"dijital davranış" için 1347 sonuç bulundu
× Aramayı temizle
Arama Sonuçları
1347 haber
Büyük Dil Modelleri Zararlı İçeriği Tek ve Birleşik Bir Mekanizma ile Üretiyor
Araştırmacılar, büyük dil modellerinin zararlı davranışları engellemek için aldıkları güvenlik önlemlerinin neden bu kadar kırılgan olduğunu keşfetti. Jailbreak saldırılarının ve dar alanlardaki fine-tuning işlemlerinin güvenlik duvarlarını nasıl aştığını açıklayan birleşik bir mekanizma tespit edildi.
arXiv · 34 gün önce
0
Yapay Zeka Ajanları Arasında Stratejik Algoritmic Monoculture: Koordinasyon Oyunlarından Deneysel Kanıtlar
Araştırmacılar, AI ajanlarının çok-ajanlı ortamlarda nasıl koordine olduğunu ve teşviklere yanıt olarak davranış benzerliklerini nasıl ayarladığını inceledi. Çalışma, birincil ve stratejik algoritmik monoculture arasındaki farkı ortaya koyuyor.
arXiv · 34 gün önce
0