Araştırmacılar, büyük dil modellerinin (LLM) argümantasyon yeteneklerini kapsamlı şekilde değerlendiren ilk standardize kıyaslama sistemini geliştirdi. ArgBench adı verilen bu sistem, 33 farklı veri setini birleştirerek 46 ayrı argümantasyon görevini kapsıyor. Sistem, yapay zeka modellerinin argüman madenciliği, bakış açısı değerlendirmesi, argüman kalitesi analizi, mantıksal çıkarım ve argüman üretimi gibi kritik becerilerdeki performanslarını ölçüyor. Beş farklı model ailesinin test edildiği araştırmada, modellerin örneklerden öğrenme, mantıksal adımlama, boyut ve eğitim becerilerinin tartışma performansına etkisi sistematik olarak analiz edildi. Bu çalışma, yapay zeka modellerinin insan benzeri tartışma yeteneklerini geliştirmek için önemli bir referans noktası oluşturuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

18 Apr

Yapay zeka ajanları artık çelişkili anıları bir arada saklayabilecek

Araştırmacılar, yapay zeka ajanlarının aynı olayları farklı bakış açılarından değerlendirip saklayabileceği yeni bir hafıza mimarisi geliştirdi. 'Rashomon Hafızası' olarak adlandırılan bu sistem, bir müzakerede yapılan tavizin hem güven inşası hem de yükümlülük olarak görülmesine olanak tanıyor. Mevcut hafıza sistemleri tek bir doğru kodlama varsayımına dayanırken, yeni yaklaşım paralel çalışan ajanların kendi önceliklerine göre deneyimleri kodlamalarını sağlıyor. Sistem, sorgu anında farklı perspektiflerin argümantasyon yoluyla müzakere etmesine dayanıyor.

arXiv (CS + AI) 0