Yapay Zeka Ajanları Sosyal Zeka Testinde Büyük Başarısızlık Yaşadı

Büyük Dil Modelleri (LLM) artık sadece metin işlemekten çıkıp özerk ajanlar haline gelirken, sosyal ortamlardaki performansları merak konusu olmuştu. Araştırmacılar, Among Us oyunundan ilham alarak SocialGrid adlı test ortamı geliştirdi ve sonuçlar oldukça düşündürücü çıktı. En güçlü açık kaynak model bile görev tamamlama ve planlama konularında %60'ın altında kalırken, sosyal zeka açısından durum daha da kötü. Yapay zeka ajanları aldatma tespitinde neredeyse rastgele tahmin seviyesinde performans gösterdi. Bu bulgular, AI ajanlarının karmaşık sosyal etkileşimlerde henüz ciddi sınırları olduğunu ortaya koyuyor.

Yapay zeka teknolojisinde yeni bir dönüm noktasına yaklaşırken, Büyük Dil Modellerinin sosyal ortamlardaki yetenekleri kritik bir test geçirdi. Araştırmacılar, popüler Among Us oyunundan esinlenerek SocialGrid adlı yenilikçi test platformunu geliştirdi.

Bu özel test ortamında AI ajanları planlama, görev yürütme ve sosyal akıl yürütme becerilerinde değerlendiriliyor. Sonuçlar, mevcut teknolojinin sınırlarını net şekilde gözler önüne seriyor. En gelişmiş açık kaynak model olan GPT-OSS-120B bile görev tamamlama ve planlama alanlarında %60'ın altında başarı gösterebildi.

Ajanların karşılaştığı temel sorunlar arasında tekrarlayan davranış kalıplarına takılıp kalma ve basit engelleri aşamama gibi navigasyon problemleri bulunuyor. Araştırmacılar bu durumu çözmek için Planning Oracle adlı yardımcı sistem geliştirdi, böylece sosyal zeka ile navigasyon becerilerini ayrı ayrı değerlendirebiliyorlar.

Planlama desteği görev tamamlanma oranlarını artırsa da, sosyal akıl yürütme hala büyük bir engel olmaya devam ediyor. En çarpıcı bulgu, ajanların aldatma tespit etme konusunda neredeyse rastgele tahmin seviyesinde kalması. Model ölçeği büyüdükçe bile bu performans iyileşmiyor, çünkü ajanlar davranışsal ipuçlarını biriktirmek yerine yüzeysel mantık yürütme yöntemlerine güveniyor.