Yapay zeka teknolojisinde yeni bir dönüm noktasına yaklaşırken, Büyük Dil Modellerinin sosyal ortamlardaki yetenekleri kritik bir test geçirdi. Araştırmacılar, popüler Among Us oyunundan esinlenerek SocialGrid adlı yenilikçi test platformunu geliştirdi.
Bu özel test ortamında AI ajanları planlama, görev yürütme ve sosyal akıl yürütme becerilerinde değerlendiriliyor. Sonuçlar, mevcut teknolojinin sınırlarını net şekilde gözler önüne seriyor. En gelişmiş açık kaynak model olan GPT-OSS-120B bile görev tamamlama ve planlama alanlarında %60'ın altında başarı gösterebildi.
Ajanların karşılaştığı temel sorunlar arasında tekrarlayan davranış kalıplarına takılıp kalma ve basit engelleri aşamama gibi navigasyon problemleri bulunuyor. Araştırmacılar bu durumu çözmek için Planning Oracle adlı yardımcı sistem geliştirdi, böylece sosyal zeka ile navigasyon becerilerini ayrı ayrı değerlendirebiliyorlar.
Planlama desteği görev tamamlanma oranlarını artırsa da, sosyal akıl yürütme hala büyük bir engel olmaya devam ediyor. En çarpıcı bulgu, ajanların aldatma tespit etme konusunda neredeyse rastgele tahmin seviyesinde kalması. Model ölçeği büyüdükçe bile bu performans iyileşmiyor, çünkü ajanlar davranışsal ipuçlarını biriktirmek yerine yüzeysel mantık yürütme yöntemlerine güveniyor.