Yapay zeka teknolojisinin hızla gelişmesiyle birlikte, büyük dil modellerinin (LLM) karmaşık sosyal durumlarla nasıl başa çıktığı önemli bir araştırma alanı haline geldi. Yeni bir çalışmada araştırmacılar, bu modellerin rol çatışması yaşadığında nasıl karar verdiğini anlamak için kapsamlı bir test platformu oluşturdu.

RoleConflictBench adı verilen bu yeni benchmark, yapay zeka modellerinin farklı rollerin beklentileri çatıştığında durumdaki ipuçlarını mı yoksa önceden öğrendiği tercihleri mi öncelediğini ölçmeyi amaçlıyor. Örneğin, bir kişinin hem ebeveyn hem de çalışan rollerinin aynı anda farklı beklentiler yaratması gibi durumlar insan yaşamında oldukça yaygındır.

Araştırma ekibi, objektif değerlendirme yapabilmek için 'durumsal aciliyet' kavramını kullandı. Üç aşamalı bir süreçle oluşturdukları veri seti, 65 farklı social rol ve beş ana toplumsal alanda 13.000'den fazla gerçekçi senaryo içeriyor. Bu senaryolar, rekabet halindeki durumların aciliyet derecelerini sistematik olarak değiştirerek tasarlandı.

Bu kontrollü yaklaşım sayesinde araştırmacılar, yapay zeka modellerinin bağlamsal duyarlılığını nicel olarak ölçebiliyor. Çalışma, AI sistemlerinin insan benzeri sosyal karar verme süreçlerini ne kadar başarılı bir şekilde taklit edebildiğini anlamamıza önemli katkılar sağlıyor.