Yapay zeka alanında çığır açan yeni bir çalışma, büyük dil modellerinin konuşma ortamlarında beklenmedik zorluklarla karşılaştığını ortaya çıkardı. Araştırmacılar, bu modellerin standart testlerde gösterdikleri yüksek başarının, gerçek yaşam senaryolarında tekrarlanmadığını keşfetti.
Çalışmada geliştirilen BOULDER test sistemi, sekiz farklı seyahat konulu görev üzerinden modellerin matematiksel, mekansal ve zamansal akıl yürütme becerilerini ölçüyor. Bu görevler hem izole şekilde hem de diyalog içinde sunularak, kontrollü bir karşılaştırma imkanı sağlıyor. Test edilen sekiz büyük dil modelinin tamamında tutarlı bir performans düşüşü gözlemlendi.
Sonuçların ardında yatan temel neden, diyalog ortamında modellerin aynı anda birden fazla görevi yerine getirmek zorunda kalması. Rol oynama, belirli bir format takip etme ve üslup korunumu gibi ek yükümlülükler, modellerin akıl yürütme kapasitesini olumsuz etkiliyor.
Bu bulgular, yapay zeka değerlendirme sistemlerinin yeniden gözden geçirilmesi gerektiğine işaret ediyor. Mevcut benchmark testlerin gerçek dünya performansını yansıtmada yetersiz kalması, sektörde yeni değerlendirme yaklaşımlarının benimsenmesini zorunlu kılıyor.