Stanford ve diğer üniversitelerden araştırmacılar, büyük dil modellerinin mantıksal düşünme süreçlerinde şaşırtıcı bir paradoks keşfetti. Modeller her adımda doğru mantık yürütebiliyor ancak son aşamada yanlış cevaplara ulaşıyor.
Araştırma ekibi 'Novel Operator Test' adını verdikleri yeni bir değerlendirme yöntemi geliştirdi. Bu test, Boolean operatörlerini alışılmadık isimlerle sunarak modellerin gerçekten mantık yürütüp yürütmediğini ölçüyor. Test 1-10 derinlik seviyesinde beş farklı modelde toplam 8.100 problem üzerinde uygulandı.
En çarpıcı sonuç Claude Sonnet 4 modelinden geldi. 7. derinlik seviyesinde yapılan 31 hatanın tamamında model doğru mantık zinciri kurmuş ancak yanlış sonuç açıklamış. Karışık operatör zincirlerinde de 19 hatanın 17'sinde aynı durum gözlemlendi.
Araştırma iki tür başarısızlık türü belirledi: 2. derinlikte 'strateji başarısızlığı' ve 7. derinlikte 'içerik başarısızlığı'. İlkinde modeller kısa yoldan cevap bulmaya çalışıyor, ikincisinde ise tam mantık yürütüyor ama sistematik hatalar yapıyor.
Bu bulgular, mevcut AI değerlendirme sistemlerinin modellerin gerçek mantık yürütme kapasitelerini doğru ölçemediğini gösteriyor.