Yapay Zeka Doğru Düşünüyor Ama Yanlış Sonuca Varıyor

Araştırmacılar büyük dil modellerinin mantıksal adımları doğru şekilde izleyip yanlış sonuca vardığını keşfetti. Geliştirilen Novel Operator Test, modellerin gerçek mantık yürütme ile örüntü ezberleme arasındaki farkı ortaya çıkarıyor. Claude Sonnet gibi gelişmiş modeller bile derinlemesine mantık zincirlerinde sistematik hatalar yapıyor. Bu bulgular, AI sistemlerinin düşünme sürecinin çıktılarından farklı işlediğini gösteriyor ve mevcut değerlendirme yöntemlerinin yetersizliğini ortaya koyuyor.

Stanford ve diğer üniversitelerden araştırmacılar, büyük dil modellerinin mantıksal düşünme süreçlerinde şaşırtıcı bir paradoks keşfetti. Modeller her adımda doğru mantık yürütebiliyor ancak son aşamada yanlış cevaplara ulaşıyor.

Araştırma ekibi 'Novel Operator Test' adını verdikleri yeni bir değerlendirme yöntemi geliştirdi. Bu test, Boolean operatörlerini alışılmadık isimlerle sunarak modellerin gerçekten mantık yürütüp yürütmediğini ölçüyor. Test 1-10 derinlik seviyesinde beş farklı modelde toplam 8.100 problem üzerinde uygulandı.

En çarpıcı sonuç Claude Sonnet 4 modelinden geldi. 7. derinlik seviyesinde yapılan 31 hatanın tamamında model doğru mantık zinciri kurmuş ancak yanlış sonuç açıklamış. Karışık operatör zincirlerinde de 19 hatanın 17'sinde aynı durum gözlemlendi.

Araştırma iki tür başarısızlık türü belirledi: 2. derinlikte 'strateji başarısızlığı' ve 7. derinlikte 'içerik başarısızlığı'. İlkinde modeller kısa yoldan cevap bulmaya çalışıyor, ikincisinde ise tam mantık yürütüyor ama sistematik hatalar yapıyor.

Bu bulgular, mevcut AI değerlendirme sistemlerinin modellerin gerçek mantık yürütme kapasitelerini doğru ölçemediğini gösteriyor.