Yapay zeka alanında büyük dil modellerinin akıl yürütme yetenekleri konusunda önemli bir araştırma yayımlandı. Araştırmacılar, bu modellerin gerçek mantıksal düşünce kapasitelerini ölçmek için yenilikçi bir test sistemi geliştirdi.
Çalışmada Boolean Tatminliği, Kriptaritmetik, Graf Boyama, Nehir Geçme, Hanoi Kulesi, Su Kabı, Dama Atlama, Sudoku ve Rubik Küpü olmak üzere dokuz farklı klasik akıl yürütme problemi kullanıldı. Her problem, temel anlamını koruyarak karmaşıklık seviyesinin hassas bir şekilde ayarlanabilmesi için özel olarak parametrize edildi.
Test sonuçları, mevcut büyük dil modellerinin problem karmaşıklığı arttıkça performanslarında dramatik düşüşler yaşadığını ortaya koydu. Araştırmacılar, hem açık kaynak kodlu hem de ticari modelleri düşük, orta ve yüksek karmaşıklık seviyelerinde değerlendirerek, modellerin karmaşık mantıksal işlemlerde belirgin sınırlarının bulunduğunu tespit etti.
Bu bulgular, yapay zeka sistemlerinin akıl yürütme yetenekleri hakkındaki mevcut değerlendirme yöntemlerinin yetersizliğini gözler önüne seriyor. Çalışma, gelecekteki AI sistemlerinin gerçek mantıksal kapasitelerini daha doğru ölçebilmek için kontrollü test ortamlarının önemini vurguluyor.