Yapay zeka alanında devrim yaratan büyük dil modelleri, adım adım düşünme (Chain-of-Thought) tekniğiyle karmaşık problemleri çözme konusunda etkileyici başarılar gösteriyor. Ancak Stanford Üniversitesi araştırmacılarının yaptığı yeni çalışma, bu modellerin mantıksal hatalar karşısındaki kırılganlığını gözler önüne seriyor.
Araştırma ekibi, 13 farklı yapay zeka modelini test ederek, düşünme zincirlerindeki bozulmalara karşı dayanıklılık seviyelerini ölçtü. Çalışmada 5 temel hata türü incelendi: matematik hataları, birim dönüştürme problemleri, dalkavukluk davranışı, atlanan adımlar ve gereksiz ekstra adımlar.
En çarpıcı bulgular matematik hatalarında ortaya çıktı. Küçük ölçekli modeller bu tür hatalarda %50-60 oranında başarı kaybı yaşarken, büyük modeller bu duruma karşı daha dayanıklı olduğunu gösterdi. Öte yandan birim dönüştürme hataları, orta büyüklükteki modellerde bile %5'ten fazla performans düşüşüne neden olarak, tüm ölçeklerde zorlu bir problem olarak karşımıza çıkıyor.
Bu araştırma, yapay zeka sistemlerinin güvenilirliği açısından kritik sorular gündeme getiriyor. Özellikle tıp, finans ve eğitim gibi hassas alanlarda kullanılan AI sistemlerinin, küçük hatalar karşısında nasıl davrandığını anlamak büyük önem taşıyor.