Yapay zeka alanında önemli bir gelişme yaşanırken, araştırmacılar büyük dil modellerinin akıl yürütme yeteneklerini değerlendirmek için PiCSAR (Probabilistic Confidence Selection And Ranking) adlı yenilikçi bir yöntem ortaya koydu.
Mevcut yaklaşımlar, yapay zeka modellerinin matematiksel ve mantıksal problemleri çözerken birden fazla çözüm yolu üretmesine ve bunlar arasından en iyisini seçmesine dayanıyor. Ancak doğru cevabı önceden bilmeden hangi akıl yürütme zincirinin doğru olduğunu belirlemek büyük bir zorluk teşkil ediyordu.
PiCSAR yöntemi bu soruna özgün bir çözüm getiriyor. Sistem, modelin ürettiği akıl yürütme sürecini ve nihai cevabı birlikte analiz ederek bir güven skoru hesaplıyor. Bu skorlama, akıl yürütme güveni ve cevap güveni olmak üzere iki bileşene ayrılarak daha hassas bir değerlendirme sunuyor.
Yöntemin test sonuçları oldukça etkileyici. MATH500 benchmark testinde 10.18, AIME2025'te 9.81 puan artış kaydeden PiCSAR, 20 karşılaştırmanın 16'sında rakip yöntemlerden en az iki kat daha az örnekle daha iyi performans gösterdi.
Araştırma bulgularına göre, doğru akıl yürütme zincirleri belirgin şekilde daha yüksek güven skorları sergiliyor. Bu özellik, sistemin doğru çözümleri etkili bir şekilde ayırt edebilmesini sağlıyor. Ek eğitim gerektirmemesi de yöntemin pratik uygulamalarda kolayca benimsenebilir olmasına katkıda bulunuyor.