Yapay Zeka Modellerinin Akıl Yürütme Becerisi İçin Yeni Değerlendirme Yöntemi

Araştırmacılar, büyük dil modellerinin matematiksel ve mantıksal problemleri çözerken hangi çözüm yolunun doğru olduğunu belirlemek için PiCSAR adlı yeni bir yöntem geliştirdi. Bu yöntem, modelin ürettiği akıl yürütme zincirini ve nihai cevabı birlikte değerlendirerek doğru çözümü seçiyor. Geleneksel yöntemlere göre yarı yarıya daha az örnekle daha yüksek başarı elde eden PiCSAR, yapay zekanın problem çözme kapasitesini artırmada önemli bir adım. MATH500 testinde 10.18, AIME2025'te ise 9.81 puan artış sağlayan bu yaklaşım, doğru akıl yürütme zincirlerinin daha yüksek güven skoru gösterdiğini ortaya koyuyor. Ek eğitim gerektirmemesi nedeniyle pratik uygulamalarda kolayca kullanılabilir.

Yapay zeka alanında önemli bir gelişme yaşanırken, araştırmacılar büyük dil modellerinin akıl yürütme yeteneklerini değerlendirmek için PiCSAR (Probabilistic Confidence Selection And Ranking) adlı yenilikçi bir yöntem ortaya koydu.

Mevcut yaklaşımlar, yapay zeka modellerinin matematiksel ve mantıksal problemleri çözerken birden fazla çözüm yolu üretmesine ve bunlar arasından en iyisini seçmesine dayanıyor. Ancak doğru cevabı önceden bilmeden hangi akıl yürütme zincirinin doğru olduğunu belirlemek büyük bir zorluk teşkil ediyordu.

PiCSAR yöntemi bu soruna özgün bir çözüm getiriyor. Sistem, modelin ürettiği akıl yürütme sürecini ve nihai cevabı birlikte analiz ederek bir güven skoru hesaplıyor. Bu skorlama, akıl yürütme güveni ve cevap güveni olmak üzere iki bileşene ayrılarak daha hassas bir değerlendirme sunuyor.

Yöntemin test sonuçları oldukça etkileyici. MATH500 benchmark testinde 10.18, AIME2025'te 9.81 puan artış kaydeden PiCSAR, 20 karşılaştırmanın 16'sında rakip yöntemlerden en az iki kat daha az örnekle daha iyi performans gösterdi.

Araştırma bulgularına göre, doğru akıl yürütme zincirleri belirgin şekilde daha yüksek güven skorları sergiliyor. Bu özellik, sistemin doğru çözümleri etkili bir şekilde ayırt edebilmesini sağlıyor. Ek eğitim gerektirmemesi de yöntemin pratik uygulamalarda kolayca benimsenebilir olmasına katkıda bulunuyor.