Stanford ve diğer üniversitelerden araştırmacılar, yapay zeka modellerinin uzun metinlerden doğru bilgi çıkarma konusundaki kritik sorununu çözen yeni bir yöntem geliştirdi. EAPO (Evidence-Augmented Policy Optimization) adı verilen bu teknik, 'samanlıkta iğne arama' olarak bilinen zorlu görevi büyük ölçüde iyileştiriyor.
Mevcut pekiştirmeli öğrenme yöntemlerinin temel sorunu, yalnızca final sonuca odaklanması ve süreç boyunca modelin nasıl karar verdiğini görmezden gelmesi. Bu durum, modelin şans eseri doğru cevap vermesini gerçek başarıdan ayırt edemiyor. Araştırmacılar, Tree-Structured Evidence Sampling adlı yöntemle uzun metinlerde en kritik darboğazın kanıt çıkarma süreci olduğunu kanıtladı.
EAPO'nun devrimci yanı, Group-Relative Evidence Reward sistemi sayesinde her adımda kanıt kalitesini değerlendirmesi. Bu sistem, modeli yalnızca doğru cevap vermeye değil, doğru gerekçelerle cevap vermeye yönlendiriyor. Adaptive Reward-Policy Co-Evolution mekanizması ise eğitim sürecinde ödül sistemini sürekli güncelleyerek tutarlı gözetim sağlıyor.
Bu gelişme, AI'ın hukuki belge analizi, bilimsel makale taraması ve kapsamlı araştırma görevlerindeki performansını önemli ölçüde artırabilir. Yöntem, modellerin sadece akıllı görünmesini değil, gerçekten güvenilir analiz yapmasını hedefliyor.