Büyük dil modellerinin akıl yürütme yetenekleri son yıllarda büyük ilerleme kaydetse de, beklenmedik bir sorunla karşılaştık: modeller bazen çok fazla düşünüyor. Araştırmacılar, bu sistemlerin doğru bir ara çözüme ulaştıktan sonra düşünmeye devam ettiğinde yanlış cevaplara varabileceğini keşfetti.
Chain-of-Thought (CoT) akıl yürütme kullanan Büyük Akıl Yürütme Modelleri, matematik, bilimsel sorular ve araç kullanımında başarılı performans gösteriyor. Ancak bu süreçte 'aşırı düşünme' problemi ortaya çıkıyor: modeller doğru çözüme ulaştıktan sonra da işlem yapmaya devam ederek ilk doğru cevaplarını yanlış sonuçlarla değiştiriyor.
Araştırmacılar önce oracle durma testi uyguladı. Bu testte her cümle sonunda durma seçeneği sunuldu ve geriye dönük olarak en iyi durma noktası seçildi. Sonuçlar çarpıcıydı: ortalama doğruluk %8 artarken, düşünme token'ları %72 azaldı.
Bu bulgulardan hareketle geliştirilen ThinkBrake sistemi, modelin log-olasılık marjını izleyerek çalışıyor. Sistem, en olası devam token'ı ile durma token'ı arasındaki marjı takip ediyor ve bu marj daraldığında akıl yürütme sürecini durduruyor.
ThinkBrake'in en büyük avantajı hiçbir ek eğitim gerektirmemesi. Sistem, matematik, bilimsel soru-cevap ve araç kullanımı testlerinde doğruluk ve verimlilik arasında ideal dengeyi kurarak düşünme token'ı kullanımını önemli ölçüde azaltıyor.