Yapay zeka alanında büyük dil modellerinin kodlama yetenekleri konusunda önemli bir araştırma gerçekleştirildi. Bilim insanları, bu modellerin test aşamasında daha fazla hesaplama kaynağı kullanarak nasıl daha iyi performans gösterebildiğini inceledi.
Araştırmada geliştirilen yenilikçi yaklaşım, modellerin son cevabı vermeden önce ara mantık adımları üretmesi prensibine dayanıyor. Bu süreçte model, daha geniş bir token bütçesi kullanarak düşünce sürecini adım adım yapılandırıyor. Çalışmanın en dikkat çekici bulgusu, mantık yürütme izinin sadece içeriğinin değil, yapısının da doğruluk açısından güçlü bir belirleyici olmasıydı.
Mevcut değerlendirme yöntemlerinin çoğunlukla rekabetçi programlama ölçütlerine dayandığını belirten araştırmacılar, bu yaklaşımın tüm mantık yürütme yeteneklerini kapsamadığını vurguladı. Bu eksikliği gidermek için, mevcut ölçütlerden hareketle keyfi zorluk ve yapıda kodlama görevleri otomatik olarak üreten programatik bir çerçeve geliştirdiler.
Bu yeni framework sayesinde, sınır seviyesindeki mantık yürütme modellerinin gerçek dünya kodlama ölçütlerindeki performansları sistematik olarak analiz edilebiliyor. Çalışma, yapay zeka modellerinin kodlama yeteneklerini daha kapsamlı ve doğru şekilde değerlendirmek için önemli bir adım teşkil ediyor.