Yapay zeka alanında büyük dil modellerinin akıl yürütme yetenekleri, son yıllarda dikkat çeken gelişmelerden biri. Araştırmacılar, bu modellerin doğrulanabilir ödül sistemleriyle pekiştirmeli öğrenme yoluyla nasıl daha iyi akıl yürütebildiğini inceliyor.
Yeni bir araştırma, modellerin yetenekleri geliştikçe kaliteli ödül sinyalleri oluşturmanın zorlaştığı gerçeğinden yola çıkarak, zayıf gözetim koşullarında pekiştirmeli öğrenmenin etkinliğini sistematik olarak analiz etti. Çalışma, üç farklı zayıf gözetim senaryosunda gerçekleştirildi: kısıtlı veri, gürültülü ödüller ve kendini denetleyen vekil ödüller.
Araştırmanın en çarpıcı bulgusu, genelleme yeteneğinin eğitim ödülü doygunluk dinamikleriyle yakından ilişkili olması. Başarıyla genelleme yapan modeller, eğitim ödülü ve gerçek performansın birlikte yükseldiği uzun bir doygunluk öncesi evre gösteriyor. Bu evrede modeller gerçekten öğrenme gerçekleştiriyor.
Buna karşılık, hızla doygunluğa ulaşan modeller ise öğrenmek yerine ezberlemede kalıyor ve yeni durumlara uyum sağlayamıyor. Araştırmacılar, ara adımların nihai cevabı mantıksal olarak destekleme derecesi olarak tanımladıkları 'akıl yürütme sadakati' kavramının, pekiştirmeli öğrenme öncesi dönemde kritik bir özellik olduğunu belirledi.