Stanford Üniversitesi araştırmacıları, büyük dil modellerinin pekiştirmeli öğrenme sürecindeki temel bir kısıtı aşan yenilikçi bir yöntem geliştirdi. SPS (Steering Probability Squeezing) olarak adlandırılan bu yaklaşım, yapay zekanın öğrenme sürecinde karşılaştığı 'sıkışma etkisi' problemine çözüm sunuyor.
Pekiştirmeli öğrenmede modeller genellikle tek örnek başarı oranını (Pass@1) artırırken, çoklu örneklem performansı (Pass@k) için kritik olan çeşitli muhakeme rotalarını keşfetme konusunda yetersiz kalıyor. Araştırma ekibinin analizleri, bu sınırlılığın olasılık kütlesinin dar bir yüksek-ödül rotası alt kümesine aşırı derecede yoğunlaşmasından kaynaklandığını ortaya koydu.
SPS yöntemi, bu sorunu konvansiyonel pekiştirmeli öğrenmeyi ters pekiştirmeli öğrenme (IRL) ile birleştirerek çözüyor. Sistem, politika üzerindeki rollout'ları gösteri olarak değerlendiriyor ve IRL kullanarak indüklenen rota dağılımını açık şekilde yeniden biçimlendiriyor.
Bu yaklaşım, modelin sadece en yüksek ödüllü tek bir stratejiye odaklanması yerine, farklı çözüm yollarını keşfetmesini teşvik ediyor. Sonuçta yapay zeka, çeşitli senaryolarda daha esnek ve etkili performans sergileyebiliyor. Özellikle karmaşık muhakeme gerektiren görevlerde bu çeşitlilik, genel başarı oranını önemli ölçüde artırıyor.