Günümüzün büyük dil modelleri, tek turda verilen görevlerde etkileyici performans sergilerken, çok turlu konuşmalarda beklenmedik bir sorunla karşılaşıyor. Uzayan diyaloglarda bilgiler kademeli olarak açıklanırken, modellerin performansı giderek düşüyor. Bu fenomen araştırmacılar tarafından 'Konuşmada Kaybolma' (Lost-in-Conversation) olarak adlandırılıyor.
Bilim insanları bu soruna çözüm olarak RLAAR (Curriculum Reinforcement Learning with Verifiable Accuracy and Abstention Rewards) adlı yeni bir eğitim çerçevesi geliştirdi. Bu yaklaşım, modellerin sadece doğru cevap üretmesini değil, aynı zamanda çok turlu konuşma ortamında soruların çözülebilirliğini de değerlendirmesini sağlıyor.
Yöntemin temelinde yetkinlik kapısı bulunan bir müfredat sistemi yer alıyor. Bu sistem, diyalog zorluğunu kademeli olarak artırarak eğitimi stabilize ediyor ve güvenilirliği teşvik ediyor. Çok turlu, politika üzerinde yapılan denemeler ve karma ödül sistemi kullanılarak modeller, problem çözme ile bilinçli kaçınma arasında denge kurmayı öğreniyor.
Bu gelişme, yapay zeka asistanlarının daha uzun ve karmaşık konuşmalarda daha güvenilir hale gelmesini sağlayarak, erken ve hatalı cevap verme davranışlarını azaltıyor. Özellikle müşteri hizmetleri ve eğitim alanlarındaki uygulamalar için önemli bir ilerleme teşkil ediyor.