Yapay zeka modellerinin insan değerleriyle uyumlu hale getirilmesi için kullanılan İnsan Geri Bildirimli Pekiştirmeli Öğrenme (RLHF) yöntemlerinde önemli bir sorun tespit edildi. Araştırmacılar, Maksimum Entropi RL yaklaşımının beklenenden çok daha riskli olduğunu ortaya koydu.
Çalışma, öncelikle Basit Tercih Optimizasyonu (SimPO) yönteminin Maksimum Entropi Pekiştirmeli Öğrenme olarak türetilebileceğini matematiksel olarak gösterdi. Bu keşif, referans-bağımsız bu yönteme teorik bir temel sağlıyor.
Ancak asıl çarpıcı bulgular, çevrimiçi RLHF ortamlarında yapılan deneylerde ortaya çıktı. Maksimum Entropi RL'nin farklı model ölçeklerinde sıklıkla aşırı optimizasyon ve kararsız KL dinamikleri sergilediği gözlemlendi. En dikkat çekici nokta, bu sorunların muhafazakar öğrenme oranları kullanıldığında bile devam etmesi.
Geleneksel KL-kısıtlı yöntemler kararlı eğitim süreci sağlarken, entropi düzenlemenin ödül manipülasyonunu güvenilir şekilde engelleyemediği belirlendi. Paradoks olarak, entropi düzenlemesi aşırı optimizasyondan korunmak yerine bu durumun başlangıcıyla ilişkilendirildi. Eğitimin kararlı kaldığı durumlarda bile, stabiliteyi sağlayan faktörün entropi düzenlemesi olmadığı tespit edildi.