Yapay zeka alanında büyük dil modellerinin insan tercihlerine göre hizalanması için kullanılan RLHF (İnsan Geri Bildiriminden Pekiştirmeli Öğrenme) yönteminde kritik bir sorun tespit edildi ve bunun için yenilikçi bir çözüm önerildi.
Sorun, modellerin gerçek insan faydasını doğrudan ölçemeyip, bunun yerine öğrenilmiş bir vekil ödül sistemini kullanmasından kaynaklanıyor. Bu durum, ekonomi literatüründe Goodhart yasası olarak bilinen fenomene yol açıyor: proxy ödül puanları yükselmeye devam ederken gerçek performans düşebiliyor.
Mevcut çözümler belirsizlik cezaları, kötümser ödüller veya muhafazakar kısıtlamalar kullanıyor, ancak bunlar hesaplama açısından külfetli ve aşırı kötümser olabiliyor. Araştırmacılar, bu soruna Wasserstein dağıtımsal olarak güçlü pişmanlık optimizasyonu (DRRO) adında yeni bir yaklaşım getirdi.
DRRO yöntemi, standart dağıtımsal güçlü optimizasyondan farklı olarak, en kötü durum değerini değil, en kötü durum pişmanlığını kötümser hale getiriyor. Bu yaklaşım, mevcut yöntemlerin aşırı kötümserliğini azaltırken, ödül aşırı optimizasyonu sorununa daha dengeli bir çözüm sunuyor.
Bu gelişme, ChatGPT ve benzeri büyük dil modellerinin daha güvenilir ve insan değerleriyle uyumlu hale getirilmesi açısından önemli bir adım olarak değerlendiriliyor.