Yapay Zeka Eğitiminde 'Goodhart Sorunu' İçin Yeni Çözüm: DRRO Yöntemi

4 Mayıs 2026, 07:00 2 dk okuma 0 görüntülenme arXiv — Hesaplamalı Dilbilim (cs.CL)

Paylaş: Kopyalandı!

Büyük dil modellerinin insan geri bildirimlerinden öğrenmesi sırasında yaşanan kritik bir sorun çözülmeye çalışılıyor. ChatGPT gibi modeller, insanlardan aldıkları geri bildirimlerle eğitilirken 'ödül aşırı optimizasyonu' sorunu yaşıyor - yani gerçek performans düşerken bile proxy ödül puanları yükselmeye devam edebiliyor. Bu durum, Goodhart yasası olarak bilinen 'bir ölçü hedef haline geldiğinde, artık iyi bir ölçü olmaktan çıkar' prensibinin bir yansıması. Araştırmacılar, bu soruna Wasserstein dağıtımsal olarak güçlü pişmanlık optimizasyonu (DRRO) adında yeni bir yaklaşım geliştirdi. Mevcut yöntemler genellikle aşırı kötümser sonuçlar verirken, bu yöntem daha dengeli bir çözüm sunuyor.

Yapay zeka alanında büyük dil modellerinin insan tercihlerine göre hizalanması için kullanılan RLHF (İnsan Geri Bildiriminden Pekiştirmeli Öğrenme) yönteminde kritik bir sorun tespit edildi ve bunun için yenilikçi bir çözüm önerildi.

Sorun, modellerin gerçek insan faydasını doğrudan ölçemeyip, bunun yerine öğrenilmiş bir vekil ödül sistemini kullanmasından kaynaklanıyor. Bu durum, ekonomi literatüründe Goodhart yasası olarak bilinen fenomene yol açıyor: proxy ödül puanları yükselmeye devam ederken gerçek performans düşebiliyor.

Mevcut çözümler belirsizlik cezaları, kötümser ödüller veya muhafazakar kısıtlamalar kullanıyor, ancak bunlar hesaplama açısından külfetli ve aşırı kötümser olabiliyor. Araştırmacılar, bu soruna Wasserstein dağıtımsal olarak güçlü pişmanlık optimizasyonu (DRRO) adında yeni bir yaklaşım getirdi.

DRRO yöntemi, standart dağıtımsal güçlü optimizasyondan farklı olarak, en kötü durum değerini değil, en kötü durum pişmanlığını kötümser hale getiriyor. Bu yaklaşım, mevcut yöntemlerin aşırı kötümserliğini azaltırken, ödül aşırı optimizasyonu sorununa daha dengeli bir çözüm sunuyor.

Bu gelişme, ChatGPT ve benzeri büyük dil modellerinin daha güvenilir ve insan değerleriyle uyumlu hale getirilmesi açısından önemli bir adım olarak değerlendiriliyor.

Etiketler

#yapay zeka #pekiştirmeli öğrenme #büyük dil modelleri #RLHF #optimizasyon

Özgün Kaynak

Wasserstein Distributionally Robust Regret Optimization for Reinforcement Learning from Human Feedback

https://arxiv.org/abs/2605.00155

Bu içerik, özgün kaynaktan referans alınarak yeniden yorumlanmış Türkçe bir özettir. Telif hakkı özgün yayın organına aittir.