Stanford Üniversitesi araştırmacıları, büyük dil modellerinin insan değerleriyle uyumunu artırmak için DRO-REBEL adlı yenilikçi bir yöntem geliştirdi. Bu teknik, yapay zeka alanında kritik önem taşıyan 'İnsan Geri Bildirimiyle Pekiştirmeli Öğrenme' sürecindeki temel sorunları çözmeyi hedefliyor.
Mevcut sistemlerin en büyük sorunu aşırı optimizasyon olarak adlandırılan durum. Bu durumda dil modelleri, eğitim verilerindeki hatalı bilgilere aşırı uyum sağlayarak, başlangıçta öğrendiği tercih edilen davranışlardan sapmaya başlıyor. Sonuç olarak model performansı zamanla bozuluyor.
DRO-REBEL yöntemi, bu sorunu dağılımsal olarak sağlam optimizasyon tekniklerini kullanarak çözüyor. Araştırmacılar, Wasserstein, Kullback-Leibler ve chi-kare belirsizlik kümelerini temel alan üç farklı güncelleme türü geliştirdi. Bu yaklaşım, farklı insan tercihlerini daha etkili bir şekilde işleyebiliyor ve daha az örnek veriyle çalışabiliyor.
Yöntemin en önemli avantajı, karmaşık değer ağları gerektirmeden göreli ödül regresyonuna dayalı güncellemeler yapabilmesi. Matematiksel analizler, yeni tekniğin önceki yöntemlere kıyasla daha iyi teorik garantiler sunduğunu gösteriyor. Bu gelişme, yapay zeka sistemlerinin insan değerleriyle daha uyumlu çalışması için önemli bir adım.