Metinden görsel üreten yapay zeka sistemlerinin geliştirilmesinde önemli bir adım atılırken, araştırmacılar bu sistemlerin eğitiminde yaşanan temel bir soruna çözüm getiren yenilikçi bir yöntem ortaya koydu.
Mevcut GRPO tabanlı pekiştirmeli öğrenme yöntemlerinde, üretilen görselleri puanlayan nokta tabanlı ödül modelleri 'ödül hackleme' adı verilen bir soruna yol açıyordu. Bu problem, görseller arasındaki minimal puan farklarının normalleştirme işlemi sonrasında abartılması ve yapay zekanın önemsiz kazançlar için aşırı optimizasyon yapmasıyla ortaya çıkıyor.
Araştırma ekibi tarafından geliştirilen Pref-GRPO yöntemi, bu sorunu puan maksimizasyonu yerine tercih uyumlamasına odaklanarak çözüme kavuşturuyor. Yeni yaklaşımda görseller, her grup içinde ikili karşılaştırmalar yapılarak değerlendiriliyor ve kazanma oranı ödül sinyali olarak kullanılıyor.
Kapsamlı deneyler, Pref-GRPO'nun görsel kalitesindeki ince farkları ayırt etmede daha başarılı olduğunu ve eğitim sürecini önemli ölçüde kararlı hale getirdiğini gösteriyor. Bu gelişme, metinden görsel üretimi alanında daha güvenilir ve kaliteli sonuçlar elde edilmesine katkı sağlayacak.