Yapay Zeka Görsel Üretiminde Kararlılığı Artıran Yeni Yöntem Geliştirildi

21 Nisan 2026, 07:00 2 dk okuma 0 görüntülenme arXiv (CS + AI)

Paylaş: Kopyalandı!

Araştırmacılar, metinden görsel üreten yapay zeka sistemlerinin eğitiminde yaşanan kararsızlık sorununa çözüm getiren Pref-GRPO adlı yeni bir yöntem geliştirdi. Mevcut sistemlerde, görselleri puanlayan ödül modellerinin küçük puan farklarını abartması nedeniyle 'ödül hackleme' sorunu yaşanıyordu. Bu durum, yapay zekanın önemsiz detaylar için aşırı optimizasyon yapmasına ve görsel üretim sürecinin bozulmasına yol açıyordu. Yeni yöntem, puanları maksimize etmek yerine görselleri ikili karşılaştırmalar yaparak değerlendiriyor ve kazanma oranını ödül sinyali olarak kullanıyor. Bu yaklaşım, eğitim sürecini daha kararlı hale getirerek kaliteli görsel üretimini destekliyor.

Metinden görsel üreten yapay zeka sistemlerinin geliştirilmesinde önemli bir adım atılırken, araştırmacılar bu sistemlerin eğitiminde yaşanan temel bir soruna çözüm getiren yenilikçi bir yöntem ortaya koydu.

Mevcut GRPO tabanlı pekiştirmeli öğrenme yöntemlerinde, üretilen görselleri puanlayan nokta tabanlı ödül modelleri 'ödül hackleme' adı verilen bir soruna yol açıyordu. Bu problem, görseller arasındaki minimal puan farklarının normalleştirme işlemi sonrasında abartılması ve yapay zekanın önemsiz kazançlar için aşırı optimizasyon yapmasıyla ortaya çıkıyor.

Araştırma ekibi tarafından geliştirilen Pref-GRPO yöntemi, bu sorunu puan maksimizasyonu yerine tercih uyumlamasına odaklanarak çözüme kavuşturuyor. Yeni yaklaşımda görseller, her grup içinde ikili karşılaştırmalar yapılarak değerlendiriliyor ve kazanma oranı ödül sinyali olarak kullanılıyor.

Kapsamlı deneyler, Pref-GRPO'nun görsel kalitesindeki ince farkları ayırt etmede daha başarılı olduğunu ve eğitim sürecini önemli ölçüde kararlı hale getirdiğini gösteriyor. Bu gelişme, metinden görsel üretimi alanında daha güvenilir ve kaliteli sonuçlar elde edilmesine katkı sağlayacak.

Etiketler

#yapay zeka #görsel üretimi #pekiştirmeli öğrenme #makine öğrenmesi #GRPO

Özgün Kaynak

Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning

https://arxiv.org/abs/2508.20751

Bu içerik, özgün kaynaktan referans alınarak yeniden yorumlanmış Türkçe bir özettir. Telif hakkı özgün yayın organına aittir.