Yapay zeka alanında çok modalli büyük dil modellerinin gelişimini yönlendiren Group Relative Policy Optimization (GRPO) yaklaşımının başarısını açık kaynak modellere taşımak, araştırmacılar için büyük zorluklar barındırıyordu. Bu zorlukların başında, farklı görsel görevlerdeki ödül topografilerindeki aşırı varyans ve detaylı algıyla çok adımlı mantık yürütme yetenekleri arasındaki dengeyi kurmanın zorluğu geliyordu.
Araştırmacılar bu sorunlara çözüm olarak Gaussian GRPO (G²RPO) adında yenilikçi bir pekiştirmeli öğrenme eğitim hedefi geliştirdi. Bu yöntem, standart doğrusal ölçekleme yerine doğrusal olmayan dağılımsal eşleştirme kullanıyor. G²RPO'nun temel prensibi, herhangi bir görevin avantaj dağılımını matematiksel olarak standart normal dağılım olan N(0,1)'e yakınlaştırmaya zorlamak.
Bu yaklaşımın teorik faydaları önemli. Görevler arası gradient eşitliğini garanti ederken, ağır kuyruklu aykırı değerlere karşı dayanıklılığı artırıyor ve pozitif güncellemeler için simetrik yapı sunuyor. Yöntemin, çok modalli yapay zeka modellerinin çeşitli görsel görevlerdeki performansını dengeli bir şekilde geliştirmesi bekleniyor.
Bu gelişme, açık kaynak çok modalli genelci modellerin gelişiminde karşılaşılan temel engelleri aşmaya yönelik önemli bir adım olarak değerlendiriliyor ve yapay zeka topluluğunun bu alandaki ilerlemesine katkı sağlayabilir.