Büyük görsel-dil modelleri (LVLM), hem görsel hem de metin verilerini işleyebilen yapay zeka sistemleri olarak günümüzde kritik bir rol oynuyor. Ancak bu modellerin eğitim sürecinde karşılaşılan temel problemler, araştırmacıları yeni çözümler aramaya yöneltiyor.
Mevcut eğitim yaklaşımları iki ana kategoride toplanıyor: Denetimli İnce Ayar (SFT) ve Pekiştirmeli Öğrenme (RL). Her iki yöntemin de kendine özgü zayıflıkları bulunuyor. SFT, modeli tek bir uzman yörüngesini takip etmeye zorlarken, dağılımsal kaymaların etkisiyle modelin genel çok-modlu yeteneklerini unutmasına yol açabiliyor.
Öte yandan RL yaklaşımı, çoklu yörünge keşfi yapabilse de 'optimizasyon çöküşü' problemiyle karşılaşıyor. Bu durum, hizalanmamış bir modelin seyrek ödül yapısına sahip görsel görevlerde kendiliğinden geçerli yörüngeler üretememesi anlamına geliyor.
Yeni geliştirilen S-GRPO framework'ü, taklit öğrenmenin rehberliğini tercih optimizasyonunun çok-yörüngeli keşif yaklaşımıyla birleştirerek bu iki temel sorunu çözmeyi hedefliyor. Bu birleşik yaklaşım, görsel-dil modellerinin hem daha kararlı hem de daha verimli şekilde eğitilmesini sağlıyor.