Görsel-Dil AI'ları için Yeni Eğitim Yöntemi: S-GRPO

Araştırmacılar, büyük görsel-dil modellerinin eğitiminde karşılaşılan temel sorunları çözen yeni bir yaklaşım geliştirdi. Mevcut yöntemler ya modelin genel yeteneklerini unutmasına ya da optimizasyon çöküşüne neden oluyordu. Supervised Group Relative Policy Optimization (S-GRPO) adlı yeni framework, denetimli öğrenme ile pekiştirmeli öğrenmeyi birleştirerek bu sorunları aşıyor. Bu gelişme, görsel içeriği anlayabilen ve metinle etkileşim kurabilen yapay zeka sistemlerinin daha verimli eğitilmesi açısından önemli bir adım.

Büyük görsel-dil modelleri (LVLM), hem görsel hem de metin verilerini işleyebilen yapay zeka sistemleri olarak günümüzde kritik bir rol oynuyor. Ancak bu modellerin eğitim sürecinde karşılaşılan temel problemler, araştırmacıları yeni çözümler aramaya yöneltiyor.

Mevcut eğitim yaklaşımları iki ana kategoride toplanıyor: Denetimli İnce Ayar (SFT) ve Pekiştirmeli Öğrenme (RL). Her iki yöntemin de kendine özgü zayıflıkları bulunuyor. SFT, modeli tek bir uzman yörüngesini takip etmeye zorlarken, dağılımsal kaymaların etkisiyle modelin genel çok-modlu yeteneklerini unutmasına yol açabiliyor.

Öte yandan RL yaklaşımı, çoklu yörünge keşfi yapabilse de 'optimizasyon çöküşü' problemiyle karşılaşıyor. Bu durum, hizalanmamış bir modelin seyrek ödül yapısına sahip görsel görevlerde kendiliğinden geçerli yörüngeler üretememesi anlamına geliyor.

Yeni geliştirilen S-GRPO framework'ü, taklit öğrenmenin rehberliğini tercih optimizasyonunun çok-yörüngeli keşif yaklaşımıyla birleştirerek bu iki temel sorunu çözmeyi hedefliyor. Bu birleşik yaklaşım, görsel-dil modellerinin hem daha kararlı hem de daha verimli şekilde eğitilmesini sağlıyor.