Günümüzün en gelişmiş yapay zeka modelleri, yüksek çözünürlüklü görüntüleri işlerken önemli bir sorunla karşılaşıyor: Bu görüntüler çok sayıda görsel parçacığa dönüştürülüyor ve bunların büyük kısmı aslında görev için gereksiz oluyor. Araştırmacılar, bu verimsizlik problemine çözüm bulmak için yenilikçi bir yaklaşım geliştirdi.

Multi-turn Grounding-based Policy Optimization (MGPO) adı verilen bu yeni sistem, büyük çoklu modal modellerin görüntülerin tamamını işlemek yerine kilit bölgelere odaklanmasını sağlıyor. Sistem, modelin tahmin ettiği koordinatlar doğrultusunda görüntüden alt parçalar kırparak, çok turlu konuşma çerçevesinde iteratif bir şekilde çalışıyor.

Geleneksel denetimli öğrenme yöntemlerinden farklı olarak, MGPO pahalı ek etiketleme gerektirmiyor. Bunun yerine, takviyeli öğrenme tekniğini kullanan sistem, sadece verilen cevabın doğru olup olmadığından hareketle ikili bir ödül sistemi ile çalışıyor. Bu süreçte modeller, görsel konumlama yeteneklerini doğal olarak geliştiriyor.

Araştırma sırasında ortaya çıkan ilginç bir bulgu, modellerin eğitim sürecinde görsel konumlamayı otomatik olarak tetiklemekte zorlandığı yönünde. Bu keşif, gelecekteki geliştirmeler için önemli bir rehber niteliği taşıyor ve yapay zekanın görsel akıl yürütme kapasitesini artırmaya yönelik çalışmalara yeni perspektifler sunuyor.