Yapay Zeka Modelleri Yüksek Çözünürlüklü Görüntüleri Daha Akıllıca İşliyor

21 Nisan 2026, 07:00 2 dk okuma 0 görüntülenme arXiv (CS + AI)

Paylaş: Kopyalandı!

Araştırmacılar, büyük çoklu modal AI modellerinin yüksek çözünürlüklü görüntülerde karşılaştığı verimsizlik sorununu çözmek için yeni bir yöntem geliştirdi. MGPO adlı bu sistem, modellerin görüntünün tamamını işlemek yerine önemli bölgelere odaklanmasını sağlıyor. Takviyeli öğrenme tekniği kullanan yöntem, modelin kendi kendine görüntüde hangi alanların kritik olduğunu öğrenmesini ve bu bölgeleri otomatik olarak kırparak analiz etmesini mümkün kılıyor. Bu yaklaşım, pahalı ek etiketleme gerektiren geleneksel yöntemlere alternatif sunuyor ve modellerin sadece doğru cevap verip vermediğine bakarak öğrenmesini sağlıyor. Geliştirilen sistem, görsel akıl yürütme görevlerinde daha etkili performans gösteriyor.

Günümüzün en gelişmiş yapay zeka modelleri, yüksek çözünürlüklü görüntüleri işlerken önemli bir sorunla karşılaşıyor: Bu görüntüler çok sayıda görsel parçacığa dönüştürülüyor ve bunların büyük kısmı aslında görev için gereksiz oluyor. Araştırmacılar, bu verimsizlik problemine çözüm bulmak için yenilikçi bir yaklaşım geliştirdi.

Multi-turn Grounding-based Policy Optimization (MGPO) adı verilen bu yeni sistem, büyük çoklu modal modellerin görüntülerin tamamını işlemek yerine kilit bölgelere odaklanmasını sağlıyor. Sistem, modelin tahmin ettiği koordinatlar doğrultusunda görüntüden alt parçalar kırparak, çok turlu konuşma çerçevesinde iteratif bir şekilde çalışıyor.

Geleneksel denetimli öğrenme yöntemlerinden farklı olarak, MGPO pahalı ek etiketleme gerektirmiyor. Bunun yerine, takviyeli öğrenme tekniğini kullanan sistem, sadece verilen cevabın doğru olup olmadığından hareketle ikili bir ödül sistemi ile çalışıyor. Bu süreçte modeller, görsel konumlama yeteneklerini doğal olarak geliştiriyor.

Araştırma sırasında ortaya çıkan ilginç bir bulgu, modellerin eğitim sürecinde görsel konumlamayı otomatik olarak tetiklemekte zorlandığı yönünde. Bu keşif, gelecekteki geliştirmeler için önemli bir rehber niteliği taşıyor ve yapay zekanın görsel akıl yürütme kapasitesini artırmaya yönelik çalışmalara yeni perspektifler sunuyor.

Etiketler

#yapay zeka #görüntü işleme #takviyeli öğrenme #çoklu modal #görsel akıl yürütme

Özgün Kaynak

High-Resolution Visual Reasoning via Multi-Turn Grounding-Based Reinforcement Learning

https://arxiv.org/abs/2507.05920

Bu içerik, özgün kaynaktan referans alınarak yeniden yorumlanmış Türkçe bir özettir. Telif hakkı özgün yayın organına aittir.