Görsel içerikleri anlayıp metinle birlikte işleyebilen yapay zeka modelleri günümüzde giderek yaygınlaşıyor. Ancak bu sistemlerin en büyük sorunu, görüntüleri işlerken ortaya çıkan yoğun hesaplama yükü. Araştırmacılar bu soruna çözüm olarak HiPrune adlı yeni bir yaklaşım geliştirdi.
Çalışmanın temel keşfi, görme kodlayıcısının farklı katmanlarının görsel bilgiyi farklı şekillerde işlediği yönünde. Orta katmanlar görüntünün ana nesnelerine odaklanırken, derin katmanlar küresel bilgi içeren unsurlara öncelik veriyor. Bu hiyerarşik dikkat desenini kullanan HiPrune, görsel belirteçleri üç kategoriye ayırarak hangi bilgilerin korunması gerektiğini akıllıca belirliyor.
Yöntemin en çarpıcı yanı herhangi bir ek eğitim gerektirmemesi ve farklı model türleriyle uyumlu olması. HiPrune++, sistem komutlarını da dikkate alarak performansı daha da artırıyor. Bu gelişme, güçlü görsel-dil modellerinin mobil cihazlarda ve kaynak kısıtlı ortamlarda çalışabilmesinin önünü açabilir.
Teknoloji, mevcut yapay zeka sistemlerinin verimliliğini artırarak daha geniş kitlelerin bu gelişmiş yeteneklere erişebilmesini sağlayabilir.