Görsel-dil modellerinde devrim: HiPrune ile %70 daha hızlı işlem

Araştırmacılar, görsel-dil modellerinin hesaplama maliyetini dramatik şekilde azaltan yenilikçi bir yöntem geliştirdi. HiPrune adlı bu teknik, yapay zekanın görsel içerikleri işlerken hangi bilgi parçalarının gerçekten önemli olduğunu akıllıca belirleyerek gereksiz hesaplamaları elimine ediyor. Yöntem, görme kodlayıcısının katmanlarının farklı türdeki görsel bilgilere farklı düzeylerde odaklandığı keşfine dayanıyor. Bu buluş, ChatGPT benzeri görsel-metin modellerinin daha verimli çalışmasını sağlayarak mobil cihazlarda bile güçlü AI uygulamalarının kullanımını kolaylaştırabilir.

Görsel içerikleri anlayıp metinle birlikte işleyebilen yapay zeka modelleri günümüzde giderek yaygınlaşıyor. Ancak bu sistemlerin en büyük sorunu, görüntüleri işlerken ortaya çıkan yoğun hesaplama yükü. Araştırmacılar bu soruna çözüm olarak HiPrune adlı yeni bir yaklaşım geliştirdi.

Çalışmanın temel keşfi, görme kodlayıcısının farklı katmanlarının görsel bilgiyi farklı şekillerde işlediği yönünde. Orta katmanlar görüntünün ana nesnelerine odaklanırken, derin katmanlar küresel bilgi içeren unsurlara öncelik veriyor. Bu hiyerarşik dikkat desenini kullanan HiPrune, görsel belirteçleri üç kategoriye ayırarak hangi bilgilerin korunması gerektiğini akıllıca belirliyor.

Yöntemin en çarpıcı yanı herhangi bir ek eğitim gerektirmemesi ve farklı model türleriyle uyumlu olması. HiPrune++, sistem komutlarını da dikkate alarak performansı daha da artırıyor. Bu gelişme, güçlü görsel-dil modellerinin mobil cihazlarda ve kaynak kısıtlı ortamlarda çalışabilmesinin önünü açabilir.

Teknoloji, mevcut yapay zeka sistemlerinin verimliliğini artırarak daha geniş kitlelerin bu gelişmiş yeteneklere erişebilmesini sağlayabilir.