Stanford ve diğer önde gelen üniversitelerden araştırmacılar, görsel içeriklerle soru-cevap işlemlerinde çığır açacak KIRA (Knowledge Intensive Image Retrieval and Reasoning Architecture) adlı yeni bir yapay zeka mimarisi geliştirdi.
Metin tabanlı RAG (Retrieval Augmented Generation) sistemleri soru-cevap alanında devrim yaratmışken, bu teknolojinin görsel alanlara uyarlanması büyük zorluklar barındırıyordu. KIRA, görsel sorgular ile metin ağırlıklı bilgi tabanları arasındaki modalite farkını kapatma, anlamsal olarak zengin görsel bilgi tabanları oluşturma ve çok adımlı mantıksal çıkarım yapabilme gibi temel sorunları çözüyor.
Sistem beş ana bileşenden oluşuyor: DINO tabanlı bölge tespiti ile hiyerarşik semantik parçalama, nadir görsel kavramlar için az örnekli adaptasyon yapabilen domain-adaptif kodlayıcılar, düşünce zinciri sorgu genişletmeli çift yollu çapraz modal arama, çoklu adım mantıksal çıkarım ve görsel kanıt doğrulaması.
KIRA'nın en önemli yeniliği, üretilen cevapların görsel kanıtlarla doğrulanabilmesini sağlaması. Bu özellik, özellikle tıp, mühendislik ve bilimsel araştırma gibi uzmanlaşmış alanlarda kritik önem taşıyor.
Araştırmacılar, sistemin görsel RAG alanındaki on temel problemi çözerek yeni bir standart oluşturabileceğini ve gelecekte görsel yapay zeka uygulamalarının temelini atabileceğini belirtiyor.