Stanford ve diğer önde gelen kurumlardan araştırmacılar, bilgisayarlı görü alanında önemli bir atılım gerçekleştirdi. Geliştirdikleri MARCO sistemi, farklı görsellerdeki semantik olarak benzer öğeleri eşleştirme konusunda yeni standartlar belirliyor.
Mevcut yapay zeka modelleri, DINOv2 ve difüzyon modellerini birleştiren milyarlarca parametreli karmaşık yapılar kullanıyor. Ancak bu sistemlerin temel bir sorunu var: sadece eğitim sırasında gördükleri belirli noktalarda başarılı olabiliyorlar. Gerçek dünya uygulamalarında ise sorgulanacak noktalar nadiren eğitim verisiyle birebir örtüşüyor.
MARCO, bu sorunu kökten farklı bir yaklaşımla çözüyor. Sistem, kaba-ince detay hedefleme stratejisi ile mekansal hassasiyeti artırırken, kendi kendine öğrenme çerçevesiyle de seyrek denetimi etiketli bölgelerin ötesine taşıyor. Bu sayede az sayıda anahtar noktayı, yoğun ve anlam bütünlüğü olan eşleştirmelere dönüştürebiliyor.
Test sonuçları etkileyici: SPair-71k, AP-10K ve PF-PASCAL veri setlerinde yeni rekorlar kırılırken, özellikle ince detay lokalizasyonunda %8'e varan iyileştirmeler kaydedildi. Bu başarı, robotik manipülasyon, artırılmış gerçeklik uygulamaları ve medikal görüntü analizi gibi alanlarda pratik uygulamalar için umut veriyor.