Bilgisayarlı görü alanında önemli bir gelişme yaşanıyor. Araştırmacılar, videolardaki belirli nesneleri tanımlamak için sadece metin açıklamalarını kullanan yenilikçi bir yapay zeka sistemi geliştirdi.
WSRVOS (Weakly-Supervised Referring Video Object Segmentation) olarak adlandırılan bu yöntem, geleneksel video analizi yaklaşımlarından köklü bir şekilde ayrılıyor. Mevcut sistemler, nesneleri doğru şekilde tanımlayabilmek için piksel düzeyinde hassas etiketlemeler, sınırlayıcı kutular veya işaret noktaları gibi pahalı veri hazırlık süreçlerine ihtiyaç duyuyor.
Yeni sistem ise çok daha basit bir yaklaşım benimsiyor. Bir video ve bu videodaki nesneyi tanımlayan metin ifadesi verildiğinde, sistem önce çok modlu büyük dil modellerinin açıklama yeteneklerini kullanarak hem olumlu hem de olumsuz ifadeler üretiyor. Bu kontrastlı yaklaşım, sistemin hedef nesneyi daha iyi ayırt etmesine yardımcı oluyor.
Ardından sistem, giriş videosundan görsel özellikleri ve üretilen ifadelerden dilsel özellikleri çıkarıyor. Bu özellikler arasında çift yönlü bir seçim ve etkileşim süreci gerçekleştirilerek, hedef nesne videoda başarıyla tespit ediliyor.
Bu gelişme, video analizi alanında hem maliyet hem de zaman açısından önemli tasarruflar sağlayabilir ve yapay zekanın dil anlama kapasitesini görüntü işlemeyle harmanlayan gelecekteki uygulamalara zemin hazırlıyor.