Yapay zeka artık sadece metin açıklamasıyla videoları analiz edebiliyor

Araştırmacılar, videolardaki nesneleri tanımlamak için yalnızca metin açıklamalarını kullanan yeni bir yapay zeka yöntemi geliştirdi. WSRVOS adı verilen bu sistem, geleneksel yöntemlerin aksine pahalı piksel düzeyinde etiketlemeye ihtiyaç duymadan çalışıyor. Sistem, büyük dil modellerinin açıklama yeteneklerini kullanarak pozitif ve negatif ifadeler üretiyor, ardından görsel ve dilsel özellikleri birleştirerek videodan hedef nesneyi tespit ediyor. Bu yenilik, video analizi alanında maliyet ve işgücü açısından büyük tasarruf sağlarken, yapay zekanın dil anlama kapasitesini görüntü işlemeyle birleştiren önemli bir adım olarak değerlendiriliyor.

Bilgisayarlı görü alanında önemli bir gelişme yaşanıyor. Araştırmacılar, videolardaki belirli nesneleri tanımlamak için sadece metin açıklamalarını kullanan yenilikçi bir yapay zeka sistemi geliştirdi.

WSRVOS (Weakly-Supervised Referring Video Object Segmentation) olarak adlandırılan bu yöntem, geleneksel video analizi yaklaşımlarından köklü bir şekilde ayrılıyor. Mevcut sistemler, nesneleri doğru şekilde tanımlayabilmek için piksel düzeyinde hassas etiketlemeler, sınırlayıcı kutular veya işaret noktaları gibi pahalı veri hazırlık süreçlerine ihtiyaç duyuyor.

Yeni sistem ise çok daha basit bir yaklaşım benimsiyor. Bir video ve bu videodaki nesneyi tanımlayan metin ifadesi verildiğinde, sistem önce çok modlu büyük dil modellerinin açıklama yeteneklerini kullanarak hem olumlu hem de olumsuz ifadeler üretiyor. Bu kontrastlı yaklaşım, sistemin hedef nesneyi daha iyi ayırt etmesine yardımcı oluyor.

Ardından sistem, giriş videosundan görsel özellikleri ve üretilen ifadelerden dilsel özellikleri çıkarıyor. Bu özellikler arasında çift yönlü bir seçim ve etkileşim süreci gerçekleştirilerek, hedef nesne videoda başarıyla tespit ediliyor.

Bu gelişme, video analizi alanında hem maliyet hem de zaman açısından önemli tasarruflar sağlayabilir ve yapay zekanın dil anlama kapasitesini görüntü işlemeyle harmanlayan gelecekteki uygulamalara zemin hazırlıyor.