Yapay Zeka Modelleri Neden Nesnelerin Yönünü Anlayamıyor?

Çok modlu büyük dil modelleri (MLLM'ler), görüntülerdeki nesnelerin 2D yönelimini belirleme konusunda ciddi zorluklar yaşıyor. Yeni bir araştırma, bu sorunun kaynağını araştırarak görsel kodlayıcıların rolünü inceliyor. CLIP ve SigLIP gibi yaygın kullanılan kodlayıcıların, geometrik akıl yürütme yerine görüntü-metin anlamsal hizalama için eğitilmiş olmasının bu başarısızlığın temel nedeni olabileceği hipotezi test ediliyor. Araştırmacılar, LLaVA OneVision ve Qwen2.5-VL gibi modellerden elde edilen kodlayıcı temsillerinin rotasyon bilgisini koruyup korumadığını ölçmek için kontrollü deneysel protokoller tasarlıyor.

Yapay zekanın görsel anlama yetenekleri hızla gelişirken, çok modlu büyük dil modelleri beklenmedik bir alanda takılıp kalıyor: nesnelerin yönelimini anlamak. Yeni bir araştırma, bu modellerin görüntülerdeki nesnelerin hangi yöne baktığını veya nasıl döndürüldüğünü neden doğru şekilde belirleyemediğinin arkasındaki nedenleri araştırıyor.

Araştırmacılar, sorunun yapay zekanın 'gözü' olarak işlev gören görsel kodlayıcılarda yattığı hipotezini test ediyor. CLIP ve SigLIP gibi yaygın kullanılan kodlayıcılar, görüntüleri metinlerle eşleştirmek için tasarlanmış - yani bir kedinin fotoğrafını 'kedi' kelimesiyle ilişkilendirme konusunda başarılılar, ancak o kedinin sola mı yoksa sağa mı baktığını anlama konusunda yetersiz kalıyorlar.

Araştırma ekibi, LLaVA OneVision ve Qwen2.5-VL-7B-Instruct gibi gelişmiş modellerin görsel kodlayıcı temsillerini analiz ederek bu iddiayı test ediyor. Deneylerinde hem tam görüntüler hem de döndürülmüş nesne yamaları kullanarak, kodlayıcı gömme vektörlerinin yönelim bilgisini koruyup korumadığını ölçüyorlar.

Bu bulgular, yapay zekanın geometrik akıl yürütme yeteneklerini geliştirmek için yeni yaklaşımlara ihtiyaç olduğunu gösteriyor. Gelecekte daha sofistike görsel anlama sistemleri geliştirmek için, kodlayıcıların sadece anlamsal değil, geometrik bilgileri de koruması gerekebilir.

Yapay Zeka Modelleri Neden Nesnelerin Yönünü Anlayamıyor?

Her sabah seçki, Telegram'da

Aynı kategoride okumaya değer

Sosyal medya seçim karşıtı reklamları oy verme davranışını etkiliyor

Çin'de 'Uzanıp Yatma' Akımı: Sosyal Direnişin Dilbilimsel Analizi

Adil Tasarlanan Eşleştirme Sistemleri Bile Eşitsiz Sonuçlar Üretebiliyor