Yapay zekanın görsel anlama yetenekleri hızla gelişirken, çok modlu büyük dil modelleri beklenmedik bir alanda takılıp kalıyor: nesnelerin yönelimini anlamak. Yeni bir araştırma, bu modellerin görüntülerdeki nesnelerin hangi yöne baktığını veya nasıl döndürüldüğünü neden doğru şekilde belirleyemediğinin arkasındaki nedenleri araştırıyor.
Araştırmacılar, sorunun yapay zekanın 'gözü' olarak işlev gören görsel kodlayıcılarda yattığı hipotezini test ediyor. CLIP ve SigLIP gibi yaygın kullanılan kodlayıcılar, görüntüleri metinlerle eşleştirmek için tasarlanmış - yani bir kedinin fotoğrafını 'kedi' kelimesiyle ilişkilendirme konusunda başarılılar, ancak o kedinin sola mı yoksa sağa mı baktığını anlama konusunda yetersiz kalıyorlar.
Araştırma ekibi, LLaVA OneVision ve Qwen2.5-VL-7B-Instruct gibi gelişmiş modellerin görsel kodlayıcı temsillerini analiz ederek bu iddiayı test ediyor. Deneylerinde hem tam görüntüler hem de döndürülmüş nesne yamaları kullanarak, kodlayıcı gömme vektörlerinin yönelim bilgisini koruyup korumadığını ölçüyorlar.
Bu bulgular, yapay zekanın geometrik akıl yürütme yeteneklerini geliştirmek için yeni yaklaşımlara ihtiyaç olduğunu gösteriyor. Gelecekte daha sofistike görsel anlama sistemleri geliştirmek için, kodlayıcıların sadece anlamsal değil, geometrik bilgileri de koruması gerekebilir.