Teknoloji & Yapay Zeka
Yapay Zeka Modelleri Neden Nesnelerin Yönünü Anlayamıyor?
Çok modlu büyük dil modelleri (MLLM'ler), görüntülerdeki nesnelerin 2D yönelimini belirleme konusunda ciddi zorluklar yaşıyor. Yeni bir araştırma, bu sorunun kaynağını araştırarak görsel kodlayıcıların rolünü inceliyor. CLIP ve SigLIP gibi yaygın kullanılan kodlayıcıların, geometrik akıl yürütme yerine görüntü-metin anlamsal hizalama için eğitilmiş olmasının bu başarısızlığın temel nedeni olabileceği hipotezi test ediliyor. Araştırmacılar, LLaVA OneVision ve Qwen2.5-VL gibi modellerden elde edilen kodlayıcı temsillerinin rotasyon bilgisini koruyup korumadığını ölçmek için kontrollü deneysel protokoller tasarlıyor.