Araştırmacılar, son yıllarda büyük ilgi gören görsel-dil modellerinin (VLM) coğrafi konum belirleme konusundaki yeteneklerini detaylı bir şekilde analiz etti. Bu çalışma, ChatGPT benzeri modellerin fotoğraflara bakarak nereden çekildiğini tahmin etme becerilerini mercek altına alıyor.
Geleneksel yöntemler, fotoğraflardan konum tespiti için genellikle görsel eşleştirme algoritmaları veya GPS meta verilerini kullanıyor. Ancak bu araştırma, tamamen farklı bir yaklaşım benimsiyor: Modellere sadece fotoğraf gösterilerek hangi ülkeden çekildiğini tahmin etmeleri isteniyor, hiçbir ek bilgi verilmiyor.
Çalışmada birden fazla gelişmiş AI modeli, üç farklı coğrafi bölgeden toplanan görsel veriler üzerinde test edildi. Sonuçlar, modeller arasında büyük performans farklılıkları olduğunu ve mevcut teknolojinin bu alanda beklenenden çok daha sınırlı kaldığını ortaya koydu.
Bu bulgular özellikle önemli çünkü yapay zeka sistemlerinin görsel anlayış ve dil işleme konularında gösterdiği başarıların, coğrafi çıkarım gibi karmaşık anlama gerektiren alanlarda aynı düzeyde olmadığını gösteriyor. Araştırma, AI teknolojisinin gerçek dünya uygulamalarında henüz aşılması gereken kritik sınırları bulunduğunu vurguluyor.