Görme-dil modelleri (VLM) çok sayıda görsel görevi başarıyla yerine getirmelerine rağmen, bu sistemlerin geometrik yapıları gerçekten kavrayıp kavramadığı önemli bir soru işareti olarak kalıyordu. Araştırmacılar, bu modellerin başarılarının gerçek geometrik anlayıştan mı, yoksa renk, doku ve bağlamsal ipuçlarını kullanmaktan mı kaynaklandığını merak ediyorlardı.
Bu soruyu yanıtlamak için geliştirilen BareBones benchmark sistemi, yapay zeka modellerinin saf geometrik şekil anlama yetilerini test ediyor. Mevcut değerlendirme yöntemlerinin aksine, bu yeni sistem çevresel ipuçlarını tamamen ortadan kaldırarak modelleri yalnızca geometrik özellikler temelinde değerlendiriyor.
Benchmark, altı farklı veri setinden derlenmiş piksel düzeyinde silüetler kullanıyor. Bu veri setleri arasında ImageNet-S, DIS5K, ThinObject5K, PASCAL VOC ve CUB-200 gibi etabli kaynaklar bulunurken, araştırmacılar WTP-Bench adlı tamamen yeni bir koleksiyon da oluşturdu.
WTP-Bench, gürültüsüz geometrik sınıflandırma için özel olarak tasarlandı ve modellerin geometrik anlayışlarını en uç koşullarda test ediyor. Bu yaklaşım, semantik muhakeme ile doku eşleme arasındaki farkı net bir şekilde ortaya koyabiliyor.
Çalışma, yapay zeka sistemlerinin gerçek yeteneklerini değerlendirmede daha hassas ölçüm araçlarına ihtiyaç olduğunu gösteriyor ve gelecekteki model geliştirmelerine yön verebilir.