Bilgisayarlı görme dünyasında büyük ilgi gören Vision Transformer (ViT) teknolojisi, önemli bir dönüşüm geçiriyor. Mevcut sistemlerin temel bileşeni olan Self-Attention mekanizması, mekansal bilgileri yeterince işleyememesi ve aşırı hesaplama gücü gerektirmesi nedeniyle sınırlamalara sahipti.
Bu zorlukları aşmak için araştırmacılar RMT adlı güçlü bir görme altyapısı geliştirdi. RMT, Manhattan mesafe hesaplamalarını kullanarak mekansal bilgileri sisteme dahil ediyor ve yatay-dikey ayrıştırma yöntemiyle küresel bilgileri modelliyor. Bu yaklaşım, yapay zekanın görsel verileri işlerken mekansal ilişkileri daha iyi anlamasını sağlıyor.
RMT'nin başarısı üzerine inşa edilen Euclidean enhanced Vision Transformer (EVT), teknolojide bir adım daha ileri gidiyor. EVT, Manhattan mesafesi yerine daha hassas Öklid mesafe hesaplamalarını kullanarak mekansal ilişkileri daha doğru şekilde temsil ediyor. Bu gelişme, görüntü tanıma, nesne tespiti ve bilgisayarlı görme uygulamalarında performans artışı sağlıyor.
Bu yenilikler, yapay zekanın görsel dünyayı anlama biçiminde köklü değişiklikler yaratabilir ve otonom araçlardan tıbbi görüntülemeye kadar geniş bir uygulama yelpazesinde etkili olabilir.