Vision Transformer'lar (ViT), bilgisayar görme alanında devrim yaratmasına rağmen, bu modellerin nasıl karar verdiğini anlamak oldukça zordu. Karmaşık katman yapıları ve dikkat başlıkları arasındaki etkileşimler, modelin tahmin sürecini belirsiz hale getiriyordu.
Mevcut açıklama yöntemleri genellikle ham dikkat ağırlıklarına dayanıyor ve bu da son kararda hangi öğelerin etkili olduğunu net şekilde göstermiyordu. Gradyan tabanlı lokalizasyon yöntemleri ise sınıf-spesifik kanıtları vurgulamada daha başarılı olsa da, transformer'ların hiyerarşik dikkat yayılım mekanizmasından tam olarak yararlanamıyordu.
Yeni geliştirilen Decision-Aware attention Propagation (DAP) yöntemi, bu soruna çözüm getiriyor. DAP, transformer'ın dikkat yayılım sürecine karar ile ilgili öncel bilgileri enjekte ederek çalışıyor. Bu yaklaşım, token önemini gradyan tabanlı tekniklerle tahmin ederek, modelin hangi görsel öğelere odaklandığını daha net şekilde ortaya çıkarıyor.
Bu gelişme, yapay zeka modellerinin şeffaflığını artırmak açısından kritik önem taşıyor. Özellikle tıp, güvenlik gibi hassas alanlarda kullanılan görme sistemlerinin nasıl karar verdiğini anlamak, güvenilir yapay zeka sistemleri geliştirmek için hayati önemde.