Deepfake teknolojisinin yaygınlaşmasıyla birlikte sahte görüntülerin tespit edilmesi kritik bir güvenlik meselesi haline geldi. Araştırmacılar bu soruna karşı Vision Transformer (Görü Transformatörü) teknolojisini kullanarak etkili bir çözüm geliştirdi.
Geliştirilen sistem, DINOv2, AIMv2 ve OpenCLIP'in ViT-L/14 modeli gibi farklı görü transformatörlerini birleştirerek çalışıyor. Bu ensemble yaklaşım, tek başına çalışan modellerden daha güvenilir sonuçlar üretiyor. Test sürecinde IEEE SP Cup 2025'in DF-Wild veri seti kullanıldı, bu veri seti çeşitli manipülasyon ve üretim tekniklerini içeriyor.
Araştırma ekibi önce geleneksel CNN sınıflandırıcılarla deneyler yaptı, ancak Vision Transformer ensemble'ının üstün performans gösterdiğini tespit etti. Sistem %96,77 AUC (Eğri Altında Kalan Alan) skoru ve sadece %9 Eşit Hata Oranı (EER) elde etti.
Bu sonuçlar, mevcut en gelişmiş deepfake tespit algoritması olan Effort'tan AUC'de %7,05, EER'de ise %8 daha iyi performans anlamına geliyor. Çalışma IEEE SP Cup yarışmasında birinci olarak dijital medya güvenliği alanında önemli bir kilometre taşı oluşturdu.