Yapay zeka güvenlik sistemlerinde kritik bir zayıflık keşfedildi. Araştırmacılar, görsel-dil modellerinin (VLM) güvenlik sınıflandırma işlemlerinde ciddi tutarsızlıklar olduğunu ortaya çıkardı.
Çalışma, aynı içeriği değerlendirmek için kullanılan anlam bakımından eş değer komutların, yapay zekada tamamen farklı güvenlik skorları ürettiğini gösterdi. Bu durum, mevcut AI güvenlik sistemlerinin düşünülenden çok daha kırılgan olduğuna işaret ediyor.
Araştırmacılar, farklı VLM ailelerinde ve çoklu güvenlik test setlerinde yaptıkları değerlendirmelerde, komutlar arası varyansın yüksek hata oranlarıyla güçlü bir ilişki gösterdiğini tespit etti. Bu bulgu, sistem kırılganlığını teşhis etmek için önemli bir gösterge niteliği taşıyor.
Soruna çözüm olarak geliştirilen eğitim gerektirmeyen ortalama topluluk yaklaşımı, 14 test çiftinin tamamında kayıp fonksiyonu performansını artırdı. Bu yöntem, tek komut tabanlı sistemlere kıyasla 12 testte kalibrasyonu da iyileştirdi.
Bu keşif, AI güvenlik sistemlerinin geliştirilmesinde yeni yaklaşımların gerekliliğini vurguluyor ve sektörde daha güvenilir değerlendirme yöntemlerinin benimsenmesi gerektiğine işaret ediyor.