Yapay zeka sistemlerinin yaygınlaşmasıyla birlikte güvenlik tehditleri de artıyor. Prompt injection saldırıları, büyük dil modellerinin güvenlik açıklarından yararlanarak sistemi manipüle etmeye çalışan siber saldırı türlerinden biri. Mevcut savunma yöntemleri ise bu tehditlere karşı yetersiz kalıyor.
Araştırmacılar tarafından yapılan yeni çalışma, geleneksel güvenlik yaklaşımlarının sınırlarını açık bir şekilde ortaya koyuyor. Mevcut açık kaynak tespit sistemleri ağırlıklı olarak iki tekniğe dayanıyor: düzenli ifade eşleştirme ve özel olarak eğitilmiş transformer sınıflandırıcıları. Ancak her iki yöntem de ciddi zayıflıklara sahip.
Düzenli ifade tabanlı sistemler, saldırganların aynı mesajı farklı kelimelerle ifade ettiği durumlarda başarısız oluyor. Fine-tuned sınıflandırıcılar ise daha da büyük bir güvenlik açığı taşıyor. 2025 NAACL Findings çalışmasına göre, yayınlanmış sekiz dolaylı enjeksiyon savunma sistemi, uyarlanabilir saldırılar karşısında yüzde 50'den fazla başarı oranıyla aşılmış.
Bu sorunlara çözüm olarak geliştirilen yedi yeni teknik, farklı bilim dallarından esinlenmiş yaklaşımlar içeriyor. Adli dilbilimden dil analizi teknikleri, malzeme biliminden yorgunluk analizi, ağ güvenliğinden aldatmaca teknolojisi, biyoinformatikten yerel sekans hizalama, ekonomiden mekanizma tasarımı, epidemiyolojiden spektral sinyal analizi ve derleyici teorisinden taint tracking yöntemleri adapt ediliyor.
Bu interdisipliner yaklaşım, AI güvenliği alanında yeni bir paradigma sunarak daha dayanıklı savunma mekanizmaları geliştirilmesine olanak sağlıyor.