Büyük dil modellerine dayalı yapay zeka ajanları, karmaşık görevleri yerine getirirken ciddi güvenlik risklerle karşılaşıyor. Bu ajanlar, çok adımlı iş akışları, araç etkileşimleri ve sürekli bağlam kullanımı sırasında prompt-enjeksiyon saldırılarına maruz kalabiliyor. Geleneksel giriş-çıkış filtreleme yöntemleri bu tür tehditlere karşı yetersiz kalıyor.
Araştırmacılar bu soruna çözüm olarak SafeAgent adlı yenilikçi bir runtime güvenlik mimarisi geliştirdi. System, ajan güvenliğini statik değil, sürekli gelişen etkileşim yörüngelerinde dinamik bir karar verme süreci olarak yaklaşıyor.
SafeAgent'ın mimarisi iki ana bileşenden oluşuyor: Birincisi, ajan döngüsü çevresindeki eylemleri denetleyen runtime kontrolörü. İkincisi ise kalıcı oturum durumu üzerinde çalışan ve bağlamı anlayan karar çekirdeği. Bu çekirdek, risk kodlama, fayda-maliyet değerlendirmesi, sonuç modelleme, politika tahkimi ve durum senkronizasyonu operatörleri aracılığıyla çalışıyor.
Agent Security Bench (ASB) ve InjecAgent test ortamlarında yapılan deneyler, SafeAgent'ın etkinliğini doğruladı. Bu sistem, mevcut güvenlik açıklarına karşı önemli bir koruma sağlıyor ve gelecekteki AI ajan sistemlerinin güvenli tasarımında kritik bir adım teşkil ediyor.