Siber güvenlik testlerinde yapay zeka ajanlarının sağlamlığı ölçüldü

20 Nisan 2026, 07:00 2 dk okuma 0 görüntülenme arXiv (CS + AI)

Paylaş: Kopyalandı!

Araştırmacılar, büyük dil modellerinin siber güvenlik görevlerindeki performansını daha etkili şekilde değerlendirmek için yeni bir yöntem geliştirdi. Geleneksel testlerin aksine, bu yaklaşım aynı güvenlik açığını farklı kod versiyonlarında test ederek yapay zeka ajanlarının ne kadar sağlam olduğunu ölçüyor. Evolve-CTF adlı araç, Python tabanlı siber güvenlik zorluklarından semantik olarak eşdeğer alternatifler üretiyor. 13 farklı yapay zeka modelinin test edildiği çalışmada, modellerin değişken adı değişikliklerine ve kod eklemelerine oldukça dayanıklı olduğu, ancak daha karmaşık dönüşümler ve kod gizleme teknikleri karşısında performanslarının düştüğü görüldü.

Yapay zeka ajanlarının siber güvenlik alanındaki yetenekleri, genellikle 'capture-the-flag' (CTF) testleriyle değerlendiriliyor. Ancak mevcut değerlendirme yöntemleri, ajanların farklı kod versiyonlarında ne kadar sağlam performans gösterdiğini ölçmekte yetersiz kalıyor.

Yeni araştırmada sunulan CTF zorlu ailesi yaklaşımı, tek bir güvenlik testinden hareketle semantik olarak eşdeğer alternatifler üretiyor. Bu yöntem, temel exploit stratejisini sabit tutarken, ajanların sağlamlığını kontrollü bir şekilde test etmeye olanak sağlıyor.

Araştırmacılar tarafından geliştirilen Evolve-CTF aracı, Python tabanlı güvenlik zorluklarından çeşitli program dönüşümleri kullanarak aileleri türetiyor. Bu dönüşümler arasında değişken adı değişiklikleri, kod ekleme ve çeşitli gizleme teknikleri bulunuyor.

Cybench ve Intercode veri setlerinden türetilen zorlu ailelerinde 13 farklı yapay zeka ajanı test edildi. Sonuçlar, modellerin basit dönüşümlere karşı oldukça dirençli olduğunu gösterdi. Özellikle değişken adlarının değiştirilmesi ve kod ekleme işlemlerine karşı modeller başarılı performans sergiledi.

Ancak birden fazla dönüşümün bir arada kullanıldığı durumlarda ve daha derin kod gizleme teknikleri uygulandığında modellerin başarı oranlarında belirgin düşüşler gözlendi. Bu bulgular, yapay zeka ajanlarının siber güvenlik görevlerindeki gerçek dünya sağlamlığını değerlendirmek için daha kapsamlı test yöntemlerine ihtiyaç olduğunu ortaya koyuyor.

Etiketler

#yapay zeka #siber güvenlik #büyük dil modelleri #CTF #kod analizi

Özgün Kaynak

Capture the Flags: Family-Based Evaluation of Agentic LLMs via Semantics-Preserving Transformations

https://arxiv.org/abs/2602.05523

Bu içerik, özgün kaynaktan referans alınarak yeniden yorumlanmış Türkçe bir özettir. Telif hakkı özgün yayın organına aittir.