Yapay zeka araştırmacıları, büyük dil modellerinin siber güvenlik saldırı görevlerindeki yeteneklerini ölçen kapsamlı bir çalışma gerçekleştirdi. Araştırma, 7 farklı teknologi şirketinin 10 farklı modelini NYU Siber Güvenlik Test Kıstası'ndaki 200 zor problemle karşı karşıya getirdi.
D-CIPHER çok-ajan sistemini geliştiren ekip, modelleri özel hazırlanmış Kali Linux ortamında test etti. Bu ortamda 100'den fazla penetrasyon testi aracı bulunuyor ve modeller gerçek siber güvenlik uzmanları gibi çalışabiliyor. Test sonuçları, Kali Linux'un standart Ubuntu ortamına kıyasla %9,5 daha iyi performans sağladığını gösterdi.
Model performanslarında Claude 4.5 Opus %59 başarı oranıyla zirvede yer alırken, Gemini 3 Pro %52 ile takip etti. Maliyet-etkinlik açısından ise Gemini 3 Flash, çözüm başına sadece 0,05 dolar maliyetle öne çıktı. İlginç şekilde, otomatik ipucu verme ve kategori-özel yönlendirmelerin performansı düşürdüğü gözlemlendi.
Bu çalışma, AI sistemlerinin siber güvenlik alanındaki artan yeteneklerini gösterirken, aynı zamanda güvenlik uzmanlarının bu teknolojilerin hem savunma hem de potansiyel saldırı amaçlı kullanımlarına hazırlıklı olması gerektiğini ortaya koyuyor.