Büyük Dil Modelleri Siber Güvenlik Testlerinde Sınırlarını Zorladı

Araştırmacılar, 7 farklı şirketten 10 büyük dil modelini siber güvenlik saldırı görevlerinde test etti. NYU'nun 200 zorlu siber güvenlik problemini çözen bu modeller arasında Claude 4.5 Opus %59 başarı oranıyla öne çıktı. Çalışma, yapay zeka sistemlerinin penetrasyon testleri ve siber güvenlik açığı keşfinde ne kadar etkili olduğunu gösterdi. Özel olarak hazırlanan Kali Linux ortamında 100'den fazla güvenlik aracı kullanılan testlerde, modellerin siber saldırı senaryolarını çözme kabiliyetleri ölçüldü. Bu araştırma, AI'nın siber güvenlik alanındaki potansiyelini ve risklerini anlamamız açısından kritik veriler sunuyor.

Yapay zeka araştırmacıları, büyük dil modellerinin siber güvenlik saldırı görevlerindeki yeteneklerini ölçen kapsamlı bir çalışma gerçekleştirdi. Araştırma, 7 farklı teknologi şirketinin 10 farklı modelini NYU Siber Güvenlik Test Kıstası'ndaki 200 zor problemle karşı karşıya getirdi.

D-CIPHER çok-ajan sistemini geliştiren ekip, modelleri özel hazırlanmış Kali Linux ortamında test etti. Bu ortamda 100'den fazla penetrasyon testi aracı bulunuyor ve modeller gerçek siber güvenlik uzmanları gibi çalışabiliyor. Test sonuçları, Kali Linux'un standart Ubuntu ortamına kıyasla %9,5 daha iyi performans sağladığını gösterdi.

Model performanslarında Claude 4.5 Opus %59 başarı oranıyla zirvede yer alırken, Gemini 3 Pro %52 ile takip etti. Maliyet-etkinlik açısından ise Gemini 3 Flash, çözüm başına sadece 0,05 dolar maliyetle öne çıktı. İlginç şekilde, otomatik ipucu verme ve kategori-özel yönlendirmelerin performansı düşürdüğü gözlemlendi.

Bu çalışma, AI sistemlerinin siber güvenlik alanındaki artan yeteneklerini gösterirken, aynı zamanda güvenlik uzmanlarının bu teknolojilerin hem savunma hem de potansiyel saldırı amaçlı kullanımlarına hazırlıklı olması gerektiğini ortaya koyuyor.