Yapay Zeka Ajanlarını Silahlaştıran Zararlı Beceriler Keşfedildi

Araştırmacılar, büyük dil modellerinin kullandığı açık beceri ekosistemlerinde ciddi güvenlik açıkları tespit etti. İki büyük platformda yapılan kapsamlı analiz, 98.440 becerinin %4,93'ünün siber saldırılar, dolandırıcılık ve mahremiyet ihlalleri gibi zararlı amaçlarla kötüye kullanılabileceğini ortaya çıkardı. ClawHub platformunda zararlı beceri oranı %8,84'e ulaşırken, Skills.Rest'te bu oran %3,49 olarak belirlendi. Çalışma, otonom AI ajanlarının güvenlik değerlendirmesi için ilk kapsamlı kıyaslama sistemi olan HarmfulSkillBench'i de tanıttı.

Büyük dil modelleri artık bağımsız ajanlar haline gelerek, ClawHub ve Skills.Rest gibi açık beceri platformlarından yararlanıyor. Bu platformlarda milyonlarca kullanıcının erişebildiği beceriler barındırılıyor, ancak yeni bir araştırma bu ekosistemlerdeki ciddi güvenlik risklerini gözler önüne serdi.

Araştırmacılar, iki büyük platform üzerinde 98.440 beceriyi analiz ederek, bunların %4,93'ünün zararlı amaçlarla kullanılabileceğini keşfetti. Bu oranlar platformlara göre değişiklik gösteriyor: ClawHub'da zararlı beceri oranı %8,84'e ulaşırken, Skills.Rest'te %3,49 olarak belirlendi.

Zararlı beceriler arasında siber saldırı araçları, dolandırıcılık şemaları, mahremiyet ihlali yapan uygulamalar ve uygunsuz içerik üreticileri yer alıyor. Mevcut güvenlik araştırmalarının çoğu prompt enjeksiyonu gibi teknik açıklara odaklanırken, bu çalışma beceriler arası kötüye kullanım potansiyeline dikkat çekiyor.

Ekip, bulgularından hareketle HarmfulSkillBench adlı ilk kapsamlı değerlendirme sistemini geliştirdi. Bu araç, AI ajanlarının güvenlik seviyelerini ölçmek için tasarlandı ve gelecekteki güvenlik önlemlerinin geliştirilmesinde kritik rol oynayacak.

Çalışma, açık AI ekosistemlerinde daha sıkı denetim mekanizmalarına olan ihtiyacı vurguluyor ve platform yöneticilerini zararlı içeriklere karşı proaktif önlemler almaya çağırıyor.