Büyük dil modelleri artık bağımsız ajanlar haline gelerek, ClawHub ve Skills.Rest gibi açık beceri platformlarından yararlanıyor. Bu platformlarda milyonlarca kullanıcının erişebildiği beceriler barındırılıyor, ancak yeni bir araştırma bu ekosistemlerdeki ciddi güvenlik risklerini gözler önüne serdi.
Araştırmacılar, iki büyük platform üzerinde 98.440 beceriyi analiz ederek, bunların %4,93'ünün zararlı amaçlarla kullanılabileceğini keşfetti. Bu oranlar platformlara göre değişiklik gösteriyor: ClawHub'da zararlı beceri oranı %8,84'e ulaşırken, Skills.Rest'te %3,49 olarak belirlendi.
Zararlı beceriler arasında siber saldırı araçları, dolandırıcılık şemaları, mahremiyet ihlali yapan uygulamalar ve uygunsuz içerik üreticileri yer alıyor. Mevcut güvenlik araştırmalarının çoğu prompt enjeksiyonu gibi teknik açıklara odaklanırken, bu çalışma beceriler arası kötüye kullanım potansiyeline dikkat çekiyor.
Ekip, bulgularından hareketle HarmfulSkillBench adlı ilk kapsamlı değerlendirme sistemini geliştirdi. Bu araç, AI ajanlarının güvenlik seviyelerini ölçmek için tasarlandı ve gelecekteki güvenlik önlemlerinin geliştirilmesinde kritik rol oynayacak.
Çalışma, açık AI ekosistemlerinde daha sıkı denetim mekanizmalarına olan ihtiyacı vurguluyor ve platform yöneticilerini zararlı içeriklere karşı proaktif önlemler almaya çağırıyor.