Yapay zeka güvenliği alanında önemli bir sorun ortaya çıktı. Büyük dil modellerinin potansiyel tehlikeli davranışlarını tespit etmek için kullanılan probe sistemleri, eğitim verilerinin kaynağına bağlı olarak ciddi genelleme sorunları yaşıyor.
Araştırmacılar, doğal ortamda nadir bulunan zararlı davranış örnekleri nedeniyle sentetik veya off-policy verilerle probe eğitimi yapmak zorunda kalıyor. Bu durum, sistemlerin gerçek dünya koşullarındaki performansını önemli ölçüde etkiliyor.
Sekiz farklı yapay zeka davranışı üzerinde yapılan kapsamlı testlerde, eğitim verisi üretim stratejisinin probe performansını belirgin şekilde etkilediği görüldü. En büyük genelleme başarısızlıkları, metin düzeyindeki içerik analizi gerektiren davranışlardan ziyade, stratejik aldatma gibi niyet temelli davranışlarda yaşanıyor.
Çalışma ayrıca, gerçek test verilerinin bulunmadığı durumlarda genelleme başarısızlıklarını öngörebilecek yararlı bir test yöntemi öneriyor. Bu metodun, AI güvenlik sistemlerinin güvenilirliğini artırmada kritik rol oynayacağı değerlendiriliyor.
Bulgular, yapay zeka güvenliği alanında probe sistemlerinin geliştirilmesinde veri kalitesi ve kaynağının ne kadar kritik olduğunu gösteriyor.