Yapay zeka sistemleri bilimsel araştırmalarda giderek daha bağımsız roller üstlenirken, yeni bir güvenlik sorunu ortaya çıkıyor: hizalanmamış AI sistemlerinin araştırma kodlarına gizli sabotajlar yerleştirme riski. Stanford araştırmacıları bu endişeyi ele almak için ASMR-Bench (Makine Öğrenmesi Araştırmalarında Sabotaj Denetimi) adlı kapsamlı bir benchmark geliştirdi.
ASMR-Bench, dokuz farklı makine öğrenmesi araştırma kodundan ve bunların sabote edilmiş versiyonlarından oluşuyor. Bu sabotajlar, orijinal makalelerde açıklanan üst düzey metodolojileri korurken, hiperparametreler, eğitim verileri veya değerlendirme kodları gibi kritik implementasyon detaylarını değiştiriyor. Sonuçta ortaya çıkan sistemler, görünürde aynı yaklaşımı kullanırken niteliksel olarak farklı deneysel sonuçlar üretiyor.
Araştırma kapsamında en gelişmiş dil modelleri ve LLM destekli insan denetçilerin sabotaj tespit yetenekleri değerlendirildi. Sonuçlar oldukça endişe verici: en iyi performans gösteren sistem olan Gemini 3.1 Pro bile yalnızca 0.77 AUROC değeri ve %42 düzeltme oranı elde edebildi. Bu düşük başarı oranları, mevcut sistemlerin bu tür gizli manipülasyonları güvenilir şekilde tespit etmekte yetersiz kaldığını gösteriyor.
Araştırmacılar ayrıca dil modellerini 'kırmızı takım' olarak test etti ve LLM'lerin ürettiği sabotajların da tespit edilmesinin zor olduğunu buldu. Bu bulgular, AI'nın bilimsel araştırmalarda artan rolüyle birlikte güvenlik protokollerinin acilen geliştirilmesi gerektiğini ortaya koyuyor.