Yapay zeka sistemlerinin kendi düşünme süreçlerini ne ölçüde kontrol edebildiği, AI güvenliği açısından kritik bir soru haline geldi. Yeni bir araştırma, bu konuya ışık tutan kapsamlı bir değerlendirme sistemi sunuyor.
Araştırmacılar tarafından geliştirilen MEDLEY-BENCH sistemi, AI modellerinin üstbiliş yeteneklerini üç farklı boyutta test ediyor: bağımsız akıl yürütme, özel kendini düzeltme ve sosyal etkileşim altında revizyonlar. Test sistemi, 12 farklı AI ailesinden 35 modeli, beş farklı alanda 130 belirsiz durumla karşılaştırarak kapsamlı bir analiz gerçekleştiriyor.
En çarpıcı bulgu, değerlendirme ve kontrol yetenekleri arasındaki ayrışma oldu. Büyük AI modelleri, hatalarını tespit etme konusunda küçük modellerden daha başarılı olurken, bu hataları düzeltme kapasiteleri aynı oranda artmıyor. Bu durum, model boyutunun her zaman performans artışı anlamına gelmediğini gösteriyor.
Araştırma ayrıca, modellerin iki farklı davranış profili sergilediğini ortaya koyuyor. Bazı modeller öncelikle kendi başlarına düzeltme yaparken, diğerleri sosyal etkileşim sonrası revize etme eğilimi gösteriyor.
Bu bulgular, AI sistemlerinin karar verme süreçlerini daha iyi anlamamız ve güvenli AI geliştirme stratejileri oluşturmamız açısından önemli ipuçları sağlıyor.