Stanford Üniversitesi araştırmacıları, yapay zeka modellerinin ahlaki değerlere karşı dayanıklılığını test etmek için kapsamlı bir çalışma gerçekleştirdi. Araştırma, büyük dil modellerinin farklı ahlaki görüşlerle karşılaştığında nasıl davrandığını anlamaya odaklanıyor.
Ekip, 'Değer Belirsizliği' ve 'Değer Çatışması' olmak üzere iki kategori altında 10.300 örnek içeren özel bir ahlak veri seti oluşturdu. Bu veri seti kullanılarak, AI modellerinin ahlaki kararlarını manipüle etmeyi hedefleyen dört farklı düşmanca saldırı tekniği geliştirildi.
Çalışmanın temelinde, AI sistemlerinin çok değerli ve karmaşık insan toplumlarıyla uyumlu çalışması gereken 'çoğulcu uyum' kavramı yer alıyor. Bu yaklaşım, farklı kültürrel ve ahlaki değerlerin bir arada var olabileceği sistemler yaratmayı amaçlıyor.
Araştırmacılar, jailbreak promptlarının ikna kabiliyetlerinden ilham alarak, AI modellerinin iç ahlaki değerlerini keşfetmek için bu teknikleri kullandı. Test edilen sistemler arasında hem büyük dil modelleri hem de genellikle üretken sistemlerde kullanılan güvenlik duvarı modelleri yer aldı.
Bulgular, mevcut AI güvenlik sistemlerinin ahlaki manipülasyonlara karşı savunmasızlıklarını ortaya çıkarıyor ve gelecekteki AI geliştirmelerinde dikkate alınması gereken kritik güvenlik boşluklarını gösteriyor.