Büyük dil modellerinin güvenlik değerlendirmelerinde kritik bir sorun keşfedildi. Araştırmacılar, mevcut güvenlik sistemlerinin 'Kimlik Nefreti' gibi genel kategoriler altında zararlı içerikleri bir araya getirerek, belirli popülasyonlara yönelik güvenlik açıklarını gizlediğini ortaya koydu.

'Seçici Güvenlik Tuzağı' adı verilen bu sistemik hatada, modeller bazı grupları güçlü şekilde korurken, temsil edilmeyen toplulukları aynı düşmanca saldırılara karşı son derece savunmasız bırakıyor. Bu durumun kapsamlı analizini yapmak için araştırmacılar MiJaBench adlı iki dilli bir test sistemi geliştirdi.

MiJaBench, 16 azınlık grubuna yönelik 43.961 kontrollü saldırı mesajını içeren kapsamlı bir değerlendirme aracı. 14 son teknoloji dil modelinin bu sistemle test edilmesi sonucunda 615.454 mesaj-yanıt çifti elde edildi ve MiJaBench-Align veri seti oluşturuldu.

Sonuçlar çarpıcı: Güvenlik uyumu homojen bir yetenek değil, demografik bir hiyerarşi oluşturuyor. Aynı model içinde savunma oranları sadece demografik farklılıklar nedeniyle %42'ye kadar değişiyor. Bu bulgular, yapay zeka güvenliği alanında daha adil ve kapsayıcı yaklaşımlara acil ihtiyaç olduğunu gösteriyor.