Yapay zeka güvenliği alanında önemli bir gelişme yaşanıyor. Araştırmacılar, güvenlik odaklı eğitilen büyük dil modellerinin demografik farklılıkları tanımada yaşadığı sorunları ele alan yeni bir çalışma yayınladı.

Mevcut güvenlik eğitimi alan yapay zeka modelleri, demografik gruplar arasındaki farklılıkları kabul etmekten kaçınıyor. Bu durum, soy temelli hastalık görülme oranları gibi bilimsel gerçeklerin ya da dini tercihlere dayalı işe alım uygulamaları gibi bağlamsal durumların doğru değerlendirilememesine yol açıyor.

Araştırma ekibi, bu sorunu çözmek için 'fark farkındalığı sınıflandırması' adlı yeni bir yaklaşım geliştirdi. Bu sistemde model, demografik gruplarla ilgili sorularda doğrudan yanıt vermek yerine, doğru cevabın grup farklılıklarını tanımayı gerektirip gerektirmediğini değerlendiriyor.

Ancak çalışma sırasında beklenmedik bir sorunla karşılaşıldı: modelin karar verme doğruluğu arttıkça, ürettiği açıklamalarda zararlı içerikler de artıyor. Bu 'zararlı sapma' olarak adlandırılan durum, modellerin zararlı içerikleri detaylandırması, problemli varsayımlar yapması ya da temel modelin tespit ettiği zararları gözden kaçırması şeklinde ortaya çıkıyor.

Bu soruna çözüm olarak DART (Distill-Audit-Repair Training) yöntemi geliştirildi. Bu yaklaşım, modellerin hem doğru kararlar vermesini hem de güvenli açıklamalar üretmesini sağlamayı hedefliyor.