Yapay zeka güvenliği alanında önemli bir gelişme yaşanıyor. Araştırmacılar, büyük dil modellerinin istenmeyen bilgileri seçici olarak unutabilmesi için yeni bir yöntem geliştirdi.
Geleneksel 'unutma' teknikleri, tüm kelimeleri eşit önemde görerek işlem yapıyordu. Bu durum, zararlı bilgileri silerken modelin genel performansını da olumsuz etkiliyordu. Yeni geliştirilen Entropi Güdümlü Token Ağırlıklandırma (ETW) yöntemi ise farklı bir yaklaşım benimsiyor.
Tekniğin temel mantığı oldukça akıllıca: 'bir', 've', 'the' gibi işlevsel kelimeler genellikle tahmin edilmesi kolay ve belirsizlik içermeyen kelimelerdir. Ancak 'demokrasi', 'teknoloji' veya 'savaş' gibi anlamlı kelimeler çok farklı bağlamlarda kullanılabilir ve daha yüksek belirsizlik taşır.
ETW sistemi, her kelimenin tahmin dağılımındaki entropi değerini hesaplayarak o kelimenin ne kadar bilgi içerdiğini ölçüyor. Yüksek entropili kelimeler daha fazla anlam yükü taşıdığı için, unutma işlemi sırasında bu kelimelere daha fazla ağırlık veriliyor.
Bu gelişme, AI güvenliği açısından kritik öneme sahip. Modellerin zararlı davranışları unuturken faydalı yeteneklerini koruması, güvenli yapay zeka sistemleri geliştirilmesi yolunda önemli bir adım sayılıyor.