Yapay Zeka Modelleri Artık Seçici Unutabiliyor

Büyük dil modelleri için geliştirilen yeni bir teknik, zararlı bilgileri unuturken faydalı yetenekleri korumayı başarıyor. Araştırmacılar, kelimelerin önem seviyesini analiz ederek seçici unutma yöntemi geliştirdi. Geleneksel yöntemler tüm kelimeleri eşit önemde görürken, yeni Entropi Güdümlü Token Ağırlıklandırma (ETW) tekniği, 've', 'bir' gibi işlevsel kelimeleri ile 'demokrasi', 'teknoloji' gibi anlamlı kelimeleri ayırt ediyor. Sistem, bir kelimenin ne kadar belirsizlik içerdiğini ölçerek önemini belirliyor. Bu yaklaşım, AI güvenliği için kritik öneme sahip çünkü modellerin zararlı davranışları unuturken genel performanslarını korumasını sağlıyor.

Yapay zeka güvenliği alanında önemli bir gelişme yaşanıyor. Araştırmacılar, büyük dil modellerinin istenmeyen bilgileri seçici olarak unutabilmesi için yeni bir yöntem geliştirdi.

Geleneksel 'unutma' teknikleri, tüm kelimeleri eşit önemde görerek işlem yapıyordu. Bu durum, zararlı bilgileri silerken modelin genel performansını da olumsuz etkiliyordu. Yeni geliştirilen Entropi Güdümlü Token Ağırlıklandırma (ETW) yöntemi ise farklı bir yaklaşım benimsiyor.

Tekniğin temel mantığı oldukça akıllıca: 'bir', 've', 'the' gibi işlevsel kelimeler genellikle tahmin edilmesi kolay ve belirsizlik içermeyen kelimelerdir. Ancak 'demokrasi', 'teknoloji' veya 'savaş' gibi anlamlı kelimeler çok farklı bağlamlarda kullanılabilir ve daha yüksek belirsizlik taşır.

ETW sistemi, her kelimenin tahmin dağılımındaki entropi değerini hesaplayarak o kelimenin ne kadar bilgi içerdiğini ölçüyor. Yüksek entropili kelimeler daha fazla anlam yükü taşıdığı için, unutma işlemi sırasında bu kelimelere daha fazla ağırlık veriliyor.

Bu gelişme, AI güvenliği açısından kritik öneme sahip. Modellerin zararlı davranışları unuturken faydalı yeteneklerini koruması, güvenli yapay zeka sistemleri geliştirilmesi yolunda önemli bir adım sayılıyor.