Teknoloji & Yapay Zeka

Yapay Zeka Modellerinin Hafızasını Ölçmenin Yeni Yolu Keşfedildi

Araştırmacılar, büyük dil modellerinin (LLM) eğitim verilerini ne kadar ezberlediklerini ölçmek için yeni bir yöntem geliştirdi. Veri sıkıştırılabilirliği üzerine kurulu bu yöntem, modellerin hafızalarını ilk kez güvenilir şekilde sayısallaştırmayı mümkün kılıyor. Çalışmada keşfedilen 'Entropi-Ezberleme Doğrusallığı' yasası, veri entropisinin ezberleme skorlarıyla doğrusal ilişki sergilediğini gösteriyor. Bu buluş, yapay zeka modellerinin şeffaflığı ve güvenilirliği açısından önemli bir adım teşkil ediyor. Özellikle telif hakları ve veri gizliliği konularında artan endişeler göz önüne alındığında, modellerin hangi bilgileri ezberleyip yeniden üretebileceğini anlamak kritik önem taşıyor.

Yapay zeka araştırmacıları, büyük dil modellerinin eğitim verilerini ne ölçüde ezberlediklerini belirlemek için çığır açıcı bir yöntem geliştirdi. Bu yenilik, AI güvenliği ve şeffaflığı açısından kritik öneme sahip.

Büyük dil modelleri, eğitim sırasında maruz kaldıkları verilerin bir kısmını ezberleyebiliyor ve uygun şekilde yönlendirildiğinde bu içerikleri kelimesi kelimesine yeniden üretebiliyorlar. Ancak şimdiye kadar bu ezberleme sürecini güvenilir şekilde ölçmek mümkün değildi.

Yeni araştırma, veri sıkıştırılabilirliği kavramını kullanarak bu soruna çözüm getiriyor. Bilim insanları, önceki çalışmaların neden yetersiz kaldığını analiz ettikten sonra, tekil veri örnekleri yerine veri kümeleri üzerinden değerlendirme yapmanın çok daha güvenilir sonuçlar verdiğini keşfetti.

Bu yaklaşım sayesinde 'Entropi-Ezberleme Doğrusallığı' adını verdikleri yeni bir fenomen ortaya çıktı. Bu yasa, küme düzeyindeki veri entropi tahmincilerinin, ezberleme skorlarıyla doğrusal bir korelasyon sergilediğini gösteriyor.

Buluş, yapay zeka modellerinin hangi bilgileri sakladıklarını ve hangi koşullarda bu bilgileri açığa çıkarabileceklerini anlamamızı derinleştiriyor. Bu da özellikle telif hakları, veri gizliliği ve model güvenilirliği konularında önemli çıkarımlar sunuyor.

Özgün Kaynak
arXiv (CS + AI)
Data Compressibility Quantifies LLM Memorization
Orijinal makaleyi oku

Bu içerik, özgün kaynaktaki bilgiler temel alınarak BilimKapsül editörleri tarafından yeniden kaleme alınmıştır. Orijinal metnin birebir çevirisi değildir. Telif hakkı özgün yayıncıya aittir.