Yapay zeka sistemlerinin karmaşık iç yapısını anlamak için yeni bir çerçeve geliştirildi. PIE (Prune, Interpret, Evaluate) olarak adlandırılan bu sistem, büyük dil modellerinin davranışlarını açıklamada karşılaşılan hesaplama maliyeti sorununa çözüm getiriyor.

Geleneksel özellik yorumlama sistemleri, modelin tüm birimlerini eşit şekilde inceliyor ancak bunların çok küçük bir kısmı gerçekten önemli. PIE, cross-layer transcoder (CLT) özelliklerini kullanarak sadece kritik bileşenlere odaklanıyor ve böylece hem zaman hem de kaynak tasarrufu sağlıyor.

Sistemin kalbi olan Feature Attribution Patching (FAP) yöntemi, modelin yazma katkılarını gradient ağırlıklı olarak toplayarak CLT özelliklerini puanlıyor. FAP-Synergy adı verilen yeniden sıralama prosedürü ise bu özelliklerin birbirleriyle olan etkileşimlerini de hesaba katıyor.

Araştırmacılar, budamalama işleminin başarısını KL-divergence davranış korunumu ile ölçerken, yorumlama kalitesini FADE tarzı metriklerle değerlendiriyor. IOI ve Doc-String veri setleri üzerinde yapılan testler, sistemin farklı bütçe seviyeleri altında başarılı sonuçlar verdiğini gösteriyor.

Bu gelişme, yapay zeka sistemlerinin şeffaflığını artırarak daha güvenilir ve anlaşılabilir AI teknolojilerinin yolunu açabilir.