Yapay zeka araştırmalarında 'grokking' olarak bilinen fenomen, transformer modellerinin eğitim verilerini ezberledikten sonra genelleme yetisi kazanması arasında yaşanan uzun gecikmeyi ifade ediyor. Bu gecikmenin nedeni şimdiye kadar bilim insanlarını meşgul ediyordu.

Yeni araştırma, bu gecikmenin modelin öğrenme yetisizliğinden değil, öğrendiği bilgiyi kullanma konusundaki sınırlılıklardan kaynaklandığını ortaya koyuyor. Araştırmacılar, encoder-decoder mimarisine sahip matematik modellerini inceleyerek bu hipotezi test etti.

Collatz tahmin problemi üzerinde yapılan deneylerde, encoder bölümünün sayıların çift-tek durumları ve mod yapılarını ilk birkaç bin eğitim adımında organize ettiği gözlemlendi. Ancak modelin çıktı doğruluğu on binlerce adım boyunca rastgele tahmin seviyesinde kaldı.

En çarpıcı bulgu, eğitilmiş bir encoder'ı yeni bir modele aktarmanın grokking sürecini 2,75 kat hızlandırması oldu. Tersine, eğitilmiş decoder aktarımı performansı olumsuz etkiledi. Araştırmacılar, yakınsanmış bir encoder'ı sabitleyip sadece decoder'ı yeniden eğittiklerinde, plato evresini tamamen ortadan kaldırdılar ve doğruluk oranını %97,6'ya çıkardılar.

Bu keşif, AI modellerinin öğrenme süreçlerinin optimizasyonu için yeni yaklaşımların kapısını açıyor ve derin öğrenme mimarilerinin içsel işleyişini daha iyi anlamamızı sağlıyor.