Yapay Zeka Modellerinde 'Grokking' Fenomeninin Fizik Yasalarıyla Açıklanması

Yapay zeka araştırmacıları, derin öğrenme modellerinde yaşanan 'grokking' olayını - ezberleme durumundan genelleme yetisine ani geçiş - fizik yasalarıyla açıklayan yeni bir yöntem geliştirdi. TDU-OFC adlı bu teknik, gradyan verilerini çığ istatistiklerine dönüştürerek modellerin öğrenme sürecindeki kritik geçiş anlarını tespit ediyor. Transformer ve MLP modellerinde yapılan deneylerde, genelleme geçişinin tam olarak belirli bir boyutsal kritik noktada gerçekleştiği keşfedildi. Bu bulgu, yapay zekanın nasıl öğrendiğini anlamamızda önemli bir adım.

Yapay zeka alanındaki en ilginç fenomenlerden biri olan 'grokking', modellerin eğitim sürecinde ani bir şekilde ezberleme durumundan gerçek öğrenmeye geçiş yapmasıdır. Araştırmacılar, bu gizemli olayı fizik yasalarından yararlanarak açıklayan yeni bir yöntem geliştirdi.

TDU-OFC (Thresholded Diffusion Update-Olami-Feder-Christensen) adlı bu teknik, karmaşık sistemlerde görülen ani geçişleri analiz etmek için kullanılan fizik prensiplerini yapay zeka modellerine uyguluyor. Yöntem, modelin eğitim sırasındaki gradyan verilerini çığ istatistiklerine dönüştürerek, zamana bağlı etkili boyut değerini hesaplıyor.

Araştırmada, modüler toplama işlemi yapan Transformer modelleri ve XOR problemi çözen MLP ağları test edildi. Sonuçlar, her iki model türünde de genelleme geçişinin tam olarak Gaussian diffüzyon temel çizgisinin D=1 değerini geçtiği noktada gerçekleştiğini gösterdi.

İlginç olan, bu geçişin yönünün göreve bağlı olması: modüler toplama görevinde boyut değeri 1'den aşağıya, XOR görevinde ise 1'den yukarıya doğru hareket ediyor. Bu keşif, yapay zeka modellerinin öğrenme sürecini fiziksel yasalarla açıklayabileceğimizi ve kritik geçiş anlarını önceden tahmin edebileceğimizi gösteriyor.