Yapay zeka alanındaki en ilginç fenomenlerden biri olan 'grokking', modellerin eğitim sürecinde ani bir şekilde ezberleme durumundan gerçek öğrenmeye geçiş yapmasıdır. Araştırmacılar, bu gizemli olayı fizik yasalarından yararlanarak açıklayan yeni bir yöntem geliştirdi.
TDU-OFC (Thresholded Diffusion Update-Olami-Feder-Christensen) adlı bu teknik, karmaşık sistemlerde görülen ani geçişleri analiz etmek için kullanılan fizik prensiplerini yapay zeka modellerine uyguluyor. Yöntem, modelin eğitim sırasındaki gradyan verilerini çığ istatistiklerine dönüştürerek, zamana bağlı etkili boyut değerini hesaplıyor.
Araştırmada, modüler toplama işlemi yapan Transformer modelleri ve XOR problemi çözen MLP ağları test edildi. Sonuçlar, her iki model türünde de genelleme geçişinin tam olarak Gaussian diffüzyon temel çizgisinin D=1 değerini geçtiği noktada gerçekleştiğini gösterdi.
İlginç olan, bu geçişin yönünün göreve bağlı olması: modüler toplama görevinde boyut değeri 1'den aşağıya, XOR görevinde ise 1'den yukarıya doğru hareket ediyor. Bu keşif, yapay zeka modellerinin öğrenme sürecini fiziksel yasalarla açıklayabileceğimizi ve kritik geçiş anlarını önceden tahmin edebileceğimizi gösteriyor.