Yapay zeka dünyasının en gizemli fenomenlerinden biri olan 'grokking' artık tahmin edilebilir hale geldi. Bu ilginç durum, AI modellerinin önce veriyi ezberleyip, ancak çok daha sonra gerçek anlamda genelleme yapabilme yetisi kazandığı süreci ifade ediyor.
Araştırmacılar, spektral entropi adı verilen matematiksel bir ölçümün bu geçişi önceden haber verebildiğini keşfetti. Yapılan deneylerde, entropi değeri 0.61 eşiğini geçtiğinde, model ortalama 1020 adım sonra grokking aşamasına giriyordu - ve bu tahmin %100 doğruluk oranıyla gerçekleşti.
Çalışma, grokking sürecinin iki aşamada gerçekleştiğini ortaya koydu: önce norm genişlemesi, ardından entropi çöküşü. Araştırmacılar, entropi çöküşünü engellediklerinde, grokking sürecinin 5000 adım daha geciktiğini gözlemlediler.
En dikkat çekici bulgu ise, grokking zamanlamasının matematiksel bir formülle tahmin edilebilmesidir. Geliştirilen güç yasası denklemi, grokking başlangıcını sadece %4.1 hatayla öngörebiliyor.
Bu keşif, yapay zeka modellerinin öğrenme süreçlerini daha iyi anlamamıza ve gelecekte daha verimli AI sistemleri tasarlamamıza olanak sağlayabilir. Özellikle derin öğrenme modellerinin eğitim süreçlerinin optimize edilmesinde önemli bir araç olma potansiyeline sahip.