Yapay Zeka'nın 'Grokking' Sırrı: Spektral Entropi ile Tahmin Edilebilir Hale Geldi

MIT araştırmacıları, yapay zekanın geç öğrenme fenomeni olan 'grokking'i tahmin edebilecek yeni bir yöntem keşfetti. Grokking, yapay zeka modellerinin önce bilgiyi ezberleyip, çok daha sonra gerçek anlamda öğrenmeye başladığı ilginç bir durumdur. Araştırmacılar, spektral entropi adı verilen matematiksel bir ölçümün, bu geçişi %100 başarıyla önceden tahmin edebildiğini gösterdi. Bu keşif, yapay zeka modellerinin nasıl öğrendiğini anlamamızda büyük bir adım ve gelecekte daha verimli AI sistemleri geliştirmemize yardımcı olabilir. Çalışma, Transformer modellerinde yapılan deneylerle doğrulandı.

Yapay zeka dünyasının en gizemli fenomenlerinden biri olan 'grokking' artık tahmin edilebilir hale geldi. Bu ilginç durum, AI modellerinin önce veriyi ezberleyip, ancak çok daha sonra gerçek anlamda genelleme yapabilme yetisi kazandığı süreci ifade ediyor.

Araştırmacılar, spektral entropi adı verilen matematiksel bir ölçümün bu geçişi önceden haber verebildiğini keşfetti. Yapılan deneylerde, entropi değeri 0.61 eşiğini geçtiğinde, model ortalama 1020 adım sonra grokking aşamasına giriyordu - ve bu tahmin %100 doğruluk oranıyla gerçekleşti.

Çalışma, grokking sürecinin iki aşamada gerçekleştiğini ortaya koydu: önce norm genişlemesi, ardından entropi çöküşü. Araştırmacılar, entropi çöküşünü engellediklerinde, grokking sürecinin 5000 adım daha geciktiğini gözlemlediler.

En dikkat çekici bulgu ise, grokking zamanlamasının matematiksel bir formülle tahmin edilebilmesidir. Geliştirilen güç yasası denklemi, grokking başlangıcını sadece %4.1 hatayla öngörebiliyor.

Bu keşif, yapay zeka modellerinin öğrenme süreçlerini daha iyi anlamamıza ve gelecekte daha verimli AI sistemleri tasarlamamıza olanak sağlayabilir. Özellikle derin öğrenme modellerinin eğitim süreçlerinin optimize edilmesinde önemli bir araç olma potansiyeline sahip.