Yapay zeka araştırmalarında difüzyon modelleri büyük başarılar elde etmesine rağmen, bu sistemlerin nasıl genelleme yaptığı uzun süre gizemini koruyordu. Yeni bir araştırma, bu modellerin 'grokking' adı verilen büyüleyici bir öğrenme davranışı sergilediğini ortaya koydu.
Grokking, modelin önce veriyi ezberlemesi ve aşırı uyum (overfitting) göstermesi, ardından aniden gerçek anlayışa ulaşarak genelleme yapabilmesi olarak tanımlanıyor. Araştırmacılar bu fenomeni modüler toplama problemleri üzerinde inceleyerek, modelin içsel hesaplama mekanizmalarını detaylı bir şekilde analiz edebildi.
Çalışma iki farklı veri rejiminde gerçekleştirildi. Tek görüntü rejiminde, model modüler toplamayı her bir işleneni periyodik temsiller halinde kodlayarak gerçekleştiriyor. Yüksek sınıf içi değişkenliğe sahip çeşitli görüntü rejiminde ise model, yinelemeli örnekleme sürecini kullanarak görevi iki aşamaya böldüğü keşfedildi.
Bu iki aşama, kritik bir zaman eşiği ile ayrılmış aritmetik hesaplama fazı ve ardından gelen görsel gürültü giderme fazından oluşuyor. Bu mekanizmanın ortaya çıkarılması, difüzyon modellerinin algoritmik öğrenme süreçlerini mekanik düzeyde anlamamızı sağlayan önemli bir adım olarak değerlendiriliyor.