Yapay Zeka Modellerinde 'Grokking' Keşfi: Gecikmeli Öğrenme Sırrı Çözülüyor

Araştırmacılar, difüzyon modellerinin 'grokking' adı verilen ilginç bir öğrenme davranışı sergilediğini keşfetti. Bu fenomende model önce ezbercilik yapar, sonra gerçek anlayışa ulaşır. Modüler toplama problemleri üzerinde yapılan deneyler, bu AI sistemlerinin nasıl öğrendiğini mekanik düzeyde açıklıyor. Tek görüntü rejiminde model, sayıları periyodik temsiller halinde kodlayarak işlem yaparken, çeşitli görüntülerle çalışırken aritmetik hesaplama ve görsel düzeltme olmak üzere iki aşamalı bir strateji benimsiyor. Bu bulgular, yapay zekanın öğrenme süreçlerini daha iyi anlamamızı sağlıyor.

Yapay zeka araştırmalarında difüzyon modelleri büyük başarılar elde etmesine rağmen, bu sistemlerin nasıl genelleme yaptığı uzun süre gizemini koruyordu. Yeni bir araştırma, bu modellerin 'grokking' adı verilen büyüleyici bir öğrenme davranışı sergilediğini ortaya koydu.

Grokking, modelin önce veriyi ezberlemesi ve aşırı uyum (overfitting) göstermesi, ardından aniden gerçek anlayışa ulaşarak genelleme yapabilmesi olarak tanımlanıyor. Araştırmacılar bu fenomeni modüler toplama problemleri üzerinde inceleyerek, modelin içsel hesaplama mekanizmalarını detaylı bir şekilde analiz edebildi.

Çalışma iki farklı veri rejiminde gerçekleştirildi. Tek görüntü rejiminde, model modüler toplamayı her bir işleneni periyodik temsiller halinde kodlayarak gerçekleştiriyor. Yüksek sınıf içi değişkenliğe sahip çeşitli görüntü rejiminde ise model, yinelemeli örnekleme sürecini kullanarak görevi iki aşamaya böldüğü keşfedildi.

Bu iki aşama, kritik bir zaman eşiği ile ayrılmış aritmetik hesaplama fazı ve ardından gelen görsel gürültü giderme fazından oluşuyor. Bu mekanizmanın ortaya çıkarılması, difüzyon modellerinin algoritmik öğrenme süreçlerini mekanik düzeyde anlamamızı sağlayan önemli bir adım olarak değerlendiriliyor.