Yapay Zeka 'Grokking' Gizeminin Çözümü: Problem Encoder-Decoder Darboğazında

16 Nisan 2026, 07:00 2 dk okuma 0 görüntülenme arXiv (CS + AI)

Paylaş: Kopyalandı!

Araştırmacılar, yapay zeka modellerinin matematik problemlerini çözerken yaşadığı 'grokking' fenomeninin nedenini keşfetti. Transformer modellerin eğitim verilerini öğrendikten sonra genelleme yapabilmesi arasında geçen uzun sürenin, bilgiyi işleyen encoder bölümünün öğrendiği yapıyı decoder bölümüne aktaramamasından kaynaklandığı ortaya çıktı. MIT araştırmacıları Collatz tahmin problemini kullanarak yaptıkları deneylerde, encoder'ın sayısal yapıları binlerce adımda öğrendiğini ancak çıktı doğruluğunun on binlerce adım boyunca şans seviyesinde kaldığını gözlemledi. Bu bulgular, AI modellerinin öğrenme süreçlerinin daha iyi anlaşılması ve optimize edilmesi açısından kritik önem taşıyor.

Yapay zeka araştırmalarında 'grokking' olarak bilinen fenomen, transformer modellerinin eğitim verilerini ezberledikten sonra genelleme yetisi kazanması arasında yaşanan uzun gecikmeyi ifade ediyor. Bu gecikmenin nedeni şimdiye kadar bilim insanlarını meşgul ediyordu.

Yeni araştırma, bu gecikmenin modelin öğrenme yetisizliğinden değil, öğrendiği bilgiyi kullanma konusundaki sınırlılıklardan kaynaklandığını ortaya koyuyor. Araştırmacılar, encoder-decoder mimarisine sahip matematik modellerini inceleyerek bu hipotezi test etti.

Collatz tahmin problemi üzerinde yapılan deneylerde, encoder bölümünün sayıların çift-tek durumları ve mod yapılarını ilk birkaç bin eğitim adımında organize ettiği gözlemlendi. Ancak modelin çıktı doğruluğu on binlerce adım boyunca rastgele tahmin seviyesinde kaldı.

En çarpıcı bulgu, eğitilmiş bir encoder'ı yeni bir modele aktarmanın grokking sürecini 2,75 kat hızlandırması oldu. Tersine, eğitilmiş decoder aktarımı performansı olumsuz etkiledi. Araştırmacılar, yakınsanmış bir encoder'ı sabitleyip sadece decoder'ı yeniden eğittiklerinde, plato evresini tamamen ortadan kaldırdılar ve doğruluk oranını %97,6'ya çıkardılar.

Bu keşif, AI modellerinin öğrenme süreçlerinin optimizasyonu için yeni yaklaşımların kapısını açıyor ve derin öğrenme mimarilerinin içsel işleyişini daha iyi anlamamızı sağlıyor.

Etiketler

#yapay zeka #transformer #grokking #derin öğrenme #makine öğrenmesi

Özgün Kaynak

The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

https://arxiv.org/abs/2604.13082

Bu içerik, özgün kaynaktan referans alınarak yeniden yorumlanmış Türkçe bir özettir. Telif hakkı özgün yayın organına aittir.

Her sabah seçki, Telegram'da

Günün en önemli bilim haberleri kanalda.

Kanala Katıl

İlgili Haberler

Aynı kategoride okumaya değer

Hepsini gör →

Teknoloji & Yapay Zeka

19 sa önce

40 yıllık veri: ABD siyasetini işçi sınıfı değil, elit seçmenler yeniden şekillendiriyor

Son 40 yılın başkanlık seçimlerini analiz eden araştırmacılar, Amerikan siyasetindeki büyük değişimin arkasında yaygın kanaatin aksine işçi sınıfının değil, varlıklı ve yüksek eğitimli beyaz seçmenlerin olduğunu ortaya koydu. Çalışma, bu grubun istikrarlı bir şekilde Demokrat Parti'ye yöneldiğini gösteriyor. Bulgular, siyasi yeniden yapılanmanın nedenlerine dair genel kabul görmüş görüşleri sorguluyor ve elit seçmenlerin siyasi tercihlerindeki değişimin rolünü ön plana çıkarıyor. Araştırma, demografik değişimlerin siyasi davranış üzerindeki etkilerini anlamak için önemli veriler sunuyor.

PsyPost Oku

Teknoloji & Yapay Zeka

1 gün önce

Gülme Nedir ve Yapay Zeka İnsan Dilini Gerçekten Anlıyor Mu?

Dil ve dilbilim alanındaki iki yeni çalışma dikkat çekici sorulara yanıt arıyor. Almeida'nın Humanities and Social Sciences Communications'da yayınlanan makalesi gülmenin doğasını felsefi ve bilimsel açıdan inceliyor. Diğer yandan Leivada ve ekibinin Philosophical Transactions of the Royal Society A'da yayınlanan araştırması, büyük dil modellerinin gerçekten insan dilini ve kelimelerin arkasındaki dünyayı anlayıp anlamadığını sorguluyor. Her iki çalışma da insan iletişiminin karmaşıklığını farklı perspektiflerden ele alıyor.

Language Log Oku

Teknoloji & Yapay Zeka

1 gün önce

Wikipedia sayfalarını güncellemek bilimsel kurumlara güveni artırıyor

Yeni bir araştırma, bilimsel organizasyonların Wikipedia sayfalarının uzmanlar tarafından düzenli olarak güncellenmesinin halkın bu kurumlara duyduğu güveni önemli ölçüde artırdığını ortaya koydu. American Association for Anatomy'nin Wikipedia sayfası akademik bir uzman tarafından kapsamlı şekilde güncellendiğinde, okuyucular organizasyonu daha güvenilir olarak algıladı. Bu bulgu, bilim insanlarının platformu aktif olarak düzenleyerek doğru bilimsel bilgiye erişimi iyileştirmesi gerektiğini gösteriyor. Araştırma, Wikipedia'nın bilimsel kurumların halkla iletişiminde kritik rol oynadığını vurguluyor.

PsyPost Oku