Araştırmacılar, difüzyon modellerinin 'grokking' adı verilen ilginç bir öğrenme davranışı sergilediğini keşfetti. Bu fenomende model önce ezbercilik yapar, sonra gerçek anlayışa ulaşır. Modüler toplama problemleri üzerinde yapılan deneyler, bu AI sistemlerinin nasıl öğrendiğini mekanik düzeyde açıklıyor. Tek görüntü rejiminde model, sayıları periyodik temsiller halinde kodlayarak işlem yaparken, çeşitli görüntülerle çalışırken aritmetik hesaplama ve görsel düzeltme olmak üzere iki aşamalı bir strateji benimsiyor. Bu bulgular, yapay zekanın öğrenme süreçlerini daha iyi anlamamızı sağlıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modellerinde 'Grokking' Fenomeninin Fizik Yasalarıyla Açıklanması

Yapay zeka araştırmacıları, derin öğrenme modellerinde yaşanan 'grokking' olayını - ezberleme durumundan genelleme yetisine ani geçiş - fizik yasalarıyla açıklayan yeni bir yöntem geliştirdi. TDU-OFC adlı bu teknik, gradyan verilerini çığ istatistiklerine dönüştürerek modellerin öğrenme sürecindeki kritik geçiş anlarını tespit ediyor. Transformer ve MLP modellerinde yapılan deneylerde, genelleme geçişinin tam olarak belirli bir boyutsal kritik noktada gerçekleştiği keşfedildi. Bu bulgu, yapay zekanın nasıl öğrendiğini anlamamızda önemli bir adım.

arXiv — Yoğun Madde Fiziği 0

Teknoloji & Yapay Zeka

16 Apr

Yapay Zeka 'Grokking' Gizeminin Çözümü: Problem Encoder-Decoder Darboğazında

Araştırmacılar, yapay zeka modellerinin matematik problemlerini çözerken yaşadığı 'grokking' fenomeninin nedenini keşfetti. Transformer modellerin eğitim verilerini öğrendikten sonra genelleme yapabilmesi arasında geçen uzun sürenin, bilgiyi işleyen encoder bölümünün öğrendiği yapıyı decoder bölümüne aktaramamasından kaynaklandığı ortaya çıktı. MIT araştırmacıları Collatz tahmin problemini kullanarak yaptıkları deneylerde, encoder'ın sayısal yapıları binlerce adımda öğrendiğini ancak çıktı doğruluğunun on binlerce adım boyunca şans seviyesinde kaldığını gözlemledi. Bu bulgular, AI modellerinin öğrenme süreçlerinin daha iyi anlaşılması ve optimize edilmesi açısından kritik önem taşıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

16 Apr

Yapay Zeka'nın 'Grokking' Sırrı: Spektral Entropi ile Tahmin Edilebilir Hale Geldi

MIT araştırmacıları, yapay zekanın geç öğrenme fenomeni olan 'grokking'i tahmin edebilecek yeni bir yöntem keşfetti. Grokking, yapay zeka modellerinin önce bilgiyi ezberleyip, çok daha sonra gerçek anlamda öğrenmeye başladığı ilginç bir durumdur. Araştırmacılar, spektral entropi adı verilen matematiksel bir ölçümün, bu geçişi %100 başarıyla önceden tahmin edebildiğini gösterdi. Bu keşif, yapay zeka modellerinin nasıl öğrendiğini anlamamızda büyük bir adım ve gelecekte daha verimli AI sistemleri geliştirmemize yardımcı olabilir. Çalışma, Transformer modellerinde yapılan deneylerle doğrulandı.

arXiv (CS + AI) 0