Yapay Zeka Ağlarında Yeni Matematiksel Model: Collective Kernel EFT

Araştırmacılar, derin sinir ağlarının matematiksel davranışını daha iyi anlayabilmek için yeni bir teorik çerçeve geliştirdi. ResNet mimarisi üzerinde çalışan bu model, ağların katmanlar arası gelişimini takip eden 'collective kernel effective field theory' adı verilen bir yaklaşım sunuyor. Çalışma, sonlu genişlikteki derin ağlarda empirical kernel'in nasıl stokastik olarak evrimleştiğini inceliyor ve bu süreç için yeni matematiksel denklemler türetiyor. Araştırmacılar, Gaussian yaklaşımları kullanarak sürekli derinlik ODE sistemleri elde etmiş ve bu sistemlerin geçerlilik sınırlarını belirlemiş. Bulgular, ortalama kernel değerinin tüm derinliklerde doğru kalırken, kernel kovaryansının sonlu zamanlarda hata biriktirdiğini gösteriyor.

Stanford ve diğer önde gelen üniversitelerden araştırmacılar, derin sinir ağlarının iç dinamiklerini anlamak için yeni bir matematiksel çerçeve geliştirdi. 'Collective Kernel Effective Field Theory' olarak adlandırılan bu yaklaşım, özellikle ResNet mimarisinin davranışlarını modellemek için tasarlandı.

Araştırma, sonlu genişlikteki derin sinir ağlarında empirical kernel'in (G) katmanlar boyunca nasıl stokastik olarak değiştiği sorununa odaklanıyor. Bilim insanları, bu karmaşık süreci anlamak için fizikten alınan effective field theory metodolojisini uyarladı.

Çalışmanın en önemli katkılarından biri, residual artışların tam koşullu Gaussian özelliğini kullanarak G için kesin bir stokastik recursion türetmesidir. Bu matematiksel altyapı sayesinde, ortalama kernel K₀, kernel kovaryansı V₄ ve 1/n ortalama düzeltmesi K₁ için sürekli derinlik ODE sistemleri elde edildi.

Numerik testler, ortalama kernel değerinin (K₀) tüm derinliklerde yüksek doğruluk gösterdiğini ortaya koydu. Ancak kernel kovaryans denklemi (V₄) sonlu zamanlarda O(1) mertebesinde hata birikimi yaşıyor. Bu durum, özellikle G-only transport terimindeki yaklaşım hatalarından kaynaklanıyor.

Bu teorik çerçeve, derin öğrenme modellerinin matematiksel temellerini güçlendirerek, gelecekteki AI sistemlerinin daha iyi anlaşılmasına katkı sağlayabilir.