Derin yapay sinir ağlarında düşük-rank önyargısı keşfedildi

Araştırmacılar, derin ReLU yapay sinir ağlarının eğitim sürecinde şaşırtıcı bir matematiksel düzen keşfetti. Ağırlıkları küçük değerlerle başlatılan bu ağlarda, gradyan inişi algoritması başlangıçta parametrik uzayın orijinindeki eyer noktasında takılı kalıyor. Bu durumdan çıkış yönlerini inceleyen bilim insanları, derin katmanlarda düşük-rank önyargısı adı verilen bir fenomen tespit etti. Bu önyargıya göre, derin katmanlardaki ağırlık matrislerinin ilk tekil değeri, diğer değerlerden katman derinliğinin dörtte birinci kuvveti kadar daha büyük oluyor. Bu keşif, yapay sinir ağlarının eğitim dinamiklerini anlamada yeni perspektifler sunuyor ve algoritmaların neden belirli şekillerde davrandığını açıklıyor. Bulgular, derin öğrenme modellerinin optimizasyon sürecindeki gizli matematiksel yapıları ortaya çıkarıyor.

Yapay zeka alanında derin ReLU (Rectified Linear Unit) ağlarının eğitim dinamikleri üzerine yapılan yeni bir araştırma, bu sistemlerin matematiksel davranışlarında ilginç bir düzen keşfetti. Küçük ağırlıklarla başlatılan derin ağlarda, gradyan inişi algoritmasının ilk aşamalarında parametrik uzayın orijinindeki eyer noktasında sıkıştığı gözlemleniyor.

Araştırmacılar, algoritmanın bu durumdan nasıl çıktığını inceleyerek 'kaçış yönleri' adını verdikleri matematiksel yönleri analiz etti. Bu yönler, klasik optimizasyondaki Hessian matrisinin özvektörlerine benzer bir rol oynuyor ancak daha karmaşık bir yapı sergiliyor.

En çarpıcı bulgu, optimal kaçış yönünün derin katmanlarda 'düşük-rank önyargısı' göstermesi oldu. Bu fenomende, ℓ-inci katman ağırlık matrisinin ilk tekil değeri, diğer tekil değerlerden en az ℓ^(1/4) kat daha büyük çıkıyor. Bu matematiksel düzen, ağın derinliği arttıkça daha belirgin hale geliyor.

Çalışma ayrıca, derin ReLU ağlarının 'eyer-den-eyer dinamikleri' sergilediğini öne sürüyor. Bu teoriye göre, gradyan inişi algoritması artan darboğaz rankına sahip eyer noktaları dizisini ziyaret ederek ilerleme kaydediyor. Bu keşif, yapay sinir ağlarının eğitim sürecindeki karmaşık dinamikleri anlamada yeni bir çerçeve sunuyor.