Yapay zeka alanında derin ReLU (Rectified Linear Unit) ağlarının eğitim dinamikleri üzerine yapılan yeni bir araştırma, bu sistemlerin matematiksel davranışlarında ilginç bir düzen keşfetti. Küçük ağırlıklarla başlatılan derin ağlarda, gradyan inişi algoritmasının ilk aşamalarında parametrik uzayın orijinindeki eyer noktasında sıkıştığı gözlemleniyor.
Araştırmacılar, algoritmanın bu durumdan nasıl çıktığını inceleyerek 'kaçış yönleri' adını verdikleri matematiksel yönleri analiz etti. Bu yönler, klasik optimizasyondaki Hessian matrisinin özvektörlerine benzer bir rol oynuyor ancak daha karmaşık bir yapı sergiliyor.
En çarpıcı bulgu, optimal kaçış yönünün derin katmanlarda 'düşük-rank önyargısı' göstermesi oldu. Bu fenomende, ℓ-inci katman ağırlık matrisinin ilk tekil değeri, diğer tekil değerlerden en az ℓ^(1/4) kat daha büyük çıkıyor. Bu matematiksel düzen, ağın derinliği arttıkça daha belirgin hale geliyor.
Çalışma ayrıca, derin ReLU ağlarının 'eyer-den-eyer dinamikleri' sergilediğini öne sürüyor. Bu teoriye göre, gradyan inişi algoritması artan darboğaz rankına sahip eyer noktaları dizisini ziyaret ederek ilerleme kaydediyor. Bu keşif, yapay sinir ağlarının eğitim sürecindeki karmaşık dinamikleri anlamada yeni bir çerçeve sunuyor.