Yapay Zeka Modellerinin İnce Ayarında Katmanlar Arası Değişim Haritası Çıkarıldı

Araştırmacılar, önceden eğitilmiş yapay zeka modellerinin yeni görevlere uyarlanması sürecinde hangi katmanların nasıl değiştiğini kapsamlı bir şekilde incelediler. 125 milyon ile 6,9 milyar parametre arasındaki 15 farklı model üzerinde yapılan 240 deneyden elde edilen bulgular, modellerin ince ayarlanması sırasında çıktıya en yakın katmanlarda daha fazla değişim yaşandığını gösteriyor. Bu değişim deseninin modelin doğasından mı yoksa gradyan akışının büyüklüğünden mi kaynaklandığını test etmek için özel kontrol yöntemleri geliştirildi. Sonuçlar, farklı mimari türlerinin bu değişim profiline farklı tepkiler verdiğini ortaya koydu.

Yapay zeka modellerinin önceden eğitilmiş hallerinin yeni görevlere uyarlanması sürecinde hangi katmanların nasıl değiştiği, makine öğrenmesi alanında önemli bir araştırma konusu haline geldi. Yeni bir çalışma, bu değişim desenlerini sistematik olarak haritalandırarak önemli bulgular ortaya koydu.

Araştırma ekibi, dört farklı mimari ailesinden 15 model üzerinde 240 ince ayarlama deneyi gerçekleştirdi. Bu modeller arasında kodlayıcı ve kod çözücü transformerler, durum-uzay modeli ve tekrarlayan sinir ağları bulunuyor. Test edilen modeller 125 milyon ile 6,9 milyar parametre arasında değişen ölçeklere sahipti.

Elde edilen sonuçlar, standart eğitim sürecinde neredeyse tüm durumlarda temsil değişiminin çıktıya en yakın katmanlarda yoğunlaştığını gösterdi. Ancak bu desenin modelin yapısından mı yoksa gradyan akışının etkisinden mi kaynaklandığını anlamak için araştırmacılar özel bir kontrol yöntemi geliştirdiler.

Her optimizasyon adımından sonra katmanlar arası ağırlık değişimlerini eşitleyen bu kontrol altında, bazı koşullarda profil korunurken bazılarında kayboldu. Özellikle 125-350 milyon parametre aralığında, sıralı blok mimariler bu eğimi korurken, paralel blok mimariler yalnızca belirli görev türlerinde bu özelliği sürdürdü.

Bu bulgular, yapay zeka modellerinin adaptasyon süreçlerini daha iyi anlamamıza ve gelecekte daha verimli ince ayarlama stratejileri geliştirmemize yardımcı olabilir.