HiP-LoRA: Yapay Zeka Modellerini Daha Verimli Eğitmenin Yeni Yolu

Araştırmacılar, büyük yapay zeka modellerini daha az kaynak kullanarak eğitmenin yeni bir yöntemini geliştirdi. HiP-LoRA adlı bu teknik, mevcut LoRA yönteminin spektral girişim sorununu çözerek, modellerin hem önceki bilgilerini korumasını hem de yeni görevleri öğrenmesini sağlıyor. Yöntem, model güncellemelerini iki kanala ayırarak ve tekil değer ayrıştırması kullanarak daha dengeli bir öğrenme süreci sunuyor. Llama-3.1-8B modeli üzerinde yapılan deneyler, bu yaklaşımın geleneksel yöntemlere göre daha kararlı sonuçlar verdiğini gösteriyor. Bu gelişme, sınırlı hesaplama kaynakları olan araştırmacılar ve geliştiriciler için önemli fırsatlar yaratıyor.

Yapay zeka alanında büyük dil modellerinin eğitimi genellikle yüksek maliyetli bir süreç olsa da, araştırmacılar bu modelleri daha verimli şekilde uyarlayabilmek için çeşitli teknikler geliştiriyor. Bu alanda yaygın kullanılan LoRA (Low-Rank Adaptation) yöntemi, modellerin sadece küçük bir bölümünü güncelleyerek kaynak tasarrufu sağlıyor.

Ancak LoRA'nın spektral girişim adı verilen önemli bir sorunu var. Bu sorun, düşük sıralı güncellemelerin enerjiyi önceden eğitilmiş ağırlıkların baskın tekil yönlerinde yoğunlaştırması sonucu ortaya çıkıyor. Bu durum, modelin genel yeteneklerini bozarak felaketli unutmaya ve çoklu adaptör birleştirme sorunlarına yol açabiliyor.

Yeni geliştirilen HiP-LoRA yaklaşımı, bu sorunu spektrum farkında bir uyarlama çerçevesi ile çözüyor. Sistem, önceden eğitilmiş katmanların önbelleğe alınmış tekil değer ayrıştırmasını kullanarak güncellemeleri iki kanala ayırıyor: baskın tekil alt uzayda bir ana kanal ve dik tamamlayıcıda bir artık düşük sıralı kanal.

Ana kanalda tekil değer ağırlıklı bir kararlılık bütçesi, önceden eğitilmiş davranış koruması ile göreve özgü plastisite arasında sürekli bir denge kuruyor. Bu yaklaşım, modelin hem eski bilgilerini korumasını hem de yeni görevlere uyum sağlamasını mümkün kılıyor.

Llama-3.1-8B modeli üzerinde yapılan deneyler, HiP-LoRA'nın eşdeğer kaynak bütçeleri altında geleneksel yöntemlere göre daha iyi performans sergilediğini ortaya koyuyor.