Araştırmacılar, difüzyon modellerinin güçlü genelleme yeteneğinden faydalanarak çoklu görev öğreniminde çığır açan bir yöntem geliştirdi. StableMTL adı verilen bu sistem, her veri setinin yalnızca belirli görevler için etiketlendiği sentetik verilerle çalışabiliyor. Geleneksel yöntemlerin aksine, her görev için ayrı kayıp fonksiyonu yerine birleşik bir yaklaşım benimseyen sistem, görevler arası işbirliğini artıran dikkat mekanizması kullanıyor. Bu gelişme, yapay zeka modellerinin daha az veriyle daha çok şey öğrenmesine olanak tanıyarak, özellikle veri toplama maliyetlerinin yüksek olduğu alanlarda büyük avantaj sağlıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modellerinde Çoklu Görev Öğrenimini İyileştiren Yeni Yöntem Geliştirildi

Araştırmacılar, yapay zeka modellerinde farklı görevler için eğitilmiş LoRA adaptörlerini birleştirirken yaşanan performans kaybının temel nedenini keşfetti. Çalışma, sorunun LoRA matrislerinden B matrisinin ortak yönleri aşırı vurgulamasından kaynaklandığını ortaya koydu. Geliştirilen Pico yöntemi, veri kullanmadan bu sorunu çözerek matematik, kodlama, finans ve tıp alanlarındaki sekiz farklı benchmark testinde başarı gösterdi. Bu buluş, büyük dil modellerinin çoklu görev performansını artırabilir.

arXiv (Dilbilim & NLP) 0