Araştırmacılar, büyük dil modellerinin belirli alanlara uyarlanması sırasında yaşanan bilgi kaybı sorununa yenilikçi bir çözüm geliştirdi. Geleneksel yöntemlerde modeller yeni görevler öğrenirken önceki genel bilgilerini kısmen unutuyordu. Yeni yaklaşım, model parametrelerini 'çekirdek' ve 'çekirdek olmayan' şeklinde ikiye ayırarak bu sorunu çözüyor. Çekirdek parametreler genel dil yeteneği için kritik olurken, diğerleri özel görevlere daha duyarlı. Bu ayrım sayesinde modeller hem genel yeteneklerini koruyabiliyor hem de yeni görevlerde başarılı olabiliyor. Parametre önemini değerlendiren yöntem, modellerin farklı görevler arasında daha iyi transfer edilebilmesini sağlıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modellerinde Ayar Seçimi Model Seçiminden 5 Kat Daha Önemli

Açık kaynak kodlu büyük dil modellerinin donanım tasarımında kullanımını inceleyen yeni araştırma, hangi modelin kullanıldığından çok nasıl yapılandırıldığının önemli olduğunu ortaya koyuyor. 26 farklı modeli 108 farklı yapılandırma ile test eden çalışmada, aynı modelin en iyi ve en kötü ayarları arasında %25,5'e kadar performans farkı gözlendi. Bu fark, farklı model aileleri arasındaki ortalama performans farkından 5 kat daha büyük. Bulgular, yapay zeka araştırmalarında model karşılaştırmalarının yanında konfigürasyon optimizasyonunun da kritik önemde olduğunu gösteriyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

PiCa: Yapay Zeka Modellerini Eğitmek İçin Yeni Matematiksel Yöntem

Araştırmacılar, dev yapay zeka modellerini daha verimli bir şekilde özelleştirmek için PiCa adlı yeni bir matematiksel yöntem geliştirdi. Bu teknik, milyarlarca parametre içeren modelleri eğitirken hesaplama maliyetini önemli ölçüde azaltıyor. Geleneksel yöntemlerin aksine, PiCa sağlam teorik temellere dayalı bir yaklaşım sunuyor ve gradyanları önceden eğitilmiş ağırlıkların ana sütun uzayına yansıtarak parametre verimliliğini artırıyor. Bu gelişme, yapay zeka modellerinin daha geniş kitlelere erişimini kolaylaştırabilir.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay zeka modellerini daha az veriyle eğitmenin yeni yöntemi: BEFT

Araştırmacılar, büyük dil modellerini sınırlı veriyle daha verimli şekilde eğitmenin yollarını araştırıyor. BEFT adlı yeni teknik, modelin sadece belirli önyargı parametrelerini ayarlayarak rekabetçi performans elde etmeyi hedefliyor. Çalışma, özellikle 'değer' projeksiyonundaki önyargı terimlerini ayarlamanın, 'sorgu' ve 'anahtar' parametrelerine göre daha iyi sonuçlar verdiğini ortaya koyuyor. 6,7 milyar parametreye kadar çeşitli model mimarilerinde test edilen bu yaklaşım, yapay zeka modellerinin eğitiminde parametre verimliliğini artırırken performansı koruma potansiyeli taşıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka vs Klasik Yöntemler: Hiperparametre Optimizasyonunda Hangisi Üstün?

Stanford araştırmacıları, büyük dil modellerinin (LLM) klasik hiperparametre optimizasyon algoritmalarına karşı performansını test etti. Sonuçlar, Claude Opus ve Gemini gibi en gelişmiş AI modelleri bile CMA-ES ve TPE gibi geleneksel yöntemleri geçemediğini gösterdi. LLM'ler deneme süreçleri arasında optimizasyon durumunu takip etmekte zorlanırken, klasik yöntemler alan bilgisinden yoksun kalıyor. Bu sorunu çözmek için araştırmacılar, her iki yaklaşımın güçlü yanlarını birleştiren 'Centaur' adlı hibrit sistem geliştirdi.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Yapay Zeka Modellerinde Gizlilik Koruması İçin Optimal Ayarlar Keşfedildi

Araştırmacılar, özel verileri koruyarak yapay zeka modellerini eğitme sürecinde kritik bir sorunu çözdü. Diferansiyel gizlilik ile transfer öğrenme yönteminde kullanılan iki temel parametre - kırpma sınırı ve parti boyutu - için optimal değerlerin nasıl seçileceği belirlendi. Çalışma, mevcut teorik anlayış ile pratik sonuçlar arasında önemli bir uyumsuzluk olduğunu ortaya koydu. Güçlü gizlilik koruması gerektiren durumlarda, teorinin önerdiği küçük kırpma değerleri yerine daha büyük değerlerin daha iyi performans gösterdiği keşfedildi. Bu durum, gradyan dağılımlarındaki değişikliklerden kaynaklanıyor. Araştırma ayrıca, sınırlı hesaplama bütçesi altında parti boyutu ayarlaması için mevcut yöntemlerin yetersiz olduğunu ve kümülatif gizlilik gürültüsünün performansı daha iyi açıkladığını gösterdi. Bulgular, AI modellerinde gizlilik ve performans dengesini optimize etmek için yeni yaklaşımlar sunuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

16 Apr

Yapay Zeka 'Öğrenmeyi Öğreniyor': Yeni Algoritma Kendi Parametrelerini Optimize Ediyor

Stanford araştırmacıları, makine öğrenmesi algoritmalarının kendi hiperparametrelerini optimize edebileceği yeni bir yaklaşım geliştirdi. Langevin Gradyan İniş Algoritması (LGD) adı verilen bu yöntem, geçmiş deneyimlerden öğrenerek gelecekteki regresyon problemlerinde daha iyi performans gösterebiliyor. Araştırma, algoritmanın optimal hiperparametre yapılandırması ile Bayes optimal çözümüne ulaşabileceğini matematiksel olarak kanıtlıyor. Bu 'meta-öğrenme' yaklaşımı, AI sistemlerinin insan müdahalesi olmadan kendilerini geliştirme yetisini artırarak, otomatik makine öğrenmesi alanında önemli bir adım teşkil ediyor. Çalışma özellikle regresyon problemlerinde önceki elastic net yöntemlerinin sınırlarını aşarak, daha fazla hiperparametre ile çalışabilme imkanı sunuyor.

arXiv (CS + AI) 0