Açık kaynak kodlu büyük dil modellerinin donanım tasarımında kullanımını inceleyen yeni araştırma, hangi modelin kullanıldığından çok nasıl yapılandırıldığının önemli olduğunu ortaya koyuyor. 26 farklı modeli 108 farklı yapılandırma ile test eden çalışmada, aynı modelin en iyi ve en kötü ayarları arasında %25,5'e kadar performans farkı gözlendi. Bu fark, farklı model aileleri arasındaki ortalama performans farkından 5 kat daha büyük. Bulgular, yapay zeka araştırmalarında model karşılaştırmalarının yanında konfigürasyon optimizasyonunun da kritik önemde olduğunu gösteriyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka vs Klasik Yöntemler: Hiperparametre Optimizasyonunda Hangisi Üstün?

Stanford araştırmacıları, büyük dil modellerinin (LLM) klasik hiperparametre optimizasyon algoritmalarına karşı performansını test etti. Sonuçlar, Claude Opus ve Gemini gibi en gelişmiş AI modelleri bile CMA-ES ve TPE gibi geleneksel yöntemleri geçemediğini gösterdi. LLM'ler deneme süreçleri arasında optimizasyon durumunu takip etmekte zorlanırken, klasik yöntemler alan bilgisinden yoksun kalıyor. Bu sorunu çözmek için araştırmacılar, her iki yaklaşımın güçlü yanlarını birleştiren 'Centaur' adlı hibrit sistem geliştirdi.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Yapay Zeka Modellerinde Gizlilik Koruması İçin Optimal Ayarlar Keşfedildi

Araştırmacılar, özel verileri koruyarak yapay zeka modellerini eğitme sürecinde kritik bir sorunu çözdü. Diferansiyel gizlilik ile transfer öğrenme yönteminde kullanılan iki temel parametre - kırpma sınırı ve parti boyutu - için optimal değerlerin nasıl seçileceği belirlendi. Çalışma, mevcut teorik anlayış ile pratik sonuçlar arasında önemli bir uyumsuzluk olduğunu ortaya koydu. Güçlü gizlilik koruması gerektiren durumlarda, teorinin önerdiği küçük kırpma değerleri yerine daha büyük değerlerin daha iyi performans gösterdiği keşfedildi. Bu durum, gradyan dağılımlarındaki değişikliklerden kaynaklanıyor. Araştırma ayrıca, sınırlı hesaplama bütçesi altında parti boyutu ayarlaması için mevcut yöntemlerin yetersiz olduğunu ve kümülatif gizlilik gürültüsünün performansı daha iyi açıkladığını gösterdi. Bulgular, AI modellerinde gizlilik ve performans dengesini optimize etmek için yeni yaklaşımlar sunuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

16 Apr

Yapay Zeka 'Öğrenmeyi Öğreniyor': Yeni Algoritma Kendi Parametrelerini Optimize Ediyor

Stanford araştırmacıları, makine öğrenmesi algoritmalarının kendi hiperparametrelerini optimize edebileceği yeni bir yaklaşım geliştirdi. Langevin Gradyan İniş Algoritması (LGD) adı verilen bu yöntem, geçmiş deneyimlerden öğrenerek gelecekteki regresyon problemlerinde daha iyi performans gösterebiliyor. Araştırma, algoritmanın optimal hiperparametre yapılandırması ile Bayes optimal çözümüne ulaşabileceğini matematiksel olarak kanıtlıyor. Bu 'meta-öğrenme' yaklaşımı, AI sistemlerinin insan müdahalesi olmadan kendilerini geliştirme yetisini artırarak, otomatik makine öğrenmesi alanında önemli bir adım teşkil ediyor. Çalışma özellikle regresyon problemlerinde önceki elastic net yöntemlerinin sınırlarını aşarak, daha fazla hiperparametre ile çalışabilme imkanı sunuyor.

arXiv (CS + AI) 0