Araştırmacılar, yapay zeka alanında önemli bir model olan Uzmanlar Karışımı (MoE) sistemlerinin matematiksel davranışını inceleyerek, uzman sayısı arttıkça sistemin nasıl evrimleştiğini keşfettiler. Çalışma, gradyan akışı ile eğitilen MoE modellerinin asimptotik davranışını analiz ediyor ve uzman sayısı sonsuza yaklaşırken "kaosun yayılması" fenomeninin ortaya çıktığını gösteriyor. Bu matematiksel keşif, özellikle kuantum sinir ağları için önemli uygulamalara sahip. Araştırma, model parametrelerinin ampirik ölçüsünün doğrusal olmayan süreklilik denklemi çözen bir olasılık ölçüsüne yaklaştığını ve bu yakınsama hızının sadece uzman sayısına bağlı olduğunu ortaya koyuyor.

arXiv — Matematiksel Fizik 0

Teknoloji & Yapay Zeka

4 May

Yapay Zeka Modellerinde Hız Rekoru: EVICT Sistemi 2 Kat Daha Hızlı İşlem Sağlıyor

Araştırmacılar, yapay zeka modellerinin metin üretim hızını artırmak için EVICT adlı yeni bir sistem geliştirdi. Bu sistem, özellikle karmaşık Mixture-of-Experts (MoE) modellerinde yaşanan performans sorunlarını çözerek, gereksiz hesaplamaları ortadan kaldırıyor. EVICT, ağaç tabanlı tahmini kod çözme tekniğini optimize ederek, sadece faydalı token'ları doğrulama sürecine dahil ediyor. Sistem herhangi bir ek eğitim gerektirmeden çalışabiliyor ve mevcut altyapılarla uyumlu. Farklı model mimarileri üzerinde yapılan testlerde sistemin 2 kata kadar hız artışı sağladığı görüldü. Bu gelişme, ChatGPT gibi büyük dil modellerinin yanıt verme hızını önemli ölçüde artırabilir.

arXiv — Hesaplamalı Dilbilim (cs.CL) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modelleri için Yeni Sıkıştırma Tekniği: Bellek Tüketimini Azaltan CD-MoE

Araştırmacılar, büyük yapay zeka modellerinin bellek gereksinimlerini dramatik şekilde azaltan yenilikçi bir yöntem geliştirdi. ConDense-MoE (CD-MoE) adlı bu teknik, Mixture-of-Experts modellerindeki katmanları tamamen çıkarmak yerine, bunları daha küçük ve yoğun yapılara dönüştürüyor. Geleneksel budama yöntemleri model performansında önemli kayıplara neden olurken, CD-MoE büyük ve seyrek MoE katmanlarını az sayıda uzmanla çalışan, donanım dostu küçük katmanlara sıkıştırıyor. Bu yaklaşım özellikle paylaşılan uzmanları olan ince taneli MoE modelleri için tasarlanmış durumda. Büyük dil modellerinin yaygınlaştığı dönemde, bu gelişme yapay zeka modellerinin gerçek dünya uygulamalarında daha pratik hale gelmesini sağlayabilir.

arXiv (CS + AI) 0