Yapay zeka alanında önemli bir gelişme kaydeden araştırmacılar, büyük dil modellerinin metin üretim hızını artırmak için EVICT adlı yeni bir sistem geliştirdi. Bu sistem, özellikle karmaşık Mixture-of-Experts (MoE) modellerinde yaşanan performans darboğazlarını çözmeyi hedefliyor.
Geleneksel ağaç tabanlı tahmini kod çözme yöntemleri, birden fazla taslak adayını paralel olarak doğrulayarak hız artışı sağlar. Ancak bu avantaj, sparse MoE modellerinde zayıflar çünkü taslak ağaç büyüdükçe farklı dallar farklı uzmanları aktive eder ve doğrulama maliyeti önemli ölçüde artar.
EVICT sistemi bu sorunu, doğrulama öncesinde taslak ağacı keserek sadece maliyet-etkin önekleri koruyarak çözüyor. Sistem, aday faydasını tahmin etmek için ince ayarlı taslak sinyalleri kullanıyor ve bunları çevrimdışı profilli doğrulama maliyetiyle birleştiriyor.
Sistemin en önemli avantajları arasında ek eğitim gerektirmemesi, hiperparametre ayarına ihtiyaç duymaması ve kayıpsız çalışması yer alıyor. Ayrıca yüksek performanslı SGLang çerçevesiyle tam uyumlu.
Farklı MoE model mimarileri ve test senaryoları üzerinde yapılan kapsamlı deneyler, EVICT'in 2 kata kadar hız artışı sağladığını gösterdi. Bu gelişme, büyük dil modellerinin günlük kullanımda daha hızlı yanıtlar vermesini mümkün kılacak.