Büyük dil modellerinin (LLM) yavaş çıkarım hızı sorunu için geliştirilen yeni bir çözüm, yapay zeka alanında önemli bir adım olarak karşımıza çıkıyor. Araştırmacılar, FLy (Training-Free Loosely Speculative Decoding) adını verdikleri yöntemle, mevcut spekülatif kod çözme tekniklerinin katı kurallarını esnetmeyi başardı.
Geleneksel spekülatif kod çözme yöntemleri, küçük bir taslak modelden gelen önerileri paralel olarak doğrulayarak hızlanma sağlıyor. Ancak bu sistemler sadece birebir eşleşen token'ları kabul ediyor, semantik olarak doğru olan alternatif ifadeleri reddediyor. Bu durum, potansiyel olarak geçerli birçok devamın kaybolmasına neden oluyor.
FLy sistemi ise iki katmanlı bir yaklaşım benimsiyor. İlk katman, entropy seviyesinde bir kapı görevi görerek mevcut token'ın birden fazla makul alternatife izin verip vermediğini değerlendiriyor. İkinci katman ise token seviyesinde ertelenmiş bir kontrol mekanizması sunuyor. Bu sayede sistem, taslak ve hedef model arasındaki uyumsuzlukların semantik açıdan geçerli olup olmadığını değerlendirebiliyor.
Yöntemin en önemli avantajlarından biri, ek eğitime ihtiyaç duymaması. Mevcut eğitim tabanlı yöntemler, dağıtım dışı görevlerde performans kaybı yaşarken, FLy bu sorunu aşmayı hedefliyor. Bu özellik, pratik uygulamalarda büyük bir avantaj sağlayabilir.