Yapay Zeka Modellerinin Hızını Artıran Yeni 'Gevşek Doğrulama' Yöntemi

Araştırmacılar, büyük dil modellerinin çıkarım hızını artırmak için FLy adlı yeni bir yöntem geliştirdi. Geleneksel spekülatif kod çözme yöntemleri sadece tam eşleşen token'ları kabul ederken, FLy semantik olarak doğru ancak farklı ifadeleri de değerlendiriyor. Sistem, entropy tabanlı iki katmanlı bir mekanizma kullanarak hangi durumlarda alternatif token'ların kabul edilebileceğini belirliyor. Bu yaklaşım, modelin kendi kendini düzeltme yeteneğinden faydalanarak daha esnek bir doğrulama kriteri sunuyor. Özellikle dağıtım dışı görevlerde performans kaybı yaşayan mevcut yöntemlere alternatif olan FLy, ek eğitim gerektirmeden çalışabiliyor.

Büyük dil modellerinin (LLM) yavaş çıkarım hızı sorunu için geliştirilen yeni bir çözüm, yapay zeka alanında önemli bir adım olarak karşımıza çıkıyor. Araştırmacılar, FLy (Training-Free Loosely Speculative Decoding) adını verdikleri yöntemle, mevcut spekülatif kod çözme tekniklerinin katı kurallarını esnetmeyi başardı.

Geleneksel spekülatif kod çözme yöntemleri, küçük bir taslak modelden gelen önerileri paralel olarak doğrulayarak hızlanma sağlıyor. Ancak bu sistemler sadece birebir eşleşen token'ları kabul ediyor, semantik olarak doğru olan alternatif ifadeleri reddediyor. Bu durum, potansiyel olarak geçerli birçok devamın kaybolmasına neden oluyor.

FLy sistemi ise iki katmanlı bir yaklaşım benimsiyor. İlk katman, entropy seviyesinde bir kapı görevi görerek mevcut token'ın birden fazla makul alternatife izin verip vermediğini değerlendiriyor. İkinci katman ise token seviyesinde ertelenmiş bir kontrol mekanizması sunuyor. Bu sayede sistem, taslak ve hedef model arasındaki uyumsuzlukların semantik açıdan geçerli olup olmadığını değerlendirebiliyor.

Yöntemin en önemli avantajlarından biri, ek eğitime ihtiyaç duymaması. Mevcut eğitim tabanlı yöntemler, dağıtım dışı görevlerde performans kaybı yaşarken, FLy bu sorunu aşmayı hedefliyor. Bu özellik, pratik uygulamalarda büyük bir avantaj sağlayabilir.