Yapay zeka araştırmacıları, büyük dil modellerinin çalışma hızını önemli ölçüde artıran yenilikçi bir yöntem geliştirdi. CadLLM (Confidence-Aware Dynamic LLM) adı verilen bu teknik, modellerin işlem hızını iki katına kadar çıkarırken doğruluk seviyelerini koruyor.
Geliştirilen sistem, diffüzyon tabanlı dil modellerinin token üretme sürecindeki güven seviyelerini dinamik olarak analiz ediyor. Araştırmacılar, modellerin farklı işlem katmanları ve adımlarında kelimeleri 'açığa çıkarma' güvenilirliklerinin değişken olduğunu keşfetti. Bu gözleme dayanarak, sistemin hangi adımlarda hızlanabileceğini otomatik olarak belirleyen adaptif bir yaklaşım geliştirdiler.
CadLLM'nin en önemli avantajlarından biri, hiçbir ek eğitim gerektirmemesi. Mevcut modellere 'tak-çalıştır' mantığıyla entegre edilebilen bu yöntem, üretim blok boyutunu, adım büyüklüğünü ve eşik değerlerini açığa çıkan token'ların ortalama güven seviyesine göre ayarlıyor.
Sistem ayrıca softmax hesaplama yükünü azaltmak için kelime dağarcığının yalnızca bir alt kümesini dinamik olarak kullanıyor. Bu yaklaşım, örnekleme genişliğini kontrol ederek gereksiz hesaplamaları elimine ediyor.
Dört popüler görende yapılan kapsamlı testler, CadLLM'nin en gelişmiş temel sistemlere kıyasla 1.1 ila 2.28 kat hız artışı sağladığını ve rekabetçi doğruluk seviyelerini koruduğunu gösteriyor. Bu gelişme, AI uygulamalarının enerji verimliliğini artırırken kullanıcı deneyimini de iyileştirebilir.