Yapay zeka modellerinin boyutunu küçültme konusunda önemli bir ilerleme kaydedildi. Araştırmacılar, W4A4 niceleme adı verilen sıkıştırma tekniğinin neden olduğu performans kayıplarını dramatik şekilde azaltmayı başardı.
W4A4 niceleme, hem ağırlıkları hem de aktivasyonları 4 bit'e indirgeyen bir sıkıştırma yöntemidir. Bu teknik teorik olarak modelleri çok daha küçük hale getirebilir, ancak pratikte ciddi performans kayıplarına yol açıyordu. Araştırmacıların test ettiği 300 milyon parametreli SwiGLU dil modelinde, standart W4A4 uygulaması modelin doğruluk değerini 23.6'dan 1727'ye çıkarıyordu - ki bu neredeyse kullanılamaz bir seviye.
Geliştirilen 'Depth Registers' (DR+sink) yöntemi, bu soruna farklı bir açıdan yaklaşıyor. Araştırmacılar, modelin farklı katmanlarındaki hata kaynaklarını analiz ederek, 'okuyucu' ve 'üretici' bileşenler arasında ayrım yaptı. Bu analiz sonucunda geliştirilen yöntem, W4A4 sıkıştırmanın neden olduğu performans kaybını 119 seviyesine indirdi - yaklaşık 14 kat iyileşme.
SmoothQuant tekniği ile birleştirildiğinde, bu değer daha da iyileşerek 39.9 seviyesine ulaştı. Bu gelişme, özellikle sınırlı hesaplama gücüne sahip cihazlarda gelişmiş yapay zeka modellerinin kullanılabilmesinin önünü açıyor.