Yapay Zeka Modellerinde Yeni Sıkıştırma Tekniği: W4A4 Niceleme Sorunu Çözüldü

Araştırmacılar, yapay zeka dil modellerinde kritik bir sıkıştırma sorununu çözdü. W4A4 niceleme adı verilen bu teknik, modelleri küçültürken performanslarını korumayı amaçlıyor ancak şimdiye kadar büyük doğruluk kayıplarına neden oluyordu. Stanford'dan araştırmacılar, SwiGLU mimarisine sahip 300 milyon parametreli bir modelde yaptıkları çalışmada, 'Depth Registers' adını verdikleri yeni bir yöntem geliştirdi. Bu teknik sayesinde, standart W4A4 sıkıştırma yönteminin neden olduğu performans kaybını 14 kata kadar azaltmayı başardılar. Model sıkıştırma, özellikle mobil cihazlarda ve sınırlı kaynaklara sahip sistemlerde yapay zeka uygulamalarını yaygınlaştırmak için kritik önem taşıyor.

Yapay zeka modellerinin boyutunu küçültme konusunda önemli bir ilerleme kaydedildi. Araştırmacılar, W4A4 niceleme adı verilen sıkıştırma tekniğinin neden olduğu performans kayıplarını dramatik şekilde azaltmayı başardı.

W4A4 niceleme, hem ağırlıkları hem de aktivasyonları 4 bit'e indirgeyen bir sıkıştırma yöntemidir. Bu teknik teorik olarak modelleri çok daha küçük hale getirebilir, ancak pratikte ciddi performans kayıplarına yol açıyordu. Araştırmacıların test ettiği 300 milyon parametreli SwiGLU dil modelinde, standart W4A4 uygulaması modelin doğruluk değerini 23.6'dan 1727'ye çıkarıyordu - ki bu neredeyse kullanılamaz bir seviye.

Geliştirilen 'Depth Registers' (DR+sink) yöntemi, bu soruna farklı bir açıdan yaklaşıyor. Araştırmacılar, modelin farklı katmanlarındaki hata kaynaklarını analiz ederek, 'okuyucu' ve 'üretici' bileşenler arasında ayrım yaptı. Bu analiz sonucunda geliştirilen yöntem, W4A4 sıkıştırmanın neden olduğu performans kaybını 119 seviyesine indirdi - yaklaşık 14 kat iyileşme.

SmoothQuant tekniği ile birleştirildiğinde, bu değer daha da iyileşerek 39.9 seviyesine ulaştı. Bu gelişme, özellikle sınırlı hesaplama gücüne sahip cihazlarda gelişmiş yapay zeka modellerinin kullanılabilmesinin önünü açıyor.