Yapay zeka modellerinin giderek büyümesi, bu sistemlerin pratik kullanımında önemli bir engel oluşturuyor. Stanford Üniversitesi araştırmacıları, bu soruna çözüm olarak DuQuant++ adlı yeni bir sıkıştırma tekniği geliştirdi.

DuQuant++, NVIDIA'nın Blackwell Tensor Core işlemcilerinde donanım desteği bulunan MXFP4 mikroölçekleme formatını kullanıyor. Bu format, veri gruplarını 32 elemanlık bloklara bölerek her blok için ortak bir ölçek faktörü kullanıyor. Ancak veri içindeki aykırı değerler bu yaklaşımda büyük sorun yaratıyor.

Araştırmacıların geliştirdiği çözüm, aykırı değerlerin yoğunlaştığı kanallara özel olarak odaklanan ince ayarlı döndürme algoritmaları kullanıyor. Mevcut randomize Hadamard ve öğrenilebilir döndürme yöntemlerinin aksine, DuQuant++ veriye özgü optimizasyonlar yapıyor.

Teknik, döndürme blok boyutunu mikroölçekleme grup boyutuyla (32 eleman) hizalayarak çalışıyor. Her MXFP4 grubu bağımsız bir ölçek faktörüne sahip olduğu için, bloklar arası varyans kontrol edilebiliyor ve sıkıştırma hatası minimize ediliyor.

Bu gelişme, büyük dil modellerinin mobil cihazlarda ve daha az güçlü donanımlarda çalışabilmesine olanak tanıyacak. Özellikle enerji tüketimi ve bellek kullanımında sağlanacak iyileştirmeler, yapay zeka teknolojilerinin yaygınlaşmasını hızlandırabilir.