Yapay zeka modellerinin giderek büyümesiyle birlikte, bu sistemleri sınırlı kaynaklara sahip donanımlarda çalıştırmak kritik bir zorluk haline geldi. Özellikle görüntü üretimi yapan diffusion transformer modelleri, yüksek hesaplama gücü ve bellek gereksinimleri nedeniyle mobil cihazlarda kullanılması zor sistemler.

Araştırmacılar bu soruna LoRaQ (Low-Rank Approximated Quantization) adlı yenilikçi bir çözüm getirdiler. Bu yöntem, modellerin sayısal hassasiyetini 4-bit seviyesine düşürerek bellek kullanımını dramatik şekilde azaltırken, performans kaybını minimum seviyede tutuyor.

Geleneksel post-training quantization yöntemleri, agresif sıkıştırma yapıldığında ciddi performans kayıplarına neden oluyordu. LoRaQ ise düşük-rank yaklaşım tekniklerini kullanarak yardımcı linear dallar ekliyor ve bu sayede performansı geri kazandırıyor.

En büyük yenilik, mevcut yöntemlerin aksine yardımcı dalların da sıkıştırılabilir olması. Böylece ilk kez tamamen 16-bit altında çalışan bir pipeline elde ediliyor. Ayrıca sistem, kalibrasyon için herhangi bir veri setine ihtiyaç duymuyor.

Test sonuçları, LoRaQ'nun aynı bellek kullanımında mevcut en iyi yöntemlerden daha başarılı olduğunu gösteriyor. Bu gelişme, yapay zeka modellerinin mobil cihazlarda ve edge computing uygulamalarında yaygınlaşması için önemli bir adım.