LoRaQ: Yapay Zeka Modellerini 4 Kat Daha Az Bellekte Çalıştıran Yöntem

21 Nisan 2026, 07:00 2 dk okuma 0 görüntülenme arXiv (CS + AI)

Paylaş: Kopyalandı!

Araştırmacılar, büyük yapay zeka modellerini sınırlı donanımlarda çalıştırmak için LoRaQ adlı yeni bir yöntem geliştirdiler. Bu teknik, modellerin boyutunu önemli ölçüde küçültürken performans kaybını minimize ediyor. Geleneksel yaklaşımlar 4-bit sıkıştırma yapıldığında ciddi performans düşüşleri yaşarken, LoRaQ düşük-rank yaklaşım yöntemleriyle bu sorunu çözüyor. En önemli yenilik, yardımcı dalların da sıkıştırılabilir olması ve kalibrasyon için veri gerektirmemesi. Bu sayede ilk kez tamamen 16-bit altında çalışan bir sistem elde ediliyor. Özellikle diffusion transformer modelleri için kritik olan bu gelişme, mobil cihazlar ve edge computing uygulamaları için büyük önem taşıyor.

Yapay zeka modellerinin giderek büyümesiyle birlikte, bu sistemleri sınırlı kaynaklara sahip donanımlarda çalıştırmak kritik bir zorluk haline geldi. Özellikle görüntü üretimi yapan diffusion transformer modelleri, yüksek hesaplama gücü ve bellek gereksinimleri nedeniyle mobil cihazlarda kullanılması zor sistemler.

Araştırmacılar bu soruna LoRaQ (Low-Rank Approximated Quantization) adlı yenilikçi bir çözüm getirdiler. Bu yöntem, modellerin sayısal hassasiyetini 4-bit seviyesine düşürerek bellek kullanımını dramatik şekilde azaltırken, performans kaybını minimum seviyede tutuyor.

Geleneksel post-training quantization yöntemleri, agresif sıkıştırma yapıldığında ciddi performans kayıplarına neden oluyordu. LoRaQ ise düşük-rank yaklaşım tekniklerini kullanarak yardımcı linear dallar ekliyor ve bu sayede performansı geri kazandırıyor.

En büyük yenilik, mevcut yöntemlerin aksine yardımcı dalların da sıkıştırılabilir olması. Böylece ilk kez tamamen 16-bit altında çalışan bir pipeline elde ediliyor. Ayrıca sistem, kalibrasyon için herhangi bir veri setine ihtiyaç duymuyor.

Test sonuçları, LoRaQ'nun aynı bellek kullanımında mevcut en iyi yöntemlerden daha başarılı olduğunu gösteriyor. Bu gelişme, yapay zeka modellerinin mobil cihazlarda ve edge computing uygulamalarında yaygınlaşması için önemli bir adım.

Etiketler

#yapay zeka #model sıkıştırma #quantization #diffusion modeller #edge computing

Özgün Kaynak

LoRaQ: Optimized Low Rank Approximation for 4-bit Quantization

https://arxiv.org/abs/2604.18117

Bu içerik, özgün kaynaktan referans alınarak yeniden yorumlanmış Türkçe bir özettir. Telif hakkı özgün yayın organına aittir.