Araştırmacılar, büyük dil modellerinin karşılaştığı bellek darboğazı sorununa çözüm getiren AQPIM adlı yeni bir yaklaşım geliştirdi. Processing-in-Memory (PIM) mimarileri, makine öğrenmesinde veri-yoğun işlemlerde umut vaat etse de, özellikle Transformer tabanlı modellerde artan aktivasyon bellek ihtiyacı önemli bir engel oluşturuyor. Uzun bağlamlı senaryolarda üretilen devasa KV önbellek boyutları, PIM'in sınırlı bellek kapasitesini aşabiliyor. Geleneksel yaklaşımlar bu sorunu çözmekte yetersiz kalıyor. AQPIM, aktivasyon özelliklerine uygun kümeleme tabanlı vektör kuantizasyon yöntemleri kullanarak hem bant genişliği hem de hesaplama verimliliğini artırıyor. Bu gelişme, büyük dil modellerinin daha verimli çalışmasına olanak tanıyarak yapay zeka uygulamalarında önemli bir adım olarak değerlendiriliyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

TurboQuant ve EDEN Algoritmaları Arasındaki İlişki Netlik Kazandı

Makine öğrenmesi ve veri sıkıştırma alanında önemli gelişmeler sunan quantization (nicemleme) algoritmalarının karşılaştırmalı analizi yapıldı. Araştırmacılar, son dönemde öne çıkan TurboQuant algoritmasının aslında daha önceki DRIVE ve EDEN çalışmalarının özel durumları olduğunu ortaya koydu. TurboQuant_mse'nin EDEN algoritmasının ölçek parametresi 1'e sabitlenmiş hali olduğu, ancak bu sabit seçimin genellikle optimal olmadığı belirlendi. Boyut büyüdükçe TurboQuant'ın performansının EDEN'e yaklaştığı gözlemlendi. TurboQuant_prod ise farklı bir yaklaşım benimserek önyargılı ve önyargısız nicemleme adımlarını birleştiriyor. Bu çalışma, veri sıkıştırma ve hızlı hesaplama gerektiren uygulamalarda hangi algoritmaların ne zaman tercih edilmesi gerektiği konusunda önemli rehberlik sağlıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

LoRaQ: Yapay Zeka Modellerini 4 Kat Daha Az Bellekte Çalıştıran Yöntem

Araştırmacılar, büyük yapay zeka modellerini sınırlı donanımlarda çalıştırmak için LoRaQ adlı yeni bir yöntem geliştirdiler. Bu teknik, modellerin boyutunu önemli ölçüde küçültürken performans kaybını minimize ediyor. Geleneksel yaklaşımlar 4-bit sıkıştırma yapıldığında ciddi performans düşüşleri yaşarken, LoRaQ düşük-rank yaklaşım yöntemleriyle bu sorunu çözüyor. En önemli yenilik, yardımcı dalların da sıkıştırılabilir olması ve kalibrasyon için veri gerektirmemesi. Bu sayede ilk kez tamamen 16-bit altında çalışan bir sistem elde ediliyor. Özellikle diffusion transformer modelleri için kritik olan bu gelişme, mobil cihazlar ve edge computing uygulamaları için büyük önem taşıyor.

arXiv (CS + AI) 0