Yapay zeka alanında büyük dil modellerinin karşılaştığı bellek sorunlarına yönelik önemli bir çözüm geliştirildi. Araştırmacılar tarafından geliştirilen AQPIM (Activation Quantization Processing-in-Memory) adlı yeni yaklaşım, özellikle Transformer tabanlı modellerde yaşanan bellek darboğazı problemini hedef alıyor.
Processing-in-Memory (PIM) mimarileri, veri-yoğun makine öğrenmesi uygulamalarında bellek sorunlarına çözüm sunma potansiyeline sahip olmasına rağmen, aktivasyon bellek ayak izinin sürekli büyümesi konusunda yetersiz kalıyordu. Özellikle uzun bağlamlı senaryolarda Transformer modelleri tarafından üretilen devasa KV önbellek boyutları, PIM'in sınırlı bellek kapasitesini aşarak ciddi performans sorunlarına yol açıyordu.
Geleneksel PIM yaklaşımları ve mevcut kuantizasyon yöntemleri, aktivasyonların benzersiz özelliklerinden yararlanamıyor ve veri lokalitesi gereksinimleriyle çelişebiliyordu. Bu durum, seyrek dikkat gibi tekniklerin PIM ile uyumlu çalışmasını engelleyebiliyordu.
AQPIM, kümeleme tabanlı vektör kuantizasyon yaklaşımları kullanarak bu sorunu çözüyor. Bu yöntem, aktivasyon özelliklerine uygun olacak şekilde tasarlanmış ve PIM'in dahili bant genişliği yetenekleriyle uyumlu çalışıyor. Sonuç olarak hem bant genişliği hem de hesaplama verimliliğinde önemli artışlar sağlanıyor.