Yapay zeka modellerinin günlük hayatta yaygınlaşmasıyla birlikte, bu modellerin yerel cihazlarda verimli çalışması kritik önem taşıyor. Özellikle büyük dil modelleri (LLM), yüksek hesaplama gücü gerektirdiği için mobil cihazlar ve kişisel bilgisayarlarda çalıştırılması zorlu bir süreçti.
Yeni geliştirilen GSQ (Gumbel-Softmax Kuantizasyon) yöntemi, bu soruna innovative bir çözüm getiriyor. Parametre başına 2-3 bit kullanarak modelleri sıkıştıran bu teknik, mevcut yaklaşımları iki kategoriye ayırıyor: GPTQ ve AWQ gibi yaygın kullanılan ancak 3-4 bit seviyesinde performans düşüşü yaşayan basit yöntemler, ve QTIP, GPTVQ gibi daha karmaşık ancak uygulaması zor ikinci nesil teknikler.
GSQ'nun ayırt edici özelliği, basit skaler kuantizasyon tekniklerini optimize ederek bu iki grup arasındaki performans farkını kapatmaya odaklanması. Gumbel-Softmax örneklemesi kullanarak koordinat başına ağırlık atamaları ve grup başına ölçeklendirme faktörlerini birlikte öğrenen bu yöntem, hem kolay uygulanabilir hem de yüksek doğruluk sunan bir çözüm vaadiyor.
Bu gelişme, yapay zeka modellerinin daha geniş kitlelere ulaşması ve günlük cihazlarda sorunsuz çalışması açısından önemli bir adım olarak değerlendiriliyor.