Yapay Zeka Modellerini Hızlandıran Yeni Sıkıştırma Tekniği: GSQ

Büyük dil modellerinin (LLM) yerel cihazlarda çalışması için geliştirilen yeni bir sıkıştırma yöntemi, mevcut tekniklerin sınırlarını aşmayı hedefliyor. GSQ adlı bu teknik, parametre başına 2-3 bit kullanarak modelleri sıkıştırırken doğruluk kaybını minimum seviyede tutuyor. Araştırmacılar, karmaşık vektör tabanlı yöntemlerin aksine basit skaler kuantizasyon tekniklerini optimize ederek, hem uygulama kolaylığı hem de yüksek performans sağlayan bir çözüm geliştirdi. Bu gelişme, yapay zeka modellerinin mobil cihazlar ve kişisel bilgisayarlarda daha verimli çalışmasının önünü açabilir.

Yapay zeka modellerinin günlük hayatta yaygınlaşmasıyla birlikte, bu modellerin yerel cihazlarda verimli çalışması kritik önem taşıyor. Özellikle büyük dil modelleri (LLM), yüksek hesaplama gücü gerektirdiği için mobil cihazlar ve kişisel bilgisayarlarda çalıştırılması zorlu bir süreçti.

Yeni geliştirilen GSQ (Gumbel-Softmax Kuantizasyon) yöntemi, bu soruna innovative bir çözüm getiriyor. Parametre başına 2-3 bit kullanarak modelleri sıkıştıran bu teknik, mevcut yaklaşımları iki kategoriye ayırıyor: GPTQ ve AWQ gibi yaygın kullanılan ancak 3-4 bit seviyesinde performans düşüşü yaşayan basit yöntemler, ve QTIP, GPTVQ gibi daha karmaşık ancak uygulaması zor ikinci nesil teknikler.

GSQ'nun ayırt edici özelliği, basit skaler kuantizasyon tekniklerini optimize ederek bu iki grup arasındaki performans farkını kapatmaya odaklanması. Gumbel-Softmax örneklemesi kullanarak koordinat başına ağırlık atamaları ve grup başına ölçeklendirme faktörlerini birlikte öğrenen bu yöntem, hem kolay uygulanabilir hem de yüksek doğruluk sunan bir çözüm vaadiyor.

Bu gelişme, yapay zeka modellerinin daha geniş kitlelere ulaşması ve günlük cihazlarda sorunsuz çalışması açısından önemli bir adım olarak değerlendiriliyor.