Stanford araştırmacıları, büyük yapay zeka modellerinin Apple Silicon çiplerinde çalıştırılmasında devrim niteliğinde bir teknoloji geliştirdi. Open-TQ-Metal sistemi, 70 milyar parametreli Llama 3.1 modelini tek bir 64 GB Mac bilgisayarda 128 bin token bağlam uzunluğuyla çalıştırabilme yeteneği kazandırıyor.
Sistemin temelinde, KV önbelleğinin anlık olarak 4-bit tam sayı formatına dönüştürülmesi ve dikkat hesaplamalarının doğrudan bu sıkıştırılmış veri üzerinde yapılması yatıyor. Bu yaklaşım, geleneksel yöntemlerde gerekli olan ara çözme işlemlerini tamamen ortadan kaldırıyor ve özel Metal hesaplama gölgelendiricileri kullanıyor.
Gemma 4 31B ve Llama 3.1 70B model ailelerinde yapılan 330 deneyde elde edilen sonuçlar etkileyici. Sistem, 128 bin token bağlamında dikkat mekanizmasını 48 kat hızlandırırken, KV önbellek bellek kullanımını 40 GB'den 12,5 GB'ye düşürüyor. Bu da 3,2 kat sıkıştırma oranı anlamına geliyor.
En önemli başarı ise sistemin doğruluğu koruması. Open-TQ-Metal, orijinal FP16 çıkarımla tamamen özdeş token tahminleri üretiyor. Araştırmacılar ayrıca farklı mimariler arası KV önbellek niceleme yöntemlerinin ilk karşılaştırmasını sunarak, dikkat ölçek faktörünün model boyutundan daha kritik olduğunu ortaya koyuyor.