Teknoloji & Yapay Zeka

Apple Çiplerinde Dev AI Modelleri: 128K Bağlam Uzunluğu Tek Mac'te Mümkün Hale Geldi

Araştırmacılar Apple Silicon çiplerinde büyük dil modellerinin çalıştırılmasında çığır açan bir teknoloji geliştirdi. Open-TQ-Metal adlı yeni sistem, 70 milyar parametreli Llama 3.1 modelini tek bir 64 GB Mac bilgisayarda 128 bin token bağlam uzunluğuyla çalıştırabiliyor. Bu, daha önce hiçbir sistem tarafından başarılamayan bir performans. Teknoloji, bellek kullanımını 3,2 kat azaltırken dikkat mekanizmasını 48 kat hızlandırıyor. Sistem, KV önbelleğini anlık olarak 4-bit tam sayı formatına dönüştürerek doğrudan sıkıştırılmış veri üzerinde hesaplama yapıyor. 330 deneyden oluşan kapsamlı testlerde, yeni yöntem orijinal FP16 çıkarımla tamamen aynı sonuçları verirken bellek tüketimini 40 GB'den 12,5 GB'ye düşürüyor.

Stanford araştırmacıları, büyük yapay zeka modellerinin Apple Silicon çiplerinde çalıştırılmasında devrim niteliğinde bir teknoloji geliştirdi. Open-TQ-Metal sistemi, 70 milyar parametreli Llama 3.1 modelini tek bir 64 GB Mac bilgisayarda 128 bin token bağlam uzunluğuyla çalıştırabilme yeteneği kazandırıyor.

Sistemin temelinde, KV önbelleğinin anlık olarak 4-bit tam sayı formatına dönüştürülmesi ve dikkat hesaplamalarının doğrudan bu sıkıştırılmış veri üzerinde yapılması yatıyor. Bu yaklaşım, geleneksel yöntemlerde gerekli olan ara çözme işlemlerini tamamen ortadan kaldırıyor ve özel Metal hesaplama gölgelendiricileri kullanıyor.

Gemma 4 31B ve Llama 3.1 70B model ailelerinde yapılan 330 deneyde elde edilen sonuçlar etkileyici. Sistem, 128 bin token bağlamında dikkat mekanizmasını 48 kat hızlandırırken, KV önbellek bellek kullanımını 40 GB'den 12,5 GB'ye düşürüyor. Bu da 3,2 kat sıkıştırma oranı anlamına geliyor.

En önemli başarı ise sistemin doğruluğu koruması. Open-TQ-Metal, orijinal FP16 çıkarımla tamamen özdeş token tahminleri üretiyor. Araştırmacılar ayrıca farklı mimariler arası KV önbellek niceleme yöntemlerinin ilk karşılaştırmasını sunarak, dikkat ölçek faktörünün model boyutundan daha kritik olduğunu ortaya koyuyor.

Özgün Kaynak
arXiv (CS + AI)
Open-TQ-Metal: Fused Compressed-Domain Attention for Long-Context LLM Inference on Apple Silicon
Orijinal makaleyi oku

Bu içerik, özgün kaynaktaki bilgiler temel alınarak BilimKapsül editörleri tarafından yeniden kaleme alınmıştır. Orijinal metnin birebir çevirisi değildir. Telif hakkı özgün yayıncıya aittir.