Büyük dil modellerinin hızını artırmak için kullanılan spekülatif çözümleme yönteminde kritik bir sorun keşfedildi. Araştırmacılar, mevcut yaklaşımların uzun metinlerde doğruluk kaybı yaşadığını ve bunun nedeninin bağlam bilgisinin yanlış sıkıştırılması olduğunu ortaya koydu. Geleneksel yöntemler, gelecekteki tahminler için önemli bilgileri gözden kaçırırken, KV önbellek sistemleri tüm bağlam verilerini koruyarak daha tutarlı sonuçlar veriyor. Bu keşif, yapay zeka modellerinin uzun metinlerle çalışma performansını önemli ölçüde iyileştirebilir ve özellikle uzun makale özetleme, kitap analizi gibi uygulamalarda devrim yaratabilir.

arXiv (Dilbilim & NLP) 0

Teknoloji & Yapay Zeka

21 Apr

Büyük Dil Modellerinde Bellek Sorununu Çözen Yeni Mimari: AQPIM

Araştırmacılar, büyük dil modellerinin karşılaştığı bellek darboğazı sorununa çözüm getiren AQPIM adlı yeni bir yaklaşım geliştirdi. Processing-in-Memory (PIM) mimarileri, makine öğrenmesinde veri-yoğun işlemlerde umut vaat etse de, özellikle Transformer tabanlı modellerde artan aktivasyon bellek ihtiyacı önemli bir engel oluşturuyor. Uzun bağlamlı senaryolarda üretilen devasa KV önbellek boyutları, PIM'in sınırlı bellek kapasitesini aşabiliyor. Geleneksel yaklaşımlar bu sorunu çözmekte yetersiz kalıyor. AQPIM, aktivasyon özelliklerine uygun kümeleme tabanlı vektör kuantizasyon yöntemleri kullanarak hem bant genişliği hem de hesaplama verimliliğini artırıyor. Bu gelişme, büyük dil modellerinin daha verimli çalışmasına olanak tanıyarak yapay zeka uygulamalarında önemli bir adım olarak değerlendiriliyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Yapay Zeka Modellerinde Gizli Hesaplama Hatası: FP16 Keşfi

Araştırmacılar, büyük dil modellerinde yaygın kullanılan KV önbellekleme optimizasyonunun, bugüne kadar varsayıldığı gibi sayısal olarak eşdeğer olmadığını keşfetti. FP16 hassasiyetinde, önbellek kullanan ve kullanmayan hesaplama yolları farklı sonuçlar üretiyor. LLaMA-2-7B, Mistral-7B-v0.3 ve Gemma-2-2B modellerinde yapılan testlerde, tüm örnekleme stratejilerinde %100 token farklılığı gözlemlendi. Bu durum, rastgele örneklemenin değil, sistematik bir hesaplama farkının olduğunu gösteriyor. İlginç şekilde, önbellek kullanan versiyonlar 9 koşuldan 8'inde daha yüksek doğruluk gösterdi. Problem FP16 formatının değişmeli olmayan özelliğinden kaynaklanıyor ve FP32 kullanıldığında sekiz kat azalıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

16 Apr

Yapay Zeka Modelleri İçin Devrim Niteliğinde Bellek Yönetimi: KV Packet

Büyük dil modellerinin (LLM) çalışma hızını artıran yeni bir bellek yönetim sistemi geliştirildi. KV Packet adlı bu sistem, yapay zeka modellerinin önceki hesaplamalarını tekrar kullanma biçimini değiştirerek, işlem yükünü neredeyse sıfıra indiriyor. Geleneksel sistemlerde, bir belge farklı bağlamda kullanıldığında tüm hesaplamalar yeniden yapılıyor ve bu da önemli zaman kaybına yol açıyordu. Yeni yaklaşım ise belgeleri değiştirilemez 'paketler' olarak ele alıp, hafif eğitilebilir adaptörlerle sararak bu sorunu çözüyor. Llama-3.1 ve Qwen2.5 modellerinde yapılan testler, sistemin mevcut yöntemlere göre çok daha az işlem gücü kullandığını ve ilk yanıt sürelerini önemli ölçüde kısalttığını gösteriyor. Bu gelişme, yapay zeka asistanlarının daha hızlı ve verimli çalışmasının önünü açıyor.

arXiv (CS + AI) 0