“bellek optimizasyonu” için sonuçlar

Teknoloji & Yapay Zeka

30 Apr

Yapay Zeka Modellerini Daha Verimli Çalıştıran Yeni Paralel İşlem Tekniği

Araştırmacılar, büyük yapay zeka modellerinin eğitimi ve çalışması sırasında bellek kullanımını optimize eden yeni bir teknik geliştirdi. TSP (Tensor ve Sequence Parallelism) adı verilen bu yöntem, geleneksel paralel işlem yaklaşımlarını birleştirerek hem model ağırlıklarını hem de veri dizilerini aynı cihaz ekseni üzerinde paylaştırıyor. Bu sayede her cihazın bellek yükü önemli ölçüde azalırken, büyük dil modellerinin daha az donanım kaynağıyla çalıştırılması mümkün hale geliyor. Özellikle attention mekanizmaları ve gated MLP'ler için özel çalışma zamanı programları geliştiren teknik, iletişim maliyeti artışı pahasına bellek verimliliğinde önemli kazanımlar sağlıyor.

arXiv (Dilbilim & NLP) 0

Teknoloji & Yapay Zeka

30 Apr

Büyük Dil Modellerinin Eğitimi İçin Hafıza Dostu Yeni Yöntem

Yapay zeka araştırmacıları, büyük dil modellerinin eğitimi sırasında karşılaşılan yüksek bellek tüketimi sorununa yenilikçi bir çözüm geliştirdi. AdaFRUGAL adı verilen bu yöntem, eğitim sürecini otomatik olarak optimize ederek hem GPU belleği kullanımını azaltıyor hem de eğitim süresini kısaltıyor. Geleneksel FRUGAL yönteminin aksine, AdaFRUGAL sabit parametreler yerine dinamik kontrol mekanizmaları kullanarak manuel ayarlama ihtiyacını ortadan kaldırıyor. İngilizce ve Vietnamca veri setleri üzerinde yapılan testler, bu yaklaşımın kaynak kısıtlı ortamlarda çalışan araştırmacılar için pratik bir çözüm sunduğunu gösteriyor.

arXiv (Dilbilim & NLP) 0

Teknoloji & Yapay Zeka

21 Apr

SinkRouter: Büyük dil modellerinde uzun metinleri 3 kat hızla işleyen yeni teknik

Araştırmacılar, büyük dil modellerinin uzun metinleri işlerken karşılaştığı bellek darboğazını çözen yenilikçi bir yöntem geliştirdi. SinkRouter adlı bu teknik, modellerin dikkat mekanizmasındaki 'attention sink' fenomenini analiz ederek, gereksiz hesaplamaları atlayabiliyor. Geleneksel yöntemlerin aksine doğruluktan ödün vermeden 3 kata kadar hızlanma sağlayan sistem, ChatGPT benzeri modellerin kitap boyutundaki metinleri daha verimli işlemesini mümkün kılıyor. Bu gelişme, yapay zeka sistemlerinin günlük kullanımda daha hızlı ve ekonomik çalışmasının yolunu açıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modellerinde Devrim: Bellek Kullanımını %90 Azaltan Yeni Sıkıştırma Yöntemi

Büyük dil modellerinin özelleştirilmiş versiyonları muazzam bellek tüketimi yaratıyor. Her görev için ayrı model saklamak yerine, araştırmacılar tek temel model üzerinde sıkıştırılmış değişiklikler saklama yöntemlerini geliştiriyor. Ancak mevcut teknikler büyük veri setleriyle eğitilmiş modellerde başarısız oluyor. Yeni geliştirilen D-QRELO yöntemi, büyük ölçekli eğitimin yarattığı sıkıştırma zorluklarını çözmek için iki aşamalı yaklaşım benimsiyor. İlk aşamada tek-bit kuantalama ile ana yapıyı yakalıyor, ikinci aşamada ise düşük-rank yaklaşım ile ince detayları koruyor. Bu yenilikçi yaklaşım, yapay zeka modellerinin daha verimli depolanması ve dağıtımı için umut vaat ediyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modelleri Ne Kadar Bellek Tasarrufu Yapabilir?

Stanford araştırmacıları, Transformer yapay zeka modellerinin bellek kullanımında kritik bir darboğaz olan KV önbelleğinin ne kadar sıkıştırılabileceğini teorik olarak inceledi. Çalışma, modellerin çok adımlı akıl yürütme yeteneklerini kaybetmeden önce bellek önbelleğinin ne derece agresif bir şekilde sıkıştırılabileceğini matematiksel olarak analiz ediyor. Araştırmacılar, k-hop pointer chasing adlı bir test yöntemi kullanarak, önbellek boyutu ile model derinliği arasındaki kritik dengeyi ortaya koydu. Bulgular, yapay zeka modellerinin daha verimli çalışması için önemli teorik sınırlar belirliyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Apple Çiplerinde Dev AI Modelleri: 128K Bağlam Uzunluğu Tek Mac'te Mümkün Hale Geldi

Araştırmacılar Apple Silicon çiplerinde büyük dil modellerinin çalıştırılmasında çığır açan bir teknoloji geliştirdi. Open-TQ-Metal adlı yeni sistem, 70 milyar parametreli Llama 3.1 modelini tek bir 64 GB Mac bilgisayarda 128 bin token bağlam uzunluğuyla çalıştırabiliyor. Bu, daha önce hiçbir sistem tarafından başarılamayan bir performans. Teknoloji, bellek kullanımını 3,2 kat azaltırken dikkat mekanizmasını 48 kat hızlandırıyor. Sistem, KV önbelleğini anlık olarak 4-bit tam sayı formatına dönüştürerek doğrudan sıkıştırılmış veri üzerinde hesaplama yapıyor. 330 deneyden oluşan kapsamlı testlerde, yeni yöntem orijinal FP16 çıkarımla tamamen aynı sonuçları verirken bellek tüketimini 40 GB'den 12,5 GB'ye düşürüyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modelleri İçin Yeni Bellek Sıkıştırma Yöntemi Geliştirildi

Büyük dil modellerinin uzun metinleri işlerken karşılaştığı en büyük sorunlardan biri bellek yetersizliğidir. Araştırmacılar, her katmanın farklı sıkıştırma yöntemlerine farklı tepkiler verdiğini keşfederek MoE-nD adlı yenilikçi bir sistem geliştirdi. Bu sistem, her katman için optimal bellek sıkıştırma karışımını otomatik olarak belirliyor. Geleneksel yöntemler tüm katmanlara aynı sıkıştırma tekniğini uygularken, yeni yaklaşım katman bazında özelleştirilmiş stratejiler kullanıyor. Test sonuçları, bu yöntemin mevcut tekniklere göre önemli performans artışı sağladığını gösteriyor. Gelişme, yapay zeka modellerinin daha uzun metinlerle daha verimli çalışmasının yolunu açıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Büyük Dil Modellerinde Bellek Sorununu Çözen Yeni Mimari: AQPIM

Araştırmacılar, büyük dil modellerinin karşılaştığı bellek darboğazı sorununa çözüm getiren AQPIM adlı yeni bir yaklaşım geliştirdi. Processing-in-Memory (PIM) mimarileri, makine öğrenmesinde veri-yoğun işlemlerde umut vaat etse de, özellikle Transformer tabanlı modellerde artan aktivasyon bellek ihtiyacı önemli bir engel oluşturuyor. Uzun bağlamlı senaryolarda üretilen devasa KV önbellek boyutları, PIM'in sınırlı bellek kapasitesini aşabiliyor. Geleneksel yaklaşımlar bu sorunu çözmekte yetersiz kalıyor. AQPIM, aktivasyon özelliklerine uygun kümeleme tabanlı vektör kuantizasyon yöntemleri kullanarak hem bant genişliği hem de hesaplama verimliliğini artırıyor. Bu gelişme, büyük dil modellerinin daha verimli çalışmasına olanak tanıyarak yapay zeka uygulamalarında önemli bir adım olarak değerlendiriliyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modelleri Artık Çok Daha Az Bellek Kullanacak

Stanford ve diğer kurumlardan araştırmacılar, mevcut Transformer tabanlı yapay zeka modellerinin yüksek bellek tüketimi sorununa çözüm ürettiler. Geliştirdikleri yeni yaklaşım, tekrarlayan sinir ağı mimarileri kullanarak metin gömme işlemlerini sabit bellek kullanımıyla gerçekleştiriyor. Mamba2, RWKV ve xLSTM gibi modellerde test edilen bu yöntem, uzun metinlerde bile bellek kullanımını sabit tutarken performansta rekabetçi sonuçlar veriyor. Bu gelişme, yapay zeka uygulamalarının daha verimli çalışmasını ve kaynak kısıtlı ortamlarda bile güçlü dil modellerinin kullanılabilmesini sağlayabilir. Araştırma, özellikle uzun metin analizlerinde büyük avantaj sunuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Büyük Dil Modellerinde CPU-GPU İş Birliği ile Performans Devrimi

Yapay zeka araştırmacıları, büyük dil modellerinin uzun metin işleme kapasitesini artıran yenilikçi bir hibrit sistem geliştirdi. HybridGen adlı bu teknoloji, CPU ve GPU'nun birlikte çalışmasını sağlayarak bellek sorunlarını çözüyor. Modern dil modelleri milyonlarca kelime işleyebildiğinde, gerekli bellek miktarı yüzlerce gigabayta çıkabiliyor. Bu durum hem bellek kapasitesini hem de veri aktarım hızını zorluyor. Geleneksel çözümler ya GPU ya da CPU kullanırken, yeni sistem her ikisini koordineli şekilde kullanarak donanım kaynaklarını maksimum verimlilikle değerlendiriyor. Araştırmacılar üç temel sorunu çözdü: çok boyutlu dikkat bağımlılıkları, uzun metinlerde artan CPU-GPU yük dengesizliği ve katmanlı belleklerin NUMA cezası. Sistem, dikkat mantığı paralelliği, geri bildirim odaklı zamanlayıcı ve anlam farkında önbellek haritalaması teknikleriyle bu sorunları aşıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modelleri için Yeni Sıkıştırma Tekniği: Bellek Tüketimini Azaltan CD-MoE

Araştırmacılar, büyük yapay zeka modellerinin bellek gereksinimlerini dramatik şekilde azaltan yenilikçi bir yöntem geliştirdi. ConDense-MoE (CD-MoE) adlı bu teknik, Mixture-of-Experts modellerindeki katmanları tamamen çıkarmak yerine, bunları daha küçük ve yoğun yapılara dönüştürüyor. Geleneksel budama yöntemleri model performansında önemli kayıplara neden olurken, CD-MoE büyük ve seyrek MoE katmanlarını az sayıda uzmanla çalışan, donanım dostu küçük katmanlara sıkıştırıyor. Bu yaklaşım özellikle paylaşılan uzmanları olan ince taneli MoE modelleri için tasarlanmış durumda. Büyük dil modellerinin yaygınlaştığı dönemde, bu gelişme yapay zeka modellerinin gerçek dünya uygulamalarında daha pratik hale gelmesini sağlayabilir.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Lizard: Büyük Dil Modellerini Hızlandıran Yenilikçi Çerçeve Geliştirildi

Araştırmacılar, ChatGPT benzeri büyük dil modellerinin en büyük sorunlarından birini çözen Lizard adlı yenilikçi bir çerçeve geliştirdi. Transformer mimarisindeki büyük dil modelleri, uzun metinlerle çalışırken kvadratik karmaşıklık nedeniyle ciddi hesaplama ve bellek darboğazları yaşıyor. Lizard, önceden eğitilmiş modelleri subkuadratik mimarilere dönüştürerek bu sorunu çözüyor. Geleneksel softmax attention mekanizmasının yerini alan yeni yaklaşım, model kalitesini korurken hesaplama maliyetini önemli ölçüde düşürüyor. Önceki doğrusallaştırma yöntemlerinden farklı olarak, Lizard adaptive bellek kontrolü sağlayan öğrenilebilir modüller içeriyor ve uzun dizilerde daha iyi genelleme yapabiliyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

SkipKV: Büyük AI Modellerinin Bellek Sorununa Çözüm

Büyük yapay zeka modelleri, karmaşık problemleri çözerken adım adım düşünme süreçlerini taklit eder. Ancak bu süreç, modellerin hafızasında büyük miktarda veri biriktirir ve sistem kaynaklarını tüketir. Araştırmacılar, SkipKV adlı yeni bir yöntem geliştirerek bu soruna çözüm aradı. Bu teknik, modellerin gereksiz bilgileri seçici olarak atlayarak hafıza kullanımını azaltır. Mevcut yöntemler genellikle önemli bilgileri kaybederek model performansını düşürürken, SkipKV hem bellek tasarrufu sağlar hem de doğruluğu korur. Özellikle çoklu işlem ortamlarında etkili olan bu yaklaşım, yapay zeka modellerinin daha verimli çalışmasına olanak tanıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yeni derleyici sistemi bellek yönetimini otomatik optimize ediyor

Araştırmacılar, programlama dillerinde boyutsal tip sistemlerini kullanan yenilikçi bir derleyici çerçevesi geliştirdi. Bu sistem, kod yazım aşamasından çalışma zamanına kadar boyutsal bilgileri koruyarak, hem bellek kullanımını hem de sayısal gösterimleri otomatik olarak optimize edebiliyor. Geleneksel derleyiciler boyutsal bilgileri erken aşamalarda silerken, yeni yaklaşım bu verileri süreç boyunca muhafaza ederek daha akıllı optimizasyonlar yapabiliyor. Sistem, değer aralıklarını analiz ederek en uygun veri tiplerini seçiyor ve bellek ayırma stratejilerini belirliyor. Hindley-Milner tip çıkarımına dayanan matematik altyapısı, polinom zamanda çalışabilen kararlı sonuçlar üretiyor. Bu gelişme, özellikle yüksek performans gerektiren uygulamalarda bellek verimliliği ve hesaplama hızında önemli iyileştirmeler sağlayabilir.

arXiv (CS + AI) 0

Fizik

20 Apr

Orkan: Kuantum simülasyonlarını iki kat hızlandıran yeni yazılım kütüphanesi

Kuantum bilgisayarların geliştirilmesinde kritik rol oynayan klasik simülasyonlar, büyük bir performans sıçraması yaşayabilir. Yeni geliştirilen Orkan kütüphanesi, kuantum işlemlerini simüle ederken hermityen matrislerin simetrik yapısından faydalanarak hem bellek kullanımını hem de işlem süresini yaklaşık yarı yarıya azaltıyor. Geleneksel simulatörler, n-kubitlik bir sistemde 2^2n elemanlık vektörü tamamen saklarken, Orkan sadece alt üçgen kısmı tutarak aynı sonuçları elde ediyor. Bu yaklaşım, kuantum algoritma tasarımından donanım testlerine kadar geniş bir kullanım alanına sahip.

arXiv — Kuantum Fiziği 0

Teknoloji & Yapay Zeka

20 Apr

Yapay Zeka Modelleri Artık Daha Az Bellek Kullanacak: Yeni Sıkıştırma Yöntemi

Araştırmacılar, büyük dil modellerinin bellek kullanımını dramatik şekilde azaltan yeni bir sıkıştırma tekniği geliştirdi. Sequential KV Cache Compression adlı bu yöntem, modellerin çalışma sırasında oluşturdukları geçici verileri çok daha verimli şekilde saklamaya olanak tanıyor. Mevcut yöntemlerden farklı olarak, bu teknik verilerin rastgele sayılar değil, modelin eğitildiği dildeki anlamlı kalıplar olduğunu fark ediyor. İki katmanlı sistem önce benzer metin parçalarını tespit ederek birleştiriyor, ardından sadece farklılıkları kaydediyor. Bu yaklaşım, Shannon entropi limitinin ötesine geçerek daha yüksek sıkıştırma oranları elde ediyor ve yapay zeka uygulamalarının daha az kaynak tüketerek çalışmasını sağlıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Video Yapay Zekası Daha Hızlı: Diffusion Modellerinde Verimlilik Devrimi

Video üretimi yapay zeka alanında hızla gelişen bir teknoloji olmakla birlikte, yüksek hesaplama maliyetleri pratikte kullanımını sınırlıyor. Araştırmacılar, video diffusion modellerinin verimliliğini artırmak için dört ana yaklaşım geliştirmiş durumda. Bu yöntemler arasında adım damıtması, verimli dikkat mekanizmaları, model sıkıştırma ve önbellek optimizasyonu yer alıyor. Görüntü üretimine kıyasla video sentezi, hem uzamsal-zamansal boyutlarda büyüyen veri miktarı hem de iteratif gürültü giderme süreçleri nedeniyle çok daha karmaşık hesaplamalar gerektiriyor. Bu durum, dikkat mekanizmalarını ve bellek trafiğini ana darboğaz noktaları haline getiriyor. Yeni araştırmalar, bu zorlukları aşmak için işlev değerlendirmesi sayısını azaltma ve her adımdaki hesaplama yükünü minimize etme hedefleriyle çeşitli algoritmik çözümler sunuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

16 Apr

Tensor Bellek Motoru: Veriyi Anlık Yeniden Düzenleyerek Performansı Artırıyor

Bulut bilişimden kenar bilişime geçiş, yeni nesil akıllı sistemler için ciddi performans zorlukları yaratıyor. Araştırmacılar, bellek duvarı problemini çözmek için yenilikçi bir donanım-yazılım hibrit yaklaşımı geliştirdi. Tensor Bellek Motoru adı verilen bu sistem, veriyi bellekte ideal şekilde düzenleyerek önbellek performansını dramatik olarak artırıyor. Geleneksel veri yoğun uygulamalar ya kötü bellek erişimi sergiliyor ya da performans için aşırı bellek tüketimine zorlanıyor. Bu yeni teknoloji, işlemcinin veri yoluna şeffaf şekilde entegre edilerek, ticari SoC ve FPGA platformlarda uygulanabiliyor. Sistem, uygulamaların pahalı yeniden tasarım süreçlerine gerek kalmadan ideal önbellek yerelliği sağlamasına olanak tanıyor. Edge computing'in artan öneminde bu gelişme, mobil ve gömülü sistemlerde veri işleme performansını yeni boyutlara taşıyabilir.

arXiv (CS + AI) 0