Araştırmacılar, büyük yapay zeka modellerinin eğitimi ve çalışması sırasında bellek kullanımını optimize eden yeni bir teknik geliştirdi. TSP (Tensor ve Sequence Parallelism) adı verilen bu yöntem, geleneksel paralel işlem yaklaşımlarını birleştirerek hem model ağırlıklarını hem de veri dizilerini aynı cihaz ekseni üzerinde paylaştırıyor. Bu sayede her cihazın bellek yükü önemli ölçüde azalırken, büyük dil modellerinin daha az donanım kaynağıyla çalıştırılması mümkün hale geliyor. Özellikle attention mekanizmaları ve gated MLP'ler için özel çalışma zamanı programları geliştiren teknik, iletişim maliyeti artışı pahasına bellek verimliliğinde önemli kazanımlar sağlıyor.

arXiv (Dilbilim & NLP) 0

Teknoloji & Yapay Zeka

21 Apr

FlowC2S: Video devamı üretiminde hız ve bellek verimliliği için yeni yaklaşım

Araştırmacılar, video devamı üretimi için FlowC2S adlı yeni bir yöntem geliştirdi. Bu teknik, mevcut video karelerinden sonraki kareleri tahmin ederken bellek kullanımını yarı yarıya azaltıyor ve işlem hızını artırıyor. Geleneksel yöntemlerin aksine, FlowC2S mevcut kareler ile gürültü kombinasyonu yerine doğrudan akış alanları kullanarak çalışıyor. Yöntem, zamansal olarak bitişik video parçalarını optimal eşleştirmeler için pratik bir vekil olarak kullanıyor ve daha düz akışlar elde ediyor. Hedef inversiyonu tekniğiyle de görsel kaliteyi artırıyor. LTXV ve Wan modellerinden ince ayar yapılarak geliştirilen sistem, mevcut en iyi performansı aşıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yeni derleyici sistemi bellek yönetimini otomatik optimize ediyor

Araştırmacılar, programlama dillerinde boyutsal tip sistemlerini kullanan yenilikçi bir derleyici çerçevesi geliştirdi. Bu sistem, kod yazım aşamasından çalışma zamanına kadar boyutsal bilgileri koruyarak, hem bellek kullanımını hem de sayısal gösterimleri otomatik olarak optimize edebiliyor. Geleneksel derleyiciler boyutsal bilgileri erken aşamalarda silerken, yeni yaklaşım bu verileri süreç boyunca muhafaza ederek daha akıllı optimizasyonlar yapabiliyor. Sistem, değer aralıklarını analiz ederek en uygun veri tiplerini seçiyor ve bellek ayırma stratejilerini belirliyor. Hindley-Milner tip çıkarımına dayanan matematik altyapısı, polinom zamanda çalışabilen kararlı sonuçlar üretiyor. Bu gelişme, özellikle yüksek performans gerektiren uygulamalarda bellek verimliliği ve hesaplama hızında önemli iyileştirmeler sağlayabilir.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

SAGE: Yapay Zeka Modellerinde Bellek Verimliliğini Artıran Yeni Yöntem

Araştırmacılar, büyük dil modellerinin uzun belgeleri işlerken karşılaştığı maliyet ve performans sorunlarına çözüm getirecek SAGE adlı yeni bir framework geliştirdi. Bu sistem, modellerin dikkat mekanizmalarını kullanarak sadece sorularla ilgili bölümleri seçmeli olarak işleyebiliyor. Böylece hem işlem maliyeti düşüyor hem de yanıt kalitesi artıyor. Özellikle akademik makaleler, teknik belgeler ve politika dokümanları gibi uzun metinlerle çalışırken büyük avantaj sağlayan bu yöntem, ek eğitim gerektirmeden mevcut sistemlere entegre edilebiliyor. Geleneksel RAG sistemlerinin aksine, belge yapısındaki değişikliklere daha dayanıklı ve farklı alanlara özel ayarlama gerektirmiyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Yapay Zeka Ajanları İçin Yeni Hızlandırma Sistemi: Sutradhara

Yapay zeka ajanları, karmaşık görevleri yerine getirmek için harici araçları kullanabilen dil modelleridir ve günümüzde üretim ortamlarında yaygın olarak kullanılmaktadır. Ancak bu sistemlerde ciddi performans darboğazları bulunuyor. Araştırmacılar, üretim ölçeğindeki analiz sonuçlarına göre araç çağrılarının gecikmenin %30-85'ini oluşturduğunu, önbellek verimliliğinin düştüğünü ve sıralı işlemlerin paralellik potansiyelini kaybettiğini tespit etti. Bu sorunlar, orkestratörler ve dil modeli motorlarının birbirinden bağımsız çalışmasından kaynaklanıyor. Sutradhara adlı yeni sistem, bu bileşenleri entegre ederek performansı artırmayı hedefliyor.

arXiv (CS + AI) 0