Teknoloji & Yapay Zeka

Yapay Zeka Modellerini Daha Verimli Çalıştıran Yeni Paralel İşlem Tekniği

Araştırmacılar, büyük yapay zeka modellerinin eğitimi ve çalışması sırasında bellek kullanımını optimize eden yeni bir teknik geliştirdi. TSP (Tensor ve Sequence Parallelism) adı verilen bu yöntem, geleneksel paralel işlem yaklaşımlarını birleştirerek hem model ağırlıklarını hem de veri dizilerini aynı cihaz ekseni üzerinde paylaştırıyor. Bu sayede her cihazın bellek yükü önemli ölçüde azalırken, büyük dil modellerinin daha az donanım kaynağıyla çalıştırılması mümkün hale geliyor. Özellikle attention mekanizmaları ve gated MLP'ler için özel çalışma zamanı programları geliştiren teknik, iletişim maliyeti artışı pahasına bellek verimliliğinde önemli kazanımlar sağlıyor.

Yapay zeka alanında büyük dil modellerinin artan boyutları, bellek yönetiminde ciddi zorluklar yaratıyor. Bu soruna çözüm arayan araştırmacılar, TSP (Tensor ve Sequence Parallelism) adını verdikleri yeni bir paralel işlem stratejisi geliştirdi.

Geleneksel yaklaşımlarda tensor parallelism model ağırlıklarını bölerken, sequence parallelism veri dizilerini parçalara ayırarak her birini farklı cihaz boyutlarında işler. TSP ise bu iki yaklaşımı tek bir cihaz ekseni üzerinde birleştiriyor. Bu sayede her işlem birimi hem ağırlık parçası hem de dizi parçası alarak, parameter ve aktivasyon belleğini aynı anda azaltıyor.

Tekniğin uygulaması iki farklı çalışma zamanı programı içeriyor. Attention mekanizmalarında, işlem birimleri yayınlanan parameter parçaları üzerinde döngü oluşturuyor ve anahtar/değer değişimi yoluyla bağlamı yeniden inşa ediyor. Gated MLP'lerde ise ağırlık parçaları halka şeklinde dolaşırken kısmi çıktılar yerel olarak biriktiriliyoruyor.

Bu yöntem, hem ağırlıkları hem aktivasyonları aynı cihazlar arasında paylaştırarak ek iletişim maliyeti getirse de, bellek verimliliğinde önemli kazanımlar sağlıyor. Özellikle sınırlı bellek kapasitesine sahip sistemlerde büyük modellerin çalıştırılması için pratik bir çözüm sunuyor.

Özgün Kaynak
arXiv (Dilbilim & NLP)
Folding Tensor and Sequence Parallelism for Memory-Efficient Transformer Training & Inference
Orijinal makaleyi oku

Bu içerik, özgün kaynaktaki bilgiler temel alınarak BilimKapsül editörleri tarafından yeniden kaleme alınmıştır. Orijinal metnin birebir çevirisi değildir. Telif hakkı özgün yayıncıya aittir.