Yapay zeka alanında büyük dil modellerinin artan boyutları, bellek yönetiminde ciddi zorluklar yaratıyor. Bu soruna çözüm arayan araştırmacılar, TSP (Tensor ve Sequence Parallelism) adını verdikleri yeni bir paralel işlem stratejisi geliştirdi.
Geleneksel yaklaşımlarda tensor parallelism model ağırlıklarını bölerken, sequence parallelism veri dizilerini parçalara ayırarak her birini farklı cihaz boyutlarında işler. TSP ise bu iki yaklaşımı tek bir cihaz ekseni üzerinde birleştiriyor. Bu sayede her işlem birimi hem ağırlık parçası hem de dizi parçası alarak, parameter ve aktivasyon belleğini aynı anda azaltıyor.
Tekniğin uygulaması iki farklı çalışma zamanı programı içeriyor. Attention mekanizmalarında, işlem birimleri yayınlanan parameter parçaları üzerinde döngü oluşturuyor ve anahtar/değer değişimi yoluyla bağlamı yeniden inşa ediyor. Gated MLP'lerde ise ağırlık parçaları halka şeklinde dolaşırken kısmi çıktılar yerel olarak biriktiriliyoruyor.
Bu yöntem, hem ağırlıkları hem aktivasyonları aynı cihazlar arasında paylaştırarak ek iletişim maliyeti getirse de, bellek verimliliğinde önemli kazanımlar sağlıyor. Özellikle sınırlı bellek kapasitesine sahip sistemlerde büyük modellerin çalıştırılması için pratik bir çözüm sunuyor.