Yapay zeka alanında büyük dil modellerinin eğitiminde karşılaşılan en önemli teknik engellerden biri, GPU'lar arasındaki veri iletişim süreçlerinin yavaşlığıdır. Araştırmacılar, bu sorunu çözmek için CCCL (Compression-Coupled Collective Communication) adlı yenilikçi bir sistem geliştirdi.
Geleneksel sistemlerde, birden fazla GPU birlikte çalıştığında, aralarında büyük miktarlarda veri paylaşımı yapması gerekiyor. Bu süreç, özellikle tensor ve uzman paralelizmi gibi tekniklerin kullanıldığı durumlarda ciddi performans kayıplarına neden oluyordu. Şimdiye kadar bu problemi çözmek için uygulama seviyesinde karmaşık kod değişiklikleri yapılması gerekiyordu.
CCCL sistemi, bu sorunu köklü bir yaklaşımla çözüyor. GPU içerisinde veri sıkıştırma işlemlerini gerçekleştirerek, ağ üzerinden gönderilecek veri miktarını önemli ölçüde azaltıyor. Sistem, allreduce, alltoall ve send/recv gibi temel iletişim operasyonlarını destekleyerek, mevcut uygulamalarda herhangi bir değişiklik yapılmadan kullanılabiliyor.
Test sonuçları oldukça etkileyici: CCCL, NVLink bant genişliğinin 3 katına kadar hızlara ulaşabiliyor ve vLLM platformunda %10,1'e varan performans artışı sağlıyor. Mikro-benchmark testlerinde ise %30'a kadar throughput iyileştirmesi gözlemlendi. Bu gelişme, yapay zeka modellerinin eğitim süreçlerinin daha verimli hale gelmesine önemli katkı sağlayacak.