Bilimsel hesaplama ve yapay zeka uygulamalarının kalbi sayılabilecek seyrek matris çarpımı işlemleri, yeni bir teknolojik atılımla çok daha hızlı hale geliyor. AsyncSparse adı verilen bu yenilikçi yaklaşım, modern GPU mimarilerinin henüz tam olarak değerlendirilmeyen eşzamansız özelliklerini kullanarak performansta çığır açıyor.
Araştırmacıların geliştirdiği sistem, NVIDIA'nın Tensor Memory Accelerator (TMA) teknolojisi ve warp uzmanlaşması gibi gelişmiş özellikleri ilk kez seyrek matris işlemleri için optimize ediyor. Bu yaklaşım, veri transferi ile hesaplama işlemlerini eş zamanlı gerçekleştirerek zaman kaybını minimize ediyor.
Sistem iki farklı çekirdek tasarımı sunuyor. İlki yapılandırılmış seyreklik için Block Compressed Sparse Row formatını kullanarak üretici-tüketici pipeline'ı optimize ediyor. İkincisi ise düzensiz seyreklik durumları için Window Compressed Sparse Row çekirdeği geliştiriyor ve büyük satır pencerelerini thread blokları arasında bölerek yük dengelemeyi sağlıyor.
Test sonuçları etkileyici: AsyncSparse, mevcut AccSpMM yöntemine göre 1.47 kat, yaygın kullanılan cuSPARSE kütüphanesine göre ise 6.24 kata kadar performans artışı gösteriyor. Bu gelişme, makine öğrenmesi modellerinin eğitiminden bilimsel simülasyonlara kadar birçok alanda hesaplama hızını önemli ölçüde artıracak.