ODMA: Büyük Dil Modelleri İçin Yeni Bellek Yönetim Stratejisi

Araştırmacılar, büyük dil modellerinin sınırlı bellek bant genişliğine sahip hızlandırıcılarda daha verimli çalışması için ODMA adlı yeni bir bellek yönetim stratejisi geliştirdi. Mevcut bellek yönetim teknikleri, statik ön tahsis ile aşırı kaynak kullanımına neden olurken, ince taneli sayfalama yöntemi LPDDR sistemlerde bant genişliğini hızla düşürüyor. ODMA, özellikle Cambricon MLU serisi gibi rastgele erişim kısıtlamalı hızlandırıcılar için tasarlandı ve üretim iş yüklerindeki dağılım kayması sorununu çözmeyi hedefliyor. Bu yenilik, yapay zeka modellerinin daha az kaynak tüketerek daha hızlı çalışmasını sağlayabilir.

Büyük dil modellerinin (LLM) yaygınlaşmasıyla birlikte, bu modellerin donanım hızlandırıcılarında verimli çalışması kritik bir sorun haline geldi. Özellikle sınırlı bellek bant genişliğine sahip sistemlerde, mevcut bellek yönetim teknikleri ciddi performans sorunlarına yol açıyor.

Araştırmacılar, bu soruna çözüm olarak ODMA (On-Demand Memory Allocation) adlı isteğe bağlı bellek tahsis stratejisini geliştirdi. Geleneksel yaklaşımlar iki temel sorunla karşılaşıyor: Statik ön tahsis yöntemi bellek bütünlüğünü korusa da, en kötü senaryo için kaynak ayırdığından büyük ek yük oluşturuyor. Öte yandan ince taneli sayfalama tekniği bu ek yükü azaltıyor ancak HBM'nin yüksek rastgele erişim toleransına dayanıyor.

ODMA'nın en önemli özelliği, LPDDR sistemler gibi rastgele erişim kısıtlamalı hızlandırıcılara özel olarak tasarlanmış olması. Bu sistemlerde sıralı olmayan erişim, bant genişliğini hızla düşürüyor. Cambricon MLU serisi gibi donanımlar için optimize edilen ODMA, üretim ortamlarındaki dağılım kayması sorununu da çözmeyi amaçlıyor.

Bu gelişme, yapay zeka modellerinin daha geniş donanım yelpazesinde verimli çalışabilmesini sağlayarak, teknolojinin erişilebilirliğini artırabilir.