Büyük dil modellerinin en büyük kısıtlamalarından biri olan uzun metin işleme sorunu, yeni bir mimari ile çözüme kavuştu. Collaborative Memory Transformer (CoMeT) adlı bu yenilikçi sistem, geleneksel Transformer modellerinin karesel karmaşıklık ve sürekli büyüyen anahtar-değer önbellek problemlerini ortadan kaldırıyor.
CoMeT'in temelinde iki farklı bellek sistemi bulunuyor. İlki, FIFO kuyruğu üzerinde çalışan ve yakın zamandaki olayları tutan geçici bellek. İkincisi ise kapılı güncelleme kuralı ile uzun vadeli bağımlılıkları yöneten küresel bellek sistemi. Bu iki bellek türü, bir sonraki veri parçası için dinamik bir yumuşak komut görevi üstleniyor.
Sistemin en dikkat çekici özelliği, sabit bellek kullanımı ve doğrusal zaman karmaşıklığı ile teorik olarak sınırsız uzunluktaki dizileri işleyebilmesi. Bu, geleneksel modellerin uzunlukla birlikte katlanarak artan bellek ihtiyacının aksine devrimsel bir gelişme anlamına geliyor.
CoMeT, önceden eğitilmiş modellere minimum düzeyde ince ayar ile entegre edilebilen bir plug-in modül olarak tasarlandı. Araştırmacılar ayrıca, son derece uzun bağlamlarda verimli ince ayar yapabilmek için yeni bir katman seviyesi ardışık paralellik stratejisi de geliştirdi.
Bu gelişme, yapay zeka modellerinin kitap uzunluğundaki metinleri, uzun araştırma makalelerini ve kapsamlı dökümanları çok daha etkili şekilde analiz etmesinin önünü açıyor.