Teknoloji & Yapay Zeka

CoMeT: Yapay Zeka Modellerinin Sonsuz Uzunluktaki Metinleri İşlemesini Sağlayan Yeni Mimari

Araştırmacılar, büyük dil modellerinin uzun metinleri işlerken karşılaştıkları bellek sorununu çözen devrimci bir mimari geliştirdi. CoMeT adlı bu sistem, geleneksel Transformer modellerinin karesel karmaşıklık problemini çözerek, sabit bellek kullanımı ve doğrusal zaman karmaşıklığı ile sınırsız uzunluktaki metinleri işleyebiliyor. İkili bellek sistemi kullanan CoMeT, yakın geçmiş için geçici bellek ve uzun vadeli bağımlılıklar için küresel bellek yönetiyor. Mevcut modellere minimum düzeyde ince ayar ile entegre edilebilen bu plug-in modül, yapay zeka modellerinin kitap uzunluğundaki metinleri, araştırma makalelerini ve uzun dökümanları çok daha verimli işlemesini mümkün kılıyor.

Büyük dil modellerinin en büyük kısıtlamalarından biri olan uzun metin işleme sorunu, yeni bir mimari ile çözüme kavuştu. Collaborative Memory Transformer (CoMeT) adlı bu yenilikçi sistem, geleneksel Transformer modellerinin karesel karmaşıklık ve sürekli büyüyen anahtar-değer önbellek problemlerini ortadan kaldırıyor.

CoMeT'in temelinde iki farklı bellek sistemi bulunuyor. İlki, FIFO kuyruğu üzerinde çalışan ve yakın zamandaki olayları tutan geçici bellek. İkincisi ise kapılı güncelleme kuralı ile uzun vadeli bağımlılıkları yöneten küresel bellek sistemi. Bu iki bellek türü, bir sonraki veri parçası için dinamik bir yumuşak komut görevi üstleniyor.

Sistemin en dikkat çekici özelliği, sabit bellek kullanımı ve doğrusal zaman karmaşıklığı ile teorik olarak sınırsız uzunluktaki dizileri işleyebilmesi. Bu, geleneksel modellerin uzunlukla birlikte katlanarak artan bellek ihtiyacının aksine devrimsel bir gelişme anlamına geliyor.

CoMeT, önceden eğitilmiş modellere minimum düzeyde ince ayar ile entegre edilebilen bir plug-in modül olarak tasarlandı. Araştırmacılar ayrıca, son derece uzun bağlamlarda verimli ince ayar yapabilmek için yeni bir katman seviyesi ardışık paralellik stratejisi de geliştirdi.

Bu gelişme, yapay zeka modellerinin kitap uzunluğundaki metinleri, uzun araştırma makalelerini ve kapsamlı dökümanları çok daha etkili şekilde analiz etmesinin önünü açıyor.

Özgün Kaynak
arXiv (CS + AI)
CoMeT: Collaborative Memory Transformer for Efficient Long Context Modeling
Orijinal makaleyi oku

Bu içerik, özgün kaynaktaki bilgiler temel alınarak BilimKapsül editörleri tarafından yeniden kaleme alınmıştır. Orijinal metnin birebir çevirisi değildir. Telif hakkı özgün yayıncıya aittir.