Teknoloji & Yapay Zeka

Yapay Zeka Modelleri Artık Çok Daha Az Bellek Kullanacak

Stanford ve diğer kurumlardan araştırmacılar, mevcut Transformer tabanlı yapay zeka modellerinin yüksek bellek tüketimi sorununa çözüm ürettiler. Geliştirdikleri yeni yaklaşım, tekrarlayan sinir ağı mimarileri kullanarak metin gömme işlemlerini sabit bellek kullanımıyla gerçekleştiriyor. Mamba2, RWKV ve xLSTM gibi modellerde test edilen bu yöntem, uzun metinlerde bile bellek kullanımını sabit tutarken performansta rekabetçi sonuçlar veriyor. Bu gelişme, yapay zeka uygulamalarının daha verimli çalışmasını ve kaynak kısıtlı ortamlarda bile güçlü dil modellerinin kullanılabilmesini sağlayabilir. Araştırma, özellikle uzun metin analizlerinde büyük avantaj sunuyor.

Yapay zeka alanında önemli bir verimlilik sorunu çözüme kavuşturuldu. Mevcut Transformer tabanlı dil modelleri, metin uzunluğu arttıkça bellek tüketimlerinin katlanarak artması nedeniyle ciddi sınırlamalarla karşılaşıyordu.

Araştırmacıların geliştirdiği yeni yaklaşım, tekrarlayan sinir ağı mimarilerini temel alıyor. Bu sistemde 'dikey parçalama' adı verilen özel bir strateji kullanılarak, belirli bir uzunluğu aştığında metin boyutundan bağımsız olarak sabit bellek kullanımı sağlanıyor.

Çalışmada Mamba2 modeli temel alınarak yapılan testlerde, bu yöntemin genel amaçlı metin analizi görevlerinde başarılı sonuçlar verdiği görüldü. Model, çeşitli benchmark testlerinde Transformer tabanlı rakiplerine yakın performans sergilerken, bellek kullanımında önemli ölçüde tasarruf sağladı.

Yöntem ayrıca RWKV ve xLSTM gibi farklı model mimarilerinde de test edildi. Sonuçlar, bu yaklaşımın farklı tekrarlayan model türlerinde tutarlı şekilde çalıştığını ve bellek-performans dengesinde avantaj sağladığını ortaya koydu.

Bu gelişme, özellikle kaynak kısıtlı ortamlarda çalışan yapay zeka uygulamaları için büyük önem taşıyor ve uzun metin analizlerinin daha erişilebilir hale gelmesini sağlayabilir.

Özgün Kaynak
arXiv (CS + AI)
Linear-Time and Constant-Memory Text Embeddings Based on Recurrent Language Models
Orijinal makaleyi oku

Bu içerik, özgün kaynaktaki bilgiler temel alınarak BilimKapsül editörleri tarafından yeniden kaleme alınmıştır. Orijinal metnin birebir çevirisi değildir. Telif hakkı özgün yayıncıya aittir.