Teknoloji & Yapay Zeka

LLaMo: Hareket ve Dil İşlemeyi Birleştiren Yeni Yapay Zeka Modeli

Araştırmacılar, hareket verilerini ve doğal dili aynı anda anlayıp üretebilen yeni bir yapay zeka modeli geliştirdi. LLaMo adlı bu sistem, mevcut dil modellerinin yeteneklerini kaybetmeden hareket verilerini işleyebiliyor. Geleneksel yöntemler hareket verilerini parçalı hale getirirken titreme sorunları yaşıyordu ve sınırlı veri nedeniyle dil yeteneklerini kaybediyordu. Yeni yaklaşım, Mixture-of-Transformers mimarisi kullanarak bu sorunları çözüyor ve sürekli temsil yöntemiyle daha akıcı sonuçlar elde ediyor. Bu gelişme, robotik, animasyon ve insan-bilgisayar etkileşimi alanlarında önemli uygulamalara kapı açabilir. Model, hem hareket komutlarını anlayıp üretebiliyor hem de doğal dil işleme yeteneklerini koruyabiliyor.

Yapay zeka alanında önemli bir adım atılarak, hareket verilerini ve doğal dili aynı anda işleyebilen yeni bir model geliştirildi. LLaMo adı verilen bu sistem, mevcut büyük dil modellerinin yeteneklerini genişleterek hareket anlayışı ve üretimi konularında çığır açıyor.

Şimdiye kadar geliştirilen yaklaşımlar, büyük dil modellerini hareket-metin çiftleri üzerinde eğitirken önemli sorunlarla karşılaşıyordu. Bu yöntemlerin en büyük sorunu, sınırlı veri miktarı nedeniyle modellerin orijinal dil yeteneklerini kaybetmesiydi. Ayrıca, hareket verilerini parçalı hale getirme işlemi titreme benzeri yapay bozukluklara yol açıyordu.

LLaMo, bu zorlukları Mixture-of-Transformers mimarisiyle aşıyor. Bu tasarım, temel modelin dil anlayışını korurken çok modlu uyarlamayı mümkün kılıyor. Sürekli temsil yöntemi kullanarak, geleneksel parçalı yaklaşımların neden olduğu titreme sorunlarını ortadan kaldırıyor.

Bu teknolojinin robotik sistemlerde hareket kontrolü, animasyon endüstrisinde karakter hareketleri üretimi ve insan-bilgisayar etkileşiminde daha doğal iletişim sağlama gibi alanlarda geniş uygulama potansiyeli bulunuyor. Model, hem hareket komutlarını doğal dille anlayabiliyor hem de bu komutları gerçekçi hareketlere dönüştürebiliyor.

Özgün Kaynak
arXiv (CS + AI)
LLaMo: Scaling Pretrained Language Models for Unified Motion Understanding and Generation with Continuous Autoregressive Tokens
Orijinal makaleyi oku

Bu içerik, özgün kaynaktaki bilgiler temel alınarak BilimKapsül editörleri tarafından yeniden kaleme alınmıştır. Orijinal metnin birebir çevirisi değildir. Telif hakkı özgün yayıncıya aittir.