Yapay zeka alanında önemli bir adım atılarak, hareket verilerini ve doğal dili aynı anda işleyebilen yeni bir model geliştirildi. LLaMo adı verilen bu sistem, mevcut büyük dil modellerinin yeteneklerini genişleterek hareket anlayışı ve üretimi konularında çığır açıyor.
Şimdiye kadar geliştirilen yaklaşımlar, büyük dil modellerini hareket-metin çiftleri üzerinde eğitirken önemli sorunlarla karşılaşıyordu. Bu yöntemlerin en büyük sorunu, sınırlı veri miktarı nedeniyle modellerin orijinal dil yeteneklerini kaybetmesiydi. Ayrıca, hareket verilerini parçalı hale getirme işlemi titreme benzeri yapay bozukluklara yol açıyordu.
LLaMo, bu zorlukları Mixture-of-Transformers mimarisiyle aşıyor. Bu tasarım, temel modelin dil anlayışını korurken çok modlu uyarlamayı mümkün kılıyor. Sürekli temsil yöntemi kullanarak, geleneksel parçalı yaklaşımların neden olduğu titreme sorunlarını ortadan kaldırıyor.
Bu teknolojinin robotik sistemlerde hareket kontrolü, animasyon endüstrisinde karakter hareketleri üretimi ve insan-bilgisayar etkileşiminde daha doğal iletişim sağlama gibi alanlarda geniş uygulama potansiyeli bulunuyor. Model, hem hareket komutlarını doğal dille anlayabiliyor hem de bu komutları gerçekçi hareketlere dönüştürebiliyor.