Teknoloji & Yapay Zeka

Dil Modeli Ağırlıkları Robotik ve Oyunlarda da Başarılı

Araştırmacılar, sadece metin üzerinde eğitilmiş yapay zeka modellerinin ağırlıklarını değiştirmeden farklı alanlarda kullanabileceklerini gösterdi. Gemma 4 31B modelinin donmuş ağırlıkları, ince bir ara yüz katmanıyla robotik manipülasyon ve karar verme görevlerinde başarılı sonuçlar verdi. Bu yaklaşım, her yeni görev için sıfırdan model eğitme ihtiyacını ortadan kaldırabilir. Özellikle robotik görevlerde yayınlanmış en iyi sonuçları geçerken, karar verme problemlerinde de mevcut yöntemlerle rekabet etti. Araştırma, yapay zekanın farklı modaliteler arasında nasıl transfer edilebileceğine dair önemli ipuçları sunuyor.

Stanford ve diğer kurumlardan araştırmacılar, sadece metin verilerinde eğitilmiş büyük dil modellerinin ağırlıklarını hiç değiştirmeden robotik ve karar verme görevlerinde kullanmanın mümkün olduğunu kanıtladı.

Çalışmada, Gemma 4 31B modelinin donmuş ağırlıkları üzerine küçük bir eğitilebilir ara yüz eklenerek farklı modalitelerde test edildi. Robotik manipülasyon görevlerinde, model daha önce hiç görmediği bir görevi öğrenirken yayınlanmış en iyi sonuçları 4.33 puan geride bıraktı.

Karar verme problemlerinde ise Decision-Transformer yöntemiyle eşdeğer performans elde edilirken, eğitilebilir parametre sayısı %57 daha az kullanıldı. Modelin sıkıştırılmış 5 katmanlık versiyonu bile 6 katmanlı temel modelden daha iyi sonuç verdi.

En çarpıcı sonuç ise çağrışımsal hafıza testinde ortaya çıktı. Donmuş model dilimi ve 113 bin parametreli doğrusal ara yüz, sıfırdan eğitilmiş 6.36 milyon parametreli modelin hiç çözemediği bir görevi başarıyla tamamladı. Bu, 8.7 kat daha iyi bir performans anlamına geliyor.

Bulgular, büyük dil modellerinin öğrendiği temel yapıların sadece dile özgü olmadığını, farklı problem türlerinde de geçerli olabileceğini gösteriyor. Bu yaklaşım, her yeni görev için büyük hesaplama kaynaklarına ihtiyaç duymadan yapay zeka modellerinin çok daha verimli kullanılmasının yolunu açabilir.

Özgün Kaynak
arXiv — Hesaplamalı Dilbilim (cs.CL)
Borrowed Geometry: Computational Reuse of Frozen Text-Pretrained Transformer Weights Across Modalities
Orijinal makaleyi oku

Bu içerik, özgün kaynaktaki bilgiler temel alınarak BilimKapsül editörleri tarafından yeniden kaleme alınmıştır. Orijinal metnin birebir çevirisi değildir. Telif hakkı özgün yayıncıya aittir.