“multimodal öğrenme” için sonuçlar
3 sonuç bulundu. Sonuçları kategoriye göre daraltabilirsin.
Görsel-dil modelleri metin okumada insan beynini daha iyi taklit etmiyor
Stanford Üniversitesi araştırmacıları, görsel ve dil verisiyle eğitilen yapay zeka modellerinin, sadece metinle eğitilen modellere kıyasla insan beyninin metin işleme süreçlerini daha iyi taklit etmediğini keşfetti. Araştırmada doğal okuma koşullarında çekilen beyin görüntüleme verileri ve göz takip kayıtları kullanıldı. Bulgular, multimodal eğitimin her zaman üstünlük sağlamadığını ve dil işlemede dahili temsillerin daha kritik olduğunu gösteriyor.
Robotlar İçin Dokunma ve Görme Duyularını Birleştiren Yeni Yapay Zeka Modeli
Araştırmacılar, robotların dokunma ve görme duyularını birleştirerek çevreyi daha iyi algılayabilmesi için ViTaPEs adlı yeni bir yapay zeka modeli geliştirdi. Bu model, transformer mimarisini kullanarak görsel ve dokunsal verileri aynı anda işleyebiliyor. Robotik alanında önemli bir gelişme olan bu sistem, malzeme dokusunu, sertliğini ve kuvvet bilgilerini görsel verilerle harmanlayarak daha kapsamlı çevresel algı sağlıyor. Model, iki aşamalı konumsal kodlama sistemi kullanarak her modaliteye özel yerel kodlamalar ve ortak global kodlamalar uyguluyor. Bu yaklaşım, robotların farklı görevlerde ve ortamlarda daha başarılı performans göstermesini sağlayabilir.
Yapay Zeka Nesli Tükenmekte Olan Dilleri Konuşmayı Öğreniyor
Araştırmacılar, büyük dil modellerinin hiç eğitim almadıkları dilleri bile tanıyıp çevirebildiğini keşfetti. Phi-4 ve Qwen3-Omni gibi gelişmiş AI sistemleri, ses ve metin verilerini birlikte kullanarak nesli tükenmekte olan üç farklı dili başarıyla öğrendi. Bu çalışma, dünya genelinde binlerce dilin kaybolma tehlikesiyle karşı karşıya olduğu bir dönemde büyük önem taşıyor. Geleneksel yöntemlerle bu dilleri dijitalleştirmek yeterli veri eksikliği nedeniyle zorken, yeni multimodal öğrenme yaklaşımı umut verici sonuçlar gösteriyor. Teknoloji, diller arası aktarım öğrenmesi sayesinde daha verimli çalışabiliyor ve dikkat mekanizmalarını analiz ederek hangi katmanlarda ses ile metin arasında tercih yaptığını ortaya koyuyor.