“çok modlu öğrenme” için sonuçlar

Yapay Zeka Modelleri Artık Kendi Eğitim Verilerini Seçebiliyor

Araştırmacılar, görsel-dil modellerinin eğitimi için kaliteli veri seçiminde yeni bir yaklaşım geliştirdi. DOSE adlı bu yöntem, önceden eğitilmiş modelleri kullanarak hedef veriler üzerinde hiç eğitilmemiş olan yapay zeka sistemlerinin, daha büyük modeller için uygun eğitim örneklerini belirleyebileceğini gösteriyor. Mevcut çok modlu veri setleri genellikle gürültülü, tekrarlayan ve zayıf hizalanmış örnekler içeriyor. Geleneksel filtreleme yöntemleri ekstra hesaplama maliyeti getirirken, DOSE bu sorunu çözmek için raf dışı modelleri kullanıyor. Bu yaklaşım, metin kalitesi ve görsel-metin uyumunu değerlendirerek bilgilendirici örnekleri seçiyor.

Yapay zeka artık görsel ve kodla çalışan çok modlu öğrenme sistemleri geliştirebiliyor

Araştırmacılar, metin, görüntü ve vektör grafiklerini aynı anda anlayabilen yeni bir yapay zeka sistemi geliştirdi. mEOL adlı bu sistem, Scalable Vector Graphics (SVG) dosyalarının hem görsel hem de kod yapısını koruyarak işleyebiliyor. Geleneksel yöntemlerin aksine herhangi bir eğitim gerektirmiyor ve çok modlu büyük dil modellerini kullanarak farklı veri türlerini ortak bir anlam uzayında birleştiriyor. Sistem, her türlü girdiyi tek bir token'a özetleyerek kompakt temsiller oluşturuyor ve görsel arama uygulamalarında yüksek performans gösteriyor. Bu gelişme, yapay zekanın farklı veri türlerini entegre bir şekilde anlama yeteneğinde önemli bir adım teşkil ediyor.

Yapay Zeka Duygusal Analiz Sistemlerini Güçlendiren Yeni Yaklaşım

Araştırmacılar, yapay zekanın insan duygularını analiz etme becerisini önemli ölçüde geliştiren yeni bir yöntem geliştirdi. Ses, görüntü ve metin verilerini birlikte kullanan çok modlu sistemlerin en büyük sorunu, değişken koşullarda tutarsız sonuçlar vermesiydi. Yeni geliştirilen nedensel çıkarım temelli yaklaşım, her veri türünden istikrarlı ve güvenilir bilgileri ayırt ederek, sistemlerin farklı ortamlarda daha tutarlı performans göstermesini sağlıyor. Bu gelişme, duygu tanıma teknolojilerinin günlük yaşamda daha güvenilir şekilde kullanılmasına olanak tanıyacak.

Yapay Zeka Artık Duyguları Daha İyi Anlıyor: Yeni Hiperbolik Model

Araştırmacılar, insan duygularını çok boyutlu verilerden anlayabilen yeni bir yapay zeka modeli geliştirdi. 'Emotion Collider' adlı bu sistem, ses, görüntü ve metin gibi farklı veri türlerini birleştirerek duygu analizi yapıyor. Model, matematiksel olarak hiperbolik geometri kullanarak hiyerarşik ilişkileri daha iyi yakalıyor. Özellikle veriler eksik veya gürültülü olduğunda bile yüksek doğruluk oranları elde ediyor. Bu gelişme, insan-bilgisayar etkileşimini geliştirecek uygulamalar için önemli bir adım teşkil ediyor.

18 Apr

Yapay Zeka Modelleri Artık Görsel ve Metinsel Bilgileri Daha Hızlı İşleyebilecek

Araştırmacılar, yapay zeka modellerinin görsel ve metinsel bilgileri birlikte işleme kapasitesini artıran yeni bir yöntem geliştirdi. Çalışma, mevcut çok modlu AI sistemlerinin görsel verileri yetersiz işlediğini ve karmaşık görevlerde zorlandığını ortaya koyuyor. Geliştirilen 'görsel tekrar modülü' ve 'derinlik ölçeklendirme' teknikleri, modellerin hem görüntüleri daha iyi anlamasını hem de karmaşık mantıksal işlemleri daha hızlı gerçekleştirmesini sağlıyor. Bu yenilik, özellikle görsel soru cevaplama sistemleri ve akıllı asistanlar için önemli performans artışları vaat ediyor.

16 Apr

Çok Modlu Yapay Zeka Neden Geride Kalıyor? İç Mekanizmalar Araştırıldı

Yapay zeka modellerinin yeni görevleri örneklerden öğrenmesini sağlayan 'bağlam içi öğrenme' yöntemi, sadece metinle çalışırken başarılı olsa da görsel ve metinsel verileri birlikte işlerken zorlanıyor. Araştırmacılar, çok modlu büyük dil modellerinin neden tek modal karşılıklarından daha zayıf performans sergilediğini sistematik olarak inceledi. Bulgular, mevcut modellerin görsel ve metinsel temsiller arasında mantıksal düzeyde yeterli hizalamaya sahip olmadığını ve öğrenilen görev eşlemelerini güvenilir şekilde aktaramadığını gösteriyor. Bu keşif, yapay zeka sistemlerinin farklı veri türlerini daha etkili şekilde birleştirmesi için gereken iyileştirmelere ışık tutuyor.