Qwen3.5-Omni: Ses, Görüntü ve Metni Bir Arada İşleyen Dev Yapay Zeka Modeli

20 Nisan 2026, 07:00 2 dk okuma 0 görüntülenme arXiv (CS + AI)

Paylaş: Kopyalandı!

Çinli teknoloji devi Alibaba'nın araştırma ekibi, çok modalı yapay zeka alanında yeni bir kilometre taşı olan Qwen3.5-Omni modelini tanıttı. Yüz milyarlarca parametreye sahip bu gelişmiş model, aynı anda metin, görüntü ve ses verilerini işleyebiliyor. 256 bin token'lık bağlam uzunluğu ile 10 saate kadar ses kaydını anlayabilen sistem, 100 milyondan fazla saatlik görsel-işitsel içerikle eğitildi. Model, 215 farklı ses ve görsel-işitsel anlama testinde Google'ın Gemini-3.1 Pro modelini geride bırakarak sektörde yeni bir standart belirledi. Hibrit Dikkat ve Uzmanlar Karışımı mimarisi sayesinde uzun sekansları verimli şekilde işleyebilen Qwen3.5-Omni, yapay zeka asistanları ve çok modalı uygulamalar için önemli bir gelişme olarak değerlendiriliyor.

Alibaba'nın araştırma departmanı tarafından geliştirilen Qwen3.5-Omni, yapay zeka dünyasında çok modalı modellerin yeni zirvesini temsil ediyor. Bu gelişmiş sistem, önceki versiyonlarından çok daha kapsamlı yeteneklere sahip olarak karşımıza çıkıyor.

Modelin en dikkat çekici özelliği, farklı veri türlerini aynı anda işleyebilme kabiliyeti. Metin-görsel çiftlerden oluşan devasa bir veri kümesi ve 100 milyondan fazla saatlik görsel-işitsel içerikle eğitilen sistem, gerçek anlamda 'çok modalı' bir yapay zeka deneyimi sunuyor.

Qwen3.5-Omni-plus versiyonu, 215 farklı ses ve görsel-işitsel test kategorisinde sektör lideri sonuçlar elde etti. Özellikle ses işleme görevlerinde Google'ın Gemini-3.1 Pro modelini geçerken, kapsamlı görsel-işitsel anlama testlerinde de benzer performans sergiledi.

Sistemin teknik mimarisi de oldukça yenilikçi. Hibrit Dikkat Uzmanlar Karışımı (MoE) çerçevesi kullanan model, hem 'Düşünen' hem de 'Konuşan' bileşenleri için optimize edilmiş. Bu sayede 256 bin token'lık bağlam uzunluğu ile 10 saate kadar ses kaydını anlayabilir ve 400 saniyeye kadar kesintisiz işlem yapabilir.

Bu gelişme, yapay zeka asistanları, çok modalı arama sistemleri ve interaktif uygulamalar için yeni olanaklar açıyor.

Etiketler

#yapay zeka #çok modalı model #ses işleme #görüntü analizi #Alibaba

Özgün Kaynak

Qwen3.5-Omni Technical Report

https://arxiv.org/abs/2604.15804

Bu içerik, özgün kaynaktan referans alınarak yeniden yorumlanmış Türkçe bir özettir. Telif hakkı özgün yayın organına aittir.

Her sabah seçki, Telegram'da

Günün en önemli bilim haberleri kanalda.

Kanala Katıl

İlgili Haberler

Aynı kategoride okumaya değer

Hepsini gör →

Teknoloji & Yapay Zeka

12 sa önce

Fiziksel yapay zeka robotlarının en büyük sorunu: Yazılım darboğazı

QNX tarafından yapılan yeni araştırma, fiziksel yapay zeka sistemlerinin gelişiminde en büyük engelin artık donanım değil, yazılım olduğunu ortaya koyuyor. Robotlar daha karmaşık ve öngörülemeyen ortamlarda çalışmaya başladıkça, yazılım mimarisi ve güvenlik protokolleri kritik önem kazanıyor. Araştırma, endüstri uzmanlarının robot teknolojisinin ilerlemesinde karşılaştıkları temel zorlukları ve gelecekteki öncelikleri analiz ediyor. Bu bulgular, yapay zeka destekli robotların yaygınlaşması için yazılım altyapısının yeniden düşünülmesi gerektiğini işaret ediyor.

The Robot Report Oku

Teknoloji & Yapay Zeka

12 sa önce

Çocukların Savaş ve Barış Deneyimini Küçümseyen 'Yetişkin Bakışı' Sorgulanıyor

Dr. Patricia Nabuco Martuscelli ve araştırma ekibinin yeni çalışması, toplumun çocuklara yaklaşımındaki temel bir sorunu gün yüzüne çıkarıyor. 'Yetişkin Bakışı' olarak adlandırılan bu yaklaşım, çocukları sadece geleceğin liderleri olarak görürken, onların savaş ve barış konularındaki mevcut uzmanlıklarını görmezden geliyor. Araştırma, çocukların bu kritik konulardaki deneyim ve görüşlerinin sistematik olarak dikkate alınmadığını ortaya koyuyor. Bu durum, barış süreçlerinde ve çatışma çözümlerinde değerli perspektiflerin kaybedilmesine yol açıyor.

Phys.org — Sosyal Bilimler Oku

Teknoloji & Yapay Zeka

12 sa önce

45 Yaş Üstü İş Arayanlara Karşı Yapay Zeka Önyargısı

Dünya nüfusu yaşlanırken, yapay zeka destekli işe alım sistemleri yaş ayrımcılığını körükleyebilir. Dünya Sağlık Örgütü verilerine göre, 60 yaş üstü nüfus 2015-2050 arasında dünya genelinde %12'den %22'ye çıkacak. İnsanlar daha uzun ve sağlıklı yaşıyor, ancak iş dünyası bu demografik değişime ayak uyduramıyor. 45 yaş üstü bireylerin iş arama sürecinde karşılaştığı zorluklar, modern teknolojinin insan kaynakları alanındaki kullanımıyla birlikte yeni boyutlar kazanıyor. Bu durum, deneyimli çalışanların potansiyelinden yararlanma konusunda ciddi fırsatların kaçırılmasına neden oluyor.

Phys.org — Sosyal Bilimler Oku