“çok modlu sistem” için sonuçlar

Teknoloji & Yapay Zeka

1 May

MiniCPM-o 4.5: İnsan Gibi Eş Zamanlı Görüp Konuşabilen Yapay Zeka

Araştırmacılar, geleneksel yapay zeka modellerinin sınırlarını aşan yeni bir sistem geliştirdi. MiniCPM-o 4.5 adlı bu model, insanlar gibi aynı anda görebilir, duyabilir ve konuşabilir. Mevcut yapay zeka sistemleri genellikle önce kullanıcıyı dinler, sonra cevap verir - tıpkı sırayla konuşmak gibi. Ancak gerçek insan etkileşimi böyle değildir. Bu yeni sistem, konuşma sırasında bile yeni bilgileri işleyebilir ve tepkisini buna göre ayarlayabilir. Daha da önemlisi, sadece sorulara cevap vermekle kalmayıp, duruma göre kendiliğinden hatırlatmalar yapabilir ve proaktif davranışlar sergileyebilir. Bu gelişme, yapay zekanın insan-bilgisayar etkileşiminde yeni bir dönüm noktası olabilir ve gerçek zamanlı çok modlu iletişimde önemli bir adım teşkil eder.

arXiv — Hesaplamalı Dilbilim (cs.CL) 0

Teknoloji & Yapay Zeka

1 May

Yapay Zeka Sistemleri Artık Kanıtları Daha Akıllıca Değerlendirebilecek

Çok modlu büyük dil modelleri, bilgi üretirken bazen gerçek dışı bilgiler sunabiliyor veya güncel olmayan verilerle çalışabiliyor. Bu sorunları çözmek için geliştirilen RAG sistemleri, dış kaynaklardan bilgi alarak modellerin performansını artırıyor. Ancak mevcut sistemler, aldıkları verilerin gerçekten yanıtın özünü destekleyip desteklemediğini yeterince iyi ayırt edemiyor. Araştırmacılar, bu problemi çözmek için MEG adlı yeni bir ölçüt geliştirdi. Bu sistem, sadece yüzeysel benzerlik yerine, anlamsal açıdan önemli bilgi parçalarına odaklanarak kanıtların kalitesini değerlendiriyor. MEG-RAG çerçevesi sayesinde, yapay zeka sistemleri artık aldıkları bilgileri daha doğru şekilde sıralayıp değerlendirebilecek.

arXiv — Hesaplamalı Dilbilim (cs.CL) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay zeka modelleri farklı görsel stillere nasıl uyum sağlıyor?

Bilgisayarlı görü sistemlerinin en büyük zorluklarından biri, eğitildikleri ortamdan farklı görsel stillere sahip alanlarda başarısız olmalarıdır. Araştırmacılar bu soruna çözüm olarak CrossFlowDG adlı yeni bir yaklaşım geliştirdi. Bu yöntem, görsel ve metinsel verileri birleştirerek yapay zekanın farklı alanlarda daha kararlı performans göstermesini sağlıyor. Geleneksel yöntemlerin aksine, CrossFlowDG görsel ve metin verilerini geometrik olarak birbirine yaklaştıran akış eşleştirme tekniği kullanıyor. Bu sayede model, görsel stillerdeki değişikliklerden etkilenmeden nesne sınıflandırmasında başarılı oluyor. VMamba görüntü kodlayıcısı ve CLIP metin kodlayıcısı kullanan sistem, alana özgü önyargıları azaltarak daha güvenilir sonuçlar üretiyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

ReTrack: Video aramada çok modalı sorgulamayı geliştiren yeni yapay zeka sistemi

Araştırmacılar, video arama teknolojisinde yeni bir dönem başlatacak ReTrack adlı yapay zeka sistemini geliştirdi. Bu sistem, kullanıcıların bir referans video ve metin açıklaması birleştirerek aradıkları videoyu bulmasını sağlıyor. Geleneksel video arama yöntemlerinin aksine, ReTrack hem görsel hem de metinsel bilgileri etkili bir şekilde harmanlayarak daha isabetli sonuçlar üretiyor. Sistemin en önemli yeniliği, video ve metin verilerinin farklı yoğunluktaki bilgilerini dengeleyebilmesi. Bu teknoloji, sosyal medya platformlarından eğitim içeriklerine kadar geniş bir yelpazede video aramasını devrimsel bir şekilde değiştirebilir.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Endüstriyel Hataları Açıklanabilir Şekilde Tespit Ediyor

Araştırmacılar, endüstriyel üretimde ortaya çıkan anomalileri tespit eden yeni bir yapay zeka sistemi geliştirdi. ZSG-IAD adlı bu çok modlu framework, RGB görüntüler, sensör verileri ve 3D nokta bulutlarını analiz ederek sadece hataları bulmakla kalmıyor, aynı zamanda bu kararlarını fiziksel olarak anlamlı kanıtlarla açıklayabiliyor. Sistem, dil tabanlı iki aşamalı bir yaklaşım kullanarak önce anomali ile ilgili alanları genel olarak belirliyor, sonra bu bölgelerde detaylı piksel düzeyinde maskeler oluşturuyor. En önemli özelliği ise 'sıfır örnekle öğrenme' yeteneği - yani daha önce görmediği hata türlerini bile tanıyabiliyor. Bu gelişme, endüstriyel kalite kontrolünde devrim yaratma potansiyeli taşıyor çünkü hem güvenilir hem de kararlarını açıklayabilen bir sistem sunuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Duygusal Analiz Sistemlerini Güçlendiren Yeni Yaklaşım

Araştırmacılar, yapay zekanın insan duygularını analiz etme becerisini önemli ölçüde geliştiren yeni bir yöntem geliştirdi. Ses, görüntü ve metin verilerini birlikte kullanan çok modlu sistemlerin en büyük sorunu, değişken koşullarda tutarsız sonuçlar vermesiydi. Yeni geliştirilen nedensel çıkarım temelli yaklaşım, her veri türünden istikrarlı ve güvenilir bilgileri ayırt ederek, sistemlerin farklı ortamlarda daha tutarlı performans göstermesini sağlıyor. Bu gelişme, duygu tanıma teknolojilerinin günlük yaşamda daha güvenilir şekilde kullanılmasına olanak tanıyacak.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

PLUME: Çok Modlu Yapay Zeka için Yeni Gizli Akıl Yürütme Yaklaşımı

Araştırmacılar, farklı türdeki verileri (metin, görüntü, ses) tek bir modelle işleyebilen yapay zeka sistemleri için PLUME adlı yeni bir yaklaşım geliştirdi. Mevcut sistemler karmaşık sorguları anlamak için açık düşünce zinciri yöntemini kullanıyor, ancak bu yöntem hem yavaş hem de veri kaybına neden oluyor. PLUME, bu sorunu gizli akıl yürütme yapısıyla çözüyor ve aynı hesaplama gücüyle daha etkili sonuçlar elde ediyor. Bu gelişme, yapay zekanın farklı veri türlerini anlama ve işleme kapasitesini önemli ölçüde artırabilir.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

MARA: Belgelerden Soru-Cevap İçin Yeni Yapay Zeka Çerçevesi Geliştirildi

Araştırmacılar, görsel açıdan zengin belgelerdeki karmaşık bilgileri anlayıp sorulara cevap verebilen yeni bir yapay zeka sistemi geliştirdi. MARA adlı bu sistem, mevcut teknolojilerin aksine sorulara göre kendini uyarlayabiliyor ve hem metin hem de görsel öğeleri içeren belgelerden daha doğru bilgi çıkarabiliyor. Geleneksel sistemler sorulardan bağımsız sabit yaklaşımlar kullanırken, MARA her soru için en uygun stratejiye geçiş yaparak performansını artırıyor. Bu gelişme, dijital belge analizi, otomatik raporlama ve bilgi erişimi alanlarında önemli ilerlemeler sağlayabilir.

arXiv (Dilbilim & NLP) 0

Teknoloji & Yapay Zeka

21 Apr

Ses-metin arama sistemlerinde yeni dönem: Omni-Embed-Audio teknolojisi

Araştırmacılar, ses dosyaları ve metin arasında arama yapabilen yeni nesil bir yapay zeka sistemi geliştirdi. Omni-Embed-Audio (OEA) adlı bu sistem, geleneksel yöntemlerin aksine gerçek kullanıcı davranışlarına uygun arama biçimlerini destekliyor. Sistem, soru sorma, komut verme, anahtar kelime etiketleme gibi doğal arama davranışlarını anlayabiliyor. Çok modlu büyük dil modellerini kullanan teknoloji, ses dosyalarını metin açıklamalarıyla eşleştirmede daha güvenilir sonuçlar veriyor. Araştırma, ses tabanlı arama sistemlerinin pratik kullanımda karşılaştığı zorlukları ele alarak, gerçek dünya uygulamaları için daha sağlam bir temel sunuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

DualToken: Görsel anlama ve üretimde çift sözlük sistemi ile çığır açan yaklaşım

Araştırmacılar, yapay zekanın görsel anlama ve görsel üretim yeteneklerini birleştiren yenilikçi bir sistem geliştirdi. DualToken adlı bu teknoloji, mevcut sistemlerin temel sorunununu çözüyor: görsel yeniden yapılandırma için eğitilmiş tokenizer'lar düşük seviyeli görsel detayları iyi yakalıyor ancak anlama görevlerinde yetersiz kalıyor. Karşıtlık öğrenme ile eğitilmiş vision encoder'lar ise dil ile iyi uyum sağlıyor ancak pixel düzeyinde görsel üretimde zorlanıyor. DualToken, her iki görevi de başarıyla yerine getirebilen ikili görsel sözlük sistemi sayesinde bu çelişkiyi çözüyor. Bu gelişme, çok modlu AI sistemlerinin hem görsel içeriği anlama hem de yeni görseller üretme konusunda daha etkili olmasının yolunu açıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

MUSEG: Videolarda Zamansal Anlayışı Güçlendiren Yeni Yapay Zeka Yaklaşımı

Araştırmacılar, büyük dil modellerinin videolardaki olayları daha iyi anlamasını sağlayan MUSEG adlı yeni bir yöntem geliştirdi. Mevcut yapay zeka sistemleri videolardaki zaman dilimlerini doğru şekilde yorumlamakta zorlanıyor ve bu da 'Bu sahne ne zaman gerçekleşti?' gibi sorulara yanlış yanıtlar vermelerine neden oluyor. MUSEG, pekiştirmeli öğrenme tekniklerini kullanarak bu sorunu çözmek için tasarlandı. Sistem, videoları birden fazla segmente bölerek ve her segmente zaman damgası ekleyerek, yapay zekanın zamansal mantık yürütme becerisini artırıyor. Bu yenilik, video analizi gerektiren uygulamalarda önemli gelişmeler sağlayabilir. Özellikle güvenlik kameraları, tıbbi görüntüleme ve eğitim içeriklerinde videodaki kritik anları doğru tespit etme konusunda daha başarılı sonuçlar elde edilebilir. Araştırma, çok modlu yapay zeka sistemlerinin gelişiminde önemli bir adım olarak değerlendiriliyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Asistanları Artık Kuralları Hafızasında Saklayabilecek

ChatGPT ve Alexa gibi konuşan yapay zeka sistemleri, şu anda karmaşık politika kurallarını her seferinde bellekte tutmak zorunda kalıyor. Bu durum hem hesaplama maliyetini artırıyor hem de kuralları takip etmeyi zorlaştırıyor. Araştırmacılar, Çok Modlu Politika İçselleştirme adını verdikleri yeni bir yaklaşım geliştirdi. Bu teknoloji, görsel ve metin tabanlı kuralları doğrudan yapay zeka modelinin parametrelerine gömüyor. Böylece sistem, her işlem sırasında kuralları yeniden yüklemek yerine bunları kalıcı hafızasında saklayabiliyor. Özellikle görsel içeriklerle çalışan çok modlu asistanlar için kritik olan bu gelişme, hem performansı artırıyor hem de maliyetleri düşürüyor. Mevcut araştırmalar genellikle metin tabanlı güvenlik kurallarına odaklanırken, bu çalışma görsel davranış kurallarının da içselleştirilebileceğini gösteriyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Omni-R1: Çok Modlu Mantık Yürütmede Yeni Dönem

Araştırmacılar, görsel ve metinsel bilgileri bir arada işleyebilen yapay zeka sistemlerinde önemli bir adım attı. Omni-R1 adı verilen yeni sistem, mantık yürütme sürecinde ara görüntüler üretebilen birleşik bir yaklaşım sunuyor. Geleneksel çok modlu dil modellerinin aksine, bu sistem farklı görevler için özel kalıplar yerine evrensel bir yaklaşım benimsiyor. Sistem, görüntülerin belirli bölgelerine odaklanma veya nesneleri işaretleme gibi çeşitli yetenekleri tek bir çerçevede birleştiriyor. İki aşamalı bir eğitim süreci ve algısal hizalama teknikleri kullanan model, işlevsel görüntü üretimi konusunda yeni standartlar oluşturuyor. Bu gelişme, yapay zekanın görsel ve metinsel verileri anlama kapasitesini artırarak, eğitimden sağlık sektörüne kadar pek çok alanda uygulanabilir çözümler sunma potansiyeline sahip.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Nefret Söyleminin Gizli Anlamlarını Çözmeye Çalışıyor

Sosyal medyada nefret söylemi artık sadece metin değil, görsel ve yazılı içeriğin birleştiği karmaşık formlarda ortaya çıkıyor. Araştırmacılar, bu gizli saldırıları tespit edebilmek için yeni bir yaklaşım geliştirdi. Çalışma, zararsız görünen görsel ve metin parçalarının bir araya geldiğinde nasıl nefret söylemi oluşturabileceğini inceliyor. H-VLI adı verilen yeni veri seti, bu tür örtük saldırıları analiz etmek için tasarlandı. Geleneksel sistemler bu karmaşık içerikleri tespit etmekte zorlanıyor çünkü anlamın bütün parçaların toplamından daha fazlası olduğu durumları anlayamıyorlar. Bu gelişme, siber güvenlik ve sosyal medya moderasyonu açısından büyük önem taşıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Sosyal Medyadaki Dezenformasyonla Mücadelede Çok Modlu Yapay Zeka

Araştırmacılar, sosyal medyadaki dezenformasyonla mücadele için yeni bir yaklaşım geliştirdi. Günümüzde yanlış bilgiler sadece metinle değil, görsel ve metin kombinasyonuyla yayılıyor. Meme'ler, ekran görüntüleri ve fotoğrafların eşlik ettiği paylaşımlar, geleneksel doğruluk kontrolü yöntemlerini yetersiz kılıyor. Yeni çalışma, çok modlu büyük dil modellerinin sosyal medya içeriklerinden iddia çıkarma konusundaki performansını değerlendiriyor ve mevcut sistemlerin retorik niyet ile bağlamsal ipuçlarını anlama konusunda zorlandığını ortaya koyuyor. Bu sorunlara çözüm olarak geliştirilen MICE framework'ü, niyet-farkındalığı olan bir yaklaşım sunarak doğruluk kontrolü süreçlerini iyileştirmeyi hedefliyor.

arXiv (Dilbilim & NLP) 0

Teknoloji & Yapay Zeka

20 Apr

Yazılım Arama Motorları Artık Görselleri de Anlayabiliyor

Yazılım geliştirme dünyasında kod arama işlemi genellikle sadece metin tabanlı olarak gerçekleştirilir. Ancak modern programlama projeleri web arayüzleri, veri görselleştirmeleri ve diyagramlar gibi görsel öğeler de içerir. Araştırmacılar, bu sorunu çözmek için CodeMMR adlı yeni bir sistem geliştirdi. Bu teknoloji, doğal dil, kod ve görselleri ortak bir anlam alanında birleştirerek çok modlu kod arama yapabiliyor. MMCoIR benchmark'ı ile test edilen sistem, beş farklı görsel alan, sekiz programlama dili ve on bir kütüphane üzerinde değerlendirildi. Bu gelişme, yazılım mühendisliğinde kod keşfi ve yeniden kullanımını kolaylaştırırken, yapay zeka destekli kodlama araçlarının güvenilirliğini de artırıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Ses ve Metin Verilerini Birleştiren Yeni Yapay Zeka Modeli: HILBERT

Araştırmacılar, ses ve metin verilerini etkili şekilde birleştirerek analiz edebilen HILBERT adlı yeni bir yapay zeka sistemi geliştirdi. Bu sistem, özellikle uzun belgelerdeki ses kayıtları ile metinler arasında bağlantı kurabiliyor ve her iki veri türünün kendine özgü özelliklerini koruyarak ortak bir anlayış oluşturuyor. HILBERT, sınırlı veri kaynaklarının bulunduğu ortamlarda bile başarılı sonuçlar verebilecek şekilde tasarlandı. Sistem, önceden eğitilmiş dil ve konuşma modellerini kullanarak parça parça analiz yaptıktan sonra, bu parçaları birleştirerek bütünsel bir anlam çıkarıyor. Bu yaklaşım, ses ve metin arasındaki boyutsal dengesizlik sorununu çözerek, gelecekte çok modlu yapay zeka uygulamalarında önemli ilerlemeler sağlayabilir.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

18 Apr

Yapay zeka ajanları artık kişiliğe göre davranacak: Yeni test sistemi geliştirildi

Araştırmacılar, yapay zeka destekli ajanların kullanıcı kişiliğine uyum sağlayabilme becerisini test eden yeni bir değerlendirme sistemi geliştirdi. MM-tau-p² adlı bu sistem, özellikle müşteri deneyimi yönetiminde kullanılan çok modlu yapay zeka ajanlarının performansını ölçüyor. Mevcut test sistemleri sadece metin tabanlı sohbetlere odaklanırken, yeni sistem hem görsel hem işitsel girdileri değerlendiriyor. Sistem, kullanıcının kişilik özelliklerini tanıyan ve buna göre davranış sergileyen ajanların ne kadar başarılı olduğunu ölçüyor. GPT-4 ve GPT-5 gibi en gelişmiş dil modellerinin bile bu konuda eksiklikleri olduğu tespit edildi.

arXiv (CS + AI) 0