“multimodal” için sonuçlar

Teknoloji & Yapay Zeka

1 May

Yapay Zeka Ajanlarında Kişilik Rollerinin Şehir Algısına Etkisi Araştırıldı

Büyük dil modelleri (LLM'ler) şehir analizlerinde insan algısının yerine kullanılmaya başlandı. Araştırmacılar, farklı kişilik rolleri verilen yapay zeka ajanlarının şehir manzaralarını değerlendirirken gerçekten farklı davranışlar sergileyip sergilemediğini inceledi. Cinsiyet, ekonomik durum, siyasi görüş ve kişilik özellikleri gibi faktörlerin yer aldığı roller oluşturuldu. Sonuçlar, aynı role sahip ajanların tutarlı davrandığını ancak farklı roller arasındaki değişikliklerin sınırlı olduğunu gösterdi. Bu bulgular, yapay zeka ajanlarının insan çeşitliliğini temsil etme konusundaki mevcut sınırlarını ortaya koyuyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) 0

Teknoloji & Yapay Zeka

30 Apr

Robotlar İçin Dokunma ve Görme Duyularını Birleştiren Yeni Yapay Zeka Modeli

Araştırmacılar, robotların dokunma ve görme duyularını birleştirerek çevreyi daha iyi algılayabilmesi için ViTaPEs adlı yeni bir yapay zeka modeli geliştirdi. Bu model, transformer mimarisini kullanarak görsel ve dokunsal verileri aynı anda işleyebiliyor. Robotik alanında önemli bir gelişme olan bu sistem, malzeme dokusunu, sertliğini ve kuvvet bilgilerini görsel verilerle harmanlayarak daha kapsamlı çevresel algı sağlıyor. Model, iki aşamalı konumsal kodlama sistemi kullanarak her modaliteye özel yerel kodlamalar ve ortak global kodlamalar uyguluyor. Bu yaklaşım, robotların farklı görevlerde ve ortamlarda daha başarılı performans göstermesini sağlayabilir.

arXiv (Robotik) 0

Teknoloji & Yapay Zeka

22 Apr

Yapay Zeka Modelleri İçin Beyin Benzeri Enerji Tasarrufu Çözümü: SpikeMLLM

Araştırmacılar, görsel ve metinsel verileri işleyebilen büyük dil modellerinin enerji tüketimini drastik olarak azaltan yeni bir sistem geliştirdi. SpikeMLLM adlı bu yaklaşım, insan beyninin çalışma prensiplerine benzer şekilde, sadece gerekli olduğunda hesaplama yapan spike sinir ağlarını kullanıyor. Geleneksel yapay zeka modelleri sürekli hesaplama yaparken, bu yeni sistem olay tabanlı bir yaklaşımla çalışarak önemli enerji tasarrufu sağlıyor. Sistem, farklı veri türleri için özel zaman ölçekleri kullanarak ve görüntü işleme süreçlerini sıkıştırarak performansını artırıyor. Bu gelişme, mobil cihazlar ve sınırlı kaynaklı ortamlar için yapay zeka uygulamalarının yaygınlaşmasını kolaylaştırabilir.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

22 Apr

Sesli Komutlarla Video Analizi: Yapay Zeka Yarışmasında Birinci Olan Sistem

Araştırmacılar, konuşma dilindeki komutları anlayarak videolardaki nesneleri tespit edip ayırabilen yenilikçi bir yapay zeka sistemi geliştirdi. APRVOS adlı bu sistem, PVUW MeViS-Audio yarışmasında birinci oldu. Geleneksel metin tabanlı sistemlerden farklı olarak, sesli komutları anlayıp videolardaki hedef nesneleri hassas şekilde segmentlere ayırabiliyor. Sistem, önce konuşmayı metne dönüştürüyor, ardından tarif edilen nesnenin videoda gerçekten var olup olmadığını kontrol ediyor. Bu yaklaşım, ses teknolojileri ve bilgisayarlı görü arasında köprü kurarak multimodal yapay zeka uygulamalarında önemli bir adım temsil ediyor.

arXiv (CS + AI) 0

Tıp & Sağlık

21 Apr

Yapay Zeka Doktorları Hastane Koşullarında Test Edildi: Sonuçlar Şaşırtıcı

Güney Afrika'da gerçekleştirilen kapsamlı bir araştırma, 10 farklı yapay zeka modelinin hastane ortamında gerçek hasta verileriyle tanı koyma yeteneklerini değerlendirdi. Çalışmada 539 hasta vakası kullanılarak yapay zekaların radyoloji görüntüleri, laboratuvar sonuçları ve klinik notları analiz etme başarısı ölçüldü. Araştırma, özellikle gelişmekte olan ülkelerdeki devlet hastaneleri için yapay zeka destekli tanı sistemlerinin potansiyelini ortaya koyuyor. Uzman doktor panelleri tarafından doğrulanmış vakalar üzerinde yapılan testlerde, yapay zeka modellerinin tanı doğruluğu, hasta güvenliği ve maliyet etkinliği açısından performansları detaylı şekilde analiz edildi.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Görsel Modelleri Metin Tabelalarına Kandırılabiliyor

Görsel-dil modellerinin (VLM) kritik bir zayıflığı keşfedildi: ekran üzerindeki metinler görsel içerikle çeliştiğinde, bu modeller gerçek görüntüyü görmezden gelip metne öncelik veriyor. Araştırmacılar bu durumu 'Metin Bindirme Kaynaklı Halüsinasyon' olarak tanımladı. 6.057 örnekten oluşan VisualTextTrap adlı kapsamlı test veri seti geliştirilerek, yapay zekanın bu sistematik hatası ölçüldü. Bulgular, günümüz yapay zeka sistemlerinin görsel anlama konusundaki sınırlarını ortaya koyuyor ve gelecek geliştirmeler için kritik bir yol haritası sunuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Artık Kültürel Farkları Anlayarak Mizah Yapabiliyor

Araştırmacılar, yapay zekanın görsel içeriklere farklı kültürlerden mizahi yaklaşımlarla altyazı oluşturabilmesini sağlayan yeni bir sistem geliştirdi. Bu teknoloji, bir görüntüyü analiz ederken belirli bir kültürel bağlamı da göz önünde bulundurarak, o kültüre uygun mizahi altyazılar üretebiliyor. Sistemin başarısını ölçmek için araştırmacılar altı farklı değerlendirme kriteri belirledi: görsel uyum, kültürel uygunluk, anlam zenginliği, mantıklılık, mizah kalitesi ve yaratıcılık. Bu gelişme, yapay zekanın insan kültürünün karmaşık yapısını anlama konusundaki ilerlemesini gösteriyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay zeka artık insan gibi araştırma raporu yazabiliyor

Araştırmacılar, büyük dil modellerinin kapsamlı araştırma raporları yazabilmesi için CogGen adlı yeni bir sistem geliştirdi. Bu sistem, insan zihninin araştırma ve yazma süreçlerinden ilham alarak çalışıyor. Geleneksel yapay zeka sistemleri, önceden belirlenmiş doğrusal adımları takip ederek hata birikimine ve kalite düşüklüğüne yol açarken, CogGen esnek planlama ve küresel yeniden yapılandırma yeteneğine sahip. Sistem, metinle birlikte görsel içerikleri de entegre edebiliyor ve Abstract Visual Representation teknolojisiyle görsel-metin düzenlemelerini sürekli iyileştiriyor. Bu gelişme, bilimsel araştırma raporlarından iş analizlerine kadar geniş bir alanda kaliteli içerik üretimini otomatikleştirme potansiyeli taşıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modellerinin Güven Sorunu: İç Ses ile Dış Ses Uyumsuzluğu

Çok modlu büyük dil modelleri (MLLM'ler) görsel ve metinsel verileri işleyerek karmaşık görevleri başarıyla yerine getirebiliyor. Ancak araştırmacılar bu modellerde kritik bir sorun keşfetti: modellerin kendi verdikleri yanıtlara olan güven seviyeleri tutarsızlık gösteriyor. Yapay zekanın 'içgüdüsel' token düzeyindeki güveni ile sözlü olarak ifade ettiği güven arasında önemli farklılıklar bulunuyor. Bu durum, AI sistemlerinin güvenilirliğini değerlendirmede zorluklara yol açıyor. Yeni araştırma, bu uyumsuzluğu gidermek için çift kanallı sinyal birleştirme yaklaşımı öneriyor ve modellerin güven tahminlerinin doğruluğunu artırmayı hedefliyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay zeka artık metindeki varlıkları görselde de bulabiliyor

Araştırmacılar, metinlerdeki özel isimleri tanımlayıp bunları ilgili görsellerde konumlandırabilen yeni bir yapay zeka sistemi geliştirdi. E2E-GMNER adlı bu sistem, bir metinde geçen kişi, yer veya kuruluş isimlerini sadece tanımlamakla kalmıyor, aynı zamanda bu varlıkları eşlik eden görsellerde de işaretleyebiliyor. Geleneksel yöntemler bu işlemleri ayrı aşamalarda gerçekleştirirken, yeni sistem tüm süreci tek seferde tamamlıyor. Bu yaklaşım, hata birikimini önleyerek daha doğru sonuçlar üretiyor. Sistem, zincirleme düşünce yöntemiyle çalışarak ne zaman görsel kanıtlara, ne zaman arka plan bilgisine güveneceğini akıllıca belirliyor. Bu gelişme, içerik analizi, sosyal medya izleme ve otomatik etiketleme gibi alanlarda önemli uygulamalara sahip.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Uzun Videoları Nasıl Anlayacak? Q-Gate ile Akıllı Kare Seçimi

Uzun videoları anlama konusunda yapay zeka modellerinin karşılaştığı en büyük sorun, binlerce kareyi işlemenin getirdiği hesaplama maliyeti. Araştırmacılar bu sorunu çözmek için Q-Gate adında yeni bir sistem geliştirdi. Mevcut yöntemler genellikle tek bir görsel metrik kullanarak önemli kareleri seçerken, Q-Gate sorulan sorunun türüne göre farklı yaklaşımlar benimsiyor. Sistem, görsel detaylar için Visual Grounding, sahne anlamları için Global Matching ve altyazı odaklı anlatımlar için Contextual Alignment olmak üzere üç farklı uzman akış kullanıyor. Bu dinamik yaklaşım sayesinde, görsel sorular için sadece görsel verilere odaklanırken, hikaye odaklı sorular için metin bilgilerini de devreye alabiliyor. Ek eğitim gerektirmeyen bu sistem, mevcut video anlama modellerine kolayca entegre edilebiliyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay zeka görsel algısında yeni dönem: Difüzyon ve durum uzayı modellerinin birleşimi

Araştırmacılar, görsel sahnelerdeki önemli nesneleri tespit eden yapay zeka sistemlerini geliştirmek için yenilikçi bir yaklaşım ortaya koydu. DGSSM adlı yeni framework, difüzyon modellerinin güçlü yapısal öğrenme kabiliyetini durum uzayı modellerinin hızlı işlem gücüyle birleştiriyor. Bu hibrit sistem, görüntülerdeki nesnelerin sınırlarını daha hassas şekilde belirleyebiliyor ve çoklu veri türlerini (multimodal) etkili bir şekilde işleyebiliyor. Geleneksel yapay zeka modelleri ya hızlı ama sınır tespitinde yetersiz kalıyor ya da çok hassas ama yavaş çalışıyordu. Bu yeni yaklaşım, her iki avantajı da bir araya getirerek bilgisayarlı görü alanında önemli bir ilerleme sağlıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modelleri DASH ile 10 Kat Daha Hızlı Çalışabilir

Büyük dil modelleri ve multimodal yapay zeka sistemleri, uzun metinleri işlerken ciddi hız sorunları yaşıyor. Stanford araştırmacıları, bu soruna yenilikçi bir çözüm geliştirdi: Delta Attention Selective Halting (DASH). Bu yöntem, tokenların belirli bir noktadan sonra 'anlamsal sabitlenme noktalarına' ulaştığını gözlemleyerek gereksiz işlemleri durduruyor. DASH, herhangi bir ek eğitim gerektirmeden modellerin hızını önemli ölçüde artırırken doğruluklarını koruyor. FlashAttention gibi donanım optimizasyonlarıyla uyumlu çalışan bu teknoloji, hem dil hem de görsel görevlerde başarılı sonuçlar veriyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Görme Sistemlerinde Güvenlik Açıklarına Karşı Yeni Savunma Yöntemi

Büyük görme-dil modelleri (LVLM), multimodal saldırılara karşı savunmasız durumda. Mevcut koruma yöntemleri ya belirli saldırı türlerine odaklanıyor ya da çok fazla hesaplama gücü gerektiriyor. Araştırmacılar, bu modellerin kendi iç temsillerinden güvenlik sinyalleri çıkaran Temsili Karşıtsal Puanlama (RCS) adında yeni bir framework geliştirdi. Bu yaklaşım, güvenlik açısından kritik katmanlarda zararlı ve zararsız girişleri ayırmak için hafif bir projeksiyon öğreniyor. Böylece hem yeni tehditlere karşı genelleme yapabiliyor hem de pratik kullanım için verimli çalışıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay zeka modelleri günlük dijital görevlerde ne kadar başarılı? PlanViz testi

Araştırmacılar, yapay zeka modellerinin günlük bilgisayar kullanım görevlerindeki performansını değerlendirmek için PlanViz adlı yeni bir test sistemi geliştirdi. Rota planlama, iş diyagramları oluşturma ve web arayüzü tasarlama gibi üç temel alanda yapay zekanın görsel içerik üretme ve düzenleme yeteneklerini ölçen bu sistem, mevcut modellerin gerçek yaşam senaryolarındaki başarısını objektif kriterlerle değerlendiriyor. Test, yapay zekanın mekansal akıl yürütme ve prosedürel anlama becerilerini günlük dijital görevler bağlamında inceliyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay zeka görüntü arama sistemlerinde gürültü sorununa yeni çözüm

Araştırmacılar, hem görüntü hem de metin kullanarak arama yapabilen yapay zeka sistemlerindeki önemli bir sorunu çözmek için yeni bir yöntem geliştirdi. Bileşik Görüntü Arama (CIR) sistemleri, kullanıcıların bir referans görüntü ve açıklayıcı metin kombinasyonu ile hedef görüntüleri bulmalarına olanak tanıyor. Ancak bu sistemlerde etiketleme hatalarından kaynaklanan 'gürültü' problemi, arama doğruluğunu ciddi şekilde etkiliyor. Yeni geliştirilen INTENT yöntemi, gürültüyü iki kategoriye ayırarak ele alıyor: modaliteler arası uyumsuzluk gürültüsü ve modalite-içi gürültü. Bu yaklaşım, hem farklı veri türleri arasındaki hatalı eşleştirmeleri hem de görüntü içindeki gereksiz görsel faktörleri filtreleyerek sistem performansını artırıyor. Çalışma, gelecekte daha güvenilir multimodal arama sistemlerinin geliştirilmesine katkı sağlayacak.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Hakemlerinin Önyargı Sorunu: Yeni Test Sistemi Geliştirildi

Görsel ve metin analizini birleştiren büyük dil modelleri artık yapay zeka hakem olarak kullanılıyor. Ancak araştırmacılar, bu sistemlerin ciddi önyargı problemleri yaşadığını keşfetti. Modeller, görsel veya metinsel ipuçlarını doğru şekilde birleştirememekte, eksik bilgi durumlarında güvenilmez değerlendirmeler yapabilmekte. Stanford ve diğer üniversitelerden araştırmacılar, bu sorunu sistematik olarak ölçmek için MM-JudgeBias adlı yeni bir test sistemi geliştirdi. Bu sistem, yapay zeka hakemlerinin ne kadar önyargılı olduğunu ölçen iki önemli metrik sunuyor ve 29 farklı kaynaktan toplanan 1800'den fazla örnek içeriyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Multimodal AI modelleri temel matematikte neden başarısız oluyor?

Stanford araştırmacıları, gelişmiş çok modallı yapay zeka modellerinin görsel, işitsel ve metin tabanlı matematik problemlerinde beklenmedik zorluklarla karşılaştığını ortaya çıkardı. GPT-4V, Claude-3 ve Gemini gibi modeller, sayıları farklı formatlarda algılayabilmesine rağmen çok basamaklı çarpma işlemlerinde ciddi hatalar yapıyor. Araştırma, aynı matematik probleminin rakam, kelime, görsel veya ses formatında sunulmasına göre model performansının dramatik şekilde değiştiğini gösteriyor. Bu bulgular, AI modellerinin gerçek aritmetik yeteneklerinin sanıldığından çok daha sınırlı olduğunu ve farklı modaliteler arasında tutarsız davranış sergilediklerini işaret ediyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay zeka artık eksik ses verisiyle bile duyguları okuyabiliyor

Araştırmacılar, ses, görsel ve metin verilerini birlikte kullanarak duygu analizi yapan yapay zeka sistemlerinin önemli bir sorununu çözdü. Mevcut sistemler genellikle tüm veri türlerinin eksiksiz olmasına ihtiyaç duyuyor, ancak gerçek hayatta ses kaydı olmayabilir veya bozulmuş olabilir. Yeni geliştirilen sistem, eksik ses verilerini diğer modalitelerden öğrendiği bilgilerle yeniden oluşturabiliyor. Çapraz modalite dikkat mekanizması sayesinde, hem gözlemlenen hem de yeniden yapılandırılan verilerden maksimum bilgiyi çıkararak duygu tespiti yapıyor. Üç farklı veri seti üzerinde yapılan testler, bu yöntemin mevcut yaklaşımlardan önemli ölçüde daha başarılı olduğunu ve tüm veri türlerinin mevcut olduğu durumlarla karşılaştırılabilir sonuçlar verdiğini gösteriyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Farklı Veri Türlerini Nasıl Senkronize Ediyor?

Araştırmacılar, yapay zeka sistemlerinin video, metin ve ses gibi farklı veri türlerini nasıl eşzamanlı işlediğini anlamak için yenilikçi bir çalışma gerçekleştirdi. Video-metin-konuşma sentezi adlı kontrollü bir görev kullanarak, birleşik transformer modellerinin heterojen örnekleme hızlarına sahip modaliteleri nasıl senkronize ettiğini incelediler. VoxCeleb2 veri setiyle eğitilen Visatronic adlı model üzerinde yapılan deneyler, modalitelerin nasıl tamamlayıcı bilgi sağladığını ve pozisyonel kodlama stratejilerinin senkronizasyonu nasıl mümkün kıldığını ortaya çıkardı. Çalışma, çok modalı AI sistemlerinin çalışma mekanizmalarını anlamamızı derinleştiriyor ve gelecekteki gelişmeler için önemli ipuçları sunuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Görsel Sıkıştırma: Basit Yöntemler Gelişmiş Tekniklerden Daha İyi

Çok modlu büyük dil modellerinde görsel token sıkıştırma yöntemlerini değerlendiren yeni bir araştırma, şaşırtıcı bir sonuç ortaya koydu. Sekiz popüler benchmark üzerinde yapılan kapsamlı çalışmada, basit görüntü boyut küçültme işleminin birçok gelişmiş sıkıştırma tekniğinden daha iyi performans gösterdiği keşfedildi. Araştırmacılar, mevcut değerlendirme kriterlerinin görsel token sıkıştırma için uygun olmadığını ve önemli miktarda gürültü içerdiğini tespit etti. Bu bulgular, yapay zeka alanında kullanılan benchmark sistemlerinin yeniden değerlendirilmesi gerektiğini gösteriyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modellerini Test Eden Yeni Kapsamlı Değerlendirme Sistemi Geliştirildi

Araştırmacılar, yapay zeka modellerinin görsel anlama ve üretme yeteneklerini birlikte değerlendiren Uni-MMMU adlı yeni bir test sistemi geliştirdi. Bu sistem, mevcut değerlendirme yöntemlerinin aksine, AI modellerinin bu iki yeteneği nasıl entegre ettiğini ölçüyor. Bilim, matematik, kodlama ve bulmaca gibi sekiz farklı alanda çift yönlü görevler içeren sistem, modellerin kavramsal anlayışı görsel sentezde nasıl kullandığını ve görsel üretimi analitik düşünce için nasıl araç olarak kullandığını test ediyor. Sistem, doğrulanabilir ara adımlar ve tekrarlanabilir değerlendirme protokolleri sunarak AI araştırmalarında daha güvenilir ölçümler sağlıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

ELLSA: İnsan Gibi Aynı Anda Dinleyen, Gören ve Konuşan Yapay Zeka Modeli

Araştırmacılar, insan etkileşiminin doğasını taklit eden devrim niteliğinde bir yapay zeka modeli geliştirdi. ELLSA adı verilen bu sistem, insanlar gibi aynı anda hem algılama hem de tepki verme yeteneğine sahip ilk model olma özelliği taşıyor. İnsanların nasıl dinlerken baktığını, konuşurken hareket ettiğini ve kesintilere doğal olarak adapte olduğunu gözlemleyen bilim insanları, bu davranışları tek bir mimaride birleştirmeyi başardı. Model, görsel, metinsel, sesli ve eylem verilerini eş zamanlı olarak işleyebilen yenilikçi SA-MoE mimarisi kullanıyor. Bu teknoloji, her modaliteyi uzmanlaşmış bileşenlere yönlendirip birleşik bir dikkat mekanizması aracılığıyla harmanlıyor. Geliştirme, daha doğal insan-makine etkileşimleri için önemli bir adım teşkil ederken, gelecekte robotik, sanal asistanlar ve etkileşimli AI sistemlerinde geniş uygulama alanları bulabilir.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

AI Asistanları Günlük Hayatta Güvenlik Riski Oluşturuyor: Yeni Test Süreci

Görsel ve metin tabanlı yapay zeka modelleri günlük hayatımızda vazgeçilmez asistanlar haline gelirken, ürettikleri güvenli olmayan içerikler insan davranışları için ciddi tehlike oluşturabiliyor. Araştırmacılar bu sorunu ele almak için SaLAD adında kapsamlı bir güvenlik testi geliştirdi. Bu test, 10 farklı kategoride 2.013 gerçek dünya görsel-metin örneği içeriyor ve hem güvenli olmayan senaryoları hem de aşırı hassasiyet durumlarını dengeli şekilde kapsıyor. Test sonuçları, 18 farklı AI modelinde yapılan değerlendirmeler sonucunda, en iyi performans gösteren modellerin bile güvenlik açısından önemli eksiklikleri olduğunu ortaya koyuyor. Bu çalışma, AI asistanlarının sadece genel ret cevapları vermek yerine açık ve bilgilendirici güvenlik uyarıları sağlamasını teşvik eden yeni bir değerlendirme yaklaşımı öneriyor.

arXiv (CS + AI) 0