“multimodal ai” için sonuçlar

Teknoloji & Yapay Zeka

1 May

Yapay Zeka Ajanlarında Kişilik Rollerinin Şehir Algısına Etkisi Araştırıldı

Büyük dil modelleri (LLM'ler) şehir analizlerinde insan algısının yerine kullanılmaya başlandı. Araştırmacılar, farklı kişilik rolleri verilen yapay zeka ajanlarının şehir manzaralarını değerlendirirken gerçekten farklı davranışlar sergileyip sergilemediğini inceledi. Cinsiyet, ekonomik durum, siyasi görüş ve kişilik özellikleri gibi faktörlerin yer aldığı roller oluşturuldu. Sonuçlar, aynı role sahip ajanların tutarlı davrandığını ancak farklı roller arasındaki değişikliklerin sınırlı olduğunu gösterdi. Bu bulgular, yapay zeka ajanlarının insan çeşitliliğini temsil etme konusundaki mevcut sınırlarını ortaya koyuyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) 0

Teknoloji & Yapay Zeka

22 Apr

Yapay Zeka Modelleri İçin Beyin Benzeri Enerji Tasarrufu Çözümü: SpikeMLLM

Araştırmacılar, görsel ve metinsel verileri işleyebilen büyük dil modellerinin enerji tüketimini drastik olarak azaltan yeni bir sistem geliştirdi. SpikeMLLM adlı bu yaklaşım, insan beyninin çalışma prensiplerine benzer şekilde, sadece gerekli olduğunda hesaplama yapan spike sinir ağlarını kullanıyor. Geleneksel yapay zeka modelleri sürekli hesaplama yaparken, bu yeni sistem olay tabanlı bir yaklaşımla çalışarak önemli enerji tasarrufu sağlıyor. Sistem, farklı veri türleri için özel zaman ölçekleri kullanarak ve görüntü işleme süreçlerini sıkıştırarak performansını artırıyor. Bu gelişme, mobil cihazlar ve sınırlı kaynaklı ortamlar için yapay zeka uygulamalarının yaygınlaşmasını kolaylaştırabilir.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

22 Apr

Sesli Komutlarla Video Analizi: Yapay Zeka Yarışmasında Birinci Olan Sistem

Araştırmacılar, konuşma dilindeki komutları anlayarak videolardaki nesneleri tespit edip ayırabilen yenilikçi bir yapay zeka sistemi geliştirdi. APRVOS adlı bu sistem, PVUW MeViS-Audio yarışmasında birinci oldu. Geleneksel metin tabanlı sistemlerden farklı olarak, sesli komutları anlayıp videolardaki hedef nesneleri hassas şekilde segmentlere ayırabiliyor. Sistem, önce konuşmayı metne dönüştürüyor, ardından tarif edilen nesnenin videoda gerçekten var olup olmadığını kontrol ediyor. Bu yaklaşım, ses teknolojileri ve bilgisayarlı görü arasında köprü kurarak multimodal yapay zeka uygulamalarında önemli bir adım temsil ediyor.

arXiv (CS + AI) 0

Tıp & Sağlık

21 Apr

Yapay Zeka Doktorları Hastane Koşullarında Test Edildi: Sonuçlar Şaşırtıcı

Güney Afrika'da gerçekleştirilen kapsamlı bir araştırma, 10 farklı yapay zeka modelinin hastane ortamında gerçek hasta verileriyle tanı koyma yeteneklerini değerlendirdi. Çalışmada 539 hasta vakası kullanılarak yapay zekaların radyoloji görüntüleri, laboratuvar sonuçları ve klinik notları analiz etme başarısı ölçüldü. Araştırma, özellikle gelişmekte olan ülkelerdeki devlet hastaneleri için yapay zeka destekli tanı sistemlerinin potansiyelini ortaya koyuyor. Uzman doktor panelleri tarafından doğrulanmış vakalar üzerinde yapılan testlerde, yapay zeka modellerinin tanı doğruluğu, hasta güvenliği ve maliyet etkinliği açısından performansları detaylı şekilde analiz edildi.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Görsel Modelleri Metin Tabelalarına Kandırılabiliyor

Görsel-dil modellerinin (VLM) kritik bir zayıflığı keşfedildi: ekran üzerindeki metinler görsel içerikle çeliştiğinde, bu modeller gerçek görüntüyü görmezden gelip metne öncelik veriyor. Araştırmacılar bu durumu 'Metin Bindirme Kaynaklı Halüsinasyon' olarak tanımladı. 6.057 örnekten oluşan VisualTextTrap adlı kapsamlı test veri seti geliştirilerek, yapay zekanın bu sistematik hatası ölçüldü. Bulgular, günümüz yapay zeka sistemlerinin görsel anlama konusundaki sınırlarını ortaya koyuyor ve gelecek geliştirmeler için kritik bir yol haritası sunuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Artık Kültürel Farkları Anlayarak Mizah Yapabiliyor

Araştırmacılar, yapay zekanın görsel içeriklere farklı kültürlerden mizahi yaklaşımlarla altyazı oluşturabilmesini sağlayan yeni bir sistem geliştirdi. Bu teknoloji, bir görüntüyü analiz ederken belirli bir kültürel bağlamı da göz önünde bulundurarak, o kültüre uygun mizahi altyazılar üretebiliyor. Sistemin başarısını ölçmek için araştırmacılar altı farklı değerlendirme kriteri belirledi: görsel uyum, kültürel uygunluk, anlam zenginliği, mantıklılık, mizah kalitesi ve yaratıcılık. Bu gelişme, yapay zekanın insan kültürünün karmaşık yapısını anlama konusundaki ilerlemesini gösteriyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay zeka modelleri günlük dijital görevlerde ne kadar başarılı? PlanViz testi

Araştırmacılar, yapay zeka modellerinin günlük bilgisayar kullanım görevlerindeki performansını değerlendirmek için PlanViz adlı yeni bir test sistemi geliştirdi. Rota planlama, iş diyagramları oluşturma ve web arayüzü tasarlama gibi üç temel alanda yapay zekanın görsel içerik üretme ve düzenleme yeteneklerini ölçen bu sistem, mevcut modellerin gerçek yaşam senaryolarındaki başarısını objektif kriterlerle değerlendiriyor. Test, yapay zekanın mekansal akıl yürütme ve prosedürel anlama becerilerini günlük dijital görevler bağlamında inceliyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay zeka görüntü arama sistemlerinde gürültü sorununa yeni çözüm

Araştırmacılar, hem görüntü hem de metin kullanarak arama yapabilen yapay zeka sistemlerindeki önemli bir sorunu çözmek için yeni bir yöntem geliştirdi. Bileşik Görüntü Arama (CIR) sistemleri, kullanıcıların bir referans görüntü ve açıklayıcı metin kombinasyonu ile hedef görüntüleri bulmalarına olanak tanıyor. Ancak bu sistemlerde etiketleme hatalarından kaynaklanan 'gürültü' problemi, arama doğruluğunu ciddi şekilde etkiliyor. Yeni geliştirilen INTENT yöntemi, gürültüyü iki kategoriye ayırarak ele alıyor: modaliteler arası uyumsuzluk gürültüsü ve modalite-içi gürültü. Bu yaklaşım, hem farklı veri türleri arasındaki hatalı eşleştirmeleri hem de görüntü içindeki gereksiz görsel faktörleri filtreleyerek sistem performansını artırıyor. Çalışma, gelecekte daha güvenilir multimodal arama sistemlerinin geliştirilmesine katkı sağlayacak.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Multimodal AI modelleri temel matematikte neden başarısız oluyor?

Stanford araştırmacıları, gelişmiş çok modallı yapay zeka modellerinin görsel, işitsel ve metin tabanlı matematik problemlerinde beklenmedik zorluklarla karşılaştığını ortaya çıkardı. GPT-4V, Claude-3 ve Gemini gibi modeller, sayıları farklı formatlarda algılayabilmesine rağmen çok basamaklı çarpma işlemlerinde ciddi hatalar yapıyor. Araştırma, aynı matematik probleminin rakam, kelime, görsel veya ses formatında sunulmasına göre model performansının dramatik şekilde değiştiğini gösteriyor. Bu bulgular, AI modellerinin gerçek aritmetik yeteneklerinin sanıldığından çok daha sınırlı olduğunu ve farklı modaliteler arasında tutarsız davranış sergilediklerini işaret ediyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Farklı Veri Türlerini Nasıl Senkronize Ediyor?

Araştırmacılar, yapay zeka sistemlerinin video, metin ve ses gibi farklı veri türlerini nasıl eşzamanlı işlediğini anlamak için yenilikçi bir çalışma gerçekleştirdi. Video-metin-konuşma sentezi adlı kontrollü bir görev kullanarak, birleşik transformer modellerinin heterojen örnekleme hızlarına sahip modaliteleri nasıl senkronize ettiğini incelediler. VoxCeleb2 veri setiyle eğitilen Visatronic adlı model üzerinde yapılan deneyler, modalitelerin nasıl tamamlayıcı bilgi sağladığını ve pozisyonel kodlama stratejilerinin senkronizasyonu nasıl mümkün kıldığını ortaya çıkardı. Çalışma, çok modalı AI sistemlerinin çalışma mekanizmalarını anlamamızı derinleştiriyor ve gelecekteki gelişmeler için önemli ipuçları sunuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Görsel Sıkıştırma: Basit Yöntemler Gelişmiş Tekniklerden Daha İyi

Çok modlu büyük dil modellerinde görsel token sıkıştırma yöntemlerini değerlendiren yeni bir araştırma, şaşırtıcı bir sonuç ortaya koydu. Sekiz popüler benchmark üzerinde yapılan kapsamlı çalışmada, basit görüntü boyut küçültme işleminin birçok gelişmiş sıkıştırma tekniğinden daha iyi performans gösterdiği keşfedildi. Araştırmacılar, mevcut değerlendirme kriterlerinin görsel token sıkıştırma için uygun olmadığını ve önemli miktarda gürültü içerdiğini tespit etti. Bu bulgular, yapay zeka alanında kullanılan benchmark sistemlerinin yeniden değerlendirilmesi gerektiğini gösteriyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modellerini Test Eden Yeni Kapsamlı Değerlendirme Sistemi Geliştirildi

Araştırmacılar, yapay zeka modellerinin görsel anlama ve üretme yeteneklerini birlikte değerlendiren Uni-MMMU adlı yeni bir test sistemi geliştirdi. Bu sistem, mevcut değerlendirme yöntemlerinin aksine, AI modellerinin bu iki yeteneği nasıl entegre ettiğini ölçüyor. Bilim, matematik, kodlama ve bulmaca gibi sekiz farklı alanda çift yönlü görevler içeren sistem, modellerin kavramsal anlayışı görsel sentezde nasıl kullandığını ve görsel üretimi analitik düşünce için nasıl araç olarak kullandığını test ediyor. Sistem, doğrulanabilir ara adımlar ve tekrarlanabilir değerlendirme protokolleri sunarak AI araştırmalarında daha güvenilir ölçümler sağlıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

ELLSA: İnsan Gibi Aynı Anda Dinleyen, Gören ve Konuşan Yapay Zeka Modeli

Araştırmacılar, insan etkileşiminin doğasını taklit eden devrim niteliğinde bir yapay zeka modeli geliştirdi. ELLSA adı verilen bu sistem, insanlar gibi aynı anda hem algılama hem de tepki verme yeteneğine sahip ilk model olma özelliği taşıyor. İnsanların nasıl dinlerken baktığını, konuşurken hareket ettiğini ve kesintilere doğal olarak adapte olduğunu gözlemleyen bilim insanları, bu davranışları tek bir mimaride birleştirmeyi başardı. Model, görsel, metinsel, sesli ve eylem verilerini eş zamanlı olarak işleyebilen yenilikçi SA-MoE mimarisi kullanıyor. Bu teknoloji, her modaliteyi uzmanlaşmış bileşenlere yönlendirip birleşik bir dikkat mekanizması aracılığıyla harmanlıyor. Geliştirme, daha doğal insan-makine etkileşimleri için önemli bir adım teşkil ederken, gelecekte robotik, sanal asistanlar ve etkileşimli AI sistemlerinde geniş uygulama alanları bulabilir.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

AI Asistanları Günlük Hayatta Güvenlik Riski Oluşturuyor: Yeni Test Süreci

Görsel ve metin tabanlı yapay zeka modelleri günlük hayatımızda vazgeçilmez asistanlar haline gelirken, ürettikleri güvenli olmayan içerikler insan davranışları için ciddi tehlike oluşturabiliyor. Araştırmacılar bu sorunu ele almak için SaLAD adında kapsamlı bir güvenlik testi geliştirdi. Bu test, 10 farklı kategoride 2.013 gerçek dünya görsel-metin örneği içeriyor ve hem güvenli olmayan senaryoları hem de aşırı hassasiyet durumlarını dengeli şekilde kapsıyor. Test sonuçları, 18 farklı AI modelinde yapılan değerlendirmeler sonucunda, en iyi performans gösteren modellerin bile güvenlik açısından önemli eksiklikleri olduğunu ortaya koyuyor. Bu çalışma, AI asistanlarının sadece genel ret cevapları vermek yerine açık ve bilgilendirici güvenlik uyarıları sağlamasını teşvik eden yeni bir değerlendirme yaklaşımı öneriyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Artık Uzun Videoları İnsan Gibi Anlayabilecek

Araştırmacılar, uzun video içeriklerini analiz eden yapay zeka sistemleri için devrim niteliğinde bir bellek mimarisi geliştirdi. MM-Mem adlı bu sistem, insan beyninin bilgiyi işleme biçiminden esinlenerek tasarlandı. Mevcut yapay zeka modelleri kısa video segmentlerinde başarılı olsa da, uzun süreli video analizi konusunda yetersiz kalıyordu. Yeni sistem, görsel bilgileri piramit şeklinde hiyerarşik olarak organize ederek, detaylı algısal izleri üst düzey anlamsal şemalara dönüştürebiliyor. Bu sayede hem yüksek detay kaybı yaşayan metin tabanlı yaklaşımların hem de yavaş çalışan görsel yöntemlerin sorunları aşılıyor. Sistem, insan bilişsel verimliliğini taklit ederek video içeriğini daha etkili şekilde anlayabiliyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Bilimsel Kanıtları Doğrulamada Zorlanıyor: Yeni Araştırma Şaşırtıyor

Araştırmacılar, yapay zeka modellerinin bilimsel iddiaları kanıtlarla karşılaştırma becerisini test etmek için 469 bin örnek içeren kapsamlı bir veri seti oluşturdu. M2-Verify adlı bu çalışma, PubMed ve arXiv'den toplanan verilerle 16 farklı bilim alanını kapsıyor. Sonuçlar oldukça çarpıcı: En gelişmiş AI modelleri bile basit tıbbi durumlarda %85,8 başarı gösterirken, karmaşık anatomik değişikliklerde bu oran %61,6'ya düşüyor. Daha da önemlisi, modeller bilimsel açıklamalar yaparken halüsinasyonlar üretiyor ve tutarsız sonuçlar veriyor. Bu bulgular, bilimsel araştırmalarda AI kullanımının henüz tam güvenilir olmadığını gösteriyor ve gelecekteki geliştirmeler için önemli bir yol haritası sunuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modelleri Artık Görsel-Ses Gibi Farklı Veri Türlerini Daha İyi Anlayacak

Araştırmacılar, yapay zeka sistemlerinin farklı veri türleri arasında köprü kurmasını sağlayan yeni bir teknik geliştirdi. EmergentBridge adlı bu yöntem, AI modellerinin görüntü-metin gibi eşleştirilmiş verilerle eğitildikten sonra, ses-derinlik veya kızılötesi-ses gibi hiç birlikte görülmemiş veri çiftleri arasında da başarılı çeviriler yapabilmesini mümkün kılıyor. Bu gelişme, multimodal AI sistemlerinin her türlü veri kombinasyonu için ayrı ayrı eğitilmesine gerek kalmadan, mevcut bilgiyi yeni alanlara aktarabilmesinin önünü açıyor. Teknoloji, özellikle sınırlı veri setleriyle çalışmak zorunda olan uygulamalarda büyük avantaj sağlayabilir.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Küçük yapay zeka modeli, büyük rakiplerini geride bıraktı

Araştırmacılar, görsel ve metin verilerini birlikte işleyebilen küçük boyutlu bir yapay zeka modeli geliştirdi. SmoGVLM adlı bu sistem, graf sinir ağları kullanarak yapılandırılmış bilgiyi görsel ve metinsel verilerle birleştiriyor. 1,3 milyardan 13 milyara kadar farklı parametrelerde test edilen model, küçük versiyonlarının bile %16'ya varan performans artışı gösterdiğini kanıtladı. En dikkat çekici sonuç, küçük modellerin kendilerinden on kat büyük modelleri geride bırakabilmesi oldu. Bu başarı, yapay zeka modellerinin her zaman daha büyük olması gerektiği varsayımını sorgulatan önemli bir gelişme. Sistem özellikle bilgi yoğun görevlerde ve çok modalı akıl yürütme gerektiren durumlarda üstün performans sergiliyor.

arXiv (Dilbilim & NLP) 0

Teknoloji & Yapay Zeka

20 Apr

Yapay Zeka Artık İnternet Memlerindeki Mecazları da Anlıyor

Araştırmacılar, yapay zekanın internet memlerindeki mecazları ve dolaylı anlamları çözümleyebilmesi için yeni bir yöntem geliştirdi. CDGLT adı verilen bu sistem, görsel ve metinsel öğeleri bir araya getirerek, insan zihninin mecazları anlama sürecini taklit ediyor. Geleneksel yöntemlerin aksine, bu yaklaşım çok daha az hesaplama gücü gerektiriyor ve mecazların gerçek anlamlarıyla figüratif anlamları arasındaki köprüyü kurmada başarılı oluyor. İnternet kültüründe yaygın olan mem formatındaki mecazları anlayabilmek, yapay zekanın dil işleme yeteneklerinde önemli bir adım.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

LLaMo: Hareket ve Dil İşlemeyi Birleştiren Yeni Yapay Zeka Modeli

Araştırmacılar, hareket verilerini ve doğal dili aynı anda anlayıp üretebilen yeni bir yapay zeka modeli geliştirdi. LLaMo adlı bu sistem, mevcut dil modellerinin yeteneklerini kaybetmeden hareket verilerini işleyebiliyor. Geleneksel yöntemler hareket verilerini parçalı hale getirirken titreme sorunları yaşıyordu ve sınırlı veri nedeniyle dil yeteneklerini kaybediyordu. Yeni yaklaşım, Mixture-of-Transformers mimarisi kullanarak bu sorunları çözüyor ve sürekli temsil yöntemiyle daha akıcı sonuçlar elde ediyor. Bu gelişme, robotik, animasyon ve insan-bilgisayar etkileşimi alanlarında önemli uygulamalara kapı açabilir. Model, hem hareket komutlarını anlayıp üretebiliyor hem de doğal dil işleme yeteneklerini koruyabiliyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

18 Apr

Yapay Zeka Artık Sadece İzlemiyor, Aktif Olarak Sorgulayarak Öğreniyor

Araştırmacılar, görsel-dil modellerinin en büyük sorunlarından birini çözen yeni bir yaklaşım geliştirdi. V-Reflection adlı bu sistem, yapay zekanın görsel bilgiyi pasif olarak kabul etmek yerine, düşünme sürecinde aktif olarak yeniden incelemesini sağlıyor. Geleneksel modeller görüntüleri sabit bir veri olarak kabul ederken, yeni yaklaşım 'önce düşün, sonra bak' mantığıyla çalışıyor. Bu sayede AI, her düşünce adımında görsel detayları tekrar sorgulayarak daha doğru sonuçlara ulaşabiliyor. Özellikle ince detay gerektiren görevlerde yapay zekanın 'halüsinasyon' yapma sorununu büyük ölçüde azaltıyor. İki aşamalı bir öğrenme stratejisi kullanan sistem, görsel özellik alanını dinamik olarak sorgulayan problar geliştiriyor. Bu gelişme, multimodal AI sistemlerinin güvenilirliğini artırmada önemli bir adım.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

18 Apr

VideoStir: Uzun videoları anlayan yapay zeka sistemi geliştirildi

Araştırmacılar, uzun videoları analiz edebilen yeni bir yapay zeka sistemi olan VideoStir'i geliştirdi. Çok modlu büyük dil modellerinin (MLLM) sınırlı bağlam penceresi sorunu, uzun video analizinde önemli bir engel oluşturuyordu. VideoStir, videoları uzamsal-zamansal graf yapısı olarak modelleyerek ve çok adımlı bilgi alma yöntemiyle bu sorunu çözüyor. Sistem, videoyu bağımsız parçalara ayırmak yerine bütünsel yapısını koruyarak, farklı zaman dilimlerindeki ilişkili olayları birbirine bağlayabiliyor. Ayrıca sorgunun amacını anlayan bir puanlama sistemiyle, sadece açık eşleşmeleri değil, dolaylı olarak relevant olan ipuçlarını da yakalayabiliyor. Bu gelişme, video analizi, içerik moderasyonu ve eğitim teknolojileri gibi alanlarda önemli uygulamalara sahip olabilir.

arXiv (CS + AI) 1