“görsel anlama” için sonuçlar

Teknoloji & Yapay Zeka

4 May

Yapay zeka artık görsel ayrıntıları anlayarak mantıksal çıkarım yapabiliyor

Araştırmacılar, görsel-temelli mantıksal çıkarım yapabilen yeni bir yapay zeka modeli geliştirdi. VGR adlı bu model, geleneksel yaklaşımların aksine sadece metin tabanlı işlem yapmak yerine, görüntülerdeki önemli bölgeleri tespit ederek daha doğru çıkarımlar yapabiliyor. Mevcut çok modlu dil modelleri genellikle matematiksel ve bilimsel problemlerle sınırlıyken, VGR karmaşık görsel anlama gerektiren görevlerde de başarılı sonuçlar veriyor. Model, özel olarak hazırlanmış büyük ölçekli bir veri setiyle eğitilmiş ve görsel grondlama ile dil çıkarımını birleştiren hibrit bir yaklaşım kullanıyor. Bu gelişme, yapay zekanın insan benzeri görsel algı ve mantıksal düşünme süreçlerini daha iyi taklit edebilmesinin önünü açıyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Görsel Soruları Cevaplarken Artık Daha Tutarlı Düşünebiliyor

Araştırmacılar, görsel sorular karşısında yapay zekanın daha tutarlı ve esnek karar verebilmesi için yeni bir sistem geliştirdi. CoGR-MoE adlı bu teknoloji, uzman seçiminde kararsızlık yaşayan mevcut sistemlerin aksine, kavram rehberliğinde çalışarak hem tutarlılığı hem de esnekliği sağlıyor. Sistem, görsel ve metinsel ipuçlarını birleştirerek soruları yanıtlarken, her seçenek için özel uzmanlar atıyor ve bunları dinamik olarak yeniden ağırlıklandırıyor. Bu yaklaşım, yapay zekanın görsel anlama yeteneklerinde önemli bir ilerleme kaydediyor ve çoklu görsel soru-cevap görevlerinde güçlü performans sergiliyor. Geliştirme, özellikle karmaşık görsel içerikleri analiz etmesi gereken AI uygulamaları için kritik öneme sahip.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modelleri Görselleri Yeteri Kadar Analiz Etmiyor

Stanford araştırmacıları, görsel-dil modellerinin beklenenden çok daha fazla metinsel açıklamalara dayandığını ve görsel bilgileri yeterince kullanmadığını keşfetti. Bu durum 'metin kısayolu öğrenmesi' olarak adlandırılıyor. Araştırmacılar, modellerin görsel güvenilirliğini test etmek için çelişkili metin-görsel çiftleri kullanarak yeni bir değerlendirme sistemi geliştirdi. Geometrik şekiller üzerinde yapılan deneyler, standart CLIP modelinin yanıltıcı metinlerle karşılaştığında performansının %27,5 düştüğünü gösterdi. Ancak optimize edilmiş versiyonda bu düşüş %9,8'e kadar azaltıldı. Bu bulgular, yapay zekanın görsel anlama kapasitesini geliştirmek için daha sofistike eğitim yöntemlerine ihtiyaç olduğunu ortaya koyuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Görsel Modelleri Metin Tabelalarına Kandırılabiliyor

Görsel-dil modellerinin (VLM) kritik bir zayıflığı keşfedildi: ekran üzerindeki metinler görsel içerikle çeliştiğinde, bu modeller gerçek görüntüyü görmezden gelip metne öncelik veriyor. Araştırmacılar bu durumu 'Metin Bindirme Kaynaklı Halüsinasyon' olarak tanımladı. 6.057 örnekten oluşan VisualTextTrap adlı kapsamlı test veri seti geliştirilerek, yapay zekanın bu sistematik hatası ölçüldü. Bulgular, günümüz yapay zeka sistemlerinin görsel anlama konusundaki sınırlarını ortaya koyuyor ve gelecek geliştirmeler için kritik bir yol haritası sunuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

HABIT: Görsel Arama Sistemlerinde Devrim Yaratacak Yeni Yapay Zeka Modeli

Araştırmacılar, kullanıcıların bir referans görsel ve metin açıklamasıyla istediği görseli bulabileceği yeni nesil arama sistemi geliştirdi. HABIT adlı bu framework, mevcut sistemlerin en büyük sorunu olan 'gürültülü veri' problemini çözmek için tasarlandı. Sistem, karşılıklı bilgi tahmin modülü ve aşamalı öğrenme yaklaşımıyla, kişiselleştirilmiş arama ve öneri sistemlerinde çığır açacak nitelikte. Özellikle e-ticaret, sosyal medya ve dijital arşiv uygulamalarında büyük potansiyele sahip olan teknoloji, yapay zekanın görsel anlama kapasitesini bir üst seviyeye taşıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Görsel Muhakemede Yeni Çığır: Ormandan Önce Ağaçları Görme Yaklaşımı

Araştırmacılar, büyük görsel-dil modellerinin muhakeme yeteneklerini artıran yeni bir yöntem geliştirdi. Laser adlı bu yaklaşım, geleneksel Chain-of-Thought yönteminin bilgi darboğazı sorununu çözmeyi hedefliyor. Yöntem, modellerin önce genel görsel özellikleri kavramasını, sonra detaylara odaklanmasını sağlayan 'Ormandan Önce Ağaçlar' ilkesini benimsiyor. Dinamik Pencereli Hizalama Öğrenmesi kullanan sistem, görsel detayları kaybetmeden daha etkili muhakeme yapabilir. Bu gelişme, yapay zekanın görsel anlama ve mantıksal çıkarım yapma kapasitesinde önemli bir ilerleme anlamına geliyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Görsel Anlama Teknolojisinde Hiperbolik Geometri Devrimi

Araştırmacılar, yapay zekanın görsel sahneleri anlaması için yeni bir yaklaşım geliştirdi. Geleneksel yöntemler nesneler ve ilişkiler arasındaki hiyerarşik yapıları tam olarak yakalayamıyordu. Yeni HSG sistemi, hiperbolik geometriyi kullanarak bu sorunu çözüyor. Bu özel geometrik uzay, nesneler arasındaki hiyerarşik ilişkileri doğal olarak kodlayabiliyor. Sistem, sahnelerdeki objeleri ve aralarındaki bağlantıları daha yapısal bir şekilde öğreniyor. Test sonuçları, yöntemin grafik seviyesindeki performansını önemli ölçüde artırdığını gösteriyor. Bu gelişme, robot görüşü, otonom araçlar ve artırılmış gerçeklik uygulamaları için önemli.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

AnchorSeg: Dil Temelli Görsel Analiz için Yeni Yapay Zeka Modeli

Araştırmacılar, karmaşık metin komutlarını piksel düzeyinde görsel maskelere dönüştürebilen AnchorSeg adlı yeni bir yapay zeka sistemi geliştirdi. Mevcut yöntemler tek bir segmentasyon belirteci kullanarak hem anlam çıkarımını hem de uzamsal konumlandırmayı aynı anda yapmaya çalışırken, AnchorSeg bu işlemleri birbirinden ayırarak daha etkili sonuçlar elde ediyor. Sistem, 'neyi segmente edeceği' ve 'nerede segmente edeceği' sorularını ayrı ayrı ele alarak, dil tabanlı görüntü işleme alanında önemli bir ilerleme sunuyor. Bu teknoloji, gelecekte otomatik görüntü analizi ve yapay zeka destekli görsel anlama sistemlerinde kullanılabilecek potansiyele sahip.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

DualToken: Görsel anlama ve üretimde çift sözlük sistemi ile çığır açan yaklaşım

Araştırmacılar, yapay zekanın görsel anlama ve görsel üretim yeteneklerini birleştiren yenilikçi bir sistem geliştirdi. DualToken adlı bu teknoloji, mevcut sistemlerin temel sorunununu çözüyor: görsel yeniden yapılandırma için eğitilmiş tokenizer'lar düşük seviyeli görsel detayları iyi yakalıyor ancak anlama görevlerinde yetersiz kalıyor. Karşıtlık öğrenme ile eğitilmiş vision encoder'lar ise dil ile iyi uyum sağlıyor ancak pixel düzeyinde görsel üretimde zorlanıyor. DualToken, her iki görevi de başarıyla yerine getirebilen ikili görsel sözlük sistemi sayesinde bu çelişkiyi çözüyor. Bu gelişme, çok modlu AI sistemlerinin hem görsel içeriği anlama hem de yeni görseller üretme konusunda daha etkili olmasının yolunu açıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modellerini Test Eden Yeni Kapsamlı Değerlendirme Sistemi Geliştirildi

Araştırmacılar, yapay zeka modellerinin görsel anlama ve üretme yeteneklerini birlikte değerlendiren Uni-MMMU adlı yeni bir test sistemi geliştirdi. Bu sistem, mevcut değerlendirme yöntemlerinin aksine, AI modellerinin bu iki yeteneği nasıl entegre ettiğini ölçüyor. Bilim, matematik, kodlama ve bulmaca gibi sekiz farklı alanda çift yönlü görevler içeren sistem, modellerin kavramsal anlayışı görsel sentezde nasıl kullandığını ve görsel üretimi analitik düşünce için nasıl araç olarak kullandığını test ediyor. Sistem, doğrulanabilir ara adımlar ve tekrarlanabilir değerlendirme protokolleri sunarak AI araştırmalarında daha güvenilir ölçümler sağlıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Akıllı telefonlarda yapay zeka: Bulut desteğiyle kendini adapte eden görsel model

Araştırmacılar, akıllı telefon ve tablet gibi mobil cihazlarda daha verimli çalışabilen yeni bir yapay zeka sistemi geliştirdi. AdaVFM adlı bu sistem, görsel anlama görevlerini yerine getirirken cihazın durumuna göre kendini otomatik olarak ayarlıyor. Sistem, kolay görevlerde daha az işlem gücü kullanırken, karmaşık durumlarla karşılaştığında buluttaki büyük dil modellerinden yardım alıyor. Bu yaklaşım, mobil cihazlarda yapay zeka uygulamalarının hem hızlı hem de enerji verimli çalışmasını sağlıyor. Geleneksel yöntemlerin aksine, her durumda aynı hesaplama gücünü kullanmak yerine, görevin zorluğuna göre dinamik olarak kaynak tahsisi yapıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Diş hekimliği faturalarındaki tabloları anlayan yapay zeka sistemi geliştirildi

Araştırmacılar, gerçek dünyada kullanılan diş hekimliği faturalarındaki tabloları okuyup anlayabilen yapay zeka sistemleri geliştirmek için yeni bir veri seti oluşturdular. DenTab adı verilen bu veri seti, 2.000 diş tedavi faturasından alınmış tablo görüntülerini ve bunlarla ilgili 2.208 soruyu içeriyor. Sistemler, sadece tabloları tanımakla kalmayıp, satır-sütun yapısını çözümleyebiliyor ve toplam tutarlar gibi kritik bilgileri çıkarabiliyorlar. Bu gelişme, sağlık sektöründeki evrak işlemlerinin otomasyonunda önemli bir adım.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Yapay zeka modelleri gerçekten görsel mantık yürütebiliyor mu?

Görsel-dil yapay zeka modelleri (VLM'ler) son dönemde görsel verileri anlayıp mantık yürütebildikleri iddiasıyla büyük ilgi çekiyor. Ancak yeni bir araştırma, bu modellerin başarısının gerçek görsel anlama mı yoksa sadece metin tabanlı yetenekler mi olduğunu sorguluyor. Araştırmacılar CrossMath adlı özel bir test sistemi geliştirerek, aynı matematik problemlerini sadece metin, sadece görsel ve karma formatlarda sundu. Sonuçlar şaşırtıcı: modeller metin formatında çok daha başarılı olurken, görsel formatta ciddi performans düşüşü yaşıyor. Bu bulgular, günümüz AI teknolojisinin görsel zeka konusundaki gerçek kapasitesini anlamamız açısından kritik önem taşıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Yapay zeka artık görüntülerdeki soyut kavramları anlamaya çalışıyor

Bilgisayarlı görü alanında devrim niteliğinde bir dönüşüm yaşanıyor. Yapay zeka sistemleri artık sadece 'bu bir kedi' demekle kalmayıp, görüntülerdeki duygusal tonları, estetik değerleri ve hatta ideolojik mesajları çözümlemeye çalışıyor. ArXiv'de yayınlanan kapsamlı bir araştırma, bilgisayarların görsel anlam çıkarma süreçlerindeki bu yeni evreyi detaylı olarak inceliyor. Çalışma, yüksek seviyeli görsel anlama görevlerini dört ana kategoriye ayırıyor: sağduyu bilgisi, duygusal içerik, estetik değerler ve yorumlayıcı semantikler. Bu gelişme, yapay zekanın insan benzeri görsel algı yeteneklerine doğru attığı önemli bir adımı temsil ediyor ve gelecekte sanat eleştirisi, medya analizi ve sosyal medya moderasyonu gibi alanlarda devrimsel uygulamalara kapı açabilir.

arXiv (CS + AI) 0