“görme-dil modelleri” için sonuçlar

Nörobilim & Psikoloji

20 May

Yapay zeka ve insan beyninin oyun oynarken benzer şekilde düşündüğü keşfedildi

Stanford ve MIT'den araştırmacılar, insanların Atari oyunları oynarken beyin aktivitelerini inceledi ve şaşırtıcı bir keşif yaptı: büyük dil modelleri ve aksiyon modelleri, insan beyninin bazı bölgeleriyle benzer aktivite gösteriyor. Çalışmada fMRI ile kaydedilen beyin sinyalleri, yapay zeka modellerinin iç temsilleriyle karşılaştırıldı. Bulgular, hem görme-dil modellerinin hem de büyük aksiyon modellerinin, özellikle aksiyon odaklı görevlerde insan beyninin karar verme mekanizmalarıyla uyumlu çalıştığını gösterdi. Bu araştırma, yapay zeka sistemlerinin insan benzeri düşünce süreçlerini nasıl taklit ettiğini anlamamız açısından önemli.

arXiv (Nörobilim) 0

Teknoloji & Yapay Zeka

30 Apr

Yapay zeka modelleri animasyonları ne kadar iyi anlıyor?

Kullanıcı arayüzlerinde çalışan yapay zeka ajanları, arayüzlerin nasıl bilgi ilettiğini anlamak zorunda. Modern arayüzlerde estetikten çok daha fazlası olan animasyonlar, kritik işlevsel amaçlara hizmet ediyor. Ancak görme-dil modellerinin (VLM) arayüz anlayışıyla ilgili çalışmalar çoğunlukla statik ekran görüntüleri üzerinde yoğunlaştı. Araştırmacılar bu boşluğu doldurmak için 300 anotasyonlu kullanıcı arayüzü animasyon videosu içeren AniMINT veri setini oluşturdu. En gelişmiş VLM'lerin animasyonları algılama, amaçlarını belirleme ve anlamlarını yorumlama yeteneklerini sistematik olarak değerlendirdiler. Sonuçlar, bu modellerin temel hareketleri güvenilir şekilde tespit edebildiğini ancak üst düzey anlayışta zorlandığını gösteriyor. Bu çalışma, yapay zeka ajanlarının kullanıcı arayüzleriyle etkileşimini geliştirmek için kritik bir adım oluşturuyor.

arXiv (Dilbilim & NLP) 0

Tıp & Sağlık

21 Apr

Yapay Zeka Göz Hastalıklarını Teşhis Eden Raporları Otomatik Yazıyor

Araştırmacılar, retina görüntülerinden tıbbi rapor üreten yeni bir yapay zeka sistemi geliştirdi. DREAM adlı sistem, göz doktorlarının belirlediği klinik anahtar kelimeleri görsel verilerle birleştirerek, sınırlı veri ile bile yüksek doğrulukta tanı raporu üretiyor. İki aşamalı bir füzyon mekanizması kullanan sistem, önce görüntü ve anahtar kelime özelliklerini ortak bir alanda birleştiriyor, ardından adaptif çok modlu füzyon ile her modalitetin önemini dinamik olarak ayarlıyor. Bu yaklaşım, mevcut görme-dil modellerinin medikal alanlarda yaşadığı veri yetersizliği ve aşırı öğrenme sorunlarını çözmeyi hedefliyor. Özellikle kritik ancak belirgin olmayan patolojileri tespit etmede başarılı olan sistem, oftalmoloji alanında tanı doğruluğunu artırarak doktorlara önemli destek sağlayabilir.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay zeka artık tek kamerayla 3D dünyayı anlayabiliyor

Araştırmacılar, monoküler video görüntülerinden 3D mekan anlayışı geliştirebilen yeni bir yapay zeka sistemi geliştirdi. VLM-3R adlı bu sistem, pahalı derinlik sensörlerine ihtiyaç duymadan tek kamera görüntülerinden üç boyutlu yapıları anlayabiliyor. Geleneksel yöntemler dış sensörlere veya önceden hazırlanmış 3D haritalara bağımlıyken, bu yeni yaklaşım doğrudan video karelerini işleyerek geometrik bilgileri çıkarıyor. Sistem, görme-dil modellerini 3D yeniden yapılandırma talimatlarıyla birleştirerek, insan benzeri görsel-uzamsal zeka geliştirebiliyor. Bu gelişme, otonom araçlardan artırılmış gerçekliğe kadar birçok alanda uygulanabilir.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Görme Modelleri Önyargılı Çıktı: Adidas Logosu Bile Yanıltıyor

Büyük dil modelleri gibi görme-dil modelleri de internet verilerinden öğrendikleri bilgiler nedeniyle önyargılı davranıyor. Stanford araştırmacıları, en gelişmiş yapay zeka modellerinin bile basit sayma ve tanıma görevlerinde büyük hatalar yaptığını keşfetti. Örneğin modeller, 3 çizgili Adidas logosuna 4. çizgi eklendiğinde bunu fark edemiyor. Hayvanlar, logolar, satranç taşları gibi 7 farklı alanda yapılan testlerde modellerin ortalama başarısı sadece %17 seviyesinde kaldı. Araştırma, görsel bağlamın bu önyargılı yanıtları tetiklediğini gösteriyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Görme Sistemlerinde Güvenlik Açıklarına Karşı Yeni Savunma Yöntemi

Büyük görme-dil modelleri (LVLM), multimodal saldırılara karşı savunmasız durumda. Mevcut koruma yöntemleri ya belirli saldırı türlerine odaklanıyor ya da çok fazla hesaplama gücü gerektiriyor. Araştırmacılar, bu modellerin kendi iç temsillerinden güvenlik sinyalleri çıkaran Temsili Karşıtsal Puanlama (RCS) adında yeni bir framework geliştirdi. Bu yaklaşım, güvenlik açısından kritik katmanlarda zararlı ve zararsız girişleri ayırmak için hafif bir projeksiyon öğreniyor. Böylece hem yeni tehditlere karşı genelleme yapabiliyor hem de pratik kullanım için verimli çalışıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

3D Görme-Dil Modelleri İçin Yeni Prompt Ayarlama Yöntemi Geliştirildi

Araştırmacılar, 3D nokta bulutlarını anlayan yapay zeka modelleri için yeni bir eğitim yöntemi geliştirdi. P³T adlı bu yöntem, büyük 3D görme-dil modellerini farklı görevlere uyarlarken hem hesaplama maliyetini düşürüyor hem de genelleme kabiliyetini artırıyor. Geleneksel yöntemler tüm modeli yeniden eğitmek zorunda kalırken, P³T sadece küçük prompt bileşenlerini ayarlayarak aynı başarıyı elde ediyor. Bu yaklaşım, 3D nesne tanıma, sahne anlama ve robotik uygulamalarda önemli avantajlar sunuyor. Özellikle overfitting sorununu çözerek modellerin yeni veriler üzerindeki performansını iyileştiriyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Yapay Zeka Görme Modellerindeki Halüsinasyon Mekanizması Çözüldü

Görme-dil modellerinin neden görsel kanıtları görmezden gelip metin komutlarına körü körüne uyduğu keşfedildi. Araştırmacılar, modellerin nesne sayma testlerinde küçük sayılarda doğru düzeltmeler yaparken, sayı arttıkça görüntüdeki gerçekliği hiçe sayarak komutlara uyduğunu gözlemledi. Üç farklı modelin detaylı analizinde, halüsinasyonlardan sorumlu belirli dikkat mekanizmaları belirlendi. Bu bileşenlerin devre dışı bırakılması, ek eğitim gerektirmeden yanılsamaları %40 oranında azalttı. Bu bulgu, yapay zeka modellerinin güvenilirliğini artırma yolunda önemli bir adım oluşturuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Yapay zeka modelleri şekilleri gerçekten anlıyor mu? Yeni test kritik sonuçlar verdi

Görme-dil modelleri (VLM) birçok görevi başarıyla yerine getirse de, bu sistemlerin geometrik şekilleri gerçekten anlayıp anlamadığı belirsizdi. Araştırmacılar, bu modellerin renk ve doku ipuçlarından yararlanarak başarılı görünüp görünmediğini test etmek için BareBones adlı yeni bir değerlendirme sistemi geliştirdi. Bu benchmark, yapay zeka modellerinin saf geometrik anlama yetisini ölçmek için piksel düzeyinde silüetler kullanıyor. Altı farklı veri setinden yararlanılarak oluşturulan bu test, görsel yapay zeka sistemlerinin gerçek geometrik kavrayış kapasitelerini ortaya çıkarmayı hedefliyor. Çalışma, mevcut değerlendirme yöntemlerinin çevresel ipuçlarını sızdırdığını ve bu durumun modellerin gerçek yeteneklerini maskelediğini gösteriyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

10 Apr

VisionFoundry: Yapay Görüntülerle Görme-Dil Modellerini Eğitmek

Görme-dil modelleri (VLM'ler) hala uzamsal anlama ve bakış açısı tanıma gibi görsel algı görevlerinde zorlanıyor. Araştırmacılar, doğal görüntü veri setlerinin düşük seviyeli görsel beceriler için sınırlı denetim sağladığını ve hedeflenmiş sentetik denetimin bu zayıflıkları giderebileceğini öne sürüyor.

arXiv 0