"görsel algılama" için 536 sonuç bulundu
× Aramayı temizle
Arama Sonuçları
536 haber
AI'da Görsel-Dil Anlayışını Güçlendiren Yeni Yaklaşım: ConcretePlant
Yapay zeka sistemlerinin görsel ve dil bilgilerini birleştirme konusundaki zayıflığını gidermek için yeni bir yöntem geliştirildi. Araştırmacılar, kelimelerin somutluk seviyesinin öğrenme sürecindeki etkisine odaklanarak ConcretePlant adlı sistemi önerdi. Bu yaklaşım, AI modellerinin kelime sırası ve özellik bağlama gibi temel kompozisyonel mantık yürütme becerilerindeki eksiklikleri gidermeyi hedefliyor. Somut kavramları sistematik olarak değiştirerek daha güçlü öğrenme sinyalleri üreten method, geleneksel yöntemlere göre önemli avantajlar sunuyor.
arXiv (CS + AI) · 29 gün önce
0
Yapay Zeka Modelleri Neden Nesnelerin Yönünü Anlayamıyor?
Çok modlu büyük dil modelleri (MLLM'ler), görüntülerdeki nesnelerin 2D yönelimini belirleme konusunda ciddi zorluklar yaşıyor. Yeni bir araştırma, bu sorunun kaynağını araştırarak görsel kodlayıcıların rolünü inceliyor. CLIP ve SigLIP gibi yaygın kullanılan kodlayıcıların, geometrik akıl yürütme yerine görüntü-metin anlamsal hizalama için eğitilmiş olmasının bu başarısızlığın temel nedeni olabileceği hipotezi test ediliyor. Araştırmacılar, LLaVA OneVision ve Qwen2.5-VL gibi modellerden elde edilen kodlayıcı temsillerinin rotasyon bilgisini koruyup korumadığını ölçmek için kontrollü deneysel protokoller tasarlıyor.
arXiv (CS + AI) · 29 gün önce
0
3D Görüntülerde Işık Oyunu: Gerçekçi Aydınlatma Teknolojisi Geliştirildi
Araştırmacılar, 3D sahneleri farklı ışık koşullarında son derece gerçekçi biçimde yeniden aydınlatmayı sağlayan SSD-GS adlı yeni bir teknik geliştirdi. Bu yöntem, ışık-malzeme etkileşimlerini fizik kurallarına uygun şekilde modelleyerek, metal ve yarı saydam malzemelerin görünümlerini oldukça doğal bir şekilde yeniden oluşturabiliyor. Geleneksel yöntemlerin aksine, SSD-GS ışığın yansıması, gölgeler ve malzeme içindeki saçılımı ayrı ayrı hesaplayarak daha kaliteli sonuçlar üretiyor. Bu gelişme, oyun endüstrisi, sinema efektleri ve sanal gerçeklik uygulamalarında devrim yaratma potansiyeli taşıyor.
arXiv (CS + AI) · 29 gün önce
0
3D Gaussian Splatting Artık Multispektral: Görsel Gerçeklik Bir Adım İleri
Araştırmacılar, 3D görüntü sentezleme teknolojisi olan Gaussian Splatting'i multispektral verilerle geliştirerek, sadece görünür ışık değil tüm dalga boylarını işleyebilen yeni bir sistem oluşturdular. MSGS adı verilen bu yöntem, her Gaussian nesneyi spektral parlaklık bilgileriyle zenginleştiriyor ve RGB ile multispektral sinyalleri birleştiren ikili kayıp fonksiyonu kullanıyor. Sistem, renk dönüşümünü piksel seviyesinde gerçekleştirerek daha zengin spektral bilgileri koruyabiliyor. Özellikle yarı saydam malzemeler ve anizotropik yansımalar içeren zorlu sahnelerde başarılı sonuçlar veriyor.
arXiv (CS + AI) · 29 gün önce
0
VisionFoundry: Yapay Görüntülerle Görme-Dil Modellerini Eğitmek
Görme-dil modelleri (VLM'ler) hala uzamsal anlama ve bakış açısı tanıma gibi görsel algı görevlerinde zorlanıyor. Araştırmacılar, doğal görüntü veri setlerinin düşük seviyeli görsel beceriler için sınırlı denetim sağladığını ve hedeflenmiş sentetik denetimin bu zayıflıkları giderebileceğini öne sürüyor.
arXiv · 35 gün önce
0
VL-Calibration: Büyük Görsel-Dil Modelleri İçin Ayrışık Güven Kalibrasyonu
Büyük görsel-dil modelleri güçlü çok modlu akıl yürütme yetenekleri gösterse de, sık sık halüsinasyonlar yaşar ve yüksek kesinlikle yanlış cevaplar verir. Bu durum kritik alanlarda kullanımlarını sınırlar.
arXiv · 35 gün önce
0
VISOR: Görsel Doküman Analizi için Yeni Yapay Zeka Sistemi
Araştırmacılar, görsel açıdan zengin belgelerden bilgi çıkarma ve karmaşık sorulara yanıt verme konusunda mevcut sistemlerden daha başarılı olan VISOR adlı yeni bir yapay zeka sistemi geliştirdi.
arXiv · 35 gün önce
0