“bilgisayar görme” için sonuçlar
5 sonuç bulundu. Sonuçları kategoriye göre daraltabilirsin.
UniMesh: 3D nesneleri anlama ve oluşturmayı birleştiren yapay zeka modeli
Araştırmacılar, 3D nesneleri hem anlayabilen hem de oluşturabilen UniMesh adlı yeni bir yapay zeka sistemi geliştirdi. Geleneksel yaklaşımlarda 3D görme görevleri ayrı ayrı ele alınıyor - bir model sadece nesne tanıma yaparken diğeri sadece yeni nesneler üretiyor. Bu parçalı yaklaşım, modeller arası bilgi transferini zorlaştırıyor ve bütüncül sahne modellemesini engelliyor. UniMesh bu sorunu çözmek için tek bir mimari içinde hem 3D nesne üretimi hem de anlama görevlerini birleştiriyor. Sistem, yenilikçi Mesh Head arayüzü ile görüntü üretimi ve şekil çözücüleri arasında köprü kuruyor. Ayrıca Chain of Mesh (CoM) adlı iteratif akıl yürütme yöntemiyle kullanıcıların 3D nesneleri semantik olarak düzenlemesine olanak tanıyor. Bu gelişme, 3D modellemede daha verimli ve bütünleşik çözümler sunarak bilgisayar grafikleri ve yapay zeka alanlarında önemli bir adım oluşturuyor.
Vision Transformer'ların Karar Verme Sürecini Açıklayan Yeni Yöntem Geliştirildi
Bilgisayar görme alanında önemli başarılar elde eden Vision Transformer'lar, karmaşık yapıları nedeniyle nasıl karar verdikleri anlaşılması zor sistemlerdi. Araştırmacılar, bu yapay zeka modellerinin karar verme süreçlerini daha net anlaşılabilir hale getiren Decision-Aware Attention Propagation (DAP) adlı yeni bir yöntem geliştirdi. Bu yaklaşım, modelin dikkat mekanizmasına karar odaklı bilgileri entegre ederek, hangi görsel öğelerin sınıflandırma kararında etkili olduğunu daha açık şekilde gösteriyor. Yöntem, mevcut dikkat tabanlı açıklama yöntemlerinin sınırlılıklarını aşarak, sınıf ayırım kabiliyeti daha yüksek açıklamalar sunuyor.
Yapay Zeka Bulanık Fotoğrafları Doymuş Pikseller İçin Özel Geliştirdi
Araştırmacılar, özellikle düşük ışık ve yüksek dinamik aralık koşullarında çekilen bulanık fotoğraflardaki doymuş piksellerin neden olduğu sorunları çözen yeni bir yapay zeka sistemi geliştirdi. Geleneksel görüntü netleştirme yöntemleri doymuş piksellerde genellikle istenmeyen halkalar ve yapay görüntü bozulmaları oluşturuyor. Yeni yaklaşım, görüntüyü bulanıklık yoğunluğu ve doyma durumuna göre akıllıca bölerek, ışık dağılım fonksiyonlarını kullanarak gerçek parlaklık değerlerini tahmin ediyor. Hem sentetik hem de gerçek dünya verilerinde test edilen sistem, mevcut en gelişmiş yöntemlere kıyasla üstün performans sergiliyor.
Yapay zeka konuşan yüzlerde duygu düzenlemesinde yeni çığır açtı
Araştırmacılar, konuşan yüz videolarında duygu düzenleme konusunda devrim niteliğinde bir yöntem geliştirdi. Mevcut teknolojiler duygusal ifadelerde sınırlı kalırken, yeni Cross-Modal Emotion Transfer tekniği farklı veri türlerini birleştirerek daha geniş bir duygu yelpazesi sunuyor. Geleneksel yöntemler kategorik etiketlerle sınırlı kalırken, ses tabanlı sistemler duygu ve dil içeriğini ayırmakta zorlanıyor. Görüntü tabanlı yaklaşımlar ise yüksek kaliteli referans görüntüler gerektiriyor. Bu yeni teknik, hem ses hem görüntü verilerini akıllıca kullanarak bu sorunları aşmayı hedefliyor ve yapay zeka destekli video üretiminde önemli bir adım atıyor.
Yapay Zeka Modelleri Neden Nesnelerin Yönünü Anlayamıyor?
Çok modlu büyük dil modelleri (MLLM'ler), görüntülerdeki nesnelerin 2D yönelimini belirleme konusunda ciddi zorluklar yaşıyor. Yeni bir araştırma, bu sorunun kaynağını araştırarak görsel kodlayıcıların rolünü inceliyor. CLIP ve SigLIP gibi yaygın kullanılan kodlayıcıların, geometrik akıl yürütme yerine görüntü-metin anlamsal hizalama için eğitilmiş olmasının bu başarısızlığın temel nedeni olabileceği hipotezi test ediliyor. Araştırmacılar, LLaVA OneVision ve Qwen2.5-VL gibi modellerden elde edilen kodlayıcı temsillerinin rotasyon bilgisini koruyup korumadığını ölçmek için kontrollü deneysel protokoller tasarlıyor.