“video işleme” için sonuçlar

Teknoloji & Yapay Zeka

21 Apr

FlashLips: Saniyede 100 Kare Hızında Gerçek Zamanlı Dudak Senkronizasyonu

Araştırmacılar, video ve ses arasındaki dudak senkronizasyonunu gerçek zamanlı olarak gerçekleştiren yeni bir sistem geliştirdi. FlashLips adı verilen bu teknoloji, tek bir grafik kartında saniyede 100 karenin üzerinde işlem yapabilirken, mevcut en gelişmiş modellerin görsel kalitesini yakalıyor. Sistem, geleneksel GAN ve difüzyon modellerinin aksine yeniden yapılandırma temelli bir yaklaşım kullanıyor. İki aşamalı yapısıyla hem hız hem de kalite açısından önemli bir ilerleme sunuyor. Bu gelişme, video konferans uygulamaları, dijital avatarlar ve eğlence sektöründe devrim yaratabilir.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Ouroboros: Görüntü İşlemede Çift Yönlü Yapay Zeka Modeli Geliştirdi

Araştırmacılar, görüntü oluşturma ve analiz etme işlemlerini tek seferde gerçekleştiren yenilikçi bir yapay zeka sistemi geliştirdi. Ouroboros adlı bu sistem, bir görüntüden 3D sahne bilgilerini çıkarabilirken, aynı zamanda bu bilgilerden tekrar görüntü oluşturabiliyor. Geleneksel yöntemlerin aksine, bu iki işlemi birbirini destekleyecek şekilde aynı anda yaparak hem daha tutarlı sonuçlar elde ediyor hem de işlem süresini önemli ölçüde kısaltıyor. Sistem, iç mekan ve dış mekan sahnelerinde eşit başarı gösterirken, video işleme alanında da ek eğitim gerektirmeden kullanılabiliyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Video anlayan yapay zeka için yeni pekiştirmeli öğrenme sistemi geliştirildi

Araştırmacılar, video içeriklerini anlayan büyük dil modellerini eğitmek için özel olarak tasarlanmış EasyVideoR1 adlı yeni bir pekiştirmeli öğrenme sistemi geliştirdi. Mevcut sistemler metin ve görüntü işlemede başarılı olsa da video modalitesi için önemli zorluklar barındırıyor. Yüksek boyutlu görsel verilerin sürekli işlenmesi, farklı video görev türlerinin çeşitliliği ve hassas hiperparametrelerin ayarlanması gibi teknik engeller, video anlama alanındaki gelişimi yavaşlatıyordu. Bu yeni framework, özellikle görsel-dil modellerinin video anlama yeteneklerini geliştirmek amacıyla optimize edildi ve alanda önemli bir boşluğu dolduruyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

3D Video Analizi için Yeni Yapay Zeka Optimizasyonu: Geo3DPruner

Araştırmacılar, 3D sahneleri anlayan yapay zeka modellerinin verimliliğini artıran yeni bir yöntem geliştirdi. Geo3DPruner adlı bu sistem, 3D uzamsal videolardaki görsel veri miktarını geometri tabanlı bir yaklaşımla azaltarak, modellerin daha hızlı çalışmasını sağlıyor. Sistem, karelerararası tutarlılığı koruyarak gereksiz veriyi temizliyor ve sahnenin bütünlüğünü muhafaza ediyor. Bu gelişme, 3D sahne anlama teknolojilerinin daha pratik hale gelmesine katkı sağlayacak.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Artık Videolardaki Nesnelerin Sesini Gerçekçi Stereo Olarak Üretebiliyor

Araştırmacılar, videoları izleyerek gerçekçi stereo ses efektleri üreten StereoFoley adlı yeni bir yapay zeka sistemi geliştirdi. Sistem, videolardaki nesneleri tanıyarak onların uzamsal konumlarına göre stereo ses üretebiliyor. Mevcut sistemlerin aksine, bu teknoloji nesnelerin videodaki yerlerine göre ses yönlendirmesi yapabiliyor ve 48 kHz kalitesinde profesyonel düzeyde stereo ses çıktısı sunuyor. Veri eksikliği sorununu çözmek için sentetik veri üretim tekniği kullanan sistem, video analizi, nesne takibi ve dinamik ses sentezi birleştirerek çalışıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Gauss Sıçrama Tekniği Video Kalitesini 100 Kat Daha Hızlı Artırıyor

Araştırmacılar, düşük kaliteli videoları hem çözünürlük hem de kare hızı açısından aynı anda iyileştiren yeni bir yapay zeka yöntemi geliştirdi. GS-STVSR adlı bu sistem, 2D Gauss Sıçrama tekniğini kullanarak video kalitesini artırırken, mevcut yöntemlere göre 100 kata kadar daha hızlı çalışabiliyor. Geleneksel yöntemler her piksel için ayrı ayrı hesaplama yaparken, yeni sistem Gauss çekirdeklerinin zamansal hareketini modelleyerek bu işlemi optimize ediyor. Bu gelişme, video akış platformlarından güvenlik kameralarına kadar birçok alanda uygulanabilir.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modelleri Artık 3 Boyutlu Uzamsal Düşünebiliyor

Büyük dil modelleri görsel içerikleri anlayabilse de 3 boyutlu uzamsal akıl yürütmede zorlanıyordu. Araştırmacılar, bu sorunu çözmek için TRACE adlı yeni bir yöntem geliştirdi. Bu sistem, video görüntülerindeki 3D ortamları metin tabanlı temsillere dönüştürerek yapay zekanın uzamsal sorulara daha doğru yanıtlar vermesini sağlıyor. Bilişsel uzamsal akıl yürütme teorilerinden ilham alan çalışma, yapay zekanın çevresel algısını önemli ölçüde geliştiriyor. Test sonuçları, TRACE yönteminin mevcut tekniklere göre belirgin iyileştirmeler sağladığını gösteriyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Video verisi ile 3D karakterleri daha gerçekçi hareket ettiren yeni sistem

Araştırmacılar, 3D karakterlerin daha doğal ve fiziksel olarak tutarlı hareketler yapmasını sağlayan ViPS adlı yeni bir sistem geliştirdi. Bu teknoloji, video yapay zeka modellerinden öğrenilen hareket bilgilerini kullanarak, 3D karakterlerin anatomik olarak imkansız pozlar almasını veya vücut parçalarının birbirine geçmesini önlüyor. Geleneksel yöntemler, sanatçılar tarafından elle hazırlanan kısıtlı veri setlerine dayanırken, ViPS video difüzyon modellerinden hareket bilgisi çıkararak daha geniş bir hareket repertuarı sunuyor. Bu gelişme, video oyunlarından animasyon filmlerine kadar birçok alanda 3D karakter animasyonunu otomatikleştirme potansiyeline sahip.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Video-Robin: Videolar için Müzik Üreten Yapay Zeka Geliştirildi

Araştırmacılar, videolara uygun arka plan müziği otomatik olarak oluşturabilen yenilikçi bir yapay zeka sistemi geliştirdi. Video-Robin adlı bu sistem, sadece görsel içeriği değil, aynı zamanda kullanıcının metin komutlarını da dikkate alarak müzik üretiyor. Sistem, iki farklı AI teknolojisini birleştiriyor: otoregresif planlama modülü müziğin genel yapısını belirlerken, difüzyon transformatörleri yüksek kaliteli ses üretimi yapıyor. Bu yaklaşım, hem müzikal kaliteyi hem de semantik anlayışı dengeleyerek kullanıcılara daha fazla kontrol imkanı sunuyor. Geleneksel video-müzik sistemlerinin aksine, Video-Robin kullanıcıların müziğin stilini ve içeriğini metin komutlarıyla yönlendirebilmesine olanak tanıyor. Bu gelişme, video üretimi, reklamcılık ve eğlence sektörü için önemli fırsatlar yaratabilir.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Yapay Zeka Artık Dudak Hareketlerinden Konuşma Sentezleyebiliyor

Araştırmacılar, sessiz videolardaki dudak hareketlerinden gerçekçi konuşma sesleri üreten yeni bir yapay zeka sistemi geliştirdi. HiCoDiT adlı bu sistem, konuşmanın hiyerarşik yapısını taklit ederek önce konuşmacının genel ses özelliklerini, ardından ince prosodik detayları öğreniyor. Sistem, konuşmanın farklı katmanlarını ayrı ayrı işleyerek görsel ve işitsel özellikler arasında güçlü bir uyum sağlıyor. Bu teknoloji, işaret dili tercümanlığı, ses kaybı yaşayan kişiler için rehabilitasyon ve film endüstrisinde dublaj gibi alanlarda devrim yaratabilir. Diffusion transformer mimarisi kullanan sistem, mevcut yöntemlere göre daha doğal ve anlaşılır konuşma sentezliyor.

arXiv (CS + AI) 0