“video işleme” için sonuçlar
11 sonuç bulundu. Sonuçları kategoriye göre daraltabilirsin.
Video anlayan yapay zeka için yeni pekiştirmeli öğrenme sistemi geliştirildi
Araştırmacılar, video içeriklerini anlayan büyük dil modellerini eğitmek için özel olarak tasarlanmış EasyVideoR1 adlı yeni bir pekiştirmeli öğrenme sistemi geliştirdi. Mevcut sistemler metin ve görüntü işlemede başarılı olsa da video modalitesi için önemli zorluklar barındırıyor. Yüksek boyutlu görsel verilerin sürekli işlenmesi, farklı video görev türlerinin çeşitliliği ve hassas hiperparametrelerin ayarlanması gibi teknik engeller, video anlama alanındaki gelişimi yavaşlatıyordu. Bu yeni framework, özellikle görsel-dil modellerinin video anlama yeteneklerini geliştirmek amacıyla optimize edildi ve alanda önemli bir boşluğu dolduruyor.
Video verisi ile 3D karakterleri daha gerçekçi hareket ettiren yeni sistem
Araştırmacılar, 3D karakterlerin daha doğal ve fiziksel olarak tutarlı hareketler yapmasını sağlayan ViPS adlı yeni bir sistem geliştirdi. Bu teknoloji, video yapay zeka modellerinden öğrenilen hareket bilgilerini kullanarak, 3D karakterlerin anatomik olarak imkansız pozlar almasını veya vücut parçalarının birbirine geçmesini önlüyor. Geleneksel yöntemler, sanatçılar tarafından elle hazırlanan kısıtlı veri setlerine dayanırken, ViPS video difüzyon modellerinden hareket bilgisi çıkararak daha geniş bir hareket repertuarı sunuyor. Bu gelişme, video oyunlarından animasyon filmlerine kadar birçok alanda 3D karakter animasyonunu otomatikleştirme potansiyeline sahip.
Video-Robin: Videolar için Müzik Üreten Yapay Zeka Geliştirildi
Araştırmacılar, videolara uygun arka plan müziği otomatik olarak oluşturabilen yenilikçi bir yapay zeka sistemi geliştirdi. Video-Robin adlı bu sistem, sadece görsel içeriği değil, aynı zamanda kullanıcının metin komutlarını da dikkate alarak müzik üretiyor. Sistem, iki farklı AI teknolojisini birleştiriyor: otoregresif planlama modülü müziğin genel yapısını belirlerken, difüzyon transformatörleri yüksek kaliteli ses üretimi yapıyor. Bu yaklaşım, hem müzikal kaliteyi hem de semantik anlayışı dengeleyerek kullanıcılara daha fazla kontrol imkanı sunuyor. Geleneksel video-müzik sistemlerinin aksine, Video-Robin kullanıcıların müziğin stilini ve içeriğini metin komutlarıyla yönlendirebilmesine olanak tanıyor. Bu gelişme, video üretimi, reklamcılık ve eğlence sektörü için önemli fırsatlar yaratabilir.
Gauss Sıçrama Tekniği Video Kalitesini 100 Kat Daha Hızlı Artırıyor
Araştırmacılar, düşük kaliteli videoları hem çözünürlük hem de kare hızı açısından aynı anda iyileştiren yeni bir yapay zeka yöntemi geliştirdi. GS-STVSR adlı bu sistem, 2D Gauss Sıçrama tekniğini kullanarak video kalitesini artırırken, mevcut yöntemlere göre 100 kata kadar daha hızlı çalışabiliyor. Geleneksel yöntemler her piksel için ayrı ayrı hesaplama yaparken, yeni sistem Gauss çekirdeklerinin zamansal hareketini modelleyerek bu işlemi optimize ediyor. Bu gelişme, video akış platformlarından güvenlik kameralarına kadar birçok alanda uygulanabilir.
3D Video Analizi için Yeni Yapay Zeka Optimizasyonu: Geo3DPruner
Araştırmacılar, 3D sahneleri anlayan yapay zeka modellerinin verimliliğini artıran yeni bir yöntem geliştirdi. Geo3DPruner adlı bu sistem, 3D uzamsal videolardaki görsel veri miktarını geometri tabanlı bir yaklaşımla azaltarak, modellerin daha hızlı çalışmasını sağlıyor. Sistem, karelerararası tutarlılığı koruyarak gereksiz veriyi temizliyor ve sahnenin bütünlüğünü muhafaza ediyor. Bu gelişme, 3D sahne anlama teknolojilerinin daha pratik hale gelmesine katkı sağlayacak.
Ouroboros: Görüntü İşlemede Çift Yönlü Yapay Zeka Modeli Geliştirdi
Araştırmacılar, görüntü oluşturma ve analiz etme işlemlerini tek seferde gerçekleştiren yenilikçi bir yapay zeka sistemi geliştirdi. Ouroboros adlı bu sistem, bir görüntüden 3D sahne bilgilerini çıkarabilirken, aynı zamanda bu bilgilerden tekrar görüntü oluşturabiliyor. Geleneksel yöntemlerin aksine, bu iki işlemi birbirini destekleyecek şekilde aynı anda yaparak hem daha tutarlı sonuçlar elde ediyor hem de işlem süresini önemli ölçüde kısaltıyor. Sistem, iç mekan ve dış mekan sahnelerinde eşit başarı gösterirken, video işleme alanında da ek eğitim gerektirmeden kullanılabiliyor.
Yapay Zeka Artık Videolardaki Nesnelerin Sesini Gerçekçi Stereo Olarak Üretebiliyor
Araştırmacılar, videoları izleyerek gerçekçi stereo ses efektleri üreten StereoFoley adlı yeni bir yapay zeka sistemi geliştirdi. Sistem, videolardaki nesneleri tanıyarak onların uzamsal konumlarına göre stereo ses üretebiliyor. Mevcut sistemlerin aksine, bu teknoloji nesnelerin videodaki yerlerine göre ses yönlendirmesi yapabiliyor ve 48 kHz kalitesinde profesyonel düzeyde stereo ses çıktısı sunuyor. Veri eksikliği sorununu çözmek için sentetik veri üretim tekniği kullanan sistem, video analizi, nesne takibi ve dinamik ses sentezi birleştirerek çalışıyor.
FlashLips: Saniyede 100 Kare Hızında Gerçek Zamanlı Dudak Senkronizasyonu
Araştırmacılar, video ve ses arasındaki dudak senkronizasyonunu gerçek zamanlı olarak gerçekleştiren yeni bir sistem geliştirdi. FlashLips adı verilen bu teknoloji, tek bir grafik kartında saniyede 100 karenin üzerinde işlem yapabilirken, mevcut en gelişmiş modellerin görsel kalitesini yakalıyor. Sistem, geleneksel GAN ve difüzyon modellerinin aksine yeniden yapılandırma temelli bir yaklaşım kullanıyor. İki aşamalı yapısıyla hem hız hem de kalite açısından önemli bir ilerleme sunuyor. Bu gelişme, video konferans uygulamaları, dijital avatarlar ve eğlence sektöründe devrim yaratabilir.
Yapay Zeka Modelleri Artık 3 Boyutlu Uzamsal Düşünebiliyor
Büyük dil modelleri görsel içerikleri anlayabilse de 3 boyutlu uzamsal akıl yürütmede zorlanıyordu. Araştırmacılar, bu sorunu çözmek için TRACE adlı yeni bir yöntem geliştirdi. Bu sistem, video görüntülerindeki 3D ortamları metin tabanlı temsillere dönüştürerek yapay zekanın uzamsal sorulara daha doğru yanıtlar vermesini sağlıyor. Bilişsel uzamsal akıl yürütme teorilerinden ilham alan çalışma, yapay zekanın çevresel algısını önemli ölçüde geliştiriyor. Test sonuçları, TRACE yönteminin mevcut tekniklere göre belirgin iyileştirmeler sağladığını gösteriyor.
Tensör Matematiğinde Çığır Açan Keşif: Eckart-Young Teoremi Genişletildi
Araştırmacılar, çok boyutlu veri dizileri olan tensörler için Eckart-Young teoreminin hangi koşullarda geçerli olduğunu tam olarak belirlediler. Bu teorem, bir tensörün en iyi düşük boyutlu yaklaşımının nasıl bulunacağını gösteriyor. Çalışma, matris matematiğinden tensör matematiğine aktarılan kavramların sınırlarını netleştirerek, video işleme ve dinamik sistemler gibi alanlarda pratik uygulamalar sunuyor. Bulgular, hangi tensör çarpım türlerinin bu önemli teoremi desteklediğini açıklığa kavuşturuyor ve gelecekteki veri analizi yöntemlerinin geliştirilmesine yol açabilir.
Yapay Zeka Artık Dudak Hareketlerinden Konuşma Sentezleyebiliyor
Araştırmacılar, sessiz videolardaki dudak hareketlerinden gerçekçi konuşma sesleri üreten yeni bir yapay zeka sistemi geliştirdi. HiCoDiT adlı bu sistem, konuşmanın hiyerarşik yapısını taklit ederek önce konuşmacının genel ses özelliklerini, ardından ince prosodik detayları öğreniyor. Sistem, konuşmanın farklı katmanlarını ayrı ayrı işleyerek görsel ve işitsel özellikler arasında güçlü bir uyum sağlıyor. Bu teknoloji, işaret dili tercümanlığı, ses kaybı yaşayan kişiler için rehabilitasyon ve film endüstrisinde dublaj gibi alanlarda devrim yaratabilir. Diffusion transformer mimarisi kullanan sistem, mevcut yöntemlere göre daha doğal ve anlaşılır konuşma sentezliyor.