"video tespit" araması

Arama Sonuçları

34 haber

iPhone'da 20 Dakikada Robotik Algı Sistemi: FalconApp Çığır Açıyor

Araştırmacılar, iPhone kullanarak sadece 20 dakikada robotik algı sistemleri geliştirebilen devrim niteliğinde bir uygulama geliştirdi. FalconApp adlı bu sistem, kullanıcının herhangi bir nesneyi kısa bir video ile çekmesinin ardından otomatik olarak etiketlenmiş sentetik veriler üretip makine öğrenmesi modeli eğitiyor. Geleneksel robotik algı sistemlerinde büyük miktarda manuel etiketlenmiş veri ihtiyacı en büyük engeldi. Bu yeni yaklaşım, gerçek dünya verilerinin manuel etiketleme sürecini tamamen ortadan kaldırarak robotik alanında önemli bir zaman ve maliyet tasarrufu sağlıyor. Sistem, nesne tespiti ve 6 serbestlik dereceli konum belirleme gibi karmaşık görevleri başarıyla yerine getiriyor.

arXiv (Robotik) · 16 gün önce

Teknoloji & Yapay Zeka

Yapay zeka modelleri animasyonları ne kadar iyi anlıyor?

Kullanıcı arayüzlerinde çalışan yapay zeka ajanları, arayüzlerin nasıl bilgi ilettiğini anlamak zorunda. Modern arayüzlerde estetikten çok daha fazlası olan animasyonlar, kritik işlevsel amaçlara hizmet ediyor. Ancak görme-dil modellerinin (VLM) arayüz anlayışıyla ilgili çalışmalar çoğunlukla statik ekran görüntüleri üzerinde yoğunlaştı. Araştırmacılar bu boşluğu doldurmak için 300 anotasyonlu kullanıcı arayüzü animasyon videosu içeren AniMINT veri setini oluşturdu. En gelişmiş VLM'lerin animasyonları algılama, amaçlarını belirleme ve anlamlarını yorumlama yeteneklerini sistematik olarak değerlendirdiler. Sonuçlar, bu modellerin temel hareketleri güvenilir şekilde tespit edebildiğini ancak üst düzey anlayışta zorlandığını gösteriyor. Bu çalışma, yapay zeka ajanlarının kullanıcı arayüzleriyle etkileşimini geliştirmek için kritik bir adım oluşturuyor.

arXiv (Dilbilim & NLP) · 16 gün önce

Teknoloji & Yapay Zeka

Sesli Komutlarla Video Analizi: Yapay Zeka Yarışmasında Birinci Olan Sistem

Araştırmacılar, konuşma dilindeki komutları anlayarak videolardaki nesneleri tespit edip ayırabilen yenilikçi bir yapay zeka sistemi geliştirdi. APRVOS adlı bu sistem, PVUW MeViS-Audio yarışmasında birinci oldu. Geleneksel metin tabanlı sistemlerden farklı olarak, sesli komutları anlayıp videolardaki hedef nesneleri hassas şekilde segmentlere ayırabiliyor. Sistem, önce konuşmayı metne dönüştürüyor, ardından tarif edilen nesnenin videoda gerçekten var olup olmadığını kontrol ediyor. Bu yaklaşım, ses teknolojileri ve bilgisayarlı görü arasında köprü kurarak multimodal yapay zeka uygulamalarında önemli bir adım temsil ediyor.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Ajanları Metni Videoya Çevirme Konusunda İşbirliği Yapacak

Araştırmacılar, metin tabanlı video üretim sistemlerinin karmaşık senaryolarda yaşadığı zorlukları aşmak için yeni bir çoklu ajan sistemi geliştirdi. SCMAPR adı verilen bu framework, belirsiz veya eksik metin komutlarını otomatik olarak iyileştirerek daha kaliteli videolar üretmeyi hedefliyor. Sistem, özelleşmiş yapay zeka ajanlarının koordineli çalışmasıyla metin komutlarını analiz ediyor, uygun stratejiler belirliyor ve hataları tespit ettiğinde otomatik düzeltmeler yapıyor. Bu gelişme, metin-video dönüştürme teknolojisinde önemli bir adım olarak görülüyor ve gelecekte daha karmaşık video içeriklerinin kolayca üretilebilmesine katkı sağlayabilir.

arXiv (CS + AI) · 25 gün önce

Teknoloji & Yapay Zeka

Videolardaki İlişkileri Yorumlayabilen Yeni Yapay Zeka Modeli Geliştirildi

Araştırmacılar, videolardaki nesneler ve aralarındaki ilişkileri daha iyi anlayabilen yeni bir yapay zeka modeli geliştirdi. FReMuRe adlı bu model, özellikle nadir görülen ilişkileri tespit etmede başarılı oluyor. Video analizinde yaşanan temel sorunlardan biri, bazı nesne ilişkilerinin çok sık, bazılarının ise çok nadir görülmesi. Bu durum yapay zekanın nadir ilişkileri öğrenmesini zorlaştırıyor. Yeni model, sık ve nadir ilişkileri ayrı ayrı işleyerek bu sorunu çözüyor. Araştırma, video analizi, güvenlik sistemleri ve içerik moderasyonu gibi alanlarda önemli iyileştirmeler sağlayabilir. Model ayrıca belirsizlik tahminleri yapabilen özel başlıklar kullanarak daha güvenilir sonuçlar üretiyor.

arXiv (CS + AI) · 25 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Fizik Bilgisiyle Video İzleyerek Parçacık Takibi Yapıyor

Araştırmacılar, video görüntülerinden tek parçacıkları takip edebilen yeni bir yapay zeka sistemi geliştirdi. Physics-Informed Tracking (PIT) adı verilen bu sistem, sinir ağları ve fizik kurallarını birleştirerek parçacıkların hareketlerini daha doğru şekilde izliyor. Sistem, parçacıkların konumlarını tespit eden otoenkoder ağ yapısı ile fizik dinamiklerini uygulayan modülü bir araya getiriyor. Geliştirilen özel kayıp fonksiyonu, parçacık yörüngelerinin fiziksel tutarlılığını sağlıyor ve etiket verilerine ihtiyaç duymadan öğrenme gerçekleştiriyor. Bu yenilik, bilimsel araştırmalardan endüstriyel uygulamalara kadar geniş bir yelpazede parçacık takibi gerektiren alanlarda kullanılabilir.

arXiv (CS + AI) · 25 gün önce

Teknoloji & Yapay Zeka

Yapay zeka artık sadece metin açıklamasıyla videoları analiz edebiliyor

Araştırmacılar, videolardaki nesneleri tanımlamak için yalnızca metin açıklamalarını kullanan yeni bir yapay zeka yöntemi geliştirdi. WSRVOS adı verilen bu sistem, geleneksel yöntemlerin aksine pahalı piksel düzeyinde etiketlemeye ihtiyaç duymadan çalışıyor. Sistem, büyük dil modellerinin açıklama yeteneklerini kullanarak pozitif ve negatif ifadeler üretiyor, ardından görsel ve dilsel özellikleri birleştirerek videodan hedef nesneyi tespit ediyor. Bu yenilik, video analizi alanında maliyet ve işgücü açısından büyük tasarruf sağlarken, yapay zekanın dil anlama kapasitesini görüntü işlemeyle birleştiren önemli bir adım olarak değerlendiriliyor.

arXiv (CS + AI) · 25 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Video Altyazılarını Gerçeklik Kontrolüyle Değerlendiren Yeni Model

Araştırmacılar, video altyazılarının kalitesini ve gerçekliğini değerlendiren VC-Inspector adlı yeni bir yapay zeka modeli geliştirdi. Mevcut değerlendirme sistemlerinin aksine, bu model herhangi bir referans metne ihtiyaç duymadan altyazıların ne kadar doğru olduğunu analiz edebiliyor. Model, özellikle gerçeklik kontrolüne odaklanarak, altyazılardaki yanlış bilgileri tespit edebiliyor. Test sonuçları, VC-Inspector'ın insan değerlendirmenleriyle oldukça uyumlu sonuçlar verdiğini ve farklı video türlerinde başarılı olduğunu gösteriyor. Açık kaynak olarak sunulan bu teknoloji, video içerik üreticilerinden eğitim platformlarına kadar geniş bir kullanım alanına sahip.

arXiv (CS + AI) · 25 gün önce

Teknoloji & Yapay Zeka

Video Analizinde Devrim: Yeni Yapay Zeka Modeli Transformer'lardan 10 Kat Hızlı

Araştırmacılar, videolardaki eylemleri tespit etmek için geliştirdikleri LiquidTAD adlı yeni yapay zeka modeliyle önemli bir atılım gerçekleştirdi. Mevcut Transformer tabanlı sistemlerin aksine, bu model sıvı sinir ağlarından ilham alarak hem çok daha hızlı hem de daha az kaynak tüketiyor. Geleneksel modellerin karmaşık hesaplama gerektiren karesel yapısına karşın, LiquidTAD doğrusal bir yaklaşım kullanarak aynı performansı çok daha verimli şekilde sunuyor. Bu gelişme, özellikle kaynak kısıtlı ortamlarda video analizi yapan uygulamalar için büyük önem taşıyor.

arXiv (CS + AI) · 25 gün önce

Teknoloji & Yapay Zeka

Videolarda Görülmemiş Eylemleri Tespit Eden Yapay Zeka Modeli Geliştirildi

Araştırmacılar, videolarda daha önce görmediği eylemleri tanıyabilen yeni bir yapay zeka sistemi geliştirdi. DFAlign adlı bu sistem, difüzyon teknolojisini kullanarak video içeriklerindeki gereksiz bilgileri temizliyor ve eylem tespitinde daha başarılı sonuçlar elde ediyor. Geleneksel yöntemlerin aksine, bu sistem basit eylem etiketleri ile karmaşık video içerikleri arasındaki uyumsuzluğu çözmeye odaklanıyor. Teknoloji, özellikle güvenlik kameraları, spor analizi ve içerik moderasyonu gibi alanlarda devrim yaratma potansiyeli taşıyor. Sistem, videolardaki arka plan gürültüsünü bastırırken önemli eylem bilgilerini ön plana çıkarıyor.

arXiv (CS + AI) · 25 gün önce

Teknoloji & Yapay Zeka

İnsan Odaklı Video Üretimi İçin Devasa Veri Seti: OmniHuman

Yapay zeka destekli video üretim teknolojileri hızla gelişirken, gerçekçi insan figürleri içeren videolar oluşturmak hala önemli bir zorluk teşkil ediyor. Araştırmacılar, mevcut veri setlerinin yetersizliklerini tespit ederek OmniHuman adında kapsamlı bir veri seti geliştirdi. Bu yeni veri seti, video üretim modellerinin insan davranışlarını, etkileşimlerini ve fiziksel özelliklerini daha doğru öğrenmesini sağlamayı hedefliyor. OmniHuman, sahne çeşitliliğinden bireysel özelliklere kadar çok katmanlı açıklamalar içeriyor ve tamamen otomatik bir veri toplama sistemiyle oluşturuluyor. Bu gelişme, sinema, oyun ve sanal gerçeklik gibi sektörlerde insan karakterleri içeren içerik üretimini devrimsel şekilde değiştirebilir.

arXiv (CS + AI) · 25 gün önce

← 1 2 3 →