“görsel-dil modeli” için sonuçlar
4 sonuç bulundu. Sonuçları kategoriye göre daraltabilirsin.
Yapay zeka modelleri görsel değerlendirmelerde neden 'kör' kararlar veriyor?
Görsel-dil modellerinin yargıç olarak kullanıldığı otomatik değerlendirme sistemlerinde kritik bir sorun keşfedildi. Araştırmacılar, bu modellerin görüntülere yeterince odaklanmadan kararlar verdiğini ve genellikle daha bilgi içeren cevapları kayırdığını buldu - görüntüyle çelişse bile. Bu 'bilgisellik önyargısı' olarak adlandırılan problem, yapay zeka değerlendirmelerinin güvenilirliğini ciddi şekilde tehlikeye atıyor. Stanford ve diğer kurumlardan araştırmacılar, BIRCH adlı yeni bir yaklaşım geliştirerek bu soruna çözüm öneriyorum. Sistem, önce adaylık cevapları görüntü içeriğiyle tutarlı hale getiriyor, sonra karşılaştırma yapıyor. Bu yöntem önyargıyı %17'ye kadar azaltırken performansı %9 artırıyor.
Otonom araçlara 'hafıza' kazandıran yeni sistem geliştirildi
Otonom araçların en büyük sorunlarından biri, her anı bağımsız değerlendirerek tutarsız kararlar vermesiydi. Araştırmacılar bu sorunu çözmek için CogDriver adlı yeni bir sistem geliştirdi. Bu sistem, otonom araçlara 'bilişsel atalet' özelliği kazandırarak geçmiş deneyimleri hatırlayabilmelerini sağlıyor. Yapay zeka modelleri genellikle sadece o anki görüntüyü analiz ederek karar veriyor, bu da kararsız sürüş davranışlarına yol açıyordu. CogDriver ise araçların çevreyi sürekli anlayabilmesi için özel bir hafıza sistemi kullanıyor. Sistem, büyük ölçekli bir veri seti ve yenilikçi mimari ile otonom araçların daha kararlı ve öngörülebilir davranmasını hedefliyor.
Yapay Zeka Görsel Halüsinasyonlarına Karşı Yeni Çözüm: ACG Yöntemi
Büyük görsel-dil modelleri bazen gerçekte olmayan nesneleri görüyor gibi davranabiliyor - bu duruma halüsinasyon deniyor. Araştırmacılar, bu sorunu çözmek için Dikkat-uzayı Kontrastif Rehberlik (ACG) adlı yeni bir yöntem geliştirdi. ACG, modelin görsel bilgiyi dil önyargılarından daha fazla dikkate almasını sağlayarak, yanlış nesne tanımlamalarını ve görsellerle uyumsuz açıklamaları önlüyor. Bu training-free yöntem, modelin dikkat katmanlarında doğrudan çalışarak, hatalar çıktı katmanında birikmeden önce müdahale ediyor.
Robotlar İçin Yeni Yapay Zeka: Zamansal ve Uzamsal Düşünebilen ST-π Modeli
Araştırmacılar, robotik manipülasyon görevlerinde devrim yaratabilecek yeni bir yapay zeka modeli geliştirdi. ST-π adı verilen bu model, mevcut vision-language-action (VLA) sistemlerinin aksine, hem uzamsal hem de zamansal bilgiyi yapılandırılmış şekilde işleyebiliyor. Geleneksel robotik AI modelleri, karmaşık görevlerde sıralı davranışları ve hassas zamanlamayı yönetmekte zorlanırken, yeni sistem bu sorunları çözmek için iki temel bileşen kullanıyor: 4D gözlemleri işleyen bir görsel-dil modeli ve bu bilgileri eylemlere dönüştüren uzmanlaşmış bir eylem sistemi. Model, görevleri alt-parçalara bölerek, her birini uzamsal ve zamansal bağlamında değerlendiriyor. Bu yaklaşım, robotların daha karmaşık manipülasyon görevlerini başarıyla gerçekleştirmesini sağlayabilir ve robotik alanında önemli bir ilerleme temsil ediyor.