"modalite" araması — BilimKapsül

Arama Sonuçları

44 haber

Dil Modeli Ağırlıkları Robotik ve Oyunlarda da Başarılı

Araştırmacılar, sadece metin üzerinde eğitilmiş yapay zeka modellerinin ağırlıklarını değiştirmeden farklı alanlarda kullanabileceklerini gösterdi. Gemma 4 31B modelinin donmuş ağırlıkları, ince bir ara yüz katmanıyla robotik manipülasyon ve karar verme görevlerinde başarılı sonuçlar verdi. Bu yaklaşım, her yeni görev için sıfırdan model eğitme ihtiyacını ortadan kaldırabilir. Özellikle robotik görevlerde yayınlanmış en iyi sonuçları geçerken, karar verme problemlerinde de mevcut yöntemlerle rekabet etti. Araştırma, yapay zekanın farklı modaliteler arasında nasıl transfer edilebileceğine dair önemli ipuçları sunuyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) · 11 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Çağında Sınıf Etkileşimlerini Anlamak: Yeni Araştırma Çerçevesi

Araştırmacılar, sınıf içi etkileşimleri incelemek için yeni bir metodolojik çerçeve geliştirdi. Bu çerçeve, ölçek, süre ve modalite olmak üzere üç boyut üzerinden eğitim araştırmalarını haritalandırıyor. Geleneksel olarak büyük ölçekli gözlemler ile derinlemesine etnografik çalışmalar arasında bölünmüş olan bu alan, yapay zeka teknolojilerinin gelişimiyle birlikte yeni imkanlar kazanıyor. Çalışma, dialogik öğretim üzerine yapılan farklı araştırmaları karşılaştırarak, her yaklaşımın neyi ortaya çıkardığını ve neyi gizlediğini gösteriyor. Yapay zekanın bu alanı nasıl genişlettiği ve yeni araç tasarımlarına nasıl rehberlik edebileceği de inceleniyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) · 14 gün önce

Teknoloji & Yapay Zeka

Çoklu Modaliteli AI Sistemlerinde Akıl Yürütmenin Gizli Engelleri Keşfedildi

Yapay zeka araştırmacıları, metin, görsel ve ses gibi farklı veri türlerini birleştiren çoklu modaliteli büyük dil modellerinin (MLLM) akıl yürütme performansını detaylı olarak inceledi. Araştırma, ek modalitelerin her zaman performansı artırmadığını, hatta bazen zararlı olabileceğini ortaya koydu. Altı farklı etkileşim paternini analiz eden yeni bir değerlendirme çerçevesi geliştiren bilim insanları, modalitelerin bağımsız ve yeterli akıl yürütme yolları sağladığında performansı artırdığını, ancak gereksiz veya zincirleme mantıksal bağlantıların performansı düşürdüğünü keşfetti. Bu bulgular, AI sistemlerinin farklı veri türlerini nasıl işlediğini anlamamızı derinleştiriyor ve gelecekteki çoklu modaliteli AI sistemlerinin tasarımında kritik önem taşıyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) · 14 gün önce

Nörobilim & Psikoloji

Çoklu Duyu Öğrenmesi Görsel Nöronları Koku Hafızasına Dahil Ediyor

Meyve sineği Drosophila üzerinde yapılan yeni bir araştırma, çoklu duyu deneyimlerinin hafızayı nasıl güçlendirdiğine dair önemli bulgular ortaya koydu. Bilim insanları, renk ve koku gibi farklı duyusal ipuçlarının bir arada öğrenilmesinin, her bir duyunun tek başına test edildiğinde bile hafıza performansını artırdığını keşfetti. Araştırma, normalde görme ile ilgili olan nöronların, çoklu duyusal öğrenme sırasında koku hafızasına da dahil olduğunu gösteriyor. Bu süreçte mantar cisimcikleri olarak bilinen beyin bölgesindeki Kenyon hücreleri kritik rol oynuyor. Bulgular, beynin farklı duyu modalitelerini nasıl birleştirdiği ve bu birleştirmenin hafızayı nasıl güçlendirdiği konusunda yeni perspektifler sunuyor.

arXiv (Biyoloji) · 14 gün önce

Teknoloji & Yapay Zeka

Yapay zeka ajanlarına görsel hafıza sistemi: OCR-Memory ile uzun süreli öğrenme

Araştırmacılar, yapay zeka ajanlarının uzun vadeli deneyimlerini saklaması için yenilikçi bir hafıza sistemi geliştirdi. OCR-Memory adlı bu sistem, geleneksel metin tabanlı hafıza sistemlerinin token sınırlaması sorununu çözmek için görsel modaliteyi kullanıyor. Sistem, yapay zeka ajanlarının geçmiş deneyimlerini görüntülere dönüştürerek saklamakta ve ihtiyaç duyulduğunda bu görsel bilgileri geri çağırabilmektedir. Bu yaklaşım, ajanların sınırsız uzunluktaki geçmişlerini minimal bilgi işlem maliyetiyle tutabilmesini sağlıyor. Geleneksel sistemlerde ya ham veri çok pahalı oluyor ya da özetleme sırasında önemli bilgiler kayboluyor. OCR-Memory ise görsel kimlik işaretçileri kullanarak bu sorunu çözüyor ve 'bul-ve-çevir' paradigmasıyla çalışıyor.

arXiv (Dilbilim & NLP) · 15 gün önce

Teknoloji & Yapay Zeka

Robotlar İçin Dokunma ve Görme Duyularını Birleştiren Yeni Yapay Zeka Modeli

Araştırmacılar, robotların dokunma ve görme duyularını birleştirerek çevreyi daha iyi algılayabilmesi için ViTaPEs adlı yeni bir yapay zeka modeli geliştirdi. Bu model, transformer mimarisini kullanarak görsel ve dokunsal verileri aynı anda işleyebiliyor. Robotik alanında önemli bir gelişme olan bu sistem, malzeme dokusunu, sertliğini ve kuvvet bilgilerini görsel verilerle harmanlayarak daha kapsamlı çevresel algı sağlıyor. Model, iki aşamalı konumsal kodlama sistemi kullanarak her modaliteye özel yerel kodlamalar ve ortak global kodlamalar uyguluyor. Bu yaklaşım, robotların farklı görevlerde ve ortamlarda daha başarılı performans göstermesini sağlayabilir.

arXiv (Robotik) · 15 gün önce

Teknoloji & Yapay Zeka

Robot Dil Anlama Sorunu: Görsel Önyargılar Dil Komutlarını Eziyor

Yapay zeka robotları görsel ipuçlarını o kadar güçlü işliyor ki, insanların verdiği dil komutlarını göz ardı ediyor. Araştırmacılar bu sorunu 'modalite çöküşü' olarak tanımlıyor - robotlar komutların gerçek anlamını kavramak yerine sadece belirli kelime dizilimine takılıp kalıyor. Yeni geliştirilen RSS (Residual Semantic Steering) yöntemi, robotların hem görsel hem de dil bilgisini dengeli şekilde kullanmasını sağlayarak bu sorunu çözmeye odaklanıyor. Bu gelişme, robotların insan komutlarını daha esnek ve doğru anlayabilmesi için kritik bir adım.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

Multimodal AI modelleri temel matematikte neden başarısız oluyor?

Stanford araştırmacıları, gelişmiş çok modallı yapay zeka modellerinin görsel, işitsel ve metin tabanlı matematik problemlerinde beklenmedik zorluklarla karşılaştığını ortaya çıkardı. GPT-4V, Claude-3 ve Gemini gibi modeller, sayıları farklı formatlarda algılayabilmesine rağmen çok basamaklı çarpma işlemlerinde ciddi hatalar yapıyor. Araştırma, aynı matematik probleminin rakam, kelime, görsel veya ses formatında sunulmasına göre model performansının dramatik şekilde değiştiğini gösteriyor. Bu bulgular, AI modellerinin gerçek aritmetik yeteneklerinin sanıldığından çok daha sınırlı olduğunu ve farklı modaliteler arasında tutarsız davranış sergilediklerini işaret ediyor.

arXiv (CS + AI) · 24 gün önce

Tıp & Sağlık

Tıbbi yapay zekada önyargıları önleyen yeni sistem geliştirildi

Araştırmacılar, tıbbi görüntüleme ve klinik metinleri birleştiren yapay zeka sistemlerindeki önyargıları kontrol eden BiasCareVL adlı yeni bir çerçeve geliştirdi. Sistem, hastalık yaygınlığındaki dengesizlik, demografik farklılıklar ve görüntüleme protokollerindeki heterojenlik gibi sorunları model tasarımının başından itibaren ele alıyor. 15'ten fazla görüntüleme modalitesinden 3,44 milyon örnek üzerinde eğitilen framework, belirsizlik modellemesi ve isteğe bağlı insan müdahalesi ile adil ve güvenilir klinik karar vermeyi destekliyor. Bu yaklaşım, önyargıları sonradan düzeltmeye çalışmak yerine baştan önlemeyi hedefliyor.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Sesli Komutlarda Neden Zorlanıyor? Çözüm Yolda

Yapay zeka sistemleri metin üzerinde başarılı sonuçlar verirken, aynı soruyu sesli olarak sorduğumuzda performansları düşüyor. MIT ve diğer kuruluşlardan araştırmacılar, bu 'modalite akıl yürütme açığı' olarak adlandırılan sorunu çözmek için TARS adlı yeni bir framework geliştirdi. Sistem, pekiştirmeli öğrenme kullanarak sesli ve metinsel girdiler arasındaki performans farkını kapatmaya odaklanıyor. Bu gelişme, sesli asistanların daha akıllı ve tutarlı yanıtlar vermesinin önünü açabilir.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

Video anlayan yapay zeka için yeni pekiştirmeli öğrenme sistemi geliştirildi

Araştırmacılar, video içeriklerini anlayan büyük dil modellerini eğitmek için özel olarak tasarlanmış EasyVideoR1 adlı yeni bir pekiştirmeli öğrenme sistemi geliştirdi. Mevcut sistemler metin ve görüntü işlemede başarılı olsa da video modalitesi için önemli zorluklar barındırıyor. Yüksek boyutlu görsel verilerin sürekli işlenmesi, farklı video görev türlerinin çeşitliliği ve hassas hiperparametrelerin ayarlanması gibi teknik engeller, video anlama alanındaki gelişimi yavaşlatıyordu. Bu yeni framework, özellikle görsel-dil modellerinin video anlama yeteneklerini geliştirmek amacıyla optimize edildi ve alanda önemli bir boşluğu dolduruyor.

arXiv (CS + AI) · 24 gün önce

← 1 2 3 4 →