"AI benchmark" araması

Arama Sonuçları

116 haber

Yapay Zeka Tarihi Hava Arşivlerini Çözmeye Başlıyor

Araştırmacılar, yüzyıllık hava durumu arşivlerindeki değerli bilgileri ortaya çıkarmak için yeni bir yapay zeka benchmark'ı geliştirdi. WeatherArchive-Bench adlı sistem, bir milyondan fazla tarihi haber segmentinden toplumların aşırı hava olaylarına nasıl tepki verdiğini analiz edebiliyor. Bu arşivler, meteorolojik kayıtlarda bulunmayan toplumsal dayanıklılık ve kırılganlık hikayelerini barındırıyor ancak eski dil kullanımı ve dijitalleştirme sorunları nedeniyle analizi zordu. Yeni benchmark, bu tarihi verileri iklim araştırmaları için yapılandırılmış bilgiye dönüştürmeyi hedefliyor.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Modellerinde Çoklu Görev Öğrenimini İyileştiren Yeni Yöntem Geliştirildi

Araştırmacılar, yapay zeka modellerinde farklı görevler için eğitilmiş LoRA adaptörlerini birleştirirken yaşanan performans kaybının temel nedenini keşfetti. Çalışma, sorunun LoRA matrislerinden B matrisinin ortak yönleri aşırı vurgulamasından kaynaklandığını ortaya koydu. Geliştirilen Pico yöntemi, veri kullanmadan bu sorunu çözerek matematik, kodlama, finans ve tıp alanlarındaki sekiz farklı benchmark testinde başarı gösterdi. Bu buluş, büyük dil modellerinin çoklu görev performansını artırabilir.

arXiv (Dilbilim & NLP) · 24 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Görsel Sıkıştırma: Basit Yöntemler Gelişmiş Tekniklerden Daha İyi

Çok modlu büyük dil modellerinde görsel token sıkıştırma yöntemlerini değerlendiren yeni bir araştırma, şaşırtıcı bir sonuç ortaya koydu. Sekiz popüler benchmark üzerinde yapılan kapsamlı çalışmada, basit görüntü boyut küçültme işleminin birçok gelişmiş sıkıştırma tekniğinden daha iyi performans gösterdiği keşfedildi. Araştırmacılar, mevcut değerlendirme kriterlerinin görsel token sıkıştırma için uygun olmadığını ve önemli miktarda gürültü içerdiğini tespit etti. Bu bulgular, yapay zeka alanında kullanılan benchmark sistemlerinin yeniden değerlendirilmesi gerektiğini gösteriyor.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

Neptune: Yapay Zeka Hesaplamalarını Hızlandıran Yeni Derleyici Teknolojisi

Araştırmacılar, derin öğrenme modellerinin GPU'larda daha verimli çalışmasını sağlayan Neptune adlı yeni bir tensor derleyici geliştirdi. Bu teknoloji, karmaşık matematiksel işlemleri birleştirerek bellek kullanımını optimize ediyor ve hesaplama hızını artırıyor. Özellikle dikkat mekanizmalarında kullanılan karmaşık döngü bağımlılıklarını çözebilen Neptune, mevcut derleyicilerin zorlandığı alanları da başarıyla ele alıyor. Sistem, matematiksel düzeltme ifadeleri kullanarak doğruluğu korurken performansı maksimize eden yenilikçi bir yaklaşım benimsiyor. On farklı benchmark testinde yapılan değerlendirmeler, Neptune'ün mevcut çözümlerden üstün performans sergilediğini gösteriyor.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Testlerindeki Büyük Sorun: Benchmark Araçları Yanıltıyor

Araştırmacılar, yapay zeka modellerinin performansını ölçmek için kullanılan çoktan seçmeli test sistemlerinde ciddi kalite sorunları tespit etti. BenchMarker adlı yeni araç, 12 farklı test sistemini inceledi ve şaşırtıcı sonuçlar ortaya çıkardı. Testlerin yarısının internette aynen bulunabildiği, bazılarının tamamen hatalı kurallara sahip olduğu belirlendi. Bu durum, AI modellerinin gerçek performansının yanlış değerlendirilmesine yol açıyor. Özellikle otomatik oluşturulan ve kitlesel kaynak kullanımıyla hazırlanan testlerde sorunlar daha yaygın görülüyor.

arXiv (CS + AI) · 24 gün önce

Tıp & Sağlık

Yapay Zeka Modellerinin Tıbbi Görüntü Analiz Yeteneği Sınırlı Kaldı

Araştırmacılar, yapay zeka modellerinin gerçek klinik ortamlarda karşılaştıkları çoklu görüntü analizinde ne kadar başarılı olduklarını test etti. MedThinkVQA adlı yeni benchmark, her vakada ortalama 6,62 görüntü içeren 8.067 tıbbi durumu kapsıyor. Çalışmanın sonuçları, en gelişmiş AI modellerinin bile bu konuda zorlandığını ortaya koydu. En iyi performans gösteren Claude ve GPT modelleri %55-57 doğruluk oranına ulaşırken, açık kaynak modeller daha da geride kaldı. Bu bulgular, AI'nın tıp alanındaki uygulamalarında hâlâ önemli sınırları olduğunu gösteriyor.

arXiv (Dilbilim & NLP) · 24 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Gözlük Gibi Takıldı: Görsel Dikkat ile Resim Büküm Teknolojisi

Araştırmacılar, çok modlu büyük dil modellerinin görsel algı sorunlarına yenilikçi bir çözüm geliştirdi. AttWarp adlı bu yöntem, yapay zekanın dikkat mekanizmasını kullanarak görüntüleri akıllıca bükerek önemli detayları büyütüyor. Sistem, modelin önemsediği bölgelere daha fazla çözünürlük ayırırken, daha az bilgi içeren alanları sıkıştırıyor. Bu yaklaşım sayesinde yapay zeka, küçük nesneleri ve ince detayları daha iyi algılayabiliyor. Beş farklı benchmark testinde yapılan değerlendirmeler, yöntemin başarısını kanıtladı. En önemlisi, bu iyileştirme model ağırlıklarını değiştirmeden gerçekleştiriliyor.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

Althea: İnsan ve AI İşbirliğiyle Yanlış Bilgiyle Mücadelede Yeni Dönem

Araştırmacılar, çevrimiçi yanlış bilgiyle mücadelede devrim yaratabilecek Althea adlı yeni bir sistem geliştirdi. Bu hibrit yaklaşım, yapay zekanın hızını insan muhakemesinin güvenilirliğiyle birleştiriyor. Sistem, kullanıcıların iddiaları değerlendirmesine yardımcı olmak için soru üretimi, kanıt toplama ve yapılandırılmış mantık yürütme süreçlerini entegre ediyor. AVeriTeC benchmark testlerinde standart doğrulama sistemlerini geride bırakan Althea, 963 katılımcılı kullanıcı çalışmasında da umut verici sonuçlar gösterdi. Geleneksel otomatik sistemlerin şeffaflık eksikliği ve insan doğrulamasının yavaşlığı sorunlarına çözüm arayan bu yaklaşım, internetteki bilgi kirliliğine karşı yeni bir strateji sunuyor.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Kod Üretiminde Kritik Açık: Güvenlik Koşulları Test Edilmiyor

Araştırmacılar, mevcut yapay zeka kod üretim sistemlerinin değerlendirme yöntemlerinde önemli bir boşluk keşfetti. Günümüzde kullanılan test sistemleri, kodların sadece doğru girdilerle çalışıp çalışmadığını kontrol ediyor, ancak hatalı veya zararlı girdilere karşı nasıl davrandığını test etmiyor. Bu durum, yüksek başarı puanı alan kodların aslında önemli güvenlik açıklarına sahip olabileceği anlamına geliyor. ContractEval adlı yeni benchmark sistemi, bu sorunu çözmek için geliştirildi ve 364 farklı görevle yapay zeka tarafından üretilen kodların gerçek dünya koşullarında ne kadar güvenilir olduğunu ölçebiliyor.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Araştırma Yetenekleri İçin Yeni Değerlendirme Sistemi Geliştirildi

Araştırmacılar, yapay zeka sistemlerinin gerçek zamanlı web araştırması yaparak kapsamlı raporlar üretme becerisini ölçmek için LiveResearchBench adlı yeni bir değerlendirme sistemi geliştirdi. Bu sistem, mevcut değerlendirme yöntemlerinin eksikliklerini gidermek amacıyla tasarlandı. Günlük yaşam, iş dünyası ve akademi alanlarından 100 uzman tarafından seçilmiş görev içeren benchmark, yapay zeka sistemlerinin kullanıcı odaklı, güncel bilgi gerektiren, net tanımlanmış ve çok yönlü araştırma yapabilme kapasitelerini test ediyor. Mevcut sistemler genellikle dar alanlar üzerinde odaklanıyor veya belirsiz sorular soruyor, bu da adil karşılaştırma yapmayı zorlaştırıyor. Yeni sistem, yapay zeka ajanlarının yüzlerce canlı web kaynağından bilgi arayıp sentezleyerek referans destekli kapsamlı raporlar üretme yeteneğini değerlendiriyor.

arXiv (CS + AI) · 24 gün önce

Teknoloji & Yapay Zeka

EgoSound: Yapay Zeka İçin İlk Kişi Bakış Açısı Ses Anlama Kıyaslama Sistemi

Araştırmacılar, yapay zekanın egosantrik videolarda ses anlama yeteneğini değerlendiren ilk kapsamlı kıyaslama sistemi olan EgoSound'u geliştirdi. İnsanların görme, işitme ve hareket algısını birleştirerek dünyayı anlamlandırdığı gerçeğinden yola çıkan sistem, özellikle birinci şahıs görüş açısından çekilen videolarda sesin önemini vurguluyor. EgoSound, mekânsal düzen hakkında ipuçları, ekran dışı olaylar ve nedensel etkileşimler gibi ses yoluyla elde edilen kritik bilgileri analiz ediyor. 900 video üzerinde 7315 doğrulanmış soru-cevap çifti içeren bu benchmark, ses algısından mekânsal konumlandırmaya, nedensel çıkarımdan çapraz modal akıl yürütmeye kadar yedi farklı görev kategorisini kapsıyor. Çok aşamalı otomatik üretim süreciyle oluşturulan sistem, çok modlu büyük dil modellerinin gerçek dünya koşullarında ses anlama kapasitelerini sistematik olarak test etmeyi mümkün kılıyor.

arXiv (CS + AI) · 24 gün önce

← 1 … 3 4 5 6 7 … 10 →