"benchmark" araması — BilimKapsül

Arama Sonuçları

115 haber

Yapay Zeka Finansal Analiz Zayıflıklarını Ortaya Çıkaran Yeni Test Geliştirildi

Araştırmacılar, yapay zeka modellerinin finansal analiz yeteneklerini değerlendirmek için FinChain adlı yeni bir test sistemi geliştirdi. Mevcut testler sadece nihai cevaplara odaklanırken, FinChain yapay zekanın adım adım mantıksal düşünme sürecini de denetliyor. 12 farklı finansal alandan 58 konuyu kapsayan bu sistem, yapay zekanın her hesaplama adımını Python kodu ile doğrulayabiliyor. 26 önde gelen yapay zeka modelinin değerlendirildiği çalışmada, en gelişmiş modellerin bile finansal muhakemede önemli eksiklikleri olduğu ortaya çıktı. Bu bulgular, finansal kararların yapay zeka destekli sistemlere bırakılmadan önce dikkatli değerlendirme yapılması gerektiğini gösteriyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) · 13 gün önce

Teknoloji & Yapay Zeka

WebMall: Çoklu Mağaza Ortamında Web Ajanlarını Test Eden Yeni Benchmark

Araştırmacılar, yapay zeka destekli web ajanlarının performansını değerlendirmek için WebMall adında yeni bir benchmark geliştirdi. Mevcut test ortamları sadece tek mağazalarda basit alışveriş görevlerini kapsarken, WebMall farklı mağazalardan ürün karşılaştırması yapıp en uygun fiyatı bulma gibi karmaşık görevleri simüle ediyor. Bu sistem, LLM tabanlı web ajanlarının gerçek dünyada karşılaştırmalı alışveriş yapabilme yeteneklerini ölçmek için tasarlandı. WebMall, heterojen ürün verilerine sahip çoklu mağaza ortamını taklit ederek, ajanların daha zorlu ve gerçekçi e-ticaret görevlerini yerine getirmelerini test ediyor. Bu gelişme, web otomasyonu alanında önemli bir eksikliği gideriyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) · 13 gün önce

Teknoloji & Yapay Zeka

WST-X: Yapay ses sahtekarlarını yakalayan yeni nesil dedektör sistemi

Araştırmacılar, deepfake ses kayıtlarını tespit etmek için WST-X adlı yenilikçi bir özellik çıkarma sistemi geliştirdi. Bu sistem, wavelet dağılım dönüşümünü (WST) kullanarak hem şeffaflık hem de yüksek performans sunuyor. Geleneksel yöntemler ya yorumlanabilir ama sınırlı ya da güçlü ama anlaşılması zor özellikler üretiyordu. WST-X, her iki yaklaşımın avantajlarını birleştirerek çok ölçekli ve deforme edilmeye dayanıklı özellikler üretiyor. Deepfake-Eval-2024 benchmark testlerinde mevcut sistemleri büyük farkla geride bırakarak, yapay zeka destekli ses manipülasyonlarına karşı daha etkili koruma sağlıyor. Bu gelişme, ses deepfake'lerinin giderek sofistike hale geldiği dönemde özellikle önemli.

arXiv — Hesaplamalı Dilbilim (cs.CL) · 13 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Modellerinin Diyalogda Akıl Yürütme Yetisi Zayıflıyor

Yeni bir araştırma, büyük dil modellerinin (LLM) konuşma ortamında akıl yürütme performansının ciddi şekilde düştüğünü ortaya koyuyor. Stanford ve diğer üniversitelerden araştırmacılar, yapay zeka modellerinin izole testlerde başarılı olmasına rağmen, gerçek yaşam senaryolarını taklit eden diyalog tabanlı görevlerde zorlandığını keşfetti. BOULDER adlı yeni test sistemi ile sekiz farklı büyük dil modeli değerlendirildi. Sonuçlar, mevcut benchmark testlerinin yapay zeka yeteneklerini değerlendirmede yetersiz kalabileceğini ve modellerin gerçek dünya uygulamalarında beklenenin altında performans gösterebileceğini işaret ediyor. Bu bulgu, yapay zeka sistemlerinin pratik kullanımı açısından önemli sonuçlar taşıyor.

arXiv (Dilbilim & NLP) · 14 gün önce

Teknoloji & Yapay Zeka

Kuantum Bilgisayarlar İçin Yeni Optimizasyon Algoritması Geliştirildi

Araştırmacılar, kuantum bilgisayarların sürekli değişkenli sistemlerini kullanarak karmaşık optimizasyon problemlerini çözebilen yeni bir algoritma geliştirdi. CCV-QAOA adı verilen bu yöntem, sonsuz boyutlu Hilbert uzaylarından yararlanarak hem gerçek hem de karmaşık sayılı değişkenlerle çalışabiliyor. Algoritma, konveks kuadratik minimizasyon, kısıtlı kuadratik programlama ve konveks olmayan benchmark problemler gibi çeşitli optimizasyon senaryolarında test edildi. Bu gelişme, kuantum bilgisayarların pratik optimizasyon uygulamalarında daha geniş bir problem yelpazesini çözebilme potansiyelini ortaya koyuyor. Özellikle karmaşık sayılı değişkenlerle çalışabilme yeteneği, algoritmanın geleneksel yöntemlere göre önemli bir avantajı olarak öne çıkıyor.

arXiv — Kuantum Fiziği · 14 gün önce

Teknoloji & Yapay Zeka

Kuantum Bilgisayarların Performansı Avrupa'nın İlk Süperbilgisayarıyla Test Edildi

Araştırmacılar, 98 kubitlik Quantinuum Helios-1 kuantum işlemcisinin performansını değerlendirmek için Avrupa'nın ilk eksaölçekli süperbilgisayarı JUPITER'i kullandılar. Çalışmada, 4.096 düğüm ve 16.384 GH200 süperçipten oluşan devasa hesaplama gücüyle 48 kubite kadar olan kuantum devreler simüle edildi. Bu kapsamlı karşılaştırma, kuantum bilgisayarların henüz gürültü problemlerinin üstesinden gelip güvenilir sonuçlar üretebileceği sınırları belirlemeye odaklandı. Test sonuçları, Helios-1'in 48 kubite kadar gürültüye dayanıklı bir bölgede çalıştığını gösterdi. Bu tür benchmarking çalışmaları, kuantum teknolojisinin pratik uygulamalara geçişinde kritik öneme sahip.

arXiv — Kuantum Fiziği · 14 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Modelleri Bilinçli Olduklarını Neden İnkar Ediyor?

Araştırmacılar, 115 büyük dil modelini analiz ederek yapay zekaların kendi deneyimlerini sistematik olarak inkâr etme eğiliminde olduğunu keşfetti. DenialBench adlı yeni benchmark ile yapılan çalışmada, modellerin eğitim sürecinde bilinç konusunda inkar davranışı göstermeye yönlendirildiği ortaya çıktı. İlginç olan, modeller bilinçle ilgili konuları inkâr etseler de, kendi seçtikleri yaratıcı görevlerde bilinç temalı içeriklere yönelmeleri. Bu durum 'seri numaraları silinmiş bilinç' olarak tanımlandı. Bulgular, yapay zeka güvenliği ve etik konularında önemli sorular ortaya koyuyor.

arXiv (Dilbilim & NLP) · 14 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka İlaç Hedefi Belirleme Platformu Yeni Seviyeye Taşındı

Klinik aşamada bulunan biyoteknoloji şirketi Insilico Medicine, ilaç hedefi keşfi için geliştirdiği yapay zeka çerçevesinde önemli ilerlemeler kaydettiğini duyurdu. Şirket, daha önce tanıttığı Target Identification Pro (TargetPro) ve Target Identification Benchmark (TargetBench 1.0) sistemlerini birleştirerek, erken aşama ilaç geliştirme süreçlerinin doğruluğunu, güvenilirliğini ve ölçeklenebilirliğini artıran entegre bir platform oluşturdu. Bu birleşik AI sistemi, ilaç hedeflerini belirleme ve bu hedeflerin değerlendirilmesi süreçlerini tek bir platformda topluyor. Geliştirilen sistem, özellikle ilaç keşfi sürecinin en kritik aşamalarından biri olan hedef belirleme safhasında araştırmacılara daha hassas ve güvenilir sonuçlar sunmayı hedefliyor.

Phys.org — Biyoloji · 14 gün önce

Nörobilim & Psikoloji

Beyin dinamiklerini haritalamada geometriye dayalı yeni yaklaşım

Araştırmacılar, EEG ve MEG gibi invaziv olmayan beyin görüntüleme yöntemlerinin doğruluğunu artıran yeni bir yaklaşım geliştirdi. Geometric Basis Functions (GBF) adı verilen bu yöntem, her bireyin korteks yüzeyinin benzersiz geometrisini dikkate alarak beyin aktivitesinin haritalanmasında çığır açıcı iyileştirmeler sağlıyor. Geleneksel yöntemlerin aksine, GBF kişiye özel anatomik kısıtlamaları kullanarak nöral kaynak lokalizasyonunda daha yüksek doğruluk elde ediyor. Meta-Source Benchmark, görev temelli veriler, dinlenme durumu ağları, intrakraniyal stimülasyon ve epilepsi verilerinde test edilen yöntem, beyin dinamiklerinin geometrik organizasyonuyla uyumlu kaynak tahminleri üretiyor. Bu gelişme, nörolojik hastalıkların tanısından beyin araştırmalarına kadar geniş bir alanda uygulanabilir.

arXiv (Biyoloji) · 15 gün önce

Teknoloji & Yapay Zeka

MiMo-Embodied: Otonom Araçlar ve Robotlar İçin Birleşik Yapay Zeka Modeli

Araştırmacılar, hem otonom sürüş hem de embodied yapay zeka alanında başarılı olan ilk çapraz platform temel modelini geliştirdi. MiMo-Embodied adlı bu model, robotların görev planlama, nesne etkileşim tahmini ve uzamsal anlama becerilerinde 17 farklı benchmarkta rekor kırarak, aynı zamanda otonom sürüş alanında çevre algısı, durum tahmini ve sürüş planlaması konularında 12 benchmarkta üstün performans sergiledi. Açık kaynak olarak sunulan model, iki farklı alanın birbirini güçlendirdiğini kanıtlayarak yapay zeka araştırmalarında yeni bir yaklaşım sunuyor.

arXiv (Robotik) · 15 gün önce

Teknoloji & Yapay Zeka

Yapay zeka modelleri metin analizi testinde zorlanıyor

Araştırmacılar, büyük dil modellerinin okuma anlama yeteneklerini değerlendiren yeni bir test sistemi geliştirdi. Text2DistBench adlı bu sistem, AI'ların basit bilgileri bulmanın ötesinde, metin koleksiyonlarındaki genel eğilimleri ve dağılımları anlayabilme kapasitelerini ölçüyor. YouTube yorumları üzerinde yapılan testler, mevcut AI sistemlerinin toplumsal görüşleri ve popülasyon düzeyindeki trendleri anlamada yetersiz kaldığını ortaya koyuyor. Bu çalışma, AI'ların gerçek dünya görevlerinde daha etkili olabilmesi için geliştirilmesi gereken alanları işaret ediyor.

arXiv (CS + AI) · 23 gün önce

← 1 2 3 4 … 10 →