“performans değerlendirme” için sonuçlar

Teknoloji & Yapay Zeka

5 May

Rastgele Kuantum Devreler Performans Ölçümlerini Yanıltıyor

Dağıtık kuantum bilişim sistemlerinde kritik öneme sahip hipergraf bölümleme algoritmalarının performansını değerlendirmek için yaygın olarak kullanılan rastgele kuantum devrelerinin, gerçek sonuçları ciddi şekilde çarpıttığı ortaya çıktı. Araştırmacılar, gerçek algoritmik devreler, yapılandırılmış üretilmiş devreler ve tamamen rastgele devreler üzerinde kapsamlı karşılaştırmalar yaparak, rastgele devrelerin maliyet tahminlerini şişirdiğini, ölçeklendirme eğilimlerini değiştirdiğini ve bölümleme stratejilerinin sıralamalarını bozduğunu keşfetti. Bu bulgular, kuantum bilişim alanındaki performans değerlendirme yöntemlerinin yeniden gözden geçirilmesi gerektiğini işaret ediyor.

arXiv — Kuantum Fiziği 0

Teknoloji & Yapay Zeka

4 May

AI Alışveriş Asistanları İçin Yeni Değerlendirme Sistemi Geliştirildi

Araştırmacılar, konuşmalı alışveriş asistanlarının performansını değerlendirmek ve optimize etmek için kapsamlı bir sistem geliştirdi. Market alışverişi gibi karmaşık senaryolarda kullanıcı tercihlerini anlayan ve bütçe kısıtlarını göz önünde bulunduran AI sistemlerinin değerlendirilmesi büyük zorluklar içeriyor. Yeni sistem, çok boyutlu bir değerlendirme rubriği ve insan değerlendirmelerine uyumlu LLM yargıç sistemi kullanıyor. Bu çalışma, gerçek üretim ortamında çalışan AI asistanlarının sürekli geliştirilmesi için pratik bir yol haritası sunuyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) 0

Teknoloji & Yapay Zeka

1 May

Yapay Zeka Değerlendirmelerinde Gizli Hata Kaynakları Bulundu

Stanford araştırmacıları, büyük dil modellerinin (LLM) performans değerlendirmelerinde ciddi bir sorun tespit etti. Mevcut değerlendirme yöntemleri, prompt ifadesi, model sıcaklığı ve hakim model seçimi gibi faktörlerden kaynaklanan değişkenliği göz ardı ediyor. Bu durum, gerçekte olduğundan %40-60 daha küçük hata payları hesaplanmasına neden oluyor. Araştırma, Chatbot Arena verilerini kullanarak standart güven aralıklarının veri miktarı arttıkça güvenilirliğini kaybettiğini gösterdi. Önerilen TEE (Toplam Değerlendirme Hatası) yöntemi ise %95 güvenilirlik seviyesini korumayı başardı. Bu bulgular, hangi AI modellerinin kullanıma sunulacağı, güvenlik standartlarının nasıl belirleneceği ve araştırma sonuçlarının nasıl değerlendirileceği konularında kritik önem taşıyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) 0

Teknoloji & Yapay Zeka

30 Apr

Kurumsal yapay zeka sistemleri için yeni değerlendirme standardı geliştirildi

Araştırmacılar, kurumsal belge işleme yapay zeka sistemlerinin performansını bütüncül olarak değerlendiren ilk kapsamlı test platformunu geliştirdi. EnterpriseDocBench adlı bu sistem, belge ayrıştırma, indeksleme, bilgi erişimi ve metin üretimi aşamalarının tümünü birlikte test ediyor. Altı farklı kurumsal alanda yapılan testlerde, hibrit arama yönteminin geleneksel BM25 tekniğini çok az farkla geçtiği, yoğun gömme yönteminden ise belirgin şekilde üstün olduğu görüldü. İlginç bir bulgu, çok kısa ve çok uzun belgelerin orta uzunluktaki belgelere göre daha fazla yanıltıcı bilgi ürettiğinin keşfedilmesi. Araştırma, kurumsal yapay zeka çözümlerinin gerçek performansını ölçmek için standardize edilmiş bir yaklaşım sunuyor.

arXiv (Dilbilim & NLP) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay zeka modellerinin güvenilirlik ölçümü için yeni test protokolü geliştirildi

Araştırmacılar, büyük dil modellerinin (LLM) kendine güven sinyallerinin ne kadar güvenilir olduğunu test etmek için klinik psikoloji alanından uyarlanan yeni bir protokol geliştirdi. Bu protokol, modellerin kendi performansları hakkındaki değerlendirmelerinin ne derece doğru olduğunu ölçüyor. 20 farklı yapay zeka modeli üzerinde yapılan testlerde, dört modelin güvenilirlik sinyallerinin geçersiz, ikisinin belirsiz olduğu tespit edildi. Geçerli profil gösteren modellerin ortalama doğruluk korelasyonu 0.18 iken, geçersiz profil gösterenlerde bu değer -0.20 olarak ölçüldü. Bu çalışma, yapay zeka sistemlerinin güvenlik kritik kararlar almasında ve performans değerlendirmelerinde önemli bir adım teşkil ediyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Konuşma Tanıma Sistemlerinin Hatalarını Daha İyi Analiz Eden Algoritma Geliştirildi

Araştırmacılar, yapay zeka tabanlı konuşma tanıma sistemlerinin performansını daha hassas değerlendirebilen yeni bir algoritma geliştirdi. Mevcut değerlendirme yöntemleri, sık kullanılan kelimelerle ilgili başarıları öne çıkarırken, nadir terimler ve özel alan kelimelerindeki kritik hataları gizliyordu. Yeni algoritma, dinamik programlama ile beam search puanlamasını birleştirerek, referans metin ile sistem çıktısı arasında çok daha doğru hizalama sağlıyor. Bu sayede konuşma tanıma sistemlerindeki gerçek sorun alanları tespit edilebiliyor. Özellikle kişi adları, yer isimleri ve teknik terimler gibi anlamsal olarak önemli kelimelerdeki hatalar artık maskelenmeden görülebiliyor. Geliştirilen algoritma PyPI üzerinden araştırmacıların kullanımına sunuldu ve konuşma tanıma teknolojilerinin daha hedefli geliştirilmesine katkı sağlayacak.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Metinlerini Tespit Etmek Sandığımızdan Zor Çıktı

Üretken dil modellerinin yaygınlaşmasıyla birlikte, makine tarafından yazılmış metinleri tespit etmek kritik bir zorluk haline geldi. Yeni bir araştırma, 15 farklı tespit sistemini kapsamlı şekilde değerlendirerek bu alandaki sorunları gözler önüne seriyor. Çalışma, farklı veri setleri ve değerlendirme yöntemlerinin sonuçları nasıl etkilediğini, özellikle yaratıcı insan metinlerinde sistemlerin nasıl zorlandığını ortaya koyuyor. Bulgular, tek bir sistemin her alanda başarılı olamadığını ve performans değerlendirmesinin kullanılan veri seti ve ölçütlere kritik şekilde bağlı olduğunu gösteriyor. Bu durum, yapay zeka içeriği tespitinin düşünülenden çok daha karmaşık bir problem olduğunu ve mevcut yaklaşımların sınırlarını işaret ediyor.

arXiv (Dilbilim & NLP) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Sohbet Sistemlerini Değerlendirmek İçin Dinamik Yöntem Geliştirildi

Araştırmacılar, bilgi alma destekli üretim (RAG) sistemlerinin performansını daha gerçekçi şekilde ölçebilmek için RAG-DIVE adlı yeni bir yaklaşım geliştirdi. Mevcut değerlendirme yöntemleri, önceden hazırlanmış sabit veri setlerini kullanarak tek yönlü sorular sorduğu için gerçek dünya sohbetlerinin dinamik yapısını yakalayamıyordu. RAG-DIVE, yapay zeka modellerinin çok turlu konuşmaları dinamik olarak simüle etmesini sağlayarak bu eksikliği gideriyor. Sistem, kullanıcı etkileşimlerini taklit eden bir konuşma üreticisi, kalitesiz çıktıları filtreleyen bir doğrulayıcı ve değerlendirme bileşeninden oluşuyor. Bu yenilik, sohbet botları ve bilgi asistanlarının gerçek kullanım senaryolarındaki performanslarının daha doğru şekilde ölçülmesini mümkün kılıyor.

arXiv (Dilbilim & NLP) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Aracı Değerlendirmelerinin Güvenilirliği Sorgulanıyor

Araç kullanan büyük dil modellerinin (LLM) otomatik değerlendirmelerinin güvenilirliği ilk kez kapsamlı şekilde incelendi. AgentProp-Bench adlı 2000 görevlik kıyaslama çalışması, mevcut değerlendirme yöntemlerinin insan değerlendirmeleriyle büyük ölçüde uyumsuz olduğunu ortaya koydu. Basit metin karşılaştırma yöntemleri neredeyse tesadüf seviyesinde sonuçlar verirken, üç farklı yapay zeka modelinin birlikte kullanılması orta düzeyde güvenilirlik sağladı. Araştırma, hatalı parametrelerin sistemde nasıl yayıldığını ve son sonuçları nasıl etkilediğini de analiz etti. Bulgular, yapay zeka ajanlarının performansını değerlendirmek için daha güvenilir yöntemlere ihtiyaç duyulduğunu gösteriyor.

arXiv (Dilbilim & NLP) 0