"benchmark testleri" araması

Arama Sonuçları

253 haber

Yapay Zeka Güvenlik Testleri Neden Yetersiz Kalıyor?

Yeni bir araştırma, mevcut yapay zeka güvenlik değerlendirmelerinin kritik bir eksikliği olduğunu ortaya koyuyor. Çin menşeli dil modellerinde siyasi sansür mekanizmalarını inceleyen bilim insanları, zararlı içerik tespitinin kolay olduğunu, ancak asıl sorunun bu bilgilerin davranışsal politikalara nasıl yönlendirildiğinde saklı olduğunu keşfetti. Beş farklı laboratuvardan dokuz açık kaynak model üzerinde yapılan deneyler, prob doğruluğunun tek başına yanıltıcı olabileceğini gösterdi. Araştırmacılar, siyasi hassasiyet yönünü kaldırdıklarında çoğu modelde sansürün ortadan kalktığını ve doğru bilgi üretiminin geri geldiğini gözlemledi. Ancak bir modelde bilgi mimarisi sansür mekanizmasıyla o kadar iç içe geçmişti ki, müdahale sonrası model gerçek dışı bilgiler üretmeye başladı. Bu bulgular, AI güvenlik testlerinin yeniden düşünülmesi gerektiğini işaret ediyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) · 11 gün önce

Teknoloji & Yapay Zeka

Kuantum makine öğrenmesi modellerinde hata tespiti için yeni test yöntemi

Araştırmacılar, kuantum makine öğrenmesi modellerindeki hataları tespit etmek için 'mutasyon testleri' adlı yeni bir yöntem geliştirdi. Bu teknik, kuantum sinir ağlarına kasıtlı hatalar enjekte ederek sistemin güvenilirliğini değerlendiriyor. Kuantum bilgisayarlar ve makine öğrenmesinin birleştiği bu alanda, karmaşık özellikleri klasik modellerden daha az parametre ile öğrenebilen sistemler geliştirilmekte. Ancak artan karmaşıklık beraberinde hata riski de getiriyor. Bu çalışma, kuantum devrelerine planlı şekilde arızalar yerleştirerek test sistemlerinin ne kadar dayanıklı olduğunu ölçmeyi amaçlıyor. Yöntem, özellikle kuantum sinir ağı modellerinde tasarım özelliklerine uygunluğu ve hatasız çalışmayı doğrulamaya odaklanıyor. Bu gelişme, kuantum makine öğrenmesi uygulamalarının güvenilirliğini artırmada önemli bir adım.

arXiv — Kuantum Fiziği · 11 gün önce

Fizik

Kuantum durumların en önemli bileşenlerini bulan yeni algoritma geliştirildi

Araştırmacılar, kuantum bilgisayarların temel yapı taşları olan kuantum durumlarının en kritik özelliklerini hızlıca tespit edebilen yeni bir algoritma geliştirdi. Bu hiyerarşik yaklaşım, tam durum tomografisine ihtiyaç duymadan kuantum sistemlerin baskın bileşenlerini başarıyla belirleyebiliyor. Algoritma, özellikle seyrek Pauli temsillerine sahip kuantum durumları için etkili sonuçlar veriyor ve kuantum hesaplama alanında önemli bir ilerleme sağlıyor. Yöntem, Bell örnekleme ve SWAP testleri kullanarak çalışıyor ve klasik bilgisayarlarda yapılan simülasyonlarda başarılı sonuçlar alınmış durumda.

arXiv — Kuantum Fiziği · 11 gün önce

Tıp & Sağlık

Robotik Cerrahide Yeni Dönem: Dokunma Hissi Veren Eğitim Sistemi

Robotik cerrahi sistemleri hassas operasyonlar yapılmasını sağlasa da, cerrahlara dokunma hissi vermemesi önemli bir eksiklik oluşturuyor. Araştırmacılar, bu sorunu çözmek için yeni bir laparoskopik alet geliştirdi. Sistem, doku ile alet arasındaki kuvvet etkileşimini gerçek zamanlı olarak algılayarak cerraha geri bildirim sağlıyor. Geleneksel sistemlerde aletin ucuna yerleştirilen sensörler dayanıklılık sorunu yaşarken, yeni tasarım sensörleri bilek kısmına yerleştirerek bu problemi aştı. RoboScope adlı cerrahi eğitim sistemine entegre edilen teknoloji, maliyetli ticari çözümlere alternatif sunuyor. Kontrollü kullanıcı testlerinde sistemin kararlı ve algılanabilir geri bildirim verdiği doğrulandı. Bu gelişme, cerrahi eğitiminin daha erişilebilir hale gelmesine katkı sağlarken, robotik cerrahinin güvenliğini artırma potansiyeli taşıyor.

arXiv — Bilgisayar Sistemleri · 14 gün önce

Teknoloji & Yapay Zeka

Gürültülü Verilerle Sistem Modellemede Yeni Yaklaşım

Araştırmacılar, gürültülü impuls yanıt verilerinden yararlanarak daha güvenilir sistem modelleri oluşturan yeni bir yöntem geliştirdi. Bu yaklaşım, mühendislik sistemlerinin davranışını öngörmek için kullanılan matematiksel modellerin boyutlarını küçültürken, gürültülü ortamlarda bile yüksek doğruluk sağlayabilir. Geleneksel yöntemlerden farklı olarak, bu teknik veri odaklı bir yaklaşım benimsiyor ve düzenleyici (regularized) algoritma kullanarak gürültüye karşı dayanıklılığı artırıyor. SLICOT kıyaslama testlerinde gerçekleştirilen deneyler, yeni yöntemin mevcut alternatiflerden daha düşük hata oranları elde ettiğini gösteriyor. Bu gelişme özellikle sinyal işleme, kontrol sistemleri ve makine öğrenmesi alanlarında önemli uygulamalara sahip olabilir.

arXiv — Bilgisayar Sistemleri · 14 gün önce

Tıp & Sağlık

Yapay zeka sağlıkta: Doktorların ChatGPT kullanımı için yeni değerlendirme standardı

Milyonlarca hekim günlük pratiğinde ChatGPT'yi kullanıyor ancak bu etkileşimlerin ne kadar etkili olduğu belirsizdi. Araştırmacılar, yapay zeka modellerinin tıbbi performansını gerçek doktor-AI sohbetleri üzerinden değerlendiren HealthBench Professional adlı yeni bir ölçüm sistemi geliştirdi. Bu benchmark, hekimlerin en sık başvurduğu üç ana alanda AI'ın başarısını ölçüyor: hasta konsültasyonu, tıbbi yazım-dokümantasyon ve medikal araştırma. Her örnek, gerçek hekimler tarafından yazılan ChatGPT konuşmalarından oluşuyor ve üç veya daha fazla doktor tarafından değerlendiriliyor. Sistem, mevcut AI modellerinin zorlandığı durumları özellikle içeriyor ve gelecekteki gelişmeleri takip etmeye olanak sağlıyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) · 14 gün önce

Teknoloji & Yapay Zeka

AI'lar İçin Yeni Kod Doğrulama Sistemi: ScaleBox

Araştırmacılar, büyük dil modellerinin kod yazma yeteneklerini geliştirmek için ScaleBox adlı yeni bir sistem geliştirdi. Mevcut kod doğrulama sistemleri yüksek iş yükü altında yetersiz kalırken, ScaleBox hem doğruluğu artırıyor hem de büyük ölçekte verimli çalışabiliyor. Sistem, otomatik özel yargıç üretimi, paralel test çalıştırma ve çok düğümlü koordinasyon gibi özellikler sunuyor. Deneyler, ScaleBox'ın kod doğrulama hassasiyetini ve verimliliğini önemli ölçüde artırdığını gösteriyor. LiveCodeBench performans testlerinde de sistemi kullanan modellerin belirgin şekilde daha iyi sonuçlar aldığı gözlemleniyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) · 14 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Asistanları Artık Çoklu Uygulamalar Arası Çalışabiliyor

Araştırmacılar, yapay zeka destekli GUI (grafik kullanıcı arayüzü) asistanlarının gerçek dünya iş ortamlarındaki performansını ölçmek için WindowsWorld adlı yeni bir değerlendirme sistemi geliştirdi. Bu sistem, tek uygulama odaklı mevcut testlerin aksine, çoklu masaüstü uygulamaları arasında koordinasyon gerektiren karmaşık iş akışlarını test ediyor. 16 farklı meslekten ilham alınarak oluşturulan 181 görev içeren benchmark, yapay zeka asistanlarının profesyonel ortamlardaki gerçek yeteneklerini daha doğru bir şekilde değerlendirmeyi amaçlıyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) · 14 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Arama Motorlarını Nasıl Değiştiriyor? 11.500 Sorguyla Test Edildi

Araştırmacılar, yapay zekanın geleneksel arama motorlarını nasıl dönüştürdüğünü anlamak için kapsamlı bir çalışma gerçekleştirdi. 11.500 kullanıcı sorgusundan oluşan benchmark veri setiyle Google Arama, AI Overview ve Gemini Flash 2.5'i karşılaştıran araştırma, çarpıcı bulgular ortaya koydu. Sonuçlara göre, kullanıcı sorgularının yarısından fazlasında (%51.5) AI Overview'lar oluşturuluyor ve organik arama sonuçlarının üzerinde gösteriliyor. Özellikle tartışmalı konularda AI özetlerinin daha sık görüldüğü tespit edildi. Çalışma ayrıca farklı arama sistemlerinin kaynaklarını seçme biçimlerinin önemli ölçüde farklılaştığını gösteriyor. Bu araştırma, yapay zekanın arama deneyimini nasıl şekillendirdiğini ve bilgiye erişim şeklimizi nasıl değiştirdiğini anlamamız açısından kritik bulgular sunuyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) · 14 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Öğretmenleri İçin Yeni Test: Sadece Doğru Cevap Yetmiyor

Araştırmacılar, eğitim alanında kullanılan büyük dil modellerinin sadece test sorularını doğru yanıtlamakla kalmayıp, öğrencilerin düşüncelerini anlaması ve yanlış kavramlarını teşhis etmesi gerektiğini savunuyor. Bu amaçla geliştirilen ESTBook adlı yeni benchmark, 10.576 soruyla yapay zeka öğretmenlerin pedagogik yeteneklerini ölçüyor. Mevcut değerlendirme yöntemlerinin aksine, bu sistem öğrencilerin hangi bilişsel tuzaklara düştüğünü anlayabilen ve çözüm stratejilerini açıklayabilen AI sistemlerin geliştirilmesini hedefliyor. Çalışma, etkili bir yapay zeka öğretmenin sadece bilgi aktarımında değil, öğrenme sürecindeki zorlukları fark etmede de başarılı olması gerektiğini ortaya koyuyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) · 14 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Finansal Analiz Zayıflıklarını Ortaya Çıkaran Yeni Test Geliştirildi

Araştırmacılar, yapay zeka modellerinin finansal analiz yeteneklerini değerlendirmek için FinChain adlı yeni bir test sistemi geliştirdi. Mevcut testler sadece nihai cevaplara odaklanırken, FinChain yapay zekanın adım adım mantıksal düşünme sürecini de denetliyor. 12 farklı finansal alandan 58 konuyu kapsayan bu sistem, yapay zekanın her hesaplama adımını Python kodu ile doğrulayabiliyor. 26 önde gelen yapay zeka modelinin değerlendirildiği çalışmada, en gelişmiş modellerin bile finansal muhakemede önemli eksiklikleri olduğu ortaya çıktı. Bu bulgular, finansal kararların yapay zeka destekli sistemlere bırakılmadan önce dikkatli değerlendirme yapılması gerektiğini gösteriyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) · 14 gün önce

← 1 2 3 4 5 … 22 →