...
"benchmark testleri" için 253 sonuç bulundu
× Aramayı temizle
Arama Sonuçları
253 haber
Teknoloji & Yapay Zeka
Yapay Zeka Güvenlik Testleri Neden Yetersiz Kalıyor?
Yeni bir araştırma, mevcut yapay zeka güvenlik değerlendirmelerinin kritik bir eksikliği olduğunu ortaya koyuyor. Çin menşeli dil modellerinde siyasi sansür mekanizmalarını inceleyen bilim insanları, zararlı içerik tespitinin kolay olduğunu, ancak asıl sorunun bu bilgilerin davranışsal politikalara nasıl yönlendirildiğinde saklı olduğunu keşfetti. Beş farklı laboratuvardan dokuz açık kaynak model üzerinde yapılan deneyler, prob doğruluğunun tek başına yanıltıcı olabileceğini gösterdi. Araştırmacılar, siyasi hassasiyet yönünü kaldırdıklarında çoğu modelde sansürün ortadan kalktığını ve doğru bilgi üretiminin geri geldiğini gözlemledi. Ancak bir modelde bilgi mimarisi sansür mekanizmasıyla o kadar iç içe geçmişti ki, müdahale sonrası model gerçek dışı bilgiler üretmeye başladı. Bu bulgular, AI güvenlik testlerinin yeniden düşünülmesi gerektiğini işaret ediyor.
Teknoloji & Yapay Zeka
Kuantum makine öğrenmesi modellerinde hata tespiti için yeni test yöntemi
Araştırmacılar, kuantum makine öğrenmesi modellerindeki hataları tespit etmek için 'mutasyon testleri' adlı yeni bir yöntem geliştirdi. Bu teknik, kuantum sinir ağlarına kasıtlı hatalar enjekte ederek sistemin güvenilirliğini değerlendiriyor. Kuantum bilgisayarlar ve makine öğrenmesinin birleştiği bu alanda, karmaşık özellikleri klasik modellerden daha az parametre ile öğrenebilen sistemler geliştirilmekte. Ancak artan karmaşıklık beraberinde hata riski de getiriyor. Bu çalışma, kuantum devrelerine planlı şekilde arızalar yerleştirerek test sistemlerinin ne kadar dayanıklı olduğunu ölçmeyi amaçlıyor. Yöntem, özellikle kuantum sinir ağı modellerinde tasarım özelliklerine uygunluğu ve hatasız çalışmayı doğrulamaya odaklanıyor. Bu gelişme, kuantum makine öğrenmesi uygulamalarının güvenilirliğini artırmada önemli bir adım.
Fizik
Kuantum durumların en önemli bileşenlerini bulan yeni algoritma geliştirildi
Araştırmacılar, kuantum bilgisayarların temel yapı taşları olan kuantum durumlarının en kritik özelliklerini hızlıca tespit edebilen yeni bir algoritma geliştirdi. Bu hiyerarşik yaklaşım, tam durum tomografisine ihtiyaç duymadan kuantum sistemlerin baskın bileşenlerini başarıyla belirleyebiliyor. Algoritma, özellikle seyrek Pauli temsillerine sahip kuantum durumları için etkili sonuçlar veriyor ve kuantum hesaplama alanında önemli bir ilerleme sağlıyor. Yöntem, Bell örnekleme ve SWAP testleri kullanarak çalışıyor ve klasik bilgisayarlarda yapılan simülasyonlarda başarılı sonuçlar alınmış durumda.
Tıp & Sağlık
Robotik Cerrahide Yeni Dönem: Dokunma Hissi Veren Eğitim Sistemi
Robotik cerrahi sistemleri hassas operasyonlar yapılmasını sağlasa da, cerrahlara dokunma hissi vermemesi önemli bir eksiklik oluşturuyor. Araştırmacılar, bu sorunu çözmek için yeni bir laparoskopik alet geliştirdi. Sistem, doku ile alet arasındaki kuvvet etkileşimini gerçek zamanlı olarak algılayarak cerraha geri bildirim sağlıyor. Geleneksel sistemlerde aletin ucuna yerleştirilen sensörler dayanıklılık sorunu yaşarken, yeni tasarım sensörleri bilek kısmına yerleştirerek bu problemi aştı. RoboScope adlı cerrahi eğitim sistemine entegre edilen teknoloji, maliyetli ticari çözümlere alternatif sunuyor. Kontrollü kullanıcı testlerinde sistemin kararlı ve algılanabilir geri bildirim verdiği doğrulandı. Bu gelişme, cerrahi eğitiminin daha erişilebilir hale gelmesine katkı sağlarken, robotik cerrahinin güvenliğini artırma potansiyeli taşıyor.
Teknoloji & Yapay Zeka
Gürültülü Verilerle Sistem Modellemede Yeni Yaklaşım
Araştırmacılar, gürültülü impuls yanıt verilerinden yararlanarak daha güvenilir sistem modelleri oluşturan yeni bir yöntem geliştirdi. Bu yaklaşım, mühendislik sistemlerinin davranışını öngörmek için kullanılan matematiksel modellerin boyutlarını küçültürken, gürültülü ortamlarda bile yüksek doğruluk sağlayabilir. Geleneksel yöntemlerden farklı olarak, bu teknik veri odaklı bir yaklaşım benimsiyor ve düzenleyici (regularized) algoritma kullanarak gürültüye karşı dayanıklılığı artırıyor. SLICOT kıyaslama testlerinde gerçekleştirilen deneyler, yeni yöntemin mevcut alternatiflerden daha düşük hata oranları elde ettiğini gösteriyor. Bu gelişme özellikle sinyal işleme, kontrol sistemleri ve makine öğrenmesi alanlarında önemli uygulamalara sahip olabilir.
Tıp & Sağlık
Yapay zeka sağlıkta: Doktorların ChatGPT kullanımı için yeni değerlendirme standardı
Milyonlarca hekim günlük pratiğinde ChatGPT'yi kullanıyor ancak bu etkileşimlerin ne kadar etkili olduğu belirsizdi. Araştırmacılar, yapay zeka modellerinin tıbbi performansını gerçek doktor-AI sohbetleri üzerinden değerlendiren HealthBench Professional adlı yeni bir ölçüm sistemi geliştirdi. Bu benchmark, hekimlerin en sık başvurduğu üç ana alanda AI'ın başarısını ölçüyor: hasta konsültasyonu, tıbbi yazım-dokümantasyon ve medikal araştırma. Her örnek, gerçek hekimler tarafından yazılan ChatGPT konuşmalarından oluşuyor ve üç veya daha fazla doktor tarafından değerlendiriliyor. Sistem, mevcut AI modellerinin zorlandığı durumları özellikle içeriyor ve gelecekteki gelişmeleri takip etmeye olanak sağlıyor.
Teknoloji & Yapay Zeka
AI'lar İçin Yeni Kod Doğrulama Sistemi: ScaleBox
Araştırmacılar, büyük dil modellerinin kod yazma yeteneklerini geliştirmek için ScaleBox adlı yeni bir sistem geliştirdi. Mevcut kod doğrulama sistemleri yüksek iş yükü altında yetersiz kalırken, ScaleBox hem doğruluğu artırıyor hem de büyük ölçekte verimli çalışabiliyor. Sistem, otomatik özel yargıç üretimi, paralel test çalıştırma ve çok düğümlü koordinasyon gibi özellikler sunuyor. Deneyler, ScaleBox'ın kod doğrulama hassasiyetini ve verimliliğini önemli ölçüde artırdığını gösteriyor. LiveCodeBench performans testlerinde de sistemi kullanan modellerin belirgin şekilde daha iyi sonuçlar aldığı gözlemleniyor.
Teknoloji & Yapay Zeka
Yapay Zeka Asistanları Artık Çoklu Uygulamalar Arası Çalışabiliyor
Araştırmacılar, yapay zeka destekli GUI (grafik kullanıcı arayüzü) asistanlarının gerçek dünya iş ortamlarındaki performansını ölçmek için WindowsWorld adlı yeni bir değerlendirme sistemi geliştirdi. Bu sistem, tek uygulama odaklı mevcut testlerin aksine, çoklu masaüstü uygulamaları arasında koordinasyon gerektiren karmaşık iş akışlarını test ediyor. 16 farklı meslekten ilham alınarak oluşturulan 181 görev içeren benchmark, yapay zeka asistanlarının profesyonel ortamlardaki gerçek yeteneklerini daha doğru bir şekilde değerlendirmeyi amaçlıyor.
Teknoloji & Yapay Zeka
Yapay Zeka Arama Motorlarını Nasıl Değiştiriyor? 11.500 Sorguyla Test Edildi
Araştırmacılar, yapay zekanın geleneksel arama motorlarını nasıl dönüştürdüğünü anlamak için kapsamlı bir çalışma gerçekleştirdi. 11.500 kullanıcı sorgusundan oluşan benchmark veri setiyle Google Arama, AI Overview ve Gemini Flash 2.5'i karşılaştıran araştırma, çarpıcı bulgular ortaya koydu. Sonuçlara göre, kullanıcı sorgularının yarısından fazlasında (%51.5) AI Overview'lar oluşturuluyor ve organik arama sonuçlarının üzerinde gösteriliyor. Özellikle tartışmalı konularda AI özetlerinin daha sık görüldüğü tespit edildi. Çalışma ayrıca farklı arama sistemlerinin kaynaklarını seçme biçimlerinin önemli ölçüde farklılaştığını gösteriyor. Bu araştırma, yapay zekanın arama deneyimini nasıl şekillendirdiğini ve bilgiye erişim şeklimizi nasıl değiştirdiğini anlamamız açısından kritik bulgular sunuyor.
Teknoloji & Yapay Zeka
Yapay Zeka Öğretmenleri İçin Yeni Test: Sadece Doğru Cevap Yetmiyor
Araştırmacılar, eğitim alanında kullanılan büyük dil modellerinin sadece test sorularını doğru yanıtlamakla kalmayıp, öğrencilerin düşüncelerini anlaması ve yanlış kavramlarını teşhis etmesi gerektiğini savunuyor. Bu amaçla geliştirilen ESTBook adlı yeni benchmark, 10.576 soruyla yapay zeka öğretmenlerin pedagogik yeteneklerini ölçüyor. Mevcut değerlendirme yöntemlerinin aksine, bu sistem öğrencilerin hangi bilişsel tuzaklara düştüğünü anlayabilen ve çözüm stratejilerini açıklayabilen AI sistemlerin geliştirilmesini hedefliyor. Çalışma, etkili bir yapay zeka öğretmenin sadece bilgi aktarımında değil, öğrenme sürecindeki zorlukları fark etmede de başarılı olması gerektiğini ortaya koyuyor.
Teknoloji & Yapay Zeka
Yapay Zeka Finansal Analiz Zayıflıklarını Ortaya Çıkaran Yeni Test Geliştirildi
Araştırmacılar, yapay zeka modellerinin finansal analiz yeteneklerini değerlendirmek için FinChain adlı yeni bir test sistemi geliştirdi. Mevcut testler sadece nihai cevaplara odaklanırken, FinChain yapay zekanın adım adım mantıksal düşünme sürecini de denetliyor. 12 farklı finansal alandan 58 konuyu kapsayan bu sistem, yapay zekanın her hesaplama adımını Python kodu ile doğrulayabiliyor. 26 önde gelen yapay zeka modelinin değerlendirildiği çalışmada, en gelişmiş modellerin bile finansal muhakemede önemli eksiklikleri olduğu ortaya çıktı. Bu bulgular, finansal kararların yapay zeka destekli sistemlere bırakılmadan önce dikkatli değerlendirme yapılması gerektiğini gösteriyor.