“test sistemleri” için sonuçlar

Nörobilim & Psikoloji

3 gün önce

Belirsizlik ifade edildiğinde kadınlar zeka testlerinde erkeklerden daha başarılı

Geleneksel çoktan seçmeli testler, insan bilişini yanlış ölçüyor olabilir. Araştırmacılar, standart zeka testlerini güncelleyerek katılımcıların belirsizliklerini ifade etmelerine ve risk yönetimi yapmalarına olanak tanıdığında, kadınların erkeklerden daha yüksek puanlar aldığını keşfetti. Bu bulgu, mevcut test sistemlerinin bilişsel yetenekleri tam olarak yansıtmadığını ve cinsiyet farklılıklarının test formatından etkilenebileceğini gösteriyor. Fluid zeka olarak adlandırılan akıcı zeka testlerinde ortaya çıkan bu durum, eğitim ve değerlendirme sistemlerinin yeniden gözden geçirilmesi gerektiğine işaret ediyor.

PsyPost 0

Teknoloji & Yapay Zeka

8 May

Elektrik şebekelerindeki nadir arızalar yapay zeka ile önceden tespit edilebilecek

Modern elektrik şebekelerinde rüzgar ve güneş enerjisi gibi değişken kaynaklarının artması, sistem kararlılığını tehdit eden nadir arızaların önceden tespitini zorlaştırıyor. Araştırmacılar, bu sorunu çözmek için Kriging tabanlı aktif öğrenme algoritması geliştirdi. Sistem, binlerce pahalı simülasyon yapmak yerine, sadece sınırlı sayıda hesaplama ile elektrik şebekesindeki kritik kararsızlık bölgelerini tespit edebiliyor. Yöntem, IEEE 59 bara ve WECC 240 bara test sistemlerinde gerçek rüzgar ve güneş verisiyle başarıyla denenmiş durumda. Bu gelişme, elektrik şebekelerinin dayanıklılığını artırırken hesaplama maliyetlerini önemli ölçüde düşürebilir.

arXiv — Bilgisayar Sistemleri 0

Teknoloji & Yapay Zeka

4 May

Kuantum makine öğrenmesi modellerinde hata tespiti için yeni test yöntemi

Araştırmacılar, kuantum makine öğrenmesi modellerindeki hataları tespit etmek için 'mutasyon testleri' adlı yeni bir yöntem geliştirdi. Bu teknik, kuantum sinir ağlarına kasıtlı hatalar enjekte ederek sistemin güvenilirliğini değerlendiriyor. Kuantum bilgisayarlar ve makine öğrenmesinin birleştiği bu alanda, karmaşık özellikleri klasik modellerden daha az parametre ile öğrenebilen sistemler geliştirilmekte. Ancak artan karmaşıklık beraberinde hata riski de getiriyor. Bu çalışma, kuantum devrelerine planlı şekilde arızalar yerleştirerek test sistemlerinin ne kadar dayanıklı olduğunu ölçmeyi amaçlıyor. Yöntem, özellikle kuantum sinir ağı modellerinde tasarım özelliklerine uygunluğu ve hatasız çalışmayı doğrulamaya odaklanıyor. Bu gelişme, kuantum makine öğrenmesi uygulamalarının güvenilirliğini artırmada önemli bir adım.

arXiv — Kuantum Fiziği 0

Teknoloji & Yapay Zeka

4 May

Elektrik Şebekelerinin Gerçek Zamanlı Haritası Çıkarılabilecek

Araştırmacılar, elektrik şebekelerinin yapısını ve parametrelerini gerçek zamanlı olarak tespit edebilen yeni bir yöntem geliştirdi. Fazör ölçüm birimlerinden elde edilen voltaj ve akım verilerini kullanan bu teknik, tamamen bilinmeyen bir elektrik şebekesinin topolojisini ve admitans parametrelerini belirlemek için gereken minimum ölçüm sayısını matematiksel olarak tanımladı. Yöntem, gürültülü ölçümlerin varlığında bile yapılandırılmış toplam en küçük kareler yaklaşımıyla admitans matrisini hesaplayabiliyor. IEEE test sistemleri üzerinde yapılan simülasyonlarla doğrulanan bu gelişme, elektrik şebekelerinin daha verimli yönetimi ve arıza tespiti için önemli bir adım teşkil ediyor.

arXiv — Bilgisayar Sistemleri 0

Teknoloji & Yapay Zeka

30 Apr

Gerçek Dünya İçecek Siparişleri için Yeni Yapay Zeka Test Veri Seti Geliştirildi

Araştırmacılar, yapay zeka asistanlarının gerçek dünya koşullarında ne kadar başarılı olduğunu ölçmek için StarDrinks adlı yeni bir test veri seti geliştirdi. İçecek sipariş senaryolarını kapsayan bu veri seti, İngilizce ve Korece dillerinde hazırlanarak, konuşma tanıma ve dil anlama sistemlerinin performansını değerlendirmek için tasarlandı. Mevcut test sistemleri genellikle kontrollü ortamlarda çalışırken, yeni veri seti tereddütler, kendini düzeltmeler ve marka özel terimler gibi doğal konuşma özelliklerini içeriyor. Bu gelişme, ses asistanlarının günlük yaşamda karşılaştığı karmaşık durumları daha iyi anlamasına yardımcı olabilir.

arXiv (Dilbilim & NLP) 0

Teknoloji & Yapay Zeka

30 Apr

Yapay Zeka Modelleri için Yeni Kapsamlı Test Sistemi: LIT-RAGBench

Araştırmacılar, büyük dil modellerinin gerçek dünya problemlerini çözme yeteneklerini değerlendirmek için LIT-RAGBench adlı yeni bir test sistemi geliştirdi. Bu sistem, yapay zekanın bilgi entegrasyonu, mantıksal çıkarım, tablo yorumlama, çok adımlı akıl yürütme ve yetersiz veri durumunda karar verme becerilerini aynı anda ölçebiliyor. Mevcut test sistemleri bu yetenekleri parça parça değerlendirirken, LIT-RAGBench bunları birlikte ele alarak daha gerçekçi bir performans ölçümü sunuyor. Bu gelişme, RAG (Retrieval-Augmented Generation) teknolojisinin pratik uygulamalarda ne kadar etkili olduğunu anlamak için kritik bir adım teşkil ediyor.

arXiv (Dilbilim & NLP) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Testlerindeki Büyük Sorun: Benchmark Araçları Yanıltıyor

Araştırmacılar, yapay zeka modellerinin performansını ölçmek için kullanılan çoktan seçmeli test sistemlerinde ciddi kalite sorunları tespit etti. BenchMarker adlı yeni araç, 12 farklı test sistemini inceledi ve şaşırtıcı sonuçlar ortaya çıkardı. Testlerin yarısının internette aynen bulunabildiği, bazılarının tamamen hatalı kurallara sahip olduğu belirlendi. Bu durum, AI modellerinin gerçek performansının yanlış değerlendirilmesine yol açıyor. Özellikle otomatik oluşturulan ve kitlesel kaynak kullanımıyla hazırlanan testlerde sorunlar daha yaygın görülüyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Robotlar İçin Yeni Test: Gerçek Hayatta Akıl Yürütebilecek mi?

Araştırmacılar, robotların gerçek dünyada karmaşık görevleri yerine getirebilme kabiliyetlerini test etmek için COIN adında yeni bir değerlendirme sistemi geliştirdi. Bu sistem, robotların dolaptaki bir elmayı almak gibi günlük işlerde nasıl adım adım akıl yürüterek hareket ettiğini ölçüyor. Mevcut test sistemleri, robotların çevreyle sürekli etkileşim halinde uzun vadeli planlar yapabilme yeteneklerini yeterince değerlendiremiyor. COIN benchmark'ı, 50 farklı günlük yaşam görevi içeriyor ve robotların kısmi görüş koşullarında sebep-sonuç ilişkilerini anlayarak hareket edip edemediğini test ediyor. Bu çalışma, gelecekte evlerimizde ve iş yerlerimizde kullanılabilecek akıllı robotların geliştirilmesi için kritik bir adım.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Güvenliği: Sanal Kişiliklerle Zararlı İçerik Simülasyonu

Araştırmacılar, yapay zeka sistemlerinin güvenlik açıklarını test etmek için yeni bir yöntem geliştirdi. Statik test veri setlerinin yetersiz kalması nedeniyle, büyük dil modellerini kullanarak sanal kişilikler oluşturan bir framework tasarlandı. Bu sistem, demografik özellikler ve ilgi alanlarını zararlı stratejilerle birleştirerek, çeşitli zararlı içerik senaryoları üretiyor. Hem insan değerlendirmeciler hem de AI tabanlı analizler, bu yöntemin mevcut test sistemlerinden daha zorlu ve gerçekçi senaryolar oluşturabildiğini doğruladı. Çalışma, AI güvenlik sistemlerinin dayanıklılığını artırmak için kritik bir adım teşkil ediyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Destekli Test Sistemi Yazılım Güvenliğini Artırıyor

Araştırmacılar, yazılım kütüphanelerinin güvenlik testlerini otomatikleştiren yeni bir sistem geliştirdi. MASFuzzer adı verilen bu framework, büyük dil modellerini kullanarak yazılımlardaki potansiyel güvenlik açıklarını daha etkili şekilde tespit ediyor. Geleneksel yöntemlerde geliştiricilerin manuel olarak hazırladığı test sürücüleri yerine, sistem otomatik olarak çok boyutlu API dizileri oluşturuyor ve adaptatif planlama stratejileri kullanıyor. Bu yaklaşım, yazılımların derin program dallarına ulaşarak daha kapsamlı testler yapılmasını sağlıyor. Yazılım güvenliğinin kritik önem taşıdığı günümüzde, bu tür otomatik test sistemleri siber güvenlik açıklarının önceden tespit edilmesinde önemli rol oynuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

WebCompass: Web kodlama yapay zekalarını çok boyutlu test eden yeni benchmark

Yapay zeka modelleri artık web sitesi kodlama konusunda oldukça yetenekli hale geldi, ancak mevcut test sistemleri bu yetenekleri tam olarak ölçemiyordu. Araştırmacılar, WebCompass adında yeni bir değerlendirme sistemi geliştirdi. Bu sistem, AI modellerinin web kodlama yeteneklerini metin, görsel ve video girişleriyle test ediyor. Gerçek dünyada web geliştiricilerinin yaptığı gibi, kodları üretme, düzenleme ve onarma becerilerini aynı anda değerlendiriyor. WebCompass, 15 farklı alan, 16 düzenleme türü ve 11 onarım kategorisini kapsıyor. Her görev kolay, orta ve zor seviyelerde sınıflandırılmış. Bu kapsamlı test sistemi, yapay zeka modellerinin web geliştirme alanındaki gerçek performanslarını daha doğru bir şekilde ölçmeyi hedefliyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Kod Üretiminde Kritik Açık: Güvenlik Koşulları Test Edilmiyor

Araştırmacılar, mevcut yapay zeka kod üretim sistemlerinin değerlendirme yöntemlerinde önemli bir boşluk keşfetti. Günümüzde kullanılan test sistemleri, kodların sadece doğru girdilerle çalışıp çalışmadığını kontrol ediyor, ancak hatalı veya zararlı girdilere karşı nasıl davrandığını test etmiyor. Bu durum, yüksek başarı puanı alan kodların aslında önemli güvenlik açıklarına sahip olabileceği anlamına geliyor. ContractEval adlı yeni benchmark sistemi, bu sorunu çözmek için geliştirildi ve 364 farklı görevle yapay zeka tarafından üretilen kodların gerçek dünya koşullarında ne kadar güvenilir olduğunu ölçebiliyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Otonom araç testleri için yeni derleyici sistemi geliştirildi

Araştırmacılar, otonom araç teknolojilerinin test edilmesi için kullanılan CARLA simülasyon platformuna yönelik yenilikçi bir derleyici sistemi geliştirdi. Bu sistem, ASAM OpenSCENARIO 2.1 dilinde yazılan test senaryolarını doğrudan çalıştırılabilir davranış ağaçlarına dönüştürebiliyor. Geleneksel çözümlerden farklı olarak, çok aşamalı modern bir mimari kullanan bu derleyici, karmaşık trafik durumlarını simüle edebilme kabiliyetine sahip. Sistem, aynı anda birden fazla aracın yer aldığı şerit değiştirme ve kaçınma manevralarını başarıyla test edebiliyor. Bu gelişme, otonom sürüş teknolojilerinin güvenlik testlerinde önemli bir ilerleme sağlayarak, açık kaynak simülasyon araçlarının endüstriyel standartlarla uyumluluğunu artırıyor.

arXiv (Robotik) 0

Teknoloji & Yapay Zeka

20 Apr

Yapay Zeka Ajanları için Gerçek Dünya Testleri: GTA-2 Benchmark'ı Tanıtıldı

Araştırmacılar, yapay zeka ajanlarının gerçek dünya görevlerindeki performansını değerlendirmek için yeni bir test sistemi geliştirdi. GTA-2 adlı bu sistem, basit araç kullanımından karmaşık iş akışlarına kadar geniş bir yelpazede AI ajanlarını test ediyor. Mevcut test sistemlerinin yapay sorgular ve sahte araçlar kullanması sorununun üstesinden gelen bu yenilik, gerçek kullanıcı sorularını ve deployed araçları kullanıyor. Sistem, hem kısa vadeli kesin görevleri hem de uzun vadeli açık uçlu görevleri değerlendiriyor. Özellikle açık uçlu görevler için geliştirilen yeni değerlendirme mekanizması, büyük hedefleri doğrulanabilir alt hedeflere bölerek daha objektif ölçüm yapıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Kuantum Yazılım Testleri İçin 700 Bin Hatalı Devre Veri Bankası

Araştırmacılar, kuantum yazılımların test edilmesi için kritik bir kaynak olan QMutBench veri setini geliştirdiler. Bu kapsamlı koleksiyon, 700 binden fazla hatalı kuantum devre örneği içeriyor ve geliştiricilerin test sistemlerinin etkinliğini değerlendirmelerine olanak tanıyor. Kuantum bilgisayar teknolojisinin hızla gelişmesiyle birlikte, bu sistemlerin güvenilirliğini sağlamak için etkili test yöntemlerine duyulan ihtiyaç artıyor. QMutBench, çevrimiçi bir arayüz üzerinden erişilebilen ve farklı hata türlerini, hayatta kalma oranlarını ve devre özelliklerini filtreleyebilen gelişmiş bir platform sunuyor. Bu kaynak, kuantum yazılım geliştirme alanında önemli bir boşluğu dolduruyor.

arXiv (CS + AI) 0

Tıp & Sağlık

18 Apr

Sağlık AI'larının Test Sistemi Gerçek Dünyaya Hazır Değil

Stanford araştırmacıları, sağlık alanındaki yapay zeka modellerinin değerlendirildiği test sistemlerinde kritik bir boşluk keşfetti. 18.707 sağlık sorusunu analiz eden çalışma, mevcut test setlerinin gerçek hasta ihtiyaçlarını yansıtmadığını ortaya koyuyor. Araştırma, test verilerinin %42'sinin nesnel sağlık verilerine odaklanmasına rağmen, bunların büyük kısmının basit fitness takipçisi verilerinden oluştuğunu gösteriyor. Karmaşık tıbbi tanı süreçlerinde kullanılan laboratuvar sonuçları gibi kritik veriler ise test setlerinde nadiren yer alıyor. Bu durum, AI modellerinin gerçek klinik ortamda ne kadar başarılı olacağının öngörülememesine yol açıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

18 Apr

Yapay zeka ajanları artık kişiliğe göre davranacak: Yeni test sistemi geliştirildi

Araştırmacılar, yapay zeka destekli ajanların kullanıcı kişiliğine uyum sağlayabilme becerisini test eden yeni bir değerlendirme sistemi geliştirdi. MM-tau-p² adlı bu sistem, özellikle müşteri deneyimi yönetiminde kullanılan çok modlu yapay zeka ajanlarının performansını ölçüyor. Mevcut test sistemleri sadece metin tabanlı sohbetlere odaklanırken, yeni sistem hem görsel hem işitsel girdileri değerlendiriyor. Sistem, kullanıcının kişilik özelliklerini tanıyan ve buna göre davranış sergileyen ajanların ne kadar başarılı olduğunu ölçüyor. GPT-4 ve GPT-5 gibi en gelişmiş dil modellerinin bile bu konuda eksiklikleri olduğu tespit edildi.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

16 Apr

Difüzyon Dil Modellerinde Öngörü Kararsızlığının Gizli Yüzü Ortaya Çıktı

Yapay zeka alanında yeni nesil büyük dil modelleri olan difüzyon dil modellerinin (DLM) beklenmedik bir sorunu keşfedildi. Araştırmacılar, bu modellerin aynı soruya farklı zamanlarda verdikleri yanıtların tutarsız olabildiğini, ancak geleneksel değerlendirme yöntemlerinin bu kararsızlığı maskelediğini ortaya koydu. Mevcut test sistemleri, binlerce örneğin ortalamasına bakarak modelin genel performansını ölçüyor, böylece bireysel örneklerdeki büyük farklılıklar gözden kaçıyor. Bu durum, aynı genel performansa sahip iki model konfigürasyonunun, tekil sorularda tamamen farklı davranabilmesi anlamına geliyor. Araştırma ekibi, her bir örneği ayrı ayrı inceleyerek modellerin ne kadar tutarsız olduğunu daha detaylı ölçen yeni bir değerlendirme sistemi geliştirdi.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

16 Apr

Gürültülü Web Ortamında Çoklu Kanıt Toplayan Yapay Zeka Test Platformu

Araştırmacılar, yapay zeka sistemlerinin gerçek web ortamındaki karmaşık arama görevlerini ne kadar iyi yerine getirdiğini ölçmek için MERRIN adlı yeni bir test platformu geliştirdi. Bu platform, AI ajanlarının metin, görsel, ses ve video gibi farklı veri türlerini bir araya getirerek çok adımlı mantıksal çıkarımlar yapabilme yeteneklerini değerlendiriyor. Geleneksel test sistemlerinden farklı olarak, belirsiz doğal dil sorguları kullanıyor ve çelişkili bilgilerin bulunduğu gürültülü web ortamlarını simüle ediyor. GPT ve Gemini gibi güçlü kapalı kaynak modellerden açık kaynak alternatiflere kadar on farklı AI modeli üzerinde yapılan testler, mevcut sistemlerin gerçek dünya koşullarındaki sınırlarını ortaya çıkarıyor.

arXiv (CS + AI) 0