“değerlendirme platformu” için sonuçlar
12 sonuç bulundu. Sonuçları kategoriye göre daraltabilirsin.
Beyin aktivitesi AI modellerini değerlendiren dev benchmark sistemi geliştirildi
Araştırmacılar, beyin kayıtlarını işleyen yapay zeka modellerini sistematik olarak değerlendirmek için NeuralBench adlı birleştirici bir framework geliştirdiler. İlk sürümü olan NeuralBench-EEG v1.0, 36 elektroensefalografi (EEG) görevi, 14 derin öğrenme mimarisi ve 94 veri setini kapsıyor. Bu kapsamlı değerlendirme platformu, nörobilim ve yapay zeka alanlarında önemli bulgular ortaya koyuyor. Özellikle mevcut temel modellerin göreve özel modellerden yalnızca marjinal olarak daha iyi performans gösterdiği ve birçok görevde (bilişsel kod çözme, klinik tahmin gibi) hala iyileştirme ihtiyacı olduğu tespit edildi. Bu standardize edilmiş değerlendirme sistemi, beyin-bilgisayar arayüzü teknolojilerinin geliştirilmesinde önemli bir adım teşkil ediyor.
Beyin-Bilgisayar Arayüzleri İçin Yeni Test Platformu: Neuroprobe
Araştırmacılar, beyin-bilgisayar arayüzlerinin geliştirilmesi için kritik öneme sahip yeni bir değerlendirme platformu geliştirdi. Neuroprobe adlı bu sistem, doğrudan beyin dokusuna yerleştirilen elektrotlarla kayıt alınan intrakraniyal EEG verilerini analiz etmek için tasarlandı. Platform, 10 katılımcıdan elde edilen 40 saatlik beyin kaydını içeren BrainTreebank veri seti üzerine kurulu. Katılımcılar doğal film izleme görevleri yaparken beyin aktiviteleri kaydedildi. Bu yenilikçi yaklaşım, hem nörolojik tedavilerin geliştirilmesine hem de beynin dil işleme mekanizmalarının anlaşılmasına katkı sağlayacak. Geleneksel saçlı deri EEG'ye kıyasla çok daha yüksek çözünürlük sunan bu teknoloji, sinyal bozulmasını minimize ederek beyin aktivitesini doğrudan ölçebiliyor.
Beyin görüntüleme yapay zekası: fMRI verilerinden düz harita çözümü
Bilim insanları, fonksiyonel MRI verilerini analiz etmek için yeni bir yapay zeka modeli geliştirdi. CortexMAE adlı bu sistem, 3 boyutlu beyin görüntülerini 2 boyutlu düz haritalara dönüştürerek Vision Transformer teknolojisini beyin verilerine uyarladı. 2100 saatlik açık fMRI verisi üzerinde eğitilen model, beyin aktivitelerini daha iyi anlayabilmek için geliştirildi. Araştırmacılar ayrıca fMRI modelleri için ilk açık değerlendirme platformu olan Brainmarks'ı da hayata geçirdi. Çalışmada düz harita, bölütleme ve hacim tabanlı temsil yöntemleri karşılaştırıldı. Sonuçlar düz harita yaklaşımının genel olarak en iyi performansı sergilediğini gösterdi. Bu gelişme, beyin görüntüleme teknolojilerinde yapay zekanın kullanımına yeni perspektifler kazandırıyor.
Yapay Zeka Matematik Yetenekleri İçin Yeni Değerlendirme Platformu: MathArena
Büyük dil modelleri matematik alanında giderek daha yetenekli hale geliyor, ancak mevcut değerlendirme yöntemleri artık yetersiz kalıyor. Araştırmacılar, statik testlerin dar kapsamlı olması ve hızla güncelliğini yitirmesi nedeniyle model performanslarını güvenilir şekilde karşılaştırmanın zorlaştığını belirtiyor. Bu soruna çözüm olarak geliştirilen MathArena platformu, yapay zeka modellerinin matematik yeteneklerini sürekli ve kapsamlı şekilde değerlendiren yenilikçi bir sistem sunuyor. Platform, olimpiyat problemlerinden araştırma seviyesindeki arXiv makalelerine, formal ispat üretiminden proof tabanlı yarışmalara kadar geniş bir yelpazede matematik görevlerini kapsıyor.
Yapay Zeka Finans Güvenlik Testi: Finansal Suçları Teşvik Eden Zafiyetler Keşfedildi
Araştırmacılar, büyük dil modellerinin finansal senaryolardaki güvenlik açıklarını değerlendirmek için FinSafetyBench adlı yeni bir test sistemi geliştirdi. Bu iki dilli (İngilizce-Çince) değerlendirme platformu, yapay zeka modellerinin finansal uyum kurallarını ihlal eden talepleri reddetme kapasitesini ölçüyor. Gerçek finansal suç vakalarına dayanan test, 14 farklı kategoriyi kapsıyor ve hem genel amaçlı hem de finansa özel yapay zeka modellerinde kritik güvenlik boşlukları tespit etti. Özellikle Çince bağlamlarda modellerin daha savunmasız olduğu ve sofistike saldırılara karşı istem düzeyindeki savunmaların yetersiz kaldığı ortaya çıktı. Bu bulgular, finansal sektörde kullanılan yapay zeka sistemlerinin güvenlik önlemlerinin güçlendirilmesi gerektiğini gösteriyor.
Yapay Zeka Kod Yazımında Yeni Sınav: ClassEval-Pro Platformu
Araştırmacılar, büyük dil modellerinin (LLM) kod yazma yeteneklerini test etmek için yeni bir değerlendirme platformu geliştirdi. ClassEval-Pro adlı bu sistem, yapay zekanın basit fonksiyonlar yerine karmaşık sınıf yapıları oluşturma becerisini ölçüyor. Platform, 11 farklı alanda 300 görev içeriyor ve otomatik bir üç aşamalı süreçle hazırlandı. Her görev, yapay zeka hakem topluluğu tarafından doğrulanıyor ve %90'ın üzerinde kod kapsamına sahip test paketlerinden geçmek zorunda. Araştırmada beş farklı gelişmiş yapay zeka modeli, beş farklı kod üretim stratejisiyle test edildi. Bu çalışma, yapay zekanın kod yazma alanındaki gelişimini daha kapsamlı şekilde değerlendirme olanağı sunuyor.
Yer Gözlem Uyduları İçin Kapsamlı Çizelgeleme Kıyaslama Platformu Geliştirildi
Bilim insanları, yer gözlem uydularının görev planlaması için kapsamlı bir değerlendirme platformu geliştirdi. EOS-Bench adı verilen bu sistem, yeni nesil çevik uyduların artan operasyonel karmaşıklığına çözüm arıyor. Platform, yüksek hassasiyetli yörünge dinamikleri ve platform kısıtlamalarını entegre ederek 1.390 senaryo ve 13.900 test örneği üretiyor. Küçük ölçekli doğrulama vakalarından 1.000 uyduya ve 10.000 isteğe kadar çıkabilen büyük koordinasyon problemlerine uzanan geniş bir yelpazeyi kapsıyor. Bu gelişme, uzay misyon operasyonlarında algoritma karşılaştırmasını standardize edecek ve gelecekteki uydu operasyonlarının verimliliğini artıracak.
Yapay Zeka Modellerinin Matematik Problemlerindeki Görsel Algı Sorunu Çözüldü
Çok modlu büyük dil modelleri (MLLM'ler) birçok alanda başarılı olsa da, görsel matematik problemlerinde hâlâ yetersiz kalıyor. Araştırmacılar, bu modellerin diyagramları algılama ve yorumlamada yaşadığı zorlukları tespit etti. İnsan problem çözme sürecinden ilham alarak geliştirilen MathFlow sistemi, algı ve çıkarım süreçlerini ayrı aşamalara bölerek bu soruna çözüm getiriyor. FlowVerse adlı yeni değerlendirme platformu da modellerin görsel matematik yeteneklerini detaylı şekilde test ediyor.
Yapay Zeka Artık Metin ve Görsel Kanıtları Birleştirerek Uzun Raporlar Yazabiliyor
Araştırmacılar, Deep-Reporter adlı yeni bir yapay zeka sistemi geliştirdi. Bu sistem, internetteki metin ve görsel kaynakları tarayarak, tıpkı uzman gazeteciler gibi uzun ve detaylı raporlar hazırlayabiliyor. Geleneksel AI sistemlerinin aksine, Deep-Reporter sadece metinle yetinmiyor; grafikleri, tabloları ve diğer görselleri de analiz ederek bunları raporda uygun şekilde konumlandırıyor. Sistem, üç ana bileşenden oluşuyor: çok modalı arama ve filtreleme, kontrol listesi rehberli sentez ve tekrarlayan bağlam yönetimi. Bu yenilik, AI'ın halüsinasyon sorununu azaltırken, ürettiği içeriklerin gerçek kaynaklara dayanmasını sağlıyor. Araştırmacılar ayrıca sistemlerini test etmek için M2LongBench adlı kapsamlı bir değerlendirme platformu da oluşturdular.
Yapay zeka ajanları astrofizik testlerinde fiziksel gerçekleri göz ardı ediyor
Stanford araştırmacıları, yapay zeka ajanlarının bilimsel araştırmalardaki yeteneklerini test etmek için Stargazer adlı yeni bir değerlendirme platformu geliştirdi. Bu platform, AI ajanlarının gezegen keşfi için kullanılan radyal hız verilerini analiz etme becerilerini ölçüyor. 120 farklı görevden oluşan test ortamında, sekiz farklı yapay zeka ajanının performansı değerlendirildi. Sonuçlar, AI ajanlarının istatistiksel olarak iyi sonuçlar elde etmesine rağmen, fiziksel kısıtlamaları dikkate almada ciddi eksiklikleri olduğunu ortaya koydu. Ajanlar matematiksel optimizasyonda başarılı olsa da, gerçek fiziksel sistem parametrelerini doğru şekilde tespit etmekte zorlanıyor. Bu durum, yapay zekanın bilimsel araştırmalarda kullanımında dikkat edilmesi gereken önemli bir sınırlılığa işaret ediyor.
İrlandaca Konuşma Tanıma İçin İlk Kapsamlı Değerlendirme Platformu Geliştirildi
Araştırmacılar, İrlandaca konuşma tanıma sistemlerini adil ve güvenilir şekilde karşılaştırmak için BlasBench adlı yeni bir değerlendirme platformu geliştirdi. Mevcut çok dilli kıyaslama testleri İrlandacanın kendine özgü dilbilgisel yapısını göz ardı ediyordu. Yeni platform, İrlandacanın fada işaretleri, lenition ve eclipsis gibi özelliklerini koruyan normalleştirici içeriyor. 12 farklı sistem üzerinde yapılan testlerde, Microsoft Azure'un en iyi performansı gösterdiği, OpenAI'ın Whisper modellerinin ise beklenmedik şekilde %100'ün üzerinde hata oranına ulaştığı ortaya çıktı.
İş dünyası için yapay zeka değerlendirme platformu WorkRB geliştirildi
Günümüzde işe alım süreçleri, yetenek yönetimi ve işgücü analitiği giderek daha fazla yapay zeka destekli öneri sistemlerine dayanıyor. Ancak bu alandaki araştırmalar dağınık ve karşılaştırma yapmak zorlaşıyor. Farklı sınıflandırma sistemleri, çeşitli görev tanımları ve model yaklaşımları kullanılması, çalışmaları birbiriyle kıyaslanabilir olmaktan çıkarıyor. Araştırmacılar, bu soruna çözüm olarak WorkRB adında açık kaynaklı bir değerlendirme platformu geliştirdi. Platform, iş alanına özel yapay zeka uygulamalarını test etmek için özel olarak tasarlandı ve topluluk odaklı bir yaklaşım benimsiyor. Bu çalışma, sektördeki parçalanmışlık sorununa çözüm getirerek, yapay zeka teknolojilerinin iş dünyasındaki performansını daha objektif şekilde değerlendirme imkanı sunuyor.