Bilim insanları, fonksiyonel MRI verilerini analiz etmek için yeni bir yapay zeka modeli geliştirdi. CortexMAE adlı bu sistem, 3 boyutlu beyin görüntülerini 2 boyutlu düz haritalara dönüştürerek Vision Transformer teknolojisini beyin verilerine uyarladı. 2100 saatlik açık fMRI verisi üzerinde eğitilen model, beyin aktivitelerini daha iyi anlayabilmek için geliştirildi. Araştırmacılar ayrıca fMRI modelleri için ilk açık değerlendirme platformu olan Brainmarks'ı da hayata geçirdi. Çalışmada düz harita, bölütleme ve hacim tabanlı temsil yöntemleri karşılaştırıldı. Sonuçlar düz harita yaklaşımının genel olarak en iyi performansı sergilediğini gösterdi. Bu gelişme, beyin görüntüleme teknolojilerinde yapay zekanın kullanımına yeni perspektifler kazandırıyor.

arXiv (Biyoloji) 0

Teknoloji & Yapay Zeka

4 May

Yapay Zeka Matematik Yetenekleri İçin Yeni Değerlendirme Platformu: MathArena

Büyük dil modelleri matematik alanında giderek daha yetenekli hale geliyor, ancak mevcut değerlendirme yöntemleri artık yetersiz kalıyor. Araştırmacılar, statik testlerin dar kapsamlı olması ve hızla güncelliğini yitirmesi nedeniyle model performanslarını güvenilir şekilde karşılaştırmanın zorlaştığını belirtiyor. Bu soruna çözüm olarak geliştirilen MathArena platformu, yapay zeka modellerinin matematik yeteneklerini sürekli ve kapsamlı şekilde değerlendiren yenilikçi bir sistem sunuyor. Platform, olimpiyat problemlerinden araştırma seviyesindeki arXiv makalelerine, formal ispat üretiminden proof tabanlı yarışmalara kadar geniş bir yelpazede matematik görevlerini kapsıyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) 0

Teknoloji & Yapay Zeka

4 May

Yapay Zeka Finans Güvenlik Testi: Finansal Suçları Teşvik Eden Zafiyetler Keşfedildi

Araştırmacılar, büyük dil modellerinin finansal senaryolardaki güvenlik açıklarını değerlendirmek için FinSafetyBench adlı yeni bir test sistemi geliştirdi. Bu iki dilli (İngilizce-Çince) değerlendirme platformu, yapay zeka modellerinin finansal uyum kurallarını ihlal eden talepleri reddetme kapasitesini ölçüyor. Gerçek finansal suç vakalarına dayanan test, 14 farklı kategoriyi kapsıyor ve hem genel amaçlı hem de finansa özel yapay zeka modellerinde kritik güvenlik boşlukları tespit etti. Özellikle Çince bağlamlarda modellerin daha savunmasız olduğu ve sofistike saldırılara karşı istem düzeyindeki savunmaların yetersiz kaldığı ortaya çıktı. Bu bulgular, finansal sektörde kullanılan yapay zeka sistemlerinin güvenlik önlemlerinin güçlendirilmesi gerektiğini gösteriyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) 0

Teknoloji & Yapay Zeka

30 Apr

Yapay Zeka Kod Yazımında Yeni Sınav: ClassEval-Pro Platformu

Araştırmacılar, büyük dil modellerinin (LLM) kod yazma yeteneklerini test etmek için yeni bir değerlendirme platformu geliştirdi. ClassEval-Pro adlı bu sistem, yapay zekanın basit fonksiyonlar yerine karmaşık sınıf yapıları oluşturma becerisini ölçüyor. Platform, 11 farklı alanda 300 görev içeriyor ve otomatik bir üç aşamalı süreçle hazırlandı. Her görev, yapay zeka hakem topluluğu tarafından doğrulanıyor ve %90'ın üzerinde kod kapsamına sahip test paketlerinden geçmek zorunda. Araştırmada beş farklı gelişmiş yapay zeka modeli, beş farklı kod üretim stratejisiyle test edildi. Bu çalışma, yapay zekanın kod yazma alanındaki gelişimini daha kapsamlı şekilde değerlendirme olanağı sunuyor.

arXiv (Dilbilim & NLP) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Artık Metin ve Görsel Kanıtları Birleştirerek Uzun Raporlar Yazabiliyor

Araştırmacılar, Deep-Reporter adlı yeni bir yapay zeka sistemi geliştirdi. Bu sistem, internetteki metin ve görsel kaynakları tarayarak, tıpkı uzman gazeteciler gibi uzun ve detaylı raporlar hazırlayabiliyor. Geleneksel AI sistemlerinin aksine, Deep-Reporter sadece metinle yetinmiyor; grafikleri, tabloları ve diğer görselleri de analiz ederek bunları raporda uygun şekilde konumlandırıyor. Sistem, üç ana bileşenden oluşuyor: çok modalı arama ve filtreleme, kontrol listesi rehberli sentez ve tekrarlayan bağlam yönetimi. Bu yenilik, AI'ın halüsinasyon sorununu azaltırken, ürettiği içeriklerin gerçek kaynaklara dayanmasını sağlıyor. Araştırmacılar ayrıca sistemlerini test etmek için M2LongBench adlı kapsamlı bir değerlendirme platformu da oluşturdular.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modellerinin Matematik Problemlerindeki Görsel Algı Sorunu Çözüldü

Çok modlu büyük dil modelleri (MLLM'ler) birçok alanda başarılı olsa da, görsel matematik problemlerinde hâlâ yetersiz kalıyor. Araştırmacılar, bu modellerin diyagramları algılama ve yorumlamada yaşadığı zorlukları tespit etti. İnsan problem çözme sürecinden ilham alarak geliştirilen MathFlow sistemi, algı ve çıkarım süreçlerini ayrı aşamalara bölerek bu soruna çözüm getiriyor. FlowVerse adlı yeni değerlendirme platformu da modellerin görsel matematik yeteneklerini detaylı şekilde test ediyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

İrlandaca Konuşma Tanıma İçin İlk Kapsamlı Değerlendirme Platformu Geliştirildi

Araştırmacılar, İrlandaca konuşma tanıma sistemlerini adil ve güvenilir şekilde karşılaştırmak için BlasBench adlı yeni bir değerlendirme platformu geliştirdi. Mevcut çok dilli kıyaslama testleri İrlandacanın kendine özgü dilbilgisel yapısını göz ardı ediyordu. Yeni platform, İrlandacanın fada işaretleri, lenition ve eclipsis gibi özelliklerini koruyan normalleştirici içeriyor. 12 farklı sistem üzerinde yapılan testlerde, Microsoft Azure'un en iyi performansı gösterdiği, OpenAI'ın Whisper modellerinin ise beklenmedik şekilde %100'ün üzerinde hata oranına ulaştığı ortaya çıktı.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

16 Apr

İş dünyası için yapay zeka değerlendirme platformu WorkRB geliştirildi

Günümüzde işe alım süreçleri, yetenek yönetimi ve işgücü analitiği giderek daha fazla yapay zeka destekli öneri sistemlerine dayanıyor. Ancak bu alandaki araştırmalar dağınık ve karşılaştırma yapmak zorlaşıyor. Farklı sınıflandırma sistemleri, çeşitli görev tanımları ve model yaklaşımları kullanılması, çalışmaları birbiriyle kıyaslanabilir olmaktan çıkarıyor. Araştırmacılar, bu soruna çözüm olarak WorkRB adında açık kaynaklı bir değerlendirme platformu geliştirdi. Platform, iş alanına özel yapay zeka uygulamalarını test etmek için özel olarak tasarlandı ve topluluk odaklı bir yaklaşım benimsiyor. Bu çalışma, sektördeki parçalanmışlık sorununa çözüm getirerek, yapay zeka teknolojilerinin iş dünyasındaki performansını daha objektif şekilde değerlendirme imkanı sunuyor.

arXiv (CS + AI) 0