“değerlendirme sistemi” için sonuçlar

Nörobilim & Psikoloji

5 gün önce

Beyin aktivitesi AI modellerini değerlendiren dev benchmark sistemi geliştirildi

Araştırmacılar, beyin kayıtlarını işleyen yapay zeka modellerini sistematik olarak değerlendirmek için NeuralBench adlı birleştirici bir framework geliştirdiler. İlk sürümü olan NeuralBench-EEG v1.0, 36 elektroensefalografi (EEG) görevi, 14 derin öğrenme mimarisi ve 94 veri setini kapsıyor. Bu kapsamlı değerlendirme platformu, nörobilim ve yapay zeka alanlarında önemli bulgular ortaya koyuyor. Özellikle mevcut temel modellerin göreve özel modellerden yalnızca marjinal olarak daha iyi performans gösterdiği ve birçok görevde (bilişsel kod çözme, klinik tahmin gibi) hala iyileştirme ihtiyacı olduğu tespit edildi. Bu standardize edilmiş değerlendirme sistemi, beyin-bilgisayar arayüzü teknolojilerinin geliştirilmesinde önemli bir adım teşkil ediyor.

arXiv (Nörobilim) 0

Teknoloji & Yapay Zeka

6 gün önce

Yapay Zeka Modelleri Bilimsel Keşifte Ne Kadar Başarılı?

Araştırmacılar, büyük dil modellerinin (LLM) bilimsel araştırmalardaki gerçek performansını ölçmek için yeni bir değerlendirme sistemi geliştirdi. Bu sistem, biyoloji, kimya, malzeme bilimi ve fizik alanlarında AI modellerinin sadece bilgi birikimini değil, hipotez üretme, deney tasarlama ve sonuçları yorumlama yeteneklerini de test ediyor. Sonuçlar, en gelişmiş AI modellerinin bile geleneksel bilim testlerindeki performanslarına kıyasla gerçek bilimsel keşif süreçlerinde daha zayıf kaldığını gösteriyor. Bu bulgular, AI'nın bilimsel araştırmalarda kullanımı konusunda daha dikkatli yaklaşılması gerektiğini ortaya koyuyor.

arXiv — Kimyasal Fizik 0

Teknoloji & Yapay Zeka

6 gün önce

Yapay Zeka Çağında Mühendislik Öğrencilerinin Bilimsel Düşünce Gelişimi

Cornell Üniversitesi araştırmacıları, yapay zekanın kod yazma konusunda giderek daha etkili hale geldiği dönemde, mühendislik öğrencilerinin gerçek bilimsel araştırma becerilerini değerlendirmek için yeni bir yöntem geliştirdi. Hesaplamalı Fizik Denemeleri adı verilen bu proje tabanlı değerlendirme sistemi, öğrencilerden Python programlama dili kullanarak gerçek dünya fizik sistemlerini modellemelerini istiyor. 100 öğrenci projesi üzerinde yapılan analiz, bu yöntemin öğrencilerin sistem düşüncesi ve modelleme yeteneklerini başarıyla geliştirdiğini gösterdi. Katılımcıların %99'u karmaşık sistemleri bir bütün olarak inceleme konusunda yetkinlik sergiledi. Bu yaklaşım, sadece kod yazmanın ötesinde bilimsel sorgulama ve hesaplamalı düşünce becerilerini ölçerek, eğitim dünyasında yapay zeka kaynaklı değerlendirme sorunlarına çözüm sunuyor.

arXiv — Fizik Eğitimi 0

Fizik

4 May

Kuantum Hata Azaltma Yöntemleri İçin Yeni Sınıflandırma Sistemi Geliştirildi

Kuantum bilgisayarlardaki gürültü ve hataları azaltmak için çok sayıda yöntem bulunuyor ancak hangi uygulamada hangi yöntemin en iyi olduğunu belirlemek zorlaşıyor. Araştırmacılar, kuantum hata azaltma tekniklerini karşılaştırmak için yeni bir değerlendirme sistemi geliştirdi. Bu sistem, ölçeklenebilirlik, verimlilik ve dayanıklılık gibi kriterlerle farklı yöntemleri objektif şekilde karşılaştırma imkanı sunuyor. Özellikle kuantum donanım teknolojisindeki sürekli gelişmeler göz önüne alındığında, bu çalışma gelecekte hangi hata azaltma stratejisinin hangi uygulama için en uygun olacağını belirlemeye yardımcı olacak. Araştırma ayrıca doğrusal azaltma yöntemlerinin kapsamlı bir sınıflandırmasını yapıyor ve bu yöntemlerin özelliklerini sistematik şekilde analiz ediyor.

arXiv — Kuantum Fiziği 0

Teknoloji & Yapay Zeka

4 May

AI Alışveriş Asistanları İçin Yeni Değerlendirme Sistemi Geliştirildi

Araştırmacılar, konuşmalı alışveriş asistanlarının performansını değerlendirmek ve optimize etmek için kapsamlı bir sistem geliştirdi. Market alışverişi gibi karmaşık senaryolarda kullanıcı tercihlerini anlayan ve bütçe kısıtlarını göz önünde bulunduran AI sistemlerinin değerlendirilmesi büyük zorluklar içeriyor. Yeni sistem, çok boyutlu bir değerlendirme rubriği ve insan değerlendirmelerine uyumlu LLM yargıç sistemi kullanıyor. Bu çalışma, gerçek üretim ortamında çalışan AI asistanlarının sürekli geliştirilmesi için pratik bir yol haritası sunuyor.