"benchmark" araması — BilimKapsül

...

Arama Sonuçları

115 haber

Teknoloji & Yapay Zeka

Yapay Zeka Değerlendirmesinde Devrim: Tek Seferde Çoklu Yanıt Puanlama

Araştırmacılar, yapay zeka modellerinin ürettiği yanıtları değerlendirmek için yeni bir yöntem geliştirdi. Geleneksel sistemler her yanıtı ayrı ayrı inceleyerek zaman kaybına neden olurken, yeni yaklaşım birden fazla yanıtı tek seferde karşılaştırıp puanlayabiliyor. Bu yöntem, yanıtları özel ayırıcı tokenlarla birleştirerek doğrudan karşılaştırmalı akıl yürütme imkanı sunuyor. Sistem, N adet yanıt için N kat hızlanma ve hesaplama maliyetinde ciddi azalma sağlıyor. Araştırma kapsamında iki yeni benchmark oluşturuldu: MR²Bench-Image görsel içerik için 8 farklı modelin yanıtlarını insan değerlendirmeleriyle karşılaştırırken, MR²Bench-Video 94 bin kişinin video tabanlı soru-cevap değerlendirmelerinden oluşuyor. Bu gelişme, yapay zeka modellerinin performansını daha hızlı ve verimli değerlendirme imkanı sunarak, AI sistemlerinin geliştirilmesini hızlandırabilir.

arXiv (CS + AI) · 26 gün önce

Teknoloji & Yapay Zeka

Büyük dil modellerini eğitmenin yeni yolu: TLoRA+ ile daha verimli yapay zeka

Araştırmacılar, büyük dil modellerinin belirli görevler için eğitimini daha verimli hale getiren TLoRA+ adlı yeni bir yöntem geliştirdi. Bu teknik, modellerin performansını artırırken hesaplama maliyetini minimum düzeyde tutuyor. ChatGPT ve benzeri büyük dil modellerinin özelleştirilmesi için kullanılan mevcut LoRA yöntemini geliştiren bu yaklaşım, daha az kaynak kullanarak daha iyi sonuçlar elde etmeyi mümkün kılıyor. GLUE benchmark testlerinde yapılan denemeler, yöntemin farklı model mimarilerinde tutarlı bir şekilde başarılı olduğunu gösterdi. Bu gelişme, yapay zeka modellerinin daha geniş kitlelere ve küçük şirketlere açılması açısından önemli bir adım olarak değerlendiriliyor.

arXiv (CS + AI) · 28 gün önce

Tıp & Sağlık

Yapay Zeka Diş Hekimi Triajında Henüz İnsanları Geçemedi

Araştırmacılar, diş hekimliğinde hasta yönlendirme kararları için geliştirilmiş ilk kapsamlı test platformunu oluşturdular. Dental-TriageBench adlı bu sistem, gerçek hasta şikayetleri ve röntgen görüntülerini birleştirerek yapay zekanın diş hekimliği alanındaki karar verme yeteneklerini ölçüyor. 246 gerçek vaka üzerinde yapılan testlerde, 19 farklı yapay zeka modeli üç genç diş hekimiyle karşılaştırıldı. Sonuçlar, yapay zekanın özellikle karmaşık vakalarda ve birden fazla tedavi alanı gerektiren durumlarda insan hekimlerden geride kaldığını gösterdi. Bu çalışma, tıbbi karar verme süreçlerinde yapay zekanın mevcut sınırlarını ortaya koyarken, gelecekteki gelişmeler için önemli bir referans noktası oluşturuyor.

arXiv (CS + AI) · 28 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka İçin Sonsuz Bilimsel Test Alanı Geliştirildi

Araştırmacılar, büyük dil modellerinin bilimsel verileri analiz etme yeteneklerini değerlendirmek için yenilikçi bir sistem geliştirdi. InfiniteScienceGym adlı bu platform, gerçek bilimsel çalışmalardaki önyargı ve sınırlamaları ortadan kaldırarak sonsuz sayıda test senaryosu üretebiliyor. Sistem, algoritmaların bilimsel veri analizi, kanıt tabanlı muhakeme ve araç kullanımı becerilerini kontrollü bir ortamda test etmeyi mümkün kılıyor. Bu yaklaşım, yapay zekanın bilimsel asistan rolündeki performansını daha objektif şekilde ölçmek için kritik bir adım teşkil ediyor.

arXiv (CS + AI) · 28 gün önce

Teknoloji & Yapay Zeka

Yapay zeka dilbilim testinin ciddi eksikleri ortaya çıkarıldı

Araştırmacılar, dilsel anlam değişimini tespit etmede kullanılan en etkili kıyaslama testlerinden SemEval-2020 Task 1'in temel sorunlarını analiz etti. Çalışma, testin kelimelerin anlam değişimini yalnızca ayrı anlamların kazanılması, kaybedilmesi veya yeniden dağıtılması olarak ele aldığını gösteriyor. Bu yaklaşım, dilin doğasında var olan kademeli, yapısal ve bağlamsal değişimleri yakalayamıyor. Ayrıca veri kalitesi incelemesinde OCR hataları, bozuk karakterler, kesik cümleler ve tutarsız dilbilgisel etiketleme gibi ciddi teknik problemler tespit edildi. Bu bulgular, yapay zeka sistemlerinin dil anlama kapasitelerini değerlendirmede kullanılan temel araçların ne kadar güvenilir olduğu sorusunu gündeme getiriyor.

arXiv (CS + AI) · 28 gün önce

Teknoloji & Yapay Zeka

Denizcilik Bilgisayarla Görme Atölyesi 2026: AI'ın Denizlerdeki Yeni Sınırları

CVPR 2026 konferansının parçası olarak düzenlenen 4. Denizcilik Bilgisayarla Görme Atölyesi (MaCVi), deniz ortamlarında yapay zeka uygulamalarının geliştirilmesine odaklanıyor. Bu yılki etkinlik, hem tahmin doğruluğunu hem de gerçek zamanlı gömülü sistem uygulanabilirliğini vurgulayan beş farklı benchmark yarışması içeriyor. Deniz araçlarının otonom navigasyonu, gemi tespiti, deniz altı görüntüleme ve maritime güvenlik gibi alanlarda AI algoritmalarının performansını değerlendiren bu atölye, sektörün ihtiyaçlarına yönelik pratik çözümler sunuyor. Yarışmacı ekiplerin teknik raporları, gerçek dünya uygulamalarında karşılaşılan zorlukları ve çözüm yollarını ortaya koyuyor. Bu tür çalışmalar, denizcilik endüstrisinin dijital dönüşümünde önemli bir rol oynuyor.

arXiv (CS + AI) · 28 gün önce

← 1 … 8 9 10 →