"benchmark" araması — BilimKapsül

Arama Sonuçları

115 haber

Portekizce için Geliştirilen NorBERTo Yapay Zeka Modeli 331 Milyar Token ile Eğitildi

Brezilya'daki araştırmacılar, Portekizce doğal dil işleme alanında çığır açan yeni bir yapay zeka modeli geliştirdi. NorBERTo adlı bu model, ModernBERT mimarisine dayalı olarak tasarlandı ve Aurora-PT adı verilen dev bir Portekizce veri kümesi ile eğitildi. Bu veri kümesi, çeşitli web kaynaklarından toplanan 331 milyar GPT-2 token içeriyor. Model, metin benzerliği, mantıksal çıkarım ve sınıflandırma görevlerinde test edildiğinde, özellikle PLUE ve ASSIN 2 benchmark testlerinde kayda değer başarılar elde etti. NorBERTo-large versiyonu, değerlendirilen kodlayıcı modeller arasında en iyi performansı göstererek Portekizce NLP uygulamaları için önemli bir adım teşkil ediyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) · 10 gün önce

Teknoloji & Yapay Zeka

Mamba AI Modelinin Gizli Hafızası Beklenen Performansı Gösteremedi

Yapay zeka dünyasında dikkat çeken Mamba modeli, teorik olarak her kelimeyi sıkıştırılmış bir hafızada saklayabiliyor. Araştırmacılar, bu özelliğin otomatik cümle özetleme için kullanılabileceğini düşünmüştü. Ancak yeni çalışma, bu beklentiyi karşılamadığını ortaya koydu. Mamba-130M modeli üzerinde yapılan testlerde, beş farklı benchmark görevinde (duygu analizi, dilbilgisel doğruluk, cümle benzerliği gibi) modelin donmuş temsilleri incelendi. Sonuçlar hayal kırıklığı yarattı: özel sınır noktalarından çıkarılan temsiller, basit ortalama alma yönteminden tutarlı bir şekilde daha iyi performans gösteremedi. Daha da önemlisi, araştırmacılar modelin iç yapısında iki ciddi sorun tespit etti: temsillerin birbirine aşırı benzemesi ve son durum vektörlerinde anlam kaybı. Bu bulgular, Mamba gibi yeni nesil dil modellerinin teorik potansiyellerini pratiğe dönüştürmenin düşünülenden daha karmaşık olduğunu gösteriyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) · 10 gün önce

Teknoloji & Yapay Zeka

Sosyal Medyada Tartışmalı Konuların Analizi İçin Yeni Yapay Zeka Benchmarkı

Araştırmacılar, sosyal medyada ideolojik ayrılıklar üzerinden yapılan tartışmaları analiz etmek için ControBench adlı yeni bir benchmark geliştirdi. Reddit'ten toplanan verilerle oluşturulan bu sistem, politik kutuplaşma ve dezenformasyon araştırmalarında önemli bir boşluğu dolduruyor. Trump, kürtaj ve din gibi tartışmalı konularda 7.370 kullanıcı, 1.783 gönderi ve 26.525 etkileşim verisi içeren benchmark, hem metin analizini hem de sosyal etkileşim yapısını bir araya getiriyor. Mevcut veri setleri ya sadece metni ya da sadece etkileşim yapısını dikkate alırken, ControBench her iki unsuru da birleştirerek tartışmaların bağlamsal analizine olanak sağlıyor. Bu gelişme, çevrimiçi platformlarda içerik moderasyonu ve polarizasyon dinamiklerini anlamak için kritik önem taşıyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) · 10 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Arayüz Etkileşiminde Büyük Verimlilik Atılımı

Yapay zeka ajanlarının grafik kullanıcı arayüzleriyle etkileşimi sırasında karşılaştığı büyük veri sorunu için yenilikçi bir çözüm geliştirildi. A11y-Compressor adlı framework, arayüz verilerini %78 oranında sıkıştırırken performansı artırıyor. Sistem, erişilebilirlik ağaçlarındaki gereksiz bilgileri temizleyerek ve yapısal düzenlemeler yaparak çalışıyor. OSWorld benchmark testlerinde yapılan denemelerde, sıkıştırılmış veriler orijinalin sadece %22'si kadar yer kaplarken, görev başarı oranları ortalama %5.1 puan artış gösterdi. Bu gelişme, yapay zeka ajanlarının bilgisayar arayüzleriyle daha verimli çalışabilmesi için kritik bir adım teşkil ediyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) · 10 gün önce

Teknoloji & Yapay Zeka

Küçük AI modelleri büyük görevlerde ne kadar başarılı? AgentFloor testi açıklıyor

Araştırmacılar, yapay zeka sistemlerinde hangi görevlerin büyük modeller gerektirdiğini, hangilerinin küçük modellerle halledilebileceğini belirlemek için AgentFloor adlı yeni bir değerlendirme sistemi geliştirdi. 30 farklı görevi içeren altı kademeli bu test, 0,27 milyardan 32 milyar parametreye kadar 16 farklı açık kaynak modeli GPT-5 ile karşılaştırdı. Bulgular, kısa vadeli ve yapılandırılmış araç kullanımı gerektiren işlerin çoğunun küçük ve orta ölçekli modellerle başarıyla yapılabileceğini gösterdi. Bu sonuçlar, AI sistemlerinin daha verimli tasarlanması ve maliyetlerin optimize edilmesi açısından önemli pratik değer taşıyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) · 10 gün önce

Teknoloji & Yapay Zeka

AI Sistemleri İçin Yeni Tablo Arama Teknolojisi: FollowTable Benchmark'ı

Yapay zeka sistemlerinin veri tablolarından daha etkili bilgi alabilmesi için yeni bir yaklaşım geliştirildi. Geleneksel tablo arama yöntemleri sadece konu benzerliğine odaklanırken, LLM tabanlı sistemler belirli talimatları takip ederek arama yapmak zorunda. Araştırmacılar bu ihtiyacı karşılamak için Instruction-Following Table Retrieval (IFTR) adlı yeni bir görev türü tanımladı. Bu sistem, hem konusal uygunluğu hem de detaylı talimat kısıtlarını aynı anda sağlayabiliyor. Çalışmada iki temel zorluk belirlendi: içerik kapsamına duyarlılık ve şema tabanlı gereksinimlerin farkında olma. Bu alandaki ilk büyük ölçekli değerlendirme sistemi olan FollowTable benchmark'ı, geliştiricilerin yeni algoritmaları test etmesi için kapsamlı bir platform sunuyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) · 10 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Modellerinde Adalet Değerlendirmesi İçin Yeni Çerçeve Geliştirildi

Araştırmacılar, büyük dil modellerinin (LLM) farklı kullanım alanlarında önyargı ve adalet risklerini değerlendirmek için sistematik bir çerçeve geliştirdi. Mevcut yaklaşımların uygun değerlendirme metrikleri seçme konusunda rehberlik eksikliği bulunuyordu. Yeni çerçeve, model türü, istem popülasyonu ve paydaş önceliklerine göre ilgili önyargı ve adalet metriklerini eşleştiriyor. Toksiklik, stereotipleme, karşıt-olgusal adaletsizlik ve tahsis zararları gibi konuları ele alıyor. Çalışma, beş farklı LLM ve beş istem popülasyonu üzerinde yapılan kapsamlı deneylerle adalet risklerinin benchmark performansından güvenilir şekilde değerlendirilemeyeceğini gösteriyor. Bu bulgular, yapay zeka sistemlerinin toplumsal etkilerinin daha doğru değerlendirilmesi açısından kritik öneme sahip.

arXiv — Hesaplamalı Dilbilim (cs.CL) · 10 gün önce

Teknoloji & Yapay Zeka

Konuşan yapay zeka modelleri zamanlamada zorlanıyor

Gerçek zamanlı konuşma yapabilen yapay zeka modelleri, gelecekteki insan-bilgisayar etkileşiminin anahtarı olarak görülüyor. Ancak bu sistemlerin zamansal yetenekleri - yani konuşma temposunu ayarlama, zamanlamayı yönetme ve eş zamanlı konuşmaları idare etme becerileri - henüz yeterince test edilmemişti. Araştırmacılar bu eksikliği gidermek için Game-Time Benchmark adlı yeni bir değerlendirme çerçevesi geliştirdiler. İnsanların dil öğrenme sürecinden ilham alan bu test sistemi, basit talimat takip etme görevlerinden karmaşık zamanlama gerektirenlerine kadar çeşitli görevleri içeriyor. En gelişmiş modellerin bile temel talimatlarda güçlük çektiği, zamansal kısıtlamalar altında ise neredeyse tüm sistemlerin performansının ciddi şekilde düştüğü ortaya çıktı. Bu bulgular, doğal konuşma deneyimi için yapay zekanın aşması gereken önemli engelleri gözler önüne seriyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) · 10 gün önce

Tıp & Sağlık

Yapay zeka sağlıkta: Doktorların ChatGPT kullanımı için yeni değerlendirme standardı

Milyonlarca hekim günlük pratiğinde ChatGPT'yi kullanıyor ancak bu etkileşimlerin ne kadar etkili olduğu belirsizdi. Araştırmacılar, yapay zeka modellerinin tıbbi performansını gerçek doktor-AI sohbetleri üzerinden değerlendiren HealthBench Professional adlı yeni bir ölçüm sistemi geliştirdi. Bu benchmark, hekimlerin en sık başvurduğu üç ana alanda AI'ın başarısını ölçüyor: hasta konsültasyonu, tıbbi yazım-dokümantasyon ve medikal araştırma. Her örnek, gerçek hekimler tarafından yazılan ChatGPT konuşmalarından oluşuyor ve üç veya daha fazla doktor tarafından değerlendiriliyor. Sistem, mevcut AI modellerinin zorlandığı durumları özellikle içeriyor ve gelecekteki gelişmeleri takip etmeye olanak sağlıyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) · 13 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Asistanları Artık Çoklu Uygulamalar Arası Çalışabiliyor

Araştırmacılar, yapay zeka destekli GUI (grafik kullanıcı arayüzü) asistanlarının gerçek dünya iş ortamlarındaki performansını ölçmek için WindowsWorld adlı yeni bir değerlendirme sistemi geliştirdi. Bu sistem, tek uygulama odaklı mevcut testlerin aksine, çoklu masaüstü uygulamaları arasında koordinasyon gerektiren karmaşık iş akışlarını test ediyor. 16 farklı meslekten ilham alınarak oluşturulan 181 görev içeren benchmark, yapay zeka asistanlarının profesyonel ortamlardaki gerçek yeteneklerini daha doğru bir şekilde değerlendirmeyi amaçlıyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) · 13 gün önce

Teknoloji & Yapay Zeka

Yapay Zeka Arama Motorlarını Nasıl Değiştiriyor? 11.500 Sorguyla Test Edildi

Araştırmacılar, yapay zekanın geleneksel arama motorlarını nasıl dönüştürdüğünü anlamak için kapsamlı bir çalışma gerçekleştirdi. 11.500 kullanıcı sorgusundan oluşan benchmark veri setiyle Google Arama, AI Overview ve Gemini Flash 2.5'i karşılaştıran araştırma, çarpıcı bulgular ortaya koydu. Sonuçlara göre, kullanıcı sorgularının yarısından fazlasında (%51.5) AI Overview'lar oluşturuluyor ve organik arama sonuçlarının üzerinde gösteriliyor. Özellikle tartışmalı konularda AI özetlerinin daha sık görüldüğü tespit edildi. Çalışma ayrıca farklı arama sistemlerinin kaynaklarını seçme biçimlerinin önemli ölçüde farklılaştığını gösteriyor. Bu araştırma, yapay zekanın arama deneyimini nasıl şekillendirdiğini ve bilgiye erişim şeklimizi nasıl değiştirdiğini anlamamız açısından kritik bulgular sunuyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) · 13 gün önce

← 1 2 3 … 10 →