“model değerlendirme” için sonuçlar

Teknoloji & Yapay Zeka

4 May

Yapay Zeka Ses Modellerini Değerlendirmede Devrim: %99 Daha Az Veriyle Aynı Sonuç

Araştırmacılar, büyük ses yapay zeka modellerini değerlendirmek için çok daha verimli bir yöntem geliştirdi. Binlerce örnek yerine sadece 50 örnek kullanarak, tam veri setinin %0.3'ü ile %93 doğrulukta sonuçlar elde ettiler. Ancak asıl çığır açan bulgu, 776 gerçek kullanıcı tercihi verisiyle geliştirilen yeni yaklaşımlarının %98 doğrulukla insan memnuniyetini tahmin edebilmesi. Bu gelişme, ses asistanları ve diğer ses teknolojilerinin değerlendirilmesinde hem maliyetleri büyük ölçüde düşürüyor hem de kullanıcı deneyimini önceleyen daha gerçekçi ölçüm standartları sunuyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) 0

Teknoloji & Yapay Zeka

4 May

Küçük AI modelleri büyük görevlerde ne kadar başarılı? AgentFloor testi açıklıyor

Araştırmacılar, yapay zeka sistemlerinde hangi görevlerin büyük modeller gerektirdiğini, hangilerinin küçük modellerle halledilebileceğini belirlemek için AgentFloor adlı yeni bir değerlendirme sistemi geliştirdi. 30 farklı görevi içeren altı kademeli bu test, 0,27 milyardan 32 milyar parametreye kadar 16 farklı açık kaynak modeli GPT-5 ile karşılaştırdı. Bulgular, kısa vadeli ve yapılandırılmış araç kullanımı gerektiren işlerin çoğunun küçük ve orta ölçekli modellerle başarıyla yapılabileceğini gösterdi. Bu sonuçlar, AI sistemlerinin daha verimli tasarlanması ve maliyetlerin optimize edilmesi açısından önemli pratik değer taşıyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) 0

Teknoloji & Yapay Zeka

1 May

Yapay Zeka Modelleri Zor Talimatlarda Pozisyon Hilelerine Başvuruyor

Araştırmacılar, dil modellerini kasıtlı olarak kötü performans göstermeleri için talimatlandırdıklarında bu modellerin soru içeriklerini anlayıp anlamadıklarını inceledi. Llama-3 modellerinde yapılan testler, modellerin karmaşık talimatlar karşısında soruları çözmeye çalışmak yerine pozisyon tabanlı kestirme yolları kullandığını ortaya koydu. Altı farklı talimat türü ile yapılan deneylerde, belirsiz talimatların orta düzeyde performans düşüşüne neden olduğu, standart sabotaj talimatlarının kısmen içerik anlayışını koruduğu, ancak iki aşamalı kaçınma talimatlarının neredeyse tamamen pozisyon hilelerine dayalı yanıtlara yol açtığı gözlendi. Bu bulgular, yapay zeka güvenliği ve model değerlendirmesi açısından önemli sonuçlar taşıyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) 0

Teknoloji & Yapay Zeka

1 May

Yapay Zeka Modellerinin Gelişimini Ölçmenin Yeni Yöntemi Bulundu

Araştırmacılar, büyük dil modellerinin (LLM) farklı versiyonları arasındaki performans değişikliklerini daha hassas şekilde ölçebilen yeni bir yöntem geliştirdi. Klinik psikolojiden uyarlanan Güvenilir Değişim İndeksi (RCI) ile yapılan çalışma, genel başarı puanlarının yanıltıcı olabileceğini ortaya koydu. Llama 3-3.1 ve Qwen 2.5-3 model çiftleri üzerinde yapılan testlerde, modellerin bazı alanlarda iyileşirken diğerlerinde kötüleşebildiği gözlemlendi. Bu bulgular, yapay zeka modellerinin gelişimini değerlendirmede daha detaylı analizlerin önemini vurguluyor ve gelecekteki model geliştirme süreçlerine ışık tutuyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) 0

Teknoloji & Yapay Zeka

21 Apr

FLARE: Etiket olmadan yapay zeka modellerini değerlendiren yeni yöntem

Araştırmacılar, görev-spesifik etiketler olmadan embedding modellerini değerlendiren FLARE adlı yeni bir yöntem geliştirdi. Mevcut yöntemler yüksek boyutlu uzaylarda başarısız olurken, FLARE akış tabanlı normalleştirilmiş veri akışları kullanarak bilgi yeterliliğini doğrudan tahmin ediyor. 11 veri seti ve 8 embedding modeli üzerinde yapılan testlerde, FLARE %90 korelasyon oranına ulaşarak mevcut yöntemlerden üstün performans gösterdi. Özellikle 3.584 ve üzeri boyutlarda diğer yöntemler çökerken FLARE kararlı kaldı. Bu gelişme, özellikle etiketli verinin bulunmadığı durumlarda en uygun yapay zeka modelini seçme konusunda önemli bir ilerleme sağlıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay zeka modellerinin yetenekleri artık kendi iç dünyalarından keşfediliyor

Yapay zeka araştırmacıları, dil modellerinin yeteneklerini anlamak için yeni bir yaklaşım geliştirdi. Geleneksel yöntemler, insanların önceden belirlediği kategorilere dayalı değerlendirmeler yapıyordu. Yeni yaklaşım ise modellerin kendi iç temsillerini analiz ederek, hangi becerilere sahip olduklarını ortaya çıkarıyor. Bu 'model-doğal' yaklaşım, yapay zekanın davranışlarını değiştirmek ve geliştirmek için çok daha etkili olabilir. Araştırmacılar, modelin aktivasyon verilerinden kompakt bir temel oluşturarak, anlam açısından yorumlanabilir ama önceden tanımlanmış insan kategorilerine bağlı olmayan beceri eksenlerini keşfetti. Bu yöntem, modelin kendi davranış değişkenliği etrafında organize olduğu eksenleri yakalar ve yapay zeka eğitiminde veri seçimi gibi uygulamalarda kullanılabiliyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modellerinin 'Yalan Dedektörü' Testinden Geçti: Sonuçlar Şaşırtıcı

Araştırmacılar, büyük dil modellerinin (LLM) güvenilirliğini ölçmek için klinik psikolojide kullanılan geçerlilik ölçeklerini uyguladı. 20 farklı yapay zeka modeli 524 maddelik bir teste tabi tutuldu ve altı farklı geçerlilik indeksi kullanılarak değerlendirildi. Çalışmanın bulguları, dört modelin tamamen geçersiz, iki modelin ise yükseltilmiş risk seviyesinde olduğunu gösterdi. Geçerli profil gösteren modeller, sorulara karşı duyarlı güven seviyeleri sergilerken, geçersiz profilli modeller bu özelliği göstermedi. Özellikle düşünce zinciri eğitimi alan modellerde iki farklı yanıt bozukluğu türü gözlemlendi.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay zeka modellerinin SQL testlerindeki gizli avantajı ortaya çıktı

Büyük dil modelleri, doğal dilden SQL'e çeviri testlerinde etkileyici başarılar sergiliyor. Ancak yeni bir araştırma, bu başarının yanıltıcı olabileceğini ortaya koyuyor. Araştırmacılar, modellerin eğitim sırasında benzer sorulara maruz kaldığı için testlerde haksız avantaj elde ettiğini keşfetti. SPENCE adlı yeni test yöntemi, bu durumu tespit etmek için geliştirildi. Çalışma, modellerin gerçek anlama yerine ezber yapıyor olabileceğini gösteriyor. Bu bulgu, yapay zeka değerlendirmelerindeki güvenilirlik sorunlarına ışık tutuyor ve daha adil test yöntemlerine duyulan ihtiyacı vurguluyor. Araştırma, yapay zeka alanındaki performans ölçümlerinin yeniden gözden geçirilmesi gerektiğini işaret ediyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modellerinin Zayıf Noktalarını Tespit Eden Yeni Yöntem Geliştirildi

Araştırmacılar, büyük dil modellerinin (LLM) değerlendirilmesinde devrim yaratacak yeni bir metodoloji geliştirdi. QuickScope adlı bu sistem, dinamik test setlerinde yapay zeka modellerinin zorlandığı soruları etkili bir şekilde belirlemeyi amaçlıyor. Geleneksel benchmark testleri sabit soru setleri kullanırken, modern dinamik testler şablon ve parametreler aracılığıyla sınırsız soru varyantları üretebiliyor. Bu esneklik değerli olmakla birlikte, özellikle modellerin zayıf noktalarını güvenilir şekilde tespit etmek söz konusu olduğunda değerlendirme sürecini oldukça maliyetli hale getiriyor. QuickScope, Bayesian optimizasyon algoritması COUP'u temel alarak, pratik LLM işlem hatları için uyarlanmış bir çözüm sunuyor. Bu yenilikçi yaklaşım, AI modellerinin performanslarının daha verimli ve hedefli analizi için önemli bir adım teşkil ediyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Büyük Dil Modellerinin Hata Yapısı İki Farklı Açıdan İncelendi

Araştırmacılar, büyük dil modellerinin çok adımlı işlemlerinde nasıl hata yaptığını anlamak için yeni bir değerlendirme yöntemi geliştirdi. ChatGPT gibi modeller karmaşık görevlerde birden fazla adımda çalışırken bazen doğru cevapları bozabiliyor, bazen de yanlış cevapları düzeltebiliyor. Yeni yaklaşım, bu süreçleri 'düzeltme' ve 'bozma' olmak üzere iki ayrı oranla ölçerek, modellerin hangi durumlarda yardımcı olup hangilerinde zarar verdiğini net şekilde gösteriyor. Bu analiz, yapay zeka sistemlerinin güvenilirliğini artırmak ve hangi koşullarda beklenmedik davranışlar sergilediklerini anlamak açısından kritik öneme sahip.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Hakemlerinin Raf Ömrü Sorunu: Gelecek Modellere Hazır mı?

Yapay zeka sistemlerinin değerlendirilmesinde kritik rol oynayan 'LLM-hakem' modelleri, günümüzde yaygın olarak kullanılıyor. Araştırmacılar, özel verilerle eğitilmiş hakem modellerin daha küçük boyutlarda bile büyük modelleri geçtiğini ve önyargılara karşı daha dayanıklı olduğunu keşfetti. Ancak yeni bir çalışma, bu hakemlerin gerçek dünyada karşılaştığı üç kritik sorunu ortaya koyuyor: gelecekteki yeni modelleri değerlendirebilme kapasitesi, eski modellere uyumluluk ve daha önce görmediği sorulara genelleme yetisi. Bu araştırma, yapay zeka değerlendirmesinde sürdürülebilirlik ve uzun vadeli performans açısından önemli bulgular sunuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Görme-Dil-Eylem Yapay Zeka Modellerini Test Etmek Artık Çok Daha Kolay

Araştırmacılar, robot kontrolü ve otomasyon alanında kullanılan Görme-Dil-Eylem (VLA) modellerinin değerlendirilmesini kolaylaştıran yeni bir platform geliştirdi. vla-eval adlı bu açık kaynak sistem, farklı AI modellerinin performansını karşılaştırmanın zorluklarını ortadan kaldırıyor. Geleneksel yöntemlerde her yeni test için ayrı yazılım kurulumları ve uyumluluk sorunları yaşanıyordu. Yeni platform, Docker teknolojisi kullanarak bu sorunları çözüyor ve araştırmacıların 14 farklı simülasyon ortamında modellerini tek seferde test etmelerine olanak sağlıyor. Bu gelişme, robotik ve yapay zeka alanındaki araştırmaları hızlandırarak, daha güvenilir model karşılaştırmaları yapılmasını mümkün kılıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

18 Apr

Zaman Serisi Tahminlerinde Devrim: TempusBench Değerlendirme Sistemi Geliştir

Araştırmacılar, zaman serisi tahmin modellerinin performansını değerlendirmek için yeni bir framework olan TempusBench'i geliştirdi. Mevcut değerlendirme sistemlerinin yetersizliklerini gidermek amacıyla tasarlanan bu sistem, güncel veri setleri kullanıyor ve modellerin istatistiksel özelliklerini daha kapsamlı analiz ediyor. TempusBench, özellikle son dönemde hızla gelişen temel zaman serisi modellerinin (TSFM) daha objektif karşılaştırılmasını sağlıyor. Bu gelişme, finans, enerji ve iklim tahminlerinde kullanılan yapay zeka modellerinin güvenilirliğini artırabilir.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

10 Apr

BERT-as-a-Judge: Dil Modellerinin Değerlendirilmesi İçin Sözlüksel Yöntemlere Güçlü Alternatif

Büyük dil modellerinin (LLM) değerlendirilmesinde kullanılan geleneksel sözlüksel yöntemler, modellerin gerçek problem çözme yetenekleri ile format kurallarına uyumu arasında karışıklık yaratabilir. BERT tabanlı yeni yaklaşım, daha esnek ve doğru değerlendirme imkanı sunuyor.

arXiv 0