Araştırmacılar, büyük dil modellerinin (LLM) farklı versiyonları arasındaki performans değişikliklerini daha hassas şekilde ölçebilen yeni bir yöntem geliştirdi. Klinik psikolojiden uyarlanan Güvenilir Değişim İndeksi (RCI) ile yapılan çalışma, genel başarı puanlarının yanıltıcı olabileceğini ortaya koydu. Llama 3-3.1 ve Qwen 2.5-3 model çiftleri üzerinde yapılan testlerde, modellerin bazı alanlarda iyileşirken diğerlerinde kötüleşebildiği gözlemlendi. Bu bulgular, yapay zeka modellerinin gelişimini değerlendirmede daha detaylı analizlerin önemini vurguluyor ve gelecekteki model geliştirme süreçlerine ışık tutuyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) 0

Teknoloji & Yapay Zeka

30 Apr

Yapay Zeka Modelleri için Yeni Kapsamlı Test Sistemi: LIT-RAGBench

Araştırmacılar, büyük dil modellerinin gerçek dünya problemlerini çözme yeteneklerini değerlendirmek için LIT-RAGBench adlı yeni bir test sistemi geliştirdi. Bu sistem, yapay zekanın bilgi entegrasyonu, mantıksal çıkarım, tablo yorumlama, çok adımlı akıl yürütme ve yetersiz veri durumunda karar verme becerilerini aynı anda ölçebiliyor. Mevcut test sistemleri bu yetenekleri parça parça değerlendirirken, LIT-RAGBench bunları birlikte ele alarak daha gerçekçi bir performans ölçümü sunuyor. Bu gelişme, RAG (Retrieval-Augmented Generation) teknolojisinin pratik uygulamalarda ne kadar etkili olduğunu anlamak için kritik bir adım teşkil ediyor.

arXiv (Dilbilim & NLP) 0

Teknoloji & Yapay Zeka

21 Apr

Yazılım 'şişkinliğini' azaltmanın yeni yolu: Gerçek performans ölçümü

Yazılım geliştirme dünyasında 'debloating' olarak bilinen süreç, programlardan kullanılmayan kodları temizleyerek performansı artırmayı hedefliyor. Ancak bu alandaki mevcut değerlendirme yöntemleri eksik kalıyor. Araştırmacılar, test senaryoları ve kod boyutu gibi dolaylı ölçütler yerine, gerçek performans verilerine dayanan yeni bir değerlendirme yaklaşımı geliştirdi. Bu çalışma, yazılım optimizasyonu alanında daha güvenilir standartlar oluşturma ihtiyacını vurguluyor ve sekiz farklı debloating tekniğini analiz ederek alandaki boşlukları ortaya koyuyor.

arXiv (CS + AI) 0