Araştırmacılar, büyük dil modellerinin akıl yürütme süreçlerini adım adım değerlendiren yenilikçi bir sistem geliştirdi. Process Reward Models (PRM) adı verilen bu yaklaşım, yapay zekanın düşünme zincirindeki her adımı ayrı ayrı puanlayarak hataları tespit edebiliyor. Çalışmada, planlama problemlerini kullanan özgün bir veri seti oluşturma yöntemi tanıtıldı. Bu metot sayesinde yaklaşık bir milyon akıl yürütme adımı içeren kapsamlı bir eğitim veri seti üretildi. Geleneksel matematik odaklı veri setlerine göre büyük avantaj sağlayan sistem, hem matematiksel hem de matematiksel olmayan problemlerde önemli performans artışları gösterdi. Bu gelişme, yapay zekanın daha güvenilir ve tutarlı akıl yürütme yetenekleri kazanması açısından büyük önem taşıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Ödül Modellerinde Çok Aşamalı İşlem Hatası Çözüldü

Büyük dil modellerinin insan tercihlerine uyumlu hale getirilmesinde kritik rol oynayan ödül modelleri, çok aşamalı yapay zeka sistemlerinde beklenmedik tutarsızlıklar sergiliyor. Araştırmacılar, tek adımlık üretim için tasarlanan mevcut ödül modellerinin, gerçek dünya uygulamalarında yaygın olan çok aşamalı süreçlerde yetersiz kaldığını keşfetti. Bu sorunu çözmek için geliştirilen PARM (Pipeline-Adapted Reward Model), ödül tahminleri ile gerçek sistem performansı arasındaki tutarsızlığı gideriyor. Kombinatorik optimizasyon problemleri üzerinde test edilen sistem, formülasyon ve kod üretimi aşamalarını entegre ederek daha güvenilir sonuçlar üretiyor. Bu gelişme, yapay zeka sistemlerinin karmaşık görevlerdeki performansını artırmada önemli bir adım.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

18 Apr

Yapay Zeka Değerlendirmesinde Devrim: Tek Seferde Çoklu Yanıt Puanlama

Araştırmacılar, yapay zeka modellerinin ürettiği yanıtları değerlendirmek için yeni bir yöntem geliştirdi. Geleneksel sistemler her yanıtı ayrı ayrı inceleyerek zaman kaybına neden olurken, yeni yaklaşım birden fazla yanıtı tek seferde karşılaştırıp puanlayabiliyor. Bu yöntem, yanıtları özel ayırıcı tokenlarla birleştirerek doğrudan karşılaştırmalı akıl yürütme imkanı sunuyor. Sistem, N adet yanıt için N kat hızlanma ve hesaplama maliyetinde ciddi azalma sağlıyor. Araştırma kapsamında iki yeni benchmark oluşturuldu: MR²Bench-Image görsel içerik için 8 farklı modelin yanıtlarını insan değerlendirmeleriyle karşılaştırırken, MR²Bench-Video 94 bin kişinin video tabanlı soru-cevap değerlendirmelerinden oluşuyor. Bu gelişme, yapay zeka modellerinin performansını daha hızlı ve verimli değerlendirme imkanı sunarak, AI sistemlerinin geliştirilmesini hızlandırabilir.

arXiv (CS + AI) 0