"GRPO" için 13 sonuç bulundu
× Aramayı temizle
Arama Sonuçları
13 haber
Yapay Zeka Modellerinin Karar Verme Önyargıları Yeni Yöntemle Azaltılıyor
Büyük dil modelleri çoktan seçmeli sorularda ve karşılaştırma görevlerinde seçenek sırası gibi anlamsız faktörlerden etkilenerek önyargılı davranabilir. Araştırmacılar, bu sorunu çözmek için PA-GRPO adlı yeni bir yöntem geliştirdi. Bu teknik, modelin aynı soruya farklı seçenek sıralarında tutarlı cevaplar vermesini sağlayarak karar verme sürecini iyileştiriyor. Geleneksel yöntemler pahalı ve mantıksal düşünceye zarar verebilirken, yeni yaklaşım modeli eğitim sırasında optimize ederek daha güvenilir sonuçlar elde ediyor.
arXiv — Hesaplamalı Dilbilim (cs.CL) · 13 gün önce
0
Yapay Zeka Görsel Üretiminde Kararlılığı Artıran Yeni Yöntem Geliştirildi
Araştırmacılar, metinden görsel üreten yapay zeka sistemlerinin eğitiminde yaşanan kararsızlık sorununa çözüm getiren Pref-GRPO adlı yeni bir yöntem geliştirdi. Mevcut sistemlerde, görselleri puanlayan ödül modellerinin küçük puan farklarını abartması nedeniyle 'ödül hackleme' sorunu yaşanıyordu. Bu durum, yapay zekanın önemsiz detaylar için aşırı optimizasyon yapmasına ve görsel üretim sürecinin bozulmasına yol açıyordu. Yeni yöntem, puanları maksimize etmek yerine görselleri ikili karşılaştırmalar yaparak değerlendiriyor ve kazanma oranını ödül sinyali olarak kullanıyor. Bu yaklaşım, eğitim sürecini daha kararlı hale getirerek kaliteli görsel üretimini destekliyor.
arXiv (CS + AI) · 23 gün önce
0
OpenVLThinkerV2: Çok Modalli Yapay Zeka Modellerinde Yeni Eğitim Yaklaşımı
Araştırmacılar, görsel görevlerde çalışan yapay zeka modellerinin eğitiminde karşılaşılan temel zorluklara çözüm getiren yeni bir yöntem geliştirdi. Gaussian GRPO (G²RPO) adı verilen bu yaklaşım, farklı görsel görevlerdeki aşırı varyans sorununu ve detaylı algı ile çok adımlı mantık yürütme arasındaki dengeyi sağlama zorluğunu ele alıyor. Yöntem, avantaj dağılımını standart normal dağılıma zorla yakınlaştırarak görevler arası gradient eşitliğini teorik olarak garanti ediyor. Bu gelişme, açık kaynak çok modalli modellerin gelişiminde önemli bir adım olarak değerlendiriliyor.
arXiv (CS + AI) · 23 gün önce
0
Yapay Zeka Modelleri Artık Ne Zaman Durması Gerektiğini Öğreniyor
Büyük dil modelleri karmaşık problemleri çözerken gereksiz hesaplamalar yaparak enerji ve zaman israf ediyor. Stanford araştırmacıları, Step-GRPO adlı yeni bir yöntem geliştirerek bu soruna çözüm getirdi. Bu teknik, modellerin cevabı bulduklarında otomatik olarak durmayı öğrenmelerini sağlıyor. Geleneksel yöntemler ya modelin performansını düşürüyor ya da sistem karmaşıklığını artırıyordu. Step-GRPO ise modelin içine dinamik erken çıkış yeteneği yerleştirerek bu ikilemden kurtulmuş. Yöntem, düşünce zincirini anlamsal adımlara bölerek optimize ediyor ve gereksiz tekrarları cezalandırıyor. Test sonuçları, Qwen3-8B modelinde hem doğruluğu koruduğunu hem de hesaplama verimliliğini önemli ölçüde artırdığını gösterdi.
arXiv (CS + AI) · 23 gün önce
0
Yapay Zeka Arama Ajanları: Negatif Avantajların Çifte Etkisi Sorunu
Araştırmacılar, arama motorlarıyla çok turlu etkileşimde bulunabilen derin arama ajanlarının eğitimindeki kritik sorunlara odaklandı. Bu yapay zeka sistemleri, soru-cevap yetenekleri için GRPO algoritmasını kullanıyor ancak eğitim sırasında ciddi zorluklar yaşıyor. Ana sorun, doğru ara adımların yanlış final cevap nedeniyle haksız yere cezalandırılması ve bu durumun eğitim kararsızlığına yol açması. Bilim insanları, pozitif ve negatif avantajlar arasındaki dengesizliğin doğal dil yeteneklerinin bozulmasına hatta tam çöküşe neden olduğunu keşfetti. Bu sorunlara çözüm olarak CalibAdv adlı yeni bir avantaj kalibrasyon yöntemi geliştirdiler.
arXiv (CS + AI) · 23 gün önce
0
Yapay Zeka Araç Kullanımında Hata Kurtarma Sorunu Çözüldü
Büyük dil modelleri araçları etkili kullanabilse de, çok aşamalı işlemlerde hatalarla karşılaştıklarında toparlanmakta zorlanıyor. Küçük modeller özellikle bir araç çağrısı başarısız olduğunda aynı geçersiz işlemi tekrar tekrar deneyerek döngüye giriyor. Stanford araştırmacıları, bu sorunu çözmek için Fission-GRPO adlı yenilikçi bir framework geliştirdi. Bu sistem, hatalı işlemleri öğrenme fırsatına dönüştürerek modellerin hatalardan nasıl kurtulacağını öğrenmesini sağlıyor. Geleneksel pekiştirmeli öğrenme yöntemlerinin aksine, zengin hata deneyimlerini değerlendirilebilir öğrenme materyaline çeviriyor.
arXiv (CS + AI) · 23 gün önce
0
Yapay Zeka Modellerinin Mantık Yürütme Becerilerini Artıran Yeni Algoritma: MCPO
Araştırmacılar, büyük dil modellerinin mantık yürütme yeteneklerini geliştirmek için MCPO (Mastery-Consolidated Policy Optimization) adlı yeni bir algoritma geliştirdi. Bu yaklaşım, mevcut GRPO algoritmalarının yüksek doğruluklu sorularda yaşadığı iki kritik sorunu çözmeyi hedefliyor. Özellikle tam olarak çözülen sorularda eğitim sinyalinin kaybolması ve kısmen doğru cevaplanan sorularda öğrenme kapasitesinin zayıflaması problemlerini ele alıyor. MCPO, doğrulanabilir ödüllerle pekiştirmeli öğrenme çerçevesinde çalışarak, AI modellerinin hem öğrendiği bilgileri unutmamasını sağlıyor hem de kısmi doğruluklardan tam ustalığa geçişi güçlendiriyor. Bu gelişme, yapay zeka sistemlerinin karmaşık problemlerde daha tutarlı ve güvenilir performans göstermesi açısından önemli bir adım teşkil ediyor.
arXiv (CS + AI) · 23 gün önce
0
Görsel-Dil AI'ları için Yeni Eğitim Yöntemi: S-GRPO
Araştırmacılar, büyük görsel-dil modellerinin eğitiminde karşılaşılan temel sorunları çözen yeni bir yaklaşım geliştirdi. Mevcut yöntemler ya modelin genel yeteneklerini unutmasına ya da optimizasyon çöküşüne neden oluyordu. Supervised Group Relative Policy Optimization (S-GRPO) adlı yeni framework, denetimli öğrenme ile pekiştirmeli öğrenmeyi birleştirerek bu sorunları aşıyor. Bu gelişme, görsel içeriği anlayabilen ve metinle etkileşim kurabilen yapay zeka sistemlerinin daha verimli eğitilmesi açısından önemli bir adım.
arXiv (Dilbilim & NLP) · 23 gün önce
0
Yapay Zeka Artık Hatalarından Öğreniyor: Çoklu Deneme Yaklaşımı
Araştırmacılar, yapay zeka modellerinin karmaşık problemleri çözerken birden fazla deneme yaparak hatalarından öğrenmesini sağlayan yeni bir yöntem geliştirdi. 'Calibrated Attempt-Level GRPO' adı verilen bu teknik, modelin her denemede aldığı geri bildirimleri kullanarak bir sonraki çözüm girişimini iyileştirmesini sağlıyor. Geleneksel yaklaşımlar genellikle tek seferde doğru cevabı bulmaya odaklanırken, yeni sistem insan benzeri bir öğrenme süreci benimsiyor. Her başarısız denemeden sonra model, önceki girişimlerini analiz ederek daha iyi bir strateji geliştiriyor. Bu yaklaşım, özellikle matematik ve mantık problemleri gibi adım adım düşünme gerektiren görevlerde önemli başarı sağlıyor. Araştırma, yapay zekanın problem çözme yeteneklerini geliştirme konusunda önemli bir ilerleme kaydediyor.
arXiv (CS + AI) · 23 gün önce
0
Yapay Zeka Görsel Üretiminde Çığır Açan Hibrit Model Geliştirildi
Araştırmacılar, metin açıklamalarından görsel üreten yapay zeka sistemlerinde devrim niteliğinde bir ilerleme kaydetti. Uniform Discrete Diffusion Model (UDM) adı verilen teknikle pekiştirmeli öğrenmeyi birleştiren yeni hibrit yaklaşım, görsel kalitesinde dramatik iyileşmeler sağladı. UDM-GRPO adlı bu yenilikçi framework, geleneksel diffusion modellerinin eğitim sürecindeki kararsızlık sorunlarını çözerek, hem daha stabil hem de verimli bir öğrenme süreci sunuyor. Sistem, temiz örnek verileri eylem olarak kullanma ve diffusion ileri süreciyle yörünge yeniden yapılandırma gibi akıllı stratejilerle optimize edildi. Test sonuçları oldukça etkileyici: GenEval doğruluğu %69'dan %96'ya, PickScore ise 20 puanın üzerine çıktı.
arXiv (CS + AI) · 23 gün önce
0
Yapay zeka video analiz performansında çığır açan VideoP2R sistemi geliştirildi
Araştırmacılar, büyük video dil modellerinin akıl yürütme yeteneklerini önemli ölçüde artıran VideoP2R adlı yeni bir sistem geliştirdi. Bu sistem, video analizini algılama ve mantık yürütme olmak iki ayrı süreç olarak ele alarak, mevcut yöntemlerden farklılaşıyor. VideoP2R-CoT-162K adlı özel bir veri seti kullanarak eğitilen sistem, video anlama ve akıl yürütme konularında yedi kriterden altısında en yüksek performansı gösterdi. Sistem, önce denetimli öğrenme sonra pekiştirmeli öğrenme olmak üzere iki aşamalı bir yaklaşım benimsiyor ve her süreç için ayrı ödüller veren PA-GRPO algoritmasını kullanıyor. Bu gelişme, yapay zekanın video içeriklerini anlama ve yorumlama kapasitesinde önemli bir ilerleme anlamına geliyor.
arXiv (CS + AI) · 23 gün önce
0