“politika optimizasyonu” için sonuçlar

Teknoloji & Yapay Zeka

1 May

Yapay Zeka Akıl Yürütmesinde Yeni Yaklaşım: Gizli Mantığın Güçlendirilmesi

Araştırmacılar, yapay zekanın akıl yürütme sürecini daha verimli hale getirmek için gizli mantık yaklaşımını geliştirdi. Geleneksel yöntemler adım adım açık mantık zincirleri kullanırken, yeni teknik ara adımları sürekli matematiksel temsillere sıkıştırarak süreci kısaltıyor. Ancak bu alandaki pekiştirmeli öğrenme yöntemleri kararsızlık sorunları yaşıyordu. Stanford ve diğer kurumlardan bilim insanları, Grup Göreceli Politika Optimizasyonu (GRPO) tekniğini gizli mantık sistemlerine uyarlayarak bu zorluğu aştı. Çalışma, yapay zekanın daha hızlı ve etkili düşünmesi için önemli bir adım niteliğinde.

arXiv — Hesaplamalı Dilbilim (cs.CL) 0

Teknoloji & Yapay Zeka

30 Apr

Yapay Zeka Modellerinde Dil Karışıklığına Token Düzeyinde Çözüm

Büyük dil modelleri çok dilli yeteneklere sahip olmasına rağmen, sıklıkla istenilen dilde tutarlı yanıtlar üretmekte zorlanıyor. Bu durum 'dil karışıklığı' olarak adlandırılıyor ve modelin bir dilde soru sorulduğunda farklı bir dilde cevap vermesi şeklinde kendini gösteriyor. Araştırmacılar bu sorunu çözmek için Token Düzeyinde Politika Optimizasyonu (TLPO) adında yeni bir yaklaşım geliştirdi. Geleneksel yöntemler tüm yanıt üzerinde işlem yaparken, TLPO daha hassas bir şekilde sadece hata yapan kelime parçalarına odaklanıyor. Bu sayede modelin genel yeteneklerini bozmadan dil karışıklığı problemi çözülebiliyor. Yöntem, hata yapmaya meyilli pozisyonları tespit ediyor, alternatif kelime seçeneklerini değerlendiriyor ve politikayı bu noktalarda güncelliyor. Bu yaklaşım, yapay zeka modellerinin çok dilli uygulamalardaki performansını önemli ölçüde artırma potansiyeline sahip.

arXiv (Dilbilim & NLP) 0

Teknoloji & Yapay Zeka

30 Apr

Yapay Zeka Müzakere Sanatını Öğreniyor: REPO Yöntemi ile İnsan Gibi İkna

Araştırmacılar, büyük dil modellerinin (LLM) çevrimiçi seyahat acentelerinde fiyat müzakeresi yapabilen etkili satış temsilcileri haline gelmesi için yeni bir eğitim yöntemi geliştirdi. REPO (Ödül-Destekli Politika Optimizasyonu) adlı bu yöntem, yapay zekâya hem insan benzeri davranmayı hem de katı kurallara uymayı öğretiyor. Sistem, duygusal değer anlayışı, prosedür uyumu ve sayısal doğruluk kontrolü gibi farklı ödül mekanizmalarını birleştiriyor. Uzman değerlendirmelerinde REPO yöntemi, sohbet kalitesini önemli ölçüde artırdı ve başarılı görüşme oranını yükseltti. Bu gelişme, yapay zekânın karmaşık iş süreçlerinde insan performansına yaklaşması açısından önemli bir adım.

arXiv (Dilbilim & NLP) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Arama Ajanları: Negatif Avantajların Çifte Etkisi Sorunu

Araştırmacılar, arama motorlarıyla çok turlu etkileşimde bulunabilen derin arama ajanlarının eğitimindeki kritik sorunlara odaklandı. Bu yapay zeka sistemleri, soru-cevap yetenekleri için GRPO algoritmasını kullanıyor ancak eğitim sırasında ciddi zorluklar yaşıyor. Ana sorun, doğru ara adımların yanlış final cevap nedeniyle haksız yere cezalandırılması ve bu durumun eğitim kararsızlığına yol açması. Bilim insanları, pozitif ve negatif avantajlar arasındaki dengesizliğin doğal dil yeteneklerinin bozulmasına hatta tam çöküşe neden olduğunu keşfetti. Bu sorunlara çözüm olarak CalibAdv adlı yeni bir avantaj kalibrasyon yöntemi geliştirdiler.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Politika Öğrenmesinde Yalnızca Pozitif Örneklerle Eğitim Yöntemi

Araştırmacılar, çevrimiçi pekiştirmeli öğrenmede geleneksel yöntemlerin sınırlarını aşan yeni bir yaklaşım geliştirdi. PODPO adı verilen bu yöntem, yalnızca başarılı örneklerden öğrenerek yapay zeka sistemlerinin daha etkili karar verme politikaları geliştirmesini sağlıyor. Geleneksel yöntemler hem olumlu hem olumsuz örnekleri kullanarak hata düzeltmeye odaklanırken, yeni yaklaşım proaktif hata önlemeyi benimsiyor. Bu, özellikle robotik ve otonom sistemler gibi gerçek zamanlı karar verme gerektiren alanlarda önemli avantajlar sunabilir. Yöntemin en dikkat çekici özelliği, karmaşık matematiksel kısıtlamalar olmadan çalışabilmesi ve yüksek getirili eylem bölgelerine doğru daha doğal bir yönlendirme sağlaması.

arXiv (Robotik) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Ajanlarının Çok Turlu Muhakeme Yetenekleri İyileştiriliyor

Araştırmacılar, büyük dil modellerinin karmaşık problemleri adım adım çözmesi için yeni bir eğitim yöntemi geliştirdi. GTPO (Grup Tur Politika Optimizasyonu) adı verilen bu teknik, yapay zeka modellerinin kod yazma, test etme ve sonuçları değerlendirme süreçlerini içeren çok turlu akıl yürütme görevlerinde daha başarılı olmalarını sağlıyor. Mevcut pekiştirmeli öğrenme yöntemlerinin aksine, GTPO her adım için ayrı geri bildirim vererek modelin öğrenme sürecini hızlandırıyor. Bu gelişme, yapay zeka asistanlarının matematiksel problemlerden kod geliştirmeye kadar birçok alanda daha etkili çözümler üretmesinin yolunu açıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Öğrenmesinde Yeni Dönem: BRRL Algoritması Geliştirildi

Araştırmacılar, yapay zeka sistemlerinin öğrenme süreçlerini iyileştiren yeni bir algoritma geliştirdi. Bounded Ratio Reinforcement Learning (BRRL) adlı bu framework, mevcut PPO algoritmasının eksikliklerini gidererek daha güvenilir ve teorik temeli sağlam bir öğrenme yöntemi sunuyor. Yeni sistem, politika optimizasyonunda monoton performans artışı garantisi veriyor ve analitik çözümler sunarak yapay zeka modellerinin daha istikrarlı öğrenmesini sağlıyor. Bu gelişme, otonom sistemlerden oyun yapay zekasına kadar geniş bir uygulama alanında kullanılabilir.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Poly-EPO: Yapay Zekada Keşif Odaklı Akıl Yürütme Modelleri

Araştırmacılar, dil modellerinin daha etkili öğrenme ve problem çözme yetenekleri geliştirmesi için yeni bir yaklaşım sunuyor. Poly-EPO (Çok Renkli Keşifçi Politika Optimizasyonu) adlı bu yöntem, yapay zekanın hem mevcut bilgilerini kullanmasını hem de yeni çözüm yolları keşfetmesini sağlayacak şekilde tasarlanmış. Sistem, dil modellerini farklı akıl yürütme stratejileri geliştirmeye teşvik ederek, karmaşık problemlere çoklu yaklaşımlar üretmesini mümkün kılıyor. Bu gelişme, yapay zekanın insan benzeri keşif yetenekleri kazanması ve test zamanında performansını artırması açısından önemli bir adım olarak değerlendiriliyor. Araştırma, özellikle dil modellerinin sadece ezberledikleri bilgileri tekrarlamak yerine, yaratıcı problem çözme becerisi geliştirmesi hedefini güdüyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Yapay zeka sistemlerinin tutarlılık sorunu çözüme kavuşuyor

Büyük dil modelleri finans, eğitim ve sağlık gibi kritik alanlarda yaygın kullanım görse de, aynı anlamdaki farklı sorulara tutarsız yanıtlar verebiliyor. Bu durum kullanıcı güvenini sarsar ve işletme süreçlerinde sorunlar yaratır. Araştırmacılar, yapay zeka sistemlerinin semantik olarak eşdeğer sorulara aynı yanıtları vermesini sağlayan yeni bir pekiştirmeli öğrenme yöntemi geliştirdi. Grup Göreceli Politika Optimizasyonu adlı bu teknik, mevcut yaklaşımlardan farklı olarak tutarlılığı garanti altına alıyor. Özellikle İK süreçleri, müşteri hizmetleri ve politika açıklamaları gibi standart bilgi aktarımının gerekli olduğu alanlarda devrim yaratabilir. Bu gelişme, yapay zeka sistemlerinin güvenilirliğini artırarak kurumsal kullanımda daha yaygın benimsenmesinein önünü açabilir.

arXiv (CS + AI) 0