Teknoloji & Yapay Zeka

Yapay Zeka Müzakere Sanatını Öğreniyor: REPO Yöntemi ile İnsan Gibi İkna

Araştırmacılar, büyük dil modellerinin (LLM) çevrimiçi seyahat acentelerinde fiyat müzakeresi yapabilen etkili satış temsilcileri haline gelmesi için yeni bir eğitim yöntemi geliştirdi. REPO (Ödül-Destekli Politika Optimizasyonu) adlı bu yöntem, yapay zekâya hem insan benzeri davranmayı hem de katı kurallara uymayı öğretiyor. Sistem, duygusal değer anlayışı, prosedür uyumu ve sayısal doğruluk kontrolü gibi farklı ödül mekanizmalarını birleştiriyor. Uzman değerlendirmelerinde REPO yöntemi, sohbet kalitesini önemli ölçüde artırdı ve başarılı görüşme oranını yükseltti. Bu gelişme, yapay zekânın karmaşık iş süreçlerinde insan performansına yaklaşması açısından önemli bir adım.

Stanford araştırmacıları, yapay zekâ sistemlerinin müzakere becerilerini geliştiren yenilikçi bir yöntem ortaya koydu. REPO (Reward-Enhanced Policy Optimization) adlı bu teknik, büyük dil modellerinin çevrimiçi seyahat rezervasyon platformlarında etkili satış temsilcileri olarak çalışmasını sağlıyor.

Geleneksel yapay zekâ eğitim yöntemlerinin aksine, REPO üç farklı ödül sistemini harmanlıyor. İlk olarak, tercihlere dayalı bir ödül modeli kullanılıyor. İkinci olarak, duygusal değer ve prosedür uyumu gibi nüanslı davranışları değerlendiren LLM-tabanlı bir hakim sistemi devreye giriyor. Üçüncü olarak da sayısal doğruluk ve format kontrolü için kural-bazlı fonksiyonlar uygulanıyor.

Sistem, çok aşamalı standart işletim prosedürlerini takip ederken, aşırı söz vermeme ve yanıltıcı bilgi paylaşmama gibi katı kurallara da uyuyor. Uzun süreli, çok turlu diyaloglarda insan benzeri davranış sergilemesi hedefleniyor.

Üç uzman tarafından yapılan değerlendirmede, REPO yöntemi diyalog kalitesini 4,63 puana yükseltti ve başarılı görüşme oranını önemli ölçüde artırdı. Bu gelişme, yapay zekânın karmaşık iş süreçlerinde insan performansına yaklaşması açısından kritik bir dönüm noktası.

Özgün Kaynak
arXiv (Dilbilim & NLP)
Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment from Heterogeneous Rewards
Orijinal makaleyi oku

Bu içerik, özgün kaynaktaki bilgiler temel alınarak BilimKapsül editörleri tarafından yeniden kaleme alınmıştır. Orijinal metnin birebir çevirisi değildir. Telif hakkı özgün yayıncıya aittir.