Stanford araştırmacıları, yapay zekâ sistemlerinin müzakere becerilerini geliştiren yenilikçi bir yöntem ortaya koydu. REPO (Reward-Enhanced Policy Optimization) adlı bu teknik, büyük dil modellerinin çevrimiçi seyahat rezervasyon platformlarında etkili satış temsilcileri olarak çalışmasını sağlıyor.
Geleneksel yapay zekâ eğitim yöntemlerinin aksine, REPO üç farklı ödül sistemini harmanlıyor. İlk olarak, tercihlere dayalı bir ödül modeli kullanılıyor. İkinci olarak, duygusal değer ve prosedür uyumu gibi nüanslı davranışları değerlendiren LLM-tabanlı bir hakim sistemi devreye giriyor. Üçüncü olarak da sayısal doğruluk ve format kontrolü için kural-bazlı fonksiyonlar uygulanıyor.
Sistem, çok aşamalı standart işletim prosedürlerini takip ederken, aşırı söz vermeme ve yanıltıcı bilgi paylaşmama gibi katı kurallara da uyuyor. Uzun süreli, çok turlu diyaloglarda insan benzeri davranış sergilemesi hedefleniyor.
Üç uzman tarafından yapılan değerlendirmede, REPO yöntemi diyalog kalitesini 4,63 puana yükseltti ve başarılı görüşme oranını önemli ölçüde artırdı. Bu gelişme, yapay zekânın karmaşık iş süreçlerinde insan performansına yaklaşması açısından kritik bir dönüm noktası.