Büyük dil modellerinin çoktan seçmeli sorularda ve karşılaştırmalı değerlendirmelerde gösterdiği seçim önyargısı, yapay zeka alanının önemli sorunlarından biri haline geldi. Bu modeller, sorunun içeriğinden ziyade seçeneklerin sırası veya harf sembolleri gibi anlamsız faktörlerden etkilenerek tutarsız kararlar verebiliyor.
Mevcut çözümler genellikle çıkarım aşamasında müdahale ediyor, ancak bu yaklaşım hem maliyetli hem de modelin mantıksal düşünce yeteneğine zarar verebiliyor. Ayrıca geleneksel eğitim yöntemleri, aynı sorunun farklı seçenek sıralarında aynı cevabı vermesi gerektiği gerçeğini göz ardı ediyor.
Yeni geliştirilen Permutasyon-Farkındalıklı Grup Göreli İlke Optimizasyonu (PA-GRPO) yöntemi, bu soruna farklı bir açıdan yaklaşıyor. Sistem, her örnek için çoklu aday permütasyonlar oluşturarak bir permütasyon grubu kuruyor ve iki tamamlayıcı mekanizma kullanıyor.
İlk mekanizma olan 'çapraz-permütasyon avantajı', aynı örneğin tüm permütasyonları üzerinden ortalama ödül hesaplayarak avantajları belirliyor. İkinci mekanizma ise 'tutarlılık-farkındalıklı ödül' sistemi ile modeli farklı seçenek sıralarında tutarlı kararlar vermeye teşvik ediyor.
Bu yaklaşım, yapay zeka modellerinin değerlendirme güvenilirliğini artırarak, özellikle otomatik puanlama ve karşılaştırmalı analiz uygulamalarında daha adil sonuçlar elde edilmesini sağlıyor.