Yapay Zeka Modellerinin Karar Verme Önyargıları Yeni Yöntemle Azaltılıyor

Büyük dil modelleri çoktan seçmeli sorularda ve karşılaştırma görevlerinde seçenek sırası gibi anlamsız faktörlerden etkilenerek önyargılı davranabilir. Araştırmacılar, bu sorunu çözmek için PA-GRPO adlı yeni bir yöntem geliştirdi. Bu teknik, modelin aynı soruya farklı seçenek sıralarında tutarlı cevaplar vermesini sağlayarak karar verme sürecini iyileştiriyor. Geleneksel yöntemler pahalı ve mantıksal düşünceye zarar verebilirken, yeni yaklaşım modeli eğitim sırasında optimize ederek daha güvenilir sonuçlar elde ediyor.

Büyük dil modellerinin çoktan seçmeli sorularda ve karşılaştırmalı değerlendirmelerde gösterdiği seçim önyargısı, yapay zeka alanının önemli sorunlarından biri haline geldi. Bu modeller, sorunun içeriğinden ziyade seçeneklerin sırası veya harf sembolleri gibi anlamsız faktörlerden etkilenerek tutarsız kararlar verebiliyor.

Mevcut çözümler genellikle çıkarım aşamasında müdahale ediyor, ancak bu yaklaşım hem maliyetli hem de modelin mantıksal düşünce yeteneğine zarar verebiliyor. Ayrıca geleneksel eğitim yöntemleri, aynı sorunun farklı seçenek sıralarında aynı cevabı vermesi gerektiği gerçeğini göz ardı ediyor.

Yeni geliştirilen Permutasyon-Farkındalıklı Grup Göreli İlke Optimizasyonu (PA-GRPO) yöntemi, bu soruna farklı bir açıdan yaklaşıyor. Sistem, her örnek için çoklu aday permütasyonlar oluşturarak bir permütasyon grubu kuruyor ve iki tamamlayıcı mekanizma kullanıyor.

İlk mekanizma olan 'çapraz-permütasyon avantajı', aynı örneğin tüm permütasyonları üzerinden ortalama ödül hesaplayarak avantajları belirliyor. İkinci mekanizma ise 'tutarlılık-farkındalıklı ödül' sistemi ile modeli farklı seçenek sıralarında tutarlı kararlar vermeye teşvik ediyor.

Bu yaklaşım, yapay zeka modellerinin değerlendirme güvenilirliğini artırarak, özellikle otomatik puanlama ve karşılaştırmalı analiz uygulamalarında daha adil sonuçlar elde edilmesini sağlıyor.