Yapay zeka alanında büyük dil modellerinin insan beklentilerine uygun davranması için tercih tabanlı optimizasyon teknikleri yaygın olarak kullanılıyor. Ancak mevcut yöntemler, her bir soru için yalnızca tek bir olumlu-olumsuz cevap çifti üzerinde eğitim yaparak, veri setlerinde bulunan çoklu cevap alternatiflerinin sunduğu değerli bilgiyi göz ardı ediyor.
Bu sınırlılığı aşmak için geliştirilen grup tabanlı tercih optimizasyonu, aynı soru için birden fazla yanıtı eşzamanlı olarak karşılaştırarak daha kapsamlı bir eğitim süreci sunuyor. Ne var ki bu yaklaşım, grup bağlantılı hedeflerin yarattığı hafıza yükü nedeniyle pratik uygulamalarda zorluklar yaşatıyordu.
Araştırmacıların geliştirdiği GroupDPO algoritması, gradyan bilgilerini korurken geri yayılım sürecinde örnekleri birbirinden ayırarak bu hafıza sorununu çözüyor. Bu yenilik, en yüksek hafıza kullanımını büyük ölçüde düşürüyor ve daha büyük grup boyutlarıyla ölçeklenebilir eğitim olanağı sağlıyor.
Hem çevrimdışı hem de çevrimiçi hizalama ortamlarında yapılan testler, birden fazla yanıttan yararlanmanın tutarlı bir şekilde daha iyi sonuçlar verdiğini gösteriyor. Bu gelişme, yapay zeka modellerinin insan tercihlerine uyumunu artırmada önemli bir adım olarak değerlendiriliyor.