Yapay zekanın insan değerleri ve tercihleryle uyumlu davranmasını sağlayan hizalama yöntemlerinin beklenenden çok daha etkili olduğu yeni bir araştırmayla ortaya çıktı. MIT ve Stanford Üniversitesi'nden araştırmacılar, bu yöntemlerin teorik garanti edilenden çok daha iyi performans gösterme nedenini açıkladı.
Online hizalama yöntemleri, yapay zeka sistemlerinin insan geri bildirimlerinden öğrenerek davranışlarını sürekli iyileştirmesini sağlar. Ancak mevcut teorik analizler bu yöntemlerin performansını olduğundan kötü gösteriyordu. Araştırma ekibi, bu uyumsuzluğun kaynağının kullanılan değerlendirme ölçütlerinde olduğunu keşfetti.
Geleneksel KL-düzenlemeli pişmanlık ölçütü, öğrenmenin istatistiksel maliyetini ve yumuşatılmış eğitim politikasının neden olduğu keşif rastgeleliğini birbirine karıştırıyordu. Araştırmacılar bu sorunun üstesinden gelmek için 'sıfır sıcaklık pişmanlık ölçütü' adlı yeni bir yaklaşım kullandı.
Yeni ölçüt sayesinde yapılan analizde, online RLHF (İnsan Geri Bildiriminden Pekiştirmeli Öğrenme) ve online DPO (Doğrudan Tercih Optimizasyonu) gibi standart açgözlü hizalama yöntemlerinin sabit birikimli pişmanlık elde ettiği matematiksel olarak kanıtlandı. Bu, bu yöntemlerin zaman geçtikçe tutarlı bir şekilde optimal performans sergileyebildiği anlamına geliyor.
Bulgular, AI güvenliği ve hizalama alanında çalışan araştırmacılar için önemli teorik temeller sunuyor ve gelecekteki yapay zeka sistemlerinin daha güvenilir bir şekilde geliştirilmesine katkı sağlayacak.