Büyük dil modellerinin (LLM) eğitiminde tercih tabanlı geri bildirim öğrenme etkili bir yaklaşım haline gelirken, yüksek kaliteli insan etiketli verinin pahalı ve kıt olması önemli bir engel oluşturuyor. Araştırmacılar bu soruna CoAct adlı yenilikçi bir çözüm geliştirdi.
Mevcut yöntemler genellikle iki farklı strateji benimsiyor: Kendini ödüllendirme yaklaşımı tamamen yapay zeka etiketleri kullanarak ölçeklenebilirlik sağlıyor ancak güvenilirlik riski taşıyor. Aktif öğrenme ise uzman denetimi ile kalite garantisi veriyor fakat etiketlenmemiş verileri tam olarak değerlendirememiyor.
CoAct, bu iki yaklaşımı stratejik insan-AI işbirliği ile harmanlayan hibrit bir çerçeve sunuyor. Sistemin temelinde kendi tutarlılık prensibi yatıyor - bu sayede hem güvenilir şekilde kendi etiketleyebileceği verileri hem de mutlaka uzman doğrulaması gereken örnekleri tespit edebiliyor.
Yaklaşımın öne çıkan özelliklerinden biri, uzman geri bildirimlerinin modeli yönlendirerek kendi çözme kapasitesi dahilindeki yeni talimatlar üretmesini sağlaması. Bu durum öğrenme sürecini daha verimli hale getiriyor.
İki farklı model ailesinde üç akıl yürütme kıyaslamasında test edilen CoAct, ortalama %13'lük performans artışı kaydetti. Bu sonuçlar, insan zekası ve yapay zekanın sinerjik birleşiminin dil modeli eğitiminde önemli ilerlemeler sağlayabileceğini gösteriyor.