Yapay zeka ve insan işbirliğiyle dil modellerini eğiten yeni yaklaşım geliştirildi

Araştırmacılar, büyük dil modellerinin eğitiminde insan ve yapay zeka işbirliğini birleştiren CoAct adlı yeni bir yaklaşım geliştirdi. Mevcut yöntemler ya tamamen yapay zeka etiketlemesine dayanan ama güvenilirlik sorunu yaşayan kendini ödüllendirme, ya da kaliteli ama pahalı insan denetimi gerektiren aktif öğrenme kullanıyor. CoAct ise stratejik insan-AI işbirliği ile bu iki yaklaşımı birleştirerek her ikisinin avantajlarından yararlanıyor. Sistem, güvenilir kendi etiketlediği verileri ve insan doğrulaması gereken örnekleri belirlemek için kendi tutarlılığını kullanıyor. Ayrıca insan geri bildirimleri, modelin kendi çözebileceği kapasitedeki yeni talimatlar üretmesine rehberlik ediyor. Üç farklı akıl yürütme testinde değerlendirilen CoAct, ortalama %13 iyileşme sağladı. Bu yaklaşım, yüksek kaliteli insan etiketli verinin maliyetli ve kıt olduğu sorununa çözüm getiriyor.

Büyük dil modellerinin (LLM) eğitiminde tercih tabanlı geri bildirim öğrenme etkili bir yaklaşım haline gelirken, yüksek kaliteli insan etiketli verinin pahalı ve kıt olması önemli bir engel oluşturuyor. Araştırmacılar bu soruna CoAct adlı yenilikçi bir çözüm geliştirdi.

Mevcut yöntemler genellikle iki farklı strateji benimsiyor: Kendini ödüllendirme yaklaşımı tamamen yapay zeka etiketleri kullanarak ölçeklenebilirlik sağlıyor ancak güvenilirlik riski taşıyor. Aktif öğrenme ise uzman denetimi ile kalite garantisi veriyor fakat etiketlenmemiş verileri tam olarak değerlendirememiyor.

CoAct, bu iki yaklaşımı stratejik insan-AI işbirliği ile harmanlayan hibrit bir çerçeve sunuyor. Sistemin temelinde kendi tutarlılık prensibi yatıyor - bu sayede hem güvenilir şekilde kendi etiketleyebileceği verileri hem de mutlaka uzman doğrulaması gereken örnekleri tespit edebiliyor.

Yaklaşımın öne çıkan özelliklerinden biri, uzman geri bildirimlerinin modeli yönlendirerek kendi çözme kapasitesi dahilindeki yeni talimatlar üretmesini sağlaması. Bu durum öğrenme sürecini daha verimli hale getiriyor.

İki farklı model ailesinde üç akıl yürütme kıyaslamasında test edilen CoAct, ortalama %13'lük performans artışı kaydetti. Bu sonuçlar, insan zekası ve yapay zekanın sinerjik birleşiminin dil modeli eğitiminde önemli ilerlemeler sağlayabileceğini gösteriyor.