Fransa merkezli araştırma ekibi, Fransızca dijital içeriklerdeki zararlı unsurları tespit edebilen gelişmiş bir yapay zeka sistemi ortaya çıkardı. ToxiFrench olarak adlandırılan bu sistem, 53.622 gerçek Fransızca çevrimiçi yorumdan oluşan kapsamlı bir veri seti üzerinde eğitildi.

Projenin en dikkat çekici yönü, veri etiketleme sürecinde kullanılan yenilikçi yaklaşım. Araştırmacılar, manuel etiketleme işini sadece yüzde 10'a indirerek, büyük dil modellerinin yüksek güvenilirlikli ön etiketlemesini insan doğrulamasıyla birleştiren yarı otomatik bir sistem geliştirdi. Bu yöntem, hem zaman tasarrufu sağladı hem de insan etiketlemeye eşdeğer istatistiksel doğruluk elde etti.

Çalışmanın en şaşırtıcı bulgusu, küçük dil modellerinin bu özel görevde büyük modellerden daha dayanıklı ve genelleştirilebilir sonuçlar vermesi oldu. Bu keşif, yapay zeka alanındaki genel kabul gören 'büyük her zaman daha iyi' anlayışını sorgulatan önemli bir veri noktası sunuyor.

Araştırma ekibi bu bulgulardan yola çıkarak Chain-of-Thought adı verilen özel bir ince ayar stratejisi geliştirdi. Bu teknik, modelin karar verme sürecini adım adım düşünmesini sağlayarak performansı artırıyor. Geliştirilen sistem, Fransızca sosyal medya içeriklerinin moderasyonu ve zararlı içerik filtreleme konularında pratik uygulamalar sunuyor.