Yapay zeka dünyasında çığır açabilecek bir gelişme yaşandı. Araştırmacılar, büyük dil modellerinin eğitimi için 30 trilyon kelimelik devasa bir veri seti oluşturdu. HPLT 3.0 adı verilen bu proje, yaklaşık 200 farklı dilde içerik sunarak, muhtemelen halka açık en büyük çok dilli eğitim veri seti unvanını elde etti.
Veri setinin hazırlanma süreci oldukça kapsamlı. Web arşivlerinden toplanan ham veriler, karmaşık bir işleme zincirinden geçirildi. Bu süreçte HTML'den metin çıkarımı, gürültülü metinler için dil tespiti, tekrar eden içeriklerin temizlenmesi ve kişisel bilgilerin maskelenmesi gibi adımlar uygulandı. Ayrıca her metin parçası kalite puanı ve tür etiketi ile zenginleştirildi.
Projenin en dikkat çekici yanı, az konuşulan dillere verdiği önem. Geleneksel yapay zeka modelleri genellikle İngilizce ve diğer yaygın dillerde eğitilirken, HPLT 3.0 dil çeşitliliğini ön planda tutuyor. Araştırma ekibi, veri kalitesini doğrulamak için 24 dilde manuel inceleme gerçekleştirdi ve farklı model mimarilerinde kapsamlı testler yaptı.
Bu kaynak, özellikle çok dilli yapay zeka uygulamalarının geliştirilmesinde ve makine çevirisi sistemlerinin iyileştirilmesinde önemli katkılar sağlayacak.