Büyük dil modellerinin eğitiminde kullanılan veri setlerinin telif hakkı sorunları, yapay zeka dünyasının en büyük tartışma konularından biri haline geldi. Bu soruna köklü bir çözüm sunan araştırmacılar, Common Corpus adlı devasa bir açık veri kütüphanesi geliştirdi.
İki trilyon token büyüklüğündeki bu koleksiyon, büyük dil modellerinin ön eğitimi için hazırlanan en geniş açık veri setidir. Koleksiyonun tüm içerikleri ya telif hakkı bulunmayan materyallerden oluşuyor ya da açık lisanslar altında sunuluyor. Bu yaklaşım, veri güvenliği düzenlemelerine uygunluğu garanti ederken, yasal sorumlulukları da minimize ediyor.
Common Corpus'un en dikkat çekici özelliklerinden biri dil çeşitliliği. Koleksiyon, yaygın konuşulan Avrupa dillerinden, geleneksel ön eğitim veri setlerinde nadiren yer alan az kaynaklı dillere kadar geniş bir spektrum sunuyor. Ayrıca, yazılım geliştiriciler için değerli olan büyük miktarda kod verisi de içeriyor.
Bu veri kütüphanesi, farklı dönemlerden ve alanlardan gelen kaynaklarıyla hem akademik araştırmalara hem de ticari projelere yeni olanaklar açıyor. Araştırmacılar artık telif hakkı endişesi taşımadan büyük ölçekli dil modelleri geliştirebilecek.