Brezilya merkezli bir araştırma ekibi, Portekizce doğal dil işleme teknolojilerinde yeni bir dönüm noktası yaratan NorBERTo modelini geliştirdi. Bu yenilikçi yapay zeka modeli, ModernBERT mimarisinin sunduğu gelişmiş özelliklerden faydalanarak uzun metin desteği ve verimli dikkat mekanizmaları sunuyor.
Modelin eğitiminde kullanılan Aurora-PT veri kümesi, projenin en dikkat çekici yanlarından biri. Araştırmacılar, çeşitli web kaynaklarından ve mevcut çok dilli veri setlerinden topladıkları 331 milyar GPT-2 token ile kapsamlı bir Brezilya Portekizcesi koleksiyonu oluşturdu. Bu büyüklükteki bir veri kümesi, modelin dil yapılarını derinlemesine öğrenmesini sağlıyor.
Performans testlerinde NorBERTo oldukça başarılı sonuçlar elde etti. PLUE benchmark testinde, modelin büyük versiyonu olan NorBERTo-large, MRPC görevinde 0.9191 F1 skoru ve RTE görevinde 0.7689 doğruluk oranı ile kodlayıcı modeller arasında liderliği ele geçirdi. ASSIN 2 testinde ise mantıksal çıkarım kategorisinde yaklaşık 0.904 F1 skoru elde ederek üstün bir performans sergiledi.
Bu gelişme, Portekizce konuşan toplumlar için yapay zeka destekli dil uygulamalarının geliştirilmesinde önemli bir adım olarak değerlendiriliyor.