Teknoloji & Yapay Zeka

Portekizce için Geliştirilen NorBERTo Yapay Zeka Modeli 331 Milyar Token ile Eğitildi

Brezilya'daki araştırmacılar, Portekizce doğal dil işleme alanında çığır açan yeni bir yapay zeka modeli geliştirdi. NorBERTo adlı bu model, ModernBERT mimarisine dayalı olarak tasarlandı ve Aurora-PT adı verilen dev bir Portekizce veri kümesi ile eğitildi. Bu veri kümesi, çeşitli web kaynaklarından toplanan 331 milyar GPT-2 token içeriyor. Model, metin benzerliği, mantıksal çıkarım ve sınıflandırma görevlerinde test edildiğinde, özellikle PLUE ve ASSIN 2 benchmark testlerinde kayda değer başarılar elde etti. NorBERTo-large versiyonu, değerlendirilen kodlayıcı modeller arasında en iyi performansı göstererek Portekizce NLP uygulamaları için önemli bir adım teşkil ediyor.

Brezilya merkezli bir araştırma ekibi, Portekizce doğal dil işleme teknolojilerinde yeni bir dönüm noktası yaratan NorBERTo modelini geliştirdi. Bu yenilikçi yapay zeka modeli, ModernBERT mimarisinin sunduğu gelişmiş özelliklerden faydalanarak uzun metin desteği ve verimli dikkat mekanizmaları sunuyor.

Modelin eğitiminde kullanılan Aurora-PT veri kümesi, projenin en dikkat çekici yanlarından biri. Araştırmacılar, çeşitli web kaynaklarından ve mevcut çok dilli veri setlerinden topladıkları 331 milyar GPT-2 token ile kapsamlı bir Brezilya Portekizcesi koleksiyonu oluşturdu. Bu büyüklükteki bir veri kümesi, modelin dil yapılarını derinlemesine öğrenmesini sağlıyor.

Performans testlerinde NorBERTo oldukça başarılı sonuçlar elde etti. PLUE benchmark testinde, modelin büyük versiyonu olan NorBERTo-large, MRPC görevinde 0.9191 F1 skoru ve RTE görevinde 0.7689 doğruluk oranı ile kodlayıcı modeller arasında liderliği ele geçirdi. ASSIN 2 testinde ise mantıksal çıkarım kategorisinde yaklaşık 0.904 F1 skoru elde ederek üstün bir performans sergiledi.

Bu gelişme, Portekizce konuşan toplumlar için yapay zeka destekli dil uygulamalarının geliştirilmesinde önemli bir adım olarak değerlendiriliyor.

Özgün Kaynak
arXiv — Hesaplamalı Dilbilim (cs.CL)
NorBERTo: A ModernBERT Model Trained for Portuguese with 331 Billion Tokens Corpus
Orijinal makaleyi oku

Bu içerik, özgün kaynaktaki bilgiler temel alınarak BilimKapsül editörleri tarafından yeniden kaleme alınmıştır. Orijinal metnin birebir çevirisi değildir. Telif hakkı özgün yayıncıya aittir.