Brezilya'daki araştırmacılar, Portekizce doğal dil işleme alanında çığır açan yeni bir yapay zeka modeli geliştirdi. NorBERTo adlı bu model, ModernBERT mimarisine dayalı olarak tasarlandı ve Aurora-PT adı verilen dev bir Portekizce veri kümesi ile eğitildi. Bu veri kümesi, çeşitli web kaynaklarından toplanan 331 milyar GPT-2 token içeriyor. Model, metin benzerliği, mantıksal çıkarım ve sınıflandırma görevlerinde test edildiğinde, özellikle PLUE ve ASSIN 2 benchmark testlerinde kayda değer başarılar elde etti. NorBERTo-large versiyonu, değerlendirilen kodlayıcı modeller arasında en iyi performansı göstererek Portekizce NLP uygulamaları için önemli bir adım teşkil ediyor.

arXiv — Hesaplamalı Dilbilim (cs.CL) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay zeka modelleri neden bazı dil kurallarında başarısız? Çözüm veri eksikliği

Büyük dil modelleri, trilyonlarca kelimeyle eğitildikten sonra bile bazı dil kurallarında şaşırtıcı derecede başarısız oluyor. Araştırmacılar bu durumun mimari sınırlardan mı yoksa belirli dil yapılarının eğitim verilerinde az bulunmasından mı kaynaklandığını araştırdı. GPT-2 Small modeli üzerinde yapılan deneyler, sadece %1'lik sentetik veri eklenmesiyle bile dramatik iyileşmeler sağlandığını gösterdi. Özellikle dilbilgisi testlerinde performans %20'den %70'e çıktı. Bu bulgular, AI modellerinin dil yeteneklerindeki tutarsızlıkların büyük ölçüde veri eksikliğinden kaynaklandığını ve hedefli müdahalelerle giderilebileceğini ortaya koyuyor. Çalışma, gelecekteki AI geliştirmelerinde veri kalitesinin önemini vurguluyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modellerinde Durum Transferi ve Yeniden Kullanım Mekanizması Keşfedildi

Araştırmacılar, yapay zeka modellerinin davranışlarını değiştiren prompt tabanlı müdahalelerin nasıl çalıştığını daha iyi anlayabilmek için yeni bir yöntem geliştirdi. GPT-2 ve Qwen modelleri üzerinde yapılan deneyler, modellerin öğrendiği bilgileri farklı görevlerde nasıl yeniden kullandığını ortaya koyuyor. Çalışma, kontrollü yönlendirme görevlerinde 'durum transferi' adı verilen mekanizmayı inceliyor ve modellerin davranışsal olarak önemli bilgileri nerede sakladığını tespit etmeye odaklanıyor. Bulgular, sabit arayüz yeniden kullanımı ile prompt yeniden konumlandırması arasındaki farkı net bir şekilde gösteriyor. Bu keşif, yapay zeka modellerinin iç işleyişini anlamak ve daha verimli model tasarımları geliştirmek açısından önemli.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modellerinin Eğitimi İçin Yenilikçi Matris Optimizasyon Yöntemi

Araştırmacılar, yapay sinir ağlarının eğitimi için düşük-rankli ortogonalizasyon adı verilen yeni bir yöntem geliştirdi. Bu yaklaşım, sinir ağı parametrelerinin matris yapısını göz önünde bulundurarak optimizasyon sürecini iyileştiriyor. Geliştirilen yöntem, özellikle büyük dil modelleri olan GPT-2 ve LLaMA gibi temel modellerin eğitiminde önemli performans artışları sağlıyor. Yeni teknik, gradyanların düşük-rankli doğasından yararlanarak matris ortogonalizasyonu gerçekleştiriyor ve mevcut Muon optimizatörünün geliştirilmiş bir versiyonunu sunuyor. Bu gelişme, yapay zeka modellerinin daha verimli eğitilmesi için önemli bir adım teşkil ediyor.

arXiv (CS + AI) 0