Bilim insanları, yapay zekanın farklı dillerdeki metinleri anlama kapasitesini artırmak için önemli bir adım attı. RoIt-XMASA adlı yeni veri seti, İtalyanca ve Rumence dillerinde duygu analizi yapabilen sistemlerin geliştirilmesine olanak tanıyor.
Veri seti, Amazon platformundan toplanan yorumlardan oluşuyor ve üç farklı kategoriyi kapsıyor: kitaplar, filmler ve müzik. Toplam 36.000 etiketli yorum ve 202.141 etiketsiz örnek içeren bu kaynak, araştırmacılara zengin bir çalışma materyali sunuyor.
Araştırmacılar, farklı diller ve konular arasındaki zorlukları aşmak için yenilikçi bir eğitim yöntemi geliştirdi. Bu yaklaşım, yapay zekanın hem dil farklılıklarını hem de konu alanı değişikliklerini dinamik olarak dengeleyebilmesini sağlıyor.
Test sonuçları oldukça çarpıcı. XLM-R modeli, yeni yöntemle %66,23 F1-skoru elde ederek, standart yaklaşımları %4,64 oranında geride bıraktı. Büyük dil modeli Llama-3.1-8B ise %58,43 skorla, hızlı uygulama kolaylığı ve performans arasında mantıklı bir denge sunduğunu gösterdi.
Bu gelişme, e-ticaret platformlarından sosyal medya analizine kadar birçok alanda çok dilli duygu analizi uygulamalarının yaygınlaşmasını hızlandırabilir.