Cornell Üniversitesi araştırmacıları, doğal dil işleme alanında önemli bir sorunu çözmek için İbranice odaklı yenilikçi bir veri seti geliştirdi. KibutzR adı verilen bu veri seti, morfolojik açıdan zengin dillerdeki anlamsal bağıntı çözümleme problemine odaklanıyor.
Geleneksel dil işleme sistemleri İngilizce temel alınarak tasarlandığından, İbranice gibi karmaşık yapıya sahip dillerde yetersiz kalıyor. İbranicede tek bir kelime birden fazla zamirsel ek içerebilir ve anlamsal sınırlar kelime sınırlarıyla örtüşmeyebilir. Bu durum özellikle büyük dil modellerinin ham metin işleme süreçlerinde ciddi zorluklara neden oluyor.
Araştırmacıların geliştirdiği KibutzR veri seti, bu sorunu üç farklı seviyede ele alıyor: kelime düzeyinde, kelime altı birimlerde ve çoklu kelime gruplarında anlamsal bağıntıları tanımlıyor. Bu yaklaşım, İbranicenin zengin morfolojik yapısını ve zamirsel eklerini dikkate alan ilk kapsamlı değerlendirme protokolünü sunuyor.
Bu çalışmanın önemi, sadece İbranice ile sınırlı değil. Benzer morfolojik karmaşıklığa sahip diğer diller için de örnek teşkil edebilir. Özellikle bilgi çıkarma, metin özetleme ve iş uygulamaları gibi uzun metinlerle çalışan sistemlerin geliştirilmesinde kritik rol oynayacak.