Antik Sanskritçe literatürün dijital dünyaya aktarılması konusunda çığır açan bir çalışma, yapay zeka ve klasik dil bilimi arasında köprü kuruyor. Araştırmacılar, binlerce yıllık metinlerdeki isim varlıklarını tanımlama sorununun üstesinden gelmek için yenilikçi bir yaklaşım geliştirdi.
Naamah olarak adlandırılan bu yeni veri seti, 102 bin 942 cümlelik zengin bir koleksiyon sunuyor. Sistem, DBpedia'nın geniş bilgi tabanından yararlanarak varlık çıkarımı yapıyor ve bunu 24 milyar parametreli hibrit mantık yürütme modeliyle birleştiriyor. Bu kombinasyon, klasik Sanskritçe gramerinin inceliklerini kavrayabilen, doğal ve çeşitli eğitim verisi üretmeyi mümkün kılıyor.
Geleneksel yöntemlerin aksine, bu yaklaşım genel amaçlı büyük dil modellerinin hata eğilimini minimize ediyor. Klasik gramer için gereken derin mantık yürütme kapasitesini sağlayarak, daha güvenilir sonuçlar elde ediyor.
Araştırma ekibi, geliştirdikleri veri setini iki farklı transformer mimarisi üzerinde test etti. Çok dilli XLM RoBERTa ve parametre açısından verimli IndicBERTv2 modellerinin performansını karşılaştırarak, her ikisinin de Sanskritçe metin işlemede umut verici sonuçlar verdiğini gözlemledi.
Bu çalışma, yalnızca Sanskritçe için değil, benzer veri eksikliği yaşayan diğer antik diller için de yol gösterici nitelikte. Dijital beşeri bilimler alanında önemli bir adım olarak değerlendiriliyor.