Araştırmacılar, metin belgelerini anlamlı matematiksel sinyallere dönüştüren kapsamlı bir sistem geliştirdi. Bu yöntem, her belgeyi tam-doküman gömme tekniğiyle sayısal bir temsile çeviriyor ve yapılandırılabilir pozisyonel sözlük üzerinden değerlendiriyor.
Sistemin çalışma prensibi, üç aşamalı bir süreç üzerine kurulu. İlk olarak her metin belgesi, içeriğinin semantik özelliklerini koruyan matematiksel bir vektöre dönüştürülüyor. Ardından bu vektörler, logprob tabanlı skorlama yöntemiyle değerlendirilerek anlamsal konumlandırılıyor. Son aşamada ise gürültü azaltma teknikleriyle düşük boyutlu bir manifold üzerinde yapısal yorumlama yapılıyor.
Araştırma ekibi, yöntemlerini yapay zeka konulu 11.922 Portekizce haber makalesi üzerinde test etti. Bu makaleler altı farklı semantik boyutta analiz edilerek, her birinin anlamsal kimliği belirlendi. Sonuçta ortaya çıkan kimlik uzayı, hem bireysel belgelerin semantik konumlandırılmasını hem de corpus genelindeki karakterizasyonu mümkün kılıyor.
Bu yenilikçi yaklaşım, Qwen gömme modellerini UMAP boyut indirgeme tekniğiyle birleştirerek operasyonel bir metin-sinyal işleme akışı oluşturuyor. Sistem, büyük metin koleksiyonlarının izlenmesi, incelenmesi ve analitik süreçlerde kullanılması için pratik çözümler sunuyor.