Yapay zeka destekli arama sistemlerinin kalbi sayılan SPLADE modellerinde kelime dağarcığının rolü, yeni bir araştırmayla detaylı şekilde incelendi. Learned Sparse Retrieval (LSR) teknolojisinin önemli bir parçası olan bu modeller, semantik eşleştirme yaparken aynı zamanda geleneksel ters indeks yapılarının verimliliğinden yararlanabiliyor.
Araştırmacılar, ESPLADE ön-eğitim yöntemiyle başlatılan ve rastgele başlatılan olmak üzere iki farklı 100 bin kelimelik BERT modeli oluşturdular. Bu modeller, farklı kelime dağarcığı granülarite seviyelerine sahip özel kelime dağarcıkları kullanarak sorgu ve belgeleri seyrek uzaya dönüştürme yeteneğine sahip.
Gerçek dünya arama tıklama kayıtları kullanılarak ince ayar yapılan modeller, logit skor tabanlı budama teknikleriyle optimize edildi. Bu yaklaşım, verimlilik ve etkinlik arasında denge kurmayı hedefliyor.
Çalışma, SPLADE modellerinde kelime dağarcığının arama performansı üzerindeki etkisinin henüz yeterince araştırılmamış olduğuna dikkat çekiyor. Bu araştırma, semantic arama teknolojilerinin gelecekteki gelişimi için değerli bulgular sunarak, arama motorlarının daha akıllı ve verimli hale getirilmesine katkı sağlıyor.