Yapay zeka asistanlarının belge arama yeteneklerini geliştirmek için tasarlanan 'vstash' sistemi, bilgi erişiminde önemli bir adım atıyor. Sistem, vektör tabanlı benzerlik araması ile geleneksel anahtar kelime eşleştirmesini Karşılıklı Sıralama Füzyonu (RRF) ve uyarlanabilir sorgu bazlı IDF ağırlıklandırması ile birleştiriyor.
Sistemin en dikkat çekici özelliği, tüm verileri tek bir SQLite dosyasında depolayarak tamamen yerel çalışabilmesi. Bu yaklaşım, kullanıcıların internet bağlantısına ihtiyaç duymadan belge aramalarını gerçekleştirebilmelerini sağlıyor. Yaklaşık en yakın komşu araması için sqlite-vec, anahtar kelime eşleştirmesi için ise FTS5 teknolojilerini kullanan sistem, veri gizliliği açısından da avantaj sunuyor.
Araştırmacılar, SciFact, NFCorpus ve FiQA veri setlerinde 753 sorgu üzerinde yaptıkları testlerde, sorguların %74,5'inde vektör ağırlıklı ve tam metin ağırlıklı aramalar arasında farklılıklar tespit etti. Bu anlaşmazlıklar, sistemin kendini geliştirmesi için değerli bir eğitim sinyali oluşturuyor.
BGE-small modelinin 76 bin anlaşmazlık üçlüsü ile ince ayarlanması sonucunda, beş BEIR veri setinin tamamında performans artışları gözlemlendi. En yüksek iyileşme NFCorpus veri setinde %19,5 olarak kaydedildi. Bu sonuçlar, hibrit yaklaşımın geleneksel tek yöntemli aramalara göre üstünlüğünü kanıtlıyor.