Yapay Zeka Asistanları İçin Hibrit Belge Arama Sistemi Geliştirildi

Araştırmacılar, yapay zeka asistanlarının belge aramalarını iyileştiren 'vstash' adlı yeni bir sistem geliştirdi. Bu sistem, vektör benzerlik araması ve tam metin anahtar kelime eşleştirmesini birleştirerek daha etkili sonuçlar üretiyor. Sistemin en önemli özelliği, tüm verileri tek bir SQLite dosyasında saklayarak yerel çalışabilmesi ve internet bağlantısı gerektirmemesi. BEIR veri setlerinde yapılan testlerde, geleneksel yöntemlere göre %19,5'e varan performans artışları elde edildi. Sistem ayrıca, farklı arama yöntemlerinin anlaşmazlıklarını kullanarak kendini geliştirebiliyor ve bu sayede insan etiketlemesine ihtiyaç duymuyor.

Yapay zeka asistanlarının belge arama yeteneklerini geliştirmek için tasarlanan 'vstash' sistemi, bilgi erişiminde önemli bir adım atıyor. Sistem, vektör tabanlı benzerlik araması ile geleneksel anahtar kelime eşleştirmesini Karşılıklı Sıralama Füzyonu (RRF) ve uyarlanabilir sorgu bazlı IDF ağırlıklandırması ile birleştiriyor.

Sistemin en dikkat çekici özelliği, tüm verileri tek bir SQLite dosyasında depolayarak tamamen yerel çalışabilmesi. Bu yaklaşım, kullanıcıların internet bağlantısına ihtiyaç duymadan belge aramalarını gerçekleştirebilmelerini sağlıyor. Yaklaşık en yakın komşu araması için sqlite-vec, anahtar kelime eşleştirmesi için ise FTS5 teknolojilerini kullanan sistem, veri gizliliği açısından da avantaj sunuyor.

Araştırmacılar, SciFact, NFCorpus ve FiQA veri setlerinde 753 sorgu üzerinde yaptıkları testlerde, sorguların %74,5'inde vektör ağırlıklı ve tam metin ağırlıklı aramalar arasında farklılıklar tespit etti. Bu anlaşmazlıklar, sistemin kendini geliştirmesi için değerli bir eğitim sinyali oluşturuyor.

BGE-small modelinin 76 bin anlaşmazlık üçlüsü ile ince ayarlanması sonucunda, beş BEIR veri setinin tamamında performans artışları gözlemlendi. En yüksek iyileşme NFCorpus veri setinde %19,5 olarak kaydedildi. Bu sonuçlar, hibrit yaklaşımın geleneksel tek yöntemli aramalara göre üstünlüğünü kanıtlıyor.