Kurumsal yapay zeka sistemleri genellikle birbirine bağlı dört temel aşamadan oluşuyor: belgeleri ayrıştırma, indeksleme, bilgi erişimi ve yanıt üretimi. Her aşama ayrı ayrı derinlemesine incelense de, sistemin bütününü değerlendirmek oldukça zorlu bir görevdi.
Araştırmacılar bu sorunu çözmek için EnterpriseDocBench adında kapsamlı bir test platformu geliştirdi. Bu platform, ayrıştırma doğruluğu, indeksleme verimliliği, bilgi erişiminin isabetliliği ve üretilen metnin güvenilirliğini aynı belge koleksiyonu üzerinde test ediyor.
Test koleksiyonu, altı farklı kurumsal alanda halka açık ve serbestçe kullanılabilir belgelerden oluşturuluyor. Araştırmacılar, üç farklı belge işleme yaklaşımını karşılaştırdı: geleneksel BM25 arama, yoğun gömme teknikleri ve her ikisini birleştiren hibrit yaklaşım. Tüm sistemlerde aynı GPT-5 tabanlı metin üretici kullanıldı.
Sonuçlar, hibrit arama yönteminin BM25'i çok az farkla geçtiğini gösterdi (nDCG@5 skorunda 0.92'ye karşı 0.91). Her ikisi de yoğun gömme tekniğinden (0.83) daha başarılı oldu. Dikkat çekici bir bulgu, yanıltıcı bilgi üretiminin belge uzunluğuyla doğrusal bir ilişki göstermemesiydi. Çok kısa ve çok uzun belgeler, orta uzunluktaki belgelere göre daha fazla hatalı bilgi içeriyordu.