Teknoloji & Yapay Zeka

Kurumsal yapay zeka sistemleri için yeni değerlendirme standardı geliştirildi

Araştırmacılar, kurumsal belge işleme yapay zeka sistemlerinin performansını bütüncül olarak değerlendiren ilk kapsamlı test platformunu geliştirdi. EnterpriseDocBench adlı bu sistem, belge ayrıştırma, indeksleme, bilgi erişimi ve metin üretimi aşamalarının tümünü birlikte test ediyor. Altı farklı kurumsal alanda yapılan testlerde, hibrit arama yönteminin geleneksel BM25 tekniğini çok az farkla geçtiği, yoğun gömme yönteminden ise belirgin şekilde üstün olduğu görüldü. İlginç bir bulgu, çok kısa ve çok uzun belgelerin orta uzunluktaki belgelere göre daha fazla yanıltıcı bilgi ürettiğinin keşfedilmesi. Araştırma, kurumsal yapay zeka çözümlerinin gerçek performansını ölçmek için standardize edilmiş bir yaklaşım sunuyor.

Kurumsal yapay zeka sistemleri genellikle birbirine bağlı dört temel aşamadan oluşuyor: belgeleri ayrıştırma, indeksleme, bilgi erişimi ve yanıt üretimi. Her aşama ayrı ayrı derinlemesine incelense de, sistemin bütününü değerlendirmek oldukça zorlu bir görevdi.

Araştırmacılar bu sorunu çözmek için EnterpriseDocBench adında kapsamlı bir test platformu geliştirdi. Bu platform, ayrıştırma doğruluğu, indeksleme verimliliği, bilgi erişiminin isabetliliği ve üretilen metnin güvenilirliğini aynı belge koleksiyonu üzerinde test ediyor.

Test koleksiyonu, altı farklı kurumsal alanda halka açık ve serbestçe kullanılabilir belgelerden oluşturuluyor. Araştırmacılar, üç farklı belge işleme yaklaşımını karşılaştırdı: geleneksel BM25 arama, yoğun gömme teknikleri ve her ikisini birleştiren hibrit yaklaşım. Tüm sistemlerde aynı GPT-5 tabanlı metin üretici kullanıldı.

Sonuçlar, hibrit arama yönteminin BM25'i çok az farkla geçtiğini gösterdi (nDCG@5 skorunda 0.92'ye karşı 0.91). Her ikisi de yoğun gömme tekniğinden (0.83) daha başarılı oldu. Dikkat çekici bir bulgu, yanıltıcı bilgi üretiminin belge uzunluğuyla doğrusal bir ilişki göstermemesiydi. Çok kısa ve çok uzun belgeler, orta uzunluktaki belgelere göre daha fazla hatalı bilgi içeriyordu.

Özgün Kaynak
arXiv (Dilbilim & NLP)
Benchmarking Complex Multimodal Document Processing Pipelines: A Unified Evaluation Framework for Enterprise AI
Orijinal makaleyi oku

Bu içerik, özgün kaynaktaki bilgiler temel alınarak BilimKapsül editörleri tarafından yeniden kaleme alınmıştır. Orijinal metnin birebir çevirisi değildir. Telif hakkı özgün yayıncıya aittir.