Stanford ve savunma araştırma kuruluşlarından bilim insanları, yapay zeka sistemlerinin savunma belgelerindeki bilgileri ne kadar doğru kullandığını test eden yenilikçi bir değerlendirme sistemi geliştirdi. DoRA (Domain-oriented RAG Assessment) adlı bu sistem, mevcut test yöntemlerinin eksikliklerini gidermek üzere tasarlandı.

RAG (Retrieval-Augmented Generation) teknolojisi, yapay zekanın dış kaynaklardan bilgi alıp sorulara cevap vermesini sağlıyor. Ancak geleneksel test sistemleri, yapay zekanın eğitim aşamasında gördüğü verilerle benzerlik gösterdiği için gerçek performansı tam yansıtmıyor. DoRA, bu sorunu savunma sektörüne özgü belgeler kullanarak çözmeye odaklanıyor.

Sistem, bulma, açıklama, özetleme, üretme ve sağlama olmak üzere beş farklı soru kategorisinde 6500 dikkatli seçilmiş örnek içeriyor. Her soru, doğrulanabilir kanıt pasajlarıyla eşleştirilmiş durumda, böylece yapay zekanın kaynaklarını ne kadar güvenilir kullandığı ölçülebiliyor.

Araştırma sonuçları oldukça etkileyici: DoRA ile özel olarak eğitilen Llama3.1-8B-Instruct modeli, temel modele kıyasla soru-cevap görevlerinde %26'ya varan başarı artışı gösterdi. Daha da önemlisi, sistemin yanlış bilgi üretme oranı %47 azaldı. Bu gelişme, kritik savunma uygulamalarında yapay zeka güvenilirliğini artırmak açısından büyük önem taşıyor.