Yapay zeka alanında büyük dil modellerinin (LLM) bilgiyi nasıl kodladığını anlamak, uzun süredir araştırmacıları meşgul eden bir konu olmuştur. Bu alandaki en büyük engel, modellerin eğitim verilerinin genellikle erişilemez veya bilinmeyen 'kara kutu' niteliğinde olmasıydı.
Yeni geliştirilen NanoKnow benchmark veri seti, bu soruna yenilikçi bir çözüm getiriyor. Tamamen açık eğitim verileriyle geliştirilmiş nanochat model ailesi kullanılarak oluşturulan bu sistem, yapay zekanın parametrik bilgisinin nereden geldiğini şeffaf bir şekilde ortaya koyuyor.
Araştırmacılar, Natural Questions ve SQuAD gibi tanınmış veri setlerindeki soruları, cevaplarının nanochat'in eğitim korpusunda mevcut olup olmamasına göre kategorilere ayırdı. Bu yaklaşım sayesinde, dil modellerinin çıktı üretirken hangi bilgi kaynaklarına güvendiği artık daha net şekilde anlaşılabiliyor.
Sekiz farklı nanochat checkpoint'i üzerinde gerçekleştirilen kapsamlı deneyler, önemli bulgular ortaya koydu. Özellikle kapalı kitap doğruluğunun, eğitim verilerindeki cevap sıklığından güçlü bir şekilde etkilendiği gözlemlendi.
Bu çalışma, yapay zeka modellerinin bilgi işleme mekanizmalarını anlamak için önemli bir adım teşkil ediyor ve gelecekteki AI şeffaflığı araştırmalarına sağlam bir temel sağlıyor.