Yapay zekâ alanında büyük dil modellerinin genel bilgi ve mantık yürütme testlerinde gösterdikleri başarı dikkat çekici olsa da, bu sistemlerin özelleşmiş alanlardaki bilgi düzeyleri hâlâ belirsizlik taşıyor. Araştırmacılar, bu boşluğu doldurmak amacıyla hayvan bilgisi alanına odaklanan BAGEL (Benchmarking Animal Knowledge Expertise in Language Models) adlı yeni bir değerlendirme sistemi geliştirdi.
BAGEL, çeşitli bilimsel ve referans kaynaklarından derlenmiş kapsamlı bir veri seti sunuyor. bioRxiv gibi bilimsel yayın arşivleri, Global Biotic Interactions veritabanı, Xeno-canto ses arşivi ve Wikipedia'dan toplanan bilgiler, hem elle seçilmiş örnekler hem de otomatik olarak üretilen soru-cevap çiftleri şeklinde sistemde yer alıyor.
Bu kıyaslama sistemi, hayvan biliminin birden fazla boyutunu kapsıyor. Taksonomi sınıflandırmaları, hayvanların fiziksel özellikleri, yaşam alanları, davranış kalıpları, sesli iletişim yöntemleri, coğrafi dağılımları ve türler arası etkileşimler gibi geniş bir yelpazede sorular içeriyor.
BAGEL'in en önemli özelliği, 'kapalı kitap' değerlendirme yöntemi kullanması. Bu yaklaşım, yapay zekâ modellerinin test sırasında dış kaynaklara erişim olmadan, yalnızca önceden öğrendikleri bilgiler üzerinden cevap vermelerini gerektiriyor. Bu sayede modellerin gerçek bilgi birikimları ve uzmanlaşma düzeyleri daha net şekilde ölçülebiliyor.