BAGEL: Yapay Zekâ Modellerinin Hayvan Bilgisi Ölçülüyor

Araştırmacılar, büyük dil modellerinin hayvan bilgisi konusundaki uzmanlığını değerlendirmek için BAGEL adlı yeni bir kıyaslama sistemi geliştirdi. Bu sistem, yapay zekâ modellerinin taksonomi, morfoloji, yaşam alanları, davranış kalıpları ve coğrafi dağılım gibi hayvan bilimi konularındaki performanslarını ölçüyor. BAGEL, bioRxiv, Wikipedia ve diğer bilimsel kaynaklardan toplanan verilerle oluşturulmuş sorular içeriyor ve modellerin dış kaynaklara erişim olmadan ne kadar bilgi sahibi olduğunu test ediyor. Bu çalışma, genel bilgi testlerinde başarılı olan yapay zekâ sistemlerinin özelleşmiş alanlardaki performanslarının henüz net olmadığı bir dönemde önemli bir değerlendirme aracı sunuyor.

Yapay zekâ alanında büyük dil modellerinin genel bilgi ve mantık yürütme testlerinde gösterdikleri başarı dikkat çekici olsa da, bu sistemlerin özelleşmiş alanlardaki bilgi düzeyleri hâlâ belirsizlik taşıyor. Araştırmacılar, bu boşluğu doldurmak amacıyla hayvan bilgisi alanına odaklanan BAGEL (Benchmarking Animal Knowledge Expertise in Language Models) adlı yeni bir değerlendirme sistemi geliştirdi.

BAGEL, çeşitli bilimsel ve referans kaynaklarından derlenmiş kapsamlı bir veri seti sunuyor. bioRxiv gibi bilimsel yayın arşivleri, Global Biotic Interactions veritabanı, Xeno-canto ses arşivi ve Wikipedia'dan toplanan bilgiler, hem elle seçilmiş örnekler hem de otomatik olarak üretilen soru-cevap çiftleri şeklinde sistemde yer alıyor.

Bu kıyaslama sistemi, hayvan biliminin birden fazla boyutunu kapsıyor. Taksonomi sınıflandırmaları, hayvanların fiziksel özellikleri, yaşam alanları, davranış kalıpları, sesli iletişim yöntemleri, coğrafi dağılımları ve türler arası etkileşimler gibi geniş bir yelpazede sorular içeriyor.

BAGEL'in en önemli özelliği, 'kapalı kitap' değerlendirme yöntemi kullanması. Bu yaklaşım, yapay zekâ modellerinin test sırasında dış kaynaklara erişim olmadan, yalnızca önceden öğrendikleri bilgiler üzerinden cevap vermelerini gerektiriyor. Bu sayede modellerin gerçek bilgi birikimları ve uzmanlaşma düzeyleri daha net şekilde ölçülebiliyor.