Yapay zeka destekli kodlama ajanları yazılım geliştirme alanında etkileyici başarılar elde ederken, bilimsel çalışmalarda da aynı performansı gösterip göstermediği merak konusu olmuştu. Bu soruya yanıt aramak için araştırmacılar, AutoMat adlı yenilikçi bir değerlendirme sistemi geliştirdi.
AutoMat, yapay zeka ajanlarının hesaplamalı malzeme bilimi alanındaki iddiaları yeniden üretebilme kapasitesini test ediyor. Sistem, üç temel zorluğu bir araya getiriyor: eksik tanımlanmış hesaplama prosedürlerini tamamlama, özelleşmiş araç zincirlerinde gezinme ve elde edilen kanıtların bilimsel bir iddiayı destekleyip desteklemediğini belirleme.
Araştırma ekibi, alan uzmanlarıyla yakın işbirliği içinde çalışarak gerçek malzeme bilimi makalelerinden bir dizi iddia seçti. Bu iddiaların kodlama ajanları tarafından yeniden üretilip üretilemeyeceği test ediliyor. Çalışma, AI'nın sadece kod yazma becerisinin yeterli olmadığını, karmaşık bilim alanına özgü prosedürleri anlama ve sonuçları doğru yorumlama yetisinin de gerekli olduğunu vurguluyor.
Bu araştırma, yapay zekanın bilimsel keşifler ve doğrulama süreçlerindeki rolünü anlamak açısından kritik önem taşıyor. Sonuçlar, AI destekli bilimsel araştırmaların geleceği hakkında önemli ipuçları verecek.