Teknoloji & Yapay Zeka

Yapay Zeka Modelleri Sistem Dinamiklerini Ne Kadar İyi Anlıyor?

Araştırmacılar, bulut tabanlı ve yerel yapay zeka modellerinin sistem dinamikleri konusundaki yeteneklerini karşılaştırdı. Çalışmada, modellerin nedensel döngü diyagramları çıkarma ve etkileşimli model tartışması becerilerini ölçen iki farklı test sistemi kullanıldı. Bulut modelleri %77-89 başarı oranına ulaşırken, en iyi yerel model %77 ile orta seviye bulut performansına eşit sonuç verdi. Ancak yerel modeller, uzun bağlam gerektiren hata düzeltme görevlerinde bellek sınırları nedeniyle zorlandı. Bu çalışma, sistem dinamikleri alanında yapay zeka asistanlarının kullanımı için önemli kıyaslama kriterleri sunuyor.

Sistem dinamikleri alanında yapay zeka asistanlarının performansını değerlendiren kapsamlı bir araştırma, bulut ve yerel AI modellerinin karşılaştırmalı analizini sundu. Çalışma, hem ticari bulut API'leri hem de yerel olarak barındırılan açık kaynak modelleri kapsayan geniş bir yapay zeka model ailesini inceledi.

Araştırmacılar, CLD Liderlik Tablosu ve Tartışma Liderlik Tablosu olmak üzere iki özel test sistemi geliştirdi. İlk sistem, 53 test içeren yapılandırılmış nedensel döngü diyagramı çıkarma yeteneklerini ölçerken, ikincisi etkileşimli model tartışması, geri bildirim açıklaması ve model oluşturma koçluğu becerilerini değerlendirdi.

Nedensel döngü diyagramı çıkarma testlerinde bulut modelleri %77-89 arasında genel başarı oranları elde etti. En başarılı yerel model olan Kimi K2.5 GGUF Q3, %77 başarı oranıyla orta seviye bulut performansına eşdeğer sonuç verdi.

Tartışma testlerinde ise yerel modeller model oluşturma adımlarında %50-100, geri bildirim açıklamada %47-75 başarı gösterdi. Ancak hata düzeltme kategorisinde sadece %0-50 başarı elde edebildiler. Bu durum, uzun bağlam gerektiren görevlerde yerel dağıtımların bellek sınırlarının açığa çıkmasından kaynaklandı.

Çalışma, sistem dinamikleri AI yardımcılarının geliştirilmesi için önemli kıyaslama kriterleri sunarak, gelecekteki araştırmalara yön veriyor.

Özgün Kaynak
arXiv (CS + AI)
Benchmarking System Dynamics AI Assistants: Cloud Versus Local LLMs on CLD Extraction and Discussion
Orijinal makaleyi oku

Bu içerik, özgün kaynaktaki bilgiler temel alınarak BilimKapsül editörleri tarafından yeniden kaleme alınmıştır. Orijinal metnin birebir çevirisi değildir. Telif hakkı özgün yayıncıya aittir.