Küçük AI modelleri büyük görevlerde ne kadar başarılı? AgentFloor testi açıklıyor

4 Mayıs 2026, 07:00 2 dk okuma 0 görüntülenme arXiv — Hesaplamalı Dilbilim (cs.CL)

Paylaş: Kopyalandı!

Araştırmacılar, yapay zeka sistemlerinde hangi görevlerin büyük modeller gerektirdiğini, hangilerinin küçük modellerle halledilebileceğini belirlemek için AgentFloor adlı yeni bir değerlendirme sistemi geliştirdi. 30 farklı görevi içeren altı kademeli bu test, 0,27 milyardan 32 milyar parametreye kadar 16 farklı açık kaynak modeli GPT-5 ile karşılaştırdı. Bulgular, kısa vadeli ve yapılandırılmış araç kullanımı gerektiren işlerin çoğunun küçük ve orta ölçekli modellerle başarıyla yapılabileceğini gösterdi. Bu sonuçlar, AI sistemlerinin daha verimli tasarlanması ve maliyetlerin optimize edilmesi açısından önemli pratik değer taşıyor.

Yapay zeka ajanlarının gerçek dünya uygulamalarında hangi görevler için büyük modellere ihtiyaç duyulduğunu belirlemek amacıyla yeni bir araştırma yapıldı. AgentFloor adı verilen bu kapsamlı değerlendirme sistemi, AI modellerinin yeteneklerini altı farklı kademede test ediyor.

Araştırmada 0,27 milyardan 32 milyar parametreye kadar değişen 16 açık kaynak model, GPT-5 ile birlikte toplam 16,542 test çalışmasında değerlendirildi. Test sistemi, temel talimat takibinden başlayarak araç kullanımı, çok adımlı koordinasyon ve uzun vadeli planlama yeteneklerine kadar geniş bir yelpazede 30 farklı görevi kapsıyor.

Sonuçlar, gerçek AI ajan sistemlerinin çoğunlukla kısa, yapılandırılmış ve rutin çağrılar yaptığını ve bu görevlerin büyük kısmının küçük ve orta ölçekli açık kaynak modellerle başarıyla gerçekleştirilebildiğini ortaya koydu. En güçlü açık kaynak modelin toplamda GPT-5 ile eşdeğer performans gösterdiği belirlendi.

Bu bulgular, AI sistemlerinin tasarımında önemli pratik sonuçlar doğuruyor. Hangi görevlerin gerçekten büyük frontier modeller gerektirdiğini ve hangilerinin daha küçük modellerle halledilebileceğini belirlemek, hem maliyet optimizasyonu hem de sistem verimliliği açısından kritik öneme sahip.

Etiketler

#yapay zeka #model değerlendirme #açık kaynak AI #ajan sistemleri #benchmark

Özgün Kaynak

AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?

https://arxiv.org/abs/2605.00334

Bu içerik, özgün kaynaktan referans alınarak yeniden yorumlanmış Türkçe bir özettir. Telif hakkı özgün yayın organına aittir.

Her sabah seçki, Telegram'da

Günün en önemli bilim haberleri kanalda.

Kanala Katıl

İlgili Haberler

Aynı kategoride okumaya değer

Hepsini gör →

Teknoloji & Yapay Zeka · 1 gün önce

Küçük AI modelleri büyük görevlerde ne kadar başarılı? AgentFloor testi açıklıyor

Her sabah seçki, Telegram'da

Aynı kategoride okumaya değer

Sosyal medya seçim karşıtı reklamları oy verme davranışını etkiliyor

Çin'de 'Uzanıp Yatma' Akımı: Sosyal Direnişin Dilbilimsel Analizi

Adil Tasarlanan Eşleştirme Sistemleri Bile Eşitsiz Sonuçlar Üretebiliyor