Yapay zeka ajanlarının gerçek dünya uygulamalarında hangi görevler için büyük modellere ihtiyaç duyulduğunu belirlemek amacıyla yeni bir araştırma yapıldı. AgentFloor adı verilen bu kapsamlı değerlendirme sistemi, AI modellerinin yeteneklerini altı farklı kademede test ediyor.
Araştırmada 0,27 milyardan 32 milyar parametreye kadar değişen 16 açık kaynak model, GPT-5 ile birlikte toplam 16,542 test çalışmasında değerlendirildi. Test sistemi, temel talimat takibinden başlayarak araç kullanımı, çok adımlı koordinasyon ve uzun vadeli planlama yeteneklerine kadar geniş bir yelpazede 30 farklı görevi kapsıyor.
Sonuçlar, gerçek AI ajan sistemlerinin çoğunlukla kısa, yapılandırılmış ve rutin çağrılar yaptığını ve bu görevlerin büyük kısmının küçük ve orta ölçekli açık kaynak modellerle başarıyla gerçekleştirilebildiğini ortaya koydu. En güçlü açık kaynak modelin toplamda GPT-5 ile eşdeğer performans gösterdiği belirlendi.
Bu bulgular, AI sistemlerinin tasarımında önemli pratik sonuçlar doğuruyor. Hangi görevlerin gerçekten büyük frontier modeller gerektirdiğini ve hangilerinin daha küçük modellerle halledilebileceğini belirlemek, hem maliyet optimizasyonu hem de sistem verimliliği açısından kritik öneme sahip.