Stanford Üniversitesi araştırmacıları, yapay zekanın insan geri bildirimlerinden öğrenmesini devrimsel bir şekilde iyileştiren yeni bir algoritma geliştirdi. Par-S²ZPO (Partitioned, Sign-based Stochastic Zeroth-order Policy Optimization) adı verilen bu yöntem, akıllı telefonlar ve IoT cihazları gibi sınırlı kaynaklara sahip cihazların büyük AI modellerinin eğitimine katılmasını mümkün kılıyor.

Geleneksel yapay zeka eğitiminde, tüm veriler merkezi sunucularda toplanarak işlenir. Bu yaklaşım gizlilik sorunları yaratırken, büyük miktarda veri transferi de gerektiriyor. Yeni algoritma ise federe öğrenme prensibiyle çalışarak, her cihazın kendi verisiyle öğrenmesini ve sadece öğrendiği bilgileri paylaşmasını sağlıyor.

Par-S²ZPO'nun en önemli özelliği, karmaşık matematiksel hesaplamalar yerine basit ikili işlemler kullanması. Bu sayede hem iletişim maliyetleri hem de hesaplama gücü ihtiyacı dramatik şekilde azalıyor. Algoritma, her cihazın sınırlı bellek ve işlem kapasitesiyle çalışabilecek şekilde tasarlanmış.

Araştırma ekibi, MuJoCo simülasyon ortamında yaptığı testlerde, yeni yöntemin geleneksel FedAvg tabanlı sistemlerden daha iyi performans gösterdiğini kanıtladı. Teorik analizler de algoritmanın merkezi yöntemler kadar etkili olduğunu, hatta politika güncellemelerinde daha hızlı yakınsama sağladığını ortaya koyuyor.