Kontrol teorisinin en önemli problemlerinden biri olan Linear Quadratic Regulator (LQR) optimizasyonu için yeni bir veri tabanlı yaklaşım geliştirildi. Bu çalışma, sürekli zamanlı sistemlerin kontrolünde devrim niteliğinde iki farklı parametrizasyon yöntemi sunuyor.
İlk yaklaşım, davranışsal sistem teorisinden alınan kapalı döngü (CL) parametrizasyonunu kullanıyor. Bu yöntem, kapalı döngü sistemini eşitlik kısıtlamalarını sağlayan bir matris aracılığıyla karakterize ediyor. Araştırmacılar, daha önce ayrık zamanlı sistemlerde kullanılan bu yaklaşımı sürekli zamanlı ortama uyarlayarak, politika iterasyonu şeması geliştirdiler ve veri tabanlı sürekli zamanlı cebirsel Riccati denklemi türettiler.
İkinci yaklaşım ise integral takviyeli öğrenme (IRL) parametrizasyonunu temel alıyor. Bu yöntem, off-policy veri kullanarak politika değerlendirmesi yapıyor ve ardından bu değerlendirmeyi politika iterasyonu veya değer iterasyonu için kullanıyor. IRL çerçevesinde araştırmacılar, politika gradyan akışı türeterek LQR probleminin konveks yeniden formülasyonlarını önerdiler.
Bu gelişmeler, robotik kontrolünden otonom araçlara, endüstriyel otomasyondan havacılık sistemlerine kadar geniş bir uygulama yelpazesinde daha verimli ve uyarlanabilir kontrol sistemlerinin tasarlanmasını mümkün kılıyor.