On Guaranteed Estimate of Deviations from the Target Set in a Control Problem under Reinforcement Learning

I. A Chistiakov; ЧИСТЯКОВ И. А

doi:10.31857/S0005231025010057

On Guaranteed Estimate of Deviations from the Target Set in a Control Problem under Reinforcement Learning

作者: Chistiakov I.A¹
隶属关系:
期: 编号 1 (2025)
页面: 80-98
栏目: Intellectual control systems, data analysis
URL: https://journals.rcsi.science/0005-2310/article/view/284566
DOI: https://doi.org/10.31857/S0005231025010057
EDN: https://elibrary.ru/JQKKTQ
ID: 284566

如何引用文章

全文:

开放存取

##reader.subscriptionAccessGranted##
受限制的访问

订阅存取

详细
作者简介
参考
补充文件
统计

详细

Рассматривается задача целевого управления объектом, движение которого описывается системой дифференциальных уравнений специального вида, где присутствуют нелинейные члены, зависящие от фазовых переменных. На примере алгоритма Proximal Policy Optimization (PPO) показано, что с помощью обучения с подкреплением можно получить позиционную стратегию управления, решающую задачу приближенно. Эта стратегия далее аппроксимируется кусочно-аффинным управлением, для которого на основе метода динамического программирования строится гарантированная априорная оценка попадания траектории в целевое множество. Для этого осуществляется переход к вспомогательной задаче для кусочно-аффинной системы с помехой и вычисляется кусочно-квадратичная оценка функции цены как приближенное решение уравнения Гамильтона–Якоби–Беллмана.

关键词

нелинейная динамика, динамическое программирование, принцип сравнения, линеаризация, кусочно-квадратичная функция цены, обучение с подкреплением, алгоритм PPO, множество разрешимости

作者简介

I. Chistiakov

Email: chistyakov.ivan@yahoo.com

参考

Незнахин А.А., Ушаков В.Н. Сеточный метод приближенного построения ядра выживаемости для дифференциального включения // Журн. вычисл. мат. и мат. физики. 2001. Т. 41. № 6. С. 895–908.
Goubault E., Putot S. Inner and Outer Reachability for the Veriﬁcation of Control Systems // Proceedings of the 22nd ACM International Conference on Hybrid Systems: Computation and Control. 2019. P. 11–22. https://doi.org/10.1145/3302504.3311794
Shafa T., Ornik M. Reachability of Nonlinear Systems with Unknown Dynamics. 2021. https://doi.org/10.48550/arXiv.2108.11045
Garrido S., Moreno L.E., Blanco D., Jurewicz P.P. Optimal control using the Fast Marching Method // 35th Annual Conference of IEEE Industrial Electronics. 2009. P. 1669–1674. https://doi.org/10.1109/IECON.2009.5414750
Субботина Н.Н., Токманцев Т.Б. Классические характеристики уравнения Беллмана в конструкциях сеточного оптимального синтеза // Тр. мат. ин-та им. В.А. Стеклова. 2010. Т. 271. С. 259–277.
Xue B., Fra¨nzle M., Zhan N. Inner-Approximating Reachable Sets for Polynomial Systems with Time-Varying Uncertainties // IEEE Transact. Autom. Control. 2019. V. 65. No. 4. P. 1468–1483. https://doi.org/10.1109/TAC.2019.2923049.
Lee D., Tomlin C.J. Eﬃcient Computation of State-Constrained Reachability Problems Using Hopf–Lax Formulae // IEEE Transact. Autom. Control. 2023. P. 1– 15. https://doi.org/10.1109/TAC.2023.3241180
Cheng T., Lewis F.L., Abu–Khalaf M. Fixed-Final-Time-Constrained Optimal Control of Nonlinear Systems Using Neural Network HJB Approach // IEEE Transactions on Neural Networks. 2007. V. 18. No. 6. P. 1725–1737. https://doi.org/10.1109/TNN.2007.905848
Onken D., Nurbekyan L., Li X., et al. A Neural Network Approach for HighDimensional Optimal Control Applied to Multiagent Path Finding // IEEE Transact. Control Syst. Techn. 2023. V. 31. No. 1. P. 235–251. https://doi.org/10.1109/TCST.2022.3172872
Sa´nchez–S´anchez C., Izzo D., Hennes D. Learning the optimal state-feedback using deep networks // 2016 IEEE Symposium Series on Computational Intelligence. 2016. P. 1–8. https://doi.org/10.1109/SSCI.2016.7850105
Tochilin P.A. Piecewise aﬃne feedback control for approximate solution of the target control problem // IFAC-PapersOnLine. 2020. V. 53. No. 2. P. 6127–6132. https://doi.org/10.1016/j.ifacol.2020.12.1691
Точилин П.А. О построении кусочно-аффинной функции цены в задаче оптимального управления на бесконечном отрезке времени // Тр. ин-та мат. и механики УрО РАН. 2020. Т. 26. № 1. С. 223–238. https://doi.org/10.21538/0134-4889-2020-26-1-223-238
Чистяков И.А., Точилин П.А. Применение кусочно-квадратичных функций цены для приближенного решения нелинейной задачи целевого управления // Дифференциальные уравнения. 2020. Т. 56. № 11. С. 1545–1554. https://doi.org/10.1134/S0374064120110126
Куржанский А.Б. Принцип сравнения для уравнений типа Гамильтона–Якоби в теории управления // Тр. ин-та мат. и механики УрО РАН. 2006. Т. 12. № 1. С. 173–183.
Kurzhanski A.B., Varaiya P. Dynamics and control of trajectory tubes. Theory and computation. Birkha¨user, 2014. https://doi.org/10.1007/978-3-319-10277-1
Саттон Р.С., Барто Э.Г. Обучение с подкреплением. М.: ДМК пресс, 2020.
Schulman J., Wolski F., Dhariwal P., et al. Proximal policy optimization algorithms. 2017. https://doi.org/10.48550/arXiv.1707.06347
Пшеничный Б.Н. Выпуклый анализ и экстремальные задачи. М.: Наука, 1980.
Скворцов А.В., Мирза Н.С. Алгоритмы построения и анализа триангуляции. Томск: Изд-во Том. ун-та, 2006.
Rajan V.T. Optimality of the Delaunay triangulation in Rd // Discrete & Computational Geometry. 1994. V. 12. No. 2. P. 189–202. https://doi.org/10.1007/BF02574375
Brown K.Q. Voronoi diagrams from convex hulls // Inform. Proc. Lett. 1979. V. 9. No. 5. P. 223–228. https://doi.org/10.1016/0020-0190(79)90074-7
Liberzon D. Switching in Systems and Control. Birkhauser, 2003. https://doi.org/10.1007/978-1-4612-0017-8
Bardi M., Capuzzo-Dolcetta I. Optimal control and viscosity solutions of HamiltonJacobi-Bellman equations. Ser. Systems & Control: Foundations & Applications. Boston: Birkha¨user, 2008. https://doi.org/10.1007/978-0-8176-4755-1
Lillicrap T.P., Hunt J.J., Pritzel A., et al. Continuous control with deep reinforcement learning. 2019. https://doi.org/10.48550/arXiv.1509.02971
Haarnoja T., Zhou A., Abbeel P., Levine S. Soft Actor-Critic: Oﬀ-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor. 2018. https://doi.org/10.48550/arXiv.1801.01290
Raﬃn A., Hill A., Gleave A., et al., Stable-Baselines3: Reliable Reinforcement Learning Implementations // J. Machin. Lear. Res. 2021. V. 22. No. 268. P. 1–8.
Petrazzini I.G.B., Antonelo E.A. Proximal Policy Optimization with Continuous Bounded Action Space via the Beta Distribution // 2021 IEEE Symposium Series on Computational Intelligence (SSCI). 2022. P. 1–8. https://doi.org/10.1109/SSCI50451.2021.9660123
Reissig G. Computing Abstractions of Nonlinear Systems // IEEE Transact. Autom. Control. 2011. V. 56. No. 11. P. 2583–2598. https://doi.org/10.1109/TAC.2011.2118950
Голубев Ю.Ф. Нейронные сети в мехатронике // Фундамент. и прикл. матем. 2005. Т. 11. № 8. С. 81–103.
Ли Э.Б., Маркус Л. Основы теории оптимального управления. М.: Наука, 1972.

补充文件

附件文件

动作

1. JATS XML

下载

用户名
密码
记住我

忘记您的密码?	注册

用户名
密码
记住我

忘记您的密码?	注册

编号 11 (2025)

编号 11 (2025)

On Guaranteed Estimate of Deviations from the Target Set in a Control Problem under Reinforcement Learning

全文:

详细

关键词

作者简介

I. Chistiakov

参考

补充文件