A Robust Control Algorithm for Single Input Single Output Dynamic Object Based on Table-Based Q-Method of Reinforcement Learning

Capa

Citar

Texto integral

Resumo

The article provides an overview in the field of dynamic object control systems based on reinforcement learning. Based on the analysis, it is concluded that the development of control methods based on reinforcement learning is relevant. The article proposes an intelligent algorithm for robust control of stable dynamic objects with one input and one output, based on the tabular Q-learning method of zero order. The algorithm stabilizes the output value of the control object with a given error if the parameters and external disturbances of the object are piecewise constant unknown quantities, and the state vector is measurable. The novelty of the proposed algorithm lies in a new incremental method of control formation, which allows, based on a set of three possible actions, to stabilize the control object. The proposed method of forming a set of control actions makes it possible to ensure the required accuracy of stabilizing the output of an object by changing the amplitude of the control increment. The proposed algorithm has high computational efficiency. After training, the control calculation is reduced to calculating indexes based on measurement results, reading data from memory based on calculated indexes, and finding the maximum value in a small vector. For a discrete description of the control object, the conditions of convergence of the learning algorithm and the limitation of the control error are investigated. The developed algorithm is demonstrated by the example of the synthesis of robust control of a DC motor with independent excitation. In the course of numerical simulation, the quality of a closed system is investigated when the parameters and the control action change. The analysis of the simulation results allows us to draw conclusions about the effectiveness of the synthesized algorithm. The article also provides the results of a real experiment that demonstrate the technical feasibility of the algorithm obtained. This issue is important, since the analysis of sources shows an almost complete lack of technical implementation of control systems for dynamic objects synthesized using reinforcement learning methods.

Sobre autores

M. Medvedev

Southern Federal University (SFedU)

Email: medvmihal@sfedu.ru
Shevchenko St. 2

V. Pshikhopov

Southern Federal University (SFedU)

Email: pshichop@rambler.ru
Shevchenko St. 2

I. Evdokimov

Southern Federal University (SFedU)

Email: ievdokimov@sfedu.ru
Shevchenko St. 2

Bibliografia

  1. Sutton R., Barto A. Reinforcement Learning. An Introduction. Second Edition. Cambridge: MIT Press, 2018. vol. 1. no. 1. pp. 9–11.
  2. Sutton R.S., Barto A.G., Williams R.J. Reinforcement learning is direct adaptive optimal control. IEEE Control Systems Magazine. 2002. vol. 12(2). pp. 19–22.
  3. Pshikhopov V., Medvedev M. Multi-Loop Adaptive Control of Mobile Objects in Solving Trajectory Tracking Tasks. Automation and Remote Control. 2020. vol. 81. pp. 2078–2093. doi: 10.1134/S0005117920110090.
  4. Shih P., Kaul B., Jagannathan S., Drallmeier J. Near Optimal Output-Feedback Control of Nonlinear Discrete-Time Systems in Nonstrict Feedback Form with Application to Engines. IEEE International Joint Conference on Neural Networks. 2007. pp. 396–401.
  5. Xu B., Yang C., Shi Z. Reinforcement Learning Output Feedback NN Control Using Deterministic Learning Technique. IEEE Transactions on Neural Networks and Learning Systems. 2014. vol. 25(3). pp. 635–641. doi: 10.1109/TNNLS.2013.2292704.
  6. Mu C., Ni Z., Sun C., He H. Data-Driven Tracking Control with Adaptive Dynamic Programming for a Class of Continuous-Time Nonlinear Systems. IEEE Transactions on Cybernetics. 2016. vol. 47(6). pp. 1460–1470.
  7. Wang A., Liao X., Dong T. Event-Driven Optimal Control for Uncertain Nonlinear Systems with External Disturbance via Adaptive Dynamic Programming. Neurocomputing. 2018. vol. 281. pp. 188–195.
  8. Kim J.W., Oh T.H., Son S.H., Jeong D.H., Lee J.M. Convergence Analysis of the Deep Neural Networks Based Globalized Dual Heuristic Programming. Automatica. 2020. vol. 122.
  9. Luo B., Yang Y., Liu D., Wu H.-N. Event-Triggered Optimal Control with Performance Guarantees Using Adaptive Dynamic Programming. IEEE Transactions on Neural Networks and Learning Systems. 2019. vol. 31(1). pp. 76–88.
  10. Yang X., Xu M., Wei Q. Dynamic Event-Sampled Control of Interconnected Nonlinear Systems Using Reinforcement Learning. IEEE Transactions on Neural Networks and Learning Systems. 2022. vol. 35(1). pp. 923–937. doi: 10.1109/TNNLS.2022.3178017.
  11. Zhang H., Zhao X., Wang H., Zong G., Xu N. Hierarchical Sliding-Mode Surface-Based Adaptive Actor-Critic Optimal Control for Switched Nonlinear Systems With Unknown Perturbation. IEEE Transactions on Neural Networks and Learning Systems. 2022. vol. 35(2). pp. 1559–1571. doi: 10.1109/TNNLS.2022.3183991.
  12. Dong C., Chen L., Dai S.-L. Performance-Guaranteed Adaptive Optimized Control of Intelligent Surface Vehicle Using Reinforcement Learning. IEEE Transactions on Intelligent Vehicles. 2023. vol. 9. no. 2. pp. 3581–3592. doi: 10.1109/TIV.2023.3338486.
  13. Dao P.N., Phung M.H. Nonlinear Robust Integral Based Actor-Critic Reinforcement Learning Control for a Perturbed Three-Wheeled Mobile Robot with Mecanum Wheels. Computers and Electrical Engineering. 2025. vol. 121. doi: 10.1016/j.compeleceng.2024.109870.
  14. Berkenkamp F., Turchetta M., Schoellig A., Krause A. Safe Model-Based Reinforcement Learning with Stability Guarantees. Advances in Neural Information Processing Systems. 2017. vol. 30. pp. 908–918.
  15. Thananjeyan B., Balakrishna A., Rosolia U., Li F., McAllister R., Gonzalez J.E., Levine S., Borrelli F., Goldberg K. Safety Augmented Value Estimation From Demonstrations (SAVED): Safe Deep Model-Based RL for Sparse Cost Robotic Tasks. IEEE Robotics and Automation Letters. 2020. vol. 5(2). pp. 3612–3619.
  16. Zanon M., Gros S. Safe Reinforcement Learning Using Robust MPC. IEEE Transactions on Automatic Control. 2020. vol. 66(8). pp. 3638–3652. doi: 10.1109/TAC.2020.3024161.
  17. Cheng R., Orosz G., Murray R.M., Burdick J.W. End-to End Safe Reinforcement Learning through Barrier Functions for Safety Critical Continuous Control Tasks. Proceedings of the AAAI Conference on Artificial Intelligence (AAAI-19). 2019. vol. 33. no. 01. pp. 3387–3395.
  18. Choi J., Castaneda F., Tomlin C.J., Sreenath K. Reinforcement Learning for Safety-Critical Control Under Model Uncertainty, Using Control Lyapunov Functions and Control Barrier Functions. Conference Robotics: Science and Systems. 2020.
  19. Han M., Zhang L., Wang J., Pan W. Actor-Critic Reinforcement Learning for Control With Stability Guarantee. IEEE Robotics and Automation Letters. 2020. vol. 5(4). pp. 6217–6224.
  20. Боровик В.С., Шидловский С.В. Обучение с подкреплением в системах управления объектами с транспортным запаздыванием. Автометрия. 2021. Т. 57(3). С. 48–57.
  21. Галяев А.А., Медведев А.И., Насонов И.А. Нейросетевой алгоритм перехвата машиной Дубинса целей, движущихся по известным траекториям. Автоматика и телемеханика. 2023. № 3. С. 3–21.
  22. Хапкин Д.Л., Феофилов С.В. Синтез устойчивых нейросетевых регуляторов для объектов с ограничителями в условиях неполной информации. Мехатроника, автоматизация, управление. 2024. Т. 25(7). С. 345–353. doi: 10.17587/mau.25.345-353.
  23. Фаворская М.Н., Пахирка А.И. Восстановление аэрофотоснимков сверхвысокого разрешения с учетом семантических особенностей. Информатика и автоматизация. 2024. Т. 23(4). С. 1047–1076. doi: 10.15622/ia.23.4.5.
  24. Чен Х., Игнатьева С.А., Богуш Р.П., Абламейко С.В. Повторная идентификация людей в системах видеонаблюдения с использованием глубокого обучения: анализ существующих методов. Автоматика и телемеханика. 2023. № 5. C. 61–112. doi: 10.31857/S0005231023050057.
  25. Понимаш З.А., Потанин М.В. Метод и алгоритм извлечения признаков из цифровых сигналов на базе нейросетей трансформер. Известия ЮФУ. Технические науки. 2024. № 6. C. 52–64. doi: 10.18522/2311-3103-2024-6-52-64.
  26. Голубинский А.Н., Толстых А.А., Толстых М.Ю. Автоматическая генерация аннотаций научных статей на основе больших языковых моделей. Информатика и автоматизация. 2025. Т. 24(1). С. 275–301. doi: 10.15622/ia.24.1.10.
  27. Hamdan N., Medvedev M., Pshikhopov V. Method of Motion Path Planning Based on a Deep Neural Network with Vector Input. Mekhatronika, Avtomatizatsiya, Upravlenie. 2024. vol. 25(11). pp. 559–567. doi: 10.17587/mau.25.559-567.
  28. Gaiduk A.R., Martjanov O.V., Medvedev M.Yu., Pshikhopov V.Kh., Hamdan N., Farhood A. Neural network based control system for robots group operating in 2-d uncertain environment. Mekhatronika, Avtomatizatsiya, Upravlenie. 2020. vol. 21(8). pp. 470–479. doi: 10.17587/mau.21.470-479.
  29. Жилов Р.А. Постройка ПИД-регулятора с использованием нейронных сетей // Известия Кабардино-Балкарского научного центра РАН. 2022. № 5(109). С. 38–47. doi: 10.35330/1991-6639-2022-5-109-38-47.
  30. Карапеев А.Н., Косенко Е.Ю., Медведев М.Ю., Пшихопов В.Х. Исследование интеллектуального адаптивного алгоритма управления на базе метода обучения с подкреплением. Известия ЮФУ. Технические науки. 2025. № 2. С. 162–175.

Arquivos suplementares

Arquivos suplementares
Ação
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».