Методика построения управления космическими аппаратами с использованием методов обучения с подкреплением

Capa

Citar

Texto integral

Acesso aberto Acesso aberto
Acesso é fechado Acesso está concedido
Acesso é fechado Somente assinantes

Resumo

В работе формулируется методика сведения общей задачи оптимального управления космическими аппаратами к задаче машинного обучения с подкреплением. Методика включает метод оценки качества алгоритма управления на основе неравенств теории вероятностей. Представлена авторская программная библиотека для сведения задач оптимального управления к обучению с подкреплением. Рассматривается два примера применения методики. Предлагаемая методика может представлять интерес также для построения управления общими механическими системами.

Texto integral

Acesso é fechado

Sobre autores

М. Широбоков

Институт прикладной математики им. М.В. Келдыша РАН

Autor responsável pela correspondência
Email: shirobokov@keldysh.ru
Rússia, Москва

Bibliografia

  1. Понтрягин Л.В. Принцип максимума в оптимальном управлении. Москва: Едиториал УРСС, 2004.
  2. Александров В.В., Болтянский В.Г., Лемак С.С. и др. Оптимальное управление движением. Москва: ФИЗМАТЛИТ, 2005.
  3. Егоров А.И. Основы теории управления. Москва: ФИЗМАТЛИТ, 2004.
  4. Беллман Р., Калаба Р. Динамическое программирование и современная теория управления. Москва: Наука, 1969.
  5. Bertsekas D.P. Dynamic programming and optimal control. Volume I. Belmont: Athena Scientific, 2005.
  6. Bertsekas D.P. Dynamic programming and optimal control. Volume II. Belmont: Athena Scientific, 2007.
  7. Саттон Р.С., Барто Э.Г. Обучение с подкреплением. Москва: Бином. Лаборатория знаний, 2017.
  8. Bertsekas D.P. Reinforcement learning and optimal control. Belmont: Athena Scientific, 2019.
  9. Kamalapurkar R., Walters P., Rosenfeld J. et al. Reinforcement Learning for Optimal Feedback Control. A Lyapunov-Based Approach. Cham: Springer, 2018.
  10. Gurfil P., Idan M., Kasdin N.J. Adaptive neural control of deep-space formation flying // J. Guidance, Control, and Dynamics. 2003. V. 26. Iss. 3. P. 491–501. DOI: https://dx.doi.org/10.2514/2.5072.
  11. Leeghim H., Choi Y., Bang H. Adaptive attitude control of spacecraft using neural networks // Acta Astronautica. 2009. V. 64. Iss. 7–8. P. 778–786. DOI: https://dx.doi.org/10.1016/j.actaastro.2008.12.004.
  12. Zeng W., Wang Q. Learning from adaptive neural network control of an underactuated rigid spacecraft // Neurocomputing. 2015. V. 168. P. 690–697. DOI: https://dx.doi.org/10.1016/j.neucom.2015.05.055.
  13. Li S., Jiang X. RBF neural network based second-order sliding mode guidance for Mars entry under uncertainties // Aerospace Science and Technology. 2015. V. 43. P. 226–235. DOI: https://dx.doi.org/10.1016/j.ast.2015.03.006}{10.1016/j.ast.2015.03.006.
  14. Wang C., Hill D.J. Deterministic learning theory for identification, recognition, and control. Boca Raton: CRC Press, 2010.
  15. Bertsekas D.P, Tsitsiklis J.N. Neuro-Dynamic Programming. Belmont: Athena Scientific, 1996.
  16. Shirobokov M., Trofimov S., Ovchinnikov M. Survey of machine learning techniques in spacecraft control design // Acta Astronautica. 2021. V. 186. P. 87–97. DOI: https://doi.org/10.1016/j.actaastro.2021.05.018.
  17. Gaudet B., Linares R., Furfaro R. Terminal adaptive guidance via reinforcement meta-learning: Applications to autonomous asteroid close-proximity operations // Acta Astronautica. 2020. V. 171. P. 1–13. DOI: https://doi.org/10.1016/j.actaastro.2020.02.036.
  18. Gaudet B., Linares R., Furfaro R. Adaptive guidance and integrated navigation with reinforcement meta-learning // Acta Astronautica. 2020. V. 169. P. 180–190. DOI: https://doi.org/10.1016/j.actaastro.2020.01.007.
  19. Scorsoglio A., D’Ambrosio A., Ghilardi L. et al. Image-based deep reinforcement meta-learning for autonomous lunar landing // J. Spacecraft and Rockets. 2022. V. 59. Iss. 1. P. 153–165. DOI: https://doi.org/10.2514/1.A35072.
  20. Gaudet B., Linares R., Furfaro R. Six degree-of-freedom body-fixed hovering over unmapped asteroids via LIDAR altimetry and reinforcement meta-learning // Acta Astronautica. 2020. V. 172. P. 90–99. DOI: https://doi.org/10.1016/j.actaastro.2020.03.026.
  21. Лидов М.Л., Ляхова В.А. Гарантирующий синтез управления для стабилизации движения космического аппарата в окрестности неустойчивых точек либрации // Космические исследования. 1992. Т. 30. № 5. С. 579–595.
  22. Silver D., Lever G., Heess N. et al. Deterministic policy gradient algorithms // Proc. 31st International Conference on Machine Learning. 2014. V. 32. Iss. 1. P. 387–395. URL: http://proceedings.mlr.press/v32/silver14.html.
  23. Mnih V., Badia A.P., Mirza M. et al. Asynchronous Methods for Deep Reinforcement Learning // Proc. 33rd International Conference on Machine Learning. 2016. V. 48. P. 1928–1937. URL: https://proceedings.mlr.press/v48/mniha16.html.
  24. Schulman J., Wolski F., Dhariwal P. et al. Proximal Policy Optimization Algorithms // arXiv preprint. 2017. 1707.06347. URL: https://arxiv.org/abs/1707.06347.
  25. Moriarty D.E., Schultz A.C., Grefenstette J.J. Evolutionary algorithms for reinforcement learning // J. Artificial Intelligence Research. 1999. V. 11. P. 241–276.
  26. Sehgal A., La H., Louis S. et al. Deep reinforcement learning using genetic algorithm for parameter optimization // Proc. 3d IEEE International Conference on Robotic Computing (IRC 2019). P. 596–601. DOI: https://doi.org/10.1109/IRC.2019.00121.
  27. Sutton R.S., McAllester D.A., Singh S.P. et al. Policy gradient methods for reinforcement learning with function approximation // Advances in Neural Information Processing Systems 12 (NIPS 1999). 1999. P. 1057–1063. URL: https://proceedings.neurips.cc/paper/1999/file/464d828b85b0bed98e80ade0a5c43b0f-Paper.pdf.
  28. Cybenko G. Approximation by superpositions of a sigmoidal function // Mathematics of Control, Signals, and Systems. 1989. V. 2. Iss. 4. P. 303–314. DOI: https://doi.org/10.1007/BF02551274.
  29. Leshno M., Lin V.Ya., Pinkus A. et al. Multilayer feedforward networks with a nonpolynomial activation function can approximate any function // Neural Networks. 1993. V. 6. Iss. 6. P. 861–867. DOI: https://doi.org/10.1016/S0893-6080(05)80131-5.
  30. Pinkus A. Approximation theory of the MLP model in neural networks // Acta Numerica. 1999. V. 8. P. 143–195. DOI: https://doi.org/10.1017/S0962492900002919.
  31. Kidger P., Lyons T. Universal Approximation with Deep Narrow Networks // Proc. Machine Learning Research. 2020. V. 125. P. 1–22. URL: http://proceedings.mlr.press/v125/kidger20a/kidger20a.pdf.
  32. Hoeffding W. Probability inequalities for sums of bounded random variables // J. American Statistical Association. 1963. V. 58. Iss. 301. P. 13–30. DOI: https://doi.org/10.1080/01621459.1963.10500830.
  33. Gymnasium // Веб-страница документации программной библиотеки Gymnasium (https://gymnasium.farama.org/index.html). Просмотрено: 18.09.2023.
  34. Stable-Baselines3 // Веб-страница документации программной библиотеки Stable-Baselines3 (https://stable-baselines3.readthedocs.io/en/master/). Просмотрено: 18.09.2023.
  35. Pytorch // Сайт программной библиотеки Pytorch (https://pytorch.org/). Просмотрено: 18.09.2023.
  36. Jones D.R., Schonlau M., Welch W.J. Efficient global optimization of expensive black-box functions // Journal of Global optimization. 1998. V. 13. P. 455–492. DOI: https://doi.org/10.1023/A:1008306431147.
  37. Bergstra J.S., Bardenet R., Bengio Y. et al. Algorithms for Hyper-Parameter Optimization // Advances in Neural Information Processing Systems 24 (NIPS 2011). 2011. P. 2546–2554. URL: https://papers.nips.cc/paper_files/paper/2011/file/86e8f7ab32cfd12577bc2619bc635690-Paper.pdf.
  38. Akiba T., Sano S., Yanase T. et al. Optuna: A next-generation hyperparameter optimization framework // Proc. 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2019. P. 2623–2631. DOI: https://doi.org/10.1145/3292500.3330701.
  39. Liaw R., Liang E., Nishihara R. et al. Tune: A research platform for distributed model selection and training // arXiv preprint. 2018. 1807.05118. URL: https://arxiv.org/pdf/1807.05118.pdf.
  40. Balandat M., Karrer B., Jiang D. et al. BoTorch: A framework for efficient Monte-Carlo Bayesian optimization // Advances in Neural Information Processing Systems 33. 2020. P. 21524–21538. URL: https://proceedings.neurips.cc/paper/2020/file/f5b1b89d98b7286673128a5fb112cb9a-Paper.pdf.
  41. Bergstra J., Yamins D., Cox D.D. Making a Science of Model Search: Hyperparameter Optimization in Hundreds of Dimensions for Vision Architectures // Proc. 30th International Conference on Machine Learning. 2013. V. 28. P. 115–123. URL: http://proceedings.mlr.press/v28/bergstra13.pdf.
  42. Hairer E., Wanner G. Solving Ordinary Differential Equations I. Nonstiff Problems. Heidelberg: Springer, 2008.
  43. Folta D.C., Pavlak T.A., Haapala A.F. et al. Earth–Moon Libration Point Orbit Stationkeeping: Theory, Modeling, and Operations // Acta Astronautica. 2014. V. 94. Iss. 1. P. 421–433.

Arquivos suplementares

Arquivos suplementares
Ação
1. JATS XML
2. Fig. 1. The strategy learning process.

Baixar (29KB)
3. Fig. 2. Optimal (blue) and approximate (red) control functions.

Baixar (10KB)
4. Fig. 3. Optimal (blue) and approximate (red) value functions.

Baixar (11KB)
5. Fig. 4. Halo orbit (blue), in the vicinity of which the motion of the spacecraft is considered. The projections of the orbit on the xy, xz, and yz planes are shown in gray.

Baixar (23KB)
6. Fig. 5. Average reward per episode depending on the step.

Baixar (16KB)
7. Figure 6. The standard deviation of the value function model from the average total rewards.

Baixar (17KB)

Declaração de direitos autorais © Russian Academy of Sciences, 2024

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».