New approaches to the approximation of solutions in machine learning

Cover Page

Cite item

Full Text

Abstract

Machine learning tasks focused on determining the laws of control of robots with complex locomotion are considered. The exponential computational complexity of such tasks is shown when using existing methods, in particular, reinforcement learning. The theoretical possibility of finding a multidimensional control function based on differential-algebraic equations of the dynamics of such systems is substantiated by varying the selected subset of the coupling equations. The possibility of a significant reduction in the dimension of the parameter space of the optimization problem on this basis is analyzed. Examples of the proposed method use for solving problems of the dynamics of machines, zoomorphic and anthropomorphic robots are given. The compatibility of the proposed mathematical method with neuromorphic dynamic systems used as a kernel in reservoir computing is shown. The fundamental admissibility of designing hardware for implementing reservoir computing on this basis is shown.

About the authors

Aleksandr S. Gorobtsov

Volgograd State Technical University; A. A. Blagonravov Institute of Mechanical Engineering RAS

Author for correspondence.
Email: vm@vstu.ru

Doctor of technical sciences, professor, Head of the Department of Higher Mathematics, Chief Researcher

Russian Federation, Volgograd; Moscow

Evgeny N. Ryzhov

Volgograd State Technical University

Email: vm@vstu.ru

Candidate of physical and mathematical sciences, Assistant Professor

Russian Federation, Volgograd

Yulia A. Orlova

Volgograd State Technical University

Email: yulia.orlova@gmail.com

Doctor of technical sciences, docent, Head of the Department

Russian Federation, Volgograd

Anastasia R. Donsckaia

Volgograd State Technical University

Email: donsckaia.anastasiya@yandex.ru

Senior Lecturer

Russian Federation, Volgograd

References

  1. Visilter Yu., Gorbatsevich V., Zheltov S. Strukturno- funktsional′nyy analiz i sintez glubokikh konvolyutsionnykh neyronnykh setey [Structural and functional analysis and synthesis of deep convolution neural networks] // Komp′yuternaya Optika [Computer Optics]. 2019. V. 43. P. 886-900.
  2. Gorobtsov A. Obobshchennaya zadacha dinamicheskogo uravnoveshivaniya i perspektivnyye napravleniya yeye primeneniya [Generalized dynamic balancing problem and promising directions of its application] // Izvestiya Vysshikh Uchebnykh Zavedeniy. Mashinostroyeniye [ BMSTU Journal of Mechanical Engineering]. 2023. P. 14-24.
  3. Gorobtsov A., Aleshin A., Rashoyan G., Skvortsov S., Shalyukhin K. Upravleniye soglasovannym dvizheniyem gruppy shagayushchikh robotov pri perenose gruza [Control of coordinated movement of a group of walking robots during cargo transfer] // Spravochnik. Inzhenernyy Zhurnal. [SPRAVOCHNIK. Inzhenernyi zhurnal]. 2019. P. 9-16.
  4. Gorobtsov A., Andreyev A., Markov A., Skorikov A., Tarasov P. Osobennosti resheniya uravneniy metoda obratnoy zadachi dlya sinteza ustoychivogo upravlyayemogo dvizheniya shagayushchikh robotov [Features of solving the equations of the inverse problem method for the synthesis of stable controlled motion of walking robots] // Informatika I Avtomatizatsiya [Informatics and Automation]. 2019. No 18. P. 85-122.
  5. FRUND – Sistema dlja reshenija nelinejnyh dinamicheskih uravnenij. [FRUND—A System for Solving Non-Linear Dynamic Equations] // Electronic resource. URL: http://frund.vstu.ru/ (accessed 24.10.2022).
  6. Agrawal S., Shen S., Panne M. Diverse motion variations for physics-based character animation // Proceedings Of The 12th ACM SIGGRAPH Eurographics Symposium On Computer Animation, 2013. Р. 37-44.
  7. Amirifar R., Sadati N. A low-order H00 controller design for an active suspension system via linear matrix inequalities // Journal Of Vibration And Control. 2004. V. 10. Р. 1181-1197.
  8. Bergamin K., Clavet S., Holden D., Forbes J. DReCon: data-driven responsive control of physics-based characters// ACM Transactions On Graphics (TOG). 2019. V. 38. P. 1-11.
  9. Chatzilygeroudis K., Cully A., Vassiliades V., Mouret J. Quality-Diversity Optimization: A Novel Branch of Stochastic Optimization // Black Box Optimization, Machine Learning, And No-Free Lunch Theorems. Springer. 2021. P. 109-135.
  10. Englsberger J., Werner A., Ott C., Henze B., Roa M., Garofalo G., Burger R., Beyer A., Eiberger O., Schmid K. Others Overview of the torque-controlled humanoid robot TORO // 2014 IEEE-RAS International Conference On Humanoid Robots. 2014. P. 916-923.
  11. Feng S., Whitman E., Xinjilefu X., Atkeson C. Optimization-based full body control for the darpa robotics challenge// Journal Of Field Robotics. 2015. V. 32. P. 293-312.
  12. Gorobtsov A., Kartsov S., Pletnev A., Polyakov Yu, A. Komp’yuternye metody postroeniya i issledovaniya matematicheskikh modeley dinamiki konstruktsiy avtomobiley [Computer methods of constructing and studying of mathematical models for car structural dynamics] // Mashinostroenie Publ. 201. P. 462.
  13. Gorobtsov A., Skorikov A., Tarasov P., Markov A., Andreev A. Methods of Increasing Service Minibots Functional Capabilities // Creativity In Intelligent Technologies And Data Science. Third Conference // CIT&DS. 2019. P. 191-202.
  14. Gorobtsov A., Sychev O., Orlova Yu., Smirnov E., Grigoreva O., Bochkin A., Andreeva M. Optimal Greedy Control in Reinforcement Learning // Sensors. 2022. P. 14.
  15. Guglielmino E., Sireteanu T., Stammers C., Ghita G., Giuclea M. Semi-active suspension control: improved vehicle ride and road friendliness // Springer Science & Business Media. 2008. P. 302.
  16. Haarnoja T., Ha S., Zhou A., Tan J., Tucker G., Levine S. Learning to walk via deep reinforcement learning // ArXiv Preprint. 2018.
  17. Haykin S. Neural Networks and Learning Machines // Prentice Hall. 2009. P. 906.
  18. Heess N., Tb D., Sriram S., Lemmon J., Merel J., Wayne G., Tassa Y., Erez T., Wang Z., Eslami S. Others Emergence of locomotion behaviours in rich environments // ArXiv Preprint. 2017.
  19. Hessel M., Modayil J., Van Hasselt H., Schaul T., Ostrovski G., Dabney W., Horgan D., Piot B., Azar M., Silver D. Rainbow: Combining improvements in deep reinforcement learning // Proceedings Of The AAAI Conference On Artificial Intelligence, 2018. V. 32. P. 14.
  20. Hochreiter S. Schmidhuber J. Long Short-Term Memory // Neural Computation. 1997. V. 9. P. 1735-1780.
  21. Karnopp D. Active damping in road vehicle suspension systems // Vehicle System Dynamics. 1983. V. 12. P. 291-311.
  22. Mania H., Guy A. Recht B. Simple random search provides a competitive approach to reinforcement learning // ArXiv Preprint. 2018.
  23. Maslennikov O.V., Pugavko M.M., Shchapin D.S., Nekorkin V.I. Nonlinear dynamics and machine learning of recurrent spiking neural networks // Uspekhi Fizicheskikh Nauk. 2021. V. 192. No 10. P. 1089-1109.
  24. Mnih V., Kavukcuoglu K., Silver D., Graves A., Antonoglou I., Wierstra D. Riedmiller M. Playing Atari with deep reinforcement learning // ArXiv Preprint. 2013.
  25. Mouret J., Maguire G. Quality diversity for multi-task optimization // Proceedings Of The 2020 Genetic And Evolutionary Computation Conference. 2020. V. 6. P. 9.
  26. Nakajima K., Fisher I. Reservoir Computing // Springer. 2021.
  27. Peters J., Schaal S. Reinforcement learning of motor skills with policy gradients. Neural Networks // The Official Journal Of The International Neural Network Society. 2008. V. 21. No 4. P. 682-97.
  28. Schulman J., Wolski F., Dhariwal P., Radford A., Klimov, O. Proximal Policy Optimization Algorithms // ArXiv Preprint. 2017.
  29. Siekmann J., Godse Y., Fern A., Hurst J. Sim-to-real learning of all common bipedal gaits via periodic reward composition // 2021 IEEE International Conference On Robotics And Automation (ICRA). 2021. P. 7309-7315.
  30. Silver D., Hubert T., Schrittwieser J., Antonoglou I., Lai M., Guez A., Lanctot M., Sifre L., Kumaran D., Graepel T. A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play // Science. 2018. V. 362. P. 1140-1144.
  31. Surana S., Lim B., Cully A. Efficient Learning of Locomotion Skills through the Discovery of Diverse Environmental Trajectory Generator Priors // ArXiv Preprint. 2022.
  32. Sutton R. Barto A.G. Reinforcement Learning // MIT Press. 2020. P. 547.
  33. Valueva M., Nagornov N., Lyakhov P., Valuev G., Chervyakov N. Application of the residue number system to reduce hardware costs of the convolutional neural network implementation // Mathematics and Computers in Simulation. 2020. V. 177. P. 232-243.
  34. Veselov G., Sinicyn A. Synthesis of nonlinear control law for car hydraulic suspension with regard kinematic constraints // 2019 12th International Conference On Developments In ESystems Engineering (DeSE). 2019. P. 704-708.
  35. Xie Z., Berseth G., Clary P., Hurst J., Panne M. Feedback Control For Cassie With Deep Reinforcement Learning // 2018 IEEE/RSJ International Conference On Intelligent Robots And Systems (IROS). 2018. P. 1241-1246.
  36. Yagiz N., Hacioglu Y., Taskin Y. Fuzzy sliding-mode control of active suspensions // IEEE Transactions On Industrial Electronics. 2008. V. 55. P. 3883-3890.

Supplementary files

Supplementary Files
Action
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».