Разработка системы управления курсом беспилотного автомобиля на основе обучения с подкреплением

Обложка

Цитировать

Полный текст

Аннотация

Рост развития автономного транспорта связан с повышением безопасности на дорогах, снижением столкновений и повышением эффективности логистических операций. На безопасность также влияет такой фактор, как усложнение дорожных условий и задач, связанных с навигацией и управлением автомобиля, и поэтому традиционные алгоритмы управления оказываются недостаточно качественными и эффективными.

Цель исследования – разработка интеллектуальной системы, которая позволяет автономному транспортному средству самостоятельно управлять курсом движения автономного агента (модель автомобиля), который обучается навигации и следованию по заданному курсу с помощью обучения с подкреплением на основе взаимодействия с имитационной средой методом актер-критик.

Материалы и методы. В данной работе для реализации и обучения модели с подкреплением использовалась библиотека Stable-Baselines3 (SB3), построенная на фреймворке PyTorch. В качестве среды обучения использовался симулятор DonkayCar. Для повышения скорости и эффективности обучения был применен алгоритм шумоподавляющего автокодера для выделения зоны интереса.

Результаты. В рамках исследования была проведена серия сравнительных тестов, направленных на оценку влияния различных параметров эффективности обучения модели – ограничение скорости, ограничение угла поворота колес, ширины допустимого отклонения, непрерывности движения, коэффициента дисконтирования, частоты отрисовки кадров.

Выводы. Результаты исследования позволяют сделать выводы о потенциале использования обучения с подкреплением в сфере автономного транспорта, включая необходимость дообучения модели на реальных данных, перспективы масштабирования на транспортные средства различного класса, ограничения, связанные с вычислительными ресурсами и необходимостью безопасной верификации поведения.

Об авторах

А. Е. Ушаков

Московский государственный технологический университет «СТАНКИН»

Email: ushakov_ae@internet.ru
ORCID iD: 0009-0006-1467-5043
SPIN-код: 5174-7378

аспирант, инженер-исследователь кафедры «Роботехника и мехатроника»

Россия, 127055, Россия, Москва, Вадковский пер., 1

М. М. Стебулянин

Московский государственный технологический университет «СТАНКИН»

Email: mmsteb@rambler.ru
ORCID iD: 0009-0007-3443-0593
SPIN-код: 4389-1120

д-р техн. наук, профессор, заведующий кафедрой «Роботехника и мехатроника»

Россия, 127055, Россия, Москва, Вадковский пер., 1

М. А. Шереужев

Московский государственный технологический университет «СТАНКИН

Автор, ответственный за переписку.
Email: shereuzhev@bmstu.ru
ORCID iD: 0000-0003-2352-992X
SPIN-код: 1734-9056

кан. тех. наук, доцент кафедры «Роботехника и мехатроника»

Россия, 127055, Россия, Москва, Вадковский пер., 1

Ф. В. Девяткин

Московский государственный технический университет имени Н. Э. Баумана; Московский государственный технологический университет «СТАНКИН»

Email: feodor-dev@ya.ru
ORCID iD: 0009-0000-2639-9521
SPIN-код: 7738-5724

аспирант кафедры СМ7 «Робототехнические системы и мехатроника»; инженер

Россия, 105005, Россия, Москва, 2-я Бауманская улица, 5; 127055, Россия, Москва, Вадковский пер., 1

Список литературы

  1. Сыркин И. С., Дубинкин Д. М., Юнусов И. Ф., Ушаков А. Е. Системы управления автономного карьерного самосвала // Россия молодая: сб. материалов XIV Всероссийской науч.-практ. конф. с междунар. участием, Кемерово, 19–21 апр. 2022 г. Кемерово: Кузбасский гос. техн. ун-т им. Т. Ф. Горбачева, 2022. С. 420071–420078. EDN: CXHGOK
  2. Toromanoff M., Wirbel E., Moutarde F. End-to-end model-free reinforcement learning for urban driving using implicit affordances. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2020. С. 7151–7160. doi: 10.1109/CVPR42600.2020.00718
  3. Sauer A., Savinov N., Geiger A. Conditional affordance learning for driving in urban environments. Proceedings of the Conference on Robot Learning (CoRL). 2018. doi: 10.48550/arXiv.1806.06498
  4. Шереужев М. А., У Го, Серебренный В. В. Модификация алгоритма глубокого обучения для распределения функций и задач между робототехническим комплексом и человеком в условиях неопределенности и переменности окружающей среды // Известия Кабардино-Балкарского научного центра РАН. 2024. Т. 26. № 6. С. 208–218. doi: 10.35330/1991-6639-2024-26-6-208-218.
  5. Tampuu A., Semikin M., Muhammad N. et al. Survey of end-to-end driving: Architectures and training methods: arXiv preprint arXiv:2003.06404. 2020.
  6. Lyutikova L.A. Application of a machine learning method for the analysis of incomplete data. News of the Kabardino-Balkarian Scientific Center of RAS. 2024. Vol. 26. No. 6. Pp. 139–145. doi: 10.35330/1991-6639-2024-26-6-139-145. (In Russian)
  7. Шереужев М. А., Арабаджиев Д. И., Семянников И. В. Моделирование алгоритма предотвращения столкновений в робототехнических коллаборативных системах // Известия Кабардино-Балкарского научного центра РАН. 2024. Т. 26. № 6. С. 67–81. doi: 10.35330/1991-6639-2024-26-6-67-81.
  8. He K., Zhang X., Ren S., Sun J. Deep residual learning for image recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas (NV), 2016. Pp. 770–778. doi: 10.1109/CVPR.2016.90
  9. Петренко В. И. Классификация задач мультиагентного обучения с подкреплением // Известия Кабардино-Балкарского научного центра РАН. 2021. Т. 3. № 101. С. 32–44. doi: 10.35330/1991-6639-2021-3-101-32-44.
  10. Коул А., Ганджу С., Казам М. Искусственный интеллект и компьютерное зрение: реальные проекты на Python, Keras и TensorFlow. Санкт-Петербург: Питер, 2019. 356 с. ISBN: 978-1-492-04305-0.
  11. Ушаков А. Е., Стебулянин М. М. Исследование параметров обучения модели для системы управления курсом движения // Интернаука: электронный научный журнал. 2025. № 1-3(365). С. 53–57. EDN: OXPGLQ
  12. Ушаков А. Е. Использование симулятора для исследования технологий автономного движения // Российская наука в современном мире: сборник статей LXVII международной научно-практической конференции, Москва, 15 января 2025 г. М.: Актуальность. РФ, 2025. С. 155–158. EDN: JFUWYO
  13. Sutton R.S., Barto A.G. Reinforcement Learning: An Introduction. Cambridge, MA: MIT Press, 2018. 552 с.
  14. Liang X., Wang T., Yang L., Xing E. CIRL: Controllable imitative reinforcement learning for vision-based self-driving. Proceedings of the European Conference on Computer Vision (ECCV). 2018. doi: 10.48550/arXiv.1807.03776
  15. Шереужев М. А., Шереужев М. А., Кишев А. Ю. Вопросы выбора системы технического зрения сельскохозяйственных робототехнических комплексов для контроля сорной растительности // Известия Кабардино-Балкарского научного центра РАН. 2022. № 4(108). С. 84–95. doi: 10.35330/1991-6639-2022-4-108-84-95
  16. Chen D., Zhou B., Koltun V., Krähenbühl P. Learning by Cheating: arXiv preprint arXiv:1912.12294. 2019

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

© Ушаков А.Е., Стебулянин М.М., Шереужев М.А., Девяткин Ф.В., 2025

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution 4.0 International License.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».