ISSN 0021-3454 (печатная версия)
ISSN 2500-0381 (онлайн версия)
Меню

12
Содержание
том 68 / Декабрь, 2025
СТАТЬЯ

DOI 10.17586/0021-3454-2025-68-12-1034-1045

УДК 004.896

СТРУКТУРИРОВАННОЕ ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ ДЛЯ ОПТИМАЛЬНОГО ПО ВРЕМЕНИ ПОЛЕТА КВАДРОКОПТЕРА

Бархум М. .
Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация; аспирант


Пыркин А. А.
Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация; профессор

Ссылка для цитирования : Бархум М., Пыркин А. А. Структурированное обучение с подкреплением для оптимального по времени полета квадрокоптера // Изв. вузов. Приборостроение. 2025. Т. 68, № 12. С. 1034–1045 (In English). DOI: 10.17586/0021-3454-2025-68-12-1034-1045.

Аннотация. Проблема синтеза реактивного, оптимального по времени управления для квадрокоптеров усугубляется их сложной неполноприводной динамикой и практической невозможностью точного решения краевых задач на борту в реальном времени. Для преодоления этих проблем предложен фреймворк обучения с подкреплением, позволяющий агенту автономно осваивать стратегии точного достижения путевых точек в свободном пространстве. Центральными элементами предлагаемого подхода являются: (1) новаторская каскадная архитектура актора, заимствующая концепцию раздельного управления позицией и скоростью; (2) продуманная композитная функция вознаграждения с ключевыми радиальными слагаемыми скорости и ускорения, направляющая агента на максимально быстрое продвижение к цели и выполнение (bang-bang-like) маневров с высокой энергетической эффективностью. Результаты всестороннего количественного сравнения с современными методами подтверждают превосходство: агент обеспечивает плавность управляющих сигналов, что гарантирует оптимальность траекторий по времени и их соответствие заданному маршруту с минимальными отклонениями.
Ключевые слова: квадрокоптеры, обучение с подкреплением, автономная навигация, оптимальная траектория, нейронные сети

Благодарность: статья подготовлена при финансовой поддержке Министерства науки и высшего образования Российской Федерации, проект № FSER-2025-0002 и Университета ИТМО, проект НИРСИИ № 640112.

Список литературы:
  1. Richter C., Bry A., and Roy N. Polynomial trajectory planning for aggressive quadrotor flight in dense indoor environments // Intern. Symposium of Robotics Research. 2016. Р. 649–666. DOI:10.1007/978-3-319-28872-7_37.
  2. Foehn P., Romero A., and Scaramuzza D. Time-optimal planning for quadrotor waypoint flight // Science Robotics. 2021. Vol. 56, N 6. DOI:10.1126/scirobotics.abh1221.
  3. Pˇeniˇcka R. and Scaramuzza D. Minimum-time quadrotor waypoint flight in cluttered environments // IEEE robotics automation letters. 2022. arXiv:2202.03947v1 [cs.RO].
  4. Romero A., Sun S., Foehn P., and Scaramuzza D. Model predictive contouring control for time-optimal quadrotor flight // IEEE Transactions on Robotics. 2022. Vol. 99. P. 1–17. DOI:10.1109/TRO.2022.3173711.
  5. Khojasteh M. S. and Salimi-Badr A. Autonomous quadrotor path planning through deep reinforcement learning with monocular depth estimation // IEEE Open Journal of Vehicular Technology. 2025. Vol. 99, N 6. P. 34–51. DOI:10.1109/ OJVT.2024.3502296.
  6. Zhong L., Zhao J., Luo H., and Hou Z. Hybrid path planning and following of a quadrotor UAV based on deep reinforcement learning // Chinese Control and Decision Conference. Under Review, Xi’an, China, May 25–27, 2024.
  7. Tsai T.-H. and Li Q. Quadrotor mapless navigation in static and dynamic environments based on deep reinforcement learning // 3rd Intern. Conf. on Industrial Artificial Intelligence (IAI). 2021. DOI:10.1109/IAI53119.2021.9619200.
  8. Wang J., Wang T., He Z., He Z., Cai W., and Sun C. Towards better generalization in quadrotor landing using deep reinforcement learning // Applied Intelligence. 2022. Vol. 53, N 1. DOI:10.1007/s10489-022-03503-6.
  9. Li X., Yu H., Hu M., Xiao L., Han J., and Fang Y. Immersion and invariance-based adaptive control for quadrotor transportation systems using deep reinforcement learning // Intern. Conf. on Advanced Robotics and Mechatronics. Guilin, China, July 09–11, 2022. P. 1076–1081. DOI: 10.1109/ICARM54641.2022.9959439.
  10. Himanshu K., Kumar H., and Pushpangathan J. V. Waypoint navigation of quadrotor using deep reinforcement learning // IFAC PapersOnLine. 2022. Vol. 55, N 22. P. 281–286. DOI:10.1016/j.ifacol.2023.03.047.
  11. Mokhtar M. and El-Badawy A. Autonomous navigation and control of a quadrotor using deep reinforcement learning // Intern. Conf. on Unmanned Aircraft Systems. 2023. DOI:10.1109/ICUAS57906.2023.10156126.
  12. Trad T. Y., Choutri K., Lagha M., Meshoul S., Khenfri F., Fareh R., and Shaiba H. Real-time implementation of quadrotor uav control system based on a deep reinforcement learning approach // Computers, Materials amp; Continua. 2024. Vol. 81, N 3. P. 4757–4786. DOI:10.32604/cmc.2024.055634.
  13. Wang Y., Sun J. L., He H., and Sun C. Deterministic policy gradient with integral compensator for robust quadrotor control // IEEE Transactions on Systems, Man, and Cybernetics. 2020. Vol. 50, N 10. P. 3713–3725.
  14. Lopez-Sanchez I. and Moreno-Valenzuela J. Pid control of quadrotor uavs: A survey // Annual Reviews in Control. 2023. Vol. 56. Р. 100900. DOI: 10.1016/j.arcontrol.2023.100900.
  15. Idrissi M., Salami M. R., and Annaz F. Y. A review of quadrotor unmanned aerial vehicles: Applications, architectural design and control algorithms // Journal of Intelligent and Robotic Systems. 2022. Vol. 104, N 2. P. 22. DOI: 10.1007/ s10846-021-01527-7.
  16. Ren Y., Zhu F., Sui S., Yi Z., and Chen K. Enhancing quadrotor control robustness with multi-proportional–integral– derivative self-attention-guided deep reinforcement learning // Drones. 2024. Vol. 8, N 7. P. 315. DOI:10.3390/ drones8070315.
  17. Rub´ı B., Morcego B., and P´erez R. A. Deep reinforcement learning for quadrotor path following with adaptive velocity // Autonomous Robots. 2021. Vol. 45. P. 119–134.
  18. Mien T., Tu T., and An V. Cascade pid control for altitude and angular position stabilization of 6-dof uav quadcopter // Intern. Journal of Robotics and Control Systems. 2024. Vol. 4, N 2. P. 814–831.
  19. Idres M., Mustapha O., and Okasha M. Quadrotor trajectory tracking using pid cascade control // IOP Conf. Series: Materials Science and Engineering. 2017. Vol. 270, N 1. P. 012010.
  20. Noordin A., Basri M. A. M., Mohamed Z., and Lazim I. M. Adaptive pid controller using sliding mode control approaches for quadrotor uav attitude and position stabilization // Arabian Journal for Science and Engineering. 2020. Vol. 46. Р. 963–981.
  21. Shah S., Dey D., Lovett C., and Kapoor A. Airsim: High-fidelity visual and physical simulation for autonomous vehicles // Field and Service Robotics. 2017 [Электронный ресурс]: .