首页> 中文期刊> 《电光与控制》 >基于强化学习的多无人飞行器避碰决策方法

基于强化学习的多无人飞行器避碰决策方法

         

摘要

随着低空空域环境的日益复杂,执行任务的无人飞行器间发生冲突的概率不断增加。针对传统强化学习算法SAC,DDPG在解决有限空域内多无人飞行器间的避碰问题上存在收敛速度慢、收敛不稳定等缺陷,提出了一种基于PPO2算法的多智能体强化学习(MARL)方法。首先,将多无人飞行器飞行决策问题描述为马尔可夫决策过程;其次,设计状态空间与奖励函数,通过最大化累计奖赏来优化策略,使整体训练更加稳定、收敛更快;最后,基于深度学习TensorFlow框架和强化学习Gym环境搭建飞行模拟场景,进行仿真实验。实验结果表明,所提方法相较于基于SAC和DDPG算法的方法,避碰成功率分别提高约37.74和49.15个百分点,能够更好地解决多无人飞行器间的避碰问题,在收敛速度和收敛稳定性方面更优。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号