首页> 中文期刊> 《兵器装备工程学报》 >基于深度强化学习的多无人艇协同目标搜索算法

基于深度强化学习的多无人艇协同目标搜索算法

         

摘要

针对应用于海上多无人艇目标搜索任务的经典深度强化学习模型难以收敛且训练耗时长的问题,提出一种基于优先经验回放的异步确定性策略梯度模型。为提升模型收敛效果,引入一种基于优先级的经验回放机制,该机制可以有效提高高价值经验的利用率,从而避免算法收敛困难的问题。为进一步减少模型训练耗时长,引入异步学习的训练框架,该框架通过多子线程的同步训练参数更新主进程网络,有效提高了模型训练效率。在MPE仿真环境对提出的PA-MADDPG算法与MADDPG、MAPPO和PER-MADDPG算法进行对比实验,结果表明:提出模型在1000~1200回合就达到收敛,经过1000回合左右训练智能体总碰撞次数就趋于0,相较于其他算法任务成功率提高了5%~10%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号