首页> 中文期刊> 《机器人》 >基于TS-TD3的动态环境端到端无地图导航方法

基于TS-TD3的动态环境端到端无地图导航方法

         

摘要

针对基于地图的移动机器人导航框架部署在动态复杂环境时出现的问题,提出一种基于时序-双延迟深度确定性策略梯度(TS-TD3)的无地图导航方法。首先,将动态场景(具有环境部分可观测性)的导航任务定义为部分可观测马尔可夫决策过程(POMDP)。其次,引入经过长短期记忆组件处理的历史信息作为模型的输入,为策略网络的确定性策略梯度引入历史信息基准,以处理隐藏在环境观测集合中的状态信息,将关注导航动作时序关联性的评价标准引入评价网络。再次,通过专家经验网络在训练前期指导策略网络的输出,以规范导航动作。最后,建立演员-评论家框架的深度强化学习(DRL)端到端模型,根据传感器感知结果直接输出控制动作。与主流DRL方法进行对比实验,在仿真实验中,该方法运动轨迹自然、稳定、具有连续性,能处理多动态障碍物交汇情况,整体导航效果表现最优;在真实动态环境的测试中,模型未作调整直接部署在未知环境中,模型的导航效果和泛化性得到验证。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号