基于TS-TD3的动态环境端到端无地图导航方法

姜杨; 曾铁文; 万东东; 吴成东

首页> 中文期刊> 《机器人》 >基于TS-TD3的动态环境端到端无地图导航方法

基于TS-TD3的动态环境端到端无地图导航方法

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

针对基于地图的移动机器人导航框架部署在动态复杂环境时出现的问题,提出一种基于时序-双延迟深度确定性策略梯度(TS-TD3)的无地图导航方法。首先,将动态场景(具有环境部分可观测性)的导航任务定义为部分可观测马尔可夫决策过程(POMDP)。其次,引入经过长短期记忆组件处理的历史信息作为模型的输入,为策略网络的确定性策略梯度引入历史信息基准,以处理隐藏在环境观测集合中的状态信息,将关注导航动作时序关联性的评价标准引入评价网络。再次,通过专家经验网络在训练前期指导策略网络的输出,以规范导航动作。最后,建立演员-评论家框架的深度强化学习(DRL)端到端模型,根据传感器感知结果直接输出控制动作。与主流DRL方法进行对比实验,在仿真实验中,该方法运动轨迹自然、稳定、具有连续性,能处理多动态障碍物交汇情况,整体导航效果表现最优;在真实动态环境的测试中,模型未作调整直接部署在未知环境中,模型的导航效果和泛化性得到验证。

著录项

来源
《机器人》 |2023年第6期|655-669|共15页
作者
姜杨; 曾铁文; 万东东; 吴成东;
展开▼
作者单位

东北大学机器人科学与工程学院;

辽宁沈阳110169;

展开▼
原文格式 PDF
正文语种 chi
中图分类机器人;
关键词
深度强化学习; 部分可观测马尔可夫决策过程; 确定性策略梯度; 动态环境; 无地图导航;

相似文献

中文文献
外文文献
专利

1. 基于多源传感器与导航地图的端到端自动驾驶方法 [J] . 朱波 ,张纪伟 ,谈东奎 . 汽车安全与节能学报 . 2022,第4期
2. 端对端的基于移动嵌入式端的车辆动态实时细粒度分类方法 [J] . 林皞 ,张琳 . 现代计算机（专业版） . 2017,第30期
3. 基于天地图的校园导航系统移动端的设计与开发 [J] . 钱康 ,荀启峰 ,柳盛 . 软件工程师 . 2014,第12期
4. 一种基于手绘地图的动态环境视觉导航方法 [J] . 李新德 ,吴雪建 ,朱博 . 机器人 . 2011,第4期
5. 一种实时的点对点客户端在线地图动态投影方法 [J] . 陈军 ,王广杰 ,吕朝阳 . 四川师范大学学报（自然科学版） . 2018,第2期
6. 基于地磁匹配和近景摄影测量的组合移动端室内导航方法 [C] . 周妍 ,李秀娟 ,熊汉江 . 2014年中国地球科学联合学术年会 . 2014
7. 基于端到端神经网络模型的自主移动机器人路径导航方法 [A] . 周彦彦 . 2020

基于TS-TD3的动态环境端到端无地图导航方法

摘要

著录项

相似文献

相关主题

期刊订阅