首页> 中文期刊> 《计算机应用研究》 >双Q网络学习的迁移强化学习算法

双Q网络学习的迁移强化学习算法

         

摘要

深度强化学习在训练过程中会探索大量环境样本,造成算法收敛时间过长,而重用或传输来自先前任务(源任务)学习的知识,对算法在新任务(目标任务)的学习具有提高算法收敛速度的潜力.为了提高算法学习效率,提出一种双Q网络学习的迁移强化学习算法,其基于actor-critic框架迁移源任务最优值函数的知识,使目标任务中值函数网络对策略作出更准确的评价,引导策略快速向最优策略方向更新.将该算法用于Open AI Gym以及在三维空间机械臂到达目标物位置的实验中,相比于常规深度强化学习算法取得了更好的效果,实验证明提出的双Q网络学习的迁移强化学习算法具有较快的收敛速度,并且在训练过程中算法探索更加稳定.

著录项

  • 来源
    《计算机应用研究》 |2021年第6期|1699-1703|共5页
  • 作者单位

    西南科技大学 制造科学与工程学院 四川 绵阳621000;

    西南科技大学 特殊环境机器人技术四川省重点实验室 四川 绵阳621000;

    西南科技大学 特殊环境机器人技术四川省重点实验室 四川 绵阳621000;

    西南科技大学 信息工程学院 四川 绵阳621000;

    西南科技大学 特殊环境机器人技术四川省重点实验室 四川 绵阳621000;

    西南科技大学 信息工程学院 四川 绵阳621000;

    西南科技大学 制造科学与工程学院 四川 绵阳621000;

    西南科技大学 特殊环境机器人技术四川省重点实验室 四川 绵阳621000;

    西南科技大学 制造科学与工程学院 四川 绵阳621000;

    西南科技大学 特殊环境机器人技术四川省重点实验室 四川 绵阳621000;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 自动推理、机器学习;
  • 关键词

    深度强化学习; 双Q网络学习; actor-critic框架; 迁移学习;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号