首页> 中文期刊> 《计算机科学》 >无模型强化学习研究综述

无模型强化学习研究综述

         

摘要

强化学习(Reinforcement Learning,RL)作为机器学习领域中与监督学习、无监督学习并列的第三种学习范式,通过与环境进行交互来学习,最终将累积收益最大化.常用的强化学习算法分为模型化强化学习(Model-based Reinforcement Lear-ning)和无模型强化学习(Model-free Reinforcement Learning).模型化强化学习需要根据真实环境的状态转移数据来预定义环境动态模型,随后在通过环境动态模型进行策略学习的过程中无须再与环境进行交互.在无模型强化学习中,智能体通过与环境进行实时交互来学习最优策略,该方法在实际任务中具有更好的通用性,因此应用范围更广.文中对无模型强化学习的最新研究进展与发展动态进行了综述.首先介绍了强化学习、模型化强化学习和无模型强化学习的基础理论;然后基于价值函数和策略函数归纳总结了无模型强化学习的经典算法及各自的优缺点;最后概述了无模型强化学习在游戏AI、化学材料设计、自然语言处理和机器人控制领域的最新研究现状,并对无模型强化学习的未来发展趋势进行了展望.

著录项

  • 来源
    《计算机科学》 |2021年第3期|180-187|共8页
  • 作者单位

    北京材料基因工程高精尖创新中心(北京信息科技大学) 北京 100101;

    北京信息科技大学数据与科学情报分析实验室 北京 100101;

    北京材料基因工程高精尖创新中心(北京信息科技大学) 北京 100101;

    北京材料基因工程高精尖创新中心(北京信息科技大学) 北京 100101;

    中国科学院煤炭化学研究所煤转化国家重点实验室 太原 030001;

    中科合成油技术有限公司国家能源煤基液体燃料研发中心 北京 101400;

    中国科学院大学 北京 100049;

    北京材料基因工程高精尖创新中心(北京信息科技大学) 北京 100101;

    北京信息科技大学数据与科学情报分析实验室 北京 100101;

    北京材料基因工程高精尖创新中心(北京信息科技大学) 北京 100101;

    北京信息科技大学数据与科学情报分析实验室 北京 100101;

    北京材料基因工程高精尖创新中心(北京信息科技大学) 北京 100101;

    北京信息科技大学数据与科学情报分析实验室 北京 100101;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 自动推理、机器学习;
  • 关键词

    人工智能; 强化学习; 深度强化学习; 无模型强化学习; 马尔可夫决策过程;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号