首页> 中国专利> 基于策略选项的分层强化学习方法和装置

基于策略选项的分层强化学习方法和装置

摘要

本发明公开了一种基于策略选项的分层强化学习方法和装置,所述方法包括:构建高层策略网络、低层策略网络和评价网络;从仿真环境,获取状态轨迹;基于状态轨迹和策略在线算法的学习过程,对高层策略网络、低层策略网络和评价网络的参数进行更新;根据更新参数后的高层策略网络、低层策略网络和评价网络,生成更新后的策略模型,并对更新后的策略模型进行测试。本发明实施例的基于策略选项的分层强化学习方法,能够在仿真环境中从零开始学习动作和高层策略,且性能稳定、数据使用效率高。

著录项

  • 公开/公告号CN112052947B

    专利类型发明专利

  • 公开/公告日2021-06-25

    原文格式PDF

  • 申请/专利权人 清华大学;

    申请/专利号CN202010824196.1

  • 发明设计人 杨君;梁斌;岑哲鹏;李承昊;陈章;

    申请日2020-08-17

  • 分类号G06N3/08(20060101);G06N3/04(20060101);G06N3/10(20060101);G06N3/063(20060101);

  • 代理机构11201 北京清亦华知识产权代理事务所(普通合伙);

  • 代理人张大威

  • 地址 100084 北京市海淀区清华园

  • 入库时间 2022-08-23 12:01:01

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号