首页> 中国专利> 基于策略选项的分层强化学习方法和装置

基于策略选项的分层强化学习方法和装置

页面导航

摘要
著录项
相似文献

摘要

本发明公开了一种基于策略选项的分层强化学习方法和装置，所述方法包括：构建高层策略网络、低层策略网络和评价网络；从仿真环境，获取状态轨迹；基于状态轨迹和策略在线算法的学习过程，对高层策略网络、低层策略网络和评价网络的参数进行更新；根据更新参数后的高层策略网络、低层策略网络和评价网络，生成更新后的策略模型，并对更新后的策略模型进行测试。本发明实施例的基于策略选项的分层强化学习方法，能够在仿真环境中从零开始学习动作和高层策略，且性能稳定、数据使用效率高。

著录项

公开/公告号CN112052947B

专利类型发明专利
公开/公告日2021-06-25

原文格式PDF
申请/专利权人清华大学;
展开▼

申请/专利号CN202010824196.1
发明设计人杨君;梁斌;岑哲鹏;李承昊;陈章;
展开▼

申请日2020-08-17
分类号G06N3/08(20060101);G06N3/04(20060101);G06N3/10(20060101);G06N3/063(20060101);
代理机构11201 北京清亦华知识产权代理事务所(普通合伙);
代理人张大威
地址 100084 北京市海淀区清华园
入库时间 2022-08-23 12:01:01

相似文献

专利
中文文献
外文文献

1. 基于策略选项的分层强化学习方法和装置 [P] . 中国专利： CN112052947B . 2021.06.25
2. 基于策略选项的分层强化学习方法和装置 [P] . 中国专利： CN112052947A . 2020-12-08
3. SPATIAL AND TEMPORAL ATTENTION-BASED DEEP REINFORCEMENT LEARNING OF HIERARCHICAL LANE-CHANGE POLICIES FOR CONTROLLING AN AUTONOMOUS VEHICLE [P] . 美国专利： US2020139973A1 . 2020-05-07

机译：基于时空注意的深度强化学习，用于控制自主车辆的分层车道变化策略
4. REINFORCEMENT LEARNING METHOD BASED ON LINEAR MODEL, DEVICE THEREFOR AND PROGRAM [P] . 日本专利： JP2014206795A . 2014-10-30

机译：基于线性模型的强化学习方法，装置参考和程序
5. ONLINE LEARNING METHOD AND VEHICLE CONTROL METHOD BASED ON REINFORCEMENT LEARNING WITHOUT ACTIVE SEARCH [P] . 日本专利： JP2018037064A . 2018-03-08

机译：基于主动学习的基于强化学习的在线学习方法和车辆控制方法