首页> 中国专利> 基于强化学习利用动态奖励示例样本训练智能体的方法

基于强化学习利用动态奖励示例样本训练智能体的方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种基于强化学习利用动态奖励示例样本训练智能体的方法，包括步骤：1)从智能体中获取示例样本；2)用获取的示例样本初始化经验池，初始化训练网络，设定相关超参数值；3)用强化学习训练智能体，把训练过程中产生的样本也存入经验池；4)利用基于动态奖励的优先级抽样机制从经验池中抽取小批量样本；5)计算抽取样本的平均损失值，利用优化函数减小损失值来更新网络参数，若损失值减少到设定阈值，则深度强化学习停止，智能体训练完成，否则继续训练。本发明引入了动态奖励和优先级挑选机制，让智能体能够在很小数量的示例样本下自动挑选对学习有利的示例样本，从而提高了训练数据的利用率，极大的减少了训练智能体所需要的时间。

著录项

公开/公告号CN111582311A

专利类型发明专利
公开/公告日2020-08-25

原文格式PDF
申请/专利权人华南理工大学;
展开▼

申请/专利号CN202010272332.0
发明设计人段智宏;陈百基;
展开▼

申请日2020-04-09
分类号G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构44245 广州市华学知识产权代理有限公司;
代理人冯炳辉
地址 510640 广东省广州市天河区五山路381号
入库时间 2023-12-17 11:45:16

法律信息

法律状态公告日

法律状态信息

法律状态
2020-08-25

公开

公开

相似文献

专利
中文文献
外文文献

1. 基于强化学习利用动态奖励示例样本训练智能体的方法 [P] . 中国专利： CN111582311A . 2020-08-25
2. 一种高样本效率的多智能体强化学习训练方法 [P] . 中国专利： CN113313209A . 2021-08-27
3. MULTI-AGENT DEEP REINFORCEMENT LEARNING PROXY METHOD BASED ON INTELLIGENT GRID [P] . 世界知识产权组织专利： WO2020000399A1 . 2020-01-02

机译：基于智能网格的多智能体深度强化学习代理方法
4. METHOD AND DEVICE FOR PERFORMING MULTIPLE AGENT SENSOR FUSION IN COOPERATIVE DRIVING BASED ON REINFORCEMENT LEARNING [P] . 韩国专利： KR20200094641A . 2020-08-07

机译：基于强化学习的协作驾驶中多智能体传感器融合的方法和装置
5. METHOD AND DEVICE FOR PERFORMING MULTIPLE AGENT SENSOR FUSION IN COOPERATIVE DRIVING BASED ON REINFORCEMENT LEARNING [P] . 欧洲知识产权局专利： EP3690711A1 . 2020-08-05

机译：基于强化学习的协作驾驶中多智能体传感器融合的方法和装置