首页> 中国专利> 利用集中式推理和训练的强化学习

利用集中式推理和训练的强化学习

页面导航

摘要
著录项
法律信息
相似文献

摘要

用于利用集中式推理和训练来执行强化学习的方法、系统和装置，包括在计算机存储介质上编码的计算机程序。方法之一包括：在多个时间步中的当前时间步处，接收行动者对于多个环境中的每个环境的相应观察；对于每个环境，作为行动者在当前时间步之前的先前时间步处执行相应动作的结果，获得对行动者的相应奖励；对于每个环境，通过策略模型来处理相应的观察和相应的奖励；向行动者提供针对多个环境中的每一个环境的相应策略输出；在存储库处对于每个环境维持对应于行动者的相应元组序列；确定所维持的序列满足阈值条件；以及作为响应，在所维持的序列上训练策略模型。

著录项

公开/公告号CN114026567A

专利类型发明专利
公开/公告日2022-02-08

原文格式PDF
申请/专利权人谷歌有限责任公司;
展开▼

申请/专利号CN202080044844.X
发明设计人拉塞·埃斯佩霍尔特;王可;马尔钦·M·米哈尔斯基;彼得·米查尔·斯坦奇克;拉斐尔·马里尼耶;
展开▼

申请日2020-09-25
分类号G06N3/00(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构11219 中原信达知识产权代理有限责任公司;
代理人邓聪惠;周亚荣
地址美国加利福尼亚州
入库时间 2023-06-19 14:06:32

法律信息

法律状态公告日

法律状态信息

法律状态
2022-02-08

公开

国际专利申请公布

相似文献

专利
中文文献
外文文献

1. 利用集中式推理和训练的强化学习 [P] . 中国专利： CN114026567A . 2022-02-08
2. 推理车道的方法、训练车道推理模型的方法及装置 [P] . 中国专利： CN113963325A . 2022-01-21
3. TRAINING APPARATUS, TRAINING METHOD, INFERENCE APPARATUS, INFERENCE METHOD, AND NON-TRANSITORY COMPUTER READABLE MEDIUM [P] . 美国专利： US2020125958A1 . 2020-04-23

机译：训练设备，训练方法，推理设备，推理方法和非暂态计算机可读介质
4. TRAINING SPECTRAL INFERENCE NEURAL NETWORKS USING BILEVEL OPTIMIZATION [P] . 世界知识产权组织专利： WO2019234156A1 . 2019-12-12

机译：利用小波最优化训练谱推理神经网络
5. METHOD SYSTEM AND COMPUTER-READABLE RECORDING MEDIUM FOR INFERRING THE SITUATION OF LEARNER WHICH OCCURS IN REAL TIME DURING VIRTUAL TRAINING SYSTEM BY USING ONTOLOGY INFERENCE ENGINE [P] . 韩国专利： KR101584314B1 . 2016-01-22

机译：利用本体推理引擎实时推断虚拟训练系统中学习者情况的方法系统和计算机可读记录介质