首页> 中国专利> 在实验室环境中训练演员-评论家算法

在实验室环境中训练演员-评论家算法

页面导航

摘要
著录项
法律信息
相似文献

摘要

强化学习方法可以使用演员‑评论家网络，其中(1)附加的仅限实验室的状态信息用于训练在生产场合中没有这种附加的仅限实验室的信息的情况下采取很多行动的策略；并且(2)复杂的资源需求策略被提炼成可以更容易地在生产时以有限的计算资源运行的要求不高的策略。生产演员网络可以使用先前用大型演员网络进行训练的大型评论家网络的冻结版本来优化。这些方法的各方面可以利用其中评论家网络对动作值函数而不是状态值函数进行建模的演员‑评论家方法。

著录项

公开/公告号CN115151916A

专利类型发明专利
公开/公告日2022-10-04

原文格式PDF
申请/专利权人索尼集团公司;美国索尼公司;
展开▼

申请/专利号CN202180016801.5
发明设计人 P·坎德尔瓦尔;J·麦克哥拉山;P·沃尔曼;
展开▼

申请日2021-05-05
分类号G06N3/04;G06N3/08;G06N20/00;
代理机构中国贸促会专利商标事务所有限公司;
代理人曾琳
地址日本东京
入库时间 2023-06-19 17:02:55

法律信息

法律状态公告日

法律状态信息

法律状态
2022-10-04

公开

国际专利申请公布

相似文献

专利
中文文献
外文文献

1. 边缘网络中基于改进的演员-评论家算法的SFC部署方法 [P] . 中国专利： CN113573320A . 2021-10-29
2. 基于演员-评论家算法的分布式交通信号灯联合控制方法 [P] . 中国专利： CN111785045B . 2022-07-05
3. TRAINING ACTOR-CRITIC ALGORITHMS IN LABORATORY SETTINGS [P] . 美国专利： US2022067504A1 . 2022-03-03

机译：在实验室设置中培训演员批评算法
4. Method for training and testing an algorithm for predicting agents in a vehicle environment [P] . 德国专利： DE102022000238A1 . 2022-03-10

机译：车辆环境中预测智能体算法的训练和测试方法
5. METHOD AND SYSTEM FOR TRAINING AND VALIDATING MACHINE LEARNING ALGORITHMS IN DATA NETWORK ENVIRONMENTS [P] . 欧洲知识产权局专利： EP3544236B1 . 2022-03-09

机译：用于在数据网络环境中训练和验证机器学习算法的方法和系统