首页> 中国专利> 基于置信上界思想的经验回放采样强化学习方法及系统

基于置信上界思想的经验回放采样强化学习方法及系统

页面导航

摘要
著录项
说明书
相似文献

摘要

本公开提出了基于置信上界思想的经验回放采样强化学习方法级系统，包括：采集智能体与环境交互获得的经验，并将所述经验数据存储至经验回放池中；在更新当前训练策略时，从所述经验回放池中根据优先概率随机选取经验，生成候选训练样本集；根据每个候选训练样本的置信上界值，选择训练样本集；根据所述训练样本数据对用于函数逼近的神经网络进行参数更新。本公开技术方案可以与任意的离线RL算法相结合，在一定程度上解决相关技术中的样本利用不充分，更新算法学习效率低的问题，有效提高采样效率，进一步提升算法更新的泛化能力。

著录项

公开/公告号CN112734014A

专利类型发明专利
公开/公告日2021-04-30

原文格式PDF
申请/专利权人山东大学;
展开▼

申请/专利号CN202110038613.4
发明设计人刘帅;韩思源;王小文;
展开▼

申请日2021-01-12
分类号G06N3/04(20060101);G06N3/08(20060101);
代理机构37221 济南圣达知识产权代理有限公司;
代理人李圣梅
地址 250061 山东省济南市历下区经十路17923号
入库时间 2023-06-19 10:48:02

说明书

技术领域

本公开属于强化学习技术领域，尤其涉及基于置信上界思想的经验回放采样强化学习方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

深度强化学习是人工智能领域的一个重要研究方向，智能体通过不断与环境交互的过程，自主学习动作执行的最优策略以最大化他们的累积奖励。深度强化学习方法已经在多个领域和任务中取得了巨大的成功，包括电子游戏、围棋博弈以及机器人控制等。由于深度强化学习的巨大潜能还没有被充分地挖掘，因此近年来多项工作致力于研究其在不同应用环境中的可行性与泛化性。然而，现有的深度强化学习算法仍然缺乏数据效率，即使是学习简单的任务也需要大量的环境交互。真实环境的高成本和低失误容忍度使智能体与环境难以进行大量的交互，极大地限制了算法在真实场景中的探索和应用。类似的，在复杂的仿真环境中提高学习效率也同样重要。因此，深度强化学习最大的挑战之一是让智能体在应用程序中高效地学习，而时间与资源消耗却很少。尽管如此，目前许多关于深度强化学习的研究关注于在一台机器的计算预算内提高性能，而如何最好地利用更多资源的问题还没有得到充分的解决。

经验回放方法在一定程度上缓解了这一问题。在学习过程中，智能体将与环境的交互信息，即经验，存储在回放缓冲池中，然后均匀地随机选择部分经验进行回放以更新控制策略。不同于在线强化学习智能体在一次更新后立即丢弃传入的数据，经验回放方法允许智能体从以前版本的策略生成的数据中学习，使一个经验可以被用于不止一次的更新，从而打破了时间相关性的限制，在使用基于独立同分布假设的随机梯度下降算法训练神经网络函数逼近时特别有用。具体地说，如深度Q学习算法，使用了一个大的滑动窗口回放存储器，从中均匀地随机取样，并且平均重访问每个经验18次。经验回放方法稳定了以深度神经网络为代表的价值函数的训练，使用更多的相对廉价的计算量和内存代替学习大量经验需要的昂贵环境交互资源，有效地提高了数据效率。

根据人类的学习过程可知，不同的经验对于策略的学习具有不同的重要性。然而，原始的经验回放方法从回放池中等概率地均匀采样，并没有考虑不同样本对策略优化的重要程度，因此多项工作致力于对原始经验回放方法的改进。由于样本重要性并没有确定的定量衡量指标，因此现有方法通常会基于定性分析设计一个重要性指标。

优先经验回放方法(Prioritized Experience Replay，PER)扩展了经典的优先横扫理念，使用时序差分误差(TD-error)这一有偏指标衡量样本的重要程度。其关键思想是，智能体可以从具有更高不确定性的样本中更有效地学习。样本对应的指标值越大，代表其具有更高的学习进展预期，也就具有更高的采样优先级。然而，样本的重要程度显然不仅仅由时序差分误差确定，还可能与奖励信号和被采样频次等因素相关，原始的优先经验回放方法仍存在较大的提升空间。

Q-Prop以深度确定性策略梯度方法(DDPG)为基础，使用离线评论家的泰勒展开作为控制变量，将其与在策略的蒙特卡洛梯度估计相结合，减少了样本效率的方差，提高了DDPG的稳定性和采样效率。然而，尽管Q-Prop提供了一个解决高样本复杂度的方案，其策略更新的学习曲线仍存在大幅震荡，因为它继承了策略梯度方法固有的高方差。此外，Tucker等人最近研究表明，实验的性能提高可能是由于设计微妙的实现细节，而不是更好的基线功能。

事后经验回放技术(HER)是针对稀疏奖励提出的一种高效样本学习方法。它在每个回合中使用新的目标(如已经达到的状态)替换原本的目标以获得新的经验，并存储到经验回放池中，使样本量增加了新的目标数倍，有效提高了多目标任务的样本效率。尽管它避免了复杂的奖励工程，允许智能体从稀疏和二进制的奖励中进行高效的样本学习，但要求每个回合最多50步，否则还是会得到失败奖赏。此外，它在单目标任务中的性能提升有限。

记忆与遗忘经验回放技术(Remember and Forget Experience Replay，Ref-ER)使用样本采集时的策略和当前策略的差距作为样本的重要性权重。只使用与当前策略接近的样本用于更新策略梯度，并且限制新策略与样本对应的旧策略的KL散度不会过大，在保持经验回放池容量的基础上提高了样本的质量，使算法有效地利用更多好的数据。该方法每次更新时需要计算所有样本与当前策略的接近程度，而相同的样本由于源自不同的策略而具有不同的重要性，这是与人类的实际学习经验相矛盾的。

由此观之，现有采样技术在设计原理和泛化能力上存在诸多问题，从而限制了其应用范围。基于经验回放技术的方法仍有很大的提升空间，因此，有必要针对部分问题对经验回放采样方法进行改进，以提升深度强化学习算法的采样效率和应用潜力。

发明内容

为克服上述现有技术的不足，本公开提供了基于置信上界思想的经验回放采样强化学习方法，来提升深度强化学习算法的采样效率和应用潜力。

为实现上述目的，本公开的一个或多个实施例提供了如下技术方案：

第一方面，公开了基于置信上界思想的经验回放采样强化学习方法，包括：

采集智能体与环境交互获得的经验，并将所述经验数据存储至经验回放池中；

在更新当前训练策略时，从所述经验回放池中根据优先概率随机选取经验，生成候选训练样本集；

根据每个候选训练样本的置信上界值，选择训练样本集；

根据所述训练样本数据对用于函数逼近的神经网络进行参数更新。

进一步的技术方案，采集智能体与环境交互获得的经验之前，首先初始化深度强化学习算法的网络参数，当前最大时序差分误差值和智能体的初始观测值。

进一步的技术方案，初始化之后，在每个时间步，智能体和环境交互获得经验，设置每条经验的优先值为当前最大优先值，并将经验存储到经验回放池中，具体为：

智能体从环境中获取当前时刻的观测值；

智能体根据当前策略和当前时刻观测值计算出当前时刻选择的动作；

智能体与环境交互执行动作，环境根据智能体的动作转移至下一状态并返回给智能体奖励信号、下一时刻的观测值和判断回合是否终止的指标；

使用当前最大时序差分误差计算当前最大优先值，将该时间步经验对应的优先值设置为当前最大优先值；

将交互过程中产生的数据添加到经验回放池中。

进一步的技术方案，生成候选训练样本集时：

获取当前经验回放池中经验的优先值总和，将优先值总和平均分成λ·K份；

根据优先概率从每份中取出一个经验并添加至候选训练样本集中。

进一步的技术方案，根据每个候选训练样本的置信上界值，选择训练样本集，具体为：

计算每个候选训练样本的置信上界值；

将置信上界值由小到大排序，选择前K个经验添加至训练样本集中；

根据训练样本集数据对网络参数进行更新；

计算每条训练样本的时序差分误差，并保存所有数据中时序差分误差的最大值；

根据前向传播得到的时序差分误差计算出损失函数，并进行梯度的反向传播；

根据梯度以及学习率的大小更新神经网络的参数。

进一步的技术方案，计算每条训练样本的时序差分误差，并保存所有数据中时序差分误差的最大值时，将训练样本数据输入神经网络中，进行前向传播，获得每条训练样本的时序差分误差；

比较训练前存储的最大时序差分误差和当前训练样本对应的最大时序差分误差，并保存两者之间的最大值作为当前经验回放池中所有经验的时序差分误差最大值。

第二方面，公开了基于置信上界思想的经验回放采样强化学习系统，包括：

采集模块，用于收集智能体与环境交互生成的经验数据，并将所述经验数据添加至经验回放池中；

采样模块，用于从所述经验回放池中根据优先概率随机选取多个经验，生成候选训练样本集；

排序模块，用于根据置信上界值对候选训练样本集中的经验进行排序，生成训练样本集；

更新模块，用于根据所述训练样本集更新神经网络的参数。

优选的，所述采集模块包括：

第一计算单元，用于根据智能体当前时刻观测值和当前策略计算出当前时刻选择的动作；

观测单元，用于通过智能体与环境交互执行动作，观测当前时间步长对应的经验数据，包括：环境根据智能体的动作转移至下一状态并返回给智能体奖励信号、下一时刻的观测值和判断回合是否终止的指标；

第二计算单元，用于根据当前最大时序差分误差计算当前最大优先值，将该时间步长经验对应的优先值设置为当前最大优先值；

第一添加单元，用于将当前时间步长产生的经验数据添加至经验回放池中。

优选的，所述采样模块包括：

切分单元，用于在更新当前训练策略时，获取当前经验回放池中经验的数量，将当前所有经验平均分成λ·K个片段；

第二添加单元，用于根据每个经验的优先概率从每个片段中取出一个经验并添加至候选训练样本集中。

优选的，所述排序模块包括：

第三计算单元，用于计算每个候选训练样本的置信上界值；

排序单元，用于根据置信上界值对候选训练集中的经验进行从小到大的排序；

第三添加单元，用于选择排序后的前K个经验添加至训练样本集中

优选的，所述更新模块包括：

第一更新单元，用于根据当前时刻观测值、当前时刻选择的动作、下一时刻观测值进行神经网络的前向传播，获得每个训练样本的时序差分误差；

比较单元，用于比较上一时刻对应的最大时序差分误差与当前时刻每个训练样本对应的时序差分误差的大小，其中较大的设置为当前经验回放池中所有经验的最大时序差分误差；

第四计算单元，用于根据前向传播得到的时序差分误差计算出损失函数，并进行梯度的反向传播；

第二更新单元，用于根据梯度以及学习率的大小更新神经网络的参数；

判断单元，用于判断训练结果是否达到终止要求，若是，则终止训练；否则，返回采样模块。

以上一个或多个技术方案存在以下有益效果：

本公开技术方案可以与任意的离线RL算法相结合，在一定程度上解决相关技术中的样本利用不充分，更新算法学习效率低的问题，有效提高采样效率，进一步提升算法更新的泛化能力。

本公开技术方案将置信上界思想引入优先经验回放采样技术中，在不增加额外的计算复杂度和存储容量的情况下，充分地利用了历史信息，提高了采样效率和样本利用率，从而提高了算法的探索能力，进而提高了强化学习算法的训练速度和泛化能力。本发明的核心思想可以简单地描述为在考虑经验预期学习进展程度的同时提高被采样次数少的经验的采样概率。该改进的经验回放采样策略可用于任何离线强化学习算法的实现过程中，因此可以应用到多个领域和任务中，不仅能够显著提高训练的学习效率，而且有利于提高算法的泛化能力。对于比较复杂的神经网络或强化学习训练任务,该技术对神经网络学习效率的增加可能是特别显著的。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是智能体与环境交互的强化学习系统示意图；

图2是基于置信上界思想的经验回放采样强化学习策略的示意图；

图3是基于置信上界思想的经验回放采样强化学习策略的流程图；

图4是基于优先概率和置信上界值对经验数据进行采样的示例过程的流程图；

图5是基于置信上界思想的经验回放采样强化学习更新装置的方框示意图；

图6是本发明在阿塔丽乒乓游戏(Pong-v0)实验中的平均奖励曲线。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

经验回放采样技术是强化学习，尤其是深度强化学习中影响算法训练效率和学习效果的重要部分。现有采样技术在设计原理和泛化能力上存在诸多问题，从而限制了算法的应用范围。因此，本发明针对现有技术未考虑样本的历史信息对训练的重要程度的影响这一问题提出了一种改进的经验回放采样策略，从而在考虑预期学习进展的前提下优先采样被训练次数少的样本进行训练，进一步提升采样效率和算法稳定性。本发明提出的策略可以与所有的离线强化学习算法结合，在不同的强化学习任务环境上执行。可以应用的强化学习任务环境包括模拟环境和真实环境。其中，模拟环境中的智能体可以通过一个或多个计算机程序模拟实现，相关任务包括但不限于：使模拟玩家在视频游戏中获胜、无人机和无人驾驶导航和在博弈场景下达到纳什均衡等。真实环境中的智能体依托于可以与真实环境信息交互的机械结构，相关任务包括但不限于：使用机械臂完成推、拉和放置等操作，无人机和无人驾驶汽车等自主或半自主型交通工具导航和无人机群对战演练等。

本部分实施例以一般的深度强化学习系统为例，如图1，系统接收智能体对于环境的观测信息并从当前状态对应的可执行动作集中选择动作以完成智能体与环境的交互。本发明提出的基于置信上界思想的经验回放采样强化学习策略，如图2。

实施例一

本实施例公开了一种基于置信上界思想的经验回放采样强化学习方法，包括以下步骤：采集智能体与环境交互获得的经验，并将所述经验数据存储至经验回放池中；在更新当前训练策略时，从所述经验回放池中根据优先概率随机选取λ·K条经验，生成候选训练样本集；根据每个候选训练样本的置信上界值，选择训练样本集；根据所述训练样本数据对用于函数逼近的神经网络进行参数更新。

具体实施例子中，本发明的目的是通过以下技术方案实现的：

如图2所示，一种基于置信上界思想的经验回放采样强化学习策略，包括：

步骤1：随机初始化深度强化学习算法的网络参数和智能体的初始观测值o

其中，每个经验数据的时序差分误差是指使用神经网络进行训练生成的用于描述当前策略与目标策略的差距的指标。需要注意的是当前时间步为对应回合最后一个时间步时，目标策略对应的该时间步的价值为该时间步的奖励，否则，目标策略对应的该时间步的价值由该时间步的奖励和神经网络的输出共同组成。

步骤2：在每个时间步，智能体和环境交互获得经验，设置每条经验的优先值为当前最大优先值，并将经验存储到经验回放池中。

其中，优先值可根据时序差分误差的绝对值加上预定常数获得，或者使用根据时序差分误差排序后的排名的倒数获得。

步骤201：智能体从环境中获取当前时刻的观测值。

步骤202：智能体根据当前策略和当前时刻观测值计算出当前时刻选择的动作。

步骤203：智能体与环境交互执行动作，环境根据智能体的动作转移至下一状态并返回给智能体奖励信号、下一时刻的观测值和判断回合是否终止的指标。

步骤204：使用当前最大时序差分误差计算当前最大优先值，将该时间步经验对应的优先值设置为当前最大优先值。

步骤205：将交互过程中产生的数据添加到经验回放池中。

具体实施例中，该步骤2包括：在每个时间步t，智能体接收到对环境状态的观测值o

需要注意的是，经验回放池的容量为预先设置的正整数N，当数据存储达到经验回放池存储容量时，需要删除原有数据以存入下一时间步产生的经验数据。通常可以根据数据存入的时间先后确定何时从经验回放池中删除哪个数据，即优先删除存储时间最长的数据，以保证新数据的添加；也可以根据时序差分误差的大小确定何时从经验回放池中删除哪个数据，即优先删除时序差分误差最小的数据，也就是预期学习潜力最小的数据，以保证新数据的添加。

步骤3在更新当前训练策略时，按照优先概率从经验回放池中取出λ·K个经验，其中λ≥1。

步骤301：获取当前经验回放池中经验的优先值总和，将优先值总和平均分成λ·K份。

步骤302：根据优先概率从每份中取出一个经验并添加至候选训练样本集中。

具体实施例中，该步骤3包括：当经验回放池中的数据达到一定量时(如10000个)，则启动训练进程，定义最大训练时间步数为T，t＝1,…,T，通常N>T。对当前经验回放池中经验的优先值进行求和，将优先值总和平均分成λ·K份。其中，K是预定正整数，λ是用来确定置信上界值对采样的影响的指标，λ越大表示置信上界值对采样的影响越大，即越优先选择被采样次数少的经验，当λ＝1时表示不使用置信上界值影响采样结果。初始值设置为λ≥1，λ可采用线性或指数退火方法，随训练次数增多逐渐退火至1。

根据优先概率从每份中取出一个经验并添加至候选训练样本集中。其中，每一个经验具有一个确定的采样优先概率

步骤4：根据每个候选训练样本的置信上界值，选择训练样本集。

步骤401：计算每个候选训练样本的置信上界值。

步骤402：将置信上界值由小到大排序，选择前K个经验添加至训练样本集中。

具体实施例中，该步骤4包括：计算每个候选训练样本的置信上界值，将置信上界值由小到大排序，选择前K个经验添加至训练样本集中(如图4)。其中，置信上界值为

步骤5：根据训练样本集数据对网络参数进行更新。

步骤501：计算每条训练样本的时序差分误差，并保存所有数据中时序差分误差的最大值。

步骤5001：将训练样本数据输入神经网络中，进行前向传播，获得每条训练样本的时序差分误差。

步骤5002：比较训练前存储的最大时序差分误差和当前训练样本对应的最大时序差分误差，并保存两者之间的最大值作为当前经验回放池中所有经验的时序差分误差最大值。

步骤502：根据前向传播得到的时序差分误差计算出损失函数，并进行梯度的反向传播。

步骤503：根据梯度以及学习率的大小更新神经网络的参数。

具体实施例中，该步骤5包括：将训练样本数据输入算法的神经网络中，进行前向传播，获得每条训练样本的时序差分误差。其中，每个经验数据的时序差分误差代表使用神经网络进行训练生成的用于描述当前策略与目标策略的差距的指标。通常表示为目标策略对应的该时间步的价值与当前策略对应的该时间步的价值的差值。其中，目标策略对应的该时间步的价值为使用下一时间步对应的观测值与基于当前策略获得的下一时间步选择的动作输入神经网络所获得的输出加上当前获得的奖励。当前策略对应的该时间步的价值为当前观测值与当前选择的动作输入神经网络所获得的当前输出。需要注意的是在当前时间步为对应回合最后一个时间步时，即判断回合是否终止的指标done

比较训练前存储的最大时序差分误差和当前K个训练样本对应的最大时序差分误差，并保存两者之间的最大值作为当前经验回放池中所有经验的时序差分误差最大值为error

步骤6：判断是否达到训练终止条件，若否，返回步骤3。其中，训练终止条件通常可以是是否达到训练最大时间步的判断，也可以是根据实际环境与任务需求自行设定的判断指标。

由上述本发明提供的技术方案可以看出，该方法通过改进经验回放采样技术，将置信上界思想引入采样方法中，降低被采样次数多的经验的采样概率，同时，提升被采样次数少的经验的采样概率，在不增加额外的计算复杂度和存储容量的情况下，提高了采样效率和样本利用率，从而提高了算法的探索能力，进而提高了强化学习算法的训练能力。该改进的经验回放采样策略能够与所有离线的强化学习算法相结合，因此可以应用到多个领域和任务中，如智能路由器路径优化决策，机械臂取物控制，智能电网能源管理和经济调度决策，Mujoco仿真环境下机器人类人行走和跳跃控制等。不仅能够显著提高训练的学习效率，而且有利于提高算法的泛化能力。

其中，对于智能电网能源管理决策任务，智能体为微电网，智能体和环境交互获得的经验为五元组形式e

为了验证本发明提出的方法的有效性，使用阿塔丽的乒乓游戏(Pong-v0)进行具体实验，获得平均奖励曲线如图6所示。其中，该实验使用深度Q学习方法，“PER”曲线为使用原始优先经验回放采样技术获得的结果，“UCB”曲线为本发明提出的结果。显然，本发明的方法可以使算法更快地收敛，由此可知，该算法能在提升采样效率的同时增加算法的稳定性。

实施例子二

为达到上述目的，本发明提出了一种基于置信上界思想的经验回放采样更新装置，如图5，包括：采集模块，用于收集智能体与环境交互生成的经验数据，并将所述经验数据添加至经验回放池中；采样模块，用于从所述经验回放池中根据优先概率随机选取多个经验，生成候选训练样本集；排序模块，用于根据置信上界值对候选训练样本集中的经验进行排序，生成训练样本集；更新模块，用于根据所述训练样本集更新神经网络的参数。

其中，采集模块包括：

第一计算单元，用于根据智能体当前时刻观测值和当前策略计算出当前时刻选择的动作；

第二计算单元，用于根据当前最大时序差分误差计算当前最大优先值，将该时间步长经验对应的优先值设置为当前最大优先值；

第一添加单元，用于将当前时间步长产生的经验数据添加至经验回放池中。

其中，采样模块包括：

切分单元，用于在更新当前训练策略时，获取当前经验回放池中经验的数量，将当前所有经验平均分成λ·K个片段；

第二添加单元，用于根据每个经验的优先概率从每个片段中取出一个经验并添加至候选训练样本集中。

其中，排序模块包括：

第三计算单元，用于计算每个候选训练样本的置信上界值；

排序单元，用于根据置信上界值对候选训练集中的经验进行从小到大的排序；

第三添加单元，用于选择排序后的前K个经验添加至训练样本集中

其中，更新模块包括：

第一更新单元，用于根据当前时刻观测值、当前时刻选择的动作、下一时刻观测值进行神经网络的前向传播，获得每个训练样本的时序差分误差；

第四计算单元，用于根据前向传播得到的时序差分误差计算出损失函数，并进行梯度的反向传播；

第二更新单元，用于根据梯度以及学习率的大小更新神经网络的参数；判断单元，用于判断训练结果是否达到终止要求，若是，则终止训练；否则，返回采样模块。

本公开实施例子通过改进优先经验回放采样技术，将置信上界思想引入采样技术中，在考虑经验预期学习进展程度的同时提高被采样次数少的经验的采样概率，充分地利用了训练过程中产生的历史信息，在不增加额外的计算复杂度和存储容量的情况下，提高了采样效率和样本利用率，从而提高了算法的探索能力，进而提高了强化学习算法的训练速度和泛化能力。该改进的经验回放采样策略可用于任何离线强化学习算法的实现过程中，因此可以应用到多个领域和任务中，不仅能够显著提高训练的学习效率，而且有利于提高算法的泛化能力。对于比较复杂的神经网络或强化学习训练任务，该技术对神经网络学习效率的增加可能是特别显著的。

实施例三

本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述实施例子方法中的具体步骤。

实施例四

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行上述实施例子方法中的具体步骤。

以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本公开中的任一方法。

本领域技术人员应该明白，上述本公开的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本公开不限制于任何特定的硬件和软件的结合。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于置信上界思想的经验回放采样强化学习方法及系统 [P] . 中国专利： CN112734014A . 2021-04-30
2. 优化经验回放采样策略的强化学习方法 [P] . 中国专利： CN111461347A . 2020-07-28
3. EXPERIENCE REINFORCEMENT TYPE REINFORCEMENT LEARNING SYSTEM, EXPERIENCE REINFORCEMENT TYPE REINFORCEMENT LEARNING METHOD AND EXPERIENCE REINFORCEMENT TYPE REINFORCEMENT LEARNING PROGRAM [P] . 日本专利： JP2011204036A . 2011-10-13

机译：经验强化型强化学习系统，经验强化型强化学习方法和经验强化型强化学习计划
4. DISTRIBUTED STRENGTHENING LEARNING METHOD FOR INTEGRATING EXPERIENCE STRENGTHENING TYPE STRENGTHENING LEARNING METHOD AND ENVIRONMENT IDENTIFICATION TYPE STRENGTHENING LEARNING METHOD BY USING MULTI-AGENT MODEL [P] . 日本专利： JP2000020494A . 2000-01-21

机译：综合多经验模型的经验强化型强化学习方法与环境识别型强化学习方法的分布式强化学习方法
5. METHOD FOR COLLABORATIVE LEARNING BASED ON THINK-GROUP-SHARE STRATEGY IN AN INTELLIGENT COLLABORATIVE LEARNING SYSTEM [P] . 世界知识产权组织专利： WO2015009137A1 . 2015-01-22

机译：智能协同学习系统中基于思想集团共享策略的协同学习方法