首页> 中国专利> 好奇心驱动的混合动力系统深度强化学习能量管理方法

好奇心驱动的混合动力系统深度强化学习能量管理方法

摘要

本发明公开了好奇心驱动的混合动力系统深度强化学习能量管理方法,属于混合动力汽车能量管理领域,不仅可以解决A3C算法探索不充分的问题,还可以解决A3C算法训练速度慢的问题。本发明方法主要包括:建立基于好奇心驱动的A3C代理模型;设置基于好奇心驱动的A3C代理模型的状态、动作和回报,得到A3C代理模型;建立与A3C结构相同的Actor与Critic网络,并且获取相关最优训练数据集,对Actor与Critic进行单独训练,对基于好奇心驱动的A3C代理进行初始化,得到融合预训练和好奇心驱动后的A3C代理模型;使用融合预训练和好奇心驱动的A3C代理模型进行混联式混合动力车辆的能量管理。

著录项

  • 公开/公告号CN112765723A

    专利类型发明专利

  • 公开/公告日2021-05-07

    原文格式PDF

  • 申请/专利权人 南京航空航天大学;

    申请/专利号CN202011451706.1

  • 申请日2020-12-10

  • 分类号G06F30/15(20200101);G06F30/27(20200101);G06N3/04(20060101);G06N3/08(20060101);G06F119/14(20200101);

  • 代理机构32237 江苏圣典律师事务所;

  • 代理人贺翔

  • 地址 210016 江苏省南京市秦淮区御道街29号

  • 入库时间 2023-06-19 10:54:12

说明书

技术领域

本发明属于混合动力汽车能量管理领域,尤其涉及好奇心驱动的混合动力系统深度强化学习能量管理方法。

背景技术

在当今社会下,能源危机和环境污染问题越来越严重。对于汽车行业而言,其面临的挑战也越来越大,纯燃油汽车具有高能耗与高排放的问题,为了更好的解决这些问题,混合动力汽车逐渐成为人们研究的重点内容。混合动力汽车由多个动力源组成,一般为两个,分别为内燃机与电机,能量管理系统可以很好的协调两个动力源之间的关系,实现在满足动力性要求下,实现更低的油耗,从而减少能源消耗与温室气体排放。因此开发一个高效的能量管理控制器去协同能源管理系统的工作是一项非常重要的任务。

在当今研究下,研究HEV的能量管理策略大体上分为三类:一是基于规则的策略,基于规则的策略具有技术难度低、实时性高和在线计算量小的优点,基于规则的策略一般只需要制定相关的规则,即设置一定的阈值实现对混合动力汽车的能量管理,因此应用难度比较低,故广泛应用于混合动力汽车的工业领域,但是,相关规则的制订需要依靠专家经验完成。二是基于优化的能量管理策略,最具有代表性的为DP(动态规划)算法,基于DP的能量管理策略可以获取全局最优,但是前提要求全局工况已知,同时计算时间也较长,因此一般只能作为评价其他策略的基准,无法应用于汽车的实时控制。最近几年,基于学习的算法开始大量出现,特别是A3C算法。

但是A3C方法在实际应用中也存在很多问题,其最大的缺点是不能深入探索而获得更好的燃油经济性能,同时A3C算法在应用时的训练时间也较长,因此更好的解决这两个问题,可以实现神经网络的快速收敛,同时可以有效提高基于深度强化学习能量管理策略的控制效果,提高汽车整车性能。

发明内容

本发明提供了好奇心驱动的混合动力系统深度强化学习能量管理方法,在保证汽车动力性的前提下,通过基于预训练和好奇心驱动的A3C算法,不仅可以解决A3C算法不能够深入探索的问题,而且还可以解决A3C算法训练速度慢的问题,可以实现在保证汽车燃油经济性的基础上,实现神经网络的快速收敛。

为了实现以上目的,本发明采用以下技术方案:

好奇心驱动的混合动力系统深度强化学习能量管理方法,包括以下步骤:

步骤1:建立混联式混合动力汽车模型;

步骤2:建立基于好奇心驱动的A3C代理模型;

步骤3:设置基于好奇心驱动的A3C代理模型的状态、动作和回报,得到设置后的基于好奇心驱动的A3C代理模型;

步骤4:建立与上述基于好奇心驱动的A3C代理模型网络结构相同的Actor 与Critic网络,同时获取相关最优训练数据集,对Actor与Critic网络单独进行预训练,并利用训练后的Actor与Critic网络的相关参数对基于好奇心驱动的A3C 代理模型进行初始化,得到基于预训练和好奇心驱动的A3C代理模型;

步骤5:获取相关训练数据集,根据获得的相关训练数据集对所述基于预训练和好奇心驱动的A3C代理模型进行训练,实现对基于预训练和好奇心驱动的 A3C代理模型的微调,得到训练后的基于预训练和好奇心驱动的A3C代理模型;

步骤6:使用训练后的基于预训练和好奇心驱动的A3C代理模型进行混合动力车辆的能量管理。

以上所述步骤中,步骤1中所述混联式混合动力汽车模型包括汽车动力学模型、行星齿轮模型、电机模型、电池模型和发动机模型,

所述汽车动力学模型如以下公式所示:

其中,G为混合动力汽车重力,F

所述行星齿轮模型如以下公式所示:

n

T

其中,其中n

所述电机模型如以下公式所示:

其中,P

所述电池模型如以下公式所示:

其中,P

所述发动机模型如以下公式所示:

其中,

步骤2中所述基于好奇心驱动的A3C代理模型包括:其中主要包括两类网络,全局神经网络与局部神经网络,二者的结构一致,其中两者均包含一个Actor 网络和一个Critic网络。全局神经网络负责获取局部神经网络计算的累计梯度完成对神经网络相关参数的更新,与此同时将更新后的神经网络参数传递给局部神经网络;局部神经网络则负责与环境进行交互;

步骤3中所述状态量为:汽车车速v,汽车加速度a、动力电池SOC和坡度i,状态变量向量为s={v,a,SOC,i}

r=-{fuel(t)+α[SOC

其中,fuel(t)为当前时刻下汽车的燃油消耗,SOC

内部奖励函数表示的为下一时刻状态的预测差值,内部奖励函数的定义如下式所示:

其中,φ(s

步骤4中建立与上述基于好奇心驱动的A3C代理模型网络结构相同的Actor 与Critic网络,同时获取相关最优训练数据集,对Actor与Critic网络单独进行预训练,并利用训练后的Actor与Critic网络的相关参数对基于好奇心驱动的A3C 代理模型进行初始化,得到基于预训练和好奇心驱动的A3C代理模型,具体包括以下步骤:

步骤Ⅰ:建立与上述基于好奇心驱动的A3C代理模型网络结构相同的Actor 与Critic网络;

步骤Ⅱ:获取相关历史工况,并且利用DP算法进行求解,得到最优训练数据集合(s

步骤Ⅲ:在获取到的最优训练数据集合中,利用随机采样的方法,对步骤Ⅰ中所建立的Actor与Critic网络进行单独的训练,得到训练后的Actor与Critic 网络;

步骤Ⅳ:将步骤Ⅲ中训练后的Actor与Critic网络的相关参数赋值给基于好奇心驱动的A3C代理模型进行初始化,得到基于预训练和好奇心驱动的A3C代理模型。

步骤5中获取相关训练数据集,根据获得的相关训练数据集对所述基于预训练和好奇心驱动的A3C代理模型进行训练,实现对基于预训练和好奇心驱动的 A3C代理模型的微调,得到训练后的基于预训练和好奇心驱动的A3C代理模型;,具体包括以下步骤:

步骤A:将初始化后的基于预训练和好奇心驱动的A3C代理模型与被控对象(混合动力汽车)进行实时交互,得到相关训练数据集合(s

步骤B:根据获得的相关训练数据集对所述基于预训练和好奇心驱动的A3C 代理模型进行训练,实现对基于预训练和好奇心驱动的A3C代理模型的微调,得到训练后的基于预训练和好奇心驱动的A3C代理模型。

上述步骤A具体包括:全局神经网络中的Actor网络与Critic网络参数分别用θ和ω表示;局部神经网络中的Actor网络与Critic网络参数分别用θ′和ω′表示,累计梯度dθ←0和dω←0;将初始化后的基于预训练和好奇心驱动的A3C 代理模型与被控对象(混合动力汽车)进行实时交互,得到训练数据集

上述步骤B中根据获得的相关训练数据集对所述基于预训练和好奇心驱动的A3C代理模型进行训练,实现对基于预训练和好奇心驱动的A3C代理模型的微调,得到训练后的基于预训练和好奇心驱动的A3C代理模型,具体包括以下步骤:

步骤①:在运行步数达到最大步数或者当车辆当前状态达到最终状态后,采用逆向采样法逆序采样,并且计算每个采样时刻的动作价值;

步骤②:Critic神经网络的损失用梯度下降法计算,损失的计算公式为:

步骤③:Actor神经网络的损失计算采用梯度上升法,同时给将策略π的熵值添加至损失函数中,可以实现更好的探索,防止陷入局部最优解,整个目标函数的梯度包括与策略参数相关的熵正则化项,采用的公式为:

步骤④:根据以上步骤中单个采样时间获取的梯度,将其累加得到在某个时间段内的累计梯度值dθ和dω,根据所得到的累计梯度值dθ和dω完成对全局神经网络参数的更新,随后将全局神经网络的参数传递给局部神经网络,即θ′=θ和ω′=ω,并且将累计梯度设置为0,即dθ←0和dω←0,从而进行下一次的环境交互;

步骤⑤:如此重复步骤①至步骤④,直至达到训练要求,最后得到训练后的基于预训练和好奇心驱动的A3C代理模型。

上述步骤6中使用训练后的基于预训练和好奇心驱动的A3C代理模型进行并联式混合动力车辆的能量管理,具体包括以下步骤:

第一步:通过相关传感器获取汽车当前状态量集合s

第二步:将获取的汽车当前状态量集合s

第三步:将所获得的控制量发动机转矩T

第四步:如此重复第一步至第三步,直至汽车完成行驶任务。

以上所述的基于预训练和好奇心驱动的A3C算法的混合动力系统能量管理方法理论上是基于数据驱动的并且是无模型的,通常对混合动力系统的任何特定拓扑不敏感,应用于混联式混合动力系统。

有益效果:本发明提供了好奇心驱动的混合动力系统深度强化学习能量管理方法,首先,建立基于好奇心驱动的A3C代理模型;其次,设置基于好奇心驱动的A3C代理模型的状态、动作和回报,得到设置后的基于好奇心驱动的A3C 代理模型;然后,建立与上述基于好奇心驱动的A3C代理模型网络结构相同的 Actor与Critic网络,同时获取相关最优训练数据集,对Actor与Critic网络单独进行预训练,并利用训练后的Actor与Critic网络的相关参数对基于好奇心驱动的A3C代理模型进行初始化,得到基于预训练和好奇心驱动的A3C代理模型;其次,获取相关训练数据集,根据获得的相关训练数据集对所述基于预训练和好奇心驱动的A3C代理模型进行训练,实现对基于预训练和好奇心驱动的A3C代理模型的微调,得到训练后的基于预训练和好奇心驱动的A3C代理模型,最后,使用训练后的基于预训练和好奇心驱动的A3C代理模型进行混联式混合动力车辆的能量管理,以获取更好的控制效果。采用本发明的方法可以有效解决A3C 方法中探索不深入的问题,同样使用预训练的方法,可以使神经网络快速收敛,有效提高能量管理策略的控制效果和算法的快速性,提高能量管理算法的鲁棒性和对工况的适应性,进一步提高车辆的燃油经济性。本发明的方法不仅可以解决 A3C算法探索不充分的问题,还可以解决A3C算法训练速度慢的问题。在保证汽车动力性的前提下,在获得更高燃油经济性的基础上,实现神经网络的快速收敛。

附图说明

图1是本发明实施例中提供的混联式混合动力汽车的结构图;

图2是本发明实施例中提供的基于预训练和好奇心驱动的A3C的混合动力车辆能量管理方法的训练和应用过程的示意图;

图3是本发明实施例中提供的基于预训练和好奇心驱动的A3C的混合动力车辆能量管理设计方法流程示意图;

图4是本发明实施例中提供的不同能量管理策略的平均累积奖励图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明:

如图1所示,根据结构图,可以看出混联式混合动力汽车包括电池、电机、发动机、发电机、主减速器和能量管理系统控制器组成。

如图2所示,好奇心驱动的混合动力系统深度强化学习能量管理方法的训练和应用过程的示意图,其基本工作原理是:首先,根据DP算法求解出相关最优训练集合(s,a,r,s′),通过模仿学习方法对Actor网络进行单独训练,同时通过 TD误差最小的方法对Critic网络进行单独的训练,训练结束后,将Actor网络与Critic网络的相关参数对基于好奇心的A3C算法进行初始化,随后,通过相关传感器获取影响能量管理的参数,此处为汽车的行驶状态,获取相关状态量,分别为汽车车速v,汽车加速度a、动力电池SOC和坡度i,组成当前时刻状态变量向量为s

图3是本发明实施例中提供的一种基于预训练和好奇心驱动的A3C的混合动力车辆能量管理设计方法流程示意图,按照流程示意图,完成对基于预训练和好奇心驱动的A3C的混合动力车辆能量管理结构系统的设计。

如图3所示,一种基于预训练和好奇心驱动的A3C的混合动力车辆能量管理设计方法,包括以下步骤:

步骤201,建立混联式混合动力汽车模型,其中包括汽车动力学模型、行星齿轮模型、电机模型、电池模型和发动机模型;

其中汽车动力学模型如以下公式所示:

其中,G为混合动力汽车重力,F

行星齿轮模型如以下公式所示:

n

T

其中,其中n

电机模型如以下公式所示:

其中,P

所述电池模型如以下公式所示:

其中,P

所述发动机模型如以下公式所示:

其中,

步骤202,建立基于好奇心驱动的A3C代理模型,其中基于好奇心驱动的 A3C代理模型包括两种神经网络,即全局神经网络与局部神经网络,两者神经网络结构一样,都包含一个Actor网络与Critic网络。其工作过程:每个局部神经网络会独立的和环境进行交互得到经验数据,这些线程之间互不干扰,独立运行;局部神经网络与环境进行交互并且计算累计损失梯度,并将累计损失梯度传递给全局神经网络,全局神经网络根据累计梯度对全局神经网络参数进行更新,然后,在全局神经网络参数更新完成后,局部神经网络同步全局神经网络的参数;

步骤203设置A3C代理模型的状态、动作和回报,得到设置后的A3C代理模型

在设置A3C代理模型的状态、动作和回报,得到设置后的A3C代理模型时,具体包括:汽车车速v,汽车加速度a、动力电池SOC和坡度i,状态变量向量为s={v,a,SOC,i}

r=-{fuel(t)+α[SOC

其中,fuel(t)为当前时刻下汽车的燃油消耗,SOC

内部奖励函数表示的为下一时刻状态的预测差值,内部奖励函数的定义如下式所示:

其中,φ(s

步骤204,获建立与上述基于好奇心驱动的A3C代理模型网络结构相同的 Actor与Critic网络,同时获取相关最优训练数据集,对Actor与Critic网络单独进行预训练,并利用训练后的Actor与Critic网络的相关参数对基于好奇心驱动的A3C代理模型进行初始化,得到初始化后基于预训练和好奇心驱动的A3C代理模型

在获取相关最优训练数据集并且对所构建的模型进行预训练时,具体包括以下步骤:

步骤Ⅰ:建立与上述基于好奇心驱动的A3C代理模型网络结构相同的Actor 与Critic网络;

步骤Ⅱ:获取相关历史工况,并且利用DP算法进行求解,得到最优训练数据集合(s

步骤Ⅲ:在获取到的最优训练数据集合中,利用随机采样的方法,对步骤Ⅰ中所建立的Actor与Critic网络进行单独的训练,得到训练后的Actor与Critic 网络;

步骤Ⅳ:将步骤Ⅲ中所训练的Actor与Critic网络的相关参数赋值给基于好奇心驱动的A3C代理模型进行初始化,得到基于预训练和好奇心驱动的A3C代理模型。

步骤205,获取相关训练数据集,根据获得的相关训练数据集对所述基于预训练和好奇心驱动的A3C代理模型进行训练,实现对基于预训练和好奇心驱动的A3C代理模型的微调,得到训练后的基于预训练和好奇心驱动的A3C代理模型

对于上述步骤205的实现,具体包括以下步骤:

步骤A:将初始化后的基于预训练和好奇心驱动的A3C代理模型与被控对象(混合动力汽车)进行实时交互,得到相关训练数据集合(s

步骤B:根据获得的相关训练数据集对所述基于预训练和好奇心驱动的A3C 代理模型进行训练,实现对基于预训练和好奇心驱动的A3C代理模型的微调,得到训练后的基于预训练和好奇心驱动的A3C代理模型。

对上述步骤205中的步骤A中的将初始化后的基于预训练和好奇心驱动的 A3C代理模型与被控对象(混合动力汽车)进行实时交互,得到相关训练数据集合(s

对上述步骤205中的步骤B中的根据获得的相关训练数据集对所述基于预训练和好奇心驱动的A3C代理模型进行训练,实现对基于预训练和好奇心驱动的A3C代理模型的微调,得到训练后的基于预训练和好奇心驱动的A3C代理模型,具体包括:

步骤①:在运行步数达到最大步数或者当车辆当前状态达到最终状态后,采用逆向采样法逆序采样,并且计算每个采样时刻的动作价值;

步骤②:Critic神经网络的损失用梯度下降法计算,损失的计算公式为:

步骤③:Actor神经网络的损失计算采用梯度上升法,同时给将策略π的熵值添加至损失函数中,可以实现更好的探索,防止陷入局部最优解,整个目标函数的梯度包括与策略参数相关的熵正则化项,采用的公式为:

步骤④:根据以上步骤中单个采样时间获取的梯度,将其累加得到在某个时间段内的累计梯度值dθ和dω,根据所得到的累计梯度值dθ和dω完成对全局神经网络参数的更新,随后将全局神经网络的参数传递给局部神经网络,即θ′=θ和ω′=ω,并且将累计梯度设置为0,即dθ←0和dω←0,从而进行下一次的环境交互。

步骤⑤:如此重复步骤①至步骤④,直至达到训练要求,最后得到训练后的基于预训练和好奇心驱动的A3C代理模型。

步骤206,使用训练后的基于预训练和好奇心驱动的A3C代理模型进行混合动力车辆的能量管理,具体包括以下步骤:

第一步:通过相关传感器获取汽车当前状态量集合s

第二步:将获取的汽车当前状态量集合s

第三步:将所获得的控制量发动机转矩T

第四步:如此重复第一步至第三步,直至汽车完成行驶任务。

图4是本发明实施例中提供的不同能量管理策略的平均累积奖励图,根据结果图可以看出:三种不同的能量管理策略分别为:基于A3C的能量管理策略 (A3C)、基于好奇心驱动(Curiosity driven)的A3C的能量管理策略(C-A3C) 和基于预训练(Pretraining)和好奇心驱动的A3C(PC-A3C);在保证终端SOC 一致的基础上,不同能量管理策略的平均累积奖励图如图4所示,从图中可以看出A3C与C-A3C的收敛回合数接近,但是由于C-A3C由于添加了好奇心探索机制,所以在收敛时,平均累积回报会比A3C较高,因此可以获得更好的控制性能;PC-A3C与其他两种控制策略相比较,其收敛回合数明显减小,所以 PC-A3C可以实现更快的收敛,因此可以更好的进行实际应用,同时PC-A3C在收敛时的平均累积奖励比传统的A3C要高,与C-A3C的接近,因此可以说明 PC-A3C的控制效果,可以在实现更低的燃油消耗的基础上,实现更快的收敛速度。因此应用本发明的方法,可以有效提高能量管理策略的控制效果和算法的快速性,提高能量管理算法的鲁棒性和对工况的适应性,进一步提高车辆的燃油经济性。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上仅是本发明的优选实施例,熟悉本领域技术的人员显然可以容易的对这些实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不经过创造性的劳动,因此本发明不限于上述实施例,本领域技术人员根据本发明的揭示,不脱离本发明范畴所做出的改进和修改都应该在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号