首页> 中国专利> 基于离策强化学习的小车倒立摆系统的鲁棒最优控制方法

基于离策强化学习的小车倒立摆系统的鲁棒最优控制方法

摘要

本发明公开了基于离策强化学习的小车倒立摆系统的鲁棒最优控制方法。本发明借助倒立摆的跟踪误差系统和信号产生系统,组建成一个增广的系统。相对于这个增广后的系统,进而得到对应的基于小车倒立摆系统的时变HJI方程。设计了一种基于执行‑评价‑扰动网络结构的算法,得到时变HJI方程的近似解。采用具有时变特点的激活函数的神经网络进行逼近。为了满足倒立摆有限时间终端约束条件,在设计神经网络权重更新率时,额外的终端误差项被考虑。最后,借助李亚普诺夫稳定性理论,给出了小车倒立摆系统的角度、速度误差收敛性和跟踪误差系统稳定性的证明。本发明实现了外部扰动作用下直线倒立摆系统的有限时间最优控制。

著录项

  • 公开/公告号CN112987573A

    专利类型发明专利

  • 公开/公告日2021-06-18

    原文格式PDF

  • 申请/专利权人 中国计量大学;

    申请/专利号CN202110219290.9

  • 发明设计人 崔小红;陈家裕;

    申请日2021-02-26

  • 分类号G05B13/04(20060101);

  • 代理机构33272 杭州奥创知识产权代理有限公司;

  • 代理人王佳健

  • 地址 310018 浙江省杭州市下沙高教园区学源街258号

  • 入库时间 2023-06-19 11:29:13

说明书

技术领域

本发明涉及一种不确定非线性系统的有限时间鲁棒最优控制方法,尤其涉及一种数据驱动的控制器设计方法,能够减少重建系统模型的误差对后续控制器设计的影响。

背景技术

一级直线小车倒立摆作为倒立摆家族中最为经典的系统,是一个多变量、强耦合、单入多出的系统,因此对倒立摆控制系统的控制具备一定的复杂性。倒立摆系统对控制的实时性要求很高,传统的倒立摆控制理论的控制精度已经很难达到目前人们的需求,其控制的精度有待提升。一级倒立摆作为经典的非线性控制对象,对于它的控制是一个复杂的非线性问题,在控制过程中不仅要控制好摆杆角度同时还要兼顾小车位置,对控制品质的要求较高。

H

由于直线倒立摆系统的内部结构复杂,所以很难建立精确的数学模型。于是设计基于数据的数据驱动算法显得尤为重要。另外有限时间最优控制问题与无限时间最优控制问题相比求解难度更大,主要原因在于获得的HJB方程是时变的。因此,对于直线倒立摆系统的有限时间域的最优控制问题而言,其HJB方程的解显含时间t,这个加大了求解难度。另外,控制器需要满足饱和约束的限制,一旦超出饱和界限,对于倒立摆控制系统而言都是致命的伤害。

发明内容

本发明提供了一种基于强化学习的不确定系统的鲁棒最优跟踪控制方法,使得能实现直线倒立摆系统的有限时间最优跟踪控制。为此,本发明提供以下技术方案:

本发明包括如下步骤:

步骤一,针对小车倒立摆系统的跟踪问题,建立小车倒立摆系统的动态模型,考虑到外部扰动和未建模动态的影响,将小车倒立摆系统抽象成一类连续时间的仿射非线性系统,然后通过状态增维方式构造出小车倒立摆系统的跟踪误差系统和信号产生系统组成的增广系统。

步骤二,根据对策论的知识,推导相对于步骤一的小车倒立摆增广系统的时变跟踪HJI方程的解,即最小-最大优化问题的解。

同时考虑控制器饱和受限的情况,引入非二次型函数改进传统的控制器的惩罚函数,代替原来的二次型形式的惩罚函数。借助最优控制理论,获得相对于有限时间小车倒立摆系统的H

步骤三,借助贝尔曼方程间接地求解出基于小车倒立摆系统的HJI方程的解。提出不依赖于小车倒立摆动力学模型的离策强化学习算法。

通过加入探测信号e

步骤四,实现步骤三设计的倒立摆系统的离策强化学习算法,应用评价-执行-扰动神经网络结构去分别近似控制输入u,值函数V和扰动ω,根据万能逼近原理,神经网络是一个很好的选择,可以在紧集上近似光滑的函数。由于HJI方程对时间有依赖性,方程的解是时变的。因此,采用具有常数权重和时变激活函数的神经网络形式来近似时变的值函数,控制输入和扰动策略。并应用提出的算法作用到倒立摆系统中,抑制扰动对系统的影响,实现小车倒立摆系统有限时间的H

在上述技术方案的基础上,本发明还可以采用进一步的技术方案:

在步骤三中,首先给出依赖于倒立摆模型的离线的迭代算法,算法主要包括两个迭代步骤,策略估计和策略改进,包括求解线性跟踪贝尔曼方程,得到值函数V

在步骤四中,在处理倒立摆系统的有限时间H

本发明的有益效果:本发明避免了花费大量人力、物力重建小车倒立摆系统的动力学模型,仅仅依靠采集到的角度和角速度数据直接进行控制器的设计,这是一种完全基于测量数据的设计方案,可以避免重建直线倒立摆系统模型时系统的误差对后续控制器设计带来的影响。利用神经网络进行在线学习,实现快速控制的目的。

本发明应用在直线倒立摆系统中,充分考虑到了外扰对系统的影响,同时兼顾控制输入饱和限制的要求,采用的不依赖直线倒立摆系统的离策强化学习的算法,使得系统的外部扰动可以是任意形式的存在,使得获得的倒立摆系统状态数据可以用于神经网络的充分学习,避免的学习不充分网络过早收敛的弊端。

附图说明

图1倒立摆饱和控制器系统有限时间最优控制求解框图;

图2倒立摆评价网权重收敛图;

图3倒立摆执行网权重收敛图;

图4倒立摆最优控制及其作用下的跟踪误差。

具体实施方式

基于离策强化学习的小车倒立摆系统的鲁棒最优控制方法,包括如下步骤:

步骤一,针对小车倒立摆系统的跟踪问题,建立小车倒立摆系统的动态模型,考虑到外部扰动和未建模动态的影响,将小车倒立摆系统抽象成一类连续时间的仿射非线性系统,然后通过状态增维方式构造出小车倒立摆系统的跟踪误差系统和信号产生系统组成的增广系统。

定义增维后的状态向量

步骤二,根据对策论的知识,推导相对于步骤一的小车倒立摆增广系统的时变跟踪HJI方程的解,即最小-最大优化问题的解。同时考虑控制器饱和受限的情况,引入非二次型函数改进传统的控制器的惩罚函数

步骤三,借助贝尔曼方程间接地求解出基于小车倒立摆系统的HJI方程的解。提出不依赖于小车倒立摆动力学模型的离策强化学习算法,所述的离策强化学习算法如下:

选取初始的控制输入u

步骤1.求解时变的积分跟踪贝尔曼方程,解出(V

满足

步骤2.令j=j+1.如果||V

该算法无需小车倒立摆系统的动态信息也能求解出小车倒立摆系统的有限时间H

通过加入探测信号e

步骤四,实现步骤三设计的倒立摆系统的离策强化学习算法,应用评价-执行-扰动神经网络结构去分别近似控制输入u,值函数V和扰动ω,其中三神经网络均采用BP神经网络,结构如下

其中W

根据万能逼近原理,神经网络是一个很好的选择,可以在紧集上近似光滑的函数。由于HJI方程对时间有依赖性,方程的解是时变的。因此,采用具有常数权重和时变激活函数的神经网络形式来近似时变的值函数,控制输入和扰动策略。并应用提出的算法作用到倒立摆系统中,抑制扰动对系统的影响,实现小车倒立摆系统有限时间的H

依据上述步骤,本实施例可具体设计如下步骤:

1、对于含有扰动的未知非线性倒立摆系统的最优控制问题,可将其归结为零和博弈问题。控制和扰动共同作用在同一个系统上并相互影响,在某个性能指标约束下相互对抗形成策略。该问题的核心是寻找满足各自性能需求的最小-最大均衡解,这里将通过求解哈密尔顿-雅克比-艾萨克(HJI)方程获得。

2、针对倒立摆实际问题中存在控制输入的振幅限制,引入非二次型函数,改变传统性能指标中控制输入的二次型形式,解决控制受限问题。

3、应用最优控制理论、动态规划理论及微分博弈理论推导得到饱和约束下时变的HJI方程。

4、提出基于数据的离策强化学习算法摆脱对直线倒立摆模型信息的依赖,实现完全基于数据信息的自适应学习。

5、采用具有时变激活函数的神经网络结构近似时变的值函数及控制策略来满足时变特性,应用矢量算子法和克罗内克积操作技术,结合神经网络多层结构多层间权重深入学习,实现对数据的充分学习避免由于逼近精度不高导致算法发散的问题。

6、综合考虑贝尔曼误差和值函数终端误差,应用链式法则,设计多层神经网络权重包括输入层到隐含层及隐含层到输出层的权重更新律。

7、借助Lyapunov稳定性理论证明基于神经网络深度学习的倒立摆闭环系统有限时间稳定性。倒立摆饱和控制器系统有限时间鲁棒最优控制求解框图如图1。

8、针对倒立摆系统绘制评价网和执行网的神经网络权重发展趋势如图2和图3。图4描绘了得到的最优鲁棒控制器和在其作用下的跟踪误差曲线。通过图4可以发现尽管跟踪误差向零接近,而得到的最优鲁棒控制器由于非零的参考信号存在并不是向零趋近的,图4放大部分的图形很好的描绘了这一现象。

以上列举的仅是本发明的优选实施方式,本发明并不限于以上实施例。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号