首页> 中文学位 >连续时间MDPs增强学习方法及其在无人机控制中的应用
【6h】

连续时间MDPs增强学习方法及其在无人机控制中的应用

代理获取

目录

声明

第一章 绪论

1.1 问题的提出

1.2 研究现状

1.3 论文研究内容及创新点

1.4 论文组织结构

第二章 基于性能势的Markov决策过程分析

2.1 引言

2.2 Markov随机过程基本理论

2.3 连续时间Markov决策过程

2.4 性能势的观点

2.5 小结

第三章 连续时间Markov决策过程策略迭代方法

3.1 引言

3.2 策略迭代

3.3 双车博弈问题

3.4 CTMDPs方法在“双车博弈”中的应用

3.5 小结

第四章 CTMDPs增强学习方法

4.1 引言

4.2 基于样本的性能势估计

4.3 CTMDPs-RL算法

4.4 倒立摆问题

4.5 小结

第五章 CTMDPs-RL算法在无人机控制中的应用

5.1 引言

5.2 求解框架

5.3 控制策略求解

5.4 小结

第六章 总结与展望

6.1 论文工作总结

6.2 下一步研究方向

致谢

参考文献

作者在学期间取得的学术成果

展开▼

摘要

无人机系统在恶劣气象条件和动态战场环境中的应用,给无人机控制技术带来不确定性、高度非线性、多输入多输出、输入通道耦合以及非结构化环境和动态环境等诸多挑战。论文以人工智能的视角,从连续时间Markov决策过程(Continuous-time Markov Decision Processes,CTMDPs)出发,发展了适用于CTMDPs增强学习的新理论方法,并应用到无人机自主控制当中。论文综合运用Markov决策过程(Markov Decision Processes,MDPs)、随机优化、增强学习等多种理论,重点对基于性能势的CTMDPs问题模型、策略迭代求解算法、增强学习方法以及其在无人机控制中的应用等方面进行了理论与应用研究。论文的主要研究成果如下:
  1、采取连续时间Markov决策过程对无人机系统控制问题中的不确定性进行建模,构建了基于性能势的CTMDPs模型。1)MDPs通过假设状态之间转移是概率的,为环境中不确定性建模提供了有效的概率化方法。针对非结构化环境和动态环境中,无人机系统参数和环境都是时变的特点,论文利用具有连续状态转移时间的CTMDPs模型替代具有固定转移时间的传统MDPs模型。通过动态性很强的“双车博弈”例子,验证了CTMDPs模型比MDPs模型具有更好的性能。2)要想求解CTMDPs模型,首先需要获得模型参数。然而,现有CTMDPs模型中参数具有时变形式,很难显式地给出其概率分布。另一方面,模型参数与样本路径之间没有明显的估计关系式,因此很难通过样本路径来估计模型参数。为此,借助于性能势对Markov随机过程的描述,论文构建了基于性能势的CTMDPs模型。
  2、首次提出了基于性能势的CTMDPs模型策略迭代求解算法。1)利用性能势理论推导出了长期平均收益意义下:策略基本引理、最优策略的充分必要性条件、以及具体的CTMDPs策略迭代算法。2)在理论上证明了所提出算法的收敛性以及算法解的最优性。3)在理论上分析了传统MDPs只是CTMDPs在单位转移速率矩阵Λ=I时的特例。4)通过一个具有强对抗性的动态博弈例子对所提出的CTMDPs策略迭代算法进行验证,并与传统MDPs方法进行比较。结果表明所提出的CTMDPs算法能够很好地接近问题的最优解析解,并对参数的变化具有较高的鲁棒性。与传统MDPs比较结果显示,无论是从解的质量还是算法的鲁棒性来看,CTMDPs策略迭代算法都具有明显优势。
  3、首次提出了基于性能势的 CTMDPs模型增强学习方法。1)给出了CTMDPs中状态转移速率、嵌入链转移概率等参数的估计公式。对性能势估计,给出了适合离线估计的L步估计算法,以及适合于在线估计的时间差分算法,并从理论和仿真两个方面对估计公式收敛性进行了验证。2)推导出了增强学习的具体算法,并讨论了如何避免求解过程陷入局部极值点。3)以标准的增强学习验证问题(倒立摆)为例,对比了Q-learning、Actor-Critic、GENITOR、SANE等它经典学习方法以及传统MDPs模型学习方法,结果表明CTMDPs-RL方法求解速度比上述方法更快且陷入局部极值点的情况更少。
  4、应用基于连续时间Markov决策过程的增强学习方法求解了无人机控制问题。1)给出了无人机引导任务中具有积分型指标和终端型指标的两类控制问题在增强学习方法下的统一求解框架。2)分别利用CTMDPs-RL算法求解了爬升-下降”轨迹跟踪、“S型转弯”轨迹跟踪两个具有积分型指标的算例;以及定高飞行、定速飞行两个具有终端型指标的算例。通过对实验结果的性能与误差分析,表明CTMDPs-RL算法在无人机动力学模型未知前提下,通过不断学习,可以很快得到满足要求的控制策略。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号