连续时间MDPs增强学习方法及其在无人机控制中的应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

无人机系统在恶劣气象条件和动态战场环境中的应用，给无人机控制技术带来不确定性、高度非线性、多输入多输出、输入通道耦合以及非结构化环境和动态环境等诸多挑战。论文以人工智能的视角，从连续时间Markov决策过程（Continuous-time Markov Decision Processes，CTMDPs）出发，发展了适用于CTMDPs增强学习的新理论方法，并应用到无人机自主控制当中。论文综合运用Markov决策过程（Markov Decision Processes，MDPs）、随机优化、增强学习等多种理论，重点对基于性能势的CTMDPs问题模型、策略迭代求解算法、增强学习方法以及其在无人机控制中的应用等方面进行了理论与应用研究。论文的主要研究成果如下：
　　1、采取连续时间Markov决策过程对无人机系统控制问题中的不确定性进行建模，构建了基于性能势的CTMDPs模型。1）MDPs通过假设状态之间转移是概率的，为环境中不确定性建模提供了有效的概率化方法。针对非结构化环境和动态环境中，无人机系统参数和环境都是时变的特点，论文利用具有连续状态转移时间的CTMDPs模型替代具有固定转移时间的传统MDPs模型。通过动态性很强的“双车博弈”例子，验证了CTMDPs模型比MDPs模型具有更好的性能。2）要想求解CTMDPs模型，首先需要获得模型参数。然而，现有CTMDPs模型中参数具有时变形式，很难显式地给出其概率分布。另一方面，模型参数与样本路径之间没有明显的估计关系式，因此很难通过样本路径来估计模型参数。为此，借助于性能势对Markov随机过程的描述，论文构建了基于性能势的CTMDPs模型。
　　2、首次提出了基于性能势的CTMDPs模型策略迭代求解算法。1）利用性能势理论推导出了长期平均收益意义下：策略基本引理、最优策略的充分必要性条件、以及具体的CTMDPs策略迭代算法。2）在理论上证明了所提出算法的收敛性以及算法解的最优性。3）在理论上分析了传统MDPs只是CTMDPs在单位转移速率矩阵Λ=I时的特例。4）通过一个具有强对抗性的动态博弈例子对所提出的CTMDPs策略迭代算法进行验证，并与传统MDPs方法进行比较。结果表明所提出的CTMDPs算法能够很好地接近问题的最优解析解，并对参数的变化具有较高的鲁棒性。与传统MDPs比较结果显示，无论是从解的质量还是算法的鲁棒性来看，CTMDPs策略迭代算法都具有明显优势。
　　3、首次提出了基于性能势的 CTMDPs模型增强学习方法。1）给出了CTMDPs中状态转移速率、嵌入链转移概率等参数的估计公式。对性能势估计，给出了适合离线估计的L步估计算法，以及适合于在线估计的时间差分算法，并从理论和仿真两个方面对估计公式收敛性进行了验证。2）推导出了增强学习的具体算法，并讨论了如何避免求解过程陷入局部极值点。3）以标准的增强学习验证问题（倒立摆）为例，对比了Q-learning、Actor-Critic、GENITOR、SANE等它经典学习方法以及传统MDPs模型学习方法，结果表明CTMDPs-RL方法求解速度比上述方法更快且陷入局部极值点的情况更少。
　　4、应用基于连续时间Markov决策过程的增强学习方法求解了无人机控制问题。1）给出了无人机引导任务中具有积分型指标和终端型指标的两类控制问题在增强学习方法下的统一求解框架。2）分别利用CTMDPs-RL算法求解了爬升-下降”轨迹跟踪、“S型转弯”轨迹跟踪两个具有积分型指标的算例；以及定高飞行、定速飞行两个具有终端型指标的算例。通过对实验结果的性能与误差分析，表明CTMDPs-RL算法在无人机动力学模型未知前提下，通过不断学习，可以很快得到满足要求的控制策略。

著录项

作者
贾圣德;
展开▼
作者单位

国防科学技术大学;

展开▼
授予单位国防科学技术大学;
学科控制科学与工程
授予学位博士
导师姓名沈林成;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类无人驾驶飞机;控制系统;
关键词
连续时间; 马尔克夫决策; 策略迭代; 增强学习; 无人机; 自主控制;

相似文献

中文文献
外文文献
专利

1. 机器学习方法在无人机室内导航中的应用研究 [J] . 田瑞 ,白璟 ,伍俊 . 科技成果纵横 . 2020,第2期
2. 机器学习方法在无人机室内导航中的应用与实现 [J] . SONG Yajuan ,FENG Ping ,ZHANG Honggang . 苏州市职业大学学报 . 2019,第003期
3. 随机线性二次最优控制(LQ)在连续时间均值--方差投资组合中的应用 [J] . 李宏杰 . 嘉兴学院学报 . 2003,第003期
4. 连续时间Markov决策过程在呼叫接入控制中的应用 [J] . 周亚平 ,奚宏生 ,殷保群 . 控制与决策 . 2001,第B11期
5. 北斗星基增强技术在电网无人机巡检中的应用 [J] . 稂龙亚 ,杨阳 ,严波 . 北京测绘 . 2021,第012期
6. 街景地图与无人机航拍技术在数据增强城市设计中的应用 [C] . 盛强 . 第十一届规划信息化实务论坛 . 2017
7. 连续时间MDP折扣模型的单调最优策略 [A] . 廖恭图 . 2010

连续时间MDPs增强学习方法及其在无人机控制中的应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅