声明
第一章 绪论
1.1 问题的提出
1.2 研究现状
1.3 论文研究内容及创新点
1.4 论文组织结构
第二章 基于性能势的Markov决策过程分析
2.1 引言
2.2 Markov随机过程基本理论
2.3 连续时间Markov决策过程
2.4 性能势的观点
2.5 小结
第三章 连续时间Markov决策过程策略迭代方法
3.1 引言
3.2 策略迭代
3.3 双车博弈问题
3.4 CTMDPs方法在“双车博弈”中的应用
3.5 小结
第四章 CTMDPs增强学习方法
4.1 引言
4.2 基于样本的性能势估计
4.3 CTMDPs-RL算法
4.4 倒立摆问题
4.5 小结
第五章 CTMDPs-RL算法在无人机控制中的应用
5.1 引言
5.2 求解框架
5.3 控制策略求解
5.4 小结
第六章 总结与展望
6.1 论文工作总结
6.2 下一步研究方向
致谢
参考文献
作者在学期间取得的学术成果