声明
致谢
摘要
第一章 绪论
1.1 课题背景、目的与意义
1.1.1 研究背景
1.1.2 论文研究的目的和意义
1.2 国内外研究现状
1.2.1 应急路径修复相关研究
1.2.2 强化学习方法用于决策规划问题的相关研究
1.3 本文研究内容与论文组织
第二章 相关理论介绍
2.1 受损路网修复的基本原则
2.2 路网修复工作的约束条件
2.3 环境中的Agent
2.4 有限马尔科夫决策过程
2.5 强化学习中的一般模型
2.5.1 目标与回报
2.5.2 策略和值函数
2.5.3 最优策略与最优值函数
2.6 Q-learning算法
2.7 本章小节
第三章 无连续受损路段下的抢修队调度问题的建模与求解
3.1 引言
3.2 问题描述
3.3 马尔科夫决策模型
3.3.1 Agent的动作
3.3.2 Agent的状态
3.3.3 Agent的回报模型
3.3.4 Agent的马尔科夫决策模型
3.4 基于Q-learning的调度策略求解
3.5 实验结果与分析
3.5.1 实验环境与参数设置
3.5.2 算法运行时间
3.5.3 路网修复效果
3.5.4 抢修队的规划方案
3.6 本章小节
第四章 连续受损路段下的抢修队调度问题的建模与求解
4.1 引言
4.2 问题描述
4.3 修复连续受损路段的决策模型
4.3.1 Agent的动作
4.3.2 Agent的状态
4.3.3 Agent的回报模型
4.3.4 修复连续受损路段的马尔科夫决策过程
4.4 基于Q-learning的连续受损路段中抢修队调度算法
4.4.2 α的设置
4.4.3 平衡Agent的探索和利用
4.5 实验结果与分析
4.5.1 路网环境的参数设置
4.5.2 路网修复效果
4.5.3 抢修队的规划方案
4.6 本章小节
第五章 总结与展望
5.1 本文的主要创新点
5.2 进一步的研究工作
5.2.1 受损路网的修复层面
5.2.2 求解算法层面
参考文献
攻读硕士学位期间的学术活动及成果情况