第1 章绪 论
1.1 课题背景及研究意义
1.2 国内外研究现状分析
1.2.1 在线决策技术相关研究现状
1.2.2 强化学习相关研究现状
1.2.3 强化学习硬件加速的相关研究现状
1.2.4 研究现状分析总结
1.3 主要研究内容
第2 章总体研究方案
2.1 系统设计要求与分析
2.2 DQN 算法理论基础及分析
2.2.1 Q 学习算法
2.2.2 神经网络算法
2.2.3 DQN 算法分析
2.3 技术路线
2.4 本章小结
第3 章 DQN 算法的硬件加速器设计及优化
3.1 引言
3.2 DQN 算法加速的设计任务分解
3.3 DQN 算法加速器设计
3.3.1 DQN 算法 IP 核结构设计
3.3.2 加速算子单元 VMPU 设计
3.3.3 计算模块与控制模块设计
3.3.4 设计空间探索及优化
3.3.5 仿真验证
3.4 DQN 算法加速过程的任务调度
3.5 本章小结
第4 章应用验证与性能分析
4.1 引言
4.2 应用验证环境搭建
4.2.1 验证平台组成及工作原理描述
4.2.2 软件环境构建
4.3 倒立摆控制决策应用验证
4.3.1 倒立摆控制决策应用分析
4.3.2 面向倒立摆控制决策的环境构建
4.3.3 面向倒立摆控制决策应用的加速器参数探索寻优
4.3.4 验证与性能分析
4.4 无人机自主决策应用验证
4.4.1 无人机自主决策应用分析
4.4.2 无人机自主决策环境建模
4.4.3 面向无人机自主决策应用的加速器参数探索寻优
4.4.4 验证与性能分析
4.5 本章小结
结 论
参考文献
攻读硕士学位期间发表的论文及其它成果
声明
致 谢
哈尔滨工业大学;