首页> 中文学位 >模型无关的贝叶斯强化学习方法研究
【6h】

模型无关的贝叶斯强化学习方法研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 引言

1.1研究背景及意义

1.2国内外研究现状

1.3主要工作

1.4论文组织结构

第二章 相关工作

2.1强化学习的基本原理

2.2贝叶斯推理

2.3高斯过程

2.4几种常用的强化学习方法

2.5本章小结

第三章 基于优先级扫描Dyna结构的贝叶斯Q学习

3.1 Dyna结构以及优先级扫描

3.2优先级扫描Dyna结构的贝叶斯Q学习算法及分析

3.3实验及结果分析

3.4本章小结

第四章 基于随机投影的高斯过程时间差分算法

4.1高斯过程时间差分算法

4.2基于随机投影的高斯过程时间差分算法及分析

4.3基于随机投影的高斯过程时间差分算法

4.4实验及结果分析

4.5本章小结

第五章 基于状态依赖探索的贝叶斯策略梯度算法

5.1策略梯度强化学习框架

5.2贝叶斯积分梯度估计方法

5.3状态依赖探索的贝叶斯策略梯度算法

5.4实验结果分析

5.5本章小结

第六章 总结与展望

6.1本文工作总结

6.2工作展望

参考文献

攻读硕士学位期间发表(录用)的论文及参与的项目

致谢

展开▼

摘要

强化学习是一类重要的机器学习方法,强化学习具有两个重要的特征:算法可以在不知道环境的全部模型时,求解模型未知的最优化问题;强化学习强调Agent与环境的在线交互,在交互过程中对数据进行累积学习,以达到在线求解最优策略的目的。因此,强化学习方法被越来越多地用于作业优化调度、在线学习控制、游戏等领域。针对于强化学习方法存在的“维数灾难”、收敛速度慢、收敛精度低等问题,本文以模型无关的贝叶斯强化学习为出发点,提出了几种模型无关的贝叶斯强化学习算法,主要研究概括为以下3个方面。
  (1)针对贝叶斯Q学习存在收敛速度慢且收敛精度低的问题,提出一种基于优先级扫描Dyna结构的贝叶斯Q学习方法。该方法主要分为2部分:学习部分和规划部分。基于学习部分建立的模型,规划部分使用优先级扫描方法和动态规划方法对动作值函数进行规划更新。从理论上分析了算法的收敛性,并通过实验表明该方法能较好地平衡探索与利用,且具有较优的收敛速度及收敛精度。
  (2)针对状态空间中的有效样本选择问题,在高斯过程时间差分算法框架下,提出一种基于随机投影的高斯过程时间差分算法。利用哈希函数把状态集合中的元素映射成哈希值,根据哈希值分组,来减少状态之间的比较。实验结果表明该方法能够提高算法的执行速度,且在评估状态值函数精度和算法执行时间上有较好地平衡。
  (3)针对蒙特卡洛方法对梯度的估计易导致高方差,初始性能不够稳定的问题,提出一种基于状态依赖探索的贝叶斯策略梯度算法。将策略梯度模型化为一个高斯过程,利用贝叶斯积分方法来评估策略,在每一个状态下引入状态依赖探索函数,不仅可以克服因算法初始策略的随机性带来的不稳定,而且可以减小每个情节中估计的方差,使得算法具有更快的收敛速度和鲁棒性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号