模型无关的贝叶斯强化学习方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

强化学习是一类重要的机器学习方法,强化学习具有两个重要的特征:算法可以在不知道环境的全部模型时,求解模型未知的最优化问题;强化学习强调Agent与环境的在线交互,在交互过程中对数据进行累积学习,以达到在线求解最优策略的目的。因此,强化学习方法被越来越多地用于作业优化调度、在线学习控制、游戏等领域。针对于强化学习方法存在的“维数灾难”、收敛速度慢、收敛精度低等问题,本文以模型无关的贝叶斯强化学习为出发点,提出了几种模型无关的贝叶斯强化学习算法,主要研究概括为以下3个方面。
　　(1)针对贝叶斯Q学习存在收敛速度慢且收敛精度低的问题,提出一种基于优先级扫描Dyna结构的贝叶斯Q学习方法。该方法主要分为2部分:学习部分和规划部分。基于学习部分建立的模型,规划部分使用优先级扫描方法和动态规划方法对动作值函数进行规划更新。从理论上分析了算法的收敛性,并通过实验表明该方法能较好地平衡探索与利用,且具有较优的收敛速度及收敛精度。
　　(2)针对状态空间中的有效样本选择问题,在高斯过程时间差分算法框架下,提出一种基于随机投影的高斯过程时间差分算法。利用哈希函数把状态集合中的元素映射成哈希值,根据哈希值分组,来减少状态之间的比较。实验结果表明该方法能够提高算法的执行速度,且在评估状态值函数精度和算法执行时间上有较好地平衡。
　　(3)针对蒙特卡洛方法对梯度的估计易导致高方差,初始性能不够稳定的问题,提出一种基于状态依赖探索的贝叶斯策略梯度算法。将策略梯度模型化为一个高斯过程,利用贝叶斯积分方法来评估策略,在每一个状态下引入状态依赖探索函数,不仅可以克服因算法初始策略的随机性带来的不稳定,而且可以减小每个情节中估计的方差,使得算法具有更快的收敛速度和鲁棒性。

著录项

作者
于俊;
展开▼
作者单位

苏州大学;

展开▼
授予单位苏州大学;
学科计算机应用技术
授予学位硕士
导师姓名刘全;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动推理、机器学习;
关键词
强化学习; 贝叶斯Q学习; 随机投影; 高斯过程; 贝叶斯策略梯度;

相似文献

中文文献
外文文献
专利

1. 一种基于模型的可分解贝叶斯在线强化学习 [J] . . 电子学报 . 2014,第007期
2. 基于自适应核密度的贝叶斯概率模型岩性识别方法研究 [J] . 蔡泽园 ,鲁宝亮 ,熊盛青 . 物探与化探 . 2020,第004期
3. 非参数面板数据模型的贝叶斯分位回归方法研究 [J] . 张敏 ,罗幼喜 . 统计与决策 . 2020,第19期
4. 多式联运路径优化模型中的贝叶斯极大熵权重自学习方法研究 [J] . 张宏博 ,陈伟炯 ,闫明 . 计算机应用与软件 . 2018,第010期
5. 项目验收的同行评议辅助决策评价方法研究r——基于贝叶斯正则化修正的BP人工神经网络模型 [J] . 万昊 ,谭宗颖 ,张福俊 . 情报杂志 . 2017,第011期
6. 将贝叶斯统计及贝叶斯临床试验应用于中医药临床研究的思考 [C] . 刘云涛 . 全国中医药博士、博士后科技创新与成果转化学术会议暨全国中医“脑心同治”理论与临床应用学术交流会 . 2011
7. 贝叶斯强化学习中策略迭代算法研究 [A] . 尤树华 . 2016

模型无关的贝叶斯强化学习方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅