解决强化学习中维数灾问题的方法研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

针对强化学习任务中存在的“维数灾”(即状态空间的大小随着特征数量的增加而发生指数级的增长)及收敛速度慢两个普遍且严重的问题,本文分别从奖赏函数、分层强化学习和函数估计等不同的角度来给出解决方法,提出了基于启发式奖赏函数的分层强化学习算法和基于神经网络的强化学习算法。同时,在所提理论的基础上,分别开发了俄罗斯方块、Mountain car和Grid World等实验平台,将上述算法应用到实验中,通过实验分析,进一步验证所提算法在解决“维数灾”问题方面的正确性和有效性。本文的主要研究成果概括为以下五个方面:
　　 (1)提出了一种基于启发式奖赏函数的分层强化学习算法,并从理论上证明了该算法的收敛性。该算法通过在子任务中加入启发式奖赏信息,使Agent的探索速度大大提高。该算法不仅可以部分解决“维数灾”问题,而且可以加快任务的收敛速度。
　　 (2)开发了俄罗斯方块游戏的实验平台,并将基于启发式奖赏函数的分层强化学习算法应用于该平台。实验结果验证了该算法不仅能够大幅度的减少环境状态空间,能在一定程度上缓解“维数灾”问题,而且还具有很好的收敛速度。
　　 (3)针对“维数灾”问题,提出了将神经网络应用于强化学习中的一种新算法QL-BP算法。该算法利用神经网络强大的函数逼近能力,使学习系统不需要遍历每个状态或状态-动作对就可以给出正确的值函数,空间复杂度显著降低。
　　 (4)针对QL-BP算法在实验初期因为样本误差较大而出现的震荡、收敛速度慢以及在学习后期会出现过拟合现象等问题,提出了一种改进的QL-BP算法。实验表明改进的QL-BP算法收敛速度更快,学习后期的过拟合现象也基本消除。
　　 (5)开发了Mountain car和Grid World实验平台,在这两个实验平台上应用QL-BP算法以及改进的QL-BP算法。通过实验,验证了这两种算法在空间复杂度方面明显优于Q(λ)算法,一定程度上解决了“维数灾”问题。

著录项

作者
闫其粹;
展开▼
作者单位

苏州大学;

展开▼
授予单位苏州大学;
学科计算机应用技术
授予学位硕士
导师姓名刘全;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动推理、机器学习;
关键词
分层强化学习; 神经网络; 俄罗斯方块; 维数灾;

相似文献

中文文献
外文文献
专利

1. 大规模水电系统优化调度维数灾问题研究进展 [J] . 冯仲恺 ,牛文静 ,程春田 . 水电与抽水蓄能 . 2021,第005期
2. 一种消除动态规划法中维数灾的新方法 [J] . 向凌 ,周建中 ,杨敬涛 . 电力系统及其自动化学报 . 2004,第003期
3. 合作互学中“低效重复无互助”的问题及对策——以“两、三位数除以一位数问题解决”教学为例 [J] . 李帮魁 ,黄敏 . 今日教育 . 2015,第10期
4. 数学学科“数的个数”解决问题的类型及方法研究 [J] . 杨青 . 进展:科学视界 . 2020,第008期
5. 电能表时钟欠压导致日冻结示数不平问题剖析及解决方法研究 [J] . 丁颖 . 数码设计．CG WORLD . 2020,第023期
6. 防患未然,惠普"容灾"巧施脱身术--惠普容灾解决方案保障广州供电局关键业务持续运行 [C] . . 2008年电力行业信息化年会 . 2008
7. 强化学习维数灾问题解决方法研究 [A] . 周文云 . 2009

解决强化学习中维数灾问题的方法研究

摘要

著录项

相似文献

相关主题

期刊订阅