首页> 中文学位 >强化学习维数灾问题解决方法研究
【6h】

强化学习维数灾问题解决方法研究

代理获取

目录

文摘

英文文摘

声明

第一章引言

1.1问题的提出

1.2国内外研究现状

1.2.1国内研究现状

1.2.2国外研究现状

1.3论文主要研究内容

1.4文章内容安排

第二章理论基础

2.1强化学习简介

2.2强化学习发展历史

2.3强化学习理论基础

2.4强化学习主要算法

2.4.1瞬时差分方法

2.4.2行动者-批评家算法

2.4.3 R-learning算法

2.5本章小结

第三章一种大规模离散空间中的高斯强化学习方法

3.1高斯过程

3.1.1高斯过程简介

3.1.2高斯过程原理

3.2高斯过程强化学习方法

3.2.1使用高斯过程的回归方法

3.2.2基于高斯过程的状态值函数回归算法

3.3实验结果和分析

3.4本章小结

第四章一种基于动作分值的分层强化学习奖赏优化方法

4.1分层强化学习

4.2无限循环任务的分层方法

4.3动作分值

4.4无限循环任务中基于动作分值的奖赏优化

4.5奖赏优化算法

4.6引入分治机制的动作分值

4.7实验以及结果分析

4.8本章小结

第五章强化学习在Ad Hoc无线网络路由算法中的应用

5.1 Ad Hoc网络

5.1.1 Ad Hoc网络概述

5.1.2 Ad Hoc网络特征

5.1.3 Ad Hoc网络结构

5.1.4 Ad Hoc网络路由算法

5.2强化学习在Ad Hoc路由算法中的应用

5.2.1 AODV路由协议详细介绍

5.2.2 Ad Hoc无线网络中的强化学习模型

5.2.3 RS-AODV路由协议

5.2.4 Ad Hoc网络中的RS-AODV路由算法

5.3实验以及结果分析

5.3.1仿真环境

5.3.2仿真结果

5.4本章小结

第六章总结与展望

6.1本文工作总结

6.2以后的工作展望

参考文献

攻读硕士期间发表(录用)的论文和参加的科研项目

致谢

展开▼

摘要

本文针对强化学习任务中存在的一个普遍且重要的问题“维数灾”困难,即状态空间的大小随着特征数量的增加而发生指数级的增长,提出两种方法从不同的角度来解决“维数灾”困难和优化强化学习方法。同时,在所提理论的基础上,以Eclipse为开发平台,在SWT的基础上,开发了俄罗斯方块游戏,将其作为算法的实验平台,从而对相应的方法进行实验效果的验证。同时又将强化学习理论应用到Ad Hoc网络路由选择算法中,集中解决了路由效率、能源开销、安全性等相关问题。 本文的主要研究成果概括为以下四个方面: (1)分析研究了强化学习中的“维数灾”问题,并在此基础上提出了一种大规模离散空间中的高斯强化学习方法。实验结果表明,结合了高斯过程的强化学习方法在各方面性能,如收敛速度以及最终实验效果等都有所提高。 (2)针对强化学习的“维数灾”问题和算法收敛速度过慢的困难,提出了一种基于动作分值的分层强化学习奖赏优化方法。使用了动作分值和分层思想的强化学习方法可以达到优化奖赏函数和加快收敛速度的效果。实验结果表明,使用了该方法的强化学习算法能显著提高算法的收敛速度和实验效果。 (3)以俄罗斯方块游戏为实验平台,将上述方法应用于其中,分析各个算法的优劣和各类参数的性能比较,并提出可以进一步改进的实验效果的若干思想。 (4)以Ad Hoc网络为应用平台,将相关的强化学习方法应用于Ad Hoc网络路由选择过程中,从综合的角度来解决Ad Hoc网络中存在的路由效率、能源开销、安全性、自适应性等路由选择问题。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号