基于多重门限机制的异步深度强化学习

徐进; 刘全; 章宗长; 梁斌; 周倩

首页> 中文期刊> 《计算机学报》 >基于多重门限机制的异步深度强化学习

基于多重门限机制的异步深度强化学习

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

近年来,深度强化学习已经成为人工智能领域一个新的研究热点.深度强化学习在如Atari 2600游戏等高维度大状态空间任务中取得了令人瞩目的成功,但仍存在训练时间太长等问题.虽然异步深度强化学习通过利用多线程技术大幅度减少了深度强化学习模型所需的训练时间,但是,基于循环神经网络的异步深度强化学习算法依然需要大量训练时间,原因在于具有记忆能力的循环神经网络无法利用并行化计算加速模型训练过程.为了加速异步深度强化学习模型的训练过程,并且使得网络模型具有记忆能力,该文提出了一种基于多重门限机制的异步优势行动者-评论家算法.该模型主要有三个特点:一是通过使用多重门限机制使前馈神经网络具有记忆能力,使Agent能够通过记忆不同时间步的状态信息做出更优的决策;二是通过利用并行计算进一步加速Agent的训练过程,减少模型所需的训练时间;三是通过采用一种新的跳跃连接方式实现数据向更深的网络层传递,增强模型识别状态特征的能力,从而提升深度强化学习算法的稳定性和学习效果.该文通过Atari 2600游戏平台上的部分战略型游戏以及稀疏奖赏环境型游戏来评估新模型的性能.实验结果表明,与传统的异步深度强化学习算法相比,新模型能够以较少的时间代价来获得更优的学习效果.

著录项

来源
《计算机学报》 |2019年第3期|636-653|共18页
作者
徐进; 刘全; 章宗长; 梁斌; 周倩;
展开▼
作者单位

苏州大学计算机科学与技术学院江苏苏州 215006;

苏州大学计算机科学与技术学院江苏苏州 215006;

软件新技术与产业化协同创新中心南京 210000;

吉林大学符号计算与知识工程教育部重点实验室长春 130012;

苏州大学计算机科学与技术学院江苏苏州 215006;

软件新技术与产业化协同创新中心南京 210000;

苏州大学计算机科学与技术学院江苏苏州 215006;

苏州大学计算机科学与技术学院江苏苏州 215006;

展开▼
原文格式 PDF
正文语种 chi
中图分类人工智能理论;
关键词
深度学习; 强化学习; 异步深度强化学习; 循环神经网络; 多重门限机制; 跳跃连接;

相似文献

中文文献
外文文献
专利

1. 基于RSA的门限多重代理多重签名方案 [J] . 祁传达 ,李溪 ,金晨辉 . 计算机工程与设计 . 2007,第021期
2. 基于异步深度强化学习的城市智能交通控制方法 [J] . 徐恩炷 ,朱海龙 ,刘靖宇 . 智能计算机与应用 . 2019,第006期
3. 基于异步深度强化学习的城市智能交通控制方法 [J] . 徐恩炷 ,朱海龙 ,刘靖宇 . 智能计算机与应用 . 2019,第006期
4. 多重门限密钥共享机制与应用 [J] . 贺忠华 ,周永权 . 计算机工程与设计 . 2008,第019期
5. 基于ECC存在特权集的(t,n)门限群代理多重签名方案 [J] . 曹阳 . 成都理工大学学报（自然科学版） . 2017,第005期
6. 可共享验证的不可否认门限多重代理多重签名方案的探析 [C] . . 中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会 . 2008
7. 基于多重门限机制的异步深度强化学习 [A] . 徐进 . 2018

基于多重门限机制的异步深度强化学习

摘要

著录项

相似文献

相关主题

期刊订阅