基于双深度网络的安全深度强化学习方法

朱斐; 吴文; 伏玉琛; 刘全

首页> 中文期刊>计算机学报 >基于双深度网络的安全深度强化学习方法

基于双深度网络的安全深度强化学习方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

深度强化学习利用深度学习感知环境信息,使用强化学习求解最优决策,是当前人工智能领域的主要研究热点之一.然而,大部分深度强化学习的工作未考虑安全问题,有些方法甚至特意加入带随机性质的探索来扩展采样的覆盖面,以期望获得更好的近似最优解.可是,不受安全控制的探索性学习很可能会带来重大风险.针对上述问题,提出了一种基于双深度网络的安全深度强化学习(Dual Deep Network Based Secure Deep Reinforcement Learning,DDN-SDRL)方法.DDN-SDRL方法设计了危险样本经验池和安全样本经验池,其中危险样本经验池用于记录探索失败时的临界状态和危险状态的样本,而安全样本经验池用于记录剔除了临界状态和危险状态的样本.DDN-SDRL方法在原始网络模型上增加了一个深度Q网络来训练危险样本,将高维输入编码为抽象表示后再解码为特征;同时提出了惩罚项描述临界状态,并使用原始网络目标函数和惩罚项计算目标函数.DDN-SDRL方法以危险样本经验池中的样本为输入,使用深度Q网络训练得到惩罚项.由于DDN-SDRL方法利用了临界状态、危险状态及安全状态信息,因此Agent可以通过避开危险状态的样本、优先选取安全状态的样本来提高安全性.DDN-SDRL方法具有通用性,能与多种深度网络模型结合.实验验证了方法的有效性.

著录项

来源
《计算机学报》|2019年第8期|1812-1826|共15页
作者
朱斐; 吴文; 伏玉琛; 刘全;
展开▼
作者单位

苏州大学计算机科学与技术学院江苏苏州 215006;

软件新技术与产业化协同创新中心南京210000;

吉林大学符号计算与知识工程教育部重点实验室长春130012;

苏州大学江苏省计算机信息处理技术重点实验室江苏苏州215006;

常熟理工学院计算机科学与工程学院江苏常熟215500;

展开▼
原文格式 PDF
正文语种 chi
中图分类人工智能理论;
关键词
强化学习; 深度强化学习; 深度Q网络; 安全深度强化学习; 安全人工智能; 经验回放;

相似文献

中文文献
外文文献
专利

1. 基于动作约束深度强化学习的安全自动驾驶方法 [J] . 代珊珊 ,刘全 . 计算机科学 . 2021,第009期
2. 基于安全度的电力通信网双路由配置方法 [J] . 林伟伟 ,陆俊 ,徐志强 . 电力信息化 . 2021,第005期
3. 基于安全度的电力通信网双路由配置方法 [J] . 林伟伟 ,陆俊 ,徐志强 . 电力信息与通信技术 . 2021,第005期
4. 基于安全风险概率的双特高压直流馈入网架关键断面通道检修评估方法研究 [J] . 刘轶 ,张毅明 ,高昆 . 电力系统保护与控制 . 2021,第017期
5. 基于业务安全性的电力通信网双路由配置方法研究 [J] . 高会生 ,王慧芳 . 计算机应用与软件 . 2015,第011期
6. 网络安全密码双点双链路双进程验证方法论 [C] . 黄廷专 . 第24次全国计算机安全学术交流会 . 2009
7. 基于双深度网络的视觉目标跟踪算法研究 [A] . 石书林 . 2018

基于双深度网络的安全深度强化学习方法

摘要

著录项

相似文献

相关主题

期刊订阅