基于强化学习的对抗预训练语言建模方法

颜俊琦; 孙水发; 吴义熔; 裴伟; 董方敏

首页> 中文期刊> 《中文信息学报》 >基于强化学习的对抗预训练语言建模方法

基于强化学习的对抗预训练语言建模方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

在大规模无监督语料上的BERT、XLNet等预训练语言模型,通常采用基于交叉熵损失函数的语言建模任务进行训练。模型的评价标准则采用困惑度或者模型在其他下游自然语言处理任务中的性能指标,存在损失函数和评测指标不匹配等问题。为解决这些问题,该文提出一种结合强化学习的对抗预训练语言模型RL-XLNet(Reinforcement Learning-XLNet)。RL-XLNet采用对抗训练方式训练一个生成器,基于上下文预测选定词,并训练一个判别器判断生成器预测的词是否正确。通过对抗网络生成器和判别器的相互促进作用,强化生成器对语义的理解,提高模型的学习能力。由于在文本生成过程中存在采样过程,导致最终的损失无法直接进行回传,故提出采用强化学习的方式对生成器进行训练。基于通用语言理解评估基准(GLUE Benchmark)和斯坦福问答任务(SQuAD 1.1)的实验,结果表明,与现有BERT、XLNet方法相比,RL-XLNet模型在多项任务中的性能上表现出较明显的优势:在GLUE的六个任务中排名第1,一个任务排名第2,一个任务排名第3。在SQuAD 1.1任务中F 1值排名第1。考虑到运算资源有限,基于小语料集的模型性能也达到了领域先进水平。

著录项

来源
《中文信息学报》 |2022年第4期|20-28|共9页
作者
颜俊琦; 孙水发; 吴义熔; 裴伟; 董方敏;
展开▼
作者单位

三峡大学智慧医疗宜昌市重点实验室;

三峡大学计算机与信息学院;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
自然语言处理; 预训练; 语言模型; 强化学习;

相似文献

中文文献
外文文献
专利

1. 基于深度强化学习潜艇攻防对抗训练指挥决策研究 [J] . 郭洪宇 ,初阳 ,刘志 . 指挥控制与仿真 . 2022,第1期
2. 基于多智能体深度强化学习的空战博弈对抗策略训练模型 [J] . 孙彧 ,李清伟 ,徐志雄 . 指挥信息系统与技术 . 2021,第002期
3. 基于多智能体深度强化学习的空战博弈对抗策略训练模型 [J] . 孙彧 ,李清伟 ,徐志雄 . 指挥信息系统与技术 . 2021,第002期
4. 基于多语言预训练语言模型的译文质量估计方法 [J] . 陆金梁 ,张家俊 . 厦门大学学报（自然科学版） . 2020,第002期
5. 基于预训练语言模型及交互注意力的平行句对抽取方法 [J] . 张乐乐 ,郭军军 ,王繁 . 通信技术 . 2022,第4期
6. CPLM-CSC:基于单字级别预训练语言模型的中文错别字纠正方法 [C] . Haihua XIE ,谢海华 ,Aolin LI . 第十八届中国计算语言学大会暨中国中文信息学会2019学术年会 . 2018
7. 基于预训练语言模型的自然语言理解方法研究 [A] . 刘涛 . 2021

基于强化学习的对抗预训练语言建模方法

摘要

著录项

相似文献

相关主题

期刊订阅