基于预训练语言模型的语法错误纠正方法

韩明月; 王英林

首页> 中文期刊> 《上海交通大学学报》 >基于预训练语言模型的语法错误纠正方法

基于预训练语言模型的语法错误纠正方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

自然语言处理中的语法错误纠正(GEC)任务存在着低资源性的问题,学习GEC模型需要耗费大量的标注成本以及训练成本.对此,采用从掩码式序列到序列的预训练语言生成模型(MASS)中的迁移学习方式,充分利用预训练模型已提取的语言特征,在GEC的标注数据上微调模型,结合特定的前处理、后处理方法改善GEC模型的表现,从而提出一种新的GEC系统(MASS-GEC).在两个公开的GEC任务中评估该系统,在有限的资源下,与当前GEC系统相比,达到了更好的效果.具体地,在CoNLL14数据集上,该系统在强调查准率的指标F上表现分数为57.9;在JFLEG数据集上,该系统在基于系统输出纠正结果与参考纠正结果n元语法重合度的评估指标GLEU上表现分数为59.1.该方法为GEC任务低资源问题的解决提供了新视角,即从自监督预训练语言模型中,利用适用于GEC任务的文本特征,辅助解决GEC问题.

著录项

来源
《上海交通大学学报》 |2022年第11期|1554-1560|共7页
作者
韩明月; 王英林;
展开▼
作者单位

上海财经大学信息管理与工程学院;

展开▼
原文格式 PDF
正文语种 chi
中图分类文字信息处理;
关键词
语法错误纠正; 自然语言生成; 序列到序列;

相似文献

中文文献
外文文献
专利

1. CPLM-CSC:基于单字级别预训练语言模型的中文错别字纠正方法 [J] . 谢海华 ,李奥林 ,李亚博 . 中文信息学报 . 2021,第005期
2. 基于预训练语言模型及交互注意力的平行句对抽取方法 [J] . 张乐乐 ,郭军军 ,王繁 . 通信技术 . 2022,第4期
3. 基于跨语种预训练语言模型XLM-R的神经机器翻译方法 [J] . 王倩 ,李茂西 ,吴水秀 . 北京大学学报:自然科学版 . 2022,第1期
4. 基于预训练语言模型的案件要素识别方法 [J] . 刘海顺 ,王雷 ,孙媛媛 . 中文信息学报 . 2021,第11期
5. 基于多语言预训练语言模型的译文质量估计方法 [J] . 陆金梁 ,张家俊 . 厦门大学学报（自然科学版） . 2020,第002期
6. CPLM-CSC:基于单字级别预训练语言模型的中文错别字纠正方法 [C] . Haihua XIE ,谢海华 ,Aolin LI . 第十八届中国计算语言学大会暨中国中文信息学会2019学术年会 . 2018
7. 基于预训练语言模型的自然语言理解方法研究 [A] . 刘涛 . 2021

基于预训练语言模型的语法错误纠正方法

摘要

著录项

相似文献

相关主题

期刊订阅