基于BART噪声器的中文语法纠错模型

孙邱杰; 梁景贵; 李思

首页> 中文期刊> 《计算机应用》 >基于BART噪声器的中文语法纠错模型

基于BART噪声器的中文语法纠错模型

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

在中文语法纠错中,基于神经机器翻译的方法被广泛应用,该方法在训练过程中需要大量的标注数据才能保障性能,但中文语法纠错的标注数据较难获取。针对标注数据有限导致中文语法纠错系统性能不佳问题,提出一种基于BART噪声器的中文语法纠错模型——BN-CGECM。首先,为了加快模型的收敛,使用基于BERT的中文预训练语言模型对BN-CGECM的编码器参数进行初始化;其次,在训练过程中,通过BART噪声器对输入样本引入文本噪声,自动生成更多样的含噪文本用于模型训练,从而缓解标注数据有限的问题。在NLPCC 2018数据集上的实验结果表明,所提模型的F0.5值比有道开发的中文语法纠错系统(YouDao)提高7.14个百分点,比北京语言大学开发的集成中文语法纠错系统(BLCU_ensemble)提高6.48个百分点;同时,所提模型不增加额外的训练数据量,增强了原始数据的多样性,且具有更快的收敛速度。

著录项

来源
《计算机应用》 |2022年第3期|860-866|共7页
作者
孙邱杰; 梁景贵; 李思;
展开▼
作者单位

北京邮电大学人工智能学院;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
数据增强; 中文语法纠错; 文本噪声; 深度学习; 序列到序列模型; BART噪声器;

相似文献

中文文献
外文文献
专利

1. 基于Transformer局部信息及语法增强架构的中文拼写纠错方法 [J] . 段建勇 ,袁阳 ,王昊 . 北京大学学报：自然科学版 . 2021,第1期
2. 基于Transformer增强架构的中文语法纠错方法 [J] . 王辰成 ,杨麟儿 ,王莹莹 . 中文信息学报 . 2020,第006期
3. 基于深度学习技术的语法纠错算法模型构建分析 [J] . 景艳娥 . 信息技术 . 2020,第009期
4. 基于N-gram统计模型的搜索引擎中文纠错 [J] . 陈智鹏 ,吕玉琴 ,刘华生 . 中国电子科学研究院学报 . 2009,第003期
5. 基于最短路径的二元语法中文词语粗分模型的研究 [J] . 甘秋云 . 现代计算机（专业版） . 2013,第017期
6. 基于Transformer增强架构的中文语法纠错方法 [C] . WANG Chencheng ,王辰成 ,YANG Liner . 第十八届中国计算语言学大会暨中国中文信息学会2019学术年会 . 2018
7. 基于序列到序列模型的中文语法纠错研究 [A] . 邱肇泉 . 2021

基于BART噪声器的中文语法纠错模型

摘要

著录项

相似文献

相关主题

期刊订阅