基于多翻译引擎的汉语复述平行语料构建方法

王雅松; 刘明童; 马彬彬; 张玉洁; 徐金安; 陈钰枫

首页> 中文期刊> 《情报工程》 >基于多翻译引擎的汉语复述平行语料构建方法

基于多翻译引擎的汉语复述平行语料构建方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

复述指同一语言内相同意思的不同表达,复述生成指同一种语言内意思相同的不同表达之间的转换,是改进信息检索、机器翻译、自动问答等自然语言处理任务不可或缺的基础技术.目前,复述生成模型性能都依赖于大量平行的复述语料,而很多语言并没有可用的复述资源,使得复述生成任务的研究无法开展.针对复述语料十分匮乏的问题,我们以汉语为研究对象,提出基于多翻译引擎的复述平行语料构建方法,将英语复述平行语料迁移到汉语,构建大规模高质量汉语复述平行语料,同时构建有多个参考复述的汉语复述评测数据集,为汉语复述生成的研究提供一定的基础数据.基于构建的汉语复述语料,我们进一步对汉语复述现象进行总结和归纳,并进行复述生成研究.我们构建基于神经网络编码-解码框架的汉语复述生成模型,采用注意力机制、复制机制和覆盖机制解决汉语复述生成中的未登录词和重复生成问题.为了缓解复述语料不足导致的神经网络复述生成模型性能不高的问题,我们引入多任务学习框架,设计联合自编码任务的汉语复述生成模型,通过联合学习自编码任务来增强复述生成编码器语义表示学习能力,提高复述生成质量.我们利用联合自编码任务的复述生成模型进行汉语复述生成实验,在评测指标ROUGE-1、ROUGE-2、BLEU、METEOR上以及生成汉语复述实例分析上均取得了较好性能.实验结果表明所构建的汉语复述平行语料可以有效训练复述生成模型,生成高质量的汉语复述句.同时,联合自编码的汉语复述生成模型,可以进一步改进汉语复述生成的质量.

著录项

来源
《情报工程》 |2020年第5期|27-40|共14页
作者
王雅松; 刘明童; 马彬彬; 张玉洁; 徐金安; 陈钰枫;
展开▼
作者单位

北京交通大学计算机与信息技术学院北京 100044;

北京交通大学计算机与信息技术学院北京 100044;

北京交通大学计算机与信息技术学院北京 100044;

北京交通大学计算机与信息技术学院北京 100044;

北京交通大学计算机与信息技术学院北京 100044;

北京交通大学计算机与信息技术学院北京 100044;

展开▼
原文格式 PDF
正文语种 chi
中图分类情报学、情报工作;
关键词
复述语料构建; 汉语复述现象分类; 复述生成; 多任务学习; 自编码任务;

相似文献

中文文献
外文文献
专利

1. 基于多翻译引擎的汉语复述平行语料构建方法 [J] . 王雅松 ,刘明童 ,马彬彬 . 情报工程 . 2020,第005期
2. 复述平行语料构建及其应用方法研究 [J] . 王雅松 ,刘明童 ,张玉洁 . 北京大学学报：自然科学版 . 2021,第1期
3. 面向计算机辅助翻译的乌兹别克语-汉语平行语料库构建与应用 [J] . 原伟 . 电脑知识与技术 . 2019,第030期
4. 旅游翻译语料库的构建及应用r——以浙江省旅游文化汉英翻译平行语料库为例 [J] . 余姿 . 开封教育学院学报 . 2017,第008期
5. 基于汉英平行语料库的《红高粱家族》中汉语文化负载词的翻译研究 [J] . 刘芳 . 科教文汇 . 2014,第026期
6. 面向ELAN软件的手语汉语平行语料库构建 [C] . WU Rui-zhu ,吴蕊珠 ,LI Han-jing . 第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会（CCL 2018） . 2018
7. 基于平行语料库的汉语译文语言分析——以“and”的汉语翻译为例 [A] . 吕孟巧 . 2013

基于多翻译引擎的汉语复述平行语料构建方法

摘要

著录项

相似文献

相关主题

期刊订阅