首页> 中文期刊> 《情报工程》 >基于多翻译引擎的汉语复述平行语料构建方法

基于多翻译引擎的汉语复述平行语料构建方法

         

摘要

复述指同一语言内相同意思的不同表达,复述生成指同一种语言内意思相同的不同表达之间的转换,是改进信息检索、机器翻译、自动问答等自然语言处理任务不可或缺的基础技术.目前,复述生成模型性能都依赖于大量平行的复述语料,而很多语言并没有可用的复述资源,使得复述生成任务的研究无法开展.针对复述语料十分匮乏的问题,我们以汉语为研究对象,提出基于多翻译引擎的复述平行语料构建方法,将英语复述平行语料迁移到汉语,构建大规模高质量汉语复述平行语料,同时构建有多个参考复述的汉语复述评测数据集,为汉语复述生成的研究提供一定的基础数据.基于构建的汉语复述语料,我们进一步对汉语复述现象进行总结和归纳,并进行复述生成研究.我们构建基于神经网络编码-解码框架的汉语复述生成模型,采用注意力机制、复制机制和覆盖机制解决汉语复述生成中的未登录词和重复生成问题.为了缓解复述语料不足导致的神经网络复述生成模型性能不高的问题,我们引入多任务学习框架,设计联合自编码任务的汉语复述生成模型,通过联合学习自编码任务来增强复述生成编码器语义表示学习能力,提高复述生成质量.我们利用联合自编码任务的复述生成模型进行汉语复述生成实验,在评测指标ROUGE-1、ROUGE-2、BLEU、METEOR上以及生成汉语复述实例分析上均取得了较好性能.实验结果表明所构建的汉语复述平行语料可以有效训练复述生成模型,生成高质量的汉语复述句.同时,联合自编码的汉语复述生成模型,可以进一步改进汉语复述生成的质量.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号