首页> 中文期刊> 《计算机工程与科学》 >基于枢轴语言的汉越神经机器翻译伪平行语料生成

基于枢轴语言的汉越神经机器翻译伪平行语料生成

         

摘要

低资源型的汉越神经机器翻译中,数据稀疏问题是影响翻译性能的主要原因,目前缓解该问题的途径之一是通过语料扩充方法生成伪平行数据,并用于机器翻译模型的训练,伪平行数据生成方法主要有基于词的替换、单语数据回译和枢轴翻译3种.目前的研究集中于3种方法的单独使用,缺少方法间融合利用方面的研究工作,针对此问题,提出了融入双语词典的正反向枢轴方法,利用英语作为枢轴语言,在汉到英到越正向枢轴的基础上,融入利用稀有词构建的汉-英和英-越双语词典,将汉语单语数据通过模型翻译成英语数据,再利用英-越模型将其翻译成越南语数据,其次进行越到英到汉反向枢轴翻译将越南语单语数据翻译为汉语,以此在2个方向上生成汉越伪平行数据,并利用语言模型对生成的伪平行数据进行筛选.汉-越翻译任务上的实验结果表明,提出的融入双语词典的正反向枢轴方法,能够产生更优的伪平行语料,进而显著提升汉越神经机器翻译任务的性能.

著录项

  • 来源
    《计算机工程与科学》 |2021年第3期|542-550|共9页
  • 作者单位

    昆明理工大学信息工程与自动化学院 云南昆明650500;

    昆明理工大学云南省人工智能重点实验室 云南昆明650500;

    昆明理工大学信息工程与自动化学院 云南昆明650500;

    昆明理工大学云南省人工智能重点实验室 云南昆明650500;

    昆明理工大学信息工程与自动化学院 云南昆明650500;

    昆明理工大学云南省人工智能重点实验室 云南昆明650500;

    昆明理工大学信息工程与自动化学院 云南昆明650500;

    昆明理工大学云南省人工智能重点实验室 云南昆明650500;

    昆明理工大学信息工程与自动化学院 云南昆明650500;

    昆明理工大学云南省人工智能重点实验室 云南昆明650500;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 信息处理(信息加工);
  • 关键词

    汉-越神经机器翻译; 伪平行数据生成; 词替换; 回译; 枢轴;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号