首页> 中文学位 >基于语料库的机器翻译中翻译知识的获取方法
【6h】

基于语料库的机器翻译中翻译知识的获取方法

代理获取

目录

声明

摘要

1 绪论

1.1 研究背景和意义

1.2 国内外研究现状

1.2.1 机器翻译的发展和研究现状

1.2.2 机器翻译的关键问题

1.3 论文的主要内容和组织结构

2 基于语料库的机器翻译理论和基础技术

2.1 基于实例的机器翻译(EBMT)方法

2.1.1 EBMT的原理和框架

2.1.2 翻译实例的抽取

2.1.3 实例相似度计算

2.1.4 翻译实例获取的问题

2.2 基于统计的机器翻译(SMT)方法

2.2.1 SMT原理和方法

2.2.2 对数线性模型

2.2.3 短语翻译表获取的问题

2.3 句法分析

2.3.1 短语结构句法分析

2.3.2 依存结构句法分析

2.3.3 依存结构句法的优势

3 EBMT中基于依存结构的翻译知识获取和翻译系统的实现

3.1 结构化实例的获取方法

3.1.1 结构化实例的获取

3.1.2 实例的泛化

3.2 EBMT系统实现

3.2.1 系统架构

3.2.2 翻译实例获取模块

3.2.3 翻译模块

4 SMT中短语表过滤方法及实现

4.1.1 短语表过滤的目标

4.2 短语表过滤方法

4.2.1 排序

4.2.2 基于虚拟上下文的重排序

5 评价实验及结果分析

5.1 实验设置

5.1.1 实验语料

5.1.2 实验环境

5.1.3 评测方法

5.2 基于结构化实例EBMT实验结果

5.3 基于短语表过滤SMT实验结果

6 结论与展望

参考文献

作者简历

学位论文数据集

展开▼

摘要

机器翻译(Machine Translation, MT)是利用电子计算机在不同语言之间实现翻译的一门实验性学科。随着互联网技术和机器翻译技术的发展,机器翻译在产品手册本地化、旅游会话和信息检索等领域得到越来越多的应用。虽然近年来机器翻译研究工作已经取得了长足进步,但在长文的机器翻译中翻译质量和解码速度还远未达到令人满意的水平。在基于语料库的机器翻译中,如何从大规模语料中自动获取高质量的机器翻译知识一直是该领域的研究热点。
  在基于实例的机器翻译(EBMT)中,翻译实例库是翻译知识的主要表现形式。不同语系的平行句对之间,句子的语序常常有很大出入。目前仅使用单词对齐信息从平行句对中获取翻译实例的方法经常会产生译文中的语序错误。针对这一问题,本文提出利用依存句法信息为翻译知识获取提供句法约束的方法,以减少语序错误的发生。依存句法信息是句子内成分之间修饰与被修饰的关系,借助这些信息可以获得长距离的语序调整信息;同时待翻译句子的依存句法信息也可以作为计算实例相似度和解码算法的依据,提高翻译精度。本文根据这一方法构建了基于依存结构化实例的机器翻译系统。
  在统计机器翻译中(SMT),短语表是翻译知识的主要表现形式。自动获取的短语表中不可避免的包含大量的冗余和错误的短语对,这极大影响了解码速度又会影响翻译质量。为了缓解这个问题,本文提出一种基于虚拟上下文的过滤短语表的方法。该方法通过引入虚拟上下文模拟解码时的语境来计算短语对在语言模型上的得分增量;并设计了一种对短语对重排序的翻译知识过滤策略,即通过分配最佳和最差语境来计算短语对的最大和最小得分增量。
  基于以上考虑,本文在基于语料库的机器翻译中,设计了利用依存句法信息约束来获得翻译知识和利用虚拟上下文信息过滤翻译知识的方法。为了验证所提方法的有效性,该工作在基于实例机器翻译框架中设计并实现了带有依存结构的翻译实例的获取方法、基于依存结构特征为主的实例相似度的计算模式和译文生成算法。本文利用国际公开评测NTCIR-9的中英专利数据模拟实际翻译系统的开发过程,构建了基于依存结构化实例的EBMT系统并进行了评测实验。评测结果显示系统的性能接近NTCIR-9公布的EBMT最好系统“KYOTO”的翻译水平。针对短语表过滤方法,本文在NTCIR-9的中英数据上进行了验证实验。结果显示,当短语表的规模下降到原来的47%时,翻译质量的BLEU值提高了0.0005;当短语表的规模下降到原来的30%时,BLEU值仅下降0.0006。实验结果表明,在大规模短语表的过滤中,本文的方法是有效可行的。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号