首页> 中国专利> 具有错误自诊断和自纠错功能的统计机器翻译方法

具有错误自诊断和自纠错功能的统计机器翻译方法

摘要

本发明公开了一种具有错误自诊断和自纠错功能的统计机器翻译方法,首先定义翻译错误类别,训练错误分类器,对测试集进行翻译错误分类,然后目标语言端翻译错误映射到源语言端并构建复述词图网络,源语言复述词图网络优化,最后进行词图解码,得到自校正结果。本发明与现有统计机器翻译方法相比,有效降低翻译错误率,提高翻译性能。

著录项

  • 公开/公告号CN102799579A

    专利类型发明专利

  • 公开/公告日2012-11-28

    原文格式PDF

  • 申请/专利权人 西安理工大学;

    申请/专利号CN201210249223.2

  • 发明设计人 杜金华;王莎;郭华;张萌;

    申请日2012-07-18

  • 分类号G06F17/28(20060101);

  • 代理机构61214 西安弘理专利事务所;

  • 代理人张瑞琪

  • 地址 710048 陕西省西安市金花南路5号

  • 入库时间 2023-12-18 07:26:32

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-07-07

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G06F17/28 变更前: 变更后: 申请日:20120718

    专利权人的姓名或者名称、地址的变更

  • 2016-03-02

    专利权的转移 IPC(主分类):G06F17/28 登记生效日:20160214 变更前: 变更后: 申请日:20120718

    专利申请权、专利权的转移

  • 2015-11-18

    专利权的转移 IPC(主分类):G06F17/28 登记生效日:20151029 变更前: 变更后: 申请日:20120718

    专利申请权、专利权的转移

  • 2015-01-21

    授权

    授权

  • 2013-01-23

    实质审查的生效 IPC(主分类):G06F17/28 申请日:20120718

    实质审查的生效

  • 2012-11-28

    公开

    公开

查看全部

说明书

技术领域

本发明属于统计机器翻译方法技术领域,具体涉及一种具有错误自诊断 和自纠错功能的统计机器翻译方法。

背景技术

软件本地化是指当软件在不同文化和语言背景的地区与国家移植时,需 要融合与特定区域设置有关的信息和信息翻译有关的过程,以适应本地的文 化与使用习惯。而翻译在本地化过程中扮演着至关重要的角色,对当地文化 与语言适应的好坏直接影响该软件在该地区或国家的推广。在软件本地化行 业,传统的做法是首先使用翻译记忆库(Translation Memory,TM)对软件 界面、术语、手册或者技术文档等按模糊匹配值(fuzzy match)进行翻译实 例查找并输出,然后再由后编辑人员(post-editor)参照源语言输入句子对 翻译结果进行修正。因此,这种方式又被称为计算机辅助翻译 (computer-assisted translation,CAT)。

统计机器翻译服务于软件本地化的关键技术研究是统计机器翻译研究 的热点方向之一。随着统计机器翻译技术的不断成熟,越来越多的研究机构 和国际大公司逐步开始将统计机器翻译系统引入其产品服务之中。自从20 世纪90年代初IBM的研究人员Peter Brown等提出IBM模型以来,基于统 计的机器翻译方法逐渐成为机器翻译研究的主流。基于统计方法的思想大大 推动了机器翻译技术的发展,并涌现出了多种类型的统计机器翻译模型,如 基于短语的翻译模型、层次短语的翻译模型及基于句法的翻译模型等等,其 翻译质量也在日益提高。2002年之后,伴随着翻译质量自动评估方法BLEU 的出现,统计机器翻译技术不仅在系统性能上获得了长足的进步,并且有效 地降低了人工评价的成本。近些年来,随着统计机器翻译尤其是基于短语的 机器翻译在技术上的日趋成熟与鲁棒,统计机器翻译技术不断地向实用化和 商业化迈出有力的步伐。

但是,目前面向工业界应用的统计机器翻译系统因翻译准确度仍然无法 真正满足翻译要求,所以大多作为人工翻译的辅助工具,而无法独立提供具 有高置信度的翻译结果,主要表现在两个方面:

1、翻译错误的预测能力不足:难以准确地对翻译结果中潜在的翻译错 误进行诊断和预报,而这种功能对于后编辑人员进行高效率、低消耗的查找、 判断和更正该错误具有重要的意义。对于错误预测,目前主要有两种解决方 案。第一种是反向翻译的方法。该方法利用反向的机器翻译系统对翻译结果 (目标句子)重新翻成源语言句子S',然后把原始源语言句子S与S'以某种 方式(如TER)进行对齐,根据对齐信息如插入、删除、替换等编辑操作的 多少来判定源语言端哪些片段存在问题,然后通过重定向映射到目标端,从 而获得对于潜在翻译错误的判定。这种方法的缺点是正向的翻译错误和反向 的翻译错误叠加后,某些原文所表达的意思全部丢失,从而翻译错误诊断精 度较低。第二种方案是基于置信度估计的方法,通常作为分类问题来解决。 该方案通过对译文进行置信度估计,综合判断错误发生的位置。目前该方法 的置信估计准确率有待进一步提高。

2、翻译错误自校正能力差:对于系统自动诊断出的翻译错误,目前有 两种方案可以提供自校正功能。第一种是以目标端为对象,通过利用一些特 征建立校正模型,对错误部分进行重新生成或替换。该方法的缺点是缺少有 效的源语言知识,并且没有考虑源端的翻译难度。第二种是以源端为对象, 通过使用外部资源以降低源端的翻译难度,例如使用复述(paraphrase)、同 义词(synonym)或者词干(stem)等对源端进行扩展或替换。但是,这些 方法的效果都不尽如人意。

因此,设计和开发具有一定自诊断与自纠错功能的统计机器翻译系统, 不仅能够促进机器翻译在社会经济发展中的应用,而且能够进一步增强人们 对机器翻译的信心,这对于该学科乃至该行业的进步起着关键性的作用。

发明内容

本发明的目的是提供一种具有错误自诊断和自纠错功能的统计机器翻 译方法,与现有统计机器翻译方法相比,有效降低翻译错误率,提高翻译性 能。

本发明所采用的技术方案是,一种具有错误自诊断和自纠错功能的统计 机器翻译方法,首先定义翻译错误类别,训练错误分类器,对测试集进行翻 译错误分类,然后目标语言端翻译错误映射到源语言端并构建复述词图网 络,源语言复述词图网络优化,最后进行词图解码,得到自校正结果。

进一步地,具体实现步骤如下:

步骤1、定义翻译错误类别:

具体包括五种翻译错误类别:正确、一般错误、词序错误、集外词错误、 其他错误;

步骤2、训练错误分类器:

步骤2.1、采用基于动态概率潜变量模型的分类器,计算公式如下:

P(y|x,θ)=ΣhP(y|h,x,θ)P(h|x,θ),

其中,P(y|x,θ)表示翻译假设被标注为序列y的概率;θ是模型参数;x 是观察序列,具体指翻译译文中的词序列;y是标注序列,具体指步骤1中 定义的翻译错误类别;h表示隐含变量序列;

将系统特征、语料库特征和外部知识源特征作为模型参数θ加入到动态 概率潜变量模型中,得到初始模型;

步骤2.2、选定模型参数训练开发集,按照步骤1定义的翻译错误类别 对开发集中的翻译假设进行错误类型标注,得到监督学习的训练样本数据;

步骤2.3、利用步骤2.2得到的训练样本数据对步骤2.1得到的初始模型 进行训练,公式如下:

L(θ)=Σi=1nlogP(yi|xi,θ)-R(θ),

其中,L(θ)表示未知参数的最大似然估计,n表示样本向量个数,i表示 某一样本向量,P(yi|xi,θ)表示样本xi在参数为θ条件下标注为序列yi的概率, R(θ)表示调控因子,主要防止训练过拟合;

迭代收敛后得到训练后的错误分类器;

步骤3、对测试集进行翻译错误分类:

利用步骤2得到的训练后的错误分类器,采用如下公式对测试集翻译假 设进行错误识别和分类:

y*=argmaxyP(y|x,θ*),

其中,arg max表示参数最大化运算;θ*表示步骤2得到训练后错误分类 器的参数;y*表示分类结果;P(y|x,θ*)表示在已知模型参数θ*和样本x时, 标注为序列y的概率;

步骤4、目标语言端翻译错误映射到源语言端,并构建复述词图网络:

对步骤3得到的翻译错误分类后的翻译假设通过词对齐信息映射到源语 言端,确定相应源语言短语或词Si的位置及边界,然后从源语言复述库中查 找Si的复述,并取前多个作为Si的复述候选,以源语言输入初始句子为主干, 构建复述词图网络;

构建复述词图网络过程中,对翻译假设中的词根据其翻译错误类别标识 进行复述构建,即:1)对于分类为“正确”的词,不进行复述词图构建;2) 对于分类为“一般错误”、“集外词错误”和“其他错误”的词,直接从复述 库中查找复述候选,然后构建词图;3)对于分类为“词序错误”的词,在 构建词图时,将所对应的边进行调序标记,供解码时调序惩罚约束使用;

步骤5、源语言复述词图网络优化:

采用基于混淆网络的方法对步骤4得到的复述词图网络进行压缩和合并 重复的路径,具体是将原词图中的结点按边进行对齐,若两结点间的边上的 词是相同的,则按概率大小保留较大的边,删除概率较小的边;

第六步,词图解码,得到自校正结果:

具体是对步骤5得到的优化后的源语言复述词图网络进行词图解码,最 终得到错误校正后的翻译结果。

本发明的有益效果是:本发明使得统计机器翻译具有一定的翻译错误自 诊断和自校正功能,有效提高自动翻译性能和后编辑人员的工作效率。本发 明综合考虑到前端翻译难度与后端翻译错误的直接的因果关系,将翻译难度 和置信度估计相结合,以提高统计机器翻译系统的实用性。本发明采用对翻 译结果进行词级、短语级和句子级置信度估计的方法,综合三种置信得分及 其他特征采用基于动态概率潜变量模型的分类器判断译文中翻译错误的位 置和置信分数,然后根据词对齐信息及翻译系统输出的源端与目标端对应的 翻译跨度(span)信息将翻译错误映射到源语言端,从而实现错误诊断。此 外,自纠错功能利用双语或多语言平行语料库中自动抽取的复述库,对源语 言端所映射的片段进行复述查找,并将原始源语言端片段及其复述构建为词 图网络,再通过词图解码产生最终结果以实现错误自校正。

本发明方法将翻译错误识别和源语言复述词图解码进行有机结合从而 使统计机器翻译具有一定的智能性,测试结果表明相比于不具备错误自校正 功能的统计机器翻译系统,本发明的方法能有效提高机器翻译性能。

附图说明

图1是本发明中的构建复述词图网络示意图;

图2是本发明中优化前的源语言复述词图网络超图;

图3是本发明中优化后的源语言复述词图网络超图。

具体实施方式

本发明具有错误自诊断和自纠错功能的统计机器翻译方法,首先,定义 翻译错误类别,训练错误分类器,对测试集进行翻译错误分类,然后目标语 言端翻译错误映射到源语言端并构建复述词图网络,源语言复述词图网络优 化,最后进行词图解码,得到自校正结果。

本发明方法具体实现步骤如下:

步骤1、定义翻译错误类别:

具体包括五种翻译错误类别:正确(correct)、一般错误(general  incorrect)、词序错误(order incorrect)、集外词错误(OOV)、其他错误(others)。 其中,一般错误包括翻译不准确(如汉英短语意思不对应)、时态(例如英 语中过去时、现在时等)、语态(如英语中主动/被动结构,汉语中把/被字结 构等)等。

步骤2、训练错误分类器:

步骤2.1、为提高分类准确率,本发明采用基于动态概率潜变量模型的 分类器,该分类器采用三个潜变量以表示输入和输出之间的隐含状态,其计 算公式如下:

P(y|x,θ)=ΣhP(y|h,x,θ)P(h|x,θ),

其中,P(y|x,θ)表示翻译假设被标注为序列y的概率;θ是模型参数;x 是观察序列,具体指翻译译文中的词序列;y是标注序列,具体指步骤1中 定义的翻译错误类别;h表示隐含变量序列。

模型训练的特征主要来自三个方面,即:1、系统特征:指的是翻译过 程中翻译模型、语言模型等反映机器翻译系统本质特性的特征;2、语料库 特征:大规模平行或多语语料库所抽取的与具体语言相关的字、词、词性标 注、句法、语法、语义等特征;3、外部知识源特征:与具体语言相关或者 不相关的多知识源特征。

将系统特征、语料库特征和外部知识源特征作为模型参数θ加入到动态 概率潜变量模型中,得到带未知参数的初始模型。初始未知参数主要为各特 征函数的权重。

步骤2.2、选定模型参数训练开发集,按照步骤1定义的翻译错误类别 对开发集中的翻译假设进行错误类型标注,得到监督学习的训练样本数据。

步骤2.3、利用步骤2.2得到的训练样本数据对步骤2.1得到的初始模型 进行训练,公式如下:

L(θ)=Σi=1nlogP(yi|xi,θ)-R(θ),

其中,L(θ)表示未知参数的最大似然估计,n表示样本向量个数,i表示 某一样本向量,P(yi|xi,θ)表示样本xi在参数为θ条件下标注为序列yi的概率, R(θ)表示调控因子,主要防止训练过拟合;

迭代收敛后得到训练后的错误分类器。

步骤3、对测试集进行翻译错误分类:

利用步骤2得到的训练后的错误分类器,采用如下公式对测试集翻译假 设进行错误识别和分类:

y*=argmaxyP(y|x,θ*),

其中,arg max表示参数最大化运算;θ*表示步骤2得到训练后错误分类 器的参数;y*表示分类结果;P(y|x,θ*)表示在已知模型参数θ*和样本x时, 标注为序列y的概率。

步骤4、目标语言端翻译错误映射到源语言端,并构建复述词图网络:

对步骤3得到的翻译错误分类后的翻译假设通过词对齐信息映射到源语 言端,确定相应源语言短语或词Si的位置及边界,然后从源语言复述库中查 找Si的复述,并取前多个作为Si的复述候选,以源语言输入初始句子为主干, 构建复述词图网络。

构建复述词图网络过程中,对翻译假设中的词根据其翻译错误类别标识 进行复述构建,即:1)对于分类为“正确”的词,不进行复述词图构建;2) 对于分类为“一般错误”、“集外词错误”和“其他错误”的词,直接从复述 库中查找复述候选,然后构建词图;3)对于分类为“词序错误”的词,在 构建词图时,将所对应的边进行调序标记,供解码时调序惩罚约束使用。

如图1所示,其中{w1,...,wn}表示源语言原始词序列,其用于构成词图基 本网络。词序列{α1,...,αp}是词序列{wx,...,wy}的复述,而词序列{β1,...,βq}是词 序列{wm,...,wn}的复述。从图中可以看出,根据与原始词序列的对应关系,复 述被作为扩充边加入到基本网络中,特别注意的是复述中的每个词都作为边 插入到网络中并与对应结点连接起来。

如图2所示,图中节点之间实现所表示的边为源语言句子输入中的原始 词,虚线所表示的为所加入的对应复述。可以看出,该词图网络为有向无环 的超图,相对于基本的输入字串,要复杂的多。同时可以看出,加入复述后, 原始词语或短语所对应同一意思的表达种类多样化,在一定程度上解决了数 据稀疏问题,从源语言端降低了翻译难度,从而确保在解码过程中增加正确 翻译候选的概率。

观察图2中的路径“0-1-2”上的“the training”和路径“0-8-2”上的“the  training”。这两条路径尽管到结点2的概率不同,但其所构成的短语是一样 的,因此,如何合并或者去除重复边,减小搜索复杂度,提高解码速度,减 小权重的不一致性,对本发明的性能影响也较大。

步骤5、源语言复述词图网络优化:

采用基于混淆网络的方法对步骤4得到的复述词图网络进行压缩和合并 重复的路径,具体是将原词图中的结点按边进行对齐,若两结点间的边上的 词是相同的,则按概率大小保留较大的边,删除概率较小的边,从而在一定 程度上减少重复路径。如图3所示,采用被方法优化后重复路径都被合并, 并对边所表示的词权重或概率进行了更新。

第六步,词图解码,得到自校正结果:

具体是对步骤5得到的优化后的源语言复述词图网络进行词图解码,最 终得到错误校正后的翻译结果。

实施例

以开源统计机器翻译系统摩西(Moses)为基线系统,分别利用其短语 解码器和词图解码器对输入源语言字串和词图网络进行解码得到输出的翻 译假设。实验数据如下:翻译句对为汉英,翻译方向为英译汉。统计机器翻 译模型使用的训练语料为LDC提供的FBIS 200K句对,开发集和测试集分 别为NIST 2005和2003数据集。复述短语集合使用开源工具TER-plus所提 供的复述,使用时对其进行了过滤和后处理。

表1说明了基于以上数据,采用本发明方法与现有的基线系统相对于测 试集的翻译性能对比结果。

表1

  系统   BLEU4   TER   现有的基线系统   23.60   63.56   本发明方法   24.80   62.00

表中“BLEU”列表示采用自动评价准则4元BLEU对翻译结果进行评 价,取值为0~1之间,越高表示性能越好;“TER”列表示采用自动评价准则 TER(翻译错误率)对翻译结果进行评价,取值通常在0~100之间,越低表 示性能越好。基线系统表示输入为基本字串,解码为基于短语的解码器,不 含任何错误识别和错误校正环节;本发明表示首先对基线系统的输出结果进 行错误识别和分类,映射到源语言端后针对性地重构输入为词图网络,解码 为词图解码器,含错误分类和校正环节。

可以看出,相比于基线系统,本发明方法提高了1.20个BLEU点,降低 了1.56个TER点,大大提高了系统的翻译性能。因此,本发明方法是有效 的和可行的。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号