首页> 中国专利> 一种用于专利文本机器翻译的译前编辑方法和系统

一种用于专利文本机器翻译的译前编辑方法和系统

摘要

本发明的一种用于专利文本机器翻译的译前编辑方法和系统,属于机器翻译技术领域,通过对专利文本的拆分、编号、适应性优化、计算相似度和锁定等操作后,进一步对其进行翻译得到译文,此方法翻译的译文,改善了原文句子过长时机器翻译译文质量不佳的问题,并且通过在拆分时对句段进行编号,在整理输出译文时,可根据所述编号反向溯源,使得输出的译文与拆分前的源文在形式和段落上一一对应,从而得到逐句对照的双语语料。

著录项

  • 公开/公告号CN112487793A

    专利类型发明专利

  • 公开/公告日2021-03-12

    原文格式PDF

  • 申请/专利权人 江苏省舜禹信息技术有限公司;

    申请/专利号CN202011359264.8

  • 发明设计人 单杰;王璐;杨丽;

    申请日2020-11-27

  • 分类号G06F40/279(20200101);G06F40/58(20200101);G06Q50/18(20120101);

  • 代理机构11489 北京中政联科专利代理事务所(普通合伙);

  • 代理人谢恺

  • 地址 210019 江苏省南京市建邺区白龙江东街19号舜禹大厦21-23层

  • 入库时间 2023-06-19 10:11:51

说明书

技术领域

本发明属于机器翻译技术领域,更具体来说,涉及一种用于专利文本机器翻译的译前编辑方法和系统。

背景技术

随着机器翻译技术的进步,尤其是神经网络机器翻译技术的发展,翻译行业在实际生产中已普遍使用机器翻译加译后编辑模式。译员使用计算机辅助翻译(Computer-Aided Translation,CAT)工具打开待翻译的文档,将其分割为句段,使用机器翻译技术翻译分割后的句段,最后人工编辑机器翻译的译文得到目标译文。对于待翻译文档中重复的句段,CAT工具可在首次出现记录对应的目标译文,并在这些句段再次出现时自动填充。同时,CAT工具会记录原文和译文一一对应的句段,形成双语对照的语料。

这种模式结合了机器翻译和CAT工具,可以一定程度提高翻译效率,减少重复劳动。然而,在处理专利文本时,由于专利文本的文体特点,其中常常含有较多长句和重复或相似的句子,当前的机器翻译技术对长句的翻译效果不佳,常常造成漏译、语法错误、不一致等问题。如果在使用CAT工具打开待翻译文档前先拆分并编辑文档中的长句,又会使得最终语料中的原文和译文与原始文档不一致,影响最终形成的语料库的质量。因此,亟需一种译前编辑方法,其可解决上述问题。

发明内容

1.发明要解决的技术问题

本发明的目的在于解决现有机器翻译技术对长句的翻译效果不佳,常常造成漏译、语法错误、不一致等问题。如果在使用CAT工具打开待翻译文档前先拆分并编辑文档中的长句,又会使得最终语料中的原文和译文与原始文档不一致,影响最终形成的语料库的质量的问题。

2.技术方案

为达到上述目的,本发明提供的技术方案为:

本发明的一种用于专利文本机器翻译的译前编辑方法,包括以下步骤:

S1、输入专利文本;

S2、根据第一拆分规则对专利文本进行拆分,得到若干句段,对所有句段进行编号,并计算各句段的长度;

S3、判断各句段的长度是否小于预设长度阈值,若是,将句段输出至句段预处理模块,若否,则根据第二拆分规则对该句段进行进一步拆分,得到若干子句段,对子句段进行编号并将子句段输出至句段预处理模块;

S4、句段预处理模块基于预设规则对输入的句段进行适应性优化,得到中间句段,并将中间句段输出至句段标注模块;

S5、句段标注模块计算各中间句段之间的相似度并标注相似度高于预设相似度阈值的中间句段,并将标注后的中间句段输出至机器翻译模块;

S6、机器翻译模块对标注后的中间句段进行翻译并将译文输出至译文整理模块;

S7、译文整理模块根据编号整理并输出译文。

优选的,步骤S2中的长度的单位为字数或字符数。

优选的,步骤S2的编号方法进一步包括:记录专利文本与拆分后的句段之间的第一对应关系;

步骤S3的编号方法进一步包括:记录拆分后的子句段与所述句段之间的第二对应关系;

步骤S7进一步包括:根据所述第一对应关系和第二对应关系,整理并输出译文,得到与所述专利文本对应的译文文本。

优选的,在步骤S5之后,步骤S6之前,还包括:根据各中间句段之间的相似度对百分之百重复的中间句段中的非首次出现句段进行锁定,在进行步骤S7时,自动解锁已锁定句段并填充译文,并根据所述第一和第二对应关系,整理并输出非锁定句段的译文。

优选的,步骤S1之后,S2之前,所述方法还包括:从专利文本中提取关键词,基于提取的关键词确定专利文本所属领域,并调用专利文本所属领域的云端大数据。

优选的,预设长度阈值设定为各句段长度的最大值与最小值的中间值。

优选的,第一拆分规则为根据专利文本的段落标记进行拆分。

优选的,第二拆分规则为对句段内的句子进行分析,从前到后依次选定句子,当选定的句子长度值接近预设长度阈值时作为拆分点进行拆分,拆分后的子句段长度值小于预设长度阈值。

优选的,预设相似度阈值由系统基于调用的专利文本所属领域的云端大数据计算得到。

优选的,步骤S4中的所述适应性优化包括:删除、增加、替换、调整顺序。

优选的,自动解锁已锁定句段并填充译文进一步包括:根据预设系统参数基于上下文语义关联自动审校并标注所有译文。

优选的,在步骤S5之后,步骤S6之前,还包括:根据各中间句段之间的相似度对所有中间句段进行归类排序,在步骤S6中,机器翻译模块根据重新归类排序的句段基于上下文语义关联进行翻译并输出译文。

一种用于专利文本机器翻译的译前编辑的系统,系统包括:

输入模块,用于输入专利文本;

第一拆分模块,用于根据第一拆分规则对专利文本进行拆分,得到若干句段,对所有句段进行编号,并计算各句段的长度;

判断模块,用于各句段的长度是否小于预设长度阈值,并将所述句段及判断结果输出至控制模块;

控制模块,用于根据所述判断结果,将所述句段输出至句段预处理模块,或第二拆分模块;

第二拆分模块,用根据第二拆分规则对句段进行进一步拆分,得到若干子句段,对所述子句段进行编号并将所述子句段输出至句段预处理模块;

句段预处理模块,用于基于预设规则对输入的句段进行适应性优化,得到中间句段,并将所述中间句段输出至句段标注模块;

句段标注模块,用于计算各中间句段之间的相似度并标注相似度高于预设相似度阈值的中间句段,并将标注后的中间句段输出至机器翻译模块;

机器翻译模块,用于对标注后的中间句段进行翻译并将译文输出至译文整理模块;

译文整理模块,用于根据编号整理并输出译文。

优选的,第一拆分模块包括:

第一拆分单元,用于第一拆分规则对专利文本进行拆分,得到若干句段;

第一编号单元,用于对所有句段进行编号;

第一计算单元,用于计算各句段的长度;

第二拆分模块包括:第二拆分单元,用于根据第二拆分规则对该句段进行进一步拆分,得到若干子句段;

第二编号单元,用于对所述子句段进行编号;

其中所述第一拆分模块还包括第一记录单元,用于记录专利文本与拆分后的句段之间的第一对应关系;

第二拆分模块还包括第二记录单元,用于记录拆分后的子句段与所述句段之间的第二对应关系,并且所述译文整理模块根据所述第一和第二对应关系,整理并输出译文,得到与所述专利文本对应的译文文本。

优选的,句段标注模块包括:

比对单元,用于计算各中间句段之间的相似度;

标注单元,用于标注相似度高于一预设相似度阈值的中间句段;

处理单元,用于根据各中间句段之间的相似度,对百分之百重复的中间句段中的非首次出现句段进行锁定,或对所有中间句段进行归类排序。

优选的,系统包括:

术语提取模块,用于从专利文本中提取关键词;

程序调用模块,用于基于提取的关键词确定专利文本所属领域,并调用专利文本所属领域的云端大数据。

3.有益效果

采用本发明提供的技术方案,与现有技术相比,具有如下有益效果:

此方法基于用户设置及专利文本所属领域的云端大数据对专利文本进行自动拆分及适应性优化,得到更适于机器翻译的中间句段,改善了原文句子过长时机器翻译译文质量不佳的问题;并且通过拆分和适应性优化,提升了中间句段之间的匹配率,再根据相似度锁定非首次出现的重复句段和重新归类排序,从而避免了对重复句段的重复操作;此外,通过在拆分时对句段进行编号,在整理输出译文时,可根据所述编号反向溯源,使得输出的译文与拆分前的源文在形式和段落上一一对应,从而得到逐句对照的双语语料。

附图说明

图1为根据本发明一实施例的一种用于专利文本机器翻译的译前编辑方法的流程示意图;

图2为根据本发明另一实施例的一种用于专利文本机器翻译的译前编辑方法的又一流程示意图;

图3为根据本发明再一实施例的一种用于专利文本机器翻译的译前编辑方法的整体流程示意图;

图4为根据本发明一实施例的一种用于专利文本机器翻译的译前编辑系统的结构示意图。

附图标号:

100、输入模块;200、第一拆分模块;210、第一拆分单元;220、第一编号单元;230、第一计算单元;240、第一记录单元;300、判断模块;400、控制模块;500、第二拆分模块;510、第二拆分单元;520、第二编号单元;530、第二记录单元;600、句段预处理模块;610、对比单元;620、标注单元;630、处理单元;700、句段标注模块;800、机器翻译模块;900、译文整理模块;1000、术语提取模块;1100、程序调用模块;1200、云端。

具体实施方式

为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述,附图中给出了本发明的若干实施例,但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例,相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

需要说明的是,本申请的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。“多个”、“若干”指的是两个或两个以上。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同;本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明;本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

参照附图1所示,本实施例的一种用于专利文本机器翻译的译前编辑方法,包括以下步骤:

S1、输入专利文本;

S2、根据第一拆分规则对专利文本进行拆分,得到若干句段,对所有句段进行编号,并计算各句段的长度;

S3、判断各句段的长度是否小于预设长度阈值,若是,将句段输出至句段预处理模块600,若否,则根据第二拆分规则对该句段进行进一步拆分,得到若干子句段,对子句段进行编号并将子句段输出至句段预处理模块600;

S4、句段预处理模块600基于预设规则对输入的句段进行适应性优化,得到中间句段,并将中间句段输出至句段标注模块700;

S5、句段标注模块700计算各中间句段之间的相似度并标注相似度高于预设相似度阈值的中间句段,并将标注后的中间句段输出至机器翻译模块800;

S6、机器翻译模块800对标注后的中间句段进行翻译并将译文输出至译文整理模块900;

S7、译文整理模块900根据编号整理并输出译文。

优选的,步骤S2中的长度的单位为字数或字符数。

在本发明的其他实施例中,所述方法还可以进一步包括其他步骤,参见图2和3。

优选的,步骤S2的编号方法进一步包括:记录专利文本与拆分后的句段之间的第一对应关系;

步骤S3的编号方法进一步包括:记录拆分后的子句段与所述句段之间的第二对应关系;

步骤S7进一步包括:根据所述第一对应关系和第二对应关系,整理并输出译文,得到与所述专利文本对应的译文文本。

本实施例的在步骤S5之后,步骤S6之前,还包括:根据各中间句段之间的相似度对百分之百重复的中间句段中的非首次出现句段进行锁定,在进行步骤S7时,自动解锁已锁定句段并填充译文,并根据所述第一和第二对应关系,整理并输出非锁定句段的译文。

本实施例的步骤S1之后,S2之前,所述方法还包括:从专利文本中提取关键词,基于提取的关键词确定专利文本所属领域,并调用专利文本所属领域的云端1200的大数据。

本实施例的预设长度阈值设定为各句段长度的最大值与最小值的中间值。

本实施例的第一拆分规则为根据专利文本的段落标记进行拆分。

本实施例的第二拆分规则为对句段内的句子进行分析,从前到后依次选定句子,当选定的句子长度值接近预设长度阈值时作为拆分点进行拆分,拆分后的子句段长度值小于预设长度阈值。

本实施例的预设相似度阈值由系统基于调用的专利文本所属领域的云端1200的大数据计算得到。

本实施例的步骤S4中的所述适应性优化包括:删除、增加、替换、调整顺序。

本实施例的自动解锁已锁定句段并填充译文进一步包括:根据预设系统参数基于上下文语义关联自动审校并标注所有译文。

本实施例的在步骤S5之后,步骤S6之前,还包括:根据各中间句段之间的相似度对所有中间句段进行归类排序,在步骤S6中,机器翻译模块800根据重新归类排序的句段基于上下文语义关联进行翻译并输出译文。

参见图4,本实施例的一种用于专利文本机器翻译的译前编辑的系统,系统包括:

输入模块100,用于输入专利文本;

第一拆分模块200,用于根据第一拆分规则对专利文本进行拆分,得到若干句段,对所有句段进行编号,并计算各句段的长度;

判断模块300,用于各句段的长度是否小于预设长度阈值,并将所述句段及判断结果输出至控制模块400;

控制模块400,用于根据所述判断结果,将所述句段输出至句段预处理模块600,或第二拆分模块500;

第二拆分模块500,用根据第二拆分规则对句段进行进一步拆分,得到若干子句段,对所述子句段进行编号并将所述子句段输出至句段预处理模块600;

句段预处理模块600,用于基于预设规则对输入的句段进行适应性优化,得到中间句段,并将所述中间句段输出至句段标注模块700;

句段标注模块700,用于计算各中间句段之间的相似度并标注相似度高于预设相似度阈值的中间句段,并将标注后的中间句段输出至机器翻译模块800;

机器翻译模块800,用于对标注后的中间句段进行翻译并将译文输出至译文整理模块900;

译文整理模块900,用于根据编号整理并输出译文。

本实施例的第一拆分模块200包括:

第一拆分单元210,用于第一拆分规则对专利文本进行拆分,得到若干句段;

第一编号单元220,用于对所有句段进行编号;

第一计算单元230,用于计算各句段的长度;

第二拆分模块500包括:第二拆分单元510,用于根据第二拆分规则对该句段进行进一步拆分,得到若干子句段;

第二编号单元520,用于对所述子句段进行编号;

其中所述第一拆分模块200还包括第一记录单元240,用于记录专利文本与拆分后的句段之间的第一对应关系;

第二拆分模块500还包括第二记录单元530,用于记录拆分后的子句段与所述句段之间的第二对应关系,并且所述译文整理模块900根据所述第一和第二对应关系,整理并输出译文,得到与所述专利文本对应的译文文本。

本实施例的句段标注模块700包括:

比对单元,用于计算各中间句段之间的相似度;

标注单元620,用于标注相似度高于一预设相似度阈值的中间句段;

处理单元630,用于根据各中间句段之间的相似度,对百分之百重复的中间句段中的非首次出现句段进行锁定,或对所有中间句段进行归类排序。

本实施例的系统包括:

术语提取模块1000,用于从专利文本中提取关键词;

程序调用模块1100,用于基于提取的关键词确定专利文本所属领域,并调用专利文本所属领域的云端1200的大数据。

在本发明的实施例中,向专利文本机器翻译的译前编辑系统中输入一待翻译专利文本。在本发明的其他实施例中,也可以向专利文本机器翻译的译前编辑系统中输入多个待翻译专利文本,本发明实施例对此不作限定。系统中的第一拆分模块200根据第一拆分规则对待翻译专利文本进行拆分,得到m个句段,其中m为自然整数,对各句段进行编号1,2,……M,并计算各句段的长度ki,其中i为m个句段中的第i个句段,且1≤i≤m。第一拆分规则可以为专利文本中的分隔符,如段落标记、句号及分号等,也可以是用户设定的其他拆分规则,或云端1200专利数据库匹配的专利文本的文体规则,本发明实施例对此不作限定。

判断模块300判断各句段的长度ki是否小于一预设长度阈值l

句段预处理模块600基于预设规则对输入的句段进行适应性优化,得到若干中间句段,并将所述中间句段输出至句段标注模块700,其中所述适应性优化包括删除、增加、替换、调整顺序等,还可以为其他可执行的优化方式。句段标注模块700计算各中间句段之间的相似度并标注相似度,例如,标注相似度高于一预设相似度阈值的中间句段,并将标注后的中间句段输出至机器翻译模块800。机器翻译模块800对标注后的中间句段进行翻译并将译文输出至译文整理模块900。译文整理模块900根据编号1,2,……M及i-1,i-2,……i-N反向溯源,整理并输出译文,使得输出的译文在形式上与输入的专利文本一一对应。

在本发明的一实施例中,在句段标注模块700计算各中间句段之间的相似度并基于个中间句段之间的相似度锁定百分之百重复的中间句段中的非首次出现的中间句段,并将所有中间句段输出至机器翻译模块800。机器翻译模块800对输入的中间句段中的非锁定句段进行翻译,并将译文输出至译文整理模块900。译文整理模块900自动解锁已锁定句段并填充译文,并根据所述第一和第二对应关系,反向溯源,整理并输出与所述专利文本对应的译文文本。

在本发明的一实施例中,在对输入的专利文本进行拆分之前,所述方法还包括:从专利文本中提取关键词,基于所提取的关键词确定专利文本所属领域,并调用专利文本所属领域的云端1200专利数据库。

例如,在本发明一实施例中,所述专利文本的部分包含“医疗设备”、“诊疗系统”、“病患”、“医疗车”、“远程诊疗”、“消毒”、“医疗舱”、“手术”、“负压装置”等词语,

从输入的专利文本中基于一预设的算法提取关键词,例如,“医疗设备”、“诊疗系统”、“病患”等,并基于提取的关键词确定所输入的专利文本的领域为医疗器械领域,于是调用医疗器械领域的云端1200的大数据。

在本发明的一实施例中,例如,m为5,i为3,n为2,即,输入一专利文本,被拆分为5个句段,其中第3个句段又进一步被拆分为2个句段,共形成编号为1、2、3-1、3-2、4、及5的句段,句段预处理模块600对所述句段进行适应性优化,如,删除冗余标记、替换部分表达、或增加部分辅助机器翻译的表达等,得到中间句段1′、2′、3-1′、3-2′、4′、及5′,并将这些中间句段输出至句段标注模块700。句段标注模块700计算各句段之间的相似度并标注相似度,例如,句段2′与3-2′的相似度为100%,句段3-1′与4′的相似度为85%,基于相似度对中间句段进行进一步处理,如对重复句段3-2′进行锁定,对句段3-1′与4′进行归类,并将处理后的句段输出至机器翻译模块800。机器翻译模块800翻译句段1′、2′、3-1′、4′、及5′,调用云端1200的大数据分析3-1′与4′的原文和译文,对译文进行自动优化,并将处理后的句段输出至译文整理模块900。译文整理模块900根据句段2′与3-2′的相似度关系将2′的译文自动填充至3-2′的句段中,按顺序显示中间句段1′、2′、3-1′、3-2′、4′、及5′的译文,并调用云端1200的大数据,基于上下文语义关联分析1′、2′、3-1′、3-2′、4′、及5′的译文,自动审校修改译文。例如:通过上下文语义关联,判断出2′是处于专利方法项中的句段,描述步骤的动词为动名词形式,而3-2′处于装置项中,则译文整理模块900自动将译文中动名词形式还原成动词原形形式。此外,译文整理模块900根据编号将中间句段1′、2′、3-1′、3-2′、4′、及5′对应的译文整合为与句段1、2、3、4、及5对应的译文,进一步整合为与输入的专利文本对应的译文并输出。

通过上述系统,基于用户设置及专利文本所属领域的云端1200的大数据对专利文本进行自动拆分及适应性优化,得到更适于机器翻译的中间句段,改善了原文句子过长时机器翻译译文质量不佳的问题;并且通过拆分和适应性优化,提升了中间句段之间的匹配率,再根据相似度锁定非首次出现重复句段和重新归类排序,从而避免了对重复句段的重复操作;此外,通过在拆分时对句段进行编号,在整理输出译文时,可根据所述编号反向溯源,使得输出的译文与拆分前的源文在形式和段落上一一对应,从而得到逐句对照的双语语料。

以上所述实施例仅表达了本发明的某种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制;应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围;因此,本发明专利的保护范围应以所附权利要求为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号