首页> 中国专利> 辅助误译的检测的装置及方法

辅助误译的检测的装置及方法

摘要

高效检测认为不适合作为特定领域中的译词的单词。客户机10中,翻译指示部11指示翻译引擎20进行原文本的翻译,词素解析部13对从翻译引擎20接受的翻译文本进行词素解析,抽出复合词,检索指示部15将包含抽出的复合词的检索查询投入检索引擎30,求出特定网站中的完全一致页面数α、特定网站中的共生一致页面数β、全网站中的完全一致页面数γ、全网站中的共生一致页面数δ。然后,评价处理部17通过比较α或β和γ或δ,将复合词分类为表示是否适合作为特定网站中的译词的等级,词典更新部19根据基于该等级的显示的用户指示,更新翻译引擎20中的词典。

著录项

  • 公开/公告号CN102227723A

    专利类型发明专利

  • 公开/公告日2011-10-26

    原文格式PDF

  • 申请/专利权人 国际商业机器公司;

    申请/专利号CN200980147198.3

  • 发明设计人 前寺正彦;白鸟孝明;

    申请日2009-11-13

  • 分类号G06F17/28;

  • 代理机构北京市中咨律师事务所;

  • 代理人于静

  • 地址 美国纽约

  • 入库时间 2023-12-18 03:34:35

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2013-10-09

    授权

    授权

  • 2011-12-07

    实质审查的生效 IPC(主分类):G06F17/28 申请日:20091113

    实质审查的生效

  • 2011-10-26

    公开

    公开

说明书

技术领域

本发明涉及辅助误译的检测的装置及方法。特别地说,本发明涉及辅助机器翻译原文本而获得的翻译文本中的误译的检测的装置及方法。

背景技术

近年,伴随商业的全球化,因特网上的信息也以各种各样的语言提供。这里,这样的各种各样的语言的信息也往往原始以英语提供,将其翻译为其他语言。该翻译操作一般由专家进行,最近随着提供的信息的不断增加,产生专家来不及进行翻译工作的状况。

为了解决该问题,利用机器翻译服务器,提供将英语的信息机器翻译为其他语言而获得的信息。

但是,机器翻译也存在如下几个问题。

第一,软件中无法推理语境,因此有难以按语境选择译词的问题。

第二,是否使用了适合译词的验证中需要手动操作,因此,增加的信息的验证操作需要时间,有需要该信息的顾客的满意度降低的问题。

传统上,提出了使机器翻译产生的误译的验证或修订的操作效率化的技术(例如,参照专利文献1~3)。

专利文献1中,在存储将原始文本通过机器翻译获得的翻译文本的同时,从使用者终端接收并存储翻译文本所包含的误译被修正后的修正翻译文本,从使用者终端接收了文本请求时,将指定的原始文本和与其对应的修正翻译文本向使用者终端发送。

专利文献2中,对应地显示将第1自然语言的原文翻译为第2自然语言的译文,将译文翻译为第1自然语言的逆向译文和原文,在原文的词素中,从第2自然语言的译词的候补的清单根据用户的指示选择一个候补,将该选择的译词用作对应的词素的译词,再生成译文及逆向译文。

专利文献3中,在翻译后的文章的编辑对象处所附加与用户期望的编辑方法相应的注解并确定后,按照注解的种类所对应的编辑方法,进行附加注解的对象译词的处所的编辑处理。

现有技术文献

专利文献

专利文献1:特开2008-123234号公报

专利文献2:特开2006-318202号公报

专利文献3:特开2006-276915号公报

发明内容

这样,传统以来,有实现机器翻译词素的误译的检测、修订的效率化的技术。

但是,专利文献1~3的技术未提供可高效检测认为不适合作为特定领域中的译词的单词的单元。

本发明的目的是可高效检测认为不适合作为特定领域中的译词的单词。

基于该目的,本发明提供一种辅助由机器翻译原文本获得的翻译文本内的误译的检测的装置,具备:第1取得部,取得翻译文本包含的单词;第2取得部,取得从第1文本数据群及包含该第1文本数据群的第2文本数据群的两方检索第1取得部取得的单词关联的文本数据的检索结果;生成部,根据第2取得部取得的检索结果,生成表示第1取得部取得的单词作为与第1文本数据群对应的领域中的译词的妥当性的指标;以及输出部,输出生成部生成的指标。

这里,第2取得部取得表示第1文本数据群内的单词关联的文本数据的数的第1值和表示第2文本数据群内的单词关联的文本数据的数的第2值,作为检索结果,生成部根据第1值和第2值的比较结果,生成指标。该场合,生成部在第1值对第2值的比率在规定的阈值以下时,生成表示第1取得部取得的单词不妥当作为第1文本数据群对应的领域中的译词的指标。

另外,第2取得部,通过自动生成包含第1文本数据群的指定和单词的第1检索查询并将该第1检索查询投入检索引擎,取得从第1文本数据群检索单词关联的文本数据的检索结果,通过自动生成不包含第1文本数据群的指定而包含单词的第2检索查询并将该第2检索查询投入检索引擎,取得从第2文本数据群检索单词关联的文本数据的检索结果。

而且,第1取得部取得包含多个构成词的复合词作为单词,第2取得部取得从第1文本数据群及第2文本数据群的两方将包含多个构成词的文本数据作为单词关联的文本数据进行了检索的检索结果。第2取得部取得表示包含第1文本数据群内的多个构成词的文本数据的数的第1值和表示包含第2文本数据群内的多个构成词的文本数据的数的第2值,作为检索结果,生成部根据第1值和第2值的比较结果,生成指标。该场合,生成部在第1值对第2值的比率为第1阈值以上时,生成表示第1取得部取得的复合词作为第1文本数据群对应的领域中的译词的妥当性为第1等级的指标,在该比率比该第1阈值以下的第2阈值小时,生成表示该复合词作为第1文本数据群对应的领域中的译词的妥当性为比该第1等级低的第2等级的指标。另外,第2取得部还取得表示从第1文本数据群检索包含复合词的文本数据而获得的该文本数据的数的第3值,生成部还根据第3值和第3阈值的比较结果,生成指标。而且,第2取得部还取得表示从第2文本数据群检索包含复合词的文本数据而获得的该文本数据的数的第4值,生成部还根据第4值和第4阈值的比较结果,生成指标。

另外,本发明也提供一种辅助由机器翻译原文本获得的翻译文本内的误译的检测的装置,具备:第1取得部,取得翻译文本中所含的包含多个构成词的复合词;第2取得部,通过自动生成不包含以在复合词中的排列顺序包含多个构成词这样的条件指定而包含第1文本数据群的指定和该复合词的第1检索查询并将该第1检索查询投入检索引擎,取得表示从第1文本数据群检索包含该多个构成词的文本数据而获得的该文本数据的数的第1值,通过自动生成不包含以在复合词中的排列顺序包含多个构成词这样的条件指定和第1文本数据群的指定而包含该复合词的第2检索查询并将该第2检索查询投入检索引擎,取得表示从包含第1文本数据群的第2文本数据群检索包含该多个构成词的文本数据而获得的该文本数据的数的第2值,通过自动生成包含第1文本数据群的指定和以在复合词中的排列顺序包含多个构成词这样的条件指定以及该复合词的第3检索查询并将该第3检索查询投入检索引擎,取得表示从第1文本数据群检索包含该复合词的文本数据而获得的该文本数据的数的第3值,通过自动生成不包含第1文本数据群的指定而包含以在复合词中的排列顺序包含多个构成词这样的条件指定和该复合词的第4检索查询并将该第4检索查询投入检索引擎,取得表示从第2文本数据群检索包含该复合词的文本数据而获得的该文本数据的数的第4值;生成部,根据第2取得部取得的第1值及第3值的至少任一方和第2取得部取得的第2值及第4值的至少任一方的比较结果,生成表示第1取得部取得的复合词作为第1文本数据群对应的领域中的译词的妥当性的指标;以及输出部,输出生成部生成的指标。

而且,本发明也提供一种辅助由机器翻译原文本获得的翻译文本内的误译的检测的方法,具备:取得翻译文本包含的单词的步骤;取得从第1文本数据群及包含该第1文本数据群的第2文本数据群的两方检索取得的单词关联的文本数据的检索结果的步骤;根据取得的检索结果,生成表示取得的单词作为与第1文本数据群对应的领域中的译词的妥当性的指标的步骤;以及输出生成的指标的步骤。

另外,本发明也提供一种使计算机起到辅助由机器翻译原文本获得的翻译文本内的误译的检测的装置的功能的程序,该程序使计算机起到如下部分的功能:第1取得部,取得翻译文本包含的单词;第2取得部,取得从第1文本数据群及包含该第1文本数据群的第2文本数据群的两方检索第1取得部取得的单词关联的文本数据的检索结果;生成部,根据第2取得部取得的检索结果,生成表示第1取得部取得的单词作为与第1文本数据群对应的领域中的译词的妥当性的指标;以及输出部,输出生成部生成的指标。

根据本发明,可高效检测认为不适合作为特定领域中的译词的单词。

附图说明

图1是本发明实施例中的计算机系统的全体构成的示意图。

图2是本发明实施例采用的记号的定义的示意图。

图3是本发明实施例中的复合词的评价的说明图。

图4是本发明实施例中的客户机的功能构成例的示意图。

图5是本发明实施例的客户机中的翻译指示部的动作例的流程图。

图6是本发明实施例的客户机中的词素解析部的动作例的流程图。

图7是本发明实施例的客户机中的检索指示部的动作例的流程图。

图8是本发明实施例的客户机中的检索指示部采用的检索查询的一例的示意图。

图9是本发明实施例的客户机中的检索结果存储部的存储内容的一例的示意图。

图10是本发明实施例的客户机中的评价处理部的动作例的流程图。

图11是本发明实施例的客户机中的评价信息存储部的存储内容的一例的示意图。

图12是本发明实施例的客户机中的词典更新部的动作例的流程图。

图13是可适用本发明实施例的计算机的硬件构成的示意图。

具体实施方式

以下,参照附图,详细说明本发明的最佳实施例(以下,称为″实施例″)。

首先,说明适用本实施例的计算机系统。

图1是这样的计算机系统的全体构成例的示意图。

如图示,客户机10a、10b和翻译引擎20与网络60连接,检索引擎30与网络70连接,网络60和网络70经由路由器80相互连接,从而构成该计算机系统。

客户机10a、10b是用户使用的PC(Personal Computer)等的终端装置。更详细地说,安装网页浏览器,由网页浏览器显示翻译引擎20提供的网页页面(以下称为页面),从该页面向翻译引擎20指示指定的原文本(翻译前的文本)的翻译,将从翻译引擎20返回的翻译文本(翻译后的文本)在该页面上显示。另外,图中,表示为客户机10a、10b,但是不必要区别它们的场合,也称为客户机10。另外,图中仅仅表示了2台客户机10,但是也可以设置3台以上的客户机10。

翻译引擎20是通过软件进行将某语言记述的文本翻译为其他语言记述的文本的处理的引擎,与所谓的翻译服务器相当。特别地,本实施例中,翻译引擎20设为在由网络60连接的特定组织(例如,企业)相关的领域进行专业化翻译的翻译引擎。

检索引擎30例示了采集器经由超链接(链接)自动地访问因特网上的内容,积蓄该内容的索引信息并响应来自客户机的检索请求的机器人型检索引擎。但是,也可以是管理者将内容在适合的目录登记,在有来自客户机的检索请求时根据该登记的信息返回检索结果的目录型检索引擎。

网络60、70是各种数据收发中采用的通信手段。本实施例中,作为网络60,假定特定组织内的网络即内部网。另外,作为网络70,假定特定组织外的网络即因特网。

路由器80是中继网络60向网络70发送的数据和网络60从网络70接收的数据的设备。

具有这样的构成的计算机系统中,本实施例中,提出了有效提高将英语提供的技术信息机器翻译为日语的结果的质量的手段。

将英语的信息机器翻译为日语后,有可能获得包含日语文法上正确而语境上不适合用语的结果。例如,有作为一般领域中的译词虽然适合,而作为特定领域中的译词不适合的情况。特别地,对于复合词的译词,往往产生这样的状况。

该场合的误译检测的操作以往由人通过目视进行,由于从用词的问题到句子构造、形式把握的问题为止的各种各样的问题而发生机器翻译造成的误译,因此这样的操作中,效率低下。因而,本实施例中,将翻译结果所包含的复合词为误译的可能性(以下,称为″误译可能性″)数值化,提示用户。从而,可迅速进行误译检测的操作,可高效改善机器翻译的质量。

具体地说,进行因特网检索,在作为译词采用的复合词关联的页面中,调查如下的4个类型的页面数。然后,根据这些页面数,将误译可能性数值化。

1.特定网站中的完全一致页面

2.特定网站中的共生一致页面

3.全网站中的完全一致页面

4.全网站中的共生一致页面

这里,特定网站及全网站设为包含仅仅日语文本的网站。该日语文本不仅是由机器翻译获得的文本,还期望是日语精通的人记述的文本。这是因为,若成为验证误译可能性的基准的文本存在误译,则求出的误译可能性的可靠性降低。

另外,完全一致页面意味着包含与复合词完全一致的词的页面。部分的检索引擎将复合词用引用符包围而指定为检索词后,检索这样的页面。

而且,共生一致页面意味着全部包含将复合词分解获得的多个单词(构成词)的页面。部分的检索引擎将复合词用引用符包围而指定为检索词后,自动地将复合词分解为单词,检索这样的页面。例如,考虑″宇宙ランタイム″这样的复合词。该场合,通过将″宇宙ランタイム″分解为″宇宙″和″ランタイム″进行检索,检索共生一致页面,即,虽然不包含″宇宙ランタイム″这样的复合词但是包含″宇宙″及″ランタイム″的两方的页面。

图2中,定义表示上述4个类型的页面数的记号。

如图示,本实施例中,将特定网站中的完全一致页面数设为″α″,特定网站中的共生一致页面数设为″β″,全网站中的完全一致页面数设为″γ″,全网站中的共生一致页面数设为″δ″。

这样定义时,以下的条件式成立。

α≤β≤δ

α≤γ≤δ

这里,β和γ的大小不定,但在网站的专业性分析方面是有用的。

另外,本实施例中,采用复合词作为单词的一例,采用页面作为文本数据的一例,采用特定网站作为第1文本数据群的一例,采用全网站作为第2文本数据群的一例。另外,采用α或β作为表示第1文本数据群内的单词关联的文本数据的数的第1值的一例,采用γ或δ作为表示第2文本数据群内的单词关联的文本数据的数的第2值的一例。而且,采用β作为表示从第1文本数据群检索包含多个构成词的文本数据而获得的文本数据的数的第1值的一例,采用δ作为表示从第2文本数据群检索包含多个构成词的文本数据而获得的文本数据的数的第2值的一例,采用α作为表示从第1文本数据群检索包含复合词的文本数据而获得的文本数据的数的第3值的一例,采用γ作为表示从第2文本数据群检索包含复合词的文本数据而获得的文本数据的数的第4值的一例。

接着,以5个复合词W1~W5为例,说明误译可能性的评价方法。

图3是关于复合词W1~W5,表示α、β、γ、δ的值的曲线图。

关于复合词W1,α的值大到某一程度,因此,可明白存在大量特定网站内的完全一致页面。从而,可以说复合词W1在特定网站内是正确的译词。

关于复合词W2,β的值γ的值都在规定以上,因此,可明白特定网站内的共生一致页面和全网站中的完全一致页面都达到某一程度。从而,可以说复合词W2是正确的日语,为正确的译词的可能性高。

关于复合词W3,α的值和β的值都接近″0″而γ的值为规定以上,因此,可明白几乎没有在特定网站内的完全一致页面和共生一致页面,但是全网站中的完全一致达到某一程度。从而,可以说复合词W3虽然是正确的日语,但是在特定网站中为不适合的可能性高。对于这样的复合词,例如,可以求出α/γ的值,若该值在规定的阈值以下,则可判断不适合作为特定网站中的译词。或者,也可以用β/γ的值进行同样的判断,若是基于α及β的至少任一方和γ及δ的至少任一方的比较结果的判断,则也可以根据以下基准进行判断。

关于复合词W4,γ的值为″0″,因此,可明白全网站中没有完全一致页面。从而,可以说复合词W4作为日语,需要再验证。

关于复合词W5,γ的值为″0″、δ的值接近″0″,因此可明白全网站中没有完全一致页面,几乎没有共生一致页面。从而,可以说复合词W5不适合作为日语。

这里,对于复合词W2、W3、W4,还可算出β/δ,β/δ越小则可判断误译的可能性越高。

从以上可明白,本实施例中,本来将实际存在的词作为检索关键字进行的因特网检索可用于检测实际不存在的词。

接着,详细说明本实施例中的客户机10。另外,以下,假定机器翻译由英语记述的原文本,取得日语的翻译文本,验证误译。但是,原文本及翻译文本的语言不限于此。

首先,说明客户机10的功能构成。

图4是客户机10的功能构成例的方框图。

如图示,客户机10具备翻译指示部11、翻译文本存储部12、词素解析部13、复合词清单存储部14、检索指示部15。另外,还具备检索结果存储部16、评价处理部17、评价信息存储部18、词典更新部19。

翻译指示部11将用户对英语文本的指定传递给翻译引擎20,指示将该英语文本翻译为日语,接受日语文本作为翻译引擎20的翻译结果。

翻译文本存储部12存储翻译指示部11从翻译引擎20接受的日语文本。

词素解析部13对翻译文本存储部12存储的日语文本进行词素解析,抽出复合词。本实施例中,作为取得单词的第1取得部的一例,设置词素解析部13。

复合词清单存储部14存储词素解析部13抽出的复合词的清单(复合词清单)。

检索指示部15向检索引擎30投入从特定网站及全网站检索复合词清单存储部14存储的复合词关联的页面的检索查询,接受检索引擎30的检索结果。本实施例中,作为取得从第1文本数据群及第2文本数据群的两方检索单词关联的文本数据的检索结果的第2取得部的一例,设置检索指示部15。

检索结果存储部16存储检索指示部15从检索引擎30接受的检索结果。

评价处理部17根据检索结果存储部16存储的检索结果,生成表示复合词的误译可能性的评价信息(各复合词的等级的信息)。本实施例中,作为表示作为单词的第1文本数据群对应的领域中的译词的妥当性的指标的一例,采用评价信息,作为生成指标的生成部的一例,设置评价处理部17。

评价信息存储部18存储评价处理部17生成的评价信息。

词典更新部19更新翻译引擎20进行机器翻译时参照的词典。此时,也可以向用户提示评价信息存储部18存储的评价信息,向用户请求是否对各复合词进行词典的更新的指示。

然后,详细说明本实施例的动作。

首先,用户进行在客户机10显示翻译引擎20提供的页面,在该页面上指定翻译对象的英语文本的操作。然后,客户机10中,翻译指示部11开始动作。

图5是此时的翻译指示部11的动作例的流程图。

首先,翻译指示部11接受用户指定的翻译对象的英语文本(步骤101)。这里,翻译对象的英语文本可以是因特网上的页面,也可以是特定的应用程序作成后在客户机10内存储的电子文本。

接着,翻译指示部11指示翻译引擎20进行指定的英语文本的翻译(步骤102)。然后,翻译引擎20对英语文本进行机器翻译,取得日语文本。

从而,翻译指示部11从翻译引擎20接受机器翻译获得的日语文本(步骤103)。然后,在翻译文本存储部12存储该接受的日语文本,在显示机构90d(参照图13)显示(步骤104)。

这样,日语文本在翻译文本存储部12存储后,词素解析部13对该日语文本进行词素解析,抽出作为误译可能性的验证对象的复合词。

图6是此时的词素解析部13的动作例的流程图。

首先,词素解析部13从翻译文本存储部12读出由机器翻译获得的日语文本(步骤121)。

接着,词素解析部13通过进行日语文本的词素解析,抽出复合词(步骤122)。另外,这里抽出的复合词不限于一个词,一般抽出多个复合词。

然后,词素解析部13将抽出的复合词作为复合词清单在复合词清单存储部14存储(步骤123)。

这样,在复合词清单存储部14存储复合词清单后,检索指示部15采用检索引擎30,进行复合词清单所包含的复合词关联的页面的因特网上的检索。

图7是此时的检索指示部15的动作例的流程图。另外,图8表示该动作例中向检索引擎30发送的检索查询的例子。

首先,检索指示部15取出复合词清单存储部14存储的一个复合词,置于检索结果存储部16中的复合词栏(步骤141)。另外,检索结果存储部16中的存储形式将在后详细说明。

接着,检索指示部15指示检索引擎30进行特定网站中的完全一致页面的检索(步骤142)。此时,检索指示部15例如向检索引擎30发送图8(a)的检索查询。该检索查询将复合词″XYZ″用引用符(图中表记为″%22″)包围,指定为检索词。另外,通过″vs=ibm.com″的记述,指定″ibm.com″作为特定网站。然后,检索引擎30检索特定网站中的完全一致页面,向客户机10返回该页面数α。

从而,检索指示部15从检索引擎30取得α,置于检索结果存储部16的α栏(步骤143)。

另外,检索指示部15指示检索引擎30进行特定网站中的共生一致页面的检索(步骤144)。此时,检索指示部15例如向检索引擎30发送图8(b)的检索查询。该检索查询将复合词″XYZ″用引用符包围,指定为检索词。另外,通过″vs=ibm.com″的记述,指定″ibm.com″为特定网站。然后,检索引擎30检索特定网站中的共生一致页面,向客户机10返回该页面数β。

从而,检索指示部15从检索引擎30取得β,置于检索结果存储部16的β栏(步骤145)。

而且,检索指示部15指示检索引擎30进行全网站中的完全一致页面的检索(步骤146)。此时,检索指示部15例如向检索引擎30发送图8(c)的检索查询。该检索查询将复合词″XYZ″用引用符(图中表记为″%22″)包围,指定为检索词。另外,没有″vs=″的记述,不指定特定网站。然后,检索引擎30检索全网站中的完全一致页面,向客户机10返回该页面数γ。

从而,检索指示部15从检索引擎30取得γ,置于检索结果存储部16的γ栏(步骤147)。

而且,检索指示部15指示检索引擎30进行全网站中的共生一致页面的检索(步骤148)。此时,检索指示部15例如向检索引擎30发送图8(d)的检索查询。该检索查询将复合词″XYZ″用引用符包围,指定为检索词。另外,没有″vs=″的记述,不指定特定网站。然后,检索引擎30检索全网站中的共生一致页面,向客户机10返回该页面数δ。

从而,检索指示部15从检索引擎30取得δ,置于检索结果存储部16的δ栏(步骤149)。

然后,检索指示部15判定复合词清单存储部14是否存储了未处理的复合词(步骤150)。若存储了这样的复合词,则对该复合词反复步骤141~149的处理。另外,若未存储这样的复合词,则处理结束。

这里,说明通过这样的处理在检索结果存储部16存储的检索结果。

图9是检索结果存储部16存储的检索结果的一例的示意图。

如图示,检索结果成为复合词和α的值和β的值和γ的值和δ的值的对应的结果。另外,图9中,β/δ的值也对应,为了便于说明而包含在内,实际上也可以不在检索结果存储部16存储。另外,图9表示按照图7的处理而存储信息时的状态,按照在由机器翻译获得的日语文本出现的复合词的顺序,存储检索结果。例如,表示了在由机器翻译获得的日语文本最初出现的复合词是″オ-フ°ン·ソ-ス″,特定网站中包含″オ-フ°ン·ソ-ス″的页面是3830件,包含″オ-フ°ン″及″ソ-ス″的页面是5610件,全网站中包含″オ-フ°ン·ソ-ス″的页面是3000万件,包含″オ-フ°ン″及″ソ-ス″的页面是4300万件。

这样,在检索结果存储部16存储检索结果后,评价处理部17根据该信息,生成作为各复合词的误译可能性的等级的评价信息。

即,评价处理部17对检索结果应用由经验得出的如下4个准则,将作为译词采用的复合词分为″正确″、″需要注意″、″需要修正″。

A.特定网站内完全一致页面发现2个以上时向复合词分配的准则。向该准则分配的复合词可以认为作为特定网站中的译词是正确的。

B.特定网站内完全一致页面虽然未发现2个以上,但是全网站中完全一致页面发现2个以上时向复合词分配的准则。向该准则分类的复合词作为日语大致正确,但是在特定网站中可能不适合,因此需要注意。

C.特定网站内和全网站中完全一致页面都未发现2个以上时向复合词分配的准则。向该准则分类的复合词存在误译的可能性,因此需要注意。

D.以上的任一条件都不适用,特定网站内未发现共生一致页面时向复合词分配的准则。向该准则分类的复合词误译的可能性高,因此需要修正。

另外,对于分配了上述需要注意的准则的复合词,通过评价式附上引起注意的优先度。这里,评价式采用特定网站内的共生一致页面数对全网站中的共生一致页面数的比例。即,求出构成复合词的多个单词的共生出现频度和这些单词以与复合词相同的排列顺序出现时的出现频度的比。

该值越大,则复合词对特定网站的渗透度越高,因此不是误译的可能性高。另外,越小则该复合词对特定网站的渗透度越低,因此误译的可能性高,需要注意。

但是,该值大到什么程度因作为特定网站指定的网站的种类(域、文本的种类)而异,因此,采用值的平均和值的平均的十分之一作为阈值,将准则分为3个阶段(等级),作为引起注意时的刻度。

图10是评价信息生成时的评价处理部17的动作例的流程图。另外,该动作例中,虽然不是需要注意的准则,但是准则A也采用评价式分为2个阶段(等级)。另外,在该动作之前,求出相对于全部复合词的β/δ的平均值AVG,由评价处理部17在可参照的存储器预先存储。例如,在图9的例的场合,AVG=(0.0001305+0.0000000+0.0003688+0.0000097+0.0006135+0.1043860+0.0029358+0.0051106+0.0384384+0.0002405+0.0000000+0.0001655)/12=0.0126999,因此该值在存储器存储。

首先,评价处理部17从检索结果存储部16存储的检索结果读入1行(步骤161)。

接着,评价处理部17判定读入的检索结果中的β的值是否比″0″大(步骤162)。

这里,β的值若比″0″大,则评价处理部17判定读入的检索结果中的α的值是否比″1″大(步骤163)。

结果,α的值若比″1″大,则处理对象的复合词分类为等级A。但是,本实施例中,等级A由β/δ的值分为等级A1和等级A2,因此将复合词分类为其一。即,评价处理部17根据读入的检索结果中的β和δ算出β/δ并从存储器读出AVG,判定β/δ和AVG×0.1的大小关系(步骤164)。若β/δ在AVG×0.1以上,则将处理对象的复合词分类为等级A1(步骤165)。即,与评价信息存储部18的等级A1关联地存储该复合词。另外,β/δ若不足AVG×0.1,则将处理对象的复合词分类为等级A2(步骤166)。即,与评价信息存储部18的等级A2关联地存储该复合词。

另一方面,在步骤163,α的值若在″1″以下,则评价处理部17判定步骤161读入的检索结果中的γ的值是否比″1″大(步骤167)。若γ的值比″1″大,则评价处理部17将处理对象的复合词分类为等级B(步骤168)。即,与评价信息存储部18的等级B关联地存储该复合词。

另外,γ的值若在″1″以下,则处理对象的复合词分类为等级C。但是,本实施例中,等级C由β/δ的值分为等级C1、等级C2、等级C3,因此,将复合词分类为其一。即,评价处理部17根据读入的检索结果中的β和δ算出β/δ并从存储器读出AVG,判定β/δ和AVG、β/δ和AVG×0.1的大小关系(步骤169)。若β/δ在AVG以上,则将处理对象的复合词分类为等级C1(步骤170)。即,与评价信息存储部18的等级C1关联地存储该复合词。另外,若β/δ不足AVG且在AVG×0.1以上,则将处理对象的复合词分类为等级C2(步骤171)。即,与评价信息存储部18的等级C2关联地存储该复合词。而且,若β/δ不足AVG×0.1,则将处理对象的复合词分类为等级C3(步骤172)。即,与评价信息存储部18的等级C3关联地存储该复合词。

另外,在步骤162,若β的值为″0″,则评价处理部17将处理对象的复合词分类为等级D(步骤173)。即,与评价信息存储部18的等级D关联地存储该复合词。

然后,评价处理部17判定在检索结果存储部16是否存储了未处理的检索结果(步骤174)。若存储了这样的检索结果,则对于该检索结果,反复步骤161~173的处理。另外,若未存储这样的检索结果,则处理结束。

这里,通过这样的处理说明评价信息存储部18存储的评价信息。

图11是评价信息存储部18存储的评价信息的一例的示意图。

如图示,评价信息是将等级和复合词对应形成的。

例如,复合词中,β=5610>0,且,α=3830>1,且,β/δ=0.0001305<0.0012700=AVG×0.1,因此与等级A2对应。复合词″群集方法″中,β=0,因此与等级D对应。

复合词中,β=5790>0,且,α=0≤1,且,γ=0≤1,且,β/δ=0.0003688<0.0012700=AVG×0.1,因此与等级C3对应。

这样,在评价信息存储部18存储评价信息后,词典更新部19通过基于评价信息的用户的指示,将机器翻译采用的日语的复合词作为翻译前的英语的复合词的译词在词典登记。

图12是此时的词典更新部19的动作例的流程图。

首先,词典更新部19从评价信息存储部18存储的评价信息读出1行(步骤181)。在图5的步骤104,在显示机构90d(参照图13)显示的日语文本上,将该读出的评价信息所包含的复合词以与该读出的评价信息所包含的等级相应的属性显示(步骤182)。这里,属性可以例如采用复合词显示时的显示色。具体地说,可以考虑将分类为等级A的复合词用绿色显示,分类为等级B的复合词用蓝色显示,分类为等级C的复合词用黄色显示,分类为等级D的复合词用红色显示。

然后,词典更新部19判定是否从评价信息存储部18存储的评价信息读出了全部行(步骤183)。若未读出全部行,则反复步骤181~182的处理。另外,若读出了全部行,则通过基于日语文本上的复合词的显示的用户操作,进行在词典登记复合词的处理。

即,首先,词典更新部19判定用户是否明示地选择了不进行将复合词对词典的登记操作(步骤184)。这里,在选择不进行将复合词对词典的登记操作时,结束处理,而在未选择不进行将复合词对词典的登记操作时,判定用户是否在一定时间内进行了将特定的复合词对词典的登记操作(步骤185)。

结果,若在一定时间内进行了特定的复合词对词典的登记操作,则将指定的复合词在词典登记(步骤186),返回步骤184。另一方面,若未在一定时间内进行特定的复合词对词典的登记操作,则不进行复合词对词典的登记,返回步骤184。

另外,这里所述的复合词的评价,严格地说,不同于参照图3说明的复合词的评价。但是,与以复合词作为检索关键字进行因特网检索时的全网站的命中数相比,特定网站的命中数极少时,该复合词不适合作为特定网站的译词的考虑方法是共同的。

反之,与全网站的命中数相比,特定网站的命中数极少时,若采取该复合词不适合作为特定网站的译词的考虑方法,则其他条件可进行各种各样的变更。例如,图10中,β>0且α>1时,对β/δ进行评价,但是也可以去除β>0这样的条件。另外,β>0且α≤1且γ≤1时,对β/δ进行评价,但是也可以去除β>0及α≤1这样的条件,或者去除β>0及γ≤1这样的条件。

而且,为了确定按任意的条件定义的准则中的等级,也可以采用β/δ的值来实现发明。即,也可以考虑以如下方法确定等级:若β/δ在第1阈值以上,则将作为特定网站对应的领域中的译词的妥当性设为第1等级,若β/δ比第1阈值以下的第2阈值小,则将作为特定网站对应的领域中的译词的妥当性设为比第1等级低的第2等级。

以上,说明了本实施例。

这样,本实施例中,在特定网站和全网站检索包含某复合词的页面,根据特定的网站的命中数和全网站的命中数,将该复合词的误译可能性数值化。从而,要验证是否适合作为特定网站的语境中的译词的复合词可进行排序,与通过手动操作检测要验证的复合词的场合相比,可显著缩短检测所需时间。另外,在几乎没有人为介入的情况下,对于复合词,不采用文集也可以辨别是否误译。

另外,本实施例中,以2个以上的单词结合成的单词即复合词作为误译检测的对象,也可以将不能继续分解的单词即简单词作为误译检测的对象。该场合,没有了完全一致和共生一致的区别,因此,α=β,且,γ=δ。例如,特定网站对应的领域为计算机相关时,该特定网站的翻译引擎采用″权利者″作为″authority″的译词。该场合,在全网站以″权利者″为对象进行检索后,虽然命中大量的页面,但是,以特定网站为对象检索″权利者″时,命中数并没有那么多。因而,可判断″权利者″不适合作为特定网站的译词,促使用户进行验证,获得与计算机相关的适合译词即″オ-ソリテイ″。

另外,本实施例中,检索包含单词的页面,例如,也可以检索像单词登记为索引的页面那样的单词关联的页面。

而且,本实施例中,客户机10进行词素解析,但是也不一定限于必这样的形态。即,也可以在客户机10的外部设置进行词素解析的词素解析引擎,客户机10向词素解析引擎传送翻译文本并指示词素解析,然后从词素解析引擎接受结果。

反之,本实施例中,客户机10指示外部设置的翻译引擎20进行翻译,指示外部设置的检索引擎30进行检索,但是也不必一定限于这样的形态。也可以采用由客户机10自身进行翻译,自身进行检索的构成。

而且,本实施例中,说明了用于验证内部网连接的翻译引擎20采用的译词是否适合作为内部网连接的企业等相关的领域中的译词的系统。但是,客户机10也可以指定某领域,向服务器询问是否适合作为该领域中的译词后,服务器对译词进行数值的评价,促使用户进行误译的验证。

最后,说明适用本实施例的计算机的硬件构成。图13是这样的计算机的硬件构成的一例的示意图。如图示,计算机具备:作为运算手段的CPU(Central Processing Unit)90a;经由M/B(母板)芯片组90b与CPU90a连接的主存储器90c;经由相同M/B芯片组90b与CPU90a连接的显示机构90d。另外,M/B芯片组90b经由桥电路90e与网络接口90f、磁盘装置(HDD)90g、声音机构90h、键盘/鼠标90i、软盘驱动器90j连接。

另外,图13中,各构成要素经由总线连接。例如,CPU90a和M/B芯片组90b间以及M/B芯片组90b和主存储器90c间经由CPU总线连接。另外,M/B芯片组90b和显示机构90d之间可以经由AGP(Accelerated Graphics Port)连接,但是,显示机构90d包含与PCI Express对应的视频卡的场合,M/B芯片组90b和该视频卡间经由PCI Express(PCI e)总线连接。另外,与桥电路90e连接的场合,对于网络接口90f,例如,可以采用PCI Express。另外,对于磁盘装置90g,例如,可以采用串行ATA(ATAttachment)、并行传送的ATA、PCI(Peripheral Components Interconnect)。而且,对于键盘/鼠标90i及软盘驱动器90j,可以采用USB(Universal Serial Bus)。

这里,本发明可以全部由硬件实现,也可以全部由软件实现。另外,也可以由硬件及软件的两方实现。另外,本发明可以作为计算机、数据处理系统、计算机程序实现。该计算机程序可以在计算机可读取的介质存储并提供。这里,介质可以是电子、磁、光学、电磁、红外线或半导体系统(装置或设备),或者,传输介质。另外,计算机可读取介质例如有半导体、固态存储装置、磁带、可拆卸计算机软盘、随机存取存储器(RAM)、只读存储器(ROM)、刚性磁盘及光盘。现时刻中的光盘例包含光盘只读存储器(CD-ROM)、光盘读写器(CD-R/W)及DVD。

以上,用实施例说明了本发明,但是本发明的技术范围不限于上述实施例。本专业技术人员应该知道,在不脱离本发明的精神及范围的情况下,可进行各种各样的变更,或者采用替代的形态。

符号的说明

10...客户机,11...翻译指示部,12...翻译文本存储部,13...词素解析部,14...复合词清单存储部,15...检索指示部,16...检索结果存储部,17...评价处理部,18...评价信息存储部,19...词典更新部,20...翻译引擎,30...检索引擎

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号