首页> 中国专利> 一种基于语料合并的无监督双语词典构建方法

一种基于语料合并的无监督双语词典构建方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

一种基于语料合并的无监督双语词典构建方法，属于无监督双语词典构建领域。本方法步骤为：一、根据单语语料训练得到对应的单语词向量；二、根据单语词向量得到映射矩阵W；三、根据映射矩阵W抽取替换单词的词典；四、根据替换词典替换原来单语语料并且合并单语语料为混合语料；五、训练混合语料得到混合词向量；六、分离混合词向量得到新的源语言与目标语言词向量；七、基于新的词向量重新计算映射矩阵并据此构建词典。本发明应用于低资源语言无监督双语词典构建领域。本发明解决了低资源语言平行语料库匮乏导致的双语词典构建代价过高的问题，以及提高基于无监督双语构建的词典的性能的问题。

著录项

公开/公告号CN113343672B

专利类型发明专利
公开/公告日2022.12.16

原文格式PDF
申请/专利权人哈尔滨工业大学;
展开▼

申请/专利号CN202110685974.8
发明设计人曹海龙;赵铁军;朱聪慧;韩梦凡;
展开▼

申请日2021.06.21
分类号G06F40/242(2020.01);G06F40/284(2020.01);
代理机构哈尔滨市阳光惠远知识产权代理有限公司 23211;
代理人刘景祥
地址 150001 黑龙江省哈尔滨市南岗区西大直街92号
入库时间 2023-01-09 21:32:12

法律信息

法律状态公告日

法律状态信息

法律状态
2022-12-16

授权

发明专利权授予

说明书

技术领域

本发明涉及一种基于语料合并的无监督双语词典构建方法，属于无监督双语词典构建领域。

背景技术

双语词典构建是利用给定的文本语料构建对应语言的双语词典。双语词典的构建不仅仅是机器翻译的基础，在其他自然语言任务中也有应用，比如跨语言信息发现、跨语言命名实体识别以及跨语言信息安全监测等等。常用的双语词典构建方法是映射方法，即将不同语言的词向量(训练对应语言的文本语料获得的)映射到同一个向量空间中，在这个空间中不同语言中含义相同的词尽可能靠近，进而可以进行双语词典的构建。

目前对双语词典构建的方法有很多，其中按照监督程度进行划分，双语词典构建方法可以分为三种：第一种方法是有监督双语词典构建方法，利用平行语料比如人工标注的词典作为监督方式进行映射矩阵的学习，之后利用学习到的映射矩阵将不同语言的词向量映射到同一个空间进行双语词典构建；第二种方法是半监督双语词典构建方法，半监督的方法是利用种子词典或者启发式词典代替原始人工标注的词典进行映射矩阵的学习；第三种是无监督双语词典构建方法，无监督的方法不需要任何双语信息进行监督，直接利用已有的单语语料或者单词词向量进行双语词典的构建。

有监督双语词典构建方法在进行训练的过程中需要大规模高质量的平行语料作为监督方式进行训练，然而对于低资源语言来说大规模高质量的词典是难以获取的。半监督方法双语词典构建方法利用种子词典降低了监督程度，虽然降低了对大规模词典的需求，但是由于种子词典的建立需要同源词或者共享单词对语言种类却进行了限制。无监督双语词典构建方法不需要任何程度的监督方式，只需要利用单语语料或者单语词向量就能够进行双语词典的抽取。

平行语料库的难以获取一方面是由于构建平行语料库需要耗费大量的人力物力，另一方面是许多质量较好的平行语料库并不免费开放使用。此外，对于低资源语言来说，少有高质量的平行语料库或者没有对应的平行语料库，但是相关的低资源语言的单语语料却能够在互联网上大量获得。基于以上原因，只需要利用单语语料的无监督双语词典构建方法逐渐成为研究热点。

目前无监督双语词典的构建方法主要有两种：

(1)是利用对抗学习的方法进行无监督双语词典构建，利用判别器来区分映射的源向量和目标向量，训练生成器(映射矩阵)来欺骗判别器。

(2)是根据词向量结构相似性等方法进行初始词典的构建，之后迭代自学习方法学习映射。

发明内容

本发明的目的是为了解决低资源语言平行语料库匮乏导致的双语词典构建代价过高的问题，以及提高基于无监督双语构建的词典的性能的问题，而提出的一种基于语料合并的无监督双语词典构建方法

一种基于语料合并的无监督双语词典构建方法，基于语料合并的无监督双语词典构建方法包括以下步骤：

步骤一、根据源语言单语语料和目标语言单语语料训练得到各自对应的词向量；

步骤二、计算步骤一得到的词向量对应的两个自相似度矩阵，利用自相似度矩构建初始化词典D0，并根据初始化词典D0迭代自学习方法得到映射矩阵W；

步骤三、根据步骤二得到的映射矩阵W，将源语言词向量映射到目标语言词向量空间中，并据此抽取词典；

步骤四、根据步骤三得到的词典替换原来单语语料的单词并混合两个单语语料得到混合语料；

步骤五、利用词向量训练方法训练步骤四得到的混合语料并获取混合语料的词向量；

步骤六、将步骤五中得到混合词向量分开得到新的源语言和目标语言词向量；

步骤七、将步骤六得到的新的源语言和目标语言词向量作为输入，重新进行步骤二的过程得到新的映射矩阵W1，利用W1将不同语言的词向量映射到同一个向量空间，在该向量空间中可以根据相似度构建词典。

进一步的，步骤三中，利用步骤二得到的映射矩阵进行词典抽取，具体过程为：

步骤三一、利用步骤二得到的映射矩阵W，将源语言词向量映射到目标语言向量空间中，在目标语言向量空间中，寻找与源语言单词最近的目标单词作为源语言单词的翻译，将源语言单词和该源语言单词的翻译形成翻译对；

步骤三二、将步骤三一得到的翻译对，按照翻译对两个单词之间相似度的大小，从大到小进行排序，抽取排序后翻译对的前1500个翻译对作为替换词典。

进一步的，步骤四中，利用步骤三抽取得到的词典对原来的单语语料进行单词替换与语料合并，具体过程为：

步骤四一、将步骤三二得到的翻译对联结成一个整体，即翻译联结对，具体的，将翻译对中的源语言单词和目标语言单词联结成一个整体得到对应的翻译联结对，将步骤三二中的1500个翻译对联结成对应的1500个翻译联结对；

步骤四二、利用步骤三得到的词典和步骤四一得到的翻译联结对，对原始单语语料进行单词替换，并且将替换完的单语语料进行合并。

进一步的，步骤六中，将步骤五得到的源语言与目标语言词向量分离开，具体过程为：

步骤六一、将步骤五获得的源语言和目标语言词向量分开，同时将联结翻译对的单词分开为对应的源语言单词词向量和目标语言单词词向量。

本发明的有以下优点：

本发明相关研究不仅对机器翻译具有帮助，对于其他的跨语言自然语言处理任务尤其是有关低资源语言的研究任务具有促进作用，例如跨语言信息发现、跨语言命名实体识别以及跨语言信息安全监测等等。为了提高构建的双语词典质量，本发明利用替换单词与合并单语语料提升词向量的质量，进而可以提升无监督方法构建的词典的质量。为了解决低资源语言平行语料匮乏的问题，本发明提出了一种基于合并语料的无监督双语词典构建方法。本发明提出的方法实现简单，只利用单语语料就可以进行双语词典的构建，减轻了对平行语料库的依赖，同时利用单词替换和合并语料的方法提升了构建的双语词典的质量。总的来说，该方法提出了一种基于合并语料的无监督双语词典构建方法。

在本发明提出了一种基于合并语料的无监督双语词典构建方法。通过分析无监督双语词典构建方法与词向量训练方法的特性，利用合并语料的方法提升不同语言词向量的质量，进而提升构建词典的质量。本发明基于现有的无监督双语词典构建方法等，利用单词替换与合并语料的方法提升构建词典的性能。

本发明在抽取替换语料的词典中，对抽取词典的翻译对之间的相似度值按照从大到小排序后，抽取靠前的翻译对作为替换单语语料中单词的依据。为了提高替换语料单词词典的准确度，考虑了相似度值越大的翻译对，一般翻译的准确度越高的信息。

本发明是利用替换单词与合并语料的方法来提升不同语言词向量之间的相似度，利用抽取的词典翻译对替换原来单语语料中的单词，之后合并替换单词后的单语语料。考虑到当前词向量训练方法大都需要考虑到上下文信息，训练混合语料不仅能够使词典翻译对中的单词词向量一致，还能够使对应翻译对中单词的上下文单词的词向量更加接近，进而能够提升不同语言中词向量的相似度。

本发明是利用合并单语语料的方法来进行无监督双语词典构建，本发明的方法充分利用了词向量训练方法中对上下文信息依赖的信息，以及基于当前无监督词典构建方法结果中翻译对的相似度值越大，翻译对的越准确的信息，对单语语料中的单词进行替换同时合并替换单词后的单语语料。对训练词向量的方法和无监督双语词典构建方法的特性进行了充分的利用。

本发明主要是针对低资源语言平行语料匮乏的问题提出的方法，考虑了词向量训练方法和当前无监督双语词典构建方法的特性，对于单语语料进行了充分的利用。经过实验，发现相较于当前无监督双语词典构建方法，该方法在多种语言上构建的词典的准确度都有提升。

附图说明

图1为本发明的一种基于语料合并的无监督双语词典构建方法的主要过程流程图；

图2为步骤四提出的替换单词并合并语料的示例说明图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出了一种合并语料的无监督双语词典构建方法的实施方式，具体是按照以下步骤制备的：

步骤一、根据源语言单语语料和目标语言单语语料训练得到各自对应的词向量；

步骤二、计算步骤一得到的词向量对应的两个自相似度矩阵，利用自相似度矩构建初始化词典D0，并根据初始化词典D0迭代自学习方法得到映射矩阵W

步骤三、根据步骤二得到的映射矩阵W，将源语言词向量映射到目标语言词向量空间中，并据此抽取词典；

步骤四、根据步骤三得到的词典替换原来单语语料的单词并混合两个单语语料得到混合语料；

步骤五、利用词向量训练方法训练步骤四得到的混合语料并获取混合语料的词向量；

步骤六、将步骤五中得到混合词向量分开得到新的源语言和目标语言词向量；

步骤七、将步骤六得到的新的源语言和目标语言词向量作为输入，重新进行步骤二的过程得到新的映射矩阵W1。利用W1可以将不同语言的词向量映射到同一个向量空间，在该向量空间中可以根据相似度构建词典。

具体的，本发明不仅对机器翻译具有帮助，对于其他的跨语言自然语言处理任务尤其是有关低资源语言的研究任务具有促进作用，例如跨语言信息发现、跨语言命名实体识别以及跨语言信息安全监测等等。为了提高构建的双语词典质量，本实施方式利用替换单词与合并单语语料提升词向量的质量，进而可以提升无监督方法构建的词典的质量。为了解决低资源语言平行语料匮乏的问题，本实施方式提出了一种基于合并语料的无监督双语词典构建方法。本实施方式提出的方法实现简单，只利用单语语料就可以进行双语词典的构建，减轻了对平行语料库的依赖，同时利用单词替换和合并语料的方法提升了构建的双语词典的质量。总的来说，本方法提出了一种基于合并语料的无监督双语词典构建方法。

在本实施方式提出了一种基于合并语料的无监督双语词典构建方法。通过分析无监督双语词典构建方法与词向量训练方法的特性，利用合并语料的方法提升不同语言词向量的质量，进而提升构建词典的质量。本实施方式基于现有的无监督双语词典构建方法，利用单词替换与合并语料的方法提升构建词典的性能。

本实施方式在抽取替换语料的词典中，对抽取词典的翻译对之间的相似度值按照从大到小排序后，抽取靠前的翻译对作为替换单语语料中单词的依据。为了提高替换语料单词词典的准确度，考虑了相似度值越大的翻译对，一般翻译的准确度越高的信息。

本实施方式是利用替换单词与合并语料的方法来提升不同语言词向量之间的相似度，利用抽取的词典翻译对替换原来单语语料中的单词，之后合并替换单词后的单语语料。考虑到当前词向量训练方法大都需要考虑到上下文信息，训练混合语料不仅能够使词典翻译对中的单词词向量一致，还能够使对应翻译对中单词的上下文单词的词向量更加接近，进而能够提升不同语言中词向量的相似度。

本实施方式是利用合并单语语料的方法来进行无监督双语词典构建，本实施方式的方法充分利用了词向量训练方法中对上下文信息依赖的信息，以及基于当前无监督词典构建方法结果中翻译对的相似度值越大，翻译对的越准确的信息，对单语语料中的单词进行替换同时合并替换单词后的单语语料。对训练词向量的方法和无监督双语词典构建方法的特性进行了充分的利用。

本实施方式主要是针对低资源语言平行语料匮乏的问题提出的方法，考虑了词向量训练方法和当前无监督双语词典构建方法的特性，对于单语语料进行了充分的利用。经过实验，发现相较于当前无监督双语词典构建方法，该方法在多种语言上构建的词典的准确度都有提升。

进一步的，利用步骤二中得到的映射矩阵W可以将源语言词向量空间到目标语言词向量空间中，从而可以在目标向量空间进行抽取词典；但是在抽取词典的时候，抽取得到的词典准确度不高；然而对于本发明，对翻译对的相似度值进行排序，抽取靠前的词典，因此：

步骤三一、利用步骤二得到的映射矩阵W，将源语言词向量映射到目标语言向量空间中，在这个空间中寻找与源语言单词最近的目标单词作为该源语言单词的翻译。

步骤三二、将步骤三一得到的翻译对，按照翻译对两个单词之间相似度的大小，从大到小进行排序，抽取排序后翻译对的前1500个翻译对作为替换词典；

进一步的，参照图2所示(其中，词典是由步骤三获得的)，步骤四利用步骤三抽取得到的词典对原来的单语语料进行单词替换与语料合并：

步骤四一、将步骤三二得到的翻译对联结成一个整体，即翻译联结对，具体的，将翻译对中的源语言单词和目标语言单词联结成一个整体得到对应的翻译联结对，将步骤三二中的1500个翻译对联结成对应的1500个翻译联结对，例如：apple苹果是一对翻译对，联结成一个整体apple***苹果。将词典中的所有翻译对都联结成为一对翻译联结对。

步骤四二、利用步骤三得到的词典和步骤四一得到的翻译联结对，对原始单语语料进行单词替换，并且将替换完的单语语料进行合并，例如：

源语言语料：

我喜欢吃苹果，她喜欢吃香蕉。

目标语言语料：

Here is an apple,do you want to eat it？

词典：

apple苹果

词典对应的翻译联结对：

apple***苹果

替换单词并合并单语语料得到的混合语料：

我喜欢吃apple***苹果，她喜欢吃香蕉。

Here is an apple***苹果,do you want to eat it？

通过以上方式对单语语料的单词进行翻译联结对替换和语料合并得到混合语料进行下一步的处理。

进一步的，将步骤五中得到的混合词向量分开，保证了抽取词典中翻译对之间词向量的一致性，因此：

步骤六一、将步骤五获得的源语言和目标语言词向量分开，同时将联结翻译对的单词分开为对应的源语言单词词向量和目标语言单词词向量，例如：

混合语料得到的词向量：

多(0.0640.1450.942)

the(-0.080-1.0390.094)

apple***苹果(-1.345-0.7860.684)

分离得到的源语言词向量：

苹果(-1.345-0.7860.684)

多(0.0640.1450.942)

分离得到的目标语言词向量：

apple(-1.345-0.7860.684)

the(-0.080-1.0390.094)

以上实施示例只是用于帮助理解本发明的方法及其核心思想，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于语料合并的无监督双语词典构建方法 [P] . 中国专利： CN113343672A . 2021-09-03
2. 一种基于英语枢轴的弱监督汉越双语词典构建方法 [P] . 中国专利： CN111310480B . 2021-12-28
3. Bilingual corpus update method, bilingual corpus update apparatus, and recording medium storing bilingual corpus update program [P] . 美国专利： US10354646B2 . 2019-07-16

机译：双语语料库更新方法，双语语料库更新装置和存储双语双语语料库更新程序的记录介质
4. BILINGUAL CORPUS UPDATE METHOD, BILINGUAL CORPUS UPDATE APPARATUS, AND RECORDING MEDIUM STORING BILINGUAL CORPUS UPDATE PROGRAM [P] . 美国专利： US2018082681A1 . 2018-03-22

机译：双语语料库更新方法，双语语料库更新装置和记录介质的双语双语语料库更新程序
5. Unsupervised stemming schema learning and lexicon acquisition from corpora [P] . 美国专利： US7912703B2 . 2011-03-22

机译：从语料库中进行无监督的词干模式学习和词典获取