首页> 中国专利> 词素分析装置、词素分析方法以及词素分析程序

词素分析装置、词素分析方法以及词素分析程序

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

对于包含已知词以及未知词的任何一个的句子可以实施词素分析，实现适当的最优解搜索或词素辞典的有效的创建。本发明的词素分析装置，包括：词缀复原部件，基于既定的词缀复原规则来变换输入句中单词的词缀；词素分析候补生成部件，对由词缀复原部件复原了词缀的单词串，进行词素分割以及该词素的词类赋予，并生成一个或者多个词素分析候补；生成概率计算部件，就已生成的各词素分析候补，基于词缀复原前的单词被变换成复原后的单词的概率和从词缀复原后的单词串而生成词素串以及词类串的概率之积，来求解各词素分析候补的生成概率；以及解搜索部件，从由生成概率计算部件计算了生成概率的各词素分析候补之中、将正确度最高的候补作为解来进行搜索。

著录项

公开/公告号CN1936886A

专利类型发明专利
公开/公告日2007-03-28

原文格式PDF
申请/专利权人冲电气工业株式会社;
展开▼

申请/专利号CN200610154216.9
发明设计人中川哲治;
展开▼

申请日2006-09-15
分类号G06F17/27(20060101);G06F17/28(20060101);G06F17/30(20060101);
代理机构中国国际贸易促进委员会专利商标事务所;
代理人曲瑞
地址日本东京
入库时间 2023-12-17 18:25:15

法律信息

法律状态公告日

法律状态信息

法律状态
2009-07-15

授权

授权
2007-07-18

实质审查的生效

实质审查的生效
2007-03-28

公开

公开

说明书

技术领域

本发明涉及词素分析装置、词素分析方法以及词素分析程序，可适用于例如以韩国语为原语言的机器翻译中的词素分析系统。

背景技术

在机器翻译系统中，划分输入句中的词素并赋予词类的词素分析是必要的处理，词素分析的结果给其后的处理带来较大的影响。因此，词素分析装置必须依照作为对象的语言来输出高精度的解。

对于语言来说，一般地认为韩国语是与日本语类似的语言。但是，在韩国语中有一些日本语中没有的特征。例如、韩国语的词与词之间的分写方法与日本语不同。另外，在韩国语中具有频繁出现缩略等的现象、单词的词形变化非常复杂的特征。为此，在进行韩国语的词素分析时，希望能够与这些特征相对应。

在非专利文献1中，公开了进行韩国语的词素分析的方法。在该方法中，导入所谓的残留字符的概念，并使用将所谓的残留字符信息赋予给缩略的词素的辞典。而且，在查辞典时，对于已经赋予了残留字符的词素，进一步，就与残留字符对应的字符串查辞典，并对于由于缩略而变化了词形的词素也进行辞典查阅。

另外，在非专利文献2中，也公开了进行韩国语词素分析的方法。在该方法中，首先进行词缀的复原处理，再次进行词类标记赋予，最后进行词素划分的推定。根据词缀的复原处理，将由于缩略等原因而变化了的词素的词缀恢复到原始而进行处理。另外，在该方法中，辞典和参数等可以完全从训练用的语料库来学习。

【非专利文献1】山本和英、「用于计算机处理的韩国语语言体系和词素处理」自然语言处理、Vol.7、No.4，2000年10月

【非专利文献2】CHUNG-HYE HAN，MARTHA PALMER，“A Morphological Tagger for Korean：Statistical Tagging Combinedwith Corpus-based Morphological Rule Application”，MachineTranslation，Vol.18，No.4，2004年12月

但是，即使在根据上述以往的词素分析的情况下，也担心会产生如下的问题。

例如、在非专利文献1中记载的方法的情况下，必须预先将赋予了残留字符信息的词素辞典通过人工等进行创建而准备好。为此，存在产生与词素辞典创建相关的负担的问题。另外，在非专利文献1中没有记载与在词素辞典中不存在的未知词相对的处理方法，存在与未知词不能相对应的问题。

另外，例如，在非专利文献2中记载的方法的情况下，辞典等可以从语料库自动的创建，而且对于未知词也可以处理。但是，分别独立进行词缀复原处理和词类标记推定处理，不进行贯通词素分析处理整体来搜索最优的解。而且在词素划分推定时，由于基于简单的规则来决定解，故在存在多个解候补的情况下就有不能适当地消除暧昧性的可能性。

如上所述，需要能够对于包含已知词以及未知词的任何一个的句子都能够实施词素分析、能够适当地搜索词素分析的最优的解、而且能够有效地创建词素辞典的词素分析装置、词素分析方法以及词素分析程序。

发明内容

为了解决这样的课题，第1本发明的词素分析装置的特征在于，包括：(1)词缀复原部件，基于既定的词缀复原规则来变换输入句中单词的词缀；(2)词素分析候补生成部件，对由词缀复原部件复原了词缀的单词串，进行词素分割以及该词素的词类赋予，并生成一个或者多个词素分析候补；(3)生成概率计算部件，就已生成的各词素分析候补，基于词缀复原前的单词被变换成复原后的单词的概率和从词缀复原后的单词串而生成词素串以及词类串的概率之积，来求解各词素分析候补的生成概率；以及(4)解搜索部件，从由生成概率计算部件计算了生成概率的各词素分析候补之中、将正确度最高的候补作为解来进行搜索。

第2本发明的词素分析方法，其特征在于，包括：(1)词缀复原步骤，基于既定的词缀复原规则来变换输入句中单词的词缀；(2)词素分析候补生成步骤，对由词缀复原步骤经过词缀复原的单词串，进行词素分割以及该词素的词类赋予，并生成一个或者多个词素分析候补；(3)生成概率计算步骤，就已生成的各词素分析候补，基于词缀复原前的单词被变换成复原后的单词的概率和从词缀复原后的单词串而生成词素串以及词类串的概率之积，来求解各词素分析候补的生成概率；以及(4)解搜索步骤，从由生成概率计算步骤计算了生成概率的各词素分析候补之中、将正确度最高的候补作为解来进行搜索。

第3本发明的词素分析程序，其特征在于，使计算机作为以下部件来发挥功能，(1)词缀复原部件，基于既定的词缀复原规则来变换输入句中单词的词缀；(2)词素分析候补生成部件，对由词缀复原部件经过词缀复原的单词串，进行词素分割以及该词素的词类赋予，并生成一个或者多个词素分析候补；(3)生成概率计算部件，就已生成的各词素分析候补，基于词缀复原前的单词被变换成复原后的单词的概率和从词缀复原后的单词串而生成词素串以及词类串的概率之积，来求解各词素分析候补的生成概率；以及(4)解搜索部件，从由生成概率计算部件计算了生成概率的各词素分析候补之中、将正确度最高的候补作为解来进行搜索。

根据本发明的词素分析装置、词素分析方法以及词素分析程序，可以对于包含已知词以及未知词的任何一个的句子都能够实施词素分析，能够适当地搜索词素分析的最优的解，而且能够有效地创建词素辞典。

附图说明

图1是表示第1实施方式的词素分析系统的构成的功能框图。

图2是表示第1实施方式的词素分析处理的动作流程图。

图3是第1实施方式的生成经过词素分割以及词类赋予的假说的流程图。

图4是第1实施方式的创建在词素分析系统的过程中所使用的辞典及参数等的动作的流程图。

图5是第1实施方式的词缀复原规则的创建方法例子的流程图。

图6是表示第1实施方式的词缀复原规则例子的说明图。

图7是表示第1实施方式的词素辞典的例子的说明图。

图8是表示第1实施方式的词素分析完毕语料库的例子的说明图。

图9是表示第1实施方式的针对输入句的假说的说明图。

图10是表示第1实施方式的针对输入句的假说的说明图。

图11是表示第1实施方式的针对输入句的假说的说明图。

附图标记说明

100...词素分析系统、110...分析部、120...模型保存部、130...模型学习部、111...输入部、112...词缀复原部、113...词素分割·词类赋予部、114...已知词假说生成部、115...未知词假说生成部、116...生成概率计算部、117...解搜索部、118...输出部、121...词缀复原规则保存部、122...词素辞典保存部、123...概率模型参数保存部、131...词素分析完毕语料库保存部、132...词缀复原规则创建部、133...词素辞典创建部、134...概率模型参数计算部。

具体实施方式

(A)第1实施方式

以下，参考附图对本发明的词素分析装置、词素分析方法以及词素分析程序的实施方式进行详细说明。

本实施方式，使用本发明的词素分析装置、词素分析方法以及词素分析程序，来实现将韩国语作为输入的词素分析系统。

(A-1)第1实施方式的构成

图1是表示本实施方式的词素分析系统的构成的功能框图。此外，本实施方式的词素分析系统100是在信息处理装置上实现的。例如将涉及被保存在硬盘和既定的记录媒体等中的词素分析的处理程序，通过CPU执行来实现。

在图1中，本实施方式的词素分析系统100，至少要由进行词素分析处理的分析部110、保存在词素分析处理时使用的词缀复原规则及词素辞典、概率模型参数的模型保存部120、以及从词素分析完毕的语料库进行参数等的学习的模型学习部130来构成。

如图1所示，分析部110至少要具有输入部111、词缀复原部112、词素分割·词类赋予部113、生成概率计算部116、解搜索部117、输出部118。另外，词素分割·词类赋予部113具有已知词假说生成部114、未知词假说生成部115。

输入部111，将使用者输入的输入句取入并将输入句提供给词缀复原部112。输入部111，例如，相当于将来自使用者操作的键盘等的信息取入的部件。

词缀复原部112是，接受输入部111取入的输入句，使用在词缀复原规则保存部121保存着的词缀复原规则，将输入句中的词缀已经变化了的单词复原到原形，并创建一个或者多个候补(以下、将这样的候补称为「假说」)的部件。因此，例如，就由于缩略现象而进行了词形变化的单词，可以替换成认为是本来的书写的词形。另外，词缀复原部112，将词缀复原以后的假说提供给词素分割·词类赋予部113。

词素分割·词类赋予部113是，接受由词缀复原部112进行词缀复原后的单词候补(假说)，使用保存在词素辞典保存部122中的词素辞典，对于进行了词缀复原后的各假说创建词素分割以及词类赋予后的假说的部件。另外，词素分割·词类赋予部113，将完成了词素分割以及词类赋予的假说提供给生成概率计算部116。

生成概率计算部116是，对于由词素分割·词类赋予部113生成的各假说，使用在概率模型参数保存部123中保存的参数，计算生成概率的部件。

解搜索部117是，从由生成概率计算部116进行了生成概率计算后的各假说中，将正确度最高的假说作为解而选择出的部件。

输出部118是，将被解搜索部117选择出的解输出的部件。

另外，模型保存部120，至少具有词缀复原规则保存部121、词素辞典保存部122、概率模型参数保存部123。

词缀复原规则保存部121是，将在词缀复原处理中为了生成词缀复原后的假说而使用的多个词缀复原规则保存的部件。词缀复原规则保存部121所保存的各词缀复原规则是由词缀复原规则创建部132创建的。

词素辞典保存部122是保存例举出词素及其词类的词素辞典的部件。词素辞典保存部122保存的各词素及其词类的对是由词素辞典创建部133创建的。

概率模型参数保存部123是保存概率模型的参数的部件。概率模型参数保存部123保存的概率模型参数是由概率模型参数计算部134创建的。

进而，模型学习部130至少具有词素分析完毕语料库保存部131、词缀复原规则创建部132、词素辞典创建部133、概率模型参数计算部134。

词素分析完毕语料库保存部131是保存词素分析完毕的语料库的部件。

词缀复原规则创建部132是，使用在词素分析完毕语料库保存部131中保存的语料库创建词缀复原处理用的规则，并将创建的词缀复原规则提供给词缀复原规则保存部121的部件。

词素辞典创建部133是，使用在词素分析完毕语料库保存部131中保存语料库来创建词素辞典，并将创建的词素辞典提供给词素辞典保存部122的部件。

概率模型参数计算部134是，使用在词素分析完毕语料库保存部131中保存的语料库，来计算概率模型的参数，并将其结果提供给概率模型参数保存部123的部件。

(A-2)第1实施方式的动作

以下、对本实施方式的词素分析系统100中的词素分析处理的动作参考附图进行说明。图2是表示本实施方式的词素分析处理的动作流程图。

首先，使用者输入的输入句被取入到输入部111，将输入句提供给词缀复原部112(F201)。

例如，将使用者希望进行词素分析的句子的例子，设为「pqrabcde xyz」。在该例子中，将韩国语的字符用罗马字表示。在这里，词素分析中的分析候补的假说可以用图表结构来表现，在该时刻被输入的输入句「pqr abcde xyz」的假说如图9那样被表示。

若被取入到输入部111的输入句被提供给词缀复原部112，在词缀复原部112中，基于在词缀复原规则保存部121中被保存的词缀复原规则，将输入句中的词形已经变化了的单词的词缀复原，并生成由词缀被复原后的单词形成的假说(F202)。

例如，在词缀复原规则保存部121中，保存了如图6所示那样的词缀复原规则。在这里，所谓词缀复原规则是指例如还包含被缩略的单词在内的单词的书写不同及词形变化等，并将在外观上单词的词缀已经变形的部分置换成原来的词缀用的规则。

此外，词缀复原规则，适用于位于单词的末尾的字符串。

例如、在图6的词缀复原规则(X→Y)中，「X」是词缀复原前的字符串，「Y」是词缀复原后的字符串，根据本规则，对于单词的末尾是字符串「X」的单词，意味将其末尾的字符串「X」置换成字符串「Y」。

具体的，在图6中，例如「e→h」之类的词缀复原规则，对于以字符串「e」结束的单词，意味着将其字符串「e」置换成字符串「h」。

其中，在图6中，「ε」是表示空字符串的特殊的符号，「ε→ε」之类的词缀复原规则，表示将空字符串变换成空字符串的规则，也就是表示不进行字符串的变换的特别的规则。

另外，例如「cde→f+g/V」之类的词缀复原规则，是将字符串「cde」变换成词缀复原后的字符串「fg」的规则。但是，赋予了「g」之类的词素持有「V」之类的词类的制约。此外，在这里，将词素的划分用「+」来表示，在「/」的后面描述其词素的词类。这样，词缀复原规则，对于词缀复员后的字符串，可以赋予与词素的划分及其词类相对应的制约。

考虑将输入句「pqr abcde xyz」被提供给词缀复原部112，并只关注该假说中的「abcde」之类的单词的情况。在图6的词缀复原规则例子中，由于存在「cde→f+g/V」、「e→h」、「ε→ε」之类的词缀复原规则，将输入句中的「abcde」之类的单词，根据各自的规则变换成「abf+g/V」、「abcdh」、「abcde」之类的字符串。此外，将表现该词缀复原处理的结果的假说在图10中表示。

下面，若将由词缀复原部112中的词缀复原处理而生成的假说提供给词素分割·词类赋予部113，在词素分割·词类赋予部113中，对于假说，生成被分割成词素并被赋予了词类的候补(F203)。

图3是生成进行了词素分割·词类赋予部113中的词素分割以及词类赋予后的假说的流程图。

在图3中，若从词缀复原部112提供了词缀复原后的假说，首先，在已知词假说生成部114中，对各假说，基于被保存在词素辞典保存部122的词素辞典，生成已知词的假说(F301)。在这里，所谓已知词就是在词素辞典中保存着的字符串。

图7是在词素辞典保存部122中被保存着的词素辞典的例子。图7的词素辞典包含多个词素及其词类的组，在图7中，将词素和词类用「/」区分开。

例如、在被提供了如在图10中所示的假说的情况下，已知词假说生成部114，对于「abf+g/V」之类的假说，由于包含「ab/X」之类的词素，所以生成「ab/X」之类的词素假说。

进一步，在该假说中，在词缀复原处理时，由于提供了「g/V」这样的词素划分和词类制约，也生成该词素的假说。

另外，同样地，由于对于图10的「abcdh」之类的假说，包含着「ab/X」、「cdh/Z」之类的词素；对于「abcde」之类的假说，包含着「ab/X」、「cde/Y」、「de/W」之类的词素，所以生成这些词素的假说。

下面，在未知词假说生成部115中，对于词缀复原后的各假说，生成未知词假说(F302)。此外，所谓未知词，是指没有在词素辞典中保存的词素。

在这里，在生成未知词的假说的方法中，可以考虑各种方法，但是，例如，可以使用在非专利文献3(中川、松本「使用了单词水平和字符水平的信息的中国语·日本语单词分割」，信息处理学会研究报告，2004-NL-162，pp.197-204，2004)中被记载的未知词处理方法。

在该非专利文献3中，记载了将未知词用字符单位进行处理的方法，例如，对于构成未知词的字符，赋予4种字符位置标记(表示存在于单词前头的字符、存在于单词的中间的字符、存在于单词末尾的字符、用一个字符构成单词的字符、的标记)。

在本实施方式中，使用将这些4个字符位置标记省略成1个字符位置标记的标记「U」，进行说明。

例如，在提供了图10所示的假说的情况下，对于「abf+g/V」之类的假说，由于包含字符「a」、「b」、「f」，所以生成由各自的字符形成的未知词处理用的假说。

另外，同样地，由于对于图10的「abcdh」之类的假说，包含「a」、「b」、「c」、「d 」、「 h 」之类的字符，而且对于「abcde」之类的假说，包含「a」、「b」、「c」、「d」、「e」之类的字符，所以生成由这些一个字符形成的未知词处理用的假说。

根据以上的处理生成图1所示的那样的假说。

这样，在使用了词缀复原规则的词缀复原处理时，就提供了词素的划分和词类制约的字符串，由于没有必要创建与其词素对应的别的已知词和未知词的候补，可以减少被生成的假说的数量。

接下来，若由词素分割·词类赋予部113所生成的假说被提供给生成概率计算部116，在生成概率计算部116中，基于在概率模型参数保存部123中被保存的概率模型参数，计算假说中的解候补的生成概率(F204)。此外，从图11的图表中的表示句头的节点到表示句末的节点的各路经就是各解候补。

在这里，各解候补的生成概率，根据下面的方法来计算。例如，将输入句中的单词数设为l，将从输入句的开头起第i个的单词设为ω_i，将输入句中的词素数设为n，将从输入句的开头起第i个词素以及其词类分别设为m_i以及t_i，设单词串W＝ω₁...ω_l、词素串M＝m₁...m_n、词类串T＝t₁...t_n。

这时，在生成概率计算部116中被输入的各假说，也就是正解候补的词素串以及词类串可以用M以及T表示，可以从该假说中将生成概率最高的作为解而进行挑选。

因此，根据下面的公式，计算正解的词素串以及词类串M^、T^

【数学公式1】

$>><>>M>^>>> >>,>>T>^>>>>> > >>arg>max>P>>>M>,>T> >>(>M>,>T>|>W>)>>,>>s>$

获取专利

客服邮箱：kefu@zhangqiaokeyan.com

客服微信
服务号