首页> 中国专利> 一种词汇搭配提取和语义分类相结合的挖掘和展示方法

一种词汇搭配提取和语义分类相结合的挖掘和展示方法

摘要

本发明公开了一种词汇搭配提取和语义分类相结合的挖掘和展示方法,属于自然语言处理和语言学习应用领域。本方法包括:使用基于深度学习的依存句法语义模型和统计方法提取和过滤词语搭配;结合整理好的词语分类和提取的搭配,计算得到多对多的搭配矩阵;根据搭配密度对搭配词和词语分类进行筛选排序和重组;最终得到的词语分类搭配矩阵,以m*n或m*n*o的卡片形式进行展示;卡片之间则按照词汇语义分类的层级顺序展示。通过本方法能得到更具有通用意义的搭配和词汇分类系统,以及多对多的词语分类搭配矩阵的展示形式,此展示形式直观形象,信息密度大,通过语义语用结合的分组方式利于语言词汇的系统学习。

著录项

  • 公开/公告号CN112860781A

    专利类型发明专利

  • 公开/公告日2021-05-28

    原文格式PDF

  • 申请/专利权人 陈永朝;

    申请/专利号CN202110162745.8

  • 发明设计人 陈永朝;陈永胜;

    申请日2021-02-05

  • 分类号G06F16/26(20190101);G06F40/211(20200101);G06F40/253(20200101);G06F40/284(20200101);G06F40/30(20200101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构33286 慈溪夏远创科知识产权代理事务所(普通合伙);

  • 代理人金弘毅

  • 地址 410325 湖南省长沙市浏阳市沙市镇荷芳村上进组155号

  • 入库时间 2023-06-19 11:08:20

说明书

技术领域

本发明涉及自然语言处理领域以及语言学习应用领域的资源、书籍和软件制作方法。具体而言,涉及基于深度学习的依存句法语义分析和统计方法的搭配提取和筛选方法;涉及词语分类和搭配的相互验证算法;涉及词语分类和搭配的多对多链接卡片和卡片书(纸质书、电子书、语言学习软件)的展示方式。

背景技术

搭配提取在自然语言处理中属于比较经典的课题。词语搭配指的是词与词的结伴使用这种语言现象,是词语间的典型共现行为(Firth,1957,Papers in Linguistics1934-1951.London:Oxford University Press)。词语搭配的典型性取决于搭配的概率属性,因为任何搭配都是可能的,只不过一些比另一些更为恰当(Sinclair,1966,Beginningthe Study of Lexis.London:Longman)。因此,抽取“更为恰当”的、典型的搭配成为词语搭配研究的一个重要方面。在基于语料库的词语搭配研究中,运用概率信息自动抽取典型词语搭配的方法主要有:统计搭配词与节点词的共现频数;统计测量共现词项间的MI值(互信息);统计测量共现词项间的T值(T检验)等。各种方法往往可以得到数量巨大的搭配,但是判断是不是一个合格的搭配本身也是存争议的问题,更没有特别好操作的客观标准,其提取的质量和排序筛选标准很难进一步提升。最终哪些提取的搭配可以有效的用于语言学习也是一个比较难的问题。

搭配词典是用于语言学习常用的一个工具。但是传统的搭配辞典往往是对某一个词条罗列一堆搭配。这样带来的问题是,首先搭配辞典变得非常厚,读者很难从头学到尾;其次读者很难知道哪些搭配是该类词最典型的搭配,或者说还有哪些词和该词在某个词义上具有相似的搭配,很难形成有效的分组联想记忆。

语义分类词典、同义词分类词典和同义词辨析词典也是语言学习常用的学习工具。但是传统的语义分类词典或者同义词词典大多只是罗列一系列同义词或者反义词、同类词,而同义词辨析词典一般也只是用为数不多的例句或者直接解释的方式展示他们的异同。这种方式往往很难全面刻画他们的用法差异;而且并不直观形象;单纯人工归纳的词语分类(同义词、近义词、反义词、同类词)也很难适应语言用法的发展变化。

词汇搭配和语义分类资源相结合的研究,也大多数是使用语义资源对搭配词表的某个词条内的搭配进行语义分组描述,比方“吃”这个词可能的搭配词是“食物”语义类,即“某个词+某组语义类词”,这属于一种解释性的研究。少有研究利用搭配的“某组语义类词+某组语义类词”的这个属性,反过来验证和优化词汇语义分类的合理性以及其中搭配的通用性,这属于一种量化性质的研究,或者知识挖掘方面的探索。

针对解决以上提到的几个传统问题和方法的难点和缺陷,我们利用深度学习技术的句法语义分析和统计方法结合,来提高搭配抽取和筛选的质量;用词语分类和搭配的迭代相互验证的方法,来筛选排序搭配和优化词汇分类系统;同时用词语分类和搭配的多对多的搭配矩阵(映射)卡片方式,来展示词语分类和搭配。

发明内容

本发明针对现有技术中的不足,提供了一种词汇搭配提取和语义分类的方法,本方法从句法语义和语用的角度,自洽的解决了优化选择通用搭配和词语分类的问题。这种词汇搭配和语义分类资源结合的方法,是一种利用词汇语义分类和搭配组合计算起来的量化特征,对词汇搭配和语义知识挖掘方面的探索。

为了解决上述技术问题,本发明通过下述技术方案得以解决:一种词汇搭配提取和语义分类相结合的挖掘方法,包括以下几个步骤:步骤A:词汇搭配提取;步骤B:区分词性的词汇语义分类;步骤C:对词语分类和搭配计算形成多对多的搭配映射;根据搭配密度,对搭配词和词语分类进行排序,排序后对词语分类进行拆分和重组;重复步骤直到词语分类没有新的拆分和重组。

优选的,上述技术方案中,在步骤A中,还包括以下几个步骤:

步骤A1:通过基于深度学习的句法语义依存模型对生语料进行标注,输出句法依存树或语义依存图,从句法依存树或语义依存图中提取词语搭配;

步骤A2:基于句法依存树或语义依存图的结果根据每个词语搭配的互信息、依存距离和频率过滤不合格的词语搭配;

优选的,上述技术方案中,在步骤A1前需要将句法语义依存模型在已经标注好的语料上进行训练,训练时可以选择句法依存树或语义依存图中的模型,且可以同时训练一个或多个句法依存树或语义依存图模型。

4.根据权利要求2所述的一种词汇搭配提取和语义分类相结合的挖掘方法,其特征为,在步骤A2中,统计每个词语搭配的频率CF和每个词语搭配的平均依存距离DD,计算每个词语搭配的互信息PMI,

并设置筛选阈值V

其中,筛选阈值V

如果词语搭配不符合筛选阈值V

优选的,上述技术方案中,在步骤B中,还包括以下几个步骤:

B1:根据词类将词汇进行分类得到词类分类;

B2:根据语义相关性将每个词类分类内的词汇分成小类,使用自底向上法,即初始状态下每个词汇就是一个单独小类,然后根据两组小类内的词汇是否互为同义词、近义词、反义词或同类词合并为一个新的小类,遍历所有小类直至没有新的合并,如有必要还可对小类定义名称;

B3:根据语义相关性将每个词类分类内的词汇分成大类,使用自顶向下法,即针对不同词性,归纳抽象出的语义大类,然后将小类归纳到大类下,如果大类不能完全覆盖小类,则需要增加或者修改大类,最终使所有小类归纳到大类中,归纳完的小类既为词语分类。

优选的,上述技术方案中,在步骤C中,还包括以下几个步骤:

C1:词语分类根据词语搭配得到一系列一对多的搭配:

C2:对词语分类词汇与其相应的词语搭配求合取得到多对多的搭配矩阵:

[W

C3:对每个搭配矩阵中的搭配词按照它的搭配密度进行排序,对每个搭配矩阵中的词语分类按照它的搭配密度进行排序;

C4:根据搭配矩阵的搭配密度对词语分类进行分拆或重组;

其中,词语分类的搭配密度为它和搭配词的实际链接数量/它和搭配词的全链接数量,搭配词的搭配密度为它和词语分类的实际链接数量/它和词语分类的全链接数量;搭配矩阵的搭配密度为搭配矩阵实际链接数量/搭配矩阵全链接数量;

C5:重复C1、C2、C3和C4步骤,直至词语分类没有新的拆分和重组。

优选的,上述技术方案中,在步骤C4中,还包括以下几个步骤:

C4-1:如果搭配矩阵中词语分类词汇排序靠后的条目的搭配密度低于阈值β

C4-2:如果搭配矩阵中部分词语分类词汇有相似的搭配,同时和其他词共同的搭配数少于阈值β

C4-3:如果两个的搭配矩阵是语义相关或相近的小类,搭配矩阵里的搭配词也类似,如果合并后搭配矩阵的搭配密度达到了阈值β

一种词汇搭配提取和语义分类相结合的展示方法,根据一种词汇搭配提取和语义分类的方法获得的搭配和词语分类映射呈m*n或者o*m*n或者o*m卡片结构形式进行展示,其中n和o为搭配词,m为类目内的词汇。卡片与卡片之间则按照词汇语义分类系统的层级顺序展示。

优选的,上述技术方案中,展示的方式为卡片展示、书籍展示、电子卡片展示、电子书籍展示、电子软件展示的一种或多种。

优选的,上述技术方案中,如果需要展示的映射超出了展示的范围,则按搭配词语的排序进行截取对应的映射。

首先,本申请中需要提取词语搭配。搭配主要有动词+名词、名词+动词、名词+名词、形容词+名词、副词+形容词、副词+动词几种组合类型,而依存句法和依存语义分析恰好是揭示词与词之间的句法语义关系。句法依存分析有不同的标注方式,一般来说,大约有10-30种不同的词语依存的句法关系。比方,动词和名词的动宾关系,名词和动词的主谓关系,形容词和名词的修饰关系,副词和动词的修饰关系,副词和形容词的修饰关系等。而语义依存关系则是更加细分的词语依存的语义关系,比方,作为主语的语义有施事、受事、范围、原因等,作为定语语义有类别、成员、属性、材料等。总之,既然依存句法分析和语义分析直接揭示词与词的关系,而且是更加细致的关系;加之近年来随着深度学习在依存句法和语义分析的精度和速度突破,为大规模语料处理提供了可能性。我们选择了训练依存句法语义分析模型来处理大规模语料,以此提供了数量更多、类型更细分、结果更具语言学解释性的搭配候选。具体实现中,依存句法语义分析的输入是句子,输出是标有词性的词与词之间关系组成的依存树或者依存图,依存树或者依存图中词与词的关系即我们需要提取的词语搭配。

其次,本申请需要筛选词语搭配。通过对得到的词语搭配再用各种数学统计方法进行过滤,这包括:互信息、频率、依存距离等。这种基于依存模型结果上的统计分析的好处有两个,一是从处理精度上看,它是从不同的角度或者评估尺度提取筛选搭配;二是从处理效率上看,如果不用依存分析做初处理,统计方法面对的计算量要大得多,即使用词性过滤作为初处理,从效率和精度也都低很多。具体实现中,针对上一步的依存分析结果,我们可以统计到每个词的词频,每个搭配的频率,总的词的数量,还有每个搭配的相隔的距离,即依存距离。这些数据是这一步骤的输入,代入互信息公式得到搭配的互信息值;这样我们得到了每个搭配的频率、依存距离、互信息;通过设置阈值和综合计算对所有搭配排序,过滤掉综合分值低的搭配。

再次,本申请需要区分词性的词汇语义分类。作为词语分类我们需要首先区分词性,先把词语按照动词、名词、形容词、副词等主要词性归类。然后在此基础上用自底向上和自顶向下结合的方法分别对每个词类按照语义分成大类和小类,这里的词语分类,即小类由同义词、近义词、反义词、同类词分组而成。

针对如何进一步筛选出用于学习目的更具通用意义的搭配和词语分类,本申请采用了搭配和词语分类迭代相互验证的方法。首先,我们把一类词对另外一类词的搭配,定义为具有通用意义的搭配。即视为一个m*n的搭配矩阵,比方,[吃这类动词]+[食品类名词]。往往搭配密度(数量),即[吃这类动词]和[食品类名词]的搭配链接数量,搭配密度越大,其中的搭配就是越通用的搭配。其中,如果词语分类和搭配词是全链接,则这个m*n的搭配矩阵(映射)的达到最大搭配密度(数量)(m*n)/(m*n)=1。其次,我们把语法语义和语用都相似的词语分类,定义为通用意义的词语分类。同样我们也是参考上述m*n搭配矩阵(映射)的搭配密度,其数量越大,作为同一组的词语分类越具通用意义。具体实现中,通过前面得到词语分类和的搭配计算得到搭配矩阵,然后通过重排序筛选、拆分组合词语分类,以此得到更高的搭配密度,从而也得到更通用的搭配和词语分类。这个过程是迭代进行的。最终,通过这个步骤我们得到了更合理的词语分类,以及在这些词语分类下与之相应的搭配排序和筛选。

针对如何展示搭配和词语分类,我们采用了多对多的搭配矩阵(映射)卡片的方式。具体实现中,我们采用两列或者三列的方式。以名词为例,如果采用三列的方式,名词分类词组在中间一列,第一列是可以是修饰名词的形容词搭配,或者与名词组成动宾结构的动词;第三列则可以是构成名名结构的名词、也可以是构成主谓结构的动词。再以形容词为例,如果采用两列的方式,形容词分类词组放在第一列,第二列则可以是构成形名修饰关系名词。值得注意的是,有的语言语序可能和汉语或者英语不同,比方说法语的修饰形容词一般在名词之后。不过总而言之,归结起来一共有三种展示方式:三列展示方式作为词语分类在中间一列,前后为搭配词;两列模式作为词语分类要么在第一列,要么在第二列,其余为搭配词。之前我们提到我们的词语分类首先是按照名词、动词、形容词、副词分类,这几种词类在大部分语言中是句子的主干,占词语的百分九十五以上,而提取的六种主要搭配正是这四种词性的组合。当把语言词汇先按照词性分类,再按照语义分类分组成同义词、近义词、反义词、同类词,与搭配组成一个个的搭配矩阵(映射)卡片,整个词汇系统则组成了词语分类搭配卡片书。这些书籍以及卡片可以是纸质书籍或者是电子书籍,同时也可以通过电子软件的方式进行输出。

结合依存分析和统计方法提取过滤搭配相对传统的方法,一是充分利用了搭配的句法语义和数学统计属性以此提高提取的质量;二是两层处理方式提高了处理效率,以便于作用于更大规模的语料,得出更多的搭配数量和各种统计数据,最终得出更多更符合真实使用的搭配。

本申请所公开的方法,从句法语义和语用的角度,自洽的解决了优化选择通用搭配和词语分类的问题。这种词汇搭配和语义分类资源结合的方法,是一种利用词汇语义分类和搭配组合计算起来的量化特征,对词汇搭配和语义知识挖掘方面的探索。这对于搭配和语义分类资源建设提供一种客观的依据。同时多对多链接的搭配矩阵卡片的方式展示搭配和词语分类,直观形象,信息密度大,这种语义语用结合的分组链接方式,以及由此扩展的学习记忆卡片和测试评估卡片,以及由卡片组成的卡片书以纸质书、电子书和语言学习软件形式,均适用于本方法的语言词汇学习书籍软件的特点。

附图说明

图1为句法依存树示例。

图2为语义依存图示例。

图3为三列展示词语分类搭配矩阵(映射)示例。

图4为两列展示词语分类搭配矩阵(映射)示例1。

图5为两列展示词语分类搭配矩阵(映射)示例2。

图6为本申请系统流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。以下结合附图及具体实施方式对本发明进行说明。

一种词汇搭配提取和语义分类的方法,首先对句法语义依存模型进行训练。

获取标有句法的依存树(图1)或者语义依存图(图2)。其还标注有词性,对于汉语已经分词处理,对于屈折语如英语法语还有词型处理。对任何语言的处理都符合语料规范。

设计了基于深度学习的句法语义依存模型,句法语义依存模型是一种基于图算法的依存分析,采用Biaffine函数计算词与词之间的依存关系,采用Bileanear函数计算词与词之间的依存类型。

(a)

(b)

依存关系的输出如果是依存树则采用argmax目标函数,依存关系的输出如果是依存图则是sigmoid目标函数;依存类型的输出都采用argmax目标函数。

(c)

(d)

(e)

具体实现方式为:神经网络模型的编码器Encoder采用BiLSTM结构,输入向量由每个句子的Word-embedding和POS-embeddings连接而成,编码器输出每个句子序列的隐藏状态h

(f)

(g)

(h)

(i)

其中W,b是BiLSTM的参数,将公式(h)和(i)代入公式(c)(f)(e)目标函数即得到神经网络模型整体框架。

如果最后输出是句法依存树,可以采用依存句法分析中常用的Chu-Liu-Edmonds算法得到合格的非投射性树(non-projective tree),或者Eisner算法解码得到合格的投射性树(projective tree);如果输出是语义依存图则可以直接输出,如果依存图需要满足DAG(Directed Acyclic Graph,有向无环3图)限制,也可以加上,如AD算法。在标注语料上训练好句法语义依存模型。可以选择句法依存树或语义依存图中的一种模型训练。为达到更好的效果,也可以同时训练一个或多个句法依存树或语义依存图模型。

句法语义依存模型训练结束后,获取大规模的生语料。为达到更好的覆盖语言的真实使用情况,语料的选择可以综合考虑各种文体,各种领域的语言文本。然后通过句法语义依存模型标注得到新的句法依存树或者语义依存图。从得到的句法依存树或语义依存图中,提取主要的六种词语搭配:动词+名词、副词+动词、名词+动词、副词+形容词、形容词+名词、名词+名词。

词语搭配提取结束后基于依存分析结果,使用互信息、依存距离、频率等数学统计方法过滤部分不合格的词语搭配。这其中包括每个词语搭配的频率CF(CollocationFrequency),每个词语搭配的平均依存距离DD(Dependency Distance),每个词汇的词频等。如果同时采用了一个或多个句法依存树或语义依存图模型,可对各模型提取的搭配频率和平均依存距离等取综合评分。

计算每个搭配的互信息:PMI(Pointwise Mutual Information),

计算综合公式,并设置阈值:

排序筛选出处理后的搭配,这里可以设λ

对词汇进行词语分类,先将词汇按照名词、动词、形容词、副词等分类。然后分别对每个词类中的词汇用自底向上和自顶向下结合的方法按照语义分成大类和小类。用自底向上的方法将词汇进行分组成小类,具体做法是,初始状态下每个词是一个小类,然后根据两组小类词语是否互为同义词、近义词、反义词或者同类词合并为一组,这是考虑到语义的相关性,同时他们也可能有相似的搭配,即小类可以是同义词、近义词、反义词或者同类词或者他们之间组合的集合。遍历所有的组,直到没有新的合并。值得注意是有的小组可以和多个组合并,比方多义词“苹果”可以和“梨子”合并成“水果类”小组,也可以和“惠普”合并成“电脑类”小组,不管怎样重复这个过程会使组数越来越少,每组的词汇越来越多。最后可以对每个小组或者小类定义一个名称,如名词里面的“水果类”、动词里面的“同意或者反对类”。

然后用自顶向下的方法归纳语义大类,并将每个小类归纳到其下面,具体做法是,针对不同词性,归纳抽象出的语义大类,比方动词分为心理动词、行为动词、肢体动词、性状变化、事物关系、社会活动等,比方把副词分为时间副词、地点副词、程度副词、频率副词、方式副词等,比方把形容词分为状态境况、才能品德、思维活动、时间空间、数量程度、科学文化、社会生活等。然后把上一步得到的小类归纳到大类下面,如果大类不能完全覆盖小类,则需要增加或者修改大类,最终使所有小类合理的归纳到分类系统中。归纳完的小类既为词语分类。

如果需要增加更多的分类层级,比方需要在大类和小类之间增加一个中类,也可以用类似的方法,自顶向下对大类细分为中类,然后把小类归类到其下面,或者自底向上合并小类为中类,归纳到大类下面,或者两种方式结合。

然后词语分类根据词语搭配得到一系列一对多的搭配:

再然后对词语分类词汇与其相应的词语搭配求集合得到多对多的搭配矩阵:

[W

对每个搭配矩阵中的搭配词按照它的搭配密度进行排序;

对每个搭配矩阵中的词语分类按照它的搭配密度进行排序;

根据搭配矩阵的搭配密度对词语分类进行分拆或重组,具体做法是,如果搭配矩阵中词语分类词汇排序靠后的条目的搭配密度低于阈值β

其中,词语分类的搭配密度为它和搭配词的实际链接数量/它和搭配词的全链接数量,搭配词的搭配密度为它和词语分类的实际链接数量/它和词语分类的全链接数量;搭配矩阵的搭配密度为搭配矩阵实际链接数量/搭配矩阵全链接数量。重复上述步骤,直至词语分类没有新的拆分和重组。

对得到最终的词语分类多对多的搭配矩阵,以m*n或者m*n*o的卡片形式进行展示;卡片与卡片之间则按照词汇语义分类系统的大类、(中类)、小类的层级顺序展示。整个词汇分类系统,这可以通过卡片展示、书籍展示、电子卡片展示、电子书籍展示、电子软件展示的一种或多种进行呈现。通常来说,以学习为目的的整个词汇分类系统以卡片书的方式展示,即由卡片组成的卡片书适用于纸质书、电子书和语言学习软件的编辑和制作。

如进行卡片形式进行展示,即对最终得到的词语分类搭配矩阵以m*n或者m*n*o排列规范显示在卡片上。值得注意的是,前面步骤得到的词语分类搭配矩阵有两种:一种是词语分类(小类)+搭配词的组合映射,一种是搭配词+词语分类(小类)的组合映射。另外,这里搭配词的数量往往远远大于词语分类(小类),比方词语分类是10个词语,搭配词可能有100多个词语。作为卡片展示只需要挑选留下最重要的搭配词,由于经过前面的步骤,搭配词和词语分类都是按照搭配密度排序的,所以只需要截取排序靠前的搭配词。比方前面的例子可以整理10*12的卡片,即m*n的词语分类(同义词/近义词/反义词/同类词)搭配卡片。另外两种m*n卡片(词语分类+搭配词、搭配词+词语分类)可以合并成m*n*o卡片(即搭配词+词语分类+搭配词)。值得注意是这种合并是简单的合并,目的是信息更紧凑,第一列和第三列并没有直接关系,但实际是应用中,这往往表征了处于中间一列的词语分类的前后的搭配。

m*n两列展示方式,又分为两种:词语分类(小类)位于第一列,搭配词在后一列,参考图3;或者词语分类位于第二列,搭配词在前一列,参考图4;m*n*o三列的展示方式,词语分类位于中间一列,搭配词在前一列和后一列,参考图5。

针对不同的语言,词语搭配的语序可能不同,比方汉语和英语大部分是形容词+名词,鲜有名词+形容词,大部分是副词+动词,少部分是动词+副词;法语中大部分是名词+形容词,鲜有形容词+名词。不过归纳起来,上述三种表示方式可以都可以揽括。

多对多的词语分类搭配矩阵(映射)的卡片和卡片书,直观形象,信息密度大(如果5*5的卡片组成的卡片书,平均搭配密度是0.5,即实际链接数是全链接的一半数量(5*5)/2,这相对传统书籍一行一个例句或搭配用法的方式,其信息的密度大了(5*5)/2/5=2.5倍),这种语义语用结合的分组链接方式,以及由此扩展的学习记忆卡片和测试评估卡片,均适用于本方法的语言词汇学习书籍软件的特点。

在本申请公开的的搭配提取和语义分类方法适用于多种语言,由于其不涉及文章及句子的逻辑性,仅仅判断词,因此不同语法结构的语言都可以应用,如汉语、法语、英语、日语、韩语等。遇到生僻语言,可以在知晓其语法规则的情况下进行使用。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号