首页> 中国专利> 一种词语词向量的生成方法以及相似词的确定方法

一种词语词向量的生成方法以及相似词的确定方法

摘要

本申请提供了一种词语词向量的生成方法以及相似词的确定方法,所述生成方法包括:获取样本训练语料以及词间关系集,构建样本语料库;确定样本语料库中各个样本词语的初始词向量,得到初始语料向量集;按照词间关系集中各个词语相关关系的预设训练顺序,依次更新初始语料向量集中对应样本词语的初始词向量,并迭代训练所述初始语料向量集,得到所述各个样本词语的目标词向量,其中,所述词语相关关系包括弱关系,强关系以及相等关系;基于各个样本词语的目标词向量,构建目标语料向量集。这样,本申请通过在训练过程中,引入了弱、强及相等关系词向量替换规则信息,使得训练得到的词向量能有效的蕴涵关系信息,从而提高了词向量的准确度。

著录项

  • 公开/公告号CN112686033A

    专利类型发明专利

  • 公开/公告日2021-04-20

    原文格式PDF

  • 申请/专利权人 上海明略人工智能(集团)有限公司;

    申请/专利号CN202110057200.0

  • 发明设计人 林晓明;江金陵;

    申请日2021-01-15

  • 分类号G06F40/284(20200101);G06F40/289(20200101);G06F40/216(20200101);G06K9/62(20060101);

  • 代理机构11646 北京超成律师事务所;

  • 代理人裴素英

  • 地址 200030 上海市徐汇区云锦路701号29、30、31、32层

  • 入库时间 2023-06-19 10:41:48

说明书

技术领域

本申请涉及文本处理技术领域,尤其是涉及一种词语词向量的生成方法以及相似词的确定方法。

背景技术

词语间相似度的计算是使用计算机处理文本的一种常用方法。在计算词语间相似度的实际场景中又分为多类:有语料、没语料、多语料、少语料。(所谓语料即包含词语的文档)。在含有大量语料的场景里面,以Word2vec为代表的词向量模型以是一种公知的有效方法:通过分词预处理技术将语料库分词,然后使用预处理后的语料训练得到词向量,最后根据词向量间的相似度得到词语间的相似度。但是,当语料少的时候,虽然某些词语互为相似词语,但训练得到的词向量并不能很好的表现出词语之间的相关性,从而也导致训练结果准确度的偏低。

发明内容

有鉴于此,本申请的目的在于提供一种词语词向量的生成方法以及相似词的确定方法,通过在训练词语词向量的过程中,引入了弱关系、强关系以及相等关系词向量替换规则信息,依次更新训练向量集,使得训练得到的词语的目标词向量能有效的蕴涵关系信息,从而提高了词向量的准确度。

本申请实施例提供了一种词语词向量的生成方法,所述生成方法包括:

获取样本训练语料以及词间关系集,构建所述样本训练语料对应的样本语料库;

确定所述样本语料库中各个样本词语的初始词向量,得到所述样本语料库的初始语料向量集;

按照所述词间关系集中各个词语相关关系的预设训练顺序,依次更新所述初始语料向量集中对应样本词语的初始词向量,并迭代训练所述初始语料向量集,得到所述各个样本词语的目标词向量,其中,所述词语相关关系包括弱关系、强关系以及相等关系;

基于所述各个样本词语的目标词向量,构建所述样本语料库的目标语料向量集。

进一步的,通过以下步骤构建样本语料库:

对所述样本训练语料进行分词处理,将所述样本训练语料拆分为多个样本词语;

基于所述多个样本词语构建所述样本语料库。

进一步的,所述确定所述样本语料库中各个样本词语的初始词向量,得到所述样本语料库的初始语料向量集,包括:

将所述样本语料库中各个样本词语进行向量化处理,得到所述样本语料库中各个样本词语的原始向量;

使用Word2vec模型,对所述样本语料库中各个样本词语的原始向量进行训练,得到所述样本语料库中各个样本词语的初始词向量;

基于所述各个样本词语的初始词向量,构建所述样本语料库的初始语料向量集。

进一步的,所述按照所述词间关系集中各个词语相关关系的预设训练顺序,依次更新所述初始语料向量集中对应样本词语的初始词向量,并迭代训练所述初始语料向量集,得到所述各个样本词语的目标词向量,其中,所述词语相关关系包括弱关系、强关系以及相等关系,包括:

根据所述词间关系集的指示,从所述初始语料向量集中确定出互为弱关系的多组弱关系词组中的每个样本词语的初始词向量;

针对于每组弱关系词语,使用所述弱关系词组对应的均值词向量替换该词组中每个词语的初始词向量,得到更新后的初始语料向量集;

使用Word2vec模型,对所述更新后的初始语料向量集进行训练,当训练次数达到第一预设阈值时,得到所述更新后的初始语料向量集中各个样本词语的第一词向量,并基于所述样本词语的第一词向量构建第一词向量集;

根据所述词间关系集的指示,从所述第一词向量集中确定出互为强关系的多组强关系词组中的每个样本词语的第一词向量;

针对于每组强关系词语,使用所述强关系词组对应的均值词向量替换该词组中每个词语的第一词向量,得到更新后的第一词向量集;

使用Word2vec模型,对所述更新后的第一词向量集进行训练,当训练次数达到第二预设阈值时,得到所述更新后的第一词向量集中各个样本词语的第二词向量,并基于所述样本词语的第二词向量构建第二词向量集;

根据所述词间关系集的指示,从所述第二词向量集中确定出互为相等关系的多组相等关系词组中的每个样本词语的第二词向量;

针对于每组相等关系词语,使用所述相等关系词组对应的均值词向量替换该词组中每个词语的第二词向量,得到更新后的第二词向量集;

使用Word2vec模型,对所述更新后的第二词向量集进行训练,当训练次数达到第三预设阈值时,停止训练,得到所述更新后的第二词向量集中各个样本词语的目标词向量。

进一步的,通过以下步骤确定词组对应的均值向量:

针对于每种词语相关关系下的每组词语,统计该词组中每个词语对应的词向量;

将所述词组中每个词语的词向量相加求均值,得到所述词组的均值词向量。

进一步的,通过以下步骤确定词间关系集:

针对于每种词语相关关系,根据所述词语相关关系对应的预设计算方法,计算预设有效词语集中两两词语的词语相关关系,得到多组弱关系词语对、强关系词语对以及相等关系词语对;

基于所述弱关系词语对构建弱关系不交子集,基于所述强关系词语对构建强关系不交子集,基于所述相等关系词语对构建相等关系不交子集;

基于所述弱关系不交子集、所述强关系不交子集以及所述相等关系不交子集,确定词间关系集。

本申请实施例提供了一种相似词的确定方法,所述确定方法包括:

获取待比较词语;

将所述待比较词语输入任意一项所述的词语词向量的生成方法得到的目标语料向量集中,得到所述待比较词语的目标词向量;

基于所述待比较词语的目标词向量和所述样本语料库中样本词语的目标词向量,计算所述待比较词语与所述词库中样本词语的余弦相似度值;

将所述余弦相似度值大于预设阈值的样本词语和/或将余弦相似度值靠前的前预设数量的样本词语作为所述待比较词语的相似词语;

从所述样本语料库中提取所述相似词语,反馈给用户端。

本申请实施例还提供了一种词语词向量的生成装置,所述生成装置包括:

第一获取模块,用于获取样本训练语料以及词间关系集,构建所述样本训练语料对应的样本语料库;

初始确定模块,用于确定所述样本语料库中各个样本词语的初始词向量,得到所述样本语料库的初始语料向量集;

训练模块,用于按照所述词间关系集中各个词语相关关系的预设训练顺序,依次更新所述初始语料向量集中对应样本词语的初始词向量,并迭代训练所述初始语料向量集,得到所述各个样本词语的目标词向量,其中,所述词语相关关系包括弱关系,强关系以及相等关系;

目标集构建模块,用于基于所述各个样本词语的目标词向量,构建所述样本语料库的目标语料向量集。

进一步的,所述生成装置还包括语料库构建模块,所述语料库构建模块用于:

对所述样本训练语料进行分词处理,将所述样本训练语料拆分为多个样本词语;

基于所述多个样本词语构建所述样本语料库。

进一步的,所述初始确定模块在用于确定所述样本语料库中各个样本词语的初始词向量,得到所述样本语料库的初始语料向量集时,所述初始确定模块用于:

将所述样本语料库中各个样本词语进行向量化处理,得到所述样本语料库中各个样本词语的原始向量;

使用Word2vec模型,对所述样本语料库中各个样本词语的原始向量进行训练,得到所述样本语料库中各个样本词语的初始词向量;

基于所述各个样本词语的初始词向量,构建所述样本语料库的初始语料向量集。

进一步的,所述训练模块在用于按照所述词间关系集中各个词语相关关系的预设训练顺序,依次更新所述初始语料向量集中对应样本词语的初始词向量,并迭代训练所述初始语料向量集,得到所述各个样本词语的目标词向量,其中,所述词语相关关系包括弱关系、强关系以及相等关系时,所述训练模块用于:

根据所述词间关系集的指示,从所述初始语料向量集中确定出互为弱关系的多组弱关系词组中的每个样本词语的初始词向量;

针对于每组弱关系词语,使用所述弱关系词组对应的均值词向量替换该词组中每个词语的初始词向量,得到更新后的初始语料向量集;

使用Word2vec模型,对所述更新后的初始语料向量集进行训练,当训练次数达到第一预设阈值时,得到所述更新后的初始语料向量集中各个样本词语的第一词向量,并基于所述样本词语的第一词向量构建第一词向量集;

根据所述词间关系集的指示,从所述第一词向量集中确定出互为强关系的多组强关系词组中的每个样本词语的第一词向量;

针对于每组强关系词语,使用所述强关系词组对应的均值词向量替换该词组中每个词语的第一词向量,得到更新后的第一词向量集;

使用Word2vec模型,对所述更新后的第一词向量集进行训练,当训练次数达到第二预设阈值时,得到所述更新后的第一词向量集中各个样本词语的第二词向量,并基于所述样本词语的第二词向量构建第二词向量集;

根据所述词间关系集的指示,从所述第二词向量集中确定出互为相等关系的多组相等关系词组中的每个样本词语的第二词向量;

针对于每组相等关系词语,使用所述相等关系词组对应的均值词向量替换该词组中每个词语的第二词向量,得到更新后的第二词向量集;

使用Word2vec模型,对所述更新后的第二词向量集进行训练,当训练次数达到第三预设阈值时,停止训练,得到所述更新后的第二词向量集中各个样本词语的目标词向量。

进一步的,所述生成装置还包括均值向量确定模块,所述均值向量确定模块用于:

针对于每种词语相关关系下的每组词语,统计该词组中每个词语对应的词向量;

将所述词组中每个词语的词向量相加求均值,得到所述词组的均值词向量。

进一步的,所述生成装置还包括词间集确定模块,所述词间集确定模块用于:

针对于每种词语相关关系,根据所述词语相关关系对应的预设计算方法,计算预设有效词语集中两两词语的词语相关关系,得到多组弱关系词语对、强关系词语对以及相等关系词语对;

基于所述弱关系词语对构建弱关系不交子集,基于所述强关系词语对构建强关系不交子集,基于所述相等关系词语对构建相等关系不交子集;

基于所述弱关系不交子集、所述强关系不交子集以及所述相等关系不交子集,确定词间关系集。

本申请实施例还提供了一种相似词的确定装置,所述确定装置包括:

第二获取模块,用于获取待比较词语;

目标向量确定模块,用于将所述带比较词语输入任意一项所述的词语词向量的生成方法得到的目标语料向量集中,得到所述待比较词语的目标词向量;

计算模块,用于基于所述待比较词语的目标词向量和所述样本语料库中样本词语的目标词向量,计算所述待比较词语与所述词库中样本词语的余弦相似度值;

相似词语确定模块,用于将所述余弦相似度值大于预设阈值的样本词语和/或将余弦相似度值靠前的前预设数量的样本词语作为所述待比较词语的相似词语;

反馈模块,用于从所述样本语料库中提取所述相似词语,反馈给用户端。

本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的任一项所述的词语词向量的生成方法和/或所述的相似词的确定方法的步骤。

本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上上述的任一项所述的词语词向量的生成方法和/或所述的相似词的确定方法的步骤。

本申请实施例提供的一种词语词向量的生成方法以及相似词的确定方法,获取样本训练语料以及词间关系集,构建所述样本训练语料对应的样本语料库;确定所述样本语料库中各个样本词语的初始词向量,得到所述样本语料库的初始语料向量集;按照所述词间关系集中各个词语相关关系的预设训练顺序,依次更新所述初始语料向量集中对应样本词语的初始词向量,并迭代训练所述初始语料向量集,得到所述各个样本词语的目标词向量,其中,所述词语相关关系包括弱关系,强关系以及相等关系;基于所述各个样本词语的目标词向量,构建所述样本语料库的目标语料向量集。

这样,本申请通过在训练词语词向量的过程中,引入了弱关系、强关系以及相等关系词向量替换规则信息,依次更新训练向量集,使得训练得到的词语的目标词向量能有效的蕴涵关系信息,从而提高了词向量的准确度。

为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种词语词向量的生成方法的流程图;

图2为本申请实施例提供的一种相似词的确定方法的流程图;

图3(a)为弱关系词语按照原始Word2vec训练得到的词向量相似度的直方图的示意图;

图3(b)为弱关系词语按照本申请方法训练得到的词向量相似度的直方图的示意图;

图3(c)为强关系词语按照原始Word2vec训练得到的词向量相似度的直方图的示意图;

图3(d)为强关系词语按照本申请方法训练得到的词向量相似度的直方图的示意图;

图4为本申请实施例提供的一种词语词向量的生成装置的结构示意图之一;

图5为本申请实施例提供的一种词语词向量的生成装置的结构示意图之二;

图6为本申请实施例提供的一种相似词的确定装置的结构示意图;

图7为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。

经研究发现,在含有大量语料的场景里面,以Word2vec为代表的词向量模型以是一种公知的有效方法:通过分词预处理技术将语料库分词,然后使用预处理后的语料训练得到词向量,最后根据词向量间的相似度得到词语间的相似度。但是,当语料少的时候,虽然某些词语互为相似词语,但训练得到的词向量并不能很好的表现出词语之间的相关性,从而也导致训练结果准确度的偏低。

基于此,本申请实施例提供了一种词语词向量的生成方法,通过在训练词语词向量的过程中,引入了弱关系、强关系以及相等关系词向量替换规则信息,依次更新训练向量集,使得训练得到的词语的目标词向量能有效的蕴涵关系信息,从而提高了词向量的准确度。

请参阅图1,图1为本申请实施例提供的一种词语词向量的生成方法的流程图。如图1中所示,本申请实施例提供的词语词向量的生成方法,包括:

S101、获取样本训练语料以及词间关系集,构建所述样本训练语料对应的样本语料库。

该步骤中,获取训练所需要的样本训练语料和训练中所需要的词间关系集,对样本训练语料进行处理,构建样本训练语料所对应的样本语料库。

示例的,当应用在轨道交通中时,选择的样本训练语料为所有的工单记录数据,词间关系集为从有效词语集中确定出的由弱关系、强关系以及相等关系不交子集构建出的词语集合。这里有效词语集为部件名称集,样本语料库是对样本训练语料进行分词处理后确定出的。

进一步的,通过以下步骤构建样本语料库:对所述样本训练语料进行分词处理,将所述样本训练语料拆分为多个样本词语;基于所述多个样本词语构建所述样本语料库。

该步骤中,获取到样本训练语料后,使用分词工具对样本训练语料进行分词处理,这里的分词工具,优先选择jieba(结巴)分词工具,分词处理后,将样本训练语料拆分成多个样本词语,然后基于拆分出的多个样本词语,构建样本语料库。

这里,在进行分词前给jieba分词工具加载自定义词典。假设应用于轨道交通中,为了训练部件的词向量,在使用分词工具进行分词时,就需要将部件名称作为单个词语来处理,以工单记录“灯头不亮,更换头灯灯泡后正常”为例,如果直接使用jieba分词工具分词处理,会得到[“灯头”,“不亮”,“,”,“更换”,“头灯”,“灯泡”,“后”,“正常”],会将“头灯灯泡”分成两个词,但其实“头灯灯泡”是这个记录中描述的部件名称,所以在分词前需要给jieba分词工具加载自定义词典,告诉它“头灯灯泡”是一个词。

其中,所述词语可能是一个中文词,也可能是多个中文词的组合。例如:照明灯,照明灯灯板、照明灯灯管及镇流器,都可以认为是一个词语。

S102、确定所述样本语料库中各个样本词语的初始词向量,得到所述样本语料库的初始语料向量集。

该步骤中,使用Word2vec模型对样本语料库中的各个样本词语进行训练,得到各个样本词语的初始词向量,基于得到的各个样本词语的初始词向量,构建样本语料库的初始语料向量集。

这里,Word2vec模型包含skip-gram模型(跳字模型)和CBOW模型(连续词袋模型)。训练时,可以任选其中一种模型进行词向量训练。

进一步的,确定所述样本语料库中各个样本词语的初始词向量,得到所述样本语料库的初始语料向量集,包括:将所述样本语料库中各个样本词语进行向量化处理,得到所述样本语料库中各个样本词语的原始向量;使用Word2vec模型,对所述样本语料库中各个样本词语的原始向量进行训练,得到所述样本语料库中各个样本词语的初始词向量;基于所述各个样本词语的初始词向量,构建所述样本语料库的初始语料向量集。

该步骤中,根据Word2vec模型的形式要求对样本语料库中的各个样本词语进行向量化处理,赋予各个样本词语各自对应的一个原始向量,采用的形式为中心词语随机赋予一个原始词向量,背景词语赋予一个原始零向量,得到样本语料库中各个样本词语的原始向量,然后使用Word2vec模型,对样本语料库中各个样本词语的原始向量进行迭代训练,迭代次数可以根据样本语料库的情况或实际效果适应性的选择,迭代训练完成后,得到样本语料库中各个样本词语的初始词向量,最后根据得到的各个样本词语的初始词向量,构建样本语料库的初始语料向量集。

S103、按照所述词间关系集中各个词语相关关系的预设训练顺序,依次更新所述初始语料向量集中对应样本词语的初始词向量,并迭代训练所述初始语料向量集,得到所述各个样本词语的目标词向量,其中,所述词语相关关系包括弱关系、强关系以及相等关系;

该步骤中,词间关系集中各个词语相关关系包括弱关系、强关系以及相等关系,预设的训练顺序为由弱关系更新到强关系更新再到相等关系更新。按照词间关系集中词语的由弱关系更新到强关系更新再到相等关系更新的顺序,依次更新初始语料向量集中对应样本词语的初始词向量,每次更新后都要迭代训练初始语料向量集,直至训练达到预设次数,停止训练,得到各个样本词语的目标词向量。

进一步的,可以通过以下步骤确定词间关系集:针对于每种词语相关关系,根据所述词语相关关系对应的预设计算方法,计算预设有效词语集中两两词语的词语相关关系,得到多组弱关系词语对、强关系词语对以及相等关系词语对;基于所述弱关系词语对构建弱关系不交子集,基于所述强关系词语对构建强关系不交子集,基于所述相等关系词语对构建相等关系不交子集;基于所述弱关系不交子集、所述强关系不交子集以及所述相等关系不交子集,确定词间关系集。

该步骤中,词语相关关系包括弱关系、强关系以及相等关系,根据弱关系对应的计算方法、强关系对应的计算方法以及相等关系对应的计算方法,对预设有效词语集中两两词语的词语相关关系进行计算确定,得到多组弱关系词语对、强关系词语对以及相等关系词语对,然后,对弱关系词语对进行相应处理得到弱关系不交子集,对强关系词语对进行相应处理得到强关系不交子集,对相等关系词语对进行相应处理得到相等关系不交子集,最后再根据得到的弱关系不交子集、所述强关系不交子集以及相等关系不交子集,得到词间关系集。

示例的,以应用于轨道交通为例进行说明,获取弱关系词语对、强关系词语对以及相等关系词语对,然后确定词间关系集。

首先,获取互为弱关系的词语对。

这里,弱关系表示获取得到的不同词语间存在一定关系,认为它们大概率是意思相近的词。比如“按钮灯泡”和“按钮灯罩”是意思相近的词语。示例的,本发明中使用了两种弱关系确定方法,但是也可以使用其它更多的弱关系词语对确定方法。

其中,两种弱关系确定方法为基于jaccard相似度的弱关系词语对确定方法以及基于TF-IDF相似度的弱关系词语对确定方法。

示例的,以基于jaccard相似度的弱关系词语对确定方法为例进行说明,对于词语A与词语B,以A分词后的集合与B分词后的集合的jaccard相似度作为词语A词语B之间的相似度。

例如:假设词语A=“照明系统LED照明驱动模块电源保护”,词语B=“照明指示灯灯泡”,A分词后结果为['照明','系统','LED','照明','驱动','模块电源','保护'],对应的集合为{'照明','系统','LED','驱动','模块电源','保护'},B分词后结果为['照明','指示灯','灯泡'],对应的集合为{'照明','指示灯','灯泡'},所以Jaccard(A,B)=(A·B)/(|A|·|B|)=(|{'照明'}|)/(|{'照明','系统','LED','驱动','模块电源','保护','指示灯','灯泡'}|)=1/8。为保留更加可靠的关系,对于词语A,只保留前k个和/或与A的相似度大于阈值a的词语。比如设置k=5,a=0.5。

示例的,以基于TF-IDF相似度的弱关系词语对确定方法为例进行说明,TF即词频,IDF即逆文档频率:

词频(TF)=某个词在文章中出现的次数/文章的总词数

逆文档频率(IDF)=log(语料库的文档总数/(包含该词的文档数+1))

TF-IDF=TF*IDF

以每个有效词语(部件名称)作为“文档”,按照TF-IDF相似度计算方法,获取每个词语的TF-IDF。这里,只使用有效词语作为文档,而不使用所有的语料库中的词语作为文档,以轨道交通场景为例,计算TF-IDF相似度的时候,不使用完整的工单数据,只使用工单中所有的部件名称作为“文档”数据。计算得到所有部件对应的词向量后,以余弦相似度作为相似度计算方法。其中,为了保证关系的可靠性,对于词语A,只保留前k个与A的相似度大于阈值a的词语。比如设置k=5,a=0.5。

其次,获取互为强关系的词语对。

这里,强关系表示获取得到的不同词语间存在强关系,认为它们大概率是意思相同的词。比如“制动阀R阀”,“制动阀R阀和S阀”是大概率意思相同的词语。本发明中使用了两种强关系确定方法,但是也可以使用其它更多的强关系词语对确定方法,在此不做限定。

其中,两种强关系确定方法为唯一“被包含”确定方法以及唯一“被缩写”确定方法。

示例的,以基于唯一“被包含”的强关系词语对确定方法为例进行说明,当词语B完全被包含词语A包含(如“制动阀R阀”被“制动阀R阀和S阀”包含),而且词语B只被词语A包含,不存在另外的词语C包含A。那么认为B和A是唯一被包含关系。

示例的,以基于唯一“被缩写”的强关系词语对确定方法为例进行说明。定义“缩写”,词语A分词后分为w

再其次,获取互为相等关系的词语对。

这里,相等关系可以是人工标注的。比如人工可以标注“空调压缩机”和“空压机”是相等关系。

然后,获取到弱关系词语对、强关系词语对以及相等关系词语对后,将有向关系转无向关系。在关系中,有些关系是有向的,如“包含”,“压缩”。有些关系是无向的,如“相等”关系。需要把这些有向的关系都看成无向的关系。

再然后,将弱关系词语进行合并,强关系词语进行合并以及相等关系词语进行合并。比如词语A与词语B,词语A与词语C存在jaccard弱关系,词语D与词语E存在TF-IDF弱关系,词语A与词语F存在TF-IDF弱关系。合并后为词语A与词语B,词语A与词语C,词语A与词语F,词语D与词语E存在弱关系。同理,合并所有的强关系以及相等关系。另一方面,因为弱关系、强关系以及相等关系表示的相关性强度是在递进的,所以满足强关系的词对应该认为它也满足弱关系,满足相等关系的词语对它应该也满足强关系。所以在关系合并的时候,弱关系除了合并所有弱关系外,还需要合并所有强关系和相等关系,得到的才是完整的弱关系对。强关系除了合并所有强关系外和需要合并所有相等关系,最终得到的才是完整的强关系。

最后,获取弱关系不交子集、所述强关系不交子集以及所述相等关系不交子集。

示例的,这里的不交子集可以以不交子图的形式进行描述说明,这里不交子图,指任意两个子集是不相交的。基于关系图,获取关系图中的不交的子图。不交子图的获取方法多样,如连通分量、完全子图、图聚类等都能获取得到不交的子图。

以完全子图为例。假设所有的弱关系词语对为:(A,B),(A,C),(A,F),(B,C),(D,E)。A与B有关系,C与A,B都有关系,所以[A,B,C]为一个子集,同时[D,E]也是一个子集。此时的完全子图为[[A,B,C],[D,E]]。因为词语顺序的关系,获取的完全子图也可能为[[A,F],[B,C],[D,E]]。此时获取的完全子图为不交子图。

示例的,以轨道交通中的部件为例进行说明,如表1所示,为强关系不交子集,如表2所示,为弱关系不交子集。

表1:为强关系不交子集

表2:为弱关系不交子集

进一步的,所述按照所述词间关系集中各个词语相关关系的预设训练顺序,依次更新所述初始语料向量集中对应样本词语的初始词向量,并迭代训练所述初始语料向量集,得到所述各个样本词语的目标词向量,其中,所述词语相关关系包括弱关系,强关系以及相等关系,包括:根据所述词间关系集的指示,从所述初始语料向量集中确定出互为弱关系的多组弱关系词组中的每个样本词语的初始词向量;针对于每组弱关系词语,使用所述弱关系词组对应的均值词向量替换该词组中每个词语的初始词向量,得到更新后的初始语料向量集;使用Word2vec模型,对所述更新后的初始语料向量集进行训练,当训练次数达到第一预设阈值时,得到所述更新后的初始语料向量集中各个样本词语的第一词向量,并基于所述样本词语的第一词向量构建第一词向量集;根据所述词间关系集的指示,从所述第一词向量集中确定出互为强关系的多组强关系词组中的每个样本词语的第一词向量;针对于每组强关系词语,使用所述强关系词组对应的均值词向量替换该词组中每个词语的第一词向量,得到更新后的第一词向量集;使用Word2vec模型,对所述更新后的第一词向量集进行训练,当训练次数达到第二预设阈值时,得到所述更新后的第一词向量集中各个样本词语的第二词向量,并基于所述样本词语的第二词向量构建第二词向量集;根据所述词间关系集的指示,从所述第二词向量集中确定出互为相等关系的多组相等关系词组中的每个样本词语的第二词向量;针对于每组相等关系词语,使用所述相等关系词组对应的均值词向量替换该词组中每个词语的第二词向量,得到更新后的第二词向量集;使用Word2vec模型,对所述更新后的第二词向量集进行训练,当训练次数达到第三预设阈值时,停止训练,得到所述更新后的第二词向量集中各个样本词语的目标词向量。

该步骤中,按照词间关系集中由弱关系到强关系再到相等关系的训练顺序,对向量集中的词向量进行更新。第一,进行弱关系替换。这里有多组弱关系词组,对于每个词组确定出该组中的所有弱关系词语,从预先构建好的初始语料向量集中确定出弱关系词语对应的初始词向量,确定好初始词向量后,计算得到每组弱关系词组的均值词向量,将该弱关系词组中的所有词语的词向量用该组均值词向量表示,然后用该词语的均值词向量将初始语料向量集中的对应的样本词语的初始词向量进行替换,得到更新后的初始语料向量集。再使用Word2vec模型,对更新后的初始语料向量集进行迭代训练,当迭代训练次数达到第一预设阈值时,各个样本词语初始词向量发生改变,变成第一词向量,最后再基于样本词语的第一词向量构建第一词向量集。其中,第一预设阈值可以根据实际情况进行适用性选择。

第二,进行强关系替换。这里有多组强关系词组,对于每个词组确定出该组中的所有强关系词语,从预先构建好的第一词向量集中找到强关系词语对应的第一词向量,确定好第一词向量后,计算得到每组强关系词组的均值词向量,将该强关系词组中的所有词语的词向量用该组均值词向量表示,然后用该词语的均值词向量将第一词向量集中的对应的样本词语的第一词向量进行替换,得到更新后的第一词向量集。再使用Word2vec模型,对更新后的第一词向量集进行迭代训练,当迭代训练次数达到第二预设阈值时,各个样本词语第一词向量发生改变,变成第二词向量,最后再基于样本词语的第二词向量构建第二词向量集。其中,第二预设阈值可以根据实际情况进行适用性选择。

第三,进行相等关系替换。这里有多组相等关系词组,对于每个词组确定出该组中的所有相等关系词语,从预先构建好的第二词向量集中找到相等关系词语对应的第二词向量,确定好第二词向量后,计算得到每组相等关系词组的均值词向量,将该相等关系词组中的所有词语的词向量用该组均值词向量表示,然后用该词语的均值词向量将第二词向量集中的对应的样本词语的第二词向量进行替换,得到更新后的第二词向量集。再使用Word2vec模型,对更新后的第二词向量集进行迭代训练,当迭代训练次数达到第三预设阈值时,停止训练,各个样本词语第二词向量发生改变,得到各个样本词语的目标词向量。其中,第三预设阈值可以根据实际情况进行适用性选择。

进一步的,通过以下步骤确定词组对应的均值向量:针对于每种词语相关关系下的每组词语,统计该词组中每个词语对应的词向量;将所述词组中每个词语的词向量相加求均值,得到所述词组的均值向量。

该步骤中,对于弱关系词组、强关系词组以及相等关系词组,计算该词组对应的均值向量的计算方法都是一样的。在进行替换前,以词组为单位进行计算,首先,确定所述词组中每个词语的词向量,然后将这些词语的词向量相加再除以词语个数,最后得到该词组对应的均值词向量。

示例的,以弱关系不交子集进行举例说明,假设弱关系不交子集为[[A,B,C][D,E]],这里包含两组弱关系词组,在确定出初始语料向量集后,确定A,B,C,D,E对应的初始词向量分别为E

S104、基于所述各个样本词语的目标词向量,构建所述样本语料库的目标语料向量集。

该步骤中,得到各个样本词语的目标词向量后,将所有目标词向量进行整合,构建样本语料库的目标语料向量集。

本申请实施例提供的一种词语词向量的生成方法,获取样本训练语料以及词间关系集,构建所述样本训练语料对应的样本语料库;确定所述样本语料库中各个样本词语的初始词向量,得到所述样本语料库的初始语料向量集;按照所述词间关系集中各个词语相关关系的预设训练顺序,依次更新所述初始语料向量集中对应样本词语的初始词向量,并迭代训练所述初始语料向量集,得到所述各个样本词语的目标词向量,其中,所述词语相关关系包括弱关系,强关系以及相等关系;基于所述各个样本词语的目标词向量,构建所述样本语料库的目标语料向量集。

这样,本申请通过在训练词语词向量的过程中,引入了弱关系、强关系以及相等关系词向量替换规则信息,依次更新训练向量集,使得训练得到的词语的目标词向量能有效的蕴涵关系信息,从而提高了词向量的准确度。

请参阅图2,图2为本申请实施例提供的一种相似词的确定方法的流程图。如图2中所示,本申请实施例提供的相似词的确定方法,包括:

S201、获取待比较词语。

该步骤中。当需要确定某个词语的相似词都有哪些,将该词语定义为待比较词语,这里待比较词语的数量可以为一个或多个。

S202、将所述待比较词语输入至任意一项所述的词语词向量的生成方法得到的目标语料向量集中,得到所述待比较词语的目标词向量。

该步骤中,确定好待比较词语后,根据词语词向量的生成方法确定出的目标语料向量集,将待比较词语输入至目标语料向量集中,确定出待比较词语对应的目标词向量。

S203、基于所述待比较词语的目标词向量和所述样本语料库中样本词语的目标词向量,计算所述待比较词语与所述词库中样本词语的余弦相似度值。

该步骤中,确定好待比较词语的目标词向量后,使用余弦相似度计算方法,通过待比较词语的目标词向量和语料库中词语的目标词向量,计算待比较词语与语料库中各个样本词语的余弦相似度值。

S204、将所述余弦相似度值大于预设阈值的样本词语和/或将余弦相似度值靠前的前预设数量的样本词语作为所述待比较词语的相似词语。

该步骤中,确定好待比较词语与语料库中样本词语的余弦相似度值后,将余弦相似度大于预设阈值对应的样本词语,和/或按照余弦相似度值由大到小的顺序,将前预设数量的样本词语作为待比较词语的相似词语。

S205、从所述样本语料库中提取所述相似词语,反馈给用户端。

该步骤中,确定好待比较词语的相似词语后,从语料库中将相似词语提取出,反馈给用户端。

这里,将相似词语提取出,反馈给用户端后,用户端的用户还可以对反馈出相似词语进行人工判断,判断反馈的相似词语是否准确。

示例的,以应用于轨道交通领域为例,说明本方案的有益效果。请参阅图3(a)、图3(b)、图3(c)、图3(d),图3(a)为弱关系词语按照原始Word2vec训练得到的词向量相似度的直方图的示意图,图3(b)为弱关系词语按照本申请方法训练得到的词向量相似度的直方图的示意图,图3(c)为强关系词语按照原始Word2vec训练得到的词向量相似度的直方图的示意图,图3(d)为强关系词语按照本申请方法训练得到的词向量相似度的直方图的示意图。如图3(a)、图3(b)、图3(c)、图3(d)中所示,横坐标代表相似度值,纵坐标代表词语数量。

对比图3(a)和图3(c)(或者图3(b)和图3(d))可以发现,强关系对的词语的相关性程度比弱关系的强,说明我们的关系规则是有效的,也说明word2vec的方法是有效的,对比3(a)和图3(b)(或者图3(c)和图3(d)),可以发现,本申请方案确定出的词向量在关系对上的相关性会比原始word2vec的结果强。因为本申请方案除了体现Word2vec本身包含的上下文关系外,还体现了弱关系(强关系)中包含的相关性信息。这里相等关系的没有在图中体现,因为改进后的相等关系,相似度肯定为1。

本申请实施例提供的一种相似词的确定方法,所述确定方法包括:获取待比较词语;将所述待比较词语输入至任意一项所述的词语词向量的生成方法得到的目标语料向量集中,得到所述待比较词语的目标词向量;基于所述待比较词语的目标词向量和所述语料库中样本词语的目标词向量,计算所述待比较词语与所述词库中样本词语的余弦相似度值;将所述余弦相似度值大于预设阈值的样本词语和/或将余弦相似度值靠前的前预设数量的样本词语作为所述待比较词语的相似词语;从所述语料库中提取所述相似词语,反馈给用户端。

这样,本申请确定待比较词语相似词的过程中,通过使用本申请词语词向量的生成方法得到的目标语料向量集,确定出待比较词语对应的目标词向量,从而也能更加准确的确定出词库中与待比较词语相似的词语,进而使得本申请更适用于一词多义的场景中。

请参阅图4、图5,图4为本申请实施例提供的一种词语词向量的生成装置的结构示意图之一,图5为本申请实施例提供的一种词语词向量的生成装置的结构示意图之二。如图4中所示,所述生成装置400包括:

第一获取模块410,用于获取样本训练语料以及词间关系集,构建所述样本训练语料对应的样本语料库;

初始确定模块420,用于确定所述样本语料库中各个样本词语的初始词向量,得到所述样本语料库的初始语料向量集;

训练模块430,用于按照所述词间关系集中各个词语相关关系的预设训练顺序,依次更新所述初始语料向量集中对应样本词语的初始词向量,并迭代训练所述初始语料向量集,得到所述各个样本词语的目标词向量,其中,所述词语相关关系包括弱关系,强关系以及相等关系;

目标集构建模块440,用于基于所述各个样本词语的目标词向量,构建所述样本语料库的目标语料向量集。

进一步的,如图5中所示,所述生成装置400还包括语料库构建模块450,所述语料库构建模块450用于:

对所述样本训练语料进行分词处理,将所述样本训练语料拆分为多个样本词语;

基于所述多个样本词语构建所述样本语料库。

进一步的,所述初始确定模块420在用于确定所述样本语料库中各个样本词语的初始词向量,得到所述样本语料库的初始语料向量集时,所述初始确定模块420用于:

将所述样本语料库中各个样本词语进行向量化处理,得到所述样本语料库中各个样本词语的原始向量;

使用Word2vec模型,对所述样本语料库中各个样本词语的原始向量进行训练,得到所述样本语料库中各个样本词语的初始词向量;

基于所述各个样本词语的初始词向量,构建所述样本语料库的初始语料向量集。

进一步的,所述训练模块430在用于按照所述词间关系集中各个词语相关关系的预设训练顺序,依次更新所述初始语料向量集中对应样本词语的初始词向量,并迭代训练所述初始语料向量集,得到所述各个样本词语的目标词向量,其中,所述词语相关关系包括弱关系、强关系以及相等关系时,所述训练模块430用于:

根据所述词间关系集的指示,从所述初始语料向量集中确定出互为弱关系的多组弱关系词组中的每个样本词语的初始词向量;

针对于每组弱关系词语,使用所述弱关系词组对应的均值词向量替换该词组中每个词语的初始词向量,得到更新后的初始语料向量集;

使用Word2vec模型,对所述更新后的初始语料向量集进行训练,当训练次数达到第一预设阈值时,得到所述更新后的初始语料向量集中各个样本词语的第一词向量,并基于所述样本词语的第一词向量构建第一词向量集;

根据所述词间关系集的指示,从所述第一词向量集中确定出互为强关系的多组强关系词组中的每个样本词语的第一词向量;

针对于每组强关系词语,使用所述强关系词组对应的均值词向量替换该词组中每个词语的第一词向量,得到更新后的第一词向量集;

使用Word2vec模型,对所述更新后的第一词向量集进行训练,当训练次数达到第二预设阈值时,得到所述更新后的第一词向量集中各个样本词语的第二词向量,并基于所述样本词语的第二词向量构建第二词向量集;

根据所述词间关系集的指示,从所述第二词向量集中确定出互为相等关系的多组相等关系词组中的每个样本词语的第二词向量;

针对于每组相等关系词语,使用所述相等关系词组对应的均值词向量替换该词组中每个词语的第二词向量,得到更新后的第二词向量集;

使用Word2vec模型,对所述更新后的第二词向量集进行训练,当训练次数达到第三预设阈值时,停止训练,得到所述更新后的第二词向量集中各个样本词语的目标词向量。

进一步的,所述生成装置400还包括均值向量确定模块460,所述均值向量确定模块460用于:

针对于每种词语相关关系下的每组词语,统计该词组中每个词语对应的词向量;

将所述词组中每个词语的词向量相加求均值,得到所述词组的均值词向量。

进一步的,所述生成装置400还包括词间集确定模块470,所述词间集确定模块470用于:

针对于每种词语相关关系,根据所述词语相关关系对应的预设计算方法,计算预设有效词语集中两两词语的词语相关关系,得到多组弱关系词语对、强关系词语对以及相等关系词语对;

基于所述弱关系词语对构建弱关系不交子集,基于所述强关系词语对构建强关系不交子集,基于所述相等关系词语对构建相等关系不交子集;

基于所述弱关系不交子集、所述强关系不交子集以及所述相等关系不交子集,确定词间关系集。

本申请实施例提供的一种词语词向量的生成装置,所述生成装置用于:获取样本训练语料以及词间关系集,构建所述样本训练语料对应的样本语料库;确定所述样本语料库中各个样本词语的初始词向量,得到所述样本语料库的初始语料向量集;按照所述词间关系集中各个词语相关关系的预设训练顺序,依次更新所述初始语料向量集中对应样本词语的初始词向量,并迭代训练所述初始语料向量集,得到所述各个样本词语的目标词向量,其中,所述词语相关关系包括弱关系,强关系以及相等关系;基于所述各个样本词语的目标词向量,构建所述样本语料库的目标语料向量集。

这样,本申请通过在训练词语词向量的过程中,引入了弱关系、强关系以及相等关系词向量替换规则信息,依次更新训练向量集,使得训练得到的词语的目标词向量能有效的蕴涵关系信息,从而提高了词向量的准确度。

请参阅图6,图6为本申请实施例提供的一种相似词的确定装置的结构示意图。如图6中所示,所述确定装置600包括:

第二获取模块610,用于获取待比较词语;

目标向量确定模块620,用于将所述带比较词语输入任意一项所述的词语词向量的生成方法得到的目标语料向量集中,得到所述待比较词语的目标词向量;

计算模块630,用于基于所述待比较词语的目标词向量和所述样本语料库中样本词语的目标词向量,计算所述待比较词语与所述词库中样本词语的余弦相似度值;

相似词语确定模块640,用于将所述余弦相似度值大于预设阈值的样本词语和/或将余弦相似度值靠前的前预设数量的样本词语作为所述待比较词语的相似词语;

反馈模块650,用于从所述样本语料库中提取所述相似词语,反馈给用户端。

本申请实施例提供的一直相似词的确定装置,所述确定装置用于:获取待比较词语;将所述待比较词语输入至任意一项所述的词语词向量的生成方法得到的目标语料向量集中,得到所述待比较词语的目标词向量;基于所述待比较词语的目标词向量和所述词库中词语的目标词向量,计算所述待比较词语与所述词库中词语的余弦相似度值;将所述余弦相似度值大于预设阈值的词语和/或将相似度值靠前的前预设数量的词语作为所述待比较词语的相似词语;从所述词库中提取所述相似词语,反馈给用户端。

这样,本申请确定待比较词语相似词的过程中,通过使用本申请词语词向量的生成方法得到的目标语料向量集,确定出待比较词语对应的目标词向量,从而也能更加准确的确定出词库中与待比较词语相似的词语,进而使得本申请更适用于一词多义的场景中。

请参阅图7,图7为本申请实施例所提供的一种电子设备的结构示意图。如图7中所示,所述电子设备700包括处理器710、存储器720和总线730。

所述存储器720存储有所述处理器710可执行的机器可读指令,当电子设备700运行时,所述处理器710与所述存储器720之间通过总线730通信,所述机器可读指令被所述处理器710执行时,可以执行如上述图1以及图2所示方法实施例中的词语词向量的生成方法和/或相似词的确定方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。

本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1以及图2所示方法实施例中的词语词向量的生成方法和/或相似词的确定方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号