首页> 中国专利> 基于深度学习和主题模型的短文本相似度计算方法

基于深度学习和主题模型的短文本相似度计算方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

基于深度学习和主题模型的短文本相似度计算方法，属于文本相似度匹配技术领域，要解决的问题是如何通过深度学习网络和LDA主题模型准确实现短文本相似度计算。首先使用BERT对输入模型的多段文本分别进行分词及向量转换，然后将分词后的词向量分别输入到深度学习模型和LDA主题模型。在深度学习模型内部，先利用双向LSTM网络提取单词的上下文信息；再利用1D卷积神经网络将上下文信息与词嵌入信息进行信息融合；最后使用全局最大池化提取关键信息。在LDA主题模型内部，采用吉布斯抽样进行主题提取，提取每段文本的感情色彩。根据两个模型提取到的特征，通过混合型文本语义相似度计算方法计算获得两段文本之间的相似度。

著录项

公开/公告号CN114897078A

专利类型发明专利
公开/公告日2022-08-12

原文格式PDF
申请/专利权人辽宁大学;
展开▼

申请/专利号CN202210544327.X
发明设计人王青松;张超越;王海硕;聂振业;孙文成;杨念殷;
展开▼

申请日2022-05-19
分类号G06K9/62(2022.01);G06F40/284(2020.01);G06F40/30(2020.01);G06F16/35(2019.01);G06N3/04(2006.01);G06N3/08(2006.01);
代理机构沈阳杰克知识产权代理有限公司 21207;
代理人王洋
地址 110000 辽宁省沈阳市沈北新区道义南大街58号
入库时间 2023-06-19 16:22:17

法律信息

法律状态公告日

法律状态信息

法律状态
2022-08-30

实质审查的生效 IPC(主分类):G06K 9/62 专利申请号:202210544327X 申请日:20220519

实质审查的生效

说明书

技术领域

本发明属于文本相似度匹配技术领域，具体涉及一种基于深度学习和主题模型的短文本相似度计算方法。

背景技术

随着互联网的快速发展，自然语言处理领域发展迅猛，短文本信息处理显得尤为重要，它不仅是各个功能的基础，又是近年来的研究重点。短文本相似度计算问题是短文本信息处理的一个重要分支，它在互联网搜索引擎、智能问答、机器翻译、信息过滤和检索等方面有大量应用。在国内外，研究两个实体间相似程度的前沿技术多数都是在语义的层面。

目前，短文本语义相似度计算方法大部分都以深度学习为主，如：RNN循环神经网络、CNN卷积神经网络等不同网络或其组合，传统的深度学习文本语义相似度计算的基本流程如附图2所示。

在深度学习网络中，常使用one-hot编码对输入内容进行分词及向量转换，用于深度学习的模型计算。这种编码方式的优点一方面在于将一些离散的数据进行集中计算，另一方面还可以对文本的相关特征进行深度挖掘，拓展文本的语义相关性。然而，这种编码方式没有考虑文本内容上下文之间的联系，这就使得在计算文本相似度时，部分词语影响最终的计算结果。比如：“骄傲”一词既有自负而轻视他人的意思，也有自豪的意思。“小明考了第一名，他很骄傲。”和“小明考了第一名，他是妈妈的骄傲。”两句话，同样都用到了骄傲，但背后表达的意思却天壤之别。若不联系上下文，单一使用词语对句子进行分词编码操作，将会使得最终计算结果与实际产生巨大偏差。因此，本方法采用BERT来分词和向量转换，通过联系上下文，以此来解决一词多义的问题。

RNN循环神经网络是一种循环计算网络，虽然可以获取向量上下文之间的联系，但只能保持单向顺序，在一定程度上限制了模型的计算能力，对文本的长期依赖问题没有解决。LSTM是一种特殊的RNN循环神经网络，在普通的RNN网络上增加三个交互层，在一定程度上解决了长期依赖问题，但无法对部分区域的特征进行重点提取。CNN网络常用于图形处理领域，它的特点是突出感受野范围内的特征，简而言之就是突出部分区域的特征，但将该网络用于文本领域时，其不能考虑文本内容上下文之间的联系。因此，在本模型中将LSTM循环神经网络和CNN卷积神经网络相融合，以此来联系上下文和突出文本内容中的重点部分。

在单一使用深度学习模型对文本相似度计算时，面对“一词多义”的问题，无法考虑文本的感情色彩，会造成计算结果与人为判定结果有所偏差。因此，将LDA主题模型引入到本文相似度计算中，可以发挥其能对文本进行情感分类的作用，从而进一步增强文本相似度计算的精确度。

发明内容

本发明的目的是提供一种基于深度学习和主题模型的短文本相似度计算方法，将传统的基于深度学习的语义文本相似度计算方法与情感分析主题模型相融合，来提高文本相似度计算准确率的技术问题。

为实现上述目的，本发明采用如下的技术方案：

基于深度学习和主题模型的短文本相似度计算方法，包含步骤如下：

1)对输入到系统的两个短文本，使用BERT分别进行分词及向量转换，并对分词结果和向量转化结果分别保存；

分词及向量转换的具体方法为：将两段短文本分别通过BERT模型进行分词，并保存分词后的结果，再对BERT分词后的结果进行向量转化，转换成能被深度学习网络处理的词向量表示，将词向量x作为输入。

2)对向量转换转换后的词向量提取融合特征信息：首先采用双向的LSTM网络进行上下文信息提取，然后利用1D卷积神经网络将提取到的上下文信息与词嵌入信息进行信息融合，再使用全局最大池化提取关键信息，得到多维度、多特征的融合特征信息；

提取词向量的融合特征信息的具体方法为：

将词向量x输入到深度学习模型，使用哈希编码的方式得到l

其中l

然后依次通过LSTM、CNN融合的三层网络得到128维的低维向量y，再通过全局最大池化优化特征值输出，计算过程如下：

其中

3)对分词后的两段段文本提取情感特征：将其输入到LDA情感分析主题模型，采用吉布斯抽样提取文本的情感色彩，提取两段文本的情感特征；

提取两段文本的情感特征的具体方法为：

将BERT分词后的结果输入到模型中，计算每段文本的情感属性概率分布：

P(w,z|α,β)＝p(w|z,w)*p(z|α)

采用吉布斯抽样计算数据与主题之间的关系，w表示文本中的某一个单词，α和β是是预设的超参数，z表示主题的编号；

根据贝叶斯公式和Dirichlet先验分布，计算Dirichlet分布期望：

k表示主题数，θ

通过吉布斯抽样得到概率分布：

4)对于步骤2)中得到的融合特征进行相似度计算，对步骤3)中得到的情感特征进行情感分类判定，将上述两者的结果进行混合型文本语义相似度计算，得到两段文本之间的文本语义相似度；

对融合特征进行相似度计算，使用的公式为：

其中y

对情感特征进行情感分类判定，使用的公式为：

其中P表示由LDA模型输出的情感特征，i表示输入到LDA模型的不同文本，当B得0时，表明两段文本的情感分类不同，当B得1时，表示两段文本的情感分类相同。

两段文本之间的文本语义相似度计算公式为：

S＝εR+(1-ε)B

其中R表示深度学习网络提取到的相似度，B表示两段文本所属情感类别的相似度，ε表示深度学习网络提取到的相似度占最终结果输出的权重。

本发明与现有技术相比具有以下有益效果：将两段本文向量转换后同时输入到深度学习网络和LDA情感主题模型，将深度学习网络和LDA情感主题模型的输出结果相融合，得到多维度、多粒度的语意相似度特征信息，然后通过融合语意相似度计算方法对文本相似度进行计算。在考虑文本语意的前提下，充分剖析两段文本的感情色彩，避免“一词多义”对最终判别结果带来的影响。

附图说明

图1是本发明中基于深度学习和主题模型的短文本相似度计算方法的步骤图。

图2是现有技术下的文本相似度计算系统流程图。

图3是本发明中基于深度学习和主题模型的短文本相似度计算方法的流程图。

图4是本发明中基于深度学习和主题模型的短文本相似度计算模型的架构图。

具体实施方式

下面结合附图及实例对本发明做进一步说明。

本发明实施例提供基于深度学习和主题模型的短文本相似度计算方法，用于解决通过深度学习网络和主题模型计算短文本语义相似度的问题。

基于深度学习和主题模型的短文本相似度计算方法，包含步骤如下：

1)对输入到系统的两个短文本，使用BERT分别进行分词及向量转换，并对分词结果和向量转化结果分别保存；

提取词向量的融合特征信息的具体方法为：

将词向量x输入到深度学习模型，使用哈希编码的方式得到l

其中l

然后依次通过LSTM、CNN融合的三层网络得到128维的低维向量y，再通过全局最大池化优化特征值输出，计算过程如下：

其中

3)对分词后的两段段文本提取情感特征：将其输入到LDA情感分析主题模型，采用吉布斯抽样提取文本的情感色彩，提取两段文本的情感特征；

提取两段文本的情感特征的具体方法为：

将BERT分词后的结果输入到模型中，计算每段文本的情感属性概率分布：

P(w,z|α,β)＝p(w|z,w)*p(z|α)

采用吉布斯抽样计算数据与主题之间的关系，w表示文本中的某一个单词，α和β是是预设的超参数，z表示主题的编号；

根据贝叶斯公式和Dirichlet先验分布，计算Dirichlet分布期望：

k表示主题数，θ

通过吉布斯抽样得到概率分布：

对融合特征进行相似度计算，使用的公式为：

其中y

对情感特征进行情感分类判定，使用的公式为：

两段文本之间的文本语义相似度计算公式为：

S＝εR+(1-ε)B

其中R表示深度学习网络提取到的相似度，B表示两段文本所属情感类别的相似度，ε表示深度学习网络提取到的相似度占最终结果输出的权重。

实施例1

S100、对输入到系统的两个短文本，其中短本文Q为：“小明这次期末考试考的不错，他是妈妈的骄傲”，短文本D为：“小明本次期末考试考的不错，他有些骄傲”，使用BERT分别进行分词及向量转换，并对分词结果和向量转化结果分别保存。

S200、对转换后的词向量，首先采用双向的LSTM网络进行上下文信息提取，然后利用1D卷积神经网络将提取到的上下文信息与词嵌入信息进行信息融合，再使用全局最大池化提取关键信息，得到多维度、多特征的融合特征信息。

S300、对分词后的两段段文本，将其输入到LDA情感分析主题模型，采用吉布斯抽样提取文本的情感色彩，提取两段文本的情感特征。

S400、对于融合特征进行相似度计算，并对情感特征进行情感分类判定，将两者的结果进行混合型文本语义相似度计算，得到两段文本之间的文本语义相似度。

其中，S100包括以下步骤：

(1)将两段短文本分别通过BERT模型进行分词，其中短本文Q为：“小明这次期末考试考的不错，他是妈妈的骄傲”，短文本D为：“小明本次期末考试考的不错，他有些骄傲”，并保存分词后的结果。

(2)对BERT分词后的结果进行向量转化，转换成能被深度学习网络处理的词向量表示，将词向量x作为输入。

其中，S200包括以下步骤：

(1)将词向量x输入到深度学习模型，使用哈希编码的方式得到l

其中l

(2)然后依次通过LSTM、CNN融合的三层网络得到128维的低维向量y。再通过全局最大池化(maxpooling)优化特征值输出。计算过程如下：

其中

其中，S300包括以下步骤：将BERT分词后的结果输入到模型中，计算每段文本的情感属性概率分布：

P(w，zα，β)＝p(wz，w)*p(zα)

k表示主题数，θ

1)根据贝叶斯公式和Dirichlet先验分布，计算Dirichlet分布期望：

k表示主题数，θ

2)通过吉布斯抽样得到概率分布：

在上述公式中，

其中，S400包括以下步骤：

(1)使用以下公式计算由深度学习网络提取到融合特征之间的相似度：

其中y

(2)使用以下公式判定短文本所属的情感相似度：

其中P表示由LDA模型输出的情感特征。i表示输入到LDA模型的不同文本。当B得0时，表明两段文本的情感分类不同，当B得1时，表示两段文本的情感分类相同。在本实施例中，B为0。

(3)使用混合型文本语义相似度计算方法计算两段文本之间的语义相关度：

S＝εR+(1-ε)B

其中R表示深度学习网络提取到的相似度，B表示两段文本所属情感类别的相似度，在本实施例中其数值为0，ε表示深度学习网络提取到的相似度占最终结果输出的权重，输出结果为两个短文本之间相似度为42.37％，断定结果为短文本Q与短文本D表达意思不相同。

在单一使用基于深度学习的短文本相似度计算方法时，计算两段短文本的相似度为67.85％，判定结果为两段短文本表达语义相近。可根据我们的语感可知，这两段文本想表达的意思是不相同的。短文本Q想表达对小明的赞扬，短文本D想表达的是对小明的批评。因此，两段短文本表达的意思是不相同的。所以，本文提出的基于深度学习和主题模型的短文本相似度计算方法更贴近生活实际，且计算精度更高。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于BTM主题模型和Doc2vec的文本相似度计算方法 [P] . 中国专利： CN113591473A . 2021-11-02
2. 基于改进LDA主题模型的文本相似度计算方法及系统 [P] . 中国专利： CN108829799A . 2018-11-16
3. POP-COUNT-BASED DEEP LEARNING NEURAL NETWORK CALCULATION METHOD, MULTIPLICATION ACCUMULATOR, AND DEVICE [P] . 韩国专利： WO2022080579A1 . 2022-04-21

机译：基于POP-COUNT的深度学习神经网络计算方法、乘法累加器和装置
4. ELECTROCARDIO PARAMETER CALCULATION METHOD BASED ON DEEP LEARNING [P] . WO2022052300A1 . 2022-03-17

机译：基于深度学习的心电参数计算方法
5. METHOD FOR PROVIDING COSMETIC CURATION BASED ON DEEP LEARNING [P] . 韩国专利： KR20200027098A . 2020-03-12

机译：基于深度学习的美容计算方法