首页> 中国专利> 融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法

融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法

摘要

本发明涉及融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法,该方法分为数据预处理、训练子视图满意度模型、对未标注数据分配伪标签、训练基于多视图和半监督学习的用户满意度模型和评估六个阶段,本发明通过半监督学习的方法使用少量标注数据和大量未标注数据来提高评估模型的性能,并引入多视图学习的思想来克服传统的基于单视图的半监督学习方法容易陷入局部最优的问题。有益效果在于:(1)可以在少量的标注数据的情况下,有效地评估搜索引擎的用户信息需求满意度;(2)可以通过使用少量标注数据和大量未标注数据来提高用户满意度模型评估性能;(3)分别从行为和时间的角度来描述用户的搜索过程,通过相互学习来避免模型陷入局部最优。

著录项

  • 公开/公告号CN105488522A

    专利类型发明专利

  • 公开/公告日2016-04-13

    原文格式PDF

  • 申请/专利权人 浙江鸿程计算机系统有限公司;

    申请/专利号CN201510824301.0

  • 发明设计人 吴勇;季海琦;陈岭;范阿琳;

    申请日2015-11-23

  • 分类号G06K9/62(20060101);G06F17/30(20060101);

  • 代理机构杭州之江专利事务所(普通合伙);

  • 代理人张慧英

  • 地址 310053 浙江省杭州市滨江区伟业路1号2幢

  • 入库时间 2023-12-18 15:29:11

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-09-07

    授权

    授权

  • 2016-05-11

    实质审查的生效 IPC(主分类):G06K9/62 申请日:20151123

    实质审查的生效

  • 2016-04-13

    公开

    公开

说明书

技术领域

本发明涉及互联网信息技术领域,尤其涉及融合多视图和半监督 学习的搜索引擎用户信息需求满意度评估方法。

背景技术

随着知识经济与信息化建设的高速发展,网络信息数据规模急速 膨胀,海量信息资源在丰富人们信息来源的同时,也给人们获取信息 造成了困扰,而搜索引擎凭借日趋精准化、人性化的信息检索服务成 为用户访问万维网查找和获取资源信息的主要工具之一。同时,搜索 引擎需要不断地进行算法改进和系统优化来满足用户日益增长的信 息需求和高效方便获取信息资源的要求。因此,如何向用户提供优质 的搜索服务,帮助用户快速准确地定位所需的信息资源,从而吸引更 多用户使用,一直是商用搜索引擎公司所关注的重点。

传统的搜索引擎质量评价指标如前n位准确率(Precisionatn, Pn)、平均准确率(MeanAveragePrecision,MAP)、标准化折扣累 计回报(normalizeDiscountedCumulativeGain,nDCG)等需要使用大 量的人工标注数据评价搜索引擎的性能,但是这种人工标注需要消耗 大量的人力和时间资源,难以大规模地实时开展。半监督学习能够使 评价方法自动对大量未标注数据进行利用以辅助少量标注数据学习, 然而传统的半监督学习方法大多是基于单视图的,即简单地把数据中 所有的子属性集组合成一个单一的属性集,忽略了每个子属性所拥有 的独特的统计学上的性质,而且在训练数据极其稀少的情况下容易陷 入局部最优。

发明内容

本发明为克服上述的不足之处,目的在于提供融合多视图和半监 督学习的搜索引擎用户信息需求满意度评估方法,该方法包括数据预 处理、训练子视图满意度模型、对未标注数据分配伪标签、训练基于 多视图和半监督学习的用户满意度模型和评估等部分,本方法可以在 少量的标注数据的情况下,有效地评估搜索引擎用户信息需求满意 度;可以通过使用少量标注数据和大量未标注数据来提高用户满意度 模型评估性能。

本发明通过以下技术方案达到上述目的:融合多视图和半监督学 习的搜索引擎用户信息需求满意度评估方法,包括如下步骤:

(1)将搜索引擎日志数据分为行为视图数据与时间视图数据,其中 搜索引擎日志数据包括标注数据与未标注数据两类,并对行为视图数 据与时间视图数据作预处理;

(2)对预处理后的数据训练得到基于行为视图的满意度模型与基于 时间视图的满意度模型;

(3)利用基于行为视图的满意度模型与基于时间视图的满意度模型 对未标注数据分配伪标签;

(4)利用基于行为视图的满意度模型与基于时间视图的满意度模型, 结合带有伪标签的未标注数据训练基于多视图和半监督学习的用户 满意度模型;

(5)通过基于多视图和半监督学习的用户满意度模型计算得到信息 需求的生成概率,输出概率最大的类作为输出的最终分类结果。

作为优选,所述步骤(1)对视图数据与时间视图数据作预处理 包括:对搜索引擎日志数据内的标注数据所分出的行为视图数据与时 间视图数据按照满意度标签分为满意行为视图数据和不满意行为视 图数据,满意时间视图数据和不满意时间视图数据两部分;对搜索引 擎日志数据内的未标注数据所分出的行为视图数据与时间视图数据 处理得到评估数据。

作为优选,所述步骤(2)的基于行为视图的满意度模型包括基 于行为视图的满意模型与基于行为视图的不满意模型,训练基于行为 视图的满意模型与训练基于行为视图的不满意模型的方法类似,其 中,训练基于行为视图的满意模型的方法步骤如下:

1)以一个信息需求为单位读取经过标注数据预处理的满意行为视图 数据;如果所读数据是一个完整的信息需求,则进入步骤2);如果 所读数据不是一个完整的信息需求,则继续读取下一个数据;

2)统计已读信息需求出现的行为的类型ai及该类型行为出现的次数 统计已读信息需求出现的行为转移的类型(ai,aj)及该行为转移 出现的次数

3)利用最大似然估计计算两个行为ai和aj之间的转移概率;用拉普拉 斯平滑处理由于数据稀疏而产生的零概率问题,处理公式如下:

P^(aj|ai)=α+Nai,ajα×|V|+Nai

其中,α>0是平滑参数,|V|是用户在使用搜索引擎过程中可能出 现的行为类型数量;

4)输出满意模型的用户行为转移概率矩阵。

作为优选,所述步骤(2)的基于时间视图的满意度模型包括基 于时间视图的满意模型与基于时间视图的不满意模型,训练基于时间 视图的满意模型与训练基于时间视图的不满意模型的方法类似,其 中,训练基于时间视图的满意模型的方法步骤如下:

(i)以一个信息需求为单位读取经过标注数据预处理的满意时间视 图数据;如果所读数据是一个完整的信息需求,则进入步骤(ii);如 果所读数据不是一个完整的信息需求,则继续读取下一个数据;

(ii)统计每个行为转移的停留时间;

(iii)利用Gamma分布对行为转移的停留时间建立概率模型:

f(x;k;θ)=xk-1e-x/θθkΓ(k)

其中,k是尺度参数,θ是形状参数,x是一个行为转移,且 x,k,θ>0;

(iv)输出每个行为转移的尺度参数和形状参数。

作为优选,所述步骤(3)利用基于行为视图的满意度模型对未 标注数据分配伪标签的步骤如下:

(A)读取两个基于行为视图的用户满意度模型的行为转移概率矩 阵;

(B)以一个信息需求为单位读取预处理后的未标注数据产生的行为 视图数据;如果所读数据是一个完整的信息需求,则进入步骤(C); 如果所读数据不是一个完整的信息需求,则继续读取下一个数据;

(C)对于一个包含n个行为的信息需求S=<a1,…,ai-1,ai,…,an>,结 合行为转移概率矩阵计算得到从模型中生成此信息需求S的概率为:

P(S|C)Πi=2nP(ai|ai-1,C),C{C0,C1}

其中,C0表示不满意的类,C1表示满意的类;

计算得到最大似然估计为:

P(C|S)P(C)×Πi=2nP(ai|ai-1,C),C{C0,C1}

其中,P(C)表示类C的先验概率;

(D)计算并获取似然估计值最大的类作为当前信息需求的伪分类结 果,同时给当前信息需求分配伪标签,其中计算公式如下所示:

Result=argmaxC{C0,C1}P(C|S)=argmaxC{C0,C1}P(C)×Πi=2nP^(aj|ai,C).

作为优选,所述步骤(3)利用基于时间视图的满意度模型对未 标注数据分配伪标签的方法与利用基于行为视图的满意度模型对未 标注数据分配伪标签的方法类似。

作为优选,所述步骤(4)训练基于多视图和半监督学习的用户 满意度模型的步骤如下:

(I)以一个信息需求为单位读取预处理后标注数据的行为视图数据;

(II)基于步骤(I)的行为视图数据训练基于行为视图的满意模型和 不满意模型;

(III)利用基于行为视图的满意模型和不满意模型对预处理后的未标 注数据分配伪标签;并将带有伪标签的未标注数据与原始的标注数据 整合成新标注数据集;

(IV)对得到的新标注数据集作标注数据预处理,并以一个信息需求 为单位读取预处理后标注数据集中的时间视图数据;

(V)基于步骤(IV)得到的时间视图数据训练基于时间视图的满意 模型和不满意模型;

(VI)检查比较当前得到的基于行为视图的用户满意度模型与步骤 (2)得到的基于行为视图的用户满意度模型是否相同,如果相同则 执行步骤(VII),如果不同则执行步骤(VIII);

(VII)检查当前得到的基于时间视图的用户满意度模型与步骤(2) 得到的基于时间视图的用户满意度模型是否相同,如果相同则执行步 骤(X),如果不同则执行步骤(VIII);

(VIII)根据步骤(V)得出的模型对经过未标注数据预处理的未标 注数据分配伪标签;并将带有伪标签的未标注数据与原始的标注数据 整合成新标注数据集;

(IX)对步骤(VIII)得到的新标注数据集来做标注数据预处理,并 以一个信息需求为单位读取该标注数据集中的行为视图数据;

(X)输出基于行为视图的满意模型和不满意模型,输出基于时间视 图的满意模型和不满意模型。

作为优选,所述步骤(5)得到最终分类结果的方法步骤如下:

(a)通过基于多视图和半监督学习的用户满意度模型得到基于行为 视图的用户满意度模型和基于时间视图的用户满意度模型;

(b)以一个信息需求为单位读取经过未标注数据预处理的评估数据; 如果所读数据是一个完整的信息需求,则进入步骤(c);如果所读数 据不是一个完整的信息需求,则继续读取下一个数据;

(c)分别计算当前信息需求在基于行为视图的满意模型中生成的概 率和基于行为视图的不满意模型中生成的概率分别计算当前 信息需求在基于时间视图的满意模型中生成的概率和基于时间视 图的不满意模型中生成的概率

(d)由计算得到在满意模型中生成的概率在不满意模型中生成的概率并在二者中取概率最大的类作 为最终分类结果,即:

Result=argmaxC{C0,C1}(PAC×PTC)

最后输出当前信息需求的最终分类结果。

本发明的有益效果在于:(1)可以在少量的标注数据的情况下, 有效地评估搜索引擎用户信息需求满意度;(2)可以通过使用少量标 注数据和大量未标注数据来提高用户满意度模型评估性能;(3)分别 从行为和时间的角度来描述用户的搜索过程,通过相互学习来避免模 型陷入局部最优。

附图说明

图1是本发明方法的流程示意图;

图2是本发明标注数据预处理的流程示意图;

图3是本发明未标注数据预处理的流程示意图;

图4是本发明训练基于行为视图的用户满意度模型示意图;

图5是本发明训练基于时间视图的用户满意度模型示意图;

图6是本发明基于行为视图的满意度模型对未标注数据分配伪标签 流程示意图;

图7是本发明基于时间视图的满意度模型对未标注数据分配伪标签 流程示意图;

图8是本发明训练融合多视图和半监督学习的用户满意度模型流程 图;

图9是本发明评估用户满意度流程图。

具体实施方式

下面结合具体实施例对本发明进行进一步描述,但本发明的保护 范围并不仅限于此:

实施例:如图1所示,融合多视图和半监督学习的搜索引擎用户 信息需求满意度评估方法,该方法分为数据预处理、训练子视图满意 度模型、对未标注数据分配伪标签、训练基于多视图和半监督学习的 用户满意度模型和评估六个阶段。

数据预处理阶段包括标注数据预处理和未标注数据预处理两个 子阶段:

标注数据预处理阶段的流程图如图2所示,主要包括以下步骤:

步骤1,把搜索引擎日志数据分为行为视图数据和时间视图数据。 行为视图数据从用户搜索行为之间的转移来描述用户的搜索过程,包 括信息需求、搜索行为和满意度三列数据;时间视图数据从用户停留 在某个搜索行为的时间来描述用户的搜索过程,包括信息需求、搜索 行为、停留时间和满意度四列数据;

步骤2,把行为视图数据按照满意度标签分为满意行为视图数据 和不满意行为视图数据两部分;

步骤3,把时间视图数据按照满意度标签分为满意时间视图数据 和不满意时间视图数据两部分。

未标注数据预处理阶段的流程图如图3所示,把搜索引擎日志数 据分为行为视图数据和时间视图数据。行为视图数据从用户搜索行为 之间的转移来描述用户的搜索过程,包括信息需求和搜索行为两列数 据;时间视图数据从用户停留在某个搜索行为的时间来描述用户的搜 索过程,包括信息需求、搜索行为和停留时间三列数据。

训练子视图满意度模型阶段包括训练基于行为视图的满意模型、 训练基于行为视图的不满意模型、训练基于时间视图的满意模型和训 练基于时间视图的不满意模型四个子阶段:

训练基于行为视图的满意模型阶段的流程图如图4所示,主要包 括以下步骤:

步骤1,读取经过标注数据预处理的满意行为视图数据;

步骤2,以一个信息需求为单位来读取数据。如果所读数据是一 个完整的信息需求,则继续下一步;如果所读数据不是一个完整的信 息需求,则继续读取数据;

步骤3,统计已读信息需求出现的行为的类型ai及该类型行为出 现的次数统计已读信息需求出现的行为转移的类型(ai,aj)及该 行为转移出现的次数

步骤4,计算行为转移概率。每个信息需求都可以简单的表示成 一个基于用户行为的马尔可夫模型;马尔可夫模型的状态空间是用户 在搜索过程中可能出现的多种行为的集合;用最大似然估计来计算两 个行为ai和aj之间的转移概率,用拉普拉斯平滑来处理由于数据稀疏 而产生的零概率问题:

P^(aj|ai)=α+Nai,ajα×|V|+Nai---(1)

α>0是平滑参数,|V|是用户在使用搜索引擎过程中可能出现的行为类 型数量。

步骤5,输出满意模型的用户行为转移概率矩阵。

训练基于行为视图的不满意模型与训练基于行为视图的满意模 型类似,具体包括以下步骤:

步骤1,读取经过标注数据预处理的不满意行为视图数据;

步骤2,以一个信息需求为单位来读取数据。如果所读数据是一 个完整的信息需求,则继续下一步;如果所读数据不是一个完整的信 息需求,则继续读取数据;

步骤3,统计已读信息需求出现的行为的类型ai及该类型行为出 现的次数统计已读信息需求出现的行为转移的类型(ai,aj)及该 行为转移出现的次数

步骤4,计算行为转移概率;

步骤5,输出不满意模型的用户行为转移概率矩阵。

训练基于时间视图的满意模型阶段的流程图如图5所示,主要包 括以下步骤:

步骤1,读取经过标注数据预处理的满意时间视图数据;

步骤2,以一个信息需求为单位来读取数据。如果所读数据是一 个完整的信息需求,则继续下一步;如果所读数据不是一个完整的信 息需求,则继续读取数据;

步骤3,统计每个行为转移的停留时间;

步骤4,用Gamma分布对行为转移的停留时间建立概率模型:

f(x;k;θ)=xk-1e-x/θθkΓ(k)---(2)

k是尺度参数,θ是形状参数,x是一个行为转移,且x,k,θ>0;

步骤5,输出每个行为转移的尺度参数和形状参数。

训练基于时间视图的不满意模型和训练基于时间视图的满意模 型类似,具体包括以下步骤:

步骤1,读取经过标注数据预处理的不满意时间视图数据;

步骤2,以一个信息需求为单位来读取数据。如果所读数据是一 个完整的信息需求,则继续下一步;如果所读数据不是一个完整的信 息需求,则继续读取数据;

步骤3,统计每个行为转移的停留时间;

步骤4,计算每个行为转移停留时间的概率密度函数;

步骤5,输出每个行为转移的尺度参数和形状参数。

对未标注数据分配伪标签阶段包括基于行为视图的用户满意度 模型对未标注数据分配伪标签和基于时间视图的用户满意度模型对 未标注数据分配伪标签流程图两个子阶段:

基于行为视图的用户满意度模型对未标注数据分配伪标签阶段 的流程图如图6所示,主要包括以下步骤:

步骤1,读取两个基于行为视图用户满意度模型的行为转移概率 矩阵;

步骤2,读取经过未标注数据预处理的未标注行为视图数据;

步骤3,以一个信息需求为单位来读取数据。如果所读数据是一 个完整的信息需求,则继续下一步;如果所读数据不是一个完整的信 息需求,则继续读取数据;

步骤4,计算最大似然估计。给定一个基于行为视图的用户满意 度模型和一个包含n个行为的信息需求S=<a1,…,ai-1,ai,…,an>,则从 该模型中生成这个信息需求S的概率是:

P(S|C)Πi=2nP(ai|ai-1,C),C{C0,C1}---(3)

C0表示不满意的类,C1表示满意的类。

最大似然估计为:

P(C|S)P(C)×Πi=2nP(ai|ai-1,C),C{C0,C1}---(4)

P(C)表示类C的先验概率;

步骤5,计算伪分类结果。取似然估计值最大的类作为当前信息 需求的伪分类结果,即:

Result=argmaxC{C0,C1}P(C|S)=argmaxC{C0,C1}P(C)×Πi=2nP^(aj|ai,C)---(5)

步骤6,给当前信息需求分配伪标签。

基于时间视图的用户满意度模型对未标注数据分配伪标签阶段 的流程图如图7所示,主要包括以下步骤:

步骤1,读取两个基于时间视图用户满意度模型的停留时间概率 密度函数;

步骤2,读取经过未标注数据预处理的未标注时间视图数据;

步骤3,以一个信息需求为单位来读取数据。如果所读数据是一 个完整的信息需求,则继续下一步;如果所读数据不是一个完整的信 息需求,则继续读取数据;

步骤4,计算最大似然估计。给定一个基于时间视图的用户满意 度模型和一个包含n个行为的信息需求S,则从该模型中生成这个信 息需求S的最大似然估计为:

P(C|S)P(C)×Πi=1mΓ(ki,θi,C),C{C0,C1}---(6)

Г(ki,θi,C)表示在类C中,信息需求S出现的第i次行为转移停留时间 的概率密度函数,m表示S中出现行为转移的次数。

步骤5,计算伪分类结果。取似然估计值最大的类作为当前信息 需求的伪分类结果,即:

Result=argmaxC{C0,C1}P(C|S)=argmaxC{C0,C1}P(C)×Πi=1mΓ(ki,θi,C)---(7)

步骤6,给当前信息需求分配伪标签。

训练基于多视图和半监督学习的用户满意度模型阶段的流程图 如图8所示,主要包括以下步骤:

步骤1,以一个信息需求为单位来读取经过标注数据预处理的行 为视图数据;

步骤2,训练基于行为视图的满意模型和不满意模型;

步骤3,根据步骤2得出的模型对经过未标注数据预处理的未标 注数据分配伪标签;

步骤4,将带有伪标签的未标注数据与原始的标注数据整合成新 的标注数据集;

步骤5,对步骤4得到的新标注数据集来做标注数据预处理,并 以一个信息需求为单位读取该标注数据集中的时间视图数据;

步骤6,训练基于时间视图的满意模型和不满意模型;

步骤7,检查当前得到的基于行为视图的用户满意度模型与前一 次得到的基于行为视图的用户满意度模型是否相同,如果相同则执行 步骤8,如果不同则执行步骤9;

步骤8,检查当前得到的基于时间视图的用户满意度模型与前一 次得到的基于时间视图的用户满意度模型是否相同,如果相同则执行 步骤12,,如果不同则执行步骤9;

步骤9,根据步骤6得出的模型对经过未标注数据预处理的未标 注数据分配伪标签;

步骤10,将带有伪标签的未标注数据与原始的标注数据整合成 新的标注数据集;

步骤11,对步骤10得到的新标注数据集来做标注数据预处理, 并以一个信息需求为单位读取该标注数据集中的行为视图数据;

步骤12,输出基于行为视图的满意模型和不满意模型;

步骤13,输出基于时间视图的满意模型和不满意模型;

评估阶段的流程图如图9所示,主要包括以下步骤:

步骤1,读取在训练基于多视图和半监督学习的用户满意度模型 阶段得到的基于行为视图和时间视图的用户满意度模型;

步骤2,读取经过未标注数据预处理的评估数据;

步骤3,以一个信息需求为单位来读取数据。如果所读数据是一 个完整的信息需求,则继续下一步;如果所读数据不是一个完整的信 息需求,则继续读取数据;

步骤4,计算当前信息需求分别从基于行为视图的满意模型中生 成的概率和基于行为视图的不满意模型中生成的概率

步骤5,计算当前信息需求分别从基于时间视图的满意模型中生 成的概率和基于时间视图的不满意模型中生成的概率

步骤6,计算当前信息需求的最终分类结果。将该信息需求从基 于行为视图和基于时间视图的满意模型生成的概率相乘得到该信息 需求从满意模型中生成的概率将该信息需求从基于行为视 图和基于时间视图的不满意模型生成的概率相乘得到该信息需求从 满意模型中生成的概率取得到生成概率最大的类作为最终 分类结果,即:

Result=argmaxC{C0,C1}(PAC×PTC)---(8)

步骤7,输出当前信息需求的最终分类结果。

综上所述,本发明通过半监督学习的方法使用少量标注数据和大 量未标注数据来提高评估模型的性能,并引入多视图学习的思想来克 服传统的基于单视图的半监督学习方法容易陷入局部最优的问题。本 发明使用用户满意度作为搜索引擎质量的评价指标,基于网络搜索引 擎的查询日志,引入用户行为模型,定义两个视图来描述用户的搜索 过程,即行为视图和时间视图。使用两个视图的少量标注数据分别建 立基于行为视图的用户满意度模型和基于时间视图的用户满意度模 型,这两个视图的模型在向未标注数据分配伪标签的过程中不断更 新,相互学习,直至两个视图的模型都收敛,用得到的两个视图的模 型来评估用户的满意程度。

以上的所述乃是本发明的具体实施例及所运用的技术原理,若依 本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附 图所涵盖的精神时,仍应属本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号