首页> 中国专利> 融合注意力机制的个性化搜索方法和搜索系统

融合注意力机制的个性化搜索方法和搜索系统

摘要

本发明公开了一种融合注意力机制的个性化搜索方法和搜索系统,其中搜索方法包括:1、收集并获取用户在互联网信息媒体中生成的大量用户生成内容,进行向量化表示;2、构建优势项目群体;3、构建并训练融合注意力机制的用户偏好感知模型,该模型基于DBN,由三层RBM组成;4、构建基于用户偏好的分布估计概率模型;5、设定种群大小N,采用基于用户偏好的分布估计概率模型,生成N个新个体;6、在搜索空间中选择与N个新个体相似度最高的N个项目,构成待推荐项目集合Su;7、计算Su中各项目的适应值;8、选择Su中适应值最高的前TopN个项目作为搜索结果,进行个性化推荐。该方法考虑了不同决策分量对于用户偏好的影响力不同,能够帮助用户更有效地进行个性化搜索。

著录项

  • 公开/公告号CN113127737A

    专利类型发明专利

  • 公开/公告日2021-07-16

    原文格式PDF

  • 申请/专利权人 江苏科技大学;

    申请/专利号CN202110399302.0

  • 发明设计人 暴琳;宋英磊;晋春;盖志强;

    申请日2021-04-14

  • 分类号G06F16/9535(20190101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构32204 南京苏高专利商标事务所(普通合伙);

  • 代理人常虹

  • 地址 212003 江苏省镇江市梦溪路2号

  • 入库时间 2023-06-19 11:52:33

说明书

技术领域

本发明属于数据挖掘技术领域,具体涉及一种个性化搜索方法和搜索系统。

背景技术

随着大数据、云计算、物联网等技术的迅猛发展,互联网规模和用户数量急剧增加,用户已经成为数据的主动创造者,聚集了大量多源异构用户生成内容,各类信息错综复杂并呈现爆炸式增长。用户生成内容包含海量多源异构且动态演化的复杂数据,具有来源与结构多样化、稀疏性、多模态、不完整性、传播社会性等特点,蕴含着丰富的有价值信息和巨大的挖掘潜力,也是各类互联网平台和移动应用商家获取信息、提升业绩与服务的重要来源,成为一类典型的大数据环境。然而,这些复杂多源异构用户生成内容给用户带来新资讯的同时,也增加了用户筛选、甄别和处理信息并最终做出决策的难度,即带来了“信息过载”问题。个性化搜索和推荐算法作为连接用户与信息的桥梁,能够充分利用海量多源异构用户生成数据,根据用户潜在需求与认知偏好预测用户行为和发展动态,尽可能帮助用户从海量信息中筛选出与用户需求和兴趣偏好相符的内容,有效缓解“信息过载”,提升用户的使用体验和网站平台的商业利益。

面向用户生成内容的个性化搜索任务,其本质是在多源异构用户生成数据构成的动态演化空间中搜寻满足用户需求及个性化偏好的优化目标,即一类动态定性指标优化问题。由于这类复杂定性指标优化问题,不仅其目标函数和性能指标不能用数学函数准确描述,甚至其优化问题的决策变量也不再是简单的结构化数据,往往具有较大的主观性、模糊性、不确定性及不一致性,需要用户依据经验知识和兴趣偏好对于待搜索项目进行定性分析、评价和决策,从而难以建立具体精确的数学模型进行描述。近年来提出的融入人类智能评价的交互式协同进化计算,将用户主观认知经验、智能评价决策与传统进化计算相结合,是处理上述复杂个性化搜索定性指标优化问题的有效途径。

申请号为CN2020102165574的中国专利公开了一种基于受限玻尔兹曼机驱动的交互式个性化搜索方法,其中用户兴趣偏好模型的构建未考虑描述不同项目属性决策变量对于用户偏好影响力不同,而对于所用项目的决策变量采用了相同权重,不能够充分体现各决策变量对于用户偏好的影响,从而难以构建更加精确的用户偏好模型,进一步影响用户进行个性化搜索的效果。

发明内容

发明目的:针对现有技术中存在的问题,本发明提供一种融合注意力机制的个性化搜索方法和搜索系统,其中搜索方法考虑了不同决策分量对用户偏好的影响力不同,能够帮助用户更有效地进行个性化搜索。

技术方案:本发明一方面公开了一种融合注意力机制的个性化搜索方法,包括:

步骤1、收集并获取用户生成内容,所述用户生成内容包括用户u已评价的所有项目、对每个项目的评分和文本评论、每个项目的图像、其他用户对用户u所做评价的有用性评价得分;将文本评论进行向量化,项目图像进行特征提取,获取特征向量;

步骤2、将用户评分大于预设评分阈值且信任度大于预设信任度阈值的项目组成含用户偏好的优势项目群体D;D中的项目构成集合S,S={(u,x

步骤3、构建融合注意力机制的用户偏好感知模型,所述模型基于深度置信网络,由三层受限玻尔兹曼机组成,其中第一层受限玻尔兹曼机的可见层包括第一组可见单元v

利用优势项目群体D,采用对比散度学习算法对融合注意力机制的用户偏好感知模型中的第一层RBM进行训练,获得其模型参数θ

第一层RBM模型训练完成后,当给定隐单元状态时,各可见单元的激活状态条件独立,某项目x

其中,a

计算各类多源异构数据的信息熵,项目类别标签的信息熵为:

文本评论向量的信息熵为:

项目图像特征向量的信息熵为:

其中c

t

g

其次,计算各类信息熵占总信息熵的比例作为权重因子:

其中H(x

将向量C

其中,m

RBM1训练完成后,根据式(9)获取项目x

其中

将注意力权重系数at

x

将x

其中x

由RBM1可见单元激活概率V

A(x

其中,softmax()函数保证所有权重系数之和为1;函数a(V

a(V

结合用户偏好注意力权重向量A(x

x

利用融合注意力机制的项目决策向量x

步骤4、根据已训练好的融合注意力机制的基于DBN的用户偏好感知模型及其模型参数,建立构建基于用户偏好的分布估计概率模型P(x):

P(x)=[P(ψ

其中(ψ

步骤5、设定种群大小N,利用基于用户偏好的分布估计概率模型P(x),采用分布估计算法生成N个新个体,每个个体为一个项目;第v个新个体的类别标签向量

(5.1)令v=1;

(5.2)生成[0,1]之间的随机数z;如果z≤P(ψ

(5.3)令v加一,重复步骤(5.2),直至v>N;

步骤6、在搜索空间中选择与N个新个体类别标签向量

步骤7、计算待推荐项目集合S

其中,

其中

步骤8、选择S

随着用户交互式搜索过程的推进和用户行为动态演变,根据当前用户最近的评价数据,更新优势项目群体D,再次训练融合注意力机制的用户偏好感知模型,动态更新提取的用户偏好特征,同时,更新基于用户偏好的分布估计概率模型P(x)。

另一方面,本发明还公开了实现上述个性化搜索方法的搜索系统,包括:

用户生成内容获取模块,用于收集并获取用户u生成内容,所述用户生成内容包括用户u已评价的所有项目、对每个项目的评分和文本评论、每个项目的图像、其他用户对用户u所做评价的有用性评价得分;将文本评论进行向量化,项目图像进行特征提取,获取特征向量;

优势项目群体构建模块,用于将用户评分大于预设评分阈值且信任度大于预设信任度阈值的项目组成含用户偏好的优势项目群体D;

用户偏好感知模型构建与训练模块,用于构建并训练融合注意力机制的用户偏好感知模型;所述模型基于深度置信网络,由三层受限玻尔兹曼机组成,其中第一层受限玻尔兹曼机的可见层包括第一组可见单元v

基于用户偏好的分布估计概率模型构建模块,用于根据已训练好的融合注意力机制的基于深度置信网络的用户偏好感知模型及其模型参数,建立构建基于用户偏好的分布估计概率模型P(x):

P(x)=[P(ψ

其中(ψ

种群生成模块,用于利用基于用户偏好的分布估计概率模型P(x),采用分布估计算法生成N个新个体,每个个体为一个项目,并设置每个新个体的类别标签向量,N为预设的种群大小;

待推荐项目集合构建模块,用于在搜索空间中选择与N个新个体类别标签向量

适应值计算模块,用于计算待推荐项目集合S

搜索结果选择模块,用于选择S

有益效果:本发明公开的个性化搜索方法充分利用多源异构用户生成内容,包括用户评分、项目类别标签、用户文本评论、评价信任度和项目图像信息,构建融合注意力机制的用户偏好感知模型,基于此用户偏好感知模型,构建基于用户偏好的分布估计概率模型,生成含用户偏好的新的可行解项目,选择适应值最高的多个项目作为最终搜索结果。该方法能够很好地处理大数据环境下面向多源异构用户生成内容的个性化搜索任务,有效引导用户进行个性化搜索,尽快帮助用户搜索到满意解,提高个性化搜索算法的综合性能。

附图说明

图1为本发明公开融合注意力机制的个性化搜索方法的流程图;

图2为融合注意力机制的用户偏好感知模型的结构示意图;

图3为融合注意力机制的个性化搜索系统的组成示意图。

具体实施方式

下面结合附图和具体实施方式,进一步阐明本发明。

如图1所示,本发明公开了一种融合注意力机制的个性化搜索方法,包括:

步骤1、收集并获取用户生成内容,所述用户生成内容包括用户u已评价的所有项目、对每个项目的评分和文本评论、每个项目的图像、其他用户对用户u所做评价的有用性评价得分;将文本评论进行向量化,项目图像进行特征提取,获取特征向量;

本实施例中对于文本评论向量化表示的步骤为:去除文本评论中的停用词和标点符号等,进行数据预处理;采用文献:Devlin J,Chang M W,Lee K,et al.BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding[J].arXiv:1810.04805v2[cs.CL]24May 2019.中的BERT模型,将用户文本评论进行向量化表示。

对项目图像提取特征是利用文献:Krizhevsky A,SutskeverI,Hinton G E.ImageNet classification with deep convolutional neural networks.In:Proceedings ofthe 25th International Conference on Neural Information ProcessingSystems.Lake Tahoe,Nevada,USA:Curran Associates Inc.,2012.1097-1105.中的AlexNet模型,将项目图像进行特征提取及向量化表示。

其他用户对用户u所做评价的有用性评断,是指其他用户对于当前用户u就某一项目的评价信息做出对其有用的评断,如果认为有用就标注1,否则标注0,统计所有其他用户对当前用户u就某一项目的评价信息的评断,标注为1的总数即为其他用户对用户u所做评价的有用性评价得分。例如,当前用户u就项目x做出了评价,用户A和用户B对该评价做了有用性评断,该评断反映了当前用户对项目x评价的可信度,通过统计所有其他用户对当前用户u就项目x评价的有用性评断,可以过滤无效评价或者虚假评论。

其他用户对用户u所做评价的有用性评价得分与用户u评价项目的总数的比值,为用户u对项目评价的信任度。

步骤2、构建用户偏好的优势项目群体D;

用户评分大于预设评分阈值且信任度大于预设信任度阈值的项目是用户偏好的项目。由于用户的具有模糊性、不确定性和动态变化的特性,本实施例在已有的用户偏好项目群体中引入一定的随机性,以增加用户的选择范围,使得用户的选择不要过于局限于当前偏好信息的范围内,适应实际情况下的环境和用户偏好的动态变化性。由此,将评分大于预设评分阈值且信任度大于预设信任度阈值的项目,以及在搜索空间随机采样的多个新项目,组成优势项目群体D。优势项目群体D中加入的新项目可能包含用户偏好,也可能不包含用户偏好,是随机的,其增加了项目群体的多样性。新项目在优势项目群体D中的占比不超过30%,本实施例中,新项目占优势项目群体D中项目总数的10%。

由于新项目是在搜索空间随机采样的,当前用户u可能对其作出了评价,也可能没有评价。如果当前用户u对新项目没有评价,则采用当前用户u的相似用户u′对该新项目的文本评论作为用户u对该新项目的评价;如果用户u的多个相似用户均对该新项目作出评价,则选择其中与用户u相似度最大的用户的评价。如果当前用户u的相似用户均没有对该新项目作出评价,用户u对该新项目的评价采用随机赋值的方式。

用户u的相似用户为与用户u存在共同评分项目,且相似度大于预设的相似度阈值的用户。对于与用户u存在共同评分项目的用户u′,u′≠u,u和u′的相似度Sim(u,u′)为:

其中I

优势项目群体D构成集合S,S={(u,x

向量C

步骤3、构建融合注意力机制的用户偏好感知模型,如图2所示,该模型基于深度置信网络(Deep Belief Network,DBN),该模型由三层受限玻尔兹曼机(RestrictedBoltzmann Machine,RBM)组成,其中第一层受限玻尔兹曼机RBM1的可见层包括第一组可见单元v

利用优势项目群体D,采用对比散度学习算法对融合注意力机制的用户偏好感知模型中的第一层受限玻尔兹曼机RBM1进行训练,获得其模型参数θ

第一层RBM模型训练完成后,当给定隐单元状态时,各可见单元的激活状态条件独立,某项目x

其中,a

根据信息熵公式:

项目类别标签的信息熵为:

文本评论向量的信息熵为:

项目图像特征向量的信息熵为:

其中c

t

g

其次,进一步计算各类信息熵占总信息熵的比例作为权重因子:

其中H(x

当给定可见单元状态时,即将向量C

其中,m

当给定隐单元状态时,各可见单元的激活状态亦条件独立,第n个可见单元的激活概率为:

其中a

RBM1训练完成后,根据式(5)可获取项目x

其中

将注意力权重系数at

x

其中i=1,2,…,|D|;

将x

其中x

式(9)实际是将隐单元激活概率和可见单元激活概率进行了嵌套,即:

利用获得的RBM1模型中可见单元激活概率V

A(x

其中,softmax()函数保证所有权重系数之和为1。函数a(V

a(V

结合用户偏好注意力权重向量A(x

x

利用融合注意力机制的项目决策向量x

此处的DBN的模型训练方法是一种改进的基于注意力机制的DBN模型训练方法,目的是为了更好的利用自适应权重信息抽取用户偏好特征,将注意力集中于重要的特征,更贴切的表达实际应用场景中各项目不同类型的属性决策分量对于用户偏好特征的影响,更加精细的表达用户偏好特征。

步骤4、根据已训练好的融合注意力机制的基于DBN的用户偏好感知模型及其模型参数,建立构建基于用户偏好的分布估计概率模型P(x):

P(x)=[P(ψ

其中(ψ

首先根据优势项目群体D计算基于用户偏好的概率分布模型p(x):

p(x)为Φ维向量,其第n个元素p(ψ

ε为预设的下界阈值,本实施例中ε=0.1,即对于根据式(18)计算出的激活概率小于0.1的决策分量,将其激活概率值设为0.1;该约束考虑了决策分量激活概率较小时,以一定概率值随机采样该决策分量,以增强生成种群的多样性,防止进化优化算法过早收敛而错失最优解。

步骤5、设定种群大小N,利用基于用户偏好的分布估计概率模型P(x),采用分布估计算法(Estimation of Distribution Algorithms,EDA)生成N个新个体,每个个体为一个项目;第v个新个体的类别标签向量

(5.1)令v=1;

(5.2)生成[0,1]之间的随机数z;如果z≤P(ψ

(5.3)令v加一,重复步骤(5.2),直至v>N;

步骤6、在搜索空间中选择与N个新个体类别标签向量

步骤7、计算待推荐项目集合S

本发明中,采用基于能量函数来计算项目的适应值,对待推荐项目集合S

其中,

其中a

步骤8、选择S

由于多源异构用户生成内容的动态演化特性和用户兴趣偏好的不确定性,在个性化进化搜索过程的早期阶段,优势项目群体D中包含的用户偏好信息不够充足,因而基于此训练的用户偏好感知模型抽取的用户偏好特征较粗略。随着用户交互式搜索过程的推进和用户行为动态演变,根据当前用户最近的评价数据,更新优势项目群体D,再次训练融合注意力机制的用户偏好感知模型,动态更新提取的用户偏好特征,及时跟踪用户偏好变化;同时,更新基于用户偏好的分布估计概率模型P(x),有效引导个性化进化搜索的前进方向,帮助用户尽快搜寻到用户满意解,顺利完成复杂环境下个性化搜索任务。

本实施例还公开了实现上述个性化搜索方法的融合注意力机制的个性化搜索系统,如图3所示,包括:

用户生成内容获取模块1,用于收集并获取用户u生成内容,所述用户生成内容包括用户u已评价的所有项目、对每个项目的评分和文本评论、每个项目的图像、其他用户对用户u所做评价的有用性评价得分;将文本评论进行向量化,项目图像进行特征提取,获取特征向量;

优势项目群体构建模块2,用于将用户评分大于预设评分阈值且信任度大于预设信任度阈值的项目组成含用户偏好的优势项目群体D;

用户偏好感知模型构建与训练模块3,用于根据步骤3构建并训练融合注意力机制的用户偏好感知模型;所述模型基于深度置信网络,由三层受限玻尔兹曼机组成,其中第一层受限玻尔兹曼机的可见层包括第一组可见单元v

基于用户偏好的分布估计概率模型构建模块4,用于根据已训练好的融合注意力机制的基于深度置信网络的用户偏好感知模型及其模型参数,建立构建基于用户偏好的分布估计概率模型P(x):

P(x)=[P(ψ

其中(ψ

种群生成模块5,用于利用基于用户偏好的分布估计概率模型P(x),采用分布估计算法生成N个新个体,每个个体为一个项目,并设置每个新个体的类别标签向量,N为预设的种群大小;

待推荐项目集合构建模块6,用于在搜索空间中选择与N个新个体类别标签向量

适应值计算模块7,用于根据步骤7计算待推荐项目集合S

搜索结果选择模块8,用于选择S

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号