首页> 中国专利> 一种基于大数据技术的研究生文献资源推荐方法

一种基于大数据技术的研究生文献资源推荐方法

摘要

本发明公开了一种基于大数据技术的研究生文献资源推荐方法,包括:基于相似度的预推荐方法和基于深度学习的个性化推荐方法;基于相似度的预推荐方法初步衡量用户感兴趣文献,为用户生成推荐表,通过用户反馈收集用户‑项目交互信息;基于深度学习的个性化推荐方法首先生成个性化用户及项目表示,采用图神经网络构建用户‑项目交互关联,利用可学习超图网络建立用户‑用户、项目‑项目全局关联,结合预推荐方法生成标签优化推荐策略。本发明根据研究生研究性学习活动规律,引进个性化推荐策略,通过采用大数据信息技术,实现了以研究生个性化研究性学习需求驱动为中心的精准文献资源推荐。

著录项

  • 公开/公告号CN115630153A

    专利类型发明专利

  • 公开/公告日2023-01-20

    原文格式PDF

  • 申请/专利权人 华南理工大学;

    申请/专利号CN202211409115.7

  • 发明设计人 师娇;许勇;李中行;吴小坤;

    申请日2022-11-11

  • 分类号G06F16/335(2019.01);G06F16/35(2019.01);G06F16/9535(2019.01);

  • 代理机构北京清控智云知识产权代理事务所(特殊普通合伙) 11919;

  • 代理人管士涛

  • 地址 510641 广东省广州市天河区五山路381号

  • 入库时间 2023-06-19 18:24:15

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-02-14

    实质审查的生效 IPC(主分类):G06F16/335 专利申请号:2022114091157 申请日:20221111

    实质审查的生效

  • 2023-01-20

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及个性化文献资源推荐领域,尤其涉及一种基于大数据技术的研究生文献资源推荐方法。

背景技术

随着互联网技术的飞速发展,以网络作为媒介进行在线文献检索和学习已经成为研究人员获取学术信息并及时了解研究进展与前沿的常态化活动。然而学术搜索引擎上海量的文献资源也带来了严重的信息过载和不对称问题,以及学习迷航问题。引入个性化推荐策略正是解决上述问题的有效策略。文献资源个性化推荐的实现依赖对用户,即文献资源使用者的研究人员需求的分析和建模。相较于经验老道的研究人员,研究生群体属于科研新手,其科研活动经验有限,发表的论文数量可能较少甚至没有,根据已有科研活动和研究成果来分析其研究兴趣的传统建模分析模式很难适应研究生群体的实际。研究生的研究课题主要来源于其导师或团队,导师或团队已有的研究基础是研究生开展课题研究的重要依托,在文献检索时除关注研究领域的前沿动态,同时也关注相同或相近课题团队的研究进展。目前尚没有针对研究生群体的文献资源推荐方法。对此,发明人设计了以研究生研究性学习活动规律为依据,依托大数据技术的文献资源个性化推荐方法。

发明内容

本发明实施例提供一种基于大数据技术的研究生文献资源推荐方法,根据不同研究生基本信息和文献阅读规律个性化推荐其感兴趣文献,提高研究生文献检索效率与学习效率。

本发明实施例提供了一种基于大数据技术的研究生文献资源推荐方法,包括:

获取用户感兴趣研究领域信息;

基于相似度的预推荐方法,将用户感兴趣研究领域信息和预设文献类型进行匹配,得到相似度;

将相似度按照由高到低的顺序对文献类型进行排列,得到初步用户文献推荐表;

获取用户反馈信息;

根据用户反馈信息和初步用户文献推荐表,得到用户-项目交互信息;

基于深度学习的个性化推荐方法,根据用户-项目交互信息,将文献资源按照模块进行分别推荐;

所述基于深度学习的个性化推荐方法:搭建自监督深度学习网格,包括:用户/项目个性化表示模块;用户-项目交互表示模块;用户- 用户、项目-项目全局关联模块;自监督增强学习模块以及迭代式更新模块。

本方案中,所述基于相似度的预推荐方法,还包括:

获取用户的表征文本信息;

基于预设向量空间模型(VSM),将用户的表征从文本形式映射到高维向量空间中(用户);

将不同文献类型映射到相同空间中(项目);

将用户-项目两类向量在对应空间进行匹配,得到相似度;

通过判断用户-项目两类向量在该空间的相似度是否大于预设相似度阈值,若是,则将对应文献类型设为对应用户感兴趣的类型文献;若否,则不感兴趣。

本方案中,所述基于相似度的预推荐方法,还包括:

将文献按照相似度从高到低进行排序;

获取用户端对所推荐的文献资源与其现阶段研究需求匹配情况进行的二分类判断信息;

根据所述用户端对所推荐的文献资源与其现阶段研究需求匹配情况进行的二分类判断信息,得到下一次推荐文献资源信息和用户- 项目交互表。

本方案中,所述用户/项目个性化表示模块,具体为:

获取用户信息;

基于融合用户多信息的方式,得到用户个性化表示信息;

将用户信息发送至预设嵌入层,得到用户信息生成嵌入表示信息;

根据注意力网络衡量不同特征对推荐任务的影响权重,并利用全连接网络层融合不同权值特征,得到用户初级表征信息;

根据预设嵌入层为不同文献类型生成嵌入表示,得到项目初级表征信息。

本方案中,所述用户-项目交互表示模块,具体为:

根据预设的图卷积网络的消息传递机制,得到更新用户/项目表示信息;

将项目-交互表信息发送至预设的图卷积网络,得到用户-项目交互图;

通过聚合邻接节点表示学习用户-项目局部交互关系,得到第一对比学习视图。

本方案中,所述用户-用户、项目-项目全局关联模块,具体为:

采用可学习超图结构进行关联学习;

所述可学习超图结构由一组可学习超边组成,不同的用户/项目作为不同节点,每条可学习超边作为信息枢纽,以不同的权重连接所有的用户/项目,从全局的视角中聚集所有用户/项目的信息以更新自身节点的嵌入表示,得到第二对比学习视图;

不同的超边作为不同的通道从多个的语义维度捕获用户-用户、项目-项目之间的复杂连接关系。

本方案中,所述可学习超图网络结构,具体为:

通过低秩分解的方法生成可学习超图参数矩阵;

根据权利要求4所述的用户初级表征与项目初级表征,结合可学习多层感知机网络,生成可学习超图结构。

本方案中,所述自监督增强学习模块,具体为:

采用对比学习方法,将不同视图作为对比学习对象,利用互信息最大化机制优化模型梯度;

将权利要求5所述的第一对比学习视图与权利要求6所述的第二对比学习视图进行对比学习;将不同视图下相同用户/项目作为正例对;将不同视图下不同用户/项目作为负例对,以互信息最大化函数作为优化方程,得到具有辨别性的用户/项目表征。

本方案中,所述自监督增强学习模块,还包括:

将用户数据通过数据增强缓解数据噪声;

将用户-项目交互图进行随机掩码并发送至图卷积网络,得到第三对比学习视图;

将第三对比学习视图与第一对比学习视图进行协同监督。

本方案中,所述迭代式更新模块,具体为:采用迭代式更新策略,对用户-项目交互表以及模型参数进行周期性更新。

本发明通过采用自监督增强学习方法以及可学习超图结构,有效解决了所述文献推荐场景下的数据稀疏、数据噪声以及传统图神经网络过平滑的问题。特别地,对于数据稀疏问题,采用局部-全局特征对比学习策略,允许深度学习模型从局部-全局的角度进行相互协作监督,互相弥补其中的信息缺失。同时,以信息最大化函数作为优化策略,通过构建额外的监督任务指导模型学习更丰富的知识。对于数据噪声问题,采用数据增强策略对用户-项目交互边进行掩码,排除用户-项目交互表中用户不感兴趣的目标文献。对于传统图神经网络过平滑的问题,通过设计可学习超图结构,从全局视角一次性聚合所有用户/项目信息,避免了图神经网络多次聚合带来的节点过平滑问题。

另一方面,本发明通过预推荐策略收集用户-项目交互信息,为后续个性化推荐算法生成可监督标签。传统方法在无监督条件下仅根据研究生所属研究领域等单一信息进行粗略推荐,无法进一步捕获研究生的文献阅读规律。通过设计个性化推荐算法,深入挖掘研究生的文献阅读偏好和阅读兴趣,为其推荐更具价值的文献,减少文献检索时间,提高学习效率。

附图说明

图1示出了本发明一种基于大数据技术的研究生文献资源推荐方法的流程图;

图2示出了本发明提供的一种基于大数据技术的研究生文献资源推荐方法架构图;

图3示出了本发明提供的一种基于深度学习的个性化推荐方法架构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

特别的,一种基于大数据技术的研究生文献资源推荐方法,可视为研究生文献推荐系统。在本发明描述中,按照一般推荐系统的描述惯例,将研究生描述为用户,将文献类型描述为项目。设用户集合 U={u

图1示出了本发明一种基于大数据技术的研究生文献资源推荐方法的流程图。

如图1所示,本发明公开了一种基于大数据技术的研究生文献资源推荐方法,包括:

S102,获取用户感兴趣研究领域信息;

S104,基于相似度的预推荐方法,将用户感兴趣研究领域信息和预设文献类型进行匹配,得到相似度;

S106,将相似度按照由高到低的顺序对文献类型进行排列,得到初步用户文献推荐表;

S108,获取用户反馈信息;

S110,根据用户反馈信息和初步用户文献推荐表,得到用户-项目交互信息;

S112,基于深度学习的个性化推荐方法,根据用户-项目交互信息,将文献资源按照模块进行分别推荐。

需要说明的是,提取用户感兴趣研究领域信息中的关键词,并将所述关键词设为用户“标签”。将和用户感兴趣研究领域信息相似度最高的文献优先排列,按照相似度由高到低的顺序,得到初步用户文献推荐表并反馈至用户端,获取用户对初步用户文献推荐表的反馈信息,比如:对甲文献不满意,对乙文献满意。根据所述反馈信息和初步用户文献推荐表,得到用户-项目交互信息。所述基于深度学习的个性化推荐方法需要搭建自监督深度学习网格,包括:用户/项目个性化表示模块;用户-项目交互表示模块;用户-用户、项目-项目全局关联模块;自监督增强学习模块以及迭代式更新模块。

根据本发明实施例,所述基于相似度的预推荐方法,还包括:

获取用户的表征文本信息;

基于预设向量空间模型(VSM),将用户的表征从文本形式映射到高维向量空间中(用户);

将不同文献类型映射到相同空间中(项目);

将用户-项目两类向量在对应空间进行匹配,得到相似度;

通过判断用户-项目两类向量在该空间的相似度是否大于预设相似度阈值,若是,则将对应文献类型设为对应用户感兴趣的类型文献;若否,则不感兴趣。

需要说明的是,基于相似度的预推荐方法,采用向量空间模型 (VSM)将每用户和项目从文本形式映射到高维向量空间中(用户);类似地,再次采用向量空间模型将不同文献类型映射到相同空间中 (项目);通过判断用户-项目两类向量在该空间的相似度,初步为用户推荐可能感兴趣的类型文献。比如:预设相似度阈值为80,则当用户-项目两类向量在对应空间的相似度大于80时,对应文献类型为该用户可能感兴趣的类型文献。

根据本发明实施例,所述基于相似度的预推荐方法,还包括:

将文献按照相似度从高到低进行排序;

获取用户端对所推荐的文献资源与其现阶段研究需求匹配情况进行的二分类判断信息;

根据所述用户端对所推荐的文献资源与其现阶段研究需求匹配情况进行的二分类判断信息,得到下一次推荐文献资源信息和用户- 项目交互表。

需要说明的是,所述基于相似度的预推荐方法,将文献按照相似度从高到低进行排序,每次为用户推荐n篇最相关文献,n表示大于 0的自然整数,比如n=20。用户可对所推荐文献资源与其现阶段研究需求匹配情况进行二分类判断(满意与否),并在用户判断完成后自动生成下一次推荐。

特别的,所述文献采用所述向量空间模型将文献题目及关键字映射到所述高维向量空间,与项目(文献类型)进行相关度匹配。所述最相关文献,首先从第一相关项目中选取相关度最高的前n篇文献,如果用户对所推荐文献判断为满意,则继续从所述最相关项目中按照相关度选取第n+1-2n篇文献;如果用户判断为不满意,则从第二相关项目中选取相关度最高的前n篇文献进行推荐,依次类推。

通过迭代进行上述操作采集用户-项目交互表,为所述基于深度学习的个性化推荐方法生成标签数据。即如果用户对所推荐文献判断为满意,则令该用户对该项目交互数加1,反之则不操作。

根据本发明实施例,所述用户/项目个性化表示模块,具体为:

获取用户信息;

基于融合用户多信息的方式,得到用户个性化表示信息;

将用户信息发送至预设嵌入层,得到用户信息生成嵌入表示信息;

根据注意力网络衡量不同特征对推荐任务的影响权重,并利用全连接网络层融合不同权值特征,得到用户初级表征信息;

根据预设嵌入层为不同文献类型生成嵌入表示,得到项目初级表征信息。

需要说明的是,所述用户信息包括:用户的注册信息等,比如哪个学院、什么专业等信息。所述用户/项目个性化表示模块,通过融合用户多信息的方式,生成用户个性化表示。采用多个嵌入层为每个用户u

其中

其中Q,K用于计算注意力权重,运算结果通过与V进行矩阵相乘运算,实现对不同信息特征对推荐任务的影响的计算,生成用户初级表征z

其中,Attention表示注意力权重的计算方式,softmax表示非线性激活函数,类似地,采用嵌入层为不同文献类型生成嵌入表示,生成项目初级表征z

根据本发明实施例,所述用户-项目交互表示模块,具体为:

根据预设的图卷积网络的消息传递机制,得到更新用户/项目表示信息;

将项目-交互表信息发送至预设的图卷积网络,得到用户-项目交互图;

通过聚合邻接节点表示学习用户-项目局部交互关系,得到第一对比学习视图。

需要说明的是,所述用户-项目交互表示模块,利用图卷积网络的消息传递机制更新用户/项目表示。所述图卷积网络根据所述用户- 项目交互表生成用户-项目交互图,通过聚合邻接节点表示学习用户- 项目局部交互关系,生成第一对比学习视图;

其中,所述用户-项目交互表记录了用户和项目的交互情况,所述用户-项目交互图表示为

其中,

根据本发明实施例,所述用户-用户、项目-项目全局关联模块,具体为:

采用可学习超图结构进行关联学习;

所述可学习超图结构由一组可学习超边组成,不同的用户/项目作为不同节点,每条可学习超边作为信息枢纽,以不同的权重连接所有的用户/项目,从全局的视角中聚集所有用户/项目的信息以更新自身节点的嵌入表示,得到第二对比学习视图;

不同的超边作为不同的通道从多个的语义维度捕获用户-用户、项目-项目之间的复杂连接关系。

需要说明的是,所述用户-用户、项目-项目全局关联模块,采用可学习超图结构进行关联学习。所述可学习超图结构由一组可学习超边组成,用于全局用户关联和全局项目关联的超边分别表示为

Ψ

其中,

根据本发明实施例,所述可学习超图网络结构,具体为:

通过低秩分解的方法生成可学习超图参数矩阵;

根据权利要求4所述的用户初级表征与项目初级表征,结合可学习多层感知机网络,生成可学习超图结构。

需要说明的是,所述可学习超图网络结构,为了减少神经网络模型的参数量,采用低秩分解的方法生成可学习超图参数矩阵。根据所述的用户初级表征与项目初级表征,结合多层感知机网络,生成可学习超图结构,形式上表示如式(7):

H

其中

MLP(x)=w

其中,w

根据本发明实施例,所述自监督增强学习模块,具体为:

采用对比学习方法,将不同视图作为对比学习对象,利用互信息最大化机制优化模型梯度;

将权利要求5所述的第一对比学习视图与权利要求6所述的第二对比学习视图进行对比学习;将不同视图下相同用户/项目作为正例对;将不同视图下不同用户/项目作为负例对,以互信息最大化函数作为优化方程,得到具有辨别性的用户/项目表征。

需要说明的是,所述自监督增强学习模块,采用对比学习方法,将不同视图作为对比学习对象,利用互信息最大化机制优化模型梯度。特别地,对所述图卷积网络生成的第一对比学习视图g

其中cos(·)表示余弦相似度,用于衡量不同对比学习视图的嵌入的相似性;

根据本发明实施例,所述自监督增强学习模块,还包括:

将用户数据通过数据增强缓解数据噪声;

将用户-项目交互图进行随机掩码并发送至图卷积网络,得到第三对比学习视图;

将第三对比学习视图与第一对比学习视图进行协同监督。

需要说明的是,所述自监督增强学习模块,采用数据增强的方法缓解数据噪声问题。通过对所述用户-项目交互图A进行随机掩码,生成数据增强后的用户-项目交互图

其中,A′

特别的,所述基于深度学习的个性化推荐方法,在获得用户-项目的相关度表示后,根据所述基于相似度的预推荐方法的文献推荐方法进行推荐。

根据本发明实施例,所述迭代式更新模块,具体为:采用迭代式更新策略,对用户-项目交互表以及模型参数进行周期性更新。

需要说明的是所述迭代式更新策略,主要包括1)用户-项目交互表更新:根据研究生对所推荐文献资源与其现阶段研究需求匹配情况的判断结果,周期性更新用户-项目交互表,作为所述图卷积网络用户-项目交互图构建的基础,同时为个性化推荐算法模型提供更多可利用标签。2)模型参数更新;随着时间推移,用户群体发生改变,文献数量逐渐增加,需要更新用户表示以及文献表示。采取预训练- 微调更新原则,在原训练模型参数基础上,进行再次训练,以更新模型参数。

图2示出了本发明提供的一种基于大数据技术的研究生文献资源推荐方法架构图。

如图所示,本发明提供的一种基于大数据技术的研究生文献资源推荐方法包括:基于相似度的预推荐方法和基于深度学习的个性化推荐方法,其中基于相似度的预推荐方法以用户信息以及和用户的互动数据信息为基础,根据相似度确定初步用户文献推荐表。其中基于深度学习的个性化推荐方法包括:用户、项目个性化表示模块;用户- 项目交互表示模块;用户-用户、项目-项目全局关联模块;自监督增强学习模块以及迭代式更新模块。

图3示出了本发明提供的一种基于深度学习的个性化推荐方法架构图。

如图所示,基于深度学习的个性化推荐方法中各模块之间独立显示又紧密相连,其中:用户-项目交互表示模块生成的第一对比学习视图、用户-用户,项目-项目全局关联模块生成的第二对比学习视图和自监督增强学习模块生成的第三对比学些视图通过相互之间对比,将所述三个模块进行关联。

在本发明所提供的实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号