首页> 中国专利> 基于多类型学术成果画像及混合推荐策略的个性化推荐方法

基于多类型学术成果画像及混合推荐策略的个性化推荐方法

摘要

本发明公开了一种基于多类型学术成果画像及混合推荐策略的个性化推荐方法,包括:为用户和学术成果画像,以及对每种学术成果采用合适的推荐策略;所述为用户和学术成果画像包括用户画像、论文画像、期刊画像、学者画像、学科画像与基金画像;对每种学术成果采用合适的推荐策略包括基于项目协同过滤推荐及基于内容推荐。

著录项

  • 公开/公告号CN112632397A

    专利类型发明专利

  • 公开/公告日2021-04-09

    原文格式PDF

  • 申请/专利权人 同方知网(北京)技术有限公司;

    申请/专利号CN202110010141.1

  • 发明设计人 马红霞;谢炜;

    申请日2021-01-04

  • 分类号G06F16/9535(20190101);G06F16/906(20190101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11340 北京天奇智新知识产权代理有限公司;

  • 代理人陈新胜

  • 地址 100084 北京市海淀区清华园清华大学36区华业大厦B1410、1412、1414室

  • 入库时间 2023-06-19 10:32:14

说明书

技术领域

本发明涉及计算机技术领域,尤其涉及一种基于多类型学术成果画像及混合推荐策略的个性化推荐方法。

背景技术

随着学术研究蓬勃发展,学术成果呈大幅增长趋势。海量的学术成果资源给用户带来困扰,他们无法从大量的资源中获得自己真正需要的资源,使得学术资源的使用率降低。并且随着信息的多样化和个性化,用户对学术资源的需求也逐渐多样化和个性化。在此情形下,根据用户的信息和个人偏好建立用户模型,并采用推荐算法为用户推荐学术信息等。另外,当前学术成果资源的个性化推荐的研究对象比较单一。但实际上学术资源比较丰富,除了论文外,还有期刊、会议、作者、机构和基金等。针对用户的兴趣为用户提供丰富的学术成果资源,会给用户带来更好的服务体验。画像作为用户与学术成果的桥梁,为多类型的学术成果进行画像,可以为用户精准的匹配感兴趣的学术资源。

作为推荐系统的核心模块,推荐算法比较多,各种推荐算法都各有利弊。例如,基于内容方法所以会出现新用户的冷启动问题。由于该方法是将推荐对象的内容特征和用户的兴趣匹配获取推荐结果,所以为用户推荐的对象仅仅代表了用户之前的兴趣,并没有发现用户新的兴趣。经典的协同过滤推荐算法由于新用户得不到他们的兴趣偏好而无法获得推荐,新的推荐项目由于没有用户评价它就得不到推荐,这就是协同过滤推荐的冷启动问题。

本发明正是解决以上问题,从为用户和学术成果画像,到针对每种学术成果采用合适的推荐策略,形成多种学术成果个性化推荐服务体系。

发明内容

为了弥补各个推荐算法的不足和学术资源单一问题,针对用户和学术成果数据的特点对各推荐算法进行调整优化,并采用混合推荐方法为用户进行多种学术成果推荐。

本发明的目的通过以下的技术方案来实现:

基于多类型学术成果画像及混合推荐策略的个性化推荐方法,包括:

为用户和学术成果画像,以及对每种学术成果采用合适的推荐策略;

所述为用户和学术成果画像包括用户画像、论文画像、期刊画像、学者画像、学科画像与基金画像;所述用户画像,根据用户行为属性信息抽象出的一个标签化的用户模型;具体包括:获取目标用户的最近下载记录和检索记录,然后根据一些规则提取用户关键词,基于词向量模型获取用户关键词的相关词作为用户动态兴趣标签;所述论文画像,获取论文的向量表示后,对论文进行聚合,取类中心文件名,中心文件名的关键词作为该类论文的标签,即为论文进行画像;所述期刊画像是指对作者发文量、作者跨刊发文量、作者论文被引频次、期刊论文被引频次指标分别进行期刊画像;学者画像,是提取学者各维度的属性信息进行信息挖掘和分析应用;

对每种学术成果采用合适的推荐策略包括基于项目协同过滤推荐及基于内容推荐。

与现有技术相比,本发明的一个或多个实施例可以具有如下优点:

(1)多种推荐策略进行组合可以避免用户冷启动和物品冷启动。例如本发明中采用的基于项目协同过滤推荐主要依赖大量用户行为历史记录,导致比较新的项目很难被推荐,而基于内容推荐可以弥补新项目不能被推荐的缺点。当新用户无任何历史记录时,可以为其推荐全网热门资源,避免用户冷启动导致无推荐服务。

(2)丰富了画像的对象。用户画像是根据用户社会属性、生活习惯和消费行为等信息/数据而抽象出的一个标签化的用户模型。构建用户画像的核心工作即是给用户贴“标签”。本发明除了为用户画像外,还为多种学术成果进行画像,可以学术成果进行精确的刻画和描述。基于学术成果画像和用户画像,可以搭建用户与学术成果之间的桥梁,为其进行精准匹配。学术成果画像可以为上层应用提供支撑,除了可以用于个性化推荐外,还可以用于个性化检索、个性化导航和个性化咨询等。

(3)丰富了推荐内容。针对现有学术方面的推荐内容单一问题,本发明除了常见的文献推荐,还有期刊、会议、基金、学科、其他读者、检索词推荐等,尤其检索词推荐丰富了推荐的词语、推荐相关新词汇、改进组合词和短语的效果、提升词的准确性,可以用来辅助用户搜索。丰富了用户的个性化推荐项目,可以提高用户体验,增加用户的互动性。

附图说明

图1是基于多类型学术成果画像及混合推荐策略的个性化推荐方法流程图;

图2是用户画像的流程图;

图3是以xxx年到xxx年7年农业经济管理学科热点发展趋势图;

图4是基于论文协同过滤推荐原理图;

图5是基于论文协同过滤推荐流程图;

图6是基于内容推荐原理图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。

如图1所示,为基于多类型学术成果画像及混合推荐策略的个性化推荐方法,包括:为用户和学术成果画像,以及对每种学术成果采用合适的推荐策略;

所述为用户和学术成果画像包括用户画像、论文画像、期刊画像、学者画像、学科画像与基金画像;所述用户画像,根据用户行为属性信息抽象出的一个标签化的用户模型;具体包括:获取目标用户的最近下载记录和检索记录,然后根据一些规则提取用户关键词,基于词向量模型获取用户关键词的相关词作为用户动态兴趣标签;所述论文画像,获取论文的向量表示后,对论文进行聚合,取类中心文件名,中心文件名的关键词作为该类论文的标签,即为论文进行画像;所述期刊画像是指对作者发文量、作者跨刊发文量、作者论文被引频次、期刊论文被引频次指标分别进行期刊画像;学者画像,是提取学者各维度的属性信息进行信息挖掘和分析应用;

对每种学术成果采用合适的推荐策略包括基于项目协同过滤推荐及基于内容推荐。

为用户画像的具体构建流程包括:

数据准备:提取用户检索、下载和浏览日志,对用户行为日志数据进行清洗、整理、合并处理。我们认为同一用户同一天的兴趣不会发生转移,所以将同一用户同一天的检索词和下载或浏览的论文文件名进行整合。

用户行为建模:用户下载或者浏览的论文是有序的,符合word2vec的应用条件,用来训练词向量模型效果会比较好。根据用户下载或浏览的论文的序列,把论文文件名看作词,采用CBOW方法训练出每个论文文件名对应的向量,该技术可以称为item2vec。利用根据item2vec得到的论文向量可以计算论文之间的相似度值,还可以将内容相关的论文聚合在一起。根据用户词序列训练word2vec模型,可以得到每个词的对应向量和相关词集合。

用户动态兴趣标签构建:用户画像的核心工作是为用户“贴标签”,构建学术用户兴趣标签同样是知网学术用户画像的核心部分。通过用户在短时间内的下载、浏览和检索行为构建兴趣标签。动态兴趣更新周期比长期兴趣更短,兴趣更集中,能够比较及时地反应用户兴趣的变化。下面是提取用户关键词的规则与步骤,

第一步:分别取目标用户的top10的检索历史和top3的下载历史;

第二步:分别记录最近一条下载记录和检索记录的操作时间;

第三步:遍历下载记录,判断距离最近下载的时间差是否小于阈值(1小时),保留满足条件的记录;遍历检索记录,判断距离最近检索的时间差是否小于阈值(1小时),保留满足条件的记录;

第四步:根据最近一条下载记录和检索记录的操作时间的差与阈值(1小时)的关系分情况处理并动态设置不同行为的影响因子;

第五步:将关键词和检索词存入到哈希map中并排序,取topN作为用户的近期动态兴趣标签。

论文画像

根据用户行为训练词向量模型,得到论文的向量表示。获取论文的向量表示后,对论文进行聚合。论文要划分为多少类,并没有确定的值,所以采用无监督的聚类算法对论文进行聚合。但是由于样本集过大,样本在空间分布比较均匀,直接为所有样本进行聚类,效果不会太好。为论文划分类别的步骤如下:

第一步:从大样本里随机选取几个小样本,采用KMeans、DBSCAN等聚类算法对小样本进行聚类;

第二步:基于聚合出来的类别对剩下的论文样本进行分类;

第三步:对于未分类出来的样本继续执行第一步和第二步,直到将所有的样本划分好类别。

论文等级主要用来衡量论文的质量、被推荐的价值。论文等级评判考虑论文是否是优秀论文、论文所属期刊等级、论文作者学术分量、被引用的情况以及被下载的情况等因素。

论文新颖度针对当下信息数据量巨大、冗余信息繁杂的情况,借助文本数据新颖度计算等相关手段计算论文文本新颖性。论文新颖度计算方法如下,

第一步:提取目标论文的中心句,中心句由标题和包含前3个关键词的摘要句子组成。如果文献没有关键词则提取摘要的前3句。

第二步:基于BERT模型,获得论文每个中心句的向量表示然后叠加。利用腾讯开源的bert-as-service直接获取BERT的预训练模型,可以在不加载庞大BERT模型的前提下使用BERT做句子向量表达。

第三步:同样的方法获取与目标论文同领域的历史论文的向量表示。

第四步:利用simase-lstm网络计算两个向量之间的相似。该网络包括两部分,第一部分是由两个平行的双向LSTM构成的特征抽取部分,第二部分是由单层或单层全连接层构成的分类/拟合层。统计相似度值超过阈值0.75的历史论文数N。

第五步:在文本信息量计算中,文本是由句子组成,句子又是有词条组成,那意味着越是在历史语料集中鲜有出现的词条越应该携带较高的信息量,因此本发明将信息熵作为衡量一篇文本新颖度的一个可信指标。计算公式如下,

其中,论文T,包含λ个词条,n表示不同词条个数,p

第六步:目标论文新颖度值计算公式如下,

Nonv=1(N+1)*E

论文主题标签刻画了论文的主题特征,提取论文主题标签尝试的方法如下,

因为论文按照专题代码、中图分类号或者行业代码已经有了分类,这个分类比较准确,但是不够精细,所以我们将论文按大类分开后再聚类,其中选取各大类中优秀论文,其选取每篇论文的前3个关键词。词向量模型训练引入高权重组合的二元词和code。得到论文的向量表示后进行聚类。取类簇中心论文的关键词作为论文标签。

期刊画像

期刊画像流程分为数据层、期刊建模层和期刊画像层。

期刊画像数据层采集的数据来源主要是数据库。

期刊画像建模层主要是挖掘期刊各种属性特征。包括基本属性、期刊类别、期刊等级和期刊学术标签。

(1)期刊基本属性

基于期刊结构特征分解可以获取期刊的基本属性,期刊基本属性包括中文名称、拼音刊名、主管单位、主办单位、国际刊号、国内刊号、邮发代号、语种、刊出日期等。基于统计方法可以挖掘期刊的总发文量、总被引量、H指数等信息。

(2)期刊类别

可以通过机器学习中的分类算法或者聚类算法对期刊进行分类。分类算法采用朴素贝叶斯,朴素贝叶斯分类器是一个基于贝叶斯定理的比较简单的概率分类器,其中naive(朴素)是指的对于模型中各个特征有强独立性的假设,并未将特征间的相关性纳入考虑中。对于新投稿的文献可以准确地将其划分到对应的刊物中。朴素贝叶斯分类器工作流程如图2所示。

(3)期刊等级

目前期刊等级分为核心期刊和非核心期刊。核心期刊,是指在某一学科领域(或若干领域)中最能反映该学科的学术水平,信息量大,利用率高,受到普遍重视的权威性期刊。国内对核心期刊的测定,主要运用文献计量学的方法,以及通过专家咨询等途径进行。核心期刊与非核心期刊不是固定不变的。非核心期刊经过努力,可以跻身于核心期刊之列;核心期刊也有可能被淘汰。

期刊等级的计算是综合考虑期刊包含文献的新颖度、文献等级、投刊作者影响度等,生成线性模型对期刊等级进行计算。期刊等级计算公式如下,

JLev=w

其中,Nov表示该刊最新一期包含文献的平均新颖度值,Lev表示该刊最新一期包含文献的平均等级,文献等级分为1,2两个等级,做归一化处理。Aul表示该刊最新一期包含作者的平均影响度(H指数),做归一化处理。

(4)期刊学术标签

期刊介绍会说明目标期刊涉足的研究领域,但是领域较宽泛,以《软件学报》为例,《软件学报》设有理论计算机科学、算法设计与分析、系统软件与软件工程、模式识别与人工智能、数据库设计、计算机网络与信息安全、计算机图形学与辅助设计、多媒体技术等栏目。但是每个栏目范围较大,对于用户来说,他的研究方向可能只是属于某个栏目下的一个方向,所以我们希望细化期刊的学术主题,帮助用户快速判断是否是自己感兴趣的期刊和掌握该研究方向的学术动态。可以将栏目作为一级标签,在一级标签的基础上构建二级标签,二级标签是一级标签的细化,并根据包含二级标签主题的文献数及文献登刊时间为每个二级标签设置不同的权重。

期刊画像的画像层主要是根据建模层挖掘的期刊属性对期刊从基本属性、期刊等级、期刊类别、所涉学科、期刊学术标签、期刊学术影响力等方面进行刻画。在获取期刊基本属性、类别属性、期刊标签等基础上对期刊进行深刻、形象、精确的描述,帮助用户更好的了解期刊,有助于用户高效快速的找到自己感兴趣的期刊。

学者画像

作者画像的构建研究的数据来源主要是作者的期刊论文、会议论文、专著、专利、项目等学术成果。作者画像过程分为:数据采集、行为建模和画像构建三部分。

数据采集阶段主要是采集作者发表的学术成果,将结果存储在数据库中。

行为建模阶段主要是基于机器学习、深度学习、数据挖掘等方法对作者学术成果内容进行分析和挖掘。其中,作者基本属性信息来自作者的注册信息以及KBase数据库中作者信息表。作者标签的数据来源是作者发表的论文数据,所以获取该作者发表的论文,然后提取每篇论文的前三个中文关键词或者机标关键词,对于论文的关键词分布情况选择不同的标签提取方式,如果关键词比较分散,则采用聚类算法进行聚类然后取类簇N个中心词作为标签词。如果关键词比较集中,则直接根据词频取N个词作为标签词,并基于word2vec为选取的标签词进行扩展。

获取学者关键词时考虑发表论文时间,尽可能取学者近3年发表的论文。

提取兴趣词时可以考虑二元词,有时一个词不能很好的表达用户的兴趣。

作者学术影响力的评价指标是其发表论文的被引数,通过引入论文引用量预测预估其发表论文的未来引用量,进而对学者未来影响力进行预测。

作者画像阶段主要是通过作者的基本属性和挖掘的兴趣标签等对作者进行刻画。

学科画像

学科画像流程分为数据层、内容建模层和学科画像层。

学科画像数据层主要是采集一般选择国内外权威文献数据库。

学科不同于用户,其主要通过内容特征反应主题,所以学科画像的主旨是主题标签的提取。

学科标签提取方法:对学科文献进行分词、去停用词等预处理,将预处理之后的数据作为word2vec模型训练的语料,基于词向量模型对学科词进行扩展,这样得到的学科标签词在内容上更加丰富,对学科的描述更加精确。此外,由于学科范围较大,用户实际研究可能只是学科的某个研究方向,例如某用户研究方向是人工智能,该研究方向仅仅是计算机科学与技术学科下的一个方向,所以还可以基于词向量模型生成学科文献向量,采用聚类算法为学科下的文献进行聚类,得到学科的精细划分,即子学科。这样便于帮助用户快速找到自己感兴趣方向。

学科热点是一段时间内,某一学科领域共同探讨的话题或专题。研究热点的发掘一直是图书情报学和科学学界研究的重要内容之一。通过两两统计关键词或主题词在同篇文献中出现的频次形成关键词或主题词的共词矩阵来分析或研究学科领域的热点。其中文献主题词基于LDA模型获取,LDA主题模型适宜于大量文本集的处理,所以选用LDA进行学科主题模型建模。LDA主题模型实际上就是非监督的机器学习,而且它的层次结构比较清晰,通过相应计算之后即可得到主题跟词语之间的概率分布。通过标签主题建模不仅可以深度挖掘学科的主题内容,而且可以在一定程度上消除标签语义模糊的问题。

学科热点热度随时间变化计算过程描述如下:

统计某学科某一年Y频次最高的M个关键词作为该年的研究热点;然后分别统计这M个关键词在接下来n年中出现的频次,计算其与Y年频次的比值;再通过离差标准化方法对比值进行修正;求出每个关键词的各标准化值的算术平均值;最后,计算出总的算术平均值,用1减去这个值便是“热点漂移程度”,表示该学科“Y年研究热点n年漂移程度”,即该年研究热点随着时间的推移而变化的程度。图3是以xxx年到xxx年农业经济管理学科热点发展趋势图。

基金画像

基金画像流程为基金数据采集、基金建模和基金画像三部分。

基金数据来源是知网基金数据库,知网将基金资源统一整合存储在数据库中,便于后期的研究。

基金建模阶段主要采用科学统计法、机器学习算法、深度学习算法对基金进行建模。其中,基金的基本信息可以直接通过数据库表的操作完成。

基金的成果内容是文本信息,是模型训练的数据来源。基于LDA主题模型提取基金类别下成果主题作为基金的主题标签。基于word2vec模型可以对基金主题标签进行扩展。统计指定时间段的基金主题,可以准备把握该基金在某一时间段的研究方向,进而可以获取基金研究方法发展趋势。基于K-Means聚类算法为基金下文献进行聚类,可以对基金进行精细的划分。K-Means算法的思想很简单,对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。

学术会议画像与基金画像技术路线类似。

对每种学术成果采用合适的推荐策略包括基于项目协同过滤推荐及基于内容推荐。

基于项目协同过滤推荐

基于项目的协同过滤旨在计算物品和物品之间的共现概率,根据目标用户对某些物品的评分,那么就可以对与用户已评分的物品共现次数较高的物品进行预测,将预测值最高的若干个相似物品推荐给目标用户。原理如图4所示。

基于MR的流程图,实现步骤如下,

第一步:按用户分组,计算所有物品出现的组合列表,得到用户对物品的评分矩阵,用户id作为key,论文文件名、用户操作时间和“用户评分”作为value值,其中,知网用户行为数据里实际是没有用户评分的,原先我们将用户浏览的论文默认打分为1.0,下载的论文默认打分为5.0,可以考虑将用户打分跟用户操作时间建立联系,将打分按照正弦曲线落在一个区间;

第二步:对物品组合列表进行计数,建立物品的同现矩阵。将第一步的数据按照操作时间进行降序排序,并截取指定个数(2000)的记录,最后按照指定窗口(10)生成论文对存入到MongoDB表。离线部分构建论文共现矩阵时引入时间因子,避免新论文在协同过滤中不出现的问题。未引入时间因子之前,影响因子和时间的关系是一条水平线。随后可以调整角度;

第三步:对评分矩阵转型,论文文件名作为key值,用户id:score作为value值;

第四步和第五步:合并矩阵,并计算推荐结果列表;

第六步:结合用户兴趣获取用户未操作过且预测分值较高的论文作为推荐结果存入到MongoDB表中。

由于离线开销太大,所以考虑离线和在线结合,即离线生成论文共现矩阵,并将矩阵存入到MongoDB表,在线实时计算目标用户的推荐结果。

基于内容推荐

基于内容推荐主要考虑物品和物品之间的内容相似度,根据目标用户对某些物品的评分,那么就可以对与目标用户已评分物品内容相似度较高的物品进行预测,将预测值最高的若干个相似物品推荐给目标用户。原理如图5所示。

实现步骤如下,

第一步:取用户最近一条下载记录和一条浏览记录;

第二步:根据下载记录(论文文件名)去专用数据库进行查询,获取论文的作者、篇名、来源和摘要字段,组合查询条件,优先级从高到低一次为作者&篇名、来源代码&篇名和篇名;

第三步:根据浏览记录(论文文件名)去专用数据库进行查询,获取论文的作者、篇名、来源和关键词字段,取top3关键词并进行两两搭配,设置不同的权重;

第四步:根据前两步的查询条件去日更新表里进行匹配,获取一批候选集,根据发表时间排序取topN作为结果返回。

基于改进版的协同过滤推荐算法和基于内容推荐算法的混合推荐获取候选集,然后基于论文新颖度和发表时间进行排序,取topN作为推荐结果。

该个性化推荐系统出了提供论文推荐还提供搜索词推荐。目的是帮助用户更加准确地表达自己的检索意图。

根据3年核心期刊语料和近半年用户检索词语料训练词向量模型,基于Word2Vec进行内容相关和用户相关的检索词推荐。基于Word2Vec的检索词推荐较现有的相关搜索推荐在词语准确性、与用户查询意图相关性、词语概念的多元丰富性等维度上都更具优势。

除了论文和检索词推荐外,还提供学者、学科、期刊、基金等推荐。基于学者、学科、期刊和基金的画像中提取的标签,与用户标签一起训练词向量模型,保证不同类型的学术资源与用户处在相同的向量空间,得到向量表征之后,计算用户与学术资源的相似度量,将相似度高于阈值的学术资源推荐给用户。

此外,将各类学术资源(论文、期刊、基金)按照领域进行划分,值得一提的是本发明用到的论文信息包含专题子栏目代码。步骤如下:

第一步:统计用户行为数据中包含的专题子栏目代码信息,取top5的专题子栏目代码作为用户的感兴趣领域。

第二步:基于论文的专题子栏目代码,统计每个专题子栏目下论文,取top30的论文作为领域下的热门论文存储到数据库中。

第三步:期刊和基金的成果是论文,所以基于论文的专题子栏目代码,统计每个专题子栏目下论文所属的期刊和基金,取top30的期刊和基金作为领域下的热门期刊和基金存储到数据库中。

第四步:根据用户感兴趣领域,去数据库进行匹配,获取同领域下的论文、期刊和基金作为推荐结果。

虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号