法律状态公告日
法律状态信息
法律状态
2020-07-14
授权
授权
2017-07-25
实质审查的生效 IPC(主分类):G06F17/30 申请日:20160726
实质审查的生效
2016-12-21
公开
公开
技术领域
本发明涉及推荐技术领域,具体地,涉及一种基于随机游走模型的零引用文章推荐方法及系统。
背景技术
科研活动是提高社会生产力和综合国力的战略支撑。世界各国都非常重视对于科研活动的投入。我国已经将科技研发摆在国家发展全局的核心位置,国家财政对科研的支出稳步增加。2012年,中国的研究与试验发展投入经费(包括工业界和学术界)已经超过万亿,为10298.4亿元,达到中等发达国家水平。
科研活动最直接的产出结果之一是学术论文。据统计,从2004年至2014年,我国科研人员在国际上共发表科技论文136.98万篇,位居世界第二。论文共被引用1037.01万次,位居世界第四。科研实践表明,学术论文是科研人员开展科研活动或继续进行深入研究的非常重要的信息资源。然而,面对信息化时代浩如烟海的文献资料,如何快速而准确地检索到自己所需要的学术资源,对于科研人员来说确实是一项非常重要而且具有挑战性的工作。科学文献的有效排序有助于研究人员寻找高质量的论文,并且发现有潜在前景的研究方向。与此同时,论文排序在学术奖励系统中上也起着重要的作用。
传统的方法往往使用引用数作为度量的标准。然而,此标准过于单一化,将每个引用的重要性平等看待,忽略了优质引用与普通引用之间的差异性。许多研究者将论文引用网络看做与网页链接系统相似,借用PageRank和HITS算法给出每篇论文的分数以用来排序。然而在生活中,动态的引文网络不同于日常的计算机网络,因为新发表的论文只能够引用在其之前发表的论文,而之前发表的论文无法引用后来发表的论文。因为这个引文网络天生具有的不同特点,使得较早发表的论文在引用方面将更加有优势,这也将对普通算法的准确性产生巨大的影响。
人们已经作出了许多努力来解决这个问题,但是更多的关注于文本分析,考察整个引用网络,新发表的论文往往没有被其他论文引用过,这导致新论文在现有算 法中的得分偏低。但是,新论文所代表的方向一般较之前的论文更加前沿,对研究者来说也更加值得关注。所以一个全新的排序算法,对于科研人员获取所需资源、及时掌握学科发展动态、提高自身科研能力,进而增强国家的科研实力,都具有相当重要的意义。这在大数据时代尤为重要,不仅意味着更加便于找到前沿方向,也意味着效率的大幅提升。从2000年开始,有关论文排序和推荐系统的论文数量呈逐年上升的趋势。据不完全统计,仅2013年的相关论文数量就达到了30余篇。但是,在面对新发表论文的排序研究仍然处于初始阶段。每年数以万计的新论文发表,这个领域缺乏准确的排序算法使得研究者们无法迅速从海量的数据中找到符合自己需要的信息。这也催使我们寻找一种全新的算法,对这些新发表的论文进行有效的排序,以此来预测在未来的五到十年内,何种论文将更有可能成为未来的热点与前沿方向。基于此我们发明了ZeroRank算法。将作者,会议,机构作为评估的指标,经过对过去十余年的数据进行分析检测,最终实现了对论文热点的有效预测,极大的弥补了现有算法在对新发表论文评估方面的不足。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于随机游走模型的零引用文章推荐方法及系统。
根据本发明提供的基于随机游走模型的零引用文章推荐方法,包括如下步骤:
步骤1:构建学术网络模型,通过随机游走法获得每篇论文的第一作者、会议或期刊、机构、发表时间所对应的特征值;
步骤2:建立排序模型,并选取经步骤1处理后的论文数据构建训练集;
步骤3:通过弱分类器对训练集进行排序,所述弱分类器是指仅考虑单个特征值进行排序的分类器;
步骤4:判断弱分类器的排序结果是否与训练集的真实排序结果相匹配,
若不匹配,则根据弱分类器的排序结果和真实排序结果的差异调整排序模型中与该弱分类器所对应特征值的权重,并调整训练集中各个片段的权重值后,返回执行步骤3;
若匹配,则判断是否已经对所有特征值对应的弱分类器进行排序,若否,则改变弱分类器所考虑的特征值种类,返回执行步骤3;若是,则得到最优排序模型;
步骤5:通过最优排序模型推荐用户所需零引用文献。
优选地,所述步骤1包括:
步骤1.1:使用微软提供的学术图谱数据资源获取自1800年至今发表的所有论文资源;
步骤1.2:通过对论文关键信息提取,建立包含四类点集以及四类边集的学术网络模型;其中的论文关键信息是包括:论文标题、作者、论文收录期刊或收录的会议、论文发表机构、论文发表年份;
步骤1.3:选择论文所属领域,以某一年的论文作为零引用论文集合,以设定时间段内的论文作为训练集,通过随机游走法分析学术网络模型,得到论文的第一作者、会议或期刊、机构、发表时间所对应的特征值评分以及该论文的评分。
优选地,所述步骤1.2包括:
步骤1.2.1:建立学术网络模型,用G来表示该学术网络:
G=(P∪A∪V∪F,EPP∪EPA∪EPV∪EPF)
边(pv,pu)∈EPP表示论文v引用一次论文u;
边(pv,au)∈EPA表示论文v的第一作者是u;
边(pv,vu)∈EPV表示论文v被发表在会议或期刊u上;
边(pv,fu)∈EPF表示论文v的来自机构u;
其中:P,A,V,F分别表示论文、作者、会议及期刊、机构所构成的四类点集,pv表示论文v,pu表示论文u,au表示作者u,vu表示会议及期刊u,fu表示机构u,EPP、EPA、EPV、EPF分别表示论文间、论文与作者、论文与会议及期刊、论文与机构的连线;
步骤1.2.2:建立学术网络模型中的论文、时间对应关系:
学术网络G中论文发表年份表示为t0<t1<…<tcrt,其中t0表示网络中最早发表的论文的年份1800年,tcrt表示当前年份;
步骤1.2.3:建立零引用论文数据集Z:
Z={pz∈P|t(pz)=tcrt}
式中:pz表示在集合Z中的论文;t(pz)表示论文的发表年份。
优选地,所述步骤1.3包括:
步骤1.3.1:设定参数:ω1,ω2,ω3,ω4,ω5,ρ,tcrt,其中,参数ω1表示其余论文对得分>2表示作者对论文得分的贡献权重,ω3表示收录该论文的会议及期刊对该论文得分的贡献权重,ω4表示发表该论文的机构对论文得分的贡献权重,ω5表示论文发表年份对论文得分的贡献权重,ρ表示论文发表时间的重要性参数,tcrt表示当前年份;
步骤1.3.2:初始化论文分值,计算公式如下:
式中:pi表示任意一篇论文,N表示领域数,i表示第i篇文章,i取值范围为0~N;
步骤1.3.3:通过论文分值分别计算作者、会议或期刊、机构的得分,计算公式如下:
式中:ai表示作者i得分,vi表示会议及期刊i得分,fi表示机构i得分,Ai表示作者i,pj表示论文j,AVG(·)为平均得分计算函数;
步骤1.3.4:计算论文的得分,计算公式如下:
>
式中:pi'表示任意一篇论文i,pj表示被论文i引用的论文j,aj表示论文i的作者得分,vj表示论文i的收录期刊或会议得分,fj表示论文i的发表机构得分,ti表示论文i的发表年份,ZA,ZV,ZF,ZT为归一化变量,ρ为时间衰减因子。
优选地,所述步骤2包括:
步骤2.1:选定t为从t0到tcrt-1时刻的各个时间节点,将t时刻已经发生的论文引用关系构建成t片段,全部共tcrt-t0个片段构建成零引用论文集;
步骤2.2:针对步骤2.1构建的零引用论文集得到包含tcrt-t0个片段数据特征值的训练集。
优选地,步骤1中采用并行化方法执行随机游走法,包括如下步骤:
步骤A1:基于相邻论文的特征值分别更新后继论文的第一作者、会议或期刊、机构的特征值;
步骤A2:判断由第一作者、会议或期刊、机构信息构成的论文引用关系网络中的所有论文节点的特征值是否均被更新且更新后的特征值均收敛,若否,则将后继论文作为相邻论文,返回执行步骤A1;若是,则进入步骤2继续执行。
根据本发明提供的基于随机游走模型的零引用文章推荐系统,包括:
学术网络模型建立模块:用于构建学术网络模型,并通过随机游走法获得每篇论文的第一作者、会议或期刊、机构、发表时间所对应的特征值;
训练集构建模块:建立排序模型,并选取经学术网络模型建立模块处理后的论文数据构建训练集;
弱分类器排序模块:通过弱分类器对训练集进行排序,所述弱分类器是指仅考虑单个特征值进行排序的分类器;
排序模型构建模块:判断弱分类器的排序结果是否与训练集的真实排序结果相匹配,得到最优排序模型。
优选地,所述学术网络模型建立模块包括:
检索模块:用于通过微软提供的学术图谱数据资源获取自1800年至今发表的所有论文资源;
模型建立模块:通过对论文关键信息提取,建立包含四类点集以及四类边集的学术网络模型;其中的论文关键信息是包括:论文标题、作者、论文收录期刊或收录的会议、论文发表机构、论文发表年份;
模型分析模块:选择论文所属领域,以某一年的论文作为零引用论文集合,以设定时间段内的论文作为训练集,通过随机游走法分析学术网络模型,得到论文的第一作者、会议或期刊、机构、发表时间所对应的特征值评分以及该论文的评分。
与现有技术相比,本发明具有如下的有益效果:
1、本发明基于现有数据迭代处理构建算法中的基本参数,根据算法模型的表现实现自动训练进化,在面对大数据情况下实现算法的并行处理,使用了全新的论文排序思想,从而使得新发表的论文得到更加有效地推荐,满足广大科研工作者的检索需求。
2、本发明有效解决了零引用文章排序问题,通过结合随机游走模型及自适应算法,分析传统排序算法没有考虑到的信息,尤其适用于新发表的论文的未来影响力及重要程度的分析,得到其优先排序结果。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明提供的基于随机游走模型的零引用文章推荐方法的流程图;
图2为导出时间衰减因子的数据信息示意图;
图3为学术网络模型示意图;
图4为训练集的选取示意图;
图5为并行算法的运行时间示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
根据本发明提供的基于随机游走模型的零引用文章推荐方法,包括如下步骤:
步骤S1:构建学术网络模型,并采用随机游走的方法,求取撰写每篇论文的第一作者,接纳该篇论文的会议或期刊以及发表该篇论文的机构这三个特征值的评分及论文评分;现对实施步骤中涉及使用的符号做说明,说明情况见表1。
表1.符号定义说明
由于互联网上的论文资源分布十分分散,并且每年的数据量更新都十分巨大,所以对于学术网络模型的构建主要分为两个步骤,由步骤S1.1和步骤S1.2组成,包括数据的获取与整合;此后在对该模型的分析主要采用了随机游走的办法,此算法的具体展开由步骤S1.3完成。以下是步骤一所涉及的详细步骤:
步骤S1.1:使用微软提供的学术图谱数据资源,获取自1800年至今发表的所有论文资源,
步骤S1.2:采用优化的文本分析工具,通过对论文关键信息的提取,建立包含四类点集以及四类边集的学术网络模型。(模型见附图3)
步骤A1:建立学术网络模型,用G来表示该学术网络:
G=(P∪A∪V∪F,EPP∪EPA∪EPV∪EPF)
边(pv,pu)∈EPP表示论文v引用一次论文u;
边(pv,au)∈EPA表示论文v的第一作者是u;
边(pv,vu)∈EPV表示论文v被发表在会议或期刊u上;
边(pv,fu)∈EPF表示论文v的来自机构u。
其中:P,A,V,F分别表示论文、作者、会议及期刊、机构所构成的四类点集,pv表示论文v,pu表示论文u,au表示作者u,vu表示会议及期刊u,fu表示机构u,EPP、EPA、EPV、EPF分别表示论文间、论文与作者、论文与会议及期刊、论文与机构的连线。
步骤A2:建立学术网络模型中的论文、时间对应关系:
学术网络G中论文发表年份表示为t0<t1<…<tcrt,其中t0表示网络中最早发表的论文的年份1800年,tcrt表示当前年份。
步骤A3:建立零引用论文数据集Z:
Z={pz∈P|t(pz)=tcrt}
式中:pz表示在集合Z中的论文;t(pz)表示论文的发表年份;tcrt表示当前年份。
步骤S1.3:在各领域下,以2011年的论文作为零引用论文集合,通过特征值评分及论文评分。由于论文、作者、会议及期刊、机构的评分是互相关联的,所以我们设计 了优化随机游走方法进行特征值提取。
特征值评分及论文评分的步骤如下:
步骤B1:设定参数:ω1,ω2,ω3,ω4,ω5,ρ,tcrt,其中,参数ω1表示其余论文对得分的贡献权重,ω2表示作者对论文得分的贡献权重,ω3表示收录该论文的会议及期刊对该论文得分的贡献权重,ω4表示发表该论文的机构对论文得分的贡献权重,ω5表示论文发表年份对论文得分的贡献权重,ρ表示论文发表时间的重要性参数,tcrt表示当前年份。
步骤B2:初始化论文分值,计算公式如下:
式中:pi表示任意一篇论文,N表示领域内论文数,i表示第i篇论文,取值范围为0-N;
步骤B3:通过论文分值分别计算作者、会议或期刊、机构的得分,计算公式如下:
式中:ai表示作者i得分,vi表示会议及期刊i得分,fi表示机构i得分,Ai表示作者i,pj表示论文j,AVG(·)为平均得分计算函数;
步骤B4:计算论文的得分,计算公式如下:
式中:pi'表示任意一篇论文i,pj表示被论文i引用的论文j,aj表示论文i的作者得分,vj表示论文i的收录期刊或会议得分,fj表示论文i的发表机构得分,ti表示论文i的发表年份,ZA,ZV,ZF,ZT为归一化变量,ρ为时间衰减因子。
衰减因子ρ的计算:
选取计算机科学领域的论文,共8884763篇。
根据每篇论文发表后的年份以及至该年份为止论文的引用次数的平均值,作出被引 用数-时间曲线,如附图2所示。忽略前两个点,使用指数函数拟合该曲线得到最佳的结果:
ce-0.124t
因此,采用ρ=-0.124作为时间衰减因子。
对信息不完全点的处理
由于在数据集中,作者、会议及期刊、机构的信息不总是完整的,所以为了解决这个问题,采用了虚拟节点的办法,譬如如果论文u没有作者信息,则假设一位虚拟作者,且假设该作者仅发表了这一篇论文u。
平均得分函数的具体实施过程:
参考Page Rank算法实现的思想,计算论文得分
建立图GP=(P,EPP),GA=(P∪A,EPA),GV=(P∪V,EPV),GF=(P∪F,EPF),各自包含了相应的点集和边集;GP表示论文图,GA表示作者图,GV表示期刊及会议图,GF表示机构图;
首先计算作者、会议及期刊、机构的得分,初始论文得分均为
a=AAp{计算作者得分矩阵a}
v=AVp{计算会议或期刊得分矩阵v}
f=AFp{计算机构得分矩阵f}
AA,AV,AF为归一化的邻接矩阵,分别记录了作者与论文,会议及期刊与论文,机构与论文的关系,然后重复计算论文的得分:
步骤B5:设置零引用论文集合(如图4所示),将2011年作为当前年份,隐藏当前年份之后年份的信息,得到零引用论文集合。
步骤B6:特征值提取,将1800年至2010年的论文设定为训练集,并采用优化随机游走方法对训练集进行特征值提取。
步骤S2:采用排序学习算法,选取数据构建训练集,选取弱分类器并根据单个弱分类器修改现有排序模型,不断重复上述操作直到得到最优模型;
为解决结合步骤S1中不同特征值训练排序模型的问题,传统方法是选择线性回归或K近邻算法,然而此类方法对于上述问题并不适用。因为对两篇来自不同时间段的论文,论文被引用数量受到年份和历史因素的影响,因此对这两篇论文进行排序是不合理的。因此采用排序学习算法,针对来自不同时间段的论文分别进行分析,具体实施步骤如下:
步骤S2.1:选定t为从t0到tcrt-1时刻的各个时间节点,将t时刻已经发生的论文引用关系构建成t片段,全部共tcrt-t0个片段构建成“零引用论文集”,实验中由于t0非关键作用,将t0赋值为tcrt-10;
步骤S2.2:采用步骤S1的特征值提取算法,针对步骤S2.1构建的“零引用论文集”,得到包含tcrt-t0个片段数据特征值的训练集
步骤S2.3,针对步骤S2.2中所产生的训练集S,采用AdaRank算法进行迭代,迭代中每一轮加入新的弱分类器kn,调整新分类器的权重αn,加入当前排序模型得到新模型rn,当分类器表现不再提升时,迭代结束,得到最优排序模型,r表示最初加入的排序模型,由“作者”,“会议”,“机构”三部分特征值的权重组成。
步骤S3:并行随机游走部分,是在步骤S1的随机游走部分的基础上发明并行化解决方案,节省算法运行时间,减少空间需求;
由于步骤S1的随机游走部分有着O(M)的时间复杂度和O(M+N)的空间复杂度,其中M代表学术网络模型中边的数量,N代表训练集中论文的总数量,使得让其在单个机器上运行变得不现实,所以提出了一个随机游走的并行化解决方案。
步骤S3.1:RankAVF主要针对学术网络模型中的作者,会议以及机构三个对于论文评分有主要影响的三个因素进行评分。其过程就是,采取步骤一中的特征值提取算法,在学术网络模型中分别提取作者、会议、机构节点相邻论文节点的特征值,将其取平均计算出其特征值,以计算出的新特征值代替节点上原有的特征值,实现网络的更新,再把计算得的新特征值传递给相邻论文节点,完成一次AVF的迭代。计算公式如下:
式中:AVG代表平均值函数。
步骤S3.2:RankP过程就是基于上一次迭代得到的论文节点特征值以及相邻作者、会议、机构节点的特征值计算新的论文节点的特征值并更新,把计算得的新特征值传递给该论文节点的后继论文节点和相邻的作者、会议、机构节点。计算公式如下:
式中:AVG代表平均值函数,exp代表指数函数。
步骤S3.3:以上两个针对学术网络模型里单个节点的算法,不断并行的迭代,如果所有论文节点计算得的特征值均收敛,算法便停止迭代,即得到对于新发表学术论文的评分。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
机译: 文章推荐系统,文章推荐装置,文章推荐方法,以及记录媒体储存文章推荐计划
机译: 文章推荐装置,文章推荐系统,文章推荐方法和文章推荐程序
机译: 数据学习服务器,空调,控制空调的用户终端,网络系统,从数据学习服务器生成学习模型的方法,从学习服务器数据使用学习模型的方法,提供推荐温度的方法空调,从用户终端控制空调的方法,生成包括空调和模型服务器学习的网络系统的学习模型的方法,用于在网格系统中提供推荐温度的方法以及用于控制空调的方法网格系统中的空调