首页> 中国专利> 一种基于PageRank算法的论文排序方法及设备

一种基于PageRank算法的论文排序方法及设备

摘要

本发明公开了一种基于网页排序PageRank算法的论文排序方法及设备,用于根据论文之间的引用关系为论文分配PR值的质量权重,按照论文的重要程度的排列顺序进行排序并显示,从而为检索用户提供有效且高质量的检索结果。该方法包括:获取引文网络中论文之间的引用关系,根据所述引用关系确定论文的链入数和链出数,所述链入数为论文被引用的次数,所述链出数为论文引用的次数;根据被同一论文引用的各论文的链入数与链出数的比值大小,确定所述各论文的质量权重;基于PageRank算法,根据所述质量权重确定论文的PR值,以使收到检索指令时,按所述PR值确定论文的排列顺序并按所述论文的排列顺序显示检索结果。

著录项

  • 公开/公告号CN112732947A

    专利类型发明专利

  • 公开/公告日2021-04-30

    原文格式PDF

  • 申请/专利权人 航天信息股份有限公司;

    申请/专利号CN201911032204.2

  • 发明设计人 刘振宇;王志刚;刘雅婷;王泽皓;

    申请日2019-10-28

  • 分类号G06F16/38(20190101);G06F16/338(20190101);

  • 代理机构11291 北京同达信恒知识产权代理有限公司;

  • 代理人丁睿

  • 地址 100195 北京市海淀区杏石口路甲18号航天信息园

  • 入库时间 2023-06-19 10:48:02

说明书

技术领域

本发明涉及文献检索技术领域,尤其涉及一种基于网页排序PageRank算法的论文排序方法及设备。

背景技术

随着网络信息资源的丰富,数字化文献已经成为学习和日常工作的标配,各个学校都具有网络文献数据库提供查询和下载服务,同时国内外也有许多数字资源库,例如万方拥有12个专门存储数字资源的数据库,上亿篇中外期刊论文,学位论文和会议论文千万以上,以及专利、科技报告等其他文献数据。

但目前面对海量的数据文献,知网等文献数据库只是简单的根据引用量和搜索关系对论文进行排序,搜索引擎一般采用引用量越大论文排序越靠前的排序方式,而未考虑到文献的重要性,忽略了引用和被引用文献的质量,因此检索者很难从海量论文中找到对自己有用的高质量论文。

发明内容

本发明提供了一种基于网页排序PageRank算法的论文排序方法及设备,用于根据论文之间的引用关系为论文分配PR值的质量权重,按照论文的重要程度的排列顺序进行排序并显示,从而为检索用户提供有效且高质量的检索结果。

第一方面,本发明提供一种基于网页排序PageRank算法的论文排序方法,该方法包括:

获取引文网络中论文之间的引用关系,根据所述引用关系确定论文的链入数和链出数,所述链入数为论文被引用的次数,所述链出数为论文引用的次数;

根据被同一论文引用的各论文的链入数与链出数的比值大小,确定所述各论文的质量权重;

基于PageRank算法,根据所述质量权重确定论文的PR值,以使收到检索指令时,按所述PR值确定论文的排列顺序并按所述论文的排列顺序显示检索结果。

作为一种可选的实施方式,根据所述质量权重确定论文的PR值,还包括:

根据同一预设时段内各论文的链入数的大小,确定所述各论文的时间权重;

根据所述质量权重和时间权重确定论文的PR值。

作为一种可选的实施方式,通过如下公式根据被同一论文引用的各论文的链入数与链出数的比值大小,确定所述各论文的质量权重:

其中,W

作为一种可选的实施方式,通过如下公式根据同一预设时段内各论文的链入数的大小,确定所述各论文的时间权重:

其中,W

第二方面,本发明提供一种基于网页排序PageRank算法的论文排序设备,该设备包括:处理器以及存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行如下步骤:

获取引文网络中论文之间的引用关系,根据所述引用关系确定论文的链入数和链出数,所述链入数为论文被引用的次数,所述链出数为论文引用的次数;

根据被同一论文引用的各论文的链入数与链出数的比值大小,确定所述各论文的质量权重;

基于PageRank算法,根据所述质量权重确定论文的PR值,以使收到检索指令时,按所述PR值确定论文的排列顺序并按所述论文的排列顺序显示检索结果。

作为一种可选的实施方式,所述处理器还用于:

根据同一预设时段内各论文的链入数的大小,确定所述各论文的时间权重;

根据所述质量权重和时间权重确定论文的PR值。

作为一种可选的实施方式,通过如下公式根据被同一论文引用的各论文的链入数与链出数的比值大小,确定所述各论文的质量权重:

其中,W

作为一种可选的实施方式,通过如下公式根据同一预设时段内各论文的链入数的大小,确定所述各论文的时间权重:

其中,W

作为一种可选的实施方式,所述处理器具体用于:

根据与所述质量权重和时间权重对应的分配因子,利用所述分配因子分别对所述质量权重和时间权重进行加权求和得到分配权重;

根据预设衰减因子和所述分配权重,确定论文的PR值。

第三方面,本发明提供一种基于网页排序PageRank算法的论文排序装置,该装置包括:

获取引用关系模块、确定质量权重模块、确定排序模块,其中:

获取引用关系模块,用于获取引文网络中论文之间的引用关系,根据所述引用关系确定论文的链入数和链出数,所述链入数为论文被引用的次数,所述链出数为论文引用的次数;

确定质量权重模块,用于根据被同一论文引用的各论文的链入数与链出数的比值大小,确定所述各论文的质量权重;

确定排序模块,用于基于PageRank算法,根据所述质量权重确定论文的PR值,以使收到检索指令时,按所述PR值确定论文的排列顺序并按所述论文的排列顺序显示检索结果。

作为一种可能的实施方式,所述装置还包括确定时间权重模块用于:

根据同一预设时段内各论文的链入数的大小,确定所述各论文的时间权重;

根据所述质量权重和时间权重确定论文的PR值。

作为一种可能的实施方式,所述确定质量权重模块具体用于:

其中,W

作为一种可能的实施方式,所述确定时间权重模块具体用于:

其中,W

作为一种可能的实施方式,所述确定排序模块具体用于:

根据与所述质量权重和时间权重对应的分配因子,利用所述分配因子分别对所述质量权重和时间权重进行加权求和得到分配权重;

根据预设衰减因子和所述分配权重,确定论文的PR值。

第四方面,本发明提供一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面所述方法的步骤。

本发明提供的一种基于网页排序PageRank算法的论文排序方法及设备,具有以下有益效果:

本发明在传统的PageRank算法基础上,结合了论文的链入数与链出数的比值,基于该比值确定的质量权重来确定论文的PR值,通过引文网络中论文之间的引用关系,对引文网络中的文献进行重要性评估,分配质量权重,按照论文的重要程度的排列顺序进行排序并显示,从而为检索用户提供有效且高质量的检索结果。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种引文网络引用关系示意图;

图2为本发明实施例提供的另一种引文网络引用关系示意图;

图3为本发明实施例提供的一种基于网页排序PageRank算法的方法流程图;

图4为本发明实施例提供的一种基于网页排序PageRank算法的具体方法流程图;

图5为本发明实施例提供的一种基于网页排序PageRank算法的设备示意图;

图6为本发明实施例提供的一种基于网页排序PageRank算法的装置示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

本发明实施例描述的应用场景是为了更加清楚的说明本发明实施例的技术方案,并不构成对于本发明实施例提供的技术方案的限定,本领域普通技术人员可知,随着新应用场景的出现,本发明实施例提供的技术方案对于类似的技术问题,同样适用。

下面首先对本发明实施例提供的相关背景技术进行简单介绍:

本发明实施例可应用于数字化图书馆中网络文献的关联和推荐。

随着网络信息资源的丰富,数字化文献已经成为学习和日常工作的标配,各个学校都具有网络文献数据库提供查询和下载服务,同时国内外也有许多数字资源库,例如万方拥有12个专门存储数字资源的数据库,上亿篇中外期刊论文,学位论文和会议论文千万以上,以及专利、科技报告等其他文献数据。但是,目前的文献数据库只是简单的根据引用量和搜索关系进行排序,而未考虑到文献的重要性以及文献在引文网络中的引用关系,因此检索者很难从海量论文中找到对自己有用的高质量论文。

传统的论文引文网络采用网页排序PageRank算法,PageRank算法预先给每个网页一个PR值(PR值指代PageRank值),PR值在物理意义上为一个网页被访问的概率,所以一般是1/N,其中N为网页总数,然后每个网页将自己的PR值平均分配给其他节点,其中,用一个网页表示一篇论文,将一篇论文作为一个节点。

本发明实施例提供了一种基于网页排序PageRank算法的论文排序方法及设备,在网页排序PageRank算法的基础上,根据引文网络中论文之间的引用关系,利用论文的链入数与链出数的比值确定论文的质量权重,对论文的重要性进行评估,按照该质量权重为每个论文分配PR值,按论文的重要程度进行排序,挖掘出重要性较高的论文。

如图1所示,本发明实施例中的引文网络是指由引用文献及被引用文献之间的引用关系构成的有向无环图,其中,1-10用于表示论文节点,节点之间通过有向链接边链接。若将论文作为节点,论文之间的引用关系看作论文之间的有向链接边,如图2所示,本发明实施例中的引文网络可以看作是一系列节点与有向链接边构成的网络图谱,论文A指向论文B表示论文A对论文B有一次引用,论文A的链出节点为B、C、D、E,则论文A的链出数为4;论文B的链入节点为A,链出节点为C,则论文B的链入数为1,链出数为1;论文C的链入节点为A、B,链出节点为D,则论文C的链入数为2,链出数为1,同样的,节点D和节点E也适用上述描述。

本实施例是通过论文之间的引用关系来确定引文网络中论文的重要性排序,如图2中包含5个节点之间的引用关系,一篇论文被引用的次数越多,那么它的链入数就越大,一篇论文引用其他论文越多,那么它的链出数就越大,容易理解的是,一篇论文的链入数与链出数的比值越高,说明它在参考文献中的重要性就越高,同理若是论文的链入数与链出数的比值越低,那么说明它在参考文献中的作用很小,重要程度也随之降低。

如图3所示,本发明实施例提供的一种基于网页排序PageRank算法的论文排序方法的流程如下:

步骤300、获取引文网络中论文之间的引用关系,根据所述引用关系确定论文的链入数和链出数,所述链入数为论文被引用的次数,所述链出数为论文引用的次数;

本实施例中可以是实时获取引文网络中论文之间的引用关系,也可以是间隔设定时段的获取引文网络中论文之间的引用关系,本实施例对何时获取引文网络中论文之间的引用关系不作过多限定。

本实施例中可以是收到检索指令时,实时获取引文网络中论文之间的引用关系,也可以间隔设定时段获取引文网络中论文之间的引用关系并存储,收到检索指令时,获取上一次存储的引用关系。

需要说明的是,引文网络的引用不同于网页链接,它是真实可靠的,引文之间不存在虚假性和恶意链接的情况,因此引文网络的链入数和链出数之间的关系比传统链接网络中链入数和链出数之间的关系更具可靠性。

步骤301、根据被同一论文引用的各论文的链入数与链出数的比值大小,确定所述各论文的质量权重;

容易理解的是,被同一论文引用的各论文的链入数与链出数的比值越大,说明该论文在所述同一论文中的重要性越高,为该论文分配的质量权重越大。

如图2中,被同一论文A引用的各论文包括B、C,其中,B的链入数与链出数的比值为1/1=1,C的链入数与链出数的比值为2/1=2,则说明论文C在论文A中的重要性较高,为论文C分配的质量权重大于为论文B分配的质量权重。

实施中,可通过如下公式根据被同一论文引用的各论文的链入数与链出数的比值大小,确定所述各论文的质量权重:

其中,W

容易理解的是,引用的论文P

步骤302、基于PageRank算法,根据所述质量权重确定论文的PR值,以使收到检索指令时,按所述PR值确定论文的排列顺序并按所述论文的排列顺序显示检索结果。

本实施例中可以按所述PR值从大到小的顺序确定论文的排列顺序,也可按所述PR值从小到大的顺序确定论文的排列顺序,本实施例不作过多限定。

作为一种可选的实施方式,通过如下公式基于PageRank算法,根据所述质量权重确定论文的PR值:

公式(2)为迭代公式,是一个不断迭代的计算PR值的过程,目的是计算论文P

其中,PR(P

I(P

需要说明的是,衰减因子用于以概率1-d作为跳转概率进行随机跳转,防止缺乏链出节点(链出数)导致的等级渗漏,避免了迭代过程中所有节点跳转到同一节点从而使产生的所有节点值为0的现象,一般的,衰减因子可取0.75。

更进一步地,本发明实施例还可以根据论文的发表时间,对同时段的论文的重要程度进行比较,确定出同时段论文中重要的论文,为论文分配时间权重,从而根据质量权重和时间权重来确定论文的PR值。

需要说明的是,由于引文网络与时间有强关联关系,所以理论上时间越早的论文越容易被引用,而时间越晚的论文很难被其他论文引用,但是时间上靠后的论文不一定就是低质量的论文,因此本发明提出通过同时段论文的被引用的数量来确定论文质量的高低,可以理解的是,一篇论文与它同时段的论文相比获得更大的引用量,那么这篇论文就被认为是高质量的论文,因此本发明实施例提供的方法能够避免仅靠时间权重导致的旧论文权重过大或者新论文权重过大的问题。

实施中,根据所述质量权重确定论文的PR值,还包括:

根据同一预设时段内各论文的链入数的大小,确定所述各论文的时间权重;

根据所述质量权重和时间权重确定论文的PR值。

实施中,同一预设时段内各论文的链入数越大,确定所述各论文的时间权重越大,同一预设时段内各论文的链入数越小,确定所述各论文的时间权重越小。

实施中,可通过如下公式根据同一预设时段内各论文的链入数的大小,确定所述各论文的时间权重:

其中,W

公式(3)中的链入数用于表示引文网络中的论文在同一预设时段T上被引用的次数,同一预设时段中的论文,被引用的次数越多,说明论文在该时间段内吸引了更多的关注度,属于该时段内的高质量论文。

作为一种可选的实施方式,本发明实施例通过利用质量权重和时间权重确定论文的PR值,具体方法如下:

根据与所述质量权重和时间权重对应的分配因子,利用所述分配因子分别对所述质量权重和时间权重进行加权求和得到分配权重;

根据预设衰减因子和所述分配权重,确定论文的PR值。

可选的,可通过如下公式根据质量权重和时间权重确定论文的PR值:

其中,公式(4)为迭代公式,是一个不断迭代的计算PR值的过程,目的是计算论文P

可通过设定结束阈值来确定迭代结束,如设定两次同一论文的PR值的差小于设定阈值时,迭代结束;或设定迭代次数满足设定次数时,迭代结束。

其中,PR(P

I(P

需要说明的是,衰减因子用于以概率1-d作为跳转概率进行随机跳转,防止缺乏链出节点(链出数)导致的等级渗漏,避免了迭代过程中所有节点跳转到同一节点从而使产生的所有节点值为0的现象,一般的,衰减因子可取0.75;

上述a和b的大小可以根据具体情况设定,可以设置a大于b,也可以设置a小于b,也可以设置a等于b,本实施例中对此不作过多限定。

综上,本发明实施例提供了至少两种基于PageRank算法的论文排序方法,一种是根据引文网络中论文之间的引用关系确定的链入数与链出数的比值大小,确定各论文的质量权重,根据该质量权重为论文分配PR值,另一种是在基于确定的质量权重的基础上,确定各论文的时间权重,从而根据质量权重和时间权重为论文分配PR值,上述任一实施方式都是基于论文之间的引用关系来分配PR值的权重的,相较于目前平均分配PR值的权重,能够考虑到论文在引用文献中的重要程度及论文在同时段内的引用文献中的重要程度,来为该论文分配相应的PR值的权重,从而确定论文的PR值,根据PR值对论文排序。

如图4所示,本发明实施例还提供一种具体的基于PageRank算法的论文排序方法,具体实施流程如下:

步骤400、获取引文网络中论文之间的引用关系;

实施中,该引用关系可通过初始矩阵(链接矩阵)表示,其中,该初始矩阵中的每个参数用于表示引用关系,如论文A引用论文B,那么初始矩阵第A行第B列就是1,相反,如果论文A没有引用论文B,那么初始矩阵第A行第B列就是0。

步骤401、根据所述引用关系确定论文的链入数和链出数,所述链入数为论文被引用的次数,所述链出数为论文引用的次数;

步骤402、根据被同一论文引用的各论文的链入数与链出数的比值大小,确定所述各论文的质量权重;

步骤403、根据同一预设时段内各论文的链入数的大小,确定所述各论文的时间权重;

步骤404、根据与所述质量权重和时间权重对应的分配因子,利用所述分配因子分别对所述质量权重和时间权重进行加权求和得到分配权重;

步骤405、根据预设衰减因子和所述分配权重,确定论文的PR值;

实施中,可通过上述公式(4)确定论文的PR值:

其中,其中,PR(P

I(P

步骤406、收到检索指令时,按所述PR值确定论文的排列顺序并按所述论文的排列顺序显示检索结果。

基于相同的发明构思,本发明实施例还提供了一种基于网页排序PageRank算法的论文排序设备,由于该设备即是本发明实施例中的方法中的设备,并且该设备解决问题的原理与该方法相似,因此该设备的实施可以参见方法的实施,重复之处不再赘述。

如图5所示,该设备包括:处理器500以及存储器501,其中,所述存储器501存储有程序代码,当所述程序代码被所述处理器500执行时,使得所述处理器500执行如下步骤:

获取引文网络中论文之间的引用关系,根据所述引用关系确定论文的链入数和链出数,所述链入数为论文被引用的次数,所述链出数为论文引用的次数;

根据被同一论文引用的各论文的链入数与链出数的比值大小,确定所述各论文的质量权重;

基于PageRank算法,根据所述质量权重确定论文的PR值,以使收到检索指令时,按所述PR值确定论文的排列顺序并按所述论文的排列顺序显示检索结果。

作为一种可选的实施方式,所述处理器500还用于:

根据同一预设时段内各论文的链入数的大小,确定所述各论文的时间权重;

根据所述质量权重和时间权重确定论文的PR值。

作为一种可选的实施方式,通过如下公式根据被同一论文引用的各论文的链入数与链出数的比值大小,确定所述各论文的质量权重:

其中,W

作为一种可选的实施方式,通过如下公式根据同一预设时段内各论文的链入数的大小,确定所述各论文的时间权重:

其中,W

作为一种可选的实施方式,所述处理器500具体用于:

根据与所述质量权重和时间权重对应的分配因子,利用所述分配因子分别对所述质量权重和时间权重进行加权求和得到分配权重;

根据预设衰减因子和所述分配权重,确定论文的PR值。

基于相同的发明构思,本发明实施例还提供了一种基于网页排序PageRank算法的论文排序装置,由于该装置即是本发明实施例中的方法中的装置,并且该装置解决问题的原理与该方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。

如图6所示,该装置包括:获取引用关系模块600、确定质量权重模块601、确定排序模块602,其中:

获取引用关系模块600,用于获取引文网络中论文之间的引用关系,根据所述引用关系确定论文的链入数和链出数,所述链入数为论文被引用的次数,所述链出数为论文引用的次数;

确定质量权重模块601,用于根据被同一论文引用的各论文的链入数与链出数的比值大小,确定所述各论文的质量权重;

确定排序模块602,用于基于PageRank算法,根据所述质量权重确定论文的PR值,以使收到检索指令时,按所述PR值确定论文的排列顺序并按所述论文的排列顺序显示检索结果。

作为一种可能的实施方式,所述装置还包括确定时间权重模块用于:

根据同一预设时段内各论文的链入数的大小,确定所述各论文的时间权重;

根据所述质量权重和时间权重确定论文的PR值。

作为一种可能的实施方式,所述确定质量权重模块601具体用于:

其中,W

作为一种可能的实施方式,所述确定时间权重模块具体用于:

其中,W

作为一种可能的实施方式,所述确定排序模块602具体用于:

根据与所述质量权重和时间权重对应的分配因子,利用所述分配因子分别对所述质量权重和时间权重进行加权求和得到分配权重;

根据预设衰减因子和所述分配权重,确定论文的PR值。

本发明实施例还提供一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如下步骤:

获取引文网络中论文之间的引用关系,根据所述引用关系确定论文的链入数和链出数,所述链入数为论文被引用的次数,所述链出数为论文引用的次数;

根据被同一论文引用的各论文的链入数与链出数的比值大小,确定所述各论文的质量权重;

基于PageRank算法,根据所述质量权重确定论文的PR值,以使收到检索指令时,按所述PR值确定论文的排列顺序并按所述论文的排列顺序显示检索结果。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号