法律状态公告日
法律状态信息
法律状态
2019-04-26
授权
授权
2016-09-21
实质审查的生效 IPC(主分类):G06F17/30 申请日:20160405
实质审查的生效
2016-08-24
公开
公开
技术领域
本发明是涉及数据挖掘、信息提取和推荐系统领域,具体是一种结合标签数据的二部图模型学术论文推荐实现方法。
背景技术
早期研究人员的科学成果大多用学术论文的形式进行记录,通过查阅该类论文可以给研究者提供借鉴;除此之外,学术论文中又记录了同代人的科研成果,可以为研究者提供参考。通过查阅相关的科学论文,研究者可以避免其他研究者的重复劳动,提高科研的速度和效益。古往今来一切有成就的研究者,都是在广泛吸收了其他研究者知识的基础上,受到了良好的启发而取得成功的。因此,任何人在从事特定学科的学术活动时,或者新开始一项研究任务时,都要花费大量的时间,对该类学科相关论文进行全面的调查研究,明白国内外该课题的的研究情况,是否已经有人做过或者有人正在做,已经得到了哪些成果,现今尚未解决的问题是什么,做到心中有数。只有如此,才能避免重复劳动,有所创新、有所前进。
随着数字化网络的快速发展和学科的拓展,学术论文信息呈爆炸式增长。这使得研究者越来越难在其中找到自己感兴趣的论文。在这样的环境下,论文推荐算法应运而生,可以很好的为研究者推荐相关的学术论文。然而,大部分的论文推荐算法没有利用到论文的标签的数据。标签在一定程度上概括了论文的主旨,合理的添加标签数据信息可以增强论文内容之间的关系,可以很有效的解决推荐当中面临的冷启动问题,进而为研究者推荐新发表的论文,这样可以使研究者更好的了解学科最前沿的技术。
学术论文推荐在面向用户的推荐算法中,存在一种基于图模型的重启动的随机游走算法。图是一种呈现数据的表现形式,有着一些固定的关系结构。在图中,在同一种原则下,可以很容易的表现出多种数据的信息。通过用图中的节点和它们之间的加权边来表示对象和其之间存在的关系。此外,加权边的权值还可以表示对象之间的关系的强度。利用图模型,可以很容易的利用数据集中的各种信息。Tian和Jing在2013年提出了一种基于二部图模型的学术论文推荐方法。该方法将用户-论文关系、用户的相似度和论文的相似度关系结合到一起,为用户推荐感兴趣的论文。同年,Meng和Gao等提出一种基于多层图模型的学术论文推荐方法。该方法通过LDA(Latent Dirichlet Allocation)找出论文潜在的话题模型,并将其与作者信息、引文信息和词汇信息相结合,充分利用数据中的各种信息来实现个性化的论文推荐。
发明内容
基于上述背景技术,本发明提出了一种结合标签数据的二部图模型,充分利用数据中的各种信息,将数据中的标签信息添加到论文的内容中,在保证精度的基础上,高效快速的为研究者推荐学术论文。传统的学术论文推荐方法往往忽略了论文的标签信息,然而,学术论文的标签信息以简短的语义概括了论文的主旨,在帮助用户找到自己感兴趣的论文过程中起到非常重要的作用。通过添加标签信息,本发明可以有效的增强论文之间的内容联系,可以更好的表示在这种关系下,学术论文之间的相互关系,有效的解决了推荐当中面临的冷启动问题,进而优化整个算法,提高推荐的精度。使用本发明提供的推荐方法,可以应用到论文的搜索系统中,提供新发表论文的推荐服务或者是提高推荐的精度。
本发明提出的论文推荐方法是结合标签数据二部图模型的混合方法。将论文的标签信息与论文的其他信息有机结合,提高推荐的精度,同时又添加论文之间的部分相似度关系,以保证推荐的效率。为了方便组织论文的异构信息,本发明需要做一些初始工作,具体步骤是:
1.向量化标签信息
首先对标签数据进行去噪,去除在所有论文中出现次数少于5的标签。其次,统计剩余的标签数据,组成一个标签的向量,其中每一行的行号对应论文的编号,向量中的每一项表示该标签是否在此论文中出现,出现则值为1,否则值为0。如公式(1)所示:
上式中l表示数据中标签的总数。
2.向量化论文内容信息
提取论文的标题和摘要信息,去除停用词,组成论文文本向量,其中每一行的行号对应论文的编号,向量中每一项表示该词汇是否在论文中出现,如若出现则对应位置的值为1,否则为0。如公式(2)所示:
3.整合论文向量信息和内容信息
由于标签以简短的语义概括了论文的主旨,从而可以帮助用户更好地发现和自己研究邻域相关的论文。其作用类似于论文的关键字信息,因此本发明整合论文标签向量和论文的内容向量的方式,将论文的标签信息添加到论文的内容信息中,最终得到论文的特征向量。如公式(3)所示:
其中式中的WT表示标签信息在文本向量中的权重。
4.计算学术论文的相似度
根据论文的特征向量,运用余弦相似度的算法,计算论文之间的相似度。如公式(4)所示:
5.构建结合标签数据的二部图模型
1)将数据集中的所有用户和论文看为图中的顶点,每个用户或者论文当为二部图中的一个顶点。
2)根据用户-论文的查阅关系,构建用户顶点集与论文顶点集之间边的联系。如果用户U收藏了论文A,那么在二部图中对应的用户U顶点和论文A顶点之间存在边,否则不存在边。如公式(5)所示:
3)根据论文之间的引用关系,构建二部关系图中论文-论文的引用关系,用于加强子图中论文之间的内在联系。如果论文A引用论文B,则在论文子图中对应论文A顶点与论文B顶点之间存在边,否则不存在边。如公式(6)所示
4)根据结合标签信息后计算得到的论文相似度,采用K近邻算法,找到论文前K个最邻近的论文,然后在二部图模型中给对应的顶点之间添加一条边。
6本发明运用重启动的随机游走算法计算二部图模型中顶点之间的相似度,根据结果为用户推荐学术论文。
1)用符号G来表示结合标签数据的二部图模型,M表示其邻接矩阵,并对邻接矩阵M进行行标准化得到其正则化的概率转移矩阵
2)在二部图G上运用重启动的随机游走算法,如公式(7)所示:
其中c是重启动的概率,即每次迭代过程中回到出发点的概率。是重启动向量,表示初始状态。重启动向量中取种子顶点值为1,其余为0。表示第t步图中概率分布,表示第t步由种子顶点转移到顶点i的概率。
3)为了缩减公式(7)的时间和内存消耗,采用BEAR(Block Elimination Approachfor Random Walk with Restart on Large Graphs)算法,对二部图模型顶点重新排列,分块计算各个矩阵的逆,得到最终的结果。
4)对最终的概率分布排序,找出与种子顶点相似的Top N个顶点。
附图说明
图1是本发明的结合标签数据的二部图模型;
图2是本发明在数据集上和其他模型测试结果时间和内存效率的对比;
图3是本发明在数据集上和其他模型测试结果召回率的对比;
图4是本发明在数据集上和其他模型测试结果成功率的对比。
具体实施方式
下面参照附图,并结合具体的数据集,对本发明的实施例进行详细的描述。以下描述的实施例仅仅是示例性的,只用于更好的解释本发明,便于本发明领域内的研究人员更好的理解,不能理解为对本发明的限制。
本发明是一种结合标签数据的二部图模型学术论文推荐方法,主要是对学术论文进行推荐。如图1所示,本发明包括以下步骤:
S1.数据集介绍
本发明具体的实施例使用的是数据集是从CiteULike上采集的,数据集中具体包括16980个学术论文信息、5551个用户列表信息、46391个论文的标签信息和44709个论文引用关系,其中学术论文主要的内容信息包括其标题和摘要信息。
S2.数据预处理
数据预处理包括文本信息处理、标签信息处理和论文相似度计算三部分。
1)文本信息处理
对于学术论文的标题和摘要,去除其中的停用词后,计算其TF-IDF(term frequency-inverse document frequency)的值,并按降序对其排列,选出前8000个不相同词组成词汇表,按顺序对其进行编号。然后根据词汇表,将每篇论文用词汇向量表示。例如“50 3:8 10:5980:1…”这表示论文向量化的文本信息的格式,“50”表示该论文中总共的词汇数,“3:8”表示编号为“3”的词汇在该论文中出现了“8”次。
2)标签信息处理
本发明将使用次数少于5次的论文标签数据移除,得到7386个不同的标签。根据最终的标签数据,将每篇论文组成标签向量,例如“10 4 578 7385…”这表示论文向量化的标 签信息的格式,“10”表示该论文中标签的总数,“4”标签编号为“4”的标签在该论文中出现。
3)论文相似度计算
将论文的词汇表和论文的标签组合,得到15386个不同的词汇,组成所有特征词汇表。将1)、2)得到的论文向量组合,构建论文特征向量。例如“60 3:8 10:5 980:1…8004:k8578:k 15385:k…”这表示论文特征向量的格式,“60”表示该论文中所有特征的总数,“3:8”表示编号为“3”的词汇在该论文中出现了“8”次,“8004:k”标签编号为“4”(8004-8000)的标签在该论文中出现,其中“k”表示标签在论文中的权重。之后根据最终论文的特征向量计算论文之间的余弦相似度。
S3模型训练
将数据集中的所有论文平均分为5组,轮流将其中一组作为测试集,其他4组作为训练集。对于训练集,同样将其分为5份,选取1份做测试集,4份为训练集进行五折交叉验证。通过交叉验证确定模型的参数,选取综合性能最好的参数在测试集上进行预测,得到5组预测结果,再求其均值,作为对算法性能的估计。
S4评价指标
召回率通常被用于评测推荐算法的精度,召回率越大,推荐的结果质量越高,召回率的计算公式为:
由于用户对该论文没有兴趣或者用户不知道该论文,都可能导致预测过程中的零项,因此准确率不能应用于论文推荐上。在这里用success@N作为另一个评价指标。它被定义为推荐的前N个用户中发现一个真实存在的用户的概率。当对某篇论文推荐N个用户中存在一个正确的用户,那么success@N=1,反之为0。success@N定义为:
最后本发明统计所有的recall@N和success@N,分别计算平均值作为模型的最后预测结果。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定的思想和确定的范围内,一切利用本发明构思的发明创造均在保护之列。
机译: 一种。连接管元件的联接包括:第一部分和第二部分;以及第二部分。弹簧组件;固定组件;预组装联轴器和管道元件的结合;相关方法。 (分项申请201803082)。
机译: 一种。连接管元件的联接包括:第一部分和第二部分;以及第二部分。弹簧组件;固定组件;预组装联轴器和管道元件的结合;相关方法。 (分项申请201803082)。
机译: 在书签和标签数据库中提供书签的基于标签的标签相关性推荐的系统和方法