首页> 中国专利> 一种文献引用网络可视化及文献推荐方法及系统

一种文献引用网络可视化及文献推荐方法及系统

摘要

本发明请求保护一种文献引用网络可视化及文献推荐方法及系统,涉及文献影响力分析和信息可视化领域,所述方法包括以下步骤:首先,根据文献的作者、年份、引用次数等固有属性、结合文献相似度和通过引用行为定量分析所产生的传递价值,综合以上因素计算文献重要度,并对文献进行排序;其次,对排序后的文献进行聚类,并对聚类的结果进行可视化,构建双层网络模型,将其重要文献以清晰明了的方式展示出来;最终,将可视化中所展示的聚类中心文献推荐给用户。本发明易用性高,本发明可以帮助科研工作者快速地筛选出最具权威的论文。

著录项

  • 公开/公告号CN105589948A

    专利类型发明专利

  • 公开/公告日2016-05-18

    原文格式PDF

  • 申请/专利权人 重庆邮电大学;

    申请/专利号CN201510957990.2

  • 发明设计人 陈昕;吴渝;李红波;范张群;

    申请日2015-12-18

  • 分类号G06F17/30(20060101);

  • 代理机构50102 重庆市恒信知识产权代理有限公司;

  • 代理人刘小红

  • 地址 400065 重庆市南岸区黄桷垭崇文路2号

  • 入库时间 2023-12-18 15:20:54

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-10-12

    授权

    授权

  • 2016-06-15

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20151218

    实质审查的生效

  • 2016-05-18

    公开

    公开

说明书

技术领域

本发明属于文献影响力分析和信息可视化领域,具体是一种文献引用网络可 视化及文献推荐方法及系统。

背景技术

近十年来,自从20世纪60年代Garfield创立科学引文索引(SCI)以来,引 文分析用于科学期刊、科学工作者以及科研工作等的研究活动日益活跃起来。 随着引文统计的数量越来越大,数据的时间跨度也越来越长,传统的手工方式 已经远远不能满足高层次分析的需求。计算机和网络技术的不断发展给引文分 析提供了条件,计算机引文分析已成为引文分析新的方向。计算机引文分析促 进了文献计量分析研究向高级阶段发展。

申请号为201310537842.6的中国专利描述了基于社区的作者及其学术论文 推荐系统和推荐方法:该系统先利用作者与论文的引用关系构建由作者层和论 文层组成的双层引用网络,然后,根据用户兴趣模型,分析用户需求,向用户 推荐作者及其论文。本发明系统既能利用作者间研究内容的相关性,通过主题 模型构建作者社区;还能在社区内部计算待推荐的作者和论文的多种属性值, 改善现有推荐算法计算量大的缺陷;同时计算作者和论文的多种属性值,使得 推荐结果更多样化,更符合用户需求。但是,该专利在学术推荐时,只考虑了 引用次数这一因素来对作者和论文的权威度进行分析,因此,需要对论文和作 者的评价指标进行改进,提出能够更加准确反映论文和作者特点的属性值计算 方法。

申请号为201310230933.5的中国专利公开了一种个性化论文推荐方法及其 系统。利用科研领域中研究人员撰写学术论文的行为特性,挖掘异质学术网络 数据构建训练数据集,并根据所述训练数据集进行训练得到排序学习模型;然 后在线构建用户配置,生成用户感兴趣的候选论文集,根据所述候选论文集并 基于所述排序学习模型生成论文推荐结果。基于所述论文推荐结果,按照一定 方式生成论文推荐返回给用户;最后,在线接收用户反馈,并根据不同的用户 反馈行为相应地更新所述论文推荐结果。本发明有效地避免了推荐系统初期的 “冷启动”问题,保证了推荐结果的准确率和召回率。但是该专利并没有考虑 到引用行为本身对参考文献产生的传递价值,没有将排序模型的结果没有以可 视化的结果展示出来,没有达到让科研工作者一目了然的目的。

针对以上问题,本发明的改进提出了一种基于网页链接度排序的文献重要性 评价方法,通过文献本身的固有属性的评价以及对引用行为的定量分析,对文 献的重要度进行专业、客观地评价。再此基础上,将改进的网页链接度排序算 法与K均值聚类算法相结合,提出一种适合科学文献网络的可视化布局算法, 通过可视化结果进行推荐。

发明内容

针对现有技术中,当前的文献网络太单一,不能体现引文网与科研合著网 的特性,提出了一种易用性高,快速且准确度高的文献引用网络可视化及文献 推荐方法及系统。。本发明的技术方案如下:一种文献引用网络可视化及文献推 荐方法,其包括以下步骤:首先,获取文献并存入数据库,利用文本相似度计 算算法计算文献相似度;其次,利用改进的网页链接度排序算法计算文献重要 度,并对文献进行排序;然后,对排序后的文献利用K均值聚类算法进行聚类, 并对聚类的结果进行可视化,构建双层网络模型,将其重要文献展示出来;最 后根据聚类结果将聚类中心的文献推荐给用户。

进一步的,所述改进的网页链接度排序算法计算文献重要度具体步骤包括: 根据文献的固有属性包括作者、年份及引用次数,结合文献相似度,通过引用 行为定量分析所产生的传递价值,计算文献重要度,公式如下:

PageRank(pi)=(1-d)A(i)+dΣpj[PageRank(pj)L(pj)wji+[1+12ln(l+1)+1+1k]]

其中,A(i)为文献i在科研合作网中采用原始网页排序算法计算的作者权威度的 平均值,wji为文献j将价值传给文献i时的权重,l为文献与参考文献间的时间 差,k为推荐年份与文献年份的差值,d为阻尼系数。

进一步的,所述对排序后的文献利用K均值聚类算法进行聚类具体步骤包 括:对排序后的文献利用K均值聚类算法进行聚类,将改进的网页链接度排序算 法与K均值聚类算法相结合,此方法适用于文献网中的社区发现,通过改进的 网页链接度排序算法结果,选取重要度最高的做为种子节点,利用欧式距离进 行聚类。

进一步的,所述引用行为定量分析所产生的传递价值计算具体步骤包括: 首先,将论文划分为引言、相关研究、实验、结论、主要内容五部分;其次, 利用正则表达式模板从论文主体部分提取出带有引用标记格式的标注句子,并 标明其所属部分;最后根据参考文献所在位置赋予不同的重要值。

一种文献引用网络可视化及文献推荐系统,包括用户获取文献模块、数据 库,用户获取文献模块用于用户输入关键词后,从文献网上抓取相关文献;数 据库用于获得相关信息并下载全文后存入数据库,还包括:预处理模块、引用 行为定量分析模块、重要度计算模块、基础网络构建单元及可视化模块;其中 预处理模块用于对文献的摘要和关键词进行分词处理、词性标注及词性过滤, 并计算查询文献与候选相似文献之间的余弦相似度;引用行为定量分析模块用 于根据参考文献所在位置赋予不同的重要值;重要度计算模块用于计算文献重 要度,并对文献进行排序;基础网络构建单元用于从数据库中获取论文及引文 信息;可视化模块,用于选取得分最高若干论文,并对排序结果进行可视化布 局。

进一步的,所述基础网络构建单元得到带权值的双层引用网络,其中包括 作者间、论文间引用关系,作者和论文间的著作关系,论文间和作者间引用关 系。

进一步的,还包括个性化学术推荐模块:用于根据科研领域中研究人员撰写 学术论文的行为特性,挖掘异质学术网络数据,采用有监督的排序学习方法实 现基于用户的个性化论文推荐。

本发明的优点及有益效果如下:

本发明通过分析文献网中的特有属性以及对引用行为的分析,挖掘出文献 存在的潜在价值,并通过改进后的网页链接度排序算法及K均值聚类的算法结 合后,将其结果可视化,特有的双层网络模型能有效地、准确地、快速地帮助 科研人员发现研究领域中对自己有益的学术价值。与此同时,与传统的推荐技 术相比,本发明有效地避免了推荐系统初期的“冷启动”问题,保证了推荐结 果的准确率和召回率,并采用可交互的可视化技术提供个性化论文推荐。

附图说明

图1是本发明提供优选实施例算法流程图;

图2为个性化学术推荐算法流程图。

具体实施方式

以下结合附图,对本发明作进一步说明:

如附图1所示文献排序模块流程图:

A1~A3:数据采集与处理阶段,用户输入关键词后,从文献网上抓取相关文 献,获得相关信息并下载全文后存入数据库,对信息缺失的不完整数据进行筛 选处理。

A4:对文献的摘要和关键词进行分词处理阶段:采用向量空间模型,利用文 本相似度算法计算查询文献与候选相似文献之间的余弦相似度,文本相似度算 法首先将文本分词后计算词频然后结合余弦相似度计算文献之间的相似性。包 括分词单元、词性标注单元及词性过滤单元;

A5:定量分析引用行为,引用行为定量分析所产生的传递价值计算具体步 骤包括:首先,将论文划分为引言、相关研究、实验、结论、主要内容五部分; 其次,利用正则表达式模板从论文主体部分提取出带有引用标记格式的标注句 子,并标明其所属部分;最后根据参考文献所在位置赋予不同的重要值。

A6~A7:离线训练模块阶段,将数据库中的论文作者信息和论文的时间信息 处理后,并将步骤A4和A5中得到的引文权值,放入离线训练模块中,利用改 进后的网页链接度排序算法,公式1,计算节点的属性值。

PageRank(pi)=(1-d)A(i)+dΣpj[PageRank(pj)L(pj)wji+[1+12ln(l+1)+1+1k]]

其中,A(i)为文献i在科研合作网中采用原始网页连接度排序算法计算的作者权 威度的平均值。wji为文献j将价值传给文献i时的权重,l为文献与参考文献间 的时间差,k为推荐年份与文献年份的差值,d为阻尼系数。

A8:从数据库中获取论文及引文信息,构建基础网络单元,得到带权值的 双层引用网络,其中包括作者间、论文间引用关系,作者和论文间的著作关系, 论文间和作者间引用关系。

A9:论文推荐列表生成单元,选取得分最高的前50篇论文,并对排序结果 进行可视化布局,由于科学文献网中有隐藏的社区或社团,所以为了发现隐藏 的社区,在科研合著网和引文网中都采用K均值聚类算法,结合改进的网页链 接度排序算法,通过排序结果选取排名第一的点作为种子节点,利用欧式距离 计算所有节点与种子节点的距离,将距离近的归为一类,最后将其聚类结果可 视化

A10:可视化的结果具有可交互功能,用户可根据自己的需求,点击排序结 果中重要的文献,可获得该文献的基本信息,并能看到该文献引用和被引用的 相关文献,还能通过作者信息在科研合著网中找到关于作者的具体信息(如发 文量、亲密合作人)。

如附图2所示个性化学术推荐模块:

C1~C3:利用科研领域中研究人员撰写学术论文的行为特性,挖掘异质学术 网络数据,采用有监督的排序学习方法实现基于用户的个性化论文推荐,从而 有效地避免了推荐系统初期的“冷启动”问题。基于可视化结果,用户可选择 性地筛选自己感兴趣、不感兴趣、已读过的文献。

C4~C5:若结果为用户感兴趣的,则保存到相应的用户列表中;若结果为用 户不感兴趣或已读过,则删除推荐结果集中所对应的论文。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范 围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或 修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号