首页> 中文学位 >科学论文被引频次和下载量的影响因素分析
【6h】

科学论文被引频次和下载量的影响因素分析

代理获取

目录

声明

第一章 引言

第一节 研究背景和意义

第二节 国内外研究现状

一、学术成就和论文影响力的评价方法

二、论文属性特征

三、论文引用的预测方法

第三节 研究目的和主要内容

一、研究目的

二、主要内容

第四节 论文结构安排

第五节 本文的创新点和不足之处

第二章 模型及方法介绍

第一节 相关性检验方法

一、Pearson相关系数检验

二、Wilcoxon检验

三、Kruskal-Wallis检验

四、列联表数据的独立性检验

第二节 计数回归模型

一、Poisson回归模型

二、负二项回归

三、零膨胀模型

第三节 模型优劣的衡量准则

一、似然比检验

二、AIC、BIC准则

第四节 数据平衡化处理之SMOTE算法

第五节 二分类模型

一、Logistic回归模型

二、分类与回归树(CART)

三、支持向量机(SVM)

四、K最近邻(KNN)

第六节 二分类模型的评判准则

一、准确率

二、混淆矩阵

三、精准率和召回率

四、AUC值和ROC曲线

第三章 中文期刊论文的特征分析和分布规律

第一节 数据预处理

一、原始数据

二、数据缺失处理

三、针对不同特征的数据清洗

第二节 中文期刊论文的特征分布

一、发表时间特征分布

二、学科类别和期刊等级特征分布

三、论文其他特征分布

第三节 被引频次和下载量的分布规律

一、被引频次的总体分布规律

二、下载量的总体分布规律

三、不同属性特征下的被引频次和下载量的分布规律

第四章 论文被引频次和下载量的影响因素分析

第一节 模型变量的筛选

第二节 建立被引频次的计数模型

一、传统计数模型的拟合结果

二、零膨胀计数模型的拟合结果

三、模型选择

四、影响因素分析

第三节 建立下载量的传统计数模型

一、拟合结果

二、模型选择

三、影响因素分析

第五章 中文期刊论文高频引用识别

第一节 论文被引频次的非平衡分析及处理

一、论文被引频次的非平衡问题

二、未处理的论文被引频次的分类结果

三、基于SMOTE算法的被引频次平衡化处理

第二节 对平衡数据进行论文高频引用识别

一、Logistic回归模型结果分析

二、C ART模型分类树结果分析

三、SVM结果分析

四、K最近邻结果分析

五、分类效果比较

第三节 生物学和物理学的论文高频引用识别

一、Logistic回归模型结果分析

二、C ART模型分类树结果分析

三、SVM结果分析

四、K最近邻结果分析

五、分类效果比较

第六章 结论与展望

第一节 结论

第二节 展望

参考文献

附录

附录A 数据示例

附录B 代码(部分)

致谢

本人在读期间完成的研究成果

展开▼

摘要

科学论文是科研成果的重要物化形式之一,也是衡量国家或者个人的学术水平和科研能力的重要评价参考。论文引用率是衡量一个国家科研论文被其他国家或机构的认可度的标志,下载量可以反映出论文的吸引力。国外学者研究过生物、数学等自然学科的英文文献存在着诸多因素对被引频次有影响作用,但研究中文文献的学者甚少。因此本文主要从中国知网上获取生物、数学、物理学、资源科学2007—2016年期间在指定20个期刊上发表的中文论文的数据,来研究中文论文中被引频次和下载量的影响因素,建立拟合被引频次和下载量的最优模型,并对高频被引论文进行识别,这对于评价论文质量有一定的价值,有助于评价研究的重要性。 本文首先探究了中文论文不同属性特征下被引频次和下载量的分布规律,并且采用Pearson相关系数检验、Kruskal-Wallis检验、Nemenyi检验和Wilcoxon检验对每个属性特征与被引频次、下载量进行相关性检验。其次,分别对被引频次和下载量拟合模型,由于被引频次存在零膨胀现象,因此对被引频次拟合了Poisson回归模型、负二项回归模型、零膨胀Poisson回归模型和零膨胀负二项回归模型,对下载量拟合了传统计数模型,采用似然比检验和AIC、BIC准则比较出最适合拟合被引频次和下载量的模型,以最优模型分别讨论论文各属性特征对被引频次和下载量的影响作用。最后,采用Logistic回归模型、分类树、支持向量机和K最近邻模型对高频被引的论文进行识别,由于论文的高频被引存在不平衡特征,即样本中高频被引占比很少,因此采用了SMOTE算法对数据进行平衡化处理,分别对未处理数据和平衡化处理数据进行识别,以及对生物学和物理学高频被引的论文进行识别,根据准确率、召回率和AUC值比较数据平衡化前后的分类效果。 研究结果表明,对被引频次拟合的最优模型是零膨胀负二项回归模型,拟合下载量的最优模型是负二项回归模型。通过对模型的分析,对论文是否被引用有显著影响作用的因素分别是:论文的下载量、论文长度、标题长度、发表年份、期刊等级、学科类别、摘要字数、关键词个数、是否合作完成;对被引频次有显著影响作用的因素分别是:论文的下载量、标题长度、发表年份、期刊等级、学科类别、摘要字数、关键词个数;对论文的下载量有显著影响作用的因素分别是:被引频次、论文长度、标题长度、发表年份、期刊等级、学科类别、摘要字数、是否合作完成。基于SMOTE算法对数据平衡化处理后的分类结果相比未处理的分类结果要更好,虽然准确率有所降低,仍然保持较高的准确率,但召回率和AUC值明显提高。对于生物学和物理学而言,不同学科之间论文高频被引确实存在差异,而且经过对比Logistic回归模型、分类树、支持向量机和K最近邻模型的分类效果,分类树对生物学高频被引论文的识别效果更好,支持向量机对物理学高频被引论文的识别效果更好。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号