声明
第一章 引言
第一节 研究背景和意义
第二节 国内外研究现状
一、学术成就和论文影响力的评价方法
二、论文属性特征
三、论文引用的预测方法
第三节 研究目的和主要内容
一、研究目的
二、主要内容
第四节 论文结构安排
第五节 本文的创新点和不足之处
第二章 模型及方法介绍
第一节 相关性检验方法
一、Pearson相关系数检验
二、Wilcoxon检验
三、Kruskal-Wallis检验
四、列联表数据的独立性检验
第二节 计数回归模型
一、Poisson回归模型
二、负二项回归
三、零膨胀模型
第三节 模型优劣的衡量准则
一、似然比检验
二、AIC、BIC准则
第四节 数据平衡化处理之SMOTE算法
第五节 二分类模型
一、Logistic回归模型
二、分类与回归树(CART)
三、支持向量机(SVM)
四、K最近邻(KNN)
第六节 二分类模型的评判准则
一、准确率
二、混淆矩阵
三、精准率和召回率
四、AUC值和ROC曲线
第三章 中文期刊论文的特征分析和分布规律
第一节 数据预处理
一、原始数据
二、数据缺失处理
三、针对不同特征的数据清洗
第二节 中文期刊论文的特征分布
一、发表时间特征分布
二、学科类别和期刊等级特征分布
三、论文其他特征分布
第三节 被引频次和下载量的分布规律
一、被引频次的总体分布规律
二、下载量的总体分布规律
三、不同属性特征下的被引频次和下载量的分布规律
第四章 论文被引频次和下载量的影响因素分析
第一节 模型变量的筛选
第二节 建立被引频次的计数模型
一、传统计数模型的拟合结果
二、零膨胀计数模型的拟合结果
三、模型选择
四、影响因素分析
第三节 建立下载量的传统计数模型
一、拟合结果
二、模型选择
三、影响因素分析
第五章 中文期刊论文高频引用识别
第一节 论文被引频次的非平衡分析及处理
一、论文被引频次的非平衡问题
二、未处理的论文被引频次的分类结果
三、基于SMOTE算法的被引频次平衡化处理
第二节 对平衡数据进行论文高频引用识别
一、Logistic回归模型结果分析
二、C ART模型分类树结果分析
三、SVM结果分析
四、K最近邻结果分析
五、分类效果比较
第三节 生物学和物理学的论文高频引用识别
一、Logistic回归模型结果分析
二、C ART模型分类树结果分析
三、SVM结果分析
四、K最近邻结果分析
五、分类效果比较
第六章 结论与展望
第一节 结论
第二节 展望
参考文献
附录
附录A 数据示例
附录B 代码(部分)
致谢
本人在读期间完成的研究成果