基于词同现网络与支持向量机的科学论文甄别方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

科学论文都有标准的格式要求，但形式是具有欺骗性的，严谨的语法与中规中矩的格式并不能保证所传达的信息有意义和价值。本研究本着节省期刊与会议评审人的时间、提高论文评审的效率和质量的目的，提出了对科学论文进行甄别的方法，同时分析主要由自然语言表达的人类知识体系的结构特征。
　　在语言中，词与词在句子中的交互不是随机的，而是基于一定的规则。这种规则可以通过语言网络进行研究。词同现网络是人类语言网络的一种表现形式，句子中独立的词汇构成了网络的结点，词汇在句子中的相邻关系确定了网络的连接。通过构建论文的词同现网络，从网络分析的角度发现真伪论文词同现网络结构的区别，利用这些区别在一定程度上先将垃圾文章剔除，再在有意义的资源中进行筛选，这将提高整个社会的效率，纯洁人类知识体系。
　　通过类比复杂网络生长机制与真论文创作的特点，随机网络生长机制与文本发生器生成的伪论文及低质量的论文在生成(或书写)时的特点，发现它们存在明显的相似性，因而提出假设：真论文与伪论文在词同现网络结构上存在质的区别。为验证这一假设，本研究创新地使用语言复杂网络的一些特征参数来表征论文，计算这些特征参数并输出一个向量，然后运用支持向量机工具包训练样本建模，对论文的真伪进行甄别。针对提出的假设和甄别方法，本研究收集样本、设计实验、使用该方法来验证假设。
　　实验结果表明，伪论文由于受语法和相关规则的约束，其词同现网络表现出一定的小世界特性；文本发生器产生的伪论文与高质量论文在网络结构上存在着明显的区别，但是水平差别不大的论文其网络结构差别不显著；同时，不同领域的论文其网络结构也能被明显地区分出来。本研究中提出的科学论文甄别方法可以在一定程度上将伪论文剔除，但还是有一定的不足和待改善的地方，这将是本研究后续研究的方向。

著录项

作者
杜娟;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科管理科学与工程
授予学位硕士
导师姓名孙文俊;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类系统的可靠性和可行性;学位论文、毕业论文;
关键词
词同现网络; 支持向量机; 科学论文甄别; 随机网络生长;

相似文献

中文文献
外文文献
专利

1. 基于词同现网络与支持向量机的论文甄别 [J] . 孙文俊 ,杜娟 . 现代情报 . 2010,第007期
2. 基于词汇同现模型的关键词自动提取方法研究 [J] . 肖红 ,许少华 . 沈阳理工大学学报 . 2009,第005期
3. 基于词同现网络的"一起"与"一齐"比较分析 [J] . 杨佳璐 . 鸡西大学学报 . 2017,第006期
4. 基于词同现网络的“一起”与“一齐”比较分析 [J] . 杨佳璐 . 黑龙江工业学院学报：综合版 . 2017,第006期
5. 基于BP神经网络的n/γ甄别方法研究 [J] . 宋海声 ,蒋杰臣 ,吕柏阳 . 原子能科学技术 . 2020,第001期
6. 搜索词同现网络研究 [C] . 罗准辰 ,王挺 . 第六届全国信息检索学术会议 . 2010
7. 基于不同机制复杂网络结构的科学论文甄别方法研究 [A] . 练帅超 . 2010

基于词同现网络与支持向量机的科学论文甄别方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅