首页> 中文学位 >基于词同现网络与支持向量机的科学论文甄别方法研究
【6h】

基于词同现网络与支持向量机的科学论文甄别方法研究

代理获取

目录

基于词同现网络与支持向量机的科学论文甄别方法研究

Scientific Paper Discrimination Method Research Based-on Word Co-occurrence Network And Support Vector Machine

摘 要

Abstract

目 录

第1章 绪论

1.1课题来源

1.2课题目的及意义

1.3国内外研究现状与评述

1.4本文主要研究内容及方法

第2章 语言夊杂网络理论及支持向量机工具概述

2.1复杂网络结构概述

2.2网络拓扑的基本模型及其性质

2.3语言复杂网络概述与词同现网络的构建规则

2.4支持向量机工具简介

2.5本章小结

第3章 数据来源及科学论文的词同现网络构建

3.1数据来源与选取

3.2文本预处理与论文词同现网络的构建

3.3词同现网络特征参数的选择与分析

3.4本章小结

第4章 基于支持向量机的科学论文分类器实证研究

4.1分类器的构造与训练

4.2实验设计

4.3结果分析

4.4本章小结

结论

参考文献

附录1 程序实现

附录2 本文数据样例

攻读学位期间发表的学术论文

哈尔滨工业大学硕士学位论文原创性声明

哈尔滨工业大学硕士学位论文使用授权书

致 谢

展开▼

摘要

科学论文都有标准的格式要求,但形式是具有欺骗性的,严谨的语法与中规中矩的格式并不能保证所传达的信息有意义和价值。本研究本着节省期刊与会议评审人的时间、提高论文评审的效率和质量的目的,提出了对科学论文进行甄别的方法,同时分析主要由自然语言表达的人类知识体系的结构特征。
  在语言中,词与词在句子中的交互不是随机的,而是基于一定的规则。这种规则可以通过语言网络进行研究。词同现网络是人类语言网络的一种表现形式,句子中独立的词汇构成了网络的结点,词汇在句子中的相邻关系确定了网络的连接。通过构建论文的词同现网络,从网络分析的角度发现真伪论文词同现网络结构的区别,利用这些区别在一定程度上先将垃圾文章剔除,再在有意义的资源中进行筛选,这将提高整个社会的效率,纯洁人类知识体系。
  通过类比复杂网络生长机制与真论文创作的特点,随机网络生长机制与文本发生器生成的伪论文及低质量的论文在生成(或书写)时的特点,发现它们存在明显的相似性,因而提出假设:真论文与伪论文在词同现网络结构上存在质的区别。为验证这一假设,本研究创新地使用语言复杂网络的一些特征参数来表征论文,计算这些特征参数并输出一个向量,然后运用支持向量机工具包训练样本建模,对论文的真伪进行甄别。针对提出的假设和甄别方法,本研究收集样本、设计实验、使用该方法来验证假设。
  实验结果表明,伪论文由于受语法和相关规则的约束,其词同现网络表现出一定的小世界特性;文本发生器产生的伪论文与高质量论文在网络结构上存在着明显的区别,但是水平差别不大的论文其网络结构差别不显著;同时,不同领域的论文其网络结构也能被明显地区分出来。本研究中提出的科学论文甄别方法可以在一定程度上将伪论文剔除,但还是有一定的不足和待改善的地方,这将是本研究后续研究的方向。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号