首页> 中文学位 >基于文本挖掘的企业情报自动分类系统研究与应用
【6h】

基于文本挖掘的企业情报自动分类系统研究与应用

代理获取

目录

摘要

第一章 绪论

1.1 研究背景以及意义

1.2 研究现状

1.2.1 国外研究现状

1.2.2 国内研究现状

1.3 研究内容

1.4 论文的组织结构

第二章 相关理论

2.1 文本分类的过程

2.1.1 文本结构定义

2.1.2 文本分类过程

2.2 文本预处理

2.3 文本表示模型

2.3.1 向量空间模型

2.3.2 特征项权重

2.4 特征选择技术

2.4.1 文档频率

2.4.2 信息增益

2.4.3 互信息

2.4.4 x2统计量

2.5 文本分类方法

2.5.1 KNN算法

2.5.2 朴素贝叶斯算法

2.5.3 类中心向量法

2.5.4 神经网络

2.5.5 支持向量机

2.6 本章小结

第三章 总体设计

3.1 系统分析

3.2 总体架构

3.3 数据结构

3.4 系统组成

3.4.1 数据采集模块

3.4.2 数据汇聚模块

3.4.3 情报分类模块

3.5 本章小结

第四章 构建SVM-KNN文本分类模型

4.1 SVM-KNN构建流程

4.2 数据预处理

4.2.1 文本结构定义

4.2.2 分词处理及向量化

4.2.3 改进的特征向量

4.3 核函数的选取

4.4 相关参数确定

4.5 改进的SVM-KNN分类模型确定

4.6 本章小结

第五章 应用与分析

5.1 实验环境

5.2 系统应用

5.3 实验分析

5.3.1 实验数据

5.3.2 评估方法

5.3.3 测试评价

5.4 本章小结

总结与展望

参考文献

攻读硕士学位期间发表的论文

声明

致谢

展开▼

摘要

随着互联网社会的快速发展,企业面临着采集和处理海量的非结构化情报信息的问题,情报分类是一种重要的管理手段,传统的人工分类的情报管理模式,既耗费人力,又效率不高。本文提出了一种基于文本挖掘技术的企业情报自动分类方法,以提升企业情报分类的效率。
  本文在研究多种文本分类技术的基础上,以支持向量机(SVM)为情报分类的主要算法,针对网络化的情报采集带来的样本分布不平衡问题,以及SVM分类器在超平面附近分类效果不太好的情况,辅以KNN算法,即选择K个情报样本代替1个情报样本来进行分类,以提高整体的分类效果。
  本文首先针对企业情报的非结构化特点,对企业情报进行文本预处理,即对企业情报数据进行分词、去停用词等处理,并对预处理后的结果进行词频、文档频率等相关统计计算。同时,考虑到网络采集得到的企业情报可能存在的数据不平衡问题,在特征选择方法中,采用了信息增益的方法,引入了两个具有较强类别表征能力的参数—分散度和集中度,用于特征词表的降维,得到对分类贡献度更高的特征词,构造了企业情报的特征向量。本文以默认的惩罚因子c以及相关的核函数参数进行实验,对4种常用的核函数进行试算,确定了采用径向基核函数,并通过网格搜索法和5折交叉检验法,寻找出最优的核参数g。在此基础上,经过训练得到了SVM情报分类器。将SVM分类器的支持向量来作为KNN分类器的训练样本,同时考虑到网络采集得到的企业情报可能存在的数据不平衡问题,在KNN分类器中引入一个权重因子,用于调节各类别之间的权重,并通过实验确定KNN分类器的K取值,结合SVM分类器和KNN分类器,通过实验确定区分阈值θ值。本文提出的SVM-KNN分类模型,在分类情报距离SVM分类器超平面较近时,采用基于加权支持向量的KNN分类器来进行分类,距离较远时,则直接利用SVM分类器得到分类结果。
  本文通过在某大型企业中进行特定行业的企业情报分类试验,验证了基于SVM-KNN分类模型对大量的企业情报进行分类的有效性,较好地适应了企业情报样本不平衡问题,使得企业情报分类更准确。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号