基于文本挖掘的企业情报自动分类系统研究与应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网社会的快速发展，企业面临着采集和处理海量的非结构化情报信息的问题，情报分类是一种重要的管理手段，传统的人工分类的情报管理模式，既耗费人力，又效率不高。本文提出了一种基于文本挖掘技术的企业情报自动分类方法，以提升企业情报分类的效率。
　　本文在研究多种文本分类技术的基础上，以支持向量机(SVM)为情报分类的主要算法，针对网络化的情报采集带来的样本分布不平衡问题，以及SVM分类器在超平面附近分类效果不太好的情况，辅以KNN算法，即选择K个情报样本代替1个情报样本来进行分类，以提高整体的分类效果。
　　本文首先针对企业情报的非结构化特点，对企业情报进行文本预处理，即对企业情报数据进行分词、去停用词等处理，并对预处理后的结果进行词频、文档频率等相关统计计算。同时，考虑到网络采集得到的企业情报可能存在的数据不平衡问题，在特征选择方法中，采用了信息增益的方法，引入了两个具有较强类别表征能力的参数—分散度和集中度，用于特征词表的降维，得到对分类贡献度更高的特征词，构造了企业情报的特征向量。本文以默认的惩罚因子c以及相关的核函数参数进行实验，对4种常用的核函数进行试算，确定了采用径向基核函数，并通过网格搜索法和5折交叉检验法，寻找出最优的核参数g。在此基础上，经过训练得到了SVM情报分类器。将SVM分类器的支持向量来作为KNN分类器的训练样本，同时考虑到网络采集得到的企业情报可能存在的数据不平衡问题，在KNN分类器中引入一个权重因子，用于调节各类别之间的权重，并通过实验确定KNN分类器的K取值，结合SVM分类器和KNN分类器，通过实验确定区分阈值θ值。本文提出的SVM-KNN分类模型，在分类情报距离SVM分类器超平面较近时，采用基于加权支持向量的KNN分类器来进行分类，距离较远时，则直接利用SVM分类器得到分类结果。
　　本文通过在某大型企业中进行特定行业的企业情报分类试验，验证了基于SVM-KNN分类模型对大量的企业情报进行分类的有效性，较好地适应了企业情报样本不平衡问题，使得企业情报分类更准确。

著录项

作者
吴展云;
展开▼
作者单位

广东工业大学;

展开▼
授予单位广东工业大学;
学科软件工程
授予学位硕士
导师姓名王勇;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
情报信息; 自动分类系统; 文本挖掘; 特征向量;

相似文献

中文文献
外文文献
专利

1. 基于文本挖掘的计算机漏洞自动分类技术分析 [J] . 乔毅弘 . 通讯世界 . 2021,第009期
2. 基于文本挖掘的计算机漏洞自动分类技术研究 [J] . 邢翀 . 农村经济与科技 . 2018,第008期
3. 基于文本挖掘技术的客服投诉工单自动分类探讨 [J] . 李颢 ,张吉皓 . 移动通信 . 2017,第023期
4. 基于SSH的Web中的文本挖掘算法的研究与应用 [J] . 王钊 . 工业控制计算机 . 2015,第009期
5. 基于专家系统的软件缺陷自动分类系统的研究 [J] . 张书涵 . 信息技术与信息化 . 2014,第010期
6. 基于ICD编码的电子病历自动分类及统计分析系统 [C] . Mu Dongmei ,牟冬梅 ,Zhao Danning . 2016中国卫生信息技术交流大会 . 2016
7. 基于神经网络的文本挖掘在专利自动分类中的研究与应用 [A] . 马芳 . 2009

基于文本挖掘的企业情报自动分类系统研究与应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅