文本分类中基于k-means的特征选择算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

21世纪以来信息技术的迅速发展，使互联网逐渐地成为一个巨大的信息体。面对海量的数据，我们如何对这些数据进行管理与组织，并且高速准确的从中找出有价值的内容成为现在信息科学技术领域的一大难题，文本分类技术是解决这些难题的主要技术之一，存在很大实用价值，得到广泛专注。它的实现包括了多种技术，特征选择是文本分类中一个重点技术，它对于提高运算速度，减少运算复杂性和提升分类效率有重要意义，本文主要对文本分类中的特征选择算法进行研究。
　　特征选择算法主要分为过滤型方法(Filter)和包装型(Wrapper)方法两类。Filter方法通用性强，运行时间复杂度低，但由于独立于分类学习算法，准确率低。Wrapper方法分类准确率高，但计算代价较大，通用性差。常常将两者结合使用，优劣势相互补。常用IG，MI，ECE和CHI这几种Filter型方法进行特征选择，再结合 Wrapper方法对其进行验证。这些方法都是先构造一个评估函数，用其对原始特征集合中每一个特征进行计算，并对权值的大小进行排序，选取前n个权值大的特征。在中文文本分类中，特征空间的维数远大于英文文本的特征空间，所以大规模的统计计算将会花费巨大的计算成本。
　　本文提出一种新的特征选择算法，该方法不需要构造评估函数，利用k-means聚类的原理来进行特征选择，大大降低特征选择时间。采用根据最大最小原则改进的k-means算法，解决初始化样本的随机选择问题，再结合Wrapper方法用分类器性能对选择的特征子集进行评价。在实验中研究讨论 k-means方法中两种距离的计算方法，即欧氏距离和余弦距离计算文本相似度对算法的影响，结果表明用 k-means算法原理进行特征选择时余弦距离更适合应用于文本相似度的计算。同时研究讨论不同语料库上k-means特征选择方法中簇心k的取值和每个簇心中选择的特征数v的的最佳取值，由于中英文语言的差异性，k与v的最佳取值与所选取的语料库的种类和规模有很大关系。
　　进一步在文本分类实验中研究新方法和IG，MI，ECE这几种常用特征选择方法与文档频率算法组合使用后的特征选择的效果，结合Wrapper方法使用BP网络、贝叶斯和SVM算法训练分类器，对分类结果的性能进行对比。实验结果可看出k-means特征选择算法无论是中文文本还是英文文本中都是一种行之有效的特征选择方法。
　　本论文运用Java语言实现文本分类系统，设计了算法验证软件，在此基础上对所用方法的有效性和可行性进行验证。该系统主要分为三个模块：文本的预处理、建立分类器模型和模型评估、未知文本分类。

著录项

作者
陈晨;
展开▼
作者单位

西安电子科技大学;

展开▼
授予单位西安电子科技大学;
学科计算机科学与技术
授予学位硕士
导师姓名王凯东;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
文本分类; 特征选择; k-means算法; Java语言;

相似文献

中文文献
外文文献
专利

1. 文本分类中基于差值思想的多特征选择算法研究 [J] . 李慧 ,李存华 ,王霞 . 网络新媒体技术 . 2009,第010期
2. 文本分类中基于基尼指数的特征选择算法研究 [J] . 尚文倩 ,黄厚宽 ,刘玉玲 . 计算机研究与发展 . 2006,第010期
3. 基于K-means算法的神经网络文本分类算法研究 [J] . 卢曼丽 . 中国管理信息化 . 2014,第021期
4. 基于统计频率的文本分类特征选择算法研究 [J] . 张俊丽 ,赵乃瑄 ,冯君 . 现代图书情报技术 . 2008,第011期
5. 基于信息熵的TFIDF文本分类特征选择算法研究 [J] . 陈国松 ,黄大荣 . 湖北民族学院学报（自然科学版） . 2008,第004期
6. 基于特征选择和K-means聚类预处理的风电场功率预测 [C] . 李宗杰 ,梁海峰 . 中国高等学校电力系统及其自动化专业第二十七届学术年会 . 2011
7. SVM文本分类中基于法向量的特征选择算法研究 [A] . 姜鹤 . 2010

文本分类中基于k-means的特征选择算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅