首页> 中文学位 >文本分类中基于k-means的特征选择算法研究
【6h】

文本分类中基于k-means的特征选择算法研究

代理获取

目录

封面

声明

中文摘要

英文摘要

插图索引

表格索引

缩略语对照表

目录

第一章 绪论

1.1研究背景和研究意义

1.2国内外研究现状

1.3应用前景

1.4论文研究内容及安排

第二章 文本分类

2.1自动文本分类步骤

2.2分词及去停用词

2.3特征加权

2.4文本表示

2.5分类算法

2.6本章小结

第三章 特征选择算法

3.1引言

3.2特征选择概述

3.3常用的几种特征选择算法

3.4本章小结

第四章 聚类特征选择算法的实现

4.1 k-means聚类算法

4.2基于k-means的特征选择算法

4.3实验平台实现

4.4结果分析

4.5本章小结

第五章 实验与分析

5.1实验设置

5.2性能对比分析

5.3本章小结

第六章 总结和展望

6.1论文总结

6.2研究展望

参考文献

致谢

作者简介

1. 基本情况

2. 教育背景

展开▼

摘要

21世纪以来信息技术的迅速发展,使互联网逐渐地成为一个巨大的信息体。面对海量的数据,我们如何对这些数据进行管理与组织,并且高速准确的从中找出有价值的内容成为现在信息科学技术领域的一大难题,文本分类技术是解决这些难题的主要技术之一,存在很大实用价值,得到广泛专注。它的实现包括了多种技术,特征选择是文本分类中一个重点技术,它对于提高运算速度,减少运算复杂性和提升分类效率有重要意义,本文主要对文本分类中的特征选择算法进行研究。
  特征选择算法主要分为过滤型方法(Filter)和包装型(Wrapper)方法两类。Filter方法通用性强,运行时间复杂度低,但由于独立于分类学习算法,准确率低。Wrapper方法分类准确率高,但计算代价较大,通用性差。常常将两者结合使用,优劣势相互补。常用IG,MI,ECE和CHI这几种Filter型方法进行特征选择,再结合 Wrapper方法对其进行验证。这些方法都是先构造一个评估函数,用其对原始特征集合中每一个特征进行计算,并对权值的大小进行排序,选取前n个权值大的特征。在中文文本分类中,特征空间的维数远大于英文文本的特征空间,所以大规模的统计计算将会花费巨大的计算成本。
  本文提出一种新的特征选择算法,该方法不需要构造评估函数,利用k-means聚类的原理来进行特征选择,大大降低特征选择时间。采用根据最大最小原则改进的k-means算法,解决初始化样本的随机选择问题,再结合Wrapper方法用分类器性能对选择的特征子集进行评价。在实验中研究讨论 k-means方法中两种距离的计算方法,即欧氏距离和余弦距离计算文本相似度对算法的影响,结果表明用 k-means算法原理进行特征选择时余弦距离更适合应用于文本相似度的计算。同时研究讨论不同语料库上k-means特征选择方法中簇心k的取值和每个簇心中选择的特征数v的的最佳取值,由于中英文语言的差异性,k与v的最佳取值与所选取的语料库的种类和规模有很大关系。
  进一步在文本分类实验中研究新方法和IG,MI,ECE这几种常用特征选择方法与文档频率算法组合使用后的特征选择的效果,结合Wrapper方法使用BP网络、贝叶斯和SVM算法训练分类器,对分类结果的性能进行对比。实验结果可看出k-means特征选择算法无论是中文文本还是英文文本中都是一种行之有效的特征选择方法。
  本论文运用Java语言实现文本分类系统,设计了算法验证软件,在此基础上对所用方法的有效性和可行性进行验证。该系统主要分为三个模块:文本的预处理、建立分类器模型和模型评估、未知文本分类。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号