声明
摘要
第一章 绪论
1.1 论文研究背景及意义
1.2 文本分类国内外研究现状
1.2.1 国外研究现状
1.2.2 国内研究现状
1.3 论文的主要研究内容
1.4 论文的组织结构
第二章 文本分类相关技术概述
2.1 文本预处理
2.1.1 文本分词
2.1.1 去除文本停用词
2.2 文本表示
2.3 特征选取
2.3.1 词频*逆文档频率(TF*IDF)
2.3.2 互信息(MI)
2.3.3 信息增益(IG)
2.3.4 期望交叉熵(ECE)
2.4 文本分类算法
2.4.1 朴素贝叶斯算法
2.4.2 K近邻算法
2.4.3 支持向量机算法
2.5 本章小结
第三章 TF*IDF方法计算特征项权重的改进和特征项的降维
3.1 改进的词频和逆文档频率
3.1.1 词对于类别之间的区分能力
3.1.2 词对于类别内部的区分能力
3.1.3 改进的TF*IDF公式
3.2 文本特征项的降维
3.3 本章小结
第四章 支持向量机在多类别问题中的应用
4.1 SVM多类分类方法
4.1.1 一对多分类方法
4.1.2 一对一分类方法
4.1.3 二叉树分类方法
4.1.4 有向无环图分类方法
4.1.5 改进的二叉树分类方法
4.2 实验分析
4.3 本章小结
第五章 文本分类应用与结果分析
5.1 文本分类应用设计
5.1.1 实验环境
5.1.2 分类语料库
5.1.3 分类应用总体流程
5.2 分类应用流程模块
5.2.1 预处理模块
5.2.2 文本表示模块
5.2.3 特征选取模块
5.2.4 分类模块
5.3 文本分类结果分析
5.4 本章小结
第六章 总结与展望
6.1 工作总结
6.2 研究展望
参考文献
附录A 图目录
致谢
攻读硕士期间发表的论文