文摘
英文文摘
声明
第一章绪论
1.1研究背景及意义
1.2垃圾短信的当前的状况及危害
1.2.1 垃圾短信的种类
1.2.2 垃圾短信的危害
1.2.3 我国垃圾短信的当前情况
1.3本论文的主要研究内容及论文的组织
1.3.1 本论文的主要研究内容
1.3.2论文组织
第二章文本挖掘概述
2.1文本挖掘的基本概念
2.2文本分类的定义
2.3文本分类的一般流程
2.4文本预处理
2.4.1文本分词
2.4.2停用词过滤
2.5特征选择
2.6文本描述
2.6.1布尔模型
2.6.2 空间向量模型
2.6.3概率模型
2.6.4概念模型
2.7分类方法
2.7.1支持向量机
2.7.2朴素贝叶斯算法
2.7.3基于神经网络的算法
2.7.4 KNN算法
2.8本章小结
第三章短信文本分类技术的研究
3.1 短信介绍
3.2短信过滤流程
3.3短信顸处理
3.4短信语义模型
3.5本章小结
第四章基于特征选择的权值计算研究
4.1 特征选择
4.1.1 文档频率
4.1.2互信息
4.1.3信息增益
4.1.4期望交叉熵
4.1.5词条CHI统计法
4.1.6 X2统计
4.2特征选取方法的比较
4.2.1性能指标
4.2.2实验结果与分析
4.3 司语权重公式的改进
4.3.1传统tfidf公式
4.3.2特征加权
4.4结束语
第五章基于粗糙集的KNN短信分类
5.1粗糙集提出的背景及发展前景
5.2知识与知识库
5.3粗糙集的定义及其性质
5.4信息表知识表达系统与决策表
5.5 连续属性的离散化
5.5.1 离散化问题描述
5.5.2离散化方法
5.6信息约简
5.6.1信息约简的基本概念
5.6.2基于差别矩阵的属性约简方法
5.6.3 二进制约简基本概念
5.6.4决策规则约简算法
5.6.5 实例计算
5.7粗糙集与KNN的结合
5.8结束语
第六章基于粗糙集的KNN短信文本分类系统的设计与实现
6.1系统功能模块
6.2系统详细设计
6.2.1文本预处理模块
6.2.2特征向量集提取模块
6.2.3粗糙集约简模块
6.2.4分类系统模块
6.3实验评估
6.4本章小结
第七章总结与展望
7.1论文工作总结
7.2展望
致谢
参考文献
攻读学位期间的研究成果