1 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 垃圾邮件分类技术的研究现状
1.2.2 朴素贝叶斯并行计算的研究现状
1.3 研究内容
1.4 论文组织结构
2 相关技术介绍
2.1 文本分类技术
2.1.1文本分类预处理
2.1.2 特征选择
2.1.3 文本分类算法
2.2 Spark技术
2.2.1 Spark简介
2.2.2 RDD原理
2.2.3 Spark的运行结构
2.2.4 上层生态系统
2.3 本章小结
3 邮件分类系统中多项式朴素贝叶斯的并行化过程
3.1 Simhash算法
3.2.1 朴素贝叶斯垃圾邮件分类原理
3.2.2 基于Spark的朴素贝叶斯分类器的并行化
3.2.3 朴素贝叶斯分类器训练过程的并行化
3.2.4 朴素贝叶斯分类器分类过程的并行化
3.3 实验测试
3.3.1 数据集描述
3.3.2 评价指标
3.3.3 实验过程与结果分析
3.4 本章小结
4 贝叶斯垃圾邮件分类系统的设计
4.1 系统需求分析
4.2 系统总体设计
4.3 系统详细设计
4.3.1 原始邮件预处理模块
4.3.2 Simhash过滤模块
4.3.3 朴素贝叶斯分类器模块
4.4 本章小结
5 贝叶斯垃圾邮件分类系统的实现
5.1 系统环境搭建
5.2.1 原始邮件预处理模块的实现
5.2.2 邮件分类模块的实现
5.2.3可视化实现
5.3 本章小结
6 总结与展望
6.1 论文总结
6.2 工作展望
参考文献
附录A:系统部分核心代码
1 朴素贝叶斯分类器训练阶段的并行化过程代码
2 贝叶斯邮件分类系统预测过程代码
致谢
声明