首页> 中文学位 >基于Spark的并行贝叶斯垃圾邮件分类系统
【6h】

基于Spark的并行贝叶斯垃圾邮件分类系统

代理获取

目录

1 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.2.1 垃圾邮件分类技术的研究现状

1.2.2 朴素贝叶斯并行计算的研究现状

1.3 研究内容

1.4 论文组织结构

2 相关技术介绍

2.1 文本分类技术

2.1.1文本分类预处理

2.1.2 特征选择

2.1.3 文本分类算法

2.2 Spark技术

2.2.1 Spark简介

2.2.2 RDD原理

2.2.3 Spark的运行结构

2.2.4 上层生态系统

2.3 本章小结

3 邮件分类系统中多项式朴素贝叶斯的并行化过程

3.1 Simhash算法

3.2.1 朴素贝叶斯垃圾邮件分类原理

3.2.2 基于Spark的朴素贝叶斯分类器的并行化

3.2.3 朴素贝叶斯分类器训练过程的并行化

3.2.4 朴素贝叶斯分类器分类过程的并行化

3.3 实验测试

3.3.1 数据集描述

3.3.2 评价指标

3.3.3 实验过程与结果分析

3.4 本章小结

4 贝叶斯垃圾邮件分类系统的设计

4.1 系统需求分析

4.2 系统总体设计

4.3 系统详细设计

4.3.1 原始邮件预处理模块

4.3.2 Simhash过滤模块

4.3.3 朴素贝叶斯分类器模块

4.4 本章小结

5 贝叶斯垃圾邮件分类系统的实现

5.1 系统环境搭建

5.2.1 原始邮件预处理模块的实现

5.2.2 邮件分类模块的实现

5.2.3可视化实现

5.3 本章小结

6 总结与展望

6.1 论文总结

6.2 工作展望

参考文献

附录A:系统部分核心代码

1 朴素贝叶斯分类器训练阶段的并行化过程代码

2 贝叶斯邮件分类系统预测过程代码

致谢

声明

展开▼

著录项

  • 作者

    杨善雯;

  • 作者单位

    重庆师范大学;

  • 授予单位 重庆师范大学;
  • 学科 计算机技术
  • 授予学位 硕士
  • 导师姓名 吕佳;
  • 年度 2019
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 汽车工程;
  • 关键词

    Spark; 贝叶斯; 垃圾邮件;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号