首页> 中文学位 >基于客户端的自学习垃圾邮件过滤技术的研究与实现
【6h】

基于客户端的自学习垃圾邮件过滤技术的研究与实现

代理获取

目录

文摘

英文文摘

声明

第一章前言

1.1论文的背景和研究目标

1.2论文章节安排

第二章垃圾邮件及反垃圾邮件技术

2.1垃圾邮件

2.1.1垃圾邮件的定义与类型

2.1.2垃圾邮件的起源与历史

2.1.3垃圾邮件的产生机理与危害

2.2反垃圾邮件技术

2.2.1反垃圾邮件技术概述

2.2.3基于规则的垃圾邮件过滤方法

2.2.4基于概率统计的垃圾邮件过滤方法

第三章邮件预处理技术

3.1电子邮件标准化

3.1.1电子邮件系统功能模型

3.1.2 Internet电子邮件标准

3.1.3电子邮件的结构标准

3.2中文分词技术

3.2.1基于字符串匹配的分词方法

3.2.2基于自然语言理解的分词方法

3.2.3基于统计的分词方法

3.2.4分词中的难题及解决方法

第四章系统的设计

4.1系统设计的背景

4.2系统设计的需求分析

4.3系统的总体设计

4.4系统的详细设计

4.5系统实现的软硬件环境

4.5.1系统实现的硬件环境

4.5.2系统实现的软件环境

第五章系统的相关实现

5.1邮件预处理模块

5.1.1邮件内容解析子模块

5.1.2中文分词子模块

5.1.3无用词过滤子模块

5.2邮件类别生成模块

5.2.1相似度计算子模块

5.2.2邮件类别生成合并子模块

5.3类别关键词提取模块

5.4邮件判定模块

5.5自学习模块

5.5.1类别信息的选择性加载

5.5.2垃圾邮件的漏判情况

5.5.3合法邮件的误判情况

5.6实验结果及评价

5.6.1评价指标

5.6.2实验结果

第六章论文总结

6.1论文小结

6.2结束语

致谢

参考文献

硕士期间发表论文

展开▼

摘要

作为互联网的一大应用,电子邮件一直受到人们的青睐,并已成为人们日常生活中通信、交流的重要手段之一。但是近些年来垃圾邮件问题日益严重,中国网民平均每周收到的垃圾邮件数量长期以来超过正常邮件数量。垃圾邮件不仅耗费网络带宽和计算机时空开销,更会对企业的正常运作和用户的正常工作造成严重的干扰。垃圾邮件过滤势在必行。 虽然,垃圾邮件过滤技术可以根据其部署位置的不同分为基于服务器端的垃圾邮件过滤和基于客户端的垃圾邮件过滤,但考虑到不同用户对垃圾邮件的认同度具有差异,且用户设置和使用系统的能力参差不齐,本文认为一个良好的垃圾邮件过滤技术必须具有个性化的特征和自学习的能力,为此提出构建基于客户端的自学习垃圾邮件过滤系统的想法,方便用户能够自如地实施个性化的过滤策略。 个性化的过滤策略是指当用户和垃圾邮件过滤系统对某一封电子邮件的判定结果存在差异时,过滤系统在收到用户的反馈信息后能够自动学习到用户的过滤偏好,适时地调整过滤策略。也就是说,过滤系统具有针对用户反馈的自学习能力。 论文首先介绍了垃圾邮件的定义与类型、起源与历史、产生机理与危害,讨论了反垃圾邮件技术中的基于规则和基于概率统计的垃圾邮件过滤方法,然后对电子邮件相关协议、结构标准、中文分词等邮件预处理技术进行了研究。在此基础上,本文设计并实现了一个基于客户端的自学习垃圾邮件过滤系统。系统由邮件预处理模块、邮件类别生成模块、类别关键词提取模块、邮件判定模块和自学习模块这几部分组成。 其中邮件预处理模块由邮件内容解析子模块、中文分词子模块和无用词过滤子模块三部分组成,该模块将邮件内部的主要信息提取出来,供邮件类别生成模块和邮件判定模块使用。邮件类别生成模块则由相似度计算子模块和邮件类别生成合并子模块组成,该模块将内容相似的两封邮件归入到同一类别中,为后续的类别关键词提取做好准备。类别关键词提取模块使用互信息方法将每一个邮件类别中的一些特征关键词提取出来,为邮件判定模块和自学习模块提供服务。邮件判定模块将经过预处理的新邮件与用户指定的那些邮件类别对应的特征关键词进行比较,判断是否为垃圾邮件。自学习模块提供了类别关键词的选择性加载功能,并针对用户的不同反馈提供了相应的处理方法。本文详细介绍了上述模块及子模块的内部流程及实现算法。实践表明了系统在有用户反馈的情况下呈现了良好的自学习能力。 最后,论文对垃圾邮件的相关过滤技术进行讨论,提出了系统实现中存在的不足和进一步的改进意见,为后续研究工作提供了有意义的参考。

著录项

  • 作者

    邱明明;

  • 作者单位

    东南大学;

  • 授予单位 东南大学;
  • 学科 计算机系统结构
  • 授予学位 硕士
  • 导师姓名 吴国新;
  • 年度 2007
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP393.098;
  • 关键词

    垃圾邮件; 客户端; 自学习; 邮件过滤;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号