垃圾邮件行为模式识别与过滤方法研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

电子邮件已经成为现代人际交流的一种最常见的方式。但是，SMTP(SimpleMail Transfer Protocol：简单邮件传输协议)协议的不完善，尤其是对电子邮件发送者没有做任何的身份鉴别和控制，使得垃圾邮件越来越泛滥。
　　垃圾邮件过滤是个复杂的问题，虽然存在许多相关研究，也获得了很多成果，但是在技术上目前还没有哪一种方法能完美地过滤所有的垃圾邮件。随着伪装技术的发展，垃圾邮件也越来越隐晦，致使基于内容过滤的误判率也很高，而对大量疑似垃圾邮件，基于内容的过滤也耗费了大量的处理时间。因此，必须寻求新的方法和算法。
　　提出了基于数据挖掘的行为识别垃圾邮件过滤系统框架。对采集的数据提取行为特征，并将行为特征分为会话行为特征、信头行为特征和统计行为特征，采用特征选择算法选择能够有效地预测训练数据类属性的特征，经数据预处理，从数据中挖掘出垃圾邮件行为判定规则的知识。
　　提出了基于多级结构的垃圾邮件行为模式挖掘模型，针对不同类型的行为特征，采用不同的模式挖掘算法：对MTA(Mail Transport Agent：邮件传输代理)会话阶段的行为特征，提出了基于决策树的垃圾邮件发送行为识别模型。它不需要接收整封邮件，通过挖掘邮件会话过程中所表现出的行为特征，在会话阶段提前过滤掉垃圾邮件。对用户发送行为采用直方图距离法来检测异常用户发送行为。通过计算附件的指纹特征、统计特征，构建附件的特征向量，利用支持向量机模型来对垃圾邮件的附件行为建模。计算URL(Uniform Resource Locator：统一资源定位)之间的相似度，构建包含相似URL的群组，通过计算样本与URL群组的最小距离并转换成分类输出的置信度来判别垃圾邮件行为。
　　由于传统的贝叶斯垃圾邮件过滤在误判和漏判带来的损失方面没有进行关注，提出了一种贝叶斯算法的改进算法，引入了损失因子，在不降低正确率的情况下，使得垃圾邮件误判的风险减到最低。若选择合适的损失因子，正确率和召回率都能达到一个比较理想的效果。利用该算法将各模型判别结果关联起来，通过对联合贝叶斯模型和附件模型、发送发送行为模型、URL模型的性能比较，验证了改进的贝叶斯联合模型相对单个模型来说，能够较大地提高分类性能。
　　提出了基于模糊决策树的分类方法。由于绝对明确的属性并不总是存在于现实世界中，属性隶属度能更自然和合理地描述行为特征，因此相对于清晰决策树来说，模糊决策树更适合。模糊决策树算法使得决策树学习的应用范围扩大从而能够处理不确定性，它合理地处理了学习和推理过程中的不精确信息，具有更强的分类能力及稳健性,由于能生成不同水平和不同置信度的规则,为决策者提供丰富的决策信息。
　　设计了基于行为模式识别和其它过滤技术相结合的邮件过滤系统MailGate，并进行了原型实现。实验结果表明MailGate对垃圾邮件过滤的召回率和误判率能够达到较好的效果。

著录项

作者
王美珍;
展开▼
作者单位

华中科技大学;

展开▼
授予单位华中科技大学;
学科计算机系统结构
授予学位博士
导师姓名李芝棠;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类模式识别与装置;
关键词
垃圾邮件; 模式识别; 过滤方法; 身份鉴别;

相似文献

中文文献
外文文献
专利

1. 应用行为模式识别的垃圾邮件过滤技术 [J] . 王兆华 . 计算机光盘软件与应用 . 2012,第003期
2. 反垃圾邮件行为模式识别技术的应用 [J] . 张志华 . 肇庆学院学报 . 2007,第005期
3. 基于行为模式识别的反垃圾邮件技术 [J] . 何建昭 ,梁晓诚 ,郭红宾 . 电脑知识与技术：学术交流 . 2007,第002期
4. 基于行为模式识别的反垃圾邮件技术 [J] . 何建昭 ,梁晓诚 ,郭红宾 . 电脑知识与技术 . 2007,第004期
5. 反垃圾邮件技术不卖"过期药"行为模式识别成技术主流 [J] . 郑海明 . 中国教育网络 . 2005,第010期
6. 隐私保护的自适应垃圾邮件过滤方法研究 [C] . 杨震 ,范科峰 ,雷建军 . 第二届中国计算机网络与信息安全学术会议 . 2009
7. 基于行为识别的垃圾邮件过滤系统的研究与实现 [A] . 文娅 . 2019

垃圾邮件行为模式识别与过滤方法研究

摘要

著录项

相似文献

相关主题

期刊订阅