首页> 中文学位 >一种基于向量空间的多语言反垃圾短信系统的设计和实现
【6h】

一种基于向量空间的多语言反垃圾短信系统的设计和实现

代理获取

目录

文摘

英文文摘

声明及学位论文使用授权声明

1绪论

2文本分类中常用的机器学习方法

3中文文本自动分词

4训练模块

5 训练结果评测模块

6用户端模块

7 总结与展望

致谢

参考文献

展开▼

摘要

现代社会很多的信息传递都是依靠手机进行的,手机短信就是其中一种重要的形式。正常的短信增进了我们个人与社会的沟通,这也正是短信能蓬勃发展的原因。但现在正有越来越多的人利用短信的高阅读率来发送各类垃圾短信,这类短信包括广告,欺诈等。这类短信已严重影响了我们的日常生活,如何有效的识别并隔离这些垃圾短信已成为研究热点。 本文研究了采用向量空间模型从内容上对短信进行分类的方法。在向量空间模型方法使用的过程中,我们把本系统分成了三个主要部分。第一部分训练模块,第二部分训练结果评测,第三部分用户端模块。其中,第一和第二部分已在台式电脑上得以实现,第三部分在windows mobile平台的智能手机上得以实现。 在训练中,根据训练样本应用向量空间模型的方法来得到属性列表和机器学习模型文件,在机器学习模型文件中就包含了两个类别中心向量。在训练结果评测过程中,应用夹角余弦法这种计算简单向量距离的方法求出各测试向量与各个类别中心向量之间的距离,以此来预测各测试向量的属类。为正常和垃圾短信分别设置正负识别率的阈值,只有当对简繁体中文短信的正负识别率都超过了我们预定的阈值之后,才进入到应用阶段,也就是用户端模块。在这个阶段中,就能直接作用于所收到的短信:它会判断出所接收到的短信是垃圾短信还是正常短信,并根据判断所得到的类别来把所接收到的短信放入手机中特定的文件夹中。实验表明,本系统对简体和繁体中文的短信都取得了较好的识别率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号