首页> 中文学位 >基于文本的聊天对象身份验证
【6h】

基于文本的聊天对象身份验证

代理获取

目录

基于文本的聊天对象身份验证

Chat Mining for authorship Verification

摘 要

Abstract

目 录

第1章 绪论

1.1 课题研究的目的及意义

1.2 国内外相关技术发展现状

1.2.1 特征提取方法的发展概况

1.2.2 身份验证的发展

第2章 文本分类技术

2.1 引言

2.2 文本的向量空间表示

2.3 特征选择

2.4 几种常用的分类方法

2.4.1 单分类神经网络

2.4.2 单类支持向量机

2.5 本章小结

第3章 改进的特征选择算法和系统实现

3.1 引言

3.2 特征提取

3.2.1 常规的特征提取方法

3.2.2 改进的特征选择方法

3.2.3 基于聊天领域的特征

3.3 系统实现

3.3.1 系统架构

3.3.2 初始数据库的建立

3.3.3 数据更新

3.3.4 测试对象

3.4 本章小结

第4章 实验结果及分析

4.1 实验数据

4.2 评价方法

4.3 实验结果及分析

4.3.1 验证“一对多”方法解决作者验证问题的缺陷

4.3.2 确定合适的样本长度

4.3.3 虚词特征方法的比较

4.3.4 上同类特征的比较

4.3.5 上同分类方法的比较

4.4 本章小结

结 论

参考文献

哈尔滨工业大学硕士学位论文原创性声明

哈尔滨工业大学硕士学位论文使用授权书

致 谢

展开▼

摘要

随着互联网的迅速普及,它已经成为我们生活中不可或缺的一部分,在它带给我们极大便利的同时,网络安全也越来越受到人们的关注。即时通讯,作为网络的一个重要分支,也自然成为众多黑客和不法分子攻击和利用的对象。在我们利用即时通讯工具进行聊天的过程中,由于对方身份的模糊性,使得一些有不良企图的人有了可乘之机,通过窃取或者冒用别人的账号发布一些恶意链接或者虚假欺诈信息以获取非法利益。
  传统的对于作者身份验证问题的研究适合于解决有较长文本作为训练数据的问题,比如著作权归属问题或者作弊系统的开发;但是,由于我们聊天时的消息文本一般比较短,而且对于中文语料和英文语料在处理上也存在很大的不同,使得我们很难将以前的方法直接应用到这个问题。
  本课题借鉴了处理作者身份识别问题的一些方法,同时在以下方面对其提出改进:
  1.提取虚词。我们采用对比提取的方式,有针对性的提取出那些有别于其他人的特征;另外,我们发现很多针对即时通信领域的特定的一些特征对分类也有积极的影响,比如表情符号,网络流行语等;
  2.处理中文语料。N-Gram算法在处理英文语料的时候被频繁使用,但如果我们直接将其应用到中文语料,则提取的特征值过于稀疏,对分类帮助不大,所以我们考虑将汉字转化成其他形式,以解决特征过于稀疏的问题;
  3.分类。大量的文献已经证实SVM对于处理作者身份识别这种多分类问题时效果最好,而且作者身份验证的问题时许多文献沿用了SVM作为分类器,本课题中,我们改进了后向传播算法以使其能够处理单分类问题。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号