首页> 中文学位 >基于Web质量模型特征模型的垃圾评论特征分析与检测
【6h】

基于Web质量模型特征模型的垃圾评论特征分析与检测

代理获取

目录

声明

摘要

1.1 研究背景和意义

1.2 国内外研究现状

1.2.1 垃圾评论内容检测

1.2.2 垃圾评论发布者检测

1.2.3 垃圾评论发布团体检测

1.3 研究内容和目标

1.4 论文结构安排

第2章 垃圾评论检测关键技术研究

2.1 垃圾评论文本分析

2.1.1 垃圾评论特征分析

2.1.2 WebQM特征提取方法

2.2 垃圾评论检测技术

2.2.1 支持向量机分类算法概述

2.2.2 朴素贝叶斯分类算法概述

2.2.3 决策树分类算法概述

2.3 PU学习算法

2.3.1 PU学习算法概述

2.3.2 PU学习算法的优缺点

2.3.3 Scikit-learn

2.4 本章小结

第3章 检测框架设计与数据预处理

3.1 垃圾评论检测框架设计

3.2 数据集构建

3.2.1 黄金标准数据集

3.2.2 亚马逊数据集

3.3 数据预处理

3.4 本章小结

第4章 黄金标准数据集垃圾评论检测

4.1 特征选择与分析

4.1.1 评论内容特征

4.1.2 评论表达特征

4.1.3 特征数据归一化

4.2 垃圾评论检测算法分析与设计

4.2.1 改进型PU学习算法

4.2.2 分类性能评价指标

4.3 检测实验

4.3.1 实验设置

4.3.2 对比实验

4.4 本章小结

第5章 亚马逊数据集垃圾评论检测

5.1 多维特征选择与分析

5.1.1 评论源特征

5.1.2 评论内容特征

5.1.3 评论表达特征

5.2 基于梯度提升的决策树垃圾评论检测

5.2.1 梯度提升决策树算法分析

5.2.2 Xgboost实现

5.3 检测实验

5.4 本章小结

6.1 总结

6.2 展望

致谢

参考文献

攻读硕士学位期间发表的论文

展开▼

摘要

电子商务的快速发展使得在线购物变得普及,商品评论作为最重要的用户反馈,其数量正呈现爆炸性增长。基于公平性以及刺激用户的互动性,电子商务平台大多会公开商品的评论,这使得该类型的用户反馈不仅能指导商家改进服务和产品质量,也能为其他用户的购买决策提供参考。好评率高的商品能吸引更多的购买量,反之则会严重影响销量。基于此,商品评论成为了商家争夺的战场,一些无良商家会通过给自家商品“刷好评”或者给竞争对手的商品“刷差评”的方式误导消费者,导致不正当竞争。
  本文分析了真实和垃圾评论的异同,基于WebQM模型分析垃圾评论的多维度特征,从评论源维度,评论内容维度,以及评论表达维度捕捉垃圾评论的具有高区分度的特点。通过应用或改进两类分类算法,实现垃圾评论检测,取得了较好的检测效果。
  本文采用了两个真实的商品评论数据集。针对已标注的黄金标准数据集,本文从评论内容、评论表达两个维度对垃圾评论与真实评论的不同点进行分析了并提取特征,改进了传统的PU学习算法,应用于垃圾评论检测实验。通过比较不同算法的检测性能,验证改进型PU学习算法在垃圾评论检测中具有优势,实现了86%的F1值。针对未标注的亚马逊数据集,本文首先进行Simhash标注并构建了容量为3000条的实验样本集,通过对数据集中各属性数据特点分析,提取了评论源维度特征,同时基于亚马逊数据的特点扩充了评论内容及评论表达特征。在此基础上,本文对数据集不平衡问题进行处理,将GBDT梯度提升决策树算法应用至亚马逊数据集垃圾评论检测,并与其它算法进行了效果对比,GBDT算法达到最优的88%的F1值,优于其他算法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号