首页> 中文学位 >基于微博数据流的热点话题发现方法研究及系统设计
【6h】

基于微博数据流的热点话题发现方法研究及系统设计

代理获取

目录

声明

致谢

摘要

1引言

1.2国内外现状

1.3课题研究内容

1.4论文的组织安排

2相关理论与技术

2.2文本预处理方法

2.2.1 中文分词

2.2.2去停用词

2.3文本表示模型

2.3.1布尔模型

2.3.2空间向量模型

2.3.3语义分析模型

2.4文本聚类算法

2.4.1 基于划分的聚类算法

2.4.2基于层次的聚类算法

2.4.3基于密度的聚类算法

2.4.4基于网格的聚类算法和其他的聚类算法

2.5评价方法

2.5.1相似度计算

2.5.2聚类的评价

2.6小结

3话题热度度量及热点发现方法

3.1微博特征分析

3.1.1属性选择

3.1.2特性分析

3.2基于LDA的微博话题提取

3.2.1主题模型

3.2.2 LDA主题建模

3.2.3参数估计方法

3.2.4 LDA模型处理过程

3.3话题热度模型

3.3.1用户影响力计算

3.3.2微博影响力计算

3.3.3话题热度度量

3.4小结

4微博数据流热点话题发现系统构建

4.1整体架构

4.2流式处理框架

4.3数据获取

4.3.1数据获取方式选择

4.3.2爬虫策略

4.4数据预处理及结果

4.4.1用户的筛选

4.4.2正文信息数据预处理

4.5热点话题发现

4.5.1 LDA模型训练

4.5.2推测文档的话题

4.5.3时间窗口的设定

4.6结果展示模块架构选择与分析

4.6.1前后端MVC架构

4.6.2结果展示处理流程

4.7小结

5结果与分析

5.2.1 相似度

5.2.2困惑度

5.3LDA参数分析

5.3.1迭代次数

5.3.2最优主题个数

5.4 LDA模型训练以及文档分析

5.4.1 模型训练

5.4.2模型在线使用

5.4.3结果展示

5.5小结

6.1总结

6.2展望

参考文献

作者简历及攻读硕士学位期间取得的研究成果

学位论文数据集

展开▼

摘要

随着互联网技术的发展以及移动网络的普及,人们之间的沟通交流也越来越频繁,交流方式也越来越丰富。微博提供及时的消息发布和订阅等功能,用户可以随时随地查看或者发布消息,这使得微博受到越来越多用户的喜爱。同时,一些新闻媒体和公众人物的加入,使得微博逐渐成为了一个影响力巨大的舆论社交平台。对微博的舆情监控也越来越被重视,热点话题发现是其中的重要一个环节,可以从众多的数据中分析出人们所关注的事件,对舆论的监控有着重要的意义。
  微博信息最大的特点就是微博文本长度的差异性大,文本类别以短文本居多,并且信息的实时性较强,热点也在实时变化。这给文本的聚类和话题的筛选造成了很大的困难。本文针对这一问题进行研究,提出了一种基于LDA的热点发现模型,并结合Spark平台进行了模型实现和系统设计。本文的主要工作包括:
  1、在话题分析的过程中,提出了一种基于时间窗的模式,使用前一个时间窗口内的数据对LDA模型进行离线训练,利用训练好的模型,使用Spark Streaming在线上对当前时间窗口内的文档做实时的话题分析,得出每篇文档的话题分布,以及通过话题热度公式计算每个话题的热度。每隔固定的时间,使用新采集的数据对模型进行训练并对模型进行更新。
  2、在话题热度计算上,文本对微博的结构和特征进行了分析,结合用户影响力和单条微博影响力的特征,在LDA话题分布结果的基础上提出了一种话题热度的计算方法。为用户的粉丝数,微博的评论数,转发数等设置一定的权重,计算出每条微博的影响力,并以此作为加权值对每个话题求期望得到话题热度。最后,对话题的热度进行排序便可以得到热点话题。
  3、对该模型做了系统实现。信息采集模块使用微博API不停的获取数据,将数据存放到本地数据库。对数据经过分词、去停用词的预处理之后,由语义分析模块进行模型的训练更新、文档的在线话题分析以及话题热度的计算。得到话题分布和话题热度之后,对话题热度进行排序取出当前的热点话题,并在结果展示模块中对热点话题进行展示。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号