声明
致谢
摘要
1引言
1.2国内外现状
1.3课题研究内容
1.4论文的组织安排
2相关理论与技术
2.2文本预处理方法
2.2.1 中文分词
2.2.2去停用词
2.3文本表示模型
2.3.1布尔模型
2.3.2空间向量模型
2.3.3语义分析模型
2.4文本聚类算法
2.4.1 基于划分的聚类算法
2.4.2基于层次的聚类算法
2.4.3基于密度的聚类算法
2.4.4基于网格的聚类算法和其他的聚类算法
2.5评价方法
2.5.1相似度计算
2.5.2聚类的评价
2.6小结
3话题热度度量及热点发现方法
3.1微博特征分析
3.1.1属性选择
3.1.2特性分析
3.2基于LDA的微博话题提取
3.2.1主题模型
3.2.2 LDA主题建模
3.2.3参数估计方法
3.2.4 LDA模型处理过程
3.3话题热度模型
3.3.1用户影响力计算
3.3.2微博影响力计算
3.3.3话题热度度量
3.4小结
4微博数据流热点话题发现系统构建
4.1整体架构
4.2流式处理框架
4.3数据获取
4.3.1数据获取方式选择
4.3.2爬虫策略
4.4数据预处理及结果
4.4.1用户的筛选
4.4.2正文信息数据预处理
4.5热点话题发现
4.5.1 LDA模型训练
4.5.2推测文档的话题
4.5.3时间窗口的设定
4.6结果展示模块架构选择与分析
4.6.1前后端MVC架构
4.6.2结果展示处理流程
4.7小结
5结果与分析
5.2.1 相似度
5.2.2困惑度
5.3LDA参数分析
5.3.1迭代次数
5.3.2最优主题个数
5.4 LDA模型训练以及文档分析
5.4.1 模型训练
5.4.2模型在线使用
5.4.3结果展示
5.5小结
6.1总结
6.2展望
参考文献
作者简历及攻读硕士学位期间取得的研究成果
学位论文数据集
北京交通大学;