首页> 中文学位 >基于隐含语义分析的微博热点话题发现策略
【6h】

基于隐含语义分析的微博热点话题发现策略

代理获取

目录

封面

中文摘要

英文摘要

目录

1 绪 论

1.1 研究背景

1.2 微博话题挖掘国内外研究现状

1.3 论文研究内容

1.4 本文的结构安排

2 相关理论与技术

2.1 引言

2.2 话题检测与跟踪

2.3 向量空间模型的原理及局限性

2.4 相似性度量

2.5 文本特征空间降维

2.6 本章小结

3 综合类频特征权重算法

3.1 引言

3.2 无监督的特征权重

3.3 有监督的特征权重

3.4 改进的短文本特征权重方法——综合类频法

3.5 实验结果及分析

3.6本章小结

4 基于层次与划分的混合聚类算法

4.1 引言

4.2 常用聚类算法分析

4.3 混合聚类算法

4.4 实验及结果分析

4.5 本章小结

5 微博热点话题发现实验分析

5.1 引言

5.2 微博热点话题发现策略

5.3 微博文本筛选方法

5.4 隐含语义分析实例验证

5.5 实验结果及分析

5.6 本章小结

6 总结与展望

6.1 本文工作总结

6.2 后续研究的展望

致谢

参考文献

附录

A.作者在攻读硕士学位期间发表的论文目录

B.作者在攻读硕士学位期间参加的科研项目

展开▼

摘要

作为一个社会化媒体,微博的应用已经深入到人们的日常生活中,成为大家发布和传播信息、获取知识的重要平台。文本是网络信息的主要载体,包含着网民的观点与思想倾向,对网络舆情分析和话题发现具有重大应用价值和研究意义。
  然而,社会化媒体上的大部分文本信息都属于短文本,短文本信息的不完整性、海量性和奇异性导致舆情分析和热点话题发现十分困难。本文首先分析了中文微博信息的特点,然后结合国内外话题发现的研究现状和相关技术,提出一个适用于中文微博的热点话题发现方法。论文主要做了以下几个方面的工作:
  (1)短文本固有的特征稀疏和样本类别分布不均衡等特点,使得计算普通文本特征权重的方法难以直接套用。为此,提出一种针对短文本的基于综合类频的特征权重算法。该算法引入反文档频和相关性频率的概念,综合考虑了样本在正类和负类中的分布情况。实验表明,相对于其他特征权重方法,该方法的微平均和宏平均值均在90%以上,能增强样本在负类中的类别区分能力,改善短文本分类的查准率和查全率。
  (2)采用隐含语义分析的方法对微博文本进行分析。传统向量空间模型通常基于特征词的匹配,但网络文本中存在大量的同义、多义词,导致文本相似度的评估结果不够准确。本文对原始的词条-文档矩阵进行奇异值分解,取部分奇异值较大的特征构成一个语义空间,最大限度保留了原矩阵中的有用信息,大幅降低了向量空间的维度。
  (3)提出基于层次和划分的混合聚类算法。层次聚类方法的特点是精度高,但耗费时间较长;而基于划分的K-means算法聚类速度快,但初始输入参数的随机性会导致聚类结果不稳定。本文在分析了基于层次和划分聚类算法各自的优势与不足之后,提出将基于层次和划分的算法相结合的混合聚类策略。该算法首先对数据集进行凝聚层次聚类,得到聚类个数和初始聚类中心后,再用K-means聚类进一步细化。实验结果表明,该算法在一定程度上改善了话题发现的效率和准确率。
  (4)根据提出的微博热度的定义,结合综合类频特征权重算法、层次与划分混合聚类算法与隐语义分析模型,提出了基于隐含语义分析的微博客热点话题发现策略,并对其进行验证实践。实践表明,该策略解决了向量空间模型中高维度和同义词问题,所得微博话题更接近真正的热点话题。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号