基于隐含语义分析的微博热点话题发现策略

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

作为一个社会化媒体，微博的应用已经深入到人们的日常生活中，成为大家发布和传播信息、获取知识的重要平台。文本是网络信息的主要载体，包含着网民的观点与思想倾向，对网络舆情分析和话题发现具有重大应用价值和研究意义。
　　然而，社会化媒体上的大部分文本信息都属于短文本，短文本信息的不完整性、海量性和奇异性导致舆情分析和热点话题发现十分困难。本文首先分析了中文微博信息的特点，然后结合国内外话题发现的研究现状和相关技术，提出一个适用于中文微博的热点话题发现方法。论文主要做了以下几个方面的工作：
　　（1）短文本固有的特征稀疏和样本类别分布不均衡等特点，使得计算普通文本特征权重的方法难以直接套用。为此，提出一种针对短文本的基于综合类频的特征权重算法。该算法引入反文档频和相关性频率的概念，综合考虑了样本在正类和负类中的分布情况。实验表明，相对于其他特征权重方法，该方法的微平均和宏平均值均在90％以上，能增强样本在负类中的类别区分能力，改善短文本分类的查准率和查全率。
　　（2）采用隐含语义分析的方法对微博文本进行分析。传统向量空间模型通常基于特征词的匹配，但网络文本中存在大量的同义、多义词，导致文本相似度的评估结果不够准确。本文对原始的词条-文档矩阵进行奇异值分解，取部分奇异值较大的特征构成一个语义空间，最大限度保留了原矩阵中的有用信息，大幅降低了向量空间的维度。
　　（3）提出基于层次和划分的混合聚类算法。层次聚类方法的特点是精度高，但耗费时间较长；而基于划分的K-means算法聚类速度快，但初始输入参数的随机性会导致聚类结果不稳定。本文在分析了基于层次和划分聚类算法各自的优势与不足之后，提出将基于层次和划分的算法相结合的混合聚类策略。该算法首先对数据集进行凝聚层次聚类，得到聚类个数和初始聚类中心后，再用K-means聚类进一步细化。实验结果表明，该算法在一定程度上改善了话题发现的效率和准确率。
　　（4）根据提出的微博热度的定义，结合综合类频特征权重算法、层次与划分混合聚类算法与隐语义分析模型，提出了基于隐含语义分析的微博客热点话题发现策略，并对其进行验证实践。实践表明，该策略解决了向量空间模型中高维度和同义词问题，所得微博话题更接近真正的热点话题。

著录项

作者
马雯雯;
展开▼
作者单位

重庆大学;

展开▼
授予单位重庆大学;
学科计算机应用技术
授予学位硕士
导师姓名邓一贵;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算机情报检索系统;
关键词
热点话题; 隐含语义; 发现策略; 文本信息; 特征权重算法; 混合聚类;

相似文献

中文文献
外文文献
专利

1. 基于语义分析的微博热点话题发现技术研究 [J] . 柏建普 ,田芳 . 内蒙古科技大学学报 . 2013,第003期
2. 基于隐含语义分析的微博话题发现方法 [J] . 马雯雯 ,魏文晗 ,邓一贵 . 计算机工程与应用 . 2014,第001期
3. 基于隐含语义分析的在线新闻话题发现方法 [J] . 武高敏 ,张宇晨 ,韩京宇 . 计算机技术与发展 . 2016,第009期
4. 基于中心词和LDA的微博热点话题发现研究 [J] . 刘干 ,林杰豪 ,翟雯熠 . 情报杂志 . 2021,第005期
5. 基于两层聚类的微博热点话题发现算法研究 [J] . 李勇 . 自动化技术与应用 . 2021,第011期
6. 基于内容相关度和语义分析的Blog热点话题发现 [C] . 时达明 ,林鸿飞 . 第九届全国计算语言学学术会议 . 2007
7. 微博客热点话题发现策略研究 [A] . 杨冠超 . 2011

基于隐含语义分析的微博热点话题发现策略

目录

摘要

著录项

相似文献

相关主题

期刊订阅