首页> 中文学位 >基于用户行为的推特事件检测方法研究
【6h】

基于用户行为的推特事件检测方法研究

代理获取

目录

第一个书签之前

展开▼

摘要

步入Web2.0时代,各种社交媒体繁荣起来,成为人们活跃的另一个世界。推特是最活跃的社交网络平台之一,也是各种数据挖掘工作的热门平台。它不仅提供了海量丰富的数据,而且受益于推特提供的实时数据采集API,用户可以很容易获取推特上的实时数据。基于推特的事件检测就是从这些实时数据中提取有价值事件的方法,可以用于舆论监控、实时预警、减少灾害损失、实时智能决策,也可以作为新闻媒体的消息来源,以提高新闻发布速度、降低成本。 基于推特的事件检测有很多种研究方法,其中最主要的是基于文本聚类的方法。以往基于文本聚类的事件检测方法仅考虑短文本聚合性差的问题,通过引入时间戳、Hashtag等额外的信息来改善该问题。然而,由于推文多噪的特点,这些方法会导致混入更多的噪声推文,从而影响事件检测效果。本文基于流式推文数据,针对推文多噪的特点提出了新的事件检测方法,主要研究内容和创新点如下: (1)针对推文流中存在大量噪声,提出噪声环境的事件检测方法。该方法首先通过增量聚类将推文聚合成事件簇,然后利用事件去重去除描述一个事件的多余推文簇。针对Single-Pass增量聚类顺序性等问题,提出了Batch-Pass增量聚类。它在 Single-Pass 增量聚类前引入预聚类,预聚类采用层次聚类等批量聚类方法,可以有效改善 Single-Pass 增量聚类的顺序性问题,并在一定程度上提高短文本的聚合性。针对社交短文本聚合性差导致的事件簇重复问题,提出基于语义SimHash的事件去重方法,该方法保证事件去重效果,并能适用于大规模实时数据的处理。 (2)针对事件检测结果与现实事件不能完全对应的问题,提出基于用户行为特征的现实事件判定方法。通过对推特用户行为统计特性研究分析,发现用户的不同行为对事件在社交网络传播过程中有不同的作用。通过提取候选事件簇的统计行为特征和突发特征,利用有监督机器学习方法来实现事件判定。该方法通过从候选事件簇的推文文本、元数据中提取用户的统计行为特征,并结合推文的Kleinberg状态序列的突发特征,训练分类器,利用分类器实现对候选事件簇的二分类。 实验结果表明,Batch-Pass 比 Single-Pass 有更好聚类效果,在有噪声的情况下,提出的事件检测方法能检测出数据集中的所有预定义事件,同时比基于Single-Pass 的事件检测方法输出事件的冗余更少,基于用户行为的事件判定方法比基于Word2Vec语义的事件判定方法的准确率高6.88%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号