首页> 中国专利> 一种面向实时微博消息流的在线突发事件检测方法

一种面向实时微博消息流的在线突发事件检测方法

摘要

本发明公开了一种面向实时微博消息流的在线突发事件检测方法,属于互联网信息管理领域。实时接收微博消息流,计算微博消息的原始微博的关注度,选取原始微博中的潜在突发消息,将满足潜在突发消息条件的微博消息m

著录项

  • 公开/公告号CN105119807A

    专利类型发明专利

  • 公开/公告日2015-12-02

    原文格式PDF

  • 申请/专利权人 哈尔滨工程大学;

    申请/专利号CN201510419763.4

  • 申请日2015-07-17

  • 分类号H04L12/58;H04L12/26;

  • 代理机构

  • 代理人

  • 地址 150001 黑龙江省哈尔滨市南岗区南通大街145号哈尔滨工程大学科技处知识产权办公室

  • 入库时间 2023-12-18 12:40:40

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-05-17

    授权

    授权

  • 2015-12-30

    实质审查的生效 IPC(主分类):H04L12/58 申请日:20150717

    实质审查的生效

  • 2015-12-02

    公开

    公开

说明书

技术领域

本发明属于互联网信息管理领域,尤其涉及一种面向实时微博消息流的在线突发事件检 测方法。

背景技术

微博已经成为网民获取信息的重要途径之一并且从满足人们弱关系的社交需求上逐渐演 变成为大众化的舆论平台,越来越多组织机构及公众人物都通过微博来发布或传播信息。随 着信息量的膨胀和参与用户数量的激增,微博已经成为互联网舆情形成的主要网络媒体之一。 由于微博的即时性、自主性以及互动性,使得许多突发事件发生后,微博作为人们信息发布 的主要载体为突发事件提供了第一传播平台,包括自然灾害以及社会民生等问题引起等突发 事件,微博都是最早的信息来源。

微博消息流具有实时性强、消息数量规模巨大等特点,首先针对海量实时微博消息流构 建高效且易扩展的消息流实时处理模型是在线突发事件检测首要解决的问题之一。其次,由 于微博消息具有短文本、噪声大、内容实体多样化等特点,如何面向实时微博消息流设计适 用于中文微博特性的突发事件检测算法是在线微博突发事件检测区别于其他媒体平台亟需解 决的问题。

传统的微博突发事件检测方法没有针对微博消息流构建高效的分布式消息流实时处理模 型,同时由于微博短文本、噪声大、内容实体多样化等特点会导致突发事件检测结果的准确 率较低。

发明内容

本发明的目的是提供一种能够提高突发事件检测的实时性和准确度的,一种面向实时微 博消息流的在线突发事件检测方法。

一种面向实时微博消息流的在线突发事件检测方法,包括以下几个步骤:

步骤一:实时接收微博消息流,计算微博消息的原始微博的关注度,选取原始微博中的潜在 突发消息,潜在突发消息满足的条件为

(mi.c_num+mi.r_num)≥PBT

其中,PBT为潜在突发阈值,

将满足潜在突发消息条件的微博消息mi分发至监测服务器s,微博消息mi和监测服务器 s的关系为:

s=mi.root_mid%|S|

步骤二:各个消息监测节点实时接收并存储微博消息,建立基于时间窗口和二层哈希表的微 博消息存储及更新模型,将实时微博消息存储或者更新在二层哈希表中;

步骤三:利用突发消息检测方法提取二层哈希表中存储突发消息集合;

步骤四:对突发消息集合中的突发消息进行预处理,融合事件特征对时间窗口内突发消息进 行增量聚类分析,每个聚类中心即为微博突发事件。

本发明一种面向实时微博消息流的在线突发事件检测方法,还可以包括:

1、基于时间窗口和二层哈希表的微博消息存储及更新模型为:

二层哈希表具有两个子哈希表T0和T1,二层哈希表中的子哈希表T1是子哈希表T0的碰撞缓 冲区,|T0|=hs0,|T1|=hs1,且hs1=hs0×r,0<r<1,sloti,j表示子哈希表Ti的第j个槽 位,即sloti,j=Ti,j=(list,ofbuffer)i∈{0,1},j∈[0,hsi),其中list为链接法处理哈希碰撞 的碰撞链,当i=0时,T0的每个槽slot0,j,j∈[0,hs0)都有一个ofbuffer,存储由于slot0,j的碰撞链表的长度已经达到d0需要插入到T1中的微博消息,sloti,j的碰撞链中每个消息节点 为node=(m,N),其中m为该节点存储的微博消息,N为该消息节点在滑动时间窗口内的 关注度序列。

2、将实时微博消息存储或者更新在二层哈希表中的方法为:

(1)如果需要处理的微博消息的原始消息不在二层哈希表中,则将该原始消息插入到二 层哈希表中,插入操作分两种情况:子哈希表T0的碰撞链未满,插入到子哈希表T0中;子 哈希表T0中的碰撞链已满,插入到子哈希表T1中,当向T1中插入消息节点node时,便向 ofbuffer尾部插入节点node信息;

(2)如果需要处理的微博消息的原始消息已经在二层哈希表中,则查找并更新该原始消 息对应的节点信息;

(3)如果需要处理的微博消息的原始消息超过算法设定的老化时间,则删除该微博消息 节点信息;

(4)当时间窗口切换时,计算二层哈希表中每个消息节点的历史窗口的关注度序列,并 存储在二层哈希表中。

3、提取二层哈希表中存储突发消息集合的方法为:

mi为二层哈希表中任一消息节点对应的微博消息,Ni=(nK,…,n2,n1)为mi对应的关 注度序列,K为滑动时间窗口大小,WT为时间窗口过滤条件,自适应突发阈值为:

BT=mean(MAK)+2*std(MAK)

其中mi.n1为消息mi在当前时间窗口的关注度,MAK为微博消息mi的关注度时间序列 Ni的K窗口移动平均值,

当关注度mi.n1>BT时,将微博消息mi加入到突发消息集合BM。

4、融合事件特征对时间窗口内突发消息进行增量聚类分析方法为:

BM0为当前时间窗口突发消息集合,BE0为突发事件集合,MT为相似度阈值,对于 计算当前时间窗口突发消息bmi与突发事件Ej的相似度Si,j

Si,j=2*|bmi.FE∩Ej.F|+|bmi.NFE∩Ej.F|

如果则将当前时间窗口突发消息bmi合并到突发事件Ej中并更新突发事 件Ej中消息、用户以及特征集合;否则为当前时间窗口突发消息bmi建立新聚类中心并加 到突发事件集合BE0

有益效果:

本发明提出了一种面向微博消息流的在线突发事件检测方法,首先基于滑动时间窗口构 建高效的二层哈希表模型并提出一个自适应调整突发阈值的突发消息检测算法,然后采用融 合事件特征的在线突发事件检测算法对突发消息进行增量聚类分析从而检测突发事件,该方 法能够更加准确地检测实时微博消息流中的突发事件。

本发明针对海量微博消息流提出了一个面向实时微博消息流的分布式实时处理模型,该 模型根据时间窗口对微博消息流进行切分,并设计一个高效的二层哈希表结构存储及更新各 个时间窗口内的潜在突发消息,该模型适用于处理实时微博消息流,具有较强的可扩展性。

本发明提出了一个自适应调整突发阈值的突发消息检测算法,该算法能够根据历史窗口 自适应调整突发阈值从而检测突发消息,为后续突发事件检测奠定基础。

本发明针对微博消息的短文本、噪声大等特点提出了一个基于时间窗口的在线突发事件 检测方法,该方法融合事件特征并对时间窗口内突发消息进行单遍聚类,能够有效的过滤事 件无关消息形成的聚类结果,提高突发事件检测准确率。

附图说明

图1是本发明提供的微博突发事件检测的方法的流程图。

图2是本发明提供的二层哈希表结构的示意图。

具体实施方式

下面将结合附图对本发明做进一步详细说明。

本发明的目的是提供一种面向实时微博消息流的突发事件检测方法,以提高突发事件检 测的实时性和准确度。此方法将微博消息流中分发至不同的消息监测节点;各个消息监测节 点实时接收微博消息,将实时微博消息存储或更新在二层哈希表中;利用突发消息检测算法 提取二层哈希表中存储突发消息集合;融合事件特征对时间窗口内突发消息进行增量聚类分 析,每个聚类中心即为微博突发事件。

为实现上述发明目的,本发明提供一种面向实时微博消息流的突发事件检测方法,其包 括以下四个步骤:

步骤A:将微博消息流分发至不同的消息监测节点;

步骤B:各个消息监测节点实时接收并存储微博消息,将实时微博消息存储或者更新在二 层哈希表中;

步骤C:利用突发消息检测算法提取二层哈希表中存储突发消息集合;

步骤D:融合事件特征对时间窗口内突发消息进行增量聚类分析,每个聚类中心即为微博 突发事件。

所述步骤A中的将微博消息流分发至不同的消息监测节点的步骤为:

步骤A1:计算微博消息流中微博消息的原始微博的关注度;

步骤A2:根据微博消息的原始微博消息ID以及消息监测节点的数量自适应将微博消息分 发至不同的消息监测节点;

所述步骤B中的各个消息监测节点实时接收微博消息,将实时微博消息存储或者更新在 二层哈希表中的步骤为:

步骤B1:各个消息监测节点实时接收微博消息;

步骤B2:建立基于时间窗口和二层哈希表的微博消息存储及更新模型将实时微博消息存 储在二层哈希表中,同时更新微博消息节点信息并生成滑动时间窗口内的消息关注度序列;

所述的步骤C中的利用突发消息检测算法提取二层哈希表中存储突发消息集合的步骤为:

步骤C1:时间窗口切换时,遍历二层哈希表中每个微博消息节点;

步骤C2:利用突发消息检测算法判断微博消息节点是否为突发消息。

所述的步骤D中的融合事件特征对时间窗口内突发消息进行增量聚类分析的步骤为:

步骤D1:突发消息预处理;

步骤D2:融合事件特征对时间窗口内突发消息进行增量聚类分析,提取突发事件。

本发明公开了一种面向实时微博消息流的在线突发事件检测方法。所述方法包括:将微 博消息流中分发至不同的消息监测节点;各个消息监测节点实时接收微博消息,将实时微博 消息存储或更新在二层哈希表中;利用突发消息检测算法提取二层哈希表中存储突发消息集 合;融合事件特征对时间窗口内突发消息进行增量聚类分析,每个聚类中心即为微博突发事 件。

一、基于时间窗口和二层哈希表的微博消息存储及更新模型的构造方法为:

二层哈希表具有两个子哈希表T0和T1,分别对应着哈希函数hash0(M)和hash1(M),二 层哈希表中的子哈希表T1是子哈希表T0的碰撞缓冲区,|T0|=hs0,|T1|=hs1,且 hs1=hs0×r,0<r<1,sloti,j表示子哈希表Ti的第j个槽位,即 sloti,j=Ti,j=(list,ofbuffer)i∈{0,1},j∈[0,hsi),其中list为链接法处理哈希碰撞的碰 撞链,当i=0时,T0的每个槽slot0,j,j∈[0,hs0)都有一个ofbuffer,存储由于slot0,j的 碰撞链表的长度已经达到d0需要插入到T1中的微博消息,sloti,j的碰撞链中每个消息节点 表示为node=(m,N),其中m为该节点存储的微博消息,N为该消息节点在滑动时间窗 口内的关注度序列,sloti,j.node.nk表示node消息节点在第k个历史时间窗口的关注度,第 k个历史时间窗口的关注度定义为在第k个时间窗口内该消息被转发和评论的总数。

二、将实时微博消息存储或者更新在二层哈希表中的方法为:

(1)当需要处理的微博消息的原始消息不在二层哈希表中时,则将该原始消息插入到二 层哈希表中,插入操作分两种情况:子哈希表T0的碰撞链未满,插入到子哈希表T0中;子 哈希表T0中的碰撞链已满,插入到子哈希表T1中。具体流程为:对于消息流中的消息mi, 首先用hash0(mi.root_mid)计算微博消息在子哈希表T0中对应的位置,如果该槽位未 满,则创建新节点node并将node插入到该槽位的冲突链表头。如果该槽位已满,则用 hash1(mi.root_mid)计算微博消息在子哈希表T1中对应的槽位并创建新节点node插入到 该槽位的链表头。当向T1中插入消息节点node时,便向ofbuffer尾部插入节点node信 息。

(2)当需要处理的微博消息的原始消息已经在二层哈希表中,则查找并更新该原始消息 对应的节点信息。在查找微博消息时,先消耗一个内存访问周期由bloomfiltercounter算 法来预先判断该微博消息是否在T1中,能够降低最坏情况时的内存访问次数。当查找到微 博消息在二层哈希表中的位置时更新该消息节点在当前时间窗口的关注度等微博消息节点信 息。

(3)当需要处理的微博消息的原始消息超过算法设定的老化时间,则删除该微博消息节 点信息从而减少二层哈希表存储的节点规模。删除操作保持T1为T0的碰撞链缓冲区的性 质,首先要确定待删除节点node所属的子哈希表及其所属的哈希槽slot,如果node在T0中,则将node从所在的碰撞链表中移除,然后判断node所在的碰撞链溢出信息ofbuffer 是否为空,若不为空,将ofbuffer的头节点插入到slot.list中,并把该头结点从ofbuffer和 子哈希表T1中删除;如果node在T1中,则将node从所在的碰撞链表中移除。

(4)当时间窗口切换时,计算二层哈希表中每个消息节点的历史窗口的关注度序列,并 存储在二层哈希表中。

三、突发消息监测算法为:

突发消息检测算法中假设mi为二层哈希表中任一消息节点对应的微博消息, Ni=(nK,…,n2,n1)为mi对应的关注度序列,K为滑动时间窗口大小,WT为时间窗口过滤 条件。首先计算mi的关注度时间序列Ni的K窗口移动平均值MAK,然后计算mi自适应突 发阈值BT,。自适应突发阈值计算方法为:

BT=mean(MAK)+2*std(MAK)

其中mi.n1为消息mi在当前时间窗口的关注度,当mi.n1>BT时,将mi加入到突发消息 集合BM。

四、突发消息预处理方法为:

首先去除文本信息中的用户昵称以及非法字符、提取URL、标签文本、非标签文本,利用 ICTCLAS分词系统对标签文本及非标签文本进行分词,根据标签与非标签文本中提取的动 词、名词以及文本中包含的URL等实体描述突发消息,然后通过志愿者人工标注的突发事件 的事件特征词与描述突发消息的实体集合匹配从而提取事件特征词,最后将标签词、事件特 征词、URL作为突发消息的特征实体,其它词作为普通实体。对于任意一条突发消息bmi可 以形式化表示为bmi=(FE,NFE),其中FE为特征实体集合,NFE为普通实体集合。

五、融合事件特征对时间窗口内突发消息进行增量聚类分析方法为:

假设BM0为当前时间窗口突发消息集合,BE0为突发事件集合,MT为相似度阈值, 对于计算bmi与Ej的相似度Si,j,相似度计算公式如下:

Si,j=2*|bmi.FE∩Ej.F|+|bmi.NFE∩Ej.F|

如果则将bmi合并到Ej中并更新Ej中消息、用户以及特征集合;否则为bmi建立新聚类中心并加到突发事件集合BE0

本发明在描述详细方法之前,给出如下定义:

定义1.微博消息.微博网络中任意一条微博消息m可以用九元组形式化定义为:

m=(mid,root_mid,uid,c_num,r_num,root_cont,time,root_time,type)

其中,mid为当前消息标识,root_mid为原始消息标识,uid为发布当前消息的用户 标识,c_num为原始消息评论数,r_num为原始消息转发数,root_cont为原始消息内 容,time为当前消息的发布时间,root_time为原始消息的发布时间,type为消息类型, 当微博消息为原创消息时root_mid,c_num,r_num,root_cont,root_time的值 为空。

定义2.微博消息流.微博消息流M由微博消息按照发布时间先后顺序构成,形式化定义 为:

M=[m1,m2,…,mi,…,mN]

其中,mi满足若i<j,则mi的发布时间小于mj的发布时间。

定义3.滑动时间窗口.微博消息流M按照时间和消息数目动态划分到L个时间窗口中, 形式化定义为:

M=[W1,…,Wj,…,WL]

其中,Wj为时间窗口,且满足假设当前时间窗口为WL,滑动时间窗口大小 为K,SW=[WL-K+1,…,WL]即为当前窗口的滑动时间窗口。

定义4.突发消息.在滑动时间窗口SW内,微博消息m满足在当前时间窗口WL被大量 微博用户关注,而在窗口WL-K+1到窗口WL却很少被微博用户关注,则微博消息m为突发 消息。

定义5.突发事件.突发事件E可以形式化描述为E=[M,U,F],其中M为突发事件关 联的微博消息集合,关联的微博消息在语义上相关,并且集合中至少有一条消息为事件关联 的突发消息,U为突发事件用户集合,F为描述突发事件的特征集合,特征可以为关键词、 URL等。

图1是本发明实施例提供的面向微博文本流的突发关键词检测方法的实现流程图,该方 法详述如下:

在步骤101中,将微博消息流分发至不同的消息监测节点。

单个处理节点无法实时存储与处理如此大规模的实时微博数据流,本发明将非原创潜在 突发消息分发至不同的消息监测节点。

示例性地,假设M为全量微博消息流,S为消息监测节点集合,判定微博消息中的微博 消息mi为潜在突发消息的判定条件为:

(mi.c_num+mi.r_num)≥PBT

其中,PBT为潜在突发阈值。

当微博消息mi为潜在突发消息,则计算该微博消息的消息监测节点标识s,将微博消息 mi分发至监测服务器s,具体计算公式如下:

s=mi.root_mid%|S|

在步骤102中,各个消息监测节点实时接收并存储微博消息,将实时微博消息存储或者 更新在二层哈希表中。

示例性地,消息监测节点接收的微博消息流的微博消息标识具有高度规则性,面向微博 消息流的突发消息检测可以根据原创消息标识对微博消息依次执行消息存储和更新操作。利 用哈希算法对微博消息流中的微博消息进行插入、查找和删除操作的平均时间代价均为 O(1),具有理想的时间复杂度与空间复杂度。

当哈希表大小不变,微博消息流量增大时,哈希表的冲突碰撞会越来越严重。当最坏的 情况发生时,将可能阻塞微博消息流分发甚至丢失微博消息。大部分哈希碰撞处理方法都以 提高平均吞吐率为目标,并没有考虑到当碰撞问题严重时,将会严重影响查找操作的时间复 杂度。哈希碰撞问题带来的不确定性有可能极大地降低微博消息流的存储及更新速度。为了 更好的解决这个问题,本文提出了基于滑动时间窗口的二层哈希表来管理微博消息流,该二 层哈希表简要结构如图2所示。

二层哈希表具有两个子哈希表T0和T1,分别对应着哈希函数hash0(M)和hash1(M), 两个哈希函数相互独立并且分别选取自两个全域哈希类。二层哈希表中的子哈希表T1是子哈 希表T0的碰撞缓冲区,对于微博消息流中的任意一条微博消息mi,首先利用 hash0(mi.root_mid)把微博消息mi映射到子哈希表T0中对应的链表上。如果子哈希表T0对应链表的长度超过d0,那么利用hash1(mi.root_mid)将消息mi映射到子哈希表T1中。 设|T0|=hs0,|T1|=hs1,且hs1=hs0×r,0<r<1,假设sloti,j表示子哈希表Ti的第j个槽 位,即sloti,j=Ti,j=(list,ofbuffer)i∈{0,1},j∈[0,hsi),其中list为链接法处理哈希碰撞 的碰撞链当i=0时,T0的每个槽slot0,j,j∈[0,hs0)都有一个ofbuffer,存储由于slot0,j的碰撞链表的长度已经达到d0需要插入到T1中的微博消息。子哈希表T0碰撞链的长度不是 没有限制的,限定最大长度为d0,即对于i=0,j∈[0,hsi),0≤length(sloti.j.list)≤d0, 当d0=1时表示子哈希表T0不允许发生碰撞。sloti,j的碰撞链中每个消息节点可以形式化表 示为node=(m,N),其中m为该节点存储的微博消息,N为该消息节点在滑动时间窗口内 的关注度序列,sloti,j.node.nk表示node消息节点在第k个历史时间窗口的关注度,第k个 历史时间窗口的关注度定义为在第k个时间窗口内该消息被转发和评论的总数。

当需要处理的微博消息的原始消息不在二层哈希表中时,则将该原始消息插入到二层哈 希表中,插入操作分两种情况:子哈希表T0的碰撞链未满,插入到子哈希表T0中;子哈希 表T0中的碰撞链已满,插入到子哈希表T1中。具体流程为:对于消息流中的消息mi,首先 用hash0(mi.root_mid)计算微博消息在子哈希表T0中对应的位置,如果该槽位未满,则创 建新节点node并将node插入到该槽位的冲突链表头。如果该槽位已满,则用 hash1(mi.root_mid)计算微博消息在子哈希表T1中对应的槽位并创建新节点node插入到 该槽位的链表头。子哈希表T0每个槽位的碰撞链溢出缓冲区ofbuffer存储由于T0中对应槽 位的碰撞链已满而插入到子哈希表T1中的微博消息节点信息。当向T1中插入消息节点node 时,便向ofbuffer尾部插入节点node信息。由插入二层哈希表的规则可知,子哈希表T1中 的碰撞链是按照插入时间排列的,即越晚插入的消息节点,在碰撞链的位置越靠前。因此, 在查找微博消息时,无论微博消息在子哈希表T0中或者在子哈希表T1中都从碰撞链的头部 开始查找,能够减少查找操作的平均访问内存次数。

当需要处理的微博消息的原始消息已经在二层哈希表中,则查找并更新该原始消息对应 的节点信息。在查找微博消息时,先消耗一个内存访问周期由bloomfiltercounter算法来预先 判断该微博消息是否在T1中,能够降低最坏情况时的内存访问次数。最坏情况发生时,微博 消息应该在T1中,通过预先判断只需要在T1中查找微博消息,不再从T0中查找,显然降低 了内存访问次数。当查找到微博消息在二层哈希表中的位置时更新该消息节点在当前时间窗 口的关注度等微博消息节点信息。虽然二层哈希表算法增加了查找操作普通情况时的内存访 问次数,但是降低了最坏情况时的内存访问次数,通过这种方式降低了最坏情况发生的概率 以及发生时的内存访问次数的期望。

当需要处理的微博消息的原始消息超过算法设定的老化时间,则删除该微博消息节点信 息从而减少二层哈希表存储的节点规模。删除操作需要保持T1为T0的碰撞链缓冲区的性质, 首先要确定待删除节点node所属的子哈希表及其所属的哈希槽slot,如果node在T0中, 则将node从所在的碰撞链表中移除,然后判断node所在的碰撞链溢出信息ofbuffer是否为 空,若不为空,将ofbuffer的头节点插入到slot.list中,并把该头结点从ofbuffer和子哈希 表T1中删除;如果node在T1中,则将node从所在的碰撞链表中移除。

当时间窗口切换时,计算二层哈希表中每个消息节点的历史窗口的关注度序列,并存储 在二层哈希表中。

在步骤103中,利用突发消息检测算法提取二层哈希表中存储突发消息集合。

示例性地,在步骤102的基础上利用自适应突发消息检测算法判定哈希表中该消息节点 对应的微博消息是否为突发消息。突发消息检测算法中假设mi为二层哈希表中任一消息节点 对应的微博消息,Ni=(nK,",n2,n1)为mi对应的关注度序列,K为滑动时间窗口大小,WT 为时间窗口过滤条件。首先计算mi的关注度时间序列Ni的K窗口移动平均值MAK,然后计 算mi自适应突发阈值BT,计算公式如下:

BT=mean(MAK)+2*std(MAK)

当mi.n1>BT时,将mi加入到突发消息集合BM。其中mi.n1为消息mi在当前时间窗 口的关注度,WT为窗口过滤条件,避免引起由于人类作息时间等因素引起的伪突发现象, BT为突发阈值,该阈值根据消息的历史关注度序列自适应调整,能够有效的解决实时微博 流中的突发阈值设定问题。

在步骤104中,融合事件特征对时间窗口内突发消息进行增量聚类分析,每个聚类中心 即为微博突发事件。

示例性地,在步骤103的基础上按照时间窗口的先后顺序对任一窗口内突发消息集合的 突发消息进行处理,包括两个阶段:消息预处理及突发消息聚类分析。在预处理阶段首先去 除文本信息中的用户昵称以及非法字符、提取URL、标签文本、非标签文本,利用ICTCLAS 分词系统对标签文本及非标签文本进行分词,根据标签与非标签文本中提取的动词、名词以 及文本中包含的URL等实体描述突发消息,然后通过志愿者人工标注的突发事件的事件特征 词与描述突发消息的实体集合匹配从而提取事件特征词,最后将标签词、事件特征词、URL 作为突发消息的特征实体,其它词作为普通实体。因此,对于任意一条突发消息bmi可以形 式化表示为bmi=(FE,NFE),其中FE为特征实体集合,NFE为普通实体集合。在基于时 间窗口的突发消息聚类阶段,首先将第一个时间窗口内的第一个突发消息作为初始聚类中心, 并用突发消息的特征实体描述突发事件,然后利用融合事件特征的突发消息聚类算法检测突 发事件。

在融合事件特征的突发消息聚类算法中假设BM0为当前时间窗口突发消息集合,BE0为 突发事件集合,MT为相似度阈值,对于计算bmi与Ej的相似 度Si,j,相似度计算公式如下:

Si,j=2*|bmi.FE∩Ej.F|+|bmi.NFE∩Ej.F|

如果则将bmi合并到Ej中并更新Ej中消息、用户以及特征集合;否则为bmi建立新聚类中心并加到突发事件集合BE0

通过比较突发消息检测算法识别出的突发消息集合的规模,其规模远远小于实时微博消 息流的规模,在突发消息集合的基础上检测突发事件大大降低了时间复杂度,具有较高的实 时性,因此适用于在线突发事件检测。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号