首页> 中国专利> 一种面向实时微博消息流的在线突发事件检测方法

一种面向实时微博消息流的在线突发事件检测方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种面向实时微博消息流的在线突发事件检测方法，属于互联网信息管理领域。实时接收微博消息流，计算微博消息的原始微博的关注度，选取原始微博中的潜在突发消息，将满足潜在突发消息条件的微博消息m

著录项

公开/公告号CN105119807A

专利类型发明专利
公开/公告日2015-12-02

原文格式PDF
申请/专利权人哈尔滨工程大学;
展开▼

申请/专利号CN201510419763.4
发明设计人杨武;董国忠;王巍;苘大鹏;玄世昌;
展开▼

申请日2015-07-17
分类号H04L12/58;H04L12/26;
代理机构
代理人
地址 150001 黑龙江省哈尔滨市南岗区南通大街145号哈尔滨工程大学科技处知识产权办公室
入库时间 2023-12-18 12:40:40

法律信息

法律状态公告日

法律状态信息

法律状态
2019-05-17

授权

授权
2015-12-30

实质审查的生效 IPC(主分类):H04L12/58 申请日:20150717

实质审查的生效
2015-12-02

公开

公开

说明书

技术领域

本发明属于互联网信息管理领域，尤其涉及一种面向实时微博消息流的在线突发事件检测方法。

背景技术

微博已经成为网民获取信息的重要途径之一并且从满足人们弱关系的社交需求上逐渐演变成为大众化的舆论平台，越来越多组织机构及公众人物都通过微博来发布或传播信息。随着信息量的膨胀和参与用户数量的激增，微博已经成为互联网舆情形成的主要网络媒体之一。由于微博的即时性、自主性以及互动性，使得许多突发事件发生后，微博作为人们信息发布的主要载体为突发事件提供了第一传播平台，包括自然灾害以及社会民生等问题引起等突发事件，微博都是最早的信息来源。

微博消息流具有实时性强、消息数量规模巨大等特点，首先针对海量实时微博消息流构建高效且易扩展的消息流实时处理模型是在线突发事件检测首要解决的问题之一。其次，由于微博消息具有短文本、噪声大、内容实体多样化等特点，如何面向实时微博消息流设计适用于中文微博特性的突发事件检测算法是在线微博突发事件检测区别于其他媒体平台亟需解决的问题。

传统的微博突发事件检测方法没有针对微博消息流构建高效的分布式消息流实时处理模型，同时由于微博短文本、噪声大、内容实体多样化等特点会导致突发事件检测结果的准确率较低。

发明内容

本发明的目的是提供一种能够提高突发事件检测的实时性和准确度的，一种面向实时微博消息流的在线突发事件检测方法。

一种面向实时微博消息流的在线突发事件检测方法，包括以下几个步骤：

步骤一：实时接收微博消息流，计算微博消息的原始微博的关注度，选取原始微博中的潜在突发消息，潜在突发消息满足的条件为

(m_i.c_num+m_i.r_num)≥PBT

其中，PBT为潜在突发阈值，

将满足潜在突发消息条件的微博消息m_i分发至监测服务器s，微博消息m_i和监测服务器 s的关系为：

s＝m_i.root_mid％|S|

步骤二：各个消息监测节点实时接收并存储微博消息，建立基于时间窗口和二层哈希表的微博消息存储及更新模型，将实时微博消息存储或者更新在二层哈希表中；

步骤三：利用突发消息检测方法提取二层哈希表中存储突发消息集合；

步骤四：对突发消息集合中的突发消息进行预处理，融合事件特征对时间窗口内突发消息进行增量聚类分析，每个聚类中心即为微博突发事件。

本发明一种面向实时微博消息流的在线突发事件检测方法，还可以包括：

1、基于时间窗口和二层哈希表的微博消息存储及更新模型为：

二层哈希表具有两个子哈希表T₀和T₁，二层哈希表中的子哈希表T₁是子哈希表T₀的碰撞缓冲区，|T₀|＝hs₀，|T₁|＝hs₁，且hs₁＝hs₀×r,0<r<1，slot_i,j表示子哈希表T_i的第j个槽位,即slot_i,j＝T_i,j＝(list,ofbuffer)_，i∈{0,1},j∈[0,hs_i),其中list为链接法处理哈希碰撞的碰撞链，当i＝0时，T₀的每个槽slot_0,j,j∈[0,hs₀)都有一个ofbuffer，存储由于slot_0,j的碰撞链表的长度已经达到d₀需要插入到T₁中的微博消息，slot_i,j的碰撞链中每个消息节点为node＝(m,N)，其中m为该节点存储的微博消息，N为该消息节点在滑动时间窗口内的关注度序列。

2、将实时微博消息存储或者更新在二层哈希表中的方法为：

(1)如果需要处理的微博消息的原始消息不在二层哈希表中，则将该原始消息插入到二层哈希表中，插入操作分两种情况：子哈希表T₀的碰撞链未满，插入到子哈希表T₀中；子哈希表T₀中的碰撞链已满，插入到子哈希表T₁中，当向T₁中插入消息节点node时，便向 ofbuffer尾部插入节点node信息；

(2)如果需要处理的微博消息的原始消息已经在二层哈希表中，则查找并更新该原始消息对应的节点信息；

(3)如果需要处理的微博消息的原始消息超过算法设定的老化时间，则删除该微博消息节点信息；

(4)当时间窗口切换时，计算二层哈希表中每个消息节点的历史窗口的关注度序列，并存储在二层哈希表中。

3、提取二层哈希表中存储突发消息集合的方法为：

m_i为二层哈希表中任一消息节点对应的微博消息，N_i＝(n_K,…,n₂,n₁)为m_i对应的关注度序列，K为滑动时间窗口大小，WT为时间窗口过滤条件，自适应突发阈值为：

BT＝mean(MA_K)+2*std(MA_K)

其中m_i.n₁为消息m_i在当前时间窗口的关注度，MA_K为微博消息m_i的关注度时间序列 N_i的K窗口移动平均值，

当关注度m_i.n₁>BT时，将微博消息m_i加入到突发消息集合BM。

4、融合事件特征对时间窗口内突发消息进行增量聚类分析方法为：

BM₀为当前时间窗口突发消息集合，BE₀为突发事件集合，MT为相似度阈值，对于计算当前时间窗口突发消息bm_i与突发事件E_j的相似度S_i,j：

S_i,j＝2*|bmi.FE∩E_j.F|+|bmi.NFE∩E_j.F|

如果则将当前时间窗口突发消息bm_i合并到突发事件E_j中并更新突发事件E_j中消息、用户以及特征集合；否则为当前时间窗口突发消息bm_i建立新聚类中心并加到突发事件集合BE₀。

有益效果：

本发明提出了一种面向微博消息流的在线突发事件检测方法，首先基于滑动时间窗口构建高效的二层哈希表模型并提出一个自适应调整突发阈值的突发消息检测算法，然后采用融合事件特征的在线突发事件检测算法对突发消息进行增量聚类分析从而检测突发事件，该方法能够更加准确地检测实时微博消息流中的突发事件。

本发明针对海量微博消息流提出了一个面向实时微博消息流的分布式实时处理模型，该模型根据时间窗口对微博消息流进行切分，并设计一个高效的二层哈希表结构存储及更新各个时间窗口内的潜在突发消息，该模型适用于处理实时微博消息流，具有较强的可扩展性。

本发明提出了一个自适应调整突发阈值的突发消息检测算法，该算法能够根据历史窗口自适应调整突发阈值从而检测突发消息，为后续突发事件检测奠定基础。

本发明针对微博消息的短文本、噪声大等特点提出了一个基于时间窗口的在线突发事件检测方法，该方法融合事件特征并对时间窗口内突发消息进行单遍聚类，能够有效的过滤事件无关消息形成的聚类结果，提高突发事件检测准确率。

附图说明

图1是本发明提供的微博突发事件检测的方法的流程图。

图2是本发明提供的二层哈希表结构的示意图。

具体实施方式

下面将结合附图对本发明做进一步详细说明。

本发明的目的是提供一种面向实时微博消息流的突发事件检测方法，以提高突发事件检测的实时性和准确度。此方法将微博消息流中分发至不同的消息监测节点；各个消息监测节点实时接收微博消息，将实时微博消息存储或更新在二层哈希表中；利用突发消息检测算法提取二层哈希表中存储突发消息集合；融合事件特征对时间窗口内突发消息进行增量聚类分析，每个聚类中心即为微博突发事件。

为实现上述发明目的，本发明提供一种面向实时微博消息流的突发事件检测方法，其包括以下四个步骤：

步骤A：将微博消息流分发至不同的消息监测节点；

步骤B：各个消息监测节点实时接收并存储微博消息，将实时微博消息存储或者更新在二层哈希表中；

步骤C：利用突发消息检测算法提取二层哈希表中存储突发消息集合；

步骤D：融合事件特征对时间窗口内突发消息进行增量聚类分析，每个聚类中心即为微博突发事件。

所述步骤A中的将微博消息流分发至不同的消息监测节点的步骤为：

步骤A1：计算微博消息流中微博消息的原始微博的关注度；

步骤A2：根据微博消息的原始微博消息ID以及消息监测节点的数量自适应将微博消息分发至不同的消息监测节点；

所述步骤B中的各个消息监测节点实时接收微博消息，将实时微博消息存储或者更新在二层哈希表中的步骤为：

步骤B1：各个消息监测节点实时接收微博消息；

步骤B2：建立基于时间窗口和二层哈希表的微博消息存储及更新模型将实时微博消息存储在二层哈希表中，同时更新微博消息节点信息并生成滑动时间窗口内的消息关注度序列；

所述的步骤C中的利用突发消息检测算法提取二层哈希表中存储突发消息集合的步骤为：

步骤C1：时间窗口切换时，遍历二层哈希表中每个微博消息节点；

步骤C2：利用突发消息检测算法判断微博消息节点是否为突发消息。

所述的步骤D中的融合事件特征对时间窗口内突发消息进行增量聚类分析的步骤为：

步骤D1：突发消息预处理；

步骤D2：融合事件特征对时间窗口内突发消息进行增量聚类分析，提取突发事件。

本发明公开了一种面向实时微博消息流的在线突发事件检测方法。所述方法包括：将微博消息流中分发至不同的消息监测节点；各个消息监测节点实时接收微博消息，将实时微博消息存储或更新在二层哈希表中；利用突发消息检测算法提取二层哈希表中存储突发消息集合；融合事件特征对时间窗口内突发消息进行增量聚类分析，每个聚类中心即为微博突发事件。

一、基于时间窗口和二层哈希表的微博消息存储及更新模型的构造方法为：

二层哈希表具有两个子哈希表T₀和T₁，分别对应着哈希函数hash₀(M)和hash₁(M)，二层哈希表中的子哈希表T₁是子哈希表T₀的碰撞缓冲区，|T₀|＝hs₀，|T₁|＝hs₁，且 hs₁＝hs₀×r,0<r<1，slot_i,j表示子哈希表T_i的第j个槽位,即 slot_i,j＝T_i,j＝(list,ofbuffer)_，i∈{0,1},j∈[0,hs_i),其中list为链接法处理哈希碰撞的碰撞链，当i＝0时，T₀的每个槽slot_0,j,j∈[0,hs₀)都有一个ofbuffer，存储由于slot_0,j的碰撞链表的长度已经达到d₀需要插入到T₁中的微博消息，slot_i,j的碰撞链中每个消息节点表示为node＝(m,N)，其中m为该节点存储的微博消息，N为该消息节点在滑动时间窗口内的关注度序列，slot_i,j.node.n_k表示node消息节点在第k个历史时间窗口的关注度，第 k个历史时间窗口的关注度定义为在第k个时间窗口内该消息被转发和评论的总数。

二、将实时微博消息存储或者更新在二层哈希表中的方法为：

(1)当需要处理的微博消息的原始消息不在二层哈希表中时，则将该原始消息插入到二层哈希表中，插入操作分两种情况：子哈希表T₀的碰撞链未满，插入到子哈希表T₀中；子哈希表T₀中的碰撞链已满，插入到子哈希表T₁中。具体流程为：对于消息流中的消息m_i，首先用hash₀(m_i.root_mid)计算微博消息在子哈希表T₀中对应的位置，如果该槽位未满，则创建新节点node并将node插入到该槽位的冲突链表头。如果该槽位已满，则用 hash₁(m_i.root_mid)计算微博消息在子哈希表T₁中对应的槽位并创建新节点node插入到该槽位的链表头。当向T₁中插入消息节点node时，便向ofbuffer尾部插入节点node信息。

(2)当需要处理的微博消息的原始消息已经在二层哈希表中，则查找并更新该原始消息对应的节点信息。在查找微博消息时，先消耗一个内存访问周期由bloomfiltercounter算法来预先判断该微博消息是否在T₁中，能够降低最坏情况时的内存访问次数。当查找到微博消息在二层哈希表中的位置时更新该消息节点在当前时间窗口的关注度等微博消息节点信息。

(3)当需要处理的微博消息的原始消息超过算法设定的老化时间，则删除该微博消息节点信息从而减少二层哈希表存储的节点规模。删除操作保持T₁为T₀的碰撞链缓冲区的性质，首先要确定待删除节点node所属的子哈希表及其所属的哈希槽slot，如果node在T₀中，则将node从所在的碰撞链表中移除，然后判断node所在的碰撞链溢出信息ofbuffer 是否为空，若不为空，将ofbuffer的头节点插入到slot.list中，并把该头结点从ofbuffer和子哈希表T₁中删除；如果node在T₁中，则将node从所在的碰撞链表中移除。

(4)当时间窗口切换时，计算二层哈希表中每个消息节点的历史窗口的关注度序列，并存储在二层哈希表中。

三、突发消息监测算法为：

突发消息检测算法中假设m_i为二层哈希表中任一消息节点对应的微博消息， N_i＝(n_K,…,n₂,n₁)为m_i对应的关注度序列，K为滑动时间窗口大小，WT为时间窗口过滤条件。首先计算m_i的关注度时间序列N_i的K窗口移动平均值MA_K，然后计算m_i自适应突发阈值BT，。自适应突发阈值计算方法为：

BT＝mean(MA_K)+2*std(MA_K)

其中m_i.n₁为消息m_i在当前时间窗口的关注度，当m_i.n₁>BT时，将m_i加入到突发消息集合BM。

四、突发消息预处理方法为：

首先去除文本信息中的用户昵称以及非法字符、提取URL、标签文本、非标签文本，利用 ICTCLAS分词系统对标签文本及非标签文本进行分词，根据标签与非标签文本中提取的动词、名词以及文本中包含的URL等实体描述突发消息，然后通过志愿者人工标注的突发事件的事件特征词与描述突发消息的实体集合匹配从而提取事件特征词，最后将标签词、事件特征词、URL作为突发消息的特征实体，其它词作为普通实体。对于任意一条突发消息bm_i可以形式化表示为bm_i＝(FE,NFE),其中FE为特征实体集合，NFE为普通实体集合。

五、融合事件特征对时间窗口内突发消息进行增量聚类分析方法为：

假设BM₀为当前时间窗口突发消息集合，BE₀为突发事件集合，MT为相似度阈值，对于计算bm_i与E_j的相似度S_i,j，相似度计算公式如下：

S_i,j＝2*|bmi.FE∩E_j.F|+|bmi.NFE∩E_j.F|

如果则将bm_i合并到E_j中并更新E_j中消息、用户以及特征集合；否则为bm_i建立新聚类中心并加到突发事件集合BE₀。

本发明在描述详细方法之前，给出如下定义：

定义1.微博消息.微博网络中任意一条微博消息m可以用九元组形式化定义为：

m＝(mid,root_mid,uid,c_num,r_num,root_cont,time,root_time,type)

其中，mid为当前消息标识，root_mid为原始消息标识，uid为发布当前消息的用户标识，c_num为原始消息评论数，r_num为原始消息转发数，root_cont为原始消息内容，time为当前消息的发布时间，root_time为原始消息的发布时间，type为消息类型，当微博消息为原创消息时root_mid，c_num，r_num，root_cont，root_time的值为空。

定义2.微博消息流.微博消息流M由微博消息按照发布时间先后顺序构成，形式化定义为:

M＝[m₁,m₂,…,m_i,…,m_N]

其中，m_i满足若i<j，则m_i的发布时间小于m_j的发布时间。

定义3.滑动时间窗口.微博消息流M按照时间和消息数目动态划分到L个时间窗口中，形式化定义为：

M＝[W₁,…,W_j,…,W_L]

其中，Wj为时间窗口，且满足假设当前时间窗口为W_L,滑动时间窗口大小为K,SW＝[W_L-K+1,…,W_L]即为当前窗口的滑动时间窗口。

定义4.突发消息.在滑动时间窗口SW内，微博消息m满足在当前时间窗口W_L被大量微博用户关注，而在窗口W_L-K+1到窗口W_L却很少被微博用户关注，则微博消息m为突发消息。

定义5.突发事件.突发事件E可以形式化描述为E＝[M,U,F],其中M为突发事件关联的微博消息集合，关联的微博消息在语义上相关，并且集合中至少有一条消息为事件关联的突发消息，U为突发事件用户集合，F为描述突发事件的特征集合，特征可以为关键词、 URL等。

图1是本发明实施例提供的面向微博文本流的突发关键词检测方法的实现流程图，该方法详述如下：

在步骤101中，将微博消息流分发至不同的消息监测节点。

单个处理节点无法实时存储与处理如此大规模的实时微博数据流，本发明将非原创潜在突发消息分发至不同的消息监测节点。

示例性地，假设M为全量微博消息流，S为消息监测节点集合，判定微博消息中的微博消息m_i为潜在突发消息的判定条件为：

(m_i.c_num+m_i.r_num)≥PBT

其中，PBT为潜在突发阈值。

当微博消息m_i为潜在突发消息，则计算该微博消息的消息监测节点标识s，将微博消息 m_i分发至监测服务器s，具体计算公式如下：

s＝m_i.root_mid％|S|

在步骤102中，各个消息监测节点实时接收并存储微博消息，将实时微博消息存储或者更新在二层哈希表中。

示例性地，消息监测节点接收的微博消息流的微博消息标识具有高度规则性，面向微博消息流的突发消息检测可以根据原创消息标识对微博消息依次执行消息存储和更新操作。利用哈希算法对微博消息流中的微博消息进行插入、查找和删除操作的平均时间代价均为 O(1)，具有理想的时间复杂度与空间复杂度。

当哈希表大小不变，微博消息流量增大时，哈希表的冲突碰撞会越来越严重。当最坏的情况发生时，将可能阻塞微博消息流分发甚至丢失微博消息。大部分哈希碰撞处理方法都以提高平均吞吐率为目标，并没有考虑到当碰撞问题严重时，将会严重影响查找操作的时间复杂度。哈希碰撞问题带来的不确定性有可能极大地降低微博消息流的存储及更新速度。为了更好的解决这个问题，本文提出了基于滑动时间窗口的二层哈希表来管理微博消息流，该二层哈希表简要结构如图2所示。

二层哈希表具有两个子哈希表T₀和T₁，分别对应着哈希函数hash₀(M)和hash₁(M)，两个哈希函数相互独立并且分别选取自两个全域哈希类。二层哈希表中的子哈希表T₁是子哈希表T₀的碰撞缓冲区，对于微博消息流中的任意一条微博消息m_i，首先利用 hash₀(m_i.root_mid)把微博消息m_i映射到子哈希表T₀中对应的链表上。如果子哈希表T₀对应链表的长度超过d₀，那么利用hash₁(m_i.root_mid)将消息m_i映射到子哈希表T₁中。设|T₀|＝hs₀，|T₁|＝hs₁，且hs₁＝hs₀×r,0<r<1，假设slot_i,j表示子哈希表T_i的第j个槽位,即slot_i,j＝T_i,j＝(list,ofbuffer)_，i∈{0,1},j∈[0,hs_i),其中list为链接法处理哈希碰撞的碰撞链_，当i＝0时，T₀的每个槽slot_0,j,j∈[0,hs₀)都有一个ofbuffer，存储由于slot_0,j的碰撞链表的长度已经达到d₀需要插入到T₁中的微博消息。子哈希表T₀碰撞链的长度不是没有限制的，限定最大长度为d₀，即对于i＝0,j∈[0,hs_i)，0≤length(slot_i.j.list)≤d₀，当d₀＝1时表示子哈希表T₀不允许发生碰撞。slot_i,j的碰撞链中每个消息节点可以形式化表示为node＝(m,N)，其中m为该节点存储的微博消息，N为该消息节点在滑动时间窗口内的关注度序列，slot_i,j.node.n_k表示node消息节点在第k个历史时间窗口的关注度，第k个历史时间窗口的关注度定义为在第k个时间窗口内该消息被转发和评论的总数。

当需要处理的微博消息的原始消息不在二层哈希表中时，则将该原始消息插入到二层哈希表中，插入操作分两种情况：子哈希表T₀的碰撞链未满，插入到子哈希表T₀中；子哈希表T₀中的碰撞链已满，插入到子哈希表T₁中。具体流程为：对于消息流中的消息m_i，首先用hash₀(m_i.root_mid)计算微博消息在子哈希表T₀中对应的位置，如果该槽位未满，则创建新节点node并将node插入到该槽位的冲突链表头。如果该槽位已满，则用 hash₁(m_i.root_mid)计算微博消息在子哈希表T₁中对应的槽位并创建新节点node插入到该槽位的链表头。子哈希表T₀每个槽位的碰撞链溢出缓冲区ofbuffer存储由于T₀中对应槽位的碰撞链已满而插入到子哈希表T₁中的微博消息节点信息。当向T₁中插入消息节点node 时，便向ofbuffer尾部插入节点node信息。由插入二层哈希表的规则可知，子哈希表T₁中的碰撞链是按照插入时间排列的，即越晚插入的消息节点，在碰撞链的位置越靠前。因此，在查找微博消息时，无论微博消息在子哈希表T₀中或者在子哈希表T₁中都从碰撞链的头部开始查找，能够减少查找操作的平均访问内存次数。

当需要处理的微博消息的原始消息已经在二层哈希表中，则查找并更新该原始消息对应的节点信息。在查找微博消息时，先消耗一个内存访问周期由bloomfiltercounter算法来预先判断该微博消息是否在T₁中，能够降低最坏情况时的内存访问次数。最坏情况发生时，微博消息应该在T₁中，通过预先判断只需要在T₁中查找微博消息，不再从T₀中查找，显然降低了内存访问次数。当查找到微博消息在二层哈希表中的位置时更新该消息节点在当前时间窗口的关注度等微博消息节点信息。虽然二层哈希表算法增加了查找操作普通情况时的内存访问次数，但是降低了最坏情况时的内存访问次数，通过这种方式降低了最坏情况发生的概率以及发生时的内存访问次数的期望。

当需要处理的微博消息的原始消息超过算法设定的老化时间，则删除该微博消息节点信息从而减少二层哈希表存储的节点规模。删除操作需要保持T₁为T₀的碰撞链缓冲区的性质，首先要确定待删除节点node所属的子哈希表及其所属的哈希槽slot，如果node在T₀中，则将node从所在的碰撞链表中移除，然后判断node所在的碰撞链溢出信息ofbuffer是否为空，若不为空，将ofbuffer的头节点插入到slot.list中，并把该头结点从ofbuffer和子哈希表T₁中删除；如果node在T₁中，则将node从所在的碰撞链表中移除。

当时间窗口切换时，计算二层哈希表中每个消息节点的历史窗口的关注度序列，并存储在二层哈希表中。

在步骤103中，利用突发消息检测算法提取二层哈希表中存储突发消息集合。

示例性地，在步骤102的基础上利用自适应突发消息检测算法判定哈希表中该消息节点对应的微博消息是否为突发消息。突发消息检测算法中假设m_i为二层哈希表中任一消息节点对应的微博消息，N_i＝(n_K,",n₂,n₁)为m_i对应的关注度序列，K为滑动时间窗口大小，WT 为时间窗口过滤条件。首先计算m_i的关注度时间序列N_i的K窗口移动平均值MA_K，然后计算m_i自适应突发阈值BT，计算公式如下：

BT＝mean(MA_K)+2*std(MA_K)

当m_i.n₁>BT时，将m_i加入到突发消息集合BM。其中m_i.n₁为消息m_i在当前时间窗口的关注度，WT为窗口过滤条件，避免引起由于人类作息时间等因素引起的伪突发现象， BT为突发阈值，该阈值根据消息的历史关注度序列自适应调整，能够有效的解决实时微博流中的突发阈值设定问题。

在步骤104中，融合事件特征对时间窗口内突发消息进行增量聚类分析，每个聚类中心即为微博突发事件。

示例性地，在步骤103的基础上按照时间窗口的先后顺序对任一窗口内突发消息集合的突发消息进行处理，包括两个阶段：消息预处理及突发消息聚类分析。在预处理阶段首先去除文本信息中的用户昵称以及非法字符、提取URL、标签文本、非标签文本，利用ICTCLAS 分词系统对标签文本及非标签文本进行分词，根据标签与非标签文本中提取的动词、名词以及文本中包含的URL等实体描述突发消息，然后通过志愿者人工标注的突发事件的事件特征词与描述突发消息的实体集合匹配从而提取事件特征词，最后将标签词、事件特征词、URL 作为突发消息的特征实体，其它词作为普通实体。因此，对于任意一条突发消息bm_i可以形式化表示为bm_i＝(FE,NFE),其中FE为特征实体集合，NFE为普通实体集合。在基于时间窗口的突发消息聚类阶段，首先将第一个时间窗口内的第一个突发消息作为初始聚类中心，并用突发消息的特征实体描述突发事件，然后利用融合事件特征的突发消息聚类算法检测突发事件。

在融合事件特征的突发消息聚类算法中假设BM₀为当前时间窗口突发消息集合，BE₀为突发事件集合，MT为相似度阈值，对于计算bm_i与E_j的相似度S_i,j，相似度计算公式如下：

S_i,j＝2*|bmi.FE∩E_j.F|+|bmi.NFE∩E_j.F|

如果则将bm_i合并到E_j中并更新E_j中消息、用户以及特征集合；否则为bm_i建立新聚类中心并加到突发事件集合BE₀。

通过比较突发消息检测算法识别出的突发消息集合的规模，其规模远远小于实时微博消息流的规模，在突发消息集合的基础上检测突发事件大大降低了时间复杂度，具有较高的实时性，因此适用于在线突发事件检测。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种面向实时微博消息流的在线突发事件检测方法 [P] . 中国专利： CN105119807B . 2019.05.17
2. 一种面向实时微博消息流的在线突发事件检测方法 [P] . 中国专利： CN105119807A . 2015-12-02
3. COMPUTER-IMPLEMENTED METHOD WITH REAL-TIME RESPONSE MECHANISM FOR DETECTING VIRUSES IN DATA TRANSFER ON A STREAM BASIS [P] . 美国专利： US2006288418A1 . 2006-12-21

机译：一种基于实时流机制的计算机实现的基于流的数据传输中病毒检测方法
4. METHOD AND SYSTEM FOR ENTRY OF CUSTOMER EXPERIENCE FEEDBACK WITH REAL-TIME AUTOMATED FILTERING AND EVALUATION OF FEEDBACK, AND TRANSMISSION OF REAL-TIME NOTIFICATION TO SELECTED PERSONNEL BASED ON FEEDBACK EVALUATION IN A FLEXIBLE MESSAGING AND WORKFLOW SYSTEM [P] . CA2985243A1 . 2017-02-02

机译：实时自动过滤和评估客户体验反馈的方法和系统，以及基于反馈评估的实时消息传递到灵活的消息和工作流系统中的选定人员的实时通知
5. METHOD AND SYSTEM FOR ENTRY OF CUSTOMER EXPERIENCE FEEDBACK WITH REAL-TIME AUTOMATED FILTERING AND EVALUATION OF FEEDBACK, AND TRANSMISSION OF REAL-TIME NOTIFICATION TO SELECTED PERSONNEL BASED ON FEEDBACK EVALUATION IN A FLEXIBLE MESSAGING AND WORKFLOW SYSTEM [P] . 世界知识产权组织专利： WO2017019575A1 . 2017-02-02

机译：实时自动过滤和评估客户体验反馈的方法和系统，以及基于反馈评估的实时消息传递到灵活的消息和工作流系统中的选定人员的实时通知