首页> 中国专利> 一种舆情事件发展阶段自动划分与标识方法

一种舆情事件发展阶段自动划分与标识方法

摘要

本发明公开了一种舆情事件发展阶段自动划分与标识方法,包括:获取舆情事件变化的时间序列数据;对时间序列数据按照预设第一划分标准来判断是否需要对时间序列数据进行划分;若是,则采用分区竞争法对时间序列数据划分为若干个趋势阶段;分别对趋势阶段中的时间序列数据根据预设第二划分标准来判断是否需要进一步划分;若是,则分别采用分区竞争法对趋势阶段中的时间序列数据再次划分为若干个趋势阶段;迭代上述划分,直至所述趋势阶段中的时间序列数据不符合第二划分标准;分别对趋势阶段根据舆情事件生命周期相邻阶段指标标识为若干个舆情阶段。采用本发明,可以无人工参与、快速、准确的实现舆情事件发展阶段的划分与标识。

著录项

  • 公开/公告号CN112632365A

    专利类型发明专利

  • 公开/公告日2021-04-09

    原文格式PDF

  • 申请/专利权人 湖南蚁坊软件股份有限公司;

    申请/专利号CN202110263077.8

  • 发明设计人 宇婷;王晓斌;桂迎;

    申请日2021-03-11

  • 分类号G06F16/953(20190101);

  • 代理机构43233 长沙心智力知识产权代理事务所(普通合伙);

  • 代理人谢如意

  • 地址 410000 湖南省长沙市高新开发区文轩路27号麓谷钰园A4栋N单元6层605号房

  • 入库时间 2023-06-19 10:32:14

说明书

技术领域

本发明涉及互联网领域,特别是涉及一种舆情事件发展阶段自动划分与标识方法。

背景技术

近年来,随着互联网和社交网络的快速发展,微博、twitter等社交平台的用户数高速增长。人们可随时分享、讨论身边趣事或新闻事件等,具有较强的时效性和随意性,这也将极易造成虚假信息的恶意传播、网络非理性情绪的蔓延,进而产生不良影响,造成巨大的网络舆论压力。对于这样的舆论性相当集中的地方,需要对其进行正确的舆论引导。从事件舆论发展过程的分析出发,可总结出不同类型事件的发展变化规律,为类似事件的研判提供依据,以制定科学的应对措施,从而实现正确引导。其中,事件发展阶段划分能快速定位事件趋势重要变化点,寻找导致事件突变的可能内在因素,是事件发展过程分析的一个重要方面。

事件发展阶段划分,根据事件生命周期中不同时间点的事件声量(“声量”描述与衡量信息传播的影响力大小。具体包含转发量、评论量、点赞量、收藏数等),将事件生命周期划分为多个不同的阶段,例如潜伏期、扩散期、爆发期、衰退期等等。目前,事件发展阶段划分方法以人工参与方式为主,凭借经验进行划分、或人工选定节点个数,采用简单窗口移动等方法进行划分。适用于数据量少,发展周期短的事件。但针对数据量大,持续时间长或正在发生的不完整事件,则会出现失效性、不全面、不灵活等缺点。因此,本发明发明人提出了一种舆情事件发展阶段自动划分与标识方法来解决上述问题。

发明内容

为了解决上述问题,本发明的目的是提供一种舆情事件发展阶段自动划分与标识方法,可以无人工参与、快速、准确的实现舆情事件发展阶段的划分与标识。

基于此,本发明提供了一种舆情事件发展阶段自动划分与标识方法,所述方法包括:

步骤1:获取舆情事件变化的时间序列数据;

步骤2:对所述时间序列数据按照预设的第一划分标准来判断是否需要对所述时间序列数据进行划分;

步骤3:若是,则采用分区竞争法对所述时间序列数据划分为若干个趋势阶段;

步骤4:分别对所述趋势阶段中的时间序列数据根据预设的第二划分标准来判断是否需要进一步划分;

步骤5:若是,则分别采用所述分区竞争法对所述趋势阶段中的时间序列数据再次划分为若干个趋势阶段;

步骤6:迭代上述步骤4、5,直至所述趋势阶段中的时间序列数据不符合所述第二划分标准;

步骤7:分别对所述趋势阶段根据舆情事件生命周期相邻阶段指标识分为若干个舆情阶段,所述舆情阶段包括:潜伏期、扩散期、爆发期、波动衰退期、二次舆情期、衰退期。

其中,所述步骤1:获取舆情事件变化的时间序列数据具体包括:

获取舆情事件数据;

对所述舆情事件数据按照相同时间间隔来进行采样;

若对所述舆情事件数据进行采样时出现某个时间点的数据不存在的情况,则采用0值或者所述某个时间点左右方向上相同的预设时间间隔内的舆情事件数据均值来进行填充。

其中,所述步骤2、对所述时间序列数据按照预设的第一划分标准来判断是否需要对所述时间序列数据进行划分包括:

获取所述时间序列数据的的最大值、中位数与平均数;

根据所述中位数、平均数来获取序列稳定性指标值,其中,根据所述中位数、平均数来获取序列稳定性指标值具体包括:

其中,d

若所述最大值大于预设最大阈值且所述序列稳定性指标值小于预设序列稳定性指标阈值,则对所述时间序列数据进行划分。

其中,所述采用分区竞争法对所述时间序列数据划分为若干个趋势阶段包括:

获取所述时间序列数据的累计离差平方和值以及获取所述时间序列数据的对称分布值;

其中,获取所述时间序列数据的累计离差平方和值包括:

其中,所述y

获取所述时间序列数据的对称分布值包括:

其中,所述t为所述时间序列数据点数,所述i为第i个点,所述u为对称分布值;

对所述累计离差平方和值以及对称分布值进行相乘,来获取差异最大化值;

将所述差异最大化值所对应的时间序列数据作为划分点,所述划分点将所述时间序列数据划分为两个趋势阶段。

其中,所述分别对所述趋势阶段中的时间序列数据根据预设的第二划分标准来判断是否需要进一步划分包括:

获取所述时间序列数据的的中位数与平均数;

根据所述中位数、平均数来获取序列稳定性指标值;

若所述平均数大于预设平均数阈值且所述序列稳定性指标值小于预设序列稳定性指标阈值,则对所述时间序列数据进行划分。

其中,所述分别对所述趋势阶段根据舆情事件生命周期相邻阶段指值标标识为若干个舆情阶段包括:

获取各个趋势阶段中的时间序列数据的平均数;

根据前后趋势阶段的所述平均数的比值,来获取相邻阶段上升指标值;

若所述相邻阶段上升指标值大于1且爆发期最大值大于预设爆发期阈值,则选取最大的所述平均数所对应的趋势阶段为爆发期,所述爆发期前的趋势阶段为潜伏期或扩散期。

其中,所述方法还包括:

判断所述舆情事件是否存在所述波动衰退期或衰退期;

获取所述趋势阶段的最大值与所述爆发期或者扩散期的平均值的比值,作为波动衰退值,若所述波动衰退值小于波动衰退预设值,则所述舆情事件存在所述波动衰退期或衰退期。

其中,所述方法还包括:

判断所述波动衰退期之后是否为所述衰退期;

获取所述前后趋势阶段的平均数的比值,作为衰退值;

若所述衰退值小于预设衰退阈值,则所述波动衰退期之后为所述衰退期。

其中,所述方法还包括:

判断所述舆情事件是否存在所述二次舆情期;

获取所述趋势阶段的最大值与所述爆发期的平均值的比值作为二次舆情值,若所述二次舆情值大于预设二次舆情阈值,则所述舆情事件存在所述二次舆情期。

其中,所述方法还包括:

判断所述二次舆情期之后是否为所述波动衰退期或衰退期;

获取所述前后趋势阶段的平均数的比值,作为第二衰退值,若所述第二衰退值小于预设第二衰退阈值,则所述二次舆情期之后为所述波动衰退期或衰退期。

采用本发明,具有如下有益效果:

1、本发明实施过程完全自动化,输入舆情事件数据,即可自动、快速、准确划分事件发展阶段,标识发展期与输出重要节点;

2、本发明使用类二叉树思想构建阶段划分框架,无需人工设置参数,实时对数据趋势进行多阶段划分,采用具有动态监测的分区竞争法,既能进行阶段划分,又能实现剪枝来简化二叉树原始结构,在保证效果的前提下加快划分效率。

3、本发明无需事件的完整生命周期数据(分析对象可为正在发展中的事件或历史事件),只需结合事件各阶段的定量特征,即可实时标注对应的发展期,不同的事件趋势将自适应的划分和标识不同阶段,而不是使所有事件趋势都将同时拥有相同的几个发展期。整个划分标识过程,节约人工分析成本,省时省力,减少主观性误差,又快又准地实现事件趋势分析,为快速定位并寻找事件发展变化的可能因素提供帮助。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的舆情事件发展阶段自动划分与标识方法的示意图;

图2是本发明实施例提供的舆情事件划分过程的示意图;

图3是本发明实施例提供的舆情事件生命周期标识的示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1是本发明实施例提供的舆情事件发展阶段自动划分与标识方法的示意图,所述方法包括:

基于此,本发明提供了一种舆情事件发展阶段自动划分与标识方法,所述方法包括:

步骤1:获取舆情事件变化的时间序列数据;

其中,所述获取舆情事件变化的时间序列数据具体包括:

获取舆情事件数据;所述舆情事件数据包括:转发量、评论量、点赞量、收藏数等。

对所述舆情事件数据按照相同时间间隔来进行采样;

若对所述舆情事件数据进行采样时出现某个时间点的数据不存在的情况,则采用0值或者所述某个时间点左右方向上相同的预设时间间隔内的舆情事件数据均值来进行填充。

经过上述处理,得到一组完整的表征舆情事件发展变化的时间序列数据d。

步骤2:对所述时间序列数据按照预设的第一划分标准来判断是否需要对所述时间序列数据进行划分;

其中,对所述时间序列数据按照预设的第一划分标准来判断是否需要对所述时间序列数据进行划分具体包括:

获取所述时间序列数据的的最大值、中位数与平均数;

根据所述中位数、平均数来获取序列稳定性指标值,其中,根据所述中位数、平均数来获取序列稳定性指标值具体包括:

其中,d

若所述最大值大于预设最大阈值且所述序列稳定性指标值小于预设序列稳定性指标阈值,则对所述时间序列数据进行划分。

d

所述时间序列数据的的最大值d

步骤3:若是,则采用分区竞争法对所述时间序列数据划分为若干个趋势阶段;

若按照步骤2的标准可以对所述时间序列数据进行划分,则采用分区竞争法对所述时间序列数据划分为若干个趋势阶段,具体包括:

获取所述时间序列数据的累计离差平方和值以及获取所述时间序列数据的对称分布值;

其中,获取所述时间序列数据的累计离差平方和值包括:

其中,所述y

获取所述时间序列数据的对称分布值包括:

其中,所述t为所述时间序列数据点数,所述i为第i个点,所述u为对称分布值;

对所述累计离差平方和值以及对称分布值进行相乘,来获取差异最大化值;

其中,c为差异最大化值。

将所述差异最大化值所对应的时间序列数据作为划分点,所述划分点将所述时间序列数据划分为两个趋势阶段。

当设置的划分次数为1时,对于时间序列数据,计算差异最大化值c,使用c值最大的数值点即划分点进行划分,如时间序列数据依次为1、2、200、230时,计算所述差异最大化值c,可知数组为200的c最大,故使用200作为趋势阶段划分的划分点,得到两段趋势阶段。当设置的划分段数为n时,将继续对两段趋势阶段分别寻找划分点来再次划分,如此迭代,直到划分段数为n。

该方法能够快速有效的找到划分点,非常适用于舆情事件阶段划分。为解决分区竞争法针对不同事件,需要人工参与,设置合适的划分阶段数问题,本发明使用判断迭代的二叉树结构,实现无人工定义阶段数的自动阶段划分。

步骤4:分别对所述趋势阶段中的时间序列数据根据预设的第二划分标准来判断是否需要进一步划分;

基于步骤3,可以划分得到两段趋势阶段,这两段趋势阶段分别再次进行划分判断。

其中,所述分别对所述趋势阶段中的时间序列数据根据预设的第二划分标准来判断是否需要进一步划分,具体包括:

获取所述时间序列数据的的中位数与平均数;

根据所述中位数、平均数来获取序列稳定性指标值;

若所述平均数大于预设平均数阈值且所述序列稳定性指标值小于预设序列稳定性指标阈值,则对所述时间序列数据进行划分。

此过程与步骤3的过程一致,只不过所述第二划分标准使用趋势阶段中的时间序列数据平均数d

原因在于,d

步骤5:若是,则分别采用所述分区竞争法对所述趋势阶段中的时间序列数据再次划分为若干个趋势阶段;

若某段符合划分判断条件即所述第二划分标准,则对该段使用分区竞争法划分,反之,则认为该段趋势比较平稳,不存在明显的阶段界限(即不包含其他趋势),该段不再进行划分。

所述分区竞争法F能尽可能的使划分的阶段差异最大化,多次测试发现,经两次划分得到的中间阶段比较平稳。故在第二次划分后,可以只对舆情事件两端的趋势进行划分判断,实现对二叉树的剪枝,如图2在保证划分效果的基础上,也加快了划分速度。

步骤6:迭代上述步骤4、5,直至所述趋势阶段中的时间序列数据不符合所述第二划分标准;

迭代上述步骤4、5,直至所有阶段不满足划分判断条件即所述第二划分标准,划分结束。

步骤7:分别对所述趋势阶段根据舆情事件生命周期相邻阶段指标标识为若干个舆情阶段,所述舆情阶段包括:潜伏期、扩散期、爆发期、波动衰退期、二次舆情期、衰退期,请参考图3。

所述潜伏期:在步骤2中d

所述扩散期:根据分区竞争法对舆情时间进行生命周期的标注之后,可以得出所述扩散期为其时间序列数据的平均数大于所述潜伏期的时间序列数据平均值的同时,小于所述爆发期的时间序列数据平均数的趋势阶段。

从所述扩散期到所述爆发期是属于上升趋势。

其中,所述分别对所述趋势阶段根据舆情事件生命周期相邻阶段指值标划分为若干个舆情阶段包括:

获取各个趋势阶段中的时间序列数据的平均数;

根据前后趋势阶段的所述平均数的比值,来获取相邻阶段上升指标值;

若所述相邻阶段上升指标值大于1且爆发期最大值大于预设爆发期阈值,则选取最大的所述平均数所对应的趋势阶段为爆发期,所述爆发期前的趋势阶段为潜伏期或扩散期。

所述爆发期的认定可使用爆发期最大值d

若d

下降趋势对应的阶段为爆发期至波动衰退期、波动衰退期至衰退期或爆发期至衰退期。有的舆情事件在波动衰退期或衰退期后再次大幅度上升,这样的情况我们称之为二次舆情。结合前期人工对历史事件的分析总结经验,针对这部分复杂趋势,采用的标识判断指标如下:

波动衰退期和衰退期一般存在于爆发期或者扩散期之后,判断是否存在波动衰退期或衰退期的方法为:

其中,所述方法还包括:

判断所述舆情事件是否存在所述波动衰退期或衰退期;

获取所述趋势阶段的最大值与所述爆发期或者扩散期的平均值的比值,作为波动衰退值,若所述波动衰退值小于波动衰退预设值,则所述舆情事件存在所述波动衰退期或衰退期。反之,正处于爆发期或扩散期。

所述衰退期之后,舆情事件发展趋势有两种不同的走势,一种是继续下降,进入衰退期,其判断指标为:

其中,所述方法还包括:

判断所述波动衰退期之后是否为所述衰退期;

获取所述前后趋势阶段的平均数的比值,作为衰退值;

若所述衰退值小于预设衰退阈值,则所述波动衰退期之后为所述衰退期。反之,则依旧处于波动衰退期。

在波动衰退期或衰退期之后存在上升趋势,则存在二次舆情,所述二次舆情的舆情量比较大,根据前期总结,发现二次舆情与爆发期有一定的比例关系。

判断标准如下:

其中,所述方法还包括:

判断所述舆情事件是否存在所述二次舆情期;

获取所述趋势阶段的最大值与所述爆发期的平均值的比值作为二次舆情值,若所述二次舆情值大于预设二次舆情阈值,则所述舆情事件存在所述二次舆情期。反之,则认为该阶段还是处于前一阶段(波动衰退期或衰退期)。

其中,所述方法还包括:

判断所述二次舆情期之后是否为所述波动衰退期或衰退期;

获取所述前后趋势阶段的平均数的比值,作为第二衰退值,若所述第二衰退值小于预设第二衰退阈值,则所述二次舆情期之后为所述波动衰退期或衰退期。反之,该阶段还处于二次舆情中。

综上所述,可以得到阶段标识后对应的发展期,以及相邻发展期之间的重要过渡节点,适用于历史事件、正在发生事件或选取时间段趋势的发展期的划分与标识。

采用本发明,具有如下有益效果:

1、本发明实施过程完全自动化,输入舆情事件数据,即可自动、快速、准确划分事件发展阶段,标识发展期与输出重要节点;

2、本发明使用类二叉树思想构建阶段划分框架,无需人工设置参数,实时对数据趋势进行多阶段划分,采用具有动态监测的分区竞争法,既能进行阶段划分,又能实现剪枝来简化二叉树原始结构,在保证效果的前提下加快划分效率。

3、本发明无需事件的完整生命周期数据(分析对象可为正在发展中的事件或历史事件),只需结合事件各阶段的定量特征,即可实时标注对应的发展期,不同的事件趋势将自适应的划分和标识不同阶段,而不是使所有事件趋势都将同时拥有相同的几个发展期。整个划分标识过程,节约人工分析成本,省时省力,减少主观性误差,又快又准地实现事件趋势分析,为快速定位并寻找事件发展变化的可能因素提供帮助。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号