首页> 中国专利> 热度话题识别方法及数据分析服务器

热度话题识别方法及数据分析服务器

摘要

本发明实施例提供的热度话题识别方法及数据分析服务器,通过对待识别话题数据进行话题分析,获得基准话题数据描述,结合话题特征拓展、话题数据融合以及话题维度识别等处理,识别出所述待识别话题数据中的所述目标热度话题。如此,可有效的实现针对目标热度话题的跟踪识别,有利于实现舆情信息的有效监控,可助于网络环境的健康良性发展。

著录项

  • 公开/公告号CN113297445A

    专利类型发明专利

  • 公开/公告日2021-08-24

    原文格式PDF

  • 申请/专利权人 天窗智库文化传播(苏州)有限公司;

    申请/专利号CN202110637406.0

  • 发明设计人 孙凤英;

    申请日2021-06-08

  • 分类号G06F16/906(20190101);G06K9/62(20060101);G06Q50/00(20120101);

  • 代理机构32438 苏州瞪羚知识产权代理事务所(普通合伙);

  • 代理人张宇

  • 地址 215500 江苏省苏州市常熟高新技术产业开发区贤士路1号

  • 入库时间 2023-06-19 12:19:35

说明书

技术领域

本发明涉及数据分析技术领域,具体而言,涉及一种热度话题识别方法及数据分析服务器。

背景技术

随着移动互联网的发展与进步,网络上随时随地会发生海量的信息,例如在各种网络平台上实时产生的舆情信息。针对舆情信息的有效监控,可利于网络环境向好向善发展。为了实现舆情信息的有效监控,针对热点话题的识别则显得非常重要。

发明内容

鉴于以上内容,本发明实施例提供一种热度话题识别方法,所述方法包括:

对待识别话题数据进行话题分析,获得基准话题数据描述,并对所述基准话题数据描述进行话题特征拓展,获得第一话题数据描述;

根据所述第一话题数据描述进行针对目标热度话题的第一话题维度识别,得到用于代表所述目标热度话题的基准话题特征元素,并对所述基准话题数据描述和所述第一话题数据描述进行数据融合,并对融合后的话题数据描述进行话题特征拓展,获得第二话题数据描述;

获取所述基准话题特征元素中各话题特征元素对应的话题关联系数;对所述话题关联系数低于预设系数值的话题特征元素进行删除,得到删除后的话题特征元素,并根据所述删除后的话题特征元素的分布信息和所述第一话题数据描述对应的分布信息,对所述删除后的话题特征元素进行次序整理,得到次序整理后的话题特征元素;

根据所述第二话题数据描述和所述次序整理后的话题特征元素对所述目标热度话题进行第二话题维度识别,以对所述次序整理后的话题特征元素进行优化,并根据优化后的话题特征元素识别出所述待识别话题数据中的所述目标热度话题。

可选地,所述对所述基准话题数据描述进行话题特征拓展,获得第一话题数据描述,包括:

通过热度话题识别网络的第一话题特征卷积单元,对所述基准话题数据描述进行第一热度话题分析,得到所述基准话题数据描述的数据描述特征向量;

通过所述热度话题识别网络的第一特征拓展单元,对所述数据描述特征向量进行话题特征拓展,获得所述第一话题数据描述。

可选地,所述根据所述第一话题数据描述进行针对目标热度话题的第一话题维度识别,得到用于代表所述目标热度话题的基准话题特征元素,包括:

通过热度话题识别网络的第一话题元素提取单元,根据所述第一话题数据描述提取所述待识别话题数据中针对目标热度话题的话题特征元素;

对所述目标热度话题的话题特征元素进行聚类,得到用于代表所述目标热度话题的基准话题特征元素。

可选地,所述对所述基准话题数据描述和所述第一话题数据描述进行数据融合,并对融合后的话题数据描述进行话题特征拓展,获得第二话题数据描述,包括:

将所述基准话题数据描述和所述第一话题数据描述载入热度话题识别网络的第二话题特征卷积单元;

根据所述基准话题数据描述和所述第一话题数据描述优化所述第二话题特征卷积单元的模型指标,得到优化后的模型指标;

对所述基准话题数据描述和所述第一话题数据描述进行数据融合,得到融合后的话题数据描述;

根据所述优化后的模型指标,对所述融合后的话题数据描述进行第一热度话题分析,得到所述融合后的话题数据描述对应的数据描述特征向量;

通过所述热度话题识别网络的第二特征拓展单元,对所述数据描述特征向量进行话题特征拓展,得到第二话题数据描述。

可选地,所述根据所述删除后的话题特征元素的分布信息和所述第一话题数据描述对应的分布信息,对所述删除后的话题特征元素进行次序整理,得到次序整理后的话题特征元素,包括:

获取所述删除后的话题特征元素在与所述第一话题数据描述对应的热度话题拓扑中的关联分布信息;

根据所述关联分布信息对所述删除后的话题特征元素进行次序整理,得到次序整理后的话题特征元素。

本发明实施例还提供一种数据分析服务器,包括处理器、存储器以及热度话题识别系统,其中,所述热度话题识别系统包括:

数据分析模块,用于对待识别话题数据进行话题分析,获得基准话题数据描述,并对所述基准话题数据描述进行话题特征拓展,获得第一话题数据描述;

数据融合模块,用于根据所述第一话题数据描述进行针对目标热度话题的第一话题维度识别,得到用于代表所述目标热度话题的基准话题特征元素,并对所述基准话题数据描述和所述第一话题数据描述进行数据融合,并对融合后的话题数据描述进行话题特征拓展,获得第二话题数据描述;

特征元素处理模块,用于获取所述基准话题特征元素中各话题特征元素对应的话题关联系数;对所述话题关联系数低于预设系数值的话题特征元素进行删除,得到删除后的话题特征元素,并根据所述删除后的话题特征元素的分布信息和所述第一话题数据描述对应的分布信息,对所述删除后的话题特征元素进行次序整理,得到次序整理后的话题特征元素;

话题识别模块,用于根据所述第二话题数据描述和所述次序整理后的话题特征元素对所述目标热度话题进行第二话题维度识别,以对所述次序整理后的话题特征元素进行优化,并根据优化后的话题特征元素识别出所述待识别话题数据中的所述目标热度话题。

可选地,所述数据分析模块还用于:

通过热度话题识别网络的第一话题特征卷积单元,对所述基准话题数据描述进行第一热度话题分析,得到所述基准话题数据描述的数据描述特征向量;

通过所述热度话题识别网络的第一特征拓展单元,对所述数据描述特征向量进行话题特征拓展,获得所述第一话题数据描述。

可选地,所述数据融合模块还用于:

通过热度话题识别网络的第一话题元素提取单元,根据所述第一话题数据描述提取所述待识别话题数据中针对目标热度话题的话题特征元素;

对所述目标热度话题的话题特征元素进行聚类,得到用于代表所述目标热度话题的基准话题特征元素。

可选地,所述数据融合模块还用于:

将所述基准话题数据描述和所述第一话题数据描述载入热度话题识别网络的第二话题特征卷积单元;

根据所述基准话题数据描述和所述第一话题数据描述优化所述第二话题特征卷积单元的模型指标,得到优化后的模型指标;

对所述基准话题数据描述和所述第一话题数据描述进行数据融合,得到融合后的话题数据描述;

根据所述优化后的模型指标,对所述融合后的话题数据描述进行第一热度话题分析,得到所述融合后的话题数据描述对应的数据描述特征向量;

通过所述热度话题识别网络的第二特征拓展单元,对所述数据描述特征向量进行话题特征拓展,得到第二话题数据描述。

可选地,所述特征元素处理模块还用于:

获取所述删除后的话题特征元素在与所述第一话题数据描述对应的热度话题拓扑中的关联分布信息;

根据所述关联分布信息对所述删除后的话题特征元素进行次序整理,得到次序整理后的话题特征元素。

综上所述,本发明实施例提供的热度话题识别方法及数据分析服务器,首先对待识别话题数据进行话题分析,获得基准话题数据描述,并对所述基准话题数据描述进行话题特征拓展,获得第一话题数据描述; 然后,根据所述第一话题数据描述进行针对目标热度话题的第一话题维度识别,得到用于代表所述目标热度话题的基准话题特征元素,并对所述基准话题数据描述和所述第一话题数据描述进行数据融合,并对融合后的话题数据描述进行话题特征拓展,获得第二话题数据描述;其次,获取所述基准话题特征元素中各话题特征元素对应的话题关联系数;对所述话题关联系数低于预设系数值的话题特征元素进行删除,得到删除后的话题特征元素,并根据所述删除后的话题特征元素的分布信息和所述第一话题数据描述对应的分布信息,对所述删除后的话题特征元素进行次序整理,得到次序整理后的话题特征元素; 最后,根据所述第二话题数据描述和所述次序整理后的话题特征元素对所述目标热度话题进行第二话题维度识别,以对所述次序整理后的话题特征元素进行优化,并根据优化后的话题特征元素识别出所述待识别话题数据中的所述目标热度话题。如此,可有效的实现针对目标热度话题的跟踪识别,有利于实现舆情信息的有效监控,可助于网络环境的健康良性发展。

为使本发明实施例的上述目的、特征和优点能更明显易懂,下面将结合实施例,并配合所附附图,作详细说明。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅是本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1是本发明实施例所提供的用于实现热度话题识别方法的数据分析服务器的示意图。

图2是本发明实施例所提供的热度话题识别方法的流程示意图。

图3是本发明实施例所提供的热度话题识别系统的功能模块框图。

具体实施方式

为了使本技术领域的学员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。根据本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1是本发明实施例提供的用于实现热度话题识别方法的数据分析服务器1的示意图。图2是是本发明实施例所提供的热度话题识别方法的流程示意图。优选地,所述方法由所述数据分析服务器1实现,下面对该方法的各步骤进行详细的介绍。

步骤1,对待识别话题数据进行话题分析,获得基准话题数据描述,并对所述基准话题数据描述进行话题特征拓展,获得第一话题数据描述。

步骤2,根据所述第一话题数据描述进行针对目标热度话题的第一话题维度识别,得到用于代表所述目标热度话题的基准话题特征元素,并对所述基准话题数据描述和所述第一话题数据描述进行数据融合,并对融合后的话题数据描述进行话题特征拓展,获得第二话题数据描述。

步骤3,获取所述基准话题特征元素中各话题特征元素对应的话题关联系数;对所述话题关联系数低于预设系数值的话题特征元素进行删除,得到删除后的话题特征元素,并根据所述删除后的话题特征元素的分布信息和所述第一话题数据描述对应的分布信息,对所述删除后的话题特征元素进行次序整理,得到次序整理后的话题特征元素。

步骤4,根据所述第二话题数据描述和所述次序整理后的话题特征元素对所述目标热度话题进行第二话题维度识别,以对所述次序整理后的话题特征元素进行优化,并根据优化后的话题特征元素识别出所述待识别话题数据中的所述目标热度话题。

优选地,在步骤1中,所述对所述基准话题数据描述进行话题特征拓展,获得第一话题数据描述,包括:

通过热度话题识别网络的第一话题特征卷积单元,对所述基准话题数据描述进行第一热度话题分析,得到所述基准话题数据描述的数据描述特征向量;

通过所述热度话题识别网络的第一特征拓展单元,对所述数据描述特征向量进行话题特征拓展,获得所述第一话题数据描述。

优选地,在步骤2中,所述根据所述第一话题数据描述进行针对目标热度话题的第一话题维度识别,得到用于代表所述目标热度话题的基准话题特征元素,包括:

通过热度话题识别网络的第一话题元素提取单元,根据所述第一话题数据描述提取所述待识别话题数据中针对目标热度话题的话题特征元素;

对所述目标热度话题的话题特征元素进行聚类,得到用于代表所述目标热度话题的基准话题特征元素。

优选地,在步骤3中,所述对所述基准话题数据描述和所述第一话题数据描述进行数据融合,并对融合后的话题数据描述进行话题特征拓展,获得第二话题数据描述,包括:

将所述基准话题数据描述和所述第一话题数据描述载入热度话题识别网络的第二话题特征卷积单元;

根据所述基准话题数据描述和所述第一话题数据描述优化所述第二话题特征卷积单元的模型指标,得到优化后的模型指标;

对所述基准话题数据描述和所述第一话题数据描述进行数据融合,得到融合后的话题数据描述;

根据所述优化后的模型指标,对所述融合后的话题数据描述进行第一热度话题分析,得到所述融合后的话题数据描述对应的数据描述特征向量;

通过所述热度话题识别网络的第二特征拓展单元,对所述数据描述特征向量进行话题特征拓展,得到第二话题数据描述。

优选地,在步骤3中,所述根据所述删除后的话题特征元素的分布信息和所述第一话题数据描述对应的分布信息,对所述删除后的话题特征元素进行次序整理,得到次序整理后的话题特征元素,包括:

获取所述删除后的话题特征元素在与所述第一话题数据描述对应的热度话题拓扑中的关联分布信息;

根据所述关联分布信息对所述删除后的话题特征元素进行次序整理,得到次序整理后的话题特征元素。

进一步地,参阅图2所示,本实施例中,数据分析服务器1可以是一个服务器、也可以是服务器集群、计算机设备、云服务中心等具有信息处理和分析能力的设备,数据分析服务器1可以包括一个或多个处理器10,诸如一个或多个中央处理单元(CPU),每个处理单元可以实现一个或多个硬件线程。数据分析服务器还可以包括机器可读存储介质20,其用于存储诸如代码、设置、数据等之类的任何种类的信息。非限制性的,比如,机器可读存储介质可以包括以下任一项或多种组合:任何类型的RAM,任何类型的ROM,闪存设备,硬盘,光盘等。更一般地,机器可读存储介质都可以使用任何技术来存储信息。进一步地,机器可读存储介质可以提供信息的易失性或非易失性保留。进一步地,机器可读存储介质可以表示数据分析服务器1的固定或可移除部件。在一种情况下,当处理器10执行被存储在机器可读存储介质20或存储介质的组合中的相关联的指令时,数据分析服务器1可以执行相关联指令的任一操作。数据分析服务器1还包括用于与机器可读存储介质交互的一个或多个驱动单元,诸如硬盘驱动单元、光盘驱动单元等。

此外,数据分析服务器1还可以包括输入/输出(I/O),其用于接收各种输入(经由输入单元)和用于提供各种输出(经由输出单元))。一个具体输出机构可以包括呈现设备和相关联的图形用户接口(GUI)。数据分析服务器1还可以包括一个或多个网络接口,其用于经由一个或多个通信单元与其他设备交换数据。一个或多个通信总线将上文所描述的部件耦合在一起。

通信单元可以以任何方式实现,例如,通过局域网、广域网(例如,因特网)、点对点连接等、或其任何组合。通信单元可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能等的任何组合。

图3是本发明实施例提供的热度话题识别系统30(如图1所示)的功能模块图,该热度话题识别系统30实现的功能可以对应上述方法执行的步骤。其它实施例中,该热度话题识别系统30可以理解为上述数据分析服务器1,或数据分析服务器的处理器10,也可以理解为独立于上述数据分析服务器1或处理器10之外的在数据分析服务器1的控制下实现本发明功能的组件,如图3所示,下面分别对该热度话题识别系统的各个功能模块的功能进行详细阐述。

数据分析模块301,用于对待识别话题数据进行话题分析,获得基准话题数据描述,并对所述基准话题数据描述进行话题特征拓展,获得第一话题数据描述;

数据融合模块302,用于根据所述第一话题数据描述进行针对目标热度话题的第一话题维度识别,得到用于代表所述目标热度话题的基准话题特征元素,并对所述基准话题数据描述和所述第一话题数据描述进行数据融合,并对融合后的话题数据描述进行话题特征拓展,获得第二话题数据描述;

特征元素处理模块303,用于获取所述基准话题特征元素中各话题特征元素对应的话题关联系数,对所述话题关联系数低于预设系数值的话题特征元素进行删除,得到删除后的话题特征元素,并根据所述删除后的话题特征元素的分布信息和所述第一话题数据描述对应的分布信息,对所述删除后的话题特征元素进行次序整理,得到次序整理后的话题特征元素;

话题识别模块304,用于根据所述第二话题数据描述和所述次序整理后的话题特征元素对所述目标热度话题进行第二话题维度识别,以对所述次序整理后的话题特征元素进行优化,并根据优化后的话题特征元素识别出所述待识别话题数据中的所述目标热度话题。

可选地,所述数据分析模块301还用于:

通过热度话题识别网络的第一话题特征卷积单元,对所述基准话题数据描述进行第一热度话题分析,得到所述基准话题数据描述的数据描述特征向量;

通过所述热度话题识别网络的第一特征拓展单元,对所述数据描述特征向量进行话题特征拓展,获得所述第一话题数据描述。

可选地,所述数据融合模块302还用于:

通过热度话题识别网络的第一话题元素提取单元,根据所述第一话题数据描述提取所述待识别话题数据中针对目标热度话题的话题特征元素;

对所述目标热度话题的话题特征元素进行聚类,得到用于代表所述目标热度话题的基准话题特征元素。

可选地,所述数据融合模块302还用于:

将所述基准话题数据描述和所述第一话题数据描述载入热度话题识别网络的第二话题特征卷积单元;

根据所述基准话题数据描述和所述第一话题数据描述优化所述第二话题特征卷积单元的模型指标,得到优化后的模型指标;

对所述基准话题数据描述和所述第一话题数据描述进行数据融合,得到融合后的话题数据描述;

根据所述优化后的模型指标,对所述融合后的话题数据描述进行第一热度话题分析,得到所述融合后的话题数据描述对应的数据描述特征向量;

通过所述热度话题识别网络的第二特征拓展单元,对所述数据描述特征向量进行话题特征拓展,得到第二话题数据描述。

可选地,所述特征元素处理模块303还用于:

获取所述删除后的话题特征元素在与所述第一话题数据描述对应的热度话题拓扑中的关联分布信息;

根据所述关联分布信息对所述删除后的话题特征元素进行次序整理,得到次序整理后的话题特征元素。

综上所述,本发明实施例提供的热度话题识别方法及数据分析服务器,首先对待识别话题数据进行话题分析,获得基准话题数据描述,并对所述基准话题数据描述进行话题特征拓展,获得第一话题数据描述; 然后,根据所述第一话题数据描述进行针对目标热度话题的第一话题维度识别,得到用于代表所述目标热度话题的基准话题特征元素,并对所述基准话题数据描述和所述第一话题数据描述进行数据融合,并对融合后的话题数据描述进行话题特征拓展,获得第二话题数据描述;其次,获取所述基准话题特征元素中各话题特征元素对应的话题关联系数;对所述话题关联系数低于预设系数值的话题特征元素进行删除,得到删除后的话题特征元素,并根据所述删除后的话题特征元素的分布信息和所述第一话题数据描述对应的分布信息,对所述删除后的话题特征元素进行次序整理,得到次序整理后的话题特征元素; 最后,根据所述第二话题数据描述和所述次序整理后的话题特征元素对所述目标热度话题进行第二话题维度识别,以对所述次序整理后的话题特征元素进行优化,并根据优化后的话题特征元素识别出所述待识别话题数据中的所述目标热度话题。如此,可有效的实现针对目标热度话题的跟踪识别,有利于实现舆情信息的有效监控,可助于网络环境的健康良性发展。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

可以替换的,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是具有一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid StateDisk (SSD))等。

需要说明的是,在本文中,术语"包括"、"具有"或者其任何其它变体意在涵盖非排它性的具有,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句"包括一个……"限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其它的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图进销存确认视为限制所涉及的权利要求。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号