首页> 中国专利> 融合数据质量多维度评估的网情态势动态绘制系统及方法

融合数据质量多维度评估的网情态势动态绘制系统及方法

摘要

本发明公开是关于一种融合数据质量多维度评估的网情态势动态绘制系统及方法,涉及网络空间认知技术领域。包括:数据采集范围圈定单元,分析经济、民生、政治区域性特点;数据汇聚单元依据圈定的数据采集范围,采用不同的数据获取手段获取数据;数据治理单元构建数据资源目录,形成数据资源池;数据关联分析挖掘单元,构建知识图谱模型,形成人物、组织、事件等全息关联库;网情态势感知单元进行网情态势的感知,动态绘制网情地图,实时监测网情态势。本发明结合数据质量评估,融合数据采集、数据分析挖掘及情报分析等多个维度,提出了网情态势监测体系,实现面向特定区域的网情扩展了横向分析的广度、纵向分析的深度,完成网情态势的动态绘制。

著录项

  • 公开/公告号CN112732781A

    专利类型发明专利

  • 公开/公告日2021-04-30

    原文格式PDF

  • 申请/专利权人 深圳市网联安瑞网络科技有限公司;

    申请/专利号CN202011628462.X

  • 申请日2020-12-30

  • 分类号G06F16/2458(20190101);G06F16/215(20190101);G06F16/25(20190101);G06F16/28(20190101);G06F16/35(20190101);G06F16/36(20190101);G06Q50/00(20120101);

  • 代理机构44331 深圳壹舟知识产权代理事务所(普通合伙);

  • 代理人寇闯

  • 地址 518000 广东省深圳市福田区华富街道新田社区深南大道1006号深圳国际创新中心(福田科技广场)D栋七层

  • 入库时间 2023-06-19 10:48:02

说明书

技术领域

本发明公开涉及网络空间认知技术领域,尤其涉及一种融合数据质量多维度评估的网情态势动态绘制系统及方法。

背景技术

目前关于整体网情态势并没有完整的体系与技术架构,最与其相关的就是网络舆情的监测的相关技术,现有网络舆情监测技术主要是通过互联网开源信息采集、数据处理、数据分析、自然语言处理等技术,对互联网海量开源信息实时采集、自动依据数据特征实现主题分类、内容聚类及情感分析,并自动发现热点事件及主题,支撑用户对相关网络舆情监测和专题事件追踪等。

现有技术主要存在以下几方面的问题:

(1)现有舆情监测方法主要是针对部分社交网站及新闻媒体等对象,自动采集数据后,对数据进行清洗,直接进行情感分析、主题检测及情报研判。虽然部分技术已相对成熟,但是分析维度不完整,缺乏完善的网情分析监测的体系来指导整体的网情态势分析及动态绘制。

(2)现有舆情监测分析对象往往为小范围的目标客户,其监测覆盖范围面不全,面对大的目标网情监测时,未基于特定区域网民的网络活动范围圈定采集范围相一致。

(3)网情数据分析结果准确性完全依赖数据源的质量,但是现有网情监测体系并未对舆情数据源的质量评估,无法对数据质量管控,会影响情报研判的结果。

解决上述技术问题的难度在于:现有舆情分析技术覆盖不全面,网情分析体系构建难;海量数据的数据质量体系不完整,数据质量评估难;数据质量未网情分析体系结合,数据准确性无法保证,无法有力支撑情报研判。

解决上述技术问题的意义在于:构建完善的网情分析体系,实现网情全精准监控,有力辅助情报决策与研判;构建数据质量评估体系,融合至网情分析体系内,高效实时评估数据质量,提升整体网情数据的准确性,有效解决数据问题导致情报研判结果不准确的问题。

发明内容

本发明立足于认知域,从网情分析出发,解决现有网情分析体系不完善、监测分析对象覆盖范围与特定区域的网民网络活动范围不一致、网情数据分析准确性无法有效评估的问题。本发明公开实施例提供了一种融合数据质量多维度评估的网情态势动态绘制系统及方法。所述技术方案如下:

该融合数据质量多维度评估的网情态势动态绘制系统,包括:

数据采集范围圈定单元,分析经济、民生、政治区域性特点,结合网民网络行为,圈定网民活动的主要社交平台、新闻媒体、民调机构数据采集的范围;

数据汇聚单元,依据圈定的数据采集范围,采用不同的数据获取手段获取数据,依据不同数据类型进行数据汇聚,数据来源于人工整编、开源数据与非合作方式获取数据;

数据治理单元,对数据汇聚后,对数据进行基础清洗、字段标准化,自动添加数据标签,构建数据资源目录,形成数据资源池,并从数据接入、存储、分析使用,形成高价值数据库;

数据关联分析挖掘单元,基于高价值数据库,依据人物、组织、活动的不同的维度形成不同的主题分类,并构建知识图谱模型,形成人物、组织的全息关联库;

网情态势感知单元,在数据关联分析挖掘的基础上,进行网情态势的感知,动态绘制网情地图,实时监测网情态势。

在一个实施例中,所述数据汇聚方式包括文件导入、数据库抽取、FTP文件接入及流数据接入。

在一个实施例中,数据治理单元从数据及时性、有效性、波动性、关联性、一致性、正确性、规范性、唯一性、完整性九个维度自动发现质量问题,不断解决问题提升数据资源的价值。

在一个实施例中,网情态势感知单元从综合数据分析、区域舆情分析、境外舆情分析、重点人物及组织分析、重大事件分析、情报分析报告角度进行网情态势的感知。

本发明的另一目的在于提供一种实现所述融合数据质量多维度评估的网情态势动态绘制系统的方法,该融合数据质量多维度评估的网情态势动态绘制方法包括以下步骤:

步骤一、数据采集与汇聚;首先结合区域特点分析数据提前设定的各种数据来源,之后借助于多种数据采集手段获取数据,并将多源数据汇聚到数据平台。在汇聚过程进行实时的数据质量评估。该模块主要通过提供基础数据来支撑整个业务。

步骤二、数据治理;通过数据质量多维度评估,保障数据的及时性、准确性等;通过数据清洗、转换、归约等方式,保证数据的有效性;通过数据资源目录、数据标签、数据权限管理,保证数据的可用性与安全性。

步骤三、数据服务;对数据进行分层建模,构建不同的基础库、关联库,进行数据服务发布,支撑不同的数据需求与业务需求。

步骤四、网情态势动态绘制。基于网情分析体系,实现面向特定区域的网情的多维度、全方位的分析,动态绘制整体网情态势。

在一个实施例中,所述数据采集与汇聚包括以下步骤:

步骤一、基于政治、经济、民生区域性特点,划定针对权威性网站或者有代表性的网站作为开源数据的重要来源之一;

步骤二、基于网民网络行为分析,划定网民网络活动的主要社交平台和新闻媒体作为网情态势基础数据来源的基础;

步骤三、形成面向网络采集目标;

步骤四、通过网络爬虫、系统日志采集及人工整编的方式实现数据的实时或者定时的采集,并通过数据安全通道传输到数据汇聚平台;

步骤五、在数据汇聚过程中,从数据的及时性、有效性、完整性等多个维度进行数据质量的初步判定;

步骤六、基于FTP方式、流式、文件导入的方式将经过数据质量初步判定后的数据,依据数据来源分类存储到数据汇聚系统;

步骤七、采用数据汇聚实时监控,实时监控数据汇聚的状态,保证数据汇聚的稳定性。

在一个实施例中,数据治理包括以下步骤:

步骤一、接收到系统后,对汇聚数据进行实时的完整性、准确性、有效性、唯一性、正确性、及时性维度进行评估;

步骤二、基于实时数据质量检测结果,对数据质量的判定结果进行日志记录及告警;

步骤三、基于数据质量检测存在的问题,对数据进行自动的清洗与转换;

步骤四、制定数据标准,基于数据标准与数据研判,构建数据资源池;

步骤五、建立数据标签体系,对数据标签进行分级分类,实现表级别、字段级别、数据级别的标签定义;

步骤六、依据数据的类型,从数据来源与数据分类角度,构建数据资源目录;

步骤七、实现数据资源目录与数据标签体系的数据资源查询,并对数据资源的访问权限实现细粒度的控制。

在一个实施例中,所述数据服务包括以下步骤:

步骤一、将数据资源分为原始层、标准层、基础层及主题层,对不同层进行分层建模,原始层主要存储原始汇聚数据;标准层存储的为原始层数据清洗后的数据;基础层是对标准层数据进行融合、关联,形成的人物、组织、事件、行为等基础库;主题层主要是面向不同的业务应用所提取融合后的数据;

步骤二、对数据资源池中的数据进行深度的融合关联,挖掘数据之间的关联关系,形成知识图谱;

步骤三、基于已形成的数据关联库与业务库,配置数据资源的访问权限与开放程度,形成数据开放目录;

步骤四、用户基于数据开放目录进行数据服务申请,系统接收到用户服务申请,基于数据服务的需求,基于数据统计、分析、挖掘方法,生成数据服务内容,并进行服务发布。

在一个实施例中,数据资源的属性及整体业务构建面向不同主题的基础资源库,包括人物库、组织库、事件库及行为。

在一个实施例中,网情态势动态绘制方法包括以下步骤:

步骤一、基于多来源采集数据对整体数据进行基础统计,分析不同社交平台和新闻媒体的数据变化,绘制数据变化趋势;

步骤二、基于网情评价指标体系计算整体网情的走势;

步骤三、基于历史数据变化规律及整体的网情走势,预测整体网情变化趋势;

步骤四、基于人物基础库与知识图谱,对人物进行深度分析,实现人物的全息关联,并实时监控人物的网络行为;

步骤五、在人物社交网络和新闻媒体数据采集的基础上,实现人物网络活跃度、声量、支持度等动态跟踪;

步骤六、基于人物全息档案及网络行,形成人物基础档案,实时跟踪人物的相关活动及事件,动态感知人物的信息;

步骤七、基于组织基础库及知识土偶,深度分析组织的基本情况,挖掘组织与人物之间的关联程度,分析组织与组织之间的关联;

步骤八、实时检测组织在新闻媒体、社交平台的相关活动及事件,形成组织的态势感知;

步骤九、基于机器学习与自然语言处理的方式分析整体舆情走向,自动发现热点话题,并对话题进行实时跟踪;

步骤十、分析话题相关的人物、组织、机构等,挖掘话题的传播路径、关键账号等,预测话题的未来走势;

步骤十一、针对专题事件进行深度挖掘,对重大活动及议题实时监测与跟踪;

步骤十二、基于人物组织库,对区域外关于舆情进行分析跟踪,挖掘区域内外人物、组织关联关系、资金流、网络行为等,形成区域外的舆情态势;

步骤十三、结合历史事件,形成重大事件的分析指标,从事件的发生时间、发生地点、主题敏感度、活动规模等维度,构建事件预测模型;

步骤十四、基于事件预测模型,预测计划性的事件及未知的危险事件;

步骤十五、基于网情态势感知、人物态势感知、组织态势感知、区域内舆情态势感知、区域外舆情态势感知、事件态势感知等组合,实现网情态势的动态绘制。

本发明公开的实施例提供的技术方案可以包括以下有益效果:

1、本发明结合数据质量评估,融合数据采集、数据分析挖掘及情报分析等多个维度,提出了网情态势监测体系,实现面向特定区域的网情扩展了横向分析的广度、纵向分析的深度,完成网情态势的动态绘制。

2、本发明将数据质量评估引入网情分析体系,极大的提高了数据的准确性、有效性、可用性,保证整体网情分析结果的准确性。

当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。

图1是本发明提供的面向特定区域的网情态势感知体系及架构图。

图2是本发明提供的数据采集与汇聚流程图。

图3是本发明提供的数据治理流程图。

图4是本发明提供的数据服务流程图。

图5是本发明提供的网情态势动态绘制流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。

需要说明的是,当元件被称为“固定于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本发明所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的,并不表示是唯一的实施方式。

除非另有定义,本发明所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本发明中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本发明所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

本发明结合数据质量评估,融合数据采集、数据分析挖掘及情报分析等多个维度,提出了网情态势监测体系,实现面向特定区域的网情扩展了横向分析的广度、纵向分析的深度,完成网情态势的动态绘制。

鉴于面向特定区域的网情态势分析体系及技术的缺失与不足,本发明提出了一种面向特定区域的网情态势动态绘制系统与方法。

一种融合数据质量多维度评估的网情态势动态绘制系统从:数据采集范围圈定、数据汇聚、数据治理、数据关联分析挖掘、网情态势感知、情报辅助决策几个方面实现。

数据采集范围圈定单元,分析特定区域的经济、民生、政治等区域性特点,结合网民网络行为,圈定网民活动的主要社交平台、新闻媒体、民调机构等数据采集的范围。

数据汇聚单元,依据圈定的数据采集范围,采用不同的数据获取手段获取数据,依据不同数据类型进行数据汇聚,数据来源于人工整编、开源数据与非合作方式获取数据,数据汇聚方式包括文件导入、数据库抽取、FTP文件接入及流数据接入等方式。

数据治理单元,对数据汇聚后,对数据进行基础清洗、字段标准化,自动添加数据标签,构建数据资源目录,形成数据资源池,并从数据接入、存储、分析使用等多个环节,从数据及时性、有效性、波动性、关联性、一致性、正确性、规范性、唯一性、完整性九个维度自动发现质量问题,不断解决问题提升数据资源的价值,形成涉特定区域的高价值数据库。

数据关联分析挖掘单元,基于涉特定区域的高价值数据库,依据人物、组织、活动等不同的维度形成不同的主题分类,并构建知识图谱模型,形成人物、组织等全息关联库。

网情态势感知单元,在数据关联分析挖掘的基础上,从综合数据分析、区域舆情分析、境外舆情分析、重点人物及组织分析、重大事件分析、情报分析报告角度进行网情态势的感知,动态绘制网情地图,实时监测网情态势。

一种融合数据质量多维度评估的网情态势动态绘制方法包括:数据采集汇聚、数据治理与数据服务及网情态势动态绘制。

数据采集与汇聚的具体流程如下:

1.基于特定区域的政治、经济、民生等区域性特点,划定针对特定区域的权威性网站或者有代表性的网站作为开源数据的重要来源之一;

2.基于特定区域的网民网络行为分析,划定特定区域网民网络活动的主要社交平台和新闻媒体作为网情态势基础数据来源的基础;

3.形成面向特定区域的网络采集目标;

4.通过网络爬虫、系统日志采集及人工整编等多种方式实现数据的实时或者定时的采集,并通过数据安全通道传输到数据汇聚平台;

5.在数据汇聚过程中,从数据的及时性、有效性、完整性等多个维度进行数据质量的初步判定;

6.基于FTP方式、流式、文件导入等多种方式将经过数据质量初步判定后的数据,依据数据来源分类存储到数据汇聚系统;

7.采用数据汇聚实时监控,实时监控数据汇聚的状态,保证数据汇聚的稳定性。

数据治理的主要流程如下:

1.接收到系统后,对汇聚数据进行实时的完整性、准确性、有效性、唯一性、正确性及及时性等维度进行评估;

2.基于实时数据质量检测结果,对数据质量的判定结果进行日志记录及告警;

3.基于数据质量检测存在的问题,对数据进行自动的清洗与转换;

4.制定数据标准,基于数据标准与数据研判,构建数据资源池;

5.建立数据标签体系,对数据标签进行分级分类,实现表级别、字段级别、数据级别的标签定义;

6.依据数据的类型,从数据来源与数据分类角度,构建数据资源目录;

7.实现数据资源目录与数据标签体系的数据资源查询,并对数据资源的访问权限实现细粒度的控制。

数据服务的流程具体如下:

1.将数据资源分为原始层、标准层、基础层及主题层,对不同层进行分层建模;基于数据资源的属性及整体业务构建面向不同主题的基础资源库,包括人物库、组织库、事件库及行为库等。

2.对数据资源池中的数据进行深度的融合关联,挖掘数据之间的关联关系,形成知识图谱。

3.基于已形成的数据关联库与各种业务库,配置数据资源的访问权限与开放程度,形成数据开放目录。

4.用户基于数据开放目录进行数据服务申请,系统接收到用户服务申请,基于数据服务的需求,基于数据统计、分析、挖掘方法,生成数据服务内容,并进行服务发布。

5.用户通过接口调用、文件下载等方式获取数据服务。

网情态势动态绘制流程如下:

1.基于多来源采集数据对整体数据进行基础统计,分析不同社交平台和新闻媒体的数据变化,绘制数据变化趋势;

2.基于网情评价指标体系计算整体网情的走势;

3.基于历史数据变化规律及整体的网情走势,预测整体网情变化趋势;

4.基于人物基础库与知识图谱,对人物进行深度分析,实现人物的全息关联,并实时监控人物的网络行为;

5.在人物社交网络和新闻媒体数据采集的基础上,实现人物网络活跃度、声量、支持度等动态跟踪;

6.基于人物全息档案及网络行,形成人物基础档案,实时跟踪人物的相关活动及事件,动态感知人物的信息;

7.基于组织基础库及知识土偶,深度分析组织的基本情况,挖掘组织与人物之间的关联程度,分析组织与组织之间的关联;

8.实时检测组织在新闻媒体、社交平台的相关活动及事件,形成组织的态势感知;

9.基于机器学习与自然语言处理的方式分析整体舆情走向,自动发现热点话题,并对话题进行实时跟踪;

10.分析话题相关的人物、组织、机构等,挖掘话题的传播路径、关键账号等,预测话题的未来走势;

11.针对专题事件进行深度挖掘,对重大活动及议题实时监测与跟踪;

12.基于人物组织库,对区域外关于特定区域的舆情进行分析跟踪,挖掘区域内外人物、组织关联关系、资金流、网络行为等,形成区域外的舆情态势;

13.结合历史事件,形成重大事件的分析指标,构建事件预测模型。

14.基于事件预测模型,预测计划性的事件及未知的危险事件。

15.基于网情态势感知、人物态势感知、组织态势感知、区域内舆情态势感知、区域外舆情态势感知、事件态势感知等组合,实现网情态势的动态绘制。

面向特定区域的网情态势动态绘制时,以本发明的整体体系为指导,可搭建完整的网情分析框架,基于每个框架,按照发明中提及的步骤来进行每一步技术实施,可以有效地提升整体数据质量,拓宽网情分析的广度、深度,为情报分析研判提供有力的技术支撑。

本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围应由所附的权利要求来限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号