首页> 中国专利> 数据管理和处理方法、装置、计算机系统及可读存储介质

数据管理和处理方法、装置、计算机系统及可读存储介质

摘要

本公开实施例公开了一种数据管理和处理方法、装置、计算机系统及可读存储介质。所述数据管理方法包括:获取多个数据获取装置的逻辑拓扑结构,所述逻辑拓扑结构是根据所述多个数据获取装置的分组信息确定的;获取计算资源与所述逻辑拓扑结构中的节点的资源‑节点对应关系;根据所述逻辑拓扑结构和所述资源‑节点对应关系,确定用于处理所述多个数据获取装置中的指定数据获取装置所获取的数据的指定计算资源。

著录项

  • 公开/公告号CN112988739A

    专利类型发明专利

  • 公开/公告日2021-06-18

    原文格式PDF

  • 申请/专利权人 阿里巴巴集团控股有限公司;

    申请/专利号CN201911312980.8

  • 发明设计人 王煜骢;酆晓杰;

    申请日2019-12-18

  • 分类号G06F16/22(20190101);G06F9/46(20060101);G06F9/50(20060101);

  • 代理机构11519 北京智信四方知识产权代理有限公司;

  • 代理人吕雁葭;宋海龙

  • 地址 英属开曼群岛大开曼资本大厦一座四层847号邮箱

  • 入库时间 2023-06-19 11:29:13

说明书

技术领域

本公开涉及数据库领域,具体涉及一种数据管理和处理方法、装置、计算机系统及可读存储介质。

背景技术

日志、性能等数据库运营中产生的数据对云上各个业务都有着巨大的价值,需要对这些数据进行采集、加工与存储,并最终提供查询、分析等各类数据服务。

现有面向日志大数据分析的业务服务系统,日志经过预处理后,通过网络传输到数据管道进行缓存,数据以分业务分队列的形式在对应管道中进行处理。

发明内容

为了解决相关技术中的问题,本公开实施例提供一种数据管理和处理方法、装置、计算机系统及可读存储介质。

第一方面,本公开实施例中提供了一种数据管理方法。

具体地,所述数据管理方法,包括:

获取多个数据获取装置的逻辑拓扑结构,所述逻辑拓扑结构是根据所述多个数据获取装置的分组信息确定的;

获取计算资源与所述逻辑拓扑结构中的节点的资源-节点对应关系;

根据所述逻辑拓扑结构和所述资源-节点对应关系,确定用于处理所述多个数据获取装置中的指定数据获取装置所获取的数据的指定计算资源。

结合第一方面,本公开在第一方面的第一种实现方式中,所述数据获取装置包括采集实体;和/或

所述数据获取装置包括采集代理和一个或多个采集实体;和/或

所述分组信息包括所述数据获取装置的物理分组信息和/或逻辑分组信息。

结合第一方面,本公开在第一方面的第二种实现方式中,所述逻辑拓扑结构包括树结构;和/或

所述计算资源包括数据管道。

结合第一方面,本公开在第一方面的第三种实现方式中,根据所述逻辑拓扑结构和所述资源-节点对应关系,确定用于处理所述指定数据获取装置所获取的数据的指定计算资源,包括:

从所述指定数据获取装置所对应的逻辑拓扑结构的节点,沿所述逻辑拓扑结构自下向上进行遍历,确定第一个具有用于处理所述指定数据获取装置的相应业务数据的对应计算资源的指定节点,将所述指定节点所对应的计算资源作为所述用于处理所述指定数据获取装置所获取的数据的指定计算资源。

结合第一方面,本公开在第一方面的第四种实现方式中,还包括:

获取所述计算资源的状态信息;

在所述计算资源的状态信息满足第一预设条件的情况下,确定所述计算资源所对应的节点的一个或多个下游节点;

建立所述下游节点与另一计算资源之间的对应关系并更新所述资源-节点对应关系。

结合第一方面的第四种实现方式,本公开在第一方面的第五种实现方式中,所述计算资源的状态信息满足第一预设条件,包括所述计算资源的负载达到或超过预设阈值;和/或

所述另一计算资源与所述逻辑拓扑结构中的其他节点所对应的计算资源均不同,或者所述另一计算资源是所述逻辑拓扑结构中的其他节点所对应的计算资源中满足第二预设条件的计算资源。

结合第一方面的第五种实现方式,本公开在第一方面的第六种实现方式中,所述第二预设条件是所述其他节点所对应的计算资源的负载小于预定阈值。

结合第一方面的第四种实现方式,本公开在第一方面的第七种实现方式中,所述根据所述逻辑拓扑结构和所述资源-节点对应关系,确定用于处理所述多个数据获取装置中的指定数据获取装置所获取的数据的指定计算资源,包括:

根据所述逻辑拓扑结构和更新的所述资源-节点对应关系,确定用于处理所述指定数据获取装置所获取的数据的指定计算资源。

第二方面,本公开实施例中提供了一种数据处理方法。

具体地,所述数据处理方法,包括:通过指定数据获取装置获取数据;

确定用于处理所述数据的指定计算资源,所述指定计算资源是根据多个数据获取装置的逻辑拓扑结构和计算资源与所述逻辑拓扑结构中的节点的资源-节点对应关系确定的;

将所述数据传输到所述指定计算资源进行处理,

其中,所述逻辑拓扑结构是根据所述多个数据获取装置的分组信息确定的。

结合第二方面,本公开在第二方面的第一种实现方式中,所述数据获取装置包括采集实体;和/或

所述数据获取装置包括采集代理和一个或多个采集实体;和/或

所述分组信息包括所述数据获取装置的物理分组信息和/或逻辑分组信息。

结合第二方面,本公开在第二方面的第二种实现方式中,所述逻辑拓扑结构包括树结构;和/或

所述计算资源包括数据管道。

结合第二方面,本公开在第二方面的第三种实现方式中,根据多个数据获取装置的逻辑拓扑结构和计算资源与所述逻辑拓扑结构中的节点的资源-节点对应关系确定所述指定计算资源,包括:

从所述指定数据获取装置所对应的逻辑拓扑结构的节点,沿所述逻辑拓扑结构自下向上进行遍历,确定第一个具有用于处理所述指定数据获取装置的相应业务数据的对应计算资源的指定节点,将所述指定节点所对应的计算资源作为所述用于处理所述指定数据获取装置所获取的数据的指定计算资源。

第三方面,本公开实施例中提供了一种数据管理装置。

具体地,所述数据管理装置,包括:

逻辑拓扑结构获取模块,用于获取多个数据获取装置的逻辑拓扑结构,所述逻辑拓扑结构是根据所述多个数据获取装置的分组信息确定的;

对应关系获取模块,用于获取计算资源与所述逻辑拓扑结构中的节点的资源-节点对应关系;

第一计算资源确定模块,用于根据所述逻辑拓扑结构和所述资源-节点对应关系,确定用于处理所述多个数据获取装置中的指定数据获取装置所获取的数据的指定计算资源。

结合第三方面,本公开在第三方面的第一种实现方式中,所述数据获取装置包括采集实体;和/或

所述数据获取装置包括采集代理和一个或多个采集实体;和/或

所述分组信息包括所述数据获取装置的物理分组信息和/或逻辑分组信息。

结合第三方面,本公开在第三方面的第二种实现方式中,所述逻辑拓扑结构包括树结构;和/或

所述计算资源包括数据管道。

结合第三方面,本公开在第三方面的第三种实现方式中,根据所述逻辑拓扑结构和所述资源-节点对应关系,确定用于处理所述指定数据获取装置所获取的数据的指定计算资源,包括:

从所述指定数据获取装置所对应的逻辑拓扑结构的节点,沿所述逻辑拓扑结构自下向上进行遍历,确定第一个具有用于处理所述指定数据获取装置的相应业务数据的对应计算资源的指定节点,将所述指定节点所对应的计算资源作为所述用于处理所述指定数据获取装置所获取的数据的指定计算资源。

结合第三方面,本公开在第三方面的第四种实现方式中,还包括:

计算资源状态信息获取模块,用于获取所述计算资源的状态信息;

节点确定模块,用于在所述计算资源的状态信息满足第一预设条件的情况下,确定所述计算资源所对应的节点的一个或多个下游节点;

对应关系更新模块,用于建立所述下游节点与另一计算资源之间的对应关系并更新所述资源-节点对应关系。

结合第三方面的第四种实现方式,本公开在第三方面的第五种实现方式中,所述计算资源的状态信息满足第一预设条件,包括所述计算资源的负载达到或超过预设阈值;和/或

所述另一计算资源与所述逻辑拓扑结构中的其他节点所对应的计算资源均不同,或者所述另一计算资源是所述逻辑拓扑结构中的其他节点所对应的计算资源中满足第二预设条件的计算资源。

结合第三方面的第五种实现方式,本公开在第三方面的第六种实现方式中,所述第二预设条件是所述其他节点所对应的计算资源的负载小于预定阈值。

结合第三方面的第四种实现方式,本公开在第三方面的第七种实现方式中,所述根据所述逻辑拓扑结构和所述资源-节点对应关系,确定用于处理所述多个数据获取装置中的指定数据获取装置所获取的数据的指定计算资源,包括:

根据所述逻辑拓扑结构和更新的所述资源-节点对应关系,确定用于处理所述指定数据获取装置所获取的数据的指定计算资源。

第四方面,本公开实施例中提供了一种数据处理装置。

具体地,所述数据处理装置,包括:

数据获取模块,用于通过指定数据获取装置获取数据;

第二计算资源确定模块,用于确定用于处理所述数据的指定计算资源,所述指定计算资源是根据多个数据获取装置的逻辑拓扑结构和计算资源与所述逻辑拓扑结构中的节点的资源-节点对应关系确定的;

数据传输模块,用于将所述数据传输到所述指定计算资源进行处理,

其中,所述逻辑拓扑结构是根据所述多个数据获取装置的分组信息确定的。

结合第四方面,本公开在第四方面的第一种实现方式中,所述数据获取装置包括采集实体;和/或

所述数据获取装置包括采集代理和一个或多个采集实体;和/或

所述分组信息包括所述数据获取装置的物理分组信息和/或逻辑分组信息。

结合第四方面,本公开在第四方面的第二种实现方式中,所述逻辑拓扑结构包括树结构;和/或

所述计算资源包括数据管道。

结合第四方面,本公开在第四方面的第三种实现方式中,根据多个数据获取装置的逻辑拓扑结构和计算资源与所述逻辑拓扑结构中的节点的资源-节点对应关系确定所述指定计算资源,包括:

从所述指定数据获取装置所对应的逻辑拓扑结构的节点,沿所述逻辑拓扑结构自下向上进行遍历,确定第一个具有用于处理所述指定数据获取装置的相应业务数据的对应计算资源的指定节点,将所述指定节点所对应的计算资源作为所述用于处理所述指定数据获取装置所获取的数据的指定计算资源。

第五方面,本公开实施例中提供了一种计算机系统。具体地,所述计算机系统,包括:处理器;存储器,存储有可执行指令,当所述可执行指令被处理器执行时,实现以下方法步骤:

获取多个数据获取装置的逻辑拓扑结构,所述逻辑拓扑结构是根据所述多个数据获取装置的分组信息确定的;

获取计算资源与所述逻辑拓扑结构中的节点的资源-节点对应关系;

根据所述逻辑拓扑结构和所述资源-节点对应关系,确定用于处理所述多个数据获取装置中的指定数据获取装置所获取的数据的指定计算资源。

结合第五方面,本公开在第五方面的第一种实现方式中,所述数据获取装置包括采集实体;和/或

所述数据获取装置包括采集代理和一个或多个采集实体;和/或

所述分组信息包括所述数据获取装置的物理分组信息和/或逻辑分组信息。

结合第五方面,本公开在第五方面的第二种实现方式中,所述逻辑拓扑结构包括树结构;和/或

所述计算资源包括数据管道。

结合第五方面,本公开在第五方面的第三种实现方式中,根据所述逻辑拓扑结构和所述资源-节点对应关系,确定用于处理所述指定数据获取装置所获取的数据的指定计算资源,包括:

从所述指定数据获取装置所对应的逻辑拓扑结构的节点,沿所述逻辑拓扑结构自下向上进行遍历,确定第一个具有用于处理所述指定数据获取装置的相应业务数据的对应计算资源的指定节点,将所述指定节点所对应的计算资源作为所述用于处理所述指定数据获取装置所获取的数据的指定计算资源。

结合第五方面,本公开在第五方面的第四种实现方式中,当所述可执行指令被处理器执行时,还实现以下方法步骤:

获取所述计算资源的状态信息;

在所述计算资源的状态信息满足第一预设条件的情况下,确定所述计算资源所对应的节点的一个或多个下游节点;

建立所述下游节点与另一计算资源之间的对应关系并更新所述资源-节点对应关系。

结合第五方面的第四种实现方式,本公开在第五方面的第五种实现方式中,所述计算资源的状态信息满足第一预设条件,包括所述计算资源的负载达到或超过预设阈值;和/或

所述另一计算资源与所述逻辑拓扑结构中的其他节点所对应的计算资源均不同,或者所述另一计算资源是所述逻辑拓扑结构中的其他节点所对应的计算资源中满足第二预设条件的计算资源。

结合第五方面的第五种实现方式,本公开在第五方面的第六种实现方式中,所述第二预设条件是所述其他节点所对应的计算资源的负载小于预定阈值。

结合第五方面的第四种实现方式,本公开在第五方面的第七种实现方式中,所述根据所述逻辑拓扑结构和所述资源-节点对应关系,确定用于处理所述多个数据获取装置中的指定数据获取装置所获取的数据的指定计算资源,包括:

根据所述逻辑拓扑结构和更新的所述资源-节点对应关系,确定用于处理所述指定数据获取装置所获取的数据的指定计算资源。

第六方面,本公开实施例中提供了一种计算机系统。具体地,所述计算机系统,包括:处理器;存储器,存储有可执行指令,当所述可执行指令被处理器执行时,实现以下方法步骤:

通过指定数据获取装置获取数据;

确定用于处理所述数据的指定计算资源,所述指定计算资源是根据多个数据获取装置的逻辑拓扑结构和计算资源与所述逻辑拓扑结构中的节点的资源-节点对应关系确定的;

将所述数据传输到所述指定计算资源进行处理,

其中,所述逻辑拓扑结构是根据所述多个数据获取装置的分组信息确定的。

结合第六方面,本公开在第六方面的第一种实现方式中,所述数据获取装置包括采集实体;和/或

所述数据获取装置包括采集代理和一个或多个采集实体;和/或

所述分组信息包括所述数据获取装置的物理分组信息和/或逻辑分组信息。

结合第六方面,本公开在第六方面的第二种实现方式中,所述逻辑拓扑结构包括树结构;和/或

所述计算资源包括数据管道。

结合第六方面,本公开在第六方面的第三种实现方式中,根据多个数据获取装置的逻辑拓扑结构和计算资源与所述逻辑拓扑结构中的节点的资源-节点对应关系确定所述指定计算资源,包括:

从所述指定数据获取装置所对应的逻辑拓扑结构的节点,沿所述逻辑拓扑结构自下向上进行遍历,确定第一个具有用于处理所述指定数据获取装置的相应业务数据的对应计算资源的指定节点,将所述指定节点所对应的计算资源作为所述用于处理所述指定数据获取装置所获取的数据的指定计算资源。

第七方面,本公开实施例中提供了一种计算机可读存储介质。

具体地,所述计算机可读存储介质,存储有可执行指令,当所述可执行指令被处理器执行时,实现如第一方面、第一方面的第一种实现方式到第一方面的第七种实现方式、第二方面、第二方面的第一种实现方式到第二方面的第三种实现方式中任一项所述的方法。

附图说明

结合附图,通过以下非限制性实施方式的详细描述,本公开的其它目的和优点将变得更加明显。在附图中:

图1示出了根据本公开实施例的应用场景的示意图;

图2A示出根据本公开实施例的数据管理方法的流程图;

图2B示出根据本公开实施例的多个数据获取装置的逻辑拓扑结构的示意图;

图3A示出根据本公开实施例的数据管理方法的流程图;

图3B示出根据本公开实施例的挂载新管道的示意图;

图4示出根据本公开实施例的数据处理方法的流程图;

图5示出根据本公开实施例的数据管理装置的结构图;

图6示出根据本公开实施例的数据管理装置的结构图;

图7示出根据本公开实施例的数据处理装置的结构图;

图8示出根据本公开实施例的计算机系统的结构框图;

图9示出根据本公开实施例适于用来实现用于数据管理和/或数据处理方法的计算机体系架构的结构框图。

具体实施方式

下文中,将参考附图详细描述本公开的示例性实施方式,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施方式无关的部分。

在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

在提出本公开的过程中,发明人发现,在现有面向日志大数据分析的业务服务系统中,将数据以分业务分队列的形式在对应管道中进行处理,管理粒度粗,业务数据量的增长易导致管道满载。而且,现有面向日志大数据分析的业务服务系统不具备管道扩容、分裂的能力,扩展性受限。系统只有任务管理与调度能力,缺乏任务监控能力。为至少部分解决上述问题而提出本公开。

图1示出了根据本公开实施例的应用场景的示意图。可以理解,图1所示应用场景仅为了说明本公开的概念和原理,而并非意味着本公开仅适用于这样的应用场景。

如图1所示,示例性应用场景包括配置中心10、采集端20、管道管控系统30、数据服务系统40、消息通道50和协调器60。

配置中心10用于维护管道划分、数据路由等元信息,对采集端20、管道管控系统30和数据服务系统40等提供中心化配置服务。

采集端20用于采集数据。

管道管控系统30用于提供数据管道和实现数据管道的创建、更新、分裂、销毁等,并监控管道状态。

数据服务系统40用于提供数据查询、分析等服务。

消息通道50用于统一收集采集端20和管道管控系统30的状态信息并发送到协调器60,实现采集端20、管道管控系统30和协调器60的解耦。

协调器60用于收集采集端20和管道管控系统30的状态,并对错误和异常情况做出合适的应对操作。

在图1中,实线链路为数据链路,用于数据的采集、存储和后期的获取、分析;虚线链路为控制链路,实现系统的控制功能。

在步骤S101中,配置中心10对采集端20、管道管控系统30和数据服务系统40提供中心化配置服务。

在步骤S102中,采集端20向消息通道50发送状态信息;

在步骤S103中,管道管控系统30向消息通道50发送状态信息;

在步骤S104中,协调器60从消息通道50获取状态信息;

在步骤S105中,协调器60根据状态信息向采集端20和管道管控系统30发出控制指令。

图2A示出根据本公开实施例的数据管理方法的流程图。

在步骤S201中,获取多个数据获取装置的逻辑拓扑结构,所述逻辑拓扑结构是根据所述多个数据获取装置的分组信息确定的。

在步骤S202中,获取计算资源与所述逻辑拓扑结构中的节点的资源-节点对应关系。

在步骤S203中,根据所述逻辑拓扑结构和所述资源-节点对应关系,确定用于处理所述多个数据获取装置中的指定数据获取装置所获取的数据的指定计算资源。

根据本公开的实施例,数据管理方法例如可以由图1所示的配置中心10实现,数据获取装置可以包括图1所示的采集端,计算资源可以是能够对数据进行处理的任何资源,例如包括图1所示的管道管控系统30提供的数据管道。或者,计算资源例如还可以包括计算设备、处理器、控制器、云计算平台中分配的计算能力中的任意一种或多种。

根据本公开实施例,数据获取装置获取数据,例如从运行的数据库主机中获取性能、日志等信息。计算资源用于处理数据获取装置获取的数据。数据获取装置按照预设的规则进行分组,形成特定的逻辑拓扑结构。计算资源分布于逻辑拓扑结构中,挂载在逻辑拓扑结构的节点上。根据对数据获取装置的逻辑拓扑结构和计算资源与挂载节点间的对应关系,确定处理指定数据获取装置所获取的数据的指定计算资源,进而也可以确定从指定数据获取装置到指定计算资源的路由信息。

根据本公开实施例,所述逻辑拓扑结构包括树结构;和/或所述计算资源包括数据管道。例如,逻辑拓扑结构包括树结构,也可以包括例如图等其它拓扑结构。计算资源包括数据管道,也可以包括其它数据处理方式。

图2B示出根据本公开实施例的多个数据获取装置的逻辑拓扑结构的示意图。

根据本公开实施例,所述数据获取装置包括采集实体;和/或所述数据获取装置包括采集代理和一个或多个采集实体;和/或所述分组信息包括所述数据获取装置的物理分组信息和/或逻辑分组信息。

例如,如图2B所示,数据获取装置可以包括采集实体,例如采集实体A1、A2、B1、B2、C1、C2。在同一台数据库服务器上,可以包括一个采集实体,也可以包括多个采集实体,用于相同或不同类型的数据采集。

或者,数据获取装置也可以包括采集代理和一个或多个采集实体。在同一台数据库服务器上,可以有一个采集代理,用于这台数据库服务器上所有采集实体的数据汇总。例如,采集实体A1、A2和采集代理A可以构成一个数据获取装置,采集实体B1、B2和采集代理B可以构成一个数据获取装置,采集实体C1、C2和采集代理C可以构成一个数据获取装置。

根据本公开实施例,可以根据多个数据获取装置的分组信息确定所述多个数据获取装置的逻辑拓扑结构。数据获取装置的分组信息包括物理分组信息和/或逻辑分组信息。例如,位于同一物理主机上的数据获取装置可以分到一个物理分组,位于同一物理主机上的数据获取装置可以分到相同或不同的逻辑分组。

逻辑拓扑结构可以包括通过所述多个数据获取装置的分组信息确定的多个节点。

如图2B所示,如果以采集实体作为数据获取装置,则分组信息可以包括物理分组信息和逻辑分组信息。例如,位于主机A上的采集实体A1和采集实体A2属于物理分组1,位于主机B上的采集实体B1和采集实体B2属于物理分组2,位于主机C上的采集实体C1和采集实体C2属于物理分组3。逻辑分组可以是对物理分组和/或数据获取装置的分组,如图2B所示,集群1、2、3、4是逻辑分组,其中,集群1可以包括物理分组1,集群2可以包括物理分组2,集群3可以包括采集实体C1,集群4可以包括采集实体C2。数据子域1、2是集群1、2、3、4的上层逻辑分组,数据子域1可以包括集群1和集群2,数据子域2可以包括集群3和集群4。数据子域上层的逻辑分组依次为可用区、区域和单元。可用区1可以包括数据子域1,可用区2可以包括数据子域2。区域1可以包括可用区1,区域2可以包括可用区2。单元可以包括区域1和区域2。相应地,图2B所示的逻辑拓扑结构自上而下包括节点:单元、区域1、区域2、可用区1、可用区2、数据子域1、数据子域2、集群1、集群2、集群3、集群4、物理分组1、物理分组2、采集实体C1、采集实体C2。

或者,也可以不针对数据获取装置进行物理分组,而仅针对数据获取装置进行逻辑分组。例如,如图2B所示,集群1可以包括采集实体A1、A2,集群2可以包括采集实体B1、B2,集群3可以包括采集实体C1,集群4可以包括采集实体C2。数据子域1、2是集群1、2、3、4的上层逻辑分组,数据子域1可以包括集群1和集群2,数据子域2可以包括集群3和集群4。数据子域上层的逻辑分组依次为可用区、区域和单元。可用区1可以包括数据子域1,可用区2可以包括数据子域2。区域1可以包括可用区1,区域2可以包括可用区2。单元可以包括区域1和区域2。相应地,图2B所示的逻辑拓扑结构自上而下包括节点:单元、区域1、区域2、可用区1、可用区2、数据子域1、数据子域2、集群1、集群2、集群3、集群4、采集实体A1、采集实体A2、采集实体B1、采集实体B2、采集实体C1、采集实体C2。

如图2B所示,如果数据获取装置包括位于同一主机上的采集代理和采集实体,则分组信息可以包括逻辑分组信息。例如,如图2B所示,集群1、2、3、4是逻辑分组,其中,集群1可以包括采集实体A1、A2和采集代理A构成的逻辑获取装置,集群2可以包括采集实体B1、B2和采集代理B构成的逻辑获取装置,集群3可以包括采集实体C1,集群4可以包括采集实体C2。数据子域1、2是集群1、2、3、4的上层逻辑分组,数据子域1可以包括集群1和集群2,数据子域2可以包括集群3和集群4。数据子域上层的逻辑分组依次为可用区、区域和单元。可用区1可以包括数据子域1,可用区2可以包括数据子域2。区域1可以包括可用区1,区域2可以包括可用区2。单元可以包括区域1和区域2。相应地,图2B所示的逻辑拓扑结构自上而下包括节点:单元、区域1、区域2、可用区1、可用区2、数据子域1、数据子域2、集群1、集群2、集群3、集群4、由采集实体A1、A2和采集代理A构成的数据获取装置、由采集实体B1、B2和采集代理B构成的数据获取装置、采集实体C1、采集实体C2。

需要注意的是,在数据获取装置包括采集代理和采集实体的情况下,数据获取装置可以包括一个或多个采集实体。数据获取装置除了包括采集实体、或包括采集代理和采集实体之外,也可以包括除了采集代理和采集实体之外的其他组件。或者,数据获取装置也可以采取其他形式,只要所述数据获取装置能够实现数据采集功能即可。

根据本公开实施例,计算资源(例如,数据管道)可以与逻辑拓扑结构中的节点具有对应关系。例如,性能数据管道1和日志数据管道1挂载在区域1上,性能数据管道2和日志数据管道2挂载在区域2上。

根据本公开实施例,根据所述逻辑拓扑结构和所述资源-节点对应关系,确定用于处理所述指定数据获取装置所获取的数据的指定计算资源,包括:从所述指定数据获取装置所对应的逻辑拓扑结构的节点,沿所述逻辑拓扑结构自下向上进行遍历,确定第一个具有用于处理所述指定数据获取装置的相应业务数据的对应计算资源的指定节点,将所述指定节点所对应的计算资源作为所述用于处理所述指定数据获取装置所获取的数据的指定计算资源。例如,在树结构中,指定数据获取装置位于最下层的指定叶子节点上。为了确定指定数据获取装置获取的数据存入哪个计算资源,配置中心可以在树结构中,从指定叶子节点出发,沿树结构从下向上进行遍历,找到挂载了处理指定数据获取装置相应业务的数据管道的第一个节点,将该管道作为用于处理指定数据获取装置所获取的数据的指定计算资源。例如,在图2B中,对于指定数据获取装置(例如,采集实体A1)获取的日志数据,可以从采集实体A1所在的叶子节点沿树结构向上遍历,找到区域1挂载的日志数据管道1可以处理所述日志数据,于是将日志数据管道1作为用于处理采集实体1获取的日志数据的指定计算资源。

根据本公开实施例,在确定了处理指定数据获取装置相应业务的数据管道的节点之后,可以相应地确定把数据传输到该管道的路由信息。

与现有技术不同,本公开并未只按业务划分管道,而是定义了更为通用的基于数据获取装置的逻辑拓扑结构的数据处理方案,更加便于计算资源的扩充、组织、和管理。

图3A示出根据本公开实施例的数据管理方法的流程图。

图3A除了包括与图2相同的步骤S201~S203之外,还增加了步骤S204~S206。

在步骤S204中,获取所述计算资源的状态信息;

在步骤S205中,在所述计算资源的状态信息满足第一预设条件的情况下,确定所述计算资源所对应的节点的一个或多个下游节点;

在步骤S206中,建立所述下游节点与另一计算资源之间的对应关系并更新所述资源-节点对应关系。

根据本公开实施例,获取所述计算资源的状态信息,在所述计算资源的状态信息满足第一预设条件的情况下,确定所述计算资源所对应的节点的一个或多个下游节点,建立所述下游节点与另一计算资源之间的对应关系并更新所述资源-节点对应关系。例如,协调器可以通过消息通道获取数据管道的状态信息。当状态信息满足第一预设条件时,确定数据管道所挂载的节点的一个或者多个下游节点,在下游节点上挂载另一数据管道并且更新所述资源-节点对应关系。

根据本公开实施例,所述计算资源的状态信息满足第一预设条件,包括所述计算资源的负载达到或超过预设阈值;和/或所述另一计算资源与所述逻辑拓扑结构中的其他节点所对应的计算资源均不同,或者所述另一计算资源是所述逻辑拓扑结构中的其他节点所对应的计算资源中满足第二预设条件的计算资源。例如,第一预设条件可以是数据管道超载,也可以是其它预设条件。此时在超载的数据管道所挂载的节点的一个或者多个下游节点上,挂载另一个数据管道。例如,假设超载的数据管道所挂载的节点N的负荷是W,则可以在该节点N的负荷大于或等于W/2的下游节点M上挂载另一数据管道,以减轻节点N的负荷。

挂载到所述下游节点的另一数据管道可以和树拓扑结构中的其它节点上挂载的数据管道均不同,即新建的数据管道。或者,此另一数据管道也可以是在树拓扑结构的其它节点上挂载的数据管道中,满足第二预设条件的。或者,此另一数据管道也可以是满足其他条件的数据管道。

根据本公开实施例,所述第二预设条件是所述其他节点所对应的计算资源的负载小于预定阈值。例如,第二预设条件可以是其它节点挂载的数据管道的负载小于预定阈值,即已经存在的轻载数据管道。此时可以将轻载数据管道挂载到上述下游节点,分流过载节点上的负载,并相应更新所述资源-节点对应关系。

图3B示出根据本公开实施例的挂载新管道的示意图。

在图3B中,假设日志数据管道2的状态为过载,并在过载节点的下层找到集群4为数据流量较大的热点节点。在集群4上可以挂载新的日志数据管道3,并将采集实体C2中的数据存入日志数据管道3,即将从采集实体C2到日志数据管道2的路由信息更新为:从采集实体C2到日志数据管道3。

根据本公开实施例,所述根据所述逻辑拓扑结构和所述资源-节点对应关系,确定用于处理所述多个数据获取装置中的指定数据获取装置所获取的数据的指定计算资源,包括:根据所述逻辑拓扑结构和更新的所述资源-节点对应关系,确定用于处理所述指定数据获取装置所获取的数据的指定计算资源。由于资源-节点对应关系改变,可以基于逻辑拓扑结构和更新的资源-节点对应关系来确定用于处理指定数据获取装置所获取的数据的指定计算资源,并确定相应的路由信息。

本公开实施例通过计算资源的状态信息进行监控并相应设置新的计算资源或对现有计算资源进行重新分配利用,实现了及时、便捷的计算资源扩展,解决了扩展性受限问题,保证了数据处理的可靠性与系统稳定性。

图4示出根据本公开实施例的数据处理方法的流程图。

在步骤S401中,通过指定数据获取装置获取数据;

在步骤S402中,确定用于处理所述数据的指定计算资源,所述指定计算资源是根据多个数据获取装置的逻辑拓扑结构和计算资源与所述逻辑拓扑结构中的节点的资源-节点对应关系确定的;

在步骤S403中,将所述数据传输到所述指定计算资源进行处理。

其中,所述逻辑拓扑结构是根据所述多个数据获取装置的分组信息确定的。

例如,指定数据获取装置获取数据库主机上的性能或者日志数据。计算资源端通过配置中心的配置信息确定用于处理性能或者日志数据的指定数据管道。此指定数据管道是根据多个数据获取装置的逻辑拓扑结构和资源-节点对应关系确定的。然后,将性能或者日志数据传输指定数据管道中进行处理。

根据本公开实施例,所述数据获取装置包括采集实体;和/或所述数据获取装置包括采集代理和一个或多个采集实体;和/或所述分组信息包括所述数据获取装置的物理分组信息和/或逻辑分组信息。

根据本公开实施例,所述逻辑拓扑结构包括树结构;和/或所述计算资源包括数据管道。例如,逻辑拓扑结构包括树结构,也可以是例如图等其它拓扑结构。计算资源包括数据管道,也可以包括其它数据处理方式。

根据本公开实施例,根据多个数据获取装置的逻辑拓扑结构和计算资源与所述逻辑拓扑结构中的节点的资源-节点对应关系确定所述指定计算资源,包括:从所述指定数据获取装置所对应的逻辑拓扑结构的节点,沿所述逻辑拓扑结构自下向上进行遍历,确定第一个具有用于处理所述指定数据获取装置的相应业务数据的对应计算资源的指定节点,将所述指定节点所对应的计算资源作为所述用于处理所述指定数据获取装置所获取的数据的指定计算资源。

例如,在树结构中,指定数据获取装置位于树最下层的指定叶子节点上。为了确定指定数据获取装置获取的数据存入哪个计算资源,配置中心可以在树结构中,从指定叶子节点出发,沿树结构从下向上进行遍历,找到挂载了处理指定数据获取装置相应业务的数据管道的第一个节点,将该管道作为用于处理指定数据获取装置所获取的数据的指定计算资源。

根据本公开实施例,本公开中基于树结构的管道化方案,通过配置中心维护并向采集端和管道管控系统下发管道划分信息和路由信息,并结合协器实现了管道的便捷扩展,提供了错误处理与异常恢复能力,大大提升了整个数据链路的可扩展性、可靠性。

图5示出根据本公开实施例的数据管理装置的结构图。

在图5中,数据管理装置500包括:

逻辑拓扑结构获取模块501,用于获取多个数据获取装置的逻辑拓扑结构,所述逻辑拓扑结构是根据所述多个数据获取装置的分组信息确定的;

对应关系获取模块502,用于获取计算资源与所述逻辑拓扑结构中的节点的资源-节点对应关系;

第一计算资源确定模块503,用于根据所述逻辑拓扑结构和所述资源-节点对应关系,确定用于处理所述多个数据获取装置中的指定数据获取装置所获取的数据的指定计算资源。

根据本公开实施例,所述数据获取装置包括采集实体;和/或所述数据获取装置包括采集代理和一个或多个采集实体;和/或所述分组信息包括所述数据获取装置的物理分组信息和/或逻辑分组信息。

根据本公开实施例,所述逻辑拓扑结构包括树结构;和/或所述计算资源包括数据管道。

根据本公开实施例,根据所述逻辑拓扑结构和所述资源-节点对应关系,确定用于处理所述指定数据获取装置所获取的数据的指定计算资源,包括:从所述指定数据获取装置所对应的逻辑拓扑结构的节点,沿所述逻辑拓扑结构自下向上进行遍历,确定第一个具有用于处理所述指定数据获取装置的相应业务数据的对应计算资源的指定节点,将所述指定节点所对应的计算资源作为所述用于处理所述指定数据获取装置所获取的数据的指定计算资源。

图6示出根据本公开实施例的数据管理装置的结构图。

在图6中,数据管理装置600除了包括和图5中相同的逻辑拓扑结构获取模块501、对应关系获取模块502、第一计算资源确定模块503,还包括:

计算资源状态信息获取模块504,用于获取所述计算资源的状态信息;

节点确定模块505,用于在所述计算资源的状态信息满足第一预设条件的情况下,确定所述计算资源所对应的节点的一个或多个下游节点;

对应关系更新模块506,用于建立所述下游节点与另一计算资源之间的对应关系并更新所述资源-节点对应关系。

根据本公开实施例,所述计算资源的状态信息满足第一预设条件,包括所述计算资源的负载达到或超过预设阈值;和/或所述另一计算资源与所述逻辑拓扑结构中的其他节点所对应的计算资源均不同,或者所述另一计算资源是所述逻辑拓扑结构中的其他节点所对应的计算资源中满足第二预设条件的计算资源。

根据本公开实施例,所述第二预设条件是所述其他节点所对应的计算资源的负载小于预定阈值。

根据本公开实施例,所述根据所述逻辑拓扑结构和所述资源-节点对应关系,确定用于处理所述多个数据获取装置中的指定数据获取装置所获取的数据的指定计算资源,包括:根据所述逻辑拓扑结构和更新的所述资源-节点对应关系,确定用于处理所述指定数据获取装置所获取的数据的指定计算资源。

图7示出根据本公开实施例的数据处理装置的结构图。

在图7中,数据处理装置700包括:

数据获取模块701,用于通过指定数据获取装置获取数据;

第二计算资源确定模块702,用于确定用于处理所述数据的指定计算资源,所述指定计算资源是根据多个数据获取装置的逻辑拓扑结构和计算资源与所述逻辑拓扑结构中的节点的资源-节点对应关系确定的;

数据传输模块703,用于将所述数据传输到所述指定计算资源进行处理。

其中,所述逻辑拓扑结构是根据所述多个数据获取装置的分组信息确定的。

根据本公开实施例,所述数据获取装置包括采集实体;和/或所述数据获取装置包括采集代理和一个或多个采集实体;和/或所述分组信息包括所述数据获取装置的物理分组信息和/或逻辑分组信息。

根据本公开实施例,所述逻辑拓扑结构包括树结构;和/或所述计算资源包括数据管道。

根据本公开实施例,根据多个数据获取装置的逻辑拓扑结构和计算资源与所述逻辑拓扑结构中的节点的资源-节点对应关系确定所述指定计算资源,包括:从所述指定数据获取装置所对应的逻辑拓扑结构的节点,沿所述逻辑拓扑结构自下向上进行遍历,确定第一个具有用于处理所述指定数据获取装置的相应业务数据的对应计算资源的指定节点,将所述指定节点所对应的计算资源作为所述用于处理所述指定数据获取装置所获取的数据的指定计算资源。

图8示出根据本公开实施例的计算机系统的结构框图。

如图8中所示,该计算机系统800可以包括一个或多个处理器801以及一个或多个存储器802。所述一个或多个存储器802用于存储一条或多条可执行指令,当所述可执行指令被所述一个或多个处理器801执行时,可以实现以下步骤:

一种数据管理方法,其特征在于,包括:获取多个数据获取装置的逻辑拓扑结构,所述逻辑拓扑结构是根据所述多个数据获取装置的分组信息确定的;获取计算资源与所述逻辑拓扑结构中的节点的资源-节点对应关系;根据所述逻辑拓扑结构和所述资源-节点对应关系,确定用于处理所述多个数据获取装置中的指定数据获取装置所获取的数据的指定计算资源。

根据本公开实施例,所述数据获取装置包括采集实体;和/或所述数据获取装置包括采集代理和一个或多个采集实体;和/或所述分组信息包括所述数据获取装置的物理分组信息和/或逻辑分组信息。

根据本公开实施例,所述逻辑拓扑结构包括树结构;和/或所述计算资源包括数据管道。

根据本公开实施例,根据所述逻辑拓扑结构和所述资源-节点对应关系,确定用于处理所述指定数据获取装置所获取的数据的指定计算资源,包括:从所述指定数据获取装置所对应的逻辑拓扑结构的节点,沿所述逻辑拓扑结构自下向上进行遍历,确定第一个具有用于处理所述指定数据获取装置的相应业务数据的对应计算资源的指定节点,将所述指定节点所对应的计算资源作为所述用于处理所述指定数据获取装置所获取的数据的指定计算资源。

根据本公开实施例,当所述可执行指令被处理器执行时,还实现以下步骤:获取所述计算资源的状态信息;在所述计算资源的状态信息满足第一预设条件的情况下,确定所述计算资源所对应的节点的一个或多个下游节点;建立所述下游节点与另一计算资源之间的对应关系并更新所述资源-节点对应关系。

根据本公开实施例,所述计算资源的状态信息满足第一预设条件,包括所述计算资源的负载达到或超过预设阈值;和/或所述另一计算资源与所述逻辑拓扑结构中的其他节点所对应的计算资源均不同,或者所述另一计算资源是所述逻辑拓扑结构中的其他节点所对应的计算资源中满足第二预设条件的计算资源。

根据本公开实施例,所述第二预设条件是所述其他节点所对应的计算资源的负载小于预定阈值。

根据本公开实施例,所述根据所述逻辑拓扑结构和所述资源-节点对应关系,确定用于处理所述多个数据获取装置中的指定数据获取装置所获取的数据的指定计算资源,包括:根据所述逻辑拓扑结构和更新的所述资源-节点对应关系,确定用于处理所述指定数据获取装置所获取的数据的指定计算资源。

根据本公开实施例,所述一个或多个存储器802用于存储一条或多条可执行指令,当所述可执行指令被所述一个或多个处理器801执行时,可以实现以下步骤:

一种数据处理方法,其特征在于,包括:通过指定数据获取装置获取数据;确定用于处理所述数据的指定计算资源,所述指定计算资源是根据多个数据获取装置的逻辑拓扑结构和计算资源与所述逻辑拓扑结构中的节点的资源-节点对应关系确定的;将所述数据传输到所述指定计算资源进行处理,其中:所述逻辑拓扑结构是根据所述多个数据获取装置的分组信息确定的。

根据本公开实施例,所述数据获取装置包括采集实体;和/或所述数据获取装置包括采集代理和一个或多个采集实体;和/或所述分组信息包括所述数据获取装置的物理分组信息和/或逻辑分组信息。

根据本公开实施例,所述逻辑拓扑结构包括树结构;和/或所述计算资源包括数据管道。

根据本公开实施例,根据多个数据获取装置的逻辑拓扑结构和计算资源与所述逻辑拓扑结构中的节点的资源-节点对应关系确定所述指定计算资源,包括:从所述指定数据获取装置所对应的逻辑拓扑结构的节点,沿所述逻辑拓扑结构自下向上进行遍历,确定第一个具有用于处理所述指定数据获取装置的相应业务数据的对应计算资源的指定节点,将所述指定节点所对应的计算资源作为所述用于处理所述指定数据获取装置所获取的数据的指定计算资源。

根据本公开实施例,上述数据管理和/或处理装置可以在分布式数据库系统中实现。该分布式数据库系统可以使用多台计算机实现。

图9示出根据本公开实施例适于用来实现用于数据管理和/或数据处理方法的计算机体系架构的结构框图。

如图9所示,计算机系统900包括处理器(CPU)901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行上述方法。在RAM 903中,还存储有系统900操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

以下部件连接至I/O接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。

另外,根据本公开的实施方式,上文描述的方法可以被实现为计算机软件程序。例如,本公开的实施方式包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,所述计算机程序包含用于执行上述方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。

根据本公开的实施例,可以采用一个如上文描述的计算机体系架构来实现根据本公开实施例的方法,也可以采用多个如上文描述的计算机体系架构彼此协作来实现根据本公开实施例的方法。

附图中的流程图和框图,图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过可编程硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号