首页> 中国专利> 一种基于人口迁徙大数据的流行病感染人数估算方法

一种基于人口迁徙大数据的流行病感染人数估算方法

摘要

本发明提供一种基于人口迁徙大数据的流行病感染人数估算方法,包括:获取各疫区市迁出至各目标市的人口数量、各疫区市的感染比例,以及各目标市的常住人口、各目标区/县的常住人口、主要道路长度、铁路长度和住宅小区点数量;以各疫区市的感染比例作为加权系数,对人口数量进行加权求和计算,得到第一加权人口数量;根据所述第一加权人口数量,得到第二加权人口数量;将第二加权人口数量、各目标区/县的常住人口、主要道路长度、铁路长度和住宅小区点数量输入至已训练的流行病感染人数估算模型,获得各目标区/县的流行病感染人数。相对于现有技术,本发明从多维角度对区/县尺度的流行病感染人数进行估算,为区/县疫情防控提供技术支撑。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-08-14

    授权

    授权

  • 2020-06-02

    实质审查的生效 IPC(主分类):G16H50/80 申请日:20200330

    实质审查的生效

  • 2020-05-08

    公开

    公开

说明书

技术领域

本发明涉及数据分析领域,特别是涉及一种基于人口迁徙大数据的流行病感染人数估算方法。

背景技术

目前,新型冠状病毒感染肺炎(Corona Virus Disease 2019,COVID-19)对群众生产生活、社会公共卫生安全造成严重的影响,并且,COVID-19疫区的人群迁出数量相对较大,会对输入地区造成较大的流行风险。在这种情况下,亟需对输入省份内各区/县的COVID-19感染人数进行快速预估,以实现对不同区/县的防控等级进行科学预划分,为后续的差异化防控管理提供支撑。

目前主要通过流行病传播模型SIR,进行城市尺度的COVID-19感染人群估算,模型需要参数比较多,而且很多参数较难准确获取,导致无法实现在区/县尺度的COVID-19感染人群的估算。

发明内容

为克服相关技术中存在的问题,本发明实施例提供了一种基于人口迁徙大数据的流行病感染人数估算方法、装置及设备。

根据本发明实施例的第一方面,提供了一种基于人口迁徙大数据的流行病感染人数估算方法,包括如下步骤:

获取第一疫情期间内从各疫区市i分别迁出至目标省内各目标市j的人口数量、所述第一疫情期间内所述各疫区市i的感染比例,以及所述各目标市j的常住人口、所述各目标市j内各目标区/县k的常住人口、所述各目标区/县k的主要道路长度roadsk、铁路长度railsk和住宅小区点数量livingsk

以所述各疫区市i的感染比例作为加权系数,对所述各疫区市i分别迁出至所述各目标市j的人口数量进行加权求和计算,得到所有疫区市i迁出至每个所述各目标市j的第一加权人口数量

根据所述第一加权人口数量以及所述各目标区/县k的常住人口占所述各目标市j的常住人口的比例,得到所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量

将所述第二加权人口数量以及所述各目标区/县k的常住人口、主要道路长度roadsk、铁路长度railsk和住宅小区点数量livingsk输入至已训练的流行病感染人数估算模型,获得所述第一疫情期间内所述各目标区/县k的流行病感染人数。

可选的,基于百度迁徙大数据,获取第一疫情期间内所述各疫区市i每天的迁徙规模指数indexi,t以及所述各疫区市i每天的迁出目的地占比

基于所述各疫区市i对应的统计年鉴,获取所述各疫区市i的常住人口

根据所述各疫区市i每天的迁徙规模指数indexi,t和所述各疫区市i的常住人口,得到所述各疫区市i每天的迁出人口数量

根据所述各疫区市i每天的迁出人口数量和所述各疫区市i每天的迁出目的地占比,得到所述第一疫情期间内从所述各疫区市i分别迁出至所述目标市j的人口数量

可选的,获取百度迁徙大数据的统一资源定位符,根据所述统一资源定位符,爬取所述第一疫情期间内所述各疫区市i每天的迁徙规模指数indexi,t以及所述各疫区市i每天的迁出目的地占比

可选的,获取所述第一疫情期间内所述各疫区市i的初始感染比例,其中,所述各疫区市i的初始感染比例为所述各疫区市i的确诊病例数量与该疫区市i的常住人口之间的比值;

对所述各疫区市i的初始感染比例进行归一化处理,得到所述第一疫情期间内所述各疫区市i的感染比例

可选的,基于OSM公开地图,获取所述目标省内道路图层属性字段为预设道路图层属性字段的第一主要道路图层,并提取所述目标省内铁路图层属性字段为预设铁路图层属性自段的第一铁路图层;

根据所述各目标区/县k的行政区划分图,分别裁剪所述第一主要道路图层和第一铁路图层,得到所述各目标区/县k对应的第二主要道路图层和第二铁路图层;

根据所述第二主要道路图层和所述第二铁路图层,得到所述各目标区/县k的主要道路长度roadsk和铁路长度railsk

可选的,获取第二疫情期间内所述各目标区/县k的确诊病例数、所述第二疫情期间内所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量以及所述各目标区/县k的所述常住人口、所述主要道路长度roadsk、所述铁路长度railsk和所述住宅小区点数量livingsk

基于XGBoost算法,以所述第二疫情期间内所述各目标区/县k的确诊病例数为因变量,以所述第二疫情期间内所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量以及所述各目标区/县k的所述常住人口、所述主要道路长度roadsk、所述铁路长度railsk和所述住宅小区点数量livingsk为自变量,训练得到所述流行病感染人数估算模型。

根据本发明实施例的第二方面,提供一种基于人口迁徙大数据的流行病感染人数估算装置,包括:

第一采集单元,用于获取第一疫情期间内从各疫区市i分别迁出至目标省内各目标市j的人口数量、所述第一疫情期间内所述各疫区市i的感染比例,以及所述各目标市j的常住人口、所述各目标市j内各目标区/县k的常住人口、所述各目标区/县k的主要道路长度roadsk、铁路长度railsk和住宅小区点数量livingsk

第一处理单元,用于以所述各疫区市i的感染比例作为加权系数,对所述各疫区市i分别迁出至所述各目标市j的人口数量进行加权求和计算,得到所有疫区市i迁出至每个所述各目标市j的第一加权人口数量

第二处理单元,用于根据所述第一加权人口数量以及所述各目标区/县k的常住人口占所述各目标市j的常住人口的比例,得到所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量

估算单元,用于将所述第二加权人口数量以及所述各目标区/县k的常住人口、主要道路长度roadsk、铁路长度railsk和住宅小区点数量livingsk输入至已训练的流行病感染人数估算模型,获得所述第一疫情期间内所述各目标区/县k的流行病感染人数。

根据本发明实施例的第三方面,提供一种基于人口迁徙大数据的流行病感染人数估算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述第一方面所述的基于人口迁徙大数据的流行病感染人数估算方法的步骤。

根据本发明实施例的第四方面,提供一种计算机可读存储介质,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的基于人口迁徙大数据的流行病感染人数估算方法的步骤。

相对于现有技术,本申请实施例综合考虑了各疫区市的感染比例对迁出人口流行性的影响,根据该感染比例对各疫区市的迁出人口数量进行加权处理,得到从所有疫区市迁出至各目标市的第一加权人口数量,进而再根据各目标区/县在目标市内的人口占比,得到从所有疫区市迁出至各目标区/县的第二加权人口数量;之后,再将各目标区/县的第二加权人口数量、常住人口、主要道路长度、铁路长度和住宅小区点数量共同输入至已训练的流行病感染人数估算模型,快速估算出目标省内各区/县的流行病感染人数。本申请实施例通过从迁出人口的数量、迁出人口流行性、交通建设程度、人口密集程度等多维角度对区/县尺度的流行病感染人数进行估算,提高了估算的准确性,有利于各区/县精准地进行差异化防控。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。

为了更好地理解和实施,下面结合附图详细说明本发明。

附图说明

图1为本发明一个示例性实施例提供的基于人口迁徙大数据的流行病感染人数估算方法的流程示意图;

图2为本发明一个示例性实施例提供的基于人口迁徙大数据的流行病感染人数估算装置的结构示意图;

图3为本发明另一个示例性实施例提供的基于人口迁徙大数据的流行病感染人数估算装置的结构示意图;

图4为本发明一个示例性实施例提供的基于人口迁徙大数据的流行病感染人数估算装置中第一采集单元21的结构示意图;

图5为本发明一个示例性实施例提供的基于人口迁徙大数据的流行病感染人数估算装置中第一采集单元211的结构示意图;

图6为本发明另一个示例性实施例提供的基于人口迁徙大数据的流行病感染人数估算装置中第一采集单元21的结构示意图;

图7为本发明其他示例性实施例提供的基于人口迁徙大数据的流行病感染人数估算装置中第一采集单元21的结构示意图;

图8为本发明一个示例性实施例提供的基于人口迁徙大数据的流行病感染人数估算设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。

请参阅图1,图1为本发明一个示例性实施例提供的基于人口迁徙大数据的流行病感染人数估算方法的流程示意图,所述方法由基于人口迁徙大数据的流行病感染人数估算设备(以下简称估算设备)执行,包括如下步骤:

S101:获取第一疫情期间内从各疫区市i分别迁出至目标省内各目标市j的人口数量、所述第一疫情期间内所述各疫区市i的感染比例,以及所述各目标市j的常住人口、所述各目标市j内各目标区/县k的常住人口、所述各目标区/县k的主要道路长度roadsk、铁路长度railsk和住宅小区点数量livingsk

流行病的发展过程在大多数情况下具有严格规律性,可以分为潜伏期、前驱期、发病期和转归期这四个阶段,由于流行病在发病期才会出现明显症状,因而当感染人员处于潜伏期、前驱期以及发病期前期时难以被发现,从而易造成大面积感染,故需要对流行病感染人数进行预估。

所述第一疫情期间可以为疫情发生后的任意阶段,在一个可选的实施例中,结合COVID-19的疫情发展,将第一疫情期间设置为2020.01.01至2020.2.15日;在其他可选的实施例中,所述第一疫情期间可以结合具体流行病疫情的发生时间以及流行病感染人数的预估需求进行合理化设置。

所述疫区市为疫情发病率较高的城市,在一个可选的实施例中,结合COVID-19的疫情特点,所述疫区市指湖北省内的各市,具体包括武汉市、孝感市和黄冈市等,在另一个可选实施例中,所述疫区市也可以为发病率大于预设阈值的城市,该发病率指确诊人数与常住人口的比值,预设阈值可以根据疫情状况进行设置。

所述目标省可以为任意省份,所述目标市为目标省内所有城市。具体地,在一个可选的实施例中,选取广东省为目标省,目标市为广东省内所有城市,进而第一疫情期内从各疫区市i分别迁出至目标省内各目标市j的人口数量可以理解为从公元年2020.01.01日至2020.2.15日期间从湖北省内各市i分别迁出至广东省各目标市j的人口数量

下面对获取第一疫情期间内从各疫区市i分别迁出至目标省内各目标市j的人口数量、第一疫情期间内所述各疫区市i的感染比例,以及所述各目标市j的常住人口、所述各目标市j内各目标区/县k的常住人口、所述各目标区/县k的主要道路长度roadsk、铁路长度railsk和住宅小区点数量livingsk的步骤分别进行详细说明:

(1)获取第一疫情期间内从各疫区市i分别迁出至目标省内各目标市j的人口数量的过程如下:

在一个可选的实施例中,估算设备首先基于百度迁徙大数据,获取第一疫情期间内所述各疫区市i每天的迁徙规模指数indexi,t以及所述各疫区市i每天的迁出目的地占比

其中,百度迁徙大数据为百度地图提供的定位大数据可视化软件,百度迁徙大数据的网址为:http://qianxi.baidu.com,其通过界面向用户展示迁徙规模指数、迁出目的地占比以及迁入目的地占比。该迁徙规模指数分为迁入规模指数和迁出规模指数,迁入规模指数为迁入人口数量与该地区常住人口的比值,迁出规模指数为迁出人口数量与该地区常住人口的比值。

在本申请实施例中,所述迁徙规模指数indexi,t具体指迁出规模指数,即各疫区市i每天的迁出人口数量与该疫区市常住人口的比值。

所述各疫区市i每天的迁出目的地占比表示从各疫区市i每天迁出至各目的地的人口数量与从各疫区市i每天迁出的总人口数量之比。

可选的,估算设备可通过获取百度迁徙大数据的统一资源定位符(UniformResourse Locator,URL),根据所述统一资源定位符,爬取所述第一疫情期间内所述各疫区市i每天的迁徙规模指数indexi,t以及所述各疫区市i每天的迁出目的地占比

其中,该URL为信息资源在万维网服务程序上指定的唯一地址,估算设备通过URL链接百度迁徙大数据的数据资源,请求获取迁徙数据,该种获取方式更为快捷且准确性更高。

此外,估算设备也可以基于网络上发布的全国迁徙数据整理文档,获取第一疫情期间内所述各疫区市i每天的迁徙规模指数indexi,t以及所述各疫区市i每天的迁出目的地占比

需要说明的是,百度迁徙大数据并不直接提供各疫区市i每天的迁出人口数量,估算设备需根据所述各疫区市i每天的迁徙规模指数indexi,和所述各疫区市i的常住人口,获取所述第一疫情期间内所述各疫区市i每天的迁出人口数量

其中,各疫区市i的常住人口可以通过从各疫区市i对应的统计年鉴中获取,在本申请实施例中,估算设备获取2018年中各疫区市i所在省份的统计年鉴,得到各疫区市i的常住人口

之后,估算设备再根据所述各疫区市i每天的迁出人口数量和所述各疫区市i每天的迁出目的地占比,得到所述第一疫情期间内从所述各疫区市i分别迁出至所述目标市j的人口数量

在另一个可选的实施例中,估算设备也可以通过手机信令数据获取第一疫情期间内所述各疫区市i每天的迁徙规模指数indexi,t以及所述各疫区市i每天的迁出目的地占比,最终获取到第一疫情期间内从各疫区市i分别迁出至目标省内各目标市j的人口数量

该手机信令数据是指手机用户与发射基站或者微站之间的通信数据,基于手机信令数据能够对手机用户进行定位并能够判断该手机用户在某地的停留时间,从而得到手机用户的迁徙数据。

因而,通过运营商服务可以获取到第一疫情期间内所述各疫区市i每天的迁徙规模指数indexi,t以及所述各疫区市i每天的迁出目的地占比

(2)获取所述第一疫情期间内所述各疫区市i的感染比例的过程如下:

在一个可选的实施例中,所述各疫区市i的感染比例为所述各疫区市i的确诊病例数量与该疫区市i的常住人口之间的比值。

具体地,估算设备可直接从腾讯疫情大数据中获取所述第一疫情期间的截止日各疫区市的确诊病例数量,从各疫区市i对应的统计年鉴中获取各疫区市i的常住人口,进而得到所述第一疫情期间内所述各疫区市i的感染比例

需要说明的是,该感染比例是根据确诊病例预估的感染比例,并非实际感染比例,但可应用于对各疫区市i的感染程度的分析中。

在另一个可选的实施例中,所述各疫区市的感染比例是一个归一化的感染比例。

具体地,估算设备获取所述第一疫情期间内所述各疫区市i的初始感染比例,其中,所述各疫区市i的初始感染比例为所述各疫区市i的确诊病例数量与该疫区市i的常住人口之间的比值。所述确诊病例数量和常住人口的获取方式在此不再赘述。

之后,估算设备对所述各疫区市i的初始感染比例进行归一化处理,得到所述第一疫情期间内所述各疫区市i的感染比例

所述归一化处理是将各疫区市i的初始感染比例映射到(0,1)之间,从而能够更好地反应出各疫区市i的感染程度的差异性,有利于判断各疫区市迁出人口的流行性。

(3)获取所述各目标市j的常住人口、所述各目标市j内各目标区/县k的常住人口的过程如下:

在本申请实施例中,估算设备获取所述各目标市j的常住人口、所述各目标市j内各目标区/县k的常住人口,具体地,估算设备获取所述各目标市j对应的统计年鉴,根据该统计年鉴,得到所述各目标市j的常住人口、所述各目标市j内各目标区/县k的常住人口

(4)获取所述各目标区/县k的主要道路长度roadsk、铁路长度railsk和住宅小区点数量livingsk的过程如下:

在一个可选的实施例中,估算设备首先基于OSM公开地图,获取所述目标省内道路图层属性字段为预设道路图层属性字段的第一主要道路图层,并提取所述目标省内铁路图层属性字段为预设铁路自段的第一铁路图层。

其中,OSM公开地图是一个开源地图,其内部定义了公路(即道路)、铁路、水路、自行车道路等不同类型道路的线图层数据。

所述道路图层属性字段为OSM公开地图中的道路线图层标识,在本实施例中,所述预设道路图层属性字段为5111、5112、5113、5114和5115,在其他实施例中,所述预设道路图层属性字段可根据目标省内实际情况进行设置,在此不做限制。

所述铁路图层属性字段为OSM公开地图中的铁路线图层标识,在本实施例中,所述预设铁路图层属性字段为6101、6102和6133,在其他实施例中,所述预设铁路图层属性字段可根据目标省内实际情况进行设置,在此不做限制。

估算设备之后根据所述各目标区/县k的行政区划分图,分别裁剪所述第一主要道路图层和第一铁路图层,得到所述各目标区/县k对应的第二主要道路图层和第二铁路图层;并根据所述第二主要道路图层和所述第二铁路图层,得到所述各目标区/县k的主要道路长度roadsk和铁路长度railsk

具体地,所述行政区划分图可以从地理国情监测云平台中获取,该行政区划分图对各目标市内各目标区/县k的行政区域进行了划分。

不同区/县交通建设的程度与人口流动的程度密切相关,进而影响疫情的传播,通过准确获取主要公路长度和铁路长度,能够更为准确地进行感染人数的估算。

在另一个可选实施例中,估算设备还可基于国家公路网建设及规划示意图、铁路网建设及规划示意图铁路建设数据,获取各目标区/县k的主要道路长度roadsk、铁路长度railsk

估算设备可通过高德POI数据获取各目标区/县k的住宅小区点数量livingsk,也可以通过访问房管局网站抓取各目标区/县k的住宅小区点数量livingsk

S102:以所述各疫区市i的感染比例作为加权系数,对所述各疫区市i分别迁出至所述各目标市j的人口数量进行加权求和计算,得到所有疫区市i迁出至每个所述各目标市j的第一加权人口数量

估算设备以所述各疫区市i的感染比例作为加权系数,对所述各疫区市i分别迁出至所述各目标市j的人口数量进行加权求和计算,得到所有疫区市i迁出至每个所述各目标市j的第一加权人口数量。其中,所述感染比例已在步骤S101中进行详细描述,在此不再赘述。

上述方式不仅仅从迁出人口数量的角度进行感染人数的分析与估算,而是综合考虑了各疫区市的发病率,体现出不同疫区市的迁出人口的流行强度。将发病率较高的疫区市的迁出人口数量乘以更大的加权系数,将发病率较低的疫区市的迁出人口数量乘以更小的加权系数,从而使得第一加权人口数量与流行性的关联性更加密切,进一步提高基于人口迁徙大数据的流行病感染人数估算准确度。

S103:根据所述第一加权人口数量以及所述各目标区/县k的常住人口占所述各目标市j的常住人口的比例,得到所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量

在本申请实施例中,估算设备根据所述第一加权人口数量以及所述各目标区/县k的常住人口占所述各目标市j的常住人口的比例,得到所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量

其中,所述各目标区/县k的常住人口和所述各目标市j的常住人口可以从目标市j对应的统计年鉴中获取,所述的比例,通过该比例,估算迁出至各目标市j的第一加权人口数量的流动去向,从而得到所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量,实现区/县尺度的划分。

S104:将所述第二加权人口数量以及所述各目标区/县k的常住人口、主要道路长度roadsk、铁路长度railsk和住宅小区点数量livingsk输入至已训练的流行病感染人数估算模型,获得所述第一疫情期间内所述各目标区/县k的流行病感染人数。

在本申请实施例中,所述已训练的流行病感染人数估算模型是基于XGBoost算法,以所述第二疫情期间内所述各目标区/县k的确诊病例数为因变量,以所述第二疫情期间内所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量以及所述各目标区/县k的所述常住人口、所述主要道路长度roadsk、所述铁路长度railsk和所述住宅小区点数量livingsk为自变量而训练得到的。

其中,所述第二疫情期间相对于第一疫情期间,其时长相对较短,通常设置为疫情开始蔓延的阶段,在一个可选的实施例中,结合COVID-19的疫情发展,将第二疫情期间设置为2020.01.01至2020.1.26日。在其他可选的实施例中,也可以结合具体流行病的特点对第二疫情期间进行合理设置,在此不做限制。

所述第二疫情期间内所述各目标区/县k的确诊病例数为第二疫情期间的截止日所述各目标区/县k的确诊病例数,具体地,估算设备可以从腾讯疫情大数据中爬取所述各目标区/县k的确诊病例数

所述第二疫情期间内所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量以及所述各目标区/县k的所述常住人口、所述主要道路长度roadsk、所述铁路长度railsk和所述住宅小区点数量livingsk的获取方式均与步骤S101中提出的获取方式相同,不同点仅在于此处获取的是第二疫情期间的数据,故不再对获取方式进行赘述。

所述XGBoost算法是一种提升树模型,通过将多个树模型进行集成,形成为一个强分类器,其中,树模型为CART回归树模型。

在训练前,对所述流行病感染人数估算模型进行参数设置,所述参数包括迭代次数、收缩步长、子节点的最小权重值、子样本数目、节点分裂所需的最小损失函数下降值和节点分裂的最大深度。在一个可选的实施例中,可设置迭代次数为1000、收缩步长为0.2、子节点的最小权重值为1、子样本数目为1、节点分裂所需的最小损失函数下降值为0和节点分裂的最大深度为5。

具体地,所述流行病感染人数估算模型的训练过程可以在估算设备中执行,也可以在外部设备中执行,在此不做限制。当在外部设备中执行时,估算设备将上述获取到的第二疫情期间的数据传输至外部设备,并在外部设备中完成训练。

本申请实施例综合考虑了各疫区市的感染比例对迁出人口流行性的影响,通过从迁出人口的数量、迁出人口流行性、交通建设程度、人口密集程度等多维角度对区/县尺度的流行病感染人数进行估算,提高了估算的准确性,有利于各区/县精准地进行差异化防控。

请参见图2,图2为本发明一个示例性实施例示出的基于人口迁徙大数据的流行病感染人数估算装置的结构示意图。包括的各单元用于执行图1对应的实施例中的各步骤,具体请参阅图1各自对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图2,基于人口迁徙大数据的流行病感染人数估算装置2包括:

第一采集单元21,用于获取第一疫情期间内从各疫区市i分别迁出至目标省内各目标市j的人口数量、所述第一疫情期间内所述各疫区市i的感染比例,以及所述各目标市j的常住人口、所述各目标市j内各目标区/县k的常住人口、所述各目标区/县k的主要道路长度roadsk、铁路长度railsk和住宅小区点数量livingsk

第一处理单元22,用于以所述各疫区市i的感染比例作为加权系数,对所述各疫区市i分别迁出至所述各目标市j的人口数量进行加权求和计算,得到所有疫区市i迁出至每个所述各目标市j的第一加权人口数量

第二处理单元23,用于根据所述第一加权人口数量以及所述各目标区/县k的常住人口占所述各目标市j的常住人口的比例,得到所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量

估算单元24,用于将所述第二加权人口数量以及所述各目标区/县k的常住人口、主要道路长度roadsk、铁路长度railsk和住宅小区点数量livingsk输入至已训练的流行病感染人数估算模型,获得所述第一疫情期间内所述各目标区/县k的流行病感染人数。

可选的,请参阅图3,所述基于人口迁徙大数据的流行病感染人数估算装置2还包括:

第二采集单元25,用于获取第二疫情期间内所述各目标区/县k的确诊病例数、所述第二疫情期间内所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量以及所述各目标区/县k的所述常住人口、所述主要道路长度roadsk、所述铁路长度railsk和所述住宅小区点数量livingsk

构建单元26,用于基于XGBoost算法,以所述第二疫情期间内所述各目标区/县k的确诊病例数为因变量,以所述第二疫情期间内所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量以及所述各目标区/县k的所述常住人口、所述主要道路长度roadsk、所述铁路长度railsk和所述住宅小区点数量livingsk为自变量,训练得到所述流行病感染人数估算模型。

可选的,请参阅图4,所述第一采集单元21包括:

第三采集单元211,用于基于百度迁徙大数据,获取第一疫情期间内所述各疫区市i每天的迁徙规模指数indexi,t以及所述各疫区市i每天的迁出目的地占比

第四采集单元212,用于基于所述各疫区市i对应的统计年鉴,获取所述各疫区市i的常住人口

第一运算单元213,用于根据所述各疫区市i每天的迁徙规模指数indexi,t和所述各疫区市i的常住人口,得到所述各疫区市i每天的迁出人口数量

第二运算单元214,用于根据所述各疫区市i每天的迁出人口数量和所述各疫区市i每天的迁出目的地占比,得到所述第一疫情期间内从所述各疫区市i分别迁出至所述目标市j的人口数量

可选的,请参阅图5,所述第三采集单元211包括:

资源定位单元2111,用于获取百度迁徙大数据的统一资源定位符,根据所述统一资源定位符,爬取所述第一疫情期间内所述各疫区市i每天的迁徙规模指数indexi,t以及所述各疫区市i每天的迁出目的地占比

可选的,请参阅图6,所述第一采集单元21还包括:

第五采集单元215,用于获取所述第一疫情期间内所述各疫区市i的初始感染比例,其中,所述各疫区市i的初始感染比例为所述各疫区市i的确诊病例数量与该疫区市i的常住人口之间的比值;

归一化处理单元216,用于对所述各疫区市i的初始感染比例进行归一化处理,得到所述第一疫情期间内所述各疫区市i的感染比例

可选的,请参阅图7,所述第一采集单元21还包括:

第六采集单元217,用于基于OSM公开地图,获取所述目标省内道路图层属性字段为预设道路图层属性字段的第一主要道路图层,并提取所述目标省内铁路图层属性字段为预设铁路图层属性自段的第一铁路图层;

裁剪单元218,用于根据所述各目标区/县k的行政区划分图,分别裁剪所述第一主要道路图层和第一铁路图层,得到所述各目标区/县k对应的第二主要道路图层和第二铁路图层;

第三运算单元219,用于根据所述第二主要道路图层和所述第二铁路图层,得到所述各目标区/县k的主要道路长度roadsk和铁路长度railsk

请参见图8,图8是本发明一个示例性实施例提供的基于人口迁徙大数据的流行病感染人数估算设备的结构示意图。如图8所示,该实施例的基于人口迁徙大数据的流行病感染人数估算设备8包括:处理器80、存储器81以及存储在所述存储器81中并可在所述处理器80上运行的计算机程序82,例如基于人口迁徙大数据的流行病感染人数估算程序。所述处理器80执行所述计算机程序82时实现上述各个基于人口迁徙大数据的流行病感染人数估算方法实施例中的步骤,例如图1所示的步骤S101至S104。或者,所述处理器80执行所述计算机程序82时实现上述各装置实施例中各模块/单元的功能,例如图2所示单元21至24的功能。

示例性的,所述计算机程序82可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器81中,并由所述处理器80执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序82在所述基于人口迁徙大数据的流行病感染人数估算设备8中的执行过程。例如,所述计算机程序82可以被分割成第一采集单元、第一处理单元、第二处理单元和估算单元,各单元功能如下:

第一采集单元,用于获取第一疫情期间内从各疫区市i分别迁出至目标省内各目标市j的人口数量、所述第一疫情期间内所述各疫区市i的感染比例,以及所述各目标市j的常住人口、所述各目标市j内各目标区/县k的常住人口、所述各目标区/县k的主要道路长度roadsk、铁路长度railsk和住宅小区点数量livingsk

第一处理单元,用于以所述各疫区市i的感染比例作为加权系数,对所述各疫区市i分别迁出至所述各目标市j的人口数量进行加权求和计算,得到所有疫区市i迁出至每个所述各目标市j的第一加权人口数量

第二处理单元,用于根据所述第一加权人口数量以及所述各目标区/县k的常住人口占所述各目标市j的常住人口的比例,得到所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量

估算单元,用于将所述第二加权人口数量以及所述各目标区/县k的常住人口、主要道路长度roadsk、铁路长度railsk和住宅小区点数量livingsk输入至已训练的流行病感染人数估算模型,获得所述第一疫情期间内所述各目标区/县k的流行病感染人数。

可选的,所述基于人口迁徙大数据的流行病感染人数估算装置还包括:

第二采集单元,用于获取第二疫情期间内所述各目标区/县k的确诊病例数、所述第二疫情期间内所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量以及所述各目标区/县k的所述常住人口、所述主要道路长度roadsk、所述铁路长度railsk和所述住宅小区点数量livingsk

构建单元,用于基于XGBoost算法,以所述第二疫情期间内所述各目标区/县k的确诊病例数为因变量,以所述第二疫情期间内所述所有疫区市i迁出至每个所述各目标区/县k的第二加权人口数量以及所述各目标区/县k的所述常住人口、所述主要道路长度roadsk、所述铁路长度railsk和所述住宅小区点数量livingsk为自变量,训练得到所述流行病感染人数估算模型。

可选的,所述第一采集单元包括:

第三采集单元,用于基于百度迁徙大数据,获取第一疫情期间内所述各疫区市i每天的迁徙规模指数indexi,t以及所述各疫区市i每天的迁出目的地占比

第四采集单元,用于基于所述各疫区市i对应的统计年鉴,获取所述各疫区市i的常住人口

第一运算单元,用于根据所述各疫区市i每天的迁徙规模指数indexi,t和所述各疫区市i的常住人口,得到所述各疫区市i每天的迁出人口数量

第二运算单元,用于根据所述各疫区市i每天的迁出人口数量和所述各疫区市i每天的迁出目的地占比,得到所述第一疫情期间内从所述各疫区市i分别迁出至所述目标市j的人口数量

可选的,所述第三采集单元包括:

资源定位单元,用于获取百度迁徙大数据的统一资源定位符,根据所述统一资源定位符,爬取所述第一疫情期间内所述各疫区市i每天的迁徙规模指数indexi,t以及所述各疫区市i每天的迁出目的地占比

可选的,所述第一采集单元还包括:

第五采集单元,用于获取所述第一疫情期间内所述各疫区市i的初始感染比例,其中,所述各疫区市i的初始感染比例为所述各疫区市i的确诊病例数量与该疫区市i的常住人口之间的比值;

归一化处理单元,用于对所述各疫区市i的初始感染比例进行归一化处理,得到所述第一疫情期间内所述各疫区市i的感染比例。

可选的,所述第一采集单元21还包括:

第六采集单元,用于基于OSM公开地图,获取所述目标省内道路图层属性字段为预设道路图层属性字段的第一主要道路图层,并提取所述目标省内铁路图层属性字段为预设铁路图层属性自段的第一铁路图层;

裁剪单元,用于根据所述各目标区/县k的行政区划分图,分别裁剪所述第一主要道路图层和第一铁路图层,得到所述各目标区/县k对应的第二主要道路图层和第二铁路图层;

第三运算单元,用于根据所述第二主要道路图层和所述第二铁路图层,得到所述各目标区/县k的主要道路长度roadsk和铁路长度railsk

所述基于人口迁徙大数据的流行病感染人数估算设备8可包括,但不仅限于,处理器80、存储器81。本领域技术人员可以理解,图8仅仅是基于人口迁徙大数据的流行病感染人数估算设备8的示例,并不构成对基于人口迁徙大数据的流行病感染人数估算设备8的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述基于人口迁徙大数据的流行病感染人数估算设备8还可以包括输入输出设备、网络接入设备、总线等。

所称处理器80可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器81可以是所述基于人口迁徙大数据的流行病感染人数估算设备8的内部存储单元,例如基于人口迁徙大数据的流行病感染人数估算设备8的硬盘或内存。所述存储器81也可以是所述基于人口迁徙大数据的流行病感染人数估算设备8的外部存储设备,例如所述基于人口迁徙大数据的流行病感染人数估算设备8上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器81还可以既包括所基于人口迁徙大数据的流行病感染人数估算设备8的内部存储单元也包括外部存储设备。所述存储器81用于存储所述计算机程序以及所述基于人口迁徙大数据的流行病感染人数估算设备所需的其他程序和数据。所述存储器81还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。本发明并不局限于上述实施方式,如果对本发明的各种改动或变形不脱离本发明的精神和范围,倘若这些改动和变形属于本发明的权利要求和等同技术范围之内,则本发明也意图包含这些改动和变形。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号