技术领域
本发明涉及时间序列分析技术领域,特别是涉及一种时间序列复杂度测量方法、系统、计算机设备和存储介质。
背景技术
时间序列数据的复杂度是影响时间序列预测精度的关键因素,而不同复杂度时间序列预测结果精度的差别较大,因此测量时间序列的复杂度,对于预测模型训练效果分析和预测结果精度的评价都具有十分重要的意义。
目前,常用的时间序列复杂度测量方法有熵理论和混沌理论两种,其中,熵理论还包括样本熵、模糊熵等基于不同的熵理论来测量时间序列复杂度,混沌理论中采用李雅普诺夫指数来描述时间序列复杂特征。这些方法虽然能够评估时间序列的不规则性和无序性,但是这些方法无法测量复杂度的周期变化和波动性数据,因此,无法全面、准确地测量时间序列的复杂性。
发明内容
为了解决上述问题,本发明的目的是提供一种能够从时间序列中的周期特征、缺失特征、混沌特征和频率分布特征四个方面,综合全面的对时间序列复杂度进行测量的方法、系统、计算机设备和存储介质。
第一方面,本发明实施例提供了一种时间序列复杂度测量方法,所述方法包括:
对原始时间序列进行不相似性计算,得到时间序列不相关指数;
对所述原始时间序列进行缺失数据计算,得到时间序列缺失值;
对所述原始时间序列进行混沌指数计算,得到时间序列混沌指数;
对所述原始时间序列进行偏度计算,得到时间序列偏度绝对值;
根据预定权重,对所述时间序列不相关指数、所述时间序列缺失值、所述时间序列混沌指数和所述时间序列偏度绝对值进行加权计算,得到时间序列复杂度。
进一步地,所述对原始时间序列进行不相似性计算,得到时间序列不相关指数的步骤包括:
对原始时间序列进行不相似性计算,得到皮尔逊相关系数;
根据所述皮尔逊相关系数,得到时间序列不相关指数;
采用如下公式计算所述皮尔逊相关系数:
其中,U
采用如下公式计算所述时间序列不相关指数:
进一步地,采用如下公式计算所述时间序列缺失值:
MD=(A+B)/N
其中,A为原始时间序列中缺失值的数量,B为原始时间序列中重复值的数量,N为原始时间序列的长度。
进一步地,采用如下公式计算所述时间序列混沌指数:
其中,
进一步地,采用如下公式计算所述时间序列偏度绝对值:
其中,
进一步地,采用如下公式对所述时间序列不相关指数、所述时间序列缺失值、所述时间序列混沌指数和所述时间序列偏度绝对值进行加权计算,得到时间序列复杂度:
CP=αDC+βMD+γMLE+σSK
其中,DC为时间序列不相关指数,α为DC的权重值,MD为时间序列缺失值,β为MD的权重值,MLE为时间序列混沌指数,γ为MLE的权重值,SK为时间序列偏度绝对值,σ为SK的权重值。
进一步地,对所述时间序列不相关指数、所述时间序列缺失值、所述时间序列混沌指数和所述时间序列偏度绝对值进行层次分析,得到各自的所述预定权重。
第二方面,本发明实施例提供了一种时间序列复杂度测量系统,所述系统包括:
不相似性分析模块,用于对原始时间序列进行不相似性计算,得到时间序列不相关指数;
缺失数据分析模块,用于对所述原始时间序列进行缺失数据计算,得到时间序列缺失值;
混沌特征分析模块,用于对所述原始时间序列进行混沌指数计算,得到时间序列混沌指数;
偏度分析模块,用于对所述原始时间序列进行偏度计算,得到时间序列偏度绝对值;
复杂度测量模块,用于根据预定权重,对所述时间序列不相关指数、所述时间序列缺失值、所述时间序列混沌指数和所述时间序列偏度绝对值进行加权计算,得到时间序列复杂度。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
第四方面,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
上述本申请提供了一种时间序列复杂度测量方法、系统、计算机设备和存储介质,通过所述方法,计算时间序列的不相似性指数、缺失数据指数、混沌指数和偏度绝对值,从时间序列中的周期特征、缺失特征、混沌特征和波动特征四个方面,对时间序列复杂度进行全面、综合的测量,从而克服了传统的测量方法无法测量周期特征和波动特征等时间序列复杂特征的问题,这对于现有的时间序列分析领域来说是非常有意义的。
附图说明
图1是本发明实施例中一种时间序列复杂度测量方法的流程示意图;
图2是本发明实施例中对原始时间序列进行不相似性计算,得到时间序列不相关指数的步骤流程图;
图3是本发明实施例中采用不同测量方法进行复杂度计算所使用的时间序列样本图;
图4是本发明实施例中采用不同测量方法进行复杂度计算所得到的复杂度曲线图;
图5是本发明实施例中一种时间序列复杂度测量系统的结构示意图;
图6是本发明实施例中计算机设备的内部结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明第一实施例提出的一种时间序列复杂度测量方法,其中,包括步骤S10~S50:
步骤S10,对原始时间序列进行不相似性计算,得到时间序列不相关指数。
其中,所述对原始时间序列进行不相似性计算,得到时间序列不相关指数的步骤,如图2所示,具体包括:
步骤S101,对原始时间序列进行不相似性计算,得到皮尔逊相关系数;
步骤S102,根据所述皮尔逊相关系数,得到时间序列不相关指数;
其中,采用如下公式计算所述皮尔逊相关系数:
U
采用如下公式计算所述时间序列不相关指数:
在本实施例中,通过计算时间序列构造向量中不同元素间的皮尔逊相关系数,来度量不同元素的相关性,并通过对时间序列的所有皮尔逊相关系数进一步的计算,来获得时间序列的不相关指数,通过不相关指数可以对不同时间周期的时间序列的不相似性进行分析,从而测量出时间序列复杂的周期变化。
步骤S20,对所述原始时间序列进行缺失数据计算,得到时间序列缺失值。
其中,采用如下公式计算所述时间序列缺失值:
MD=(A+B)/N
A为原始时间序列X=[x
在实际情况中,很多原因都会造成时间序列中出现缺失值的情况,而常用的时间序列复杂度测量方法都忽略了时间序列的缺失特征,本实施例通过对时间序列缺失值数量和重复值数量的计算,在复杂度计算中考虑到了时间序列缺失特征对于时间序列复杂度的影响。
步骤S30,对所述原始时间序列进行混沌指数计算,得到时间序列混沌指数。
其中,采用如下公式计算所述时间序列混沌指数:
李雅普诺夫指数(Lyapunov指数)可以用来表征时间序列的混沌特征,其中最大雅普诺夫指数决定了时间序列的混沌状态。因此在本实施例中,使用最大Lyapunov指数作为时间序列混沌指数,并且当δZ
其中,当MLE为正值时,意味着时间序列时混沌的,具有明显的无序和不规则的随机状态,当MLE为负值时,则表示时间序列是非混沌的、稳定的。通过MLE值的计算可以直观的描述时间序列的混沌特征。
步骤S40,对所述原始时间序列进行偏度计算,得到时间序列偏度绝对值。
其中,采用如下公式计算所述时间序列偏度绝对值:
其中,
在以往基于熵理论或混沌理论的复杂度测量方法中,无法对时间序列的波动特征进行描述,从而难以反应时间序列真实的复杂程度,在统计学中,偏度是实值随机变量关于其均值的概率分别的不对称性的度量,因此,本实施例对时间序列的偏度值进行了计算,使用偏度的绝对值来评估时间序列的波动程度,从而使时间序列复杂度的测量结果更加真实和准确。
步骤S50,根据预定权重,对所述时间序列不相关指数、所述时间序列缺失值、所述时间序列混沌指数和所述时间序列偏度绝对值进行加权计算,得到时间序列复杂度。
其中,采用如下公式对所述时间序列不相关指数、所述时间序列缺失值、所述时间序列混沌指数和所述时间序列偏度绝对值进行加权计算,得到时间序列复杂度:
CP=αDC+βMD+γMLE+σSK
DC为时间序列不相关指数,α为DC的权重值,MD为时间序列缺失值,β为MD的权重值,MLE为时间序列混沌指数,γ为MLE的权重值,SK为时间序列偏度绝对值,σ为SK的权重值。
通过步骤S10~S40的计算,从不同周期模式、缺失数据模式、混沌模式和波动模式四个方面分析了时间序列的复杂特征。同时,为了更准确的计算时间序列的复杂度,需要对上述四个指标的权重值进行评估。
应当理解的是,在本实施例中对不相关指数、缺失值、混沌指数和偏度绝对值的四个指标的执行步骤上并没有先后顺序,只是为了获取这四个参数指标。在本实施例中优选的对时间序列的不相关指数、缺失值、混沌指数和偏度绝对值进行层次分析,得到各个指标的预定权重。
在层次分析法中,对四个指标两两比较,以确定最终的优先次序。根据本实施例的测量方法对时间序列复杂度的影响,对本实施例中的每个指标进行赋值,其赋值依据如表1所示。
表1 层次分析法因素重要性评分
通过专家评分结果,根据各个指标的赋值情况,得到如表2所示的时间序列复杂度的判断矩阵和指标权重。其中,在判断矩阵中的元素具有如下性质:
其中,V
表2 时间序列复杂度判断矩阵和指标权重
最终,通过层次分析法,得到时间序列复杂度的计算公式为:
CP=0.40DC+0.15MD+0.40MLE+0.04SK
应当理解的是,使用层次分析法对时间序列复杂度影响指标的权重值进行计算只是本实施例中的一种优选方案,而非仅限于层次分析法,实际上,其他权重值计算方法也可用于本实施例中指标的权重值计算。
为了进一步验证本实施例相比其他测量方法具有更好的稳定性和准确性,下面结合图3与图4,使用本实施例、样本熵以及最大Lyapunov指数的测量方法对同一时间序列样本值进行复杂度测量的计算结果进行详细说明。
如图3所示,将长度为10000的白噪声(a)与粉红噪声(b)两个基础数据作为复杂度测试的时间序列样本值。
通过对白噪声(a)和粉红噪声(b)分别使用本实施例、样本熵以及最大Lyapunov指数进行时间序列复杂度的计算,具体计算过程可以按照本实施例中所述步骤,以及其他两种测量方法的常规步骤,在此不予赘述。
通过使用不同测量方式的计算,可以得到如图4所示的白噪声和粉红噪声在不同测量方法下的复杂度曲线图,在图4中使用SampEN表示样本熵,MLE表示最大Lyapunov指数,CMLS表示本实施例的测量方法。
如图4所示,通过MLE方法计算的白噪声的复杂度曲线图为图中(a1)部分,从图中可以看到,白噪声的MLE值在-0.004和0.002之间波动,根据MLE的正负值来表示系统是混沌还是非混沌可知,该MLE值很难确定白噪声的混沌和非混沌状态。
通过SampEN方法计算的白噪声复杂度曲线图为图中(a2)部分,该复杂度在数据长度小于1000时有波动,随着数据长度的增加,SampEN的值最后收敛到2.19。
通过CMLS方法计算的白噪声复杂度曲线图为图中(a3)部分,该复杂度在数据长度小于1000时同样有波动,并且随着数据长度的增加,CMLS的值最后收敛于0.35。
同样的,对粉红噪声通过MLE方法计算的复杂度曲线图如图中(b1)部分,在数据长度为100和500时,MLE的值为负值,在其他数据长度的MLE为正值,这证明了粉红噪声是混沌状态的。
图中(b2)部分为通过SampEN方法计算粉红噪声的复杂度曲线图,随着数据长度从100增加到1000,SampEN的值从2.22减小到2.10,当数据长度从1000增加到10000时,SampEN的值是发散的,并在数据长度为10000时,SampEN的值达到2.18。
图中(b3)部分为通过CMLS方法计算粉红噪声复杂度曲线图,当数据长度超过4000时,复杂度值收敛到0.10。
通过上述分析,在对白噪声进行复杂度计算的结果中,最大Lyapunov指数方法由于受数据长度的影响,难以判断时间序列的混沌特征;样本熵方法能够得到收敛的复杂度值,因此可以较好的计算出白噪声的复杂度;而本实施例的测量方法能够得到比样本熵方法更小的收敛值,从而能更好的计算白噪声的复杂度。
在对粉红噪声进行复杂度计算的结果中,最大Lyapunov指数方法可以判断时间序列是混沌状态的;而样本熵方法由于无法描述粉红噪声的复杂周期特征和不规则概率分布,导致复杂度值无法收敛;本实施例的测量方法则在处理粉红噪声方面表现更好,随着数据量逐渐增加,复杂度计算结果可以收敛到0.10。
综上可知,在对白噪声和粉红噪声的复杂度计算中,样本熵方法和最大Lyapunov指数方法只能对其中一种噪声进行计算,而本实施例的测量方法对两个噪声样本的复杂度计算结果均可以很好的收敛。相比另外两种方法,本实施例提供的时间序列复杂度测量方法的稳定性更好,测量更为全面和精准。
本发明实施例提供的一种时间序列复杂度测量方法,相比常规的基于熵理论或混沌理论的复杂度测量方法只能测量时间序列的不规则性和无序性,通过对时间序列的周期特征、缺失特征、混沌特征和波动特征四个方面,对时间序列复杂度进行全面、综合的测量,从而解决了基于熵理论或混沌理论无法测量周期特征和波动特征等时间序列复杂特征的问题。
请参阅图5,基于同一发明构思,本发明第二实施例提供的一种时间序列复杂度测量系统,包括:
不相似性分析模块10,用于对原始时间序列进行不相似性计算,得到时间序列不相关指数;
缺失数据分析模块20,用于对所述原始时间序列进行缺失数据计算,得到时间序列缺失值;
混沌特征分析模块30,用于对所述原始时间序列进行混沌指数计算,得到时间序列混沌指数;
偏度分析模块40,用于对所述原始时间序列进行偏度计算,得到时间序列偏度绝对值;
复杂度测量模块50,用于根据预定权重,对所述时间序列不相关指数、所述时间序列缺失值、所述时间序列混沌指数和所述时间序列偏度绝对值进行加权计算,得到时间序列复杂度。
本发明实施例提出的时间序列复杂度测量系统的技术特征和技术效果与本发明实施例提出的方法相同,在此不予赘述。上述时间序列复杂度测量系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
请参阅图6,一个实施例中计算机设备的内部结构图,该计算机设备具体可以是终端或服务器。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示器和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种时间序列复杂度测量方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域普通技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算设备可以包括比途中所示更多或更少的部件,或者组合某些部件,或者具有同的部件布置。
此外,本发明实施例还提出一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述方法的步骤。
此外,本发明实施例还提出一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法的步骤。
综上,本发明实施例提供的一种时间序列复杂度测量方法、系统、计算机设备及存储介质,通过对原始时间序列进行不相似性计算,得到时间序列不相关指数;对所述原始时间序列进行缺失数据计算,得到时间序列缺失值;对所述原始时间序列进行混沌指数计算,得到时间序列混沌指数;对所述原始时间序列进行偏度计算,得到时间序列偏度绝对值;根据预定权重,对所述时间序列不相关指数、所述时间序列缺失值、所述时间序列混沌指数和所述时间序列偏度绝对值进行加权计算,得到时间序列复杂度。该方法从时间序列中的周期特征、缺失特征、混沌特征和波动特征四个方面,对时间序列复杂度进行全面、综合的测量,克服了传统的测量方法无法测量周期特征和波动特征等时间序列复杂特征的问题,并且具有很好的稳定性和准确性。
本说明书中的各个实施例均采用递进的方式描述,各个实施例直接相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。需要说明的是,上述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种优选实施方式,其描述。较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本申请的保护范围。因此,本申请专利的保护范围应以所述权利要求的保护范围为准。
机译: 网络系统,测量方法,电子设备,通信设备,芯片和计算机存储介质
机译: 电力参数测量方法,系统和设备,计算机设备和存储介质
机译: 打印设备,介质检测设备,介质检测方法,测量方法,计算机可读存储介质和打印系统