首页> 中国专利> 用于大规模分布式系统的高维时间序列建模方法和系统

用于大规模分布式系统的高维时间序列建模方法和系统

摘要

本发明公开了一种用于大规模分布式系统的高维时间序列建模方法和系统,通过引入基于相关性的特征选择CFS来获取最优特征子集,进而实现数据降维,并选用偏最小二乘回归法PLSR作为建模的核心算法,有效地解决了变量间多重相关性带来的危害。通过上述方式,本发明能够将CFS特征选择方法与传统的PLSR方法有效地结合起来,继承了传统PLSR方法的鲁棒性,解决了特征变量间多重相关性严重的问题,同时降低了数据维数,避免了引入过多变量对模型造成的不良影响,与传统的PLSR算法相比,模型适用性更好。

著录项

  • 公开/公告号CN113128002A

    专利类型发明专利

  • 公开/公告日2021-07-16

    原文格式PDF

  • 申请/专利号CN202110305772.6

  • 发明设计人 焦长平;徐梅钧;刘芳;

    申请日2021-03-23

  • 分类号G06F30/18(20200101);G06F111/02(20200101);G06F111/10(20200101);

  • 代理机构32481 常州格策知识产权代理事务所(普通合伙);

  • 代理人陈磊

  • 地址 213000 江苏省常州市钟楼区星港路61号

  • 入库时间 2023-06-19 11:52:33

说明书

技术领域

本发明涉及大规模分布式系统建模领域,特别是涉及一种用于大规模分布式系统的高维时间序列建模方法和系统。

背景技术

基于高维时间序列的大规模分布式系统建模、预测与控制的研究在多个领域有着广泛的应用,因此目前关于高维时间序列建模的研究十分普遍。在众多种类的高维时间序列中,有一种强耦合的高维时间序,本文称其为高维相关时间序列(MultidimensionalCorrelation Time Series,MCTS),是由一种数据源或几种相近数据源采集到的数据组成,其中一些特征变量的物理含义本身就彼此相关,因此MCTS的变量间存在多重相关性问题,这在建模过程中会影响模型的精度。而本发明适用的领域之———软体家具分布式系统所产生的数据正是这种MCTS,通过该数据可以实现软体家具分布式系统的协同优化与控制、状态分析等,因此对于MCTS建模算法的研究具有重要意义和价值。

迄今为止,科研人员在数据建模与预测分析领域已经做了很多的探索。其中最经典的是最小二乘回归法(Least Squares Regression,LSR),该方法的基本思想是通过最小化误差平方和的方式来获得数据的最佳匹配模型,简单省时的特点使其在多领域中被广泛应用,但是该方法的缺点是不能很好地处理多重相关性严重的数据。为了消除多重相关性带来的不良影响,Heer等人首先提出了岭回归分析法(Ridge Regression,RR),该方法是一种修正的最小二乘估计法。随后,主成分分析(Principal Component Analysis,PCA)和典型相关分析(Canonical Correlation Analysis,CCA)的提出,为偏最小二乘回归法(Partial Least Squares Regression,PLSR)的出现奠定了基础,PLSR是一种新型的多元统计数据分析方法,一个典型的优势就是能够有效地解决变量间的多重相关性问题。为了更好地提高模型精度,在此基础上科研工作者又做了很多的创新,如Wold等提出了基于正交信号修正的偏最小二乘回归法,利用正交投影剔除数据中的冗余信息后再对其进行建模分析。Wang等采用数据投影的方法建立对偶核矩阵,在核特征空间下利用PLSR算法对数据进行预测处理,最后通过反投影建立原始数据的模型。Gao等采用递归修正偏最小二乘法对局部线性模型进行回归,然后利用局部加权映射回归建立预测模型,取得了较好的效果。

上述建模算法及其改进算法在处理特定问题时可以取得较为满意的结果,但都过分重视所有特征变量的作用,忽略了建模过程中的参数节省原则,导致对MCTS所建模型过于复杂,一定程度上破坏了模型的稳健性。而目前在变量筛选方面,已经出现了大量的相关算法,但大部分算法具有计算量大的缺陷,虽然在一定程度上能提高模型精度,但会以牺牲时间成本及算力为代价。而基于相关性的特征选择(Correlation-based FeatureSelection,CFS)算法计算量小,时间复杂度低,同时在效果上可以得到单个特征变量预测能力强,特征之间相关性低的特征子集,在处理多重相关性的同时又起到了降维效果。

基于以上分析,本发明提出一种基于相关性变量筛选偏最小二乘回归(CVS-PLSR)的建模算法,实现对如分布式软体家具系统一类的大规模分布式系统的建模、优化与控制需求。

发明内容

本发明主要解决的技术问题是提供一种用于大规模分布式系统的高维时间序列建模方法和系统,能够将CFS特征选择方法与传统的PLSR方法有效地结合起来,继承了传统PLSR方法的鲁棒性,解决了特征变量间多重相关性严重的问题,同时降低了数据维数,避免了引入过多变量对模型造成的不良影响,与传统的PLSR算法相比,模型适用性更好。

为解决上述技术问题,本发明采用的一个技术方案是:提供一种用于大规模分布式系统的高维时间序列建模方法,包括以下步骤:a. 由多个个体单元组成的大规模分布式系统,个体单元之间可相互通信;b.主服务器收集分布式系统个体单元发送的高维时间序列数据,将高维时间序列数据进行标准化预处理计算获得标准化后的高位时间序列矩阵,接着标准化后的高维时间序列矩阵进行基于CFS算法的变量筛选工作,进行高维时间序列变量之间相关性的判断,将标准化后的高位时间序列矩阵进行现相关性系数矩阵计算,进行高维时间序列变量的筛选,利用序列前向选择搜索策略对变量子集进行搜索,最后经过启发式评估函数评估得到最优特征变量子集; c.最优特征变量子集通过提取重构数据集的特征值筛选出的最优特征变量子集组成的新的数据集,通过PLSR算法实现最终的模型构建。

数据预处理计算单元:实现高维时间序列的标准化过程,首先给出给出一对数据矩阵

其中

相关性系数计算单元:实现高维时间序列变量之间相关性的判断,其计算采用皮尔逊相关系数公式计算:

式(4)中

最优变量筛选单元:实现高维时间序列变量的筛选,其筛选采用相关性的特征选择算法,启发式评估函数如下:

式(5)中

偏最小二乘建模模块:其由三个计算单元组成:变量子集重构单元、特征提取计算单元以及标准化逆过程计算单元;其在相关性变量筛选模块中最优变量筛选单元得到的最优变量基础上实现基于偏最小二乘建模,通过主成分提取的方式构建新的综合变量,并剔除系统中的多重相关信息,有效地克服了变量间多重相关性在建模过程中产生的不良影响。最终实现高维时间序列的建模。

变量子集重构单元利用相关性变量筛选模块中最优变量筛选单元得到的最优变量重构片最小二乘算法建模所有数据集

特征提取计算单元:实现提取重构数据集的特征值,式(6)为主成分计算的基本形式,式(7)为约束条件:

其中

主成分

负荷向量

主成分数迭代计算公式:

式(11)中建模过程中主成分个数

式(12)中

标准化逆过程计算单元:实现最终的模型构建,

为解决上述技术问题,本发明采用的另一个技术方案是:提供一种用于大规模分布式系统的高维时间序列建模方法的系统,包括主服务器和大规模分布式系统,所述主服务器包括依次连接的高位数据采集模块、相关性变量筛选模块、偏最小二乘建模模块和大规模分布式系统模型;大规模分布式系统将数据发送至主服务器;高位数据采集模块用于接受大规模分布式系统发送的高维时间序列数据,并将数据发送至相关性变量筛选模块;相关性变量筛选模块包括依次连接的数据预处理计算单元、相关性系数计算单元和最后变量筛选单元,高维时间序列数据依次通过数据预处理计算单元、相关性系数计算单元和最优变量筛选单元处理后的数据发送至偏最小二乘建模模块;偏最小二乘建模模块包括依次连接的变量子集重构单元、特征提取计算单元和标准化逆过程计算单元,变量子集重构单元接受最优变量筛选单元处理后的数据,并依次通过变量子集重构单元、特征提取计算单元和标准化逆过程计算单元计算后发送至对规模分布式系统模型。

在本发明一个较佳实施例中,所述大规模分布式系统包括多个个体单元、数据采集单元和发送终端,所述个体单元与移动网络连通,个体单元你之间相互通信,所述数据采集单元采集个体单元的数据并通过发送终端发出,所述个体单元为智能家居。

在本发明一个较佳实施例中,所述高维数据采集模块集成在主服务上,通过网络收集和发送数据。

本发明的有益效果是:本发明用于大规模分布式系统的高维时间序列建模方法和系统,能够将CFS特征选择方法与传统的PLSR方法有效地结合起来,继承了传统PLSR方法的鲁棒性,解决了特征变量间多重相关性严重的问题,同时降低了数据维数,避免了引入过多变量对模型造成的不良影响,与传统的PLSR算法相比,模型适用性更好。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,其中:

图1是本发明用于大规模分布式系统的高维时间序列建模系统一较佳实施例的结构示意图;

图2是用于大规模分布式系统的高维时间序列建模方法的算法建模流程图;

图3为CFS特征选择原理图;

图4为偏最小二乘回归法原理图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

请参阅图1至图4,种用于大规模分布式系统的高维时间序列建模方法,包括以下步骤:a. 由多个个体单元组成的大规模分布式系统,个体单元之间可相互通信;b.主服务器收集分布式系统个体单元发送的高维时间序列数据,将高维时间序列数据进行标准化预处理计算获得标准化后的高位时间序列矩阵,接着标准化后的高维时间序列矩阵进行基于CFS算法的变量筛选工作,进行高维时间序列变量之间相关性的判断,将标准化后的高位时间序列矩阵进行现相关性系数矩阵计算,进行高维时间序列变量的筛选,利用序列前向选择搜索策略对变量子集进行搜索,最后经过启发式评估函数评估得到最优特征变量子集;c.最优特征变量子集通过提取重构数据集的特征值筛选出的最优特征变量子集组成的新的数据集,通过PLSR算法实现最终的模型构建。

一种用于大规模分布式系统的高维时间序列建模方法的系统,包括主服务器和大规模分布式系统,所述主服务器包括依次连接的高位数据采集模块、相关性变量筛选模块、偏最小二乘建模模块和大规模分布式系统模型;大规模分布式系统将数据发送至主服务器;高位数据采集模块用于接受大规模分布式系统发送的高维时间序列数据,并将数据发送至相关性变量筛选模块;相关性变量筛选模块包括依次连接的数据预处理计算单元、相关性系数计算单元和最后变量筛选单元,高维时间序列数据依次通过数据预处理计算单元、相关性系数计算单元和最优变量筛选单元处理后的数据发送至偏最小二乘建模模块;偏最小二乘建模模块包括依次连接的变量子集重构单元、特征提取计算单元和标准化逆过程计算单元,变量子集重构单元接受最优变量筛选单元处理后的数据,并依次通过变量子集重构单元、特征提取计算单元和标准化逆过程计算单元计算后发送至对规模分布式系统模型。大规模分布式系统包括多个个体单元、数据采集单元和发送终端,所述个体单元与移动网络连通,个体单元你之间相互通信,所述数据采集单元采集个体单元的数据并通过发送终端发出,所述个体单元为智能家居。高维数据采集模块集成在主服务上,通过网络收集和发送数据。

相关性变量筛选模块:其由三个计算单元组成:分别是数据预处理计算单元、相关性系数计算单元以及最优变量筛选单元;实现分布式系统多个个体发送的高维时间序列的相关性分析与建模变量筛选功能。其通过启发式评估函数对特征子集进行评估,进而选择出单个特征变量预测能力强、特征之间相关性低的特征子集。

数据预处理计算单元:实现高维时间序列的标准化过程,首先给出给出一对数据矩阵和

其中

相关性系数计算单元:实现高维时间序列变量之间相关性的判断,其计算采用皮尔逊相关系数公式计算:

式(4)中

最优变量筛选单元:实现高维时间序列变量的筛选,其筛选采用相关性的特征选择算法,启发式评估函数如下:

式(5)中

偏最小二乘建模模块:其由三个计算单元组成:变量子集重构单元、特征提取计算单元以及标准化逆过程计算单元;其在相关性变量筛选模块中最优变量筛选单元得到的最优变量基础上实现基于偏最小二乘建模,通过主成分提取的方式构建新的综合变量,并剔除系统中的多重相关信息,有效地克服了变量间多重相关性在建模过程中产生的不良影响。最终实现高维时间序列的建模。

变量子集重构单元利用相关性变量筛选模块中最优变量筛选单元得到的最优变量重构片最小二乘算法建模所有数据集

特征提取计算单元:实现提取重构数据集的特征值,式(6)为主成分计算的基本形式,式(7)为约束条件:

其中

主成分

负荷向量

主成分数迭代计算公式:

式(11)中建模过程中主成分个数

式(12)中

标准化逆过程计算单元:实现最终的模型构建,

由图1所示,图1中大规模分布式系统中各个单体通过移动网络联通接入互联网将分布式系统中各个单体的状态信息、用户信息以及指令信息等时间序列数据传输到主服务器,主服务器中的基于4G的高维数据采集模块则收集系统中全部单体的全部数据,组成高维时间序列数据,并在主服务器内对其进行数据分析与建模计算,具体流程如图2所示。

由图2所示,高维时间序列数据被送入相关性变量筛选模块中的数据预处理计算单元中。在数据预处理计算单元中,实现高维时间序列的标准化预处理计算,具体实施如下:

设高维时间序列数据矩阵

式(15)中,

相关性变量筛选模块即利用此标准化后的高维时间序列矩阵

首先,对标准化后的高维时间序列进行相关性系数矩阵计算:

式(6)中

然后,然后利用序列前向选择(Sequence Forward Selection,SFS)搜索策略对变量子集进行搜索,最后经过启发式评估函数评估得到最优特征变量子集。启发式评估函数为:

需要说明是的,特征子集的搜索是从空集

进一步,筛选后的最优特征变量子集

计算协方差矩阵:

这里,主成分个数

式(18)中

计算M最大特征值对应的特征向量

提取主成分

计算负荷向量

构建回归方程。如果方程精度令人满意,即,

最后,将变量子集重构单元计算得到的h个成分

区别于现有技术,本发明用于大规模分布式系统的高维时间序列建模方法和系统,能够将CFS特征选择方法与传统的PLSR方法有效地结合起来,继承了传统PLSR方法的鲁棒性,解决了特征变量间多重相关性严重的问题,同时降低了数据维数,避免了引入过多变量对模型造成的不良影响,与传统的PLSR算法相比,模型适用性更好。

以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号