首页> 中国专利> 一种基于主元降维和间隙统计的负荷聚类装置及方法

一种基于主元降维和间隙统计的负荷聚类装置及方法

摘要

本发明公开了一种基于主元降维和间隙统计的负荷聚类方法,涉及电力负荷数据处理技术领域,其技术要点包括:S1:获取海量用户原始电力负荷数据B;S2:对数据B做主成分分析,得到数据C;S3:对数据C做间隙统计计算,得到离散度和间隙值数据D;S4:根据数据D计算聚类个数,对所述聚类个数做判断,若聚类个数≥2时,则带入聚类算法进行聚类,获得聚类结果,否则结束步骤,通过对智能电表获得的海量负荷数据进行降维,能够减少运算的复杂度;同时方法能够获得降维数据后的最优聚类数,并通过离散度对数与聚类个数n的曲线关系,实现聚类数效果的可视化,本方法能够避免聚类算法的随机性,提高聚类速度和准确性。

著录项

说明书

技术领域

本发明涉及电力负荷数据处理技术领域,具体涉及一种基于主元降维和间隙统计的负荷聚类装置及方法。

背景技术

随着智能电表大规模应用,电力企业可获得海量的负荷数据。而分析海量负荷数据的关键工作之一是进行负荷聚类,也是当前工业界和学术界关注的重点。

国内外负荷聚类方法可分为直接聚类法和间接聚类法。直接聚类法,是指直接以负荷数据作为输入量的聚类方法。间接聚类法,是先对负荷数据做分析、处理和降维,再进行聚类的方法。直接法由于输入数据维数过大,容易出现维数灾和聚类时间过长;而间接法存在聚类中心和类别数确定困难。

因此解决上述问题是我们亟需的。

发明内容

有鉴于此,本发明目的在于提供一种基于主元降维和间隙统计的负荷聚类装置及方法,以解决负荷聚类过程中的海量数据优化降维和聚类类别数确定的问题。

一种基于主元降维和间隙统计的负荷聚类装置,包括:

电力数据预处理装置,其用于调取某个时间段汇入电网的原始电力负荷数据样本A,并于所述时间段按等间隔提取原始电力负荷数据样本A,并生成电力负荷数据B;

电力数据采集装置,其用于接收所述电力数据预处理装置生成的电力负荷数据B;

电力数据筛选装置,其用于对所述电力负荷数据B做主成分筛选,得到K维特征数据C;

电力数据聚类处理装置,其用于对K维特征数据C做聚类处理,得到n个子集、聚类中心点Ck和子集与聚类中心的距离平方和S

电力数据聚类判定装置,其通过数据集r、间隙值G(n)和离散度ω(n)得到参考数据集的离散度估计值E{ln[W

数据显示装置,其用于显示聚类结果图像。

此外基于本装置,本发明还提供一种基于主元降维和间隙统计的负荷聚类方法来实现具体处理效果。

一种基于主元降维和间隙统计的负荷聚类方法,包括步骤:S1:获取用户原始电力负荷数据B;S2:对数据B做主成分分析,得到K维特征数据C;S3:对K维特征数据C做聚类处理,得到n个子集、聚类中心点Ck和子集与聚类中心的距离平方和S

在上述方案中,通过对获取的海量用户原始电力负荷数据A做主成分分析来实现数据A的主元降维,能有效减少数据量,降低了数据处理运算的复杂度,通过对上述数据B做间隙统计计算得到离散度和间隙值,通过对离散度和间隙值处理计算得到最优聚类个数,通过聚类个数与离散度对数建立曲线关系来实现聚类效果的可视化,相比于现有的聚类处理,本方案避免聚类算法的随机性,提高聚类速度和准确性。

进一步地,步骤S2中还包括:

步骤S21:对数据A进行负荷数据归一化处理,将数据投影到[0,1]区间,得到样本数据 A1,其表达式为;

S22:对样本数据A1中每个特征序列做特征中心化处理,得到样本特征A2数据,其表达式为;

S23:求样本特征A2数据之间的协方差矩阵C;

S24:求样本特征A2数据协方差阵列的特征值λ和特征向量μ;

Cu=λu (4)

S25:选取前K个最大的特征值,其中λ取值大于0.85,记为降维后的K维特征数据。

在本方案中,因不同用户的不同用电行为的差异,往往不在一个数量级上,直接带入算法会有较大误差,且无法在图像上进行对比,通过对负荷数据归一化处理,并投影至[0,1]区间来减少数据运算复杂性,通过对数据的特征中心化结合协方差矩阵计算出特征向量,最终得到降维的K维特征数据,实现原始电力负荷数据的主元降维,减少运算量,减低了运算误差。

进一步地,步骤S3中还包括:

步骤S31:对K维特征数据进行聚类处理,令聚类数n=1和n=2,分别计算聚类后的离散度;

其中,K维特征数据Q={x

可以理解的是,对K维特征数据进行聚类处理,可采用现有技术中的各种聚类处理技术实现。

S32:将上述不同n值下得到的离散度取其自然对数,然后选取一个参考数据与之进行对比来判定最佳聚类个数,其表达式为:

G(n)=E{ln[W

其中,r表示参考数据集,E{ln[W

在本方案中,将离散度做为对n类聚类结果的评价函数,再对不同n值下得到的离散度取其自然对数,选取参考数据来求得最佳聚类个数便于后续建立图像曲线关系。

步骤S32中,对生成参考数据集产生的分布误差做计算,其表达式为:

在本方案中,上述处理实现对不同类别间隙值的差异误差拐点计算。

进一步地,在步骤S4中,还包括步骤:

S41:判断最佳聚类个数n,其表达式为:

G(n)≥G(n+1)-δ

S42:当n=1,结束步骤,若n≥2,则进入以下步骤;

S43:根据离散度对数与聚类个数n的曲线关系,取拐点数为最佳聚类个数,每条折线之间的夹角为α

其中,

α

S44:将最佳聚类个数带入聚类算法,获得聚类结果。

本方案中,n≥2时,用肘型判据,计算夹角a(n),并输出最小夹角时的n值。具体为:画出离散度对数与聚类个数n的曲线关系,取拐点数即为最佳聚类个数,所述拐点于曲线的位置相当于最大间隙值的位置。

优选地,在步骤S43中,所述拐点于曲线的位置相当于最大间隙值的位置。

优选地,最佳聚类个数取值为4。

本发明与现有技术相比,具有如下的优点和有益效果:

本发明一种基于主元降维和间隙统计的负荷聚类方法,可以对智能电表获得的海量负荷数据进行降维,能够减少运算的复杂度;同时方法能够获得降维数据后的最优聚类数,并通过离散度对数与聚类个数n的曲线关系,实现聚类数效果的可视化。方法能够避免聚类算法的随机性,提高聚类速度和准确性。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:

图1为本发明实施例中的整体流程示意图;

图2为本发明实施例中的具体实施流程图;

图3为本发明实施例中离散度对数与聚类个数n的曲线关系图;

图4为本发明实施例中的整体装置结构示意图;

图5为本发明实施例中归一化的负荷数据曲线图;

图6为直接聚类处理数据的结果图;

图7为间歇性统计算法后进行聚类处理和主元降维和间歇统计后进行聚类数据处理的结果图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。

在以下描述中,为了提供对本发明的透彻理解阐述了大量特定细节。然而,对于本领域普通技术人员显而易见的是:不必采用这些特定细节来实行本发明。在其他实例中,为了避免混淆本发明,未具体描述公知的结构、电路、材料或方法。

在整个说明书中,对“一个实施例”、“实施例”、“一个示例”或“示例”的提及意味着:结合该实施例或示例描述的特定特征、结构或特性被包含在本发明至少一个实施例中。因此,在整个说明书的各个地方出现的短语“一个实施例”、“实施例”、“一个示例”或“示例”不一定都指同一实施例或示例。此外,可以以任何适当的组合和、或子组合将特定的特征、结构或特性组合在一个或多个实施例或示例中。此外,本领域普通技术人员应当理解,在此提供的示图都是为了说明的目的,并且示图不一定是按比例绘制的。这里使用的术语“和/或”包括一个或多个相关列出的项目的任何和所有组合。

在本发明的描述中,需要理解的是,术语“前”、“后”、“左”、“右”、“上”、“下”、“竖直”、“水平”、“高”、“低”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明保护范围的限制。

实施例

一种基于主元降维和间隙统计的负荷聚类装置,包括用于对间段电力负荷数据做处理的电力数据处理装置,所述电力数据处理装置包括:数据采集装置,其用于采集用户原始电力数据A;电力数据分析装置,其用于对获取原始电力数据A做分析筛选,得到数据B;电力数据统计装置,其用于对数据B进一步计算处理,数据C;电力数据聚类判定装置,其用于数据C做聚类数判定,并获取聚类结果。

如图1与图2所示,本发明一种基于主元降维和间隙统计的负荷聚类方法,包括以下步骤:

S1:获取海量用户原始电力负荷数据B;

S2:对数据B做主成分分析,得到K维特征数据C;

具体地,步骤S2中还包括:

步骤S21:对数据A进行负荷数据归一化处理,将数据投影到[0,1]区间,得到样本数据A1,其表达式为;

S22:对样本数据A1中每个特征序列做特征中心化处理,得到样本特征A2数据,其表达式为;

S23:求样本特征A2数据之间的协方差矩阵C;

S24:求样本特征A2数据协方差阵列的特征值λ和特征向量μ;

Cu=λu (4)

S25:选取前K个最大的特征值,其中λ取值大于0.85,记为降维后的K维特征数据。

S3:对数据B做间隙统计计算,得到离散度和间隙值数据C;

具体地,步骤S3中还包括:

步骤S31:对K维特征数据进行聚类处理,令聚类数n=1和n=2,分别计算聚类后的离散度;

其中,K维特征数据Q={x

可以理解的是,对K维特征数据进行聚类处理,可采用现有技术中的各种聚类处理技术实现。

S32:将上述不同n值下得到的离散度取其自然对数,然后选取一个参考数据与之进行对比来判定最佳聚类个数,其表达式为:

G(n)=E{ln[W

其中,r表示参考数据集,E{ln[W

步骤S32中,对生成参考数据集产生的分布误差做计算,其表达式为:

S4:根据数据C计算聚类个数,对所述聚类个数做判断,若聚类个数≥2时,则带入聚类算法进行聚类,获得聚类结果,否则结束步骤;

具体地,步骤S4中还包括:

S41:判断最佳聚类个数n,其表达式为:

G(n)≥G(n+1)-δ

S42:当n=1,结束步骤,若n≥2,则进入以下步骤;

S43:根据离散度对数与聚类个数n的曲线关系,取拐点数为最佳聚类个数,每条折线之间的夹角为α

其中,

α

S44:将最佳聚类个数带入聚类算法,获得聚类结果。

其中,最佳聚类个数取值为4。

本发明公开了一种基于主元降维和间隙统计的负荷聚类方法,通过上述处理过程实现了对智能电表获得的海量负荷数据进行降维,能够减少运算的复杂度;同时方法能够获得降维数据后的最优聚类数,并通过离散度对数与聚类个数n的曲线关系,实现聚类数效果的可视化。提高聚类速度和准确性,能够避免聚类算法的随机性。

此外本申请提供了具体的数据处理图表信息进一步表述本申请的优点,如图5所示为归一化的负荷数据曲线,本实施例采用某地区智能电表采集的实际负荷数据,其每15mins采集一次点,一天共计96个数据,共200条负荷曲线。

通过将数据带入间隙统计算法中,并应用图4中离散度对数与聚类个数n的曲线关系,计算的结果如表(1)所示。

表1

根据表中数据本数据集的最佳聚类个数为4,通过分别对以下三种方案进行聚类效果分析:

方案1:数据直接进行聚类;

方案2:数据采用间歇性统计算法后进行聚类;

方案3:数据采用主元降维和间歇统计后进行聚类。

方案1聚类图如图6所示;方案2和3的聚类图如图6所示。对三种情况的聚类准确度,聚类时间,聚类数量,进行了分析,得到如下三种方案下的聚类参数对比结果表,如表(2) 所示。

表(2)

结合表2、图6与图7可以得知,方案一数据直接进行聚类;虽然省去了间歇统计和主元降维算法的处理时间,总体时间略快于方案2,但还是慢于方案3,且由于聚类个数的不确定,只能采用经验法确定聚类个数为5,但与其余两种方案对比表明,5并不是最佳聚类个数,第 1类和第4类的数据曲线没有明显差别,聚类的准确度较低,不能较好分析负荷曲线特征。从方案二和方案三的聚类结果一致,聚类的结果较好,将负荷曲线分为4类,且每类曲线数比较平均,聚类准确度较高。但是,由于方案三采用了主元降维,使得计算速度得到了很好的提升。因此,本专利采用的基于主元降维和间隙统计类算法对海量的负荷数据处理具有较好的适用性,能够准确负荷类型个数,提升负荷数据处理速度。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号