首页> 中国专利> 基于谱聚类的PMU不良数据检测方法

基于谱聚类的PMU不良数据检测方法

摘要

本发明公开了一种基于谱聚类的PMU不良数据检测方法,包括:基于四点数据斜率特征构建决策树模型,并利用该决策树模型辨识事件数据、以及正常数据和不良数据;对于辨识出的包含正常数据和不良数据的数据集合A,利用3σ准则进行初步筛选,将数据集合划分为A1、A2、与A3三个部分,其中A1部分与A2部分分别为正常数据与不良数据,A3部分中包含了正常数据和不良数据;利用谱聚类的方法,构造数据之间的权重距离矩阵,从而在A3部分中检测出不良数据。该方法能通过数据间的权重准确检测偏差值较小的不良数据。

著录项

说明书

本申请要求2020-12-28申请的202011576078.X的专利申请的优先权。

技术领域

本发明涉及电力系统技术领域,尤其涉及一种基于谱聚类的PMU不良数据检测方法。

背景技术

PMU可以为电力系统各类应用提供实时相量数据,如决策控制、振荡检测和状态估计,然而,由于现场环境复杂,受到同步信号抖动、通信协议错误、自然或人为等因素的影响,PMU存在不同程度的数据质量问题。准确检测PMU不良数据对于提高数据质量、保障电力系统安全稳定运行至关重要。目前检测PMU不良数据常用的方法有基于状态估计、基于卡尔曼滤波和基于数据驱动的方法,在这些方法中,基于数据驱动的方法由于不需要系统拓扑和线路参数的先验知识受到广泛关注。

现有的基于数据驱动的方法有基于低秩性、主成分分析和时空相似性等算法,然而它们都需要多台PMU的量测信息,对于某些地区只安装了少量PMU,并且很难获得多台PMU的量测信息的情况不适用;而使用单台PMU的量测来实现不良数据检测的方法有基于集成学习的,基于密度聚类的方法等,然而当不良数据在事件过程中出现时,这些方法可能不适用。

发明内容

本发明的目的是提供一种基于谱聚类的PMU不良数据检测方法,能通过计算数据间的权重距离来构造相似度矩阵,从而准确检测偏差值较小的不良数据。

本发明的目的是通过以下技术方案实现的:

一种基于谱聚类的PMU不良数据检测方法,包括:

基于四点数据斜率特征构建决策树模型,并利用该决策树模型辨识事件数据、以及正常数据和不良数据;

对于辨识出的包含正常数据和不良数据的数据集合A,利用3σ准则进行初步筛选,将数据集合划分为A1、A2、与A3三个部分,其中A1部分与A2部分分别为正常数据与不良数据,A3部分中包含了正常数据和不良数据;

利用谱聚类的方法,构造数据之间的权重距离矩阵,从而在A3部分中检测出不良数据。

由上述本发明提供的技术方案可以看出,能够快速、准确地识别PMU不良数据,并能有效区分事件数据和不良数据,对偏差较小的不良数据也能准确检测,并且纯数据驱动,不需要系统的拓扑和参数的先验信息,因此采用基于谱聚类的PMU不良数据检测方法具有十分显著的优点。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于谱聚类的PMU不良数据检测方法的流程图;

图2为本发明实施例提供的事件数据、不良数据以及正常数据比较示意图;

图3为本发明实施例提供的不同方法对稳态数据的检测结果比较示意图;

图4为本发明实施例提供的三种方法能检测的偏差范围示意图;

图5为本发明实施例提供的配电网中实测不良数据检测结果比较示意图。

具体实施方式

下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。

本发明实施例提供一种基于谱聚类的PMU不良数据检测方法,其主要包括:

1、基于四点数据斜率特征构建决策树模型,并利用该决策树模型辨识事件数据、以及正常数据和不良数据。

本发明解决的是因干扰或同步信号抖动导致的PMU不良数据检测问题,通过分析大量现场数据,这类的不良数据大多单独存在,且连续不良数据的数量不超过3个。

图2为本发明实施例提供的事件数据、不良数据以及正常数据比较示意图。在图2中,X

数据斜率计算公式为:

其中,t

电力系统正常运行时,数据是稳态数据,斜率很小。然而,存在事件数据或不良数据时,幅值会发生变化,斜率会变大。表1提供了图2中事件数据、正常数据、不良数据的斜率比较。

表1各类数据的斜率比较

表1显示,对事件数据,从X

本发明实施例中,利用大量的现场数据来构造决策树,并利用该决策树模型辨识事件数据、以及正常数据和不良数据。主要实现过程如下:设置信息增益率阈值ε、决策树深度p,其中信息增益率阈值ε用于验证划分特征是否符合要求;深度p表示递归计算的次数;将训练集中所有数据输入,计算各数据的特征a、b、c、d的信息增益率;具体的,首先计算各数据的四点数据斜率作为各数据点的四个特征,得到四类特征;并使用二分法离散化每个连续特征,提取训练数据集中所有数据每一类特征的的取值,对于每一类特征,将取值从小到大排序,计算排序中相邻特征的中点作为候选划分点,计算每个特征对应不同划分点的信息增益率,选择最大值作为相应类特征的信息增益率,比较四类特征的信息增益率,选出信息增益率最大的特征,并将其信息增益率与设定的信息增益率阈值ε比较;如果小于ε则所有数据为同一类别;如果大于信息增益率阈值ε,则选出信息增益率最大的候选划分点s

为了便于理解,决策树模型实现过程中的主要原理进行说明。

本发明实施例中,事件数据和非事件数据的辨识可以等同于二分类问题。基于决策树的方法可以有效解决这个问题,同时用信息增益比来选择特征,避免偏好具有更多值的特征。

阶跃点数据的标签l=1,其余数据的标签l=0。每个数据点的特征是包括自身的连续四个数据点的斜率值,例如(k

训练数据分为阶跃点数据和非阶跃点数据两类,概率为z

训练集D的总信息熵计算如下:

式中,z

若选择特征b(各数据自身的斜率)来划分训练集D,首先利用二分法离散化连续特征b。设连续特征b存在j个不同的取值。将特征b的取值从小到大排序,记为{b

每个划分点可以将训练集D分为子集

其中,|D|是数据的总数;

其中,I(b)称为固有属性,特征b的可能取值越多,则I(b)的值也会越大。因此,选择最大信息增益率o(D,b,s

构建决策树模型后,待检测的数据集合被放入经过训练好的决策树以判断其对应的标签,表示为:

其中,X

对某时间的一组PMU测量的幅值数据D=X

2、对于辨识出的包含正常数据和不良数据的数据集合A,利用3σ准则进行初步筛选,将数据集合划分为A1、A2、与A3三个部分,其中A1部分与A2部分分别为正常数据与不良数据,A3部分中包含了正常数据和不良数据。

本发明实施例中,前述步骤1区分出事件数据,在此基础上,由于PMU现场数据服从高斯分布,因此,先用3σ准则对阶跃发生后的数据进行初步筛选。

3σ准则进行初步筛选表示为:

P(||X

其中,μ是数据的均值,σ是数据的标准偏差,X

分布在(μ-σ,μ+σ)之间的数据被视为正常数据,即A1部分;μ-3σ和μ+3σ两侧的数据为不良数据,即A2部分;(μ-3σ,μ-σ)和(μ+σ,μ+3σ)之间的数据,包含了正常数据和不良数据,即A3部分,A3部分的数据是3σ准则无法检测到的。当不良数据的幅值接近数据集的平均值时,它们不能被这个准则检测到。

3、利用谱聚类的方法,构造数据之间的权重距离矩阵,从而在A3部分中检测出不良数据。

本发明实施例中,提出了一种谱聚类方法,通过构造数据之间的权重距离矩阵,即谱聚类中的相似度矩阵,对与正常值偏差较小的不良数据进行准确检测。谱聚类是基于图论的方法,它将聚类问题转化为图分割问题。将各测量数据的相似关系映射到高维空间,在空间中寻找合适的切割线,使正常测量数据的子图A和不良数据的子图B分开。

谱聚类的目的是对图G进行切割,以测量数据的相似度作为切割依据,分别要求子图A和B内各测量数据的相似度之和尽可能的大,而子图A和B的相似度尽可能的小。对子图A和B的相似度定义如下:

同时,为了最大化每个子图中包含的顶点数,采用RatioCut切图方式,则目标函数进行如下改进:

其中,|A|,|B|分别是子图A和子图B的顶点数。

由于实际测量数据的偏差各异,映射到空间所产生的子图数远大于2个,因此,扩展至m个子图,目标函数变为:

其中,

因此,谱聚类的目标是求解RCut(A

首先,对于A3部分的数据D=X

其中,X

根据任意两个偏差r

其中,δ是尺度参数。

根据相似度矩阵W构建度矩阵D

其中,n是相似度矩阵W的列数,即数据点个数。

L=D

度矩阵D

拉普拉斯矩阵L对于任意向量f,都有:

引入指示向量h

其中,n是图G中顶点数,即数据点个数。

设H∈R

对于空间中某子图A

其中,Tr为迹函数,角标ii表示矩阵中主对角线的元素。

目标函数转换为:

根据瑞利商性质,目标函数的最小值等于L的m个最小特征值的和。因此,在求解上述目标函数时,先对拉普拉斯矩阵L进行特征值分解,将其最小的m个特征值所对应的特征向量组成的矩阵F进行K均值聚类,来实现正常数据和不良数据的划分。

为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果,下面以仿真和现场测试实例对本发明所提供的基于谱聚类的PMU不良数据检测方法进行详细描述,具体包括:

1、仿真测试。

为体现所提方法对不良数据的检测效果,利用电力系统静态条件下仿真信号进行测试,信号表达式为:

其中,X

设置单个或连续的坏数据,偏差范围为0.3%-5%。将本发明所提方法与基于集成学习和基于DBSCAN的聚类方法进行对比,三种方法对不良数据的检测结果如图3所示。

结果表明,若不良数据偏差较小时,其与正常数据间的关系较为紧密,DBSCAN方法易将不良数据误认为正常数据,造成误检。另外,由于集成学习方法利用相邻数据幅值之差对不良数据进行检测,多点不良数据会导致相邻数据的幅值接近,从而造成部分不良数据的漏检,因此该方法无法检测图中连续3点的不良数据。而所提方法可有效检测不同偏差下的单点和多点连续不良数据。

之后,通过改变单个不良数据的偏差值来比较三种方法的检测范围。结果如图4所示。

图4说明当不良数据偏差值低于1%时,集成学习方法无法检测。当不良数据的偏差值低于4%时,DBSACN方法无法检测到。但是,本发明所提方法能够检测到偏差在0.5%到20%之间的不良数据。

改变不良数据的比例和位置。三种方法对不良数据的检测能力对比如下。

表2不良数据的检测能力

如表2所示,集成学习方法和DBSCAN方法均具有一定的局限性,所提方法可满足系统各类型不良数据的检测要求。

2、实测数据验证。

利用现场实测数据来验证所提方法的有效性。比较结果如图5所示。:

图5结果表明,当不良数据偏差小于1%时,集成学习方法和DBSCAN方法无法检测,与上述仿真结果一致。当存在连续多点不良数据时,集成学习方法仍无法检测。DBSCAN方法可以检测偏差大于4%的不良数据。由此可见,集成学习方法和DBSCAN方法均具有一定的局限性,所提方法可满足系统各类型不良数据的检测要求。

3、不同方法性能比较。

测试三种检测方法在不同时间窗下的运行时间以及对不同比例和不同偏差的不良数据的检测效果。三种检测方法的运行时间结果见表3。

表3三种方法运行时间的比较

结果表明,随着时间窗长的增加,三种方法的运行时间而增加。集成学习法比其他两种方法运行时间长,因为这种方法更复杂。聚类方法和所提方法的运行时间接近。

对不同比例、偏差的不良数据的检测结果见表4。

表4三种方法准确性比较

结果表明,在不同的场景下,本发明所提出的方法比其他两种方法具有更高的准确度。随着不良数据比例的增加,三种方法的检测精度都会降低。随着不良数据偏差范围的增加,准确度也会提高。DBSCAN方法受不良数据比例和偏差范围的影响更大。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号