首页> 中国专利> 一种基于数理统计分析耦合神经网络预测的不良数据辨识方法

一种基于数理统计分析耦合神经网络预测的不良数据辨识方法

摘要

本发明提出了一种基于数理统计分析耦合神经网络预测的不良数据辨识方法,主要步骤包括:获取原始数据,原始数据进行无量纲化处理,利用箱线图法确定数据异常点,分析数据统计分布形式,计算统计分布量和置信区间,将置信区间外数据和异常点归类为异常数据集。建立BP神经网络模型,通过神经网络模型对异常数据集进行循环测试,最终获得不良数据集。本发明通过耦合数理统计分析和神经网络模型,通过数理统计分析预先筛选出异常数据,然后利用神经网络对异常数据进行预测,根据预测结果鉴别数据好坏;非常适合处理脱硝系统具有参数多、波动大等特点的数据,辨识精度和准确性高,可广泛用于烟气脱硝领域不良数据的辨识。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-26

    实质审查的生效 IPC(主分类):G06Q10/04 专利申请号:2022103751384 申请日:20220411

    实质审查的生效

  • 2022-08-09

    公开

    发明专利申请公布

说明书

技术领域

本发明属于氮氧化物治理领域,具体涉及一种基于数理统计分析耦合神经网络预测的不良数据辨识方法。

背景技术

随着物联网、机器学习、大数据分析等技术的发展,基于SCR脱硝系统大数据分析的脱硝系统智能调控、催化剂管理等研究日益增多。然而,由于SCR脱硝系统大数据采集过程中存在的测量误差、设备故障、传输故障等问题,原始数据样本中往往包含一些不良数据。这些不良数据不仅干扰脱硝系统控制,同时对于基于大数据分析的智能调控、催化剂管理造成了许多不利影响,限制这些技术的推广应用。因此,如何对不良数据进行辨识对于SCR脱硝系统的稳定高效运行具有重要意义。

传统的不良数据辨识方法主要有物理判别法和数理统计法,物理判别法是基于人们对数据已知的客观认识,判断外界干扰、人为误差等对实测数据偏离正常值的方法,但由于SCR脱硝系统产生的数据量大,人工判断工作量大且需要操作者具有丰富经验使得该方法实施难度较大。数理统计法是通过数理统计理论对不良数据进行鉴别,但由于SCR脱硝系统大数据研究发展较晚,目前鲜有对SCR脱硝系统数据数理统计的研究,缺乏合适数理统计模型的指导,对不良数据鉴别的准确性难以保证。因此,亟需提出新的有效SCR脱硝系统不良数据的检测与辨识方法。

发明内容

本发明的目的在于克服现有技术的不足,提供一种基于数理统计分析耦合神经网络预测的不良数据辨识方法。

该方法首先通过对SCR脱硝系统数据进行数理统计分析,利用传统的数学统计分布模型初步筛选出异常数据,然后利用剔除了初筛异常数据后的正常数据训练BP神经网络,然后利用训练好的神经网络对异常数据进行测试验证,通过计算测试样本预测值和初始值的相对误差大小鉴别不良样本;针对鉴别出的不良样本,进一步优化神经网络对不良样本进行检验和校正,并最终确定不良数据。

为了实现上述目的,达到上述技术效果,本发明通过以下技术方案实现:一种基于数理统计分析耦合神经网络预测的不良数据辨识方法,包括以下步骤:

步骤1、获取烟气脱硝系统采集的原始数据样本,删除明显不合理数据,所述明显不合理数据包括数据缺失或者数值超限的数据;然后对删除明显不合理数据后的所有数据进行无量纲化处理,得到样本集;

步骤2、绘制步骤1所述样本集参数的数据箱线图,将箱线图显示的异常值归类至异常数据集;

步骤3、绘制步骤1所述样本集剔除了步骤2所述异常样本集的新样本集参数的数据分布直方图,确定参数的统计分布模型,计算模型的概率密度函数;

步骤4、根据概率密度函数计算参数的置信区间,将置信区间外的数据添加至步骤2所述的异常数据集;

步骤5、构建BP神经网络;

步骤6、将步骤4所述的异常数据集作为测试样本,其余样本作为训练样本,利用学习完成的BP神经网络模型对测试样本进行预测,根据预设条件将测试样本重新划归至不良样本集或训练样本集;

步骤7、对不良样本集进行检验和校正,确定最终不良数据。

优选的,前述一种基于数理统计分析耦合神经网络预测的不良数据辨识方法,步骤1所述的每个原始数据样本至少包含2个以上参数,且至少参数包含出口NO

优选的,前述一种基于数理统计分析耦合神经网络预测的不良数据辨识方法,步骤1所述的无量纲化方法采用下述公式1~3中任意之一计算:

式中,Z

优选的,前述一种基于数理统计分析耦合神经网络预测的不良数据辨识方法,步骤2所述的异常值通过公式4进行鉴别:

Z

式中,Z

优选的,前述一种基于数理统计分析耦合神经网络预测的不良数据辨识方法,步骤3的所述统计分布为正态分布、均匀分布、指数分布、泊松分布中的至少一种。

优选的,前述一种基于数理统计分析耦合神经网络预测的不良数据辨识方法,步骤4所述的置信区间的概率为95%。

优选的,前述一种基于数理统计分析耦合神经网络预测的不良数据辨识方法,步骤5所述的BP神经网络为输入层、单隐含层和输出层的三层神经网络拓扑结构;隐含层和输出层的激活函数为Sigmoid函数或者双曲正切函数。

优选的,前述一种基于数理统计分析耦合神经网络预测的不良数据辨识方法,步骤6所述的预设条件是指相对误差小于10%划归至训练样本,否则划归至不良样本。

优选的,前述一种基于数理统计分析耦合神经网络预测的不良数据辨识方法,步骤7所述的检验和校正步骤如下:

1)删除不良样本,利用优化样本构建并训练BP神经网络,利用训练好的神经网络对不良样本进行测试,计算相对误差;

2)筛选出相对误差不小于10%的样本确认为不良数据;筛选出相对误差不大于5%的样本修正为非不良数据;

3)对所述步骤2)中所述筛选后的剩余样本重复执行所述步骤1)和所述步骤2)直至满足以下任一条件:

条件Ⅰ、执行所述步骤2)之后无剩余样本;

条件Ⅱ、重复执行次数不少于3次;

4)将剩余样本全部确认为不良数据。

本发明的有益效果为:

1、数理统计分析是一种传统有效的不良数据辨识方法,方法理论成熟,计算量小,处理速度快,但由于SCR烟气脱硝大数据采集及分析研究较少,目前对其数理统计分布形式尚不清晰,影响了该方法鉴别的准确性。神经网络模型具有强大的非线性拟合和泛化能力,在模式识别、回归预测、数据鉴别等方面表现出极好的效果,但神经网络理论不成熟、计算量大且预测准确性一定程度受训练样本质量的影响。通过数理统计分析可以快速筛选定位不良数据范围,然后利用剔除了异常数据的样本进行神经网络训练,减小了不良数据对神经网络建模的影响,利用神经网络预测对异常数据进行预测检验,防止了数理统计的误判,二者的相互耦合充分发挥了两种方法的优点,弥补各自的不足。

2、通过神经网络对不良样本进行循环测试以及对数理统计和神经网络预测耦合鉴别出的不良样本进行再次检验和校正,避免了不良样本的误判,提高了准确性。

附图说明

图1为本发明方法的操作流程图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步说明。以下实施例用于说明本发明,但不用来限制本发明的范围。

本实施例以某燃煤电厂SCR脱硝系统一年的正常运行数据为例,通过人为添加不良数据,使用本发明的方法对这些样本中的不良数据进行检测。

实施例1

一种基于数理统计分析耦合神经网络预测的不良数据辨识方法,如图1所示;其具体实施步骤如下:

步骤1、从SCR脱硝系统收集的准确运行原始数据样本U0共计100组,每组样本包括入口压力、入口烟气量、入口NO

式中,Z

步骤2、依次绘制步骤1所述样本集U1中的每个参数的箱线图,将符合公式(2)的数据记录为异常数据BU:

Z

式中,Z

步骤3、依次绘制剔除了步骤2所述的异常数据BU后的步骤1所述样本集U1各参数的统计分布直方图,确定参数的统计分布形式,计算样本的概率密度函数。

步骤4、根据样本分布的概率密度函数计算参数的95%置信水平所对应的置信区间,将不属于置信区间内数据添加至异常数据BU。

步骤5、取每组样本的前9个参数为神经网络输入值,最后1个参数为神经网络输出值,构建单隐含层的BP神经网络,隐含层和输出层采用Sigmoid函数。

步骤6、将异常数据集BU作为测试样本,其余样本作为训练样本TU,利用学习完成的神经网络模型对测试样本进行预测,将预测误差超过10%的样本划归至不良样本集BU,其余情况重新划归至训练样本集TU。

步骤7、剔除样本集U1中所有标记的不良样本BU,利用其余样本重新构建和训练BP神经网络,利用训练好的神经网络对不良样本进行检验和校正,具体步骤如下:

1)删除不良样本,利用优化样本构建并训练BP神经网络,利用训练好的神经网络对不良样本进行测试,计算相对误差;

2)筛选相对误差大于20%的样本,确定为不良数据;筛选相对误差小于5%的样本,修正为非不良数据;

3)对步骤2)中筛选后的剩余样本重复执行步骤1)和步骤2)直至满足以下任一条件:条件1、执行步骤2)之后无剩余样本;条件2、重复执行次数不少于3次;

4)将剩余样本全部确认为不良数据BD。

经以上步骤操作,该方法鉴别出8组不良数据,所鉴别出的样本全部为设定的不良样本,通过本方法得到的不良数据的辨识率为80%,准确率为100%。

实施例2

一种基于数理统计分析耦合神经网络预测的不良数据辨识方法,如图1所示,其具体实施步骤如下:

步骤1、从SCR脱硝系统收集的准确运行原始数据样本U0共计100组,每组样本包括入口压力、入口烟气量、入口NO

式中,Z

步骤2、依次绘制步骤1所述样本集U1中的每个参数的箱线图,将符合公式(2)的数据记录为异常数据BU:

Z

式中,Z

步骤3、依次绘制剔除了步骤2所述异常数据BU后的步骤1所述样本集U1各参数的统计分布直方图,分析参数的统计分布形式,计算样本的概率密度函数。

步骤4、根据样本分布的概率密度函数计算参数的95%置信水平所对应的置信区间,将不属于置信区间内数据添加至异常数据BU。

步骤5、取每组样本的前9个参数为神经网络输入值,最后1个参数为神经网络输出值,构建单隐含层的BP神经网络,隐含层和输出层采用双曲正切函数。

步骤6、将异常数据集BU作为测试样本,其余样本作为训练样本TU,利用学习完成的神经网络模型对测试样本进行预测,将预测误差超过15%的样本划归至不良样本集BU,其余情况重新划归至训练样本集TU。

步骤7、剔除样本集U1中所有标记的不良样本BU,利用其余样本重新构建和训练BP神经网络,利用训练好的神经网络对不良样本进行检验和校正,具体步骤如下:

1)删除不良样本,利用优化样本构建并训练BP神经网络,利用训练好的神经网络对不良样本进行测试,计算相对误差;

2)筛选相对误差大于15%的样本,确定为不良数据;筛选相对误差小于5%的样本,修正为非不良数据;

3)对步骤2)中筛选后的剩余样本重复执行步骤1)和步骤2)直至满足以下任一条件:条件1、执行步骤2)之后无剩余样本;条件2、重复执行次数不少于3次;

4)将剩余样本全部确认为不良数据BD。

经以上步骤操作,该方法鉴别出10组不良数据,其中9组数据为设定的不良样本,通过本方法得到的不良数据的辨识率为90%,准确率为90%。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号