首页> 中国专利> 基于知识图谱的智能电厂典型设备故障诊断知识库构建方法

基于知识图谱的智能电厂典型设备故障诊断知识库构建方法

摘要

本发明公开了一种基于知识图谱的面向智能电厂典型设备的故障诊断知识库构建方法。该方法直接面向智能电厂典型设备故障诊断领域,将源于工厂和互联网的多模态故障诊断数据与专家知识结合设计构建了故障诊断知识图谱,存储在知识库中,有效提升了故障诊断的自动化水平。本发明重新设计了“双层——三要素”形式的塔形知识图谱架构,表意能力强的同时便于检索应用。本发明通过使用双向GRU模型无监督构建了知识图谱中文本的描述向量,包含文本的语义信息,可用于优化故障诊断知识图谱,提升推理计算效率,对于故障诊断知识图谱落地应用具有重要意义。

著录项

  • 公开/公告号CN112307218B

    专利类型发明专利

  • 公开/公告日2022-08-05

    原文格式PDF

  • 申请/专利权人 浙江大学;

    申请/专利号CN202011131638.0

  • 发明设计人 赵健程;朱文欣;高诗宁;赵春晖;

    申请日2020-10-21

  • 分类号G06F16/36(2019.01);G06F40/289(2020.01);G06F40/216(2020.01);G06F40/242(2020.01);G06N3/04(2006.01);G06N5/02(2006.01);G06Q50/06(2012.01);

  • 代理机构杭州求是专利事务所有限公司 33200;

  • 代理人邱启旺

  • 地址 310058 浙江省杭州市西湖区余杭塘路866号

  • 入库时间 2022-09-06 00:40:17

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-05

    授权

    发明专利权授予

说明书

技术领域

本发明属于电厂生产设备运行故障诊断领域,包含故障诊断知识图谱的设计与构建方法,以及知识库的应用方案,知识库的更新策略。

背景技术

智能电厂是在信息化与工业化深度融合的背景下提出的,旨在提升电力行业的智能化水平,实现无人巡检、自动故障诊断与处理、大数据分析与智能控制等技术提升。其中,故障诊断与处理对维持发电过程稳定进行、保障生产安全至关重要。对智能电厂关键设备的故障诊断,关键是构造故障诊断知识库,实现自动、可靠的故障诊断。通过对故障案例的收集和分析,利用知识图谱等前沿技术,有效处理自然语言,构建故障诊断知识库,可为实现智能电厂典型设备故障诊断提供基础。

知识图谱技术在2012年由Google公司率先应用于其搜索引擎中,极大提升了其搜索结果的质量。近年来,知识图谱与各行业开始进行深度融合,旨在解决行业痛点问题、降低人力成本。例如,临床数据相对受限的医疗领域也建立了相应的医学知识图谱,用于诊断常见的儿科疾病与部分危急重症,这种AI诊断模型对儿科疾病的临床平均准确率达90%,其表现可媲美低年资的主治医生。通过构建故障诊断知识库,可以实现智能电厂日常运行过程中自动、可靠、高效的故障诊断,从而形成高度智能化的决策,主动为电厂操作人员提供具体、有效的指导建议。当下,积累下来的故障诊断知识大多为非结构化数据,直接应用起来较为困难,需要重新梳理成各部分有机联系的知识图谱形式,从而对知识的存储、检索、推理、应用都具有重要意义。

近年来自然语言处理技术蓬勃发展,例如情感分析、文本摘要等有监督任务的表现都在不断提高。seq2seq等端到端的机器翻译模型也显著改进了当下的机器翻译效果。然而对于工业故障诊断文本的特征提取,常常是没有标签或者获取标签是十分昂贵的。并且,已有的故障诊断知识图谱方法通常以某种设备或具体故障术语为节点,以参数、表征、原因等几种特定的类型为边构建三元组,这种方法受到三元组自身的表意能力限制,描述具有复杂原因、复杂解决方案的能力受限。因此本发明采用了自监督学习的思想结合编码器——解码器模型来获取知识图谱中节点中的文本的特征向量,为之后需要高效计算和推理的任务提供支持。

发明内容

本发明的目的在于将机器学习和知识图谱技术应用于智能电厂典型设备故障诊断领域,通过设计针对故障诊断领域的知识图谱架构,构建智能电厂故障诊断知识库,为智能电厂故障诊断中涉及到的知识存储、检索、推理、应用、更新提供支持。

本发明的目的是通过以下技术方案来实现的:基于知识图谱的智能电厂典型设备故障诊断知识库构建方法,该方法包括以下步骤:

步骤1)收集原始数据。数据的来源包括互联网和合作电厂。合作电厂的数据质量高但数量少;互联网上数据多但质量较差。足够充足的数据来源一方面可以增大知识库的规模,另一方面也为之后的训练提供充足的训练样本。

步骤2)对多模态数据进行针对性的预处理,将非文本数据转换为文本数据。

步骤3)对文本数据进行处理,构建“双层——三要素”的知识图谱。“双层”指设备层、故障层。既便于故障诊断的落地应用,也利于使用设备检索故障。设备层基于专家提供、领域术语词典、TF-IDF算法提取出的关键词构建。故障层包括故障诊断的“三要素”:故障描述、故障诊断、处理意见。从而得到了故障诊断知识图谱;

步骤4)对故障描述文本、故障诊断文本、处理意见文本进行进一步处理,包括分句、分词、BPE处理,构建用于双向GRU网络提取文本特征的训练集;

步骤5)构建并训练基于双向GRU网络、注意力机制的编码器——解码器模型,从编码器输出的状态得到无标签文本的特征向量。冻结训练好的网络参数、并存储获得的特征向量;

步骤6)应用得到的特征向量,结合设备层与领域词典提供的关键术语,将故障现场图、过程数据生成的文本描述与原有文本数据的故障描述进行对齐。可消除已有知识库的冗余,或基于故障诊断知识图谱进行推理、检索;

其中,对于新增故障诊断知识、采用2)、3)、4)的过程进行处理后,如果其中没有出现词典未收录的关键术语,则使用5)中存储的参数得到编码结果,使用解码器结合柱搜索算法得到解码结果,解码结果和原子句进行比对,如一致则通过检验,将新知识并入原有知识图谱,实现知识图谱的更新。

进一步地,所述步骤2)具体为:

针对图片数据,对故障描述对应的故障现场图足够充足的常发故障,采用基于GAN的图像文本生成技术生成故障描述;对于样本数极少的偶发故障,人工生成故障描述文本。针对传感器收集到的包含故障时段的生产数据,在已知数据正常范围的情况下,据此确定正常数据所在的3-Sigma的阈值范围,同时检测时序数据异常点,超出这个范围的数据,都归属于异常数据。将异常数据变量和其相关变量的高预警或低预警转化为文本形式的故障描述。

进一步地,所述步骤3)具体为:

首先从文本数据中提取出故障描述、故障诊断、处理意见。对于设备层,将设备层划分为两个子层,电厂中典型设备整体的名称为顶层节点,典型设备的具体部件为底层节点,典型设备整体的名称与其相应的具体部件以“包含”为关系进行连接。其中,除了源于领域词典和专家提供的关键词外,还引入TF-IDF算法提取的关键词,并在结果中去除停用词,如下:

TF-IDF=TF*IDF#(20)

其中TF为词频,IDF为逆文档频率。语料库是指所收集到的故障描述文档的集合。取TF-IDF值排名较大靠前的词也作为设备层候选节点。

故障层以故障描述文本、故障诊断文本、处理意见文本为节点,对应的故障描述文本与故障诊断文本以“诊断”为关系进行连接;对应的故障描述文本与处理意见文本以“处理”为关系进行连接,形成故障描述层。而后将故障层中故障描述文本节点与其中涉及到的具体部件节点相连接,从而形成“两层——三要素”的塔形故障诊断知识图谱架构。

进一步地,所述步骤4)具体为:首先对文本进行分句,将文本从逗号、句号、冒号处分割成一个个子句。对每一个子句,使用结巴(jieba)分词工具进行分词。然后进行BPE处理,得到BPE处理后的子句和词典,以每一个处理后的子句作为单个训练样本。

进一步地,所述步骤5)具体为:采用编码器——解码器框架和注意力机制构建使用GRU(门控循环单元)的双向循环神经网络(Bi-direction Recurrent Neural Network)。通过每一个子句同时作为源语句和目标语句,自监督获取每一个子句的特征向量。其中GRU具体包括:

首先将每个用于编码器输入端的子句样本中的每个词采用独热编码转换为一维向量,每一个向量的长度和BPE处理得到的词典大小相同,其中只有该词对应的位置为1,其余位置为0。然后使用embedding层进行降维映射,映射矩阵大小为K*V,其中K为设定的词向量维度,V为词典大小。将映射矩阵与子句独热编码形成的矩阵相乘从而对词向量降维,得到词向量组x={x

通过上一刻的状态h

r=sigmoid(w

z=sigmoid(w

其中,x={x

接着获得当前时刻的状态与输出

其中w为需要学习的参数。h

对于编码器部分,双向循环神经网络分别在时间维度上以前向和后向处理输入序列,并将每个时间步的输出拼接作为最终的特征向量输出。

其中x

对于解码器部分,应用注意力机制,每一个时刻,根据由公式(29)计算出的第t个词的上下文向量c

其中权重a

将z

p

其中avg为求平均函数,cross_entropy为交叉熵函数。w

进一步地,所述步骤6)具体为:使用步骤5)中训练得到的编码器,对故障现场图、过程数据生成的文本描述进行编码,得到特征向量,与已有的故障描述文本的特征向量计算余弦相似度,如下:

其中,A、B分别表示新计算的和已有的故障描述文本的特征向量,两向量维度相同。n表示A向量和B向量的维度。

将相似度最高的一组进行对齐。通过将已有的故障描述文本的特征向量两两计算相似度,可以对相似度高的故障描述节点进行合并,消除冗余,从而获得智能电厂典型设备故障诊断知识库,用于后续应用。

进一步地,还包括构建用于工业落地应用的GUI界面步骤,所述GUI功能包括磨煤机故障诊断、查询历史、近期检修情况等。

进一步地,磨煤机故障诊断可通过故障描述或传感器数据进行故障诊断,返回故障诊断结果、检修建议、检修故障图,具体为:使用编码器得到特征向量后,知识图谱中进行相似度比较,返回相似度最高的故障描述文本对应的故障诊断文本、处理意见文本和故障图。

进一步地,对于新增的故障诊断知识,对其文本进行编码获取特征向量后获取特征向量,采用柱搜索算法进行解码。在解码的过程中,不断通过p

本发明设计并构建了针对于电厂典型设备故障诊断这一应用场景的知识图谱形式的知识库,将非结构化的多模态数据统一为结构化的知识图谱形式。并且使用双向GRU网络对知识图谱中节点中的文本描述进行编码,为基于知识图谱的高性能推理、应用任务提供基础。本发明对于提升智能电厂典型设备故障诊断具有重要意义。

附图说明

图1:本发明流程示意图;

图2:多模态数据示意图;

图3:磨煤机D磨碗差压异常示例图;其中a、b为短周期示意图,其中b带预警标记,c为长周期示意图;

图4:磨煤机的短周期风粉混合物压力(a)、一次风压力(b)、磨煤机电流图(c)和长周期风粉混合物压力(d)、一次风压力(e)、磨煤机电流图(f);

图5:“双层——三要素”知识图谱架构图;

图6:基于双向RNN的编码器——解码器结构图;

图7:GRU单元结构图;

图8:故障原因树示意图;

图9:GUI功能示意图,其中,a为主界面、b为磨煤机故障诊断,c为磨煤机故障查询历史;d为磨煤机近期检修情况。

具体实施方式

下面结合附图和具体实例,对本发明作进一步详细说明。

本发明收集来自互联网和浙江省某电厂提供的发电过程故障诊断描述案例,包含文本、图像、数值形式的传感器数据等多模态数据。通过将非结构化数据以特定的结构组织成结构化的知识图谱形式的知识库,提升故障的自动化诊断能力。

本发明的基于知识图谱的智能电厂典型设备故障诊断知识库构建包括以下步骤:

步骤1)收集原始数据。数据的来源包括互联网和合作电厂。合作电厂提供的故障案例,质量较高,为word或pdf形式的文件,本身为半结构化形式,包含故障描述、故障诊断、处理意见、配套的数据、现场图等,可以直接进行提取。互联网上抓取的故障描述用于进一步扩增知识库。足够充足的数据来源一方面可以增大知识库的规模,另一方面也为之后的训练提供充足的训练样本。

步骤2)对多模态数据,如图2所示,进行针对性的预处理,将非文本数据转换为文本数据,对图片形式的数据,如果同一故障种类下对应的图片样本数量较多,则训练基于GAN的图像文本生成技术生成故障描述;对于样本数极少的偶发故障,人工生成故障描述文本。

在知识图谱的构建过程中,针对传感器收集到的包含故障时段的生产数据,在已知每一个数据变量正常范围的情况下,据此确定每一个正常数据变量所在的3-Sigma的阈值范围,同时检测时序数据异常点,超出这个范围的数据变量,都归属于异常数据变量。某一异常数据变量与其他变量两两求相关系数,相关系数最高的几个变量认为其为该异常数据变量的相关变量。将异常数据变量和其相关变量的高预警或低预警转化为文本形式的故障描述。

3-Sigma原则定义如下:假设一组检测数据只含有随机误差,对原始数据进行计算处理得到标准差,然后按一定的概率确定一个区间,认为误差超过这个区间的就属于异常值。使用3-Sigma的前提是数据服从正态分布,满足这个条件之后,在3-Sigma范围(μ–3σ,μ+3σ)内99.73%的为正常数据,其中σ代表标准差,μ代表均值,x=μ为图形的对称轴。

例如,对于一例“磨煤机D磨碗差压这一变量异常”的故障,如附图3所示,使用正常期间的数据计算故障测点和其他测点相关系数,最相关的为“磨煤机D出口选择后的风粉混合物压力”、“磨煤机D一次风压力”和“#6D磨煤机电流”三个变量,如下表所示。

表1与故障点的相关系数表

如附图4所示,磨煤机D磨碗差压高预警曲线图,磨煤机D出口选择后的风粉混合物压力曲线图,磨煤机D一次风压力曲线图,#6D磨煤机电流曲线图及其相应的预警图如附图4所示。使用3-Sigma原则,对于本测试,取前30000min为正常时间,这个时间段内的数据没有发生大幅波动。则μ=2.519,σ=0.816,因此磨煤机D磨碗差压阈值的上下限分别为4.966和0.0720,发现当前数据超上限,如附图中标识的点区域所示。同样对于另外三个变量进行检验,发现并未超限。

则对于该故障,由数据生成的故障描述则为:“磨煤机D磨碗差压高预警,磨煤机D出口选择后的风粉混合物压力正常,磨煤机D一次风压力正常,磨煤机电流正常”。

步骤3)对文本数据进行处理,如附图5所示,构建“双层——三要素”的知识图谱。如附图5所示,“双层”指设备层、故障层。故障层包括故障诊断的“三要素”:故障描述、故障诊断、处理意见。从而得到了故障诊断知识图谱。

对于互联网渠道收集到的包含故障诊断描述的文本,基于因果关系的关联词进行初步定位,人工在定位区提炼故障描述、故障诊断、处理意见;对于工厂提供的故障诊断文本,本身具有一定结构,提取出故障描述、故障诊断、处理意见的部分即可。

根据三元组理论,将两层分别表示为G=(E,R,S)的形式,其中E表示知识图谱中的节点、R表示知识图谱的关系、S表示知识图谱中的三元组。

设备层划分为两个子层,电厂中典型设备整体的名称为顶层节点,典型设备的具体部件为底层节点,典型设备整体的名称与其相应的具体部件以“包含”为关系进行连接。例如,典型设备“磨煤机”与其具体部件“磨碗”之间采用“包含”为关系进行连接。除了源于领域词典和专家提供外,为了防止某些不频繁术语被遗漏,引入TF-IDF算法提取关键词,并在结果中去除停用词,如下:

TF-IDF=TF*IDF (37)

其中TF为词频,IDF为逆文档频率。语料库是指所收集到的故障描述文档的集合。取TF-IDF排名靠前的词也作为设备层候选节点。

故障层以故障描述文本、故障诊断文本、处理意见文本为节点,对应的故障描述文本与故障诊断文本以“诊断”为关系进行连接;对应的故障描述文本与处理意见文本以“处理”为关系进行连接,形成故障描述层。而后将故障层中故障描述文本节点与其中涉及到的具体部件节点相连接,从而形成“两层——三要素”的塔形故障诊断知识图谱架构。使用Neo4j数据库存储知识图谱。

步骤4)对故障描述文本、故障诊断文本、处理意见文本进行进一步处理,构建用于双向GRU网络提取文本特征的训练集。首先对文本进行分句,将文本从逗号、句号、冒号处分割,形成子句。对每一个子句,使用结巴(jieba)分词工具进行分词。然后进行BPE处理,得到BPE处理后的子句和词典,以每一个处理后的子句作为单个训练样本。

步骤5)构建使用GRU(门控循环单元)的双向循环神经网络(Bi-directionRecurrent Neural Network),如附图6,附图7所示,采用编码器——解码器框架和注意力机制。通过每一个子句同时作为源语句和目标语句,以自监督的方式获取每一个子句的特征向量。其中GRU具体包括:

首先将每个用于编码器输入端的子句样本中的每个词采用独热编码转换为一维向量,每一个向量的长度和BPE处理得到的词典大小相同,其中只有该词对应的位置为1,其余位置为0。然后使用embedding层进行降维映射,映射矩阵大小为K*V,其中K为人为设定的词向量维度,V为词典大小。将映射矩阵与子句独热编码形成的矩阵相乘从而对词向量降维,得到向量x={x

通过上一刻的节点状态h

r=sigmoid(w

z=sigmoid(w

其中,x={x

接着获得当前时刻的状态与输出

其中w为可学习的参数。h

对于编码器部分,双向循环神经网络分别在时间维度上以前向和后向处理输入序列,并将每个时间步的输出拼接进行输出。

其中x

对于解码器部分,应用注意力机制,每一个时刻,根据第t个词的上下文向量c

其中权重a

将z

p

其中avg为求平均函数,cross

步骤6)对于知识图谱中的故障描述节点,使用之前存储的特征向量,使用余弦相似度进行比对,将相似度高,且关键术语基本一致的故障描述节点进行合并,消除已有知识库的冗余。

在推理检索的过程中,如果输入是文本形式的故障描述,使用步骤5)中训练好的编码器对输入文本进行编码,编码中既包含关键词的信息,也包含汉语语序信息,就可以使用余弦相似度在知识图谱中检索最相似的文本描述,得到其故障诊断、处理意见、故障现场图。并将得到的故障诊断再次作为故障描述进行检索,直到检索不出高相似度结果为止,如附图8所示,将多次检索到的结果以树的形式输出,实现多层深度追因。通过关联的设备层将涉及到的关键设备部件以标签的形式返回,便于使用者进行梳理总结。

如果输入的是一段数据,使用步骤2)中由3-Sigma原则处理正常期间的数据生成的阈值进行检测,从而转换成故障描述文本。

作为优选方案,还可以设计用于工业落地应用的GUI界面。如附图9所示,功能包括磨煤机故障诊断、查询历史、近期检修情况。可通过故障描述或传感器数据进行故障诊断,返回故障诊断结果、检修建议、检修故障图。

作为另一优选方案,对于新增故障诊断知识、采用步骤2)、3)、4)的过程进行处理后,如果其中没有出现词典未收录的关键术语,则使用步骤5)中存储的参数得到编码结果,使用解码器结合柱搜索算法得到解码结果,在解码的过程中,不断通过p

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号