首页> 中国专利> 基于故障树分析的系统故障定位方法及装置

基于故障树分析的系统故障定位方法及装置

摘要

本发明公开了一种基于故障树分析的系统故障定位方法,该方法包括步骤:通过故障模式影响分析形成故障描述;将形成的故障描述与该系统的故障历史数据库结合形成故障模式库;在故障模式库的基础上进行故障树分析,得到所有可能导致故障事件的中间事件和底事件;将故障树转换成故障定位树,通过故障定位树分析确定系统故障。本发明还公开了一种系统故障定位装置。采用本发明的系统故障定位方法以及系统,能够快速、准确地将系统级故障定位到现场可更换单元,从而提高通讯设备的可靠性和可用性。

著录项

  • 公开/公告号CN1553328A

    专利类型发明专利

  • 公开/公告日2004-12-08

    原文格式PDF

  • 申请/专利权人 华为技术有限公司;

    申请/专利号CN03137544.8

  • 发明设计人 张波;

    申请日2003-06-08

  • 分类号G06F11/00;

  • 代理机构

  • 代理人

  • 地址 518129 广东省深圳市龙岗区坂田华为总部办公楼

  • 入库时间 2023-12-17 15:39:00

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-08-03

    未缴年费专利权终止 IPC(主分类):G06F11/00 授权公告日:20070214 终止日期:20150608 申请日:20030608

    专利权的终止

  • 2008-11-19

    专利申请权、专利权的转移(专利权的转移) 变更前: 变更后: 登记生效日:20081010 申请日:20030608

    专利申请权、专利权的转移(专利权的转移)

  • 2007-02-14

    授权

    授权

  • 2005-09-28

    实质审查的生效

    实质审查的生效

  • 2004-12-08

    公开

    公开

说明书

技术领域

本发明涉及系统故障的定位技术,特别是基于故障树分析的系统故障定位方法及装置。

背景技术

对于通讯电子设备而言,设备故障是客观存在,随机发生的,导致设备故障的原因不仅包括器件的硬件失效,也包括设备的人为操作错误。但由多个组件构成的复杂系统如果发生故障时,维护人员往往一筹莫展,无法快速准确地找到导致系统故障的具体原因,导致维修时间和维修费用过长,而这对于通讯设备这种高可用系统而言,过长的维修时间是不允许的。传统的故障定位方法主要依赖于人为的经验,但这种方法依赖于维修人员经验的长时间积累和设备的历史故障信息,在实践中发现,这种依赖于经验的方法只能解决常见问题,对于复杂系统或新型设备,依赖经验的方法无法有效的解决问题。在设备使用过程中,如何快速准确地将系统故障定位到现场可更换单元(组件),从而提高故障定位的准确性和提高系统可靠性,人们一直为之困扰。

公开号为“CN 1375703A”的中国专利公开了一种发明名称为“电气故障诊断的系统方法”,该方法包括以下步骤:

1、构造功能结构层次图,再基于此图,依据故障现象及提示或经验进行判断,将故障的范围缩小;

2、在缩小后的范围内进行原理或工作过程分析,提出可能的故障点;

3、对故障点的可能性进行大小分析,指出大小并顺序列出;

4、一一进行技术检测,便可查出故障点的所在;

5、按常规排除故障。

该发明通过功能结构层次法缩小故障范围,在尽可能小的范围内可充分地发挥分析法的作用,然后通过概率法使得所分析的结果更明确地成为技术法待检测的目标,再用技术法检测出故障点,最后排除故障。

该发明在实现过程中构造功能结构层次图,然后根据判断将系统故障定位到子功能,该判断是基于故障现象、故障提示、经验和替换。这种判断更多是基于经验和常规的模块替换,而不是基于理论上的分析,无法保证定位的准确性;同时,对于高可靠的电信设备,这种基于经验的替换将导致系统业务中断,而这种业务中断是电信设备应尽量避免的。

专利号为“WO 200073903”公开了名称为“在技术系统中确定故障树的方法和过程”,该方法包括以下几个步骤:

1、通过故障模式影响分析(FMEA)来形成故障描述,

2、通过添加系统可能的故障之间逻辑关系及发生概率的信息,从而来扩展故障描述。

3、用故障树来表述系统故障描述和故障原因之间的逻辑关系。故障树的逻辑关系如下:从故障事件(顶事件)出发,所有能导向故障事件的可能性故障(中间事件)在递升的故障描述层次结构中被确定,直到所有故障的元素故障(底事件)被确定,这些元素故障本身不能由更进一步的故障所造成为止。

该发明有如下几个缺点:

1、在确定故障树时主要参考了FMEA的结果,在步骤2中提出扩展故障描述,但如何进行扩展,并没有给出说明(如果在说明书中有相应的描述也可)。

2、在确定系统故障的原因时,只查找系统本身的故障原因,而没有考虑人为配置错误的原因。

3、该发明只分析到故障树,即描述了故障原因和故障结果之间的关系,但故障树的模型并不能直接用来进行故障定位,还需要将其转换成故障定位树。

4、该发明基于故障树模型来分析,故障树模型存在原因查找不全的固有缺陷,如何来弥补这种缺陷,完善导致系统故障的可能故障原因。该发明并没有提及这一点。

发明内容

本发明的目的在于提供一种基于故障树分析的系统故障定位方法,以便在系统维护过程中能将系统故障快速准确地定位到现场可更换单元,从而缩短维修时间。

本发明的另一目的在于提供一种系统故障定位装置。

本发明的方法包括步骤:

A、通过故障模式影响分析(FMEA)形成故障描述;

B、将步骤A形成的故障描述与该系统的故障历史数据库结合形成故障模式库,该故障模式库中至少包括故障表现和故障原因;C、在故障模式库的基础上进行故障树分析,补充导致系统故障的多点故障原因;

D、将故障树转换成故障定位树,通过该故障定位树分析定位系统故障。

本发明的系统故障定位装置包括:用于数据处理的处理器,存储程序和数据的存储器,其结构特点在于还包括:

故障诊断流程数据库:该数据库中包含由导致故障事件的中间事件和底事件按一定逻辑层次形成的故障定位树组成故障定位树集;

命令行接口:通过命令与被诊断对象进行交互;

用户接口模块:用于系统故障诊断结果输出和/或进行用户控制台命令的解析;

故障诊断内核模块:在处理器控制下,用于调用故障诊断流程数据库,使故障诊断流程按照故障定位树的逻辑关系进行,并通过命令行接口和被诊断对象进行信息的交互,同时接收上报的测试结果并加以处理,诊断结果通过用户接口模块输出。

采用本发明的系统故障定位方法以及装置,能够快速、准确地将系统级故障定位到现场可更换单元,从而提高通讯设备的可靠性和可用性。

附图说明

图1为本发明的系统故障定位装置结构示意图;

图2为本发明的故障诊断模块的结构示意图;

图3为本发明的流程图;

图4为本发明实施例的故障树示意图;

图5为图4所示的故障树转换成的故障定位树示意图。

具体实施方式

本发明中的故障模式影响分析(FMEA)、故障树分析(FTA)和故障定位树的定义:

故障模式影响分析(简称FMEA):是指在产品设计过程中,通过对产品各组成单元潜在的各种故障模式及其对产品功能的影响进行分析,并把每一个潜在的故障模式按它的严酷度予以分类,提出可以采取的预防改进措施,以提高产品可靠性,同时对故障的危害性进行分析。

FMEA是一种单模式分析法,它只针对单点故障进行分析,而不考虑多点同时故障的情况。当用布尔表达式来表示时,它的逻辑关系式中只包含“或”逻辑,而不包括“与”逻辑,它从单元模块入手,不会有单点故障的分析遗漏。

故障树分析(简称FTA):故障树分析是指在产品设计过程中,通过对可能造成产品故障的各种因素(包括硬件、软件、环境、人为因素等)进行分析,画出逻辑框图(即故障树),从而确定产品故障原因的各种可能组合方式的一种可靠性分析技术。是用于分析大型复杂系统可靠性、安全性分析以及故障诊断的一个有力工具

FTA中不仅包括单点故障,还包括多点同时故障的情况,当用布尔表达式来表示时,它的逻辑关系式中不仅包括“或”门,还包括“与”门。它对导致系统故障的原因查找更加全面。

单点故障:如果A和B两个条件中任意一个成立,则F必然成立。则称A和B为单点故障。

多点故障:如果A和B两个条件中任意一个成立,F都不会发生;只有当A和B两个条件均成立时,F才会发生,则称A和B为多点故障。

故障定位树:故障定位树通过一系列的判断过程实现故障定位,模拟人工故障判断的过程。它是一个二叉树的模型,由决定框(Decision Box)和处理框(Process Box)组成。决定框:表示故障定位树中的判断过程。用菱形框表示。处理框:表示故障定位树的判断结果。用长方形来表示。当故障诊断流程执行到处理框时,表示该故障定位过程的结束。故障描述处理框:包含FTA中底事件的处理框。当定位过程执行到故障描述处理框时,表示该底事件发生,故障原因定位到可更换单元。提示信息处理框:故障定位的一个输出结果。表示该故障树所对应的底事件未发生,其内容可以是“正常”或“提示信息”。一个故障定位树中至少有一个提示信息处理框。当诊断过程无法定位到故障原因时,总是定位到提示信息处理框。故障描述处理框和提示信息处理框均为故障定位树可能的定位结果。

决定框包含一个“测试动作”,该“测试动作”返回一个YES/NO判断结果;处理框表示了最后的诊断结果或故障解决方案。故障树中的中间事件或底事件可以作为处理框的内容,针对该中间事件或底事件的测试方法可以看成决定框的内容。

参考图1和图2,故障诊断装置包括计算机和设置在该计算机上的故障诊断模块,故障诊断模块包括:内核模块、故障诊断流程数据库、命令行接口和用户接口模块。

图1显示了一台计算机用它来实施进一步描述的方法。计算机具有一个处理器,它通过总线和存储器相连接,同时还通过总线连接输入输出接口。

存储器储存了计算机程序和故障诊断模块。输入输出接口连接键盘、外部存储器和显示器,故障定位树、定位结果和解决方案通过显示器显示出来。通讯接口(可以是计算机的串口或网口)通过网线或串口线连接被测试对象,软件的命令行接口模块通过通讯接口和被测对象进行测试命令的下发和测试结果的返回。

故障诊断流程数据库:其内容为故障定位树集,也即故障诊断流程。可以通过用户控制台进行修改、补充。

命令行接口:和被诊断对象通过命令行进行交互,下发测试命令,被诊断对象进行自测试后,上报测试结果。

用户接口模块:实现诊断结果输出以及进行用户控制台命令的解析。通过它可以输入诊断命令以及修改故障诊断流程数据库。

故障诊断内核模块:整个故障诊断系统的核心,由计算机处理器运行它,对故障诊断流程数据库进行调用,使诊断流程按照故障定位树的逻辑关系进行,同时故障诊断软件内核通过命令行接口和被诊断对象进行信息的交互,下发测试命令,同时接收上报的测试结果并加以处理,诊断结果通过用户接口模块输出,同时用户可以通过用户控制台来输入诊断命令。

参阅图3,系统故障定位方法包括如下步骤:

步骤1:通过故障模式影响分析(FMEA)形成故障描述。

故障模式影响分析主要包括:(1)确定系统部件和系统结构,以反映系统功能的分级顺序,分级结构能详细到最小可更换单元。(2)确定系统的严酷程度。(3)确定各单元部件的故障模式、故障原因、该故障对系统影响以及检测方法。

通过系统的FMEA分析,得到该系统的FMEA分析数据库,该数据库中包括各部件的相应故障模式、该故障对系统的影响以及检测方法。

步骤2:将步骤1形成的故障描述与该系统的故障历史数据库结合形成故障模式库。

通过类似产品实际使用过程中收集整理而得的相关产品故障历史数据库,结合待分析产品的FMEA分析结果,就可得到该产品的产品故障模式库。在产品故障模式库中包括了产品的系统故障表现,故障原因。

在系统的FMEA分析数据库中,其内容包括了各部件的相应故障模式、该故障对系统的影响以及检测方法。在相关产品故障历史数据库中,其内容包括了系统的故障表现(即故障对系统的影响)、定位过程(检测方法)、定位结果(各部件的故障模式)。FMEA分析数据库和产品故障历史数据库中的内容是一致的,通过FMEA的理论分析和故障历史数据库,能完善故障原因。

步骤3:在故障模式库的基础上进行故障树分析。

基于一类系统故障可以有一棵故障树,在故障树中有故障的因果关系,形成故障树集。故障树分析基本上又分成如下几个步骤:

1、确定顶事件集。顶事件来源于产品故障模式库中的系统故障表现。

2、构造故障树。确定各故障发生的概率。

顶事件集确定后,需要对每个顶事件构造相应的故障树:对顶事件集的每一个顶事件进行分析,找出导致每个顶事件的原因,即对应该顶事件的中间事件,在确定第一层中间事件后,然后再查找导致第一层中间事件发生的原因,即第二层中间事件,通过这样层层查找,直到将系统级故障的原因定位到单板/最小模块,也即对应该顶事件的底事件。

故障树的构造也是基于产品故障模式库,故障模式库中导致系统故障的原因包括硬件故障、软件BUG、操作错误(硬件操作错误和软件配置错误)。由于软件BUG属于设计过程中引入的错误,当修改后就不再复现,对于后期的故障诊断并没有借鉴意义。而硬件故障和操作错误并非设计中引入的错误,在使用过程中总是存在硬件失效和人为操作错误的可能。因此,在构造故障树的分析过程中,仅考虑硬件故障和操作错误两种原因,而不考虑软件BUG。

步骤4:将故障树转换成故障定位树,通过该故障定位树分析定位系统故障。

故障定位树为二叉树的模型,该故障定位树的逻辑关系为:从故障事件出发,通过对中间事件或底事件的测试动作、测试结果分析,最终得到定位结果和解决方案的逻辑层次结构。

将故障树按下述步骤转换为相应的故障定位树:

(1)按照底事件出现的概率、定位的难易程度来排列底事件。将发生概率较大的底事件、容易定位的底事件放在前面,将发生概率较小、不方便定位或无法定位的底事件放在后面。

(2)将中间事件/底事件以及相应的检测手段写在决定框(菱形框)中。检测手段用括号表示,当检测手段无法由软件自动进行时,需要人工确认时,需要在检测手段的开头加上“人工确认:”,以作为提示诊断人员来进行确认。

(3)故障描述处理框中内容为诊断结果以及解决方案。提示信息处理框中为相应提示信息。解决方案也需要用括号表示,同时开头加上“解决方案”加以提示,如图5所示。

(4)故障定位树为二叉树的模型,各中间判断动作的输出均应包括“是”和“否”两种结果,否则视为不完整的动作节点。对于不完整的动作节点,将其补充完整。其加入的处理框为提示信息处理框,其内容可以是“正常”,对于无法准确判断的结果输出,其内容可以是“提示信息”。

当故障定位树中存在需要“人工确认”的检测手段时,故障诊断系统无法直接自动诊断并给出诊断结果,需要诊断人员进行人为测试并加以确认。从而避免了由于部分测试项无法自动测试而导致诊断软件运行失效的情况。

当故障需要定位时,从顶事件出发,经过不同的决定框(检测手段),最终得到了处理框(定位结果和解决方案),例如图5所示。

故障定位树集的分析完成,即得到所需要的故障诊断流程。故障定位树集可以在使用过程中进行修改、补充,从而使之完善。

参阅图4和图5的诊断流程分析示例:

在通讯系统中,存在“E1物理端口DOWN”的故障,通过FMEA分析以及相关产品的故障历史数据库,得到如图4的故障树,从故障树中可以看出共6个可能的底事件:E1接口时钟类型设置错误、E1电缆类型和对接双方E1接口阻抗不一致、E1电缆故障、E1端口被人为HUTDOWN、本设备的E1接口板故障和对端设备的E1接口板的故障。

将图4所示的故障树转换成故障定位树,如图5,故障定位树中包括决定框和处理框,决定框中包括事件名称和检测手段,不能自动判断的需要加提示“人工确认”。处理框中包括了故障原因描述和解决方案,当无法判断故障原因时,需要提出提示信息。

由于在分析过程中存在分析不全面的情况,可能的故障原因遗漏在一定程度上是存在的,分析的全面性依赖于分析人员的能力。为满足这种要求,该故障诊断模型和故障诊断系统是开放式的,便于添加和修改的。诊断人员如果对故障定位树中所有可能的故障原因进行测试,仍未找到故障原因,而且系统故障表现仍然存在,则诊断人员需要独立进行诊断,然后将诊断出的故障原因添加到故障定位树(软件的故障诊断流程数据库)中,这样的话,故障定位树将越来越完善。在使用过程中逐渐完善故障定位树

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号