首页> 中文期刊> 《计算机工程与科学》 >自治故障管理系统推理规则的智能学习技术

自治故障管理系统推理规则的智能学习技术

         

摘要

随着高性能计算机系统规模急剧增加,系统整体的固有可靠性逐步降低,产生了“可靠性墙”问题。为了应对这一挑战,天河高性能计算机系统设计了自治故障管理系统,通过该系统实时监控、分析、管理全系统的报警、故障和错误。自治故障管理系统所收集的故障消息垂直涵盖系统的各个逻辑层次,水平覆盖系统的全部功能模块,因此故障消息之间存在逻辑上的因果关系,即一个故障源会导致后续一系列的故障事件。提出了一种针对于故障信息的推理规则学习算法EMRL,把故障信息的推理规则建模为一个概率模型,通过该模型自动从故障信息中挖掘故障推理规则,并且根据挖掘结果自动生成最小的故障推理图。采用天河系统的部分运行数据,验证了EMRL算法的有效性,结果表明EMRL能有效挖掘故障信息的推理关系。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号