首页> 中国专利> 一种可扩展的服务器远程健康管理系统设计方法

一种可扩展的服务器远程健康管理系统设计方法

摘要

本发明涉及一种可扩展的服务器远程健康管理系统设计方法,其中,包括:各板卡自身的状态采集芯片对板卡状态信息进行采集,以完成服务器状态信息表的维护;远程终端设定电压、电流以及温度的阈值,查询状态信息表中的电压、电流以及温度数据,通过阈值判断服务器健康状态;将服务器的健康状态分为三个等级,终端查询设备的状态信息,当判断服务器健康状态为正常时,不做任何处理;当判断服务器健康状态为降级时,关闭部分板卡,降低设备负载,设备继续运行;当判断服务器健康状态为故障时,关闭除状态控制板的其他板卡,并进行故障定位,如果关闭其他板卡失败,说明故障定位在状态控制板,如果故障不在状态控制板,则根据设备故障判断原因逐个分析故障点。

著录项

  • 公开/公告号CN113051137A

    专利类型发明专利

  • 公开/公告日2021-06-29

    原文格式PDF

  • 申请/专利权人 北京计算机技术及应用研究所;

    申请/专利号CN202110436269.4

  • 申请日2021-04-22

  • 分类号G06F11/30(20060101);G06F11/32(20060101);

  • 代理机构11011 中国兵器工业集团公司专利中心;

  • 代理人张然

  • 地址 100854 北京市海淀区永定路51号

  • 入库时间 2023-06-19 11:39:06

说明书

技术领域

本发明设计一种服务器系列和服务器健康管理实现的方法,尤其设计可扩展的远程服务器状态监测和控制的方法。

背景技术

网络作战已经成为现代化作战的核心,因此这也带来在现代化作战中服务器的应用越来越广泛,服务器在作战中承担大量网络数据信息的传输任务,同时现代化作战对服务器性能的要求也越来越高。如何管理好现代化作战网络系统,保证网络作战系统的安全稳定运行,成为重中之重。

通过完善的服务器健康管理系统,网络管理人员可以有效的管理多台服务器。管理员能够迅速的了解网络系统运行状况并能及时定位故障,并能够提前发现问题、预防故障的发生。一个运行良好的监控系统可以最大程度的保证系统的稳定性和可用性,并最终提供给用户优质的服务。

目前,国内外服务器健康管理系统都是针对性开发,一个服务器对应一个健康管理系统,服务器进行板卡扩展后,健康管理系统需要重新开发。为支持国产化服务器小型化、多功能、易维修、板卡可插拔等特点,在一个服务器内搭载多块主板,每块主板可以完成不同的功能,搭载多块交换板。

由于服务单元搭载主板数量较多,带来了对服务单元内全部主板的健康状态监控、故障针对以及主板状态控制等需求。

发明内容

本发明的目的在于提供一种可扩展的服务器远程健康管理系统设计方法,用于解决上述现有技术的问题。

本发明一种可扩展的服务器远程健康管理系统设计方法,其中,包括:将服务器健康管理系统分为服务器部分和健康管理服务部分;健康管理服务运行于多个服务器上,每个服务器独立运行一健康管理服务;健康管理服务包括状态监测服务和板卡状态控制服务;该服务器维护一个状态信息表,状态信息表存储板卡状态信息,以进行服务器的健康管理;各板卡自身的状态采集芯片对板卡状态信息进行采集,以完成服务器状态信息表的维护;远程终端设定电压、电流以及温度的阈值,查询状态信息表中的电压、电流以及温度数据,通过阈值判断服务器健康状态;将服务器的健康状态分为三个等级:正常、降级以及故障;终端查询设备的状态信息,当判断服务器健康状态为正常时,不做任何处理;当判断服务器健康状态为降级时,关闭部分板卡,降低设备负载,设备继续运行;当判断服务器健康状态为故障时,关闭除状态控制板的其他板卡,并进行故障定位,如果关闭其他板卡失败,说明故障定位在状态控制板,如果故障不在状态控制板,则根据设备故障判断原因逐个分析故障点。

根据本发明的可扩展的服务器远程健康管理系统设计方法的一实施例,其中,状态监测服务包括对服务器内部每块板卡的电压、电流、温度状态的监测及判断;板卡状态控制服务包括对服务器内部指定板卡进行关机、开机、重启以及复位操作。

根据本发明的可扩展的服务器远程健康管理系统设计方法的一实施例,其中,服务器的各板卡都与状态控制板相连,各板卡的电压、电流、温度以及控制字均由状态控制板统一处理并下发,并能够通过状态控制板获得整个机箱的状态控制表,状态控制表内容包括全部板卡的电压、电流、温度以及某板卡当前的工作状态;通过修改自身状态控制表相应板卡的板卡状态位的信息,实现对各板卡的关机、重启、上电以及复位控制命令。

根据本发明的可扩展的服务器远程健康管理系统设计方法的一实施例,其中,在一服务器上运行状态监控服务,在另一服务器上运行状态监测服务和板卡状态控制服务。

根据本发明的可扩展的服务器远程健康管理系统设计方法的一实施例,其中,将服务器健康管理系统设计成可扩展的方式,将服务器中的板卡进行分类;将服务器健康管理系统设计成可扩展的方式,将服务器中涉及到的板卡进行分类,各板卡分为主板、交换板、电源板、外存板以及状态控制板;根据不同板卡的实际数量,在健康管理服务中进行添加和删除,以实现对健康管理系统中的板卡信息与服务器实际板卡信息同步。

根据本发明的可扩展的服务器远程健康管理系统设计方法的一实施例,其中,远程终端通过网络发送查询状态信息表命令的UDP包,经过交换板,到达指定的板卡,指定的板卡通过RS485发送查询命令到状态控制板,状态控制板接收到查询命令后,将状态信息表发送给主板,指定的主板将接收到的状态信息表打包通过网络发送给查询数据的远程终端。

根据本发明的可扩展的服务器远程健康管理系统设计方法的一实施例,其中,还包括主板加断电控制机制,包括:通过网络向主板发送上电、断电以及重启命令;状态控制板判断状态信息表待控制主板的控制命令位是否为正常,如果不正常,给远程终端发送无法控制命令;如果状态信息表待控制主板的控制命令位为正常,则修改待控制主板的状态信息表的控制命令位,下发状态信息表到自己的状态采集芯片;状态控制板查询状态采集芯片的状态信息表,将新表替换到旧表中;状态控制板查询完一遍后,将整个状态信息表下发到每个状态采集芯片;被控制主板周期性查询状态采集芯片操作,判断状态信息表中本板卡的控制命令位是否为非正常;如果为非正常,则进行相应控制指令;发送控制命令的主板在发送完控制命令后,读取状态信息表中的数据,对于如果状态信息表中相应板卡的控制位不为正常,说明控制成功,再次下发给状态采集芯片的状态信息表中将控制命令位置正常;如果读取到的状态信息表中相应板卡的控制位为正常,说明状态控制板中的总状态信息表没有更新成功,继续下发控制命令字。

根据本发明的可扩展的服务器远程健康管理系统设计方法的一实施例,其中,该服务器维护一个状态信息表,进行服务器的健康管理,状态信息表中的监控状态位代表在位或不在位,状态信息表至少包括电压、电流、温度以及控制命令,如果在主板下发状态信息表时修改了其中的某控制命令位,则代表对相应板卡进行控制操作。

根据本发明的可扩展的服务器远程健康管理系统设计方法的一实施例,其中,服务器对状态信息表的维护,通过各板卡状态采集芯片完成,状态采集芯片直接对主板、交换板、电源板的电压电流、温度以及在位状态进行监测,获取相应板卡的电压、电流、温度以及在位状态信息,主板额外下发一个控制字到状态采集芯片,同步状态信息表中的断电、重启以及上电状态,各个板卡状态采集芯片维护自身板卡的状态信息。

根据本发明的可扩展的服务器远程健康管理系统设计方法的一实施例,其中,状态控制板通过RS485依次给每个板卡发送状态信息指令,收到查询指令的状态采集芯片,给状态控制板发送自身板卡的状态信息;状态控制板收到状态信息后,将相应板卡的状态信息填入状态信息表中对应的位置,实现状态信息表的维护。

本发明设备通过局域网与远程终端相连,终端可以通过网络获取所有板卡的状态信息,并根据设备的状态信息进行故障判断,对设备主板进行远程控制,便于设备维修。

附图说明

图1为服务器健康管理系统总体设计图;

图2为服务器健康管理系统板卡枚举方法图;

图3为服务器健康管理系统板卡组成图;

图4为服务器状态信息表维护示意图;

图5为网络拓扑图;

图6为服务器健康管理系统数据流图;

图7为服务器状态信息查询流程图;

图8为服务器健康管理流程图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。

本发明一种可扩展的服务器远程健康管理系统设计方法包括:

图1为服务器健康管理系统总体设计图,如图1所示,进行服务器健康管理系统总体设计包括:

可以将服务器健康管理系统分为服务器部分和健康管理服务部分,为了保持良好的可扩展性,将服务器和健康管理服务分别设计。健康管理服务可以运行与多个服务器上,每个服务器可以独立运行健康管理服务。健康管理服务包括状态监测服务和板卡状态控制服务。状态监测服务包括对服务器内部每块板卡的电压、电流、温度状态的监测及判断。板卡状态控制服务包括对服务器内部指定板卡进行关机、开机、重启、复位操作。健康管理服务预留其他服务接口,如果增加其他需求,可以通过该接口在原健康管理服务的基础上实现扩展。健康管理服务通过运行在服务器上,来实现服务器的健康管理功能。可以根据实际场景,分别在不同服务器上运行不同服务,比如,在服务器A上只运行状态监控服务,服务器B上同时运行状态监测服务和板卡状态控制服务。实现了服务器健康管理系统的可扩展性

图2为服务器健康管理系统板卡枚举方法图,如图2所示,服务器健康管理系统板卡枚举方法包括:在服务器健康管理系统,为满足今后设计中的扩展性需求,将服务器健康管理系统设计成可扩展的方式。将服务器中目前涉及到的板卡进行分类,分为块主板、交换板、电源板、外存板以及状态控制板。根据不同板卡的实际数量,在健康管理服务中进行添加、删除操作,来实现对健康管理系统中的板卡信息与服务器实际板卡信息同步。

图3为服务器健康管理系统板卡组成图,如图3所示,服务器包括三块主板、两块交换板、两块电源板、一块外存板以及一块状态控制板。

服务器状态信息表包括:服务器通过维护一个状态信息表来进行服务器的健康管理操作,状态信息表中的监控状态位代表在位/不在位,数据1代表电压,数据2代表电流,数据3代表温度,控制命令为表示相应板卡的当前状态,如果在主板下发状态信息表时修改了其中的某控制命令位,则,代表对相应板卡进行控制操作。状态信息表内容见表1,本状态信息表内不包含具体板卡数量。

表1服务器状态信息表

图4为服务器状态信息表维护示意图,如图4所示,服务器对状态信息表的维护,通过各板卡状态采集芯片完成,状态采集芯片直接对主板、交换板、电源板的电压电流、温度、在位状态进行监测,获取相应板卡的电压、电流、温度、在位状态信息,对于主板来说,主板额外下发一个控制字到状态采集芯片,同步状态信息表中的断电、重启、上电状态,各个板卡状态采集芯片维护自身板卡的状态信息。状态控制板通过RS485依次给每个板卡发送状态信息指令,收到查询指令的状态采集芯片,给状态控制板发送自身板卡的状态信息。状态控制板收到状态信息后,将相应板卡的状态信息填入状态信息表中对应的位置,实现状态信息表的维护,服务器状态信息表维护示意图见图4。

图5为网络拓扑图,如图5所示,每块主板具有4个网卡,其中两块网卡连接交换板1,两块网卡连接交换板2,整个服务器通过交换板1和交换板2的端口实现对外的网络连接。

图6为服务器健康管理系统数据流图,如图6所示,服务器的状态信息及控制连接状态包括:

服务器的主板、交换板以及电源板都与状态控制板相连,所有板卡的电压、电流、温度、控制字、均由状态控制板统一处理并下发,任意主板可以通过状态控制板获得整个机箱的状态控制表,状态控制表内容包括全部板卡的电压、电流、温度以及某板卡当前的工作状态(关机、重启、上电、复位)。所有主板可以通过修改自身状态控制表相应板卡板卡状态位的信息,实现对主板、交换板的关机、重启、上电、复位等控制命令。

举例:通过主板一控制主板三的关机消息,发送流程为:

主板一将关机控制命令放入自身的状态控制表的主板三的控制命令字位;

主板一通过RS485向状态控制表发送新的状态信息表;

状态控制板判断读取主板一发送过来的状态信息表中的数据,将主板一本身的状态信息,主板一状态信息表中全部板卡的状态控制字,更新到状态控制板的最新状态信息表;

主板三每秒通过RS485查询状态控制板的状态信息表,判断状态信息表中的主板三控制字位,查询到关机命令,执行关机操作。其他命令同理。

图7为服务器状态信息查询流程图,如图7所示,状态信息查询流程包括:远程终端通过网络发送查询状态信息表命令的UDP包,经过交换板,到达指定主板,主板通过RS485发送查询命令到状态控制板,状态控制板接收到查询命令后,将状态信息表发送给主板,主板将接收到的状态信息表打包通过网络发送给查询数据的远程终端。

图8为服务器健康管理流程图,如图8所示,服务器共有3块主板,其中1号主板为主要主板,用来进行服务器的基本功能,2号主板为次要主板;用来记录经过服务器的数据;3号主板为备用主板,在1、2号主板损坏时,可以进行功能替换,保证服务器在部分组件受损后可以迅速重新投入使用,增加了设备的可维护性。

远程终端设定电压、电流、温度的阈值,查询状态信息表中的电压、电流、温度数据,通过阈值判断服务器健康状态。将服务器的健康状态分为三个等级:正常、降级、故障。终端查询设备的状态信息,当判断服务器健康状态为正常时,不做任何处理。当判断服务器健康状态为降级时,向1号主板发送关闭3号主板命令,降低设备负载,设备继续运行。当判断服务器健康状态为故障时,向1号主板发送关闭2、3号主板,只保证主板1工作,此时进行故障定位,如果关闭其他主板失败,说明故障定位在1号主板,如果故障不在1号主板,则根据设备故障判断原因逐个分析故障点。服务器健康管理流程图见图8。

主板加断电控制机制包括:

终端可以单独控制服务器每个主板的上电、断电、重启操作。实现方法为:

通过网络向主板发送上电、断电、重启命令;

主板判断状态信息表待控制主板的控制命令位是否为正常,如果不正常,给远程终端发送无法控制命令;

如果状态信息表待控制主板的控制命令位为正常,则修改待控制主板的状态信息表的控制命令位,下发状态信息表到自己的状态采集芯片;

状态控制板查询状态采集芯片的状态信息表,将新表替换到旧表中;

状态控制板查询完一遍后,将整个状态信息表下发到每个状态采集芯片;

被控制主板周期性查询状态采集芯片操作,判断状态信息表中本板卡的控制命令位是否为非正常;如果为非正常,则进行相应控制指令;

发送控制命令的主板在发送完控制命令后,读取状态信息表中的数据,对于如果状态信息表中相应板卡的控制位不为正常,说明控制成功,再次下发给状态采集芯片的状态信息表中将控制命令位置正常;

如果读取到的状态信息表中相应板卡的控制位为正常,说明状态控制板中的总状态信息表没有更新成功,继续下发控制命令字。

本发明设备通过局域网与远程终端相连,终端可以通过网络获取所有板卡的状态信息,并根据设备的状态信息进行故障判断,对设备主板进行远程控制,便于设备维修。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号