WO2017063505A1

WO2017063505A1 - 一种服务器硬件故障检测方法及其装置和服务器

Info

Publication number: WO2017063505A1
Application number: PCT/CN2016/100618
Authority: WO
Inventors: 李存龙
Original assignee: 中兴通讯股份有限公司
Priority date: 2015-10-16
Filing date: 2016-09-28
Publication date: 2017-04-20
Also published as: CN106598790A

Abstract

一种服务器硬件故障检测方法及其装置和服务器，所述方法包括：服务器的基本输入输出系统装置检测到所述服务器进入启动阶段（S101）；所述基本输入输出系统装置开始对所述服务器在各工作阶段的硬件进行故障检测，所述工作阶段包括所述启动阶段（S102）；所述基本输入输出系统装置将检测得到的硬件故障信息进行存储（S103）。本方法通过基本输入输出系统装置检测硬件故障信息，覆盖了所述服务器运行的整个周期对所述服务器的硬件进行故障预检测，从而及时处理所述服务器在运行过程中出现的故障，提高了所述服务器运行的稳定性和可靠性。将检测得到的硬件故障信息进行存储，方便人员处理故障，并实现了对所述硬件故障信息的统一存储管理。

Description

一种服务器硬件故障检测方法及其装置和服务器

技术领域

本发明涉及计算机及通信领域，尤其涉及一种服务器硬件故障检测方法及其装置和服务器。

背景技术

在目前的中高端服务器上，服务器一般都具有部分“黑匣子”功能，用于操作系统崩溃时的故障信息记录，可以将OS(操作系统，Operating System)的各种内核异常如内核错误、重启复位、异常打印信息等记录下来，也可以通过SEL(系统事件日志，System Event Log)记录部分简单的硬件错误，再或者通过带外的方式(比如联合测试链路)在故障发生后在现场采集错误，又或者通过带内的异常触发机理被动地监控设备异常，而带内的异常触发机理需要异常条件去触发其异常记录模块才进行记录。这些方法可以一定程度上帮助维护人员确定故障产生的原因，但是这些方法仍存在如下缺陷：

1、上述的方法是通过被动地触发检测记录，缺少对服务器的主动检测，尤其是对服务器硬件故障的主动甄别监控。对于在系统正常启动并运行，且业务质量大幅度下降的情况，系统并不会触发故障信息记录，这时就会造成故障信息被遗漏，使得维护人员在维护时对故障信息的追查困难。

2、由于只有在系统崩溃或者产生异常触发时，才会对检测记录故障信息，因此，造成了系统(业务)运行过程中对硬件故障的采集能力和分析能力严重不足，从而导致系统的预警能力不足，降低了系统的稳定性和可靠性。

3、对于记录的故障信息过于简单、零散，没有准确统一的记录管理，无法做到对故障信息分析一步到位，后期需要大量的分析和筛查、交叉验证才能找到主要故障源。

4、通过带外的方式对故障信息采集，会受限于专业人员、局点环境、信息安全等，环境部署、人员协调、环境恢复等成本高昂。

因此，目前的服务器故障信息记录实现方案，只有在特定的条件下才能实现故障信息的检测记录，并且其记录的故障信息简单、零散，需要后期的大量分析。

发明内容

本发明要解决的主要技术问题是，提供一种服务器硬件故障检测方法及其装置和服务器，解决现有技术中无法实现对服务器各个工作阶段的硬件进行实时故障信息的检测和记录存储的技术问题。

为解决上述技术问题，本发明提供一种服务器硬件故障检测方法，包括：

服务器的基本输入输出系统装置检测到所述服务器进入启动阶段；

所述基本输入输出系统装置开始对所述服务器在各工作阶段进行硬件故障检测，所述工作阶段包括所述启动阶段；

所述基本输入输出系统装置将检测得到的硬件故障信息进行存储。

在本发明一实施例中，所述启动阶段包括初始化阶段，所述基本输入输出系统装置在所述初始化阶段对所述服务器进行硬件故障检测包括：

所述基本输入输出系统装置根据所述服务器提供的硬件检测机制对所述服务器的CPU、内存、芯片组和电源中的至少一个进行硬件的预检测获取当前的硬件信息，从所述硬件信息中筛选出有故障的硬件信息进行分析处理得到相应的硬件故障信息。

在本发明另一实施例中，所述启动阶段还包括设备枚举阶段，所述基本输入输出系统装置在所述设备枚举阶段对所述服务器进行硬件故障检测包括：

所述基本输入输出系统装置获取所述服务器上各硬件的状态信息和资源信息，并从中识别出现故障的硬件的故障信息。

在本发明另一实施例中，所述启动阶段为冷启动阶段或者热启动阶段。

在本发明另一实施例中，所述工作阶段还包括操作系统预引导阶段和操作系统业务运行阶段中的至少一个。

在本发明另一实施例中，所述工作阶段包括操作系统预引导阶段时，所述基本输入输出系统装置在所述操作系统预引导阶段对所述服务器进行硬件故障检测包括：

所述基本输入输出系统装置对将要引导启动的所述服务器带外的硬件设备进行预检测；

获取所述硬件设备的当前硬件信息；

从所述当前硬件信息中筛选出出现故障的硬件设备的故障信息；

所述工作阶段包括操作系统业务运行阶段时，所述基本输入输出系统装置在所述操作系统业务运行阶段对所述服务器进行硬件故障检测包括：所述基本输入输出系统装置判断所述服务器的硬件中断信号是否到来，若是，则所述基本输入输出系统装置对所述操作系统的相关硬件进行检测；获取所述硬件的故障信息。

在本发明另一实施例中，在所述基本输入输出系统装置将检测得到的故障信息进行存储之前，还包括在所述服务器串行闪存存储器上分配一个用于存储所述硬件故障信息的故障存储区。

为解决上述技术问题，本发明还提供一种基本输入输出系统装置，包括：

故障信息检测触发模块，设置为检测服务器是否进入启动阶段；

故障信息检测模块，设置为在所述故障检测触发模块检测到所述服务器进入启动阶段时，开始对所述服务器在各工作阶段进行硬件故障检测，所述工作阶段包括所述启动阶段；

故障信息存储模块，设置为所述故障信息检测模块检测得到的硬件故障信息进行存储。

在本发明另一实施例中，还包括存储设置模块，设置为在所述故障信息存储模块将所述硬件故障信息进行存储之前，在所述服务器串行闪存存储器上分配一个用于存储所述硬件故障信息的故障存储区。

为解决上述技术问题，本发明还提供一种服务器包括如上所述的基本输入输出系统装置。

本发明的有益效果是：

本发明提供的一种服务器硬件故障检测方法及其装置和服务器，由服务器的基本输入输出系统(Basic Input Output System，BIOS)装置检测到服务器进入启动阶段时，开始对该服务器的各工作阶段的硬件进行故障检测分析进而得到相应的硬件故障信息。由于利用的是服务器自身的BIOS装置，因此可以检测服务器运行的整个周期内可能出现的所有硬件故障，可提升对硬件故障信息检测的全面性和准确度，并更利于实现对服务器硬件故障信息的统一存储管理，保证了维护人员在对所述服务器进行维护时，能准确获取到硬件故障信息，得知需要故障处理的硬件的位置和故障原因，进一步地提高了服务器的稳定性和可靠性。

附图说明

图1为本发明所提供的服务器硬件故障检测方法的流程图；

图2为本发明所提供的服务器初始化阶段进行硬件故障检测的流程图；

图3为本发明设备枚举阶段进行硬件故障检测的流程图；

图4为本发明操作系统预引导阶段进行硬件故障检测的流程图；

图5为本发明操作系统业务运行阶段进行硬件故障检测的流程图；

图6为本发明提供的基本输入输出系统装置结构框图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。

实施例一：

请参考图1，图1为本发明所提供的服务器硬件故障检测方法的流程图，本实施例提供的服务器硬件故障检测方法应当理解的是通过所述基本输入输出系统装置主动对服务器的硬件进行故障检测，这里的主动指的是根据服务器预设的检测机制，在服务器启动时所述BIOS装置立即执行对所述服务器的运行硬件进行故障检测操作或者所述BIOS装置对所述服务器的各工作阶段都进行硬件故障检测操作，具体包括以下步骤：

S101，服务器的基本输入输出系统装置检测到所述服务器进入启动阶段；

本实施例中，服务器的启动阶段为冷启动阶段或者热启动阶段；所述基本输入输出系统装置检测到所述服务器进入启动阶段指的是：当所述启动阶段为冷启动阶段时，所述基本输入输出系统装置可以通过以下方式检测是否进入启动阶段但不限于以下方式：检测服务器上的电源开关键是否有按下或者检测服务器的供电电路是否与服务器电源接口接通或者通过检查电源的状态标志位，若是，则服务器已进入启动阶段，服务器已运行，执行步骤S102，否则，继续检测；

当所述启动阶段为热启动阶段时，所述基本输入输出系统装置通过检测所述服务器是否有复位启动信号输入，若是，则服务器开始进行热启动运行，执行步骤S102，否则，继续检测；这里的复位启动信号可以是由硬件触发输入，比如：通过复位按键的方式输入；也可以是通过软件实现的方式输入，比如：通过代码、工具实现定时地向服务器输入；还可以是用户主动通过命令或者操作“重新启动”按钮输入。

S102，所述基本输入输出系统装置开始对所述服务器在各工作阶段的硬件进行故障检测，所述工作阶段包括所述启动阶段；

S103，所述基本输入输出系统装置将检测得到的硬件故障信息进行存储。

在本实施例中，在步骤S103之前，还包括在所述服务器串行闪存存储器上分配一个用于存储所述硬件故障信息的故障存储区；进一步的，所述基本输入输出系统装置记录存储的故障信息内容包括：时间，发生的事件，严重程度，具体位置或故障详情，建议处理方式。

在本实施例中，执行完上述的步骤检测到硬件故障信息并进行存储后，当维护人员需要对所述服务器进行维护时，维护人员可以通过与所述存储区连接的带外控制平台或者网络用户界面直接获取所述存储的硬件故障信息，方便维护人员追踪故障发生轨迹，现场恢复、置换故障硬件(比如：直接更换某颗CPU，直接更换第几根内存条，直接替换故障总线接口卡)。在中、高端服务器通过热插拔技术(包含但不限于：CPU热插拔、内存热插拔、总线接口热插拔)完全可以保证系统运行不间断，达到早发现、早预警、早预防、早处理的目的。即使服务器在冷启动或热启动过程中挂死，服务器外设无法使用(如网口不通、屏幕未亮、键盘鼠标不响应)，仍然可以获取到有效的故障信息。

在本实施例中，运维人员通过控制平台获取到硬件故障信息，除了及时处理之外，还可以将所述硬件故障信息转储到另外的带外存储设备上。

在本实施例中，所述启动阶段包括初始化阶段，所述基本输入输出系统装置在所述初始化阶段对所述服务器的硬件进行故障检测的步骤如图2所示，其具体包括：

S201，所述基本输入输出系统装置初始化CPU、内存、芯片组和电源；

S202，所述基本输入输出系统装置检测获取CPU、内存、芯片组和电源中至少一个的当前硬件信息；

在本实施例中，所述基本输入输出系统装置是根据所述服务器提供的硬件检测机制对所述服务器的CPU、内存、芯片组和电源中的至少一个进行预检测获取当前的硬件信息，从所述硬件信息中筛选出有故障的硬件信息进行分析处理得到相应的硬件故障信息。

具体的，在本实施例中，当所述基本输入输出系统装置检测到所述服务器已进入初始化阶段时，所述BIOS装置可以利用所述BIOS装置本身或主动增加压力、或利用CPU和芯片组提供的硬件检测机制、或利用带内的集成工具(如内存测试工具、系统事件日记测试工具)等方式，主动发起对CPU、内存、芯片组和电源等服务器硬件的故障和配置进行检测，获取对应的硬件信息，然后对所获取到的硬件信息进行预分析判断、预统计、预甄别、扫描、度量硬件，并收集测试结果，并筛选出有效的故障信息(包括可能会触发系统后续异常的信息)进行详细的记录并进行存储；使得当服务器在该阶段中发生系统异常情况时，保证了所述服务器在系统异常发生之前获取并记录更多的详细硬件故障信息。在该阶段中，所述记录存储的故障信息包括但不限于：CPU错误与告警、CBO(缓存区，Caching Agent)错误与告警、QPI(快速通道互联，Quick Path Interconnect)错误与告警、IIO(集成输入/输出，Integrated I/O)端口错误与告警、HA(本地代理，Home Agent)错误与告警、IMC(整合内存控制器，Integrated Memory Controller)错误与告警、PCU(电源控制单元，Power Control Unit)错误与告警、电源和电压错误与告警、内存错误与告警(包括内存条本身错误与告警、内存通道错误与告警、内存插法错误与告警、内存电压错误与告警、内存不兼容错误与告警、配置错误与告警等)。

在本实施例中，所述启动阶段还包括设备枚举阶段，该阶段进行硬件故障检测的流程图如图3所示，具体包括如下步骤：

S301，所述基本输入输出系统装置开始设备枚举；

S302，所述基本输入输出系统装置检测获取设备的当前信息；

进一步的，所述基本输入输出系统装置获取所述服务器上各硬件的状态信息和资源信息，并从中识别出现故障的软硬件的故障信息。在该阶段中，所述故障信息包括但不限于：设备访问错误(包括内存和IO要求不合法)、第三方固件(OPTION ROM)未执行(包括空间不足、格式不对)、设备损坏被禁用。具体的，在本实施例中，当所述服务器对总线接口(Peripheral Component Interface Express，PCIE)外设下发探针任务，计算资源需求时，所述BIOS装置根据检测机制开始识别工业规范制定的第三方固件(OPTION ROM)标识符、厂商信息、设备分类信息及容量，检查硬件状态指示信息(如链接状态、带宽信息等)等，并从上述的信息中识别出有故障硬件的故障信息进行存储。

在本实施例中，所述工作阶段还包括操作系统预引导阶段和操作系统业务运行阶段中的至少一个；请参见图4、图5，分别为操作系统预引导阶段、操作系统业务运行阶段进行硬件故障检测的流程图；

如图4，所述操作系统预引导阶段进行硬件故障检测分析包括以下步骤：

S401，所述基本输入输出系统装置对将要引导启动的所述服务器带外的硬件设备进行预检测；

S402，获取所述硬件设备的当前硬件信息；

S403，从所述当前硬件信息中筛选出出现故障的硬件设备的故障信息；

在本实施例中，所述服务器带外的硬件设备包括但不限于：硬盘、服务器网口、设备引导属性；所述故障信息包括但不限于：无可启动设备、硬盘(或U盘)损坏(含MBR分区破坏)、PXE网络引导失败(含端口信息、网络ping不通)、ME(Management Engine)工作状态异常。优选的，当在该阶段中，所述基本输入输出系统装置对所述硬盘分区进行故障检测时，所述基本输入输出系统装置主动发起检测获取信号，获取硬盘(U盘)的主引导记录(MBR分区)数据，分析引导标志、结束标志和出错信息数据区，根据所述服务器提供的硬件检测机制判断硬盘(U盘)是否可以引导、损坏；通过下发自检命令判断服务器与主机之间的通信链路状态、工作模式；通过DHCP(Dynamic Host Configuration Protocol，动态主机配置协议)通讯检查网络是否连通；罗列单板启动设备，检查是否存在可启动设备。

如图5，所述操作系统业务运行阶段进行硬件故障检测分析包括以下步骤：

S501，判断所述服务器的硬件中断信号是否到来；

S502，若是，则所述基本输入输出系统装置对所述操作系统的相关硬件进行检测；

S503，获取所述硬件的故障信息；

在上述故障检测分析中，当判断到所述硬件中断信号到来时，所述基本输入输出系统装置对与所述业务运行相关的硬件进行故障检测，并对检测到的硬件故障信息进行分析、分类、统计，然后对所述故障信息进行存储。在该阶段检测的故障信息包含但不限于：CPU错误与告警、CBO错误与告警、QPI错误与告警、VT-D错误与告警、IIO端口错误与告警、内存错误与告警、PCIE错误与告警、PCU错误与告警、Ubox(Utility Box)错误与告警。优选的，在该阶段的硬件故障检测过程，所述BIOS装置开启MCA(Machine Check Architecture)功能和增强型错误记录AER(Advance Error Report)功能，打开各个组件对应的错误检测块(Machine Check Error Bank)开关，挂接故障识别分类函数以及各个组件的错误处理钩子函数。当MCE(Machine-Check Exception)异常发生时，硬件拉低错误状态引脚，产生系统管理中断(SMI)。此时所述BIOS装置获得控制权，通过硬件故障识别分类函数读取CPU和桥片自带的错误状态寄存器，获取错误检测块(Machine Check Error Bank)具体信息，然后根据芯片手册进行详细解析，将具体的硬件错误信息分离、解读出来。

实施例二：

本实施例提供了一种基本输入输出系统装置，应当理解的是该BIOS装置可以设置于任意服务器中，实现对服务器在任意工作阶段的硬件故障检测，请参见图6所示，基本输入输出系统装置60包括：

故障信息检测触发模块61，用于检测到所述服务器进入启动阶段；

故障信息检测模块62，用于开始对所述服务器在各工作阶段的硬件进行故障检测，所述工作阶段包括所述启动阶段；

故障信息存储模块63，用于所述基本输入输出系统装置将检测分析得到的硬件故障信息进行存储。

在本实施例中，在服务器的启动阶段，所述故障信息检测模块62根据所述服务器提供的硬件检测机制对所述服务器的CPU、内存、芯片组和电源中的至少一个进行预检测获取当前的硬件信息，从所述硬件信息中筛选出有故障的硬件信息进行分析处理得到相应的硬件故障信息。

在服务器的设备枚举阶段，所述故障信息检测模块62获取所述服务器上各硬件的状态信息和资源信息，并从中识别出现故障的硬件的故障信息。

在服务器的操作系统预引导阶段时，所述故障信息检测模块62对将要引导启动的所述服务器带外的硬件设备进行预检测；

获取所述硬件设备的当前硬件信息；

在服务器的操作系统业务运行阶段时，所述故障信息检测模块62对所述服务器进行硬件故障检测包括：所述基本输入输出系统装置判断所述服务器的硬件中断信号是否到来，若是，则所述基本输入输出系统装置对所述操作系统的相关硬件进行检测；获取所述硬件的故障信息。

在本实施例中，还包括存储设置模块64，用于在所述故障信息存储模块将所述故障信息进行存储之前，在所述服务器串行闪存存储器上分配一个用于存储所述硬件故障信息的故障存储区。

在本发明中，还提供了一种服务器，所述服务器包括如上所述的基本输入输出系统装置。

本发明提供的技术方案可广泛应用于计算机、网络通信设备等设备上，通过基本输入输出系统装置对所述服务器运行的整个周期中的硬件设备进行故障检测，可预防所述服务器在运行过程中出现故障，提高了所述服务器运行的稳定性和可靠性。

以上内容是结合具体的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

工业实用性

本发明适用于计算机及通信领域，用以实现对服务器各个工作阶段的硬件进行实时故障信息的检测和记录存储。

Claims

一种服务器硬件故障检测方法，包括：

服务器的基本输入输出系统装置检测到所述服务器进入启动阶段；

所述基本输入输出系统装置开始对所述服务器在各工作阶段进行硬件故障检测，所述工作阶段包括所述启动阶段；

所述基本输入输出系统装置将检测得到的硬件故障信息进行存储。
如权利要求1所述的服务器故障检测方法，其中，所述启动阶段包括初始化阶段，所述基本输入输出系统装置在所述初始化阶段对所述服务器进行硬件故障检测包括：

所述基本输入输出系统装置根据所述服务器提供的硬件检测机制对所述服务器的CPU、内存、芯片组和电源中的至少一个进行硬件的预检测获取当前的硬件信息，从所述硬件信息中筛选出有故障的硬件信息进行分析处理得到相应的硬件故障信息。
如权利要求2所述的服务器硬件故障检测方法，其中，所述启动阶段还包括设备枚举阶段，所述基本输入输出系统装置在所述设备枚举阶段对所述服务器进行硬件故障检测包括：

所述基本输入输出系统装置获取所述服务器上各硬件的状态信息和资源信息，并从中识别出现故障的硬件的故障信息。
如权利要求1-3任一项所述的服务器硬件故障检测方法，其中，所述启动阶段为冷启动阶段或者热启动阶段。
如权利要求1-3任一项所述的服务器硬件故障检测方法，其中，所述工作阶段还包括操作系统预引导阶段和操作系统业务运行阶段中的至少一个。
如权利要求5所述的服务器硬件故障检测方法，其中，所述工作阶段包括操作系统预引导阶段时，所述基本输入输出系统装置在所述操作系统预引导阶段对所述服务器进行硬件故障检测包括：

所述基本输入输出系统装置对将要引导启动的所述服务器带外的硬件设备进行预检测；

获取所述硬件设备的当前硬件信息；

从所述当前硬件信息中筛选出出现故障的硬件设备的故障信息；

所述工作阶段包括操作系统业务运行阶段时，所述基本输入输出系统装置在所述操作系统业务运行阶段对所述服务器进行硬件故障检测包括：所述基本输入输出系统装置判断所述服务器的硬件中断信号是否到来，若是，则所述基本输入输出系统装置对所述操作系统的相关硬件进行检测；获取所述硬件的故障信息。
如权利要求1-3任一项所述的服务器硬件故障检测方法，其中，在所述基本输入输出系统装置将检测得到的故障信息进行存储之前，还包括在所述服务器串行闪存存储器上分配一个用于存储所述硬件故障信息的故障存储区。
一种基本输入输出系统装置，包括：

故障信息检测触发模块，设置为检测服务器是否进入启动阶段；

故障信息检测模块，设置为在所述故障检测触发模块检测到所述服务器进入启动阶段时，开始对所述服务器在各工作阶段进行硬件故障检测，所述工作阶段包括所述启动阶段；

故障信息存储模块，设置为将所述故障信息检测模块检测得到的硬件故障信息进行存储。
如权利要求8所述的基本输入输出系统装置，其中，还包括存储设置模块，设置为在所述故障信息存储模块将所述硬件故障信息进行存储之前，在所述服务器串行闪存存储器上分配一个用于存储所述硬件故障信息的故障存储区。
一种服务器，包括如权利要求8或9所述的基本输入输出系统装置。