WO2015196365A1

WO2015196365A1 - 一种故障处理方法、相关装置及计算机

Info

Publication number: WO2015196365A1
Application number: PCT/CN2014/080618
Authority: WO
Inventors: 宋刚
Original assignee: 华为技术有限公司
Priority date: 2014-06-24
Filing date: 2014-06-24
Publication date: 2015-12-30
Also published as: EP3121726A4; US20210182136A1; BR112016022329A2; CN105659215A; CN105659215B; JP6333410B2; US20190332453A1; KR20160128404A; ES2667322T3; CA2942045C; AU2014399227A1; ZA201606180B; US10353763B2; US11360842B2; CN107357671A; AU2014399227B2; SG11201607545PA; EP3355197A1; BR112016022329B1; EP3355197B1

Abstract

实施例提供了一种故障处理方法、相关装置及计算机，计算机中的基板管理控制器（12）在确定所述计算机死机时，能够向计算机中的处理器（11）发送读请求消息，所述读请求消息用于请求读取所述处理器（11）记录的第一错误数据，并接收所述处理器（11）返回的读响应消息，根据所述读响应消息，获得所述处理器（11）记录的所述第一错误数据。该实施例无需利用操作系统，通过基板管理控制器（12）就实现了计算机死机后计算机中的错误数据的获取，解决了现有技术中计算机出现严重的不可纠正错误导致系统死机后无法获取计算机中的错误数据的问题。

Description

一种故障处理方法、相关装置及计算机技术领域

本发明实施例涉及计算机技术，特别涉及一种故障处理方法、相关装置及计算机。背景技术

随着信息化技术的大规模发展，计算机普遍应用于各个领域。计算机的故障通常可包括软件故障、硬件故障、操作（配置）故障和其他故障。由于硬件故障具有复现难、主要靠人工经验进行判断、发生错误时问题定位难、需要多次插拔 /更换等特点，因此最难以处理的一般是硬件故障，例如内存、处理器、输入输出（10 )设备等产生的故障。

通常情况下，硬件故障将导致计算机产生不可纠正错误（Uncorrectable error ), 不可纠正错误不仅可能导致计算机业务的中断，降低计算机可运行时间，甚至可能导致宕机事件。现有技术中，对计算机故障进行处理主要通过以下方法：当系统中出现不可纠正错误时，处理器对错误数据进行记录并通知操作系统（ Operating System, OS ); OS在收到通知后抓取处理器记录的错误数据并打印出来，以供用户对故障进行分析、定位和恢复。

现有技术中需要基于 OS实现错误数据的抓取。然而，一旦计算机中出现严重的不可纠正错误导致计算机死机（在本发明中，计算机死机是指计算机出现黑屏、计算机的鼠标或键盘等输入设备无法输入并且计算机的处理器无法运行计算机指令）， OS将不能继续工作，无法抓取计算机中的错误数据，导致难以对故障进行分析、处理和恢复。发明内容

本发明实施例提出了一种故障处理方法、相关装置及计算机，能够在计算机中出现严重的不可纠正错误导致计算机死机后，获取计算机中的错误数据。

第一方面，本发明实施例提出了一种计算机，包括处理器和基板管理控制器，所述基板管理控制器用于在确定所述计算机死机时，向所述处理器发送读请求消息，所述读请求消息用于请求读取所述处理器记录的第一错误数据；

所述处理器用于接收所述读请求消息，并向所述基板管理控制器发送读响应消息；

所述基板管理控制器用于接收所述处理器返回的所述读响应消息，并根据所述读响应消息，获得所述处理器记录的所述第一错误数据。

结合第一方面，在第一种可能的实现方式中，所述处理器还用于获取所述第一错误数据，并记录所述第一错误数据；

则所述基板管理控制器用于确定所述计算机死机具体为：所述基板管理控制器用于接收所述处理器发送的严重故障事件指示，所述严重故障事件指示是所述处理器在获取到所述第一错误数据并且所述第一错误数据属于严重的不可纠正错误类型时发送的；如果从接收到所述严重故障事件指示开始，在预设等待时间内，未接收到所述处理器发送的至少部分所述第一错误数据，则所述基板管理控制器用于确定所述计算机死机。

结合第一方面或第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述基板管理控制器用于根据所述读响应消息，获得所述处理器记录的所述第一错误数据具体为：当所述读响应消息中携带所述第一错误数据时，所述基板管理器用于从所述读响应消息中获得所述处理器记录的所述第一错误数据。

结合第一方面或第一方面的第一种可能的实现方式，在第三种可能的实现方式中，所述基板管理控制器用于根据所述读响应消息，获得所述处理器记录的所述第一错误数据具体为：当所述读响应消息中携带读失败指示时，所述基板管理控制器用于指示所述计算机的热重启模块或者用户对所述计算机进行热重启；其中，所述读失败指示用于指示从所述处理器中读取所述第一错误数据失败，以使得所述处理器在所述计算机热重启时，执行所述计算机的基本输入输出系统的故障收集指令，根据所述基本输入输出系统的故障收集指令，获取所述第一错误数据，并发送给所述基板管理控制器；所述基板管理控制器用于接收所述处理器发送的所述第一错误数据。

结合第一方面或第一方面的第一至第三任一可能的实现方式，在第四种可能的实现方式中，所述基板管理控制器还用于根据故障解析机制，对所述第一错误数据进行解析 , 得到所述第一错误数据的故障解析信息。

结合第一方面的第四种可能的实现方式，在第五种可能的实现方式中，所述基板管理控制器还用于根据预设的故障处理机制，对所述第一错误数据的故障解析信息进行分析，得到故障处理建议。

结合第一方面的第五种可能的实现方式，在第六种可能的实现方式中，所述基板管理控制器在确定所述计算机死机之前，还用于接收所述处理器发送的第二错误数据，并根据所述故障解析机制，对所述第二错误数据进行解析，得到所述第二错误数据的故障解析信息，其中，所述第二错误数据为所述计算机产生所述第一错误数据之前预设时间内产生的错误数据；

则，所述基板管理控制器用于根据预设的故障处理机制，对所述第一错误数据的故障解析信息进行分析，得到故障处理建议包括：所述基板管理控制器用于根据所述预设的故障处理机制，对所述第二错误数据的故障解析信息和所述第一错误数据的故障解析信息进行分析，得到所述故障处理建议。

第二方面，本发明实施例提出了一种故障处理方法，用于包括基板管理控制器和处理器的计算机，该方法包括：

所述基板管理控制器在确定所述计算机死机时，向所述处理器发送读请求消息，所述读请求消息用于请求读取所述处理器记录的第一错误数据；所述基板管理控制器接收所述处理器返回的读响应消息，并根据所述读响应消息，获得所述处理器记录的所述第一错误数据。

结合第二方面，在第一种可能的实现方式中，所述基板管理控制器接收所述处理器发送的严重故障事件指示，所述严重故障事件指示是所述处理器在获取到所述第一错误数据并且所述第一错误数据属于严重的不可糾正错误类型时发送的；如果从接收到所述严重故障事件指示开始，在预设等待时间内，未接收到所述处理器发送的至少部分所述第一错误数据，则确定所述计算机死机。

结合第二方面或第二方面的第一种可能的实现方式，在第二种可能的实现方式中，所述基板管理控制器接收所述处理器返回的读响应消息，并根据所述读响应消息，获得所述处理器记录的所述第一错误数据包括：所述基板管理控制器在所述读响应消息中携带所述第一错误数据时，从所述读响应消息中获得所述处理器记录的所述第一错误数据。

结合第二方面或第二方面的第一种可能的实现方式，在第三种可能的实现方式中，所述基板管理控制器接收所述处理器返回的读响应消息，并根据所述读响应消息，获得所述处理器记录的所述第一错误数据包括：所述基板管理控制器在所述读响应消息中携带读失败指示时，指示所述计算机的热重启模块或者用户对所述计算机进行热重启，以使得所述处理器在所述计算机热重启时，执行所述计算机的基本输入输出系统的故障收集指令，根据所述基本输入输出系统的故障收集指令，获取所述第一错误数据，并发送给所述基板管理控制器；其中，所述读失败指示用于指示从所述处理器中读取所述第一错误数据失败；所述基板管理控制器接收所述处理器发送的所述第一错误数据。

结合第二方面或第二方面的第一至第三任一可能的实现方式，在第四种可能的实现方式中，在所述基板管理控制器根据所述读响应消息，获得所述处理器记录的所述第一错误数据之后，所述方法还包括：所述基板管理控制器根据故障解析机制，对所述第一错误数据进行解析，得到所述第一错误数据的故障解析信息。

结合第二方面的第四种可能的实现方式，在第五种可能的实现方式中，所述方法还包括：所述基板管理控制器根据预设的故障处理机制，对所述第一错误数据的故障解析信息进行分析，得到故障处理建议。

结合第二方面的第五种可能的实现方式，在第六种可能的实现方式中，在所述基板管理控制器确定所述计算机死机之前，所述方法还包括：所述基板管理控制器接收所述处理器发送的第二错误数据；其中，所述第二错误数据为所述计算机产生所述第一错误数据之前预设时间内产生的错误数据；则，所述基板管理控制器根据预设的故障处理机制，对所述第一错误数据的故障解析信息进行分析，得到故障处理建议包括：

所述基板管理控制器根据所述故障解析机制，对所述第二错误数据进行解析，得到所述第二错误数据的故障解析信息，并根据所述预设的故障处理机制，对所述第二错误数据的故障解析信息和所述第一错误数据的故障解析信息进行分析，得到所述故障处理建议。

第三方面，本发明实施例提出了一种基板管理控制器，包括：发送单元，用于在确定所述计算机死机时，向所述处理器发送读请求消息，所述读请求消息用于请求读取所述处理器记录的第一错误数据；

接收单元，用于接收所述处理器返回的读响应消息，并根据所述读响应消息，获得所述处理器记录的所述第一错误数据。

结合第三方面，在第一种可能的实现方式中，所述基板管理控制器还包括：确定单元，用于接收所述处理器发送的严重故障事件指示，所述严重故障事件指示是所述处理器在获取到所述第一错误数据并且所述第一错误数据属于严重的不可纠正错误类型时发送的；如果从接收到所述严重故障事件指示开始，在预设等待时间内，未接收到所述处理器发送的至少部分所述第一错误数据，则确定所述计算机死机。

结合第三方面或第三方面的第一种可能的实现方式，在第二种可能的实现方式中，所述接收单元接收所述处理器返回的读响应消息，并根据所述读响应消息，获得所述处理器记录的所述第一错误数据包括：所述接收单元在所述读响应消息中携带所述第一错误数据时，从所述读响应消息中获得所述处理器记录的所述第一错误数据。

结合第三方面或第三方面的第一种可能的实现方式，在第三种可能的实现方式中，所述接收单元接收所述处理器返回的读响应消息，并根据所述读响应消息，获得所述处理器记录的所述第一错误数据包括：

所述接收单元在所述读响应消息中携带读失败指示时，指示所述计算机的热重启单元或者用户对所述计算机进行热重启，以使得所述处理器在所述计算机热重启时，执行所述计算机的基本输入输出系统的故障收集指令，根据所述基本输入输出系统的故障收集指令，获取所述第一错误数据，并发送给所述接收单元；其中，所述读失败指示用于指示从所述处理器中读取所述第一错误数据失败；所述接收单元接收所述处理器发送的所述第一错误数据。

结合第三方面或者第三方面的第一至第三任一可能的实现方式，在第四中可能的实现方式中，所述基板管理控制器还包括：故障处理单元，用于根据故障解析机制，对所述第一错误数据进行解析，得到所述第一错误数据的故障解析信息。

结合第三方面的第四种可能的实现方式，在第五种可能的实现方式中，故障解析信息进行分析，得到故障处理建议。

结合第三方面的第五种可能的实现方式，在第六种可能的实现方式中，所述接收单元还用于接收所述处理器发送的第二错误数据；所述故障处理单元还用于根据所述故障解析机制，对所述第二错误数据进行解析，得到所述第二错误数据的故障解析信息；其中，所述第二错误数据为所述计算机产生所述第一错误数据之前预设时间内产生的错误数据；则，所述故障处理单元用于根据预设的故障处理机制，对所述第一错误数据的故障解析信息进行分析，得到故障处理建议包括：所述故障处理单元根据所述预设的故障处理机制，对所述第二错误数据的故障解析信息和所述第一错误数据的故障解析信息进行分析，得到所述故障处理建议。

第四方面，本发明实施例提出了一种基板管理控制器，所述基板管理控制器包括处理器、存储器、总线和通信接口；

所述存储器用于存储计算机执行指令，所述处理器与所述存储器通过所述总线连接，当所述基板管理控制器运行时，所述处理器执行所述存储器存储的所述计算机执行指令，以使所述基板管理控制器执行第二方面所述的故障处理方法，或者第二方面任一可能的实现方式所述的故障处理方法。

第五方面，本发明实施例提出了一种计算机可读介质，包括计算机执行指令，以供计算机的处理器执行所述计算机执行指令时，所述计算机执行第二方面所述的故障处理方法，或者第二方面任一可能的实现方式所述的故障处理方法。

在本发明实施例中，计算机中的基板管理控制器可以在确定所述计算机死机时，向计算机中处理器发送读请求消息，所述读请求消息用于请求读取所述处理器记录的第一错误数据，并接收所述处理器返回的读响应消息，根据所述读响应消息，获得所述处理器记录的所述第一错误数据。上述方式无需利用操作系统，只需通过基板管理控制器就实现了计算机死机后计算机中的错误数据的获取，解决了现有技术中计算机出现严重的不可纠正错误导致系统死机后无法获取计算机中的错误数据的问题。附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对现有技术或实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图 1是本发明实施例提供的一种计算机的示意图；

图 2是本发明实施例提供的又一种计算机的示意图；

图 3是本发明实施例提供的一种故障处理方法的方法流程图；图 4是本发明实施例提供的又一种故障处理方法的方法流程图；图 5是本发明实施例提供的基板管理控制器的示意图；

图 6是本发明实施例提供的又一种基板管理控制器的组成结构示意图；具体实施方式

需要注意的是，本发明的说明书和权利要求书及说明书附图中的术语 "第一" 和 "第二" 是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换。本发明的说明书和权利要求书及说明书附图的计算机死机是指计算机出现黑屏、计算机的处理器无法运行计算机指令并且计算机的鼠标或键盘等输入设备无法输入。

实施例一

如图 1所示为本发明实施例提供的计算机的示意图，该计算机包括处理器 11和基板管理控制器 12 ( Baseboard Management Controller, BMC ) ；所述基板管理控制器 12用于在确定所述计算机死机时，向所述处理器 11发送读请求消息，所述读请求消息用于请求读取所述处理器 11记录的第一错误数据；其中，所述第一错误数据为所述计算机中产生的错误数据，可以是所述计算机中产生的所有错误数据，还可以是所述计算机中产生的部分错误数据，例如所述第一错误数据可以是所述计算机死机前 2秒内产生的错误数据，本发明实施例在此不作限定。

所述处理器 11用于接收所述读请求消息，并向所述基板管理控制器 12 发送读响应消息；此时虽然所述计算机已经死机，所述处理器无法执行任何计算机指令，但是所述处理器可以接收并响应所述读请求消息。

所述基板管理控制器 12用于接收所述处理器 11 返回的所述读响应消息，并根据所述读响应消息，获得所述处理器 11记录的所述第一错误数据。例如，所述处理器 11 可以将第一错误数据记录在自身的寄存器中，所述基板管理控制器 12可以利用所述寄存器的地址，向所述处理器 11发送读请求消息，以从所述寄存器中获取所述第一错误数据；虽然所述计算机已经死机，无法运行计算机指令，但是所述处理器 11 的所述寄存器可以响应所述读请求消息，返回读响应消息，例如返回所述第一错误数据，从而所述基板管理控制器 12可以根据所述读响应消息，获得所述第一错误数据。值得注意的是，在本发明实施例中，所述第一错误数据可能包括一个或多个错误数据，本发明实施例在此不作限定。

在本发明实施例中，基板管理控制器 12可以在确定所述计算机死机时，向处理器 11发送读请求消息，所述读请求消息用于请求读取所述处理器 11 记录的第一错误数据，并接收所述处理器 11返回的读响应消息，根据所述读响应消息，获得所述处理器 11 记录的所述第一错误数据。本发明实施例无需利用操作系统，只需通过基板管理控制器就实现了计算机死机后计算机中的错误数据的获取，解决了现有技术中计算机出现严重的不可纠正错误导致系统死机后无法获取计算机中的错误数据的问题。

下面对本发明实施例展开进行详细地介绍。

( 1 ) 关于如何确定计算机死机

通常情况下，可以将计算机故障引起的不可纠正错误（Uncorrectable error )分为灾难性错误 ( Catastrophic Error )、致命错误（ Fatal Error )和可恢复错误（ Recoverable Error )。其中，灾难性错误和致命错误最为严重，可能导致计算机出现蓝屏、紫屏甚至死机（例如黑屏和挂死）。因此，可以对计算机中的灾难性错误或致命错误进行监控，例如对内部错误 ( Internal Error, IERR; 属于灾难性错误）或机械检查错误（Machine Check Error, MCERR; 属于致命错误）进行监控，当计算机中出现灾难性错误或致命错误时，如果计算机无法运行基本输入输出系统（ Basic Input Output System, BIOS ) 的指令，或者操作系统（Operating System, OS ) 的指令，则可以确定计算机死机。

具体地，所述处理器 11还可以用于获取所述第一错误数据，并记录所述第一错误数据，例如所述处理器 11 可以产生或接收所述第一错误数据，并将所述第一错误数据记录在所述计算机的緩存中或者所述处理器 11 的寄存器中或者其它具备存储能力的模块中；一方面，在所述处理器 11 获取到所述第一错误数据之后，如果所述计算机没有死机，所述处理器 11 可以将所述第一错误数据发送给所述基板管理控制器 , 例如预先将所述基本输入输出系统的错误收集指令配置在所述计算机中，如果所述计算机没有死机，所述处理器 11执行所述基本输入输出系统的错误收集指令，根据所述基本输入输出系统的错误收集指令，将所述第一错误数据发送给所述基板管理控制器 12, 如果所述计算机死机，所述处理器 11无法执行任何计算机指令；另一方面，在所述处理器 11 获取到所述第一错误数据之后，如果所述第一错误数据属于严重的不可纠正错误类型时，所述处理器 11还可以发送严重故障事件指示，以通知所述基板管理控制器 12所述计算机产生了灾难性错误或致命错误可能引起死机，其中所述第一错误数据属于严重的不可纠正错误类型是指所述第一错误数据属于灾难性错误或致命错误；则所述基板管理控制器 12可以用于接收所述处理器 11发送的严重故障事件指示，如果从接收到所述严重故障事件指示开始，在预设等待时间内，未接收到所述处理器 11 发送的至少部分所述第一错误数据，则所述基板管理控制器 12可以确定所述计算机死机。

此外，所述基板管理控制器 12还可以根据用户的指示确定所述计算机死机，例如用户可以在发现所述计算机死机时通知所述基板管理控制器 12, 所述基板管理控制器 12可以根据用户的指示确定所述计算机死机，从而启动对所述第一错误数据的获取。

( 2 ) 关于所述第一错误数据的获取

所述处理器 11在接收到所述读请求消息时，可以根据所述读请求消息，将所述第一错误数据携带在所述读响应消息中 ,返回给所述基板管理控制器

12, 此时所述基板管理控制器 12读取数据成功，则所述基板管理控制器 12 可以从所述读响应消息中获得所述处理器 11记录的所述第一错误数据。

然而，在某些硬件故障引发不可纠正错误导致计算机死机时，所述基板管理控制器 12可能无法成功读取所述第一错误数据，所述读响应消息携带读失败指示，所述读失败指示用于指示从所述处理器 11 中读取所述第一错误数据失败，则所述基板管理控制器 12可以用于指示所述计算机的热重启模块或者用户对所述计算机进行热重启，以使得所述处理器 11 在所述计算机热重启时，执行所述计算机的基本输入输出系统的故障收集指令，根据所述基本输入输出系统的故障收集指令，获取所述第一错误数据，并发送给所述基板管理控制器 12;所述基板管理控制器 12可以接收所述处理器 11发送的所述第一错误数据，完成所述第一错误数据的获取。

值得注意的是，计算机重启可以分为热重启和冷重启，冷重启会对所述计算机下电，对计算机进行初始化，冷重启后可能造成信息的丟失，例如冷重启后处理器中寄存器保存的信息将会丟失，按重启电源开关属于对计算机进行冷重启；而热重启不同于冷重启，不会对计算机下电，不会对计算机进行初始化，处理器中寄存器保存的信息不会丟失，从开始处点击 "重新启动" 按正常程序关毕和启动计算机属于热重启；在本发明实施例以及后续的实施例中，对计算机进行热重启均是指上述含义。

此外，所述基板管理控制器 12还可以用于在获取到所述第一错误数据之后，向所述处理器 11发送清除数据消息，以指示所述处理器 11删除自身记录的所述第一错误数据，避免存储资源的浪费。

可选地，所述基板管理控制器 12还可以用于在接收所述处理器 11发送的严重故障事件指示后，向所述计算机的故障告警模块发送告警消息或进行打印操作，以将所述严重故障告警事件通知用户使得用户及时获知计算机故障。 ( 3 ) 关于故障的分析、定位和处理

在现有技术中，通常只能够将计算机没有死机情况下的错误数据打印出来，没有完整的故障记录，并且只能依靠人工进行故障的分析、定位和处理。在本发明实施例中，可以通过基板管理控制器 12记录完整的故障记录，还可以自动定位故障源并给出故障处理建议，为故障的及时处理和恢复提供了帮助，具体方案如下：

所述处理器 11 记录的第一错误数据通常情况下为用 "0" 或 "1" 表示的信息，因此，所述基板管理控制器 12还可以用于根据故障解析机制，对所述第一错误数据进行解析，得到所述第一错误数据的故障解析信息，所述第一错误数据的故障解析信息可以包括所述第一错误数据中每个错误数据的产生时间、谁收集的该错误数据、该错误数据来自哪个处理器、哪个核

( Core )、属于什么错误等；例如，如果是 X86的计算机，所述基板管理控制器 12可以根据 Intel的故障代码定义对二进制形式的所述第一错误数据进行解析，得到故障解析信息。所述故障解析信息不仅可以提供给维修人员或用户去了解故障情况，还可以用于后续的故障定位、分析和处理。

所述基板管理控制器 12还可以用于根据预设的故障处理机制，对所述第一错误数据的故障解析信息进行分析，得到故障处理建议。所述预设的故建议可以包括故障定位信息和 /或处理建议信息 ,从而用户或者故障维修人员可以根据所述故障处理建议，对所述计算机进行处理，以恢复所述计算机。进一步，由于所述第一错误数据可能只是所述计算机死机之前很短一段时间内产生的错误数据，例如，所述第一错误数据为所述计算机死机之前 0.5秒内产生的错误数据，因此，为了提高故障定位和分析的准确度，可以对更多的错误数据的故障解析信息进行分析。具体地，所述基板管理控制器 12在确定所述计算机死机之前，还可以接收所述处理器 11发送的第二错误数据，所述第二错误数据不同于所述第一错误数据，所述第二错误数据为所述计算机产生所述第一错误数据之前预设时间内产生的错误数据；所述基板管理控制器 12可以根据所述故障解析机制，对所述第二错误数据进行解析，得到所述第二错误数据的故障解析信息，并根据预设的故障处理机制，对所述第二错误数据的故障解析信息和所述第一错误数据的故障解析信息进行分析，得到所述故障处理建议。例如所述第一错误数据可以是所述计算机死机前 0.5秒内产生的错误数据，当所述预设时间为 4.5秒时，所述第二错误数据可以是所述计算机死机前 5秒至死机前 0.5内产生的错误数据，则所述基板管理控制器 12可以根据预设的故障处理机制，对所述计算机死机前 5秒内的错误数据的故障解析信息进行分析，得到所述故障处理建议。

进一步，所述基板管理控制器 12还可以用于打印所述第一错误数据的故障解析信息或所述第一错误数据的故障解析信息或所述故障处理建议，从而用户或者故障维修人员可以根据打印的信息，处理所述计算机的故障。

进一步，所述基板管理控制器 12还可以将所述第一错误数据的故障解析信息、所述第二错误数据的故障解析信息、所述第一错误数据和所述第二错误数据中的至少一种保存到所述计算机的故障信息库，得到所述计算机的故障记录，从而为后续故障的定位和恢复提供帮助，例如，所述基板管理控制器 12 可以将所述第一错误数据的故障解析信息和所述第二错误数据的故障解析信息保存到所述故障信息库，从而所述故障信息库中保存了完整的错误数据，可以提供完整的故障记录；在本发明实施例中，所述故障信息库可以设置于所述基板管理控制器 12中，也可以设置在所述基板管理控制器 12 夕卜。

需要注意的是，在实际的应用过程中，对计算机的故障进行定位、分析和处理，可以居不同的应用场景，釆用不同的方式。例如对于非单机的应用场景而言，系统中可以包括多个本发明实施例所述的计算机，每个本发明实施例所述的计算机可能都具备故障定位、分析和处理的能力，此时可以让多个所述计算机中的一个计算机（例如主计算机）的基板管理控制器从其它计算机的基板管理控制器收集错误数据，由其对系统中的所有计算机进行统一的故障定位、分析和处理；或者系统中的多个所述计算机的基本管理控制器可以将自身得到的错误数据上报给系统中的管理设备 (如管理服务器 ), 由管理设备利用本法实施例所述的方式对系统中的所有计算机进行统一的故障定位、分析和处理。

本发明实施例无需利用操作系统，只需通过基板管理控制器 12就实现了计算机死机后计算机中的错误数据的获取，解决了现有技术中计算机出现严重的不可纠正错误导致系统死机后无法获取计算机中的错误数据的问题。此外，所述基板管理控制器 12还可以在所述故障记录库中记录完整的故障记录，还可以对所述第一错误数据进行解析，并根据预设的故障处理机制，对所述第一错误数据的故障解析信息进行分析，定位故障源并给出处理建议。

实施例二

为了更好的说明本发明，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本发明同样可以实施。在本发明实施例中，将结合图 2对实施例一所述的处理器 11和基板管理控制器 12的结构组成和功能进行详细地介绍。

如图 2所示为本发明实施例提供的计算机的组成结构示意图，该计算机由处理器 11和基板管理控制器 12组成；所述处理器 11可以包括记录模块 21、存储模块 22和指令执行模块 23; 所述记录模块 21具体可以是负责处理器 11各内部功能模块的硬件故障检查架构（Machine Check Architecture,

MCA ) , 和 /或负责计算机输入输出设备的 PCIe 规范的故障报告机制 ( Advanced Error Reporting, AER ); 相应地，所述存储模块 22可以是 MCA 的寄存器和 /或 AER的寄存器，所述 MCA的寄存器和所述 AER的寄存器可以位于所述处理器 11 内部；所述指令执行模块 23可以为所述处理器 11的内核，用于执行基本输入输出系统的指令和操作系统的指令；所述记录模块 21可以用于获取所述计算机中的错误数据，例如生成处理器 11中各内部功能模块发生故障产生错误数据，又例如接收 10设备发生故障产生错误数据，所述计算机中的错误数据包括但不限于本发明实施例中所述第一错误数据和所述第二错误数据，所述记录模块 21 可以将所述获取到的所述计算机中的错误数据记录在存储模块 22 中；具体地，如果所述计算机中的错误数据为 MCA获取的，则所述 MCA可以将所述计算机中的错误数据记录在所述 MCA的寄存器中，如果所述计算机中的错误数据为 AER 获取的，则所述 AER可以将所述计算机的错误数局记录到 AER的寄存器中，其中， MCA或 AER获取的错误数据的范围可以通过 BIOS对相应的寄存器进行配置来实现；可选地，所述 MAC或者 AER在将所述计算机中的错误数据记录到相应的寄存器之时 /后 ,还可以将记录所述计算机中的错误数据的寄存器的地址保存在第一寄存器中，以便后续所述指令执行模块 23可以根据所述基本输入输出系统的错误收集指令，利用所述第一寄存器中记录的地址，获取所述计算机中的错误数据。

所述记录模块 21还可以在获取到所述计算机中的错误数据时，触发系统管理中断（ System Management Interrupt, SMI ); 所述系统管理中断用于触发所述指令执行模块 23执行所述基本输入输出系统的错误收集指令，如果所述计算机没有死机，则所述指令执行模块 23可以根据所述基本输入输出系统的错误收集指令，从所述存储模块 22 中获取所述计算机中的错误数据，并发送给所述基板管理控制器 12, 如果所述计算机死机，则所述指令执行模块 23无法执行任何计算机指令；其中，所述基本输入输出系统的错误收集指令可以预先配置在存储所述基板输入输出系统的指令的存储器中。

实际上，根据实施例一可知，所述第二错误数据是所述计算机产生所述第一错误数据之前预设时间内产生的错误数据，因此所述记录模块 21将会先获取到所述第二错误数据，再获取到所述第一错误数据；则所述记录模块 21在获取到所述第二错误数据时，一方面可以将所述第二错误数据记录到所述存储模块 22 ,另一方面可以触发系统管理中断；如果所述计算机没有死机，所述指令执行模块 23可以根据所述系统管理中断，执行所述基本输入输出系统的错误收集指令，根据所述基本输入输出系统的错误收集指令，从所述存储模块 22中获取所述第二错误数据发送给所述基板管理控制器 12; 可选地，所述指令执行模块 23可以通过智慧平台管理接口（ Intelligent Platform Management Interface, IPMI )标准将所述第二错误数据发送给所述基板管理控制器 12, 所述基板管理控制器 12可以通过 IPMI标准接收所述指令执行模块 23发送的所述第二错误数据；值得注意的是，当所述第二错误数据中包括多个错误数据，所述记录模块 21通过多次才能获取到所述第二错误数据时，所述记录模块 21可以在每次获取到部分所述第二错误数据时都触发所述系统管理中断，相应地，所述指令执行模块 23可以通过多次执行所述基本输入输出系统的错误收集指令，将所述第二错误数据分多次发生给所述基板管理控制器 12; 可选地，在所述指令执行模块 23将所述第二错误数据发送给所述基板管理控制器 12之后，可以执行操作系统的删除指令，根据所述操作系统的删除指令，删除所述记录模块 21 中保存的所述第二错误数据；换而言之，所述指令执行模块 23可以将已经发送给所述基板管理控制器 12的错误数据从所述存储模块 22中删除，避免将错误数据重复发送给所述基板管理控制器 12。

当所述记录模块 21在获取到所述第二错误数据之后，如果获取到所述第一错误数据，也可以触发所述系统管理中断；进一步，如果所述第一错误数据属于严重的不可纠正错误类型时，即所述第一错误数据为灾难性错误或致命错误时，所述记录模块 21还可以触发严重故障事件指示，以通知所述基板管理控制器 12所述计算机产生了灾难性错误或致命错误可能引起死机；当所述第一错误数据真的属于严重的不可纠正错误类型 , 并且所述计算机的死机了，则所述指令执行模块 23将无法执行计算机指令，即使所述记录模块 21触发了系统管理中断，所述指令执行模块 23也无法执行所述基本输入输出系统的错误收集指令，无法从所述存储模块 22 中获取所述第一错误数据给所述基板管理控制器 12; 因此所述基板管理控制器 12如果从接收到所述严重故障事件指示开始，在预设等待时间内，未接收到所述处理器 11发送的至少部分所述第一错误数据，则可以确定所述计算机死机。具体地，所述记录模块 21 触发严重故障事件指示可以通过改变引脚 CATEER— N 或 ERROR— N 的电平实现，则所述基板管理控制器 12 可以通过接收引脚 CATEER— N或 ERROR— N的电平信号，来接收所述严重故障事件指示。

所述基板管理控制器 12在确定所述计算机死机时，可以向所述记录模块 21发送读请求消息，所述读请求消息用于请求读取所述第一错误数据；所述记录模块 21在所述计算机死机之后，仍然可以接收所述读请求消息，并向所述基板管理控制器 12发送读响应消息；从而所述基板管理控制器 12 可以接收所述读响应消息，并根据所述读响应消息，获得所述处理器 11 记录的所述第一错误数据；具体地，所述基板管理控制器 12可以通过平台环境式控制接口（ Platform Environment Control Interface, PECI )总线遍历所述 MAC的寄存器或所述 AER的寄存器，以从所述 MAC的寄存器或所述 AER 的寄存器中读取所述第一错误数据；如果所述基板管理控制器 12 从所述 MAC的寄存器或所述 AER的寄存器中读取数据成功，则所述 MAC的寄存器或所述 AER的寄存器返回的读响应消息中携带所述第一错误数据，所述基板管理控制器 12可以获取所述第一错误数据；如果所述基板管理控制器 12从所述 MAC 的寄存器或所述 AER 的寄存器中读取数据失败，则所述 MAC的寄存器或所述 AER的寄存器返回的读响应消息中携带读失败指示，例如乱码，则所述基板管理控制器 12可以指示所述计算机的热重启模块或者用户对所述计算机进行热重启，以使得所述指令执行模块 23在所述计算机热重启时，执行所述基本输入输出系统的故障收集指令，根据所述基本输入输出系统的故障收集指令，遍历所述 MAC的寄存器或所述 AER的寄存器，获取所述第一错误数据，并通过 IPMI标准发送给所述基板管理控制器 12, 所述基板管理控制器 12可以接收所述故障收集指令发送的所述第一错误数据。

在本发明实施例中，所述基板管理控制器 12通过与所述处理器 11配合，实现了计算机死机后计算机中的错误数据的获取，解决了现有技术中计算机出现严重的不可纠正错误导致系统死机后无法获取计算机中的错误数据的问题。

实施例三

本发明实施例提供了一种故障处理方法，用于图 1或图 2所示的计算机，该计算机包括基板管理控制器和处理器，所述方法包括：

S301 :基板管理控制器在确定计算机死机时，向处理器发送读请求消息，所述读请求消息用于请求读取所述处理器记录的第一错误数据。

所述处理器可以获取所述第一错误数据，并记录所述第一错误数据。所述基板管理控制器在确定所述计算机死机时，可以向所述处理器发送读请求消息，以读取所述处理器记录的第一错误数据。此时虽然所述计算机已经死机，所述处理器无法执行任何计算机指令，但是所述处理器可以接收并响应所述读请求消息，从而所述基板管理控制器可以获取所述第一错误数据；例如所述处理器可以将所述第一错误数据记录在自身的寄存器中，则所述基板管理控制器可以将所述读请求消息发送给所述处理器的寄存器，所述处理器的寄存器可以接收所述读请求消息，并返回读响应消息。在本发明实施例中，所述第一错误数据可能包括一个或多个错误数据，本发明实施例在此不作限定。

所述基板管理控制器确定所述计算机死机有多种方式，具体地可以参考实施例一或实施例二，本发明实施例在此不再赘述。

S302: 所述基板管理控制器接收所述处理器返回的读响应消息，并根据所述读响应消息，获得所述处理器记录的所述第一错误数据。

如果所述基板管理控制器从所述处理器读取数据成功，则所述读响应消息可能携带所述第一错误数据，则所述基板管理控制器可以从所述读响应消息中获得所述处理器记录的所述第一错误数据；如果所述基板管理控制器从苏搜处理器读取数据失败，则所述读响应消息可能携带读失败指示，则所述基板管理控制器可以通过其它方式获取所述第一错误数据，例如可以预先在所述计算机中配置所述基本输入输出系统的故障收集指令，当所述读响应消息携带读失败指示时，所述基板管理控制器可以指示所述计算机的热重启模块或者用户对所述计算机进行热重启，以使得所述处理器在所述计算机热重启时，执行所述计算机的基本输入输出系统的故障收集指令，根据所述基本输入输出系统的故障收集指令，获取所述第一错误数据，并发送给所述基板管理控制器，则所述基板管理控制器可以通过接收所述处理器发送的所述第一错误数据，完成所述第一错误数据的获取。

在本发明实施例中，计算机的基板管理控制器可以在确定所述计算机死机时，向所述计算机的处理器发送读请求消息，所述读请求消息用于请求读取所述处理器记录的第一错误数据，接收所述处理器返回的读响应消息，根据所述读响应消息，获得所述处理器记录的所述第一错误数据。本发明实施例无需利用操作系统，只需通过基板管理控制器就实现了计算机死机后计算机中的错误数据的获取，解决了现有技术中计算机出现严重的不可纠正错误导致系统死机后无法获取计算机中的错误数据的问题。

实施例四

S401 : 基板管理控制器接收处理器发送的严重故障事件指示，所述严重故障事件指示是所述处理器在获取到第一错误数据并且所述第一错误数据属于严重的不可纠正错误类型时发送的。

S402:所述基板管理控制器向所述计算机的故障告警模块发送告警消息或进行打印操作，以将所述严重故障告警事件通知用户。所述基板管理控制器可以在接收到所述处理器发送的严重故障事件指示后，通过告警消息触发故障告警传感器或者进行打印操作，以通知用户所述计算机产生了严重故障可能导致死机。在本发明实施例中， S402 为可选步骤。

S403 : 如果从接收到所述严重故障事件指示开始，在预设等待时间内，所述基板管理控未接收到所述处理器发送的至少部分所述第一错误数据，确定所述计算机死机，执行步骤 S404。

所述处理器在获取到所述第一错误数据之后，如果所述计算机没有死机，则所述处理器可以执行所述基本输入输出系统的错误收集指令，根据所述基本输入输出系统的错误收集指令，将所述第一错误数据发送给所述基板管理控制器；如果所述计算机死机，则所述处理器无法执行任何计算机指令。因此，如果从接收到所述严重故障事件指示开始，在预设等待时间内，所述基板管理控制器未接收到所述处理器发送的至少部分所述第一错误数据，可以确定所述计算机死机。

S404: 所述基板管理控制器向所述处理器发送读请求消息，所述读请求消息用于请求读取所述处理器记录的第一错误数据。

在确定所述计算机死机之后，所述基板管理控制器可以向处理器获取所述第一错误数据，以实现所述计算机死机后，对计算机中的错误数据的获取。

S405: 所述基板管理控制器接收所述处理器返回的读响应消息，并根据所述读响应消息，获得所述处理器记录的所述第一错误数据。

所述基板管理控制器根据所述读响应消息，获得所述处理器记录的所述第一错误数据，具体可以是 S405a所述的方式，也可以是 S405a所述的方式。

S405a: 如果所述读响应消息中携带所述第一错误数据，则所述基板管理控制器从所述读响应消息中获得所述处理器记录的所述第一错误数据。

如果所述读响应消息中携带所述第一错误数据，表明所述基板管理控制器从所述处理器读取所述第一错误数据成功，所述基板管理控制器可以从所述读响应消息中获得所述处理器记录的所述第一错误数据。

S405b: 如果所述读响应消息中携带读失败指示，所述读失败指示用于指示从所述处理器中读取所述第一错误数据失败，则所述基板管理控制器指示所述计算机的热重启模块或者用户对所述计算机进行热重启，以使得所述处理器在所述计算机热重启时，执行所述计算机的基本输入输出系统的故障收集指令，根据所述基本输入输出系统的故障收集指令，获取所述第一错误数据，并发送给所述基板管理控制器；所述基板管理控制器接收所述处理器发送的所述第一错误数据。

可以预先将所述基本输入输出系统的故障收集指令配置在所述计算机中，当所述基板管理控制器从所述处理器中读取所述第一错误数据失败时，所述读响应消息中携带读失败指示，所述基板管理控制器指示所述计算机的热重启模块或者用户对所述计算机进行热重启，以使得所述处理器在所述计算机热重启时，执行所述计算机的基本输入输出系统的故障收集指令，根据所述基本输入输出系统的故障收集指令，获取所述第一错误数据，并发送给所述基板管理控制器。

S406: 所述基板管理控制器根据故障解析机制，对所述第一错误数据进行解析，得到所述第一错误数据的故障解析信息。

在所述基板管理控制器获取到所述第一错误数据之后，所述基板管理控制器根据故障解析机制，对所述第一错误数据进行解析，得到所述第一错误数据的故障解析信息，所述第一错误数据的故障解析信息可以包括所述第一错误数据中每个错误数据的产生时间、谁收集的该错误数据、该错误数据来自哪个处理器、哪个核（Core )、属于什么错误等；所述故障解析信息不仅可以提供给维修人员或用户去了解故障情况，还可以用于后续的故障定位、分析和处理。

S407: 所述基板管理控制器根据预设的故障处理机制，对所述所述第一错误数据的故障解析信息进行分析，得到所述故障处理建议。述基板管理控制器根据预设的故障处理机制，对所述所述第一错误数据的故障解析信息进行分析，得到所述故障处理建议，所述故障处理建议可以为故障定位信息或者处理建议信息，从而用户或者故障维修人员可以根据所述故障处理建议，对所述计算机进行处理，以恢复所述计算机。

S408: 所述基板管理控制器打印所述故障处理建议。

所述基板管理控制器在得到所述故障处理建议之后，可以将所述故障处理建议打印出来，或者还可以将所述故障处理建议和所述第一错误数据的故障解析信息一起打印出来，从而用户或者故障维修人员可以根据打印的信息对所述计算机进行处理，以恢复所述计算机。

本发明实施例无需利用操作系统，只需通过基板管理控制器就实现了计算机死机后计算机中的错误数据的获取，解决了现有技术中计算机出现严重的不可纠正错误导致系统死机后无法获取计算机中的错误数据的问题。此夕卜，所述基板管理控制器还可以对所述第一错误数据进行解析，并根据预设的故障处理机制，对所述第一错误数据的故障解析信息进行分析，定位故障源并给出处理建议。

由于步骤 S407 中，只对所述第一错误数据的故障解析信息进行分析得到故障处理建议，所述第一错误数据可能只是所述计算机死机之前很短一段时间内产生的错误数据，例如，所述第一错误数据为所述计算机死机之前 2 秒内产生的错误数据，因此，为了提高故障定位和分析的准确度，可以对更多的错误数据的故障解析信息进行分析。

在步骤 S403之前，所述基板管理控制器还可以接收所述处理器发送的第二错误数据 , 所述第二错误数据为所述计算机产生所述第一错误数据之前预设时间内产生的错误数据。

则步骤 S407还可以为：所述基板管理控制器根据故障解析机制，对所述第二错误数据进行解析，得到所述第二错误数据的故障解析信息，并对所述第二错误数据的故障解析信息和所述第一错误数据的故障解析信息进行分析，得到所述故障处理建议。

在本发明实施例中，所述基板管理控制器可以对对所述第二错误数据的故障解析信息和所述第一错误数据的故障解析信息进行分析，得到所述故障处理建议，提高故障定位和分析的准确度。

可选地，在步骤 S405之后，所述基板管理控制器还可以将所述第一错误数据的故障解析信息、所述第二错误数据的故障解析信息、所述第一错误数据和所述第二错误数据中的至少一种保存到所述计算机的故障信息库。例如将所述第一错误数据的故障解析信息和所述第二错误数据的故障解析信保存到所述故障信息库息，或者将所述第一错误数据和所述第二错误数据保存到所述故障信息库息，从而在所述故障记录库中记录完整的故障记录。

可选地，在步骤 S405之后，所述基板管理控制器还可以向所述处理器发送清除数据消息，以指示所述处理器删除自身记录的所述第一错误数据，避免存储资源的浪费。

本发明实施例三或实施例四中的基板管理控制器，具体可以参照本发明实施例一或实施例二所述的基板管理控制器与处理器进行交互和进行故障处理。

实施例五

本发明实施例提供了一种基板管理控制器，用于包括所述基板管理控制器和处理器的计算机，例如用于如图 1或 2中所述的计算机，如图 5所示，所述基板管理控制可以包括发送单元和接收单元；

所述发送单元，用于在确定所述计算机死机时，向所述处理器发送读请求消息，所述读请求消息用于请求读取所述处理器记录的第一错误数据；虽然所述计算机已经死机，所述处理器无法执行任何计算机指令，但是所述处理器可以接收并响应所述读请求消息；

所述接收单元，用于接收所述处理器返回的读响应消息，并根据所述读响应消息，获得所述处理器记录的所述第一错误数据。例如，所述接收单元可以在所述读响应消息中携带所述第一错误数据时，从所述读响应消息中获得所述处理器记录的所述第一错误数据；又例如，所述接收单元可以在所述读响应消息中携带读失败指示时，指示所述计算机的热重启单元或者用户对所述计算机进行热重启，以使得所述处理器在所述计算机热重启时，执行所述计算机的基本输入输出系统的故障收集指令，根据所述基本输入输出系统的故障收集指令，获取所述第一错误数据，并发送给所述接收单元；其中，所述读失败指示用于指示从所述处理器中读取所述第一错误数据失败；所述接收单元接收所述处理器发送的所述第一错误数据。可选地，所述接收单元还可以在获取到所述第一错误数据之后，向所述处理器发送清除数据消息，以指示所述处理器删除自身记录的所述第一错误数据，避免存储资源的浪费。

可选地，所述基板管理控制器还可以包括确定单元，用于接收所述处理器发送的严重故障事件指示，所述严重故障事件指示是所述处理器在获取到所述第一错误数据并且所述第一错误数据属于严重的不可纠正错误类型时发送的；如果从接收到所述严重故障事件指示开始，在预设等待时间内，未接收到所述处理器发送的至少部分所述第一错误数据，则确定所述计算机死机。

可选地，所述基板管理控制器还可以包括故障告警单元，用于在所述确定单元接收所述处理器发送的严重故障事件指示后，向所述计算机的故障故障告警单元发送告警消息或进行打印操作，以将所述严重故障告警事件通知用户。

可选地，所述基板管理控制器还可以包括故障处理单元，用于根据故障解析机制，对所述第一错误数据进行解析，得到所述第一错误数据的故障解析信息。所述第一错误数据的故障解析信息可以包括所述第一错误数据中每个错误数据的产生时间、谁收集的该错误数据、该错误数据来自哪个处理器、哪个核（Core )、属于什么错误等；所述故障解析信息不仅可以提供给维修人员或用户去了解故障情况，还可以用于后续的故障定位、分析和处理。第一错误数据的故障解析信息进行分析，得到故障处理建议。所述预设的故以为故障定位信息或者处理建议信息，从而用户或者故障维修人员可以根据所述故障处理建议，对所述计算机进行处理，以恢复所述计算机。

由于故障处理单元只对所述第一错误数据的故障解析信息进行分析得到故障处理建议，所述第一错误数据可能只是所述计算机死机之前很短一段时间内产生的错误数据，例如所述第一错误数据为所述计算机死机前 0.8秒内产生的错误数据，因此为了提高故障定位和分析的准确度，所述故障处理单元可以对更多的错误数据的故障解析信息进行分析。具体地，所述接收单元还用于接收所述处理器发送的第二错误数据；所述第二错误数据为所述计算机产生所述第一错误数据之前预设时间内产生的错误数据；则可以根据所述故障解析机制，对所述第二错误数据进行解析，得到所述第二错误数据的故障解析信息，根据所述预设的故障处理机制，对所述第二错误数据的故障解析信息和所述第一错误数据的故障解析信息进行分析，得到所述故障处理建议。

可选地，所述故障处理单元还用于打印所述第一错误数据的故障解析信息或所述故障处理建议。

可选地，所述故障处理单元还用于将所述第一错误数据的故障解析信息、所述第二错误数据的故障解析信息、所述第一错误数据和所述第二错误数据中的至少一种保存到所述计算机的故障信息库；例如将所述第一错误数据的故障解析信息和所述第二错误数据的故障解析信保存到所述故障信息库息，或者将所述第一错误数据和所述第二错误数据保存到所述故障信息库息，从而在所述故障记录库中记录完整的故障记录。本发明实施例中的基板管理控制器，具体可以参照本发明实施例一或实施例二所述的基板管理控制器与处理器进行交互和进行故障处理。

在本发明实施例中，所述发送单元可以在确定所述计算机死机时，向所述计算机的处理器发送读请求消息，所述读请求消息用于请求读取所述处理器记录的第一错误数据，所述接收单元可以接收所述处理器返回的读响应消息，根据所述读响应消息，获得所述处理器记录的所述第一错误数据。本发明实施例无需利用操作系统，只需通过基板管理控制器就实现了计算机死机后计算机中的错误数据的获取，解决了现有技术中计算机出现严重的不可纠正错误导致系统死机后无法获取计算机中的错误数据的问题。

本发明实施例提供了一种计算机可读介质，包括计算机执行指令，以供计算机的处理器执行所述计算机执行指令时，所述计算机可以执行实施例三或实施例四所述的故障处理方法。

如图 6, 为本发明实施例提供的一种基板管理控制器，所述基板管理控制器可以包括：

处理器 601、存储器 602、系统总线 604和通信接口 605。处理器 601、存储器 602和通信接口 605之间通过系统总线 604连接并完成相互间的通信。

处理器 601可能为单核或多核中央处理单元，或者为特定集成电路，或者为被配置成实施本发明实施例的一个或多个集成电路。

存储器 602 可以为高速 RAM 存储器，也可以为非易失性存储器 ( non-volatile memory ) , 例口至少一个磁盘存 4诸器。

存储器 602用于计算机执行指令 603。具体的，计算机执行指令 603中可以包括程序代码。

当所述基板管理控制器运行时，处理器 601运行计算机执行指令 603，可以执行实施例三或实施例四所述的故障处理方法的方法流程。

本领域普通技术人员将会理解，本发明的各个方面、或各个方面的可能实现方式可以被具体实施为系统、方法或者计算机程序产品。因此，本发明的各方面、或各个方面的可能实现方式可以釆用完全硬件实施例、完全软件实施例（包括固件、驻留软件等等），或者组合软件和硬件方面的实施例的形式，在这里都统称为"电路"、 "模块"或者"系统"。此外，本发明的各方面、或各个方面的可能实现方式可以釆用计算机程序产品的形式，计算机程序产品是指存储在计算机可读介质中的计算机可读程序代码。

计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质包含但不限于电子、磁性、光学、电磁、红外或半导体系统、设备或者装置，或者前述的任意适当组合，如随机存取存储器 (RAM), 只读存储器（ROM)、可擦除可编程只读存储器 (EPROM或者快闪存储器)、光纤、便携式只读存储器 (CD-ROM：)。

计算机中的处理器读取存储在计算机可读介质中的计算机可读程序代码，使得处理器能够执行在流程图中每个步骤、或各步骤的组合中规定的功能动作；生成实施在框图的每一块、或各块的组合中规定的功能动作的装置。

计算机可读程序代码可以完全在用户的计算机上执行、部分在用户的计算机上执行、作为单独的软件包、部分在用户的计算机上并且部分在远程计算机上，或者完全在远程计算机或者计算机上执行。也应该注意，在某些替代实施方案中，在流程图中各步骤、或框图中各块所注明的功能可能不按图中注明的顺序发生。例如，依赖于所涉及的功能，接连示出的两个步骤、或两个块实际上可能被大致同时执行，或者这些块有时候可能被以相反顺序执行。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

权利要求

1、一种计算机，包括处理器和基板管理控制器，其特征在于，所述基板管理控制器用于在确定所述计算机死机时，向所述处理器发送读请求消息，所述读请求消息用于请求读取所述处理器记录的第一错误数据；

2、根据权利要求 1 所述的计算机，其特征在于，所述处理器还用于获取所述第一错误数据，并记录所述第一错误数据；

则所述基板管理控制器用于确定所述计算机死机具体为：

所述基板管理控制器用于接收所述处理器发送的严重故障事件指示，所述严重故障事件指示是所述处理器在获取到所述第一错误数据并且所述第一错误数据属于严重的不可纠正错误类型时发送的；

如果从接收到所述严重故障事件指示开始，在预设等待时间内，未接收到所述处理器发送的至少部分所述第一错误数据，则所述基板管理控制器用于确定所述计算机死机。

3、根据权利要求 1或 2所述的计算机，其特征在于，所述基板管理控制器用于根据所述读响应消息，获得所述处理器记录的所述第一错误数据具体为：当所述读响应消息中携带所述第一错误数据时，所述基板管理器用于从所述读响应消息中获得所述处理器记录的所述第一错误数据。

4、根据权利要求 1或 2所述的计算机，其特征在于，所述基板管理控制器用于根据所述读响应消息 , 获得所述处理器记录的所述第一错误数据具体为：

当所述读响应消息中携带读失败指示时，所述基板管理控制器用于指示所述计算机的热重启模块或者用户对所述计算机进行热重启；其中，所述读失败指示用于指示从所述处理器中读取所述第一错误数据失败，以使得所述处理器在所述计算机热重启时，执行所述计算机的基本输入输出系统的故障收集指令，根据所述基本输入输出系统的故障收集指令，获取所述第一错误数据，并发送给所述基板管理控制器；

所述基板管理控制器用于接收所述处理器发送的所述第一错误数据。

5、根据权利要求 1-4任一所述的计算机，其特征在于，所述基板管理控制器在根据所述读响应消息 , 获得所述处理器记录的所述第一错误数据之后，还用于向所述处理器发送清除数据消息，以指示所述处理器删除自身记录的所述第一错误数据。

6、根据权利要求 2所述的计算机，其特征在于，所述基板管理控制器还用于在接收所述处理器发送的严重故障事件指示后，向所述计算机的故障告警模块发送告警消息或进行打印操作，以将所述严重故障告警事件通知用户。

7、根据权利要求 1-6任一所述的计算机，其特征在于，所述基板管理控制器还用于根据故障解析机制，对所述第一错误数据进行解析，得到所述第一错误数据的故障解析信息。

8、根据权利要求 7所述的计算机，其特征在于，所述基板管理控制器还用于根据预设的故障处理机制，对所述第一错误数据的故障解析信息进行分析，得到故障处理建议。

9、根据权利要求 8所述的计算机，其特征在于，所述基板管理控制器在确定所述计算机死机之前，还用于接收所述处理器发送的第二错误数据，并根据所述故障解析机制，对所述第二错误数据进行解析，得到所述第二错误数据的故障解析信息，其中，所述第二错误数据为所述计算机产生所述第一错误数据之前预设时间内产生的错误数据；

则，所述基板管理控制器用于根据预设的故障处理机制，对所述第一错误数据的故障解析信息进行分析，得到故障处理建议包括：

所述基板管理控制器用于根据所述预设的故障处理机制，对所述第二错误数据的故障解析信息和所述第一错误数据的故障解析信息进行分析，得到所述故障处理建议。

10、根据权利要求 7-9任一项所述的计算机，其特征在于，所述基板管理控制器还用于打印所述第一错误数据的故障解析信息或所述故障处理建议。

11、根据权利要求 7-9任一项所述的计算机，其特征在于，所述基板管理控制器还用于将所述第一错误数据的故障解析信息、所述第二错误数据的故障解析信息、所述第一错误数据和所述第二错误数据中的至少一种保存到所述计算机的故障信息库。

12、一种故障处理方法，用于包括基板管理控制器和处理器的计算机，其特征在于，所述方法包括：

13、根据权利要求 12所述的方法，其特征在于，所述方法还包括：所述基板管理控制器接收所述处理器发送的严重故障事件指示，所述严重故障事件指示是所述处理器在获取到所述第一错误数据并且所述第一错误数据属于严重的不可纠正错误类型时发送的；如果从接收到所述严重故障事件指示开始，在预设等待时间内，未接收到所述处理器发送的至少部分所述第一错误数据，则确定所述计算机死机。

14、根据权利要求 12或 13所述的方法，其特征在于，所述基板管理控制器接收所述处理器返回的读响应消息，并根据所述读响应消息，获得所述处理器记录的所述第一错误数据包括：所述基板管理控制器在所述读响应消息中携带所述第一错误数据时，从所述读响应消息中获得所述处理器记录的所述第一错误数据。

15、根据权利要求 12或 13所述的方法，其特征在于，所述基板管理控制器接收所述处理器返回的读响应消息，并根据所述读响应消息，获得所述处理器记录的所述第一错误数据包括：

所述基板管理控制器在所述读响应消息中携带读失败指示时，指示所述计算机的热重启模块或者用户对所述计算机进行热重启，以使得所述处理器在所述计算机热重启时，执行所述计算机的基本输入输出系统的故障收集指令，根据所述基本输入输出系统的故障收集指令，获取所述第一错误数据，并发送给所述基板管理控制器；其中，所述读失败指示用于指示从所述处理器中读取所述第一错误数据失败；

所述基板管理控制器接收所述处理器发送的所述第一错误数据。

16、根据权利要求 13所述的方法，其特征在于，在所述基板管理控制器接收所述处理器发送的严重故障事件指示后，所述方法还包括：

所述基板管理控制器向所述计算机的故障告警模块发送告警消息或进行打印操作，以将所述严重故障告警事件通知用户。

17、根据权利要求 12-16任一所述的方法，其特征在于，在所述基板管理控制器根据所述读响应消息，获得所述处理器记录的所述第一错误数据之后，所述方法还包括：所述基板管理控制器根据故障解析机制，对所述第一错误数据进行解析，得到所述第一错误数据的故障解析信息。

18、根据权利要求 17所述的方法，其特征在于，所述方法还包括：所述基板管理控制器根据预设的故障处理机制，对所述第一错误数据的故障解析信息进行分析，得到故障处理建议。

19、根据权利要求 18所述的方法，其特征在于，在所述基板管理控制器确定所述计算机死机之前，所述方法还包括：所述基板管理控制器接收所述处理器发送的第二错误数据；其中，所述第二错误数据为所述计算机产生所述第一错误数据之前预设时间内产生的错误数据；

则，所述基板管理控制器根据预设的故障处理机制，对所述第一错误数据的故障解析信息进行分析，得到故障处理建议包括：

20、根据权利要求 17-19任一项所述的方法，其特征在于，所述方法还包括：所述基板管理控制器打印所述第一错误数据的故障解析信息或所述故障处理建议。

21、根据权利要求 17-19任一项所述的方法，其特征在于，所述方法还包括：所述基板管理控制器将所述第一错误数据的故障解析信息、所述第二错误数据的故障解析信息、所述第一错误数据和所述第二错误数据中的至少一种保存到所述计算机的故障信息库。

22、一种基板管理控制器，其特征在于，包括：

发送单元，用于在确定所述计算机死机时，向所述处理器发送读请求消息，所述读请求消息用于请求读取所述处理器记录的第一错误数据；

23、根据权利要求 22所述的基板管理控制器，其特征在于，还包括：确定单元，用于接收所述处理器发送的严重故障事件指示，所述严重故障事件指示是所述处理器在获取到所述第一错误数据并且所述第一错误数据属于严重的不可纠正错误类型时发送的；如果从接收到所述严重故障事件指示开始，在预设等待时间内，未接收到所述处理器发送的至少部分所述第一错误数据，则确定所述计算机死机。

24、根据权利要求 22或 23所述的基板管理控制器，其特征在于，所述接收单元接收所述处理器返回的读响应消息，并根据所述读响应消息，获得所述处理器记录的所述第一错误数据包括：所述接收单元在所述读响应消息中携带所述第一错误数据时，从所述读响应消息中获得所述处理器记录的所述第一错误数据。

25、根据权利要求 22或 23所述的基板管理控制器，其特征在于，所述接收单元接收所述处理器返回的读响应消息，并根据所述读响应消息，获得所述处理器记录的所述第一错误数据包括：

所述接收单元在所述读响应消息中携带读失败指示时，指示所述计算机的热重启单元或者用户对所述计算机进行热重启，以使得所述处理器在所述计算机热重启时，执行所述计算机的基本输入输出系统的故障收集指令，根据所述基本输入输出系统的故障收集指令，获取所述第一错误数据，并发送给所述接收单元；其中，所述读失败指示用于指示从所述处理器中读取所述第一错误数据失败；

所述接收单元接收所述处理器发送的所述第一错误数据。

26、根据权利要求 23所述的基板管理控制器，其特征在于，还包括：故障告警单元，用于在所述确定单元接收所述处理器发送的严重故障事件指示后，向所述计算机的故障故障告警单元发送告警消息或进行打印操作，以将所述严重故障告警事件通知用户。

27、根据权利要求 22-26任一所述的基板管理控制器，其特征在于，还包括：

故障处理单元，用于根据故障解析机制，对所述第一错误数据进行解析，得到所述第一错误数据的故障解析信息。

28、根据权利要求 27所述的基板管理控制器，其特征在于，所述故障处理单元还用于根据预设的故障处理机制，对所述第一错误数据的故障解析信息进行分析，得到故障处理建议。

29、根据权利要求 28所述的基板管理控制器，其特征在于，所述接收单元还用于接收所述处理器发送的第二错误数据；

所述故障处理单元还用于根据所述故障解析机制，对所述第二错误数据进行解析，得到所述第二错误数据的故障解析信息；其中，所述第二错误数据为所述计算机产生所述第一错误数据之前预设时间内产生的错误数据；则，所述故障处理单元用于根据预设的故障处理机制，对所述第一错误数据的故障解析信息进行分析，得到故障处理建议包括：

所述故障处理单元根据所述预设的故障处理机制，对所述第二错误数据的故障解析信息和所述第一错误数据的故障解析信息进行分析，得到所述故障处理建议。

30、根据权利要求 27-29任一项所述的基板管理控制器，其特征在于，所述故障处理单元还用于将所述第一错误数据的故障解析信息、所述第二错误数据的故障解析信息、所述第一错误数据和所述第二错误数据中的至少一种保存到所述计算机的故障信息库。

31、一种基板管理控制器，其特征在于，所述基板管理控制器包括处理器、存储器、总线和通信接口；

所述存储器用于存储计算机执行指令，所述处理器与所述存储器通过所述总线连接，当所述基板管理控制器运行时，所述处理器执行所述存储器存储的所述计算机执行指令，以使所述基板管理控制器执行如权利要求 12-21 中任一项所述的故障处理方法。

32、一种计算机可读介质，其特征在于，包括计算机执行指令，以供计算机的处理器执行所述计算机执行指令时，所述计算机执行如权利要求 12-21中任一项所述的故障处理方法。