KR20160128404A - 오류 처리 방법, 관련 장치 및 컴퓨터 - Google Patents

오류 처리 방법, 관련 장치 및 컴퓨터 Download PDF

Info

Publication number
KR20160128404A
KR20160128404A KR1020167027222A KR20167027222A KR20160128404A KR 20160128404 A KR20160128404 A KR 20160128404A KR 1020167027222 A KR1020167027222 A KR 1020167027222A KR 20167027222 A KR20167027222 A KR 20167027222A KR 20160128404 A KR20160128404 A KR 20160128404A
Authority
KR
South Korea
Prior art keywords
error
processor
error data
computer
management controller
Prior art date
Application number
KR1020167027222A
Other languages
English (en)
Other versions
KR101944874B1 (ko
Inventor
강 송
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20160128404A publication Critical patent/KR20160128404A/ko
Application granted granted Critical
Publication of KR101944874B1 publication Critical patent/KR101944874B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0778Dumping, i.e. gathering error/state information after a fault for later diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Abstract

본 발명의 실시예는, 오류 처리 방법, 관련된 장치 및 컴퓨터를 제공한다. 컴퓨터가 다운된 것으로 결정되면, 컴퓨터의 베이스 보드 관리 제어기는 판독 요청 메시지를 컴퓨터의 프로세서에 송신하고, 프로세서에 의해 리턴 된 판독 응답 메시지를 수신하며, 판독 응답 메시지에 따라 프로세서에 의해 기록된 제1 에러 데이터를 획득할 수 있고, 판독 요청 메시지는 프로세서에 의해 기록된 제1 에러 데이터의 판독을 요청하는 데 사용된다. 본 발명의 실시예의 방식으로, OS는 사용되지 않아도 되며, 베이스 보드 관리 제어기를 사용하여, 컴퓨터가 다운된 후, 에러 데이터의 획득이 구현되고, 정정 불가능한 심각한 에러가 컴퓨터에서 발생한 후, 컴퓨터의 에러 데이터가 수집될 수 없는 것이 시스템의 다운을 일으키는 문제점이 해결된다.

Description

오류 처리 방법, 관련 장치 및 컴퓨터{FAULT PROCESSING METHOD, RELATED DEVICE AND COMPUTER}
본 발명의 실시예는 컴퓨터 기술에 대한 것으로서, 보다 상세하게는, 오류 처리 방법, 관련 장치 및 컴퓨터에 관한 것이다.
정보 기술의 대규모 발전으로, 컴퓨터는 다양한 분야에 적용되고 있다. 컴퓨터의 오류는 일반적으로, 소프트웨어 오류, 하드웨어 오류, 작동(구성) 오류, 및 다른 오류를 포함한다. 하드웨어 오류는, 에러가 발생하면, 재생, 주로 개인적 경험에 의존하여 결정에 어려움이 있고, 오류가 발생하면, 복수회의, 삽입 및 제거/교체하여야 하는 오류의 위치를 찾아내는 등의 어려움이 있다. 따라서, 하드웨어 오류, 예를 들어, 메모리, 프로세서, 입출력 장치 등에서 발생하는 오류는 처리하기 가장 어렵다.
일반적으로, 하드웨어 오류는 컴퓨터에서 정정 불가능한 에러를 유발한다. 정정 불가능한 에러는 컴퓨터의 서비스 충돌을 일으키고 컴퓨터의 작동 시간을 줄일 뿐 아니라, 심지어 고장 이벤트를 일으킬 수 있다. 종래 기술에서, 컴퓨터의 오류는 주로, 시스템에서 정정 불가능한 에러가 발생하면, 프로세서는 에러 데이터를 기록하고 OS(Operating System)에 통지를 송신하고, 통지를 수신한 후, OS는 프로세서에 의해 기록된 에러 데이터를 캡처하고, 사용자가 분석하고, 유류를 찾아내며, 오류로부터 복구하도록, 에러 데이터를 인쇄하는 방법을 사용하였다.
종래 기술에서, OS는 에러 데이터를 캡처하는 것을 구현해야 했다. 그러나 컴퓨터에서 정정 불가능한 심각한 에러가 발생하고, 컴퓨터가 다운(본 발명에서, 컴퓨터의 다운은 컴퓨터에서 검은 화면이 발생하는 하고, 컴퓨터의 마우스 또는 키보드를 이용하여 입력되지 않으며, 컴퓨터의 프로세서는 컴퓨터 명령을 실행할 수 없는 것을 의미한다.) 되면, OS는 더는 작업할 수 없고 컴퓨터에서 에러 데이터를 캡처할 수 없게 되어, 오류를 분석하고 처리하며, 오류로부터 회복하는데 어려움이 있다.
본 발명의 실시예는 정정 불가능한 심각한 에러가 컴퓨터에서 발생하고 컴퓨터의 다운 원인이 된 후, 컴퓨터의 에러 데이터가 획득될 수 있도록, 오류 처리 방법, 관련 장치, 및 컴퓨터를 제안한다.
제1 측면에 따르면, 본 발명의 실시예는 컴퓨터를 제안하고, 이러한 컴퓨터는, 프로세서 및 베이스 보드(baseboard) 관리 제어기를 포함하고, 상기 베이스 보드 관리 제어기는, 상기 컴퓨터가 다운된 것으로 결정하면, 상기 프로세서에 판독 요청 메시지를 송신하도록 구성되고, 상기 판독 요청 메시지는, 상기 프로세서에 의해 기록된 제1 에러 데이터의 판독을 요청하기 위해 사용되며, 상기 프로세서는, 상기 판독 요청 메시지를 수신하고, 상기 베이스 보드 관리 제어기에 판독 응답 메시지를 송신하도록 구성되며, 상기 베이스 보드 관리 제어기는, 상기 프로세서에 의해 리턴된 상기 판독 응답 메시지를 수신하고, 상기 판독 응답 메시지에 따라, 상기 프로세서에 의해 기록된 제1 에러 데이터를 획득하도록 구성된다.
제1 측면에 따르면, 가능한 제1 구현 방식에서, 상기 프로세서는 추가로, 상기 제1 에러 데이터를 획득하고, 상기 제1 에러 데이터를 기록하도록 구성되며, 상기 베이스 보드 관리 제어기가, 상기 컴퓨터가 다운된 것으로 결정하도록 구성된 것은 구체적으로, 상기 베이스 보드 관리 제어기는, 상기 프로세서에 의해 송신된 심각한 에러 이벤트 지시(fault event indication)를 수신하도록 구성되고, 상기 심각한 에러 이벤트 지시는, 상기 프로세서가 상기 제1 에러 데이터를 획득하고 또 상기 제1 에러 데이터가 정정 불가능한 심각한 에러 유형인 경우에 상기 프로세서에 의해 송신되며, 상기 심각한 에러 이벤트 지시가 수신된 때로부터 시작하는 미리 설정된 대기 시간 내에, 상기 프로세서에 의해 송신된 상기 제1 에러 데이터의 적어도 일부가 수신되지 않으면, 상기 베이스 보드 관리 제어기는 상기 컴퓨터가 다운된 것으로 결정하도록 구성된다.
제1 측면 또는 제1 측면의 가능한 제1 구현 방식을 참조하면, 가능한 제2 구현 방식에서, 상기 베이스 보드 관리 제어기가, 상기 판독 응답 메시지에 따라, 상기 프로세서에 의해 기록된 제1 에러 데이터를 획득하도록 구성된 것은 구체적으로, 상기 판독 응답 메시지가 상기 제1 에러 데이터를 가지고 있으면, 상기 베이스 보드 관리 제어기는, 상기 판독 응답 메시지로부터, 상기 프로세서에 의해 기록된 제1 에러 데이터를 획득하도록 구성된 것이다.
제1 측면 또는 제1 측면의 가능한 제1 구현 방식을 참조하면, 가능한 제3 구현 방식에서, 상기 베이스 보드 관리 제어기가, 상기 판독 응답 메시지에 따라, 상기 프로세서에 의해 기록된 제1 에러 데이터를 획득하도록 구성된 것은 구체적으로, 상기 판독 응답 메시지가 판독 실패 지시(read failure indication)를 가지고 있으면, 상기 컴퓨터에 웜 리부트(warm reboot)를 실행하도록, 상기 베이스 보드 관리 제어기는 웜 리부트 모듈 또는 상기 컴퓨터의 사용자에 명령하도록 구성되고, 상기 컴퓨터의 상기 웜 리부트 동안, 상기 프로세서가 상기 컴퓨터의 기본 입출력 시스템의 에러 수집 명령을 실행하고, 상기 기본 입출력 시스템의 에러 수집 명령에 따라 상기 제1 에러 데이터를 획득하여, 상기 베이스 보드 관리 제어기에 상기 제1 에러 데이터를 송신할 수 있도록, 상기 판독 실패 지시는, 상기 프로세서로부터 상기 제1 에러 데이터 판독이 실패한 것을 지시하는 데 사용되며, 상기 베이스 보드 관리 제어기는, 상기 프로세서에 의해 송신된 상기 제1 에러 데이터를 수신하도록 구성된 것이다.
제1 측면 또는 제1 측면의 가능한 제1 내지 제3 구현 방식을 참조하면, 가능한 제4 구현 방식에서, 상기 베이스 보드 관리 제어기는 추가로, 상기 제1 에러 데이터의 오류 파싱 정보(fault parsing information)를 획득하기 위해, 오류 파싱 메커니즘에 따라, 상기 제1 에러 데이터를 파싱(parse)하도록 구성된다.
제1 측면의 가능한 제4 구현 방식을 참조하면, 가능한 제5 구현 방식에서, 상기 베이스 보드 관리 제어기는 추가로, 오류 처리 제안을 획득하기 위해, 미리 설정된 오류 처리 메커니즘에 따라, 상기 제1 에러 데이터의 오류 파싱 정보를 분석하도록 구성된다.
제1 측면의 가능한 제5 구현 방식을 참조하면, 가능한 제6 구현 방식에서, 상기 컴퓨터가 다운된 것으로 결정되기 전, 상기 베이스 보드 관리 제어기는 추가로, 제2 에러 데이터의 오류 파싱 정보를 획득하기 위해, 상기 프로세서에 의해 송신된 상기 제2 에러 데이터를 수신하고, 상기 오류 파싱 메커니즘에 따라, 상기 제2 에러 데이터를 파싱하도록 구성되고, 상기 제2 에러 데이터는, 상기 컴퓨터가 상기 제1 에러 데이터를 생성하기 전, 미리 설정된 시간 내에 생성된 에러 데이터이며, 상기 베이스 보드 관리 제어기가, 오류 처리 제안을 획득하기 위해, 미리 설정된 오류 처리 메커니즘에 따라, 상기 제1 에러 데이터의 오류 파싱 정보를 분석하도록 구성된 것은, 상기 베이스 보드 관리 제어기는, 상기 오류 처리 제안을 획득하기 위해, 상기 미리 설정된 오류 처리 메커니즘에 따라, 상기 제2 에러 데이터의 오류 파싱 정보 및 상기 제1 에러 데이터의 오류 파싱 정보를 분석하도록 구성된다.
제2 측면에 따르면, 본 발명의 실시예는 오류 처리 방법을 제안하고, 이러한 오류 처리 방법은, 상기 오류 처리 방법은 베이스 보드(baseboard) 관리 제어기 및 프로세서를 포함하는 컴퓨터에 적용되고, 상기 오류 처리 방법은, 상기 컴퓨터가 다운된 것으로 결정하면, 상기 베이스 보드 관리 제어기가 상기 프로세서에 판독 요청 메시지를 송신하는 단계 - 상기 판독 요청 메시지는, 상기 프로세서에 의해 기록된 제1 에러 데이터의 판독을 요청하기 위해 사용됨 -; 및 상기 베이스 보드 관리 제어기가, 상기 프로세서에 의해 리턴된 판독 응답 메시지를 수신하고, 상기 판독 응답 메시지에 따라, 상기 프로세서에 의해 기록된 제1 에러 데이터를 획득하는 단계를 포함한다.
제2 측면에 따르면, 가능한 제1 구현 방식에서, 상기 오류 처리 방법은, 상기 베이스 보드 관리 제어기가, 상기 프로세서에 의해 송신된 심각한 에러 이벤트 지시를 수신하는 단계 - 상기 심각한 에러 이벤트 지시는, 상기 프로세서가 상기 제1 에러 데이터를 획득하고 또 상기 제1 에러 데이터가 정정 불가능한 심각한 에러 유형인 경우에 상기 프로세서에 의해 송신됨 -; 및 상기 프로세서에 의해 송신된 제1 에러 데이터의 적어도 일부가, 상기 심각한 에러 이벤트 지시가 수신된 때로부터 시작하는 미리 설정된 대기 시간 내에 수신되지 않으면, 상기 컴퓨터가 다운된 것으로 결정하는 단계를 더 포함한다.
제2 측면 또는 제2 측면의 가능한 제1 구현 방식을 참조하면, 가능한 제2 구현 방식에서, 상기 베이스 보드 관리 제어기가, 상기 프로세서에 의해 리턴된 판독 응답 메시지를 수신하고, 상기 판독 응답 메시지에 따라, 상기 프로세서에 의해 기록된 제1 에러 데이터를 획득하는 단계는, 상기 판독 응답 메시지가 상기 제1 에러 데이터를 가지고 있으면, 상기 베이스 보드 관리 제어기가, 상기 판독 응답 메시지로부터, 상기 프로세서에 의해 기록된 제1 에러 데이터를 획득하는 단계를 포함한다.
제2 측면 또는 제2 측면의 가능한 제1 구현 방식을 참조하면, 가능한 제3 구현 방식에서, 상기 베이스 보드 관리 제어기가, 상기 프로세서에 의해 리턴된 판독 응답 메시지를 수신하고, 상기 판독 응답 메시지에 따라, 상기 프로세서에 의해 기록된 제1 에러 데이터를 획득하는 단계는, 상기 판독 응답 메시지가 판독 실패 지시를 가지고 있으면, 상기 프로세서가, 상기 컴퓨터의 웜 리부트(warm reboot) 동안, 상기 컴퓨터의 기본 입출력 시스템의 에러 수집 명령을 실행하고, 상기 기본 입출력 시스템의 에러 수집 명령에 따라 상기 제1 에러 데이터를 획득하여, 상기 제1 에러 데이터를 상기 베이스 보드 관리 제어기에 송신할 수 있도록, 상기 베이스 보드 제어기가, 웜 리부트 모듈 또는 상기 컴퓨터의 사용자에 상기 컴퓨터에 웜 리부트를 실행하도록 명령하는 단계; 및 상기 베이스 보드 관리 제어기가 상기 프로세서에 의해 송신된 제1 에러 데이터를 수신하는 단계를 포함하고, 상기 판독 실패 지시는, 상기 프로세서로부터 상기 제1 에러 데이터 판독은 실패한 것을 지시하는 데 사용된다.
제2 측면 또는 제2 측면의 가능한 제1 내지 제3 구현 방식을 참조하면, 가능한 제4 구현 방식에서, 상기 베이스 보드 관리 제어기가, 상기 판독 응답 메시지에 따라, 상기 프로세서에 의해 기록된 제1 에러 데이터를 획득하는 동작 후, 상기 오류 처리 방법은, 상기 베이스 보드 관리 제어기가, 상기 제1 에러 데이터의 오류 파싱 정보(fault parsing information)를 획득하기 위해, 오류 파싱 메커니즘에 따라, 상기 제1 에러 데이터를 파싱(parsing)하는 단계를 더 포함한다.
제2 측면의 가능한 제4 구현 방식을 참조하면, 가능한 제5 구현 방식에서, 상기 베이스 보드 관리 제어기가, 오류 처리 제안을 획득하기 위해, 미리 설정된 오류 처리 메커니즘에 따라, 상기 제1 에러 데이터의 오류 파싱 정보를 분석하는 단계를 더 포함한다.
제2 측면의 가능한 제5 구현 방식을 참조하면, 가능한 제6 구현 방식에서, 상기 베이스 보드 관리 제어기가, 상기 컴퓨터가 다운된 것으로 결정하기 전, 상기 오류 처리 방법은, 상기 베이스 보드 관리 제어기가, 상기 프로세서에 의해 송신된 제2 에러 데이터를 수신하는 단계 - 상기 제2 에러 데이터는 상기 컴퓨터가 상기 제1 에러 데이터를 생성하기 전, 미리 설정된 시간 내에서 생성된 에러 데이터임 -를 더 포함하고, 상기 베이스 보드 관리 제어기가, 오류 처리 제안을 획득하기 위해, 미리 설정된 오류 처리 메커니즘에 따라, 상기 제1 에러 데이터의 오류 파싱 정보를 분석하는 단계는 상기 베이스 보드 관리 제어기가, 제2 에러 데이터의 오류 파싱 정보를 획득하기 위해, 상기 오류 파싱 메커니즘에 따라, 상기 제2 에러 데이터를 파싱(parsing)하고, 상기 오류 처리 제안을 획득하기 위해, 상기 미리 설정된 오류 처리 메커니즘에 따라, 상기 제2 오류 데이터의 오류 파싱 정보 및 상기 제1 에러 데이터의 오류 파싱 정보를 분석하는 단계를 포함한다.
제3 측면에 따르면, 본 발명의 실시예는 베이스 보드 관리 제어기를 제안하고, 이러한 베이스 보드 관리 제어기는, 컴퓨터가 다운된 것으로 결정되면, 판독 요청 메시지를 프로세서에 송신하도록 구성된 송신 유닛; 및 상기 프로세서에 의해 리턴된 판독 응답 메시지를 수신하고, 상기 판독 응답 메시지에 따라, 상기 프로세서에 의해 기록된 제1 에러 데이터를 획득하도록 구성된 수신 유닛을 포함하고, 상기 판독 요청 메시지는 프로세서에 의해 기록된 제1 에러 데이터의 판독을 요청하기 위해 사용된다.
제3 측면에 따르면, 가능한 제1 구현 방식에서, 컴퓨터가 다운된 것으로 결정되면, 판독 요청 메시지를 프로세서에 송신하도록 구성된 송신 유닛; 및 상기 프로세서에 의해 리턴된 판독 응답 메시지를 수신하고, 상기 판독 응답 메시지에 따라, 상기 프로세서에 의해 기록된 제1 에러 데이터를 획득하도록 구성된 수신 유닛
을 포함하고, 상기 판독 요청 메시지는 프로세서에 의해 기록된 제1 에러 데이터의 판독을 요청하기 위해 사용된다.
제3 측면 또는 제3 측면의 가능한 제1 구현 방식을 참조하면, 가능한 제2 구현 방식에서, 상기 수신 유닛이, 상기 프로세서에 의해 리턴된 판독 응답 메시지를 수신하고, 상기 판독 응답 메시지에 따라, 상기 프로세서에 의해 기록된 제1 에러 데이터를 획득하는 것은, 상기 판독 응답 메시지가 상기 제1 에러 데이터를 가지고 있으면, 상기 수신 유닛은, 상기 판독 응답 메시지로부터, 상기 프로세서에 의해 기록된 제1 에러 데이터를 수신하는 것을 포함한다.
제3 측면 또는 제3 측면의 가능한 제1 구현 방식을 참조하면, 가능한 제3 구현 방식에서, 상기 수신 유닛이, 상기 프로세서에 의해 리턴된 판독 응답 메시지를 수신하고, 상기 판독 응답 메시지에 따라, 상기 프로세서에 의해 기록된 제1 에러 데이터를 획득하는 것은, 상기 판독 응답 메시지가 판독 실패 지시를 가지고 있으면, 상기 프로세서가, 상기 컴퓨터의 웜 리부트(warm reboot) 동안, 상기 컴퓨터의 기본 입출력 시스템의 에러 수집 명령을 실행하고, 상기 기본 입출력 시스템의 에러 수집 명령에 따라, 상기 제1 에러 데이터를 획득하며, 상기 수신 유닛에 상기 제1 에러 데이터를 송신할 수 있도록, 상기 수신 유닛은, 웜 리부트 유닛 또는 상기 컴퓨터의 사용자에게 상기 컴퓨터에 웜 리부트를 실행하도록 명령하는 것, 및 상기 수신 유닛이 상기 프로세서에 의해 송신된 제1 에러 데이터를 수신하는 것
을 포함하고, 상기 판독 실패 지시는, 상기 프로세서로부터 상기 제1 에러 데이터 판독은 실패한 것을 지시하는 데 사용된다.
제3 측면 또는 제3 측면의 가능한 제1 내지 제3 구현 방식을 참조하면, 가능한 제4 구현 방식에서, 제1 에러 데이터의 오류 파싱 정보(fault parsing information)를 획득하기 위해, 오류 파싱 메커니즘에 따라, 상기 제1 에러 데이터의 오류 파싱 정보를 파싱(parse)하도록 구성된 오류 처리 유닛을 더 포함한다.
제3 측면의 가능한 제4 구현 방식을 참조하면, 가능한 제5 구현 방식에서, 오류 처리 제안을 획득하기 위해, 미리 설정된 오류 처리 메커니즘에 따라, 상기 제1 에러 데이터의 오류 파싱 정보를 분석하도록 구성된다.
제3 측면의 가능한 제5 구현 방식을 참조하면, 가능한 제6 구현 방식에서, 상기 프로세서에 의해 송신된 제2 에러 데이터를 수신하도록 구성되고, 상기 오류 처리 유닛은 추가로, 제2 에러 데이터의 오류 파싱 정보를 획득하기 위해, 상기 오류 파싱 메커니즘에 따라, 상기 제2 에러 데이터를 파싱하도록 구성되며, 상기 제2 에러 데이터는, 상기 컴퓨터가 상기 제1 에러 데이터를 생성하기 전, 미리 설정된 시간 내에서 생성된 데이터이고, 상기 오류 처리 유닛이, 오류 처리 제안을 획득하기 위해, 미리 설정된 오류 처리 메커니즘에 따라, 상기 제1 에러 데이터의 오류 파싱 정보를 분석하도록 구성된 것은, 상기 오류 처리 제안을 획득하기 위해, 상기 미리 설정된 오류 처리 메커니즘에 따라, 상기 오류 처리 유닛이 상기 제2 에러 데이터의 오류 파싱 정보 및 상기 제1 에러 데이터의 오류 파싱 정보를 분석하는 것이다.
제4 측면에 따르면, 본 발명의 실시예는 베이스 보드 관리 제어기를 제안하고, 이러한 베이스 보드 관리 제어기는, 프로세서, 메모리, 버스, 및 통신 인터페이스를 포함하고, 상기 메모리는, 컴퓨터 실행 가능한 명령을 저장하도록 구성되고, 상기 프로세서는 상기 버스를 사용하여 상기 메모리에 연결되어 있고, 상기 베이스 보드 관리 제어기가 동작할 때, 상기 베이스 보드 관리 제어기가 제2 측면 또는 제2 측면의 가능한 구현 방식들 중 어느 하나에 따른 오류 처리 방식에 따라 오류 처리 방법을 실행할 수 있도록, 상기 프로세서는 상기 메모리에 저장된 상기 컴퓨터 실행 가능한 명령을 실행한다.
제5 측면에 따르면, 본 발명의 실시예는 컴퓨터 판독 가능한 매체를 제안하고, 이러한 컴퓨터 판독 가능한 매체는, 컴퓨터의 프로세서가 컴퓨터 실행 가능한 명령을 실행할 때, 상기 컴퓨터가 제2 측면 또는 제2 측면의 가능한 구현 방식들 중 어느 하나에 따른 오류 처리 방식에 따라 오류 처리 방법을 실행할 수 있도록, 컴퓨터 실행 가능한 명령을 포함한다.
본 발명의 실시예에서, 컴퓨터가 다운된 것으로 결정하면, 컴퓨터의 베이스 보드 관리 제어기는 판독 요청 메시지를 컴퓨터의 프로세서에 송신하고, 프로세서에 의해 리턴된 판독 응답 메시지를 수신하며, 판독 응답 메시지에 따라, 프로세서에 의해 기록된 제1 에러 데이터를 획득할 수 있고, 판독 요청 메시지는 프로세서에 의해 기록된 제1 에러 데이터의 판독을 요청하는 데 사용된다. 전술한 방식을 이용하여, OS는 사용되지 않아도 되고, 베이스 보드 관리 제어기만 컴퓨터가 다운된 후 컴퓨터의 에러 데이터의 획득을 구현하면 되며, 종래 기술에서, 시스템 다운을 일으키는, 컴퓨터에서 정정 불가능한 심각한 에러가 발생한 후, 컴퓨터의 에러 데이터는 획득 될 수 없는 문제가 해결된다.
본 발명의 실시예에서의 기술적 해결 수단을 더욱 분명하게 설명하기 위해, 이하에서, 실시예 또는 종래 기술을 설명하는 데 필요한 첨부된 도면을 간략하게 설명한다. 분명한 것은, 이하의 설명에서 첨부된 도면은 본 발명의 일부 실시예만을 나타낸 것이며, 당업자는 창의적 노력 없이, 첨부된 도면으로부터 다른 실시예를 유도할 수 있다는 것이다.
도 1은 본 발명의 실시예에 따른 컴퓨터의 개략도이다.
도 2는 본 발명의 다른 실시예에 따른 컴퓨터의 개략도이다.
도 3은 본 발명의 실시예에 따른 오류 처리 방법의 방법 흐름도이다.
도 4는 본 발명의 다른 실시예에 따른 오류 처리 방법의 방법 흐름도이다.
도 5는 본 발명의 실시예에 따른 베이스 보드 관리 제어기의 개략도이다.
도 6은 본 발명의 다른 실시예에 따른 베이스 보드 관리 제어기의 구성의 개략도이다.
본 발명의 실시예는 정정 불가능한 심각한 에러가 컴퓨터에서 발생하고 컴퓨터의 다운 원인이 된 후, 컴퓨터의 에러 데이터가 획득될 수 있도록, 오류 처리 방법, 관련 장치, 및 컴퓨터를 제안한다.
본 명세서에서, 본 발명의 청구항 및 첨부 도면에서, "제1" 및 "제2"는 유사한 오브젝트 사이를 구별하도록 의도된 것이나, 구체적 순서 또는 시퀀스를 의미하지는 않는다. 또한, 이러한 방법으로 사용되는 번호는 적절한 경우에 서로 교환할 수 있다. 본 발명의 본 명세서의 상세한 설명, 청구항 및 첨부된 도면에서, 컴퓨터의 다운은 컴퓨터에 검은 화면이 발생하고, 컴퓨터의 프로세서가 컴퓨터 명령을 실행할 수 없고, 마우스 또는 컴퓨터의 키보드와 같은 입력 장치를 사용하여 어떤 입력도 접수되지 않는 것을 의미한다.
제1 실시예
도 1은 본 발명의 실시예에 따른 컴퓨터의 개략도이다. 컴퓨터는 프로세서(11), 베이스 보드 관리 제어기(BMC: baseboard management controller, 12)를 포함하낟.
베이스 보드 관리 제어기(12)는, 컴퓨터가 다운된 것으로 결정하면, 판독 요청 메시지를 프로세서(11)에 송신하도록 구성되고, 판독 요청 메시지는 프로세서에 의해 기록된 제1 에러 데이터의 판독을 요청하는 데 사용되며, 제1 에러 데이터는 컴퓨터에 의해 생성된 에러 데이터이고, 컴퓨터에서 생성된 모든 데이터일 수 있거나, 추가로, 컴퓨터에서 생성된 에러 데이터의 일부일 수 있다. 예를 들어, 제1 에러 데이터는 컴퓨터가 다운되기 전, 2초 내에 생성된 데이터일 수 있으나 본 발명의 실시예가 이에 제한되는 것은 아니다.
프로세서(11)는 프로세서(11)에 의해 리턴된 판독 응답 메시지를 수신하고, 판독 응답 메시지에 따라, 프로세서(11)에 의해 기록된 제1 에러 데이터를 획득하도록 구성된다.
예를 들어, 프로세서(11)는 프로세서(11)의 레지스터에 제1 에러 데이터를 기록할 수 있다. 베이스 보드 관리 제어기(12)는, 레지스터로부터 제1 에러 데이터를 획득하기 위해, 레지스터의 어드레스를 사용하여, 판독 요청 메시지를 프로세서(11)에 송신할 수 있다. 컴퓨터가 다운되고 컴퓨터 명령을 실행하지 못해도, 프로세서(11)의 레지스터는 판독 요청 메시지에 응답하고 판독 응답 메시지를 리턴할 수 있다. 예를 들어, 베이스 보드 관리 제어기(12)가, 판독 응답 메시지에 따라, 제1 에러 데이터를 획득할 수 있도록, 제1 에러 데이터를 리턴할 수 있다. 본 발명의 본 실시예에서, 제1 에러 데이터는 에러 데이터의 하나 또는 그 이상의 에러 데이터의 부분을 포함할 수 있으나, 본 발명의 실시예가 이에 한정되는 것은 아니다.
본 발명의 본 실시예에서, 컴퓨터가 다운된 것으로 결정되면, 베이스 보드 관리 제어기(12)는, 판독 요청 메시지를 프로세서(11)에 송신하고, 프로세서(11)에 의해 리턴된 판독 응답 메시지를 수신하며, 프로세서(!1)에 의해 기록된 판독 응답 메시지에 따라, 제1 에러 데이터를 획득하며, 판독 요청 메시는 프로세서(11)에 의해 기록된 제1 에러 데이터의 판독을 요청하는 데 사용된다. 본 발명의 본 실시예에서, OS는 사용되지 않아도 되고, 베이스 보드 관리 제어기만, 컴퓨터가 다운된 후 컴퓨터의 에러 데이터의 수집을 구현해야 하며, 정정 불가능한 심각한 에러가 컴퓨터에서 발생한 후, 컴퓨터의 에러 데이터가 수집될 수 없는 것이 시스템의 다운을 일으키는 문제점이 해결된다.
본 발명의 본 실시예는 이하에서 상세히 설명된다.
(1) 컴퓨터의 다운을 결정하는 방법
대체로, 오류에 의해 유발되는 컴퓨터의 정정 불가능한 오류는 돌발 에러(Catastrophic Error), 치명적 오류(Fatal Error), 및 복구 가능한 에러(Recoverable Error)로 그룹화될 수 있다. 돌발 에러 및 치명적 오류는 가장 심각하며, 블루 스크린을 일으킬 수 있고, 컴퓨터에서 퍼플 스크린 또는 심지어 다운(예를 들어, 블랙 스크린 및 중단(suspension))이 발생한다. 따라서, 컴퓨터의 돌발 에러 또는 치명적 오류는 모니터링 되어야 한다. 예를 들어, IERR(Internal Error, 돌발 에러에 속함.) 또는 MCERR(Machine Check Error, 치명적 오류에 속함.)은 모니터링 된다. 컴퓨터에서 돌발 에러 또는 치명적 에러가 발생할 때, 컴퓨터가 기본 입출력 시스템(BIOS)의 명령을 실행하지 못하거나, OS의 명령을 실행하지 못하면, 컴퓨터가 다운된 것으로 결정된다.
구체적으로, 프로세서(11)는 추가로, 제1 에러 데이터를 획득하고, 제1 에러 데이터를 기록하도록 구성될 수 있다. 예를 들어, 프로세서(11)는 제1 에러 데이터를 생성 또는 수신할 수 있고, 컴퓨터의 캐시, 프로세서(11)의 레지스터, 또는 저장 능력이 있는 저장 장치를 가진 다른 모듈에 제1 에러 데이터를 기록할 수 있다. 일 측면에서, 프로세서(11)가 제1 에러 데이터를 획득한 후, 컴퓨터는 다운되지 않았으면, 프로세서(11)는 제1 에러 데이터를 베이스 보드 관리 제어기에 송신한다. 예를 들어, 컴퓨터의 기본 입출력 시스템의 에러 수집 명령을 미리 구성한다. 컴퓨터가 다운되지 않았으면, 프로세서(11)는 기본 입출력 시스템의 에러 수집 명령을 실행하고, 에러 수집 명령을 실행하고, 기본 입출력 시스템의 에러 수집 명령에 따라, 제1 에러 데이터를 베이스 보드 관리 제어기에 송신한다. 컴퓨터가 다운되면, 프로세서(11)는 어떠한 컴퓨터 명령이라도 실행할 수 없다. 다른 측면에서, 프로세서(11)가 제1 에러 데이터를 획득한 후, 제1 에러 데이터는 정정 불가능한 심각한 에러 유형인 경우, 프로세서(11)는 추가로, 컴퓨터에서 발생한, 다운을 유발할 수 있는 돌발 에러 또는 심각한 에러를 베이스 보드 관리 제어기(12)에 통지하기 위해, 심각한 에러 이벤트 지시를 송신한다. 제1 에러 데이터가 정정 불가능한 심각한 에러 유형인 것은 제1 에러 데이터가 돌발 에러 또는 심각한 에러에 속하는 것을 나타낸다. 따라서, 베이스 보드 관리 제어기(12)는 프로세서(11)에 의해 송신된 심각한 오류 이벤트 지시를 수신하도록 구성될 수 있다. 프로세서(11)에 의해 송신된 제1 에러 데이터의 적어도 일부가 심각한 오류 이벤트 지시가 수신된 때로부터 시작하는 미리 설정된 대기 시간 내에 수신되지 않으면, 베이스 보드 관리 제어기(12)는 컴퓨터가 다운된 것으로 결정할 수 있다.
또한, 베이스 보드 관리 제어기(12)는 추가로, 사용자로부터의 통지에 따라, 컴퓨터가 다운된 것으로 결정할 수 있다. 예를 들어, 컴퓨터가 다운된 것을 탐지하면, 사용자는 베이스 보드 관리 제어기(12)에 통지할 수 있고, 베이스 보드 관리 제어기(12)는, 제1 에러 데이터의 획득을 시작하기 위해, 사용자로부터의 통지에 따라, 컴퓨터가 다운된 것으로 결정할 수 있다.
(2) 제1 에러 데이터의 획득에 대해
프로세서(11)는, 판독 요청 메시지를 수신한 후, 판독 요청 메시지에 따라 판독 응답 메시지에 제1 에러 데이터를 추가하고, 판독 응답 메시지를 베이스 보드 관리 제어기(12)에 리턴할 수 있다. 이때, 베이스 보드 관리 제어기(12)는, 데이터를 성공적으로 판독하고, 베이스 보드 관리 제어기(12)는 판독 응답 메시지로부터, 프로세서(11)에 의해 기록된 제1 에러 데이터를 획득할 수 있다.
그러나 일부 하드웨어 오류가 정장 불가능한 오류를 일으키고, 추가로, 컴퓨터가 다운되면, 베이스 보드 관리 제어기(12)는 제1 에러 데이터의 판독에 실패할 수 있고, 판독 응답 메시지는 판독 실패 지시를 운반하며, 판독 실패 지시는, 프로세서(11)로부터 제1 에러 데이터가 판독 실패한 것을 지시하는 데 사용된다. 프로세서(11)가 컴퓨터의 웜 리부트(warm reboot)동안, 컴퓨터의 기본 입출력 시스템의 오류 수집 명령을 실행하도록, 베이스 보드 관리 제어기(12)는 웜 리부트 모듈(warm reboot module) 또는 사용자에 지시하여 컴퓨터에 웜 리부트를 실행하고, 기본 입출력 시스템의 오류 수집 명령에 따라, 제1 에러 데이터를 수집하며, 제1 에러 데이터를 베이스 보드 관리 제어기(12)에 송신하도록 구성될 수 있다. 베이스 보드 관리 제어기(12)는 제1 에러 데이터의 획득을 완료하기 위해, 프로세서에 의해 송신된 제1 에러 데이터르를 수신할 수 있다.
컴퓨터의 리부트는 웜 리부트와 콜드 리부트(cold reboot)로 구분될 수 있다. 콜드 리부트 동안, 컴퓨터의 전원은 꺼지고, 컴퓨터는 초기화되며, 콜드 리부트 후, 정보는 손실될 수 있다. 예를 들어, 콜드 리부트 후, 프로세서의 레지스터에 저장된 정보는 손실된다. 리부트 전원 스위치가 눌러지면, 콜드 리부트가 컴퓨터에 실행된다. 콜드 리부트와 상이하게, 웜 리부트 동안, 컴퓨터의 전원은 꺼지지 않고, 컴퓨터는 초기화되지 않으며, 프로세서의 레지스터에 저장된 정보는 손실되지 않는다. 웜 리부트는, 일반적 절차에 따라, 컴퓨터를 끄고 키기 위한 시작에서 "재시작"을 클릭하는 것을 의미한다. 본 발명의 본 실시예 및 이하의 실시예에서, 컴퓨터에 실행되는 웜 리부트는 상기와 동일한 의미이다.
또한, 베이스 보드 관리 제어기(12)는 추가로, 제1 에러 데이터가 획득된 후, 프로세서(11)에 의해 기록된 제1 에러 데이터를 삭제하도록, 프로세서(11)에 명령하기 위해, 명확한 데이터 메시지를 프로세서(11)에 송신하도록 구성된다. 따라서, 저장 리소스의 낭비를 피할 수 있다.
선택적으로, 베이스 보드 관리 제어기(12)는 추가로, 사용자가 컴퓨터의 오류를 제시간에 획득할 수 있도록 사용자에게 심각한 오류 경고 이벤트를 통지하기 위해, 프로세서(11)에 의해 송신된, 심각한 오류 이벤트 지시가 수신된 후, 경고 메시지를 컴퓨터의 오류 경고 모듈에 송신하거나, 인쇄 작업을 수행하도록 구성된다.
(3)오류의 분석, 위치 찾기, 및 처리에 대해
종래 기술에서, 일반적으로, 컴퓨터가 다운되지 않는 경우만 에러 데이터는 인쇄될 수 있다. 따라서, 완전한 오류 기록은 없고, 오류는 분석될 수 있으며, 위치를 찾을 수 있고, 수동으로 처리될 수 있다. 본 발명의 본 실시예에서, 베이스 보드 관리 제어기(12)는 완전한 오류 기록을 기록할 수 있고, 추가로, 자동으로 오류 소스의 위치를 찾을 수 있으며, 오류 처리 제안을 제공할 수 있다. 여기에서 오류 처리 및 오류로부터 제시간에 복구하는데 도움을 제공한다. 구체적 기술적 해결 수단은 이하와 같다.
프로세서(11)에 의해 기록된 제1 에러 데이터는 대체로, "0" 또는 "1"에 의해 나타나는 정보이다. 따라서, 베이스 보드 관리 제어기(12)는 추가로, 제1 에러 데이터의 오류 파싱 정보를 획득하기 위해, 오류 파싱 메커니즘에 따라, 제1 에러 데이터를 파싱(parsing)하도록 구성된다. 제1 에러 데이터의 오류 파싱 정보는, 제1 에러 데이터에서 에러 데이터의 각 부분이 생성되는 시간, 데러 데이터를 수집하는 주체, 어느 프로세서로부터 에러 데이터가 출현하는가, 어느 코어, 에러 데이터는 어떤 에러에 속하는지 등을 포함한다. 예를 들어, X86 컴퓨터의 경우, 베이스 보드 관리 제어기(12)는, 오류 파싱 정보를 획득하기 위해, 인텔로부터의 오류 코드 정의에 따라, 2진 형태의 제1 에러 데이터를 파싱 할 수 있다. 오류 파싱 정보는 유니 관리자 및 오류의 경우를 이해하는 사용자에게 제공될 뿐 아니라, 추가로, 또한, 나중 오류의 위치 찾기, 분석, 및 처리를 위해 사용될 수 있다.
베이스 보드 관리 제어기(12)는, 추가로, 미리 설정된 오류 처리 메커니즘에 따라, 제1 에러 데이터의 오류 파싱 정보를 분석하여, 오류 처리 제안을 획득하도록 구성될 수 있다. 사용자 또는 오류 정정자가, 오류 처리 제안에 따라 컴퓨터를 복구하기 위해 컴퓨터에 처리를 수행할 수 있도록, 미리 설정된 오류 메커니즘은, X86에 대한, 오류 메커니즘, 오류 처리 경험일 수 있고, 획득된 오류 처리 제안은 오류 위치 정보 및/또는 처리 제안 정보일 수 있다. 더욱이, 제1 에러 데이터는 컴퓨터가 다운되기 전 매우 짧은 기간에 생성된 에러 데이터만일 수 있다. 예를 들어, 제1 에러 데이터는, 컴퓨터가 다운되기 전, 0.5초 내에 생성된 데이터이고, 따라서, 오류의 위치를 찾고 분석하는 정확성을 개선하기 위해, 더 많은 에러 데이터의 오류 파싱 정보가 분석될 수 있다. 구체적으로, 컴퓨터가 다운된 것으로 결정되기 전, 베이스 보드 관리 제어기(12)는 추가로, 프로세서(11)에 의해 송신된 제2 에러 데이터를 수신하도록 구성되고, 제2 에러 데이터는 제1 에러 데이터와 상이하며, 제2 에러 데이터는 컴퓨터가 제1 에러 데이터를 생성하기 전, 미리 설정된 시간 내에 생성된 에러 데이터이다. 베이스 보드 관리 제어기(12)는, 제2 에러 데이터의 오류 파싱 정보를 획득하기 위해, 오류 파싱 메커니즘에 따라, 제2 에러 데이터를 파싱하고, 오류 처리 제안을 획득하기 위해, 미리 설정된 오류 처리 메커니즘에 따라, 제2 에러 데이터의 오류 파싱 정보 및 제1 에러 데이터의 오류 파싱 정보를 분석하도록 구성된다. 예를 들어, 제1 에러 데이터는, 컴퓨터가 다운되기 전 0.5초 내에 생성된 에러 데이터일 수 있고, 미리 설정된 시간이 4.5초이면, 제2 에러 데이터는, 컴퓨터가 다운되기 전 5초에서 컴퓨터가 다운되기 전 0.5초를 뺀 시간 내에 생성될 수 있다. 이 경우, 베이스 보드 관리 제어기(12)는 오류 처리 제안을 획득하기 위해, 컴퓨터가 다운되기 전 5초 내에, 미리 설정된 오류 처리 메커니즘에 따라, 에러 데이터의 오류 파싱 정보를 분석할 수 있다.
더욱이, 베이스 보드 관리 제어기(12)는 추가로, 사용자 또는 오류 수정자가, 인쇄된 정보에 따라, 컴퓨터의 오류를 처리하도록, 제1 에러 데이터의 오류 파싱 정보, 제1 에러 데이터의 오류 파싱 정보, 또는 오류 처리 제안을 인쇄하도록 구성될 수 있다.
더욱이, 베이스 보드 관리 제어기(12)는 추가로, 다음의 오류 위치 찾기 및 오류로부터 복구하는 데 도움을 제공하기 위해, 컴퓨터의 오류 기록을 획득하도록, 컴퓨터의 오류 정보 베이스의, 제1 에러 데이터의 오류 파싱 정보, 제2 에러 데이터의 오류 파싱 정보, 제1 에러 데이터, 및 제2 에러 데이터 중 어느 하나를 저장하도록 구성될 수 있다. 예를 들어, 베이스 보드 관리 제어기(12)는, 오류 정보 베이스가 완전한 오류 데이터를 저장하도록, 오류 정보 베이스의 제1 오류 데이터의 오류 파싱 정보 및 제2 에러 데이터의 오류 파싱 정보를 저장하고, 완전한 오류 기록을 제공할 수 있도록 구성될 수 있다. 본 발명의 본 실시예에서, 오류 정보 베이스는, 베이스 보드 관리 제어기(12) 내에 설정되거나, 베이스 보드 관리 제어기의 외부에 설정될 수 있다.
실제 어플리케이션에서, 컴퓨터의 오류의 위치를 찾고, 분석하며 처리하기 위해, 상이한 방식은 상이한 어플리케이션 시나리오에 따라 사용될 수 있다. 예를 들어, 논-싱글-노드(non-single-node) 어플리케이션 시나리오에서, 시스템은, 본 발명의 본 실시예에 따라, 복수의 컴퓨터를 포함할 수 있다. 본 발명의 본 실시예에서 각 컴퓨터는 오류의 위치 찾기, 분석, 및 처리 능력을 갖출 수 있다. 이때, 복수의 컴퓨터 중 1개의 컴퓨터(예를 들어, 주된 컴퓨터)의 베이스 보드 관리 제어기는, 다른 컴퓨터의 베이스 보드 관리 제어기로부터 에러 데이터를 수집할 수 있고, 그 1개의 컴퓨터의 베이스 보드 관리 제어기는, 시스템 내의 모든 컴퓨터에서 합동 오류 위치 찾기, 분석, 및 처리를 수행할 수 있다. 대안으로서, 시스템 내의 복수의 컴퓨터의 베이스 보드 관리 제어기는, 베이스 보드 관리 제어기에 의해 획득된 에러 데이터를 시스템의 관리 장치(예를 들어, 관리 서버)에 보고하고, 관리 장치는 시스템의 모든 컴퓨터에 본 발명의 방식을 사용하여, 합동, 오류 위치 찾기, 분석, 및 처리를 수행할 수 있다.
본 발명의 본 실시예에서, OS는 사용되지 않아도 되고, 베이스 보드 관리 제어기(12)만, 컴퓨터가 다운된 후 컴퓨터의 에러 데이터의 수집을 구현해야 하며, 정정 불가능한 심각한 에러가 컴퓨터에서 발생한 후, 컴퓨터의 에러 데이터가 수집될 수 없는 것이 시스템의 다운을 일으키는 문제점이 해결된다. 또한, 베이스 보드 관리 제어기(12)는 추가로, 오류 기록 베이스의 완전한 오류를 기록하도록 구성될 수 있고, 추가로, 제1 에러 데이터를 파싱하고, 미리 설정된 오류 처리 메커니즘에 따라, 제1 에러 데이터의 오류 파싱 정보를 분석하며, 오류 소스의 위치를 찾고, 처리 제안을 제공할 수 있다.
제2 실시예
본 발명을 더 잘 설명하기 위해, 이하에서 다양한 구체적 구현 방식이 제공된다. 당업자는, 일부 구체적 세부 사항 없이, 본 발명은 구현될 수 있다는 것을 알 수 있다. 본 발명의 본 실시예에서, 제1 실시예의, 프로세서(11), 베이스 보드 관리 제어기(12)의 구조적 구성 및 기능은 도 2를 참조하여 구체적으로 설명되었다.
도 2는 본 발명의 다른 실시예에 따른 컴퓨터의 개략도이다. 컴퓨터는 프로세서(11) 및 베이스 보드 관리 제어기(12)를 포함한다. 프로세서(11)는 기록 모듈(21), 저장 모듈(22), 및 명령 실행 모듈(23)을 포함한다. 기록 모듈(21)은 구체적으로, 프로세서(11)의 내부 기능 모듈에 관련된 하드웨어 오류 체크 아키텍처(MCA: Machine Check Architecture) 및/또는 컴퓨터의 입출력 장치의 PCIe 표준에 관련된 오류 보고 메커니즘(AER: Advanced Error Reporting)일 수 있다. 이에 대응하여, 저장 모듈(22)은 MCA의 레지스터 및/또는 AER의 레지스터일 수 있다. MCA의 레지스터와 AER의 레지스터는 프로세서(11)의 내부에 위치할 수 있다. 명령 실행 모듈(23)은 프로세서(11)의 코어일 수 있고, BIOS의 명령 및 OS의 명령을 실행하도록 구성될 수 있다.
기록 모듈(21)은 컴퓨터의 에러 데이터를 획득, 예를 들어, 예를 들어, 프로세서의 내주 기능 모듈에서 발생한 오류로서 에러 데이터를 생성하거나, 또는 다른 예로서, IO 장치에서 발생한 오류로서 생성된 데러 데이터를 수신하도록 구성될 수 있다. 컴퓨터의 에러 데이터는, 제1 에러 데이터 및 제2 에러 데이터를 포함하나, 본 발명의 실시예가 이에 제한되는 것은 아니다. 기록 모듈(21)은, 저장 모듈(22) 내에, 획득된 컴퓨터의 에러 데이터를 저장할 수 있다. 구체적으로, 컴퓨터의 에러 데이터가 MCA에 의해 획득되면, MCA는, MCA의 레지스터에 컴퓨터의 에러 데이터를 저장할 수 있고, MCA 또는 AER에 의해 획득된 에러 데이터의 범위는, BIOS를 사용하여 레지스터에 대응하는 구성으로 구현될 수 있다. 선택적으로, 대응하는 레지스터에 컴퓨터의 에러 데이터가 기록될 때/기록된 후, 이후에, 명령 실행 모듈(23)이, BIOS의 에러 수집 명령 및 제1 레지스터에 기록된 어드레스에 따라, 컴퓨터의 에러 데이터를 획득할 수 있도록, MAC 또는 AER은 추가로, 제1 레지스터에, 컴퓨터의 에러 데이터를 기록한 레지스터의 어드레스를 저장할 수 있다.
컴퓨터의 에러 데이터를 획득할 때, 기록 모듈(21)은 추가로, SMI(System Management Interrupt)를 트리거 할 수 있다. SMI는 BIOS의 에러 수집 명령을 수행하도록, 명령 실행 모듈을 트리거할 수 있다. 컴퓨터가 다운되지 않았으면, 명령 실행 모듈(23)은, 저장 모듈(22)로부터, BIOS의 에러 수집 명령에 따라, 컴퓨터의 에러 데이터를 수집하고, 에러 데이터를 베이스 보드 관리 제어기(12)에 송신할 수 있다. 컴퓨터가 다운되면, 명령 실행 모듈(23)은, 어떠한 컴퓨터 명령도 실행할 수 없고, BIOS의 에러 수집 명령은 BIOS의 에러 수집 명령을 저장하는 메모리에 미리 구성될 수 있다.
실제로, 제1 실시예에 따르면, 제2 에러 데이터는, 컴퓨터가 제1 에러 데이터를 생성하기 전 미리 설정된 시간 내에 생성된 에러 데이터이고, 따라서, 기록 모듈(21)은 먼저, 제2 에러 데이터를 획득한 다음, 제1 에러 데이터를 획득한다. 따라서, 일 측면 면에서, 제2 에러 데이터를 획득할 때, 기록 모듈(21)은 저장 모듈(22)에 제2 에러 데이터를 기록할 수 있고, 다른 측면에서, SMI를 트리거할 수 있다. 컴퓨터가 다운되지 않았으면, 명령 실행 모듈(23)은, SIM에 따라 BIOS의 에러 수집 명령을 실행하고, BIOS의 에러 수집 명령에 따라 저장 모듈(22)로부터 제2 에러 데이터를 획득하고, 베이스 보드 관리 제어기(12)에 제2 에러 데이터를 송신할 수 있다. 선택적으로, 명령 실행 모듈(23)은 IPMI(Intelligent Platform Management Interface) 표준을 사용하여, 베이스 보드 관리 제어기(12)에 제2 에러 데이터를 송신할 수 있고, 베이스 보드 관리 제어기(12)는, IPMI 표준을 사용하여, 명령 실행 모듈(23)이 송신한 제2 에러 데이터를 수신할 수 있다. 제2 에러 데이터가 복수의 에러 데이터의 부분을 포함하고, 기록 모듈(21)은 복수 번 에러 데이터를 획득할 수 있으며, 기록 모듈(21)은, 기록 모듈(21)이 제2 에러 데이터의 부분을 획득할 때, 매번 SMI를 트리거 할 수 있다. 이에 대응하여, 제2 에러 데이터를 베이스 보드 관리 제어기(12)에 송신하기 위해, 복수 번 송신하는 것을 수행하도록, 명령 실행 모듈(23)은 BIOS의 에러 수집 명령을 복수 번 실행할 수 있다. 선택적으로, 제2 에러 데이터를 베이스 보드 관리 제어기(12)에 송신한 후, 명령 실행 모듈(23)은 OS의 삭제 명령에 따라, OS 시스템의 삭제 명령을 실행하여 기록 모듈(21)에 저장된 제2 에러 데이터를 삭제할 수 있다. 환언하면, 명령 실행 모듈(23)은, 저장 모듈로부터, 베이스 보드 관리 제어기(12)에 송신된 에러데이터를 삭제할 수 있다. 따라서, 에러 데이터를 베이스 보드 관리 제어기(12)에 반속 송신하는 것을 회피할 수 있다.
기록 모듈(21)이, 제2 에러 데이터를 획득한 후, 제1 에러 데이터를 획득하면, 기록 모듈(21)은 또한 SMI를 트리거할 수 있다. 더욱이, 제1 에러 데이터가 정정 불가능한 심각한 에러 유형이면, 즉, 제1 에러 데이터가 돌발 에러 또는 치명적 에레에 속하면, 기록 모듈(21)은 추가로, 베이스 보드 관리 제어기(12)에 컴퓨터의 돌발 오류 또는 치명적 오류가 발생하고 다운을 일으킬 수 있다는 것을 통지하도록, 심각한 오류 이벤트 지시를 트리거 할 수 있다. 제1 에러 데이터가 실제로 정정 불가능한 심각한 에러 유형이고 컴퓨터가 다운되면, 명령 실행 모듈(23)은 컴퓨터 명령을 실행할 수 없고, 기록 모듈(21)이 SMI를 트리거 해도, 명령 실행 모듈(23)은 여전히 BIOS의 에러 수집 명령을 실행할 수 없으며, 베이스 보드 관리 제어기(12)에 대해 저장 모듈(23)로부터 제1 에러 데이터를 획득할 수 없다. 따라서, 베이스 보드 관리 제어기(12)가 심각한 오류 이벤트 지시가 수신된 때로부터 시작하는 미리 설정된 대기 시간 내에, 프로세서(11)에 의해 송신된 제1 에러 데이터의 적어도 일부를 수신하지 않으면, 컴퓨터가 다운된 것으로 결정한다. 구체적으로, 기록 모듈(21)에 의해 심각한 오류 이벤트 지시의 트리거는 CATEER_N 또는 ERROR_N 핀의 변경에 의해 구현될 수 있고, 베이스 보드 관리 제어기(12)는 CATEER_N 또는 ERROR_N 핀으로부터 레벨 신호를 수신하여 심각한 오류 이벤트 지시를 수신할 수 있다.
컴퓨터가 다운된 것으로 결정하면, 베이스 보드 관리 제어기(12)는 판독 요청 메시지를 기록 모듈(21)에 송신할 수 있고, 판독 요청 메시지는 제1 에러 데이터의 판독을 요청하는 데 사용된다. 컴퓨터가 다운된 후, 기록 모듈(21)은 여전히 판독 요청 메시지를 수신하고, 판독 응답 메시지를 베이스 보드 관리 제어기(12)에 송신할 수 있다. 따라서, 베이스 보드 관리 제어기(12)는 판독 응답 메시지를 수신하고, 프로세서(11)에 의해 기록된 판독 응답 메시지에 따라, 제1 에러 데이터를 획득할 수 있다. 구체적으로, 베이스 보드 관리 제어기(12)는, MAC의 레지스터 또는 AER의 레지스터로부터 제1 에러 데이터를 판독하기 위해, PECI(Platform Environment Control Interface)를 사용하여, MAC의 레지스터 또는 AER의 레지스터를 트레버스(traverse)할 수 있다. 베이스 보드 관리 제어기(12)가 MAC의 레지스터 또는 AER의 레지스터의 데이터를 성공적으로 판독하면, MAC의 레지스터 또는 AER의 레지스터에 의해 리턴된 판독 응답 메시지는 제1 에러 데이터를 포함하고, 베이스 보드 관리 제어기(12)는 제1 에러 데이터를 획득할 수 있다. 베이스 보드 관리 제어기(12)가 MAC의 레지스터 또는 AER의 레지스터로부터 데이터 판독에 실패하면, MAC의 레지스터 또는 AER의 레지스터에 의해 리턴된 판독 응답 메시지는 판독 실패 지시, 예를 들어, 깨진 문자(garbled characters)를 포함한다. 따라서, 베이스 보드 관리 제어기(12)는, 명령 실행 모듈(23)이 컴퓨터의 웜 리부트 동안, BIOS의 오류 수집 명령을 실행하고, BIOS의 오류 수집 명령에 따라, IPMI 표준을 사용하여, MAC의 레지스터 또는 AER의 레지스터를 트레버스하여 제1 에러 데이터를 획득하기 위해, 웜 리부트 모듈 또는 컴퓨터의 사용자에 지시하여 웜 리부트를 실행하도록 지시하고, 제1 에러 데이터를 베이스 보드 관리 제어기(12)에 송신할 수 있고, 베이스 보드 관리 제어기(12)는 오류 수집 명령에 의해 송신된 에러 데이터를 수신할 수 있다.
본 발명의 본 실시예에서, 베이스 보드 관리 제어기(12)는 프로세서와 협업하여, 컴퓨터가 다운된 후, 컴퓨터의 에러 데이터의 획득을 구현할 수 있다. 따라서 정정 불가능한 심각한 에러가 컴퓨터에서 발생한 후, 컴퓨터의 에러 데이터가 수집될 수 없는 것이 시스템의 다운을 일으키는 문제점이 해결된다.
제3 실시예
본 발명의 본 실시예는 오류 처리 방법을 제공하고, 이러한 오류 처리 방법은 도 1 또는 도 2에서 도시된 컴퓨터에 사용되며, 컴퓨터는 베이스 보드 관리 제어기 및 프로세서를 포함하고, 오류 처리 방법은 이하의 단계를 포함한다.
단계(S301): 컴퓨터가 다운된 것으로 결정하면, 베이스 보드 관리 제어기는 판독 요청 메시지를 프로세서에 송신하고, 판독 요청 메시지는, 프로세서에 의해 기록된 제1 에러 데이터의 판독을 요청하는 데 사용된다.
프로세서는 제1 에러 데이터를 획득하고 제1 에러 데이터를 기록할 수 있다. 컴퓨터가 다운된 것으로 결정하면, 프로세서에 의해 기록된 제1 에러 데이터를 판독하도록, 베이스 보드 관리 제어기는 판독 요청 메시지를 프로세서에 송신할 수 있다. 이때, 컴퓨터가 다운되고 프로세서는 어떠한 컴퓨터 명령도 실행할 수 없지만, 베이스 보드 관리 제어기가 제1 에러 데이터를 획득할 수 있도록, 프로세서는 판독 요청 메시지를 수신하고 이에 응답할 수 있다. 예를 들어, 프로세서는 프로세서의 레지스터에 제1 에러 데이터를 기록할 수 있고, 베이스 보드 관리 제어기는 판독 요청 메시지를 수신하고 판독 응답 메시지를 리턴할 수 있다. 본 발명의 본 실시예에서, 제1 에러 데이터는 하나 또는 그 이상의 에러 데이터의 부분을 포함할 수 있으나, 본 발명의 본 실시예가 이에 제한되는것은 아니다.
베이스 보드 관리 제어기는 다양한 방식으로 컴퓨터가 다운된 것으로 결정한다. 구체적으로, 기준은 제1 실시예 또는 제2 실시예로 만들어지며, 본 발명의 본 실시예에서 세부사항은 다시 설명하지 않는다.
단계(S302): 베이스 보드 관리 제어기는, 프로세서에 의해 송신된 판독 응답 메시지를 수신하고, 판독 응답 메시지에 따라, 프로세서에 의해 기록된 제1 에러 데이터를 획득한다.
베이스 보드 관리 제어기가 프로세서로부터 데이터를 성공적으로 판독하면, 판독 응답 메시지는 제1 에러 데이터를 포함하고, 베이스 보드 관리 제어기는 판독 응답 메시지로부터 프로세서에 의해 기록된 제1 에러 데이터를 획득할 수 있다. 베이스 보드 관리 제어기가 프로세서로부터 데이터 판독에 실패하면, 판독 응답 메시지는 판독 실패 지시를 포함하고, 베이스 보드 관리 제어기는 다른 방식으로 제1 에러 데이터를 획득할 수 있다. 예를 들어, BIOS의 오류 수집 명령은 컴퓨터에 미리 구성될 수 있다. 판독 응답 메시지가 판독 실패 지시를 포함하면, 프로세서가, 컴퓨터의 웜 리부트 동안, BIOS의 컴퓨터 오류 수집 명령을 실행하고, BIOS의 오류 수집 명령에 따라 제1 에러 데이터를 획득하며, 제1 에러 데이터를 베이스 보드 관리 제어기에 송신하도록, 베이스 보드 관리 제어기는, 컴퓨터에 웜 리부트가 수행되기 위해, 웜 리부트 모듈 또는 컴퓨터의 사용자에 지시할 수 있고, 베이스 보드 관리 제어기는 프로세서에 의해 송신된 제1 에러 데이터를 수신하여 제1 에러 데이터의 획득을 종료할 수 있다.
본 발명의 본 실시예에서, 컴퓨터가 다운된 것으로 결정하면, 컴퓨터의 베이스 보드 관리 제어기는, 컴퓨터의 프로세서에 판독 요청 메시지를 송신하고, 프로세서에 의해 리턴된 판독 응답 메시지를 수신하며, 판독 응답 메시지에 따라, 프로세서에 의해 기록된 제1 에러 데이터를 획득할 수 있고, 판독 요청 메시지는 프로세서에 의해 기록된 제1 에러 데이터를 판독하는 데 사용된다. 본 발명의 본 실시예의 방식으로, OS는 사용되지 않아도 되며, 베이스 보드 관리 제어기만, 컴퓨터가 다운된 후 컴퓨터의 에러 데이터의 수집을 구현해야 하며, 정정 불가능한 심각한 에러가 컴퓨터에서 발생한 후, 컴퓨터의 에러 데이터가 수집될 수 없는 것이 시스템의 다운을 일으키는 문제점이 해결된다.
제4 실시예
본 발명의 본 실시예는, 도 1 또는 도 2에서 도시된 컴퓨터에서 사용되는 오류 처리 방법을 제공하고, 컴퓨터는 베이스 보드 관리 제어기 및 프로세서를 포함하며, 이러한 오류 처리 방법은 이하의 단계를 포함한다.
단계(S401): 베이스 보드 관리 제어기는, 프로세서에 의해 송신된 심각한 오류 이벤트 지시를 수신하고, 심각한 오류 이벤트 지시는, 프로세서가 제1 에러 데이터를 획득하고, 또, 제1 에러 데이터가 정정 불가능한 심각한 에러유형인 경우, 프로세서에 의해 송신된다.
단계(S402): 베이스 보드 관리 제어기는, 사용자에게 심각한 오류 경고 이벤트를 통지하기 위해, 경고 메시지를 컴퓨터의 오류 경고 모듈에 송신하거나, 인쇄 작업을 수행한다. 프로세서에 의해 송신된 심각한 오류 이벤트 지시를 수신한 후, 다운을 유발할 수 있는, 컴퓨터에서 심각한 오류가 발생한 것을 사용자에게 통지하기 위해, 베이스 보드 관리 제어기는 경고 메시지를 사용하여 오류 경고 센서를 트리거 하거나 인쇄 작업을 할 수 있다. 본 발명의 본 실시예에서, 단계(S402)는 선택적인 단계이다.
단계(S403): 베이스 보드 관리 제어기가, 심각한 오류 이벤트 지시가 수신된 때로부터 시작하는 미리 설정된 대기 시간 내에, 프로세서에 의해 송신된 제1 에러 데이터의 적어도 일부를 수신하지 않으면, 컴퓨터가 다운된 것으로 결정하고, 단계(S404)를 실행한다.
프로세서가 제1 에러 데이터를 획득한 후, 컴퓨터가 다운되지 않으면, 프로세서는 BIOS의 에러 수집 명령을 실행하고, BIOS의 에러 수집 명령에 따라, 제1 에러 데이터를 베이스 보드 관리 제어기에 송신할 수 있다. 컴퓨터가 다운되었으면, 프로세서는 어떠한 컴퓨터 명령도 실행할 수 없다. 따라서, 베이스 보드 관리 제어가 심각한 오류 이벤트 지시가 수신된 때로부터 시작하는 미리 설정된 대기 시간 내에, 프로세서에 의해 송신된 제1 에러 데이터의 적어도 일부를 수신하지 않으면, 컴퓨터가 다운된 것으로 결정된다.
단계(S404): 베이스 보드 관리 제어기는 판독 요청 메시지를 프로세서에 송신하고, 판독 요청 메시지는 프로세서에 의해 기록된 제1 에러 데이터의 판독을 요청하는 데 사용된다.
컴퓨터가 다운된 것으로 결정된 후, 컴퓨터가 다운된 후, 컴퓨터의 에러 데이터의 획득을 구현하기 위해, 베이스 보드 관리 제어기는, 프로세서로부터 제1 에러 데이터를 획득할 수 있다.
단계(S405): 베이스 보드 관리 제어기는, 프로세서에 의해 리턴된 판독 응답 메시지를 수신하고, 판독 응답 메시지에 따라, 프로세서에 의해 기록된 제1 에러 데이터를 획득한다.
베이스 보드 관리 제어기는, 판독 응답 메시지에 따라, 프로세서에 의해 기록된 제1 에러 데이터를 획득한다. 구체적으로, 단계(S405a)의 방식이 사용되거나, 단계(405b)의 단계가 사용될 수 있다.
단계(S405a): 판독 응답 메시지가 제1 에러 데이터를 포함하면, 베이스 보드 관리 제어기는 판독 응답 메시지로부터, 프로세서에 의해 기록된 제1 에러 데이터를 획득한다.
판독 응답 메시지가 제1 에러 데이터를 포함하면, 베이스 보드 관리 제어기가 프로세서로부터 제1 에러 데이터를 판독한 것을 지시하고, 베이스 보드 관리 제어기는 판독 응답 메시지로부터 프로세서에 의해 기록된 제1 에러 데이터를 획득할 수 있다.
단계(S405b): 판독 응답 메시지가, 제1 에러 데이터가 프로세서로부터 판독 실패한 것을 지시하는 데 사용되는 판독 실패 지시를 포함하면,
프로세서가, 컴퓨터의 웜 리부트 동안, 컴퓨터의 BIOS의 오류 수집 명령을 실행하고, BIOS의 오류 수집 명령에 따라 제1 에러 데이터를 획득하며, 제1 에러 데이터를 베이스 보드 관리 제어기에 송신하도록, 베이스 보드 관리 제어기는, 컴퓨터에 웜 리부트를 수행하도록, 웜 리부트 모듈 또는 컴퓨터의 사용자에 지시하고, 베이스 보드 관리 제어기는, 프로세서가 송신한 제1 에러 데이터를 수신한다.
BIOS의 오류 수집 명령은, 컴퓨터에 미리 구성될 수 있다. 베이스 보드 관리 제어기가 프로세서로부터 제1 에러 데이터 판독에 실패하면, 판독 응답 메시지는 판독 실패 지시를 포함하고, 프로세서가, 컴퓨터의 리부트 동안, 컴퓨터의 BIOS의 오류 수집 명령을 실행하고, BIOS의 오류 수집 명령에 따라 제1 에러 데이터를 획득하며, 베이스 보드 관리 제어기에 송신하도록, 컴퓨터에 웜 리부트를 실행하도록, 베이스 보드 관리 제어기는 웜 리브트 모듈 또는 컴퓨터의 사용자를 지시한다.
단계(S406): 베이스 보드 관리 제어기는, 제1 에러 데이터의 오류 파싱 정보를 획득하기 위해, 오류 파싱 메커니즘에 따라, 제1 에러 데이터를 파싱한다.
제1 에러 데이터의 오류 파싱 정보를 획득하기 위해, 제1 에러 데이터를 획득한 후, 베이스 보드 관리 제어기는, 오류 파싱 메커니즘에 따라 제1 에러 데이터를 파싱하고, 제1 에러 데이터의 오류 파싱 정보는, 제1 에러 데이터의 에러 데이터의 각 조각이 생성된 시간, 에러 데이터를 수집하는 주체 등을 포함할 수 있다. 오류의 경우를 이해하도록, 오류 파싱 정보는 유지 관리자 또는 사용자에게 제공될 뿐아니라, 추가로 오류의 다음 위치 찾기, 분석, 및 처리를 위해 사용될 수 있다.
단계(S407): 베이스 보드 관리 제어기는, 오류 처리 제안을 획득하기 위해, 미리 설정된 오류 처리 메커니즘에 따라, 제1 에러 데이터의 오류 파싱 정보를 분석한다.
미리 설정된 오류 처리 메커니즘은, X86의 오류 메커니즘 또는 오류 처리 경험일 수 있다. 컴퓨터를 복구하기 위해, 사용자 또는 오류 정정자가 오류 처리 제안에 따라 컴퓨터에 처리를 수행할 수 있도록, 베이스 보드 관리 제어기는, 미리 설정된 오류 처리 메커니즘에 따라, 제1 에러 데이터의 오류 파싱 정보를 분석하고, 오류 처리 제안을 획득할 수 있고, 오류 처리 제안은 오류 위치 정보 또는 처리 정보 제안일 수 있다.
단계(S408): 베이스 보드 관리 제어기는, 오류 처리 제안을 인쇄한다.
사용자 또는 오류 정정자가 오류 처리 제안에 따라 컴퓨터에 처리를 수행할 수 있도록, 오류 처리 제안을 획득한 후, 베이스 보드 관리 제어기는 오류 처리 제안을 인쇄하거나, 추가로, 오류 처리 제안 및 제1 에러 데이터의 오류 파싱 정보를 인쇄할 수 있다.
본 발명의 본 실시예에서, OS는 사용되지 않아도 되며, 베이스 보드 관리 제어기만 컴퓨터가 다운된 후, 컴퓨터의 에러 데이터의 수집을 구현해야 하며, 정정 불가능한 심각한 에러가 컴퓨터에서 발생한 후, 컴퓨터의 에러 데이터가 수집될 수 없는 것이 시스템의 다운을 일으키는 문제점이 해결된다. 또한, 오류 소스의 위치를 찾고, 처리 제안을 제공하기 위해, 베이스 보드 관리 제어기는 추가로, 제1 에러 데이터를 파싱하고, 미리 설정된 오류 처리 메커니즘에 따라, 제1 에러 데이터의 오류 파싱 정보를 분석할 수 있다.
단계(S407) 에서, 오류 처리 제안을 획득하기 위해, 제1 에러 데이터만의 오류 파싱 정보가 분석되기 때문에, 제1 에러 데이터는 컴퓨터가 다운되기 전 매우 짧은 시간 내에 생성된 에러 데이터, 예를 들어, 제1 에러 데이터가 컴퓨터가 다운되기 전 2초 내에 생성된 에러 데이터만일 수 있다. 따라서, 오류의, 위치 찾기 및 분석의 정확도를 개선하기 위해, 더 많은 오류 데이터의 오류 파싱 정보는 분석될 수 있다.
단계(S403) 전, 베이스 보드 관리 제어기는, 추가로, 프로세서에 의해 송신된 제2 에러 데이터를 수신하고, 제2 에러 데이터는 컴퓨터가 제1 에러 데이터를 생성하기 전 생성된 에러 데이터이다.
단계(S207)는 추가로, 베이스 보드 관리 제어기가, 제2 에러 데이터의 오류 파싱 정보를 획득하기 위해, 오류 파싱 메커니즘에 따라 제2 에러 데이터를 파싱하고, 오류 처리 제안을 획득하기 위해, 제2 에러 데이터의 오류 파싱 정보 및 제1 에러 데이터의 오류 파싱 정보를 분석하는 단계일 수 있다.
본 발명의 본 실시예에서, 오류의 위치 찾기 및 분석의 정확도를 개선하기 위해, 베이스 보드 관리 제어기는, 오류 처리 제안을 획득하기 위해, 제1 에러 데이터의 오류 파싱 정보 및 제2 에러 데이터의 오류 파싱 정보를 분석할 수 있다.
선택적으로, 단계(S405) 후, 베이스 보드 관리 제어기는 추가로, 컴퓨터의 오류 정보 베이스의, 제1 에러 데이터의 오류 파싱 정보, 제2 에러 데이터의 오류 파싱 정보, 제1 에러 데이터, 및 제2 에러 데이터 중 어느 하나를 저장할 수 있다. 예를 들어, 오류 기록 베이스에 완전한 오류 기록을 기록하기 위해, 제1 에러 데이터의 오류 파싱 정보 및 제2 데이터의 오류 파싱 정보는 오류 정보 베이스에 저장되거나, 제1 에러 데이터 및 제2 에러 데이터는 오류 정보 베이스에 저장된다.
선택적으로 단계(S405) 후, 프로세서에 의해 기록된 제1 에러 데이터를 삭제하도록 프로세서에 지시하기 위해, 베이스 보드 관리 제어기는 추가로, 명확한 데이터 메시지를 프로세서에 송신할 수 있다. 따라서 저장 리소스의 낭비를 피할 수 있다.
본 발명의 제3 및 제4 실시예에서 베이스 보드 관리 제어기에 대해, 구체적으로, 기준은 본 발명의 제1 또는 제2 실시예의 베이스 보드 관리 제어기와 프로세서의 오류 처리 및 상호 작용으로 만들어 질수 있다.
제5 실시예
본 발명의 실시예는, 베이스 보드 관리 제어기 및 프로세서를 포함하는 컴퓨터, 예를 들어, 도 1 또는 2의 컴퓨터에서 사용되는 베이스 보드 관리 제어기를 제공한다. 도 5에 도시된 바와 같이 베이스 보드 관리 제어기(50)는 송신 유닛(501) 및 수신 유닛(502)을 포함한다.
송신 유닛(501)은 컴퓨터가 다운된 것으로 결정되면, 판독 요청 메시지를 프로세서에 송신하도록 구성되고, 판독 요청 메시지는 프로세서에 의해 기록된 제1 에러 메시지의 판독을 요청하는 데 사용된다. 컴퓨터는 다운되고, 프로세서는 어떠한 컴퓨터 명령도 실행하지 못하지만, 프로세서는 판독 요청 메시지를 수신하고 그에 응답할 수 있다.
수신 유닛(502)은 프로세서에 의해 리턴 된 판독 응답 메시지를 수신하고, 판독 응답 메시지에 따라, 프로세서에 의해 기록된 제1 에러 데이터를 획득하도록 구성된다. 예를 들어, 판독 응답 메시지가 제1 에러 데이터를 포함하면, 수신 유닛(502)은, 판독 응답 메시지로부터, 프로세서에 의해 기록된 제1 에러 데이터를 획득할 수 있다. 다른 실시에에 대해, 판독 응답 메시지가 판독 실패 지시를 포함하면, 프로세서가, 컴퓨터의 웜 리부트 동안, 컴퓨터 BIOS의 오류 수집 명령을 수행하고, BIOS의 오류 수집 명령에 따라 제1 에러 데이터를 획득하며, 제1 에러 데이터를 수신 유닛에 송신하기 위해, 컴퓨터에 리부트를 실행하도록, 리부트 유닛 및 컴퓨터의 사용자에 지시고, 제1 에러 데이터를 수신 유닛에 송신하도록 구성되며, 판독 실패 지시는 프로세서로부터 제1 에러 데이터가 판독 실패된 것을 지시하는 데 사용된다. 수신 유닛은 프로세서에 의해 송신된 제1 에러 데이터를 수신한다. 선택적으로, 제1 에러 데이터가 획득된 후, 수신 유닛(502)은 추가로, 프로세서에 의해 기록된 제1 에러 데이터를 삭제하도록, 프로세서를 지시하기 위해, 명확한 데이터 메시지를 송신할 수 있다. 따라서, 저장 리소스의 낭비를 피할 수 있다.
선택적으로, 베이스 보드 관리 제어기는 추가로, 결정 유닛(503)을 포함하고, 결정 유닛(503)은 프로세서에 의해 송신된 심각한 오류 이벤트 지시를 수신하도록 구성되며, 심각한 오류 이벤트 지시는, 프로세서가 제1 에러 데이터를 획득하고, 또 제1 에러 데이터가 정정 불가능한 심각한 에러 유형인 경우, 프로세서가 송신한다. 프로세서에 의해 송신된 제1 에러 데이터의 적어도 일부가 심각한 오류 이벤트 지시가 수신된 때로부터 시작하는 미리 설정된 대기 시간 내에 수신되지 않으면, 컴퓨터가 다운된 것으로 결정한다.
선택적으로, 베이스 보드 관리 제어기는 추가로, 오류 경고 유닛(504)을 포함하고, 오류 경고 유닛(504)은 결정 유닛(503)이, 프로세서에 의해 송신된 심각한 오류 이벤트 지시를 수신한 후, 사용자에게 심각한 오류 경고 이벤트를 통지하기 위해, 경고 메시지를 컴퓨터의 오류 경고 유닛에 송신하거나 인쇄 작업을 수행하도록 구성된다.
선택적으로, 베이스 보드 관리 제어기는 추가로, 오류 처리 유닛(505)을 포함할 수 있고, 오류 처리 유닛(505)은 제1 에러 데이터의 오류 파싱 정보를 획득하기 위해, 오류 파싱 메커니즘에 따라 제1 에러 데이터를 파싱하도록 구성된다. 제1 에러 데이터의 오류 파싱 정보는, 제1 에러 데이터에서 에러 데이터의 각 부분이 생성되는 시간, 데러 데이터를 수집하는 주체, 어느 프로세서로부터 에러 데이터가 출현하는가, 어느 코어, 에러 데이터는 어떤 에러에 속하는지 등을 포함한다. 예를 들어, X86 컴퓨터의 경우, 베이스 보드 관리 제어기(12)는, 오류 파싱 정보를 획득하기 위해, 인텔로부터의 오류 코드 정의에 따라, 2진 형태의 제1 에러 데이터를 파싱할 수 있다. 오류 파싱 정보는 유니 관리자 및 오류의 경우를 이해하는 사용자에게 제공될 뿐 아니라, 추가로, 또한, 나중 오류의 위치 찾기, 분석, 및 처리를 위해 사용될 수 있다.
또한, 오류 처리 유닛(505)은 추가로, 미리 설정된 오류 처리 메커니즘에 따라, 제1 에러 데이터의 오류 파싱 정보를 분석하여, 오류 처리 제안을 획득하도록 구성될 수 있고, 미리 설정된 오류 처리 메커니즘은, X86의 오류 메커니즘 또는 오류 처리 경험일 수 있다. 컴퓨터를 복구하기 위해, 사용자 또는 오류 정정자가 오류 처리 제안에 따라 컴퓨터에 처리를 수행할 수 있도록, 베이스 보드 관리 제어기는, 미리 설정된 오류 처리 메커니즘에 따라, 제1 에러 데이터의 오류 파싱 정보를 분석하고, 오류 처리 제안을 획득할 수 있고, 오류 처리 제안은 오류 위치 정보 또는 처리 정보 제안일 수 있다.
오류 처리 유닛(505)은, 오류 처리 제안을 획득하기 위해, 제1 에러 데이터만의 오류 파싱 정보를 분석하기 때문에, 제1 에러 데이터는 컴퓨터가 다운되기 전, 매우 짧은 시간 내에 생성된 에러 데이터만일 수 있다. 예를 들어, 제1 에러 데이터가 컴퓨터가 다운되기 전, 0.8초 내에 생성된 에러 데이터이고, 따라서, 오류의 위치 찾기 및 분석의 정확도를 개선하기 위해, 오류 처리 유닛(505)은 더 많은 에러 데이터의 오류 파싱 정보를 분석할 수 있다. 구체적으로, 수신 유닛(502)은 추가로, 프로세서에 의해 송신된 제2 에러 데이터를 수신하고, 제2 에러 데이터의 오류 파싱 정보를 획득하기 위해, 오류 파싱 메커니즘에 따라, 제2 에러 데이터를 파싱하고, 오류 처리 제안을 획득하기 위해, 미리 설정된 오류 처리 메커니즘에 따라, 제2 에러 데이터의 오류 파싱 정보 및 제1 에러 데이터의 오류 파싱 정보를 분석하도록 구성되고, 제2 에러 데이터는 제1 에러 데이터가 생성되기 전 미리 설정된 시간 내에 생성된 에러 데이터이다.
선택적으로 오류 처리 유닛(505)은 추가로, 제1 에러 데이터의 오류 파싱 정보 또는 오류 처리 제안을 인쇄하도록 구성된다.
선택적으로, 오류 처리 유닛(505)은 추가로, 컴퓨터의 오류 정보 베이스의, 제1 에러 데이터의 오류 파싱 정보, 제2 에러 데이터의 오류 파싱 정보, 제1 에러 데이터, 및 제2 에러 데이터 중 어느 하나를 저장하도록 구성된다. 예를 들어, 오류 기록 베이스에 완전한 오류 기록을 기록하기 위해, 제1 에러 데이터의 오류 파싱 정보 및 제2 데이터의 오류 파싱 정보는 오류 정보 베이스에 저장되거나, 제1 에러 데이터 및 제2 에러 데이터는 오류 정보 베이스에 저장된다.
본 발명의 본 실시예에서 베이스 보드 관리 제어기에 대해, 본 발명의 제1 및 제2 실시예의 베이스 보드 관리 제어기와 프로세서의 오류 처리 및 상호 작용으로 기준은 만들어 질 수 있다.
본 발명의 본 실시예에서, 컴퓨터가 다운된 것으로 결정되면, 송신 유닛(501)은 판독 요청 메시지를 컴퓨터의 프로세서에 송신하고, 판독 요청 메시지는 프로세서에 의해 기록된 제1 에러 데이터의 판독을 요청하는 데 사용되며, 수신 유닛(502)은 프로세서에 의해 리턴 된 판독 응답 메시지를 수신하고, 판독 응답 메시지에 따라 프로세서에 의해 기록된 제1 에러 데이터를 획득할 수 있다. 본 발명의 본 실시예의 방식으로, OS는 사용되지 않아도 되며, 베이스 보드 관리 제어기만, 컴퓨터가 다운된 후 컴퓨터의 에러 데이터의 수집을 구현해야 하며, 정정 불가능한 심각한 에러가 컴퓨터에서 발생한 후, 컴퓨터의 에러 데이터가 수집될 수 없는 것이 시스템의 다운을 일으키는 문제점이 해결된다.
본 발명의 본 실시예는, 컴퓨터의 프로세서가 컴퓨터 실행 가능한 명령을 실행할 때, 컴퓨터가 제3 및 제4 실시예의 오류 처리 방법을 실행할 수 있도록, 컴퓨터 실행 가능한 명령을 포함하는 컴퓨터 판독 가능한 메체를 제공한다.
도 6은 본 발명의 다른 실시예에 따른 베이스 보드 관리 제어기를 나타내고, 베이스 보드 관리 제어기(600)는, 프로세서(601), 메모리(602), 시스템 버스(604), 및 통신 인터페이스(605)를 포함하고, 프로세서(601), 메모리(602), 및 통신 인터페이스(605)는 시스템 버스(604)를 사용하여 상호 통신을 한다.
프로세서(601)는 단일 코어 또는 멀티 코어 CPU(central processing unit)이거나, 구체적 집적 회로일 수 있고, 본 발명의 실시예를 구현하기 위해 하나 또는 그 이상의 집적 회로로서 구성될 수 있다.
메모리(602)는 고속 RAM 메모리, 또는 비휘발성 메모리(non-volatile memory), 예를 들어, 적어도 하나의 디스크메모리 일 수 있다.
메모리(602)는 컴퓨터 실행 가능한 명령(603)으로 구성될 수 있다. 구체적으로 컴퓨터 실행 가능한 명령(603)은 프로그램 코드를 포함할 수 있다.
베이스 보드 관리 제어기가 동작할 때, 제3 및 제4 실시예의 오류 처리 방법의 방법 과정을 수행하기 위해, 프로세서(601)는 컴퓨터 실행가능 명령(603)을 실행한다.
당업자는 본 발명의 각 측면 또는 각 측면의 가능한 구현 방식은 시스템, 방법, 또는 컴퓨터 프로그램 제품으로 구현 구체적으로 될 수 있는 것을 알 수 있다. 따라서, 본 발명의 각 측면 또는 각 측면의 가능한 구현 방식은 하드웨어만의 형태, 소프트웨어만의 형태(펌웨어, 상주 소프트웨어 등을 포함), 또는 소프트웨어와 하드웨어의 조합을 사용할 수 있고, 이것들은 여기에서 일관되게 "회로", "모듈", 또는 "시스템"이라고 한다. 또한, 본 발명의 각 측면 또는 각 측면의 가능한 구현 방식은 컴퓨터 프로그램 제품의 형태를 취할 수 있고, 컴퓨터 프로그램 제품은 컴퓨터 판독 가능 매체에 저장된 컴퓨터 판독 가능 프로그램 코드를 참조한다.
컴퓨터 판독 가능 매체는 컴퓨터 판독 가능 신호 매체 또는 컴퓨터 판독 가능 저장 매체 일 수 있다. 컴퓨터 판독 가능 저장 매체는, RAM(random access memory), ROM(read-only memory), 읽기 전용 소거 및 프로그램 가능한 ROM(EPROM 또는 flash memory), 광섬유 및 CD-ROM(compact disc read only memory)와 같은, 전자, 자기, 광학, 전자기, 적외선, 또는 반도 전성 시스템, 장치 또는 기기, 또는 이들의 임의의 적절한 조합을 포함하지만 이에 한정되지 않는다
프로세서가 흐름도의 각 단계 또는 단계의 조합에서 구체화된 기능 및 동작을 수행할 수 있도록, 프로세서는 컴퓨터에서 컴퓨터로 읽을 수 있는 매체에 저장된 컴퓨터 판독 가능 프로그램 코드를 판독하고, 장치는 블록도의 각 블록 또는 블록의 조합에서 구체화된 기능 및 동작을 구현하도록 생성된다.
모든 컴퓨터 판독 가능 프로그램 코드는 사용자의 컴퓨터에서 실행할 수 있고 또는, 일부는 독립형 소프트웨어 패키지로서, 사용자 컴퓨터에서 실행될 수 있거나, 일부가 원격 컴퓨터상에서 실행되는 동안, 다른 일부가 사용자의 컴퓨터에서 실행될 수 있거나, 또는 모든 코드는 원격 컴퓨터 또는 컴퓨터에서 실행될 수 있다. 또한, 일부 대안 구현 솔루션에서, 흐름도의 각 단계 및 블록도의 각 블록에서 구체화된 기능은 도시된 순서로 발생하지 않을 수 있다. 예를 들어, 도면에서, 관련 기능에 의존하는 두 개의 연속적인 단계 또는 두 개의 블록은 사실 실질적으로 동시에 실행될 수 있거나, 때로는 반대 순서로 실행될 수 있다.
당업자는 본 명세서에 개시된 실시 예에 기재된 실시 예와 함께, 유닛 및 알고리즘 단계가 전자 하드웨어, 컴퓨터 소프트웨어, 전자 하드웨어의 조합으로 구현될 수 있다는 것을 인식할 수 있다. 기능이 하드웨어 또는 소프트웨어에 의해 수행되는지는 특정 응용 프로그램 및 기술적 해결 수단의 설계 제약 조건에 따라 달라진다. 당업자는 각각의 특정 어플리케이션에 대해 설명한 기능을 실현하기 위해 다른 방법을 사용할 수 있지만, 이러한 구현은 본 발명의 범위를 넘어서는 것으로 간주하여서는 안된다.
전술 한 설명은 단지 본 발명의 특정 구현 방식이지만, 본 발명의 보호 범위를 제한하고자 하는 것은 아니다. 본 발명에 기재된 기술적 범위 내에서 당업자에 의해 용이하게 파악된 모든 변형 또는 교체가 본 발명의 보호 범위 내에 포함한다. 따라서, 본 발명의 보호 범위는 특허 청구 범위의 보호 범위에 따른다.

Claims (32)

  1. 컴퓨터로서,
    상기 컴퓨터는 프로세서 및 베이스 보드(baseboard) 관리 제어기를 포함하고,
    상기 베이스 보드 관리 제어기는, 상기 컴퓨터가 다운된 것으로 결정하면, 상기 프로세서에 판독 요청 메시지를 송신하도록 구성되고, 상기 판독 요청 메시지는, 상기 프로세서에 의해 기록된 제1 에러 데이터의 판독을 요청하기 위해 사용되며,
    상기 프로세서는, 상기 판독 요청 메시지를 수신하고, 상기 베이스 보드 관리 제어기에 판독 응답 메시지를 송신하도록 구성되며,
    상기 베이스 보드 관리 제어기는, 상기 프로세서에 의해 리턴된 상기 판독 응답 메시지를 수신하고, 상기 판독 응답 메시지에 따라, 상기 프로세서에 의해 기록된 제1 에러 데이터를 획득하도록 구성된, 컴퓨터.
  2. 제1항에 있어서,
    상기 프로세서는 추가로,
    상기 제1 에러 데이터를 획득하고, 상기 제1 에러 데이터를 기록하도록 구성되며,
    상기 베이스 보드 관리 제어기가, 상기 컴퓨터가 다운된 것으로 결정하도록 구성된 것은 구체적으로,
    상기 베이스 보드 관리 제어기는, 상기 프로세서에 의해 송신된 심각한 에러 이벤트 지시(fault event indication)를 수신하도록 구성되고, 상기 심각한 에러 이벤트 지시는, 상기 프로세서가 상기 제1 에러 데이터를 획득하고 또 상기 제1 에러 데이터가 정정 불가능한 심각한 에러 유형인 경우에 상기 프로세서에 의해 송신되며,
    상기 심각한 에러 이벤트 지시가 수신된 때로부터 시작하는 미리 설정된 대기 시간 내에, 상기 프로세서에 의해 송신된 상기 제1 에러 데이터의 적어도 일부가 수신되지 않으면, 상기 베이스 보드 관리 제어기는 상기 컴퓨터가 다운된 것으로 결정하도록 구성된, 컴퓨터.
  3. 제1항 또는 제2항에 있어서,
    상기 베이스 보드 관리 제어기가, 상기 판독 응답 메시지에 따라, 상기 프로세서에 의해 기록된 제1 에러 데이터를 획득하도록 구성된 것은 구체적으로,
    상기 판독 응답 메시지가 상기 제1 에러 데이터를 가지고 있으면, 상기 베이스 보드 관리 제어기는, 상기 판독 응답 메시지로부터, 상기 프로세서에 의해 기록된 제1 에러 데이터를 획득하도록 구성된 것인, 컴퓨터.
  4. 제1항 또는 제2항에 있어서,
    상기 베이스 보드 관리 제어기가, 상기 판독 응답 메시지에 따라, 상기 프로세서에 의해 기록된 제1 에러 데이터를 획득하도록 구성된 것은 구체적으로,
    상기 판독 응답 메시지가 판독 실패 지시(read failure indication)를 가지고 있으면, 상기 컴퓨터에 웜 리부트(warm reboot)를 실행하도록, 상기 베이스 보드 관리 제어기는 웜 리부트 모듈 또는 상기 컴퓨터의 사용자에 명령하도록 구성되고,
    상기 컴퓨터의 상기 웜 리부트 동안, 상기 프로세서가 상기 컴퓨터의 기본 입출력 시스템의 에러 수집 명령을 실행하고, 상기 기본 입출력 시스템의 에러 수집 명령에 따라 상기 제1 에러 데이터를 획득하여, 상기 베이스 보드 관리 제어기에 상기 제1 에러 데이터를 송신할 수 있도록, 상기 판독 실패 지시는, 상기 프로세서로부터 상기 제1 에러 데이터 판독이 실패한 것을 지시하는 데 사용되며,
    상기 베이스 보드 관리 제어기는, 상기 프로세서에 의해 송신된 상기 제1 에러 데이터를 수신하도록 구성된 것인, 컴퓨터.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 판독 응답 메시지에 따라, 상기 프로세서에 의해 기록된 제1 에러 데이터를 획득된 후, 상기 베이스 보드 관리 제어기는 추가로,
    상기 프로세서에 의해 기록된 제1 에러 데이터를 삭제하도록, 상기 프로세서에 명령하기 위해, 명확한 데이터 메시지를 상기 프로세서에 송신하도록 구성된, 컴퓨터.
  6. 제2항에 있어서,
    상기 베이스 보드 관리 제어기는 추가로,
    상기 프로세서에 의해 송신된 심각한 에러 이벤트 지시가 수신된 후, 상기 심각한 에러 경고 이벤트를 사용자에게 통지하기 위해, 상기 컴퓨터의 오류 경고 모듈에게 경고 메시지를 송신하거나, 인쇄 동작을 실행하도록 구성된, 컴퓨터.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 베이스 보드 관리 제어기는 추가로,
    상기 제1 에러 데이터의 오류 파싱 정보(fault parsing information)를 획득하기 위해, 오류 파싱 메커니즘에 따라, 상기 제1 에러 데이터를 파싱(parse)하도록 구성된, 컴퓨터.
  8. 제7항에 있어서,
    상기 베이스 보드 관리 제어기는 추가로,
    오류 처리 제안을 획득하기 위해, 미리 설정된 오류 처리 메커니즘에 따라, 상기 제1 에러 데이터의 오류 파싱 정보를 분석하도록 구성된, 컴퓨터.
  9. 제8항에 있어서,
    상기 컴퓨터가 다운된 것으로 결정되기 전, 상기 베이스 보드 관리 제어기는 추가로,
    제2 에러 데이터의 오류 파싱 정보를 획득하기 위해, 상기 프로세서에 의해 송신된 상기 제2 에러 데이터를 수신하고, 상기 오류 파싱 메커니즘에 따라, 상기 제2 에러 데이터를 파싱하도록 구성되고,
    상기 제2 에러 데이터는, 상기 컴퓨터가 상기 제1 에러 데이터를 생성하기 전, 미리 설정된 시간 내에 생성된 에러 데이터이며,
    상기 베이스 보드 관리 제어기가, 오류 처리 제안을 획득하기 위해, 미리 설정된 오류 처리 메커니즘에 따라, 상기 제1 에러 데이터의 오류 파싱 정보를 분석하도록 구성된 것은,
    상기 베이스 보드 관리 제어기는, 상기 오류 처리 제안을 획득하기 위해, 상기 미리 설정된 오류 처리 메커니즘에 따라, 상기 제2 에러 데이터의 오류 파싱 정보 및 상기 제1 에러 데이터의 오류 파싱 정보를 분석하도록 구성된 것인, 컴퓨터.
  10. 제7항 내지 제9항 중 어느 한 항에 있어서,
    상기 베이스 보드 관리 제어기는 추가로,
    상기 제1 에러 데이터의 오류 파싱 정보 또는 상기 오류 처리 제안을 프린트하도록 구성된, 컴퓨터.
  11. 제7항 내지 제9항 중 어느 한 항에 있어서,
    상기 베이스 보드 관리 제어기는 추가로,
    상기 컴퓨터의 오류 정보 베이스의, 상기 제1 에러 데이터의 오류 파싱 정보, 상기 제2 에러 데이터의 오류 파싱 정보, 상기 제1 에러 데이터, 및 상기 제2 에러 데이터 중 적어도 하나를 저장하도록 구성된, 컴퓨터.
  12. 오류 처리 방법으로서,
    상기 오류 처리 방법은 베이스 보드(baseboard) 관리 제어기 및 프로세서를 포함하는 컴퓨터에 적용되고,
    상기 오류 처리 방법은,
    상기 컴퓨터가 다운된 것으로 결정하면, 상기 베이스 보드 관리 제어기가 상기 프로세서에 판독 요청 메시지를 송신하는 단계 - 상기 판독 요청 메시지는, 상기 프로세서에 의해 기록된 제1 에러 데이터의 판독을 요청하기 위해 사용됨 -; 및
    상기 베이스 보드 관리 제어기가, 상기 프로세서에 의해 리턴된 판독 응답 메시지를 수신하고, 상기 판독 응답 메시지에 따라, 상기 프로세서에 의해 기록된 제1 에러 데이터를 획득하는 단계
    를 포함하는 오류 처리 방법.
  13. 제12항에 있어서,
    상기 오류 처리 방법은,
    상기 베이스 보드 관리 제어기가, 상기 프로세서에 의해 송신된 심각한 에러 이벤트 지시를 수신하는 단계 - 상기 심각한 에러 이벤트 지시는, 상기 프로세서가 상기 제1 에러 데이터를 획득하고 또 상기 제1 에러 데이터가 정정 불가능한 심각한 에러 유형인 경우에 상기 프로세서에 의해 송신됨 -; 및
    상기 프로세서에 의해 송신된 제1 에러 데이터의 적어도 일부가, 상기 심각한 에러 이벤트 지시가 수신된 때로부터 시작하는 미리 설정된 대기 시간 내에 수신되지 않으면, 상기 컴퓨터가 다운된 것으로 결정하는 단계
    를 더 포함하는 오류 처리 방법.
  14. 제12항 또는 제13항에 있어서,
    상기 베이스 보드 관리 제어기가, 상기 프로세서에 의해 리턴된 판독 응답 메시지를 수신하고, 상기 판독 응답 메시지에 따라, 상기 프로세서에 의해 기록된 제1 에러 데이터를 획득하는 단계는,
    상기 판독 응답 메시지가 상기 제1 에러 데이터를 가지고 있으면, 상기 베이스 보드 관리 제어기가, 상기 판독 응답 메시지로부터, 상기 프로세서에 의해 기록된 제1 에러 데이터를 획득하는 단계
    를 포함하는, 오류 처리 방법.
  15. 제12항 또는 제13항에 있어서,
    상기 베이스 보드 관리 제어기가, 상기 프로세서에 의해 리턴된 판독 응답 메시지를 수신하고, 상기 판독 응답 메시지에 따라, 상기 프로세서에 의해 기록된 제1 에러 데이터를 획득하는 단계는,
    상기 판독 응답 메시지가 판독 실패 지시를 가지고 있으면, 상기 프로세서가, 상기 컴퓨터의 웜 리부트(warm reboot) 동안, 상기 컴퓨터의 기본 입출력 시스템의 에러 수집 명령을 실행하고, 상기 기본 입출력 시스템의 에러 수집 명령에 따라 상기 제1 에러 데이터를 획득하여, 상기 제1 에러 데이터를 상기 베이스 보드 관리 제어기에 송신할 수 있도록, 상기 베이스 보드 제어기가, 웜 리부트 모듈 또는 상기 컴퓨터의 사용자에 상기 컴퓨터에 웜 리부트를 실행하도록 명령하는 단계; 및
    상기 베이스 보드 관리 제어기가 상기 프로세서에 의해 송신된 제1 에러 데이터를 수신하는 단계
    를 포함하고,
    상기 판독 실패 지시는, 상기 프로세서로부터 상기 제1 에러 데이터 판독은 실패한 것을 지시하는 데 사용되는, 오류 처리 방법.
  16. 제13항에 있어서,
    상기 베이스 보드 관리 제어기가, 상기 프로세서에 의해 송신된 심각한 에러 이벤트 지시를 수신하는 단계 후, 상기 오류 처리 방법은,
    상기 베이스 보드 관리 제어기가, 상기 심각한 에러 경고 이벤트를 사용자에 통지하기 위해, 상기 컴퓨터의 오류 경고 모듈에 경고 메시지를 송신하거나, 인쇄 동작을 실행하는 단계
    를 더 포함하는, 오류 처리 방법.
  17. 제12항 내지 제16항 중 어느 한 항에 있어서,
    상기 베이스 보드 관리 제어기가, 상기 판독 응답 메시지에 따라, 상기 프로세서에 의해 기록된 제1 에러 데이터를 획득하는 동작 후,
    상기 오류 처리 방법은,
    상기 베이스 보드 관리 제어기가, 상기 제1 에러 데이터의 오류 파싱 정보(fault parsing information)를 획득하기 위해, 오류 파싱 메커니즘에 따라, 상기 제1 에러 데이터를 파싱(parsing)하는 단계
    를 더 포함하는 오류 처리 방법.
  18. 제17항에 있어서,
    상기 베이스 보드 관리 제어기가, 오류 처리 제안을 획득하기 위해, 미리 설정된 오류 처리 메커니즘에 따라, 상기 제1 에러 데이터의 오류 파싱 정보를 분석하는 단계
    를 더 포함하는 오류 처리 방법.
  19. 제18항에 있어서,
    상기 베이스 보드 관리 제어기가, 상기 컴퓨터가 다운된 것으로 결정하기 전,
    상기 오류 처리 방법은,
    상기 베이스 보드 관리 제어기가, 상기 프로세서에 의해 송신된 제2 에러 데이터를 수신하는 단계 - 상기 제2 에러 데이터는 상기 컴퓨터가 상기 제1 에러 데이터를 생성하기 전, 미리 설정된 시간 내에서 생성된 에러 데이터임 -
    를 더 포함하고,
    상기 베이스 보드 관리 제어기가, 오류 처리 제안을 획득하기 위해, 미리 설정된 오류 처리 메커니즘에 따라, 상기 제1 에러 데이터의 오류 파싱 정보를 분석하는 단계는
    상기 베이스 보드 관리 제어기가, 제2 에러 데이터의 오류 파싱 정보를 획득하기 위해, 상기 오류 파싱 메커니즘에 따라, 상기 제2 에러 데이터를 파싱(parsing)하고, 상기 오류 처리 제안을 획득하기 위해, 상기 미리 설정된 오류 처리 메커니즘에 따라, 상기 제2 오류 데이터의 오류 파싱 정보 및 상기 제1 에러 데이터의 오류 파싱 정보를 분석하는 단계를 포함하는, 오류 처리 방법.
  20. 제17항 내지 제19항 중 어느 한 항에 있어서,
    상기 베이스 보드 관리 제어기가, 상기 제1 에러 데이터의 오류 파싱 정보 또는 상기 오류 처리 제안을 프린트하는 단계
    를 더 포함하는 오류 처리 방법.
  21. 제17항 내지 제19항 중 어느 한 항에 있어서,
    상기 베이스 보드 관리 제어기가, 상기 컴퓨터의 오류 정보 베이스의, 상기 제1 에러 데이터의 오류 파싱 정보, 상기 제2 에러 데이터의 오류 파싱 정보, 상기 제1 에러 데이터, 및 상기 제2 에러 데이터 중 적어도 하나를 저장하는 단계
    를 더 포함하는 오류 처리 방법.
  22. 베이스 보드 관리 제어기로서,
    컴퓨터가 다운된 것으로 결정되면, 판독 요청 메시지를 프로세서에 송신하도록 구성된 송신 유닛; 및
    상기 프로세서에 의해 리턴된 판독 응답 메시지를 수신하고, 상기 판독 응답 메시지에 따라, 상기 프로세서에 의해 기록된 제1 에러 데이터를 획득하도록 구성된 수신 유닛
    을 포함하고,
    상기 판독 요청 메시지는 프로세서에 의해 기록된 제1 에러 데이터의 판독을 요청하기 위해 사용되는, 베이스 보드 관리 제어기.
  23. 제22항에 있어서,
    상기 프로세서에 의해 송신된 심각한 에러 이벤트 지시를 수신하도록 구성된 결정 유닛을 더 포함하고,
    상기 심각한 에러 이벤트 지시는, 상기 프로세서가 상기 제1 에러 데이터를 획득하고 또 상기 제1 에러 데이터가 정정 불가능한 심각한 에러 유형인 경우에 상기 프로세서에 의해 송신되고,
    상기 프로세서에 의해 송신된 제1 에러 데이터의 적어도 일부가, 상기 심각한 에러 이벤트 지시가 수신된 때로부터 시작하는 미리 설정된 대기 시간 내에 수신되지 않으면, 상기 컴퓨터는 다운된 것으로 결정하는, 베이스 보드 관리 제어기
  24. 제22항 또는 제23항에 있어서,
    상기 수신 유닛이, 상기 프로세서에 의해 리턴된 판독 응답 메시지를 수신하고, 상기 판독 응답 메시지에 따라, 상기 프로세서에 의해 기록된 제1 에러 데이터를 획득하는 것은,
    상기 판독 응답 메시지가 상기 제1 에러 데이터를 가지고 있으면, 상기 수신 유닛은, 상기 판독 응답 메시지로부터, 상기 프로세서에 의해 기록된 제1 에러 데이터를 수신하는 것을 포함하는, 베이스 보드 관리 제어기
  25. 제22항 또는 제23항에 있어서,
    상기 수신 유닛이, 상기 프로세서에 의해 리턴된 판독 응답 메시지를 수신하고, 상기 판독 응답 메시지에 따라, 상기 프로세서에 의해 기록된 제1 에러 데이터를 획득하는 것은,
    상기 판독 응답 메시지가 판독 실패 지시를 가지고 있으면, 상기 프로세서가, 상기 컴퓨터의 웜 리부트(warm reboot) 동안, 상기 컴퓨터의 기본 입출력 시스템의 에러 수집 명령을 실행하고, 상기 기본 입출력 시스템의 에러 수집 명령에 따라, 상기 제1 에러 데이터를 획득하며, 상기 수신 유닛에 상기 제1 에러 데이터를 송신할 수 있도록, 상기 수신 유닛은, 웜 리부트 유닛 또는 상기 컴퓨터의 사용자에게 상기 컴퓨터에 웜 리부트를 실행하도록 명령하는 것, 및
    상기 수신 유닛이 상기 프로세서에 의해 송신된 제1 에러 데이터를 수신하는 것
    을 포함하고,
    상기 판독 실패 지시는, 상기 프로세서로부터 상기 제1 에러 데이터 판독은 실패한 것을 지시하는 데 사용되는, 베이스 보드 관리 제어기
  26. 제23항에 있어서,
    상기 결정 유닛이 상기 프로세서에 의해 송신된 심각한 에러 이벤트 지시를 수신한 후, 상기 심각한 에러 경고 이벤트를 사용자에게 통지하기 위해, 상기 컴퓨터의 오류 경고 유닛에 경고 메시지를 송신하거나, 인쇄 동작을 실행하도록 구성된 오류 경고 유닛
    을 더 포함하는 베이스 보드 관리 제어기
  27. 제22항 내지 제26항 중 어느 한 항에 있어서,
    제1 에러 데이터의 오류 파싱 정보(fault parsing information)를 획득하기 위해, 오류 파싱 메커니즘에 따라, 상기 제1 에러 데이터의 오류 파싱 정보를 파싱(parse)하도록 구성된 오류 처리 유닛
    을 더 포함하는 베이스 보드 관리 제어기.
  28. 제27항에 있어서,
    상기 오류 처리 유닛은 추가로,
    오류 처리 제안을 획득하기 위해, 미리 설정된 오류 처리 메커니즘에 따라, 상기 제1 에러 데이터의 오류 파싱 정보를 분석하도록 구성된, 베이스 보드 관리 제어기.
  29. 제28항에 있어서,
    상기 수신 유닛은 추가로,
    상기 프로세서에 의해 송신된 제2 에러 데이터를 수신하도록 구성되고,
    상기 오류 처리 유닛은 추가로,
    제2 에러 데이터의 오류 파싱 정보를 획득하기 위해, 상기 오류 파싱 메커니즘에 따라, 상기 제2 에러 데이터를 파싱하도록 구성되며,
    상기 제2 에러 데이터는, 상기 컴퓨터가 상기 제1 에러 데이터를 생성하기 전, 미리 설정된 시간 내에서 생성된 데이터이고,
    상기 오류 처리 유닛이, 오류 처리 제안을 획득하기 위해, 미리 설정된 오류 처리 메커니즘에 따라, 상기 제1 에러 데이터의 오류 파싱 정보를 분석하도록 구성된 것은,
    상기 오류 처리 제안을 획득하기 위해, 상기 미리 설정된 오류 처리 메커니즘에 따라, 상기 오류 처리 유닛이 상기 제2 에러 데이터의 오류 파싱 정보 및 상기 제1 에러 데이터의 오류 파싱 정보를 분석하는 것인, 베이스 보드 관리 제어기.
  30. 제27항 내지 제29항 중 어느 한 항에 있어서,
    상기 오류 처리 유닛은 추가로,
    상기 컴퓨터의 오류 정보 베이스의, 상기 제1 에러 데이터의 오류 파싱 정보, 상기 제2 데이터의 오류 파싱 정보, 상기 제1 에러 데이터, 및 상기 제2 에러 데이터 중 적어도 하나를 저장하도록 구성된, 베이스 보드 관리 제어기.
  31. 베이스 보드 관리 제어기로서,
    상기 베이스 보드 관리 제어기는 프로세서, 메모리, 버스, 및 통신 인터페이스를 포함하고,
    상기 메모리는, 컴퓨터 실행 가능한 명령을 저장하도록 구성되고, 상기 프로세서는 상기 버스를 사용하여 상기 메모리에 연결되어 있고,
    상기 베이스 보드 관리 제어기가 동작할 때, 상기 베이스 보드 관리 제어기가 제12항 내지 제21항 중 어느 한 항에 기재된 단계를 실행할 수 있도록, 상기 프로세서는 상기 메모리에 저장된 상기 컴퓨터 실행 가능한 명령을 실행하는, 베이스 보드 관리 제어기.
  32. 컴퓨터 판독 가능한 매체로서,
    컴퓨터의 프로세서가 컴퓨터 실행 가능한 명령을 실행할 때, 상기 컴퓨터가 제12항 내지 제21항 중 어느 한 항에 기재된 단계를 실행할 수 있도록, 컴퓨터 실행 가능한 명령을 포함하는 컴퓨터 판독 가능한 매체.
KR1020167027222A 2014-06-24 2014-06-24 오류 처리 방법, 관련 장치 및 컴퓨터 KR101944874B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2014/080618 WO2015196365A1 (zh) 2014-06-24 2014-06-24 一种故障处理方法、相关装置及计算机

Publications (2)

Publication Number Publication Date
KR20160128404A true KR20160128404A (ko) 2016-11-07
KR101944874B1 KR101944874B1 (ko) 2019-02-01

Family

ID=54936439

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167027222A KR101944874B1 (ko) 2014-06-24 2014-06-24 오류 처리 방법, 관련 장치 및 컴퓨터

Country Status (14)

Country Link
US (3) US10353763B2 (ko)
EP (2) EP3121726B1 (ko)
JP (1) JP6333410B2 (ko)
KR (1) KR101944874B1 (ko)
CN (2) CN107357671A (ko)
AU (1) AU2014399227B2 (ko)
BR (1) BR112016022329B1 (ko)
CA (1) CA2942045C (ko)
DK (1) DK3121726T3 (ko)
ES (1) ES2667322T3 (ko)
NO (1) NO3121726T3 (ko)
SG (1) SG11201607545PA (ko)
WO (1) WO2015196365A1 (ko)
ZA (1) ZA201606180B (ko)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975377B (zh) * 2016-04-29 2018-05-25 浪潮电子信息产业股份有限公司 一种监控内存的方法及装置
CN107077408A (zh) * 2016-12-05 2017-08-18 华为技术有限公司 故障处理的方法、计算机系统、基板管理控制器和系统
JP7063445B2 (ja) * 2017-03-22 2022-05-09 Necプラットフォームズ株式会社 障害情報処理プログラム、コンピュータ、障害通知方法、コンピュータシステム
CN108108259A (zh) * 2018-01-11 2018-06-01 郑州云海信息技术有限公司 一种内核故障定位方法及装置
CN108958965B (zh) * 2018-06-28 2021-03-02 苏州浪潮智能科技有限公司 一种bmc监控可恢复ecc错误的方法、装置及设备
CN109240847A (zh) * 2018-09-27 2019-01-18 郑州云海信息技术有限公司 一种post过程中内存错误上报方法、装置、终端及存储介质
US10846162B2 (en) * 2018-11-29 2020-11-24 Oracle International Corporation Secure forking of error telemetry data to independent processing units
CN109783325B (zh) * 2018-12-14 2023-07-25 平安证券股份有限公司 业务监控方法、装置、设备及存储介质
CN109947585A (zh) * 2019-03-13 2019-06-28 西安易朴通讯技术有限公司 Pcie设备故障的处理方法及装置
TWI709082B (zh) * 2019-07-08 2020-11-01 神雲科技股份有限公司 應用於開機階段及開機後運行階段的除錯訊息紀錄方法
CN112346786B (zh) * 2019-08-08 2022-07-12 佛山市顺德区顺达电脑厂有限公司 应用于开机阶段及开机后运行阶段的除错信息纪录方法
CN110532160B (zh) * 2019-09-03 2023-07-25 深圳市智微智能科技股份有限公司 一种bmc记录服务器系统热重启事件的方法
TWI715201B (zh) * 2019-09-18 2021-01-01 神雲科技股份有限公司 開機錯誤資訊記錄方法
US11243859B2 (en) * 2019-10-09 2022-02-08 Microsoft Technology Licensing, Llc Baseboard management controller that initiates a diagnostic operation to collect host information
CN111008091A (zh) * 2019-12-06 2020-04-14 苏州浪潮智能科技有限公司 一种内存ce的故障处理方法、系统及相关装置
US11132314B2 (en) * 2020-02-24 2021-09-28 Dell Products L.P. System and method to reduce host interrupts for non-critical errors
CN113535502A (zh) * 2020-04-17 2021-10-22 捷普科技(上海)有限公司 用于服务器系统的错误日志收集方法
US11204821B1 (en) * 2020-05-07 2021-12-21 Xilinx, Inc. Error re-logging in electronic systems
CN111581058B (zh) * 2020-05-09 2024-03-19 西安易朴通讯技术有限公司 故障管理方法、装置、设备及计算机可读存储介质
CN112181522A (zh) * 2020-09-28 2021-01-05 亚信科技(中国)有限公司 数据处理的方法、装置以及电子设备
CN112256467B (zh) * 2020-10-23 2022-08-02 英业达科技有限公司 错误类型判断系统及其方法
US11269729B1 (en) * 2020-12-21 2022-03-08 Microsoft Technology Licensing, Llc Overloading a boot error signaling mechanism to enable error mitigation actions to be performed
CN113190396A (zh) * 2021-03-15 2021-07-30 山东英信计算机技术有限公司 一种收集cpu寄存器数据的方法、系统及介质
CN113076210B (zh) * 2021-03-26 2023-01-20 山东英信计算机技术有限公司 服务器故障诊断结果通知方法、系统、终端及存储介质
CN113726555A (zh) * 2021-08-02 2021-11-30 华迪计算机集团有限公司 一种适用于数据通信网络辅助解析告警的系统及方法
CN114201360B (zh) * 2021-11-26 2023-11-17 苏州浪潮智能科技有限公司 一种aer功能管理方法、装置、服务器和存储介质
US11921582B2 (en) * 2022-04-29 2024-03-05 Microsoft Technology Licensing, Llc Out of band method to change boot firmware configuration
TWI800443B (zh) * 2022-08-15 2023-04-21 緯穎科技服務股份有限公司 快速周邊組件互連裝置的錯誤回報優化方法以及快速周邊組件互連裝置的錯誤回報優化系統

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0375844A (ja) * 1989-08-17 1991-03-29 Nec Corp 障害自動解析方式
JPH05233377A (ja) * 1992-01-09 1993-09-10 Nec Corp レジスタ情報収集方式
JPH09288602A (ja) * 1996-04-23 1997-11-04 Fujitsu Ltd 障害情報記憶装置の書込み保護装置とリセット制御方法
JP2014048785A (ja) * 2012-08-30 2014-03-17 Nec Computertechno Ltd 障害トレース装置、障害トレースシステム、障害トレース方法、及び、障害トレースプログラム

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02234241A (ja) * 1989-03-08 1990-09-17 Hitachi Ltd リセット・リトライ回路
JPH09286602A (ja) 1996-04-24 1997-11-04 Mitsubishi Gas Chem Co Inc 一酸化炭素及び水素の混合ガスの製造方法
US20030070115A1 (en) * 2001-10-05 2003-04-10 Nguyen Tom L. Logging and retrieving pre-boot error information
JP3902564B2 (ja) * 2003-04-15 2007-04-11 中部日本電気ソフトウェア株式会社 障害通報装置および障害通報方法
US7844866B2 (en) * 2007-10-02 2010-11-30 International Business Machines Corporation Mechanism to report operating system events on an intelligent platform management interface compliant server
JP2005251060A (ja) * 2004-03-08 2005-09-15 Hitachi Ltd 故障表示装置および故障部位表示方法
US7409594B2 (en) * 2004-07-06 2008-08-05 Intel Corporation System and method to detect errors and predict potential failures
US7546487B2 (en) * 2005-09-15 2009-06-09 Intel Corporation OS and firmware coordinated error handling using transparent firmware intercept and firmware services
US20070088988A1 (en) * 2005-10-14 2007-04-19 Dell Products L.P. System and method for logging recoverable errors
US20070234123A1 (en) * 2006-03-31 2007-10-04 Inventec Corporation Method for detecting switching failure
US7594144B2 (en) * 2006-08-14 2009-09-22 International Business Machines Corporation Handling fatal computer hardware errors
US20080270827A1 (en) * 2007-04-26 2008-10-30 International Business Machines Corporation Recovering diagnostic data after out-of-band data capture failure
US8024609B2 (en) * 2009-06-03 2011-09-20 International Business Machines Corporation Failure analysis based on time-varying failure rates
JP5514643B2 (ja) * 2010-06-21 2014-06-04 株式会社日立ソリューションズ 障害原因判定ルール変化検知装置及びプログラム
CN102375775B (zh) 2010-08-11 2014-08-20 英业达股份有限公司 一种具有检测系统不可恢复错误指示信号的计算机系统
JP5541519B2 (ja) * 2010-10-06 2014-07-09 エヌイーシーコンピュータテクノ株式会社 情報処理装置、故障部位判別方法および故障部位判別プログラム
CN102467440A (zh) 2010-11-09 2012-05-23 鸿富锦精密工业(深圳)有限公司 内存错误检测系统及方法
CN102467417B (zh) 2010-11-19 2014-04-23 英业达股份有限公司 计算机系统
TWI446161B (zh) * 2010-12-30 2014-07-21 Ibm 處理一多處理器資訊處理系統之一故障處理器的裝置及方法
US8898408B2 (en) * 2011-12-12 2014-11-25 Dell Products L.P. Memory controller-independent memory mirroring
AU2012398458B2 (en) * 2012-06-06 2016-05-19 Intel Corporation Recovery after input/output error-containment events
CN103514068A (zh) * 2012-06-28 2014-01-15 北京百度网讯科技有限公司 内存故障自动定位方法
CN103647804B (zh) 2013-11-22 2017-04-26 华为技术有限公司 一种存储单元的数据处理方法、设备及系统
KR102558361B1 (ko) 2015-04-13 2023-07-21 삼성전자주식회사 통신 시스템에서 프로파일을 관리하는 기법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0375844A (ja) * 1989-08-17 1991-03-29 Nec Corp 障害自動解析方式
JPH05233377A (ja) * 1992-01-09 1993-09-10 Nec Corp レジスタ情報収集方式
JPH09288602A (ja) * 1996-04-23 1997-11-04 Fujitsu Ltd 障害情報記憶装置の書込み保護装置とリセット制御方法
JP2014048785A (ja) * 2012-08-30 2014-03-17 Nec Computertechno Ltd 障害トレース装置、障害トレースシステム、障害トレース方法、及び、障害トレースプログラム

Also Published As

Publication number Publication date
US11360842B2 (en) 2022-06-14
JP6333410B2 (ja) 2018-05-30
JP2017517060A (ja) 2017-06-22
EP3121726B1 (en) 2018-01-31
AU2014399227A1 (en) 2016-09-22
CN105659215B (zh) 2017-08-25
CN105659215A (zh) 2016-06-08
CN107357671A (zh) 2017-11-17
DK3121726T3 (en) 2018-05-22
EP3121726A4 (en) 2017-05-03
CA2942045A1 (en) 2015-12-30
US20190332453A1 (en) 2019-10-31
CA2942045C (en) 2019-04-16
KR101944874B1 (ko) 2019-02-01
NO3121726T3 (ko) 2018-06-30
SG11201607545PA (en) 2016-10-28
EP3355197A1 (en) 2018-08-01
ES2667322T3 (es) 2018-05-10
EP3355197B1 (en) 2019-10-23
WO2015196365A1 (zh) 2015-12-30
US20170102985A1 (en) 2017-04-13
US10353763B2 (en) 2019-07-16
EP3121726A1 (en) 2017-01-25
AU2014399227B2 (en) 2017-07-27
BR112016022329B1 (pt) 2019-01-02
ZA201606180B (en) 2019-04-24
BR112016022329A2 (pt) 2017-08-15
US20210182136A1 (en) 2021-06-17

Similar Documents

Publication Publication Date Title
KR101944874B1 (ko) 오류 처리 방법, 관련 장치 및 컴퓨터
CN108509156B (zh) 数据读取方法、装置、设备及系统
US20110225582A1 (en) Snapshot management method, snapshot management apparatus, and computer-readable, non-transitory medium
KR20160044484A (ko) 클라우드 배치 기반구조 검증 엔진
US9753809B2 (en) Crash management of host computing systems in a cluster
US8074123B2 (en) Multi-CPU failure detection/recovery system and method for the same
US10275330B2 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
CN110704228A (zh) 一种固态硬盘异常处理方法及系统
JP5425720B2 (ja) 仮想化環境監視装置とその監視方法およびプログラム
US11281550B2 (en) Disaster recovery specific configurations, management, and application
JP5999254B2 (ja) 管理装置、方法及びプログラム
JP2017078998A (ja) 情報処理装置およびログ管理方法、並びにコンピュータ・プログラム
CN115756935A (zh) 嵌入式软件系统的异常故障定位方法、装置及设备
CN114217925A (zh) 一种实现异常自动重启的业务程序运行监控方法及系统
CN112988442A (zh) 一种服务器运行阶段传送故障信息的方法和设备
JP2002182951A (ja) 情報処理装置のメンテナンス方法および情報処理装置
JPWO2014112039A1 (ja) 情報処理装置、情報処理装置制御方法及び情報処理装置制御プログラム
TWI602054B (zh) 用於電腦裝置的錯誤狀態資料提供方法
CN114356708A (zh) 一种设备故障监控方法、装置、设备及可读存储介质
JP2017151511A (ja) 情報処理装置、動作ログ取得方法および動作ログ取得プログラム
CN117555719A (zh) 一种系统异常定位的方法、装置、存储介质及电子设备
JP2011159234A (ja) 障害対応システム及び障害対応方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant