KR100990700B1 - 정보 처리 장치, 장해 처리 방법, 및 장해 처리 프로그램을기록한 컴퓨터 판독 가능한 기록 매체 - Google Patents

정보 처리 장치, 장해 처리 방법, 및 장해 처리 프로그램을기록한 컴퓨터 판독 가능한 기록 매체 Download PDF

Info

Publication number
KR100990700B1
KR100990700B1 KR1020070117901A KR20070117901A KR100990700B1 KR 100990700 B1 KR100990700 B1 KR 100990700B1 KR 1020070117901 A KR1020070117901 A KR 1020070117901A KR 20070117901 A KR20070117901 A KR 20070117901A KR 100990700 B1 KR100990700 B1 KR 100990700B1
Authority
KR
South Korea
Prior art keywords
hardware resource
failure
mode
shared
information
Prior art date
Application number
KR1020070117901A
Other languages
English (en)
Other versions
KR20080061258A (ko
Inventor
히로시 무라카미
Original Assignee
후지쯔 가부시끼가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후지쯔 가부시끼가이샤 filed Critical 후지쯔 가부시끼가이샤
Publication of KR20080061258A publication Critical patent/KR20080061258A/ko
Application granted granted Critical
Publication of KR100990700B1 publication Critical patent/KR100990700B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0775Content or structure details of the error report, e.g. specific table structure, specific error fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0781Error filtering or prioritizing based on a policy defined by the user or on a policy defined by a hardware/software module, e.g. according to a severity level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)
  • Hardware Redundancy (AREA)

Abstract

본 발명은 공유 하드웨어 자원에 있어서 장해가 발생한 경우에 있어서도 장해가 과도하게 보고되는 일이 없고 정확한 장해 발생 횟수의 관리를 행할 수 있는 것 외에, 낮은 제조 비용으로 실현한다.
분할 모드 정보 유지부(30)와, 하드웨어 자원 관리 정보 유지부(51)와, 장해 통지부(103)와, 동작 모드 검출부(13)와, 공유 하드웨어 자원 판단부(14)와, 파티셔닝 모드(partitioning mode)인 것이 검출되고, 또한, 장해 발생이 검지된 상기 하드웨어 자원이 공유 하드웨어 자원이라고 판단된 경우에, 그 공유 하드웨어 자원을 공유하는 복수의 물리 파티션에 구비된 장해 통지부(103)로부터 각각 통지되는 장해 검지 통지에 기초하여, 하나의 공통 장해 보고를 생성하는 공통 장해 보고 생성부(15)를 구비하여 구성한다.

Description

정보 처리 장치, 장해 처리 방법, 및 장해 처리 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체{INFORMATION PROCESSING APPARATUS, FAILURE PROCESSING METHOD, AND RECORDING MEDIUM IN WHICH FAILURE PROCESSING PROGRAM IS RECORDED}
본 발명은 예컨대 파티셔닝 기능을 구비한 서버 시스템 등에 있어서, 복수의 물리 파티션으로 분할하여 공유된 하드웨어 자원에서 발생한 장해를 처리하는 기술에 관한 것이다.
기간 시스템에서 운용되는 서버 시스템에서는 높은 가용성이나 유연한 리소스(하드웨어 자원)의 운용이 요구된다. 이러한 높은 가용성이나 유연한 리소스 운용을 실현하기 위한 수법으로서, 종래의 서버 시스템에 있어서는, 예컨대, 하드웨어 리소스를 복수의 물리 파티션으로 분할하여 공유하는 물리 분할 기능이나, 이 물리 분할 기능에 의해 분할하여 생성한 복수의 물리 파티션을 임의로 조합하여, 복수의 독립된 파티션을 형성하는 파티셔닝 기능에 의해, 하드웨어에 제한되지 않는 유연한 리소스 운용을 실현하고 있다.
도 6은 종래의 서버 시스템에 있어서의 물리 분할 기능 및 파티셔닝 기능을 설명하기 위한 도이며, 하드웨어 리소스의 배분이나 정보의 분류 기능을 ASIC(Application Specific Integrated Circuit) 및 펌웨어의 각각의 특성에 맞추어 실장하고, 연휴(連携)시키는 예를 도시하고 있다.
이 도 6에 도시하는 예에 있어서는, 서버(200)는 하드웨어 관리 장치(201)를 구비하고, 메모리나 PCI(Peripheral Component Interconnect) 카드, 칩 세트 등의 하드웨어 리소스를, 물리 분할 기능에 의해 복수(도 6에 도시하는 예로서는 m 개; m은 자연수)의 XPAR(Extended Partitioning)(202-1, 202-2 … 202-m)로 분할 가능하도록 구성되어 있다.
이들의 XPAR(202-1, 202-2 … 202-m)은 SB(System Board)/IOU(Input Output Unit) 등의 하드웨어 리소스(모듈)을 분할하여 파티션 구성을 조립하는 것에 의해 형성되는 물리 파티션으로서, 이하, XPAR을 도시하는 부호로서는, 복수의 XPAR 중 하나를 특정해야 하는 때에는 부호 202-1, 202-2 … 202-m을 이용하지만, 임의의 XPAR를 가리킬 때에는 부호 202를 이용한다.
또한, 도 6에 도시하는 예에 있어서는, ASIC(203) 등의 하드웨어 리소스가 XPAR 202에 의해 분할되어 있다.
또한, 도 6에 도시하는 예에 있어서는, 복수의 XPAR(202)를 복수(도 6에 도시하는 예에서는 P0∼Pn의 n+ 1개; n은 정수)의 파티션(Partition)에 의해 사용하고 있고, 전술한 파티셔닝 기능에 의해, 예컨대, 파티션(P0)은 XPAR(202-1, 202-2)를 묶어 이용하고 있으며, 또한, 파티션(Pn)은 XPAR(202-m)을 이용하고 있다.
또한, 이하, 파티션을 나타내는 부호로서는, 복수의 파티션 중 하나를 특정해야 할 때에는 부호 P0∼Pn을 이용하지만, 임의의 파티션을 가리킬 때에는 부호 P 를 이용한다.
파티션은 OS(Operating System)(205)이 가동되는 단위이며, 하나의 파티션에는 적어도 하나의 프로세서가 이용된다.
하드웨어 관리 장치(201)는 서버(200)에 있어서의 전원의 온/오프나 에러 정보를 관리하는 것으로, 예컨대, 서비스 프로세서를 구비하여 구성되고 있다.
그런데, 이 도 6에 도시한 바와 같은 물리 분할 기능 및 파티셔닝 기능을 사용하여 구성된 서버(200)에 있어서도, 물리 분할 기능을 사용하지 않는 경우와 동일하게, 하드웨어 리소스에 있어서 생긴 장해에 대해, 정확한 장해 정보 해석이나 그 통지 기능이 필요하게 된다.
이러한 물리 분할 기능 사용시에 있어서는, 신뢰성, 실장, 비용 및 기타 기능과의 융합성을 고려하여, 예컨대, ASIC(203)에 의해 하드웨어를 관리하여 하드웨어 리소스를 물리 분할하고, 그 장해 정보를 포함하는 리소스 관리 정보를 펌웨어(204)에 제공하고, 각 파티션(P)마다 실행되는 펌웨어(F/W)(204)에 의해, 그 리소스 관리 정보를 필요에 따라 해석하고, OS(205) 등의 상위의 레이어에 장해 정보를 제공하도록 하드웨어 리소스의 장해 관리를 행함으로써, 하드웨어의 장해의 파티션에의 영향을 적게 하고, 더욱 유연하게 기능 확장을 실현할 수 있다.
또한, 전술한 물리 분할 기능에 있어서는, 분할된 하드웨어 단위에 있어서, 전용으로 할당되는 하드웨어 리소스(이하, 점유 리소스라고 하는 경우가 있음)와 공통으로 사용되는 하드웨어 리소스(이하, 공유 리소스라고 하는 경우가 있음)가 존재한다.
[특허 문헌 1] 일본 특허 공개 제2002-229806호 공보
[특허 문헌 2] 일본 특허 공개 제2004-62535호 공보
그러나, 전술과 같이, ASIC(203)와 펌웨어(204)를 연휴시킨 물리 분할 기능에 있어서는, ASIC 레벨에서 장해 검출을 행하는 경우에, 예컨대, 도 6의 파티션(P0)과 같이, 어떤 ASIC(203)의 자손(descendant)으로 분할한 물리 파티션(XPAR 202)을 s 개(s는 2 이상의 정수; 도 6에 도시하는 예에서는, XPAR 202-1, 202-2의 2개) 묶어, 하나의 파티션(P)으로서 사용하는 경우에, XPAR 202-1과 XPAR 202-2에서 공유하고 있는 하드웨어 리소스(공유 리소스)에서 장해가 발생하거나, 이들 XPAR 202-1 및 XPAR 202-2에 다른 점유 리소스 등에서 발생한 장해가 전파된 경우에, 이들의 XPAR 202-1 및 XPAR 202-2로부터, 각각 장해 보고가 행해지고, 이에 따라 ASIC(203)에 중복한 장해 보고가 기록된다.
즉, 종래의 물리 분할 기능 사용시에 있어서의 장해 처리 수법에 따르면, ASIC(203)에 있어서, 분할된 물리 파티션에 상당하는 횟수, 즉 s 회의 중복한 장해가 기록되고, 펌웨어(204)가 이 기록된 장해 정보에 기초하여 장해 해석을 행하며, OS나 하드웨어 관리 장치(201)에 장해가 보고를 과도하게 행한다. 이에 따라, OS(205)나 하드웨어 관리 장치(201)에 있어서 정확한 장해 발생 횟수의 관리를 행할 수 없고, 메인터넌스 등을 정확하게 행할 수 없다고 하는 과제가 있다. 또한, 펌웨어(204)에 있어서도 정확한 장해 발생의 관리를 행할 수 없다고 하는 과제가 있다.
예컨대, 특허 문헌 1에는, 복수의 OS를 가동시키는 오픈계 계산기에 있어서, OS 상에서 실행하는 관리 에이전트나 관리 콘솔에 의해 하드웨어, 소프트웨어의 장해 관리를 행하는 기술이 개시되어 있다.
그러나, 이 특허 문헌 1에 개시된 수법은, 하드웨어 리소스의 배분이나 정보의 분류 기능을 펌웨어 등의 소프트웨어에 의해 전부 행하는 가상화 기술에 관한 것으로, 서버의 하드웨어 리소스를 소프트웨어 레벨로 분할하는 가상화에 관한 수법이며, 하드웨어 리소스를 물리적으로 분할하는 물리 분할 기능에 적용할 수 있는 것이 아니다. 또한, 이 특허 문헌 1에 개시된 수법에서는, 펌웨어의 부하가 증대하거나, 가상화를 실현하기 위한 게스트 OS 등을 새롭게 구비하거나 할 필요도 있다고 하는 과제도 있다.
또한, 이 특허 문헌 1에 개시된 수법에 있어서는, OS 상에서 실행하는 관리에이전트나 관리 콘솔에 의해 장해 발생시의 관리 등을 행하므로, OS의 부하가 증대하는 것 외에, 관리 콘솔을 구비할 필요가 있고, 서버의 제조 비용이 증대한다고 하는 과제도 있다.
또한, OS 상에 있어서 사용자가 관리 에이전트를 깔끔하게 실행시키는가 등, 서버를 제공하는 벤더 측에서 관리할 수 없다고 하는 과제도 있다.
또한, 특허 문헌 2에는, 노드군이 복수 모여 형성된 대규모 플랫폼을 이용한 멀티 프로세서 시스템에 있어서의 장해 처리 방법에 관한 발명으로서, 어느 하나의 노드에 있어서 장해가 발생하면, 그 장해 노드가 서비스 프로세서에 장해의 발생을 통지하고, 이 서비스 프로세서가 또 서비스 프로세서 매니저에 통지를 행하는 기술이 개시되어 있다.
그러나, 이 특허 문헌 2에 개시된 수법에 있어서는, 각 노드군에 서비스 프로세서를 구비하고, 또한, 이들 서비스 프로세서를 모아서 제어하는 서비스 프로세서 매니저를 구비할 필요가 있어, 제조 비용이 증대한다고 하는 과제가 있다.
본 발명은 이러한 과제에 감안하여 창안된 것으로, 하드웨어 자원을 복수의 물리 파티션으로 분할하는 물리 분할 모드로 동작 가능하고, 상기 복수의 물리 파티션 중 적어도 2 이상의 상기 물리 파티션을 독립된 파티션으로서 분할하는 파티셔닝 모드로 동작 가능한 서버에 있어서, 공유 하드웨어 자원에 있어서 장해가 발생한 경우에 있어서도 장해가 과도하게 보고되는 일이 없고 정확한 장해 발생 횟수의 관리를 행할 수 있는 것 외에, 낮은 제조 비용으로 실현할 수 있도록 하는 것을 목적으로 한다.
이 때문에, 본 발명의 정보 처리 장치(청구항 1)는 하드웨어 자원을 복수의 물리 파티션으로 분할하는 물리 분할 모드로 동작 가능하고, 상기 복수의 물리 파티션 중 적어도 2 이상의 상기 물리 파티션을 독립된 파티션으로서 분할하는 파티셔닝 모드로 동작 가능한 정보 처리 장치에 있어서, 상기 파티셔닝 모드로 실행 중 인지의 여부의 정보를 분할 모드 정보로서 유지하는 분할 모드 정보 유지부와, 상기 하드웨어 자원의 상기 파티션 모드에 기초하는 공유 상태에 관한 하드웨어 자원 관리 정보를 유지하는 하드웨어 자원 관리 정보 유지부와,
상기 물리 파티션마다 구비되는, 상기 하드웨어 자원에 있어서의 장해 발생을 검지하여, 장해 검지 통지를 행하는 장해 통지부와, 상기 분할 모드 정보 유지 부에 유지된 상기 분할 모드 정보에 기초하여, 상기 파티셔닝 모드인 것을 검출하는 동작 모드 검출부와, 상기 장해 통지부에 의해 상기 장해 발생이 검지된 상기 하드웨어 자원이, 상기 복수의 물리 파티션에 의해 분할하여 공유된 공유 하드웨어 자원인지의 여부를, 상기 하드웨어 자원 관리 정보 유지부에 유지된 상기 하드웨어 자원 관리 정보에 기초하여 판단하는 공유 하드웨어 자원 판단부와, 상기 파티셔닝 모드인 것이 상기 동작 모드 검출부에 의해 검출되고, 또한, 상기 장해 통지부에 의해 상기 장해 발생이 검지된 상기 하드웨어 자원이 상기 공유 하드웨어 자원이라고 상기 공유 하드웨어 자원 판단부에 의해 판단된 경우에, 상기 공유 하드웨어 자원을 공유하는 상기 복수의 물리 파티션에 구비된 각 장해 통지부로부터 각각 통지되는 상기 장해 검지 통지에 기초하여, 하나의 공통 장해 보고를 생성하는 공통 장해 보고 생성부를 구비하는 것을 특징으로 한다.
또한, 본 발명의 장해 처리 방법(청구항 2)은 하드웨어 자원을 복수의 물리 파티션으로 분할하는 물리 분할 모드로 동작 가능하고, 상기 복수의 물리 파티션 중 적어도 2 이상의 상기 물리 파티션을 독립된 파티션으로서 분할하는 파티셔닝 모드로 동작 가능한 정보 처리 장치에 있어서의 장해 처리 방법으로서, 상기 하드웨어 자원에 있어서의 장해 발생을 검지하여, 상기 물리 파티션 단위로 장해 검지 통지를 행하는 장해 통지 단계와, 상기 파티셔닝 모드로 실행 중인지의 여부의 분할 모드 정보에 기초하여, 상기 파티셔닝 모드인 것을 검출하는 동작 모드 검출 단계와, 상기 장해 통지 단계에 있어서 상기 장해 발생이 검지된 상기 하드웨어 자원이 상기 복수의 물리 파티션에 의해 분할하여 공유된 공유 하드웨어 자원인지의 여 부를, 상기 하드웨어 자원의 상기 파티션 모드에 기초하는 공유 상태에 관한 하드웨어 자원 관리 정보에 기초하여 판단하는 공유 하드웨어 자원 판단 단계와, 상기 파티셔닝 모드인 것이 상기 동작 모드 검출 단계에 있어서 검출되고, 또한, 상기 장해 통지 단계에 있어서 상기 장해 발생이 검지된 상기 하드웨어 자원이 상기 공유 하드웨어 자원이라고 상기 공유 하드웨어 자원 판단 단계에서 판단된 경우에, 상기 장해 통지 단계에 있어서, 상기 공유 하드웨어 자원을 공유하는 상기 복수의 물리 파티션 단위로 각각 통지되는 상기 장해 검지 통지에 기초하여, 하나의 공통 장해 보고를 생성하는 공통 장해 보고 생성 단계를 구비하는 것을 특징으로 한다.
또한, 본 발명의 장해 처리 프로그램(청구항 3)은 하드웨어 자원을 복수의 물리 파티션으로 분할하는 물리 분할 모드로 동작 가능하고, 상기 복수의 물리 파티션 중 적어도 2 이상의 상기 물리 파티션을 독립된 파티션으로서 분할하는 파티셔닝 모드로 동작 가능한 컴퓨터에 장해 처리 기능을 실행시키기 위한 장해 처리 프로그램으로서, 상기 하드웨어 자원에 있어서의 장해 발생을 검지하고, 상기 물리 파티션 단위로 장해 검지 통지를 행하는 장해 통지 단계와, 상기 파티셔닝 모드로 실행 중인지의 여부의 분할 모드 정보에 기초하여, 상기 파티셔닝 모드인 것을 검출하는 동작 모드 검출 단계와, 상기 장해 통지 단계에 있어서 상기 장해 발생이 검지된 상기 하드웨어 자원이 상기 복수의 물리 파티션에 의해 분할하여 공유된 공유 하드웨어 자원인지의 여부를, 상기 하드웨어 자원의 상기 파티션 모드에 기초하는 공유 상태에 관한 하드웨어 자원 관리 정보에 기초하여 판단하는, 공유 하드웨어 자원 판단 단계와, 상기 파티셔닝 모드인 것이 상기 동작 모드 검출 단계에 있 어서 검출되고, 또한, 상기 장해 통지 단계에 있어서 상기 장해 발생이 검지된 상기 하드웨어 자원이 상기 공유 하드웨어 자원이라고 상기 공유 하드웨어 자원 판단 단계에서 판단된 경우에, 상기 장해 통지 단계에 있어서, 상기 공유 하드웨어 자원을 공유하는 상기 복수의 물리 파티션 단위로 각각 통지되는 상기 장해 검지 통지에 기초하여, 하나의 공통 장해 보고를 생성하는 공통 장해 보고 생성 단계를 상기 컴퓨터에 실행시키는 것을 특징으로 한다.
또한, 본 발명의 컴퓨터 판독 가능한 기록 매체(청구항 4)는 전술한 장해 처리 프로그램을 기록한 것이다.
본 발명에 따르면, 이하의 적어도 어느 하나의 효과 내지 이점을 얻을 수 있다.
(1) 파티셔닝 모드인 것이 검출되고, 또한, 장해 발생이 검지된 하드웨어 자원이 공유 하드웨어 자원이라고 판단된 경우에, 그 공유 하드웨어 자원을 공유하는 복수의 물리 파티션 단위로 각각 통지되는 장해 검지 통지에 기초하여, 하나의 공통 장해 보고를 생성함으로써, 중복한 장해 통지가 행해지는 경우가 없고, 실제로 하드웨어 자원에 있어서 생긴 장해의 횟수에 따른 장해 보고가 행해지므로, 정확한 장해 발생 빈도의 관리를 행할 수 있어, 신뢰성을 향상시킬 수 있다(청구항 1∼청구항 4).
(2) 전용의 기기나 부품을 구비하지 않고 실현할 수 있으므로, 제조 비용이 상승하는 일이 없고 경제적이다(청구항 1∼청구항 4).
이하, 도면을 참조하여 본 발명의 실시형태를 설명한다.
도 1은 본 발명의 일 실시형태로서의 서버(정보 처리 장치)에 있어서의 장해 처리 수법에 관한 기능 블록도, 도 2는 그 하드웨어 구성예를 도시하는 논리 블록도이다.
본 서버(100)는 예컨대, 기간 시스템에서 운용되는 정보 처리 장치(컴퓨터)로서, CPU(53)(도 2 참조)가 OS(20)나 펌웨어(F/W)(10), 그 외의 프로그램을 실행함으로써, 서버(100)로서의 각종 기능을 실현하도록 되어 있다.
그리고, 본 서버(100)는 메모리나 PCI(Peripheral Component Interconnect)카드, 칩 세트 등의 하드웨어 리소스(하드웨어 자원)를 복수(도 1에 도시하는 예로서는 m 개; m은 자연수)의 XPAR(Extended Partitioning; 물리 파티션)(102-1, 102-2 … 102-m)로 분할 가능한 물리 분할 기능이나, 이 물리 분할 기능에 의해 분할한 복수의 물리 파티션을 임의로 조합하여, 복수의 독립된 파티션을 형성하는 파티셔닝 기능을 구비하고 있다.
이들 XPAR(102-1, 102-2 … 102-m)은 SB(System Board)나 IOU(Input Output Unit) 등의, 본 서버(100)에 구비된 하드웨어 리소스(하드웨어 자원)를 분할하여 파티션 구성을 조립하는 것에 의해 형성되는 물리 파티션으로서, 도 1에 도시한 바와 같이, 예컨대 ASIC(Application Specific Integrated Circuit)(30) 등의 하드웨어 리소스를 물리적으로 분할함으로써 구성되어 있다. 또한, 이하, XPAR를 나타내는 부호로는, 복수의 XPAR 중 하나를 특정해야 하는 때에는 부호 102-1, 102-2 … 102-m을 이용하지만, 임의의 XPAR를 가리킬 때에는 부호 102를 이용한다.
또한, 본 서버(100)는 전술한 파티셔닝 기능에 의해, 복수의 XPAR(102)를 임의로 조합하여 복수(도 1에 도시하는 예에서는 P0∼Pn의 n+ 1개; n은 정수)의 파티션(Partition)이 구성되어 있고, 예컨대, 파티션(P0)은 XPAR 102-1, 102-2를 묶어 이용하고 있으며, 또한, 파티션(Pn)은 XPAR 102-m을 이용하고 있다.
또한, 본 서버(100)에 있어서는, 전술과 같은 파티셔닝 기능의 유효/무효를 임의로 설정할 수 있도록 되어 있고, 이하, 파티셔닝 기능이 유효하여, 복수의 XPAR(102)(예컨대, 도 1에 도시하는 예로서는, XPAR 102-1, 102-2)를 묶어 독립된 파티션[파티션(P0)]으로 하여 분할된 상태를, 파티셔닝 모드로 동작하고 있다는 경우가 있다.
또한, 이 파티셔닝 기능의 유효/무효는 후술하는 바와 같이, 분할 모드 정보로서, ASIC(30)에 의해 관리·유지되도록 되어 있다.
그리고, 본 서버(100)에 있어서는, 전술한 물리 분할 기능이나 파티셔닝 기능은 ASIC(30)이나 펌웨어(10)의 기능에 의해 실현되도록 되어 있다.
또한, 이하, 파티션을 도시하는 부호로서는, 복수의 파티션 중 하나를 특정해야 하는 때에는 부호 P0∼Pn을 이용하지만, 임의의 파티션을 가리킬 때에는 부호 P를 이용한다.
파티션은 OS(20)가 가동되는 단위이고, 하나의 파티션(P)에는 적어도 하나의 CPU(53)가 구비된다.
또한, 본 서버(100)는 도 1에 도시한 바와 같이, 하드웨어 관리 장치(101)를 구비하여 구성되고 있다. 이 하드웨어 관리 장치(101)는 서버(100)의 하드웨어 내의 각 유닛의 전원 제어, 하드웨어 내의 온도, 전압 등의 환경 감시 등의 시스템 관리를 행하는 것으로, 도시하지 않은 서비스 프로세서 등을 구비하여 구성되고 있다. 또한, 이 하드웨어 관리 장치(101)는 본 서버(100)에 있어서의 장해의 발생도 관리하고 있으며, 예컨대, 일부의 SB(System Board; 상세한 것은 후술)(50)(도 2 참조)에 있어서 고장이 검출된 경우에, 고장난 SB(50) 대신에 대리의 SB(50)를 이용하여 재기동을 행하거나 하는 제어를 행하게 되어 있다.
ASIC(30)는 본 서버(100)에 서버로서의 기능을 실현시키기 위해 구성된 집적회로로서, 본 실시형태에 있어서는, 편의상, 본 서버(100)에 구비되는 여러 가지의 ASIC(Application Specific Integrated Circuit; 도 2 참조)를 총칭하여 나타내고 있다.
그런데, 본 서버(100)는 도 2에 도시한 바와 같이, 복수의 SB(50)와 복수의 IOU(70)를 구비하고, 이들 SB(50)와 IOU(70)가 크로스바(60)에 의해 서로 결합되어 있다.
SB(50)는 CPU(Central Processing Unit)(53a, 53b)와 DIMM(51a, 51b)를 탑재하는 유닛이고, 도 2에 도시한 바와 같이, 복수(도 2에 도시하는 예에서는 2개)의 CPU(53a, 53b)나 복수(도 2에 도시하는 예에서는 2개)의 DIMM(Dual Inline Memory Module)(51a, 51b)를 구비하고, NB(North Bridge)(54) 및 MLDS(Memory and Logical data Switch)(52)를 더 구비하여 구성되고 있다.
또한, 이 도 2 중에 있어서는, 편의상, 복수의 SB(50)나 IOU(70)중 일부의 SB(50)나 일부의 IOU(70)에 대해서만 상세한 하드웨어 구성을 나타내고, 다른 SB(50)이나 IOU(70)에 있어서의 하드웨어 구성의 도시를 생략하고 있다.
CPU(53a, 53b)는 각각 프로그램을 실행·연산함으로써 본 서버(100)로서의 기능을 실현하는 것이고, DIMM(51a, 51b)는 CPU(53a, 53b)가 프로그램을 실행하는 것에 있어서, 각종 프로그램(커맨드)이나 데이터를 일시적으로 저장·전개하기 위한 메모리이다.
또한, 이하, CPU를 도시하는 부호로서는, 복수의 CPU 중 하나를 특정해야 하는 때에는 부호 53a, 53b를 이용하지만, 임의의 CPU를 가리킬 때에는 부호 53을 이용한다.
동일하게, 이하, DIMM을 도시하는 부호로서는, 복수의 DIMM 중 하나를 특정해야 하는 때에는 부호 51a, 51b를 이용하지만, 임의의 DIMM을 가리킬 때에는 부호 51를 이용한다.
NB(54) 및 MLDS(52)은 CPU(53a, 53b)나 DIMM(51a, 51b) 및 IO 컨트롤러를 결합하여 서버(100)로서의 제어를 행하는 칩 세트이다. NB(54)는 CPU(53a, 53b)를 제어하는 ASIC이며, 노스 브릿지(North - Bridge)로서 기능하는 것이고, 인터페이스인 FSB(Front Side Bus)(55)를 통해 CPU(53a, 53b)가 각각 접속되어 있다.
MLDS(52)는 DIMM(51a, 51b)를 제어하는 ASIC이고, 도 2에 도시하는 예에 있어서는, 4개의 MLDS(52)가 구비되어 있고, 각각, DIMM(51a, 51b) 또는 크로스바(60)와 NB(54)의 데이터의 교환을 행하도록 되어 있다.
IOU(70)는 LAN이나 하드디스크 등의 주변 장치(도시 생략)를 접속하기 위한 유닛이며, 도 2에 도시한 바와 같이, SBRG(South Bridge)(71), PCIEPL(PCI Express Physical Layer)(72, 78), IOC(Input Output Controller)(73a, 73b), PHX(74a, 74b), SCSI/GbLAN(76a, 76b), PCI 카드(77) 및 PCI Box(79)를 구비하여 구성되고 있다.
SBRG(71), PCIEPL(72, 78)은 각각 고속 IO(Input Output) 제어 인터페이스(PCI-Express)를 제어하는 ASIC이고, SBRG(71)는 사우스 브릿지(South - Bridge)로서 기능하는 것이며, CPU(53a, 53b)로부터 주변 장치에의 액세스와 주변 장치로부터 DIMM(51a, 51b)에의 전송(DMA; Direct Memory Access)을 제어하도록 되어 있다. 또한, PCIEPL(72, 78)는 PCL-E physical Layer로서 기능하는 것이다.
IOC(73a, 73b)는 각각 IO 제어칩이고, 관리 LAN이나 타이머 등의 기능을 제공하는 것이다. 또한, PXH(74a, 74b)는 PCI-Express로부터 PCI 버스 브릿지로 변환하는 것이며, PCI Express HUB로서 기능하도록 되어 있다.
SCSI/GbLAN(76a, 76b)는 SCSI(Small Computer System Interface) 카드나 LAN(기가비트 LAN) 카드 등의 IO 인터페이스이고, 하드디스크 등의 SCSI 규격의 기기나, LAN 케이블 등이 접속되도록 되어 있다. 또한, 이 도 2에 도시하는 예에 있어서는, 편의상, 이들 SCSI 인터페이스와 LAN 인터페이스를 하나의 IO 인터페이스 기기로서 표시하고 있지만, 이에 한정되지 않고, 별도로 구비하는 등, 여러 가지 변형하여 이용할 수 있다.
PCI 카드(77)는 PCI 규격에 기초하는 IO 인터페이스이고, PCI 규격에 준하는 각종 기기가 접속되도록 되어 있다. 또한, PCI Box(79)는 접속 가능한 PCI 기기수 를 증가시키기 위한 확장 박스이다.
크로스바(60)는 SB(50)와 IOU(70)를 서로 접속하는 것이고, 어드레스 크로스바와 데이터 크로스바(어느 것이나 도시 생략)를 구비하여 구성되고 있다.
그리고, 도 2에 도시하는 예에 있어서는, 전술한 물리 분할 기능에 의해, SB(50)가 XSB(501a)와 XSB(501b)로 분할되어, DIMM(51a)과 CPU(53a)가 XSB(501a)에, 또한, DIMM(51b)와 CPU(53b)가 XSB(501b)에 각각 구비되도록 분할(물리 분할)되어 있다. 또한, MLDS(52) 및 NB(54)는 XSB(501a)와 XSB(501b)로 공유(공용)되도록 되어 있다.
즉, SB(50)에 있어서는, DIMM(51a)와 CPU(53a)가 XSB(501a)에 점유되는 점유 리소스(점유 하드웨어 자원)이고, 동일하게, DIMM(51b)와 CPU(53b)가 XSB(501b)에 점유되는 점유 리소스다. 그리고, MLDS(52) 및 NB(54)이 XSB(501a)와 XSB(501b)에 의해 공유되는 공유 리소스(공유 하드웨어 자원)이다.
또한, XSB는 SB를 XPAR하여 2개의 LSB(2LSB)로서 사용하는 경우에 있어서의, 하나의 LSB의 호칭이다. 이하, XSB를 나타내는 부호로서는, 복수의 XSB 중 하나를 특정해야 하는 때에는 부호(501a, 501b)를 이용하지만, 임의의 XSB를 가리킬 때에는 부호(501)을 이용한다.
한편, IOU(70)은 전술한 물리 분할 기능에 의해, LIOU(701a)와 LIOU(701b) 로 분할되어, IOC(73a), PHX(74a) 및 SCSI/GbLAN(76a)가 LIOU(701a)에, IOC(73b), PHX(74b) 및 SCSI/GbLAN(76b)가 LIOU(701b)에, 각각 구비되도록 물리 분할되어 있다. 또한, SBRG(71), PCIEPL(72, 78), PCI 카드(77) 및 PCI Box(79)는 LIOU(701a) 와 LIOU(701b)로 공유(공용)되도록 되어 있다.
즉, IOU(70)에 있어서는, IOC(73a), PHX(74a) 및 SCSI/GbLAN(76a)가 LIOU(701a)에 점유되는 점유 리소스이며, 동일하게, IOC(73b), PHX(74b) 및 SCSI/GbLAN(76b)가 LIOU(701b)에 점유되는 점유 리소스다.
또한, LIOU는 IOU의 파티션 입도이다. 이하, LIOU를 도시하는 부호로서는, 복수의 LIOU 중 하나를 특정해야 할 때에는 부호 701a, 701b를 이용하지만, 임의의 LIOU를 가리킬 때에는 부호 701을 이용한다.
또한, 본 실시형태 중에 있어서는, 편의상, 분할하지 않는 경우에 있어서의 IOU의 것을 IOU로 표현함으로써, IOU를 분할하여 형성되는 LIOU와 구별하는 것으로 한다.
그리고, 예컨대, 도 2 중에 있어서의 MLDS(52), NB(54), SBRG(71), 및 PCIEPL(72)이, 도 1 중에 있어서의 ASIC(30)로서 총칭되는 것이다.
또한, ASIC(30)은 하드웨어 리소스에 있어서의 장해(도 1의 점 E 참조)의 발생을 검지하고, 그 통지(장해 검지 통지)를 행하는 장해 통지 기능을 구비하고 있으며, 부하의 하드웨어 리소스에 있어서 장해가 발생하면, 그 장해에 관한 장해 정보[발생 장소나 내용(에러 코드) 등]을 기록하고, 그 XSB 혹은 LIOU가 속하는 파티션(P)의 CPU(53)에 트랩을 입력함으로써, 장해 발생을 통지하도록 되어 있다.
또한, ASIC(30)은 Home LSB의 NB(54)의 레지스터(도시 생략)에 에러 강도나 부위 정보를 저장하고, 펌웨어(10)에 대해 인터럽트를 입력하도록 되어 있다.
또한, Home LSB는 파티션의 선두 어드레스가 할당된 LSB으로서, 에러 원인 인 하드웨어 리소스의 상위의 LSB이다. 또한, LSB는 SB(50)의 파티션 입도를 나타내고 있고, XPAR 분할시(물리 분할 기능으로 동작시)는 LSB= XSB이며, 비분할시(물리 분할 기능이 비동작시)는 LSB= PSB이다. 또한, PSB는 SB(50)를 XPAR 분할하지않고서, 하나의 LSB로서 사용하는 경우에 있어서의 SB(50)의 호칭 방법을 도시한다.
또한, ASIC(30)은 이 장해 통지를 XPAR(102)마다 행하도록 되어 있고, 이에 따라, ASIC(30)는 XPAR(102)마다 구비되고 하드웨어 리소스에 있어서의 장해 발생을 검지하여, 장해 검지 통지를 행하는 장해 통지부(103)로서 기능하도록 되어 있다.
또한, 이 ASIC(30)가 검출하는, 하드웨어 리소스에 있어서의 장해에는, 그 하드웨어 리소스에서 발생한 장해[원래 발생] 외에, 다른 하드웨어 리소스에 있어서 발생하고, 그 하드웨어 리소스에 전파된 장해(전파)를 포함하는 것으로, ASIC(30)는 이들의 어느 쪽의 장해에 대해서도, 검지를 행하여 펌웨어(10)에 통지하도록 되어 있다.
펌웨어(10)는 각종 기능을 실현하기 위한 프로그램으로서, SB(50)에 탑재된 ROM(Read Only Memory) 칩 등에 저장되어, 각 XSB(501)에 구비된 CPU(53)에 의해 실행되도록 되어 있다.
그리고, 이 펌웨어(10)는 전술과 같은 물리 분할 기능이나 파티셔닝 기능을 실현시키는 것 외에, 본 서버(100)에 있어서, 후술하는 하드웨어 자원 관리 정보 관리부(12), 동작 모드 검출부(13), 공유 하드웨어 자원 판단부(14) 및 공통 장해 보고 생성부(15)로서의 각 기능을 실현하기 위한 프로그램으로서, 서버(100)의 각 CPU(53)가, 펌웨어(10)를 각각 실행함으로써, 도 1에 도시한 바와 같이, 이들 하드웨어 자원 관리 정보 관리부(12), 동작 모드 검출부(13), 공유 하드웨어 자원 판단부(14) 및 공통 장해 보고 생성부(15)로서 각각 기능하도록 되어 있다.
또한, 이 도 1중에 있어서는, 편의상, 파티션(Pn)에 있어서의, 펌웨어(10)의 하드웨어 자원 관리 정보 관리부(12), 동작 모드 검출부(13), 공유 하드웨어 자원 판단부(14) 및 공통 장해 보고 생성부(15)로서의 각 기능이나, XPAR(102)에 있어서의 장해 통지부(103)로서의 기능의 도시를 생략하고 있다.
또한, 이 펌웨어(10)는 전술과 같이 ASIC(30) 상의 ROM 칩에 저장하여 제공하는 것 외에, 예컨대 플렉서블 디스크, CD(CD-ROM, CD-R, CD-RW 등), DVD(DVD-ROM, DVD-RAM, DVD-R, DVD+R, DVD-RW, DVD+ RW 등), 자기 디스크, 광 디스크, 광자기 디스크 등의, 컴퓨터 판독 가능한 기록 매체에 기록된 형태로 제공하여도 좋다. 그리고, 서버(100)는 그 기록 매체로부터 펌웨어(10)를 읽어내어 내부 기억 장치 또는 외부 기억 장치로 전송하여 저장해서 이용하여도 좋다. 또한, 그 펌웨어(10)를 예컨대 자기 디스크, 광 디스크, 광자기 디스크 등의 기억 장치(기록 매체)에 기록해 두고, 그 기억 장치로부터 통신 경로를 통해 서버(100)에 제공하도록 하여도 좋다.
하드웨어 자원 관리 정보 관리부(12), 동작 모드 검출부(13), 공유 하드웨어 자원 판단부(14) 및 공통 장해 보고 생성부(15)로서의 기능을 실현하는 때에는, 내부 기억 장치(본 실시형태로서는 ROM 칩)에 저장된 펌웨어(10)가 서버(100)의 마이크로 프로세서[본 실시형태에서는 CPU(53)]에 의해 실행된다. 이 때, 기록 매체에 기록된 펌웨어(10)를 서버(100)가 판독하여 실행하도록 하여도 좋다.
또한, 본 실시형태에 있어서, 컴퓨터[서버(100)]는 하드웨어와 오퍼레이팅 시스템을 포함하는 개념이고, 오퍼레이팅 시스템의 제어 하에서 동작하는 하드웨어를 의미하고 있다. 또한, 오퍼레이팅 시스템이 불필요하고 애플리케이션 프로그램단독으로 하드웨어를 동작시키는 것과 같은 경우에는, 그 하드웨어 자체가 컴퓨터에 상당한다. 하드웨어는, 적어도, CPU 등의 마이크로 프로세서와, 기록 매체에 기록된 컴퓨터 프로그램을 읽어내기 위한 수단을 구비하고 있고, 본 실시형태에 있어서는 서버(100)가 컴퓨터로서의 기능을 갖고 있는 것이다.
또한, 본 실시형태에 있어서의 기록 매체로서는, 전술한 플렉서블 디스크, CD(CD-ROM, CD-R, CD-RW 등), DVD(DVD-ROM, DVD-RAM, DVD-R, DVD+ R, DVD-RW, DVD+ RW 등), 자기 디스크, 광 디스크, 광자기 디스크 외에, IC 카드, ROM 카트리지, 자기 테이프, 펀칭 카드, 컴퓨터의 내부 기억 장치(RAM이나 ROM 등의 메모리), 외부 기억 장치 등이나, 바코드 등의 부호가 인쇄된 인쇄물 등의 컴퓨터 판독 가능한 여러 가지의 매체를 이용할 수 있다.
동작 모드 검출부(13)는 ASIC(30)의 레지스터 등(분할 모드 정보 유지부)으로 유지된 분할 모드 정보에 기초하여, 본 서버(100)가 파티셔닝 모드인 것을 검출하는 것으로, XPAR(102)로부터 장해 발생의 통지가 행해지면, ASIC(30)에 유지된 분할 모드 정보를 확인함으로써, 본 서버(100)가 파티셔닝 모드로 실행 중인지의 여부를 검출하도록 되어 있다.
여기서, 분할 모드 정보는 파티셔닝 모드로 실행 중인지의 여부를 나타내는 정보이고, ASIC(분할 모드 정보 관리부)(30)에 의해 관리·설정되도록 되어 있고, 예컨대, 본 서버(100)가 파티셔닝 모드인 경우에는 “1”을, 또한, 파티셔닝 모드가 아닌 경우에는 “0”을, 각각 비트로서, ASIC(30)에 있어서의 레지스터 등의 소정의 기억 영역(분할 모드 정보 유지부)에 설정·저장함으로써 유지되도록 되어 있다. 또한, 이 분할 모드 정보는, 예컨대, 각 하드웨어 리소스마다 설정되도록 되어 있다.
그리고, 동작 모드 검출부(13)는 이 ASIC(30)에 설정된 비트를 확인함으로써 분할 모드 정보를 취득하여, 파티셔닝 모드인지의 여부를 판단할 수 있도록 되어 있다. 또한, 분할 모드 정보에는, 그 하드웨어 리소스가 어떤 파티션에 속하는지 등의 속성 정보를 구비하여도 좋다.
하드웨어 자원 관리 정보 관리부(12)는 하드웨어 자원의 파티션 모드에 기초하는 공유 상태에 관한 리소스 정보(하드웨어 자원 관리 정보)를 관리하는 것으로, 예컨대, DIMM(51) 등의 미리 설정된 소정의 기억 영역(하드웨어 자원 관리 정보 유지부)에 리소스 정보를 기록하여, 관리하도록 되어 있다.
도 3은 본 발명의 일 실시형태로서의 서버(100)에 있어서의 리소스 정보의 예를 도시하는 도이다. 이 도 3에 도시한 바와 같이, 리소스 정보는, 본 서버(100)에 있어서의 각 하드웨어 리소스에 대해, 각각 공유 리소스(공유)인지 점유 리소스(점유)인지의 상태를 나타내는 정보이고, 예컨대, 자손의 하드웨어 리소스를 특정하는 정보에 대해, 점유인 경우에는 “0”을, 또한, 공유인 경우에는 “1”을 각각 비트로서 설정함으로써, 후술하는 공유 하드웨어 자원 판단부(14)가 이 비트의 값을 확인함으로써, 각 하드웨어 리소스가 공유 리소스인지 점유 리소스인지를 확인할 수 있도록 되어 있다.
또한, 이 리소스 정보는, 예컨대, 펌웨어(10)나 ASIC(30)가 전술한 물리 분할 기능이나 파티셔닝 기능을 실현할 때에, 그 설정의 정보에 기초하여 생성·설정하도록 되어 있다.
그리고, 본 서버(100)에 있어서는, DIMM(51) 등의 펌웨어(10)에 의해 관리·이용되고 있는 소정의 기억 영역이 리소스 정보(하드웨어 자원 관리 정보)를 유지하는 하드웨어 자원 관리 정보 유지부로서 기능하도록 되어 있다. 또한, 이하, 펌웨어(10)에 의해 이용·관리되어 있는 DIMM(51) 등의 소정의 기억 영역에 정보를 유지하는 것을, 단순히 펌웨어(10)가 유지한다고 표현하는 경우가 있다.
공유 하드웨어 자원 판단부(14)는 ASIC(30)에 의해 장해 발생이 검지된 하드웨어 리소스가 공유 리소스인지의 여부를 리소스 정보에 기초하여 판단하는 것으로, 발생한 장해에 따른 장해 정보(발생 장소 등)에 기초하여, 리소스 정보에 보존된 정보를 검색하고, 장해 발생에 따른 하드웨어 리소스가 공유 리소스인지의 여부를 판단하도록 되어 있다.
또한, 장해 정보는, 예컨대, ASIC(30)의 기억 영역이나 펌웨어(10)에 보존되도록 되어 있다.
공통 장해 보고 생성부(15)는 동작 모드 검출부(13)가 파티셔닝 모드인 것을 검출하고, 또한, ASIC(30)에 의해 장해 발생이 검지된 하드웨어 리소스(장해원)가 공유 리소스이면 공유 하드웨어 자원 판단부(14)에 의해 판단된 경우에, 그 장해원 의 공유 리소스를 공유하는 복수의 XPAR(102)로부터 각각 통지되는 장해 검지 통지에 기초하여, 하나의 공통 장해 보고를 생성하는 것이다.
이 공통 장해 보고 생성부(15)는 ASIC(30)로부터 취득한 공유 리소스에 따른 장해 정보를 ASIC(30)의 관리 단위로 머지(merge)하도록 되어 있다.
하드웨어 리소스에 있어서 장해가 발생한 경우에는, 대응하는 ASIC(30)의 레지스터(소정의 물리 위치)에 비트(장해 보고 비트)가 설정되도록 되어 있고, 펌웨어(10)는 이 비트를 확인함으로써, 장해 정보를 취득하도록 되어 있다.
그리고, 그 하드웨어 리소스가 물리 분할된 공유 리소스인 경우에는, 각 대응하는 ASIC(30)의 레지스터의 각각의 위치에 비트(장해 보고 비트)가 설정되도록 되어 있고, 공통 장해 보고 생성부(15)는 이들의 물리적으로 상이한 위치에 설정된 각 장해 보고 비트에 대해, 이들 모든 장해 보고 비트를 읽어 나가도록 되어 있고, 이 때에, 모든 장해 보고 비트의 논리합을 계산함으로써 1의 정보에 머지하도록 되어 있다.
즉, 공통 장해 보고 생성부(15)는 장해 보고 비트를 취득 시에 머지함으로써, 하나의 정보로서 취득한 정보에 기초하여 장해 보고를 생성함으로써, 하나의 공통 장해 보고를 생성하도록 되어 있다.
또한, ASIC(30)의 레지스터에 설정된 장해 보고 비트를 펌웨어(10)가 판독한 후에는, 이 장해 보고 비트의 클리어를 행하는 것이지만, 공통 장해 보고 생성부(15)가 복수의 장해 보고 비트를 하나의 정보에 머지를 행했을 때의 정보에 기초하여, 모든 장해 보고 비트의 클리어가 행해진다.
그리고, 파티셔닝 모드가 아닌 경우에는, 전술과 같은 공통 장해 보고 생성부(15)에 의한 머지는 행해지지 않도록 되어 있다.
또한, 펌웨어(10)는 XPAR(102)로부터 통지된 장해 발생 보고에 기초하여, 그 장해가 검출된 하드웨어 리소스가 원래 발생인지 전파인지를 판단하도록 되어 있고, 전파에 따른 장해에 대해서는 장해가 발생했다고 판단하지 않고, 처리를 행하지 않도록 되어 있다. 즉, 펌웨어(10)에 있어서는, 원래 발생에 관한 장해에 대해서만, 처리를 행하도록 되어 있다.
또한, 이 펌웨어(장해 판정부)(10)에 의한, 장해가 원래 발생인지 전파인지의 판단은 펌웨어(10)가 ASIC(30)에 있어서 유지되어 있는 에러 비트에 기초하여 마스킹(masking) 처리를 행함으로써 행해진다. 또한, 펌웨어(10)는 이 마스킹 처리만으로는 원래 발생인지 전파인지를 판단할 수 없는 경우에는, 필요에 따라, 다른 추가 정보를 해석하는 것도 행하도록 되어 있다.
그리고, 펌웨어(10)는 XPAR(102)로부터 장해 통지가 행해지고, 그 장해가 원래 발생에 따른 것인 경우에, 공통 장해 보고를 생성하고, 이 생성한 공통 장해 보고를 OS(20)나 하드웨어 관리 장치(101)에 통지하도록 되어 있다.
OS(20)나 하드웨어 관리 장치(101)는 펌웨어(10)로부터 공통 장해 보고나 장해 보고를 수신하면, 이들에 기초하여, 소정의 처리를 행하도록 되어 있다.
예컨대, 하드웨어 관리 장치(101)는 일부의 SB(50)에 있어서 고장이 검출된 경우에, 고장난 SB(50) 대신에 대리의 SB(50)를 이용하여 재기동을 행하거나 하는 제어를 행한다. 또한, OS(20)에 있어서도, 예컨대, 사용자에 대한 에러 통지나 재 기동 등의 처리를 행한다. 또한, OS는 특별한 관리 소프트웨어를 이용하지 않고, 펌웨어로부터 통지된 정보를 수취할 수 있도록 되어 있다.
전술과 같이 구성된 본 발명의 일 실시형태로서의 서버(100)에 있어서의, 장해 발생시에 있어서의 처리를, 도 4에 도시하는 흐름도(단계 S10∼S60)를 따라 설명한다.
본 서버(100)의 하드웨어 리소스에 있어서 장해가 생기면, 그 장해가 발생한 XSB(501) 혹은 LIOU(701)이 속하는 CPU(53)에 트랩이 들어간다. 또한, Home LSB의 NB(54)의 레지스터에 에러 강도나 부위 정보 등의 장해 정보가 기록되고(단계 S10), 펌웨어(10)는 인터럽트를 접수한다.
펌웨어(10)에 있어서, 동작 모드 검출부(13)가 ASIC(30)에 의해 유지된 분할 모드 정보를 취득하고(단계 S20), 이 취득한 분할 모드 정보에 기초하여, 본 서버(100)가 파티셔닝 모드인지의 여부를 확인한다(단계 S30).
여기서, 파티셔닝 모드인 경우에는(단계 S30의 YES 루트 참조), 공유 하드웨어 자원 판단부(14)가, ASIC(30)에 의해 장해 발생이 검지된 하드웨어 리소스가, 공유 리소스인지의 여부를 리소스 정보에 기초하여 판단하고, 공유 리소스의 장해 정보를 ASIC(30)의 관리 단위로 머지하여, 하나의 에러 정보(공통 장해 보고)로 생성한다(단계 S40).
예컨대, FSB(55)나 DIMM(51)는 점유 리소스인 것이 명확하므로, 이들의 FSB(55)나 DIMM(51)에 따른 장해 정보 이외는 공유 리소스라고 간주하고 전부 머지하여도 좋다.
그 후, 펌웨어(10)는 머지하여 생성한 에러 정보를 해석하여, 필요한 경우에는, MLDS(52)/SBRG(71)/PCIEPL(72)/PXH(74)의 정보를 추가로 더 채취/해석한다 (단계 S50). 한편, 본 서버(100)가 파티셔닝 모드가 아닌 경우에는(단계 S30의 NO 루트 참조), 단계 S50으로 이행한다.
그리고, 펌웨어(10)는 그 해석 결과(장해 해석 결과)를, OS(20)나 하드웨어 관리 장치(101)로 전달하여(단계 S60), 처리를 종료한다.
도 5는 본 발명의 일 실시형태로서의 서버(100)에 있어서의 파티션(P)의 구성예를 도시하는 도이며, 물리 분할 기능 및 파티셔닝 기능을 이용하여, 4개의 파티션(P0∼P3)을 형성한 예를 도시하고 있다.
이 도 5에 도시하는 예에 있어서는, 4개의 SB[50(50-1, 50-2, 50-3, 50-4)]가 구비되고, SB(50-2, 50-3)가 각각 물리 분할 기능에 의해, XSB(501a, 501b)으로 분할되고, SB(50-1, 50-4)가 각각 비분할의 상태(SB= LSB)를 도시하고 있다. 또한, 이 도 5 중에 있어서는, 편의상, 크로스바(60)의 도시를 생략하고 있다.
또한, 이 도 5에 도시하는 예에 있어서는, 4개의 IOU[70(70-1, 70-2, 70-3, 70-4)]가 구비되고, IOU(70-1, 70-3)가 각각 물리 분할 기능에 의해 LIOU(701a, 701b)로 분할되고, IOU(70-2, 70-4)가 각각 비분할의 상태를 도시하고 있다.
그리고, 파티셔닝 기능에 의해, 파티션(P0)에는, PSB(50-1)와 IOU(70-1)의 LIOU(701a)가 구비되고, 파티션(P1)에는, SB(50-2)의 XSB(501a)와 IOU(70-1)의 LIOU(701b)가 구비되어 있다. 동일하게, 파티션(P2)에는, SB(50-2)의 XSB(501b)와 IOU(70-2)가 구비되어 있다. 또한, 파티션(P3)에는, SB(50-3)의 XSB(501a), XSB(501b), IOU(70-3)의 LIOU(701a, 701b), PSB(50-4) 및 IOU(70-4)가 구비되어 있다.
즉, 이 도 5에 도시하는 예에 있어서는, IOU(50-1)를 물리 분할하여 형성된 LIOU(701a, 701b)에 있어서는, LIOU(701a)는 파티션(P0)에서, LIOU(701b)는 파티션(P1)에서 각각 사용되고 있다. 즉, IOU(50-1)를 물리 분할하여 형성된 LIOU(701a, 701b)는 서로 상이한 파티션(P0, P1)에서 사용되고 있고, 동일하게, SB(50-2)를 물리 분할하여 형성된 XSB(501a, 501b)는 서로 상이한 파티션(P1, P2)에서 사용되고 있는 것이다.
그리고, 이 도 5에 도시한 바와 같은, 복수의 파티션(P0∼P3)이 형성된 서버(100)에 있어서, 파티션(P1)의 XSB(501a) 및 LIOU(701b)와 같이, 물리 분할되어, 서로 상이한 파티션(P0, P1)에서 사용되고 있는 모듈(하드웨어 리소스)에서 장해가 발생하면(도 5 중 점 a 참조), 각각의 파티션(P0, P1)에 대해 장해 처리되어, OS(20)나 하드웨어 관리 장치(101)에의 보고가 행해진다.
또한, SB(50-3)와 같이, 물리 분할된 XSB(501a, 501b)가, 동일한 파티션에서 사용되고 있는 모듈(공유 리소스)에 있어서 장해가 발생하면(도 5 중 점 b 참조), ASIC 레벨에서는 각각의 XSB(501a, 501b)에 대한 에러 보고가 행해지지만, 펌웨어(10)에 있어서, 공통 장해 보고 생성부(15)가, 하나의 공통 장해 보고를 생성하여 중복하는 에러 보고의 출력을 억지하므로, 하나의 장해로서 처리되어, OS(20)나 하드웨어 관리 장치(101)에 대해 하나의 장해 보고가 행해진다.
또한, 파티션(P3)에 있어서는, 장해 정보는 각 SB(50-3, 50-4), IOU(70-3, 70-4)에서 각각 독립하고 있고, 이들 SB(50-3, 50-4), IOU(70-3, 70-4) 내에서 장해가 발생한 경우에는, 그 장해의 파급(전파)은 각각 SB(50-3, 50-4), IOU(70-3, 70-4)의 내부에서 수습되도록 되어 있다. 그리고, SB(50-3, 50-4), IOU(70-3, 70-4) 중 어느 하나에 있어서 장해가 발생한 경우에는, 각 SB(50-3, 50-4), IOU(70-3, 70-4)는, 각각 Home LSB인 XSB(501a)에 장해 보고를 행하도록 되어 있다.
그리고, 펌웨어(10)는 Home LSB인 XSB(501a)의 NB(54)를 경유한 CPU(53)로부터의 인터럽트를 받아, 정보 수집·해석을 시작한다.
한편, 점유 리소스에 장해가 발생한 경우에는, 그 점유 리소스에 대응하는 각각의 PSB(50-1, 50-4), SXB(501a, 501b), IOU(70-2, 70-4), LIOU(701a, 701b)에 대해서만 장해 보고가 행해지므로, 장해 발생 횟수는 올바르게 취급되는 것이다.
이와 같이, 본 발명의 서버(100)에 따르면, 파티셔닝 모드에 있어서, 장해 발생이 검지된 하드웨어 리소스가 공유 하드웨어 자원인 경우에는, 펌웨어(10)가, 장해 보고 비트(장해 보고)의 머지를 행하여 하나의 정보로서 취득한 정보에 기초하여 장해 보고를 생성함으로써, 하나의 공통 장해 보고를 생성하므로, OS(20)나 하드웨어 관리 장치(101)에 중복한 장해 통지가 행해지는 일이 없고, 실제로 하드웨어 리소스에 있어서 생긴 장해의 횟수에 따른 장해 보고가 행해지므로, 정확한 장해 발생빈도의 관리를 행할 수 있어, 본 서버(100)의 신뢰성을 향상시킬 수 있다.
또한, 펌웨어(10)에 의해 장해 처리를 실현함으로써, 전용의 기기나 부품을 구비하지 않고 실현할 수 있으므로, 서버(100)의 제조 비용이 상승하지 않고 경제 적이며, 또한, OS(20) 상에서 가능한 소프트웨어가 아니므로, 본 서버(100)의 사용자가 사용을 의식하지 않고 사용할 수 있어, 그 기능을 제공하는 벤더에 있어서도, 실행시키기 쉽고 관리를 행하기 쉽다.
또한, 물리 분할 기능은 파티셔닝 기능을 구비하고 있으므로, 본 서버(100)에 있어서 유연하게 기능 확장을 실현할 수 있다.
또한, 전술한 실시형태에 상관없이, 본 발명의 취지를 일탈하지 않는 범위에서 여러 가지 변형하여 실시할 수 있다.
예컨대, 본 서버(100)의 하드웨어 구성은, 도 2에 도시하는 구성에 한정되는 것이 아닌, 본 발명의 주지를 일탈하지 않는 범위에서 여러 가지 변형하여 실시할 수 있다.
그리고, 본 발명의 각 실시형태가 개시되어 있으면, 본 발명을 당업자에 의해 실시·제조하는 것이 가능하다.
도 1은 본 발명의 일 실시형태로서의 서버에 있어서의 장해 처리 수법에 관한 기능 블록도.
도 2는 본 발명의 일 실시형태로서의 서버의 하드웨어 구성예를 도시하는 논리 블록도.
도 3은 본 발명의 일 실시형태로서의 서버에 있어서의 리소스 정보의 예를 도시하는 도면.
도 4는 본 발명의 일 실시형태로서의 서버에 있어서의, 장해 발생 시에 있어서의 처리를 설명하기 위한 흐름도.
도 5는 본 발명의 일 실시형태로서의 서버에 있어서의 파티션의 구성예를 도시하는 도이다.
도 6은 종래의 서버 시스템에 있어서의 물리 분할 기능 및 파티셔닝 기능을 설명하기 위한 도면.
<도면의 주요 부분에 대한 부호의 설명>
10: 펌웨어 12: 하드웨어 자원 관리 정보 관리부
13: 동작 모드 검출부 14: 공유 하드웨어 자원 판단부
15: 공통 장해 보고 생성부 20: OS
30: ASIC(분할 모드 정보 유지부)
50, 50-1, 50-2, 50-3, 50-4: SB(PSB)
53, 53a, 53b: CPU
51, 51a, 51b: DIMM(하드웨어 자원 관리 정보 유지부)
54: NB 52: MLDS
60: 크로스바 70: IOU
71: SBRG 72, 78: PCIEPL
73, 73a, 73b: IOC 74, 74a, 74b: PHX
76a, 76b: SCSI/GbLAN 77: PCI 카드
79: PCI Box 100: 서버(정보 처리 장치)
101: 하드웨어 관리 장치
102, 102-1∼102-m: XPAR(물리 파티션)
501, 501a, 501b: XSB 701, 701a, 701b: LIOU
P, P0∼Pn: 파티션

Claims (3)

  1. 하드웨어 자원을 복수의 물리 파티션으로 분할하는 물리 분할 모드로 동작 가능하고, 상기 복수의 물리 파티션 중 적어도 2 이상의 상기 물리 파티션을 묶어 독립된 파티션으로서 형성하는 파티셔닝 모드로 동작 가능한 정보 처리 장치에 있어서,
    상기 파티셔닝 모드로 실행 중인지의 여부의 정보를 분할 모드 정보로서 유지하는 분할 모드 정보 유지부와,
    상기 하드웨어 자원의 상기 파티셔닝 모드에 기초하는 공유 상태에 관한 하드웨어 자원 관리 정보를 유지하는 하드웨어 자원 관리 정보 유지부와,
    상기 물리 파티션마다 구비되고, 상기 하드웨어 자원에 있어서의 장해 발생을 검지하며, 장해 검지 통지를 행하는 장해 통지부와,
    상기 분할 모드 정보 유지부에 유지된 상기 분할 모드 정보에 기초하여, 상기 파티셔닝 모드인 것을 검출하는 동작 모드 검출부와,
    상기 장해 통지부에 의해 상기 장해 발생이 검지된 상기 하드웨어 자원이, 상기 복수의 물리 파티션에 의해 분할하여 공유된 공유 하드웨어 자원인지의 여부를, 상기 하드웨어 자원 관리 정보 유지부에 유지된 상기 하드웨어 자원 관리 정보에 기초하여 판단하는 공유 하드웨어 자원 판단부와,
    상기 파티셔닝 모드인 것이 상기 동작 모드 검출부에 의해 검출되고, 또한, 상기 장해 통지부에 의해 상기 장해 발생이 검지된 상기 하드웨어 자원이 상기 공유 하드웨어 자원이라고 상기 공유 하드웨어 자원 판단부에 의해 판단된 경우에, 상기 공유 하드웨어 자원을 공유하는 상기 복수의 물리 파티션에 구비된 각 장해 통지부로부터 각각 통지되는 상기 장해 검지 통지에 기초하여, 하나의 공통 장해 보고를 생성하는 공통 장해 보고 생성부
    를 구비하는 것을 특징으로 하는 정보 처리 장치.
  2. 하드웨어 자원을 복수의 물리 파티션으로 분할하는 물리 분할 모드로 동작 가능하고, 상기 복수의 물리 파티션 중 적어도 2 이상의 상기 물리 파티션을 묶어 독립된 파티션으로서 형성하는 파티셔닝 모드로 동작 가능한 정보 처리 장치에 있어서의 장해 처리 방법으로서, 정보 처리 장치에 의해,
    상기 하드웨어 자원에 있어서의 장해 발생을 검지하여, 상기 물리 파티션 단위로 장해 검지 통지를 행하는 장해 통지 단계와,
    상기 파티셔닝 모드로 실행 중인지의 여부의 분할 모드 정보에 기초하여, 상기 파티셔닝 모드인 것을 검출하는 동작 모드 검출 단계와,
    상기 장해 통지 단계에 있어서 상기 장해 발생이 검지된 상기 하드웨어 자원이, 상기 복수의 물리 파티션에 의해 분할하여 공유된 공유 하드웨어 자원인지의 여부를, 상기 하드웨어 자원의 상기 파티셔닝 모드에 기초하는 공유 상태에 관한 하드웨어 자원 관리 정보에 기초하여 판단하는 공유 하드웨어 자원 판단 단계와,
    상기 파티셔닝 모드인 것이 상기 동작 모드 검출 단계에 있어서 검출되고, 또한, 상기 장해 통지 단계에 있어서 상기 장해 발생이 검지된 상기 하드웨어 자원이 상기 공유 하드웨어 자원이라고 상기 공유 하드웨어 자원 판단 단계에서 판단된 경우에, 상기 장해 통지 단계에 있어서, 상기 공유 하드웨어 자원을 공유하는 상기 복수의 물리 파티션 단위로 각각 통지되는 상기 장해 검지 통지에 기초하여, 하나의 공통 장해 보고를 생성하는 공통 장해 보고 생성 단계
    를 실행하는 것을 특징으로 하는 장해 처리 방법.
  3. 하드웨어 자원을 복수의 물리 파티션으로 분할하는 물리 분할 모드로 동작 가능하고, 상기 복수의 물리 파티션 중 적어도 2 이상의 상기 물리 파티션을 묶어 독립된 파티션으로서 형성하는 파티셔닝 모드로 동작 가능한 컴퓨터에 장해 처리 기능을 실행시키기 위한 장해 처리 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체로서,
    상기 하드웨어 자원에 있어서의 장해 발생을 검지하여, 상기 물리 파티션 단위로 장해 검지 통지를 행하는 장해 통지 단계와,
    상기 파티셔닝 모드로 실행 중인지의 여부의 분할 모드 정보에 기초하여, 상기 파티셔닝 모드인 것을 검출하는 동작 모드 검출 단계와,
    상기 장해 통지 단계에 있어서 상기 장해 발생이 검지된 상기 하드웨어 자원이, 상기 복수의 물리 파티션에 의해 분할하여 공유된 공유 하드웨어 자원인지의 여부를, 상기 하드웨어 자원의 상기 파티셔닝 모드에 기초하는 공유 상태에 관한 하드웨어 자원 관리 정보에 기초하여 판단하는 공유 하드웨어 자원 판단 단계와,
    상기 파티셔닝 모드인 것이 상기 동작 모드 검출 단계에 있어서 검출되고, 또한, 상기 장해 통지 단계에 있어서 상기 장해 발생이 검지된 상기 하드웨어 자원이 상기 공유 하드웨어 자원이라고 상기 공유 하드웨어 자원 판단 단계에서 판단된 경우에, 상기 장해 통지 단계에 있어서, 상기 공유 하드웨어 자원을 공유하는 상기 복수의 물리 파티션 단위로 각각 통지되는 상기 장해 검지 통지에 기초하여, 하나의 공통 장해 보고를 생성하는 공통 장해 보고 생성 단계
    를 상기 컴퓨터에 의해 실행시키는 것을 특징으로 하는 장해 처리 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
KR1020070117901A 2006-12-27 2007-11-19 정보 처리 장치, 장해 처리 방법, 및 장해 처리 프로그램을기록한 컴퓨터 판독 가능한 기록 매체 KR100990700B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006352001A JP4882736B2 (ja) 2006-12-27 2006-12-27 情報処理装置,障害処理方法,障害処理プログラムおよび同プログラムを記録したコンピュータ読取可能な記録媒体
JPJP-P-2006-00352001 2006-12-27

Publications (2)

Publication Number Publication Date
KR20080061258A KR20080061258A (ko) 2008-07-02
KR100990700B1 true KR100990700B1 (ko) 2010-10-29

Family

ID=39509624

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070117901A KR100990700B1 (ko) 2006-12-27 2007-11-19 정보 처리 장치, 장해 처리 방법, 및 장해 처리 프로그램을기록한 컴퓨터 판독 가능한 기록 매체

Country Status (5)

Country Link
US (1) US8145956B2 (ko)
EP (1) EP1956486B1 (ko)
JP (1) JP4882736B2 (ko)
KR (1) KR100990700B1 (ko)
CN (1) CN101211283B (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4495248B2 (ja) * 2007-03-29 2010-06-30 富士通株式会社 情報処理装置、障害処理方法
US8998710B2 (en) * 2008-09-24 2015-04-07 Keith Atkinson Marketing system and methods for use with electronic gaming machines
WO2011071490A1 (en) * 2009-12-08 2011-06-16 Hewlett-Packard Development Company, L.P. Managing errors in a data processing system
US8151147B2 (en) * 2009-12-17 2012-04-03 Hewlett-Packard Development Company, L.P. Synchronize error handling for a plurality of partitions
WO2012056561A1 (ja) * 2010-10-29 2012-05-03 富士通株式会社 装置監視システム,方法およびプログラム
JP5371123B2 (ja) * 2011-03-16 2013-12-18 エヌイーシーコンピュータテクノ株式会社 障害検出方法、制御装置、マルチプロセッサシステム
CN102819464B (zh) * 2012-01-13 2015-08-19 金蝶软件(中国)有限公司 单据临时存储的方法和装置
CN104572417B (zh) * 2015-01-20 2018-02-23 天津市英贝特航天科技有限公司 基于cmos存储器的操作系统故障跟踪分析方法
CN114911655A (zh) * 2017-12-19 2022-08-16 超聚变数字技术有限公司 一种自检方法和服务器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020108074A1 (en) 2001-02-02 2002-08-08 Shimooka Ken?Apos;Ichi Computing system
US20020129305A1 (en) * 2001-03-08 2002-09-12 International Business Machines Corporation System and method for reporting platform errors in partitioned systems
US20040205413A1 (en) 2003-04-10 2004-10-14 International Business Machines Corporation Method and apparatus for reporting global errors on heterogeneous partitioned systems

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6842870B2 (en) * 2001-09-20 2005-01-11 International Business Machines Corporation Method and apparatus for filtering error logs in a logically partitioned data processing system
JP3640187B2 (ja) * 2002-07-29 2005-04-20 日本電気株式会社 マルチプロセッサシステムの障害処理方法、マルチプロセッサシステム及びノード
JP4357433B2 (ja) * 2005-02-15 2009-11-04 株式会社日立製作所 ストレージシステム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020108074A1 (en) 2001-02-02 2002-08-08 Shimooka Ken?Apos;Ichi Computing system
US20020129305A1 (en) * 2001-03-08 2002-09-12 International Business Machines Corporation System and method for reporting platform errors in partitioned systems
US20040205413A1 (en) 2003-04-10 2004-10-14 International Business Machines Corporation Method and apparatus for reporting global errors on heterogeneous partitioned systems

Also Published As

Publication number Publication date
KR20080061258A (ko) 2008-07-02
EP1956486A2 (en) 2008-08-13
EP1956486B1 (en) 2018-09-26
US20100100776A1 (en) 2010-04-22
JP2008165347A (ja) 2008-07-17
EP1956486A3 (en) 2009-12-02
JP4882736B2 (ja) 2012-02-22
CN101211283B (zh) 2011-07-20
CN101211283A (zh) 2008-07-02
US8145956B2 (en) 2012-03-27

Similar Documents

Publication Publication Date Title
KR100990700B1 (ko) 정보 처리 장치, 장해 처리 방법, 및 장해 처리 프로그램을기록한 컴퓨터 판독 가능한 기록 매체
KR100530710B1 (ko) 이종 분할 시스템에서의 글로벌 에러 보고 방법 및 장치
JP5579354B2 (ja) 関連アプリケーションに対するトラック・データ・クロスリファレンスを保存する方法及び装置
CN100405311C (zh) 用于计算机系统中的多个分区的错误监视的方法
US6425094B1 (en) Diagnostic cage for testing redundant system controllers
US8108724B2 (en) Field replaceable unit failure determination
US7103808B2 (en) Apparatus for reporting and isolating errors below a host bridge
EP3616066B1 (en) Human-readable, language-independent stack trace summary generation
US7107495B2 (en) Method, system, and product for improving isolation of input/output errors in logically partitioned data processing systems
US8832501B2 (en) System and method of processing failure
CN100375960C (zh) 用于调试输入/输出故障的方法和系统
US11165665B2 (en) Apparatus and method to improve precision of identifying a range of effects of a failure in a system providing a multilayer structure of services
US7610429B2 (en) Method and system for determining device criticality in a computer configuration
US6976191B2 (en) Method and apparatus for analyzing hardware errors in a logical partitioned data processing system
US20080313378A1 (en) Method And System To Determine Device Criticality For Hot-Plugging In Computer Configurations
CN100487666C (zh) 用于自动识别部件的多个组合的方法和装置
CN102216903B (zh) 响应于并行维护的硬件恢复
US6934888B2 (en) Method and apparatus for enhancing input/output error analysis in hardware sub-systems
JP5696492B2 (ja) 故障検出装置、故障検出方法、及び、故障検出プログラム
US20100011257A1 (en) Information processing apparatus and fault processing method
TW200307200A (en) Multiple fault location in a series of devices

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20131001

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20141007

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20150918

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20160921

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20170919

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee