KR20020012128A

KR20020012128A - 자원 복구를 통한 최적의 시스템의 가용성을 위한 방법

Info

Publication number: KR20020012128A
Application number: KR1020010045501A
Authority: KR
Inventors: 존광일 창; 알롱콘 키타몬
Original assignee: 포만 제프리 엘; 인터내셔널 비지네스 머신즈 코포레이션
Priority date: 2000-08-03
Filing date: 2001-07-27
Publication date: 2002-02-15
Also published as: CN1181435C; TWI225198B; JP3906042B2; CN1337623A; JP2002132697A; US6651182B1; KR100450868B1

Abstract

데이타 처리 시스템에서 최소 시스템 구성을 제공하기 위해 시스템 자원을 복구하기 위한 방법, 시스템, 및 장치가 제공된다. 한 실시예에서, 초기 프로그램 로드 동안에 데이타 처리 시스템 내의 펌웨어 요소는 제1 자원이 고장났는지를 판별한다. 그 다음, 제1 자원이 할당해제된다. 고장난 자원의 할당해제로 인해 데이타 처리 시스템의 동작에 필요한 최소한의 시스템 구성도 만족시키지 못한다는 판별에 응답하여, 펌웨어 요소는 복수개의 할당해제된 자원들중 고장의 심각성이 가장 적은 자원을 판별한다. 그 다음, 복수개의 할당해제된 자원들중 고장의 심각성이 가장 적은 자원이 데이타 처리 시스템이 이용할 수 있도록 재할당된다.

Description

자원 복구를 통한 최적의 시스템의 가용성을 위한 방법{METHOD FOR OPTIMAL SYSTEM AVAILABILITY VIA RESOURCE RECOVERY}

본 발명은 일반적으로 데이타 처리 시스템에 관한 것으로, 보다 구체적으로는, 부팅시에 데이타 처리 시스템을 위한 최적의 최소 시스템 구성을 제공하는 것에 관한 것이다.

데이타 처리 시스템은 종종 하드웨어 고장을 겪는다. 뉴욕주 아몽크시에 위치한 인터내셔널 비지니스 머신즈 코포레이션사의 제품인 RS/6000과 같은 일부 데이타 처리 시스템은, 특정한 하드웨어 부품의 과거 고장 히스토리에 기초한 하드웨어 고장 예측 기능과, 프로세서 또는 메모리 장치를 막론하고 이와 같은 리소스를 구성해제 또는 할당해제(deconfigure or deallocate)하는 기능을 제공한다. RS/6000에서, 이러한 기능들은 메모리 반복 가드(Memory Repeat Gard) 및 CPU 반복 가드(CPU Repeat Gard) 기능에 의해 제공된다. 따라서, 특정한 리소스가 고장날것을 안다면, 이를 우선적으로 이용에서 제외시킬 수 있다. 이들 불량 하드웨어가 데이타 처리 시스템에서 구성되고 이용되는 것을 방지함으로써, 보다 높은 시스템 가용성이 달성될 수 있다.

그러나, 시스템은 급작스럽게 또는 시간이 지남에 따라 점차적으로 과도한 하드웨어적 고장을 겪어, 시스템을 부팅시키는데 요구되는 최소한의 하드웨어 구성보다 적게 되는 수가 있다. 이러한 바람직하지 않은 상황을 피하기 위해, 일부 플랫폼에서는 고장난 마지막 하드웨어 자원은 구성해제될 수 없다. 이 마지막 자원이 할당해제되지 않는다면 최적의 시스템 가용성이 제공되지 않는다. 따라서, 마지막 자원이 실제로 고장이 난다면, 구성해제가 허용되지 않는다. 따라서, 시스템은 그 자원만을 기초로 실행을 시도해야만 한다. 그러나, 앞서, 이보다 덜 심각한 에러가 있는 자원이 구성해제되어 있었을 수도 있다. 따라서, 이 자원이 시스템을 실행시키기에 보다 나은 후보가 될 것이다. 따라서, 시스템을 부팅시키기 위한 최소한의 구성에 요구되는 시스템 자원이 고장난 경우, 시스템 자원의 보다 최적의 가용성을 제공하기 위한 방법, 시스템, 및 장치가 바람직할 것이다.

본 발명은 데이타 처리 시스템에서 최소한의 시스템 구성을 제공하기 위한 시스템 자원을 복구하기 위한 방법, 시스템, 및 장치를 제공한다. 한 실시예에서, 데이타 처리 시스템 내의 펌웨어 요소는 초기 프로그램 로딩동안에, 제1 자원이 고장났음을 판별한다. 그 다음, 제1 자원이 할당해제된다. 리소스의 할당해제로 인해 데이타 처리 시스템의 동작에 필요한 최소한의 시스템 구성도 만족하지 못한다는 판별에 응답하여, 복수개의 할당해제된 자원 중에서 고장의 심각성이 가장 덜한 자원을 펌웨어 요소가 판별해 낸다. 그 다음, 복수개의 할당해제된 자원들 중 고장의 심각성이 가장 덜한 자원이 데이타 처리 시스템에 의해 이용될 수 있도록 재할당된다.

도 1은 본 발명에 따른 데이타 처리 시스템의 블럭도.

도 2는 본 발명에 따라 CPU가 할당해제될 수 있는 대칭 다중-프로세서(Symmetric Multi-Processor; SMP) 데이타 처리 시스템(200)의 블럭도.

도 3a는 본 발명에 따른 CPU 일반 레코드 포멧(General Record Format)의 한 예를 도시한 도면.

도 3b는 본 발명에 따라 CPU 특정 레코드 포멧(Specific Record Format)의 한 예를 도시한 도면.

도 4는 본 발명에 따라 메모리 소자가 할당해제될 수 있는 데이타 처리 시스템(400)의 블럭도.

도 5a는 본 발명에 따른 메모리 일반 레코드 포멧의 한 예를 도시한 도면.

도 5b는 본 발명에 따른 메모리 특정 레코드 포멧의 한 예를 도시한 도면.

도 6은 본 발명에 따른 자원 복구를 통해 최적의 시스템 가용성을 유지하기 위한 시스템의 블럭도.

도 7은 본 발명에 따라 고장된 자원을 재할당하기 위한 한 예를 도시한 흐름도.

<도면의 주요 부분에 대한 부호의 설명>

200 : 데이타 처리 시스템

212 : CPU

214 : 비휘발성 랜덤 액세스 메모리

217 : 서비스 프로세서 펌웨어

226 : 에러 상태 레지스터

도면, 특히 도 1을 참조하면, 본 발명이 구현될 수 있는 데이타 처리 시스템의 블럭도가 도시되어 있다. 데이타 처리 시스템(100)은 시스템 버스(106)에 접속된 복수개의 프로세서(101, 102, 103, 및 104)를 포함한 대칭 다중프로세서(SMP) 시스템일 수도 있다. 예를 들어, 데이타 처리 시스템(100)은 뉴욕주 아몽크시에 위치한 인터내셔널 비지네스 머신즈 코포레이션사의 제품인 IBM RS/6000으로서 네트워크 내에 한 서버로서 구현될 수도 있으며, 다른 방법으로서, 단일 프로세서 시스템이 이용될 수도 있다. 또한, 복수개의 로컬 메모리(160-163)에 대한 인터페이스를 제공하는 메모리 컨트롤러/캐쉬(108)이 시스템 버스(106)에 접속되어 있다. I/O 버스 브리지(110)은 시스템(106)에 접속되어 I/O 버스(112)에 인터페이스를 제공한다. 메모리 컨트롤러/캐쉬(108) 및 I/O 버스 브리지(110)은 도시된 바와 같이 통합될 수도 있다.

I/O 버스(112)에 접속된 주변 장치 상호접속(PCI) 호스트 브리지(114)는 PCI 로컬 버스(115)에 인터페이스를 제공한다. 다수의 입력/출력 어댑터(120-121)이 PCI(115)에 접속될 수도 있다. 전형적인 PCI 버스 구현은 4개 내지 8개의 I/O 어댑터(즉, 애드인 커넥터용 확장 슬롯)를 지원할 것이다. 각각의 I/O 어댑터(120-121)은, 데이타 처리 시스템(100)과, 이 데이타 처리 시스템(100)에 대한 클라이언트에 해당하는 다른 네트워크 컴퓨터와 같은 입력/출력 장치들간에 인터페이스를 제공한다.

추가 PCI 호스트 브리지(122, 130, 및 140)은 추가 PCI 버스(123, 131, 및 141)에 대한 인터페이스를 제공한다. 추가 PCI 버스(123, 131, 및 141)들 각각은 복수개의 PCI I/O 어댑터(128-129, 136-137, 및 146-147)들에 접속된다. 따라서, 예를 들어, 모뎀 또는 네트워크 어댑터와 같은 추가 I/O 장치들은 PCI I/O 어댑터(128-129, 136-137, 146-147)들 각각을 통해 지원된다. 이러한 방식으로, 데이타 처리 시스템(100)은 다수의 네트워크 컴퓨터로의 접속을 허용한다.

메모리 맵된 그래픽 어댑터(148) 및 하드 디스크(150)도 역시 도시된 바와 같이 I/O 버스(112)에 직접 또는 간접으로 접속된다. 하드 디스크(150)은 추가 하드 디스크가 필요없이 논리적으로 구획분할(partition)될 수 있다. 그러나, 원한다면 추가 하드 디스크가 이용될 수도 있다.

당업자는 도 1에 도시된 하드웨어는 달라질 수도 있다는 것을 이해할 것이다. 예를 들어, 광 디스크 드라이브등과 같은 다른 주변 장치가 도시된 하드웨어를 대신하여 또는 이에 추가하여 이용될 수도 있다. 나아가, 본 발명은 다중-프로세서 시스템상에서의 구현으로만 제한되지는 않으며 다른 유형의 데이타 처리 시스템상에서 구현될 수도 있다. 도시된 예가 본 발명에 대한 구조적 제한을 암시하는 것을 의미하는 것은 아니다.

도 2는 본 발명에 따라 CPU가 할당해제될 수도 있는 대칭다중-프로세서(SMP) 데이타 처리 시스템(200)의 블럭도이다. 데이타 처리 시스템(200)은, 예를 들어, 도 1의 데이타 처리 시스템(100)으로서 구현될 수도 있다. 도시된 바와 같이, 데이타 처리 시스템(200)은 복수개의 CPU(212) 및 메모리(238)을 포함한다. CPU(212)는 적절한 시스템 정보를 포함하는 비휘발성 랜덤 액세스 메모리(NVRAM, 214)와 같은 비휘발성 장치와 통신한다. 서비스 프로세서(216)은 서비스 프로세서 펌웨어(217)을 포함하며, NVRAM(214)와 통신하며 정보를 전달한다. 시스템(200) 내의 CPU(212)들 중 하나가 처리 시스템(200)의 동작에 영향을 주는 소프트 에러(soft error)를 가질 때, 이들 CPU들 중 하나가 셧다운되더라도 처리 시스템(200)이 효율적으로 동작가능하다. 따라서, 본 발명은 반복가능한 소프트 에러를 유발하는 CPU를 구성해제시키는 한편 처리 시스템(200)이 계속 진행할 수 있도록 해준다.

따라서, 본 발명에서, CPU 에러들은 정규 컴퓨터 동작 동안에 에러 검출 논리부에 의해 검출된다. 이러한 검출은, 서비스 프로세서 펌웨어(217)에 의해 후속 부트 프로세스 동안에 결함있는 CPU를 할당해제하기 위해 이용된다. 이것은, 각각의 CPU와 시스템 논리부 내에 있는 에러 상태를 이용하고 서비스 프로세서에게 직접 정보를 제공하는 비휘발성 장치 내의 자원 기록 영역을 이용하여 이루어진다.

NVRAM(214)는 서비스 프로세서 펌웨어(217)로부터 수신된 적절한 상태 정보를 저장하는 자원 기록 영역(215)를 포함한다. 서비스 프로세서(217)은 지원 기록 영역(215) 내의 정보에 기초하여 소정의 자원을 구성해제할 것이다. 이들 에러 상태와 구성 레지스터(226)은 다른 기능 외에도 NVRAM(214)의 자원 기록 영역(215)에정보를 제공한다. 서비스 프로세서(217)에게 회복가능한 에러를 표시해주는 메모리 상태 레지스터(226)의 내용은, 양호한 실시예에서, 메모리 구성 제어 논리부에 의해 제공되는 회복불능 에러의 존재와 그 주소를 가리켜주는 비트이다.

본 발명의 중요한 부분은 NVRAM(214)의 구성해제 영역(215)이다. 자원 기록 영역(215)의 목적은 메모리 어레이(215) 에러 상태 및 구성 상태에 관한 정보를 저장하는 것이다. 구성해제 영역(215)는, 기존 상태에 대한 수정을 허용하며 새로운 레코드의 추가를 처리할 수 있을만큼 충분히 융통성 있어야 한다. 구성해제 영역(215)와 그 초기화가 이하에서 보다 상세히 기술될 것이다.

자원 기록 영역(215)는, CPU 일반 레코드 포멧과 CPU 특정 레코드 포멧을 포함한다.

도 3a-3b를 참조하면, 도 3a는 본 발명에 따른 CPU 일반 레코드 포멧의 한 예를 도시하며 도 3b는 본 발명에 따른 CPU 특정 레코드 포멧의 한 예를 도시한다.

자원 기록 영역(215)는 NVRAM(214) 초기화 과정의 일부로서 서비스 프로세서 펌웨어(217)에 의해 초기화된다. 서비스 프로세서 펌웨어(217)은 구성해제 영역(215)를 다음과 같이 초기화한다:

1. 하나의 CPU 일반 레코드 포멧.

2. n개의 CPU 특정 레코드 포멧, 여기서, n=완전구성되었을 때 시스템 내의 CPU의 최대 개수.

초기화값들 각각이 이하에 기술될 것이다.

초기화 값들

A. CPU 일반 레코드 포멧(General Record Format) (도 3a)

1. 바이트 0~1, RL=14+y, 여기서 y는 CPU FRU 위치 코드를 보유하기 위한 최대 바이트수.

2. 바이트 2, N은 완전 구성되었을 때 시스템 내의 CPU의 최대 개수.

3. 바이트 3~30, ASCII 값 형태의 CPU VPD XC-L2, ZC-PF, ZC-PS, 및 SC-CB 필드를 복사.

B. CPU 특정 레코드 포멧(Specific Record Format) (도 3b)

1. 바이트 0, 제품 기능 사양(Product Functional Spec)에 정의된 CPU에 대한 물리적 CPU 번호(OpenPic Interrupt).

2. 바이트 1, PIR 또는 EAR 레지스터 내에 정의된 CPU ID.

3. 바이트 2 비트0=0.

4. 바이트 2 비트 1~3=0.

5. 바이트 2 비트4~7, CPU가 존재하지 않는다면 0, 존재한다면 1.

6. 바이트 3, 16진 포멧으로 변환된 ASCII 값 형태의 CPU VPD ZC-ER 필드.

7. 바이트 4~13, ASCII 값 형태의 CPU VPD SN 필드를 복사.

8. 바이트 14~(14+y), 제품 기능 사양 내에 정의된 해당 CPU에 대한 물리적/하드웨어 위치 코드.

이제 도 4를 참조하면, 본 발명에 따라 메모리 요소가 할당해제될 수 있는 데이타 처리 시스템(400)의 블럭도가 도시되어 있다. 데이타 처리 시스템(400)은, 예를 들어, 도 1의 데이타 처리 시스템(400)으로서 구현될 수도 있다. 데이타 처리 시스템(400)은, 그 내부에 부트 펌웨어(413)을 갖는 CPU(412)를 포함한다. CPU(412)는, 시리얼 넘버와 같은 정보 및 다른 식별 정보를 그 내부에 포함하는 비휘발성 랜덤 액세스 메모리(NVRAM, 414)와 같은 비휘발성 장치와 통신한다. 메모리(418)은, 전형적으로 복수개의 메모리 장치를 포함하는 메모리 어레이(419)를 포함하며 메모리 컨트롤러(422)를 포함한다. 메모리 컨트롤러(422)는 전형적으로 메모리 구성 제어 논리부(424), 및 메모리 상태 레지스터(426)을 각각 포함한다. 또한, 컨트롤러(422)는 메모리 어레이(419)의 상태에 관련된 정보를 서비스 프로세서(416)에게 제공한다. 서비스 프로세서(416)은 서비스 프로세서 펌웨어(417)을 포함하며 NVRAM(414)와 통신하며 정보를 제공한다.

만일 메모리(418)의 소정 부분이 셧다운되어도 여전히 처리 시스템(410)은 효율적으로 동작하는 것이 가능하다. 따라서, 메모리 어레이(418)의 일부가 처리 시스템(400)의 성능에 영향을 미치는 소프트 에러 또는 회복가능한 에러를 가진다면, 처리 시스템(400)은 반복가능한 소프트 에러를 유발하는 이들 메모리 부분들을 구성해제시키고도 여전히 기능할 수 있다.

따라서, 결함은 정규 컴퓨터 동작 동안에 에러 검출 논리부에 의해 검출된다. 이 검출은, 후속 부트 과정 동안에 서비스 프로세서(416) 및 CPU 부트 펌웨어(413)이 결함있는 메모리 모듈을 할당해제시키는데 이용된다. 이것은, ㅁ모리 컨트롤러 칩(422) 내부의 에러 상태 레지스터와 구성 레지스터를 이용하여, 그리고 CPU 부트 펌웨어(413)에게 직접 정보를 제공하는 비휘발성 장치 내의 자원 기록 영역(415)를 이용하여 달성된다.

NVRAM(414)는 서비스 프로세서 펌웨어(417)로부터 수신된 적절한 상태 정보를 저장하는 자원 기록 영역(415)를 포함한다. 서비스 프로세서(417)은 자원 기록 영역(415) 내의 정보에 기초하여 메모리를 구성해제할 것이다. 메모리 에러 상태 레지스터(426)은, NVRAM(414)의 자원 기록 영역(415) 내에 펌웨어(417)이 에러 상태 정보를 저장하도록 허용하는 서비스 프로세서 펌웨어(417)에게 정보를 제공한다. 서비스 프로세서 펌웨어(417)에게 회복가능한 에러를 표시해주는 에러 상태 레지스터(426)의 내용은, 양호한 실시예에서, 회복불가능한 내부 에러의 존재를 가리켜주는 비트이다.

본 발명의 중요한 부분은 NVRAM(414)의 자원 기록 영역(415)이다. 자원 기록 영역(415)의 목적은 각각의 메모리 에러 상태와 구성 상태에 관한 정보를 저장하는 것이다. 자원 기록 영역(415)는 기존 상태에 대한 수정을 허용하며 새로운 레코드의 추가를 처리할 수 있을만큼 충분히 융통성 있어야 한다. 자원 기록 영역(415)와 그 초기화가 이하에서 보다 상세히 기술될 것이다.

자원 기록 영역(415)는, 메모리 일반 레코드 포멧과 메모리 특정 레코드 포멧을 포함한다.

도 5a-5b를 참조하면, 도 5a는 본 발명에 따른 메모리 일반 레코드 포멧의 한 예를 도시하며 도 5b는 본 발명에 따른 메모리 특정 레코드 포멧의 한 예를 도시한다.

자원 기록 영역(415)는 NVRAM(414) 초기화 과정의 일부로서 서비스 프로세서(417)에 의해 초기화된다. 서비스 프로세서 펌웨어(417)은 자원 기록 영역(415)를 다음과 같이 초기화한다:

1. 하나의 메모리 일반 레코드 포멧

2. n개의 메모리 특정 레코드 포멧, 여기서, n=시스템에 의해 지원되는 최대 메모리.

초기화값들 각각이 이하에 기술될 것이다.

초기화 값들

A. 메모리 일반 레코드 포멧(도 5a)

1. 바이트 0~1, RL=8+y, y는 메모리 FRU 위치 코드를 보유하기 위한 최대 바이트수.

2. 바이트 2, N=완전구성시 시스템 내의 메모리 FRU(DIMM 또는 카드)의 최대 개수.

B. 메모리 특정 레코드 포멧(도 5b)

1. 바이트 0: 메모리 카드 슬롯 번호 또는 ID

2. 바이트 1: 메모리 슬롯 번호 또는 ID

3. 바이트2, 비트0 = 0

4. 바이트 2 비트1~3 = 0

5. 바이트 2 비트 4~7 : FRU가 존재하지 않는다면 0, FRU가 존재한다면 1.

6. 바이트 3, 16진 포멧으로 변환된 메모리 VPD 필드로부터의 ASCII 값.

7. 바이트 4~7, 메모리로부터 값을 복사.

8. 바이트 8~(8+y), 이 메모리에 대한 물리적/하드웨어 위치 코드.

도 2-5b에서 상술한 바와 같이 할당해제된 각각의 CPU와 메모리 요소는, 이하에서 기술되는 본 발명의 프로세스에 의해 대체되거나 재할당되기 이전까지는 할당해제된 상태로 있다. 할당해제된 요소는, 데이타 처리 시스템의 동작을 유지하기 위한 최소의 시스템 요건을 유지하기 위해 새롭게 고장난 요소보다 덜 심각한 에러가 있다면 재할당될 필요가 있을 수 있다. CPU 또는 메모리 유닛과 같은 할당해제된 자원(들)중 어느 것이 복구되어야하는지를 결정하기 위한 프로세스는 IPL 동안에 발생되어야 한다. IPL 동안에, CPU 반복 가드 기능/프로세스의 끝에서, 필요하다면 프로세서에 대한 자원 복구가 발생한다. 또한 IPL 동안에, 메모리 반복 가드 기능/프로세스의 끝에서, 필요하다면 메모리에 대한 자원 복구가 발생한다. 이들 프로세스들은 이하에서 상세히 기술될 것이다.

이제 도 6을 참조하면, 초기 프로그램 로딩(IPL) 동안에 자원 복구를 통해 최적의 시스템 가용성을 유지하기 위한 시스템의 블럭도가 본 발명에 따라 도시되어 있다. 또한, IPL은 종종 부트 프로세스라 언급된다. 자원 복구 시스템(600)은 예를 들어 도 1의 데이타 처리 시스템(100)과 같은 데이타 처리 시스템상에서 실행되는 펌웨어를 포함한다. 또한, 자원 복구 시스템(600)은 메모리 반복 가드(602), CPU 반복 가드(604), 및 자원 레코드(606)을 포함한다. 메모리 반복 가드(602)와 CPU 반복 가드(604)는 펌웨어로 구현될 수도 있다. 펌웨어는 ROM, PROM, EPROM, EEPROM, 비휘발성 RAM과 같이 전력이 필요없이 그 내용을 유지할 수 있는 메모리 칩에 저장된 소프트웨어이다. 펌웨어(608)은, 시스템이 부팅되어 데이타 처리 시스템에 속하는 자원들중 어느 것이 할당해제되었으며 이용되지 말아야할지를 결정하기 위해 도 2의 자원 레코드(215)와 도 4의 자원 레코드(415) 양쪽 모두를 포함할 수 있는 자원 레코드(606)을 참조한다.

IPL 동안에 메모리 반복 가드(602)는 시스템 메모리 유닛(610-612)의 활동을 감시한다. IPL 동안에, CPU 반복 가드는 CPU(614-616)의 활동을 감시한다. 시스템 메모리 유닛(610-612)는 예를 들어 도 1의 로컬 메모리(160-163)들 중 하나로서 구현될 수 있다. CPU(614-616)은 예를 들어 도 1의 프로세서(101-104)들 중 하나로서 구현될 수도 있다.

시스템 메모리 유닛(610-612)들 중 하나가 고장나면, 이 고장은 메모리 반복 가드(602)에게 보고된다. 그러면, 메모리 반복 가드(602)는 시스템의 메모리 유닛(610-612)들중 고장난 유닛을 할당해제하더라도 최소한 시스템 자원이 이용가능한지를 판별할 것이다. 메모리 반복 가드(602)는 최소한의 시스템 구성을 포함하는 내부적으로 저장된 데이타 구조를 포함한다. 메모리 반복 가드(602) 구성해제 요건을 만족하는 모든 자원을 할당해제한 후에, 메모리 반복 가드(602)는 현재의 시스템 구성과 저장된 최소 시스템 구성을 비교한다. 데이타 처리 시스템을 부팅하는데 필요한 최소 시스템 요건을 만족시키기에 충분한 개수의 시스템 메모리 장치(610-612)가 이용가능하다면, 앞서 할당해제된 시스템 메모리 유닛(610-612)중 어느 것도 재할당 및 재구성되지 않는다. 따라서, 시스템 메모리 유닛(610-612)중 고장난 유닛을 제거함으로써, 올바르게 수행할 수 없는 시스템 자원을 데이타 처리 시스템이 이용하지 않기 때문에 데이타 처리 시스템의 성능이 최적화된다. 그 다음, 메모리 반복 가드(602)는 시스템 메모리 유닛(610-612)중 고장난 특정의 유닛과, 고장의 성격과 유형, 및 상기 고장난 유닛이 데이타 처리 시스템으로부터 할당해제 및 구성해제되었다는 표시를 가리키는 엔트리를 자원 레코드(606)에 생성한다.

CPU 반복 가드(604)는 CPU(614-616)의 성능을 감시한다. CPU(614-616)중 하나가 고장나면, 그 고장은 CPU 반복 가드(604)에게 보고된다. 그러면, CPU 반복 가드(604)는 CPU(614-616)중 고장난 CPU가 할당해제되더라도 최소 시스템 자원이 이용가능한지의 여부를 판별한다. 데이타 처리 시스템을 부팅하는데 필요한 최소 시스템 요건을 만족시키기에 충분한 개수의 CPU(614-616)이 이용가능하다면, 고장난 CPU는 데이타 처리 시스템에 의해 액세스될 수 없도록 시스템으로부터 할당해제 및 구성해제된다. 따라서, 앞서와 같이, CPU(614-616) 중 고장난 유닛을 제거함으로써, 올바르게 수행하지 않는 시스템 자원을 데이타 처리 시스템이 이용하지 않기 때문에 데이타 처리 시스템의 성능이 최적화된다.

고장난 자원의 할당해제 이후에 메모리 반복 가드(602) 또는 CPU 반복 가드(604)가, 현재의 시스템 구성이 데이타 처리 시스템을 부팅하는데 필요한 저장된 최소 시스템 구성을 만족시키지 못한다고 판별하면, 메모리 반복 가드(602) 및/또는 CPU 반복 가드(604)는 최소 시스템 구성을 만족시키기 위해 재할당되어질 최적의 자원(들)을 판별한다. 각각의 자원(프로세서 또는 메모리)는 그 자원 레코드(606)에 의해 표현되고, 이 레코드는 예를 들어, 구성 상태 및 고장 상태와 같은 데이타를 포함한다. 고장 상태는 고장의 심각성을 나타내는 수치값을 포함한다. 고장의 심각성 값을 비교함으로써, 메모리 반복 가드(602)와 CPU 반복 가드(604)는 심각성이 가장 적은 자원을 식별한다. 그 다음, 심각성이 가장 적은 할당해제된 자원이 재할당 및 재구성된다. 에러 심각성이 가장 적은 자원은 가장 나중에 할당해제될 것이다. 만일 그렇다면, 그 자원은 재할당될 것이고 데이타 처리 시스템은 그 마지막으로 고장난 자원을 이용하여 실행을 시도한다.

본 발명의 설명을 위해, 다음과 같은 예를 고려해보자. 데이타 처리 시스템을 위한 최소한 최소 시스템 요건은 하나의 시스템 메모리가 가용일 것을 요구한다고 가정해보자. 또한, 시스템 메모리(611 및 612)는 앞서 고장이 났고 할당해제되었다고 가정해보자. 각각의 시스템 메모리(611-612)는, 그 자신이 할당해제되었다는 사실과 시스템 메모리(611-612) 각각에 의해 초래된 고장의 성격을 가리키는 엔트리를 자원 레코드(606)에 가질 것이다.

시스템 메모리(610)이 이후에 고장이 난다면, 시스템 메모리(610)이 할당해제될 경우 데이타 처리 시스템은 기능할 수 없는데, 이는 시스템이 부팅을 위해 최소한 하나의 시스템 메모리가 필요하기 때문이다. 따라서, 메모리 반복 가드(602)는 단순히 시스템 메모리(610)을 할당해제하고 아무것도 하지 않을 수는 없다. 따라서, 메모리 반복 가드(602)는 시스템 메모리(610)을 할당해제한 다음, 현재의 시스템 구성과 최소 시스템 구성을 비교하여 하나의 시스템 메모리가 데이타 처리 시스템에 의해 이용될 수 있도록 재할당될 필요가 있는지를 판별한다. 앞서 할당해제되었던 다른 시스템 메모리(611-612) 중 하나는, 시스템 메모리(610) 내에 고장을 유발한 에러보다 그 에러 정도가 덜 심각하여 시스템 메모리(610)보다는 데이타처리 시스템을 실행하기에 보다 나은 시스템 메모리가 될 것이다. 따라서, 메모리 반복 가드(602)는 시스템 메모리(610-612) 중 어느 것이 데이타 처리 시스템을 실행시키기에 최적의 자원인지를 판별하기 위해 자원 레코드(606)을 판별하여 그 내용을 분석할 것이다.

시스템 메모리(612) 내에 고장을 유발한 에러가 시스템 메모리(610)의 고장을 유발한 에러보다 덜 심각하다면, 시스템 메모리(612)는 데이타 처리 시스템이 이용할 수 있도록 재할당되고 재구성되며 시스템 메모리(610)은 데이타 처리 시스템으로부터 할당해제되고 구성해제된다. 그러나, 시스템 메모리(611-612)의 고장을 유발하는 에러들이 시스템 메모리(610)의 고장을 유발하는 에러보다 더 심각하다면, 메모리 반복 가드(602)는 데이타 처리 시스템이 이용할 수 있도록 시스템 메모리(610)을 재할당하고 재구성한다.

당업자는 도 6에 도시된 요소들은 달라질 수 있다는 것을 이해할 것이다. 예를 들어, 입력/출력 어댑터등과 같은 다른 시스템 자원들이 도시된 요소들에 추가하여 이용될 수도 있다. 최소한의 I/O 자원을 유지하고 아울러 최적의 I/O 자원을 제공하기 위해 I/O 어댑터들중 할당해제된 것들을 재할당하기 위한 요소가 추가될 수도 있다. 다른 실시예에서, 데이타 처리 시스템이 이용할 수 있도록 재할당된 고장난 자원이 고장난 자원 집단중 최적의 가용 자원이 아닐 수도 있다는 것에 주목해야 한다. 그러나, 마지막 고장난 자원보다는 더 나은 자원일 수도 있고 최악의 고장난 자원보다 나은 자원일 수도 있다. 기술된 예는 본 발명에 관하여 기술적 제한을 암시하기 위한 것은 아니다.

도 7을 참조하면, 본 발명에 따라 고장난 자원을 재할당하기 위한 예시적 프로세스를 도시하는 흐름도가 도시되어 있다. 예를 들어, 도 6의 메모리 반복 가드(602) 또는 CPU 반복 가드(604)와 같은 자원 복구 요소는, 자원 레코드를 판독함(단계 702)으로써 데이타 처리 시스템의 시스템 자원 고장을 감시한다. 자원이 구성해제될 수 있는지를 판별하기 위해 자원 레코드의 내용이 검사된다(단계 704). 해당된다면 그 자원은 구성해제된다(단계 706). 해당사항이 없거나, 해당되어 구성해제된 이후에, 자원 레코드 내의 모든 자원이 검사되었는지가 판별된다(단계 708). 모든 자원이 검사되었다면, 다음 자원 레코드가 판독된다(단계 702). 모든 자원이 검사되지 않았다면, 다음 자원 레코드가 판독된다(단계 702).

모든 자원이 검사되었다면, 최소 시스템 구성을 만족하기 위해 구성해제되지 않은 자원이 충분한지가 판별된다(단계 710). 최소 시스템 구성을 만족시키기에 충분히 자원이 가용상태이라면, 초기 프로그램 로드(IPL)를 계속한다(단계 714). 최소 시스템 구성을 만족시키기에 충분히 자원이 가용상태가 아니라면, 최소 시스템 구성을 만족시키기 위해 최적의 후보 또는 후보들이 복구된다(단계 712). IPL을 위해 최소 시스템 구성을 만족시키기에 충분한 자원이 복구되고 나면, 시스템은 IPL을 계속한다(단계 714).

당업자는 도 7에 도시된 프로세스들이 실제 구현시에 달라질 수도 있다는 것을 이해할 것이다. 본 발명의 영역과 정신으로부터 벗어나지 않고도 도 7에 도시된 단계보다 다소 많거나 다소 적은 단계들이 이용될 수도 있다. 나아가, 일부 단계는 도 7에 도시된 것과 순서가 틀려질 수도 있다.

본 발명이 단독 기능적 데이타 처리 시스템의 관점에서 기술되었지만, 본 발명의 프로세스들은 컴퓨터 판독가능한 매체의 형태로 된 명령어들로 배포될 수도 있으며 본 발명은 배포시에 이용되는 매체에 관계없이 마찬가지로 적용될 수 있다는 것을 당업자는 이해할 것이다. 컴퓨터 판독가능한 매체의 예로는 플로피 디스크, 하드디스크, RAM, 및 CD-ROM과 같은 기록형 매체와 디지털 및 아날로그 통신 링크와 같은 전송형 매체가 있다.

본 발명에 대한 기술이 예시와 설명을 위해 제공되었지만, 본 명세서에서 언급한 형태로만 본 발명을 제한하려는 것은 아니다. 많은 수정과 변형이 가능하다는 것이 당업자에게는 명백하다. 실시예는, 본 발명의 원리를 가장 잘 설명함과 동시에 계획하고 있는 특정의 용도에 맞도록 다양한 수정이 가해진 다양한 실시예에 대해 당업자가 본 발명을 이해할 수 있도록 실시예가 선택되고 기술되었다.

시스템을 부팅시키기 위한 최소한의 구성에 요구되는 시스템 자원이 고장난 경우, 시스템 자원의 보다 최적의 가용성을 제공하기 위한 방법, 시스템, 및 장치가 제공된다.

Claims

최소 시스템 구성을 제공하기 위해 시스템 자원을 복구하기 위한 방법에 있어서,

제1 자원이 고장났음을 판별하는 단계와,

상기 제1 자원을 할당해제하는 단계와,

상기 자원의 할당해제로 인해 데이타 처리 시스템의 동작에 필요한 최소한의 시스템 구성(minimum system configuration)도 만족시키지 못한다는 판별에 응답하여, 복수개의 할당해제된 자원들중 고장의 심각성이 가장 적은 자원을 판별하는 단계와,

상기 복수개의 할당해제된 자원들중 고장의 심각성이 가장 적은 상기 자원을 재할당하는 단계

를 포함하는 시스템 자원 복구 방법.
제1항에 있어서, 상기 복수개의 할당해제된 자원들중 고장의 심각성이 가장 적은 자원은 상기 제1 자원인 시스템 자원 복구 방법.
제1항에 있어서, 상기 복수개의 할당해제된 자원들중 고장의 심각성이 가장 적은 자원을 판별하는 단계는, 상기 할당해제된 자원의 정체(identity)와 유형(type)을 가리키는 항목을 포함하는 자원 레코드를 참조하는 단계를 포함하는시스템 자원 복구 방법.
제1항에 있어서, 상기 자원은 시스템 메모리를 포함하는 시스템 자원 복구 방법.
제1항에 있어서, 상기 자원은 처리 유닛을 포함하는 시스템 자원 복구 방법.
제1항에 있어서, 상기 방법을 구현하기 위한 명령어는 펌웨어(firmware) 내에 포함되는 시스템 자원 복구 방법.
최소 시스템 구성을 제공하기 위해 시스템 자원을 복구하기 위한 데이타 처리 시스템용의 컴퓨터 판독가능한 매체로 된 컴퓨터 프로그램 제품에 있어서,

제1 자원이 고장났음을 판별하기 위한 제1 명령어와,

상기 제1 자원을 할당해제하기 위한 제2 명령어와,

상기 자원의 할당해제로 인해 데이타 처리 시스템의 동작에 필요한 최소한의 시스템 구성도 만족시키지 못한다는 판별에 응답하여, 복수개의 할당해제된 자원들중 고장의 심각성이 가장 적은 자원을 판별하기 위한 제3 명령어와,

상기 복수개의 할당해제된 자원들중 고장의 심각성이 가장 적은 상기 자원을 재할당하기 위한 제4 명령어

를 포함하는 컴퓨터 프로그램 제품.
제7항에 있어서, 상기 복수개의 할당해제된 자원들중 고장의 심각성이 가장 적은 자원은 상기 제1 자원인 컴퓨터 프로그램 제품.
제7항에 있어서, 상기 복수개의 할당해제된 자원들중 고장의 심각성이 가장 적은 자원을 판별하는 단계는, 상기 할당해제된 자원의 정체와 유형을 가리키는 항목을 포함하는 자원 레코드를 참조하는 단계를 포함하는 컴퓨터 프로그램 제품.
제7항에 있어서, 상기 자원은 시스템 메모리를 포함하는 컴퓨터 프로그램 제품.
제7항에 있어서, 상기 자원은 처리 유닛을 포함하는 컴퓨터 프로그램 제품.
제7항에 있어서, 상기 컴퓨터 프로그램 제품을 구현하기 위한 명령어들은 펌웨어 내에 포함되는 컴퓨터 프로그램 제품.
최소 시스템 구성을 제공하기 위해 시스템 자원을 복구하기 위한 데이타 처리 시스템용의 컴퓨터 판독 가능한 매체로 된 시스템에 있어서,

제1 자원이 고장났음을 판별하기 위한 제1 수단과,

상기 제1 자원을 할당해제하기 위한 제2 수단과,

상기 자원의 할당해제로 인해 데이타 처리 시스템의 동작에 필요한 최소한의 시스템 구성도 만족시키지 못한다는 판별에 응답하여, 복수개의 할당해제된 자원들중 고장의 심각성이 가장 적은 자원을 판별하기 위한 제3 수단과,

상기 복수개의 할당해제된 자원들중 고장의 심각성이 가장 적은 상기 자원을 재할당하기 위한 제4 수단

를 포함하는 시스템.
제13항에 있어서, 상기 복수개의 할당해제된 자원들중 고장의 심각성이 가장 적은 자원은 상기 제1 자원인 시스템.
제13항에 있어서, 상기 복수개의 할당해제된 자원들중 고장의 심각성이 가장 적은 자원을 판별하기 위한 수단은, 상기 할당해제된 자원의 정체(identity)와 유형(type)을 가리키는 항목을 포함하는 자원 레코드를 참조하기 위한 수단을 포함하는 시스템.
제13항에 있어서, 상기 자원은 시스템 메모리를 포함하는 시스템.
제13항에 있어서, 상기 자원은 처리 유닛을 포함하는 시스템.
제13항에 있어서, 상기 시스템을 구현하기 위한 수단은 펌웨어 내에 포함되는 시스템.