KR101081092B1

KR101081092B1 - 병렬 컴퓨터 시스템과 병렬 컴퓨터 시스템 구동 방법과 컴퓨터 판독가능한 기록 매체

Info

Publication number: KR101081092B1
Application number: KR1020097010832A
Authority: KR
Inventors: 데이비드 다링톤; 패트릭 조셉 맥카시; 아만다 피터스; 알버트 사이델닉
Original assignee: 인터내셔널 비지네스 머신즈 코포레이션
Priority date: 2007-02-02
Filing date: 2008-02-01
Publication date: 2011-11-07
Also published as: CN101589370A; WO2008092952A2; EP2115588B1; EP2115588A2; CN101589370B; WO2008092952A3; US20080189573A1; KR20090084897A; US7631169B2

Abstract

노드들의 파티션 상에서 실행되는 작업을 종료시키지 않고도 병렬 컴퓨터 시스템 상에서 소프트 결함으로부터의 결함 복구를 위한 방법 및 장치가 개시된다. 바람직한 실시예에서, 서비스 노드 상의 결함 하드웨어 복구 메카니즘은 하트 비트 모니터를 사용하여 노드 결함이 발생할 때를 결정한다. 가능한 경우, 결함 노드는 리셋되고 그리고 결함 노드를 포함하는 파티션에 의해 실행되는 소프트웨어 작업을 종료시키지 않고도 소프트웨어가 재로딩된다.

Description

병렬 컴퓨터 시스템과 병렬 컴퓨터 시스템 구동 방법과 컴퓨터 판독가능한 기록 매체{FAULT RECOVERY ON A MASSIVELY PARALLEL COMPUTER SYSTEM TO HANDLE NODE FAILURES WITHOUT ENDING AN EXECUTING JOB}

본 발명은 일반적으로 병렬 컴퓨팅 시스템에서의 결함 복구에 관한 것으로, 특히 실행 작업을 종료하지 않고도 노드 결함을 처리하기 위한 대용량 병렬 슈퍼 컴퓨터 상에서의 결함 복구에 관한 것이다.

슈퍼컴퓨터는 지능형 컴퓨팅 작업을 처리하기 위해 지속적으로 개발되고 있다. 이러한 컴퓨터는 특히 생명 과학, 금융 모델링, 유체 역학, 양자 화학, 분자 역학, 천문 및 우주 연구 및 기후 모델링을 포함한 고성능 컴퓨팅(HPC) 애플리케이션을 위한 과학자에게는 유용하다. 슈퍼컴퓨터 개발자는 증가하는 복잡한 컴퓨팅 수요에 대한 요구를 해결하기 위해 대용량 병렬 컴퓨터 구조에 집중해 왔다.

IBM사에 의해 개발되고 있는 그러한 하나의 대용량 병렬 컴퓨터는 블루진 시스템(Blue Gene system)이다. 이 블루진 시스템은 컴퓨터 노드의 최대수가 65,536인 스케일러블한 시스템(scalable system)이다. 각각의 노드는 단일의 ASIC 및 메 모리로 구성된다. 각각의 노드는 전형적으로 512메가바이트 또는 1기가바이트의 로컬 메모리를 갖는다. 풀 컴퓨터(full computer)가 공통 위치 내에서 고밀도로 배열되며 수개의 네트워크와 더불어 상호접속된 64개의 랙(rack) 또는 캐비넷(cabinet) 내에 하우징될 것이다. 각각의 랙은 32개의 노드 보드를 가지며, 각각의 노드 보드는 32개의 노드를 가지며, 각각의 노드에는 2개의 프로세서가 존재한다.

블루진 슈퍼컴퓨터의 65,536개 계산 노드 및 1024개 I/O 프로세서는 논리 트리 네트워크와 논리 3차원 토러스 네트워크 내에 배열된다. 논리 트리 네트워크는 집합적인 네트워크 토폴로지의 상부 상의 논리 네트워크이다. 블루진은 I/O 노드 표면을 갖는 컴퓨터 노드 코어로서 기술될 수 있다. 각각의 I/O 노드는 64개 계산 노드의 입력 및 출력 기능을 처리한다. I/O 노드는 논리적 저장장치를 갖지 않는다. IO 노드는 논리적 트리 네트워크를 통해 계산 노드에 접속되며 또한 기능적으로 내장 기가비트 이더넷 네트워크를 통한 광역 네트워크 기능을 갖는다. 이 노드들은 다수의 노드 파티션(node partitions) 내로 할당될 수 있으며, 그에 따라 개개의 애플리케이션 또는 작업이 노드 파티션 내의 블루진 노드의 세트 상에서 실행될 수 있다.

컴퓨터 시스템에서의 소프트 결함은 되풀이하여 발생하는 하드웨어 결함이나 하드 결함으로 인한 것이 아닌 에러 또는 결함이다. 소프트 결함은 알파 입자 및 노이즈와 같은 랜덤 이벤트에 의해 야기될 수 있다. 대부분의 컴퓨터 시스템에서, 그러한 소프트 결함은 매우 빈번하며 전통적인 방식으로 처리될 수 있다. 블루진 과 같은 대용량 병렬 컴퓨터 시스템에서, 소프트 및 하드 결함의 문제는 시스템의 복잡성과 그 시스템 내의 계산 노드들의 수로 인해 크게 증가된다. 또한, 종래 기술에서 하나의 노드 내의 결함은 컴퓨터 시스템의 전체 파티션이 사용불가능하게 할 수 있거나 파티션 상에서 실행되는 작업이 종료되어 재시작되도록 요구할 수도 있다.

컴퓨터 시스템 고장 시간과 작업 재시작은 귀중한 시스템 리소스를 낭비하기 때문에, 소프트 결함에 의해 야기되는 시스템 결함으로부터 보다 효율적으로 복구하기 위한 방식이 없다면, 병렬 컴퓨터 시스템은 하드웨어의 비효율적인 사용과 불필요한 컴퓨터 고장 시간으로 지속적으로 어려움을 겪게 될 것이다.

본 실시예에 의하면, 노드들의 파티션 상에서 실행되는 작업을 종료시키지 않고도 병렬 컴퓨터 시스템 상에서 소프트 결함으로부터의 단일 노드 결함으로부터 결함 복구를 위한 방법 및 장치가 기술된다. 바람직한 실시예에서, 서비스 노드 상의 결함 하드웨어 복구 메카니즘은 하트 비트 모니터를 사용하여 노드 결함이 발생할 때를 결정한다. 가능한 경우, 결함 노드는 리셋되고 그리고 결함 노드를 포함하는 노드들의 파티션에 의해 실행되는 소프트웨어 작업을 종료시키지 않고도 소프트웨어가 재로딩된다.

개시된 본 실시예는 블루진 아키텍처에 관한 것이지만 네트워크 구조로 배열된 다수의 프로세서를 갖는 임의의 병렬 컴퓨터 시스템 상에서 구현될 수 있다. 바람직한 실시예는 특히 대용량 병렬 컴퓨터 시스템에 대해 이점이 있다.

본 발명의 전술한 것 및 다른 특징 및 이점은 첨부되는 도면에 예시되는 바와 같이 본 발명의 바람직한 실시예의 특정 설명으로부터 명백할 것이다.

본 발명의 바람직한 실시예는 아래에서 첨부되는 도면을 참조하여 기술될 것이며 유사 표시는 유사 요소를 나타낸다.

도 1은 바람직한 실시예에 따른 대용량 병렬 컴퓨터 시스템의 블럭도이다.

도 2는 바람직한 실시예에 따른 대용량 병렬 컴퓨터 시스템 내의 계산 노드(compute node)의 블럭도이다.

도 3은 바람직한 실시예에 따른 노드 리셋 하드웨어의 블럭도이다.

도 4는 바람직한 실시예에 따른 대용량 병렬 컴퓨터 시스템의 계산 노드들 상의 하트 비트 타이머를 셋업하기 위한 방법의 플로우챠트이다.

도 5는 바람직한 실시예에 따른 대용량 병렬 컴퓨터 시스템 상의 결함 노드의 결함 복구를 위한 방법의 플로우챠트이다.

본 발명은 결함 노드를 포함하는 노드들의 파티션 상에서 실행중인 작업을 종료하지 않고도 병렬 컴퓨터 시스템의 노드 상에서 소프트 결함으로부터 결함 복구를 위한 장치 및 방법에 관한 것이다. 바람직한 실시예는 IBM사에 의해 개발된 블루진/L 대용량 병렬 컴퓨터와 관련하여 기술될 것이다.

도 1은 블루진/L 컴퓨터 시스템과 같은 대용량 병렬 컴퓨터 시스템(100)을 나타내는 블럭도를 도시한다. 블루진/L 시스템은 계산 노드들의 최대수가 65,536인 스케일러블 시스템(scalable system)이다. 각각의 노드(110)는 블루진/L 계산 칩(112)으로 지칭되는 ASIC(112)을 갖는다. 계산 칩은 두 개의 프로세서 또는 중앙 처리 유닛(CPU)를 포함하며, 노드 도터 카드(node daughter card)(114) 상에 탑재된다. 노드는 또한 전형적으로 512 메가바이트의 로컬 메모리를 갖는다. 노드 보드(120)는 32개의 노드 도터 카드(114)를 수용하고 있으며 각각의 카드는 노드(110)를 갖는다. 따라서, 각각의 노드 보드는 32 개의 노드를 가지며, 각각의 노드는 2 개의 프로세서를 가지며, 각각의 프로세서는 연관된 메모리를 갖는다. 랙(130)은 32 개의 노드 보드(120)를 포함하는 하우징이다. 각각의 노드 보드(120)는 미드플레인 인쇄 회로 기판(132) 내로 미드플레인 커넥터(134)를 접속한다. 미드플레인(132)은 랙 내부에 존재하며 도 1에는 도시되지 않는다. 풀 블루진/L 컴퓨터 시스템(full Blue Gene/L computer system)은 32 개의 노드 보드(120)를 각각 갖는 64개의 랙(130) 또는 캐비넷 내에 하우징될 것이다. 풀 시스템은 65,536 개의 노드와 131,072 개의 CPU(64개의 랙 × 32개의 노드 보드 × 2개의 CPU)를 가질 것이다.

블루진/L 컴퓨터 시스템 구조는 I/O 노드 표면을 갖는 계산 노드로서 기술될 수 있으며, 여기서 1024개의 계산 노드(110)에 대한 통신은 서비스 노드(140)에 접속된 I/O 프로세서(170)를 갖는 각각의 I/O 노드에 의해 처리된다. I/O 노드는 로 컬 저장장치를 갖지 않는다. I/O 노드는 논리적 트리 네트워크를 통해 계산 노드에 접속되며 또한 기능상 기가비트 이더넷 네트워크(도시안됨)를 통한 광역 네트워크 기능을 갖는다. 기가비트 이더넷 네트워크는 서비스 노드(160)로부터 다수의 노드로의 통신을 처리하는 노드 보드(120) 상에 위치한 I/O 프로세서(또는 블루진/L 링크 칩)(170)에 접속된다. 블루진/L 시스템은 노드 보드(120)에 접속된 I/O 보드(도시안됨) 상의 하나 이상의 I/O 프로세서(170)를 갖는다. I/O 프로세서는 8, 32 또는 64개의 노드와 통신하도록 구성될 수 있다. 서비스 노드는 계산 노드 상의 링크 카드에 통신함으로써 접속성을 제어하는 기가비트 네트워크를 사용한다. I/O 노드들에 대한 커넥션들은 I/O 노드들이 토러스 네트워크(torus network)에 접속되지 않는 점을 제외하고는 계산 노드에 대한 커넥션과 유사하다.

도 1을 참조하면, 컴퓨터 시스템(100)은, 소프트웨어를 사용하여 노드들의 로딩을 처리하며 전체 시스템의 동작을 제어하는 서비스 노드(140)를 포함한다. 서비스 노드(140)는 전형적으로 제어 콘솔(도시안됨)을 사용하여 리눅스를 실행시키는 IBM pSeries 서버와 같은 미니 컴퓨터 시스템이다. 서비스 노드(140)는 제어 시스템 네트워크(150)를 통해 계산 노드(110)의 랙(130)에 접속된다. 제어 시스템 네트워크는 블루진/L 시스템에 대해 제어, 테스트 및 브링업 기반구조(bring-up infrastructure)를 제공한다. 제어 시스템 네트워크(150)는 대용량 병렬 컴퓨터 시스템에 대해 필요한 통신을 제공하는 다양한 네트워크 인터페이스를 포함한다. 네트워크 인터페이스는 아래에서 기술된다.

서비스 노드(140)는 시스템 관리 전용의 제어 시스템 네트워크(150)를 관리 한다. 제어 시스템 네트워크(150)는 서비스 노드(160)로부터 다수의 노드로의 통신을 처리하는 노드 보드(120) 상에 위치한 Ido 칩(180)에 접속된 사설 100-Mb/s 이더넷이다. 이 네트워크는 때로는 JTAG 네트워크로 지칭되기도 하는데, 그 이유는 그것은 JTAG 프로토콜을 사용하여 통신하기 때문이다. 노드 보드(120) 상의 계산 노드(110)의 모든 제어, 테스트 및 브링업은 서비스 노드와 통신하는 JTAG 포트를 통해 관리된다. 이러한 네트워크는 도 2를 참조하여 아래에서 기술된다.

블루진/L 슈퍼컴퓨터는 수 개의 추가적인 통신 네트워크를 통해 통신한다. 65, 536개의 계산 노드는 논리적 트리 네트워크 및 물리적 3차원 토러스 네트워크 내로 배열된다. 논리적 트리 네트워크는 이진 트리 구조 내의 계산 노드들을 접속하며, 그에 따라 각각의 노드는 하나의 모체(parent)와 두 개의 자손(children)과 통신한다. 토러스 네트워크는 각각의 계산 노드가 컴퓨터의 한 부분 내의 최근접 6개의 이웃과 통신할 수 있도록 하는 3차원 래티스형 구조 내의 계산 노드들을 논리적으로 접속한다. 상기 노드에 접속된 다른 통신 네트워크는 배리어(Barrier) 네트워크를 포함한다. 배리어 네트워크는 일부의 작업의 종료시 배리어 통신 시스템을 사용하여 상이한 처리 단계로 이동하는 계산 노드들 상에서의 유사한 처리의 동기화를 위한 소프트웨어 배리어를 구현한다. 또한, 각각의 노드에 대해 글로벌 인터럽트 커넥션이 존재한다.

또한, 도 1을 참조하면, 서비스 노드(140)는 결함 하드웨어 복구 메카니즘(142)을 포함한다. 결함 하드웨어 복구 메카니즘은 바람직한 실시예에 따른 노드 결함으로부터의 복구를 위해 동작하는 서비스 노드(140) 내의 소프트웨어를 포 함한다. 결함 하드웨어 복구 메카니즘은 하트 비트 모니터(144)를 사용하여 노드에 결함이 발생할 때를 결정한다. 하트 비트 모니터는 판독후에 아래에 기술되는 노드 상의 메모리 내에 위치한 하트 비트 플래그를 클리어한다. 하트 비트가 더이상 존재하지 않아, 하트 비트 플래그가 세트되지 않았음을 의미할 때, 상기 노드는 결함이 발생되며 결함 하드웨어 복구 메카니즘은 아래에 기술한 바와 같이 결함 노드를 포함하는 노드 파티션 상에서 임의의 실행중인 작업을 종료하지 않고도 그 노드를 복구하는 시도를 행한다.

도 2는 블루진/L 컴퓨터 시스템 내의 계산 노드(110)의 블럭도를 도시한 도면이다. 계산 노드(110)는 두 개의 처리 유닛(210A, 210B)을 갖는 노드 계산 칩(112)을 갖는다. 각각의 처리 유닛(210)은 레벨 1 메모리 캐시(L1 캐시)(214)를 갖는 프로세싱 코어(processing core)(212)를 갖는다. 처리 유닛(210)은 또한 레벨 2의 메모리 캐시(L2 캐시)(216)를 갖는다. 처리 유닛(210)은 레벨 3의 메모리 캐시(L3 캐시)(220) 및 SRAM 메모리 뱅크(230)에 접속된다. L3 캐시(220)로부터의 데이터는 DDR 제어기(250)에 의해 DDR SDRAM(240)의 뱅크에 로딩된다.

다시 도 2를 참조하면, SRAM 메모리(230)는 계산 칩(112)으로부터 벗어나 Ido 칩(180)으로 통신하는 JTAG 인터페이스(260)에 접속된다. 서비스 노드는 (도 1을 참조하여 전술된) 제어 시스템 네트워크(150)의 일부인 이더넷 링크를 통해 Ido 칩(180)을 거쳐 계산 노드와 통신한다. 블루진/L 시스템에서 노드 보드(120) 당 하나의 Ido 칩이 존재하며 각각의 미드플레인(132)(도 1) 내의 보드 상에는 다 른 것들이 존재한다. Ido 칩은 트러스트형 사설 100Mbit/s 이더넷 제어 네트워크를 통해 원시 UDP 패킷을 사용하여 서비스 노드로부터 커맨드를 수신한다. Ido 칩은 계산 노드들과의 통신을 위한 다양한 시리얼 프로토콜을 지원한다. JTAG 프로토콜은 서비스 노드(140)(도 1)로부터 계산 노드(110) 내의 SRAM(230)의 임의의 어드레스로의 판독 및 기록을 위해 사용되며, 시스템 동기화 및 부팅 과정(booting process)을 위해 사용된다. JTAG 인터페이스(260)는 또한 후술되는 바와 같이 노드 계산 칩(112)의 다양한 부분을 리셋하기 위한 리셋 비트를 유지하는 컨피그 레지스터(configuration register)(270)와 통신한다.

다시 도 2를 참조하면, 계산 노드(110)는 또한 소프트웨어 제어하에 세트될 수 있는 알람 타이머(285)를 갖는 타이머(280)를 포함한다. 바람직한 실시예에서, 이 타이머는 노드가 적절히 동작중이라는 것을 서비스 노드(140)(도 1) 내의 하트 비트 모니터(144)에 통지하는 하트 비트를 생성하는 데 사용된다. 이 노드는 서비스 노드로부터 알람 시간(285)을 수신한다. 타이머(280)는 알람 시간(285)과 동일한 기간으로 주기적으로 울리도록 세트된다. 타이머가 알람 시간(285)이 경과했음을 검출하고 그리고 노드가 적절히 동작중이라면, 하트 비트 플래그(236)가 SRAM(230)의 메일 박스(235) 내에 세트된다. 서비스 노드(140)의 하트 비트 모니터(144)는 모든 노드들의 하트 비트(236) 플래그의 존재를 정기적으로 체크하며 만약 하트 비트가 후술되는 바와 같이 존재하지 않는다면 결함 노드를 복구하도록 동작한다.

도 2에 도시한 바와 같은 노드 계산 칩(112)은 네트워크 하드웨어(290)를 더 포함한다. 네트워크 하드웨어(290)는 토러스(292), 트리(294) 및 글로벌 인터럽트(296) 네트워크에 대한 하드웨어를 포함한다. 블루진/L의 네트워크는 위에서 간략히 언급한 바와 같이 시스템 내의 다른 노드들과 통신하는 계산 노드용으로 사용된다.

도 3은 계산 칩(112)의 리셋 기능을 도시한 블럭도이다. 계산 칩(112)은 계산 칩(112)의 진단 기능을 향상시키기 위해 설계된 수 개의 개별 리셋을 포함한다. 바람직한 실시예에서, 이러한 리셋은 본 명세서에 기술되는 결함 복구를 위해 사용된다. 리셋의 목적을 위해, 계산 칩 상의 하드웨어는 일반적으로 ASIC 하드웨어(310), 네트워크 하드웨어(290), 및 DDR 제어기(250)로 분할될 수 있다. ASIC 하드웨어(310)는 네트워크 하드웨어(290) 또는 DDR 제어기(250)의 부분으로서 포함되지 않은 잔존하는 ASIC 하드웨어이다. 컨피그 레지스터(270)는 전술한 바와 같이 하드웨어를 리셋하기 위한 리셋 비트(도시안됨)를 유지한다. 컨피그 레지스터(270) 내의 리셋 비트는 도 3에 도시된 바와 같은 리셋 출력을 구동시킨다. ASIC 하드웨어(310)는 ASIC 하드웨어 리셋(312)에 의해 리셋되며, 상기 네트워크 하드웨어(720)는 네트워크 하드웨어 리셋(314)에 의해 리셋되며, DDR 제어기는 DDR 리셋(316)에 의해 리셋된다. 리셋은 관련된 하드웨어를 초기화를 위한 공지 상태로 설정하기 위해 전형적인 리셋 기능을 제공한다.

바람직한 실시예에서, 계산 칩(112) 상의 다수의 리셋은 병렬 컴퓨터 시스템의 파티션 내에서 실행중인 애플리케이션 또는 작업을 종료하지 않고도 약간의 소프트 결함으로부터 복구를 위해 사용된다. 결함 노드를 갖는 파티션 상에서 동작하는 애플리케이션 소프트웨어는 노드의 복구 동안 대기될 필요가 있지만 만일 복구가 성공적이라면, 그 애플리케이션은 노드의 복구 후에 재시작 없이도 지속될 수 있다. 바람직한 실시예에서, 사전 결정된 간격에서 각각의 노드의 메일 박스 내에 하트 비트 플래그를 제공하기 위해 타이머가 셋업된다. 서비스 노드 내의 하트 비트 모니터는 노드 결함이 발생하는지를 결정하기 위해 각각의 노드 내의 하트 비트 플래그를 모니터링하여 리셋한다. 노드 상에 하트 비트가 존재하지 않는다면, 서비스 노드 상의 결함 하드웨어 복구 메카니즘은 결함 노드 상의 네트워크 하드웨어를 사용하는 시스템 내의 다른 노드들을 방해하지 않도록 네트워크 하드웨어를 리셋하지 않고도 노드를 복구할 시도를 행한다. 네트워크 하드웨어 리셋은 파티션 상에서 실행되는 애플리케이션의 재시작을 필요로 하는데, 그 이유는 토러스 및 논리적 트리 네트워크에서 인접 노드들 간의 노드를 통한 정보 흐름을 방해할 것이기 때문이다. 주목할 것은 결함 복구가 네트워크 하드웨어와 관련된 결함을 위한 것이 아니라는 것이다. 네트워크 하드웨어 결함은 상호접속된 노드들에 의해 표시되는 다수의 결함을 야기할 것이며 기술되지 않은 다른 수단을 필요로 할 것이다.

하트 비트의 부족을 검출한 후, 결함 하드웨어 복구 메카니즘이 SRAM 내로 진단 코드를 성공적으로 로딩할 수 있고 DDR 제어기 및 메모리가 동작가능하다면, DDR 제어기는 리셋되고 동작 소프트웨어 커널은 그 노드 내로 재로딩된다. 다음, 그 노드는 전체 ASIC을 리셋하지 않고도 지속할 수 있다. 만약 결함 하드웨어 복구 메카니즘이 SRAM 내로 진단 코드를 성공적으로 로딩할 수 없다면 ASIC 리셋은 네트워크 하드웨어를 제외한 ASIC을 리셋하는 데 사용되며, DDR은 리셋되고 동작 소프트웨어 커널은 그 노드 내로 재로딩된다. 이러한 과정은 결함으로부터 복구를 위해 최소량의 노드가 리셋되도록 할 수 있다. 계산 노드는 다음에 동작을 재개할 수 있으며, 파티션 내의 잔존 노드들은 개시중인 애플리케이션을 재시작하지 않고도 실행중인 애플리케이션의 동작을 재개할 수 있다.

도 4는 실시예에 따른 결함 복구를 위한 계산 노드 상의 하트 비트를 셋업하는 방법(400)을 도시하고 있다. 이 방법은 서비스 노드 내의 하트 비트 모니터에 하트 비트를 제공하기 위해 계산 노드 상에서 수행되는 동작과 관련되지만, 이 방법은 서비스 노드 또는 계산 노드의 부트업 과정의 다른 부분에 의해 개시될 수 있다. 계산 노드는 서비스 노드의 제어 시스템으로부터 하트 비트 시간을 수신하며(단계 410), 하트 비트 시간을 사용하여 타이머를 세트한다(단계 420). 계산 노드 내의 타이머가 하트 비트를 검출할 때마다 하트 비트 플래그는 계산 노드 하트 비트를 체크하기 위해 하트 비트 모니터에 대한 SRAM 메일 박스 내에서 세트된다(단계 430). 이 방법은 다음에 완료된다.

도 5는 실시예에 따른 병렬 컴퓨터 시스템 상에서 결함 복구를 위한 방법(500)을 도시하고 있다. 이 방법에서 기술되는 동작들은 도 1을 참조하여 기술되는 결함 하드웨어 복구 메카니즘(142) 및 하트 비트 모니터(144)에 의해 수행된다. 하트 비트 모니터는 전술한 바와 같은 하트 비트 플래그를 체킹함으로써 컴퓨터 시스템 내의 각각의 노드의 하트 비트를 모니터링한다(단계 510). 결함 노드가 존재하지 않는다면(단계 520=아니오), 단계 510으로 리턴하여 모니터링을 지속한다. 하트 비트 플래그의 부족에 의해 표시되는 바와 같이 결함 노드가 존재하지 않는다면(단계 520=예), 파티션 내의 다른 노드들 및 애플리케이션 소프트웨어에 이 노드가 사용불가능하다는 것을 통지한다(단계 530). 다음에 노드의 동작을 체크하기 위해 결함 노드의 SRAM 내로 진단 코드를 로딩하는 시도를 행한다(단계 540). 만약 로딩이 성공적이지 않다면(단계 550=아니오), 네트워크 하드웨어를 제외한 ASIC을 리셋하고(단계 555), SRAM에 DDR을 리셋하기 위한 코드를 로딩하고(단계 560), 처리를 지속하기 위해 노드에 대해 특정 시스템 커널을 재로딩한다(단계 565). 만약 로딩이 성공적이라면(단계 550=예), DDR을 체크하기 위해 진단을 실행한다(단계 570). 만약 DDR이 OK이라면(단계 575=예), 서비스 노드에 ASIC 에러를 출력하고(단계 580), 처리를 지속하기 위해 노드에 대해 특정 시스템 커널을 재로딩한다(단계 565). 만약 DDR이 OK가 아니라면(단계 575=아니오), SRAM에 DDR을 리셋하기 위한 코드를 로딩하며(단계 560) 처리를 지속하기 위해 노드에 대해 특정의 시스템 커널을 재로딩한다(단계 565). 이 방법은 다음에 종료된다.

전술한 바와 같이, 실시예는 대용량 병렬 슈퍼 컴퓨터 시스템 내의 노드들의 파티션 상에서 실행되는 작업을 종료하지 않고도 소프트 결함으로부터 병렬 컴퓨터 시스템의 노드 상의 결함 복구에 대한 방법 및 장치를 제공한다. 본 발명의 실시예는 서비스 노드가 결함 노드의 비 네트워크 부분을 리셋할 수 있게 하며, 그에 따라 파티션 내의 다른 노드들은 시스템 고장 시간을 감소시켜 컴퓨터 시스템의 효율을 증가시키기 위해 영향을 받지 않는다.

당업자는 본 발명의 영역 내에서 여러 변형이 가능하다는 것을 이해할 것이다. 따라서, 본 발명이 바람직한 실시예를 참조하여 도시되고 기술되지만, 당업자 라면 본 발명의 사상 및 범주 내에서 형태 및 세부적인 변경이 가능하다는 것을 이해할 것이다.

Claims

병렬 컴퓨터 시스템으로서,

복수의 계산 노드(110)를 포함하되, 각각의 계산 노드는 프로세싱 유닛을 포함하는 상기 계산 노드의 네트워크 하드웨어 부분(290) 이외의 잔존 부분을 리셋하기 위한 리셋 하드웨어(312, 316)와는 별개로 상기 계산 노드의 상기 네트워크 하드웨어 부분을 리셋하기 위한 리셋 하드웨어(314)를 포함하는 상기 병렬 컴퓨터 시스템의 파티션(partition)과,

네트워크를 통해 상기 계산 노드의 동작을 제어하는 서비스 노드(140)

를 포함하며,

상기 서비스 노드는 결함 계산 노드를 검출하는 결함 하드웨어 복구 메카니즘을 포함하며,

상기 결함 하드웨어 복구 메카니즘은, 상기 파티션 상에서 실행되고 상기 네트워크 하드웨어 부분을 통해 상기 복수의 계산 노드 사이에서 데이터를 송신하는 애플리케이션이 상기 결함 계산 노드의 잔존 부분의 리셋 후에 재시작(restarting)하지 않고 실행을 지속할 수 있는 방식으로, 상기 결함 계산 노드 상에서의 결함을 복구하기 위해 상기 네트워크 하드웨어 부분을 리셋하지 않고 상기 결함 계산 노드의 잔존 부분을 리셋하는

병렬 컴퓨터 시스템.
제 1 항에 있어서,

상기 복수의 계산 노드는 계산 노드가 정상적으로 동작하고 있다는 것을 나타내기 위해 상기 계산 노드의 메모리에서 사전결정된 간격으로 하트 비트 플래그를 세트하기 위한 타이머를 더 포함하는

병렬 컴퓨터 시스템.
제 2 항에 있어서,

상기 결함 하드웨어 복구 메카니즘은 세트된 하트 비트 플래그의 부족에 의한 상기 복수의 계산 노드 중의 결함 계산 노드를 검출하기 위해 상기 계산 노드 내의 상기 하트 비트 플래그를 모니터링하는 하트 비트 모니터를 더 포함하는

병렬 컴퓨터 시스템.
제 3 항에 있어서,

상기 결함 계산 노드 상에서의 결함은 상기 하트 비트 모니터에 의해 검출되는

병렬 컴퓨터 시스템.
제 3 항에 있어서,

상기 하트 비트 플래그는 상기 계산 노드 상의 정적 메모리(static memory) 내에 저장되며, 상기 결함 하드웨어 복구 메카니즘은 상기 계산 노드 상의 JTAG 인터페이스를 통해 상기 정적 메모리에 액세스하는 이더넷 네트워크를 통해 상기 정적 메모리를 판독하며, 선택적으로 상기 병렬 컴퓨터 시스템은 다수의 인접 배열된 컴퓨터 랙(racks) 내에 하우징된 대량의 계산 노드를 갖는 대용량 병렬 컴퓨터 시스템인

병렬 컴퓨터 시스템.
제 1 항에 있어서,

상기 계산 노드의 상기 잔존 부분은 ASIC 프로세서 칩의 DDR 메모리 제어기이며 또는 상기 병렬 컴퓨터 시스템은 다수의 인접 배열된 컴퓨터 랙 내에 하우징된 대량의 계산 노드를 갖는 대용량 병렬 컴퓨터 시스템인

병렬 컴퓨터 시스템.
제어 시스템 네트워크(150)에 의해 서비스 노드(140)에 접속된 복수의 계산 노드(110)를 갖는 병렬 컴퓨터 시스템을 동작시키는 컴퓨터 구현 방법으로서,

(a) 각각의 노드가 하트 비트를 제공하는 단계와,

(b) 상기 컴퓨터 시스템의 상기 서비스 노드에서 각각의 계산 노드의 하트 비트를 모니터링하는 단계와,

(c) (c1) 결함 계산 노드로 진단 코드(diagnostic code)를 로딩하도록 시도하는 단계와, (c2) 상기 로딩이 성공적이지 않으면, 네트워크 하드웨어 부분을 제외한 상기 결함 계산 노드의 모든 부분을 포함한 상기 결함 계산 노드의 일부를 리셋하고, 상기 결함 계산 노드의 메모리 제어기를 리셋하고, 상기 결함 계산 노드에 시스템 커널을 로딩하는 단계를 실행함으로써, 결함이 있는 상기 결함 계산 노드를 포함하는 노드의 파티션 상에서 실행되는 애플리케이션을 중단시키지 않고도 상기 결함 계산 노드에서 하트 비트의 부족에 의해 표시된 상기 결함 계산 노드 내의 결함으로부터 복구를 시도하는 단계를 포함하는

컴퓨터 구현 방법.
제 7 항에 있어서,

상기 계산 노드의 하트 비트를 모니터링하는 단계는

(d) 상기 계산 노드가 상기 서비스 노드로부터 하트 비트 시간을 수신하는 단계와,

(e) 상기 하트 비트 시간으로 타이머를 세트하는 단계와,

(f) 상기 타이머의 경과된 하트 비트 시간을 검출하고, 상기 계산 노드의 메모리 내에서 하트 비트 플래그를 세트하는 단계를 포함하는

컴퓨터 구현 방법.
제 7 항에 있어서,

상기 결함 계산 노드 내의 결함으로부터 복구를 시도하는 단계는

(g) 상기 로딩이 성공적이라면, 메모리 제어기의 정상적인 동작 여부를 체크하기 위해 상기 진단 코드를 실행하는 단계와,

(h) 상기 메모리 제어기가 정상적으로 동작한다면, 상기 메모리 제어기를 리셋하기 위해 상기 계산 노드 내에 코드를 로딩하고 상기 메모리 제어기를 리셋하고 상기 계산 노드에 시스템 커널을 로딩하는 단계를 포함하는

컴퓨터 구현 방법.
계산 노드에 결함이 발생하는지를 판정하기 위해 병렬 컴퓨터 시스템 내의 파티션을 포함하는 복수의 계산 노드를 모니터링하는 결함 하드웨어 복구 메카니즘을 포함하는 컴퓨터 판독가능한 기록 매체로서,

상기 결함 하드웨어 복구 메카니즘은, 상기 파티션 상에서 실행되고 네트워크 하드웨어 부분을 통해 상기 복수의 계산 노드 사이에서 데이터를 송신하는 애플리케이션이 결함 계산 노드의 잔존 부분의 리셋 후에 재시작(restarting)하지 않고 실행을 지속할 수 있도록, 상기 결함 계산 노드 상에서의 결함을 복구하기 위해 상기 결함 계산 노드의 네트워크 하드웨어 부분을 리셋하지 않고 상기 결함 계산 노드의 잔존 부분을 리셋하는

컴퓨터 판독가능한 기록 매체.