KR100936203B1 - 데이터 처리 장치, 모드 관리 장치 및 모드 관리 방법 - Google Patents

데이터 처리 장치, 모드 관리 장치 및 모드 관리 방법 Download PDF

Info

Publication number
KR100936203B1
KR100936203B1 KR20070049764A KR20070049764A KR100936203B1 KR 100936203 B1 KR100936203 B1 KR 100936203B1 KR 20070049764 A KR20070049764 A KR 20070049764A KR 20070049764 A KR20070049764 A KR 20070049764A KR 100936203 B1 KR100936203 B1 KR 100936203B1
Authority
KR
South Korea
Prior art keywords
mode
crossbar
error
crossbars
operating
Prior art date
Application number
KR20070049764A
Other languages
English (en)
Other versions
KR20080016438A (ko
Inventor
신타로우 이토자와
다카유키 기노시타
준지 이치미야
Original Assignee
후지쯔 가부시끼가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후지쯔 가부시끼가이샤 filed Critical 후지쯔 가부시끼가이샤
Publication of KR20080016438A publication Critical patent/KR20080016438A/ko
Application granted granted Critical
Publication of KR100936203B1 publication Critical patent/KR100936203B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/55Prevention, detection or correction of errors
    • H04L49/557Error correction, e.g. fault recovery or fault tolerance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/15Interconnection of switching modules
    • H04L49/1515Non-blocking multistage, e.g. Clos
    • H04L49/1523Parallel switch fabric planes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/30Peripheral units, e.g. input or output ports
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/55Prevention, detection or correction of errors
    • H04L49/552Prevention, detection or correction of errors by ensuring the integrity of packets received through redundant connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Multi Processors (AREA)
  • Hardware Redundancy (AREA)

Abstract

본 발명은, 어드레스 크로스바를 이중화한 컴퓨터(데이터 처리 장치)의 에러내성을 보다 향상시키기 위한 기술을 제공하는 것을 목적으로 한다.
에러가 발생한 어드레스 크로스바(30#1)는 상기 취지를 통지하기 위한 에러 통지 신호(S1)를 매니지먼트 보드(50)에 송신하며, 자신을 시스템으로부터 분리할 것을 요구하기 위한 GAC#1 분리 지시 신호(S2)를, 각 시스템 보드(10) 및 각 IO 유닛(20)에 송신한다. 매니지먼트 보드(50)의 제어부(50)는, 레지스터(50)에 저장된 통지 신호(S1)의 정보에 의해 어드레스 크로스바(30#1)에서의 에러의 발생을 확인하면, 이중화를 위한 이중화 모드로부터 독립적으로 동작시키기 위한 단일화 모드로 모드 변경시키기 위한 설정 신호(S4)를 생성하여, 어드레스 크로스바(30#0)에 송신한다. 이에 따라, 어드레스 크로스바(30#0)를 단일화 모드로 동작시킨다.
Figure R1020070049764
에러 내성, 어드레스 크로스바, 모드 변경, 이중화

Description

데이터 처리 장치, 모드 관리 장치 및 모드 관리 방법{DATA PROCESSING MANAGEMENT APPARATUS, MODE MANAGEMENT APPARATUS AND MODE MANAGEMENT METHOD}
도 1은 본 실시형태에 의한 데이터 처리 장치(컴퓨터)의 구성을 설명하는 도면.
도 2는 시스템 보드(10) 및 IO 유닛(20)의 구성예를 설명하는 도면.
도 3은 에러 발생시에 송수신되는 신호를 설명하는 도면.
도 4는 어드레스 크로스바(30)의 구성을 설명하는 도면.
도 5는 어드레스 크로스바(30#1)에 에러가 발생한 경우에, 각부가 실행하는 처리의 흐름을 도시하는 흐름도.
도 6은 설정된 모드 및 발생한 에러가 영향을 주는 범위에 의한 에러에의 대응을 설명하는 도면.
도 7은 에러가 발생하지 않는 어드레스 크로스바(30)에 있어서의 모드 변경을 실현시키는 다른 방법을 설명하는 도면.
도 8은 에러가 발생하지 않는 어드레스 크로스바(30)에 있어서의 모드 변경을 실현시키는 또 다른 방법을 설명하는 도면.
도 9는 크로스바에 의해 복수의 유닛을 접속한 컴퓨터의 구성을 설명하는 도면.
도 10은 어드레스 크로스바(3#1)에 에러가 발생한 경우에, 종래의 컴퓨터 각부가 실행하는 처리의 흐름을 도시하는 흐름도.
<도면의 주요 부분에 대한 부호의 설명>
10 : 시스템 보드
11, 21, 31 : LSI
20 : IO 유닛
30 : 글로벌 어드레스 크로스바
32 : 구성 설정 레지스터
33, 51 : 제어부
34 : 에러 레지스터
35 : 에러 처리부
50 : 매니지먼트 보드
52 : 레지스터
본 발명은, 하나 이상의 CPU를 탑재한 시스템 보드와 주변 장치와의 접속용 IO 유닛을 접속가능한 유닛으로 하는 데이터 처리 장치에 관한 것이다.
최근, 컴퓨터(데이터 처리 장치) 중에는, 물리적으로 분리된 유닛을 복수, 실장가능한 구성이 채용된 것이 있다. 상기 유닛으로서는, CPU와 메모리를 탑재한 시스템 보드(SB)와, 하드디스크 장치나 PCI 슬롯 등의 IO 디바이스를 탑재한 IO 유닛이 준비되는 것이 보통이다. 그와 같은 유닛을 준비하는 것은 CPU 자원이나 메모리 자원을 상황에 따라 유연하게 할당하기 위해서이다. 즉, 이들을 보다 효율적으로 활용할 수 있다는 이점이 있기 때문이다. 상기 구성을 채용한 컴퓨터에서는, 시스템 보드 및 IO 유닛은 각각 하나 이상 탑재된다. 크로스바는 이들 유닛 사이의 상호 접속에 이용된다. 그와 같은 컴퓨터에서는 하나 이상의 시스템 보드와, 하나 이상의 IO 유닛을 하나의 독립된 시스템으로서 분할하는 것이 가능하다. 그와 같이 분할할 수 있는 「독립된 시스템」은「파티션」이라고 부른다.
도 9는 크로스바에 의해 복수의 유닛을 접속한 컴퓨터의 구성을 설명하는 도이다. 도 9에 나타낸 바와 같이, 하나 이상의 시스템 보드(1) 및 IO 유닛(2)은 공통적으로 2개의 글로벌 어드레스 크로스바(이후「어드레스 크로스바」 또는 「GAC」로 약기)(3) 및 4개의 글로벌 데이터 크로스바(이후「데이터 크로스바」 또는 「GDX」로 약기)(4)와 각각 접속되어 있다. 매니지먼트 보드(MMB: Management Board)(5)는 관리 전용 유닛이며, 각 유닛 1∼4와는 SM 버스에 의해 접속되어 있다.
2개의 어드레스 크로스바(3)는 동시에 동일한 요청 제어를 행하고 있다. 이에 따라, 어드레스 크로스바(3)는 하드웨어적으로 이중화되며, 상기의 이중화에 따라 보다 높은 신뢰성을 실현시키고 있다. 여기서는 편의상, 이중화를 위한 동작 모드를「이중화 모드」라고 부르기로 한다. 4개의 데이터 크로스바(4)가 준비 되어 있는 것은, 통상, 한번에 대량의 데이터가 전송되기 때문이다.
2개의 어드레스 크로스바(3)에는 각각 「#0」「#1」이 표기되어 있다. 이러한 점에서, 2개의 어드레스 크로스바(3) 중의 한쪽만을 가리키는 경우에는, 부호의 뒤에 「#0」 또는 「#1」을 붙이기로 한다. 이것은 다른 것에서도 동일하다.
2개의 어드레스 크로스바(3)는 동기하여 동작한다. 다른쪽의 데이터 크로스바(4)에서는, 2개의 데이터 크로스바(4#0 및 4#2), 및 2개의 데이터 크로스바(4#1 및 4#3)가 각각 동기하여 동작한다.
어드레스 크로스바(3) 내에 실장되어 있는 메모리나 버퍼, 또는 큐라고 한 데이터나 제어 정보를 대비해 둔 기구에서는, ECC(Error Correcting Code), 또는 패리티가 부가된다. 이에 따라, 정정 불가능한 에러의 발생을 인식하도록 되어 있다. 또한, 다른 부분의 동작을 감시하여 프리즈 등의 에러의 발생을 인식하도록 되어 있다. 이중화 모드에서의 동작 중에 에러가 발생한 경우, 종래의 컴퓨터에서는 이하와 같이 대응하도록 되어 있다.
도 10은 어드레스 크로스바(3#1)에 에러가 발생한 경우에, 종래의 컴퓨터 각부가 실행하는 처리의 흐름을 나타내는 흐름도이다. 상기 도 10을 참조하여, 에러가 발생한 크로스바(3#1)를 포함하는 각부의 동작에 대해 구체적으로 설명한다. 상기 도 10에서는, 각부를 시스템 보드(1) 및 IO 유닛(2)(도면 중「SB/IOU」로 표기), 어드레스 크로스바(3#0)(도면 중「GAC#0」으로 표기), 어드레스 크로스바(3#1)(도면 중「GAC3#1」으로 표기) 및 매니지먼트 보드(5)(도면 중「MMB」로 표기)의 4개로 나누고 있다.
어드레스 크로스바(3#1)는, 에러의 발생을 인식(검출)하면, 그 취지를 매니 지먼트 보드(5), 각 시스템 보드(1) 및 각 IO 유닛(2)에 각각 통지한다(SA1). 각 시스템 보드(1) 및 각 IO 유닛(2)에는, 어드레스 크로스바(3#1)를 시스템으로부터 논리적으로 분리할 것을 요구하는 신호(GAC#1 분리 신호)를 송신한다. 그 후, 동작을 정지시킨다(SA2).
GAC#1분리 신호를 수신한 각 시스템 보드(1) 및 각 IO 유닛(2)은 각각, 에러가 발생한 어드레스 크로스바(3#1)를 분리하는 동작(처리)을 행한다(SC1). 그 후에는, 분리한 크로스바(3#1)를 사용하지 않는다는 점을 제외하고, 지금까지와 동일한 동작을 계속한다(SC2).
매니지먼트 보드(5)에서는, 상기 통지를 시스템 관리에 반영시킨다. 다른쪽의 어드레스 크로스바(3#0)에는 어드레스 크로스바(3#1)에서 발생한 에러가 통지되지 않고, 지금까지와 동일한 동작을 계속한다.
이와 같이, 이중화한 어드레스 크로스바(3)의 한쪽에 에러가 발생하면, 이후, 상기 에러가 발생한 크로스바(3)는 사용하지 않고, 시스템으로부터 분리하고 있다. 이것은, 데이터 신뢰성의 관점 때문이다. 이러한 점에서, 이중화 모드로 동작하고 있었던 어드레스 크로스바(3)는 에러의 발생에 따라 동작을 정지하도록 되어 있다(도 10).
[특허 문헌 1] 일본 특허 공개 평09-179838호 공보
[특허 문헌 2] 일본 특허 공고 평07-82479호 공보
어드레스 크로스바(3)를 이중화함으로써 보다 높은 신뢰성이 실현된다. 2개 의 어드레스 크로스바(3) 중의 한 쪽에 에러가 발생하더라도, 다른쪽을 이용하여 시스템을 동작시킬 수 있다. 그러나, 그 다른 쪽에도 에러가 발생하는 경우가 있을 수 있다. 그와 같은 에러가 발생하면, 상기 에러의 발생에 따라 다른 쪽도 정지하므로, 시스템도 정지하게 된다.
어드레스 크로스바(3)에 발생하는 에러들 중에는, 그 크로스바(3)를 정지시킬 필요가 없는 경우가 있다. 특정한 유닛 사이에서만 영향을 주는 것과 같은 부분적인 에러가 발생하는 경우도 많다. 이러한 점에서, 독립적으로 동작시키는 모드(이후「단일화 모드」)의 설정시에는, 에러의 발생에 따라 정지가 필요한 부분만을 정지시켜, 에러의 영향을 받지 않는 부분은 동작을 계속하도록 되어 있다. 시스템의 보다 높은 가동율을 실현시키기 위해서는, 이러한 점에 착안하여 에러 내성을 향상시키는 것도 중요하다고 생각된다.
본 발명은 어드레스 크로스바를 이중화한 컴퓨터(데이터 처리 장치)의 에러내성을 보다 향상시키기 위한 기술을 제공하는 것을 목적으로 한다.
본 발명의 제1 형태의 데이터 처리 장치는, 하나 이상의 CPU를 탑재한 시스템 보드 및 주변 장치와의 접속용 IO 유닛을 실장가능한 유닛으로 함으로써, 유닛 사이의 접속에 채용된 복수 모드에 의해 동작 가능한 복수의 크로스바와, 복수의 크로스바를 이중화하기 위한 제1 모드로 동작시키고 있었던 경우에, 상기 복수의 크로스바 중의 하나에서 발생한 에러에 의해, 상기 에러가 영향을 주는 다른 크로스바의 모드 설정을 상기 제1 모드로부터 독립적으로 동작시키기 위한 제2 모드로 변경하는 모드 변경 수단을 구비한다.
또한, 상기 모드 변경 수단은 복수의 크로스바 중에서 에러가 발생한 크로스바로부터 상기 에러의 발생을 통지하는 에러 통지 신호를 수신하여 다른 크로스바에 제1 모드로부터 제2 모드로 변경하기 위한 설정 신호를 송신함으로써, 상기 다른 크로스바의 모드 변경을 행하는 것이 바람직하다. 또한, 상기 모드 변경 수단은 복수의 크로스바 중에서 에러가 발생한 크로스바로부터 상기 에러의 발생을 통지하는 신호를 다른 크로스바에 송신시켜, 상기 다른 크로스바에 모드 변경을 행하게 함으로써 실현시키는 것이 바람직하다.
본 발명의 제2 형태의 데이터 처리 장치는, 각각이 처리부를 탑재하는 복수의 처리 유닛과; 각각이 복수의 처리 유닛에 접속되고, 복수의 처리 유닛 사이의 데이터 전송에 개재하며, 이중화 모드와 단일화 모드 사이에서 동작 모드가 전환되는, 이중화된 복수의 크로스바 유닛과; 이중화된 복수의 크로스바 유닛 중 어느 한쪽에 에러가 발생한 경우, 동작 모드를 이중화 모드로부터 단일화 모드로 전환하는 지시를 다른 쪽의 크로스바 유닛으로 송출하는 모드 변경 수단을 구비하고 있다.
본 발명의 모드 관리 장치는, 하나 이상의 CPU를 탑재한 시스템 보드 및 주변 장치와의 접속용 IO 유닛을 실장가능한 유닛으로 하는 데이터 처리 장치에 탑재되는 것을 전제로 하며, 유닛 사이의 접속에 채용되며 복수 모드에 의해 동작가능한 복수의 크로스바와 각각 송수신할 수 있는 송수신 수단과; 이중화를 위한 제1 모드에 의해 동작하고 있었던 복수의 크로스바 중의 하나로부터, 에러의 발생을 통지하는 에러 통지 신호를 송수신 수단이 수신한 경우에, 상기 에러가 영향을 주는 다른 크로스바의 모드 설정을 상기 제1 모드로부터 독립적으로 동작시키기 위한 제2 모드로 변경하기 위한 설정 신호를 송수신 수단에 의해 송신시키며, 상기 다른 크로스바의 모드 변경을 행하는 모드 제어 수단을 구비한다.
본 발명의 모드 관리 방법은, 하나 이상의 CPU를 탑재한 시스템 보드 및 주변 장치와의 접속용 IO 유닛을 실장가능한 유닛으로 하는 데이터 처리 장치에서 상기 유닛 사이의 접속에 채용된 크로스바의 모드 관리에 이용되는 방법으로서, 유닛 사이의 접속에 복수의 크로스바를 배치하여 상기 복수의 크로스바를 이중화를 위한 제1 모드로 동작시키고, 복수의 크로스바 중의 하나에서 발생한 에러에 의해, 상기 에러가 영향을 주는 다른 크로스바의 모드 설정을 제1 모드로부터 독립적으로 동작시키기 위한 제2 모드로 모드 변경한다.
제1 모드에서는, 데이터 신뢰성의 관점에서 에러가 발생한 크로스바는 동작을 정지시킨다. 제2 모드에서는, 동작의 정지가 필요한 부분만을 정지시킨다. 이러한 점에서, 다른 크로스바에서의 에러의 발생에 따라, 에러가 발생하지 않는 크로스바를 제1 모드로부터 제2 모드로 모드 변경하면, 부분적인 에러가 발생하였더라도, 정상적으로 동작 가능한 부분을 이용한 시스템의 동작을 계속시킬 수 있다. 이에 따라, 에러 내성이 향상하여, 시스템의 보다 높은 가동율을 실현하게 된다.
이하, 본 발명의 실시형태에 대해, 도면을 참조하면서 상세하게 설명한다.
도 1은 본 실시형태에 따른 데이터 처리 장치(컴퓨터)의 구성을 설명하는 도이다. 도 1에 나타낸 바와 같이, 하나 이상의 시스템 보드(10) 및 IO 유닛(20)은 공통적으로, 2개의 글로벌 어드레스 크로스바(이후「어드레스 크로스바」 또는 「 GAC」로 약기)(30) 및 4개의 글로벌 데이터 크로스바(이후「데이터 크로스바」 또는 「GDX」로 약기)(40)와 각각 접속되어 있다. 매니지먼트 보드(MMB : Management Board)(50)는 관리 전용 유닛이며, 각 유닛 10∼40과는 SM 버스에 의해 접속되어 있다.
어드레스 크로스바(30)는 이중화되며, 2개의 크로스바(30)는 동시에 동일한 요청 제어를 행하고 있다. 이에 따라, 높은 신뢰성을 실현시키고 있다. 4개의 데이터 크로스바(40)가 준비되어 있는 것은, 통상, 한번에 대량의 데이터가 전송되기 때문이다. 2개의 어드레스 크로스바(3)는 동기하여 동작하며, 데이터 크로스바(40)에서는, 2개의 데이터 크로스바(40#0 및 40#2), 2개의 데이터 크로스바(40#1 및 40#3)가 각각 동기하여 동작한다.
도 2는 시스템 보드(10) 및 IO 유닛(20)의 구성예를 설명하는 도이다.
시스템 보드(10)는 4개의 CPU(101), 2개의 FWH(Firm Ware Hub)(102), 노스 브릿지(North Bridge)(103), 4개의 메모리 스위치(도면 중「Mem Swich」로 표기)(104) 및 각 메모리 스위치(104)에 접속된 복수의 메모리(105)를 구비한 구성으로 되어있다. 다른쪽의 IO 유닛(20)은 사우스 브릿지(South Bridge)(201), 그 브릿지(201)에 접속된 2개의 SER(202) 및 PCI 포트에 접속된 PCI 디바이스, 각 SER(202) 및 사우스 브릿지(201)에 접속된 ICH6(203) 및 각 ICH6(203)에 접속된 6개의 컨트롤러(211∼216)를 구비한 구성으로 되어있다. ICH6(203)은 I/O 컨트롤러 허브이다. 도 2에 나타내는 컨트롤러(211∼216)는 일례이며, 그 종류나 수는 임의로 변경할 수 있다. 이들은 IO 유닛(20) 단위로 임의로 결정하더라도 좋다.
IO 유닛(20)의 사우스 브릿지(201)는 2개의 어드레스 크로스바(30) 및 4개의 데이터 크로스바(40)와 각각 접속되어 있다. 그 브릿지(201)는 SER(202) 및 ICH6을 통해 각 컨트롤러(211∼216)를 제어한다. 예컨대 PCI로부터의 기록 데이터가 있었던 경우, 사우스 브릿지(201)로부터 어드레스 크로스바(30)에 대해 요청이 나간다. 시스템 보드(10)로부터 데이터 크로스바(40)를 통해 전송되는 데이터를 수신한 경우에는 SER(202) 및 ICH6을 통해 송출해야 할 컨트롤러 및 PCI로 송출, 데이터의 저장, 출력, 또는 송신을 행하게 한다.
시스템 보드(10) 상의 4개의 CPU(101)는 메모리(105), 다른 시스템 보드(1 b0), 또는 IO 유닛(20)에의 리드/라이트 커맨드를 노스 브릿지(103)로 발행한다. 노스 브릿지(103)는 각 CPU(101)로부터 입력한 커맨드를 일단 저장하며, 우선순위에 따라 그 안에서 하나를 선택하여, 그것을 요청(어드레스 요청으로서 발행하여, 어드레스 크로스바(30) 및 4개의 메모리 스위치(104)로 각각 출력한다.
데이터 크로스바(40)를 통해 전송되는 데이터는 메모리 스위치(104)에 의해 수신되어 노스 브릿지(103)에 출력되며, 상기 브릿지(103)에 의해 그것을 필요로 하는 CPU(101)로 건네진다. 다른 시스템 보드(10), 또는 IO 유닛(20)에 전송해야 할 데이터는 메모리 스위치(104)에 의해 데이터 크로스바(40)로 송신되어 전송된다.
어드레스 크로스바(3) 내에 실장되어 있는 메모리나 버퍼, 또는 큐라고 한 데이터나 제어 정보를 대비해 둔 기구에서는, ECC(Error Correcting Code), 또는 패리티가 부가된다. 이에 따라, 정정 불가능한 에러의 발생을 인식하도록 되어 있 다. 또한, 다른 부분의 동작을 감시하여, 프리즈 등의 에러의 발생을 인식하도록 되어 있다. 이중화 모드에서 동작 중에 에러가 발생한 경우, 본 실시형태에서는 이하와 같이 대응하도록 되어 있다. 도 3∼도 6을 참조하여 구체적으로 설명한다.
도 3은 에러 발생시에 송수신되는 신호를 설명하는 도이다. 상기 도 3은 어드레스 크로스바(30#1)에 에러가 발생한 경우이다. 이러한 점에서, 상기 크로스바(30#1)에 에러가 발생한 경우를 상정하여 이후의 설명도 행한다.
에러가 발생한 어드레스 크로스바(30#1)는 그 취지를 통지하기 위한 에러 통지 신호(S1)를 매니지먼트 보드(50)로 송신하며, 자신을 시스템으로부터 분리할 것을 요구하기 위한 GAC#1 분리 지시 신호(S2)를 각 시스템 보드(10) 및 각 IO 유닛(20)으로 송신한다.
에러 통지 신호(S1)로서 매니지먼트 보드(50)로 송신된 정보는, 레지스터(52)에 저장된다. 매니지먼트 보드(50)의 제어부(50)는 레지스터(50)에 저장된 정보에 의해 어드레스 크로스바(30#1)에서의 에러의 발생을 확인하면, 이중화를 위한 이중화 모드로부터 독립적으로 동작시키기 위한 단일화 모드로 모드 변경시키기 위한 설정 신호(S4)를 생성하여, 에러가 발생하지 않은 어드레스 크로스바(30#0)에 송신한다. 이에 따라, 상기 신호(S4)를 수신한 어드레스 크로스바(30#0)는 이후, 단일화 모드로 동작한다.
도 6은 설정된 모드 및 발생한 에러가 영향을 주는 범위에 의한 에러에의 대응을 설명하는 도이다.
도 6에 나타낸 바와 같이, 단일화 모드로 동작하는 어드레스 크로스바(30)는 시스템 전체에 영향을 주는 에러가 발생하지 않는 한, 동작은 정지되지 않는다. 발생한 에러가 그와 같은 것이 아니라면, 발생한 에러가 영향을 주는 파티션에 대응하는 부분만 정지(다운)시키고, 다른 부분의 동작을 계속시킨다. 시스템 전체에 영향을 주는 에러가 발생한 경우에는, 그 취지를 매니지먼트 보드(50)에 보고하여 동작을 전체적으로 정지시킨다. 그와 같이 하여, 불필요한 동작의 정지는 행해지지 않으므로, 처리를 행할 수 있는 파티션은 계속하여 처리를 행할 수 있다. 처리를 행할 수 없는 파티션을 구성하는 유닛(10, 20)의 정지(다운)는 매니지먼트 보드(50)에 의해 행해진다.
한편, 이중화 모드로 동작하는 어드레스 크로스바(30)에서는, 에러가 영향을 주는 범위에 상관없이 동작을 전체적으로 정지시킨다. 이러한 점에서, 에러가 발생하지 않는 어드레스 크로스바(30)를 이중화 모드로 동작시키는 경우에 비해, 에러 내성이 향상하며, 이에 따라 시스템의 보다 높은 가동율을 실현시킬 수 있다.
도 4는 어드레스 크로스바(30)의 구성을 설명하는 도이다.
크로스바(30)는, 도 4에 나타낸 바와 같이, 내부에 LSI(31)가 탑재되고, 상기 LSI(31) 상에는, 구성 설정 레지스터(32), 복수의 제어부(33), 에러 레지스터(34) 및 에러 처리부(35)가 탑재되어 있다. 구성 설정 레지스터(32)는 각종 설정 변경을 행하기 위한 레지스터이며, 설정 변경은 그에 저장된 내용을 재기록함으로써 행해진다. 각 제어부(33)는 각각, 대응하는 유닛 사이의 통신을 실현시키기 위한 것이며, 각 제어부(33)에는, 복수의 에러 검출 기능이나, 각 유닛(10 및 20)으로부터 발행된 요청 중의 하나를 선택하기 위한 조정 회로, 유닛 사이의 통신을 실 현시키기 위한 통신 회로 등이 탑재되어 있다. 에러 검출 기능에 의해 검출된 에러에 관한 정보는 에러 레지스터(34)에 저장한다. 에러 처리부(35)는 에러 레지스터(34)에 저장된 정보에 의해, 발생한 에러에 대응하기 위한 처리를 행한다. 상기 처리의 실행에 의해, 발생한 에러를 매니지먼트 보드(50)로 통지하기 위한 에러 통지 신호(S1)의 송신 및 시스템으로부터 분리할 것을 요구하기 위한 분리 지시 신호(S2)의 각 유닛(10 및 20)으로의 송신이 실현된다.
그 지시 신호(S2)는 각 유닛(10 및 20)에 각각 탑재된 LSI(11 및 21)로 송신된다. LSI(11 및 21)는 각각, 예컨대 도 2에 나타내는 구성에서는 노스 브릿지(103), 사우스 브릿지(201)에 대응하는 것이다. 이들 LSI(11 및 21)가 지시 신호(S2)를 수취함으로써, 상기 지시 신호(S2)를 송신한 어드레스 크로스바(30)는 분리되게 된다.
도 5는 어드레스 크로스바(30#1)에 에러가 발생한 경우에, 각부가 실행하는 처리의 흐름을 나타내는 흐름도이다. 다음에 도 5를 참조하여, 에러가 발생한 크로스바(30#1)를 포함하는 각부의 동작에 대해 구체적으로 설명한다. 상기 도 5에서는, 도 10과 동일하게, 각부를 시스템 보드(10) 및 IO 유닛(20)(도면 중「SB/IOU」로 표기), 어드레스 크로스바(30#0)(도면 중「GAC#0」으로 표기), 어드레스 크로스바(30#1)(도면 중「GAC3#1」으로 표기) 및 매니지먼트 보드(50)(도면 중「MMB」로 표기)의 4개로 나누고 있다.
어드레스 크로스바(30#1)는 제어부(33) 중의 어느 하나가 에러의 발생을 인식(검출)하면, 에러 처리부(35)가 에러 통지 신호(S1)를 매니지먼트 보드(50)로, 에러 분리 지시 신호(S2)(도면 중「GAC#1분리 신호」로 표기)를 각 시스템 보드(1) 및 각 IO 유닛(2)으로 각각 송신한다(SA11). 그 후, 동작을 정지시킨다(SA2).
각 시스템 보드(10) 및 각 IO 유닛(20)에 각각 탑재된 LSI(11 및 21)는 GAC#1 분리 지시 신호(S2)의 수신에 응답하여, 어드레스 크로스바(30#1)를 시스템으로부터 분리하는 동작(처리)을 행한다(SC11). 그 후에는, 분리한 크로스바(30#1)를 사용하지 않는다는 점을 제외하고, 지금까지와 동일한 동작을 계속한다(SC12).
매니지먼트 보드(50)에서는, 제어부(52)가 레지스터(52)를 통해 에러 통지 신호(S1)를 수신하면, 에러가 발생하지 않는 어드레스 크로스바(30#0)의 모드 설정을 이중화 모드로부터 단일화 모드로 변경하는 결정을 행하고, 그것을 위한 설정 신호(S4)를 생성하여 그 크로스바(30#0)에 송신한다(SD11).
어드레스 크로스바(30#0)에 송신된 설정 신호(S4)는, 구성 설정 레지스터(32)에 저장되며, 각 제어부(33)는 상기 레지스터(32)의 내용을 참조하여, 모드 설정을 이중화 모드로부터 단일화 모드로 변경한다(SB11). 이에 따라, 그 후의 각 제어부(33)는 단일화 모드로 동작을 계속한다(SB12).
또한, 본 실시형태에서는, 이중화한 어드레스 크로스바(30) 중의 한쪽에 에러가 발생한 경우, 다른쪽의 어드레스 크로스바(30)의 모드 변경을 매니지먼트 보드(50)에 의해 행하도록 하고 있지만, 이것은, 매니지먼트 보드(50)가 각 유닛(10∼40)과 통신이 가능하기 때문이다. 즉, 사양의 변경을 억제하면서 대응이 가능이기 때문이다. 그러나, 매니지먼트 보드(50)를 이용하지 않는 방법에 의해 그 모드 변경을 실현시켜도 좋다. 예컨대 도 7에 나타낸 바와 같이, 2개의 어드레스 크로스 바(30) 사이에서 신호를 송수신 가능하게 하여, 에러가 발생한 어드레스 크로스바(30)[여기서는 크로스바(30#1)]로부터 다른 어드레스 크로스바(30)로, 에러의 발생을 통지하는 신호(S11)를 송신함으로써, 상기 신호(S11)를 수신한 크로스바(30)에 모드 변경을 행하여도 좋다. 또는 도 8에 나타낸 바와 같이, 예컨대 분리 지시 신호(S2)를 수신한 시스템 보드(10)로 하여금, 또 다른 어드레스 크로스바(30)에 에러가 발생했음을 통지하는 신호(S21)를, 상기 지시 신호(S2)를 송신하지 않는 정상의 어드레스 크로스바(30)에 송신시킴으로써, 모드 변경을 행하도록 하여도 좋다. 상기 신호(S21)가 송신되는 시스템 보드(10), 또는 IO 유닛(20)은, 예컨대 미리 우선순위를 정하고, 정상적으로 동작하고 있는 것 중에서 가장 우선순위가 높은 것을 선택하도록 하여도 좋다. 어드레스 크로스바(30)의 모드 변경용의 전용 유닛을 설치하여, 상기 전용 유닛을 통해 모드 변경을 실현시켜도 좋다.
또한 본 실시형태에서는, 어드레스 크로스바(30)를 이중화하고 있지만, 삼중화, 또는 그 이상의 다중화를 행하는 것도 생각될 수 있다. 삼중화 이상의 다중화를 행하고 있는 경우에는, 예컨대 이중화 이상의 다중화를 행하지 않게 된 상황 하에서, 에러가 발생하지 않는 어드레스 크로스바(30)의 모드 변경을 행하면 좋다. 어드레스 크로스바(30)에 의해 상호 접속되는 유닛으로서는, 시스템 보드(10) 및 IO 유닛(20)에 한정되지 않는다. 그 종류 및 조합은 임의로 변경하여도 좋다.
본 발명에서는, 실장된 유닛(처리 유닛) 사이의 접속에 복수의 크로스바(크로스바 유닛)를 배치하여 상기 복수의 크로스바를 이중화를 위한 제1 모드(이중화 모드)로 동작시키고 있었던 경우에, 상기 복수의 크로스바 중의 하나에서 발생한 에러에 의해, 상기 에러가 영향을 주는 다른 크로스바의 모드 설정을 제1 모드로부터 독립적으로 동작시키기 위한 제2 모드(단일화 모드)로 모드 변경한다.

Claims (6)

  1. 하나 이상의 CPU를 탑재한 시스템 보드 및 주변 장치와의 접속용 IO 유닛을 실장가능한 처리 유닛으로 하는 데이터 처리 장치에 있어서,
    상기 처리 유닛 사이의 접속에 채용된, 복수 모드에 의해 동작 가능한 복수의 크로스바와;
    상기 복수의 크로스바를 이중화를 위한 제1 모드로 동작시키고 있었던 경우에, 상기 복수의 크로스바 중의 하나에서 발생한 에러에 의해, 상기 에러가 영향을 주는 다른 크로스바의 모드 설정을 상기 제1 모드로부터 독립적으로 동작시키기 위한 제2 모드로 변경하는 모드 변경 수단
    을 포함하고,
    상기 제1 모드로 동작하는 크로스바에 에러가 발생한 경우, 전체적인 동작을 정지시키며, 상기 제2 모드로 동작하는 크로스바에 에러가 발생한 경우, 발생한 에러가 영향을 주는 부분만을 정지시키는 것을 특징으로 하는 데이터 처리 장치.
  2. 제1항에 있어서, 상기 모드 변경 수단은, 상기 복수의 크로스바 중에서 에러가 발생한 크로스바로부터, 상기 에러의 발생을 통지하는 에러 통지 신호를 수신하며, 상기 제1 모드로부터 상기 제2 모드로 변경하기 위한 설정 신호를 상기 다른 크로스바에 송신함으로써, 상기 다른 크로스바의 모드 변경을 행하는 것을 특징으로 하는 데이터 처리 장치.
  3. 제1항에 있어서, 상기 모드 변경 수단은, 상기 복수의 크로스바 중에서 에러가 발생한 크로스바로부터, 상기 에러의 발생을 통지하는 신호를 상기 다른 크로스바로 송신시켜, 상기 다른 크로스바에서 모드 변경을 행하게 함으로써 실현시키는 것을 특징으로 하는 데이터 처리 장치.
  4. 하나 이상의 CPU를 탑재한 시스템 보드 및 주변 장치와의 접속용 IO 유닛을 실장가능한 처리 유닛으로 하는 데이터 처리 장치에 탑재되는 장치로서,
    상기 처리 유닛 사이의 접속에 채용된, 복수 모드에 의해 동작 가능한 복수의 크로스바와 각각 송수신할 수 있는 송수신 수단과;
    이중화를 위한 제1 모드로 동작하고 있던 상기 복수의 크로스바 중의 하나로부터 에러의 발생을 통지하는 에러 통지 신호를 상기 송수신 수단이 수신한 경우, 상기 에러가 영향을 주는 다른 크로스바의 모드 설정을 상기 제1 모드로부터 독립적으로 동작시키기 위한 제2 모드로 변경하기 위한 설정 신호를 상기 송수신 수단에 의해 상기 다른 크로스바에 송신시켜, 상기 다른 크로스바의 모드 변경을 행하는 모드 제어 수단
    을 포함하고,
    상기 제1 모드로 동작하는 크로스바에 에러가 발생한 경우, 전체적인 동작을 정지시키며, 상기 제2 모드로 동작하는 크로스바에 에러가 발생한 경우, 발생한 에러가 영향을 주는 부분만을 정지시키는 것을 특징으로 하는 모드 관리 장치.
  5. 하나 이상의 CPU를 탑재한 시스템 보드 및 주변 장치와의 접속용 IO 유닛을 실장가능한 처리 유닛으로 하는 데이터 처리 장치에서 상기 유닛 사이의 접속에 채용된 크로스바의 모드 관리에 이용되는 방법으로서,
    상기 처리 유닛 사이의 접속에 복수의 크로스바를 배치하여 상기 복수의 크로스바를 이중화를 위한 제1 모드로 동작시키는 단계와,
    상기 복수의 크로스바 중의 하나에서 발생한 에러에 의해, 상기 에러가 영향을 주는 다른 크로스바의 모드 설정을 상기 제1 모드로부터 독립적으로 동작시키기 위한 제2 모드로 모드 변경하는 단계
    를 포함하고,
    상기 제1 모드로 동작하는 크로스바에 에러가 발생한 경우, 전체적인 동작을 정지시키며, 상기 제2 모드로 동작하는 크로스바에 에러가 발생한 경우, 발생한 에러가 영향을 주는 부분만을 정지시키는 것을 특징으로 하는 모드 관리 방법.
  6. 각각이 처리부를 탑재하는 복수의 처리 유닛과;
    각각이 상기 복수의 처리 유닛에 접속되고, 상기 복수의 처리 유닛 사이의 데이터 전송에 개재하며, 동작 모드가 이중화 모드와 단일화 모드 사이에서 전환되는, 이중화된 복수의 크로스바 유닛과;
    상기 이중화된 복수의 크로스바 유닛 중의 하나에 에러가 발생한 경우, 동작 모드를 이중화 모드로부터 단일화 모드로 전환하는 지시를 다른 크로스바 유닛에 송출하는 모드 변경 수단
    을 포함하고,
    상기 이중화 모드로 동작하는 크로스바에 에러가 발생한 경우, 전체적인 동작을 정지시키며, 상기 단일화 모드로 동작하는 크로스바에 에러가 발생한 경우, 발생한 에러가 영향을 주는 부분만을 정지시키는 것을 특징으로 하는 데이터 처리 장치.
KR20070049764A 2006-08-18 2007-05-22 데이터 처리 장치, 모드 관리 장치 및 모드 관리 방법 KR100936203B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006223663A JP4755050B2 (ja) 2006-08-18 2006-08-18 データ処理装置、モード管理装置、及びモード管理方法
JPJP-P-2006-00223663 2006-08-18

Publications (2)

Publication Number Publication Date
KR20080016438A KR20080016438A (ko) 2008-02-21
KR100936203B1 true KR100936203B1 (ko) 2010-01-11

Family

ID=38669390

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20070049764A KR100936203B1 (ko) 2006-08-18 2007-05-22 데이터 처리 장치, 모드 관리 장치 및 모드 관리 방법

Country Status (6)

Country Link
US (1) US7823027B2 (ko)
EP (1) EP1890439B1 (ko)
JP (1) JP4755050B2 (ko)
KR (1) KR100936203B1 (ko)
CN (1) CN101126994B (ko)
DE (1) DE602007002956D1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2482194B1 (en) 2009-09-25 2013-12-25 Fujitsu Limited Memory system and memory system control method
WO2012032653A1 (ja) * 2010-09-10 2012-03-15 富士通株式会社 処理システム,通信装置および処理装置
KR101250881B1 (ko) * 2011-04-07 2013-04-04 주식회사 넥스알 클라우드 컴퓨팅의 블럭 스토리지 서비스의 데이터 이중화 방법
EP2866147B1 (en) * 2012-06-25 2016-08-31 Fujitsu Limited Information processing device and method for detecting failure of information processing device
KR102210408B1 (ko) * 2014-03-26 2021-01-29 에스케이텔레콤 주식회사 가상화 서버의 이중화를 위한 제어 방법 및 이를 위한 가상화 제어 장치
US9501222B2 (en) 2014-05-09 2016-11-22 Micron Technology, Inc. Protection zones in virtualized physical addresses for reconfigurable memory systems using a memory abstraction

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6195351B1 (en) * 1998-01-28 2001-02-27 3Com Corporation Logical switch set

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4627054A (en) 1984-08-27 1986-12-02 International Business Machines Corporation Multiprocessor array error detection and recovery apparatus
US4644353A (en) * 1985-06-17 1987-02-17 Intersil, Inc. Programmable interface
EP0598027A1 (en) * 1991-08-05 1994-05-25 Honeywell Inc. Crossbar with return net for scalable self-routing non-blocking message switching and routing system
JP2529081B2 (ja) 1993-09-01 1996-08-28 財団法人工業技術研究院 耐酸化性ポリフェニレンスルフィド系組成物の製造法
US5754865A (en) 1995-12-18 1998-05-19 International Business Machines Corporation Logical address bus architecture for multiple processor systems
EP0961442B1 (en) 1998-05-29 2004-09-29 International Business Machines Corporation Switching architecture comprising two switch fabrics
JP3729694B2 (ja) * 1999-10-29 2005-12-21 富士通株式会社 Adslモデム
JP2001256203A (ja) * 2000-03-09 2001-09-21 Nec Corp 冗長構成クロスバスイッチシステム
CA2347556A1 (en) * 2001-05-10 2002-11-10 Bombardier Inc. Unknown
US6871294B2 (en) * 2001-09-25 2005-03-22 Sun Microsystems, Inc. Dynamically reconfigurable interconnection
US6898728B2 (en) * 2001-09-25 2005-05-24 Sun Microsystems, Inc. System domain targeted, configurable interconnection
JP2005196683A (ja) * 2004-01-09 2005-07-21 Hitachi Ltd 情報処理システム、情報処理装置、及び情報処理システムの制御方法
JP2005267502A (ja) * 2004-03-22 2005-09-29 Hitachi Ltd データ転送用スイッチ
US7290169B2 (en) * 2004-04-06 2007-10-30 Hewlett-Packard Development Company, L.P. Core-level processor lockstepping
JP3988146B2 (ja) * 2004-07-27 2007-10-10 日本電気株式会社 マルチノードシステム、ノード間クロスバスイッチ、ノード、スイッチプログラム及びノードプログラム
KR100603599B1 (ko) * 2004-11-25 2006-07-24 한국전자통신연구원 이중화된 스위치 보드의 이중화 제어장치 및 그 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6195351B1 (en) * 1998-01-28 2001-02-27 3Com Corporation Logical switch set

Also Published As

Publication number Publication date
CN101126994B (zh) 2010-08-18
DE602007002956D1 (de) 2009-12-10
JP2008046996A (ja) 2008-02-28
KR20080016438A (ko) 2008-02-21
US20080046629A1 (en) 2008-02-21
US7823027B2 (en) 2010-10-26
CN101126994A (zh) 2008-02-20
EP1890439A1 (en) 2008-02-20
JP4755050B2 (ja) 2011-08-24
EP1890439B1 (en) 2009-10-28

Similar Documents

Publication Publication Date Title
US6131169A (en) Reliability of crossbar switches in an information processing system
US6970972B2 (en) High-availability disk control device and failure processing method thereof and high-availability disk subsystem
KR100985926B1 (ko) 메모리 시스템 컴포넌트들 사이에서 신호들을 리라우팅하는시스템 및 방법
US6378021B1 (en) Switch control method and apparatus in a system having a plurality of processors
JP2558393B2 (ja) 多重クラスタ信号プロセッサ
US8332729B2 (en) System and method for automatic communication lane failover in a serial link
US7633856B2 (en) Multi-node system, internodal crossbar switch, node and medium embodying program
US7844852B2 (en) Data mirror cluster system, method and computer program for synchronizing data in data mirror cluster system
US8924772B2 (en) Fault-tolerant system and fault-tolerant control method
KR100936203B1 (ko) 데이터 처리 장치, 모드 관리 장치 및 모드 관리 방법
US6374322B1 (en) Bus controlling system
US20060212619A1 (en) Data processing system
US20040059862A1 (en) Method and apparatus for providing redundant bus control
JPS59106056A (ja) フエイルセイフ式デ−タ処理システム
US20050015529A1 (en) Duplexing system and method using serial-parallel bus matching
JPH11249814A (ja) スイッチ機構およびこれを有するディスクアレイ装置およびコンピュータシステム
EP1988469B1 (en) Error control device
CN104933001A (zh) 一种基于RapidIO技术的双控制器数据通信方法
JP6394727B1 (ja) 制御装置、制御方法、及び、フォールトトレラント装置
KR100938612B1 (ko) 전송 장치, 전송 장치를 갖는 정보 처리 장치 및 제어 방법
JP4096849B2 (ja) 回線多重化構造を用いた入出力制御システム
KR960014697B1 (ko) 이중화 프로세서 보드의 이중화 제어방법 및 그 장치
JPS5979330A (ja) 入出力制御装置の2重化システム
JPH04338838A (ja) バス二重化システム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121227

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20131218

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20141230

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20151217

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20161220

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee