KR100995621B1 - 에러 제어 장치 - Google Patents

에러 제어 장치 Download PDF

Info

Publication number
KR100995621B1
KR100995621B1 KR1020087020491A KR20087020491A KR100995621B1 KR 100995621 B1 KR100995621 B1 KR 100995621B1 KR 1020087020491 A KR1020087020491 A KR 1020087020491A KR 20087020491 A KR20087020491 A KR 20087020491A KR 100995621 B1 KR100995621 B1 KR 100995621B1
Authority
KR
South Korea
Prior art keywords
error
packet
data
information processing
detected
Prior art date
Application number
KR1020087020491A
Other languages
English (en)
Other versions
KR20080087174A (ko
Inventor
히로시 무라카미
요시히로 구사노
고우 스기자키
사토시 나카가와
Original Assignee
후지쯔 가부시끼가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후지쯔 가부시끼가이샤 filed Critical 후지쯔 가부시끼가이샤
Publication of KR20080087174A publication Critical patent/KR20080087174A/ko
Application granted granted Critical
Publication of KR100995621B1 publication Critical patent/KR100995621B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/004Arrangements for detecting or preventing errors in the information received by using forward error control
    • H04L1/0045Arrangements at the receiver end
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/004Arrangements for detecting or preventing errors in the information received by using forward error control
    • H04L1/0072Error control for data other than payload data, e.g. control data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L2001/0092Error control systems characterised by the topology of the transmission link
    • H04L2001/0097Relays

Abstract

크로스바 모듈(2)에는 복수의 시스템 보드 모듈(1)이 접속되어 있다. 에러 검출부(11)는 대응하는 시스템 보드 모듈(1)로부터 수신한 패킷의 에러를 검출한다. 전송 제어부(13)는 에러 검출부(11)에 의해 에러가 검출되면, 보완 데이터 생성 요구를 발행한다. 패킷 보완부(12)는, 보완 데이터 생성 요구를 수취하면, 보완 데이터를 생성한다. 셀렉터 회로(14)는, 에러 패킷을 수신하면, 에러 요소를 포함한 데이터 유닛을 보완 데이터로 대체한 보완 패킷을 출력한다.

Description

에러 제어 장치{ERROR CONTROL DEVICE}
본 발명은 복수의 정보 처리 모듈을 서로 접속하는 상호 접속 장치에 관한 것으로서, 특히, 그 상호 접속 장치에 있어서 검출되는 에러를 제어하는 기술에 관한 것이다.
종래부터, 복수의 정보 처리 모듈을 서로 접속하여 대규모 서버 시스템을 실현하는 구성이 알려져 있다. 여기서, 각 정보 처리 모듈은 각각 CPU 및 메모리를 구비하고, 부여된 프로그램에 대응하는 정보 처리를 할 수 있다. 그리고, 서로 접속하는 정보 처리 모듈의 개수를 늘림으로써, 서버 시스템을 확장할 수 있다.
복수의 정보 처리 모듈은 상호 접속 장치로서의 크로스바 모듈에 의해 서로 접속된다. 크로스바 모듈은 정보 처리 모듈 사이에서 정보(여기서는, 정보를 저장한 패킷)를 중계/전송한다.
상기 구성의 서버 시스템에서, 고장난 정보 처리 모듈로부터 패킷이 송출된 경우, 혹은 정보 처리 모듈과 크로스바 모듈 사이의 버스가 단선된 경우 등에는, 부정 또는 부적절한 패킷(이하, 에러 패킷)이 크로스바 모듈에 입력되게 된다. 그러나, 종래의 대부분의 크로스바 모듈은 에러 패킷을 처리하기 위한 기능을 구비하고 있지 않았다. 이 때문에, 에러 패킷에 의한 영향이 크로스바 모듈 내의 회로 요 소 및/또는 다른 정보 처리 모듈에 미쳐 이후의 동작을 계속할 수 없게 될 우려가 있다. 이 경우, 서버 시스템 전체(또는, 서버 시스템 내의 대부분의 회로 요소)를 일단 정지하고, 고장 개소를 조사 및 수리한 후에 재기동해야 한다.
크로스바 모듈 내에 에러 패킷을 검출하는 기능을 마련한 구성도 알려져 있다. 이 시스템에서는, 에러 패킷을 검출하면, 소프트웨어 처리에 의해 그 에러 패킷을 송출한 정보 처리 모듈의 동작을 정지한다. 그러나, 이 구성에서는, 에러 패킷 자체는 폐기되지 않고 전송되어 버리기 때문에, 에러가 확산될 우려가 있다. 또한, 에러 패킷을 송출한 정보 처리 모듈의 동작을 정지할 때까지 에러 패킷이 더 송출될 우려도 있다.
또한, 최근의 대부분의 대규모 서버 시스템은 CPU 및 메모리 등의 컴퓨터 자원을 복수의 그룹(이하, 파티션)으로 분할하고, 가상적으로 독립된 복수의 컴퓨터로서 동작시키는 파티셔닝 기능을 도입하고 있다. 그리고, 이 파티셔닝 기능은 예컨대 복수의 정보 처리 모듈을 그룹화함으로써 실현된다. 그러나, 종래 기술에 있어서는, 에러 패킷에 의한 영향이 파티션을 넘어 확산되고, 서버 시스템 전체(또는, 서버 시스템 내의 대부분의 회로 요소)가 정지할 우려가 있다. 이 경우, 서버 시스템의 안정 가동이 장시간에 걸쳐 저해되게 된다.
본 발명의 목적은 복수의 정보 처리 모듈을 구비한 정보 처리 시스템에서, 발생한 에러의 영향이 미치는 범위를 가능한 한 작게 하는 것이다.
본 발명의 에러 제어 장치는 복수의 정보 처리 모듈을 서로 접속하는 상호 접속 장치에 설치되고, 입력 패킷의 에러를 검출하는 에러 검출 수단과, 상기 패킷에서 에러가 검출된 위치에 따라 보완 데이터를 생성하는 보완 데이터 생성 수단과, 상기 에러가 검출된 데이터 유닛 및 그의 후속 데이터 유닛을 상기 보완 데이터로 대체한 보완 패킷을 출력하는 출력 수단을 갖는다.
상기 에러 제어 장치에 따르면, 상호 접속 장치 내의 회로 요소 및 수신처 정보 처리 모듈에 에러 패킷이 전송되는 일은 없다. 이 때, 에러 패킷 대신에 에러 요소를 포함한 데이터가 보완 데이터로 대체된 보완 패킷이 전송된다. 따라서, 상호 접속 장치 내의 회로 요소 및 수신처 정보 처리 모듈에 미치는 에러의 영향을 최소한으로 그치게 할 수 있다.
본 발명의 다른 형태의 에러 제어 장치는 복수의 정보 처리 모듈을 서로 접속하는 상호 접속 장치에 설치되고, 입력 패킷을 일시적으로 유지하는 유지 수단과, 상기 패킷의 에러를 검출하는 에러 검출 수단과, 상기 패킷의 전체 범위에 걸쳐 에러가 검출되지 않을 때에만 상기 유지 수단으로부터 패킷을 독출하여 수신처 정보 처리 모듈에 출력하는 출력 수단을 갖는다.
상기 에러 제어 장치에 따르면, 상호 접속 장치 내의 회로 요소 및 수신처 정보 처리 모듈 에러 패킷이 전송되는 것을 확실하게 막을 수 있다.
도 1은 본 발명의 실시 형태의 에러 검출 장치를 구비한 정보 처리 장치의 구성을 도시한 도면이다.
도 2는 파티션 테이블의 실시예이다.
도 3은 보완 동작에 대해서 설명한 도면이다.
도 4는 셀렉터 회로의 실시예이다.
도 1은 본 발명의 실시 형태의 에러 제어 장치를 구비한 정보 처리 장치의 구성을 도시한 도면이다. 또한, 이하의 설명에서는, 정보 처리 장치는, 도시되지 않은 클라이언트로부터의 요구에 따라 대응하는 정보 처리를 실행하는 서버 시스템(100)인 것으로 한다.
서버 시스템(100)은 복수의 시스템 보드 모듈(SB)(1), 크로스바 모듈(XB)(2), 시스템 제어부(3)를 구비한다.
각 시스템 보드 모듈(1)은 각각 CPU, 메모리, 송신 I/F부, 수신 I/F부를 구비한 정보 처리 모듈이다. 이 실시예에서는, 서버 시스템(100)은 N+1개의 시스템 보드 모듈(#0∼#N)을 구비하고 있다. 또한, 도 1에서는, 도면을 알아보기 쉽게 하기 위해서 CPU 및 메모리 등은 생략되어 있고, 각 시스템 보드 모듈(1)의 송신 I/F부 및 수신 I/F부만이 기재되어 있다. 그리고, 각 시스템 보드 모듈(1)은 원하는 1 또는 복수의 수신처 시스템 보드 모듈에 패킷을 송신할 수 있다.
크로스바 모듈(2)은 복수의 시스템 보드 모듈(1)이 접속되어 있고, 이들 사이에서 패킷을 전송하는 기능을 제공한다. 크로스바 모듈(2)은 이러한 기능을 제공하기 위해서 복수의 수신부(#0∼#10)(10) 및 복수의 송신부(#0∼#N)(20)를 구비한다. 각 수신부(10)는 각각 고유하게 대응하는 시스템 보드 모듈(1)의 송신 I/F부에 접속되어 있고, 또한, 각 송신부(20)는 각각 고유하게 대응하는 시스템 보드 모 듈(1)의 수신 I/F부에 접속되어 있다. 그리고, 수신부(10)는 시스템 보드 모듈(1)의 송신 I/F부로부터 수신한 패킷을, 그 수신처에 대응하는 1 또는 복수의 송신부(20)로 전송한다. 이러한 구성에 의해, 시스템 보드 모듈(1) 사이의 패킷 전송이 실현된다.
시스템 제어부(3)는 서버 시스템(100)의 전체 동작을 제어한다. 또한, 시스템 제어부(3)는 본 발명의 에러 제어에 관계된 동작의 하나로서, 축퇴(縮退) 제어를 실행할 수 있다. 즉, 시스템 제어부(3)는 후술하는 에러 검출부(11)에 의해 에러 패킷이 검출되면, 그 에러 패킷을 송출한 시스템 보드 모듈(1)에 대하여 축퇴 지시를 보낼 수 있다. 이 경우, 축퇴 지시를 수취한 시스템 보드 모듈(1)은 축퇴 해제 지시를 수취할 때까지, 모든 또는 일부의 패킷의 송출을 정지한다.
상기 구성의 서버 시스템(100)은 파티셔닝 기능을 제공한다. 이 실시예에서는, 시스템 보드 모듈(#0, #1)이 파티션 A에 속하고, 시스템 보드 모듈(#2∼#N)이 파티션 B에 속해 있다. 파티션은 도 2에 도시된 파티션 테이블에 의해 정의된다. 이 파티션 테이블은 시스템 제어부(3)에 의해 관리되며, 또한, 각 수신부(10)에 배포된다. 각 수신부(10)는 배포된 파티션 테이블에 따라 패킷의 수신처를 체크하기 위한 하드웨어 회로(예컨대, 레지스터)의 설정을 행한다. 그리고, 각 수신부(10)는, 이 하드웨어 회로를 이용하여 상이한 파티션간의 패킷 전송을 금지한다. 또한, 도 1에 있어서, 수신부(10)와 송신부(20) 사이를 접속하는 실선은 패킷의 전송이 허가되어 있는 경로이고, 파선은 파티셔닝 기능에 의해 패킷의 전송이 금지되어 있는 경로이다. 이 기능에 의해 각 파티션에 속하는 시스템 보드 모듈은 서로 독립된 컴퓨터로서 동작할 수 있다.
크로스바 모듈(2)을 통해 전송되는 패킷은 기본적으로 도 3에 도시된 바와 같이 헤더(HD) 및 데이터 유닛(D0∼D7)을 포함하여 구성된다. 여기서, 데이터 유닛의 갯수는 특별히 한정되지 않는다. 또한, 데이터 유닛을 포함하지 않는 패킷을 전송하는 것도 가능하다.
헤더에는 수신처 정보, 타입 정보, 사이클수 정보 등이 저장되어 있다. 수신처 정보는 패킷의 수신처 시스템 보드 모듈을 식별한다. 타입 정보는 패킷 종별을 나타낸다. 또한, 시스템 보드 모듈 사이에서 전송되는 패킷은 수신처 정보에 따라 지정되어 있는 하나의 시스템 보드 모듈에 전송되는 피어-투-피어(peer-to-peer) 패킷 및 파티션 내의 모든 시스템 보드 모듈에 전송되는 브로드캐스트 패킷을 포함한다. CPU로부터 메모리로의 데이터 전송은 기본적으로 피어-투-피어 패킷이 사용된다. 또한, CPU의 캐시 상태를 조사하기 위한 어드레스 스누프(adress snoop)에서는, 브로드캐스트 패킷이 사용된다. 사이클수 정보는 데이터 유닛을 전송하기 위해서 필요한 사이클수를 계산하기 위한 사이클수 정보 등이 저장되어 있다. 여기서, 패킷을 전송하기 위한 버스의 폭이 고정된 경우는, 사이클수 정보는 데이터 유닛의 갯수를 나타내는 정보에 의해 실현된다. 예컨대, 도 3에 도시된 예에서는, 사이클수 정보로서 「8」이 설정되게 된다. 또한, 헤더에는 에러 정정 부호(ECC: Error Correcting Code)가 부여되어 있다.
각 데이터 유닛의 데이터 저장 영역의 크기는 기본적으로 서로 동일하다. 또한, 각 데이터 유닛에는 각각 에러 정정 부호가 부여되어 있다.
다음에, 본 발명에 따른 에러 제어 동작에 대해서 설명한다. 또한, 에러 제어는 주로 각 수신부(10)에서 실행된다.
각 수신부(10)는 각각 에러 검출부(11), 패킷 보완부(12), 전송 제어부(13)를 구비한다. 그리고, 대응하는 시스템 모듈 보드(1)로부터 수신한 패킷은 에러 검출부(11), 패킷 보완부(12), 전송 제어부(13)에 병렬로 부여된다. 또한, 수신부(10)는 기본적으로는 하드웨어 회로에 의해 실현된다. 단, 수신부(10)의 일부 기능을 소프트웨어에 의해 실현하는 것도 가능하다.
에러 검출부(11)는 수신 패킷이 에러 요소를 포함하고 있는지 여부(즉, 에러 패킷인지 여부)를 판단한다. 또한, 에러 패킷은 헤더 또는 데이터가 파괴된 패킷, 부정 또는 부적절한 패킷 등을 포함한다. 또한, 에러 패킷은 예컨대 시스템 보드 모듈(1)이 고장난 경우, 시스템 보드 모듈(1)과 크로스바 모듈(2) 사이의 버스가 단선된 경우 등에 발생한다. 그리고, 에러 검출부(11)는 하기의 에러 (1)∼(4)를 모니터링하여 에러가 검출된 경우에는 그 취지를 시스템 제어부(3) 및 전송 제어부(13)에 통지한다.
(1) ECC 에러를 체크한다. ECC 에러는 헤더 및 각 데이터 유닛의 각각에 대해서 체크된다. 또한, ECC에 의해 에러를 정정할 수 있었을 경우에는 반드시 그 에러를 시스템 제어부(3) 및 전송 제어부(13)에 통지할 필요는 없다.
(2) 패킷의 수신처가 적절한지 여부를 체크한다. 구체적으로는, 예컨대, 패킷의 송신원 시스템 보드 모듈 및 수신처 시스템 보드 모듈이 동일한 파티션에 속해 있는지 여부를 체크한다. 그리고, 송신원 시스템 보드 모듈 및 수신처 시스템 보드 모듈이 다른 파티션에 속해 있었을 경우는, 수신처 에러가 발생하였다고 판단된다. 또한, 수신처 에러의 체크는 기본적으로 피어-투-피어 패킷에 대하여 실행된다.
(3) 타임아웃 에러를 체크한다. 즉, 에러 검출부(11)는 수신 패킷의 헤더를 검출한 타이밍에 타이머를 기동한다. 또한, 에러 검출부(11)는 수신 패킷의 헤더를 해석함으로써 그 패킷의 데이터 유닛의 사이클수를 인식한다. 그리고, 데이터 유닛을 수신할 때마다 타이머를 초기화하고, 소정 시간 내에 후속 데이터 유닛을 수신할 수 없었을 때에는 타임아웃 에러가 발생한 것으로 판단한다.
(4) 수신 패킷의 포맷이 정규 포맷과 상이한 경우, 수신할 필요가 없는 데이터가 포함되어 있었을 경우 등에는 부정 커맨드 에러가 발생한 것으로 판단한다. 또한, 「수신할 필요가 없는 데이터」란 예컨대 패킷 내의 소정의 영역에 소정의 값이 설정되는 것이 규격 등에 따라 정해져 있는 경우에, 그 영역에 다른 값이 기록되어 있는 케이스가 해당한다.
패킷 보완부(12)는 수신 패킷의 헤더를 해석하고, 그 패킷의 데이터 유닛의 사이클수를 검출한다. 검출된 사이클수는 도 3에 도시된 바와 같이 사이클 카운터에 설정된다. 이 실시예에서는, 사이클 카운터에 「8」이 설정되어 있다. 사이클 카운터는 후속 데이터 유닛을 수신할 때마다 1씩 디크리먼트된다. 이 때, 에러 검출부(11)에 의해 에러가 검출되면, 패킷 보완부(12)는 전송 제어부(13)로부터 보완 데이터 생성 요구를 수취한다. 패킷 보완부(12)는 이 요구를 수신한 타이밍에 사이클 카운터의 카운터값을 독출하고, 그 카운터값과 같은 수의 보완 데이터 유닛을 생성한다. 이 실시예에서는, 데이터 유닛(D4)에서 에러가 검출되었을 때, 사이클 카운터의 카운터값은 「4」이다. 따라서, 4개의 보완 데이터 유닛(P1∼P4)이 생성되고 있다. 또한, 사이클 카운터가 「0」까지 디크리먼트되었을 때에는 보완 데이터 유닛은 생성되지 않는다.
보완 데이터 유닛의 데이터 길이는 시스템 보드 모듈(1)로부터 송출되는 패킷에 저장되어 있는 데이터 유닛의 데이터 길이와 동일하다. 여기서는, 각 패킷에 저장되어 있는 각 데이터 유닛의 데이터 길이는 일정하며, 각 보완 데이터 유닛의 데이터 길이도 일정한 것으로 한다. 또한, 각 보완 데이터 유닛의 데이터열의 내용은 특별히 한정되지 않지만, 예컨대, 보완 데이터인 것을 나타내는 미리 정해진 데이터 패턴이다. 그리고, 패킷 보완부(12)는 보완 데이터 유닛과 함께 그 보완 데이터 유닛에 대응하는 에러 정정 부호를 출력한다. 또한, 1세트의 보완 데이터 유닛 및 대응하는 에러 정정 부호를 미리 유지 회로에 유지해 두는 구성을 도입하여도 좋다. 이 경우, 패킷 보완부(12)는 보완 데이터 생성 요구가 부여되면, 그 유지 회로로부터 이들을 필요 횟수만큼 반복 독출하여 출력한다.
전송 제어부(13)는 에러 검출부(11)에서 에러가 검출되면, 전술한 보완 데이터 생성 요구를 패킷 보완부(12)에 보낸다. 또한, 전송 제어부(13)는 도 4에 도시된 셀렉터 회로(14)를 구비한다. 셀렉터 회로(14)의 제1 입력 단자에는 수신 패킷이 부여되고, 제2 입력 단자에는 패킷 보완부(12)가 접속되어 있다. 스위치(SW1)는 에러 검출부(11)에 있어서의 검출 결과를 나타내는 에러 검출 신호에 따라 제1 또는 제2 입력 단자를 선택한다. 이 실시예에서는, 에러가 검출되지 않는 기간에서 제1 입력 단자가 선택되고, 수신 패킷 데이터가 스위치(SW2)로 유도된다. 한편, 에러가 검출되면, 제2 입력 단자가 선택되고, 패킷 보완부(12)에 의해 생성되는 보완 데이터가 스위치(SW2)로 유도된다. 그리고, 스위치(SW2)는 수신 패킷의 헤더에 저장되어 있는 수신처 정보에 따라 출력 단자를 선택한다. 또한, 브로드캐스트 패킷을 수신했을 때에는 스위치(SW2)는 그 패킷의 헤더로부터 검출된 타입 정보에 따라 동일 파티션 내의 모든 시스템 보드 모듈(1)로 패킷 데이터를 유도한다.
도 3에 도시된 예에서는, 데이터 유닛(D4)에서 에러가 검출되고 있다. 이 경우, 셀렉터 회로(14)는 에러가 검출되기 전에는 수신 패킷을 선택하여 출력한다. 즉, 헤더 및 데이터 유닛(D0∼D3)이 출력된다. 계속해서, 데이터 유닛(D4)에서 에러가 검출된 취지의 통지를 수취하면, 전송 제어부(13)는 보완 데이터 생성 요구를 생성하여 패킷 보완부(12)에 보낸다. 이 때, 패킷 보완부(12)의 사이클 카운터는 「4」이다. 따라서, 패킷 보완부(12)는 4개의 보완 데이터 유닛(P1∼P4)을 생성하여 전송 제어부(13)로 송신한다. 그리고, 셀렉터 회로(14)는 스위치(SW1)를 제어하고, 데이터 유닛(D4∼D8) 대신에 보완 데이터 유닛(P1∼P4)을 선택하여 출력한다. 즉, 전송 제어부(13)는 헤더, 데이터 유닛(D0∼D3), 보완 데이터 유닛(P1∼P4)으로 구성되는 보완 패킷을 출력한다. 이 때, 데이터 유닛(D4∼D8)은 폐기되고, 버스 폐색 동작이 실현된다.
이와 같이, 실시 형태의 에러 제어 장치는 에러 패킷을 검출하면, 에러 요소를 포함한 데이터 유닛 및 그 후속 데이터 유닛을 보완 데이터 유닛으로 대체한 보완 패킷을 출력한다. 여기서, 보완 데이터 유닛은 에러 요소를 포함하고 있지 않 다. 따라서, 수신부(10)의 후단에 접속되는 송신부(20) 및 수신처 시스템 보드 모듈(1)은 통상 동작 혹은 정상 동작을 계속할 수 있으며, 에러의 영향이 확산되는 일은 없다.
예컨대, 송신부(20) 및 수신처 시스템 보드 모듈(1)이 타임아웃 에러를 체크하는 기능을 구비하고 있는 것으로 한다. 그리고, 수신부(10)는 어떤 패킷의 헤더를 수신한 후의 소정 시간 내에 데이터 유닛(D0∼D3)은 수신할 수 있지만, 데이터 유닛(D4∼D7)은 수신할 수 없던 것으로 한다. 즉, 수신부(10)에 있어서 타임아웃 에러가 검출된 것으로 한다. 이 경우, 종래의 크로스바 모듈에서는, 수신부(10)는 헤더 및 데이터 유닛(D0∼D3)만을 송신부(20) 및 수신처 시스템 보드 모듈(1)로 전송한다. 따라서, 송신부(20) 및 수신처 시스템 보드 모듈(1)에서도 마찬가지로 타임아웃 에러가 발생하게 된다. 즉, 에러의 영향이 확산되어 버린다. 이것에 대하여, 실시 형태의 에러 제어 장치를 구비한 크로스바 모듈(2)은 전술한 케이스에 있어서는, 헤더 및 데이터 유닛(D0∼D3)에 계속해서 보완 데이터 유닛(P1∼P4)을 송신부(20) 및 수신처 시스템 보드 모듈(1)로 전송한다. 따라서, 송신부(20) 및 수신처 시스템 보드 모듈(1)에 있어서 타임아웃 에러가 발생하는 일은 없다. 또한, 보완 데이터 유닛(P1∼P4)에는 각각 대응하는 에러 정정 부호가 부여되어 있기 때문에, 송신부(20) 및 수신처 시스템 보드 모듈(1)에서 ECC 에러가 발생하는 일도 없다. 즉, 에러의 확산은 막을 수 있다.
다른 예로서, 수신부(10)에서 수신처 에러가 검출된 것으로 한다. 이 경우, 에러 검출부(11)는 에러 검출 신호를 이용하여 수신처 에러가 발생한 취지를 셀렉 터 회로(14)에 통지한다. 그렇게 하면, 셀렉터 회로(14)는 곧바로 스위치(SW2)를 폐색한다. 따라서, 잘못된 수신처 정보를 포함한 패킷이 그 수신처 정보에 따라 잘못된 수신처로 전송되는 것을 막을 수 있다. 즉, 적어도, 어떤 파티션에서 발생한 에러의 영향이 다른 파티션에 미치는 일은 없다.
도 1에 도시된 구성에 있어서, 예컨대, 시스템 보드 모듈(#0)이 고장나면, 그 시스템 보드 모듈(#0)을 포함한 파티션 A에서는 기본적으로 동작을 계속할 수 없게 된다. 그렇게 되면, 파티션 A에 속하는 컴퓨터 자원(주로, 소프트웨어 자원)은 초기화된다. 그러나, 다른 파티션에서는, 파티션 A에서 발생한 에러의 영향을 받지 않고 동작을 계속할 수 있다. 또한, 파티션 A에서는, 고장난 시스템 보드 모듈(#0)을 제외한 다른 시스템 보드 모듈만을 재기동하여 동작을 재개하여도 좋다.
또한, 셀렉터 회로(14)의 스위치(SW2)는 일단 에러가 검출된 후에는 보수 작업이 완료될 때까지의 기간, 모든 패킷 출력을 정지하도록 하여도 좋거나 혹은 특정 종류의 패킷만의 출력을 허가하도록 하여도 좋다. 여기서, 특정 종류의 패킷은 예컨대 유지 보수를 위한 패킷으로서, 헤더에 저장되어 있는 타입 정보에 의해 식별된다.
이와 같이, 실시 형태의 에러 제어 장치를 도입하면, 에러의 영향 범위를 최소한으로 그치게 할 수 있다. 이 결과, 시스템 전체(특히, 다른 파티션의 동작)를 정지하지 않고 안정 가동을 얻을 수 있다. 따라서, 신뢰성이 높은 대규모 서버 시스템을 제공할 수 있게 된다.
또한, 전술한 실시예에서는, 시스템 보드 모듈 사이에서 패킷을 전송하는 구 성을 나타내었지만, 본 발명은 이것에 한정되지 않는다. 즉, 본 발명은 시스템 보드 모듈 사이에서 데이터를 전송하는 구성에 널리 적용할 수 있다.
<다른 실시 형태>
전송 제어부(13)는, 패킷의 헤더를 수신하면, 그 패킷의 최종 데이터 유닛을 대기하지 않고 수신한 데이터 유닛을 순차적으로 대응하는 송신부(20)로 출력할 수 있다. 이것에 대하여, 다른 실시 형태의 에러 제어 장치의 전송 제어부(13)는 패킷 유지부(15)를 구비하고, 최종 데이터 유닛을 수신할 때까지 그 패킷을 유지한다. 그리고, 전송 제어부(13)는, 그 패킷의 전체 사이클에서 에러가 검출되지 않았을 때에, 그 패킷을 대응하는 송신부(10)로 출력한다. 이 구성을 도입하면, 사이클수가 긴 패킷의 전송 효율이 저하되지만, 에러 패킷에 기인한 쓸데없는 트래픽 및 쓸데없는 동작을 막을 수 있다. 또한, 에러의 확산을 확실하게 막을 수 있다.
크로스바 모듈(2)의 각 송신부(20)에 에러 통지 기능을 마련하도록 하여도 좋다. 에러 통지 기능은 크로스바 모듈(2)에서 에러가 검출된 취지를, 고장이 발생한 시스템 보드 모듈(1)에 통지하는 동작을 포함한다. 에러의 통지는 패킷을 이용하여도 좋고, 전용선을 이용하여도 좋다. 에러 통지를 받은 시스템 보드 모듈(1)은 예컨대 이후의 패킷 송출을 정지한다.

Claims (9)

  1. 복수의 정보 처리 모듈을 서로 접속하는 상호 접속 장치에 설치되는 에러 제어 장치로서,
    입력 패킷의 에러를 검출하는 에러 검출 수단과,
    상기 패킷에서 에러가 검출된 위치에 따라 보완 데이터를 생성하는 보완 데이터 생성 수단과,
    상기 에러가 검출된 데이터 유닛 및 그의 후속 데이터 유닛을 상기 보완 데이터로 대체한 보완 패킷을 출력하는 출력 수단
    을 포함하는 에러 제어 장치.
  2. 제1항에 있어서, 상기 입력 패킷은 그 패킷 내에 저장되어 있는 데이터 유닛의 갯수를 나타내는 정보를 포함하고 있고,
    상기 보완 데이터 생성 수단은 상기 에러 검출 수단에 의해 에러가 검출된 데이터 유닛 이후의 데이터 유닛의 갯수를 카운트하여, 그 갯수만큼 보완 데이터를 생성하는 것을 특징으로 하는 에러 제어 장치.
  3. 제1항에 있어서, 상기 복수의 정보 처리 모듈 중의 제1 정보 처리 모듈로부터 송출된 패킷에서 에러가 검출되었을 때에, 이 제1 정보 처리 모듈에 에러의 발생을 통지하는 통지 수단을 더 포함하는 에러 제어 장치.
  4. 복수의 정보 처리 모듈을 서로 접속하는 상호 접속 장치에 설치되는 에러 제어 장치로서,
    입력 패킷을 일시적으로 유지하는 유지 수단과,
    상기 패킷의 에러를 검출하는 에러 검출 수단과,
    상기 패킷의 전체 범위에 걸쳐 에러가 검출되지 않을 때에만, 상기 유지 수단으로부터 패킷을 독출하여 수신처 정보 처리 모듈로 출력하는 출력 수단
    을 포함하는 에러 제어 장치.
  5. 복수의 정보 처리 모듈을 서로 접속하는 상호 접속 장치에 있어서 에러를 제어하는 방법으로서,
    입력 패킷의 에러를 모니터링하는 단계,
    상기 패킷에서 에러가 검출된 위치에 따라 보완 데이터를 생성하는 단계,
    상기 에러가 검출된 데이터 유닛 및 그의 후속 데이터 유닛을 상기 보완 데이터로 대체한 보완 패킷을 출력하는 단계
    를 포함하는 에러 제어 방법.
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
KR1020087020491A 2006-02-24 2006-02-24 에러 제어 장치 KR100995621B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2006/303451 WO2007096987A1 (ja) 2006-02-24 2006-02-24 エラー制御装置

Publications (2)

Publication Number Publication Date
KR20080087174A KR20080087174A (ko) 2008-09-30
KR100995621B1 true KR100995621B1 (ko) 2010-11-22

Family

ID=38437048

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020087020491A KR100995621B1 (ko) 2006-02-24 2006-02-24 에러 제어 장치

Country Status (6)

Country Link
US (1) US8264948B2 (ko)
EP (1) EP1988469B1 (ko)
JP (1) JPWO2007096987A1 (ko)
KR (1) KR100995621B1 (ko)
CN (1) CN101375261A (ko)
WO (1) WO2007096987A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5535471B2 (ja) * 2008-12-05 2014-07-02 エヌイーシーコンピュータテクノ株式会社 マルチパーティション・コンピュータシステム、障害処理方法及びそのプログラム
WO2014136228A1 (ja) * 2013-03-06 2014-09-12 三菱電機株式会社 プログラマブルコントローラ、プログラマブルコントローラシステムおよび実行エラー情報作成方法
US10002638B2 (en) * 2014-09-30 2018-06-19 Viacom International Inc. System and method for time delayed playback

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11168502A (ja) 1997-12-04 1999-06-22 Nec Kofu Ltd 通信障害処理装置及び方法
JP2001007893A (ja) * 1999-06-23 2001-01-12 Nec Kofu Ltd 情報処理システム及びそれに用いる障害処理方式
JP2004013723A (ja) 2002-06-10 2004-01-15 Nec Computertechno Ltd 共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法
JP2006014153A (ja) * 2004-06-29 2006-01-12 Nec Commun Syst Ltd パケットエラー監視型mpegデコーダ、mpeg映像伝送システム及びmpeg映像伝送方法

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5210751A (en) * 1989-09-19 1993-05-11 Nippon Telegraph And Telephone Corporation Signal transmission system capable of performing re-transmission control in units of slots
US5161156A (en) * 1990-02-02 1992-11-03 International Business Machines Corporation Multiprocessing packet switching connection system having provision for error correction and recovery
US5914953A (en) * 1992-12-17 1999-06-22 Tandem Computers, Inc. Network message routing using routing table information and supplemental enable information for deadlock prevention
JPH07264214A (ja) * 1994-02-07 1995-10-13 Fujitsu Ltd インターフェース装置
US6334219B1 (en) * 1994-09-26 2001-12-25 Adc Telecommunications Inc. Channel selection for a hybrid fiber coax network
US5671226A (en) * 1995-02-09 1997-09-23 Mitsubishi Denki Kabushiki Kaisha Multimedia information processing system
JPH09231187A (ja) * 1996-02-22 1997-09-05 Hitachi Ltd 並列計算機のデータ転送方法
JP3862330B2 (ja) * 1996-05-22 2006-12-27 富士通株式会社 半導体記憶装置
KR20000018869A (ko) * 1998-09-03 2000-04-06 서평원 교환기에서 프로세서간의 통신 시스템 및 방법
JP3411234B2 (ja) * 1999-04-26 2003-05-26 沖電気工業株式会社 符号化情報受信復号装置
JP3527873B2 (ja) * 1999-09-03 2004-05-17 松下電器産業株式会社 誤り訂正装置
US6262594B1 (en) * 1999-11-05 2001-07-17 Ati International, Srl Apparatus and method for configurable use of groups of pads of a system on chip
US7106742B1 (en) * 2000-01-13 2006-09-12 Mercury Computer Systems, Inc. Method and system for link fabric error detection and message flow control
JP4010438B2 (ja) 2000-03-03 2007-11-21 富士通株式会社 計算機システムのパケット送受信方法、装置及びパケット送受信プログラム
US6957273B2 (en) * 2000-03-03 2005-10-18 Fujitsu Limited Packet transmitting/receiving method and apparatus for computer system
TW468158B (en) * 2000-06-16 2001-12-11 Ali Corp Disc decoding method and system
US20020075868A1 (en) * 2000-12-18 2002-06-20 Gupta Chandrasekaran Nageswara Network node with multi-medium interfaces
JP3960061B2 (ja) * 2002-01-31 2007-08-15 ソニー株式会社 データ記録媒体、データ記録方法および装置、データ再生方法および装置、データ送信方法およびデータ受信方法
JP2003283539A (ja) * 2002-03-20 2003-10-03 Canon Inc 通信ネットワーク、端末インタフェース装置、ノード装置、伝送制御方法、記憶媒体、及びプログラム
US20030229844A1 (en) * 2002-03-25 2003-12-11 Akash Bansal Graceful degradation of serial channels
JP2004030815A (ja) * 2002-06-27 2004-01-29 Ricoh Co Ltd プログラム、記録媒体、情報処理システム及びコピープロテクト方法
US7315542B2 (en) * 2002-09-30 2008-01-01 Avago Technologies General Ip (Singapore) Pte. Ltd. Handling and discarding packets in a switching subnetwork
US8233392B2 (en) * 2003-07-29 2012-07-31 Citrix Systems, Inc. Transaction boundary detection for reduction in timeout penalties
JP3961517B2 (ja) 2004-07-14 2007-08-22 エヌイーシーコンピュータテクノ株式会社 システム、クロスバ装置及びそれらに用いる障害通知方法
KR100604909B1 (ko) * 2004-10-11 2006-07-28 삼성전자주식회사 가변적인 반복 에러 정정 횟수를 갖는 디지털 신호 처리방법
JP4391954B2 (ja) * 2005-02-18 2009-12-24 富士通株式会社 ファイル制御システムおよびファイル制御装置
JP4603494B2 (ja) * 2006-02-14 2010-12-22 富士通株式会社 伝送装置および学習情報保全方法
JP4984774B2 (ja) * 2006-09-15 2012-07-25 富士通株式会社 Rfタグリーダ及び再送制御方法
JPWO2008050456A1 (ja) * 2006-10-27 2010-02-25 富士通株式会社 コンピュータシステム、データ中継装置およびコンピュータシステム制御方法
WO2008139594A1 (ja) * 2007-05-11 2008-11-20 Fujitsu Limited 無線通信のヘッダ圧縮制御方法並びに無線基地局及び送信装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11168502A (ja) 1997-12-04 1999-06-22 Nec Kofu Ltd 通信障害処理装置及び方法
JP2001007893A (ja) * 1999-06-23 2001-01-12 Nec Kofu Ltd 情報処理システム及びそれに用いる障害処理方式
JP2004013723A (ja) 2002-06-10 2004-01-15 Nec Computertechno Ltd 共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法
JP2006014153A (ja) * 2004-06-29 2006-01-12 Nec Commun Syst Ltd パケットエラー監視型mpegデコーダ、mpeg映像伝送システム及びmpeg映像伝送方法

Also Published As

Publication number Publication date
KR20080087174A (ko) 2008-09-30
EP1988469A4 (en) 2009-09-02
US8264948B2 (en) 2012-09-11
CN101375261A (zh) 2009-02-25
US20080310297A1 (en) 2008-12-18
EP1988469A1 (en) 2008-11-05
WO2007096987A1 (ja) 2007-08-30
EP1988469B1 (en) 2012-07-04
JPWO2007096987A1 (ja) 2009-07-09

Similar Documents

Publication Publication Date Title
US7844730B2 (en) Computer system and method of communication between modules within computer system
US5968189A (en) System of reporting errors by a hardware element of a distributed computer system
US8284655B2 (en) Node apparatus, processing unit, and control frame processing method
US20150171893A1 (en) Reliable, Low Latency Hardware And Software Inter-Process Communication Channel For Safety Critical System
US7120846B2 (en) Data transmission device, data receiving device, data transfer device and method
US5923840A (en) Method of reporting errors by a hardware element of a distributed computer system
KR100995621B1 (ko) 에러 제어 장치
JP2010187244A (ja) 端末装置間のトークン異常検出/回復方式
US20060212749A1 (en) Failure communication method
JP2006229399A (ja) 通信システム、中継ノード及びそれらに用いる通信方法並びにそのプログラム
US8108736B2 (en) Multi-partition computer system, failure handling method and program therefor
US10230625B2 (en) Information processing apparatus, information processing system, and communication device
KR20050002865A (ko) 인피니밴드 채널 어댑터 장애용 리던던시 제공 방법 및 컴퓨터 시스템
US20100208581A1 (en) Data transfer system, data transmitting device, data receiving device and data transfer method
US20100251018A1 (en) Memory access control device, memory access control method and memory access control program
JP5494028B2 (ja) スイッチ装置
JP5544099B2 (ja) コントローラ通信方法およびコントローラ通信装置
EP3012993B1 (en) Communication device
US20090210610A1 (en) Computer system, data relay device and control method for computer system
JP2005159483A (ja) 二重化通信装置
JP4863095B2 (ja) マルチノードコンピュータシステム及びノード間接続装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20131022

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20141021

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee