KR20010072379A - 내고장성 컴퓨터 시스템 - Google Patents

내고장성 컴퓨터 시스템 Download PDF

Info

Publication number
KR20010072379A
KR20010072379A KR1020017001732A KR20017001732A KR20010072379A KR 20010072379 A KR20010072379 A KR 20010072379A KR 1020017001732 A KR1020017001732 A KR 1020017001732A KR 20017001732 A KR20017001732 A KR 20017001732A KR 20010072379 A KR20010072379 A KR 20010072379A
Authority
KR
South Korea
Prior art keywords
event
backup
execution
main
event process
Prior art date
Application number
KR1020017001732A
Other languages
English (en)
Other versions
KR100575497B1 (ko
Inventor
론스트룀미카엘
Original Assignee
클라스 노린, 쿨트 헬스트룀
텔레폰악티에볼라겟엘엠에릭슨(펍)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 클라스 노린, 쿨트 헬스트룀, 텔레폰악티에볼라겟엘엠에릭슨(펍) filed Critical 클라스 노린, 쿨트 헬스트룀
Publication of KR20010072379A publication Critical patent/KR20010072379A/ko
Application granted granted Critical
Publication of KR100575497B1 publication Critical patent/KR100575497B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2097Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements maintaining the standby controller/processing unit updated
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2041Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with more than one idle spare processing component

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

본 발명은 유닛간 통신의 필요성이 감소된 내고장성 컴퓨터 시스템 및 방법에 관한 것이다. 주 시스템은 수신된 명령에 응답하여 이벤트 프로세스를 실행하도록 배치된다. 정상 종료 또는 중단으로 인해, 매 시간 이벤트 프로세스의 실행이 정지되고, 이벤트 발생기는 이벤트 프로세스의 유형 및 이벤트 프로세스를 정지시키는 이유 또는 타이밍을 나타내는 이벤트 메시지를 발생시킨다. 이벤트 메시지는 백업 시스템에 동일한 이벤트 프로세스를 실행하도록 명령하는데 사용된다. 이벤트 메시지가 이벤트 프로세스를 정지시키는 이유 및 타이밍을 또한 지정하기 때문에, 이벤트 프로세스의 실행은 백업 시스템에 복제될 수 있다. 그러므로, 주 시스템 및 적어도 하나의 백업 시스템이 동기된다. 적어도 하나의 대기 시스템이 이벤트 메시지의 시퀀스를 이벤트 로그에 기록하고 주 시스템의 메모리 내용의 기록 보존 사본을 저장하기 위해 제공될 수 있다. 기록 보존 사본을 갖는 이벤트 로그는 주 시스템의 시스템 상태를 복구하는데 사용될 수 있다.

Description

내고장성 컴퓨터 시스템{FAULT TOLERANT COMPUTER SYSTEM}
컴퓨터 또는 컴퓨터 시스템은 금융 시스템 또는 전기 통신 네트워크와 같은 고장 감지 응용으로의 사용이 증가되고 있다. 컴퓨터가 고장이거나 단순한 오류 동작이 있는 경우에 심각한 문제가 발생할 수 있다. 예를 들어, 금융 시스템에서는, 많은 양의 금전이 계정들 사이에서 잘못 이체될 수 있으며, 전기 통신 시스템에서는 통신 라인이 고지 없이 중단될 수 있고, 불필요한 접속이 설정될 수 있거나 시스템이 연장된 시간 주기동안 완전히 정지할 수도 있다. 명백하게도, 이러한 문제들을 회피하는 것이 바람직하다.
상기 문제를 극복하는 공지된 방법은 1대1을 기초로 컴퓨터 시스템을 복제하여 컴퓨터 시스템이 모두 동일한 명령의 시퀀스를 실행하게 만드는 것이다. 그러나, 이것은 매우 정밀한 레벨에서 검사 및 동기되는 동작이 요구되기 때문에, 2개의 컴퓨터 시스템 사이에 높은 유닛간 통신 부하를 필요로 한다. 더욱이, 컴퓨터는 유닛간 통신의 조정이 중요한 비용 인자가 되는 고주파수에서 동작하는 것이 증가되고 있다.
유닛간 통신 부하를 감소시키는 방법은 US 5,544,304호에 개시되어 있다. 능동 및 대기 유닛 모두에 의해 명령이 수신 및 큐우된다. 능동 유닛만이 명령을 처리한다. 이러한 시스템은 능동 및 대기 유닛 사이에서 송신되어 특정 명령의 상태에 대하여 질의 또는 이러한 상태를 제공하는 단문 메시지를 제공한다. 능동 및 대기 유닛의 제어기 사이에서 교환되는 단문 신호를 포함하는 2개의 유닛 사이에서 주기적인 핸드세이킹(handshaking)이 실행된다.
그러나, 고장의 경우에, 이러한 시스템은 대기 유닛을 사용하는 동작을 재개하는데 장시간을 필요로 하는데, 그 이유는 유닛 사이에서 실행되는 주기적인 핸드세이킹만으로 고레벨의 동기화가 유지될 수 없기 때문이다.
본 발명은 내고장성 컴퓨터 시스템에 관한 것으로, 특히 컴퓨터 시스템의 내고장 동작 방법에 관한 것이다.
도 1은 본 발명에 따르는 내고장성 컴퓨터 시스템의 일 실시예를 도시하는도면.
도 2는 본 발명에 따르는 내고장성 컴퓨터 시스템의 다른 실시예를 도시하는 도면.
도 3은 본 발명에 따르는 컴퓨터 시스템의 내고장 동작 방법의 일 예의 흐름도.
도 4는 본 발명에 따르는 컴퓨터 시스템의 내고장 동작 방법의 제2 예를 도시하는 도면.
도 5는 본 발명에 따르는 컴퓨터 시스템의 내고장 동작 방법의 제3 예를 도시하는 도면.
도 6은 주 시스템 및 백업 시스템을 포함하는 본 발명에 따르는 시스템의 동작의 일 예의 시간/흐름도.
도 7은 주 시스템 및 대기 시스템을 포함하는 본 발명에 따르는 시스템의 일 실시예의 동작의 예를 도시하는 도면.
도 8은 주 시스템, 백업 시스템 및 대기 시스템을 각각 포함하는 복수의 처리 노드를 도시하는 도면.
따라서, 본 발명의 목적은 내고장성 컴퓨터 시스템 및 고레벨의 동기화를 허용하면서 주 시스템과 백업 시스템 사이에 낮은 통신 부하를 필요로 하는 내고장성 컴퓨터 시스템을 동작시키는 방법을 제공하는 것이다.
본 발명의 이러한 목적은 청구항 1항의 특징을 갖는 내고장성 컴퓨터 시스템 및 청구항 13항의 특징을 갖는 컴퓨터 시스템의 내고장성 동작의 방법에 의해 해결된다.
본 발명에 따르면, 주 시스템은 주 중앙 처리 장치, 시스템 데이터 및 응용 데이터를 저장하는 주 메모리 수단, 및 주 중앙 처리 장치가 이벤트 프로세스의 실행을 정지시킬 때마다 이벤트 메시지를 발생하는 이벤트 발생기를 포함한다. 이벤트 메시지는 적어도 이벤트 프로세스의 유형 및 이벤트 프로세스의 실행을 정지시키는 이유에 관한 정보를 포함한다. 백업 중앙 처리 장치, 백업 메모리 수단, 및 주 시스템으로부터 수신된 이벤트 메시지의 시퀀스를 수신 및 중간 저장하는 버퍼를 포함하는 적어도 하나의 백업 시스템이 제공된다. 백업 제어 수단은 각각의 이벤트 메시지에 대응하는 이벤트 프로세스의 실행을 스케쥴한다. 이벤트 프로세스는 주 시스템 및 백업 시스템에서 동일한 방법으로 실행된다.
유리하게도, 주 처리 유닛은 이벤트 프로세스의 실행이 정지하는 경우에만 백업 시스템에 이벤트 메시지를 보고한다. 이것이 유닛간 통신을 현저히 감소시키므로, 주 시스템에 의한 적어도 하나의 백업 시스템의 상태의 상세한 검사가 더 이상 필요하지 않게 된다.
적어도 하나의 백업 시스템에서, 이벤트 프로세스 및 이벤트 프로세스의 실행을 정지시키는 이유에 관한 모든 필요한 정보가 이벤트 메시지를 통해 공지되기 때문에, 적어도 하나의 백업 시스템은 주 시스템에 이벤트 프로세스의 실행의 과정을 복제할 수 있다. 이것은 액세스, 발생 또는 영향을 주는 데이터를 포함하고, 주 시스템에서 이전의 것과 동일 수의 명령 후에, 정시에 동일한 위치 또는 포인트에서 정확하게 이벤트 프로세스를 정지시키는 것을 포함한다.
주 시스템 및 적어도 하나의 백업 시스템에서 이벤트 프로세스의 정확하게 일치하는 실행에 의해, 메모리 내용을 포함하는 주 시스템 및 적어도 하나의 백업 시스템의 상태 사이의 고레벨의 동기화가 달성될 수 있다. 이전에 필요했던 것과 같은 예컨대, 정밀한 레벨로 메모리 수단을 검사하거나 메모리 수단에 변화를 보고할 필요는 없다. 적어도 하나의 백업 시스템은 주 시스템에서 적용된 것과 같이,데이터 베이스 또는 시스템 데이터에 대한 동일한 변화를 정확하게 적용한다.
본 발명의 유리한 실시예에서, 이벤트 프로세스를 정지시키는 두가지 가능한 이유가 고려된다. 첫째로, 대응하는 명령의 실행이 종료되는 경우, 이벤트 프로세스는 정상적으로 종료될 수 있다. 둘째로, 이벤트 프로세스는 예컨대, 다른 이벤트 프로세스의 실행을 요구하고 더 높은 우선 순위 레벨을 갖는 추가의 명령에 의해 중단될 수 있다. 따라서, 이벤트 프로세스가 정상 종료로 인해 또는 중단에 의해 정지되었는지를 나타내는 정보가 이벤트 메시지에 포함된다.
본 발명의 다른 유리한 실시예에서, 주 시스템 및 적어도 하나의 백업 시스템 모두에서의 이벤트 프로세스의 실행을 나타내는 이벤트 데이터를 발생하는 수단이 제공된다. 더욱이, 주 시스템에서 및 적어도 하나의 백업 시스템에서 발생된 이벤트 데이터의 비교에 기초하여 시스템 고장을 검출하는 수단이 제공된다. 따라서, 컴퓨터 시스템의 동작이 고장이 없는지가 결정될 수 있다. 주 시스템에 고장이 발생된 것이 검출된 경우, 백업 시스템은 새로운 주 시스템으로서의 기능을 취하도록 선택될 수 있다. 고장은 주 시스템에서의 소프트웨어 고장 또는 하드웨어 고장, 또는 백업 시스템에서의 하드웨어 고장을 포함할 수 있다.
임의의 수의 백업 시스템이 시스템의 내고장성을 더욱 향상시키기 위해 제공될 수 있다. 예를 들어, 복수의 백업 시스템은 고장 위치 측정을 간략화시킨다.
더욱이, 적어도 하나의 대기 시스템은 유리하게도 시스템 데이터 및 응용 데이터의 기록 보존 사본을 수신하여 저장하기 위해 제공될 수 있다. 대기 시스템은 또한 이벤트 로그내에 주 시스템에서 발생된 이벤트 메시지의 시퀀스를 기록할 수도 있다. 대기 시스템은 시스템 및 응용 데이터의 기록 보존 사본을 사용하여 이벤트 로그에 저장된 이벤트 메시지에 대응하는 이벤트 프로세스를 실행하도록 배치될 수 있다. 따라서, 기록 보존 사본을 발생한 후의 모든 이벤트가 대기 시스템에서 공지되는 경우, 시스템 및 응용 데이터의 기록 보존 사본은 임의의 데이터 또는 이벤트 프로세스의 손실 없이 현재의 버전으로 갱신될 수 있다. 대기 시스템은 항상 주 시스템의 상태가 복구될 수 있기 때문에, 내고장 가능성을 더욱 부가시킨다.
주 시스템은 지역 프로세서 또는 컴퓨터 시스템의 분배된 중앙 프로세서일 수 있는 복수의 외부 장치에 접속될 수 있다. 이벤트 프로세스는 지역 프로세서로부터 신호를 실행하고, 분배된 중앙 프로세서로부터 신호를 실행하는 것으로 구성될 수 있다. 더욱이, 이벤트 프로세스는 내부 타이머 중단으로 인해 프로세서 작업 테이블의 스캐닝 동작으로 구성될 수 있고, 주 시스템의 내부 기능으로 구성될 수 있다. 지역 프로세스 또는 분배된 중앙 프로세스로부터의 명령에 기인하는 외부 이벤트 프로세스 및 타이머 중단 또는 다른 시스템 기능에 기인하는 내부 이벤트 프로세스를 한정함으로써, 주 시스템의 시스템 상태의 모든 가능한 변화가 설명될 수 있다.
유리하게도, 이벤트 메시지는 예컨대, 이벤트 프로세스의 시퀀스가 적어도 하나의 백업 시스템에서 이벤트 메시지의 수신의 시퀀스로 한정되지 않는 경우, 이벤트 프로세스의 실행 시퀀스를 나타내는 시퀀스 수를 포함할 수 있다. 더욱이, 이벤트 메시지는 예컨대, 이벤트 프로세스 정지 상태를 지정하는 것을 용이하게 하기 위해 실행되는 다수의 명령을 포함할 수 있다. 이벤트 메시지는 중단의 발생 시에주 시스템에서의 레지스터 상태 뿐만 아니라 이벤트 프로세스에 의해 한정되거나 액세스되는 데이터를 더 포함할 수 있다. 이벤트 메시지에서 이러한 정보를 결합하면, 이벤트 프로세스를 더욱 완전하게 설명할 수 있어, 이벤트 프로세스가 적어도 하나의 백업 시스템에서 동일한 방법으로 실행 및 정지될 수 있다.
주 시스템에서 소프트웨어 고장이 검출되는 경우에, 이벤트 메시지는 소프트웨어 고장을 지정하는 정보 및 백업 시스템이 소프트웨어 고장을 피할 수 있게 하는 정보를 포함할 수 있다. 결국, 백업 시스템은 동작을 인계(take over)할 수 있다.
본 발명의 또 다른 유리한 실시예에 따르면, 제1 처리 노드용 주 시스템 및 제2 처리 노드용 백업 시스템을 각각 포함하는 복수의 처리 노드가 제공될 수 있다. 더욱이, 각 처리 노드는 제3 처리 노드용 대기 시스템을 포함할 수 있다. 따라서, 동시에 각 처리 노드는 주 시스템 및/또는 백업 시스템 및/또는 대기 시스템으로 기능할 수 있다. 바람직하게는, 모든 노드 사이의 통신을 위한 수단이 제공된다. 주 처리 유닛, 백업 처리 유닛 및 대기 처리 유닛은 단일 데이터 처리 유닛으로 구성되는 것이 가능하다.
또한, 본 발명의 유리한 실시예는 추가의 종속항에 설명되어 있다.
본 발명은 이하의 본 발명의 바람직한 실시예의 설명을 첨부하는 도면과 관련하여 볼 때 더욱 완전히 이해될 수 있다.
이하에서는, 도 1 내지 도 7을 참조하여 본 발명의 바람직한 실시예를 설명한다. 전체 도면에 있어서, 동일한 참조 부호는 동일한 구성 요소를 나타낸다.
도 1은 본 발명에 따르는 내고장성 컴퓨터 시스템의 제1 실시예를 도시한다. 도 1의 내고장성 컴퓨터 시스템은 주 시스템(100)(PS), 백업 시스템(110)(BS), 고장 검출 수단(120)(FD) 및 복수의 외부 장치(141, 142, 143, 144)로 구성되어 있다. 중앙 통신 수단(130)이 각 시스템 구성 요소를 서로 통신할 수 있도록 하기 위해 제공된다.
도 1에 따르는 본 발명의 실시예의 내고장성 컴퓨터 시스템은 예컨대, 금융 시스템, 부킹(booking) 시스템 및 전기 통신 네트워크와 같은 임의의 고장 감지 응용에 적용될 수 있다.
본 발명에 따르면, 주 시스템은 동작할 책임이 있다, 즉, 주 시스템은 응용에 필요한 모든 동작을 실행한다. 본 예에서는, 예컨대, 전기 통신 네트워크내에서의 주 시스템은 통신 링크에 대한 요구를 수신할 책임이 있고, 통신을 설정할 책임이 있으며, 가입자 서비스 데이터, 가입자 위치 데이터 등을 조정할 책임이 있다.
백업 시스템은 시스템의 기능 또는 동작을 직접 실행하지는 않지만, 컴퓨터 시스템의 내고장 동작을 가능하게 하는 주요 자원을 제공한다.
외부 장치(141∼144)는 바람직하게는 주 시스템(100)과 통신하도록 배치되어 주 시스템에서 명령을 발하거나 이벤트를 발생한다. 전기 통신 네트워크에서, 외부 장치는 스위치, 분배된 전기 통신 네트워크의 지역 프로세서로 구성될 수 있거나, 예컨대, 전기 통신 네트워크의 이동 전화 교환국내의 분배된 중앙 처리 시스템의 유닛일 수 있다. 외부 장치는 또한 통신의 요구, 가입자 서비스에 관한 정보를 요구하는 명령을 발할 수 있거나, 외부 장치 등에 의해 취해지는 동작에 관한 통지를 전송할 수 있다.
예컨대, 명령과 같은 외부 장치와의 모든 상호 작용은 바람직하게는 주 시스템(100)에 의해 조정된다. 백업 시스템(110)은 또한 명령을 수신할 수 있지만, 바람직하게는 백업 시스템은 명령을 직접 처리하지 않는다.
도 1의 내부 통신 수단(130)의 구조에 따라서, 내고장성 컴퓨터 시스템의 모든 구성 요소는 통신 수단(130)을 통해 상호 접속되어 있지만, 다른 실시예에서는, 외부 장치(141∼144)만이 주 시스템(100)에 접속될 수 있다. 예컨대, 주 시스템의 시스템 고장 시에, 내고장성 컴퓨터 시스템의 동작에 따라서, 외부 장치(141∼144)가 주 시스템으로부터 분리되어 백업 시스템(110)에 접속될 수 있다. 이러한 목적으로, 스위칭 수단이 제공될 수 있지만, 이것은 본 발명의 범위를 벗어나며, 따라서 더 설명하지 않는다.
주 시스템(100)은 본 발명에 따르는 컴퓨터 시스템을 동작시키는 여러 개의 구성 요소를 포함한다. 바람직하게는, 주 시스템은 명령을 수신 및 처리하고, 외부 장치(141∼144)와의 통신을 조정하는 주 중앙 처리 장치(101)(P-CPU)를 포함한다.
더욱이, 주 시스템(100)은 주 시스템의 시스템 상태에 관련된 시스템 데이터 뿐만 아니라 응용에 관련된 응용 데이터를 저장하는 주 메모리 수단(102)(PM)을 포함한다. 본 실시예에서는, 가입자 데이터 및 내부 데이터가 주 메모리 수단내에 저장될 수 있다. 도 1에는, 주 메모리 수단이 단일 유닛으로 도시되어 있지만, 주 메모리 수단(102)은 별개의 유닛으로 분리될 수도 있다. 제1 유닛은 주 시스템의 시스템 상태에 관한 시스템 데이터를 저장할 수 있고, 주 메모리 수단의 제2 유닛은 가입자 데이터를 저장하는 데이터 베이스로 구성될 수 있다.
주 중앙 처리 장치(101)의 동작은 당업계에 공지되어 있는 명령에 의해 제어된다. 주 중앙 처리 장치(101)의 동작은 예컨대, 주 메모리 수단의 내용 또는 시스템 상태에 영향을 준다.
주 시스템(100)의 임의의 시스템 상태에 따라서, 명령이 외부 장치(141∼144) 중 하나에 의해 발해질 수 있거나 내부적으로 발생될 수 있다. 어느 경우에나, 명령 또는 이벤트의 수신 시에, 주 중앙 처리 장치(101)는 이벤트 프로세스에서 명령을 실행하는 동작을 취한다. 이벤트 프로세스는 주 메모리 수단(102)내에 저장된 데이터의 변화를 초래할 수 있고, 외부 장치(141∼144) 등의 하나에 통신을 야기할 수 있다. 이벤트 프로세스의 실행 중에, 추가의 이벤트 프로세스의 실행을 위한 추가의 명령 또는 지령이 발생될 수 있다. 명령은 바람직하게는 주 시스템에 시스템 동작의 시퀀스를 야기하고, 주 중앙 처리 장치의 동작을 포함하며, 응용 데이터 또는 시스템 데이터와 같은 주 메모리 수단내에 저장된 데이터에 대한 변화를 포함할 수 있다.
디지털 신호 처리 시에 명령으로서, 명령 또는 이벤트의 수신 시에 이벤트 프로세스의 실행은 정상 종료로 인해 종료될 수 있거나, 예컨대, 더 높은 우선 순위 레벨을 갖는 추가의 명령 또는 이벤트에 의해 중단될 수 있다. 이러한 경우에, 주 중앙 처리 장치(101)의 현재의 동작은 정지되고, 더 높은 우선 순위를 갖는 명령이 실행되며, 이어서 제1 명령의 실행이 재개될 수 있다. 중단은 예컨대, 내부 타이밍 수단에 의한 통지 시에 발생할 수 있거나, 외부 세계로부터 수신될 수 있다. 중단이 발생은 외부 세계와의 상호 작용에만 따를 수는 없고, 이것은 또한 주 시스템내의 내부 이벤트에 의해 초래될 수도 있다. 따라서, 주 시스템내에서의 명령 또는 이벤트 또는 중단의 정확한 타이밍은 쉽게 결정되지 않으므로, 예컨대, 명령 또는 중단의 발생만을 보고하는 것은 불충분하며, 중단이 발생될 때 정확한 타이밍 및 모든 환경을 정확하게 언급하는 것이 필요하다.
백업 시스템이 주 시스템과 동일한 상태 및 메모리 내용을 갖도록 하기 위해, 본 발명에 따라서, 이벤트 발생기(103)(EG)가 제공되어 주 중앙 처리 장치(101)에 접속되어 주 중앙 처리 장치가 이벤트 프로세스의 실행(명령의 실행)을 정지시킬 때마다 이벤트 메시지를 발생한다. 전술한 바와 같이, 백업 시스템 및 주 시스템 사이의 동기화를 위해, 명령 또는 이벤트를 바로 보고하는 것은 불충분하고, 이벤트 프로세스의 실행의 과정에 관한 추가의 정보를 송신하는 것이 또한 필요하다. 따라서, 이벤트 메시지는 적어도 주 시스템에서 실행되는 이벤트 프로세스의 유형에 관한 정보를 포함하고, 이벤트 프로세스의 실행을 정지시키는 이유 및 환경에 관한 정보를 더 포함한다.
백업 시스템(110)은 주 시스템과 유사하게, 바람직하게는, 백업 중앙 처리 장치(111)(B-CPU) 및 백업 메모리 수단(112)(BM)을 포함한다. 주 메모리 수단과 같이, 백업 메모리 수단은 백업 시스템의 시스템 상태에 관련된 시스템 데이터 뿐만 아니라 응용 데이터를 저장하도록 배치된다.
더욱이, 백업 시스템은 주 시스템(100)에서 발생된 이벤트 메시지의 시퀀스를 수신하여 중간 저장하는 버퍼(113)(B)를 포함하고, 백업 중앙 처리 장치에 접속되어 이벤트 프로세스의 실행을 예컨대, 주 시스템으로부터 버퍼에서 대응하는 이벤트 메시지의 수신 순서로 스케쥴링하거나, 이벤트 프로세스 지시기에 따라서 주시스템에서의 이벤트 프로세스의 실행 시퀀스를 나타내는 백업 제어 수단(114)(BC)을 포함한다.
도 1에는 단일 백업 시스템만이 도시되어 있지만, 복수의 백업 시스템이 제공될 수 있으며, 이들은 모두 주 시스템에 대응하는 이벤트 프로세스의 시퀀스를 실행한다.
따라서, 예컨대, 0.5 ms 내지 1 ms의 범위의 짧은 시간 지연을 가지고, 백업 시스템은 주 시스템에서 실행된 것과 동일한 이벤트 프로세스의 시퀀스를 실행하고, 주 메모리 수단(102) 및 백업 메모리 수단(112)이 동기화된다.
명령이 주 시스템에서 수신되거나 주 시스템내에서 발생된 경우, 즉, 이벤트가 주 시스템(100)에서 발생하는 경우, 주 중앙 처리 장치(101)는 스케쥴링 방침에 따라서 명령에 따르는 이벤트 프로세스를 실행한다. 시간의 임의의 포인트에서, 이벤트 프로세스의 정상 실행으로 인해 또는 중단으로 인해, 이벤트 프로세스가 정지된다. 양 경우에, 이벤트 프로세스의 실행을 정지시키는 시간에, 이벤트 발생기는 이벤트 프로세스를 나타내고 이 프로세스를 정지시키는 이유를 나타내는 정보를 포함하는 이벤트 메시지를 발생한다. 전술한 바와 같이, 프로세스를 정지시키는 이유는 이벤트 프로세스의 완전한 실행 또는 중단의 발생으로 인해 정상 종료될 수 있다.
바람직하게는, 주 시스템에서 이벤트 프로세스를 정지시킨 후에, 백업 제어 수단(114)에 의해 제어되는 배업 시스템으로 이벤트 메시지가 송신되며, 대응하는 이벤트 프로세스가 주 시스템과 비교하여 작은 시간 지연을 가지고 실행된다.
이벤트 메시지는 또한 주 시스템에서의 이벤트 프로세스의 실행 시퀀스를 나타내는 시퀀스 번호를 포함할 수 있고, 주 시스템에서의 이벤트 프로세스의 실행이 정지될 때까지 실행되는 다수의 명령을 포함할 수 있다. 더욱이, 이벤트 메시지는 이벤트의 발생 시의 주 시스템의 레지스터 상태 및 이벤트 프로세스에 의해 한정 또는 액세스되는 데이터를 포함할 수 있다.
주 시스템에서의 모든 가능한 프로세스는 한정되지 않은 프로세스가 주 및 백업 시스템에서 상이한 실행을 행할 수 없도록 이벤트 프로세스에 의해 적절히 한정될 필요가 있다. 따라서, 예컨대, 외부 I/O 시스템과의 통신이 잘 정의된 이벤트 프로세스내에서 실행되도록 해야 한다. 파일 시스템 TCP/IP 등과의 체계적이지 않은 직접 통신은 허용되지 않는다. 이러한 통신은 이벤트 프로세스의 실행에 의해 주 중앙 처리 장치에 의해 조정되는 잘 정의된 신호를 통해 진행해야 한다. 이들 선결 요건이 충족되는 경우, 이벤트 메시지는 주 메모리 수단에 저장된 데이터에 영향을 주거나 시스템 상태에 영향을 주는 주 시스템내의 모든 전이를 완전하게 설명하는데 사용될 수 있다.
본 발명의 중요한 특징으로서, 이벤트 메시지는 이벤트 프로세스의 실행이 정지/종료되면 발생되므로, 이벤트 프로세스에 관한 데이터 및 이벤트 프로세스를 정지시키는 이유를 포함하는 이벤트 프로세스의 실행에 관한 정보를 정확하게 백업 시스템에 전송할 수 있다. 이벤트 프로세스는 외부 장치 예컨대, 지역 프로세서 또는 분배된 중앙 프로세서로부터의 신호를 실행함으로써 구성될 수 있다. 이벤트 프로세스는 또한 주 시스템내의 내부 타이머의 타이머 중단으로 인해 작업 테이블의스캐닝 명령으로 구성될 수도 있다. 더욱이, 이벤트 프로세스는 주 시스템내에서 또는 그 내부 기능의 실행으로 구성될 수 있다. 따라서, 이벤트 프로세스의 종료 시에, 주 시스템의 이벤트 발생기(103)는 적어도 이벤트 프로세스의 유형 및 이벤트 프로세스를 정지시키는 이유를 포함하는 이벤트 메시지를 발생시킨다.
이벤트가 스캔 작업 테이블을 실행할 경우, 스캔이 실행되고, 이벤트 메시지가 스캔 작업 테이블 이벤트 프로세스의 정상 종료 시에 또는 스캔 작업 테이블 프로세스의 중단 시에 이벤트 발생기에 의해 발생된다.
더욱이, 이벤트 메시지는 외부 장치 예컨대, 지역 프로세서 또는 분배된 중앙 프로세서로부터의 명령 또는 신호의 수신 시에 발생될 수 있다.
전술한 바와 같이, 이벤트 메시지는 백업 시스템(110)에 송신되며, 여기에서 바람직하게는 버퍼(113)에 중간 저장된다. 백업 제어 수단(114)은 버퍼에 수신된 이벤트 메시지에 따라서 또는 이벤트 메시지에 포함되는 시퀀스 번호에 따라서 이벤트 프로세스의 실행을 스케쥴링한다.
각 이벤트 메시지는 이벤트 프로세스를 실행하는데 필요한 모든 정보를 포함하고, 백업 제어 수단(114)은 주 중앙 처리 장치에서 이전에 실행된 것과 동일한 이벤트 프로세스를 실행하도록 백업 중앙 처리 장치(111)에 명령할 수 있다. 더욱이, 각 전송 메시지가 이벤트 프로세스를 정지시키는 이유에 관한 정보를 포함하기 때문에, 백업 제어 수단은 주 중앙 처리 장치(101)에서 정지되었던 것과 동일한 위치에서 이벤트 프로세스의 실행을 정지시키도록 백업 중앙 처리 장치(111)에 명령할 수 있다. 이 문맥에서의 위치는 대응하는 이벤트 프로세스가 정지되었을 때 주중앙 처리 장치에서 기록 보존된 것과 같이, 백업 중앙 처리 장치가 이벤트 프로세스의 동일한 실행 레벨을 기록 보존할 때 실행 중인 포인트이다. 따라서, 주 시스템에서의 이벤트 프로세스가 정상 실행 중에 종료된 경우, 백업 시스템에서의 대응하는 이벤트 프로세스도 또한 정상 실행 중에 종료된다. 주 시스템에서의 이벤트 프로세스가 중단 시에 정지된 경우, 백업 시스템에서의 대응하는 이벤트 프로세스의 실행은 이벤트 프로세스의 실행의 동일한 단계에서 중단된다.
주 시스템 및 적어도 하나의 백업 시스템 사이의 정확한 대응 또는 동기화는 주 시스템 및/또는 적어도 하나의 백업 시스템에서 고장 동작이 나타날 때까지 효과를 나타낸다. 따라서, 시스템 고장은 주 시스템 및 백업 시스템으로부터의 실행 파라미터를 비교함으로써 검출될 수 있다.
본 발명에 따르는 내고장성 컴퓨터 시스템은 시스템 고장을 검출하는 고장 검출 수단(120)을 포함할 수 있다. 고장 검출 수단(120)은 데이터 통신 수단(130)에 접속되는 별개의 유닛일 수 있거나, 백업 시스템(110)에 또는 주 시스템(100)에, 또는 내고장성 컴퓨터 시스템의 임의의 다른 장치에 포함될 수도 있다.
바람직하게는, 고장 검출 수단(120)은 주 시스템에서의 이벤트 프로세스의 실행에 관하여 기록된 데이터와 백업 시스템에서의 대응하는 이벤트 프로세스의 실행에 관하여 기록된 데이터를 비교한다. 내고장성 컴퓨터 시스템은 바람직하게는 주 시스템에서의 이벤트 프로세스의 실행을 나타내는 이벤트 데이터를 발생하는 제1 수단을 포함하고, 적어도 하나의 백업 시스템에서의 동일한 이벤트 프로세스의 실행을 나타내는 이벤트 데이터를 발생하는 제2 수단을 포함한다.
주 시스템 및 백업 시스템에서 발생된 이벤트 데이터는 바람직하게는 이벤트 데이터의 수신 시에 이벤트 데이터의 비교에 기초하여 시스템 고장을 검출하는 고장 검출 수단에 송신된다. 주 시스템 및 백업 시스템으로부터의 이벤트 데이터가 완전히 동일한 경우, 시스템 고장은 발생하지 않은 것이다. 주 시스템 및 백업 시스템에서의 이벤트 프로세스의 실행에 관한 이벤트 데이터가 동일하지 않은 경우, 시스템 고장이 표시된다. 시스템 고장의 검출은 당업계에 공지되어 있는 주 시스템 및 적어도 하나의 백업 시스템에서의 시스템 데이터의 비교에 기초하므로, 더 이상 설명하지 않는다. 예를 들어, 복수의 백업 시스템이 제공되는 경우, 고장이 발생한 위치를 결정하는데 다수결이 사용될 수 있다.
주 시스템의 시스템 고장이 검출되는 경우, 백업 시스템은 새로운 주 시스템으로 기능하는 시스템으로 선택될 수 있다. 이 경우에, 컴퓨터 시스템의 동작은 주 시스템에 의해 더 이상 실행되지 않지만, 백업 시스템에 의해 인계된다. 컴퓨터 시스템, 특히 통신 수단(130)의 구조에 따라서, 이것은 주 시스템으로부터 백업 시스템 중 선택된 하나까지 외부 장치(141∼144) 사이에 스위칭 통신 링크를 포함한다.
주 시스템 및 백업 시스템이 고레벨의 동기화에서 일정하게 유지되기 때문에, 즉, 예컨대, 0.5 ms 내지 1 ms의 매우 짧은 시간 주기만큼만 동작 지연되기 때문에, 선택된 백업 시스템은 데이터, 명령의 손실 없이 그리고 연장된 다운타임(downtime) 없이 주 시스템의 기능을 쉽게 취할 수 있다.
이하에는, 도 2에 관하여, 본 발명의 내고장성 컴퓨터 시스템의 제2 실시예를 설명한다.
도 2는 도 1에 도시되어 있는 것과 유사한 내고장성 컴퓨터 시스템의 예를 도시한다.
주 시스템(100) 및 백업 시스템(110)에 더하여, 제2 실시예에서는 대기 시스템(150)이 제공된다. 더욱이, 도 1의 본 발명의 제1 실시예와 대조적으로, 고장 검출 수단(120)이 백업 시스템(110)에 통합되어 있다. 외부 장치(145, 146)가 제공된다. 통신 수단(130)은 주 시스템(100), 백업 시스템(110), 대기 시스템(150) 및 외부 장치(145, 146)를 접속한다.
도 1에 관하여 설명한 예에서와 같이, 이 본 발명의 제2 실시예에서, 백업 시스템은 주 시스템과 동일한 이벤트 프로세스의 시퀀스를 실행하고, 상기와 같이, 주 메모리 수단 및 백업 메모리 수단에 저장된 데이터가 동기화된다.
이벤트 발생기(103)는 주 시스템에서의 이벤트 프로세스의 실행이 예컨대, 이벤트 프로세스의 정상 종료로 인해 또는 중단의 발생으로 인해 정지될 때마다 이벤트 메시지를 발생한다. 상기와 같이, 이벤트 메시지는 이벤트 프로세스의 실행 시퀀스를 나타내는시퀀스 번호를 포함할 수 있고, 실행되는 다수의 명령, 예컨대, 중단이 발생되는 경우의 레지스터 상태, 뿐만 아니라 이벤트 프로세스에 의해 한정되거나 액세스되는 데이터를 포함할 수 있다. 이벤트 메시지는 또한 백업 시스템에서의 이벤트 프로세스의 실행에 대응하는 이벤트 데이터와 비교하기 위한 주 시스템에서의 대응하는 이벤트 프로세스의 실행을 나타내는 이벤트 데이터를 포함할 수 있다.
백업 시스템에 송신되는 이외에, 이러한 제2 실시예에서는, 이벤트 메시지가또한 대기 시스템(150)에 송신된다.
도 2에는 단 하나의 대기 시스템만이 도시되어 있지만, 복수의 대기 시스템이 또한 제공될 수 있다.
대기 시스템은 바람직하게는 이벤트 프로세스를 실행하지 않고, 이벤트 로그(153)(EL)에서 로그 수신된 이벤트 메시지만 실행한다. 도 2의 예에서는, 대기 시스템(150)은 주 메모리 수단(102)에 저장된 데이터의 기록 보존 사본을 저장하는 대기 메모리 수단(152)을 포함한다. 바람직하게는, 본 발명에 따라, 주 메모리 수단(102)에 저장된 응용 데이터 및 시스템의 기록 보존 사본이 임의의 시간의 구간에서 대기 메모리 수단에 전송된다. 예를 들어, 기록 보존 사본은 시간당 1회, 하루당 1회 등으로 발생될 수 있다.
주 시스템의 시스템 상태를 재생할 수 있게 하기 위해, 기록 보존 사본을 발생한 후에 모든 이벤트 메시지가 고려될 필요가 있다. 따라서, 기록 보존 사본을 대기 시스템에 전송한 후에, 주 시스템으로부터 수신된 모든 이벤트 메시지가 이벤트 로그에 기록되는 것이 바람직하다. 그러므로, 이벤트 메시지가 이벤의 유형, 이벤트 프로세스의 실행을 정지시키는 이유 및 타이밍 등을 포함하는 주 시스템(100)에서의 이벤트 프로세스의 실행의 과정을 명확하게 한정하기 때문에, 이벤트 로그는 대기 메모리 수단(152)에 저장된 기록 보존 사본과 함께 주 시스템의 시스템 상태를 복구하는데 사용될 수 있다.
대기 시스템(150)은 또한 대기 중앙 처리 장치(151) 및 대기 명령 수단(154)을 포함할 수 있다. 주 시스템의 시스템 상태가 예컨대, 주 시스템의 고장 시에 복구될 필요가 있는 경우, 대기 제어 수단(154)은 이벤트 로그에 저장된 이벤트 메시지의 시퀀스에 따라서 명령을 발생하여, 대기 중앙 처리 장치가 주 시스템에서 실행된 것과 동일한 방법으로 동일한 이벤트 프로세스의 시퀀스를 실행할 수 있게 한다. 따라서, 시간 지연이 있을지라도, 대기 메모리 수단(152)에 저장된 기록 보존 사본의 데이터에 동일한 변화가 적용된다.
대기 시스템은 도 1에 관하여 예시되어 있는 백업 시스템과 매우 유사하지만, 대기 시스템은 주로 이벤트 로그에 이벤트 메시지를 기록하고 시간상의 후속 포인트에 주 시스템의 시스템 상태를 복구하기 위해 주 시스템의 메모리 내용의 기록 보존 사본을 기록하기 위한 것이다.
예컨대, 백업 시스템에서 시스템 고장이 검출되는 경우, 대기 시스템은 백업 시스템의 동작을 인계할 수 있다.
더욱이, 주 시스템에서 소프트웨어 고장이 검출된 경우, 예컨대, 주 시스템이 더 이상 동작을 계속할 수 없는 경우, 백업 시스템에 송신된 이벤트 메시지는 소프트웨어 고장을 지정하는 정보 및 백업 시스템이 소프트웨어 고장을 회피할 수 있게 하는 정보를 포함할 수 있다. 이 경우에, 백업 시스템은 에컨대, 소프트웨어 고장을 일으키는 이벤트의 실행을 스킵하거나 이벤트의 실행 중의 임의의 통신 또는 소프트웨어 루틴을 스킵할 수 있다. 물론, 주 시스템에서의 고장 이후에, 백업 시스템이 전술한 바와 같이, 주 시스템의 동작을 인계할 수 있다. 따라서, 순방향 에러 정정이 기록 보존될 수 있다.
도 3은 본 발명에 따르는 컴퓨터 시스템의 내고장성 동작 방법의 일 예의 흐름도를 도시한다. 상기 경우에서와 같이, 컴퓨터 시스템은 주 시스템, 백업 시스템 및 선택적으로 대기 시스템을 포함한다. 이하에서는, 도 3에 관하여, 컴퓨터 시스템의 내고장성 동작 중에 주 시스템의 동작을 설명한다.
시스템은 도 1 및 도 2의 제1 및 제2 실시예와 같이 배치될 수 있다. 특히, 백업 시스템은 주 시스템에서의 이벤트 프로세스의 실행 시에 발생되는 이벤트를 수신하도록 배치된다. 그러나, 도 3의 흐름은 주 시스템에서의 동작을 주로 설명한다.
301로 표시된 단계에서, 주 중앙 처리 장치는 이벤트 프로세스 예컨대, 스케쥴링 방침에 기초하여 후속 명령이 실행될 때의 후속 프로세스를 실행한다. 이벤트 프로세스는 외부 장치로부터 수신된 명령에 의해 주 시스템에서 실행될 이벤트 프로세스의 시퀀스의 후속 이벤트 프로세스일 수 있다. 이벤트 프로세스는 또한 주 시스템 내부의 타이밍 수단에 의해 통지 시에 실행될 수 있다. 이것은 예컨대, 내부 타이머 중단으로 인해 작업 테이블을 스캔하는 명령일 수 있다. 이벤트 프로세스는 또한 주 시스템의 내부 기능과 결합되어 실행될 수 있다.
이벤트 프로세스의 실행 중에, 추가의 이벤트 프로세스의 실행을 위한 추가의 명령이 발생될 수 있다. 명령은 바람직하게는 주 중앙 처리 장치의 동작을 포함하는 주 시스템에서의 시스템 동작의 시퀀스를 야기하고, 응용 데이터 또는 시스템 데이터와 같은 주 메모리 수단내에 저장된 데이터에 대한 변화를 포함할 수 있다. 다시, 이전의 실시예에서와 같이, 주 시스템의 모든 가능한 동작은 이벤트 프로세스의 일부이어야 한다. 주 중앙 처리 장치는 이벤트 프로세서와 다른 어떠한 동작도 실행할 수 없다.
시간의 임의의 포인트에서, 예컨대, 실행의 정상 종료 또는 이벤트 프로세스의 실행이 중단으로 인해 강제 정지된 결과, 현재의 이벤트 프로세스의 실행이 종료된다. 따라서, 302로 표시된 단계에서, 이벤트 프로세스의 정지 시에 현재의 이벤트 프로세스의 실행이 행해졌는지의 여부를 검사한다, 즉, 정상 실행이 행해졌는지의 여부를 결정하기 위해 이벤트 프로세스가 감시된다.
현재의 이벤트 프로세스의 정상 실행이 검출된 경우에, 단계 304에서, 현재의 이벤트 프로세스의 정상 종료를 나타내는 이벤트 메시지가 발생된다. 이러한 이벤트 메시지는 적어도 현재의 이벤트 프로세스의 유형에 관한 정보 및 현재의 이벤트 프로세스가 정상 실행으로 인해 종료되었음을 나타내는 표시를 포함할 수 있다. 이벤트 메시지는 이벤트 프로세스의 실행의 바람직한 시퀀스가 예컨대, 백업 시스템에서 대응하는 이벤트 메시지의 수신의 시퀀스에 의해서만 결정되지 않는 경우에 유리하게 될 수 있는 이벤트 프로세스의 실행 시퀀스를 나타내는 시퀀스 번호를 더 포함할 수 있다. 이벤트 메시지는 또한 이벤트 프로세스에 의해 액세스되거나 한정된 데이터, 특히 주 메모리 수단에 저장된 응용 데이터 또는 시스템 상태에 관한 데이터에 관한 정보를 포함할 수 있다.
환언하면, 이벤트 메시지는 백업 시스템에서의 동일한 이벤트 프로세스의 실행을 가능하게 하는 대응하는 현재의 이벤트 프로세스를 나타내는 모든 필요한 데이터를 포함하도록 하는 것이 필요하다. 통상적으로, 예컨대, 가입자, 전기 통신 라인 등을 식별하는 전기 통신 시스템의 경우에는, 실행되는 이벤트 프로세스의 유형의 식별자를 송신하고 이벤트 프로세스의 실행의 환경을 지정하는 파라미터를 송신하는 것이 충분해야 한다.
단계 304에서, 중단의 발생이 검사된다. 단계 304에서, 중단이 검출되지 않은 경우, 흐름은 단계 302로 복귀한다. 중단이 검출되는 경우, 단계 305에서 현재의 이벤트 프로세스가 중단되었음을 나타내는 이벤트 메시지가 발생된다. 대응하는 이벤트 메시지는 바람직하게는 중단이 발생될 때, 현재의 이벤트 프로세스의 실행 중에 정확한 시간 포인트에 관한 정보를 또한 포함한다. 이벤트 메시지는 다수의 명령 예컨대, 중단이 발생될 때까지 실행되는 어셈블리 명령을 포함할 수 있다. 더욱이, 이벤트 메시지는 중단 시에 존재하는 주 시스템, 특히 주 중앙 처리 장치의 레지스터 상태를 포함할 수 있다. 더욱이, 단계 304에서 발생되는 이벤트 메시지와 같이, 이벤트 프로세스의 실행 시퀀스를 나타내는 시퀀스 번호 뿐만 아니라 이벤트 프로세스에 의해 액세스되거나 한정된 데이터에 관한 정보가 포함될 수 있다.
단계 306에서, 주 시스템에서의 현재의 이벤트 프로세스의 실행 과정을 나타내는 이벤트 데이터가 발생된다. 바람직하게는, 이벤트 데이터는 이벤트 프로세스가 고장 없이 실행되었는지를 결정할 수 있는 정보를 포함한다. 이것은 예컨대, 당업계에 공지되어 있는 바와 같이, 시스템 상태 또는 임의의 키 데이터 또는 검사 신호에 관한 정보를 포함할 수 있다.
단계 307에서, 이벤트 데이터가 고장 검출 수단(120)에 송신된다. 고장 검출 수단이 백업 시스템에 통합되어 있는 경우, 이벤트 데이터는 또한 이벤트 메시지에 포함될 수 있고, 단계 308에서 그와 함께 백업 시스템 및/또는 제공된 경우 대기시스템에 송신된다.
단계 309에서, 현재의 이벤트 프로세스의 실행 시에 외부 장치로의 통신이 필요한지를 결정한다. 외부 장치로의 통신은 예컨대, 다른 프로세서 또는 임의의 다른 장치로의 통신을 포함할 수 있다. 이러한 결정 단계는 주 시스템에서 고장 동작이 발생된 경우에, 외부 장치로의 통신에 의해 고장이 컴퓨터 시스템을 통해 더욱 전파되는 것을 방지하기 위해 실행될 수 있다.
단계 309에서, 외부 장치로의 통신이 필요하지 않은 경우에, 흐름은 후속 이벤트 프로세스를 실행하기 위해 단계 301로 직접 복귀할 수 있다.
단계 309에서 이벤트 프로세스의 실행 시에 외부 장치로의 통신이 필요한 경우, 단계 310에서, 주 시스템은 고장 검출 수단에 의해 비교되고 주 시스템 및 백업 시스템에서 발생된 이벤트 데이터의 비교 결과를 나타내는 메시지를 대기할 수 있다. 비교 결과를 대기하는 동안, 주 시스템은 추가의 이벤트 프로세스 예컨대, 외부 장치로의 통신을 필요로 하지 않는 이벤트 프로세스를 중간 실행할 수 있다. 그러나, 또한 외부 통신을 필요로 하는 이벤트 프로세스가 중간 실행될 수도 있다. 이 경우에, 복수의 비교 메시지가 동시에 대기한다.
단계 311에서, 주 시스템 및 백업 시스템으로부터의 이벤트 데이터의 비교에 관한 메시지의 수신 시에, 주 시스템의 동작에 고장이 없는지를 결정한다. 고장이 없는 경우, 단계 312에서 외부 장치로 요구된 통신이 실행되고, 흐름은 단계 301로 복귀하며, 스케쥴링 방침에 따라서 후속 이벤트 프로세스가 실행된다.
단계 311에서 주 시스템이 현재의 이벤트 프로세스를 고장이 없는 동작으로실행하지 않는 것으로 결정한 경우에, 단계 313에서 복구 절차가 개시된다. 복구 절차는 적어도 하나의 백업 시스템 중 하나를 새로운 주 시스템으로 할당하는 단계를 포함할 수 있고, 주 시스템으로부터 백업 시스템까지 외부 장치로의 통신 링크를 통해 스위칭하는 단계를 더 포함할 수 있다. 내고장성 컴퓨터 시스템이 대기 시스템을 또한 포함하는 경우에, 복구 절차는 대기 시스템에 기록된 이벤트 메시지 로그를 대기 시스템에 사전에 전송된 기록 보존 사본에 적용하는 단계를 포함할 수 있다. 복구 절차에 이어서, 주 시스템의 동작이 예컨대, 수리를 위해 종료된다.
단계의 시퀀스는 반드시 도 3의 흐름에 따르지 않으며, 이 시퀀스는 또 다른 실시예에서 상이할 수 있다, 예를 들어, 이벤트 데이터는 이벤트 메시지 등의 이전에 발생될 수 있다.
이하에는, 도 4에 관하여, 내고장성 컴퓨터 시스템의 방법의 제2 실시예를 설명한다. 도 4는 명령의 처리 및 이벤트 프로세스의 실행의 예를 각각 더욱 상세히 예시한다. 흐름은 주로 주 시스템의 동작에 관한 것이다.
주 시스템에서, 즉, 주 중앙 처리 장치에서 동작을 개시한 후에, 단계 401에서, 작업 테이블이 타이머 중단에 따라서 스캐닝되는지를 결정한다. 작업 테이블은 실행될 작업의 시퀀스를 포함할 수 있다. 작업 테이블의 스캐닝은 작업의 시퀀스의 정확성을 결정하는 단계, 어느 작업이 이어서 실행되는지를 결정하는 단계 등을 포함할 수 있다. 단계 401에서, 다른 내부 시스템 기능이 실행되는지를 또한 결정할 수 있다. 환언하면, 단계 401에서, 이벤트 프로세스의 실행을 요구하는 내부 명령이 발생하였는지를 결정한다.
본 예에서는, 주 시스템이 지역 프로세서 및 프로세서의 네트워크의 분배된 중앙 프로세서에 접속되는 것으로 가정한다. 컴퓨터 시스템은 예컨대, 전기 통신 시스템을 동작시킬 수 있다.
단계 401에서 내부 명령이 검출되지 않은 경우, 단계 402에서 어떤 지역 프로세서 신호가 수신되었는지를 결정한다. 이들 지역 프로세서 신호는 이벤트 프로세서의 실행을 요구하는 명령일 수 있다. 그러한 신호 또는 명령이 단계 402에서 검출되지 않은 경우, 단계 403에서 어떤 분배 중앙 프로세서 신호가 주 시스템에 도달하였는지를 결정한다. 이벤트 프로세스는 또한 전기 통신 네트워크에서의 서비스 기능과 같은 외부 기능 또는 시스템 기능의 실행의 개시로 구성될 수 있다. 주 시스템은 이벤트 프로세스만 실행시킬 수 있고, 시스템 상태, 시스템 데이터 또는 응용 데이터에 영향을 주는 다른 작용은 허용되지 않는다.
단계 403에서 분배 제어 프로세서 신호가 검출되지 않은 경우, 흐름은 단계 401로 복귀한다.
단계 401, 단계 402 및 단계 403 중 어느 하나 중에, 이벤트 프로세스의 실행을 요구하는 명령 또는 이벤트의 수신이 검출되는 경우, 단계 404에서 어떤 신호가 스케쥴링 방침에 기초하여 후속 실행될 것인지가 결정된다. 단계 401, 단계 402 및 단계 403에서 검출된 명령 이외에, 작업 버퍼에는 이벤트 프로세스의 실행 요구가 제공되어, 단계 404에서 우선 순위 고려가 적용될 수 있다.
실행될 후속 이벤트 프로세스를 선택한 후에, 단계 405에서, 이벤트 프로세스는 정상 종료 시까지 또는 중단의 발생 시까지 실행된다.
이어서, 단계 406에서, 이벤트 프로세스를 정지시킬 때까지의 이벤트 프로세스의 실행 과정을 나타내는 이벤트 데이터가 기록된다. 이벤트 데이터는 주 시스템 및/또는 백업 시스템 및/또는 대기 시스템에서 고장 동작을 검출하기 위해 시간적으로 이후의 포인트에서 사용될 수 있다. 더욱이, 단계 406에서, 적어도 이벤트 프로세스의 유형 및 이벤트 프로세스를 정지시키는 이유를 나타내는 이벤트 메시지가 발생된다.
이어서, 단계 407에서, 발생된 이벤트 데이터 및/또는 발생된 이벤트 메시지는 적어도 하나의 백업 시스템 및/또는 대기 시스템에 송신된다.
그 후, 흐름은 단계 401로 복귀한다.
도 5는 컴퓨터 시스템의 내고장성 동작의 방법의 실행의 또 다른 예를 도시한다. 이하에는, 백업 시스템에서의 동작을 도 5와 관련하여 설명한다.
시스템 구성은 이전의 실시예에 관련하여 설명한 구성과 유사하다.
특히 도 1 및 도 2에 관하여 설명한 바와 같이, 백업 시스템은 주 시스템에 특정된 실행 및 이벤트 프로세스의 유형을 식별하는 이벤트 메시지를 수신하도록 배치되어, 백업 시스템이 계속해서 이벤트 프로세스를 중간에 정지시키거나 이벤트 프로세스를 종료시키는 것을 포함하는 주 시스템에서 실행된 것과 동일한 방법으로 동일한 이벤트 프로세스를 실행할 수 있다.
단계 501에서, 백업 시스템은 주 시스템으로부터 이벤트 메시지를 수신한다. 이벤트 메시지의 백로그(backlog), 즉, 백업 시스템에서 이전의 이벤트 메시지에 대응하는 이벤트 프로세스가 아직 실행되지 않은 경우, 백업 시스템은 버퍼에 이벤트 메시지를 중간 저장할 수 있다.
단계 502에서, 백업 중앙 처리 장치가 단계 501에서 이전에 수신된 이벤트 메시지에 대응하는 이벤트 프로세스의 실행에 사용 가능한지가 결정된다. 이벤트 메시지가 버퍼 예컨대, FIFO 버퍼에 중간 저장된 경우에, 첫번째로 수신된 이벤트 메시지가 실행을 위해 스케쥴링된다. 그러나, 원하는 실행 시퀀스가 이벤트 메시지의 수신 순서로부터 결정될 수 없는 경우, 실행의 순서는 예컨대, 각 이벤트 메시지에 포함될 수 있는 시퀀스 번호에 또한 따를 수 있다. 시퀀스 번호는 바람직하게는 주 시스템에서의 이벤트 메시지의 실행의 시퀀스를 나타낸다. 실행을 위한 스케쥴링은 도 1에 관하여 설명된 바와 같이, 백업 제어 유닛에 의해 실행될 수 있다.
상기 프로세서가 사용 불가능한 경우, 단계 503에서, 백업 제어 수단은 프로세서가 사용 가능할 때까지 대기할 수 있다.
단계 504에서, 백업 제어 수단은 후속 이벤트 메시지를 판독하여, 이벤트 메시지에 따라서 제어 신호를 발생한다. 제어 신호는 백업 중앙 처리 장치에 송신되어, 백업 시스템에서 대응하는 이벤트 프로세스를 실행시킨다. 이것은 예컨대, 백업 메모리 수단에 저장된 변화하는 시스템 데이터 또는 응용 데이터를 포함할 수 있다. 제어 신호는 이벤트 메시지에 따라서 이전의 주 시스템에서의 이벤트 프로세스를 정지시키는 것과 유사하게 이벤트 프로세스를 정지시킨다. 이것은 이전에 주 시스템에서 발생된 중단과 동일하게 중단을 발생시키는 것을 포함할 수 있다.
이벤트 프로세스를 정지시킨 후에, 단계 506에서, 백업 시스템에서의 이벤트 프로세스의 실행 과정을 나타내는 이벤트 데이터가 발생된다.
단계 507에서, 고장 검출 수단이 백업 시스템에 통합되어 있는 경우에, 백업 시스템에서 발생된 이벤트 데이터는 주 시스템에서 발생된 이벤트 데이터와 용이하게 비교될 수 있고, 예컨대, 백업 시스템에서 이벤트 메시지와 함께 수신될 수 있다. 비교 결과는 주 시스템에 송신될 수 있다.
단계 508에서, 주 시스템 및 백업 시스템의 이벤트 데이터가 동일한 것으로 결정된 경우에, 흐름은 단계 501로 복귀하고, 그에 따라 후속 이벤트 프로세스가 실행을 위해 스케쥴링된다.
단계 508에서, 이벤트 데이터가 동일하지 않은 것으로 결정된 경우, 단계 509에서 복구 절차가 실행된다. 복구 절차는 바람직하게는 포함되는 시스템, 즉, 주 시스템 또는 백업 시스템에서 고장이 발생하였는지를 검출하는 단계를 포함한다. 복구 절차는 백업 시스템을 선택하는 단계 또는 복수의 백업 시스템이 존재하는 경우, 새로운 주 시스템으로서 기능을 하도록 백업 시스템 중 하나를 선택하는 단계를 포함할 수 있다. 복구 절차는 또한 이벤트 프로세스가 예컨대, 주 시스템에서 발생된 이벤트 데이터에 기초하여 주 시스템에서 성공적으로 실행된 최종의 것인지를 결정하는 단계를 포함할 수 있고, 성공적으로 실행된 최종 이벤트 프로세스에 대한 정보를 모든 포함된 백업 시스템 및/또는 대기 시스템에 송신하는 단계를 포함할 수 있다. 더욱이, 인계 메시지가 모든 나머지 백업 및 대기 시스템에 및 내고장성 컴퓨터 시스템의 모든 다른 장치에 전송될 수 있다.
이하에는, 도 6과 관련하여, 주 시스템 및 백업 시스템을 포함하는 본 발명에 따르는 내고장성 컴퓨터 시스템에 의한 이벤트 프로세스의 시퀀스의 특정 실행의 예를 설명한다.
이벤트 프로세스 A, B, C 및 D가 실행되는 것으로 가정한다. 이들의 실행은 이전의 예에서 설명된 바와 같이 실행될 수 있다. 특히, 주 시스템에서의 이벤트 프로세스의 실행 후에, 이벤트 프로세스의 종료 이유를 포함하는 이벤트 메시지가 주 시스템에서 발생되어 백업 시스템에 송신된다. 백업 시스템에서 이벤트 메시지의 수신 후에, 다른 이벤트 프로세스가 현재 실행되고 있지 않은 경우, 수신된 이벤트 메시지에 대응하는 이벤트 프로세스가 백업 시스템에서 실행된다. 더욱이, 외부 장치로의 통신 요구가 주 시스템에서 검출된 경우에, 외부 장치와의 통신 동작을 실행하기 전에, 주 시스템은 바람직하게는 주 시스템에 고장 없는 동작을 나타내는 신호를 대기한다. 이러한 시간 주기내에, 다른 이벤트가 주 시스템에서 실행될 수 있다.
단계 601에서, 이벤트 프로세스 A가 주 시스템에서 실행된다. 이벤트 프로세스 A의 실행은 정상 종료된다고, 즉, 정상 종료가 주 시스템에서 검출된다고 가정한다. 따라서, 단계 602에서, 이벤트 메시지 EA가 전술한 바와 같이, 백업 시스템에 송신된다. 이벤트 메시지는 예컨대, 이벤트 프로세의 유형, 영향을 주는 시스템 데이터 및/또는 응용 데이터, 이벤트 프로세스를 정지시키는 이유에 관한 정보를 포함한다. 이벤트 메시지가 주 시스템에서의 이벤트 프로세스 A의 실행 및 유형에 관한 모든 필요한 정보를 포함하기 때문에, 백업 시스템에서 이벤트 메시지 EA를 수신한 후에, 이벤트 프로세스 A가 백업 시스템에서 동일한 방법으로 실행될 수 있다. 이것은 주 시스템에서의 이벤트 프로세스 A의 실행 중에 주 시스템에서 상기와같이 백업 시스템에서 동일한 데이터에 액세스하는 것을 포함한다.
이벤트 프로세스 A가 백업 시스템에서 실행될 때, 제2 이벤트 프로세스 B(1)(부분 1)가 단계 604에서 주 시스템에서 실행된다.
이벤트 프로세스 B(부분 1)의 실행 중에, 이벤트 프로세스 C의 실행을 요구하는 명령 C가 중단을 발생하고 이벤트 프로세스 B(1)(부분 1)의 실행의 중단을 야기한다고 가정한다. 본 발명에 따르면, 단계 605에서, 이벤트 메시지 EB1이 주 시스템에서 발생되어 백업 시스템에 송신된다.
이벤트 프로세스 A의 실행이 정상적으로 종료되기 때문에, 이벤트 메시지 EB1이 백업 시스템에서 수신되기 전에, 짧은 대기 기간이 백업 시스템에서 발생한 후, 대응하는 이벤트 프로세스 B(1)(부분 1)가 백업 시스템에서 실행될 수 있다. 단계 606에서, 백업 시스템에서는 이벤트 프로세스 B(1)(부분 1)가 실행되고, 명령 C로 인한 중단에 관한 정보가 이벤트 메시지 EB1에 또한 포함되어 있기 때문에, 이벤트 프로세스 B는 실행 중에 시간적으로 동일한 포인트에서 백업 시스템에서 중단된다. 백업 시스템에서의 정확한 중단을 용이하게 하기 위해, 다수의 실행 명령이 이벤트 메시지에 포함될 수 있다. 백업 시스템에서의 중단의 발생은 참조 부호 607로 표시되어 있다.
이벤트 프로세스 B(1)가 백업 시스템에서 실행될 때, 중단을 발생한 이벤트 프로세스 C가 단계 608에서 실행된다.
본 예에서는, 이벤트 프로세스 C가 정상적으로 종료되고, 대응하는 이벤트 메시지 EC가 단계 609에서 백업 프로세서로 전송된다고 가정한다. 그러나, 백업 시스템에서 이벤트 메시지 C의 수신 시에, 백업 시스템은 중단이 그 시간 포인트에서 발생하도록 스케쥴링되지 않았기 때문에, 여전히 이벤트 프로세스 B(1)의 제1 부분을 실행하느라 분주하다. 따라서, 이벤트 메시지 EC는 예컨대, 스케쥴링된 중단이 백업 시스템에서 발생할 때까지 중간 버퍼에 저장된다.
백업 시스템에 이벤트 프로세스 B의 중단을 도입한 후에, 백업 시스템은 중간 저장된 이벤트 메시지 EC에서 지정된 이벤트 프로세스 C를 실행한다(단계 610).
동시에, 이벤트 프로세스 C가 주 시스템에서 정상적으로 종료되었기 때문에, 주 시스템은 중단된 이벤트 프로세스 B의 실행을 재개한다. 이벤트 프로세스 B(2)의 제2 부분의 정상 종료 후에, 주 시스템은 단계 612에서 백업 시스템으로 이벤트 메시지 EB2를 발생하여 송신한다.
이벤트 메시지 EB1에 의해, 명령 C로 인해 중단 시에 주 시스템의 정확한 상태가 백업 시스템에 공지되어 있기 때문에, 백업 시스템은 단계 613에서, 정상 종료할 때까지 이벤트 프로세스 B2의 실행을 재개한다. 백업 시스템에 인위적인 주단을 발생한 때에도, 주 시스템의 레지스터 상태가 백업 시스템에 송신되었을 수 있고, 명령 C로 인해 주 시스템에서 중단의 발생 시에 나타났던 것과 동일한 레지스터 상태가 백업 시스템에 나타난다.
이벤트 프로세스 B(2)의 제2 부분의 실행 중에, 이벤트 프로세스의 실행을 재개한 후에, 단계 614에서 외부 명령 D가 전기 통신 시스템인 경우에 지역 프로세서 또는 분배된 중앙 프로세서일 수 있는 외부 장치로부터 수신된다.
이벤트 프로세스 B의 정상 종료 후에, 주 시스템에서는, 단계 615에서 이벤트 프로세스 D가 실행될 수 있다.
이벤트 프로세스 B는 외부 장치로의 통신을 요구하는 것으로 가정한다. 그러나, 주 시스템내에서 고장 동작의 전파를 방지하기 위하여, 통신 요구는 주 시스템에서 고장 없는 동작이 결정될 때까지 계속 유지된다. 따라서, 외부 장치로의 통신을 실행하기 전에, 주 시스템은 주 시스템에서의 이벤트 프로세스 B의 실행 시에 발생된 이벤트 데이터 및 백업 시스템에서의 이벤트 프로세스 B의 실행 시에 발생된 이벤트 데이터의 일치를 나타내는 신호를 대기한다. 단계 616에서, 동기화 검사가 주 시스템에서 고장이 발생하지 않은 것을 나타내는 경우, 단계 617에서 외부 장치로의 통신이 실행될 수 있다.
예시된 실시예는 내고장성 컴퓨터 시스템의 가능한 동작의 과정만을 나타내고 있음에 주의하라. 예를 들어, 모든 경우에 통신 요구가 계속 유지되는 것은 아니며, 예컨대, 비임계 통신 뿐만 아니라 시간/임계 통신이 상기 동기화 검사를 대기함 없이 실행될 수 있다.
이하에는, 도 7에 관련하여, 본 발명에 따르는 내고장성 컴퓨터 시스템의 동작의 추가의 예를 설명한다. 이 예에서는, 주 시스템 및 대기 시스템의 통신 및 동작을 주로 설명한다.
대기 시스템은 주 시스템으로부터 메모리 내용의 기록 보존 사본을 저장하도록 배치된다. 기록 보존 사본은 바람직하게는 소정의 시간의 구간에서 발생된다. 더욱이, 대기 시스템은 고장이 검출되면, 주 시스템 또는 백업 시스템의 시스템 상태를 복구시키기 위해 이벤트 로그에 이벤트 메시지를 기록한다.
시스템의 동작은 예시적인 이벤트 프로세스 E, F 및 G를 사용하여 설명한다.
701로 표시된 제1 단계에서, 제1 기록 보존 사본이 주 시스템의 메모리 수단으로부터 대기 시스템의 메모리 수단으로 전송된다. 바람직하게는, 기록 보존 사본은 모든 관련 응용 데이터 및/또는 모든 관련 시스템 데이터를 포함한다. 따라서, 대기 메모리 수단의 메모리 내용은 기록 보존 사본이 발생되었을 때의 임의의 시간 포인트에서 주 시스템의 메모리 상태를 나타낸다.
이어서, 단계 702에서, 전술한 바와 같이 주 시스템에서 이벤트 프로세스 E가 실행되고, 이벤트 프로세스 E의 종료 시에, 이벤트 메시지 EE가 단계 703에서 대기 시스템에 전송된다. 대기 시스템에서는, 단계 704에서, 이벤트 메시지 E가 이벤트 로그에 기록된다.
거의 동시에, 주 시스템에서는, 임의의 시간 포인트에서 중단되는 이벤트 프로세스 F가 단계 705에서 실행된다. 따라서, 단계 706에서, 중단 및 이벤트 프로세스 F를 지정하는 필요한 모든 데이터를 포함하는 이벤트 메시지 EF가 대기 시스템에 전송된다.
대기 시스템에서는, 단계 707에서, 이벤트 메시지 EF가 이벤트 로그에 기록된다. 유사하게, 단계 708에서, 이벤트 프로세스 G가 실행되고, 이벤트 프로세스 G의 정상 종료 시에, 이벤트 메시지 EG가 단계 709에서 백업 시스템에 전송된다. 이벤트 메시지 EG는 단계 710에서 이벤트 로그에 기록된다.
단계 701에서 대기 시스템에서 발생된 기록 보존 사본 및 주 시스템으로부터 전송된 모든 이벤트 메시지의 시퀀스를 포함하는 이벤트 로그의 기록된 이벤트 메시지를 이용하여, 주 시스템의 시스템 상태를 전술한 바와 같이, 재구성할 수 있다.
기록 보존 사본은 임의의 시간 구간에서 발생될 수 있다. 새로운 기록 보존 사본을 단계 711에서 나타내는 바와 같이, 전송한 후에, 이벤트 로그의 모든 이전에 기록된 이벤트 메시지는 소거될 수 있고, 새로운 이벤트 로그가 개시될 수 있다.
따라서, 대기 시스템에서 이벤트 로그에 기록된 최종 이벤트 메시지에 대응하는 이벤트 프로세스까지 주 시스템의 시스템 상태를 재구성하는 것은 항상 가능하다.
이하에는, 도 8과 관련하여, 본 발명에 따르는 내고장성 컴퓨터 시스템의 또 다른 실시예를 설명한다.
도 8은 본 발명에 따르는 내고장성 컴퓨터 시스템의 4개의 처리 노드(800, 810, 820, 830)를 도시한다. 이들 처리 노드는 클러스터 상호 접속될 수 있는 네트워크(840)를 통해 접속되어 있다.
각각의 처리 노드는 주 시스템, 백업 시스템 및 대기 시스템을 포함한다. 대기 시스템은 반드시 제공될 필요는 없고, 다른 실시예에서는, 처리 노드가 주 시스템 및 백업 시스템으로만 이루어질 수 있다.
도 8에 나타내는 바와 같이, 제1 처리 노드(800)는 제1 처리 노드(800)용의 주 시스템(801)을 포함하고, 제2 처리 노드(810)용의 백업 시스템(802)을 포함하며, 제3 처리 노드(820)용의 대기 시스템(803)을 포함한다.
유사하게, 제2 처리 노드(810)는 제2 처리 노드(810)용의 주 시스템(811), 제3 처리 노드(820)용의 백업 시스템(812), 및 제4 처리 노드(830)용의 대기 시스템(813)을 포함한다.
제3 처리 노드(820)는 제3 처리 노드(820)용의 주 시스템, 제4 처리 노드(830)용의 백업 시스템, 및 제1 처리 노드(800)용의 대기 시스템을 포함한다.
최종적으로, 제4 처리 노드(830)는 제4 처리 노드(830)용의 주 시스템(831), 제1 처리 노드(800)용의 백업 시스템(832), 및 제2 처리 노드(810)용의 대기 시스템(833)을 포함한다.
주 기능, 백업 기능 및 대기 기능을 상호 할당함으로써, 내고장성이 향상될 수 있다. 주 시스템, 백업 시스템 및/또는 대기 시스템을 각각 포함하는 임의의 수의 처리 노드가 제공될 수 있다. 주 처리 유닛을 통해, 백업 처리 유닛 및 대기 처리 유닛이 독립된 엔티티로서 도 8에 각각 도시되어 있지만, 이들은 단일 프로세서로 구성될 수 있다, 즉, 주 시스템, 백업 시스템 및/또는 대기 시스템의 기능은 단일 처리 유닛에 의해 실행될 수 있다.

Claims (23)

  1. 내고장성 컴퓨터 시스템에 있어서:
    주 시스템(100)에서 명령의 발생 시에 실행되는 프로세스인 이벤트 프로세스를 실행하는 주 중앙 처리 장치(101)와;
    주 중앙 처리 장치(101)에 접속되어 시스템 데이터 및 응용 데이터를 저장하는 주 메모리 수단(102)과;
    주 중앙 처리 장치(101)에 접속되어 주 중앙 처리 장치(101)가 이벤트 프로세스의 실행을 정지시킬 때마다, 적어도 이벤트 프로세스의 유형 및 이벤트 프로세스의 실행을 정지시키는 이유를 포함하는 이벤트 메시지를 발생하는 이벤트 발생기(103)를 포함하는 외부 장치(141∼146)에 접속되는 주 시스템(100)과,
    이벤트 프로세스를 실행하는 백업 중앙 처리 장치(111)와;
    백업 중앙 처리 장치(111)에 접속되어 시스템 및 응용 데이터를 저장하는 백업 메모리 수단(112)과;
    주 시스템(100)으로부터 이벤트 메시지의 시퀀스를 수신하여 중간 저장하는 버퍼(113)와;
    백업 중앙 처리 장치(110)에 접속되어 이벤트 메시지에 따라서 이벤트 프로세스의 실행을 스케쥴링하는 백업 제어 수단(114)을 포함하는 주 시스템(100)에 접속되는 적어도 하나의 백업 시스템(110)을 포함하는 것을 특징으로 하는 내고장성 컴퓨터 시스템.
  2. 제 1 항에 있어서,
    상기 이벤트 발생기(103)는 이벤트 프로세스의 중단 시에; 및
    이벤트 프로세스의 정상 종료 시에 이벤트 메시지를 발생하는 것을 특징으로 하는 내고장성 컴퓨터 시스템.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 주 시스템에서의 이벤트 프로세스의 실행을 나타내는 이벤트 데이터를 발생하는 제1 수단과;
    상기 적어도 하나의 백업 시스템(110)에서 동일한 이벤트 프로세스의 실행을 나타내는 이벤트 데이터를 발생하는 제2 수단과;
    상기 이벤트 데이터의 비교에 기초하여 시스템 고장을 검출하고, 주 시스템에서 시스템 고장이 검출될 때 적어도 하나의 백업 시스템을 새로운 주 시스템으로서의 기능을 취하도록 선택하는 수단(110)을 포함하는 것을 특징으로 하는 내고장성 컴퓨터 시스템.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 주 시스템(100)에서의 이벤트 프로세스의 실행에 관한 이벤트 데이터는 대응하는 이벤트 메시지에 포함되는 것을 특징으로 하는 내고장성 컴퓨터 시스템.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    적어도 하나의 대기 시스템(150)은:
    시스템 데이터 및 응용 데이터의 기록 보존 사본을 수신 및 저장하는 제1 대기 메모리 수단(152)과;
    기록 보존 사본이 발생한 후에, 이벤트 로그에 이벤트 메시지의 시퀀스를 기록하는 제2 대기 메모리 수단(153)을 포함하는 것을 특징으로 하는 내고장성 컴퓨터 시스템.
  6. 제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
    상기 대기 시스템(150)은:
    상기 제1 대기 메모리 수단(152) 및 제2 대기 메모리 수단(153)에 접속되는 대기 중앙 처리 장치(151)와;
    상기 대기 중앙 처리 장치(151)에 접속되어 이벤트 로그에 저장된 이벤트 메시지의 시퀀스에 대응하는 이벤트 프로세스의 시퀀스의 실행을 스케쥴링하는 대기 제어 수단(154)을 더 포함하는 것을 특징으로 하는 내고장성 컴퓨터 시스템.
  7. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
    상기 외부 장치(141∼146)는 분배 시스템의 분배된 중앙 프로세서 도는 지역 프로세서인 것을 특징으로 하는 내고장성 컴퓨터 시스템.
  8. 제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
    이벤트 프로세스는:
    지역 프로세스로부터 명령을 실행하는 단계와;
    분배된 중앙 프로세서로부터 명령을 실행하는 단계와;
    타이머 중단으로 인한 작업 테이블의 스캐닝 단계와;
    주 시스템의 내부 명령의 실행 단계로 이루어지는 적어도 하나의 그룹으로 구성되는 것을 특징으로 하는 내고장성 컴퓨터 시스템.
  9. 제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
    이벤트 메시지는:
    이벤트 프로세스의 실행 시퀀스를 나타내는 시퀀스 번호와;
    실행되는 명령의 수와;
    중단의 발생 시의 레지스터 상태와;
    이벤트 프로세스에 의해 액세스되거나 한정되는 데이터에 관한 정보로 이루어지는 적어도 하나의 그룹을 더 포함하는 것을 특징으로 하는 내고장성 컴퓨터 시스템.
  10. 제 1 항 내지 제 9 항 중 어느 한 항에 있어서,
    상기 주 시스템(100)에서 소프트웨어 고장의 검출 시에, 이벤트 메시지는 소프트웨어 고장을 지정하는 정보를 포함하고, 백업 시스템(110)은 대응하는 이벤트프로세스의 적어도 일부의 실행을 스킵하는 것을 특징으로 하는 내고장성 컴퓨터 시스템.
  11. 제 1 항 내지 제 10 항 중 어느 한 항에 있어서,
    제1 처리 노드의 주 시스템과;
    제2 처리 노드의 백업 시스템과;
    제3 처리 노드의 대기 시스템과;
    모든 처리 노드를 상호 접속시키는 수단으로 이루어지는 적어도 하나의 그룹을 각각 포함하는 복수의 처리 노드(800, 810, 820, 830)를 포함하는 것을 특징으로 하는 내고장성 컴퓨터 시스템.
  12. 제 11 항에 있어서,
    상기 복수의 처리 노드의 적어도 하나의 주 처리 유닛, 백업 처리 유닛 및 대기 처리 유닛은 단일 프로세서로 구성되는 것을 특징으로 하는 내고장성 컴퓨터 시스템.
  13. 주 시스템(100) 및 적어도 하나의 백업 시스템(110)을 포함하는 컴퓨터 시스템의 내고장성 동작 방법에 있어서:
    상기 주 시스템(100)에서:
    주 중앙 처리 장치(101)에 의해 주 시스템(100)에서 명령의 발생 시에 실행되는 프로세스인 이벤트 프로세스를 실행하는 단계와;
    상기 주 중앙 처리 장치(101)가 이벤트 프로세스의 실행을 정지시킬 때마다, 적어도 이벤트 프로세스의 유형 및 이벤트 프로세스의 실행을 정지시키는 이유에 관한 정보를 포함하는 이벤트 메시지를 발생시키는 단계와;
    적어도 하나의 백업 시스템(110)에 각 이벤트 메시지를 송신하는 단계와;
    상기 적어도 하나의 백업 시스템(110)에서:
    상기 주 시스템(100)으로부터의 이벤트 메시지를 버퍼(113)에 기록 및 중간 저장하는 단계와;
    상기 버퍼(113)에서 대응하는 이벤트 메시지의 이벤트 프로세스의 실행을 스케쥴링하는 단계와;
    상기 이벤트 메시지에 따라서 백업 중앙 처리 장치(111)에 의해 이벤트 프로세스를 실행하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 시스템의 내고장성 동작 방법.
  14. 제 13 항에 있어서,
    이벤트 프로세스의 중단 시에 및 이벤트 프로세스의 정상 종료 시에 이벤트 메시지를 발생시키는 단계를 포함하는 것을 특징으로 하는 컴퓨터 시스템의 내고장성 동작 방법.
  15. 제 13 항 또는 제 14 항에 있어서,
    상기 주 시스템(100)에서의 이벤트 프로세스의 실행을 나타내는 이벤트 데이터를 발생하는 단계와;
    상기 적어도 하나의 백업 시스템(110)에서 동일한 이벤트 프로세스의 실행을 나타내는 이벤트 데이터를 발생하는 단계와;
    상기 이벤트 데이터의 비교에 기초하여 시스템 고장을 검출하고, 주 시스템에서 시스템 고장이 검출될 때 적어도 하나의 백업 시스템을 새로운 주 시스템으로서의 기능을 취하도록 선택하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 시스템의 내고장성 동작 방법.
  16. 제 13 항 내지 제 15 항 중 어느 한 항에 있어서,
    상기 주 시스템(100)으로부터 시스템 데이터 및 응용 데이터의 기록 보존 사본을 수신하여 적어도 하나의 대기 시스템(150)에 저장하는 단계와;
    기록 보존 사본이 발생한 후에, 주 시스템에서 발생된 이벤트 메시지의 시퀀스를 적어도 하나의 대기 시스템(150)에서 이벤트 로그에 기록하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 시스템의 내고장성 동작 방법.
  17. 제 16 항에 있어서,
    상기 적어도 하나의 대기 시스템이 백업 시스템으로서의 기능을 취해야 할 때, 이벤트 로그에 저장된 이벤트 메시지에 대응하는 이벤트 프로세스의 시퀀스의 실행을 스케쥴링하는 단계와;
    상기 대기 중앙 처리 장치에서 이벤트 메시지에 의해 지정된 이벤트 프로세스를 실행하고, 대응하는 변화를 기록 보존 사본에 적용하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 시스템의 내고장성 동작 방법.
  18. 제 13 항 내지 제 17 항 중 어느 한 항에 있어서,
    이벤트 프로세스는:
    지역 프로세스로부터 명령을 실행하는 단계와;
    분배된 중앙 프로세서로부터 명령을 실행하는 단계와;
    타이머 중단으로 인한 작업 테이블의 스캐닝 단계와;
    주 시스템의 내부 명령의 실행 단계로 이루어지는 적어도 하나의 그룹으로 구성되는 것을 특징으로 하는 컴퓨터 시스템의 내고장성 동작 방법.
  19. 제 13 항 내지 제 18 항 중 어느 한 항에 있어서,
    이벤트 메시지는:
    이벤트 프로세스의 실행 시퀀스를 나타내는 시퀀스 번호와;
    실행되는 명령의 수와;
    중단의 발생 시의 레지스터 상태와;
    이벤트 프로세스에 의해 액세스되거나 한정되는 데이터에 관한 정보로 이루어지는 적어도 하나의 그룹을 더 포함하는 것을 특징으로 하는 컴퓨터 시스템의 내고장성 동작 방법.
  20. 제 13 항 내지 제 19 항 중 어느 한 항에 있어서,
    상기 주 시스템(100)에서 소프트웨어 고장의 검출 시에, 이벤트 메시지는 소프트웨어 고장을 지정하는 정보를 포함하고, 백업 시스템(110)은 대응하는 이벤트 프로세스의 적어도 일부의 실행을 스킵하는 것을 특징으로 하는 컴퓨터 시스템의 내고장성 동작 방법.
  21. 제 13 항 내지 제 20 항 중 어느 한 항에 있어서,
    상기 적어도 하나의 백업 시스템(110)은 버퍼에서의 대응하는 이벤트 메시지으 수신의 순서로, 또는 주 시스템(100)에서의 이벤트 프로세스의 실행 시퀀스를 나타내는 시퀀스 번호에 의해 지정된 바와 같이, 이벤트 프로세스를 실행하는 것을 특징으로 하는 컴퓨터 시스템의 내고장성 동작 방법.
  22. 제 13 항 내지 제 21 항 중 어느 한 항에 있어서,
    상기 백업 시스템을 새로운 주 시스템으로서의 기능을 취하도록 선택하는 단계는:
    어떤 이벤트 프로세스가 최종의 성공적으로 실행된 프로세스인지를 결정하는 단계와;
    최종의 성공적으로 실행된 이벤트 프로세스에 관한 정보를 모든 백업 시스템(110) 및 대기 시스템(150)에 송신하는 단계와;
    인계 메시지를 모든 나머지 백업 및 대기 시스템, 및 모든 장치에 전송하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 시스템의 내고장성 동작 방법.
  23. 제 13 항 내지 제 22 항 중 어느 한 항에 있어서,
    상기 주 시스템은 적어도 하나의 백업 시스템이 이전의 이벤트의 실행을 종료한 후에만 외부 장치(141∼144)에 통신하고, 시스템 고장은 검출되지 않는 것을 특징으로 하는 컴퓨터 시스템의 내고장성 동작 방법.
KR1020017001732A 1998-08-11 1999-08-09 내고장성 컴퓨터 시스템 KR100575497B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19836347.8 1998-08-11
DE19836347A DE19836347C2 (de) 1998-08-11 1998-08-11 Fehlertolerantes Computersystem

Publications (2)

Publication Number Publication Date
KR20010072379A true KR20010072379A (ko) 2001-07-31
KR100575497B1 KR100575497B1 (ko) 2006-05-03

Family

ID=7877184

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020017001732A KR100575497B1 (ko) 1998-08-11 1999-08-09 내고장성 컴퓨터 시스템

Country Status (10)

Country Link
US (1) US6438707B1 (ko)
EP (1) EP1110148B1 (ko)
JP (1) JP2002522845A (ko)
KR (1) KR100575497B1 (ko)
CN (1) CN1137439C (ko)
AU (1) AU5731699A (ko)
BR (1) BR9912879A (ko)
CA (1) CA2339783C (ko)
DE (1) DE19836347C2 (ko)
WO (1) WO2000010087A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100583214B1 (ko) * 2002-07-11 2006-05-24 닛본 덴끼 가부시끼가이샤 정보 처리 장치
KR100820772B1 (ko) * 2006-04-27 2008-04-10 텔코웨어 주식회사 분산 네트워크 환경에서의 이중화 메모리 파일시스템 복구방법 및 복구 시스템

Families Citing this family (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19836347C2 (de) 1998-08-11 2001-11-15 Ericsson Telefon Ab L M Fehlertolerantes Computersystem
US6898189B1 (en) * 2000-08-23 2005-05-24 Cisco Technology, Inc. Restartable spanning tree for high availability network systems
US7054892B1 (en) 1999-12-23 2006-05-30 Emc Corporation Method and apparatus for managing information related to storage activities of data storage systems
GB0002972D0 (en) * 2000-02-09 2000-03-29 Orange Personal Comm Serv Ltd Data handling system
DE10014390C2 (de) * 2000-03-23 2002-02-21 Siemens Ag Hochverfügbares Rechnersystem und Verfahren zur Umschaltung von Bearbeitungsprogrammen eines hochverfügbaren Rechnersystems
US6694450B1 (en) * 2000-05-20 2004-02-17 Equipe Communications Corporation Distributed process redundancy
JP3968207B2 (ja) * 2000-05-25 2007-08-29 株式会社日立製作所 データ多重化方法およびデータ多重化システム
GB2372673B (en) * 2001-02-27 2003-05-28 3Com Corp Apparatus and method for processing data relating to events on a network
JP4273669B2 (ja) * 2001-02-28 2009-06-03 沖電気工業株式会社 ノード情報管理システム及びノード
DE10111864A1 (de) * 2001-03-13 2002-09-26 Tenovis Gmbh & Co Kg Anordnung mit zumindest einer Telekommunikationsanlage sowie Verfahren zum Sichern von Gebührendatensätzen
US7472231B1 (en) 2001-09-07 2008-12-30 Netapp, Inc. Storage area network data cache
US7171434B2 (en) * 2001-09-07 2007-01-30 Network Appliance, Inc. Detecting unavailability of primary central processing element, each backup central processing element associated with a group of virtual logic units and quiescing I/O operations of the primary central processing element in a storage virtualization system
US20030065861A1 (en) * 2001-09-28 2003-04-03 Clark Clyde S. Dual system masters
US6880111B2 (en) * 2001-10-31 2005-04-12 Intel Corporation Bounding data transmission latency based upon a data transmission event and arrangement
US6918060B2 (en) * 2001-10-31 2005-07-12 Intel Corporation Bounding data transmission latency based upon link loading and arrangement
US7437450B1 (en) 2001-11-30 2008-10-14 Cisco Technology Inc. End-to-end performance tool and method for monitoring electronic-commerce transactions
CN100397349C (zh) * 2001-11-30 2008-06-25 甲骨文国际公司 用于在网络系统上提供资源高可用性的方法
GB0206604D0 (en) * 2002-03-20 2002-05-01 Global Continuity Plc Improvements relating to overcoming data processing failures
US7426559B2 (en) 2002-05-09 2008-09-16 International Business Machines Corporation Method for sequential coordination of external database application events with asynchronous internal database events
US20030236826A1 (en) * 2002-06-24 2003-12-25 Nayeem Islam System and method for making mobile applications fault tolerant
US7099661B1 (en) * 2002-07-10 2006-08-29 The Directv Group, Inc. Risk-time protection backup system
US7149917B2 (en) * 2002-07-30 2006-12-12 Cisco Technology, Inc. Method and apparatus for outage measurement
US20040044799A1 (en) * 2002-09-03 2004-03-04 Nokia Corporation Method, device and system for synchronizing of data providing for the handling of an interrupted synchronization process
NZ521983A (en) * 2002-10-14 2005-05-27 Maximum Availability Ltd Journaling changes to system objects such as programs in the IBM OS/400 operating system
GB0308264D0 (en) * 2003-04-10 2003-05-14 Ibm Recovery from failures within data processing systems
US7720973B2 (en) * 2003-06-30 2010-05-18 Microsoft Corporation Message-based scalable data transport protocol
CN1292346C (zh) * 2003-09-12 2006-12-27 国际商业机器公司 用于在分布式计算体系结构中执行作业的系统和方法
US7133986B2 (en) * 2003-09-29 2006-11-07 International Business Machines Corporation Method, system, and program for forming a consistency group
KR100608751B1 (ko) * 2004-02-07 2006-08-08 엘지전자 주식회사 이동통신단말기의 에러로그 관리 방법
US7133989B2 (en) * 2004-05-05 2006-11-07 International Business Machines Corporation Point in time copy between data storage systems
CN100372094C (zh) * 2004-10-29 2008-02-27 力晶半导体股份有限公司 具自动回复功能的晶片测试装置与晶片测试方法
JP4182948B2 (ja) * 2004-12-21 2008-11-19 日本電気株式会社 フォールト・トレラント・コンピュータシステムと、そのための割り込み制御方法
EP1903441B1 (en) * 2005-07-14 2016-03-23 Fujitsu Ltd. Message analyzing device, message analyzing method and message analyzing program
JP4696759B2 (ja) * 2005-07-29 2011-06-08 Kddi株式会社 光終端システム
KR100725502B1 (ko) * 2005-09-09 2007-06-08 삼성전자주식회사 전자장치, 전자장치 시스템 및 전자장치의 제어방법
CN100465911C (zh) * 2006-04-13 2009-03-04 华为技术有限公司 一种备份方法
US7424642B2 (en) * 2006-04-24 2008-09-09 Gm Global Technology Operations, Inc. Method for synchronization of a controller
US7725764B2 (en) * 2006-08-04 2010-05-25 Tsx Inc. Failover system and method
US7865887B2 (en) * 2006-11-30 2011-01-04 Sap Ag Context based event handling and execution with prioritization and interrupt management
CN101145946B (zh) * 2007-09-17 2010-09-01 中兴通讯股份有限公司 一种基于消息日志的容错集群系统和方法
JP4644720B2 (ja) * 2008-03-10 2011-03-02 富士通株式会社 制御方法、情報処理装置及びストレージシステム
CN101593136B (zh) * 2008-05-30 2012-05-02 国际商业机器公司 使得计算机具有高可用性的方法和计算机系统
JP5366480B2 (ja) * 2008-08-27 2013-12-11 株式会社日立製作所 計算機システム及びそのバックアップ方法
CN101431401B (zh) * 2008-09-08 2012-04-04 华为终端有限公司 一种同步故障处理方法、客户端、服务器及其系统
US9569319B2 (en) 2009-09-18 2017-02-14 Alcatel Lucent Methods for improved server redundancy in dynamic networks
CN101815009B (zh) * 2010-03-30 2011-09-28 南京恩瑞特实业有限公司 支持容错的热备同步方法
WO2012020698A1 (en) * 2010-08-11 2012-02-16 Nec Corporation Primary-backup based fault tolerant method for multiprocessor systems
CN102385637A (zh) * 2011-12-22 2012-03-21 山东中创软件商用中间件股份有限公司 一种数据库信息的备份方法及系统
EP2975523A4 (en) * 2013-03-12 2017-02-08 Toshiba Solutions Corporation Database system, program, and data processing method
CN103248499B (zh) * 2013-03-27 2014-09-17 天脉聚源(北京)传媒科技有限公司 一种信息交互的方法和系统
WO2015025384A1 (ja) 2013-08-21 2015-02-26 株式会社東芝 データベースシステム、プログラムおよびデータ処理方法
WO2015029139A1 (ja) 2013-08-27 2015-03-05 株式会社東芝 データベースシステム、プログラムおよびデータ処理方法
CN103581177A (zh) * 2013-10-24 2014-02-12 华为技术有限公司 虚拟机管理方法及装置
US9424149B2 (en) 2014-07-01 2016-08-23 Sas Institute Inc. Systems and methods for fault tolerant communications
US9712382B2 (en) 2014-10-27 2017-07-18 Quanta Computer Inc. Retrieving console messages after device failure
US9946718B2 (en) 2015-07-27 2018-04-17 Sas Institute Inc. Distributed data set encryption and decryption
US9619148B2 (en) 2015-07-27 2017-04-11 Sas Institute Inc. Distributed data set storage and retrieval
US10496292B2 (en) 2017-01-19 2019-12-03 International Business Machines Corporation Saving/restoring guarded storage controls in a virtualized environment
US10579377B2 (en) 2017-01-19 2020-03-03 International Business Machines Corporation Guarded storage event handling during transactional execution
US10732858B2 (en) 2017-01-19 2020-08-04 International Business Machines Corporation Loading and storing controls regulating the operation of a guarded storage facility
US10452288B2 (en) 2017-01-19 2019-10-22 International Business Machines Corporation Identifying processor attributes based on detecting a guarded storage event
US10725685B2 (en) 2017-01-19 2020-07-28 International Business Machines Corporation Load logical and shift guarded instruction
US10496311B2 (en) 2017-01-19 2019-12-03 International Business Machines Corporation Run-time instrumentation of guarded storage event processing
EP3543870B1 (en) 2018-03-22 2022-04-13 Tata Consultancy Services Limited Exactly-once transaction semantics for fault tolerant fpga based transaction systems

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4590554A (en) * 1982-11-23 1986-05-20 Parallel Computers Systems, Inc. Backup fault tolerant computer system
EP0306211A3 (en) * 1987-09-04 1990-09-26 Digital Equipment Corporation Synchronized twin computer system
CA1297593C (en) 1987-10-08 1992-03-17 Stephen C. Leuty Fault tolerant ancillary messaging and recovery system and method within adigital switch
EP0441087B1 (en) 1990-02-08 1995-08-16 International Business Machines Corporation Checkpointing mechanism for fault-tolerant systems
US5157663A (en) 1990-09-24 1992-10-20 Novell, Inc. Fault tolerant computer system
JP2773424B2 (ja) * 1990-11-20 1998-07-09 株式会社日立製作所 ネットワークシステムおよび接続コンピュータ切替え方法
WO1993009494A1 (en) 1991-10-28 1993-05-13 Digital Equipment Corporation Fault-tolerant computer processing using a shadow virtual processor
US5551047A (en) 1993-01-28 1996-08-27 The Regents Of The Univeristy Of California Method for distributed redundant execution of program modules
US5473771A (en) * 1993-09-01 1995-12-05 At&T Corp. Fault-tolerant processing system architecture
US5544304A (en) * 1994-03-25 1996-08-06 International Business Machines Corporation Fault tolerant command processing
US5619656A (en) 1994-05-05 1997-04-08 Openservice, Inc. System for uninterruptively displaying only relevant and non-redundant alert message of the highest severity for specific condition associated with group of computers being managed
US5528516A (en) 1994-05-25 1996-06-18 System Management Arts, Inc. Apparatus and method for event correlation and problem reporting
US5623532A (en) 1995-01-12 1997-04-22 Telefonaktiebolaget Lm Ericsson Hardware and data redundant architecture for nodes in a communications system
US5737514A (en) * 1995-11-29 1998-04-07 Texas Micro, Inc. Remote checkpoint memory system and protocol for fault-tolerant computer system
SE515348C2 (sv) 1995-12-08 2001-07-16 Ericsson Telefon Ab L M Processorredundans i ett distribuerat system
DE19625195A1 (de) * 1996-06-24 1998-01-02 Siemens Ag Synchronisationsverfahren
JPH10240557A (ja) * 1997-02-27 1998-09-11 Mitsubishi Electric Corp 待機冗長化システム
DE19836347C2 (de) 1998-08-11 2001-11-15 Ericsson Telefon Ab L M Fehlertolerantes Computersystem

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100583214B1 (ko) * 2002-07-11 2006-05-24 닛본 덴끼 가부시끼가이샤 정보 처리 장치
KR100820772B1 (ko) * 2006-04-27 2008-04-10 텔코웨어 주식회사 분산 네트워크 환경에서의 이중화 메모리 파일시스템 복구방법 및 복구 시스템

Also Published As

Publication number Publication date
EP1110148B1 (en) 2002-07-17
KR100575497B1 (ko) 2006-05-03
BR9912879A (pt) 2001-05-08
JP2002522845A (ja) 2002-07-23
DE19836347A1 (de) 2000-02-17
CA2339783A1 (en) 2000-02-24
CA2339783C (en) 2011-03-08
US6438707B1 (en) 2002-08-20
WO2000010087A1 (en) 2000-02-24
CN1137439C (zh) 2004-02-04
DE19836347C2 (de) 2001-11-15
AU5731699A (en) 2000-03-06
CN1312922A (zh) 2001-09-12
EP1110148A1 (en) 2001-06-27

Similar Documents

Publication Publication Date Title
KR100575497B1 (ko) 내고장성 컴퓨터 시스템
CN114787781B (zh) 用于启用高可用性受管理故障转移服务的系统和方法
US7085956B2 (en) System and method for concurrent logical device swapping
US6868442B1 (en) Methods and apparatus for processing administrative requests of a distributed network application executing in a clustered computing environment
CN113641511B (zh) 一种消息通信方法和装置
US20080288812A1 (en) Cluster system and an error recovery method thereof
CN111327467A (zh) 一种服务器系统及其容灾备份方法和相关设备
KR20110044858A (ko) 데이터 센터들에 걸쳐 데이터 서버들내 데이터 무결정의 유지
US20070118840A1 (en) Remote copy storage device system and a remote copy method
US20070180308A1 (en) System, method and circuit for mirroring data
CN108418859B (zh) 写数据的方法和装置
US6427213B1 (en) Apparatus, method and system for file synchronization for a fault tolerate network
KR101024249B1 (ko) 실시간 데이터 복제 시스템
CN110351122B (zh) 容灾方法、装置、系统与电子设备
JP3447347B2 (ja) 障害検出方法
JP2017194729A (ja) 計算機システムおよびシステム状態再現方法
CN100490343C (zh) 一种通讯设备中主备用单元倒换的实现方法和装置
WO2023241466A1 (zh) 容灾系统控制方法、容灾系统、电子装置及可读存储介质
JPH02216931A (ja) 障害情報通知方式
KR101907418B1 (ko) 동적 모듈, 이를 구비한 동적 업그레이드 장치 및 방법
CN118427008A (zh) 数据库冗余方法、装置、电子设备及存储介质
KR100241335B1 (ko) 교환기 데이터베이스 백업 시스템의 스탠바이 로딩을 위한 디스크 데이터 백업 금지 처리방법
CN118445126A (zh) 一种数据处理方法、装置、设备、可读存储介质及产品
CN117573415A (zh) 一种故障处理方法、系统、电子设备及存储介质
CN115454928A (zh) 系统在线迁移方法、系统在线迁移装置、设备及介质

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130409

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20140408

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20160411

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20170413

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20180413

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20190411

Year of fee payment: 14

EXPY Expiration of term