KR20000005689A - 시간지연이중화기술을구현하는장치및방법 - Google Patents

시간지연이중화기술을구현하는장치및방법 Download PDF

Info

Publication number
KR20000005689A
KR20000005689A KR1019990018120A KR19990018120A KR20000005689A KR 20000005689 A KR20000005689 A KR 20000005689A KR 1019990018120 A KR1019990018120 A KR 1019990018120A KR 19990018120 A KR19990018120 A KR 19990018120A KR 20000005689 A KR20000005689 A KR 20000005689A
Authority
KR
South Korea
Prior art keywords
transaction
processor
buffer
dependent
write
Prior art date
Application number
KR1019990018120A
Other languages
English (en)
Other versions
KR100304319B1 (ko
Inventor
보센더글라스크래이그
인디아아런샨드라
Original Assignee
포만 제프리 엘
인터내셔널 비지네스 머신즈 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포만 제프리 엘, 인터내셔널 비지네스 머신즈 코포레이션 filed Critical 포만 제프리 엘
Publication of KR20000005689A publication Critical patent/KR20000005689A/ko
Application granted granted Critical
Publication of KR100304319B1 publication Critical patent/KR100304319B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1695Error detection or correction of the data by redundancy in hardware which are operating with time diversity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1629Error detection by comparing the output of redundant processing systems
    • G06F11/1641Error detection by comparing the output of redundant processing systems where the comparison is not performed by the redundant processing components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1474Saving, restoring, recovering or retrying in transactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1497Details of time redundant execution on a single processing unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1675Temporal synchronisation or re-synchronisation of redundant processing components
    • G06F11/1691Temporal synchronisation or re-synchronisation of redundant processing components using a quantum

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Hardware Redundancy (AREA)

Abstract

본 발명은 시간 지연 이중화 기술을 구현하는 장치 및 방법에 관한 것이다. 본 발명은 프로세서 내에서 검출된 오류를 처리하여 컴퓨터 시스템의 신뢰도를 향상시키는 방법 및 시스템을 제공한다. 시스템 버스를 통하여 I/O 프로세서와 연결된 제1 및 제2 온라인 트랜잭션(OLT) 프로세서를 포함하는 예시적인 고장허용 온라인 트랜잭션 컴퓨터 시스템이 예시된다. 트랜잭션 결과는 로컬 프로세서의 버퍼에 기억되며 배치(일괄처리) 구간 중 소정의 시점에서 상기 기억된 트랜잭션들이 비교된다. 일치된 트랜잭션 결과는 데이터 기억 유닛에 플러쉬되며, 불일치 트랜잭션은 재실행된다. 만일 동일한 오류가 재실행 중에 다시 발생하지 않는 경우, 이 오류는 과도적인 것으로 결정되고 트랜잭션 결과는 기억 유닛에 플러쉬된다.

Description

시간 지연 이중화 기술을 구현하는 장치 및 방법{APPARATUS AND METHOD FOR IMPLEMENTING TIME-LAG DUPLEXING TECHNIQUES}
본 발명은 일반적으로 정보 처리 시스템(information processing system)에 관한 것이며, 좀더 상세하게는 프로세서 내에서 검출된 오류를 처리하는 방법론 및 시스템에 관한 것이다.
종전에는 대형 컴퓨터(mainframe)를 사용하여 처리하던 많은 작업을 점점 개인용 컴퓨터(PC)와 워크스테이션(workstation)을 사용하여 처리함에 따라, 시스템 가용성(availability)과 데이터 무결성(data integrity)이 더욱 중요하게 되었다. 종래 기술에 있어서, 록-스텝 이중화(lock-step duplexing)라고 알려진 기술이 사용되어 저가 컴퓨터의 데이터 무결성을 보장하였다. 이 록-스텝 이중화 기술에 있어서, 2개의 프로세싱 요소(processing element)가 사용되어 오류를 검출하고, 두 프로세싱 요소간에 불일치(mismatch)가 발견되면 컴퓨터 시스템이 즉시 정지하게 된다. 이러한 방법은 발생된 모든 오류가 영구적이라고 가정하기 때문에, 이 관점에서 보면 매우 안전한 방법이다. 그러나 동시에, 각 컴퓨터의 정지(outage)마다 일반적으로 정지시간(downtime)이 길기 때문에 이러한 방법에 수반되는 비용이 매우 높을 수 있다. 이점은 현장에서 발생하는 대부분의 오류가 사실상 과도적인 경우에 특히 타당하며, 이러한 방법을 매우 보수적으로 보이게 한다.
일부 록-스텝 이중화 시스템은 "재시도(retry)"를 사용하여 개선된다. 좀더 상세하게는, 불일치가 존재하는 경우, 2개의 프로세싱 요소가 재시도되고 그 결과가 다시 비교된다. 두 번째 비교에서도 불일치가 존재하면 컴퓨터 시스템은 정지된다. 따라서 재시도 기능을 갖는 록-스텝 이중화 기술은 오류 검출뿐만 아니라 과도 오류(transient error) 복구에도 사용될 수 있다. 과도 오류의 발생률이 매우 높기 때문에, 재시도 기능을 갖는 록-스텝 이중화 시스템은 재시도 기능이 없는 록-스텝 이중화 시스템에 비하여 높은 시스템 가용성을 갖는 경향이 있다. 그럼에도 불구하고, 록-스텝 이중화 기술에 기초한 모든 시스템은 데이터 무결성이 노출(exposure)될 염려가 있다. 이러한 염려는 공통-모드 오류(common-mode error)로부터 기인한다.
메모리, 버스 등과 같은 컴퓨터 시스템의 임의 주변 구성요소에서 발생할 수 있는 공통 모드 오류(영구적이거나 과도적인 오류)는 2개의 록-스텝 프로세싱 요소에 동일한 불량 데이터를 제공할 잠재성이 있고, 검출되지 않는 데이터 무결성 위반을 초래할 수 있다.
또한, 비배치(non-batch) 모드로 동작중인 I/O 장치로부터 트랜잭션이 직접 적재될 수 있는 시스템에 오류 검출 및 복구 방법을 구현한 종래의 시스템은 배치 모드 동작에 반드시 사용될 수 있는 것은 아니다.
따라서 적절한 비용으로 컴퓨터 시스템의 과도 오류를 검출하고, 보고하고, 복구하는 개선된 방법 및 시스템이 요구된다.
도 1은 고장 허용 컴퓨터 시스템의 블록도.
도 2는 도 1의 고장 허용 컴퓨터 시스템에 사용되는 시간-지연 컴퓨팅 메커니즘을 예시하는 도면.
도 3은 본 발명의 바람직한 실시예에 따른, 시간-지연 컴퓨팅 메커니즘을 가지는 온라인 트랜잭션 프로세서(OLTP; on-line transaction processor) 시스템의 블록도.
도 4는 본 발명의 바람직한 실시예에 따른, I/O 프로세서와 관련된 기록-검사 버퍼를 도시한 도면.
도 5는 배치 모드 동작으로 실행되는 2개 트랜잭션 프로세스의 예시적인 시퀀스를 나타내는 도면.
도 6은 도 3 실시예의 예시적인 동작 흐름 시퀀스를 예시하는 흐름도.
도 7은 도 6에서 도시된 흐름의 종속 확장을 예시하는 흐름도.
도 8은 종속 리스케줄링의 예시적 동작을 예시하는 표.
도 9는 비배치 모드로 실행하는 2개 트랜잭션 프로세스의 예시적인 시퀀스를 예시하는 표.
본 발명은 배치 및 비배치 모드 컴퓨터 시스템 양자 모두의 프로세서 오류검출 및 처리를 가능하게 하는 방법 및 장치를 제공한다. 예시적 실시예는 제1 프로세서, 제2 프로세서, I/O 프로세서 및 비교기를 포함한다. 선행 프로세서(leading processor)는 I/O 프로세서의 기록 검사 버퍼를 사용하여 기록 요구를 임시 기억한다. 후행 프로세서(lagging processor)는 자신의 전용 기록 버퍼(private write buffer)에 기록 요구를 기록하여, 의사(pseudo) 기록 동작만을 행한다. 소정 기간이 지난 후, 선행 및 후행 프로세서의 양자 모두에 대한 기록 요구는 디스크에 대한 플러쉬를 통하여 충족된다. 플러쉬가 이루어지는 시점에서, 후행 프로세서의 기록 버퍼의 엔트리는 I/O 프로세서의 공용 기록 검사 버퍼(public write check buffer)와 비교된다. 버퍼 엔트리간 불일치가 표시되는 경우, 각 트랜잭션은 손상되었다고 표시되고 재실행이 예정된다.
본 발명은 다양한 종류의 프로세서를 갖는 정보 처리 시스템에 사용될 수 있다. 예시를 위하여 이하 기술되는 본 발명의 바람직한 실시예는 IBM이 생산하는 PowerPCTM마이크로프로세서와 같은 축소 명령어 세트 컴퓨터(Reduced Instruction Set Computing; RISC) 프로세서를 사용하여 구현한다.
도 1은 고장허용 컴퓨터(fault-tolerant computer; FTC) 시스템의 블록도를 예시하고 있다. 도시된 바와 같이, FTC 시스템은 제1 프로세서(101)와 제2 프로세서(103)를 포함한다. 양 프로세서는 동일하며 시스템 버스(105)에 결합되어 있다. 시스템 메모리(107)도 또한 시스템 버스(105)에 연결되어 있다. 또한 이 버스(105)는 참조 부호(109)로 표시되는 바와 같이, 다른 시스템 장치 및 회로와의 연결을위하여 연장되도록 배치된다. 네트워크 인터페이스(113)를 포함할 수 있는 입출력(I/O) 프로세서(111)가 버스(105) 및 다수의 시스템 터미널(115와 117)에 연결되는 것으로 도시되어 있다. 일반적으로 다수의 시스템 터미널(115와 117)은 온라인 트랜잭션(online transaction; OLT) 처리 시스템용으로 구현된다.
동일한 클록 속도로 동작하는 두 프로세서가 병렬로 동작하며, 두 프로세서중 하나의 프로세서가 다른 하나의 프로세서에 대하여 소정의 시간차(time interval)만큼 지연되어 동작하는 컴퓨터 시스템이 시간-지연(time-lag) 컴퓨팅 동작을 예시하고 있다. 도 1에 도시된 FTC 시스템에 사용될 수 있는 시간-지연 컴퓨팅 메커니즘이 도 2에 예시되어 있다. 도시된 바와 같이, 제2 프로세서(예를 들어, 프로세서(103), 즉 "p2")가 제1 프로세서(예를 들어, 프로세서(101), 즉 "p1")에 대하여 고정된 시간차 ""만큼 지연되어 동작한다.
시간-지연 컴퓨팅 메커니즘은 클록 사이클, 머신 인스트럭션 또는 하이레벨(high level) 소프트웨어 인스트럭션 등과 같이 임의 레벨의 세분성(granularity)에도 사용될 수 있다. 즉, 고정된 시간차는 하나(또는 그 이상의) 클록 사이클, 머신 인스트럭션 또는 하이레벨 소프트웨어 인스트럭션들의 집합일 수 있다. 구현의 형태에 따라서 세분성 레벨이 선택된다.
선행 프로세서 p1이 동작 중에 검사점(checkpoint)에 도달하면, 이 선행 프로세서는 처리 결과를 바람직하게는 검사/대기 버퍼(check/wait buffer)에 기억하여 후행 프로세서 p2가 비교하도록 한다. 검사/대기 버퍼에 기억된 처리 결과는 동일한 동작 검사점에서 후행 프로세서 처리 결과와의 일치가 확인될 때까지 더 이상처리되지 않는다. 동일한 동작 검사점에서 두 프로세서로부터의 처리 결과가 일치할 때만 추가적인 처리가 가능하다.
시간-지연 이중화 메커니즘에 있어서, 프로세싱 유닛의 레벨을 선택할 수 있다. 전체 시스템이 복사될 수 있지만, 시간-지연 이중화 메커니즘이 공통 구성요소의 과도 오류(기억장치, 버스, I/O)에 대한 보호를 제공하기 때문에, 프로세서 유닛만이 복제되는 경우에 시간-지연 이중화가 가장 효과적이다.
도 3은 본 발명의 바람직한 실시예에 따른 시간-지연 컴퓨팅 메커니즘을 갖는 예시적인 OLTP 시스템의 블록도를 예시하고 있다. 예시된 바와 같이, 제1 및 제2 OLT 프로세서(301, 307)가 시스템 버스(303)에 연결되어 있다. OLT 프로세서(301, 307)는 또한 공통의 비교 장치(comparator device; 311)에 연결된 출력을 가진다. 이 비교기는 연결부(connection; 319)를 통하여 제3 프로세서 즉 I/O 프로세서(313)로부터 입력을 수신하도록 배치된다. OLT 프로세서(301)는 버퍼(305)를 포함하고, OLT 프로세서(307)는 버퍼(309)를 포함한다. I/O 프로세서(313)는 버퍼(315)와 네트워크 인터페이스 연결부(network interface connection; 317)를 포함한다. I/O 프로세서(313)는 또한 프로그램 기억 유닛(321), 데이터 기억 유닛(325) 및 I/O 장치(323)에 연결된다
동작시, 단일 I/O 프로세서(313)가 I/O 활동과 프로세서(301) 및 (307)와 같은 트랜잭션 프로세서 사이의 인터페이스이다. 이 I/O 프로세서는 스위칭 네트워크를 포함하는 주문형 반도체 집적 회로(application specific integrated circuit; ASIC) 요소이다. 이 I/O 프로세서(313)는 I/O 장치(323)(예를 들어, 터미널), 프로그램 기억 유닛(321)(배치모드의 트랜잭션 결과가 기억됨), 데이터 베이스 또는 데이터 기억 유닛(325)과 상호 통신한다. 이 I/O 프로세서(313)는 또한 시스템 버스(303)를 통하여 트랜잭션 프로세서와 상호 통신한다.
상기 트랜잭션 프로세서는 3개의 원자성 매크로 인스트럭션(atomic macro instruction)인, (i) 지시된 레코드, 즉 "Record-Id"를 데이터 기억 유닛(325)으로부터 판독하는 Read(Record-Id); (ii) 지시된 레코드 즉, "Record-Id"를 transform(Transform)에 따라서 변형시키는 Transform(Transform Record-Id); 및 (iii) 지시된 레코드 "Record-Id"를 데이터 기억 유닛(325)에 기록하는 Write(Record-Id)를 가진다.
이러한 메커니즘에 있어서 시간-지연 세분성은 도 5에 도시된 바와 같이 하나의 매크로 인스트럭션이다. 그 결과, 선행 트랜잭션 프로세서는 후행 트랜잭션 프로세서를 하나의 매크로-인스트럭션만큼 앞선다. 이 예에서 또 다른 중요한 특징은 (프로그램 기억 유닛(321)에 기억된) 매크로-인스트럭션들의 배치(batch)가 Read-Transform-Write 요구의 시퀀스라는 점이다. 레코드에 대한 Read-Transform-Write 동작이 하나의 트랜잭션을 구성한다. 실행 시점에 트랜잭션의 집합이 프로그램 기억 유닛으로부터 트랜잭션 프로세서의 로컬 메모리로 적재될 수 있다. 또한, 트랜잭션은 비배치 모드(non-batch mode)로만 동작하는 I/O 장치로부터 로컬 메모리로 직접 적재될 수 있다.
또한, 배치모드에 있어서, 시스템 버스(303)가 오직 하나만 존재하므로, 기록 요구는 버퍼에 저장된다. 선행 프로세서(301)는 I/O 프로세서(313)의 기록-검사버퍼(315)를 사용하여 이 기록 요구를 일시 기억한다. 후행 프로세서(307)는 자신의 전용 기록 버퍼(309)에만 상기 기록 요구를 기억하는 의사 기록(pseudo write)을 행한다. 소정의 기간이 지난 후(예를 들어, 100 트랜잭션) 2개의 OLT 프로세서의 기록 요구는 디스크(325)에 대한 "플러슁(flushing)"에 의하여 실행된다. 플러쉬 시점에서, 후행 OLT 프로세서의 전용 기록 버퍼(309)의 엔트리는 I/O 프로세서의 공용 기록-검사 버퍼(315)의 엔트리와 비교된다. 이들 버퍼 엔트리들간에 불일치(mismatch)가 표시되는 경우, 각 트랜잭션은 파손(corrupt)되었다고 표시되고 재실행이 예정된다. 또한 실행되지 않은 레코드가 다시 판독되려면, 먼저 플러쉬되어야 한다. 더욱 안전을 도모하기 위하여, 디스크가 복사될 수 있다. 이것은 I/O 프로세서(313)로부터 디스크(325)에 대한 최종 기록을 보호한다. I/O 프로세서가 여러 시점에서 여러 복사된 디스크에 기록하면, 파손된 위치가 판독될 때 복사된 디스크 내의 오류가 검출된다. 버퍼화된 기록 솔루션(buffered write solution) 대신에 이중 버스 구조가 대안 솔루션으로 사용될 수 있다.
본 발명의 실시예에 대한 OLT 프로세서 구조의 특별한 특징은 I/O 프로세서(313)의 기록-검사 버퍼(315)이다. 이 기록-검사 버퍼(315)는 성능이 강화된(hardened) 버퍼이고 고장이 없다고 가정된다. 이것은 플러쉬 시점에 사용되어 두 개의 OLT 프로세서(301) 및 (307)로부터의 기록 요구를 비교하여 디스크를 갱신한다. 이 버퍼 내의 요소가 손상될 확률은 매우 낮다. 왜냐하면, OLT 프로세서로부터 기록-검사 버퍼(315)에 대한 기록 요구가 있는 동안 버스 오류가 발생하면 손상이 발생할 수도 있지만 실제로는 발생하지 않았기 때문이다. 버퍼 내의 요소가 손상되더라도, 버퍼화된 플러쉬가 항상 디스크 갱신에 앞서 일어나기 때문에, 이 버퍼(315)가 손상되더라도 여전히 디스크(325)가 손상되는 것을 방지한다.
I/O 프로세서와 관련된 기록 검사 버퍼가 도 4에 도시되어 있다. 이 실시예의 기록 검사 버퍼(401)는 위치(403)와 위치(405)같은 버퍼 위치의 내용이 서로 연관 관계를 갖는지 비교할 수 있고 일치 또는 불일치 상태를 표시할 수 있다. 이 버퍼(401)는 여러 위치 및 여러 시점에서 수행된 양 트랜잭션 프로세스로부터의 기록 결과를 기억한다. 기록 검사 버퍼(401)는 버퍼(401) 내의 두 위치(403, 405) 사이에 일치가 표시된 때에만 디스크 또는 I/O 장치를 갱신한다.
배치 모드로 동작하는 2개의 트랜잭션 프로세서(301, 307)에서 실행되는 3개의 트랜잭션에 대한 예시적 시퀀스가 도 5에 도시되어 있다. 시점(time point) 4에서 선행 프로세서에 오류가 발생하고, 이 오류는 시점 5의 검사점에서 검출된다. 이 시점에서, I/O 프로세서의 기록 검사 버퍼는 아직 그 데이터를 디스크에 기록하지 않은 상태이다. 선행 프로세서는 2개 검사점 이전의 지점으로 재설정되어 재시도된다. 회복(recovery)의 끝부분에서 후행 프로세서가 선행 프로세서로 된다. 기록 검사 버퍼 내의 부정확한 결과는 오류가 검출되어 포기될 경우 기록되지 않는다. 따라서 일치가 확인되었을 때, 올바른 결과는 플러쉬 동작을 통하여 디스크에 기록된다. 선행 프로세서의 과도 오류(transient fault)에 대해 두개의 시간-지연 구간의 손해가 발행한다는 것을 알 수 있다. 비배치 모드에 있어서, 자원간 충돌이 없기 때문에 디스크 플러쉬 동작은 필요하지 않다.
예시적인 방법이 도 6에 예시되어 있다. 배치 모드(601)에 있어서, 인스트럭션이 기록 요구인지 여부에 대한 결정(603)이 우선 이루어진다. 기록 요구이고 또한 프로세서가 선행 프로세서(604)이면, 인스트럭션은 I/O 프로세서(313)의 기록검사 버퍼(315)에 기억(605)된다. 프로세서가 선행 프로세서가 아니면(604), 이 인스트럭션은 전용 버퍼에 기억(606)된다. 이 프로세스는 소정 기간(세분성과 어플리케이션에 따라 다름)이 경과될 때까지 계속되며(607), 소정 기간이 경과된 시점에서, OLT의 전용 기록 버퍼(305 또는 309)내에 기억된 일괄 처리된 트랜잭션 결과들 중 각 트랜잭션 결과는 I/O 프로세서의 기록 검사 버퍼(315)와 비교된다(609). 각 비교마다, 일치가 존재하지 않으면(611) 트랜잭션에 재실행 표시를 하고(615), 버퍼에 트랜잭션이 더 존재하면(613) 사이클이 반복된다. 버퍼에 트랜잭션이 더 이상 존재하지 않으면(613), 비교되어 일치된 "일치된 배치"가, 불일치 트랜잭션에 대한 종속성이 존재하지 않는 경우, 기억 유닛(325)에 플러쉬 또는 기억된다(617). 종속성이 존재하면, 종속 트랜잭션은 불일치 트랜잭션으로 처리된다. 이 시점에 불일치 트랜잭션이 재실행된다(619). 검출된 오류가 과도적이면, 이들 오류는 재실행 중 반복되지 않으며, 비교하여 일치된 후에 그 일치된 트랜잭션은 데이터 기억 유닛(325)에 플러쉬된다.
도 7은 도 6에 도시된 흐름에 이어지는 예시적인 인스트럭션의 종속성을 예시하는 흐름도이다. 배치 모드(701)에서, 각 트랜잭션이 처리되면(703), 각 트랜잭션의 손상여부가 결정된다(705). OLT의 전용 기록 버퍼(예를 들어, (305) 또는 (309))의 결과와 I/O 기록 검사 버퍼(예를 들어, (315))의 결과가 일치하지 않으면, 트랜잭션은 손상된 것으로 간주된다. 트랜잭션이 손상되지 않았다고 결정되면,이 트랜잭션이 손상된 트랜잭션에 종속적인지 여부에 관한 추가적인 결정이 이루어진다(709). 현재의 트랜잭션이 손상된 트랜잭션에 종속적이거나(즉, "손상-종속 (corrupt-dependent)" 태그가 설정됨), 현재의 트랜잭션이 손상되었으면, 트랜잭션은 리스케줄(reschedule)되고(709), "손상" 플래그(flag)가 설정된다. 트랜잭션이 손상되지 않았고(705), 손상된 트랜잭션에 종속적이지도 않으며(709), 또한 버퍼내에 배치 처리할 트랜잭션이 더 존재하면(711), 상기 처리 단계들이 다음 트랜잭션에 사용된다. 배치 처리가 완료되고, 버퍼 내에 더 이상의 트랜잭션이 존재하지 않으면(711), 손상되지 않은 트랜잭션은 메모리로 플러쉬되고, 손상된 트랜잭션은 손상된 트랜잭션에 종속적이어서 손상되었다고 간주되는 트랜잭션과 함께 재-실행된다. 그 후에, 트랜잭션 결과가 일치하면, 오류는 본래 과도적인 것으로 간주되고 처리가 계속된다. 트랜잭션 결과가 소정 회수의 재시도 후에도 일치하지 않으면, 고수준의 정정 동작(corrective action)이 이루어진다.
도 8은 종속성 리스케줄링(dependency rescheduling)의 예시적 동작을 설명하는 표이다. 도 8에 도시된 바와 같이, 10개 트랜잭션의 배치 사이즈 중에, 트랜잭션이 설정된 종속성 태그를 가지면, 이것은 인스트럭션이 이전 인스트럭션의 결과에 종속된다는 의미이다. 예를 들어서, 트랜잭션 번호6이 "종속성" 태그 ON을 가지면, 트랜잭션 번호6은 트랜잭션 번호1 내지 번호5 중 하나 이상의 선행 트랜잭션에 종속된다는 의미이다. 처음 다섯 개의 트랜잭션중 어느 것도 손상되지 않았으므로, 그들 각각의 손상 태그는 설정되지 않는다. 그러나 도시된 바와 같이, 트랜잭션 번호7에 대하여 손상 태그가 설정되고, 이것은 트랜잭션 번호7이 손상되었다고결정되었으며 또한 프로세서 결과들간에 일치가 없었음을 의미한다. 따라서 트랜잭션 번호7에 종속하는 트랜잭션 번호8과 번호9 또한 손상되었다고 간주된다. 따라서 10개 트랜잭션을 배치 처리한 후, 트랜잭션 번호1 내지 번호6과 트랜잭션 번호10은 디스크로 플러쉬되지만, 트랜잭션 번호7 내지 번호9는 재실행된다.
도 9는 비배치 모드로 동작하는 2개 트랜잭션 프로세서(301, 307)에서 실행되는 3개 트랜잭션의 예시적인 시퀀스를 설명하고 있다. 선행 프로세서에서 오류가 발생하고(시점 5에서) 시점 6의 검사점에서 검출된다. 이 시점에서, I/O 프로세서의 기록-검사 버퍼는 자신의 데이터를 디스크에 기록하지 않았다. 선행 프로세서는 두 검사점 이전의 지점으로 재설정되고 재시도된다. 후행 프로세서가 회복의 끝부분에서 선행 프로세서가 된다. 기록-검사 버퍼 내의 부정확한 결과는 오류가 검출되어 포기될 경우 디스크에 기록되지 않는다. 결과적으로, 일치가 확인되면 올바른 결과가 디스크에 기록된다. 예시된 바와 같이, 비배치 모드에 있어서, 기록 트랜잭션과 판독 트랜잭션이 단일 버스 상에서 동시에 발생하지 않으며, "NO OP(no operation)"가 주기적으로 발생한다.
본 발명의 방법 및 장치를 상기 개시된 바람직한 실시예와 관련하여 설명하였다. 본 발명의 실시예가 상세하게 도시되고 설명되었지만, 당업자는 상기 실시예 일부를 변형하여 본 발명의 개시 내용을 구현한 많은 변형 실시예를 쉽게 구성할 수 있으며, 상기 변형 실시예를 프로세서, CPU 또는 회로나 칩으로 집적된 다른 대형 시스템에 포함시키거나 집적시킬 수 있다. 상기 방법은 단독 또는 부분적으로 메모리 또는 CD, 디스크 또는 디스켓(휴대용 또는 고정용) 또는 다른 메모리 또는기억장치에 프로그램 코드로 구현되어, 상술한 기능을 수행하도록 상기 기억장치 등으로부터 실행될 수 있다. 따라서 본 발명은 본 명세서에 개시된 특정 형태에 의하여 한정되지 않으며, 본 발명의 사상 및 범위 내에 합리적으로 포함되는 변경, 변형 및 균등물을 포함한다.
본 발명의 개선된 방법 및 장치에서는 본 발명의 구성에 따라서 적절한 비용으로 컴퓨터 시스템의 과도 오류를 검출, 보고 및 복구한다.

Claims (14)

  1. 컴퓨터 시스템에 있어서,
    a) 시스템 버스에 결합되어 제1 출력을 생성하는 제1 프로세서;
    b) 상기 시스템 버스에 결합되며, 제2 출력을 생성하도록 배치되는 제2 프로세서━여기서 제2 프로세서는 임의의 시점에서 상기 제1 및 제2 프로세서 중 하나의 프로세서를 선행 프로세서로 하고, 나머지 하나의 프로세서를 후행 프로세서로 하여 동일한 트랜잭션을 수행하도록 배치됨으로써 상기 선행 프로세서는 상기 후행 프로세서가 생성하는 트랜잭션 출력에 대응하는 제1 트랜잭션 출력을 시간적으로 선행하여 생성함━; 및
    c) 상기 시스템 버스에 결합된 제3 프로세서
    를 포함하며,
    상기 제1, 제2 및 제3 프로세서는 각각 대응하는 제1, 제2 및 제3 버퍼 메모리를 포함하고,
    상기 선행 프로세서는 상기 제3 버퍼 메모리를 사용하여 기록 요구 트랜잭션을 임시 기억하도록 선택적으로 동작 가능한
    컴퓨터 시스템.
  2. 제1항에 있어서,
    상기 후행 프로세서가 상기 후행 프로세서의 버퍼 메모리에 기록 트랜잭션결과를 기억하도록 선택적으로 동작 가능한 컴퓨터 시스템.
  3. 제1항에 있어서,
    상기 시스템 버스에 결합된 비교기; 및
    상기 제3 프로세서에 결합된 기억장치
    를 추가로 포함하여,
    상기 비교기는 상기 선행 프로세서와 후행 프로세서의 트랜잭션 결과를 비교하고, 상기 제3 프로세서는 상기 선행 프로세서와 후행 프로세서의 트랜잭션 결과가 일치하면 트랜잭션 결과를 상기 기억 장치에 플러쉬(flush)하도록 선택적으로 동작 가능한 컴퓨터 시스템.
  4. 제3항에 있어서,
    상기 선행 프로세서와 후행 프로세서의 트랜잭션 비교의 결과가 일치하지 않으면, 상기 트랜잭션을 손상(corrupt)된 것으로 표시(mark)하는 수단을 추가로 포함하는 컴퓨터 시스템.
  5. 제4항에 있어서,
    일치되지 않은 트랜잭션의 재실행을 예정(schedule)하는 수단을 추가로 포함하는 컴퓨터 시스템.
  6. 제5항에 있어서,
    상기 트랜잭션이 이전 트랜잭션의 결과에 종속적이라고 결정되었을 때, 상기 트랜잭션을 종속적인 것으로 표시하는 수단을 추가로 포함하는 컴퓨터 시스템.
  7. 제6항에 있어서,
    종속 트랜잭션으로 표시된 트랜잭션이 손상 트랜잭션으로 표시된 트랜잭션에 종속한다고 결정되면, 상기 종속 트랜잭션으로 표시된 트랜잭션의 재실행을 예정하는 수단을 추가로 포함하는 컴퓨터 시스템.
  8. 프로세서의 오류(error)를 처리하는 방법에 있어서,
    a) 컴퓨터 트랜잭션을 처리하기 위해 선행 프로세서를 동작시키는 단계;
    b) 상기 선행 프로세서가 상기 컴퓨터 트랜잭션을 처리한 후 소정의 시간 지연 후에 상기 컴퓨터 트랜잭션을 처리하기 위해 후행 프로세서를 동작시키는 단계;
    c) 상기 후행 프로세서가 처리한 기록 트랜잭션 요구를 기억하기 위해 상기 후행 프로세서와 연관된 후행 버퍼(lagging buffer)를 사용하는 단계;
    d) 상기 선행 프로세서가 처리한 대응 기록 트랜잭션 요구를 일시 기억하기 위해 I/O 프로세서의 I/O 버퍼를 사용하는 단계; 및
    e) 상기 트랜잭션 요구가 일치하는지 여부를 결정하기 위해 상기 후행 프로세서 버퍼로부터의 기록 트랜잭션 요구와 상기 I/O 버퍼로부터의 대응하는 요구를 비교하는 단계
    를 포함하는 프로세서 오류 처리 방법.
  9. 제8항에 있어서,
    상기 비교 단계가 하나의 트랜잭션이 처리될 때마다에 트랜잭션 기반 (transactional basis)으로 달성되는 프로세서 오류 처리 방법.
  10. 제8항에 있어서,
    상기 비교 단계는 소정 개수의 대응 트랜잭션으로부터의 결과가 상기 후행 버퍼와 상기 I/O 버퍼에 기억된 후에 상기 비교 단계가 수행되도록 배치 기반(batch basis)으로 달성되는 프로세서 오류 처리 방법.
  11. 제10항에 있어서,
    상기 선행 프로세서와 후행 프로세서로부터의 트랜잭션 결과의 비교가 불일치 결과를 낳으면 상기 트랜잭션을 손상된 것으로 표시하는 단계를 추가로 포함하는 프로세서 오류 처리 방법.
  12. 제11항에 있어서,
    손상된 것으로 표시된 트랜잭션의 재실행을 예정하는 단계를 추가로 포함하는 프로세서 오류 처리 방법.
  13. 제12항에 있어서,
    상기 트랜잭션이 이전 트랜잭션의 결과에 종속적이라고 결정되면 트랜잭션을 종속적인 것으로 표시하는 단계를 추가로 포함하는 프로세서 오류 처리 방법.
  14. 제13항에 있어서,
    종속 트랜잭션으로 표시된 트랜잭션이 손상 트랜잭션으로 표시된 트랜잭션에 종속한다고 결정되면, 상기 종속 트랜잭션으로 표시된 트랜잭션의 재실행을 예정하는 단계를 추가로 포함하는 프로세서 오류 처리 방법.
KR1019990018120A 1998-06-26 1999-05-19 시간 지연 이중화 기술을 구현하는 장치 및 방법 KR100304319B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/105,601 1998-06-26
US09/105,601 US6199171B1 (en) 1998-06-26 1998-06-26 Time-lag duplexing techniques

Publications (2)

Publication Number Publication Date
KR20000005689A true KR20000005689A (ko) 2000-01-25
KR100304319B1 KR100304319B1 (ko) 2001-09-26

Family

ID=22306758

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990018120A KR100304319B1 (ko) 1998-06-26 1999-05-19 시간 지연 이중화 기술을 구현하는 장치 및 방법

Country Status (2)

Country Link
US (1) US6199171B1 (ko)
KR (1) KR100304319B1 (ko)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6625756B1 (en) * 1997-12-19 2003-09-23 Intel Corporation Replay mechanism for soft error recovery
US6687851B1 (en) 2000-04-13 2004-02-03 Stratus Technologies Bermuda Ltd. Method and system for upgrading fault-tolerant systems
US6820213B1 (en) * 2000-04-13 2004-11-16 Stratus Technologies Bermuda, Ltd. Fault-tolerant computer system with voter delay buffer
US7065672B2 (en) * 2001-03-28 2006-06-20 Stratus Technologies Bermuda Ltd. Apparatus and methods for fault-tolerant computing using a switching fabric
GB2390442B (en) * 2002-03-19 2004-08-25 Sun Microsystems Inc Fault tolerant computer system
US8689185B1 (en) * 2004-01-27 2014-04-01 United Services Automobile Association (Usaa) System and method for processing electronic data
US20050240806A1 (en) * 2004-03-30 2005-10-27 Hewlett-Packard Development Company, L.P. Diagnostic memory dump method in a redundant processor
US7350026B2 (en) * 2004-12-03 2008-03-25 Thales Memory based cross compare for cross checked systems
US7480827B2 (en) * 2006-08-11 2009-01-20 Chicago Mercantile Exchange Fault tolerance and failover using active copy-cat
US8041985B2 (en) 2006-08-11 2011-10-18 Chicago Mercantile Exchange, Inc. Match server for a financial exchange having fault tolerant operation
US7434096B2 (en) * 2006-08-11 2008-10-07 Chicago Mercantile Exchange Match server for a financial exchange having fault tolerant operation
US8181180B1 (en) * 2007-09-14 2012-05-15 Hewlett-Packard Development Company, L.P. Managing jobs in shared file systems
EP2367129A1 (en) 2010-03-19 2011-09-21 Nagravision S.A. Method for checking data consistency in a system on chip
US9146835B2 (en) 2012-01-05 2015-09-29 International Business Machines Corporation Methods and systems with delayed execution of multiple processors
US9589041B2 (en) 2013-07-25 2017-03-07 Oracle International Corporation Client and server integration for replicating data
AT515341B1 (de) * 2014-01-23 2015-12-15 Bernecker & Rainer Ind Elektronik Gmbh Verfahren zur Überprüfung der Abarbeitung von Software
US10191932B2 (en) * 2014-03-21 2019-01-29 Oracle International Corporation Dependency-aware transaction batching for data replication
JP6405966B2 (ja) * 2014-12-09 2018-10-17 株式会社デンソー 電子制御装置
US10761925B2 (en) * 2015-03-24 2020-09-01 Nxp Usa, Inc. Multi-channel network-on-a-chip
US9817576B2 (en) * 2015-05-27 2017-11-14 Pure Storage, Inc. Parallel update to NVRAM

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0679274B2 (ja) * 1990-08-31 1994-10-05 インターナショナル・ビジネス・マシーンズ・コーポレイション 非同期制御ユニットにおけるエラー回復方法
JPH07281930A (ja) * 1994-04-08 1995-10-27 Nec Corp 情報処理装置動作測定解析システム
US5491792A (en) * 1994-09-23 1996-02-13 Forney International, Inc. Sequence of events system using a redundant analog I/O board system
US6058491A (en) * 1997-09-15 2000-05-02 International Business Machines Corporation Method and system for fault-handling to improve reliability of a data-processing system

Also Published As

Publication number Publication date
KR100304319B1 (ko) 2001-09-26
US6199171B1 (en) 2001-03-06

Similar Documents

Publication Publication Date Title
KR100304319B1 (ko) 시간 지연 이중화 기술을 구현하는 장치 및 방법
US6058491A (en) Method and system for fault-handling to improve reliability of a data-processing system
Bernick et al. NonStop/spl reg/advanced architecture
KR920001997B1 (ko) 계산 시스템내의 고장 회복 방법 및 장치
US6785842B2 (en) Systems and methods for use in reduced instruction set computer processors for retrying execution of instructions resulting in errors
US7496786B2 (en) Systems and methods for maintaining lock step operation
Cristian Understanding fault-tolerant distributed systems
AU616213B2 (en) Method and apparatus for synchronizing a plurality of processors
US7516361B2 (en) Method for automatic checkpoint of system and application software
US7373548B2 (en) Hardware recovery in a multi-threaded architecture
CN109891393B (zh) 使用检查器处理器的主处理器错误检测
US7308607B2 (en) Periodic checkpointing in a redundantly multi-threaded architecture
JP2500038B2 (ja) マルチプロセッサ・コンピュ―タ・システム、フォ―ルト・トレラント処理方法及びデ―タ処理システム
US6851074B2 (en) System and method for recovering from memory failures in computer systems
US20020073357A1 (en) Multiprocessor with pair-wise high reliability mode, and method therefore
JPH09258995A (ja) 計算機システム
Hernandez et al. Timely error detection for effective recovery in light-lockstep automotive systems
JP3030658B2 (ja) 電源故障対策を備えたコンピュータシステム及びその動作方法
KR100212447B1 (ko) 재수행 단계에서 종료한 트랜잭션 처리 기법을 이용한 댕글링 트랜잭션 발생 방지 방법
Lee et al. Measurement-based evaluation of operating system fault tolerance
Damani et al. Fault-tolerant distributed simulation
Long et al. Implementing forward recovery using checkpoints in distributed systems
Tamir et al. The UCLA mirror processor: A building block for self-checking self-repairing computing nodes
Tsai Fault tolerance via N-modular software redundancy
JP2513060B2 (ja) 故障回復型計算機

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20080701

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee