KR100848853B1 - 오류-허용 분산형 컴퓨터 시스템의 오류 처리 방법 및시스템 - Google Patents

오류-허용 분산형 컴퓨터 시스템의 오류 처리 방법 및시스템 Download PDF

Info

Publication number
KR100848853B1
KR100848853B1 KR1020037005029A KR20037005029A KR100848853B1 KR 100848853 B1 KR100848853 B1 KR 100848853B1 KR 1020037005029 A KR1020037005029 A KR 1020037005029A KR 20037005029 A KR20037005029 A KR 20037005029A KR 100848853 B1 KR100848853 B1 KR 100848853B1
Authority
KR
South Korea
Prior art keywords
message
gua
guardian
time window
node
Prior art date
Application number
KR1020037005029A
Other languages
English (en)
Other versions
KR20030048430A (ko
Inventor
헤르만 코펫츠
귄더 바우어
Original Assignee
에프티에스 콤퓨터테크니크 게엠바하
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에프티에스 콤퓨터테크니크 게엠바하 filed Critical 에프티에스 콤퓨터테크니크 게엠바하
Publication of KR20030048430A publication Critical patent/KR20030048430A/ko
Application granted granted Critical
Publication of KR100848853B1 publication Critical patent/KR100848853B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/805Real-time

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Computer And Data Communications (AREA)
  • Multi Processors (AREA)

Abstract

본 발명은 오류-허용 분산형 컴퓨터 시스템의 오류를 처리하는 방법 및 그러한 시스템에 관한 것으로, 다수의 노드 컴퓨터(K1 ... K4)를 갖추며, 주기적인 시간 슬라이스 방법에 의해 채널로의 액세스를 갖는 통신 채널(c11 ... c42)에 의해 연결된다. 노드 컴퓨터(K1 ... K4)에서 나오는 메시지들은 독립적으로 형성된 가디언(GUA)에 의해 검사되며, 이는 SOS("slightly off specification") 오류를 겪는 메시지를 정확한 메시지로 또는 모든 노드 컴퓨터에 의해 부정확한 것으로서 명확히 인식되는 메시지로 전환시킨다.

Description

오류-허용 분산형 컴퓨터 시스템의 오류 처리 방법 및 시스템{HANDLING ERRORS IN AN ERROR-TOLERANT DISTRIBUTED COMPUTER SYSTEM}
본 발명은 통신 채널에 의해 연결되는 다수의 노드 컴퓨터를 갖춘 오류-허용 분산형 컴퓨터 시스템의 오류를 처리하는 방법에 관한 것으로서, 각 노드 컴퓨터는, 통신 채널로의 액세스가 주기적인 시간 슬라이싱 방법에 따라 발생하며 노드 컴퓨터를 떠나는 메시지의 정정이 가디언(guardian)에 의해 검사되는, 자동 통신 제어 유니트를 구비한다.
그리고, 본 발명은 적어도 하나의 분산기 유니트 및 통신 채널에 의해 서로 연결되는 다수의 노드 컴퓨터를 갖춘 오류-허용 분산형 컴퓨터 시스템에 관한 것으로, 각 노드 컴퓨터는 자동 통신 제어 유니트를 구비하며, 통신 채널로의 액세스가 주기적인 시간 슬라이싱 방법에 따라 발생하며 노드 컴퓨터를 떠나는 메시지를 검사하기 위한 가디언이 제공된다.
안전에 관하여 중요한 기술적 어플리케이션들, 즉, 오류가 장애에 이를 수 있는 어플리케이션들이 분산 오류-허용 실시간 컴퓨터 시스템에 의해 더욱 유도된다.
다수의 노드 컴퓨터 및 실시간 통신 시스템을 포함하는 분산 오류-허용 실시 간 컴퓨터 시스템에서는, 노드 컴퓨터의 각 개별 항복 현상(breakdown)이 허용될 수 있다. 그러한 컴퓨터 아키텍처의 핵심에는, 예상대로 빠르며 안전한 메시지의 교환을 위한 오류-허용 실시간 통신 시스템이 있다.
이러한 요건을 준수하는 통신 프로토콜은 미국 특허 제5,694,542호에 대응하는 EP 제0 658 257호에 기술되어 있다. 그 프로토콜은 "Time-Triggered Protokol/C(TTP/C)"의 이름으로 공지되어 왔으며 또한 보스톤, 클루워 아카데미 출판사, 코페즈, 에이치(Kopetz, H)(1997)의 Real Time Systems, Design Principles for Distributed Embedded Application; ISBN: 0-7923-9894-7에 기술되어 있다. 선험적 고정 시간 슬라이스를 갖는 공지된 주기적 시간 슬라이싱 방법(TDMA:시분할 다중 접속)을 기초로 한다. TTP/C는 미국 특허 제4,866,606호에 기술된 오류-허용 클럭 동기화 방법을 사용한다.
TTP/C는 통신 시스템이 논리적 브로드케스트 토폴로지를 지원하며 노드 컴퓨터들이 고장-침묵 항복현상 동작을 디스플레이하는, 즉, 노드 컴퓨터들이 값 영역에서 그리고 시간 영역에서 정확하게 기능하거나 또는 컴퓨터들이 한산하다고 미리 추정한다. 시간 영역에서의 오류 방지, 즉, 소위 "배블링 이디오트(babbling idiot)" 오류는 TTP/C에서, "버스 가디언"이라 불리우는, 독립된 오류 인식 유니트에 의해 달성되며, 이는 독립된 시간 기준을 가지며 노드 컴퓨터의 시간 동작을 지속적으로 검사한다. 오류 허용을 실현하기 위해서, 몇개의 오류-침묵 노드 컴퓨터들이 오류-허용 유니트(FTU)를 형성하도록 함께 있게 되며 통신 시스템들이 중복된다. FTU의 노드 컴퓨터와 통신 시스템의 중복이 기능하는 한은, FTU의 서비스는 시 간 영역과 값 영역에 정확하게 제공된다.
논리적 브로드캐스트 토폴로지 통신은 물리적으로 분산된 버스 시스템을 통하여, 분산형 링 시스템 또는 중앙형 분산기 유니트(예를 들면, 별형 결합기)를 통하여 점-대-점 연결로 노드 컴퓨터로 구성될 수 있다. 분산형 버스 시스템 또는 분산형 링 시스템이 구성된다면, 각 노드 컴퓨터는 그 자체의 버스 가디언을 구비해야 한다. 다른 한편으로, 중앙형 분배기 유니트가 사용된다면, 모든 가디언은 이러한 분배기 유니트로 통합될 수 있어서 모든 노드 동작의 전체적인 관찰로 인하여 시간 영역에서 규칙적인 전달 동작을 효과적으로 강행할 수 있다. 이는 차후 공고된 WO 01/13230 A1에 기술되어 있다.
분산형 컴퓨터 시스템에서, 시스템을 모순된 상태로 초래할 수 있는 오류가 특히 중요하다. 일예로서, 모터 자동차의 소위 와이어 브레이크(brake-by-wire) 어플리케이션이 본문에 인용되며, 여기서 중앙 브레이크 컴퓨터가 브레이크 메시지를 휠에 있는 4개 휠 컴퓨터로 전달한다. 만일 브레이크 메시지가 2개 휠 컴퓨터에서는 정확하게 수신되고 다른 2개 휠 컴퓨터가 그 메시지를 수신하지 못한다면, 모순된 상태가 발생한다. 만일 차량의 동일측상에 있는 2개 휠에 브레이킹이 발생한다면, 그 차량은 고장날 수 있다. 본문에 기술된 고장의 유형은 학문적으로 비잔틴 오류(Byzantine fault)로서 언급된다(코페즈, 페이지 60, 페이지 133). 비잔틴 오류의 빠른 인식과 정확한 처리는 컴퓨팅에서 가장 어려운 문제점중의 한가지 이다.
하위-분류의 비잔틴 오류는 SOS 오류("slightly-off-specification" fault)에 의해 형성된다. SOS 오류는 아날로그 기술과 디지털 기술간의 인터페이스에서 발생할 수 있다. 제시된 한정 영역에서, "디지털 신호들"은 논리 신호로 이해되지만 "아날로그 신호들"은 모두 물리적 신호로 이해된다. 아날로그와 디지털 기술간의 구별은 또한 본문에서 이러한 감지로 이해된다. 데이터 전달의 실현에 있어서, 각 논리 비트가 시간의 특정 간격중에 신호값(예를 들면, 특정 전압 허용 간격으로부터의 전압)에 의해 라인상에 나타내여질 수 있다. 정확한 전달자(sender)는 모든 정확한 수신자(recipient)가 이러한 신호들을 옳바르게 기계번역함을 보장하기 위해서 특정 허용 간격내에 그 아날로그 신호를 발생시켜야 한다. 만일 메시지 전달자가 특정 간격(값 영역에서, 시간 영역에서, 또는 양측 영역에서)의 약간 외측에 신호를 발생시킨다면, 일부 수신자는 이러한 신호를 정확하게 기계번역하지만 다른 수신자들은 그 신호를 정확하게 기계번역할 수 없는 상황이 발생할 수 있다. 우리는 그러한 브로드캐스트 메시지를 SOS-오류(false)라 명명한다. 이어서, 브레이크 시스템에 관하여 상기에 기술된 것처럼, 비잔틴 오류가 발생할 수 있다. 그러한 오류는 결함있는 전원에 의해 야기될 수 있으며, 그 결함있는 클럭 또는 구성요소는 시간이 지남에 따라 저하된다. 2개 통신 채널로의 메시지 전달자는, 오류 이유, 예를 들면, 비트 시퀀스를 발생시키는 컴퓨터 노드의 결함있는 클럭이 양측 채널에 영향을 끼친다면, SOS 오류를 방지할 수 없다.
차후 오류가 더 많은 손해를 야기하기 이전에 대응책을 취할 수 있기 위해서 제시간에 가능한 한 가장 빠른 포인트에서 발생하는 에러를 인식하는 것이 안전 기술의 원리이다. 이러한 원리는 SOS 오류가 최대 2개의 TDMA 라운드내에서 소위 TTP/C 프로토콜의 멤버쉽 알고리즘에 의해 일관되게 인식되다는 점에서 상기 TTP/C 프로토콜(EP 0658 257)에 준수되어야 한다. SOS 오류는 통상적으로 매우 드물게 발생하는 전이 오류로 이루어지므로, 실질적으로 부합하는 다중 오류의 SOS 오류는 매우 드물게 발생하는 클래스로 TTP/C의 기존 프로토타입 구현예에 지정되며 그렇게 처리된다.
발명의 목적은 분산형 컴퓨터 시스템에서 적절한 수단을 통하여 SOS 클래스의 오류 허용을 용이하게 하는 것이다.
이러한 목적은 초기에 언급된 유형의 방법으로 달성되며, 발명에 따라서 독립적으로 형성된 가디언이 SOS("slightly off specification") 오류로 부과되는 메시지를 정확한 메시지로 또는 모든 수신 노드 컴퓨터에 의해 명확하게 부정확한 것으로서 인식될 수 있는 메시지로 변환시킨다.
상기 목적은 또한 상기에 언급된 유형의 오류-허용 분산형 컴퓨터 시스템으로 달성되며, 발명에 따라서 독립적으로 형성된 가디언이 SOS("slightly off specification") 오류로 부과되는 메시지를 정확한 메시지 또는 모든 수신 노드 컴퓨터에 의해 명확하게 부정확한 것으로서 인식될 수 있는 메시지로 변환시키도록 적합하게 된다.
본 발명으로 인하여, SOS("slightly off specification") 오류의 고장 카테고리는 또한 고도로 신뢰할만한 실시간 컴퓨터 어플리케이션용으로 시간-제어되는 분산 오류-허용형 아키텍쳐에서 허용될 수 있다.
바람직한 실시예에서, 독립적 시간 기준의 지원을 받는 각 독립형 가디언은 각 노드 컴퓨터의 통신 제어 유니트에 의해 전달되는 메시지의 개시가 가디언에 선험적으로 공지되는 메시지의 개시 시간 윈도우 내에 있으며 만일 모든 수신 노드 컴퓨터에 의해 부정확한 것으로서 인식될 수 있는 불완전한 메시지가 생성되기 위해서 메시지가 이러한 시간 윈도우의 외측에 있다면 해당 통신 채널에 인접하여 근접한지를 검사한다. 이러한 방식에서, 수신자(recipient)에 의해 정확한 것으로서 잘못 기계번역되는 단지 약간의 왜곡된 메시지의 발생이 방지될 수 있다.
게다가, 가디언이 관련 코딩 규칙을 고려하며 그 로컬 시간 근거와 로컬 전원을 사용하여 시간 영역과 값 영역에서 각 메시지의 도입하는 물리적 신호를 발생시킨다면 유용하다. 그러한 독립적인 발생이 시스템의 바람직한 안전을 상당히 증가시킨다.
발명의 다른 바람직한 실시예는 어떠한 메시지도 수신하지 않는 가디언이 올바른 CRC와 올바른 길이를 갖는 어떠한 메시지도 발생시키지 않음 제공한다. 이러한 측정은 시스템의 안전을 더욱 증가시킬 수 있다.
개시 시간 윈도우를 기초로 하는 최적의 제어는 가디언의 개시 시간 윈도우가 시스템의 프리시젼(precision) 이상 정도로 노드 컴퓨터의 개시 시간 윈도우 이후에 시작하며 가디언의 개시 시간 윈도우가 프리시젼 이상 정도 노드 컴퓨터의 개시 시간 윈도우 이후에 종결함을 제공한다.
안전에 관해서 뿐만 아니라 시스템의 실현 비용에 관한 부가적인 이점은 가디언들이 분배기 유니트로 통합된다면, 그 중 적어도 하나는 독립적인 전원과 독립적인 오류-허용 분산 클럭 동기화부를 구비한다는 것이다.
본 발명의 부가적인 이점들은 도면에 도시된 예시적인 실시예들과 관련하여 하기에 더 상세히 기술되어 있다.
도 1은 2개의 중복 중앙 분배기 유니트에 의해 서로 연결되는 4개의 노드 컴퓨터를 포함하는 분산형 컴퓨터 시스템을 개략적으로 나타낸다.
도 2는 노드 컴퓨터와 2개의 가디언에 의해 형성된 오류 억제(containment) 유니트이다.
도 3은 가디언과 노드 컴퓨터의 개시 시간 윈도우의 위치를 나타낸다.
도 1은 4개의 노드 컴퓨터(K1, K2, K3, K4)의 시스템을 나타내며 각 노드 컴퓨터는 교환가능 유니트를 형성하며 점-대-점 연결 또는 통신 채널(c11 .... c42)로 2개의 중복 중앙 분배기 유니트(V1 또는 V2)중 하나에 연결된다. 노드 컴퓨터의 각 출력과 분배기 유니트의 각 입력간에는, 독립적으로 설계되거나 또는 분배기 유니트로 통합될 수 있는 가디언(GUA)이 있다. 가디언 또는 버스 가디언의 주요 기능이 코페즈(Kopetz), 페이지 173에 설명되어 있다. 그 기능을 성취할 수 있기 위해서, 가디언은 또한 컨트롤러 외에 채널을 오픈 또는 락(lock)시키기 위한 스위치를 필요로한다. 분배기 유니트(V1과 V2)간에 2개의 단방향 통신 채널(V21, V12)은 중앙 분배기 유니트(V1과 V2)의 정보 교환 및 상호 모니터링 역할을 한다. 또한 코페즈, 페이지 172-177로부터, 각 노드 컴퓨터(K1 ... K4)는 중복 통신 채널(예를 들면, c11, c12)로 연결되는 통신 컨트롤러 또는 자동 컨트롤러(CON)를 구비한다. 지 시된 연결(w1, w2)은 전용 통신 채널들이다. 채널들은 분배기 유니트의 파라미터와 그것의 옳바른 기능을 모니터할 수 있는 서비스 컴퓨터(w1, w2)로 이르게한다.
도 2는 자체의 통신 컨트롤러(CON)를 갖춘 노드 컴퓨터(K1)와 다른 노드 컴퓨터 또는 분산형 컴퓨터 시스템의 분배기 유니트로의 통신 채널(c11, c21)을 나타낸다. 가디언(GUA)은 본문에 통신 채널(c11, c21)용 버스 가디언으로서 제공되어 있지만, 그것은 도 1에 따른 2개의 독립형 중앙 분배기 유니트(V1, V2)로 통합될 수 있다. 3개의 서브-시스템의 관점에서, 노드 컴퓨터 + 2개의 가디언은 본문에 "오류 억제 유니트(FCU)"로서 언급되는 유니트를 형성하며 이러한 방식으로 도 2에 지시되어 있다. 설명된 것처럼, 이는 가디언(GUA)이 물리적으로 중앙 분배기 유니트로 또는 노드 컴퓨터로 통합되는 것과는 무관하다.
도 3을 참조하면, 메시지의 개시를 위한 개시 시간 윈도우가 포함된다. 정확히 이러한 길이(TCON)를 갖는 노드 컴퓨터 또는 그 컨트롤러의 개시 윈도우(TCON)와 가디언의 개시 시간 윈도우(TGUA)간에 식별이 이루어진다. 발명은 가디언의 시간 윈도우(TGUA)가 노드 컴퓨터의 시간 윈도우(TCON)보다 더 짧으며 시간 윈도우(TCON )에 삽입되는 개시 시간 윈도우(TGUA)간에는 시스템의 프리시젼(precision)(P)보다도 더 큰 간격(t1/t2)이 있다. 프리시젼의 개념은, 예를 들면, 코페즈, Chapter 3.1.3 "Precision and Accuracy", 페이지 49 및 50에 명확히 설명되어 있다.
우리는 능동 서브-시스템, 예를 들면, 노드 컴퓨터(K1)의 일정한 오류를 비제약 능동(unconstrained active)으로서 언급한다. 게다가, 우리는 수동 서브-시스 템, 예를 들면, 가디언, 또는 연결(c11 또는 c22)의 오류를 비제약 수동(unconstrained passive)으로서 언급하며, 수동 서브-시스템의 구조를 통하여 이러한 서브-시스템이 자체에서, 즉, 능동 서브-시스템으로부터의 입력없이, 비트 시퀀스를 발생시킬 수 없음이 확실하다면, 이는 수신자에 의해 통사적으로 옳바른 메시지로서 해석될 수 있다. CRC 검사가 어떠한 고장도 지시하지 않는다면 메시지는 통사적으로 옳바르며, 메시지는 옳바른 길이를 가지며, 코딩 규칙에 부합하고 예정된 시간 간격내에 도달한다.
만일 수동 서브-시스템이 어떻게 정확한 CRC를 발생(CRC 발생 알고리즘으로의 액세스 없음)시키며 옳바른 메시지가 얼마나 길어야 하는가의 인식을 갖고 있지 않다면, 통계적인 무작위 프로세스(분산)를 기초로하여, 생성되는 통사적으로 옳바른 메시지의 확률은 무시가능할 정도로 작다.
오류 제약 유니트(FCU)는 노드 컴퓨터(K1)의 비제약 능동 고장 또는 2개의 가디언(GUA)중 하나의 비제약 수동 오류를 하기의 추정이 성취된다면 비잔틴 오류가 아닌 오류로 전환시킬 수 있다.
(i)옳바른 노드 컴퓨터(K1)는 양측 채널(c11, c12)에 대해 통사적으로 옳바른 메시지를 전달한다, 그리고
(ⅱ)옳바른 가디언(GUA)은 SOS-오류 메시지를 노드 컴퓨터(K1)에서 통사적으로 옳바른 메시지로 또는 모든 수신자에 의해 명확하게 옳바르지 않은 것으로서 인식될 수 있는 메시지로 전환시킨다, 그리고
(ⅲ)메시지의 전달중에 지시된 서브-시스템들중 최대 하나가 결함이 있다.
오류 추정 (ⅲ)으로 인하여, 3개의 지시된 서브-시스템(K1, GUA, GUA)중 단 하나만이 결함이 있을 수 있다. 만일 노드 컴퓨터(K1)가 비제약 결함이 있다면, 양측 가디언(GUA와 GUA)은 결합이 없고 추정 (ⅱ)에 따라 비-SOS 메시지를 발생시킨다. 만일 2개 가디언(GUA)중 하나가 비제약 수동 결함이라면, 노드 컴퓨터(K1)는 통사적으로 옳바른 메시지를 발생시키고 이러한 통사적으로 옳바른 메시지를 양측 가디언(GUA)으로 전달한다(추정 (ⅰ)). 그후 옳바른 가디언(GUA)은 메시지를 정확하게 모든 수신자들, 즉 노드 컴퓨터로 전달한다. TTP/C 프로토콜의 독립 원칙과 수신 논리에 의하여, 이러한 경우에, 모든 옳바른 수신자들은 옳바른 메시지를 선택할 것이며 전달하는 노드 컴퓨터를 옳바른 것으로서 분류할 것이다. SOS 오류를 허용하기 위해서 TTP/C 프로토콜에는 어떠한 변형도 필요하지 않다.
일정한 메시지는 하기의 3가지 이유 때문에 SOS-오류일 수 있다:
(ⅰ)메시지는 값 영역에 SOS-오류를 갖는다, 및/또는
(ⅱ)메시지는 시간 영역에 내적 SOS 오류(예를 들면, 코드내에 타이밍 고장)를 갖는다, 및/또는
(ⅲ)메시지의 전달은 특정 전달 간격을 약간 벗어나 시작된다(도 3참조).
옳바른 가디언(GUA)은 오류에 대한 3가지 이유를 다음의 비-SOS 오류로 전환시킨다:
(ⅰ)메시지의 출력값들은 가디언의 독립 전원을 갖춘 가디언(GUA)에 의해 재발생된다.
(ⅱ)메시지의 코딩은 버스 가디언의 독립적 시간 기준을 갖는 가디언(GUA)에 의해 재발생된다.
(ⅲ)가디언은 전달이 특정 시간 간격(TGUA)을 벗어나 시작하였다고 인식하는 순간 곧 채널을 잠근다. 따라서, 모든 수신자들, 즉, 노드 컴퓨터들은 결함있는 것으로서 인식되는 매우 왜곡된 메시지를 수신한다.
가디언(GUA)에 의한 채널 잠금은 전적으로 메시지의 전달 시간의 특정 종결 이후에는 SOS-오류를 방지하기에는 흡족하지 않은데 왜냐하면 잠금을 통하여 약간 왜곡된 메시지가 그 자체에 오류가 없는 가디언(GUA)의 SOS-오류에 대해 트리거될 수 있음이 배제되지 않기 때문이다. 만일 양측 가디언이 메시지를 약간 왜곡시킨다면 동일한 방식에서 SOS-오류가 시스템 레벨에서 발생할 수 있다.
결국, 본 발명은 4개의 노드 컴퓨터를 갖추어 기술된 실시예로 제한되지 않으로 바람직하게 확장될 수 있음이 강조된다. TTP/C 프로토콜 뿐만 아니라 다른 시간-제어 프로토콜과 사용될 수 있다.

Claims (11)

  1. 통신 채널(c11 ... c42)에 의해 연결되는 다수의 노드 컴퓨터(K1 ... K4)와 각 노드 컴퓨터가 자동 통신 제어 유니트(CON)를 구비하며, 통신 채널로의 액세스가 주기적인 시간 슬라이싱 방법에 따라 발생하며 노드 컴퓨터를 떠나는 메시지의 정확성이 가디언에 의해 검사되는 오류-허용 분산형 컴퓨터 시스템의 오류를 처리하는 방법에 있어서,
    독립적으로 형성된 가디언(GUA)이 SOS("slightly off specification") 오류로 부과되는 메시지를 정확한 메시지로 또는 모든 수신 노드 컴퓨터(K1 ... K4)에 의해 명확하게 부정확한 것으로서 인식될 수 있는 메시지로 전환시키는 것을 특징으로 하는 방법.
  2. 제 1 항에 있어서, 독립적 시간 기준의 지원으로 각 독립적 가디언(GUA)이 노드 컴퓨터(K1 ... K4)의 통신 제어 유니트(CON)에 의해 전달되는 메시지의 개시가 가디언(GUA)에 선험적으로 공지된 메시지의 개시 시간 윈도우(TGUA)내에 있으며 만일 모든 수신 노드 컴퓨터에 의해 부정확한 것으로서 인식될 수 있는 불완전한 메시지가 형성되기 위해 이러한 시간 윈도우의 외측에 메시지가 있다면 해당 통신 채널(c11 ... c42)에 인접하여 근접한지를 검사하는 것을 특징으로 하는 방법.
  3. 제 1 항 또는 제 2 항에 있어서, 가디언(GUA)은 관련 코딩 규칙을 고려하며 그 로컬 시간 기준과 그 로컬 전원을 사용하여 시간 영역 및 값 영역에서 각 메시지의 도입하는 물리적 신호를 재발생시키는 것을 특징으로 하는 방법.
  4. 제 1 항 또는 제 2 항에 있어서, 어떠한 메시지도 수신하지 않는 가디언(GUA)은 올바른 CRC와 올바른 길이를 갖는 어떠한 메시지도 발생시키지 않는 것을 특징으로 하는 방법.
  5. 제 2 항에 있어서, 가디언(GUA)의 개시 시간 윈도우(TGUA)는 코스트 컴퓨터(K1 ... K4)의 개시 시간 윈도우(TCON) 이후 시스템의 프리시젼(P) 이상 정도에서 개시하며, 가디언의 개시 시간 윈도우는 노드 컴퓨터의 개시 시간 윈도우 이전에 프리시젼 이상 정도에서 종결하는 것을 특징으로 하는 방법.
  6. 적어도 하나의 분배기 유니트(V1, V2)와 통신 채널(c11 ... c42)에 의해 서로 연결되는 다수의 노드 컴퓨터(K1 ... K4)를 갖추며, 각 노드 컴퓨터가 자동 통신 제어 유니트(CON)를 구비하며, 통신 채널로의 액세스가 수직적인 시간 슬라이싱 방법에 따라 발생하며, 가디언(GUA)이 노드 컴퓨터를 떠나는 메시지를 검사하기 위해 제공되는 오류-허용 분산형 컴퓨터 시스템에 있어서,
    독립적으로 형성된 가디언(GUA)이 SOS("slightly off specification") 오류로 부과되는 메시지를 정확한 메시지로 또는 모든 수신 노드 컴퓨터(K1 ... K4)에 의해 명확하게 부정확한 것으로서 인식될 수 있는 메시지로 전환시키는데 적합화되는 것을 특징으로 하는 오류-허용 분산형 컴퓨터 시스템.
  7. 제 6 항에 있어서, 가디언(GUA)은 독립적 시간 기준을 가지며 노드 컴퓨터(K1 ... K4)의 통신 제어 유니트(CON)에 의해 전달되는 메시지의 개시가 가디언(GUA)에 선험적으로 공지된 메시지의 개시 시간 윈도우(TGUA)내에 있을 뿐만 아니라 만일 모든 수신 노드 컴퓨터에 의해 부정확한 것으로서 인식될 수 있는 불완전한 메시지가 형성되기 위해서 메시지가 이러한 시간 윈도우의 외측에 있다면 해당 통신 채널(c11... c42)에 인접하여 근접한지를 검사하기에 적합화되는 것을 특징으로 하는 오류-허용 분산형 컴퓨터 시스템.
  8. 제 6 항 또는 제 7 항에 있어서, 가디언(GUA)은 관련 코딩 규칙을 고려하며 그 로컬 시간 기준과 로컬 전원을 사용하여 시간 영역과 값 영역에서 각 메시지의 도입하는 물리적 신호를 재발생시키도록 적합화되는 것을 특징으로 하는 컴퓨터 시스템.
  9. 제 6 항 또는 제 7 항에 있어서, 가디언(GUA)은, 메시지를 수신하지 않는 경우에, 올바른 CRC와 올바른 길이를 갖는 어떠한 메시지를 발생시키지 않도록 적합화되는 것을 특징으로 하는 컴퓨터 시스템.
  10. 제 6 항 또는 제 7 항에 있어서, 노드 컴퓨터(K1 ... K4)의 개시 시간 윈도우(TCON)의 시작은 가디언의 개시 시간 윈도우(TGUA)의 시작 이전에 시스템의 프리시젼(P) 이상 정도에 위치하며, 가디언의 개시 시간 윈도우의 종결은 코스트 컴퓨터의 개시 시간 윈도우의 종결 이전에 상기 프리시젼 이상 정도에 위치하는 것을 특징으로 하는 컴퓨터 시스템.
  11. 제 6 항 또는 제 7 항에 있어서, 가디언(GUA)은 분배기 유니트(V1, V2) 중 적어도 하나에 통합될 수 있으며, 상기 분배기 유니트는 독립형 전원과 독립형 오류-허용 분산형 클럭 동기화부를 갖는 것을 특징으로 하는 컴퓨터 시스템.
KR1020037005029A 2000-10-10 2001-10-08 오류-허용 분산형 컴퓨터 시스템의 오류 처리 방법 및시스템 KR100848853B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
ATA1723/2000 2000-10-10
AT0172300A AT410490B (de) 2000-10-10 2000-10-10 Verfahren zur tolerierung von ''slightly-off- specification'' fehlern in einem verteilten fehlertoleranten echtzeitcomputersystem
PCT/AT2001/000322 WO2002031656A2 (de) 2000-10-10 2001-10-08 Behandeln von fehlern in einem fehlertoleranten verteilten computersystem

Publications (2)

Publication Number Publication Date
KR20030048430A KR20030048430A (ko) 2003-06-19
KR100848853B1 true KR100848853B1 (ko) 2008-07-29

Family

ID=3688740

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020037005029A KR100848853B1 (ko) 2000-10-10 2001-10-08 오류-허용 분산형 컴퓨터 시스템의 오류 처리 방법 및시스템

Country Status (8)

Country Link
US (1) US7124316B2 (ko)
EP (1) EP1325414B1 (ko)
JP (1) JP3953952B2 (ko)
KR (1) KR100848853B1 (ko)
AT (2) AT410490B (ko)
AU (1) AU2001291467A1 (ko)
DE (1) DE50102075D1 (ko)
WO (1) WO2002031656A2 (ko)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10065115A1 (de) * 2000-12-28 2002-07-04 Bosch Gmbh Robert Verfahren und Kommunikationssystem zum Datenaustausch zwischen mehreren über ein Bussystem miteinander in Verbindung stehenden Teilnehmern
DE10144070A1 (de) * 2001-09-07 2003-03-27 Philips Corp Intellectual Pty Kommunikationsnetzwerk und Verfahren zur Steuerung des Kommunikationsnetzwerks
DE10148325A1 (de) * 2001-09-29 2003-04-17 Daimler Chrysler Ag Buswächtereinheit
DE10206875A1 (de) * 2002-02-18 2003-08-28 Philips Intellectual Property Verfahren und Schaltungsanordnung zum Überwachen und Verwalten des Datenverkehrs in einem Kommunikationssystem mit mehreren Kommunikationsknoten
EP1376356A1 (en) 2002-06-26 2004-01-02 Fujitsu Siemens Computers, LLC Error reporting network in multiprocessor computer
DE10262035B4 (de) * 2002-10-29 2006-03-23 Oasis Silicon Systems Ag Intelligenter Netzwerk Interface Controller
EP1622794A1 (en) * 2003-05-06 2006-02-08 Philips Intellectual Property & Standards GmbH Timeslot sharing over different cycles in tdma bus
GB2404827A (en) * 2003-08-05 2005-02-09 Motorola Inc Fault containment at non-faulty processing nodes in TDMA networks
US7907628B2 (en) * 2003-11-19 2011-03-15 Honeywell International Inc. Priority based arbitration for TDMA schedule enforcement in a multi-channel system
US20050172167A1 (en) * 2003-11-19 2005-08-04 Honeywell International Inc. Communication fault containment via indirect detection
WO2005053244A2 (en) * 2003-11-19 2005-06-09 Honeywell International Inc. Simplified time synchronization for a centralized guardian in a tdma star network
US8301885B2 (en) 2006-01-27 2012-10-30 Fts Computertechnik Gmbh Time-controlled secure communication
US8255732B2 (en) * 2008-05-28 2012-08-28 The United States Of America, As Represented By The Administrator Of The National Aeronautics And Space Administration Self-stabilizing byzantine-fault-tolerant clock synchronization system and method
DE102009030204A1 (de) * 2009-06-24 2010-12-30 Audi Ag Sternkoppler für ein Bussystem, Bussystem mit einem solchen Sternkoppler sowie Verfahren zum Austauschen von Signalen in einem Bussystem
US9575859B2 (en) 2012-02-22 2017-02-21 Fts Computertechnik Gmbh Method for fault recognition in a system of systems
AT512665B1 (de) * 2012-03-20 2013-12-15 Fts Computertechnik Gmbh Verfahren und Apparat zur Bildung von Software Fault Containment Units in einem verteilten Echtzeitsystem
WO2016033629A2 (de) 2014-09-05 2016-03-10 Fts Computertechnik Gmbh Computersystem und verfahren für sicherheitskritische anwendungen
EP3201774B1 (de) 2014-10-01 2019-02-20 TTTech Computertechnik AG Verteiltes echtzeitcomputersystem und zeitgesteuerte verteilereinheit
US10025344B2 (en) 2015-04-21 2018-07-17 The United States Of America As Represented By The Administrator Of Nasa Self-stabilizing distributed symmetric-fault tolerant synchronization protocol
EP3388944A1 (de) * 2017-04-13 2018-10-17 TTTech Computertechnik AG Verfahren zur fehlererkennung in einem betriebssystem
DE102022116307A1 (de) 2022-06-30 2024-01-04 Zf Cv Systems Global Gmbh Fahrzeugnetzwerk zur Datenkommunikation zwischen Komponenten eines Fahrzeugs sowie System und Fahrzeug damit und Verfahren dafür

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0622712A2 (en) * 1993-04-28 1994-11-02 Allen-Bradley Company Communication network with time coordinated station activity

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AT382253B (de) * 1984-06-22 1987-02-10 Austria Mikrosysteme Int Lose gekoppeltes verteiltes computersystem
EP0658257B1 (de) * 1992-09-04 1996-12-18 Fault Tolerant Systems Kommunikationskontrolleinheit und verfahren zur übermittlung von nachrichten
FI96733C (fi) * 1993-06-18 1996-08-12 Nokia Telecommunications Oy Tilaajaverkkojärjestely tilaajien liittämiseksi yleiseen puhelinverkkoon
US5403778A (en) 1994-01-06 1995-04-04 Texas Instruments Incorporated Limited metal reaction for contact cleaning and improved metal-to-metal antifuse contact cleaning method
US5694542A (en) * 1995-11-24 1997-12-02 Fault Tolerant Systems Fts-Computertechnik Ges.M.B. Time-triggered communication control unit and communication method
DE19620137C2 (de) * 1996-05-07 2000-08-24 Daimler Chrysler Ag Protokoll für sicherheitskritische Anwendungen
US6467003B1 (en) * 1997-01-21 2002-10-15 Honeywell International, Inc. Fault tolerant data communication network
US6574211B2 (en) * 1997-11-03 2003-06-03 Qualcomm Incorporated Method and apparatus for high rate packet data transmission
US6763032B1 (en) * 1999-02-12 2004-07-13 Broadcom Corporation Cable modem system with sample and packet synchronization
AT407582B (de) * 1999-08-13 2001-04-25 Fts Computertechnik Gmbh Nachrichtenverteilereinheit mit integriertem guardian zur verhinderung von ''babbling idiot'' fehlern
KR100434459B1 (ko) * 2000-06-27 2004-06-05 삼성전자주식회사 이동통신 시스템에서 패킷의 전송 제어방법 및 장치
US7512109B2 (en) * 2000-09-29 2009-03-31 Intel Corporation Slot structure for radio communications system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0622712A2 (en) * 1993-04-28 1994-11-02 Allen-Bradley Company Communication network with time coordinated station activity

Also Published As

Publication number Publication date
JP3953952B2 (ja) 2007-08-08
DE50102075D1 (de) 2004-05-27
EP1325414B1 (de) 2004-04-21
JP2004511056A (ja) 2004-04-08
KR20030048430A (ko) 2003-06-19
ATA17232000A (de) 2002-09-15
EP1325414A2 (de) 2003-07-09
WO2002031656A2 (de) 2002-04-18
WO2002031656A3 (de) 2002-07-25
US7124316B2 (en) 2006-10-17
AU2001291467A1 (en) 2002-04-22
US20040030949A1 (en) 2004-02-12
AT410490B (de) 2003-05-26
ATE265063T1 (de) 2004-05-15

Similar Documents

Publication Publication Date Title
KR100848853B1 (ko) 오류-허용 분산형 컴퓨터 시스템의 오류 처리 방법 및시스템
US10025651B2 (en) FlexRay network runtime error detection and containment
US7586953B2 (en) Method for monitoring a communication media access schedule of a communication controller of a communication system
Kopetz Fault containment and error detection in the time-triggered architecture
US7920587B2 (en) Method for establishing a global time base in a time-controlled communications system and communications system
Ademaj et al. Evaluation of fault handling of the time-triggered architecture with bus and star topology
US8432814B2 (en) Node of a distributed communication system, node and monitoring device coupled to such communication system
US7848361B2 (en) Time-triggered communication system and method for the synchronization of a dual-channel network
US8498276B2 (en) Guardian scrubbing strategy for distributed time-triggered protocols
US7474625B2 (en) Time-triggered communication system and method for the synchronized start of a dual-channel network
EP4107880A1 (en) Method and system for performing time-synchronization
US20050172167A1 (en) Communication fault containment via indirect detection
Kordes et al. Startup error detection and containment to improve the robustness of hybrid FlexRay networks
Milbredt et al. An investigation of the clique problem in FlexRay
Jochim et al. An Efficient Implementation of the SM Agreement Protocol for a Time Triggered Communication System
Wang et al. Enforcing Fail-Silence in the Entire FlexRay Communication Cycle
Morris A Fault Tolerance Analysis of Safety-Critical Embedded Systems

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130624

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20140610

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20150721

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20160706

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20170626

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee