KR20230156693A - 방사선 유발성의 오류 자체 보호 회로들 및 아키텍쳐들 - Google Patents
방사선 유발성의 오류 자체 보호 회로들 및 아키텍쳐들 Download PDFInfo
- Publication number
- KR20230156693A KR20230156693A KR1020237029067A KR20237029067A KR20230156693A KR 20230156693 A KR20230156693 A KR 20230156693A KR 1020237029067 A KR1020237029067 A KR 1020237029067A KR 20237029067 A KR20237029067 A KR 20237029067A KR 20230156693 A KR20230156693 A KR 20230156693A
- Authority
- KR
- South Korea
- Prior art keywords
- circuit
- radiation
- circuits
- protection means
- protection
- Prior art date
Links
- 230000005855 radiation Effects 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 52
- 238000004891 communication Methods 0.000 claims description 29
- 230000001052 transient effect Effects 0.000 claims description 14
- 230000007246 mechanism Effects 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 12
- 238000011084 recovery Methods 0.000 claims description 11
- 238000013459 approach Methods 0.000 claims description 7
- 230000001419 dependent effect Effects 0.000 claims description 3
- 230000009471 action Effects 0.000 claims description 2
- 238000003860 storage Methods 0.000 claims description 2
- 230000008030 elimination Effects 0.000 claims 3
- 238000003379 elimination reaction Methods 0.000 claims 3
- 230000002265 prevention Effects 0.000 claims 3
- 230000001351 cycling effect Effects 0.000 abstract description 53
- 230000000191 radiation effect Effects 0.000 abstract description 8
- 230000000116 mitigating effect Effects 0.000 abstract description 6
- 238000005516 engineering process Methods 0.000 description 13
- 239000004065 semiconductor Substances 0.000 description 10
- 230000004913 activation Effects 0.000 description 8
- 238000001994 activation Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 230000015654 memory Effects 0.000 description 8
- 238000002955 isolation Methods 0.000 description 7
- 230000001960 triggered effect Effects 0.000 description 7
- 230000006378 damage Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000009396 hybridization Methods 0.000 description 5
- 230000003071 parasitic effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000002285 radioactive effect Effects 0.000 description 5
- 239000004744 fabric Substances 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000012212 insulator Substances 0.000 description 3
- 239000002245 particle Substances 0.000 description 3
- 230000001681 protective effect Effects 0.000 description 3
- 229910052710 silicon Inorganic materials 0.000 description 3
- 239000010703 silicon Substances 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 230000003716 rejuvenation Effects 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 230000008093 supporting effect Effects 0.000 description 2
- 208000011580 syndromic disease Diseases 0.000 description 2
- 230000008646 thermal stress Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 102100025566 Chymotrypsin-like protease CTRL-1 Human genes 0.000 description 1
- 101000856199 Homo sapiens Chymotrypsin-like protease CTRL-1 Proteins 0.000 description 1
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000002301 combined effect Effects 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005336 cracking Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000004377 microelectronic Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000009206 nuclear medicine Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000013021 overheating Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000001959 radiotherapy Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0793—Remedial or corrective actions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/1438—Restarting or rejuvenating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/18—Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits
- G06F11/183—Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits by voting, the voting not being performed by the redundant components
- G06F11/184—Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits by voting, the voting not being performed by the redundant components where the redundant components implement processing functionality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
- G06F11/203—Failover techniques using migration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/18—Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits
- G06F11/183—Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits by voting, the voting not being performed by the redundant components
- G06F11/184—Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits by voting, the voting not being performed by the redundant components where the redundant components implement processing functionality
- G06F11/185—Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits by voting, the voting not being performed by the redundant components where the redundant components implement processing functionality and the voting is itself performed redundantly
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/805—Real-time
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Hardware Redundancy (AREA)
- Safety Devices In Control Systems (AREA)
- Apparatus For Radiation Diagnosis (AREA)
- Emergency Protection Circuit Devices (AREA)
- Radiation-Therapy Devices (AREA)
- Power Sources (AREA)
- Debugging And Monitoring (AREA)
- Microcomputers (AREA)
Abstract
본 발명은 증가되는 방사선 환경에서 사용하기 위한 전자장치(회로들 및 그러한 회로들을 포함하는 시스템들, 특히 유사한 타일형의 다중 및 다수 코어 시스템들)에 관한 것이다.
본 발명은, (메인) 회로들에서의 방사선 효과를 경감시키기 위한 (동작) 방법들 및 장치들(시스템들)을 제공하는데, 이 (메인) 회로들은 ('타일들'이라고도 불려지고) 이들을 적응화시키고 이들에 추가의 빌딩 블록들을 제공하여 디파워링(depowering) 기법의 사용을 가능하게 함으로써 이러한 장치들을 정의한다.
본 발명은 또한 장치들의 그 자체의 그러한 빌딩 블록들(회로들 또는 서브회로들)에서 방사선 효과를 경감시킨다. 본 발명은, 현재 디파워링 싸이클(depowering cycle)을 겪고 있지 않는 칩의 그러한 자원들에 완전한 기능성을 보유하게 하도록 하여 동시에 그러한 모두를 파워 싸이클링(power cycling)하는 것을 피하게 된다.
본 발명은, (메인) 회로들에서의 방사선 효과를 경감시키기 위한 (동작) 방법들 및 장치들(시스템들)을 제공하는데, 이 (메인) 회로들은 ('타일들'이라고도 불려지고) 이들을 적응화시키고 이들에 추가의 빌딩 블록들을 제공하여 디파워링(depowering) 기법의 사용을 가능하게 함으로써 이러한 장치들을 정의한다.
본 발명은 또한 장치들의 그 자체의 그러한 빌딩 블록들(회로들 또는 서브회로들)에서 방사선 효과를 경감시킨다. 본 발명은, 현재 디파워링 싸이클(depowering cycle)을 겪고 있지 않는 칩의 그러한 자원들에 완전한 기능성을 보유하게 하도록 하여 동시에 그러한 모두를 파워 싸이클링(power cycling)하는 것을 피하게 된다.
Description
본 발명은, 원자력 발전소의 반응기 챔버의 부근, 비행체들, 지구 궤도 가까이, 심 우주 및 외계 천체에서 동작하는 우주 비행체들 뿐만 아니라 방사선 치료 장비 제어를 위한 핵의학에서와 같이 증가되는 방사선 환경에서 사용하기 위한 전자장치(회로들 및 그러한 회로들을 포함하는 시스템들, 특히 유사한 타일형의 다중 및 다수 코어 시스템들(like tiled multi- and manycore systems))에 관한 것으로, 특히 그러한 방사선 환경에서 전자장치들을 사용하는 동안 일어나는 문제에 대응할 수 있는 전자장치 (및 관련 실행 및 동작 방법들)에 관한 것이다.
방사선은, 단일 및 다중 비트 업셋(single and multiple bit upsets) 뿐만 아니라 이하에서 기술하는 바와 같이 래치업(latch ups)을 통한 단락(short circuits)을 야기함으로써 집적 회로들에 영향을 준다. 비트 업셋은 전형적으로 지속적이 아닌(non-persistent) 특성이 있고 전자 회로(예를 들어, 메모리 셀)의 상태를 변화시키나, 일단 이 상태가 덮어쓰기(overwritten)되면 회로는 정상적으로 계속하여 동작한다. 몇몇 상황들에서, 업셋 유발성의 상태 변화들은 지속적으로(persistent) 될 수도 있어서 상태를 동결시키고 회로를 사용 불가 상태로 만들거나 특별한 조치가 취해지지 않으면 회로가 다른 회로들에 악의적이고 해가 되게 할 수 있다.
전술한 바와 같이, 래치업은, 고치지 않고 방치 시에 반도체 다이를 국부적으로 과열시킴으로써 영구적으로 손상시킬 수 있고 이에 따라 소손(burnout) 또는 열응력(thermal stresses) 및 기계적 파괴 모드(mechanical failure modes)라는 결과를 가져올 수 있다.
종래의 방법들은 값비싼 특수 목적의 내방사선(radiation hardened) 설계들을 적용함으로써 또는 그러한 효과를 나타내지 않는 것으로 알려진 (SOI(Silicon on Insulator)와 같은) 특수 물질들을 제조에 사용함으로써 이러한 효과를 피하는 것에 목표를 두고 있다. 다른 것들은 이러한 효과들을 칩 입도(chip granularity)에서 경감시키는데, 소프트웨어 스택을 재인스턴스화하고(re-instantiating) 플래시 메모리 및 레지스터 컨텐츠를 업로드함으로써 반도체 다이에서의 원하지 않는 싸이리스터 효과 및 단일 이벤트 업셋들(Single Event Upsets)을 막기에 충분한 시간 동안 전원 공급을 제거함으로써 단일 이벤트 래치업들(Single Event Latch ups)을 제거하기 위해 전체 IC를 턴오프하고 리셋하게 된다.
계속 동작 상태로 두기 위해서, 종래의 시스템들은 용장성 기능을 구현하는 다수의 칩들을 포함해야 하고, 경감 방법들은 한번에 다수의 칩을 비활성화시키지 않도록 해야 한다. MPSoC(multi- or many- processor systems on a chip)에서 코어 카운트들(core counts)을 증가시키는 것은, 값비싼 크로스칩 통신(cross-chip communication) 때문에 그리고 단일의 칩에서 모든 코어들을 동시에 파워 싸이클시키기 위한 요구조건 때문에 이러한 해법들을 점증적으로 비효율적으로 만든다.
기술적 정의
SEL(Single Event Latch-up)은 반도체 벌크에서 기생 싸이리스터(parasitic thyristor)를 도입시키지 않는, CMOS SOI(Silicon-On-Insulator)와 다른 CMOS 족 기술들 또는 등가 기술들로 제조되는 마이크로전자 회로들에서 일어날 수 있는 방사선 효과로 알려져 있다. SEL들은 반도체 격자와의 고 에너지 입자 상호작용 동안에 생성되는 전기 전하에 의해 기생 싸이리스터(SCR: silicon-controlled rectifier) 스위치 온이라는 결과를 가져온다. SEL은 영향을 받은 반도체 소자 또는 그 일부로부터 전원 공급을 제거함으로써만 스위치 오프될 수 있다. 고치지 않은 SEL은 반도체 소자의 열적 파괴, 즉 물리적 소손 또는 온도에 의해 유발된 열응력으로 인한 반도체 소자의 크랙을 야기할 수 있다. 래치 업은 반도체 다이에서 국부적으로 유발되나, 방사선 레벨들(입자 플럭스 및 입자 에너지)에 따라 물리적으로 분리된 반도체 소자들에서 (그리고 따라서 여러 타일들에서) 독립적인 다중 단일 이벤트 래치업(multiple Single Event Latch-up) 발생의 가능성이 있다.
SEFI(Single Event Functional Interrupt)는 내부 오작동 때문에 전자 장치의 일부 또는 전체 기능이 작동을 멈추는 조건(condition)이다. 이러한 유형의 오류가 주도적이다 - 이는 일시적인 마이크로 래치업에 의해 또는 다른 이유들에 의해 야기되는 타일에 존재하나 영향을 받은 기능을 실행하고자 하는 시도 중에만 나타난다.
마이크로 래치업은 SEL의 일종인데, 그 발생은, 최신의 집적 회로들의 복잡한 구조 및 토폴로지 때문에, 즉각적으로 보이지 않는다. 마이크로 래치업은 다음의 요인으로 인해 전류 측정에 의해 쉽게 검출될 수 없다.
. 집적 회로들의 복잡한 (큰 변동성, 큰 서지) 공칭 전력 소모 특징
. 래치업은 약해서 (기생 SCR 저항이 전형적인 경우 보다 큼) 비교적 낮은 오류 전류를 야기한다.
특별한 종래 기술
특허 출원 EP3580681A1은 단일 또는 다중 이벤트 업셋 유발성 오류의 비제어된 방식의 경감을 방지하기 위한 기술을 언급하고, 특히 로우 레벨 시스템 소프트웨어(예를 들어, 운영 체제 커널)에서 그리고 어느 정도까지는 하드웨어에서 오류 신드롬들의 단일 포인트(single-point of failure syndromes)를 제거하기 위한 방법들 및 장치들을 제공한다. 이러한 기술들은 또한 액세스 제어들 및 보터들(voters)의 조합으로 칩 상에서의 타일형의 다중 및 다수 코어 시스템들을 확장시키기 위한 아키텍쳐 하이브리드화를 강화한다(액세스 제어들 및 보터들은 함께 보호 유니트들을 형성하고 임의의 중요한(critical) 동작, 특히 액세스 제어들의 상태를 변화시키는 동작이 복제들의 정족수(quorum of replicas)를 초과하는 오류 임계값에 있어서의 일치를 요하는 방식으로 상호동작한다).
전술한 접근책은, 많은 다른 시스템들과 마찬가지로, 믿을만하고 신뢰할 수 있는 소자들이 인식가능한 방식으로 부서짐으로써(crashing) 전적으로 고장나고 그러한 부서짐(crash) 후에는 부서진 소자로부터 또는 그 관련 타일을 그대로 둠으로써 어떠한 손상도 생기지 않는다는 내재적 가정하에 동작한다. 명백히 방사능 환경은 이러한 가정들을 위반하는데, 그 이유는 SEL들이 부서진 믿을만하고 신뢰할 수 있는 소자들에서 또는 그들이 부서진 후에 더 이상 제어할 수 없는 타일들에서 매우 잘 증강되기 때문이다.
본 발명의 목적
본 발명의 목적은, 래치업이 내방사선 기술에 전적으로 의존하지 않고 (이는 원칙적으로 그와 호환되지만) (예를 들어, 회로로부터 전원 공급을 제거하고 재확립함으로써 - 이는 또한 파워 싸이클링(power cycling)이라 정의됨 -) 제거될 수 있는 효과라는 사실을 명시적으로 이용함으로써 그러한 방사능 환경에서 전자장치들을 사용하는 동안 일어나는 (방사선 유발성의) (비일시적의) 오류들, 특히 래치업들에 대응할 수 있는 전자장치들(회로들 및 그러한 회로들을 포함하는 시스템들) (및 관련 실행 또는 동작 방법들)을 제공하는 것이다. 내방사선 회피 기술은 전력 소모 및 프로세싱 능력 면에서의 최상의 기술이 사용될 수 있음을 보장해 준다.
본 발명의 목적은, 점증하는 방사능 환경에서 사용하기 위한, 비용효율적인 고성능의 내방사선 MPSoCs(따라서 회로들 및 그러한 회로들을 포함하는 시스템들) - 그러나 그에 전적으로 의존하지 않음 - 을 제공하기 위한 전자장치들을 제공하는 것이다.
본 발명의 목적은 래치업 문제를 없애고 그에 부가하여 마이크로 래치업과 같은 SEFI(single Event Functional Interrupt)에 대응하는 것이다.
안전하고 안정될 것을 요구하는 시스템들은 본 발명으로부터 혜택을 받는데, 특히 우주와 같이 방사선에 민감한 환경에서의 지면에서 사용하기 위해 설계된 칩들을 재사용하는 것에 의존할 것을 고집하는 경우에 특히 그러함을 강조할 수 있다.
본 발명은, (메인) 회로들에서의 방사선 효과를 경감시키기 위한 (동작) 방법들 및 장치들(시스템들)을 제공하는데, 이 (메인) 회로들은 ('타일들'이라고도 불려지고) 이들을 적응화시키고 이들에 추가의 빌딩 블록들을 제공하여 디파워링(depowering) 기법의 사용을 가능하게 함으로써 이러한 장치들을 정의한다. 본 발명은 내방사선 기능이 없는 칩들(non-radiation hardened chips)에 대해 전적으로 작동시키는 것을 허용한다. 본 발명은 또한 장치들의 그 자체의 그러한 빌딩 블록들(building blocks)(회로들 또는 서브회로들)에서 방사선 효과를 경감시킨다. 본 발명은, 현재 디파워링 싸이클(depowering cycle)을 겪고 있지 않는 칩의 그러한 자원들에 완전한 기능성을 보유하게 하도록 하여 동시에 그러한 모두를 파워 싸이클링(power cycling)하는 것을 피하게 된다.
본 발명은 최신의 MPSoC들을 강화할 뿐만 아니라 모든 코어들을 동시에 파워 싸이클링해야 할 필요없이 심한 방사선 환경(radiation-hard environments)에 견딜수 있는 능력을 가진 신규한 설계들을 허용한다. 이를 성취하기 위해 종래의 시스템들이 내방사선 방식으로 MPSoC에 구현되어야 하는 한편, 단일 이벤트 업셋들의 효과가 MPSoC의 전체 소프트웨어 스택에 영향을 주는 제어되지 않은 방식으로 전파되지 못하도록 하는 것을 확실하게 해야 함을 강조할 필요가 있다. 래치업이 일어날 수 없는 내방사선 구현들(예를 들어, SoI(Silicon On Insulator) 상에서의)을 위한 그러한 보호의 원리들은 이미 보인 바 있다.
본 발명에 따르면 서로 다른 종류의 메인 회로들이 있다: 능동의 것들(타일들이라고 요약되는, 코어들 및 로컬 메모리들을 가지는 네트워크 인터페이스 카드와 같은 주변장치)과 수동의 것들(온칩 네트워크(on chip network) 및 공유 온 오프 칩 메모리 블록들(shared on- or off-chip memory blocks)에서의 다른 타일들에 그것을 연결하는 네트워크 세그먼트들)이 구별될 수 있다. 후자를 자원들이라 부르는데, 타일은 메인 메모리에서의 데이터에 대해 동작한다는 의미에서이다. 본 발명 내에서, 그들 모두를, 가능하게는 그들의 상태를 이동시킴으로써, 파워 싸이클링할 수 있다.
타일들(tiles)은 코프로세서들, DSP 블록들, 통신 인터페이스들, 메모리/메모리 제어기들일 수 있다. 이는 네트워크 온칩 라우터들(routers of network on chip)을 의미할 수도 있다. 또한 통신 패브릭(communication fabric)은 방사선 유발성 오류들(radiation induced faults)에 취약한 것으로 고려될 수 있는데, 예를 들어 오류들은 멀티플렉서들/디멀티플렉서들 또는 어드레스 디코더들에서 일어난다. 본질적으로, 타일은 기능성(functionality)을 포함하는 어떤 것도 된다(프로세서 코어들 등이 있고 라우터들, 어드레스 디코더들 등과 같은 통신 수단도 포함함). 대안적으로, 타일들은, 본 발명에 의해 검토되는 오류 모델(failure model)이 적용되는 모든 것으로서 표시될 수 있다.
본 발명은, 제어되는 시스템을 동작시키기 위해 필요로 되는 기능성을 유지하면서 온칩 리소스들(on-chip resources)의 서브세트가 회복될 수 있도록 보장함으로써 종래의 다중 칩 해법들(multi-chip solutions)을 개선한다. 조감도적 관점에서, 이 해법들은 종래의 시스템들에서는 내방사선 방식으로 MPSoC에 구현되어야 하는 통합 파워 싸이클링 제어(integrate power cycling control)를 논의하는 한편, 단일 이벤트 업셋들의 효과가 MPSoC의 전체 소프트웨어 스택에 영향을 주는 제어되지 않은 방식으로 전파되지 못하도록 하는 것을 확실하게 한다.
래치업에 취약한, 래치업 제어의 기술 노드로의 단순한 통합이 이 제어 회로를 래치업에 취약한 상태로 내버려둠을 여기서 강조할 가치가 있다. 외부의 래치업 (유발 방지(hardened)) 제어 회로를 통한 정밀립 제어(fine grain control)는, 코어들을 디파워링하고 시스템을 제어되지 않은 업셋 전파로부터 보호하기 위한 필요한 온칩 앵커 포인트들(anchor points on chip)과 인터페이스하기 위해 높은 비용(예를 들어, 다중 외부 배선들)을 유발하고, 내방사선 기능이 없는 MPSoC 상에 구현되는 이러한 인터페이스들과 앵커 포인트들은 여전히 래치업들에 취약하게 된다.
본 발명은, 우발적이고 악의적인 오류들의 제어되지 않은 전파를 방지하기 위해 (그가 보호하는 메인 회로에 비해) 특수한 (방사선에 덜 취약한) (보호) 회로들을 도입함으로써 구조적인 하이브리드화(architectural hybridization)의 개념을 강조하는데, 이러한 회로는 파워 싸이클링을 위해 필요한 단계들(의 일부)을 실행하거나 지원하도록 설계되어 후에 래치업들을 제거한 후에 코어에 의해 실행되는 기능성을 재인스턴스화한다(re-instantiating).
본 발명은, 개별적인 타일들(메인 회로들) 및 다른 지원 회로들(예를 들어, 전술한 특수 보호 회로들과 같은 신뢰성 있고 믿을만한 소자들 및 네트워크 세그먼트들)을 모두 파워 싸이클링하고 재구성가능한 패브릭(reconfigurable fabric)으로서(예를 들어, FPGA들로서) 구현되는 것들을 재인스턴스화함으로써 회복시킨다는 점에서 회복(rejuvenation)의 개념을 강화한다.
본 발명의 실시예에서 마이크로 래치업들이 또한 대응된다. 마이크로 래치업들이 전류 측정을 통해 검출하는 것이 불가능한 것은 아니지만 비현실적이기 때문에, 믿을만한 결과를 제공하기 위한 프로세싱 유니트의 능력은 보장될 수 없다(단일 이벤트 기능 인터럽트(Single Event Functional Interrupt)). 따라서 잠재해 있는 그러나 아직 영구적인 것은 아닌 오류들을 제거하기 위해 주기적인 파워 싸이클링과 같은 선제적인 기법들에 의존하여야 한다.
특허출원 P138211EP는 단일 또는 다중 이벤트 업셋 유발성 오류들의 비제어된 방식의 경감을 방지하기 위한 기술을 언급하고, 특히 로우 레벨 시스템 소프트웨어(예를 들어, 운영 체제 커널)에서 그리고 어느 정도까지는 하드웨어에서 오류 신드롬들의 단일 포인트(single-point of failure syndromes)를 제거하기 위한 방법들 및 장치들을 제공한다. 이러한 기술들은 또한 액세스 제어들 및 보터들(voters)의 조합으로 칩 상에서의 타일형의 다중 및 다수 코어 시스템들(tiled multi- and manycore systems on a chip)을 확장시키기 위한 아키텍쳐(구조적) 하이브리드화(architectural hybridization)를 강화한다(액세스 제어들 및 보터들은 함께 보호 유니트들을 형성하고 임의의 임계적 동작, 특히 액세스 제어들의 상태를 변화시키는 동작이 복제들의 정족수(quorum of replicas)를 초과하는 오류 임계값에 있어서의 일치를 요하는 방식으로 상호동작한다).
(특별히 제공되는 보호 회로들과 같이) 믿을만하고 신뢰할 수 있는 소자들이 인식가능하고 특별한 비손상적(non-damaging) 방식으로 부서짐으로써(crashing) 전적으로 고장 난다는 내재적 가정하에 동작하는 시스템들에 반해, 본 발명은 이러한 가정들을 위반하는 방사능 환경을 취급하는데, 이는 SEL들이 그러한 부서진 믿을만하고 신뢰할 수 있는 소자들에서 또는 그들이 부서진 후에 더 이상 제어할 수 없는 타일에서 매우 잘 증강될 수 있기 때문이다. 본 발명은 정확히 이러한 보호를 제공, 즉 믿을만한 소자들과 그들의 연관된 타일들을 반복적으로 보호하면서, 다른 시스템들이 모든 중요한 동작들에 대해 용장성 로우 레벨 시스템 소프트웨어 제어를 통해 제공하는 유연성 및 적응성을 유지한다(서로 다른 방사능 환경을 포함함). 특히, 본 발명의 하나의 인스턴스는, 인지된 방사선 레벨에 따라 MPSoC의 어느 부분이 파워 싸이클링될 것인지를 제어하기 위해 언급된 종래 기술의 기법에 기초하여 더 이상 단일 포인트 오류로 만들어질 수 없는 그러한 복제된 커널(replicated kernel)을 허용할 것이다.
본 개시에 있어서, 회로는 전자 회로를 의미한다. (예를 들어, 전기 회로 측정의 일부로서 저항에 흐르는 전류를 측정하기 위한) 하나 이상의 전기 (전류 또는 전압을 나르는) 라인들 및/또는 스위치들(스위칭 수단이라고도 함) 및/또는 (저항들과 같은) 전자 소자들과 같은 다른 기본 회로들을 포함하는 수단들은, 예를 들어 전원 공급 수단(공급기 및/또는 접지) 및/또는 통신 연결 수단 및 제1 보호 수단에서 의도된 것이다. 추가의 예로서, 그러한 (방사선 유발성의) (일시적이 아닌) 오류들의 발생을 검출하기 위한 수단(40)은 기술한 바와 같이 과전류 검출 회로일 수 있다.
(회로 또는 타일을 셧다운하고 재시동하는 것을 의미하는) 파워 싸이클링(power cycling)의 개념은 전원 공급기로부터 연결 해제하고 그로 (그리고 바람직하게 회로가 연결된 다른 장치들로) 재연결하는 것으로서 설명될 수 있다. 특히 적어도 (방사선 유발성의) 일시적이 아닌 오류들을 다루고 방지하는 본 발명의 목적상, 상기 연결 해제는 상기 (방사선 유발성의) 오류들을 제거하기에 시간적으로 충분히 길다.
본 발명은 발명된 기법을 반복적으로 적용하는데, 메인 회로가 제1 보호 수단 및 상기 제1 보호 수단과 유사하기 보다는 그 자체로 일종의 보호 수단을 가지는 제2 보호 수단을 구비한다는 점에서이다.
따라서, 본 발명은, (방사선 유발성의) (일시적이 아닌) 오류들로부터의 복구를 돕기 위해 적응화된 회로(그 예는 도 1에 도시되어 있음)를 제1 측면으로서 제공하는데, 이 회로는 메인 회로, 상기 메인 회로를 전원 라인들(power lines)(공급기 및/또는 접지)에 연결하기 위한 전원 공급 수단, 및(또는) 상기 메인 회로를 통신 수단에 연결하기 위한 통신 연결 수단을 포함하고, 상기 회로는, (예를 들어, 전원 라인(도 1의 OC 참조)을 따라 흐르는 전류를 축정함으로써) 그러한 (방사선 유발성의) (비일시적의) 오류의 발생을 검출하기 위한 수단을 포함하는 제1 보호 수단을 더 구비하는 것을 특징으로 하고, 상기 전원 공급 수단과 상기 통신 연결 수단 중의 하나와 상기 메인 회로 간에 하나 이상의 스위칭 수단이 제공되고, 상기 스위칭 수단은 제어 신호(도 1에서의 SHDN)에 대해 동작한다.
본 발명은, 상기 제어 신호들 또는 회로들 또는 타일들을 생성하는, 협력하여 상기 제어 신호들(도 8)을 생성하는, (도 2에서와 같이) 하나 또는 (도 3, 도 4, 도 5, 도 7에서와 같이) 그 보다 많은 수의 중앙 제어 회로들을 가진, (그 회로들 또는 타일들의 하나 이상에서의) (방사선 유발성의) (비일시적의) 오류들로부터 복구를 위해 적응화된 시스템(아키텍쳐)를 제2 측면으로서 제공한다.
본 발명은 또한 이러한 회로들 및/또는 시스템들의 설계 및/또는 관련 방법들의 파라미터들의 튜닝에 적합한 모든 종류의 시뮬레이터들(simulators)에 관한 것이고, 더욱이 변화하는 방사선 레벨들과의 미션(mission) 동안의 인스턴스를 위한 그러한 회로들 및/또는 시스템들의 모든 가능한 사용에 관한 것이다.
도 1은 회로(타일)과 제1 보호 수단에 의해 제공되는 ISOL 분리(isolation) 메커니즘의 예를 도시한다.
도 2는 복수의 회로를 포함하는 시스템을 도시하는데, 여기서 각각의 회로는, 예를 들어 도 1에서와 같은 (범용) 보호 수단 및 싱글톤(singleton) 파워 싸이클링 (중앙) 제어 회로 또는 제어기 접근책을 구비한다.
도 3은 복수의 회로를 포함하는 시스템을 도시하는데, 여기서 각각의 회로는, 예를 들어 도 1에서와 같은 (범용) 보호 수단 및 듀얼(dual) 또는 탠덤(tandem) 파워 싸이클링 (중앙) 제어 회로 또는 제어기 접근책을 구비한다.
도 4는 복수의 회로를 포함하는 시스템을 도시하는데, 여기서 각각의 회로는, 예를 들어 도 1에서와 같은 (범용) 보호 수단 및 삼중(triplicated) 파워 싸이클링 (중앙) 제어 회로 또는 상태 전이(state transfer)를 가진 제어기 접근책을 구비한다.
도 5는 복수의 회로를 포함하는 시스템을 도시하는데, 여기서 각각의 회로는, 예를 들어 도 1에서와 같은 (범용) 보호 수단 및 듀얼(dual) 또는 탠덤(tandem) 파워 싸이클링 (중앙) 제어 회로 또는 상태 전이(state transfer)를 가진 제어기 접근책을 구비한다.
도 6은 상기 제1, 제2 및 제3 보호 수단의 일부일 수 있는, 발진기 기반의 제어기에서 사용하기 위한 발진기 회로들을 추가의 특징으로서 도시한다. 발진기는 SDHN을 상승시키고 OC를 옵셋 를 가지고 매 마다 시간 동안 연결하도록 정적으로 구성된다. 선택적으로 통신 수단과의 연결이 제공된다.
도 7은 다중 제어 입력의 사용의 개념 그리고 이에 따라서 (파워 싸이클링의 목적으로) 스위치하기 위한 (SHDN) 신호의 보팅된 활성화(voted activation)를 위한 보팅 회로(voting circuit)를 적어도 가지는 (상기 제1 보호 수단으로의 제어를 제공하는) 제2 보호 수단을 그러한 경우에 가지도록 한 요구조건의 개념을 소개한다.
도 8은, 예를 들어 도 1에서와 같은 복수의 (상호 연결된) 회로들 및 다중 제어 입력의 사용의 개념 그리고 이에 따라서 (파워 싸이클링의 목적으로) 스위치하기 위한 보팅 회로(voting circuit)를 적어도 가지는 (상기 제1 보호 수단으로의 제어를 제공하는) 제2 보호 수단을 그러한 경우에 가지도록 한 요구조건의 개념을 다시 사용하여 상기 회로들로부터의 그리고 상기 회로들로의 서로 간의 통신을 가능하게 하기 위한 통신 수단(파워 싸이클링 제어는 정상적인 회로들 또는 타일들에서 구현됨)을 포함하는 시스템(아키텍쳐, 장치)을 도시한다.
도 9 및 도 10은 전원 공급 수단 및/또는 통신 수단에 연결된 또는 연결가능한 메인 회로(타일), 그들로부터 연결 해제하기 위한 (그리고 그들로 재연결하기 위한) 하나 이상의 스위칭 수단을 가지는 제1 보호 수단(타일 주위의 경계) 및 복수의 제2 보호 수단을 도시하는데, 여기서 복수의 제2 보호 수단은 그 자체로 제3 보호 수단의 제어하에 메인 회로(타일)로서 그들로부터 연결 해제하고 그들로 재연결하기 위한 하나 이상의 스위칭 수단을 가지는 제1 보호 수단(타일 주위의 경계)을 또한 가진다.
도 11 내지 도 14는 도 1 내지 도 10에서 논의된 시스템들에 대한 방법들을 위한 흐름도들을 도시한다.
도 15(좌측)는 복수의 (상호 연결된) 회로들을 포함하는 시스템을 도시하고, 도 15(우측)는 복수의 (상호 연결) 회로들을 도시하는데, 여기서 복수의 (상호 연결) 회로들의 각각은, 요구되는 것은 아니나 (범용의) (거의 아마도 동일하거나 유사한) 보호 수단을 구비한다.
도 16은 다중 제어 입력들의 사용의 개념 그리고 이에 따라서 (파워 싸이클링의 목적으로) 스위치하기 위한 (SHDN) 신호의 보팅된 활성화(voted activation)를 위한 보팅 회로(voting circuit) 및 레지스터들을 적어도 가지는 (상기 제1 보호 수단으로의 제어를 제공하는) 제2 보호 수단을 그러한 경우에 가지도록 한 요구조건의 개념을 (선제적 방법들의 일부로서) 소개한다.
도 17은 다중 제어 입력들의 사용의 개념 그리고 이에 따라서 (파워 싸이클링의 목적으로) 스위치하기 위한 (SHDN) 신호의 보팅된 활성화(voted activation)를 위한 보팅 회로(voting circuit) 및 레지스터들 및 과전류 검출 신호(OC)를 가진 피드백 루프를 적어도 가지는 (상기 제1 보호 수단으로의 제어를 제공하는) 제2 보호 수단을 그러한 경우에 가지도록 한 요구조건의 개념을 (반작용적인(re-active) 방법과 선제적인(pro-active) 방법이 결합된 방법의 일부로서) 소개한다.
도 18은 도 6 (발진기 기반의 제어기)의 개념들을 도 16의 실시예와 결합한다. 이 개념은 또한 도 17의 실시예와 결합될 수 있다. 더욱이, 통신 네트워크로부터 스위치로의 직접 입력을 선택적으로 가지는 추가의 특징이 도시된다.
도 19는 전원 공급 수단 및/또는 통신 수단에 연결된 또는 연결가능한 메인 회로(타일), 그들로부터 연결 해제하기 위한 (그리고 그들로 재연결하기 위한) 하나 이상의 스위칭 수단을 가지는 제1 보호 수단(타일 주위의 경계) 및 (여기서 그들의 보팅 메커니즘(voting mechanism)을 가지는) 복수의 제2 보호 수단을 도시하는데, 여기서 복수의 제2 보호 수단은 그 자체로 제3 보호 수단의 제어하에 메인 회로(타일)로서 그들로부터 연결 해제하고 그들로 재연결하기 위한 하나 이상의 스위칭 수단을 가지는 제1 보호 수단(타일 주위의 경계)을 또한 가지고, 제3 보호 수단 자체는, 예를 들어 OR 게이트 또는 다른 적당한 부울 함수를 통해 제2 보호 수단들의 출력들(outcomes)을 결합한다.
도 20은 복수의 (상호 연결된) 회로들을 포함하는 시스템을 도시하는데, 여기서 각각의 회로는 (범용의) (여기서는 유사한) 보호 수단을 가지고, 특히 각각의 회로는 제1 보호 수단 및 복수의 (소위) 제2 보호 수단을 구비하고, 이러한 제2 보호 수단들의 각각은 또한 (본 발명에서 설명되는 반복적 방법론(recursive methodology)의 예시적인 실시예로서) 제1 보호 수단을 구비한다.
도 2는 복수의 회로를 포함하는 시스템을 도시하는데, 여기서 각각의 회로는, 예를 들어 도 1에서와 같은 (범용) 보호 수단 및 싱글톤(singleton) 파워 싸이클링 (중앙) 제어 회로 또는 제어기 접근책을 구비한다.
도 3은 복수의 회로를 포함하는 시스템을 도시하는데, 여기서 각각의 회로는, 예를 들어 도 1에서와 같은 (범용) 보호 수단 및 듀얼(dual) 또는 탠덤(tandem) 파워 싸이클링 (중앙) 제어 회로 또는 제어기 접근책을 구비한다.
도 4는 복수의 회로를 포함하는 시스템을 도시하는데, 여기서 각각의 회로는, 예를 들어 도 1에서와 같은 (범용) 보호 수단 및 삼중(triplicated) 파워 싸이클링 (중앙) 제어 회로 또는 상태 전이(state transfer)를 가진 제어기 접근책을 구비한다.
도 5는 복수의 회로를 포함하는 시스템을 도시하는데, 여기서 각각의 회로는, 예를 들어 도 1에서와 같은 (범용) 보호 수단 및 듀얼(dual) 또는 탠덤(tandem) 파워 싸이클링 (중앙) 제어 회로 또는 상태 전이(state transfer)를 가진 제어기 접근책을 구비한다.
도 6은 상기 제1, 제2 및 제3 보호 수단의 일부일 수 있는, 발진기 기반의 제어기에서 사용하기 위한 발진기 회로들을 추가의 특징으로서 도시한다. 발진기는 SDHN을 상승시키고 OC를 옵셋 를 가지고 매 마다 시간 동안 연결하도록 정적으로 구성된다. 선택적으로 통신 수단과의 연결이 제공된다.
도 7은 다중 제어 입력의 사용의 개념 그리고 이에 따라서 (파워 싸이클링의 목적으로) 스위치하기 위한 (SHDN) 신호의 보팅된 활성화(voted activation)를 위한 보팅 회로(voting circuit)를 적어도 가지는 (상기 제1 보호 수단으로의 제어를 제공하는) 제2 보호 수단을 그러한 경우에 가지도록 한 요구조건의 개념을 소개한다.
도 8은, 예를 들어 도 1에서와 같은 복수의 (상호 연결된) 회로들 및 다중 제어 입력의 사용의 개념 그리고 이에 따라서 (파워 싸이클링의 목적으로) 스위치하기 위한 보팅 회로(voting circuit)를 적어도 가지는 (상기 제1 보호 수단으로의 제어를 제공하는) 제2 보호 수단을 그러한 경우에 가지도록 한 요구조건의 개념을 다시 사용하여 상기 회로들로부터의 그리고 상기 회로들로의 서로 간의 통신을 가능하게 하기 위한 통신 수단(파워 싸이클링 제어는 정상적인 회로들 또는 타일들에서 구현됨)을 포함하는 시스템(아키텍쳐, 장치)을 도시한다.
도 9 및 도 10은 전원 공급 수단 및/또는 통신 수단에 연결된 또는 연결가능한 메인 회로(타일), 그들로부터 연결 해제하기 위한 (그리고 그들로 재연결하기 위한) 하나 이상의 스위칭 수단을 가지는 제1 보호 수단(타일 주위의 경계) 및 복수의 제2 보호 수단을 도시하는데, 여기서 복수의 제2 보호 수단은 그 자체로 제3 보호 수단의 제어하에 메인 회로(타일)로서 그들로부터 연결 해제하고 그들로 재연결하기 위한 하나 이상의 스위칭 수단을 가지는 제1 보호 수단(타일 주위의 경계)을 또한 가진다.
도 11 내지 도 14는 도 1 내지 도 10에서 논의된 시스템들에 대한 방법들을 위한 흐름도들을 도시한다.
도 15(좌측)는 복수의 (상호 연결된) 회로들을 포함하는 시스템을 도시하고, 도 15(우측)는 복수의 (상호 연결) 회로들을 도시하는데, 여기서 복수의 (상호 연결) 회로들의 각각은, 요구되는 것은 아니나 (범용의) (거의 아마도 동일하거나 유사한) 보호 수단을 구비한다.
도 16은 다중 제어 입력들의 사용의 개념 그리고 이에 따라서 (파워 싸이클링의 목적으로) 스위치하기 위한 (SHDN) 신호의 보팅된 활성화(voted activation)를 위한 보팅 회로(voting circuit) 및 레지스터들을 적어도 가지는 (상기 제1 보호 수단으로의 제어를 제공하는) 제2 보호 수단을 그러한 경우에 가지도록 한 요구조건의 개념을 (선제적 방법들의 일부로서) 소개한다.
도 17은 다중 제어 입력들의 사용의 개념 그리고 이에 따라서 (파워 싸이클링의 목적으로) 스위치하기 위한 (SHDN) 신호의 보팅된 활성화(voted activation)를 위한 보팅 회로(voting circuit) 및 레지스터들 및 과전류 검출 신호(OC)를 가진 피드백 루프를 적어도 가지는 (상기 제1 보호 수단으로의 제어를 제공하는) 제2 보호 수단을 그러한 경우에 가지도록 한 요구조건의 개념을 (반작용적인(re-active) 방법과 선제적인(pro-active) 방법이 결합된 방법의 일부로서) 소개한다.
도 18은 도 6 (발진기 기반의 제어기)의 개념들을 도 16의 실시예와 결합한다. 이 개념은 또한 도 17의 실시예와 결합될 수 있다. 더욱이, 통신 네트워크로부터 스위치로의 직접 입력을 선택적으로 가지는 추가의 특징이 도시된다.
도 19는 전원 공급 수단 및/또는 통신 수단에 연결된 또는 연결가능한 메인 회로(타일), 그들로부터 연결 해제하기 위한 (그리고 그들로 재연결하기 위한) 하나 이상의 스위칭 수단을 가지는 제1 보호 수단(타일 주위의 경계) 및 (여기서 그들의 보팅 메커니즘(voting mechanism)을 가지는) 복수의 제2 보호 수단을 도시하는데, 여기서 복수의 제2 보호 수단은 그 자체로 제3 보호 수단의 제어하에 메인 회로(타일)로서 그들로부터 연결 해제하고 그들로 재연결하기 위한 하나 이상의 스위칭 수단을 가지는 제1 보호 수단(타일 주위의 경계)을 또한 가지고, 제3 보호 수단 자체는, 예를 들어 OR 게이트 또는 다른 적당한 부울 함수를 통해 제2 보호 수단들의 출력들(outcomes)을 결합한다.
도 20은 복수의 (상호 연결된) 회로들을 포함하는 시스템을 도시하는데, 여기서 각각의 회로는 (범용의) (여기서는 유사한) 보호 수단을 가지고, 특히 각각의 회로는 제1 보호 수단 및 복수의 (소위) 제2 보호 수단을 구비하고, 이러한 제2 보호 수단들의 각각은 또한 (본 발명에서 설명되는 반복적 방법론(recursive methodology)의 예시적인 실시예로서) 제1 보호 수단을 구비한다.
정의
구조적 하이브리드화(Architectural hybridization)는 디스팅크트 오류 모델(distinct fault model)을 따르고 덜 믿을만한 소자들을 강화하기 위해 감축된 기능성을 제공하는 믿을만하고 신뢰할 수 있는 소자들의 식별과 사용을 암시하는 개념이다. 본 발명은, 우발적이고 악의적인 오류들의 제어되지 않은 전파를 방지하고 파워 싸이클링을 위해 필요로 되는 단계들을 수행하기 위해 믿을만하고 신뢰할 수 있는 회로들을 도입하고 후에 래치업들을 제거한 후에 코어에 의해 구현되는 기능성(functionality)을 재인스턴스화함으로써(re-instantiating) 이 개념을 강화한다. 파워 싸이클링은 경감되지 않은 래치업들(non-mitigated latch-ups)로 인한 영구적인 손상을 피하기 위해 이러한 믿을만하고 신뢰할 수 있는 소자들을 (반복적으로) 보호해야 한다.
회복(rejuvenation)은 소자들을 적어도 초기와 같은 양호한 상태로 복귀시키는 개념이다. 용법상, 오류가 있거나 절충된 복제품을 고치기 위해 복제(replication)라는 맥락에서 '선제적인'(proactive)과 '반작용적인'(reactive)은 구별된다. 본 발명은 개별적인 타일들과 다른 지원 회로들(예를 들어, 믿을만하고 신뢰할 수 있는 소자들 및 네트워크 세그먼트들)을 파워 싸이클링함으로써 회복시킨다. 본 발명은, 소프트웨어적으로 그리고 하드웨어적으로 트리거되는 회복(예를 들어, 용장성의 전역적 클럭 신호에 기초하여 주기적으로) 뿐만 아니라 반작용적인 회복(예를 들어, 래치업들을 검출 시)을 지원한다. 특히 선제적인 회복이 검출을 방해하는 래치업들로부터 보호하기 위해 적용된다.
파워 싸이클링은 장치를 턴오프하고 그 후 다시 턴온하는 과정이다. 시스템 접지를 기준으로 측정된 모든 전압들이 0으로 떨어지도록 하는 충분히 긴 주기 동안에 전원 공급기가 장치(전자 시스템, 서브시스템, 소자, 집적 회로, 반도체 다이)로부터 제거되어(차단되어, 분리되어), 장치를 통해 전류가 흐르지 않도록 보장한다. 이는, 장치의 입력/출력 라인들을 통한 어떠한 기생 공급(parasitic supply)도 없다는 것을 가정한다. 최신의 파워 싸이클링은, 전체 칩의 입도(granularity of the whole chip)에서 동작하는 외부의 내방사선 장치들을 통해 제어된다.
콜드 스페이스 기능(cold space capability)은, 몇몇의 타일들, 타일들의 세트들 및 프로세싱 노드들이 콜드 스페어가능한(cold-spare capable) 방식으로 설계되고 제조된다는 개념이다. 즉, 이들은 그들의 입력/출력 연결들을 결합 해제할 필요없이 파워 싸이클링될 수 있다. 콜드 스페이스 기능은, 타일 입력-출력 포트들로부터 전압을 제거하는 것을 생략하는 것을 가능하게 하는데, 그러한 입력-출력 포트들을 통해 기생적으로 전원 공급이 일어날 위험(risk of parasitic powering occurrence)이 없다. 그러한 경우에, 콜드 스페어가능한 타일들을 그들의 통신 인프라구조로부터 연결 해제하는 책임을 맞고 있는 분리 회로의 부분들이 요구되지 않는다(그러나 여전히 존재할 수 있다). 본 발명은 콜드 스페어가능한 그리고 콜드 스페어가능하지 않은 타일들을 모두 지원한다.
타일형의 다중 또는 다수의 코어 시스템(tiled Multi- or Manycore System)은, 컴퓨팅 및 저장 자원들의 조직을 타일들로서 제안하는 하드웨어 구조이다 - 여기서 타일들은 일종의 상호연결선들을 통해 연결된다 -. 타일들은, 코어들, 메모리들, 장치들, 센서들, FPGA(Field Programmable Gate Array) 패브릭, 가속기들 및 GPU들(Graphical Processing Units)을 비롯한, 임의의 종류의 회로들을 위한 플레이스홀더들(placeholders) 및 인스턴스화 포인트들(instantiation points)이다. 본 발명은 내방사선 기술 기반이 아닌 노드들(non-radiation hardened technology nodes) 상에서 구현되는 타일형의 다중 및 다수의 코어 시스템들을 기반으로 구성되고 이들을 확장한다.
본 발명은 본 개시의 다양한 도면들을 개관함으로써 일반적으로 기술된다.
도 1은 전원 공급 수단 및/또는 통신 수단에 연결된 메인 회로(타일) 및 이들로부터 연결 해제하고 이들로 재연결하기 위한 하나 이상의 스위칭 수단을 가지는 제1 보호 수단(타일 주위의 경계)을 도시한다.
도 2는 도 1에 도시된 바의 복수의 회로 및 중앙 제어 회로로부터 상기 회로들로의 통신을 가능하게 하기 위한 통신 수단을 포함하는 시스템(아키텍쳐, 장치)을 도시한다.
도 3, 도 4, 도 5 및 도 7은 도 1에 도시된 바의 복수의 회로 및 복수의 중앙 제어 회로로부터 상기 회로들로의 통신을 가능하게 하기 위한 통신 수단을 포함하는 시스템(아키텍쳐, 장치)을 도시한다.
도 6은 상기 제1, 제2 보호 수단 및/또는 제3 보호 수단의 일부일 수 있는 추가의 특징들을 도시한다.
도 7은 다중 제어 입력의 사용의 개념 그리고 이에 따라서 보팅 회로(voting circuit)를 적어도 가지는 (상기 제1 보호 수단으로의 제어를 제공하는) 제2 보호 수단을 그러한 경우에 가지도록 한 요구조건의 개념을 소개한다.
도 8은, 다중 제어 입력의 사용의 개념 그리고 이에 따라서 보팅 회로(voting circuit)를 적어도 가지는 (상기 제1 보호 수단으로의 제어를 제공하는) 제2 보호 수단을 그러한 경우에 가지도록 한 요구조건의 개념을 다시 사용하여, 도 1에 도시된 바의 복수의 회로 및 상기 회로들로의 서로 간의 통신을 가능하게 하기 위한 통신 수단을 포함하는 시스템(아키텍쳐, 장치)을 도시한다.
도 9 및 도 10은 전원 공급 수단 및/또는 통신 수단에 연결된 또는 연결가능한 메인 회로(타일), 그들로부터 연결 해제하기 위한 (그리고 그들로 재연결하기 위한) 하나 이상의 스위칭 수단을 가지는 제1 보호 수단(타일 주위의 경계) 및 복수의 제2 보호 수단을 도시하는데, 여기서 복수의 제2 보호 수단은 그 자체로 제3 보호 수단의 제어하에 메인 회로(타일)로서 그들로부터 연결 해제하고 그들로 재연결하기 위한 하나 이상의 스위칭 수단을 가지는 제1 보호 수단(타일 주위의 경계)을 또한 가진다.
도 11 내지 도 14는 도 1 내지 도 10에서 논의된 시스템들의 하나 이상에 대한 방법들을 작동하거나 실행하기 위한 흐름도들을 도시한다.
도 11은 반작용적인 오류 제거를 위한 방법들 및 선제적인 오류 제거를 위한 방법의 동시 사용을 강조한 도면으로서, 특히 선제적인 (소위 회복)에 대해서는 주기성이 방사선 레벨에 의존한다.
도 12는 선제적인 오류 제거를 위한 방법을 도시한다.
도 13은 선제적인 오류 제거를 위한 방법을 도시한 도면으로서, 특히 선제적인 (소위 회복)에 대해서는 주기성이 방사선 레벨에 의존한다.
도 14는 반작용적인 오류 제거를 위한 방법을 도시한다.
본 발명은 방사선 효과들 (및 다른 우발적인 유형의 오류들)을 경감시키기 위한 장치들의 여러 실예들을 정의한다. 장치들은 SEL들 및 다른 방사선 효과들로부터 MPSoC를 구성하는 전자 회로들을 안전하게 하기 위한 유니트들에 의해 확장된 칩상에서의 다중 및 다수의 코어 시스템들(MPSoCs)이다. 특히, SHARCS는 (SOI와 달리) 방사선 효과에 대해 자연 저항을 가지지 않는 기술 노드들(technology nodes)에서 구현되는 그러한 MPSoC들에 초점을 맞춘다. SHARCS 유니트들은 본 발명의 장치들을 형성하여 회로들의 서브세트를 파워 싸이클링하고 복구하는 한편 요구되는 기능성을 나머지 활성의 서브세트에 재배치하기 위해 다중 및 다수의 코어 시스템들로 통합된다.
다중 및 다수의 코어 시스템의 일부분만을 파워 싸이클링하기 위한 능력은, 크로스칩 마이그레이션(cross-chip migrations)을 피하면서 현재 파워 싸이클링되지 않는 컴퓨테이션 자원들에 대한 시스템 기능성의 대부분을 이용가능하게 유지하기 위해 필수적이다.
다음의 장치들은 단일 및 다중 이벤트 업셋들로 인한 오류들의 제어되지 않은 전파에 대한 보호와 SHARC의 SEL 대책들의 구현의 효율성을 점진적으로 개선한다. 우리는 이러한 SEL 대책들을, 시스템에서의 각각의 타일, 온칩 네트워크 세그먼트 및 다른 회로들로의 전원 공급을 언제 선제적으로 또는 반작용적으로 스위치 오프할 것인지를 나타내는, 파워 싸이클링 제어기에 의해 제어되는 파워 싸이클링 메커니즘(power cycling mechanism)으로서 추상적으로 기술한다. 이하는 이러한 추상적인 유니트들의 구체적인 실예들이다.
파워 싸이클링 메커니즘
SHARCS 장치들은, 파워 싸이클링 프로세스 동안 회로(이 경우는, 타일)를 시스템의 나머지로부터 전기적으로 분리하기 위해 다음의 디파워링 메커니즘(depowering mechanism)을 사용한다. 우리는 이러한 메커니즘을 분리 회로(Isolation Circuitry) 또는 단락 ISOL(short ISOL)이라 부른다.
전기적 분리는 모든 전원 공급 라인들 및 모든 입력 및 출력 라인들에 적용될 것이다. 도 1에서의 예에서, 이들은, 타일에 있는 회로들에 전원을 공급하는 공급기() 및 접지(GND) 전원 라인들 및 타일을 온칩 네트워크에 연결하는 모든 입력/출력 라인들이다. 전원 공급기를 제거하는 것은, 입력-출력 버퍼들이 모든 입력들 및 출력들을 연결 해제하고 타일들의 IO 라인들이 시스템의 나머지로부터의 전기적 분리되도록 하면서, 모든 공급기의 전압들을 연결 해제하는 것에 의해 그리고 (선택적으로) 그들의 모두를 접지로 연결함으로써 이루어진다. 분리 회로는, 전원 공급기를 스위치 오프하기 위해 인에이블되고 전원을 다시 공급하기 위해 디스에이블되는 단일 신호 - SHDN(SHutDowN)에 의해 제어된다. 파워 싸이클링 제어기는 업셋들을 검출하기 위해 SHDN 신호를 감시하고 이를 구동하여 임베딩된 회로(embedded circuit)를 파워 싸이클링한다. 더욱이, 이는 정규적인 SEL들을 검출하기 위해 OC(OverCurrent) 신호에 연결한다.
나머지 도면들에서는, 분리 회로를, 그것이 보호하는 회로를 감싸는 사각형으로 나타낼 것이고, 명료성을 위해 그것이 제어하는 구체적인 IO 및 전원 라인들은 생략한다.
온칩 파워 싸이클링 메커니즘 및 제어
중앙 단일 온칩 디파워링 제어기(A.0)
도 2는, 어느 타일이 파워 싸이클링을 겪고(붉은색) 어느 타일들이 활성 상태로 유지되는지를(초록색) 제어하기 위해 (SHARCS의 ISOL, SHDN 및 OC 신호들의 경우에) 어떻게 싱글톤(singleton) 파워 싸이클링 제어기(CTRL)를 파워 싸이클링 메커니즘에 연결시키는지를 개략적으로 도시한다. 제시의 편의를 위해 신호들을 개별적으로 도시하나, 물론 CTRL은 와이어들의 양쪽 세트들에 동시에 연결되는 한편 이들을 서로 다른 시간들에 그리고 단지 선택된 SHDN 신호들에서 구동한다.
분명히, 이 회로에서의 CTRL에서의 임의의 업셋 및 임의의 SEL은, 모든 타일들의 SHDN 신호를 우발적으로 구동함으로써 또는 CTRL에서의 처리되지 않은 SEL들로 인한 열적 파괴(thermal breakdown)에 의해 시스템 기능성의 이용가능성을 위태롭게 할 수 있고 오류들의 발생에도 불구하고 타일들의 이음새없는 동작을 보장할 것이라 가정되었던 보호 메커니즘을 턴오프할 것이다.
이러한 이슈들을 경감하기 위해 CTRL 회로는 높은 신뢰도의 SEU 내성의 그리고 SEL 면역성의 기술로 제조될 것이다. 높은 복잡성의 성능 회로인 타일들과 달리, CTRL은 타일들의 행동을 감시하고 오류 발생으로부터의 그들의 선제적이고 반작용적인 복구의 관리만을 담당하고, 확고하게 만들고 충분하고 또한 실현가능하다.
방사선 유발성의 오류에 민감한 코어들의 안전 보증을 위해 사용되고 높은 신뢰도의 기술로 제조된 외부의 제어기에 의해 수행되는, 보호 메커니즘 응용의 타일 레벨의 입도 및 시스템 차원의 동작 조율을 수반하는 제시된 셋업은, 그 자체로 보호를 청구하기에 충분한 진보성을 갖는 해법이다.
탠덤 파워 싸이클링 제어기(A.1)
도 3에 예시된 탠덤 제어는, 탠덤 쌍의 하나의 제어기가 다른 것을 디스에이블하도록 허용함으로써 CTRL 래치업들로 인한 가능한 손상을 회피한다. 을 파워 싸이클링하는 동안에, 는 라인들을 으로부터 연결 해제하고 과전류를 다루도록 그 제어기의 책임을 인계받는다. 는 또한 의 라인들을 연결 해제하고 디파워링 싸이클을 겪는 회로들에 대해 이 신호들을 구동하는데 있어서의 의 역할을 맡는다. 의 파워 싸이클이 완료되면, 는 그러한 싸이클을 겪고, 이 그 역할을 인계받는다.
탠덤 회로들과 관련된 구현 과제는, 파워 싸이클링에 처하지 않은 다른 회로를 도입하지 않고 어느 회로들의 상태가 디파워링 싸이클에 있는지를 교환하기 위한 동시적 요구조건에 있다. 탠덤에 있어서의 안전한 상태 교환에 대한 해법을 제공하기 전에, 이 문제를 회피하기 위한 도 4의 구조를 소개하기로 한다.
3중 디파워링 제어기(A.2)
3중 파워 싸이클링 제어기 구조는 3개의 파워 싸이클링 제어기들을 예시하는데, 그 각각은 보호되는 회로들의 및 신호들에 연결되고, 제어기들과 그들의 각각의 쌍은 역시 파워 싸이클링될 수 있는 그들 간의 상태 요소를 갖는다. 제어기들은, 활성의 쌍(즉, 제어를 이양하는 것과 디파워링 제어를 접수하는 것) 간에서의 상태 요소를 통해 상태를 전이 시키면서 책임들을 교대한다. 3번째 것과 제어를 이양하는 것 간의 상태 요소는 그럼으로써 사용되지 않고 이러한 제어 이양(handover)의 과정에서 파워 싸이클링될 수 있다.
탠덤 상태 전이(A.1a)
도 5에 도시된 바와 같이, CTRL은, 한 순간에 제어기들 중 하나가 활성이고( 라인 들에서 동작하는) 다른 제어기가 수동인( 라인 들에서 상태들을 관찰하는) 방식으로 설계되고 프로그램 될 수 있다. 수동인 제어기는, 가 어서트되었는지(asserted) 그리고 디어서트되었는지를(de-asserted) 관찰함으로써, 활성의 제어기 상에서 실행되는 파워 싸이클링 알고리즘의 실행을 추종하고, 개입하여 CTRL-토글 라인을 활성화시킴으로써 활성의 것으로부터 제어를 인계받을 수 있다. 라인들에 대한 CTRL 인터페이스는, 입력-출력 단락 또는 고착 고장(stuck-at fault)이 다른 제어기로 전파되지 않는 방식으로 설계되고 구현되어야 한다. 유사하게, 라인들 인터페이스는, 오류가 다른 제어기로 전파되도록 보장할 것이다.
제어기의 본질(internals)
이제까지 제어기의 실예들 의 본질을 추상적으로 남겨두었다. 이하에서는, 이들의 임의의 조합이 이하에서 논의되는 효과들과 함께 예시될 수 있음을 이해하는데 있어 주요한 빌딩 블록들(building blocks)을 소개한다.
주기적으로 트리거되는 파워 싸이클링(C.1)
회로의 디파워링이 주기적으로 트리거 되어야 하고 빼먹고 검출되지 않은 SEL들을 피하기 위해 다른 회로들의 디파워링으로 위상 쉬프트되어야 한다. 따라서 제어기 요소(C.1)는, 이 회로들로부터 SEL들을 제거하기에 충분히 긴 시간 동안 그리고 주기 및 오프셋 를 가지고 특정 회로 i의 신호를 주기적으로 상승시킨다(raises). 파라미터들 , 및 는 보호되는 회로, 방사능 환경의 심한 정도에 의존하고, 종속되는 회로를 파워 싸이클링할 시간이 올 때 신호가 어서트되도록 선택되어야 한다. 예를 들어, 유사한 종류의 타일들의 특별한 실예 및 이러한 타일들을 연결하는 네트워크 온칩(Noc)에 대해서는, 모든 주기들 및 파워 싸이클링 시간들 은 거의 동일한 값 t 및 p를 가정한다. 타일의 위상들(phases) 및 NoC 세그먼트를 연결하는 그 데이터는 따라서 동일해야 하고, 한편으로 어떠한 두개의 타일들도 동일한 위상을 가지지 않도록 위상들은 t의 배수들이어야 한다. P > t n 이라고 더욱 가정하면 - 여기서 n은 시스템에서의 타일들의 개수임 -, = t i 와 같이 설정하면 이 조건이 만족된다. 도 6은 그러한 제어기를 예시한다.
임계값에 의해 트리거되는 파워 싸이클링(C.2)
전류를 측정하면(강한 래치업에 의해 야기되는 과전류 이벤트를 찾아서), 검출될 수 있는 그러한 래치업들에 반작용할 수 있고 물론 그리해야 한다. 그렇게 감지된 신호가 임계값을 초과하면, OC 신호가 어서트되어 래치업 검출을 나타낸다. 도 5는 그러한 검출을 위한 회로 요소들을 도시한다.
소프트웨어에 의해 트리거되는 파워 싸이클링(C.3)
가장 유연하게, 특히 가변되는 환경 조건들에 적합시키는 가능성은, 환경의 센서들을 통해 연결될 수 있는 마이크로컨트롤러 상에서 실행되는 소프트웨어로 SHDN 신호들의 상승(raising)과 하강(lowering)을 제어함으로써 성취된다. 이러한 종류의 소프트웨어는 표준 제어 루프 패턴을 따르는데, 즉 환경을 판독하고 내부 상태를 조정하고 출력들을 유도한다(예를 들어, C.1에 표시된 주기적 신호들의 형태이나 시스템의 현재의 자원 사용 상태에 따라(예를 들어, 사용되지 않는 타일들이 파워 싸이클링을 겪을 자연적 후보들임) 조정된 주기들을 가지고, 주기들 는 인지된 환경 조건들(예를 들어, 측정되는 방사선 레벨)에 따라 조정된다).
제어기 조합(C.1 - C.3)
지적한 바와 같이, 이상의 제어기들은, 도 6에 예시된 바와 같이 그들의 조합된 효과를 제공하기 위해 유연하게 통합된다. 센서, 발진기 또는 NoC에 걸쳐 소프트웨어로부터 대응되는 메시지를 수신하는 것이 SHDN을 트리거한다. 명백히, 후자가 동작하려면, 디스에이블 신호, 그러나 더욱 중요하게는 재인에이블(reenable)이 트리거되는 네트워크 세그먼트는 보호되는 타일과 함께 동시에 파워 싸이클링을 겪어서는 안 된다. 따라서 별도로 파워 싸이클링될 다른 네트워크 세그먼트로부터 이 신호를 드로잉하는(drawing) 것을 제안한다.
합의에 의한(consensual) 파워 싸이클링 제어
이제까지 소개한 장치는 파워 싸이클링 제어기들에서의, 특히 SHDN 및 OC에 연결하는 와이어들에서의 업셋들에 대해 보호하지 않는 것에 대해 아무것도 나타내지 않는다. 따라서, 다음의 확장들은 업셋 보호를 파워 싸이클링 제어와 통합한다. 타일이 디파워링될지라도, 업셋들이 그 인터페이스 와이어들에서 일어날 수 있다. 이 신호가 제어되지 않은 방식으로 시스템을 통해 전파되도록 허용된다면, 이는 시스템의 다른 소자들에서 이후의 오류들을 야기할 수 있다. 그러한 전파를 막기 위해, 제어되지 않은 전파를 방지하기 위한 믿을만하고 신뢰할 수 있는 소자들을 모두 수반하는 여러 기법들이 적용될 수 있다. 예를 들어, 그러한 소자는 전송 또는 적법하지 않은 블록 전송들 중에 오류를 검출하기 위해 출력되는 신호들을 인코딩할 수 있다. 주요한 제약은, 액세스와 오류 전파를 방지하기에 적합한 임의의 그러한 보호 메커니즘은, 타일이 파워 싸이클링될 때조차 활성 상태로 남아있어야 한다는 것이다. 그러나 파워 싸이클링 제어기(CTRL)과 관련하여 본 바와 같이, 싱글톤 활성 회로들은, 높은 신뢰도의 기술로 구현되지 않으면 SEL 손상의 위험을 안고 있다.
오류 전파를 방지하기 위한 두번째 측면은, 파워 싸이클링을 비롯한 임의의 중요한 동작이 합의에 의한 방식으로 제어되도록 하는 것이다. 즉, 어떠한 단일의 잠재적으로 오류성이 있는 소자(single, potentially faulty component)도 그러한 중요한 동작을 트리거할 수 있지 않다. 대신에, 그러한 결정은, 항상, 오류성의 복제들(faulty replicas)이 이 결정에 영향을 줄 수 없는 방식으로 그러한 결정에 관한 일치에 이른 소자들의 세트(그 몇몇은 오류성임)의 결과이어야 한다. 비잔틴 일치(Byzantine agreement)에 관한 관련 작업은 믿을만하고 신뢰할 수 있는 소자와의 협의를 위한 이 결과를 n개의 소자들의 카디널리티(cardinality)로 정량화한다 - n개의 소자들 중에 f개가 오류성이고, n 및 f는 n = 2 f + 1과 같이 관련되어 있음 -. n개의 소자들 중의 k개까지가 파워 싸이클링을 동시에 겪어야 하고 나머지 n - k 개의 소자들이 이 프로세스에 관한 일치에 계속 이르러 f개의 오류성의 복제들까지의 제안들(proposals)을 마스킹한다면, 이 수는 k 만큼 증가할 것이다(즉, n = 2 f + 1 + k).
이하에서는, 이제 합의에 의한 파워 싸이클링을 위해 필요로 되는 장치들을 소개한다:
SHDN의 보팅된(voted) 활성화/비활성화(AC1)
도 7은 SHDN의 보팅된 활성화를 예시하는데, 여기서 동시에 활성인 CTRL의 정족수(quorum)가 일치할 때 셧다운이 어서트된다. 각각의 신호는, 가 에 연결되도록 n개의 신호들 로서 반영된다. 다음으로, 벡터 는, 조합 논리(combinatorial logic)로 또는 (임계값 비교기로서 와이어 보트 및 연산 증폭기를 사용하는) 애널로그 방식으로 설정된 비트들의 수를 카운트함으로써 로 매핑된다. 구현들(C.1 - C.3)에 따라서, CTRL 복제들은 C.1 또는 C.2로서 기술된 전자 회로들의 조합 또는 전용 마이크로컨트롤러들(C.3)일 수 있다.
CTRL로서의 타일들(AC2)
고장 방지 특권 실행(fault tolerant privilege enforcement)이 일단 자리 잡으면(예를 들어, Midir의 통합 및 적응을 통해), 통상의 타일들이 제어 소프트웨어를 호스팅할 수 있고, 도 8에 예시된 바와 같이 (가능하게는 C.1 및/또는 C.2와 조합하여) 제안 시에 보팅되도록 기여할 수 있다.
그러나, 전술한 바와 같이, 파워 싸이클링되지 않고 SEL들이 구축될 수 있는 어떠한 단일의 회로도 남아있지 않아야 한다. 최종 성분(ingredient)은 따라서 다음과 같다:
상태 디커플링된(state-decoupled) 믿을만하고 신뢰할 수 있는 소자들을 통한 탠덤 속박(containment)
도 9에 도시된 바와 같이
오류성의 요구들의 제어되지 않은 전파를 방지하기 위해 적어도 하나의 믿을만하고 신뢰할 수 있는 소자가 활성 상태로 이용가능하게 남아 있어야 한다는 요구조건을 충족시키기 위해, SHARCS는 CTRL을 위해 소개된 탠덤 개념을 강화한다. 믿을만하고 신뢰할 수 있는 소자(여기서는 예로서 Midir의 T2H2)는, 소자들의 하나가 활성 상태로 남아 있는 한편 다른 것들이 파워 싸이클링을 겪을 수 있도록, 이중화된다(duplicated). 이 상태 디커플링된 설정에서, 바로 파워 싸이클링된 소자는, 다시 재사용될 수 있기 전에 상태가 없거나(stateless) 그 정규의 재구성 인터페이스를 통해 다른 소자들에 의해 재구성되어야 한다. Midir의 경우에, 이들은 레지스터들에 설치될 값들에 관한 보팅된 동작들(voted operations)이다. 토글링 T 플립플롭(TFF)은 두개의 소자들 중의 어느 것이 현재 활성인지를 제어하고 T3H3의 중요한 부분이고 제2 레벨의 하이브리드 보호 및 관리 타일 및 (예들에서 제시된 T2H2와 같으나 그에 제한된) 그 제1 레벨 하이브리드 블록들이다.
T3H3는, 주어진 타일이 보호되어야 하는지에 관한 투표들(votes)을 수집하는, 전술한 바와 같이 디지털도 될 수 있고 애널로그도 될 수 있는, 믿을만한 보터(voter)로 구성된다. 정족수(quorum)에 달한 경우, 펄스가 생성되어 게이트 ('또는' 논리 대안(logic alternative))로 공급된다. 대안적으로, 보팅에 의해 생성된 펄스에 대해, 정족수와 주어진 타일을 파워 싸이클링하는데 대한 일치에 도달하지 못한 경우, 국부 발진 회로에 의해 클럭킹되는(clocked), 워치독 카운터(WDT)를 오버플로잉시킴으로써(overflowing) 다른 펄스가 생성될 것이다. 어느 쪽이든 간에, 펄스는 게이트(OR 게이트)를 통해 전파되고 타일의 분리 회로(ISOL)에 SHDN 신호로서 그리고 토글 플립플롭(TFF)에 클록으로서 제공되어, 그것이 T2H2 하이브리드 보호 모듈들 간에 토글하도록 야기한다.
상태 커플링된(state-coupled) 믿을만하고 신뢰할 수 있는 소자들로의 탠덤 오류 속박(containment)
도 10에 도시된 바와 같이, 몇몇의 믿을만하고 신뢰할 수 있는 소자들에 대해서는, 안전 또는 성능상의 이유들 때문에, 소자가 외부의 유니트들에 의해 다시 초기화되어 있음이 표시되지 않는다. 이는, 예를 들어 주요한 재료가 유도되거나 상태를 재인스턴스화하기 위한 동작들이 너무 비싼 경우이다. 이 경우에, TTF를 통해 차례(turn) 만을 신호함으로써 그러나 파워 싸이클링될 차례인 소자를 디파워링하기 전에 상태 전이(state transfer)가 완료되기를 기다리면서 믿을만한 소자들을 모두 활성 상태로 유지하기 위해 T3H3가 적응화될 수 있다.
이제 본 발명의 다양한 측면들과 예시적인 실시예는 다음과 같이 다시 표현될 수 있다.
(방사선 유발성의) (비일시적의) 오류들로부터의 복구를 위해 적응화된, 적절한 적응화된 회로(타일)가 제공된다. 예시적인 실시예에서, 과전류 검출 회로가 그러한 오류를 검출하기 위해 사용된다. 예를 들어 전류의 제1 임계값을 초과하는 동안 적절한 제어 신호들을 생성하는 것과 같이 국부적인 접근책으로 자율적인 과전류 이벤트 검출을 하기에 적합한 회로들이 제공된다. 유사하게, 전역적 접근책을 지원하는, 자율적인 과전류 이벤트 검출을 하기에 적합한 회로가 또한 제공된다. 더욱이 이러한 접근책들은 조합될 수 있다.
몇몇 실시예들에서, 하나 이상의 펄스 생성 회로가 - 상기 펄스 생성 회로(들)은 하나 이상의 발진 회로에 의해 국부적으로 생성되는 타이밍 신호들에 의해 제공되거나 통신 수단을 통해 타이밍 신호를 수신하기 위해 적응화됨 - 제공된다.
(전달된) 과전류를 비교할 임계값은 동시에 셧다운되는 것을 피하기 위해 (적절한 제어 신호를 생성하는 과정에서) 의도적으로 회로(메인 및/또는 제2 보호 수단) 마다 다를 수 있다.
본 발명이 제안하는 것은, 시스템에서 오류를 제거하는 방법이 반작용적인 방법들과 선제적인 방법의 조합에 기초하고 있고, 가능하게 (선제적인) 방법은 (반작용적인) 방법의 가장 늦은 트리거를 감안하고 있다는 것이다.
본 발명 내에서, 상기 제2 보호 수단은 상태 머신으로 여겨질 수 있고, 따라서 방법들은, 제2 보호 수단의 스위칭 전에 스위치 오프될 상기 제2 보호 수단의 상태가 (가능하다면) 상기 복수의 제2 보호 수단의 다른 하나 이상으로 전이되는(transferred) 것을 보장한다. 이는 이웃하는 회로로 일 수 있으나 이는 필요하지 않다.
본 발명은 방사선 레벨을 결정하기 위한 센서의 존재를 강화할 수 있다. 대안적으로, 본 발명은 (예상되는) 방사선 레벨에 대한 정보를 입력하기 위한 수단에 의존할 수 있다. 다른 대안은, (터득되는) 방사선 레벨이 반작용적인 오류 제거 방법들의 활성화로부터 결정된다는 것이다. (터득되는) 방사선 레벨은, 회로들의 하나 이상에서 제공되는 일시적인 방사선 유발성의 오류들을 처리하기 위한 (ECC 정정과 같은) 메커니즘들의 활성화로부터 결정될 수 있다. 이러한 다양한 방법들이 또한 조합될 수 있다.
Claims (15)
- 방사선 유발성의, 바람직하게는 비일시적의 오류(radiation induced, preferably non-transient, faults)로부터의 복구에 적응화되고 그러한 오류의 방지에 적응화된 회로로서,
메인 회로(10),
상기 메인 회로를 전원 라인들(power lines)에 연결하기 위한 전원 공급 수단, 및
상기 메인 회로를 통신 수단에 연결하기 위한 통신 연결 수단을 포함하고,
상기 회로는,
그러한 방사선 유발성의, 바람직하게는 비일시적의 오류의 발생을 검출하기 위한 수단(40) 및
상기 전원 공급 수단과 상기 통신 연결 수단 중의 하나와 상기 메인 회로 간에, 바람직하게는 상기 전원 공급 수단과 상기 통신 연결 수단의 모두와 상기 메인 회로 간에 제공되어 상기 방사선 유발성의, 바람직하게는 비일시적의 오류 또는 동작(action)의 발생의 경우에 각각 그들로부터 연결 해제하고 그들로 재연결하여, 상기 오류 발생 검출의 사용에 의해 생성되고 시스템 접지(system ground)에 대해 측정된 모든 전압들이 0으로 떨어지도록 상기 연결 해제(disconnection)가 충분히 길도록 보장하는 한편 상기 장치로 아무런 전류가 흐르지 않아 상기 방사선 유발성 오류를 제거하도록 보장하기 위해 유지되는 제어 신호의 수신 시에 상기 오류 또는 동작의 발생을 방지하기 위한 하나 이상의 스위칭 수단(30)을 포함하는 제1 보호 수단(20)을 더 구비하는 것을 특징으로 하는, 회로. - 제1항에 있어서,
(보팅 회로(voting circuit)(210)에 기초하여) 복수의 입력 신호를 수신할 수 있고 상기 복수의 입력 신호에 기초하여 상기 제어 신호를 생성할 수 있는 제2 보호 수단(200)을 더 구비하는 - 바람직하게 상기 입력 신호들은 상기 오류 발생 검출에 기초하고 그에 의해 고려됨(도 17) - 회로(도 16, 도 17, 도 18). - 제2항에 있어서,
전원 라인들(200)에 연결되고 제1 보호 수단을 구비하는 복수개의 상기 제2 보호 수단들, 및
그러한 방사선 유발성의, 바람직하게는 비일시적의 오류의 발생 또는 방지의 경우에 각각 그 제각기의 제1 보호 수단을 통해 상기 제2 보호 수단의 상기 전원 라인들을 연결 해제하고 재연결하고 그리고, 예를 들어 보팅 접근책(voting approach)을 구현하는 조합 또는 불리언 함수를 위한 회로(310)를 통해 상기 제2 보호 수단 중의 활성의 것의 출력을 선택하기 위한 제3 보호 수단(300)을 포함하는, 회로(도 19). - 제1항 내지 제3항 중 어느 한 항에 있어서,
더욱 복잡한 것들이 방사선 유발성의 이벤트들에 덜한 고유 저항성을 가진다는(being less intrinsic resistant) 점에서, 상기 메인 회로(10)는 상기 제2 보호 수단(200) 보다 더 복잡하고, 적용되는 경우, 상기 제2 보호 수단은 상기 제3 보호 수단(300) 보다 더 복잡한, 회로. - 제1항 내지 제4항 중 어느 한 항에 있어서,
상기 메인 회로, 상기 제2 보호 수단 또는 제3 보호 수단 중의 하나 이상이 일시적의(transient) 방사선 유발성의 오류를 처리하기 위한 메커니즘을 구비하는, 회로. - 방사선 유발성의, 바람직하게는 비일시적의 오류로부터의 복구에 적응화되고 그러한 오류의 방지에 적응화된 시스템(100)으로서,
제1항 내지 제5항 중 어느 한 항의 회로들, 및
상기 회로들 간의 통신을 가능하게 하고 상기 회로들이 연결되어 있는 통신 수단을 포함하는, 시스템(도 15 (우측), 도 20). - 제6항에 있어서,
정보, 바람직하게는 과전류 정보를 수신하고 및/또는 상기 제어 신호들을, 바람직하게는 상기 정보로부터 생성하는 중앙 제어 회로(110)를 더 포함하는, 시스템(도 2). - 제7항에 있어서,
상기 중앙 제어 회로는 제10항 내지 제15항의 방법들의 하나 이상을 실행하기 위하여 적응화된 계산 엔진을 포함하는, 시스템. - 제8항에 있어서,
명령어들을 포함하는 저장 매체를 포함하고, 상기 명령어들은 상기 계산 엔진에 의해 실행될 때 상기 계산 엔진으로 하여금 제10항 내지 제15항의 방법들의 하나 이상을 실행하도록 하는, 시스템. - 제6항에 따른 시스템(도 17)에서의 반작용적인(re-active) 오류 제거를 위한 방법으로서 - 이에 의해 상기 메인 회로들의 하나 이상에서의 방사선 유발성의, 바람직하게는 비일시적의 오류의 검출에 기초하여, 바람직하게는 상기 제1 보호 수단 및/또는 제2 보호 수단을 통해, 바람직하게는 상기 제1 보호 수단을 통해 상기 메인 회로 및/또는 제2 보호 수단을 스위치 오프(switch off)시키기 위해 제어 신호가 생성됨 -,
방사선 유발성의, 바람직하게는 비일시적의 오류의 검출에 관련된, 예를 들어 인터럽트(interrupt)와 같은 정보를 수신하는 단계,
관련 회로를 스위치 오프하는 단계, 및
미리 결정된 주기가 경과한 후에 상기 회로를 스위치 온시키는 단계를 포함하는 방법(도 14). - 제6항에 따른 시스템에서의 오류 제거를 위한 방법으로서 - 제10항의 방법에 부가하여 상기 시스템에서의 선제적인(proactive) 오류 제거를 위한 방법(도 12)이 실행되고, 바람직하게 상기 제1 보호 수단을 통해서 상기 메인 회로들 및/또는 제2 보호 수단을 주기적으로 스위치 오프시키고 스위치 온시키기 위한 제어 신호들이 가능하게 생성되고(도 13), 바람직하게 적응가능한 주기성(periodicity)은, 예를 들어 크기 및/또는 태스크(task), 예를 들어 임계성(criticallty)에 의존하고 및/또는 방사선 레벨에 의존하는 회로임 -,
방사선 유발성의, 바람직하게는 비일시적의 오류의 검출 및/또는 선제적으로 스위치 오프할 시간이 도래했다고 결정하는 것에 관련된, 바람직하게는 인터럽트(interrupt)와 같은 정보를 수신하는 단계,
관련 회로를 이에 따라 스위치 오프하는 단계, 및
미리 결정된 주기가 경과한 후에 상기 회로를 스위치 온시키는 단계를 포함하는 방법(도 11). - 제11항에 있어서,
상기 방법은 제7항에 따른 시스템과 함께 중심적이고,
이에 의해 상기 중앙 제어 회로는 상기 제어 신호들을 생성하는, 방법. - 제11항에 있어서,
상기 방법은 분산되고,
이에 의해 상기 회로들 그 자체는 상기 제어 신호들을 생성하는, 방법. - 제1항 내지 제13항 중의 어느 한 항의 방법으로서,
회로를 스위치 오프하기 이전에, 가능한 경우, 상기 태스크, 예를 들어 상기 태스크를 수행하기 위해 상기 메인 회로 상에서 실행되는 소프트웨어 또는 상기 스위치 오프될 회로의 상태가 다른 회로로 전이되는(transferred), 방법(도 10). - 제1항 내지 제14항 중의 어느 한 항에 있어서,
회로를 스위치 오프하기 이전에, 상기 태스크, 예를 들어 상기 태스크를 수행하기 위해 상기 메인 회로 상에서 실행되는 소프트웨어 또는 상기 스위치 오프될 회로의 상태가 다른 회로로 전이되고 선택적으로는 특정 태스크를 위해 예비될 회로들의 양이 방사선 레벨의 함수로서 적응화되는 것이 가능하도록 보장하기 위해 회로들이 예비된다는 점에서, 상기 시스템이 관리되는, 방법.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
LULU102471 | 2021-01-29 | ||
LU102471A LU102471B1 (en) | 2021-01-29 | 2021-01-29 | Radiation induced fault self-protecting circuits and architectures |
PCT/EP2022/052060 WO2022162151A1 (en) | 2021-01-29 | 2022-01-28 | Radiation induced fault self-protecting circuits and architectures |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20230156693A true KR20230156693A (ko) | 2023-11-14 |
Family
ID=75267558
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020237029067A KR20230156693A (ko) | 2021-01-29 | 2022-01-28 | 방사선 유발성의 오류 자체 보호 회로들 및 아키텍쳐들 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20230393945A1 (ko) |
EP (1) | EP4285223A1 (ko) |
JP (1) | JP2024504819A (ko) |
KR (1) | KR20230156693A (ko) |
LU (1) | LU102471B1 (ko) |
WO (1) | WO2022162151A1 (ko) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4727530A (en) | 1983-10-14 | 1988-02-23 | Nippon Gakki Seizo Kabushiki Kaisha | Disc rotation control device for a disc player |
US5923830A (en) * | 1997-05-07 | 1999-07-13 | General Dynamics Information Systems, Inc. | Non-interrupting power control for fault tolerant computer systems |
US6370656B1 (en) * | 1998-11-19 | 2002-04-09 | Compaq Information Technologies, Group L. P. | Computer system with adaptive heartbeat |
DE102012205445A1 (de) * | 2012-04-03 | 2013-10-10 | Siemens Aktiengesellschaft | Automatisierungsgerät |
LU100069B1 (en) | 2017-02-10 | 2018-09-27 | Univ Luxembourg | Improved computing apparatus |
-
2021
- 2021-01-29 LU LU102471A patent/LU102471B1/en active IP Right Grant
-
2022
- 2022-01-28 JP JP2023546193A patent/JP2024504819A/ja active Pending
- 2022-01-28 EP EP22705720.5A patent/EP4285223A1/en active Pending
- 2022-01-28 US US18/269,068 patent/US20230393945A1/en active Pending
- 2022-01-28 KR KR1020237029067A patent/KR20230156693A/ko unknown
- 2022-01-28 WO PCT/EP2022/052060 patent/WO2022162151A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
LU102471B1 (en) | 2022-08-09 |
WO2022162151A1 (en) | 2022-08-04 |
JP2024504819A (ja) | 2024-02-01 |
US20230393945A1 (en) | 2023-12-07 |
EP4285223A1 (en) | 2023-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5923830A (en) | Non-interrupting power control for fault tolerant computer systems | |
KR20010005956A (ko) | 고장 허용 컴퓨터 시스템 | |
CN102841828B (zh) | 逻辑电路中的故障检测和减轻 | |
US10078565B1 (en) | Error recovery for redundant processing circuits | |
Villalpando et al. | Reliable multicore processors for NASA space missions | |
Hitt et al. | Fault-tolerant avionics | |
Kyriakoulakos et al. | A novel SRAM-based FPGA architecture for efficient TMR fault tolerance support | |
EP2533154B1 (en) | Failure detection and mitigation in logic circuits | |
US8922242B1 (en) | Single event upset mitigation | |
Drake et al. | A self-correcting soft error tolerant flop-flop | |
Yang et al. | Self-repairing digital system based on state attractor convergence inspired by the recovery process of a living cell | |
Ilias et al. | Combining duplication, partial reconfiguration and software for on-line error diagnosis and recovery in SRAM-based FPGAs | |
KR20230156693A (ko) | 방사선 유발성의 오류 자체 보호 회로들 및 아키텍쳐들 | |
Dumitriu et al. | Decentralized run-time recovery mechanism for transient and permanent hardware faults for space-borne FPGA-based computing systems | |
Somashekhar et al. | Analysis of micro inversion to improve fault tolerance in high speed VLSI circuits | |
EP3531286A1 (en) | Circuitry | |
Nguyen et al. | Scheduling voter checks to detect configuration memory errors in FPGA-based TMR systems | |
Agarwal et al. | State model for scheduling Built-in Self-Test and scrubbing in FPGA to maximize the system availability in space applications | |
Nguyen et al. | Reconfiguration Control Networks for FPGA-based TMR systems with modular error recovery | |
Aguilera et al. | Fault injection on a mixed-signal programmable SoC with design diversity mitigation | |
Schoof et al. | Fault Tolerant design for applications exposed to radiation | |
RU2480898C2 (ru) | Способ защиты интегральных микросхем при попадании в них тяжелых заряженных частиц | |
Vaishnavadevi et al. | Efficacious redundancy technique for enriched lockstep architecture | |
Haebel | A new approach to provide high-reliability data systems without using space-qualified electronic components | |
Graczyk et al. | Methods for increasing the dependability of High-performance, Many-core, System-on-Chips |