RU2007147000A - Уменьшение частоты появления некорректируемых ошибок в системе двухмодульной избыточности в жесткости конфигурации - Google Patents

Уменьшение частоты появления некорректируемых ошибок в системе двухмодульной избыточности в жесткости конфигурации Download PDF

Info

Publication number
RU2007147000A
RU2007147000A RU2007147000/09A RU2007147000A RU2007147000A RU 2007147000 A RU2007147000 A RU 2007147000A RU 2007147000/09 A RU2007147000/09 A RU 2007147000/09A RU 2007147000 A RU2007147000 A RU 2007147000A RU 2007147000 A RU2007147000 A RU 2007147000A
Authority
RU
Russia
Prior art keywords
value
core
failure
detects
microdevice
Prior art date
Application number
RU2007147000/09A
Other languages
English (en)
Other versions
RU2385484C2 (ru
Inventor
Пол Б. РАКУНАС (US)
Пол Б. РАКУНАС
Джоел С. ЭМЕР (US)
Джоел С. ЭМЕР
Арийт БИСВАС (US)
Арийт БИСВАС
Шубхенду С. МУКЕРДЖИ (US)
Шубхенду С. МУКЕРДЖИ
Стивен Е. РААШ (US)
Стивен Е. РААШ
Original Assignee
Интел Корпорейшн (Us)
Интел Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Интел Корпорейшн (Us), Интел Корпорейшн filed Critical Интел Корпорейшн (Us)
Publication of RU2007147000A publication Critical patent/RU2007147000A/ru
Application granted granted Critical
Publication of RU2385484C2 publication Critical patent/RU2385484C2/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1629Error detection by comparing the output of redundant processing systems
    • G06F11/165Error detection by comparing the output of redundant processing systems with continued operation after detection of the error
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1629Error detection by comparing the output of redundant processing systems
    • G06F11/1641Error detection by comparing the output of redundant processing systems where the comparison is not performed by the redundant processing components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1658Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1675Temporal synchronisation or re-synchronisation of redundant processing components
    • G06F11/1683Temporal synchronisation or re-synchronisation of redundant processing components at instruction level

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Detection And Correction Of Errors (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Abstract

1. Устройство, содержащее: ! первое ядро, которое включает в себя первую структуру; ! второе ядро, которое включает в себя вторую структуру; ! микроустройство контроля для обнаружения, соответствует ли первое значение от первой структуры второму значению от второй структуры; ! глобальное устройство контроля для обнаружения сбоя в жесткой конфигурации между первым ядром и вторым ядром; ! логическое устройство сбоя для вызова повторной синхронизации первого и второго ядра, если глобальное устройство контроля обнаруживает сбой в жесткой конфигурации, и микроустройство контроля обнаруживает несовпадение между первым значением и вторым значением. ! 2. Устройство по п.1, в котором микроустройство контроля включает в себя блок сравнения для сравнения первого значения и второго значения. ! 3. Устройство по п.1, в котором глобальное устройство контроля включает в себя блок сравнения для сравнения первых выходных данных первого ядра и вторых выходных данных второго ядра. ! 4. Устройство по п.1, в котором логическое устройство сбоя должно также указывать обнаружение некорректируемой ошибки, если глобальное устройство контроля обнаруживает сбой в жесткой конфигурации, и микроустройство контроля обнаруживает, что первое значение соответствует второму значению. ! 5. Устройство по п.1, в котором: ! первое ядро также включает в себя третью структуру и четвертую структуру; ! второе ядро также включает в себя пятую структуру и шестую структуру; ! первая структура включает в себя первое идентифицирующее логическое устройство для формирования первого значения на основе третьего значения от третьей структуры и четвертого значения от �

Claims (19)

1. Устройство, содержащее:
первое ядро, которое включает в себя первую структуру;
второе ядро, которое включает в себя вторую структуру;
микроустройство контроля для обнаружения, соответствует ли первое значение от первой структуры второму значению от второй структуры;
глобальное устройство контроля для обнаружения сбоя в жесткой конфигурации между первым ядром и вторым ядром;
логическое устройство сбоя для вызова повторной синхронизации первого и второго ядра, если глобальное устройство контроля обнаруживает сбой в жесткой конфигурации, и микроустройство контроля обнаруживает несовпадение между первым значением и вторым значением.
2. Устройство по п.1, в котором микроустройство контроля включает в себя блок сравнения для сравнения первого значения и второго значения.
3. Устройство по п.1, в котором глобальное устройство контроля включает в себя блок сравнения для сравнения первых выходных данных первого ядра и вторых выходных данных второго ядра.
4. Устройство по п.1, в котором логическое устройство сбоя должно также указывать обнаружение некорректируемой ошибки, если глобальное устройство контроля обнаруживает сбой в жесткой конфигурации, и микроустройство контроля обнаруживает, что первое значение соответствует второму значению.
5. Устройство по п.1, в котором:
первое ядро также включает в себя третью структуру и четвертую структуру;
второе ядро также включает в себя пятую структуру и шестую структуру;
первая структура включает в себя первое идентифицирующее логическое устройство для формирования первого значения на основе третьего значения от третьей структуры и четвертого значения от четвертой структуры; и
вторая структура включает в себя второе идентифицирующее логическое устройство для формирования второго значения на основе пятого значения от пятой структуры и шестого значения от шестой структуры.
6. Устройство по п.1, в котором:
состояние архитектуры первого ядра независимо от первого значения; и
состояние архитектуры второго ядра независимо от второго значения.
7. Устройство по п.6, в котором:
первая структура является первой структурой прогнозирования; и
вторая структура является второй структурой прогнозирования.
8. Устройство по п.1, в котором логическое устройство сбоя должно также вызывать восстановление первого значения и второго значения, если глобальное устройство контроля обнаруживает сбой в жесткой конфигурации, и микроустройство контроля обнаруживает несовпадение.
9. Устройство по п.8, в котором:
первая структура является первой кэш-памятью;
первый результат является первой записью в кэш-памяти;
вторая структура является второй кэш-памятью; и
второй результат является второй записью в кэш-памяти.
10. Устройство по п.9, в котором логическое устройство сбоя также должно вызвать новую загрузку первой записи в кэш-память и второй записи в кэш-память, если глобальное устройство контроля обнаруживает ошибку в жесткой конфигурации, и микроустройство контроля обнаруживает несовпадение.
11. Способ, содержащий этапы, на которых:
проверяют, соответствует ли первое значение из первой структуры в первом ядре второму значению от второй структуры во втором ядре;
обнаруживают сбой в жесткой конфигурации между первым ядром и вторым ядром; и
повторно синхронизируют первое ядро и второе ядро, если несовпадение обнаруживается между первым значением и вторым значением.
12. Способ по п.11, который дополнительно содержит указание обнаружения некорректируемой ошибки, если первое значение соответствует второму значению.
13. Способ по п.12, дополнительно содержащий этапы, на которых:
формируют первое значение на основе третьего значения от третьей структуры в первом ядре и четвертого значения от четвертой структуры в первом ядре; и
формируют второе значение на основе пятого значения от пятой структуры во втором ядре и шестое значение от шестой структуры во втором ядре.
14. Способ по п.13, в котором:
формирование первого значения включает в себя формирование контрольной суммы на основе третьего значения и четвертого значения; и
формирование второго значения включает в себя формирование контрольной суммы на основе пятого значения и шестого значения.
15. Способ по п.11, который дополнительно содержит этапы, на которых:
прогнозируют, должна ли первая инструкция выполняться с помощью первого ядра на основе первого значения; и
прогнозируют, должна ли вторая инструкция выполняться с помощью второго ядра на основе второго значения.
16. Способ по п.11, дополнительно содержащий этап, на котором восстанавливают первое значение и второе значение, если обнаруживается несовпадение.
17. Способ по п.16, дополнительно содержащий этапы, на которых:
сравнивают первое значение с восстановленным первым значением;
сравнивают второе значение с восстановленным вторым значением;
синхронизируют первое ядро со вторым ядром, если второе значение соответствует восстановленному второму значению; и
синхронизируют второе ядро с первым ядром, если первое значение соответствует восстановленному первому значению.
18. Способ по п.16, в котором первая структура является первой кэш-памятью, первое значение является первой записью в кэш-памяти, вторая структура является второй кэш-памятью, и второе значение является второй записью в кэш-памяти, в котором восстановление первого значения и второго значения включает в себя повторную загрузку первой записи в кэш-память и второй записи в кэш-память.
19. Система, которая содержит:
динамическую оперативную память;
первое ядро, которое включает в себя первую структуру;
второе ядро, которое включает в себя вторую структуру;
микроустройство контроля для обнаружения, соответствует ли первое значение от первой структуры второму значению от второй структуры;
глобальное устройство контроля для обнаружения сбоя в жесткой конфигурации между первым ядром и вторым ядром; и
логическое устройство сбоя для вызова повторной синхронизации первого ядра и второго ядра, если глобальное устройство контроля обнаруживает сбой в жесткой конфигурации, и микроустройство контроля обнаруживает несовпадение между первым значением и вторым значением.
RU2007147000/09A 2005-06-30 2006-06-29 Уменьшение частоты появления некорректируемых ошибок в системе двухмодульной избыточности в жесткой конфигурации RU2385484C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/173,835 US7747932B2 (en) 2005-06-30 2005-06-30 Reducing the uncorrectable error rate in a lockstepped dual-modular redundancy system
US11/173,835 2005-06-30

Publications (2)

Publication Number Publication Date
RU2007147000A true RU2007147000A (ru) 2009-08-10
RU2385484C2 RU2385484C2 (ru) 2010-03-27

Family

ID=37605123

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2007147000/09A RU2385484C2 (ru) 2005-06-30 2006-06-29 Уменьшение частоты появления некорректируемых ошибок в системе двухмодульной избыточности в жесткой конфигурации

Country Status (6)

Country Link
US (1) US7747932B2 (ru)
JP (1) JP4795433B2 (ru)
CN (1) CN100578462C (ru)
DE (1) DE112006001652T5 (ru)
RU (1) RU2385484C2 (ru)
WO (1) WO2007005818A2 (ru)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1807760B1 (de) * 2004-10-25 2008-09-17 Robert Bosch Gmbh Datenverarbeitungssystem mit variabler taktrate
US7581152B2 (en) * 2004-12-22 2009-08-25 Intel Corporation Fault free store data path for software implementation of redundant multithreading environments
US7743285B1 (en) * 2007-04-17 2010-06-22 Hewlett-Packard Development Company, L.P. Chip multiprocessor with configurable fault isolation
US8817597B2 (en) * 2007-11-05 2014-08-26 Honeywell International Inc. Efficient triple modular redundancy on a braided ring
US8117512B2 (en) * 2008-02-06 2012-02-14 Westinghouse Electric Company Llc Failure detection and mitigation in logic circuits
US8037350B1 (en) * 2008-04-30 2011-10-11 Hewlett-Packard Development Company, L.P. Altering a degree of redundancy used during execution of an application
US8171328B2 (en) * 2008-12-31 2012-05-01 Intel Corporation State history storage for synchronizing redundant processors
US8745440B1 (en) * 2010-09-21 2014-06-03 F5 Networks, Inc. Computer-implemented system and method for providing software fault tolerance
GB2494098B (en) 2011-04-11 2014-03-26 Bluecava Inc Thick client and thin client integration
EP2533154B1 (en) 2011-06-09 2015-08-12 Westinghouse Electric Company LLC Failure detection and mitigation in logic circuits
US9500705B2 (en) * 2013-08-28 2016-11-22 Wisconsin Alumni Research Foundation Integrated circuit providing fault prediction
CN104731666B (zh) * 2013-12-23 2017-12-08 深圳市国微电子有限公司 一种抗单粒子翻转的自纠错集成电路及其纠错方法
US10761925B2 (en) * 2015-03-24 2020-09-01 Nxp Usa, Inc. Multi-channel network-on-a-chip
EP3085596B1 (en) * 2015-04-20 2017-11-29 Autoliv Development AB A vehicle safety electronic control system
FR3037158B1 (fr) * 2015-06-05 2018-06-01 Thales Surveillance de trajectoire
EP3118694A1 (de) * 2015-07-13 2017-01-18 Siemens Aktiengesellschaft Verfahren zum betreiben eines redundanten automatisierungssystems und redundantes automatisierungssystem
KR101651370B1 (ko) * 2015-08-26 2016-08-26 한국항공우주연구원 추력기의 구동 제어방법 및 이를 실행하기 위한 프로그램을 기록한 컴퓨터 판독 가능 기록 매체
DE102015218898A1 (de) * 2015-09-30 2017-03-30 Robert Bosch Gmbh Verfahren zur redundanten Verarbeitung von Daten
CN105630732B (zh) * 2015-12-17 2018-09-14 西北工业大学 一种双模冗余微处理器的热切换方法
US10089194B2 (en) * 2016-06-08 2018-10-02 Qualcomm Incorporated System and method for false pass detection in lockstep dual core or triple modular redundancy (TMR) systems
KR101923778B1 (ko) * 2016-11-22 2018-11-29 연세대학교 산학협력단 듀얼 모듈러 리던던시 및 오류 예측을 이용한 고성능 컴퓨팅 장치 및 그 방법
KR102376396B1 (ko) * 2016-12-07 2022-03-21 한국전자통신연구원 멀티 코어 프로세서 및 그것의 캐시 관리 방법
US10740167B2 (en) * 2016-12-07 2020-08-11 Electronics And Telecommunications Research Institute Multi-core processor and cache management method thereof
KR102377729B1 (ko) * 2016-12-08 2022-03-24 한국전자통신연구원 멀티 코어 프로세서 및 그것의 동작 방법
US10429919B2 (en) * 2017-06-28 2019-10-01 Intel Corporation System, apparatus and method for loose lock-step redundancy power management
US10303566B2 (en) * 2017-07-10 2019-05-28 Arm Limited Apparatus and method for checking output data during redundant execution of instructions
WO2020016964A1 (ja) * 2018-07-18 2020-01-23 サンケン電気株式会社 マルチコアシステム
US10831628B2 (en) 2018-12-12 2020-11-10 Intel Corporation Hardware lockstep checking within a fault detection interval in a system on chip
US11221901B2 (en) * 2019-11-26 2022-01-11 Siemens Industry Software Inc. Monitoring processors operating in lockstep
CN111104243B (zh) * 2019-12-26 2021-05-28 江南大学 一种低延迟的双模lockstep容软错误处理器系统
EP3869338A1 (en) 2020-02-18 2021-08-25 Veoneer Sweden AB A vehicle safety electronic control system
US11733972B2 (en) 2020-10-06 2023-08-22 Ventana Micro Systems Inc. Processor that mitigates side channel attacks by providing random load data as a result of execution of a load operation that does not have permission to access a load address
US11868469B2 (en) * 2020-08-27 2024-01-09 Ventana Micro Systems Inc. Processor that mitigates side channel attacks by preventing all dependent instructions from consuming architectural register result produced by instruction that causes a need for an architectural exception
US11907369B2 (en) 2020-08-27 2024-02-20 Ventana Micro Systems Inc. Processor that mitigates side channel attacks by preventing cache memory state from being affected by a missing load operation by inhibiting or canceling a fill request of the load operation if an older load generates a need for an architectural exception
US11797673B2 (en) 2020-08-27 2023-10-24 Ventana Micro Systems Inc. Processor that mitigates side channel attacks by expeditiously initiating flushing of instructions dependent upon a load instruction that causes a need for an architectural exception
US11853424B2 (en) 2020-10-06 2023-12-26 Ventana Micro Systems Inc. Processor that mitigates side channel attacks by refraining from allocating an entry in a data TLB for a missing load address when the load address misses both in a data cache memory and in the data TLB and the load address specifies a location without a valid address translation or without permission to read from the location
US11734426B2 (en) 2020-10-06 2023-08-22 Ventana Micro Systems Inc. Processor that mitigates side channel attacks by prevents cache line data implicated by a missing load address from being filled into a data cache memory when the load address specifies a location with no valid address translation or no permission to read from the location
CA3136322A1 (en) * 2020-12-02 2022-06-02 The Boeing Company Debug trace streams for core synchronization
US11892505B1 (en) 2022-09-15 2024-02-06 Stmicroelectronics International N.V. Debug and trace circuit in lockstep architectures, associated method, processing system, and apparatus
CN118035006B (zh) * 2024-04-12 2024-06-18 西北工业大学 一种三核处理器独立和锁步运行可动态配置的控制系统

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3156429B2 (ja) * 1993-03-17 2001-04-16 株式会社日立製作所 高信頼型計算機用システム制御lsi及びそれを用いたコンピュータシステム
US5748873A (en) * 1992-09-17 1998-05-05 Hitachi,Ltd. Fault recovering system provided in highly reliable computer system having duplicated processors
US5751955A (en) * 1992-12-17 1998-05-12 Tandem Computers Incorporated Method of synchronizing a pair of central processor units for duplex, lock-step operation by copying data into a corresponding locations of another memory
US5604754A (en) * 1995-02-27 1997-02-18 International Business Machines Corporation Validating the synchronization of lock step operated circuits
CA2240932C (en) * 1995-12-18 2002-03-26 Elsag International N.V. Processor independent error checking arrangement
JPH10261762A (ja) * 1997-03-19 1998-09-29 Hitachi Ltd メモリを内蔵した多重化マイクロコントローラ
US6115365A (en) * 1998-07-30 2000-09-05 Motorola, Inc. Method and apparatus for queuing and transmitting messages
JP2000298594A (ja) * 1999-04-13 2000-10-24 Nec Corp フォールトトレラント制御方法および冗長コンピュータシステム
US6615366B1 (en) 1999-12-21 2003-09-02 Intel Corporation Microprocessor with dual execution core operable in high reliability mode
US6604177B1 (en) * 2000-09-29 2003-08-05 Hewlett-Packard Development Company, L.P. Communication of dissimilar data between lock-stepped processors
US6772368B2 (en) 2000-12-11 2004-08-03 International Business Machines Corporation Multiprocessor with pair-wise high reliability mode, and method therefore
US6938183B2 (en) * 2001-09-21 2005-08-30 The Boeing Company Fault tolerant processing architecture
JP2004046599A (ja) * 2002-07-12 2004-02-12 Nec Corp フォルトトレラントコンピュータ装置、その再同期化方法及び再同期化プログラム
US7055060B2 (en) 2002-12-19 2006-05-30 Intel Corporation On-die mechanism for high-reliability processor

Also Published As

Publication number Publication date
CN101213522A (zh) 2008-07-02
DE112006001652T5 (de) 2008-05-08
CN100578462C (zh) 2010-01-06
WO2007005818A3 (en) 2007-05-10
RU2385484C2 (ru) 2010-03-27
US20070022348A1 (en) 2007-01-25
JP2009501367A (ja) 2009-01-15
WO2007005818A2 (en) 2007-01-11
US7747932B2 (en) 2010-06-29
JP4795433B2 (ja) 2011-10-19

Similar Documents

Publication Publication Date Title
RU2007147000A (ru) Уменьшение частоты появления некорректируемых ошибок в системе двухмодульной избыточности в жесткости конфигурации
KR100743180B1 (ko) 데이타이중화시스템
WO2016062084A1 (zh) 掉电处理方法、装置及电子设备
KR101606289B1 (ko) 프로그래머블 컨트롤러
JP2011054263A (ja) メモリエラーと冗長
US20160092331A1 (en) Redundant transactions for system test
JP2012104112A (ja) ミラー化データ・ストレージ・システムにおけるエラーを検出するための方法、コンピュータ・プログラム及びシステム
CN112214411A (zh) 一种容灾系统测试方法、装置、设备及存储介质
JP2012068840A (ja) アドレス変換検査装置、中央処理演算装置、及びアドレス変換検査方法
JP4973703B2 (ja) 故障検出方法及び監視装置
KR101533081B1 (ko) 저전력과 신뢰성을 동시에 확보하기 위한 이중화 대응 장치, 이중화 시스템 및 이중화 구성 설정 방법
US7089484B2 (en) Dynamic sparing during normal computer system operation
Balaz et al. Generic self repair architecture with multiple fault handling capability
JP2014132384A (ja) マイクコンピュータ及びその制御方法
JP2011128821A (ja) 二重化フィールド機器
JP2010102565A (ja) 二重化制御装置
CN109086180B (zh) 一种内存检验测试方法
KR20100114147A (ko) 리던던시 분석 장치 및 리던던시 분석 방법
US20240086327A1 (en) Pseudo Lock-Step Execution Across CPU Cores
JP2000298594A (ja) フォールトトレラント制御方法および冗長コンピュータシステム
US11640327B2 (en) Circuit detection method and data detection circuit
JPH11296394A (ja) 二重化情報処理装置
CN109887539B (zh) 基于March算法的RAM检测方法
JP2018151718A (ja) ソースコード検証システム
CN117687895A (zh) 跨cpu内核的伪锁步执行

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20130630