RU2047899C1 - Способ обеспечения отказоустойчивости вычислительных систем - Google Patents
Способ обеспечения отказоустойчивости вычислительных систем Download PDFInfo
- Publication number
- RU2047899C1 RU2047899C1 SU4947483A RU2047899C1 RU 2047899 C1 RU2047899 C1 RU 2047899C1 SU 4947483 A SU4947483 A SU 4947483A RU 2047899 C1 RU2047899 C1 RU 2047899C1
- Authority
- RU
- Russia
- Prior art keywords
- channels
- signals
- failures
- channel
- fault
- Prior art date
Links
Images
Landscapes
- Hardware Redundancy (AREA)
Abstract
Изобретение относится к вычислительным системам и может быть использовано для построения отказоустойчивых систем. Способ основан на использовании сигналов от детекторов сбоев, входящих в состав каждого из резервированных каналов, для блокировки неисправных каналов. Для маскирования сбоев используют независимую одновременную работу N каналов, число которых на единицу больше кратности маскируемых сбоев, сигналы которых подают на общий выход, и по сигналам, полученным от детекторов сбоев, входящих в состав каждого канала, производят блокировку прохождения сигналов от каналов, в которых произошли сбои, и пропускают на выход тот из сигналов от исправных каналов, который приходит первым по времени. 1 з. п. ф-лы, 1 ил.
Description
Изобретение относится к вычислительным системам и может быть использовано для построения отказоустойчивых систем.
Обеспечение отказоустойчивости предполагает парирование действия константных отказов и маскирование сбоев (перемежающихся отказов), т.е. предотвращение распространения последствий сбоя на продолжение выполнения системой своих функций. Парирование действия отказов всегда связано с введением в систему того или иного вида избыточности.
Известен способ обеспечения отказоустойчивости, основанный на фиксировании константного отказа или сбоя системы в целом или в ее отдельных частях с последующей реконфигурацией системы [1, 2] Такой способ не позволяет маскировать сбои, связан с прерыванием функционирования системы, т.е. не обеспечивает сбоеустойчивость в системах реального времени.
Известен способ обеспечения отказоустойчивости, позволяющий маскировать сбои и основанный на мажорировании, т.е. использовании 2n+1 каналов и схемы голосования, отбирающей те выходные данные, которые представляют большинство [1, 2] Такой способ и используется для систем реального времени. Мажорирование может быть осуществлено или аппаратно, или программно, или в комбинации этих способов.
Недостатком таких способов является значительное количество оборудования, даже в минимальном варианте при n=1 (троирование). Другим недостатком способов мажорирования являются значительные потери производительности. При аппаратной реализации потеря производительности связана с необходимостью синхронизации процессов в резервированных каналах. При программной реализации быстродействие системы снижается из-за затрат времени на обмен информацией между каналами.
Причина такой неэффективности состоит в том, что и при аппаратной, и при программной организации механизм маскирования сбоев, т.е. голосование, определение неисправного канала, его блокирование и последующее включение в нормальную работу, используется в каждом такте работы системы вне зависимости от наличия или отсутствия сбоев. Эти временные потери при практической реализации достигают 30-50%
К недостаткам мажорирования при его реализации следует отнести также большое количество связей между каналами и значительные трудности при проектировании. По некоторым данным троированные мажоритарные схемы из-за этого дороже в среднем в 5 раз, чем обычные [2]
Следует отметить, что при аппаратном мажорировании в случае константных отказов возможности реконфигурации ограничены, и нормальное функционирование при деградации системы до одного канала обеспечивается лишь при дополнительных аппаратных и временных затратах. При программном мажорировании в случае константных отказов реконфигурация до одного исправного канала возможна без дополнительных аппаратных затрат. Но увеличение кратности маскируемых сбоев в отличие от аппаратного мажорирования, где это можно осуществить путем организации многократного голосования при прохождении сигналов по системе или соответственно путем введения аппаратной избыточности невозможно.
К недостаткам мажорирования при его реализации следует отнести также большое количество связей между каналами и значительные трудности при проектировании. По некоторым данным троированные мажоритарные схемы из-за этого дороже в среднем в 5 раз, чем обычные [2]
Следует отметить, что при аппаратном мажорировании в случае константных отказов возможности реконфигурации ограничены, и нормальное функционирование при деградации системы до одного канала обеспечивается лишь при дополнительных аппаратных и временных затратах. При программном мажорировании в случае константных отказов реконфигурация до одного исправного канала возможна без дополнительных аппаратных затрат. Но увеличение кратности маскируемых сбоев в отличие от аппаратного мажорирования, где это можно осуществить путем организации многократного голосования при прохождении сигналов по системе или соответственно путем введения аппаратной избыточности невозможно.
Целью изобретения является сокращение аппаратной и временной избыточности и расширение функциональных возможностей.
Это достигается тем, что в способе, заключающемся в маскировании сбоев путем резервирования и включающем определение наличия сбоев, идентификацию и блокировку неисправных каналов для маскирования сбоев используют независимую одновременную работу N каналов, число которых на единицу больше кратности маскируемых сбоев, сигналы которых подают на общий выход, и по сигналам, полученным от детекторов сбоев, входящих в состав каждого канала, производят блокировку прохождения сигналов от каналов, в которых произошли сбои и пропускают на выход тот из сигналов от исправных каналов, который приходит первым по времени. Определение наличия сбоя, идентификация и блокировка неисправных каналов производится после прохождения на выход сигнала, пришедшего первым по времени.
Основным отличием от мажорирования является то, что механизм маскирования в предлагаемом способе работает только при наличии сбоев в системе, а при нормальной pаботе возможная временная избыточность минимальна и связана лишь с работой детекторов сбоев.
На чертеже показана работа двухканальной системы, обеспечивающая предлагаемый способ, где 1 вход системы, 2 i, j отдельные части резервированных каналов, 3 i, j детекторы сбоев, 4 i, j сигналы о сбоях, 5 дискриминатор, 6 выход системы.
Предлагаемый способ может быть применен как в системе в целом, так и в каждой отдельной ее части, т. е. система может быть разбита на отдельные части и в каждой или в некоторых из них применен предлагаемый способ. На идентичность каналов или на идентичность частей каналов при разбиении предлагаемый способ ограничений не накладывает и в общем случае n≠m.
Сигналы 4 i, j о наличии сбоя поступают на дискриминатор 5, в котором прохождение сигнала от неисправного канала на выход 6 блокируется. На выход 6 должен поступать лишь один, первый по времени из пришедших от исправных каналов, сигнал. Поэтому в дискриминаторе 5 должны обеспечиваться исключение конфликтных ситуаций при возможном одновременном приходе нескольких сигналов и блокировка прохождения на выход сигналов от остальных исправных каналов после выдачи первого.
Кратность маскируемых сбоев равна кратности резервирования, но может быть и увеличена за счет применения соответствующих типов селекторов сбоев. Например. Применение кодов Хэмминга позволяет фиксировать двойные сбои ОЗУ.
Существует обширный класс систем, в которых в силу их инерционности не накладывается жестких требований на правильное исполнение сигнала в каждом единичном такте работы системы. Для таких систем возможна другая реализация предлагаемого способа без использования сигналов от детекторов сбоев.
Сигналы, пришедшие на дискриминатор 5, запоминаются. Это позволяет производить анализ работы каналов "задним числом", без затрат времени на анализ при отсутствии сбоев. При наличии сбоя проводится определение неисправного канала, блокировка его и последующее включение в нормальную работу. А в случае константного отказа неисправный канал отключается. При определении неисправного канала могут применяться методы повторного счета, голосования (при нечетном N>2) и т.п. Дискриминатор 5 при такой схеме работы должен содержать дополнительно буферную память и устройства идентификации неисправного канала. Такая реализация может применяться в комбинации с детекторами сбоев. Надежность дискриминатора должна быть выше, чем у каналов, что вполне достижимо, учитывая относительную (по сравнению с каналом) простоту схемы дискриминатора.
Использование предлагаемого способа имеет следующие преимущества по сравнению с мажорированием:
экономия аппаратуры примерно на 30% при минимальной конфигурации и еще большая при увеличении кратности парируемых сбоев;
минимизация временных потерь при нормальной работе системы и даже сохранение быстродействия на уровне одноканальной системы при нежестких требованиях к работе системы в каждом единичном такте;
отсутствие перекрестных связей между каналами и связанные с этим относительная простота и стоимость проектирования;
возможность повышения надежности за счет использования разных алгоритмов решения задач и разных структур каналов;
возможность обеспечить без дополнительных аппаратных затрат реконфигурацию системы при константных отказах и ее нормальное функционирование при деградации до одного канала, а также увеличение кратности маскируемых сбоев путем использования соответствующих детекторов сбоев или рационального разбиения каналов на части.
экономия аппаратуры примерно на 30% при минимальной конфигурации и еще большая при увеличении кратности парируемых сбоев;
минимизация временных потерь при нормальной работе системы и даже сохранение быстродействия на уровне одноканальной системы при нежестких требованиях к работе системы в каждом единичном такте;
отсутствие перекрестных связей между каналами и связанные с этим относительная простота и стоимость проектирования;
возможность повышения надежности за счет использования разных алгоритмов решения задач и разных структур каналов;
возможность обеспечить без дополнительных аппаратных затрат реконфигурацию системы при константных отказах и ее нормальное функционирование при деградации до одного канала, а также увеличение кратности маскируемых сбоев путем использования соответствующих детекторов сбоев или рационального разбиения каналов на части.
Claims (2)
1. СПОСОБ ОБЕСПЕЧЕНИЯ ОТКАЗОУСТОЙЧИВОСТИ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ, заключающийся в маскировании сбоев путем резервирования и включающий определение наличия сбоев, идентификацию и блокировку неисправных каналов, отличающийся тем, что для маскирования сбоев используют независимую одновременную работу N каналов, число которых на единицу больше кратности маскируемых сбоев, сигналы которых подают на общий выход, и по сигналам, полученным от детекторов сбоев, входящих в состав каждого канала, производят блокировку прохождения сигналов от каналов, в которых произошли сбои, и пропускают на выход тот из сигналов от исправных каналов, который приходит первым по времени.
2. Способ по п.1, отличающийся тем, что определение наличия сбоя, идентификация и блокировка неисправных каналов производятся после прохождения на выход сигнала, пришедшего первым по времени.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SU4947483 RU2047899C1 (ru) | 1991-06-21 | 1991-06-21 | Способ обеспечения отказоустойчивости вычислительных систем |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SU4947483 RU2047899C1 (ru) | 1991-06-21 | 1991-06-21 | Способ обеспечения отказоустойчивости вычислительных систем |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2047899C1 true RU2047899C1 (ru) | 1995-11-10 |
Family
ID=21580339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
SU4947483 RU2047899C1 (ru) | 1991-06-21 | 1991-06-21 | Способ обеспечения отказоустойчивости вычислительных систем |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2047899C1 (ru) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2559767C2 (ru) * | 2013-11-15 | 2015-08-10 | Открытое акционерное общество "Научно-исследовательский институт "Субмикрон" | Способ обеспечения сбое- и отказоустойчивости вычислительной системы, основанный на репликации задач, возможности самореконфигурации и самоуправлении деградацией |
-
1991
- 1991-06-21 RU SU4947483 patent/RU2047899C1/ru active
Non-Patent Citations (2)
Title |
---|
1. Согомонян Е.С., Слабаков Е.В. Самопроверяемые устройства и отказоустойчивые системы. М.; Радио и связь, 1989. * |
2. Кравец Г. Повышение надежности работы вычислительных систем. Экспресс - информация . Вычислительная техника. М., ВИНИТИ, 1990, N 26. * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2559767C2 (ru) * | 2013-11-15 | 2015-08-10 | Открытое акционерное общество "Научно-исследовательский институт "Субмикрон" | Способ обеспечения сбое- и отказоустойчивости вычислительной системы, основанный на репликации задач, возможности самореконфигурации и самоуправлении деградацией |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US3848116A (en) | Data processing system having triplexed system units | |
US4937741A (en) | Synchronization of fault-tolerant parallel processing systems | |
US4366535A (en) | Modular signal-processing system | |
EP0381334B1 (en) | Apparatus for management, comparison, and correction of redundant digital data | |
US3829668A (en) | Double unit control device | |
US20040153888A1 (en) | Multi-processor system | |
GB2268817B (en) | A fault-tolerant computer system | |
US3833798A (en) | Data processing systems having multiplexed system units | |
EP0614552B1 (en) | Multiple-fail-operational fault tolerant clock | |
EP0190034A2 (en) | Multi-channel redundant processing systems | |
RU2047899C1 (ru) | Способ обеспечения отказоустойчивости вычислительных систем | |
AU711166B2 (en) | Clock selector system | |
US4740961A (en) | Frame checking arrangement for duplex time multiplexed reframing circuitry | |
RU2264648C2 (ru) | Резервированная двухпроцессорная вычислительная система | |
SU1156273A1 (ru) | Трехканальна резервированна вычислительна система | |
RU1819116C (ru) | Трехканальная резервированная система | |
EP0561519A2 (en) | Distributed processor arrangement | |
SU739537A1 (ru) | Устройство дл мажоритарного выбора сигналов | |
SU1089762A1 (ru) | Резервированный счетчик импульсов | |
RU1805497C (ru) | Многоканальное запоминающее устройство | |
SU1410047A1 (ru) | Система коммутации | |
KR0176085B1 (ko) | 병렬처리 컴퓨터 시스템에서의 프로세서 노드 및 노드연결망의 에러 검출방법 | |
Мailybaev et al. | Building fault-tolerant decentralized systems | |
SU1115256A2 (ru) | Трехканальное резервированное устройство | |
RU2015543C1 (ru) | Устройство для мажоритарного выбора сигналов |