RU2047899C1 - Способ обеспечения отказоустойчивости вычислительных систем - Google Patents

Способ обеспечения отказоустойчивости вычислительных систем Download PDF

Info

Publication number
RU2047899C1
RU2047899C1 SU4947483A RU2047899C1 RU 2047899 C1 RU2047899 C1 RU 2047899C1 SU 4947483 A SU4947483 A SU 4947483A RU 2047899 C1 RU2047899 C1 RU 2047899C1
Authority
RU
Russia
Prior art keywords
channels
signals
failures
channel
fault
Prior art date
Application number
Other languages
English (en)
Inventor
В.С. Козлов
Ф.А. Листенгорт
В.А. Меркулов
В.Г. Сиренко
А.М. Смаглий
А.В. Щагин
Original Assignee
Научно-исследовательский институт "Научный центр"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Научно-исследовательский институт "Научный центр" filed Critical Научно-исследовательский институт "Научный центр"
Priority to SU4947483 priority Critical patent/RU2047899C1/ru
Application granted granted Critical
Publication of RU2047899C1 publication Critical patent/RU2047899C1/ru

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Abstract

Изобретение относится к вычислительным системам и может быть использовано для построения отказоустойчивых систем. Способ основан на использовании сигналов от детекторов сбоев, входящих в состав каждого из резервированных каналов, для блокировки неисправных каналов. Для маскирования сбоев используют независимую одновременную работу N каналов, число которых на единицу больше кратности маскируемых сбоев, сигналы которых подают на общий выход, и по сигналам, полученным от детекторов сбоев, входящих в состав каждого канала, производят блокировку прохождения сигналов от каналов, в которых произошли сбои, и пропускают на выход тот из сигналов от исправных каналов, который приходит первым по времени. 1 з. п. ф-лы, 1 ил.

Description

Изобретение относится к вычислительным системам и может быть использовано для построения отказоустойчивых систем.
Обеспечение отказоустойчивости предполагает парирование действия константных отказов и маскирование сбоев (перемежающихся отказов), т.е. предотвращение распространения последствий сбоя на продолжение выполнения системой своих функций. Парирование действия отказов всегда связано с введением в систему того или иного вида избыточности.
Известен способ обеспечения отказоустойчивости, основанный на фиксировании константного отказа или сбоя системы в целом или в ее отдельных частях с последующей реконфигурацией системы [1, 2] Такой способ не позволяет маскировать сбои, связан с прерыванием функционирования системы, т.е. не обеспечивает сбоеустойчивость в системах реального времени.
Известен способ обеспечения отказоустойчивости, позволяющий маскировать сбои и основанный на мажорировании, т.е. использовании 2n+1 каналов и схемы голосования, отбирающей те выходные данные, которые представляют большинство [1, 2] Такой способ и используется для систем реального времени. Мажорирование может быть осуществлено или аппаратно, или программно, или в комбинации этих способов.
Недостатком таких способов является значительное количество оборудования, даже в минимальном варианте при n=1 (троирование). Другим недостатком способов мажорирования являются значительные потери производительности. При аппаратной реализации потеря производительности связана с необходимостью синхронизации процессов в резервированных каналах. При программной реализации быстродействие системы снижается из-за затрат времени на обмен информацией между каналами.
Причина такой неэффективности состоит в том, что и при аппаратной, и при программной организации механизм маскирования сбоев, т.е. голосование, определение неисправного канала, его блокирование и последующее включение в нормальную работу, используется в каждом такте работы системы вне зависимости от наличия или отсутствия сбоев. Эти временные потери при практической реализации достигают 30-50%
К недостаткам мажорирования при его реализации следует отнести также большое количество связей между каналами и значительные трудности при проектировании. По некоторым данным троированные мажоритарные схемы из-за этого дороже в среднем в 5 раз, чем обычные [2]
Следует отметить, что при аппаратном мажорировании в случае константных отказов возможности реконфигурации ограничены, и нормальное функционирование при деградации системы до одного канала обеспечивается лишь при дополнительных аппаратных и временных затратах. При программном мажорировании в случае константных отказов реконфигурация до одного исправного канала возможна без дополнительных аппаратных затрат. Но увеличение кратности маскируемых сбоев в отличие от аппаратного мажорирования, где это можно осуществить путем организации многократного голосования при прохождении сигналов по системе или соответственно путем введения аппаратной избыточности невозможно.
Целью изобретения является сокращение аппаратной и временной избыточности и расширение функциональных возможностей.
Это достигается тем, что в способе, заключающемся в маскировании сбоев путем резервирования и включающем определение наличия сбоев, идентификацию и блокировку неисправных каналов для маскирования сбоев используют независимую одновременную работу N каналов, число которых на единицу больше кратности маскируемых сбоев, сигналы которых подают на общий выход, и по сигналам, полученным от детекторов сбоев, входящих в состав каждого канала, производят блокировку прохождения сигналов от каналов, в которых произошли сбои и пропускают на выход тот из сигналов от исправных каналов, который приходит первым по времени. Определение наличия сбоя, идентификация и блокировка неисправных каналов производится после прохождения на выход сигнала, пришедшего первым по времени.
Основным отличием от мажорирования является то, что механизм маскирования в предлагаемом способе работает только при наличии сбоев в системе, а при нормальной pаботе возможная временная избыточность минимальна и связана лишь с работой детекторов сбоев.
На чертеже показана работа двухканальной системы, обеспечивающая предлагаемый способ, где 1 вход системы, 2 i, j отдельные части резервированных каналов, 3 i, j детекторы сбоев, 4 i, j сигналы о сбоях, 5 дискриминатор, 6 выход системы.
Предлагаемый способ может быть применен как в системе в целом, так и в каждой отдельной ее части, т. е. система может быть разбита на отдельные части и в каждой или в некоторых из них применен предлагаемый способ. На идентичность каналов или на идентичность частей каналов при разбиении предлагаемый способ ограничений не накладывает и в общем случае n≠m.
Сигналы 4 i, j о наличии сбоя поступают на дискриминатор 5, в котором прохождение сигнала от неисправного канала на выход 6 блокируется. На выход 6 должен поступать лишь один, первый по времени из пришедших от исправных каналов, сигнал. Поэтому в дискриминаторе 5 должны обеспечиваться исключение конфликтных ситуаций при возможном одновременном приходе нескольких сигналов и блокировка прохождения на выход сигналов от остальных исправных каналов после выдачи первого.
Кратность маскируемых сбоев равна кратности резервирования, но может быть и увеличена за счет применения соответствующих типов селекторов сбоев. Например. Применение кодов Хэмминга позволяет фиксировать двойные сбои ОЗУ.
Существует обширный класс систем, в которых в силу их инерционности не накладывается жестких требований на правильное исполнение сигнала в каждом единичном такте работы системы. Для таких систем возможна другая реализация предлагаемого способа без использования сигналов от детекторов сбоев.
Сигналы, пришедшие на дискриминатор 5, запоминаются. Это позволяет производить анализ работы каналов "задним числом", без затрат времени на анализ при отсутствии сбоев. При наличии сбоя проводится определение неисправного канала, блокировка его и последующее включение в нормальную работу. А в случае константного отказа неисправный канал отключается. При определении неисправного канала могут применяться методы повторного счета, голосования (при нечетном N>2) и т.п. Дискриминатор 5 при такой схеме работы должен содержать дополнительно буферную память и устройства идентификации неисправного канала. Такая реализация может применяться в комбинации с детекторами сбоев. Надежность дискриминатора должна быть выше, чем у каналов, что вполне достижимо, учитывая относительную (по сравнению с каналом) простоту схемы дискриминатора.
Использование предлагаемого способа имеет следующие преимущества по сравнению с мажорированием:
экономия аппаратуры примерно на 30% при минимальной конфигурации и еще большая при увеличении кратности парируемых сбоев;
минимизация временных потерь при нормальной работе системы и даже сохранение быстродействия на уровне одноканальной системы при нежестких требованиях к работе системы в каждом единичном такте;
отсутствие перекрестных связей между каналами и связанные с этим относительная простота и стоимость проектирования;
возможность повышения надежности за счет использования разных алгоритмов решения задач и разных структур каналов;
возможность обеспечить без дополнительных аппаратных затрат реконфигурацию системы при константных отказах и ее нормальное функционирование при деградации до одного канала, а также увеличение кратности маскируемых сбоев путем использования соответствующих детекторов сбоев или рационального разбиения каналов на части.

Claims (2)

1. СПОСОБ ОБЕСПЕЧЕНИЯ ОТКАЗОУСТОЙЧИВОСТИ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ, заключающийся в маскировании сбоев путем резервирования и включающий определение наличия сбоев, идентификацию и блокировку неисправных каналов, отличающийся тем, что для маскирования сбоев используют независимую одновременную работу N каналов, число которых на единицу больше кратности маскируемых сбоев, сигналы которых подают на общий выход, и по сигналам, полученным от детекторов сбоев, входящих в состав каждого канала, производят блокировку прохождения сигналов от каналов, в которых произошли сбои, и пропускают на выход тот из сигналов от исправных каналов, который приходит первым по времени.
2. Способ по п.1, отличающийся тем, что определение наличия сбоя, идентификация и блокировка неисправных каналов производятся после прохождения на выход сигнала, пришедшего первым по времени.
SU4947483 1991-06-21 1991-06-21 Способ обеспечения отказоустойчивости вычислительных систем RU2047899C1 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
SU4947483 RU2047899C1 (ru) 1991-06-21 1991-06-21 Способ обеспечения отказоустойчивости вычислительных систем

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
SU4947483 RU2047899C1 (ru) 1991-06-21 1991-06-21 Способ обеспечения отказоустойчивости вычислительных систем

Publications (1)

Publication Number Publication Date
RU2047899C1 true RU2047899C1 (ru) 1995-11-10

Family

ID=21580339

Family Applications (1)

Application Number Title Priority Date Filing Date
SU4947483 RU2047899C1 (ru) 1991-06-21 1991-06-21 Способ обеспечения отказоустойчивости вычислительных систем

Country Status (1)

Country Link
RU (1) RU2047899C1 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2559767C2 (ru) * 2013-11-15 2015-08-10 Открытое акционерное общество "Научно-исследовательский институт "Субмикрон" Способ обеспечения сбое- и отказоустойчивости вычислительной системы, основанный на репликации задач, возможности самореконфигурации и самоуправлении деградацией

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
1. Согомонян Е.С., Слабаков Е.В. Самопроверяемые устройства и отказоустойчивые системы. М.; Радио и связь, 1989. *
2. Кравец Г. Повышение надежности работы вычислительных систем. Экспресс - информация . Вычислительная техника. М., ВИНИТИ, 1990, N 26. *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2559767C2 (ru) * 2013-11-15 2015-08-10 Открытое акционерное общество "Научно-исследовательский институт "Субмикрон" Способ обеспечения сбое- и отказоустойчивости вычислительной системы, основанный на репликации задач, возможности самореконфигурации и самоуправлении деградацией

Similar Documents

Publication Publication Date Title
US3848116A (en) Data processing system having triplexed system units
US4937741A (en) Synchronization of fault-tolerant parallel processing systems
US4366535A (en) Modular signal-processing system
EP0381334B1 (en) Apparatus for management, comparison, and correction of redundant digital data
US3829668A (en) Double unit control device
US20040153888A1 (en) Multi-processor system
GB2268817B (en) A fault-tolerant computer system
US3833798A (en) Data processing systems having multiplexed system units
EP0614552B1 (en) Multiple-fail-operational fault tolerant clock
EP0190034A2 (en) Multi-channel redundant processing systems
RU2047899C1 (ru) Способ обеспечения отказоустойчивости вычислительных систем
AU711166B2 (en) Clock selector system
US4740961A (en) Frame checking arrangement for duplex time multiplexed reframing circuitry
RU2264648C2 (ru) Резервированная двухпроцессорная вычислительная система
SU1156273A1 (ru) Трехканальна резервированна вычислительна система
RU1819116C (ru) Трехканальная резервированная система
EP0561519A2 (en) Distributed processor arrangement
SU739537A1 (ru) Устройство дл мажоритарного выбора сигналов
SU1089762A1 (ru) Резервированный счетчик импульсов
RU1805497C (ru) Многоканальное запоминающее устройство
SU1410047A1 (ru) Система коммутации
KR0176085B1 (ko) 병렬처리 컴퓨터 시스템에서의 프로세서 노드 및 노드연결망의 에러 검출방법
Мailybaev et al. Building fault-tolerant decentralized systems
SU1115256A2 (ru) Трехканальное резервированное устройство
RU2015543C1 (ru) Устройство для мажоритарного выбора сигналов