RU2047899C1

RU2047899C1 - Способ обеспечения отказоустойчивости вычислительных систем

Info

Publication number: RU2047899C1
Authority: RU
Inventors: В.С. Козлов; Ф.А. Листенгорт; В.А. Меркулов; В.Г. Сиренко; А.М. Смаглий; А.В. Щагин
Original assignee: Научно-исследовательский институт "Научный центр"
Priority date: 1991-06-21
Filing date: 1991-06-21
Publication date: 1995-11-10

Abstract

Изобретение относится к вычислительным системам и может быть использовано для построения отказоустойчивых систем. Способ основан на использовании сигналов от детекторов сбоев, входящих в состав каждого из резервированных каналов, для блокировки неисправных каналов. Для маскирования сбоев используют независимую одновременную работу N каналов, число которых на единицу больше кратности маскируемых сбоев, сигналы которых подают на общий выход, и по сигналам, полученным от детекторов сбоев, входящих в состав каждого канала, производят блокировку прохождения сигналов от каналов, в которых произошли сбои, и пропускают на выход тот из сигналов от исправных каналов, который приходит первым по времени. 1 з. п. ф-лы, 1 ил.

Description

Изобретение относится к вычислительным системам и может быть использовано для построения отказоустойчивых систем.

Обеспечение отказоустойчивости предполагает парирование действия константных отказов и маскирование сбоев (перемежающихся отказов), т.е. предотвращение распространения последствий сбоя на продолжение выполнения системой своих функций. Парирование действия отказов всегда связано с введением в систему того или иного вида избыточности.

Известен способ обеспечения отказоустойчивости, основанный на фиксировании константного отказа или сбоя системы в целом или в ее отдельных частях с последующей реконфигурацией системы [1, 2] Такой способ не позволяет маскировать сбои, связан с прерыванием функционирования системы, т.е. не обеспечивает сбоеустойчивость в системах реального времени.

Известен способ обеспечения отказоустойчивости, позволяющий маскировать сбои и основанный на мажорировании, т.е. использовании 2n+1 каналов и схемы голосования, отбирающей те выходные данные, которые представляют большинство [1, 2] Такой способ и используется для систем реального времени. Мажорирование может быть осуществлено или аппаратно, или программно, или в комбинации этих способов.

Недостатком таких способов является значительное количество оборудования, даже в минимальном варианте при n=1 (троирование). Другим недостатком способов мажорирования являются значительные потери производительности. При аппаратной реализации потеря производительности связана с необходимостью синхронизации процессов в резервированных каналах. При программной реализации быстродействие системы снижается из-за затрат времени на обмен информацией между каналами.

Причина такой неэффективности состоит в том, что и при аппаратной, и при программной организации механизм маскирования сбоев, т.е. голосование, определение неисправного канала, его блокирование и последующее включение в нормальную работу, используется в каждом такте работы системы вне зависимости от наличия или отсутствия сбоев. Эти временные потери при практической реализации достигают 30-50%
К недостаткам мажорирования при его реализации следует отнести также большое количество связей между каналами и значительные трудности при проектировании. По некоторым данным троированные мажоритарные схемы из-за этого дороже в среднем в 5 раз, чем обычные [2]
Следует отметить, что при аппаратном мажорировании в случае константных отказов возможности реконфигурации ограничены, и нормальное функционирование при деградации системы до одного канала обеспечивается лишь при дополнительных аппаратных и временных затратах. При программном мажорировании в случае константных отказов реконфигурация до одного исправного канала возможна без дополнительных аппаратных затрат. Но увеличение кратности маскируемых сбоев в отличие от аппаратного мажорирования, где это можно осуществить путем организации многократного голосования при прохождении сигналов по системе или соответственно путем введения аппаратной избыточности невозможно.

Целью изобретения является сокращение аппаратной и временной избыточности и расширение функциональных возможностей.

Это достигается тем, что в способе, заключающемся в маскировании сбоев путем резервирования и включающем определение наличия сбоев, идентификацию и блокировку неисправных каналов для маскирования сбоев используют независимую одновременную работу N каналов, число которых на единицу больше кратности маскируемых сбоев, сигналы которых подают на общий выход, и по сигналам, полученным от детекторов сбоев, входящих в состав каждого канала, производят блокировку прохождения сигналов от каналов, в которых произошли сбои и пропускают на выход тот из сигналов от исправных каналов, который приходит первым по времени. Определение наличия сбоя, идентификация и блокировка неисправных каналов производится после прохождения на выход сигнала, пришедшего первым по времени.

Основным отличием от мажорирования является то, что механизм маскирования в предлагаемом способе работает только при наличии сбоев в системе, а при нормальной pаботе возможная временная избыточность минимальна и связана лишь с работой детекторов сбоев.

На чертеже показана работа двухканальной системы, обеспечивающая предлагаемый способ, где 1 вход системы, 2 i, j отдельные части резервированных каналов, 3 i, j детекторы сбоев, 4 i, j сигналы о сбоях, 5 дискриминатор, 6 выход системы.

Предлагаемый способ может быть применен как в системе в целом, так и в каждой отдельной ее части, т. е. система может быть разбита на отдельные части и в каждой или в некоторых из них применен предлагаемый способ. На идентичность каналов или на идентичность частей каналов при разбиении предлагаемый способ ограничений не накладывает и в общем случае n≠m.

Сигналы 4 i, j о наличии сбоя поступают на дискриминатор 5, в котором прохождение сигнала от неисправного канала на выход 6 блокируется. На выход 6 должен поступать лишь один, первый по времени из пришедших от исправных каналов, сигнал. Поэтому в дискриминаторе 5 должны обеспечиваться исключение конфликтных ситуаций при возможном одновременном приходе нескольких сигналов и блокировка прохождения на выход сигналов от остальных исправных каналов после выдачи первого.

Кратность маскируемых сбоев равна кратности резервирования, но может быть и увеличена за счет применения соответствующих типов селекторов сбоев. Например. Применение кодов Хэмминга позволяет фиксировать двойные сбои ОЗУ.

Существует обширный класс систем, в которых в силу их инерционности не накладывается жестких требований на правильное исполнение сигнала в каждом единичном такте работы системы. Для таких систем возможна другая реализация предлагаемого способа без использования сигналов от детекторов сбоев.

Сигналы, пришедшие на дискриминатор 5, запоминаются. Это позволяет производить анализ работы каналов "задним числом", без затрат времени на анализ при отсутствии сбоев. При наличии сбоя проводится определение неисправного канала, блокировка его и последующее включение в нормальную работу. А в случае константного отказа неисправный канал отключается. При определении неисправного канала могут применяться методы повторного счета, голосования (при нечетном N>2) и т.п. Дискриминатор 5 при такой схеме работы должен содержать дополнительно буферную память и устройства идентификации неисправного канала. Такая реализация может применяться в комбинации с детекторами сбоев. Надежность дискриминатора должна быть выше, чем у каналов, что вполне достижимо, учитывая относительную (по сравнению с каналом) простоту схемы дискриминатора.

Использование предлагаемого способа имеет следующие преимущества по сравнению с мажорированием:
экономия аппаратуры примерно на 30% при минимальной конфигурации и еще большая при увеличении кратности парируемых сбоев;
минимизация временных потерь при нормальной работе системы и даже сохранение быстродействия на уровне одноканальной системы при нежестких требованиях к работе системы в каждом единичном такте;
отсутствие перекрестных связей между каналами и связанные с этим относительная простота и стоимость проектирования;
возможность повышения надежности за счет использования разных алгоритмов решения задач и разных структур каналов;
возможность обеспечить без дополнительных аппаратных затрат реконфигурацию системы при константных отказах и ее нормальное функционирование при деградации до одного канала, а также увеличение кратности маскируемых сбоев путем использования соответствующих детекторов сбоев или рационального разбиения каналов на части.

Claims

1. СПОСОБ ОБЕСПЕЧЕНИЯ ОТКАЗОУСТОЙЧИВОСТИ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ, заключающийся в маскировании сбоев путем резервирования и включающий определение наличия сбоев, идентификацию и блокировку неисправных каналов, отличающийся тем, что для маскирования сбоев используют независимую одновременную работу N каналов, число которых на единицу больше кратности маскируемых сбоев, сигналы которых подают на общий выход, и по сигналам, полученным от детекторов сбоев, входящих в состав каждого канала, производят блокировку прохождения сигналов от каналов, в которых произошли сбои, и пропускают на выход тот из сигналов от исправных каналов, который приходит первым по времени.

2. Способ по п.1, отличающийся тем, что определение наличия сбоя, идентификация и блокировка неисправных каналов производятся после прохождения на выход сигнала, пришедшего первым по времени.