RU2775259C1 - Способ отказоустойчивого функционирования вычислительных комплексов для систем обработки информации военного назначения и устройство его реализующее - Google Patents

Способ отказоустойчивого функционирования вычислительных комплексов для систем обработки информации военного назначения и устройство его реализующее Download PDF

Info

Publication number
RU2775259C1
RU2775259C1 RU2022100841A RU2022100841A RU2775259C1 RU 2775259 C1 RU2775259 C1 RU 2775259C1 RU 2022100841 A RU2022100841 A RU 2022100841A RU 2022100841 A RU2022100841 A RU 2022100841A RU 2775259 C1 RU2775259 C1 RU 2775259C1
Authority
RU
Russia
Prior art keywords
information
fault
computing
tolerant
paths
Prior art date
Application number
RU2022100841A
Other languages
English (en)
Inventor
Сергей Михайлович Кардаш
Александр Владимирович Демидов
Виктор Людвигович Лясковский
Алексей Анатольевич Шлепков
Original Assignee
Федеральное государственное казённое военное образовательное учреждение высшего образования "Военная академия воздушно-космической обороны имени Маршала Советского Союза Г.К. Жукова" Министерства обороны Российской Федерации
Filing date
Publication date
Application filed by Федеральное государственное казённое военное образовательное учреждение высшего образования "Военная академия воздушно-космической обороны имени Маршала Советского Союза Г.К. Жукова" Министерства обороны Российской Федерации filed Critical Федеральное государственное казённое военное образовательное учреждение высшего образования "Военная академия воздушно-космической обороны имени Маршала Советского Союза Г.К. Жукова" Министерства обороны Российской Федерации
Application granted granted Critical
Publication of RU2775259C1 publication Critical patent/RU2775259C1/ru

Links

Images

Abstract

Изобретение относится к средствам обнаружения ошибок. В способе отказоустойчивого функционирования вычислительных комплексов для систем обработки информации военного назначения, получают запросы на проведение задач, сортируют запросы по важности, оценивают вычислительные ресурсы и выделяют более отказоустойчивые вычислительные тракты. Распределяют задачи по вычислительным трактам с учетом отказоустойчивости и важности, обеспечивают коммутацию устройств, адресацию потоков от отправителя к получателю, обнаруживают и исправляют ошибки в двоичном коде. Автономно решают задачи, передают информацию о своем состоянии на устройство распределения задач, устройство мажоритарного выбора и контроля и сервер контроля. Производят контроль, тестирование, обнаружение ошибки, передачу записи об ошибке и предоставление отладочной информации об устройстве. Обрабатывают информацию об отказоустойчивости вычислительных трактов и выдают информацию на устройство распределения задач, фиксируют неисправности и сортируют информацию по более отказоустойчивым устройствам. Реализуется отказоустойчивое функционирование. 2 н.п. ф-лы, 1 ил.

Description

Изобретение относится к средствам обнаружения ошибок и их предупреждению, предотвращению отказов, контроля информационных потоков и может быть использовано для проектирования и модернизации конфигураций вычислительных комплексов для систем обработки информации военного назначения.
Известен способ повышения надежности и достоверности обработки критических функций отказоустойчивой вычислительной системы и устройство, его реализующее (Патент на изобретение №2413975 от 17.11.2008), когда результатом является многократное резервирование вычислительных трактов выполнения критических функций, при которой операции управления избыточностью и вычислительный процесс разделены в цикле реального времени и в какой-то степени аппаратными средствами. В качестве резервируемых единиц вычислителя представляются вычислительные тракты, в состав которых входит входной интерфейс, процессор и выходной интерфейс. В каждом из вычислительных трактов осуществляется мажоритарное сравнение сигналов, прошедших через каждый вычислительный тракт. Неоднозначность мажоритарного сравнения сигналов в различных вычислительных трактах исключается мажоритарным сравнением результатов сравнения сигналов. Достоверность мажоритарного контроля сигналов выполняется статической обработкой случайного процесса изменения критического параметра, вычисления остаточной дисперсии и ее мажоритарного сравнения.
К недостаткам этой системы относятся:
Физическая структура усложнена, что заметно снижает вычислительную мощность устройств и надежность системы в целом.
Отсутствие встроенного самоконтроля снижает надежность достижения должного технического результата и усложняет поиск ошибок и неисправностей.
Прототипом изобретения является способ для обеспечения отказоустойчивого функционирования комплекса средств автоматизации командных пунктов военного назначения и его реализующее устройство, состоящее из устройства сортировки и ранжирования запросов, вычислительных машин, элемента мажоритарного выбора и контроля, устройств вывода и запоминания отказов (см. Патент РФ №2738730 от 2020 г.).
К недостаткам этой системы относятся:
Отсутствие серверного оборудования, предназначенного для контроля всех устройств вычислительного комплекса, влечет за собой уменьшение скорости обработки данных и отсутствие централизованного аппаратного администрирования, которое бы заметно упростило поиск неисправностей.
Невозможность сортировки важных информационно - расчетных задач (ИРЗ) по более надежным вычислительным трактам ведет к тому, что важная ИРЗ может многократно распределяться на один и тот же вычислительный тракт, что в результате не позволяет гарантировать правильность решения ИРЗ.
Отсутствие резервирования важных элементов может привести к неспособности функционирования вычислительной системы в целом.
Организация ячеистой топологии сети на практике характеризуется дороговизной и сложностью построения, что усложняет достижение заявленного технического результата.
Задачей изобретения является разработка способа, учитывающего все недостатки известного способа, и устройства его реализующего, обеспечивающее отказоустойчивое функционирование вычислительных комплексов при различных по сложности ИРЗ и предлагающего использование стратегии функционирования трактов с применением теории марковских случайных процессов.
Техническим результатом изобретения является отказоустойчивое функционирование вычисленных комплексов при обработке и решении ИРЗ.
Заявленный технический результат достигается за счет классификации ИРЗ по важности, контроля числа свободных вычислительных трактов во время появления новых ИРЗ, сортировки ИРЗ по вычислительным трактам, согласно их важности с учетом возможности резервирования элементов в данный момент времени; с помощью каждого вычислительной тракта решения принятой ИРЗ вычислительной системы; благодаря устройству мажоритарного выбора и контроля выполнения мажоритарного сравнения результатов решения ИРЗ, поступающих с вычислительных трактов; выдачи правильных ответов на устройство вывода и передачи записи об ошибке при расчетах в устройство запоминания отказов. Благодаря серверу контроля осуществляется оценка состояния основных элементов, что существенно позволяет уменьшить загрузку вычислительного комплекса при обработке запросов, тем самым позволяя производить обработку большего объема данных, не снижая его отказоустойчивость.
Достижение заявленного технического результата и, как следствие, решение поставленной задачи обеспечивается принципом мажоритарного резервирования вычислительных трактов, системой контроля, реализованной сервером, устройством мажоритарного выбора и контроля и специализированной топологией сети «звезда» тем, что данная система для отказоустойчивого функционирования вычислительных комплексов содержит устройство распределения задач, сервер контроля, коммутирующее устройство со встроенной оперативной памятью ECC (Error correction code), которая обеспечивает поиск и устранение спонтанно возникающих изменений в битах памяти, вычислительные тракты, устройство мажоритарного выбора и контроля; устройство вывода и устройство запоминания отказов таким образом, что устройство распределения запросов соединено с помощью коммутирующего устройства со встроенной оперативной памятью ECC с вычислительными трактами, сервером контроля, контроллером домена и устройствами вывода, запоминания отказов и отображения ошибок вычислительных трактов при выполнении ИРЗ, мажоритарного выбора и контроля; вычислительные тракты соединены через коммутирующее устройство со встроенной оперативной памятью ECC с сервером контроля, контроллером домена и устройствами распределения задач, вывода, отображения ошибок вычислительных трактов при выполнении ИРЗ и запоминания отказов, мажоритарного выбора и контроля; устройство мажоритарного выбора и контроля взаимодействует за счет коммутирующего устройства со встроенной оперативной памятью ECC с вычислительными трактами, сервером контроля, контроллером домена и устройствами распределения задач, вывода, отображения ошибок вычислительных трактов при выполнении ИРЗ и запоминания отказов, что существенно позволяет повысить отказоустойчивость функционирования вычислительных комплексов и надежность вычислений в целом при решении важных ИРЗ. Посредством контроллера домена происходит контроль информационных потоков, обнаружение и устранение коллизий, что обеспечивает сохранность передаваемых кадров в сети.
Данное построение системы позволяет повысить производительность элементов и отказоустойчивость функционирования при обработке ИРЗ.
При реализации способа отказоустойчивого функционирования вычислительных комплексов предлагается использование стратегии функционирования трактов с применением теории марковских случайных процессов.
Одним из определений марковского процесса является следующее утверждение: при фиксированном состоянии процесса в настоящий момент времени будущее и прошлое состояния марковского процесса независимы. Или, можно сказать, что случайный процесс, протекающий в системе, называется марковским, если для любого момента времени t0
Figure 00000001
вероятность любого состояния системы при t>t0 зависит только от ее состояния при t=t0 и не зависит от того, как и когда система пришла в это состояние.
При этом процесс работы каждого вычислительного тракта представляет собой чередование двух главных состояний (функционирование и восстановление), причем состояние, в которое тракт перейдет в определенный момент, зависит только от того, в каком состоянии он находился до перехода (состояния чередуются), и не зависит от более ранних состояний тракта.
Следовательно, можем рассматривать процесс функционирования каждого вычислительного тракта системы как дискретный марковский процесс с двумя состояниями.
Процесс Ө (t) в любой момент времени может иметь лишь одно из значений
Figure 00000002
(функционирование) и
Figure 00000003
(восстановление), причем вероятность перехода
Figure 00000004
Figure 00000005
(отказ тракта) за малое время Δt равна λΔt, а вероятность перехода
Figure 00000005
Figure 00000004
(возврат тракта к работе) равна μΔt. Известны вероятности начального состояния
Figure 00000006
. Имея эти исходные данные, можно определить вероятность перехода
Figure 00000007
.
В общем случае имеет место система линейных дифференциальных уравнений, полученных из уравнения Колмогорова – Чепмена:
Figure 00000008
1,2, где
Figure 00000009
- крутизна изменения вероятности на небольшом отрезке времени.
Упростим указанные соотношения a12=λ, а21=μ и из условий нормировки a11=λ, а22=-μ.
Применив методику расчета переходных вероятностей для дискретного марковского процесса, получим следующие выражения:
Figure 00000010
Прежде всего нас из этих вероятностей интересует вероятность перехода π12 тракта из состояния 1 в состояние 2, т.е. отказ тракта.
Определим значение времени τ из этого выражения:
Figure 00000011
Полученное выражение позволит нам, задавшись вероятностью отказа тракта
Figure 00000012
<
Figure 00000013
, получить время этого отказа τ с учетом поведения тракта, описываемого функцией надежности.
Схема устройства, реализующего способ отказоустойчивого функционирования вычислительных комплексов для систем обработки информации военного назначения, приведена на рисунке 1, где приняты следующие обозначения и сокращения:
А - линия потока запросов с обратной связью, по которой передается информация о важности каждого запроса, логике мажорирования, максимальном времени вычисления, приходящимся на ИРЗ.
Б - линия передачи данных с обратной связью, по которой из устройства распределения задач отправляются запросы на коммутирующее устройство со встроенной оперативной памятью ECC для их дальнейшей адресации.
В - линия передачи данных с обратной связью, по которой из коммутирующего устройства со встроенной оперативной памятью ECC отправляются запросы на определение состояния готовности вычислительного тракта и передаются на него ИРЗ.
Г - главная линия контроля с обратной связью, по ней из коммутирующего устройства со встроенной оперативной памятью ECC в сервер контроля передается информация о текущем состоянии устройств и их отказах, фиксации неисправностей, а также подаются запросы на сортировку информационных потоков по более отказоустойчивым устройствам. При необходимости мажорирования путем многократного вычисления на одной машине - по этой линии передается номер машины и количество повторных вычислений;
Д - линия контроля с обратной связью, по которой из коммутирующего устройства со встроенной оперативной памятью ECC в контроллер домена передается информация о функционировании локальной вычислительной сети, а также отправляются запросы на централизованное управление сетевыми устройствами.
Е - линия контроля с обратной связью, по которой из коммутирующего устройства со встроенной оперативной памятью ECC в сервер контроля передается информация о том, какие ИРЗ и какими вычислительными трактами будут выполняться. При необходимости мажорирования путем многократного вычисления на одном тракте - по данной линии передается номер тракта и количество повторных вычислений.
З - линия передачи данных об ошибках с обратной связью, по которой из коммутирующего устройства со встроенной оперативной памятью ECC подается в устройство запоминания отказов номер вычислительного тракта и ИРЗ, при выполнении которой произошел отказ в обслуживании.
И - линия передачи данных об ошибках с обратной связью, по ней из коммутирующего устройства со встроенной оперативной памятью ECC подается в устройство отображения ошибок сигнал об отказе вычислительного тракта при выполнении ИРЗ.
K - линия передачи данных с обратной связью, по ней из коммутирующего устройства со встроенной оперативной памятью ECC подаются на устройство вывода достоверные результаты вычислений при выполнении ИРЗ;
УРЗ - устройство распределения задач;
Резерв УРЗ – резерв устройства распределения задач;
КУ – коммутирующее устройство со встроенной оперативной памятью ECC;
ВТ – n-й вычислительный тракт;
УМВиК - устройство мажоритарного выбора и контроля;
Резерв УМВиК - резерв устройства мажоритарного выбора и контроля;
УЗО - устройство запоминания отказов;
УОО - устройство отображения ошибок ВТ при выполнении ИРЗ;
УВ - устройство вывода;
СК - сервер контроля;
КД - контроллер домена.
В предлагаемом устройстве рассмотрены 2 степени важности ИРЗ:
1 - важные ИРЗ, требующие надежных вычислений;
2 - не важные ИРЗ, для которых не заданы требования по надежности вычислений.
Также описано 5 состояний вычислительных трактов:
1 - решение ИРЗ (функционирование);
2 - отсутствие решения ИРЗ (простой);
3 - проверка устройством мажоритарного выбора и контроля и сервером контроля (тестирование);
4 - отсутствие функционирования (отказ, сбой);
5 - ремонт вычислительного тракта (восстановление).
В описании приняты следующие группы сбоев и отказов вычислительных трактов:
1 - аппаратный отказ вычислительного тракта;
2 - ошибки в расчетах, обнаруженные коммутирующим устройством со встроенной оперативной памятью ECC и устройством мажоритарного выбора и контроля;
3 - ошибки программного обеспечения, сигнализируемые зацикливанием производимых расчетов, а также ошибки, вызванные несанкционированным доступом.
Решение ИРЗ осуществляется последовательно. При получении запросов на решение какой-либо ИРЗ принимающее устройство передает по линиям передачи ответный сигнал устройству - отправителю. Отсутствие ответного сигнала свидетельствует о неисправности какого-либо устройства, что приводит к включению резервирования и функционированию резервных устройств, замещающие неисправные элементы.
Устройство распределения задач (УРЗ), а также резерв устройства распределения задач (Резерв УРЗ) предназначены для получения запросов на проведение расчетных операций, сортировки запросов по важности, оценки требуемых вычислительных ресурсов, выделение более отказоустойчивых вычислительных трактов, исходя из степени отказоустойчивости с учетом количества сбоев, так и комплексного показателя надежности, распределения ИРЗ по вычислительным трактам с учетом отказоустойчивости и важности ИРЗ. Устройство распределения задач соединено с коммутирующим устройством со встроенной оперативной памятью ECC, n-ми вычислительными трактами и сервером контроля.
Коммутирующее устройство со встроенной оперативной памятью ECC (КУ) предназначены для коммутации устройств, адресации информационных потоков (запросов) от тракта-отправителя к тракту-получателю, а также обнаружения и исправления ошибок в двоичном коде.
N-е вычислительные тракты имеют одинаковую мощность, предназначены для автономного решения ИРЗ, а также для передачи информации о своем состоянии на устройство распределения задач, устройство мажоритарного выбора и контроля и сервер контроля.
Устройство мажоритарного выбора и контроля (УМВиК), а также резерв устройства мажоритарного выбора и контроля (УМВиК) предназначены для контроля, тестирования, отключения вычислительных трактов, не предоставляющих своевременно расчетных вычислений, обнаружения ошибки, передачи записи об ошибки с указанием ее типа, а также предоставления системной отладочной информации об устройстве на момент прихода ИРЗ в устройство отображения ошибок ВТ при выполнении ИРЗ и выдачи правильного результата на устройство вывода.
Устройства запоминания отказов (УЗО) и отображения ошибок ВТ при выполнении ИРЗ (УОО) реализуют обработку информации об отказоустойчивости вычислительных трактов, выдаче данной информации на устройстве распределения задач.
Сервер контроля (СК) выполняет обработку информации о состоянии устройств и их отказах, фиксации неисправностей и сортировки информационных потоков по более отказоустойчивым устройствам.
Контроллер домена (КД) обеспечивает отказоустойчивую работу локальной вычислительной сети, а также централизованное управление сетевыми устройствами.
Блоки выполнены в виде программно - технических модулей с архитектурой типа (X86).
Работа устройства отказоустойчивого функционирования состоит в следующем.
Устройство распределения задач, как и его резерв, соединено через коммутирующее устройство со встроенной оперативной памятью ECC с вычислительными трактами, а также с сервером контроля.
В ходе работы в устройство распределения задач с внешнего устройства по линии А загружаются исходные данные на произведение каких-либо ИРЗ, при получении исходных данных в ответ устройство распределения отправляет сигнал о получении запроса, если ответный сигнал отсутствует, это свидетельствует о неисправности устройства, что приводит к работе резерва устройства распределения задач. От сервера контроля к данному устройству передается по линиям Г и Б информация о состоянии и степени отказоустойчивости вычислительных трактов.
Коммутирующее устройство со встроенной оперативной памятью ECC связывают устройства между собой, тем самым разгружая загруженность сети и увеличивая скорость передачи запросов между устройствами.
Вычислительные тракты получают по линиям Б и В запросы от устройства распределения задач через коммутирующее устройство со встроенной оперативной памятью ECC и передают ответный сигнал устройству распределения задач о состоянии функционирования и степени выполнении ИРЗ. Если с определенного вычислительного тракта не приходит ответный сигнал о состоянии тракта, то устройство мажоритарного выбора и контроля отправляет по линиям Е и В запрос на тестирование данного тракта.
Со временем считается, что отказоустойчивость вычислительного тракта постепенно уменьшается с продолжением его работы. При этом, чтобы избежать бесполезного расчета ИРЗ, которая с той или иной вероятностью будет потеряна во время отказа тракта, ему с течением времени функционирования выдаются ИРЗ уменьшенного объема, учитывающие время его безотказной работы на каждом этапе. После отказа и восстановления тракта считается, что тракт опять имеет максимальную отказоустойчивость, и он получает ИРЗ максимального объема.
Устройство мажоритарного выбора и контроля в ходе функционировании обеспечивает получение и передачу запросов через коммутирующее устройство со встроенной оперативной памятью ECC и линию Е. Данное устройство принимает по линиям В и Е результат вычислений с вычислительных трактов, информации о выполнении ими ИРЗ, их состоянии, о количестве прогонов ИРЗ на вычислительных трактах, а также передает запросы на устройство запоминания отказов, устройство отображения ошибок ВТ при выполнении ИРЗ и устройство вывода.
Устройство мажоритарного выбора и контроля взаимодействует по линиям Г и Е с сервером контроля и отправляет ему информацию о состоянии вычислительных трактов, а он в свою очередь в случае превышения максимального времени решения передает по линиям Г и Б информацию на устройство распределения задач.
Если вычислительный тракт не отвечает, по линии передачи данных З отправляется информация об отказе на устройство запоминания ошибок, а по линии И информация о том, что необходимо осуществить ремонт или техническое обслуживание вычислительного тракта на устройство отображения ошибок ВТ при выполнении ИРЗ.
После технического обслуживания или ремонта при включении вычислительного тракта по линии передачи данных И передается информация о переходе вычислительного тракта в состояние простоя.
Если вычислительный тракт в ответ на тестовый запрос устройства мажоритарного выбора и контроля передает информацию о том, что он осуществляет решение ИРЗ, то на устройство распределения задач через сервер контроля передается по линиям Г и Б информация о зацикливании вычислительного тракта, а на устройство запоминания ошибок предается по линии З информация об ошибке первого типа, при этом на устройство отображения ошибок ВТ при выполнении ИРЗ подается информация о том, что ИРЗ не решена.
Если в результате решения важной ИРЗ, один из вычислительных трактов передал по линиям В и Е ответ на устройство мажоритарного выбора и контроля, отличающийся от остальных вариантов ответов, то в таком случае данный ответ записывается как ошибка второго типа, данные по ошибке отправляются по линии З на устройство запоминания отказов.
Если на устройство мажоритарного выбора и контроля не приходит по линиям В и Е своевременно информация о том, какие вычислительные тракты и какие ИРЗ решают, то сервер контроля отправляет по линиям Г и Б сигнал на переключение в рабочий режим на резерв устройства распределения задач.
Результаты расчетов для одной ИРЗ сравниваются между собой. Устройство мажоритарного выбора и контроля выбирает правильные значения и подает по линиям Е и К их на устройство вывода.
Правильные значения выбираются мажоритарно по методу «два из трех». Если какое-либо вычисление было ошибочно, то запоминается номер отказавшего устройства, и эта информация поступает в устройство запоминания отказов и затем используется для выявления неисправных вычислительных трактов.
Устройство запоминания отказов получает по линиям Е, Г и З информацию о возникших отказах, сбоях вычислительных трактов с устройства мажоритарного выбора и контроля и сервера контроля. Полученные данные содержат номер неисправной машины, тип и время отказа. Также устройство запоминания отказов отправляет по линиям З и Б сведения об обобщенной отказоустойчивости элементов в устройство распределения задач.
Устройство отображения ошибок ВТ при выполнении ИРЗ обеспечивает представление информации об ошибках и сбоях каждого вычислительного тракта и устройства, а также выводит агрегированные значения показателей отказоустойчивости и количество отказов вычислительных трактов. В качестве показателя отказоустойчивости выступает отношение суммы ошибок на вычислительном тракте первого и второго типов к количеству выполненных ИРЗ, а за количество отказов принимается количество ошибок третьего типа.
Сервер контроля получает по линиям передачи данных со всех устройств и вычислительных трактов информацию о состоянии процесса функционирования при решении ИРЗ. Для предотвращения избыточности при функционировании элементов системы сервером контроля используется метод адаптивной репликации, описанный в [А.Н. Токарев // Известия высших учебных заведений. Поволжский регион. Технические науки. - 2018. - №2 (46). - С. 41], который заключается в том, что сервер хранит для каждого вычислительного тракта (n) его коэффициент ненадежности e(n). Изначально принимается e(n) = 0,1. В дальнейшем его значение либо увеличивается, если результат признан ошибочным: e(n) = e(n) + 0,1, либо уменьшается, если результат признан верным: e(n) = e(n) * 0,95. Коэффициент e(n) представляет собой «плохую репутацию» тракта или устройства и характеризует его степень ненадежности.
Сервер реплицирует ИРЗ, проверяя условие (по умолчанию a = 0,05): e(n) > a. Если условие выполняется, то тракт считается ненадежным и менее отказоустойчивым и ИРЗ, выданная ему, реплицируется на другой тракт для проверки. Иначе тракт считается надежным и с вероятностью:
Figure 00000014
и ему выдается новая ИРЗ.
При этом достигается гораздо более низкая степень загрузки трактов решением избыточных ИРЗ, поскольку в целом количество ошибочных результатов из-за аппаратно-надежных и отказоустойчивых трактов является гораздо меньшим, чем количество ИРЗ, решаемых при классической репликации.
Контроллер домена получает по линии Д информацию о состоянии локальной вычислительной сети и устройств, находящихся в ней, ко всему прочему является хранилищем базы данных всего вычислительного комплекса.

Claims (2)

1. Способ отказоустойчивого функционирования вычислительных комплексов для систем обработки информации военного назначения, содержащий этапы, на которых осуществляются следующие операции: с помощью устройства распределения задач происходит получение запросов на проведение информационно-расчетных задач (ИРЗ), сортировка запросов по важности, оценка требуемых вычислительных ресурсов, выделение более отказоустойчивых вычислительных трактов, исходя из степени отказоустойчивости с учетом количества сбоев, так и комплексного показателя надежности, распределение ИРЗ по вычислительным трактам с учетом отказоустойчивости и важности ИРЗ; посредством коммутирующего устройства со встроенной оперативной памятью ECC обеспечивается коммутация устройств, адресация информационных потоков (запросов) от тракта-отправителя к тракту-получателю, а также обнаружение и исправление ошибок в двоичном коде; с помощью вычислительных трактов совершается автономное решение ИРЗ, а также передача информации о своем состоянии на устройство распределения задач, устройство мажоритарного выбора и контроля и сервер контроля; благодаря устройству мажоритарного выбора и контроля производится контроль, тестирование, отключение вычислительных трактов, не предоставляющих своевременно расчетных вычислений, обнаружение ошибки, передача записи об ошибке с указанием ее типа, а также предоставление системной отладочной информации об устройстве на момент прихода ИРЗ в устройство отображения ошибок вычислительного тракта (ВТ) при выполнении ИРЗ и выдача правильного результата на устройство вывода; с помощью устройств запоминания отказов и отображения ошибок ВТ при выполнении ИРЗ реализуется обработка информации об отказоустойчивости вычислительных трактов, выдача данной информации на устройстве распределения задач; посредством сервера контроля выполняется обработка информации о состоянии устройств и их отказах, фиксация неисправностей и сортировка информационных потоков по более отказоустойчивым устройствам; благодаря контроллеру домена обеспечивается отказоустойчивая работа локальной вычислительной сети, а также централизованное управление сетевыми устройствами.
2. Устройство отказоустойчивого функционирования вычислительных комплексов для систем обработки информации военного назначения, содержащее: устройство распределения задач и резерв устройства распределения задач, выполненные для получения с какого-либо внешнего устройства исходных данных на произведение ИРЗ, сортировки запросов по важности, оценки требуемых вычислительных ресурсов, выделения более отказоустойчивых вычислительных трактов, исходя из степени отказоустойчивости с учетом количества сбоев, так и комплексного показателя надежности, распределения ИРЗ по вычислительным трактам с учетом отказоустойчивости и важности задач, устройство распределения задач, как и его резерв, соединено с коммутирующим устройством со встроенной оперативной памятью ECC; коммутирующее устройство со встроенной оперативной памятью ECC, созданное для коммутации устройств, адресации информационных потоков (запросов), а также обнаружения и исправления ошибок в двоичном коде, коммутирующее устройство соединено со всеми остальными устройствами; вычислительные тракты получают запросы от устройства распределения задач через коммутирующее устройство и передают ответный сигнал устройству распределения задач о состоянии функционирования и степени выполнении ИРЗ, вычислительные тракты соединены с коммутирующим устройством со встроенной оперативной памятью ECC; устройство мажоритарного выбора и контроля и его резерв, предназначены для получения и передачи запросов, данное устройство принимает результат вычислений с вычислительных трактов, информации о выполнении ими ИРЗ, их состоянии, о количестве прогонов ИРЗ на вычислительных трактах, а также передает запросы на устройство запоминания отказов, устройство отображения ошибок ВТ при выполнении ИРЗ и устройство вывода, устройство мажоритарного выбора и контроля взаимодействует с сервером контроля и отправляет ему информацию о состоянии вычислительных трактов, устройство мажоритарного выбора и контроля соединяется с коммутирующим устройством со встроенной оперативной памятью ECC; сервер контроля производит обработку информации о состоянии устройств и их отказах, фиксацию неисправностей и сортировку информационных потоков по более отказоустойчивым устройствам, сервер контроля соединен с коммутирующим устройством со встроенной оперативной памятью ECC; контроллер домена обеспечивает отказоустойчивую работу локальной вычислительной сети, а также централизованное управление сетевыми устройствами, он соединяется также с коммутирующим устройством со встроенной оперативной памятью ECC.
RU2022100841A 2022-01-13 Способ отказоустойчивого функционирования вычислительных комплексов для систем обработки информации военного назначения и устройство его реализующее RU2775259C1 (ru)

Publications (1)

Publication Number Publication Date
RU2775259C1 true RU2775259C1 (ru) 2022-06-28

Family

ID=

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2374678C2 (ru) * 2007-10-29 2009-11-27 Ставропольский военный институт связи ракетных войск Нейронная сеть для обнаружения ошибок в симметричной системе остаточных классов
RU2413975C2 (ru) * 2008-11-17 2011-03-10 Федеральное государственное унитарное предприятие Научно-исследовательский институт авиационного оборудования Способ и вычислительная система отказоустойчивой обработки информации критических функций летательных аппаратов
RU188002U1 (ru) * 2018-10-31 2019-03-26 Межрегиональное общественное учреждение "Институт инженерной физики" Отказоустойчивая эвм
RU2708956C2 (ru) * 2018-05-07 2019-12-12 ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ КАЗЕННОЕ ВОЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ Военная академия Ракетных войск стратегического назначения имени Петра Великого МИНИСТЕРСТВА ОБОРОНЫ РОССИЙСКОЙ ФЕДЕРАЦИИ Процессор повышенной достоверности функционирования
RU2724181C1 (ru) * 2018-11-07 2020-06-22 Алибаба Груп Холдинг Лимитед Упрощение консенсуса в цепочках блоков по принципу практичной отказоустойчивости на основе византийского соглашения и синхронизации узлов
RU2738730C1 (ru) * 2019-12-09 2020-12-16 Федеральное государственное казённое военное образовательное учреждение высшего образования "Военная академия воздушно-космической обороны имени Маршала Советского Союза Г.К. Жукова" Министерства обороны Российской Федерации Способ обеспечения отказоустойчивого функционирования перспективного комплекса средств автоматизации командных пунктов военного назначения и устройство, его реализующее
RU2756577C1 (ru) * 2020-12-18 2021-10-01 Федеральное государственное бюджетное учреждение "Национальный исследовательский центр "Курчатовский институт" Способ косвенного измерения отказоустойчивости облучаемых испытательных цифровых микросхем, построенных способом постоянного резервирования, и функциональная структура испытательной микросхемы, предназначенной для реализации этого способа

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2374678C2 (ru) * 2007-10-29 2009-11-27 Ставропольский военный институт связи ракетных войск Нейронная сеть для обнаружения ошибок в симметричной системе остаточных классов
RU2413975C2 (ru) * 2008-11-17 2011-03-10 Федеральное государственное унитарное предприятие Научно-исследовательский институт авиационного оборудования Способ и вычислительная система отказоустойчивой обработки информации критических функций летательных аппаратов
RU2708956C2 (ru) * 2018-05-07 2019-12-12 ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ КАЗЕННОЕ ВОЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ Военная академия Ракетных войск стратегического назначения имени Петра Великого МИНИСТЕРСТВА ОБОРОНЫ РОССИЙСКОЙ ФЕДЕРАЦИИ Процессор повышенной достоверности функционирования
RU188002U1 (ru) * 2018-10-31 2019-03-26 Межрегиональное общественное учреждение "Институт инженерной физики" Отказоустойчивая эвм
RU2724181C1 (ru) * 2018-11-07 2020-06-22 Алибаба Груп Холдинг Лимитед Упрощение консенсуса в цепочках блоков по принципу практичной отказоустойчивости на основе византийского соглашения и синхронизации узлов
RU2738730C1 (ru) * 2019-12-09 2020-12-16 Федеральное государственное казённое военное образовательное учреждение высшего образования "Военная академия воздушно-космической обороны имени Маршала Советского Союза Г.К. Жукова" Министерства обороны Российской Федерации Способ обеспечения отказоустойчивого функционирования перспективного комплекса средств автоматизации командных пунктов военного назначения и устройство, его реализующее
RU2756577C1 (ru) * 2020-12-18 2021-10-01 Федеральное государственное бюджетное учреждение "Национальный исследовательский центр "Курчатовский институт" Способ косвенного измерения отказоустойчивости облучаемых испытательных цифровых микросхем, построенных способом постоянного резервирования, и функциональная структура испытательной микросхемы, предназначенной для реализации этого способа

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
А.Н. ТОКАРЕВ, УМЕНЬШЕНИЕ НАГРУЗКИ И ПОВЫШЕНИЕ ПРОИЗВОДИТЕЛЬНОСТИ ВЫЧИСЛЕНИЙ В РАСПРЕДЕЛЕННЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМАХ С НЕНАДЕЖНЫМИ УЗЛАМИ. ИЗВЕСТИЯ ВЫСШИХ УЧЕБНЫХ ЗАВЕДЕНИЙ. ПОВОЛЖСКИЙ РЕГИОН. N2 (46), 2018. стр.37-46. *

Similar Documents

Publication Publication Date Title
US5253359A (en) Control and maintenance subsystem network for use with a multiprocessor computer system
US7787388B2 (en) Method of and a system for autonomously identifying which node in a two-node system has failed
Bartlett et al. Fault tolerance in tandem computer systems
US4392199A (en) Fault-tolerant system employing multi-microcomputers using two-out-of-three majority decision
US20080046802A1 (en) Memory controller and method of controlling memory
JP5296878B2 (ja) 1つまたは複数の交換ユニットのテストを管理するために1つまたは複数の交換可能ユニットを含むコンピュータ化ストレージ・システムで使用するための方法、装置、およびプログラム(交換ユニットのテストを管理するために交換可能ユニットを含むコンピュータ化ストレージ・システム)
CN104598341B (zh) 用于确定在互连/控制器之间的故障的位置的方法和系统
JP2534430B2 (ja) フォ―ルト・トレランスのあるコンピュ―タ・システム出力の合致を達成するための方法
CN111414268A (zh) 故障处理方法、装置及服务器
US7299385B2 (en) Managing a fault tolerant system
RU2775259C1 (ru) Способ отказоустойчивого функционирования вычислительных комплексов для систем обработки информации военного назначения и устройство его реализующее
JPS6235704B2 (ru)
JP3211878B2 (ja) 通信処理制御手段及びそれを備えた情報処理装置
US20100162269A1 (en) Controllable interaction between multiple event monitoring subsystems for computing environments
CN111240883B (zh) 基于有限状态机的系统诊断方法、装置、设备及存储介质
CN113722143A (zh) 一种程序流监控方法、装置、电子设备以及存储介质
RU2767018C2 (ru) Способ функционирования комплексов средств автоматизации систем обработки информации и управления и устройство, его реализующее
RU2738730C1 (ru) Способ обеспечения отказоустойчивого функционирования перспективного комплекса средств автоматизации командных пунктов военного назначения и устройство, его реализующее
Maxion et al. Techniques and architectures for fault-tolerant computing
US11042443B2 (en) Fault tolerant computer systems and methods establishing consensus for which processing system should be the prime string
US11500717B2 (en) Method for detecting data storage system, device and data storage system
RU2715284C1 (ru) Способ диспетчеризации распределения нагрузки процессоров в вычислительной системе
Wu et al. Operational reconfigurability in command and control
Abidov DIAGNOSTICS OF THE STATE AND RECOVERY OF REAL TIME SYSTEMS PERFORMANCE
Vedeshenkov et al. Diagnosability of digital systems structured as minimal quasicomplete 7× 7 graph