RU2612569C2 - Method for automatic control of redundancy of heterogeneous computer system and devices for its implementation - Google Patents

Method for automatic control of redundancy of heterogeneous computer system and devices for its implementation Download PDF

Info

Publication number
RU2612569C2
RU2612569C2 RU2015102223A RU2015102223A RU2612569C2 RU 2612569 C2 RU2612569 C2 RU 2612569C2 RU 2015102223 A RU2015102223 A RU 2015102223A RU 2015102223 A RU2015102223 A RU 2015102223A RU 2612569 C2 RU2612569 C2 RU 2612569C2
Authority
RU
Russia
Prior art keywords
stage
processor
data
success
nodes
Prior art date
Application number
RU2015102223A
Other languages
Russian (ru)
Other versions
RU2015102223A (en
Inventor
Александр Владимирович Воробьев
Валентин Николаевич Буков
Владимир Александрович Шурман
Андрей Михайлович Дьяченко
Юрий Васильевич Яковлев
Михаил Юрьевич Гнусин
Original Assignee
Акционерное общество "Научно-исследовательский институт Авиационного оборудования"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Акционерное общество "Научно-исследовательский институт Авиационного оборудования" filed Critical Акционерное общество "Научно-исследовательский институт Авиационного оборудования"
Priority to RU2015102223A priority Critical patent/RU2612569C2/en
Publication of RU2015102223A publication Critical patent/RU2015102223A/en
Application granted granted Critical
Publication of RU2612569C2 publication Critical patent/RU2612569C2/en

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/04Programme control other than numerical control, i.e. in sequence controllers or logic controllers
    • G05B19/042Programme control other than numerical control, i.e. in sequence controllers or logic controllers using digital processors
    • G05B19/0421Multiprocessor system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Automation & Control Theory (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

FIELD: measuring equipment.
SUBSTANCE: computer system, possibly heterogeneous, consists of processor nodes, which are used in parallel, with each of them is determined by the success rate of the implementation phase of the task. These figures, together with the signals of the authenticity of the processor nodes of a higher position in the hierarchy used in pairwise hierarchical arbitration. As a result of arbitration is determined by the new status of each processing node. The process of automatic control systems and redundant computing device for its implementation are applicable in computing and test equipment and can be used in complex digital data processing and management of the technical facilities to ensure their reliability and safety of operation.
EFFECT: increase reliability, fault tolerance and safety of the computing devices of complex airborne systems of technical objects.
4 cl, 3 dwg

Description

Изобретение относится к области вычислительной и контрольно-измерительной техники и может использоваться в системах цифровой обработки информации и управления технических объектов, обладающих избыточными аппаратными и программными средствами, разрабатываемыми и/или производимыми с использованием независимых исполнителей и/или технологий, с целью обеспечения повышенной отказоустойчивости.The invention relates to the field of computing and instrumentation and can be used in digital information processing and control systems for technical objects with redundant hardware and software developed and / or produced using independent executors and / or technologies in order to provide increased fault tolerance.

Согласно общепринятому определению [http://slogos.ru/story/izbytochnost.html], избыточностью технического изделия называется наличие в нем возможностей сверх тех, которые могли бы обеспечить его нормальное функционирование. Такая избыточность в зависимости от предназначения изделия, характера решаемой задачи и других обстоятельств может использоваться либо для повышения общей его производительности (путем параллельного выполнения надлежащих функций), либо для обеспечения необходимого уровня безотказности (путем организации горячего или холодного резервирования различной кратности).According to the generally accepted definition [http://slogos.ru/story/izbytochnost.html], the redundancy of a technical product refers to the presence of capabilities in it beyond those that could ensure its normal functioning. Such redundancy, depending on the purpose of the product, the nature of the problem being solved, and other circumstances, can be used either to increase its overall performance (by performing the appropriate functions in parallel) or to provide the necessary level of failure-free (by organizing hot or cold redundancy of various multiplicities).

В качестве технического изделия рассматривается вычислительная система (ВС), в общем случае неоднородная, используемая для обработки информации (сбор, получение, анализ, пересылка информации, выработка управляющих воздействий, команд индикации) в составе сложной технической системы, часто называемой комплексом. Избыточность ВС заключается в том, что число используемых процессорных узлов (ПУ), каждый из которых состоит из одного процессора, устройств памяти и обеспечивающей совокупности других элементов, больше единицы. При этом ВС может обладать неоднородной аппаратной и программной реализацией, т.е. различные ПУ или их части, а также соответствующие программные компоненты могут быть созданы различными разработчиками и/или с использованием различных технологий.As a technical product, a computing system (VS) is considered, generally heterogeneous, used to process information (collecting, receiving, analyzing, sending information, generating control actions, indication commands) as part of a complex technical system, often called a complex. The redundancy of the aircraft lies in the fact that the number of used processor nodes (PU), each of which consists of one processor, memory devices and providing a combination of other elements, is more than one. In this case, the aircraft may have heterogeneous hardware and software implementation, i.e. different controllers or their parts, as well as corresponding software components can be created by various developers and / or using various technologies.

Известен способ повышения надежности вычислительно-информационных систем путем побитового восстановления слов (информации) на основе их функциональной избыточности [Шульга Т.Э. Метод построения восстанавливающих последовательностей для систем без потери информации // Системы управления и информационные технологии. 2009. №3(35). С. 407-411]. Такой подход потенциально предоставляет возможность парирования неблагоприятных последствий сбоев и частичных отказов процессоров, однако его практическое применение ограничено жесткими структурными требованиями как к содержанию обрабатываемой информации, так и характеру неблагоприятных воздействий.A known method of increasing the reliability of computing and information systems by bitwise recovery of words (information) based on their functional redundancy [Shulga T.E. A method for constructing reconstructing sequences for systems without loss of information // Control Systems and Information Technologies. 2009. No3 (35). S. 407-411]. Such an approach potentially provides an opportunity to counter the adverse effects of malfunctions and partial failures of processors, but its practical application is limited by strict structural requirements both to the content of the processed information and the nature of the adverse effects.

Известен способ повышения надежности и достоверности обработки критических функций отказоустойчивой вычислительной системы [Патент на изобретение №2413975 от 17.11.2008], когда эффект достигается за счет многократного резервирования трактов реализации критических функций, при которой процессы управления избыточностью и вычислительный процесс разделены в цикле реального времени и частично аппаратными средствами. В качестве резервируемых единиц вычислителя выделяются так называемые вычислительные тракты, состоящие из неразрывно связанных цепочек входного интерфейса, процессора и выходного интерфейса. В каждом из вычислительных трактов производится мажоритарное сравнение сигналов, прошедших через каждый тракт. Неоднозначность мажоритарного сравнения сигналов в различных трактах устраняют мажоритарным сравнением результатов сравнения сигналов. Достоверность мажоритарного контроля сигналов достигается путем статистической обработки случайного процесса изменения критического параметра, вычисления остаточной дисперсии и ее мажоритарного сравнения. Этот способ и устройство для его реализации выбраны в качестве прототипа.There is a method of increasing the reliability and reliability of processing critical functions of a fault-tolerant computing system [Patent for the invention No. 2413975 of 11/17/2008], when the effect is achieved due to the multiple reservation of paths for the implementation of critical functions, in which the redundancy management processes and the computing process are separated in a real-time cycle and partially hardware. The so-called computing paths consisting of inextricably linked chains of the input interface, processor, and output interface are allocated as redundant units of the calculator. In each of the computing paths, a majority comparison of the signals passing through each path is performed. The ambiguity of the majority signal comparison in different paths is eliminated by the majority comparison of the signal comparison results. Reliability of majority control of signals is achieved by statistical processing of the random process of changing the critical parameter, calculating the residual variance and its majority comparison. This method and device for its implementation are selected as a prototype.

К недостаткам этого способа относятся:The disadvantages of this method include:

- низкая эффективность мажоритарного сравнения сигналов при неоднородной избыточности вычислительных средств;- low efficiency of majority comparison of signals with heterogeneous redundancy of computing facilities;

- заведомое завышение объемов потребного резервирования из-за объединения нескольких аппаратных компонентов в одну неразрывную единицу;- deliberate overstatement of volumes of required redundancy due to the combination of several hardware components into one inextricable unit;

- слишком высокий объем вычислений, связанных с многоуровневым мажоритарным контролем в сочетании со статистической обработкой сигналов трактов;- too high a volume of calculations related to multi-level majority control in combination with statistical processing of path signals;

- сложность самого устройства, что вместе с отсутствием у него встроенного самоконтроля снижает надежность достижения соответствующего технического эффекта.- the complexity of the device itself, which, together with the lack of built-in self-control, reduces the reliability of achieving the corresponding technical effect.

Известно устройство для управления избыточностью модулей в многопроцессорной вычислительной системе [Патент US 4503534 А, G06F 11/00, опубл. 05.03.1985] в виде матрицы, составленной из процессорной шины с линиями ошибок и управления линиями; и шин памяти с соответственными линиями ошибок и управления линиями. Каждый узел матрицы имеет средства регистрации ошибок в вышеуказанных линиях. Вычислительные и интерфейсные модули вычислительной системы делятся на основные и теневые и связаны соответственно с основными и теневыми узлами матрицы, которые управляют доступом к шинам памяти. При этом предполагается идентичность всех вычислительных и интерфейсных модулей. Управление избыточностью вычислительной системы заключается в сравнении результатов основных и теневых модулей, а также пар «основной - теневой» с последующей блокировкой доступа к памяти модулям с неподтвержденными результатами. Основным недостатком является невозможность использования изобретения для систем с неоднородной избыточностью, когда разные модули одного и того же предназначения созданы разными разработчиками на разной технологической базе.A device for managing module redundancy in a multiprocessor computing system is known [Patent US 4503534 A, G06F 11/00, publ. 03/05/1985] in the form of a matrix composed of a processor bus with error and line control lines; and memory buses with corresponding error lines and line control. Each node of the matrix has a means of recording errors in the above lines. Computing and interface modules of a computing system are divided into main and shadow and are associated respectively with the main and shadow nodes of the matrix, which control access to memory buses. In this case, the identity of all computing and interface modules is assumed. Management of the redundancy of the computing system consists in comparing the results of the main and shadow modules, as well as the “main - shadow” pairs, followed by blocking access to the memory of the modules with unconfirmed results. The main disadvantage is the inability to use the invention for systems with heterogeneous redundancy, when different modules of the same purpose are created by different developers on a different technological base.

Целью изобретения является улучшение технико-эксплуатационных характеристик неоднородной вычислительной системы (ВС). А именно, предлагаемые способ и устройство позволяют обеспечить повышенную отказоустойчивость ВС, т.е. сохранить работоспособность ВС с разнородными элементами в условиях возникновения множественных разнотипных отказов.The aim of the invention is to improve the technical and operational characteristics of a heterogeneous computing system (BC). Namely, the proposed method and device can provide increased fault tolerance of the aircraft, i.e. maintain the performance of aircraft with heterogeneous elements in the face of multiple diverse failures.

Эта цель достигается тем, что в способе автоматического управления избыточностью неоднородной вычислительной системы, содержащем множество параллельных содержательных вычислений решаемой задачи, выбор предпочтительного решения на конкурсной основе и распределение функции контроля по всем процессорным узлам, содержательные вычисления задачи разбиваются на этапы, включающие определение значения показателя успешности завершения текущего этапа, с сохранением входных внутренних и выходных данных, затем путем сопоставления значений показателя успешности этапа осуществляют попарный арбитраж процессорных узлов по иерархической схеме и реконфигурацию вычислительной системы с выделением пассивных и ведущих процессорных узлов в парах всех уровней иерархической схемы, причем ведущий процессорный узел верхнего уровня формирует и выдает во все процессорные узлы сигналы синхронизации (СС), по которым выполняются все фазы циклического процесса, соответствующего одному текущему этапу вычисления решаемой задачи, а именно ввод данных и обмен ими, вычисления решаемой задачи и арбитраж процессорных узлов, а также выдает результаты вычислений в основной и резервный выходные каналы вычислительной системы, каждый ведущий процессорный узел, кроме верхнего уровня, принимает от узлов более высокого уровня своей ветви иерархии сигналы синхронизации и аутентификации, осуществляет вычисления текущего этапа решаемой задачи, формирует показатель успешности выполнения этапа и выдает в нижние уровни своей ветви иерархии сигнал аутентификации, подтверждающий исполнение им отведенной роли, а также со своим показателем успешности выполнения этапа участвует в арбитраже за право получить роль ведущего процессорного узла более высокого уровня иерархии, пассивные процессорные узлы принимают сигналы синхронизации и аутентификации от узлов своей ветви иерархии, осуществляют вычисления текущего этапа решаемой задачи, формируют показатель успешности выполнения этапа, а также со своими показателями успешности выполнения этапа участвуют в арбитраже за право получения статуса ведущего процессорного узла первого уровня иерархии, кроме того, каждый процессорный узел может восстанавливать свои входные и внутренние данные путем обращения к другим процессорным узлам.This goal is achieved by the fact that in a method for automatically controlling the redundancy of a heterogeneous computing system that contains many parallel meaningful calculations of the problem being solved, choosing the preferred solution on a competitive basis and distributing the control function across all processor nodes, the task’s meaningful calculations are divided into stages, including determining the value of the success rate completion of the current stage, while preserving the input internal and output data, then by comparing the values of the renders of the success of the stage carry out pairwise arbitration of the processor nodes according to the hierarchical scheme and reconfiguration of the computing system with the allocation of passive and leading processor nodes in pairs of all levels of the hierarchical scheme, and the leading processor node of the upper level generates and issues synchronization signals (SS) to all processor nodes, according to which all phases of the cyclic process corresponding to one current stage of the computation of the problem to be solved are performed, namely, data input and exchange, computation of the problem to be solved and arbitration of the processor nodes, and also outputs the results of the calculations to the primary and backup output channels of the computing system, each leading processor node, except for the upper level, receives synchronization and authentication signals from nodes of a higher level in its hierarchy branch, calculates the current stage of the problem being solved, generates an indicator of the success of the stage and issues an authentication signal to the lower levels of its branch of the hierarchy confirming the fulfillment of the assigned role, as well as with its indicator m the success of the stage is involved in arbitration for the right to receive the role of the leading processor node of a higher hierarchy, passive processor nodes receive synchronization and authentication signals from the nodes of their hierarchy branch, calculate the current stage of the task being solved, form an indicator of the success of the stage, as well as their indicators of the success of the stage are involved in arbitration for the right to obtain the status of the leading processor node of the first level of the hierarchy, in addition, each process A node can restore its input and internal data by accessing other processor nodes.

Дополнительно: показатели успешности этапа могут принимать только два значения, при этом ноль - результат выполнения этапа неудовлетворительный, а единица - результат выполнения удовлетворительный.Additionally: stage success indicators can take only two values, while zero - the result of the stage is unsatisfactory, and one - the result of the execution is satisfactory.

Также поставленная цель достигается тем, что в резервный выходной канал подаются результаты вычислений любого другого узла, определяемого по оговоренному правилу.The goal is also achieved by the fact that the results of calculations of any other node determined by the agreed rule are fed to the backup output channel.

Кроме того, для решения той же задачи в устройстве автоматического управлении избыточностью неоднородной вычислительной системы, содержащем несколько параллельных процессорных узлов, входной буфер и демультипликатор, каждый процессорный узел содержит процессор, пулы входных, внутренних и выходных данных, а также вспомогательные входы и выходы для сигналов синхронизации, аутентификации и показателя успешности завершения текущего этапа, и управляемые каналы обмена данными между пулами.In addition, to solve the same problem in a device for automatically controlling the redundancy of an inhomogeneous computing system containing several parallel processor nodes, an input buffer and a demultiplier, each processor node contains a processor, pools of input, internal and output data, as well as auxiliary inputs and outputs for signals synchronization, authentication and success rate of completion of the current stage, and managed channels of data exchange between pools.

В основе способа управления избыточностью ВС лежат периодические вычисления и сравнение показателей успешности выполнения этапа (ПУЭ). В зависимости от содержания этапа вычислительной задачи такими показателями могут быть: различные невязки или нормы полученных данных, доверительные или гарантированные оценки погрешностей данных, флаги прохождения запросов или завершения определенных операций, различные индикаторные числа типа контрольных сумм и пр.The method for managing aircraft redundancy is based on periodic calculations and comparison of the success indicators of a stage (PUE). Depending on the content of the stage of the computational task, such indicators may be: various discrepancies or norms of the received data, confidence or guaranteed estimates of data errors, flags of the passage of requests or completion of certain operations, various indicator numbers such as checksums, etc.

Изобретение поясняется чертежами.The invention is illustrated by drawings.

Фиг. 1 изображает функциональную схему ВС согласно изобретению, где:FIG. 1 depicts a functional diagram of an aircraft according to the invention, where:

1 - Входной буфер ВхБ;1 - Input buffer VhB;

2 - Процессорные узлы в количестве от П1 до ПW;2 - Processing units in an amount from P1 to PW;

3 - Пулы входных данных ВхД;3 - Input Input Pools;

4 - Пулы внутренних данных ВнД;4 - Pools of internal data of GNI;

5 - Пулы выходных данных ВыД;5 - Pools of output data VD;

6 - Демультипликатор выходных данных ДВыД.6 - Demultiplier of the output of DVD.

Фиг.2 отображает структуру основного рабочего цикла управления избыточностью.Figure 2 shows the structure of the main redundancy management duty cycle.

Фиг. 3 - правила действия ПУ по результатам арбитража.FIG. 3 - rules of action of PU based on the results of arbitration.

Поскольку способ реализуется при помощи работы устройства (фиг. 1), то полное его описание приведено в разделе пояснения работы этого устройства.Since the method is implemented using the device (Fig. 1), its full description is given in the section explaining the operation of this device.

ВС с устройством автоматического управления избыточностью содержит основной и резервный каналы входных данных КВхД, соединенные с входным буфером ВхБ (1), реализующим основную и резервную раздачу данных. С этой целью ВхБ соединен с пулами входных данных всех процессорных узлов ПУ (2) от 1 до W. Каждый ПУ содержит три пула: пул входных данных - Пул ВхД (3), пул внутренних данных - Пул ВнД (4) и пул выходных данных - Пул ВыД (5). Пулы выходных данных соединены с демультипликатором выходных данных ДВыД (6), предназначенным для выборочной передачи основных и резервных выходных данных из ПУ. Для этого блок ДВыД соединен с основным и резервным каналами выходных данных КВыД вычислительной системы. При этом принято, что входные и выходные данные сгруппированы в пакеты, защищенные контрольными кодами. Считается, что ввод и вывод производятся одним действием. После завершения ввода и проверки контрольного кода актуальность данных отмечается соответствующим флагом. Детали операции обмена данными (протоколы, ретрейны) не имеют принципиального значения. В вычислительном процессе помимо входных данных используются внутренние данные, расположенные в соответствующих пулах.An aircraft with an automatic redundancy control device contains the main and backup channels of input data of the storage device connected to the input buffer VhB (1), which implements the main and backup data distribution. For this purpose, the VHB is connected to the input data pools of all the processor nodes of the control unit (2) from 1 to W. Each control unit contains three pools: the input data pool - the I / O Pool (3), the internal data pool - the VND Pool (4) and the output data pool - Pool VYD (5). The output data pools are connected to the DVYD output data demultiplier (6), intended for selective transfer of the main and backup output data from the controllers. For this, the DVYD block is connected to the main and backup channels of the output data of the KVYD of the computer system. Moreover, it is accepted that the input and output data are grouped in packets protected by control codes. It is believed that input and output are performed in a single action. After completion of the input and verification of the control code, the data is updated with the corresponding flag. Details of the data exchange operation (protocols, retrains) are not of fundamental importance. In the computing process, in addition to the input data, internal data located in the corresponding pools is used.

Кроме того, между ПУ имеются межпроцессорные связи (показанные на чертеже условно пунктирными стрелками с полукруглыми окончаниями), позволяющие каждому ПУ обращаться к одноименным пулам других ПУ для получения их входных и внутренних данных с целью восстановления своих данных. Каждый ПУ это осуществляет самостоятельно при отсутствии флага у какого-либо своего пула в определенный промежуток времени. Может оказаться так, что вообще не будет необходимых (ВхД, ВнД) данных. Тогда вычислительный цикл прерывается и выдается сообщение о неисправности в служебный канал индикации.In addition, between the controllers there are interprocessor communications (conventionally shown with dashed arrows with semicircular endings in the drawing) that allow each control panel to access the pools of the same name of the other control panels to obtain their input and internal data in order to restore their data. Each PU does this independently in the absence of a flag from any of its pools in a certain period of time. It may turn out that there will be no necessary (VHD, VND) data at all. Then the computational cycle is interrupted and a fault message is issued in the service channel indication.

Работает устройство (фиг. 1) следующим образом.The device operates (Fig. 1) as follows.

По входным каналам (основному и резервному) поступают входные данные очередного этапа вычислительного процесса. Эти данные поступают в пулы (основной и резервный соответственно) каждого из 2N ПУ, участвующего в работе ВС. В начале каждого рабочего цикла все флаги, отражающие актуальность данных, обнуляются и устанавливаются после успешного завершения операции по заполнению соответствующего пула.Input channels (primary and backup) receive input data of the next stage of the computing process. These data enter the pools (primary and backup, respectively) of each of the 2 N launchers participating in the aircraft. At the beginning of each work cycle, all flags reflecting the relevance of the data are reset and set after the successful completion of the operation to fill the corresponding pool.

Причем свои данные выбираются непосредственно из каналов, подключенных к ВС. Остальные данные выбираются из каналов межмашинного обмена (МО).Moreover, their data are selected directly from the channels connected to the aircraft. The remaining data is selected from the channels of the inter-machine exchange (MO).

Основной рабочий цикл вычислительной системы, как показано на фиг. 2, содержит N+4 фаз, где N - число уровней иерархии ВС. Фазы размечаются СС, которые представляют собой пакеты, выдаваемые ВВПУ (ведущий процессорный узел верхнего уровня) во все доступные адреса. СС выдаются как датаграммы без подтверждения. Если какой либо пакет оказался утерянным, то проблема вхождения в синхронизм решается в следующем цикле. Синхропакеты кроме признаков типа пакета и адреса источника имеют в своем составе счетчик циклов, который (в дополнение к таймингу) может использоваться для определения целостности общей обстановки и служить начальными данными для тестовой задачи.The main duty cycle of a computing system, as shown in FIG. 2, contains N + 4 phases, where N is the number of levels of the aircraft hierarchy. Phases are marked by SS, which are packets issued by VVPU (top-level leading processor node) to all available addresses. SSs are issued as datagrams without confirmation. If any package is lost, then the problem of entering synchronism is solved in the next cycle. Sync packets, in addition to signs of the type of packet and source address, include a cycle counter, which (in addition to timing) can be used to determine the integrity of the overall situation and serve as initial data for the test task.

Фазы основного рабочего цикла представляют собой следующие последовательно выполняемые действия:The phases of the main work cycle are the following sequentially performed actions:

1. Получение СС1 из текущего ВВПУ-, определенного в предыдущем цикле (на это указывает наличие знака «минус»). Ввод через ВхБ данных из основного и резервного каналов КВхД. Обмен входными данными в случае отсутствия соответствующих флагов актуальности у каких либо пулов ВхД.1. Getting CC1 from the current VVPU- defined in the previous cycle (this is indicated by the presence of a minus sign). Input through VhB of data from the main and reserve channels of KVhD. Exchange of input data in the absence of relevant relevance flags for any I / O pools.

2. Получение СС2 из текущего ВВПУ-. Выполнение прикладных процессов, включая проверку актуальности данных, содержательные вычисления решаемой задачи, вычисление показателя успешности решения задачи на текущем этапе (ПУЭ).2. Getting CC2 from the current VVPU-. Implementation of applied processes, including verification of data relevance, meaningful calculations of the problem to be solved, calculation of the success rate for solving the problem at the current stage (PUE).

3. Получение СС3 из текущего ВВПУ-. Обмен внутренними данными при необходимости восстановления вычислительного процесса в процессорах, не достигших успешного завершения этапа.3. Getting SS3 from the current VVPU-. Exchange of internal data, if necessary, restore the computing process in processors that have not reached the successful completion of the stage.

4. Получение СС4 из текущего ВВПУ-. Проведение арбитража ПУ на первом (нижнем) уровне иерархии ВС. Присвоение статусов ППУ и В1ПУ на основе сопоставления ПУЭ в парах с учетом правил, приведенных на фиг. 3. В случае отсутствия преимущества какого-либо из ПУ решение принимается на основе дискриминационного правила (например, по порядковому номеру ПУ).4. Getting CC4 from the current VVPU-. Arbitration PU at the first (lower) level of the aircraft hierarchy. Assigning the statuses of PUF and V1PU based on the comparison of PUE in pairs, taking into account the rules shown in FIG. 3. If there is no advantage of any of the control points, the decision is made on the basis of a discriminatory rule (for example, by the order number of the control points).

5. Получение СС5 из текущего ВВПУ-. Выдача СА из В1ПУ (подтверждение выполнения роли в соответствии со статусом) для ППУ своей пары. Проведение арбитража процессоров В1ПУ на втором уровне иерархии ВС на роль В2ПУ по правилам, аналогичным п. 4.5. Getting SS5 from the current VVPU-. The issuance of CA from V1PU (confirmation of the role in accordance with the status) for the PPU of its pair. Arbitration of V1PU processors at the second level of the aircraft hierarchy for the role of V2PU according to the rules similar to clause 4.

N+2. …N + 2. ...

N+3. Получение CC(N+3) из текущего ВВПУ-. Выдача ПА из В(N+3)ПУ для более низких уровней иерархии ВС. Проведение арбитража на роль ВВПУ по правилам, аналогичным п. 4.N + 3. Getting CC (N + 3) from the current VPPU-. The issuance of PA from B (N + 3) PU for lower levels of the aircraft hierarchy. Arbitration for the role of VVPU according to the rules similar to clause 4.

N+4. Получение CC(N+4) из вновь определенного ВВПУ (на это указывает отсутствие знака «минус»). Выдача данных ВыД из ВВПУ через ДВыД в основной КВыД. Выдача данных ВыД из B(N-1)ПУ через ДВыД в резервный КВыД. После завершения выдачи данных переход к началу цикла.N + 4. Getting CC (N + 4) from the newly defined VVPU (this is indicated by the absence of a minus sign). Issue of exit data from VVPU through DVYD to the main KVYD. Issuing data Vyd from B (N-1) PU through DVYD in the backup KVYD. After completion of data output, go to the beginning of the cycle.

Каждый ПУ контролирует по таймеру время приема СС и СА, поступающих из ПУ более высокого уровня иерархии. Отсутствие СС или СА в ожидаемое время интерпретируется ПУ как основание для восстановления вычислений и повторного арбитража. Если на этот момент в системе был хотя бы один резервный ПУ, то сохранившиеся в его пуле внутренние данные позволяют восстановить вычисления с минимальной задержкой.Each control unit controls, on a timer, the time of receiving SS and CA coming from controllers of a higher hierarchy level. The absence of SS or CA at the expected time is interpreted by the PU as the basis for the restoration of calculations and re-arbitration. If at this point in the system there was at least one backup control unit, then the internal data stored in its pool allows you to restore calculations with a minimum delay.

Процедура реконфигурации ВС происходит в фазах, инициируемых сигналами синхронизации, начиная с СС4 и заканчивая CC(N+3) включительно в зависимости от статуса каждого из ПУ. Первоначально каждому ПУ присваивается статус ППУ. Далее процедура предусматривает два процесса: вхождение ПУ в цикл и выход ПУ из цикла. Действия, выполняемые при вхождении в цикл и основания для их выполнения, показаны на фиг. 3. При этом каждым ПУ учитываются как его успешность решения задачи на текущем этапе, так и блокировки, вызванные СА, поступающими от ВчПУ более высокого уровня. Выход (выключение) ППУ никак не сказывается на выполнении основного цикла. Выход (отказ, сбой или неправильное функционирование) любого ВчПУ не вызывает перебоев в выдаче результатов вычислений, но разрушает структуру (цепочку) резервов, которая восстанавливается после проведения арбитража в следующем цикле. Выход ВВПУ приводит к сбою выдачи выходных данных в текущем цикле, вычислительный процесс восстанавливается вместе с новой иерархией ВС в следующем цикле.The reconfiguration of the aircraft occurs in phases initiated by synchronization signals, starting from CC4 and ending with CC (N + 3) inclusive, depending on the status of each of the controllers. Initially, each PU is assigned the status of PUF. Further, the procedure involves two processes: the entry of PU into the cycle and the exit of PU from the cycle. The actions performed upon entering the cycle and the grounds for their implementation are shown in FIG. 3. At the same time, each control unit takes into account both its success in solving the problem at the current stage, and blocking caused by SA coming from higher-level VCPU. The output (shutdown) of the control panel does not affect the execution of the main cycle. The output (failure, malfunction or improper functioning) of any VCPU does not cause interruptions in the output of the calculation results, but destroys the structure (chain) of reserves, which is restored after the arbitration in the next cycle. The VVPU output leads to a failure in the output of the output data in the current cycle, the computational process is restored together with the new aircraft hierarchy in the next cycle.

Промышленная применимостьIndustrial applicability

Наиболее успешно заявленные способ автоматического управления избыточностью вычислительной системы и устройство для его реализации промышленно применимы в вычислительной и контрольно-измерительной технике и может использоваться для создания отказоустойчивой интегрированной вычислительной среды в перспективных комплексах бортового оборудования подвижных объектов и комплексах автоматизированного управления функционированием производственных и энергетических объектов с целью обеспечения их безотказности и безопасности функционирования.The most successfully claimed method of automatic control of the redundancy of a computer system and a device for its implementation are industrially applicable in computer and instrumentation and can be used to create a fault-tolerant integrated computing environment in advanced complexes of on-board equipment of moving objects and complexes of automated control of the functioning of production and energy objects with the aim of ensure their reliability and safety functions oning.

Примером такого применения является функционирующий прототип фрагмента бортовой интегрированной вычислительной среды авиационного назначения, созданный в ОАО «НИИ авиационного оборудования) в рамках проекта по договору с Минобрнауки в соответствии с Постановлением Правительства РФ от 2010 года №218.An example of such an application is a functioning prototype of a fragment of an onboard integrated computing environment for aviation purposes, created at JSC Research Institute of Aviation Equipment) under a project under an agreement with the Ministry of Education and Science in accordance with Decree of the Government of the Russian Federation of 2010 No. 218.

Источники информацииInformation sources

1. Избыточность понятие, определение на Slogos.ru - http://slogos.ru/story/izbytochnost.html1. Redundancy concept, definition on Slogos.ru - http://slogos.ru/story/izbytochnost.html

2. Шульга Т.Э. Метод построения восстанавливающих последовательностей для систем без потери информации // Системы управления и информационные технологии. 2009. №3(35). С. 407-411.2. Shulga T.E. A method for constructing reconstructing sequences for systems without loss of information // Control Systems and Information Technologies. 2009. No3 (35). S. 407-411.

3. Патент на изобретение №2413975 с приоритетом от 17.11.2008.3. Patent for the invention No. 2413975 with priority from 11/17/2008.

4. Волик Б.Г., Буянов Б.Б., Лубков Н.В. и др. Методы анализа и синтеза структур управляющих систем / Под ред. Б.Г. Волика. - М.: Энергоатомиздат, 1988. С. 242-244.4. Volik B. G., Buyanov B. B., Lubkov N. V. et al. Methods of analysis and synthesis of structures of control systems / Ed. B.G. Volika. - M .: Energoatomizdat, 1988.S. 242-244.

5. Патенты на изобретение №2430400 с приоритетом от 20.08.2010 и №2431174 с приоритетом от 20.08.2010.5. Patents for the invention No. 2430400 with priority from 08/20/2010 and No. 2431174 with priority from 08/20/2010.

Claims (4)

1. Способ автоматического управления избыточностью неоднородной вычислительной системы, содержащий множество параллельных вычислений решаемой задачи, выбор предпочтительного решения на конкурсной основе и распределение функции контроля по всем процессорным узлам, отличающийся тем, что, с целью обеспечения повышенной отказоустойчивости, вычисления задачи разбиваются на этапы, включающие определение значения показателя успешности завершения текущего этапа, с сохранением входных, внутренних и выходных данных, затем путем сопоставления значений показателя успешности этапа осуществляют попарный арбитраж процессорных узлов по иерархической схеме и реконфигурацию вычислительной системы с выделением пассивных и ведущих процессорных узлов в парах всех уровней иерархической схемы, причем ведущий процессорный узел верхнего уровня формирует и выдает во все процессорные узлы сигналы синхронизации, по которым выполняются все фазы циклического процесса, соответствующего одному текущему этапу вычисления решаемой задачи, а именно ввод данных и обмен ими, вычисления решаемой задачи и арбитраж процессорных узлов, а также выдает результаты вычислений в основной и резервный выходные каналы вычислительной системы, каждый ведущий процессорный узел кроме верхнего уровня принимает от узлов более высокого уровня своей ветви иерархии сигналы синхронизации и аутентификации, осуществляет вычисления текущего этапа решаемой задачи, формирует показатель успешности выполнения этапа и выдает в нижние уровни своей ветви иерархии сигнал аутентификации, подтверждающий исполнение им отведенной роли, а также со своим показателем успешности выполнения этапа участвует в арбитраже за право получить роль ведущего процессорного узла более высокого уровня иерархии, пассивные процессорные узлы принимают сигналы синхронизации и аутентификации от узлов своей ветви иерархии, осуществляют вычисления текущего этапа решаемой задачи, формируют показатель успешности выполнения этапа, а также со своими показателями успешности выполнения этапа участвуют в арбитраже за право получения статуса ведущего процессорного узла первого уровня иерархии, кроме того, каждый процессорный узел может восстанавливать свои входные и внутренние данные путем обращения к другим процессорным узлам.1. A method for automatically controlling the redundancy of an inhomogeneous computing system, containing many parallel computations of the problem being solved, selecting the preferred solution on a competitive basis and distributing the monitoring function across all processor nodes, characterized in that, in order to provide increased fault tolerance, the task calculations are divided into stages, including determining the value of the success rate indicator for completing the current stage, while preserving the input, internal and output data, then by matching The values of the success indicator of the stage are carried out by pairwise arbitration of the processor nodes according to the hierarchical scheme and reconfiguration of the computing system with the allocation of passive and leading processor nodes in pairs of all levels of the hierarchical scheme, and the leading processor node of the upper level generates and issues synchronization signals to all processor nodes, according to which all phases of the cyclic process corresponding to one current stage of computing the problem to be solved, namely, data input and exchange, computing, we solve ith the task and arbitration of the processor nodes, and also outputs the results of the calculations to the primary and backup output channels of the computing system, each leading processor node, in addition to the upper level, receives synchronization and authentication signals from nodes of a higher level in its hierarchy branch, performs calculations of the current stage of the problem being solved, generates an indicator of the success of the stage execution and issues an authentication signal to the lower levels of its hierarchy branch confirming the fulfillment of the assigned role, as well as with its As an indicator of the success of the stage, it participates in arbitration for the right to receive the role of the leading processor node of a higher hierarchy, passive processor nodes receive synchronization and authentication signals from the nodes of its hierarchy branch, calculate the current stage of the task being solved, form an indicator of the success of the stage, as well as indicators of the success of the stage are involved in arbitration for the right to obtain the status of the leading processor node of the first level of the hierarchy, in addition, each a processor node can recover its input and internal data by accessing other processor nodes. 2. Способ по п. 1, отличающийся тем, что показатели успешности этапа могут принимать только два значения, при этом ноль - результат выполнения этапа неудовлетворительный, а единица - результат выполнения удовлетворительный.2. The method according to p. 1, characterized in that the success indicators of the stage can take only two values, while zero - the result of the stage is unsatisfactory, and one - the result of the execution is satisfactory. 3. Способ по п. 1, отличающий тем, что в резервный выходной канал подаются результаты вычислений любого узла, определяемого по оговоренному правилу.3. The method according to claim 1, characterized in that the results of the calculations of any node determined by the agreed rule are fed to the backup output channel. 4. Устройство автоматического управления избыточностью неоднородной вычислительной системы, содержащее основной и резервный каналы входных данных, соединенные с входным буфером, который соединен со всеми процессорными узлами, отличающееся тем, что каждый процессорный узел содержит один процессор и соединенные с ним три пула памяти для хранения данных: пул входных данных, пул внутренних данных и пул выходных данных, процессорные узлы соединены с демультипликатором выходных данных, демультипликатор соединен с основным и резервным каналами выходных данных вычислительной системы, между процессорными узлами имеются межпроцессорные связи, а также каждый процессорный узел содержит вспомогательные входы и выходы, используемые для передачи и приема сигналов синхронизации, аутентификации и показателя успешности завершения текущего этапа, и управляемые каналы межпроцессорного обмена данными.4. A device for automatically controlling the redundancy of a heterogeneous computing system, comprising a primary and backup input data channels connected to an input buffer that is connected to all processor nodes, characterized in that each processor node contains one processor and three memory pools connected to it for data storage : input pool, internal data pool and output pool, processor nodes are connected to the output data multiplier, the demultiplier is connected to the primary and backup channels As the output data of the computing system, there are interprocessor communications between the processor nodes, and each processor node contains auxiliary inputs and outputs used for transmitting and receiving synchronization signals, authentication, and a success indicator for completing the current stage, as well as controlled channels of interprocess data exchange.
RU2015102223A 2015-01-27 2015-01-27 Method for automatic control of redundancy of heterogeneous computer system and devices for its implementation RU2612569C2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2015102223A RU2612569C2 (en) 2015-01-27 2015-01-27 Method for automatic control of redundancy of heterogeneous computer system and devices for its implementation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2015102223A RU2612569C2 (en) 2015-01-27 2015-01-27 Method for automatic control of redundancy of heterogeneous computer system and devices for its implementation

Publications (2)

Publication Number Publication Date
RU2015102223A RU2015102223A (en) 2016-08-20
RU2612569C2 true RU2612569C2 (en) 2017-03-09

Family

ID=56694731

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2015102223A RU2612569C2 (en) 2015-01-27 2015-01-27 Method for automatic control of redundancy of heterogeneous computer system and devices for its implementation

Country Status (1)

Country Link
RU (1) RU2612569C2 (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4503534A (en) * 1982-06-30 1985-03-05 Intel Corporation Apparatus for redundant operation of modules in a multiprocessing system
US20090216910A1 (en) * 2007-04-23 2009-08-27 Duchesneau David D Computing infrastructure
RU2413975C2 (en) * 2008-11-17 2011-03-10 Федеральное государственное унитарное предприятие Научно-исследовательский институт авиационного оборудования Method and computing system for fault-tolerant processing of information of aircraft critical functions
RU2427895C2 (en) * 2006-02-03 2011-08-27 Рассел Х. ФИШ III Multiprocessor architecture optimised for flows
US20110219208A1 (en) * 2010-01-08 2011-09-08 International Business Machines Corporation Multi-petascale highly efficient parallel supercomputer
RU2450339C2 (en) * 2008-06-26 2012-05-10 Рассел Х. ФИШ III Multiprocessor architecture optimised for traffic

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4503534A (en) * 1982-06-30 1985-03-05 Intel Corporation Apparatus for redundant operation of modules in a multiprocessing system
RU2427895C2 (en) * 2006-02-03 2011-08-27 Рассел Х. ФИШ III Multiprocessor architecture optimised for flows
US20090216910A1 (en) * 2007-04-23 2009-08-27 Duchesneau David D Computing infrastructure
RU2450339C2 (en) * 2008-06-26 2012-05-10 Рассел Х. ФИШ III Multiprocessor architecture optimised for traffic
RU2413975C2 (en) * 2008-11-17 2011-03-10 Федеральное государственное унитарное предприятие Научно-исследовательский институт авиационного оборудования Method and computing system for fault-tolerant processing of information of aircraft critical functions
US20110219208A1 (en) * 2010-01-08 2011-09-08 International Business Machines Corporation Multi-petascale highly efficient parallel supercomputer

Also Published As

Publication number Publication date
RU2015102223A (en) 2016-08-20

Similar Documents

Publication Publication Date Title
US7797575B2 (en) Triple voting cell processors for single event upset protection
EP2884392B1 (en) Triple software redundancy fault tolerant framework architecture
Sha Using simplicity to control complexity
DE102014002473B4 (en) SYSTEM AND METHOD FOR INCREASING LOCKSTEP CORE AVAILABILITY
EP1082660A2 (en) Fault tolerant computing system using instruction counting
JP6196855B2 (en) System and method for processor instruction execution synchronization
EP3178000A1 (en) Method of executing programs in an electronic system for applications with functional safety comprising a plurality of processors, corresponding system and computer program product
JP2022088346A (en) Debug trace streams for core synchronization
US20180322001A1 (en) Methods for operating multicore processors
US9256426B2 (en) Controlling total number of instructions executed to a desired number after iterations of monitoring for successively less number of instructions until a predetermined time period elapse
RU2612569C2 (en) Method for automatic control of redundancy of heterogeneous computer system and devices for its implementation
Shin et al. Alternative majority-voting methods for real-time computing systems
Pimentel et al. Dependability of distributed control system fault tolerant units
JP2023546475A (en) Data processing network for data processing
Popov et al. Reliability investigation of TMR and DMR systems with global and partial reservation
RU2474868C1 (en) Modular computer system
Shi et al. Research on consistency of distributed system based on Paxos algorithm
RU2738730C1 (en) Method for fault-tolerant functioning of prospective complex for automation of military command posts and device implementing thereof
Braun et al. Increasing the reliability of single and multi core systems with software rejuvenation and coded processing
Huai et al. A fault-tolerant scheduling algorithm for distributed control system with possible hardware and software faults
Klepikov Ensuring fault-tolerant computations in distributed control systems
Yu et al. Formal verification of active-standby switchingon safety computer in next generation train control system
RU2559767C2 (en) Method of providing fault-tolerance computer system based on task replication, self-reconfiguration and self-management of degradation
Nan et al. Extended dynamic fault tree algorithm based on stochastic petri net and micro-satellite on-board computer case analysis
RU2520350C2 (en) Control computer system