RU2699254C1 - Reconfigurable computer system with a multilevel monitoring and control subsystem - Google Patents

Reconfigurable computer system with a multilevel monitoring and control subsystem Download PDF

Info

Publication number
RU2699254C1
RU2699254C1 RU2018138289A RU2018138289A RU2699254C1 RU 2699254 C1 RU2699254 C1 RU 2699254C1 RU 2018138289 A RU2018138289 A RU 2018138289A RU 2018138289 A RU2018138289 A RU 2018138289A RU 2699254 C1 RU2699254 C1 RU 2699254C1
Authority
RU
Russia
Prior art keywords
computing
pci
express
monitoring
control
Prior art date
Application number
RU2018138289A
Other languages
Russian (ru)
Inventor
Ольга Анатольевна Будкина
Константин Игоревич Воротников
Федор Вячеславович Демин
Виктор Викторович Парамонов
Аркадий Васильевич Симонов
Александр Георгиевич Титов
Александр Альбертович Цыбов
Original Assignee
Федеральное государственное унитарное предприятие "Научно-исследовательский институт "Квант"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Федеральное государственное унитарное предприятие "Научно-исследовательский институт "Квант" filed Critical Федеральное государственное унитарное предприятие "Научно-исследовательский институт "Квант"
Priority to RU2018138289A priority Critical patent/RU2699254C1/en
Application granted granted Critical
Publication of RU2699254C1 publication Critical patent/RU2699254C1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/80Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Power Sources (AREA)

Abstract

FIELD: computer equipment.SUBSTANCE: invention relates to computer engineering. Computer system comprises: a network Ethernet management switch, a master server, an Ethernet monitoring switch, a PCI-Express switch, a power control and control unit and a group of K computing nodes, each having a general purpose computer, a PCI-Express switch, a PCI-Express switch for computation modules, a monitoring and control unit, a cooling fan monitoring and control unit, a computing module power supply control and monitoring unit; a group of N computer modules, each having a PCI-Express switch, a group of M computing PLDs; a system PLD, a unit for controlling the mode of the PCI-Express switch and memory of the start configurations of the system PLD.EFFECT: high failure-tolerance of the computer system.1 cl, 1 dwg

Description

ОБЛАСТЬ ТЕХНИКИFIELD OF TECHNOLOGY

Изобретение относится к области вычислительной техники, в частности, реконфигурируемым вычислительным системам кластерного типа, предназначенных для решения вычислительно сложных, трудоемких задач и высокоскоростной обработки больших информационных массивов.The invention relates to the field of computer technology, in particular, reconfigurable cluster-type computing systems designed to solve computationally complex, time-consuming tasks and high-speed processing of large information arrays.

ПРЕДШЕСТВУЮЩИЙ УРОВЕНЬ ТЕХНИКИBACKGROUND OF THE INVENTION

Известен патент US 9037833, G06F 15/80, G06F 9/50, опубл. 19.05.2015 г. (ЕР 1814029, US 20050235092), в котором вычислительная система содержит множество объединенных вычислительных узлов. Каждый вычислительный узел состоит из вычислителя общего назначения, включающего в свой состав процессоры общего назначения для выполнения высокопроизводительных вычислений, оперативные памяти и коммутатор, предназначенный для связи вычислительных узлов вычислительной системы между собой. Процессоры общего назначения попарно соединены между собой посредством интерфейса Hyper Transport. Каждый из процессоров общего назначения в вычислителе общего назначения соединен через мост HYPERTRANSPORT™/PCI с адаптером НСА (Host Channel Adapter), который, в свою очередь, связан с коммутатором. Вычислительные узлы высокопроизводительной системы связаны между собой в единую сеть. Для управления работой вычислительной системы в кластере один узел является управляющим, в его задачи входит мониторинг состояния системы (обнаружение неисправных узлов), планирование задач между узлами кластера, управление правами доступа пользователей. Между управляющим узлом и вычислительными узлами системы может использоваться коммуникационная сеть Ethernet.Known patent US 9037833, G06F 15/80, G06F 9/50, publ. 05/19/2015, (EP 1814029, US 20050235092), in which a computing system contains many integrated computing nodes. Each computing node consists of a general-purpose calculator, which includes general-purpose processors for performing high-performance computing, random access memory, and a switch for connecting computing nodes of a computing system with each other. General-purpose processors are interconnected in pairs via the Hyper Transport interface. Each of the general-purpose processors in the general-purpose calculator is connected through the HYPERTRANSPORT ™ / PCI bridge to the Host Channel Adapter, which, in turn, is connected to the switch. Computing nodes of a high-performance system are interconnected into a single network. To control the operation of a computing system in a cluster, one node is the controlling one; its tasks include monitoring the state of the system (detecting faulty nodes), scheduling tasks between cluster nodes, and managing user access rights. An Ethernet communications network can be used between the control node and the system computing nodes.

Недостатком данной вычислительной системы является невысокая оперативность работы подсистемы мониторинга и управления состоянием компонент.The disadvantage of this computing system is the low efficiency of the subsystem for monitoring and controlling the state of components.

Причиной, препятствующей достижению технического результата, является высокая загрузка управляющего узла, при большом количестве объектов для мониторинга и управления внутри кластера вычислительной системы. Это обусловлено необходимостью обработки узлом управления большого потока данных мониторинга состояния контролируемых объектов в вычислительных узлах и последовательным алгоритмом работы системы мониторинга.The reason that impedes the achievement of the technical result is the high load of the control unit, with a large number of objects for monitoring and control inside the cluster of the computing system. This is due to the need for the control node to process a large flow of monitoring data on the state of controlled objects in the computing nodes and the consistent algorithm of the monitoring system.

Наиболее близким устройством того же назначения, к заявленному изобретению, по совокупности признаков, принятой за прототип, является реконфигурируемая вычислительная система (RU №156778 U1, МПК G06F 15/16, заявлено 10.04.2015, опубликовано 20.11.2015 Бюл. №32), содержащая сетевой коммутатор Ethernet 1 управления, ведущий сервер 2, сетевой коммутатор Ethernet 5 мониторинга, группу из К ведомых вычислительных узлов 41, …, 4K, каждый из которых содержит компьютер 8, коммутатор PCI-Express 11 и группу из N реконфигурируемых вычислительных устройств 131, …, 13N, каждое из которых содержит коммутатор PCI-Express 19, группу из М вычислительных ПЛИС 201, …, 20M, интерфейсную ПЛИС 22, блок 30 управления режимом коммутатора PCI-Express 19 и память 24 конфигураций ПЛИС, причем ведущий сервер 2 соединен сетевым интерфейсом Ethernet 6 с сетевым коммутатором Ethernet 5 мониторинга и сетевым интерфейсом Ethernet 3 с сетевым коммутатором Ethernet 1 управления, который соединен по соответствующим сетевым интерфейсам Ethernet 71, …, 7K с компьютерами 8 вычислительных узлов 41, …, 4K, в которых коммутатор PCI-Express 11, соединен соответствующими высокоскоростными последовательными интерфейсами PCI-Express 161, …, 16N с коммутаторами PCI-Express 19 в соответствующих реконфигурируемых вычислительных устройствах 131, …, 13N, в которых интерфейсная ПЛИС 22 соединена с памятью 24 конфигураций ПЛИС, а коммутатор PCI-Express 19 соединен с блоком 30 управления режимом коммутатора PCI-Express 19, с интерфейсной ПЛИС 22 по высокоскоростному последовательному интерфейсу PCI-Express 17 и с вычислительными ПЛИС 201, …, 20M по соответствующим высокоскоростным последовательным интерфейсам 211, …, 21M.The closest device of the same purpose to the claimed invention, in terms of features adopted for the prototype, is a reconfigurable computer system (RU No. 156778 U1, IPC G06F 15/16, announced April 10, 2015, published November 20, 2015 Bull. No. 32), comprising a control Ethernet network switch 1, a master server 2, monitoring Ethernet network switch 5, a group of K slave computing nodes 4 1 , ..., 4 K , each of which contains a computer 8, a PCI-Express 11 switch, and a group of N reconfigurable computing devices 13 1 , ..., 13 N , each of which with holds a PCI-Express 19 switch, a group of M computing FPGAs 20 1 , ..., 20M, an interface FPGA 22, a PCI-Express 19 switch mode control unit 30, and a memory 24 FPGA configurations, with the leading server 2 connected to an Ethernet 6 network interface with a network switch Ethernet 5 monitoring and a network interface Ethernet 3 with a network switch Ethernet 1 control, which is connected via the corresponding network interfaces Ethernet 7 1 , ..., 7 K with computers 8 computing nodes 4 1 , ..., 4 K , in which the switch PCI-Express 11, connected by appropriate high speed serial GOVERNMENTAL interfaces PCI-Express 16 1, ..., 16 N with switches PCI-Express 19 in the respective reconfigurable computing devices 13 1, ..., 13 N, in which interface the FPGA 22 is connected to memory 24 FPGA configurations, and PCI-Express 19 switch is connected with a PCI-Express 19 switch mode control unit 30, with an interface FPGA 22 via a high-speed serial PCI-Express 17 interface and with computing FPGAs 20 1 , ..., 20 M via the corresponding high-speed serial interfaces 21 1 , ..., 21 M.

Недостатком данной реконфигурируемой вычислительной системы является невысокая отказоустойчивость и высокие энергетические затраты при решении вычислительно сложных и трудоемких задач.The disadvantage of this reconfigurable computing system is its low fault tolerance and high energy costs when solving computationally complex and time-consuming tasks.

Причиной, препятствующей достижению технического результата, являются большое время опроса при мониторинге и управлении компонентами, связанное с последовательным опросом ведущим сервером 2 по сетевому интерфейсу 6 через коммутатор мониторинга Ethernet 5 данных мониторинга от каждого из вычислительных узлов 41, …, 4К.The reason that impedes the achievement of the technical result is the long polling time during monitoring and component management, associated with the sequential polling by the leading server 2 via the network interface 6 through the Ethernet 5 monitoring switch of monitoring data from each of the computing nodes 4 1 , ..., 4 K.

ЗАДАЧА ИЗОБРЕТЕНИЯOBJECT OF THE INVENTION

Задача, на решение которой направлено предлагаемое изобретение, заключается в создании реконфигурируемой вычислительной системы с эффективной системой мониторинга и управления.The problem to which the invention is directed, is to create a reconfigurable computing system with an effective monitoring and control system.

Техническим результатом предлагаемого изобретения является повышение отказоустойчивости и снижение мощности потребления реконфигурируемой вычислительной системы.The technical result of the invention is to increase fault tolerance and reduce the power consumption of a reconfigurable computing system.

КРАТКОЕ ОПИСАНИЕ СУЩНОСТИ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION

Указанный технический результат при осуществлении изобретения достигается тем, что в реконфигурируемую вычислительную систему с многоуровневой подсистемой мониторинга и управления содержащую сетевой коммутатор Ethernet 1 управления, ведущий сервер 2, сетевой коммутатор Ethernet 24 мониторинга, группу из К вычислительных узлов 41, …, 4K, каждый из которых содержит вычислитель общего назначения 6, коммутатор PCI-Express 7 и группу из N вычислительных модулей 81, …, 8N, каждый из которых содержит коммутатор PCI-Express 10, группу из М вычислительных ПЛИС 131, …, 13M, системную ПЛИС 18, блок 15 управления режимом коммутатора PCI-Express 10 и память 17 стартовой конфигураций системной ПЛИС 18,The specified technical result in the implementation of the invention is achieved by the fact that in a reconfigurable computer system with a multi-level monitoring and control subsystem containing a network switch Ethernet 1 control, a lead server 2, a network switch Ethernet 24 monitoring, a group of K computing nodes 4 1 , ..., 4 K , each of which contains a general-purpose calculator 6, a PCI-Express switch 7 and a group of N computing modules 8 1 , ..., 8 N , each of which contains a PCI-Express 10 switch, a group of M computing FPGAs 13 1 , ..., 13 M , the system FPGA 18, the block 15 control mode switch PCI-Express 10 and the memory 17 of the starting configurations of the system FPGA 18,

причем ведущий сервер 2 соединен сетевым интерфейсом Ethernet 57 с сетевым коммутатором Ethernet 24 мониторинга и сетевым интерфейсом Ethernet 25 с сетевым коммутатором Ethernet 1 управления, который соединен по соответствующим сетевым интерфейсам Ethernet 261, …, 26K с вычислителями общего назначения 6 вычислительных узлов 41, …, 4K,moreover, the master server 2 is connected by an Ethernet 57 network interface with a monitoring Ethernet network switch 24 and an Ethernet 25 network interface with a control Ethernet network switch 1, which is connected via corresponding Ethernet 26 1 , ..., 26 K network interfaces with general purpose computers 6 computing nodes 4 1 , ..., 4 K ,

в которых коммутатор PCI-Express 7 соединен соответствующими высокоскоростными последовательными интерфейсами PCI-Express 31, …, 31N с коммутаторами PCI-Express 10 в соответствующих вычислительных модулях 81, …, 8N,in which the PCI-Express 7 switch is connected by the corresponding high-speed serial PCI-Express 31, ..., 31 N interfaces to the PCI-Express 10 switches in the corresponding computing modules 8 1 , ..., 8 N ,

в которых системная ПЛИС 18 соединена с памятью 17 стартовой конфигурации системной ПЛИС 18 шиной 45 конфигурирования системной ПЛИС 18, а коммутатор PCI-Express 10 соединен с блоком 15 управления режимом коммутатора PCI-Express 10 по шине 36 режима коммутатора PCI-Express 10, с системной ПЛИС 18 по высокоскоростному последовательному интерфейсу PCI-Express 48 и с вычислительными ПЛИС 131, …, 13 м по соответствующим высокоскоростным последовательным интерфейсам PCI-Express 331, …, 33M,in which the system FPGA 18 is connected to the memory 17 of the starting configuration of the system FPGA 18 with the bus 45 for configuring the system FPGA 18, and the PCI-Express 10 switch is connected to the PCI-Express 10 switch mode control unit 15 via the PCI-Express 10 switch bus 36 FPGA 18 for high-speed serial interface PCI-Express 48 and with computing FPGAs 13 1 , ..., 13 m for the corresponding high-speed serial interfaces PCI-Express 33 1 , ..., 33 M ,

дополнительно введены коммутатор PCI-Express 3 и блок 23 контроля и управления питанием вычислительных узлов 41, …, 4K,additionally introduced a PCI-Express 3 switch and a unit 23 for monitoring and power management of computing nodes 4 1 , ..., 4 K ,

в каждый из которых дополнительно введены коммутатор PCI-Express 9 вычислительных модулей, блок 21 мониторинга и управления, блок 22 контроля и управления вентиляторами охлаждения, блок 20 контроля и управления питанием вычислительных модулей и группа из N памятей 51, …, 5N состояния вычислительных модулей 81, …, 8N,each of which additionally includes a PCI-Express switch 9 computing modules, a monitoring and control unit 21, a cooling fan monitoring and control unit 22, a computing module power monitoring and control unit 20 and a group of N memories 5 1 , ..., 5 N computing states modules 8 1 , ..., 8 N ,

в каждый из которых дополнительно введены группа из М памятей 111, …, 11M стартовых конфигураций вычислительных ПЛИС 131, …, 13M, группа из М совычислителей 141, …, 14M с индивидуальным питанием, группа из М блоков 121, …, 12M управления режимом совычислителей 141, …, 14M, блок 16 мониторинга и управления и блок 19 конфигурирования вычислительных ПЛИС 131, …, 13M и их памятей 111, …, 11M стартовых конфигураций,each of which additionally contains a group of M memories 11 1 , ..., 11 M starting configurations of computing FPGAs 13 1 , ..., 13 M , a group of M calculators 14 1 , ..., 14 M with individual power supply, a group of M blocks 12 1 , ..., 12 M control mode co-calculators 14 1 , ..., 14 M , block 16 monitoring and control and block 19 configuration of computing FPGAs 13 1 , ..., 13 M and their memories 11 1 , ..., 11 M start configurations,

причем ведущий сервер 2 также соединен высокоскоростным последовательным интерфейсом PCI-Express 27 с коммутатором PCI-Express 3 вычислительных узлов, который соединен с коммутаторами PCI-Express 9 вычислительных модулей вычислительных узлов 41, …, 4K, по соответствующим высокоскоростным последовательным интерфейсам PCI-Express 281, …, 28K, а сетевой коммутатор Ethernet 24 мониторинга соединен сетевым интерфейсом 56 управления питанием вычислительных узлов с блоком 23 контроля и управления питанием и соответствующими сетевыми интерфейсами Ethernet 551, …, 55K мониторинга с блоками 21 мониторинга и управления вычислительных узлов 41, …, 4K,moreover, the master server 2 is also connected by a high-speed serial interface PCI-Express 27 with a switch PCI-Express 3 computing nodes, which is connected with the switches PCI-Express 9 computing modules of computing nodes 4 1 , ..., 4 K , through the corresponding high-speed serial interfaces PCI-Express 28 1 , ..., 28 K , and the monitoring Ethernet network switch 24 is connected to the power nodes of the computing nodes by the network interface 56 with the power monitoring and control unit 23 and the corresponding Ethernet interfaces 55 1 , ..., 55 K monitoring hectares with blocks 21 for monitoring and control of computing nodes 4 1 , ..., 4 K ,

в каждом из которых памяти 51, …, 5N состояния вычислительных модулей 81, …, 8N соединены с вычислителем общего назначения 6 по общей шине взаимодействия 29, который соединен высокоскоростным последовательным интерфейсом PCI-Express 30 с коммутатором PCI-Express 7, коммутатор PCI-Express 9 вычислительных модулей также соединен с коммутаторами PCI-Express 10 в соответствующих вычислительных модулях 81, …, 8N по соответствующим высокоскоростным последовательным интерфейсам PCI-Express 321, …, 32N, а блок 21 мониторинга и управления соединен с блоком 22 контроля и управления вентиляторами охлаждения шиной 54 контроля и управления вентиляторами охлаждения, с блоком 20 контроля и управления питанием шиной 53 контроля и управления питанием и соответствующими шинами 521, …, 52N мониторинга и управления состоянием с блоками 16 мониторинга и управления в соответствующих вычислительных модулях 81, …, 8N,in each of which the memory 5 1 , ..., 5 N states of the computing modules 8 1 , ..., 8 N are connected to a general-purpose calculator 6 via a common interaction bus 29, which is connected by a high-speed serial PCI-Express 30 interface to the PCI-Express 7 switch, the PCI-Express switch 9 of the computing modules is also connected to the PCI-Express 10 switches in the corresponding computing modules 8 1 , ..., 8 N via the corresponding high-speed serial PCI-Express 32 1 , ..., 32 N interfaces , and the monitoring and control unit 21 is connected to block 22 control and management cooling fans with a bus 54 for monitoring and controlling cooling fans, with a power monitoring and control unit 20 with a power monitoring and control bus 53 and corresponding monitoring and control buses 52 1 , ..., 52 N with state monitoring and control units with monitoring and control units 16 in the corresponding computing modules 8 1 , ..., 8 N ,

в каждом из которых системная ПЛИС 18 также соединена с блоком 19 конфигурирования вычислительных ПЛИС 131, …, 13M и их памятей 111, …, 11M стартовых конфигураций шиной 49 управления записью, с блоком 16 мониторинга и управления шиной 47 локального мониторинга и управления состоянием и с памятью 17 стартовой конфигурации шиной 46 оперативной записи,in each of which the system FPGA 18 is also connected to the block 19 for configuring computing FPGAs 13 1 , ..., 13 M and their memories 11 1 , ..., 11 M of the starting configurations by the write control bus 49, with the monitoring and control unit 16 of the local monitoring bus 47 and state management and with the memory 17 of the starting configuration bus 46 online recording,

кроме того вычислительные ПЛИС 131, …, 13M также соединены шинами 381, …, 38M управления режимом с соответствующими блоками 121, …, 12M управления режимом совычислителей 141, …, 14M, индивидуальными шинами 341, …, 34M записи и индивидуальными шинами 351, …, 35M оперативной реконфигурации с соответствующими памятями 111, …, 11M стартовых конфигураций, шинами 371, …, 37M локального управления индивидуальным питанием и шинами 391, …, 39M взаимодействия с соответствующими совычислителями 141, …, 14M in addition, the computing FPGAs 13 1 , ..., 13 M are also connected by the mode control buses 38 1 , ..., 38 M with the corresponding blocks 12 1 , ..., 12 M of the mode control of the calculators 14 1 , ..., 14 M , individual buses 34 1 , ... , 34 M records and individual buses 35 1 , ..., 35 M operational reconfiguration with corresponding memories 11 1 , ..., 11 M start configurations, tires 37 1 , ..., 37 M local control of individual power supply and tires 39 1 , ..., 39 M interactions with the corresponding calculators 14 1 , ..., 14 M

кроме того блок 16 мониторинга и управления в вычислительных модулях 81, …, 8N соединен шиной 42 управления режимом с блоком 15 управления режимом коммутатора PCI-Express 10, шинами 411, …, 41M локального управления индивидуальным питанием с соответствующими вычислительными ПЛИС 131, …, 13M, а также соединен шиной 43 первичной записи с памятью 17 стартовой конфигурации системной ПЛИС 18 и шиной 44 управления первичной записью с блоком 19 конфигурирования вычислительных ПЛИС 131, …, 13M и их памятей 111, …, 11M стартовых конфигураций,in addition, the monitoring and control unit 16 in the computing modules 8 1 , ..., 8 N is connected by the mode control bus 42 to the PCI-Express 10 switch mode control unit 15, the local individual power control buses 41 1 , ..., 41 M with the corresponding FPGA computing 13 1 , ..., 13 M , and is also connected by the primary recording bus 43 with the memory 17 of the starting configuration of the system FPGA 18 and the primary recording control bus 44 with the computing FPGA configuration block 19 1 , ..., 13 M and their memories 11 1 , ..., 11 M start configurations,

причем блок конфигурирования 19 в вычислительных модулях 81, …, 8N также соединен общей шиной конфигурирования 50 с вычислительными ПЛИС 131, …, 13M и общей шиной 51 записи с памятями 111, …, 11M стартовых конфигураций вычислительных ПЛИС 131, …, 13M, а блоки 121, …, 12M управления режимом совычислителей соединены шинами 401, …, 40M режима с соответствующими совычислителями 141, …, 14M.moreover, the configuration unit 19 in the computing modules 8 1 , ..., 8 N is also connected by a common configuration bus 50 with computing FPGAs 13 1 , ..., 13 M and a common recording bus 51 with memories 11 1 , ..., 11 M starting configurations of computing FPGAs 13 1 , ..., 13 M , and blocks 12 1 , ..., 12 M control mode co-calculators are connected by buses 40 1 , ..., 40 M mode with the corresponding co-calculators 14 1 , ..., 14 M.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS

На фиг. 1 приведена функциональная схема реконфигурируемой вычислительной системы с многоуровневой подсистемой мониторинга и управления.In FIG. 1 is a functional diagram of a reconfigurable computing system with a multi-level monitoring and control subsystem.

На фиг. 1 и в тексте приняты следующие сокращения и обозначения:In FIG. 1 and in the text the following abbreviations and designations are adopted:

РВС - реконфигурируемая вычислительная система;RVS - reconfigurable computing system;

ВУ - вычислительный узел;VU - computing node;

ВМ - вычислительный модуль;VM - computing module;

СВ - совычислитель;SV - co-calculator;

ОС - операционная система;OS - operating system;

K - количество вычислительных узлов в реконфигурируемой вычислительной системе;K is the number of computing nodes in a reconfigurable computing system;

N - количество вычислительных модулей в вычислительном узле;N is the number of computing modules in the computing node;

М - количество вычислительных ПЛИС и совычислителей в вычислительном модуле;M - the number of computing FPGAs and calculators in the computing module;

1 - сетевой коммутатор Ethernet управления реконфигурируемой вычислительной системы;1 - network switch Ethernet control reconfigurable computing system;

2 - ведущий сервер;2 - master server;

3 - коммутатор PCI-Express вычислительных узлов;3 - switch PCI-Express computing nodes;

41, …, 4K - группа из K вычислительных узлов;4 1 , ..., 4 K - a group of K computing nodes;

51, …, 5N - группа из N памятей состояния вычислительных модулей;5 1 , ..., 5 N - a group of N memories of the state of computing modules;

6 - вычислитель общего назначения вычислительного узла;6 - general-purpose calculator computing node;

7 - коммутатор PCI-Express вычислительного узла;7 - switch PCI-Express computing node;

81, …, 8N - группа из N вычислительных модулей;8 1 , ..., 8 N - a group of N computing modules;

9 - коммутатор PCI-Express вычислительных модулей вычислительного узла;9 - switch PCI-Express computing modules of the computing node;

10 - коммутатор PCI-Express вычислительного модуля;10 - switch PCI-Express computing module;

111, …, 11M - группа из М памятей стартовых конфигураций вычислительных ПЛИС 131, …, 13M вычислительного модуля;11 1 , ..., 11 M - a group of M memories of starting configurations of computing FPGAs 13 1 , ..., 13 M computing module;

121, …, 12M - группа из М блоков управления режимом совычислителей 141, …, 14M вычислительного модуля;12 1 , ..., 12 M - a group of M counting mode control units 14 1 , ..., 14 M computing module;

131, …, 13M - группа из М вычислительных ПЛИС вычислительного модуля с индивидуальным питанием;13 1 , ..., 13 M - a group of M computing FPGAs of a computing module with individual power supply;

141, …, 14M - группа из М совычислителей вычислительного модуля с индивидуальным питанием;14 1 , ..., 14 M - a group of M calculators of a computing module with individual power supply;

15 - блок управления режимом коммутатора PCI-Express 10 вычислительного модуля;15 - control unit mode switch PCI-Express 10 computing module;

16 - блок мониторинга и управления вычислительного модуля;16 - block monitoring and control of the computing module;

17 - память стартовой конфигурации системной ПЛИС 18 вычислительного модуля;17 - memory starting configuration of the system FPGA 18 computing module;

18 - системная ПЛИС вычислительного модуля;18 - system FPGA computing module;

19 - блок конфигурирования вычислительных ПЛИС 131, …, 13M и их памятей 111, …, 11M стартовых конфигураций вычислительного модуля;19 - configuration block computing FPGAs 13 1 , ..., 13 M and their memories 11 1 , ..., 11 M start configurations of the computing module;

20 - блок контроля и управления питанием вычислительных модулей;20 - block control and power management of computing modules;

21 - блок мониторинга и управления вычислительного узла;21 - block monitoring and control of the computing node;

22 - блок контроля и управления вентиляторами охлаждения вычислительного узла;22 is a control unit for controlling cooling fans of a computing unit;

23 - блок контроля и управления питанием вычислительных узлов;23 - control unit and power management of computing nodes;

24 - сетевой коммутатор Ethernet мониторинга реконфигурируемой вычислительной системы;24 - network switch Ethernet monitoring reconfigurable computing system;

25 - сетевой интерфейс Ethernet между коммутатором управления Ethernet 1 и ведущим сервером 2;25 is an Ethernet network interface between an Ethernet control switch 1 and a master server 2;

261, …, 26K - K сетевых интерфейсов между коммутатором управления Ethernet 1 и вычислительными узлами 41, …, 4K;26 1 , ..., 26 K - K network interfaces between the Ethernet control switch 1 and the computing nodes 4 1 , ..., 4 K ;

27 - высокоскоростной последовательный интерфейс PCI-Express между коммутатором PCI-Express 3 и ведущим сервером 2;27 is a high-speed serial PCI-Express interface between the PCI-Express 3 switch and the master server 2;

281, …, 28K - K высокоскоростных последовательных интерфейсов PCI-Express между коммутатором PCI-Express 3 и коммутаторами PCI-Express 9;28 1 , ..., 28 K - K high-speed serial PCI-Express interfaces between the PCI-Express 3 switch and the PCI-Express 9 switches;

29 - общая шина взаимодействия вычислителя общего назначения 6 и группой из N памятей состояния вычислительных модулей 81, …, 8N;29 - a common interaction bus of a general-purpose calculator 6 and a group of N state memories of computing modules 8 1 , ..., 8 N ;

30 - высокоскоростной последовательный интерфейс PCI-Express между коммутатором PCI-Express 7 и вычислителем общего назначения 6;30 — high-speed serial PCI-Express interface between a PCI-Express 7 switch and a general purpose computer 6;

311, …, 31N - N высокоскоростных последовательных интерфейсов PCI-Express между коммутатором PCI-Express 7 и коммутаторами PCI-Express 10 вычислительных модулей 81, …, 8N;31 1 , ..., 31 N - N high-speed serial PCI-Express interfaces between the PCI-Express 7 switch and the PCI-Express switches 10 computing modules 8 1 , ..., 8 N ;

321, …, 32N - N высокоскоростных последовательных интерфейсов PCI-Express между коммутатором PCI-Express 9 и коммутаторами PCI-Express 10 вычислительных модулей 81, … 8N;32 1 , ..., 32 N - N high-speed serial PCI-Express interfaces between the PCI-Express 9 switch and the PCI-Express switches 10 computing modules 8 1 , ... 8 N ;

331, …, 33M - М высокоскоростных последовательных интерфейсов PCI-Express вычислительных ПЛИС 131, …, 13M;33 1 , ..., 33 M - M high-speed serial interfaces PCI-Express computing FPGA 13 1 , ..., 13 M ;

341, …, 34M - М индивидуальных шин записи памятей 111, …, 11M стартовых конфигураций вычислительных ПЛИС 131, … 13M;34 1 , ..., 34 M - M individual memory recording buses 11 1 , ..., 11 M starting configurations of computing FPGAs 13 1 , ... 13 M ;

351, …, 35M - М индивидуальных шин оперативной реконфигурации вычислительных ПЛИС 131, …, 13M;35 1 , ..., 35 M - M individual buses for operational reconfiguration of computing FPGAs 13 1 , ..., 13 M ;

36 - шина режима коммутатора PCI-Express 10;36 - bus mode switch PCI-Express 10;

371, …, 37M - М шин локального управления индивидуальным питанием совычислителей 141, …, 14M;37 1 , ..., 37 M - M buses of local control for individual power supply of calculators 14 1 , ..., 14 M ;

381, …, 38M - М шин управления режимом совычислителей 141, …, 14M;38 1 , ..., 38 M - M bus control mode co-calculators 14 1 , ..., 14 M ;

391, …, 39M - М шин взаимодействия между вычислительными ПЛИС 131, …, 13M и соответствующими совычислителей 141, …, 14M;39 1 , ..., 39 M - M buses of interaction between computing FPGAs 13 1 , ..., 13 M and corresponding calculators 14 1 , ..., 14 M ;

401, …, 40M - М шин режима совычислителей 141, …, 14M;40 1 , ..., 40 M - M bus mode counters 14 1 , ..., 14 M ;

411, …, 41M - М шин локального управления индивидуальным питанием вычислительных ПЛИС 131, …, 13M;41 1 , ..., 41 M - M buses of local control of individual power supply of computing FPGAs 13 1 , ..., 13 M ;

42 - шина управления режимом коммутатора PCI-Express 10;42 - PCI-Express 10 switch mode control bus;

43 - шина первичной записи памяти 17 стартовой конфигурации системной ПЛИС 18 блоком 16 мониторинга и управления вычислительного модуля;43 - bus primary recording memory 17 of the starting configuration of the system FPGA 18 block 16 monitoring and control of the computing module;

44 - шина управления первичной записью памятей 111, …, 11M стартовых конфигураций вычислительных ПЛИС 131, …, 13M блоком 16 мониторинга и управления вычислительного модуля;44 - control bus for primary recording of memories 11 1 , ..., 11 M start configurations of computing FPGAs 13 1 , ..., 13 M by block 16 for monitoring and control of the computing module;

45 - шина конфигурирования системной ПЛИС 18 из памяти 17 стартовой конфигурации;45 - bus configuration system FPGA 18 from the memory 17 of the starting configuration;

46 - шина оперативной записи памяти 17 стартовой конфигурации системной ПЛИС 18;46 - bus write memory 17 starting configuration of the system FPGA 18;

47 - шина локального мониторинга и управления состоянием вычислительного модуля системной ПЛИС 18;47 - bus local monitoring and control of the state of the computing module of the system FPGA 18;

48 - высокоскоростной последовательный интерфейс PCI-Express системной ПЛИС 18;48 - high-speed serial interface PCI-Express system FPGA 18;

49 - шина управления записью памятей 111, …, 11M стартовых конфигураций и конфигурированием вычислительных 131, …, 13M системной ПЛИС 18;49 - a bus for managing the storage of memories 11 1 , ..., 11 M starting configurations and configuration of computing 13 1 , ..., 13 M system FPGAs 18;

50 - общая шина конфигурирования вычислительных ПЛИС 131, …, 13M;50 - a common bus for configuring computing FPGAs 13 1 , ..., 13 M ;

51 - общая шина записи памятей стартовых конфигураций 111, …, 11M вычислительных ПЛИС 131, …, 13M;51 - a common bus for recording memories of starting configurations 11 1 , ..., 11 M computing FPGAs 13 1 , ..., 13 M ;

521, …, 52N - N шин мониторинга и управления состоянием вычислительных модулей 81, …, 8N;52 1 , ..., 52 N - N buses for monitoring and controlling the state of computing modules 8 1 , ..., 8 N ;

53 - шина контроля и управления питанием вычислительных модулей 81, …, 8N;53 - bus control and power management of computing modules 8 1 , ..., 8 N ;

54 - шина контроля и управления вентиляторами охлаждения вычислительных узлов 41, …, 4K;54 - bus for monitoring and controlling cooling fans of computing nodes 4 1 , ..., 4 K ;

551, …, 55K - K сетевых интерфейсов мониторинга Ethernet вычислительных узлов 41, …, 4K;55 1 , ..., 55 K - K network interfaces for monitoring Ethernet computing nodes 4 1 , ..., 4 K ;

56 - сетевой интерфейс Ethernet управления питанием вычислительных узлов 41, …, 4K; 57 - сетевой интерфейс Ethernet между коммутатором мониторинга Ethernet 24 и ведущим сервером 2.56 - network interface Ethernet power management computing nodes 4 1 , ..., 4 K ; 57 is an Ethernet network interface between an Ethernet 24 monitoring switch and a master server 2.

ПОДРОБНОЕ ОПИСАНИЕ СУЩНОСТИ ИЗОБРЕТЕНИЯDETAILED DESCRIPTION OF THE INVENTION

Ведущий сервер 2 реконфигурируемой вычислительной системы предназначен для организации загрузки операционных систем в вычислители общего назначения 6 ВУ 41, …, 4K, организации управления потоками задач для ВУ 41, …, 4K через сетевой коммутатор Ethernet 1 управления РВС, организации мониторинга состояния компонент и управления режимами реконфигурируемой вычислительной системы через сетевой коммутатор Ethernet 24 мониторинга РВС, а также для организации взаимодействия вычислительных узлов 41. …, 4K между собой через коммутатор PCI-Express 3 по высокоскоростным последовательным интерфейсам PCI-Express 281, …, 28K и вычислительных модулей 81, …, 8N между собой через коммутатор PCI-Express 9 по высокоскоростным последовательным интерфейсам PCI-Express 321, …, 32N при построении различных вычислительных структур РВС. Кроме того ведущий сервер 2 с использованием ресурсов коммутаторов PCI-Express 3 и 9, а также коммутаторов PCI-Express 10 и 7 обеспечивает прямой доступ к памятям 51, …, 5N состояния вычислительных модулей. Также за счет взаимодействия с блоком 23 контроля и управления питанием ВУ через сетевой коммутатор Ethernet 24 мониторинга РВС ведущий сервер 2 осуществляет управление подачей первичного питания на соответствующие ВУ 41, …, 4K, и через сетевой коммутатор Ethernet 1 управления РВС осуществляет управление включением вычислителей общего назначения 6.The leading server 2 of the reconfigurable computing system is designed to organize the loading of operating systems in general-purpose computers 6 WU 4 1 , ..., 4 K , organization of task flow management for WU 4 1 , ..., 4 K through the network switch Ethernet 1 control RVS, organization monitoring status component and control modes of the reconfigurable computing system through the network switch Ethernet 24 monitoring PBC, as well as to organize the interaction of computing nodes 4 1 . ..., 4 K to each other through a PCI-Express 3 switch via high-speed serial PCI-Express 28 1 , ..., 28 K and computing modules 8 1 , ..., 8 N to each other through a PCI-Express 9 switch to high-speed serial PCI-interfaces Express 32 1 , ..., 32 N during the construction of various computing structures of the PBC. In addition, the leading server 2, using the resources of the PCI-Express 3 and 9 switches, as well as the PCI-Express 10 and 7 switches, provides direct access to the state memories 5 1 , ..., 5 N of the computing modules. Also, due to interaction with the control unit 23 for controlling and supplying power to the control unit via the Ethernet switch 24 for monitoring the PBC, the host server 2 controls the supply of primary power to the corresponding control units 4 1 , ..., 4 K , and through the network switch Ethernet 1 for controlling the PBC control the switching on of computers general purpose 6.

Вычислительные узлы 41, …, 4K предназначены для высокоскоростной обработки данных в процессе решения трудоемких вычислительных задач.Computing nodes 4 1 , ..., 4 K are designed for high-speed data processing in the process of solving labor-intensive computing problems.

Каждый вычислитель общего назначения 6 ВУ 41, …, 4K содержит процессор общего назначения, оперативную память, шину ввода-вывода PCI-Express, сетевые интерфейсы и предназначен для подготовки данных и обработки результатов вычислений от ВМ 81, …, 8N, а также для анализа и передачи на ведущий сервер 2 РВС данных о состоянии компонент из памятей 51, …, 5N состояния ВМ 81, …, 8N с использованием сетевого коммутатора Ethernet 1 по сетевым интерфейсам 261, …, 26K. Обмен данными между вычислителем общего назначения 6 и ВМ 81, …, 8N осуществляется при помощи коммутатора PCI-Express 7 по высокоскоростному последовательному интерфейсу PCI-Express 30.Each general-purpose calculator 6 VU 4 1 , ..., 4 K contains a general-purpose processor, RAM, PCI-Express I / O bus, network interfaces and is designed to prepare data and process the results of calculations from VM 8 1 , ..., 8 N , as well as for analysis and transmission of the state of the component from memories 5 1 , ..., 5 N of the state of the VM 8 1 , ..., 8 N using the Ethernet switch 1 via the network interfaces 26 1 , ..., 26 K to the master server 2 of the PBC. Data exchange between the general-purpose calculator 6 and VM 8 1 , ..., 8 N is carried out using the PCI-Express 7 switch via the high-speed serial PCI-Express 30 interface.

Вычислительные ПЛИС 131, …, 13M с индивидуальным питанием, взаимодействуют с вычислителем общего назначения 6 через коммутаторы PCI-Express 7 и 10, и по шинам 391, …, 39M с соответствующими СВ 141, …, 14M, предназначены для осуществления обмена данными и результатами и выполнения предварительной обработки данных с последующей дообработкой результатов, получаемых от СВ 141, …, 14M при решении вычислительно сложных задач различного типа. Вычислительные ПЛИС 131, …, 13M осуществляют запись соответствующих памятей 111, …, 11M стартовых конфигураций по индивидуальным шинам 341, …, 34M записи, и таким образом выполняют оперативное самореконфигурирование необходимыми рабочими конфигурациями по соответствующим индивидуальным шинам 351, …, 35M оперативной реконфигурации, используя только собственные ресурсы без использования ресурсов системной ПЛИС 18. Кроме того вычислительные ПЛИС 131, …, 13M управляют индивидуальным питанием и режимами работы соответствующих СВ 141, …, 14M при помощи соответствующих шин 371, …, 37M локального управления индивидуальным питанием СВ и шин 381, …, 38M управления режимом. Стартовые конфигурации вычислительных ПЛИС 131, …, 13M предназначены для обеспечения взаимодействия по высокоскоростному последовательному интерфейсу PCI-Express и осуществления перезаписи соответствующих памятей 111, …, 11M стартовых конфигураций требуемыми рабочими конфигурациями.Computing FPGAs 13 1 , ..., 13 M with individual power supply, interact with a general-purpose computer 6 through PCI-Express 7 and 10 switches, and on buses 39 1 , ..., 39 M with corresponding CB 14 1 , ..., 14 M , are designed for exchanging data and results and performing preliminary data processing with subsequent processing of the results obtained from CB 14 1 , ..., 14 M when solving computationally complex problems of various types. Computing FPGAs 13 1 , ..., 13 M record the corresponding memories 11 1 , ..., 11 M start configurations on individual buses 34 1 , ..., 34 M records, and thus perform real-time self-configuration with the necessary working configurations on the corresponding individual buses 35 1 , ..., 35 M RAM reconfiguration, using only its own resources without the use of FPGA resources system 18. In addition computational FPGA 13 1, ..., 13 M are individually controlled power and modes of operation corresponding to NE 14 1, ..., 14 M at on oschi respective tires 37 1, ..., 37 M individual local power management NE and tire 38 1, ..., mode control 38 M. The starting configurations of computing FPGAs 13 1 , ..., 13 M are designed to ensure interaction via the high-speed serial PCI-Express interface and to overwrite the corresponding memories 11 1 , ..., 11 M of the starting configurations with the required working configurations.

Совычислители 141, …, 14M с индивидуальным питанием предназначены для выполнения основного объема обработки данных в процессе решения вычислительно сложных задач. В качестве СВ 141, …, 14M могут использоваться ПЛИС с большим количеством конфигурируемых логических блоков, заказные СБИС с аппаратной или программной логикой, а также системы на кристалле, которые могут совмещать в своем составе универсальные программируемые вентильные матрицы и процессорные ядра. Совычислители 141, …, 14M, определяют производительность РВС, обладают наиболее высокой удельной вычислительной мощностью, работают на предельно высоких частотах и, как следствие, характеризуются высокими энергопотреблением и тепловыделением.Co-calculators 14 1 , ..., 14 M with individual power supply are designed to perform the bulk of data processing in the process of solving computationally complex problems. As SV 14 1 , ..., 14 M FPGAs with a large number of configurable logic blocks, custom VLSI with hardware or software logic, as well as systems on a chip that can combine universal programmable gate arrays and processor cores can be used. Co-calculators 14 1 , ..., 14 M , determine the performance of the RCS, have the highest specific computing power, operate at extremely high frequencies and, as a result, are characterized by high energy consumption and heat dissipation.

Блок 16 мониторинга и управления ВМ предназначен для сбора данных о состоянии вычислительных ПЛИС 131, …, 13M, совычислителей 141, …, 14M и системной ПЛИС 18, программирования порогов срабатывания температурной защиты, управления индивидуальными питаниями вычислительных ПЛИС 131, …, 13M по шинам 411, …, 41M локального управления индивидуальным питанием вычислительных ПЛИС 131, …, 13M ВМ, управления режимом работы коммутатора PCI-Express 10 путем взаимодействия с блоком 15 управления режимом коммутатора PCI-Express 10 по шине 42 управления режимом коммутатора PCI-Express 10. Также блок 16 мониторинга и управления ВМ осуществляет первичную запись памятей 111, …, 11M стартовых конфигураций вычислительных ПЛИС 131, …, 13M по шине 44 управления первичной записью через блок 19 и памяти 17 стартовой конфигурации системной ПЛИС 18 по шине 43 первичной записи памяти 17. Кроме того блок 16 мониторинга и управления ВМ по соответствующим шинам 521, …, 52N осуществляет взаимодействие с блоком 21 мониторинга и управления ВУ, что обеспечивает доступ к мониторингу и управлению вычислительными модулями 81, …, 8N от сервера управления 2. Первичная запись памятей 111, …, 11M стартовых конфигураций вычислительных ПЛИС 131, …, 13M и памяти 17 стартовой конфигурации системной ПЛИС 18 осуществляется на этапе изготовления и наладки вычислительных модулей.The VM monitoring and control unit 16 is designed to collect data on the state of computing FPGAs 13 1 , ..., 13 M , calculators 14 1 , ..., 14 M and system FPGAs 18, programming thresholds for temperature protection, controlling individual power supplies of computing FPGAs 13 1 , ... , 13 M via buses 41 1 , ..., 41 M of local management of individual power supply of computing FPGAs 13 1 , ..., 13 M VMs, controlling the operating mode of the PCI-Express 10 switch by interacting with the PCI-Express 10 switch mode control unit 15 via bus 42 PC switch mode control I-Express 10. Also, the VM monitoring and control unit 16 performs primary recording of the memories 11 1 , ..., 11 M of the starting configurations of computing FPGAs 13 1 , ..., 13 M via the primary recording control bus 44 through block 19 and the memory 17 of the starting configuration of the system FPGA 18 on the bus 43 of the primary memory record 17. In addition, the VM monitoring and control unit 16 on the corresponding buses 52 1 , ..., 52 N interacts with the VU monitoring and control unit 21, which provides access to the monitoring and control of computing modules 8 1 , ... , 8 N from the server is managed 2. Initial recording of memories 11 1 , ..., 11 M starting configurations of computing FPGAs 13 1 , ..., 13 M and memory 17 of the starting configuration of system FPGAs 18 is carried out at the stage of manufacturing and commissioning of computing modules.

Системная ПЛИС 18 вычислительных модулей предназначена для анализа информации о состоянии вычислительных ПЛИС 131, …, 13M и совычислителей 141, …, 14M, полученной от блока 16 мониторинга и управления ВМ по шине 47 локального мониторинга и управления состоянием ВМ, формирования текущих кадров состояния компонент ВМ и передачи этих кадров по высокоскоростному интерфейсу PCI-Express 48 через коммутаторы PCI-Express 10 и 7 в соответствующую память 51, …, 5N состояния ВМ 81, …, 8N. При помощи блока 19 конфигурирования вычислительных ПЛИС 131, …, 13M и их памятей 111, …, 11M стартовых конфигураций и шины 49 управления записью системная ПЛИС 18 осуществляет конфигурирование как вычислительных ПЛИС 131, …, 13M, так и запись памятей стартовых конфигураций 111, …, 11M. Кроме того системная ПЛИС 18 по шине 46 оперативной записи из памяти 17 стартовой конфигурации осуществляет запись системной ПЛИС 18, а за счет взаимодействия по шине 47 с блоком 16 мониторинга и управления ВМ осуществляет установку порогов срабатывания температурной защиты компонент ВМ. Стартовая конфигурация системной ПЛИС 18 предназначена для обеспечения всех вышеперечисленных функций, но может изменяться в процессе эксплуатации, что отражается в ее памяти 17 стартовой конфигурации путем перезаписи.System FPGA 18 computing modules designed to analyze information about the state of computing FPGA 13one, …, 13M and calculators 14one, …, fourteenMreceived from the VM monitoring and control unit 16 via the local monitoring and state management bus 47 of the VM, generating the current state frames of the VM components and transferring these frames via the high-speed PCI-Express 48 interface via PCI-Express 10 and 7 switches to the corresponding memory 5one, …, 5N VM state 8one, …, 8N. Using block 19 configuration computing FPGA 13one, …, 13M and their memories 11one, …, elevenM start configurations and bus 49 write control system FPGA 18 configures as computing FPGA 13one, …, 13M, and recording memory starting configurations 11one, …, elevenM. In addition, the system FPGA 18 via the online recording bus 46 from the memory 17 of the starting configuration records the system FPGA 18, and through interaction on the bus 47 with the VM monitoring and control unit 16, it sets the temperature protection thresholds for the VM components. The starting configuration of the system FPGA 18 is designed to provide all of the above functions, but can change during operation, which is reflected in its memory 17 of the starting configuration by overwriting.

Блок 21 мониторинга и управления ВУ предназначен для мониторинга и управления вычислительными модулями 81, …, 8N, питанием ВУ и вентиляторами охлаждения ВУ, за счет взаимодействия с блоками 16 мониторинга и управления ВМ, блоком 20 контроля и управления питанием ВУ и блоком 22 контроля и управления вентиляторами охлаждения ВУ по соответствующим шинам 521, …, 52N мониторинга и управления состояния ВМ 81, …, 8N, шине 53 контроля и управления питанием ВМ 81, …, 8N и шине 54 контроля и управления вентиляторами охлаждения ВУ41, …, 4к и передачи данных через сетевой коммутатор Ethernet 24 мониторинга РВС на ведущий сервер 2 РВС. При этом за счет взаимодействия с блоком 20 контроля и управления питанием ВУ и блоком 22 контроля и управления вентиляторами охлаждения ВУ блок 21 мониторинга и управления ВУ осуществляет управление подачей питания на ВМ 81, …, 8N и управление скоростью вращения вентиляторов охлаждения ВУ, а за счет взаимодействия с блоками 16 мониторинга и управления ВМ блок 21 мониторинга и управления ВУ осуществляет установку порогов срабатывания температурной защиты компонент ВМ 81, …, 8N, и, при необходимости, может осуществлять первичную запись памятей 111, …, 11M стартовых конфигураций вычислительных ПЛИС 131, …, 13M и памяти 17 стартовой конфигурации системной ПЛИС 18 ВМ 81, …, 8N.The WU monitoring and control unit 21 is designed to monitor and control computing units 8 1 , ..., 8 N , the WU power and the WU cooling fans, due to interaction with the VM monitoring and control units 16, the WU power control and management unit 20, and the control unit 22 and control VU cooling fans on the corresponding buses 52 1 , ..., 52 N for monitoring and controlling the state of VM 8 1 , ..., 8 N , bus 53 for monitoring and power management of VM 8 1 , ..., 8 N and bus 54 for controlling and controlling cooling fans VU4 1 , ..., 4k and data transmission cher Without a network switch Ethernet 24 monitoring PBC on the leading server 2 PBC. In this case, due to interaction with the control unit 20 for controlling and controlling the power supply of the VU and the unit 22 for monitoring and controlling cooling fans of the VU, the monitoring and control unit 21 of the VU controls the power supply to the VM 8 1 , ..., 8 N and controls the rotation speed of the cooling fans of the VU due to interaction with the monitoring and control units 16 of the VM, the monitoring and control unit of the control unit 21 sets the thresholds for the temperature protection of the component VM 8 1 , ..., 8 N , and, if necessary, can carry out the initial recording of memory 11 1 , ..., 11 M starting configurations of computing FPGAs 13 1 , ..., 13 M and memory 17 of the starting configuration of system FPGAs 18 VM 8 1 , ..., 8 N.

Предлагаемая реконфигурируемая вычислительная система работает следующим образом.The proposed reconfigurable computer system operates as follows.

При включении питания первыми включаются сетевой коммутатор Ethernet 1 управления РВС, сетевой коммутатор Ethernet 24 мониторинга РВС и ведущий сервер 2. После загрузки ведущего сервера 2 осуществляется включение питания на вычислительные узлы 41, …, 4K уже по программе от ведущего сервера 2 через блок 23 контроля и управления питанием ВУ. Далее ведущий сервер 2 РВС через блок 21 мониторинга и управления ВУ осуществляет поочередное включение питания вычислительных модулей 81, …, 8N.When the power is turned on, the PBC control Ethernet network switch 1, the PBC monitoring Ethernet switch 24 and the master server 2 are turned on first. After loading the master server 2, the power is switched on to the computing nodes 4 1 , ..., 4 K already according to the program from the master server 2 through the block 23 control and power management WU. Next, the leading server 2 of the PBC through the block 21 monitoring and control VU carries out alternate power-up of the computing modules 8 1 , ..., 8 N.

После загрузки системной ПЛИС 18 из памяти 17 стартовой конфигурации системной ПЛИС 18, осуществляется включение индивидуальных питаний вычислительных ПЛИС 131, …, 13M. Вычислительные ПЛИС 131, …, 13M конфигурируются стартовыми конфигурациями из соответствующих памятей 111, …, 11M стартовых конфигураций. Стартовые конфигурации вычислительных ПЛИС 131, …, 13M используются для загрузки рабочих конфигураций в памяти 111, …, 11M стартовых конфигураций вычислительных ПЛИС 131, …, 13M. Одновременно блок 21 через блок 16 мониторинга и управления ВУ выполняет настройку порогов срабатывания температурной защиты системной ПЛИС 18, вычислительных ПЛИС 131, …, 13M и СВ 141, …, 14M.After loading the system FPGA 18 from the memory 17 of the starting configuration of the system FPGA 18, the individual power supplies of the computing FPGA 13 1 , ..., 13 M are turned on. Computing FPGAs 13 1 , ..., 13 M are configured by start configurations from the corresponding memories 11 1 , ..., 11 M start configurations. Starting configurations of computing FPGAs 13 1 , ..., 13 M are used to load working configurations in the memory 11 1 , ..., 11 M starting configurations of computing FPGAs 13 1 , ..., 13 M. At the same time, block 21, through the VU monitoring and control block 16, sets the thresholds for the temperature protection of the system FPGA 18, computing FPGAs 13 1 , ..., 13 M and CB 14 1 , ..., 14 M.

Далее ведущий сервер 2 осуществляет включение питаний на вычислителях общего назначения 6 ВУ и загрузку операционных систем.Next, the lead server 2 enables power on general purpose computers 6 WU and loading operating systems.

После загрузки ОС в вычислители общего назначения 6 ВУ, которые могут выполняться по сети Ethernet или с автономных дисков, осуществляется распределение адресного пространства между вычислительными ПЛИС 131, …, 13M. Одновременно блок 21 мониторинга ВУ осуществляет проверку напряжений питания системной ПЛИС 18, вычислительных ПЛИС 131, …, 13M и СВ 141, …, 14M через блок 16 мониторинга и управления ВМ.After loading the OS in general-purpose computers 6 WUs, which can be performed via Ethernet or from autonomous disks, the address space is distributed between computing FPGAs 13 1 , ..., 13 M. At the same time, the VU monitoring unit 21 verifies the supply voltage of the system FPGA 18, computing FPGAs 13 1 , ..., 13 M and CB 14 1 , ..., 14 M through the VM monitoring and control unit 16.

Вычислители общего назначения 6 ВУ распределяют задачи пользователей между вычислительными ПЛИС 131, …, 13M и конфигурируют их рабочими программами с использованием ресурсов только самих вычислительных ПЛИС 131, …, 13M. После этого вычислительные ПЛИС 131, …, 13M подготовлены для решения задач пользователей. При этом вычислительные ПЛИС 131, …, 13M осуществляют управление индивидуальными питаниями соответствующих СВ 141, …, 14M и динамическое управление их рабочими режимами. В зависимости от используемых СВ 141, …, 14M и характера задач, обрабатываемых на них и вычислительных ПЛИС 131, …, 13M, управление рабочими режимами СВ 141, …, 14M включает конфигурирование СВ, управление их рабочими частотами и установку требуемых режимов работы. Вычислительные ПЛИС 131, …, 13M также осуществляют запись новых рабочих конфигураций в памяти 111, …, 11M стартовых конфигураций вычислительных ПЛИС 131, …, 13M, тем самым организуя оперативную самореконфигурацию с использованием только собственных ресурсов.General purpose computers 6 WUs distribute user tasks between computing FPGAs 13 1 , ..., 13 M and configure them with work programs using resources only of computing FPGAs 13 1 , ..., 13 M. After that, computing FPGAs 13 1 , ..., 13 M are prepared for solving user problems. In this case, computing FPGAs 13 1 , ..., 13 M control individual power supplies of the corresponding CB 14 1 , ..., 14 M and dynamically control their operating modes. Depending on the used CB 14 1 , ..., 14 M and the nature of the tasks processed on them and computing FPGAs 13 1 , ..., 13 M , the control of operating modes of the CB 14 1 , ..., 14 M includes the configuration of the CB, control of their operating frequencies and setting the required operating modes. Computing FPGAs 13 1 , ..., 13 M also record new working configurations in the memory 11 1 , ..., 11 M starting configurations of computing FPGAs 13 1 , ..., 13 M , thereby organizing operational self-configuration using only their own resources.

Наличие у вычислительных ПЛИС 131, …, 13M возможности оперативного самореконфигурирования с использованием собственных памятей 111, …, 11M стартовых конфигураций и индивидуальных шин их записи 341, …, 34M и оперативной реконфигурации 351, …, 35M, а также наличие у вычислительных ПЛИС 131, …, 13M и СВ 141, …, 14M индивидуального питания и возможности индивидуального управления питанием, позволяет проводить распределение вычислительных ресурсов для решения текущих задач пользователей с точностью до одного вычислительного ПЛИС 131, …, 13M с соответствующим СВ 141, …, 14M, что позволяет оптимизировать распределение задач по вычислительным модулям и узлам для повышения средней скорости обмена по каналам PCI Express и выравнивания энергопотребления и нагревания компонент ВМ. В связи с этим, если в потоке задач пользователей все задачи имеют одинаковый приоритет к исполнению, то в первую очередь из потока задач могут выбираться к исполнению те задачи, которые в комбинации приводят к уменьшению суммарного потребления и увеличению средней скорости обмена по каналам PCI Express, то есть наилучшим образом сочетающимися между собой при реализации.Computing FPGAs 13 1 , ..., 13 M have the possibility of operational self-configuration using their own memories 11 1 , ..., 11 M start configurations and individual write buses 34 1 , ..., 34 M and operational reconfiguration 35 1 , ..., 35 M , as well as the presence of computing FPGAs 13 1 , ..., 13 M and CB 14 1 , ..., 14 M individual power supply and the possibility of individual power management, allows the distribution of computing resources to solve current user problems with an accuracy of up to one computing FPGA 13 1 , ... 13 M with respectively Leica Geosystems CB 14 1, ..., 14 M, that allows to optimize the allocation of tasks to computing nodes and modules to improve the exchange of secondary PCI Express channels and equalizing power consumption and heat rate HMW component. In this regard, if in a user’s task stream all tasks have the same priority for execution, then, first of all, tasks that in combination lead to a decrease in total consumption and an increase in the average exchange rate via PCI Express channels can be selected for execution from the task stream, that is, the best combined with each other during implementation.

В предлагаемой РВС организована многоуровневая подсистема мониторинга и управления РВС, которая осуществляет мониторинг и управление по четырем параллельно работающими уровнями.In the proposed RVS, a multilevel subsystem of monitoring and control of the RVS is organized, which monitors and controls four parallel operating levels.

Первый уровень подсистемы мониторинга и управления РВС отвечает за локальное управление индивидуальными питаниями СВ 141, …, 14M вычислительными ПЛИС 131, …, 13M, которое предполагает отключение вычислительными ПЛИС 131, …, 13M индивидуальных питаний от соответствующих СВ 141, …, 14M в периоды их простоя, то есть когда ресурсы СВ 141, …, 14M оказываются временно невостребованными. Такие ситуации могут возникать в случаях, когда ресурсы СВ 141, …, 14M не задействуются при обработке вычислительных алгоритмов. Результатом данного управления индивидуальными питаниями СВ 141, …, 14M является сокращение их потребляемой мощности при решении вычислительно сложных задач.The first level of the subsystem of monitoring and control of the RVS is responsible for the local management of individual power supplies of CB 14 1 , ..., 14 M computing FPGAs 13 1 , ..., 13 M , which involves disconnecting computing FPGAs 13 1 , ..., 13 M of individual power supplies from the corresponding CB 14 1 , ..., 14 M during periods of inactivity, that is, when the resources of CB 14 1 , ..., 14 M are temporarily unclaimed. Such situations can arise in cases where the resources of CB 14 1 , ..., 14 M are not involved in the processing of computational algorithms. The result of this control of individual power supplies CB 14 1 , ..., 14 M is the reduction of their power consumption when solving computationally complex problems.

Второй уровень подсистемы мониторинга и управления РВС отвечает за локальный мониторинг и управление состоянием отдельных ВМ 81, …, 8N. На данном уровне системная ПЛИС 18 осуществляет сбор данных о текущем состоянии компонент ВМ задействованных в процессе выполнения вычислений, а именно вычислительных ПЛИС 131, …, 13M и соответствующих СВ 141, …, 14M. По полученным данным системная ПЛИС 18 осуществляет управление индивидуальными питаниями вычислительных ПЛИС 131, …, 13M , а также путем взаимодействия с вычислительными ПЛИС 131, …, 13M через блок 16 мониторинга и управления ВМ управление индивидуальными питаниями и динамическую настройку рабочих режимов СВ 141, …, 14M, к которым в первую очередь относится управление рабочей частотой в зависимости от их текущей температуры. Для управления индивидуальными питаниями СВ 141, …, 14M и динамической настройки их рабочих режимов в зависимости от их текущих температурных режимов и режимов питания в основном используются ресурсы системной ПЛИС 18, а вычислительные ПЛИС 131, …, 13M используются для ретрансляции управляющих сигналов, формируемых системной ПЛИС 18. За счет этого обеспечивается высокая оперативность управления состоянием компонент ВМ на этапе решения задач.The second level of the subsystem of monitoring and control of the RVS is responsible for local monitoring and state management of individual VMs 8 1 , ..., 8 N. At this level, system FPGA 18 collects data on the current state of VM components involved in the process of performing calculations, namely, computing FPGAs 13 1 , ..., 13 M and the corresponding CB 14 1 , ..., 14 M. According to the data obtained, the system FPGA 18 manages the individual power supplies of the computing FPGAs 13 1 , ..., 13 M , as well as by interacting with the computing FPGAs 13 1 , ..., 13 M through the VM monitoring and control unit 16, controls individual power supplies and dynamically sets the operating modes of the CB 14 1 , ..., 14 M , which primarily refers to the control of the operating frequency depending on their current temperature. To control individual power supplies CB 14 1 , ..., 14 M and dynamically configure their operating modes depending on their current temperature and power modes, the resources of the system FPGA 18 are mainly used, and the computing FPGA 13 1 , ..., 13 M are used for relay control signals generated by the system FPGA 18. Due to this, high efficiency of state management of VM components at the stage of solving problems is ensured.

Из собранных данных мониторинга системная ПЛИС 18 формирует кадры состояния вычислительных модулей 81, …, 8M. Кадры состояния ВМ представляют собой пакеты данных небольшого объема, содержащие лишь минимальные сведения о состоянии компонент реконфигурируемой вычислительной системы, на основании которых проводится оценка вероятности отказов в работе компонент ВМ 81, …, 8N. При помощи коммутаторов PCI-Express 7 и 10 кадры состояния ВМ транслируются в соответствующую память 5 состояния ВМ 81, …, 8N, из которой посредством вычислителя общего назначения 6 ВУ и сетевого коммутатора Ethernet 1 управления РВС поступают на ведущий сервер 2 РВС. Так как оперативные данные мониторинга являются достаточно малообъемными, то их поток практически не нагружает коммуникационную среду, используемую для нужд обработки вычислительных задач. В случае, когда вычислители общего назначения 6, заняты интенсивной передачей данных и результатов задач пользователей, для передачи кадров состояния из памятей 51, …, 5N могут использоваться ресурсы ведущего сервера 2 и коммутаторы PCI-Express 7, 10, 9 и 3.From the collected monitoring data, the system FPGA 18 forms the state frames of the computing modules 8 1 , ..., 8 M. VM status frames are small data packets containing only minimal information about the state of components of a reconfigurable computing system, based on which the probability of failures in the operation of VM components 8 1 , ..., 8 N is estimated. Using the PCI-Express 7 and 10 switches, VM status frames are translated into the corresponding VM status memory 5 1 , ..., 8 N , from which, through a general purpose calculator, 6 VUs and Ethernet network switch 1, the PBC control is sent to the PBC master server 2. Since the on-line monitoring data is quite small, their flow practically does not burden the communication medium used for the processing of computing tasks. In the case when general-purpose computers 6 are busy with intensive transfer of data and results of user tasks, resources of the master server 2 and PCI-Express switches 7, 10, 9 and 3 can be used to transfer status frames from memories 5 1 , ..., 5 N.

Третий уровень подсистемы мониторинга и управления состоянием РВС отвечает за мониторинг и управление состоянием ВУ 41, …, 4K. На этом уровне основные функции мониторинга и управления возлагаются на блоки 21 мониторинга компонент ВУ. Данные блоки осуществляют сбор и обработку расширенных данных о состоянии ВУ 41, …, 4K, а именно вычислительных ПЛИС 131, …, 13M, СВ 141, …, 14M, системных ПЛИС 18, коммутаторов PCI-Express 9, систем питания и охлаждения ВУ 41, …, 4K. Расширенные данные мониторинга представляют детальную информацию о состоянии компонент ВМ 81, …, 8N. По полученным данным о состоянии компонент ВМ 81, …, 8N, блок 21 мониторинга ВУ осуществляет регулирование скорости вращения вентиляторов охлаждения ВУ 41, …, 4K с помощью блока 22 контроля, что приводит к сокращению потребляемой мощности ВУ 41, …, 4K, а также управление питанием ВУ 41, …, 4K с помощью блока 23 контроля и управления питанием ВУ. Подача питания на соответствующие ВМ 81, …, 8N осуществляется поочередно, за счет чего уменьшаются выбросы в цепях питания ВМ 81, …, 8N в момент их включения. Таким образом, за счет эффективной работы системы охлаждения, снижается ее энергопотребление, и, за счет наличия возможности поочередного включения и экстренного отключения питаний ВМ 81, …, 8N, уменьшается вероятность выхода из строя их компонент. Обработанная информация о состоянии ВУ 41, …, 4K с блоков 21 мониторинга ВУ через сетевой коммутатор Ethernet 26 мониторинга состояния РВС передается на ведущий сервер 2 РВС.The third level of the subsystem of monitoring and state control of the RVS is responsible for monitoring and state management of the VU 4 1 , ..., 4 K. At this level, the main monitoring and control functions are assigned to the monitoring units 21 of the WU component. These blocks collect and process extended data about the status of VU 4 1 , ..., 4 K , namely computing FPGAs 13 1 , ..., 13 M , CB 14 1 , ..., 14 M , system FPGAs 18, PCI-Express 9 switches, power and cooling systems VU 4 1 , ..., 4 K. Extended monitoring data provides detailed information about the state of the components of the VM 8 1 , ..., 8 N. According to the status data of the VM 8 1 , ..., 8 N component, the VU monitoring unit 21 controls the rotation speed of the VU 4 1 , ..., 4 K cooling fans using the control unit 22, which reduces the power consumption of the VU 4 1 , ... , 4 K , as well as power management of the VU 4 1 , ..., 4 K using the unit 23 of the control and power supply of the VU. The power supply to the corresponding VM 8 1 , ..., 8 N is carried out alternately, due to which emissions in the power circuits of the VM 8 1 , ..., 8 N are reduced at the time of their inclusion. Thus, due to the effective operation of the cooling system, its energy consumption is reduced, and due to the possibility of alternating switching on and emergency shutdown of the VM 8 1 , ..., 8 N power supplies, the probability of failure of their components is reduced. The processed information about the status of the VU 4 1 , ..., 4 K from the VU monitoring units 21 through the Ethernet network switch 26 for monitoring the status of the PBC is transmitted to the main server 2 of the PBC.

Четвертый уровень подсистемы мониторинга и управления состоянием РВС отвечает за мониторинг и управление состоянием всей РВС. На данном уровне ведущий сервер 2 осуществляет централизованный сбор информации о состоянии всех компонент РВС и по этим данным осуществляется оптимальное перераспределение задач между ВУ, в зависимости от их текущего энергопотребления и температурного режима. Анализируя информацию мониторинга, полученную с помощью средств мониторинга второго уровня, ведущий сервер 2 РВС может регулировать период запросов расширенных данных мониторинга с блоков 21 мониторинга ВУ для оперативного отслеживания текущего состояния ВУ, имеющих наиболее высокие показатели энергопотребления и температуры их компонент. Таким образом, обеспечивается высокая оперативность работы подсистемы мониторинга и управления состоянием РВС, что приводит к уменьшению вероятности перегрева компонент ВУ 41, …, 4K и их аварийного отключения их питания, а также увеличивает отказоустойчивость РВС в целом. Кроме того, ведущий сервер 2 осуществляет поочередное включение питаний ВУ 41, …, 4K путем взаимодействия с блоком 23 контроля и управления питанием, за счет чего уменьшаются выбросы в цепях питания ВУ 41, …, 4K в момент их включения.The fourth level of the subsystem for monitoring and managing the status of the RVS is responsible for monitoring and managing the state of the entire RVS. At this level, the leading server 2 carries out a centralized collection of information on the status of all components of the RCS and, based on these data, the tasks are optimally redistributed between the control units, depending on their current power consumption and temperature conditions. By analyzing the monitoring information obtained using monitoring tools of the second level, the PBC master server 2 can adjust the request period for extended monitoring data from the monitoring units 21 of the control unit to quickly monitor the current state of the control unit having the highest energy consumption and temperature of their components. Thus, high operational efficiency of the monitoring and control subsystem of the DCS is ensured, which reduces the likelihood of overheating of the VU 4 1 , ..., 4 K components and their emergency power off, and also increases the fault tolerance of the RCS as a whole. In addition, the master server 2 alternately turns on the power of the VU 4 1 , ..., 4 K by interacting with the power monitoring and control unit 23, thereby reducing emissions in the power circuits of the VU 4 1 , ..., 4 K at the time of their switching on.

Подсистемы мониторинга и управления предлагаемой реконфигурируемой вычислительной системы предназначены для обслуживания только системных и вычислительных ПЛИС и СВ, так как остальные компоненты РВС имеют штатные средства мониторинга, обеспечивающие достаточный уровень отказоустойчивости.The monitoring and control subsystems of the proposed reconfigurable computing system are intended for servicing only system and computing FPGAs and CBs, since the other components of the RCS have regular monitoring tools that provide a sufficient level of fault tolerance.

ПРИМЕР ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯMODE FOR CARRYING OUT THE INVENTION

Предлагаемая реконфигурируемая вычислительная система может быть реализована на следующих элементах:The proposed reconfigurable computing system can be implemented on the following elements:

В качестве ведущего сервера 2 РВС может быть использован сервер фирмы Kraftway на базе платформы Kraftway Express 200: процессор Intel(R) Xeon(R) E2620V4 2.10 GHz 8 cores; оперативная память 64 Gb; жесткий диск 1 Tb.A Kraftway server based on the Kraftway Express 200 platform can be used as the main server 2 of PBC: Intel (R) Xeon (R) E2620V4 2.10 GHz 8 cores; RAM 64 Gb; hard drive 1 Tb.

Вычислители общего назначения 6 ВУ: процессор Intel(R) Xeon(R) E2620V4 2.10 GHz 8 cores; оперативная память 64 Gb; жесткий диск 1 Tb; восемь вычислительных модулей 8, содержащих по четыре вычислительных ПЛИС 131, …, 13M и четыре заказных СБИС в качестве СВ 141, …, 14M.General purpose computers 6 WUs: Intel (R) Xeon (R) processor E2620V4 2.10 GHz 8 cores; RAM 64 Gb; hard drive 1 Tb; eight computing modules 8, each containing four computing FPGAs 13 1 , ..., 13 M and four custom VLSIs as CB 14 1 , ..., 14 M.

Вычислительные модули 8: системная ПЛИС 18 и вычислительные ПЛИС 131, …, 13M - на микросхемах фирмы Xilinx типа XC7A100T-FGG484; коммутатор PCI-Express 9 - на микросхеме коммутатора РЕХ8732 фирмы PLX Technology; блок 16 контроля состояния компонент ВМ - на микросхемах МАХ6656 фирмы Maxim Integrated, TMP461AIRUNT фирмы Texas Instruments; блоки 12 управления режимом СВ 141, …, 14M - с использованием микросхем SI570; блок 21 конфигурирования вычислительных ПЛИС и их памятей стартовых конфигураций - на микросхеме CPLD ХС2С64А фирмы Xilinx; памяти стартовых конфигураций 11, 17 вычислительных и системной ПЛИС - на микросхемах SPI-памяти М25Р64 фирмы Micron Technology.Computing modules 8: system FPGA 18 and computing FPGA 13 1 , ..., 13 M - on Xilinx microcircuits of type XC7A100T-FGG484; PCI-Express 9 switch - on the chip of the PEX8732 switch from PLX Technology; unit 16 for monitoring the state of the VM components — on the Maxim Integrated, Maxim Integrated, TMP461AIRUNT chips of Texas Instruments; blocks 12 control mode CB 14 1 , ..., 14 M - using chips SI570; block 21 configuration of computing FPGAs and their memory starting configurations - on the chip CPLD XC2C64A company Xilinx; memory starting configurations 11, 17 computing and system FPGAs - on chips SPI-memory M25P64 from Micron Technology.

Блок 21 мониторинга и управления ВУ - на микросхеме фирмы Xilinx типа XC7Z007S-1CLG400C.Unit 21 monitoring and control WU - on a chip company Xilinx type XC7Z007S-1CLG400C.

В предлагаемой реконфигурируемой вычислительной системе, в сравнении с прототипом, применение многоуровневой подсистемы мониторинга и управления состоянием РВС значительно уменьшает время опроса состояния компонентов и передачи данных на ведущий сервер 2. В прототипе время опроса и передачи данных составляет Тпрототипа = M*N*T1O+M*N*T1D, где T1O и T1D - времена опроса состояния (например, температуры и напряжения) и передачи данных для одного вычислительного ПЛИС, М -количество вычислительных ПЛИС в модуле, N -количество вычислительных модулей в вычислительном узле, при условии, что компьютеры 8 параллельно и независимо доставляют свои данные на ведущий сервер 2. В предлагаемой реконфигурируемой вычислительной системе данное время составляет Т=2*М*T1O+2*N*M*T1D, где коэффициент "двойка" связан с введением в вычислительные модули 8 совычислителей 14. Данное время в предлагаемом изобретении значительно меньше, чем у прототипа, за счет независимого и параллельного формирования системными ПЛИС 18 кадров состояния вычислительных модулей 81, …, 8N в памятях 51, …, 5N состояния в вычислительных узлах 41, …, 4K через коммутаторы PCI-Express 7, 10, и независимой параллельной передачи данных кадров состояния вычислителями общего назначения 6 и формирования расширенных данных мониторинга блоками 21 мониторинга и управления ВУ соответственно через коммутаторы Ethernet 1 и 24 и соответствующие связи на ведущий сервер 2. В связи с этим также уменьшается и интервал обслуживания каждого конкретного компонента, что повышает отказоустойчивость реконфигурируемой вычислительной системы в целом.In the proposed reconfigurable computer system, in comparison with the prototype, the use of a multi-level subsystem for monitoring and controlling the state of the PBC significantly reduces the time of polling the state of the components and transmitting data to the leading server 2. In the prototype, the time of polling and data transfer is Tprototype = M * N * T 1O + M * N * T 1D , where T 1O and T 1D are the times of polling the state (for example, temperature and voltage) and data transfer for one computing FPGA, M is the number of computing FPGAs in the module, N is the number of computing modules in the computing node, provided that computers 8 simultaneously and independently deliver their data to the leading server 2. In the proposed reconfigurable computing system, this time is T = 2 * M * T 1O + 2 * N * M * T 1D , where the coefficient " deuce "is associated with the introduction of 8 calculators into computing modules 14. This time in the present invention is significantly less than that of the prototype, due to the independent and parallel formation by the system FPGA of 18 frames of the state of computing modules 8 1 , ..., 8 N in memories 5 1 , ... 5 N states in Computational x nodes 4 1, ..., 4 K via the switches PCI-Express 7, 10, and independent parallel transmit data framing state, general purpose computer 6 and the formation of advanced monitoring and control block monitoring data 21 TA, respectively via Ethernet switches 1 and 24 and respective connection to the leading server 2. In this regard, the service interval of each specific component is also reduced, which increases the fault tolerance of the reconfigurable computing system as a whole.

Кроме того, в сравнении с прототипом, предлагаемая реконфигурируемая вычислительная система с многоуровневой подсистемой мониторинга и управления обладает меньшим энергопотреблением за счет эффективного управления вращением вентиляторов охлаждения вычислительных узлов 41, …, 4K в зависимости от текущих температур компонент вычислительных модулей 81, …, 8N и оперативного отключения индивидуальных питаний от неиспользуемых вычислительных ПЛИС 131, …, 13M и совычислителей 141, …, 14M.In addition, in comparison with the prototype, the proposed reconfigurable computing system with a multi-level monitoring and control subsystem has lower power consumption due to the efficient control of the rotation of the cooling fans of the computing nodes 4 1 , ..., 4 K , depending on the current temperatures, the components of the computing modules 8 1 , ..., 8 N and operational disconnection of individual power from unused computing FPGAs 13 1 , ..., 13 M and calculators 14 1 , ..., 14 M.

Вышеизложенные сведения позволяют сделать вывод, что предлагаемая реконфигурируемая вычислительная система с многоуровневой подсистемой мониторинга и управления решает поставленную задачу и соответствует заявляемому техническому результату - повышение отказоустойчивости реконфигурируемой вычислительной системы и снижение мощности потребления.The above information allows us to conclude that the proposed reconfigurable computer system with a multi-level monitoring and control subsystem solves the problem and meets the claimed technical result - increasing the fault tolerance of the reconfigurable computer system and reducing the power consumption.

Claims (13)

Реконфигурируемая вычислительная система с многоуровневой подсистемой мониторинга и управления, содержащая сетевой коммутатор Ethernet 1 управления, ведущий сервер 2, сетевой коммутатор Ethernet 24 мониторинга, группу из K вычислительных узлов 41, 4K, каждый из которых содержит вычислитель общего назначения 6, коммутатор PCI-Express 7 и группу из N вычислительных модулей 81, …, 8N, каждый из которых содержит коммутатор PCI-Express 10, группу из М вычислительных ПЛИС 131, …, 13М, системную ПЛИС 18, блок 15 управления режимом коммутатора PCI-Express 10 и память 17 стартовой конфигураций системной ПЛИС 18,A reconfigurable computing system with a multi-level monitoring and control subsystem, containing a control Ethernet network switch 1, a host 2, a monitoring Ethernet network switch 24, a group of K computing nodes 4 1 , 4 K , each of which contains a general purpose computer 6, a PCI switch Express 7 and a group of N computing modules 8 1 , ..., 8 N , each of which contains a PCI-Express 10 switch, a group of M computing FPGAs 13 1, ..., 13 M , a system FPGA 18, a PCI switch mode control unit 15 Express 10 and memory 17 start to nfiguratsy system FPGA 18, причем ведущий сервер 2 соединен сетевым интерфейсом Ethernet 57 с сетевым коммутатором Ethernet 24 мониторинга и сетевым интерфейсом Ethernet 25 с сетевым коммутатором Ethernet 1 управления, который соединен по соответствующим сетевым интерфейсам Ethernet 261, …, 26K с вычислителями общего назначения 6 вычислительных узлов 41, …, 4K,moreover, the master server 2 is connected by an Ethernet 57 network interface with a monitoring Ethernet network switch 24 and an Ethernet 25 network interface with a control Ethernet network switch 1, which is connected via corresponding Ethernet 26 1 , ..., 26 K network interfaces with general purpose computers 6 computing nodes 4 1 , ..., 4 K , в которых коммутатор PCI-Express 7 соединен соответствующими высокоскоростными последовательными интерфейсами PCI-Express 31, …, 31N с коммутаторами PCI-Express 10 в соответствующих вычислительных модулях 81, …, 8N,in which the PCI-Express 7 switch is connected by the corresponding high-speed serial PCI-Express 31, ..., 31 N interfaces to the PCI-Express 10 switches in the corresponding computing modules 8 1 , ..., 8 N , в которых системная ПЛИС 18 соединена с памятью 17 стартовой конфигурации системной ПЛИС 18 шиной 45 конфигурирования системной ПЛИС 18, а коммутатор PCI-Express 10 соединен с блоком 15 управления режимом коммутатора PCI-Express 10 по шине 36 режима коммутатора PCI-Express 10, с системной ПЛИС 18 по высокоскоростному последовательному интерфейсу PCI-Express 48 и с вычислительными ПЛИС 131, …, 13М по соответствующим высокоскоростным последовательным интерфейсам PCI-Express 331, …, 33М,in which the system FPGA 18 is connected to the memory 17 of the starting configuration of the system FPGA 18 with the bus 45 for configuring the system FPGA 18, and the PCI-Express 10 switch is connected to the PCI-Express 10 switch mode control unit 15 via the PCI-Express 10 switch bus 36 FPGA 18 for high-speed serial interface PCI-Express 48 and with computing FPGAs 13 1 , ..., 13 M for the corresponding high-speed serial interfaces PCI-Express 33 1 , ..., 33 M , дополнительно введены коммутатор PCI-Express 3 и блок 23 контроля и управления питанием вычислительных узлов 41, …, 4K,additionally introduced a PCI-Express 3 switch and a unit 23 for monitoring and power management of computing nodes 4 1 , ..., 4 K , в каждый из которых дополнительно введены коммутатор PCI-Express 9 вычислительных модулей, блок 21 мониторинга и управления, блок 22 контроля и управления вентиляторами охлаждения, блок 20 контроля и управления питанием вычислительных модулей и группа из N памятей 51, …, 5N состояния вычислительных модулей 81, …, 8N,each of which additionally includes a PCI-Express switch 9 computing modules, a monitoring and control unit 21, a cooling fan monitoring and control unit 22, a computing module power monitoring and control unit 20 and a group of N memories 5 1 , ..., 5 N computing states modules 8 1 , ..., 8 N , в каждый из которых дополнительно введены группа из М памятей 111, …, 11М стартовых конфигураций вычислительных ПЛИС 131, …, 13М, группа из М совычислителей 141, …, 14М с индивидуальным питанием, группа из М блоков 121, …, 12М управления режимом совычислителей 141, …, 14М, блок 16 мониторинга и управления и блок 19 конфигурирования вычислительных ПЛИС 131, …, 13М и их памятей 111, …, 11М стартовых конфигураций,each of which additionally includes a group of M memories 11 1 , ..., 11 M starting configurations of computing FPGAs 13 1 , ..., 13 M , a group of M calculators 14 1 , ..., 14 M with individual power supply, a group of M blocks 12 1 , ..., 12 M control mode co-calculators 14 1 , ..., 14 M , block 16 monitoring and control and block 19 configuration of computing FPGAs 13 1 , ..., 13 M and their memories 11 1 , ..., 11 M start configurations, причем ведущий сервер 2 также соединен высокоскоростным последовательным интерфейсом PCI-Express 27 с коммутатором PCI-Express 3 вычислительных узлов, который соединен с коммутаторами PCI-Express 9 вычислительных модулей вычислительных узлов 41, …, 4K по соответствующим высокоскоростным последовательным интерфейсам PCI-Express 281, …, 28K, а сетевой коммутатор Ethernet 24 мониторинга соединен сетевым интерфейсом 56 управления питанием вычислительных узлов с блоком 23 контроля и управления питанием и соответствующими сетевыми интерфейсами Ethernet 551, …, 55K мониторинга с блоками 21 мониторинга и управления вычислительных узлов 41, …, 4K,moreover, the master server 2 is also connected by a high-speed serial interface PCI-Express 27 with a switch PCI-Express 3 computing nodes, which is connected with the switches PCI-Express 9 computing modules of computing nodes 4 1 , ..., 4 K through the corresponding high-speed serial interfaces PCI-Express 28 1 , ..., 28 K , and the monitoring Ethernet network switch 24 is connected by the network interface 56 of the power management of the computing nodes with the power monitoring and control unit 23 and the corresponding network interfaces Ethernet 55 1 , ..., 55 K monitoring and with blocks 21 monitoring and control of computing nodes 4 1 , ..., 4 K , в каждом из которых памяти 51, …, 5N состояния вычислительных модулей 81, …, 8N соединены с вычислителем общего назначения 6 по общей шине взаимодействия 29, который соединен высокоскоростным последовательным интерфейсом PCI-Express 30 с коммутатором PCI-Express 7, коммутатор PCI-Express 9 вычислительных модулей также соединен с коммутаторами PCI-Express 10 в соответствующих вычислительных модулях 81, …, 8N по соответствующим высокоскоростным последовательным интерфейсам PCI-Express 321, …, 32N, а блок 21 мониторинга и управления соединен с блоком 22 контроля и управления вентиляторами охлаждения шиной 54 контроля и управления вентиляторами охлаждения, с блоком 20 контроля и управления питанием - шиной 53 контроля и управления питанием и соответствующими шинами 521, …, 52N мониторинга и управления состоянием с блоками 16 мониторинга и управления в соответствующих вычислительных модулях 81, …, 8N,in each of which the memory 5 1 , ..., 5 N states of the computing modules 8 1 , ..., 8 N are connected to a general-purpose calculator 6 via a common interaction bus 29, which is connected by a high-speed serial PCI-Express 30 interface to the PCI-Express 7 switch, the PCI-Express switch 9 of the computing modules is also connected to the PCI-Express 10 switches in the corresponding computing modules 8 1 , ..., 8 N via the corresponding high-speed serial PCI-Express 32 1 , ..., 32 N interfaces, and the monitoring and control unit 21 is connected to control unit 22 cooling fans bus 54 for monitoring and control of cooling fans, to the block 20 control and power control - bus 53 control and power control and the respective buses 52 1, ..., 52 N monitor and control the status of a block 16 for monitoring and control in the respective computing modules August 1 , ..., 8 N , в каждом из которых системная ПЛИС 18 также соединена с блоком 19 конфигурирования вычислительных ПЛИС 131, …, 13М и их памятей 111, …, 11М стартовых конфигураций шиной 49 управления записью, с блоком 16 мониторинга и управления - шиной 47 локального мониторинга и управления состоянием и с памятью 17 стартовой конфигурации шиной 46 оперативной записи,in each of which the system FPGA 18 is also connected to the block 19 for configuring computing FPGAs 13 1 , ..., 13 M and their memory 11 1 , ..., 11 M start configurations with a write control bus 49, with a monitoring and control unit 16 - a local monitoring bus 47 and state management and with the memory 17 of the starting configuration bus 46 online recording, кроме того вычислительные ПЛИС 131, …, 13М также соединены шинами 381, …, 38М управления режимом с соответствующими блоками 121, …, 12М управления режимом совычислителей 141, …, 14М, индивидуальными шинами 341, …, 34М записи и индивидуальными шинами 351, …, 35М оперативной реконфигурации с соответствующими памятями 111, …, 11М стартовых конфигураций, шинами 371, …, 37М локального управления индивидуальным питанием и шинами 391, …, 39М взаимодействия с соответствующими совычислителями 141, …, 14М in addition, the computing FPGAs 131, ..., 13 M are also connected by buses 38 1 , ..., 38 M of the mode control with the corresponding blocks 12 1 , ..., 12 M of the mode control of the calculators 14 1 , ..., 14 M , individual buses 34 1 , ..., 34 M recordings and individual buses 35 1 , ..., 35 M operational reconfiguration with the corresponding memories 11 1 , ..., 11 M start configurations, tires 37 1 , ..., 37 M local control of individual power supply and tires 39 1 , ..., 39 M interaction with corresponding calculators 14 1 , ..., 14 M кроме того, блок 16 мониторинга и управления в вычислительных модулях 81, …, 8N соединен шиной 42 управления режимом с блоком 15 управления режимом коммутатора PCI-Express 10, шинами 411, …, 41М локального управления индивидуальным питанием с соответствующими вычислительными ПЛИС 131, …, 13М, а также соединен шиной 43 первичной записи с памятью 17 стартовой конфигурации системной ПЛИС 18 и шиной 44 управления первичной записью с блоком 19 конфигурирования вычислительных ПЛИС 131, …, 13М и их памятей 111, …, 11М стартовых конфигураций,in addition, the monitoring and control unit 16 in the computing modules 8 1 , ..., 8 N is connected by the mode control bus 42 to the PCI-Express 10 switch mode control unit 15, the local individual power control buses 41 1 , ..., 41 M with corresponding computing FPGAs 13 1 , ..., 13 M , and is also connected by the primary recording bus 43 with the memory 17 of the starting configuration of the system FPGA 18 and the primary recording control bus 44 with the computing FPGA configuration block 19 1 , ..., 13 M and their memories 11 1 , ..., 11 M starting configurations, причем блок конфигурирования 19 в вычислительных модулях 81, …, 8N также соединен общей шиной конфигурирования 50 с вычислительными ПЛИС 131, …, 13М и общей шиной 51 записи с памятями 111, …, 11М стартовых конфигураций вычислительных ПЛИС 131, …, 13М, а блоки 121, …, 12М управления режимом совычислителей соединены шинами 401, …, 40М режима с соответствующими совычислителями 141, …, 14М.moreover, the configuration unit 19 in the computing modules 8 1 , ..., 8 N is also connected by a common configuration bus 50 with computing FPGAs 13 1 , ..., 13 M and a common bus 51 recording with memories 11 1 , ..., 11 M start configurations of computing FPGAs 13 1 , ..., 13 M , and blocks 12 1 , ..., 12 M control mode co-calculators are connected by tires 40 1 , ..., 40 M mode with the corresponding co-calculators 14 1 , ..., 14 M
RU2018138289A 2018-10-30 2018-10-30 Reconfigurable computer system with a multilevel monitoring and control subsystem RU2699254C1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2018138289A RU2699254C1 (en) 2018-10-30 2018-10-30 Reconfigurable computer system with a multilevel monitoring and control subsystem

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2018138289A RU2699254C1 (en) 2018-10-30 2018-10-30 Reconfigurable computer system with a multilevel monitoring and control subsystem

Publications (1)

Publication Number Publication Date
RU2699254C1 true RU2699254C1 (en) 2019-09-04

Family

ID=67851507

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2018138289A RU2699254C1 (en) 2018-10-30 2018-10-30 Reconfigurable computer system with a multilevel monitoring and control subsystem

Country Status (1)

Country Link
RU (1) RU2699254C1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2748454C1 (en) * 2020-10-02 2021-05-25 Федеральное государственное унитарное предприятие "Научно-исследовательский институт "Квант" Reconfigurable computing system with multi-level monitoring subsystem and automatic control
RU2780169C1 (en) * 2021-11-29 2022-09-20 Федеральное государственное унитарное предприятие "Научно-исследовательский институт "Квант" Computing module for multitasking computing systems

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050044284A1 (en) * 2003-08-18 2005-02-24 Pescatore John C. Multi-host virtual bridge input-output switch
US20060195848A1 (en) * 2005-02-25 2006-08-31 International Business Machines Corporation System and method of virtual resource modification on a physical adapter that supports virtual resources
US20130103929A1 (en) * 2004-04-15 2013-04-25 Raytheon Company Coupling processors to each other for high performance computing (hpc)
RU156778U1 (en) * 2015-04-10 2015-11-20 Федеральное государственное унитарное предприятие "Научно-исследовательский институт "Квант" RECONFIGURABLE COMPUTER SYSTEM

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050044284A1 (en) * 2003-08-18 2005-02-24 Pescatore John C. Multi-host virtual bridge input-output switch
US20130103929A1 (en) * 2004-04-15 2013-04-25 Raytheon Company Coupling processors to each other for high performance computing (hpc)
US20060195848A1 (en) * 2005-02-25 2006-08-31 International Business Machines Corporation System and method of virtual resource modification on a physical adapter that supports virtual resources
RU156778U1 (en) * 2015-04-10 2015-11-20 Федеральное государственное унитарное предприятие "Научно-исследовательский институт "Квант" RECONFIGURABLE COMPUTER SYSTEM

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2748454C1 (en) * 2020-10-02 2021-05-25 Федеральное государственное унитарное предприятие "Научно-исследовательский институт "Квант" Reconfigurable computing system with multi-level monitoring subsystem and automatic control
RU2780169C1 (en) * 2021-11-29 2022-09-20 Федеральное государственное унитарное предприятие "Научно-исследовательский институт "Квант" Computing module for multitasking computing systems

Similar Documents

Publication Publication Date Title
US9606588B2 (en) Closed-loop cooling system for high-density clustered computer system
US10268262B2 (en) Dynamic peak power limiting to processing nodes in an information handling system
US7761622B2 (en) Centralized server rack management using USB
RU156778U1 (en) RECONFIGURABLE COMPUTER SYSTEM
RU168565U1 (en) RECONFIGURABLE COMPUTER MODULE
US10809779B2 (en) Managing power in a high performance computing system for resiliency and cooling
US20140282584A1 (en) Allocating Accelerators to Threads in a High Performance Computing System
CN104601684A (en) Cloud server system
JP2004078929A (en) System which optimizes performance in processor level, method, and apparatus
RU2699254C1 (en) Reconfigurable computer system with a multilevel monitoring and control subsystem
EP3295275B1 (en) Managing power in a high performance computing system for resiliency and cooling
RU2677363C1 (en) Reconfigurable computing system
US9250826B2 (en) Enhanced performance monitoring method and apparatus
CN117041184A (en) IO expansion architecture, IO switch and PCIe device
RU2686004C1 (en) Computing module
RU2713757C1 (en) Reconfigurable computing system
US11809893B2 (en) Systems and methods for collapsing resources used in cloud deployments
RU2748454C1 (en) Reconfigurable computing system with multi-level monitoring subsystem and automatic control
US11733762B2 (en) Method to allow for higher usable power capacity in a redundant power configuration
US20190171276A1 (en) Efficient utilization of spare datacenter capacity
RU2798443C1 (en) Reconfigurable computing system
Andres et al. IBM zEnterprise energy management
US9933826B2 (en) Method and apparatus for managing nodal power in a high performance computer system
RU2748299C1 (en) Autonomous computing module with submodules
RU182316U1 (en) Problem-oriented computing device