RU2754605C1 - Computer network of a high-performance computer system - Google Patents

Computer network of a high-performance computer system Download PDF

Info

Publication number
RU2754605C1
RU2754605C1 RU2020143656A RU2020143656A RU2754605C1 RU 2754605 C1 RU2754605 C1 RU 2754605C1 RU 2020143656 A RU2020143656 A RU 2020143656A RU 2020143656 A RU2020143656 A RU 2020143656A RU 2754605 C1 RU2754605 C1 RU 2754605C1
Authority
RU
Russia
Prior art keywords
network
computing
dimension
computer network
topology
Prior art date
Application number
RU2020143656A
Other languages
Russian (ru)
Inventor
Владимир Геннадиевич Басалов
Original Assignee
Российская Федерация, от имени которой выступает Государственная корпорация по атомной энергии "Росатом" (Госкорпорация "Росатом")
Федеральное государственное унитарное предприятие "Российский Федеральный ядерный центр - Всероссийский научно-исследовательский институт экспериментальной физики" (ФГУП "РФЯЦ-ВНИИЭФ")
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Российская Федерация, от имени которой выступает Государственная корпорация по атомной энергии "Росатом" (Госкорпорация "Росатом"), Федеральное государственное унитарное предприятие "Российский Федеральный ядерный центр - Всероссийский научно-исследовательский институт экспериментальной физики" (ФГУП "РФЯЦ-ВНИИЭФ") filed Critical Российская Федерация, от имени которой выступает Государственная корпорация по атомной энергии "Росатом" (Госкорпорация "Росатом")
Priority to RU2020143656A priority Critical patent/RU2754605C1/en
Application granted granted Critical
Publication of RU2754605C1 publication Critical patent/RU2754605C1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication

Abstract

FIELD: computer technology; communication systems.SUBSTANCE: computer network is organized in such a way that computing nodes, including an adapter block and one or several computing modules with arithmetic processors, are arranged orthogonally from one to four dimensions. Communication between computing nodes located in the first dimension occurs using adapter blocks connected by bidirectional communication channels over a fully connected topology without the use of switch blocks. In other dimensions, computing nodes and their corresponding adapter blocks are combined using switch blocks or using switch assemblies, which are a set of switch blocks.EFFECT: technical result is an increase in the bandwidth of the computer network by reducing its diameter.1 cl, 5 dwg

Description

Изобретение относится к области вычислительной техники и коммуникационных систем и может быть использовано при создании высокопроизводительных вычислительных систем (ВВС).The invention relates to the field of computer technology and communication systems and can be used to create high-performance computing systems (VVS).

Вычислительные сети ВВС принято разделять на две группы: с прямой (direct) топологией и непрямой (indirect) топологией (Dally W., Towles В. Principles and Practices of Interconnection Networks. San Francisco. Morgan Kaufmann Publishers, 2004. Глава 3.1.2.).Air Force computing networks are usually divided into two groups: with direct topology and indirect topology (Dally W., Towles B. Principles and Practices of Interconnection Networks. San Francisco. Morgan Kaufmann Publishers, 2004. Chapter 3.1.2. ).

Вычислительные сети с непрямой топологией имеют небольшой диаметр, зависящий от количества уровней в графе топологии, и соответственно высокие коммуникационные характеристики. Однако дальнейшее уменьшение диаметра вычислительной сети обеспечивается только уменьшением количества уровней, которое достигается ростом количества сетевых портов в коммутаторах, а, следовательно, значительным увеличении их стоимости и использованием дорогостоящих технологий. К непрямым топологиям относится, например, часто используемая в существующих ВВС, как зарубежных, так и отечественных, топология утолщенное дерево (Fat Tree [ресурс интернет] 10.07.2020 https://sites.google.com/site/exemsenko/6-topologia-kommunikacionnyh-setej-multiprocessornyh-sistem-sovremennye-superkomputery-i-vs-primenenie-ih-v-socialno-sfere).Computing networks with an indirect topology have a small diameter, depending on the number of levels in the topology graph, and, accordingly, high communication characteristics. However, a further reduction in the diameter of a computer network is provided only by a decrease in the number of layers, which is achieved by an increase in the number of network ports in switches, and, consequently, a significant increase in their cost and the use of expensive technologies. Indirect topologies include, for example, the thickened tree topology, often used in existing air forces, both foreign and domestic (Fat Tree [Internet resource] 07/10/2020 https://sites.google.com/site/exemsenko/6-topologia -kommunikacionnyh-setej-multiprocessornyh-sistem-sovremennye-superkomputery-i-vs-primenenie-ih-v-socialno-sfere).

Вычислительные сети с прямой топологией, наоборот, отличаются дешевизной комплектующих (коммутаторы, как правило, имеют небольшое число сетевых портов) и простотой расширения, в основном не зависящей от количества портов. Но это обуславливает значительное увеличение диаметра вычислительной сети и средней длины пути сообщения, повышает вероятность конфликтов сообщений и соответственно снижает пропускную способность, т.е. ухудшает коммуникационные характеристики всей вычислительной сети в целом. К вычислительным сетям с прямой топологией, относятся широко известные топологии вычислительных сетей Mesh (Ячеистая, [ресурс интернет] 10.07.2020 https://ru.wikipedia.org/wiki/%D0%AF%Dl%87%D0%B5%D0%B8%Dl%810/oD1%82%D0%B0%D1%82%D1%82%D0%BF%D0%BF%D0%BE%D0%BB%D 0%BE%D0%B3%D0%B8%Dl%8F), Top (Torus), Гиперкуб (Hypercub) ([ресурс интернет] 10.07.2020 https://sites.google.com/site/exemsenko/6-topologia-kommunikacionnyh-setej-multiprocessornyh-sistem-sovremennye-superkomputery-i-vs-primenenie-ih-v-socialno-sfere) и ТОФУ (TOFU [ресурс интернет] 10.07.2020 https://www.osp.ru/os/2009/10/11180288/).Computing networks with a direct topology, on the other hand, are distinguished by the cheapness of components (switches, as a rule, have a small number of network ports) and ease of expansion, largely independent of the number of ports. But this causes a significant increase in the diameter of the computer network and the average length of the communication path, increases the probability of message conflicts and, accordingly, reduces the throughput, i.e. degrades the communication characteristics of the entire computer network as a whole. Computer networks with direct topology include the well-known topologies of computer networks Mesh (Mesh, [Internet resource] 07/10/2020 https://ru.wikipedia.org/wiki/%D0%AF%Dl%87%D0%B5%D0 % B8% Dl% 81 0 / oD1% 82% D0% B0% D1% 82% D1% 82% D0% BF% D0% BF% D0% BE% D0% BB% D 0% BE% D0% B3% D0 % B8% Dl% 8F) , Top (Torus), Hypercube (Hypercub) ([Internet resource] 07/10/2020 https://sites.google.com/site/exemsenko/6-topologia-kommunikacionnyh-setej-multiprocessornyh-sistem -sovremennye-superkomputery-i-vs-primenenie-ih-v-socialno-sfere) and TOFU (TOFU [Internet resource] 07/10/2020 https://www.osp.ru/os/2009/10/11180288/).

Известна вычислительная сеть ВВС (Roberto

Figure 00000001
Crispin
Figure 00000002
Maria E.
Figure 00000002
Pedro
Figure 00000003
& Jose Duato// The K-ary N-direct S-indirect family of topologies for large-scale interconnection network, опубликовано 05.02.2016, The Journal of Supercomputing volume 72, pages 1035-1062, [ресурс интернет] http://doi.org/10.1007/s11227-016-1640-z), образующая гибридное семейство топологий K-ary N-direct S-indirect.The Air Force computer network (Roberto
Figure 00000001
Crispin
Figure 00000002
Maria E.
Figure 00000002
Pedro
Figure 00000003
& Jose Duato // The K-ary N-direct S-indirect family of topologies for large-scale interconnection network, published 02/05/2016, The Journal of Supercomputing volume 72, pages 1035-1062, [Internet resource] http: // doi.org/10.1007/s11227-016-1640-z), forming a hybrid family of K-ary N-direct S-indirect topologies.

Семейство топологий K-ary N-direct S-indirect представляет собой попытку совместить в вычислительной сети лучшие черты прямых и непрямых топологий, т.е. добиться значительного улучшения коммуникационных характеристик вычислительных сетей, таких как диаметр, стоимость и энергозатратность при обеспечении высокой пропускной способности. В вычислительной сети с топологией K-ary N-direct S-indirect используется два типа коммуникационных устройств: роутер (адаптер) и коммутатор.The family of topologies K-ary N-direct S-indirect is an attempt to combine the best features of direct and indirect topologies in a computer network, i.e. to achieve significant improvement in the communication characteristics of computer networks, such as diameter, cost and power consumption, while ensuring high bandwidth. In a computer network with a K-ary N-direct S-indirect topology, two types of communication devices are used: a router (adapter) and a switch.

Известная вычислительная сеть ВВС содержит вычислительные узлы, каждый из которых содержит соответствующий роутер и один или несколько вычислительных модулей, включающих один или несколько арифметических процессоров. Вычислительные узлы располагаются (номеруются) ортогонально по измерениям (координатным направлениям), аналогично прямым топологиям Mesh или Torus. Связь между вычислительными узлами, находящимися в одном измерении происходит либо с помощью одиночных коммутаторов либо с помощью нескольких коммутаторов, объединенных по какой либо топологии, например, Fat Tree. Роутер обеспечивает связь вычислительных модулей с сетью и смену измерений при передаче транзитных сообщений. Свое название семейство топологий K-ary N-direct S-indirect получило от трех основных своих параметров: К - количество вычислительных узлов в одном измерении, N - количество измерений в прямой топологии и S - количество уровней коммутации в непрямом участке топологии. Данная вычислительная сеть ВВС выбрана в качестве наиболее близкого аналога.The known Air Force computer network contains computing nodes, each of which contains a corresponding router and one or more computing modules including one or more arithmetic processors. Compute nodes are positioned (numbered) orthogonally along dimensions (coordinate directions), similar to straight Mesh or Torus topologies. Communication between computing nodes located in the same dimension occurs either using single switches or using several switches combined according to some topology, for example, Fat Tree. The router provides communication of computing modules with the network and change of measurements when transmitting transit messages. The family of topologies K-ary N-direct S-indirect got its name from its three main parameters: K - the number of computing nodes in one dimension, N - the number of measurements in the direct topology and S - the number of switching levels in the indirect section of the topology. This Air Force computer network has been chosen as the closest analogue.

Главным недостатком наиболее близкого аналога является то, что вычислительная сеть ВВС, созданная по топологии K-ary N-direct S-indirect, имеет низкую связность равную количеству задействованных сетевых портов роутера, а, следовательно, и низкую надежность. Например, при организации вычислительной сети с двумерной топологией K-ary N-direct S-indirect у каждого роутера используется только два сетевых порта и, следовательно, значение связности равно двум. В случае отказа любого канала связи, в вычислительной сети возникает «висячая вершина». Хотя вычислительный узел и роутер исправны, роутер теряет способность передавать транзитные сообщения. В вычислительной сети ВВС с топологией K-ary N-direct S-indirect алгоритм обхода таких неисправностей довольно сложен и трудно реализуем на практике. Увеличение связности при фиксированном количестве вычислительных узлов достигается за счет увеличения числа измерений в вычислительной сети. Это ведет к увеличению диаметра вычислительной сети, поскольку с каждым новым измерением диаметр вычислительной сети увеличивается на два «транзитных участка» («транзитный участок» - это участок вычислительной сети расположенный между двумя коммуникационными устройствами), а, следовательно, это приводит к увеличению задержки при передаче сообщений и увеличению стоимости вычислительной сети.The main disadvantage of the closest analogue is that the Air Force computer network, created according to the K-ary N-direct S-indirect topology, has a low connectivity equal to the number of network ports of the router involved, and, consequently, low reliability. For example, when organizing a computer network with a two-dimensional topology K-ary N-direct S-indirect, each router uses only two network ports and, therefore, the connectivity value is two. In case of failure of any communication channel, a "hanging peak" appears in the computer network. Although the compute node and router are in good working order, the router loses the ability to transmit transit messages. In an Air Force computer network with a K-ary N-direct S-indirect topology, the algorithm for bypassing such faults is rather complicated and difficult to implement in practice. An increase in connectivity with a fixed number of computational nodes is achieved by increasing the number of measurements in the computational network. This leads to an increase in the diameter of the computer network, since with each new measurement, the diameter of the computer network increases by two "transit sections" ("transit section" is a section of the computer network located between two communication devices), and, consequently, this leads to an increase in the delay at transmission of messages and the increase in the cost of the computer network.

Еще одним недостатком известной вычислительной сети является то, что минимальная длина маршрута равна двум «транзитным участкам», а значит, сообщение проходит минимум три коммуникационных устройства, что увеличивает среднюю дистанцию проходимою сообщениями, что также приводит к увеличению задержки при передаче сообщений.Another disadvantage of the known computer network is that the minimum route length is equal to two "transit sections", which means that a message passes at least three communication devices, which increases the average distance traveled by messages, which also leads to an increase in the delay in message transmission.

Технической проблемой является создание вычислительной сети высокопроизводительной вычислительной системы с высокой пропускной способностью и надежностью, которая обеспечивает меньшие затраты на коммуникацию сообщений между вычислительными узлами.A technical problem is the creation of a computer network of a high-performance computing system with high bandwidth and reliability, which provides lower costs for communication of messages between computing nodes.

Техническими результатами, на достижение которых направлено изобретение, являются увеличение пропускной способности, повышение надежности и снижение стоимости вычислительной сети.The technical results to be achieved by the invention are an increase in throughput, an increase in reliability and a decrease in the cost of a computer network.

Технические результаты достигаются тем, что в вычислительной сети ВВС, содержащей вычислительные узлы, каждый из которых включает адаптерный блок и Μ вычислительных модулей, включающих арифметические процессоры, где Μ=1, 2, …, при этом вычислительные узлы расположены (пронумерованы) ортогонально по N измерениям, где N=1, 2, …, в каждом измерении расположены до К вычислительных узлов, где К=2, 3, …, вычислительные узлы, расположенные в одном измерении, кроме первого измерения, соединены между собой посредством соединения соответствующих им адаптерных блоков через соответствующий коммутаторный блок или соответствующую коммутаторную сборку, новым является то, что в первом измерении вычислительные узлы соединены между собой по полносвязной топологии посредством соединения двунаправленными каналами связи соответствующих сетевых портов соответствующих адаптерных блоков.Technical results are achieved by the fact that in the Air Force computer network containing computing nodes, each of which includes an adapter block and Μ computing modules including arithmetic processors, where Μ = 1, 2, ..., while the computing nodes are located (numbered) orthogonally in N measurements, where N = 1, 2, ..., in each dimension are located up to K computational nodes, where K = 2, 3, ..., computational nodes located in one dimension, except for the first dimension, are interconnected by connecting the corresponding adapter blocks through the corresponding switch unit or the corresponding switch assembly, what is new is that in the first dimension the computational nodes are interconnected in a fully connected topology by connecting the corresponding network ports of the corresponding adapter units with bidirectional communication channels.

В заявляемой вычислительной сети ВВС используется два типа коммуникационных устройств: адаптерный блок (АБ) и коммутаторный блок (КБ), имеющие по n сетевых портов, где n=1, 2…. Заявляемая вычислительная сеть образует топологию MKNS, что означает модернизированная KNS. Одновременно Μ в названии - определяет количество вычислительных модулей в вычислительном узле. К - определяет количество вычислительных узлов в измерениях топологии MKNS (в первом измерении значение максимального количества вычислительных узлов равно n-2, в остальных измерениях количество вычислительных узлов неограниченно) в разных измерениях количество вычислительных узлов может быть разным, нумерация вычислительных узлов и соответственно АБ в каждом измерении начинается с 0. N - определяет количество используемых измерений (координатных направлений) в топологии MKNS (до четырех измерений). S - определяет количество уровней в непрямом участке топологии MKNS (один уровень при использовании коммутаторного блока, два или три уровня при использовании коммутаторной сборки (КСб)). Каждый вычислительный узел идентифицируется его координатой в вычислительной сети.In the claimed Air Force computer network, two types of communication devices are used: an adapter unit (AB) and a switching unit (KB), each having n network ports, where n = 1, 2…. The claimed computer network forms the MKNS topology, which means the modernized KNS. At the same time Μ in the name - determines the number of computational modules in a computational node. K - determines the number of computational nodes in the MKNS topology dimensions (in the first dimension the value of the maximum number of computational nodes is n-2, in other dimensions the number of computational nodes is unlimited) in different dimensions the number of computational nodes can be different, the numbering of computational nodes and, accordingly, AB in each dimension starts from 0. N - defines the number of used dimensions (coordinate directions) in MKNS topology (up to four dimensions). S - defines the number of levels in the indirect section of the MKNS topology (one level when using a switch unit, two or three levels when using a switch assembly (KSb)). Each computing node is identified by its coordinate in the computing network.

В заявляемой вычислительной сети ВВС за счет соединения вычислительных узлов в первом измерении между собой по полносвязной топологии («каждый с каждым») диаметр вычислительной сети уменьшается на один «транзитный участок», что ведет к увеличению пропускной способности. Одновременно с этим увеличивается связность вычислительной сети, приводящая к повышению ее надежности, обеспечивающейся большим количеством альтернативных маршрутов. Минимальная связность SVmin в описываемой схеме вычисляется по следующей формуле:In the claimed Air Force computer network, due to the connection of computing nodes in the first dimension to each other in a fully connected topology ("each with each"), the diameter of the computing network is reduced by one "transit section", which leads to an increase in throughput. At the same time, the connectivity of the computer network increases, leading to an increase in its reliability, which is provided by a large number of alternative routes. The minimum connectivity SV min in the described scheme is calculated by the following formula:

SVmin=(K1-l)+(N-l);SV min = (K 1 -l) + (Nl);

где К1 - количество вычислительных узлов в первом измерении,where K 1 is the number of computing nodes in the first dimension,

N - количество измерений.N is the number of measurements.

Уменьшение количества используемых коммутаторных блоков приводит к уменьшению стоимости вычислительной сети ВВС.A decrease in the number of switching units used leads to a decrease in the cost of the Air Force computer network.

Для организации в первом измерении полносвязной топологии задействованы с первого по n-3 порты каждого АБ, поэтому максимальное количество вычислительных узлов в этом измерении равно n-2. Для организации передачи информационных пакетов между адаптерными блоками вычислительных узлов, расположенных в первом измерении, используется (n-3)×(n-2)/2 двунаправленных каналов связи, подключенных определенным образом.To organize a fully connected topology in the first dimension, ports of each AB are involved from the first to n-3, so the maximum number of computational nodes in this dimension is n-2. To organize the transfer of information packets between the adapter blocks of computing nodes located in the first dimension, (n-3) × (n-2) / 2 bidirectional communication channels are used, connected in a certain way.

Порт n-2 каждого АБ используется для связи с соответствующим КБ или КСб, которые обеспечивают передачу сообщений во втором измерении топологии MKNS. Порт n-1 каждого АБ используется для связи с соответствующим КБ или КСб, которые обеспечивают передачу сообщений в третьем измерении топологии MKNS. Порт n каждого АБ используется для связи с соответствующим КБ или КСб, которые обеспечивают передачу сообщений в четвертом измерении топологии MKNS.Port n-2 of each unit is used for communication with the corresponding KB or KSb, which provide message transfer in the second dimension of the MKNS topology. Port n-1 of each unit is used for communication with the corresponding KB or KSb, which provide the transfer of messages in the third dimension of the MKNS topology. Port n of each AU is used for communication with the corresponding KB or KSb, which ensure the transmission of messages in the fourth dimension of the MKNS topology.

В одном измерении топологии MKNS могут быть использованы либо КБ, либо КСб. В разных измерениях топологии MKNS могут использоваться, как КБ, так и КСб. Использование в одном измерении топологии MKNS вместо КБ КСб добавляет к диаметру топологии вычислительной сети по два «транзитных участка» на каждое измерение, в котором использовалась КСб.In one dimension of MKNS topology, either KB or KSB can be used. In different dimensions of the MKNS topology, both KB and KSb can be used. The use of MKNS topology in one dimension instead of KSB KSb adds to the diameter of the computer network topology two "hops" for each dimension in which KSb was used.

На фиг. 1 представлена блок-схема вычислительной сети ВВС при Μ=2, где Μ - количество вычислительных модулей в одном ВУ; N=2, где N -количество измерений; К=4, где К - количество вычислительных узлов в одном измерении; S=1, где S - количество уровней коммутации в непрямом участке топологии, на фиг. 2 представлен адаптерный блок, на фиг. 3 - коммутаторный блок, на фиг. 4 - представлены возможные варианты коммутации в непрямом участке топологии, на фиг. 5 представлен вариант коммутаторной сборки.FIG. 1 shows a block diagram of the Air Force computer network for Μ = 2, where Μ is the number of computing modules in one VU; N = 2, where N is the number of measurements; K = 4, where K is the number of computational nodes in one dimension; S = 1, where S is the number of switching levels in the indirect section of the topology, in Fig. 2 shows an adapter block; FIG. 3 - switching unit, in Fig. 4 shows possible switching options in the indirect section of the topology, FIG. 5 shows a variant of the switch assembly.

Вычислительная сеть ВВС (фиг. 1) включает вычислительные узлы ВУ1, ВУ2, …, ВУ16 расположенные (пронумерованные) ортогонально в два измерения и коммутаторные блоки 17, 18, 19, 20.The computing network of the Air Force (Fig. 1) includes computing nodes VU1, VU2, ..., VU16 located (numbered) orthogonally in two dimensions and switching units 17, 18, 19, 20.

Каждый вычислительный узел (ВУ) ВУ1 (ВУ2, ВУ3,..., ВУ16) содержит соответствующий адаптерный блок 21 и два соответствующих вычислительных модуля (ВМ) 24 и 25. Вычислительные модули 24 и 25 связываются с соответствующим адаптерным блоком 21 через порты PCI Express 22 (РСI0) и 23 (РС11) соответственно. Каждый вычислительный узел ВУ1 (ВУ2, ВУ3,..., ВУ16) идентифицируется его координатой в вычислительной сети.Each computing node (VU) VU1 (VU2, VU3, ..., VU16) contains a corresponding adapter unit 21 and two corresponding computing modules (VM) 24 and 25. Computing modules 24 and 25 are connected to the corresponding adapter unit 21 via PCI Express ports 22 (PCI0) and 23 (PC11), respectively. Each computing node VU1 (VU2, VU3, ..., VU16) is identified by its coordinate in the computer network.

Вычислительные узлы ВУ1, ВУ 2,..., ВУ16 связываются между собой с использованием двух коммуникационных устройств: соответствующего адаптерного блока (АБ) и соответствующего коммутаторного блока (КБ).Computing nodes VU1, VU 2, ..., VU16 communicate with each other using two communication devices: the corresponding adapter unit (AB) and the corresponding switching unit (KB).

Каждый адаптерный блок 21 (фиг.2) содержит полноматричный коммутатор обеспечивающий коммутацию m контроллеров PCI Express и n сетевых портов. Нумерация сетевых портов в адаптерном блоке начинается с единицы. Адаптерный блок предназначен для реализации интерфейса между вычислительными модулями, входящими в вычислительный узел, и вычислительной сетью, также адаптерный блок обеспечивает смену измерений при передаче транзитных сообщений между вычислительными узлами. Функционал адаптерного блока соответствует функционалу роутера у вычислительной сети наиболее близкого аналога.Each adapter block 21 (Fig. 2) contains a full-matrix switch providing switching of m PCI Express controllers and n network ports. Network ports in the adapter block are numbered starting with one. The adapter block is designed to implement the interface between the computing modules included in the computing node and the computing network; the adapter block also provides measurement change when transmitting transit messages between computing nodes. The functionality of the adapter block corresponds to the functionality of the router in the computer network of the closest analogue.

Каждый коммутаторный блок 17 (18, 19, 20) (фиг.3) содержит полноматричный коммутатор обеспечивающий коммутацию n сетевых портов. Нумерация сетевых портов в коммутаторном блоке начинается с единицы. Коммутаторный блок 17 (18, 19, 20) обеспечивает транзит сообщений между вычислительными узлами, находящимися в одном измерении (кроме первого измерения). Функционал коммутаторного блока соответствует функционалу коммутатора у вычислительной сети наиболее близкого аналога.Each switching unit 17 (18, 19, 20) (Fig. 3) contains a full-matrix switch providing switching of n network ports. The numbering of network ports in a switching unit starts from one. Switching unit 17 (18, 19, 20) provides transit of messages between computing nodes located in one dimension (except for the first dimension). The functionality of the switching unit corresponds to the functionality of the switch in the computer network of the closest analogue.

В первом измерении 26 (фиг.1) вычислительным узлам ВУ5, ВУ6, ВУ7, ВУ8 присвоены соответственно координаты (идентификаторы) (0,1); (1,1); (2,1); (3,1), у которых одинаковое значение второй координаты.In the first dimension 26 (Fig. 1), the computing nodes VU5, VU6, VU7, VU8 are respectively assigned coordinates (identifiers) (0,1); (1,1); (2.1); (3,1), which have the same second coordinate value.

Вычислительные узлы ВУ5, ВУ6, ВУ7, ВУ8 соединены между собой по полносвязной топологии «каждый с каждым» посредством соединения двунаправленными каналами связи соответствующих сетевых портов соответствующих адаптерных блоков.Computing nodes VU5, VU6, VU7, VU8 are interconnected in a fully connected topology "each with each" by connecting the corresponding network ports of the corresponding adapter blocks by bidirectional communication channels.

Во втором измерении (фиг. 1) вычислительным узлам ВУ2, ВУ6, ВУ10, ВУ14 присвоены соответствующие координаты (1,0); (1,1); (1,2); (1,3), у которых одинаковое значение первой координаты. Вычислительные узлы ВУ2, ВУ6, ВУ10, ВУ14 соединены между собой посредством соединения соответствующих им адаптерных блоков через коммутаторный блок 18.In the second dimension (Fig. 1), the computing nodes VU2, VU6, VU10, VU14 are assigned the corresponding coordinates (1,0); (1,1); (1,2); (1,3), which have the same value of the first coordinate. Computing nodes VU2, VU6, VU10, VU14 are interconnected by connecting the corresponding adapter blocks through the switching unit 18.

Во втором, третьем и четвертом измерениях адаптерные блоки 21 вычислительных узлов ВУ1 (ВУ2, ВУ3, …, ВУ16) объединены посредством либо одного коммутаторного блока, либо с помощью коммутаторной сборки (фиг. 4). Количество сетевых портов коммутаторного блока (равное n) ограничивает количество применяемых вычислительных узлов во втором, третьем и четвертом измерениях. Для снятия этого ограничения применяют коммутаторные сборки, позволяющие не ограничивать количество вычислительных узлов в данных измерениях.In the second, third and fourth dimensions, adapter blocks 21 of computing nodes VU1 (VU2, VU3, ..., VU16) are combined by either one switch unit or using a switch assembly (Fig. 4). The number of network ports of the switch unit (equal to n) limits the number of computational nodes used in the second, third and fourth dimensions. To remove this limitation, switch assemblies are used, which make it possible not to limit the number of computational nodes in these measurements.

На фиг. 5 приведен вариант реализации двухуровневой коммутаторной сборки по топологии Fat Tree (утолщенное дерево). Коммутаторные блоки 27 образуют первый уровень коммутаторной сборки. Их сетевые порты с номерами 6-10 предназначены для соединения с адаптерными блоками вычислительных узлов, а сетевые порты с номерами 1-5 предназначены для соединения с соответствующими сетевыми портами коммутаторных блоков 28 второго уровня по непрямой топологии Fat Tree. Такая коммутаторная сборка, состоящая из коммутаторных блоков, имеющих по n сетевых портов, позволяет связать во втором, третьем и четвертом измерениях вычислительной сети до 2×n вычислительных узлов. К достоинству коммутаторной сборки можно отнести то, что она не уменьшает такую коммуникационную характеристику, как ширина бисекции.FIG. 5 shows a variant of the implementation of a two-level switch assembly using the Fat Tree topology (thickened tree). Switch units 27 form the first level of the switch assembly. Their network ports numbered 6-10 are intended for connection with adapter blocks of computing nodes, and network ports numbered 1-5 are intended for connection with the corresponding network ports of switch blocks 28 of the second level in an indirect Fat Tree topology. Such a switch assembly, consisting of switch units each having n network ports, allows connecting up to 2 × n computing nodes in the second, third and fourth dimensions of a computer network. The advantage of the commutator assembly is that it does not reduce such a communication characteristic as the width of the bisection.

Вычислительная сеть высокопроизводительной вычислительной системы работает следующим образом.The computing network of a high-performance computing system operates as follows.

Предварительно каждому ВМ присваивается порядковый номер в ВУ и каждому ВУ присваивается соответствующий идентификатор (координаты по измерениям), которые однозначно определяют позиции передающих и принимающих устройств в вычислительной сети.Previously, each VM is assigned a serial number in the VC and each VU is assigned a corresponding identifier (coordinates by measurements), which uniquely determine the positions of the transmitting and receiving devices in the computer network.

Передача информации между вычислительными узлами с совпадающими координатами означает передачу информации между вычислительными модулями, подключенными к одному вычислительному узлу, только через АБ этого вычислительного узла. Например, передача информации из ВМ 25, расположенного в ВУ1, в ВМ 24, расположенный в ВУ1, имеющих одинаковые координаты, осуществляется следующим образом. Из ВМ 25 (ВУ1) через соответствующий порт 23 (PCI 1) информация передается в АБ 21(ВУ1) и далее через порт 22 (PCI 0) в ВМ 24 (ВУ1).The transfer of information between computational nodes with the same coordinates means the transfer of information between computational modules connected to one computational node, only through the AB of this computational node. For example, the transfer of information from VM 25 located in VU1 to VM 24 located in VU1, having the same coordinates, is carried out as follows. From VM 25 (VU1) through the corresponding port 23 (PCI 1), information is transferred to AB 21 (VU1) and then through port 22 (PCI 0) to VM 24 (VU1).

Передача информации между вычислительными узлами, у которых координаты отличаются только в первом измерении, происходит следующим образом. Информация из ВМ источника одного ВУ через соответствующий PCI порт 23 или 22 передается в его АБ, затем через соответствующий сетевой порт этого АБ информация передается в соответствующий сетевой порт АБ другого ВУ, а затем через соответствующий PCI порт 22 или 23 в ВМ приемник. Например, передача информации из ВМ 25, расположенного в ВУ1, в ВМ 24, расположенный в ВУ3, имеющих координаты, отличающиеся только в первом измерении, осуществляется следующим образом. Из ВМ 25 (ВУ1) через соответствующий порт 23 (PCI 1) информация передается в АБ 21(ВУ1), далее через сетевой порт 2 этого АБ21(ВУ1) информация передается в сетевой порт 1 АБ21(ВУ3) и далее через порт 22 (PCI 0) в ВМ 24 (ВУ3).The transfer of information between computational nodes, whose coordinates differ only in the first dimension, occurs as follows. Information from the VM of the source of one VU through the corresponding PCI port 23 or 22 is transferred to its AB, then through the corresponding network port of this AB the information is transmitted to the corresponding network port of the AB of another VU, and then through the corresponding PCI port 22 or 23 to the VM receiver. For example, the transfer of information from VM 25 located in VU1 to VM 24 located in VU3, having coordinates that differ only in the first dimension, is carried out as follows. From VM 25 (VU1) through the corresponding port 23 (PCI 1) information is transferred to AB 21 (VU1), then through the network port 2 of this AB21 (VU1) information is transmitted to the network port 1 AB21 (VU3) and then through port 22 (PCI 0) in VM 24 (VU3).

Передача информации между вычислительными узлами, у которых координаты отличаются либо только во втором, либо только в третьем, либо только в четвертом измерениях, происходят следующим образом. Информация из ВМ источника одного ВУ через соответствующий PCI порт 23 или 22 передается в его АБ, затем через соответствующий данному измерению сетевой порт этого АБ информация передается в соответствующий сетевой порт соответствующего КБ, из которого через соответствующий сетевой порт передается в соответствующий сетевой порт АБ другого ВУ, а затем через соответствующий PCI порт 22 или 23 в ВМ приемник. Например, передача информации из ВМ 24 (ВУ1) в ВМ 25 (ВУ9), имеющих координаты, отличающиеся только во втором измерении, осуществляется следующим образом. Из ВМ 24 (ВУ1) через соответствующий порт 22 (РСI0) информация передастся в АБ21(ВУ1), далее через сетевой порт 8 этого АБ21(ВУ1) информация передается в сетевой порт 1 КБ 17, далее через его сетевой порт 3 в сетевой порт8 АБ21(ВУ9), и далее через соответствующий порт 23 (РСI21) в ВМ 25 (ВУ9).The transfer of information between computational nodes, whose coordinates differ either only in the second, or only in the third, or only in the fourth dimensions, proceed as follows. Information from the VM of the source of one VU through the corresponding PCI port 23 or 22 is transferred to its AB, then through the network port of this AB corresponding to this measurement, the information is transferred to the corresponding network port of the corresponding KB, from which through the corresponding network port it is transmitted to the corresponding network port of the AB of another VU , and then through the corresponding PCI port 22 or 23 in the VM receiver. For example, the transfer of information from VM 24 (VU1) to VM 25 (VU9), having coordinates that differ only in the second dimension, is carried out as follows. From VM 24 (VU1) through the corresponding port 22 (PCI0) information will be transferred to AB21 (VU1), then through the network port 8 of this AB21 (VU1) information is transmitted to the network port 1 KB 17, then through its network port 3 to the network port 8 AB21 (VU9), and then through the corresponding port 23 (PCI21) to VM 25 (VU9).

Передача информации между вычислительными узлами, у которых координаты отличаются в нескольких измерениях, происходят следующим образом. Информация из ВМ источника одного ВУ через соответствующий PCI порт 23 или 22 передается в его АБ, в котором происходит сравнение координат текущего ВУ и ВУ приемника. Сравнение начинается с первого по порядку измерения. Если не совпали значения координат в первом измерении, то через соответствующий сетевой порт этого АБ информация передается в соответствующий сетевой порт АБ другого ВУ. Иначе, если не совпали значения координат для второго, или третьего, или четвертого измерения, то через соответствующий данному измерению сетевой порт этого АБ информация передается в соответствующий сетевой порт соответствующего КБ, из которого через соответствующий сетевой порт передается в соответствующий сетевой порт АБ другого ВУ. В достигнутом АБ снова происходит процесс сравнения координат уже этого текущего ВУ и ВУ приемника. Процесс передачи информации от ВУ к ВУ повторяется, пока координата достигнутого ВУ не совпадает с координатой ВУ приемника тогда через соответствующий PCI порт 22 или 23 адаптерного блока информация будет отправлена в ВМ приемник. Например, передача информации из ВМ 24 (ВУ1) в ВМ 24 (ВУ11), имеющих координаты, отличающиеся в двух измерениях, осуществляется следующим образом. Из ВМ 24 (ВУ1) через соответствующий порт 22(РСI0) информация передается в АБ21(ВУ1), далее порт 2 этого АБ21(ВУ1) информация передается в сетевой порт 1 АБ21(В3). В АБ21(ВУ3) происходит через сетевой смена измерения передачи информации, через сетевой порт 8 этого АБ21(ВУ3) информация передается в сетевой порт 1 КБ 19, далее через его сетевой порт 3 в сетевой порт 8 АБ 21(ВУ11) и далее через порт 22 соответствующего РСI0 в ВМ 24(ВУ11).The transfer of information between computational nodes, whose coordinates differ in several dimensions, proceed as follows. Information from the VM of the source of one WU through the corresponding PCI port 23 or 22 is transmitted to its AB, in which the coordinates of the current WU and the WU of the receiver are compared. The comparison starts with the first measurement in order. If the values of coordinates in the first dimension do not match, then through the corresponding network port of this AB the information is transmitted to the corresponding network port of the AB of another VU. Otherwise, if the coordinate values for the second, or third, or fourth dimension did not match, then through the network port of this AB corresponding to this measurement, the information is transferred to the corresponding network port of the corresponding KB, from which, through the corresponding network port, it is transmitted to the corresponding network port of the AB of the other VU. In the achieved AB, the process of comparing the coordinates of this current WA and the WA of the receiver takes place again. The process of transferring information from the VU to the VU is repeated until the coordinate of the reached VU does not coincide with the coordinate of the VU of the receiver, then through the corresponding PCI port 22 or 23 of the adapter unit, the information will be sent to the VM receiver. For example, the transfer of information from VM 24 (VU1) to VM 24 (VU11), having coordinates that differ in two dimensions, is carried out as follows. From VM 24 (VU1) through the corresponding port 22 (PCI0) information is transmitted to AB21 (VU1), then port 2 of this AB21 (VU1) information is transmitted to network port 1 AB21 (V3). In AB21 (VU3), it occurs through a network change in the measurement of information transfer, through the network port 8 of this AB21 (VU3) information is transmitted to the network port 1 KB 19, then through its network port 3 to the network port 8 AB 21 (VU11) and then through the port 22 corresponding to PCI0 in VM 24 (VU11).

Claims (1)

Вычислительная сеть высокопроизводительной вычислительной системы, содержащая вычислительные узлы, каждый из которых включает адаптерный блок и Μ вычислительных модулей, включающих арифметические процессоры, где Μ=1, 2, …, при этом вычислительные узлы расположены ортогонально по N измерениям, где N=1, 2, …, в каждом измерении расположены до К вычислительных узлов, где К=2, 3, …, вычислительные узлы, расположенные в одном измерении, кроме первого измерения, соединены между собой посредством соединения соответствующих им сетевых портов соответствующих адаптерных блоков через соответствующие сетевые порты соответствующего коммутаторного блока или соответствующей коммутаторной сборки, отличающаяся тем, что в первом измерении вычислительные узлы соединены между собой по полносвязной топологии посредством соединения двунаправленными каналами связи соответствующих сетевых портов соответствующих адаптерных блоков.A computing network of a high-performance computing system containing computing nodes, each of which includes an adapter unit and Μ computing modules including arithmetic processors, where Μ = 1, 2, ..., while the computing nodes are located orthogonally along N dimensions, where N = 1, 2 , ..., up to K computational nodes are located in each dimension, where K = 2, 3, ..., computational nodes located in one dimension, except for the first dimension, are interconnected by connecting the corresponding network ports of the corresponding adapter blocks through the corresponding network ports of the corresponding switch unit or corresponding switch assembly, characterized in that in the first dimension the computing nodes are interconnected in a fully connected topology by connecting the corresponding network ports of the corresponding adapter units by bidirectional communication channels.
RU2020143656A 2020-12-28 2020-12-28 Computer network of a high-performance computer system RU2754605C1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2020143656A RU2754605C1 (en) 2020-12-28 2020-12-28 Computer network of a high-performance computer system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2020143656A RU2754605C1 (en) 2020-12-28 2020-12-28 Computer network of a high-performance computer system

Publications (1)

Publication Number Publication Date
RU2754605C1 true RU2754605C1 (en) 2021-09-03

Family

ID=77669972

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2020143656A RU2754605C1 (en) 2020-12-28 2020-12-28 Computer network of a high-performance computer system

Country Status (1)

Country Link
RU (1) RU2754605C1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070294509A1 (en) * 2004-07-23 2007-12-20 Infineon Technologies Ag Network Processor
US20100254387A1 (en) * 2001-09-19 2010-10-07 Bay Microsystems, Inc. Network processor architecture
US20120042256A1 (en) * 2010-08-13 2012-02-16 International Business Machines Corporation High performance computing as a service
RU2502126C1 (en) * 2012-05-04 2013-12-20 Федеральное государственное автономное образовательное учреждение высшего профессионального образования Южный федеральный университет Multiprocessor computer system
US20160342891A1 (en) * 2015-05-21 2016-11-24 Google Inc. Neural Network Processor

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100254387A1 (en) * 2001-09-19 2010-10-07 Bay Microsystems, Inc. Network processor architecture
US20070294509A1 (en) * 2004-07-23 2007-12-20 Infineon Technologies Ag Network Processor
US20120042256A1 (en) * 2010-08-13 2012-02-16 International Business Machines Corporation High performance computing as a service
RU2502126C1 (en) * 2012-05-04 2013-12-20 Федеральное государственное автономное образовательное учреждение высшего профессионального образования Южный федеральный университет Multiprocessor computer system
US20160342891A1 (en) * 2015-05-21 2016-11-24 Google Inc. Neural Network Processor

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
/0294509 A1, 20.12.2007. *

Similar Documents

Publication Publication Date Title
CN104335537B (en) For the system and method for the multicast multipath of layer 2 transmission
KR101809396B1 (en) Method to route packets in a distributed direct interconnect network
US8755384B2 (en) Network apparatus and network managing apparatus
CN101465793B (en) Method and device for obtaining shortest route between two points in network
US9106440B2 (en) Interconnect topology with reduced implementation requirements
CN107659426B (en) Method for allocating physical resources and network side equipment
CN103986661B (en) A kind of multicast route method for supporting network code
US20130021922A1 (en) Network managing device and network managing method
Afek et al. Distributed algorithms for unidirectional networks
Zahavi et al. Quasi fat trees for HPC clouds and their fault-resilient closed-form routing
Adda et al. Routing and fault tolerance in Z-fat tree
RU2754605C1 (en) Computer network of a high-performance computer system
Duh et al. Topological properties of WK-recursive networks
JP2018185650A (en) Information processing apparatus, information processing method, and program
CN109246006B (en) Switching system constructed by switching chip and routing method thereof
CN108574594A (en) A kind of method and system of network service transmission
Hwang et al. Design of SDN-Enabled cloud data center
Liu et al. A practical interconnection network RP (k) and its routing algorithms
Bhardwaj et al. Message broadcasting via a new fault tolerant irregular advance omega network in faulty and nonfaulty network environments
Chung et al. Design and analysis of multidimensional Manhattan Street Networks
Mahapatra et al. Limited multi-path routing on extended generalized fat-trees
US20140105072A1 (en) Computer-readable recording medium and information processing apparatus
Sheu et al. Multicast algorithms for hypercube multiprocessors
Li et al. Permutation generation for routing in BCube connected crossbars
JP2019008648A (en) Information processing system and information processing method