RU164236U1 - PCI Express-based CLUSTER CONTROL SWITCH - Google Patents

PCI Express-based CLUSTER CONTROL SWITCH Download PDF

Info

Publication number
RU164236U1
RU164236U1 RU2016104944/08U RU2016104944U RU164236U1 RU 164236 U1 RU164236 U1 RU 164236U1 RU 2016104944/08 U RU2016104944/08 U RU 2016104944/08U RU 2016104944 U RU2016104944 U RU 2016104944U RU 164236 U1 RU164236 U1 RU 164236U1
Authority
RU
Russia
Prior art keywords
pci express
address
control switch
cluster
addresses
Prior art date
Application number
RU2016104944/08U
Other languages
Russian (ru)
Inventor
Наталья Семеновна Васяева
Андрей Владимирович Сухих
Original Assignee
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Поволжский государственный технологический университет"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Поволжский государственный технологический университет" filed Critical Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Поволжский государственный технологический университет"
Priority to RU2016104944/08U priority Critical patent/RU164236U1/en
Application granted granted Critical
Publication of RU164236U1 publication Critical patent/RU164236U1/en

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

Управляющий коммутатор для кластера на основе протокола PCI Express, имеющий процессор (ЦП), память (ОЗУ) и собственное адресное пространство и выполняющий функции маршрутизации трафика посредством трансляции адресов узлов кластера, находящихся в разных адресных пространствах, за счет построения внутренних таблиц трансляции адресов коммутатора и поиска транслированного адреса в этих таблицах по алгоритму, основанному на сравнении старших разрядов исходного не транслированного адреса со старшими битами транслированного адреса, содержащий непрозрачные порты для подключения посредством кабельной системы PCI Express узлов кластера, которые имеют кабельный адаптер PCI Express с прозрачными портами, внутрисистемную шину PCI Express, вычислительное ядро, состоящее из ЦП и ОЗУ, и собственное адресное пространство.A control switch for a cluster based on the PCI Express protocol, which has a processor (CPU), memory (RAM) and its own address space and performs the functions of routing traffic by translating the addresses of cluster nodes located in different address spaces by constructing internal translation tables of the switch addresses and search for the translated address in these tables according to an algorithm based on a comparison of the high order bits of the original non-translated address with the high bits of the translated address, containing non-transparent ports for connecting cluster nodes via a PCI Express cable system that have a PCI Express cable adapter with transparent ports, an internal PCI Express bus, a computational core consisting of a CPU and RAM, and its own address space.

Description

Полезная модель относится к вычислительной технике, а именно к коммутационной среде на основе кабельной спецификации компьютерной шины PCI Express.The utility model relates to computing, namely, to a switching environment based on the cable specification of the PCI Express computer bus.

В качестве прототипа принята кластерная система с прямой коммутацией каналов (RU №2461055, G06F 13/00; G06F 15/163). Структура вычислительного кластера на PCI Express также была описана в патенте US 2013/0227193 A1, G06F 13/40, 29.08.2013.As a prototype adopted a cluster system with direct switching channels (RU No. 2461055, G06F 13/00; G06F 15/163). The structure of the computing cluster on PCI Express has also been described in patent US 2013/0227193 A1, G06F 13/40, 08.29.2013.

Недостатком данной системы является необходимость использования выделенного вычислительного узла в качестве ведущего устройства, которое отвечает за распределение адресного пространства между ведомыми вычислителями, что усложняет настройку системы. Кроме того, единое ведущее устройство является критической точкой отказа всей кластерной системы, что приводит к уменьшению ее надежности.The disadvantage of this system is the need to use a dedicated computing node as a master device, which is responsible for the distribution of address space between slave computers, which complicates the system setup. In addition, a single master device is a critical point of failure of the entire cluster system, which leads to a decrease in its reliability.

Задачей, на решение которой направлена заявленная полезная модель, является ускорение процесса передачи трафика от узла к узлу внутри кластера на основе PCI Express через управляющий коммутатор.The task to which the claimed utility model is directed is to accelerate the process of transferring traffic from node to node within a PCI Express-based cluster through a management switch.

Техническим результатом является использование управляющего внешнего коммутатора в основе кластера, позволяющего ускорить передачу трафика между узлами кластера и упростить трансляцию адресов узлов-получателей.The technical result is the use of a control external switch at the base of the cluster, which allows to accelerate the transfer of traffic between the cluster nodes and simplify the translation of the addresses of the recipient nodes.

Указанный технический результат достигается за счет использования управляющего внешнего коммутатора в качестве ведущего устройства кластера PCI Express, в котором применяется разработанный авторами заявляемой алгоритм трансляции адресов получателей.The specified technical result is achieved through the use of a control external switch as the master device of the PCI Express cluster, which uses the proposed algorithm for translating recipient addresses developed by the authors.

Управляющий коммутатор для кластера на основе протокола PCI Express, имеющий процессор (ЦП), память (ОЗУ) и собственное адресное пространство и выполняющий функции маршрутизации трафика посредством трансляции адресов узлов кластера, находящихся в разных адресных пространствах, за счет построения внутренних таблиц трансляции адресов коммутатора и поиска транслированного адреса в этих таблицах по алгоритму, основанному на сравнении старших разрядов исходного не транслированного адреса со старшими битами транслированного адреса, содержащий непрозрачные порты для подключения посредством кабельной системы PCI Express узлов кластера, которые имеют кабельный адаптер PCI Express с прозрачными портами, внутрисистемную шину PCI Express, вычислительное ядро, состоящее из ЦП и ОЗУ, и собственное адресное пространство.A control switch for a cluster based on the PCI Express protocol, which has a processor (CPU), memory (RAM) and its own address space and performs the functions of routing traffic by translating the addresses of cluster nodes located in different address spaces by constructing internal translation tables of the switch addresses and search for the translated address in these tables according to an algorithm based on a comparison of the high order bits of the original non-translated address with the high bits of the translated address, containing non-transparent ports for connecting cluster nodes via a PCI Express cable system that have a PCI Express cable adapter with transparent ports, an internal PCI Express bus, a computational core consisting of a CPU and RAM, and its own address space.

Предложенная система представляет собой вычислительный кластер, состоящий из вычислительных узлов, поддерживающих использование внутрисистемной шины PCI Express и специализированного управляющего коммутатора PCI Express. В общем случае вычислительные узлы могут представлять собой персональные компьютеры с шиной PCI Express на материнской плате, серверные платформы. Все вычислительные узлы коммутируются в единый вычислительный кластер посредством применения специализированной кабельной системы, разработанной в соответствии с кабельной спецификацией PCI Express. Для возможности подключения в сеть узел должен иметь специализированный адаптер шины. Адаптер шины работает в режиме прозрачного моста. Ядром кластера является внешний управляющий коммутатор PCI Express, который сам строит таблицу маршрутизации на основе проходящего через него трафика. Все порты коммутатора выполнены по технологии непрозрачного моста.The proposed system is a computing cluster consisting of computing nodes supporting the use of the intra-system PCI Express bus and a specialized PCI Express control switch. In general, computing nodes can be personal computers with a PCI Express bus on the motherboard, server platforms. All computing nodes are switched into a single computing cluster through the use of a specialized cable system designed in accordance with the PCI Express cable specification. To be able to connect to the network, the node must have a specialized bus adapter. The bus adapter operates in transparent bridge mode. The core of the cluster is an external PCI Express control switch, which itself builds a routing table based on the traffic passing through it. All switch ports are made using an opaque bridge technology.

В настоящем патенте все вычислительные узлы в составе вычислительного кластера являются равноправными по отношению друг к другу, все функции по управлению адресными пространствами и маршрутизацией трафика сосредоточены в коммутаторе PCI Express.In this patent, all the computing nodes in the computing cluster are equal in relation to each other, all the functions for managing address spaces and traffic routing are concentrated in the PCI Express switch.

На фиг. 1 представлен общий вид топологии кластера; на фиг. 2 представлена структура непрозрачного порта; на фиг. 3 представлен вычислительный узел; на фиг. 4 представлен формат таблицы маршрутизации, на фиг. 5 представлен разработанный алгоритм трансляции адресов в непрозрачных портах управляющего коммутатора.In FIG. 1 shows a general view of the cluster topology; in FIG. 2 shows the structure of an opaque port; in FIG. 3 shows a computing node; in FIG. 4 shows the format of the routing table, FIG. Figure 5 shows the developed algorithm for address translation in the opaque ports of the management switch.

Общий вид топологии кластера (фиг. 1) включает в себя:General view of the cluster topology (Fig. 1) includes:

- управляющий коммутатор PCI Express - 1- PCI Express Management Switch - 1

- блок коммутации - 2- switching unit - 2

- непрозрачные мосты - 3- opaque bridges - 3

- интерфейсные кабели - 4- interface cables - 4

- прозрачные мосты - 5- transparent bridges - 5

- вычислительные узлы - 6.- computing nodes - 6.

Непосредственно сама коммутационная среда представляет собой совокупность коммутатора PCI Express (1), с подключенными к нему через интерфейсные кабели (4) сетевыми адаптерами шины (8), установленными в вычислительных узлах (6) вычислительного кластера.The switching environment itself is a combination of a PCI Express switch (1), with bus network adapters (8) connected to it via interface cables (4) installed in the computing nodes (6) of the computing cluster.

Коммутатор PCI Express (1) является полностью автономной системой и имеет свои внутренние ресурсы, включая центральный процессор (ЦП) (10) и оперативную память (ОЗУ) (11), имеющий автономное внутреннее адресное пространство, блок коммутации (2) имеет специализированную коммутационную матрицу (КМ) (12), которая связана с непрозрачными мостами (НМ) (3) на портах управляющего коммутатора PCI Express. Использование непрозрачных портов на управляющем коммутаторе PCI Express обусловлено тем, что они разграничивают адресные пространства управляющего коммутатора и всех вычислительных узлов друг от друга, не давая тем самым возникать конфликтам при инициализации системы, когда на шине PCI Express происходит обмен конфигурационными сообщениями. Управляющий коммутатор PCI Express соединяет все устройства по типу подключения «точка-точка», такой тип подключения является единственно возможным на шине PCI Express. Для того чтобы вычислительные узлы могли «видеть» в адресном пространстве друг друга, в управляющем коммутаторе PCI Express создаются так называемые окна перекрестного доступа, через которые любой из вычислительных узлов может «увидеть» другие узлы. Окна перекрестного доступа представляют собой особые области в памяти управляющего коммутатора, которые доступны всем подключенным к коммутатору узлам. Во всех вычислительных узлах (6) в сетевом адаптере шины (СА) (8) используются прозрачные порты (5), которые позволяют проходить конфигурационным сообщениям по направлению к управляющему коммутатору PCI Express.The PCI Express switch (1) is a fully autonomous system and has its own internal resources, including a central processing unit (CPU) (10) and random access memory (RAM) (11), which has an autonomous internal address space, the switching unit (2) has a specialized switching matrix (KM) (12), which is associated with opaque bridges (NM) (3) on the ports of the PCI Express control switch. The use of opaque ports on the PCI Express control switch is due to the fact that they delimit the address spaces of the control switch and all computing nodes from each other, thereby preventing conflicts during system initialization when configuration messages are exchanged on the PCI Express bus. The PCI Express control switch connects all devices using the point-to-point connection type, this type of connection is the only one possible on the PCI Express bus. In order for computing nodes to be able to “see” each other in the address space, so-called cross-access windows are created in the PCI Express control switch through which any of the computing nodes can “see” other nodes. Cross-access windows are special areas in the memory of the management switch that are accessible to all nodes connected to the switch. All compute nodes (6) in the bus network adapter (CA) (8) use transparent ports (5), which allow configuration messages to pass through to the PCI Express control switch.

Логически непрозрачный мост (3) (фиг. 2) является оконечным устройством и для самого управляющего коммутатора PCI Express и для вычислительных узлов. Каждому из этих оконечных устройств назначаются адреса из разных адресных пространств двух сопряженных систем. С помощью базовых регистров адреса (БРА) (7) происходит трансляция адресов при обращении вычислительного узла к управляющему коммутатору PCI Express. Таким образом, с использованием непрозрачных мостов на портах управляющего коммутатора PCI Express вычислительные узлы сопрягаются с внутренней системой управляющего коммутатора PCI Express.Logically opaque bridge (3) (Fig. 2) is the terminal device for the PCI Express control switch itself and for computing nodes. Each of these terminals is assigned addresses from different address spaces of two paired systems. Using the base address registers (BRA) (7), addresses are translated when the computing node accesses the PCI Express control switch. Thus, using opaque bridges on the ports of the PCI Express control switch, the computing nodes are interfaced with the internal system of the PCI Express control switch.

Вычислительный узел в общем случае представляет собой компьютер с внутрисистемной шиной PCI Express и адаптером шины PCI Express для подключения интерфейсных кабелей (4) (фиг. 3).A computing node in the general case is a computer with an intra-system PCI Express bus and a PCI Express bus adapter for connecting interface cables (4) (Fig. 3).

Вычислительный узел (6) имеет свое вычислительное ядро (9), состоящее из процессора (10) и памяти (11), имеет свое собственное адресное пространство, которое ограничивается непрозрачными мостами на портах управляющего коммутатора.Computing node (6) has its own computing core (9), consisting of a processor (10) and memory (11), has its own address space, which is limited by opaque bridges on the ports of the control switch.

Для маршрутизации трафика управляющий коммутатор использует механизм трансляции адресов вычислительных узлов. Для этого в процессе прохождения трафика через коммутатор PCI Express 3.0 строится внутренняя таблица маршрутизации (фиг. 4). В таблицу заносится следующая необходимая информация: старшие биты нетранслированного (исходного) адреса вычислительного узла-получателя (13); полный транслированный адрес узла-получателя (14), бит действительности (15), который показывает действительна ли текущая запись в таблице маршрутизации («0» - не действительная запись, «1» - действительная запись).For routing traffic, the control switch uses a mechanism for translating the addresses of computing nodes. For this, in the process of traffic passing through the PCI Express 3.0 switch, an internal routing table is built (Fig. 4). The following necessary information is entered in the table: the most significant bits of the untranslated (source) address of the recipient computing node (13); full translated address of the receiving node (14), a reality bit (15), which indicates whether the current record in the routing table is valid (“0” is not a valid record, “1” is a valid record).

Механизм трансляции адресов в управляющем коммутаторе работает по разработанному авторами алгоритму (фиг. 5). В начале транзакции узел, передающий данные, записывает данные, которые передает в исходящее окно своей локальной памяти (16). Исходящее окно представляет собой диапазон адресного пространства хоста, которое формируется в каждом устройстве, подключенном к управляющему коммутатору PCI Express, в момент инициализации и служит для записи в него данных, предназначенных для передачи другому узлу. На следующем шаге (17) сформированный пакет протокола пересылается в НМ управляющего коммутатора. Так как в настоящем патенте рассматривается только табличный способ трансляции адресов, регистр НМ «BarSetup» заведомо сконфигурирован на применение этого способа (18). Затем второе двойное слово пакета транспортного уровня протокола PCI Express (TLP), содержащее в себе транслируемый адрес, записывается в адресный регистр НМ RgA (19). На шаге (20) базовый адрес транслируемого адреса, содержащийся в регистре НМ RgA[Base] сравнивается с базовым адресом, содержащимся в регистре НМ BAR[2]. Если адреса совпадают, то старшие биты исходного адреса (RgA[High]) сравниваются со значением (LT[AHigh]) в таблице поиска (22). В случае успешного поиска и проверки поля валидности (23) (LT[Valid]), которое подтверждает актуальность записи в таблице поиска, базовый адрес, содержащийся в RgA[Base] заменяется на базовый адрес соответствующей записи в таблице поиска (LT[TAdr]), иными словами происходит трансляция адреса (24). Затем в регистр транслированного адреса (RgAT) записывается транслированный базовый адрес из LT[TAdr] и прибавляется смещение из исходного адреса, хранящееся в регистре RgA[Ofs] (25). Параметр таблицы поиска LT[Par], определяющий номер порта, на который следует передать пакет с транслированным адресом, используется для определения номера выходного порта.The address translation mechanism in the control switch works according to the algorithm developed by the authors (Fig. 5). At the beginning of the transaction, the node transmitting the data records the data that it transfers to the outgoing window of its local memory (16). The outgoing window is the range of the host address space, which is formed in each device connected to the PCI Express control switch at the time of initialization and serves to write data to it intended for transmission to another node. At the next step (17), the generated protocol packet is sent to the NM of the control switch. Since the present patent considers only a tabular method of address translation, the NM register “BarSetup” is deliberately configured to use this method (18). Then, the second double word of the PCI Express protocol transport layer packet (TLP), containing the broadcast address, is written into the address register of the NM RgA (19). In step (20), the base address of the broadcast address contained in the NM register RgA [Base] is compared with the base address contained in the NM BAR register [2]. If the addresses match, then the high bits of the source address (RgA [High]) are compared with the value (LT [AHigh]) in the lookup table (22). In the case of a successful search and validation of the validity field (23) (LT [Valid]), which confirms the relevance of the entry in the search table, the base address contained in RgA [Base] is replaced by the base address of the corresponding entry in the search table (LT [TAdr]) , in other words, the address is translated (24). Then, the translated base address from LT [TAdr] is recorded in the translated address register (RgAT) and the offset from the source address stored in the RgA [Ofs] register is added (25). The LT [Par] lookup table parameter, which determines the port number to which the packet with the translated address should be transmitted, is used to determine the output port number.

Claims (1)

Управляющий коммутатор для кластера на основе протокола PCI Express, имеющий процессор (ЦП), память (ОЗУ) и собственное адресное пространство и выполняющий функции маршрутизации трафика посредством трансляции адресов узлов кластера, находящихся в разных адресных пространствах, за счет построения внутренних таблиц трансляции адресов коммутатора и поиска транслированного адреса в этих таблицах по алгоритму, основанному на сравнении старших разрядов исходного не транслированного адреса со старшими битами транслированного адреса, содержащий непрозрачные порты для подключения посредством кабельной системы PCI Express узлов кластера, которые имеют кабельный адаптер PCI Express с прозрачными портами, внутрисистемную шину PCI Express, вычислительное ядро, состоящее из ЦП и ОЗУ, и собственное адресное пространство.
Figure 00000001
A control switch for a cluster based on the PCI Express protocol, which has a processor (CPU), memory (RAM) and its own address space and performs the functions of routing traffic by translating the addresses of cluster nodes located in different address spaces by constructing internal translation tables of the switch addresses and search for the translated address in these tables according to an algorithm based on a comparison of the high order bits of the original non-translated address with the high bits of the translated address, containing non-transparent ports for connecting cluster nodes via a PCI Express cable system that have a PCI Express cable adapter with transparent ports, an internal PCI Express bus, a computational core consisting of a CPU and RAM, and its own address space.
Figure 00000001
RU2016104944/08U 2016-02-15 2016-02-15 PCI Express-based CLUSTER CONTROL SWITCH RU164236U1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2016104944/08U RU164236U1 (en) 2016-02-15 2016-02-15 PCI Express-based CLUSTER CONTROL SWITCH

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2016104944/08U RU164236U1 (en) 2016-02-15 2016-02-15 PCI Express-based CLUSTER CONTROL SWITCH

Publications (1)

Publication Number Publication Date
RU164236U1 true RU164236U1 (en) 2016-08-20

Family

ID=56694568

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2016104944/08U RU164236U1 (en) 2016-02-15 2016-02-15 PCI Express-based CLUSTER CONTROL SWITCH

Country Status (1)

Country Link
RU (1) RU164236U1 (en)

Similar Documents

Publication Publication Date Title
US9025495B1 (en) Flexible routing engine for a PCI express switch and method of use
US10241951B1 (en) Device full memory access through standard PCI express bus
US8904079B2 (en) Tunneling platform management messages through inter-processor interconnects
US9146890B1 (en) Method and apparatus for mapped I/O routing in an interconnect switch
KR101686360B1 (en) Control messaging in multislot link layer flit
US7281055B2 (en) Routing mechanisms in systems having multiple multi-processor clusters
US7155525B2 (en) Transaction management in systems having multiple multi-processor clusters
US7251698B2 (en) Address space management in systems having multiple multi-processor clusters
US20090158001A1 (en) Accessing control and status register (csr)
CN103092798B (en) The method of the access means under SOC(system on a chip) and bus
WO2021081409A1 (en) Methods and apparatus for dma engine descriptors for high speed data systems
US20130259053A1 (en) Switch, information processing apparatus, and communication control method
WO2017101080A1 (en) Write request processing method, processor and computer
WO2016074619A1 (en) Pcie bus based data transmission method and device
US11726938B2 (en) Communications for field programmable gate array device
CN117076344A (en) Data sharing method, device and system and readable storage medium
US9019975B2 (en) Unified system networking with CEE-PCIE tunneling
US20120324078A1 (en) Apparatus and method for sharing i/o device
US7131020B2 (en) Distributed copies of configuration information using token ring
US11836105B2 (en) Communication device, information processing system, and communication method
RU164236U1 (en) PCI Express-based CLUSTER CONTROL SWITCH
CN116483259A (en) Data processing method and related device
US10970155B1 (en) Error reporting when reading data
US11487695B1 (en) Scalable peer to peer data routing for servers
CN116561036B (en) Data access control method, device, equipment and storage medium

Legal Events

Date Code Title Description
MM1K Utility model has become invalid (non-payment of fees)

Effective date: 20170216