RU2710890C1

RU2710890C1 - Вычислительная система для научно-технических расчетов

Info

Publication number: RU2710890C1
Application number: RU2018135282A
Authority: RU
Inventors: Александр Борисович Терентьев
Original assignee: Общество с ограниченной ответственностью "Информационный Вычислительный Центр"
Priority date: 2018-10-08
Filing date: 2018-10-08
Publication date: 2020-01-14

Abstract

Изобретение относится к системам обработки данных, предназначенным для научно-технических расчетов. Технический результат заключается в расширении арсенала средств того же назначения. Вычислительная система для научно-технических расчётов, представляющая собой кластер из преимущественно однотипных по архитектуре, конфигурации и составу оборудования вычислительных узлов, объединённых высокоскоростной сетью передачи данных, выполненный с возможностью одновременного решения по меньшей мере одной прикладной вычислительной задачи, при этом каждый вычислительный узел содержит по меньшей мере два вычислительных модуля и высокоскоростной локальный коммутатор сети передачи данных, причём локальный коммутатор сети передачи данных подключен своими портами к каждому вычислительному модулю, причём каждый вычислительный модуль включает процессор и оперативную память, процессор выполнен в виде «системы на кристалле» и включает центральный процессорный элемент и непосредственно подключённый к нему блок управления оперативной памятью и контроллер сети передачи данных. 3 з.п. ф-лы.

Description

Общепринятой архитектурой современных высокопроизводительных вычислительных систем для научно-технических расчётов – суперкомпьютеров - является кластер, то есть множество преимущественно однотипных по архитектуре, конфигурации и составу оборудования вычислительных узлов, объединённых высокоскоростной локальной сетью передачи данных [Лацис А. Как построить и использовать суперкомпьютер. - М., Бестселлер, 2003 г.]. По этой архитектуре построены 437 из 500 самых мощных на сегодняшний день суперкомпьютеров (актуальный список Top500 за ноябрь 2017 года [www.top500.org]). При этом доминирующей элементной базой являются универсальные высокопроизводительные и очень сложные процессоры семейства Xeon или Xeon Phi производства фирмы Intel – их используют 471 суперкомпьютера из актуального списка Top500 [www.top500.org].

Данное единообразие при всех известных достоинствах (самые известные среди них – наличие большого количества совместимого системного и прикладного программного обеспечения и единообразие обслуживания), приводит и к ряду столь же существенных проблем. Во-первых, в силу фактически монопольного положения одного производителя цены держатся на очень высоком уровне. Во-вторых, прямым следствием высокой производительности и высокой сложности продуктов является их очень высокое энергопотребление, ставшее в последние годы фактически основным ограничителем повышения производительности суперкомпьютеров. В-третьих, процессоры, ориентированные на компьютеры общего назначения, имеют избыточный для чисто вычислительных установок набор встроенного периферийного оборудования, что также приводит к избыточному энергопотреблению. В-четвёртых, универсальная архитектура этих процессоров влечёт за собой избыточную сложность сетевой подсистемы вычислительного узла, что приводит, как известно, к существенным задержкам (латентности) при обмене данными между вычислительными узлами.

В последние годы, особенно в странах Европы и в Японии, активно проводятся работы по использованию в качестве основы для перспективных суперкомпьютеров более простых процессоров, имеющих более простую архитектуру и, как следствие, относительно невысокое быстродействие, но при этом радикально более низкое энергопотребление и радикальное более низкую цену (в первую очередь – процессоры семейства ARM, широко применяемые в бытовой, мобильной и коммуникационной технике) [https://www.hpcwire.com/2017/01/19/cea-riken-partner-arm-exascale/; https://atos.net/en/2017/press-release/general-press-releases_2017_06_19/atos-expands-range-supercomputers-include-arm-processors-new-bull-sequana-x1310]. К тому же в последнее время сформировалась новая группа полупроводниковых приборов – «системы на кристалле» (SoC, ‘System-on-Chip’) на базе этих процессоров, представляющих собой собранные на одном кристалле процессор, схемы управления памятью, схемы управления вводом-выводом и другие устройства и позволяющие получить законченный вычислитель простым добавлением к нему минимального количества внешних компонентов – электропитание, память и физические порты ввода-вывода. Часто такие SoC имеют в своём составе дополнительные специализированные вычислительные компоненты – графический процессор (GPU) с возможностью выполнения вычислительных задач, векторный сопроцессор либо иные. Например, широко распространённые продукты корпорации Texas Instruments включают в себя от двух до шести вычислителей различных архитектур, более десяти каналов цифрового и аналогового ввода-вывода и другое оборудование [http://www.ti.com/processors/dsp/media-processors/products.html].

Одним из существенных факторов, огранивающих на сегодняшний день широкое применение данной процессорной архитектуры в суперкомпьютерах, является относительно невысокая единичная производительность этих процессоров, что приводит к необходимости использовать большее количество процессоров (по сравнению, например, с процессорами Intel) для получения той же суммарной производительности.

Другая известная проблема является следствием первой – это высокая удельная стоимость и высокое энергопотребление оборудования локальной вычислительной сети – вследствие невысокой единичной производительности данных процессоров и невозможности создания многопроцессорных плат из-за отсутствия в них штатных аппаратных средств межпроцессорного взаимодействия требуемое количество портов системного коммутатора сети передачи данных оказывается существенно больше, чем в случае процессоров Intel.

Важнейшим достоинством мультипроцессорных вычислительных систем, построенных на базе процессоров ARM, является существенно меньшее энергопотребление как отдельных вычислительных узлов, так и всего кластера в целом по сравнению с традиционными системами на процессорах Intel. Например, на экспериментальной установке MontBlanc продемонстрировано снижение потребления электроэнергии при решении задач гидродинамики до 2-х раз по сравнению с суперкомпьютером MareNostrum, имеющим традиционную архитектуру [Oyarzun G. Efficient CFD code implementation for the ARM-based Mont-Blanc architecture [Электронный ресурс] / G. Oyarzun, R. Borrell, A. Gorobets, F. Mantovani, A. Oliva // Future Generation Computer Systems, 2018, № 79. – Режим доступа: https://doi.org/10.1016/j.future.2017.09.029, свободный]. Установка MontBlanc построена на процессоре Samsung Exynos 5 Dual, который не имеет в себе сетевого (Ethernet) интерфейса. Поэтому фактически к каждому процессору добавляется микросхема интерфейса USB-Ethernet, которая потребляет дополнительную электроэнергию и замедляет передачу данных между узлами.

Задачей предлагаемого изобретения является расширение арсенала технических средств, применимых для построения суперкомпьютеров.

По настоящему изобретению, для достижения поставленной цели используются процессоры, выполненные в виде «системы на кристалле» и включающие в себя многоядерный центральный процессорный элемент (ЦПЭ) и непосредственно подключённые к нему блок управления оперативной памятью и контроллер сети передачи данных. Процессор может также включать в себя интегрированный графический процессор (GPU) с возможностью выполнения вычислительных задач, либо векторный сопроцессор, либо иные специализированные вычислительные компоненты.

Каждый процессор совместно с подключёнными к нему элементами оперативной памяти представляет собой вычислительный модуль. В отдельных случаях вычислительные модули могут содержать в себе дополнительно подключенные к процессору внешние специализированные вычислители, выполненные, например, на основе графических процессоров (GPU), элементов программируемой логики (FPGA) или другие. Также некоторые модули могут дополнительно содержать в себе устройства внешней памяти или устройства ввода-вывода или устройства отображения информации или несколько дополнительных устройств.

При этом одно или более ядер многоядерного ЦПЭ могут быть выполнены с возможностью осуществления функций управления работой данного ЦПЭ, в том числе приём из сети передачи данных и загрузку системного программного обеспечения, приём из сети передачи данных и загрузку прикладного программного обеспечения и данных для каждого из ядер этого ЦПЭ, управление вычислительными процессами, выполняемыми на других ядрах этого ЦПЭ и на интегрированных и/или внешних специализированных вычислителях, управление оперативной памятью вычислительного модуля, выполнение обмена данными с другими вычислительными модулями и выполнения вычислительных процессов, а остальные ядра выполнены с возможностью выполнения только вычислительных процессов. Таким образом, вспомогательные задачи, требующие многочисленных переключений и взаимодействия с внешними устройствами, выносятся на отдельный аппаратный ресурс, а большая часть вычислительных ресурсов (вычислительных ядер) эффективно загружается непрерывным, последовательным счётом, чем достигается повышение общей вычислительной эффективности.

Несколько вычислительных модулей конструктивно объединяются в вычислительный узел, который дополнительно содержит объединяющий их высокоскоростной локальный коммутатор сети передачи данных. Локальный коммутатор содержит также один или более внешних портов, посредством которых он соединяется с высокоскоростным системным коммутатором сети передачи данных, объединяющим множество вычислительных узлов в кластер.

К данному локальному коммутатору предъявляется по сути только одно существенное требование – минимальное время задержки при передаче пакетов. При этом от него не требуется никаких возможностей по каскадированию (объединению в группы), удалённому доступу, управлению потоками данных и прочих интеллектуальных функций (при этом исключаются сложные схемы управления и память большого объёма), а количество портов и подключаемых сетевых узлов минимальны (также минимальные требования к объёму памяти). Кроме того, вычислительные модули подключаются к нему в пределах одного конструктива, что делает ненужными схемы внешних физических интерфейсов (front-end) как на самом коммутаторе (за исключением внешних портов), так и на всех вычислительных модулях. Таким образом, и локальный коммутатор, и сетевая подсистема в целом могут иметь минимальную сложность и, как следствие, минимальные энергопотребление и стоимость.

Claims

1. Вычислительная система для научно-технических расчётов, представляющая собой кластер из преимущественно однотипных по архитектуре, конфигурации и составу оборудования вычислительных узлов, объединённых высокоскоростной сетью передачи данных с помощью высокоскоростного системного коммутатора сети передачи данных, выполненный с возможностью одновременного решения по меньшей мере одной прикладной вычислительной задачи, отличающаяся тем, что каждый вычислительный узел содержит по меньшей мере два вычислительных модуля и высокоскоростной локальный коммутатор сети передачи данных,

причём локальный коммутатор сети передачи данных подключен своими портами к каждому вычислительному модулю, входящему в состав вычислительного узла, и по меньшей мере одним портом подключен к системному коммутатору сети передачи данных,

причём каждый вычислительный модуль включает процессор и оперативную память,

причём процессор выполнен в виде «системы на кристалле» и включает центральный процессорный элемент и непосредственно подключённый к нему блок управления оперативной памятью и контроллер сети передачи данных,

причём центральный процессорный элемент содержит, по меньшей мере, два независимых вычислительных ядра, имеющих одинаковую либо различную архитектуру, имеющих доступ к общей оперативной памяти.

2. Система по п. 1, отличающаяся тем, что по меньшей мере один вычислительный модуль дополнительно содержит в себе по меньшей мере один специализированный вычислитель.

3. Система по п. 1, отличающаяся тем, что по меньшей мере одно вычислительное ядро каждого центрального процессорного элемента выполнено с возможностью осуществления функций управления работой соответствующего центрального процессорного элемента и выполнения вычислительных процессов, а остальные ядра выполнены с возможностью выполнения только вычислительных процессов, причём набор функций управления включает в себя по меньшей мере

приём из сети передачи данных и загрузку системного программного обеспечения,

приём из сети передачи данных и загрузку прикладного программного обеспечения и данных для каждого из ядер этого центрального процессорного элемента,

управление вычислительными процессами, выполняемыми на других ядрах этого центрального процессорного элемента и на специализированных вычислителях,

управление оперативной памятью вычислительного модуля,

выполнение обмена данными с другими вычислительными модулями, входящими в состав любого вычислительного узла и образующими временную подгруппу вычислительных блоков, решающих совокупно одну задачу одновременно.

4. Система по п. 1, отличающаяся тем, что по меньшей мере один вычислительный модуль дополнительно содержит в себе устройства внешней памяти или устройства ввода-вывода или устройства отображения информации или несколько дополнительных устройств.