RU2710890C1 - Вычислительная система для научно-технических расчетов - Google Patents
Вычислительная система для научно-технических расчетов Download PDFInfo
- Publication number
- RU2710890C1 RU2710890C1 RU2018135282A RU2018135282A RU2710890C1 RU 2710890 C1 RU2710890 C1 RU 2710890C1 RU 2018135282 A RU2018135282 A RU 2018135282A RU 2018135282 A RU2018135282 A RU 2018135282A RU 2710890 C1 RU2710890 C1 RU 2710890C1
- Authority
- RU
- Russia
- Prior art keywords
- computing
- data network
- switch
- central processor
- computing module
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/16—Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
- G06F15/163—Interprocessor communication
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Multi Processors (AREA)
Abstract
Изобретение относится к системам обработки данных, предназначенным для научно-технических расчетов. Технический результат заключается в расширении арсенала средств того же назначения. Вычислительная система для научно-технических расчётов, представляющая собой кластер из преимущественно однотипных по архитектуре, конфигурации и составу оборудования вычислительных узлов, объединённых высокоскоростной сетью передачи данных, выполненный с возможностью одновременного решения по меньшей мере одной прикладной вычислительной задачи, при этом каждый вычислительный узел содержит по меньшей мере два вычислительных модуля и высокоскоростной локальный коммутатор сети передачи данных, причём локальный коммутатор сети передачи данных подключен своими портами к каждому вычислительному модулю, причём каждый вычислительный модуль включает процессор и оперативную память, процессор выполнен в виде «системы на кристалле» и включает центральный процессорный элемент и непосредственно подключённый к нему блок управления оперативной памятью и контроллер сети передачи данных. 3 з.п. ф-лы.
Description
Общепринятой архитектурой современных высокопроизводительных вычислительных систем для научно-технических расчётов – суперкомпьютеров - является кластер, то есть множество преимущественно однотипных по архитектуре, конфигурации и составу оборудования вычислительных узлов, объединённых высокоскоростной локальной сетью передачи данных [Лацис А. Как построить и использовать суперкомпьютер. - М., Бестселлер, 2003 г.]. По этой архитектуре построены 437 из 500 самых мощных на сегодняшний день суперкомпьютеров (актуальный список Top500 за ноябрь 2017 года [www.top500.org]). При этом доминирующей элементной базой являются универсальные высокопроизводительные и очень сложные процессоры семейства Xeon или Xeon Phi производства фирмы Intel – их используют 471 суперкомпьютера из актуального списка Top500 [www.top500.org].
Данное единообразие при всех известных достоинствах (самые известные среди них – наличие большого количества совместимого системного и прикладного программного обеспечения и единообразие обслуживания), приводит и к ряду столь же существенных проблем. Во-первых, в силу фактически монопольного положения одного производителя цены держатся на очень высоком уровне. Во-вторых, прямым следствием высокой производительности и высокой сложности продуктов является их очень высокое энергопотребление, ставшее в последние годы фактически основным ограничителем повышения производительности суперкомпьютеров. В-третьих, процессоры, ориентированные на компьютеры общего назначения, имеют избыточный для чисто вычислительных установок набор встроенного периферийного оборудования, что также приводит к избыточному энергопотреблению. В-четвёртых, универсальная архитектура этих процессоров влечёт за собой избыточную сложность сетевой подсистемы вычислительного узла, что приводит, как известно, к существенным задержкам (латентности) при обмене данными между вычислительными узлами.
В последние годы, особенно в странах Европы и в Японии, активно проводятся работы по использованию в качестве основы для перспективных суперкомпьютеров более простых процессоров, имеющих более простую архитектуру и, как следствие, относительно невысокое быстродействие, но при этом радикально более низкое энергопотребление и радикальное более низкую цену (в первую очередь – процессоры семейства ARM, широко применяемые в бытовой, мобильной и коммуникационной технике) [https://www.hpcwire.com/2017/01/19/cea-riken-partner-arm-exascale/; https://atos.net/en/2017/press-release/general-press-releases_2017_06_19/atos-expands-range-supercomputers-include-arm-processors-new-bull-sequana-x1310]. К тому же в последнее время сформировалась новая группа полупроводниковых приборов – «системы на кристалле» (SoC, ‘System-on-Chip’) на базе этих процессоров, представляющих собой собранные на одном кристалле процессор, схемы управления памятью, схемы управления вводом-выводом и другие устройства и позволяющие получить законченный вычислитель простым добавлением к нему минимального количества внешних компонентов – электропитание, память и физические порты ввода-вывода. Часто такие SoC имеют в своём составе дополнительные специализированные вычислительные компоненты – графический процессор (GPU) с возможностью выполнения вычислительных задач, векторный сопроцессор либо иные. Например, широко распространённые продукты корпорации Texas Instruments включают в себя от двух до шести вычислителей различных архитектур, более десяти каналов цифрового и аналогового ввода-вывода и другое оборудование [http://www.ti.com/processors/dsp/media-processors/products.html].
Одним из существенных факторов, огранивающих на сегодняшний день широкое применение данной процессорной архитектуры в суперкомпьютерах, является относительно невысокая единичная производительность этих процессоров, что приводит к необходимости использовать большее количество процессоров (по сравнению, например, с процессорами Intel) для получения той же суммарной производительности.
Другая известная проблема является следствием первой – это высокая удельная стоимость и высокое энергопотребление оборудования локальной вычислительной сети – вследствие невысокой единичной производительности данных процессоров и невозможности создания многопроцессорных плат из-за отсутствия в них штатных аппаратных средств межпроцессорного взаимодействия требуемое количество портов системного коммутатора сети передачи данных оказывается существенно больше, чем в случае процессоров Intel.
Важнейшим достоинством мультипроцессорных вычислительных систем, построенных на базе процессоров ARM, является существенно меньшее энергопотребление как отдельных вычислительных узлов, так и всего кластера в целом по сравнению с традиционными системами на процессорах Intel. Например, на экспериментальной установке MontBlanc продемонстрировано снижение потребления электроэнергии при решении задач гидродинамики до 2-х раз по сравнению с суперкомпьютером MareNostrum, имеющим традиционную архитектуру [Oyarzun G. Efficient CFD code implementation for the ARM-based Mont-Blanc architecture [Электронный ресурс] / G. Oyarzun, R. Borrell, A. Gorobets, F. Mantovani, A. Oliva // Future Generation Computer Systems, 2018, № 79. – Режим доступа: https://doi.org/10.1016/j.future.2017.09.029, свободный]. Установка MontBlanc построена на процессоре Samsung Exynos 5 Dual, который не имеет в себе сетевого (Ethernet) интерфейса. Поэтому фактически к каждому процессору добавляется микросхема интерфейса USB-Ethernet, которая потребляет дополнительную электроэнергию и замедляет передачу данных между узлами.
Задачей предлагаемого изобретения является расширение арсенала технических средств, применимых для построения суперкомпьютеров.
По настоящему изобретению, для достижения поставленной цели используются процессоры, выполненные в виде «системы на кристалле» и включающие в себя многоядерный центральный процессорный элемент (ЦПЭ) и непосредственно подключённые к нему блок управления оперативной памятью и контроллер сети передачи данных. Процессор может также включать в себя интегрированный графический процессор (GPU) с возможностью выполнения вычислительных задач, либо векторный сопроцессор, либо иные специализированные вычислительные компоненты.
Каждый процессор совместно с подключёнными к нему элементами оперативной памяти представляет собой вычислительный модуль. В отдельных случаях вычислительные модули могут содержать в себе дополнительно подключенные к процессору внешние специализированные вычислители, выполненные, например, на основе графических процессоров (GPU), элементов программируемой логики (FPGA) или другие. Также некоторые модули могут дополнительно содержать в себе устройства внешней памяти или устройства ввода-вывода или устройства отображения информации или несколько дополнительных устройств.
При этом одно или более ядер многоядерного ЦПЭ могут быть выполнены с возможностью осуществления функций управления работой данного ЦПЭ, в том числе приём из сети передачи данных и загрузку системного программного обеспечения, приём из сети передачи данных и загрузку прикладного программного обеспечения и данных для каждого из ядер этого ЦПЭ, управление вычислительными процессами, выполняемыми на других ядрах этого ЦПЭ и на интегрированных и/или внешних специализированных вычислителях, управление оперативной памятью вычислительного модуля, выполнение обмена данными с другими вычислительными модулями и выполнения вычислительных процессов, а остальные ядра выполнены с возможностью выполнения только вычислительных процессов. Таким образом, вспомогательные задачи, требующие многочисленных переключений и взаимодействия с внешними устройствами, выносятся на отдельный аппаратный ресурс, а большая часть вычислительных ресурсов (вычислительных ядер) эффективно загружается непрерывным, последовательным счётом, чем достигается повышение общей вычислительной эффективности.
Несколько вычислительных модулей конструктивно объединяются в вычислительный узел, который дополнительно содержит объединяющий их высокоскоростной локальный коммутатор сети передачи данных. Локальный коммутатор содержит также один или более внешних портов, посредством которых он соединяется с высокоскоростным системным коммутатором сети передачи данных, объединяющим множество вычислительных узлов в кластер.
К данному локальному коммутатору предъявляется по сути только одно существенное требование – минимальное время задержки при передаче пакетов. При этом от него не требуется никаких возможностей по каскадированию (объединению в группы), удалённому доступу, управлению потоками данных и прочих интеллектуальных функций (при этом исключаются сложные схемы управления и память большого объёма), а количество портов и подключаемых сетевых узлов минимальны (также минимальные требования к объёму памяти). Кроме того, вычислительные модули подключаются к нему в пределах одного конструктива, что делает ненужными схемы внешних физических интерфейсов (front-end) как на самом коммутаторе (за исключением внешних портов), так и на всех вычислительных модулях. Таким образом, и локальный коммутатор, и сетевая подсистема в целом могут иметь минимальную сложность и, как следствие, минимальные энергопотребление и стоимость.
Claims (13)
1. Вычислительная система для научно-технических расчётов, представляющая собой кластер из преимущественно однотипных по архитектуре, конфигурации и составу оборудования вычислительных узлов, объединённых высокоскоростной сетью передачи данных с помощью высокоскоростного системного коммутатора сети передачи данных, выполненный с возможностью одновременного решения по меньшей мере одной прикладной вычислительной задачи, отличающаяся тем, что каждый вычислительный узел содержит по меньшей мере два вычислительных модуля и высокоскоростной локальный коммутатор сети передачи данных,
причём локальный коммутатор сети передачи данных подключен своими портами к каждому вычислительному модулю, входящему в состав вычислительного узла, и по меньшей мере одним портом подключен к системному коммутатору сети передачи данных,
причём каждый вычислительный модуль включает процессор и оперативную память,
причём процессор выполнен в виде «системы на кристалле» и включает центральный процессорный элемент и непосредственно подключённый к нему блок управления оперативной памятью и контроллер сети передачи данных,
причём центральный процессорный элемент содержит, по меньшей мере, два независимых вычислительных ядра, имеющих одинаковую либо различную архитектуру, имеющих доступ к общей оперативной памяти.
2. Система по п. 1, отличающаяся тем, что по меньшей мере один вычислительный модуль дополнительно содержит в себе по меньшей мере один специализированный вычислитель.
3. Система по п. 1, отличающаяся тем, что по меньшей мере одно вычислительное ядро каждого центрального процессорного элемента выполнено с возможностью осуществления функций управления работой соответствующего центрального процессорного элемента и выполнения вычислительных процессов, а остальные ядра выполнены с возможностью выполнения только вычислительных процессов, причём набор функций управления включает в себя по меньшей мере
приём из сети передачи данных и загрузку системного программного обеспечения,
приём из сети передачи данных и загрузку прикладного программного обеспечения и данных для каждого из ядер этого центрального процессорного элемента,
управление вычислительными процессами, выполняемыми на других ядрах этого центрального процессорного элемента и на специализированных вычислителях,
управление оперативной памятью вычислительного модуля,
выполнение обмена данными с другими вычислительными модулями, входящими в состав любого вычислительного узла и образующими временную подгруппу вычислительных блоков, решающих совокупно одну задачу одновременно.
4. Система по п. 1, отличающаяся тем, что по меньшей мере один вычислительный модуль дополнительно содержит в себе устройства внешней памяти или устройства ввода-вывода или устройства отображения информации или несколько дополнительных устройств.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2018135282A RU2710890C1 (ru) | 2018-10-08 | 2018-10-08 | Вычислительная система для научно-технических расчетов |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2018135282A RU2710890C1 (ru) | 2018-10-08 | 2018-10-08 | Вычислительная система для научно-технических расчетов |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2710890C1 true RU2710890C1 (ru) | 2020-01-14 |
Family
ID=69171503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2018135282A RU2710890C1 (ru) | 2018-10-08 | 2018-10-08 | Вычислительная система для научно-технических расчетов |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2710890C1 (ru) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU137809U1 (ru) * | 2013-09-26 | 2014-02-27 | Открытое акционерное общество "Научно-исследовательский институт супер ЭВМ" (ОАО "НИИ супер ЭВМ") | Вычислительное устройство для обработки данных |
US8667049B2 (en) * | 2001-02-24 | 2014-03-04 | International Business Machines Corporation | Massively parallel supercomputer |
RU148689U1 (ru) * | 2014-05-30 | 2014-12-10 | Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Алтайский государственный университет" | Высокоскоростная интеллектуальная видеокамера для регистрации и анализа изображений быстропротекающих процессов |
RU151425U1 (ru) * | 2014-09-26 | 2015-04-10 | Российская Федерация в лице Министерства промышленности и торговли Российской Федерации | Вычислительный модуль многопроцессорной крейтовой системы и многопроцессорная система из этих модулей |
US20160011996A1 (en) * | 2010-01-08 | 2016-01-14 | International Business Machines Corporation | Multi-petascale highly efficient parallel supercomputer |
RU2626550C1 (ru) * | 2016-08-09 | 2017-07-28 | Акционерное Общество "Научно-Исследовательский Институт Микроэлектронной Аппаратуры "Прогресс" | Программно-аппаратная платформа и способ ее реализации для беспроводных средств связи |
RU2635896C1 (ru) * | 2016-07-07 | 2017-11-16 | Акционерное общество "Научно-исследовательский институт вычислительных комплексов им. М.А. Карцева" (АО "НИИВК им. М.А. Карцева") | Высокопроизводительная вычислительная платформа на базе процессоров с разнородной архитектурой |
RU2667040C1 (ru) * | 2017-09-05 | 2018-09-13 | Публичное акционерное общество "ОАК - центр комплексирования" | Интегрированная вычислительная система самолета МС-21 |
-
2018
- 2018-10-08 RU RU2018135282A patent/RU2710890C1/ru active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8667049B2 (en) * | 2001-02-24 | 2014-03-04 | International Business Machines Corporation | Massively parallel supercomputer |
US20160011996A1 (en) * | 2010-01-08 | 2016-01-14 | International Business Machines Corporation | Multi-petascale highly efficient parallel supercomputer |
RU137809U1 (ru) * | 2013-09-26 | 2014-02-27 | Открытое акционерное общество "Научно-исследовательский институт супер ЭВМ" (ОАО "НИИ супер ЭВМ") | Вычислительное устройство для обработки данных |
RU148689U1 (ru) * | 2014-05-30 | 2014-12-10 | Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Алтайский государственный университет" | Высокоскоростная интеллектуальная видеокамера для регистрации и анализа изображений быстропротекающих процессов |
RU151425U1 (ru) * | 2014-09-26 | 2015-04-10 | Российская Федерация в лице Министерства промышленности и торговли Российской Федерации | Вычислительный модуль многопроцессорной крейтовой системы и многопроцессорная система из этих модулей |
RU2635896C1 (ru) * | 2016-07-07 | 2017-11-16 | Акционерное общество "Научно-исследовательский институт вычислительных комплексов им. М.А. Карцева" (АО "НИИВК им. М.А. Карцева") | Высокопроизводительная вычислительная платформа на базе процессоров с разнородной архитектурой |
RU2626550C1 (ru) * | 2016-08-09 | 2017-07-28 | Акционерное Общество "Научно-Исследовательский Институт Микроэлектронной Аппаратуры "Прогресс" | Программно-аппаратная платформа и способ ее реализации для беспроводных средств связи |
RU2667040C1 (ru) * | 2017-09-05 | 2018-09-13 | Публичное акционерное общество "ОАК - центр комплексирования" | Интегрированная вычислительная система самолета МС-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11347477B2 (en) | Compute in/near memory (CIM) circuit architecture for unified matrix-matrix and matrix-vector computations | |
CN1906587B (zh) | 降低多处理器系统中的功耗的方法和装置 | |
CN102073481B (zh) | 多核dsp可重构专用集成电路系统 | |
CN102799563B (zh) | 一种可重构计算阵列及构建方法 | |
US7734896B2 (en) | Enhanced processor element structure in a reconfigurable integrated circuit device | |
CN111052039A (zh) | 用于经池化的加速器架构的多标准功率管理方案 | |
US20180189210A1 (en) | Integrated circuit inputs and outputs | |
CN105045566A (zh) | 一种嵌入式并行计算系统及采用其的并行计算方法 | |
RU2710890C1 (ru) | Вычислительная система для научно-технических расчетов | |
CN102929714B (zh) | 基于uC/OS-II的硬件任务管理器 | |
US10915470B2 (en) | Memory system | |
CN111078286B (zh) | 数据通信方法、计算系统和存储介质 | |
Gao et al. | Impact of reconfigurable hardware on accelerating mpi_reduce | |
Molyakov | A prototype computer with non-von Neumann architecture based on strategic domestic J7 microprocessor | |
CN204302973U (zh) | 可配置处理器计算机 | |
Aboelhassan et al. | Embedded multi-core systems for mixed-critical applications with rpmsg protocol based on xilinx zynq-7000 | |
EP3679477A1 (en) | Coherent node controller | |
Koizumi et al. | Dynamic power control with a heterogeneous multi-core system using a 3-D wireless inductive coupling interconnect | |
RU162375U1 (ru) | Вычислительный модуль | |
JP6259361B2 (ja) | プログラマブルデバイスおよびその制御方法 | |
EP3343843A1 (en) | A control plane system and method for managing a data plane amongst a plurality of equipments | |
CN111209230A (zh) | 数据处理装置、方法及相关产品 | |
CN116796816B (zh) | 处理器、计算芯片和计算设备 | |
CN117421272A (zh) | 异构计算单元间的数据传输系统及方法 | |
Patil | Efficient and Lightweight Inter-process Collective Operations for Massive Multi-core Architectures. |