RU2709677C1

RU2709677C1 - Method of remote abnormal state reset of racks used in data center

Info

Publication number: RU2709677C1
Application number: RU2019110400A
Authority: RU
Inventors: ЛИНЬ Вэй-Чэн; ХСИН По-Шэн; ЛИНЬ Чэн-Хань
Original assignee: ЭйАйСи ИНК.
Priority date: 2019-04-09
Filing date: 2019-04-09
Publication date: 2019-12-19

Abstract

FIELD: computer equipment.

SUBSTANCE: invention relates to a data center and can be used to analyze and reset abnormal state of racks used in a data center. Method of remote resetting of abnormal state of racks includes the following stages: regular reception by system of administration of any information from rack management controller (RMC) and multiple controllers of baseboard management (BMC); recording each work action performed by an administrator through an administration system; analyzing information and action by the administration system to determine whether any of the RMCs or BMCs are in one of several default states requiring attention; and automatic performance of remote restart service procedure with respect to one of RMC and BMC to prevent occurrence of abnormal state in RMC or BMC, when determining that RMC or BMC maintains connection with administration system, but abnormal condition will happen soon.

EFFECT: providing automatic performance of service procedure of RMC or BMC remote restart in rack to prevent occurrence of abnormal condition in RMC or BMC.

9 cl, 9 dwg, 2 tbl

Description

ПРЕДПОСЫЛКИ СОЗДАНИЯ ИЗОБРЕТЕНИЯBACKGROUND OF THE INVENTION

1. Область техники, к которой относится изобретение1. The technical field to which the invention relates.

Настоящее изобретение относится к дата-центру и, в частности, к способу анализа и сброса ненормального состояния стоек, применяемых в дата-центре.The present invention relates to a data center and, in particular, to a method for analyzing and resetting the abnormal condition of racks used in a data center.

2. Уровень техники2. The level of technology

Вообще говоря, администратор дата-центра может удаленно администрировать несколько контроллеров управления стойкой (RMC) и контроллеров управления материнской платой (BMC) в их стойках и узлах в дата-центре посредством интеллектуального интерфейса администрирования платформы (IPMI).Generally speaking, a data center administrator can remotely administer multiple rack management controllers (RMCs) and motherboard management controllers (BMCs) in their racks and nodes in the data center through an intelligent platform administration interface (IPMI).

Вне зависимости от того, какой способ применяется для процедуры выполнения удаленного администрирования, администратор дата-центра будет получать большое количество предупреждающих уведомлений, как только RMC/BMC какой-либо стойки или узла оказывается в ненормальном состоянии. Однако администратор едва ли может понять основную проблему ненормального состояния в тот момент, когда он или она получает предупреждающие уведомления. В частности, администратор должен быть уведомлен в нерабочее время и затем, в конечном счете, понимает, что RMC/BMC точно находится в некотором ненормальном состоянии, не раньше получения им или ей сотен или тысяч предупреждающих уведомлений или потере дата-центром соединения со стойкой/узлом.Regardless of which method is used for the remote administration procedure, the data center administrator will receive a large number of warning notifications as soon as the RMC / BMC of any rack or node is in an abnormal state. However, the administrator can hardly understand the main problem of the abnormal state at the moment when he or she receives warning notifications. In particular, the administrator must be notified after hours and then, ultimately, understands that the RMC / BMC is definitely in some abnormal state, not earlier than he or she receives hundreds or thousands of warning notifications or the data center loses connection with the rack / knot.

Более того, часть платформ администрирования, представленных на рынке, могут собирать сообщения об ошибках в стойках/узлах посредством каналов мониторинга с возможностью объединения этих сообщений об ошибках и представления отчета по оценке сбоев администратору. Однако вышеописанный подход к мониторингу все еще нуждается в администраторе для вынесения суждения согласно отчету по оценке сбоев с целью вынесения окончательного решения в отношении ненормального состояния, поэтому при вмешательстве человека всегда будет присутствовать вероятность вынесения неверного суждения.Moreover, some of the administration platforms on the market can collect error messages in racks / nodes through monitoring channels with the possibility of combining these error messages and presenting an error assessment report to the administrator. However, the monitoring approach described above still needs an administrator to make judgments according to the failure assessment report in order to make a final decision regarding the abnormal state, so there will always be the likelihood of an incorrect judgment being made upon human intervention.

Согласно вышеуказанной претензии, в области техники необходима новая система/способ, способный автоматически выполнять процедуру восстановления RMC/BMC, находящегося в ненормальном состоянии, из удаленного пункта, с целью усиления способности к мониторингу дата-центра. Также администрирование стоек может быть высокоавтоматизированным с целью сокращения времени, которое тратится на человеческое решение, и также с целью предотвращения администрирования, основанного на неверном суждении из-за вмешательства человека.According to the above claim, in the technical field, a new system / method is required that is able to automatically perform the recovery procedure of an RMC / BMC, which is in an abnormal condition, from a remote location, in order to enhance the ability to monitor the data center. Also, the administration of racks can be highly automated in order to reduce the time spent on a human decision, and also to prevent administration based on incorrect judgment due to human intervention.

Ближайшим аналогом к настоящей заявке является документ TW201714432, в котором описывается служебный контроллер, содержащий один или более сетевых интерфейсов, поддерживающих связь с другим устройством в сервере; процессор, соединенный с сетевыми интерфейсами и выполненный с возможностью исполнения одного или более процессов; запоминающее устройство, выполненное с возможностью хранения команд, исполняемых процессором. Команды, при их исполнении процессором, заставляют процессор выполнять операции включающие: мониторинг устройства физического уровня в сервере и по меньшей мере одного сетевого коннектора, соединенного с устройством физического уровня, причем устройство физического уровня обеспечивает обмен данными между по меньшей мере одним контроллером доступа к среде и по меньшей мере одним сетевым коннектором; определение состояния устройства физического уровня или состояния по меньшей мере одного сетевого коннектора, которое указывает по меньшей мере одно из предупреждения или сбоя; и передачу сигнала тревоги, соответствующего по меньшей мере одному из предупреждения или сбоя на контроллер управления стойкой.The closest analogue to this application is document TW201714432, which describes a service controller containing one or more network interfaces that communicate with another device in the server; a processor connected to network interfaces and configured to execute one or more processes; a storage device configured to store instructions executed by the processor. The commands, when executed by the processor, cause the processor to perform operations including: monitoring the physical layer device in the server and at least one network connector connected to the physical layer device, the physical layer device providing data exchange between at least one medium access controller and at least one network connector; determining a state of a physical layer device or a state of at least one network connector that indicates at least one of a warning or failure; and transmitting an alarm corresponding to at least one of the warning or failure to the rack control controller.

СУЩНОСТЬ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION

Целью настоящего изобретения является предоставление способа удаленного сброса ненормального состояния стоек, применяемых в дата-центре, который может автоматически выполнять служебную процедуру удаленного перезапуска в отношении RMC или BMC в стойке для предотвращения возникновения в RMC или BMC ненормального состояния при каждом определении того, что RMC или BMC имеет нормальное соединение, но ненормальное состояние RMC или BMC скоро случится.An object of the present invention is to provide a method for remotely resetting an abnormal condition of racks used in a data center that can automatically perform a remote restart service procedure for an RMC or BMC in a rack to prevent an abnormal condition from occurring in the RMC or BMC each time it is determined that the RMC or The BMC has a normal connection, but an abnormal RMC or BMC condition will happen soon.

В одном из иллюстративных вариантов осуществления способ согласно настоящему изобретению по меньшей мере включает следующие этапы: регулярное получение любой информации от RMC и нескольких BMC в стойке системой администрирования стоечного сервера из удаленного пункта; запись любого порядка действий, выполняемого администратором посредством системы администрирования стоечного сервера; анализ информации и порядка действий системой администрирования стоечного сервера для определения того, находится ли какой-либо из RMC и BMC в стойке в одном из нескольких определенных заранее состояний, требующих внимания.In one illustrative embodiment, the method according to the present invention at least includes the following steps: regularly receiving any information from the RMC and several BMCs in a rack by the rack server administration system from a remote location; recording any order of actions performed by the administrator through the administration system of the rack server; analysis of the information and procedure of the rack server administration system to determine if any of the RMCs and BMCs in the rack are in one of several predefined states that require attention.

При определении того, что один из RMC или BMC имеет нормальное соединение с системой администрирования стоечного сервера, но ненормальное состояние RMC или BMC скоро случится, система администрирования стоечного сервера автоматически выполняет служебную процедуру удаленного перезапуска в отношении такого RMC/BMC для предотвращения возникновения такого ненормального состояния в RMC 21/BMC 22.When it is determined that one of the RMC or BMC has a normal connection to the rack server administration system, but an abnormal RMC or BMC state occurs soon, the rack server administration system automatically performs a remote restart service procedure for that RMC / BMC to prevent such an abnormal state in RMC 21 / BMC 22.

В сравнении с известным уровнем техники способ, раскрытый в настоящем изобретении, выполняет анализ и процедуры удаленного восстановления посредством системы администрирования стоечного сервера, соединенной и связанной со стойкой в дата-центре, поэтому отпадает необходимость в традиционном человеческом решении, принимаемом администратором для суждения о ненормальном состоянии. Таким образом, стоимость администрирования при мониторинге стойки может быть уменьшена. Также отсутствует вмешательство человека при мониторинге стойки, так что традиционное влияние расстояния и времени также может быть устранено.Compared with the prior art, the method disclosed in the present invention performs analysis and remote recovery procedures by means of a rack server administration system connected to and connected to a rack in a data center, so there is no need for a traditional human decision made by an administrator to judge an abnormal condition . Thus, the cost of administering rack monitoring can be reduced. There is also no human intervention in monitoring the rack, so the traditional influence of distance and time can also be eliminated.

КРАТКОЕ ОПИСАНИЕ ГРАФИЧЕСКИХ МАТЕРИАЛОВBRIEF DESCRIPTION OF GRAPHIC MATERIALS

На фиг. 1 показана принципиальная схема, изображающая дата-центр согласно настоящему изобретению.In FIG. 1 is a schematic diagram showing a data center according to the present invention.

На фиг. 2 показана функциональная схема стойки согласно первому варианту осуществления настоящего изобретения.In FIG. 2 is a functional diagram of a rack according to a first embodiment of the present invention.

На фиг. 3A показана блок-схема сбора данных согласно первому варианту осуществления настоящего изобретения.In FIG. 3A is a data acquisition flowchart according to a first embodiment of the present invention.

На фиг. 3B показана блок-схема сбора данных согласно второму варианту осуществления настоящего изобретения.In FIG. 3B is a data acquisition flowchart according to a second embodiment of the present invention.

На фиг. 4 показана блок-схема анализа и сброса согласно первому варианту осуществления настоящего изобретения.In FIG. 4 shows a block diagram of an analysis and reset according to a first embodiment of the present invention.

На фиг. 5 показана блок-схема для сброса первого типа состояния, требующего внимания, согласно первому варианту осуществления настоящего изобретения.In FIG. 5 is a flowchart for resetting a first type of condition requiring attention according to a first embodiment of the present invention.

На фиг. 6 показана блок-схема для сброса первого типа состояния, требующего внимания, согласно второму варианту осуществления настоящего изобретения.In FIG. 6 is a flowchart for resetting a first type of condition requiring attention according to a second embodiment of the present invention.

На фиг. 7 показана блок-схема для сброса второго типа состояния, требующего внимания, согласно первому варианту осуществления настоящего изобретения.In FIG. 7 is a flowchart for resetting a second type of condition requiring attention according to a first embodiment of the present invention.

На фиг. 8 показана блок-схема для сброса третьего типа состояния, требующего внимания, согласно первому варианту осуществления настоящего изобретения.In FIG. 8 is a flowchart for resetting a third type of condition requiring attention according to a first embodiment of the present invention.

ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯDETAILED DESCRIPTION OF THE INVENTION

Здесь и далее в сочетании с прилагаемыми графическими материалами описывается техническое содержание и приводится подробное описание настоящего изобретения согласно предпочтительному варианту осуществления, не используемому с целью ограничения его объема правовой охраны. Любые эквивалентные варианты и модификации, выполненные согласно прилагаемой формуле изобретения, попадают под объем правовой охраны формулы, заявленной в настоящем изобретении.Hereinafter, in combination with the accompanying graphic materials, the technical content is described and a detailed description of the present invention is given according to a preferred embodiment not used to limit its scope of legal protection. Any equivalent variations and modifications made in accordance with the appended claims fall within the scope of legal protection of the claims claimed in the present invention.

Настоящее изобретение раскрывает способ удаленного сброса ненормального состояния стоек (именуемый далее способом сброса), причем способ сброса в основном применяют в отношении дата-центра для помощи администратору дата-центра в мониторинге, анализе и сбросе разных видов ненормальных состояний в пределах дата-центра.The present invention discloses a method for remotely resetting an abnormal state of racks (hereinafter referred to as a reset method), the reset method being mainly applied to a data center to assist the data center administrator in monitoring, analyzing and resetting various types of abnormal conditions within the data center.

На фиг. 1 показана принципиальная схема, изображающая дата-центр согласно настоящему изобретению. Как показано на фиг. 1, дата-центр 1 в настоящем изобретении содержит несколько стоек 2, а также содержит систему 3 администрирования стоечного сервера (именуемую далее системой 3 администрирования), удаленно соединенную и связанную с несколькими стойками 2. Система 3 администрирования может быть расположена непосредственно в дата-центре 1. Однако система 3 администрирования может также быть расположена в удаленном пункте вне дата-центра 1. В этом сценарии система 3 администрирования может быть соединена с сетевым коммутатором 4 сети общего пользования посредством сети Интернет и соединена с несколькими стойками 2 в дата-центре 1 посредством сетевого коммутатора 4 сети общего пользования.In FIG. 1 is a schematic diagram showing a data center according to the present invention. As shown in FIG. 1, the data center 1 in the present invention contains several racks 2, and also includes a rack server administration system 3 (hereinafter referred to as the administration system 3) remotely connected and connected to several racks 2. The administration system 3 can be located directly in the data center 1. However, the administration system 3 may also be located at a remote location outside the data center 1. In this scenario, the administration system 3 may be connected to a network switch 4 of a public network om the Internet and is connected to several racks 2 in the data center 1 through a network switch 4 of the public network.

Система 3 администрирования в настоящем изобретении может осуществлять мониторинг нескольких стоек 2 в дата-центре 1, извлекать любую информацию из нескольких стоек 2 и анализировать извлеченную информацию в режиме реального времени. Каждый раз, когда система 3 администрирования замечает, что одна из стоек 2 находится в ненормальном состоянии или ненормальное состояние скоро возникнет в какой-либо из стоек 2, она может автоматически выполнять одну из нескольких заранее заданных исполнительных процедур, соответствующих ненормальному состоянию, для сброса такого ненормального состояния стойки 2. Таким образом, благодаря техническому решению, предложенному в настоящем изобретении, можно сбросить существующее ненормальное состояние стоек 2 или предотвратить наступление ненормального состояния стоек 2 без какого-либо вмешательства человека, с целью устранения неверного человеческого суждения и ускорения всей исполнительной процедуры.The administration system 3 in the present invention can monitor several racks 2 in the data center 1, extract any information from several racks 2 and analyze the extracted information in real time. Each time the administration system 3 notices that one of the racks 2 is in an abnormal state or that an abnormal state soon arises in any of the racks 2, it can automatically perform one of several predetermined execution procedures corresponding to the abnormal state to reset such the abnormal state of the racks 2. Thus, due to the technical solution proposed in the present invention, it is possible to reset the existing abnormal state of the racks 2 or prevent the occurrence of e abnormal condition of racks 2 without any human intervention, in order to eliminate the wrong human judgment and speed up the entire executive procedure.

В одном варианте осуществления система 3 администрирования представляет собой персональный компьютер (PC) или облачный сервер со встроенным одним или более центральными процессорами (CPU). После активации система 3 администрирования может соединяться с несколькими стойками 2 в дата-центре 1 посредством сетевого коммутатора 4 сети общего пользования и осуществлять по меньшей мере процедуру мониторинга, процедуру анализа данных и процедуру сброса ненормального состояния этих стоек 2 путем выполнения специфичных прикладных программ или алгоритмов посредством одного или более CPU.In one embodiment, the administration system 3 is a personal computer (PC) or a cloud server with one or more central processing units (CPUs) embedded. After activation, the administration system 3 can connect to several racks 2 in the data center 1 through a network switch 4 of the public network and carry out at least a monitoring procedure, a data analysis procedure and a procedure for resetting the abnormal state of these racks 2 by executing specific application programs or algorithms by one or more CPUs.

Система 3 администрирования может также содержать базу 31 данных, выполненную с возможностью временного или постоянного хранения информации, извлеченной из нескольких стоек 2 в дата-центре 1. В варианте осуществления, показанном на фиг. 1, база 31 данных встроена в систему 3 администрирования. Однако система 3 администрирования в другом варианте осуществления может также быть соединенной с одной или более базами 31 данных, не ограничиваясь этим.The administration system 3 may also comprise a database 31 configured to temporarily or permanently store information extracted from several racks 2 in the data center 1. In the embodiment shown in FIG. 1, the database 31 is built into the administration system 3. However, the administration system 3 in another embodiment may also be connected to one or more databases 31, but not limited to.

На фиг. 2 показана функциональная схема стойки согласно первому варианту осуществления настоящего изобретения. В варианте осуществления, показанном на фиг. 2, для простоты описания в качестве примера взята одна единственная стойка 2 в дата-центре 1, соединенная с вышеуказанной системой 3 администрирования. Однако дата-центр 1 может быть выполнен с использованием нескольких стоек 2 в соответствии с реальными потребностями, без ограничения тем, что раскрыто на фиг. 2.In FIG. 2 is a functional diagram of a rack according to a first embodiment of the present invention. In the embodiment shown in FIG. 2, for simplicity of description, one single rack 2 in the data center 1, connected to the above administration system 3, was taken as an example. However, the data center 1 can be implemented using several racks 2 in accordance with real needs, without limiting what is disclosed in FIG. 2.

Как раскрыто на фиг. 2, стойка 2 в основном содержит по меньшей мере один контроллер 21 управления стойкой (RMC), и также содержит несколько узлов 220, соединенных с RMC 21, причем каждый из узлов 220 соответственно содержит по меньшей мере один контроллер 22 управления материнской платой (BMC). То есть, стойка 2 по меньшей мере содержит один RMC 21 и множество BMC 22.As disclosed in FIG. 2, the rack 2 basically comprises at least one rack control controller (RMC) 21, and also comprises several nodes 220 connected to the RMC 21, each of the nodes 220 respectively comprising at least one motherboard control controller (BMC) 22 . That is, rack 2 at least comprises one RMC 21 and a plurality of BMC 22.

Вышеуказанный RMC 21 является встроенной системой и размещен внутри стойки 2. RMC 21 может помогать внутренним аппаратным устройствам внутри стойки 2, таким как вентиляторы охлаждения, датчики, источники питания и т. д. поддерживать связь с внешними устройствами посредством разных аппаратных линий, и также поддерживать связь с BMC 22 каждого узла 220 в стойке 2. Вышеуказанный BMC 22 также является встроенной системой, размещенной в каждом узле 220 для помощи внутренним аппаратным устройствам в узле 220, таким как датчики, при связи с другими внешними аппаратами.The above RMC 21 is an embedded system and is located inside rack 2. RMC 21 can help internal hardware devices inside rack 2, such as cooling fans, sensors, power supplies, etc., communicate with external devices through different hardware lines, and also support communication with BMC 22 of each node 220 in rack 2. The above BMC 22 is also an embedded system located on each node 220 to assist internal hardware devices in node 220, such as sensors, in communication with other external devices Atami.

В данном варианте осуществления RMC 21 соединен со всеми BMC 22 в узлах 220 стойки 2 посредством внутренних аппаратных линий 24 с целью связи с каждым из BMC 22 и управления каждым узлом 220 и извлечения информации с BMC 22 и узлов 220. В этом варианте осуществления эти узлы 220 могут представлять собой, например, серверы башенной модели, блейд-серверы, и т. д., но не ограничиваясь этим.In this embodiment, the RMC 21 is connected to all BMC 22s in the nodes 220 of the rack 2 through internal hardware lines 24 to communicate with each BMC 22 and control each node 220 and retrieve information from the BMC 22 and nodes 220. In this embodiment, these nodes 220 may be, for example, tower model servers, blade servers, etc., but not limited to.

Как раскрыто на фиг. 2, каждый узел 220, размещенный в стойке 2, имеет закрепленный номер места соответственно (как, например, №1, №2, №n как показано на фиг. 2). Если функция внешней сети узла 220 или BMC 22 повреждена, RMC 21 может соединиться с указанным местом стойки 2 (таким, как №1, №2, №n, как указано выше) посредством внутренних аппаратных линий 24 с целью связи с узлом 220 или BMC 22, размещенным в указанном месте. Таким образом, даже при потере узлом 220 или BMC 22 своего сетевого соединения, он по-прежнему может подвергаться мониторингу посредством RMC 21 в той же стойке 2, так что ненормальное состояние узла 220 или BMC 22 может также быть проанализировано и сброшено посредством RMC 21.As disclosed in FIG. 2, each node 220 located in the rack 2 has a fixed seat number, respectively (as, for example, No. 1, No. 2, No. n as shown in Fig. 2). If the external network function of the node 220 or BMC 22 is damaged, the RMC 21 can connect to the specified location of the rack 2 (such as No. 1, No. 2, No. n, as described above) via internal hardware lines 24 to communicate with the node 220 or BMC 22 located at the indicated location. Thus, even if the node 220 or BMC 22 loses its network connection, it can still be monitored by the RMC 21 in the same rack 2, so that the abnormal state of the node 220 or BMC 22 can also be analyzed and reset by the RMC 21.

Кроме того, RMC 21 в настоящем изобретении выполнен с контроллером 211 сетевого интерфейса (NIC), и каждый из BMC 22 также выполнен с сетевым внутренним контроллером 221. RMC 21 соединен с сетевым коммутатором 23 внутренней сети в стойке 2 посредством NIC 211, и каждый из BMC 22 соответственно соединен с сетевым коммутатором 23 внутренней сети посредством каждого из NIC 221. Стойка 2 соединена с сетевым коммутатором 4 сети общего пользования посредством сетевого коммутатора 23 внутренней сети и устанавливает сетевое соединение с системой 3 администрирования посредством сетевого коммутатора 4 сети общего пользования. Таким образом, система 3 администрирования может проверять стойку 2 в дата-центре 1 из удаленного пункта посредством сети Интернет и система 3 администрирования может запрашивать и извлекать любую информацию их RMC21 и всех BMC 22 в стойке 2 и хранить информацию в базе 31 данных.In addition, the RMC 21 in the present invention is configured with a network interface controller (NIC) 211, and each of the BMC 22 is also configured with a network internal controller 221. The RMC 21 is connected to the network switch 23 of the internal network in the rack 2 via the NIC 211, and each of The BMC 22 is respectively connected to the network switch 23 of the internal network via each of the NIC 221. The rack 2 is connected to the network switch 4 of the public network via the network switch 23 of the internal network and establishes a network connection with the administration system 3 in the middle Twomey network switch 4 PSTN. Thus, the administration system 3 can check the rack 2 in the data center 1 from a remote location via the Internet and the administration system 3 can request and retrieve any information from their RMC21 and all BMC 22 in the rack 2 and store the information in the database 31.

Одним из технических отличий настоящего изобретения является то, что система 3 администрирования может регулярно проверять стойку 2 для извлечения любой информации, такой как данные о состоянии, журнал событий, степень использования системных ресурсов, показание внутренних датчиков в узлах 220 и т. д., в отношении RMC 21 и BMC 22 в стойке 2 с активным анализом того, находятся ли RMC 21 и BMC 22 в ненормальном состоянии или возникнет ли ненормальное состояние согласно извлеченной информации. Если система 3 администрирования определяет, что необходимо проведение процедуры после анализа вышеуказанной информации, она может активно выполнять соответствующую процедуру удаленно для сброса существующего ненормального состояния RMC 21 или BMC 22 из удаленного пункта или для предотвращения возникновения спрогнозированного ненормального состояния в RMC 21 или BMC 22.One of the technical differences of the present invention is that the administration system 3 can regularly check rack 2 to retrieve any information, such as status data, an event log, the degree of use of system resources, the reading of internal sensors at nodes 220, etc., in regarding RMC 21 and BMC 22 in rack 2 with an active analysis of whether the RMC 21 and BMC 22 are in an abnormal state or if an abnormal state will occur according to the extracted information. If the administration system 3 determines that it is necessary to carry out the procedure after analyzing the above information, it can actively perform the corresponding procedure remotely to reset the existing abnormal state of the RMC 21 or BMC 22 from a remote location or to prevent the occurrence of a predicted abnormal state in the RMC 21 or BMC 22.

Благодаря техническому решению, предложенному в настоящем изобретении, можно разобраться с ненормальными состояниями без вмешательства человека с целью уменьшения возможности неверного человеческого суждения и с возможностью создания высокоавтоматизированной процедуры мониторинга стойки 2.Thanks to the technical solution proposed in the present invention, it is possible to deal with abnormal conditions without human intervention in order to reduce the possibility of incorrect human judgment and with the possibility of creating a highly automated monitoring procedure rack 2.

Рассмотрим фиг. 3A, которая представляет собой блок-схему сбора данных согласно первому варианту осуществления настоящего изобретения.Consider FIG. 3A, which is a data acquisition flowchart according to a first embodiment of the present invention.

Как показано на фиг. 3A, если администратор желает произвести мониторинг стойки 2 в дата-центре 1, он или она может непосредственно активировать систему 3 администрирования, расположенную в удаленном пункте (этап S11). После активации система 3 администрирования может выполнять процедуру удаленной проверки для активной проверки RMC 21 и всех BMC 22 в стойке 2 (единственная стойка 2, как проиллюстрировано на фиг. 2) в дата-центре 1 из удаленного пункта (этап S12). Также система 3 администрирования может выполнять процедуру извлечения информации для извлечения любой информации из RMC 21 и всех BMC 22 в стойке 2 посредством процедуры удаленной проверки (этап S13). Система 3 администрирования может дополнительно выполнять процедуру сохранения для сохранения извлеченной информации в базу 31 данных (этап S14).As shown in FIG. 3A, if the administrator wishes to monitor rack 2 in the data center 1, he or she can directly activate the administration system 3 located in the remote location (step S11). After activation, the administration system 3 can perform a remote verification procedure for actively checking the RMC 21 and all BMC 22 in rack 2 (single rack 2, as illustrated in FIG. 2) in the data center 1 from the remote location (step S12). Also, the administration system 3 may perform an information extraction procedure to extract any information from the RMC 21 and all BMC 22 in the rack 2 through the remote verification procedure (step S13). The administration system 3 may further perform a storage procedure to save the extracted information to the database 31 (step S14).

В частности, система 3 администрирования в этом варианте осуществления может регулярно и активно проверять стойку 2 после активации, что делает процедуру удаленной проверки, процедуру извлечения информации и процедуру сохранения, как показано на этапе S12, этапе S13 и этапе S14, плановой последовательностью после активации системы 3 администрирования. При исполнении плановой последовательности система 3 администрирования продолжает определять, включена ли она или выключена (этап S15), и система 3 администрирования может продолжать исполнение этапов S12–S14 для непрерывного мониторинга RMC21 и BMC 22 в стойке 2 перед выключением.In particular, the administration system 3 in this embodiment can regularly and actively check rack 2 after activation, which makes the remote verification procedure, the information extraction procedure, and the storage procedure, as shown in step S12, step S13, and step S14, a planned sequence after activating the system 3 administrations. When the planned sequence is executed, the administration system 3 continues to determine whether it is turned on or off (step S15), and the administration system 3 can continue to execute steps S12 – S14 to continuously monitor the RMC21 and BMC 22 in rack 2 before shutting down.

Рассмотрим фиг. 3B, которая представляет собой блок-схему сбора данных согласно второму варианту осуществления настоящего изобретения.Consider FIG. 3B, which is a data acquisition flowchart according to a second embodiment of the present invention.

После активации системы 3 администрирования администратором (этап S21) система 3 администрирования может предоставить рабочий интерфейс (этап S22). Администратор может войти в систему 3 администрирования посредством рабочего интерфейса с целью мониторинга информации в каждой стойке 2 в дата-центре 1 и управления ею посредством системы 3 администрирования из удаленного пункта. В данном варианте осуществления рабочий интерфейс может представлять собой физический интерфейс или веб-интерфейс, но не ограничиваясь этим.After activating the administration system 3 by the administrator (step S21), the administration system 3 may provide a working interface (step S22). The administrator can enter the administration system 3 through the working interface in order to monitor information in each rack 2 in the data center 1 and manage it through the administration system 3 from a remote location. In this embodiment, the working interface may be a physical interface or a web interface, but not limited to.

После предоставления рабочего интерфейса система 3 администрирования продолжает определение того, получена ли выполняемая операция от администратора посредством рабочего интерфейса или нет (этап S23). Если система 3 администрирования получает операцию, выполненную администратором, система 3 администрирования может выполнять соответствующее удаленное администрирование в отношении стойки 2 и также RMC 21 и BMC 22 в стойке 2 из удаленного пункта согласно порядку действий администратора (этап S24). Далее система 3 администрирования может записывать вышеуказанный порядок действий, выполняемый администратором (этап S25). Также система 3 администрирования может извлекать и записывать обратную информацию, сгенерированную и полученную в ответ от системы 3 администрирования, стойки 2, каждого узла 220, RMC 21 и любого BMC 22 в соответствии с удаленным администрированием (т. е. согласно порядку действий администратора) (этап S26). Наконец, система 3 администрирования сохраняет вышеуказанный порядок действий и обратную информацию в базу 31 данных (этап S27) с целью анализа в отношении ненормального состояния в последующих процедурах.After providing the working interface, the administration system 3 continues to determine whether the operation to be performed is received from the administrator by means of the working interface or not (step S23). If the administration system 3 receives an operation performed by the administrator, the administration system 3 can perform corresponding remote administration with respect to the rack 2 and also the RMC 21 and BMC 22 in the rack 2 from the remote location according to the procedure of the administrator (step S24). Next, the administration system 3 may record the above procedure performed by the administrator (step S25). Also, the administration system 3 can extract and record the reverse information generated and received in response from the administration system 3, rack 2, each node 220, RMC 21, and any BMC 22 in accordance with the remote administration (i.e., according to the order of the administrator) ( step S26). Finally, the administration system 3 stores the above procedure and the reverse information into the database 31 (step S27) for analysis with respect to the abnormal condition in the following procedures.

Схожим образом система 3 администрирования в данном варианте осуществления полагает действия на этапах S22–S27 плановой последовательностью после активации. При исполнении плановой последовательности система 3 администрирования продолжает определять, включена ли она или выключена (этап S28), и система 3 администрирования продолжает исполнение этапов S22–S27 перед выключением для непрерывного мониторинга и анализа влияния, вызванного порядком действий, выполняемым администратором, на RMC 21 и BMC 22 в стойке 2.Similarly, the administration system 3 in this embodiment sets the actions in steps S22 – S27 to be the planned sequence after activation. When executing the planned sequence, the administration system 3 continues to determine whether it is turned on or off (step S28), and the administration system 3 continues to execute steps S22 – S27 before shutting down to continuously monitor and analyze the effect caused by the order of operations performed by the administrator on the RMC 21 and BMC 22 Rack 2.

Рассмотрим фиг. 4, которая представляет собой блок-схему анализа и сброса согласно первому варианту осуществления настоящего изобретения.Consider FIG. 4, which is a block diagram of an analysis and reset according to a first embodiment of the present invention.

Как показано на фиг. 4, система 3 администрирования может регулярно получать доступ к базе 31 данных (этап S31), извлекать любую информацию из RMC 21 и BMC 22 в стойке 2, порядок действий, выполняемый администратором, и любую обратную информацию из базы 31 данных (этап S32), и выполнять анализ вышеуказанных извлеченных данных. Путем анализа вышеуказанных данных система 3 администрирования может анализировать, находится ли RMC 21 или каждый из BMC 22 в стойке 2 в одном или более предварительно определенных состояниях, требующих внимания (этап S33).As shown in FIG. 4, the administration system 3 can regularly access the database 31 (step S31), retrieve any information from the RMC 21 and BMC 22 in the rack 2, the procedure performed by the administrator, and any feedback from the database 31 (step S32), and perform an analysis of the above extracted data. By analyzing the above data, the administration system 3 can analyze whether the RMC 21 or each of the BMC 22 in rack 2 is in one or more predetermined states requiring attention (step S33).

В одном варианте осуществления система 3 администрирования может в режиме реального времени получать всю информацию от RMC 21 и BMC 22 в стойке 2, в режиме реального времени получать порядок действий, выполняемый посредством рабочего интерфейса, и затем выполнять анализ полученных данных. В другом варианте осуществления система 3 администрирования может регулярно сохранять вышеуказанные данные в базу 31 данных посредством этапа S14, как показано на фиг. 3A, и этапа S27, как показано на фиг. 3B, с регулярным извлечением вышеуказанных данных из базы 31 данных для анализа, но не ограничиваясь этим.In one embodiment, the administration system 3 may in real-time receive all information from the RMC 21 and BMC 22 in rack 2, in real-time receive the order of actions performed through the working interface, and then analyze the received data. In another embodiment, the administration system 3 may regularly save the above data to the database 31 by step S14, as shown in FIG. 3A and step S27 as shown in FIG. 3B, with regular extraction of the above data from the database 31 for analysis, but not limited to.

В одном варианте осуществления вышеуказанная информация из RMC 21 и BMC 22 может представлять собой, например, данные о состоянии (как, например, нахождение в рабочем режиме или в режиме обновления, IP-адрес, MAC-адрес, маска подсети, IP-адрес шлюза, текущая длительность сеанса IPMI и т. д.), журнал событий и т. д., и вышеуказанный порядок действий может представлять собой, например, процедуру запроса данных, процедуру обновления, процедуру сброса и т. д., выполняемые администратором в отношении конкретной стойки 2, узла 220, RMC 21 или BMC 22, но не ограничиваясь этим. Учитывая вышеуказанные данные, система 3 администрирования может анализировать, есть ли в стойке 2 в данный момент RMC 21 или BMC 22, нуждающийся в немедленном аварийном восстановлении посредством выполнения соответствующего алгоритма.In one embodiment, the above information from RMC 21 and BMC 22 may be, for example, status data (such as being in operational mode or in update mode, IP address, MAC address, subnet mask, gateway IP address , the current duration of the IPMI session, etc.), the event log, etc., and the above procedure may be, for example, a data request procedure, an update procedure, a reset procedure, etc., performed by the administrator in relation to a specific racks 2, node 220, RMC 21 or BMC 22, but not limited to Tim. Given the above data, the administration system 3 can analyze whether rack 2 currently has an RMC 21 or BMC 22 in need of immediate disaster recovery by running the appropriate algorithm.

В варианте осуществления, показанном на фиг. 4, система 3 администрирования может предварительно определять три типа состояния, требующего внимания, включая первый тип состояния, требующего внимания, второй тип состояния, требующего внимания, и третий тип состояния, требующего внимания, причем эти три типа состояний, требующих внимания, соответствуют в указанном порядке разным ненормальным состояниям RMC 21/BMC 22 и требуют от системы 3 администрирования выполнения разных процедур по сбросу или предотвращению ненормальных состояний непосредственно из удаленного пункта.In the embodiment shown in FIG. 4, the administration system 3 may pre-determine three types of conditions requiring attention, including the first type of conditions requiring attention, the second type of conditions requiring attention, and the third type of conditions requiring attention, and these three types of conditions requiring attention correspond to the specified in order to different abnormal states of RMC 21 / BMC 22 and require system 3 to administer different procedures to reset or prevent abnormal states directly from a remote location.

Как показано на фиг. 4, если система 3 администрирования «понимает», что какой-либо из RMC 21 и BMC 22 находится в некотором ненормальном состоянии, но поддерживает соединение с системой 3 администрирования после анализа вышеуказанных данных (таких как данные о состоянии, журнал событий и порядок действий администратора), она будет полагать, что RMC 21/BMC 22 находится в вышеуказанном первом типе состояния, требующего внимания (этап S34). При «понимании», что один из RMC 21 и BMC 22 находится в первом типе состояния, требующего внимания, система 3 администрирования может автоматически выполнять процедуру удаленного восстановления RMC 21/BMC 22, находящегося в первом типе состояния, требующего внимания, с целью удаленного сброса ненормального состояния RMC 21/BMC 22 (этап S37).As shown in FIG. 4, if the administration system 3 “understands” that any of the RMC 21 and BMC 22 is in some abnormal state, but maintains a connection to the administration system 3 after analyzing the above data (such as status data, event log, and administrative procedures ), she will believe that RMC 21 / BMC 22 is in the above first type of condition requiring attention (step S34). With the “understanding” that one of the RMC 21 and BMC 22 is in the first type of state requiring attention, the administration system 3 can automatically perform a remote recovery procedure for the RMC 21 / BMC 22 in the first type of state requiring attention for the purpose of remote reset the abnormal state of the RMC 21 / BMC 22 (step S37).

Если система 3 администрирования «понимает», что какой-либо из RMC 21 и BMC 22 нормально соединен с системой 3 администрирования, но некоторое ненормальное состояние скоро возникнет в RMC 21/BMC 22, после анализа вышеуказанных данных (таких как данные о состоянии RMC 21 и BMC 22), она будет полагать, что RMC 21/BMC 22 находится в вышеуказанном втором типе состояния, требующего внимания (этап S35). При «понимании», что один из RMC 21 и BMC 22 находится во втором типе состояния, требующего внимания, система 3 администрирования может автоматически выполнять служебную процедуру удаленного перезапуска RMC 21/BMC 22, находящегося во втором типе состояния, требующего внимания, с целью предотвращения возникновения возможного ненормального состояния в RMC 21/BMC 22 (этап S38).If the administration system 3 “understands” that any of the RMC 21 and BMC 22 are normally connected to the administration system 3, but some abnormal condition will soon occur in the RMC 21 / BMC 22, after analyzing the above data (such as RMC 21 status data and BMC 22), she will consider that RMC 21 / BMC 22 is in the above second type of condition requiring attention (step S35). With the “understanding” that one of the RMC 21 and BMC 22 is in the second type of state requiring attention, the administration system 3 can automatically perform a remote remote control service routine of the RMC 21 / BMC 22 in the second type of state requiring attention, in order to prevent the occurrence of a possible abnormal condition in RMC 21 / BMC 22 (step S38).

Если система 3 администрирования «понимает», что какой-либо из BMC 22 утратил сетевое соединение после анализа вышеуказанных данных (таких как данные о состоянии, порядок действий администратора и любая обратная информации), она будет полагать, что BMC 22 находится в вышеуказанном третьем типе состояния, требующего внимания (этап S36). При «понимании», что один из BMC 22 находится в третьем типе состояния, требующего внимания, система 3 администрирования может автоматически выполнять процедуру удаленного аварийного восстановления BMC 22, находящегося в третьем типе состояния, требующего внимания, с целью удаленного сброса состояния утраченного соединения BMC 22 для восстановления сетевого соединения BMC 22 (этап S39).If the administration system 3 “understands” that any of the BMC 22 has lost the network connection after analyzing the above data (such as status data, the administrator’s order of actions and any return information), it will assume that the BMC 22 is in the above third type a condition requiring attention (step S36). With the “understanding” that one of the BMC 22 is in the third type of state requiring attention, the administration system 3 can automatically perform a remote disaster recovery procedure for BMC 22 in the third type of state requiring attention in order to remotely reset the lost BMC 22 connection to reconnect the BMC 22 network connection (step S39).

Ниже будет описан вышеуказанный первый тип состояния, требующего внимания.Below will be described the above first type of condition requiring attention.

Поскольку часть RMC 21/BMC 22 не имеет базовой системы ввода/вывода (BIOS), она должна устанавливать свое время посредством службы протокола сетевого времени (NTP), предоставляемого внешним сервером, или посредством генератора импульсов времени (RTC), предоставленным аппаратно (например, микросхемой генератора импульсов), чтобы осуществить синхронизацию времени с другими аппаратами.Since the RMC 21 / BMC 22 part does not have a basic input / output system (BIOS), it must set its time using the network time protocol (NTP) service provided by an external server, or through a time pulse generator (RTC) provided by hardware (e.g. pulse generator chip) to synchronize time with other devices.

Как описано выше, если системное событие происходит перед завершением RMC 21 или BMC 22 процедуры синхронизации времени, это системное событие может по-прежнему быть записано в журнал событий RMC 21/BMC 22, но в колонку «время» журнала событий, соответствующую этому системному событию, будет записана лишь текстовая информация, такая как «Предшествует инициализации», вместо точного времени возникновения события, указывающего на возникновение системного события. Без точного времени возникновения системного события администратор может вынести неверное суждение о системном событии из-за того, что журнал событий не может полагаться значимым указателем системного события. Кроме того, если RMC 21 или BMC 22 нуждается в выполнении процедуры сброса, он может также стать причиной такой же или похожей ситуации, при которой время возникновения системного события было записано неверно или ненормально.As described above, if a system event occurs before the RMC 21 or BMC 22 completes the time synchronization procedure, this system event can still be written to the RMC 21 / BMC 22 event log, but in the “time” column of the event log corresponding to this system event , only textual information, such as “Before initialization,” will be recorded, instead of the exact time the event occurred, indicating the occurrence of a system event. Without an accurate time for the occurrence of a system event, the administrator can make an incorrect judgment about the system event because the event log cannot be relied on as a significant indicator of a system event. In addition, if the RMC 21 or BMC 22 needs to perform a reset procedure, it can also cause the same or similar situation in which the time of occurrence of a system event was recorded incorrectly or abnormally.

Рассмотрим фиг. 5, которая представляет собой блок-схему для сброса первого типа состояния, требующего внимания, согласно первому варианту осуществления настоящего изобретения. В данном варианте осуществления система 3 администрирования может регулярно получать доступ к базе 31 данных (этап S41), извлекать данные о состоянии и журнал событий RMC 21 и всех BMC 22 в стойке 2 из базы 31 данных с целью определения изменения состояния RMC 21 и BMC 22 (этап S42).Consider FIG. 5, which is a block diagram for resetting a first type of condition requiring attention according to a first embodiment of the present invention. In this embodiment, the administration system 3 can regularly access the database 31 (step S41), retrieve the status data and the event log of the RMC 21 and all BMC 22 in rack 2 from the database 31 to determine a change in state of the RMC 21 and BMC 22 (step S42).

В этом варианте осуществления система 3 администрирования определяет, было ли записано системное событие в извлеченный журнал событий с неверным или неизвестным временем возникновения события (этап S43). Если все системные события в журнал событий записаны с верным временем возникновения события, система 3 администрирования не будет активно выполнять какую-либо процедуру.In this embodiment, the administration system 3 determines whether a system event was recorded in the extracted event log with an incorrect or unknown time of occurrence of the event (step S43). If all system events in the event log are recorded with the correct time of the event, the administration system 3 will not actively perform any procedure.

Если система 3 администрирования «понимает» после анализа извлеченных данных, что какой-либо из RMC 21 и BMC 22 имеет по меньшей мере одно системное событие, записанное в журнал событий с неверным или неизвестным временем возникновения события, она может полагать, что RMC 21/BMC 22 находится в первом типе состояния, требующего внимания (этап S44), т. е. система 3 администрирования может полагать, что некоторое ненормальное состояние возникает в RMC 21/BMC 22, но RMC 21/BMC 22 по-прежнему поддерживает сетевое соединение с системой 3 администрирования.If the administration system 3 “understands” after analyzing the extracted data that any of the RMC 21 and BMC 22 has at least one system event recorded in the event log with an incorrect or unknown time of occurrence of the event, it may assume that RMC 21 / BMC 22 is in the first type of state requiring attention (step S44), i.e., the administration system 3 may assume that some abnormal state occurs in RMC 21 / BMC 22, but RMC 21 / BMC 22 still maintains a network connection with 3 administration system.

В одном варианте осуществления система 3 администрирования может определять, что одно системное событие записано с неверным или неизвестным временем возникновения события при записи времени возникновения системного события в журнал событий в виде «Предшествует инициализации» или схожей текстовой информации (т. е. то, что было записано в журнал событий по отношению к системному событию, не отвечает требованию верного указания точного времени возникновения системного события). В другом варианте осуществления система 3 администрирования может определять, что системное событие записано с неверным или неизвестным временем возникновения события, как только она «понимает», что один из RMC 21/BMC 22 имеет по меньшей мере одно системное событие, записанное в журнал событий с неизвестным временем возникновения события, после анализа журнала событий, и «понимает», что RMC 21/BMC 22 еще не завершил свою процедуру синхронизации времени или RMC 21/BMC 22 нуждается в выполнении процедуры сброса после анализа данных о состоянии.In one embodiment, the administration system 3 may determine that one system event is recorded with an incorrect or unknown time of occurrence of the event when recording the time of occurrence of the system event in the event log in the form of “Pre-initialization” or similar textual information (i.e., what was recorded in the event log in relation to the system event, does not meet the requirement of the correct indication of the exact time the system event occurred). In another embodiment, the administration system 3 may determine that a system event has been recorded with an invalid or unknown time that the event occurred, as soon as it “understands” that one of the RMC 21 / BMC 22 has at least one system event recorded in the event log with by the unknown time of the event occurrence, after analyzing the event log, and “understands” that the RMC 21 / BMC 22 has not yet completed its time synchronization procedure or that the RMC 21 / BMC 22 needs to perform a reset procedure after analyzing the status data.

Полагая, что RMC 21/BMC 22 находится в первом типе состояния, требующего внимания на этапе S44, система 3 администрирования сначала получает метку времени получения доступа к журналу событий (этап S45), затем она принимает метку времени в качестве информации для идентификации времени резервного копирования системного события и сохраняет метку времени в базе 31 данных (этап S46). В одном варианте осуществления система 3 администрирования записывает момент времени получения доступа к базе 31 данных для извлечения журнала событий и принимает этот момент времени в качестве вышеуказанной метки времени. В другом варианте осуществления система 3 администрирования записывает момент времени удаленной проверки стойки 2 для получения журнала событий непосредственно от RMC 21 и BMC 22 и принимает момент времени в качестве вышеуказанной метки времени, но не ограничиваясь этим.Assuming that the RMC 21 / BMC 22 is in a first type of state requiring attention in step S44, the administration system 3 first obtains a time stamp of accessing the event log (step S45), then it takes a time stamp as information for identifying the backup time the system event and stores the time stamp in the database 31 (step S46). In one embodiment, the administration system 3 records the time point of accessing the database 31 to retrieve the event log and takes this time point as the above timestamp. In another embodiment, the administration system 3 records the time point of the remote check of rack 2 to obtain an event log directly from the RMC 21 and BMC 22 and takes the time point as, but not limited to, the above time stamp.

Например, первоначальное содержимое журнала событий может быть похоже на следующую таблицу:For example, the original contents of the event log might look like the following table:

Системное событиеSystem event Время возникновения событияEvent Time Событие 1Event 1 22.12.2018/23:30:1812/22/2018 / 23: 30: 18 Событие 2Event 2 Предшествует Инициализации 0000000033Preceding Initialization 0000000033 Событие 3Event 3 22.12.2018/23:33:2012/22/2018 / 23: 33: 20

Если система 3 администрирования получила доступ к журналу событий в 23:32:23 22.12.2018 и «поняла», что время возникновения события 2 неверно или неизвестно, она может автоматически сгенерировать вышеуказанную информацию для идентификации времени резервного копирования для события 2 и исправить содержимое журнала событий или создать новый журнал событий согласно исправлению. В одном варианте осуществления исправленный журнал событий или новый журнал событий может быть похож на следующую таблицу:If the administration system 3 got access to the event log at 23:32:23 12/22/2018 and “realized” that the time of occurrence of event 2 is incorrect or unknown, it can automatically generate the above information to identify the backup time for event 2 and correct the contents of the log events or create a new event log according to the correction. In one embodiment, the revised event log or new event log may look like the following table:

Системное событиеSystem event Время возникновения событияEvent Time Время резервного копированияBackup time Событие 1Event 1 22.12.2018/23:30:1812/22/2018 / 23: 30: 18 xx Событие 2Event 2 Предшествует Инициализации 0000000033Preceding Initialization 0000000033 22.12.2018/23:32:2312/22/2018 / 23: 32: 23 Событие 3Event 3 22.12.2018/23:33:2012/22/2018 / 23: 33: 20 xx

Если администратор входит в систему 3 администрирования посредством рабочего интерфейса и запрашивает журнал событий системы 3 администрирования, система 3 администрирования может отобразить информацию для идентификации времени резервного копирования, как показано в вышеуказанной таблице в виде времени возникновения события 2. Таким образом, даже если системное событие возникает в RMC 21 или BMC 22 перед завершением им процедуры синхронизации времени, система 3 администрирования все еще может назначить идентифицируемое время резервного копирования для этого системного события. Таким образом, система 3 администрирования и администратор могут верно интерпретировать системное событие согласно времени резервного копирования с целью улучшения эффекта процедуры удаленного восстановления.If the administrator enters the administration system 3 through the working interface and requests the event log of the administration system 3, the administration system 3 can display information for identifying the backup time, as shown in the above table as the time of occurrence of event 2. Thus, even if a system event occurs in RMC 21 or BMC 22 before completing the time synchronization procedure, the administration system 3 can still assign an identifiable backup time to feasting for this system event. Thus, the administration system 3 and the administrator can correctly interpret the system event according to the backup time in order to improve the effect of the remote recovery procedure.

После этапа S46 система 3 администрирования может отправлять команду управления (такую как первая команда управления) посредством сети на RMC 21/BMC 22, находящийся в текущий момент в первом типе состояния, требующего внимания, с целью выполнения процедуры коррекции времени в RMC 21/BMC 22, функционирующего ненормально в отношении времени (этап S47). В одном варианте осуществления процедура коррекции времени выполняется для управления RMC 21/BMC 22 для выполнения коррекции времени в соответствии со службой NTP. В другом варианте осуществления процедура коррекции времени исполняется для того, чтобы заставить RMC 21/BMC 22 выполнить процедуру сброса, но не ограничиваясь этим.After step S46, the administration system 3 may send a control command (such as a first control command) via the network to the RMC 21 / BMC 22, which is currently in the first type of state requiring attention, in order to perform the time correction procedure in the RMC 21 / BMC 22 functioning abnormally with respect to time (step S47). In one embodiment, a time correction procedure is performed to control the RMC 21 / BMC 22 to perform time correction in accordance with the NTP service. In another embodiment, a time correction procedure is executed to cause the RMC 21 / BMC 22 to perform a reset procedure, but not limited to.

Ниже будет описан другой вариант осуществления первого типа состояния, требующего внимания.Next, another embodiment of the first type of condition requiring attention will be described.

Если количество стоек 2 в дата-центре 1 слишком большое, для администратора дата-центра 1 может представлять сложность обновление каждой из стоек 1 вручную. Соответственно, когда администратор должен выполнять процедуру обновления RMC 21 и BMC 22 в стойках 2 (например, обновление прошивки), он или она может использовать систему 3 администрирования для доставки инструкции по обновлению и прошивки самой последней версии посредством исходного кода системы 3 администрирования с целью одновременного обновления всех RMC 21/BMC 22 нескольких стоек 2 в дата-центре 1.If the number of racks 2 in the data center 1 is too large, for the administrator of the data center 1 it may be difficult to manually update each of the racks 1. Accordingly, when an administrator must perform the upgrade procedure of RMC 21 and BMC 22 in racks 2 (for example, updating the firmware), he or she can use the administration system 3 to deliver update instructions and update the latest version through the source code of the administration system 3 for the simultaneous updates of all RMC 21 / BMC 22 of several racks 2 in data center 1.

Если во время процедуры обновления возникают проблемы, такие как разрывы сетевого соединения из-за сетевого трафика или неустойчивого сигнала, части RMC 21/BMC 22 могут быть неспособны завершить процедуру обновления в рамках стандартного процесса обновления, и это может привести к неудачной процедуре обновления. Однако части RMC 21/BMC 22 могут вызвать неправильную работу системы после неудачной процедуры обновления, но могут все еще поддерживать сетевое соединение (например, они вошли в режим обновления, но не могут выйти обратно в рабочий режим). В этом состоянии система 3 администрирования должна производить вмешательство из удаленного пункта для сброса такого ненормального состояния.If problems occur during the update procedure, such as network disconnections due to network traffic or an intermittent signal, parts of the RMC 21 / BMC 22 may not be able to complete the update procedure as part of the standard update process, and this may lead to an unsuccessful update procedure. However, parts of the RMC 21 / BMC 22 may cause the system to malfunction after an unsuccessful update procedure, but may still support a network connection (for example, they have entered update mode but cannot return to operational mode). In this state, the administration system 3 must intervene from a remote location to reset such an abnormal state.

Рассмотрим фиг. 6, которая представляет собой блок-схему для сброса первого типа состояния, требующего внимания, согласно второму варианту осуществления настоящего изобретения. В этом варианте осуществления система 3 администрирования может регулярно получать доступ к базе 31 данных (этап S51) с целью извлечения данных о состоянии и журнала событий RMC 21 и BMC 22 в стойке 2 для извлечения порядка действий, выполняемого администратором посредством рабочего интерфейса, и определения изменения состояния RMC 21 и BMC 22 согласно данным о состоянии, журналу событий и порядку действий (этап S52).Consider FIG. 6, which is a block diagram for resetting a first type of condition requiring attention according to a second embodiment of the present invention. In this embodiment, the administration system 3 can regularly access the database 31 (step S51) in order to retrieve the status data and the event logs of the RMC 21 and BMC 22 in the rack 2 to retrieve the order of actions performed by the administrator through the working interface and determine the change the states of RMC 21 and BMC 22 according to the status information, the event log, and the procedure (step S52).

В данном варианте осуществления система 3 администрирования может сначала анализировать данные о состоянии и журнал событий RMC 21 и BMC 22 для определения того, превысила ли процедура обновления какого-либо из RMC 21/BMC 22 лимит времени или была неудачной (этап S54), и также анализа данных о состоянии и журнала событий RMC 21 и BMC 22 для определения того, поддерживает ли все еще RMC 21/BMC 22 нормальное сетевое соединение (этап S55). Если система 3 администрирования определяет после анализа, что один из RMC 21/BMC 22 превысил лимит времени процедуры обновления или она была неудачной, но по-прежнему сохранил нормальное сетевое соединение, она может полагать, что такой RMC 21/BMC 22 находится в вышеуказанном первом типе состояния, требующего внимания (этап S56), т. е. система 3 администрирования может полагать, что определенное ненормальное состояние возникает в таком RMC 21/BMC 22, но RMC 21/BMC 22 по-прежнему поддерживает сетевое соединение с системой 3 администрирования.In this embodiment, the administration system 3 may first analyze the status data and the event log of the RMC 21 and BMC 22 to determine whether the update procedure of any of the RMC 21 / BMC 22 has exceeded the time limit or failed (step S54), and also analyzing the status data and the event log of the RMC 21 and BMC 22 to determine whether the RMC 21 / BMC 22 still supports a normal network connection (step S55). If the administration system 3 determines after analysis that one of the RMC 21 / BMC 22 has exceeded the time limit of the update procedure or it was unsuccessful, but still maintains a normal network connection, it may assume that such RMC 21 / BMC 22 is in the above first the type of condition requiring attention (step S56), that is, the administration system 3 may assume that a certain abnormal condition occurs in such an RMC 21 / BMC 22, but the RMC 21 / BMC 22 still maintains a network connection with the administration system 3.

Более конкретно, система 3 администрирования может определять, осуществил ли администратор процедуру обновления или нет в отношении какого-либо из RMC 21/BMC 22 в стойке 2 согласно порядку действий после этапа S52 (этап S53). После определения того, что администратор осуществил процедуру обновления, система 3 администрирования переходит к исполнению этапа S54 и этапа S55 с целью определения, превысили ли процедуры обновления RMC 21/BMC 22 лимит времени или были неудачными, и также определять, являются ли сетевые соединения RMC 21/BMC 22 нормальными.More specifically, the administration system 3 may determine whether the administrator has performed the update procedure or not with respect to any of the RMC 21 / BMC 22 in the rack 2 according to the procedure after step S52 (step S53). After determining that the administrator has performed the upgrade procedure, the administration system 3 proceeds to step S54 and step S55 to determine if the upgrade procedures have exceeded the RMC 21 / BMC 22 or failed, and also determine whether the network connections of the RMC 21 / BMC 22 normal.

После принятия RMC 21/BMC 22 процедуры обновления, осуществленной администратором, они могут автоматически войти в режим обновления. В то же время, каждый из RMC 21/BMC 22 может оставить метку в своих данных о состоянии для указания того, что на данный момент он находится в режиме обновления. Когда периферическое устройство поддерживает связь с каждым из RMC 21/BMC 22 и прочитывает метку, указывающую на режим обновления в данных о состоянии, оно может автоматически прекратить взаимодействовать с каждым из RMC 21/BMC 22. То есть, если один из RMC 21/BMC 22 осуществил неудачную процедуру обновления и не может выйти из режима обновления, этот RMC 21/BMC 22 будет неспособен нормально работать. Если система 3 администрирования обнаруживает, что один из RMC 21/BMC 22 принял процедуру обновления и процедура обновления превысила лимит времени или была неудачной, но этот RMC 21/BMC 22 не утратил сетевого соединения, то система 3 администрирования может полагать, что RMC 21/BMC 22 находится в вышеуказанном первом типе состояния, требующего внимания.Once the administrator has accepted the update procedure of RMC 21 / BMC 22, they can automatically enter update mode. At the same time, each of the RMC 21 / BMC 22 can leave a mark in its status data to indicate that it is currently in update mode. When a peripheral device communicates with each of the RMC 21 / BMC 22 and reads a label indicating the update mode in the status data, it may automatically stop interacting with each of the RMC 21 / BMC 22. That is, if one of the RMC 21 / BMC 22 performed an unsuccessful update procedure and cannot exit update mode, this RMC 21 / BMC 22 will be unable to operate normally. If the administration system 3 detects that one of the RMC 21 / BMC 22 accepted the update procedure and the update procedure exceeded the time limit or was unsuccessful, but this RMC 21 / BMC 22 did not lose the network connection, then the administration system 3 may assume that the RMC 21 / BMC 22 is in the above first type of condition requiring attention.

После этапа S56 система 3 администрирования может отправлять команду управления (такую как вторая команда управления) на такой RMC 21/BMC 22, находящийся в первом типе состояния, требующего внимания, посредством сети, с той целью, чтобы заставить RMC 21/BMC 22, который осуществил неудачную процедуру обновления, выйти из режима обновления (этап S57).After step S56, the administration system 3 may send a control command (such as a second control command) to such RMC 21 / BMC 22, which is in the first type of state requiring attention through the network, in order to force the RMC 21 / BMC 22, which performed an unsuccessful update procedure, exit the update mode (step S57).

Как указано выше, даже если процедура обновления была неудачной (т. е. не смогла выйти из режима обновления), RMC 21/BMC 22 все еще может получать и выполнять команды. Проблема заключается в том, что периферическое устройство будет автоматически прекращать взаимодействие с RMC 21/BMC 22 после прочтения метки, указывающей на режим обновления. В вышеуказанном варианте осуществления система 3 администрирования будет игнорировать метку, указывающую на режим обновления, и продолжать отправку второй команды управления непосредственно на RMC 21/BMC 22, чтобы заставить RMC 21/BMC 22 выйти из режима обновления, поскольку он определил возникновение некоторого ненормального состояния в RMC 21/BMC 22.As indicated above, even if the update procedure was unsuccessful (that is, unable to exit update mode), the RMC 21 / BMC 22 can still receive and execute commands. The problem is that the peripheral will automatically stop interacting with the RMC 21 / BMC 22 after reading the label indicating the update mode. In the above embodiment, the administration system 3 will ignore the label indicating the update mode, and continue to send the second control command directly to the RMC 21 / BMC 22 to force the RMC 21 / BMC 22 to exit the update mode, since it detected some abnormal condition in RMC 21 / BMC 22.

После этапа S57 система 3 администрирования может продолжать отправлять другую команду управления (такую как третья команда управления) на RMC 21/BMC 22, который уже вышел из режима обновления, посредством сети, с целью заставить такой RMC 21/BMC 22 выполнить процедуру сброса, или вновь выполнить процедуру обновления (этап S58). Таким образом, система 3 администрирования может удостовериться в том, что RMC 22/BMC 22 может восстановиться обратно к нормальному состоянию, и прошивка или программное обеспечение такого RMC 22/BMC 22 может быть обновлено до самой последней версии.After step S57, the administration system 3 may continue to send another control command (such as a third control command) to the RMC 21 / BMC 22, which has already exited update mode, via the network in order to force such RMC 21 / BMC 22 to perform a reset procedure, or perform the update procedure again (step S58). Thus, the administration system 3 can make sure that the RMC 22 / BMC 22 can recover back to its normal state, and the firmware or software of such RMC 22 / BMC 22 can be updated to the latest version.

Ниже будет описан вышеуказанный второй тип состояния, требующего внимания.Below will be described the above second type of condition requiring attention.

RMC 21/BMC 22 в настоящем изобретении являются встроенными системами, даже если узлы 220 в стойке 2 еще не включены, система 3 администрирования все еще может выполнять процедуру удаленного администрирования, такую как удаленная загрузка, удаленное выключение, удаленный запрос и т. д., посредством связи с RMC 21/BMC 22 в стойке 2 и узлах 220.RMC 21 / BMC 22 in the present invention are embedded systems, even if the nodes 220 in rack 2 are not yet turned on, the administration system 3 can still perform a remote administration procedure such as remote boot, remote shutdown, remote request, etc., through communication with RMC 21 / BMC 22 in rack 2 and nodes 220.

Вообще говоря, при выполнении процедуры удаленного администрирования администратор дата-центра 1 может поддерживать связь с RMC 21/BMC 22 в стойке 2 путем отправки инструкций IPMI посредством сети с использованием средств IPMI (интеллектуального интерфейса администрирования платформой) на систему 3 администрирования. При использовании средств IPMI каждая инструкция IPMI, отправленная им, должна сначала установить сеанс IPMI с целевым RMC 21 или BMC 22, чтобы система 3 администрирования могла поддерживать связь с целевым RMC 21 или BMC 22 после установления сеанса IPMI. В частности, после установления сеанса IPMI системе 3 администрирования разрешается поддерживать связь с нижним аппаратным устройством RMC 21, BMC 22, стойкой 2 или узлом 220 посредством сети с целью получения результатов исполнения инструкции IPMI (такой как версия прошивки, показание всех датчиков в узле 220 и т. д.).Generally speaking, during the remote administration procedure, the data center administrator 1 can communicate with the RMC 21 / BMC 22 in rack 2 by sending IPMI instructions via the network using IPMI (intelligent platform administration interface) to the administration system 3. When using IPMI, each IPMI instruction sent to them must first establish an IPMI session with the target RMC 21 or BMC 22 so that the administration system 3 can communicate with the target RMC 21 or BMC 22 after establishing the IPMI session. In particular, after establishing an IPMI session, the administration system 3 is allowed to communicate with the lower hardware device RMC 21, BMC 22, rack 2, or node 220 through the network in order to obtain the results of the IPMI instruction (such as firmware version, reading of all sensors in node 220 and etc.).

Вычислительный ресурс встроенной системы ограничен. Однако работа встроенной системы, связь с RMC 21, связь с каждым из BMC 22, ответ системе мониторинга дата-центра 1 и т. д., может целиком поглотить вычислительный ресурс встроенной системы (т. е. RMC 21 или BMC 22).The computing resource of the embedded system is limited. However, the operation of the embedded system, communication with the RMC 21, communication with each of the BMC 22, the response to the monitoring system of the data center 1, etc., can completely absorb the computing resource of the embedded system (i.e. RMC 21 or BMC 22).

Кроме того, она может также поглотить вычислительный ресурс RMC 21/BMC 22 при выполнении системой 3 администрирования процедуры удаленного администрирования каждого из RMC 21/BMC 22. В частности, процедура удаленного администрирования, выполняемая системой удаленного 3 администрирования, может чрезвычайно увеличить длительность сеанса IPMI RMC 21/BMC 22 и привести к отсутствию ответа от RMC 21/BMC 22 или превышению лимита времени. В этом сценарии, хотя RMC 21/BMC 22 еще не находятся в ненормальном состоянии, но система 3 администрирования может быть вынуждена произвести вмешательство из удаленного пункта для ограждения RMC 21/BMC 22 от возможного ненормального состояния.In addition, it can also consume the RMC 21 / BMC 22 computing resource when the system 3 administers the remote administration of each RMC 21 / BMC 22. In particular, the remote administration procedure performed by the remote 3 administration system can greatly increase the duration of the IPMI RMC session 21 / BMC 22 and result in no response from RMC 21 / BMC 22 or time out. In this scenario, although the RMC 21 / BMC 22 is not yet in an abnormal state, the administration system 3 may be forced to intervene from a remote location to protect the RMC 21 / BMC 22 from a possible abnormal state.

Рассмотрим фиг. 7, которая представляет собой блок-схему для сброса второго типа состояния, требующего внимания, согласно первому варианту осуществления настоящего изобретения. В данном варианте осуществления система 3 администрирования может регулярно получать доступ к базе 31 данных (этап S61), извлекать данные о состоянии RMC 21/BMC 22 в стойке 2 из базы 31 данных для определения изменения состояния RMC 21/BMC 22 (этап S62). В одном варианте осуществления система 3 администрирования на этапе S62 должна получать данные о текущей длительности сеанса IPMI RMC 21 и каждого из BMC 22. В другом варианте осуществления система 3 администрирования на этапе S62 также получает данные о текущей степени использования системных ресурсов RMC 21 и каждого из BMC 22.Consider FIG. 7, which is a block diagram for resetting a second type of condition requiring attention according to a first embodiment of the present invention. In this embodiment, the administration system 3 can regularly access the database 31 (step S61), retrieve the status data of the RMC 21 / BMC 22 in the rack 2 from the database 31 to determine the state change of the RMC 21 / BMC 22 (step S62). In one embodiment, the administration system 3 in step S62 should receive data on the current IPMI session duration of the RMC 21 and each of the BMC 22. In another embodiment, the administration system 3 in step S62 also receives data on the current degree of utilization of the system resources of the RMC 21 and each of BMC 22.

После этапа S62 система 3 администрирования определяет, имеет ли RMC 21/BMC 22 длительность сеанса IPMI большую, чем первое пороговое значение (этап S63), и полагает, что RMC 21/BMC 22 находится в вышеуказанном втором типе состояния, требующего внимания, при определении, что длительность сеанса IPMI такого RMC 21/BMC 22 превышает первое пороговое значение (этап S65), т. е. система 3 администрирования может полагать, что такой RMC 21 или BMC 22 поддерживает нормальное сетевое соединение с системой 3 администрирования, но некоторое ненормальное состояние скоро возникнет в таком RMC 21/BMC 22.After step S62, the administration system 3 determines whether the RMC 21 / BMC 22 has an IPMI session longer than the first threshold value (step S63), and considers that the RMC 21 / BMC 22 is in the above-mentioned second type of state requiring attention when determining that the IPMI session duration of such RMC 21 / BMC 22 exceeds the first threshold value (step S65), that is, the administration system 3 may assume that such RMC 21 or BMC 22 maintains a normal network connection with administration system 3, but some abnormal state will soon be in that RMC 21 th / BMC 22.

Стоит заметить, что если система 3 администрирования получает степень использования системных ресурсов RMC 21 и каждого из BMC 22 на этапе S62, система 3 администрирования может одновременно определять, превышает ли степень использования RMC 21/BMC 22 системных ресурсов второе пороговое значение (этап S64). В этом сценарии система 3 администрирования может полагать, что RMC 21/BMC 22 находится во втором типе состояния, требующего внимания, при определении того, что текущая длительность сеанса IPMI такого RMC 21/BMC 22 превышает первое пороговое значение, и степень использования системных ресурсов такого RMC 21/BMC 22 превышает второе пороговое значение.It is worth noting that if the administration system 3 obtains a degree of utilization of the system resources of RMC 21 and each of the BMC 22 in step S62, the administration system 3 can simultaneously determine whether the degree of utilization of the RMC 21 / BMC 22 of the system resources exceeds the second threshold value (step S64). In this scenario, the administration system 3 may assume that the RMC 21 / BMC 22 is in a second type of state requiring attention when determining that the current IPMI session duration of such RMC 21 / BMC 22 exceeds the first threshold value and the degree of utilization of system resources of such RMC 21 / BMC 22 exceeds the second threshold value.

В одном варианте осуществления степень использования системных ресурсов включает степень использования CPU или памяти RMC 21/BMC 22. В другом варианте осуществления степень использования системных ресурсов может представлять собой степень использования некоторых системных ресурсов внутри RMC 21/BMC 22, используемых для предоставления любой службы, такой как служба протокола передачи гипертекста (HTTP), служба IPMI и т. д., но не ограничиваясь этим.In one embodiment, the utilization of system resources includes the utilization of the CPU or memory of the RMC 21 / BMC 22. In another embodiment, the utilization of the system resources may be the utilization of some system resources within the RMC 21 / BMC 22 used to provide any service, such as a Hypertext Transfer Protocol (HTTP) service, but not limited to IPMI, etc.

После подтверждения того, что RMC 21/BMC 22 находится во втором типе состояния, требующего внимания, система 3 администрирования может дополнительно отправить команду управления (такую как четвертая команда управления) на такой RMC 21/BMC 22, находящийся во втором типе состояния, требующего внимания, посредством сети, чтобы заставить RMC 21/BMC 22 перезапустить свою службу IPMI (этап S66). Таким образом, такой RMC 21/BMC 22 может выгрузить накопленные сеансы IPMI, чтобы оградить себя от возникновения ненормального состояния.After confirming that the RMC 21 / BMC 22 is in the second type of state requiring attention, the administration system 3 may additionally send a control command (such as a fourth management command) to such RMC 21 / BMC 22 in the second type of state requiring attention through the network to cause the RMC 21 / BMC 22 to restart its IPMI service (step S66). Thus, such an RMC 21 / BMC 22 can offload accumulated IPMI sessions to protect itself from the occurrence of an abnormal condition.

В одном варианте осуществления четвертая команда управления является командой сброса. Система 3 администрирования отправляет команду сброса на RMC 21/BMC 22, находящийся во втором типе состояния, требующего внимания, посредством сети, с целью принуждения RMC 21/BMC 22 к выполнению процедуры сброса. Таким образом, сброс RMC 21/BMC 22 может перезапустить его службу IPMI. Однако вышеуказанное описание представляет собой лишь один из иллюстративных вариантов осуществления настоящего изобретения, не ограничиваясь этим.In one embodiment, the fourth control command is a reset command. The administration system 3 sends a reset command to the RMC 21 / BMC 22, which is in the second type of state requiring attention, via the network, in order to force the RMC 21 / BMC 22 to perform the reset procedure. Thus, resetting the RMC 21 / BMC 22 may restart its IPMI service. However, the above description is only one of illustrative embodiments of the present invention, not limited to.

Путем выполнения вышеуказанного технического решения система 3 администрирования за счет анализа может заранее «понимать», что некоторое ненормальное состояние скоро возникнет в RMC 21/BMC 22, и активно выполнять служебную процедуру удаленного перезапуска RMC 21/BMC 22 для предотвращения возникновения ненормального состояния в таком RMC 21/BMC 22 и влияния на работу стойки 2.By implementing the above technical solution, the administration system 3, through analysis, can “understand” in advance that some abnormal condition will soon occur in the RMC 21 / BMC 22, and actively perform the remote RMC 21 / BMC 22 remote restart service procedure to prevent the abnormal condition from occurring in such RMC 21 / BMC 22 and effects on rack performance 2.

Ниже будет описан вышеуказанный третий тип состояния, требующего внимания.Below will be described the above third type of condition requiring attention.

Как упомянуто выше, система 3 администрирования в настоящем изобретении может поддерживать связь с RMC 21/BMC 22 в стойке 2 в дата-центре 1 посредством сети, и администратор может выполнять процедуру удаленного администрирования этих RMC 21/BMC 22 также посредством сети. Таким образом, при потере BMC 22 стойки 2 своего сетевого соединения система 3 администрирования не сможет поддерживать связь с этими BMC 22, и администратор также не может администрировать эти BMC 22. В данном варианте осуществления ненормальное состояние BMC 22, выраженное в потере сетевого соединения, может быть вызвано ошибкой установки IP-адреса.As mentioned above, the administration system 3 in the present invention can communicate with the RMC 21 / BMC 22 in rack 2 in the data center 1 through the network, and the administrator can perform the remote administration of these RMC 21 / BMC 22 also through the network. Thus, if BMC 22 of rack 2 of its network connection is lost, the administration system 3 will not be able to communicate with these BMC 22s, and the administrator also cannot administer these BMC 22. In this embodiment, the abnormal state of BMC 22, expressed as loss of network connection, may be caused by an error setting the IP address.

В общем, IP-адрес каждого из BMC 22 в стойке 2 может быть задан в виде динамического IP-адреса (т. е. режим сети BMC 22 задан в виде режима динамического IP) или статический IP-адрес (т. е. режим сети BMC 22 задан в виде режима статического IP). Если режим сети BMC 22 задан в виде режима динамического IP, сервер протокола динамической настройки узла (DHCP) (не показан) в дата-центре 1 может активно назначить динамический IP-адрес для BMC 22. Если режим сети BMC 22 задан в виде режима статического IP, администратор дата-центра 1 может вручную задать статический IP-адрес для BMC 22 посредством рабочего интерфейса, предоставленного системой 3 администрирования.In general, the IP address of each of the BMC 22 in rack 2 can be set as a dynamic IP address (i.e., the network mode of the BMC 22 is set as a dynamic IP mode) or a static IP address (i.e., network mode BMC 22 is set as static IP mode). If the BMC 22 network mode is set as dynamic IP mode, the Dynamic Host Configuration Protocol (DHCP) server (not shown) in data center 1 can actively assign a dynamic IP address for BMC 22. If the BMC 22 network mode is set as static mode IP, the data center administrator 1 can manually set a static IP address for BMC 22 through the working interface provided by the administration system 3.

С целью выполнения процедуры задания сети в отношении каждого BMC 22 в стойке 2 для задания статического IP-адреса администратор должен отправить по меньшей мере четыре инструкции на BMC 22 посредством системы 3 администрирования (т. е. должны быть установлены по меньшей мере четыре сеанса IPMI), включая: (1) задание режима сети BMC 22 в виде режима статического IP; (2) задание статического IP-адреса для BMC 22; (3) задание маски подсети для BMC 22, и (4) задание IP-адреса шлюза для BMC 22.In order to complete the network assignment process for each BMC 22 in rack 2, the administrator must send at least four instructions to the BMC 22 through administration system 3 (i.e., at least four IPMI sessions must be established) for the static IP address to be set. , including: (1) setting the BMC 22 network mode as a static IP mode; (2) setting a static IP address for BMC 22; (3) setting the subnet mask for BMC 22, and (4) setting the IP address of the gateway for BMC 22.

Как указано выше, при задании администратором неверного статического IP-адреса для BMC 22 (например, статический IP-адрес, заданный администратором, является идентичным одному или более динамическим IP-адресам в назначенном сервере DHCP), или при задании администратором неверного IP-адреса шлюза для BMC 22, система 3 администрирования может быть неспособна соединиться с таким BMC 22 в некотором окружении, где сосуществуют несколько подсетей, или некотором окружении, где связь возможна только посредством шлюза. В этом сценарии, хотя узел 220, имеющий такой BMC 22, по-прежнему существует в стойке 2, но система 3 администрирования уже утратила соединение с BMC 22, так что она не может администрировать такой BMC 22 (и также узел 220, имеющий такой BMC 22). В результате система 3 администрирования может быть вынуждена вмешаться из удаленного пункта для помощи BMC 22 в восстановлении его сетевого соединения.As stated above, when an administrator sets an invalid static IP address for BMC 22 (for example, a static IP address specified by an administrator is identical to one or more dynamic IP addresses in a designated DHCP server), or when an administrator sets an invalid gateway IP address for BMC 22, administration system 3 may be unable to connect to such BMC 22 in some environment where several subnets coexist, or in some environment where communication is possible only through a gateway. In this scenario, although the node 220 having such BMC 22 still exists in rack 2, the administration system 3 has already lost connection with BMC 22 so that it cannot administer such BMC 22 (and also the node 220 having such BMC 22). As a result, the administration system 3 may be forced to intervene from a remote location to assist BMC 22 in restoring its network connection.

Рассмотрим фиг. 8, которая представляет собой блок-схему для сброса третьего типа состояния, требующего внимания, согласно первому варианту осуществления настоящего изобретения. В данном варианте осуществления система 3 администрирования может регулярно получать доступ к базе 31 данных (этап S71) и извлекать данные о состоянии каждого из BMC 22 в стойке 2, порядок действий, выполняемый администратором посредством системы 3 администрирования, и любую обратную информацию, полученной системой 3 администрирования на основании порядка действий из базы 31 данных, для определения изменения состояния BMC 22 (этап S72).Consider FIG. 8, which is a block diagram for resetting a third type of condition requiring attention according to a first embodiment of the present invention. In this embodiment, the administration system 3 can regularly access the database 31 (step S71) and retrieve the status data of each of the BMC 22 in the rack 2, the procedure performed by the administrator through the administration system 3, and any feedback received by the system 3 administration based on the procedure from the database 31 to determine the state change of the BMC 22 (step S72).

В одном варианте осуществления данные о состоянии, полученные системой 3 администрирования на этапе S72 по меньшей мере включают режим сети (режим статического IP или режим динамического IP) каждого из BMC 22, статический IP-адрес каждого из BMC 22, маску подсети каждого из BMC 22, шлюзовой IP-адрес каждого из BMC 22 и т. д., не ограничиваясь этим. Также обратная информация, полученная системой 3 администрирования на этапе S72, по меньшей мере содержит сигнал обратной связи, параметры системы и исполняемые данные, сгенерированные системой 3 администрирования, стойкой 2 и каждым из узлов 220 (и каждого из BMC 22), основанные на порядке действий при выполнении порядка действий, но не ограничиваясь этим.In one embodiment, the status data obtained by the administration system 3 in step S72 at least includes the network mode (static IP mode or dynamic IP mode) of each of the BMC 22, the static IP address of each of the BMC 22, the subnet mask of each of the BMC 22 , the gateway IP address of each of the BMC 22, etc., not limited to this. Also, the feedback received by the administration system 3 in step S72 at least contains a feedback signal, system parameters and executable data generated by the administration system 3, rack 2, and each of the nodes 220 (and each of the BMC 22) based on the procedure in carrying out the procedure, but not limited to this.

После этапа S72 система 3 администрирования сначала определяет, потерял ли какой-либо из BMC 22 в стойке 2 свое сетевое соединение с системой 3 администрирования согласно данным о состоянии и обратной информации (этап S73). Также система 3 администрирования определяет, выполнил ли администратор процедуру настройки сети для какого-либо из BMC 22 в стойке 2 согласно порядку действий (этап S74). Если система 3 администрирования определяет, что администратор только что выполнил процедуру настройки сети в отношении одного из BMC 22 и такой BMC 22 потерял сетевое соединение с системой 3 администрирования после принятия процедуры задания сети, она может полагать, что такой BMC 22 находится в вышеуказанном третьем типе состояния, требующего внимания (этап S75), т. е. система 3 администрирования может полагать, что этот BMC 22 утратил сетевое соединение.After step S72, the administration system 3 first determines whether any of the BMC 22 in the rack 2 has lost its network connection with the administration system 3 according to the status and feedback information (step S73). Also, the administration system 3 determines whether the administrator has performed the network setup procedure for any of the BMC 22 in the rack 2 according to the procedure (step S74). If the administration system 3 determines that the administrator has just completed the network setup procedure for one of the BMC 22 and that BMC 22 has lost the network connection with the administration system 3 after accepting the network setup procedure, it may assume that such BMC 22 is in the above third type a condition requiring attention (step S75), i.e., the administration system 3 may believe that this BMC 22 has lost the network connection.

Стоит заметить, что на этапе S73 система 3 администрирования может определить, что один из BMC 22 утратил свое сетевое соединение (уже утратил свое сетевое соединение или вскоре утратит сетевое соединение) при определении, что режим сети такого BMC 22 находится в режиме статического IP и статический IP-адрес, использованный таким BMC 22, является идентичным одному или более динамическим IP-адресам, назначенным сервером DHCP.It is worth noting that in step S73, the administration system 3 can determine that one of the BMC 22 has lost its network connection (has already lost its network connection or will soon lose its network connection) when determining that the network mode of such BMC 22 is in static IP mode and static The IP address used by this BMC 22 is identical to one or more dynamic IP addresses assigned by the DHCP server.

В другом варианте осуществления система 3 администрирования на этапе S73 может также определять, что один из BMC 22 утратил свое сетевое соединение (уже утратил свое сетевое соединение или вскоре утратит сетевое соединение), когда режим сети такого BMC 22 находится в режиме статического IP и IP-адрес шлюза BMC 22 был задан неверно. Однако вышеуказанные описания представляют собой лишь несколько примеров иллюстративных вариантов осуществления настоящего изобретения, не ограничиваясь ими.In another embodiment, the administration system 3 in step S73 may also determine that one of the BMC 22 has lost its network connection (has already lost its network connection or will soon lose its network connection) when the network mode of such BMC 22 is in both static IP and IP mode The BMC 22 gateway address was not set correctly. However, the above descriptions are only a few examples of illustrative embodiments of the present invention, not limited to.

После этапа S75 система 3 администрирования может полагать, что конкретный BMC 22 находится в вышеуказанном третьем типе состояния, требующего внимания. После этого система 3 администрирования определяет некоторый RMC 21 в дата-центре 1, ответственный за такой BMC 22 (этап S76), и управляет этим RMC 21 для изучения узла 220, имеющего такой BMC 22, посредством внутренних аппаратных линий 24 (этап S77), с целью подтверждения того, существует ли узел 220 или нет (этап S78).After step S75, the administration system 3 may consider that the particular BMC 22 is in the above third type of condition requiring attention. After that, the administration system 3 determines some RMC 21 in the data center 1 responsible for such BMC 22 (step S76), and controls this RMC 21 to examine the node 220 having such BMC 22 through internal hardware lines 24 (step S77), in order to confirm whether the node 220 exists or not (step S78).

Как показано на фиг. 2, RMC 21 может физически соединяться со всеми BMC 22 всех узлов 220 в той же стойке 2 посредством внутренних аппаратных линий 24. Таким образом, даже при потере BMC 22 своего сетевого соединения RMC 21 в той же стойке 2 может все еще поддерживать связь с таким BMC 22 посредством внутренних аппаратных линий 24.As shown in FIG. 2, the RMC 21 can physically connect to all BMC 22s of all nodes 220 in the same rack 2 via internal hardware lines 24. Thus, even if the BMC 22 loses its network connection, the RMC 21 in the same rack 2 can still communicate with such BMC 22 through internal hardware lines 24.

При определении того, что узел 220, имеющий такой BMC 22, утративший сетевое соединение, не существует на этапе S78 (например, узел 220 был удален из стойки 2 или поврежден), система 3 администрирования может отправлять соответствующее предупреждающее сообщение (этап S79). В одном варианте осуществления система 3 администрирования может отправлять предупреждающее сообщение, например, в виде слов, световых или звуковых сигналов, посредством рабочего интерфейса, с целью предупреждения администратора. В другом варианте осуществления система 3 администрирования может отправлять предупреждающее сообщение вовне к администратору, например, текстовые сообщения, электронные письма или сообщения программного обеспечения связи, посредством сети с целью предупреждения администратора.When determining that the node 220 having such a BMC 22 that has lost the network connection does not exist in step S78 (for example, the node 220 has been removed from rack 2 or damaged), the administration system 3 may send a corresponding warning message (step S79). In one embodiment, the administration system 3 may send a warning message, for example, in the form of words, lights or sounds, via the operating interface, to alert the administrator. In another embodiment, the administration system 3 may send a warning message outward to the administrator, for example, text messages, emails or communications software messages, via the network to alert the administrator.

При определении того, что узел 220, имеющий такой BMC 22, утративший сетевое соединение, действительно существует на этапе S78, система 3 администрирования управляет RMC 21, берущим ответственность за такой BMC 22, чтобы отправить набор инструкций IPMI на такой BMC 22 посредством внутренних аппаратных линий 24 для BMC 22 для восстановления его сетевого соединения (этап S80). В одном варианте осуществления система 3 администрирования может отправлять инструкции IPMI на такой BMC 22 посредством RMC 21 с целью исправления статичного IP адреса BMC 22 или IP-адреса шлюза BMC 22 и принуждает BMC 22 к восстановлению сетевого соединения (т. е. соединения с системой 3 администрирования).When determining that a node 220 having such a BMC 22 that has lost the network connection actually exists in step S78, the administration system 3 controls the RMC 21 taking responsibility for such a BMC 22 to send an IPMI instruction set to such BMC 22 via internal hardware lines 24 for BMC 22 to restore its network connection (step S80). In one embodiment, the administration system 3 may send IPMI instructions to such a BMC 22 via the RMC 21 in order to fix the static IP address of the BMC 22 or the IP address of the BMC 22 gateway and force the BMC 22 to restore the network connection (i.e., connection to system 3 administration).

Используя вышеуказанное техническое соединение, система 3 администрирования может активно выполнять процедуру аварийного восстановления с BMC 22 из удаленного пункта после потери BMC 22 его соединения с системой 3 администрирования, с целью помощи BMC 22 в восстановлении его сетевого соединения.Using the above technical connection, the administration system 3 can actively perform a disaster recovery procedure with BMC 22 from a remote location after losing BMC 22 to its connection with administration system 3, in order to help BMC 22 to restore its network connection.

Способ, раскрытый в настоящем изобретении, может использовать систему 3 администрирования для автоматического сбора нужной информации и анализа состояния RMC 21 и BMC 22, и автоматически выполняет соответствующую процедуру для сброса ненормального состояния каждого из RMC 21/BMC 22 после определения того, что RMC 21/BMC 22 находится в одном из нескольких предварительно определенных состояний, требующих внимания. Таким образом, технические решения настоящего изобретения могут уменьшить стоимость администрирования с возможностью получения процедуры мониторинга дата-центра 1 без вмешательства человека и влияния расстояния и времени.The method disclosed in the present invention can use the administration system 3 to automatically collect the necessary information and analyze the status of the RMC 21 and BMC 22, and automatically performs the corresponding procedure to reset the abnormal state of each of the RMC 21 / BMC 22 after determining that the RMC 21 / BMC 22 is in one of several predefined conditions that require attention. Thus, technical solutions of the present invention can reduce the cost of administration with the possibility of obtaining a monitoring procedure for data center 1 without human intervention and the influence of distance and time.

Специалистам в данной области необходимо принять во внимание, что в описанном варианте осуществления могут быть выполнены различные изменения и модификации. Предполагается включение всех подобных вариантов, модификаций и эквивалентов, которые попадают под объем правовой охраны настоящего изобретения, который определен прилагаемой формулой изобретения.Those skilled in the art will appreciate that various changes and modifications may be made to the described embodiment. It is intended to include all such variations, modifications, and equivalents that fall within the scope of legal protection of the present invention, which is defined by the appended claims.

Claims

1. A method for remotely resetting the abnormal state of racks used in a data center comprising a rack and a rack server administration system connected to a rack from a remote location, the rack comprising a rack management controller (RMC) and several nodes, each node containing a controller motherboard control (BMC), and the method includes the following steps:

a) obtaining regular access to the database by the rack server administration system to obtain data on the state of the RMC and each of the BMCs and determining a change in the state of the RMC and each of the BMC according to the state data;

b) determining whether any one of the RMCs and several BMCs is in one of several predetermined states requiring attention according to the state and state data, and

c) performing a remote restart service routine automatically for a particular one of the RMCs and several BMCs in the second type of state requiring attention from several predefined states requiring attention through the rack server administration system after determining that a particular one of the RMCs and several BMCs are in the second type of condition requiring attention, and the remote restart procedure is performed to prevent an abnormal condition events in a particular one of the RMCs and several BMCs, and the second type of state requiring attention indicates that a particular one of the RMCs and several BMCs currently has a normal connection to the rack server administration system, but an abnormal state will soon occur in relation to a specific one of RMC and several BMCs.

2. The method according to p. 1, characterized in that it further includes the following steps:

a 01) activation of the rack server administration system;

a 02) regular and active verification of the RMC and each BMC in the rack by the rack server administration system from a remote location after step a 01);

a 03) receiving data on the status of the RMC and each of the BMC;

a 04) storing status data in a database, and

a 05) continuous execution of steps a 02) - a 04) before shutting down the administration system of the rack server.

3. The method according to p. 1, characterized in that it further includes the following steps:

a 11) activation of the rack server administration system;

a 12) providing a working interface for the rack server administration system after step a 11);

a 13) performing the remote administration of the RMC and each of the BMC according to the procedure, upon receipt of the procedure performed by the administrator through the working interface;

a 14) receiving feedback information generated on the basis of the remote administration procedure;

a 15) maintaining the order of operations and feedback in the database, and

a 16) continuous execution of steps a 12) - 15) before shutting down the administration system of the rack server.

4. The method of claim 1, wherein step a) is to obtain the current session duration of the RMC intelligent platform administration interface (IPMI) and each of the BMCs, and step b) is to determine that a particular one of the RMC and several The BMC is in a second type of state requiring attention if the IPMI session duration of a particular one of the RMCs and several BMCs exceeds the first threshold value.

5. The method according to p. 4, characterized in that step a) represents an additional degree of utilization of the system resources of the RMC and each of the BMCs, step b) represents the determination that a particular one of the RMC and several BMCs is in the second type of state requiring attention if the IPMI session duration of a particular one of the RMCs and several BMCs exceeds a first threshold value and the degree of utilization of system resources of a particular one of an RMCs and several BMCs exceeds a second threshold value.

6. The method according to p. 5, characterized in that the degree of use of system resources is the degree of use of the CPU or memory RMC and each BMC.

7. The method according to p. 5, characterized in that the degree of use of system resources is the degree of use of system resources RMC and each BMC to provide an HTTP service or IPMI service.

8. The method according to claim 4, characterized in that step c) is sending a management command of the rack server administration system to a particular one of the RMCs and several BMCs in a second type of state requiring attention in order for a particular one of the RMCs and Several BMCs restarted the IPMI service.

9. The method of claim 8, wherein step c) is sending a reset command by the administration system of the rack server to a particular one of the RMCs and several BMCs in a second state requiring attention to perform a reset procedure to force a particular one of RMC and several BMCs to restart the IPMI service.