WO2017096993A1 - 一种热重启服务器的方法、装置及系统 - Google Patents

一种热重启服务器的方法、装置及系统 Download PDF

Info

Publication number
WO2017096993A1
WO2017096993A1 PCT/CN2016/098742 CN2016098742W WO2017096993A1 WO 2017096993 A1 WO2017096993 A1 WO 2017096993A1 CN 2016098742 W CN2016098742 W CN 2016098742W WO 2017096993 A1 WO2017096993 A1 WO 2017096993A1
Authority
WO
WIPO (PCT)
Prior art keywords
slave
pch
cpu
programmable device
reset
Prior art date
Application number
PCT/CN2016/098742
Other languages
English (en)
French (fr)
Inventor
周栋树
程龙飞
朱少佞
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Publication of WO2017096993A1 publication Critical patent/WO2017096993A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/24Resetting means

Definitions

  • the present invention relates to the field of computer technologies, and in particular, to a method, apparatus, and system for thermally restarting a server.
  • the slave programmable device triggers the reset of the slave PCH without powering down
  • the platform reset signal sent by the main PCH is distributed to each slave programmable device through the main programmable device, and each slave from the programmable device triggers the connection of the slave PCH and the slave CPU without power-off, from the PCH to the slave CPU.
  • each slave from the programmable device triggers the connection of the slave PCH and the slave CPU without power-off, from the PCH to the slave CPU.
  • link recovery that was disconnected from the PCH not working, resetting from the CPU in the event that the PCH is not operating is achieved.
  • the platform reset signal sent by the main PCH is distributed to each slave programmable device through the main programmable device, and each slave from the programmable device triggers the connection of the slave PCH and the slave CPU without power-off, from the PCH to the slave CPU.
  • each slave from the programmable device triggers the connection of the slave PCH and the slave CPU without power-off, from the PCH to the slave CPU.
  • link recovery that was disconnected from the PCH not working, resetting from the CPU in the event that the PCH is not operating is achieved.
  • FIG. 4 is a flowchart of a method for hot restarting a server according to an embodiment of the present invention
  • Step 102 Trigger from the programmable device triggering from the PCH without powering down.
  • keeping the slave device from the PCH without powering down may include:
  • Embodiments of the present invention provide a system for thermally restarting a server, the system including a master node, at least one slave node, a main programmable device, and at least one slave programmable device, and the master node includes a master PCH and a master CPU, and each slave node Including from the PCH and the slave CPU, the master PCH works when the server is in the single PCH mode, and the slave PCH does not work when the server is in the single PCH mode.
  • the master node is managed by the main programmable device, and each slave node is different from the slave. Programming device management, as shown in Figure 1.
  • the main PCH is configured to receive a reset request input by the user and send a platform reset signal to the main programmable device.
  • the main programmable device is configured to receive a platform reset signal sent by the main PCH; send a CPU reset signal to the main CPU under the trigger of the platform reset signal sent by the main PCH, and
  • the programmable device sends a platform reset signal.
  • the main CPU receives the CPU reset signal sent by the main programmable device; it is reset by the trigger of the CPU reset signal sent by the main programmable device.
  • the platform reset signal sent by the main programmable device is received from the programmable device; the trigger is reset from the PCH without powering off; the trigger is reset from the CPU without powering down.
  • the slave PCH is used to reset without being powered down under the trigger of the programmable device.
  • the slave CPU is used to reset without a power-off under the trigger of the programmable device.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一种热重启服务器的方法、装置及系统,属于计算机技术领域。所述方法包括:从可编程器件接收主可编程器件发送的平台复位信号,主可编程器件发送的平台复位信号是主可编程器件在接收到主PCH发送的平台复位信号后发送的(101);从可编程器件触发从PCH在不下电的情况下复位(102);从可编程器件保持从CPU在不下电的情况下复位(103)。通过主可编程器件将主PCH发送的平台复位信号分发到各个从可编程器件,各个从可编程器件触发各自连接的从PCH和从CPU在不下电的情况下复位,从PCH和从CPU之间之前由于从PCH不工作而断开的链路恢复,实现了在从PCH不工作的情况下从CPU的复位。

Description

一种热重启服务器的方法、装置及系统
本申请要求于2015年12月11日提交中国专利局、申请号为201510918209.0、发明名称为“一种热重启服务器的方法、装置及系统”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本发明涉及计算机技术领域,特别涉及一种热重启服务器的方法、装置及系统。
背景技术
服务器是网络环境中的高性能计算机,能够侦听网上的其它计算机(客户机)提交的服务请求,并提供相应的服务。X86服务器为采用复杂指令架构计算机(Complex Instruction Set Computer,简称CISC)的服务器。X86服务器包括中央处理器(Central Processing Unit,简称CPU)、平台控制集线器(Platform Controller Hub,简称PCH)等,每四路CPU和一个PCH组成一个节点,各个节点分别由不同的复杂可编程逻辑器件(Complex Programmable Logic Device,简称CPLD)管理。
当X86服务器进行热重启时,用户通过硬件或软件的方式向各个节点的PCH发送复位请求,各个节点的PCH向各自所在节点的CPLD发送平台复位(PLT_RST)信号,各个节点的CPLD向各自所在节点的CPU发送CPU复位(CPU_RST)信号,所有的CPU均在不下电的情况复位,实现X86服务器的热重启。
X86服务器的多个PCH同时工作需要英特尔许可证(Intel license)支持,成本较高,因此X86服务器通常采用单个PCH工作。在单个PCH工作的模式下,只有一个PCH处于工作状态,其它PCH不工作,所以其它PCH无法触发其所在节点的CPU复位,不能实现X86服务器的热重启。
发明内容
为了解决现有技术无法实现单个PCH工作的X86服务器热重启的问 题,本发明实施例提供了一种热重启服务器的方法、装置及系统。所述技术方案如下:
第一方面,本发明实施例提供了一种热重启服务器的方法,所述服务器包括主节点和至少一个从节点,所述主节点包括主平台控制集线器PCH和主中央处理器CPU,各个所述从节点包括从PCH和从CPU,所述主PCH在所述服务器处于单PCH工作模式时工作,所述从PCH在所述服务器处于单PCH工作模式时不工作,所述主节点由主可编程器件管理,各个所述从节点分别由不同的从可编程器件管理,所述方法包括:
所述从可编程器件接收所述主可编程器件发送的平台复位信号,所述主可编程器件发送的平台复位信号是所述主可编程器件在接收到所述主PCH发送的平台复位信号后发送的;
所述从可编程器件触发所述从PCH在不下电的情况下复位;
所述从可编程器件触发所述从CPU在不下电的情况下复位。
通过主可编程器件将主PCH发送的平台复位信号分发到各个从可编程器件,各个从可编程器件触发各自连接的从PCH和从CPU在不下电的情况下复位,从PCH和从CPU之间之前由于从PCH不工作而断开的链路恢复,实现了在从PCH不工作的情况下从CPU的复位。
在第一方面一种可能的实现方式中,所述从可编程器件触发所述从PCH在不下电的情况下复位,包括:
所述从可编程器件保持所述从PCH不下电,并在所述主可编程器件发送的平台复位信号的触发下向所述从PCH发送表示电源故障的电源信号,以使所述从PCH在所述表示电源故障的电源信号的触发下复位,并在复位的过程中向所述从可编程器件发送平台复位信号。
通过向从PCH发送表示电源故障的电源信号,触发从PCH复位,同时通过保持从PCH不下电,使从PCH在不下电的情况下复位,实现热重启。
可选地,所述从可编程器件保持所述从PCH不下电,包括:
所述从可编程器件向所述从PCH的供电电源持续发送为所述从PCH供电的使能信号。
通过向从PCH的供电电源持续发送为从PCH供电的使能信号,控制从PCH的供电电源持续为从PCH供电,实现保持从PCH不下电。
可选地,所述触发所述从CPU复位,包括:
所述从可编程器件接收所述从PCH在复位的过程中发送的平台复位信号;
所述从可编程器件保持所述从CPU不下电,向所述从CPU发送表示电源正常的电源信号,并在所述从PCH发送的平台复位信号的触发下向所述从CPU发送CPU复位信号,以使所述从CPU在所述CPU复位信号的触发下复位。
通过从PCH向从可编程器件发送平台复位信号,触发从可编程器件向从CPU发送CPU复位信号,触发从CPU复位,同时通过保持从CPU不下电,并向从CPU发送表示电源正常的电源信号,实现从CPU在不下电的情况下复位,避免从CPU中寄存器中的内容丢失。
优选地,所述从可编程器件保持所述从CPU不下电,包括:
所述从可编程器件向所述从CPU的供电电源持续发送为所述从CPU供电的使能信号。
通过向从CPU的供电电源持续发送为从CPU供电的使能信号,控制从CPU的供电电源持续为从CPU供电,实现保持从CPU不下电。
第二方面,本发明实施例提供了一种热重启服务器的方法,所述服务器包括主节点和至少一个从节点,所述主节点包括主平台控制集线器PCH和主中央处理器CPU,各个所述从节点包括从PCH和从CPU,所述主PCH在所述服务器处于单PCH工作模式时工作,所述从PCH在所述服务器处于单PCH工作模式时不工作,所述主节点由主可编程器件管理,各个所述从节点分别由不同的从可编程器件管理,所述方法包括:
所述主可编程器件接收所述主PCH发送的平台复位信号,所述主PCH发送的平台复位信号是所述主PCH在接收到用户输入的复位请求后发送的;
所述主可编程器件在所述主PCH发送的平台复位信号的触发下向所述主CPU发送CPU复位信号,并向所述从可编程器件发送平台复位信号,以使主CPU在所述CPU复位信号的触发下复位,所述从可编程器件触发所述从PCH和所述从CPU在不下电的情况下复位。
通过主可编程器件触发主CPU复位,同时将主PCH发送的平台复位信号分发到各个从可编程器件,各个从可编程器件触发各自连接的从PCH和 从CPU在不下电的情况下复位,从PCH和从CPU之间之前由于从PCH不工作而断开的链路恢复,实现了服务器在单个PCH工作的情况下所有CPU的复位。
第三方面,本发明实施例提供了一种热重启服务器的装置,所述装置包括用于实现上述第一方面所述的方法的单元,例如接收单元、PCH复位单元、CPU复位单元等。
第四方面,本发明实施例提供了一种热重启服务器的装置,所述装置包括用于实现上述第二方面所述的方法的单元,例如接收单元、发送单元等。
第五方面,本发明实施例提供了一种热重启服务器的系统,所述系统包括主节点、至少一个从节点、主可编程器件、以及至少一个从可编程器件,所述主节点包括主平台控制集线器PCH和主中央处理器CPU,各个所述从节点包括从PCH和从CPU,所述主PCH在所述服务器处于单PCH工作模式时工作,所述从PCH在所述服务器处于单PCH工作模式时不工作,所述主节点由所述主可编程器件管理,各个所述从节点分别由不同的从可编程器件管理;
所述主PCH,用于接收用户输入的复位请求,并向所述主可编程器件发送平台复位信号;
所述主可编程器件,用于接收所述主PCH发送的平台复位信号;在所述主PCH发送的平台复位信号的触发下向所述主CPU发送CPU复位信号,并向所述从可编程器件发送平台复位信号;
所述主CPU,用于接收所述主可编程器件发送的CPU复位信号;在所述主可编程器件发送的CPU复位信号的触发下复位;
所述从可编程器件,用于接收所述主可编程器件发送的平台复位信号;触发所述从PCH在不下电的情况下复位;触发所述从CPU在不下电的情况下复位;
所述从PCH,用于在所述从可编程器件的触发下在不下电的情况下复位;
所述从CPU,用于在所述从可编程器件的触发下在不下电的情况下复位。
通过主可编程器件触发主CPU复位,同时将主PCH发送的平台复位信号分发到各个从可编程器件,各个从可编程器件触发各自连接的从PCH和从CPU复位,从PCH和从CPU之间之前由于从PCH不工作而断开的链路恢复,完成了所有CPU的复位。同时,通过从可编程器件在从PCH复位的过程中保持从CPU不下电,并向从CPU发送表示电源正常的电源信号,使从CPU在不下电的情况下复位,实现了服务器的热复位。
本发明实施例提供的技术方案带来的有益效果是:
通过主可编程器件将主PCH发送的平台复位信号分发到各个从可编程器件,各个从可编程器件触发各自连接的从PCH和从CPU在不下电的情况下复位,从PCH和从CPU之间之前由于从PCH不工作而断开的链路恢复,实现了在从PCH不工作的情况下从CPU的复位。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的X86服务器的结构示意图;
图2是本发明实施例提供的一种热重启服务器的方法的流程图;
图3是本发明实施例提供的一种热重启服务器的方法的流程图;
图4是本发明实施例提供的一种热重启服务器的方法的流程图;
图5是本发明实施例提供的服务器热重启过程中信号变化的示意图;
图6是本发明实施例提供的一种热重启服务器的装置的结构示意图;
图7是本发明实施例提供的一种热重启服务器的装置的结构示意图;
图8是本发明实施例提供的可编程器件的硬件结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本 发明实施方式作进一步地详细描述。
下面先结合图1简单介绍一下本发明适用的X86服务器的结构。参见图1,X86服务器包括16路CPU和4个PCH,每4路CPU和1个PCH组成1个节点(图1中用方框圈出),各个节点的CPU之间采用快速通道互联(Quick Path Interconnect,简称QPI)连接,同时各个节点内的各路CPU之间也采用QPI连接,各个节点内的PCH与其所在节点内的1路CPU连接,如采用直接媒体接口(Direct Media Interface,简称DMI)总线连接。另外,各个节点各自配置有1个可编程器件管理,各个可编程器件之间连接。
具体地,CPU1、CPU2、CPU3、CPU4、以及PCH1组成一个节点,并由可编程器件1管理;CPU5、CPU6、CPU7、CPU8、以及PCH2组成一个节点,并由可编程器件2管理;CPU9、CPU10、CPU11、CPU12、以及PCH3组成一个节点,并由可编程器件3管理;CPU13、CPU14、CPU15、CPU16、以及PCH4组成一个节点,并由可编程器件4管理。
当X86服务器启动时,各个节点的CPU和PCH同时启动。待X86服务器运行一段时间后,只有一个PCH继续工作,继续工作的PCH称为主PCH,主PCH所在节点内的CPU称为主CPU,管理主PCH的可编程器件称为主可编程器件。除主PCH之外的PCH不工作,不工作的PCH称为从PCH,从PCH所在节点内的CPU称为从CPU,管理从PCH的可编程器件称为从可编程器件。例如,PCH1为主PCH,CPU1、CPU2、CPU3、CPU4为主CPU,PCH2、PCH3、PCH4为从PCH,CPU5、CPU6、CPU7、CPU8、CPU9、CPU10、CPU11、CPU12、CPU13、CPU14、CPU15、CPU16为从CPU,可编程器件1为主可编程器件,可编程器件2、可编程器件3、可编程器件4为从可编程器件。需要说明的是,此时从CPU仍在工作,从CPU与从PCH之间的链路由于从PCH不工作而断开。
需要说明的是,图1仅以16路X86服务器为例,本发明还可以适用于8路X86服务器、32路X86服务器等其它X86服务器,其它X86服务器与16路X86服务器相比,区别主要在于节点(包括四路CPU和1个PCH)数量的不同,节点内的结构、以及节点间的连接关系是相同的。
本发明实施例提供了一种热重启服务器的方法,参见图2,该方法包括:
步骤101:从可编程器件接收主可编程器件发送的平台复位信号,主可编程器件发送的平台复位信号是主可编程器件在接收到主PCH发送的平台复位信号后发送的。
步骤102:从可编程器件触发从PCH在不下电的情况下复位。
步骤103:从可编程器件保持从CPU在不下电的情况下复位。
本发明实施例通过主可编程器件将主PCH发送的平台复位信号分发到各个从可编程器件,各个从可编程器件触发各自连接的从PCH和从CPU在不下电的情况下复位,从PCH和从CPU之间之前由于从PCH不工作而断开的链路恢复,实现了在从PCH不工作的情况下从CPU的复位。
本发明实施例提供了一种热重启服务器的方法,参见图3,该方法包括:
步骤201:主可编程器件接收主PCH发送的平台复位信号,主PCH发送的平台复位信号是主PCH在接收到用户输入的复位请求后发送的。
步骤202:主可编程器件在主PCH发送的平台复位信号的触发下向主CPU发送CPU复位信号,并向从可编程器件发送平台复位信号,以使主CPU在CPU复位信号的触发下复位,从可编程器件触发从PCH和从CPU在不下电的情况下复位。
本发明实施例通过主可编程器件触发主CPU复位,同时将主PCH发送的平台复位信号分发到各个从可编程器件,各个从可编程器件触发各自连接的从PCH和从CPU在不下电的情况下复位,从PCH和从CPU之间之前由于从PCH不工作而断开的链路恢复,实现了服务器在单个PCH工作的情况下所有CPU的复位。
本发明实施例提供了一种热重启服务器的方法,参见图4,该方法包括:
步骤301:主PCH接收用户输入的复位请求,并向主可编程器件发送PLT_RST信号。
在具体实现中,复位请求为用户通过硬件或软件的方式输入的信号,用于触发PCH控制CPU复位。PLT_RST信号为PCH发出的平台复位信号,用于控制可编程器件触发CPU复位。
在实际应用中,PCH负责输入输出(Input/Output,简称I/O)总线之间的通信,与外设组件互连(Peripheral Component Interconnect,简称PCI) 总线、集成开发环境(Integrated Development Environment,简称IDE)设备、I/O设备等连接,因此用户输入的复位请求由PCH接收。如前所述,X86服务器运行一段时间后,只有主PCH继续工作,因此是主PCH接收用户输入的复位请求。
具体地,用户可以采用如下两种方式输入复位请求:
方式一、通过操作系统接口输入复位请求。具体地,用户进入操作系统(Operating System,简称OS)中点击OS提供的重启计算机的按钮,如从Windows操作系统的“开始”处点击“重新启动”。
需要说明的是,CPU在复位之前,需要先进行中断业务等准备工作。在方式一中,由于操作系统是运行在CPU上的,用户通过操作系统接口输入的信号是向CPU输入的,在用户进入OS中点击OS提供的重启计算机的按钮之后,CPU会自动完成中断业务等准备工作,并向PCH发送复位请求,因此主PCH在接收到复位请求后,可以直接向主可编程器件发送PLT_RST信号,控制可编程器件触发CPU复位。
方式二、通过非操作系统接口输入复位请求。具体地,用户按下主板上设置的重启计算机的按钮,或者通过管理软件向PCH发送复位请求。在方式二中,复位请求具体为SYS_RST信号。
在方式二中,由于复位请求的发送并没有通知CPU,因此主PCH在接收到复位请求后,先通知所有CPU,待接收到所有CPU根据该通知完成中断业务等准备工作后发送的响应信号,再向主可编程器件发送PLT_RST信号,控制可编程器件触发CPU复位。
步骤302:主可编程器件在PLT_RST信号触发下向主CPU发送CPU_RST信号,并向从可编程器件发送PLT_RST信号。
在具体实现中,CPU_RST信号为可编程器件发出的CPU复位信号,用于触发CPU复位。
如前所述,主可编程器件与四个主CPU之间是连接的,可以直接向主CPU发送CPU_RST信号。同时主可编程器件与从可编程器件之间也是连接的,可以直接向从可编程器件发送PLT_RST信号。以图1为例,可编程器件1向CPU1、CPU2、CPU3、CPU4发送CPU_RST信号,向可编程器件2、可编程器件3、可编程器件4发送PLT_RST信号。
步骤303:主CPU在CPU_RST信号的触发下复位。
在实际应用中,可编程器件除了向CPU发送CPU_RST信号之外,还会向与该CPU在同一节点的其它设备发送复位信号,比如向内存发送JC_RST信号,向I/O设备发送SYS_RST信号。相应地,内存在JC_RST信号的触发下复位,I/O设备在SYS_RST信号的触发下复位。
需要说明的是,主CPU复位前,主PCH和主CPU均处于工作状态,两者的供电正常,同时主CPU复位过程中主可编程器件也没有产生影响供电的电源信号,因此主CPU是在不下电的情况下复位。
步骤304:从可编程器件保持从PCH不下电,并在主可编程器件发送的PLT_RST信号触发下向从PCH发送表示电源故障的PCH_PWROK信号。
在具体实现中,PCH_PWROK信号是可编程器件发送给PCH的PCH电源信号,通常用高电平表示电源正常,低电平表示电源故障。其中,高电平和低电平是按照信号的电压大小划分的,例如低电平为0~0.8V,高电平为2~3.3V。
若PCH接收到表示电源正常的PCH_PWROK信号,则正常工作;若PCH接收到表示电源故障的PCH_PWROK信号后,则会复位。需要说明的是,可编程器件保持从PCH不下电,即可使从PCH在不下电的情况下复位。
具体地,从可编程器件保持从PCH不下电,可以包括:
从可编程器件向从PCH的供电电源持续发送为从PCH供电的使能信号。
在具体实现中,从PCH的供电电源是否工作是由从可编程器件发送的使能信号控制的,通常使能信号为高电平时,从PCH的供电电源为从PCH供电;使能信号为低电平时,从PCH的供电电源停止为从PCH供电。因此,只要从可编程器件持续向从PCH的供电电源持续发送高电平的使能信号,即可实现保持从PCH不下电。
步骤305:从PCH在表示电源故障的PCH_PWROK信号的触发下复位,并在复位的过程中向从可编程器件发送PLT_RST信号。
步骤306:从可编程器件在从PCH发送的PLT_RST信号的触发下向从CPU发送CPU_RST信号,同时保持从CPU不下电,并向从CPU发送表示电源正常的CPU_PWRGD信号。
在具体实现中,CPU_PWRGD信号是可编程器件发送给CPU的CPU电源信号,通常用高电平表示电源正常,低电平表示电源故障。
参见图5,在现有技术中,PCH在接收到表示电源故障的PCH_PWROK信号(图5用低电平表示电源故障)后复位的过程中,除了向可编程器件发送PLT_RST信号(图5用低电平表示复位)之外,还会向可编程器件发送表示电源故障的PROC_PWRGD信号(process power good处理器电源正常)(图5用低电平表示电源故障)。可编程器件在PCH发送的PLT_RST信号的触发下向CPU发送CPU_RST信号(图5用低电平表示复位),还可以向内存发送JC_RST信号(图5用低电平表示复位)、向I/O设备发送IO_RST信号(图5用低电平表示复位),在此不再详述。
同时可编程器件在表示电源故障的PROC_PWRGD信号的触发下向CPU发送表示电源故障的CPU_PWRGD信号(图5中用虚线的低电平表示),由于表示电源故障的CPU_PWRGD信号会导致CPU内部的电源下电,此时CPU会在下电的情况下复位,导致CPU中所有寄存器中的内容都会丢失。为了避免CPU在下电的情况下复位,本发明中从可编程器件在一方面保持CPU不下电,另一方面向从CPU发送的是表示电源正常的CPU_PWRGD信号(图5中用实线的高电平表示),使CPU在不下电的情况下复位,CPU中部分寄存器(如sticky寄存器)中的内容保留下来,实现了服务器的热重启。
具体地,从可编程器件保持从CPU不下电,可以包括:
从可编程器件向从CPU的供电电源持续发送为从CPU供电的使能信号。
在具体实现中,从CPU的供电电源是否工作是由从可编程器件发送的使能信号控制的,通常使能信号为高电平时,从CPU的供电电源为从CPU供电;使能信号为低电平时,从CPU的供电电源停止为从CPU供电。因此,只要从可编程器件持续向从CPU的供电电源持续发送高电平的使能信号,即可实现保持从CPU不下电。
步骤307:从CPU在CPU_RST信号的触发下复位。
可以理解地,从PCH和从CPU在复位后会进入工作状态,此时从PCH和从CPU自动恢复之前断开的链路,完成服务器的热重启。待服务器工作一段时间后,从PCH会再次不工作,服务器进入单PCH工作模式,在此不再详述。
本发明实施例通过主可编程器件触发主CPU复位,同时将主PCH发送 的平台复位信号分发到各个从可编程器件,各个从可编程器件触发各自连接的从PCH和从CPU复位,从PCH和从CPU之间之前由于从PCH不工作而断开的链路恢复,完成了所有CPU的复位。同时,通过从可编程器件在从PCH复位的过程中保持从CPU不下电,并向从CPU发送表示电源正常的电源信号,使从CPU在不下电的情况下复位,实现了服务器的热复位。
本发明实施例提供了一种热重启服务器的装置,参见图6,该装置可以通过软件、硬件或者两者的结合实现成为从可编程器件的全部或者一部分。该装置可以包括接收单元401、PCH复位单元402和CPU复位单元403。
其中,接收单元401用于接收主可编程器件发送的平台复位信号,主可编程器件发送的平台复位信号是主可编程器件在接收到主PCH发送的平台复位信号后发送的。PCH复位单元402用于触发从PCH在不下电的情况下复位。CPU复位单元403用于触发从CPU在不下电的情况下复位。
在本实施例的一种实现方式中,PCH复位单元402可以用于保持从PCH不下电,并在主可编程器件发送的平台复位信号的触发下向从PCH发送表示电源故障的电源信号,以使从PCH在表示电源故障的电源信号的触发下复位,并在复位的过程中向从可编程器件发送平台复位信号。
可选地,PCH复位单元402可以用于向从PCH的供电电源持续发送为从PCH供电的使能信号,以保持从PCH不下电。
可选地,CPU复位单元403可以用于接收从PCH在复位的过程中发送的平台复位信号;保持从CPU不下电,向从CPU发送表示电源正常的电源信号,并在从PCH发送的平台复位信号的触发下向从CPU发送CPU复位信号,以使从CPU在CPU复位信号的触发下复位。
优选地,CPU复位单元403可以用于向从CPU的供电电源持续发送为从CPU供电的使能信号,以保持从CPU不下电。
本发明实施例提供了一种热重启服务器的装置,参见图7,该装置可以通过软件、硬件或者两者的结合实现成为主可编程器件的全部或者一部分。该装置可以包括接收单元501和发送单元502。
其中,接收单元501用于接收主PCH发送的平台复位信号,主PCH发送的平台复位信号是主PCH在接收到用户输入的复位请求后发送的。发 送单元502用于在主PCH发送的平台复位信号的触发下向主CPU发送CPU复位信号,并向从可编程器件发送平台复位信号,以使主CPU在CPU复位信号的触发下复位,从可编程器件触发从PCH和从CPU在不下电的情况下复位。
图8示出了实现本发明实施例提供的可编程器件的硬件结构,该可编程器件可以具体为复杂可编程逻辑器件(Complex Programmable Logic Device,简称CPLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等器件中的任意一种。可编程器件600可以包括存储器610和I/O接口620。I/O接口620用于接收和发送各种信号,存储器610中存储有各种信号之间的对应关系,如I/O接口620接收到PCH发送的PLT_RST信号,则存储器610指示I/O接口620向CPU发送CPU_RST信号等。
具体地,当该可编程器件为从可编程器件时,图6所示的装置中的接收单元401通过I/O接口620接收主可编程器件发送的平台复位信号,PCH复位单元402根据存储器610中存储的对应关系,通过I/O接口620触发从PCH在不下电的情况下复位,CPU复位单元403根据存储器610中存储的对应关系,通过I/O接口620触发从CPU在不下电的情况下复位。
当该可编程器件为主可编程器件时,图7所示的装置中的接收单元501通过I/O接口620接收主PCH发送的平台复位信号,发送单元502根据存储器610中存储的对应关系,通过I/O接口620向主CPU发送CPU复位信号。
本发明实施例提供了一种热重启服务器的系统,该系统包括主节点、至少一个从节点、主可编程器件、以及至少一个从可编程器件,主节点包括主PCH和主CPU,各个从节点包括从PCH和从CPU,主PCH在服务器处于单PCH工作模式时工作,从PCH在服务器处于单PCH工作模式时不工作,主节点由主可编程器件管理,各个从节点分别由不同的从可编程器件管理,如图1所示。
其中,主PCH用于接收用户输入的复位请求,并向主可编程器件发送平台复位信号。主可编程器件用于接收主PCH发送的平台复位信号;在主PCH发送的平台复位信号的触发下向主CPU发送CPU复位信号,并向从 可编程器件发送平台复位信号。主CPU接收主可编程器件发送的CPU复位信号;在主可编程器件发送的CPU复位信号的触发下复位。从可编程器件接收主可编程器件发送的平台复位信号;触发从PCH在不下电的情况下复位;触发从CPU在不下电的情况下复位。从PCH用于在从可编程器件的触发下在不下电的情况下复位。从CPU用于在从可编程器件的触发下在不下电的情况下复位。
需要说明的是:上述实施例提供的热重启服务器的装置在热重启服务器时,仅以上述各功能单元的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元完成,即将装置的内部结构划分成不同的功能单元,以完成以上描述的全部或者部分功能。另外,上述实施例提供的热重启服务器的装置与热重启服务器的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (13)

  1. 一种热重启服务器的方法,所述服务器包括主节点和至少一个从节点,所述主节点包括主平台控制集线器PCH和主中央处理器CPU,各个所述从节点包括从PCH和从CPU,所述主PCH在所述服务器处于单PCH工作模式时工作,所述从PCH在所述服务器处于单PCH工作模式时不工作,所述主节点由主可编程器件管理,各个所述从节点分别由不同的从可编程器件管理,其特征在于,所述方法包括:
    所述从可编程器件接收所述主可编程器件发送的平台复位信号,所述主可编程器件发送的平台复位信号是所述主可编程器件在接收到所述主PCH发送的平台复位信号后发送的;
    所述从可编程器件触发所述从PCH在不下电的情况下复位;
    所述从可编程器件触发所述从CPU在不下电的情况下复位。
  2. 根据权利要求1所述的方法,其特征在于,所述从可编程器件触发所述从PCH在不下电的情况下复位,包括:
    所述从可编程器件保持所述从PCH不下电,并在所述主可编程器件发送的平台复位信号的触发下向所述从PCH发送表示电源故障的电源信号,以使所述从PCH在所述表示电源故障的电源信号的触发下复位,并在复位的过程中向所述从可编程器件发送平台复位信号。
  3. 根据权利要求2所述的方法,其特征在于,所述从可编程器件保持所述从PCH不下电,包括:
    所述从可编程器件向所述从PCH的供电电源持续发送为所述从PCH供电的使能信号。
  4. 根据权利要求2或3所述的方法,其特征在于,所述触发所述从CPU复位,包括:
    所述从可编程器件接收所述从PCH在复位的过程中发送的平台复位信号;
    所述从可编程器件保持所述从CPU不下电,向所述从CPU发送表示电源正常的电源信号,并在所述从PCH发送的平台复位信号的触发下向所述从CPU发送CPU复位信号,以使所述从CPU在所述CPU复位信号的触发下复位。
  5. 根据权利要求4所述的方法,其特征在于,所述从可编程器件保持所述从CPU不下电,包括:
    所述从可编程器件向所述从CPU的供电电源持续发送为所述从CPU供电的使能信号。
  6. 一种热重启服务器的方法,所述服务器包括主节点和至少一个从节点,所述主节点包括主平台控制集线器PCH和主中央处理器CPU,各个所述从节点包括从PCH和从CPU,所述主PCH在所述服务器处于单PCH工作模式时工作,所述从PCH在所述服务器处于单PCH工作模式时不工作,所述主节点由主可编程器件管理,各个所述从节点分别由不同的从可编程器件管理,其特征在于,所述方法包括:
    所述主可编程器件接收所述主PCH发送的平台复位信号,所述主PCH发送的平台复位信号是所述主PCH在接收到用户输入的复位请求后发送的;
    所述主可编程器件在所述主PCH发送的平台复位信号的触发下向所述主CPU发送CPU复位信号,并向所述从可编程器件发送平台复位信号,以使主CPU在所述CPU复位信号的触发下复位,所述从可编程器件触发所述从PCH和所述从CPU在不下电的情况下复位。
  7. 一种热重启服务器的装置,所述服务器包括主节点和至少一个从节点,所述主节点包括主平台控制集线器PCH和主中央处理器CPU,各个所述从节点包括从PCH和从CPU,所述主PCH在所述服务器处于单PCH工作模式时工作,所述从PCH在所述服务器处于单PCH工作模式时不工作,所述主节点由主可编程器件管理,各个所述从节点分别由不同的所述装置管理,其特征在于,所述装置包括:
    接收单元,用于接收所述主可编程器件发送的平台复位信号,所述主可编程器件发送的平台复位信号是所述主可编程器件在接收到所述主PCH发送的平台复位信号后发送的;
    PCH复位单元,用于触发所述从PCH在不下电的情况下复位;
    CPU复位单元,用于触发所述从CPU在不下电的情况下复位。
  8. 根据权利要求7所述的装置,其特征在于,所述PCH复位单元用 于,
    保持所述从PCH不下电,并在所述主可编程器件发送的平台复位信号的触发下向所述从PCH发送表示电源故障的电源信号,以使所述从PCH在所述表示电源故障的电源信号的触发下复位,并在复位的过程中向所述从可编程器件发送平台复位信号。
  9. 根据权利要求8所述的装置,其特征在于,所述PCH复位单元用于,
    向所述从PCH的供电电源持续发送为所述从PCH供电的使能信号,以保持所述从PCH不下电。
  10. 根据权利要求8或9所述的装置,其特征在于,所述CPU复位单元用于,
    接收所述从PCH在复位的过程中发送的平台复位信号;
    保持所述从CPU不下电,向所述从CPU发送表示电源正常的电源信号,并在所述从PCH发送的平台复位信号的触发下向所述从CPU发送CPU复位信号,以使所述从CPU在所述CPU复位信号的触发下复位。
  11. 根据权利要求10所述的装置,其特征在于,所述CPU复位单元用于,
    向所述从CPU的供电电源持续发送为所述从CPU供电的使能信号,以保持所述从CPU不下电。
  12. 一种热重启服务器的装置,所述服务器包括主节点和至少一个从节点,所述主节点包括主平台控制集线器PCH和主中央处理器CPU,各个所述从节点包括从PCH和从CPU,所述主PCH在所述服务器处于单PCH工作模式时工作,所述从PCH在所述服务器处于单PCH工作模式时不工作,所述主节点由所述装置管理,各个所述从节点分别由不同的从可编程器件管理,其特征在于,所述装置包括:
    接收单元,用于接收所述主PCH发送的平台复位信号,所述主PCH发送的平台复位信号是所述主PCH在接收到用户输入的复位请求后发送的;
    发送单元,用于在所述主PCH发送的平台复位信号的触发下向所述主CPU发送CPU复位信号,并向所述从可编程器件发送平台复位信号,以使 主CPU在所述CPU复位信号的触发下复位,所述从可编程器件触发所述从PCH和所述从CPU在不下电的情况下复位。
  13. 一种热重启服务器的系统,其特征在于,所述系统包括主节点、至少一个从节点、主可编程器件、以及至少一个从可编程器件,所述主节点包括主平台控制集线器PCH和主中央处理器CPU,各个所述从节点包括从PCH和从CPU,所述主PCH在所述服务器处于单PCH工作模式时工作,所述从PCH在所述服务器处于单PCH工作模式时不工作,所述主节点由所述主可编程器件管理,各个所述从节点分别由不同的从可编程器件管理;
    所述主PCH,用于接收用户输入的复位请求,并向所述主可编程器件发送平台复位信号;
    所述主可编程器件,用于接收所述主PCH发送的平台复位信号;在所述主PCH发送的平台复位信号的触发下向所述主CPU发送CPU复位信号,并向所述从可编程器件发送平台复位信号;
    所述主CPU,用于接收所述主可编程器件发送的CPU复位信号;在所述主可编程器件发送的CPU复位信号的触发下复位;
    所述从可编程器件,用于接收所述主可编程器件发送的平台复位信号;触发所述从PCH在不下电的情况下复位;触发所述从CPU在不下电的情况下复位;
    所述从PCH,用于在所述从可编程器件的触发下在不下电的情况下复位;
    所述从CPU,用于在所述从可编程器件的触发下在不下电的情况下复位。
PCT/CN2016/098742 2015-12-11 2016-09-12 一种热重启服务器的方法、装置及系统 WO2017096993A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510918209.0A CN105549706B (zh) 2015-12-11 2015-12-11 一种热重启服务器的方法、装置及系统
CN201510918209.0 2015-12-11

Publications (1)

Publication Number Publication Date
WO2017096993A1 true WO2017096993A1 (zh) 2017-06-15

Family

ID=55828936

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2016/098742 WO2017096993A1 (zh) 2015-12-11 2016-09-12 一种热重启服务器的方法、装置及系统

Country Status (2)

Country Link
CN (1) CN105549706B (zh)
WO (1) WO2017096993A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105549706B (zh) * 2015-12-11 2018-12-07 华为技术有限公司 一种热重启服务器的方法、装置及系统
CN108268286A (zh) * 2016-12-29 2018-07-10 联想(上海)信息技术有限公司 计算机系统启动方法及计算机系统
CN109120143B (zh) * 2018-07-25 2021-08-10 郑州云海信息技术有限公司 一种控制上下电的方法、主控制器和系统
CN110187659B (zh) * 2019-05-28 2020-12-11 成都星时代宇航科技有限公司 状态监控方法、系统及立方星
CN110502377B (zh) * 2019-08-08 2021-04-27 苏州浪潮智能科技有限公司 一种基于cpld的重启测试方法
CN111857312A (zh) * 2020-06-24 2020-10-30 苏州浪潮智能科技有限公司 一种基于x86平台的多设备复位方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103733180A (zh) * 2013-09-29 2014-04-16 华为技术有限公司 服务器的控制方法和服务器的控制设备
CN104503947A (zh) * 2014-12-16 2015-04-08 华为技术有限公司 多路服务器及其信号处理方法
CN104978208A (zh) * 2014-04-14 2015-10-14 杭州华三通信技术有限公司 一种热重启方法及其装置
CN105549706A (zh) * 2015-12-11 2016-05-04 华为技术有限公司 一种热重启服务器的方法、装置及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8335913B2 (en) * 2008-09-08 2012-12-18 Dell Products, LLP Method and system for restoring system configuration after disorderly shutdown

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103733180A (zh) * 2013-09-29 2014-04-16 华为技术有限公司 服务器的控制方法和服务器的控制设备
CN104978208A (zh) * 2014-04-14 2015-10-14 杭州华三通信技术有限公司 一种热重启方法及其装置
CN104503947A (zh) * 2014-12-16 2015-04-08 华为技术有限公司 多路服务器及其信号处理方法
CN105549706A (zh) * 2015-12-11 2016-05-04 华为技术有限公司 一种热重启服务器的方法、装置及系统

Also Published As

Publication number Publication date
CN105549706A (zh) 2016-05-04
CN105549706B (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
WO2017096993A1 (zh) 一种热重启服务器的方法、装置及系统
US9798556B2 (en) Method, system, and apparatus for dynamic reconfiguration of resources
US9389976B2 (en) Distributed persistent memory using asynchronous streaming of log records
US10922135B2 (en) Dynamic multitasking for distributed storage systems by detecting events for triggering a context switch
KR101365370B1 (ko) 동적 시스템 재구성
US8909910B2 (en) Computer system for selectively accessing bios by a baseboard management controller
TWI394048B (zh) 系統裝置、處理器及存取記憶體單元之方法
WO2015042925A1 (zh) 服务器的控制方法和服务器的控制设备
US10929150B2 (en) Optical line terminal and method for upgrading primary device and secondary device of optical line terminal
JPH1097490A (ja) スケーラブル対称型マルチプロセッサにおいてバス幅またはバス・プロトコルを変更せずに割り込みを分散する方法および装置
TWI528155B (zh) 在多核心處理系統中處理核心之重設
US9811404B2 (en) Information processing system and method
US20130254446A1 (en) Memory Management Method and Device for Distributed Computer System
CN107861763B (zh) 一种面向飞腾处理器休眠过程的中断路由环境恢复方法
US10649832B2 (en) Technologies for headless server manageability and autonomous logging
JP6407283B2 (ja) サーバ内のメモリモジュールに対するデータマイグレーション方法およびサーバ
CN116521209B (zh) 操作系统的升级方法及装置、存储介质及电子设备
US11243800B2 (en) Efficient virtual machine memory monitoring with hyper-threading
KR102211853B1 (ko) 이종의 멀티 cpu가 탑재된 시스템-온-칩 및 cpu 리부팅을 제어하는 방법
CN117555760B (zh) 服务器监测方法及装置、基板控制器及嵌入式系统
US20240073089A1 (en) In-service switch-over of functionality of a network operating system of a network switch
US11467923B2 (en) Application recovery using pooled resources
US20180060097A1 (en) Hyper-threading based host-guest communication
EP4195021A1 (en) Online migration method and system for bare metal server
TW201303580A (zh) 監督員系統回復控制技術

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16872188

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16872188

Country of ref document: EP

Kind code of ref document: A1