WO2012103738A1 - 用于快速复位设备的方法和装置 - Google Patents

用于快速复位设备的方法和装置 Download PDF

Info

Publication number
WO2012103738A1
WO2012103738A1 PCT/CN2011/076774 CN2011076774W WO2012103738A1 WO 2012103738 A1 WO2012103738 A1 WO 2012103738A1 CN 2011076774 W CN2011076774 W CN 2011076774W WO 2012103738 A1 WO2012103738 A1 WO 2012103738A1
Authority
WO
WIPO (PCT)
Prior art keywords
processor
operating system
system image
exception
reset
Prior art date
Application number
PCT/CN2011/076774
Other languages
English (en)
French (fr)
Inventor
胡海峰
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Priority to PCT/CN2011/076774 priority Critical patent/WO2012103738A1/zh
Priority to CN2011800012554A priority patent/CN102308284A/zh
Publication of WO2012103738A1 publication Critical patent/WO2012103738A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • G06F11/0724Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit

Definitions

  • the present invention relates to a method and apparatus for a quick reset device. Background technique
  • each processor of the network device will inevitably have an abnormality.
  • the network device needs to interrupt the service and reset to eliminate the anomalies that occur.
  • the network device sequentially resets each processor one by one. According to this reset mode, resetting of a network device having a plurality of processors takes more time than a network device having only a single processor.
  • the communication operator's equipment failure rate requirement for most network equipment is less than 0.99999, and the failure rate of some network equipment is even less than 0.9999999.
  • the service interruption time of a network device should be less than 22 seconds per month.
  • a method for quickly resetting a device includes the steps of: resetting only the processor that has an abnormality when an abnormality occurs in one of a plurality of processors of the device.
  • An apparatus for quickly resetting a device includes: a reset module, configured to: when the one of the plurality of processors of the device has an abnormality, only the processor that has an abnormality Reset.
  • the present invention effectively reduces the time required for device reset and speeds up the device compared to the prior art. The process of resetting.
  • FIG. 1 is a flow chart showing a method for performing a quick reset on a network device according to Embodiment 1 of the present invention
  • FIG. 2 is a flow chart showing a method for performing a quick reset of a network device according to Embodiment 2 of the present invention
  • FIG. 3 illustrates an apparatus for a quick reset device in accordance with one embodiment of the present invention.
  • DETAILED DESCRIPTION OF THE INVENTION Embodiments of the present invention provide a solution for a fast reset device that can quickly reset a device.
  • an abnormality for example, soft failure, Dcache, Icache, etc.
  • only the processor that has an abnormality is reset, and other processors that do not have an abnormality are No reset is performed, which effectively reduces the time required for device reset and achieves the purpose of quickly resetting the device.
  • VxWorks is a flexible, croppable embedded real-time operating system. Users can create their own VxWorks image as needed, including code segments, data segments, and BSS (Block Started by Symbol segment) segments.
  • VxWorks images can be divided into three types: a loadable VxWorks image, a ROM (Read Only Memory) VxWorks image, and a resident ROM VxWorks image.
  • the boot code for the loadable VxWorks image includes Bootstrap Programs and ROM Boot Programs.
  • the boot code for the ROM-based VxWorks image includes the bootloader and the ROM-based bootloader.
  • the VxWorks image, and the boot code for the VxWorks image hosting the ROM includes the starting bootloader and the VxWorks image of the resident ROM.
  • the normal startup and reset of a network device will vary depending on the startup code used.
  • the control plane processor and the data plane processor of the network device are sequentially started or reset according to the following steps (ie, first The control plane processor initiates or resets, and then after the control plane processor starts or resets, the data plane processor starts or resets): First, the start boot program included in the boot code placed in the ROM of the network device is executed.
  • the serial port downloads the VxWorks image (including the code segment, the data segment, and the BSS segment) to the RAM of the network device; finally, executes the instruction of the code segment of the VxWorks image that has been downloaded to the RAM of the network device to download the RAM to the network device.
  • the control plane processor and data plane processing of the network device when the network device is booted or reset Start or reset in the following steps: First, perform the placement on the network device.
  • the control plane processor and the data plane processor of the network device are sequentially started or reset according to the following steps: An instruction of a bootloader included in a boot code in a ROM of the network device to move a data segment and a BSS segment of the VxWorks image included in the boot code from a ROM of the network device to a RAM of the network device; and then execute the network device
  • the instruction of the code segment of the VxWorks image in the ROM is to clear the BSS segment of the VxWorks image that has been moved to the RAM of the network device and perform a system initialization operation.
  • FIG. 1 there is shown a flow chart of a method for performing a quick reset of a network device in accordance with a first embodiment of the present invention.
  • the network device has a control plane processor for control plane processing and a data plane processor for data plane processing.
  • step S110 when an abnormality occurs in one of the control plane processor and the data plane processor of the network device, only the processor C is normally reset. Since the process of the normal reset has been described above, a detailed description of the conventional reset of the processor C is omitted here.
  • FIG. 2 illustrates a network device according to a second embodiment of the present invention. Flow chart of the method of quick reset. Compared with the first embodiment, in the second embodiment, only the processor that has an abnormality in the network device is reset, but the reset performed is not a normal reset, but a reset after the normal reset is performed, Further reduce the time required for network device resets.
  • the network device is used for ROM-based
  • each time the network device performs a normal startup and reset after each processor of the network device moves the code segment and the data segment of the VxWorks image from the ROM of the network device to the RAM of the network device, the code segment of the VxWorks image moved to the RAM of the network device is set to read-only to protect it, while the data segment of the VxWorks image that has been moved to the RAM of the network device is backed up.
  • step S210 when an abnormality occurs in one of the control plane processor and the data plane processor of the network device, the processor P that causes the processor P to store the RAM of the network device The data exchanged by another processor of the network device is backed up.
  • the processor P is caused to skip the instruction of the initial boot program included in the boot code in the ROM of the network device, starting directly from the first instruction of the code segment of the VxWorks image located in the RAM of the network device. carried out.
  • the code segment of the VxWorks image located in the RAM of the network device is loaded into the RAM of the network device when the network device is normally started or reset.
  • step S230 the instruction for clearing the BSS segment of the VxWorks image stored in the RAM of the network device in the code segment of the VxWorks image is executed by the processor P, causing the processor P to utilize the last conventional boot of the network device. Or the data segment of the VxWorks image that was backed up at reset to overwrite the data segment of the VxWorks image in the RAM of the network device.
  • step S240 when the instruction for system initialization in the code segment of the VxWorks image is executed by the processor P, the processor P is caused to skip the instruction for initializing the peripheral chip of the network device.
  • step S250 after the instruction for performing system initialization in the code segment of the VxWorks image is executed by the processor P, the processor P is caused to restore the backed up processor P and another processor of the network device in the RAM of the network device. The data that is interacted with.
  • the reset of the abnormally occurring processor does not perform loading the VxWorks image from the ROM of the network device to The process of the RAM of the network device, but the first instruction of the code segment of the VxWorks image that has been loaded into the RAM of the network device directly from the last network device for normal startup or reset, and is skipped for the network
  • the peripheral chip of the device performs the initialization instruction. Therefore, compared with the solution of the first embodiment, the network device is reset more quickly by using the technical solution of the second embodiment.
  • the technical solution of the second embodiment can also be applied to a network device that adopts a startup code for a loadable VxWorks image and a startup code for a VxWorks image that resides in the ROM.
  • the code segment of the VxWorks image is located in the ROM of the network device, rather than in the RAM of the network device.
  • the instruction for initializing the peripheral chip of the network device is skipped at the time of system initialization, the present invention is not limited thereto. In other embodiments of the invention, instructions for initializing a peripheral chip of the network device may also be executed at system initialization. In this case, the technical solution is slower in reset speed than in the second embodiment, but the reset speed is still much faster than in the prior art and the first embodiment.
  • the apparatus 300 for quickly resetting a device includes a reset module 310 for resetting only the abnormally occurring processor when an abnormality occurs in one of the plurality of processors of the device.
  • the reset module 310 can further include an execution module for causing the processor having the exception to directly execute from the first instruction of the code segment of the operating system image when resetting the processor that is abnormal.
  • the reset module 310 may further include an overlay module, where the instruction for clearing the BSS segment of the operating system image in the code segment of the operating system image is executed by the processor that has an abnormality, and the The abnormal processor uses the data segment of the operating system image that was previously backed up to overwrite the data segment of the operating system image stored in the random access memory of the device, where the data segment of the previously backed up operating system image may be A data segment of the operating system image that is moved from the read only memory of the device to the random access memory is backed up at the last conventional boot or reset of the device.
  • the reset module 310 may further include a backup module and a recovery module, where the backup module is configured to prompt the abnormality before the processor that causes the abnormality is directly executed from the first instruction of the code segment of the operating system image. Retrieving, by the processor, the data stored by the random access memory and interacting with the other processors of the plurality of processors, the recovery module is configured to perform system initialization in a code segment of the operating system image After the instruction of the exception is executed by the processor, the processor having the exception is caused to restore the data of the backed up abnormal processor and the other processor in the random access memory.
  • the reset module 310 may further include a skip module, where the instruction for performing system initialization in the code segment of the operating system image is executed by the processor that generates the exception, and the processor that causes the exception is skipped. An instruction to initialize the peripheral chip of the device.
  • the device may be a network device, and the plurality of processors may include a processor for control plane processing and a processor for data plane processing.
  • Embodiments of the present invention also provide a machine readable storage medium storing machine executable instructions that, when executed, cause a machine to perform a method for quickly resetting a device, the method comprising the steps of: When an exception occurs in one of the multiple processors, only the processor that has the exception is reset.
  • the resetting step may further include: when resetting the processor in which the abnormality occurs, causing the processor having the abnormality to directly execute from the first instruction of the code segment of the operating system image.
  • the resetting step may further include: in the code segment of the operating system image, an instruction for clearing the BSS segment of the operating system image is executed by the processor that has an abnormality, and the processor that causes the abnormality is caused Using a data segment of the operating system image that was previously backed up to overwrite the data segment of the operating system image stored by the random access memory of the device, wherein the data segment of the previously backed up operating system image may be at the device The data segment of the operating system image that was moved from the read-only memory of the device to the random access memory was backed up during the last conventional boot or reset.
  • the resetting step may further include: causing the processor that has an abnormality to back up the storage of the random access memory before causing the processor that causes the abnormality to directly execute from the first instruction of the code segment of the operating system image.
  • Data that interacts with the other processors of the plurality of processors; the instructions for performing system initialization in the code segment of the operating system image are caused by the processor that caused the exception to cause the occurrence
  • the abnormal processor restores the data of the backed up abnormal processor and the other processor in the random access memory.
  • the resetting step may further include: when the instruction for performing system initialization in the code segment of the operating system image is executed by the processor that has an exception, causing the processor that has an exception to skip the device for the device An instruction to initialize the peripheral chip.
  • the device may be a network device, and the plurality of processors may include a processor for control plane processing and a processor for data plane processing.
  • the plurality of processors may include a processor for control plane processing and a processor for data plane processing.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Retry When Errors Occur (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种用于快速复位设备的方法和装置,其中,该方法包括步骤:当设备的多个处理器的其中一个处理器出现异常时,仅对所述其中一个处理器进行复位。利用该方法和装置,能够有效地减少了设备复位所需的时间,加快了设备复位的过程。

Description

用于快速复位设备的方法和装置
技术领域
本发明涉及用于快速复位设备的方法和装置。 背景技术
现在的大部分网络设备通常采用数据面和控制面分离的方式来 进行报文处理。通常, 为了实现数据面和控制面的分离, 这些网络设 备使用两个处理器来分别处理数据面的报文和控制面的报文。
在工作过程中, 网络设备的各个处理器难免会出现异常。当网络 设备的任何一个处理器出现异常时,网络设备都需要中断业务并进行 复位以消除所出现的异常。 当网络设备复位时, 网络设备对各个处理 器逐一依次进行复位。按照这种复位方式, 与仅具有单个处理器的网 络设备相比, 具有多个处理器的网络设备的复位需要花费更多的时 间。
为了给用户提供更好的通信体验,通信运营商对网络设备的设备 故障率具有越来越严格的要求。通常, 通信运营商对大部分网络设备 的设备故障率要求小于 0.99999, 有的网络设备的故障率甚至要求小 于 0.9999999。 按照故障率小于 0.99999的要求, 一个网络设备在每 月的业务中断时间应小于 22秒。
然而,具有多个处理器的网络设备从开始复位到复位完成一般都 需要几分钟的时间,这远远不能满足通信运营商对网络设备的设备故 障率的要求。 发明内容
考虑到现有技术的上述问题,本发明的实施例提出一种用于快速 复位设备的方法和装置, 其可以对设备进行快速复位, 从而有效地减 少设备复位所需的时间。 按照本发明实施例的一种用于快速复位设备的方法, 包括步骤: 当所述设备的多个处理器的其中一个处理器出现异常时,仅对所述出 现异常的处理器进行复位。
按照本发明实施例的一种用于快速复位设备的装置, 包括: 复位 模块, 用于当所述设备的多个处理器的其中一个处理器出现异常时, 仅对所述出现异常的处理器进行复位。
由于仅对设备中出现异常的处理器进行复位,而不是对设备中的 所有处理器都进行复位, 所以与现有技术相比, 本发明有效地减少了 设备复位所需的时间, 加快了设备复位的过程。 附图说明
本发明的其它特点、优点和益处通过以下结合附图的详细描述将 变得更加显而易见。 其中:
图 1 示出了按照本发明实施例一的对网络设备进行快速复位的 方法流程图;
图 2 示出了按照本发明实施例二的对网络设备进行快速复位的 方法流程图; 以及
图 3示出了按照本发明一个实施例的用于快速复位设备的装置。 具体实施方式 本发明的实施例提供一种用于快速复位设备的方案,其可以对设 备进行快速复位。按照该方案, 当设备的多个处理器的其中一个处理 器出现异常 (例如, 软失效、 Dcache、 Icache等) 时, 仅对该出现异 常的处理器进行复位, 其它没有出现异常的处理器并不进行复位, 从 而有效地减少了设备复位所需的时间,达到了对设备进行快速复位的 目的。 下面, 在详细描述本发明的各个实施例之前, 首先简单介绍具有 控制面处理器和数据面处理器的网络设备的常规启动和复位。 网络设备通常使用 VxWorks操作系统作为其操作系统。 VxWorks 是一种灵活的、可裁剪的嵌入式实时操作系统。用户可以根据需要创 建自己的 VxWorks映像,其包括代码段、数据段和 BSS(Block Started by Symbol segment)段。
根据应用场合的不同, VxWorks映像可以分为三种类型: 可加载 的 VxWorks映像、基于 ROM (只读存储器)的 VxWorks映像和驻留 ROM的 VxWorks映像。
不同类型的 VxWorks映像使用不同的启动代码 (BOOTROM), 但所有的启动代码都放置在 ROM中。 其中, 用于可加载的 VxWorks 映像的启动代码包括起始引导程序(Bootstrap Programs)和 ROM引 导程序(ROM Boot Programs),用于基于 ROM的 VxWorks映像的启 动代码包括起始引导程序和基于 ROM的 VxWorks映像, 以及驻留 ROM的 VxWorks映像的启动代码包括起始引导程序和驻留 ROM的 VxWorks映像。
根据所采用的启动代码不同,网络设备的常规启动和复位也会有 所不同。
如果网络设备采用用于可加载的 VxWorks 映像的启动代码, 则 当网络设备进行常规的启动或复位时,网络设备的控制面处理器和数 据面处理器按照如下步骤依次进行启动或复位(即首先控制面处理器 进行启动或复位, 然后在控制面处理器启动或复位完成后, 数据面处 理器进行启动或复位): 首先执行放置在网络设备的 ROM 中的启动 代码所包括的起始引导程序的指令, 以将启动代码所包括的 ROM引 导程序从网络设备的 ROM搬移到网络设备的 RAM (随机存取存储 器); 然后, 执行已搬移到 RAM的 ROM引导程序的指令, 以从网络 口或串口将 VxWorks映像 (包括代码段、 数据段和 BSS段) 下载到 网络设备的 RAM ; 最后, 执行已下载到网络设备的 RAM 中的 VxWorks 映像的代码段的指令, 以对下载到网络设备的 RAM 中的 VxWorks映像的 BSS段清零和执行系统初始化操作。
如果网络设备采用用于基于 ROM的 VxWorks映像的启动代码, 则当网络设备启动或复位时,网络设备的控制面处理器和数据面处理 器按照如下步骤依次进行启动或复位: 首先执行放置在网络设备的
ROM中的启动代码所包括的起始引导程序的指令, 以将启动代码中 所包括的 VxWorks映像 (包括代码段、 数据段和 BSS段) 从网络设 备的 ROM搬移到网络设备的 RAM; 然后, 执行已搬移到网络设备 的 RAM中的 VxWorks映像的代码段的指令,以对搬移到网络设备的 RAM中的 VxWorks映像的 BSS段清零和执行系统初始化操作。
如果网络设备采用用于驻留 ROM的 VxWorks映像的启动代码, 则当网络设备启动或复位时,网络设备的控制面处理器和数据面处理 器按照如下步骤依次进行启动或复位: 首先执行放置在网络设备的 ROM中的启动代码所包括的起始引导程序的指令, 以将启动代码中 所包括的 VxWorks映像的数据段和 BSS段从网络设备的 ROM搬移 到网络设备的 RAM; 然后执行网络设备的 ROM中的 VxWorks映像 的代码段的指令,以对已搬移到网络设备的 RAM中的 VxWorks映像 的 BSS段清零和执行系统初始化操作。 下面,以网络设备为例,结合附图详细描述本发明的各个实施例。 现在参考图 1, 其示出了按照本发明实施例一的对网络设备进行 快速复位的方法流程图。这里, 假设网络设备具有用于控制面处理的 控制面处理器和用于数据面处理的数据面处理器。
如图 1所示, 在步骤 S110中, 当网络设备的控制面处理器和数 据面处理器的其中一个处理器 C出现异常时, 仅对处理器 C进行常 规复位。 由于上面已经描述了常规复位的过程, 所以这里省略了对处 理器 C进行常规复位的详细描述。
从实施例一可以看出,由于只对网络设备中出现异常的处理器进 行复位, 而其它没有出现异常的处理器并不进行复位, 从而有效地减 少了网络设备复位所需的时间,达到了对网络设备进行快速复位的目 的。 参考图 2, 图 2其示出了按照本发明实施例二的对网络设备进行 快速复位的方法流程图。 与上述实施例一相比, 在本实施例二中, 也 是仅对网络设备中出现异常的处理器进行复位,但是所进行的复位不 是常规复位, 而是对常规复位进行裁剪后的复位, 以进一步减少网络 设备复位所需的时间。 这里, 假设网络设备采用用于基于 ROM 的
VxWorks映像的启动代码。
在本实施例二中, 当网络设备每次进行常规启动和复位时, 在网 络设备的每一个处理器将 VxWorks 映像的代码段和数据段从网络设 备的 ROM搬移到网络设备的 RAM后, 已搬移到网络设备的 RAM 的 VxWorks 映像的代码段被设置为只读的, 以将其保护起来, 同时 已搬移到网络设备的 RAM的 VxWorks映像的数据段被备份。
如图 2所示, 在步骤 S210, 当网络设备的控制面处理器和数据 面处理器中的其中一个处理器 P出现异常时,促使处理器 P对网络设 备的 RAM所存储的处理器 P与网络设备的另一处理器交互的数据进 行备份。
在步骤 S220,促使处理器 P跳过位于在网络设备的 ROM中的启 动代码所包括的起始引导程序的指令, 直接从位于网络设备的 RAM 中的 VxWorks 映像的代码段的第一个指令开始执行。 其中, 位于网 络设备的 RAM中的 VxWorks映像的代码段是上一次网络设备进行常 规启动或复位时被加载到网络设备的 RAM中的。
在步骤 S230, 在 VxWorks 映像的代码段中用于对网络设备的 RAM所存储的 VxWorks映像的 BSS段进行清零的指令被处理器 P 执行后,促使处理器 P利用网络设备的上一次常规启动或复位时所备 份的 VxWorks映像的数据段,来覆盖网络设备的 RAM中的 VxWorks 映像的数据段。
在步骤 S240, 在 VxWorks映像的代码段中用于进行系统初始化 的指令被处理器 P执行时,促使处理器 P跳过用于对网络设备的外围 芯片进行初始化的指令。
在步骤 S250, 在 VxWorks映像的代码段中用于进行系统初始化 的指令被处理器 P执行后,促使处理器 P在网络设备的 RAM中恢复 所备份的处理器 P与网络设备的另一处理器所交互的数据。 从上面的描述可以看出, 在实施例二中, 不但仅对网络设备中出 现异常的处理器进行复位,而且该出现异常的处理器的复位并不执行 将 VxWorks映像从网络设备的 ROM加载到网络设备的 RAM的过程, 而是直接从上一次网络设备进行常规启动或复位时已加载到网络设 备的 RAM中的 VxWorks映像的代码段的第一个指令开始执行,并且 跳过用于对网络设备的外围芯片进行初始化的指令, 因此, 与实施例 一的方案相比,采用实施例二的技术方案,网络设备的复位更加快速。 本领域技术人员应当理解,本实施例二的技术方案也可以应用到 采用用于可加载的 VxWorks 映像的启动代码和用于驻留 ROM 的 VxWorks 映像的启动代码的网络设备。 在网络设备采用用于驻留 ROM的 VxWorks映像的启动代码的情况下, VxWorks映像的代码段 位于网络设备的 ROM中, 而不是位于网络设备的 RAM中。
本领域技术人员应当理解, 在实施例二中, 当确保在对网络设备 进行快速复位时不会对网络设备的 RAM中的 VxWorks映像的数据段 修改的情况下, 也可以不需要对已搬移到网络设备的 RAM 的 VxWorks映像的数据段进行备份以及利用所备份的 VxWorks映像的 数据段来覆盖网络设备的 RAM中的 VxWorks映像的数据段。
本领域技术人员应当理解, 在实施例二中, 当在对网络设备进行 快速复位时网络设备的 RAM所存储的处理器 P与网络设备的另一处 理器交互的数据不会被修改的情况下, 也可以不需要对网络设备的 RAM所存储的处理器 P与网络设备的另一处理器交互的数据进行备 份以及在系统初始化后恢复该备份的数据。
本领域技术人员应当理解, 虽然在实施例二中, 在系统初始化时 跳过了用于对网络设备的外围芯片进行初始化的指令,但是本发明并 不局限于此。在本发明的其它实施例中, 也可以在系统初始化时执行 用于对网络设备的外围芯片进行初始化的指令。在这种情况下, 该技 术方案与实施例二相比复位速度会慢一些,但是与现有技术和实施例 一相比, 复位速度仍然会快很多。
本领域技术人员应当理解,本发明的各个实施例所公开的技术方 案不但适用于具有两个处理器的网络设备,也适用于具有两个以上处 理器的网络设备。
本领域技术人员应当理解,本发明的各个实施例所公开的技术方 案不但适用于网络设备, 也适用于具有多个处理器的其它设备。
本领域技术人员应当理解,本发明的各个实施例所公开的技术方 案不但适用于 VxWorks操作系统, 也适用于其它类型的操作系统。 参考图 3, 其示出了按照本发明一个实施例的用于快速复位设备 的装置。 如图 3所示, 用于快速复位设备的装置 300包括复位模块 310, 用于当设备的多个处理器的其中一个处理器出现异常时, 仅对 该出现异常的处理器进行复位。
其中, 复位模块 310可以进一步包括执行模块, 用于在对该出现 异常的处理器进行复位时,促使该出现异常的处理器直接从操作系统 映像的代码段的第一个指令开始执行。
其中, 复位模块 310还可以包括覆盖模块, 用于在该操作系统映 像的代码段中用于对该操作系统映像的 BSS段进行清零的指令被该 出现异常的处理器执行后,促使该出现异常的处理器使用以前备份的 该操作系统映像的数据段来覆盖该设备的随机存取存储器所存储的 该操作系统映像的数据段, 其中, 该以前备份的该操作系统映像的数 据段可以是在该设备的上一次常规启动或复位时对从该设备的只读 存储器搬移到该随机存取存储器的该操作系统映像的数据段进行备 份而得到的。
其中, 复位模块 310还可以包括备份模块和恢复模块, 其中, 备 份模块用于在促使该出现异常的处理器直接从该操作系统映像的代 码段的第一个指令开始执行之前,促使该出现异常的处理器备份该随 机存取存储器所存储的该出现异常的处理器与该多个处理器的其它 处理器交互的数据,恢复模块用于在该操作系统映像的代码段中用于 进行系统初始化的指令被该出现异常的处理器执行之后,促使该出现 异常的处理器在该随机存取存储器中恢复所备份的该出现异常的处 理器与该其它处理器交互的数据。 其中, 复位模块 310还可以包括跳过模块, 用于在该操作系统映 像的代码段中用于进行系统初始化的指令被该出现异常的处理器执 行时,促使该出现异常的处理器跳过用于对该设备的外围芯片进行初 始化的指令。
其中, 该设备可以是网络设备, 该多个处理器可以包括用于控制 面处理的处理器和用于数据面处理的处理器。
本领域技术人员应当理解, 装置 300 中的各个模块可以利用软 件、 硬件或者软硬件结合的方式来实现。 本发明实施例还提供机器可读存储介质, 其存储机器可执行指 令,当该机器可执行指令被执行时使得机器执行一种用于快速复位设 备的方法, 其包括以下步骤: 当该设备的多个处理器的其中一个处理 器出现异常时, 仅对该出现异常的处理器进行复位。
其中, 该复位步骤可以进一步包括: 在对该出现异常的处理器进 行复位时,促使该出现异常的处理器直接从操作系统映像的代码段的 第一个指令开始执行。
其中, 该复位步骤还可以包括: 在该操作系统映像的代码段中用 于对该操作系统映像的 BSS段进行清零的指令被该出现异常的处理 器执行后,促使该出现异常的处理器使用以前备份的该操作系统映像 的数据段来覆盖该设备的随机存取存储器所存储的该操作系统映像 的数据段, 其中, 该以前备份的该操作系统映像的数据段可以是在该 设备的上一次常规启动或复位时对从该设备的只读存储器搬移到该 随机存取存储器的该操作系统映像的数据段进行备份而得到的。
其中, 该复位步骤还可以包括: 在促使该出现异常的处理器直接 从该操作系统映像的代码段的第一个指令开始执行之前,促使该出现 异常的处理器备份该随机存取存储器所存储的该出现异常的处理器 与该多个处理器的其它处理器交互的数据;在该操作系统映像的代码 段中用于进行系统初始化的指令被该出现异常的处理器执行之后,促 使该出现异常的处理器在该随机存取存储器中恢复所备份的该出现 异常的处理器与该其它处理器交互的数据。 其中, 该复位步骤还可以包括: 在该操作系统映像的代码段中用 于进行系统初始化的指令被该出现异常的处理器执行时,促使该出现 异常的处理器跳过用于对该设备的外围芯片进行初始化的指令。
其中, 该设备可以是网络设备, 该多个处理器可以包括用于控制 面处理的处理器和用于数据面处理的处理器。 本领域技术人员应当理解,本发明的各个实施例所公开的技术方 案可以在不偏离发明实质的情况下做出各种变形和改变,并且这些变 形和改变都应当落入在本发明的保护范围内。 因此, 本发明的保护范 围由所附的权利要求书来定义。

Claims

权 利 要 求 书
1、 一种用于快速复位设备的方法, 包括步骤:
当所述设备的多个处理器的其中一个处理器出现异常时,仅对所 述出现异常的处理器进行复位。
2、 如权利要求 1所述的方法, 其中, 所述复位步骤进一步包括: 在对所述出现异常的处理器进行复位时,促使所述出现异常的处 理器直接从操作系统映像的代码段的第一个指令开始执行。
3、 如权利要求 2所述的方法, 其中, 所述复位步骤还包括: 在所述操作系统映像的代码段中用于对所述操作系统映像的
BSS段进行清零的指令被所述出现异常的处理器执行后,促使所述出 现异常的处理器使用以前备份的所述操作系统映像的数据段来覆盖 所述设备的随机存取存储器所存储的所述操作系统映像的数据段,其 中,所述以前备份的所述操作系统映像的数据段是在所述设备的上一 次常规启动或复位时对从所述设备的只读存储器搬移到所述随机存 取存储器的所述操作系统映像的数据段进行备份而得到的。
4、 如权利要求 2-3 的任何一个权利要求所述的方法, 其中, 所 述复位步骤还包括:
在促使所述出现异常的处理器直接从所述操作系统映像的代码 段的第一个指令开始执行之前,促使所述出现异常的处理器备份所述 随机存取存储器所存储的所述出现异常的处理器与所述多个处理器 的其它处理器交互的数据;
在所述操作系统映像的代码段中用于进行系统初始化的指令被 所述出现异常的处理器执行之后,促使所述出现异常的处理器在所述 随机存取存储器中恢复所备份的所述出现异常的处理器与所述其它 处理器交互的数据。
5、 如权利要求 2-4的任意一个权利要求所述的方法, 其中, 所 述复位步骤还包括:
在所述操作系统映像的代码段中用于进行系统初始化的指令被 所述出现异常的处理器执行时,促使所述出现异常的处理器跳过用于 对所述设备的外围芯片进行初始化的指令。
6、 如权利要求 1-5的任意一个权利要求所述的方法, 其中, 所述设备是网络设备,
所述多个处理器包括用于控制面处理的处理器和用于数据面处 理的处理器。
7、 一种用于快速复位设备的装置, 包括:
复位模块,用于当所述设备的多个处理器的其中一个处理器出现 异常时, 仅对所述出现异常的处理器进行复位。
8、 如权利要求 7所述的装置, 其中, 所述复位模块进一步包括: 执行模块, 用于在对所述出现异常的处理器进行复位时, 促使所 述出现异常的处理器直接从操作系统映像的代码段的第一个指令开 始执行。
9、 如权利要求 8所述的装置, 其中, 所述复位模块还包括: 覆盖模块,用于在所述操作系统映像的代码段中用于对所述操作 系统映像的 BSS段进行清零的指令被所述出现异常的处理器执行后, 促使所述出现异常的处理器使用以前备份的所述操作系统映像的数 据段来覆盖所述设备的随机存取存储器所存储的所述操作系统映像 的数据段, 其中, 所述以前备份的所述操作系统映像的数据段是在所 述设备的上一次常规启动或复位时对从所述设备的只读存储器搬移 到所述随机存取存储器的所述操作系统映像的数据段进行备份而得 到的。
10、 如权利要求 8-9的任意一个权利要求所述的装置, 其中, 所 述复位模块还包括:
备份模块,用于在促使所述出现异常的处理器直接从所述操作系 统映像的代码段的第一个指令开始执行之前,促使所述出现异常的处 理器备份所述随机存取存储器所存储的所述出现异常的处理器与所 述多个处理器的其它处理器交互的数据;
恢复模块,用于在所述操作系统映像的代码段中用于进行系统初 始化的指令被所述出现异常的处理器执行之后,促使所述出现异常的 处理器在所述随机存取存储器中恢复所备份的所述出现异常的处理 器与所述其它处理器交互的数据。
11、 如权利要求 8-10 的任意一个权利要求所述的装置, 其中, 所述复位模块还包括:
跳过模块,用于在所述操作系统映像的代码段中用于进行系统初 始化的指令被所述出现异常的处理器执行时,促使所述出现异常的处 理器跳过用于对所述设备的外围芯片进行初始化的指令。
12、 如权利要求 8-11的任意一个权利要求所述的装置, 其中, 所述设备是网络设备,
所述多个处理器包括用于控制面处理的处理器和用于数据面处 理的处理器。
13、 一种机器可读存储介质, 其存储机器可执行指令, 当所述机 器可执行指令被执行时使得机器执行权利要求 1-6的任何一个权利要 求中的步骤。
PCT/CN2011/076774 2011-07-01 2011-07-01 用于快速复位设备的方法和装置 WO2012103738A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/CN2011/076774 WO2012103738A1 (zh) 2011-07-01 2011-07-01 用于快速复位设备的方法和装置
CN2011800012554A CN102308284A (zh) 2011-07-01 2011-07-01 用于快速复位设备的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2011/076774 WO2012103738A1 (zh) 2011-07-01 2011-07-01 用于快速复位设备的方法和装置

Publications (1)

Publication Number Publication Date
WO2012103738A1 true WO2012103738A1 (zh) 2012-08-09

Family

ID=45381251

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2011/076774 WO2012103738A1 (zh) 2011-07-01 2011-07-01 用于快速复位设备的方法和装置

Country Status (2)

Country Link
CN (1) CN102308284A (zh)
WO (1) WO2012103738A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978208B (zh) * 2014-04-14 2020-05-12 新华三技术有限公司 一种热重启方法及其装置
CN109710322A (zh) * 2018-12-26 2019-05-03 京信通信系统(中国)有限公司 通信设备复位方法、装置及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1297200A (zh) * 1999-11-23 2001-05-30 摩托罗拉公司 在复位后用于配置一个数据处理系统的方法及其装置
CN1713139A (zh) * 2004-06-24 2005-12-28 华为技术有限公司 设备的保护运行模式实现方法及维护方法
CN201035559Y (zh) * 2006-11-15 2008-03-12 大唐移动通信设备有限公司 协处理器状态监控装置
CN101196836A (zh) * 2007-12-29 2008-06-11 上海华为技术有限公司 一种控制看门狗电路复位的方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6625703B2 (en) * 2000-11-02 2003-09-23 International Business Machines Corporation Verifying primary and backup copies of vital information for a processing system employing a pseudo-fixed reference identifier
CN101276297A (zh) * 2008-05-14 2008-10-01 北京星网锐捷网络技术有限公司 一种处理器系统、设备及故障处理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1297200A (zh) * 1999-11-23 2001-05-30 摩托罗拉公司 在复位后用于配置一个数据处理系统的方法及其装置
CN1713139A (zh) * 2004-06-24 2005-12-28 华为技术有限公司 设备的保护运行模式实现方法及维护方法
CN201035559Y (zh) * 2006-11-15 2008-03-12 大唐移动通信设备有限公司 协处理器状态监控装置
CN101196836A (zh) * 2007-12-29 2008-06-11 上海华为技术有限公司 一种控制看门狗电路复位的方法和装置

Also Published As

Publication number Publication date
CN102308284A (zh) 2012-01-04

Similar Documents

Publication Publication Date Title
US7975188B2 (en) Restoration device for BIOS stall failures and method and computer program product for the same
US8930769B2 (en) Managing operating system deployment failure
WO2018019242A1 (zh) 网站服务器的自恢复方法和自恢复系统
CN111800304A (zh) 进程运行的监测方法、存储介质和虚拟装置
CN109976886B (zh) 内核远程切换方法及装置
EP3499373B1 (en) Method and apparatus for processing process
CN110268378B (zh) 创建数据备份的方法、存储介质和虚拟服务器
CN114741233A (zh) 快速启动方法
WO2012103738A1 (zh) 用于快速复位设备的方法和装置
WO2022037014A1 (zh) 一种arm服务器的启动修复方法及相关装置
US10102008B2 (en) Managed boot process system
US10606632B2 (en) Preventing interruption during virtual machine reboot
JP6073710B2 (ja) 情報処理装置、起動障害からの自動復旧方法、及び起動障害からの自動復旧プログラム
JP5387767B2 (ja) 実行中のプログラムの更新技術
CN114217905A (zh) 虚拟机高可用恢复处理方法及系统
CN104978208B (zh) 一种热重启方法及其装置
US20110302399A1 (en) Rapid activation of service management processor subsystem for server device
JPH117382A (ja) ファームウェアのバージョンアップ方法
US20220137984A1 (en) Efficient Hibernation Apparatus and Method for Digital Devices
JP2003044284A (ja) コンピュータ装置の起動方法および起動用プログラム
TWI554876B (zh) 節點置換處理方法與使用其之伺服器系統
TWI461905B (zh) 可遠端當機復原的運算裝置、用於運算裝置之遠端當機復原之方法及電腦可讀取媒體
CN111158783A (zh) 一种环境变量修改方法、装置、设备及可读存储介质
US12001835B2 (en) In-service software upgrade with active service monitoring
US12020021B2 (en) Impactless firmware update

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201180001255.4

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11857513

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11857513

Country of ref document: EP

Kind code of ref document: A1