WO2017219834A1 - 监控方法、装置及看门狗系统 - Google Patents

监控方法、装置及看门狗系统 Download PDF

Info

Publication number
WO2017219834A1
WO2017219834A1 PCT/CN2017/086710 CN2017086710W WO2017219834A1 WO 2017219834 A1 WO2017219834 A1 WO 2017219834A1 CN 2017086710 W CN2017086710 W CN 2017086710W WO 2017219834 A1 WO2017219834 A1 WO 2017219834A1
Authority
WO
WIPO (PCT)
Prior art keywords
counter
processor
watchdog
predetermined
count value
Prior art date
Application number
PCT/CN2017/086710
Other languages
English (en)
French (fr)
Inventor
杜宝山
刘俊峰
卢小张
郑红波
Original Assignee
中兴通讯股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中兴通讯股份有限公司 filed Critical 中兴通讯股份有限公司
Publication of WO2017219834A1 publication Critical patent/WO2017219834A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/88Monitoring involving counting

Definitions

  • a monitoring method including: monitoring an operating state of each processor in a watchdog system, obtaining a monitoring result; and determining an abnormal operating state according to the obtained monitoring result. processor.
  • the processor whose operating state is abnormal can be determined according to the monitoring result when the system is abnormal, and therefore, the existence of the multiprocessor system in the related art can be solved.
  • the processor is abnormal, the problem of the system reset failure cannot be located, and the effect of accurately locating the system reset failure is achieved.
  • FIG. 6 is a flow chart of a monitoring method in accordance with a preferred embodiment of the present disclosure.
  • FIG. 11 is a structural block diagram 2 of a monitoring apparatus according to an embodiment of the present disclosure.
  • FIG. 12 is a structural block diagram 3 of a monitoring apparatus according to an embodiment of the present disclosure.
  • Transmission device 106 is for receiving or transmitting data via a network.
  • the network specific examples described above may include a wireless network provided by a communication provider of the computer terminal 10.
  • the transmission device 106 includes a Network Interface Controller (NIC) that can be connected to other network devices through a base station to enable Internet access. communication.
  • the transmission device 106 can be a Radio Frequency (RF) module for communicating with the Internet wirelessly.
  • NIC Network Interface Controller
  • RF Radio Frequency
  • a monitoring method is provided, which can be implemented in the watchdog monitoring system as shown in FIG. Executed in the aforementioned watchdog system).
  • 3 is a structural block diagram of a watchdog monitoring system according to a monitoring method according to a preferred embodiment of the present disclosure. As shown in FIG. 3, the system includes: a watchdog management unit 32, a watchdog monitoring unit 34, and an information recording unit 36. , hardware watchdog 38 (same as the aforementioned watchdog). The system will be described below.
  • step S406 all slave processor watchdog counters perform a subtraction operation.
  • the other slave processor's watchdog counter CNTn (where n is The number of processors of the system, the watchdog counter CNTn types of different processors may be the same or different, and the count value of the watchdog counter CNTn of each processor changes according to the actual situation) (with the aforementioned first counter) to perform a subtraction operation (such as , minus 1 operation).
  • step S410 it is determined whether the watchdog counters of all the processors are greater than a threshold. If yes, step S412 is performed; otherwise, step S414 is performed.
  • the above initial value A and the corresponding threshold are set based on the following principle: the watchdog time (the difference between the initial value A and the corresponding threshold) is guaranteed to be less than the system hardware reset time.
  • the above initial value T and the corresponding threshold are set based on the following principle: the watchdog monitoring time (the difference between the initial value T and the corresponding threshold) is guaranteed to be less than the system hardware dog reset time.
  • Step S508 the collected information is written to the information recording unit.
  • the watchdog management unit 32 activates a watchdog timer for each processor of the system.
  • the default processor 0 is the master processor, and the other processors are slave processors, then the master processor gates
  • the dog timer is T0, and the slave watchdog timer is T1 to Tn-1 (where n is the number of processors in the system).
  • FIG. 7 is a structural block diagram of a monitoring apparatus according to an embodiment of the present disclosure. As shown in FIG. 7, the apparatus includes an obtaining module 72 and a determining module 74, which will be described below.
  • the obtaining module 72 is configured to monitor an operating state of each processor in the watchdog system to obtain a monitoring result
  • the determining module 74 is connected to the obtaining module 72, and is configured to determine an abnormal operating state according to the obtained monitoring result. processor.
  • FIG. 8 is a structural block diagram of a determining module 74 of a monitoring apparatus according to an embodiment of the present disclosure. As shown in FIG. 8, the apparatus includes, in addition to all the modules shown in FIG. 7, a determining unit 82 and a determining unit 84. The determination module 74 will be described below.
  • the storage medium is further arranged to store program code for performing the following steps:
  • the count value of the third counter of the main processor is subtracted by a fifth predetermined value, wherein the count value of the third counter is at the main processor's watchdog Resetting to a sixth predetermined value greater than a third predetermined threshold during timer timeout processing; recording the main processor if the count value of the third counter after subtracting the fifth predetermined value is less than or equal to a third predetermined threshold Status information;
  • the storage medium is further arranged to store program code for performing the following steps:
  • the processor executes, according to the stored program code in the storage medium, determining, according to the obtained monitoring result, whether each of the slave processors in the watchdog system is scheduled within a predetermined time includes: During the watchdog timer timeout processing of the main processor in the dog system, the count value of the second counter of each slave processor in the watchdog system is added to a third predetermined value, wherein the second counter The count value is reset to a fourth predetermined value less than the second predetermined threshold during the corresponding watchdog timer timeout processing of the slave processor; determining that the count value after adding the third predetermined value is greater than or equal to the second predetermined threshold The second counter corresponding to the slave processor is not scheduled for a predetermined time.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一种监控方法、装置及看门狗系统,解决了相关技术中多处理器系统存在的处理器出现异常时,无法定位系统复位故障原因的问题,进而达到了准确定位系统复位故障原因的效果。其中,该方法包括:对看门狗系统中的各个处理器的运行状态进行监控,获得监控结果(S202);根据获得的监控结果,确定运行状态异常的处理器(S204)。

Description

监控方法、装置及看门狗系统 技术领域
本公开涉及通信领域,具体而言,涉及一种监控方法、装置及看门狗系统。
背景技术
在一般的系统中,一般都会提供硬件看门狗电路,以增强系统的稳定性和可靠性。看门狗,又叫Watchdog timer(看门狗定时器),本质上讲是一种定时器电路。对于多处理器系统,往往存在只有一个处理器喂狗(即,向看门狗发出指令,使看门狗电路清零,重新开始倒计数)的情况,其他处理器出现问题不能够及时复位系统。在系统被复位后,我们常常并不清楚导致看门狗复位的原因,使系统中存在的隐患被隐藏。
因此,相关技术中,多处理器系统存在处理器出现异常时,无法定位系统复位故障原因的问题。
发明内容
本公开实施例提供了一种监控方法、装置及看门狗系统,以至少解决相关技术中,多处理器系统存在处理器出现异常时,无法定位系统复位故障原因的问题。
根据本公开的一个实施例,提供了一种监控方法,包括:对看门狗系统中的各个处理器的运行状态进行监控,获得监控结果;根据获得的所述监控结果,确定运行状态异常的处理器。
可选地,根据获得的所述监控结果,确定运行状态异常的处理器包括:根据获得的所述监控结果,判断预定时间内所述看门狗系统中的各个从处理器是否被调度;在判断结果为否的情况下,确定未被调度的从处理器运行异常。
可选地,根据获得的所述监控结果,判断预定时间内所述看门狗系统中的各个从处理器是否被调度包括:在所述看门狗系统中的主处理器的看门狗定时器超时处理过程中,将所述看门狗系统中的各个从处理器的第一计数器的计数值减去第一预定值,其中,所述第一计数器的计数值在对应的从处理器的看门狗定时器超时处理过程中重置为大于第一预定阈值的第二预定值;确定减去所述第一预定值后的计数值小于或者等于所述第一预定阈值的第一计数器对应的从处理器在所述预定时间内没有被调度。
可选地,根据获得的所述监控结果,判断预定时间内所述看门狗系统中的各个从处理器是否被调度包括:在所述看门狗系统中的主处理器的看门狗定时器超时处理过程中,将所述看门狗系统中的各个从处理器的第二计数器的计数值加上第三预定值,其中,所述第二计数器的计数值在对应的从处理器的看门狗定时器超时处理过程中重置为小于第二预定阈值的第四预定值;确定加上所述第三预定值后的计数值大于或者等于所述第二预定阈值的第二计数器对应的从处理器在所述预定时间内没有被调度。
可选地,在根据获得的所述监控结果,确定运行状态异常的处理器之前,还包括:在所述看门狗系统中的主处理器的时钟中断过程中,将所述主处理器的第三计数器的计数值减去第五预定值,其中,所述第三计数器的计数值在所述主处理器的看门狗定时器超时处理过程中重置为大于第三预定阈值的第六预定值;在减去所述第六预定值后的所述第三计数器的计数值小于或者等于所述第三预定阈值的情况下,记录所述主处理器的状态信息;或者,在所述看门狗系统中的从处理器的时钟中断过程中,将所述从处理器的第四计数器的计数值减去所述第五预定值,其中,所述第四计数器的计数值在所述从处理器的看门狗定时器超时处理过程中重置为大于第三预定阈值的第六预定值;在减去所述第五预定值后的所述第三计数器的计数值小于或者等于所述第三预定阈值的情况下,记录所述从处理器的状态信息。
可选地,在根据获得的所述监控结果,确定运行状态异常的处理器之前,还包括:在所述看门狗系统中的主处理器的时钟中断过程中,将所述主处理器的第五计数器的计数值加上第七预定值,其中,所述第五计数器的计数值在所述主处理器的看门狗定时器超时处理过程中重置为小于第四预定阈值的第八预定值;在加上所述第七预定值后的所述第五计数器的计数值大于或者等于所述第四预定阈值的情况下,记录所述主处理器的状态信息;或者,在所述看门狗系统中的从处理器的时钟中断过程中,将所述从处理器的第六计数器的计数值加上所述第七预定值,其中,所述第六计数器的计数值在所述从处理器的看门狗定时器超时处理过程中重置为小于第四预定阈值的第八预定值;在加上所述第七预定值后的所述第六计数器的计数值大于或者等于所述第四预定阈值的情况下,记录所述从处理器的状态信息。
根据本公开的另一个实施例,提供了一种监控装置,包括:获得模块,设置为对看门狗系统中的各个处理器的运行状态进行监控,获得监控结果;确定模块,设置为根据获得的所述监控结果,确定运行状态异常的处理器。
可选地,所述确定模块包括:判断单元,设置为根据获得的所述监控结果,判断预定时间内所述看门狗系统中的各个从处理器是否被调度;确定单元,在判断结果为否的情况下,确定所述未被调度的从处理器运行异常。
可选地,所述判断单元包括:第一计算子单元,设置为在所述看门狗系统中的主处理器的看门狗定时器超时处理过程中,将所述看门狗系统中的各个从处理器的第一计数器的计数值减去第一预定值,其中,所述第一计数器的计数值在对应的从处理器的看门狗定时器超时处理过程中重置为大于第一预定阈值的第二预定值;第一确定子单元,设置为确定减去所述第一预定值后的计数值小于或者等于所述第一预定阈值的第一计数器对应的从处理器在所述预定时间内没有被调度。
可选地,所述判断单元包括:第二计算子单元,设置为在所述看门狗系统中的主处理器的看门狗定时器超时处理过程中,将所述看门狗系统中的各个从处理器的第二计数器的计数值加上第三预定值,其中,所述第二计数器的计数值在对应的从处理器的看门狗定时器超时处理过程中重置为小于第二预定阈值的第四预定值;第二确定子单元,设置为确定加上所述第三预定值后的计数值大于或者等于所述第二预定阈值的第二计数器对应的从处理器在所述预定时间内没有被调度。
可选地,上述装置还包括:第一计算模块,设置为在所述看门狗系统中的主处理器的时钟中断过程中,将所述主处理器的第三计数器的计数值减去第五预定值,其中,所述第三计数器的计数值在所述主处理器的看门狗定时器超时处理过程中重置为大于第三预定阈值的第六预定值;第一记录模块,设置为在减去所述第六预定值后的所述第三计数器的计数值小于或者等于所述第三预定阈值的情况下,记录所述主处理器的状态信息;或者,第二计算模块,设置为在所述看门狗系统中的从处理器的时钟中断过程中,将所述从处理器的第四计数器的计数值减去所述第五预定值,其中,所述第四计数器的计数值在所述从处理器的看门狗定时器超时处理过程中重置为大于第三预定阈值的第六预定值;第二记录模块,设置为在减去所述第五预定值后的所述第三计数器的计数值小于或者等于所述第三预定阈值的情况下,记录所述从处理器的状态信息。
可选地,上述装置还包括:第三计算模块,设置为在所述看门狗系统中的主处理器的时钟中断过程中,将所述主处理器的第五计数器的计数值加上第七预定值,其中,所述第五计数器的计数值在所述主处理器的看门狗定时器超时处理过程中重置为小于第四预定阈值的第八预定值;第三记录模块,设置为在加上所述第七预定值后的所述第五计数器的计数值大于或者等于所述第四预定阈值的情况下,记录所述主处理器的状态信息;或者,第四计算模块,设置为在所述看门狗系统中的从处理器的时钟中断过程中,将所述从处理器的第六计数器的计数值加上所述第七预定值,其中,所述第六计数器的计数值在所述从处理器的看门狗定时器超时处理过程中重置为小于第四预定阈值的第八预定值;第四记录模块,设置为在加上所述第七预定值后的所述第六计数器的计数值大于或者等于所述第四预定阈值的情况下,记录所述从处理器的状态信息。
根据本公开的又一个实施例,还提供了一种存储介质。该存储介质设置为存储用于执行以下步骤的程序代码:对看门狗系统中的各个处理器的运行状态进行监控,获得监控结果;根据获得的所述监控结果,确定运行状态异常的处理器。
可选地,存储介质还设置为存储用于执行以下步骤的程序代码:根据获得的所述监控结果,确定运行状态异常的处理器包括:根据获得的所述监控结果,判断预定时间内所述看门狗系统中的各个从处理器是否被调度;在判断结果为否的情况下,确定所述未被调度的从处理器运行异常。
可选地,存储介质还设置为存储用于执行以下步骤的程序代码:根据获得的所述监控结果,判断预定时间内所述看门狗系统中的各个从处理器是否被调度包括:在所述看门狗系统中的主处理器的看门狗定时器超时处理过程中,将所述看门狗系统中的各个从处理器的第一计数器的计数值减去第一预定值,其中,所述第一计数器的计数值在对应的从处理器的看门狗定时器超时处理过程中重置为大于第一预定阈值的第二预定值;确定减去所述第一预定值后的计数值小于或者等于所述第一预定阈值的第一计数器对应的从处理器在所述预定时间内没有被调度。
可选地,存储介质还设置为存储用于执行以下步骤的程序代码:根据获得的所述监控结果,判断预定时间内所述看门狗系统中的各个从处理器是否被调度包括:在所述看门狗系统 中的主处理器的看门狗定时器超时处理过程中,将所述看门狗系统中的各个从处理器的第二计数器的计数值加上第三预定值,其中,所述第二计数器的计数值在对应的从处理器的看门狗定时器超时处理过程中重置为小于第二预定阈值的第四预定值;确定加上所述第三预定值后的计数值大于或者等于所述第二预定阈值的第二计数器对应的从处理器在所述预定时间内没有被调度。
可选地,存储介质还设置为存储用于执行以下步骤的程序代码:在根据获得的所述监控结果,确定运行状态异常的处理器之前,还包括:在所述看门狗系统中的主处理器的时钟中断过程中,将所述主处理器的第三计数器的计数值减去第五预定值,其中,所述第三计数器的计数值在所述主处理器的看门狗定时器超时处理过程中重置为大于第三预定阈值的第六预定值;在减去所述第六预定值后的所述第三计数器的计数值小于或者等于所述第三预定阈值的情况下,记录所述主处理器的状态信息;或者,在所述看门狗系统中的从处理器的时钟中断过程中,将所述从处理器的第四计数器的计数值减去所述第五预定值,其中,所述第四计数器的计数值在所述从处理器的看门狗定时器超时处理过程中重置为大于第三预定阈值的第六预定值;在减去所述第五预定值后的所述第三计数器的计数值小于或者等于所述第三预定阈值的情况下,记录所述从处理器的状态信息。
可选地,存储介质还设置为存储用于执行以下步骤的程序代码:在根据获得的所述监控结果,确定运行状态异常的处理器之前,还包括:在所述看门狗系统中的主处理器的时钟中断过程中,将所述主处理器的第五计数器的计数值加上第七预定值,其中,所述第五计数器的计数值在所述主处理器的看门狗定时器超时处理过程中重置为小于第四预定阈值的第八预定值;在加上所述第七预定值后的所述第五计数器的计数值大于或者等于所述第四预定阈值的情况下,记录所述主处理器的状态信息;或者,在所述看门狗系统中的从处理器的时钟中断过程中,将所述从处理器的第六计数器的计数值加上所述第七预定值,其中,所述第六计数器的计数值在所述从处理器的看门狗定时器超时处理过程中重置为小于第四预定阈值的第八预定值;在加上所述第七预定值后的所述第六计数器的计数值大于或者等于所述第四预定阈值的情况下,记录所述从处理器的状态信息。
通过本公开,通过对看门狗系统中的各个处理器的运行状态进行监控,可以在系统异常时根据监控结果确定运行状态异常的处理器,因此,可以解决相关技术中多处理器系统存在的处理器出现异常时,无法定位系统复位故障原因的问题,达到准确定位系统复位故障原因的效果。
附图说明
此处所说明的附图用来提供对本公开的进一步理解,构成本申请的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:
图1是根据本公开实施例的监控方法的计算机终端的硬件结构框图;
图2是根据本公开实施例的监控方法的流程图;
图3是根据本公开优选实施例的监控方法的看门狗监控系统的结构框图;
图4是根据本公开优选实施例的看门狗监控系统的看门狗管理单元32的主要功能流程示意图;
图5是根据本公开优选实施例的看门狗监控系统的看门狗监控单元34的主要功能流程示意图;
图6是根据本公开优选实施例的监控方法的流程图;
图7是根据本公开实施例的监控装置的结构框图一;
图8是根据本公开实施例的监控装置的确定模块74的结构框图;
图9是根据本公开实施例的监控装置的判断单元82的结构框图一;
图10是根据本公开实施例的监控装置的判断单元82的结构框图二;
图11是根据本公开实施例的监控装置的结构框图二;
图12是根据本公开实施例的监控装置的结构框图三;
图13是根据本公开实施例的看门狗系统的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本公开。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本申请实施例1所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1是根据本公开实施例的监控方法的计算机终端的硬件结构框图。如图1所示,计算机终端10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储应用软件的软件程序以及模块,如本公开实施例中的监控方法对应的程序指令/模块,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行 通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种运行上述计算机终端上的监控方法,图2是根据本公开实施例的监控方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,对看门狗系统中的各个处理器的运行状态进行监控,获得监控结果;
步骤S204,根据获得的监控结果,确定运行状态异常的处理器。
通过上述步骤,对看门狗系统中的各个处理器的运行状态进行监控,可以在系统异常时根据监控结果确定运行状态异常的处理器,解决了多处理器系统存在的处理器出现异常时,无法定位系统复位故障原因的问题,达到准确定位系统复位故障原因的效果。
可选地,可以采用多种方式根据获得的监控结果,确定运行状态异常的处理器,例如,可以在周期性的获取各处理器的运行状态信息,根据各处理器的运行状态信息,对处理器的运行状态进行评估,根据评估结果分别确定各处理器运行状态是否异常。
再例如,还可以采用如下方式根据获得的监控结果,确定运行状态异常的处理器:对于各个从处理器,主处理器可以根据预定时间内看门狗系统中的各个从处理器是否被调度判断对应的从处理器运行状态是否异常。如果存在预定时间内未被调用的从处理器,则主处理器可以不去喂看门狗,等待看门狗溢出,系统复位。对于主处理器,如果主处理器运行状态异常,则主处理器不会喂看门狗,使得看门狗溢出,系统复位。
通过本公开的上述技术方案,通过判断预定时间各个从处理器是否被调度,确定运行状态异常的处理器,解决了多处理器系统中处理器出现异常时,不能够及时复位系统的问题,提高了复位系统的效率,同时降低了确定运行状态异常的处理器对系统资源的占用。
可选地,可以采用多种方式判断预定时间内看门狗系统中的各个从处理器是否被调度,例如,可以在主处理器的看门狗定时器超时处理过程中,将各个从处理器的第一计数器的计数值减去第一预定值(例如,1),第一计数器的计数值在对应的从处理器的看门狗定时器超时处理过程中重置为大于第一预定阈值的第二预定值,确定减去第一预定值后的计数值小于或者等于第一预定阈值的第一计数器对应的从处理器在预定时间内没有被调度。又例如,可以在主处理器的看门狗定时器超时处理过程中,将各个从处理器的第二计数器的计数值加上第三预定值(例如,1),其中,第二计数器的计数值在对应的从处理器的看门狗定时器超时处理过程中重置为小于第二预定阈值的第四预定值(例如,0);确定加上第三预定值后的计数值大于或者等于第二预定阈值的第二计数器对应的从处理器在预定时间内没有被调度。
从处理器的第一计数器(或第二计数器)的计数值在对应从处理器的看门狗定时器超时处理过程中重置为第二预定值(或第四预定值)。在主处理器的定时器超时处理过程中,对该从处理器的第一计数器(或第二计数器)的计数值执行减法(或加)操作。如果一直没有执行该从处理器的看门狗定时器超时处理过程,则该从处理器的第一计数器(或第二计数器)的计数值不会被重置,那么,在多个主处理器的定时器超时处理后(即,预定时间),第一计数器(或第二计数器)的计数值会被减小到小于或者等于(或加到大于或者等于)第一预定阈值(或第二预定阈值)。可以根据从处理器的第一计数器(或第二计数器)的计数值与第一预定阈值(或第二 预定阈值)的大小关系,判断预定时间内从处理器是否被调度。预定时间内没有执行该从处理器的看门狗定时器超时处理过程,即认为预定时间内该从处理器没有被调度。
通过本公开的上述技术方案,在主处理器的看门狗定时器超时处理中根据从处理器的第一计数器的计数值与第一预定阈值的大小关系(或第二计数器的计数值与第二预定阈值的大小关系),判断预定时间内该从处理器是否被调度,降低了确定运行状态异常的处理器对系统资源的占用。
可选地,在步骤S204之前,还可以包括:在看门狗系统中的主处理器的时钟中断过程中,将主处理器的第三计数器的计数值减去第五预定值(例如,1),该第三计数器的计数值在该主处理器的看门狗定时器超时处理过程中重置为大于第三预定阈值的第六预定值;在减去第五预定值后的第三计数器的计数值小于或者等于第三预定阈值的情况下,记录主处理器的状态信息。或者,在看门狗系统中的从处理器的时钟中断过程中,将该从处理器的第四计数器的计数值减去第五预定值,该第四计数器的计数值在该从处理器的看门狗定时器超时处理过程中重置为大于第三预定阈值的第六预定值;在减去第五预定值后的第四计数器的计数值小于或者等于第三预定阈值的情况下,记录该从处理器的状态信息。
在主处理器的时钟中断过程中,对该主处理器的第三计数器的计数值执行减法操作(减去第五预定值,例如1),并与第三预定阈值进行比较。第三计数器的计数值在主处理器的看门狗定时器超时处理过程中进行重置,如果由于系统资源占用等原因导致一直无法执行主处理器的看门狗定时器超时处理过程,那么第三计数器的计数值一直不会被重置,那么,在多个主处理器时钟中断后,第三计数器的计数值会减到小于或者等于第三预定阈值,此时可以判断当前系统处于即将被看门狗复位的情形,及时记录主处理器的状态信息。或者,也可以在从处理器的时钟中断过程中,对从处理器的第四计数器的计数值执行减法操作(减去第五预定值,例如1),该第四计数器的计数值在从处理器的看门狗定时器超时处理过程中重置为大于第三预定阈值的第六预定值,在减去该第五预定值后的第四计数器的计数值小于或者等于该第三预定阈值的情况下,记录该从处理器的状态信息。
可选地,还可以在主处理器的时钟中断过程中,对主处理器的第五计数器的计数值执行加法操作(加上第七预定值,例如1),该第五计数器的计数值在主处理器的看门狗定时器超时处理过程中重置为小于第四预定阈值的第八预定值(例如,0),在加上该第七预定值后的第五计数器的计数值大于或者等于该第四预定阈值的情况下,记录该主处理器的状态信息。或者,也可以在从处理器的时钟中断过程中,对从处理器的第六计数器的计数值执行加法操作(加上第七预定值,例如1),该第六计数器的计数值在从处理器的看门狗定时器超时处理过程中重置为小于第四预定阈值的第八预定值(例如,0),在加上该第七预定值后的第六计数器的计数值大于或者等于该第四预定阈值的情况下,记录该从处理器的状态信息。
通过本公开的上述技术方案,可以在主处理器或者从处理器的时钟中断过程中,将减去第五预定值后的第三计数器的计数值或者减去第五预定值后的第四计数器的计数值与第三预定阈值进行比较(或者,将加上第七预定值后的第五计数器的计数值或者加上第七预定值后的第六计数器的计数值与第四预定阈值进行比较),判断系统处于即将被看门狗复位的情 况下,及时记录主处理器或从处理器的状态信息,避免看门狗复位造成无法记录状态信息或者状态信息记录不完整的情况。
可选地,根据获取的监控结果,判断各个处理器的运行状态均为正常的情况下,则主处理器或者某一从处理器(根据控制处理器的看门狗是哪个确定)向看门狗发送指令喂看门狗,重新开始倒计数。主处理器和从处理器可以仅为名称上的区别,在具体的结构和功能上不存在差别。
可选地,根据获取的监控结果,判断某个或者某些处理器的运行状态异常的情况下,则主处理器或者某一从处理器不去喂看门狗(向看门狗发送清零信号或指令),而是等待看门狗溢出,系统复位。
可选地,可以将第二预定值与第一预定阈值的差值、第四预定值与第二预定阈值的差值、第六预定值与第三预定阈值的差值以及第八预定值与第四预定阈值的差值(前述各差值为负时,取绝对值)设置小于系统看门狗复位时间。
可选地,步骤S202和步骤S204的执行顺序是可以互换的,即可以循环执行步骤S202和步骤S204。
基于上述实施例及可选实施方式,为说明方案的整个流程交互,在本优选实施例中,提供了一种监控方法,该监控方法可以在如图3所示的看门狗监控系统(同前述看门狗系统)中执行。图3是根据本公开优选实施例的监控方法的看门狗监控系统的结构框图,如图3所示,该系统包括:看门狗管理单元32、看门狗监控单元34、信息记录单元36、硬件看门狗38(同前述看门狗)。下面对该系统进行说明。
看门狗管理单元32,用于为系统的每个处理器启动看门狗定时器、管理看门狗计数器,定期喂狗,管理硬件看门狗运行状态。
看门狗监控单元34,主要维护所有处理器的看门狗监控计数器,用于监控系统运行状态,在任何一处理器出现异常复位之前,做现场拍照(即,采集CPU状态、堆或者栈中存储的信息),采集信息,并做好记录。
信息记录单元36,用于记录采集的信息。
硬件看门狗38,用于监控系统的运行状态,对系统进行复位。
其中,信息记录单元36可以确保在硬件狗引发的系统复位后,所记录的监控信息不会丢失的记录,并提供多种读取方式。
下面对看门狗管理单元32的主要功能流程进行说明。图4是根据本公开优选实施例的看门狗监控系统的看门狗管理单元32的主要功能流程示意图,如图4所示,该看门狗管理单元32的主要功能流程包括如下步骤:
步骤S402,判断是否有看门狗定时器超时,如果有,执行步骤S404。
步骤S404,判断当前处理器是否为主处理器,如果是,则执行步骤S406,否则,执行步骤S408。
步骤S406,所有从处理器看门狗计数器做减法操作。
在主处理器看门狗定时器超时处理中,将其他从处理器的看门狗计数器CNTn(其中n为 系统的处理器数,不同处理器的看门狗计数器CNTn类型可以相同或者不同,各处理器的看门狗计数器CNTn的计数值随实际情况变化)(同前述第一计数器)做减法操作(如,减1操作)。
步骤S408,重置该处理器的看门狗计数器。
将该处理器的看门狗计数器CNTn重置为初始值A(同前述第二预定值)。
步骤S410,判断所有处理器的看门狗计数器是否大于阈值,如果是,执行步骤S412,否则,执行步骤S414。
步骤S412,喂硬件看门狗。
所有处理器的看门狗计数器CNTn都大于阈值(同前述第一预定阈值),表明目前系统处于正常状态,则开始喂硬件看门狗38。
步骤S414,重置当前处理器的看门狗监控计数器。
如果有任何一个处理器的看门狗计数器CNTn不大于阈值,表明该处理器可能出现异常,则不去喂硬件狗等待系统复位。并重置当前处理器的看门狗监控计数器MCNTn(其中n为系统的处理器数),即,如果当前处理器为主处理器,则将主处理器的看门狗监控计数器MCNTn(同前述第三计数器)重置为初始值T(同前述第六预定值),如果当前处理器为从处理器,则将该从处理器的看门狗监控计数器MCNTn(同前述第四计数器)重置为初始值T。
步骤S416,结束。
以上初始值A及对应阈值的设置基于以下原则:保证看门狗时间(初始值A与对应阈值的差值)小于系统硬件复位时间。以上初始值T及对应阈值的设置基于以下原则:保证看门狗监控时间(初始值T与对应阈值的差值)小于系统硬件狗复位时间。
下面对看门狗监控单元34的主要功能流程进行说明。图5是根据本公开优选实施例的看门狗监控系统的看门狗监控单元34的主要功能流程示意图,如图5所示,该看门狗监控单元34的主要功能流程包括如下步骤:
步骤S502,对当前处理器的看门狗监控计数器进行减法操作。
在系统的时钟中断中,对当前处理器的看门狗监控计数器MCNTn进行减法操作(例如,减1操作)。
步骤S504,判断看门狗监控计数器是否大于阈值,如果是,执行步骤S506,否则,执行步骤S510。
对减法操作后的看门狗监控计数器MCNTn进行判断,判断减法操作后的看门狗监控计数器的计数值是否被减至小于阈值(同前述第三预定阈值)。
步骤S506,现场拍照。
若减法操作后的该值被减至小于阈值,表明当前系统处于即将被看门狗复位的情形,则马上对系统进行拍照。
步骤S508,将采集到的信息写到信息记录单元。
将通过拍照采集到的信息(如CPU状态,堆或栈中存储的信息)写到信息记录单元36。
步骤S510,结束。
在本优选实施例中提供了一种运行于上述看门狗监控系统的监控方法,图6是根据本公 开优选实施例的监控方法的流程图,如图6所示,该流程包括如下步骤:
步骤S602,系统启动,为系统每个处理器启动看门狗定时器。
在系统启动时,看门狗管理单元32为系统每个处理器启动看门狗定时器,特别地,默认处理器0为主处理器,其它处理器为从处理器,则主处理器看门狗定时器为T0,从处理器的看门狗定时器为T1至Tn-1(其中n为系统的处理器数)。
步骤S604,在主处理器看门狗定时器超时处理中,将其他从处理器的看门狗计数器做减法操作,判断其他处理器的看门狗计数器是否大于阈值,根据判断结果执行相应操作。
看门狗管理单元32为各从处理器设置看门狗计数器CNTn为初始值A。在主处理器看门狗定时器超时处理中,看门狗管理单元32首先将其他从处理器的看门狗计数器做减法操作(如,减1操作),并判断其他处理器的看门狗计数器是否大于阈值,如果所有处理器(主处理器和各从处理器)的看门狗计数器都大于阈值,表明目前系统处于正常状态,则开始喂硬件看门狗38;相反地,如果有任何一个处理器的看门狗计数器不大于阈值,表明该处理器可能出现异常,则不去喂硬件狗等待系统复位。以上初始值A及对应阈值的设置基于以下原则:保证看门狗时间(初始值A与对应阈值的差值)小于系统硬件复位时间。
步骤S606:在各从处理器的看门狗定时器超时处理中,重置对应处理器的看门狗计数器及看门狗监控计数器。
在各从处理器的看门狗定时器超时处理中,看门狗管理单元32需要重置该处理器的看门狗计数器CNTn(重置为初始值A)及看门狗监控计数器MCNTn(重置为初始值),看门狗监控计数器MCNTn的初始值为T。以上初始值T及对应阈值的设置基于以下原则:保证看门狗监控时间(初始值T与对应阈值的差值)小于系统硬件狗复位时间,以保证现场信息能够成功采集并记录到信息记录单元36。
步骤S608:在系统的时钟中断中,对当前处理器的看门狗监控计数器进行减法操作,并对该值进行判断,根据判断结果执行对应操作。
在系统的时钟中断中,看门狗监控单元34对当前处理器的看门狗监控计数器MCNTn进行减法操作(例如,减1操作),并对减法操作后的该值进行判断,若减法操作后的该值被减至小于阈值,表明当前系统处于即将被看门狗复位的情形,则马上对系统进行拍照,将采集到的信息写到信息记录单元36。
步骤S610:信息读取。
系统复位(硬件狗溢出引发的系统复位)后,能够通过串口、本地telnet这样的本地获取方式或者远程telnet等的远程获取方式来获得相关文件(如,信息记录单元36中记录的采集到的处理器的信息)进行分析定位,确定异常的处理器及引发处理器异常的原因。
本优选实施例中的看门狗监控系统可以是多处理器框架下任一通用的看门狗监控系统,该监控方法为看门狗导致的系统复位问题提供了一种通用的定位手段。需要说明的是,本优选实施例中对各计数器的操作(例如,减法操作、重置等)是对计数器的计数值进行的操作。
类似地,对于上述主处理器的计数器的计数值和从处理器的各个计数器的计数值还可以执行加法操作,此时可以根据需要设定各初始值以及对应的阈值(例如,初始值(A或T)小于 对应的阈值,初始值与对应阈值的差值的绝对值小于系统硬件狗复位时间等),具体过程与前述过程类似,这里不做赘述。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本公开各个实施例所述的方法。
实施例2
在本实施例中还提供了一种监控装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图7是根据本公开实施例的监控装置的结构框图一,如图7所示,该装置包括:获得模块72、确定模块74,下面对该装置进行说明。
获得模块72,用于对看门狗系统中的各个处理器的运行状态进行监控,获得监控结果;确定模块74,与前述获得模块72相连,用于根据获得的监控结果,确定运行状态异常的处理器。
图8是根据本公开实施例的监控装置的确定模块74的结构框图,如图8所示,该装置除包括图7所示的所有模块外,还包括:判断单元82、确定单元84。下面对该确定模块74进行说明。
判断单元82,用于根据获得的监控结果,判断预定时间内看门狗系统中的各个从处理器是否被调度;确定单元84,与上述判断单元82相连,用于在判断结果为否的情况下,确定未被调度的从处理器运行异常。
图9是根据本公开实施例的监控装置的判断单元82的结构框图一,如图9所示,该装置除包括图8所示的所有模块外,还包括:第一计算子单元92、第一确定子单元94。下面对该判断单元82进行说明。
第一计算子单元92,用于在看门狗系统中的主处理器的看门狗定时器超时处理过程中,将看门狗系统中的各个从处理器的第一计数器的计数值减去第一预定值,其中,第一计数器的计数值在对应的从处理器的看门狗定时器超时处理过程中重置为大于第一预定阈值的第二预定值;第一确定子单元94,与上述第一计算子单元92相连,用于确定减去第一预定值后的计数值小于或者等于第一预定阈值的第一计数器对应的从处理器在预定时间内没有被调度。
图10是根据本公开实施例的监控装置的判断单元82的结构框图二,如图10所示,该装置除包括图8所示的所有模块外,还包括:第二计算子单元102、第二确定子单元104。下面对该判断单元82进行说明。
第二计算子单元102,用于在看门狗系统中的主处理器的看门狗定时器超时处理过程中,将看门狗系统中的各个从处理器的第二计数器的计数值加上第三预定值,其中,第二计数器的计数值在对应的从处理器的看门狗定时器超时处理过程中重置为小于第二预定阈值的第四预定值;第二确定子单元104,与上述第二计算子单元102相连,用于确定加上第三预定值后的计数值小于或者等于第二预定阈值的第二计数器对应的从处理器在预定时间内没有被调度。
图11是根据本公开实施例的监控装置的结构框图二,如图11所示,该装置除了包括图7所示的所有模块外,还包括:第一计算模块112、第一记录模块114,或者,第二计算模块116、第二记录模块118。下面对该装置进行说明。
第一计算模块112,用于在看门狗系统中的主处理器的时钟中断过程中,将主处理器的第三计数器的计数值减去第五预定值,其中,第三计数器的计数值在主处理器的看门狗定时器超时处理过程中重置为大于第三预定阈值的第六预定值;第一记录模块114,与上述第一计算模块112相连,用于在减去第六预定值后的第三计数器的计数值小于或者等于第三预定阈值的情况下,记录主处理器的状态信息;
或者,
第二计算模块116,用于在看门狗系统中的从处理器的时钟中断过程中,将从处理器的第四计数器的计数值减去第五预定值,其中,第四计数器的计数值在从处理器的看门狗定时器超时处理过程中重置为大于第三预定阈值的第六预定值;第二记录模块118,用于在减去第五预定值后的第三计数器的计数值小于或者等于第三预定阈值的情况下,记录从处理器的状态信息。
图12是根据本公开实施例的监控装置的结构框图三,如图12所示,该装置除了包括图7所示的所有模块外,还包括:第三计算模块122、第三记录模块124,或者,第四计算模块126、第四记录模块128。下面对该装置进行说明。
第三计算模块122,用于在看门狗系统中的主处理器的时钟中断过程中,将主处理器的第五计数器的计数值加上第七预定值,其中,第五计数器的计数值在主处理器的看门狗定时器超时处理过程中重置为小于第四预定阈值的第八预定值;第三记录模块124,与上述第三计算模块122相连,用于在加上第七预定值后的第五计数器的计数值大于或者等于第四预定阈值的情况下,记录主处理器的状态信息;
或者,
第四计算模块126,用于在看门狗系统中的从处理器的时钟中断过程中,将从处理器的第六计数器的计数值加上第七预定值,其中,第六计数器的计数值在从处理器的看门狗定时器超时处理过程中重置为小于第四预定阈值的第八预定值;第四记录模块128,与上述第四计算模块126相连,用于在加上去第七预定值后的第六计数器的计数值大于或者等于第四预定阈值的情况下,记录从处理器的状态信息。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合 的形式分别位于不同的处理器中。
实施例3
在本实施例中还提供了一种看门狗系统,图13是根据本公开实施例的看门狗系统的结构框图,如图13所示,该系统上述实施例中的监控装置132。
实施例4
本公开的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的程序代码:
S1,对看门狗系统中的各个处理器的运行状态进行监控,获得监控结果;
S2,根据获得的监控结果,确定运行状态异常的处理器。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:
根据获得的监控结果,确定运行状态异常的处理器包括:
S1,根据获得的监控结果,判断预定时间内看门狗系统中的各个从处理器是否被调度;
S2,在判断结果为否的情况下,确定未被调度的从处理器运行状态异常。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:
根据获得的监控结果,判断预定时间内看门狗系统中的各个从处理器是否被调度包括:
S1,在看门狗系统中的主处理器的看门狗定时器超时处理过程中,将看门狗系统中的各个从处理器的第一计数器的计数值减去第一预定值,其中,第一计数器的计数值在对应的从处理器的看门狗定时器超时处理过程中重置为大于第一预定阈值的第二预定值;
S2,确定减去第一预定值后的计数值小于或者等于第一预定阈值的第一计数器对应的从处理器在预定时间内没有被调度。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:
根据获得的监控结果,判断预定时间内看门狗系统中的各个从处理器是否被调度包括:
S1,在看门狗系统中的主处理器的看门狗定时器超时处理过程中,将看门狗系统中的各个从处理器的第二计数器的计数值加上第三预定值,其中,第二计数器的计数值在对应的从处理器的看门狗定时器超时处理过程中重置为小于第二预定阈值的第四预定值;
S2,确定加上第三预定值后的计数值大于或者等于第二预定阈值的第二计数器对应的从处理器在预定时间内没有被调度。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:
在根据获得的监控结果,确定运行状态异常的处理器之前,还包括:
在看门狗系统中的主处理器的时钟中断过程中,将主处理器的第三计数器的计数值减去第五预定值,其中,第三计数器的计数值在主处理器的看门狗定时器超时处理过程中重置为大于第三预定阈值的第六预定值;在减去第五预定值后的第三计数器的计数值小于或者等于第三预定阈值的情况下,记录主处理器的状态信息;
或者,
在看门狗系统中的从处理器的时钟中断过程中,将从处理器的第四计数器的计数值减去第五预定值,其中,第四计数器的计数值在从处理器的看门狗定时器超时处理过程中重置为 大于第三预定阈值的第六预定值;在减去第五预定值后的第三计数器的计数值小于或者等于第三预定阈值的情况下,记录从处理器的状态信息。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:
在根据获得的监控结果,确定运行状态异常的处理器之前,还包括:
在看门狗系统中的主处理器的时钟中断过程中,将主处理器的第五计数器的计数值加上第七预定值,其中,第五计数器的计数值在主处理器的看门狗定时器超时处理过程中重置为小于第四预定阈值的第八预定值;在加上第七预定值后的第五计数器的计数值大于或者等于第四预定阈值的情况下,记录主处理器的状态信息;
或者,
在看门狗系统中的从处理器的时钟中断过程中,将从处理器的第六计数器的计数值加上第七预定值,其中,第六计数器的计数值在从处理器的看门狗定时器超时处理过程中重置为小于第四预定阈值的第八预定值;在加上第七预定值后的第六计数器的计数值大于或者等于第四预定阈值的情况下,记录从处理器的状态信息。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行:对看门狗系统中的各个处理器的运行状态进行监控,获得监控结果;根据获得的监控结果,确定运行状态异常的处理器。
可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行:根据获得的监控结果,确定运行状态异常的处理器包括:根据获得的监控结果,判断预定时间内看门狗系统中的各个从处理器是否被调度;在判断结果为否的情况下,确定未被调度的从处理器运行状态异常。
可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行:根据获得的监控结果,判断预定时间内看门狗系统中的各个从处理器是否被调度包括:在看门狗系统中的主处理器的看门狗定时器超时处理过程中,将看门狗系统中的各个从处理器的第一计数器的计数值减去第一预定值,其中,第一计数器的计数值在对应的从处理器的看门狗定时器超时处理过程中重置为大于第一预定阈值的第二预定值;确定减去第一预定值后的计数值小于或者等于第一预定阈值的第一计数器对应的从处理器在预定时间内没有被调度。
可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行:根据获得的监控结果,判断预定时间内看门狗系统中的各个从处理器是否被调度包括:在看门狗系统中的主处理器的看门狗定时器超时处理过程中,将看门狗系统中的各个从处理器的第二计数器的计数值加上第三预定值,其中,第二计数器的计数值在对应的从处理器的看门狗定时器超时处理过程中重置为小于第二预定阈值的第四预定值;确定加上第三预定值后的计数值大于或者等于第二预定阈值的第二计数器对应的从处理器在预定时间内没有被调度。
可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行:在根据获得的 监控结果,确定运行状态异常的处理器之前,还包括:在看门狗系统中的主处理器的时钟中断过程中,将主处理器的第三计数器的计数值减去第五预定值,其中,第三计数器的计数值在主处理器的看门狗定时器超时处理过程中重置为大于第三预定阈值的第六预定值;在减去第五预定值后的第三计数器的计数值小于或者等于第三预定阈值的情况下,记录主处理器的状态信息;或者,在看门狗系统中的从处理器的时钟中断过程中,将从处理器的第四计数器的计数值减去第五预定值,其中,第四计数器的计数值在从处理器的看门狗定时器超时处理过程中重置为大于第三预定阈值的第六预定值;在减去第五预定值后的第三计数器的计数值小于或者等于第三预定阈值的情况下,记录从处理器的状态信息。
可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行:在根据获得的监控结果,确定运行状态异常的处理器之前,还包括:在看门狗系统中的主处理器的时钟中断过程中,将主处理器的第五计数器的计数值加上第七预定值,其中,第五计数器的计数值在主处理器的看门狗定时器超时处理过程中重置为小于第四预定阈值的第八预定值;在加上第七预定值后的第五计数器的计数值大于或者等于第四预定阈值的情况下,记录主处理器的状态信息;或者,在看门狗系统中的从处理器的时钟中断过程中,将从处理器的第六计数器的计数值加上第七预定值,其中,第六计数器的计数值在从处理器的看门狗定时器超时处理过程中重置为小于第四预定阈值的第八预定值;在加上第七预定值后的第六计数器的计数值大于或者等于第四预定阈值的情况下,记录从处理器的状态信息。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本公开的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本公开不限制于任何特定的硬件和软件结合。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
工业实用性
本公开适用于通信领域,用以解决相关技术中多处理器系统存在的处理器出现异常时,无法定位系统复位故障原因的问题,达到准确定位系统复位故障原因的效果。

Claims (14)

  1. 一种监控方法,包括:
    对看门狗系统中的各个处理器的运行状态进行监控,获得监控结果;
    根据获得的所述监控结果,确定运行状态异常的处理器。
  2. 根据权利要求1所述的方法,其中,根据获得的所述监控结果,确定运行状态异常的处理器包括:
    根据获得的所述监控结果,判断预定时间内所述看门狗系统中的各个从处理器是否被调度;
    在判断结果为否的情况下,确定未被调度的从处理器运行状态异常。
  3. 根据权利要求2所述的方法,其中,根据获得的所述监控结果,判断预定时间内所述看门狗系统中的各个从处理器是否被调度包括:
    在所述看门狗系统中的主处理器的看门狗定时器超时处理过程中,将所述看门狗系统中的各个从处理器的第一计数器的计数值减去第一预定值,其中,所述第一计数器的计数值在对应的从处理器的看门狗定时器超时处理过程中重置为大于第一预定阈值的第二预定值;
    确定减去所述第一预定值后的计数值小于或者等于所述第一预定阈值的第一计数器对应的从处理器在所述预定时间内没有被调度。
  4. 根据权利要求2所述的方法,其中,根据获得的所述监控结果,判断预定时间内所述看门狗系统中的各个从处理器是否被调度包括:
    在所述看门狗系统中的主处理器的看门狗定时器超时处理过程中,将所述看门狗系统中的各个从处理器的第二计数器的计数值加上第三预定值,其中,所述第二计数器的计数值在对应的从处理器的看门狗定时器超时处理过程中重置为小于第二预定阈值的第四预定值;
    确定加上所述第三预定值后的计数值大于或者等于所述第二预定阈值的第二计数器对应的从处理器在所述预定时间内没有被调度。
  5. 根据权利要求1至4中任一项所述的方法,其中,在根据获得的所述监控结果,确定运行状态异常的处理器之前,还包括:
    在所述看门狗系统中的主处理器的时钟中断过程中,将所述主处理器的第三计数器的计数值减去第五预定值,其中,所述第三计数器的计数值在所述主处理器的看门狗定时器超时处理过程中重置为大于第三预定阈值的第六预定值;在减去所述第五预定值后的所述第三计数器的计数值小于或者等于所述第三预定阈值的情况下,记录所述主处理器的状态信息;
    或者,
    在所述看门狗系统中的从处理器的时钟中断过程中,将所述从处理器的第四计数器的计数值减去所述第五预定值,其中,所述第四计数器的计数值在所述从处理器的看门狗定 时器超时处理过程中重置为大于第三预定阈值的第六预定值;在减去所述第五预定值后的所述第三计数器的计数值小于或者等于所述第三预定阈值的情况下,记录所述从处理器的状态信息。
  6. 根据权利要求1至4中任一项所述的方法,其中,在根据获得的所述监控结果,确定运行状态异常的处理器之前,还包括:
    在所述看门狗系统中的主处理器的时钟中断过程中,将所述主处理器的第五计数器的计数值加上第七预定值,其中,所述第五计数器的计数值在所述主处理器的看门狗定时器超时处理过程中重置为小于第四预定阈值的第八预定值;在加上所述第七预定值后的所述第五计数器的计数值大于或者等于所述第四预定阈值的情况下,记录所述主处理器的状态信息;
    或者,
    在所述看门狗系统中的从处理器的时钟中断过程中,将所述从处理器的第六计数器的计数值加上所述第七预定值,其中,所述第六计数器的计数值在所述从处理器的看门狗定时器超时处理过程中重置为小于第四预定阈值的第八预定值;在加上所述第七预定值后的所述第六计数器的计数值大于或者等于所述第四预定阈值的情况下,记录所述从处理器的状态信息。
  7. 一种监控装置,包括:
    获得模块,设置为对看门狗系统中的各个处理器的运行状态进行监控,获得监控结果;
    确定模块,设置为根据获得的所述监控结果,确定运行状态异常的处理器。
  8. 根据权利要求7所述的装置,其中,所述确定模块包括:
    判断单元,设置为根据获得的所述监控结果,判断预定时间内所述看门狗系统中的各个从处理器是否被调度;
    确定单元,在判断结果为否的情况下,确定未被调度的从处理器运行异常。
  9. 根据权利要求8所述的装置,其中,所述判断单元包括:
    第一计算子单元,设置为在所述看门狗系统中的主处理器的看门狗定时器超时处理过程中,将所述看门狗系统中的各个从处理器的第一计数器的计数值减去第一预定值,其中,所述第一计数器的计数值在对应的从处理器的看门狗定时器超时处理过程中重置为大于第一预定阈值的第二预定值;
    第一确定子单元,设置为确定减去所述第一预定值后的计数值小于或者等于所述第一预定阈值的第一计数器对应的从处理器在所述预定时间内没有被调度。
  10. 根据权利要求8所述的装置,其中,所述判断单元包括:
    第二计算子单元,设置为在所述看门狗系统中的主处理器的看门狗定时器超时处理过程中,将所述看门狗系统中的各个从处理器的第二计数器的计数值加上第三预定值,其中,所述第二计数器的计数值在对应的从处理器的看门狗定时器超时处理过程中重置为小于第二预定阈值的第四预定值;
    第二确定子单元,设置为确定加上所述第三预定值后的计数值大于或者等于所述第二预定阈值的第二计数器对应的从处理器在所述预定时间内没有被调度。
  11. 根据权利要求7至10中任一项所述的装置,还包括:
    第一计算模块,设置为在所述看门狗系统中的主处理器的时钟中断过程中,将所述主处理器的第三计数器的计数值减去第五预定值,其中,所述第三计数器的计数值在所述主处理器的看门狗定时器超时处理过程中重置为大于第三预定阈值的第六预定值;第一记录模块,设置为在减去所述第六预定值后的所述第三计数器的计数值小于或者等于所述第三预定阈值的情况下,记录所述主处理器的状态信息;
    或者,
    第二计算模块,设置为在所述看门狗系统中的从处理器的时钟中断过程中,将所述从处理器的第四计数器的计数值减去所述第五预定值,其中,所述第四计数器的计数值在所述从处理器的看门狗定时器超时处理过程中重置为大于第三预定阈值的第六预定值;第二记录模块,设置为在减去所述第五预定值后的所述第三计数器的计数值小于或者等于所述第三预定阈值的情况下,记录所述从处理器的状态信息。
  12. 根据权利要求7至10中任一项所述的装置,还包括:
    第三计算模块,设置为在所述看门狗系统中的主处理器的时钟中断过程中,将所述主处理器的第五计数器的计数值加上第七预定值,其中,所述第五计数器的计数值在所述主处理器的看门狗定时器超时处理过程中重置为小于第四预定阈值的第八预定值;第三记录模块,设置为在加上所述第七预定值后的所述第五计数器的计数值大于或者等于所述第四预定阈值的情况下,记录所述主处理器的状态信息;
    或者,
    第四计算模块,设置为在所述看门狗系统中的从处理器的时钟中断过程中,将所述从处理器的第六计数器的计数值加上所述第七预定值,其中,所述第六计数器的计数值在所述从处理器的看门狗定时器超时处理过程中重置为小于第四预定阈值的第八预定值;第四记录模块,设置为在加上所述第七预定值后的所述第六计数器的计数值大于或者等于所述第四预定阈值的情况下,记录所述从处理器的状态信息。
  13. 一种看门狗系统,包括权利要求7至12中任一项所述的装置。
  14. 一种计算机存储介质,所述计算机存储介质存储有执行指令,所述执行指令用于执行权利要求1至6中任一项所述的方法。
PCT/CN2017/086710 2016-06-20 2017-05-31 监控方法、装置及看门狗系统 WO2017219834A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610443850.8 2016-06-20
CN201610443850.8A CN107526646A (zh) 2016-06-20 2016-06-20 监控方法、装置及看门狗系统

Publications (1)

Publication Number Publication Date
WO2017219834A1 true WO2017219834A1 (zh) 2017-12-28

Family

ID=60734663

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2017/086710 WO2017219834A1 (zh) 2016-06-20 2017-05-31 监控方法、装置及看门狗系统

Country Status (2)

Country Link
CN (1) CN107526646A (zh)
WO (1) WO2017219834A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806130A (zh) * 2021-09-22 2021-12-17 广州通则康威智能科技有限公司 看门狗周期自适应方法、装置、计算机设备及存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664357B (zh) * 2018-05-14 2021-07-13 许继集团有限公司 一种基于启动信息统计的嵌入式设备系统修复方法及系统
CN109878533B (zh) * 2018-12-29 2020-12-08 百度在线网络技术(北京)有限公司 处理单元的监控方法、自动驾驶控制单元及存储介质
US11281474B2 (en) * 2020-03-31 2022-03-22 International Business Machines Corporation Partial computer processor core shutoff
CN114200874A (zh) * 2022-02-17 2022-03-18 四川创智联恒科技有限公司 一种设备复位事件的检测装置及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011002993A (ja) * 2009-06-18 2011-01-06 Toyota Motor Corp ウォッチドックタイマ監視装置、ウォッチドックタイマ監視方法
CN102073572A (zh) * 2009-11-24 2011-05-25 中兴通讯股份有限公司 用于多核处理器的监控方法及系统
CN103870350A (zh) * 2014-03-27 2014-06-18 浪潮电子信息产业股份有限公司 一种基于watchdog的微处理器多核加固方法
CN104407927A (zh) * 2014-11-11 2015-03-11 南京科远自动化集团股份有限公司 一种处理器同步运行状态监测电路及监测方法
CN105260255A (zh) * 2015-10-10 2016-01-20 中国兵器工业集团第二一四研究所苏州研发中心 一种多处理器核片上系统的看门狗实现方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1400529A (zh) * 2001-07-30 2003-03-05 华为技术有限公司 一种实时嵌入系统的故障定位方法
CN100362481C (zh) * 2005-09-15 2008-01-16 上海华为技术有限公司 多处理器设备单元主备保护方法
CN101188828A (zh) * 2006-11-16 2008-05-28 中兴通讯股份有限公司 双处理器移动终端监控处理从处理器工作状态的方法
CN101452420B (zh) * 2008-12-30 2013-01-09 中兴通讯股份有限公司 一种嵌入式软件异常监控和处理装置及其方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011002993A (ja) * 2009-06-18 2011-01-06 Toyota Motor Corp ウォッチドックタイマ監視装置、ウォッチドックタイマ監視方法
CN102073572A (zh) * 2009-11-24 2011-05-25 中兴通讯股份有限公司 用于多核处理器的监控方法及系统
CN103870350A (zh) * 2014-03-27 2014-06-18 浪潮电子信息产业股份有限公司 一种基于watchdog的微处理器多核加固方法
CN104407927A (zh) * 2014-11-11 2015-03-11 南京科远自动化集团股份有限公司 一种处理器同步运行状态监测电路及监测方法
CN105260255A (zh) * 2015-10-10 2016-01-20 中国兵器工业集团第二一四研究所苏州研发中心 一种多处理器核片上系统的看门狗实现方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806130A (zh) * 2021-09-22 2021-12-17 广州通则康威智能科技有限公司 看门狗周期自适应方法、装置、计算机设备及存储介质
CN113806130B (zh) * 2021-09-22 2023-08-08 广州通则康威智能科技有限公司 看门狗周期自适应方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN107526646A (zh) 2017-12-29

Similar Documents

Publication Publication Date Title
WO2017219834A1 (zh) 监控方法、装置及看门狗系统
JP6333410B2 (ja) 障害処理方法、関連装置、およびコンピュータ
US9483314B2 (en) Systems and methods for fault tolerant batch processing in a virtual environment
CN109788068B (zh) 心跳状态信息上报方法、装置和设备及计算机存储介质
CN111371832A (zh) 一种数据存储、检测方法及设备
CN111382008B (zh) 一种虚拟机数据的备份方法、装置及系统
US10496128B2 (en) Method for obtaining timestamp and computer device using the same
US11397632B2 (en) Safely recovering workloads within a finite timeframe from unhealthy cluster nodes
CN110109741B (zh) 循环任务的管理方法、装置、电子设备及存储介质
CN114064217B (zh) 一种基于OpenStack的节点虚拟机迁移方法及装置
CN115328741A (zh) 一种异常处理方法、装置、设备和存储介质
US20130054839A1 (en) Synchronizing Time Across A Plurality Of Devices Connected To A Network
US20230359514A1 (en) Operation-based event suppression
US9465621B2 (en) Priority activation of metrology driver in boot sequence
US11516033B1 (en) System and method for metering consumption
CN113064765B (zh) 节点异常处理方法、装置、电子设备及机器可读存储介质
WO2014099139A1 (en) Non real-time metrology data management
CN108924013B (zh) 网络流量精确采集方法及装置
CN110113187B (zh) 一种配置更新方法、装置、配置服务器及配置系统
EP3756310B1 (en) Method and first node for managing transmission of probe messages
CN114691343B (zh) 轮询任务的执行方法及装置、计算机设备及可读存储介质
US11792135B2 (en) Automated process scheduling in a computer network
US12026501B2 (en) Automated process and system update scheduling in a computer network
US20230280998A1 (en) Scheduling a pausable automated process in a computer network
US11937356B2 (en) Diagnosing a problem occurring when controlling a lighting device based on lighting device grouping information

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17814572

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17814572

Country of ref document: EP

Kind code of ref document: A1