WO2022116755A1

WO2022116755A1 - 多核系统的死机信息存储方法以及介质和电子设备

Info

Publication number: WO2022116755A1
Application number: PCT/CN2021/127102
Authority: WO
Inventors: 师雯
Original assignee: 哲库科技(北京)有限公司
Priority date: 2020-12-03
Filing date: 2021-10-28
Publication date: 2022-06-09
Also published as: CN112463430B; CN112463430A

Abstract

一种多核系统的死机信息存储方法、装置以及介质和电子设备。所述多核系统的死机信息存储方法包括以下步骤：第一处理器通过多核系统的核间通信，确定第二处理器是否处于不响应中断的中断失效状态（S101）；在第二处理器处于中断失效状态的情况下，第一处理器进行动作使得第二处理器的死机信息被获取至多核系统的存储装置中（S102），其中，第一处理器处于对中断进行响应的中断有效状态。该多核系统的死机信息存储方法，无需要求发生看门狗中断的处理核响应中断，也可保证该处理核的随机存取存储器镜像的有效性，进而可提供更多的死机相关信息，以便后续调试分析。

Description

多核系统的死机信息存储方法以及介质和电子设备

相关申请的交叉引用

本公开要求于2020年12月03日提交的申请号为202011408857.9，名称为“多核系统的死机信息存储方法以及介质和电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本公开中。

技术领域

本申请涉及嵌入式技术领域，特别涉及一种多核系统的死机信息存储方法以及介质和电子设备。

背景技术

看门狗(Watchdog)是嵌入式软件当中常用的一种监控技术，该技术既包括软件部分和硬件部分。硬件部分包括硬件定时器，若该定时器在几秒内未被复位，则会通知系统的PMIC(Power Management Integrated Circuit，集成电源管理电路)单元做系统复位。软件部分可以用定时器调度的进程来实现，该进程周期性的进行硬件定时器的复位，来防止PMIC单元复位系统。看门狗可以在系统卡住，不能正常工作的情况下，主动复位系统，让系统恢复正常工作。

相关技术中，发生看门狗中断时，通过看门狗超时触发中断，在中断里触发整个系统死机，在死机的过程中，刷新TCM(Tightly Coupled Memory，紧耦合内存)和Cache(缓存器)到RAM(Random Access Memory，随机访问内存)中，然后保存整个RAM的内容到文件系统，以便后续调试分析。

然而，上述的看门狗计时器超时触发的系统死机，虽然可以保存有效的内存镜像，但其前提是看门狗计时器超时时，看门狗对应的处理核是可以响应中断的。如果看门狗计时器超时时，对应的处理核关闭了中断，则不能主动触发死机流程，由此得到的内存镜像文件里，没有刷新Cache，导致有些数据是无效的，从而影响后续的分析过程。

公开内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本申请的一个目的在于提出一种多核系统的死机信息存储方法，以保证死机处理核的随机存取存储器部分的有效性。

本申请的第二个目的在于提出一种计算机存储介质。

本申请的第三个目的在于提出一种电子设备。

第一方面，本申请提出了一种多核系统的死机信息存储方法，包括以下步骤：第一处理器通过所述多核系统的核间通信，确定所述第二处理器是否处于不响应中断的中断失效状态；在所述第二处理器处于中断失效状态的情况下，所述第一处理器进行动作使得所述第二处理器的死机信息被获取至所述多核系统的存储装置中，其中，所述第一处理器处于对中断进行响应的中断有效状态。

本申请的多核系统的死机信息存储方法，通过多核系统的核间通信监控到发生看门狗中断的处理核处于中断失效状态时，可通过多核系统中处于中断有效状态的至少一个处理核的动作，以将发生看门狗中断的处理核的死机信息刷新到多核系统的随机存取存储器中。由此，无需要求发生看门狗中断的处理核响应中断，也可保证该处理核的随机存取存储器镜像的有效性，进而可提供更多的死机相关信息，以便后续调试分析。

根据本申请的一个实施例，在所述第二处理器处于中断失效状态，所述第一处理器处于中断有效状态的情况下，所述第一处理器获取所述第二处理器的死机信息，并将所获取的所述死机信息获取至所述多核系统的存储装置中。

根据本申请的一个实施例，所述第一处理器访问所述第二处理器的存储空间，以获取所述第二处理器的死机信息。

根据本申请的一个实施例，所述第一处理器通过核间AXI接口访问所述第二处理器的TCM和/或Cache，以将所述TCM和/或Cache中的死机信息获取至所述多核系统的存储装置中。

根据本申请的一个实施例，所述第一处理器根据所述第一处理器与所述第二处理器之间的映射关系，获取所述第二处理器的死机信息。

根据本申请的一个实施例，通过所述第一处理器将所述多核系统的Cache设置为Fresh模式，使得所述第二处理器在所述多核系统重启后将所述死机信息获取至所述多核系统的存储装置中。

根据本申请的一个实施例，所述第一处理器与所述第二处理器通过每隔第一预设时间互相发送心跳信息以确定所述第一处理器和/或所述第二处理器是否处于中断失效状态。

根据本申请的一个实施例，所述第一处理器与所述第二处理器通过每隔所述第一预设时间，互相发送核间中断，并互相确定是否对所述核间中断进行响应；如果所述第一处理器或所述第二处理器一次以上未对所述核间中断进行响应，则确定所述第一处理器或所述第二处理器处于中断失效状态。

根据本申请的一个实施例，在所述第一处理器与所述第二处理器中的至少一个发生看门狗中断且处于中断有效状态时，将多核系统的状态信息获取到所述多核系统的存储装置中。

根据本申请的一个实施例，在所述第一处理器与所述第二处理器中的至少一个发生看门狗中断且处于中断有效状态时，所述第一处理器与所述第二处理器中的至少一个向其它处理器发送核间中断，强制所述其它处理器将TCM和/或Cache获取到所述多核系统的存储装置中。

根据本申请的一个实施例，所述多核系统的所述存储装置为RAM。

根据本申请的一个实施例，所述死机信息包括所述多核系统的状态信息。

根据本申请的一个实施例，所述核间中断为IPI中断。

第二方面，本申请提出了一种计算机可读存储介质，其上存储有多核系统的死机信息存储程序，该多核系统的死机信息存储程序被处理器执行时实现第一方面所述的多核系统的死机信息存储方法。

第三方面，本申请提出了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上多核系统的死机信息存储程序，所述处理器执行所述死机信息存储程序时，实现第一方面所述的多核系统的死机信息存储方法。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

图1是本申请实施例的多核系统的死机信息存储方法的流程图；

图2是本申请一个具体实施例的多核系统的死机信息存储方法的流程图；

图3是本申请一个具体实施例的多核系统中多个处理核间的通信示意图；

图4是本申请实施例的电子设备的结构框图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的多核系统的死机信息存储方法以及介质、电子设备。

图1是本申请实施例的多核系统的死机信息存储方法的流程图。

如图1所示，该多核系统的死机信息存储方法，包括以下步骤：

S101，第一处理器通过多核系统的核间通信，确定第二处理器是否处于不响应中断的中断失效状态。

其中，上述第二处理器为发生看门狗中断的处理核，上述第一处理器处于对终端进行响应的中断有效状态。

具体地，多核系统包括多个处理核，各处理核之间存在通信连接，其中，多核系统可以是一集成芯片。每一处理核均可对应配备一个看门狗模块，各处理核可为对应的看门狗模块配置看门狗内部相关寄存器，并通过配置看门狗控制寄存器开启看门狗使能。各处理核可周期性发送喂狗信号至对应的看门狗模块，当看门狗模块接收到第一次喂狗信号时，看门狗模块的看门狗计数器开始计数。

当任一看门狗计算器的计数值发生第一次溢出时，在使能看门狗中断功能情况下，产生看门狗中断，即任一处理核发生看门狗中断。与此同时，将该处理核视为第二处理器，并将其他处理核视为第一处理器。进一步地，第一处理器可通过与第二处理器之间的通信连接对发生看门狗中断的处理核的状态进行监控，如第一处理器与第二处理器之间有无心跳信息交互，从而确定发生看门狗中断的处理核是否处于中断失效状态。

S102，在第二处理器处于中断失效状态的情况下，第一处理器进行动作使得第二处理器的死机信息被获取至多核系统的存储装置中。

其中，上述多核系统的存储装置为RAM。

在该实施例中，当第二处理器处于中断失效状态时，其不能响应中断，此时，可通过多核系统中处于中断有效状态的第一处理器中的至少一个处理核(如仲裁出的一个处理能力最佳的处理核)的动作，以将发生看门狗中断的处理核的死机信息刷新到多核系统的随机存取存储器RAM，如双倍速率同步动态随机存储器DDR SDRAM中。具体可通过核间通信，将第二处理器的死机信息刷新到多核系统的随机存取存储器中；也可将多核系统的Cache设置为Fresh模式，以在多核系统重启时再将第二处理器的死机信息刷新到多核系统的随机存取存储器中。

由此，本申请实施例的多核系统的死机信息存储方法，无需要求发生看门狗中断的处理核响应中断，也可保证该处理核的随机存取存储器镜像的有效性，进而可提供更多的死机相关信息，以便后续调试分析。

在一些实施例中，上述第一处理器与上述第二处理器通过每隔第一预设时间互相发送心跳信息以确定上述第一处理器和/或上述第二处理器是否处于中断失效状态。

其中，第一预设时间可根据需要进行标定，如可以是0.5s～3s中取值。上述第一处理器与第二处理器通过每隔第一预设时间互相发送心跳信息以确定第一处理器和/或第二处理器是否处于中断失效状态，具体可包括：第一处理器与第二处理器通过每隔第一预设时间，互相发送核间中断，并互相确定是否对核间中断进行响应；如果第一处理器或第二处理器一次以上未对核间中断进行响应，则确定第一处理器或第二处理器处于中断失效状态。

具体地，第一处理器每隔第一预设时间向第二处理器发送核间中断，并检测第二处理器是否对核间中断进行响应；如果第二处理器连续多次(如3～10次中的一值)未对核间中断进行响应，则确定第二处理器处于中断失效状态。由此，可准确监控到第二处理器是否处于中断失效状态。

进一步地，第二处理器也可以每个第一预设时间向第一处理器发送核间中断，如果第一处理器连续多次(如3～10次中的一值)未对核间中断进行响应，则确定第一处理器处于中断失效状态。

可选地，第二处理器还可以根据是否接收到上述第一处理器发送的核间中断信息判断第一处理器判断第一处理器是否处于中断失效状态。具体地，第二处理器可预先获知第一处理器向第二处理器发送核间中断的时刻；例如，第二处理器可以记录第一处理器第一次向第二处理器发送核间中断的时刻，并以该时刻为基准，通过预先获知的上述第一预设时间计算第一处理器发送核间中断的时刻。进而，若第二处理器连续多次(如3～10次中的一值)未在预先计算出的第一处理器发送核间中断的时刻接收到第一处理器发送的核间间隔，则确定第一处理器处于中断失效状态。

举例而言，以多核系统包括两个处理核为例，两处理核可分别记为主处理核Core1和从处理核Core0，参见图2。两处理核不仅可进行复位看门狗寄存器的操作，还可在进行该操作的同时进行相互通信，以确定对方的存活状态，例如，上述核间中断为IPI(Inter Processor Interrupt，核间中断)中断，进而可通过IPI中断确定对方的存活状态。

参见图2，多核系统启动后，主处理核Core1可每隔第一预设时间如1s向从处理核Core0发送IPI中断，以告知从处理核Core0主处理核Core1并未死机；从处理核Core0在接收到主处理核Core1发送的IPI中断，可响应该IPI中断，并向主处理核Core1反馈相应信息，以告知主处理核Core1从处理核Core0并未死机。如果从处理核Core0已发生看门狗中断，且主处理核Core1检测到从处理核Core0对核间中断不进行响应，并连续多次如5次，则可确定发生看门狗中断的从处理核Core0处于中断失效状态；否则，确定发生看门狗中断的从处理核Core0处于中断有效状态。

作为一个示例，参见图2，在第一处理器与第二处理器中的至少一个发生看门狗中断且处于中断有效状态时，将多核系统的状态信息获取到多核系统的存储装置中。由此，无需通过核间操作，也可保证发生看门狗中断的处理核的死机信息的有效性，便于后续的调试分析。

其中，上述死机信息包括上述多核系统的状态信息。

作为一个示例，参见图2，在第一处理器与第二处理器中的至少一个发生看门狗中断且处于中断有效状态时，第一处理器与第二处理器中的至少一个向其它处理器发送核间中断，强制其它处理器将TCM和/或Cache获取到多核系统的存储装置中。由此，可得到多核系统在发生看门狗中断时的更多信息，便于后续的调试分析，保证调试数据的准确性。

可选地，参见图2，不考虑看门狗中断的情况，如果某一个处理核能响应该中断，则表明该处理核工作正常，否则，如果某一个处理核连续多次不能响应该中断，表明该处理核出现问题。此时，需要能正常工作的处理核主动触发系统死机。

在一些实施例中，在第二处理器处于中断失效状态，第一处理器处于中断有效状态的情况下，第一处理器获取第二处理器的死机信息，并将所获取的死机信息获取至多核系统的存储装置中。

作为一个可行的示例，第一处理器访问第二处理器的存储空间，以获取第二处理器的死机信息。

其中，第一处理器通过核间AXI(Advanced eXtensible Interface，先进可扩展接口)接口访问第二处理器的TCM和/或Cache，以将TCM和/或Cache中的死机信息获取至多核系统的存储装置中。

具体地，参见图3，多个处理核Core0～Coren之间通过核间接口AXI互相访问TCM和Cache。在检测到第二处理器处于中断失效状态时，可由第一处理器主动调用核间接口来帮助第二处理器刷新TCM和L1 cache到L2 Cache中，然后主动触发死机来刷新L2 Cache到随机存取存储器RAM并保存内存镜像。需要说明的是，图3中DTCM是指数据传输总线，ITCM是指指令传输总线。

作为另一个可行的示例，第一处理器根据第一处理器与第二处理器之间的映射关系，获取第二处理器的死机信息。

在该示例中，可预先建立任意两处理核之间的映射关系，进而第一处理器获取第一处理器与第二处理器之间的映射关系。例如，对于包括四个处理核的多核系统，也预先设置Core0与Core3之间存在映射关系，Core1与Core2之间存在映射关系，当Core0发生看门狗中断时，可通过Core3获取发生看门狗中断的处理核的死机信息。

在另一些实施例中，通过第一处理器将多核系统的Cache设置为Fresh模式，使得第二处理器在多核系统重启后将死机信息获取至多核系统的存储装置中。

具体地，当第二处理器处于中断失效状态时，如果多核系统不支持Cache或者TCM之间的跨核访问，则还可通过第一处理器的动作，以设置多核系统的Cache为Fresh模式，保证在多核系统热启动的时候也能保存住Cache和/或TCM之中的内容，从而可以在重启的时候再将其刷新到RAM，然后在保存内存镜像。

综上所述，本申请的多核系统的死机信息存储方法，可以实现在某一个处理核不能响应中断而造成多核系统即将发生死机时，由其他处理核进行刷新缓存、保存变量、打印日志等，从而保证了随机存取存储器镜像中发生死机的处理核的随机存取存储器部分的有效性，可提供更多的死机相关信息，有助于更好的解决看门狗终端造成的死机难以调试的问题。

本申请还提出了一种计算机可读存储介质。

在该实施例中，计算机可读存储介质上存储有多核系统的死机信息存储程序，该多核系统的死机信息存储程序被处理器执行时实现上述实施例的多核系统的死机信息存储方法。

图4是本申请实施例的电子设备的结构框图。

如图4所示，电子设备100包括存储器110、处理器120及存储在存储器110上并可在处理器120上多核系统的死机信息存储程序，处理器120执行死机信息存储程序时，实现上述的多核系统的死机信息存储方法。

需要说明的是，在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

在本申请的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本申请中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

在本申请中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

一种多核系统的死机信息存储方法，所述多核系统包括第一处理器与第二处理器，其特征在于，包括以下步骤：

第一处理器通过所述多核系统的核间通信，确定所述第二处理器是否处于不响应中断的中断失效状态；

在所述第二处理器处于中断失效状态的情况下，所述第一处理器进行动作使得所述第二处理器的死机信息被获取至所述多核系统的存储装置中，

其中，所述第一处理器处于对中断进行响应的中断有效状态。
如权利要求1所述的多核系统的死机信息存储方法，其特征在于，包括如下步骤：

在所述第二处理器处于中断失效状态，所述第一处理器处于中断有效状态的情况下，所述第一处理器获取所述第二处理器的死机信息，并将所获取的所述死机信息获取至所述多核系统的存储装置中。
如权利要求2所述的多核系统的死机信息存储方法，其特征在于，包括如下步骤：

所述第一处理器访问所述第二处理器的存储空间，以获取所述第二处理器的死机信息。
如权利要求3所述的多核系统的死机信息存储方法，其特征在于，所述第一处理器通过核间AXI接口访问所述第二处理器的TCM和/或Cache，以将所述TCM和/或Cache中的死机信息获取至所述多核系统的存储装置中。
如权利要求2所述的多核系统的死机信息存储方法，其特征在于，包括如下步骤：

所述第一处理器根据所述第一处理器与所述第二处理器之间的映射关系，获取所述第二处理器的死机信息。
如权利要求1所述的多核系统的死机信息存储方法，其特征在于，包括如下步骤：

通过所述第一处理器将所述多核系统的Cache设置为Fresh模式，使得所述第二处理器在所述多核系统重启后将所述死机信息获取至所述多核系统的存储装置中。
如权利要求1-6中任一项所述的多核系统的死机信息存储方法，其特征在于，包括如下步骤：

所述第一处理器与所述第二处理器通过每隔第一预设时间互相发送心跳信息以确定所述第一处理器和/或所述第二处理器是否处于中断失效状态。
如权利要求7所述的多核系统的死机信息存储方法，其特征在于，包括如下步骤：

所述第一处理器与所述第二处理器通过每隔所述第一预设时间，互相发送核间中断，并互相确定是否对所述核间中断进行响应；

如果所述第一处理器或所述第二处理器一次以上未对所述核间中断进行响应，则确定所述第一处理器或所述第二处理器处于中断失效状态。
如权利要求1所述的多核系统的死机信息存储方法，其特征在于，在所述第一处理器与所述第二处理器中的至少一个发生看门狗中断且处于中断有效状态时，将多核系统的状态信息获取到所述多核系统的存储装置中。
如权利要求9所述的多核系统的死机信息存储方法，其特征在于，在所述第一处理器与所述第二处理器中的至少一个发生看门狗中断且处于中断有效状态时，所述第一处理器与所述第二处理器中的至少一个向其它处理器发送核间中断，强制所述其它处理器将TCM和/或Cache获取到所述多核系统的存储装置中。
如权利要求1-6中任一项所述的多核系统的死机信息存储方法，其特征在于，

所述多核系统的所述存储装置为RAM。
如权利要求1-6中任一项所述的多核系统的死机信息存储方法，其特征在于，

所述死机信息包括所述多核系统的状态信息。
如权利要求8或10所述的多核系统的死机信息存储方法，其特征在于，

所述核间中断为IPI中断。
一种计算机可读存储介质，其特征在于，其上存储有多核系统的死机信息存储程序，该多核系统的死机信息存储程序被处理器执行时实现如权利要求1-13中任一项所述的多核系统的死机信息存储方法。
一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上多核系统的死机信息存储程序，所述处理器执行所述死机信息存储程序时，实现如权利要求1-13中任一项所述的多核系统的死机信息存储方法。