WO2021164679A1

WO2021164679A1 - 面向车规级芯片功能安全的故障管理系统

Info

Publication number: WO2021164679A1
Application number: PCT/CN2021/076492
Authority: WO
Inventors: 魏斌; 张力航; 李斌
Original assignee: 南京芯驰半导体科技有限公司
Priority date: 2020-02-20
Filing date: 2021-02-10
Publication date: 2021-08-26
Also published as: US20220392280A1; CN110955571B; CN110955571A

Abstract

本申请提供一种面向车规级芯片功能安全的故障管理系统，包括：芯片外部系统和车规级芯片，车规级芯片包括处理器、系统控制器、系统配置模块、故障管理器、芯片内功能模块，故障管理器配置有故障分类管理模型。

Description

面向车规级芯片功能安全的故障管理系统

本申请要求于2020年2月20日递交的中国专利申请第202010103727.8号的优先权，在此全文引用上述中国专利申请公开的内容以作为本申请的一部分。

技术领域

本申请涉及一种乘用车系统故障管理系统，特别涉及一种面向车规级芯片功能安全的系统故障管理系统。

背景技术

功能安全(Functional Safety)对于汽车领域中与安全相关的电子电气系统(诸如，动力控制系统)至关重要。这些功能安全(Functional Safety)的应用可以对系统施加严格的约束以在复杂的系统环境下安全且可靠地执行。

车规级芯片内部会集成众多安全机制(Safety Mechanism)，该安全机制可以包括IP(芯片内部某个设计好的模块)内部的安全机制以及系统层面的安全机制。但是，当前的车规级芯片在故障识别、分类以及处理等方面具有很大的负荷，而且不能有效、及时地采取合理的故障响应措施，从而降低了系统在故障发生时的可用性。

发明内容

有鉴于此，本申请的提供一种面向车规级芯片功能安全的故障管理系统，该故障管理系统能够通过集中化、层次化、细粒度的芯片功能故障管理体系，可以有效地对芯片内部的故障根据严重程度进行检测以及分类，从而给系统提供精确的故障信息，确保系统软件准确定位并响应各种故障，降低系统软件故障检测负荷，有效、及时地采取合理的故障响应措施，提高系统在故障发生时的可用性。

本申请第一方面提供一种面向车规级芯片功能安全的故障管理系统，该故障管理系统包括芯片外部系统(out of chip)和车规级芯片，车规级芯片进一步包括：处理器(CPU)、系统控制器(System Controller)、系统配置模块(System Configure)、故障管理器(Fault Management)、芯片内功能模块(IP1……IPn)；故障管理器(Fault Management)配置有故障分类管理模型。

在本申请第一方面中，进一步地，故障管理器(Fault Management)进一步包括故障注入模块(Fault Injector)、静态信号检测模块(Static Signal Monitor)以及故障控制模块(Fault Controller)。

故障注入模块(Fault Injector)通过电连接方式接入芯片内部所有功能模块(IP1……IPn)，各功能模块(IP1……IPn)内配置有安全机制。

故障控制模块(Fault Controller)通过电连接方式分别接入各IP(IP1……IPn)、静态信号检测模块(Static Signal Monitor)、处理器(CPU)、系统控制器(System Controller)、芯片外部系统(out of chip)。

静态信号检测模块(Static Signal Monitor)通过电连接方式接入芯片内部的系统配置模块(System Configure)。

在本申请第一方面中，进一步地，故障注入模块(Fault Injector)通过错误测试信号对所有功能模块(IP1……IPn)或者系统的安全机制进行故障注入，检测相应的故障指示信号，并判断安全机制本身是否失效。

在本申请第一方面中，进一步地，故障控制器(Fault Controller)负责汇总自身的静态信号检测模块(Static Signal Monitor)、芯片内部各个IP以及芯片系统中所有安全机制所送出的故障指示信号(Fault Indicated Signals)所送出的故障指示信号(Fault Indicated Signals)。

在本申请第一方面中，进一步地，静态信号检测模块(Static Signal Monitor)对芯片内部的系统配置模块(System Configure)所产生的静态信号进行实时监测，避免由信号固定故障(Stuck-at Fault)所导致的失效。

在本申请第一方面中，进一步地，静态信号检测模块(Static Signal Monitor)所产生的故障指示信号输出到故障控制器(Fault Controller)进行分类处理。

本申请第二方面还提供一种面向车规级芯片功能安全的故障管理器(Fault Management)，该故障管理器包括故障注入模块(Fault Injector)、静态信号检测模块(Static Signal Monitor)以及故障控制模块(Fault Controller)。

故障控制模块(Fault Controller)通过电连接方式分别接入各IP(IP1……IPn)、静态信号检测模块(Static Signal Monitor)、处理器(CPU)、系统控制器(System Controller)、芯片外部系统(out of chip)，故障控制模块(Fault Controller)内置有四种类型故障构成的故障分类管理模型。

在本申请第二方面中，进一步地，四种类型故障被配置为：类型1：将需要外部系统协助处理的故障配置为致命故障(Fail Fatal)；类型2：将主要功能失效的故障配置为故障安全(Fail Safe)；类型3：将自动降级运行处理的故障配置为故障运行(Fail Operational)；类型4：将自动纠错运行处理的故障配置为可纠错故障(Fail Correctable)。

在本申请第二方面中，进一步地，四种类型故障严重度(Severity Level)被配置为：规则1：类型1＞主类型2＞{类型3，类型4}，其中“{类型3，类型4}”表示类型3和类型4的合集；规则2：类型3＞类型4；规则3：规则1＞规则2。

在本申请第二方面中，进一步地，故障控制器(Fault Controller)根据芯片所应用的不同场景以及故障类型按照预先配置产生四种类型故障构成的四层级结构的故障信息。

在本申请第二方面中，进一步地，故障控制器(Fault Controller)还包括4个故障选择单元(Fault Selection)，产生的故障信息与输入的故障指示信号之间可以通过对故障选择单元(Fault Selection)的配置形成多种对应关系。

在本申请第二方面中，进一步地，多种对应关系包括：一对一(1 to 1)、一对多(1 to N)和/或多对一(N to 1)，以适应不同的应用场景以及不同的功能安全等级要求。

本申请提供的面向车规级芯片功能安全的系统故障管理系统，能够通过细粒度的故障分类体系，确保系统软件准确定位并响应各种故障，有效、及时地采取合理的故障响应措施，提高系统在故障发生时的可用性；同时，降低系统软件故障检测负荷，有利于芯片实现快速、高覆盖率、可个性化配置的上电(Power-on)、下电(Power-down)自检。

本申请附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

图1示出了本申请一实施方式中根据芯片功能故障严重度(Severity Level)所设计的四层级故障分类管理模型示意图；

图2示出了根据本申请一实施方式的四层级故障分类管理模型(F4CM)的逻辑应用流程图；

图3示出了根据本申请另一实施方式的四层级故障分类管理模型(F4CM)的逻辑应用流程图；

图4示出了根据本申请一实施方式的故障控制器(Fault Controller)的逻辑结构图；

图5示出了根据本申请一实施方式的面向车规级芯片功能安全的故障管理系统 (Fault Management)的逻辑结构图。

具体实施方式

下面详细描述本申请的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解的是，本申请中提到的相关模块是用于执行本申请中所述操作、方法、流程中的步骤、措施、方案中的一项或多项的硬件设备。所述硬件设备可以为所需的目的而专门设计和制造，或者也可以采用通用计算机中的已知设备或已知的其他硬件设备。所述通用计算机有存储在其内的程序选择性地激活或重构。

本技术领域技术人员可以理解的是，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

汽车功能安全(Functional Safety)设计普遍遵循ISO(国际标准化组织)26262标准(针对汽车，2011年第一次发布，2018年发布第二版)，其是从电子、电气及可编程器件功能安全基本标准IEC(国际电工委员会)61508(1998年第一次发布，2010年发布最新版本)派生出来的，主要定位在汽车行业中特定的电气器件、电子设备、可编程电子器件等专门用于汽车领域的部件，旨在提高汽车电子、电气产品功能安全的国际标准。

ISO 26262标准通过危害分析与风险评估(Hazard Analysis and Risk Assessment，简称为HARA)及V模型设计架构，使功能安全的需求等级得到一致性的分析结果，借由设计开发、查证(Verification)及确认(Validation)等能力成熟度模型集成流程加以实现，并根据安全风险程度对系统或系统某组成部分划分所需汽车安全完整性等级(Automotive Safety Integration Level，简称为ASIL)，使得产品功能安全符合汽车安全要求。ASIL有四个等级，由低到高依次分别为A、B、C和D，其中A是最低的等级，D是最高的等级。针对每种危害确定至少一个安全目标，安全目标是系统的最高级别的安全需求，由安全目标导出系统级别的安全需求，再将安全需求分配到硬件和软件。ASIL等级决定了对系统安全性的要求，ASIL等级越高，对系统的安全性要求越高，为实现安全付出的代价越高，意味着硬件的诊断覆盖率越高，开发流程越严格，相应的开发成本增加、开发周期延长，技术要求严格。例如，ISO 26262功能安全(Functional Safety)标准要求单点故障度量指标(Single-Point Fault Metric，简称为SPFM)大于或等于99％以实现最高的安全完整性水平ASIL D。因此，满足功能安全对于实时系统可以是复杂且困难的。

为了满足ASIL要求，车规级芯片内部会集成众多安全机制(Safety Mechanism)，该安全机制可以包括IP(芯片内部某个设计好的模块)内部的安全机制以及系统层面的安全机制。当故障发生并被相应安全机制检测到时，这些安全机制需要及时报告故障的发生，以便系统根据故障类型以及程度做出相应的故障响应，从而避免故障的潜藏或者故障所直接带来的功能失效。

然而，当前的具有功能安全要求的车规级芯片的设计通常会存在一些问题，具体如下。

例如，在芯片内部缺少集中化的故障管理模块的情况，给系统软件的故障识别、分类以及处理都带来了很大的负荷，也不利于芯片实现快速、高覆盖率、可个性化配置的上电(Power-on)、下电(Power-down)自检。

例如，在芯片内部集成故障管理模块的情况中，对故障进行了分类，但是分类粒度很大(故障分为两类：致命(Fatal)和错误(Error))，造成系统不能有效、及时地采取合理的故障响应措施，从而降低了系统在故障发生时的可用性。

因此，需要优化现有的车规级芯片功能安全系统故障管理系统，以有效地解决上面提到的两类问题。

本申请的实施例提供一种面向车规级芯片功能安全的故障管理系统，该故障管理系统包括芯片外部系统(out of chip)和车规级芯片，车规级芯片包括故障管理器(Fault Management)。故障管理器(Fault Management)配置有故障分类管理模型。在该面向车规级芯片功能安全的系统故障管理系统中，利用设置有故障分类管理模型的故障管理器，能够通过细粒度的故障分类体系，确保系统软件准确定位并响应各种故障，从而有效、及时地采取合理的故障响应措施，提高系统在故障发生时的可用性。

例如，在本申请的实施例中，车规级芯片还可以包括处理器(CPU)、系统控制器(System Controller)、系统配置模块(System Configure)、芯片内功能模块(IP1……IPn)等。

下面，结合附图对根据本申请至少一个实施例中的面向车规级芯片功能安全的故障管理系统进行详细的说明。

需要说明的是，在本申请的一些实施例中，“应用场景”是指芯片(车规级芯片)所应用的汽车内的应用场景，主要涉及汽车内不同系统或部件所构成的环境。车规级芯片会集成IP内部的安全机制以及系统层面的安全机制，当故障发生并被相应安全机制检测到时，这些安全机制需要及时报告故障的发生，以便系统根据故障类型以及程度做出相应的故障响应，从而避免故障的潜藏或者故障所直接带来的功能失效。

在本申请的实施例中，芯片内部硬件的随机故障，可以按照如下维度(W1至W3)进行区分：

W1外部协助：故障发生后，是否需要外部系统协助处理故障？

W2主要功能：故障发生后，芯片内部硬件或者运行于芯片上的软件系统的主要功能是否失效？

W3自行处理：故障发生后，芯片内部硬件或者运行于芯片上的软件系统的主要功能是否能够自行处理？该维度下，又可细分为：降级运行、自动纠错。

基于上述分析结果，在本申请的实施例中，进行如下定义(定义1至定义4)。

定义1，将需要外部系统协助处理的故障定义为“致命故障(Fail Fatal)”；

定义2，将主要功能失效的故障定义为“故障安全(Fail Safe)”；

定义3，将自动降级运行处理的故障定义为“故障运行(Fail Operational)”；

定义4，将自动纠错运行处理的故障定义为“可纠错故障(Fail Correctable)”。

根据上述维度逻辑和理论，在本申请至少一个实施例中，建立如下故障分类管理体系，详见下表一。

表一：故障分类管理体系

例如，在本申请的实施例中，车规级芯片内所有的功能模块(IP1……IPn)的故障可以分成表一所述的四类(故障等级1-4依次对应类型1-4)。表一可用于工程实践上，将芯片内部硬件随机故障进行分类标注，以便系统自动判断故障类型并精确定位故障位置。

在本申请的实施例中，根据本领域工程实践可知，按照芯片功能故障的严重度(Severity Level)分析，具有如下规则逻辑(规则1至规则3)。

规则1，外部协助(类型1)＞主要功能丧失(类型2)＞自行处理{类型3，类型4}，其中“{类型3，类型4}”表示类型3和类型4的合集。

规则2，降级运行(类型3)＞自动纠错(类型4)。

规则3，规则1＞规则2。

在规则3中，类型1＞类型2＞类型3，以及类型1＞类型2＞类型4。

与当前的满足ASIL标准的芯片功能故障分类模型相比，本申请的实施例提出的故障分类具有至少如下主要优点(优点1至优点5)。

优点1，集中化的故障分类体系。芯片功能故障的各种情况都可以涵盖在这四种类型里，使得后续故障处理可以根据不同类型进行快速响应，提高故障处理响应效率。

优点2，细粒度的故障分类体系。将故障分类由当前常见的致命(Fatal)和错误(Error)两类故障细化为上述四类(类型1至类型4)，提高了分类颗粒度，软件或者硬件可以直接进行相应的处理，提高了故障的响应速度。

优点3，层次化的故障分类体系。故障分类的四个等级与功能安全的要求(例如前述的A、B、C和D四个等级)契合度高，有利于做功能安全相关的系统开发。

优点4，降低系统软件故障检测负荷。分类颗粒度变细使得软件或者硬件可以直接进行相应的处理，提高了故障的响应速度，故障分类直接由硬件完成，减少了软件的负担。

优点5，可个性化配置使用场景。故障的分类方式可以进行个性化配置，以满足不同的应用场景，提高芯片适用灵活性。

图2示出了根据本申请一实施方式的四层级故障分类管理模型(F4CM)的逻辑应用流程图。

在本申请一些实施例中，如图2所示，故障管理器可以执行如下的步骤S2-1至S2-4。

在步骤S2-1中，检测到芯片内部某个IP发生的功能故障，即接收到安全机制所送出的故障指示信号(Fault Indicated Signals)。

在步骤S2-2中，根据四层级故障分类管理模型(F4CM)，判断该IP功能故障发生后，是否需要外部系统协助处理故障？如果判断结果为“是”，则确定为致命故障(Fail Fatal)，将该IP功能故障信号(致命故障，Fail Fatal)信息输出到芯片外部(out of chip)，由外部系统协助进行复位、断电或其他必要操作；如果判断结果为“否”，则根据四层级故障分类管理模型(F4CM)进行下一判断步骤，即，判断故障发生后，芯片内部硬件或者运行于芯片上的软件系统的主要功能是否失效？

在步骤S2-3中，如果判断结果为“是”，则确定为故障安全(Fail Safe)，将该IP功能故障信号(故障安全，Fail Safe)信息输出到芯片内部的系统控制器(System Controller)进行自动复位等必要操作来使系统进入安全状态或者恢复运行；如果判断结果为“否”，则根据四层级故障分类管理模型(F4CM)进行下一判断步骤，即，判断故障发生后，芯片内部硬件或者运行于芯片上的软件系统的主要功能是否需要降级运行？

在步骤S2-4中，如果判断结果为“是”，则确定为故障运行(Fail Operational)，将该IP功能故障信号(故障运行，Fail Operational)的信息输出到芯片内部的处理器(CPU)交由运行于CPU上的软件进行降级运行处理；如果判断结果为“否”，则确定为可纠错故障(Fail Correctable)，将该IP功能故障信号(纠错故障，Fail Correctable)的信息输出到芯片内部的处理器(CPU)交由运行于CPU上的软件通过安全机制进行自动纠错处理或者由该IP内的安全机制进行自行纠错。

例如，在本申请的实施例中，根据故障管理体系的四个等级，由低到高依次判断故障应该划分为哪个等级，在执行时，在按照由低到高的顺序对故障进行处理。如此，可以加快对相对严重的故障的处理进程，缩短故障处理的反应时间。需要说明的是，故障等级的高和低的划分标准是基于上述表一所呈现的数字大小，即，最高的故障等级为数字4所代表的可纠错故障，最低的故障等级为数字所代表的致命故障，故障等级的数字编号越小，故障严重程度越大。

图3示出了根据本申请另一实施方式的四层级故障分类管理模型(F4CM)的逻辑应用流程图。

在本申请另一些实施例中，故障管理器还可以包括分类器，该分类器用于接收芯片内部的各个功能模块发生的功能故障的信号，并判断该功能故障的类型。利用分类器预先判断功能故障的类型，可以减少逻辑判断的步骤，简化计算，提高处理效率。示例性的，如图3所示，包括分类器的故障管理器可以执行如下的步骤S3-1至S3-3，其中，图3中实施例与图2中实施例不同之处在于，图3中实施例对四层级故障的判断逻辑发生了变化，采用分类器接收芯片内部IP1……IPn发生的功能故障信号，根据4种不同类型的故障属性同时判断该功能故障属于哪一类故障。四层级故障分类管理模型(F4CM)配置在分类器中。

在步骤S3-1中，检测到芯片内部某个IP发生的功能故障，即接收到安全机制所送出的故障指示信号(Fault Indicated Signals)。

在步骤S3-2中，根据四层级故障分类管理模型(F4CM)，判断IP发生的功能故障类型属于致命故障(Fail Fatal)、故障安全(Fail Safe)、故障运行(Fail Operational)、可纠错故障(Fail Correctable)四种类型中的哪一类。

在步骤S3-3中，当功能故障类型属于致命故障(Fail Fatal)时，将该IP功能故障信号(致命故障，Fail Fatal)信息输出到芯片外部系统(out of chip)，由外部系统协助进行复位、断电或其他必要操作。

在步骤S3-3中，当功能故障类型属于致命故障故障安全(Fail Safe)时，将该IP功能故障信号(故障安全，Fail Safe)信息输出到芯片内部的系统控制器(System Controller)进行自动复位等必要操作来使系统进入安全状态或者恢复运行。

在步骤S3-3中，当功能故障类型属于致命故障故障运行(Fail Operational)时，将该IP功能故障信号(故障运行，Fail Operational)的信息输出到芯片内部的处理器(CPU)交由运行于CPU上的软件进行降级运行处理。

在步骤S3-3中，当功能故障类型属于致命故障可纠错故障(Fail Correctable)时，将该IP功能故障信号(纠错故障，Fail Correctable)的信息输出到芯片内部的处理器(CPU)交由运行于CPU上的软件通过安全机制进行自动纠错处理或由该IP内的安全机制进行自动纠错。

例如，在本申请至少一个实施例中，在故障管理器包括分类器的情况下，分类器可以是根据四层级故障分类管理模型(F4CM)的逻辑应用流程编写的软件代码程序。因此，分类器的设计不需要增加芯片或其他硬件的相关应用成本。

根据以上描述，本申请的四层级故障分类管理模型(F4CM)的逻辑应用实施例是低成本、高效率的面向车规级芯片功能安全的系统故障管理系统，能够通过集中化、层次化、细粒度的芯片功能故障管理体系，可以有效地对芯片内部的故障根据严重程度进行检测以及分类，从而给系统提供精确的故障信息，确保系统软件准确定位并响应各种故障，降低系统软件故障检测负荷，有效、及时地采取合理的故障响应措施，提高系统在故障发生时的可用性。

图4示出了根据本申请一实施方式的故障控制器(Fault Controller)的逻辑结构图。图4中的故障控制器(Fault Controller)的逻辑结构是根据图3中四层级故障分类管理模型(F4CM)逻辑应用流程进行设计得出的。

例如，在本申请至少一个实施例提供中，故障控制器(Fault Controller)负责汇总芯片内部各个IP(IP1……IPn)以及芯片系统中所有安全机制所送出的故障指示信号(Fault Indicated Signals)，并根据芯片所应用的不同场景以及故障类型按照预先配置产生对应图1 所示四层级故障分类管理模型(F4CM)的故障信息。

例如，在本申请至少一个实施例提供中，故障控制器(Fault Controller)可以进一步用于负责汇总自身的静态信号检测模块(Static Signal Monitor)、芯片内部各个IP以及芯片系统中所有安全机制所送出的故障指示信号(Fault Indicated Signals)所送出的故障指示信号(Fault Indicated Signals)。

例如，在本申请至少一个实施例提供中，故障控制器(Fault Controller)可以包括4个故障选择单元(Fault Selection)。产生的故障信息与输入的故障指示信号之间可以通过对故障选择单元(Fault Selection)的配置形成多种对应关系。如图4所示，多种对应关系包括：一对一(1 to 1)、一对多(1 to N)和/或多对一(N to 1)，N为不小于2的正整数。如此，拥有该实施例中的控制器的故障管理系统可以适应不同的应用场景以及不同的功能安全等级要求。

如图4所示，作为一种连接关系的实施例，故障控制器(Fault Controller)内设置有4个故障选择单元(Fault Selection)，该4个故障选择单元分别对应致命故障(Fail Fatal)、故障安全(Fail Safe)、故障运行(Fail Operational)、可纠错故障(Fail Correctable)四种类型故障，并用于分别选择性接收芯片内部各个IP(IP1……IPn)发送故障指示信号(Fault Indicated Signals)。芯片内部各个IP(IP1……IPn)通过电信号方式分别接入故障选择单元(Fault Selection)，使得故障选择单元(Fault Selection)能够接收到芯片内部各个IP发送故障指示信号(Fault Indicated Signals)。

在该实施例中，如图4所示，对于每一个故障选择单元(例如故障选择单元1)，其与多个功能模块IP1～IPn信号连接以建立对应关系，在该情况下，该对应关系为上述的多对一；对于每个功能模块(例如IP1)，其与多个故障选择单元1～4信号连接以建立对应关系，在该情况下，该对应关系为上述的一对多；此外，一个故障选择单元(例如故障选择单元1)与一个功能模块(例如IP1)之间信号连接所建立的对应关系为上述的一对一。需要说明的是，在本申请的实施例中，一对一、一对多、多对一的对应关系可以独立存在也可以为如图4所示的共同存在，具体可以根据实际需要进行设计，在此不做限制。

例如，在本申请至少一个实施例中，还可以在故障控制器(Fault Controller)外部设置软件配置模块(Software Configuration)。软件配置模块(Software Configuration)通过电信号方式分别接入4个故障选择单元(Fault Selection)，根据芯片所应用的不同场景以及故障类型进行预先配置，使得故障选择单元能够接收到芯片内部各个IP发送故障指示信号(Fault Indicated Signals)。软件配置模块(Software Configuration)还可用于实时监测故障选择单元(Fault Selection)的工作状态，当故障选择单元(Fault Selection)出现故障或者逻辑错误时，可以及时进行外部监控和纠正。经过软件配置模块(Software Configuration)采集和判断故障指示信号(Fault Indicated Signals)后，生成故障信息(Fault Information)。

在运行时，产生的故障信息(Fault Information)可以送给芯片内部模块以及外部(外部系统，例如软件配置模块等)进行如下处理：1)将故障运行(Fail Operational)以及可纠错故障(Fail Correctable)的信息输出到芯片内部的处理器(CPU)交由运行于CPU上的软件进行处理；2)将故障安全(Fail Safe)信息输出到芯片内部的系统控制器(System Controller)进行自动复位等必要操作来使系统进入安全状态或者恢复运行；3)将致命故障(Fail Fatal)信息输出到芯片外部(out of chip)，由外部系统协助进行复位、断电或其他必要操作。

图5示出了根据本申请一实施方式的故障管理系统的逻辑结构图。图5中的故障管理系统(Fault Management)配置有：如图4所示的故障控制器(Fault Controller)、静态信号检测模块(Static Signal Monitor)以及故障注入模块(Fault Injector)。故障控制器(Fault Controller)的具体结构、功能、逻辑流程如前面的实施例所述，本处不再赘述。

下面，将分别详细描述静态信号检测模块(Static Signal Monitor)、故障注入模块(Fault Injector)以及故障管理系统(Fault Management)的结构、功能、逻辑流程。

如图5所示，静态信号检测模块(Static Signal Monitor)负责根据预先配置，对芯片内部的系统配置模块(System Configure)所产生的静态信号进行实时监测，检测由信号固定故障(Stuck-at Fault)所导致的失效。例如，所述固定故障(Stuck-at Fault)是本领域公知的stuck-at 0或者stuck-at 1类型故障，是指电路中信号或者管脚非预期地被固定在逻辑0(stuck-at 0)或者逻辑1(stuck-at 1)上，而无法改变的一类故障，具体参见网址为http://web.stanford.edu/class/ee386/public/stuck_at_fault_6per_page中的内容。静态信号检测模块所产生的故障指示信号也会输出到故障控制器(Fault Controller)进行分类、处理。

如图5所示，功能安全除了要求对功能电路可能产生的故障设计安全机制进行监控，还要求对安全机制本身进行检测以避免潜在故障(Latent Fault)的发生。故障注入模块(Fault Injector)通过错误测试信号(Error Injection Signals)对IP或者系统的安全机制进行故障注入，并检测相应的故障指示信号，从而判断安全机制本身是否失效。故障注入功能分为硬件自动故障注入和软件可控故障注入两类：1)硬件自动故障注入功能可以应用于芯片上电(Power-on)的过程中，此时CPU的软件并没有启动，硬件的故障自动注入及检测可以保证系统启动后运行在一个安全的环境下；2)软件可控故障注入功能可以应用于芯片上电(Power-on)、下电(Power-down)或者运行过程中，此时系统可以针对芯片的应用场景以及故障容忍时间间隔(FTTI)对不同的安全机制采用不同的故障注入策略，从而提高了芯片的应用灵活性。

如图5所示，本申请的实施例设计一种故障管理器(Fault Management)，该故障管理器可以包括故障注入模块(Fault Injector)、静态信号检测模块(Static Signal Monitor)以及故障控制器(Fault Controller)。例如，故障注入模块(Fault Injector)可以通过电连接方式接入芯片内部各个IP(IP1……IPn)，各IP(IP1……IPn)内配置有安全机制(Safety Mechanism)，故障注入模块(Fault Injector)通过故障注入信号(Fault Injection Signals)对IP或者系统的安全机制进行故障注入，并检测相应的故障指示信号，从而判断安全机制本身是否失效。例如，故障控制器(Fault Controller)通过电连接方式接入各IP(IP1……IPn)、静态信号检测模块(Static Signal Monitor)、处理器(CPU)、系统控制器(System Controller)、芯片外部系统(out of chip)。例如，故障控制器(Fault Controller)内配置有故障分类管理模型；静态信号检测模块(Static Signal Monitor)通过电连接方式接入芯片内部的系统配置模块(System Configure)，用于接收系统配置模块(System Configure)所产生的静态信号(Static Signals)并进行实时监测，检测由信号固定故障(stuck-at 0或者stuck-at 1)所导致的失效。

在本申请至少一个实施例中，故障控制器(Fault Controller)可以内配置故障分类管理模型采用本申请设计的四层级故障分类管理模型(F4CM)。

在本申请至少一个实施例中，四层级故障分类管理模型(F4CM)可以设计为4个故障选择单元(Fault Selection)，分别对应致命故障(Fail Fatal)、故障安全(Fail Safe)、故障运行(Fail Operational)、可纠错故障(Fail Correctable)四种类型故障，用于分别选择性接收芯片内部各个IP(IP1……IPn)发送故障指示信号(Fault Indicated Signals)。

根据前面的实施例，本申请提供的面向车规级芯片功能安全的故障管理系统(Fault Management)，能够通过细粒度的故障分类体系，确保系统软件准确定位并响应各种故障，有效、及时地采取合理的故障响应措施，提高系统在故障发生时的可用性；同时，降低系统软件故障检测负荷，有利于芯片实现快速、高覆盖率、可个性化配置的上电(Power-on)、下电(Power-down)自检。本申请的实施例提供的故障管理系统的功能效果和技术手段的对应关系可以参加下表二。

表二：功能效果与技术手段对应关系

以上所述仅是本申请的多个优选实施方式，文字部分括号内的字母和附图部分图示中的字母仅仅表示该模块或步骤的名称符号，具体含义请以实施例描述和中文含义为准。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

一种面向车规级芯片功能安全的故障管理系统，其特征在于，包括芯片外部系统和车规级芯片，其中，

所述车规级芯片包括故障管理器，所述故障管理器配置有故障分类管理模型。
如权利要求1所述的面向车规级芯片功能安全的故障管理系统，其特征在于，

所述故障管理器内置有由故障等级由高到低划分的四种类型故障构成的所述故障分类管理模型。
如权利要求1或2所述的面向车规级芯片功能安全的故障管理系统，其特征在于，所述四种类型故障被配置为：

类型1：将需要所述芯片外部系统协助处理的故障配置为致命故障；

类型2：将主要功能失效的故障配置为故障安全；

类型3：将自动降级运行处理的故障配置为故障运行；以及

类型4：将自动纠错运行处理的故障配置为可纠错故障。
如权利要求3所述的面向车规级芯片功能安全的故障管理系统，其特征在于，所述四种类型故障被被进一步配置为：

规则1：类型1＞类型2＞{类型3，类型4}，其中“{类型3，类型4}”表示类型3和类型4的合集；

规则2：类型3＞类型4；以及

规则3：规则1＞规则2。
如权利要求3或4所述的面向车规级芯片功能安全的故障管理系统，其特征在于，

所述车规级芯片包括处理器、系统控制器、系统配置模块和位于所述车规级芯片内的至少一个功能模块。
如权利要求5所述的面向车规级芯片功能安全的故障管理系统，其特征在于，所述故障管理器进一步包括故障注入模块、静态信号检测模块以及故障控制模块，其中，

所述故障注入模块通过电连接方式接入位于所述芯片内部的所述至少一个功能模块的每个功能模块，每个所述功能模块内配置有安全机制；

所述故障控制模块通过电连接方式分别接入每个所述功能模块、静态信号检测模块、处理器、系统控制器、芯片外部系统，所述故障控制模块内置有所述故障分类管理模型；以及

所述静态信号检测模块通过电连接方式接入位于所述芯片内部的所述系统配置模块。
如权利要求6所述的面向车规级芯片功能安全的故障管理系统，其特征在于，

所述故障注入模块通过故障注入信号对所述安全机制进行故障注入，检测相应的故障指示信号，并判断所述安全机制本身是否失效。
如权利要求6或7所述的面向车规级芯片功能安全的故障管理系统，其特征在于，

所述故障控制模块负责汇总自身的静态信号检测模块、所述安全机制所送出的故障指示信号。
如权利要求8所述的面向车规级芯片功能安全的故障管理系统，其特征在于，所述故障控制模块将产生的故障信息发送给所述功能模块或所述芯片外部系统，包括：

将分类为所述故障运行以及所述可纠错故障的信息输出到所述处理器并进行处理；

将分类为所述故障安全的信息输出到所述系统控制器进行自动复位以使系统进入安全状态或者恢复运行；以及

将分类为所述致命故障的信息输出到所述芯片外部系统，由所述芯片外部系统协助进行复位、断电操作。
如权利要求9所述的面向车规级芯片功能安全的故障管理系统，其特征在于，所述故障管理器执行步骤包括：

步骤S2-1，接收到安全机制所送出的故障指示信号；

步骤S2-2，判断是否需要所述芯片外部系统协助处理故障，包括：

如果判断结果为“是”，则确定为所述致命故障，由所述芯片外部系统协助进行复位、断电操作；

如果判断结果为“否”，执行步骤S2-3；

步骤S2-3，判断所述芯片内部的硬件或者运行于所述芯片上的软件系统的主要功能是否失效，包括：

如果判断结果为“是”，则确定为所述故障安全，将所述故障指示信号输出到所述系统控制器进行自动复位操作来使所述硬件或者所述软件系统进入安全状态或者恢复运行；

如果判断结果为“否”，执行步骤S2-4；

步骤S2-4，判断所述硬件或者所述软件系统的主要功能是否需要降级运行，包括：

如果判断结果为“是”，则确定为所述故障运行，将所述故障指示信号输出到所述处理器以进行降级运行处理；

如果判断结果为“否”，则确定为所述可纠错故障，将所述故障指示信号输出到所述处理器以通过所述安全机制进行自动纠错处理。
如权利要求6-10中任一项所述的面向车规级芯片功能安全的故障管理系统，其特征在于，

所述静态信号检测模块对位于所述芯片内部的所述系统配置模块所产生的静态信号进行实时监测，检测由信号固定故障所导致的失效。
如权利要求11所述的面向车规级芯片功能安全的故障管理系统，其特征在于，

所述静态信号检测模块所产生的故障指示信号输出到所述故障控制模块并进行分类处理。
一种面向车规级芯片功能安全的故障管理器，所述故障管理器应用至故障管理系统，所述故障管理系统包括芯片外部系统和车规级芯片，其特征在于，所述故障管理器配置有故障分类管理模型。
如权利要求13所述的面向车规级芯片功能安全的故障管理器，其特征在于，所述故障控制模块内置有由故障等级由高到低划分的四种类型故障构成的故障分类管理模型。
如权利要求14所述的面向车规级芯片功能安全的故障管理器，其特征在于，所述四种类型故障被配置为：

类型1：将需要所述芯片外部系统协助处理的故障配置为致命故障；

类型2：将主要功能失效的故障配置为故障安全；

类型3：将自动降级运行处理的故障配置为故障运行；以及

类型4：将自动纠错运行处理的故障配置为可纠错故障。
如权利要求14所述的面向车规级芯片功能安全的故障管理器，其特征在于，所述四种类型故障被进一步配置为：

规则1：类型1＞类型2＞{类型3，类型4}，其中“{类型3，类型4}”表示类型3和类型4的合集；

规则2：类型3＞类型4；以及

规则3：规则1＞规则2。
如权利要求14-16中任一项所述的面向车规级芯片功能安全的故障管理器，其特征在于，所述故障管理器包括故障注入模块、静态信号检测模块以及故障控制模块，其中：

所述故障注入模块通过电连接方式接入位于所述芯片内部的所述至少一个功能模块的每个功能模块，每个所述功能模块内配置有安全机制；

所述故障控制模块通过电连接方式分别接入每个所述功能模块、静态信号检测模块、处理器、系统控制器、芯片外部系统，所述故障控制模块内置有所述故障分类管理模型；以及

所述静态信号检测模块通过电连接方式接入位于所述芯片内部的所述系统配置模块。
如权利要求14-17中任一项所述的面向车规级芯片功能安全的故障管理器，其特征在于，所述故障控制模块根据所述芯片所应用的不同场景以及所述故障的类型产生故障信息。
如权利要求7所述的面向车规级芯片功能安全的故障管理器，其特征在于，故障注入模块产生故障指示信号以输入至所述故障控制模块，所述故障控制模块还包括4个故障选择单元，所述故障信息与所述故障指示信号之间可以通过对所述故障选择单元的配置形成多种对应关系。
如权利要求11所述的面向车规级芯片功能安全的故障管理器，其特征在于，所述多种对应关系包括：一对一、一对多和/或多对一，以适应不同的应用场景以及不同的功能安全等级要求。