WO2023184188A1

WO2023184188A1 - 一种自动驾驶系统中神经网络模型故障监测方法及装置

Info

Publication number: WO2023184188A1
Application number: PCT/CN2022/083858
Authority: WO
Inventors: 王矿磊; 陈艺帆; 陈德久; 苏鹏
Original assignee: 华为技术有限公司
Priority date: 2022-03-29
Filing date: 2022-03-29
Publication date: 2023-10-05
Also published as: CN117242455A

Abstract

一种自动驾驶系统中神经网络模型故障监测方法及装置，其中，该方法包括：获取自动驾驶系统中的待监测神经网络模型的目标输出数据集合（301），目标输出数据集合包括m个神经网络层中各神经网络层对应的输出数据集合，其中，待监测神经网络模型包括M个神经网络层，M为大于1的整数，m为大于1且不大于M的整数；在目标输出数据集合中，提取各神经网络层对应的特征值集合（302）；计算特征值集合与符合预设概率分布的第一元素集合之间的相对熵值，得到m个神经网络层对应的相对熵值集合（303）；根据相对熵值集合，判断待监测神经网络模型是否存在运行故障（304）。通过该方法，提高了对待监测神经网络模型故障监测的实时性及准确性，保障了自动驾驶车辆安全。

Description

一种自动驾驶系统中神经网络模型故障监测方法及装置

技术领域

本申请涉及自动驾驶技术领域，尤其涉及一种自动驾驶系统中神经网络模型故障监测方法及装置。

背景技术

由于自动驾驶系统中计算平台、人工智能(Artificial Intelligence，AI)加速器等设备的高度复杂性，部署在这些设备上的神经网络模型在进行推理运算时，更容易受到硬件失效等因素的影响；因此，及时准确地监测神经网络模型是否出现运行故障，对于保证自动驾驶车辆安全性具有重要意义。

发明内容

有鉴于此，提出了一种自动驾驶系统中神经网络模型故障监测方法、装置、存储介质及计算机程序产品。

第一方面，本申请的实施例提供了一种自动驾驶系统中神经网络模型故障监测方法，所述方法包括：获取自动驾驶系统中的待监测神经网络模型的目标输出数据集合，所述目标输出数据集合包括m个神经网络层中各神经网络层对应的输出数据集合，其中，所述待监测神经网络模型包括M个神经网络层，M为大于1的整数，m为大于1且不大于M的整数；在所述目标输出数据集合中，提取所述各神经网络层对应的特征值集合；计算所述特征值集合与符合预设概率分布的第一元素集合之间的相对熵值，得到所述m个神经网络层对应的相对熵值集合；根据所述相对熵值集合，判断所述待监测神经网络模型是否存在运行故障。

基于上述技术方案，基于蒙特卡洛方法的思想，对各神经网络层的输出数据进行选择性采样,抽取输出数据集合中的部分输出数据作为特征值，通过尽量少的特征值反映各神经网络层输出数据的分布，从而简化计算，节约了运算开销，提高运算效率；同时，通过计算各神经网络层对应的特征值集合与符合预设概率分布的第一元素集合之间的相对熵值，得到一个相对熵值集合，实现了数据降维，进一步提高了运算效率；从而提高了故障监测的实时性，实现了对自动驾驶系统中神经网络模型运行故障的实时监测。同时，采用相对熵值对各神经网络层的正常输出数据和异常输出数据的分布差异特性进行描述，区分各神经网络层的正常输出数据与异常输出数据，从而通过m个神经网络层对应的相对熵值集合更加准确地判断待监测神经网络模型是否存在运行故障，提高了故障监测的准确性；此外，可以有效监测神经网络模型的各类运行故障或各类神经网络模型的运行故障，适用范围广。

根据第一方面，在所述第一方面的第一种可能的实现方式中，所述在所述目标输出数据集合中，提取所述各神经网络层对应的特征值集合，包括：确定所述目标输出数据集合中，输出数据的数量最小的第一输出数据集合；根据所述第一输出数据集合中输出数据的数量，在所述各神经网络层对应的输出数据集合中，提取所述各神经网络层对应的特征值集合；其中，所提取的各神经网络层对应的特征值集合中特征值的数量均小于或等于所述第一输出数据集合中输出数据的数量。

基于上述技术方案，考虑到自动驾驶系统中神经网络模型通常较复杂，目标输出数据集合中输出数据的数量较大，在各神经网络层对应的输出数据集合中，自适应提取各神经网络层对应的特征值集合，各神经网络层中提取的特征值的数据均不大于m个神经网络层中任一神经网络层中输出数据的数量，从而简化运算开销，提高后续处理效率，满足对故障监测的实时性要求。

根据第一方面，在所述第一方面的第二种可能的实现方式中，所述在所述目标输出数据集合中，提取所述各神经网络层对应的特征值集合，包括：以所述各神经网络层对应的输出数据集合中输出数据的数量为权重，提取所述各神经网络层对应的特征值集合。

基于上述技术方案，考虑到不同神经网络层中输出数据的数量可能不同，对神经网络模型的工作状态影响也亦不同；根据各个神经网络层对应的输出数据的数量的权重以分配每一神经网络层抽取输出数据的多少，从而实现自适应提取各神经网络对应的特征值集合，所提取的特征值集合能够更加准确地反映各神经网络层的输出数据的分布，同时，通过特征值提取，简化运算开销，提高后续处理效率，满足对故障监测的实时性要求。

根据第一方面或第一方面上述各种可能的实现方式，在所述第一方面的第三种可能的实现方式中，所述根据所述相对熵值集合，判断所述待监测神经网络模型是否存在运行故障，包括：将所述相对熵值集合输入到预设分类模型中，判断所述待监测神经网络模型是否存在运行故障。

在一些示例中，将相对熵值集合输入到预设分类模型中，预设分类模型基于已知的正常输出数据提取出的特征值集合与符合预设概率分布的元素集合之间的相对熵值，以及异常输出数据提取出的特征值集合与符合预设概率分布的元素集合之间的相对熵值，对相对熵值集合进行分类，从而准确判断待监测神经网络模型是否存在运行故障。

根据第一方面的第三种可能的实现方式，在所述第一方面的第四种可能的实现方式中，所述预设分类模型包括基于机器学习的第一分类器；所述将所述相对熵值集合输入到预设分类模型中，判断所述待监测神经网络模型是否存在运行故障，包括：将所述相对熵值集合输入到所述第一分类器中，计算所述相对熵值集合与多个相对熵值样本集合之间的距离；其中，所述多个相对熵值样本集合包括所述待监测神经网络模型发生故障时所述m个神经网络层对应的相对熵值样本集合及所述待监测神经网络模型正常工作时所述m个神经网络层对应的相对熵值样本集合；根据所述相对熵值集合与多个相对熵值样本集合之间的距离，判断所述待监测神经网络模型是否存在运行故障。

基于上述技术方案，利用基于机器学习的第一分类器，无需预先训练，可以根据相对熵值集合与多个相对熵值样本集合之间的距离，更加方便快捷地对相对熵值集合进行自动分类，从而实时判断待监测神经网络模型是否存在运行故障。

根据第一方面的第三种可能的实现方式，在所述第一方面的第五种可能的实现方式中，所述分类模型包括基于深度学习的第二分类器；所述将所述相对熵值集合输入到预设分类模型中，判断所述待监测神经网络模型是否存在运行故障，包括：将所述相对熵值集合输入到所述第二分类器中，判断所述待监测神经网络模型是否存在运行故障；其中，所述第二分类器由多个相对熵值样本集合训练得到。

基于上述技术方案，通过采用基于深度学习的第二分类器，在实时判别相对熵值集合所属类别的同时，有效提高了相对熵值集合分类的准确性，从而更加准确地判断待监测神经网络模型是否存在运行故障。

根据第一方面的第四种或第五种可能的实现方式，在所述第一方面的第六种可能的实现方式中，所述待监测神经网络模型发生故障时所述m个神经网络层对应的相对熵值样本集合，包括：所述m个神经网络层中各神经网络层对应的第一特征值样本集合与符合所述预设概率分布的第二元素集合之间的相对熵值；其中，所述第一特征值样本集合由所述待监测神经网络模型发生故障时，所述各神经网络层对应的输出数据样本集合提取得到；所述待监测神经网络模型正常工作时所述m个神经网络层对应的相对熵值样本集合，包括：所述m个神经网络层中各神经网络层对应的第二特征值样本集合与符合所述预设概率分布的第二元素集合之间的相对熵值；其中，所述第二特征值样本集合由所述待监测神经网络模型正常工作时，所述各神经网络层对应的输出数据样本集合提取得到。

第二方面，本申请的实施例提供了一种自动驾驶系统中神经网络模型故障监测装置，所述装置包括：传输模块，用于获取自动驾驶系统中的待监测神经网络模型的目标输出数据集合，所述目标输出数据集合包括m个神经网络层中各神经网络层对应的输出数据集合，其中，所述待监测神经网络模型包括M个神经网络层，M为大于1的整数，m为大于1且不大于M的整数；处理模块，用于在所述目标输出数据集合中，提取所述各神经网络层对应的特征值集合；计算所述特征值集合与符合预设概率分布的第一元素集合之间的相对熵值，得到所述m个神经网络层对应的相对熵值集合；根据所述相对熵值集合，判断所述待监测神经网络模型是否存在运行故障。

基于上述技术方案，基于蒙特卡洛方法的思想，对各神经网络层的输出数据进行选择性采样,抽取输出数据集合中的部分输出数据作为特征值，通过尽量少的特征值反映各神经网络层输出数据的分布，从而简化计算，节约了运算开销，提高运算效率；同时，通过计算各神经网络层对应的特征值集合与符合预设概率分布的第一元素集合之间的相对熵值，得到一个相对熵值集合，实现了数据降维，进一步提高了运算效率；从而提高了故障监测的实时性，实现了自动驾驶系统中神经网络模型故障的实时监测。同时，采用相对熵值对各神经网络层的正常输出数据和异常输出数据的分布差异特性进行描述，区分各神经网络层的正常输出数据与异常输出数据，从而通过m个神经网络层对应的相对熵值集合更加准确地判断待监测神经网络模型是否存在运行故障，提高了故障监测的准确性。此外，可以有效监测神经网络模型的各类运行故障或各类神经网络模型的运行故障，适用范围广。

根据第二方面，在所述第二方面的第一种可能的实现方式中，所述处理模块，还用于：确定所述目标输出数据集合中，输出数据的数量最小的第一输出数据集合；根据所述第一输出数据集合中输出数据的数量，在所述各神经网络层对应的输出数据集合中，提取所述各神经网络层对应的特征值集合；其中，所提取的各神经网络层对应的特征值集合中特征值的数量均小于或等于所述第一输出数据集合中输出数据的数量。

根据第二方面，在所述第二方面的第二种可能的实现方式中，所述处理模块，还用于：以所述各神经网络层对应的输出数据集合中输出数据的数量为权重，提取所述各神经网络层对应的特征值集合。

基于上述技术方案，考虑到不同神经网络层中输出数据的数量也不同，对神经网络模型的工作状态影响也亦不同；根据各个神经网络层对应的输出数据的数量的权重以分配每一神经网络层抽取输出数据的多少，从而实现自适应提取各神经网络对应的特征值集合，所提取的特征值集合能够更加准确地反映各神经网络层的输出数据的分布，同时，通过特征值提取，简化运算开销，提高后续处理效率，满足对故障监测的实时性要求。

根据第二方面或第二方面上述各种可能的实现方式，在所述第二方面的第三种可能的实现方式中，所述处理模块，还用于：将所述相对熵值集合输入到预设分类模型中，判断所述待监测神经网络模型是否存在运行故障。

根据第二方面的第三种可能的实现方式，在所述第二方面的第四种可能的实现方式中，所述预设分类模型包括基于机器学习的第一分类器；所述处理模块，还用于：将所述相对熵值集合输入到所述第一分类器中，计算所述相对熵值集合与多个相对熵值样本集合之间的距离；其中，所述多个相对熵值样本集合包括所述待监测神经网络模型发生故障时所述m个神经网络层对应的相对熵值样本集合及所述待监测神经网络模型正常工作时所述m个神经网络层对应的相对熵值样本集合；根据所述相对熵值集合与多个相对熵值样本集合之间的距离，判断所述待监测神经网络模型是否存在运行故障。

根据第二方面的第三种可能的实现方式，在所述第二方面的第五种可能的实现方式中，所述分类模型包括基于深度学习的第二分类器；所述处理模块，还用于：将所述相对熵值集合输入到所述第二分类器中，判断所述待监测神经网络模型是否存在运行故障；其中，所述第二分类器由多个相对熵值样本集合训练得到。

根据第二方面的第四种或第五种可能的实现方式，在所述第二方面的第六种可能的实现方式中，所述待监测神经网络模型发生故障时所述m个神经网络层对应的相对熵值样本集合，包括：所述m个神经网络层中各神经网络层对应的第一特征值样本集合与符合所述预设概率分布的第二元素集合之间的相对熵值；其中，所述第一特征值样本集合由所述待监测神经网络模型发生故障时，所述各神经网络层对应的输出数据样本集合提取得到；所述待监测神经网络模型正常工作时所述m个神经网络层对应的相对熵值样本集合，包括：所述m个神经网络层中各神经网络层对应的第二特征值样本集合与符合所述预设概率分布的第二元素集合之间的相对熵值；其中，所述第二特征值样本集合由所述待监测神经网络模型正常工作时，所述各神经网络层对应的输出数据样本集合提取得到。

第三方面，本申请的实施例提供了一种自动驾驶系统中神经网络模型故障监测装置，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令时实现上述第一方面或者第一方面的一种或几种的自动驾驶系统中神经网络故障监测方法。

第四方面，本申请的实施例提供了一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现第一方面或者第一方面的一种或几种的自动驾驶系统中神经网络故障监测方法。

第五方面，本申请的实施例提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行上述第一方面或者第一方面的一种或几种的自动驾驶系统中神经网络故障监测方法。

上述第三方面至第五方面的技术效果，参见上述第一方面或第二方面。

附图说明

图1示出根据本申请一实施例的一种自动驾驶系统的架构示意图；

图2示出根据本申请一实施例的一种对神经网络模型进行故障监测的示意图；

图3示出根据本申请一实施例的一种自动驾驶系统中神经网络模型故障监测方法的流程图；

图4示出了根据本申请一实施例的一种获取相对熵值样本集合的方法流程图；

图5示出根据本申请一实施例的一种自动驾驶系统中神经网络模型故障监测方法的示意图；

图6示出根据本申请一实施例的一种自动驾驶系统中神经网络模型故障监测装置的结构示意图；

图7示出根据本申请一实施例的一种自动驾驶系统中神经网络模型故障监测装置的结构示意图。

具体实施方式

以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

为了更好地理解本申请实施例的方案，下面先对本申请实施例可能涉及的相关术语和概念进行介绍。

1、概率分布

概率分布，是指用于表述随机变量取值的概率规律。如果试验结果用随机变量的取值来表示，则随机试验的概率分布就是随机变量的概率分布，即随机变量的可能取值及取得对应值的概率。根据随机变量所属类型的不同，概率分布可以分为不同的表现形式，例如，高斯分布(又称正态分布(normal distribution))、二项分布、泊松分布、均匀分布、伯努利分布、拉普拉斯分布、指数分布、伽马分布、贝塔分布、多项式分布等等。

2、相对熵

相对熵，又称KL散度(Kullback-Leibler divergence,KLD)，是两个概率分布P和Q差别的非对称性的度量。相对熵可以衡量两个概率分布之间的距离，当两个概率分布相同时，它们的相对熵为零，当两个概率分布的差别增大时，它们的相对熵也相应增大。

典型情况下，P表示数据的真实分布，Q表示数据的理论分布、估计的模型分布、或P的近似分布。则P与Q的相对熵如下述公式(1)所示，

其中，P(i)表示P中第i个元素，Q(i)表示Q中第i个元素；ln(·)表示计算自然对数。

3、蒙特卡洛法

蒙特卡洛法也称统计模拟法或统计试验法，是把概率现象作为研究对象的数值模拟方法；通常按抽样调查法求取统计值来推定未知特性量，在计算仿真中，通过构造一个和系统性能相近似的概率模型，并进行随机试验，可以模拟系统的随机特性。

4、分类器

很多神经网络模型最后都有一个分类器，用于对输入数据进行分类。分类器一般由全连接层(fully connected layer)和softmax函数(可以称为归一化指数函数)组成，能够根据所输入的数据而输出不同的类别或不同类别的概率。

5、多层感知机(multi-layer perceptron，MLP)

MLP是一种前向结构的人工神经网络，映射一组输入向量到一组输出向量。MLP可以被看作是一个有向图，多层感知机的基本结构由多个节点层组成：输入层、中间隐藏层和输出层，每一节点层都全连接到下一节点层。除了输入节点，每个节点都是一个带有非线性激活函数的神经元；MLP遵循人类神经系统原理，学习并进行数据预测，其主要优势在于具备快速解决复杂问题的能力。

6、k近邻算法(k-nearest neighbor，KNN)

KNN算法基本逻辑如下：通过测量不同特征值之间的距离进行分类，该算法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。它的基本思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别，其中K通常是不大于20的整数。KNN算法中，所选择的邻居都是已经正确分类的样本。

7、神经网络模型

神经网络模型是一种运算模型，由大量的节点(或称神经元)之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数(activation function)。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆。神经网络模型的输出则依神经网络模型的连接方式，权重值和激励函数的不同而不同。而神经网络模型自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。神经网络模型通常包括多个神经网络层，其中，每一神经网络层可以包括一个或多个节点。神经网络模型可以分为深度神经网络(Deep Neural Network，DNN)、卷积神经网络(Convolutional Neuron Network，CNN)、循环神经网络(Recurrent Neural Network,RNN)等等。其中，深度神经网络，也称多层神经网络，可以理解为具有很多个隐含层的神经网络模型，其内部的神经网络层可以分为三类：输入层，隐含层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层；层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。卷积神经网络是一种带有卷积结构的神经网络模型；卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器，该特征抽取器可以看作是滤波器；卷积层是指卷积神经网络中对输入数据进行卷积处理的神经元层；在卷积层中，一个神经元可以只与部分邻层神经元连接；一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经元组成；同一特征平面的神经元共享权重，即共享卷积核。

8、神经网络模型故障监测

神经网络模型故障监测是指在神经网络模型推理运算过程中，对神经网络模型可能出现的运行故障进行监测。其中，运行故障可以包括由部署神经网络模型的设备中硬件失效导致的故障，或者由异常输入导致的神经网络模型得到错误的推理结果等等。其中，硬件失效导致的故障一般被统称为软错误(soft errors)；常见的软错误可以分为瞬态错误和永久性错误。其中，瞬态错误与辐射、温度等外界环境的突变以及硬件本身相互的干扰等因素造成的硬件失效有关，瞬态错误的特点是该错误会在某个时段出现后消失，常见的瞬态错误是比特位翻转(bitflip)；常见的永久性错误是置零(stuck-at-0)和置一(stuck-at-one)两种情况，分别与硬件开路和短路造成的硬件失效有关，永久性错误的特征是该错误将会长时间保留在发生位置。

相关技术中，采用冗余设计的方式进行神经网络模型故障监测，如采用三重冗余(triple modular redundancy,TMR)设计，TMR设计中利用多个相同构造的模块并联以执行同样的功能；该方式采用一个预先准备好的查询表以尽可能的收集神经网络模型无故障(error free)情况下所有神经元权重值，在神经网络模型推理运算过程中，若某一权重值不在查询表内，可视为该权重值出现异常，即神经网络模型存在运行故障，进而启动权重值切换状态，将发生错误的神经元中的权重值分配到其他神经元上，起到使用其他神经元取代该错误神经元的作用。或者，采用基于症状的监测器(Symptom-based Error Detectors,SED)进行神经网络模型故障监测，该方式根据神经网络模型中每一神经网络层对应的输出值大小来判别神经网络模型是否存在运行故障；该方式预先在神经网络模型无故障(error free)情况下收集每一神经网络层的多个输出值，根据收集到的多个输出值确定每一神经网络层对应输出值的合理取值范围，在神经网络模型推理运算过程中，若某一神经网络层的输出值超出其对应的合理取值范围的1.1倍时，则可认为该输出值出现错误，从而判定神经网络模型存在运行故障。

上述两种对神经网络模型故障监测的方式均存在自身的局限性。其中，采用冗余设计的方式只适用于多层感知网络，即输入数据未通过卷积、池化等方式降维；当对具有卷积层和池化层的神经网络模型可能出现的故障进行监测时，该方式由于采用权重值查找表设计，无法对卷积层或池化层进行有效监测；且该方式只能监测部分stuck-at-one和bitflip的错误；此外，针对较复杂的神经网络模型，该方式运算成本较大，无法保证故障监测的实时性，例如，神经网络模型Alexnet中输入层就有3000个以上的权重，预先收集Alexnet所有神经元的权重值，收集查询表难度及运算开销较大，在利用查询表对Alexnet进行故障监测时，由于权重数量及查询表中权重值数量庞大，查询速率较慢，无法适用于自动驾驶系统等对故障监测实时性要求高的场景。采用SED的方式，通过单纯的枚举式算法提取每一神经网络层的最大输出值及最小输出值，以得到每一神经网络层对应输出值的合理取值范围，针对较复杂的神经网络模型，该方式运算开销非常巨大，例如，在Alexnet中，考虑每个神经元、池化层以及全连接层的输出值，总计会有超过十万个以上的单个神经元的输出值，以卷积层为例，就有超过15000个输出值，因此，收集每一神经网络层的输出值会带来庞大的运算开销，在对Alexnet进行故障监测时，由于输出值数量巨大，造成故障监测的延迟，无法适用于自动驾驶系统等对故障监测实时性要求高的场景；此外，该方式只能监测瞬态错误的发生情况，而对于置零和置一，由于隐藏层在这两种情况下，最大输出值不会发生明显变化，因而无法监测永久性错误。

由于上述两种对神经网络模型故障监测的方式所存在的局限性。本申请实施例提供了一种神经网络模型故障监测方法(详细描述参见下文)，可以应用于配置有神经网络模型的场景，例如，自动驾驶车辆、车载设备或车载系统(如自动驾驶系统(Automated Driving System，ADS)或高级驾驶辅助系统(Advanced Driver Assistant Systems，ADAS)等部署有神经网络模型的场景，大规模部署的深度学习训练服务器，物联网(Internet of Things，IoT)设备中采用神经网络模型进行物体识别、语义识别等场景，安防设备中采用神经网络模型进行车辆检测、物体检测等场景。本申请实施例提供的神经网络模型故障监测方法，可以准确监测上述场景中所配置的各类神经网络模型出现的多种运行故障；尤其针对自动驾驶系统等对故障监测实时性要求高的场景，可以实现实时故障监测，满足自动驾驶等场景对实时性的要求。

为了便于描述，以对自动驾驶系统中神经网络模型进行故障监测为例，对本申请实施例提供的神经网络模型故障监测方法进行示例性地说明。

图1示出根据本申请一实施例的一种自动驾驶系统的架构示意图；如图1所示，自动驾驶系统可以包括：感知模块(perception layer)、规划与决策模块(planning&decision)、传动控制模块(motion controller)。

其中，感知模块用于感知车辆周围环境或车内环境，可以综合车载传感器，例如摄像头、激光雷达、毫米波雷达、超声波雷达、光线传感器等所采集的车辆周围或车舱内的数据，感知车辆周围环境或车内环境，并可以将感知结果传输到规划与决策模块。示例性地，车载传感器所采集的车辆周围或车舱内的数据可以包括视频流、雷达的点云数据或者是经过分析的结构化的人、车、物的位置、速度、转向角度、尺寸大小等信息或数据。感知模块可以通过神经网络模型，对车载传感器所采集的车辆周围或车舱内的数据进行处理，实现环境感知，示例性地，该神经网络模型可以部署在车载计算平台或AI加速器等处理设备中。作为一个示例，感知模块可以获取车载摄像头所采集的车辆周围环境的图像，利用用于图像识别的深度神经网络模型对该图像进行处理，从而可以识别图像中行人、车道线、车辆、障碍物、交通指示灯等等对象。

规划与决策模块用于基于感知模块所生成的感知结果进行分析决策，规划生成满足特定约束条件(例如车辆本身的动力学约束、避免碰撞、乘客舒适性等)的控制集合；并可以将该控制集合传输到传动控制模块。作为一个示例，规划与决策模块可以利用用于生成轨迹的神经网络模型，对感知结果及约束条件进行处理，生成控制集合；示例性地，该神经网络模型可以部署在车载计算平台或AI加速器等处理设备中。

传动控制模块用于按照规划与决策模块所生成的控制集合，控制车辆行驶；例如，可以基于控制集合，结合车辆的动力学信息，生成方向盘转角、速度、加速度等控制信号，并控制车载转向系统或发动机等执行该控制信号，从而实现控制车辆行驶。

示例性地，自动驾驶系统还可以包括其他功能模块；例如，定位模块、交互模块、通信模块等等(图中未示出)，对此不作限定。其中，定位模块可以用于提供车辆的位置信息，还可以提供车辆的姿态信息。示例性地，定位模块可以包括卫星导航系统(Global Navigation Satellite System，GNSS)、惯性导航系统(Inertial Navigation System，INS)等等，可以用于确定车辆的位置信息。交互模块可以用于向驾驶员发出信息及接收驾驶员的指令。通信模块可以用于车辆与其他设备通信，其中，其他设备可以包括移动终端、云端设备、其他车辆、路侧设备等等，可以通过2G/3G/4G/5G、蓝牙、调频(frequency modulation，FM)、无线局域网(wireless local area networks，WLAN)、长期演进(long time evolution，LTE)、车与任何事物相通信(vehicle to everything，V2X)、车与车通信(Vehicle to Vehicle，V2V)、长期演进-车辆(long time evolution vehicle，LTE-V)等无线通信连接来实现。

本申请实施例提供的自动驾驶系统中神经网络模型故障监测方法可以由神经网络模型故障监测装置执行，作为一个示例，以对图1中感知模块中用于图像识别的深度神经网络模型进行故障监测为例，图2示出根据本申请一实施例的一种对神经网络模型进行故障监测的示意图；如图2所示，神经网络模型故障监测装置可以获取自动驾驶系统感知模块中用于图像识别的深度神经网络模型对一帧图像进行识别的过程中生成中间数据，执行本申请实施例中神经网络模型故障监测方法(详细描述参见下文)，对该深度神经网络模型进行实时准确的故障监测，并将故障监测结果实时反馈到感知模块，以便感知模块判断是否将当前的识别结果传递到规划与决策模块。例如，可以反馈感知模块，神经网络模型工作正常，以使感知模块可以将对该帧图像的识别结果传递给规划与决策模块；或者，可以反馈感知模块，神经网络故障，以使感知模块丢弃该帧图像的识别结果。

本申请实施例不限定该神经网络模型故障监测装置的类型。

示例性地，该神经网络模型故障监测装置可以是独立设置，也可以集成在其他装置中，还可以是通过软件或者软件与硬件结合实现。

示例性地，该神经网络模型故障监测装置可以为自动驾驶车辆，或者自动驾驶车辆中的其他部件。其中，该神经网络模型故障监测装置包括但不限于：车载终端、车载控制器、车载模块、车载模组、车载部件、车载芯片、车载单元、车载雷达或车载摄像头等等。作为一个示例，该神经网络模型故障监测装置可以集成在自动驾驶车辆的车载计算平台或AI加速器等处理设备中。

示例性地，该神经网络模型故障监测装置还可以为除了自动驾驶车辆之外的其他具有数据处理能力的智能终端，或设置在智能终端中的部件或者芯片。

示例性地，该神经网络模型故障监测装置可以是一个通用设备或者是一个专用设备。例如，该装置还可以台式机、便携式电脑、网络服务器、掌上电脑(personal digital assistant，PDA)、移动手机、平板电脑、无线终端设备、嵌入式设备或其他具有数据处理功能的设备，或者为这些设备内的部件或者芯片。

示例性地，该神经网络模型故障监测装置还可以是具有处理功能的芯片或处理器，该故障监测装置可以包括多个处理器。处理器可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。

需要说明的是，本申请实施例描述的上述应用场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，针对其他相似的或新的场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

下面对本申请实施例提供的自动驾驶系统中神经网络模型故障监测方法进行详细说明。

图3示出根据本申请一实施例的一种自动驾驶系统中神经网络模型故障监测方法的流程图，该可以方法可以由上述图2中神经网络模型故障监测装置执行，如图3所示，可以包括以下步骤：

步骤301、获取自动驾驶系统中的待监测神经网络模型的目标输出数据集合。

其中，待监测神经网络模型可以为自动驾驶系统中任一神经网络模型，例如，可以为感知模块中所配置的用于图像识别的深度神经网络模型或用于语音识别的神经网络模型等等，还可以为规划与决策模块中所配置的用于生成控制集合的神经网络模型，等等。

需要说明的是，本申请实施例中不限制神经网络模型的类型，例如，可以为深度神经网络、卷积神经网络、循环神经网络等等。

其中，目标输出数据集合可以包括m个神经网络层中各神经网络层对应的输出数据集合，待监测神经网络模型包括M个神经网络层，M为大于1的整数，m为大于1且不大于M的整数。示例性地，对于任一神经网络层，该神经网络层对应的输出数据集合中包括待监测神经网络模型推理过程中，该神经网络层中所有节点所输出的数据。其中，m的具体数值可以根据待监测神经网络模型的规模和/或实际运算资源的多少等进行预先设定；示例性地，可以将m的数值设置为接近M，即获取尽可能多的神经网络层对应的输出数据集合，从而提高监测精确度，例如，当m与M取值相同时，则表示神经网络模型故障监测装置获取待监测神经网络模型中所有神经网络层对应的输出数据集合；还可以将m的数值设置为较小值，即获取少量的神经网络层对应的输出数据集合，从而节约运算资源，提高处理效率，更好地满足实时性要求。

作为一个示例，待监测神经网络模型可以为自动驾驶系统感知模块中用于图像识别的卷积神经网络，该卷积神经网络可以包括若干卷积层、池化层、全连接层等等神经网络层，感知模块采集的图像输入到该卷积神经网络中，经过卷积层、池化层、全连接层处理后，输出图像识别结果；其中，每一卷积层可以包括一个或多个卷积核，每一卷积核均可以提取对应的特征图，则该卷积神经网络的目标输出数据集合可以包括各卷积层中所有卷积核所提取的特征图。

步骤302、在目标输出数据集合中，提取各神经网络层对应的特征值集合。

其中，对于任一神经网络层，该神经网络层对应的特征值集合中可以包括一个或多个该神经网络层对应的特征值。示例性地，针对m个神经网络层中任一神经网络层，可以在该神经网络层对应的输出数据集合中提取输出数据作为特征值，从而得到该神经网络层对应的特征值集合。其中，所提取的输出数据的数量，可以根据需求预先设定，示例性地，不同神经网络层所提取出的输出数据的数量可以相同，也可以不同，对此不作限定。该步骤可以理解为特征工程的提取，通过提取尽量少输出数据作为特征值以尽可能全面地反映各神经网络层的输出数据的分布。

示例性地，针对m个神经网络层中任一神经网络层，可以按照预设概率分布的方式在该神经网络层对应的输出数据集合中提取输出数据作为特征值，从而得到该神经网络层对应的特征值集合；例如，可以按照高斯分布的方式在该神经网络层对应的输出数据集合中提取部分输出数据作为特征值，从而得到该神经网络层对应的特征值集合。

下面对提取各神经网络层对应的特征值集合的可能实现方式进行举例说明。

方式一、确定目标输出数据集合中，输出数据的数量最小的第一输出数据集合；根据第一输出数据集合中输出数据的数量，在各神经网络层对应的输出数据集合中，提取各神经网络层对应的特征值集合；其中，所提取的各神经网络层对应的特征值集合中特征值的数量均小于或等于第一输出数据集合中输出数据的数量。

示例性地，可以根据第一输出数据集合中输出数据的数量，确定各神经网络层待提取的输出数据的数量，进而在各神经网络层中提取该数量的输出数据作为特征值，得到各神经网络层对应的特征值集合。

考虑到自动驾驶系统中神经网络模型通常较复杂，目标输出数据集合中输出数据的数量较大，该方式中，在各神经网络层对应的输出数据集合中，自适应提取各神经网络层对应的特征值集合，各神经网络层中提取的特征值的数据均不大于m个神经网络层中任一神经网络层中输出数据的数量，从而简化运算开销，提高后续处理效率，满足对故障监测的实时性要求。

作为一个示例，可以预设采样系数，根据采样系数及第一输出数据集合中输出数据的数量，确定各神经网络层待提取的输出数据的数量；例如，可以通过下述公式(2)确定各神经网络层待提取的输出数据的数量n：

n＝α*n _tmp..................................(2)

在公式(2)中，n _tmp表示第一输出数据集合中输出数据的数量，α表示采样系数，α的取值范围为[0,1]。

其中，采样系数α用来平衡对待监测神经网络模型进行故障监测的复杂度和精确度，可以根据实际需求设置采样系数的具体数值；例如，可以对监测精确度要求较高的情况下，将α设置为较高数值，即针对每一神经网络层，在对应的输出数据集合中提取较多数量的输出数据，作为该神经网络层对应的特征值；可以在监测精确度要求不太高的情况下，将α值设置为较小值，即针对每一神经网络层，在对应的输出数据集合中提取较少数量的输出数据，作为该神经网络层对应的特征值，从而节约运算资源，提高处理效率，更好地满足实时性要求。

示例性地，α可以取10％。示例性地，当α*n _tmp的值为非整数时，则可以将α*n _tmp向下取整，从而得到n。

其中，n _tmp可以通过下述公式(3)确定：

n _tmp＝min _i∈mφ(i)...................(3)

在公式(3)中，φ(i)表示m个神经网络层中第i个神经网络层对应的输出数据集合中输出数据的数量。

这样，根据上述公式(2)及公式(3)可以确定各神经网络层待提取的输出数据的数量，即特征值集合中特征值的数量。作为一个示例，可以将输出数据的数量最小的第一输出数据集合中所包含的输出数据总数的10％作为各神经网络层待提取的输出数据的数量，从而简化运算开销，提高后续处理效率。

方式二、以各神经网络层对应的输出数据集合中输出数据的数量为权重，提取各神经网络层对应的特征值集合。

考虑到不同神经网络层中输出数据的数量也不同，对神经网络模型的工作状态影响也亦不同；因此，每一神经网络层所提取的特征值的数量的可以做适当的变化，该方式中，可以根据各个神经网络层对应的输出数据的数量的权重以分配每一神经网络层抽取输出数据的多少，即神经网络层对应的输出数据的数量越多，则提取越多数量的输出数据作为特征值；相应的，神经网络层对应的输出数据的数量越少，则提取越少数量的输出数据作为特征值；从而实现自适应提取各神经网络对应的特征值集合，所提取的特征值集合能够更加准确地反映各神经网络层的输出数据的分布，同时，通过特征值提取，简化运算开销，提高后续处理效率，满足对故障监测的实时性要求。

步骤303、计算各神经网络层对应的特征值集合与符合预设概率分布的第一元素集合之间的相对熵值，得到m个神经网络层对应的相对熵值集合。

其中，第一元素集合可以包括符合预设概率分布的多个元素，第一元素集合可以为实时生成的也可以为预存的；示例性地，可以实时生成预设数量的服从预设概率分布的随机数，该预设数量的随机数即组成第一元素集合；示例性地，预设概率分布可以为高斯分布。

示例性地，针对m个神经网络层中任一神经网络层，可以得到该神经网络层对应的特征值集合与符合预设概率分布的第一元素集合之间的相对熵值，该相对熵值为一实数，其数值大小表示该神经网络层对应的特征值集合中各特征值所组成的分布与预设概率分布的差异性。这样，遍历m个神经网络层中所有神经网络层，计算得到各神经网络层与第一元素集合之间的相对熵值，即得到多个实数，从而得到相对熵值集合；其中，相对熵值集合中各相对熵值可以表示m个神经网络层中各神经网络层对应的特征值集合中各特征值所组成的分布与预设概率分布的差异性。同时，利用各神经网络层对应的特征值集合，得到一个相对熵值集合，实现了数据降维，进一步提高了运算效率。

步骤304、根据m个神经网络层对应的相对熵值集合，判断待监测神经网络模型是否存在运行故障。

神经网络模型正常工作时推理过程中各神经网络层的正常输出数据提取出的特征值集合与符合预设概率分布的第一元素集合之间的相对熵值，可以表示各神经网络层的正常输出数据与第一元素集合之间的差异；神经网络模型发生故障时推理过程中各神经网络层的异常输出数据提取出的特征值集合与符合预设概率分布的第一元素集合之间的相对熵值，可以表示各神经网络层的异常输出数据与第一元素集合之间的差异；由于各神经网络层的正常输出数据与各神经网络层的异常输出数据存在不同，相应的，各神经网络层的正常输出数据与第一元素集合之间的相对熵值，不同于该神经网络层的异常输出数据与第一元素集合之间的相对熵值，因此，利用相对熵值，可以区分神经网络模型正常工作时推理过程中各神经网络层的正常输出数据，与神经网络模型发生故障时推理过程中各神经网络层的异常输出数据。此外，各神经网络层的输出数据集合(例如，正常输出数据或异常输出数据)中数据量通常较大，即输出数据集合在数据空间中分布较广，利用不同的相对熵值区分不同的输出数据集合，即相对熵值与数据空间中分布较广的输出数据集合存在对应关系，从而通过不同相对熵值将数据空间中不同输出数据集合的差异性拉开，并降低不同输出数据集合的耦合程度。该步骤中，不同于直接根据神经网络模型推理过程中的各神经网络层的输出数据判断待监测神经网络模型是否存在运行故障，通过m个神经网络层对应的相对熵值集合，区分各神经网络层的正常输出数据与异常输出数据，从而更加准确地判断待监测神经网络模型是否存在运行故障。例如，若各神经网络层的正常输出数据与各神经网络层的异常输出数据的差异较小，两者的差异不易直接区分；而正常输出数据提取出的特征值集合与符合预设概率分布的第一元素集合之间的相对熵值，和异常输出数据提取出的特征值集合与符合预设概率分布的第一元素集合之间的相对熵值不同，通过相对熵值区分正常输出数据与异常输出数据，从而准确判断待监测神经网络模型是否存在运行故障。

在一种可能的实现方式中，该步骤可以包括：将m个神经网络层对应的相对熵值集合输入到预设分类模型中，判断所述待监测神经网络模型是否存在运行故障。

示例性地，预设分类模型可以根据相对熵值集合中各相对熵值的大小，自动对相对熵值集合进行分类，准确确定相对熵值集合所属类别；其中，所属类别可以包括待监测神经网络模型正常工作及待监测神经网络模型发生故障；示例性地，将相对熵值集合输入到预设分类模型中，预设分类模型基于已知的正常输出数据提取出的特征值集合与符合预设概率分布的元素集合之间的相对熵值，以及异常输出数据提取出的特征值集合与符合预设概率分布的元素集合之间的相对熵值，对相对熵值集合进行分类，从而准确判断待监测神经网络模型是否存在运行故障。

示例性地，预设分类模型可以包括基于机器学习的第一分类器或基于深度学习的第二分类器等等；例如，第一分类器可以为KNN，第二分类器可以为MLP等等。

本申请实施例所提供的自动驾驶系统中神经网络模型故障监测方法，具有运算开销小、实时性高、准确性高、适用范围广等特点。

本申请实施例中，考虑到自动驾驶系统中神经网络模型的复杂性，所包含的神经网络层的数量通常较多，对应的输出数据的数量较大，因此，基于蒙特卡洛方法的思想，对各神经网络层的输出数据进行选择性采样,抽取输出数据集合中的部分输出数据作为特征值，所抽取的特征值分布可以作为目标输出数据集合中各神经网络层输出数据的分布的估计，即通过尽量少的特征值反映各神经网络层输出数据的分布，从而简化计算，节约了运算开销，提高运算效率；同时，通过计算各神经网络层对应的特征值集合与符合预设概率分布的第一元素集合之间的相对熵值，得到一个相对熵值集合，实现了数据降维，进一步提高了运算效率；从而提高了故障监测的实时性，实现了自动驾驶系统中神经网络模型故障的实时监测。

本申请实施例中，采用相对熵值对各神经网络层的正常输出数据和异常输出数据的分布差异特性进行描述，通过m个神经网络层对应的相对熵值集合，区分各神经网络层的正常输出数据与异常输出数据，从而根据相对熵值集合，更加准确地判断待监测神经网络模型是否存在运行故障，提高了故障监测的准确性。例如，针对用于Alexnet，相较于SED的故障监测方式，在同样500个错误出现在Alexnet时，本申请实施例对Alexnet故障监测的准确度有较大的提升。

本申请实施例中，可以有效监测神经网络模型的各类运行故障或各类神经网络模型的运行故障，适用范围广；例如，可以监测深度神经网络模型、卷积神经网络模型等各类神经网络模型的运行故障；再例如，可以实时监测自动驾驶系统中由于车载计算平台或AI加速器等部署待监测神经网络模型的设备中硬件失效所导致的待监测神经网络模型运行故障，包括瞬时故障、永久性故障等；还可以实时监测自动驾驶系统中异常输入导致的待监测神经网络模型运行故障，从而提升车载计算平台或AI加速器等的安全性。此外，还可以确定可能发生故障的神经网络层的范围，即可以确定该m个神经网络层中一个或多个神经网络层导致待监测神经网络模型出现运行故障。

下面对上述步骤304中，根据相对熵值集合，判断待监测神经网络模型是否存在运行故障的可能实现方式进行举例说明。

方式一、以预设分类模型为基于机器学习的第一分类器为例，可以将相对熵值集合输入到第一分类器中，计算相对熵值集合与多个相对熵值样本集合之间的距离；根据相对熵值集合与多个相对熵值样本集合之间的距离，判断待监测神经网络模型是否存在运行故障。

其中，多个相对熵值样本集合可以包括待监测神经网络模型发生故障时m个神经网络层对应的相对熵值样本集合及待监测神经网络模型正常工作时m个神经网络层对应的相对熵值样本集合。

示例性地，多个相对熵值样本集合可以在预先采样得到，即每一相对熵值样本集合所属类别是已知的，其中，类别可以分为待监测神经网络模型正常工作和待监测神经网络模型发生故障。相对熵值集合与多个相对熵值样本集合之间的距离的大小可以表示相对熵值集合与多个相对熵值样本集合中各相对熵值样本集合的差异程度；例如，若相对熵值集合与某一相对熵值样本集合之间的距离越大，则表示相对熵值集合与该相对熵值样本集合的差异越大，相应的，相对熵值集合与该相对熵值样本集合属于同一类别的可能性越低。若相对熵值集合与某一相对熵值样本集合之间的距离越小，则表示相对熵值集合与该相对熵值样本集合的差异越小，相应的，相对熵值集合与该相对熵值样本集合越有可能属于同一类别。

示例性地，可以将相对熵值集合输入到第一分类器中，第一分类器计算相对熵值集合与多个相对熵值样本集合之间的距离，从而可以将不同类别的相对熵值样本集合在特征空间进行划分，则可认为相对熵值集合与所划分出的与相对熵值集合距离最近的一个或多个相对熵值样本集合更有可能同属一个类别，进而根据该一个或多个相对熵值样本集合中多数相对熵值样本集合所属类别，判断待监测神经网络模型是否存在运行故障。

作为一个示例，以第一分类器为KNN分类器为例，将相对熵值集合输入到KNN分类器中，KNN分类器可以自动计算相对熵值集合与多个相对熵值样本集合中各相对阈值样本集合的距离，并选取与相对熵值集合距离最近的K个相对熵值样本集合，按照多数投票的方式将K个相对熵值样本集合中多数相对熵值样本集合所属类别作为该相对熵值集合的类别；若该相对熵值集合的类别为待监测神经网络模型发生故障，则可判断待监测神经网络模型存在运行故障；若该相对熵值集合类别为待监测神经网络模型正常工作，则可判断待监测神经网络模型不存在运行故障。这样，利用基于机器学习的第一分类器，无需预先训练，可以根据相对熵值集合与多个相对熵值样本集合之间的距离，更加方便快捷地对相对熵值集合进行自动分类，从而实时判断待监测神经网络模型是否存在运行故障。

方式二、以预设分类模型为基于深度学习的第二分类器为例，可以将相对熵值集合输入到第二分类器中，判断待监测神经网络模型是否存在运行故障；其中，第二分类器由多个相对熵值样本集合训练得到。

示例性地，可以根据多个相对熵值样本集合及已知的各相对熵值样本集合所属类别预先对第二分类器进行训练，经过训练，第二分类器可以准确区分不同类别的相对熵值集合。进而在进行故障监测时，可以将相对熵值集合输入到训练后的第二分类器中，第二分类器可以自动判别相对熵值集合所属类别，从而准确判断待监测神经网络模型是否存在运行故障；这样，通过采用基于深度学习的第二分类器，在实时判别相对熵值集合所属类别的同时，有效提高了相对熵值集合分类的准确性，从而更加准确地判断待监测神经网络模型是否存在运行故障。

作为一个示例，以第二分类器为MLP为例，其中，MLP的拓扑结构可以根据相对熵值集合中相对熵值的数量及分类类别多少进行设置；例如，MLP的拓扑结构可以为(n-20-2)，其中，n表示输入到MLP输入层的相对熵值集合中相对熵值的数量；20表示MLP隐藏层的数量，2表示MLP输出层所输出的两个类别，即待监测神经网络模型出现故障及待监测神经网络模型正常工作。在训练阶段，利用多个相对熵值样本集合作为训练样本对MLP进行训练，其中，待监测神经网络模型发生故障时m个神经网络层对应的相对熵值样本集合可以作为负样本，待监测神经网络模型正常工作时m个神经网络层对应的相对熵值样本集合可以作为正样本；将训练样本及对应的类别标签输入到MLP中，训练MLP中的权重参数，例如，可以将一个训练样本输入到MLP中，MLP输出该训练样本的类别，根据该类别与该训练样本的类别标签，确定损失函数值，进行根据损失函数值进行反向传播，调整MLP中的权重参数；利用多个训练样本，重复上述训练过程，直至达到收敛，固定收敛时MLP中的权重参数，得到经过训练的MLP。在故障监测阶段，将相对熵值集合输入到上述经过训练的MLP中，MLP可以自动输出相对熵值集合所属类别，从而实时准确地判断当前待监测神经网络模型是否出现运行故障。作为一个示例，针对用于图像识别的Alexnet，在采用训练后的MLP判断Alexnet是否存在运行故障时，相比于采用SED的方式，判断准确率提高约15％。

需要说明的是，上述KNN及MLP仅为示例，可以根据需要采用其他分类器作为分类模型，对此不作限定。

示例性地，待监测神经网络模型发生故障时m个神经网络层对应的相对熵值样本集合，可以包括：m个神经网络层中各神经网络层对应的第一特征值样本集合与符合预设概率分布的第二元素集合之间的相对熵值；其中，第一特征值样本集合由待监测神经网络模型发生故障时，各神经网络层对应的输出数据样本集合提取得到；待监测神经网络模型正常工作时m个神经网络层对应的相对熵值样本集合，可以包括：m个神经网络层中各神经网络层对应的第二特征值样本集合与符合预设概率分布的第二元素集合之间的相对熵值；其中，第二特征值样本集合由待监测神经网络模型正常工作时，各神经网络层对应的输出数据样本集合提取得到。

示例性地，第二元素集合可以与上述第一元素集合相同；可以理解的是，可以预先确定符合预设概率分布的元素集合，即第二元素集合，并在故障监测阶段，采用该符合预设概率分布的元素集合作为第一元素集合。

可以理解的是，可以根据不同的场景，针对不同的待监测神经网络模型，预先生成相应的相对熵值样本集合。

图4示出了根据本申请一实施例的一种获取相对熵值样本集合的方法流程图，如图4所示，可以包括以下步骤：

步骤401、分别获取待监测神经网络模型发生故障时及正常工作时，待监测神经网络模型中至少一个神经网络层对应的输出数据样本集合。

作为一个示例，可以获取待监测神经网络模型正常工作时，待监测神经网络模型m个神经网络层中各神经网络层对应的输出数据样本集合。

以神经网络模型为感知模块中用于图像识别的深度神经网络模型为例，针对车载摄像头采集的一张原始图像中，预先标注该原始图像中对象为行人，将该原始图像输入到待监测神经网络模型中，待监测神经网络模型通过推理，判别该原始图像中所包含的对象为行人，则收集该推理过程中各神经网络层的输出数据，作为待监测神经网络模型正常工作时，m个神经网络层中各神经网络层对应的一个输出数据样本集合。相似的，可以依次采用不同的原始图像，并相应的收集每次推理过程中各神经网络层的输出数据，从而得到待监测神经网络模型正常工作时，m个神经网络层中各神经网络层对应的多个输出数据样本集合。

作为另一个示例，可以通过故障注入的方式，模拟待监测神经网络模型推理过程中发生故障，从而获取待监测神经网络模型发生故障时，待监测神经网络模型中m个神经网络层中各神经网络层对应的输出数据样本集合。

以神经网络模型为感知模块中用于图像识别的深度神经网络模型为例，针对车载摄像头采集的一张原始图像中，预先标注原始图像中对象为行人，将该原始图像输入到待监测神经网络模型中，可以注入一个故障，待监测神经网络模型通过推理，判别该原始图像中所包含对象并非行人，则收集该推理过程中各神经网络层的输出数据，从而作为待监测神经网络模型发生故障时，m个神经网络层中各神经网络层对应的一个输出数据样本集合。相似的，可以依次注入不同的故障或者采用不同的原始图像，待监测神经网络模型进行多次推理计算，并相应的收集每次推理过程中各神经网络层的输出数据，从而得到待监测神经网络模型发生故障时，m个神经网络层中各神经网络层对应的多个输出数据样本集合。

作为另一个示例，可以通过生成对抗样本的方式，获取待监测神经网络模型发生故障时，待监测神经网络模型中m个神经网络层中各神经网络层对应的输出数据样本集合。其中，对抗样本表示待监测神经网络模型无法对其进行正常推理的输入数据。

以神经网络模型为感知模块中用于图像识别的深度神经网络模型为例，针对车载摄像头采集的一帧原始图像中，预先标注原始图像中对象为行人，通过在该原始图像中添加非常少量的精心构造的噪声，从而得到对抗图像，人眼通常无法区分该对抗图像与原始图像，待监测神经网络模型可能会对该对抗图像中对象进行错误分类，例如，可能会判定该对抗图像中包含的对象非行人，从而发生错误；则收集该推理过程中各神经网络层的输出数据，作为待监测神经网络模型发生故障时，m个神经网络层中各神经网络层对应的一个输出数据样本集合。相似的，可以生成不同的对抗图像，并相应的收集每次推理过程中各神经网络层的输出数据，从而得到待监测神经网络模型发生故障时，m个神经网络层中各神经网络层对应的多个输出数据样本集合。

步骤402、在至少一个神经网络层对应的输出数据样本集合，提取至少一个神经网络层对应的特征值样本集合。

该步骤中，提取特征值样本集合的方式可参照上述步骤303中相关表述，在此不再赘述。例如，可以通过上公式(1)和(2)确定特征值样本集合中特征值样本的数量。示例性地，可以根据需求设置采样系数的取值，例如，可以设置较小的采样系数，降低特征值样本集合中特征值样本的数量，从而有效提升第二分类器的训练效率，实现在少量数据下，训练得到第二分类器，有效节约运算资源；或者，可以有效提升第一分类器对相对熵值集合进行自动分类的效率，更好地满足故障监测实时性要求。

示例性地，可以在上述所获取的待监测神经网络模型发生故障时，m个神经网络层中各神经网络层对应的输出数据样本集合中，提取各神经网络层对应的第一特征值样本集合；可以在上述所获取的待监测神经网络模型正常工作时，m个神经网络层中各神经网络层对应的输出数据样本集合中，提取各神经网络层对应的第二特征值样本集合。

示例性地，针对m个神经网络层中任一神经网络层，可以按照预设概率分布的方式在该神经网络层对应的输出数据样本集合中提取输出数据样本作为特征值样本，从而得到该神经网络层对应的特征值样本集合，提高了分类模型的鲁棒性。

步骤403、计算至少一个神经网络层对应的特征值样本集合与符合预设概率分布的第二元素集合之间的相对熵值，得到相对熵值样本集合。

示例性地，可以计算各神经网络层对应的第一特征值样本集合与第二元素集合之间的相对熵值，得到待监测神经网络模型发生故障时m个神经网络层对应的相对熵值样本集合；可以计算各神经网络层对应的第二特征值样本集合与第二元素集合之间的相对熵值，得到待监测神经网络模型正常工作时m个神经网络层对应的相对熵值样本集合。

示例性地，还可以标注相对熵值样本集合所属类别，其中，待监测神经网络模型发生故障时m个神经网络层对应的相对熵值样本集合所属类别可以标注为待监测神经网络模型发生故障，待监测神经网络模型正常工作时m个神经网络层对应的相对熵值样本集合所属类别可以标注为待监测神经网络模型正常工作。

作为一个示例，可以利用得到相对熵值样本集合，采样基于机器学习的第一分类器，判断待监测神经网络模型是否存在运行故障；作为另一个示例，可以利用得到的相对熵值样本集合，对深度学习的第二分类器进行训练，从而利用少量相对熵值样本训练得到第二分类器，有效节约运算资源。

此外，本申请实施例所提供的方法具有较强的拓展性，还可以在上述实施例的基础上，结合现有技术，分析神经网络模型内部结果，做结构无视化分析(model-agnostic analysis)等；或者，可以在更多相对熵值样本集合的支持下，实现对运行故障进行更多层次的分类。

下面以待监测神经网络模型为自动驾驶系统感知模块中用于图像识别的深度神经网络模型为例，对上述图3所示的神经网络模型故障监测方法进行示例性地说明。

图5示出根据本申请一实施例的一种自动驾驶系统中神经网络模型故障监测方法的示意图，如图5所示，感知模块中用于图像识别的深度神经网络模型可以部署在车载计算平台或AI加速器中，在自动驾驶系统工作过程中，感知模块可以获取车载摄像头采集的每帧图像后，利用用于图像识别的深度神经网络模型进行推理，输出识别结果。针对任一帧图像，神经网络模型故障监测装置可以执行上述步骤301，从而获取用于图像识别的深度神经网络模型对该帧图像的处理过程中，该神经网络模型中m个神经网络层中各神经网络层对应的输出数据集合。

进而，神经网络模型故障监测装置可以执行上述步骤302，在m个神经网络层中各神经网络层对应的输出数据集合中，提取各神经网络层对应的特征值集合。

示例性地，针对任一神经网络层，其对应的特征值集合可以以特征值向量的形式表示；作为一个示例，对第m个神经网络层中抽取n个特征值，可以得到特征值向量 Am：

在公式(4)中，

分别表示提取的特征值，n表示特征值的数量，m表示神经网络层的数量。

示例性地，针对各神经网络层，可以提取相同数量的输出数据作为各神经网络层对应的特征值集合；则所得到的各神经网络层对应的特征值集合如下述公式(5)所示：

在公式(5)中，A1、A2…Am表示向量m个神经网络层对应的特征值集合。A为m行n列的特征值矩阵，该特征值矩阵中包括各神经网络层对应的特征值集合。

该特征值矩阵基于蒙特卡洛思想构建，以反映用于图像识别的深度神经网络模型的运行状态，其中，用于图像识别的深度神经网络模型在进行推理运算过程中，会产生大量中间计算数据，即各神经网络层对应的输出数据，通过对输出数据进行采用实验，即生成特征值矩阵，从而建立对各神经网络层对应的输出数据的估计量。

进一步地，神经网络模型故障监测装置可以执行上述步骤303，计算各神经网络层对应的特征值集合与符合高斯分布的第一元素集合之间的相对熵值，得到m个神经网络层对应的相对熵值集合。

示例性地，第一元素集合可以以参考矩阵的形式表示；相对熵值集合可以以相对熵值矩阵的形式表示。

作为一个示例，参考矩阵G可以如下述公式(6)所示：

G＝[g1 g2 g3…gn]......................(6)

在上述公式(6)中，g1,g2,…,gn分别表示一个服从标准正态分布(N～(0，1))的随机数；即参考矩阵G包括符合高斯分布的第一元素集合。

作为一个示例，可以根据特征值矩阵及参考矩阵，确定相对熵矩阵；示例性地，可以结合公式(4)及公式(6)，得到特征值向量Am与参考矩阵G的相对熵值KLm，如下述公式(7)所述：

在公式(7)中，A _m(i)表示特征值向量Am的第i个元素，G(i)表示参考矩阵中第i个元素；ln(·)表示计算自然对数；∑ _n(·)表示对n个数据求和。

参照公式(7)，针对公式(5)中任一特征值向量，求取与公式(6)所述的参考矩阵的相对熵值，可得相对熵值矩阵KL：

KL＝[KL ₁ KL ₂…KL _m] ^T................(8)

其中，相对熵值矩阵KL中每一元素均表示一个相对熵值。即相对熵值矩阵KL包括各神经网络层对应的特征值集合与第一元素集合的相对熵值。

公式(8)所示的相对熵值矩阵KL为一个1×m的矩阵，从而将公式(5)所示的m×n的特征值矩阵A降维成一个1×m的矩阵，实现了数据降维，进一步提高了运算效率。

此外，相对熵值矩阵KL描述了神经网络内m层抽取特征量与参考矩阵G的分布差异情况。本申请实施例中，不直接对神经网络内部的推理数据进行分类，而是将特征值矩阵A与高斯分布的参考矩阵G进行数据投影，公式(8)中的每一个特征向量都表示投影空间中的一个特征点，这些特征点对应的类别为待监测神经网络模型发生故障或者待监测神经网络模型正常工作两类，从而可以将神经网络模型正常工作时推理过程中的各神经网络层的正常输出数据，与神经网络模型发生故障时推理过程中的各神经网络层的异常输出数据的差异性拉开，并降低正常输出数据和异常输出数据的耦合程度。

进一步地，神经网络模型故障监测装置可以执行上述步骤304，利用分类模型，快速对相对熵值矩阵KL进行分类，从而实时且准确地判断待监测神经网络模型是否存在运行故障。神经网络模型故障监测装置还可以将监测结果反馈到感知模块、或者感知融合模块、或者系统健康管理模块等进行预警上报；例如，在分类模型判定相对熵值矩阵KL对应的类别为待监测神经网络正常工作时，可以向感知模块反馈该结果，感知模块在收到该反馈后，将当前感知结果传输到规划与决策模块；在分类模型判定相对熵值矩阵KL对应的类别为待监测神经网络出现故障时，可以向感知模块反馈该结果，感知模块在收到该反馈后，丢弃当前感知结果。

基于上述方法实施例的同一发明构思，本申请的实施例还提供了一种自动驾驶系统中神经网络模型故障监测装置，该自动驾驶系统中神经网络模型故障监测装置可以用于执行上述方法实施例所描述的技术方案。例如，可以执行上述图3、图4或图5中所示自动驾驶系统中神经网络模型故障监测方法的各步骤。

图6示出根据本申请一实施例的一种自动驾驶系统中神经网络模型故障监测装置的结构示意图，如图6所示，该装置可以包括：传输模块601，用于获取自动驾驶系统中的待监测神经网络模型的目标输出数据集合，所述目标输出数据集合包括m个神经网络层中各神经网络层对应的输出数据集合，其中，所述待监测神经网络模型包括M个神经网络层，M为大于1的整数，m为大于1且不大于M的整数；处理模块602，用于在所述目标输出数据集合中，提取所述各神经网络层对应的特征值集合；计算所述特征值集合与符合预设概率分布的第一元素集合之间的相对熵值，得到所述m个神经网络层对应的相对熵值集合；根据所述相对熵值集合，判断所述待监测神经网络模型是否存在运行故障。

本申请实施例中，基于蒙特卡洛方法的思想，对各神经网络层的输出数据进行选择性采样,抽取输出数据集合中的部分输出数据作为特征值，通过尽量少的特征值反映各神经网络层输出数据的分布，从而简化计算，节约了运算开销，提高运算效率；同时，通过计算各神经网络层对应的特征值集合与符合预设概率分布的第一元素集合之间的相对熵值，得到一个相对熵值集合，实现了数据降维，进一步提高了运算效率；从而提高了故障监测的实时性，实现了自动驾驶系统中神经网络模型故障的实时监测。同时，采用相对熵值对各神经网络层的正常输出数据和异常输出数据的分布差异特性进行描述，区分各神经网络层的正常输出数据与异常输出数据，从而通过m个神经网络层对应的相对熵值集合更加准确地判断待监测神经网络模型是否存在运行故障，提高了故障监测的准确性。此外，可以有效监测神经网络模型的各类运行故障或各类神经网络模型的运行故障，适用范围广。

在一种可能的实现方式中，所述处理模块602，还用于：确定所述目标输出数据集合中，输出数据的数量最小的第一输出数据集合；根据所述第一输出数据集合中输出数据的数量，在所述各神经网络层对应的输出数据集合中，提取所述各神经网络层对应的特征值集合；其中，所提取的各神经网络层对应的特征值集合中特征值的数量均小于或等于所述第一输出数据集合中输出数据的数量。

在一种可能的实现方式中，所述处理模块602，还用于：以所述各神经网络层对应的输出数据集合中输出数据的数量为权重，提取所述各神经网络层对应的特征值集合。

在一种可能的实现方式中，所述处理模块602，还用于：将所述相对熵值集合输入到预设分类模型中，判断所述待监测神经网络模型是否存在运行故障。

在一种可能的实现方式中，所述预设分类模型包括基于机器学习的第一分类器；所述处理模块602，还用于：将所述相对熵值集合输入到所述第一分类器中，计算所述相对熵值集合与多个相对熵值样本集合之间的距离；其中，所述多个相对熵值样本集合包括所述待监测神经网络模型发生故障时所述m个神经网络层对应的相对熵值样本集合及所述待监测神经网络模型正常工作时所述m个神经网络层对应的相对熵值样本集合；根据所述相对熵值集合与多个相对熵值样本集合之间的距离，判断所述待监测神经网络模型是否存在运行故障。

在一种可能的实现方式中，所述分类模型包括基于深度学习的第二分类器；所述处理模块602，还用于：将所述相对熵值集合输入到所述第二分类器中，判断所述待监测神经网络模型是否存在运行故障；其中，所述第二分类器由多个相对熵值样本集合训练得到。

在一种可能的实现方式中，所述待监测神经网络模型发生故障时所述m个神经网络层对应的相对熵值样本集合，包括：所述m个神经网络层中各神经网络层对应的第一特征值样本集合与符合所述预设概率分布的第二元素集合之间的相对熵值；其中，所述第一特征值样本集合由所述待监测神经网络模型发生故障时，所述各神经网络层对应的输出数据样本集合提取得到；所述待监测神经网络模型正常工作时所述m个神经网络层对应的相对熵值样本集合，包括：所述m个神经网络层中各神经网络层对应的第二特征值样本集合与符合所述预设概率分布的第二元素集合之间的相对熵值；其中，所述第二特征值样本集合由所述待监测神经网络模型正常工作时，所述各神经网络层对应的输出数据样本集合提取得到。

上述图6所示的自动驾驶系统中神经网络模型故障监测装置及其各种可能的实现方式的技术效果及具体描述可参见上述自动驾驶系统中神经网络模型故障监测方法，此处不再赘述。

应理解以上装置中各模块的划分仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。此外，装置中的模块可以以处理器调用软件的形式实现；例如装置包括处理器，处理器与存储器连接，存储器中存储有指令，处理器调用存储器中存储的指令，以实现以上任一种方法或实现该装置各模块的功能，其中处理器例如为通用处理器，例如中央处理单元(Central Processing Unit，CPU)或微处理器，存储器为装置内的存储器或装置外的存储器。或者，装置中的模块可以以硬件电路的形式实现，可以通过对硬件电路的设计实现部分或全部模块的功能，该硬件电路可以理解为一个或多个处理器；例如，在一种实现中，该硬件电路为专用集成电路(application-specific integrated circuit，ASIC)，通过对电路内元件逻辑关系的设计，实现以上部分或全部模块的功能；再如，在另一种实现中，该硬件电路为可以通过可编程逻辑器件(programmable logic device，PLD)实现，以现场可编程门阵列(Field Programmable Gate Array，FPGA)为例，其可以包括大量逻辑门电路，通过配置文件来配置逻辑门电路之间的连接关系，从而实现以上部分或全部模块的功能。以上装置的所有模块可以全部通过处理器调用软件的形式实现，或全部通过硬件电路的形式实现，或部分通过处理器调用软件的形式实现，剩余部分通过硬件电路的形式实现。

在本申请实施例中，处理器是一种具有信号的处理能力的电路，在一种实现中，处理器可以是具有指令读取与运行能力的电路，例如CPU、微处理器、图形处理器(graphics processing unit，GPU)(可以理解为一种微处理器)、或数字信号处理器(digital signal processor，DSP)等；在另一种实现中，处理器可以通过硬件电路的逻辑关系实现一定功能，该硬件电路的逻辑关系是固定的或可以重构的，例如处理器为ASIC或PLD实现的硬件电路，例如FPGA。在可重构的硬件电路中，处理器加载配置文档，实现硬件电路配置的过程，可以理解为处理器加载指令，以实现以上部分或全部模块的功能的过程。

可见，以上装置中的各模块可以是被配置成实施以上实施例方法的一个或多个处理器(或处理电路)，例如：CPU、GPU、微处理器、DSP、ASIC、FPGA，或这些处理器形式中至少两种的组合。

此外，以上装置中的各模块可以全部或部分可以集成在一起，或者可以独立实现。在一种实现中，这些模块集成在一起，以SOC的形式实现。该SOC中可以包括至少一个处理器，用于实现以上任一种方法或实现该装置各模块的功能，该至少一个处理器的种类可以不同，例如包括CPU和FPGA，CPU和人工智能处理器，CPU和GPU等。

本申请的实施例还提供了一种自动驾驶系统中神经网络模型故障监测装置，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令时实现上述实施例的方法。示例性地，可以执行上述图3、图4或图5中所示自动驾驶系统中神经网络模型故障监测方法的各步骤。

图7示出根据本申请一实施例的一种自动驾驶系统中神经网络模型故障监测装置的结构示意图，如图7所示，该自动驾驶系统中神经网络模型故障监测装置可以包括：至少一个处理器701，通信线路702，存储器703以及至少一个通信接口704。

处理器701可以是一个通用中央处理器，微处理器，特定应用集成电路，或一个或多个用于控制本申请方案程序执行的集成电路；处理器701也可以包括多个通用处理器的异构运算架构，例如，可以是CPU、GPU、微处理器、DSP、ASIC、FPGA中至少两种的组合；作为一个示例，处理器701可以是CPU+GPU或者CPU+ASIC或者CPU+FPGA。

通信线路702可包括一通路，在上述组件之间传送信息。

通信接口704，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，RAN，无线局域网(wireless local area networks，WLAN)等。

存储器703可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过通信线路702与处理器相连接。存储器也可以和处理器集成在一起。本申请实施例提供的存储器通常可以具有非易失性。其中，存储器703用于存储执行本申请方案的计算机执行指令，并由处理器701来控制执行。处理器701用于执行存储器703中存储的计算机执行指令，从而实现本申请上述实施例中提供的方法；示例性地，可以实现上述图3、图4或图5中所示自动驾驶系统中神经网络模型故障监测方法的各步骤。

可选的，本申请实施例中的计算机执行指令也可以称之为应用程序代码，本申请实施例对此不作具体限定。

示例性地，处理器701可以包括一个或多个CPU，例如，图7中的CPU0；处理器701也可以包括一个CPU，及GPU、ASIC、FPGA中任一个，例如，图7中的CPU0+GPU0或者CPU 0+ASIC0或者CPU0+FPGA0。

示例性地，自动驾驶系统中神经网络模型故障监测装置可以包括多个处理器，例如图7中的处理器701和处理器707。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器，或者是包括多个通用处理器的异构运算架构。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，自动驾驶系统中神经网络模型故障监测装置还可以包括输出设备705和输入设备706。输出设备705和处理器701通信，可以以多种方式来显示信息。例如，输出设备705可以是液晶显示器(liquid crystal display，LCD)，发光二级管(light emitting diode，LED)显示设备，阴极射线管(cathode ray tube，CRT)显示设备，或投影仪(projector)等，例如，可以为车载HUD、AR-HUD、显示器等显示设备。输入设备706和处理器701通信，可以以多种方式接收用户的输入。例如，输入设备706可以是鼠标、键盘、触摸屏设备或传感设备等。

作为一个示例，结合图7所示的自动驾驶系统中神经网络模型故障监测装置，上述图6中的传输模块601可以由图7中的通信接口704来实现；上述图6中的处理模块602可以由图7中的处理器701来实现。

本申请的实施例提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述实施例中的方法。示例性地，可以实现上述图3、图4或图5中所示自动驾驶系统中神经网络模型故障监测方法的各步骤。

本申请的实施例提供了一种计算机程序产品，例如，可以包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质；当所述计算机程序产品在计算机上运行时，使得所述计算机执行上述实施例中的方法。示例性地，可以执行上述图3、图4或图5中所示自动驾驶系统中神经网络模型故障监测方法的各步骤。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本申请操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本申请的各个方面。

这里参照根据本申请实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。

也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

尽管在此结合各实施例对本发明进行了描述，然而，在实施所要求保护的本发明过程中，本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书，可理解并实现所述公开实施例的其它变化。在权利要求中，“包括”(comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。单个处理器或其它单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

一种自动驾驶系统中神经网络模型故障监测方法，其特征在于，所述方法包括：

获取自动驾驶系统中的待监测神经网络模型的目标输出数据集合，所述目标输出数据集合包括m个神经网络层中各神经网络层对应的输出数据集合，其中，所述待监测神经网络模型包括M个神经网络层，M为大于1的整数，m为大于1且不大于M的整数；

在所述目标输出数据集合中，提取所述各神经网络层对应的特征值集合；

计算所述特征值集合与符合预设概率分布的第一元素集合之间的相对熵值，得到所述m个神经网络层对应的相对熵值集合；

根据所述相对熵值集合，判断所述待监测神经网络模型是否存在运行故障。
根据权利要求1所述的方法，其特征在于，所述在所述目标输出数据集合中，提取所述各神经网络层对应的特征值集合，包括：

确定所述目标输出数据集合中，输出数据的数量最小的第一输出数据集合；

根据所述第一输出数据集合中输出数据的数量，在所述各神经网络层对应的输出数据集合中，提取所述各神经网络层对应的特征值集合；其中，所提取的各神经网络层对应的特征值集合中特征值的数量均小于或等于所述第一输出数据集合中输出数据的数量。
根据权利要求1所述的方法，其特征在于，所述在所述目标输出数据集合中，提取所述各神经网络层对应的特征值集合，包括：

以所述各神经网络层对应的输出数据集合中输出数据的数量为权重，提取所述各神经网络层对应的特征值集合。
根据权利要求1-3中任一项所述的方法，其特征在于，所述根据所述相对熵值集合，判断所述待监测神经网络模型是否存在运行故障，包括：

将所述相对熵值集合输入到预设分类模型中，判断所述待监测神经网络模型是否存在运行故障。
根据权利要求4所述的方法，其特征在于，所述预设分类模型包括基于机器学习的第一分类器；

所述将所述相对熵值集合输入到预设分类模型中，判断所述待监测神经网络模型是否存在运行故障，包括：

将所述相对熵值集合输入到所述第一分类器中，计算所述相对熵值集合与多个相对熵值样本集合之间的距离；其中，所述多个相对熵值样本集合包括所述待监测神经网络模型发生故障时所述m个神经网络层对应的相对熵值样本集合及所述待监测神经网络模型正常工作时所述m个神经网络层对应的相对熵值样本集合；

根据所述相对熵值集合与多个相对熵值样本集合之间的距离，判断所述待监测神经网络模型是否存在运行故障。
根据权利要求4所述的方法，其特征在于，所述分类模型包括基于深度学习的第二分类器；

所述将所述相对熵值集合输入到预设分类模型中，判断所述待监测神经网络模型是否存在运行故障，包括：

将所述相对熵值集合输入到所述第二分类器中，判断所述待监测神经网络模型是否存在运行故障；其中，所述第二分类器由多个相对熵值样本集合训练得到。
根据权利要求5所述的方法，其特征在于，所述待监测神经网络模型发生故障时所述m个神经网络层对应的相对熵值样本集合，包括：所述m个神经网络层中各神经网络层对应的第一特征值样本集合与符合所述预设概率分布的第二元素集合之间的相对熵值；其中，所述第一特征值样本集合由所述待监测神经网络模型发生故障时，所述各神经网络层对应的输出数据样本集合提取得到；所述待监测神经网络模型正常工作时所述m个神经网络层对应的相对熵值样本集合，包括：所述m个神经网络层中各神经网络层对应的第二特征值样本集合与符合所述预设概率分布的第二元素集合之间的相对熵值；其中，所述第二特征值样本集合由所述待监测神经网络模型正常工作时，所述各神经网络层对应的输出数据样本集合提取得到。
一种自动驾驶系统中神经网络模型故障监测装置，其特征在于，所述装置包括：

传输模块，用于获取自动驾驶系统中的待监测神经网络模型的目标输出数据集合，所述目标输出数据集合包括m个神经网络层中各神经网络层对应的输出数据集合，其中，所述待监测神经网络模型包括M个神经网络层，M为大于1的整数，m为大于1且不大于M的整数；

处理模块，用于在所述目标输出数据集合中，提取所述各神经网络层对应的特征值集合；计算所述特征值集合与符合预设概率分布的第一元素集合之间的相对熵值，得到所述m个神经网络层对应的相对熵值集合；根据所述相对熵值集合，判断所述待监测神经网络模型是否存在运行故障。
根据权利要求8所述的装置，其特征在于，所述处理模块，还用于：确定所述目标输出数据集合中，输出数据的数量最小的第一输出数据集合；根据所述第一输出数据集合中输出数据的数量，在所述各神经网络层对应的输出数据集合中，提取所述各神经网络层对应的特征值集合；其中，所提取的各神经网络层对应的特征值集合中特征值的数量均小于或等于所述第一输出数据集合中输出数据的数量。
根据权利要求8所述的装置，其特征在于，所述处理模块，还用于：以所述各神经网络层对应的输出数据集合中输出数据的数量为权重，提取所述各神经网络层对应的特征值集合。
根据权利要求8-10中任一项所述的装置，其特征在于，所述处理模块，还用于：将所述相对熵值集合输入到预设分类模型中，判断所述待监测神经网络模型是否存在运行故障。
根据权利要求11所述的装置，其特征在于，所述预设分类模型包括基于机器学习的第一分类器；

所述处理模块，还用于：将所述相对熵值集合输入到所述第一分类器中，计算所述相对熵值集合与多个相对熵值样本集合之间的距离；其中，所述多个相对熵值样本集合包括所述待监测神经网络模型发生故障时所述m个神经网络层对应的相对熵值样本集合及所述待监测神经网络模型正常工作时所述m个神经网络层对应的相对熵值样本集合；根据所述相对熵值集合与多个相对熵值样本集合之间的距离，判断所述待监测神经网络模型是否存在运行故障。
根据权利要求11所述的装置，其特征在于，所述分类模型包括基于深度学习的第二分类器；

所述处理模块，还用于：将所述相对熵值集合输入到所述第二分类器中，判断所述待监测神经网络模型是否存在运行故障；其中，所述第二分类器由多个相对熵值样本集合训练得到。
根据权利要求12所述的装置，其特征在于，所述待监测神经网络模型发生故障时所述m个神经网络层对应的相对熵值样本集合，包括：所述m个神经网络层中各神经网络层对应的第一特征值样本集合与符合所述预设概率分布的第二元素集合之间的相对熵值；其中，所述第一特征值样本集合由所述待监测神经网络模型发生故障时，所述各神经网络层对应的输出数据样本集合提取得到；所述待监测神经网络模型正常工作时所述m个神经网络层对应的相对熵值样本集合，包括：所述m个神经网络层中各神经网络层对应的第二特征值样本集合与符合所述预设概率分布的第二元素集合之间的相对熵值；其中，所述第二特征值样本集合由所述待监测神经网络模型正常工作时，所述各神经网络层对应的输出数据样本集合提取得到。
一种自动驾驶系统中神经网络模型故障监测装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令时实现权利要求1-7中任意一项所述的方法。
一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1-7中任意一项所述的方法。
一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行权利要求1-7中任意一项所述的方法。