WO2022156331A1

WO2022156331A1 - 知识蒸馏和图像处理方法、装置、电子设备和存储介质

Info

Publication number: WO2022156331A1
Application number: PCT/CN2021/130895
Authority: WO
Inventors: 高梦雅; 王宇杰; 李全全
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2021-01-22
Filing date: 2021-11-16
Publication date: 2022-07-28
Also published as: CN112819050A; CN112819050B

Abstract

本申请提出一种知识蒸馏和图像处理方法、装置、电子设备和存储介质。其中，所述方法可以包括，分别利用学生模型与教师模型对训练样本集进行处理得到第一输出特征与第二输出特征，确定所述第一输出特征包括的特征图与所述第二输出特征包括的特征图之间匹配的特征图对所处的通道数之间的对应关系，对上述学生模型进行训练。其中，在每一轮训练中，利用所述对应关系对所述学生模型与所述教师模型的输出特征进行特征对齐操作，并根据特征对齐后的输出特征进行知识蒸馏。

Description

知识蒸馏和图像处理方法、装置、电子设备和存储介质

相关申请交叉引用

本申请主张申请号为202110090849.2、申请日为2021年1月22日的中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本申请涉及计算机技术，具体涉及知识蒸馏和图像处理方法、装置、电子设备和存储介质。

背景技术

目前，神经网络模型得到了迅速的发展。例如，在图像处理任务中，可以利用诸如RCNN(Region Convolutional Neural Networks，区域卷积神经网络)，FAST-RCNN(Fast Region Convolutional Neural Networks，快速区域卷积神经网络)等深度卷积神经网络模型，实现诸如图像分类、物体检测、语义分割等操作。

然而，随着任务越来越复杂，对处理结果的要求越来越高，神经网络模型的结构会变的越来越复杂，占用空间也越来越大。这将可能占用很大计算资源和存储空间，甚至导致神经网络模型无法利用在类似手机这样的设备中。

由此，需要一种模型压缩方法，可以使结构简单的学生模型向结构复杂的教师模型进行学习，让学生模型的结果尽可能接近教师模型，从而完成模型压缩。

发明内容

本申请提供了一种知识蒸馏方法，所述方法包括：分别利用学生模型与教师模型，对训练样本集进行处理，得到第一输出特征与第二输出特征；基于所述第一输出特征与所述第二输出特征，确定所述第一输出特征包括的特征图与所述第二输出特征包括的特征图之间匹配的特征图对，基于所述特征图对，确定每个所述特征图对内包括的两个特征图分别所处的通道之间的对应关系；对所述学生模型进行训练；其中，在每一轮训练中，分别利用所述学生模型与所述教师模型，对样本数据进行处理，得到第三输出特征与第四输出特征；确定所述第三输出特征与所述样本数据对应的真实特征之间的误差；利用所述对应关系对所述第三输出特征或所述第四输出特征进行特征对齐操作以使所述第三输出特征包括的特征图与所述第四输出特征包括的特征图中，处于相同通道数的特征图之间匹配；确定对齐后的第三输出特征与第四输出特征之间的差距；基于所述误差与所述差距更新所述学生模型的模型参数。

本申请还提供了一种图像处理方法，所述方法包括：获取目标图像；利用根据前述任一实施例示出的知识蒸馏方法训练得到的所述学生模型对所述目标图像进行图像处理，得到图像处理结果。

本申请还提供了一种知识蒸馏装置，所述装置包括：样本处理模块，用于分别利用学生模型与教师模型，对训练样本集进行处理，得到第一输出特征与第二输出特征；对应关系确定模块，用于基于所述第一输出特征与所述第二输出特征，确定所述第一输出特征包括的特征图与所述第二输出特征包括的特征图之间匹配的特征图对，基于所述特征图对，确定每个所述特征图对内包括的两个特征图分别所处的通道之间的对应关系；训练模块，用于对所述学生模型进行训练；其中，在每一轮训练中，分别利用所述学生模型与所述教师模型，对样本数据进行处理，得到第三输出特征与第四输出特征；确定所述第三输出特征与所述样本数据对应的真实特征之间的误差；利用所述对应关系对所述第三输出特征或所述第四输出特征进行特征对齐操作以使所述第三输出特征包括的特征图与所述第四输出特征包括的特征图中，处于相同通道数的特征图之间匹配；确定对齐后的第三输出特征与第四输出特征之间的差距；基于所述误差与所述差距更新所述学生模型的模型参数。

本申请还提供了一种图像处理装置，所述装置包括：获取模块，用于获取目标图像；图像处理模块，用于利用根据前述任一实施例示出的知识蒸馏方法训练得到的学生模型对所述目标图像进行图像处理，得到图像处理结果。

本申请还提供了一种电子设备，所述设备包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器中存储的可执行指令，实现前述知识蒸馏方法或图像处理方法。

本申请还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行前述知识蒸馏方法或图像处理方法。

本申请还提供了一种计算机程序产品，包括存储于存储器中的计算机程序，所述计算机程序指令被处理器执行时实现前述知识蒸馏方法或图像处理方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请一个或多个实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请一个或多个实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请示出的一种模型训练方法的流程示意图；

图2为本申请示出的一种模型训练方法的方法流程图；

图3为本申请示出的一种模型训练的流程示意图；

图4为本申请示出的一种转换矩阵示意图；

图5为本申请示出的一种特征对齐方法的流程示意图；

图6为本申请示出的一种知识蒸馏装置的结构示意图；

图7为本申请示出的一种电子设备的硬件结构示意图。

具体实施方式

下面将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的设备和方法的示例。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“上述”和“该”也旨在可以包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。还应当理解，本文中所使用的词语“如果”，取决于语境，可以被解释成为“在……时”或“当……时”或“响应于确定”。

图1为本申请示出的一种模型训练方法的流程示意图。需要说明的是，图1示出的流程说明仅为针对模型训练方法流程的示意性说明，在实际应用中可以进行微调。

如图1所示，在进行模型训练时通常需要先执行S102，准备训练样本集。

在图像分类领域中，训练样本集通常可以是标注了图像中出现的对象的分类类型的图像的集合。在准备训练样本集时，通常可以采用人工标注或机器辅助标注的方式对原始图像进行真值标注。例如，在获取到原始图像后，可以使用图像标注软件标注出原始图像中出现的对象的分类类型(例如，对象为人还是汽车还是大树等)，从而得到若干训练样本。需要说明的是，在对训练样本进行特征编码时，可以采用one-hot(独热)编码等方式进行编码，本申请不对编码的具体方式进行限定。

在得到训练样本集后利用训练样本集，对学生模型进行模型训练。

其中，在每一轮训练中，可以先执行S104，将同一训练样本输入至学生模型与教师模型进行前向传播，得到学生模型的输出特征与教师模型的输出特征。

其中，所述学生模型(也被称为第一模型)的模型复杂度可以小于所述教师模型(也被称为第二模型)的模型复杂度。学生模型与教师模型可以是任意类型的模型，模型训练的目的在于使学生模型可以向教师模型进行学习，使学生模型输出的效果接近于教师模型，从而达到压缩模型的目的。

教师模型可以是经过预训练的模型。可以理解的是，教师模型在预训练阶段使用的训练样本集可以与步骤S102中构建的样本集是相同或不同的样本集，在此不作限定。

在得到输出特征后，可以执行S106，基于学生模型的输出特征和教师模型的输出特征，确定学生模型的输出特征与教师模型的输出特征之间的差距。

在一些示例中，可以利用预先设定的差距函数，得到所述差距。在本申请中，不对差距函数的结构进行特别限定。在一些示例中，可以参照常用的知识蒸馏函数确定差距函数。

知识蒸馏函数，例如包括在知识蒸馏算法中使用的损失函数。例如，损失函数可以是交叉熵损失函数，指数损失函数等。

在得到学生模型的输出特征和教师模型的输出特征后，还可以执行S108，基于学生模型的输出特征，确定误差。

在一些示例中，可以利用预设的损失函数，确定学生模型对应的输出特征与训练样本对应的真实特征之间的误差。在本申请中，不对损失函数的结构进行特别限定。在一些示例中，可以参照常用的知识蒸馏函数确定损失函数。

在确定误差与差距之后，可以执行S110，基于所述误差与所述差距进行加权求和的结果，更新学生模型的模型参数以完成一轮模型训练。

在本步骤中，可以采用梯度下降法，基于所述误差与所述差距进行加权求和的结果确定损失。然后根据损失对所述学生模型进行反向传播，从而更新所述学生模型的模型参数。

其中，所述反向传播可以包括随机梯度下降法(Stochastic Gradient Descent，SGD)、批量梯度下降法(Batch Gradient Descent,，BGD)、或小批量梯度下降法(Mini-Batch Gradient Descent,，MBGD)，在此不作特别限定。

在执行完一次训练后，可以重复执行步骤S104-S110，直至模型收敛。

以上实施例示出了通过模型训练达到模型压缩的方法。在实际应用中，上述方法仍然存在：模型收敛速度慢、学生模型与教师模型的输出特征很难足够接近等问题。

鉴于此，本申请提出一种知识蒸馏方法。该方法通过在确定学生模型与教师模型输出特征之间的差距时，先进行了特征对齐操作，以使学生模型的输出特征包括的特征图与教师模型的输出特征包括的特征图中，处于相同通道数的特征图之间相互匹配，从而使得处于相同通道数的特征图具有相同或相似的解释含义。因此，在确定所述差距时，可以减少由于特征图不匹配带来的误差，使得确定的差距更加真实精确，进而减小了模型收敛的难度，使得学生模型的输出特征容易接近教师模型的输出特征，提升了模型训练的效率。

图2为本申请示出的一种模型训练方法的方法流程图。

图2示出的模型训练方法可以应用于电子设备中。其中，上述电子设备可以通过搭载与模型训练方法对应的软件系统执行上述模型训练方法。本申请实施例中，上述电子设备的类型可以是笔记本电脑、计算机、服务器、手机、PAD终端等，在本申请中不作特别限定。

可以理解的是，所述模型训练方法既可以仅通过终端设备或服务端设备单独执行，也可以通过终端设备与服务端设备配合执行。

例如，所述模型训练方法可以集成于客户端。搭载该客户端的终端设备在接收到模型训练请求后，可以通过自身硬件环境提供算力执行所述模型训练方法。

又例如，所述模型训练方法可以集成于系统平台。搭载该系统平台的服务端设备在接收到模型训练请求后，可以通过自身硬件环境提供算力执行上述模型训练方法。

还例如，所述模型训练方法可以分为构建训练样本集和基于该训练样本集进行模型训练两个任务。其中，构建训练样本集可以集成于客户端并搭载于终端设备。模型训练任务可以集成于服务端并搭载于服务端设备。终端设备可以在构建训练样本集后向服务端设备发起模型训练请求。服务端设备在接收到模型训练请求后，可以响应于所述请求基于该训练样本集对模型进行训练。

以下以执行主体为电子设备(以下简称设备)为例进行说明。

如图2所示，模型训练方法可以包括步骤S202至步骤S206。

S202，分别利用学生模型与教师模型，对图像数据集进行图像处理，得到第一输出特征与第二输出特征。

其中，所述学生模型与所述教师模型可以是任意类型的模型。例如，在目标检测任务中，所述学生模型与所述教师模型可以是RCNN、FAST-RCNN等图模型。在实例分割任务中，所述学生模型与所述教师模型可以是MASK-RCNN(基于掩膜的区域卷积神经网络)模型。在此需要说明的是，本申请以图像处理任务为例说明了模型训练方法。在实际情形中，模型训练方法也可以应用于诸如文字处理任务、语音处理任务等任务中。本申请中不对其它任务下的模型训练方法进行详述。

所述第一输出特征，为通过学生模型对图像数据集进行处理得到的输出特征。所述第二输出特征，为通过教师模型对图像数据集进行处理得到的输出特征。

在一些示例中，第一输出特征与第二输出特征，可以包括多通道的特征图。其中，每个通道的特征图可以从一个解释维度表征图像具有的特征含义。例如，有些通道的特征图可以表征图像具有的纹理特征。再例如，有些通道的特征图可以表征图像具有的轮廓特征。

在一些示例中，在执行S202时，一方面可以利用学生模型，对图像数据集中的部分图像进行图像处理，得到与所述部分图像分别对应的学生模型的输出特征。然后，将与所述部分图像分别对应的学生模型的输出特征中处于相同位置的像素值进行诸如加权求和的平均处理，得到所述第一输出特征。

另一方面可以利用教师模型，对所述部分图像进行图像处理，得到与所述部分图像分别对应的教师模型的输出特征。然后，将与所述部分图像分别对应的教师模型的输出特征中处于相同位置的像素值进行诸如加权求和的处理，得到所述第二输出特征。

可以理解的是，在得到与所述部分图像分别对应的学生模型的输出特征后，也可以从所述学生模型的输出特征中选取最大值或最小值得到所述第一输出特征，在此不作详述。

通过对所述学生模型的输出特征进行平均处理，得到所述第一输出特征，可以获取到学生模型对图像数据集中的图像进行图像处理后较为真实均衡的处理结果，进而保证模型训练的效果。

在确定第一输出特征与第二输出特征后，可以执行步骤S204，基于所述第一输出特征与所述第二输出特征，确定所述第一输出特征包括的特征图与所述第二输出特征包括的特征图之间匹配的特征图对，基于所述特征图对，确定每个所述特征图对内包括的两个特征图分别所处的通道之间的对应关系。

所述特征图对，是指匹配的一对特征图。例如，如果第一输出特征包括的特征图A，与第二输出特征包括的特征图B匹配，则特征图A与特征图B构成一对特征图对。

其中，在确定特征图对时，针对第一输出特征包括的特征图的每一个，将该特征图作为当前特征图，对该当前特征图进行向量化处理得到第一向量，以及对第二输出特征包括的特征图中每一个待匹配的特征图进行向量化处理，得到第二向量。计算该第一向量与该第二向量之间的相似度分数。将与该第一向量相似度分数最高的第二向量对应的特征图，以及该第一向量对应的当前特征图确定为一对特征图对。需要说明的是，计算相似度的方法可以采用诸如欧氏距离、余弦距离等方法，在此不作限定。

在一些示例中，在确定特征图对时，针对第二输出特征包括的各通道的特征图的每一个，将该特征图作为当前特征图，执行类似前述步骤的方法，具体过程在此不作详述。

所述对应关系，是指特征图对内包括的两个特征图分别所处的第一输出特征的通道与所处的第二输出特征的通道之间的对应关系。例如，如果第一输出特征中处于第5通道的特征图A，与第二输出特征中处于第3通道的特征图B匹配，则上述对应关系可以是1-5与2-3对应。其中，1-5表示第一输出特征第5通道，2-3表示第二输出特征第3通道。可以理解的是，在本申请中还可以使用其他方式维护上述对应关系。

在确定对应关系后，可以继续执行S206，对学生模型进行训练；其中，在每一轮训练中，分别利用上述学生模型与上述教师模型，对样本图像进行图像处理，得到第三输出特征与第四输出特征；确定所述第三输出特征与所述样本图像对应的真实特征之间的误差；利用所述对应关系对所述第三输出特征或所述第四输出特征进行特征对齐操作，以使所述第三输出特征包括的特征图与所述第四输出特征包括的特征图中，处于相同通道数的特征图之间匹配；确定对齐后的第三输出特征与第四输出特征之间的差距；基于所述误差与所述差距更新所述学生模型的模型参数。

所述真实特征，是用于确定所述误差的特征。在一些示例中，可以通过经过预训练的学生模型获取所述真实特征。例如，在图像分类任务中，学生模型可以是图像分类模型(初始学生模型)。此时，可以利用训练样本对初始学生模型进行预训练得到学生模型。完成预训练后，可以将标注了真实分类的样本图像输入预训练后的初始学生模型(即，学生模型)进行前向传播，然后将该学生模型的输出特征作为所述样本图像的真实特征。在一些示例中，真实特征也可以是利用已知的该样本图像之前的图像确定，例如通过诸如空间几何约束等算法推导出来的特征。例如，样本图像可以是图像序列中的某一图像。可以理解的是，图像序列中的样本图像通常为连续图像，连续图像中出现的对象满足空间几何约束，因此，可以由该样本图像之前的图像推导出该样本图像的真实特征。

所述误差，可以是第三输出特征与样本图像对应的真实特征之间的误差。在一些示例中，可以利用预先构建的损失函数(例如，交叉熵损失函数)确定所述误差。

所述特征对齐操作，目的在于使所述第三输出特征包括的特征图与所述第四输出特征包括的特征图中，处于相同通道数的特征图之间匹配。

在实际应用中，可以基于所述对应关系，对第三输出特征或第四输出特征进行特征变换，以完成特征对齐操作。

例如，依据所述对应关系，对所述第三输出特征的各通道的特征图进行位置调整(例如将第一通道的特征图和第二通道的特征图互换位置，即将第一通道的特征图移到第二通道，将第二通道的特征图移到第一通道)，以使调整后的第三输出特征包括的特征图与所述第四输出特征包括的特征图中，处于相同通道数的特征图之间匹配。又例如，依据所述对应关系，对所述第四输出特征的各通道的特征图进行位置调整(例如将第一通道的特征图和第二通道的特征图互换位置，即将第一通道的特征图移到第二通道，将第二通道的特征图移到第一通道)，以使第三输出特征包括的特征图与调整后的第四输出特征包括的特征图中，处于相同通道数的特征图之间匹配。

所述差距，是指对齐后的第三输出特征与第四输出特征之间的差距。在一些示例中，可以利用预先构建的差距函数(例如，交叉熵损失函数)确定所述差距。可以理解的是，由于在确定所述差距前进行了特征对齐操作，因此确定该误差时可以减少由于特征图不匹配带来的误差，使得确定的所述差距更加真实精确，进而减小了模型收敛的难度，使得学生模型的输出特征容易接近教师模型的输出特征，提升了模型训练的效率。

图3为本申请示出的一种模型训练的流程示意图。如图3所示，在对所述学生模型进行训练时的每一轮训练中，可以先执行S2062，将样本图像输入学生模型与教师模型，得到学生模型输出的第三输出特征与教师模型输出的第四输出特征。

然后，可以执行S2064，基于预设损失函数，确定第三输出特征与样本图像对应的真实特征之间的误差。

在确定所述差距前可以执行S2066，进行对齐操作以使第三输出特征包括的特征图与第四输出特征包括的特征图中，处于相同通道数的特征图之间匹配。

执行S2068，确定特征对齐后的第三输出特征与第四输出特征之间的差距。

执行S2070，利用反向传播法，基于所述误差与所述差距更新学生模型的模型参数。在执行完一轮训练后，可以重复执行步骤S2062-S2068，直至模型收敛。

在上述方案中，由于在确定学生模型输出特征与教师模型输出特征之间的差距时，先进行了特征对齐操作，以使学生模型的输出特征包括的特征图与教师模型的输出特征包括的特征图中，处于相同通道数的特征图之间相互匹配，因此可以使得处于相同通道数的特征图具有相同或相似的解释含义。从而，在确定上述差距时，可以减少由于特征图不匹配带来的误差，使得确定的差距更加真实精确，进而减小了模型收敛的难度，使得学生模型的输出特征容易接近教师模型的输出特征，提升了模型训练的效率。

以下结合知识蒸馏算法进行模型压缩的场景进行实施例的说明。

此时，学生模型可以为压缩后的结构简单的模型，教师模型可以为压缩前的结构复杂的模型。

在一些示例中，在执行步骤S202之前，可以先通过训练样本集对初始学生模型与初始教师模型进行预训练得到学生模型和教师模型。在此不对预训练过程进行详细介绍。

在这里，可以获取预训练完成的学生模型与教师模型。

在一些示例中，在对初始学生模型进行预训练前，可以记录该初始学生模型的初始化参数。所述初始化参数，可以包括初始学生模型在预训练前包括的模型参数。

在这里，可以记录初始学生模型在预训练前的模型参数。由此在后续对学生模型进行模型训练时，可以先利用记录的初始化参数对学生模型进行初始化，然后再进行模型训练，从而保证学生模型在后续训练过程中(学习过程中)的模型变化趋势可以与预训练时的模型变化趋势相同，从而有效利用学生模型初始化参数蕴含的信息提升学生模型的学习效果。

在完成预训练后，可以利用前述方法，利用预训练完毕的学生模型与教师模型，对图像数据集进行图像处理，得到第一输出特征与第二输出特征。

在得到第一输出特征与第二输出特征后，可以利用二分图匹配算法或贪心匹配算法，基于第一输出特征与第二输出特征确定所述第一输出特征包括的特征图与所述第二输出特征包括的特征图之间匹配的特征图对，基于所述特征图对，确定每个所述特征图对内包括的两个特征图分别所处的通道的对应关系。

由于二分图匹配算法或贪心算法可以确定出第一输出特征包括的特征图与第二输出特征包括的特征图之间匹配的特征图对，因此通过上述算法，可以较为准确的确定上述对应关系。

在一些示例中，在利用贪心匹配算法确定对应关系时，针对所述第一输出特征包括的特征图中的每一个，将该特征图作为当前特征图，确定所述第二输出特征包括的特征图中，与该当前特征图匹配的第一匹配特征图；记录该当前特征图所处的通道与所述第一匹配特征图所处的通道之间的第一子对应关系；基于记录的第一子对应关系，确定所述对应关系。

在这里，通过贪心匹配算法，可以确定学生模型的输出特征包括的特征图与教师模型的输出特征包括的特征图之间匹配的特征图对。然后再基于确定的特征图对，确定各特征图对内包括的两个特征图所处的通道之间的对应关系。

在一些示例中，在利用二分图匹配算法，确定所述对应关系时，根据已维护的对应关系，删除所述第二输出特征包括的特征图中，已经确定的与所述第一输出特征包括的第一特征图匹配的第二匹配特征图。针对所述第一输出特征包括的特征图中除所述第一特征图外的每一个，将该特征图作为当前特征图，确定所述第二输出特征剩余的特征图中，与该当前特征图匹配的第三匹配特征图；记录该当前特征图所处的通道与所述第三匹配特征图所处的通道之间的第二子对应关系。基于记录的所述第二子对应关系，确定对应关系。

在这里，通过二分图匹配算法，可以确定学生模型的输出特征包括的特征图与教师模型的输出特征包括的特征图之间匹配的特征图对。然后再基于确定的特征图对，确定各特征图对内包括的两个特征图所处的通道之间的对应关系。

需要说明的是，在确定特征图对时，除了二分图匹配算法与贪心算法外，也可以使用其他算法。

在一些示例中，为了方便记录上述对应关系，可以基于所述对应关系，生成转换矩阵。

其中，转换矩阵用于表征第一输出特征包括的特征图所处的通道与第二输出特征包括的特征图所处的通道之间的对应关系。

在一些示例中，为了方便进行特征对齐操作，转换矩阵可以是0-1矩阵。

图4为本申请示出的一种转换矩阵示意图。图4示出的转换矩阵用于表征第一输出特征包括的特征图所处的通道与第二输出特征包括的特征图所处的通道之间的对应关系。其中，该转换矩阵的行数代表第二输出特征包括的特征图的通道数，转换矩阵的列数代表第一输出特征包括的特征图的通道数，转换矩阵中的元素代表对应的两个特征图是否匹配。例如，0为不匹配，1为匹配。

如图4所示，第一行中第3个元素为1，此时可以指示，第一输出特征中的第3通道的特征图与第二输出特征中的第1通道的特征图匹配。如图4所示，第二行中第2个元素为1，此时可以指示，第一输出特征中的第2通道的特征图与第二输出特征中的第2通道的特征图匹配。以此类推，若用字母M表示第一输出特征，字母N表示第二输出特征，M1表示第一输出特征的第1通道的特征图，则图4示出的转换矩阵表征M3与N1匹配，M2与N2匹配，M4与N3匹配，M5与N4匹配，M1与N5匹配。

一方面，通过转换矩阵可以方便的记录上述对应关系。另一方面，通过转换矩阵可以方便后续进行特征对齐。

可以理解的是，转换矩阵的行数也可以表征第一输出特征包括的特征图所处的通道数，转换矩阵的列数表征第二输出特征包括的特征图所处的通道数。

在确定上述对应关系后，则可以继续执行S206，对学生模型进行训练。

在一些示例中，在对学生模型进行训练时，可以利用在预训练阶段记录的初始化参数，对学生模型进行初始化操作。然后对初始化后的学生模型进行训练。

在这里，可以利用与预训练阶段记录的初始化参数对学生模型进行初始化，然后再进行模型训练，可以保证学生模型在后续训练过程中(学习过程中)的模型变化趋势可以与预训练时的模型变化趋势相同，从而有效利用学生模型初始化参数蕴含的信息提升学生模型的学习效果。

在一些示例中，当转换矩阵的行数表征第二输出特征包括的特征图所处的通道数，转换矩阵的列数表征第一输出特征包括的特征图所处的通道数时，在利用确定的对应关系进行特征对齐操作时，利用转换矩阵对第四输出特征进行转换，以使第三输出特征包括的特征图与第四输出特征包括的特征图中，处于相同通道数的特征图之间匹配。

例如，可以按照由上至下的顺序对第四输出特征包括的特征图进行编号。然后基于上述编号构建列向量。之后，将转化矩阵与所述列向量相乘，得到相乘结果。在这里，相乘结果可以表征对齐后的第四输出特征包括的特征图的排序。最后，可以按照上述相乘结果指示的顺序，对第四输出特征包括的特征图进行重新排序，得到特征对齐后的第四输出特征。

在这里，第三输出特征包括的特征图与对齐后的第四输出特征包括的特征图中，处于相同通道数的特征图之间匹配，即完成了第四输出特征与第三输出特征的特征对齐，从而在确定二者差距时，可以减少由于特征图不匹配带来的误差，使得确定的差距更加真实精确，进而减小了模型收敛的难度，使得学生模型的输出特征容易接近教师模型的输出特征，提升了模型训练的效率。

在一些示例中，当转换矩阵的行数表征第一输出特征包括的特征图所处的通道数，转换矩阵的列数表征第二输出特征包括的特征图所处的通道数时，在利用所述对应关系进行特征对齐操作时，利用转换矩阵对第三输出特征进行转换，以使转换后的第三输出特征包括的特征图与第四输出特征包括的特征图中，处于相同通道数的特征图之间匹配。

在确定第三输出特征与样本图像对应的真实特征之间的误差，以及特征对齐后的第三输出特征与第四输出特征之间的差距后，可以基于所述误差与所述差距更新所述学生模型的模型参数。在这里，可以实现对学生模型的一轮参数更新，由于在对学生模型的训练过程中，在确定学生模型的输出特征与教师模型的输出特征之间的差距时，先进行了特征对齐操作，以使学生模型的输出特征包括的特征图与教师模型的输出特征包括的特征图中，处于相同通道数的特征图之间相互匹配，从而使得处于相同通道数的特征图具有相同或相似的解释含义。因此，在确定所述差距时，可以减少由于特征图不匹配带来的误差，使得确定的差距更加真实精确，进而减小了模型收敛的难度，使得学生模型的输出特征容易接近教师模型的输出特征，提升了模型训练的效率以及模型压缩的效果。

在一些示例中，可以基于所述误差与所述差距进行加权求和的结果更新所述学生模型的模型参数。

其中，加权求和的权重可以根据实际情形进行设定。

通过基于所述误差与所述差距进行加权求和的结果更新所述学生模型的模型参数，可以综合利用所述误差与所述差距表征的含义实现模型训练，从而保证训练的学生模型的输出特征接近教师模型的输出特征。

在一些示例中，为了进一步提升学生模型的预测效果，可以根据图像的分类类型确定不同分类类型对应的对应关系，在训练学生模型时，可以根据输入的样本图像的分类类型，选取该样本图像的分类类型对应的对应关系进行特征对齐，从而提升学生模型针对不同分类类型的预测效果。

在一些示例中，在S202中使用的图像数据集包括的部分图像可以包括多个分类类型的图像。

其中，上述分类类型可以根据实际情形进行设定。例如，在自动驾驶场景中，上述分类类型可以人物、墙壁、车辆等。再例如，在动物分类场景中，上述分类类型可以包括狗、猫、猪等动物。

此时，在对所述学生模型的输出特征进行平均处理，得到所述第一输出特征时，可以分别对各分类类型的图像对应的输出特征进行平均处理，得到各分类类型对应的所述第一输出特征。

在对所述教师模型的输出特征进行平均处理，得到所述第二输出特征时，可以分别对各分类类型的图像对应的输出特征进行平均处理，得到各分类类型对应的所述第二输出特征。

在这里，即可确定针对不同分类类型的图像，学生模型输出的第一输出特征以及教师模型输出的第二输出特征。

在基于所述第一输出特征与所述第二输出特征，确定所述第一输出特征包括的特征图与上述第二输出特征包括的特征图之间匹配的特征图对，基于所述特征图对，确定每个所述特征图对内包括的两个特征图分别所处的通道之间的对应关系，还包括：针对多个分类类型中的每一个分类类型，可以基于该分类类型对应的所述第一输出特征与该分类类型对应的所述第二输出特征，确定该分类类型对应的第一输出特征包括的特征图与该分类类型对应的第二输出特征包括的特征图之间匹配的特征图对，基于该分类类型对应的所述特征图对，确定该分类类型所对应的每个所述特征图对内包括的两个特征图分别所处的通道之间的对应关系。

在这里，即可针对不同分类类型的图像，确定学生模型输出特征包括的特征图所处的通道与教师模型输出特征包括的特征图所处的通道之间的对应关系。由于确定了分类类型对应的对应关系，可以消除不同分类类型的图像对应的输出特征的差别导致的误差，因此可以提升确定的对应关系的准确性。

在进行特征对齐操作时，可以执行以下方法。

图5为本申请示出的一种特征对齐方法的流程示意图。如图5所示，在进行特征对齐操作时，可以先执行S502，确定样本图像对应的分类类型。

在一些示例中，可以通过确定上述样本图像的标注类型来确定对应的分类类型。

在确定分类类型后，可以执行S504，利用分类类型所对应的对应关系对所述第三输出特征或所述第四输出特征进行特征对齐操作以使所述第三输出特征包括的特征图与所述第四输出特征包括的特征图中，处于相同通道数的特征图之间匹配。

在这里，可以根据使用与输入样本图像的分类类型对应的对应关系进行特征对齐操作，因此，可以提升特征对齐操作准确性，从而提升学生模型训练的效果，进而提升学生模型的预测效果。

本申请还提出一种图像处理方法。该方法可以应用于任意类型的电子设备。该方法通过利用前述任一实施例示出的模型训练方法训练得到的图像处理模型(即上述学生模型)进行图像处理，由此可以实现利用复杂度较低的图像处理模型达到较好的预测效果，进而在不降低预测效果的基础上，提升了图像处理速率。

上述图像处理方法可以包括：获取目标图像。

利用包括根据前述任一实施例示出的知识蒸馏方法训练得到的学生模型对所述目标图像进行图像处理，得到图像处理结果。

上述学生模型可以是任意类型的模型。例如，所述学生模型可以是图像分类模型、目标检测模型、目标跟踪模型等。由于所述学生模型可以通过前述任一实施例示出的知识蒸馏方法训练得到，因此，该模型兼具结构简单与预测效果好的特点，进而在不降低预测效果的基础上，提升了图像处理速率。

与上述任一实施例相对应的，本申请还提出一种知识蒸馏装置。

图6为本申请示出的一种知识蒸馏装置的结构示意图。如图6所示，所述装置600可以包括：样本处理模块610，用于分别利用学生模型与教师模型，对训练样本集进行处理，得到第一输出特征与第二输出特征；对应关系确定模块620，用于基于所述第一输出特征与所述第二输出特征，确定所述第一输出特征包括的特征图与所述第二输出特征包括的特征图之间匹配的特征图对，基于所述特征图对，确定每个所述特征图对内包括的两个特征图分别所处的通道数之间的对应关系；训练模块630，用于对所述学生模型进行训练；其中，在每一轮训练中，分别利用所述学生模型与所述教师模型，对样本数据进行处理，得到第三输出特征与第四输出特征；确定所述第三输出特征与所述样本图像对应的真实特征之间的误差；利用所述对应关系对所述第三输出特征或所述第四输出特征进行特征对齐操作以使所述第三输出特征包括的特征图与所述第四输出特征包括的特征图中，处于相同通道数的特征图之间匹配；确定对齐后的第三输出特征与第四输出特征之间的差距；基于所述误差与所述差距更新所述学生模型的模型参数。

在示出的一些实施例中，所述样本处理模块610具体用于：利用所述学生模型，对所述训练样本集中的一个或多个样本进行处理，得到与所述一个或多个样本分别对应的一个或多个学生模型输出特征；将与所述一个或多个样本分别对应的一个或多个学生模型输出特征中处于相同位置的值进行加权求和，得到所述第一输出特征；利用所述教师模型，对所述一个或多个样本进行处理，得到与所述一个或多个样本分别对应的所述一个或多个教师模型输出特征；将与所述一个或多个样本分别对应的所述一个或多个教师模型输出特征中处于相同位置的值进行加权求和，得到所述第二输出特征。

在示出的一些实施例中，所述对应关系确定模块620用于：利用二分图匹配算法或贪心匹配算法，确定所述对应关系。

在示出的一些实施例中，所述对应关系确定模块620用于：针对所述第一输出特征包括的特征图中的每一个，将该特征图作为当前特征图，确定所述第二输出特征包括的特征图中，与该当前特征图匹配的第一匹配特征图；记录该当前特征图所处的通道与所述第一匹配特征图所处的通道之间的第一子对应关系；基于记录的所述第一子对应关系，确定所述对应关系。

在示出的一些实施例中，所述对应关系确定模块620用于：根据已维护的对应关系，删除所述第二输出特征包括的特征图中，已经确定的与所述第一输出特征包括的第一特征图匹配的第二匹配特征图；针对所述第一输出特征包括的特征图中除所述第一特征图外的每一个，将该特征图作为当前特征图，确定所述第二输出特征剩余的各通道的特征图中，与该当前特征图匹配的第三匹配特征图；记录该当前特征图所处的通道与所述第三匹配特征图所处的通道数之间的第二子对应关系；基于记录的所述第二子对应关系，确定所述对应关系。

在示出的一些实施例中，所述装置还包括：预训练模块630，用于通过初始训练样本集对初始学生模型与初始教师模型进行预训练，得到所述学生模型和所述教师模型。

所述装置还包括：记录模块，用于在对所述初始学生模型进行所述预训练之前，记录所述初始学生模型对应的初始化参数；所述训练模型用于：利用所述初始化参数，对所述学生模型进行初始化操作；对初始化后的所述学生模型进行训练。

在示出的一些实施例中，所述装置还包括：生成模块，用于基于所述对应关系，生成转换矩阵；其中，所述转换矩阵用于表征所述第二输出特征包括的特征图所处的通道与所述第一输出特征包括的特征图所处的通道之间的对应关系。

在示出的一些实施例中，所述训练模型用于：当所述转换矩阵的行数表征所述第二输出特征包括的特征图所处的通道数，所述转换矩阵的列数表征所述第一输出特征包括的特征图所处的通道数时，利用所述转换矩阵对所述第四输出特征进行转换，以使所述第三输出特征包括的特征图与所述第四输出特征包括的特征图中，处于相同通道数的特征图之间匹配；或，当所述转换矩阵的行数表征所述第一输出特征包括的特征图所处的通道数，所述转换矩阵的列数表征所述第二输出特征包括的特征图所处的通道数时，利用所述转换矩阵对所述第三输出特征进行转换，以使所述第三输出特征包括的特征图与所述第四输出特征包括的特征图中，处于相同通道数的特征图之间匹配。

在示出的一些实施例中，所述训练模型用于：根据所述误差与所述差距进行加权求和的结果确定损失；根据所述损失对所述学生模型进行反向传播，以更新所述学生模型的模型参数。

在示出的一些实施例中，所述训练样本集包括多个分类类型的样本；所述对应关系确定模块620用于：针对所述多个分类类型中的每一个分类类型，基于该分类类型对应的所述第一输出特征与所述第二输出特征，确定该分类类型对应的所述第一输出特征包括的各通道的特征图与该分类类型对应的所述第二输出特征包括的特征图之间匹配的特征图对，基于该分类类型对应的所述特征图对，确定该分类类型对应的每个所述特征图对内包括的两个特征图分别所处的通道之间的对应关系；所述训练模块630用于：确定所述样本数据对应的分类类型；利用所述分类类型所对应的对应关系对所述第三输出特征或所述第四输出特征进行特征对齐操作以使所述第三输出特征包括的特征图与所述第四输出特征包括的特征图中，处于相同通道数的特征图之间匹配。

本申请还提出一种图像处理装置，所述装置包括：获取模块，用于获取目标图像；图像处理模块，用于利用根据前述任一实施例示出的知识蒸馏方法训练得到的学生模型对所述目标图像进行图像处理，得到图像处理结果。

本申请示出的知识蒸馏装置或图像处理处理装置的实施例可以应用于电子设备上。相应地，本申请公开了一种电子设备，该设备可以包括：处理器，用于存储处理器可执行指令的存储器，其中，所述处理器被配置为调用所述存储器中存储的可执行指令，实现前述知识蒸馏方法或图像处理处理方法。

请参见图7，图7为本申请示出的一种电子设备的硬件结构示意图。

如图7所示，该电子设备可以包括用于执行指令的处理器，用于进行网络连接的网络接口，用于为处理器存储运行数据的内存，以及用于存储知识蒸馏装置或图像处理处理装置对应指令的非易失性存储器。

其中，所述装置的实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，除了图7所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的电子设备通常根据该电子设备的实际功能，还可以包括其他硬件，对此不再赘述。

可以理解的是，为了提升处理速度，知识蒸馏装置或图像处理处理装置对应指令也可以直接存储于内存中，在此不作限定。

本申请提出一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行前述知识蒸馏方法或图像处理处理方法。

本领域技术人员应明白，本申请一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本申请一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(可以包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请中的“和/或”表示至少具有两者中的其中一个，例如，“A和/或B”可以包括三种方案：A、B、以及“A和B”。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于数据处理设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

所述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本申请中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、可以包括本申请中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本申请中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本申请中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机可以包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件可以包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将可以包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质可以包括所有形式的非易失性存储器、媒介和存储器设备，例如可以包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本申请包含许多具体实施细节，但是这些不应被解释为限制任何公开的范围或所要求保护的范围，而是主要用于描述特定公开的具体实施例的特征。本申请内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，所述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上仅为本申请一个或多个实施例的较佳实施例而已，并不用以限制本申请一个或多个实施例，凡在本申请一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请一个或多个实施例保护的范围之内。

Claims

一种知识蒸馏方法，包括：

分别利用学生模型与教师模型，对训练样本集进行处理，得到第一输出特征与第二输出特征；

基于所述第一输出特征与所述第二输出特征，确定所述第一输出特征包括的特征图与所述第二输出特征包括的特征图之间匹配的特征图对，基于所述特征图对，确定每个所述特征图对内包括的两个特征图分别所处的通道之间的对应关系；

对所述学生模型进行训练；其中，在每一轮训练中，

分别利用所述学生模型与所述教师模型，对样本数据进行处理，得到第三输出特征与第四输出特征；

确定所述第三输出特征与所述样本数据对应的真实特征之间的误差；

利用所述对应关系对所述第三输出特征或所述第四输出特征进行特征对齐操作，以使所述第三输出特征包括的特征图与所述第四输出特征包括的特征图中，处于相同通道数的特征图之间匹配；

确定对齐后的第三输出特征与第四输出特征之间的差距；

基于所述误差与所述差距更新所述学生模型的模型参数。
根据权利要求1所述的方法，其中，分别利用所述学生模型与所述教师模型，对所述训练样本集进行处理，得到所述第一输出特征与所述第二输出特征，包括：

利用所述学生模型，对所述训练样本集中的一个或多个样本进行处理，得到与所述一个或多个样本分别对应的一个或多个学生模型输出特征；

将与所述一个或多个样本分别对应的所述一个或多个学生模型输出特征中处于相同位置的值进行加权求和，得到所述第一输出特征；

利用所述教师模型，对所述一个或多个样本进行处理，得到与所述一个或多个样本分别对应的一个或多个教师模型输出特征；

将与所述一个或多个样本分别对应的所述一个或多个教师模型输出特征中处于相同位置的值进行加权求和，得到所述第二输出特征。
根据权利要求1或2所述的方法，其中，基于所述第一输出特征与所述第二输出特征，确定所述第一输出特征包括的特征图与所述第二输出特征包括的特征图之间匹配的特征图对，基于所述特征图对，确定每个所述特征图对内包括的两个特征图分别所处的通道之间的对应关系，包括：

利用二分图匹配算法或贪心匹配算法，确定所述对应关系。
根据权利要求3所述的方法，其中，利用所述贪心匹配算法，确定所述对应关系，包括：

针对所述第一输出特征包括的特征图中的每一个，

将该特征图作为当前特征图，

确定所述第二输出特征包括的特征图中，与该当前特征图匹配的第一匹配特征图，

记录该当前特征图所处的通道与所述第一匹配特征图所处的通道之间的第一子对应关系；

基于记录的所述第一子对应关系，确定所述对应关系。
根据权利要求3所述的方法，其中，利用所述二分图匹配算法，确定所述对应关系，包括：

根据已维护的对应关系，删除所述第二输出特征包括的特征图中，已经确定的与所述第一输出特征包括的第一特征图匹配的第二匹配特征图；

针对所述第一输出特征包括的特征图中除所述第一特征图外的每一个，

将该特征图作为当前特征图，

确定所述第二输出特征剩余的特征图中，与该当前特征图匹配的第三匹配特征图，

记录该当前特征图所处的通道与所述第三匹配特征图所处的通道之间的第二子对应关系；

基于记录的所述第二子对应关系，确定所述对应关系。
根据权利要求1-5中任一项所述的方法，还包括：

通过初始训练样本集对初始学生模型与初始教师模型进行预训练，得到所述学生模型和所述教师模型；

所述方法还包括：

在对所述初始学生模型进行所述预训练之前，记录所述初始学生模型对应的初始化参数；

对所述学生模型进行训练，包括：

利用所述初始化参数，对所述学生模型进行初始化操作；

对初始化后的所述学生模型进行训练。
根据权利要求1-6中任一项所述的方法，还包括：

基于所述对应关系，生成转换矩阵；其中，所述转换矩阵用于表征所述第二输出特征包括的特征图所处的通道与所述第一输出特征包括的特征图所处的通道之间的对应关系。
根据权利要求7所述的方法，其中，利用所述对应关系对所述第三输出特征或所述第四输出特征进行特征对齐操作，以使所述第三输出特征包括的特征图与所述第四输出特征包括的特征图中，处于相同通道数的特征图之间匹配，包括：

当所述转换矩阵的行数表征所述第二输出特征包括的特征图所处的通道数，所述转换矩阵的列数表征所述第一输出特征包括的特征图所处的通道数时，利用所述转换矩阵对所述第四输出特征进行转换，以使所述第三输出特征包括的特征图与所述第四输出特征包括的特征图中，处于相同通道数的特征图之间匹配。
根据权利要求7所述的方法，其中，利用所述对应关系对所述第三输出特征或所述第四输出特征进行特征对齐操作，以使所述第三输出特征包括的特征图与所述第四输出特征包括的特征图中，处于相同通道数的特征图之间匹配，包括：

当所述转换矩阵的行数表征所述第一输出特征包括的特征图所处的通道数，所述转换矩阵的列数表征所述第二输出特征包括的特征图所处的通道数时，利用所述转换矩阵对所述第三输出特征进行转换，以使所述第三输出特征包括的特征图与所述第四输出特征包括的特征图中，处于相同通道数的特征图之间匹配。
根据权利要求1-9中任一项所述的方法，其中，基于所述误差与所述差距更新所述学生模型的模型参数，包括：

根据所述误差与所述差距进行加权求和的结果确定损失；

根据所述损失对所述学生模型进行反向传播，以更新所述学生模型的模型参数。
根据权利要求2所述的方法，其中，所述训练样本集包括多个分类类型的样本；

基于所述第一输出特征与所述第二输出特征，确定所述第一输出特征包括的特征图与所述第二输出特征包括的特征图之间匹配的特征图对，基于所述特征图对，确定每个所述特征图对内包括的两个特征图分别所处的通道之间的对应关系，包括：

针对所述多个分类类型中的每一个分类类型，

基于该分类类型对应的所述第一输出特征与所述第二输出特征，确定该分类类型对应的所述第一输出特征包括的特征图与该分类类型对应的所述第二输出特征包括的特征图之间匹配的特征图对，

基于该分类类型对应的所述特征图对，确定该分类类型对应的每个所述特征图对内包括的两个特征图分别所处的通道之间的对应关系；

利用所述对应关系对所述第三输出特征或所述第四输出特征进行特征对齐操作，以使所述第三输出特征包括的特征图与所述第四输出特征包括的特征图中，处于相同通道的特征图之间匹配，包括：

确定所述样本数据对应的分类类型；

利用所述分类类型所对应的对应关系对所述第三输出特征或所述第四输出特征进行特征对齐操作，以使所述第三输出特征包括的特征图与所述第四输出特征包括的特征图中，处于相同通道数的特征图之间匹配。
一种图像处理方法，包括：

获取目标图像；

利用通过权利要求1-11任一所述的知识蒸馏方法得到的所述学生模型对所述目标图像进行图像处理，得到图像处理结果。
一种知识蒸馏装置，包括：

样本处理模块，用于分别利用学生模型与教师模型，对训练样本集进行处理，得到第一输出特征与第二输出特征；

对应关系确定模块，用于基于所述第一输出特征与所述第二输出特征，确定所述第一输出特征包括的特征图与所述第二输出特征包括的特征图之间匹配的特征图对，基于所述特征图对，确定每个所述特征图对内包括的两个特征图分别所处的通道数之间的对应关系；

训练模块，用于对所述学生模型进行训练；其中，在每一轮训练中，分别利用所述学生模型与所述教师模型，对样本数据进行处理，得到第三输出特征与第四输出特征；确定所述第三输出特征与所述样本数据对应的真实特征之间的误差；利用所述对应关系对所述第三输出特征或所述第四输出特征进行特征对齐操作以使所述第三输出特征包括的特征图与所述第四输出特征包括的特征图中，处于相同通道数的特征图之间匹配；确定对齐后的第三输出特征与第四输出特征之间的差距；基于所述误差与所述差距更新所述学生模型的模型参数。
一种图像处理装置，包括：

获取模块，用于获取目标图像；

图像处理模块，用于利用通过权利要求1-11任一所述的知识蒸馏方法得到的所述学生模型对所述目标图像进行图像处理，得到图像处理结果。
一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器中存储的可执行指令，实现如权利要求1-11任一所述的知识蒸馏方法或权利要求12所述的图像处理方法。
一种计算机可读存储介质，存储有计算机程序，所述计算机程序用于执行如权利要求1-11任一所述的知识蒸馏方法或权利要求12所述的图像处理方法。
一种计算机程序产品，包括存储于存储器中的计算机程序，所述计算机程序指令被处理器执行时实现如权利要求1-11任一所述的知识蒸馏方法或权利要求12所述的图像处理方法。