WO2024066111A1

WO2024066111A1 - 图像处理模型的训练、图像处理方法、装置、设备及介质

Info

Publication number: WO2024066111A1
Application number: PCT/CN2022/143756
Authority: WO
Inventors: 王勇涛; 刘子炜
Original assignee: 北京大学
Priority date: 2022-09-28
Filing date: 2022-12-30
Publication date: 2024-04-04
Also published as: CN115565021A

Abstract

图像处理模型的训练、图像处理方法、装置、设备及介质，属于计算机视觉技术领域。该图像处理模型的训练方法包括：获取样本图像（401）；将样本图像输入教师图像处理模型，获取第一图像特征（402）；将样本图像输入学生图像处理模型，获取第二图像特征，将第二图像特征与第一图像特征对齐，得到对齐图像特征（403）；利用第一特征变换模型对对齐图像特征进行变换，得到第三图像特征（404）；基于第一图像特征和第三图像特征之间的差异，获取特征差异损失；基于特征差异损失，获取训练损失（405）；利用训练损失更新学生图像处理模型的参数，得到目标图像处理模型（406）。

Description

图像处理模型的训练、图像处理方法、装置、设备及介质

本申请要求于2022年09月28日提交的申请号为202211196707.5、发明名称为“基于可学习特征变换的神经网络知识蒸馏方法”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请属于计算机视觉技术领域，涉及计算机视觉、神经网络模型压缩、基于中间特征的神经网络知识蒸馏等深度学习技术，特别涉及一种图像处理模型的训练、图像处理方法、装置、设备及介质。

背景技术

近年来，随着深度学习技术的不断发展，深度卷积神经网络被广泛应用于诸如图像分类、目标检测、语义分割等计算机视觉任务上，并在这些任务上取得了越来越好的表现。而在取得更好表现的背后，深度卷积神经网络模型的复杂度也越来越高，对计算资源和存储资源的需求日渐增大，使其难以在资源受限的设备，如移动设备和嵌入式平台上进行部署。为解决这一问题，需要使用到神经网络模型压缩技术。

知识蒸馏是目前神经网络模型压缩技术中一种重要的方法，该方法将大规模神经网络作为教师网络，将小规模神经网络作为学生网络，将教师网络的知识传递到学生网络中，进而获得一个复杂度低、性能好、易于部署的神经网络，达到模型压缩的目的。

目前，主流的知识蒸馏方法分为基于输出响应和基于中间特征的知识蒸馏，基于输出响应的知识蒸馏方法将教师模型尾层的预测结果作为监督信息，指导学生模型对教师模型的行为进行模仿。基于中间特征的知识蒸馏方法则将教师模型中间隐藏层的特征作为监督信号指导学生模型训练。

发明内容

本申请提出了一种图像处理模型的训练、图像处理方法、装置、设备及介质，可用于提高图像处理模型的训练效果。

本申请提供的技术方案是：

一种基于可学习特征变换的知识蒸馏方法，如图1所示，其步骤包括：

1)将输入数据输入教师模型，所述教师模型的中间层输出第一特征图，将所述输入数据输入学生模型，所述学生模型的中间层输出第二特征图；

2)将第二特征图与第一特征图进行空间维度和通道维度上的对齐，对齐后的特征图通过一个多层感知机模块得到第三特征图；同时，对对齐后的特征图的形状展开和转置，再通过另一个多层感知机模块得到变换后的特征图，再将变换后的特征图形状恢复成变换前的形状，得到第四特征图；

3)计算第一特征图和第三特征图间的均方差损失作为空间特征损失，计算第一特征图和第四特征图间的均方差损失作为通道特征损失，将所述空间特征损失和所述通道特征损失加权求和作为教师模型与学生模型间的知识蒸馏损失函数；

4)根据所述知识蒸馏损失函数，对学生模型进行训练实现知识蒸馏。

可选地，所述多层感知机模块为隐藏层数为1，激活函数为ReLU的多层感知机结构。

可选地，通过双线性插值和1×1卷积将所述第二特征图与所述第一特征图进行空间维度和通道维度上的对齐。

进一步，取得所述学生模型的下游任务，根据下游任务类型匹配模型的目标函数，将目标函数和知识蒸馏损失函数组合对学生模型进行训练。

进一步，根据所述教师模型、所述学生模型、所述下游任务调整所述蒸馏损失函数的超参数，将所述目标函数中的回归损失函数、分类损失函数和知识蒸馏损失函数求和获得所述学生模型训练的总损失函数，根据该总损失函数对所述学生模型进行训练。

本申请提供一种基于可学习特征变换的知识蒸馏方法，对齐教师模型和学生模型的特征，提高蒸馏效果，同时无需针对不同任务设计复杂的特征变换模块，不引入复杂的超参数，免去了繁琐的参数调整步骤，提高了知识蒸馏在多个任务上的通用性，在多种计算机视觉任务上均能取得不错的效果。

本申请实施例提供了一种图像处理模型的训练方法，所述方法包括：

获取样本图像；

将所述样本图像输入教师图像处理模型，获取所述教师图像处理模型输出的第一图像特征；

将所述样本图像输入学生图像处理模型，获取所述学生图像处理模型输出的第二图像特征，将所述第二图像特征与所述第一图像特征对齐，得到对齐图像特征；

利用第一特征变换模型对所述对齐图像特征进行变换，得到第三图像特征，所述第一特征变换模型的参数基于图像处理模型的训练过程学习得到；

基于所述第一图像特征和所述第三图像特征之间的差异，获取特征差异损失；

基于所述特征差异损失，获取训练损失；

利用所述训练损失更新所述学生图像处理模型的参数，得到目标图像处理模型。

在一种可能实现方式中，所述基于所述第一图像特征和所述第三图像特征之间的差异，获取特征差异损失，包括：

保持所述对齐图像特征的通道数不变，将所述对齐图像特征的尺寸由第一尺寸调整为第二尺寸，得到调整图像特征；

利用第二特征变换模型对所述调整图像特征进行变换，得到变换图像特征，将所述变换图像特征的尺寸由所述第二尺寸恢复为所述第一尺寸，得到第四图像特征，所述第二特征变换模型的参数基于所述图像处理模型的训练过程学习得到；

基于所述第一图像特征和所述第三图像特征之间的差异，获取第一差异损失；

基于所述第一图像特征和所述第四图像特征之间的差异，获取第二差异损失；

基于所述第一差异损失和所述第二差异损失，获取所述特征差异损失。

在一种可能实现方式中，所述获取所述学生图像处理模型输出的第二图像特征，包括：

获取所述学生图像处理模型输出的第二图像特征以及预测处理结果；

所述基于所述特征差异损失，获取训练损失，包括：

基于所述预测处理结果和所述样本图像对应的标准处理结果之间的差异，获取处理结果损失；

基于所述特征差异损失和所述处理结果损失，获取所述训练损失。

在一种可能实现方式中，所述学生图像处理模型用于对图像进行与计算机视觉任务匹配的处理，所述获取所述学生图像处理模型输出的第二图像特征以及预测处理结果，包括：

获取所述学生图像处理模型输出的第二图像特征以及与所述计算机视觉任务匹配的预测处理结果；

所述基于所述预测处理结果和所述样本图像对应的标准处理结果之间的差异，获取处理结果损失，包括：

基于所述与所述计算机视觉任务匹配的预测处理结果和所述样本图像对应的与所述计算机任务匹配的标准处理结果之间的差异，获取所述处理结果损失。

在一种可能实现方式中，所述计算机视觉任务包括图像分类任务，所述与所述计算机视觉任务匹配的预测处理结果包括预测分类结果，所述与所述计算机视觉任务匹配的标准处理结果包括标准分类结果，所述处理结果损失基于所述预测分类结果和所述标准分类结果之间的差异获取；或者，

所述计算机视觉任务包括语义分割任务，所述与所述计算机视觉任务匹配的预测处理结果包括预测分割结果，所述与所述计算机视觉任务匹配的标准处理结果包括标准分割结果，所述处理结果损失基于所述预测分割结果和所述标准分割结果获取；或者，

所述计算机视觉任务包括目标检测任务，所述与所述计算机视觉任务匹配的预测处理结果包括检测位置预测结果和检测类别预测结果，所述与所述计算机视觉任务匹配的标准处理结果包括检测位置标准结果和检测类别标准结果，所述处理结果损失基于所述检测位置预测结果和所述检测位置标准结果之间的差异，以及所述检测类别预测结果和所述检测类别标准结果之间的差异获取。

在一种可能实现方式中，所述利用所述训练损失更新所述学生图像处理模型的参数，得到目标图像处理模型，包括：

利用所述训练损失更新所述学生图像处理模型的参数，得到更新后的学生图像处理模型；

若当前训练过程不满足训练终止条件，利用所述特征差异损失更新所述第一特征变换模型的参数，得到更新后的第一特征变换模型；

基于所述更新后的第一特征变换模型对所述更新后的学生图像处理模型进行训练，得到所述目标图像处理模型。

在一种可能实现方式中，所述将所述第二图像特征与所述第一图像特征对齐，得到对齐图像特征，包括：

通过线性插值将所述第二图像特征的尺寸与所述第一图像特征的尺寸对齐，得到中间图像特征；

通过通道变换卷积将所述中间图像特征的通道数与所述第一图像特征的通道数对齐，得到所述对齐图像特征。

本申请实施例还提供了一种图像处理方法，所述方法包括：

获取待处理的目标图像；

将所述目标图像输入目标图像处理模型，获取所述目标图像处理模型输出的目标处理结果；其中，所述目标图像处理模型利用上述任一所述的图像处理模型的训练方法训练得到。

本申请实施例还提供了一种图像处理模型的训练装置，所述装置包括：

第一获取单元，用于获取样本图像；

第二获取单元，用于将所述样本图像输入教师图像处理模型，获取所述教师图像处理模型输出的第一图像特征；

第三获取单元，用于将所述样本图像输入学生图像处理模型，获取所述学生图像处理模型输出的第二图像特征，将所述第二图像特征与所述第一图像特征对齐，得到对齐图像特征；

变换单元，用于利用第一特征变换模型对所述对齐图像特征进行变换，得到第三图像特征，所述第一特征变换模型的参数基于图像处理模型的训练过程学习得到；

第四获取单元，用于基于所述第一图像特征和所述第三图像特征之间的差异，获取特征差异损失；基于所述特征差异损失，获取训练损失；

更新单元，用于利用所述训练损失更新所述学生图像处理模型的参数，得到目标图像处理模型。

在一种可能实现方式中，所述第四获取单元，用于保持所述对齐图像特征的通道数不变，将所述对齐图像特征的尺寸由第一尺寸调整为第二尺寸，得到调整图像特征；利用第二特征变换模型对所述调整图像特征进行变换，得到变换图像特征，将所述变换图像特征的尺寸由所述第二尺寸恢复为所述第一尺寸，得到第四图像特征，所述第二特征变换模型的参数基于所述图像处理模型的训练过程学习得到；基于所述第一图像特征和所述第三图像特征之间的差异，获取第一差异损失；基于所述第一图像特征和所述第四图像特征之间的差异，获取第二差异损失；基于所述第一差异损失和所述第二差异损失，获取所述特征差异损失。

在一种可能实现方式中，所述第三获取单元，用于获取所述学生图像处理模型输出的第二图像特征以及预测处理结果；

所述第四获取单元，用于基于所述预测处理结果和所述样本图像对应的标准处理结果之间的差异，获取处理结果损失；基于所述特征差异损失和所述处理结果损失，获取所述训练损失。

在一种可能实现方式中，所述学生图像处理模型用于对图像进行与计算机视觉任务匹配的处理，所述第三获取单元，用于获取所述学生图像处理模型输出的第二图像特征以及与所述计算机视觉任务匹配的预测处理结果；

所述第四获取单元，用于基于所述与所述计算机视觉任务匹配的预测处理结果和所述样本图像对应的与所述计算机任务匹配的标准处理结果之间的差异，获取所述处理结果损失。

在一种可能实现方式中，所述更新单元，用于利用所述训练损失更新所述学生图像处理模型的参数，得到更新后的学生图像处理模型；若当前训练过程不满足训练终止条件，利用所述特征差异损失更新所述第一特征变换模型的参数，得到更新后的第一特征变换模型；基于所述更新后的第一特征变换模型对所述更新后的学生图像处理模型进行训练，得到所述目标图像处理模型。

在一种可能实现方式中，所述第三获取单元，用于通过线性插值将所述第二图像特征的尺寸与所述第一图像特征的尺寸对齐，得到中间图像特征；通过通道变换卷积将所述中间图像特征的通道数与所述第一图像特征的通道数对齐，得到所述对齐图像特征。

本申请实施例还提供了一种图像处理装置，所述装置包括：

第一获取单元，用于获取待处理的目标图像；

第二获取单元，用于将所述目标图像输入目标图像处理模型，获取所述目标图像处理模型输出的目标处理结果；其中，所述目标图像处理模型利用上述任一所述的图像处理模型的训练方法训练得到。

本申请实施例还提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以使所述计算机设备实现上述任一所述的图像处理模型的训练方法或者图像处理方法。

另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以使计算机实现上述任一所述的图像处理模型的训练方法或者图像处理方法。

另一方面，还提供了一种计算机程序产品，所述计算机程序产品包括计算机程序或计算机指令，所述计算机程序或所述计算机指令由处理器加载并执行，以使计算机实现上述任一所述的图像处理模型的训练方法或者图像处理方法。

本申请实施例提供的技术方案，先利用第一特征变换模型对对齐图像特征进行变换，然后再将变换后得到的第三图像特征与教师图像处理模型输出的第一图像特征进行比对来获取训练损失，利用此种训练损失对学生图像处理模型进行训练，能够使第三图像特征尽可能接近第一图像特征，但由于第三图像特征与对齐图像特征之间经过了第一特征变换模型的变换，所以即使第三图像特征与第一图像特征非常接近，也能够保证对齐图像特征与第一图像特征之间有一定的差距，从而能够避免学生图像处理模型输出的第二图像特征过度拟合教师图像处理模型输出的第一图像特征的问题，帮助学生图像处理模型在学习教师图像处理模型输出的图像特征的同时，有更多的学习空间来关注自身模型的特点，进而提高学生图像处理模型的训练效果。

此外，第一特征变换模型的参数是基于图像处理模型的训练过程学习得到的参数，从而能够保证特征变换过程与模型训练过程的匹配度，进而保证特征变换的可靠性，提高训练损失的可靠性，进一步提高图像处理模型的训练效果。

附图说明

图1为本申请基于可学习特征变换的知识蒸馏方法的流程示意图；

图2为本申请实施例学生模型的训练过程架构示意图；

图3为本申请实施例提供的一种实施环境的示意图；

图4为本申请实施例提供的一种图像处理模型的训练方法的流程图；

图5为本申请实施例提供的一种图像处理方法的流程图；

图6为本申请实施例提供的一种图像处理模型的训练装置的示意图；

图7为本申请实施例提供的一种图像处理装置的示意图；

图8为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图，通过实例进一步描述本申请，但不以任何方式限制本申请的范围。

以大规模目标检测数据集COCO为例，以在该数据上预训练好的RetinNet-rx101作为教师模型，并选取RetinaNet-R50作为学生模型来说明如何通过可学习变换模块进行目标检测任务上的知识蒸馏，如图1所示。

步骤S1:将输入数据输入教师模型得到所述教师模型的中间层输出的第一特征图，将所述输入数据输入学生模型得到所述学生模型的中间层输出的第二特征图，具体包括：

S11:将任意一批原始的训练图片输入进教师模型RetinNet-rx101中，在所述教师模型的FPN部分得到中间层输出的第一特征图。

S12:将所述训练图片输入进学生模型RetinaNet-R50中，在所述学生模型的FPN部分得到中间层输出的第二特征图。

步骤S2:利用多层感知机模块得到第三特征图和第四特征图，具体包括：

S21:通过双线性插值和1×1卷积将所述第二特征图与所述第一特征图进行空间维度和通道维度上的对齐，得到对齐后的特征图。

S22:将所述对齐后的特征图通过一个隐藏层数为1，激活函数为ReLU的多层感知机模块得到第三特征图。

S23：设所述对齐后的特征图形状为[N,C,H,W]，将该特征图的形状通过展开和转置操作调整为[N,(H*W),C]，将调整后的特征图通过一个隐藏层数为1，激活函数为ReLU的多层感知机模块得到变换后的特征图，再将变换后的特征图形状调整为[N,C,H,W]得到所述第四特征图。

步骤S3:根据所述第一特征图、第三特征图和第四特征图，计算所述教师模型和所述学生模型间的空间特征损失和通道特征损失，将所述空间特征损失和所述通道特征损失加权求和作为所述教师模型与所述学生模型间的知识蒸馏损失函数，具体包括：

S31:计算所述第一特征图和所述第三特征图间的均方差损失作为所述空间特征损失，其表达式为：

其中，feat _T为所述第一特征图，

为所述第三特征图。

S32:计算所述第一特征图和所述第四特征图间的均方差损失作为所述通道特征损失，其表达式为：

其中，feat _T为所述第一特征图，

为所述第四特征图。

S33:将所述空间特征损失和所述通道特征损失加权求和得到所述知识蒸馏损失函数，其表达式为：

L _distill＝αLoss _Spatial+βLoss _Channel

其中，α,β为超参数，在本实施例中分别设定为2e-5和1e-6。

步骤S4:根据所述知识蒸馏损失函数，对学生模型进行训练实现知识蒸馏。

示例性地，学生模型的训练过程架构可以如图2所示。将输入图像输入教师模型得到教师模型的中间层输出的第一特征图(也即教师特征)，将输入图像输入学生模型得到学生模型的中间层输出的第二特征图(也即学生特征)。将学生特征与教师特征进行对齐，将对齐后的特征图通过一个多层感知机得到第三特征图；将对齐后的特征图的形状通过展开和转置操作进行调整，将调整后的特征图通过另外一个多层感知机得到变换后的特征图，再将变换后的特征图的形状恢复为原来的形状，得到第四特征图。基于第三特征图和教师特征，获取空间特征蒸馏损失；基于第四特征图和教师特征，获取通道特征蒸馏损失；对通道特征蒸馏损失和空间特征蒸馏损失进行加权求和，得到蒸馏损失；基于蒸馏损失将教师模型的知识传递给学生模型，以实现对学生模型的训练。

进一步，取得所述学生模型的下游任务，在本实施例中，下游任务为目标检测任务。

步骤S5:根据所述下游任务类型匹配模型目标函数，在本实施例中，模型的目标函数分为回归损失函数和分类损失函数，所述回归损失函数表达式为：

其中t _i为预测的每一个anchor与Ground Truth(GT)的偏差，而

为每一个anchor与GT的真实偏差。

在本实施例中，所述分类损失函数采用Focal Loss，其表达式为：

L _cls＝-α _t(1-p _t) ^γlog(p _t)

其中p _t为样本被正确分类的概率值，α _t,γ为超参数，在本实施例中分别设定为0.25，2.0。

步骤S6:根据教师模型、学生模型、下游任务调整所述蒸馏损失函数的超参数，目标函数、知识蒸馏损失函数和超参数获得所述学生模型训练的总损失函数；根据所述总损失函数对所述学生模型进行训练，其中所述总损失函数的表达式为：

L _total＝L _reg+L _cls+L _distill

对于图像分类任务，在ImageNet数据集上的结果表明，使用ResNet34作为教师模型，ResNet18作为学生模型，采用本申请所提出的蒸馏方法进行知识蒸馏，可以将测试集上的Top-1准确率从69.9％提升到了71.4％；对于目标检测任务，在MSCOCO数据集上的结果表明，使用RetinaNet-RX101作为教师模型，RetinaNet-R50作为学生模型，采用本申请所提的知识蒸馏方法，可以将学生模型的mAP从37.4％提升到41.0％；对于语义分割任务，在CityScapes数据集上的结果表明，使用PSPNet-ResNet34作为教师模型，PSPNet-ResNet18作为学生模型，采用本申请所提的知识蒸馏方法，可以将学生模型的mIoU从69.9％提升到74.2％(注：ImageNet是一个大规模图像分类数据集，Top1-accuracy用于衡量图像分类准确率；MSCOCO是一个大规模数据集，包含目标检测等任务，bbox的mAP是衡量目标检测性能的一个指标；CityScapes是一个语义分割数据集，mIoU是衡量语义分割性能的一个指标。)此外，本申请也可用于实现跨模型的知识蒸馏，并能取得不错的效果。例如，对于图像分类任务，在Cifar-100数据集上，使用基于卷积神经网络架构的ResNet56作为教师模型，基于Transformer架构的ViT-tiny作为学生模型，可以将学生模型的Top1-accuracy由57.8％提升至77.5％(注：Cifar100是一个小规模图像分类数据集)。

图3示出了本申请实施例提供的实施环境的示意图。该实施环境包括：终端11和服务器12。

本申请实施例提供的图像处理模型的训练方法可以由终端11执行，也可以由服务器12执行，还可以由终端11和服务器12共同执行，本申请实施例对此不加以限定。对于本申请实施例提供的图像处理模型的训练方法由终端11和服务器12共同执行的情况，服务器12承担主要计算工作，终端11承担次要计算工作；或者，服务器12承担次要计算工作，终端11承担主要计算工作；或者，服务器12和终端11二者之间采用分布式计算架构进行协同计算。

本申请实施例提供的图像处理方法可以由终端11执行，也可以由服务器12执行，还可以由终端11和服务器12共同执行，本申请实施例对此不加以限定。对于本申请实施例提供的图像处理方法由终端11和服务器12共同执行的情况，服务器12承担主要计算工作，终端11承担次要计算工作；或者，服务器12承担次要计算工作，终端11承担主要计算工作；或者，服务器12和终端11二者之间采用分布式计算架构进行协同计算。

图像处理模型的训练方法的执行设备与图像处理方法的执行设备可以相同，也可以不同，本申请实施例对此不加以限定。

在一种可能实现方式中，终端11可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品，例如PC(Personal Computer，个人计算机)、手机、智能手机、PDA(Personal Digital Assistant，个人数字助手)、可穿戴设备、PPC(Pocket PC，掌上电脑)、平板电脑、智能车机、智能电视、智能音箱、智能语音交互设备、智能家电、车载终端等。服务器12可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。终端11与服务器12通过有线或无线网络建立通信连接。

本领域技术人员应能理解上述终端11和服务器12仅为举例，其他现有的或今后可能出现的终端或服务器如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

基于上述图3所示的实施环境，本申请实施例提供一种图像处理模型的训练方法，该图像处理模型的训练方法由计算机设备执行，该计算机设备可以为终端11，也可以为服务器12，本申请实施例对此不加以限定。如图4所示，本申请实施例提供的图像处理模型的训练方法可以包括如下步骤401至步骤406。

在步骤401中，获取样本图像。

样本图像是对学生图像处理模型的参数更新一次所依据的图像，样本图像的数量为一个或多个。示例性地，样本图像的数量通常为多个，以保证学生图像处理模型的训练效果。样本图像的通道数和尺寸可以根据经验设置，也可以根据应用场景灵活调整，本申请实施例对此不加以限定。需要说明的是，本申请实施例中的样本图像等同于上述实施例中的输入数据。

示例性地，样本图像可以从样本图像库中提取，也可以从网络中爬取得到，还可以由其他设备发送给计算机设备等。

示例性地，样本图像可以是指开源的图像数据集中的图像，该开源的图像数据集可以是指与计算机视觉任务匹配的图像数据集。例如，若计算机视觉任务为目标检测任务，则图像数据集可以是指COCO(Common Objects in Context，上下文中的公共对象)数据集；若计算机视觉任务为图像分类任务，则图像数据集可以是指ImageNet数据集(一种图像分类数据集)；若计算机视觉任务为语义分割任务，则图像数据集可以是指CityScapes数据集(一种语义分割数据集)。

在步骤402中，将样本图像输入教师图像处理模型，获取教师图像处理模型输出的第一图像特征。

教师图像处理模型是用于为学生图像处理模型的训练过程提供监督信息的模型，也即指导学生图像处理模型的训练过程的模型。需要说明的是，本申请实施例中的“学生图像处理模型”和“教师图像处理模型”是基于其各自的功能进行命名的，其中，“学生图像处理模型”能够从其他模型中学习图像处理知识，“教师图像处理模型”能够将学习到的图像处理知识迁移给其他模型。在一些实施例中，“学生图像处理模型”和“教师图像处理模型”还可以通过其他方式进行命名，本申请实施例对此不加以限定。本申请实施例中的教师图像处理模型等同于上述实施例中的教师模型，本申请实施例中的第一图像特征等同于上述实施例中的第一特征图。

教师图像处理模型和学生图像处理模型构成一个知识蒸馏架构，教师图像处理模型用于将学习到的知识蒸馏到学生图像处理模型中，以实现对学生图像处理模型的训练。示例性地，该在知识蒸馏架构中，将大规模神经网络作为教师图像处理模型，将小规模神经网络作为学生图像处理模型，将教师图像处理模型的知识传递到学生图像处理模型中，进而获得一个复杂度低、性能好、易于部署的学生图像处理模型，达到模型压缩的目的。

示例性地，教师图像处理模型包括特征提取层，教师图像处理模型的特征提取层用于对输入教师图像处理模型的图像进行特征提取，特征提取层的数量可以为一个，也可以为多个，每个特征提取层均能够输出一个图像特征。示例性地，对于教师图像处理模型中的特征提取层的数量为多个的情况，第一个特征提取层用于对输入教师图像处理模型的图像进行特征提取，从第二个特征提取层开始，下一个特征提取层用于对前一个特征提取层输出的图像特征，或者用于对前一个特征提取层输出的图像特征与其他特征(如，输入的图像或者前边的特征提取层输出的图像特征)的融合特征进行特征提取。示例性地，多个特征提取层可以构成FPN(Feature Pyramid Networks，特征金字塔)形式。

示例性地，教师图像处理模型除包括特征提取层外，还可以包括任务处理层。教师图像处理模型中的任务处理层用于对教师图像处理模型的最后一个特征提取层提取的图像特征，或者最后一个特征提取层提取的图像特征与其他特征(如，输入的图像或者前边的特征提取层输出的图像特征)的融合特征进行处理，以输出预测处理结果。

示例性地，教师图像处理模型用于对图像进行与计算机视觉任务匹配的处理。教师图像处理模型的模型结构可以根据经验设置，也可以根据计算机视觉任务的类型灵活调整，本申请实施例对此不加以限定。示例性地，对于计算机视觉任务为目标检测任务的情况，教师图像处理模型的模型结构可以是指RetinNet-RX101模型(一种用于图像处理模型)；对于计算机视觉任务为图像分类任务的情况，教师图像处理模型的模型结构可以是指ResNet34模型(一种用于图像处理模型)；对于计算机视觉任务为语义分割任务的情况，教师图像处理模型的模型结构可以是指PSPNet-ResNet34模型(一种图像处理模型)。当然，教师图像处理模型的模型结构还可以为其他结构，如，从上述模型中选取部分层构成的结构等，本申请实施例在此不再一一赘述。

本申请实施例提供的图像处理模型的训练方法是一种基于中间特征的知识蒸馏方法，也就是说，用于对学生图像处理模型的训练提供指导信息的包括教师图像处理模型输出的图像特征。本申请实施例中，在将样本图像输入教师图像处理模型后，能够获取教师图像处理模型输出的第一图像特征，进而利用该第一图像特征为学生图像处理模型的训练提供指导信息。示例性地，教师图像处理模型输出的第一图像特征是指教师图像处理模型的特征提取层输出的第一图像特征。

示例性地，教师图像处理模型的特征提取层的数量可能为一个，也可能为多个。对于教师图像处理模型的特征提取层的数量为一个的情况，直接将该一个特征提取层提取的特征作为第一图像特征，此种情况下，第一图像特征的数量为一个；对于教师图像处理模型的特征提取层的数量为多个的情况，可以从多个特征提取层提取的多个图像特征中选取参考数量个图像特征作为第一图像特征。参考数量不大于特征提取层的总数量，参考数量可以根据经验设置，或者根据应用场景灵活调整。

示例性地，对于第一图像特征的数量为多个的情况，不同第一图像特征的尺寸可以相同，也可以不同；不同图像特征的通道数可以相同，也可以不同。

在步骤403中，将样本图像输入学生图像处理模型，获取学生图像处理模型输出的第二图像特征，将第二图像特征与第一图像特征对齐，得到对齐图像特征。

学生图像处理模型是指待训练的图像处理模型，在将样本图像输入学生图像处理模型后，能够获取学生图像处理模型输出的第二图像特征。示例性地，学生图像处理模型同样包括特征提取层，在将样本图像输入学生图像处理模型后，能够获取学生图像处理模型的特征提取层输出的第二图像特征。需要说明的是，本申请实施例中的学生图像处理模型等同于上述实施例中的学生模型，本申请实施例中的第二图像特征等同于上述实施例中的第二特征图。

示例性地，学生图像处理模型包括的特征提取层的数量可能与教师图像处理模型包括的特征提取层的数量相同，也可能与教师图像处理模型包括的特征提取层的数量不同，本申请实施例对此不加以限定。但是，无论哪种情况，均需要保证第二图像特征的数量与第一图像特征的数量相同，也即，从学生图像处理模型的各个特征提取层输出的图像特征中选取与第一图像特征的数量相同的图像特征作为第二图像特征。

学生图像处理模型的模型结构可以根据经验设置，也可以根据计算机视觉任务的类型灵活调整，本申请实施例对此不加以限定。示例性地，对于计算机视觉任务为目标检测任务，图像处理模型的模型结构是指RetinNet-RX101模型的情况，学生图像处理模型的结构可以是指RetinaNet-R50模型(一种图像处理模型)；对于计算机视觉任务为图像分类任务，教师图像处理模型的模型结构是指ResNet34模型的情况，学生图像处理模型的结构可以是指ResNet18模型(一种用于图像处理模型)；对于计算机视觉任务为语义分割任务，教师图像处理模型的模型结构是指PSPNet-ResNet34模型的情况，学生图像处理模型的结构可以是指PSPNet-ResNet18模型(一种图像处理模型)。当然，学生图像处理模型的模型结构还可以为其他结构，如，从上述模型中选取部分层构成的结构等，本申请实施例在此不再一一赘述。

在获取第二图像特征之后，可以建立第二图像特征和第一图像特征之间的对应关系，相互对应的一组特征中的第一图像特征用于为该组特征中的第二图像特征提供监督信息。

在获取第二图像特征后，将第二图像特征与第一图像特征对齐，以得到对齐图像特征。对齐图像特征的尺寸和第一图像特征的尺寸相同，对齐图像特征的通道数与第一图像特征的通道数相同。需要说明的是，本申请实施例中的对齐图像特征等同于上述实施例中的对齐后的特征图。对于第一图像特征(或第二图像特征)的数量为多个的情况，将第二图像特征与第一图像特征对齐是指将每个第二图像特征分别与每个第二图像特征对应的第一图像特征对齐。将每个第二图像特征分别与每个第二图像特征对应的第一图像特征对齐的原理相同，本申请以第一图像特征(或第二图像特征)的数量为一个为例进行说明。

在一种可能实现方式中，将第二图像特征与第一图像特征对齐，得到对齐图像特征的实现方式包括：通过线性插值将第二图像特征的尺寸与第一图像特征的尺寸对齐，得到中间图像特征；通过通道变换卷积将中间图像特征的通道数与第一图像特征的通道数对齐，得到对齐图像特征。

通过线性插值能够将第二图像特征的尺寸变换为第一图像特征的尺寸，以实现空间维度的对齐，将实现了空间维度的对齐后得到的图像特征作为中间图像特征。线性插值方式可以根据经验设置，也可以根据应用场景灵活调整，例如，线性插值方式可以是指双线性插值、双三次插值、area(区域)插值等。其中，双三次插值是指一种更加复杂的插值方法，它能创造出比双线性插值更平滑的图像边缘。

通过通道变换卷积能够将中间图像特征的通道数变换为第一图像特征的通道数，以实现通道维度的对齐，将实现了空间维度的对齐和通道维度的对齐后得到的图像特征作为对齐图像特征。通道变换卷积可以通过不改变图像特征的尺寸，仅改变图像特征的通道数的卷积核实现，例如，通过尺寸为1×1的卷积核实现对中间图像特征的通道变换卷积。

需要说明的是，以上所述将第二图像特征与第一图像特征对齐，得到对齐图像特征的实现方式仅为示例性举例，本申请实施例并不局限于此。在一些实施例中，将第二图像特征与第一图像特征对齐，得到对齐图像特征的实现方式还可以是指：通过通道变换卷积将第二图像特征的通道数与第一图像特征的通道数对齐，得到中间图像特征；通过线性插值将中间图像特征的尺寸与第一图像特征的尺寸对齐，得到对齐图像特征。在另一些实施例中，将第二图像特征与第一图像特征对齐，得到对齐图像特征的实现方式还可以是指：将第二图像特征和第一图像特征输入对齐网络，得到对齐网络输出的对齐图像特征，其中，对齐网络用于以输入的第一图像特征为基准，对输入的第二图像特征进行对齐。

在示例性实施例中，在将样本图像输入学生图像处理模型后，除了能够获取学生图像处理模型输出的第二图像特征外，还能够获取学生图像处理模型输出的预测处理结果。示例性地，学生图像处理模型除了包括特征提取层外，还包括任务处理层。此种情况下，在将样本图像输入学生图像处理模型后，除了能够获取学生图像处理模型的特征提取层输出的第二图像特征外，还能够获取学生图像处理模型的任务处理层输出的预测处理结果。

示例性地，学生图像处理模型用于对图像进行与计算机视觉任务匹配的处理。计算机视觉任务可视为学生图像处理模型的下游任务。此种情况下，获取学生图像处理模型输出的预测处理结果是指获取学生图像处理模型输出的与计算机视觉任务匹配的预测处理结果。

示例性地，计算机视觉任务包括图像分类任务、语义分割任务和目标检测任务中的任一种。其中，图像分类任务用于确定出整个图像对应的类别，语义分割任务用于确定出图像中的各个像素分别对应的类别，目标检测任务用于检测出图像中的目标物所处的位置以及确定检测出的目标物的类别。示例性地，若计算机视觉任务包括图像分类任务，则学生图像处理模型的任务处理层可以包括一个分支，该一个分支用于输出预测分类结果，此种情况下，与计算机视觉任务匹配的预测处理结果包括预测分类结果。若计算机视觉任务包括语义分割任务，则学生图像处理模型的任务处理层可以包括一个分支，该一个分组用于输出预测分割结果，此种情况下，与计算机视觉任务匹配的预测处理结果包括预测分割结果。若计算机视觉任务包括目标检测任务，则学生图像处理模型的任务处理层可以包括两个分支，其中一个分支用于输出检测位置预测结果，另外一个分支用于输出检测类别预测结果，此种情况下，与计算机视觉任务匹配的预测处理结果包括检测位置预测结果和检测类别预测结果。

在步骤404中，利用第一特征变换模型对对齐图像特征进行变换，得到第三图像特征，第一特征变换模型的参数基于图像处理模型的训练过程学习得到。

本申请实施例中，在获取对齐图像特征后，利用第一特征变换模型对对齐图像特征进行变换，得到第三图像特征，然后再根据第三图像特征和教师图像处理模型输出的第一图像特征进行比对来计算训练损失，基于根据此种方式获取的训练损失对学生图像处理模型进行训练，能够使第三图像特征尽可能接近第一图像特征，但由于第三图像特征与对齐图像特征之间经过了第一特征变换模型的变换，所以即使第三图像特征与第一图像特征非常接近，也能够保证获取对齐图像特征所依据的第二图像特征与第一图像特征之间有一定的差距，从而能够避免学生图像处理模型过度拟合教师图像处理模型的问题，帮助学生图像处理模型在学习教师图像处理模型输出的图像特征的同时，有更多的学习空间来关注自身模型的特点，进而提高学生图像处理模型的训练效果。

第一特征变换模型用于基于可学习的参数对输入的图像特征进行变换，也就是说，第一特征变换模型的参数基于图像处理模型的训练过程学习得到，能够保证第一特征变换模型的变换过程与图像处理模型的训练过程的匹配度，从而保证特征变换的可靠性，保证根据变换后得到的第三图像特征进行图像处理模型的训练的可靠性。示例性地，第一特征变换模型还可以称为可学习变换模块、可学习变换模型等。需要说明的是，本申请实施例中的第三图像特征等同于上述实施例中的第三特征图。

示例性地，第一特征变换模型的参数基于图像处理模型的训练过程学习得到是指第一特征变换模型的参数随着图像处理模型的训练过程的迭代不断更新。也就是说，第N(N为不小于1的整数)次图像处理模型的训练过程所利用的第一特征变换模型的参数是基于前(N- 1)次图像处理模型的训练过程学习得到的。在前(N-1)次图像处理模型的训练过程中，每执行一次图像处理模型的训练过程，则根据当前次图像处理模型的训练过程中所获取的特征差异损失更新一次第一特征变换模型的参数。

第一特征变换模型的结构可以根据经验设置，也可以根据经验场景灵活调整，只要保证第一特征变换模型具有可学习的参数即可。示例性地，第一特征变换模型可以是指一个多层感知机，多层感知机的结构较为简单，能够减少特征变换所需的计算量，降低参数调整的复杂性。示例性地，多层感知机的隐藏层的数量以及多层感知机所利用的激活函数的类型均可以根据经验设置，或者根据应用场景灵活调整。例如，多层感知机的隐藏层的数量可以为1，也可以为2等。多层感知机所利用的激活函数可以是指ReLU(Rectified Linear Unit，线性整流函数)，也可以是指Sigmoid(S型)函数等。

需要说明的是，第一特征变换模型的变换过程不改变图像特征的尺寸和通道数，也就是说，第三图像特征的尺寸和通道数分别与对齐图像特征的尺寸和通道数相同，又由于对齐图像特征的尺寸和通道数分别与第一图像特征的尺寸和通道数相同，所以，第三图像特征的尺寸和通道数分别与第一图像特征的尺寸和通道数相同，以便于衡量第三图像特征和第一图像特征之间的差异。

在步骤405中，基于第一图像特征和第三图像特征之间的差异，获取特征差异损失；基于特征差异损失，获取训练损失。

特征差异损失用于为学生图像处理模型提供特征提取方面的监督信息。

在一种可能实现方式中，基于第一图像特征和第三图像特征之间的差异，获取特征差异损失的实现方式可以为：基于第一图像特征和第三图像特征之间的差异，获取第一差异损失；基于第一差异损失，获取特征差异损失。

两个图像特征之间的差异可以通过将两个图像特征代入损失函数后计算得到的结果体现，损失函数的类型可以根据经验选定，例如，损失函数的类型可以包括但不限于交叉熵损失函数、均方误差损失函数、KL(Kullback-Leibler)散度损失函数等。

示例性地，基于第一图像特征和第三图像特征之间的差异，获取第一差异损失的过程包括：将第一图像特征和第三图像特征代入损失函数进行计算，基于计算得到的结果获取第一差异损失。例如，将计算得到的结果作为第一差异损失，或者，对计算得到的结果进行处理(如，取整、乘以一个正数、加上一个正数等)，将处理后得到的结果作为第一差异损失。

例如，以基于均方误差损失函数计算第一差异损失为例，第一差异损失可以基于公式1计算得到：

其中，Loss _Spatial表示第一差异损失；MSELoss(，)表示均方误差损失函数的表达式，用于计算括号内的两项信息之间的均方误差损失；feat _T表示第一图像特征；

表示第三图像特征。在一些实施例中，第一差异损失还可以称为空间特征损失。

在获取第一差异损失后，基于第一差异损失，获取特征差异损失。在示例性实施例中，基于第一差异损失，获取特征差异损失的方式可以为：将第一差异损失作为特征差异损失，此种方式能够提高获取特征差异损失的效率。在示例性实施例中，基于第一差异损失，获取特征差异损失的方式还可以为：基于第一图像特征和第四图像特征之间的差异，获取第二差异损失；基于第一差异损失和第二差异损失，获取特征差异损失。其中，第四图像特征是在第二图像特征的基础上获取的用于与第一图像特征比对的与第三图像特征不同的特征。通过综合考虑第一差异损失和第二差异损失来获取特征差异损失，有利于提高特征差异损失的全面性和可靠性，进而提高训练损失的可靠性，以及提高利用训练损失对学生图像处理模型的训练效果。

示例性地，第四图像特征的获取方式可以为：保持对齐图像特征的通道数不变，将对齐图像特征的尺寸由第一尺寸调整为第二尺寸，得到调整图像特征；利用第二特征变换模型对调整图像特征进行变换，得到变换图像特征，将变换图像特征的尺寸由第二尺寸恢复为第一尺寸，得到第四图像特征。需要说明的是，本申请实施例中的第四图像特征等同于上述实施例中的第四特征图。

调整图像特征与对齐图像特征相比，通道数保持不变，尺寸发生了变化。第一尺寸为对齐图像特征的原尺寸，第二尺寸为调整图像特征的尺寸，第一尺寸和第二尺寸的关系可以根据经验设置，或者根据应用场景灵活调整。示例性地，第一尺寸和第二尺寸的关系可以为第一尺寸中的宽度和高度的乘积与第二尺寸中的宽度和高度的乘积相同。例如，第一尺寸可以是指宽度为W高度为H，第二尺寸可以是指宽度为(W*H)高度为1，或者宽度为1高度为(W*H)。示例性地，将对齐图像特征的尺寸由第一尺寸调整为第二尺寸的过程可以通过裁剪以及拼接实现。

示例性地，在将对齐图像特征的尺寸由第一尺寸调整为第二尺寸的过程中，还可以执行转置操作，例如，对齐图像特征的维度可以表示为[N,C,H,W]，将对齐图像特征图的尺寸由第一尺寸调整为第二尺寸以及执行转置操作后，调整图像特征的维度可以表示为[N,(H*W),1,C]或[N,1,(H*W),C]。其中，N(N为正整数)表示样本图像的数量，C(C为正整数)表示对齐图像特征的通道数，H(H为正数)表示对齐图像特征的高度，W(W为正数)表示对齐图像特征的宽度。示例性地，由于调整图像特征与对齐图像特征的通道数是相同的，仅在尺寸维度进行了调整，因此，调整图像特征可视为弱化图像特征的尺寸维度的信息，更加关注图像特征的通道维度的信息的特征。

在获取调整图像特征后，利用第二特征变换模型对调整图像特征进行变换，得到变换图像特征。其中，第二特征变换模型的参数基于图像处理模型的训练过程学习得到。也就是说，第二特征变换模型的参数随着图像处理模型的训练过程的迭代不断更新，从而保证第二特征变换模型的特征变换过程与图像处理模型的训练过程的匹配度，提高第二特征变换模型的变换可靠性。

第二特征变换模型的结构可以根据经验设置，也可以根据经验场景灵活调整。示例性地，第二特征变换模型可以是指一个多层感知机，多层感知机的结构较为简单，能够减少特征变换所需的计算量，降低参数调整的复杂性。示例性地，多层感知机的隐藏层的数量以及多层感知机所利用的激活函数的类型均可以根据经验设置，或者根据应用场景灵活调整。例如，多层感知机的隐藏层的数量可以为1，也可以为2等。多层感知机所利用的激活函数可以是指ReLU，也可以是指Sigmoid函数等。示例性地，第二特征变换模型的结构可以与第一特征变换模型的结构相同，也可以与第一特征变换模型的结构不同。示例性地，第二特征变换模型同样为一个参数可学习的模型，也即第二特征变换模型的参数可以在图像处理模型的训练过程中不断更新，以保证特征变换过程与训练过程的匹配度，提高特征变换的可靠性。

需要说明的是，第二特征变换模型的变换过程不改变图像特征的尺寸和通道数，也就是说，变换图像特征的尺寸和通道数分别与调整图像特征的尺寸和通道数相同。由于调整图像特征的尺寸是与对齐图像特征不同的，因此，在获取变换图像特征后，需要将变换图像特征在尺寸维度进行恢复，以将变换图像特征的尺寸由第二尺寸恢复为第一尺寸，将在尺寸维度进行恢复后得到的图像特征作为第四图像特征。在尺寸维度进行恢复时，保持通道数不变，也就是说，第四图像特征的尺寸和通道数分别与对齐图像特征的尺寸和通道数相同，又由于对齐图像特征的尺寸和通道数分别与第一图像特征的尺寸和通道数相同，所以，第四图像特征的尺寸和通道数分别与第一图像特征的尺寸和通道数相同，以便于衡量第四图像特征和第一图像特征之间的差异。例如，若调整图像特征的维度表示为[N,(H*W),1,C]或[N,1,(H*W),C]，则第四图像特征的维度可以表示为[N,C,H,W]。

基于第一图像特征和第四图像特征之间的差异，获取第二差异损失的原理与基于第一图像特征和第三图像特征之间的差异，获取第一差异损失的原理相同，此处不再加以赘述。

例如，以基于均方误差损失函数计算第二差异损失为例，第二差异损失可以基于公式2计算得到：

其中，Loss _Channel表示第二差异损失；MSELoss(，)表示均方误差损失函数的表达式，用于计算括号内的两项信息之间的均方误差损失；feat _T表示第一图像特征；

表示第四图像特征。在一些实施例中，第二差异损失还可以称为通道特征损失。

在示例性实施例中，基于第一差异损失和第二差异损失，获取特征差异损失的方式可以为将第一差异损失和第二差异损失的和作为特征差异损失，也可以为将第一差异损失和第二差异损失的加权和作为特征差异损失。在将第一差异损失和第二差异损失的加权和作为特征差异损失的情况下，第一差异损失和第二差异损失各自对应的权重可以根据经验设置，或者根据应用场景灵活调整。

例如，基于第一差异损失和第二差异损失，获取特征差异损失的过程可以基于公式3实现：

L _distill＝αLoss _Spatial+βLoss _Channel (公式3)

其中，L _distill表示特征差异损失；Loss _Spatial表示第一差异损失；Loss _Channel表示第二差异损失；α表示第一差异损失对应的权重；β表示第二差异损失对应的权重。α,β为超参数，可以根据经验灵活设置，例如，α和β可以分别设置为2e-5和1e-6。

在获取特征差异损失后，基于特征差异损失获取训练损失。其中，训练损失是对学生图像处理模型的参数进行更新所直接依据的损失。基于特征差异损失获取训练损失的实现方式可以根据经验设置，或者根据应用场景灵活调整，本申请实施例对此不加以限定。

在示例性实施例中，基于特征差异损失获取训练损失的方式可以为：将特征差异损失作为训练损失。此种方式能够提高训练损失的获取效率。

在示例性实施例中，对于将样本图像输入学生图像处理模型后，除了获取学生图像处理模型输出的第一图像特征外，还获取预测处理结果的情况，基于特征差异损失获取训练损失的方式还可以为：基于预测处理结果和样本图像对应的标准处理结果之间的差异，获取处理结果损失；基于特征差异损失和处理结果损失，获取训练损失。通过综合考虑特征差异损失和处理结果损失来获取训练损失，有利于提高训练损失的全面性和可靠性，进而提高图像处理模型的训练效果。

标准处理结果是指样本图像对应的真实的处理结果，用于为学生图像处理模型输出的预测处理结果提供监督信息。标准处理结果可以由技术人员确定。示例性地，对于学生图像处理模型用于对图像进行与计算机视觉任务匹配的处理的情况，标准处理结果可以是指与计算机视觉任务匹配的标准处理结果。与计算机视觉任务匹配的标准处理结果的类型与计算机视觉任务的类型有关。对于计算机视觉任务包括图像分类任务的情况，与计算机视觉任务匹配的标准处理结果包括标准分类结果；对于计算机视觉任务包括语义分割任务的情况，与计算机视觉任务匹配的标准处理结果包括标准分割结果；对于计算机视觉任务包括目标检测任务的情况，与计算机视觉任务匹配的标准处理结果包括检测位置标准结果和检测类别标准结果。

对于预测处理结果为与计算机视觉任务匹配的预测处理结果，标准处理结果为与计算机视觉任务匹配的标准处理结果的情况，基于预测处理结果和样本图像对应的标准处理结果之间的差异，获取处理结果损失是指基于与计算机视觉任务匹配的预测处理结果和样本图像对应的与计算机任务匹配的标准处理结果之间的差异，获取处理结果损失。

处理结果损失用于衡量学生图像处理模型输出的预测处理结果与标准处理结果之间的差异，学生图像处理模型输出的预测处理结果与标准处理结果之间的差异越大，处理结果损失越大。

示例性地，对于基于与计算机视觉任务匹配的预测处理结果和样本图像对应的与计算机任务匹配的标准处理结果之间的差异，获取处理结果损失的情况，处理结果损失的获取方式与计算机视觉任务的类型有关。对于计算机视觉任务包括图像分类任务的情况，处理结果损失基于预测分类结果和标准分类结果之间的差异获取；对于计算机视觉任务包括语义分割任务的情况，处理结果损失基于预测分割结果和标准分割结果之间的差异获取；对于计算机视觉任务包括目标检测任务的情况，处理结果损失基于检测位置预测结果和检测位置标准结果之间的差异，以及检测类别预测结果和检测类别标准结果之间的差异获取。

两个结果之间的差异可以通过将两个结果代入损失函数后计算得到的结果体现。计算不同的两个结果之间的差异所依据的损失函数可以相同，也可以不同，本申请实施例对此不加以限定。

示例性地，基于预测分类结果和标准分类结果之间的差异获取处理结果损失的过程可以为：将预测分类结果和标准分类结果代入图像分类任务对应的损失函数，基于计算得到的结果获取处理结果损失。图像分类任务对应的损失函数可以包括但不限于交叉熵损失函数、均方误差损失函数等。

示例性地，基于预测分割结果和标准分割结果之间的差异获取处理结果损失的过程可以为：将预测分割结果和标准分割结果代入语义分割任务对应的损失函数，基于计算得到的结果获取处理结果损失。语义分割任务对应的损失函数可以包括但不限于交叉熵损失函数、均方误差损失函数等。

示例性地，基于检测位置预测结果和检测位置标准结果之间的差异，以及检测类别预测结果和检测类别标准结果之间的差异获取处理结果损失的方式可以为：将检测位置预测结果和检测位置标准结果代入目标检测任务对应的第一损失函数，基于计算得到的结果获取第一检测损失；将检测类别预测结果和检测类别标准结果代入目标检测任务对应的第二损失函数，基于计算得到的结果获取第二检测损失；基于第一检测损失和第二检测损失，获取处理结果损失。

第一损失函数是用于衡量目标检测任务中检测到的目标的位置的准确性的损失函数，第二损失函数是用于衡量目标检测任务中检测到的目标的类别的准确性的损失函数。示例性地，第一损失函数包括但不限于L1 Loss(L1范数损失函数)、L2 Loss(L2范数损失函数)、Smooth L1 Loss(稳定L1范数损失函数)、IOU(Intersection over Union，交并比)损失函数等；第二损失函数包括但不限于交叉熵损失函数、Focal Loss(有焦点的损失函数)等。在一些实施例中，第一损失函数还可以称为回归损失函数，第二损失函数还可以称为分类损失函数。

例如，以第一损失函数为Smooth L1 Loss、第二损失函数为Focal Loss为例，第一检测损失可以基于公式4计算得到，第二检测损失可以基于公式5计算得到：

L _cls＝-α _t(1-p _t) ^γlog(p _t) (公式5)

其中，

表示第一检测损失；SmoothL1(,)表示Smooth L1 Loss的表达式；t _i表示检测位置预测结果中的元素i；

表示检测位置标准结果中的元素i；元素i为x、y、w和h中的元素，x和y表示检测位置的某一点(如，左上角、右上角、中心点等)的坐标，w和h表示检测位置的宽度和长度。

L _cls表示第二检测损失；p _t表示检测类别预测结果与检测类别标准结果之间的接近程度，p _t的表达式如公式6所示；α _t和γ为超参数，可以根据经验设置，或者根据应用场景灵活调整，例如，α _t和γ可以分别设置为0.25和2.0。

其中，p表示检测目标被正确分类的概率值；y＝1表示检测目标被正确分类。

示例性地，基于第一检测损失和第二检测损失，获取处理结果损失可以是指将第一检测损失和第二检测损失的和作为处理结果损失，也可以是指将第一检测损失和第二检测损失的加权和作为处理结果损失等。对于将第一检测损失和第二检测损失的加权和作为处理结果损失的情况，第一检测损失和第二检测损失各自对应的权重可以根据经验设置，或者根据应用场景灵活调整。

在获取特征差异损失和处理结果损失后，基于特征差异损失和处理结果损失，获取更新学生图像处理模型的参数所依据的训练损失。示例性地，特征差异损失还可以称为知识蒸馏损失，处理结果损失还可以称为下游任务损失，训练损失还可以称为总损失。基于特征差异损失和处理结果损失，获取训练损失的过程可视为根据下游任务调整蒸馏损失的超参数，以获取学生图像处理模型的总损失的过程。

示例性地，可以将特征差异损失和处理结果损失的和作为训练损失，或者，将特征差异损失和处理结果损失的加权和作为训练损失等。对于将特征差异损失和处理结果损失的加权和作为训练损失的情况，特征差异损失和处理结果损失各自对应的权重可以根据经验设置，或者根据应用场景灵活调整。

例如，以计算机视觉任务为目标检测任务为例，训练损失可以基于公式7计算得到：

L _total＝L _reg+L _cls+L _distill (公式7)

其中，L _total表示训练损失；L _reg表示第一检测损失；L _cls表示第二检测损失；L _reg+L _cls表示处理结果损失；L _distill表示特征差异损失。

需要说明的是，以上基于特征差异损失获取训练损失的实现方式仅为示例性举例，本申请实施例并不局限于此。在一些实施例中，基于特征差异损失获取训练损失的实现方式还可以为：获取教师图像处理模型输出的参考处理结果以及学生图像处理模型输出的预测处理结果；基于参考处理结果和预测处理结果之间的差异，获取结果差异损失；基于结果差异损失和特征差异损失，获取训练损失。其中，教师图像处理模型所对应的计算机视觉任务与学生图像处理模型所对应的计算机视觉任务的类型相同。在一些实施例中，基于特征差异损失获取训练损失的实现方式还可以为：获取教师图像处理模型输出的参考处理结果以及学生图像处理模型输出的预测处理结果；基于参考处理结果和预测处理结果之间的差异，获取结果差异损失；基于预测处理结果和样本图像对应的标准处理结果之间的差异，获取处理结果损失；基于特征差异损失、结果差异损失以及处理结果损失，获取训练损失。

在步骤406中，利用训练损失更新学生图像处理模型的参数，得到目标图像处理模型。

在获取训练损失后，利用训练损失对学生图像处理模型的参数进行更新，以完成对学生图像处理模型的一次训练。示例性地，利用训练损失更新学生图像处理模型的参数的过程可以为：基于训练损失，计算学生图像处理模型的参数的更新梯度，根据更新梯度更新学生图像处理模型的参数。例如，基于训练损失，可以利用梯度下降法计算学生图像处理模型的参数的更新梯度。

在示例性实施例中，利用训练损失更新学生图像处理模型的参数，得到目标图像处理模型的过程包括：利用训练损失更新学生图像处理模型的参数，得到更新后的学生图像处理模型；判断当前训练过程是否满足训练终止条件；若当前训练过程满足训练终止条件，将更新后的学生图像处理模型作为目标图像处理模型；若当前训练过程不满足训练终止条件，对更新后的学生图像处理模型进行训练，直至当前训练过程满足训练终止条件，将满足训练终止条件时得到的图像处理模型作为目标图像处理模型。

当前训练过程满足训练终止条件根据经验设置，或者根据应用场景灵活调整，本申请实施例对此不加以限定。示例性地，当前训练过程满足训练终止条件包括但不限于当前训练过程已执行的图像处理模型训练次数达到次数阈值、当前训练过程获取的用于对学生图像处理模型的参数进行更新的训练损失小于损失阈值、当前训练过程获取的用于对学生图像处理模型的参数进行更新的训练损失收敛中的任一项。次数阈值和损失阈值均根据经验设置，或者根据应用场景灵活调整。

若当前训练过程满足训练终止条件，则结束图像处理模型的训练过程，将此时训练得到的更新后的学生图像处理模型作为目标图像处理模型。若当前训练过程不满足训练终止条件。则需要继续对更新后的学生图像处理模型进行训练。

在示例性实施例中，对更新后的学生图像处理模型进行训练的过程包括：利用特征差异损失更新第一特征变换模型的参数，得到更新后的第一特征变换模型；基于更新后的第一特征变换模型对更新后的学生图像处理模型进行训练。由于特征差异损失是基于第一特征变换模型变换得到的图像特征得到的，涉及到第一特征变换模型的处理过程，所以利用特征差异损失来更新第一特征变换模型的参数。例如，基于特征差异损失计算第一特征变换模型的参数的更新梯度，利用更新梯度更新第一特征变换模型的参数。

示例性地，基于更新后的第一特征变换模型对更新后的学生图像处理模型进行训练的过程与获取更新后的学生图像处理模型的过程相比，学生图像处理模型变化为了更新后的学生图像处理模型，第一特征变换模型变化为了更新后的第一特征变换模型。基于更新后的第一特征变换模型对更新后的学生图像处理模型进行训练的过程所依据的样本图像与获取更新后的学生图像处理模型的过程所依据的样本图像可以相同，也可以不同。

示例性地，对于特征差异损失的获取过程除利用了第一特征变换模型外，还利用了第二特征变换模型的情况，除了利用特征差异损失更新第一特征变换模型的参数，得到更新后的第一特征变换模型外，还利用特征差异损失更新第二特征变换模型的参数，得到更新后的第二特征变换模型。此种情况下，基于更新后的第一特征变换模型和更新后的第二特征变换模型对更新后的学生图像处理模型进行训练。

需要说明的是，在对更新后的学生图像处理模型进行训练的过程中，教师图像处理模型可以发生变化，也可以不发生变化。对于教师图像处理模型为预先训练好的模型的情况，在对更新后的学生图像处理模型进行训练的过程中，教师图像处理模型不发生变化，也即仍然将样本图像输入原来的教师图像处理模型进行处理。对于教师图像处理模型随着学生图像处理模型的训练过程实时训练的情况，在对更新后的学生图像处理模型进行训练的过程中，教师图像处理模型发生变化，也即将样本图像输入更新后的教师图像处理模型进行处理。

示例性地，教师图像处理模型变化的方式为：获取教师图像处理模型输出的参考处理结果；基于参考处理结果和样本图像对应的标准处理结果之间的差异，获取教师图像处理模型对应的损失；利用教师图像处理模型对应的损失，更新教师图像处理模型的参数，得到更新后的教师图像处理模型。

示例性地，以对更新后的学生图像处理模型进行训练的过程中，教师图像处理模型不发生变化为例，基于更新后的第一特征变换模型对更新后的学生图像处理模型进行训练的过程可以包括：获取样本图像；将样本图像输入教师图像处理模型，获取教师图像处理模型输出的第一图像特征；将样本图像输入更新后的学生图像处理模型，获取更新后的学生图像处理模型输出的第五图像特征，将第五图像特征与第一图像特征对齐，得到更新后的对齐图像特征；利用更新后的第一特征变换模型对更新后的对齐图像特征进行变换，得到第六图像特征；基于第一图像特征和第六图像特征之间的差异，获取更新后的特征差异损失；基于更新后的特征差异损失，获取更新后的训练损失；利用更新后的训练损失对更新后的学生图像处理模型的参数进行更新，得到再次更新后的学生图像处理模型；若当前训练过程满足训练终止条件，将再次更新后的学生图像处理模作为目标图像处理模型。

示例性地，以对更新后的学生图像处理模型进行训练的过程中，教师图像处理模型不发生变化为例，基于更新后的第一特征变换模型和更新后的第二特征变换模型对更新后的学生图像处理模型进行训练的过程还可以包括：获取样本图像；将样本图像输入教师图像处理模型，获取教师图像处理模型输出的第一图像特征；将样本图像输入更新后的学生图像处理模型，获取更新后的学生图像处理模型输出的第五图像特征，将第五图像特征与第一图像特征对齐，得到更新后的对齐图像特征；利用更新后的第一特征变换模型对更新后的对齐图像特征进行变换，得到第六图像特征；保持更新后的对齐图像特征的通道数不变，将更新后的对齐图像特征的尺寸由第一尺寸调整为第二尺寸，得到更新后的调整图像特征；利用更新后的第二特征变换模型对更新后的调整图像特征进行变换，得到更新后的变换图像特征，将更新后的变换图像特征的尺寸由第二尺寸恢复为第一尺寸，得到第七图像特征；基于第一图像特征和第六图像特征之间的差异，获取更新后的第一差异损失；基于第一图像特征和第七图像特征之间的差异，获取更新后的第二差异损失；基于更新后的第一差异损失和更新后的第二差异损失，获取更新后的特征差异损失；利用更新后的训练损失对更新后的学生图像处理模型的参数进行更新，得到再次更新后的学生图像处理模型；若当前训练过程满足训练终止条件，将再次更新后的学生图像处理模作为目标图像处理模型。

无论哪种情况，在获取目标图像处理模型后，利用目标图像处理模型对图像进行处理，该过程详见图5所示的实施例，此处暂不赘述。

相关技术中，针对不同的计算机视觉任务衍生出了多种多样的知识蒸馏方法，而这些方法往往有很多手工设计的部分，如损失函数、特征掩膜，这些手工设计的部分一方面使得蒸馏方法的通用性降低，另一方面带来额外的超参数，使得调参难度增大。而本申请实施例提供的图像处理模型的训练方法，基于通用的参数可学习的特征变换模型实现对特征的可学习变换，提高知识蒸馏效果以及图像处理模型的训练效果，无需针对不同任务设计复杂的特征变换模型，无需引入复杂的超参数，能够免去繁琐的参数调整步骤，提高知识蒸馏在多个任务上的通用性，在提升图像处理模型的训练效果的同时免去手工设计结构的繁琐，能够在多种计算机视觉任务上(如图像分类任务、目标检测任务、语义分割任务等)实现性能提升，取得不错的任务处理效果。

本申请实施例提供的图像处理模型的训练方法，先利用第一特征变换模型对对齐图像特征进行变换，然后再将变换后得到的第三图像特征与教师图像处理模型输出的第一图像特征进行比对来获取训练损失，利用此种训练损失对学生图像处理模型进行训练，能够使第三图像特征尽可能接近第一图像特征，但由于第三图像特征与对齐图像特征之间经过了第一特征变换模型的变换，所以即使第三图像特征与第一图像特征非常接近，也能够保证对齐图像特征与第一图像特征之间有一定的差距，从而能够避免学生图像处理模型输出的第二图像特征过度拟合教师图像处理模型输出的第一图像特征的问题，帮助学生图像处理模型在学习教师图像处理模型输出的图像特征的同时，有更多的学习空间来关注自身模型的特点，进而提高学生图像处理模型的训练效果。

基于上述图3所示的实施环境，本申请实施例提供一种图像处理训练方法，该图像处理方法由计算机设备执行，该计算机设备可以为终端11，也可以为服务器12，本申请实施例对此不加以限定。如图5所示，本申请实施例提供的图像处理方法可以包括如下步骤501和步骤502。

在步骤501中，获取待处理的目标图像。

目标图像是指需要利用目标图像处理模型进行处理的图像。本申请实施例丢目标图像的获取方式不加以限定，例如，从网络上爬取目标图像；从数据库中提取目标图像；利用图像采集设备采集目标图像；从视频流中截取目标图像；接收其他设备发送或上传的目标图像等。

示例性地，目标图像的通道数和尺寸分别与样本图像的通道数和尺寸相同，以保证目标图像处理模型的处理效果。

在步骤502中，将目标图像输入目标图像处理模型，获取目标图像处理模型输出的目标处理结果。

其中，目标图像处理模型利用图4所示的实施例中任一所述图像处理模型的训练方法训练得到。

该步骤502的实现原理与图4所示的实施例中将样本图像输入学生图像处理模型，获取学生图像处理模型输出的预测处理结果的实现原理相同，此处不再加以赘述。示例性地，目标图像处理模型包括任务处理层，目标处理结果是目标图像处理模型的任务处理层输出的处理结果。

由于目标图像处理模型是通过较为可靠的方式训练得到的，所以目标图像处理模型输出的目标处理结果可视为目标图像对应的可靠性较高的处理结果。示例性地，目标处理结果的类型与计算机视觉任务的类型有关，若计算机视觉任务的类型为图像分类任务，则目标处理结果为分类结果；若计算机视觉任务的类型为语义分割任务，则目标处理结果为分割结果；若计算机视觉任务的类型为目标检测任务，则目标处理结果包括检测位置结果和检测类别结果。

本申请实施例提供的图像处理方法，利用训练效果较好的目标图像处理模型对目标图像进行处理，有利于保证目标图像的图像处理的准确性。

参见图6，本申请实施例提供了一种图像处理模型的训练装置，该装置包括：

第一获取单元601，用于获取样本图像；

第二获取单元602，用于将样本图像输入教师图像处理模型，获取教师图像处理模型输出的第一图像特征；

第三获取单元603，用于将样本图像输入学生图像处理模型，获取学生图像处理模型输出的第二图像特征，将第二图像特征与第一图像特征对齐，得到对齐图像特征；

变换单元604，用于利用第一特征变换模型对对齐图像特征进行变换，得到第三图像特征，第一特征变换模型的参数基于图像处理模型的训练过程学习得到；

第四获取单元605，用于基于第一图像特征和第三图像特征之间的差异，获取特征差异损失；基于特征差异损失，获取训练损失；

更新单元606，用于利用训练损失更新学生图像处理模型的参数，得到目标图像处理模型。

在一种可能实现方式中，第四获取单元605，用于保持对齐图像特征的通道数不变，将对齐图像特征的尺寸由第一尺寸调整为第二尺寸，得到调整图像特征；利用第二特征变换模型对调整图像特征进行变换，得到变换图像特征，将变换图像特征的尺寸由第二尺寸恢复为第一尺寸，得到第四图像特征，第二特征变换模型的参数基于图像处理模型的训练过程学习得到；基于第一图像特征和第三图像特征之间的差异，获取第一差异损失；基于第一图像特征和第四图像特征之间的差异，获取第二差异损失；基于第一差异损失和第二差异损失，获取特征差异损失。

在一种可能实现方式中，第三获取单元603，用于获取学生图像处理模型输出的第二图像特征以及预测处理结果；

第四获取单元605，用于基于预测处理结果和样本图像对应的标准处理结果之间的差异，获取处理结果损失；基于特征差异损失和处理结果损失，获取训练损失。

在一种可能实现方式中，学生图像处理模型用于对图像进行与计算机视觉任务匹配的处理，第三获取单元603，用于获取学生图像处理模型输出的第二图像特征以及与计算机视觉任务匹配的预测处理结果；

第四获取单元605，用于基于与计算机视觉任务匹配的预测处理结果和样本图像对应的与计算机任务匹配的标准处理结果之间的差异，获取处理结果损失。

在一种可能实现方式中，计算机视觉任务包括图像分类任务，与计算机视觉任务匹配的预测处理结果包括预测分类结果，与计算机视觉任务匹配的标准处理结果包括标准分类结果，处理结果损失基于预测分类结果和标准分类结果之间的差异获取；或者，

计算机视觉任务包括语义分割任务，与计算机视觉任务匹配的预测处理结果包括预测分割结果，与计算机视觉任务匹配的标准处理结果包括标准分割结果，处理结果损失基于预测分割结果和标准分割结果获取；或者，

计算机视觉任务包括目标检测任务，与计算机视觉任务匹配的预测处理结果包括检测位置预测结果和检测类别预测结果，与计算机视觉任务匹配的标准处理结果包括检测位置标准结果和检测类别标准结果，处理结果损失基于检测位置预测结果和检测位置标准结果之间的差异，以及检测类别预测结果和检测类别标准结果之间的差异获取。

在一种可能实现方式中，更新单元606，用于利用训练损失更新学生图像处理模型的参数，得到更新后的学生图像处理模型；若当前训练过程不满足训练终止条件，利用特征差异损失更新第一特征变换模型的参数，得到更新后的第一特征变换模型；基于更新后的第一特征变换模型对更新后的学生图像处理模型进行训练，得到目标图像处理模型。

在一种可能实现方式中，第三获取单元603，用于通过线性插值将第二图像特征的尺寸与第一图像特征的尺寸对齐，得到中间图像特征；通过通道变换卷积将中间图像特征的通道数与第一图像特征的通道数对齐，得到对齐图像特征。

参见图7，本申请实施例提供了一种图像处理装置，该装置包括：

第一获取单元701，用于获取待处理的目标图像；

第二获取单元702，用于将目标图像输入目标图像处理模型，获取目标图像处理模型输出的目标处理结果；其中，目标图像处理模型利用上述任一所述的图像处理模型的训练方法训练得到。

需要说明的是，上述实施例提供的装置在实现其功能时，仅以上述各功能单元的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元完成，即将设备的内部结构划分成不同的功能单元，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。上述实施例提供的装置所实现的效果与方法实施例所实现的效果相同，这里不再赘述。

在示例性实施例中，还提供了一种计算机设备，参见图8，该计算机设备包括处理器801和存储器802，该存储器802中存储有至少一条计算机程序。该至少一条计算机程序由一个或者一个以上处理器801加载并执行，以使该计算机设备实现上述任一种图像处理模型的训练方法或者图像处理方法。

在示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条计算机程序，该至少一条计算机程序由计算机设备的处理器加载并执行，以使计算机实现上述任一种图像处理模型的训练方法或者图像处理方法。

在一种可能实现方式中，上述计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品包括计算机程序或计算机指令，该计算机程序或计算机指令由处理器加载并执行，以使计算机实现上述任一种图像处理模型的训练方法或者图像处理方法。

需要说明的是，本申请中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以上示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与本申请的一些方面相一致的装置和方法的例子。应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

以上通过详细实施案例描述了本申请，本领域的研究人员和技术人员可以根据上述的步骤作出形式或内容方面的非实质性的改变而不偏离本申请实质保护的范围。因此，本申请不局限于以上实施例中所公开的内容，本申请的保护范围应以权利要求所述为准。

Claims

一种图像处理模型的训练方法，其中，所述方法包括：

获取样本图像；

将所述样本图像输入教师图像处理模型，获取所述教师图像处理模型输出的第一图像特征；

将所述样本图像输入学生图像处理模型，获取所述学生图像处理模型输出的第二图像特征，将所述第二图像特征与所述第一图像特征对齐，得到对齐图像特征；

利用第一特征变换模型对所述对齐图像特征进行变换，得到第三图像特征，所述第一特征变换模型的参数基于图像处理模型的训练过程学习得到；

基于所述第一图像特征和所述第三图像特征之间的差异，获取特征差异损失；

基于所述特征差异损失，获取训练损失；

利用所述训练损失更新所述学生图像处理模型的参数，得到目标图像处理模型。
根据权利要求1所述的方法，其中，所述基于所述第一图像特征和所述第三图像特征之间的差异，获取特征差异损失，包括：

保持所述对齐图像特征的通道数不变，将所述对齐图像特征的尺寸由第一尺寸调整为第二尺寸，得到调整图像特征；

利用第二特征变换模型对所述调整图像特征进行变换，得到变换图像特征，将所述变换图像特征的尺寸由所述第二尺寸恢复为所述第一尺寸，得到第四图像特征，所述第二特征变换模型的参数基于所述图像处理模型的训练过程学习得到；

基于所述第一图像特征和所述第三图像特征之间的差异，获取第一差异损失；

基于所述第一图像特征和所述第四图像特征之间的差异，获取第二差异损失；

基于所述第一差异损失和所述第二差异损失，获取所述特征差异损失。
根据权利要求1所述的方法，其中，所述获取所述学生图像处理模型输出的第二图像特征，包括：

获取所述学生图像处理模型输出的第二图像特征以及预测处理结果；

所述基于所述特征差异损失，获取训练损失，包括：

基于所述预测处理结果和所述样本图像对应的标准处理结果之间的差异，获取处理结果损失；

基于所述特征差异损失和所述处理结果损失，获取所述训练损失。
根据权利要求3所述的方法，其中，所述学生图像处理模型用于对图像进行与计算机视觉任务匹配的处理，所述获取所述学生图像处理模型输出的第二图像特征以及预测处理结果，包括：

获取所述学生图像处理模型输出的第二图像特征以及与所述计算机视觉任务匹配的预测处理结果；

所述基于所述预测处理结果和所述样本图像对应的标准处理结果之间的差异，获取处理结果损失，包括：

基于所述与所述计算机视觉任务匹配的预测处理结果和所述样本图像对应的与所述计算机任务匹配的标准处理结果之间的差异，获取所述处理结果损失。
根据权利要求4所述的方法，其中，所述计算机视觉任务包括图像分类任务，所述与所述计算机视觉任务匹配的预测处理结果包括预测分类结果，所述与所述计算机视觉任务匹配的标准处理结果包括标准分类结果，所述处理结果损失基于所述预测分类结果和所述标准分类结果之间的差异获取；或者，

所述计算机视觉任务包括语义分割任务，所述与所述计算机视觉任务匹配的预测处理结果包括预测分割结果，所述与所述计算机视觉任务匹配的标准处理结果包括标准分割结果，所述处理结果损失基于所述预测分割结果和所述标准分割结果获取；或者，

所述计算机视觉任务包括目标检测任务，所述与所述计算机视觉任务匹配的预测处理结果包括检测位置预测结果和检测类别预测结果，所述与所述计算机视觉任务匹配的标准处理结果包括检测位置标准结果和检测类别标准结果，所述处理结果损失基于所述检测位置预测结果和所述检测位置标准结果之间的差异，以及所述检测类别预测结果和所述检测类别标准结果之间的差异获取。
根据权利要求1所述的方法，其中，所述利用所述训练损失更新所述学生图像处理模型的参数，得到目标图像处理模型，包括：

利用所述训练损失更新所述学生图像处理模型的参数，得到更新后的学生图像处理模型；

若当前训练过程不满足训练终止条件，利用所述特征差异损失更新所述第一特征变换模型的参数，得到更新后的第一特征变换模型；

基于所述更新后的第一特征变换模型对所述更新后的学生图像处理模型进行训练，得到所述目标图像处理模型。
根据权利要求1-6任一所述的方法，其中，所述将所述第二图像特征与所述第一图像特征对齐，得到对齐图像特征，包括：

通过线性插值将所述第二图像特征的尺寸与所述第一图像特征的尺寸对齐，得到中间图像特征；

通过通道变换卷积将所述中间图像特征的通道数与所述第一图像特征的通道数对齐，得到所述对齐图像特征。
一种图像处理方法，其中，所述方法包括：

获取待处理的目标图像；

将所述目标图像输入目标图像处理模型，获取所述目标图像处理模型输出的目标处理结果；其中，所述目标图像处理模型利用权利要求1-7任一所述的图像处理模型的训练方法训练得到。
一种图像处理模型的训练装置，其中，所述装置包括：

第一获取单元，用于获取样本图像；

第二获取单元，用于将所述样本图像输入教师图像处理模型，获取所述教师图像处理模型输出的第一图像特征；

第三获取单元，用于将所述样本图像输入学生图像处理模型，获取所述学生图像处理模型输出的第二图像特征，将所述第二图像特征与所述第一图像特征对齐，得到对齐图像特征；

变换单元，用于利用第一特征变换模型对所述对齐图像特征进行变换，得到第三图像特征，所述第一特征变换模型的参数基于图像处理模型的训练过程学习得到；

第四获取单元，用于基于所述第一图像特征和所述第三图像特征之间的差异，获取特征差异损失；基于所述特征差异损失，获取训练损失；

更新单元，用于利用所述训练损失更新所述学生图像处理模型的参数，得到目标图像处理模型。
一种图像处理装置，其中，所述装置包括：

第一获取单元，用于获取待处理的目标图像；

第二获取单元，用于将所述目标图像输入目标图像处理模型，获取所述目标图像处理模型输出的目标处理结果；其中，所述目标图像处理模型利用权利要求1-7任一所述的图像处理模型的训练方法训练得到。
一种计算机设备，其中，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序程序代码，所述至少一条计算机程序程序代码由所述处理器加载并执行，以使所述计算机设备实现如权利要求1至7任一所述的图像处理模型的训练方法，或者如权利要求8所述的图像处理方法。
一种计算机可读存储介质，其中，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以使计算机实现如权利要求1至7任一所述的图像处理模型的训练方法，或者如权利要求8所述的图像处理方法。