WO2024012255A1

WO2024012255A1 - 语义分割模型训练方法、装置、电子设备及存储介质

Info

Publication number: WO2024012255A1
Application number: PCT/CN2023/104539
Authority: WO
Inventors: 覃杰; 吴捷; 李明; 肖学锋
Original assignee: 北京字跳网络技术有限公司
Priority date: 2022-07-11
Filing date: 2023-06-30
Publication date: 2024-01-18
Also published as: CN117437411A

Abstract

一种语义分割模型训练方法、装置、电子设备及存储介质，获取预训练的教师语义分割模型，教师语义分割模型包括第一教师网络和第二教师网络，其中，第一教师网络具有低深度高宽度的结构特征，第二教师网络具有高深度低宽度的结构特征；基于教师语义分割模型处理样本图像，得到第一分割图和第二分割图，其中，第一分割图为第一教师网络对样本图像进行语义分割的结果，第二分割图为第二教师网络对样本图像进行语义分割的结果；根据样本图像、第一分割图和第二分割图，训练轻量化的学生语义分割模型，得到目标语义分割模型。

Description

语义分割模型训练方法、装置、电子设备及存储介质

相关申请交叉引用

本申请要求于2022年07月11日提交中国专利局、申请号为202210814989.4、发明名称为“语义分割模型训练方法、装置、电子设备及存储介质”的中国专利申请的优先权，其全部内容通过引用并入本文。

技术领域

本公开实施例涉及图像处理技术领域，尤其涉及一种语义分割模型训练方法、装置、电子设备及存储介质。

背景技术

图像语义分割，是指通过对图像中的内容进行识别，从而实现将图像中表达不同含义的物体分割为不同目标的技术，通常是通过部署训练好的语义分割模型，来实现针对图像的语义分割，广泛应用于各类应用中。

相关技术中，为了使低计算资源的终端设备能够实现图像语义分割的功能，需要训练并在该终端设备上部署轻量化的语义分割模型。

发明内容

本公开实施例提供一种语义分割模型训练方法、装置、电子设备及存储介质。

第一方面，本公开实施例提供一种语义分割模型训练方法，包括：

获取预训练的教师语义分割模型，所述教师语义分割模型包括第一教师网络和第二教师网络，其中，所述第一教师网络具有低深度高宽度的结构特征，所述第二教师网络具有高深度低宽度的结构特征；基于所述教师语义分割模型处理样本图像，得到第一分割图和第二分割图，其中，所述第一分割图为所述第一教师网络对所述样本图像进行语义分割的结果，所述第二分割图为所述第二教师网络对所述样本图像进行语义分割的结果；根据所述样本图像、所述第一分割图和所述第二分割图，训练轻量化的学生语义分割模型，得到目标语义分割模型。

第二方面，本公开实施例提供一种语义分割模型训练装置，包括：

获取模块，用于获取预训练的教师语义分割模型，所述教师语义分割模型包括第一教师网络和第二教师网络，其中，所述第一教师网络具有低深度高宽度的结构特征，所述第二教师网络具有高深度低宽度的结构特征；

处理模块，用于基于所述教师语义分割模型处理样本图像，得到第一分割图和第二分割图，其中，所述第一分割图为所述第一教师网络对所述样本图像进行语义分割的结果，所述第二分割图为所述第二教师网络对所述样本图像进行语义分割的结果；

训练模块，用于根据所述样本图像、所述第一分割图和所述第二分割图，训练轻量化的学生语义分割模型，得到目标语义分割模型。

第三方面，本公开实施例提供一种电子设备，包括：

处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如上第一方面以及第一方面各种可能的设计所述的语义分割模型训练方法。

第四方面，本公开实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一方面以及第一方面各种可能的设计所述的语义分割模型训练方法。

第五方面，本公开实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上第一方面以及第一方面各种可能的设计所述的语义分割模型训练方法。

第六方面，本公开实施例提供一种计算机程序，所述计算机程序被处理器执行时，实现如上第一方面以及第一方面各种可能的设计所述的语义分割模型训练方法。

本实施例提供的语义分割模型训练方法、装置、电子设备及存储介质，通过获取预训练的教师语义分割模型，所述教师语义分割模型包括第一教师网络和第二教师网络，其中，所述第一教师网络具有低深度高宽度的结构特征，所述第二教师网络具有高深度低宽度的结构特征；基于所述教师语义分割模型处理样本图像，得到第一分割图和第二分割图，其中，所述第一分割图为所述第一教师网络对所述样本图像进行语义分割的结果，所述第二分割图为所述第二教师网络对所述样本图像进行语义分割的结果；根据所述样本图像、所述第一分割图和所述第二分割图，训练轻量化的学生语义分割模型，得到目标语义分割模型。由于通过由具有差异化结构特征的第一教师网络和第二教师网络构成的教师语义分割模型对学生语义分割模型进行训练，可以充分利用第一教师网络和第二教师网络的特定，从两个互补的维度(宽度和深度)为学生语义分割模型提供可学习的知识，为学生语义分割模型的训练提供知识监督。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的语义分割模型训练方法的一种应用场景图；

图2为本公开实施例提供的语义分割模型训练方法的流程示意图一；

图3为本公开实施例提供的一种第一教师网络的结构示意图；

图4为本公开实施例提供的一种第二教师网络的结构示意图；

图5为图2所示实施例中步骤S103的具体实现步骤流程图；

图6为本公开实施例提供的一种生成目标监督损失的过程示意图；

图7为本公开实施例提供的语义分割模型训练方法的流程示意图二；

图8为图7所示实施例中步骤S207的具体实现步骤流程图；

图9为图7所示实施例中步骤S208的具体实现步骤流程图；

图10为本公开实施例提供的一种获得目标无监督损失的过程示意图；

图11为本公开实施例提供的语义分割模型训练装置的结构框图；

图12为本公开实施例提供的一种电子设备的结构示意图；

图13为本公开实施例提供的电子设备的硬件结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

下面对本公开实施例的应用场景进行解释：

图1为本公开实施例提供的语义分割模型训练方法的一种应用场景图，本公开实施例提供的语义分割模型训练方法，可以应用于轻量化语义分割模型部署前的模型训练的应用场景。具体地，本公开实施例提供的方法，可以应用于终端设备、服务器等用于模型训练的设备，图1中以服务器为例，如图1所示，示例性地，服务器内预存有预训练的教师语义分割模型，以及待训练的轻量化的学生语义分割模型(图中示为轻量化模型)。服务器接收到开发者用户通过开发终端设备发送的训练指令，利用本公开实施例提供的语义分割模型训练方法对该轻量化模型进行模型训练，直至满足模型收敛条件后，得到目标语义分割模型。之后，服务器接收终端设备发送的部署指令(图中未示出)，进行轻量化模型部署，即将该轻量化的目标语义分割模型部署至用户终端设备，部署完成后，运行于用户终端设备中的目标语义分割模型可以响应于应用请求，提供图像语义分割服务。

现有技术中，针对轻量化模型的训练，通常是利用预训练的大型模型(即教师模型)进行知识蒸馏(Knowledge Distillation)，从而使轻量化模型(即学生模型)学习到大型模型中的知识，实现对应的模型功能。然而，在图像语义分割的应用场景下，像素级的图像分割任务对模型性能要求很高，现有技术中通过传统的教师模型进行知识蒸馏的方案，往往会导致训练出的轻量化的学生模型出现性能大幅退化的问题，从而影响训练后的学生模型的图像分割能力，泛化能力差，稳定性差。现有技术中的训练方法，会导致轻量化的语义分割模型出现性能下降问题，影响语义分割模型的正常功能实现。本公开实施例提供一种语义分割模型训练方法以解决上述问题。

参考图2，图2为本公开实施例提供的语义分割模型训练方法的流程示意图一。本实施例的方法可以应用在具有计算能力的电子设备，例如模型训练服务器、终端设备等，本实施例以终端设备作为执行主体进行介绍，该语义分割模型训练方法包括：

步骤S101：获取预训练的教师语义分割模型，教师语义分割模型包括第一教师网络和第二教师网络，其中，第一教师网络具有低深度高宽度的结构特征，第二教师网络具有高深度低宽度的结构特征。

示例性地，教师语义分割模型是经过预训练，具有图像语义分割能力的模型，具体地，教师语义分割模型包括预训练的第一教师网络和预训练的第二教师网络，经过训练的第一教师网络和第二教师网络均具有图像语义分割能力。其中，第一教师网络具有低深度高宽度的结构特征，即第一教师网络具有较少的网络层数，但具有较多的网络输出通道数，也即“浅且宽”的网络结构。图3为本公开实施例提供的一种第一教师网络的结构示意图，如图3所示，示例性地，第一教师网络可以为编码器-解码器的网络结构，其包括4个对称设置的网络层(图中示为L1、L2、L3、L4)，该第一教师网络具有低深度的特征，即具有较少的网络层数，但同时具有高宽度的特征，即(一个或多个)网络层的通道数比较多，具体可参见图3中“宽度”和“深度”的示意。

对应的，第二教师网络具有高深度低宽度的结构特征，即第二教师网络具有较多的网络层数，但具有较少的网络输出通道数，也即“深且窄”的网络结构。图4为本公开实施例提供的一种第二教师网络的结构示意图，如图4所示，示例性地，第二教师网络可以为编码器-解码器的网络结构，其包括6个对称设置的网络层(图中示为L1、L2、L3、L4、L5、L6)，该第二教师网络具有高深度的特征，即具有较多的网络层数，但同时具有低宽度的特征，即(一个或多个)网络层的通道数比较少。具体可参见图3中“宽度”和“深度”的示意。

进一步地，示例性地，第一教师网络的深宽比系数小于或等于第一阈值，第二教师网络的深宽比系数大于或等于第二阈值，且第一阈值小于第二阈值，深宽比系数表征网络层数与网络输出通道数的比值。可以通过不同的业务需求(即精度需求、实时性需求等)来选择对应的第一阈值和第二阈值，进一步根据对应的第一教师网络和第二教师网络来训练轻量化的学生语义分割模型。其中，在一种可能的实现方式中，第一教师网络可以为Wide ResNet-34网络；第二教师网络可以为ResNet-101网络。第一教师网络和第二教师网络的具体实现方式，可根据具体需要设置，此处不进行限制。

步骤S102：基于教师语义分割模型处理样本图像，得到第一分割图和第二分割图，其中，第一分割图为第一教师网络对样本图像进行语义分割的结果，第二分割图为第二教师网络对样本图像进行语义分割的结果。

示例性地，在获得上述第一教师网络和第二教师网络后，将预设的样本图像输入第一教师网络和第二教师网络进行处理，即可得到第一教师网络和第二教师网络分别输出的预测结果，即第一分割图和第二分割图。由于第一教师网络和第二教师网络在网络结构上的差异性，所输出的第一分割图和第二分割图也不同，其中，基于其低深度高宽度的结构特征，第一教师网络具有充足的通道数量，因此第一教师网络善于捕获多样化的局部内容感知信息，利于对像素之间的上下文关系进行建模；而基于其高深度低宽度的结构特征，第二教师网络更多的网络层数，更利于提取全局信息，具有高级语义和全局分类抽象的能力。

因此，第一教师网络所输出的第一分割图能够更好的表现局部信息，而第二教师网络所输出的第二分割图能够更好的表现全局信息，第一教师网络和第二教师网络对样本图像的处理过程，相当于从两个互补的维度提取了样本图像中的信息，之后基于得到的第一分割图和第二分割图来对轻量化的学生语义分割模型进行训练，从而实现对学生语义分割模型的优化。本实施例中，通过设置两个具有差异化的网络结构的第一教师网络和第二教师网络，从而实现从两个互补维度对图像样本进行信息提取，提高后续对学生语义分割模型进行训练的效果。

步骤S103：根据样本图像、第一分割图和第二分割图，训练轻量化的学生语义分割模型，得到目标语义分割模型。

示例性地，轻量化的学生语义分割模型，为预设的小型神经网络模型，学生语义分割模型具有很小的计算量和参数量，可以很方便的部署到资源受限的设备上。更具体地，可以是一个同时具有低深度和低宽度的网络模型，可选地，学生语义分割模型的网络层数可以与第一教师网络的网络层数相同。

在获得第一分割图和第二分割图后，基于第一分割图和第二分割图，对轻量化的学生语义分割模型进行训练的过程，相当于对学生语义分割模型进行知识监督的过程，在该过程中，第一教师网络和第二教师网络的参数固定，因此，该过程即通过第一教师网络和第二教师网络执行离线蒸馏来改进学生模型的性能的过程。

示例性地，样本图像包括有标样本图像和无标样本图像，相应的，所述第一分割图包括由有标样本图像生成的第一有标分割图和由无标样本图像生成的第一无标分割图；所述第二分割图包括由有标样本图像生成的第二有标分割图和由无标样本图像生成的第二无标分割图。示例性地，如图5所示，步骤S103的具体实现步骤包括：

步骤S1031：根据有标样本图像、第一有标分割图和第二有标分割图，得到目标监督损失。

示例性地，有标样本图像即包括图像和对应的标注信息的数据。通过学生语义分割模型对有标样本图像进行处理，即可得到学生语义分割模型对有标样本图像进行语义分割的结果，即第一预测结果。之后，示例性地，基于第一预测结果，和第一有标分割图、第二有标分割图，可以得到第一监督损失，和/或第二监督损失，其中，第一监督损失表征标注信息和第一预测结果的差异，第二监督损失表征第一有标分割图和第二有标分割图相对第一预测结果的像素级一致性差异。目标监督损失可以为第一监督损失，也可以为第二监督损失，还可以为第一监督损失和第二监督损失的加权和。

下面具体对第一监督损失和第二监督损失的确定方法进行介绍：

示例性地，计算第一监督损失的方法包括：在得到第一预测结果后，基于预设的监督损失函数，以第一预测结果和有标样本图像的标注信息作为输入进行计算，即可得到第一监督损失。其中，基于监督损失函数计算对应的监督损失的具体实现方式此处不再赘述。

示例性地，计算第二监督损失的方法包括：在得到第一预测结果后，将有标样本图像对应的第一有标分割图和第二有标分割图分别作为第一预测结果对应的伪标签对其进行约束，得到对应的像素级一致性差异，具体地，即基于预设的有标数据像素级一致性损失函数，将第一预测结果、第一有标分割图和第二有标分割图作为输入进行计算，得到第二监督损失。其中，有标数据像素级一致性损失函数的具体实现如式(1)所示：

其中，y_i表示第一预测结果，为有标样本图像对应的第二分割图，为有标样本图像对应的第一分割图。H×W表示第一预测结果的像素总数。为第二监督损失。

由于第一教师网络、第二教师网络和学生语义分割模型处理同一组有标样本数据，因此三者所预测的分割结果，理想状态下，应当具有像素级一致性，通过第二监督损失，可以保证多分支输出的预测结果一致，从而实现对学生语义分割模型的辅助监督，提高学生语义分割模型的训练效果。之后，基于第一监督损失、第二监督损失二者之一，或者二者的加权和，即可得到目标监督损失，具体实现方式可根据需要设置，此处不再赘述。

图6为本公开实施例提供的一种生成目标监督损失的过程示意图，如图6所示，将有标图像数据分别输入第一教师网络、第二教师网络、学生语义分割模型后，第一教师网络输出第一有标分割图，第二教师网络输出第二有标分割图，学生语义分割模型输出第一预测结果，之后，第一预测结果结合标注信息，生成第一监督损失；第一有标分割图和第二有标分割图作为第一预测结果的伪标签，结合第一预测结果，生成第二监督损失；第一监督损失和第二监督损失进行加权求和，得到目标监督损失。

步骤S1032：根据无标样本图像、第一无标分割图和第二无标分割图，得到目标无监督损失。

示例性地，无标样本图像即仅包括图像，而不包括对应的标注信息的数据。无标样本图像的获取成本更低，数量更多，因此，通过提取无标样本图像中的信息进行充分训练，可以提高学生语义分割模型的性能，避免轻量化的学生语义分割模型出现性能下降的问题。

示例性地，首先，通过学生语义分割模型对无标样本图像进行处理，即可得到学生语义分割模型对无标样本图像进行语义分割的结果，即第二预测结果，该过程与学生语义分割模型处理有标样本图像的过程相同，不再赘述。之后，示例性地，将第一无标分割图、第二无标分割图作为第二预测结果对应的伪标签，进行损失函数计算，即可得到对应的目标无监督损失。在一种可能的实现方式中，目标无监督损失包括第一无监督损失，第一无监督损失表征第一无标分割图和第二无标分割图相对第二预测结果的像素级一致性差异。

计算第一无监督损失的方法包括：在得到第二预测结果后，将无标样本图像对应的第一无标分割图和第二无标分割图分别作为第二预测结果对应的伪标签对其进行约束，得到对应的像素级一致性差异，具体地，即基于预设的无标数据像素级一致性损失函数，将第二预测结果、第一无标分割图和第二无标分割图作为输入进行计算，得到第一无监督损失。其中，无标数据像素级一致性损失函数的具体实现如式(2)所示：

其中，y_j表示第二预测结果，为无标样本图像对应的第二无标分割图，为无标样本图像对应的第一无标分割图。H×W表示第二预测结果的像素总数。为第二监督损失。

步骤S1033：根据目标监督损失和目标无监督损失进行加权融合，得到输出损失，并基于输出损失进行反向梯度传播，调整学生语义分割模型的网络参数，得到目标语义分割模型。

示例性地，在获得目标监督损失和目标无监督损失后，将目标监督损失和目标无监督损失进行加权融合，即可得到输出损失，其中，示例性地，目标监督损失和目标无监督损失对应的加权系数，可以基于具体需要设置，并可以动态调整，例如，在学生语义分割模型训练前期，设置有标样本图像对应的目标监督损失具有较大权重系数，以提高模型收敛速度，在学生语义分割模型训练后期，可以设置无标样本图像对应的目标监督损失具有较大(或稍大)的权重系数，从而充分利用无标样本图像中的信息，提高学生语义分割模型的性能。之后，基于输出损失进行反向梯度传播，调整学生语义分割模型的网络参数，得到优化后的学生语义分割模型，多次循环，当学生语义分割模型达到收敛条件后，该收敛学生语义分割模型即为目标语义分割模型。

本实施例步骤中，通过对有标数据和无标数据进行处理，所得到输出损失充分利用了有标样本图像和无标样本图像中的信息，同时结合第一教师网络和第二教师网络差异化的信息提取能力，提高学生语义分割模型的学习能力。

在本实施例中，通过获取预训练的教师语义分割模型，教师语义分割模型包括第一教师网络和第二教师网络，其中，第一教师网络具有低深度高宽度的结构特征，第二教师网络具有高深度低宽度的结构特征；基于教师语义分割模型处理样本图像，得到第一分割图和第二分割图，其中，第一分割图为第一教师网络对样本图像进行语义分割的结果，第二分割图为第二教师网络对样本图像进行语义分割的结果；根据样本图像、第一分割图和第二分割图，训练轻量化的学生语义分割模型，得到目标语义分割模型。由于通过由具有差异化结构特征的第一教师网络和第二教师网络构成的教师语义分割模型对学生语义分割模型进行训练，可以充分利用第一教师网络和第二教师网络的特定，从两个互补的维度(宽度和深度)为学生语义分割模型提供可学习的知识，为学生语义分割模型的训练提供知识监督，从而提高学生语义分割模型的训练效率和训练效果，提高最终生成的目标语义分割模型的模型性能。

参考图7，图7为本公开实施例提供的语义分割模型训练方法的流程示意图二。本实施例在图2所示实施例的基础上，对步骤S102的具体实现方式进一步细化，该语义分割模型训练方法包括：

步骤S201：获取预训练的教师语义分割模型，教师语义分割模型包括第一教师网络和第二教师网络，其中，第一教师网络具有低深度高宽度的结构特征，第二教师网络具有高深度低宽度的结构特征。

步骤S202：基于教师语义分割模型处理样本图像，得到第一分割图和第二分割图，其中，样本图像包括有标样本图像和无标样本图像，第一分割图包括第一有标分割图和第一无标分割图，第二分割图包括第二有标分割图和第二无标分割图。

通过步骤S201-S202，基于第一教师网络和第二教师网络分别对有标样本图像和无标样本图像进行处理，得到对应的第一有标分割图、第一无标分割图、第二有标分割图、第二无标分割图，其中，处理有标样本图像和无标样本图像的次序可根据具体需要设置，此处不限制。上述获得第一有标分割图、第一无标分割图、第二有标分割图、第二无标分割图的具体实现方式，在图2所示实施例中已进行介绍，此处不再赘述。

步骤S203：根据有标样本图像、第一有标分割图和第二有标分割图，得到目标监督损失。

步骤S204：基于学生语义分割模型，处理无标样本图像，得到第二预测结果。

步骤S205：基于第一无标分割图、第二无标分割图和第二预测结果，得到第一无监督损失，第一无监督损失表征第一分割图和第二分割图相对第二预测结果的像素级一致性差异。

其中，步骤S203是基于有标样本图像，得到目标监督损失的步骤，在图2所示实施例中已进行介绍，具体可参见图2所示实施例对应的步骤S1031中的相关介绍，此处不再赘述。步骤S204-S205是基于无标样本图像，得到第二预测结果和第一无监督损失的步骤，在图2所示实施例中已进行介绍，具体可参见图2所示实施例对应的步骤S1032中的相关介绍，此处不再赘述。

步骤S206：获取第一教师网络的解码器输出的无标样本图像的第一特征图和学生语义分割模型的解码器输出的无标样本图像的第二特征图。

步骤S207：根据第一特征图和第二特征图，得到第二无监督损失，第二无监督损失表征第二预测结果的区域纹理相关性相对第一无标分割图的区域纹理相关性的差异。

示例性地，基于上述实施例中对第一教师网络的介绍，第一教师网络为编码器-解码器网络结构，且具有低深度高宽度的结构特征，该结构特征使其善于捕获多样化的局部内容感知信息，利于对像素之间的上下文关系进行建模，本实施例步骤中，通过获取第一教师网络的解码器输出的无标样本图像的第一特征图(Features)和学生语义分割模型的解码器输出的无标样本图像的第二特征图(Features)，第一特征图能够表征第一教师网络捕捉的无标样本图像的处理区域纹理相关性，而第二特征图能够表征学生语义分割模型捕捉的无标样本图像的处理区域纹理相关性，对二者进行计算，即可得到表征第二预测结果的区域纹理相关性相对第一无标分割图的区域纹理相关性的差异，即第二无监督损失，也可称为区域级内容感知损失。该区域级内容感知损失旨在利用更宽的教师模型(第一教师网络)的通道优势来提供丰富的局部上下文信息。它可以提供辅助监督来指导学生模型(学生语义分割模型)对像素之间的上下文关系进行建模。它利用输入教师模型的图像补丁区域的相关性指导学生模型的区域间的纹理相关性。

示例性地，如图8所示，步骤S207的具体实现步骤包括：

步骤S2071：将第一特征图映射为第一特征向量集，将第二特征图映射为第二特征向量集，第一特征向量集表征第一教师网络对无标样本图像的区域级内容的评估；第二特征向量集表征学生语义分割模型对无标样本图像的区域级内容的评估。

步骤S2072：根据第一特征向量集和第二特征向量集，得到对应的第一自相关矩阵和第二自相关矩阵，第一自相关矩阵表征第一特征向量集对应的各区域级内容之间的相关性，第二自相关矩阵表征第二特征向量集对应的各区域级内容之间的相关性。

步骤S2073：根据第一自相关矩阵和第二自相关矩阵的差异，得到第二无监督损失。

示例性地，在解码器之后的特征空间中提取出教师模型(第一教师网络)的特征(第一特征图)和学生模型(学生语义分割模型)的特征(第二特征图)。将这些特征(第一特征图和第二特征图)分别映射到区域级内容的特征向量集即第一特征图映射为第一特征向量集，第二特征图映射为第二特征向量集；其中，H_v×W_v为区域级的像素数量，V中的每一个特征向量v∈R^C×1×1代表了原始特征的局部区域内容(局部特征大小为C×H/H_v×W/W_v)，之后，通过特征向量集V得到对应的自相关矩阵计算过程如式(3)所示：

其中，m_ij是指自相关矩阵中位于坐标(i,j)处的值，通过余弦相似度sim()计算得到；v_i和v_j是展平后的特征向量中的第i个和第j个向量。计算得到的自相关矩阵代表了特征区域级的相关性，反应了图像不同区域的关系。因此区域级的内容感知损失函数，即第二无监督损失，可以通过最小化不同模型的自相关矩阵之间的差别得到，具体地，第二无监督损失的计算过程如式(4)所示：

其中，M^S为第二自相关矩阵，为第一自相关矩阵，为第二自相关矩阵中的值；为第一自相关矩阵中的值。

步骤S208：基于第二无标分割图和第二预测结果，得到第三无监督损失，第三无监督损失表征第二预测结果对应的全局语义类别相对于第二无标分割图对应的全局语义类别的差异。

进一步地，示例性地，基于上述实施例中对第二教师网络的介绍，第二教师网络为编码器-解码器网络结构，且具有高深度低宽度的结构特征，第二教师网络具有更多的网络层数，更利于提取全局信息，具有高级语义和全局分类抽象的能力。本实施例步骤中，在对无标样本图像进行预测，得到第二无标分割图和第二预测结果后，第二教师网络的特点，将高维语义抽象信息从更深的第二教师网络提炼到轻量化的学生语义分割模型，从而提高学生语义分割模型的性能。

示例性地，如图9所示，步骤S208的具体实现步骤包括：

步骤S2081：获取第二无标分割图对应的第一全局语义向量和第二预测结果对应的第二全局语义向量，第一全局语义向量表征第二无标分割图中分割出的物体的数量和语义类别，第二全局语义向量表征第二预测结果中分割出的物体的数量和语义类别。

步骤S2082：根据第一全局语义向量和第二全局语义向量的差异，得到第三无监督损失。

示例性地，首先，通过全局平均池化(GAP)操作来计算每个类别的全局语义向量，具体地，第二无标分割图为Y∈R^N×H×W，第一全局语义向量的计算过程如式(5)所示：

其中，第一全局语义向量表示N个类别的全局语义类别向量，G表示每个通道中的全局平均池化操作。同样的，基于上述式(5)的方法，处理第二预测结果，可得到第二预测结果对应的第二全局语义向量具体不再赘述。

之后，利用第一全局语义向量和第二全局语义向量的差异，得到第三无监督损失，具体计算过程如式(6)所示：

其中，为第三无监督损失，和分别表示学生语义分割模型和第二教师网络输出的语义类别。N表示类别的数量，上标u表示无标样本图像。通过这种方式，学生语义分割模型尝试学习更高维的语义类别表示，这有助于在语义分割任务中为语义类别的判别提供全局指导。

步骤S209：根据第一无监督损失、第二无监督损失和第三无监督损失中的至少一种，得到目标无监督损失。

示例性地，在经过上述步骤得到第一无监督损失、第二无监督损失和第三无监督损失后，可以通过其中的一种或多种，得到目标无监督损失，例如对第一无监督损失、第二无监督损失和第三无监督损失进行加权计算，得到目标无监督损失，具体的加权系数可以根据需要设置，此处不再赘述。

图10为本公开实施例提供的一种获得目标无监督损失的过程示意图，如图10所示，示例性地，基于无标样本图像，分别输入第一教师网络、第二教师网络和学生语义分割模型，之后，一方面，获得第一教师网络的解码器输出的第一特征图和学生语义分割模型的解码器输出的第二特征图，根据第一特征图和第二特征图，得到第二无监督损失；另一方面，获得第二教师网络输出的第二无标分割图和学生语义分割模型输出的第二预测结果，根据第二无标分割图和第二预测结果，得到第三无监督损失；再一方面，基于第一教师网络输出的第一无标分割图、第二教师网络输出的第二无标分割图和学生语义分割模型输出的第二预测结果，得到第一无监督损失。最后，对第一无监督损失、第二无监督损失、第三无监督损失进行加权融合，得到目标无监督损失。

步骤S210：根据目标监督损失和目标无监督损失进行加权融合，得到输出损失，并基于输出损失进行反向梯度传播，调整学生语义分割模型的网络参数，得到目标语义分割模型。

其中，步骤S210是生成输出损失，并基于输出损失对学生语义分割模型进行训练的步骤，在图2所示实施例中已进行介绍，具体可参见图2所示实施例对应的步骤S1033中的相关介绍，此处不再赘述。

对应于上文实施例的语义分割模型训练方法，图11为本公开实施例提供的语义分割模型训练装置的结构框图。为了便于说明，仅示出了与本公开实施例相关的部分。参照图11，语义分割模型训练装置3，包括：

获取模块31，用于获取预训练的教师语义分割模型，教师语义分割模型包括第一教师网络和第二教师网络，其中，第一教师网络具有低深度高宽度的结构特征，第二教师网络具有高深度低宽度的结构特征；

处理模块32，用于基于教师语义分割模型处理样本图像，得到第一分割图和第二分割图，其中，第一分割图为第一教师网络对样本图像进行语义分割的结果，第二分割图为第二教师网络对样本图像进行语义分割的结果；

训练模块33，用于根据样本图像、第一分割图和第二分割图，训练轻量化的学生语义分割模型，得到目标语义分割模型。

在本公开的一个实施例中，第一教师网络的深宽比系数小于或等于第一阈值，第二教师网络的深宽比系数大于或等于第二阈值，且第一阈值小于第二阈值，深宽比系数表征网络层数与网络输出通道数的比值。

在本公开的一个实施例中，样本图像包括有标样本图像和无标样本图像，所述第一分割图包括由有标样本图像生成的第一有标分割图和由无标样本图像生成的第一无标分割图；所述第二分割图包括由有标样本图像生成的第二有标分割图和由无标样本图像生成的第二无标分割图；训练模块33，具体用于：根据有标样本图像、第一有标分割图和第二有标分割图，得到目标监督损失；根据无标样本图像、第一无标分割图和第二无标分割图，得到目标无监督损失；根据目标监督损失和目标无监督损失进行加权融合，得到输出损失，并基于输出损失进行反向梯度传播，调整学生语义分割模型的网络参数，得到目标语义分割模型。

在本公开的一个实施例中，训练模块33在根据有标样本图像、第一有标分割图和第二有标分割图，得到目标监督损失时，具体用于：基于学生语义分割模型，处理有标样本图像，得到第一预测结果；基于有标样本图像的标注信息和第一预测结果，得到第一监督损失，第一监督损失表征标注信息和第一预测结果的差异；基于第一有标分割图、第二有标分割图和第一预测结果，得到第二监督损失，第二监督损失表征第一分割图和第二分割图相对第一预测结果的像素级一致性差异；根据第一监督损失和第二监督损失，得到目标监督损失。

在本公开的一个实施例中，训练模块33在根据无标样本图像、第一无标分割图和第二无标分割图，得到目标无监督损失时，具体用于：基于学生语义分割模型，处理无标样本图像，得到第二预测结果；基于第一无标分割图、第二无标分割图和第二预测结果，得到第一无监督损失，第一无监督损失表征第一无标分割图和第二无标分割图相对第二预测结果的像素级一致性差异；根据第一无监督损失，得到目标无监督损失。

在本公开的一个实施例中，处理模块32，还用于：获取第一教师网络的解码器输出的无标样本图像的第一特征图和学生语义分割模型的解码器输出的无标样本图像的第二特征图；训练模块33，还用于：根据第一特征图和第二特征图，得到第二无监督损失，第二无监督损失表征第二预测结果的区域纹理相关性相对第一无标分割图的区域纹理相关性的差异；训练模块33在根据第一无监督损失，得到目标无监督损失时，具体用于：根据第一无监督损失和第二无监督损失，得到目标无监督损失。

在本公开的一个实施例中，训练模块33在根据第一特征图和第二特征图，得到第二无监督损失时，具体用于：将第一特征图映射为第一特征向量集，将第二特征图映射为第二特征向量集，第一特征向量集表征第一教师网络对无标样本图像的区域级内容的评估；第二特征向量集表征学生语义分割模型对无标样本图像的区域级内容的评估；根据第一特征向量集和第二特征向量集，得到对应的第一自相关矩阵和第二自相关矩阵，第一自相关矩阵表征第一特征向量集对应的各区域级内容之间的相关性，第二自相关矩阵表征第二特征向量集对应的各区域级内容之间的相关性；根据第一自相关矩阵和第二自相关矩阵的差异，得到第二无监督损失。

在本公开的一个实施例中，训练模块33，还用于：基于第二无标分割图和第二预测结果，得到第三无监督损失，第三无监督损失表征第二预测结果对应的全局语义类别相对于第二无标分割图对应的全局语义类别的差异；训练模块33在根据第一无监督损失，得到目标无监督损失时，具体用于：根据第一无监督损失和第三无监督损失，得到目标无监督损失。

在本公开的一个实施例中，训练模块33在基于第二无标分割图和第二预测结果，得到第三无监督损失时，具体用于：获取第二无标分割图对应的第一全局语义向量和第二预测结果对应的第二全局语义向量，第一全局语义向量表征第二无标分割图中分割出的物体的数量和语义类别，第二全局语义向量表征第二预测结果中分割出的物体的数量和语义类别；根据第一全局语义向量和第二全局语义向量的差异，得到第三无监督损失。

其中，获取模块31、处理模块32、训练模块33依次连接。本实施例提供的语义分割模型训练装置3可以执行上述方法实施例的技术方案，其实现原理和技术效果类似，本实施例此处不再赘述。

图12为本公开实施例提供的一种电子设备的结构示意图，如图12所示，该电子设备4包括：

处理器401，以及与处理器401通信连接的存储器402；

存储器402存储计算机执行指令；

处理器401执行存储器402存储的计算机执行指令，以实现如图2-图10所示实施例中的语义分割模型训练方法。

其中，可选地，处理器401和存储器402通过总线403连接。

相关说明可以对应参见图2-图10所对应的实施例中的步骤所对应的相关描述和效果进行理解，此处不做过多赘述。

参考图13，其示出了适于用来实现本公开实施例的电子设备900的结构示意图，该电子设备900可以为终端设备或服务器。其中，终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、个人数字助理(Personal Digital Assistant，PDA)、平板电脑(Portable Android Device，PAD)、便携式多媒体播放器(Portable Media Player，PMP)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字电视(Television，TV)、台式计算机等等的固定终端。图13示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图13所示，电子设备900可以包括处理装置(例如中央处理器、图形处理器等)901，其可以根据存储在只读存储器(Read Only Memory，ROM)902中的程序或者从存储装置908加载到随机访问存储器(Random Access Memory，RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中，还存储有电子设备900操作所需的各种程序和数据。处理装置901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(Input/Output，I/O)接口905也连接至总线904。

通常，以下装置可以连接至I/O接口905：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置906；包括例如液晶显示器(Liquid Crystal Display，LCD)、扬声器、振动器等的输出装置907；包括例如磁带、硬盘等的存储装置908；以及通信装置909。通信装置909可以允许电子设备900与其他设备进行无线或有线通信以交换数据。虽然图13示出了具有各种装置的电子设备900，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置909从网络上被下载和安装，或者从存储装置908被安装，或者从ROM 902被安装。在该计算机程序被处理装置901执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、射频(Radio Frequency，RF)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(Local Area Network，LAN)或广域网(Wide Area Network，WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(Field-Programmable Gate Array，FPGA)、专用集成电路(Application Specific Integrated Circuit，ASIC)、专用标准产品(Application Specific Standard Parts，ASSP)、片上系统(System On Chip，SOC)、复杂可编程逻辑设备(Complex Programmable Logic Device，CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例可以包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

第一方面，根据本公开的一个或多个实施例，提供了一种语义分割模型训练方法，包括：

根据本公开的一个或多个实施例，所述第一教师网络的深宽比系数小于或等于第一阈值，所述第二教师网络的深宽比系数大于或等于第二阈值，且所述第一阈值小于所述第二阈值，所述深宽比系数表征网络层数与网络输出通道数的比值。

根据本公开的一个或多个实施例，所述样本图像包括有标样本图像和无标样本图像，所述第一分割图包括由所述有标样本图像生成的第一有标分割图和由所述无标样本图像生成的第一无标分割图；所述第二分割图包括由所述有标样本图像生成的第二有标分割图和由所述无标样本图像生成的第二无标分割图；所述根据所述样本图像、所述第一分割图和所述第二分割图，训练轻量化的学生语义分割模型，得到目标语义分割模型，包括：根据所述有标样本图像、所述第一有标分割图和所述第二有标分割图，得到目标监督损失；根据所述无标样本图像、所述第一无标分割图和所述第二无标分割图，得到目标无监督损失；根据所述目标监督损失和所述目标无监督损失进行加权融合，得到输出损失，并基于所述输出损失进行反向梯度传播，调整所述学生语义分割模型的网络参数，得到目标语义分割模型。

根据本公开的一个或多个实施例，所述根据所述有标样本图像、所述第一有标分割图和所述第二有标分割图，得到目标监督损失，包括：基于所述学生语义分割模型，处理所述有标样本图像，得到第一预测结果；基于所述有标样本图像的标注信息和所述第一预测结果，得到第一监督损失，所述第一监督损失表征所述标注信息和所述第一预测结果的差异；基于所述第一有标分割图、所述第二有标分割图和所述第一预测结果，得到第二监督损失，所述第二监督损失表征所述第一分割图和所述第二分割图相对所述第一预测结果的像素级一致性差异；根据所述第一监督损失和所述第二监督损失，得到所述目标监督损失。

根据本公开的一个或多个实施例，所述根据所述无标样本图像、所述第一无标分割图和所述第二无标分割图，得到目标无监督损失，包括：基于所述学生语义分割模型，处理所述无标样本图像，得到第二预测结果；基于所述第一无标分割图、所述第二无标分割图和所述第二预测结果，得到第一无监督损失，所述第一无监督损失表征所述第一无标分割图和所述第二无标分割图相对所述第二预测结果的像素级一致性差异；根据所述第一无监督损失，得到所述目标无监督损失。

根据本公开的一个或多个实施例，所述方法还包括：获取所述第一教师网络的解码器输出的所述无标样本图像的第一特征图和所述学生语义分割模型的解码器输出的所述无标样本图像的第二特征图；根据所述第一特征图和所述第二特征图，得到第二无监督损失，所述第二无监督损失表征所述第二预测结果的区域纹理相关性相对所述第一无标分割图的区域纹理相关性的差异；根据所述第一无监督损失，得到所述目标无监督损失，包括：根据所述第一无监督损失和所述第二无监督损失，得到所述目标无监督损失。

根据本公开的一个或多个实施例，所述根据所述第一特征图和所述第二特征图，得到第二无监督损失，包括：将所述第一特征图映射为第一特征向量集，将所述第二特征图映射为第二特征向量集，所述第一特征向量集表征所述第一教师网络对所述无标样本图像的区域级内容的评估；所述第二特征向量集表征所述学生语义分割模型对所述无标样本图像的区域级内容的评估；根据所述第一特征向量集和所述第二特征向量集，得到对应的第一自相关矩阵和第二自相关矩阵，所述第一自相关矩阵表征所述第一特征向量集对应的各区域级内容之间的相关性，所述第二自相关矩阵表征所述第二特征向量集对应的各区域级内容之间的相关性；根据所述第一自相关矩阵和所述第二自相关矩阵的差异，得到所述第二无监督损失。

根据本公开的一个或多个实施例，所述方法还包括：基于所述第二无标分割图和所述第二预测结果，得到第三无监督损失，所述第三无监督损失表征所述第二预测结果对应的全局语义类别相对于所述第二无标分割图对应的全局语义类别的差异；所述根据所述第一无监督损失，得到所述目标无监督损失，包括：根据所述第一无监督损失和所述第三无监督损失，得到所述目标无监督损失。

根据本公开的一个或多个实施例，所述基于所述第二无标分割图和所述第二预测结果，得到第三无监督损失，包括：获取所述第二无标分割图对应的第一全局语义向量和所述第二预测结果对应的第二全局语义向量，所述第一全局语义向量表征所述第二无标分割图中分割出的物体的数量和语义类别，所述第二全局语义向量表征所述第二预测结果中分割出的物体的数量和语义类别；根据所述第一全局语义向量和所述第二全局语义向量的差异，得到所述第三无监督损失。

第二方面，根据本公开的一个或多个实施例，提供了一种语义分割模型训练装置，包括：

根据本公开的一个或多个实施例，所述样本图像包括有标样本图像和无标样本图像，所述第一分割图包括由所述有标样本图像生成的第一有标分割图和由所述无标样本图像生成的第一无标分割图；所述第二分割图包括由所述有标样本图像生成的第二有标分割图和由所述无标样本图像生成的第二无标分割图；所述训练模块，具体用于：根据所述有标样本图像、所述第一有标分割图和所述第二有标分割图，得到目标监督损失；根据所述无标样本图像、所述第一无标分割图和所述第二无标分割图，得到目标无监督损失；根据所述目标监督损失和所述目标无监督损失进行加权融合，得到输出损失，并基于所述输出损失进行反向梯度传播，调整所述学生语义分割模型的网络参数，得到目标语义分割模型。

根据本公开的一个或多个实施例，所述训练模块在根据所述有标样本图像、所述第一有标分割图和所述第二有标分割图，得到目标监督损失时，具体用于：基于所述学生语义分割模型，处理所述有标样本图像，得到第一预测结果；基于所述有标样本图像的标注信息和所述第一预测结果，得到第一监督损失，所述第一监督损失表征所述标注信息和所述第一预测结果的差异；基于所述第一有标分割图、所述第二有标分割图和所述第一预测结果，得到第二监督损失，所述第二监督损失表征所述第一分割图和所述第二分割图相对所述第一预测结果的像素级一致性差异；根据所述第一监督损失和所述第二监督损失，得到所述目标监督损失。

根据本公开的一个或多个实施例，所述训练模块在根据所述无标样本图像、所述第一无标分割图和所述第二无标分割图，得到目标无监督损失时，具体用于：基于所述学生语义分割模型，处理所述无标样本图像，得到第二预测结果；基于所述第一无标分割图、所述第二无标分割图和所述第二预测结果，得到第一无监督损失，所述第一无监督损失表征所述第一无标分割图和所述第二无标分割图相对所述第二预测结果的像素级一致性差异；根据所述第一无监督损失，得到所述目标无监督损失。

根据本公开的一个或多个实施例，所述处理模块，还用于：获取所述第一教师网络的解码器输出的所述无标样本图像的第一特征图和所述学生语义分割模型的解码器输出的所述无标样本图像的第二特征图；所述训练模块，还用于：根据所述第一特征图和所述第二特征图，得到第二无监督损失，所述第二无监督损失表征所述第二预测结果的区域纹理相关性相对所述第一无标分割图的区域纹理相关性的差异；所述训练模块在根据所述第一无监督损失，得到所述目标无监督损失时，具体用于：根据所述第一无监督损失和所述第二无监督损失，得到所述目标无监督损失。

根据本公开的一个或多个实施例，所述训练模块在根据所述第一特征图和所述第二特征图，得到第二无监督损失时，具体用于：将所述第一特征图映射为第一特征向量集，将所述第二特征图映射为第二特征向量集，所述第一特征向量集表征所述第一教师网络对所述无标样本图像的区域级内容的评估；所述第二特征向量集表征所述学生语义分割模型对所述无标样本图像的区域级内容的评估；根据所述第一特征向量集和所述第二特征向量集，得到对应的第一自相关矩阵和第二自相关矩阵，所述第一自相关矩阵表征所述第一特征向量集对应的各区域级内容之间的相关性，所述第二自相关矩阵表征所述第二特征向量集对应的各区域级内容之间的相关性；根据所述第一自相关矩阵和所述第二自相关矩阵的差异，得到第二无监督损失。

根据本公开的一个或多个实施例，所述训练模块，还用于：基于所述第二无标分割图和所述第二预测结果，得到第三无监督损失，所述第三无监督损失表征所述第二预测结果对应的全局语义类别相对于所述第二无标分割图对应的全局语义类别的差异；所述训练模块在根据所述第一无监督损失，得到所述目标无监督损失时，具体用于：根据所述第一无监督损失和所述第三无监督损失，得到所述目标无监督损失。

根据本公开的一个或多个实施例，所述训练模块在基于所述第二无标分割图和所述第二预测结果，得到第三无监督损失时，具体用于：获取所述第二无标分割图对应的第一全局语义向量和所述第二预测结果对应的第二全局语义向量，所述第一全局语义向量表征所述第二无标分割图中分割出的物体的数量和语义类别，所述第二全局语义向量表征所述第二预测结果中分割出的物体的数量和语义类别；根据所述第一全局语义向量和所述第二全局语义向量的差异，得到所述第三无监督损失。

第三方面，根据本公开的一个或多个实施例，提供了一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

第四方面，根据本公开的一个或多个实施例，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一方面以及第一方面各种可能的设计所述的语义分割模型训练方法。

第五方面，根据本公开的一个或多个实施例，提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上第一方面以及第一方面各种可能的设计所述的语义分割模型训练方法。

第六方面，根据本公开的一个或多个实施例，提供了一种计算机程序，所述计算机程序用于实现如上第一方面以及第一方面各种可能的设计所述的语义分割模型训练方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

一种语义分割模型训练方法，包括：

获取预训练的教师语义分割模型，所述教师语义分割模型包括第一教师网络和第二教师网络，其中，所述第一教师网络具有低深度高宽度的结构特征，所述第二教师网络具有高深度低宽度的结构特征；

基于所述教师语义分割模型处理样本图像，得到第一分割图和第二分割图，其中，所述第一分割图为所述第一教师网络对所述样本图像进行语义分割的结果，所述第二分割图为所述第二教师网络对所述样本图像进行语义分割的结果；

根据所述样本图像、所述第一分割图和所述第二分割图，训练轻量化的学生语义分割模型，得到目标语义分割模型。
根据权利要求1所述的方法，其中，所述第一教师网络的深宽比系数小于或等于第一阈值，所述第二教师网络的深宽比系数大于或等于第二阈值，且所述第一阈值小于所述第二阈值，所述深宽比系数表征网络层数与网络输出通道数的比值。
根据权利要求1或2所述的方法，其中，所述样本图像包括有标样本图像和无标样本图像，所述第一分割图包括由所述有标样本图像生成的第一有标分割图和由所述无标样本图像生成的第一无标分割图；所述第二分割图包括由所述有标样本图像生成的第二有标分割图和由所述无标样本图像生成的第二无标分割图；

所述根据所述样本图像、所述第一分割图和所述第二分割图，训练轻量化的学生语义分割模型，得到目标语义分割模型，包括：

根据所述有标样本图像、所述第一有标分割图和所述第二有标分割图，得到目标监督损失；

根据所述无标样本图像、所述第一无标分割图和所述第二无标分割图，得到目标无监督损失；

根据所述目标监督损失和所述目标无监督损失进行加权融合，得到输出损失，并基于所述输出损失进行反向梯度传播，调整所述学生语义分割模型的网络参数，得到所述目标语义分割模型。
根据权利要求3所述的方法，其中，所述根据所述有标样本图像、所述第一有标分割图和所述第二有标分割图，得到目标监督损失，包括：

基于所述学生语义分割模型，处理所述有标样本图像，得到第一预测结果；

基于所述有标样本图像的标注信息和所述第一预测结果，得到第一监督损失，所述第一监督损失表征所述标注信息和所述第一预测结果的差异；

基于所述第一有标分割图、所述第二有标分割图和所述第一预测结果，得到第二监督损失，所述第二监督损失表征所述第一分割图和所述第二分割图相对所述第一预测结果的像素级一致性差异；

根据所述第一监督损失和所述第二监督损失，得到所述目标监督损失。
根据权利要求3或4所述的方法，其中，所述根据所述无标样本图像、所述第一无标分割图和所述第二无标分割图，得到目标无监督损失，包括：

基于所述学生语义分割模型，处理所述无标样本图像，得到第二预测结果；

基于所述第一无标分割图、所述第二无标分割图和所述第二预测结果，得到第一无监督损失，所述第一无监督损失表征所述第一无标分割图和所述第二无标分割图相对所述第二预测结果的像素级一致性差异；

根据所述第一无监督损失，得到所述目标无监督损失。
根据权利要求5所述的方法，其中，所述方法还包括：

获取所述第一教师网络的解码器输出的所述无标样本图像的第一特征图和所述学生语义分割模型的解码器输出的所述无标样本图像的第二特征图；

根据所述第一特征图和所述第二特征图，得到第二无监督损失，所述第二无监督损失表征所述第二预测结果的区域纹理相关性相对所述第一无标分割图的区域纹理相关性的差异；

所述根据所述第一无监督损失，得到所述目标无监督损失，包括：

根据所述第一无监督损失和所述第二无监督损失，得到所述目标无监督损失。
根据权利要求6所述的方法，其中，所述根据所述第一特征图和所述第二特征图，得到第二无监督损失，包括：

将所述第一特征图映射为第一特征向量集，将所述第二特征图映射为第二特征向量集，所述第一特征向量集表征所述第一教师网络对所述无标样本图像的区域级内容的评估；所述第二特征向量集表征所述学生语义分割模型对所述无标样本图像的区域级内容的评估；

根据所述第一特征向量集和所述第二特征向量集，得到对应的第一自相关矩阵和第二自相关矩阵，所述第一自相关矩阵表征所述第一特征向量集对应的各区域级内容之间的相关性，所述第二自相关矩阵表征所述第二特征向量集对应的各区域级内容之间的相关性；

根据所述第一自相关矩阵和所述第二自相关矩阵的差异，得到所述第二无监督损失。
根据权利要求5所述的方法，其中，所述方法还包括：

基于所述第二无标分割图和所述第二预测结果，得到第三无监督损失，所述第三无监督损失表征所述第二预测结果对应的全局语义类别相对于所述第二无标分割图对应的全局语义类别的差异；

所述根据所述第一无监督损失，得到所述目标无监督损失，包括：

根据所述第一无监督损失和所述第三无监督损失，得到所述目标无监督损失。
根据权利要求8所述的方法，其中，所述基于所述第二无标分割图和所述第二预测结果，得到第三无监督损失，包括：

获取所述第二无标分割图对应的第一全局语义向量和所述第二预测结果对应的第二全局语义向量，所述第一全局语义向量表征所述第二无标分割图中分割出的物体的数量和语义类别，所述第二全局语义向量表征所述第二预测结果中分割出的物体的数量和语义类别；

根据所述第一全局语义向量和所述第二全局语义向量的差异，得到所述第三无监督损失。
一种语义分割模型训练装置，包括：

获取模块，用于获取预训练的教师语义分割模型，所述教师语义分割模型包括第一教师网络和第二教师网络，其中，所述第一教师网络具有低深度高宽度的结构特征，所述第二教师网络具有高深度低宽度的结构特征；

处理模块，用于基于所述教师语义分割模型处理样本图像，得到第一分割图和第二分割图，其中，所述第一分割图为所述第一教师网络对所述样本图像进行语义分割的结果，所述第二分割图为所述第二教师网络对所述样本图像进行语义分割的结果；

训练模块，用于根据所述样本图像、所述第一分割图和所述第二分割图，训练轻量化的学生语义分割模型，得到目标语义分割模型。
一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1至9中任一项所述的语义分割模型训练方法。
一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至9中任一项所述的语义分割模型训练方法。
一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的语义分割模型训练方法。
一种计算机程序，所述计算机程序用于实现如权利要求1至9中任一项所述的语义分割模型训练方法。