WO2023019444A1

WO2023019444A1 - 语义分割模型的优化方法和装置

Info

Publication number: WO2023019444A1
Application number: PCT/CN2021/113095
Authority: WO
Inventors: 高彬; 郑晓旭; 徐航; 金欢
Original assignee: 华为技术有限公司
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2023-02-23
Also published as: CN117693768A

Abstract

一种语义分割模型的优化方法和装置，能够提高语义分割模型的预测准确度。该优化方法可以包括：获得目标图像，该目标图像是基于标注图像和无标注图像得到的（201）；将该目标图像输入第一语义分割模型，得到第一输出结果（202）；将该无标注图像输入第二语义分割模型，得到第二输出结果（203），该第二语义分割模型与该第一语义分割模型的模型结构相同；基于该目标图像、该第一输出结果和该第二输出结果，对该第一语义分割模型进行优化（204）。

Description

语义分割模型的优化方法和装置

技术领域

本申请涉及图像处理技术领域，并且更具体地，涉及语义分割模型的优化方法和装置。

背景技术

语义分割技术是对图像像素级别的理解，是在图像上对物体进行像素级的分类，即将属于同一类物体的像素归为一类，使用指定的标签(label)进行标记。目前，语义分割技术广泛应用于无人驾驶、辅助驾驶、自动驾驶、安防、监控等场景。

现有技术中，通常利用大量标注图像作为训练样本对语义分割模型进行训练，训练样本越多，得到的语义分割模型的准确度越高。

然而，由于目前标注图像都是由人工标注的，需要耗费大量的人力和财力，因此，人工标注的训练样本的数量非常有限，这样就会导致训练得到的语义分割模型的泛化性能较差，从而降低图像语义分割模型的预测准确度。

发明内容

本申请提供一种语义分割模型的优化方法和装置，能够提高图像语义分割模型的预测准确度。

第一方面，本申请提供一种语义分割模型的优化方法，该方法可以用于语义分割模型的优化装置，该方法可以包括：优化装置获得目标图像，该目标图像是基于标注图像和无标注图像得到的；该优化装置将该目标图像输入第一语义分割模型，得到第一输出结果；该优化装置将该无标注图像输入第二语义分割模型，得到第二输出结果，该第二语义分割模型与该第一语义分割模型的模型结构相同；该优化装置基于该目标图像、该第一输出结果和该第二输出结果，对该第一语义分割模型进行优化。

需要说明的是，上述目标图像是对标注图像和无标注图像进行混合后得到的图像。上述标注图像是指图像中包括的每个像素具有标注值，该每个像素的标注值用于指示该每个像素所属的对象类别。上述无标注图像是指图像中包括的每个像素不具有标注值。上述标注值通常为人工标注的真实值。

采用本申请实施例提供的语义分割模型的优化方法，采用第一语义分割模型和第二语义分割模型构成的双模型结构，其中，该第一语义分割模型可以作为学生模型，该第二语义分割模型可以作为教师模型，教师模型的输出结果可以用于辅助和指导学生模型的训练和优化，能够提高学生模型的优化效果，其中，第一语义分割模型输入的目标图像是经过对标注图像和无标注图像进行混合后得到的，能够更深入的挖掘标注图像和无标注图像之间的关联(即能够增强标注图像和无标注图像之间的关联)，以降低无标注图像和标注图像之间的分布差异，因此，通过该目标图像优化该第一语义分割模型，可以提高该第一语义分割模型的域适应能力，从而提高该第一语义分割模型的预测准确度。此外，第二语义分割模型输入的是无标注图像，通过该无标注图像训练该第二语义分割模型，能够减少该第二语义分割模型对标注图像的依赖，并能够降低标注图像的成本。

还需要说明的是，该标注图像、该无标注图像和该目标图像的分辨率相同。

可选地，该标注图像和该无标注图像通常是在类似应用场景或类似环境下采集得到的，即该标注图像和该无标注图像中至少包括共同的部分对象类别。如标注图像中包括的对象类别为车、人、树和楼，未标注图像中包括的对象为车、树和楼。

在一种可能的实现方式中，上述目标图像可以包括该标注图像的部分区域和该无标注图像的部分区域。

可选地，该优化装置可以通过多种方式获得该目标图像，本申请对此不作限定。

在一种可能的实现方式中，该优化装置可以接收其它装置(如图像生成装置)发送的该目标图像。也就是说，该目标图像可以由该图像生成装置生成。

在另一种可能的实现方式中，该优化装置可以基于该标注图像和该无标注图像，生成该目标图像。

可选地，该优化装置可以通过多种方式基于该标注图像和该无标注图像，生成该目标图像，本申请对此不做限定。

在一种可能的实现方式中，该优化装置对该标注图像进行裁剪，得到第一子图像；对该无标注图像进行裁剪，得到第二子图像；对该第一子图像和该第二子图像进行拼接，得到该目标图像。

在另一种可能的实现方式中，该优化装置可以基于第一掩膜提取该标注图像中的第一感兴趣区，得到该第一子图像；基于第二掩膜提取该无标注图像中的第二感兴趣区，得到该第二子图像；对该第一子图像和该第二子图像进行拼接，得到该目标图像，该第一感兴趣区在该第一掩膜中的位置与第二非感兴趣区在该第二掩膜中的位置对应，其中，该第二非感兴趣区为该第二掩膜中除该第二感兴趣区外的区域。

需要说明的是，该第一语义分割模型为预先通过训练好的模型、用于识别C种对象类别，C为大于0的整数。相应地，该目标图像中至少包括该C种对象类别中的部分或全部。

在一种可能的实现方式中，该第一输出结果可以包括第一语义分割图和P个第一特征图，P的取值大于该目标图像的通道数量，该第一特征图的分辨率小于该目标图像的分辨率。

可选地，该第一语义分割模型可以采用卷积神经网络，该卷积神经网络至少包括处理层1、处理层2、处理层3和处理层4。

在一种可能的实现方式中，以该目标图像的尺寸可以为H ₁×W ₁×T，其中，H ₁和W ₁均为大于1的整数，T为大于0的整数为例，上述步骤202可以包括：该优化装置通过该处理层1对该目标图像进行特征提取，得到Q个特征图1，该特征图1的分辨率为H ₂×W ₂，其中，H ₂小于H ₁，W ₂小于W ₁，Q大于T；通过该处理层2将Q个特征图1映射至P个特征图2(即P个第一特征图)，该特征图2的分辨率为H ₂×W ₂，其中，P小于Q；通过该处理层3将所述Q个特征图1映射至C个特征图3，该特征图3的分辨率为H ₁×W ₁，该C个特征图3和该C种对象类别一一对应，该特征图3包括H ₁×W ₁个置信度，该H ₁×W ₁个置信度与该目标图像包括的H ₁×W ₁个像素一一对应，该置信度用于表示该目标图像中对应位置的像素属于该特征图3对应的对象类别的概率；通过处理层4基于该 C个特征图3和该C种对象类别中的每种对象类别的可信阈值1，得到该第一语义分割图，该第一语义分割图的分辨率为H ₁×W ₁。

需要说明的是，在本申请中，Y个分辨率为H×W的特征图可以被称为一个H×W×Y的特征空间，该特征空间包括Y个通道(也即是该特征空间的深度为Y)，该Y个通道中的每个通道包括H×W个像素；或者，Y个分辨率为H×W的特征图可以被称为一个H×W×Y的特征矩阵，该特征矩阵包括Y个特征向量，该Y个特征向量中的每个特征向量包括H×W个元素，其中，Y为大于0的整数。

上述处理层1用于对目标图像进行下采样，得到Q个特征图1(即特征空间1)，该特征图1的分辨率相比于目标图像的分辨率变低，即处理层1能够减小图像的分辨率，从而减小模型的计算量，提高分类效率；此外，Q大于目标图像的通道数量，即处理层1能够提升特征空间的维度，从而提取图像的高维空间特征。

在一种可能的实现方式中，该处理层1可以包括至少一个卷积层1。

上述处理层2用于将Q个特征图1映射至P个特征图2(即特征空间2)，特征图2与特征图1的分辨率相同，但P小于Q，即处理层2能够降低特征空间的维度，以去除图像中的冗余特征，从而减少模型的计算量。

在一种可能的实现方式中，该处理层2可以包括至少一个卷积层2。

上述处理层3用于对Q个特征图1进行上采样，得到C个特征图3(即特征空间3)，该特征图3的分辨率与目标图像的分辨率相同，即处理层3能够还原出该目标图像的全分辨率，从而恢复出目标图像中更多的细节特征。

在一种可能的实现方式中，该处理层3可以包括至少一个反卷积层和最大值函数层。

需要说明的是，上面仅示意性介绍各处理层的结构，但本申请不限于此。可选地，各处理层还可以包括能够实现各自功能的其他操作层，本申请实施例对此不做限定。

例如，上述处理层1还可以至少一个池化层，池化层一方面可以使特征图的宽度和高度变小，通过减少特征图数据量降低卷积神经网络的计算复杂度；另一方面可以进行特征压缩，提取图像的主要特征。

在一种可能的实现方式中，该优化装置可以通过该处理层4确定该C个特征图3中同一位置的像素的最大置信度，若该最大置信度大于或等于该最大置信度所属的特征图3所对应的对象类别的可信阈值1，则确定该第一语义分割图中对应位置的像素属于该最大置信度所属的特征图3所对应的对象类别。

还需要说明的是，该第二语义分割模型为预先通过训练好的模型、用于识别该C种对象类别。相应地，该无标注图像中至少包括该C种对象类别中的部分或全部。

需要说明的是，本申请中所述的第一语义分割模型与第二语义分割模型的模型结构相同包括：第一，这两个模型的功能相同，即都用于识别该C种对象类别；第二，这两个模型使用的卷积神经网络的网络结构相同，即包括相同的处理层数量、处理层种类以及每个处理层的功能都相同。这两个模型的区别在于这两个模型中的处理层设置的参数可能不一样，如第一语义分割模型中卷积核的权重值和第二语义分割模型中卷积核的权重值不同。

在一种可能的实现方式中，该第二输出结果可以包括第二语义分割图和P个第二特征图，该第二特征图的分辨率小于该目标图像的分辨率。

在一种可能的实现方式中，该优化装置可以对该无标注图像进行特征提取，得到Q个第三特征图，该第三特征图的分辨率为H ₂×W ₂；将该Q个第三特征图映射至该P个第二特征图，该第二特征图的分辨率为H ₂×W ₂；将该Q个第三特征图映射至C个第四特征图，该第四特征图的分辨率为H ₁×W ₁，该C个第四特征图和该C种对象类别一一对应，该第四特征图包括H ₁×W ₁个置信度，该H ₁×W ₁个置信度与该无标注图像包括的H ₁×W ₁个像素一一对应，该置信度用于表示该无标注图像中对应位置的像素属于该第四特征图对应的对象类别的概率；基于该C个第四特征图和该C种对象类别中的每种对象类别的第一可信阈值，得到该第二语义分割图，该第二语义分割图的分辨率为H ₁×W ₁。

可选地，该第一输出结果可以包括第一语义分割图和P个第一特征图，该第二输出结果可以包括第二语义分割图和P个第二特征图。

相应地，该优化装置基于目标图像，该第一输出结果和该第二输出结果，对该第一语义分割模型进行优化可以包括：该优化装置基于该目标图像、该第一语义分割图、该P个第一特征图、该第二语义分割图和该P个第二特征图，对该第一语义分割模型进行优化。

在一种可能的实现方式中，该优化装置可以基于该P个第一特征图、该第二语义分割图、该P个第二特征图和第一损失函数，迭代调整模型的参数，该第一损失函数用于缩小属于相同对象类别的像素之间的距离和/或拉长属于不同对象类别的像素之间的距离。

采用本申请实施例提供的语义分割模型的优化方法，通过教师模型输出的第二语义分割图，可以指导学生模型对该P个第一特征图和该P个第二特征图进行对比学习，从而拉近不同类别的像素之间的距离，并拉远相同类别的像素之间的距离，以保证属于同一个类别的像素特征编码尽可能的相似，不同类别像素特征的编码尽可能不相似，因此，可以提高该学生模型分割类内的紧致性以及类间的差异性，从而提高学生模型的预测准确度。

在另一种可能的实现方式中，该优化装置可以基于该目标图像、该第一语义分割图和第二损失函数，迭代调整该第一语义分割模型的参数，该第二损失函数用于约束相同像素所属的对象类别的预测值和标注值的一致性。

采用本申请实施例提供的语义分割模型的优化方法，学生模型输入的目标图像中包括标注图像的部分图像区域，相应地，该学生模型输出的第一语义分割图中也包括与该部分图像区域对应的图像区域，通过对目标图像和第一语义分割图中相同像素的真实值和预测值进行一致性约束，能够提高学生模型的预测准确度。

在又一种可能的实现方式中，该优化装置可以基于该第一语义分割图、该第二语义分割图和第三损失函数，迭代调整该第一语义分割模型的参数，该第三损失函数用于约束该第一语义分割模型和该第二语义分割模型对相同像素所属的对象类别的预测结果的一致性。

采用本申请实施例提供的语义分割模型的优化方法，学生模型输入的目标图像中包括无标注图像的部分图像区域，相应地，教师模型输入的无标注图像也包括与该部分图像区域对应的图像区域，通过对学生模型和教师模型对相同像素所属的对象类别的预测结果进行一致性约束，能够提高学生模型的预测准确度。

需要说明的是，由于该第二语义分割模型采用的是无监督学习的训练方法，预测结果的可靠性较差，基于该第二语义分割模型输出的第二语义分割图对该第一语义分割模型进行优化的效果较差。

因此，为提高该第二语义分割模型的预测结果可靠性，该优化装置可以基于该C种对象类别中的每种对象类别的第一可信阈值和该每种对象类别的第二可信阈值，得到该每种对象类别的目标可信阈值，其中，该每种对象类别的第一可信阈值为本轮迭代过程中该第二语义分割模型使用的可信阈值，该每种对象类别的第二可信阈值为上一轮迭代过程中该第二语义分割模型使用的可信阈值；基于该C个第四特征图和该每种对象类别的目标可信阈值，得到第三语义分割图，该第三语义分割图的分辨率为H ₁×W ₁；基于该目标图像、该第一语义分割图、该P个第一特征图、该第三语义分割图和该P个第二特征图，对该第一语义分割模型进行优化。

示例的，可以通过如下公式得到该目标可信阈值Th'：

Th‘＝α·Th _t-1+(1-α)·Th _t

其中，α表示权重系数，Th _t-1表示上一轮迭代过程中该第二语义分割模型使用的可信阈值(即第二可信阈值)，Th _t表示本轮迭代过程中该第二语义分割模型使用的可信阈值(即第一可信阈值)。

进一步地，该优化装置可以将该第二语义分割模型本轮使用的可信阈值由该第一可信阈值更新为该目标可信阈值。

采用本申请实施例提供的语义分割模型的优化方法，由于该第二语义分割模型采用的是无监督学习的训练方法，预测结果的可靠性较差，因此，该优化装置基于上一轮迭代过程中该第二语义分割模型使用的可信阈值和本轮迭代过程中该第二语义分割模型使用的可信阈值动态更新各对象类别的可信阈值，以保证各对象类别的可信阈值始终在一个合理的数值范围内，进一步地，可以基于更新后各对象类别的可信阈值对该第二语义分割图中的预测结果进行筛查以筛除掉该第二语义分割图中的可靠性较差的预测结果，得到第三语义分割图，基于该第三语义分割图对该第一语义分割模型进行优化，有利于提高该第一语义分割模型的可靠性。

进一步地，该优化装置可以基于该目标图像、该第一语义分割图、该P个第一特征图、该第三语义分割图和该P个第二特征图，对该第一语义分割模型进行优化。具体可以参考上述基于该目标图像、该第一语义分割图、该P个第一特征图、该第三语义分割图和该P个第二特征图，对该第一语义分割模型进行优化的介绍，此处不再赘述。

可选地，该优化方法还可以包括：该优化装置向语义分割装置发送优化后的第一语义分割模型，即第一优化语义分割模型。

可选地，该优化装置可以通过多种方式向该语义分割装置发送该第一优化语义分割模型，本申请对此不做限定。

在一种可能的实现方式中，该优化装置可以基于预设的周期，周期性向该语义分割装置发送该第一优化语义分割模型。也就是说，该优化装置可以定期向该语义分割装置更新优化后的第一语义分割模型。

在另一种可能的实现方式中，该优化装置可以接收来自该语义分割装置的请求信息，该请求信息用于请求对该第一语义分割模型进行优化；该优化装置基于该请求信息，将该第一优化语义分割模型发送至该语义分割装置。

第二方面，本申请还提供一种语义分割方法，该方法可以用于语义分割装置，该方法可以包括：获得待处理图像；将该待处理图像输入第一优化语义分割模型，得到该待处理图像的语义分割图。

可选地，该语义分割装置可以通过多种方式获得该待处理图像，本申请对此不做限定。

在一种可能的实现方式中，该语义分割装置获得该待处理图像可以包括：该语义分割装置接收摄像装置发送的该待处理图像。相应地，摄像装置采集该待处理图像，并发送至该语义分割装置。

在另一种可能的实现方式中，该语义分割装置可以接收来自其他图像采集的该待处理图像，该其它图像采集装置用于采集该待处理图像。

可选地，在该将该待处理图像输入第一优化语义分割模型之前，该语义分割装置可以获得该第一优化语义分割模型。

可选地，该语义分割装置可以通过多种方式获得该第一优化语义分割模型，本申请对此不做限定。

在一种可能的实现方式中，该语义分割装置可以基于预设的周期，周期性接收来自该优化装置发送的该第一优化语义分割模型。也就是说，该语义分割装置可以定期接收该优化装置更新的优化后的第一语义分割模型。

在另一种可能的实现方式中，该语义分割装置可以向语义分割模型的优化装置发送请求信息，该请求信息用于请求对第一语义分割模型进行优化；并接收该语义分割模型的优化装置发送的该第一优化语义分割模型。

需要说明的是，上述第一优化语义分割模型为采用第一方面提供的优化方法对该第一语义分割模型进行优化后得到的，因此，通过基于该第一优化语义分割模型对待处理图像进行语义分割，能够提高语义分割的准确度。

第三方面，本申请还提供一种语义分割方法，该语义分割方法可以用于语义分割系统，该语义分割系统可以包括：优化装置和语义分割装置；该方法可以包括：优化装置获得目标图像，该目标图像是基于标注图像和无标注图像得到的；该优化装置将该目标图像输入第一语义分割模型，得到第一输出结果；该优化装置将该无标注图像输入第二语义分割模型，得到第二输出结果，该第二语义分割模型与该第一语义分割模型的模型结构相同；该优化装置基于该目标图像、该第一输出结果和该第二输出结果，对该第一语义分割模型进行优化，得到第一优化语义分割模型；该优化装置向该语义分割装置发送该第一优化语义分割装置；该语义分割装置获得待处理图像；该语义分割装置将该待处理图像输入该第一优化语义分割模型，得到该待处理图像的语义分割图。

可选地，该语义分割系统还可以包括显示装置，该方法还可以包括该语义分割装置向该显示装置发送该待处理图像的语义分割图；相应地，该显示装置显示该语义分割图。

需要说明的是，上述优化装置执行的步骤可以参考第一方面中的相关介绍，上述语义分割装置执行的步骤可以参考第二方面中的相关介绍，此处不再赘述。

第四方面，本申请还提供一种语义分割装置，该优化装置可以包括获得模块、第一语义分割模块、第二语义分割模块和优化模块；该获得模块，用于获得目标图像，该目标图像是基于标注图像和无标注图像得到的；该第一语义分割模块，用于将该目标图像输入第一语义分割模型，得到第一输出结果；该第二语义分割模块，用于将该无标注图像输入第二语义分割模型，得到第二输出结果，该第二语义分割模型与该第一语义分割模型的模型结构相同；该优化模块，用于基于该目标图像、该第一输出结果和该第二输出结果，对该第一语义分割模型进行优化。

在一种可能的实现方式中，该第一输出结果包括第一语义分割图和P个第一特征图，P的取值大于该目标图像的通道数量，该第一特征图的分辨率小于该目标图像的分辨率，该第二输出结果包括第二语义分割图和P个第二特征图，该第二特征图的分辨率与该第一特征图的分辨率相同，该第一语义分割图的分辨率和该第二语义分割图的分辨率均与该目标图像的分辨率相同；该优化模块具体用于基于该目标图像、该第一语义分割图、该P个第一特征图、该第二语义分割图和该P个第二特征图，对该第一语义分割模型进行优化。

在一种可能的实现方式中，该无标注图像的尺寸为H ₁×W ₁×T，该第二语义分割模型用于识别C种对象类别，其中，H ₁和W ₁均为大于1的整数，T为大于0的整数，C为大于0的整数，该第二语义分割模块具体用于：对该无标注图像进行特征提取，得到Q个第三特征图，该第三特征图的分辨率为H ₂×W ₂，其中，H ₂小于H ₁，W ₂小于W ₁，Q大于T；将该Q个第三特征图映射至该P个第二特征图，该第二特征图的分辨率为H ₂×W ₂，其中，P小于Q；将该Q个第三特征图映射至C个第四特征图，该第四特征图的分辨率为H ₁×W ₁，该C个第四特征图和该C种对象类别一一对应，该第四特征图包括H ₁×W ₁个置信度，该H ₁×W ₁个置信度与该无标注图像包括的H ₁×W ₁个像素一一对应，该置信度用于表示该无标注图像中对应位置的像素属于该第四特征图对应的对象类别的概率；基于该C个第四特征图和该C种对象类别中的每种对象类别的第一可信阈值，得到该第二语义分割图，该第二语义分割图的分辨率为H ₁×W ₁。

在一种可能的实现方式中，该优化装置还包括阈值更新模块，该阈值更新模块用于基于该每种对象类别的第一可信阈值和该每种对象类别的第二可信阈值，得到该每种对象类别的目标可信阈值，其中，该每种对象类别的第一可信阈值为本轮迭代过程中该第二语义分割模型使用的可信阈值，该每种对象类别的第二可信阈值为上一轮迭代过程中该第二语义分割模型使用的可信阈值；基于该C个第四特征图和该每种对象类别的目标可信阈值，得到第三语义分割图，该第三语义分割图的分辨率为H ₁×W ₁；该优化模块具体用于基于该目标图像、该第一语义分割图、该P个第一特征图、该第三语义分割图和该P个第二特征图，对该第一语义分割模型进行优化。

在一种可能的实现方式中，该优化模块具体用于：基于该P个第一特征图、该第三语义分割图、该P个第二特征图和第一损失函数，迭代调整模型的参数，该第一损失函数用于缩小属于相同对象类别的像素之间的距离和/或拉长属于不同对象类别的像素之间的距离；基于该目标图像、该第一语义分割图和第二损失函数，迭代调整该第一语义分割模型的参数，该第二损失函数用于约束相同像素所属的对象类别的预测值和标注值的一致性；基于该第一语义分割图、该第三语义分割图和第三损失函数，迭代调整该第一语义分割模型的参数，该第三损失函数用于约束该第一语义分割模型和该第二语义分割模型对相同像素所属的对象类别的预测结果的一致性。

在一种可能的实现方式中，该目标图像包括该标注图像的部分区域和该无标注图像的部分区域。

在一种可能的实现方式中，该获得模块具体用于：对该标注图像进行裁剪，得到第一子图像；对该无标注图像进行裁剪，得到第二子图像；对该第一子图像和该第二子图像进行拼接，得到该目标图像。

第五方面，本申请还提供一种语义分割装置，该装置可以包括获得模块和语义分割模块，该获得模块用于获得待处理图像；该语义分割模块用于将该待处理图像输入第一优化语义分割模型，得到该待处理图像的语义分割图。

可选地，该获得模块可以通过多种方式获得该待处理图像，本申请对此不做限定。

在一种可能的实现方式中，该获得模块具体用于接收摄像装置发送的该待处理图像。相应地，摄像装置采集该待处理图像，并发送至该获得模块。

在另一种可能的实现方式中，该获得模块可以接收来自其他图像采集装置的该待处理图像，该其他图像采集装置用于采集该待处理图像。

可选地，在该语义分割模块将该待处理图像输入第一优化语义分割模型之前，该语义分割模块可以获得该第一优化语义分割模型。

可选地，该语义分割模块可以通过多种方式获得该第一优化语义分割模型，本申请对此不做限定。

在一种可能的实现方式中，该语义分割模块可以基于预设的周期，周期性接收来自该优化装置发送的该第一优化语义分割模型。也就是说，该语义分割模块可以定期接收该优化装置更新的优化后的第一语义分割模型。

在另一种可能的实现方式中，该语义分割模块可以向语义分割模型的优化装置发送请求信息，该请求信息用于请求对第一语义分割模型进行优化；并接收该语义分割模型的优化装置发送的该第一优化语义分割模型。

第六方面，本申请还提供一种语义分割系统，该系统可以包括上述第一方面或其任意可能的实现方式中所述的语义分割模型的优化装置。

可选地，该系统还可以包括上述第二方面或其任意可能的实现方式中所述的语义分割装置。

可选地，该系统还可以包括图像采集装置和显示装置。

第七方面，本申请还提供一种终端，该终端可以包括上述第六方面中所述的语义分割系统。

可选地，该终端可以为车辆。

第八方面，本申请还提供一种语义分割模型的优化装置，该优化装置可以包括通信接口和处理器，该通信接口与该处理器耦合，该通信接口用于为该处理器提供信息和/或数据，该处理器用于运行计算机程序指令以执行上述第一方面或其任意可能的实现方式中所述的优化方法。

可选地，该优化装置还可以包括至少一个存储器，所述存储区用于存储该程序代码或指令。

可选地，该优化装置可以为芯片或集成电路。

第九方面，本申请还提供一种语义分割装置，该装置可以包括通信接口和处理器，该通信接口与该处理器耦合，该通信接口用于为该处理器提供信息和/或数据，该处理器用于运行计算机程序指令以执行上述第二方面或其任意可能的实现方式中所述的方法。

可选地，该装置还可以包括至少一个存储器，所述存储区用于存储该程序代码或指令。

可选地，该装置可以为芯片或集成电路。

第十方面，本申请还提供一种计算机可读存储介质，其特征在于，用于存储计算机程序，该计算机程序被处理器运行时，实现上述第一方面及其任意可能的实现方式中所述的优化方法，和/或，实现上述第二方面及其任意可能的实现方式中所述的方法。

第十一方面，本申请还提供一种计算机程序产品，其特征在于，当该计算机程序产品在处理器上运行时，实现上述第一方面及其任意可能的实现方式中所述的优化方法，和/或，实现上述第二方面及其任意可能的实现方式中所述的方法。

本申请提供的语义分割模型的优化装置、系统、计算机存储介质、计算机程序产品、芯片和终端均用于执行上文所提供的语义分割模型的优化方法，因此，其所能达到的有益效果可参考上文所提供的语义分割模型的优化方法中的有益效果，此处不再赘述。

本申请提供的语义分割装置、计算机存储介质、计算机程序产品、芯片和终端均用于执行上文所提供的语义分割方法，因此，其所能达到的有益效果可参考上文所提供的语义分割方法中的有益效果，此处不再赘述。

附图说明

图1是图像的尺寸示意图；

图2是卷积层实现卷积操作过程的示意图；

图3是本申请实施例提供的通过掩码提取待处理图像的感兴趣区的流程示意图；

图4是本申请实施例提供的语义分割处理的示意图；

图5是本申请实施例提供的语义分割系统100的示意性框图；

图6是本申请实施例提供的应用场景示意图；

图7是本申请实施例提供的语义分割模型的优化方法200的示意性流程图；

图8是本申请实施例提供的标注图像的示意图；

图9是本申请实施例提供的无标注图像的示意图；

图10是本申请实施例提供的目标图像的示意图；

图11是本申请实施例提供的另一目标图像的示意图；

图12是本申请实施例提供的通过第一掩膜提取标注图像的第一感兴趣区的流程示意图；

图13是本申请实施例提供的通过第二掩膜提取无标注图像的第二感兴趣区的流程示意图；

图14是本申请实施例提供的第一语义分割模型对目标图像进行语义分割的流程示意图；

图15是本申请实施例提供的处理层4的处理流程示意图；

图16是本申请实施例提供的语义分割方法300的示意性流程图；

图17是本申请实施例提供的语义分割模型的优化装置400的示意性框图；

图18是本申请实施例提供的语义分割模型的优化方法的流程示意图；

图19是本申请实施例提供的语义分割模型的优化装置500的示意性框图；

图20是本申请实施例提供的语义分割装置600的示意性框图；

图21是本申请实施例提供的语义分割装置700的示意性框图。

具体实施方式

下面将结合本申请中的附图，对本申请中的技术方案进行描述。

本申请的说明书实施例和权利要求书及附图中的术语“第一”、“第二”等仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a、b、c、“a和b”、“a和c”、“b和c”、或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

本申请的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释，而非旨在限定本申请。下面先对本申请实施例可能涉及的一些概念进行简单介绍。

1.像素(pixel)

像素是组成图像的最基本的元素，是一种逻辑尺寸单位。

2.图像的尺寸

图像的尺寸包括图像的宽度、高度和深度(depth，D)。

图像的高度可以理解为该图像在高度方向上包括的像素的数量。

图像的宽度可以理解为该图像在宽度方向上包括的像素的数量。

图像的深度可以理解为该图像包括的通道的数量，其中，图像的各通道的高度和高度都相同。

示例的，一个图像的尺寸为H×W×M，是指该图像包括M个通道，该M个通道中的每个通道的高度为H个像素、宽度为W个像素，其中，H、W和M均为大于0的整数。

还需要说明的是，图像的宽度和高度也称为图像的分辨率。

示例的，一个图像的高度为H个像素、宽度为W个像素，也被称为该图像的分辨率为H×W。

示例的，图1示出了一个尺寸为5×5×3的图像，如图1所示，该图像包括3通道，如图1中所示的红色(red，R)通道、绿色(green，G)通道和蓝色(blue，B)通道，其中，R通道、G通道和B通道的分辨率均为5×5，即每个通道的宽度为5个像素，高度为5个像素。

需要说明的是，图1中仅以深度为3的RGB图像为例进行描述，图像的深度还可以为其它取值，示例的，灰度图像的深度为1，RGB-D图像的深度为4。

3.卷积核

卷积核是一种滤波器，用于提取图像的特征图。卷积核的尺寸包括宽度、高度和深度，其中，卷积核的深度与输入图像的深度相同。对一个输入图像使用多少种不同的卷积核进行卷积操作，就可以提取多少个不同的特征图。

例如，采用一个5×5×3的卷积核对7×7×3的输入图像进行卷积操作，可以得到一个输出特征图，采用多个不同的5×5×3的卷积核对7×7×3的输入图像进行卷积操作，可以得到多个不同的输出特征图。

4.卷积步长

卷积步长是指卷积核在输入图像的特征图上滑动提取该输入图像的特征图的过程中，该卷积核在高度方向和宽度方向上执行两次卷积操作之间滑动的距离。

应理解，卷积步长可以决定输入图像的下采样倍率，例如，在宽度(或高度)方向上的卷积步长为B，可以使输入特征图在宽度(或高度)方向上实现B倍的下采样，B为大于1的整数。

5.卷积层(convolutional layer)

卷积层主要是基于设定的卷积核、卷积步长等参数，对输入图像进行卷积操作，以提取该输入图像的特征。

可选地，可以通过设置不同大小的卷积核、不同权重值或以不同的卷积步长对同一个图像进行多次卷积，以尽可能多的抽取该图像的特征。

需要说明的是，在使用一个K×K的卷积核对一个深度为1的输入图像进行卷积操作时，将卷积核在该图像上滑动时覆盖的K×K的图像块与卷积核做点乘，即图像块上每个点的灰度值与卷积核上相同位置的权重值相乘，共得到K×K个结果，累加后加上偏置，得到一个结果，输出为输出图像的单一像素，该像素在该输出图像上的坐标位置对应该图像块的中心在该输入图像上的坐标位置，其中，K为大于0的整数。

还需要说明的是，在使用卷积核对一个深度为N的输入图像进行卷积操作时，该卷积核的深度也需为N，其中，N为大于0的整数。该输入图像与卷积核的卷积操作，可以转化为将深度为N的输入图像和深度为N的卷积核在深度维度拆分为N个深度为1的图像分别与N个深度为1的卷积核进行卷积操作，最终在图像深度这一维度进行累加，最终获得一个输出图像。

还应理解，在卷积神经网络中，卷积层的输出图像通常包括多个特征图，一个深度为N的卷积核对深度为N的输入图像进行卷积操作后得到一个特征图，因此，如果想要获得多少个特征图就需要通过多少个深度为N的卷积核分别对输入图像进行卷积操作。

示例的，图2示出了卷积层实现对输入图像进行卷积操作的过程，输入图像的尺寸为5×5×3，为该输入图像的高度边界和宽度边界均填充1个像素后得到7×7×3的图像，卷积操作包括在宽度方向和高度方向上采用卷积核w0进行卷积步长为2的卷积，卷积核w0的尺寸为3×3×3，将该输入图像的3个通道(即通道1、通道2和通道3)分别与卷积核的三层深度(卷积核w0-1、卷积核w0-2和卷积核w0-3)进行卷积，得到特征图1，该特征图1的尺寸为3×3×1。

具体地，w0的第一层深度(即w0-1)和通道1黑色方框中对应位置的元素相乘再求和得到0，同理，卷积核w0的其他两个深度(即w0-2和w0-3)分别与通道2和通道3进行卷积操作，得到2和0，则图1中输出特征图1的第一个元素为0+2+0＝2。经过卷积核w0的第一次卷积操作后，黑色方框先沿着各通道的宽度方向上滑动，再沿着高度方向上滑动，每滑动一次进行一次卷积操作，其中，每次滑动的距离为2(即宽度和高度方向上的卷积步长均为2)，直到完成对该输入图像的卷积操作，得到3×3×1的特征图1。

可选地，若卷积操作还包括在宽度方向和高度方向上采用卷积核w1进行卷积步长为2的卷积，基于与卷积核w0类似的流程，可以得到3×3×1的特征图2。

6.反卷积层(deconvolution layer)

反卷积层也称反置卷积层(transposed convolution layer)，通过设定反卷积步长可以决定输入图像的上采样倍率，例如，在宽度(或高度)方向上的卷积步长为A，可以使输入特征图在宽度(或高度)方向上实现A倍的上采样，A为大于1的整数。

应理解，反卷积操作可以理解为如图2所示的卷积操作的逆过程。

7.标注图像

标注图像是指图像中的每个像素具有标注值，像素的标注值用于表示该像素所属的对象类别，标注图像中的标注值为人工标注的，也即是真实值。

8.无标注图像

无标注图像是指图像中的每个像素不具有标注值。

9.掩膜(mask)

掩膜用于提取待处理图像中的感兴趣区或遮挡该待处理图像中的非感兴趣区。掩膜通常为一个二值化图像，即掩膜中的每个像素值为“0”或1，其中，感兴趣区内的像素值为“1”，非感兴趣区内的像素值为“0”。

用掩膜提取待处理图像的感兴趣区的原理是：将待处理图像中的每个像素值与掩膜中对应位置的像素值相乘，该待处理图像的感兴趣区内的像素值保持不变，而感兴趣区外(即非感兴趣区内)的像素值都为0，这样就可以提取待处理图像的感兴趣区。

请参考图3，图3示出了通过掩膜提取待处理图像的感兴趣区的流程示意图。以待处理图像的第1行第1列的位置(即位置1)处的像素值为例，如图3中的“■”所示，待处理图像的位置1处的像素值为1，掩膜的位置1处的像素值为0，处理后位置1处的像素值为1×0＝0。同理，可以对该待处理图像中其他位置的像素值进行类似处理，得到效果图，效果图中的感兴趣区如图3中的

所示。

10.语义分割

语义分割是指像素级地识别图像，语义分割的目标是预测出待处理图像中每个位置处的像素所属的对象类别，并通过不同的标签值对该待处理图像中属于不同对象类别的像素进行标注。

待处理图像的语义分割结果通常通过语义分割图表示，该语义分割图与该待处理图像的分辨率相同，该语义分割图中每个位置处的标签值用于表示该待处理图像中对应位置处的像素所属的对象类别，其中，语义分割图中的标签值为预测值。

请参考图4，图4示出了语义分割处理的示意图，对如图4中的(a)所示的待处理图像进行语义分割处理之后，可以得到如图4中的(b)所示的语义分割图，其中，该语义分割图中标签值为1的位置表示待处理图像中对应位置的像素所属的对象类别为树，标签值为2的位置表示待处理图像中对应位置的像素所属的对象类别为道路，标签值为3的位置表示待处理图像中对应位置的像素所属的对象类别为天空，标签值为4的位置表示待处理图像中对应位置的像素所属的对象类别为楼房，标签值为5的位置表示待处理图像中对应位置的像素所属的对象类别为云，标签值为6的位置表示待处理图像中对应位置的像素所属的对象类别为汽车，标签值为7的位置表示待处理图像中对应位置的像素所属的对象类别为地面，标签值为8的位置表示待处理图像中对应位置的像素所属的对象类别为人。

11.卷积神经网络模型

卷积神经网络模型本质上是一种输入到输出的映射，它能够学习大量的输入与输出之间的映射关系，而不需要任何输入和输出之间的精确的数学表达式，在收集好训练样本后，对神经网络模型加以训练，神经网络模型就具有输入输出对之间的映射能力。

12.语义分割模型

语义分割模型是一种神经网络模型，该神经网络模型用于对输入图像进行语义分割处理，得到输出结果，该输出结果为该输入图像的语义分割图。

语义分割模型可以采用卷积神经网络，该卷积神经网络采用编码器-解码器架构，编码器通过卷积层逐渐增加输入图像的空间维度(即图像的特征图数量或通道数量)，如可以通过卷积层对输入进行一次或多次下采样，提取输入图像的高层语义特征。相应地，解码器在高层语义特征上通过反卷积层进行一次或多次上采样，逐渐恢复输入图像的细节和空间维度，最终输出与输入图像分辨率一致的语义分割图。

13.损失函数(loss function)

损失函数是用来估量模型的预测值与真实值的不一致程度，它是一个非负实值函数。损失函数值越小，模型的鲁棒性就越好。一个最佳化问题的目标是将损失函数值最小化。模型优化的过程是指，通过迭代调整模型的参数，使得模型的损失函数值最小化。

基于此，已有方案中提出采用半监督学习的方式训练语义分割模型，即通过少量标注图像结合大量无标注图像对语义分割模型进行训练，有效的挖掘标注图像与无标注图像之间的关联，从而提高语义分割模型的泛化性能。

然而，在已有方案中，若训练数据集(包括训练样本)和测试集(包括实际待处理图像)有着巨大差异时，很容易出现过拟合的现象，使得语义分割模型在测试集上表现不理想。也就是说，当训练数据集和测试数据集分布不一致的情况下，通过在训练数据集上按经验误差最小准则训练得到的模型在测试数据集上性能不佳，因此，在一个场景下的训练数据集训练得到的语义分割模型，并不能很好的适应另一个场景的数据，即语义分割模型的域适应能力较差。

示例的，假设训练数据集中的训练样本包括各种家用小轿车，而想训练得到可以识别厢货车的语义分割模型，该语义分割模型相比于家用小轿车的识别来说，预测的准确度较低。

综上所述，已有方案中采用半监督学习方法训练得到的语义分割模型的域适应性较差，导致预测准确度较低，从而语义分割模型的泛化性能较差。

基于此，本申请提供一种语义分割模型的优化方法和装置，通过对训练数据集中标注图像和无标注图像进行数据增强，以降低标注图像和无标注图像之间的分布差异，并基于数据增强后的训练数据集对语义分割模型进行优化，能够提高语义分割模型的预测准确度。此外，本申请还提供一种语义分割方法和装置，能够提高语义分割的准确度。

请参考图5，图5示出了本申请实施例提供的语义分割方法和语义分割模型的优化方法所应用的语义分割系统100的示意性框图。如图5所示，系统100可以包括语义分割模型的优化装置110，优化装置110中包括第一语义分割模型。

优化装置110用于采用本申请提供的语义分割模型的优化方法，基于训练数据集(包括多个训练样本)，对该第一语义分割模型进行优化，得到第一优化语义分割模型。

可选地，系统100还可以包括语义分割装置120，语义分割装置120可以与优化装置110通信。

优化装置110还用于将该第一优化语义分割模型发送至语义分割装置120。

语义分割装置120用于将待处理图像输入该第一优化语义分割模型，得到该待处理图像的语义分割图。

可选地，语义分割装置120和优化装置110可以为同一个装置，该装置既可以采用本申请提供优化方法对该第一语义分割模型进行优化，也可以通过优化后的第一优化语义分割模型对待处理图像进行语义分割。

可选地，系统100还可以包括摄像装置130和/或显示装置140，其中，摄像装置130可以分别与优化装置110和语义分割装置120通信，显示装置140可以与语义分割装置120通信。

摄像装置130用于拍摄该训练数据集中的样本图像，将该样本图像发送至优化装置110。

摄像装置130还用于拍摄该待处理图像，并将该待处理图像发送至语义分割装置120。

语义分割装置120还用于将该待处理图像的语义分割图发送至显示装置140。

显示装置140用于呈现该待处理图像的语义分割图。

可选地，本申请对优化装置110、语义分割装置120、摄像装置130和显示装置140的具体形态不作限定。

在一种可能的实现方式中，优化装置110、语义分割装置120、摄像装置130和显示装置140可以分别为单独的设备(或分别设置在不同的设备中)。

在另一种可能的实现方式中，优化装置110、语义分割装置120、摄像装置130和显示装置140中的一个或多个装置可以设置在同一个设备中，剩余一个或多个装置分别为单独的设备(或分别设置在不同的设备中)。

在又一种可能的实现方式中，优化装置110、语义分割装置120、摄像装置130和显示装置140均设置在同一个设备中，本申请实施例对此不做限定。

可选地，摄像装置130可以为摄像头或摄像头模组。示例的，摄像装置130可以包括静态摄像头和/或视频摄像头，用于采集样本图像和/或待处理图像。

可选地，显示装置140可以为显示屏。示例的，显示装置140可以为触摸显示屏，用于车辆与用户交互。如该车辆可以通过该触摸显示屏获得用户输入的信息；或者，该车辆可以通过该触摸显示屏向用户呈现显示界面(如语义分割图)。

可选地，上述系统100可以用于多种场景或领域，本申请对此不做限定。

在一种可能的实现方式中，系统100可以用于自动驾驶、辅助驾驶或无人驾驶的场景或领域，能够很好地对所在环境的场景图进行分割，输出更加真实的场景图，并使得自动驾驶系统可以做出更加安全可靠的行驶操作。

在另一种可能的实现方式中，系统100可以用于监控或安防的场景或领域，能够对监控区域内的人类进行分割，并基于分割结果进行目标跟踪、姿态分析预警等。

在又一种可能的实现方式中，系统100可以用于医疗的场景或领域，能够对医学图像中的各种器官进行分割，并基于分割结果进行对应独立器官三维的虚拟现实技术(virtual reality，VR)显示，以进行手术导航。

示例的，图6示出了本申请实施例提供的系统100所应用的场景图。如图6所示，语义分割装置120、摄像装置130和显示装置140可以设置在车辆中，优化装置110可以设置在云端的服务器中。

示例的，上述系统100可以通过以下流程实现对待处理图像进行语义分割。

语义分割装置120向优化装置110发送请求信息，该请求信息用于请求对第一语义分割模型进行优化。

该优化装置110基于该请求信息，采用本申请提供的优化方法对该第一语义分割模型进行优化，得到第一优化语义分割模型；向该语义分割装置120发送该第一优化语义分割模型。

该摄像装置130采集车辆行驶过程中的待处理图像；并发送至该语义分割装置120。

该语义分割装置120将该待处理图像输入该第一优化语义分割模型，得到该待处理图像的语义分割图；并发送至该显示装置140。

显示装置140显示该待处理图像的语义分割图。

需要说明的是，图6中仅以服务器设置在云端为例进行绘示，但本申请不限于此。可选地，该服务器也可以设置在该车辆上，本申请对此不做限定。

可选地，上述各装置之间可以通过有线方式或无线方式进行通信，本申请实施例对此不作限定。

示例的，上述有线方式可以为通过数据线连接、或通过内部总线连接实现通信。

示例的，上述无线方式可以为通过通信网络实现通信，该通信网络可以是局域网，也可以是通过中继(relay)设备转接的广域网，或者包括局域网和广域网。当该通信网络为局域网时，该通信网络可以是无线保真(wireless fidelity，Wifi)热点网络、wifi对等(peer-to-peer，P2P)网络、蓝牙(bluetooth)网络、zigbee网络、近场通信(near field communication，NFC)网或者未来可能的通用短距离通信网络等。当该通信网络为广域网时，示例性的，该通信网络可以是第三代移动通信技术(3rd-generation wireless telephone technology，3G)网络、第四代移动通信技术(the 4th generation mobile communication technology，4G)网络、第五代移动通信技术(5th-generation mobile communication technology，5G)网络、公共陆地移动网络(public land mobile network，PLMN)或因特网(Internet)等，本申请实施例对此不作限定。

上面介绍了本申请实施例提供的语义分割方法和语义分割模型的优化方法所应用的系统和场景，下面将进一步介绍上述语义分割模型的优化方法和语义分割方法。

请参考图7，图7提供了本申请实施例提供的语义分割模型的优化方法200的示意性流程图。如图7所示，该方法200可以应用于如图5所示的系统100中，并可以由系统100中的优化装置110执行。该优化装置的优化流程可以包括以下步骤，需要说明的是，以下所列步骤可以以各种顺序执行和/或同时发生，不限于图7所示的执行顺序。

步骤201，优化装置获得目标图像，该目标图像是基于标注图像和无标注图像得到的。

示例的，图8示出了本申请实施例提供的标注图像的示意图，该标注图像中每个像素都具有标注值，该标注值用于表示该像素所属的对象类别。如图8所示，该标注图像中标注值为1的像素所属的对象类别为树，标注值为2的像素所属的对象类别为道路，标注值为3的像素所属的对象类别为天空，标注值为4像素所属的对象类别为楼房，标注值为5的像素所属的对象类别为云，标注值为6的像素所属的对象类别为汽车，标注值为7的像素所属的对象类别为地面。

示例的，图9示出了本申请实施例提供的无标注图像的示意图，该无标注图像仅包括像素，即该无标注图像中每个像素位置处不具有标注值。

示例的，以图8中所示的标注图像和图9中所示的无标注图像为例，图10示出了本申请实施例提供的目标图像的示意图，如图10所示，该目标图像可以包括标注的子图像1和无标注的子图像2，其中，该子图像1截取自该标注图像，该子图像2截取自该无标注图像。

示例的，以图8中所示的标注图像和图9中所示的无标注图像为例，图11示出了本申请实施例提供的另一目标图像的示意图，如图11所示，该目标图像可以包括标注的子图像3和无标注的子图像4，其中，该子图像3截取自该标注图像，该子图像4截取自该无标注图像。

示例的，图12示出了本申请实施例提供的通过第一掩膜提取标注图像的第一感兴趣区的流程示意图，上述标注图像如图12中的(a)所示，上述第一掩膜如图12中的(b)所示，上述第一感兴趣区如图12中的(c)所示。

示例的，图13示出了本申请实施例提供的通过第二掩膜提取无标注图像的第二感兴趣区的流程示意图，上述无标注图像如图13中的(a)所示，上述第二掩膜如图13中的(b)所示，上述第二感兴趣区如图13中的(c)所示。

进一步地，该优化装置可以从该标注图像中裁取得到如图12中的(c)所示的第一感兴趣区对应的第一子图像，从该无标注图像中裁取得到如图13中的(c)所示的第二感兴趣区对应的第二子图像，并对该第一子图像和该第二子图像进行拼接，得到如图11中所示的目标图像。

步骤202，该优化装置将该目标图像输入第一语义分割模型，得到第一输出结果。

采用本申请提供的语义分割模型的优化方法，通过对标注图像和无标注图像进行混合，能够挖掘标注图像和无标注图像之间的关联，以降低标注图像和无标注图像之间的分布差异，通过混合后的目标图像训练该第一语义分割模型，能够提高该第一语义分割模型的域适应性，从而提高语义分割模型的预测准确度。

在一种可能的实现方式中，以该目标图像的尺寸可以为H ₁×W ₁×T，其中，H ₁和W ₁均为大于1的整数，T为大于0的整数为例，上述步骤202可以包括：该优化装置通过该处理层1对该目标图像进行特征提取，得到Q个特征图1，该特征图1的分辨率为H ₂×W ₂，其中，H ₂小于H ₁，W ₂小于W ₁，Q大于T；通过该处理层2将Q个特征图1映射至P个特征图2(即P个第一特征图)，该特征图2的分辨率为H ₂×W ₂，其中，P小于Q；通过该处理层3将所述Q个特征图1映射至C个特征图3，该特征图3的分辨率为H ₁×W ₁，该C个特征图3和该C种对象类别一一对应，该特征图3包括H ₁×W ₁个置信度，该H ₁×W ₁个置信度与该目标图像包括的H ₁×W ₁个像素一一对应，该置信度用于表示该目标图像中对应位置的像素属于该特征图3对应的对象类别的概率；通过处理层4基于该C个特征图3和该C种对象类别中的每种对象类别的可信阈值1，得到该第一语义分割图，该第一语义分割图的分辨率为H ₁×W ₁。

示例的，以1024×1024×3的目标图像为例，图14示出了本申请实施例提供的第一语义分割模型对目标图像进行语义分割的流程示意图。如图14所示，1024×1024×3的目标图像通过处理层1提取特征后得到128×128×1024的特征空间1，该特征空间1通过处理层2映射至128×128×256的特征空间2，该特征空间1通过处理层3映射至1024×1024×7的特征空间3，该特征空间3通过处理层4处理得到该第一语义分割图。

需要说明的是，为清楚起见，图14中所示的目标图像和第一语义分割图仅为示意图，该目标图像和该第一语义分割图的具体分辨率以图像下方标注的尺寸为准。

在一种可能的实现方式中，该处理层3可以包括至少一个反卷积层和最大值函数(argmax)层。

示例的，图15示出了本申请实施例提供的处理层4的处理流程示意图，如图15所示，以C取值为2为例，2个特征图3如图15中的(a)所示的特征图3-1和如图15中的(b)所示的特征图3-2所示，其中，特征图3-1对应对象类别1，该对象类别1的可信阈值1为0.6，特征图3-2对应的对象类别2，该对象类别2的可信阈值2为0.65为例，对于第一行第一列(即位置1)的像素，由该特征图3-1中位置1处的像素属于该对象类别1的置信度为0.78，特征图3-2中位置1处的像素属于该对象类别2的置信度为0.32，得到位置1对应的最大置信度为0.78，且0.78(特征图3-1中位置1对应的置信度)大于0.6(即该对象类别1的可信阈值1)，因此，该第一语义分割图中位置1处的像素属于该对象类别1。

类似地，对于第一行第五列(即位置2)的像素，由该特征图3-1中位置2处的像素属于该对象类别1的置信度为0.19，特征图3-2中位置2处的像素属于该对象类别2的置信度为0.81，得到位置2对应的最大置信度为0.81，且0.81(特征图3-2中位置2对应的置信度)大于0.65(即该对象类别2的可信阈值1)，因此，该第一语义分割图中位置2处的像素属于该对象类别1。

类似地，对于第四行第五列(即位置3)的像素，由该特征图3-1中位置3处的像素属于该对象类别1的置信度为0.44，特征图3-2中位置3处的像素属于该对象类别2的置信度为0.56，得到位置3对应的最大置信度为0.56，且0.56(特征图3-2中位置3对应的置信度)小于0.65(即该对象类别2的可信阈值1)，因此，该第一语义分割图中位置3处的像素不属于该对象类别0和对象类别1。

同理可以采用类似流程得到2个特征图3中其它位置处的像素所属的对象类别，此处不再赘述。

需要说明的是，在该第一语义分割图中通过不同的标签值标注不同的对象类别。示例的，如图15中的(c)所示，通过标签值“1”标注该第一语义分割图的位置1处的像素属于对象类别1，通过标签值“2”标注该第一语义分割图的位置2处的像素属于对象类别2，通过标签值“0”标注该第一语义分割图的位置3处的像素属于缺省对象。

步骤203，该优化装置将该无标注图像输入第二语义分割模型，得到第二输出结果，该第二语义分割模型与该第一语义分割模型的模型结构相同。

需要说明的是，本申请中所述的第一语义分割模型与第二语义分割模型的模型结构相同是指：第一，这两个模型的功能相同，即都用于识别该C种对象类别；第二，这两个模型使用的卷积神经网络的网络结构相同，即包括相同的处理层数量、处理层种类以及每个处理层的功能都相同。这两个模型的区别仅在于这两个模型中的处理层设置的参数可能不一样，如第一语义分割模型中卷积核的权重值和第二语义分割模型中卷积核的权重值不同。

需要说明的是，该第二语义分割模型为预先通过训练好的模型、用于识别该C种对象类别。相应地，该无标注图像中至少包括该C种对象类别中的部分或全部。

在一种可能的实现方式中，该优化装置可以对该无标注图像进行特征提取，得到Q个第三特征图，该第三特征图的分辨率为H ₂×W ₂；将该Q个第三特征图映射至该P个第二特征图，该第二特征图的分辨率为H ₂×W ₂；将该Q个第三特征图映射至C个第四特征图，该第四特征图的分辨率为H ₁×W ₁，该C个第四特征图和该C种对象类别一一对应，该第四特征图包括H ₁×W ₁个置信度，该H ₁×W ₁个置信度与该无标注图像包括的H ₁×W ₁个像素一一对应，该置信度用于表示该无标注图像中对应位置的像素属于该第四特征图对应的对象类别的概率；基于该C个第四特征图和该C种对象类别中的每种对象类别的第一可信阈值，得到该第二语义分割图，该第二语义分割图的分辨率为H ₁×W ₁。步骤203具体可以参考上述步骤202，此处不再赘述。

采用本申请实施例提供的语义分割模型的优化方法，第一语义分割模型输入的为目标图像是经过对标注图像和无标注图像进行混合后得到的，能够更深入的挖掘标注图像和无标注图像之间的关联，以降低无标注图像和标注图像之间的分布差异，因此，通过该目标图像训练该第一语义分割模型，可以提高该第一语义分割模型的域适应能力，从而提高该第一语义分割的泛化性能。此外，第二语义分割模型输入的是无标注图像，通过该无标注图像训练该第二语义分割模型，能够减少该第二语义分割模型对标注图像的依赖，并能够降低标注图像的成本。

步骤204，该优化装置基于该目标图像、该第一输出结果和该第二输出结果，对该第一语义分割模型进行优化。

本申请采用第一语义分割模型和第二语义分割模型构成的双模型结构，其中，该第一语义分割模型可以作为学生模型，该第二语义分割模型可以作为教师模型，教师模型的输出结果可以用于辅助和指导学生模型的训练和优化，因此，能够提高学生模型的优化效果。

相应地，步骤204可以包括：该优化装置基于该目标图像、该第一语义分割图、该P个第一特征图、该第二语义分割图和该P个第二特征图，对该第一语义分割模型进行优化。

示例的，可以通过如下公式(1)得到该目标可信阈值Th'。

Th‘＝α·Th _t-1+(1-α)·Th _t 公式(1)

通过上述步骤201～步骤204，可以得到经优化的第一语义分割模型，即第一优化语义分割模型。

可选地，该优化方法200还可以包括：该优化装置向语义分割装置发送优化后的第一语义分割模型，即第一优化语义分割模型。

请参考图16，图16示出了本申请实施例提供的语义分割方法300的示意性流程图。如图16所示，该方法300可以应用于如图5所示的系统100中，并可以由系统100中的语义分割装置120执行。该语义分割装置的语义分割流程可以包括以下步骤，需要说明的是，以下所列步骤可以以各种顺序执行和/或同时发生，不限于图16所示的执行顺序。

步骤301，语义分割装置获得待处理图像。

步骤302，该语义分割装置将该待处理图像输入第一优化语义分割模型，得到该待处理图像的语义分割图。

本申请实施例提供的语义分割方法，通过上述优化后的第一语义分割模型对待处理图像进行语义分割，能够提高语义分割的准确度。

上面结合图7至图16介绍了本申请实施例提供的语义分割模型的优化方法以及语义分割方法，下面将进一步介绍本申请实施例提供的语义分割装置的优化装置以及语义分割装置。

请参考图17，图17示出了本申请实施例提供的语义分割模型的优化装置400的示意性框图，该优化装置400可以包括获得模块401、第一语义分割模块402、第二语义分割模块403和优化模块404。

可选地，该优化装置400可以用于上述系统100，进一步地，该优化装置400可以为上述系统100中的优化装置110。

该获得模块401，用于获得目标图像，该目标图像是基于标注图像和无标注图像得到的；

该第一语义分割模块402，用于将该目标图像输入第一语义分割模型，得到第一输出结果；

该第二语义分割模块403，用于将该无标注图像输入第二语义分割模型，得到第二输出结果，该第二语义分割模型与该第一语义分割模型的模型结构相同；

该优化模块404，用于基于该目标图像、该第一输出结果和该第二输出结果，对该第一语义分割模型进行优化。

在一种可能的实现方式中，该第一输出结果包括第一语义分割图和P个第一特征图，P的取值大于该目标图像的通道数量，该第一特征图的分辨率小于该目标图像的分辨率，该第二输出结果包括第二语义分割图和P个第二特征图，该第二特征图的分辨率与该第一特征图的分辨率相同，该第一语义分割图的分辨率和该第二语义分割图的分辨率均与该目标图像的分辨率相同；该优化模块404具体用于基于该目标图像、该第一语义分割图、该P个第一特征图、该第二语义分割图和该P个第二特征图，对该第一语义分割模型进行优化。

在一种可能的实现方式中，该无标注图像的尺寸为H ₁×W ₁×T，该第二语义分割模型用于识别C种对象类别，其中，H ₁和W ₁均为大于1的整数，T为大于0的整数，C为大于0的整数，该第二语义分割模块403具体用于：对该无标注图像进行特征提取，得到Q个第三特征图，该第三特征图的分辨率为H ₂×W ₂，其中，H ₂小于H ₁，W ₂小于W ₁，Q大于T；将该Q个第三特征图映射至该P个第二特征图，该第二特征图的分辨率为H ₂×W ₂，其中，P小于Q；将该Q个第三特征图映射至C个第四特征图，该第四特征图的分辨率为H ₁×W ₁，该C个第四特征图和该C种对象类别一一对应，该第四特征图包括H ₁×W ₁个置信度，该H ₁×W ₁个置信度与该无标注图像包括的H ₁×W ₁个像素一一对应，该置信度用于表示该无标注图像中对应位置的像素属于该第四特征图对应的对象类别的概率；基于该C个第四特征图和该C种对象类别中的每种对象类别的第一可信阈值，得到该第二语义分割图，该第二语义分割图的分辨率为H ₁×W ₁。

在一种可能的实现方式中，该优化装置400还包括阈值更新模块405，该阈值更新模块405用于基于该每种对象类别的第一可信阈值和该每种对象类别的第二可信阈值，得到该每种对象类别的目标可信阈值，其中，该每种对象类别的第一可信阈值为本轮迭代过程中该第二语义分割模型使用的可信阈值，该每种对象类别的第二可信阈值为上一轮迭代过程中该第二语义分割模型使用的可信阈值；基于该C个第四特征图和该每种对象类别的目标可信阈值，得到第三语义分割图，该第三语义分割图的分辨率为H ₁×W ₁；该优化模块404具体用于基于该目标图像、该第一语义分割图、该P个第一特征图、该第三语义分割图和该P个第二特征图，对该第一语义分割模型进行优化。

在一种可能的实现方式中，该优化模块404具体用于：基于该P个第一特征图、该第三语义分割图、该P个第二特征图和第一损失函数，迭代调整模型的参数，该第一损失函数用于缩小属于相同对象类别的像素之间的距离和/或拉长属于不同对象类别的像素之间的距离；基于该目标图像、该第一语义分割图和第二损失函数，迭代调整该第一语义分割模型的参数，该第二损失函数用于约束相同像素所属的对象类别的预测值和标注值的一致性；基于该第一语义分割图、该第三语义分割图和第三损失函数，迭代调整该第一语义分割模型的参数，该第三损失函数用于约束该第一语义分割模型和该第二语义分割模型对相同像素所属的对象类别的预测结果的一致性。

在一种可能的实现方式中，该获得模块401具体用于：对该标注图像进行裁剪，得到第一子图像；对该无标注图像进行裁剪，得到第二子图像；对该第一子图像和该第二子图像进行拼接，得到该目标图像。

需要说明的是，上述装置之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。在一个可选例子中，优化装置400可以具体为上述优化方法200实施例中的优化装置，优化装置400可以用于执行上述优化方法200实施例中与优化装置对应的各个流程和/或步骤，为避免重复，在此不再赘述。

图17所示实施例中的各个模块中的一个或多个可以通过软件、硬件、固件或其结合实现。所述软件或固件包括但不限于计算机程序指令或代码，并可以被硬件处理器所执行。所述硬件包括但不限于各类集成电路，如中央处理单元(CPU，Central Processing Unit)、数字信号处理器(DSP，Digital Signal Processor)、现场可编程门阵列(FPGA，Field Programmable Gate Array)或专用集成电路(ASIC，Application Specific Integrated Circuit)。

示例的，图18示出了本申请实施例提供的语义分割模型的优化方法的流程示意图。可选地，该流程中的步骤可以由图17中所述的优化装置400执行。需要说明的是，以下所列步骤可以以各种顺序执行和/或同时发生，不限于图16所示的执行顺序。该流程包括以下步骤：

(1)获得模块401获得标注图像和无标注图像。

(2)获得模块401基于该标注图像和该无标注图像，得到目标图像。具体可以参考上述方法步骤201中的相关介绍。

(3)获得模块401将该目标图像发送至第一语义分割模块402和优化模块404。

(4)第一语义分割模块402将该目标图像输入第一语义分割模型，得到第一语义分割图和P个特征图，P的取值大于该目标图像的通道数量，该第一特征图的分辨率小于该目标图像的分辨率。具体可以参考上述方法步骤202中的相关介绍。

(5)第一语义分割模块402将该第一语义分割图和该P个第一特征图发送至优化模块404。

(6)第二语义分割模块403获得该无标注图像。

(7)第二语义分割模块403将该无标注图像输入第二语义分割模型，得到第二语义分割图和P个第二特征图，该第二特征图的分辨率与该第一特征图的分辨率相同，该第一语义分割图的分辨率和该第二语义分割图的分辨率均与该目标图像的分辨率相同，具体可以参考上述方法步骤203中的相关介绍。

其中，该第二语义分割模型与该第一语义分割模型的模型结构相同，均用于识别C种对象类别，C为大于0的整数。

(8)第二语义分割模块403将第二语义分割图发送至阈值更新模块405。

(9)第二语义分割模块403将该P个第二特征图发送至优化模块404。

(10)阈值更新模块405获得该第二语义分割模型上一轮迭代过程中使用该C种对象类别中的每个种对象类别的第一可信阈值和本轮迭代过程中使用的该每个种对象类别的第二可信阈值，得到该每个种对象类别的目标可信阈值。

(11)阈值更新模块405基于该第二语义分割图和该每个种对象类别的目标可信阈值，得到第三语义分割图。

(12)阈值更新模块405将该第三语义分割图发送至优化模块404。

(13)阈值更新模块405将该目标可信阈值发送至该第二语义分割模块403。

(14)第二语义分割模块403将本轮迭代过程中该第二语义分割模型使用的可信阈值由该第一可信阈值更新为该目标可信阈值。

(15)优化模块404基于该目标图像、该第一语义分割图、该P个第一特征图、该第三语义分割图和该P个第二特征图，对该第一语义分割模型进行优化，如迭代调整该第一语义分割模型的模型参数。具体可以参考上述所述步骤204中的相关介绍。

请参见图19，图19示出了本申请实施例提供的语义分割模型的优化装置500的示意性框图，优化装置500可以包括处理器501和通信接口502，处理器501和通信接口502耦合。

通信接口502，用于向处理器501输入图像数据，和/或从处理器501输出图像数据；处理器501运行计算机程序或指令，以使优化装置500实现上述方法200实施例所描述的优化方法。

本申请实施例中的处理器501包括但不限于中央处理单元(Central Processing Unit，CPU)、通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)、分立门或者晶体管逻辑器件或分立硬件组件等。通用处理器可以是微处理器、微控制器或者是任何常规的处理器等。

例如，处理器501用于通过通信接口502获得目标图像，该目标图像是基于标注图像和无标注图像得到的；将该目标图像输入第一语义分割模型，得到第一输出结果；将该无标注图像输入第二语义分割模型，得到第二输出结果，该第二语义分割模型与该第一语义分割模型的模型结构相同；基于该目标图像、该第一输出结果和该第二输出结果，对该第一语义分割模型进行优化。在一个可选例子中，本领域技术人员可以理解，优化装置500可以具体为上述优化方法200实施例中的优化装置，优化装置500可以用于执行上述优化方法200实施例中与优化装置对应的各个流程和/或步骤，为避免重复，在此不再赘述。

可选地，优化装置500还可以包括存储器503。

存储器503可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)。

具体地，存储器503用于存储优化装置的程序代码和指令。可选地，存储器503还用于存储处理器501执行上述优化优化方法200实施例过程中获得的图像数据，如通过通信接口502获得的目标图像。

可选地，存储器503可以为单独的器件或集成在处理器501中。

需要说明的是，图19仅仅示出了优化装置500的简化设计。在实际应用中，优化装置500还可以分别包含必要的其他元件，包含但不限于任意数量的通信接口、处理器、控制器、存储器等，而所有可以实现本申请的优化装置500都在本申请的保护范围之内。

在一种可能的设计中，优化装置500可以为芯片。可选地，该芯片还可以包括一个或多个存储器，用于存储计算机执行指令，当该芯片装置运行时，处理器可执行存储器存储的计算机执行指令，以使芯片执行上述优化方法。

可选地，该芯片装置可以为实现相关功能的现场可编程门阵列，专用集成芯片，系统芯片，中央处理器，网络处理器，数字信号处理电路，微控制器，还可以采用可编程控制器或其他集成芯片。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机指令，当该计算机指令在计算机上运行时，实现上述方法实施例描述的优化方法。

本申请实施例还提供一种计算机程序产品，当该计算机程序产品在处理器上运行时，实现上述方法实施例描述的优化方法。

本申请实施例提供的优化装置、计算机可读存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的优化方法，因此，其所能达到的有益效果可参考上文所提供的对应的优化方法中的有益效果，此处不再赘述。

请参考图20，图20示出了本申请实施例提供的语义分割装置600的示意性框图，该装置600可以包括获得模块601和语义分割模块602。

可选地，该装置600可以用于上述系统100，进一步地，该装置600可以为上述系统100中的语义分割装置120。

该获得模块601用于获得待处理图像。

该语义分割模块602用于将该待处理图像输入第一优化语义分割模型，得到该待处理图像的语义分割图。

需要说明的是上述第一优化语义分割模型是通过本申请实施例提供的优化方法200对第一语义分割模型进行优化后得到的，具体优化方法再次不再赘述。

图20所示实施例中的各个模块中的一个或多个可以通过软件、硬件、固件或其结合实现。所述软件或固件包括但不限于计算机程序指令或代码，并可以被硬件处理器所执行。所述硬件包括但不限于各类集成电路，如中央处理单元(CPU，Central Processing Unit)、数字信号处理器(DSP，Digital Signal Processor)、现场可编程门阵列(FPGA，Field Programmable Gate Array)或专用集成电路(ASIC，Application Specific Integrated Circuit)。

请参见图21，图21示出了本申请实施例提供的语义分割装置700的示意性框图，装置700可以包括处理器701和通信接口702，处理器701和通信接口702耦合。

通信接口702，用于向处理器701输入图像数据，和/或从处理器701输出图像数据；处理器701运行计算机程序或指令，以使装置700实现上述方法300实施例所描述的语义分割方法。

本申请实施例中的处理器701包括但不限于中央处理单元(Central Processing Unit，CPU)、通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)、分立门或者晶体管逻辑器件或分立硬件组件等。通用处理器可以是微处理器、微控制器或者是任何常规的处理器等。

例如，处理器701用于通过通信接口702获得待处理图像；将该待处理图像输入第一优化语义分割模型，得到该待处理图像的语义分割图。在一个可选例子中，本领域技术人员可以理解，装置700可以具体为上述方法300实施例中的语义分割装置，装置700可以用于执行上述方法300实施例中与语义分割装置对应的各个流程和/或步骤，为避免重复，在此不再赘述。

可选地，装置700还可以包括存储器703。

存储器703可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)。

具体地，存储器703用于存储装置的程序代码和指令。可选地，存储器703还用于存储处理器701执行上述方法300实施例过程中获得的图像数据，如通过通信接口702获得的待处理图像。

可选地，存储器703可以为单独的器件或集成在处理器701中。

需要说明的是，图21仅仅示出了装置700的简化设计。在实际应用中，装置700还可以分别包含必要的其他元件，包含但不限于任意数量的通信接口、处理器、控制器、存储器等，而所有可以实现本申请的装置700都在本申请的保护范围之内。

在一种可能的设计中，装置700可以为芯片。可选地，该芯片还可以包括一个或多个存储器，用于存储计算机执行指令，当该芯片装置运行时，处理器可执行存储器存储的计算机执行指令，以使芯片执行上述语义分割方法。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机指令，当该计算机指令在计算机上运行时，实现上述方法实施例描述的语义分割方法。

本申请实施例还提供一种计算机程序产品，当该计算机程序产品在处理器上运行时，实现上述方法实施例描述的语义分割方法。

本申请实施例提供的语义分割装置、计算机可读存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的语义分割方法，因此，其所能达到的有益效果可参考上文所提供的对应的语义分割方法中的有益效果，此处不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种语义分割模型的优化方法，其特征在于，包括：

获得目标图像，所述目标图像是基于标注图像和无标注图像得到的；

将所述目标图像输入第一语义分割模型，得到第一输出结果；

将所述无标注图像输入第二语义分割模型，得到第二输出结果，所述第二语义分割模型与所述第一语义分割模型的模型结构相同；

基于所述目标图像、所述第一输出结果和所述第二输出结果，对所述第一语义分割模型进行优化。
根据权利要求1所述的方法，其特征在于，所述第一输出结果包括第一语义分割图和P个第一特征图，P的取值大于所述目标图像的通道数量，所述第一特征图的分辨率小于所述目标图像的分辨率，所述第二输出结果包括第二语义分割图和P个第二特征图，所述第二特征图的分辨率与所述第一特征图的分辨率相同，所述第一语义分割图的分辨率和所述第二语义分割图的分辨率均与所述目标图像的分辨率相同；

其中，所述基于所述目标图像、所述第一输出结果和所述第二输出结果，对所述第一语义分割模型进行优化，包括：

基于所述目标图像、所述第一语义分割图、所述P个第一特征图、所述第二语义分割图和所述P个第二特征图，对所述第一语义分割模型进行优化。
根据权利要求2所述的方法，其特征在于，所述无标注图像的尺寸为H ₁×W ₁×T，所述第二语义分割模型用于识别C种对象类别，其中，H ₁和W ₁均为大于1的整数，T为大于0的整数，C为大于0的整数，所述将所述无标注图像输入第二语义分割模型，得到第二输出结果，包括：

对所述无标注图像进行特征提取，得到Q个第三特征图，所述第三特征图的分辨率为H ₂×W ₂，其中，H ₂小于H ₁，W ₂小于W ₁，Q大于T；

将所述Q个第三特征图映射至所述P个第二特征图，所述第二特征图的分辨率为H ₂×W ₂，其中，P小于Q；

将所述Q个第三特征图映射至C个第四特征图，所述第四特征图的分辨率为H ₁×W ₁，所述C个第四特征图和所述C种对象类别一一对应，所述第四特征图包括H ₁×W ₁个置信度，所述H ₁×W ₁个置信度与所述无标注图像包括的H ₁×W ₁个像素一一对应，所述置信度用于表示所述无标注图像中对应位置的像素属于所述第四特征图对应的对象类别的概率；

基于所述C个第四特征图和所述C种对象类别中的每种对象类别的第一可信阈值，得到所述第二语义分割图，所述第二语义分割图的分辨率为H ₁×W ₁。
根据权利要求3所述的方法，其特征在于，所述基于所述目标图像、所述第一语义分割图、所述P个第一特征图、所述第二语义分割图和所述P个第二特征图，对所述第一语义分割模型进行优化，包括：

基于所述每种对象类别的第一可信阈值和所述每种对象类别的第二可信阈值，得到所述每种对象类别的目标可信阈值，其中，所述每种对象类别的第一可信阈值为本轮迭代过程中所述第二语义分割模型使用的可信阈值，所述每种对象类别的第二可信阈值为上一轮迭代过程中所述第二语义分割模型使用的可信阈值；

基于所述C个第四特征图和所述每种对象类别的目标可信阈值，得到第三语义分割图，所述第三语义分割图的分辨率为H ₁×W ₁；

基于所述目标图像、所述第一语义分割图、所述P个第一特征图、所述第三语义分割图和所述P个第二特征图，对所述第一语义分割模型进行优化。
根据权利要求4所述的方法，其特征在于，所述基于所述目标图像、所述第一语义分割图、所述P个第一特征图、所述第三语义分割图和所述P个第二特征图，对所述第一语义分割模型进行优化，包括：

基于所述P个第一特征图、所述第三语义分割图、所述P个第二特征图和第一损失函数，迭代调整模型的参数，所述第一损失函数用于缩小属于相同对象类别的像素之间的距离和/或拉长属于不同对象类别的像素之间的距离；

基于所述目标图像、所述第一语义分割图和第二损失函数，迭代调整所述第一语义分割模型的参数，所述第二损失函数用于约束相同像素所属的对象类别的预测值和标注值的一致性；

基于所述第一语义分割图、所述第三语义分割图和第三损失函数，迭代调整所述第一语义分割模型的参数，所述第三损失函数用于约束所述第一语义分割模型和所述第二语义分割模型对相同像素所属的对象类别的预测结果的一致性。
根据权利要求1-5任一项所述的方法，其特征在于，所述目标图像包括所述标注图像的部分区域和所述无标注图像的部分区域。
根据权利要求1-6任一项所述的方法，其特征在于，所述获得目标图像，包括：

对所述标注图像进行裁剪，得到第一子图像；

对所述无标注图像进行裁剪，得到第二子图像；

对所述第一子图像和所述第二子图像进行拼接，得到所述目标图像。
一种语义分割模型的优化装置，其特征在于，包括：

获得模块，用于获得目标图像，所述目标图像是基于标注图像和无标注图像得到的；

第一语义分割模块，用于将所述目标图像输入第一语义分割模型，得到第一输出结果；

第二语义分割模块，用于将所述无标注图像输入第二语义分割模型，得到第二输出结果，所述第二语义分割模型与所述第一语义分割模型的模型结构相同；

优化模块，用于基于所述目标图像、所述第一输出结果和所述第二输出结果，对所述第一语义分割模型进行优化。
根据权利要求8所述的装置，其特征在于，所述第一输出结果包括第一语义分割图和P个第一特征图，P的取值大于所述目标图像的通道数量，所述第一特征图的分辨率小于所述目标图像的分辨率，所述第二输出结果包括第二语义分割图和P个第二特征图，所述第二特征图的分辨率与所述第一特征图的分辨率相同，所述第一语义分割图的分辨率和所述第二语义分割图的分辨率均与所述目标图像的分辨率相同；

所述优化模块具体用于基于所述目标图像、所述第一语义分割图、所述P个第一特征图、所述第二语义分割图和所述P个第二特征图，对所述第一语义分割模型进行优化。
根据权利要求9所述的装置，其特征在于，所述无标注图像的尺寸为H ₁×W ₁×T，所述第二语义分割模型用于识别C种对象类别，其中，H ₁和W ₁均为大于1的整数，T为大于0的整数，C为大于0的整数，所述第二语义分割模块具体用于：

对所述无标注图像进行特征提取，得到Q个第三特征图，所述第三特征图的分辨率为H ₂×W ₂，其中，H ₂小于H ₁，W ₂小于W ₁，Q大于T；

将所述Q个第三特征图映射至所述P个第二特征图，所述第二特征图的分辨率为H ₂×W ₂，其中，P小于Q；

将所述Q个第三特征图映射至C个第四特征图，所述第四特征图的分辨率为H ₁×W ₁，所述C个第四特征图和所述C种对象类别一一对应，所述第四特征图包括H ₁×W ₁个置信度，所述H ₁×W ₁个置信度与所述无标注图像包括的H ₁×W ₁个像素一一对应，所述置信度用于表示所述无标注图像中对应位置的像素属于所述第四特征图对应的对象类别的概率；

基于所述C个第四特征图和所述C种对象类别中的每种对象类别的第一可信阈值，得到所述第二语义分割图，所述第二语义分割图的分辨率为H ₁×W ₁。
根据权利要求10所述的装置，其特征在于，所述优化装置还包括阈值更新模块，

所述阈值更新模块用于基于所述每种对象类别的第一可信阈值和所述每种对象类别的第二可信阈值，得到所述每种对象类别的目标可信阈值，其中，所述每种对象类别的第一可信阈值为本轮迭代过程中所述第二语义分割模型使用的可信阈值，所述每种对象类别的第二可信阈值为上一轮迭代过程中所述第二语义分割模型使用的可信阈值；基于所述C个第四特征图和所述每种对象类别的目标可信阈值，得到第三语义分割图，所述第三语义分割图的分辨率为H ₁×W ₁；

所述优化模块具体用于基于所述目标图像、所述第一语义分割图、所述P个第一特征图、所述第三语义分割图和所述P个第二特征图，对所述第一语义分割模型进行优化。
根据权利要求11所述的装置，其特征在于，所述优化模块具体用于：

基于所述P个第一特征图、所述第三语义分割图、所述P个第二特征图和第一损失函数，迭代调整模型的参数，所述第一损失函数用于缩小属于相同对象类别的像素之间的距离和/或拉长属于不同对象类别的像素之间的距离；

基于所述目标图像、所述第一语义分割图和第二损失函数，迭代调整所述第一语义分割模型的参数，所述第二损失函数用于约束相同像素所属的对象类别的预测值和标注值的一致性；

基于所述第一语义分割图、所述第三语义分割图和第三损失函数，迭代调整所述第一语义分割模型的参数，所述第三损失函数用于约束所述第一语义分割模型和所述第二语义分割模型对相同像素所属的对象类别的预测结果的一致性。
根据权利要求8-12任一项所述的装置，其特征在于，所述目标图像包括所述标注图像的部分区域和所述无标注图像的部分区域。
根据权利要求8-13任一项所述的装置，其特征在于，所述获得模块具体用于：

对所述标注图像进行裁剪，得到第一子图像；

对所述无标注图像进行裁剪，得到第二子图像；

对所述第一子图像和所述第二子图像进行拼接，得到所述目标图像。
一种语义分割模型的优化装置，其特征在于，包括：处理器和通信接口，所述处理器和所述通信接口耦合，所述通信接口用于为所述处理器提供信息和/或数据，所述处理器用于运行计算机程序指令以执行上述权利要求1-7中任一项所述的方法。
一种计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序被处理器运行时，实现如权利要求1-7任一项所述的方法。
一种计算机程序产品，其特征在于，当所述计算机程序产品在处理器上运行时，实现如权利要求1-7任一项所述的方法。