WO2020156303A1

WO2020156303A1 - 语义分割网络的训练方法及装置、基于语义分割网络的图像处理方法及装置、设备、存储介质

Info

Publication number: WO2020156303A1
Application number: PCT/CN2020/073121
Authority: WO
Inventors: 王俊东; 梁德澎; 张树业; 张壮辉; 梁柱锦
Original assignee: 广州市百果园信息技术有限公司
Priority date: 2019-01-30
Filing date: 2020-01-20
Publication date: 2020-08-06
Also published as: CN111507343B; CN111507343A

Abstract

本文公开了一种语义分割网络的训练方法及装置、基于语义分割网络的图像处理方法及装置、设备、存储介质，语义分割网络的训练方法包括：获取训练数据集，所述训练数据集包括训练图像、与训练图像配对的标注语义分割图；将训练图像输入预先构建的语义分割网络中进行处理以生成预测语义分割图；根据预测语义分割图和标注语义分割图确定分类损失函数值和一致性损失函数值；根据分类损失函数值和一致性损失函数值对所述语义分割网络进行调整。

Description

语义分割网络的训练方法及装置、基于语义分割网络的图像处理方法及装置、设备、存储介质

本申请要求在2019年01月30日提交中国专利局、申请号为201910091543.1的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及图像处理技术领域，例如涉及一种语义分割网络的训练方法、一种基于语义分割网络的图像处理方法、一种语义分割网络的训练装置、一种基于语义分割网络的图像处理装置、设备和存储介质。

背景技术

随着深度学习的发展，基于深度学习的图像语义分割取得了极大的进步。图像语义分割处理的目的是为输入图像的每个像素预测一个准确的物体类别标签，从而实现对图像进行语义级别理解，其在道路分割、医学影像、自动抠图、无人机、自动监控等场景具有重要的应用价值。

基于全卷积神经网络的语义分割网络采用编码器和解码器的架构，通过提取和融合不同层次的特征，最终为每个像素分配一个语义类别，但语义分割网络采用的损失函数简单地将语义分割问题当作一个像素级的分类任务，导致语义分割网络输出的语义分割图存在如图1所示在视觉上不平稳和明暗交替的现象，甚至会出现密集的棋盘效应，极大地影响了用户的视觉体验。

发明内容

本申请实施例提供一种语义分割网络的训练方法、一种基于语义分割网络的图像处理方法、一种语义分割网络的训练装置、一种基于语义分割网络的图像处理装置、设备和存储介质，以解决语义分割网络输出的语义分割图存在视觉上不平稳和明暗交替的现象，甚至出现密集的棋盘效应的问题，以使得通过语义分割网络对图像语义分割后可以获得较高质量的语义分割图，从而提高用户的视觉体验。

本申请实施例提供了一种语义分割网络的训练方法，包括：

获取训练数据集，所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图；

将所述训练图像输入预先构建的语义分割网络中进行处理，以生成预测语义分割图；

根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值；

根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整。

本申请实施例提供了一种基于语义分割网络的图像处理方法，包括：

获取目标图像；

将所述目标图像输入预先训练的语义分割网络中，以生成所述目标图像的语义分割图；

其中，所述语义分割网络通过以下方式训练：

本申请实施例提供了一种语义分割网络的训练装置，包括：

训练数据获取模块，设置为获取训练数据集，所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图；

预测语义分割图生成模块，设置为将所述训练图像输入预先构建的语义分割网络中进行处理，以生成预测语义分割图；

损失函数值确定模块，设置为根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值；

参数调整模块，设置为根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整。

本申请实施例提供了一种基于语义分割网络的图像处理装置，包括：

目标图像获取模块，设置为获取目标图像；

图像处理模块，设置为将所述目标图像输入预先训练的语义分割网络中进程处理，以生成所述目标图像的语义分割图；

其中，所述语义分割网络通过以下模块训练：

本申请实施例提供了一种设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器运行所述程序时执行本申请任一实施例所述的语义分割网络的训练方法和/或基于语义分割网络的图像处理方法。

本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本申请任一实施例所述的语义分割网络的训练方法和/或基于语义分割网络的图像处理方法。

附图说明

图1是相关技术中的一种语义分割网络输出的语义分割图的示意图；

图2A是本申请实施例一提供的一种语义分割网络的训练方法的流程图；

图2B是本申请实施例一提供的一种语义分割网络的架构示意图；

图2C是本申请实施例一提供的一种空洞卷积的卷积核示意图；

图2D是本申请实施例一提供的一种语义分割网络和相关技术中的语义分割网络输出的语义分割图的对比示意图；

图3A是本申请实施例二提供的一种语义分割网络的训练方法的流程图；

图3B是本申请实施例二提供的一种像素的邻域的示意图；

图4是本申请实施例三提供的一种基于图像语义分割网络的图像处理方法的流程图；

图5是本申请实施例四提供的一种语义分割网络的训练装置的结构框图；

图6是本申请实施例五提供的一种基于图像语义分割网络的图像处理装置的结构框图；

图7是本申请实施例六提供的一种设备的结构框图。

具体实施方式

下面结合附图和实施例对本申请进行说明。此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

实施例一

图2A为本申请实施例一提供的一种语义分割网络的训练方法的流程图，本申请实施例可适用于训练语义分割网络以对图像进行处理的情况，该方法可以由语义分割网络的训练装置来执行，该装置可以通过软件和/或硬件的方式来实现，并集成在执行本方法的设备中，如图2A所示，该方法可以包括如下步骤：

S1010、获取训练数据集，所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图。

本实施例中，训练数据集可以包括训练图像以及与训练图像配对的标注语义分割图，其中，训练图像可以是位图(Bitmap，BMP)、联合图像专家组(Joint Photographic Experts Group，JPG)、便携式网络图形(Portable Network Graphics，PNG)、标签图像文件(Tag Image File，TIF)等存储格式的图像，标注的语义分割图可以是对训练图像中每个像素进行分类和标注的图像，分类可以是根据训练图像的语义信息，对每个像素进行分类，例如训练图像中每个像素属于图像中的人物上的像素或者其它物体上的像素，标注可以是为每个像素所属分类添加标签值。

在实际应用中，可以从预先存储的图像数据库中获取训练图像以及与训练图像配对的标注语义分割图。

S1020、将所述训练图像输入预先构建的语义分割网络中进行处理，以生成预测语义分割图。

如图2B所示，本申请实施例提供的一种语义分割网络可以为全卷积神经网络，全卷积神经网络采用编码器-解码器架构。编码器通过池化层逐渐减少空间维度，比如，编码器可以进行三次下采样，提取出输入的训练图像的高层语义特征。解码器在高层语义特征上逐步通过反卷积层上采样，逐渐恢复训练图像的细节和空间维度，最终输出与输入训练图像分辨率一致的语义分割图。

如图2C所示，全卷积神经网络中可以采用空洞卷积核，如图2C中所示，图a中为现有的卷积核的示意图，图b为空洞卷积核的示意图，图a中卷积核A 是连续的，图b中卷积核B存在空洞c，通过空洞卷积核可以增加高层特征图每个节点对底层特征图的感受和覆盖范围，即增加了卷积核的感受野，以达到不增加计算量的情况下增加感受野范围，使得每个节点的高层特征可以包含更多的上下文信息，提高了预测的准确性。

S1030、根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值。

本申请实施例中，分类损失函数值可以监督语义分割网络学习训练图像的高层语义特征，以对训练图像中的每个像素进行拟合，从而使得输出的预测语义分割图更为接近于标注语义分割图，可选地，分类损失函数值可以通过最小均方差损失函数、交叉熵损失函数等损失函数计算；一致性损失函数值可以监督语义分割网络学习像素之间的关系，使得语义分割网络输出的语义分割图具有结构性和空间一致性。例如像素之间的关系可以是局部空间内，两个像素在语义类别、颜色、纹理等方面的近似性，语义分割网络在一致性损失函数值的监督下学习到两个像素的预测值尽可能相似，即需要约束两个像素的预测值，使两个像素之间的预测值差距尽可能小，如图2D，原图2D-1中包含一个人体，形成该人体图像的像素应该具有相似的预测值，通过一致性损失函数值监督语义分割网络学习像素之间的约束关系后，输出图2D-3中人体内的像素具有相近的预测值，相对于缺乏一致性损失函数值监督的语义分割网络输出(如图2D-2)具有一致性损失函数值监督的语义分割网络输出在视觉上更为平滑，避免了出现视觉上明暗起伏的情况，使得语义分割网络可以输出高质量的语义分割图，从而提高了用户的视觉体验。

S1040、根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整。

在实际应用中，语义分割网络的训练是通过训练图像和标注语义分割图进行多次迭代的过程，每次迭代后根据输出的预测语义分割图和标注语义分割图计算分类损失函数值和一致性损失函数值，当分类损失函数值和一致性损失函数值表示的误差小于预设值时，结束对语义分割网络训练，当分类损失函数值和一致性损失函数值表示的误差不小于预设值时，对语义分割网络的参数进行调整，比如调整语义分割网络每个卷积层的权重、偏置等网络参数。

本申请实施例在将训练图像输入预先构建的语义分割网络中进行处理以生成预测语义分割图后，根据预测语义分割图和标注语义分割图确定分类损失函数值和一致性损失函数值，根据分类损失函数值和一致性损失函数值对语义分割网络进行调整，通过分类损失函数值和一致性损失函数值，使得语义分割网络不仅有像素级别的监督分类，又可以使得语义分割网络受空间一致性约束的监督，能够学习到像素之间的关系，使得语义分割网络输出具有空间一致性，解决了语义分割网络输出的语义分割图存在视觉上不平稳和明暗交替的现象，甚至出现密集的棋盘效应的问题，通过语义分割网络对图像语义分割处理后可以获得高质量的语义分割图，从而提高用户的视觉体验。

实施例二

图3A为本申请实施例二提供的一种语义分割网络的训练方法的流程图，本申请实施例在实施例一的基础上进行说明，如图3A所示，该方法可以包括如下步骤：

S2010、获取训练数据集，所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图，所述标注语义分割图包括像素的标签值。

S2020、将所述训练图像输入预先构建的语义分割网络中进行处理，以生成预测语义分割图，所述预测语义分割图包括像素的预测值。

S2030、采用所述像素的标签值和所述像素的预测值，计算所述分类损失函数值。

在本申请实施例中，可以通过最小均方差损失函数计算分类损失函数值。一实施例中，针对预测语义分割图中的每个像素，根据像素的标签值和预测值计算每个像素的均方值，并对所有像素的均方值求和以得到分类损失函数值。

一实施例中，可以通过以下公式计算分类损失函数值：

其中，MSE为分类损失函数值，N为预测语义分割图的像素的数量，p _i为像素i的预测值，y _i为像素i的标签值。

S2040、采用所述像素的标签值和所述像素的预测值，计算所述一致性损失函数值。

在本申请的一种实施例中，步骤S2040可以包括如下子步骤：

S20410，针对所述预测语义分割图中的每个中心像素，确定所述中心像素的不同邻域，其中，每个邻域包括多个邻域像素，所述中心像素为待计算所述一致性损失函数值的像素。

在本申请实施例中，可以预先设置邻域的窗口大小，然后根据不同的空洞因子生成不同的邻域，该邻域中包括待计算一致性损失函数值的像素的邻域像素。

如图3B所示，邻域的窗口大小为3x3，邻域的位置会根据空洞因子不同而不同，假设空洞因子为1和2，则对于中心像素i可以生成两个邻域，如图3B中的3B-1所示，该邻域的空洞因子为1，窗口大小为3x3，则中心像素i的邻域为相邻的8个邻域像素j，同理，空洞因子为2时，则中心像素i的邻域为相隔1个像素的8个邻域像素j，设置不同的空洞因子可以生成不同数量的邻域。

上述示例虽然说明了窗口大小和空洞因子的取值，在实际应用中可以根据训练图像的大小设置其它窗口大小、不同数量的空洞因子和空洞因子的数量，本申请实施例对确定邻域的方式不加以限制。

通过增加空洞确定中心像素的邻域，可以使得该像素能够获取到不同范围的邻域从而可以获取到不同邻域像素对该中心像素的约束，提高了像素的一致性损失函数值的准确性。

S20420，针对每个邻域，计算所述中心像素分别与所述邻域的多个邻域像素的损失值，得到多个第一损失值。

一实施例中，针对邻域的每个邻域像素，可以根据中心像素的预测值和邻域像素的预测值，计算中心像素的预测值与邻域像素的预测值的距离，并获取中心像素的标签值和邻域像素的标签值；在中心像素的标签值和邻域像素的标签值相等时，采用距离和预设的第一调节因子计算第一损失值，在中心像素的标签值和邻域像素的标签值不相等时，采用距离和预设的第二调节因子计算第一损失值；其中，第一调节因子为中心像素的标签值和邻域像素的标签值相等时需要调整距离的惩罚阈值，第二调节因子为中心像素的标签值和邻域像素的标签值不相等时需要调整距离的惩罚阈值。

以下结合示例对计算第一损失值进行说明：

本示例中，一致性损失函数如下：

其中，l _ij为以中心像素i为中心的邻域中，邻域像素j对中心像素i的一致性损失函数值，

表示中心像素i和邻域像素j之间的相似性，n可以为1或者2，δ为第一调节因子，γ为第二调节因子，δ小于或等于γ，默认δ取值为0.1，γ取值为1.0，Y _i和Y _j分别表示中心像素i和邻域像素j的标签值，若Y _i＝Y _j，表示中心像素i和邻域像素j属于相同语义类别，若Y _i≠Y _j表示中心像素i和邻域像素j属于不同语义类别。

在中心像素i和邻域像素j的标签值相等时，即Y _i＝Y _j，中心像素i和邻域像素j属于同个语义类别时，一致性损失函数为：

p _i和p _j分别表示中心像素i的预测值和邻域像素j的预测值，

表示中心像素i和邻域像素j之间的预测值的距离，第一调节因子δ为调节中心像素i和邻域像素j的距离的惩罚阈值，在距离大于第一调节因子δ时进行惩罚，在距离大于第一调节因子δ时不惩罚，在距离大于第一调节因子δ时，距离越大，说明中心像素i和邻域像素j的预测值相差越大，则惩罚越大，距离越小，则惩罚减少；当距离小于第一调节因子δ时，说明中心像素i和邻域像素j的预测值已经足够接近，一致性损失函数不进行惩罚，即当中心像素i和邻域像素j属于相同语义类别，一致性损失函数的目标为减少中心像素i和邻域像素j的距离。

在中心像素i和邻域像素j的标签值不相等时，即Y _i≠Y _j，中心像素i和邻域像素j属于不同语义类别时，一致性损失函数为：

p _i和p _j分别表示中心像素i的预测值和邻域像素j的预测值，

表示中心像素i和邻域像素j之间的预测值的距离，第二调节因子γ为调节中心像素i和邻域像素j的距离的惩罚阈值，在距离小于第二调节因子γ时进行惩罚，在距离大于第二调节因子γ时不惩罚，在距离小于第二调节因子γ时，距离越小，说明中心像素i和邻域像素j的预测值相差越小，则惩罚越大，距离越大，则惩罚减少；当距离大于第二调节因子γ时，说明中心像素i和邻域像素j的预测值相差已经足够大，一致性损失函数不进行惩罚，即当中心像素i和邻域像素j属于不相同语义类别，一致性损失函数的目标为增大中心像素i和邻域像素j的距离。

S20430，对所述多个第一损失值求和，得到所述中心像素在所述邻域内的第二损失值。

一实施例中，中心像素i的邻域包括多个邻域像素j，则依次计算该邻域范围内中心像素i和多个邻域像素j的一致性损失函数值得到多个第一损失值，对多个第一损失值求和后可以得到该邻域内中心像素i的一致性损失函数值。

S20440，对所述中心像素分别在所述不同邻域内的第二损失值求和，得到所述中心像素的一致性损失函数值。

在本申请实施例中，根据固定的邻域大小和不同的空洞因子，一个中心像素可以有多个邻域，例如，有取值为1，2，5的三个空洞因子，则该中心像素具有三个邻域，对中心像素在三个邻域内的第二损失值求和即可以得到像素的一致性损失函数值，遍历预测语义分割图的每个像素可得到多个像素的一致性损失函数值，即对于一个像素，一致性损失函数值为：

其中，M表示不同的邻域集，N _i为像素i的一个邻域，l _ij为像素i在邻域N _i内的一致性损失函数值。

本申请实施例中，对于预测语义分割图中的每个像素，取该像素的邻域计算一致性损失函数值减少了数据处理量，提高了数据处理效率。

S2050、基于所述分类损失函数值和所述一致性损失函数值计算梯度。

一实施例中，每个像素的损失函数值包括分类损失函数值和一致性损失函数值，则步骤S2050可以包括如下子步骤：

S20510，针对每一个像素，计算所述分类损失函数值对所述像素的第一梯度。

本申请实施例中，分类损失函数可以为最小均方差损失函数，则对公式1求偏导可以得到像素的第一梯度计算公式：

其中，

为对最小均方差损失函数求偏导后得到最小均方差损失函数对像素k的第一梯度，p _k为像素k的预测值，y _k为像素k的标签值。

S20520，计算所述像素的一致性损失函数值对所述像素的第二梯度。

本实施例中，针对每个待计算梯度像素，计算待计算梯度像素的邻域中每个邻域像素与待计算梯度像素的梯度，得到第三梯度，计算待计算梯度像素作为邻域像素时邻域的中心像素对待计算梯度像素的梯度，得到第四梯度，最后对第三梯度和第四梯度求和，得到待计算梯度像素的第二梯度。

如公式2为一致性损失函数的计算公式，在本申请实施例中，可以采用L1距离或者L2距离计算一致性损失函数，即公式2中n为1或者2。

当n＝1时，

简化为|p _i-p _j|，即L1距离，公式2简化为：

对上述公式3求偏导得到如下梯度计算公式：

其中，

为一致性损失函数l _ij对像素i的预测值p _i的梯度计算公式，

为一致性损失函数l _ij对像素j的预测值p _j的梯度计算公式。

当n＝2时，

简化为

即L2距离，则公式2简化为：

对上述公式6求偏导得到如下梯度计算公式：

其中，

为一致性损失函数l _ij对像素i的预测值p _i的梯度计算公式，

为一致性损失函数l _ij对像素j的预测值p _j的梯度计算公式。

则对于预测语义分割图像的一个像素k，一致性损失函数值对于像素k的梯度为：

其中，

表示以像素k为中心的邻域N _k内，邻域像素j与中心像素k的梯度；

表示在包含像素k的像素i(i≠k)的邻域N _i内，像素i对作为邻域像素k作用的梯度；即一致性损失函数值对于像素k的梯度由

和

累加计算，即像素k为中心像素时，邻域像素对其有作用，当像素k作为其他中心像素的邻域像素时，也会对像素k有作用。

在实际应用中，根据实际情况采用L1距离或者L2距离计算一致性损失函数值并相应的计算梯度，即取n为1或者2，本申请实施例对此不加以限制。

S20530，对所述第一梯度和所述第二梯度求和，得到所述像素的梯度。

本实施例中，每个像素的梯度包括分类损失函数值对像素的梯度和一致性损失函数值对像素的梯度，即对于像素k：

对于预测语义分割图，针对每个像素可以通过分类损失函数值计算第一梯度

通过一致性损失函数值计算第二梯度

然后对第一梯度和第二梯度求和得到像素的梯度。

S2060、判断所述分类损失函数值和所述一致性损失函数值是否满足预设的迭代条件。

本实施例中，针对每个像素，计算分类损失函数值和像素的一致性损失函数值的和值得到像素的总损失函数值，判断总损失函数值是否小于预设值；响应于总损失函数值小于预设值，确定像素的分类损失函数值和像素的一致性损失函数值满足预设的迭代条件；响应于总损失函数值不小于预设值，则确定像素的分类损失函数值和像素的一致性损失函数值不满足预设的迭代条件。

在实际应用中，每个像素具有一个总损失函数值，可以判断每个像素的总损失函数值是否满足预设迭代条件，也可以为每个像素设置权重，通过权重和总损失函数值计算最终的总损失函数值，以判断总损失函数值是否满足预设迭代条件，本申请实施例对此不加以限制。

S2070、结束训练所述语义分割网络。

在总损失函数值满足预设迭代条件时，说明语义分割网络输出的预测语义分割图与标注语义分割图的误差较小，语义分割网络的精度达到要求，可以停止对语义分割网络进行训练。

S2080、采用所述梯度与预设的学习率对所述语义分割网络的网络参数进行更新，返回将所述训练图像输入预先构建的语义分割网络中进行处理以生成预测语义分割图的步骤。

如果总损失函数值不满足预设迭代条件时，说明语义分割网络的精度还不足，则在全卷积神经网络进行后向传播过程中，采用每个像素的梯度与预设学习率对全卷积神经网络的网络参数进行更新。一实施例中，可以通过以下公式更新网络参数：

θ _i为网络参数，

为梯度，

为学习率。

初始学习率

可以设置为0.001，之后随着迭代次数的增加逐渐减少学习率，可选地，学习率的可以根据如下公式进行更新：

其中，epoch_num为一个迭代周期。

本申请实施例在将训练图像输入预先构建的语义分割网络中进行处理以生成预测语义分割图后，根据预测语义分割图和标注语义分割图确定分类损失函数值和一致性损失函数值，根据分类损失函数值和一致性损失函数值对所述语义分割网络进行调整，通过分类损失函数值和一致性损失函数值，使得语义分割网络不仅有像素级别的监督分类，又可以使得语义分割网络受空间一致性约束的监督，能够学习到像素之间的关系，使得语义分割网络输出具有空间一致性，解决了语义分割网络输出的语义分割图存在视觉上不平稳和明暗交替的现象，甚至出现密集的棋盘效应的问题，通过语义分割网络对图像语义分割处理后可以获得高质量的语义分割图，从而提高用户的视觉体验。

一实施例中，在训练过程，根据像素的邻域计算像素的一致性损失函数值，无需计算所有像素之间的一致性损失函数值，极大的提升了训练效率，同时在测试中，无需使用一致性损失函数值，不会增加原有语义分割网络的计算开销。

实施例三

图4为本申请实施例三提供的一种基于图像语义分割网络的图像处理方法的流程图，本申请实施例可适用于对图像进行语义分割处理的情况，该方法可以由基于图像语义分割网络的图像处理装置来执行，该装置可以通过软件和/或硬件的方式来实现，并集成在执行本方法的设备中，如图4所示，该方法可以包括如下步骤：

S3010、获取目标图像。

在本申请实施例中，目标图像可以是待添加视频特效的图像。例如，可以是视频直播或者录制短视频过程中，用户选择美瞳、添加贴图、瘦脸等添加视频特效的操作时，视频直播应用程序(Application，APP)检测到用户的操作，从摄像头采集到的视频帧中截取一帧包含人脸的图像作为目标图像，目标图像还可以是人脸认证时通过人脸认证装置采集到待认证人脸的人脸图像，还可以是用户对存储在本地的图像进行图像处理时的图像，本申请实施例对获取目标图像的方式不加以限制。

S3020、将所述目标图像输入预先训练的语义分割网络中进行处理，以生成所述目标图像的语义分割图。

本申请实施例中，语义分割网络通过以下步骤训练：

S30210、获取训练数据集，所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图。

S30220、将所述训练图像输入预先构建的语义分割网络中进行处理，以生成预测语义分割图。

S30230、根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值。

S30240、根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整。

S30210-S30240可参考实施例一和实施例二中的相关步骤，在此不再赘述。

本申请实施例在获取目标图像后，可以将目标图像输入语义分割网络中提取到语义分割图，通过该语义分割图可以对图像进行相关处理，在本申请的一个应用示例中，可以根据语义分割图实现视频中对目标对象的跟踪处理，例如，对视频中的人物进行追踪处理。

本申请实施例在训练语义分割网络时，在将训练图像输入预先构建的语义分割网络中进行处理以生成预测语义分割图后，根据预测语义分割图和标注语义分割图确定分类损失函数值和一致性损失函数值，根据分类损失函数值和一致性损失函数值对所述语义分割网络进行调整，通过分类损失函数值和一致性损失函数值，使得语义分割网络不仅有像素级别的监督分类，又可以使得语义分割网络受空间一致性约束的监督，能够学习到像素之间的关系，使得语义分割网络输出具有空间一致性，解决了语义分割网络输出的语义分割图存在视觉上不平稳和明暗交替的现象，甚至出现密集的棋盘效应的问题，通过语义分割网络对目标图像处理后可以获得目标图像的高质量语义分割图，从而提高了用户的视觉体验。

实施例四

图5是本申请实施例四提供的一种语义分割网络的训练装置的结构框图，本申请实施例的语义分割网络的训练装置可以包括如下模块：训练数据获取模块401，设置为获取训练数据集，所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图；预测语义分割图生成模块402，设置为将所述训练图像输入预先构建的语义分割网络中进行处理，以生成预测语义分割图；损失函数值确定模块403，设置为根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值；参数调整模块404，设置为根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整。

实施例五

图6是本申请实施例五提供的一种基于语义分割网络的图像处理装置的结构框图，本申请实施例的基于语义分割网络的图像处理装置可以包括如下模块：目标图像获取模块501，设置为获取目标图像；图像处理模块502，设置为将所述目标图像输入预先训练的语义分割网络中进程处理，以生成所述目标图像的语义分割图；其中，所述语义分割网络通过以下模块训练：训练数据获取模块，设置为获取训练数据集，所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图；预测语义分割图生成模块，设置为将所述训练图像输入预先构建的语义分割网络中进行处理，以生成预测语义分割图；损失函数值确定模块，设置为根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值；参数调整模块，设置为根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整。

实施例六

参照图6，示出了本申请一个示例中的一种设备的结构示意图。如图6所示，该设备可以包括：处理器60、存储器61、具有触摸功能的显示屏62、输入装置63、输出装置64以及通信装置65。

存储器61作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序以及模块，如本申请任意实施例所述的语义分割网络的训练方法对应的程序指令/模块(例如，上述语义分割网络的训练装置中的训练数据获取模块401、预测语义分割图生成模块402、损失函数值确定模块403和参数调整模块404)，或如本申请任意实施例所述的基于语义分割网络的图像处理方法对应的程序指令/模块(例如，上述基于语义分割网络的图像处理装置中的目标图像获取模块501和图像处理模块502)。

处理器60通过运行存储在存储器61中的软件程序、指令以及模块，从而执行设备的多种功能应用以及数据处理，即实现上述语义分割网络的训练方法的步骤和/或基于语义分割网络的图像处理方法。

实施例中，处理器60执行存储器61中存储的一个或多个程序时，实现本申请实施例提供的语义分割网络的训练方法的步骤和/或基于语义分割网络的图像处理方法。

本申请实施例还提供一种计算机可读存储介质，所述存储介质中的指令由设备的处理器执行时，使得设备能够执行如上述方法实施例所述的语义分割网络的训练方法和/或基于语义分割网络的图像处理方法。

Claims

一种语义分割网络的训练方法，包括：

获取训练数据集，所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图；

将所述训练图像输入预先构建的语义分割网络中进行处理，以生成预测语义分割图；

根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值；

根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整。
如权利要求1所述的方法，其中，所述标注语义分割图包括像素的标签值，所述预测语义分割图包括像素的预测值，所述根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值，包括：

采用所述像素的标签值和所述像素的预测值，计算所述分类损失函数值；

采用所述像素的标签值和所述像素的预测值，计算所述一致性损失函数值。
如权利要求2所述的方法，其中，所述预测语义分割图中包括多个像素且所述预测语义分割图与所述训练图像的分辨率一致；

所述采用所述像素的标签值和所述像素的预测值，计算所述分类损失函数值，包括：

针对所述预测语义分割图中的每个像素，根据所述像素的标签值和预测值计算所述像素的均方值；

对所有像素的均方值求和以得到所述分类损失函数值。
如权利要求3所述的方法，其中，所述预测语义分割图中的所有像素均为中心像素；

所述采用所述像素的标签值和所述像素的预测值，计算所述一致性损失函数值，包括：

针对所述预测语义分割图中的每个中心像素，确定所述中心像素的不同邻域，其中，每个邻域包括多个邻域像素，所述中心像素为待计算所述一致性损失函数值的像素；

针对每个邻域，计算所述中心像素分别与所述邻域的多个邻域像素的损失值，得到多个第一损失值；

对所述多个第一损失值求和，得到所述中心像素在所述邻域内的第二损失值；

对所述中心像素分别在所述不同邻域内的第二损失值求和，得到所述中心像素的一致性损失函数值。
如权利要求4所述的方法，其中，所述针对所述预测语义分割图中的每个中心像素，确定所述中心像素的不同邻域，包括：

根据预设窗口大小确定所述邻域的大小；

根据预设空洞因子和所述邻域的大小确定所述不同邻域。
如权利要求5所述的方法，其中，所述针对每个邻域，计算所述中心像素分别与所述邻域的多个邻域像素的损失值，得到多个第一损失值，包括：

针对所述邻域的每个邻域像素，根据所述中心像素的预测值和所述邻域像素的预测值，计算所述中心像素的预测值与所述邻域像素的预测值的距离；

获取所述中心像素的标签值和所述邻域像素的标签值；

在所述中心像素的标签值和所述邻域像素的标签值相等的情况下，采用所述距离和预设的第一调节因子计算第一损失值；

在所述中心像素的标签值和所述邻域像素的标签值不相等的情况下，采用所述距离和预设的第二调节因子计算第一损失值；

其中，所述第一调节因子为在所述中心像素的标签值和所述邻域像素的标签值相等的情况下调整所述距离的惩罚阈值，所述第二调节因子为在所述中心像素的标签值和所述邻域像素的标签值不相等的情况下调整所述距离的惩罚阈值。
如权利要求1至6任一项所述的方法，其中，所述根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整，包括：

基于所述分类损失函数值和所述一致性损失函数值计算梯度；

判断所述分类损失函数值和所述一致性损失函数值是否满足预设的迭代条件；

响应于所述分类损失函数值和所述一致性损失函数值满足预设的迭代条件，结束训练所述语义分割网络的；

响应于所述分类损失函数值和所述一致性损失函数值不满足预设的迭代条件，采用所述梯度与预设的学习率对所述语义分割网络的网络参数进行更新，返回将所述训练图像输入预先构建的语义分割网络中进行处理以生成预测语义分割图的步骤。
如权利要求7所述的方法，其中，所述基于所述分类损失函数值和所述一致性损失函数值计算梯度，包括：

针对每一个像素，计算所述分类损失函数值对所述像素的第一梯度；

计算所述像素的一致性损失函数值对所述像素的第二梯度；

对所述第一梯度和所述第二梯度求和，得到所述像素的梯度。
如权利要求8所述的方法，其中，所述判断所述分类损失函数值和所述一致性损失函数值是否满足预设的迭代条件，包括：

针对每个像素，计算所述分类损失函数值和所述像素的一致性损失函数值的和值，得到所述像素的总损失函数值；

判断所述总损失函数值是否小于预设值；

响应于所述总损失函数值小于预设值，确定所述像素的分类损失函数值和所述像素的一致性损失函数值满足所述预设的迭代条件；

响应于所述总损失函数值不小于预设值，确定所述像素的分类损失函数值和所述像素的一致性损失函数值不满足所述预设的迭代条件。
如权利要求8所述的方法，其中，所述计算所述像素的一致性损失函数值对所述像素的第二梯度，包括：

针对每个待计算梯度像素，计算所述待计算梯度像素的邻域中每个邻域像素与所述待计算梯度像素的梯度，得到第三梯度；

在所述待计算梯度像素作为邻域像素的情况下，计算所述待计算梯度像素所属邻域的中心像素对所述待计算梯度像素的梯度，得到第四梯度；

对所述第三梯度和所述第四梯度求和，得到所述待计算梯度像素的第二梯度。
如权利要求8所述的方法，其中，所述语义分割网络为全卷积神经网络，所述采用所述梯度与预设的学习率对所述语义分割网络的网络参数进行更新，包括：

在所述全卷积神经网络进行后向传播过程中，采用每个像素的梯度与预设学习率对所述全卷积神经网络的网络参数进行更新。
一种基于语义分割网络的图像处理方法，包括：

获取目标图像；

将所述目标图像输入预先训练的语义分割网络中，以生成所述目标图像的语义分割图；

其中，所述语义分割网络通过权利要求1至11任一项所述的语义分割网络的训练方法训练。
一种语义分割网络的训练装置，包括：

训练数据获取模块，设置为获取训练数据集，所述训练数据集包括训练图像、与所述训练图像配对的标注语义分割图；

预测语义分割图生成模块，设置为将所述训练图像输入预先构建的语义分割网络中进行处理，以生成预测语义分割图；

损失函数值确定模块，设置为根据所述预测语义分割图和所述标注语义分割图确定分类损失函数值和一致性损失函数值；

参数调整模块，设置为根据所述分类损失函数值和所述一致性损失函数值对所述语义分割网络进行调整。
一种基于语义分割网络的图像处理装置，包括：

目标图像获取模块，设置为获取目标图像；

图像处理模块，设置为将所述目标图像输入预先训练的语义分割网络中进程处理，以生成所述目标图像的语义分割图；

其中，所述语义分割网络通过权利要求13所述的语义分割网络的训练装置训练。
一种设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器运行所述程序时执行以下至少之一：权利要求1-11中任一项所述的语义分割网络的训练方法、权利要求12所述的基于语义分割网络的图像处理方法。
一种计算机可读存储介质，存储有计算机程序，所述程序被处理器执行时实现以下至少之一：权利要求1-11中任一所述的语义分割网络的训练方法、权利要求12所述的基于语义分割网络的图像处理方法。