WO2022048151A1

WO2022048151A1 - 语义分割模型训练方法及装置、图像语义分割方法及装置

Info

Publication number: WO2022048151A1
Application number: PCT/CN2021/085721
Authority: WO
Inventors: 赵姗; 王氚; 刘帅成
Original assignee: 北京迈格威科技有限公司; 成都旷视金智科技有限公司
Priority date: 2020-09-02
Filing date: 2021-04-06
Publication date: 2022-03-10
Also published as: CN112232346A

Abstract

一种语义分割模型训练方法、图像语义分割方法、语义分割模型训练装置、图像语义分割装置、电子设备和计算机可读存储介质，其中语义分割模型训练方法包括：获取训练集，其中，训练集包括多个图像、以及图像对应的标注信息，任一图像对应的标注信息包括分割框标注和/或语义分割标注（S11）；将图像进行特征提取，得到图像的特征数据（S12）；基于特征数据，得到第一分割框信息以及第一语义分割信息（S13）；基于特征数据、第一分割框信息以及第一语义分割信息，得到图像的第二分割框信息以及第二语义分割信息（S14）；基于第二分割框信息与标注信息、和/或基于第二语义分割信息与标注信息，确定损失值（S15）；基于损失值，调整语义分割模型的参数（S16）。语义分割模型训练方法能够方便获取训练数据，从而通过大量的、高质量的数据能够提高训练效果。

Description

语义分割模型训练方法及装置、图像语义分割方法及装置

相关申请的交叉引用

本公开要求于2020年09月02日提交中国专利局的申请号为202010912041.3、名称为“语义分割模型训练方法及装置、图像语义分割方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本公开中。

技术领域

本公开一般地涉及图像处理领域，具体涉及一种语义分割模型训练方法、图像语义分割方法、语义分割模型训练装置、图像语义分割装置、电子设备和计算机可读存储介质。

背景技术

在图像处理领域中，在一些应用场景下，需要对图像中的某些图像进行目标识别、或需要对图像中存在的文本进行文本识别，或者需要对图像中的一些内容进行替换等。在很多情况下需要对图像中的一些目标内容进行语义分割，图像的语义分割是对图像在像素级别上的分类，通过语义分割模型将图像中的属于同类的目标内容分为一类，例如图像中的存在一车辆，判断属于该车辆的像素并将全部属于该车辆的像素分割出来，确定该车辆在像素级别的边界分割框。目标内容可以是特定的人物、物体或文字等，将目标内容在图像确定像素级别的边界并进行分割。

而目前语义分割的准确性差，尤其在自然场景图像中，训练数据少、训练成本高，训练出的语义分割模型准确率低。

发明内容

为了解决现有技术中存在的上述问题，在可选的一个或多个实施例中，本公开提供一种语义分割模型训练方法，其中，所述方法可包括：获取训练集，其中，所述训练集可包括多个图像、以及所述图像对应的标注信息，任一图像对应的标注信息包括分割框标注和/或语义分割标注；将所述图像进行特征提取，得到所述图像的特征数据；基于所述特征数据，得到第一分割框信息以及第一语义分割信息；基于所述特征数据、所述第一分割框信息以及所述第一语义分割信息，得到所述图像的第二分割框信息以及第二语义分割信息；基于所述第二分割框信息与所述标注信息、和/或基于所述第二语义分割信息与所述标注信息，确定损失值；基于所述损失值，调整所述语义分割模型的参数。

在可选的一个或多个实施例中，所述语义分割模型可包括：分割框解码单元以及语义解码单元；所述基于所述特征数据，得到第一分割框信息以及第一语义分割信息，包括：基于所述特征数据，通过所述分割框解码单元进行解码，得到所述第一分割框信息；基于所述特征数据，通过所述语义解码单元进行解码，得到所述第一语义分割信息。

在可选的一个或多个实施例中，所述基于所述特征数据、所述第一分割框信息以及所述第一语义分割信息，得到所述图像的第二分割框信息以及第二语义分割信息，包括：基于所述特征数据以及所述第一语义分割信息，通过所述分割框解码单元进行解码，得到所述第二分割框信息；基于所述特征数据以及所述第一分割框信息，通过所述语义解码单元进行解码，得到所述第二语义分割信息。

在可选的一个或多个实施例中，所述语义分割模型还可包括：编码单元；所述将图像进行特征提取，得到所述图像的特征数据，包括：基于所述图像，通过所述编码单元进行编码，得到所述图像的特征数据。

在可选的一个或多个实施例中，所述损失值可包括第一损失值；所述基于所述第二分割框信息与所述标注信息、和/或基于所述第二语义分割信息与所述标注信息，确定损失值，包括：若所述图像对应的标注信息仅包括所述分割框标注，则基于所述分割框标注以及所述第二分割框信息，确定所述第一损失值；若所述图像对应的标注信息仅包括所述语义分割标注，则基于所述语义分割标注以及所述第二语义分割信息，确定所述第一损失值；若所述图像对应的标注信息包括所述分割框标注和所述语义分割标注，则基于所述分割框标注以及所述第二分割框信息、且基于所述语义分割标注以及所述第二语义分割信息，确定所述第一损失值。

在可选的一个或多个实施例中，所述损失值可包括第二损失值；所述基于所述第二分割框信息与所述标注信息、和/或基于所述第二语义分割信息与所述标注信息，确定损失值，包括：若所述图像对应的标注信息包括所述分割框标注，则基于所述第二语义分割信息以及所述分割框标注，确定所述第二损失值；若所述图像对应的标注信息不包括所述分割框标注，则基于所述第二语义分割信息以及所述第二分割框信息，确定所述第二损失值。

在可选的一个或多个实施例中，所述损失值可包括第三损失值；所述基于所述第二分割框信息与所述标注信息、和/或基于所述第二语义分割信息与所述标注信息，确定损失值，包括：基于条件随机场，确定所述第三损失值。

在可选的一个或多个实施例中，本公开提供一种图像语义分割方法，其中，所述方法可包括：获取图像；将所述图像进行特征提取，得到所述图像的特征数据；基于所述特征数据，得到第一分割框信息；基于所述特征数据以及所述第一分割框信息，得到所述图像的第二语义分割信息。

在可选的一个或多个实施例中，所述方法应用于语义分割模型，所述语义分割模型可包括：分割框解码单元以及语义解码单元；通过所述分割框解码单元，基于所述特征数据，得到第一分割框信息；通过所述语义解码单元，基于所述特征数据以及所述第一分割框信息，得到所述图像的第二语义分割信息。

在可选的一个或多个实施例中，所述语义分割模型还可包括：编码单元；通过所述编码单元，将所述图像进行特征提取，得到所述图像的特征数据。

在可选的一个或多个实施例中，所述方法还可包括：通过所述语义解码单元，基于所述特征数据，得到第一语义分割信息；通过所述分割框解码单元，基于所述特征数据以及所述第一语义分割信息，得到所述图像的第二分割框信息。

在可选的一个或多个实施例中，本公开提供一种语义分割模型训练装置，其中，所述装置可包括：第一获取模块，可配置成获取训练集，其中，所述训练集可包括多个图像、以及所述图像对应的标注信息，任一图像对应的标注信息包括分割框标注和/或语义分割标注；第一特征提取模块，可配置成将所述图像进行特征提取，得到所述图像的特征数据；第一语义模块，可配置成基于所述特征数据，得到第一分割框信息以及第一语义分割信息；第一语义模块还可配置成，基于所述特征数据、所述第一分割框信息以及所述第一语义分割信息，得到所述图像的第二分割框信息以及第二语义分割信息；损失确定模块，可配置成基于所述第二分割框信息与所述标注信息、和/或基于所述第二语义分割信息与所述标注信息，确定损失值；调整模块，可配置成基于所述损失值，调整所述语义分割模型的参数。

在可选的一个或多个实施例中，所述语义分割模型可包括：分割框解码单元以及语义解码单元；所述第一语义模块还配置成：基于所述特征数据，通过所述分割框解码单元进行解码，得到所述第一分割框信息；基于所述特征数据，通过所述语义解码单元进行解码，得到所述第一语义分割信息。

在可选的一个或多个实施例中，所述第一语义模块还配置成：基于所述特征数据以及所述第一语义分割信息，通过所述分割框解码单元进行解码，得到所述第二分割框信息；基于所述特征数据以及所述第一分割框信息，通过所述语义解码单元进行解码，得到所述第二语义分割信息。

在可选的一个或多个实施例中，所述语义分割模型还可包括：编码单元；所述第一特征提取模块配置成：基于所述图像，通过所述编码单元进行编码，得到所述图像的特征数据。

在可选的一个或多个实施例中，本公开提供一种图像语义分割装置，其中，所述装置可包括：第二获取模块，可配置成获取图像；第二特征提取模块，可配置成将所述图像进行特征提取，得到所述图像的特征数据；第二语义模块，可配置成基于所述特征数据，得到第一分割框信息；所述第二语义模块还可配置成，基于所述特征数据以及所述第一分割框信息，得到所述图像的第二语义分割信息。

在可选的一个或多个实施例中，本公开提供一种电子设备，可包括：存储器，可配置成存储指令；以及处理器，可配置成调用存储器存储的指令执行如上述的语义分割模型训练方法或如上述的图像语义分割方法。

在可选的一个或多个实施例中，本公开提供一种计算机可读存储介质，其中存储有指令，指令被处理器执行时，执行如上述的语义分割模型训练方法或如上述的图像语义分割方法。

本公开提供的语义分割模型训练方法、图像语义分割方法、语义分割模型训练装置、图像语义分割装置、电子设备和计算机可读存储介质，本公开实施例用于训练语义分割模型的训练集中，图像标注可以仅包括分割框标注、或仅包括语义分割标注，也可以包括两者，从而方便的扩充训练数据，降低了训练成本，并且通过确定图像的分割框信息和语义分割信息，并基于两者得到最终的语义分割结果，充分利用了图像中的信息，分割框和语义分割的识别结果相互促进，从而保证了图像语义分割结果的准确性。

附图说明

通过参考附图阅读下文的详细描述，本公开实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

图1示出了根据本公开一实施例语义分割模型训练方法的流程示意图；

图2A、图2B、图2C示出了对一个图像提取的分割框信息和语义分割信息示意图；

图3示出了根据本公开一实施例的语义分割模型结构示意图；

图4示出了根据本公开一实施例的语义分割模型的数据流程示意图；

图5示出了根据本公开一实施例图像语义分割方法的流程示意图；

图6示出了根据本公开一实施例的语义分割模型训练装置示意图。

图7示出了根据本公开一实施例的图像语义分割装置示意图。

图8是本公开实施例提供的一种电子设备示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。

需要注意，虽然本文中使用“第一”、“第二”等表述来描述本公开的实施方式的不同模块、步骤和数据等，但是“第一”、“第二”等表述仅是为了在不同的模块、步骤和数据等之间进行区分，而并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。

目前用于语义分割模型的训练数据少、训练成本高，导致训练出的语义分割模型准确率低，例如，在对图像中的文本进行语义分割的场景中，在一些相关技术中，图像中的文本包含不同的颜色，字体，形状以及大小。早期基于MSER(Maximally Stable Extremal Regions，最大稳定极值区域)和SWT(stroke width transform，笔画宽度变换)的图像处理方法，仅通过图像中的连接区域等先验信息检测文本，但因为缺乏基于学习的机制，其性能远远不能应用于自然场景图像，分割准确率很低。在另一些相关技术中，基于深度学习的方法，需要提供大量的、并且类型丰富的训练数据，由于真实场景图片的标记成本很高，现有的高质量真实场景的文本分割数据非常有限，导致模型实际语义分割的准确率低下。若使用合成数据，真实数据与合成数据之间仍存在无法通过算法完全跨越的差距；若采用人工标注，则成本很高。

为了解决上述问题，本公开实施例提供了一种语义分割模型训练方法10，如图1所示，可以包括步骤S11-步骤S16，下文分别对上述步骤进行详细说明：

步骤S11，获取训练集，其中，训练集包括多个图像、以及图像对应的标注信息，任一图像对应的标注信息包括分割框标注和/或语义分割标注。

本公开实施例中，获取的训练集的图像可以是带有标注信息的照片、图片或视频帧等。标注信息可以仅包括分割框标注，或仅包括语义分割标注，也可以同时包括分割框标注和语义分割标注。由于训练集所需图像的标注信息的类型多样，因此很容易获取大量的、质量高的训练数据，从而保证了训练效果。尤其对于语义分割标注，人工标注的成本过高；模型标注的准确率不足，导致训练效果不佳；而通过合成图进行训练的情况下，训练出的模型对于真实场景的图像进行语义分割的准确率低，因此，本公开实施例中，通过具有语义分割标注的图像，以及具有分割框标注的图像均作为训练数据，避免了单一训练数据数量少、质量不足的缺陷。

本公开实施例中，分割框为目标的位置范围，一般以矩形框或四边形框示出；语义分割为对图像中的一类目标进行像素级别的分割。以文本分割为例，如图2A-图2C所示，图2A为一个真实场景的图像，其中包括文字内容；图2B中将文字内容的区域进行了文本框分割，即获取到的文本框信息；图2C中将文字的内容进行了像素级别的分割，即获取到的语义分割信息。

步骤S12，将图像进行特征提取，得到图像的特征数据。

将获取的图像进行特征提取，可以通过语义识别模型对图像进行卷积等处理，从而提取到图像中的特征信息。在一实施例中，语义识别模型可以包括编码单元，通过编码单元对图像进行特征提取，得到特征数据。其中，编码单元可以包括一个或多个卷积层，对图像进行卷积(Convolution)处理，同时还可以对图像进行池化(Pooling)处理等。

步骤S13，基于特征数据，得到第一分割框信息以及第一语义分割信息。

对图像进行特征提取后，可以基于特征数据通过不同算法或通过不同的的单元独立计算，分别得到第一分割框信息和第一语义分割信息。在相关技术中，如果需要确定图像中的目标位置，往往仅获取分割框；如果需要进行语义分割，则往往直接获取语义分割信息。本公开实施例中，则同时获取上述两个信息，从而提高了图像的利用率，充分利用图像中的信息。

步骤S14，基于特征数据、第一分割框信息以及第一语义分割信息，得到图像的第二分割框信息以及第二语义分割信息。

在初步得到第一分割框信息以及第一语义分割信息后，并不作为图像语义分割的最终输出，而是利用这些信息，以及提取到的特征数据，再次输入，两个数据相互指导，从而利用更多的信息来进行语义分割，获取更为准确的第二分割框信息和第二语义分割信息。

在一实施例中，语义分割模型可以包括：分割框解码单元以及语义解码单元；在步骤S13中，基于特征数据，通过分割框解码单元进行解码，得到第一分割框信息；基于特征数据，通过语义解码单元进行解码，得到第一语义分割信息。本实施例中的语义分割模型可以具有两个独立的单元，分割框解码单元和语义解码单元均可以对特征数据进行上采样、卷积等操作，并且分别输出图像的第一分割框信息和第一语义分割信息。通过两个独立的单元分别获取不同的信息，可以在充分利用图像信息的情况下，相比于通过一个网络获取两个信息，能够降低模型的复杂程度和模型的数据量，从而也能降低计算成本，并且能够输出结果的准确性。

在一实施例中，步骤S14可以包括：基于特征数据以及第一语义分割信息，通过分割框解码单元进行解码，得到第二分割框信息；基于特征数据以及第一分割框信息，通过语义解码单元进行解码，得到第二语义分割信息。本实施例中，将语义解码单元输出的第一语义分割信息、以及特征数据作为输入，输入到分割框解码单元，输出第二分割框信息；将分割框解码单元输出的第一分割框信息、以及特征数据作为输入，输入到语义解码单元，输出第二语义分割信息。两个单元的输出均作为另一个单元的输入，实现相互指导，每个单元均能获取更多的信息。同时，在训练过程中，可以基于图像的任一标注信息类型，均可以对两个单元进行优化。

在上述实施例中，为了单元输入的归一化，在步骤S13中，可以向分割框解码单元输入特征数据、以及0值的语义分割信息；向语义解码单元输入特征数据、以及0值的分割框信息。从而保证每个单元在步骤S13和步骤S14中的输入信息的归一化。

步骤S15，基于第二分割框信息与标注信息、和/或基于第二语义分割信息与标注信息，确定损失值。

本公开实施例中，标注信息具有多种情况，可以根据当前输入的图像对应的标注信息的类型，选择相对应的输出，并确定损失值。由于采用了分割框信息和语义分割信息相互指导的方式进行训练，因此，任一类标注信息，均可以确定损失值，并可以相应的对语义分割模型进行优化。

步骤S16，基于损失值，调整语义分割模型的参数。

根据损失值，调整语义分割模型的参数，通过多轮次的训练，使得损失值逐渐变小，当损失值小于一阈值时，停止语义分割模型的训练。

通过上述实施例的语义分割模型训练方法10，能够通过多种标注类型的图像作为训练数据，任一类型的标注信息均根据输出确定损失值，从而对模型的参数进行优化调整，从而方便的扩充训练数据的数量，降低了训练成本，通过大量的并且高质量的训练数据对模型进行训练，保证了训练效果，使得完成训练的语义分割模型进行语义分割的准确率高。

以图像中的文本分割为例，本公开实施例的语义分割模型的结构以及输入和输出的数据可以如图3所示。语义分割模型M可以是神经网络模型，以单个图像I作为输入，图像可以是RGB图像，也可以是灰度图。以像素级文本分割的概率图，即语义分割信息O _T、以及多边形的文本框分割概率图，即分割框信息O _P为最后的输出。语义分割模型M可以包含一个共享的编码单元E，以及两个单独的解码单元，语义解码单元D _T和分割框解码单元D _P。该编码单元E提取输入图像的特征分别送到两个解码单元中。两个解码单元的输出O _T和O _P同样会作为另一个分支任务的输入，即语义解码单元D _T的输出作为分割框解码单元D _P的输入、分割框解码单元D _P的输出作为语义解码单元D _T的输入，使双重任务相互指导。

在训练过程中，为了更好的表示数据的输入和输出，可以如图4所示，图4中的语义解码单元D _T和分割框解码单元D _P实际在语义分割模型M均为一个，图4为了表示训练过程，分别以两个进行表示。如图4所示，以0值以及编码单元E提取输入图像的特征数据E _I，分别输入语义解码单元D _T和分割框解码单元D _P的输入，语义解码单元D _T输出到第一语义分割信息O _T、分割框解码单元D _P输出第一分割框信息O _P。之后，以第一语义分割信息O _T以及特征数据E _I作为分割框解码单元D _P的输入，得到第二分割框信息O’ _P；以第一分割框信息O _P以及特征数据E _I作为语义解码单元D _T的输入，得到第二语义分割信息O’ _T。根据标签类型，采用对应的输出确定损失值，由于每个输出，均通过两个单元进行输出，因此，任一标签类型的训练数据均可以调整语义分割模型的参数。

上述任一实施例中的语义分割模型中的编码单元的结构，可以与语义解码单元和分割框解码单元对应设置，例如：编码单元的结构可以如表1所示，语义解码单元和分割框解码单元的结构可以如表2所示。

表1：

层	类型	核	步长	通道数
1	卷积	3	1	64
2	卷积	3	1	64
3	池化	2	2	64
4	卷积	3	1	128
5	卷积	3	1	128
6	池化	2	2	128
7	卷积	3	1	256
8	卷积	3	1	256
9	池化	2	2	256
10	卷积	3	1	256
11	卷积	3	1	256
12	池化	2	2	256
13	卷积	3	1	512
14	卷积	3	1	512

表2：

层	类型	核	步长	通道数
1	上采样	2	/	512
2	卷积	3	1	256
3	卷积	3	1	256
4	上采样	2	/	256
5	卷积	3	1	128
6	卷积	3	1	128
7	上采样	2	/	128
8	卷积	3	1	64
9	卷积	3	1	64
10	上采样	2	/	64
11	卷积	3	1	64
12	卷积	3	1	64

需要说明的是，上述语义分割模型的结构，即语义分割模型的超参数，仅是一个示例，实际可以根据不同的图片格式、精度需求等进行设置。

在一实施例中，损失值可以包括第一损失值，而步骤S15可以包括：若图像对应的标注信息仅包括分割框标注，则基于分割框标注以及第二分割框信息，确定第一损失值；若图像对应的标注信息仅包括语义分割标注，则基于语义分割标注以及第二语义分割信息，确定第一损失值；若图像对应的标注信息包括分割框标注和语义分割标注，则基于分割框标注以及第二分割框信息、且基于语义分割标注以及第二语义分割信息，确定第一损失值。

本实施例中，根据标注信息的类型，采用对应的输出确定第一损失值。第一损失值可以是“1-输出与标签之间的交叠率”，其中输出与标签之间的交叠率为：输出与标签的面积交集/输出与标签的面积并集。因此，输出的越准确，与标签越贴近，交叠率越高，该第一损失值也就越低。

由于训练集中的图像对应的标注信息可以仅包括分割框标注或仅包括语义分割标注，在这两种情况下，第一损失值可以由相应的输出，即第二分割框信息或第二语义分割信息进行计算。而，如果输入的图像对应有分割框标注和语义分割标注，则，可以同时根据第二分割框信息、第二语义分割信息，分别和对应的分割框标注、语义分割标注计算得到值，两值相加作为第一损失值。

在一实施例中，损失值可以包括第二损失值；步骤S15可以包括：若图像对应的标注信息包括分割框标注，则基于第二语义分割信息以及分割框标注，确定第二损失值；若图像对应的标注信息不包括分割框标注，则基于第二语义分割信息以及第二分割框信息，确定第二损失值。

本实施例中，第二损失值可以是代表两个单元的输出之间的关系，在图像中，同一内容的语义分割的范围应当在分割框的范围内。例如，第二损失值可以是第二语义分割信息超出分割框标注的面积。基于此，可以确定第二损失值。在图像对应的标注信息包括分割框标注的情况下，即包括图像对应的标注信息仅包括分割框标注、以及图像对应的标注信息包括分割框标注和语义分割标注这两种情况，可以根据第二语义分割信息与分割框标注确定第二损失值。在另一情况下，即图像对应的标注信息不包括分割框标注的情况，则可以根据分割框解码单元输出的第二分割框信息与第二语义分割信息的关系确定第二损失值，在理想识别结果情况下，第二语义分割信息不应超出第二分割框信息的范围，因此，根据此计算第二损失值，能够通过两个单元的相互监督，优化调整语义分割模型的参数。

在一实施例中，损失值还可以包括第三损失值，步骤S15还可以包括：基于条件随机场，确定第三损失值。通过引入条件随机场(Conditional Random Field，CRF)，能够在像素级的分割过程中，结合相邻像素的信息，进一步优化语义分割模型的分割效果。

结合上述实施例，损失值可以包括上述第一损失值、第二损失值和第三损失值，并可以根据实际需要确定相应系数，使得语义分割模型的训练更加高效、结果更加可靠。在一具体示例中，损失值可以由以下公式确定：

L＝L ₁+λ ₁·L ₂+λ ₂·L ₃

其中，L为损失值；L ₁为第一损失值；L ₂为第二损失值；λ ₁为第二损失值的系数，其中λ ₁≥1，在一些实施例中λ ₁＝10；L ₃为第三损失值，λ ₂为第三损失值的系数，其中λ ₂≤1，在一些实施例中λ ₂＝0.1。根据前文所述，第二损失值更能够代表分割框信息和语义分割信息的关系，基于此确定的第二损失值能够对模型的参数进行很好的优化，因此第二损失值的系数可以取值更高，提高训练效率和训练效果。同时，引入条件随机场确定的第三损失值与分割框解码单元和语义解码单元的关联相对较小，因此第三损失值的系数可以相对较小，从而避免训练过程中调整参数过分偏向于此。

基于同样的构思，本公开实施例还提供一种图像语义分割方法20，如图5所示，图像语义分割方法20包括：步骤S21-步骤S24。下文分别对上述步骤进行详细说明：

步骤S21，获取图像。

可以实时的获取图像，例如通过摄像头、照相设备等实时采集图像。也可以获取需要进行语义分割的图像，例如在一些情况下需要对图像进行目标识别或需要对图像中的目标进行图像处理，需要先将图像进行语义分割。也可以是批量的获取需要进行语义分割的图像，用于对图像进行标注或其他用途。其中，图像可以是照片，也可以是视频中的一帧或多帧。

步骤S22，将图像进行特征提取，得到图像的特征数据。

步骤S23，基于特征数据，得到第一分割框信息。

步骤S24，基于特征数据以及第一分割框信息，得到图像的第二语义分割信息。

在基于特征数据，得到第一分割框信息后，再基于第一分割框信息与特征数据获取第二语义分割信息，从而更加充分的利用了图像的信息，并且通过不同算法或不同的单元独立计算分割框信息和语义分割信息，在第一分割框信息的基础上，结合特征数据得到语义分割信息，从而提高语义分割的准确程度。在相关技术中，如果需要确定图像中的目标位置，往往仅获取分割框；如果需要进行语义分割，则往往直接获取语义分割信息。本公开实施例中，则同时获取上述两个信息，从而提高了图像的利用率，充分利用图像中的信息，提高了语义分割的准确性。

在一实施例中，应用于图像语义分割方法20的语义分割模型可以包括：分割框解码单元以及语义解码单元；通过分割框解码单元执行步骤S23；通过语义解码单元执行步骤S24。

在一实施例中，图像语义分割方法20还可以包括：通过语义解码单元，基于特征数据，得到第一语义分割信息；通过分割框解码单元，基于特征数据以及第一语义分割信息，得到图像的第二分割框信息。

本实施例中的语义分割模型可以具有两个独立的单元，分割框解码单元和语义解码单元均可以对特征数据进行上采样、卷积等操作，并且分别输出图像的第一分割框信息和第一语义分割信息。通过两个独立的单元分别获取不同的信息，可以在充分利用图像信息的情况下，相比于通过一个网络获取两个信息，能够降低模型的复杂程度和模型的数据量，从而也能降低计算成本，并且能够输出结果的准确性。在初步得到第一分割框信息以及第一语义分割信息后，并不作为图像语义分割的最终输出，而是利用这些信息，以及提取到的特征数据，再次输入，从而利用更多的信息来进行语义分割，获取更为准确的第二分割框信息和第二语义分割信息。

在上述实施例中，应用于图像语义分割方法20的语义分割模型可以通过前述任一实施例中的语义分割模型训练方法10训练得到。从而能够提高语义分割模型的语义分割准确率，并且训练数据容易获取，降低训练成本。

基于同一构思，本公开还提供一种语义分割模型训练装置100，如图6所示，语义分割模型训练装置100包括：第一获取模块110，用于获取训练集，其中，训练集包括多个图像、以及图像对应的标注信息，任一图像对应的标注信息包括分割框标注和/或语义分割标注；第一特征提取模块120，用于将图像进行特征提取，得到图像的特征数据；第一语义模块130，用于基于特征数据，得到第一分割框信息以及第一语义分割信息；第一语义模块130还用于，基于特征数据、第一分割框信息以及第一语义分割信息，得到图像的第二分割框信息以及第二语义分割信息；损失确定模块140，用于基于第二分割框信息与标注信息、和/或基于第二语义分割信息与标注信息，确定损失值；调整模块150，用于基于损失值，调整语义分割模型的参数。

在一实施例中，语义分割模型包括：分割框解码单元以及语义解码单元；第一语义模块130用于：基于特征数据，通过分割框解码单元进行解码，得到第一分割框信息；基于特征数据，通过语义解码单元进行解码，得到第一语义分割信息。

在一实施例中，第一语义模块130还用于：基于特征数据以及第一语义分割信息，通过分割框解码单元进行解码，得到第二分割框信息；基于特征数据以及第一分割框信息，通过语义解码单元进行解码，得到第二语义分割信息。

在一实施例中，语义分割模型还包括：编码单元；第一特征提取模块120用于：基于图像，通过编码单元进行编码，得到图像的特征数据。

在一实施例中，损失值包括第一损失值；损失确定模块140还用于：当图像对应的标注信息仅包括分割框标注时，基于分割框标注以及第二分割框信息，确定第一损失值；当图像对应的标注信息仅包括语义分割标注时，基于语义分割标注以及第二语义分割信息，确定第一损失值；当图像对应的标注信息包括分割框标注和语义分割标注时，基于分割框标注以及第二分割框信息、且基于语义分割标注以及第二语义分割信息，确定第一损失值。

在一实施例中，损失值包括第二损失值；损失确定模块140还用于：当图像对应的标注信息包括分割框标注时，基于第二语义分割信息以及分割框标注，确定第二损失值；当图像对应的标注信息不包括分割框标注时，基于第二语义分割信息以及第二分割框信息，确定第二损失值。

在一实施例中，损失值包括第三损失值；损失确定模块140还用于：基于条件随机场，确定第三损失值。

关于上述实施例中的语义分割模型训练装置100，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

基于同一构思，本公开还提供一种图像语义分割装置200，如图7所示，图像语义分割装置200包括：第二获取模块210，用于获取图像；第二特征提取模块220，用于将图像进行特征提取，得到图像的特征数据；第二语义模块230，用于基于特征数据，得到第一分割框信息；第二语义模块230还用于，基于特征数据以及第一分割框信息，得到图像的第二语义分割信息。

在一实施例中，图像语义分割装置200应用于语义分割模型，语义分割模型包括：分割框解码单元以及语义解码单元；通过分割框解码单元，基于特征数据，得到第一分割框信息；通过语义解码单元，基于特征数据以及第一分割框信息，得到图像的第二语义分割信息。

在一实施例中，语义分割模型还包括：编码单元；通过编码单元，将图像进行特征提取，得到图像的特征数据。

在一实施例中，第二语义模块230还用于：通过语义解码单元，基于特征数据，得到第一语义分割信息；通过分割框解码单元，基于特征数据以及第一语义分割信息，得到图像的第二分割框信息。

关于上述实施例中的图像语义分割装置200，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

如图8所示，本公开的一个实施方式提供了一种电子设备300。其中，该电子设备300包括存储器301、处理器302、输入/输出(Input/Output，I/O)接口303。其中，存储器301，用于存储指令。处理器302，用于调用存储器301存储的指令执行本公开实施例的语义分割模型训练方法或图像语义分割方法。其中，处理器302分别与存储器301、I/O接口303连接，例如可通过总线系统和/或其他形式的连接机构(未示出)进行连接。存储器301可用于存储程序和数据，包括本公开实施例中涉及的语义分割模型训练方法或图像语义分割方法的程序，处理器302通过运行存储在存储器301的程序从而执行电子设备300的各种功能应用以及数据处理。

本公开实施例中处理器302可以采用数字信号处理器(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现，所述处理器302可以是中央处理单元(Central Processing Unit，CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元中的一种或几种的组合。

本公开实施例中的存储器301可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(Random Access Memory，RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(Read-Only Memory，ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)等。

本公开实施例中，I/O接口303可用于接收输入的指令(例如数字或字符信息，以及产生与电子设备300的用户设置以及功能控制有关的键信号输入等)，也可向外部输出各种信息(例如，图像或声音等)。本公开实施例中I/O接口303可包括物理键盘、功能按键(比如音量控制按键、开关按键等)、鼠标、操作杆、轨迹球、麦克风、扬声器、和触控面板等中的一个或多个。

可以理解的是，本公开实施例中尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本公开实施例涉及的方法和装置能够利用标准编程技术来完成，利用基于规则的逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是，此处以及权利要求书中使用的词语“装置”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收输入的设备。

此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合的一个或多个硬件或软件模块来执行或实现。在一个实施方式中，软件模块使用包括包含计算机程序代码的计算机可读介质的计算机程序产品实现，其能够由计算机处理器执行用于执行任何或全部的所描述的步骤、操作或程序。

出于示例和描述的目的，已经给出了本公开实施的前述说明。前述说明并非是穷举性的也并非要将本公开限制到所公开的确切形式，根据上述教导还可能存在各种变形和修改，或者是可能从本公开的实践中得到各种变形和修改。选择和描述这些实施例是为了说明本公开的原理及其实际应用，以使得本领域的技术人员能够以适合于构思的特定用途来以各种实施方式和各种修改而利用本公开。

工业实用性

本公开提供的语义分割模型训练方法、图像语义分割方法、语义分割模型训练装置、图像语义分割装置、电子设备和计算机可读存储介质能够方便的扩充训练数据，降低训练成本，并且可以保证图像语义分割结果的准确性。

此外，可以理解的是，本公开提供的语义分割模型训练方法、图像语义分割方法、语义分割模型训练装置、图像语义分割装置、电子设备和计算机可读存储介质是可以重现的，并且可以用在多种工业应用中。例如，本公开的语义分割模型训练方法、图像语义分割方法、语义分割模型训练装置、图像语义分割装置、电子设备和计算机可读存储介质可以用于训练语义分割模型的任何训练集中。

Claims

一种语义分割模型训练方法，其中，所述方法包括：

获取训练集，其中，所述训练集包括多个图像、以及所述图像对应的标注信息，任一图像对应的标注信息包括分割框标注和/或语义分割标注；

将所述图像进行特征提取，得到所述图像的特征数据；

基于所述特征数据，得到第一分割框信息以及第一语义分割信息；

基于所述特征数据、所述第一分割框信息以及所述第一语义分割信息，得到所述图像的第二分割框信息以及第二语义分割信息；

基于所述第二分割框信息与所述标注信息、和/或基于所述第二语义分割信息与所述标注信息，确定损失值；

基于所述损失值，调整所述语义分割模型的参数。
根据权利要求1所述的语义分割模型训练方法，其中，所述语义分割模型包括：分割框解码单元以及语义解码单元；

所述基于所述特征数据，得到第一分割框信息以及第一语义分割信息，包括：

基于所述特征数据，通过所述分割框解码单元进行解码，得到所述第一分割框信息；

基于所述特征数据，通过所述语义解码单元进行解码，得到所述第一语义分割信息。
根据权利要求2所述的语义分割模型训练方法，其中，所述基于所述特征数据、所述第一分割框信息以及所述第一语义分割信息，得到所述图像的第二分割框信息以及第二语义分割信息，包括：

基于所述特征数据以及所述第一语义分割信息，通过所述分割框解码单元进行解码，得到所述第二分割框信息；

基于所述特征数据以及所述第一分割框信息，通过所述语义解码单元进行解码，得到所述第二语义分割信息。
根据权利要求1-3任一项所述的语义分割模型训练方法，其中，所述语义分割模型还包括：编码单元；

所述将所述图像进行特征提取，得到所述图像的特征数据，包括：

基于所述图像，通过所述编码单元进行编码，得到所述图像的特征数据。
根据权利要求1-4任一项所述的语义分割模型训练方法，其中，所述损失值包括第一损失值；

所述基于所述第二分割框信息与所述标注信息、和/或基于所述第二语义分割信息与所述标注信息，确定损失值，包括：

若所述图像对应的标注信息仅包括所述分割框标注，则基于所述分割框标注以及所述第二分割框信息，确定所述第一损失值；

若所述图像对应的标注信息仅包括所述语义分割标注，则基于所述语义分割标注以及所述第二语义分割信息，确定所述第一损失值；

若所述图像对应的标注信息包括所述分割框标注和所述语义分割标注，则基于所述分割框标注以及所述第二分割框信息、且基于所述语义分割标注以及所述第二语义分割信息，确定所述第一损失值。
根据权利要求5所述的语义分割模型训练方法，其中，所述损失值包括第二损失值；

所述基于所述第二分割框信息与所述标注信息、和/或基于所述第二语义分割信息与所述标注信息，确定损失值，包括：

若所述图像对应的标注信息包括所述分割框标注，则基于所述第二语义分割信息以及所述分割框标注，确定所述第二损失值；

若所述图像对应的标注信息不包括所述分割框标注，则基于所述第二语义分割信息以及所述第二分割框信息，确定所述第二损失值。
根据权利要求5或6所述的语义分割模型训练方法，其中，所述损失值包括第三损失值；

所述基于所述第二分割框信息与所述标注信息、和/或基于所述第二语义分割信息与所述标注信息，确定损失值，包括：

基于条件随机场，确定所述第三损失值。
一种图像语义分割方法，其中，所述方法包括：

获取图像；

将所述图像进行特征提取，得到所述图像的特征数据；

基于所述特征数据，得到第一分割框信息；

基于所述特征数据以及所述第一分割框信息，得到所述图像的第二语义分割信息。
根据权利要求8所述的图像语义分割方法，其中，所述方法应用于语义分割模型，所述语义分割模型包括：分割框解码单元以及语义解码单元；

通过所述分割框解码单元，基于所述特征数据，得到第一分割框信息；

通过所述语义解码单元，基于所述特征数据以及所述第一分割框信息，得到所述图像的第二语义分割信息。
根据权利要求9所述的图像语义分割方法，其中，所述语义分割模型还包括：编码单元；

通过所述编码单元，将所述图像进行特征提取，得到所述图像的特征数据。
根据权利要求9或10所述的图像语义分割方法，其中，所述方法还包括：

通过所述语义解码单元，基于所述特征数据，得到第一语义分割信息；

通过所述分割框解码单元，基于所述特征数据以及所述第一语义分割信息，得到所述图像的第二分割框信息。
一种语义分割模型训练装置，其中，所述装置包括：

第一获取模块，配置成获取训练集，其中，所述训练集包括多个图像、以及所述图像对应的标注信息，任一图像对应的标注信息包括分割框标注和/或语义分割标注；

第一特征提取模块，配置成将所述图像进行特征提取，得到所述图像的特征数据；

第一语义模块，配置成基于所述特征数据，得到第一分割框信息以及第一语义分割信息；

第一语义模块还配置成，基于所述特征数据、所述第一分割框信息以及所述第一语义分割信息，得到所述图像的第二分割框信息以及第二语义分割信息；

损失确定模块，配置成基于所述第二分割框信息与所述标注信息、和/或基于所述第二语义分割信息与所述标注信息，确定损失值；

调整模块，配置成基于所述损失值，调整所述语义分割模型的参数。
根据权利要求12所述的语义分割模型训练装置，其中，所述语义分割模型包括：分割框解码单元以及语义解码单元；

所述第一语义模块还配置成：

基于所述特征数据，通过所述分割框解码单元进行解码，得到所述第一分割框信息；

基于所述特征数据，通过所述语义解码单元进行解码，得到所述第一语义分割信息。
根据权利要求13所述的语义分割模型训练装置，其中，所述第一语义模块还配置成：

基于所述特征数据以及所述第一语义分割信息，通过所述分割框解码单元进行解码，得到所述第二分割框信息；

基于所述特征数据以及所述第一分割框信息，通过所述语义解码单元进行解码，得到所述第二语义分割信息。
根据权利要求12-14任一项所述的语义分割模型训练装置，其中，所述语义分割模型还包括：编码单元；

所述第一特征提取模块配置成：

基于所述图像，通过所述编码单元进行编码，得到所述图像的特征数据。
一种图像语义分割装置，其中，所述装置包括：

第二获取模块，配置成获取图像；

第二特征提取模块，配置成将所述图像进行特征提取，得到所述图像的特征数据；

第二语义模块，配置成基于所述特征数据，得到第一分割框信息；

所述第二语义模块还配置成，基于所述特征数据以及所述第一分割框信息，得到所述图像的第二语义分割信息。
一种电子设备，其中，所述电子设备包括：

存储器，配置成存储指令；以及

处理器，配置成调用所述存储器存储的指令执行如权利要求1-7任一项所述的语义分割模型训练方法或如权利要求8-11所述的图像语义分割方法。
一种计算机可读存储介质，其中存储有指令，所述指令被处理器执行时，执行如权利要求1-7任一项所述的语义分割模型训练方法或如权利要求8-11所述的图像语义分割方法。