WO2019154201A1

WO2019154201A1 - 实例分割方法和装置、电子设备、程序和介质

Info

Publication number: WO2019154201A1
Application number: PCT/CN2019/073819
Authority: WO
Inventors: 刘枢; 亓鲁; 秦海芳; 石建萍; 贾佳亚
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2018-02-09
Filing date: 2019-01-30
Publication date: 2019-08-15
Also published as: US11270158B2; US20200134365A1; KR102438095B1; KR20200087808A; JP2021507388A; JP7032536B2; SG11201913332WA

Abstract

本公开实施例公开了一种实例分割方法和装置、电子设备、程序和介质，其中，方法包括：通过神经网络对图像进行特征提取，输出至少两个不同层级的特征；从所述至少两个不同层级的特征中抽取所述图像中至少一实例候选区域对应的区域特征、并对同一实例候选区域对应的区域特征进行融合，得到各实例候选区域的第一融合特征；基于各第一融合特征进行实例分割，获得相应实例候选区域的实例分割结果和/或所述图像的实例分割结果。本公开实施例设计了基于深度学习的框架解决实例分割的问题，可以获得更准确的实例分割结果。

Description

实例分割方法和装置、电子设备、程序和介质

本公开要求在2018年02月09日提交中国专利局、申请号为CN2018101370447、发明名称为“实例分割方法和装置、电子设备、程序和介质”的中国专利申请的优先权，和2018年02月09日提交中国专利局、申请号为CN2018101363710、发明名称为“图像分割方法和装置、电子设备、程序和介质”的中国专利申请的优先权，其全部内容通过引用结合在本公开中。

技术领域

本公开涉及计算机视觉技术，尤其是一种实例分割方法和装置、电子设备、程序和介质。

背景技术

实例分割是计算机视觉领域非常重要的方向，此任务结合了语义分割和物体检测的特点，对于输入图像中的每一个物体，分别为他们生成一个独立的像素级别的掩膜(mask)，并且预测其对应的类别。实例分割在无人驾驶、家居机器人等领域有着非常广阔的应用。

发明内容

本公开实施例提供一种实例分割方案。

根据本公开实施例的一个方面，提供的一种实例分割方法，包括：

通过神经网络对图像进行特征提取，输出至少两个不同层级的特征；

从所述至少两个不同层级的特征中抽取所述图像中至少一实例候选区域对应的区域特征、并对同一实例候选区域对应的区域特征进行融合，得到各实例候选区域的第一融合特征；

基于各第一融合特征进行实例分割，获得相应实例候选区域的实例分割结果和/或所述图像的实例分割结果。

根据本公开实施例的另一个方面，提供的一种实例分割装置，包括：

神经网络，用于对图像进行特征提取，输出至少两个不同层级的特征；

抽取模块，用于从所述至少两个不同层级的特征中抽取所述图像中至少一实例候选区域对应的区域特征；

第一融合模块，用于对同一实例候选区域对应的区域特征进行融合，得到各实例候选区域的第一融合特征；

分割模块，用于基于各第一融合特征进行实例分割，获得相应实例候选区域的实例分割结果和/或所述图像的实例分割结果。

根据本公开实施例的再一个方面，提供的一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现本公开任一实施例所述的方法。

根据本公开实施例的再一个方面，提供的一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现本公开任一实施例所述的方法。

根据本公开实施例的再一个方面，提供的一种计算机程序，包括计算机指令，当所述计算机指令在设备的处理器中运行时，实现本公开任一实施例所述的方法。

基于本公开上述实施例提供的实例分割方法和装置、电子设备、程序和介质，通过神经网络对图像进行特征提取，输出至少两个不同层级的特征；从两个不同层级的特征中抽取图像中至少一实例候选区域对应的区域特征、并对同一实例候选区域对应的区域特征进行融合，得到各实例候选区域的第一融合特征；基于各第一融合特征进行实例分割，获得相应实例候选区域的实例分割结果和/或图像的实例分割结果。本公开实施例设计了基于深度学习的框架进行实例分割的技术方案，由于深度学习具有强大的建模能力，有助于获得更好的实例分割结果；另外，对实例候选区域进行实例分割，相对于直接对整个图像进行实例分割，可以提高实例分割的准确性，降低实例分割所需的计算量和复杂度，提高实例分割效率；并且，从至少两个不同层级的特征中抽取实例候选区域对应的区域特征进行融合，并基于得到的融合特征进行实例分割，使得每个实例候选区域都可以同时获得更多不同层级的信息，由于从不同层级的特征抽取的信息都是处于不同的语义层级，从而可以利用上下文信息提高各实例候选区域的实例分割结果的准确性。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同描述一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1为本公开实例分割方法一个实施例的流程图。

图2为本公开实施例中的一个特征融合示意图。

图3为本公开实例分割方法另一个实施例的流程图。

图4为本公开实施例中进行双路掩膜预测的一个网络结构示意图。

图5为本公开实例分割方法一个应用实施例的流程图。

图6为图5所示应用实施例的过程示意图。

图7为本公开实例分割装置一个实施例的结构示意图。

图8为本公开实例分割装置另一个实施例的结构示意图。

图9为本公开实施例中分割模块一个实施例的结构示意图。

图10为本公开实施例中电子设备一个实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

另外，公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

图1为本公开实例分割方法一个实施例的流程图。如图1所示，该实施例的实例分割方法包括：

102，通过神经网络对图像进行特征提取，输出至少两个不同层级的特征。

本公开各实施例中的特征的表现形式例如可以包括但不限于：特征图、特征向量或者特征矩阵，等等。所述至少两个不同层级是指神经网络中位于该神经网络不同深度的两个或两个以上的网络层。所述图像例如可以包括但不限于：静态图像，视频中的帧图像，等等。

在一个可选示例中，该操作102可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的神经网络执行。

104，从上述至少两个不同层级的特征中抽取图像中至少一个实例候选区域对应的区域特征。

实例例如可以包括但不限于某一个具体对象，如某一具体的人、某一具体的物，等等。通过神经网络对图像进行检测可获得一个或多个实例候选区域。实例候选区域表示图像中可能出现上述实例的区域。

在一个可选示例中，该操作104可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的抽取模块执行。

106，分别将同一实例候选区域对应的区域特征进行融合，得到各实例候选区域的第一融合特征。

本公开各实施例中，对多个区域特征进行融合的方式，例如可以是对多个区域特征中基于各像素求和、取最大值、取平均值等。

在一个可选示例中，该操作106可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一融合模块执行。

108，分别基于各第一融合特征进行实例分割(Instance Segmentation)，获得相应实例候选区域的实例分割结果和/或所述图像的实例分割结果。

本公开各实施例中，实例候选区域的实例分割结果可以包括：该实例候选区域属于某实例的像素以及该实例所属的类别，例如，该实例候选区域中属于某男孩的像素以及该男孩所属的类别为人。

在一个可选示例中，该操作108可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的分割模块执行。

基于本公开上述实施例提供的实例分割方法，通过神经网络对图像进行特征提取，输出至少两个不同层级的特征；从两个不同层级的特征中抽取图像中至少一实例候选区域对应的区域特征、并对同一实例候选区域对应的区域特征进行融合，得到各实例候选区域的第一融合特征；基于各第一融合特征进行实例分割，获得相应实例候选区域的实例分割结果和/或图像的实例分割结果。本公开实施例设计了基于深度学习的框架解决实例分割的问题，由于深度学习具有强大的建模能力，有助于获得更好的实例分割结果；另外，针对实例候选区域进行实例分割，相对于直接对整个图像进行实例分割，可以提高实例分割的准确性，降低实例分割所需的计算量和复杂度，提高实例分割效率；并且，从至少两个不同层级的特征中抽取实例候选区域对应的区域特征进行融合，并基于得到的融合特征进行实例分割，使得每个实例候选区域都可以同时获得更多不同层级的信息，由于从不同层级的特征抽取的信息都是处于不同的语义层级，从而可以利用上下文信息提高各实例候选区域的实例分割结果的准确性。

本公开各实例分割方法实施例的一个实施方式中，操作102通过神经网络对图像进行特征提取，输出至少两个不同层级的特征，可以包括：通过神经网络对图像进行特征提取，经该神经网络中至少两个不同网络深度的网络层输出上述至少两个不同层级的特征。

本公开各实施例中，神经网络包括两个以上网络深度不同的网络层，神经网络包括的网络层中，用于进行特征提取的网络层可以称为特征层，神经网络接收到一个图像后，通过第一个网络层对输入的图像进行特征提取，并将提取的特征输入至第二个网络层，从第二个网络层起，每个网络层依次对输入的特征进行特征提取，将提取到的特征输入至下一个网络层进行特征提取。神经网络中各网络层的网络深度依据输入输出的顺序或者特征提取的顺序由浅至深，各网络层依次进行特征提取输出的特征的层级由低到高，分辨率由高至低。相对于同一神经网络中网络深度较浅的网络层，网络深度较深的网络层视野域较大，较多的关注空间结构信息，提取到的特征用于实例分割时，可以使得分割结果更准确。在神经网络中，网络层通常可以包括：至少一个用于进行特征提取的卷积层，和对卷积层提取的特征(例如特征图)进行上采样的上采样层，通过对特征进行上采样，可以减小卷积层提取的特征(例如特征图)的大小。

本公开各实例分割方法实施例的一个实施方式中，操作106中分别将同一实例候选区域对应的区域特征进行融合，可以包括：分别对同一实例候选区域对应的多个区域特征进行像素级别的融合。

例如，在其中一个可选示例中，分别对同一实例候选区域对应的多个区域特征进行像素级别的融合，可以是：

分别将同一实例候选区域对应的多个区域特征基于各像素取最大值(element-wise max)，即，将同一实例候选区域对应的多个区域特征中，各像素位置的特征取最大值；

或者，分别将同一实例候选区域对应的多个区域特征基于各像素取平均值，即，将同一实例候选区域对应的多个区域特征中，各像素位置的特征求取平均值；

或者，分别将同一实例候选区域对应的多个区域特征基于各像素取求和，即，将同一实例候选区域对应的多个区域特征中，各像素位置的特征求和。

其中，在上述实施方式中，将同一实例候选区域对应的多个区域特征进行像素级别的融合时，将同一实例候选区域对应的多个区域特征基于各像素取最大值的方式，相对于其他方式而言，使得实例候选区域的特征更明显，从而使得实例分割更准确，以提升实例分割结果的准确率。

可选地，在本公开实例分割方法的又一个实施例中，分别将同一实例候选区域对应的区域特征进行融合之前，还可以通过一个网络层，例如全卷积层或者全连接层，调整同一实例候选区域对应的区域特征，例如调整参与融合的同一实例候选区域对应的各区域特征的维度等，对参与融合的同一实例候选区域对应的各区域特征进行适配，使参与融合的同一实例候选区域对应的各区域特征更加适用于融合，从而获得更准确的融合特征。

在本公开实例分割方法的另一个实施例中，操作102输出至少两个不同层级的特征之后，还可以包括：将上述至少两个不同层级的特征进行至少一次折回融合，得到第二融合特征。其中，一次折回融合包括：基于神经网络的网络深度方向，对分别由不同网络深度的网络层输出的不同层级的特征，依次按照两个不同的层级方向进行融合。相应地，该实施例中，操作104可以包括：从第二融合特征中抽取至少一实例候选区域对应的区域特征。

在各实施例的一个实施方式中，上述两个不同的层级方向，包括：从高层级特征到低层级特征的方向、和从低层级特征到高层级特征的方向。由此更好利用上下文信息进行特征融合，进而提高各实例候选区域的实例分割结果。

则在其中一个可选示例中，上述依次按照两个不同的层级方向，可以包括：依次沿从高层级特征到低层级特征的方向(从神经网络中网络深度较深的网络层输出的特征到网络深度较浅的网络层输出的特征的方向)和从低层级特征到高层级特征的方向(从神经网络中网络深度较浅的网络层输出的特征到网络深度较深的网络层输出的特征的方向)；或者，依次沿从低层级特征到高层级特征的方向和从高层级特征到低层级特征的方向。

在本公开各实施例的一个实施方式中，对分别由不同网络深度的网络层输出的不同层级的特征，依次沿从高层级特征到低层级特征的方向和从低层级特征到高层级特征的方向进行融合，包括：

沿神经网络的网络深度从深到浅的方向，依次将神经网络中，经网络深度较深的网络层输出的较高层级的特征上采样后，与经网络深度较浅的网络层输出的较低层级的特征进行融合，例如：将较高层级的特征上采样后与较低层级的特征相加，获得第三融合特征。其中，较高层级的特征，可以包括：经神经网络中网络深度较深的网络层输出的特征、或者对该网络深度较深的网络层输出的特征进行至少一次特征提取得到的特征。例如，参与融合的特征中，最高层级的特征可以是上述至少两个不同层级的特征中最高层级的特征，或者也可以是对该最高层级的特征进行一次或多次特征提取得到的特征，第三融合特征可以包括上述最高层级的特征和每次融合得到的融合特征；

沿从低层级特征到高层级特征的方向，依次将较低层级的融合特征降采样后，与第三融合特征中较高层级的融合特征进行融合。其中，参与本次融合的融合特征中，最低层级的融合特征可以是第三融合特征中最低层级的融合特征，或者也可以是对该第三融合特征中最低层级的融合特征进行一次或多次特征提取得到的特征；本次沿从低层级特征到高层级特征的方向进行特征融合得到的一批融合特征中，包括第三融合特征中最低层级的融合特征和每次融合得到的融合特征。

其中，若是将上述至少两个不同层级的特征进行一次折回融合，则沿从低层级特征到高层级特征的方向进行特征融合得到的一批融合特征即为第二融合特征；若是将上述至少两个不同层级的特征进行两次或以上折回融合，则可以执行多次沿从高层级特征到低层级特征的方向和从低层级特征到高层级特征的方向进行融合的操作，最终得到的一批融合特征即为第二融合特征。

其中，将经网络深度较深的网络层输出的较高层级的特征上采样后，与经网络深度较浅的网络层输出的较低层级的特征进行融合时，可以依次将神经网络中，经网络深度较深的网络层(例如沿神经网络的输入输出方向的第80个网络层)输出的较高层级的特征上采样后，与相邻的、经网络深度较浅的网络层(例如沿神经网络的输入输出方向的第79个网络层)输出的较低层级的特征进行融合。另外，也可以依次将神经网络中，经网络深度较深的网络层(例如沿神经网络的输入输出方向的第80个网络层)输出的较高层级的特征上采样后，与该网络深度较深的网络层不相邻的、网络深度较浅的网络层(例如沿神经网络的输入输出方向的第50个网络层)输出的较低层级的特征进行融合，即：进行跨层级特征的融合。

类似地，将较低层级的融合特征降采样后，与第三融合特征中较高层级的融合特征进行融合时，也可以将较低层级的融合特征(例如P ₂，其中“2”表示特征层级)降采样后，与相邻的、第三融合特征中较高层级的融合特征(例如P ₃，其中“3”表示特征层级)进行融合。或者，将较低层级的融合特征降采样后，与特征层级不相邻的、第三融合特征中较高层级的融合特征(例如P ₄，其中“4”表示特征层级)进行融合，即：进行跨层级融合特征的融合。

图2为本公开实施例中的一个特征融合示意图。如图2所示，示出了将一个较低层级的融合特征 N _i降采样后与相邻的、较高层级的特征P _i+1融合，得到相应的融合特征N _i+1的一个示意图。其中，i为取值大于0的整数。

基于该实施例，按照自上而下的顺序(即：神经网络中网络深度从深至浅、从高层级特征到低层级特征的顺序)，逐渐将高层级低分辨率的特征和低层级高分辨率的特征融合，得到一批新的特征，然后再按照从自下而上的顺序(即：低层级特征到高层级特征的顺序)，依次将较低层级的融合特征降采样后与相邻的、较高层级的特征融合，逐渐将低层级高分辨率的特征和高层级低分辨率的特征融合，得到另一批新的特征以用于实例分割，本实施例通过一个自下而上的信息通路，能够帮助低层信息更容易地传播到高层网络(即：网络深度较深的网络层)，降低信息传播的损失，使得信息在神经网络内部能够更加顺畅的传递，由于低层信息对于某些细节信息比较敏感，能够提供对定位和分割非常有益的信息，从而提升实例分割结果；通过两遍特征融合，可以让高层网络(即：网络深度较深的网络层)更容易、全面地获取底层信息，从而进一步提升实例分割结果。

在本公开各实施例的另一个实施方式中，对分别由不同网络深度的网络层输出的不同层级的特征，依次沿从低层级特征到高层级特征的方向和从高层级特征到低层级特征的方向进行融合，包括：

沿神经网络的网络深度从浅到深的方向，依次将神经网络中，经网络深度较浅的网络层输出的较低层级的特征降采样后，与经网络深度较深的网络层输出的较高层级的特征进行融合，获得第四融合特征。其中，较低层级的特征，例如可以包括：经神经网络中网络深度较浅的网络层输出的特征、或者对网络深度较浅的网络层输出的特征进行至少一次特征提取得到的特征。例如，参与融合的特征中，最低层级的特征可以是上述至少两个不同层级的特征中最低层级的特征，或者也可以是对该最低层级的特征进行一次或多次特征提取得到的特征，第四融合特征可以包括上述最低层级的特征和每次融合得到的融合特征；

沿从高层级特征到低层级特征的方向，依次将较高层级的融合特征上采样后，与第四融合特征中较低层级的融合特征进行融合。其中，参与本次融合的融合特征中，最高层级的融合特征可以是第四融合特征中最高层级的融合特征，或者也可以是对该第四融合特征中最高层级的融合特征进行一次或多次特征提取得到的特征；本次沿从低层级特征到高层级特征的方向和从高层级特征到低层级特征的方向进行融合进行特征融合得到的一批融合特征中，包括第四融合特征中最高层级的融合特征和每次融合得到的融合特征。

其中，若是将上述至少两个不同层级的特征进行一次折回融合，则沿从低层级特征到高层级特征的方向和从高层级特征到低层级特征的方向进行融合进行特征融合得到的一批融合特征即为第二融合特征；若是将上述至少两个不同层级的特征进行两次或以上折回融合，则可以执行多次沿从低层级特征到高层级特征的方向和从高层级特征到低层级特征的方向进行融合进行特征融合得到的一批融合特征的操作，最终得到的一批融合特征即为第二融合特征。

在其中一个可选示例中，将神经网络中，经网络深度较浅的网络层输出的较低层级的特征降采样后，与经网络深度较深的网络层输出的较高层级的特征进行融合时，可以将神经网络中，经网络深度较浅的网络层输出的较低层级的特征降采样后，与该网络深度较浅的网络层相邻的、网络深度较深的网络层输出的较高层级的特征进行融合。或者，也可以将神经网络中，经网络深度较浅的网络层输出的较低层级的特征降采样后，与该网络深度较浅的网络层不相邻的、网络深度较深的网络层输出的较高层级的特征进行融合，即：进行跨层级特征的融合。

类似地，将较高层级的融合特征上采样后，与第四融合特征中较低层级的融合特征进行融合时，可以将较高层级的融合特征上采样后，与相邻的、第四融合特征中较低层级的融合特征进行融合。或者，也可以将较高层级的融合特征上采样后，与不相邻的、第四融合特征中较低层级的融合特征进行融合，即：进行跨层级融合特征的融合。

在本公开上述各实施例的一个实施方式中，操作108中，基于各第一融合特征进行实例分割，获得相应实例候选区域的实例分割结果和/或图像的实例分割结果，可以包括：

基于一第一融合特征，对一第一融合特征对应的实例候选区域进行实例分割，获得对应的实例候选区域的实例分割结果，其中的一第一融合特征不限定为特定的第一融合特征，可以是任一实例候选区域的第一融合特征；和/或，基于各第一融合特征对图像进行实例分割，获得图像的实例分割结果。

在本公开上述各实施例的另一个实施方式中，操作108中，基于各第一融合特征进行实例分割，获得图像的实例分割结果，可以包括：分别基于各第一融合特征，对各第一融合特征各自对应的实例候选区域进行实例分割，获得各实例候选区域的实例分割结果；基于各实例候选区域的实例分割结果获取图像的实例分割结果。

图3为本公开实例分割方法另一个实施例的流程图。如图3所示，该实施例的实例分割方法包括：

302，通过神经网络对图像进行特征提取，经神经网络中至少两个不同网络深度的网络层输出至少两个不同层级的特征。

在一个可选示例中，该操作302可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的神经网络执行。

304，沿神经网络的网络深度从深到浅的方向，依次将神经网络中，经网络深度较深的网络层输出的较高层级的特征上采样后，与经网络深度较浅的网络层输出的较低层级的特征进行融合，获得第三融合特征。

其中，上述较高层级的特征可以包括：经神经网络中网络深度较深的网络层输出的特征、或者对该网络深度较深的网络层输出的特征进行至少一次特征提取得到的特征。例如，参与融合的特征中，最高层级的特征可以是上述至少两个不同层级的特征中最高层级的特征，或者也可以是对该最高层级的特征进行一次或多次特征提取得到的特征，第三融合特征可以包括上述至少两个不同层级的特征中最高层级的特征和通过该操作304中每次进行融合操作得到的融合特征。

306，沿从低层级特征到高层级特征的方向，依次将较低层级的融合特征降采样后，与第三融合特征中较高层级的融合特征进行融合，获得第二融合特征。

其中，其中，参与本次融合的融合特征中，最低层级的融合特征可以是第三融合特征中最低层级的融合特征，或者也可以是对该第三融合特征中最低层级的融合特征进行一次或多次特征提取得到的特征；本次沿从低层级特征到高层级特征的方向进行特征融合得到的一批融合特征中，包括第三融合特征中最低层级的融合特征和通过该操作306中每次进行融合操作融合得到的融合特征。

该实施例以进行一次这回融合为例进行说明，若是将上述至少两个不同层级的特征进行两次或以上折回融合，则可以执行多次操作304-306，最终得到的一批融合特征即为第二融合特征。

在一个可选示例中，该操作304-306可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第二融合模块执行。

308，分别根据图像中的各实例候选区域，从第二融合特征中抽取至少一实例候选区域对应的区域特征。

本公开各实施例中，例如，可以采用但不限于区域推荐网络(Region Proposal Network，RPN)对图像生成各实例候选区域，并将各实例候选区域映射到第二融合特征中的各特征上，之后，例如，可以采用但不限于感兴趣区域(region of interest，ROI)对齐(ROIAlign)的方法，从第二融合特征中抽取各实例候选区域对应的区域特征。

在一个可选示例中，该操作308可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的抽取模块执行。

310，分别对同一实例候选区域对应的多个区域特征进行像素级别的融合，得到各实例候选区域的融合特征。

在一个可选示例中，该操作310可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一融合模块执行。

312，分别基于各第一融合特征进行实例分割，获得相应实例候选区域的实例分割结果。

在一个可选示例中，该操作312可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的分割模块执行。

本公开各实例分割方法实施例的一个实施方式中，基于一第一融合特征，对该一第一融合特征对应的实例候选区域进行实例分割，获得对应的实例候选区域的实例分割结果，可以包括：

基于上述一第一融合特征，进行像素级别的实例类别预测，获得上述一第一融合特征对应的实例候选区的实例类别预测结果；基于上述一第一融合特征进行像素级别的前背景预测，获得上述一第一融合特征对应的实例候选区域的前背景预测结果。其中，上述一第一融合特征为任一实例候选区域的第一融合特征；

基于上述实例类别预测结果和前背景预测结果，获取上述一第一融合特征对应的实例物体候选区域的实例分割结果，该实例分割结果包括：当前实例候选区域中属于某实例的像素以及该实例所属的类别信息。

基于本实施例，基于上述一第一融合特征，同时进行像素级别的实例类别预测和前背景预测，通过像素级别的实例类别预测可以对该一第一融合特征的精细分类和多分类，通过前背景预测可以获得较好的全局信息，并且由于无需关注多实例类别之间的细节信息，提高了预测速度，同时基于上述实例类别预测结果和前背景预测结果获取实例物体候选区域的实例分割结果，可以提高实例候选区域或者图像的实例分割结果。

在其中一个可选示例中，基于上述一第一融合特征，进行像素级别的实例类别预测，可以包括：

通过第一卷积网络，对上述一第一融合特征进行特征提取；该第一卷积网络包括至少一个全卷积层；

通过第一全卷积层，基于上述第一卷积网络输出的特征进行像素级别的物体类别预测。

在其中一个可选示例中，基于一第一融合特征进行像素级别的前背景预测，包括：

基于上述一第一融合特征，预测上述一第一融合特征对应的实例候选区域中属于前景的像素和/或属于背景的像素。

其中，背景与前景可以根据需求设定。例如，前景可以包括所有实例类别对应部分，背景可以包括所有实例类别对应部分以外的部分；或者，背景可以包括所有实例类别对应部分，前景可以包括：所有实例类别对应部分以外的部分。

在另一个可选示例中，基于一第一融合特征进行像素级别的前背景预测，可以包括：

通过第二卷积网络，对上述一第一融合特征进行特征提取；该第二卷积网络包括至少一个全卷积层；

通过全连接层，基于上述第二卷积网络输出的特征进行像素级别的前背景预测。

本公开各实例分割方法实施例的一个实施方式中，基于上述实例类别预测结果和前背景预测结果，获取一第一融合特征对应的实例物体候选区域的实例分割结果，包括：

将上述一第一融合特征对应的实例候选区域的物体类别预测结果与前背景预测结果进行像素级的相加处理，获得上述一第一融合特征对应的实例物体候选区域的实例分割结果。

在另一个实施例方式中，获得上述一第一融合特征对应的实例候选区域的前背景预测结果之后，还可以包括：将上述前背景预测结果转换为与上述实例类别预测结果的维度一致的前背景预测结果。例如，将前背景预测结果由向量转换为与物体类别预测的维度一致的矩阵。相应地，将上述一第一融合特征对应的实例候选区域的物体类别预测结果与前背景预测结果进行像素级的相加处理，可以包括：将上述一第一融合特征对应的实例候选区域的实例类别预测结果与转换得到的前背景预测结果进行像素级的相加处理。

其中，本公开各实施例的上述实施方式中，分别基于各实例候选区域的第一融合特征进行实例分割，获得各实例候选区域的实例分割结果时，由于同时基于该实例候选区域的第一融合特征进行像素级别的实例类别预测和前背景预测，该部分方案可以称为双路掩膜预测，如图4所示，为本公开实施例中进行双路掩膜预测的一个网络结构示意图。

如图4所示，实例候选区域对应的多个区域特征，分别经过两个分支进行实例类别预测和前背景预测。其中，第一个分支包括：四个全卷积层(conv1-conv4)即上述第一卷积网络，和一个解卷积层(deconv)即上述第一全卷积层。另外一个分支包括：从第一个分支的第三个全卷积层和第四个全卷积层(conv3-conv4)、以及两个全卷积层(conv4 _-fc和conv5 _-fc)，即上述第二卷积网络；全连接层(fc)；以及转换(reshape)层，用于将前背景预测结果转换为与实例类别预测结果的维度一致的前背景预测结果。第一个分支对每个潜在的实例类别都会进行像素级别的掩膜预测，而全连接层则进行一个与实例类别无关的掩膜预测(即，进行像素级别的前背景预测)。最终这两个分支的掩膜预测相加得到最终的实例分割结果。

图5为本公开实例分割方法一个应用实施例的流程图。图6为图5所示应用实施例的过程示意图。请同时参见图5和图6，该应用实施例的实例分割方法包括：

502，通过神经网络对图像进行特征提取，经神经网络中四个不同网络深度的网络层输出四个层级的特征M ₁-M ₄。

在一个可选示例中，该操作502可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的神经网络执行。

504，将上述四个层级的特征中，按照从高层级特征M ₄到低层级特征M ₁(即：自上而下)的顺序，依次将较高层级的特征M _i+1上采样后与较低层级的特征M _i进行融合，获得第一批融合特征P ₂-P ₅。

其中，i的取值依次为1-3中的整数。参与融合的特征和第一批融合特征中，最高层级的融合特征P ₅为上述四个不同层级的特征中最高层级的特征M ₄或者通过全卷积层对该特征M ₄进行特征提取得到的特征；第一融合特征包括上述四个不同层级的特征中最高层级的融合特征和每次融合得到的融合特征P ₂-P ₅。

506，将上述第一批融合特征中，按照从低层级特征P ₂到高层级特征P ₅(即：自下而上)的顺序，依次将较低层级的融合特征P _k降采样后与相邻的较高层级的特征P _k+1进行融合，获得第二批融合特征N ₂-N ₅。

其中，k的取值依次为2-4中的整数。参与本次融合的融合特征和第二批融合特征中，最低层级的融合特征N ₂为第一批融合特征中最低层级的融合特征P ₂或者通过全卷积层对该融合特征P ₂进行特征提取得到的特征，第二批融合特征包括第一融合特征中最低层级的特征P ₂对应的特征和每次融合得到的融合特征，其中，第一融合特征中最低层级的特征对应的特征，即第一融合特征中最低层级的融合特征P ₂或者通过卷积层对该融合特征P ₂进行特征提取得到的特征。

本应用实施例以对上述四个层级的特征M ₁-M ₄进行一次折回融合为例进行说明，因此，通过操作506获得的第二批融合特征即为本公开上述各实施例中的第二融合特征。

在一个可选示例中，该操作502-504可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第二融合模块执行。

508，从第二融合特征N ₂-N ₅中抽取上述图像中至少一实例候选区域对应的区域特征。

本公开各实施例中，例如，可以采用但不限于区域推荐网络对图像生成至少一个实例候选区域，并将各实例候选区域分别映射到第二融合特征中的各特征上，之后，例如，可以采用但不限于感兴趣区域对齐的方法，分别从第二融合特征中抽取同一实例候选区域对应的区域特征。

在一个可选示例中，该操作508可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的抽取模块执行。

510，分别对同一实例候选区域对应的多个区域特征进行像素级别的融合，得到各实例候选区域的第一融合特征。

在一个可选示例中，该操作510可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一融合模块执行。

之后，分别执行操作512和516。

512，分别基于各实例候选区域的第一融合特征进行实例分割，获得各实例候选区域的实例分割结果。

该实例分割结果包括各实例的物体框(box)或者位置和该实例所属的实例类别(class)。

在一个可选示例中，该操作512可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一分割单元执行。

之后，不执行本应用实施例的后续流程。

514，分别基于各实例候选区域的第一融合特征进行像素级别的实例类别预测，获得各实例候选区域的实例类别预测结果；以及分别基于各实例候选区域的第一融合特征进行像素级别的前背景预测，获得各实例候选区域的前背景预测结果。

在一个可选示例中，该操作514可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一分割单元或者第一分割单元中的第一预测子单元和第二预测子单元执行。

516，分别将各实例物体候选区域的第一融合特征对应物体类别预测结果与前背景预测结果进行像素级的相加处理，获得各第一融合特征对应的实例物体候选区域的实例分割结果。

其中，该实例分割结果包括：当前实例候选区域中属于某一实例的像素以及该实例所属的实例类别，其中的实例类别可以：背景或者某一实例类别。

在一个可选示例中，该操作516可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一分割单元或者第一分割单元中的获取子单元执行。

其中，该操作512与操作514-516之间在执行时间上不存在先后顺序，二者可以同时执行，也可以以任意时间顺序执行。

另外，在本公开上述各实施例中，得到各实例候选区域的第一融合特征之后，还可以基于该第一融合特征对图像的至少部分区域进行语义分割，获得语义分割结果。

或者，在本公开上述各实施例中，得到各实例候选区域的第二融合特征之后，还可以基于该第二融合特征对图像的至少部分区域进行语义分割，获得语义分割结果。

其中，上述语义分割结果例如可以包括：该图像的至少部分区域中各像素所属的类别。

本发明各实施例中，图像的至少部分区域可以是图像的全部区域或者局部区域(例如候选区域)，即：可以对整个图像进行语义分割，得到图像的语义分割结果；也可以对图像的局部(例如候选区域)进行语义分割，得到局部区域的语义分割结果。其中的候选区域例如可以是上述各实施例中的实例候选区域，或者还可以是以其他方式产生的候选区域。

在一个可选示例中，上述对图像的至少部分区域进行语义分割的操作可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的分割模块或者分割模块中的执行。

基于上述实施例，实现了对图像的至少部分区域的语义分割。另外，基于第一融合特征或者第二融合特征对图像的至少部分区域进行语义分割，可以利用上下文信息提升图像语义分割结果的准确性。

需要说明的是在本公开上述各实施例中，得到各实例候选区域的第二融合特征之后，也可以基于第二融合特征进行实例分割，获得相应实例候选区域的实例分割结果和/或所述图像的实例分割结果。其中，基于第二融合特征进行实例分割，获得相应实例候选区域的实例分割结果和/或所述图像的实例分割结果的实现，可以参考上述基于第一融合特征进行实例分割，获得相应实例候选区域的实例分割结果和/或图像的实例分割结果的各实施例，二者的可以采取类似的方案实现，本公开不再赘述。

本公开实施例提供的任一种实例分割方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种实例分割方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种实例分割方法。下文不再赘述。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图7为本公开实例分割装置一个实施例的结构示意图。该实施例的实例分割装置可用于实现本公开上述各实例分割方法实施例。如图7所示，该实施例的装置包括：神经网络，抽取模块，第一融合模块和分割模块。其中：

神经网络，用于对图像进行特征提取，输出至少两个不同层级的特征。

其中，该神经网络可以包括至少两个不同网络深度的网络层，用于对图像进行特征提取，经至少两个不同网络深度的网络层输出至少两个不同层级的特征。

抽取模块，用于从上述至少两个不同层级的特征中抽取图像中至少一实例候选区域对应的区域特征。

第一融合模块，用于对同一实例候选区域对应的区域特征进行融合，得到各实例候选区域的第一融合特征。

分割模块，用于基于各第一融合特征进行实例分割，获得相应实例候选区域的实例分割结果和/或图像的实例分割结果。

基于本公开上述实施例提供的实例分割装置，通过神经网络对图像进行特征提取，输出至少两个不同层级的特征；从两个不同层级的特征中抽取图像中至少一实例候选区域对应的区域特征、并对同一实例候选区域对应的区域特征进行融合，得到各实例候选区域的第一融合特征；基于各第一融合特征进行实例分割，获得相应实例候选区域的实例分割结果和/或图像的实例分割结果。本公开实施例设计了基于深度学习的框架解决实例分割的问题，由于深度学习具有强大的建模能力，有助于获得更好的实例分割结果；另外，针对实例候选区域进行实例分割，相对于直接对整个图像进行实例分割，可以提高实例分割的准确性，降低实例分割所需的计算量和复杂度，提高实例分割效率；并且，从至少两个不同层级的特征中抽取实例候选区域对应的区域特征进行融合，并基于得到的融合特征进行实例分割，使得每个实例候选区域都可以同时获得更多不同层级的信息，由于从不同层级的特征抽取的信息都是处于不同的语义层级，从而可以利用上下文信息提高各实例候选区域的实例分割结果的准确性。

图8为本公开实例分割装置另一个实施例的结构示意图。如图8所示，与图7所示的实施例相比，该实施例的实例分割装置还包括：第二融合模块，用于将至少两个不同层级的特征进行至少一次折回融合，得到第二融合特征。其中，一次折回融合包括：基于神经网络的网络深度方向，对分别由不同网络深度的网络层输出的不同层级的特征，依次按照两个不同的层级方向进行融合。相应地，该实施例中，抽取模块用于从第二融合特征中抽取至少一实例候选区域对应的区域特征。

在其中一个实施例方式中，上述两个不同的层级方向，可以包括：从高层级特征到低层级特征的方向、和从低层级特征到高层级特征的方向。

则上述依次按照两个不同的层级方向，可以包括：依次沿从高层级特征到低层级特征的方向和从低层级特征到高层级特征的方向；或者，依次沿从低层级特征到高层级特征的方向和从高层级特征到低层级特征的方向。

在其中一个可选示例中，第二融合模块对分别由不同网络深度的网络层输出的不同层级的特征，依次沿从高层级特征到低层级特征的方向和从低层级特征到高层级特征的方向进行融合时，用于：沿神经网络的网络深度从深到浅的方向，依次将神经网络中，经网络深度较深的网络层输出的较高层级的特征上采样后，与经网络深度较浅的网络层输出的较低层级的特征进行融合，获得第三融合特征；沿从低层级特征到高层级特征的方向，依次将较低层级的融合特征降采样后，与第三融合特征中较高层级的融合特征进行融合。

其中，较高层级的特征，例如可以包括：经神经网络中网络深度较深的网络层输出的特征、或者对网络深度较深的网络层输出的特征进行至少一次特征提取得到的特征。

在其中一个可选示例中，第二融合模块依次将神经网络中，经网络深度较深的网络层输出的较高层级的特征上采样后，与经网络深度较浅的网络层输出的较低层级的特征进行融合时，用于依次将神经网络中，经网络深度较深的网络层输出的较高层级的特征上采样后，与相邻的、经网络深度较浅的网络层输出的较低层级的特征进行融合。

在其中一个可选示例中，第二融合模块依次将较低层级的融合特征降采样后，与第三融合特征中较高层级的融合特征进行融合时，用于依次将较低层级的融合特征降采样后，与相邻的、第三融合特征中较高层级的融合特征进行融合。

在其中一个可选示例中，第二融合模块对分别由不同网络深度的网络层输出的不同层级的特征，依次沿从低层级特征到高层级特征的方向和从高层级特征到低层级特征的方向进行融合时，用于：沿神经网络的网络深度从浅到深的方向，依次将神经网络中，经网络深度较浅的网络层输出的较低层级的特征降采样后，与经网络深度较深的网络层输出的较高层级的特征进行融合，获得第四融合特征；

沿从高层级特征到低层级特征的方向，依次将较高层级的融合特征上采样后，与第四融合特征中较低层级的融合特征进行融合。

其中，较低层级的特征例如可以包括：经神经网络中网络深度较浅的网络层输出的特征、或者对网络深度较浅的网络层输出的特征进行至少一次特征提取得到的特征。

在其中一个可选示例中，第二融合模块依次将神经网络中，经网络深度较浅的网络层输出的较低层级的特征降采样后，与经网络深度较深的网络层输出的较高层级的特征进行融合时，用于依次将神经网络中，经网络深度较浅的网络层输出的较低层级的特征降采样后，与相邻的、经网络深度较深的网络层输出的较高层级的特征进行融合。

在其中一个可选示例中，第二融合模块依次将较高层级的融合特征上采样后，与第四融合特征中较低层级的融合特征进行融合时，用于依次将较高层级的融合特征上采样后，与相邻的、第四融合特征中较低层级的融合特征进行融合。

在其中一个可选示例中，第一融合模块对同一实例候选区域对应的区域特征进行融合时，用于分别对同一实例候选区域对应的多个区域特征进行像素级别的融合。

例如，第一融合模块对同一实例候选区域对应的多个区域特征进行像素级别的融合时，用于：分别对同一实例候选区域对应的多个区域特征基于各像素取最大值；或者，分别对同一实例候选区域对应的多个区域特征基于各像素取平均值；或者，分别对同一实例候选区域对应的多个区域特征基于各像素取求和。

另外，再参见图8，在本公开上述各实施例的一个实施方式中，分割模块可以包括：

第一分割单元，用于基于一第一融合特征，对一第一融合特征对应的实例候选区域进行实例分割，获得对应的实例候选区域的实例分割结果；和/或，

第二分割单元，用于基于各第一融合特征对图像进行实例分割，获得图像的实例分割结果。

图9为本公开实施例中分割模块一个实施例的结构示意图。如图9所示，在本公开上述各实施例中，分割模块可以包括：

第一分割单元，用于分别基于各第一融合特征，对各第一融合特征各自对应的实例候选区域进行实例分割，获得各实例候选区域的实例分割结果；

获取单元，用于基于各实例候选区域的实例分割结果获取图像的实例分割结果。

在其中一个实施方式中，第一分割单元包括：

第一预测子单元，用于基于一第一融合特征，进行像素级别的实例类别预测，获得一第一融合特征对应的实例候选区的实例类别预测结果；

第二预测子单元，用于基于一第一融合特征进行像素级别的前背景预测，获得一第一融合特征对应的实例候选区域的前背景预测结果；

获取子单元，用于基于实例类别预测结果和前背景预测结果，获取一第一融合特征对应的实例物体候选区域的实例分割结果。

在其中一个可选示例中，第二预测子单元，用于基于一第一融合特征，预测一第一融合特征对应的实例候选区域中属于前景的像素和/或属于背景的像素。

其中，前景包括所有实例类别对应部分，背景包括：所有实例类别对应部分以外的部分；或者，背景包括所有实例类别对应部分，前景包括：所有实例类别对应部分以外的部分。

在其中一个可选示例中，第一预测子单元可以包括：第一卷积网络，用于对一第一融合特征进行特征提取；第一卷积网络包括至少一个全卷积层；第一全卷积层，用于基于第一卷积网络输出的特征进行像素级别的物体类别预测。

在其中一个可选示例中，第二预测子单元可以包括：第二卷积网络，用于对一第一融合特征进行特征提取；第二卷积网络包括至少一个全卷积层；全连接层，用于基于第二卷积网络输出的特征进行像素级别的前背景预测。

在其中一个可选示例中，获取子单元用于：将一第一融合特征对应的实例候选区域的物体类别预测结果与前背景预测结果进行像素级的相加处理，获得一第一融合特征对应的实例物体候选区域的实例分割结果。

另外，再参见图9，在另一个实施例中，第一分割单元还可以包括：转换子单元，用于将前背景预测结果转换为与实例类别预测结果的维度一致的前背景预测结果。相应地，该实施例中，获取子单元用于将一第一融合特征对应的实例候选区域的实例类别预测结果与转换得到的前背景预测结果进行像素级的相加处理。

另外，在本公开上述各实施例的一个实施方式中，分割模块还可以包括：第三分割单元，用于基于第一融合特征对图像的至少部分区域进行语义分割，获得语义分割结果；或者，用于基于第二融合特征对图像的至少部分区域进行语义分割，获得语义分割结果。

另外，本公开实施例提供的另一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行存储器中存储的计算机程序，且计算机程序被执行时，实现本公开上述实施例的实例分割方法。

图10为本公开电子设备一个应用实施例的结构示意图。下面参考图10，其示出了适于用来实现本公开实施例的终端设备或服务器的电子设备的结构示意图。如图10所示，该电子设备包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)，和/或一个或多个图像处理器(GPU)等，处理器可以根据存储在只读存储器(ROM)中的可执行指令或者从存储部分加载到随机访问存储器(RAM)中的可执行指令而执行各种适当的动作和处理。通信部可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，处理器可与只读存储器和/或随机访问存储器中通信以执行可执行指令，通过总线与通信部相连、并经通信部与其他目标设备通信，从而完成本公开实施例提供的任一方法对应的操作，例如，通过神经网络对图像进行特征提取，输出至少两个不同层级的特征；从所述至少两个不同层级的特征中抽取所述图像中至少一实例候选区域对应的区域特征、并对同一实例候选区域对应的区域特征进行融合，得到各实例候选区域的第一融合特征；基于各第一融合特征进行实例分割，获得相应实例候选区域的实例分割结果和/或所述图像的实例分割结果。

此外，在RAM中，还可存储有装置操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。在有RAM的情况下，ROM为可选模块。RAM存储可执行指令，或在运行时向ROM中写入可执行指令，可执行指令使处理器执行本公开任一方法对应的操作。输入/输出(I/O)接口也连接至总线。通信部可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口：包括键盘、鼠标等的输入部分；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。

需要说明的，如图10所示的架构仅为一种可选实现方式，在实践过程中，可根据实际需要对上述图10的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本公开公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本公开实施例提供的人脸防伪检测方法步骤对应的指令。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被CPU执行时，执行本公开的方法中限定的上述功能。

另外，本公开实施例还提供了一种计算机程序，包括计算机指令，当计算机指令在设备的处理器中运行时，实现本公开任一实施例的实例分割方法。

另外，本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现本公开任一实施例的实例分割方法。

本公开实施例在无人驾驶、家居机器人、地图等领域有着非常广阔的应用，例如：本公开实施例可应用于自动驾驶场景，精确识别出自动驾驶场景中的不同交通参与者；本公开实施例可应用于街道场景，识别出街道场景中不同路标性质的建筑和物体，从而帮助高精地图的构建；本公开实施例可应用于居家机器人，例如机器人在抓取物体时需要对每个物体都有精确的像素级别的定位，利用本公开实施例，可以对物体进行精确识别和定位。应当理解，以上仅为示例性场景，不应理解为对本公开保护范围的限制。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims

一种实例分割方法，其特征在于，包括：

通过神经网络对图像进行特征提取，输出至少两个不同层级的特征；

从所述至少两个不同层级的特征中抽取所述图像中至少一实例候选区域对应的区域特征、并对同一实例候选区域对应的区域特征进行融合，得到各实例候选区域的第一融合特征；

基于各第一融合特征进行实例分割，获得相应实例候选区域的实例分割结果和/或所述图像的实例分割结果。
根据权利要求1所述的方法，其特征在于，所述通过神经网络对图像进行特征提取，输出至少两个不同层级的特征，包括：通过所述神经网络对所述图像进行特征提取，经所述神经网络中至少两个不同网络深度的网络层输出至少两个不同层级的特征。
根据权利要求1或2所述的方法，其特征在于，所述输出至少两个不同层级的特征之后，还包括：将所述至少两个不同层级的特征进行至少一次折回融合，得到第二融合特征；其中，一次所述折回融合包括：基于所述神经网络的网络深度方向，对分别由不同网络深度的网络层输出的不同层级的特征，依次按照两个不同的层级方向进行融合；

从所述至少两个不同层级的特征中抽取所述图像中至少一实例候选区域对应的区域特征，包括：从所述第二融合特征中抽取所述至少一实例候选区域对应的区域特征。
根据权利要求3所述的方法，其特征在于，所述两个不同的层级方向，包括：从高层级特征到低层级特征的方向、和从低层级特征到高层级特征的方向。
根据权利要求4所述的方法，其特征在于，所述依次按照两个不同的层级方向，包括：依次沿从高层级特征到低层级特征的方向和从低层级特征到高层级特征的方向；或者，依次沿从低层级特征到高层级特征的方向和从高层级特征到低层级特征的方向。
根据权利要求5所述的方法，其特征在于，对分别由不同网络深度的网络层输出的不同层级的特征，依次沿从高层级特征到低层级特征的方向和从低层级特征到高层级特征的方向进行融合，包括：

沿所述神经网络的网络深度从深到浅的方向，依次将所述神经网络中，经网络深度较深的网络层输出的较高层级的特征上采样后，与经网络深度较浅的网络层输出的较低层级的特征进行融合，获得第三融合特征；

沿从低层级特征到高层级特征的方向，依次将较低层级的融合特征降采样后，与所述第三融合特征中较高层级的融合特征进行融合。
根据权利要求6所述的方法，其特征在于，所述较高层级的特征，包括：经所述神经网络中所述网络深度较深的网络层输出的特征、或者对所述网络深度较深的网络层输出的特征进行至少一次特征提取得到的特征。
根据权利要求6或7所述的方法，其特征在于，所述依次将所述神经网络中，经网络深度较深的网络层输出的较高层级的特征上采样后，与经网络深度较浅的网络层输出的较低层级的特征进行融合，包括：依次将所述神经网络中，经网络深度较深的网络层输出的较高层级的特征上采样后，与相邻的、经网络深度较浅的网络层输出的较低层级的特征进行融合。
根据权利要求6-8任一所述的方法，其特征在于，所述依次将较低层级的融合特征降采样后，与所述第三融合特征中较高层级的融合特征进行融合，包括：依次将较低层级的融合特征降采样后，与相邻的、所述第三融合特征中较高层级的融合特征进行融合。
根据权利要求5所述的方法，其特征在于，对分别由不同网络深度的网络层输出的不同层级的特征，依次沿从低层级特征到高层级特征的方向和从高层级特征到低层级特征的方向进行融合，包括：

沿所述神经网络的网络深度从浅到深的方向，依次将所述神经网络中，经网络深度较浅的网络层输出的较低层级的特征降采样后，与经网络深度较深的网络层输出的较高层级的特征进行融合，获得第四融合特征；

沿从高层级特征到低层级特征的方向，依次将较高层级的融合特征上采样后，与所述第四融合特征中较低层级的融合特征进行融合。
根据权利要求10所述的方法，其特征在于，所述较低层级的特征，包括：经所述神经网络中所述网络深度较浅的网络层输出的特征、或者对所述网络深度较浅的网络层输出的特征进行至少一次特征提取得到的特征。
根据权利要求10或11所述的方法，其特征在于，所述依次将所述神经网络中，经网络深度较浅的网络层输出的较低层级的特征降采样后，与经网络深度较深的网络层输出的较高层级的特征进行融合，包括：依次将所述神经网络中，经网络深度较浅的网络层输出的较低层级的特征降采样后，与相邻的、经网络深度较深的网络层输出的较高层级的特征进行融合。
根据权利要求10-12任一所述的方法，其特征在于，所述依次将较高层级的融合特征上采样后，与所述第四融合特征中较低层级的融合特征进行融合，包括：依次将较高层级的融合特征上采样后，与相邻的、所述第四融合特征中较低层级的融合特征进行融合。
根据权利要求1-13任一所述的方法，其特征在于，所述对同一实例候选区域对应的区域特征进行融合，包括：分别对同一实例候选区域对应的多个区域特征进行像素级别的融合。
根据权利要求14所述的方法，其特征在于，所述对同一实例候选区域对应的多个区域特征进行像素级别的融合，包括：分别对同一实例候选区域对应的多个区域特征基于各像素取最大值；或者，分别对同一实例候选区域对应的多个区域特征基于各像素取平均值；或者，分别对同一实例候选区域对应的多个区域特征基于各像素取求和。
根据权利要求1-15任一所述的方法，其特征在于，所述基于各第一融合特征进行实例分割，获得相应实例候选区域的实例分割结果和/或所述图像的实例分割结果，包括：

基于一第一融合特征，对所述一第一融合特征对应的实例候选区域进行实例分割，获得所述对应的实例候选区域的实例分割结果；和/或，

基于各第一融合特征对所述图像进行实例分割，获得所述图像的实例分割结果。
根据权利要求1-16任一所述的方法，其特征在于，所述基于各第一融合特征进行实例分割，获得所述图像的实例分割结果，包括：

分别基于各第一融合特征，对各第一融合特征各自对应的实例候选区域进行实例分割，获得各实例候选区域的实例分割结果；

基于所述各实例候选区域的实例分割结果获取所述图像的实例分割结果。
根据权利要求16或17所述的方法，其特征在于，所述基于一第一融合特征，对所述一第一融合特征对应的实例候选区域进行实例分割，获得所述对应的实例候选区域的实例分割结果，包括：

基于所述一第一融合特征，进行像素级别的实例类别预测，获得所述一第一融合特征对应的实例候选区的实例类别预测结果；基于所述一第一融合特征进行像素级别的前背景预测，获得所述一第一融合特征对应的实例候选区域的前背景预测结果；

基于所述实例类别预测结果和所述前背景预测结果，获取所述一第一融合特征对应的实例物体候选区域的实例分割结果。
根据权利要求18所述的方法，其特征在于，基于所述一第一融合特征进行像素级别的前背景预测，包括：基于所述一第一融合特征，预测所述一第一融合特征对应的实例候选区域中属于前景的像素和/或属于背景的像素。
根据权利要求19所述的方法，其特征在于，所述前景包括所有实例类别对应部分，所述背景包括所述所有实例类别对应部分以外的部分；或者，所述背景包括所有实例类别对应部分，所述前景包括所述所有实例类别对应部分以外的部分。
根据权利要求18-20任一所述的方法，其特征在于，基于所述一第一融合特征，进行像素级别的实例类别预测，包括：

通过第一卷积网络，对所述一第一融合特征进行特征提取；所述第一卷积网络包括至少一个全卷积层；

通过第一全卷积层，基于所述第一卷积网络输出的特征进行像素级别的物体类别预测。
根据权利要求18-21任一所述的方法，其特征在于，基于所述一第一融合特征进行像素级别的前背景预测，包括：

通过第二卷积网络，对所述一第一融合特征进行特征提取；所述第二卷积网络包括至少一个全卷积层；

通过全连接层，基于所述第二卷积网络输出的特征进行像素级别的前背景预测。
根据权利要求18-22任一所述的方法，其特征在于，基于所述实例类别预测结果和所述前背景预测结果，获取所述一第一融合特征对应的实例物体候选区域的实例分割结果，包括：将所述一第一融合特征对应的实例候选区域的物体类别预测结果与前背景预测结果进行像素级的相加处理，获得所述一第一融合特征对应的实例物体候选区域的实例分割结果。
根据权利要求23所述的方法，其特征在于，获得所述一第一融合特征对应的实例候选区域的前背景预测结果之后，还包括：将所述前背景预测结果转换为与所述实例类别预测结果的维度一致的前背景预测结果；

将所述一第一融合特征对应的实例候选区域的物体类别预测结果与前背景预测结果进行像素级的相加处理，包括：将所述一第一融合特征对应的实例候选区域的实例类别预测结果与转换得到的前背景预测结果进行像素级的相加处理。
根据权利要求1-15任一所述的方法，其特征在于，所述得到各实例候选区域的第一融合特征之后，还包括：基于所述第一融合特征对所述图像的至少部分区域进行语义分割，获得语义分割结果。
根据权利要求3-15任一所述的方法，其特征在于，所述得到各实例候选区域的第二融合特征之后，还包括：基于所述第二融合特征对所述图像的至少部分区域进行语义分割，获得语义分割结果。
一种实例分割装置，其特征在于，包括：

神经网络，用于对图像进行特征提取，输出至少两个不同层级的特征；

抽取模块，用于从所述至少两个不同层级的特征中抽取所述图像中至少一实例候选区域对应的区域特征；

第一融合模块，用于对同一实例候选区域对应的区域特征进行融合，得到各实例候选区域的第一融合特征；

分割模块，用于基于各第一融合特征进行实例分割，获得相应实例候选区域的实例分割结果和/或所述图像的实例分割结果。
根据权利要求27所述的装置，其特征在于，所述神经网络包括至少两个不同网络深度的网络层，用于对所述图像进行特征提取，经所述至少两个不同网络深度的网络层输出至少两个不同层级的特征。
根据权利要求27或28所述的装置，其特征在于，还包括：

第二融合模块，用于将所述至少两个不同层级的特征进行至少一次折回融合，得到第二融合特征；其中，一次所述折回融合包括：基于所述神经网络的网络深度方向，对分别由不同网络深度的网络层输出的不同层级的特征，依次按照两个不同的层级方向进行融合；所述抽取模块用于从所述第二融合特征中抽取所述至少一实例候选区域对应的区域特征。
根据权利要求29所述的装置，其特征在于，所述两个不同的层级方向，包括：从高层级特征到低层级特征的方向、和从低层级特征到高层级特征的方向。
根据权利要求30所述的装置，其特征在于，所述依次按照两个不同的层级方向，包括：依次沿从高层级特征到低层级特征的方向和从低层级特征到高层级特征的方向；或者，依次沿从低层级特征到高层级特征的方向和从高层级特征到低层级特征的方向。
根据权利要求31所述的装置，其特征在于，所述第二融合模块对分别由不同网络深度的网络层输出的不同层级的特征，依次沿从高层级特征到低层级特征的方向和从低层级特征到高层级特征的方向进行融合时，用于：沿所述神经网络的网络深度从深到浅的方向，依次将所述神经网络中，经网络深度较深的网络层输出的较高层级的特征上采样后，与经网络深度较浅的网络层输出的较低层级的特征进行融合，获得第三融合特征；沿从低层级特征到高层级特征的方向，依次将较低层级的融合特征降采样后，与所述第三融合特征中较高层级的融合特征进行融合。
根据权利要求32所述的装置，其特征在于，所述较高层级的特征，包括：

经所述神经网络中所述网络深度较深的网络层输出的特征、或者对所述网络深度较深的网络层输出的特征进行至少一次特征提取得到的特征。
根据权利要求32或33所述的装置，其特征在于，所述第二融合模块依次将所述神经网络中，经网络深度较深的网络层输出的较高层级的特征上采样后，与经网络深度较浅的网络层输出的较低层级的特征进行融合时，用于依次将所述神经网络中，经网络深度较深的网络层输出的较高层级的特征上采样后，与相邻的、经网络深度较浅的网络层输出的较低层级的特征进行融合。
根据权利要求32-34任一所述的装置，其特征在于，所述第二融合模块依次将较低层级的融合特征降采样后，与所述第三融合特征中较高层级的融合特征进行融合时，用于依次将较低层级的融合特征降采样后，与相邻的、所述第三融合特征中较高层级的融合特征进行融合。
根据权利要求31所述的装置，其特征在于，所述第二融合模块对分别由不同网络深度的网络层输出的不同层级的特征，依次沿从低层级特征到高层级特征的方向和从高层级特征到低层级特征的方向进行融合时，用于：沿所述神经网络的网络深度从浅到深的方向，依次将所述神经网络中，经网络深度较浅的网络层输出的较低层级的特征降采样后，与经网络深度较深的网络层输出的较高层级的特征进行融合，获得第四融合特征；沿从高层级特征到低层级特征的方向，依次将较高层级的融合特征上采样后，与所述第四融合特征中较低层级的融合特征进行融合。
根据权利要求36所述的装置，其特征在于，所述较低层级的特征，包括：经所述神经网络中所述网络深度较浅的网络层输出的特征、或者对所述网络深度较浅的网络层输出的特征进行至少一次特征提取得到的特征。
根据权利要求36或37所述的装置，其特征在于，所述第二融合模块依次将所述神经网络中，经网络深度较浅的网络层输出的较低层级的特征降采样后，与经网络深度较深的网络层输出的较高层级的特征进行融合时，用于依次将所述神经网络中，经网络深度较浅的网络层输出的较低层级的特征降采样后，与相邻的、经网络深度较深的网络层输出的较高层级的特征进行融合。
根据权利要求36-38任一所述的装置，其特征在于，所述第二融合模块依次将较高层级的融合特征上采样后，与所述第四融合特征中较低层级的融合特征进行融合时，用于依次将较高层级的融合特征上采样后，与相邻的、所述第四融合特征中较低层级的融合特征进行融合。
根据权利要求27-39任一所述的装置，其特征在于，所述第一融合模块对同一实例候选区域对应的区域特征进行融合时，用于分别对同一实例候选区域对应的多个区域特征进行像素级别的融合。
根据权利要求40所述的装置，其特征在于，所述第一融合模块对同一实例候选区域对应的多个区域特征进行像素级别的融合时，用于：分别对同一实例候选区域对应的多个区域特征基于各像素取最大值；或者，分别对同一实例候选区域对应的多个区域特征基于各像素取平均值；或者，分别对同一实例候选区域对应的多个区域特征基于各像素取求和。
根据权利要求27-41任一所述的装置，其特征在于，所述分割模块包括：

第一分割单元，用于基于一第一融合特征，对所述一第一融合特征对应的实例候选区域进行实例分割，获得所述对应的实例候选区域的实例分割结果；和/或，

第二分割单元，用于基于各第一融合特征对所述图像进行实例分割，获得所述图像的实例分割结果。
根据权利要求27-41任一所述的装置，其特征在于，所述分割模块包括：

第一分割单元，用于分别基于各第一融合特征，对所述各第一融合特征各自对应的实例候选区域进行实例分割，获得各实例候选区域的实例分割结果；

获取单元，用于基于所述各实例候选区域的实例分割结果获取所述图像的实例分割结果。
根据权利要求42或43所述的装置，其特征在于，所述第一分割单元包括：

第一预测子单元，用于基于所述一第一融合特征，进行像素级别的实例类别预测，获得所述一第一融合特征对应的实例候选区的实例类别预测结果；

第二预测子单元，用于基于所述一第一融合特征进行像素级别的前背景预测，获得所述一第一融合特征对应的实例候选区域的前背景预测结果；

获取子单元，用于基于所述实例类别预测结果和所述前背景预测结果，获取所述一第一融合特征对应的实例物体候选区域的实例分割结果。
根据权利要求44所述的装置，其特征在于，所述第二预测子单元，用于基于所述一第一融合特征，预测所述一第一融合特征对应的实例候选区域中属于前景的像素和/或属于背景的像素。
根据权利要求45所述的装置，其特征在于，所述前景包括所有实例类别对应部分，所述背景包括：所述所有实例类别对应部分以外的部分；或者，

所述背景包括所有实例类别对应部分，所述前景包括：所述所有实例类别对应部分以外的部分。
根据权利要求44-46任一所述的装置，其特征在于，所述第一预测子单元包括：

第一卷积网络，用于对所述一第一融合特征进行特征提取；所述第一卷积网络包括至少一个全卷积层；

第一全卷积层，用于基于所述第一卷积网络输出的特征进行像素级别的物体类别预测。
根据权利要求44-47任一所述的装置，其特征在于，所述第二预测子单元包括：

第二卷积网络，用于对所述一第一融合特征进行特征提取；所述第二卷积网络包括至少一个全卷积层；

全连接层，用于基于所述第二卷积网络输出的特征进行像素级别的前背景预测。
根据权利要求44-48任一所述的装置，其特征在于，所述获取子单元，用于：将所述一第一融合特征对应的实例候选区域的物体类别预测结果与前背景预测结果进行像素级的相加处理，获得所述一第一融合特征对应的实例物体候选区域的实例分割结果。
根据权利要求49所述的装置，其特征在于，所述第一分割单元还包括：

转换子单元，用于将所述前背景预测结果转换为与所述实例类别预测结果的维度一致的前背景预测结果；

所述获取子单元，用于将所述一第一融合特征对应的实例候选区域的实例类别预测结果与转换得到的前背景预测结果进行像素级的相加处理。
根据权利要求27-50任一所述的装置，其特征在于，所述分割模块还包括：第三分割单元，用于基于所述第一融合特征对所述图像的至少部分区域进行语义分割，获得语义分割结果。
根据权利要求29-50任一所述的方法，其特征在于，所述分割模块还包括：第三分割单元，用于基于所述第二融合特征对所述图像的至少部分区域进行语义分割，获得语义分割结果。
一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现上述权利要求1-26任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现上述权利要求1-26任一项所述的方法。