WO2018188270A1

WO2018188270A1 - 一种图像语义分割方法及装置

Info

Publication number: WO2018188270A1
Application number: PCT/CN2017/102031
Authority: WO
Inventors: 戴恒晨; 王乃岩
Original assignee: 北京图森未来科技有限公司
Priority date: 2017-04-14
Filing date: 2017-09-18
Publication date: 2018-10-18
Also published as: US11875511B2; US20200020102A1; CN106886801B; US20220114731A1; US11205271B2; CN106886801A

Abstract

本发明公开了一种图像语义分割方法及装置，以解决现有技术中图像语义分割速度慢、效率低的问题。该方法包括：接收图像；对所述图像进行语义分割，得到初始语义分割结果；将包含初始语义分割结果的图像信息输入至预先训练得到的卷积神经网络中进行语义分割后处理，得到最终语义分割结果。本发明技术方案，通过卷积神经网络对初始语义分割结果进行后处理，能够提高图像语义分割的速度和效率。

Description

一种图像语义分割方法及装置

本申请要求在2017年4月14日提交中国专利局、申请号为201710247372.8、发明名称为“一种图像语义分割方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及计算机领域，特别涉及一种图像语义分割方法和一种图像语义分割装置。

背景技术

目前，在各种应用场景(例如物体识别、物体检测等)中需要对图像进行语义分割，图像语义分割的目的是对图像中的每个像素进行分类，即为每个像素打上类别标签。

由于像素之间的相关性较小，目前基于传统深度学习的图像语义分割方法对图像进行语义分割后得到的初始语义分割结果仍然存在不准确的问题，因此需要对初始语义分割结果做进一步的后处理，通过后处理将初始语义分割结果中的错误结果进行纠正。

目前，使用较为广泛的后处理方式为图模型，例如条件随机场模型(即CRF)、马尔可夫随机场模型等。

CRF是一种基于无向图的概率模型，用来对序列数据进行标记，具有很强的概率推理能力。假设每个像素i具有类别标签y_i和观测值x_i，将每个像素作为节点、像素与像素之间的关系作为边即可构成了如图1所示的一个条件随机场，通过观测像素i的变量y_i推测该像素i对应的类别标签x_i。

条件随机场符合吉布斯分布：

其中x为前述观测值，E(x|I)为能量函数。为简便，将该能量函数省略全局观测I即可得到：

其中，

为一元势函数，该一元势函数来自前端FCN的输出，ψ_p(x_i,y_i)为二元势函数，该二元势函数具体如下：

二元势函数用于描述像素与像素之间的关系，其将差异较小的像素分配相同的类别标签，差异较大的像素分配不同类别标签。评估两个像素之间的差异性通过“距离”表示，该“距离”与两个像素的颜色值和两个像素的实际相对距离有关。

通过CRF即可使得图像尽量在边界处分割，从而在一定程度上能够对初始语义分割结果中的错误结果进行纠正，以提高语义分割结果准确性。但是由于CRF需要考虑两两像素之间的相关性，计算量大，因此该种后处理方式速度慢、效率较低。

发明内容

鉴于上述问题，本发明提供一种图像语义分割方法及装置，以提高语义分割效率和准确性。

本发明实施例，一方面提供一种图像语义分割方法，该方法包括：

接收图像；

对所述图像进行语义分割，得到初始语义分割结果；

将包含初始语义分割结果的图像信息输入至预先训练得到的卷积神经网络中进行语义分割后处理，得到最终语义分割结果。

本发明实施例另一方面，提供一种图像语义分割装置，该装置包括：

接收单元，用于接收图像；

分割单元，用于对所述图像进行语义分割，得到初始语义分割结果；

后处理单元，用于将包含初始语义分割结果的图像信息输入至预先训练得到的卷积神经网络中进行语义分割后处理，得到最终语义分割结果。

本发明实施例另一方面，提供一种图像语义分割装置，该装置包括：一个处理器和至少一个存储器，存储器中存储有至少一条机器可执行指令，处理器执行至少一条指令以实现：接收图像；

对所述图像进行语义分割，得到初始语义分割结果；

本发明技术方案，在对接收到的图像进行语义分割得到初始语义分割结果之后，将包含初始语义分割结果的图像信息输入至卷积神经网络中进行语义分割后处理，得到最终语义分割结果。采用本发明提供的图像分割方案，由于卷积神经网络是预先训练得到，能够快速的根据包含初始语义分割结果的图像信息进行后处理，无需像现有技术的CRF方式需要计算图像中的各个像素间的相关性来进行后处理，提高了后处理速度和效率。本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。显而易见地，下面描述中的附图仅仅是本发明一些实施例，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为现有技术中条件随机场的示意图；

图2为本发明实施例中图像语义分割方法的流程图；

图3为本发明实施例中通过卷积神经网络进行语义分割后处理的方法流程图之一；

图4为本发明实施例中训练卷积神经网络的示意图之一；

图5为本发明实施例中训练卷积神经网络的示意图之二；

图6为本发明实施例中通过卷积神经网络进行语义分割后处理的方法流程图之二；

图7为本发明实施例中通过卷积神经网络进行语义分割后处理的示意图之一；

图8为本发明实施例中通过卷积神经网络进行语义分割后处理的方法流程图之三；

图9为本发明实施例中通过卷积神经网络进行语义分割后处理的示意图之二；

图10为本发明实施例中全局信息优化后处理卷积神经网络的结构示意图；

图11为本发明实施例中局部边缘优化后处理卷积神经网络的结构示意图；

图12为本发明实施例提供的图像语义分割装置的结构示意图；

图13为本发明实施例中后处理单元的结构示意图；

图14为本发明实施例提供的图像语义分割装置的另一个结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

以上是本发明的核心思想，为了使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明实施例中技术方案作进一步详细的说明。

参见图2，为本发明实施例提供的一种图像语义分割方法的方法流程图，该方法包括：

步骤201、接收图像。

步骤202、对所述图像进行语义分割，得到初始语义分割结果。

本发明实施例中，步骤202既可以通过预先训练好的神经网络(如全连接卷积神经网络)对接收到的图像进行语义分割，也可以通过图像分割算法对接收到的图像进行语义分割，本申请不做严格限定。

本发明实施例中，所述初始语义分割结果可以为所述图像包含的各像素所属的类别标签(后续用label表示)。

优选地，为降低信息失真率，保持信息的完整性，本发明实施例中输入给卷积神经网络的初始语义分割结果可以为置信图(即Confidence Map)而不是图像的各像素的label表示。例如，预先设定n个类别标签(如自行车、小车、三轮车、行人、路面、栅栏、路灯、树、交通灯等)，则初始语义分割结果为图像中每个像素分别属于前述n个类别标签的概率值。

步骤203、将包含初始语义分割结果的图像信息输入至预先训练得到的卷积神经网络中进行语义分割后处理，得到最终语义分割结果。

本发明技术方案，在对接收到的图像进行语义分割得到初始语义分割结果之后，将包含初始语义分割结果的图像信息输入至卷积神经网络中进行语义分割后处理，得到最终语义分割结果。采用本发明提供的图像分割方案，由于卷积神经网络是预先训练得到，能够快速的根据包含初始语义分割结果的图像信息进行后处理，无需像现有技术的CRF方式需要计算图像中的各个像素间的相关性来进行后处理，提高了后处理速度和效率。

本发明实施例一中，所述图像信息可以仅包括初始语义分割结果。优选地，为进一步提高卷积神经网络进行后处理的准确性，该图像信息包括初始语义分割结果和所述图像对应的描述所述图像的特征信息的至少一种模态，模态的种类可以包括以下一种或多种：可见图像模态(例如RGB模态、HSV(Hue,Saturation,Value)模态)、深度模态、CT(Computed Tomography，电子计算机断层扫描)模态、红外模态、毫米波模态和超声波模态。

在实际中属于同一类别标签的像素一般具有相同的特征信息，因此结合图像的模态来对语义分割结果中的错误结果进行纠正的准确性更高，因此，当图像信息中包含至少一种模态时，本方案还可进一步提高语义分割结果的准确性。

为进一步对本发明技术方案进行更为详细的描述，下面以几个具体实例进行详细的描述。

实施例一

在实施例一中，卷积神经网络仅包含一级卷积神经网络，则前述步骤203，具体可通过以下步骤A1～步骤A2实现：

步骤A1、将包含初始语义分割结果的图像信息输入至该一级卷积神经网络，得到修正语义分割结果；

步骤A2、根据所述修正语义分割结果得到最终语义分割结果。

本发明实施例一中，所述图像信息可以仅包含初始语义分割结果，也可以是包含初始语义分割结果和所述图像对应的至少一种模态。

本发明实施例一中，修正语义分割结果为通过卷积神经网络对初始语义分割结果中错误的结果进行纠正后得到的语义分割结果。若初始语义分割结果为图像中各像素的label，则该修正语义分割结果为所述图像的各像素的label；若初始语义分割结果为Confidence Map，则修正语义分割结果也为Confidence Map。

若本发明实施例中的修正语义分割结果也为置信图，前述步骤A2具体实现如下：针对图像的每一个像素，根据所述修正语义分割结果确定出该像素属于各类别标签的概率值的最大值，将概率值最大的类别标签作为该像素最终所属的类别标签。

若本发明实施例中的修正语义分割结果为图像的各像素的label，则前述步骤A2具体实现如下：将修正语义分割结果作为最终的语义分割结果。

实施例二

实施例二中，卷积神经网络仅包含一级卷积神经网络，为进一步提高卷积神经网络进行后处理的准确性，在该卷积神经网络进行多次的迭代优化，直到满足优化需求之后，根据最后一次迭代得到的修正语义分割结果确定最终的语义分割结果。前述步骤203的具体实现方式如图3所示的流程，该流程包括：

步骤301、将包含初始语义分割结果的图像信息输入至所述卷积神经网络中，得到修正语义分割结果；

步骤302、判断是否满足迭代条件，若满足则执行步骤303，若不满足则执行步骤304；

步骤303、将所述修正语义分割结果作为所述图像信息中的初始语义分割结果，重复前述步骤301，即此时步骤301中的初始语义分割结果为步骤301得到的修正语义分割结果；

步骤304、确定停止迭代，并根据所述修正语义分割结果得到最终的语义分割结果。

本发明实施例二中，修正语义分割结果为通过卷积神经网络对初始语义分割结果中错误的结果进行纠正后得到的语义分割结果。若初始语义分割结果为图像中各像素的label，则该修正语义分割结果为所述图像的各像素的label；若初始语义分割结果为Confidence Map，则修正语义分割结果也为Confidence Map。若本发明实施例中的修正语义分割结果也为置信图，前述步骤304具体实现为：针对图像的每一个像素，根据卷积神经网络最后一次迭代得到的修正语义分割结果确定出该像素属于各类别标签的概率值的最大值，将概率值最大的类别标签作为该像素最终所属的类别标签。

若本发明实施例中的修正语义分割结果为图像的各像素的label，则前述步骤304具体实现为：将卷积神经网络最后一次迭代得到的修正语义分割结果作为最终的语义分割结果。

本发明实施例一中，所述图像信息可以仅包含初始语义分割结果，也可以包含初始语义分割结果和所述图像对应的至少一种模态。

该实施例二中，迭代条件可以是迭代累积次数达到预置的次数阈值，也可以是卷积神经网络本次输出的修正语义分割结果与前一次输出的语义分割结果满足收敛条件，本申请并不做严格限定。前述步骤302中判断是否满足迭代条件，可通过但不仅限于以下两种方式实现：

方式1、判断迭代累积次数是否达到预置的次数阈值，若是则确定不满足迭代条件，若否则确定满足迭代条件；如通过计数器对迭代次数进行计数，每迭代一次累加1次。

方式2、根据所述卷积神经网络本次输出的修正语义分割结果与前一次输出的语义分割结果确定是否满足收敛条件，若是则确定不满足迭代条件，若否则确定满足迭代条件。

前述实施例一和实施例二中的卷积神经网络，可以预先通过大量的样本图像训练得到。以图像信息中仅包含初始语义分割结果为例，则预先对样本图像中的各个像素所属的类别标签进行标注，训练过程如图4所示。以图像信息中包含初始语义分割结果、至少一种模态为例，则预先对样本图像中的各个像素所述的类别标签进行标注，并且确定所述样本图像对应的各个模态取值，训练过程如图5所示。

实施例三

为进一步提高卷积神经网络后处理的准确性，本发明实施例三中，卷积神经网络由至少两级子卷积神经网络构成，各级子卷积神经网络的结构可以相同也可以不相同。优选地，当图像信息中仅包含初始语义分割结果时，各级子卷积神经网络的结构不相同。优选地，当图像信息中包含初始语义分割结果和至少一种模态时，各级子卷积神经网络的结构可以相同也可以不相同，且各级子卷积神经网络对应的模态可以相同也可以不相同，本申请不做严格的限定，本领域技术人员可以根据实际的需求灵活的设置各级子卷积神经网络，使得各级子卷积神经网络优化的方向不同，以实现对初始语义分割结果进行全方面的优化。更优地，当各级子卷积神经网络结构相同时，各级子卷积神经网络对应的模态项部分相同或完全不同；当各级子卷积神经网络结构不相同时，各级子卷积神经网络对应的其他模态项设置为完全相同、部分相同或完全不同。

当所述图像信息中仅包含初始语义分割结果时，前述步骤203具体可通过以下步骤B1～步骤B2实现，其中：

步骤B1、按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果输入至本级子卷积神经网络，得到修正语义分割结果，将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果。

需要说明的是，本发明实施例中，输入给第一级子卷积神经网络的初始语义分割结果为前述步骤202得到的初始语义分割结果；其他级子卷积神经网络的初始语义分割结果为其前一级子卷积神经网络输出的修正语义分割结果。

步骤B2、根据最后一级子卷积神经网络输出的修正语义分割结果，确定最终语义分割结果。

当所述图像信息中包含初始语义分割结果和至少一种模态时，前述步骤203具体可通过以下步骤C1～步骤C2实现，其中：

步骤C1、按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果、所述模态中与本级子卷积神经网络对应的模态输入至本级子卷积神经网络，得到修正语义分割结果，将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果。

步骤C2、根据最后一级子卷积神经网络输出的修正语义分割结果，确定最终语义分割结果。

更为详细的可通过图6所示的方法流程实现前述步骤C1～步骤C2，该方法流程包括：

步骤601、将初始语义分割结果、所述模态中与本级子卷积神经网络对应的模态输入至本级子卷积神经网络，得到修正语义分割结果；

步骤602、判断本级子卷积神经网络是否为最后一级子卷积神经网络，若否则执行步骤603，若是则执行步骤604；

步骤603、将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果，并将下一级子卷积神经网络作为本级子卷积神经网络，并执行步骤601；

步骤604、根据本级子卷积神经网络的修正语义分割结果，得到最终的语义分割结果。

本发明实施例三中，修正语义分割结果为通过子卷积神经网络对输入该自卷积神经网络的初始语义分割结果中错误的结果进行纠正后得到的语义分割结果。若初始语义分割结果为图像中各像素的label，则该修正语义分割结果为所述图像的各像素的label；若初始语义分割结果为Confidence Map，则修正语义分割结果也为Confidence Map。

若本发明实施例三中的修正语义分割结果也为置信图，前述步骤B2、步骤C2具体实现为：针对图像的每一个像素，根据最后一级子卷积神经网络输出的修正语义分割结果确定出该像素属于各类别标签的概率值的最大值，将概率值最大的类别标签作为该像素最终所属的类别标签。

若本发明实施例中的修正语义分割结果为图像的各像素的label，则前述步骤B2、步骤C2具体实现为：将最后一级子卷积神经网络的修正语义分割结果作为最终的语义分割结果。

该实例三中，各级子卷积神经网络可预先独立训练得到。以图像信息中仅包含初始语义分割结果为例，则对各子卷积神经网络的训练方式参见图4所示的方式。以图像信息中包含初始语义分割结果和至少一种模态为例，则对各子卷积神经网络的训练方式参见图5所示的方式，且用于训练各子卷积神经网络的训练样本图像的模态分别与相应子卷积神经网络对应。例如，所述卷积神经网络包括第一级子卷积神经网络和第二级子卷积神经网络，第一级子卷积神经网络对应的模态为深度模态和RGB模态，第二级子卷积神经网络对应的模态为RGB模态和CT模态，则在训练第一级子卷积神经网络时，训练数据为样本图像的初始语义分割结果、RGB模态和深度模态，训练第二级子卷积神经网络的训练数据为样本图像的初始语义分割结果、RGB模态和CT模态。

优选地，由于可见图像模态是像素最为重要的特征信息，因此，前述各级子卷积神经网络对应的模态中均包含可见图像模态。以各级子卷积神经网络对应的模态中均包含RGB模态为例，通过包含至少两级的子卷积神经网络进行后处理的过程可如图7所示。

实施例四

为进一步提高卷积神经网络后处理的准确性，本发明实施例四中，卷积神经网络由至少两级子卷积神经网络构成，各级子卷积神经网络的结构可以相同也可以不相同。优选地，当图像信息中仅包含初始语义分割结果时，各级子卷积神经网络的结构不相同。优选地，当图像信息中包含初始语义分割结果和至少一种模态时，各级子卷积神经网络的结构可以相同也可以不相同，且各级子卷积神经网络对应的模态可以相同也可以不相同，本申请不做严格的限定，本领域技术人员可以根据实际的需求灵活的设置各级子卷积神经网络，使得各级子卷积神经网络优化的方向不同，以实现对初始语义分割结果进行全方面的优化。更优地，当各级子卷积神经网络结构相同时，各级子卷积神经网络对应的模态项部分相同或完全不同；当各级子卷积神经网络结构不相同时，各级子卷积神经网络对应的其他模态项设置为完全相同、部分相同或完全不同。

与实施例三相比，本实施例四在每一级子卷积神经网络均进行至少一次迭代之后才将该级子卷积神经网络最后一次迭代得到的修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果输出，各级子卷积神经网络的迭代次数可以相同也可以不相同，本领域技术人员可根据实际需求灵活设置，本申请不做严格的限定。

当图像信息中仅包含初始语义分割结果时，前述步骤203具体可通过以下的步骤D1～步骤D2实现，其中：

步骤D1、按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果输入至本级子卷积神经网络，得到修正语义分割结果；判断是否满足迭代条件；若不满足，则确定停止迭代并将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果；若满足，则将该修正语义分割结果作为本级子卷积神经网络的初始语义分割结果，并重复前述将初始语义分割结果输入至本级子卷积神经网络的步骤；

步骤D2、根据最后一级子卷积神经网络输出的修正语义分割结果，确定最终语义分割结果。

当图像信息中包含初始语义分割结果和至少一种模态时，前述步骤203具体可通过以下的步骤E1～步骤E2实现，其中：

步骤E1、按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果、所述模态中与本级子卷积神经网络对应的模态输入至本级子卷积神经网络，得到修正语义分割结果；判断是否满足迭代条件；若不满足，则确定停止迭代并将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果；若满足，则将该修正语义分割结果作为本级子卷积神经网络的初始语义分割结果，并重复前述将初始语义分割结果、所述模态中与本级子卷积神经网络对应的模态输入至本级子卷积神经网络的步骤；

步骤E2、根据最后一级子卷积神经网络输出的修正语义分割结果，确定最终语义分割结果。

更为详细的可通过图8所示的方法流程实现前述步骤E1～步骤E2，该方法流程包括：

步骤801、将初始语义分割结果、所述模态中与本级子卷积神经网络对应的模态输入至本级子卷积神经网络，得到修正语义分割结果；

步骤802、判断是否满足迭代条件，若不满足则执行步骤803，若满足则执行步骤804；

本发明实施例中，通过计数器来对本级子卷积神经网络进行迭代的次数进行计数，每迭代一次累加1；当本级子卷积神经网络迭代结束后，该计数器被清零。

步骤803、判断本级子卷积神经网络是否为最后一级子卷积神经网络，若是则执行步骤806，若否则执行步骤805；

步骤804、将该修正语义分割结果作为本级子卷积神经网络的初始语义分割结果，并重复前述步骤801；

步骤805、确定停止迭代并将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果，将所述下一级子卷积神经网络作为本级子卷积神经网络，并执行步骤801；

步骤806、根据本级子卷积神经网络的修正语义分割结果得到最终的语义分割结果。

本发明实施例四中，修正语义分割结果为通过子卷积神经网络对输入该子卷积神经网络的初始语义分割结果中错误的结果进行纠正后得到的语义分割结果。若初始语义分割结果为图像中各像素的label，则该修正语义分割结果为所述图像的各像素的label；若初始语义分割结果为Confidence Map，则修正语义分割结果也为Confidence Map。

若本发明实施例四中的修正语义分割结果也为置信图，前述步骤D2、步骤E2具体实现为：针对图像的每一个像素，根据最后一级子卷积神经网络最后一次迭代得到的修正语义分割结果确定出各像素属于各类别标签的概率值的最大值，将概率值最大的类别标签作为该像素最终所属的类别标签。

若本发明实施例中的修正语义分割结果为图像的各像素的label，则前述步骤D2、步骤E2具体实现为：将最后一级子卷积神经网络最后一次迭代得到的修正语义分割结果作为最终的语义分割结果。

该实施例四中，迭代条件可以是迭代累积次数达到预置的次数阈值，也可以是本级子卷积神经网络本次输出的修正语义分割结果与前一次输出的语义分割结果满足收敛条件，本申请并不做严格限定。前述步骤D1、步骤E1中判断是否满足迭代条件，可通过但不仅限于以下两种方式实现：

方式1、判断迭代累积次数是否达到预置的次数阈值，若是则确定不满足迭代条件，若否则确定满足迭代条件；如通过计数器对迭代次数进行计数，每迭代一次累加1次，该计数器在本级子卷积神经网络结束迭代是被清零；

方式2、根据本级子卷积神经网络本次输出的修正语义分割结果与前一次输出的语义分割结果确定是否满足收敛条件，若是则确定不满足迭代条件，若否则确定满足迭代条件。

该实例四中，各级子卷积神经网络预先独立训练得到。以图像信息中仅包含初始语义分割结果为例，则对各子卷积神经网络的训练方式参见图4所示的方式。以图像信息中包含初始语义分割结果和至少一种模态为例，对各子卷积神经网络的训练方式参见图5所示的方式，用于训练各子卷积神经网络的训练样本图像的模态分别与相应子卷积神经网络对应，例如，所述卷积神经网络包括第一级子卷积神经网络和第二级子卷积神经网络，第一级子卷积神经网络对应的模态为深度模态和RGB模态，第二级子卷积神经网络对应的模态为RGB模态和CT模态，则在训练第一级子卷积神经网络时，训练数据为样本图像的初始语义分割结果、RGB模态和深度模态，训练第二级子卷积神经网络的训练数据为样本图像的初始语义分割结果、RGB模态和CT模态。

优选地，由于可见图像模态是像素最为重要的特征信息，因此，前述各级子卷积神经网络对应的模态中均包含可见图像模态。以各级子卷积神经网络对应的模态均包含RGB模态为例，通过包含至少两级的子卷积神经网络进行后处理的过程可如图9所示。

优选地，本发明实施例三和实施例四中，前述卷积神经网络由两级子卷积神经网络构成，其中第一级子卷积神经网络为全局信息优化后处理卷积神经网络，第二级子卷积神经网络为局部边缘优化后处理卷积神经网络。

所述全局信息优化后处理卷积神经网络的结构可如图10所示，通过快速的下次采样得到全局信息，再通过上采样结合全局信息和low-level信息纠正错误结果。局部边缘优化后处理卷积神经网络的结构可如图11所示。

基于前述图像语义分割方法相同的构思，本发明实施例提供一种图像语义分割装置，该装置的结构如图12所示，包括：

接收单元11，用于接收图像；

分割单元12，用于对所述图像进行语义分割，得到初始语义分割结果；

后处理单元13，用于将包含初始语义分割结果的图像信息输入至预先训练得到的卷积神经网络中进行语义分割后处理，得到最终语义分割结果。

所述图像信息可以仅包含初始语义分割结果，也可以包含初始语义分割结果和所述图像对应的描述所述图像的特征信息的至少一种模态。

在一个具体实例中，所述后处理单元13的结构示意图如图13所示，具体包括：

修正子单元131，用于将图像信息输入至所述卷积神经网络中，得到修正语义分割结果；

判断子单元132，用于判断是否满足迭代条件，若满足则触发第一处理子单元133，若不满足则触发第二处理子单元134；

第一处理子单元133，用于将所述修正语义分割结果作为初始语义分割结果，并触发所述修正子单元131；

第二处理子单元134，用于确定停止迭代，并根据所述修正语义分割结果得到最终的语义分割结果。

优选地，所述判断子单元132具体用于：

判断迭代累积次数是否达到预置的次数阈值，若是则确定不满足迭代条件，若否则确定满足迭代条件；或者，根据所述卷积神经网络本次输出的修正语义分割结果与前一次输出的语义分割结果确定是否满足收敛条件，若是则确定不满足迭代条件，若否则确定满足迭代条件。

在另一个实例中，所述卷积神经网络由至少两级子卷积神经网络构成，所述后处理单元93的结构可包括第三处理子单元和第四处理子单元，其中：

第三处理子单元，用于按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果输入至本级子卷积神经网络，得到修正语义分割结果，将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果；

第四处理子单元，用于根据最后一级子卷积神经网络输出的修正语义分割结果，确定最终语义分割结果。

在另一个实例中，所述卷积神经网络由至少两级子卷积神经网络构成，所述后处理单元93的结构可包括第五处理子单元和第六处理子单元，其中：

第五处理子单元，用于按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果输入至本级子卷积神经网络中，得到修正语义分割结果；判断是否满足迭代条件；若不满足，则确定停止迭代并将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果；若满足，则将该修正语义分割结果作为本级子卷积神经网络的初始语义分割结果，并重复前述将初始语义分割结果输入至本级子卷积神经网络中的步骤；

第六处理子单元，用于根据最后一级子卷积神经网络输出的修正语义分割结果，确定最终语义分割结果。

在另一个实例中，所述卷积神经网络由至少两级子卷积神经网络构成，所述后处理单元93具体包括第七处理子单元和第八处理子单元，其中：

第七处理子单元，用于按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果、所述模态中与本级子卷积神经网络对应的模态输入至本级子卷积神经网络，得到修正语义分割结果，将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果；

第八处理子单元，用于根据最后一级子卷积神经网络输出的修正语义分割结果，确定最终语义分割结果。

在最后一个实例中，所述卷积神经网络由至少两级子卷积神经网络构成，所述后处理单元93具体包括第九处理子单元和第十处理子单元，其中：

第九处理子单元，用于按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果、所述模态中与本级子卷积神经网络对应的模态输入至本级子卷积神经网络中，得到修正语义分割结果；判断是否满足迭代条件；若不满足，则确定停止迭代并将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果；若满足，则将该修正语义分割结果作为本级子卷积神经网络的初始语义分割结果，并重复前述将初始语义分割结果、所述模态中与本级子卷积神经网络对应的模态输入至本级子卷积神经网络中的步骤；

第十处理子单元，用于根据最后一级子卷积神经网络输出的修正语义分割结果，确定最终语义分割结果。

优选地，所述卷积神经网络由两级子卷积神经网络构成，第一级子卷积神经网络为全局信息优化后处理卷积神经网络，第二级子卷积神经网络为局部边缘优化后处理卷积神经网络。

优选地，所述初始语义分割结果为置信图(即Confidence Map)，或者所述初始语义分割结果为所述图像中的各像素所属的label。

优选地，所述其他模态的种类包括以下一种或多种：可见图像模态(例如RGB模态、HSV模态)、深度模态、电子计算机断层扫描CT模态、红外模态、毫米波模态和超声波模态。

采用本发明提供的图像分割方案，一方面，由于卷积神经网络是预先训练得到，能够快速的根据包含初始语义分割结果的图像信息进行后处理，无需像现有技术的CRF方式需要计算图像中的各个像素间的相关性来进行后处理，提高了后处理速度和效率；另一方面，输入给卷积神经网络的数据不仅仅包括初始语义分割结果还包括表示图像中各个像素的特征信息的至少一种模态(如深度模态、RGB模态等)，在实际中属于同一类别标签的像素一般具有相同的特征信息，因此结合图像的模态来对语义分割结果中的错误结果进行纠正的准确性更高，因此，当图像信息中包含至少一种模态时，本方案还可进一步提高语义分割结果的准确性。

基于前述图像语义分割方法相同的构思，本发明实施例提供一种图像语义分割装置，该装置的结构如图14所示，包括：一个处理器1401和至少一个存储器1402，所述至少一个存储器1402存储有至少一条机器可执行指令，所述处理器1401执行所述至少一条指令以实现：接收图像；对所述图像进行语义分割，得到初始语义分割结果；将包含初始语义分割结果的图像信息输入至预先训练得到的卷积神经网络中进行语义分割后处理，得到最终语义分割结果。

在一个实施例中，所述图像信息还包含所述图像对应的描述所述图像的特征信息的至少一种模态。

在一个实施例中，所述处理器1401执行所述至少一条指令实现将包含初始语义分割结果的图像信息输入至预先训练得到的卷积神经网络中进行语义分割后处理，得到最终语义分割结果，具体包括：将图像信息输入至所述卷积神经网络中，得到修正语义分割结果；判断是否满足迭代条件；若满足，则将所述修正语义分割结果作为所述图像信息中的初始语义分割结果，并重复前述将图像信息输入至所述卷积神经网络中的步骤；若不满足，则确定停止迭代，并根据所述修正语义分割结果得到最终的语义分割结果。

在一个实施例中，所述卷积神经网络由至少两级子卷积神经网络构成；则，所述处理器1401执行所述至少一条指令实现将包含初始语义分割结果的图像信息输入至预先训练得到的卷积神经网络中进行语义分割后处理，得到最终语义分割结果，具体包括：按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果输入至本级子卷积神经网络，得到修正语义分割结果，将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果；根据最后一级子卷积神经网络输出的修正语义分割结果，确定最终语义分割结果。

在一个实施例中，所述卷积神经网络由至少两级子卷积神经网络构成；则，所述处理器1401执行所述至少一条指令实现将包含初始语义分割结果的图像信息输入至预先训练得到的卷积神经网络中进行语义分割后处理，得到最终语义分割结果，具体包括：按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果输入至本级子卷积神经网络中，得到修正语义分割结果；判断是否满足迭代条件；若不满足，则确定停止迭代并将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果；若满足，则将该修正语义分割结果作为本级子卷积神经网络的初始语义分割结果，并重复前述将初始语义分割结果输入至本级子卷积神经网络中的步骤；根据最后一级子卷积神经网络输出的修正语义分割结果，确定最终语义分割结果。

在一个实施例中，所述卷积神经网络由至少两级子卷积神经网络构成；则，所述处理器1401执行所述至少一条指令实现将包含初始语义分割结果的图像信息输入至预先训练得到的卷积神经网络中进行语义分割后处理，得到最终语义分割结果，具体包括：按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果、所述模态中与本级子卷积神经网络对应的模态输入至本级子卷积神经网络，得到修正语义分割结果，将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果；根据最后一级子卷积神经网络输出的修正语义分割结果，确定最终语义分割结果。

在一个实施例中，所述卷积神经网络由至少两级子卷积神经网络构成；则，所述处理器1401执行所述至少一条指令实现将包含初始语义分割结果的图像信息输入至预先训练得到的卷积神经网络中进行语义分割后处理，得到最终语义分割结果，具体包括：按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果、所述模态中与本级子卷积神经网络对应的模态输入至本级子卷积神经网络中，得到修正语义分割结果；判断是否满足迭代条件；若不满足，则确定停止迭代并将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果；若满足，则将该修正语义分割结果作为本级子卷积神经网络的初始语义分割结果，并重复前述将初始语义分割结果、所述模态中与本级子卷积神经网络对应的模态输入至本级子卷积神经网络中的步骤；根据最后一级子卷积神经网络输出的修正语义分割结果，确定最终语义分割结果。

在一个实施例中，所述卷积神经网络由两级子卷积神经网络构成，第一级子卷积神经网络为全局信息优化后处理卷积神经网络，第二级子卷积神经网络为局部边缘优化后处理卷积神经网络。

在一个实施例中，所述处理器1401执行所述至少一条指令实现判断是否满足迭代条件，具体包括：判断迭代累积次数是否达到预置的次数阈值，若是则确定不满足迭代条件，若否则确定满足迭代条件；或者，根据本级子卷积神经网络本次输出的修正语义分割结果与前一次输出的语义分割结果确定是否满足收敛条件，若是则确定不满足迭代条件，若否则确定满足迭代条件。

在上述多个实施例中，初始语义分割结果为置信图，或者初始语义分割结果为所述图像中各像素所属的类别标签。

在上述多个实施例中，所述图像对应的模态种类包括以下一种或多种：可见图像模态、深度模态、电子计算机断层扫描CT模态、红外模态、毫米波模态和超声波模态。

基于与前述方法相同的构思，本发明实施例还提供一种存储介质(该存储介质可以是非易失性机器可读存储介质)，该存储介质中存储有用于图像语义分割的计算机程序，该计算机程序具有被配置用于执行以下步骤的代码段：接收图像；对所述图像进行语义分割，得到初始语义分割结果；将包含初始语义分割结果的图像信息输入至预先训练得到的卷积神经网络中进行语义分割后处理，得到最终语义分割结果。

基于与前述方法相同的构思，本发明实施例还提供一种计算机程序，该计算机程序具有被配置用于执行以下图像语义分割的代码段：接收图像；对所述图像进行语义分割，得到初始语义分割结果；将包含初始语义分割结果的图像信息输入至预先训练得到的卷积神经网络中进行语义分割后处理，得到最终语义分割结果。

综上所述，根据本发明技术方案，在对接收到的图像进行语义分割得到初始语义分割结果之后，将包含初始语义分割结果的图像信息输入至卷积神经网络中进行语义分割后处理，得到最终语义分割结果。采用本发明提供的图像分割方案，由于卷积神经网络是预先训练得到，能够快速的根据包含初始语义分割结果的图像信息进行后处理，无需像现有技术的CRF方式需要计算图像中的各个像素间的相关性来进行后处理，提高了后处理速度和效率。本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，对本领域普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中，以硬件固件、软件或者他们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用它们的基本编程技能就能实现的。

本领域普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的上述实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括上述实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

一种图像语义分割方法，其特征在于，包括：

接收图像；

对所述图像进行语义分割，得到初始语义分割结果；

将包含初始语义分割结果的图像信息输入至预先训练得到的卷积神经网络中进行语义分割后处理，得到最终语义分割结果。
根据权利要求1所述的方法，其特征在于，所述图像信息还包含所述图像对应的描述所述图像的特征信息的至少一种模态。
根据权利要求1或2所述的方法，其特征在于，将包含初始语义分割结果的图像信息输入至预先训练得到的卷积神经网络中进行语义分割后处理，得到最终语义分割结果，具体包括：

将图像信息输入至所述卷积神经网络中，得到修正语义分割结果；

判断是否满足迭代条件；

若满足，则将所述修正语义分割结果作为所述图像信息中的初始语义分割结果，并重复前述将图像信息输入至所述卷积神经网络中的步骤；

若不满足，则确定停止迭代，并根据所述修正语义分割结果得到最终的语义分割结果。
根据权利要求1所述的方法，其特征在于，所述卷积神经网络由至少两级子卷积神经网络构成；

将包含初始语义分割结果的图像信息输入至预先训练得到的卷积神经网络中进行语义分割后处理，得到最终语义分割结果，具体包括：

按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果输入至本级子卷积神经网络，得到修正语义分割结果，将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果；

根据最后一级子卷积神经网络输出的修正语义分割结果，确定最终语义分割结果。
根据权利要求1所述的方法，其特征在于，所述卷积神经网络由至少两级子卷积神经网络构成；

将包含初始语义分割结果的图像信息输入至预先训练得到的卷积神经网络中进行语义分割后处理，得到最终语义分割结果，具体包括：

按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果输入至本级子卷积神经网络中，得到修正语义分割结果；判断是否满足迭代条件；若不满足，则确定停止迭代并将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果；若满足，则将该修正语义分割结果作为本级子卷积神经网络的初始语义分割结果，并重复前述将初始语义分割结果输入至本级子卷积神经网络中的步骤；

根据最后一级子卷积神经网络输出的修正语义分割结果，确定最终语义分割结果。
根据权利要求2所述的方法，其特征在于，所述卷积神经网络由至少两级子卷积神经网络构成；

将包含初始语义分割结果的图像信息输入至预先训练得到的卷积神经网络中进行语义分割后处理，得到最终语义分割结果，具体包括：

按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果、所述模态中与本级子卷积神经网络对应的模态输入至本级子卷积神经网络，得到修正语义分割结果，将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果；

根据最后一级子卷积神经网络输出的修正语义分割结果，确定最终语义分割结果。
根据权利要求2所述的方法，其特征在于，所述卷积神经网络由至少两级子卷积神经网络构成；

将包含初始语义分割结果的图像信息输入至预先训练得到的卷积神经网络中进行语义分割后处理，得到最终语义分割结果，具体包括：

按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果、所述模态中与本级子卷积神经网络对应的模态输入至本级子卷积神经网络中，得到修正语义分割结果；判断是否满足迭代条件；若不满足，则确定停止迭代并将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果；若满足，则将该修正语义分割结果作为本级子卷积神经网络的初始语义分割结果，并重复前述将初始语义分割结果、所述模态中与本级子卷积神经网络对应的模态输入至本级子卷积神经网络中的步骤；

根据最后一级子卷积神经网络输出的修正语义分割结果，确定最终语义分割结果。
根据权利要求1～7任一项所述的方法，其特征在于，所述卷积神经网络由两级子卷积神经网络构成，第一级子卷积神经网络为全局信息优化后处理卷积神经网络，第二级子卷积神经网络为局部边缘优化后处理卷积神经网络。
根据权利要求5或7所述的方法，其特征在于，判断是否满足迭代条件，具体包括：

判断迭代累积次数是否达到预置的次数阈值，若是则确定不满足迭代条件，若否则确定满足迭代条件；

或者，

根据本级子卷积神经网络本次输出的修正语义分割结果与前一次输出的语义分割结果确定是否满足收敛条件，若是则确定不满足迭代条件，若否则确定满足迭代条件。
根据权利要求1～7任一项所述的方法，其特征在于，初始语义分割结果为置信图，或者初始语义分割结果为所述图像中各像素所属的类别标签。
根据权利要求2、6、7任一项所述的方法，其特征在于，所述图像对应的模态种类包括以下一种或多种：可见图像模态、深度模态、电子计算机断层扫描CT模态、红外模态、毫米波模态和超声波模态。
一种图像语义分割装置，其特征在于，包括：

接收单元，用于接收图像；

分割单元，用于对所述图像进行语义分割，得到初始语义分割结果；

后处理单元，用于将包含初始语义分割结果的图像信息输入至预先训练得到的卷积神经网络中进行语义分割后处理，得到最终语义分割结果。
根据权利要求12所述的装置，其特征在于，所述图像信息还包含所述图像对应的描述所述图像的特征信息的至少一种模态。
根据权利要求12或13所述的装置，其特征在于，所述后处理单元具体包括：

修正子单元，用于将图像信息输入至所述卷积神经网络中，得到修正语义分割结果；

判断子单元，用于判断是否满足迭代条件，若满足则触发第一处理子单元，若不满足则触发第二处理子单元；

第一处理子单元，用于将所述修正语义分割结果作为所述图像信息中的初始语义分割结果，并触发所述修正子单元；

第二处理子单元，用于确定停止迭代，并根据所述修正语义分割结果得到最终的语义分割结果。
根据权利要求12所述的装置，其特征在于，所述卷积神经网络由至少两级子卷积神经网络构成，所述后处理单元具体包括：

第三处理子单元，用于按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果输入至本级子卷积神经网络，得到修正语义分割结果，将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果；

第四处理子单元，用于根据最后一级子卷积神经网络输出的修正语义分割结果，确定最终语义分割结果。
根据权利要求12所述的装置，其特征在于，所述卷积神经网络由至少两级子卷积神经网络构成，所述后处理单元具体包括：

第五处理子单元，用于按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果输入至本级子卷积神经网络中，得到修正语义分割结果；判断是否满足迭代条件；若不满足，则确定停止迭代并将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果；若满足，则将该修正语义分割结果作为本级子卷积神经网络的初始语义分割结果，并重复前述将初始语义分割结果输入至本级子卷积神经网络中的步骤；

第六处理子单元，用于根据最后一级子卷积神经网络输出的修正语义分割结果，确定最终语义分割结果。
根据权利要求13所述的装置，其特征在于，所述卷积神经网络由至少两级子卷积神经网络构成，所述后处理单元具体包括：

第七处理子单元，用于按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果、所述模态中与本级子卷积神经网络对应的模态输入至本级子卷积神经网络，得到修正语义分割结果，将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果；

第八处理子单元，用于根据最后一级子卷积神经网络输出的修正语义分割结果，确定最终语义分割结果。
根据权利要求13所述的装置，其特征在于，所述卷积神经网络由至少两级子卷积神经网络构成，所述后处理单元具体包括：

第九处理子单元，用于按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果、所述模态中与本级子卷积神经网络对应的模态输入至本级子卷积神经网络中，得到修正语义分割结果；判断是否满足迭代条件；若不满足，则确定停止迭代并将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果；若满足，则将该修正语义分割结果作为本级子卷积神经网络的初始语义分割结果，并重复前述将初始语义分割结果、所述模态中与本级子卷积神经网络对应的模态输入至本级子卷积神经网络中的步骤；

第十处理子单元，用于根据最后一级子卷积神经网络输出的修正语义分割结果，确定最终语义分割结果。
根据权利要求12～18任一项所述的装置，其特征在于，所述卷积神经网络由两级子卷积神经网络构成，第一级子卷积神经网络为全局信息优化后处理卷积神经网络，第二级子卷积神经网络为局部边缘优化后处理卷积神经网络。
根据权利要求14所述的装置，其特征在于，所述判断子单元具体用于：

判断迭代累积次数是否达到预置的次数阈值，若是则确定不满足迭代条件，若否则确定满足迭代条件；

或者，

根据所述卷积神经网络本次输出的修正语义分割结果与前一次输出的语义分割结果确定是否满足收敛条件，若是则确定不满足迭代条件，若否则确定满足迭代条件。
根据权利要求12～18任一项所述的装置，其特征在于，所述初始语义分割结果为置信图，或者初始语义分割结果为所述图像中各像素所属的类别标签。
根据权利要求13、17、18任一项所述的方法，其特征在于，所述图像对应的模态种类包括以下一种或多种：可见图像模态、深度模态、电子计算机断层扫描CT模态、红外模态、毫米波模态和超声波模态。
一种图像语义分割装置，其特征在于，包括：一个处理器和至少一个存储器，所述至少一个存储器存储有至少一条机器可执行指令，所述处理器执行所述至少一条指令以实现：

接收图像；

对所述图像进行语义分割，得到初始语义分割结果；

将包含初始语义分割结果的图像信息输入至预先训练得到的卷积神经网络中进行语义分割后处理，得到最终语义分割结果。
根据权利要求23所述的装置，其特征在于，所述图像信息还包含所述图像对应的描述所述图像的特征信息的至少一种模态。
根据权利要求23或24所述的装置，其特征在于，所述处理器执行所述至少一条指令实现将包含初始语义分割结果的图像信息输入至预先训练得到的卷积神经网络中进行语义分割后处理，得到最终语义分割结果，具体包括：

将图像信息输入至所述卷积神经网络中，得到修正语义分割结果；

判断是否满足迭代条件；

若满足，则将所述修正语义分割结果作为所述图像信息中的初始语义分割结果，并重复前述将图像信息输入至所述卷积神经网络中的步骤；

若不满足，则确定停止迭代，并根据所述修正语义分割结果得到最终的语义分割结果。
根据权利要求23所述的装置，其特征在于，所述卷积神经网络由至少两级子卷积神经网络构成；则，

所述处理器执行所述至少一条指令实现将包含初始语义分割结果的图像信息输入至预先训练得到的卷积神经网络中进行语义分割后处理，得到最终语义分割结果，具体包括：

按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果输入至本级子卷积神经网络，得到修正语义分割结果，将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果；

根据最后一级子卷积神经网络输出的修正语义分割结果，确定最终语义分割结果。
根据权利要求23所述的装置，其特征在于，所述卷积神经网络由至少两级子卷积神经网络构成；则，

所述处理器执行所述至少一条指令实现将包含初始语义分割结果的图像信息输入至预先训练得到的卷积神经网络中进行语义分割后处理，得到最终语义分割结果，具体包括：

按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果输入至本级子卷积神经网络中，得到修正语义分割结果；判断是否满足迭代条件；若不满足，则确定停止迭代并将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果；若满足，则将该修正语义分割结果作为本级子卷积神经网络的初始语义分割结果，并重复前述将初始语义分割结果输入至本级子卷积神经网络中的步骤；

根据最后一级子卷积神经网络输出的修正语义分割结果，确定最终语义分割结果。
根据权利要求24所述的装置，其特征在于，所述卷积神经网络由至少两级子卷积神经网络构成；则，

所述处理器执行所述至少一条指令实现将包含初始语义分割结果的图像信息输入至预先训练得到的卷积神经网络中进行语义分割后处理，得到最终语义分割结果，具体包括：

按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果、所述模态中与本级子卷积神经网络对应的模态输入至本级子卷积神经网络，得到修正语义分割结果，将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果；

根据最后一级子卷积神经网络输出的修正语义分割结果，确定最终语义分割结果。
根据权利要求24所述的装置，其特征在于，所述卷积神经网络由至少两级子卷积神经网络构成；则，

所述处理器执行所述至少一条指令实现将包含初始语义分割结果的图像信息输入至预先训练得到的卷积神经网络中进行语义分割后处理，得到最终语义分割结果，具体包括：

按照级联顺序，依次对每一级子卷积神经网络，执行以下步骤：将初始语义分割结果、所述模态中与本级子卷积神经网络对应的模态输入至本级子卷积神经网络中，得到修正语义分割结果；判断是否满足迭代条件；若不满足，则确定停止迭代并将该修正语义分割结果作为下一级子卷积神经网络的初始语义分割结果；若满足，则将该修正语义分割结果作为本级子卷积神经网络的初始语义分割结果，并重复前述将初始语义分割结果、所述模态中与本级子卷积神经网络对应的模态输入至本级子卷积神经网络中的步骤；

根据最后一级子卷积神经网络输出的修正语义分割结果，确定最终语义分割结果。
根据权利要求23～29任一项所述的装置，其特征在于，所述卷积神经网络由两级子卷积神经网络构成，第一级子卷积神经网络为全局信息优化后处理卷积神经网络，第二级子卷积神经网络为局部边缘优化后处理卷积神经网络。
根据权利要求27或29所述的装置，其特征在于，所述处理器执行所述至少一条指令实现判断是否满足迭代条件，具体包括：

判断迭代累积次数是否达到预置的次数阈值，若是则确定不满足迭代条件，若否则确定满足迭代条件；

或者，

根据本级子卷积神经网络本次输出的修正语义分割结果与前一次输出的语义分割结果确定是否满足收敛条件，若是则确定不满足迭代条件，若否则确定满足迭代条件。
根据权利要求23～29任一项所述的装置，其特征在于，初始语义分割结果为置信图，或者初始语义分割结果为所述图像中各像素所属的类别标签。
根据权利要求24、28、29任一项所述的装置，其特征在于，所述图像对应的模态种类包括以下一种或多种：可见图像模态、深度模态、电子计算机断层扫描CT模态、红外模态、毫米波模态和超声波模态。