WO2021164429A1

WO2021164429A1 - 图像处理方法、图像处理装置及设备

Info

Publication number: WO2021164429A1
Application number: PCT/CN2020/140781
Authority: WO
Inventors: 卢运华; 刘瀚文; 那彦波; 张丽杰; 朱丹
Original assignee: 京东方科技集团股份有限公司
Priority date: 2020-02-21
Filing date: 2020-12-29
Publication date: 2021-08-26
Also published as: US20220319155A1; CN111311629B; CN111311629A

Abstract

一种图像处理方法，包括：获取输入图像；通过编码器网络对输入图像进行下采样和特征提取，得到多个特征图；通过解码器网络对所述多个特征图进行上采样和特征提取，得到目标分割图像；其中，编码器网络和解码器网络之间输出相同分辨率的特征图的处理层级相连，且编码器网络和解码器网络分别包括一个或多个密集计算块，任一密集计算块内的至少一个卷积模块包括至少一组非对称卷积核。

Description

图像处理方法、图像处理装置及设备

相关文献的交叉引用

本公开要求于2020年2月21日递交的中国专利申请第202010110386.7号的优先权，在此全文引用上述中国专利申请公开的内容以作为本申请的一部分。

技术领域

本公开涉及一种图像处理方法、图像处理装置及设备。

背景技术

图像抠图(Image matting)是图像处理与计算机视觉领域的一个研究方向，通过抠图可以将图像中的前景与背景分离。抠图所得的结果可以有多种应用，比如背景替换、证件照生成、虚拟合影生成、虚拟布景、背景虚化等。

发明内容

本公开提供一种图像处理方法、图像处理装置及设备。

一方面，本公开提供一种图像处理方法，包括：获取输入图像；通过编码器网络对所述输入图像进行下采样和特征提取，得到多个特征图；通过解码器网络对所述多个特征图进行上采样和特征提取，得到目标分割图像；其中，编码器网络和解码器网络分别包括多个处理层级，编码器网络中第L个处理层级处理得到的多个特征图和解码器网络中第J个处理层级处理得到的多个特征图融合后，输入到解码器网络中第J+1个处理层级，其中，编码器网络中第L个处理层级处理得到的多个特征图和解码器网络中第J个处理层级处理得到的多个特征图具有相同的分辨率；L、J均为正整数；其中，编码器网络的多个处理层级中至少一个处理层级包括密集计算块，解码器网络的多个处理层级中至少一个处理层级包括密集计算块；编码器网络和解码器网络中的第M个密集计算块包括N个卷积模块，所述N个卷积模块中的第i 个卷积模块的输入包括所述第i个卷积模块之前的i-1个卷积模块的输出；所述N个卷积模块中的至少一个卷积模块包括至少一组非对称卷积核；i、N、M均为整数，M大于或等于1且小于或等于编码器网络和解码器网络中的密集计算块的总数量，N大于或等于3，i大于或等于3且小于或等于N。

另一方面，本公开提供一种图像处理装置，包括：图像获取模块，配置为获取输入图像；图像处理模块，配置为通过编码器网络对所述输入图像进行下采样和特征提取，得到多个特征图；通过解码器网络对所述多个特征图进行上采样和特征提取，得到目标分割图像；其中，编码器网络和解码器网络分别包括多个处理层级，编码器网络中第L个处理层级处理得到的多个特征图和解码器网络中第J个处理层级处理得到的多个特征图融合后，输入到解码器网络中第J+1个处理层级，其中，编码器网络中第L个处理层级处理得到的多个特征图和解码器网络中第J个处理层级处理得到的多个特征图具有相同的分辨率；L、J均为正整数；其中，编码器网络的多个处理层级中至少一个处理层级包括密集计算块，解码器网络的多个处理层级中至少一个处理层级包括密集计算块；编码器网络和解码器网络中的第M个密集计算块包括N个卷积模块，所述N个卷积模块中的第i个卷积模块的输入包括所述第i个卷积模块之前的i-1个卷积模块的输出；所述N个卷积模块中的至少一个卷积模块包括至少一组非对称卷积核；i、N、M均为整数，M大于或等于1且小于或等于编码器网络和解码器网络中的密集计算块的总数量，N大于或等于3，i大于或等于3且小于或等于N。

另一方面，本公开提供一种图像处理设备，包括：存储器和处理器，所述存储器配置为存储程序指令，所述处理器执行所述程序指令时实现如上所述的图像处理方法的步骤。

另一方面，本公开提供一种计算机可读存储介质，存储有程序指令，当所述程序指令被执行时实现如上所述的图像处理方法的步骤。

附图说明

附图用来提供对本公开技术方案的理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开的技术方案，并不构成对本公开技术方案的限制。

图1为本公开一实施例提供的图像处理方法的流程图；

图2为本公开一实施例的输入图像和生成的目标分割图像的示例图；

图3为图2所示的目标分割图像的应用效果的示例图；

图4为本公开一实施例提供的编码器网络和解码器网络的示例图；

图5为本公开一实施例提供的第一密集计算块的示例图；

图6为本公开一实施例提供的第一卷积模块的示例图；

图7为本公开一实施例提供的卷积神经网络的训练流程示例图；

图8为本公开一实施例提供的卷积神经网络的训练示意图；

图9为本公开一实施例提供的图像处理装置的示意图；

图10为本公开一实施例提供的图像处理设备的示意图。

具体实施方式

本公开描述了多个实施例，但是该描述是示例性的，而不是限制性的，并且对于本领域的普通技术人员来说显而易见的是，在本公开所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合，并在实施方式中进行了讨论，但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外，任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用，或可以替代任何其它实施例中的任何其他特征或元件。

本公开包括并设想了与本领域普通技术人员已知的特征和元件的组合。本公开已经公开的实施例、特征和元件也可以与任何常规特征或元件组合，以形成由权利要求限定的独特的方案。任何实施例的任何特征或元件也可以与来自其它方案的特征或元件组合，以形成另一个由权利要求限定的独特的技术方案。因此，应当理解，在本公开中示出或讨论的任何特征可以单独地或以任何适当的组合来实现。因此，除了根据所附权利要求及其等同替换所做的限制以外，实施例不受其它限制。此外，可以在所附权利要求的保护范围内进行各种修改和改变。

此外，在描述具有代表性的实施例时，说明书可能已经将方法或过程呈现为特定的步骤序列。然而，在该方法或过程不依赖于本文所述步骤的特定顺序的程度上，该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的，其它的步骤顺序也是可能的。因此，说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外，针对该方法或过程的权利要求不应限于按照所写顺序执行它们的步骤，本领域技术人员可以容易地理解，这些顺序可以变化，并且仍然保持在本公开实施例的精神和范围内。

除非另外定义，本公开使用的技术术语或科学术语为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。本说明中，“多个”表示两个或两个以上的数目。

为了保持本公开实施例的以下说明清楚且简明，本公开省略了部分已知功能和已知部件的详细说明。本公开实施例附图只涉及到与本公开实施例涉及到的结构，其他结构可参考通常设计。

随着图像处理技术的发展，利用深度学习技术对图像进行抠图逐渐成为研究热点。比如，利用串联的多个不同结构的全卷积深度神经网络分别进行以下处理：检测包含待抠图图像中所需抠取主体的主体框，对主体框中的像素进行分类得到三分图(Trimap)，以及根据三分图抠取主体框中的主体。然而，采用多个全卷积深度神经网络进行抠图时，上一级全卷积神经网络的输出结果的准确性会影响下一级全卷积神经网络的输出结果的准确性，导致抠图效果不佳。而且，目前用于抠图的卷积深度神经网络的计算效率较低、处理速度无法达到实时抠图。

卷积神经网络(CNN，Convolutional Neural Networks)是一种使用例如图像作为输入和输出，并通过滤波器(卷积核)来替代标量权重的神经网络结构。卷积过程可以看作是使用一个可训练的滤波器对一个输入的图像或卷积特征平面(feature map)做卷积，输出一个卷积特征平面，卷积特征平面还可以称为特征图。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元只与部分相邻层的神经元连接。卷积层可以对输入图像应用若干个卷积核，以提取输入图像的多种类型的特征。每个卷积核可以提取一种类型的特征。卷积核一般以随机大小的矩阵的形式初始化，在卷积神经网络的训练过程中，卷积核将通过学习以得到合理的权值。在同一卷积层中，可以使用多个卷积核来提取不同的图像信息。

本公开实施例提供一种图像处理方法、图像处理装置及设备，可以利用一个卷积神经网络对输入图像进行处理，自动生成目标分割图像，其中，本公开实施例提供的卷积神经网络结合带有非对称卷积核的密集计算块、带有跳跃连接的编码器解码器网络，可以提高抠图效果和处理速度，降低运算所需时间，支持实现对输入图像的实时自动抠图，具有更好、更广泛的应用前景。

图1为本公开一实施例提供的图像处理方法的流程图。如图1所示，本公开实施例提供的图像处理方法包括以下步骤：

步骤101、获取输入图像；

步骤102、通过编码器网络对输入图像进行下采样和特征提取，得到多个特征图；

步骤103、通过解码器网络对所述多个特征图进行上采样和特征提取，得到目标分割图像。

本实施例提供的图像处理方法用于将输入图像中的目标对象与背景分离，目标分割图像可以为目标对象的抠图蒙版。其中，目标对象可以是输入图像中的人像，或者可以是预先设置的检测对象(例如，动物、建筑物等)。然而，本公开对此并不限定。

在一示例性实施方式中，输入图像可以包括人物图像，例如，输入图像可以为通过数码相机或手机等图像采集设备拍摄的一张人物图像，或者，可以为通过图像采集设备拍摄的视频中的一帧人物图像。然而，本公开对此并不限定。

图2为本公开一实施例的输入图像和生成的目标分割图像的示例图。如图2所示，卷积神经网络包括编码器网络和解码器网络。在本示例性实施方式中，目标分割图像为输入图像中目标人物的抠图蒙版。然而，本公开对此并不限定。比如，目标分割图像可以为从输入图像中抠取的目标人物的图像。

如图2所示，在本示例性实施方式中，输入图像为灰度图像。然而，本公开对此并不限定。在实际应用中，输入图像可以为彩色图像，比如RGB图像。

图3为图2所示的目标分割图像的应用效果的示例图。在一示例，利用本公开实施例提供的图像处理方法得到的目标分割图像(如图2所示的目标人物的抠图蒙版)，可以将输入图像(如图3中第一行第一幅图)中的人体区域抠出，然后再合成到其它不包含人体的自然场景中，以实现背景替换；比如，图3中第一行第四幅图为对输入图像进行背景替换后得到的效果图示例。在另一示例中，可以利用本公开实施例提供的图像处理方法得到的目标分割图像(如图2所示的抠图蒙版)，将输入图像(如图3中第一行第一幅图)中的人体区域抠出，然后再合成到其他包含人体和自然场景的图像中，以实现虚拟合影；比如，图3中除第一行第一幅图和第一行第四幅图以外的其余图像均为对输入图像进行虚拟合影后的效果示例图。

如图2所示，本公开实施例提供的卷积神经网络包括：编码器网络和解码器网络，其中，编码器网络配置为对输入图像进行下采样和特征提取，得到多个特征图；解码器网络配置为对多个特征图进行上采样和特征提取，得到目标分割图像。

在本实施例中，编码器网络和解码器网络分别包括多个处理层级，编码器网络中第L个处理层级处理得到的多个特征图和解码器网络中第J个处理层级处理得到的多个特征图融合后，输入到解码器网络中第J+1个处理层级，其中，编码器网络中第L个处理层级处理得到的多个特征图和解码器网络中第J个处理层级处理得到的多个特征图具有相同的分辨率；其中，L、J均为正整数。其中，在编码器网络中一次下采样和特征提取可以分别作为一个处理层级；在解码器网络中一次上采样和特征提取可以分别作为一个处理层级。在本实施例中，L的取值可以为一个或多个，J的取值可以为一个或多个。在一示例中，L和J的取值可以均为三个；比如，L为1，J为5，则编码器网络中第一个处理层级处理得到的多个特征图与解码器网络中第五个处理层级处理得到的多个特征图具有相同的分辨率，且这两个处理层级处理得到的特征图融合后，输入到解码器网络中第六个处理层级；L为2，J为1，则编码器网络中第二个处理层级处理得到的多个特征图与解码器网络中第一个处理层级处理得到的多个特征图具有相同的分辨率，且这两个处理层级处理得到的特征图融合后，输入到解码器网络中第二个处理层级；L为3，J为3，则编码器网络中第三个处理层级处理得到的多个特征图与解码器网络中第三个处理层级处理得到的多个特征图具有相同的分辨率，且这两个处理层级处理得到的特征图融合后，输入到解码器网络中第四个处理层级。

在本实施例中，通过将编码器网络中第L个处理层级处理得到的多个特征图和解码器网络中第J个处理层级处理得到的多个特征图进行融合后，输入到解码器网络中第J+1个处理层级，可以在编码器网络和解码器网络之间实现跳跃连接，即，编码器网络和解码器网络中得到相同分辨率的特征图的处理层级相连，且这两个处理层级处理得到的多个特征图进行融合后输入到解码器网络中的下一个处理层级。通过编码器网络和解码器网络之间的跳跃连接可以增加解码器网络对图像细节的保留，从而提高抠图结果的准确性。

在一示例性实施方式中，编码器网络中第L个处理层级处理得到的多个特征图和解码器网络中第J个处理层级处理得到的多个特征图融合后，输入到解码器网络中第J+1个处理层级，可以包括：编码器网络中第L个处理层级处理得到的多个特征图和解码器网络中第J个处理层级处理得到的多个特征图在通道维度上拼接后，输入到所述解码器网络中第J+1个处理层级。比如，通过拼接(Concat)操作对编码器网络中第L个处理层级处理得到的多个特征图和解码器网络中第J个处理层级处理得到的多个特征图进行融合。然而，本公开对此并不限定。在其他实现方式中，可以通过相加(Add)操作或相乘等操作对编码器网络中第L个处理层级处理得到的多个特征图和解码器网络中第J个处理层级处理得到的多个特征图进行融合。通过对编码器网络和解码器网络处理得到的相同尺寸和分辨率的特征图融合后输入到解码器网络，可以将编码器网络在下采样过程中损失的图像细节和信息，传递至解码器网络，使得解码器网络在上采样恢复空间分辨率的过程中，可以利用这些信息生成出更准确的目标分割图像，从而提升抠图效果。

在一示例性实施方式中，当编码器网络中的第L个处理层级和解码器网络中的第J个处理层级进行相对应的处理，且编码器网络中第L个处理层级处理得到的多个特征图和解码器网络中第J个处理层级处理得到的多个特征图具有相同的分辨率，则编码器网络中第L个处理层级处理得到的多个特征图和解码器网络中第J个处理层级处理得到的多个特征图融合后，可以输入到解码器网络中第J+1个处理层级。其中，编码器网络中的第L个处理层级和解码器网络中的第J个处理层级进行相对应的处理例如可以为：编码器网络中第L个处理层级进行下采样处理，且解码器网络中第J个处理层级进行上采样处理；或者，编码器网络中第L个处理层级进行多层次特征提取，且解码器网络中第J个处理层级也进行多层次特征提取。然而，本公开对此并不限定。本示例性实施方式中通过对编码器网络和解码器网络中相对应的处理层级得到的具有相同分辨率的特征图融合后输入到解码器网络，可以提升融合后特征图对图像细节的保留效果，提高解码器网络利用融合特征图得到的目标分割图像的准确性，从而提高抠图结果。

在本实施例中，编码器网络的多个处理层级中至少一个处理层级包括密集计算块，解码器网络的多个处理层级中至少一个处理层级包括密集计算块；编码器网络和解码器网络中的第M个密集计算块包括N个卷积模块，所述N个卷积模块中的第i个卷积模块的输入包括所述第i个卷积模块之前的i-1个卷积模块的输出；所述N个卷积模块中的至少一个卷积模块包括至少一组非对称卷积核；其中，i、N、M均为整数，M大于或等于1且小于或等于编码器网络和解码器网络中的密集计算块的总数量，N大于或等于3，i大于或等于3且小于或等于N。比如，N个卷积模块中全部的卷积模块均包括至少一组非对称卷积核，或者，N个卷积模块中仅部分的卷积模块包括至少一组非对称卷积核。然而，本公开对此并不限定。

在本实施例中，任一密集计算块可以包括N个卷积模块，且不同密集计算块包括的卷积模块的数目可以相同或不同。比如，第一个密集计算块可以包括五个卷积模块，第二个密集计算块可以包括八个卷积模块，第三个密集计算块可以包括五个卷积模块。

本实施例中，任一密集计算块配置为进行多层次的特征提取，且一个密集计算块对应一个处理层级。当编码器网络和解码器网络中包括多个密集计算块时，可以按照编码器网络的处理层级和解码器网络的处理层级的顺序，确定多个密集计算块的排序。比如，编码器网络中包括两个密集计算块(分别对应编码器网络中的第三处理层级和第五处理层级)，解码器网络中包括一个密集计算块(对应解码器网络中的第三处理层级)，则可以将编码器网络中对应第三处理层级的密集计算块标记为第一个密集计算块，对应第五处理层级的密集计算块标记为第二个密集计算块，将解码器网络中对应第三处理层级的密集计算块标记为第三个密集计算块。然而，本公开对此并不限定。

在本实施例中，密集计算块为带有非对称卷积的高效的密集计算块(EDA block，Effective Dense Asymmetric block)。其中，一个密集计算块包括多个卷积模块，且多个卷积模块中除第一个卷积模块之外，每个卷积模块的输入包括来自该卷积模块之前的所有卷积模块的输出，使得密集计算块中的多个卷积模块之间可以形成密集连接。本实施例采用密集计算块进行特征提取，可以大幅度减少参数，降低计算量，提升处理速度，而且具有较好的抗过拟合性能。而且，本实施例的密集计算块中的至少一个卷积模块包括一组或多组非对称卷积核，通过采用非对称卷积核进行特征提取，可以大幅减少计算量，从而提高处理速度。

在一示例性实施方式中，N个卷积模块中包括至少一组非对称卷积核的卷积模块可以包括：由所述至少一组非对称卷积核膨胀得到的非对称卷积核。比如，N个卷积模块中的某一卷积模块可以包括两组非对称卷积核，第二组非对称卷积核可以由前一组非对称卷积核膨胀得到，其中，第一组非对称卷积核可以为3×1卷积核和1×3卷积核。本示例性实施方式中，通过对非对称卷积核进行膨胀操作可以得到膨胀的非对称卷积核，采用膨胀的非对称卷积核不仅可以增加感受野(Receptive Field)，而且可以减少图像处理过程中空间信息的损失，并保持形成密集连接的多个卷积模块可以生成分辨率一致的特征图。

在一示例性实施方式中，步骤102可以包括：对输入图像进行下采样，得到具有第一分辨率的多个第一下采样特征图；对所述多个第一下采样特征图进行下采样，得到具有第二分辨率的多个第二下采样特征图；通过第一密集计算块对所述多个第二下采样特征图进行多层次的特征提取，得到具有第二分辨率的多个第一密集计算特征图；对所述多个第一密集计算特征图进行下采样，得到具有第三分辨率的多个第三下采样特征图；通过第二密集计算块对所述多个第三下采样特征图进行多层次的特征提取，得到具有第三分辨率的多个第二密集计算特征图；步骤102中通过编码器网络得到的多个特征图包括所述多个第二密集计算特征图。

在本示例性实施方式中，步骤103可以包括：对所述多个第二密集计算特征图进行上采样，得到具有第二分辨率的多个第一上采样特征图；对所述多个第一上采样特征图和所述多个第二下采样特征图在通道维度上进行拼接，得到第一融合特征图组；对所述第一融合特征图组进行特征提取，得到具有第二分辨率的多个第一中间特征图；通过第三密集计算块对所述多个第一中间特征图进行多层次的特征提取，得到具有第二分辨率的多个第三密集计算特征图；对所述多个第三密集计算特征图和所述多个第一密集计算特征图在通道维度上进行拼接，得到第二融合特征图组；对所述第二融合特征图组进行特征提取，得到具有第二分辨率的多个第二中间特征图；对所述多个第二中间特征图进行上采样，得到具有第一分辨率的多个第二上采样特征图；对所述多个第二上采样特征图和所述多个第一下采样特征图在通道维度上进行拼接，得到第三融合特征图组；对所述第三融合特征图组进行特征提取，得到具有第二分辨率的多个第三中间特征图；对所述多个第三中间特征图进行上采样，得到与输入图像具有相同分辨率的目标分割图像。

在本示例性实施方式中，第一密集计算块可以包括五个卷积模块，第二密集计算块可以包括八个卷积模块，第三密集计算块可以包括五个卷积模块；其中，第一密集计算块、第二密集计算块和第三密集计算块中的每个卷积模块包括1×1卷积核和两组非对称卷积核，第一组非对称卷积核为3×1卷积核和1×3卷积核，第二组非对称卷积核根据第一组非对称卷积核和对应的膨胀系数得到。

图4为本公开一实施例提供的编码器网络和解码器网络的示例图。在本示例性实施例中，卷积神经网络可以对彩色人物图像(比如，图2所示的输入图像的彩色图像)进行抠图，得到黑白的抠图蒙版(比如，图2所示的目标分割图像)。

如图4所示，编码器网络201包括：第一下采样块301、第二下采样块203、第一密集计算块303、第三下采样块304以及第二密集计算块305。其中，第二下采样块302位于第一下采样块301和第一密集计算块303之间，第三下采样块304位于第一密集计算块303和第二密集计算块305之间。

本示例性实施例中，第一下采样块301配置为对输入图像进行下采样，得到具有第一分辨率的多个第一下采样特征图；第二下采样块302配置为对多个第一下采样特征图进行下采样，得到具有第二分辨率的多个第二下采样特征图；第一密集计算块303配置为对多个第二下采样特征图进行多层次的特征提取，得到具有第二分辨率的多个第一密集计算特征图；第三下采样块304配置为对多个第一密集计算特征图进行下采样，得到具有第三分辨率的多个第三下采样特征图；第二密集计算块305配置为从多个第三下采样特征图进行多层次的特征提取，得到具有第三分辨率的多个第二密集计算特征图。其中，第一分辨率大于第二分辨率，第二分辨率大于第三分辨率，第一分辨率小于输入图像的分辨率。

在本示例性实施例中，编码器网络201包括五个处理层级，分别对应三个下采样块和两个密集计算块；其中，通过三个下采样块(Downsampling Block)和两个密集计算块逐步从输入图像中提取得到多个特征图，并逐步缩小特征图的空间分辨率；其中，特征提取主要通过下采样块和密集计算块来实现，特征图的空间分辨率的缩小通过下采样块实现。利用多个下采样块逐步缩小特征图的空间维度可以扩大感受野，使得编码器网络可以更好地提取不同尺度的局部和全局特征，而且下采样块可以对提取的特征图进行压缩，从而节省计算量和内存的占用，并提高处理速度。

如图4所示，解码器网络202包括：第一上采样块306、第一卷积块307、第三密集计算块308、第二卷积块309、第二上采样块310、第三卷积块311以及第三上采样块312。其中，第一上采样块306位于第二密集计算块305和第一卷积块307之间，第三密集计算块308位于第一卷积块307和第二卷积块309之间，第二上采样块310位于第二卷积块309和第三卷积块311之间，第三卷积块311位于第二上采样块310和第三上采样块311之间。

在本示例性实施例中，第一上采样块306配置为对编码器网络201输出的多个第二密集计算特征图进行上采样，得到具有第二分辨率的多个第一上采样特征图；第一卷积块307配置为对所述多个第一上采样特征图和多个第二下采样特征图在通道维度上拼接得到的第一融合特征图组进行特征提取，得到具有第二分辨率的多个第一中间特征图，所述多个第一上采样特征图和多个第二下采样特征图具有相同分辨率；第三密集计算块308配置为对多个第一中间特征图进行多层次的特征提取，得到具有第二分辨率的多个第三密集计算特征图；第二卷积块309配置为对所述多个第三密集计算特征图和多个第一密集计算特征图在通道维度上拼接得到的第二融合特征图组进行特征提取，得到具有第二分辨率的多个第二中间特征图，所述多个第三密集计算特征图和多个第一密集计算特征图具有相同分辨率；第二上采样块310配置为对多个第二中间特征图进行上采样，得到具有第一分辨率的多个第二上采样特征图；第三卷积块311配置为对所述多个第二上采样特征图和多个第一下采样特征图在通道维度上拼接得到的第三融合特征图组进行特征提取，得到多个第三中间特征图，所述多个第二上采样特征图和多个第一下采样特征图具有相同分辨率；第三上采样块312配置为对多个第三中间特征图进行上采样操作，得到与输入图像具有相同分辨率的目标分割图像。

在本示例性实施例中，解码器网络202包括七个处理层级，分别对应三个上采样块(Upsampling Block)、三个卷积块(Convolution Block)和一个密集计算块；其中，通过三个上采样块将编码器网络201提取的多个特征图的空间分辨率恢复到与输入图像一致，通过三个上采样块、三个卷积块和一个密集计算块进行特征提取，以将编码器网络201提取到的多个特征图逐步转化生成输入图像的目标分割图像。

在本示例性实施例中，以原始的输入图像的空间分辨率为1，则第一分辨率可以为1/2，第二分辨率可以为1/4，第三分辨率可以为1/8。假设原始的输入图像的尺寸为H×W，H和W代表输入图像的长度和宽度，则具有第一分辨率的特征图的尺寸为(H/2)×(W/2)，具有第二分辨率的特征图的尺寸为(H/4)×(W/4)，具有第三分辨率的特征图的尺寸为(H/8)×(W/8)。

在本示例性实施例中，如图4所示，在编码器网络201和解码器网络202之间建立有跳跃连接，且在编码器网络201和解码器网络202之间的跳跃连接方式可以为拼接(Concat)方式。如图4所示，第一下采样块301得到的多个第一下采样特征图的分辨率和第二上采样块310得到的多个第二上采样特征图的分辨率均为第一分辨率，则第一下采样块301得到的多个第一下采样特征图既输入到第二下采样块302，又与第二上采样块310得到的多个第二上采样特征图在通道维度进行拼接后输入到第三卷积块311；第二下采样块302得到的多个第二下采样特征图的分辨率和第一上采样块306得到的多个第一上采样特征图的分辨率均为第二分辨率，则第二下采样块302得到的多个第二下采样特征图既输入到第一密集计算块303，又与第一上采样块306得到的多个第一上采样特征图在通道维度进行拼接后输入到第一卷积块307；第一密集计算块303得到的多个第一密集计算特征图的分辨率和第三密集计算块308得到的多个第三密集计算特征图的分辨率均为第二分辨率，则第一密集计算块303得到的多个第一密集计算特征图既输入到第三下采样块304，又与第三密集计算块308得到的多个第三密集计算特征图在通道维度进行拼接后输入到第二卷积块309。

在本示例性实施例中，按照通道维度对分辨率和尺寸相同的特征图进行拼接，是对分辨率和尺寸相同的特征图的通道数的增加。比如，第一密集计算块303输出的特征图为Channel1×h×w，其中，h和w代表特征图的长和宽，Channel1代表第一密集计算块303的输出通道数，第三密集计算块308输出的特征图为Channel2×h×w，其中，Channel2代表第三密集计算块308的输出通道数，第一密集计算块303和第三密集计算块308输出的特征图的尺寸和分辨率相同，则对第一密集计算块303和第三密集计算块308输出的特征图在通道维度进行拼接后得到的第二融合特征图组为(Channel1+Channel2)×h×w。

本示例性实施例中，通过编码器网络201和解码器网络202之间的跳跃连接，可以将编码器网络201在多次下采样过程中损失的图像细节和信息，传递至解码器网络202，使得解码器网络202在上采样恢复空间分辨率的过程中，可以利用这些信息生成出更准确的目标分割图像，从而提升抠图效果。

在本示例性实施例中，第一下采样块301的输入通道数为3，输出通道数为15；第二下采样块302的输入通道数为15，输出通道数为60；第一密集计算块303的输入通道数为60，输出通道数为260；第三下采样304的输入通道数为260，输出通道数为130；第二密集计算块305的输入通道数为130，输出通道数为450。第一上采样块306的输入通道数为450，输出通道数为60；第一卷积块307的输入通道数为120，输出通道数为60；第三密集计算块308的输入通道数为60，输出通道数为260；第二卷积块309的输入通道数为520，输出通道数为260；第二上采样块310的输入通道数为260，输出通道数为15；第三卷积块311的输入通道数为30，输出通道数为15；第三上采样块312的输入通道数为15，输出通道数为1。

在本示例性实施例中，解码器网络中的任一卷积块可以包括卷积层和激活层，其中，激活层位于卷积层之后。其中，卷积层配置为执行卷积操作，可以包括一个或多个卷积核。本公开的卷积神经网络中的多个卷积块的结构和参数可以互不相同，或者至少部分相同。然而，本公开对此并不限定。

在本示例性实施例中，编码器网络中的任一下采样块可以包括卷积层、池化层和激活层。其中，卷积层配置为执行卷积操作，可以包括一个或多个卷积核。其中，池化层是下采样的一种形式；池化层可以配置为缩小输入图像的规模，简化计算的复杂度，在一定程度上减小过拟合的现象；池化层可以进行特征压缩，提取输入图像的主要特征。多个下采样块的结构和参数可以互不相同，或者至少部分相同。然而，本公开对此并不限定。

在本示例性实施例中，编码器网络中的任一下采样块配置为执行下采样操作，可以减少特征图的尺寸，进行特征压缩，提取主要特征，以简化计算的复杂度，并在一定程度上减小过拟合的现象。其中，下采样操作可以包括：最大值合并、平均值合并、随机合并、欠采样(decimation，例如选择固定的像素)、解复用输出(demuxout，将输入图像拆分为多个更小的图像)等。然而，本公开对此并不限定。

在本示例性实施例中，解码器网络中的任一上采样块可以包括上采样层和激活层，其中，上采样层中可以包括卷积层。其中，卷积层配置为执行卷积操作，可以包括一个或多个卷积核。多个上采样块的结构和参数可以互不相同，或者至少部分相同。然而，本公开对此并不限定。

在本示例性实施例中，解码器网络中的任一上采样层配置为执行上采样操作；其中，上采样操作可以包括：最大值合并、跨度转置卷积(strides transposed convolutions)、插值(例如，内插值、两次立方插值等)等。然而，本公开对此并不限定。

在本示例性实施例中，解码器网络220中的上采样块的个数与编码器网络210中的下采样块的个数相同，使得目标分割图像与输入图像具有相同的分辨率，并可以保证跳跃连接的两个处理层级得到的特征图具有相同的分辨率。

在本示例性实施例中，第一密集计算块303包括五个卷积模块，且第一密集计算块303中除了第一个卷积模块之外的任一卷积模块的输入包括该卷积模块之前的所有卷积模块的输出。第二密集计算块305包括八个卷积模块，且第二密集计算块305中除了第一个卷积模块之外的任一卷积模块的输入包括该卷积模块之前的所有卷积模块的输出。第三密集计算块308包括五个卷积模块，且第三密集计算块308中除了第一个卷积模块之外的任一卷积模块的输入包括该卷积模块之前的所有卷积模块的输出。本实施例中，第一密集计算块303、第二密集计算块305和第三密集计算块308内的卷积模块通过串联实现密集连接。

下面以第一密集计算块303为例说明图4中的密集计算块的结构。图5为本公开一实施例提供的第一密集计算块303的示例图。如图5所示，第一密集计算块303包括串联的第一卷积模块315、第二卷积模块316、第三卷积模块317、第四卷积模块318以及第五卷积模块319。如图5所示，以第一卷积模块315和第二卷积模块316为例，第一卷积模块315配置为接收并处理C ₁个特征图得到K ₁个特征图，并将C ₁个特征图和K ₁个特征图在通道维度上进行拼接，以得到C ₁+K ₁个特征图；第二卷积模块316配置为接收并处理C ₂个特征图得到K ₂个特征图，并将C ₂个特征图和K ₂个特征图在通道维度上进行拼接，以得到C ₂+K ₂个特征图，其中，C ₂个特征图为第一卷积模块315得到的C ₁+K ₁个特征图。本实施例中，第一卷积模块315的输入通道数为C ₁，输出通道数为C ₁+K ₁；第二卷积模块316的输入通道数为C ₁+K ₁，输出通道数为C ₁+K ₁+K ₂。依此类推可以得到，第三卷积模块317的输入通道数为C ₁+K ₁+K ₂，输出通道数为C ₁+K ₁+K ₂+K ₃；第四卷积模块318的输入通道数为C ₁+K ₁+K ₂+K ₃，输出通道数为C ₁+K ₁+K ₂+K ₃+K ₄；第五卷积模块319的输入通道数为C ₁+K ₁+K ₂+K ₃+K ₄，输出通道数为C ₁+K ₁+K ₂+K ₃+K ₄+K ₅。换言之，第三卷积模块317的输入包括之前的第一卷积模块315和第二卷积模块316的输出，第四卷积模块318的输入包括之前的第一卷积模块315、第二卷积模块316以及第三卷积模块317的输出，第五卷积模块319的输入包括之前的第一卷积模块315、第二卷积模块316、第三卷积模块317以及第四卷积模块318的输出。

在本示例中，任一卷积模块的增长率系数相同，卷积模块的增长率系数为该卷积模块的输出通道数相比于输入通道数所增长的通道数。如图5所示，K ₁、K ₂、K ₃、K ₄和K ₅均相同。

在本示例中，图4中的每个密集计算块的结构示意了其中每个卷积模块处理输入的特征图得到的多个特征图(第i个卷积模块得到K _i个特征图)的传输方式。图5所示为密集计算块中多个卷积模块的整体串联方式，与图4中体现第i个卷积模块的K _i个特征图的传输方式是等效的。

下面以第一卷积模块315为例说明密集计算块中的任一卷积模块的结构。图6为本公开一实施例提供的第一卷积模块315的示例图。如图6所示，在本示例中，第一卷积模块包括依次级联的卷积层401、激活层402、第一非对称卷积网络41、第二非对称卷积网络42以及随机失活(Dropout)层409。其中，第一非对称卷积网络41包括依次级联的卷积层403、卷积层404以及激活层405；第二非对称卷积网络42包括依次级联的卷积层406、卷积层407以及激活层408。在本示例中，第一卷积模块315包括两组非对称卷积核。然而，本公开对此并不限定。

如图6所示，第一卷积模块的输入通道数为C ₁，输出通道数为C ₁+K ₁。其中，卷积层401的输入通道数为C ₁，输出通道数为K ₁，卷积层403和404的输入通道数和输出通道数均为K ₁，卷积层406和407的输入通道数和输出通道数均为K ₁。

如图6所示，第一卷积模块的输入和Dropout层409的输出结果通过 Concat方式相连，生成第一卷积模块的输出结果；换言之，第一卷积模块的输出结果为第一卷积模块的输入特征图和经过卷积网络生成的特征图在通道维度的拼接结果。如此一来，可以实现多个卷积模块串联后形成密集连接，即密集计算块中的任一卷积模块接收并处理该卷积模块之前的所有卷积模块的输出结果。

在本示例性实施例中，卷积层401的卷积核为1×1。通过卷积核为1×1的卷积层401可以在卷积模块进行特征提取操作时进行降维，减少特征图的数量，降低计算量，并增加卷积神经网络的非线性程度。

在本示例性实施例中，在第一非对称卷积网络41中，卷积层403的卷积核为3×1，卷积层404的卷积核为1×3；在第二非对称卷积网络42中，卷积层406的卷积核由3×1经膨胀操作后得到，卷积层407的卷积核由1×3经膨胀操作后得到，其中，膨胀操作的膨胀系数可以为d。在同一密集计算块中的不同卷积模块，可以采用相同或不同的膨胀系数，或者，部分卷积模块采用相同的膨胀系数。然而，本公开对此并不限定。在本示例中，通过对非对称卷积核进行膨胀操作不仅可以增加感受野，而且可以减少空间信息的损失，并保持密集连接的卷积模块输出的特征图的分辨率一致。在本示例性实施例中，通过采用两组非对称卷积核进行特征提取，可以大幅减少计算量，从而提高处理速度。

在本示例性实施例中，Dropout层409可以有效预防过拟合，且在非训练阶段Dropout层409可以自动关闭。然而，本公开对此并不限定。

在本示例性实施例中，图5中的第二卷积模块316、第三卷积模块317、第四卷积模块318和第五卷积模块319的结构和参数可以与第一卷积模块315的结构和参数相同或部分相同。然而，本公开对此并不限定。

示例性地，一个密集计算块中的多个卷积模块可以选择不同的增长率系数与膨胀系数。然而，本公开对此并不限定。

在图4所示的示例性实施例中，三个密集计算块(第一密集计算块303、第二密集计算块305以及第三密集计算块308)包括的所有卷积模块的增长率系数可以均为40；第一密集计算块303包括的五个卷积模块的膨胀系数可以分别为(1，1，1，2，2)；第三密集计算块303包括的五个卷积模块的膨胀系数可以分别为(1，1，1，2，2)；第二密集计算块包括的八个卷积模块的膨胀系数可以分别为(2，2，4，4，8，8，16，16)。其中，第一密集计算块303和第三密集计算块308的结构和参数可以完全相同。

在本示例性实施例中，激活层可以包括激活函数，激活函数用于给卷积神经网络引入非线性因素，以使卷积神经网络可以更好地解决较为复杂的问题。激活函数可以包括线性修正单元(ReLU)函数、S型函数(Sigmoid函数)或者双曲正切函数(tanh函数)等。ReLU函数为非饱和非线性函数，Sigmoid函数和tanh函数为饱和非线性函数。激活层可以单独作为卷积神经网络的一层，或者，激活层可以包含在卷积层中。在一示例中，激活层可以包括正则化(Normalization)层与激活函数。

例如，在图6所示的第一卷积模块中，激活层402配置为对卷积层401的输出执行激活操作，激活层405配置为对卷积层404的输出执行激活操作，激活层408配置为对卷积层407的输出执行激活操作。激活层402、405和408可以均包括正则化层和激活函数。其中，不同激活层中的激活函数可以相同或不同，不同激活层中的正则化层可以相同或不同。然而，本公开对此并不限定。

本示例性实施例提供的图像处理方法可以通过结合带有非对称卷积核的密集计算块、带有跳跃连接的编码器解码器网络的一个卷积神经网络，对输入人像图像进行自动抠取，且可以实时得到抠图结果，提升了处理速度和抠图结果的准确性。

在一示例性实施方式中，本公开实施例提供的图像处理方法还包括：训练卷积神经网络，卷积神经网络包括编码器网络和解码器网络。在利用卷积神经网络进行抠图之前，要对卷积神经网络进行训练，经过训练之后，卷积神经网络的参数在图像处理期间保持不变。在训练过程中，卷积神经网络的参数会根据训练结果进行调整，以获得优化后的卷积神经网络。在本示例中，卷积神经网络的参数可以包括：卷积核和偏置。其中，卷积核决定了对处理的图像进行怎样的处理，偏置则决定了该卷积核的输出是否输入到下一层。

图7为本公开一实施例提供的卷积神经网络的训练流程示例图。图8为本公开一实施例提供的卷积神经网络的训练示意图。

如图7所示，训练卷积神经网络可以包括以下步骤501至步骤504。

步骤501、获取训练图像。比如，训练图像可以从aisegment matting human与Portrait Matting这两个抠图数据集中选择；或者，可以利用COCO(Common Objects in Context)数据集中不包含人像的图片，对上述两个抠图数据集进行背景替换，以实现数据扩充。然而，本公开对此并不限定。

步骤502、利用卷积神经网络对训练图像进行处理，以生成训练分割图像。此过程与利用卷积神经网络对输入图像进行处理生成目标分割图像的过程相同，在此不再赘述。

步骤503、根据训练分割图像和训练图像对应的标准分割图像，利用损失函数计算卷积神经网络的损失值。

步骤504、根据损失值优化卷积神经网络的参数。

其中，损失函数(loss function)是用于衡量预测值(训练分割图像)和目标值(标准分割图像)的差异的重要方程。比如，损失函数的输出值(loss)越高表示差异越大。

在本示例中，通过判断卷积神经网络是否收敛来确定是否结束训练，其中，判断卷积神经网络是否收敛可以通过以下至少之一方式：判断更新卷积神经网络的参数的次数是否达到迭代阈值；判断卷积神经网络的损失值是否低于损失阈值。其中，迭代阈值可以是预先设置的迭代次数，比如，更新卷积神经网络的参数的次数大于跌打阈值，则结束训练。其中，损失阈值可以是预先设置的，比如，若损失函数计算得到的损失值小于损失阈值，则结束训练。

如图8所示，训练模块60可以包括损失计算单元601和优化器602；损失计算单元601配置为利用损失函数计算卷积神经网络20的损失值，优化器602配置为根据损失值优化卷积神经网络20的参数。其中，卷积神经网络20对训练图像进行抠图，可以生成训练分割图像。损失计算单元601从训练数据集获取训练图像对应的标准分割图像，根据训练分割图像和标准分割图像，利用损失函数计算损失值；优化器602根据损失计算单元601计算得到的损失值调整卷积神经网络20的参数。在一示例中，优化器可以使用随机梯度下降法，且优化器的学习率调整策略使用带重启的余弦退火方法。然而，本公开对此并不限定。

在一示例性实施方式中，损失函数可以由边缘损失函数、抠图蒙版损失函数和前景损失函数加权相加得到。即损失函数可以表示为：

L＝w ₁L _edge+w ₂L _alpha+w ₃L _foreground；

其中，L _edge为边缘损失函数、L _alpha为抠图蒙版损失函数、L _foreground为前景损失函数，w ₁、w ₂、w ₃为权值。其中，w ₁、w ₂、w ₃可以根据实际情况或依据经验值进行确定，本公开对此并不限定。

在一示例性实施方式中，边缘损失函数可以表示为：L _edge＝|G(A _out)-G(A _gt)|；

其中，

G _x(A _out)＝K _x×A _out，G _y(A _out)＝K _y×A _out；

G _x(A _gt)＝K _x×A _gt，G _y(A _gt)＝K _y×A _gt；

K _x和K _y为边缘检测算子，A _out为训练分割图像，A _gt为训练图像对应的标准分割图像。

其中，边缘检测算子可以采用Sobel、Prewitt、Scharr等算子，然而，本公开对此并不限定。

示例性地，边缘检测算子可以选用Scharr算子，即：

在本示例性实施方式中，由于抠图结果中边缘的精细准确与抠图的效果密切相关，因此，利用边缘检测算子设计边缘损失函数，对抠图结果中所需抠取主体的边缘加以约束，以得到更好的抠图效果。

在一示例性实施方式中，抠图蒙版损失函数可以表示为：L _alpha＝|A _out-A _gt|；

前景损失函数可以表示为：

其中，A _out为训练分割图像，A _gt为训练图像对应的标准分割图像，I为训练图像；

为训练分割图像A _out的第i个像素，

为标准分割图像A _gt的第i个像素，I ^ij为训练图像I的第i个像素的第j个通道。

本公开实施例提供的图像处理方法，可以利用结合带有非对称卷积核的密集计算块、带有跳跃连接的编码器网络和解码器网络的一个卷积神经网络实现对输入图像进行实时自动抠图，并提高抠图效果，即不仅可以输出一幅高质量图像且大幅提高处理速度。而且，本公开示例性实施例在卷积神经网络的训练过程中采用边缘损失函数、抠图蒙版损失函数和前景损失函数，可以提高抠图效果。

图9为本公开一实施例提供的一种图像处理装置的示意图。如图9所示，本实施例提供的图像处理装置70包括：图像获取模块701和图像处理模块702。这些组件通过总线系统或其它形式的连接机构(未示出)互连。图9所示的图像处理装置的组件和结构只是示例性的，而非限定性的，根据需要，图像处理装置也可以具有其他组件和结构。

在本示例性实施例中，图像获取模块701，配置为获取输入图像。图像获取模块701可以包括存储器，其中存储有输入图像；或者，图像获取模块701可以包括一个或多个摄像头，以获取输入图像。例如，图像获取模块701可以为硬件、软件、固件以及它们的任意可行的组合。

在本示例性实施例中，图像处理模块702，配置为通过编码器网络对所述输入图像进行下采样和特征提取，得到多个特征图；通过解码器网络对所述多个特征图进行上采样和特征提取，得到目标分割图像。

本示例性实施例中，编码器网络和解码器网络分别包括多个处理层级，编码器网络中第L个处理层级处理得到的多个特征图和解码器网络中第J个处理层级处理得到的多个特征图融合后，输入到解码器网络中第J+1个处理层级，其中，所述编码器网络中第L个处理层级处理得到的多个特征图和解码器网络中第J个处理层级处理得到的多个特征图具有相同的分辨率；L、J均为正整数。

本示例性实施例中，编码器网络的多个处理层级中至少一个处理层级包括密集计算块，解码器网络的多个处理层级中至少一个处理层级包括密集计算块；编码器网络和解码器网络中的第M个密集计算块包括N个卷积模块，所述N个卷积模块中的第i个卷积模块的输入包括所述第i个卷积模块之前的i-1个卷积模块的输出；所述N个卷积模块中的至少一个卷积模块包括至少一组非对称卷积核；i、N、M均为整数，M大于或等于1且小于或等于编码器网络和解码器网络中的密集计算块的总数量，N大于或等于3，i大于或等于3且小于或等于N。

本实施例提供的图像处理装置70中的图像处理模块702包括卷积神经网络，该卷积神经网络与上述图像处理方法的实施例中的卷积神经网络的结构和功能相同，故在此不再赘述。

在一示例性实施方式中，图像处理装置还可以包括训练模块，配置为训练卷积神经网络。其中，训练模块可以包括：损失计算单元和优化器。利用训练模块对卷积神经网络进行训练的过程可以参照上述图像处理方法的实施例中的相关描述，故于此不再赘述。

图10为本公开一实施例提供的图像处理设备的示意图。如图10所示，图像处理设备80包括：处理器801和存储器802；存储器802配置为存储程序指令；处理器801执行所述程序指令时实现上述任一实施例中图像处理方法的步骤。图10所示的图像处理设备80的组件只是示例性的，而非限制性的，根据实际应用需要，图像处理设备80还可以具有其他组件。例如，处理器801和存储器802之间可以直接或间接地互相通信。

例如，处理器801和存储器802等组件之间可以通过网络连接进行通信。网络可以包括无线网络、有线网络、或者、有线网络和无线网络的任意组合。网络可以包括局域网、互联网、电信网、基于互联网的物联网、基于电信网的物联网、以上网络的任意组合。有线网络例如可以采用双绞线、同轴电缆或光纤传输等方式进行通信，无线网络例如可以采用3G、4G、5G移动通信网络、蓝牙或WIFI等通信方式。本公开对网络的类型和功能在此不作限定。

例如，处理器801可以控制图像处理设备中的其它组件以执行期望的功能。处理器801可以是中央处理单元(CPU，Central Processing Unit)、张量处理器(TPU，Tensor Processing Unit)或者图像处理器(GPU，Graphics Processing Unit)等具有数据处理能力或程序执行能力的器件。GPU可以单独地直接集成到主板上，或内置在主板的北桥芯片中；或者，GPU可以内置在CPU上。

例如，存储器802可以包括一个或多个计算机程序产品的任意组合，计算机程序产品可以包括多种形式的计算机可读存储介质，例如，易失性存储器、非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM，Random Access Memory)、高速缓冲存储器(Cache)等。非易失性存储器例如可以包括只读存储器(ROM，Read Only Memory)、硬盘、可擦除可编程只读存储器(EPROM，Erasable Programmable Read Only Memory)、光盘只读存储器(CD-ROM)、通用串行总线(USB，Universal Serial Bus)存储器、闪存等。在计算机可读存储介质中还可以存储一种或多种应用程序和一种或多种数据，例如，输入图像，以及应用程序使用或产生的一种或多种数据等。

例如，在存储器802上可以存储一个或多个计算机可读代码或程序指令，处理器可以运行程序指令，以执行上述图像处理方法。关于图像处理方法可以参考上述图像处理方法的实施例中的相关描述，故于此不再赘述。

本公开至少一实施例还提供一种计算机可读存储介质，存储有程序指令，当该程序指令被执行时可实现上述图像处理方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

本领域的普通技术人员应当理解，可以对本公开实施例的技术方案进行修改或者等同替换，而不脱离本公开技术方案的精神和范围，均应涵盖在本公开的权利要求范围当中。

Claims

一种图像处理方法，包括：

获取输入图像；

通过编码器网络对所述输入图像进行下采样和特征提取，得到多个特征图；

通过解码器网络对所述多个特征图进行上采样和特征提取，得到目标分割图像；

其中，所述编码器网络和解码器网络分别包括多个处理层级，所述编码器网络中第L个处理层级处理得到的多个特征图和解码器网络中第J个处理层级处理得到的多个特征图融合后，输入到所述解码器网络中第J+1个处理层级，其中，所述编码器网络中第L个处理层级处理得到的多个特征图和解码器网络中第J个处理层级处理得到的多个特征图具有相同的分辨率；L、J均为正整数；

其中，所述编码器网络的多个处理层级中至少一个处理层级包括密集计算块，所述解码器网络的多个处理层级中至少一个处理层级包括密集计算块；所述编码器网络和解码器网络中的第M个密集计算块包括N个卷积模块，所述N个卷积模块中的第i个卷积模块的输入包括所述第i个卷积模块之前的i-1个卷积模块的输出；所述N个卷积模块中的至少一个卷积模块包括至少一组非对称卷积核；i、N、M均为整数，M大于或等于1且小于或等于所述编码器网络和解码器网络中的密集计算块的总数量，N大于或等于3，i大于或等于3且小于或等于N。
根据权利要求1所述的图像处理方法，所述N个卷积模块中的所述至少一个卷积模块还包括：由所述至少一组非对称卷积核膨胀得到的非对称卷积核。
根据权利要求1所述的图像处理方法，所述编码器网络中第L个处理层级处理得到的多个特征图和解码器网络中第J个处理层级处理得到的多个特征图融合后，输入到所述解码器网络中第J+1个处理层级，包括：

所述编码器网络中第L个处理层级处理得到的多个特征图和解码器网络中第J个处理层级处理得到的多个特征图在通道维度上拼接后，输入到所述解码器网络中第J+1个处理层级。
根据权利要求1所述的图像处理方法，其中，所述通过编码器网络对所述输入图像进行下采样和特征提取，得到多个特征图，包括：

对所述输入图像进行下采样，得到具有第一分辨率的多个第一下采样特征图；

对所述多个第一下采样特征图进行下采样，得到具有第二分辨率的多个第二下采样特征图；

通过第一密集计算块对所述多个第二下采样特征图进行多层次的特征提取，得到具有第二分辨率的多个第一密集计算特征图；

对所述多个第一密集计算特征图进行下采样，得到具有第三分辨率的多个第三下采样特征图；

通过第二密集计算块对所述多个第三下采样特征图进行多层次的特征提取，得到具有第三分辨率的多个第二密集计算特征图；

所述多个特征图包括所述多个第二密集计算特征图。
根据权利要求4所述的图像处理方法，其中，所述通过解码器网络对所述多个特征图进行上采样和特征提取，得到目标分割图像，包括：

对所述多个第二密集计算特征图进行上采样，得到具有第二分辨率的多个第一上采样特征图；

对所述多个第一上采样特征图和所述多个第二下采样特征图在通道维度上进行拼接，得到第一融合特征图组；

对所述第一融合特征图组进行特征提取，得到具有第二分辨率的多个第一中间特征图；

通过第三密集计算块对所述多个第一中间特征图进行多层次的特征提取，得到具有第二分辨率的多个第三密集计算特征图；

对所述多个第三密集计算特征图和所述多个第一密集计算特征图在通道维度上进行拼接，得到第二融合特征图组；

对所述第二融合特征图组进行特征提取，得到具有第二分辨率的多个第二中间特征图；

对所述多个第二中间特征图进行上采样，得到具有第一分辨率的多个第二上采样特征图；

对所述多个第二上采样特征图和所述多个第一下采样特征图在通道维度上进行拼接，得到第三融合特征图组；

对所述第三融合特征图组进行特征提取，得到具有第二分辨率的多个第三中间特征图；

对所述多个第三中间特征图进行上采样，得到与所述输入图像具有相同分辨率的目标分割图像。
根据权利要求5所述的图像处理方法，其中，所述第一密集计算块包括五个卷积模块，第二密集计算块包括八个卷积模块，所述第三密集计算块包括五个卷积模块；其中，所述第一密集计算块、第二密集计算块和第三密集计算块中的每个卷积模块包括1×1卷积核和两组非对称卷积核，第一组非对称卷积核为3×1卷积核和1×3卷积核，第二组非对称卷积核根据第一组非对称卷积核和对应的膨胀系数得到。
根据权利要求1所述的图像处理方法，其中，所述图像处理方法还包括：

获取训练图像；

使用卷积神经网络对训练图像进行处理，得到所述训练图像的训练分割图像；其中，所述卷积神经网络包括所述编码器网络和所述解码器网络；

根据所述训练图像的训练分割图像和所述训练图像对应的标准分割图像，利用损失函数计算所述卷积神经网络的损失值；

根据所述损失值优化所述卷积神经网络的参数。
根据权利要求7所述的图像处理方法，其中，所述损失函数表示为：L＝w ₁L _edge+w ₂L _alpha+w ₃L _foreground；

其中，L _edge为边缘损失函数、L _alpha为抠图蒙版损失函数、L _foreground为前景损失函数，w ₁、w ₂、w ₃为权值。
根据权利要求8所述的图像处理方法，其中，所述边缘损失函数表示为：L _edge＝|G(A _out)-G(A _gt)|；

其中，
G _x(A _out)＝K _x×A _out，G _y(A _out)＝K _y×A _out；

G _x(A _gt)＝K _x×A _gt，G _y(A _gt)＝K _y×A _gt；

K _x和K _y为边缘检测算子，A _out为训练分割图像，A _gt为训练图像对应的标准分割图像。
根据权利要求8所述的图像处理方法，其中，所述抠图蒙版损失函数表示为：L _alpha＝|A _out-A _gt|；

所述前景损失函数表示为：

其中，A _out为训练分割图像，A _gt为训练图像对应的标准分割图像，I为训练图像；
为训练分割图像A _out的第i个像素，
为标准分割图像A _gt的第i个像素，I ^ij为训练图像I的第i个像素的第j个通道。
根据权利要求1至10中任一项所述的图像处理方法，其中，所述输入图像为人物图像，所述目标分割图像为所述人物图像中目标人物的抠图蒙版。
一种图像处理装置，其中，包括：

图像获取模块，配置为获取输入图像；

图像处理模块，配置为通过编码器网络对所述输入图像进行下采样和特征提取，得到多个特征图；通过解码器网络对所述多个特征图进行上采样和特征提取，得到目标分割图像；

其中，所述编码器网络和解码器网络分别包括多个处理层级，所述编码器网络中第L个处理层级处理得到的多个特征图和解码器网络中第J个处理层级处理得到的多个特征图融合后，输入到所述解码器网络中第J+1个处理层级，其中，所述编码器网络中第L个处理层级处理得到的多个特征图和解码器网络中第J个处理层级处理得到的多个特征图具有相同的分辨率；L、J均为正整数；

其中，所述编码器网络的多个处理层级中至少一个处理层级包括密集计算块，所述解码器网络的多个处理层级中至少一个处理层级包括密集计算块；所述编码器网络和解码器网络中的第M个密集计算块包括N个卷积模块，所述N个卷积模块中的第i个卷积模块包括所述第i个卷积模块之前的i-1个卷积模块的输出；所述N个卷积模块中的至少一个卷积模块包括至少一组非对称卷积核；i、N、M均为整数，M大于或等于1且小于或等于所述编码器网络和解码器网络中的密集计算块的总数量，N大于或等于3，i大于或等于3且小于或等于N。
一种图像处理设备，其中，包括：存储器和处理器，所述存储器配置为存储程序指令，所述处理器执行所述程序指令时实现如权利要求1至11中任一项所述的图像处理方法的步骤。
一种计算机可读存储介质，其中，存储有程序指令，当所述程序指令被执行时实现如权利要求1至11中任一项所述的图像处理方法。