WO2023207531A1

WO2023207531A1 - 一种图像处理方法及相关设备

Info

Publication number: WO2023207531A1
Application number: PCT/CN2023/086194
Authority: WO
Inventors: 李傲雪; 李震国
Original assignee: 华为技术有限公司
Priority date: 2022-04-29
Filing date: 2023-04-04
Publication date: 2023-11-02
Also published as: CN117036658A

Abstract

本申请实施例公开了一种图像处理方法，可以应用于物体检测/分割场景。方法包括：获取带有标签的训练图像（401），训练图像包括前景物体与背景；基于训练图像、第一损失函数以及第二损失函数训练第一神经网络，得到第二神经网络，第二神经网络用于实现图像的检测/分割任务（402），第一损失函数为生成损失函数，第二损失函数为检测/分割损失函数。由于第一损失函数用于重建前景图像，可以使得编码器可以捕捉图像更多的纹理和结构特征，进而提高小样本物体检测的定位能力，提升包含编码器的第二神经网络的检测/分割效果。

Description

一种图像处理方法及相关设备

本申请要求于2022年4月29日提交中国专利局、申请号为202210468931.9、发明名称为“一种图像处理方法及相关设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及人工智能领域，尤其涉及一种图像处理方法及相关设备。

背景技术

人工智能(artificial intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。近年来，深度学习技术使得计算机在图像物体检测任务取得卓越性能。深度学习之所以能够取得如此巨大的成功，一个非常重要的因素是大数据，特别是大规模带标签的数据。但是人工获取标签的代价很高，甚至某些任务无法收集到大规模数据，比如，医学数据由于需要专业医生标注且涉及患者隐私，难以收集大量标注数据。在缺少标注数据的情形下，深度学习模型性能明显下降。

相比于深度网络，人类具有从少量样本中快速学习的能力。这是因为人类在生活中积累了各种知识以及人类天生的思考能力。知识的积累意味着人类是存在各种知识先验的，天生的思考能力意味着人类拥有强大的类比能力、泛化能力和强大的算力。以人类快速学习能力为启发，人们研究小样本学习这一问题，希望计算机能够像人类一样利用少量的标注知识快速学习新事物。另外，图像物体检测是计算机视觉的重要基本任务之一，在自动驾驶、工业视觉等领域都有重要应用。对于物体检测任务，获取标注数据的成本也非常大。

目前，为了缓解深度学习对标注数据的依赖，研究者提出了小样本物体检测任务。即给定一个大规模的训练集合作为原任务，小样本物体检测器从这些数据中学习可以迁移的知识。对于从未见过的新类别(和原任务的类别不重合)，利用每类少量标注的训练样例，检测器可以从未见过的测试图像中检测目标。

然而，由于小样本物体检测中的样本较少，导致定位的精度不高。

发明内容

本申请实施例提供了一种图像处理方法及相关设备，用于增加检测/分割模型对于物体的定位能力。

本申请实施例第一方面提供了一种图像处理方法，可以应用于物体检测/分割场景。该方法可以由训练装置/图像处理设备执行，也可以由训练装置/图像处理设备的部件(例如处理器、芯片、或芯片系统等)执行。该方法包括：获取带有标签的训练图像，训练图像包括前景物体与背景；基于训练图像、第一损失函数以及第二损失函数训练第一神经网络，得到第二神经网络，第二神经网络用于实现图像的检测/分割任务，第一神经网络包括编码器、解码器以及生成器，第二神经网络包括编码器与解码器；第一损失函数用于表示训练过程中基于第一神经网络中编码器与生成器生成的第一前景图像与第二前景图像之间的差异，第一前景图像包括前景物体，且不包括背景，第二前景图像为训练图像中扣除背景之后的图像，第二损失函数用于表示训练过程中基于第二神经网络中编码器与解码器得到的检测/分割结果与标签之间的差异。

本申请实施例中，通过第一损失函数与检测/分割的第二损失函数一起训练编码器，由于第一损失函数用于重建前景图像，可以使得编码器可以捕捉图像更多的纹理和结构特征，进而提高小样本物体检测的定位能力，提升包含该编码器的第二神经网络的检测/分割效果。

可选地，在第一方面的一种可能的实现方式中，上述的第一神经网络与第二神经网络还包括量子化模块，量子化模块用于将编码器输出的特征图进行更新，并将更新后的特征图分别输入至解码器与生成器。

该种可能的实现方式中，量子化模块可以将连续的特征空间转化为原型向量集合表示的离散特征空间。离散特征空间相较于高维连续空间更容易建模。

可选地，在第一方面的一种可能的实现方式中，上述的第一损失函数包括第三损失函数与第四损失函数，第三损失函数用于表示第一前景图像与第二前景图像之间的差异，第四损失函数用于表示在训练过程中特征图在量子化模块更新前后之间的差异。

该种可能的实现方式中，最小化该特征图的像素在更新前后的差异，可以引入损失对量子化模块进行训练，进而使得量子化模块将连续的特征空间转化为原型向量集合表示的离散特征空间。离散特征空间相较于高维连续空间更容易建模。

可选地，在第一方面的一种可能的实现方式中，上述的第一神经网络与第二神经网络还包括赋值模块，赋值模块用于更新特征图的索引，索引用于量子化模块对特征图进行更新。

该种可能的实现方式中，赋值模块可以实现不同像素的聚类中心的对齐，在预测每个像素的聚类中心的时候，不仅考虑当前像素，还要考虑其他相似像素的聚类中心，提升后续推理效果。

可选地，在第一方面的一种可能的实现方式中，上述的第一损失函数还包括第五损失函数，第五损失函数用于表示在训练过程中索引在赋值模块更新前后之间的差异。

该种可能的实现方式中，使用第五损失函数训练特征图在量子化模块更新前后之间的差异越来越小。使用第五损失函数训练索引在赋值模块更新前后之间的差异越来越小，即重新计算的索引值要尽量和原来通过最近邻聚类方法得到的索引值尽可能一致。

本申请实施例第二方面提供了一种图像处理方法，可以应用于物体检测/分割场景。该方法可以由图像处理设备执行，也可以由图像处理设备的部件(例如处理器、芯片、或芯片系统等)执行。该方法包括：获取第一图像；基于编码器提取第一图像的第一特征图；基于第一特征图与解码器得到第一图像的检测/分割结果；编码器与解码器由带有标签的训练图像、第一损失函数以及第二损失函数训练得到，训练图像包括前景物体与背景，第一损失函数用于表示训练过程中基于编码器与生成器生成的第一前景图像与第二前景图像之间的差异，第一前景图像包括前景物体，且不包括背景，第二前景图像为训练图像扣除背景以外的图像，第二损失函数用于表示训练过程中基于编码器与解码器得到的检测/分割结果与标签之间的差异。

本申请实施例中，通过第一损失函数与第二损失函数训练编码器，可以使得编码器可以学习到图像更多的纹理和结构特征，进而提高小样本物体检测的定位能力，提升包含该编码器的第二神经网络的检测/分割效果。

可选地，在第二方面的一种可能的实现方式中，上述步骤：基于第一特征图与解码器得到第一图像的检测/分割结果，包括：将第一特征图输入解码器得到检测/分割结果。

该种可能的实现方式中，直接将第一特征图输入解码器，由于解码器是通过第一损失函数与第二损失函数训练得到，得到的检测/分割结果可以具有更多的纹理和结构特征，

可选地，在第二方面的一种可能的实现方式中，上述步骤：基于第一特征图与解码器得到第一图像的检测/分割结果，包括：基于量子化模块更新第一特征图，得到第二特征图，量子化模块基于第四损失函数训练得到，第四损失函数用于表示在训练过程中编码器输出的训练图像的特征图在量子化模块更新前后之间的差异；将第二特征图输入解码器得到检测/分割结果。

该种可能的实现方式中，量子化模块将连续的特征空间转化为原型向量集合表示的离散特征空间。离散特征空间相较于高维连续空间更容易建模。

本申请实施例第三方面提供了一种图像处理设备(也可以是训练装置)，可以应用于物体检测/分割场景。该图像处理设备/训练装置包括：获取单元，用于获取带有标签的训练图像，训练图像包括前景物体与背景；训练单元，用于基于训练图像、第一损失函数以及第二损失函数训练第一神经网络，得到第二神经网络，第二神经网络用于实现图像的检测/分割任务，第一神经网络包括编码器、解码器以及生成器，第二神经网络包括编码器与解码器；第一损失函数用于表示训练过程中基于第一神经网络中编码器与生成器生成的第一前景图像与第二前景图像之间的差异，第一前景图像包括前景物体，且不包括背景，第二前景图像为训练图像中扣除背景之后的图像，第二损失函数用于表示训练过程中基于第二神经网络中编码器与解码器得到的检测/分割结果与标签之间的差异。

可选地，在第三方面的一种可能的实现方式中，上述的第一神经网络与第二神经网络还包括量子化模块，量子化模块用于将编码器输出的特征图进行更新，并将更新后的特征图分别输入至解码器与生成器。

可选地，在第三方面的一种可能的实现方式中，上述的第一损失函数包括第三损失函数与第四损失函数，第三损失函数用于表示第一前景图像与第二前景图像之间的差异，第四损失函数用于表示在训练过程中特征图在量子化模块更新前后之间的差异。

可选地，在第三方面的一种可能的实现方式中，上述的第一神经网络与第二神经网络还包括赋值模块，赋值模块用于更新特征图的索引，索引用于量子化模块对特征图进行更新。

可选地，在第三方面的一种可能的实现方式中，上述的第一损失函数还包括第五损失函数，第五损失函数用于表示在训练过程中索引在赋值模块更新前后之间的差异。

本申请实施例第四方面提供了一种图像处理设备，可以应用于物体检测/分割场景。该图像处理设备包括：获取单元，用于获取第一图像；提取单元，用于基于编码器提取第一图像的第一特征图；处理单元，用于基于第一特征图与解码器得到第一图像的检测/分割结果；编码器与解码器由带有标签的训练图像、第一损失函数以及第二损失函数训练得到，训练图像包括前景物体与背景，第一损失函数用于表示训练过程中基于编码器与生成器生成的第一前景图像与第二前景图像之间的差异，第一前景图像包括前景物体，且不包括背景，第二前景图像为训练图像扣除背景以外的图像，第二损失函数用于表示训练过程中基于编码器与解码器得到的检测/分割结果与标签之间的差异。

可选地，在第四方面的一种可能的实现方式中，上述的处理单元，具体用于将第一特征图输入解码器得到检测/分割结果。

可选地，在第四方面的一种可能的实现方式中，上述的处理单元，具体用于基于量子化模块更新第一特征图，得到第二特征图，量子化模块基于第四损失函数训练得到，第四损失函数用于表示在训练过程中编码器输出的训练图像的特征图在量子化模块更新前后之间的差异；处理单元，具体用于将第二特征图输入解码器得到检测/分割结果。

本申请第五方面提供了一种图像处理设备，包括：处理器，处理器与存储器耦合，存储器用于存储程序或指令，当程序或指令被处理器执行时，使得该图像处理设备实现上述第一方面或第一方面的任意可能的实现方式中的方法，或者使得该图像处理设备实现上述第二方面或第二方面的任意可能的实现方式中的方法。

本申请第六方面提供了一种计算机可读介质，其上存储有计算机程序或指令，当计算机程序或指令在计算机上运行时，使得计算机执行前述第一方面或第一方面的任意可能的实现方式中的方法，或者使得计算机执行前述第二方面或第二方面的任意可能的实现方式中的方法。

本申请第七方面提供了一种计算机程序产品，该计算机程序产品在计算机上执行时，使得计算机执行前述第一方面或第一方面的任意可能的实现方式中的方法，使得计算机执行前述第二方面或第二方面的任意可能的实现方式中的方法。

其中，第三、第五、第六、第七方面或者其中任一种可能实现方式所带来的技术效果可参见第一方面或第一方面不同可能实现方式所带来的技术效果，此处不再赘述。

其中，第四、第五、第六、第七方面或者其中任一种可能实现方式所带来的技术效果可参见第二方面或第二方面不同可能实现方式所带来的技术效果，此处不再赘述。

从以上技术方案可以看出，本申请实施例具有以下优点：通过第一损失函数与检测/分割的第二损失函数一起训练编码器，由于第一损失函数用于重建前景图像，可以使得编码器可以捕捉图像更多的纹理和结构特征，进而提高小样本物体检测的定位能力，提升包含该编码器的第二神经网络的检测/分割效果。

附图说明

图1为本申请实施例提供的系统架构的结构示意图；

图2为本申请实施例提供的一种芯片硬件结构示意图；

图3A为本申请实施例提供的图像处理系统的一个结构示意图；

图3B为本申请实施例提供的图像处理系统的另一结构示意图；

图4为本申请实施例提供的图像处理方法一个流程示意图；

图5为本申请实施例提供的第二神经网络的一个训练流程示意图；

图6为本申请实施例提供的第二神经网络的另一个训练流程示意图；

图7为本申请实施例提供的增加量子化模块后的一个训练流程示意图；

图8为本申请实施例提供的增加量子化模块后的另一个训练流程示意图；

图9为本申请实施例提供的图像处理方法另一个流程示意图；

图10至图12为本申请实施例提供的图像处理设备的几个结构示意图。

具体实施方式

为了解决上述技术问题，本申请实施例提供一种图像处理方法及相关设备，通过第一损失函数与检测/分割的第二损失函数一起训练编码器，由于第一损失函数用于重建前景图像，可以使得编码器可以捕捉更多图像的纹理和结构特征，进而提高小样本物体检测的定位能力，提升包含该编码器的第二神经网络的检测/分割效果。下面将结合附图对本申请实施例的图像处理方法及相关设备进行详细的介绍。

为了便于理解，下面先对本申请实施例主要涉及的相关术语和概念进行介绍。

1、神经网络

神经网络可以是由神经单元组成的，神经单元可以是指以X_s和截距1为输入的运算单元，该运算单元的输出可以为：

其中，s＝1、2、……n，n为大于1的自然数，W_s为X_s的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，用于将非线性特性引入神经网络中，来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入。激活函数可以是Relu函数。神经网络是将许多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

神经网络中的每一层的工作可以用数学表达式y＝a(Wx+b)来描述：从物理层面神经网络中的每一层的工作可以理解为通过五种对输入空间(输入向量的集合)的操作，完成输入空间到输出空间的变换(即矩阵的行空间到列空间)，这五种操作包括：1、升维/降维；2、放大/缩小；3、旋转；4、平移；5、“弯曲”。其中1、2、3的操作由Wx完成，4的操作由+b完成，5的操作则由a()来实现。这里之所以用“空间”二字来表述是因为被分类的对象并不是单个事物，而是一类事物，空间是指这类事物所有个体的集合。其中，W是权重向量，该向量中的每一个值表示该层神经网络中的一个神经元的权重值。该向量W决定着上文的输入空间到输出空间的空间变换，即每一层的权重W控制着如何变换空间。训练神经网络的目的，也就是最终得到训练好的神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。因此，神经网络的训练过程本质上就是学习控制空间变换的方式，更具体的就是学习权重矩阵。

2、卷积神经网络

卷积神经网络(convolutional neuron network，CNN)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器，卷积过程可以看作是使同一个可训练的滤波器与一个输入的图像或者卷积特征平面(feature map)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。这其中隐含的原理是：图像的某一部分的统计信息与其他部分是一样的。即意味着在某一部分学习的图像信息也能用在另一部分上。所以对于图像上的所有位置，都能使用同样的学习得到的图像信息。在同一卷积层中，可以使用多个卷积核来提取不同的图像信息，一般地，卷积核数量越多，卷积操作反映的图像信息越丰富。

卷积核可以以随机大小的矩阵的形式初始化，在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络各层之间的连接，同时又降低了过拟合的风险。

3、深度学习

深度学习(deep learning)是一类基于深层次神经网络算法的机器学习技术，其主要特征是使用多重非线性变换构对数据进行处理和分析。主要应用于人工智能领域的感知、决策等场景，例如图像和语音识别、自然语言翻译、计算机博弈等。

4、损失函数

在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到神经网络能够预测出真正想要的目标值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

下面介绍本申请实施例提供的系统架构。

参见附图1，本发明实施例提供了一种系统架构100。如系统架构100所示，数据采集设备160用于采集训练数据，本申请实施例中训练数据包括：多个不同模态的数据。其中，模态可以是指文本、图像、视音频。例如：训练数据可以包括带标签的训练图像等等。并将训练数据存入数据库130，训练设备120基于数据库130中维护的训练数据训练得到目标模型/规则101。下面将更详细地描述训练设备120如何基于训练数据得到目标模型/规则101，该目标模型/规则101能够用于实现本申请实施例提供的图像处理方法所应用的计算机视觉任务。该计算机视觉任务可以包括：分类任务、分割任务、检测任务或图像生成任务等。需要说明的是，在实际的应用中，数据库130中维护的训练数据不一定都来自于数据采集设备160的采集，也有可能是从其他设备接收得到的。另外需要说明的是，训练设备120也不一定完全基于数据库130维护的训练数据进行目标模型/规则101的训练，也有可能从云端或其他地方获取训练数据进行模型训练，上述描述不应该作为对本申请实施例的限定。

根据训练设备120训练得到的目标模型/规则101可以应用于不同的系统或设备中，如应用于图1所示的执行设备110，执行设备110可以是终端，如手机终端，平板电脑，笔记本电脑，增强现实(augmented reality，AR)设备/虚拟现实(virtual reality，VR)设备，车载终端等。当然，执行设备110还可以是服务器或者云端等。在附图1中，执行设备110配置有I/O接口112，用于与外部设备进行数据交互，用户可以通过客户设备140向I/O接口112输入数据，输入数据在本申请实施例中可以包括：第一图像。另外该输入数据可以是用户输入的，也可以是用户通过拍摄设备上传的，当然还可以来自数据库，具体此处不做限定。

预处理模块113用于根据I/O接口112接收到的第一图像进行预处理，在本申请实施例中，预处理模块113可以用于对第一图像进行翻转、平移、裁剪、颜色变换等处理。

在执行设备110对输入数据进行预处理，或者在执行设备110的计算模块111执行计算等相关的处理过程中，执行设备110可以调用数据存储系统150中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储系统150中。

最后，I/O接口112将处理结果，如得到的上述检测/分割结果返回给客户设备140，从而提供给用户。

值得说明的是，训练设备120可以针对不同的目标或称不同的任务，基于不同的训练数据生成相应的目标模型/规则101，该相应的目标模型/规则101即可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。

在附图1中所示情况下，用户可以手动给定输入数据，该手动给定可以通过I/O接口112提供的界面进行操作。另一种情况下，客户设备140可以自动地向I/O接口112发送输入数据，如果要求客户设备140自动发送输入数据需要获得用户的授权，则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备140也可以作为数据采集端，采集如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据，并存入数据库130。当然，也可以不经过客户设备140进行采集，而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果，作为新的样本数据存入数据库130。

值得注意的是，附图1仅是本发明实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在附图1中，数据存储系统150相对执行设备110是外部存储器，在其它情况下，也可以将数据存储系统150置于执行设备110 中。

如图1所示，根据训练设备120训练得到目标模型/规则101，本申请实施例中的目标模型/规则101具体可以为目标神经网络。

下面介绍本申请实施例提供的一种芯片硬件结构。

图2为本发明实施例提供的一种芯片硬件结构，该芯片包括神经网络处理器20。该芯片可以被设置在如图1所示的执行设备110中，用以完成计算模块111的计算工作。该芯片也可以被设置在如图1所示的训练设备120中，用以完成训练设备120的训练工作并输出目标模型/规则101。

神经网络处理器20可以是神经网络处理器(neural-network processing unit，NPU)，张量处理器(tensor processing unit，TPU)，或者图形处理器(graphics processing unit，GPU)等一切适合用于大规模异或运算处理的处理器。以NPU为例：神经网络处理器20作为协处理器挂载到主中央处理器(central processing unit，CPU)(host CPU)上，

由主CPU分配任务。NPU的核心部分为运算电路203，控制器204控制运算电路203提取存储器(权重存储器或输入存储器)中的数据并进行运算。

在一些实现中，运算电路203内部包括多个处理单元(process engine，PE)。在一些实现中，运算电路203是二维脉动阵列。运算电路203还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路203是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路203从权重存储器202中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器201中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器208中。

向量计算单元207可以对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。例如，向量计算单元207可以用于神经网络中非卷积/非FC层的网络计算，如池化(Pooling)，批归一化(Batch Normalization)，局部响应归一化(Local Response Normalization)等。

在一些实现中，向量计算单元能207将经处理的输出的向量存储到统一缓存器206。例如，向量计算单元207可以将非线性函数应用到运算电路203的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元207生成归一化的值、合并值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路203的激活输入，例如用于在神经网络中的后续层中的使用。

统一存储器206用于存放输入数据以及输出数据。

权重数据直接通过存储单元访问控制器205(direct memory access controller，DMAC)将外部存储器中的输入数据搬运到输入存储器201和/或统一存储器206、将外部存储器中的权重数据存入权重存储器202，以及将统一存储器206中的数据存入外部存储器。

总线接口单元(bus interface unit，BIU)210，用于通过总线实现主CPU、DMAC和取指存储器209之间进行交互。

与控制器204连接的取指存储器(instruction fetch buffer)209，用于存储控制器204使用的指令。

控制器204，用于调用指存储器209中缓存的指令，实现控制该运算加速器的工作过程。

一般地，统一存储器206，输入存储器201，权重存储器202以及取指存储器209均为片上(On-Chip)存储器，外部存储器为该NPU外部的存储器，该外部存储器可以为双倍数据率同步动态随机存储器(double data rate synchronous dynamic random access memory，简称DDR SDRAM)、高带宽存储器(high bandwidth memory，HBM)或其他可读可写的存储器。

接下来介绍几种本申请的应用场景。

图3A为本申请实施例提供的图像处理系统的一个结构示意图，该图像处理系统包括终端设备(图3A中仅以终端设备是手机为例)以及图像处理设备。可以理解的是，终端设备除了可以是手机之外，还可以是平板电脑(pad)、便携式游戏机、掌上电脑(personal digital assistant，PDA)、笔记本电脑、超级移动个人计算机(ultra mobile personal computer，UMPC)、手持计算机、上网本、车载媒体播放设备、可穿戴电子设备、虚拟现实(virtual reality，VR)终端设备、增强现实(augmented reality，AR)、车辆、车载终端、飞机终端、智能机器人等终端设备。终端设备为图像处理的发起端，作为图像处理请求的发起方，通常由用户通过终端设备发起请求。

上述图像处理设备可以是云服务器、网络服务器、应用服务器以及管理服务器等具有图像处理功能的设备或服务器。图像处理设备通过交互接口接收来自终端设备的图像处理请求，再通过存储数据的存储器以及图像处理的处理器环节进行机器学习，深度学习，搜索，推理，决策等方式的图像处理。图像处理设备中的存储器可以是一个统称，包括本地存储以及存储历史数据的数据库，数据库可以在图像处理设备上，也可以在其它网络服务器上。

在图3A所示的图像处理系统中，终端设备可以接收用户的指令，例如终端设备可以获取用户输入/选择的多个数据(例如：终端设备通过终端设备采集的图像、文本、音频等)，然后向图像处理设备发起请求，使得图像处理设备针对终端设备得到的该多个数据执行图像处理应用(例如，分类、分割、检测、图像生成等的计算机视觉任务)，从而得到针对多个数据的对应的处理结果。示例性的，终端设备可以获取用户输入的图像，然后向图像处理设备发起图像检测请求，使得图像处理设备对该图像进行检测，从而得到图像的检测结果，并显示图像的检测结果，以供用户观看和使用。

在图3A中，图像处理设备可以执行本申请实施例的图像处理方法。

图3B为本申请实施例提供的图像处理系统的另一结构示意图，在图3B中，终端设备(图3B中仅以终端设备是手机为例)直接作为图像处理设备，该终端设备能够直接获取图像，并直接由终端设备本身的硬件进行处理，具体过程与图3A相似，可参考上面的描述，在此不再赘述。

可选地，在图3B所示的图像处理系统中，终端设备可以接收用户的指令，例如终端设备可以获取用户在终端设备中所选择的多张图像，然后再由终端设备自身针对该图像执行图像处理应用(例如，分类、分割、检测、图像生成等的计算机视觉任务)，从而得到针对该图像的对应的处理结果，并显示处理结果，以供用户观看和使用。

可选地，在图3B所示的图像处理系统中，终端设备可以实时或周期性的采集图像，然后再由终端设备自身针对该图像执行图像处理应用(例如，分类、分割、检测、图像生成等计算机视觉任务)，从而得到针对该图像的对应的处理结果，并根据处理结果实现功能(分类功能、分割功能、检测功能、图像生成功能等等)。

在图3B中，终端设备自身就可以执行本申请实施例的图像处理方法。

上述图3A和图3B中的终端设备具体可以是图1中的客户设备140或执行设备110，图3A中的图像处理设备具体可以是图1中的执行设备110，其中，数据存储系统150可以存储执行设备110的待处理数据，数据存储系统150可以集成在执行设备110上，也可以设置在云上或其它网络服务器上。

图3A和图3B中的处理器可以通过神经网络模型或者其它模型(例如注意力模型、MLP等)进行数据训练/机器学习/深度学习，并利用数据最终训练或者学习得到的模型针对多个数据执行图像处理应用，从而得到相应的处理结果。

本申请实施例提供的图像处理方法可以应用于多种场景，下面分别进行描述。

第一种，自动驾驶领域。

基于深度学习的检测模型擅于检测常见类别(比如汽车、行人)，但是难以准确检测罕见的样例，比如路边的垃圾袋、掉落的轮胎、摆放在路中的三角锥等。但是这些障碍物的误检和漏检可能导致严重后果。通过本申请实施例提出的图像处理方法(也可以称为小样本物体检测算法)，可以改善检测模型在包含少量标注样本的类别上的检出，提高检测模型的精度和召回率。

第二种，铁路、电网故障检测。

铁路行业货车检测每年人力投入约10亿元，此外还有客车、动车、线路等大颗粒故障检测场景；电网输、变、配电巡检预估未来5年规模240+亿。由于故障发生几率少且需要人为的标注，收集标注样本困难；而且外部环境变化导致成像变化大，故障类内差别明显。本申请实施例提出的图像处理方法(也可以称为小样本物体检测算法)可以有效处理具有少量标注样本的故障检测任务，这一模型可以部署到云上，给外部的客户提供高效的服务。

可以理解的是，上述两种场景只是举例，在实际应用中，本申请实施例还可以应用于其他的小样本物体检测/分割等场景，具体此处不做限定。

下面结合附图对本申请实施例的神经网络的训练方法和图像处理方法进行详细的介绍。

先结合图4对本申请实施例的神经网络的训练方法进行详细介绍。图4所示的方法可以由神经网络的训练装置来执行，该神经网络的训练装置可以是云服务设备，也可以是终端设备，例如，电脑、服务器等运算能力足以用来执行推荐网络的训练方法的装置，也可以是由云服务设备和终端设备构成的系统。示例性地，该训练方法可以由图1中的训练设备120、图2中的神经网络处理器20执行。

可选地，该训练方法可以由CPU处理，也可以由CPU和GPU共同处理，也可以不用GPU，而使用其他适合用于神经网络计算的处理器，本申请不做限制。

该训练方法包括步骤401与步骤402。下面对步骤401与步骤402进行详细说明。

步骤401，获取带有标签的训练图像。

本申请实施例中，训练装置获取训练图像的方式有多种，可以是通过采集/拍摄的方式，也可以是通过接收其他设备发送的方式，还可以是从数据库中选取的方式等，具体此处不做限定。

本申请实施例中的训练图像包括前景图像与背景，一般情况下，该前景图像是用户指定设备需要识别的部分。

可选地，训练图像的标签可以通过人工或输入模型等方式获取，具体此处不做限定。若应用于检测场景，该标签可以是图像中各对象的类别和/或对象边缘的外接长方形框。若应用于分割场景，该标签可以是像素的分类标签，或者理解为图像中每个像素对应的类别。

可选地，若应用于自动驾驶场景，训练装置可以是车辆，训练图像可以是车辆实时采集的数据，也可以是周期性采集的数据，具体此处不做限定。

步骤402，基于训练图像、第一损失函数以及第二损失函数训练第一神经网络，得到第二神经网络，第二神经网络用于实现图像的检测/分割任务。

训练装置获取训练图像之后，可以基于训练图像、第一损失函数、第二损失函数训练第一神经网络，得到第二神经网络。其中，第一神经网络包括编码器、解码器以及生成器，第二神经网络包括第一神经网络中的编码器与解码器。也可以理解为，第一神经网络包括第二神经网络与生成器。第一损失函数用于表示训练过程中基于第一神经网络中编码器与生成器生成的第一前景图像与第二前景图像之间的差异，该第一前景图像包括前景物体，不包括背景，第二前景图像为训练图像中扣除背景之后的图像。第二损失函数用于表示训练过程中基于第二神经网络中编码器与解码器得到的检测/分类结果与标签之间的差异。

本申请实施例中的第一损失函数可以理解为是生成损失函数，第二损失函数可以理解为是检测/分割损失函数，通过这两部分损失函数训练编码器，可以使得编码器可以学习到图像更多的纹理和结构特征，进而提高小样本物体检测的定位能力，提升包含该编码器的第二神经网络的检测/分割效果。

示例性的，第一损失函数的一种示例如公式一所示：

公式一：L_rec＝||D(Q)-x m||；

其中，L_rec表示第一损失函数，D表示解码器，Q表示特征图，可以是编码器输出的特征图，也可以是后续量子化模块更新后的特征图，x表示训练图像，表示点对点的乘法算子，m表示一个二值化的掩膜，大小与训练图像相同，可以根据标注信息，前景物体的像素设为1，背景的像素设为0。

可以理解的是，上述第一损失函数的公式只是举例，在实际应用中，还可以有其它形式的公式，如公式二所示，具体对于第一损失函数的具体结构不做限定。

公式二：L_rec＝||D(Q₀，Q₁，Q₂)-x m||；

其中，Q₀、Q₁、Q₂可以表示训练图像经过编码器得到的三个尺度的特征图，也可以表示后续量子化模块更新后的三个尺度特征图，其余参数的描述可参考公式一，此处不再赘述。

本申请实施例中，第二损失函数可以是绝对值损失函数、对数损失函数、指数损失函数、交叉熵损失函数等等，可以根据实际需要设置，具体此处不做限定。

本步骤也可以理解为是，利用生成模型作为约束，优化检测/分割模型的定位特征。

示例性的，训练装置基于训练图像、第一损失函数以及第二损失函数训练第一神经网络，得到第二神经网络的具体过程可以如图5所示。将训练图像输入编码器得到该训练图像的特征图，一方面将该特征图输入生成器生成第一前景图像，另一方面将该特征图输入解码器得到检测/分割结果。将训练图像中的背景去除得到第二前景图像。再使用第一损失函数训练编码器与生成器，使得基于编码器与生成器输出的第一前景图像与第二前景图像之间的差异越来越小。再使用第二损失函数训练编码器与解码器，使得基于编码器与解码器输出的检测/分类结果与标签的差异越来越小。

可选地，第一神经网络与第二神经网络还可以包括量子化模块，该量子化模块用于将编码器输出的特征图(F_i)进行更新，i用于指示层数，为大于或等于1的整数，并将更新后的特征图分别输入至生成器与解码器。该量子化模块可以使用原型向量集合对特征图进行更新，n为大于1的整数。例如：将F_i中的每个像素被替换成V_i中和最邻近的原型向量j用于指示层数中的位置，为大于或等于1的整数，k在1至n之间。该替换过程可以看作是一种聚类的过程，其中，原型向量是聚类中心，每个输入的像素被指定为距离该像素最近的聚类中心。为了保证聚类的可靠性，通过引入后续所提的第四损失函数学习有效的聚类过程。

进一步的，为了最小化该特征图的像素在更新前后的差异，可以引入损失对量子化模块进行训练，进而使得量子化模块将连续的特征空间转化为原型向量集合表示的离散特征空间。离散特征空间相较于高维连续空间更容易建模。换句话说，第一损失函数可以包括第三损失函数与第四损失函数，该第三损失函数用于表示前述第一前景图像与第二前景图像之间的差异，第四损失函数用于表示编码器输出的特征图在量子化模块更新前后之间的差异。即生成损失函数包括第三损失函数与第四损失函数。可以理解的是，量子化模块的数量可以与编码器输出特征图的数量一一对应，编码器输出特征图的数量可以理解为编码器可以得到多尺度的特征图。该种情况下，第三损失函数可以如前述公式一或公式二所示，第四损失函数可以如公式三所示。

公式三：

其中，L_qt表示第四损失函数，W表示特征图的宽度，H表示特征图的高度，其余参数可参考之前的描述，此处不再赘述。

可以理解的是，上述第四损失函数的公式只是举例，在实际应用中，还可以有其它形式的公式，具体对于第四损失函数的具体结构不做限定。

示例性的，第一神经网络与第二神经网络引入量子化模块后，训练过程可以如图6所示，将训练图像输入编码器得到该训练图像的特征图，量子化模块对该特征图进行更新，一方面将更新后的特征图输入生成器生成第一前景图像，另一方面将更新后的特征图输入解码器得到检测/分割结果。将训练图像中的背景去除得到第二前景图像。再使用第三损失函数与第四损失函数训练编码器、量子化模块以及生成器，使得基于编码器、量子化模块以及输出的第一前景图像与第二前景图像之间的差异越来越小。再使用第二损失函数训练编码器与解码器，使得基于编码器与解码器输出的检测/分类结果与标签的差异越来越小。再使用第四损失函数训练特征图在量子化模块更新前后之间的差异越来越小。例如，以编码器输出三个尺度不同的特征图(如前述所提的Q₀、Q₁、Q₂)为例，训练过程可以如图7所示，为了提升各个特征图的感受野，可以引入如图7中所示的拼接操作，也可以理解为是残差结构。

另外，上述聚类过程仅考虑每个像素和聚类中心的关系，并未考虑多个像素之间的关联，这对聚类过程是有害的，使得聚类的结果不可靠。因此，在预测每个像素的聚类中心的时候，不仅考虑当前像素，还要考虑其他相似像素的聚类中心，因此，第一神经网络与第二神经网络还可以包括赋值模块，该赋值模块用于更新特征图的索引，该索引用于量子化模块对特征图进行更新。换句话说，赋值模块可以实现不同像素的聚类中心的对齐。该情况下的训练过程可以如图8所示，将训练图像输入编码器得到该训练图像的特征图，量子化模块对该特征图的像素进行更新，得到量化向量。再将量化向量的索引输入赋值模块进行更新。使用第五损失函数训练特征图在量子化模块更新前后之间的差异越来越小。使用第五损失函数训练索引在赋值模块更新前后之间的差异越来越小，即重新计算的索引值要尽量和原来通过最近邻聚类方法得到的索引值尽可能一致。提出第五损失函数可以提升量化精度，提升生成模型

(包括编码器、生成器)对于前景图像的重建能力。

示例性的，更新索引的过程如公式四所示。

公式四：

其中，表示赋值模块更新后的索引，A表示赋值模块，l表示像素f_i通过最近邻方法计算的原型索引值；表示通过最近邻方法计算的索引值，sim表示相似度计算函数，用于计算与的相似度，O表示one-hot嵌入函数，可以将索引变成二值向量。

可以理解的是，上述更新索引的公式只是举例，在实际应用中，还可以有其它形式的公式，对于更新索引的具体过程不做限定。

本申请实施例中的第五损失函数可以如公式五所示。

公式五：

其中，L_align表示第五损失函数，W表示特征图的宽度，H表示特征图的高度，其余参数可以参考前述公式四中的描述，此处不再赘述。

可以理解的是，上述第五损失函数只是举例，在实际应用中，还可以有其它形式的第五损失函数，此处对于第五损失函数的具体公式不做限定。

上述的第三损失函数、第四损失函数以及第五损失函数可以理解为是生成损失函数，用于再更新生成器的过程中使得编码器可以学习到更多的结果纹理特征，进而提升后续包括编码器的第二神经网络进行检测/分割任务的精度。

上面对神经网络的训练方法进行了详细描述，下面对本申请实施例提供的图像处理方法进行详细的介绍。该方法可以由图像处理设备执行，也可以由图像处理设备的部件(例如处理器、芯片、或芯片系统等)执行。该图像处理设备可以是云端设备(如前述图3A所示)，也可以是终端设备(例如图3B所示的手机)。当然，该方法也可以是由云端设备和终端设备构成的系统执行(如前述图3A所示)。可选地，该方法可以由图像处理设备中的CPU处理，也可以由CPU和GPU共同处理，也可以不用GPU，而使用其他适合用于神经网络计算的处理器，本申请不做限制。

上述的终端设备可以是手机、平板电脑(pad)、便携式游戏机、掌上电脑(personal digital assistant，PDA)、笔记本电脑、超级移动个人计算机(ultra mobile personal computer，UMPC)、手持计算机、上网本、车载媒体播放设备、可穿戴电子设备、虚拟现实(virtual reality，VR)终端设备、增强现实(augmented reality，AR)终端设备等终端产品。

本申请实施例提供的方法所适用的应用场景可以是自动驾驶领域、铁路/电网故障检测等小样本物体检测/分割场景。请参阅图9，本申请实施例提供的图像处理方法的一个流程示意图，该方法可以包括步骤901至步骤903。下面对步骤901至步骤903进行详细说明。

步骤901，获取第一图像。

本申请实施例中，图像处理设备获取第一图像的方式有多种，可以是通过采集/拍摄的方式，也可以是通过接收其他设备发送的方式，还可以是从数据库中选取的方式等，具体此处不做限定。

可选地，若应用于自动驾驶场景，图像处理设备可以是车辆，第一图像可以是车辆实时采集的数据，也可以是周期性采集的数据，具体此处不做限定。

步骤902，基于编码器提取第一图像的第一特征图。

本申请实施例中的编码器、解码器可以是由前述图4所示实施例提供的训练方法训练所得到的。

该编码器与解码器由带有标签的训练图像、第一损失函数以及第二损失函数训练得到，该训练图像包括前景物体与背景，第一损失函数用于表示训练过程中基于编码器与生成器生成的第一前景图像与第二前景图像之间的差异，第一前景图像包括前景物体，且不包括背景，第二前景图像为训练图像扣除背景以外的图像，第二损失函数用于表示训练过程中基于编码器与解码器得到的检测/分割结果与标签之间的差异。其中，对于第一损失函数、第二损失函数等的描述可以参考前述图4所示实施例中的描述，此处不再赘述。

步骤903，基于第一特征图与解码器得到第一图像的检测/分割结果。

图像处理设备获取第一特征图之后，可以基于第一特征图与解码器得到第一图像的检测/分割结果。

本申请实施例中，基于第一特征图与解码器得到第一图像的检测/分割结果有多种方式，下面分别描述：

第一种，将第一特征图输入解码器得到检测/分割结果。

第二种，将第一特征图输入量子化模块得到第二特征图，也可以理解为是基于量子化模块更新第一特征图得到第二特征图。该量子化模块基于第四损失函数训练得到，第四损失函数用于表示在训练过程中编码器输出的训练图像的特征图在量子化模块更新前后之间的差异，再将第二特征图输入解码器得到检测/分割结果。

进一步的，上述第二种情况中，还可以使用赋值模块对第二特征图的索引进行更新，以便于量子化模块使用更新后的索引更新第一特征图得到第二特征图。该量子化模块基于第五损失函数训练得到，第五损失函数用于表示在训练过程中索引在赋值模块更新前后之间的差异。

本实施例中，各损失函数(例如第一损失函数、第二损失函数、第三损失函数、第四损失函数、第五损失函数)的描述可以参考前述图4所示实施例中的描述，此处不再赘述。

可选地，本实施例中的整体过程可以看做是将第一图像输入如前述图4所示实施例中训练好的第二神经网络中执行检测/分割任务，得到检测/分割结果。

本实施例中，通过第一损失函数与第二损失函数训练编码器，可以使得编码器可以学习到图像更多的纹理和结构特征，进而提高小样本物体检测的定位能力，提升包含该编码器的第二神经网络的检测/分割效果。

为了更直观的看出本申请实施例方法带来的有益效果，下面结合在物体检测数据集MS-COCO为例描述使用本申请实施例的方法训练出来的模型的有益效果。

首先，介绍下MS-COCO数据集，该MS-COCO数据集一共包括80k个训练样本、40k个验证样本和20k个测试样本，覆盖80个类别。其中，20个类设置为新任务类别，其余的60个类设置为原任务类别。20k个测试样本中的5k张图像中属于20个新任务类别的图像用于模型性能评价，80k个训练样本的图像用于模型训练。

在小样本物体检测中，给定一个原任务，是Ns个类别的检测任务，每个类别都具有大量标注样本。同时，还有一新任务，是Nt个类别的检测任务，每个类只有K个标注样本。其中，原任务和新任务的类别没有重合。标准小样本物体检测的目标是为新任务学习一个检测器。

该检测器有两种情况，下面分别描述：

第一种，检测器为一个Nt类的检测器。训练过程如下：

1.原任务预训练：首先用Ns个类别的训练数据充分训练图5/图6所示的网络，得到一个Ns个类别的检测器。

2.新任务微调：然后修改网络的最后一层，使其输出为Nt个神经元，除了网络最后一层随机初始化之外，其他层均利用Ns个类别的检测器的参数进行初始化。利用新任务的少量数据微调网络参数。

使用训练好的检测器(即第二神经网络)进行小样本物体检测，测试数据来自新任务的类别。衡量指标包括不同交并比下的平均准确率(average precision，AP)，一般情况下，上述的不同交并比为0.5-0.95之间以0.05间隔所取的10个值，每个值对应一个准确率，10个值取平均为平均准确率。例如：AP₅₀指预测框和目标框的交并比大于0.5才作为检出时AP的值，AP₇₅指预测框和目标框的交并比大于0.75才作为检出时AP的值，AP也可以理解为是指不同交并比阈值下AP的均值。这些指标越大说明检测模型性能越好。

分别使用现有小样本物体检测算法与本申请实施例提供的方法训练得到的模型：(也可以称为GLFR)在MS-COCO数据集上进行实验，实验结果如表1所示。其中，现有小样本物体检测算法包括：少样本迁移检测器(low-shot transfer detector，LSTD)、元区域检测器(meta region-based convolutional neural network，Meta RCNN)、变换不变的小样本检测器(Transformation invariant Few-shot object detection，TIP)、基于上下文融合的密集关联蒸馏(Dense relation distillation with context-aware aggregation，DCNet)、查询自适应的小样本物体检测器(Query adaptive few-shot object detector，QA-FewDet)、两阶段微调算法(two-stage finetune algorithm，TFA)、基于多尺度正例精化的小样本物体检测(Multi-scale positive sample refinement for few-shot object detection，MSPR)、基于类别间隔均衡的小样本物体检测器(Class margin equilibrium for few-shot object detection，CME)、基于分类细化和干扰器再处理的小样本目标检测(Few-shot object detection via classification refinement and distractor retreatment，CRDR)、基于语义关系推理的小样本物体检测器(Semantic relation reasoning for few-shot object detection，SRR-FSOD)、通用原型增强的小样本检测器(Universal-prototype enhancing for few-shot object detection，FSOD^up)、基于对比候选编码的小样本物体检测(few-shot object detection via contrastive proposal encoding，FSCE)、解耦的快速区域神经网络(Decoupled faster R-CNN，DeFRCN)。

表1

其中，表1给出了MS-COCO数据集上的实验结果，分别在每个新类给出10张和30张图像(K-shot＝10或者30)作为训练集。从表1可以看出，在标准小样本物体检测的设置下，本申请实施例提供的方法训练得到的模型(即GLFR)显著超过了其他小样本物体检测算法。

第二种，检测器为一个Ns+Nt个类别的同时检测类的检测器。训练过程如下：

2.新任务微调：然后修改网络的最后一层，使其输出为Nt+Ns个神经元，除了网络最后一层随机初始化之外，其他层均利用Ns个类别的检测器的参数进行初始化。对于原任务的Ns类别，每个类别从训练数据中随机采样K个样本，对于新任务，则利用所有训练数据，组合这两部分数据构成一个均衡的微调数据集，利用该数据集微调整个网络的参数。

该种情况仍在物体检测数据集MS-COCO进行评测。设置和前述第一种情况类似，区别在于验证集中的5k图像中均用于模型性能评价。分别使用现有小样本物体检测算法与GLFR在MS-COCO数据集上进行实验，实验结果如表2所示：

表2

其中，表2给出了MS-COCO数据集上的实验结果，分别在每个新类给出10张和30张图像(K-shot＝10或者30)作为训练集。从表2可以看出，在标准小样本物体检测的设置下，本申请实施例提供的方法训练得到的模型(即GLFR)显著超过了其他小样本物体检测算法。

上面对本申请实施例中的图像处理方法进行了描述，下面对本申请实施例中的图像处理设备进行描述，请参阅图10，本申请实施例中图像处理设备的一个实施例包括：

获取单元1001，用于获取带有标签的训练图像，训练图像包括前景物体与背景；

训练单元1002，用于基于训练图像、第一损失函数以及第二损失函数训练第一神经网络，得到第二神经网络，第二神经网络用于实现图像的检测/分割任务，第一神经网络包括编码器、解码器以及生成器，第二神经网络包括编码器与解码器；第一损失函数用于表示训练过程中基于第一神经网络中编码器与生成器生成的第一前景图像与第二前景图像之间的差异，第一前景图像包括前景物体，且不包括背景，第二前景图像为训练图像中扣除背景之后的图像，第二损失函数用于表示训练过程中基于第二神经网络中编码器与解码器得到的检测/分割结果与标签之间的差异。

本实施例中，图像处理设备中各单元所执行的操作与前述图1至图8所示实施例中描述的类似，此处不再赘述。

本实施例中，训练单元1002通过第一损失函数与检测/分割的第二损失函数一起训练编码器，由于第一损失函数用于重建前景图像，可以使得编码器可以捕捉图像更多的纹理和结构特征，进而提高小样本物体检测的定位能力，提升包含该编码器的第二神经网络的检测/分割效果。

请参阅图11，本申请实施例中图像处理设备的一个实施例包括：

获取单元1101，用于获取第一图像；

提取单元1102，用于基于编码器提取第一图像的第一特征图；

处理单元1103，用于基于第一特征图与解码器得到第一图像的检测/分割结果；

编码器与解码器由带有标签的训练图像、第一损失函数以及第二损失函数训练得到，训练图像包括前景物体与背景，第一损失函数用于表示训练过程中基于编码器与生成器生成的第一前景图像与第二前景图像之间的差异，第一前景图像包括前景物体，且不包括背景，第二前景图像为训练图像扣除背景以外的图像，第二损失函数用于表示训练过程中基于编码器与解码器得到的检测/分割结果与标签之间的差异。

本实施例中，图像处理设备中各单元所执行的操作与前述图9所示实施例中描述的类似，此处不再赘述。

参阅图12，本申请提供的另一种图像处理设备的结构示意图。该图像处理设备可以包括处理器1201、存储器1202和通信端口1203。该处理器1201、存储器1202和通信端口1203通过线路互联。其中，存储器1202中存储有程序指令和数据。

存储器1202中存储了前述图1至图9所示对应的实施方式中，由图像处理设备执行的步骤对应的程序指令以及数据。

处理器1201，用于执行前述图1至图9所示实施例中任一实施例所示的由图像处理设备执行的步骤。

通信端口1203可以用于进行数据的接收和发送，用于执行前述图1至图9所示实施例中任一实施例中与获取、发送、接收相关的步骤。

一种实现方式中，图像处理设备可以包括相对于图12更多或更少的部件，本申请对此仅仅是示例性说明，并不作限定。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，read-only memory)、随机存取存储器(RAM，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

一种图像处理方法，其特征在于，包括：

获取带有标签的训练图像，所述训练图像包括前景物体与背景；

基于所述训练图像、第一损失函数以及第二损失函数训练第一神经网络，得到第二神经网络，所述第二神经网络用于实现图像的检测/分割任务，所述第一神经网络包括编码器、解码器以及生成器，所述第二神经网络包括所述编码器与所述解码器；所述第一损失函数用于表示训练过程中基于所述第一神经网络中所述编码器与所述生成器生成的第一前景图像与第二前景图像之间的差异，所述第一前景图像包括所述前景物体，且不包括所述背景，所述第二前景图像为所述训练图像中扣除所述背景之后的图像，所述第二损失函数用于表示训练过程中基于所述第二神经网络中所述编码器与所述解码器得到的检测/分割结果与所述标签之间的差异。
根据权利要求1所述的方法，其特征在于，所述第一神经网络与所述第二神经网络还包括量子化模块，所述量子化模块用于将编码器输出的特征图进行更新，并将更新后的特征图分别输入至所述解码器与所述生成器。
根据权利要求2所述的方法，其特征在于，所述第一损失函数包括第三损失函数与第四损失函数，所述第三损失函数用于表示所述第一前景图像与所述第二前景图像之间的差异，所述第四损失函数用于表示在训练过程中所述特征图在所述量子化模块更新前后之间的差异。
根据权利要求3所述的方法，其特征在于，所述第一神经网络与所述第二神经网络还包括赋值模块，所述赋值模块用于更新所述特征图的索引，所述索引用于所述量子化模块对所述特征图进行更新。
根据权利要求4所述的方法，其特征在于，所述第一损失函数还包括第五损失函数，所述第五损失函数用于表示在训练过程中所述索引在所述赋值模块更新前后之间的差异。
一种图像处理方法，其特征在于，包括：

获取第一图像；

基于编码器提取所述第一图像的第一特征图；

基于所述第一特征图与解码器得到所述第一图像的检测/分割结果；

所述编码器与所述解码器由带有标签的训练图像、第一损失函数以及第二损失函数训练得到，所述训练图像包括前景物体与背景，所述第一损失函数用于表示训练过程中基于所述编码器与生成器生成的第一前景图像与第二前景图像之间的差异，所述第一前景图像包括所述前景物体，且不包括所述背景，所述第二前景图像为所述训练图像扣除所述背景以外的图像，所述第二损失函数用于表示训练过程中基于所述编码器与所述解码器得到的检测/分割结果与所述标签之间的差异。
根据权利要求6所述的方法，其特征在于，所述基于所述第一特征图与解码器得到所述第一图像的检测/分割结果，包括：

将所述第一特征图输入所述解码器得到所述检测/分割结果。
根据权利要求6所述的方法，其特征在于，所述基于所述第一特征图与解码器得到所述第一图像的检测/分割结果，包括：

基于量子化模块更新第一特征图，得到第二特征图，所述量子化模块基于第四损失函数训练得到，所述第四损失函数用于表示在训练过程中所述编码器输出的所述训练图像的特征图在所述量子化模块更新前后之间的差异；

将所述第二特征图输入所述解码器得到所述检测/分割结果。
一种图像处理设备，其特征在于，所述图像处理设备包括：

获取单元，用于获取带有标签的训练图像，所述训练图像包括前景物体与背景；

训练单元，用于基于所述训练图像、第一损失函数以及第二损失函数训练第一神经网络，得到第二神经网络，所述第二神经网络用于实现图像的检测/分割任务，所述第一神经网络包括编码器、解码器以及生成器，所述第二神经网络包括所述编码器与所述解码器；所述第一损失函数用于表示训练过程中基于所述第一神经网络中所述编码器与所述生成器生成的第一前景图像与第二前景图像之间的差异，所述第一前景图像包括所述前景物体，且不包括所述背景，所述第二前景图像为所述训练图像中扣除所述背景之后的图像，所述第二损失函数用于表示训练过程中基于所述第二神经网络中所述编码器与所述解码器得到的检测/分割结果与所述标签之间的差异。
根据权利要求9所述的图像处理设备，其特征在于，所述第一神经网络与所述第二神经网络还包括量子化模块，所述量子化模块用于将编码器输出的特征图进行更新，并将更新后的特征图分别输入至所述解码器与所述生成器。
根据权利要求10所述的图像处理设备，其特征在于，所述第一损失函数包括第三损失函数与第四损失函数，所述第三损失函数用于表示所述第一前景图像与所述第二前景图像之间的差异，所述第四损失函数用于表示在训练过程中所述特征图在所述量子化模块更新前后之间的差异。
根据权利要求11所述的图像处理设备，其特征在于，所述第一神经网络与所述第二神经网络还包括赋值模块，所述赋值模块用于更新所述特征图的索引，所述索引用于所述量子化模块对所述特征图进行更新。
根据权利要求12所述的图像处理设备，其特征在于，所述第一损失函数还包括第五损失函数，所述第五损失函数用于表示在训练过程中所述索引在所述赋值模块更新前后之间的差异。
一种图像处理设备，其特征在于，所述图像处理设备包括：

获取单元，用于获取第一图像；

提取单元，用于基于编码器提取所述第一图像的第一特征图；

处理单元，用于基于所述第一特征图与解码器得到所述第一图像的检测/分割结果；

所述编码器与所述解码器由带有标签的训练图像、第一损失函数以及第二损失函数训练得到，所述训练图像包括前景物体与背景，所述第一损失函数用于表示训练过程中基于所述编码器与生成器生成的第一前景图像与第二前景图像之间的差异，所述第一前景图像包括所述前景物体，且不包括所述背景，所述第二前景图像为所述训练图像扣除所述背景以外的图像，所述第二损失函数用于表示训练过程中基于所述编码器与所述解码器得到的检测/分割结果与所述标签之间的差异。
根据权利要求14所述的图像处理设备，其特征在于，所述处理单元，具体用于将所述第一特征图输入所述解码器得到所述检测/分割结果。
根据权利要求14所述的图像处理设备，其特征在于，所述处理单元，具体用于基于量子化模块更新第一特征图，得到第二特征图，所述量子化模块基于第四损失函数训练得到，所述第四损失函数用于表示在训练过程中所述编码器输出的所述训练图像的特征图在所述量子化模块更新前后之间的差异；

所述处理单元，具体用于将所述第二特征图输入所述解码器得到所述检测/分割结果。
一种图像处理设备，其特征在于，包括：处理器，所述处理器与存储器耦合，所述存储器用于存储程序或指令，当所述程序或指令被所述处理器执行时，使得所述图像处理设备执行如权利要求1至8中任一项所述的方法。
一种计算机存储介质，其特征在于，包括计算机指令，当所述计算机指令在终端设备上运行时，使得所述终端设备执行如权利要求1至8中任一项所述的方法。
一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求1至8中任一项所述的方法。