WO2020135554A1

WO2020135554A1 - 图片处理方法、装置、设备及存储介质

Info

Publication number: WO2020135554A1
Application number: PCT/CN2019/128573
Authority: WO
Inventors: 张壮辉; 梁柱锦; 王俊东; 梁德澎; 张树业
Original assignee: 广州市百果园信息技术有限公司
Priority date: 2018-12-29
Filing date: 2019-12-26
Publication date: 2020-07-02
Also published as: RU2770748C1; SG11202107121VA; US20220083808A1; CN111382647A; CN111382647B

Abstract

一种图片处理方法、装置、设备及存储介质。该方法包括：获取原始图片和原始图片的辅助信息（110）。将原始图片输入第一视觉任务处理模型的主路，得到对象特征图，并且将辅助信息输入第一视觉任务处理模型的支路，得到辅助特征图（120）。将对象特征图和辅助特征图融合后输入第一视觉任务处理模型的主路，得到原始图片的响应图（130）。

Description

图片处理方法、装置、设备及存储介质

本申请要求在2018年12月29日提交中国专利局、申请号为201811648151.2的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及计算机视觉技术领域，例如涉及一种图片处理方法、装置、设备及存储介质。

背景技术

计算机视觉是一门研究如何利用机器来模拟人和生物视觉处理功能的科学。计算机视觉是用摄像机代替人眼收集视觉信息，利用计算机代替大脑对信息进行处理和分析，从而完成图像分类、图像分割、物体检测、关键点定位、姿态估计和人脸识别等任务。

随着计算机硬件性能的提升和大规模图像数据的出现，深度学习在计算机视觉领域得到广泛应用。深度学习源于人工神经网络的研究，是机器学习的一个重要分支，形成了一种端到端的新模式，深度学习的动机在于模拟人脑的学习方式建立深层次的卷积神经网络，对数据进行理解。深度学习指的是深度卷积神经网络，计算机视觉识别方法是对图片中的不同颜色、纹理和边缘模块的感知提取手工特征，而深度卷积神经网络是由多种不同的线性层和非线性层组合成的深度网络结构，能够由浅入深，由具体到抽象地对特征进行提取，这些通过网络自动提取出的高层特征具有很强的表达能力，能够提炼图片中很多抽象概念和语义信息，如图片中目标对象以及目标对象所在的位置。

相关技术中至少存在如下问题：虽然深度学习在图像分类、图像分割、物体检测、关键点定位、姿态估计和人脸识别等方面得到广泛应用，但是由于存在着场景复杂多变和/或物体较难识别等情况，使得基于深度学习训练生成的视觉任务处理模型，在处理视觉任务时预测精度不高。

发明内容

本申请实施例提供一种图片处理方法、装置、设备及存储介质，以提升视觉任务处理模型的预测精度。

在一实施中，本申请实施例提供了一种图片处理方法，该方法包括：

获取原始图片和原始图片的辅助信息；

将所述原始图片输入第一视觉任务处理模型的主路，得到对象特征图，并且将所述辅助信息输入第一视觉任务处理模型的支路，得到辅助特征图；

将所述对象特征图和所述辅助特征图融合后输入第一视觉任务处理模型的主路，得到原始图片的响应图。

在一实施中，本申请实施例还提供了一种图片处理装置，该装置包括：

原始图片和辅助信息获取模块，配置为获取原始图片和原始图片的辅助信息；

特征图获取模块，配置为将所述原始图片输入第一视觉任务处理模型的主路，得到对象特征图，并且将所述辅助信息输入第一视觉任务处理模型的支路，得到辅助特征图；

原始图片的响应图获取模块，配置为将所述对象特征图和所述辅助特征图融合后输入第一视觉任务处理模型的主路，得到原始图片的响应图。

在一实施例中，本申请实施例还提供了一种设备，该设备包括：

一个或多个处理器；

存储器，配置为存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本申请实施例所述的方法。

在一实施例中，本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如本申请实施例所述的方法。

附图说明

图1是本申请实施例中的一种图片处理方法的流程图；

图2是本申请实施例中的另一种图片处理方法的流程图；

图3是本申请实施例中的一种图片处理方法的应用示意图；

图4是本申请实施例中的又一种图片处理方法的流程图；

图5是本申请实施例中的另一种图片处理方法的应用示意图；

图6是本申请实施例中的一种图片处理装置的结构示意图；

图7是本申请实施例中的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请进行说明。此处所描述的实施例仅仅用于解释本申请，而非对本申请的限定。附图中仅示出了与本申请相关的部分而非全部结构。

实施例

为了解决上述基于深度学习训练生成的视觉处理模型，在处理视觉任务时预测精度不高的问题，可考虑增加先验知识，所谓先验知识可以理解为是与原始图片相关的辅助信息，下面将结合实施例对上述内容进行说明。

图1为本申请实施例提供的一种图片处理方法的流程图，本实施例可适用于处理视觉任务的情况，该方法可以由图片处理装置来执行，该装置可以采用软件和/或硬件的方式实现，该装置可以配置于设备中，例如计算机或移动终端等。如图1所示，该方法包括步骤110至步骤130。

步骤110、获取原始图片和原始图片的辅助信息。

在本申请的实施例中，为了提升视觉任务处理模型的预测精度，采集原始图片，也采集与原始图片相关的辅助信息，其中，与原始图片相关的辅助信息可以作为先验知识。

原始图片可以理解为需要对该图片执行视觉任务的图片，视觉任务可以包括图像分类、图像分割、物体检测、关键点定位和姿态估计等。在一实施例中，原始图片可以为单张图片，也可以为视频中的视频帧。

如果原始图片为单张图片，则原始图片的辅助信息可以包括原始图片对应的背景图片，其中，原始图片对应的背景图片可作如下理解：原始图片中包括目标对象，而背景图片为不包括目标对象的图片。在一实施例中，背景图片为移除原始图片中目标对象所得的图片。示例性的，如摄像头拍摄室内一个角落中正在睡觉的小猫所得的图片为原始图片，而摄像头拍摄该室内该角落所得的图片为背景图片，其中，目标对象为正在睡觉的小猫。

如果原始图片为视频中的视频帧，并将该视频帧作为当前视频帧且所述当前视频帧不为视频的首帧的情况下，则原始图片的辅助信息可以包括当前视频帧的上一视频帧和上一视频帧的响应图。

步骤120、将原始图片输入第一视觉任务处理模型的主路，得到对象特征图，并且将原始图片的辅助信息输入第一视觉任务处理模型的支路，得到辅助特征图。

步骤130、将对象特征图和辅助特征图融合后输入第一视觉任务处理模型的主路，得到原始图片的响应图。

在本申请的实施例中，原始图片的响应图可以理解为对原始图片执行相应类型的视觉任务后得到的结果，原始图片的响应图的表现形式根据视觉任务的类型确定，示例性的，如果视觉任务为图像分割(图像分割就是将图片中的每个像素按照其所属类别进行分类)，则原始图片的响应图可以为原始图片中每个像素所属类别的概率图，也可以为通过设置概率阈值，将概率图转化成的图像语义分割图；如果视觉任务为物体检测，则原始图片的响应图为包含预选框的图，目标物体落入该预选框；如果视觉任务为关键点定位，则原始图片的响应图为基于关键点的位置生成的热力图。

第一视觉任务处理模型可以基于卷积神经网络训练生成，第一视觉任务处理模型可以包括主路和支路。卷积神经网络是一个多层的神经网络，可以包括卷积层、池化层、非线性激活层和全连接层。它的每一层都是由多个特征图组成，而每个特征图中的像素点代表一个神经元。特征图可以用W×H×K表示，其中，W表示特征图的宽度，H表示特征图的长度，K表示通道数，W×H即表示特征图的尺寸。在卷积神经网络中，通道数即指每个卷积层中卷积核的个数。上述卷积层、池化层、非线性激活层和全连接层为卷积神经网络的网络结构，上述网络结构的结构比较复杂且参数量较大，为了简化网络结构以及减少参数量，可采用轻量级的卷积神经网络，如全卷积神经网络，所谓全卷积神经网络为不包含全连接层的卷积神经网络，下面以基于全卷积神经网络训练生成的第一视觉任务处理模型，对第一视觉任务处理模型的结构进行说明，在一实施例中，第一视觉任务处理模型的主路包括第一下采样模块和上采样模块，第一下采样模块的输出端与上采样模块的输入端连接，第一视觉任务处理模型的支路包括第二下采样模块，第一下采样模块与第二下采样模块并联。每个下采样模块可以包括M个卷积层，每个上采样模块可以包括M个转置卷积层，每个卷积层后还可以连接批规范化层和非线性激活层，图片经过第一下采样模块和第二下采样模块后，得到下采样特征图，下采样特征图包含了图片的特征信息，并且由于下采样特征图尺寸相比于输入图片尺寸进行了尺寸缩小，因此，下采样特征图具有更大的感受野，可以提供更多的上下文信息。将下采样特征图输入上采样模块，得到上采样特征图，上采样特征图尺寸与输入图片尺寸相同。在一实施例中，第一视觉任务处理模型的结构的具体形式可以根据实际情况进行设计。

将原始图片输入第一视觉任务处理模型的主路，得到对象特征图，这里所述的对象特征图可以为前文所述的经过第一下采样模块后得到的下采样特征图，对象特征图中包含原始图片中的特征信息，将原始图片的辅助信息输入第一视觉任务处理模型的支路，得到辅助特征图，这里所述的辅助特征图可以为前文所述的经过第二下采样模块后得到的下采样特征图，辅助特征图中包含原始图片的辅助信息的特征信息。

将对象特征图和辅助特征图融合后输入第一视觉任务处理模型的主路，得到原始图片的响应图，这里所述的原始图片的响应图可以为前文所述的经过上采样模块后得到的上采样特征图。在一实施例中，由于原始图片的辅助信息也参与了生成原始图片的响应图的过程，即先验知识也参与了生成原始图片的响应图的过程，换句话说，作为先验知识的原始图片的辅助信息在生成原始图片的响应图的过程中起到了提升模型预测精度的作用，因此，上述有原始图片的辅助信息参与生成的原始图片的响应图相比于仅原始图片参与，而没有原始图片的辅助信息参与生成的原始图片的响应图，更加精确。

在一实施例中，对象特征图尺寸和辅助特征图尺寸相同以及对象特征图的通道数与辅助特征图的通道数相同，为了实现对象特征图尺寸和辅助特征图尺寸相同，可以设置前文所述的第一下采样模块和第二下采样模块的结构以及卷积核个数相同，即设置第一下采样模块和第二下采样模块包括同样个数的卷积层以及同样个数的卷积核。可以通过如下两种方式将对象特征图和辅助特征图进行融合，包括：方式一、将对象特征图和辅助特征图以按位加的方式进行融合；方式二、将对象特征图和辅助特征图通过通道交互的方式进行融合。采用哪种方式将两者进行融合，可根据实际情况进行设定。

在一实施例中，在原始图片为视频的视频帧的情况下，原始图片的辅助信息包括上一视频帧和上一视频帧的响应图，上一视频帧的响应图可为上一视频帧作为输入变量输入第一视觉任务处理模型得到的图。此外，考虑到需要原始图片的辅助信息作为先验知识来提升模型的预测精度，因此，需要保证作为先验知识的原始图片的辅助信息中上一视频帧的响应图的精确度，且精确度越高越好。为了提升原始图片的辅助信息中上一视频帧的响应图的精确度，可考虑选用预测精度更高的视觉处理模型，即将符合预设条件的上一视频帧作为输入变量并不选择输入到第一视觉任务处理模型，而是选择输入到比第一视觉任务处理模型的预测精度更高的视觉处理模型。通常模型的预测精度越高，模型的结构越复杂且参数量越大，当模型的结构越复杂且参数量越大时，计算开销也就越大，相应的，模型的预测效率也就越低。上述为了获得更高精确度的上一视频帧的响应图，而选用预测精度的视觉模型，在提升了上一视频帧的响应图的精确度的同时，也降低了模型的预测效率。基于上述，可以根据实际情况确定是将上一视频帧作为输入变量输入第一视觉任务处理模型以得到上一视频帧的响应图，还是将上一视频帧作为输入变量输入比第一视觉任务处理模型的预测精度更高的模型以得到上一视频帧的响应图，包括如下两种方式：

方式一、在上一视频帧属于该视频的前N视频帧之一的情况下，将上一视频帧作为输入变量输入比第一视觉任务处理模型的预测精度更高的模型，以得到上一视频帧的响应图；在上一视频帧不属于该视频的前N视频帧之一的情况下，将上一视频帧作为输入变量输入第一视觉任务处理模型，以得到上一视频帧的响应图，所述N为正整数。可进行上述处理的原因在于：由于视频中多个视频帧之间通常具有关联性，因此，前N视频帧的响应图是将多个视频帧作为输入变量输入比第一视觉任务处理模型的预测精度更高的模型得到的，便可以保证作为先验知识的原始图片的辅助信息中上一视频帧的响应图的精确度。在一实施例中，上述方式一是以视频为单位来确定上一视频帧的响应图的获取方式的。

方式二、如果视频的时长大于或等于时长阈值，则采用方式一得到的上一视频帧的精确度可能无法满足实际要求，基于上述，可将视频中多个视频帧按时间顺序划分为两个或两个以上视频帧序列，多个视频帧序列之间不重叠，每个视频帧序列中所包括的视频帧的个数可以相同，也可以不同，可根据实际情况进行确定。在一实施例中，在每个视频帧序列中，按时间顺序可分为第一视频帧、第二视频帧、……、第P视频帧。在一实施例中，上一视频帧将属于多个视频帧序列中的一个视频帧序列。视频经过上述处理得到多个视频帧序列后，对上一视频帧的响应图的获取方式，将由方式一中以视频为单位进行考虑，转变为以视频帧序列为单位进行考虑。在一实施例中：在上一视频帧属于与所述上一视频帧对应的视频帧序列的前T视频帧之一的情况下，将上一视频帧作为输入变量输入比第一视觉任务处理模型的预测精度更高的模型，以得到上一视频帧的响应图；在上一视频帧不属于与所述上一视频帧对应的视频帧序列的前T视频帧之一的情况下，便将上一视频帧作为输入变量输入第一视觉任务处理模型，以得到上一视频帧的响应图，所述T为正整数。可进行上述处理的原因在于：由于视频序列中多个视频帧之间通常具有关联性，因此，每个视频序列中前T视频帧的响应图是将多个视频帧作为输入变量输入比第一视觉任务处理模型的预测精度更高的模型得到的，便可以保证作为先验知识的原始图片的辅助信息中上一视频帧的响应图的精确度。同时，采用以视频帧序列为单位，而不是以视频为单位来确定上一视频帧的响应图的获取方式，提高了原始图片的辅助信息中上一视频帧的响应图的精确度。

在一实施例中，如果原始图片为当前视频帧且所述当前视频帧不为视频的首帧的情况下，原始图片的辅助信息包括当前视频帧的上一视频帧和上一视频帧的响应图，则根据视觉任务的类型确定是否对上一视频帧的响应图的表现形式进行调整。示例性的，如果视觉任务为图像分割，上一视频帧的响应图为上一视频帧中每个像素所属类别的概率图，或者，上一视频帧的响应图为通过设置概率阈值，将概率图转化成的图像语义分割图，图像分割的上一视频帧的响应图的表现形式可以直接作为输入变量输入到第一视觉任务处理模型的支路，而无需再调整；如果视觉任务为物体检测，上一视频帧的响应图为包含预选框的图，则对包含预选框的图进行调整，可选择将预选框内的像素的像素值设置为1，并将预选框外的像素的像素值设置为0，将调整后的上一视频帧的响应图作为输入变量输入到第一视觉任务处理模型的支路。在一实施例中，预选框内外的像素的像素值可根据实际情况进行设定；如果视觉任务为关键点定位，上一视频帧的响应图为基于关键点的位置生成的热力图，则可以直接将上一视频帧的响应图作为输入变量输入到第一视觉任务处理模型的支路，而无需再对上一视频帧的响应图的表现形式进行调整。

本实施例的技术方案，通过获取原始图片和原始图片的辅助信息，将原始图片输入第一视觉任务处理模型的主路，得到对象特征图，并且将辅助信息输入第一视觉任务处理模型的支路，得到辅助特征图，将对象特征图和辅助特征图融合后输入第一视觉任务处理模型的主路，得到原始图片的响应图，上述通过将原始图片的辅助信息参与到生成原始图片的响应图的过程中，由于原始图片的辅助信息可以提供较强的先验知识，而先验知识有助于解决影响视觉任务处理模型预测精度的场景复杂多变和/或物体较难识别等问题，从而提升了视觉任务处理模型的预测精度。

可选的，在上述技术方案的基础上，原始图片的辅助信息包括原始图片对应的背景图片。

在本申请的实施例中，原始图片的辅助信息可以包括原始图片对应的背景图片，根据前文所述，原始图片的背景图片可以作如下理解：原始图片中包括目标对象，而背景图片为不包括目标对象的图片。换个角度理解，背景图片为移除原始图片中目标对象所得的图片，下面针对上述理解对背景图片所起到的作用进行说明。

在一实施例中，在处理视觉任务过程中，可能会出现如下情况：视觉任务为图像分割时，可能会出现前景和背景相混淆或生成原始图片的响应图的边缘粗糙的情况，此时，原始图片的响应图可以为图像语义分割图；当视觉任务为物体检测时，可能会出现生成的预选框抖动比较严重的情况；当视觉任务为关键点定位时，可能会出现无法识别到关键点或关键点抖动的情况。在一实施例中，上述情况表明模型的预测精度不高，而导致模型的预测精度不高的原因并不是由于目标对象本身很难被识别，而是由于场景复杂且多变，相比于目标对象来说，可以将复杂且多变的场景理解为背景干扰信息。基于上述，由于背景图片为移除目标对象的图片，相比于原始图片来说，背景图片仅包含背景干扰信息，将背景图片作为输入变量输入第一视觉任务处理模型的支路，得到辅助特征图，辅助特征图将提取到背景干扰信息的特征，该辅助特征图参与到生成原始图片的响应图的过程中，使得生成的原始图片的响应图为抑制背景干扰的响应图。在一实施例中，当背景图片为移除原始图片中目标对象所得的图片时，背景图片作为先验知识所起到的作用为抑制背景干扰，进而提升模型的预测精度。

可选的，在上述技术方案的基础上，在原始图片为当前视频帧且所述当前视频帧不为视频的首帧的情况下，原始图片的辅助信息包括所述当前视频帧的上一视频帧和上一视频帧的响应图。

在本申请的实施例中，针对原始图片为视频中当前视频帧，原始图片的辅助信息包括所述当前视频帧的上一视频帧和上一视频帧的响应图的情况，在处理视觉任务的过程中，可能会出现如下情况：当当视觉任务为图像分割时，可能会出现不同视频帧之间，分割掩码闪烁比较严重的情况；当视觉任务为物体检测时，可能会出现连续几个视频帧中所生成的预选框抖动比较严重的情况；当视觉任务为关键点定位时，可能会出现相邻视频帧中关键点抖动的情况。在一实施例中，上述情况表明模型的预测精度不高，而导致模型的预测精度不高的原因为物体和/或场景较难识别。基于上述，由于相邻两个视频帧之间具有一定的关联性，因此，相邻两个视频帧的响应图之间也具有一定的关联性，换句话说，上一视频帧的响应图对生成当前视频帧的响应图具有较高的参考性，即上一视频帧的响应图可以作为先验知识，参与到生成当前视频帧的响应图的过程中，在一实施例中，上述过程为将上一视频帧的响应图作为输入变量输入第一视觉任务处理模型的支路，得到辅助特征图，辅助特征图将提取到上一视频帧的特征，该辅助特征图参与到生成当前视频帧的响应图的过程中。上一视频帧的响应图作为先验知识所起到的作用为增强帧间连续性，进而提升模型的预测精度。在一实施例中，由于上一视频帧和上一视频帧的响应图为模型提供了较强的先验知识，因此，基于卷积神经网络训练生成的第一视觉任务模型的结构可以尽量简化，以便于提升模型的预测效率。

在一实施例中，根据前文所述可知，可以根据实际情况确定是将上一视频帧作为输入变量输入第一视觉任务处理模型以得到上一视频帧的响应图，还是将上一视频帧作为输入变量输入比第一视觉任务处理模型的预测精度更高的模型以得到上一视频帧的响应图。

可选的，在上述技术方案的基础上，可以通过如下方式获取上一视频帧的响应图：在上一视频帧属于视频的前N视频帧之一的情况下，上一视频帧的响应图为将上一视频帧输入第二视频任务处理模型得到的响应图。在上一视频帧不属于视频的前N视频帧之一的情况下，上一视频帧的响应图为将上一视频帧输入第一视觉任务处理模型得到的响应图。其中，第二视觉任务处理模型比第一视觉任务处理模型的预测精度高，所述N为正整数。

在本申请的实施例中，考虑到由于原始图片的辅助信息作为先验知识来提升模型的预测精度，因此，需要保证作为先验知识的原始图片的辅助信息中上一视频帧的响应图的精确度，且精确度越高越好。为了提升原始图片的辅助信息中上一视频帧的响应图的精确度，可考虑选用预测精度更高的视觉处理模型，即上一视频帧作为输入变量并不选择输入到第一视觉任务处理模型，而是选择输入到比第一视觉任务处理模型的预测精度更高的视觉处理模型。通常模型的预测精度越高，模型的结构越复杂且参数量越大，当模型的结构越复杂且参数量越大时，计算开销也就越大，相应的，模型的预测效率也就越低。上述为了获得更高精确度的上一视频帧的响应图，而选用预测精度的视觉模型，在提升了上一视频帧的响应图的精确度的同时，也降低了模型的预测效率。基于上述，可以根据实际情况确定是将上一视频帧作为输入变量输入第一视觉任务处理模型以得到上一视频帧的响应图，还是将上一视频帧作为输入变量输入比第一视觉任务处理模型的预测精度更高的模型以得到上一视频帧的响应图。

可考虑如果上一视频帧属于该视频的前N视频帧之一，便将上一视频帧作为输入变量输入第二视觉任务处理模型，以得到上一视频帧的响应图；如果上一视频帧不属于该视频的前N视频帧之一，便将上一视频帧作为输入变量输入第一视觉任务处理模型，以得到上一视频帧的响应图，其中，第二视觉任务处理模型比第一视觉任务处理模型的预测精度高，所述N为正整数。在一实施例中，上述方式是以视频为单位来确定上一视频帧的响应图的获取方式的。

可进行上述处理的原因在于：由于视频中相邻两个视频帧之间通常具有关联性，因此，前N视频帧的响应图是将前N视频帧作为输入变量输入第二视觉任务处理模型得到的，便可以保证作为先验知识的视频帧的响应图的精确度，即保证模型的预测精度。此外，由于第二视觉任务处理模型的预测精度高于第一视觉任务处理模型，因此，第二视觉任务处理模型的结构将比第一视觉任务处理模型复杂，在一实施例中，第二视觉任务处理模型的参数量也将比第一视觉任务处理模型大。而计算开销将随着模型结构的复杂度的提升以及参数量的增大而增大，计算开销的增大意味着模型预测效率的降低。基于上述，采用上述方式，在保证了作为先验知识的上一视频帧的响应图的精确度的同时，也保证了模型的计算效率维持在一个较高的水平，即采用上述方式，兼顾了模型的预测精确度以及模型的预测效率。

在一实施例中，当视觉任务对象为视频时，采用上述方式处理后，在视觉效果上看，上述方式将增强帧间一致性，换句话说，采用上述方式处理后，由于模型的预测精度得到提升，因此，一定程度上也实现了帧间一致性。

可选的，在上述技术方案的基础上，可以通过如下方式获取上一视频帧的响应图：在上一视频帧属于与所述上一视频帧对应的视频帧序列的前T视频帧之一的情况下，上一视频帧的响应图为将上一视频帧输入第二视觉任务处理模型得到的响应图。

在上一视频帧不属于与所述上一视频帧对应的视频帧序列的前T视频帧之一的情况下，上一视频帧的响应图为将上一视频帧输入第一视觉任务处理模型得到的响应图。其中，视频帧序列为将视频中的多个视频帧划分后得到的多个视频帧序列之一；第二视觉任务处理模型比第一视觉任务处理模型的预测精度高，所述T为正整数。

在本申请的实施例中，如果视频的时长大于或等于时长阈值，则采用以视频为单位来确定上一视频帧的响应图的获取方式可能无法满足实际要求，基于上述，可将视频中多个视频帧按时间顺序划分为两个或两个以上视频帧序列，多个视频帧序列之间不重叠，每个视频帧序列中所包括的视频帧的个数可以相同，也可以不同，可根据实际情况进行确定。在一实施例中，在每个视频帧序列中，按时间顺序可分为第一视频帧、第二视频帧、……、第P视频帧。在一实施例中，上一视频帧将属于多个视频帧序列中的一个视频帧序列。视频经过上述处理得到多个视频帧序列后，对上一视频帧的响应图的获取方式，将由以视频为单位进行考虑，转变为以视频帧序列为单位进行考虑。在一实施例中：如果上一视频帧属于与所述上一视频帧对应的视频帧序列的前T视频帧之一，便将上一视频帧作为输入变量输入第二视觉任务处理模型，以得到上一视频帧的响应图；如果上一视频帧不属于与所述上一视频帧对应的视频帧序列的前T视频帧之一，便将上一视频帧作为输入变量输入第一视觉任务处理模型，以得到上一视频帧的响应图，其中，第二视觉任务处理模型比第一视觉任务处理模型的预测精度高，所述T为正整数。

可进行上述处理的原因在于：由于视频序列中多个视频帧之间通常具有关联性，因此，每个视频序列中前T视频帧的响应图是将多个视频帧作为输入变量输入第二视觉任务处理模型得到的，便可以保证作为先验知识的原始图片的辅助信息中上一视频帧的响应图的精确度。在一实施例中，采用以视频帧序列为单位，而不是以视频为单位来确定上一视频帧的响应图的获取方式，提高了原始图片的辅助信息中上一视频帧的响应图的精确度。此外，由于第二视觉任务处理模型的预测精度高于第一视觉任务处理模型，因此，第二视觉任务处理模型的结构将比第一视觉任务处理模型复杂，第二视觉任务处理模型的参数量也将比第一视觉任务处理模型大。而计算开销将随着模型结构的复杂度的提升以及参数量的增大而增大，计算开销的增大意味着模型预测效率的降低。基于上述，采用上述方式，在保证了作为先验知识的上一视频帧的响应图的精确度的同时，也保证了模型的计算效率维持在一个较高的水平，即采用上述方式，兼顾了模型的预测精确度以及模型的预测效率。

可选的，在上述技术方案的基础上，可以通过如下方式训练第一视觉任务处理模型：获取原始训练图片、原始训练图片的标注信息和原始训练图片的辅助训练信息。将原始训练图片输入卷积神经网络的主路，得到对象训练特征图，并且将辅助训练信息输入卷积神经网络的支路，得到辅助训练特征图。将对象训练特征图和辅助训练特征图融合后输入卷积神经网络的主路，得到原始训练图片的响应图。根据原始训练图片的标注信息和原始训练图片的响应图，得到卷积神经网络的损失函数。根据损失函数调整卷积神经网络的网络参数，直至损失函数的输出值小于或等于预设阈值，将卷积神经网络作为第一视觉任务处理模型。

在本申请的实施例中，为了提升第一视觉任务处理模型的预测精度，考虑将可作为先验知识的辅助训练信息作为第一视觉任务处理模型的输入变量，共同参与到第一视觉任务处理模型的训练过程，并且是作为第一视觉任务处理模型的一个分支的输入变量。在一实施例中，将原始训练图片作为输入变量输入的分支称为第一视觉任务处理模型的主路，将辅助训练信息作为输入变量输入的分支称为第一视觉任务处理模型的支路。在一实施例中，由于第一视觉任务处理模型是基于卷积神经网络训练生成的，因此，在训练过程中原始训练图片作为输入变量输入的分支是卷积神经网络的主路，辅助训练信息作为输入变量输入的分支是卷积神经网络的支路。

原始图片的标注信息将根据视觉任务的类型的不同而不同，示例性的，当视觉任务为图像分割时，原始图片的标注信息为原始图片中每个像素的真实标签，该真实标签表明像素所属分类；当视觉任务为物体检测时，原始图片的标注信息为目标框，该目标框包括目标对象；当视觉任务为关键点定位时，原始图片的标注信息为关键点的坐标信息。

将原始训练图片输入卷积神经网络的主路，得到对象训练特征图，并且将辅助训练信息输入卷积神经网络的支路，得到辅助训练特征图。在一实施例中，如果原始训练图片为当前训练视频帧，则原始训练图片的辅助训练信息可以包括上一训练视频帧和上一训练视频帧的响应图；如果原始训练图片为单张图片，则原始训练图片的辅助训练信息可以包括背景训练图片。当原始训练图片为当前训练视频帧，原始训练图片的辅助训练信息包括上一训练视频帧和上一训练视频帧的响应图时，上一训练视频帧的响应图可以作为输入变量输入第二视觉任务处理模型得到。

将对象训练特征图和辅助训练特征图融合后输入卷积神经网络的主路，得到原始训练图片的响应图，根据原始训练图片的标注信息和原始训练图片的响应图得到(例如计算得到)卷积神经网络的损失函数，损失函数可以为交叉熵损失函数、0-1损失函数、平方损失函数、绝对损失函数和对数损失函数等，可根据实际情况进行设定。

卷积神经网络的训练过程是经过前向传播计算卷积神经网络的损失函数，并计算损失函数对网络参数的偏导数，采用反向梯度传播方法，对卷积神经网络的网络参数进行调整，直至卷积神经网络的损失函数的输出值小于或等于预设阈值。当卷积神经网络模型的损失函数的输出值小于或等于预设阈值时，表示卷积神经网络已训练完成，此时，卷积神经网络的网络参数也得以确定。在此基础上，可将训练完成的卷积神经网络作为第一视觉任务处理模型。

在一实施例中，本申请实施例所述的卷积神经网络可以为全卷积神经网络，即前文所述的全卷积神经网络，全卷积神经网络的结构形式可以根据实际情况进行设计。

在一实施例中，针对原始训练图片的形式的不同，原始训练图片的辅助训练信息所包含的内容也将不同，在此基础上，通过上述方式训练得到的第一视觉任务处理模型也将不同，这里所述的不同可以指第一视觉任务处理模型的网络参数的不同。

在一实施例中，由于原始训练图片的辅助训练信息也参与到了模型训练过程中，作为先验知识的原始训练图片的辅助训练信息模型在训练过程中起到了使训练得到的第一视觉任务处理模型的预测精度更高的作用，因此，上述有原始训练图片的辅助训练信息参与生成的第一视觉任务处理模型相比于仅原始训练图片参与，而没有原始训练图片的辅助训练信息参与生成的第一视觉任务处理模型，模型的预测精度更高。

此外，本申请实施例所述的第二视觉任务处理模型为本身已经训练完成的模型，第二视觉任务处理模型可配置为生成上一训练视频帧的响应图和上一视频帧的响应图。

可选的，在上述技术方案的基础上，辅助训练信息为通过数据增强处理后得到的辅助训练信息。

在本申请的实施例中，视觉任务处理模型是基于卷积神经网络训练生成的，卷积神经网络的一大优势就是在于对数据的吸收能力，并转化为对参数的不断学习更新，得到一个预测性能和泛化能力都很好的模型。为了得到预测性能和泛化能力都很好的模型，卷积神经网络对训练样本的数量以及质量都提出了要求，换句话说，训练样本的数量以及质量对模型的预测性能和泛化能力有着重要影响。基于上述，可考虑采用数据增强方法对训练样本进行处理，以增加训练样本的数量以及提高训练样本的质量，以此提升模型的预测性能和泛化能力。

在一实施例中，针对本申请实施例来说，由于将辅助训练信息作为先验知识，提升模型的预测性能，因此，这里所述的训练样本指的是辅助训练信息。即本申请实施例采用数据增强方法对辅助训练信息进行处理，换句话说，辅助训练信息为通过数据增强处理后得到的辅助训练信息。

采用数据增强方法对辅助训练信息进行处理，可以提高辅助训练信息的质量，可作如下理解：在实际应用中，由于多数情况下摄像头不是固定不动的，而原始训练图片和辅助训练信息中的背景训练图片并不是同时拍摄得到的，而是分别拍摄得到的，因此，使得原始训练图片和辅助训练信息中的背景训练图片的拍摄角度、亮度、形变和色调等无法保持一致，并且在不同情况下这种不一致性的程度可能并不相同，为了体现这种不同，使其尽量与实际情况相符，便在辅助训练信息中的背景图片上体现上述不同。数据增强方法便是可以实现体现上述不同的方式。即辅助训练信息中的背景训练图片经过数据增强处理后可以体现不同情况下与原始训练图片的拍摄角度、亮度、形变和色调的不一致性，使两者不一致性的程度尽量与实际情况相符。此外，如果原始训练图片为当前训练视频帧，原始训练图片的辅助训练信息包括上一训练视频帧和上一训练视频帧的响应图时，也对上一训练视频帧的响应图进行数据增强处理，使上一训练视频帧的响应图与上一训练视频帧保持一致。

基于上述，通过采用原始训练图片和数据增强处理后的辅助训练信息作为输入变量，训练得到的视觉任务处理模型相比于采用原始训练图片和未经数据增强处理后的辅助训练信息作为输入变量，训练得到的视觉任务处理模型，前者的预测性能和泛化能力要优于后者，使得后续在采用前者处理视觉任务时，对原始图片和原始图片的辅助信息的限制小，所谓限制小可以指无需保持两者的亮度、形变和色调等方面一致。同时，即使两者在上述方面不一致也可以得到精度较高的预测结果。

可选的，在上述技术方案的基础上，数据增强处理包括平移、旋转、裁剪、非刚性变换、噪声扰动和颜色变换中的至少一种。

在本申请的实施例中，刚性变换可以指只有图片的位置和朝向发生改变，而形状不变的变换，非刚性变换是相比于刚性变换更复杂的变换，非刚性变换可以包括斜切、扭曲和透视等。噪声扰动可以包括高斯噪声，颜色变换可以包括饱和度增强、亮度增强和对比度增强等。在一实施例中，可根据实际情况选择数据增强处理方式。

图2为本申请实施例提供的一种图片处理方法的流程图，本实施例可适用于处理视觉任务的情况，该方法可以由图片处理装置来执行，该装置可以采用软件和/或硬件的方式实现，该装置可以配置于设备中，例如计算机或移动终端等。如图2所示，该方法包括步骤210至步骤230。

步骤210、获取原始图片和原始图片的背景图片。

步骤220、将原始图片输入第一视觉任务处理模型的主路，得到对象特征图，并且将背景图片输入第一视觉任务处理模型的支路，得到辅助特征图。

步骤230、将对象特征图和辅助特征图融合后输入第一视觉任务处理模型的主路，得到原始图片的响应图。

在本申请实施例中，为了理解本申请实施例所提供的技术方案，下面将以视觉任务为图像分割为例进行说明。

如图3所示，给出了另一种图片处理方法的应用示意图，图3中将原始图片输入第一视觉任务处理模型的主路，得到对象特征图，将背景图片输入第一视觉任务处理模型的支路，得到辅助特征图，将对象特征图和辅助特征图进行融合，将融合后的特征图输入第一视觉任务处理模型的主路，得到原始图片的响应图，即得到图像语义分割图。

本实施例的技术方案，通过获取原始图片和背景图片，将原始图片输入第一视觉任务处理模型的主路，得到对象特征图，并且将背景图片输入第一视觉任务处理模型的支路，得到辅助特征图，将对象特征图和辅助特征图融合后输入第一视觉任务处理模型的主路，得到原始图片的响应图，上述通过将背景图片参与到生成原始图片的响应图的过程中，由于背景图片可以提供较强的先验知识，而先验知识有助于解决影响视觉任务处理模型预测精度的场景复杂多变和/或物体较难识别等问题，从而提升了视觉任务处理模型的预测精度。

图4为本申请实施例提供的又一种图片处理方法的流程图，本实施例可适用于处理视觉任务的情况，该方法可以由图片处理装置来执行，该装置可以采用软件和/或硬件的方式实现，该装置可以配置于设备中，例如计算机或移动终端等。如图4所示，该方法包括步骤310至步骤330。

步骤310、获取当前视频帧、上一视频帧和上一视频帧的响应图。

步骤320、将当前视频帧输入第一视觉任务处理模型的主路，得到对象特征图，并且将上一视频帧和上一视频帧的响应图输入第一视觉任务处理模型的支路，得到辅助特征图。

步骤330、将对象特征图和辅助特征图融合后输入第一视觉任务处理模型的主路，得到原始图片的响应图。

在本申请的实施例中，在一实施例中，可以通过如下两种方式获取上一视频帧的响应图。

方式一、在上一视频帧属于视频的前N视频帧之一的情况下，上一视频帧的响应图为将上一视频帧输入第二视频任务处理模型得到的响应图。在上一视频帧不属于视频的前N视频帧之一的情况下，上一视频帧的响应图为将上一视频帧输入第一视觉任务处理模型得到的响应图。其中，第二视觉任务处理模型比第一视觉任务处理模型的预测精度高，所述N为正整数。

方式二、在上一视频帧属于与所述上一视频帧对应的视频帧序列的前T视频帧之一的情况下，上一视频帧的响应图为将上一视频帧输入第二视觉任务处理模型得到的响应图。在上一视频帧不属于与所述上一视频帧对应的视频帧序列的前T视频帧之一的情况下，上一视频帧的响应图为将上一视频帧输入第一视觉任务处理模型得到的响应图。其中，视频帧序列为将所述视频中的多个视频帧划分后得到的多个视频帧序列之一；第二视觉任务处理模型比第一视觉任务处理模型的预测精度高，所述T为正整数。

在一实施例中，可以根据实际情况选择获取上一视频帧的响应图的方式。

下面将以视觉任务为图像分割为例进行说明。

如图5所示，给出了另一种图片处理方法的应用示意图。图5中将当前视频帧输入第一视觉任务处理模型的主路，得到对象特征图，将上一视频帧和上一视频帧的响应图输入第一视觉任务处理模型的支路，得到辅助特征图，其中，上一视频帧的响应图为将上一视频帧输入第二视觉任务处理模型得到的，将对象特征图和辅助特征图进行融合，得到融合后的特征图，将融合后的特征图输入第一视觉任务处理模型的主路，得到原始图片的响应图，即得到图像语义分割图。

本实施例的技术方案，通过获取当前视频帧、上一视频帧和上一视频帧的响应图，将当前视频帧输入第一视觉任务处理模型的主路，得到对象特征图，并且将上一视频帧和上一视频帧的响应图输入第一视觉任务处理模型的支路，得到辅助特征图，将对象特征图和辅助特征图融合后输入第一视觉任务处理模型的主路，得到原始图片的响应图，上述通过将上一帧和上一视频帧的响应图参与到生成当前视频帧的响应图的过程中，由于上一视频帧和上一视频帧的响应图可以提供较强的先验知识，而先验知识有助于解决影响视觉任务处理模型预测精度的场景复杂多变和/或物体较难识别等问题，从而提升了视觉任务处理模型的预测精度。

图6为本申请实施例提供的一种图片处理装置的结构示意图，本实施例可配置为处理视觉任务的情况，该装置可以采用软件和/或硬件的方式实现，该装置可以配置于设备中，例如典型的是计算机或移动终端等。如图6所示，该装置包括：原始图片和辅助信息获取模块410、特征图获取模块420以及原始图片的响应图获取模块430。

原始图片和辅助信息获取模块410，配置为获取原始图片和所述原始图片的辅助信息。

特征图获取模块420，配置为将原始图片输入第一视觉任务处理模型的主路，得到对象特征图，并且将辅助信息输入第一视觉任务处理模型的支路，得到辅助特征图。

原始图片的响应图获取模块430，配置为将对象特征图和辅助特征图融合后输入第一视觉任务处理模型的主路，得到原始图片的响应图。

本申请实施例所提供的配置于设备的图片处理装置可执行本申请任意实施例所提供的方法，具备执行方法相应的功能模块和效果。

图7为本申请实施例提供的一种设备的结构示意图。图7示出了适于用来实现本申请实施方式的示例性设备512的框图。图7显示的设备512仅仅是一个示例。

如图7所示，设备512以通用计算设备的形式表现。设备512的组件可以包括：一个或者多个处理器516，系统存储器528，连接于不同系统组件(包括系统存储器528和处理器516)的总线518。

系统存储器528可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory，RAM)530和/或高速缓存532。存储系统534可以配置为读写不可移动的、非易失性磁介质。系统存储器528可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请多个实施例的功能。

具有一组(至少一个)程序模块542的程序/实用工具540，可以存储在例如存储器528中程序模块542通常执行本申请所描述的实施例中的功能和/或方法。

设备512也可以与一个或多个外部设备514(例如键盘、指向设备、显示器524等)通信。这种通信可以通过输入/输出(Input/Output，I/O)接口522进行。设备512还可以通过网络适配器520与一个或者多个网络通信。

处理器516通过运行存储在系统存储器528中的程序，从而执行多种功能应用以及数据处理，例如实现本申请实施例所提供的方法，该方法包括：

获取原始图片和原始图片的辅助信息；

将原始图片输入第一视觉任务处理模型的主路，得到对象特征图，并且将辅助信息输入第一视觉任务处理模型的支路，得到辅助特征图；

将对象特征图和辅助特征图融合后输入第一视觉任务处理模型的主路，得到原始图片的响应图。

处理器还可以实现本申请任意实施例所提供应用于设备的图片处理方法的方案。该设备的硬件结构以及功能可参见实施例的内容解释。

本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现如本申请实施例所提供的方法，该方法包括：

获取原始图片和原始图片的辅助信息；

本申请实施例所提供的一种计算机可读存储介质，其计算机可执行指令包括如上所述的方法操作，还可以执行本申请任意实施例所提供的方法的相关操作。

Claims

一种图片处理方法，包括：

获取原始图片和所述原始图片的辅助信息；

将所述原始图片输入第一视觉任务处理模型的主路，得到对象特征图，并且将所述辅助信息输入所述第一视觉任务处理模型的支路，得到辅助特征图；

将所述对象特征图和所述辅助特征图融合后输入所述第一视觉任务处理模型的主路，得到所述原始图片的响应图。
根据权利要求1所述的方法，其中，所述原始图片的辅助信息包括所述原始图片对应的背景图片。
根据权利要求1所述的方法，其中，在所述原始图片为当前视频帧且所述当前视频帧不为视频首帧的情况下，所述原始图片的辅助信息包括所述当前视频帧的上一视频帧和所述上一视频帧的响应图。
根据权利要求3所述的方法，其中，通过如下方式获取所述上一视频帧的响应图：

在所述上一视频帧属于所述视频的前N视频帧之一的情况下，所述上一视频帧的响应图为将所述上一视频帧输入第二视频任务处理模型得到的响应图；

在所述上一视频帧不属于所述视频的前N视频帧之一的情况下，所述上一视频帧的响应图为将所述上一视频帧输入所述第一视觉任务处理模型得到的响应图；

其中，所述第二视觉任务处理模型比所述第一视觉任务处理模型的预测精度高，所述N为正整数。
根据权利要求3所述的方法，其中，通过如下方式获取所述上一视频帧的响应图：

在所述上一视频帧属于与所述上一视频帧对应的视频帧序列的前T视频帧之一的情况下，所述上一视频帧的响应图为将所述上一视频帧输入第二视觉任务处理模型得到的响应图；

在所述上一视频帧不属于与所述上一视频帧对应的视频帧序列的前T视频帧之一的情况下，所述上一视频帧的响应图为将所述上一视频帧输入所述第一视觉任务处理模型得到的响应图；

其中，所述视频帧序列为将所述视频中的多个视频帧划分后得到的多个视频帧序列之一；所述第二视觉任务处理模型比所述第一视觉任务处理模型的预测精度高，所述T为正整数。
根据权利要求1所述的方法，其中，通过如下方式训练所述第一视觉任务处理模型：

获取原始训练图片、所述原始训练图片的标注信息和所述原始训练图片的辅助训练信息；

将所述原始训练图片输入卷积神经网络的主路，得到对象训练特征图，并且将所述辅助训练信息输入所述卷积神经网络的支路，得到辅助训练特征图；

将所述对象训练特征图和所述辅助训练特征图融合后输入所述卷积神经网络的主路，得到所述原始训练图片的响应图；

根据所述原始训练图片的标注信息和所述原始训练图片的响应图，得到卷积神经网络的损失函数；

根据所述损失函数调整所述卷积神经网络的网络参数，直至所述损失函数的输出值小于或等于预设阈值，将所述卷积神经网络作为所述第一视觉任务处理模型。
根据权利要求6所述的方法，其中，所述辅助训练信息为通过数据增强处理后得到的辅助训练信息。
根据权利要求7所述的方法，其中，所述数据增强处理包括平移、旋转、裁剪、非刚性变换、噪声扰动和颜色变换中的至少一种。
一种图片处理装置，包括：

原始图片和辅助信息获取模块，配置为获取原始图片和所述原始图片的辅助信息；

特征图获取模块，配置为将所述原始图片输入第一视觉任务处理模型的主路，得到对象特征图，并且将所述辅助信息输入所述第一视觉任务处理模型的支路，得到辅助特征图；

原始图片的响应图获取模块，配置为将所述对象特征图和所述辅助特征图融合后输入所述第一视觉任务处理模型的主路，得到所述原始图片的响应图。
一种设备，包括：

一个或多个处理器；

存储器，配置为存储一个或多个程序；

所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一项所述的方法。
一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的方法。