WO2020207134A1

WO2020207134A1 - 图像处理方法、装置、设备以及计算机可读介质

Info

Publication number: WO2020207134A1
Application number: PCT/CN2020/076598
Authority: WO
Inventors: 杨静林; 谷玉; 唐小军; 张丽杰
Original assignee: 京东方科技集团股份有限公司
Priority date: 2019-04-10
Filing date: 2020-02-25
Publication date: 2020-10-15
Also published as: CN109977963A; CN109977963B

Abstract

公开了一种图像处理方法、设备、装置以及计算机可读介质。所述图像处理方法包括：根据输入图像确定多个输入图像特征，其中所述多个输入图像特征的尺寸互不相同；对于所述多个输入图像特征中的每个输入图像特征，以该输入图像特征为基准输入图像特征，从所述多个输入图像特征中选择其尺寸小于所述基准输入特征的尺寸的第一输入图像特征和其尺寸大于所述基准输入图像特征的尺寸的第二输入图像特征；根据所述基准输入图像特征、所述第一输入图像特征和第二输入图像特征确定与该基准图像特征相关联的候选区域；以及根据分别与所述多个输入图像特征相关联的多个候选区域执行目标检测。

Description

图像处理方法、装置、设备以及计算机可读介质

相关文献的交叉引用

本公开要求于2019年4月10日递交的中国专利申请第201910285254.5号的优先权，在此全文引用上述中国专利申请公开的内容以作为本申请的一部分。

技术领域

本公开涉及图像处理领域，具体地，涉及一种用于目标检测的图像处理方法、设备、装置以及计算机可读介质。

背景技术

目标检测是计算机视觉领域中最为基础的应用之一。通常，在多幅图像中，待检测的目标具有非常大的尺度差异，即目标在某些图像中表现的很大，而在另一些图像中表现的很小。因此，在目标检测中希望能够通过考虑多尺度下的图像信息提高目标检测的精度。

发明内容

为此，本公开提供了一种图像处理方法、设备、装置以及计算机可读介质。

根据本公开的一方面，提供了一种图像处理方法，包括：根据输入图像确定多个输入图像特征，其中所述多个输入图像特征的尺寸互不相同；对于所述多个输入图像特征中的每个输入图像特征，以该输入图像特征为基准输入图像特征，从所述多个输入图像特征中选择其尺寸小于所述基准输入特征的尺寸的第一输入图像特征和其尺寸大于所述基准输入图像特征的尺寸的第二输入图像特征；根据所述基准输入图像特征、所述第一输入图像特征和第二输入图像特征确定与该基准图像特征相关联的候选区域；以及根据分别与所述多个输入图像特征相关联的多个候选区域执行目标检测。

在一些实施例中，对于基准输入图像特征，根据所述基准输入图像特征、所述第一输入图像特征和第二输入图像特征确定与该基准图像特征相关联的候选区域包括：根据所述基准输入图像特征和所述第一输入图像特征确定第一候选区域，以及根据所述基准输入图像特征和所述第二输入图像特征确定第二候选区域。

在一些实施例中，对于所述基准输入图像，所述第一候选区域与所述第二候选区域的尺寸是不同的，其中，根据分别与所述多个输入图像特征相关联的多个候选区域执行目标检测包括：对分别与所述多个输入图像特征相关联的多个第一候选区域和多个第二候选区域进行池化处理，使得处理后的各候选区域的尺寸是相同的；对处理后的候选区域进行分类预测；以及根据预测的类别调整候选区域的边框。

在一些实施例中，根据所述基准输入图像特征和所述第一输入图像特征确定第一候选区域包括：对所述第一输入图像特征执行上采样操作，使得上采样后的第一输入图像特征的尺寸放大为所述基准输入图像特征的尺寸；组合上采样后的第一输入图像特征与所述基准输入图像特征，并获得其尺寸与所述基准输入图像特征的尺寸相同的第一组合图像特征；基于所述第一组合图像特征确定所述第一候选区域。

在一些实施例中，根据所述基准输入图像特征和所述第二输入图像特征确定第二候选区域包括：对所述第二输入图像特征执行下采样操作，使得下采样后的第二输入图像特征的尺寸缩小为所述基准输入图像特征的尺寸；组合下采样后的第二输入图像特征与所述基准输入图像特征，并获得其尺寸与所述基准输入图像特征尺寸相同的第二组合图像特征；基于所述第二组合图像特征确定所述第二候选区域。

在一些实施例中，所述图像处理方法还包括：对于所述基准输入图像特征，从所述多个输入图像特征中选择其尺寸小于所述第一输入图像特征的尺寸的第三输入图像特征；对所述第三输入图像特征执行上采样操作，使得上采样后的第三输入图像特征的尺寸放大为所述基准输入图像特征的尺寸；以及其中，组合上采样后的第一输入图像特征与所述基准输入图像特征，并获得其尺寸与所述基准输入图像特征的尺寸相同的第一组合图像特征包括：组合上采样后的第三输入图像特征、上采样后的第一输入图像特征与所述基准输入图像特征，并获得其尺寸与所述第一输入图像特征的尺寸相同的第一组合图像特征。

在一些实施例中，所述图像处理方法还包括：对于所述基准输入图像特征，从所述多个输入图像特征中选择其尺寸大于所述第二输入图像特征的尺寸的第四输入图像特征；对所述第四输入图像特征执行下采样操作，使得下采样后的第四输入图像特征的尺寸减小为所述基准输入图像特征的尺寸；以及其中，组合下采样后的第二输入图像特征与所述基准输入图像特征，并获得其尺寸与所述基准输入图像特征尺寸相同的第二组合图像特征包括：组合下采样后的第四输入图像特征、下采样后的第二输入图像特征与所述基准输入图像特征，并获得与所述基准输入图像特征尺寸相同的第二组合图像特征。

在一些实施例中，所述多个输入图像特征具有相同的通道数。

在一些实施例中，基于所述第一组合图像特征确定第一候选区域包括：利用滑动窗口、选择搜索(select search)、edgebox算法或区域建议网络，基于所述第一组合图像特征确定第一候选区域。

在一些实施例中，根据所述输入图像确定多个输入图像特征包括：利用深度残差网络对所述输入图像进行变换，并根据所述深度残差网络的输出确定对应于所述输入图像的多个输入图像特征。

根据本公开的另一方面，还提供了一种图像处理装置，包括：特征确定模块，配置成根据输入图像确定多个输入图像特征，其中所述多个输入图像特征的尺寸互不相同；候选区域确定模块，配置成对于所述多个输入图像特征中的每一个输入图像特征执行以下操作以生成候选区域：对于第一输入图像特征，从所述多个输入图像特征中选择第二输入图像特征和第三输入图像特征，其中所述第二输入图像特征的尺寸小于所述第一输入图像特征的尺寸，并且所述第三输入图像特征的尺寸大于所述第一输入图像特征的尺寸；根据所述第一输入图像特征、第二输入图像特征和第三输入图像特征确定候选区域；以及目标检测模块，配置成根据所述候选区域执行目标检测。

在一些实施例中，对于基准输入图像特征，所述候选区域确定模块进一步配置成：根据所述基准输入图像特征和所述第一输入图像特征确定第一候选区域，以及根据所述基准输入图像特征和所述第二输入图像特征确定第二候选区域。

在一些实施例中，对于所述基准输入图像，所述第一候选区域与所述第二候选区域的尺寸是不同的，所述目标检测模块进一步配置成：对分别与所述多个输入图像特征相关联的多个第一候选区域和多个第二候选区域进行池化处理，使得处理后的各候选区域的尺寸是相同的；对处理后的候选区域进行分类预测；以及根据预测的类别调整候选区域的边框。

在一些实施例中，所述候选区域确定模块还包括：上采样模块，配置成对所述第一输入图像特征执行上采样操作，使得上采样后的第一输入图像特征的尺寸放大为所述基准输入图像特征的尺寸；组合模块，配置成组合上采样后的第一输入图像特征与所述基准输入图像特征，并获得其尺寸与所述基准输入图像特征的尺寸相同的第一组合图像特征；区域确定模块，配置成基于所述第一组合图像特征确定所述第一候选区域。

在一些实施例中，所述候选区域确定模块还包括：下采样模块，配置成对所述第二输入图像特征执行下采样操作，使得下采样后的第二输入图像特征的尺寸缩小为所述基准输入图像特征的尺寸；组合模块，配置成组合下采样后的第二输入图像特征与所述基准输入图像特征，并获得其尺寸与所述基准输入图像特征尺寸相同的第二组合图像特征；区域确定模块，配置成基于所述第二组合图像特征确定所述第二候选区域。

根据本公开的另一方面，提供了一种图像处理设备，包括至少一个处理器以及存储有程序指令的存储器，当执行所述程序指令时，所述至少一个处理器配置成执行如前所述的图像处理方法。

根据本公开的另一方面，提供了一种计算机可读的非暂态的存储介质，其上存储有程序指令，当由计算机执行所述程序指令时，所述计算机配置成执行如前所述的图像处理方法。

利用本公开提供的图像处理方法、设备、装置以及计算机可读介质，可以在对图像执行目标检测时，根据融合了多个尺度的图像信息的图像特征确定用于图像目标检测的候选区域，从而提高目标检测的精度。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员而言，在没有做出创造性劳动的前提下，还可以根据这些附图获得其他的附图。以下附图并未刻意按实际尺寸等比例缩放绘制，重点在于示出本公开的主旨。

图1示出了对图像进行目标检测的一种示例性的输出结果；

图2示出了根据本公开的实施例的一种目标检测的方法的示例性的过程；

图3示出了根据本公开的实施例的一种图像处理装置的示意性的框图；

图4A示出了根据本公开的实施例的特征确定模块的示意性的框图；

图4B示出了构成深度残差网络ResNet的一个基本块的示例；

图4C示出了构成深度残差网络ResNet的一个基本块的一种示例；

图4D示出了构成深度残差网络ResNet的一个基本块的另一种示例；

图5示出了根据本公开的实施例的候选区域确定模块的示意性的框图；

图6示出了根据本公开的实施例的目标检测模块的示意性的框图；

图7示出了根据本公开的实施例的图像处理方法的示意性的流程图；

图8A示出了根据本公开的实施例的特征确定方法的示意性的流程图；

图8B示出了根据本公开的实施例的特征确定方法示意图；

图9A示出了根据本公开的实施例的候选区域确定方法的示意性的流程图；

图9B示出了根据本公开的实施例的候选区域确定方法的示意性的流程图；

图10A示出了根据本公开的实施例的一种候选区域确定方法的示例；

图10B示出了根据本公开的实施例的一种候选区域确定方法的示例；

图10C示出了根据本公开的实施例的一种候选区域确定方法的示例；

图11A示出了根据本公开的实施例的另一种候选区域确定方法的示意性的流程图；

图11B示出了根据本公开的实施例的另一种候选区域确定方法的示意性的流程图；

图12A示出了根据本公开的实施例的另一种候选区域确定方法的示例；

图12B示出了根据本公开的实施例的另一种候选区域确定方法的示例；

图12C示出了根据本公开的实施例的目标检测流程的一个示例；

图13示出了根据本公开的实施例的目标检测方法的示意性的流程图；以及

图14示出了根据本公开的实施例的计算设备的示意性的框图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚，以下举实施例对本公开作进一步详细说明。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。

在计算机视觉领域，目标检测是最为基础和具有实际应用意义的研究方向。计算机视觉可以识别图片中存在的对象，并对识别出的对象进行标记。图1示出了对图像进行目标检测的一种示例性的输出结果。如图1所示，计算机可以识别出该图片中包括猫，并在图片中给识别出的对象加上标记框以及文字标识“猫”。

近年来，卷积神经网络在图像处理领域中，尤其是目标的检测和分类方面，表现出了极大的优势。但是，在不同的成像条件下，同一类目标在尺度上可能呈现出较大的差异。在相机距离较为接近的情况下，目标在图像中占比较大；而在相机距离较远时，目标在图像中的尺寸可能会非常小。因此，在处理包含小目标的图像时常见的基于卷积神经网络的目标检测算法的检测性能较差。为了提高基于卷积神经网络的目标检测算法的准确性，本公开提出了一种改善的在图像中确定包含待检测目标的候选区域的方法。

图2示出了根据本公开的实施例的一种目标检测的方法的示例性的过程。如图2所示，可以利用经训练的卷积神经网络将输入图像变换为多个图像特征，该多个图像特征的尺度互不相同，如图2中示出的C1、C2、C3、C4。在一些实施例中，卷积神经网络可以是多层的结构。例如，该卷积神经网络可以包括多个卷积层和/或池化层。可以将包括多个卷积层的卷积神经网络中任一层的输出作为输入图像的图像特征。在图2示出的示例中，图像特征C1的尺寸可以表示为16×16，图像特征C2的尺寸可以表示为8×8，图像特征C3的尺寸可以表示为4×4，以及图像特征C4的尺寸可以表示为2×2。上述各图像特征的尺寸可以不是其实际尺寸，而仅用于代表各图像特征之间的尺寸的比例关系。例如，在输入图像的图像尺寸为1024×1024的情况下，C1的尺寸可以是1024×1024，C2的尺寸可以是512×512，C3的尺寸可以是256×256，C4的尺寸可以是128×128。这里所说的图像尺寸可以是以像素为单位的尺寸，因此，图像或图像特征的尺寸越大意味着其分辨率越高。

图2中仅示出了将输入图像变换为多个不同尺度的图像特征一种可能的示例，本领域技术人员可以理解，通过调整用于对输入图像进行变换的神经网络的参数，可以生成更多或更少个不同尺度的图像特征，例如，2个、3个或多于4个图像特征。此外，通过调整上述神经网络的参数也可以生成不同尺寸的图像特征。例如，以生成4个尺度的图像特征为例，各个尺度之间的图像尺寸之间可以是根据2倍、3倍或任意倍数的等比关系。又例如，各个尺度之间的图像尺寸之间也可以不存在比例关系。也就是说，可以将输入图像变换为具有互不相同的尺寸的多个图像特征，各图像特征的尺寸可以根据实际需要任意设置。

利用如上确定的不同尺寸的图像特征C1、C2、C3、C4，可以根据不同尺度的图像信息生成用于实现目标检测的各候选区域。可以利用训练好的神经网络对各图像特征进行处理，并输出输入图像中可能包括对象的边界框的位置。例如，可以利用滑动窗口、选择搜索(select search)、edgebox算法和区域建议网络(Region Proposal Network，RPN)中的一种或多种对不同尺寸的图像特征C1、C2、C3、C4分别进行处理，并生成用于每个图像特征的候选区域。例如，在候选区域是矩形的情况下，能够通过上述方法对图像特征C1、C2、C3、C4进行处理并输出输入图像中的矩形候选区域的四个顶点的坐标，从而能够确定候选区域在输入图像中的位置。

可以理解的是，由于输入图像中可能存在大小不同的目标，因此，利用上述方法生成的各候选区域的尺寸可以是不同的。为了简化之后的处理步骤。如图2所示，可以利用池化层(例如兴趣区域池化ROI Pooling)将不同尺寸的候选区域映射为预设的尺寸。也就是说，通过池化层可以将不同尺寸的候选区域映射为相同尺寸的输出。在一些实施例中，池化层可以实现最大池化、最小池化或平均池化。

进一步地，如图2所示，针对上述被映射成预设尺寸的候选区域，可以利用例如基于区域的卷积神经网络(R-CNN)对候选区域内的目标进行分类，并根据预测的类别更好地调整其中包括目标的候选区域的边界尺寸。

利用图2中示出的图像处理方法，可以实现对输入图像进行目标检测，并输出检测到的目标的类型、目标属于该类型的概率以及包含该目标的边界框。

图3示出了根据本公开的实施例的一种图像处理装置的示意性的框图。如图3所示，图像处理装置300可以包括特征确定模块310、候选区域确定模块320以及目标检测模块330。上述各模块之间可以相互连接并进行数据交换。

特征确定模块310可以配置成根据输入图像确定多个输入图像特征，其中该多个输入图像特征的尺寸互不相同。该输入图像中可以包括一个或多个待检测的对象。例如，输入图像中可以包括人物、动物、植物、室内物品、交通工具等各种类别的待检测的对象。在一些实施例中，该输入图像可以包括一个或多个通道，如R、G、B和/或灰度通道。

以图2中示出的过程为例，特征确定模块310可以根据输入图像确定尺寸为16×16的输入图像特征C1、尺寸为8×8的输入图像特征C2、尺寸为4×4的输入图像特征C3以及尺寸为2×2的输入图像特征C4。在一些实施例中，输入图像特征可以实现为张量的形式。例如，输入图像特征C1的尺寸可以是16×16×64，其中第三个尺寸分量64表示C1的维度，也称作是通道数，16×16表示C1的每个通道上的特征尺寸。通过特征确定模块310生成的多个输入图像特征的通道数可以是相同的，也可以是不同的。由于输入图像中包括不同大小的目标大，因此不同尺度的输入图像特征中包括的目标信息是不同的。

此外，在利用卷积网络对图像进行处理时，得到的越深层的图像特征中包括的图像的语义信息越丰富，而越浅层的图像特征中包括的图像的细节信息越丰富。因此，通过利用卷积网络中不同深度的卷积层得到的不同尺寸的多个输入图像特征中具备不同的语义信息和细节信息。候选区域确定模块320可以用于根据特征确定模块310生成的多个输入图像特征，从而根据不同尺度的图像信息确定用于输入图像的候选区域。例如，候选区域确定模块320可以配置成对于所述多个输入图像特征中的每个输入图像特征，以该输入图像特征作为基准输入图像特征，从所述多个输入图像特征中选择其尺寸小于所述基准输入特征的尺寸的第一输入图像特征和其尺寸大于所述基准输入图像特征的尺寸的第二输入图像特征。根据所述基准输入图像特征、所述第一输入图像特征和第二输入图像特征确定与该基准图像特征相关联的候选区域。例如，对于基准输入图像特征，候选区域确定模块320可以根据融合有上述基准输入图像特征、上述第一输入图像特征的组合图像特征生成第一候选区域。候选区域确定模块320还可以根据融合有上述基准输入图像特征、上述第二输入图像特征的组合图像特征生成第二候选区域。上述第一候选区域和第二候选区域可以用于接下来的目标检测步骤。又例如，候选区域确定模块320可以根据融合有上述基准输入图像特征、上述第一输入图像特征和上述第二输入图像特征的组合图像特征生成第三候选区域，并将该第三候选区域用于接下来的目标检测步骤。

本公开提供的方案不限于以上示例。事实上，本领域技术人员可以根据实际需要将图像处理装置设置成选择第一候选区域、第二候选区域、第三候选区域中的一个或多个用于接下来的目标检测步骤。例如，可以将第一候选区域、第二候选区域、第三候选区域全部用于接下来的目标检测步骤。

目标检测模块330可以配置成根据前述确定的候选区域执行目标检测。在一些实施例中，目标检测模块330可以对候选区域进行分类，并根据分类结果调整候选区域的边界框的位置和尺寸。在一些实施例中，目标检测模块330还可以输出候选区域中的对象属于某一预设类别的概率。

尽管图3中并未示出，在一些实施例中，图像处理装置300还可以包括输入/输出模块。利用输入/输出模块，图像处理装置300可以接收将对其执行图像处理的输入图像，以及将图像处理装置300得到的结果输出给用户。例如，输出模块可以实现为显示屏。通过在显示屏上显示如图1中示出的目标检测结果，可以向用户展示通过图3所示的图像处理装置得到的结果。

利用本公开提供的图像处理装置，在对输入图像执行目标检测的过程中，可以基于不同尺寸的输入图像特征生成候选区域，并且，对于特定尺寸的输入图像特征，可以通过将该输入图像特征与比该特定尺寸的尺寸更小的输入图像特征和/或比该特定尺寸的尺寸更大的输入图像特征相融合，并利用融合后的图像特征确定候选区域。如前所述，由于前述利用不同的卷积处理得到的不同尺寸的多个输入图像特征中具备不同的语义信息和细节信息，因此通过利用融合的不同尺度的输入图像特征确定，能够在深层次的输入图像特征中体现小尺寸的目标的图像信息。因此，利用本公开提供的图像处理装置生成的候选区域准确率更高。

图4A示出了根据本公开的实施例的特征确定模块的示意性的框图。如图4A所示，特征确定模块310可以包括图像分解模块311和维度调整模块312。上述各模块之间可以相互连接并进行数据交换。

图像分解模块311可以配置成将输入图像分解成不同尺度的多个输入图像特征，其中该多个输入图像特征可以具有相同的通道数，也可以具有不同的通道数。在一些实施例中，图像分解模块311可以利用深度残差网络ResNet对输入图像进行分解。

图4B示出了构成深度残差网络ResNet的一个基本块的示例。如图4B所示，该段神经网络的输入是x，期望输出是H(x)，其中H(x)是期望的复杂映射关系。利用图4B中示出的深度残差网络结构，通过捷径连接(shortcut connections)的方式，直接将输入x传送到输出作为初始结果。由于输出结果为H(x)＝F(x)+x，那么当F(x)＝0时，H(x)＝x。该段神经网络的学习目标不是学习一个完整的输出，而是目标值H(x)＝x的差值，即残差F(x)＝H(x)-x。深度残差网络的训练目标就是要将残差结果逼近于零，从而使得多层神经网络的叠加不导致准确率的下降。

下表中示出了深度残差网络ResNet的几种示例性的结构。深度残差网络包括基本的五层结构，包括下表中示出的conv1、conv2_x、conv3_x、conv4_x、conv5_x。这五层结构中的每一层可以包括相同或不同的权重层，从而形成不同深度的深度残差网络。

表1

例如，如表1中所示，在18层、34层、50层、101层以及152层的深度残差网络中，在conv1层中均具有[7×7，64]的卷积层，在conv2_x中均具有尺寸为3×3的最大池化层。此外，在例如18层的深度残差网络结构中，conv2_x层中还包括依次连接的两组具有两层尺寸为[3×3,64]的卷积层的结构，如图4C所示。而在例如101层的深度残差网络结构中，conv2_x层中包括的是三组依次连接的具有三层尺寸分别为[1×1,64]、[3×3,64]、[1×1,256]的卷积层的结构，如图4D所示。利用表1中示出的结构，可以分别构造18层、34层、50层、101层以及152层的深度残差网络结构。

利用上述深度残差网络，可以分别将conv2_x、conv3_x、conv4_x、conv5_x中的最后一层的输出记作C1、C2、C3和C4，并将C1、C2、C3和C4作为本公开中前述的不同尺度下的输入图像特征。其中每个输入图像特征可以具有多个通道。

通过调整神经网络的参数，可以获得在多个不同尺度的具有相同通道数的图像特征，也可以获得在多个不同尺度的具有不同通道数的图像特征。

从表1中可以看出，conv2_x、conv3_x、conv4_x、conv5_x的输出的图像特征分别经过不同次数的卷积处理。可以认为，经过卷积处理的次数越多，得到的图像特征越深层，即图像特征中的语义信息越丰富。

当图像分解模块311获得的多个不同尺度下的输入图像特征具有不同的通道数时，可以利用维度调整模块312对上述多个尺度的特征进行维度调整。

维度调整模块312可以配置成对图像分解模块311生成的输入图像特征进行处理，并确定具有相同通道数的多个输入图像特征C1、C2、C3和C4。在一些实施例中，维度调整模块312可以利用尺寸为1×1，通道数为n的卷积核对图像分解模块311生成的多个输入图像特征进行卷积。通过这样的方法可以在不改变输入图像特征的尺寸的同时，将多个输入图像特征的通道数改变为1×1的卷积层的通道数n。可以通过设置n的数量将输入图像特征的通道数设置为需要的数目。

当图像分解模块311获得的多个不同尺度下的输入图像特征具有相同的通道数时，可以省略特征确定模块310中的维度调整模块312。

在另一些实施例中，即使图像分解模块311获得的多个不同尺度下的图像特征具有不同的通道数，也可以省略特征确定模块310中的维度调整模块312。也就是说，特征确定模块310可以输出具有不同通道数的多个输入图像特征。在之后的操作步骤中，当需要将两个具有不同通道数的图像特征处理成具有相同通道数时，可以利用单独的维度调整模块对图像特征进行处理。

图5示出了根据本公开的实施例的候选区域确定模块320的示意性的框图。如图5所示，候选区域确定模块320可以包括上采样模块321、下采样模块322、组合模块323以及区域确定模块324。上述各模块之间可以相互连接并进行数据交换。

上采样模块321可以配置成对图像特征执行上采样操作。在一些实施例中，所述上采样操作可以是以均匀地间隔对图像特征进行插值。例如，如果执行2倍的上采样操作，可以将图像特征的尺寸从2×2增加为4×4。如果执行4倍的上采样操作，可以将图像特征的尺寸从2×2增加为8×8。上采样操作可以包括对图像执行插值操作，例如邻插值(如双线性插值、双三次插值、样条插值等)、基于边缘的插值和/或基于区域的插值。

下采样模块322可以配置成对图像特征执行下采样操作。在一些实施例中，所述下采样操作可以是以均匀的间隔从图像特征中抽取数据，从而降低被处理的图像特征的尺寸。例如，如果执行2倍的下采样操作，可以将图像特征的尺寸从4×4减小为2×2。如果执行4倍的下采样操作，可以将图像特征的尺寸从8×8减小为2×2。以2倍下采样为例，下采样操作可以将图像特征中2×2的区域内的所有像素映射成一个像素，例如可以将该区域内的所有像素的加权平均值作为下采样后图像中该一个像素的像素值。

组合模块323可以配置成对图像特征进行组合。在一些实施例中，组合模块323可以配置成利用训练好的卷积神经网络对图像特征进行组合。即，通过卷积神经网络生成融合有不同图像特征的图像信息的组合图像特征。在另一些实施例中，组合模块323可以配置成对尺寸相同的多个图像特征进行叠加。在一些实施例中，组合模块323可以配置成对尺寸和通道数相同的多个图像特征进行叠加。例如，对于尺寸和通道数相同的多个图像特征，组合模块可以将该多个图像特征中相同坐标处的元素值直接进行求和作为叠加后的图像特征在该坐标处的参数。在另一些实施例中，组合模块323可以配置成对通道数不同的多个图像特征进行叠加。例如，组合模块可以包括维度调整单元，该维度调整单元可以配置成对该多个图像特征的通道数进行处理使得处理后的多个图像特征具有相同的通道数，并将具有相同的通道数的多个图像特征进行叠加。利用组合模块323可以生成融合了不同尺度的图像信息的组合图像。

区域确定模块324可以配置成基于组合模块323生成的组合图像确定候选区域。区域确定模块324可以利用滑动窗口、选择搜索(select search)、edgebox 算法和区域建议网络(Region Proposal Network，RPN)中一种或多种对组合图像进行图像处理，并得到组合图像中的候选区域。由此，候选区域确定模块可以根据融合了不同尺度的图像信息的图像特征确定用于检测输入图像中的目标的候选区域。

图6示出了根据本公开的实施例的目标检测模块的示意性的框图。如图6所示，目标检测模块330可以包括池化模块331、分类模块332以及调整模块333。上述各模块之间可以相互连接并进行数据交换。

池化模块331可以配置成对候选区域确定模块生成的各候选区域进行池化处理，使得处理后的各候选区域的尺寸是相同的。例如，池化模块331可以利用兴趣区域池化ROI Pooling)将不同尺寸的候选区域映射为固定尺寸的输出。

分类模块332可以配置成对尺寸相同的处理后的候选区域进行分类预测。利用已经训练好的基于区域的卷积神经网络(R-CNN)可以实现对各候选区域的分类。例如，可以将各候选区域输入R-CNN网络，并根据R-CNN网络的输出可以将候选区域确定为“男人”、“女人”、“猫”、“狗”、“花”等各种预定义的类别。也可以将候选区域确定为“背景类”，从而用于分类结果不佳的候选区域。具体的分类结果可以通过调整用于分类的卷积神经网络的参数来指定。在一些实施例中，分类模块332还可以预测某个候选区域属于某个类别的概率。

调整模块333可以配置成根据分类模块332预测的类别调整候选区域的边框。根据通过分类模块332确定的类别，调整模块333可以利用边界回归(bounding-box regression)调整由前述的候选区域确定模块320生成的候选区域边界，从而得到更精确的目标边界框。

利用本公开提供的图像处理装置，可以实现将输入图像分解为不同尺寸的输入图像特征，并根据融合了不同尺寸的输入图像特征的图像信息的组合图像特征确定输入图像中可能包含有对象的候选区域。通过考虑多尺度下的图像信息，可以提高目标检测的准确性。

图7示出了根据本公开的实施例的图像处理方法的示意性的流程图。可以图3-图6所述的图像处理装置执行如图7所示的图像处理方法。

在步骤S702中，可以根据输入图像确定多个输入图像特征。可以利用如图3、图4A中示出的特征确定模块执行步骤S702。如前所述，该多个输入图像特征的尺寸互不相同。特征确定模块可以利用VGG网络或前述深度残差网络ResNet从输入图像中提取输入图像特征。在一些实施例中，通过VGG或ResNet网络提取的各图像特征具有相同的通道数。在另一些实施例中，通过VGG或ResNet网络提取的各图像特征具有不同的通道数。由于输入图像中包括的目标存在不同大小，因此不同尺度的输入图像特征中包括的目标信息是不同的。此外，通过利用不同的卷积处理得到的不同尺寸的多个输入图像特征中具备不同的语义信息和细节信息。

在步骤S704中，对于基准输入图像特征，可以从多个输入图像特征中选择第一输入图像特征和第二输入图像特征，其中第一输入图像特征的尺寸小于基准输入图像特征的尺寸，其中第二输入图像特征的尺寸大于基准输入图像特征的尺寸；根据基准输入图像特征、第一输入图像特征和第二输入图像特征可以确定与该基准图像特征相关联的候选区域。可以利用图3、图5中示出的候选区域确定模块执行步骤S704。

在一些实施例中，可以将其尺寸小于基准输入图像特征的第一输入图像特征与基准输入图像特征进行组合并生成融合有基准输入图像特征、第一输入图像特征的图像信息的第一组合图像特征，其中第一组合图像特征与第一输入图像特征的尺寸相同。根据第一组合图像特征的图像信息可以生成第一候选区域。此外，还可以将其尺寸大于基准输入图像特征的第二输入图像特征与基准输入图像特征进行组合并生成融合有基准输入图像特征、第二输入图像特征的图像信息的第二组合图像特征，其中第二组合图像特征与第一输入图像特征的尺寸相同。根据第二组合图像特征的图像信息可以生成第二候选区域。

在一些实施例中，可以将其尺寸小于基准输入图像特征的第一输入图像特征、其尺寸大于基准输入图像特征的第二输入图像特征与基准输入图像特征进行组合，并生成融合有基准输入图像特征、第一输入图像特征以及第二输入图像特征的图像信息的第三组合图像特征，其中第三组合图像特征与第一输入图像特征的尺寸相同。根据第三组合图像特征的图像信息可以生成第三候选区域。

如前所述，技术人员可以根据实际需要选择上述第一候选区域、第二候选区域和第三候选区域中的一个或多个用于接下来的目标检测操作。例如，可以将如前所述确定的第一候选区域、第二候选区域和第三候选区域全部用于接下来的目标检测操作。又例如，可以根据预设的规则从如前所述确定的第一候选区域、第二候选区域和第三候选区域中选择一部分用于接下来的目标检测操作。

在步骤S706中，可以根据确定的候选区域执行目标检测。可以利用图3、图6中示出的目标检测模块执行步骤S706。通过目标检测算法可以对前述确定的候选区域进行分类，并根据分类结果调整候选区域的边界框的位置和尺寸。在一些实施例中，还可以利用目标检测算法输出候选区域属于某一特定类别的概率。

对于所述多个输入图像特征中的每个输入图像特征，以该输入图像特征为基准输入图像特征，可以利用图7中示出的方法确定与上述多个输入图像特征相关联的多个候选区域。

利用本公开提供的图像处理方法，在对输入图像执行目标检测的过程中，可以基于不同尺寸的输入图像特征生成候选区域，并且，对于特定尺寸的输入图像特征，可以通过将该输入图像特征与比该特定尺寸的尺寸更小的输入图像特征和/或比该特定尺寸的尺寸更大的输入图像特征相融合，并利用包括融合了多个尺度的图像信息的图像特征确定用于输入图像的候选区域。由于前述利用不同的卷积处理得到的不同尺寸的多个输入图像特征中具备不同的语义信息和细节信息，因此通过利用融合的不同尺度的输入图像特征确定，能够在深层次的输入图像特征中体现小尺寸的目标的图像信息。因此，利用本公开提供的图像处理装置生成的候选区域准确率更高。

图8A示出了根据本公开的一种实施例的特征确定方法的示意性的流程图。可以利用如图3和图4A中示出的特征确定模块310执行图8A中示出的方法。利用图8A中示出的流程可以实现如图7中示出的步骤S702。

如图8A所示，特征确定步骤S702可以包括步骤S7022。在步骤S7022中，可以根据输入图像确定多个输入图像特征。可以利用图4A示出的图像分解模块从输入图像中提取输入图像特征。例如，可以利用前述的深度残差网络的conv2_x、conv3_x、conv4_x、conv5_x层中最后一层卷积层的输出作为输入图像的输入图像特征。在一些实施例中，根据输入图像确定的输入图像特征可以具有相同的通道数，也可以具有不同的通道数。

当如前所述确定的输入图像特征具有不同的通道数时，特征确定步骤S702可以进一步包括步骤S7024，在步骤S7024中，可以对多个输入图像特征的通道数进行维度调整，使得上述多个输入图像特征具有相同的通道数。可以利用如图4A中示出的维度调整模块执行步骤S7024。在一些实施例中，可以利用尺寸为1×1，通道数为n的卷积层对步骤S7022中生成的多个输入图像特征进行卷积。通过这样的方法可以在不改变输入图像特征的尺寸的同时，将多个输入图像特征的通道数统一改变为1×1的卷积层的通道数n。可以通过设置n的大小将输入图像特征的通道数设置为需要的数目。

当步骤S7022输出的输入图像特征具有相同的通道数时，步骤S7024可以被省略。在这种情况下，可以将步骤S7022输出的多个输入图像特征作为输入图像的多个输入图像特征。

在另一些情况下，当骤S7022输出的输入图像特征具有不同的通道数时，步骤S7024也可以被省略。也就是说，图7中示出的图像处理方法的步骤S702可以输出具有不同通道数的多个输入图像特征。在之后的操作步骤中，当需要将两个具有不同通道数的输入图像特征进行维度调整，使得其具有相同通道数时，可以利用额外的维度调整步骤对输入图像特征进行处理。

图8B示出了根据本公开的实施例的特征维度调整方法的示意图。如图8B所示，根据输入图像可以生成尺寸为16×16×16的输入图像特征C1、尺寸为8×8×64的输入图像特征C2、尺寸为4×4×256的输入图像特征C3以及尺寸为2×2×1024的输入图像特征C4。由于用于从输入图像中提取特征的卷积网络的参数被设置为使得C1、C2、C3以及C4的通道数是不同的，可以利用如图4A中示出的维度调整模块将C1、C2、C3以及C4处理成具有相同的通道数。经过上述处理后，可以得到将不同尺寸的输入图像特征C1、C2、C3以及C4在尺寸不变的情况下进行归一化，从而将输入图像特征C1、C2、C3以及C4变换为具有相同通道数的输入图像特征C1’、C2’、C3’以及C4’以方便后续的处理。

在下文中以输入图像特征C1、C2、C3以及C4为例解释本公开的原理，其中C1、C2、C3以及C4可以是相同的，也可以是不同的。

图9A、图9B示出了根据本公开的实施例的候选区域确定方法的示意性的流程图。可以利用如图2、图5中所示的候选区域确定模块执行图9A、图9B中示出的方法。利用图9A、9B中示出的候选区域确定方法可以实现图7中示出的候选区域确定步骤S704。

图9A示出了用于根据确定融合了基准输入图像特征和其尺寸小于基准输入图像特征的尺寸的第一输入图像特征的图像信息的组合图像特征确定候选区域的方法。如图9A所示，在步骤S9022中，可以对第一输入图像特征执行上采样操作，使得上采样后的第一输入图像特征的尺寸放大为所述基准输入图像特征的尺寸。可以利用如图5中示出的上采样模块执行步骤S9022。

在步骤S9024中，组合上采样后的第一输入图像特征与所述基准输入图像特征，并获得第一组合图像特征。可以利用如图5中示出的组合模块执行步骤S9024。在一些实施例中，可以将基准输入图像特征和上采样后的第一输入图像特征进行叠加。例如，在基准输入图像特征和上采样后的第一输入图像特征具有相同通道数的情况下，可以将基准输入图像特征和上采样后的第一输入图像特征中相同坐标处的元素值直接进行求和作为叠加后的图像特征在该坐标处的参数。在基准输入图像特征和上采样后的第一输入图像特征具有不同的通道数的情况下，可以利用如步骤S7024中提供的方法将基准输入图像特征和上采样后的第一输入图像特征处理成具有相同的通道数，并对具有相同通道数的基准输入图像特征和上采样的第一输入图像特征进行叠加，从而生成第一组合图像特征。

图10A示出了图9A中示出的用于组合不同尺度的图像信息的示例。例如，如图10A中所示出的，对于尺寸为2×2的输入图像特征C4，可以利用2倍的上采样将C4的尺寸放大为与输入图像特征C3相同的尺寸4×4。然后，可以将上采样后的C4与C3进行叠加，生成融合了C4的图像信息与C3的图像信息的尺寸为4×4的组合图像特征。

在C3、C4具有相同的通道数的情况下，可以直接对上采样后的C4与C3进行叠加。

在C3、C4具有不同的通道数的情况下，可以利用前述维度调整步骤将上采样后的C4和C3处理成具有相同的通道数，并对具有相同通道数的图像特征(上采样后的C4和C3)进行叠加。在另一些实施例中，可以利用训练好的卷积神经网络将具有不同通道数的输入图像特征(C4和C3)生成组合有C4和C3的图像信息的组合图像特征。

在步骤S9024中，可以根据融合有基准输入图像特征和第一输入图像特征的图像信息的第一组合图像特征生成第一候选区域。可以利用如图5中示出的区域确定模块执行步骤S9024。在一些实施例中，可以利用滑动窗口、选择搜索(select search)、edgebox算法和区域建议网络(Region Proposal Network，RPN)中一种或多种对组合图像特征进行图像处理，并生成候选区域。如图10A所示，利用上述用于确定候选区域的算法，可以分别对图像特征C4、融合有C4与C3的图像信息的图像特征、融合有C3与C2的图像信息的图像特征、融合有C2与C1的图像信息的图像特征执行确定候选区域的算法，并生成用于输入图像的多个第一候选区域。例如，在候选区域是矩形的情况下，能够通过上述方法对图像特征C1、C2、C3、C4进行处理并输出输入图像中的矩形的第一候选区域的四个顶点的坐标，从而能够确定候选区域在输入图像中的位置。

图9B示出了用于根据融合了基准输入图像特征和其尺寸大于基准输入图像特征的尺寸的第二输入图像特征的图像信息的组合图像特征确定候选区域的方法。如图9B所示，在步骤S9042中，可以对第二输入图像特征执行下采样操作，使得下采样后的第二输入图像特征的尺寸缩小为基准输入图像特征的尺寸。可以利用如图5中示出的下采样模块执行步骤S9042。

在步骤S9044中，可以组合下采样后的第二输入图像特征与所述基准输入图像特征，并获得第二组合图像特征。可以利用如图5中示出的组合模块执行步骤S9044。在一些实施例中，可以将基准输入图像特征和下采样后的第二输入图像特征进行叠加。例如，在基准输入图像特征和下采样后的第二输入图像特征具有相同通道数的情况下，可以将基准输入图像特征和下采样后的第二输入图像特征中相同坐标处的元素值直接进行求和作为叠加后的图像特征在该坐标处的参数。在基准输入图像特征和下采样后的第二输入图像特征具有不同的通道数的情况下，可以利用如步骤S7024中提供的方法将基准输入图像特征和下采样后的第二输入图像特征处理成具有相同通道数，并将具有相同通道数的基准输入图像特征和下采样的第二输入图像特征进行叠加，从而生成第二组合图像特征。

图10B示出了图9B中示出的用于组合不同尺度的图像信息的示例。例如，如图10B中所示出的，对于尺寸为4×4的图像特征C3，可以利用2倍的下采样将C3的尺寸缩小为与图像特征C4相同的尺寸2×2。然后，可以将下采样后的C3与C4进行叠加，并生成融合了C4的图像信息与C3的图像信息的尺寸为2×2的组合图像特征。

在C3、C4具有相同的通道数的情况下，可以直接对下采样后的C3与C4进行叠加。

在C3、C4具有不同的通道数的情况下，可以将下采样后的C3与C4处理成具有相同的通道数，并将具有相同通道数的图像特征(下采样后的C3与C4)进行叠加。在另一些实施例中，可以利用训练好的卷积神经网络将具有不同通道数的图像特征(C4和C3)生成组合有C4和C3的图像信息的组合图像特征。

在步骤S9046中，可以根据融合有基准输入图像特征和第二输入图像特征的图像信息的第二组合图像特征生成第二候选区域。可以利用如图5中示出的区域确定模块执行步骤S9046。例如，可以如前所述生成的第二组合图像特征作为输入，利用滑动窗口、选择搜索(select search)、edgebox算法和区域建议网络(Region Proposal Network，RPN)中一种或多种对第二组合图像特征进行图像处理，并生成候选区域。如图10B所示，利用上述用于确定候选区域的算法，可以分别对图像特征C1、融合有C1与C2的图像信息的图像特征、融合有C3与C2的图像信息的图像特征、融合有C3与C4的图像信息的图像特征执行确定候选区域的算法，并生成用于输入图像的多个第二候选区域。例如，在候选区域是矩形的情况下，能够通过上述方法对图像特征C1、C2、C3、C4进行处理并输出输入图像中的矩形的第二候选区域的四个顶点的坐标，从而能够确定候选区域在输入图像中的位置。

在一些实施例中，可以根据融合了基准输入图像特征、其尺寸小于基准输入图像特征的尺寸的第一输入图像特征和其尺寸大于基准输入图像特征的尺寸的第二输入图像特征的图像信息的第三组合图像特征确定第三候选区域。如图10C所示，可以利用图5中示出的上采样模块对尺寸为2×2的图像特征C4执行上采样，将C4的尺寸放大为与图像特征C3相同的尺寸4×4。此外，还可以利用图5中示出的下采样模块对尺寸为8×8的图像特征C2执行下采样，将C2的尺寸缩小为与图像特征C3相同的尺寸4×4。利用如图5中示出的组合模块，可以将上采样的C4、下采样的C2以及图像特征C3进行组合。例如，可以对上采样的C4、下采样的C2以及图像特征C3执行叠加操作，并生成融合有具有不同尺寸的C2、C3、C4的图像信息的第三组合图像特征。然后，可以利用如图5中示出的区域确定模块，根据第三组合图像特征生成对应于C3的尺度的多个第三候选区域。例如，在候选区域是矩形的情况下，能够输出输入图像中的矩形的多个第三候选区域的四个顶点的坐标，从而能够确定候选区域在输入图像中的位置。

如前所述，技术人员可以根据实际需要选择上述多个第一候选区域、多个第二候选区域和多个第三候选区域中的一个或多个用于接下来的目标检测操作。例如，可以将如前所述确定的多个第一候选区域、多个第二候选区域和多个第三候选区域全部用于接下来的目标检测操作。又例如，可以根据预设的规则从如前所述确定的多个第一候选区域、多个第二候选区域和多个第三候选区域中选择一部分用于接下来的目标检测操作。

图11A示出了根据本公开的实施例的另一种候选区域的确定方法。可以利用图3、图5中示出的候选区域确定模块执行如图11A中示出的方法。利用图11A中示出的方法可以实现图7中示出的候选区域确定步骤S704。

如图11A所示，在步骤S1102中，可以对第一输入图像特征执行上采样操作，使得上采样后的第一输入图像特征的尺寸放大为基准输入图像特征的尺寸。可以利用图5中示出的上采样模块执行步骤S1102。

进一步地，对于所述基准输入图像特征，从所述多个输入图像特征中选择其尺寸小于所述第一输入图像特征的尺寸的第三输入图像特征。在步骤S1104中，可以对所述第三输入图像特征执行上采样操作，使得上采样后的第三输入图像特征的尺寸放大为所述基准输入图像特征的尺寸。通过上采样操作使得上采样后的第三输入图像特征的尺寸放大为基准输入图像特征的尺寸。可以利用图5中示出的上采样模块执行步骤S1106。

在步骤S1106中，可以组合上采样后的第三输入图像特征、上采样后的第一输入图像特征与基准输入图像特征，并获得第一组合图像特征。可以利用图5中示出的组合模块执行步骤S1106。

在步骤S1108中，可以基于第一组合图像特征确定与基准输入图像特征相关联的第一候选区域。可以利用图5中示出的区域确定模块执行步骤S1108。

相对于图9A中示出的方法，利用图11A提供的候选区域确定方法，在针对特定尺寸输入图像特征确定候选区域时，可以选择多个不同的、并小于该特定尺寸的输入图像特征，并将这些输入图像特征的图像信息与基准输入图像特征的图像信息相融合。相对于图9A中示出的方法，图11A提供的方法可以利用融合了更多尺度的图像特征的信息的组合图像特征确定针对特定尺寸的第一候选区域。

利用如图11A中示出的方法，对于特定尺寸的图像特征，可以将该图像特征与尺寸更小的图像特征的信息相融合，并利用融合后的图像信息生成候选区域。图11A中仅示出了融合三个尺度的图像信息的示例，然而，本公开的内容不限于此。在一些实施例中，对于特定尺寸的图像特征，可以基于预定规则从具有小于该特定尺寸的多个图像特征中选择一个或多个用于生成组合图像特征。例如，可以将所有小于该特定尺寸的图像特征的图像信息与该特定尺寸的图像特征相融合。

图11B示出了根据本公开的实施例的另一种候选区域的确定方法。可以利用图3、图5中示出的候选区域确定模块执行如图11B中示出的方法。利用图11B中示出的方法可以实现图7中示出的候选区域确定步骤S704。

如图11B所示，在步骤S1112中，可以对第二输入图像特征执行下采样操作，使得下采样后的第二输入图像特征的尺寸缩小为基准输入图像特征的尺寸。可以利用图5中示出的上采样模块执行步骤S1112。

进一步地，对于所述基准输入图像特征，从所述多个输入图像特征中选择其尺寸大于所述第二输入图像特征的尺寸的第四输入图像特征。在步骤S1114中，可以对所述第四输入图像特征执行下采样操作，使得下采样后的第四输入图像特征的尺寸减小为所述基准输入图像特征的尺寸。通过下采样操作使得下采样后的第四输入图像特征的尺寸减小为基准输入图像特征的尺寸。可以利用图5中示出的下采样模块执行步骤S1114。

在步骤S1116中，可以组合下采样后的第四输入图像特征、下采样后的第二输入图像特征与基准输入图像特征，并获得第二组合图像特征。可以利用图5中示出的组合模块执行步骤S1116。

在步骤S1118中，可以基于所述第二组合图像特征确定基于与基准输入图像特征相关联的第二候选区域。可以利用图5中示出的区域确定模块执行步骤S1118。

与图11A中示出的方法不同，在图11B中示出的候选区域确定方法中，可以选择多个不同的、并大于基准输入图像特征的尺寸的输入图像特征，并将这些输入图像特征的图像信息与基准输入图像特征的图像信息相融合。相对于图9B中示出的方法，图11B利用融合了更多尺度的图像特征的信息的组合图像特征确定针对特定尺寸的第一候选区域。

利用如图11B中示出的方法，对于特定尺寸的图像特征，可以将该图像特征与尺寸更大的图像特征的信息相融合，并利用融合后的图像信息生成候选区域。图11B中仅示出了融合了三个尺度的图像信息的示例，然而，本公开的内容不限于此。在一些实施例中，对于特定尺寸的图像特征，可以基于预定规则从具有大于该特定尺寸的多个图像特征中选择一个或多个用于生成组合图像特征。例如，可以将所有大于该特定尺寸的图像特征的图像信息与该特定尺寸的图像特征相融合。

图12A、图12B分别示出了针对图11A、图11B中示出的候选区域确定方法的示意性的过程。

例如，如图12A所示，对于尺寸为2×2的图像特征C4、尺寸为4×4的图像特征C3以及尺寸为8×8的图像特征C2，可以对C4执行4倍上采样操作，将C4的尺寸放大为8×8，对C3执行2倍上采样操作，将C3的尺寸放大为8×8，并对上采样后的C4、上采样后的C3以及C2执行组合操作。在图10A-图10C示出的示例中已经详述了组合操作的方法，在此不再赘述。

类似地，如图12B所示，对于尺寸为2×2的图像特征C4、尺寸为4×4的图像特征C3以及尺寸为8×8的图像特征C2，可以对C2执行4倍下采样操作，将C2的尺寸缩小为2×2，对C3执行2倍下采样操作，将C3的尺寸缩小为2×2，并对下采样后的C2、下采样后的C3以及C4执行组合操作。在图10A-图10C示出的示例中已经详述了组合操作的方法，在此不再赘述。

利用图11A-12B中示出的候选区域确定方法，可以生成融合了多个尺度的图像信息的组合图像特征，并根据融合了多个尺度的图像信息的组合图像特征生成不同尺度下的候选区域。技术人员可以根据实际情况选择图9A-图12B提供的候选区域确定方法所确定的候选区域中的一个或多个用于后续的目标检测步骤。

图12C示出了根据本公开的实施例的目标检测流程的一个示例。例如，如图12C所示，可以将图12A、图12B中示出的过程得到的所有候选区域都用于后续的目标检测。即，利用接下来将参考图13描述的目标检测方法对图12A、图12B示出的过程所输出的所有候选区域进行处理，以得到最终的目标检测的结果。又例如，可以根据预设的规则在图12A、图12B示出的过程所输出的所有候选区域中选择一部分用于目标检测操作。

图13示出了根据本公开的实施例的一种目标检测方法的示意性的流程图。可以利用图3、图6中示出的目标检测模块执行图13中示出的方法。利用图13中示出的方法可以实现图7中示出的图像处理方法中的目标检测步骤S706。

如前所述，由于输入图像中可能存在大小不同的目标，因此，利用如前所述的候选区域确定方法生成的各候选区域的尺寸可以是不同的。为了简化之后的目标检测步骤，如图13所示，在步骤S1302中，可以对尺寸不同的第一候选区域、第二候选区域进行池化处理，使得处理后的各候选区域的尺寸是相同的。可以利用图6中示出的池化模块执行步骤S1302。如前所述，尽管图13中仅示出了第一候选区域、第二候选区域作为示例，然而本公开的范围不限于此。技术人员可以根据实际情况选择利用如前所述的候选区域确定方法生成的候选区域中的一个或多个用于图13中示出的目标检测方法。在一些实施例中，可以利用池化层(例如兴趣区域池化ROI Pooling)将不同尺寸的候选区域映射为具有预设的固定尺寸的候选区域。技术人员通过调整池化层的参数设置池化层输出的候选区域的尺寸。

在步骤S1304中，可以对处理后的具有相同尺寸的候选区域进行分类预测。可以利用图6中示出的分类模块执行步骤S1304。例如，针对在步骤S1302输出的被映射成固定尺寸的候选区域，可以利用基于区域的卷积神经网络(R-CNN)对候选区域内的目标进行分类，并预测某个候选区域属于某个类别的概率。

在步骤S1306中，可以根据预测的类别调整候选区域的边框，可以利用图6中示出的调整模块执行步骤S1306。例如，可以利用边界回归(bounding-box regression)调整由前述的候选区域确定模块320生成的候选区域边界坐标，从而得到更精确的目标边界框。

利用本公开提供的图像处理方法，在对输入图像执行目标检测的过程中，可以基于不同尺寸的输入图像特征生成候选区域，并且，对于特定尺寸的输入图像特征，可以通过将该输入图像特征与比该特定尺寸的尺寸更小的图像特征和/或比该特定尺寸的尺寸更大的图像特征相融合，并利用包括融合了多个尺度的图像信息的图像特征确定用于输入图像的候选区域。通过考虑多尺度下的图像信息，可以提高目标检测的准确性。

图14示出了计算设备的一种示意性的框图。利用图14示出的计算设备可以实现图3-图6中示出的图像处理装置。如图14所示，计算设备1400可以包括总线1410、一个或多个CPU 1420、只读存储器(ROM)1430、随机存取存储器(RAM)1440、连接到网络的通信端口1450、输入/输出组件1460、硬盘1470等。计算设备1400中的存储设备，例如ROM 1430或硬盘1470可以存储计算机处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备1400还可以包括用户界面1480。例如，通过用户界面1480可以向用户显示如前所述的图像处理装置输出的结果。当然，图14所示的架构只是示例性的，在实现不同的设备时，根据实际需要，可以省略图14示出的计算设备中的一个或多个组件。

根据本公开的一个方面，可以利用计算机可读介质中存储的程序指令实现本公开提供的图像处理方法。一个计算机可读的介质可能有多种形式，包括有形的存储介质，载波介质或物理传输介质等。稳定的储存介质可以包括：光盘或磁盘，以及其他计算机或类似设备中使用的，能够实现图中所描述的系统组件的存储系统。不稳定的存储介质可以包括动态内存，例如计算机平台的主内存等。有形的传输介质可以包括同轴电缆、铜电缆以及光纤，例如计算机系统内部形成总线的线路。载波传输介质可以传递电信号、电磁信号、声波信号或光波信号等。这些信号可以由无线电频率或红外数据通信的方法所产生。通常的计算机可读介质包括硬盘、软盘、磁带、任何其他磁性介质；CD-ROM、DVD、DVD-ROM、任何其他光学介质；穿孔卡、任何其他包含小孔模式的物理存储介质；RAM、PROM、EPROM、FLASH-EPROM，任何其他存储器片或磁带；传输数据或指令的载波、电缆或传输载波的连接装置、任何其他可以利用计算机读取的程序代码和/或数据。这些计算机可读介质的形式中，会有很多种出现在处理器在执行指令、传递一个或更多结果的过程之中。

本申请中的“模块”可以指的是存储在硬件、固件中的逻辑或一组软件指令。这里所指的“模块”能够通过软件和/或硬件模块执行，或被存储于任何一种计算机可读的非临时媒介或其他存储设备中。在一些实施例中，一个软件模块可以被编译并连接到一个可执行的程序中。显然，这里的软件模块可以对自身或其他模块传递的信息做出回应，并且/或者可以在检测到某些事件或中断时做出回应。可以在一个计算机可读媒介上提供软件模块，该软件模块可以被设置为在计算设备上(例如处理器220)执行操作。这里的计算机可读媒介可以是光盘、数字光盘、闪存盘、磁盘或任何其他种类的有形媒介。也可以通过数字下载的模式获取软件模块(这里的数字下载也包括存储在压缩包或安装包内的数据，在执行之前需要经过解压或解码操作)。这里的软件模块的代码可以被部分的或全部的储存在执行操作的计算设备的存储设备中，并应用在计算设备的操作之中。软件指令可以被植入在固件中，例如可擦可编程只读存储器(EPROM)。显然，硬件模块可以包含连接在一起的逻辑单元，例如门、触发器，以及/或包含可编程的单元，例如可编程的门阵列或处理器。这里所述的模块或计算设备的功能优选的作为软件模块实施，但是也可以被表示在硬件或固件中。一般情况下，这里所说的模块是逻辑模块，不受其具体的物理形态或存储器的限制。一个模块能够与其他的模块组合在一起，或被分隔成为一系列子模块。

除非另有定义，这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

上面是对本发明的说明，而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例，但本领域技术人员将容易地理解，在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此，所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解，上面是对本发明的说明，而不应被认为是限于所公开的特定实施例，并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。

Claims

一种图像处理方法，包括：

根据输入图像确定多个输入图像特征，其中所述多个输入图像特征的尺寸互不相同；

对于所述多个输入图像特征中的每个输入图像特征，以该输入图像特征为基准输入图像特征，从所述多个输入图像特征中选择其尺寸小于所述基准输入特征的尺寸的第一输入图像特征和其尺寸大于所述基准输入图像特征的尺寸的第二输入图像特征；根据所述基准输入图像特征、所述第一输入图像特征和第二输入图像特征确定与该基准图像特征相关联的候选区域；以及

根据分别与所述多个输入图像特征相关联的多个候选区域执行目标检测。
根据权利要求1所述的图像处理方法，其中，对于基准输入图像特征，根据所述基准输入图像特征、所述第一输入图像特征和第二输入图像特征确定与该基准图像特征相关联的候选区域包括：

根据所述基准输入图像特征和所述第一输入图像特征确定第一候选区域，以及

根据所述基准输入图像特征和所述第二输入图像特征确定第二候选区域。
根据权利要求2所述的方法，其中，对于所述基准输入图像，所述第一候选区域与所述第二候选区域的尺寸是不同的，

其中，根据分别与所述多个输入图像特征相关联的多个候选区域执行目标检测包括：

对分别与所述多个输入图像特征相关联的多个第一候选区域和多个第二候选区域进行池化处理，使得处理后的各候选区域的尺寸是相同的；

对处理后的候选区域进行分类预测；以及

根据预测的类别调整候选区域的边框。
根据权利要求2或3所述的图像处理方法，其中，根据所述基准输入图像特征和所述第一输入图像特征确定第一候选区域包括：

对所述第一输入图像特征执行上采样操作，使得上采样后的第一输入图像特征的尺寸放大为所述基准输入图像特征的尺寸；

组合上采样后的第一输入图像特征与所述基准输入图像特征，并获得其尺寸与所述基准输入图像特征的尺寸相同的第一组合图像特征；

基于所述第一组合图像特征确定所述第一候选区域。
根据权利要求2-4任一项所述的图像处理方法，其中，根据所述基准输入图像特征和所述第二输入图像特征确定第二候选区域包括：

对所述第二输入图像特征执行下采样操作，使得下采样后的第二输入图像特征的尺寸缩小为所述基准输入图像特征的尺寸；

组合下采样后的第二输入图像特征与所述基准输入图像特征，并获得其尺寸与所述基准输入图像特征尺寸相同的第二组合图像特征；

基于所述第二组合图像特征确定所述第二候选区域。
根据权利要求4或5所述的图像处理方法，还包括：

对于所述基准输入图像特征，从所述多个输入图像特征中选择其尺寸小于所述第一输入图像特征的尺寸的第三输入图像特征；

对所述第三输入图像特征执行上采样操作，使得上采样后的第三输入图像特征的尺寸放大为所述基准输入图像特征的尺寸；以及

其中，组合上采样后的第一输入图像特征与所述基准输入图像特征，并获得其尺寸与所述基准输入图像特征的尺寸相同的第一组合图像特征包括：

组合上采样后的第三输入图像特征、上采样后的第一输入图像特征与所述基准输入图像特征，并获得其尺寸与所述第一输入图像特征的尺寸相同的第一组合图像特征。
根据权利要求5或6所述的图像处理方法，还包括：

对于所述基准输入图像特征，从所述多个输入图像特征中选择其尺寸大于所述第二输入图像特征的尺寸的第四输入图像特征；

对所述第四输入图像特征执行下采样操作，使得下采样后的第四输入图像特征的尺寸减小为所述基准输入图像特征的尺寸；以及

其中，组合下采样后的第二输入图像特征与所述基准输入图像特征，并获得其尺寸与所述基准输入图像特征尺寸相同的第二组合图像特征包括：

组合下采样后的第四输入图像特征、下采样后的第二输入图像特征与所述基准输入图像特征，并获得与所述基准输入图像特征尺寸相同的第二组合图像特征。
根据权利要求1-7任一项所述的图像处理方法，其中所述多个输入图像特征具有相同的通道数。
根据权利要求4-8任一项所述的图像处理方法，其中，基于所述第一组合图像特征确定第一候选区域包括：

利用滑动窗口、选择搜索(select search)、edgebox算法或区域建议网络，基于所述第一组合图像特征确定第一候选区域。
根据权利要求1-9任一项所述的图像处理方法，其中，根据所述输入图像确定多个输入图像特征包括：

利用深度残差网络对所述输入图像进行变换，并根据所述深度残差网络的输出确定对应于所述输入图像的多个输入图像特征。
一种图像处理装置，包括：

特征确定模块，配置成根据输入图像确定多个输入图像特征，其中所述多个输入图像特征的尺寸互不相同；

候选区域确定模块，配置成对于所述多个输入图像特征中的每一个输入图像特征执行以下操作以生成候选区域：对于第一输入图像特征，从所述多个输入图像特征中选择第二输入图像特征和第三输入图像特征，其中所述第二输入图像特征的尺寸小于所述第一输入图像特征的尺寸，并且所述第三输入图像特征的尺寸大于所述第一输入图像特征的尺寸；根据所述第一输入图像特征、第二输入图像特征和第三输入图像特征确定候选区域；以及

目标检测模块，配置成根据所述候选区域执行目标检测。
如权利要求11所述的图像处理装置，其中对于基准输入图像特征，所述候选区域确定模块进一步配置成：

根据所述基准输入图像特征和所述第一输入图像特征确定第一候选区域，以及

根据所述基准输入图像特征和所述第二输入图像特征确定第二候选区域。
如权利要求12所述的图像处理装置，其中，对于所述基准输入图像，所述第一候选区域与所述第二候选区域的尺寸是不同的，所述目标检测模块进一步配置成：

对分别与所述多个输入图像特征相关联的多个第一候选区域和多个第二候选区域进行池化处理，使得处理后的各候选区域的尺寸是相同的；

对处理后的候选区域进行分类预测；以及

根据预测的类别调整候选区域的边框。
根据权利要求12或13所述的图像处理装置，其中，所述候选区域确定模块还包括：

上采样模块，配置成对所述第一输入图像特征执行上采样操作，使得上采样后的第一输入图像特征的尺寸放大为所述基准输入图像特征的尺寸；

组合模块，配置成组合上采样后的第一输入图像特征与所述基准输入图像特征，并获得其尺寸与所述基准输入图像特征的尺寸相同的第一组合图像特征；

区域确定模块，配置成基于所述第一组合图像特征确定所述第一候选区域。
根据权利要求12-14任一项所述的图像处理装置，其中，所述候选区域确定模块还包括：

下采样模块，配置成对所述第二输入图像特征执行下采样操作，使得下采样后的第二输入图像特征的尺寸缩小为所述基准输入图像特征的尺寸；

组合模块，配置成组合下采样后的第二输入图像特征与所述基准输入图像特征，并获得其尺寸与所述基准输入图像特征尺寸相同的第二组合图像特征；

区域确定模块，配置成基于所述第二组合图像特征确定所述第二候选区域。
一种图像处理设备，包括至少一个处理器以及存储有程序指令的存储器，当执行所述程序指令时，所述至少一个处理器配置成执行根据权利要求1-10任一所述的图像处理方法。
一种计算机可读的非暂态的存储介质，其上存储有程序指令，当由计算机执行所述程序指令时，所述计算机配置成执行根据权利要求1-10任一所述的图像处理方法。