WO2020010975A1

WO2020010975A1 - 图像目标检测方法、装置、存储介质及电子设备

Info

Publication number: WO2020010975A1
Application number: PCT/CN2019/090406
Authority: WO
Inventors: 赵世杰; 李峰; 左小祥
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2018-07-11
Filing date: 2019-06-06
Publication date: 2020-01-16
Also published as: CN110717929A; US11176404B2; US20200394433A1; EP3742394A1; EP3742394A4

Abstract

本申请实施例提供一种图像目标检测方法，其包括：获耳又检测图像、n级深度特征图框架以及m级非深度特征图框架，其中特征图框架包括输出的特征尺寸以及维度；基于深度特征提取模型，使用i级深度特征图框架对检测图像的（i-1）级特征进行深度特征提取，以获取检测图像的i级特征；基于非深度特征提取模型，使用j级非深度特征图框架对检测图像的（j-1+n）级特征进非深度特征提取，以获取检测图像的（j+n）级特征；以及基于特征预测模型，对检测图像的a级特征至（m+n）级特征进行信息回归操作，从而获取检测图像的目标类型以及目标位置。本申请实施例还提供一种图像目标检测装置、存储介质及电子设备，本申请实施例整体特征提取速度较快，且对配置资源的需求较低。

Description

图像目标检测方法、装置、存储介质及电子设备本申请要求于 2018年 7月 11 日提交中国专利局、申请号为 201810754633.X、发明名称为“图像目标检测方法、装置及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。技术领域本申请涉及图像处理领域，特别涉及一种图像目标检测方法、装置、存储介质及电子设备。背景技术随着科技的发展，图像中的目标识别技术已越来越成为计算机视觉的重要问题。即需要在给定的图片中，标注出要识别的物体，如在图片上标识出人、车、房子等物体。

随着最近深度学习的兴起，深度学习在图像目标检测领域中的应用得到巨大的突破，一系列基于深度学习算法的图像目标学习方法被提出来。如 Faster-RCNN (快速区域卷积神经网络， Faster- Regions with Convolutional Neural Networks features )和 YOLO ( You Only Look Once ) 等深度学习算法。

但是现有的图像目标检测算法的技术重心是放在检测结果的准确率上，因此现有的图像目标检测算法的运行速度并不能满足实际场景的需要，一些相对比较高效的图像目标检测系统的模型大小均超过了 100Mb，使得现有的图像目标检测系统运行速度较慢且无法在资源配置较小的移动终端上实施。技术内容本申请实施例提供一种运行速度较快且对配置资源需求较低的图像目标检测方法及装置、存储介质及电子设备；以解决现有的图像目标检测方法及装置的运行速度较慢且无法在资源配置较小的移动终端上实施的技术问题。

本申请实施例提供一种图像目标检测方法，其包括：

获取检测图像、 n级深度特征图框架以及 m级非深度特征图框架， n为大于等于 2的整数， m为大于等于 1的整数；其中特征图框架包括输出的特征尺寸以及维度;

基于深度特征提取模型，使用 i级深度特征图框架对所述检测图像的 ( i-1 ) 级特征进行深度特征提取^ 以获取所述检测图像的 i级特征，其中 i为小于等于 n的正整数；

基于非深度特征提取模型，使用 j 级非深度特征图框架对所述检测图像的

( j-1+n ) 级特征进非深度特征提取，以获取所述检测图像的 ( j+n ) 级特征，其中 j 为小于等于 m的正整数；以及

基于特征预测模型，对所述检测图像的 a级特征至 ( m+n ) 级特征进行信息回归操作，从而获取所述检测图像的目标类型以及目标位置，其中 a为小于 n且大于等于 2的整数。

本申请实施例还提供一种图像目标检测装置，其包括：

图像以及框架获取模块，用于获取检测图像、 n级深度特征图框架以及 m级非深度特征图框架， n为大于等于 2的整数， m为大于等于 1的整数；其中特征图框架包括输出的特征尺寸以及维度；

深度特征提取模块，用于基于深度特征提取模型，使用 i级深度特征图框架对所述检测图像的 ( i-1 )级特征进行深度特征提取，以获耳又所述检测图像的 i级特征，其中 i为小于等于 n的正整数；

非深度特征提取模块，用于基于非深度特征提取模型，使用 j 级非深度特征图框架对所述检测图像的 ( j-1+n )级特征进非深度特征提取，以获取所述检测图像的 ( j+n ) 级特征，其中 j为小于等于 m的正整数；

目标检测模块，用于基于特征预测模型，对所述检测图像的 a级特征至 ( m+n ) 级特征进行信息回归操作，从而获取所述检测图像的目标类型以及目标位置，其中 a为小于 n且大于等于 2的整数。

本申请实施例还提供一种存储介质，其内存储有处理器可执行指令，所述指令由一个或一个以上处理器执行时，实现上述的图像目标检测方法。

本申请实施例还提供一种电子设备，包括一个或多个处理器和存储装置；所述存储装置，用于存储一个或多个可执行程序指令；

所述一个或多个处理器，用于执行所述存储装置中的一个或多个可执行程序指令，以实现上述的图像目标检测方法。附图简要说明图 i为本申请一实施例的图像目标检测方法的流程图；

图 2为本申请另一实施例的图像目标检测方法的流程图；

图 3a为本申请一实施例的图 2所示的图像目标检测方法的步骤 S202的流程图；图 3b为本申请一实施例的图 2所示的图像目标检测方法的步骤 S202的特征提取示意图；

图 4a为本申请一实施例的图 2所示的图像目标检测方法的步骤 S203的流程图；图 4b为本申请一实施例的图 2所示的图像目标检测方法的步骤 S203的特征提取示意图；

图 5a为本申请一实施例的图 2所示的图像目标检测方法的步骤 S204的流程图；图 5b为本申请一实施例的图 2所示的图像目标检测方法的步骤 S204的特征提取示意图；

图 6为本申请一实施例的图像目标检测装置的结构示意图；

图 7为本申请另一实施例的图像目标检测装置的结构示意图；

图 8为本申请一实施例的图 7所示的图像目标检测装置的深度特征提耳又模块的结构示意图；

图 9为本申请一实施例的图 7所示的图像目标检测装置的非深度特征提取模块的结构示意图；

图 10为本申请一实施例的图 7所示的图像目标检测装置的目标检测模块的结构示意图；

图 11 为本申请一实施例的图像目标检测方法及图像目标检测装置的具体实施的使用示意图；

图 12 为本申请一实施例的图像目标检测装置所在的电子设备的工作环境结构示意图。具体实施方式请参照图式，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

在以下的说明中，本申请的具体实施例将参考由一部或多部计算机所执行之作业的步骤及符号来说明，除非另有述明。因此，其将可了解到这些步骤及操作，其中有数次提到为由计算机执行，包括了由代表了以一结构化型式中的数据之电子信号的计算机处理单元所操纵。此操纵转换该数据或将其维持在该计算机之内存系统中的位置处，其可重新配置或另外以本领域技术人员所熟知的方式来改变该计算机之运作。该数据所维持的数据结构为该内存之实体位置，其具有由该数据格式所定义的特定特性。但是，本申请实施例的原理以上述文字来说明，其并不代表为一种限制，本领域技术人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。

本申请实施例的图像目标检测方法以及图像目标检测装置可设置在任何的电子设备中，用于对图片或照片中的人、车、房子等目标进行检测识别操作。该电子设备包括但不限于可穿戴设备、头戴设备、医疗健康平台、个人计算机、服务器计算机、手持式或膝上型设备、移动设备 (比如移动电话、个人数字助理 (PDA, Personal Digital Assistant)、媒体播放器等等) 、多处理器系统、消费型电子设备、小型计算机、大型计算机、包括上述任意系统或设备的分布式计算环境，等等。例如，该电子设备可以为安装有图像目标识别应用的移动终端，该移动终端可对图像中的目标特征进行快速提取，且对移动终端自身的配置资源的需求较低。

请参照图 1，图 1 为本申请一实施例的图像目标检测方法的流程图；本实施例的图像目标检测方法可使用上述的电子设备进行实施，本实施例的图像目标检测方法包括：

步骤 S 101，获取检测图像、 n级深度特征图框架以及 m级非深度特征图框架， n为大于等于 2的整数， m为大于等于 1的整数；其中特征图框架包括输出的特征尺寸以及维度；

步骤 S102,基于深度特征提取模型，使用 i级深度特征图框架对检测图像的 ( i-1 ) 级特征进行深度特征提取，以获取检测图像的 i级特征，其中 i为小于等于 n的正整数；

步骤 S103，基于非深度特征提取模型，使用 j级非深度特征图框架对检测图像的 ( j-1+n ) 级特征进行非深度特征提取，以获取检测图像的 ( j+n ) 级特征，其中 j 为小于等于 m的正整数；

步骤 S 104，基于特征预测模型，对检测图像的 a级特征至 ( m+n ) 级特征进行信息回归操作，从而获取检测图像的目标类型以及目标位置，其中 a为小于 n且大于等于 2的整数。下面详细说明本实施例的图像目标检测方法的图像目标检测过程。下述实施例中的图像目标检测装置为可以执行图像目标检测方法的电子设备。

在步骤 S101中，图像目标检测装置获取需要进行目标检测的检测图像，以及对该检测图像进行目标检测的 n级深度特征图框架以及 m级非深度特征图框架。在本实施例中 n为大于等于 2的整数， m为大于等于 1的整数。即检测图像至少要进行 3次特征提取操作。

这里为了对检测图像进行准确全面的目标检测，需要对检测图像进行多级特征提耳又操作，如 m+n级等。由于下一级的特征尺寸一定小于上一级的特征尺寸，因此下级的特征提取操作可在上级特征提取操作输出的特征上进行。大尺寸的特征提耳又操作由于之前进行的上级特征提取操作较少，因此需要使用深度特征提取模型以及深度特征图框架进行特征提取。小尺寸的特征提取操作由于之前已经进行了多次上级特征提取操作，因此仅需要使用非深度特征提取模型以及非深度特征图框架进行特征提取即可。

这里深度特征图框架是对检测图像或检测图像对应的下级特征进行特征识别的识别参数，该深度特征图框架可包括每个深度特征级别输出的特征尺寸以及维度。非深度特征框架是对检测图像对应的下级特征进行特征识别的识别参数，该非深度特征图框架可包括每个非深度特征级别输出的特征尺寸以及维度。

在步骤 S102 中，图像目标检测装置基于预设的深度特征提取模型，使用步骤 S101获取的 i级深度特征图框架对检测图像的（ i-1）级特征进行深度特征提取，以获耳又检测图像的 i级特征，其中 i为小于等于 n的正整数。

即图像目标检测装置基于预设的深度特征提取模型，对检测图像的像素进行深度特征提取，以获取 1级深度特征图框架对应的检测图像的 1级特征；随后图像目标检测装置对检测图像的 1级特征进行深度特征提取，以获取 2级深度特征图框架对应的检测图像的 2级特征 ; 最后图像目标检测装置对检测图像的（ n-1）级特征进行深度特征提取，以获取 n级深度特征图框架对应的检测图像的 n级特征。这样获取了检测图像的 1级特征至 n级特征。

在步骤 S103中，图像目标检测装置基于预设的非深度特征提取模型，使用步骤 S101获取的 j级非深度特征图框架对检测图像的（j-1+n）级特征进行非深度特征提取，以获耳又检测图像的（ j+n）级特征，其中 j为小于等于 m的正整数。

即图像目标检测装置基于预设的非深度特征提取模型，对检测图像的 n级特征进行非深度特征提取，以获取 1级非深度特征图框架对应的检测图像的（ n+1）级特征；随后图像目标检测装置对检测图像的（ n+1）级特征进行非深度特征提取，以获取 2级非深度特征图框架对应的检测图像的（ n+2）级特征 ; 最后图像目标检测装置对检测图像的（n+m-1）级特征进行深度特征提取，以获取（m+n）级深度特征图框架对应的检测图像的（ m+n）级特征。这样获取了检测图像的（ n+1）级特征至（ m+n）级特征。

在步骤 S104中，图像目标检测装置基于预设的特征预测模型，对步骤 S102和步骤 S103获取的检测图像的 a级特征至（ m+n）级特征进行信息回归操作，从而获取检测图像的目标类型以及目标位置，其中 a小于 n且大于等于 2的整数。

具体的，由于检测图像的 1级特征至（ a-1）级特征的特征尺寸较大，因此不具有进行特征分类识别的意义，因此图像目标检测装置将检测图像的 1级特征至（a-1）级特征直接丟弃。图像目标检测装置对检测图像的 a级特征至（m+n）级特征进行特征分类识别，从而获取该特征对应的检测图像的目标类型（如人、车、房子等）以及目标位置（如目标的中心坐标以及目标方框的长宽等）。

这样即完成了本实施例的图像目标检测方法的图像目标检测过程。

本实施例的图像目标检测方法基于深度特征提取模型以及非深度特征提取模型，对同一检测图像的多个不同尺寸的特征进行提耳又以及特征识别，由于检测图像的小尺寸特征可直接在检测图像的大尺寸特征的基础上进行提取，因此整体特征提耳又速度较快，且对配置资源的需求较低。

请参照图 2，图 2为本申请另一实施例的图像目标检测方法的流程图；本实施例的图像目标检测方法可使用上述的电子设备进行实施，本实施例的图像目标检测方法包括：

步骤 S201 , 获取检测图像、 n级深度特征图框架以及 m级非深度特征图框架， n为大于等于 2的整数， m为大于等于 1的整数；其中特征图框架包括输出的特征尺寸以及维度；

步骤 S202,基于深度特征提取模型，使用 i级深度特征图框架对检测图像的（i-1）级特征进行深度特征提取，以获取检测图像的 i级特征，其中 i为小于等于 n的正整数；

步骤 S203 , 基于非深度特征提取模型，使用 j级非深度特征图框架对检测图像的（j-1+n）级特征进行非深度特征提取，以获取检测图像的（j+n）级特征，其中 j 为小于等于 m的正整数；

步骤 S204，基于特征预测模型，对检测图像的 a级特征至（m+n）级特征进行信息回归操作，从而获取检测图像的目标类型以及目标位置，其中 a为小于 n且大于等于 2的整数。

下面详细说明本实施例的图像目标检测方法的图像目标检测过程。

在步骤 S201中，图像目标检测装置获取需要进行目标检测的检测图像，以及对该检测图像进行目标检测的 n级深度特征图框架以及 m级非深度特征图框架。在本实施例中 n为大于等于 2的整数， m为大于等于 1的整数。即检测图像至少要进行 3次特征提取操作。

在步骤 S202 中，图像目标检测装置基于预设的深度特征提取模型，使用步骤 S101获取的 i级深度特征图框架对检测图像的（ i-1）级特征进行深度特征提取，以获耳又检测图像的 i级特征，其中 i为小于等于 n的正整数。

在本实施例中深度特征提取模型包括深度输入卷积层、深度第一非线性转换卷积层、深度第二非线性转换卷积层以及深度输出卷积层。

具体请参照图 3a和图 3b，图 3a为本申请一实施例的图 2所示的图像目标检测方法的步骤 S202的流程图，图 3b为本申请一实施例的图 2所示的图像目标检测方法的步骤 S202的特征提取示意图。该步骤 S202包括：

步骤 S301，图像目标检测装置使用深度特征提取模型的深度输入卷积层，对检测图像的（i-1）级特征进行升维操作，以得到检测图像的 i级升维特征。

其中深度输入卷积层为具有 1*1卷积核尺寸以及具有非线性激活函数的标准卷积层，其中深度输入卷积层可设置较大的通道数，如 4-6等。这样可在保证检测图像的特征尺寸的情况下，增加输入特征的维度，从而解决检测图像的特征丟失的问题。

深度输入卷积层的通道数用于表示从检测图像的低级特征上进行特征提取的特征提取模式的数量，深度输入卷积层的卷积核尺寸用于调整深度神经网络模型的复杂度。如输入的检测图像的 ( i-1 ) 级特征为 32*32*3的特征点矩阵，其中 3为检测图像的输入通道数，如红色的像素亮度值、蓝色的像素亮度值以及绿色的像素亮度值等；设定深度输入卷积层的卷积核尺寸为 1*1，则该深度输入卷积层的输出特征尺寸为 32*32，即使用 1*1的卷积核依次遍历 32*32的特征点矩阵可得到 32*32尺寸的特征图，如深度输入卷积层的通道数为 6，则得到的深度输入卷积层的输出为 32*32*18的 i级升维特征。这样在不改变输出特征尺寸的情况下得到了维度更高的检测图像的升维特征。

随后深度输入卷积层会使用非线性激活函数，如线性整流函数( ReLU, Rectified Linear Unit )等对输出的 i级升维特征进行非线性处理，以保证深度输入卷积层的输出是可微的，从而提高后续输出特征的准确性。

步骤 S302, 图像目标检测装置使用深度特征提取模型的深度第一非线性转换卷积层，对步骤 S301获取的检测图像的 i级升维特征进行第一特征提取操作，以得到检测图像的 i级第一卷积特征。

其中第一非线性转换卷积层为具有 3*3卷积核尺寸以及具有非线性激活函数的深度可分离卷积层，其中深度可分离卷积层的设置可使得第一非线性转换卷积层的运算量大幅度减少，进而使得深度特征提取模型的大小也大幅度减小。

其中深度可分离卷积层 ( depthwise separable convolution ) 可在保持通道分离的前提下，实现空间卷积。如 3*3卷积核尺寸的标准卷积层，输入通道数为 16，输出通道数为 32，则 32个 3*3 大小的卷积核遍历 16个通道中的每个数据，需要设置 16*32*3*3=4608个参数进行卷积运算。如 3*3卷积核尺寸的深度可分离卷积层，用 1个 3*3尺寸的卷积核遍历 16个通道的数据，得到 16个特征图谱，然后使用 32个 1*1尺寸的卷积核遍历这 16个特征图谱，这样只需要设置 16*3*3+16+32+1+1=656 个参数就能完成卷积运算。

在本步骤中，深度第一非线性转换卷积层首先对检测图像的 i级升维特征进行第一特征提取操作，随后深度第一非线性转换卷积层会使用非线性激活函数，如线性整流函数 ( ReLU， Rectified Linear Unit ) 等对输出的 i级第一卷积特征进行非线性处理，以保证深度第一非线性转换卷积层的输出是可微的，从而提高后续输出特征的准确性。

步骤 S303，图像目标检测装置使用深度特征提取模型的深度第二非线性转换卷积层，对步骤 S302获取的检测图像的 i级第一卷积特征进行第二特征提取操作，以得到检测图像的 i级第二卷积特征。

其中深度第二非线性转换卷积层为具有 3*3卷积核尺寸以及具有非线性激活函数的深度可分离空洞卷积层 ( atrous convolutions ) ，其中深度可分离空洞卷积层的设置可使得第二非线性转换卷积层的运算量大幅度减少的同时，还可增加检测图像的每个特征基本单元的感受野，从而进一步提高了第二非线性转换卷积层输出的 i 级第二卷积特征的准确性。

其中空洞卷积可在卷积操作中设置一 “扩展率 ( dilation rate ) ” 的参数，该扩展率定义卷积层处理数据时各个数据之间的间距。如 5*5卷积核尺寸的标准卷积层，需要设置 25个参数；但是如果设置 3*3的卷积核尺寸且扩展率为 2的空洞卷积层，仅仅只需要设置 9个参数，即在 5*5尺寸的卷积核的基础上，每隔一行删除一行数据以及每隔一列删除一列数据。因此在相同的计算条件下，空洞卷积层可在不增加运算量的情况下提供更大的感受野。

这里将空洞卷积层设置在深度第二非线性转换卷积层，可以在深度第一非线性转换卷积层已经进行初步深度特征提取的基础上，使用较少的资源再次进行深度特征提取，可以较好的弥补第一特征提取操作中的感受野较小的问题。

在本步骤中，深度第二非线性转换卷积层首先对检测图像的 i级第一卷积特征进行第二特征提取操作，随后深度第二非线性转换卷积层会使用非线性激活函数，如线性整流函数 ( ReLU， Rectified Linear Unit ) 等对输出的 i级第二卷积特征进行非线性处理，以保证深度第二非线性转换卷积层的输出是可微的，从而提高后续输出特征的准确性。

步骤 S304，图像目标检测装置使用深度特征提取模型的深度输出卷积层，对步骤 S303获取的检测图像的 i级第二卷积特征进行降维操作，以得到检测图像的 i级特征。

其中深度输出卷积层为具有 1*1 卷积核尺寸以及不具有激活函数的标准卷积层。这里深度输出卷积层可将在步骤 S301中增加的维度恢复至输入到深度输入卷积层的维度；且在深度输出卷积层中没有设置激活函数，以避免激活函数导致的输出特征的丟失。深度输出卷积层输出的检测图像的 i级特征应该与 i级深度特征图框架符合。

这样即完成了使用 i级深度特征图框架对检测图像的 ( i-1 ) 级特征进行深度特征提取，以获取检测图像的 i级特征的过程。重复步骤 S301至步骤 S304，可获取检测图像的 1级特征至 n级特征。

在步骤 S203中，图像目标检测装置基于预设的非深度特征提取模型，使用步骤 S201获取的 j级非深度特征图框架对检测图像的 ( j-1+n )级特征进行非深度特征提取，以获耳又检测图像的 ( j+n ) 级特征，其中 j为小于等于 m的正整数。

在本实施例中非深度特征提取模型包括非深度输入卷积层、非深度非线性转换卷积层以及非深度输出卷积层。

具体请参照图 4a和图 4b，图 4a为本申请一实施例的图 2所示的图像目标检测方法的步骤 S203的流程图，图 4b为本申请一实施例的图 2所示的图像目标检测方法的步骤 S203的特征提取示意图。该步骤 S203包括：

步骤 S401，图像目标检测装置使用非深度特征提取模型的非深度输入卷积层，对检测图像的 ( j-1+n )级特征进行升维操作，以得到检测图像的 ( j+n )级升维特征。

其中非深度输入卷积层为具有 1*1卷积核尺寸以及具有非线性激活函数的标准卷积层，其中非深度输入卷积层可设置较大的通道数，如 4-6等。这样可在保证检测图像的特征尺寸的情况下，增加输入特征的维度，从而解决检测图像的特征丟失的问题。

随后非深度输入卷积层会使用非线性激活函数，如线性整流函数 ( ReLU， Rectified Linear Unit ) 等对输出的 ( j+n ) 级升维特征进行非线性处理，以保证非深度输入卷积层的输出是可微的，从而提高后续输出特征的准确性。

步骤 S402, 图像目标检测装置使用非深度特征提取模型的非深度非线性转换卷积层，对步骤 S401获取的检测图像的 ( j+n ) 级升维特征进行特征提取操作，以得到检测图像的 ( j+n ) 级卷积特征。

其中非深度非线性转换卷积层为具有 3*3卷积核尺寸以及具有非线性激活函数的深度可分离卷积层，其中深度可分离卷积层的设置可使得非深度非线性转换卷积层的运算量大幅度减少，进而使得深度特征提取模型的大小也大幅度减小。这里的非深度非线性转换卷积层也可为深度可分离空洞卷积层。

由于非深度非线性转换卷积层直接输入深度非线性转换卷积层输出的特征，因此这里的非深度特征提取模型只需要使用一个非深度非线性转换卷积层进行特征提取即可，而不需要设置多个非线性转换卷积层进行特征提取。

在本步骤中，非深度非线性转换卷积层首先对检测图像的 ( j+n )级升维特征进行特征提取操作，随后非深度非线性转换卷积层会使用非线性激活函数，如线性整流函数 ( ReLU， Rectified Linear Unit )等对输出的 ( j+n )级卷积特征进行非线性处理，以保证非深度非线性转换卷积层的输出是可微的，从而提高后续输出特征的准确性。

步骤 S403 , 图像目标检测装置使用非深度特征提取模型的非深度输出卷积层，对步骤 S402获取的检测图像的 ( j+n ) 级卷积特征进行降维操作，以得到检测图像的 ( j+n ) 级特征。

其中非深度输出卷积层为具有 1*1卷积核尺寸以及不具有激活函数的标准卷积层。这里非深度输出卷积层可将在步骤 S401中增加的维度恢复至输入到非深度输入卷积层的维度；且在非深度输出卷积层中没有设置激活函数，以避免激活函数导致的输出特征的丟失。非深度输出卷积层输出的检测图像的 ( j+n ) 级特征应该与 j级非深度特征图框架符合。

这样即完成了使用 j级非深度特征图框架对检测图像的 ( j-1+n ) 级特征进行非深度特征提取，以获取检测图像的 ( j+n )级特征的过程。重复步骤 S401至步骤 S403 , 可获耳又检测图像的 ( n+1 ) 级特征至 ( j+n ) 级特征。

本实施例基于检测图像的特征提取深度分别采用深度特征提取模型以及非深度特征提取模型，可大大降低特征提取操作的计算量，这里 n的数值可根据用户的要求进行设定。如特征提取操作的计算量较大，可适当的降低 n的大小，如需要提高特征提取的准确性，可适当的提升 n的大小。

在步骤 S204中，图像目标检测装置基于预设的特征预测模型，对步骤 S202和步骤 S203获取的检测图像的 a级特征至 ( m+n )级特征进行信息回归操作，从而获取检测图像的目标类型以及目标位置，其中 a为小于 n且大于等于 2的整数。这里特征预测模型的作用相当于回归器，用于获耳又检测图像中目标的目标类型以及目标位置，这里的目标类型使用分类概率进行标识，如某个目标 80%的概率为一只猫， 20%的概率为一只狗等。

在本实施例中特征预测模型包括特征分类卷积层以及特征输出卷积层。

具体请参照图 5a和图 5b，图 5a为本申请一实施例的图 2所示的图像目标检测方法的步骤 S204的流程图，图 5b为本申请一实施例的图 2所示的图像目标检测方法的步骤 S204的特征提取示意图。该步骤 S204包括：

步骤 S501，图像目标检测装置使用特征预测模型的特征分类卷积层，对检测图像的 a级特征至 ( m+n ) 级特征进行特征提取操作，以得到检测图像的分类识别特征。

其中特征分类卷积层为具有 3*3卷积核尺寸以及不具有激活函数的深度可分离卷积层。由于检测图像的 1级特征至（ a-1）级特征的特征尺寸较大，一般不会成为检测的图像目标，因此这里将检测图像的 a级特征的前级特征全部丟弃。

随后图像目标检测装置使用检测图像的 a 级特征至（ m+n）级特征进行特征提耳又操作，从而获耳又检测图像的分类识别特征，以便进行后续的检测图像的目标类型以及目标位置的预测操作。

具体的，这里可根据用户需要选择 a 级特征至（m+n）级特征中的部分特征进行特征提取操作，从而进一步的减少特征提取操作的计算量。

步骤 S502 , 图像目标检测装置使用特征预测模型的特征输出卷积层，对步骤 S501获取的检测图像的分类识别特征进行降维操作，以得到检测图像的目标类型以及目标位置。

其中特征输出卷积层为具有 1 * 1 卷积核尺寸以及不具有激活函数的标准卷积层。这里特征输出卷积层中没有设置激活函数，以避免激活函数导致的输出特征的丟失。

这里输出的目标类型可为人、车、房子等物品，输出的目标位置可为目标的中心坐标以及目标方框的长宽等参数。

在图 1 所示的实施例的基础上，本实施例的图像目标检测方法中深度特征提耳又模型和非深度特征提取模型采用不同的结构，且深度特征提取模型中的第一非线性转换卷积层和第二非线性转换卷积层也采用不同的结果，这样可以最大化检测图像的目标特征的提取速度，进一步降低配置资源的需求，从而实现目标检测功能在移动终端上的落地。

本申请实施例还提供一种图像目标检测装置，请参照图 6，图 6 为本申请一实施例的图像目标检测装置的结构示意图。本实施例的图像目标检测装置可对上述图 1所示的图像目标检测方法进行实施，本实施例的图像目标检测装置 60包括图像以及框架获取模块 61、深度特征提取模块 62、非深度特征提取模块 63 以及目标检测模块 64。

图像以及框架获取模块 61用于获取检测图像、 n级深度特征图框架以及 m级非深度特征图框架， n为大于等于 2的整数， m为大于等于 1 的整数；其中特征图框架包括输出的特征尺寸以及维度；深度特征提取模块 62 用于基于深度特征提取模型，使用 i级深度特征图框架对检测图像的（i-1）级特征进行深度特征提取，以获取检测图像的 i级特征，其中 i为小于等于 n的正整数；非深度特征提取模块 63用于基于非深度特征提取模型，使用 j级非深度特征图框架对检测图像的（j-1+n）级特征进行非深度特征提取，以获耳又检测图像的（j+n）级特征，其中 j为小于等于 m 的正整数；目标检测模块 64用于基于特征预测模型，对检测图像的 a级特征至（ m+n）级特征进行信息回归操作，从而获取检测图像的目标类型以及目标位置，其中 a为小于 n且大于等于 2的整数。

本实施例的图像目标检测装置 60使用时，首先图像以及框架获取模块 61获取需要进行目标检测的检测图像，以及对该检测图像进行目标检测的 n级深度特征图框架以及 m级非深度特征图框架。在本实施例中 n为大于等于 2的整数， m为大于等于 1的整数。即检测图像至少要进行 3次特征提取操作。

这里为了对检测图像进行准确全面的目标检测，需要对检测图像进行多级特征提耳又操作，如 m+n级等。由于下一级的特征尺寸一定小于上一级的特征尺寸，因此下级的特征提取操作可在上级特征提取操作输出的特征上进行。大尺寸的特征提取操作由于之前进行的上级特征提取操作较少，因此需要使用深度特征提取模型以及深度特征图框架进行特征提取。小尺寸的特征提取操作由于之前已经进行了多次上级特征提取操作，因此仅需要使用非深度特征提取模型以及非深度特征图框架进行特征提取即可。

随后深度特征提取模块 62基于预设的深度特征提取模型，使用 i级深度特征图框架对检测图像的（i-1）级特征进行深度特征提取，以获耳又检测图像的 i级特征，其中 i为小于等于 n的正整数。

即深度特征提取模块 62基于预设的深度特征提取模型，对检测图像的像素进行深度特征提取，以获取 1级深度特征图框架对应的检测图像的 1级特征；随后深度特征提取模块对检测图像的 1级特征进行深度特征提取，以获取 2级深度特征图框架对应的检测图像的 2级特征 ; 最后图像目标检测装置对检测图像的（ n-1）级特征进行深度特征提取，以获耳又 n级深度特征图框架对应的检测图像的 n级特征。这样获耳又了检测图像的 1级特征至 n级特征。

然后非深度特征提取模块 63基于预设的非深度特征提取模型，使用 j级非深度特征图框架对检测图像的（ j-1+n）级特征进行非深度特征提取，以获取检测图像的（j+n）级特征，其中 j为小于等于 m的正整数。

即非深度特征提取模块 63 基于预设的非深度特征提取模型，对检测图像的 n 级特征进行非深度特征提耳又，以获取 1级非深度特征图框架对应的检测图像的（ n+1）级特征；随后非深度特征提取模块对检测图像的（ n+1）级特征进行非深度特征提取，以获取 2级非深度特征图框架对应的检测图像的（ n+2）级特征 . ; 最后图像目标检测装置对检测图像的（n+m-1）级特征进行深度特征提取，以获取（m+n）级深度特征图框架对应的检测图像的（m+n）级特征。这样获耳又了检测图像的（n+1）级特征至（ m+n）级特征。

最后目标检测模块 64 基于预设的特征预测模型，对检测图像的 a 级特征至（ m+n）级特征进行信息回归操作，从而获取检测图像的目标类型以及目标位置，其中 a小于 n且大于等于 2的整数。

具体的，由于检测图像的 1级特征至（a-1）级特征的特征尺寸较大，因此不具有进行特征分类识别的意义，因此目标检测模块 64将检测图像的 1级特征至（ a-1）级特征直接丟弃。目标检测模块 64对检测图像的 a级特征至（ m+n）级特征进行特征分类识别，从而获取该特征对应的检测图像的目标类型（如人、车、房子等）以及目标位置（如目标的中心坐标以及目标方框的长宽等）。

这样即完成了本实施例的图像目标检测装置 60的图像目标检测过程。

本实施例的图像目标检测装置基于深度特征提取模型以及非深度特征提取模型，对同一检测图像的多个不同尺寸的特征进行提耳又以及特征识别，由于检测图像的小尺寸特征可直接在检测图像的大尺寸特征的基础上进行提取，因此整体特征提耳又速度较快，且对配置资源的需求较低。

请参照图 7，图 7为本申请另一实施例的图像目标检测装置的结构示意图。本实施例的图像目标检测装置可对上述图 2所示的图像目标检测方法进行实施，本实施例的图像目标检测装置 70包括图像以及框架获取模块 71、深度特征提取模块 72、非深度特征提取模块 73以及目标检测模块 74。

图像以及框架获取模块 71用于获取检测图像、 n级深度特征图框架以及 m级非深度特征图框架，其中特征图框架包括输出的特征尺寸以及维度；深度特征提取模块 72用于基于深度特征提取模型，使用 i级深度特征图框架对检测图像的（ i-1）级特征进行深度特征提取，以获取检测图像的 i级特征；非深度特征提取模块 73用于基于非深度特征提取模型，使用 j级非深度特征图框架对检测图像的（j-1+n）级特征进行非深度特征提取，以获取检测图像的（j+n）级特征；目标检测模块 74用于基于特征预测模型，对检测图像的 a级特征至（m+n）级特征进行信息回归操作，从而获取检测图像的目标类型以及目标位置。

请参照图 8，图 8为本申请一实施例的图 7所示的图像目标检测装置的深度特征提取模块的结构示意图。该深度特征提取模块 72包括深度升维操作单元 81、第一深度特征提取单元 82、第二深度特征提取单元 83以及深度降维操作单元 84。

深度升维操作单元 81用于使用深度输入卷积层，对检测图像的（i-1）级特征进行升维操作，以得到检测图像的 i级升维特征；第一深度特征提取单元 82用于使用深度第一非线性转换卷积层，对检测图像的 i级升维特征进行第一特征提取操作，以得到检测图像的 i级第一卷积特征；第二深度特征提取单元 83使用深度第二非线性转换卷积层，对检测图像的 i级第一卷积特征进行第二特征提取操作，以得到检测图像的 i级第二卷积特征；深度降维操作单元 84用于使用深度输出卷积层，对检测图像的 i级第二卷积特征进行降维操作，以得到检测图像的 i级特征。

请参照图 9，图 9为本申请一实施例的图 7所示的图像目标检测装置的非深度特征提取模块的结构示意图。该非深度特征提取模块 73 包括非深度升维操作单元 91、非深度特征提取单元 92以及非深度降维操作单元 93。

非深度升维操作单元 91 用于使用非深度输入卷积层，对检测图像的（j-1+n）级特征进行升维操作，以得到检测图像的（j+n）级升维特征；非深度特征提取单元 92用于使用非深度非线性转换卷积层，对检测图像的（j+n）级升维特征进行特征提取操作，以得到检测图像的（j+n）级卷积特征；非深度降维操作单元 93用于使用非深度输出卷积层，对检测图像的（ j+n）级卷积特征进行降维操作，以得到检测图像的（j+n）级特征。请参照图 10，图 10为本申请一实施例的图 7所示的图像目标检测装置的目标检测模块的结构示意图。该目标检测模块 74包括特征分类单元 101以及特征输出单元 102。

特征分类单元 101用于使用特征分类卷积层，对检测图像的 a级特征至（ m+n）级特征进行特征提耳又操作，以得到检测图像的分类识别特征；特征输出单元 102用于使用特征输出卷积层，对检测图像的分类识别特征进行降维操作，以得到检测图像的目标类型以及位置。

本实施例的图像目标检测装置 70使用时，首先图像以及框架获取模块 71获取需要进行目标检测的检测图像，以及对该检测图像进行目标检测的 n级深度特征图框架以及 m级非深度特征图框架。在本实施例中 n为大于等于 2的整数， m为大于等于 1的整数。即检测图像至少要进行 3次特征提取操作。

随后深度特征提取模块 72基于预设的深度特征提取模型，使用 i级深度特征图框架对检测图像的（i-1）级特征进行深度特征提取，以获耳又检测图像的 i级特征，其中 i为小于等于 n的正整数。

具体的深度特征提取流程包括：

深度特征提取模块 72的深度升维操作单元 81使用深度特征提取模型的深度输入卷积层，对检测图像的（i-1）级特征进行升维操作，以得到检测图像的 i级升维特征。

深度特征提取模块 72的第一深度特征提取单元 82使用深度特征提取模型的深度第一非线性转换卷积层，对检测图像的 i级升维特征进行第一特征提取操作，以得到检测图像的 i级第一卷积特征。

深度第一非线性转换卷积层首先对检测图像的 i级升维特征进行第一特征提取操作，随后深度第一非线性转换卷积层会使用非线性激活函数，如线性整流函数 ( ReLU, Rectified Linear Unit ) 等对输出的 i级第一卷积特征进行非线性处理，以保证深度第一非线性转换卷积层的输出是可微的，从而提高后续输出特征的准确性。

深度特征提取模块 72的第二深度特征提取单元 83使用深度特征提取模型的深度第二非线性转换卷积层，对检测图像的 i级第一卷积特征进行第二特征提取操作，以得到检测图像的 i级第二卷积特征。其中深度第二非线性转换卷积层为具有 3*3卷积核尺寸以及具有非线性激活函数的深度可分离空洞卷积层 ( atrous convolutions ) ，其中深度可分离空洞卷积层的设置可使得第二非线性转换卷积层的运算量大幅度减少的同时，还可增加检测图像的每个特征基本单元的感受野从而进一步提高了第二非线性转换卷积层输出的 i 级第二卷积特征的准确性。

深度特征提取模块 72的深度降维操作单元 84使用深度特征提取模型的深度输出卷积层，对检测图像的 i级第二卷积特征进行降维操作，以得到检测图像的 i级特征。

其中深度输出卷积层为具有 1*1 卷积核尺寸以及不具有激活函数的标准卷积层。这里深度输出卷积层可将增加的维度恢复至输入到深度输入卷积层的维度；且在深度输出卷积层中没有设置激活函数，以避免激活函数导致的输出特征的丟失。深度输出卷积层输出的检测图像的 i级特征应该与 i级深度特征图框架符合。

这样即完成了使用 i级深度特征图框架对检测图像的 ( i-1 ) 级特征进行深度特征提取，以获取检测图像的 i级特征的过程。重复上述升维操作、第一特征提取操作、第二特征提取操作以及降维操作，可获取检测图像的 1级特征至 n级特征。

然后非深度特征提取模块 73基于预设的非深度特征提取模型，使用 j级非深度特征图框架对检测图像的 ( j-1+n ) 级特征进行非深度特征提取，以获取检测图像的 ( j+n ) 级特征，其中 j为小于等于 m的正整数。

具体的非深度特征提取流程包括：

非深度特征提取模块 73的非深度升维操作单元 91使用非深度特征提取模型的非深度输入卷积层，对检测图像的 ( j-1+n )级特征进行升维操作，以得到检测图像的 ( j+n ) 级升维特征。

非深度特征提取模块 73的非深度特征提取单元 92使用非深度特征提取模型的非深度非线性转换卷积层，对检测图像的 ( j+n )级升维特征进行特征提取操作，以得到检测图像的 ( j+n ) 级卷积特征。

非深度特征提取模块 71的非深度降维操作单元 93使用非深度特征提取模型的非深度输出卷积层，对检测图像的 ( j+n )级卷积特征进行降维操作，以得到检测图像的（ j+n）级特征。

其中非深度输出卷积层为具有 1*1卷积核尺寸以及不具有激活函数的标准卷积层。这里非深度输出卷积层可将之前增加的维度恢复至输入到非深度输入卷积层的维度；且在非深度输出卷积层中没有设置激活函数，以避免激活函数导致的输出特征的丟失。非深度输出卷积层输出的检测图像的（j+n）级特征应该与 j级非深度特征图框架符合。

这样即完成了使用 j级非深度特征图框架对检测图像的（j-1+n）级特征进行非深度特征提取，以获取检测图像的（j+n）级特征的过程。重复上述升维操作、特征提耳又操作以及降维操作，可获取检测图像的（n+1）级特征至（j+n）级特征。

最后目标检测模块 74 基于预设的特征预测模型，对检测图像的 a 级特征至（ m+n）级特征进行信息回归操作，从而获取检测图像的目标类型以及目标位置，其中 a为小于 n且大于等于 2的整数。这里特征预测模型的作用相当于回归器，用于获取检测图像中目标的目标类型以及目标位置，这里的目标类型使用分类概率进行标识，如某个目标 80%的概率为一只猫， 20%的概率为一只狗等。

具体的目标检测流程包括：

目标检测模块 74的特征分类单元 101使用特征预测模型的特征分类卷积层，对检测图像的 a级特征至（m+n）级特征进行特征提耳又操作，以得到检测图像的分类识别特征。

特征分类单元 101使用检测图像的 a级特征至（m+n）级特征进行特征提耳又操作，从而获耳又检测图像的分类识别特征，以便进行后续的检测图像的目标类型以及目标位置的预测操作。

具体的，这里特征分类单元可根据用户需要选择 a级特征至（m+n）级特征中的部分特征进行特征提取操作，从而进一步的减少特征提取操作的计算量。目标检测模块 74的特征输出单元 102使用特征预测模型的特征输出卷积层，对检测图像的分类识别特征进行降维操作，以得到检测图像的目标类型以及目标位置。

其中特征输出卷积层为具有 1*1 卷积核尺寸以及不具有激活函数的标准卷积层。这里特征输出卷积层中没有设置激活函数，以避免激活函数导致的输出特征的丟失。

这样即完成了本实施例的图像目标检测装置 70的图像目标检测过程。

在图 6所示的实施例的基础上，本实施例的图像目标检测装置中深度特征提耳又模型和非深度特征提取模型采用不同的结构，且深度特征提取模型中的第一非线性转换卷积层和第二非线性转换卷积层也采用不同的结果，这样可以最大化检测图像的目标特征的提取速度，进一步降低配置资源的需求，从而实现目标检测功能在移动终端上的落地。

下面通过一具体实施例说明本申请的图像目标检测方法及图像目标检测装置的工作原理，请参照图 11，图 11 为本申请一实施例的图像目标检测方法及图像目标检测装置的具体实施例的使用示意图。

本具体实施例的图像目标检测装置可设置在电子设备中，例如安装有图像目标识别应用的移动终端中，该移动终端可对图像中的目标特征进行快速提取，且对移动终端自身的配置资源的需求较低。本具体实施例的图像目标检测装置进行图像目标检测的步骤包括：

步骤 S1101，获取检测图像、 n级深度特征图框架以及 m级非深度特征图框架。在本实施例中，深度特征图框架包括 128* 128*12、 64*64*24、 32*32*48、 16*16*64 等特征尺寸以及维度的不同级别的深度特征图框架。这里 128*128是指特征图框架的特征尺寸， 12是指特征图框架的维度。当然这里还可包括更多的深度特征图框架，如可在 64*64*24以及 32*32*48之间增加 64*64*32以及 64*64*40等深度特征图框架。在本实施例中，获取了 4级深度特征图框架以及 4级非深度特征图框架。

步骤 S1102,基于深度特征提取模型，使用 i级的深度特征图框架对检测图像的 ( i-1 ) 级特征进行深度特征提取，以获取检测图像的 i级特征。如在本实施例中检测图像设置了 4级深度特征，在实际使用中，检测图像的深度特征级数应大于 4。

图像目标检测装置基于深度特征提取模型，对检测图像的像素 (该像素尺寸以及维度为 256*256*3）进行深度特征提取，以获取 1级深度特征图框架对应的检测图像的 1级特征（该特征尺寸以及维度为 128*128*12） ; 随后图像目标检测装置对检测图像的 1级特征进行深度特征提取，以获取 2级深度特征图框架对应的检测图像的 2级特征（该特征尺寸以及维度为 64*64*24） ; 然后图像目标检测装置对检测图像的 2级特征进行深度特征提取，以获取 3级深度特征图框架对应的检测图像的 3级特征（该特征尺寸以及维度为 32*32*48），最后图像目标检测装置对检测图像的 3级特征进行深度特征提取，以获取 4级深度特征图框架对应的检测图像的 4级特征（该特征尺寸以及维度为 16*16*64）。

这里以获取检测图像的 3级特征为例，说明如何对检测图像进行深度特征提取。该深度特征提取的流程包括：

图像目标检测装置使用深度输入卷积层，对检测图像的 2级特征（该特征尺寸以及维度为 64*64*24）进行升维操作，以得到检测图像的 3级升维特征（该特征尺寸以及维度为 64*64*144）。这里深度输入卷积层为具有 1*1卷积核尺寸以及具有非线性激活函数 Relu的标准卷积层 Convl

图像目标检测装置使用第一非线性转换卷积层，对检测图像的 3级升维特征进行第一特征提取操作，以得到检测图像的 3级第一卷积特征（该特征尺寸以及维度为 32*32*144）。这里的第一非线性转换卷积层为具有 3*3卷积核尺寸以及具有非线性激活函数 Relu的深度可分离标准卷积层 Dwise2, 由于 3级第一卷积特征的尺寸减少了，因此这里的深度可分离标准卷积层 Dwise2的卷积步长 stride为 2。

图像目标检测装置使用第二非线性转换卷积层，对检测图像的 3级第一卷积特征进行第二特征提取操作，以得到检测图像的 3级第二卷积特征（该特征尺寸以及维度为 32*32*144）。这里的第二非线性转换卷积层为具有 3*3卷积核尺寸以及具有非线性激活函数 Relu的深度可分离空洞卷积层 Dwise3，其中深度可分离空洞卷积层 Dwise3的扩展率为 2。

图像目标检测装置使用深度输出卷积层，对检测图像的 3级第二卷积特征进行降维操作，以得到检测图像的 3级特征（该特征尺寸以及维度为 32*32*48）。这里的深度输出卷积层为具有 1 * 1卷积核尺寸以及不具有激活函数的标准卷积层 Conv4 步骤 S1103 ,基于非深度特征提取模型，使用 j级的非深度特征图框架对检测图像的（j-1+n）级特征进非深度特征提取，以获取检测图像的（j+n）级特征。如在本实施例中检测图像设置 4级非深度特征，即该检测图像一共设置了 8级特征，在实际使用中，检测图像的非深度特征级数应大于 4。

图像目标检测装置基于非深度特征提取模型，对检测图像的 4级特征进行非深度特征提取，以获取 1级非深度特征图框架对应的检测图像的 5级特征（该特征尺寸以及维度为 8*8*144） ; 随后图像目标检测装置对检测图像的 5级特征进行非深度特征提取，以获取 2级非深度特征图框架对应的检测图像的 6级特征（该特征尺寸以及维度为 4*4*256） ; 然后图像目标检测装置对检测图像的 6级特征进行非深度特征提取，以获取 3级非深度特征图框架对应的检测图像的 7级特征（该特征尺寸以及维度为 2*2*256） ; 最后图像目标检测装置对检测图像的 7级特征进行非深度特征提取，以获取 4级非深度特征图框架对应的检测图像的 8级特征（该特征尺寸以及维度为 1*1*256）。

这里以获取检测图像的 7级特征为例，说明如何对检测图像进行非深度特征提取。该非深度特征提取的流程包括：

图像目标检测装置使用非深度输入卷积层，对检测图像的 6级特征（该特征尺寸以及维度为 4*4*256）进行升维操作，以得到检测图像的 7级升维特征（该特征尺寸以及维度为 4*4*1536）。这里的非深度输入卷积层为具有 1*1卷积核尺寸以及具有非线性激活函数 Relu的标准卷积层 Conv5

图像目标检测装置使用非深度非线性转换卷积层，对检测图像的 7级升维特征进行特征提取操作，以得到检测图像的 7 级卷积特征（该特征尺寸以及维度为 2*2*1536）。这里的非深度非线性转换卷积层为具有 3*3卷积核尺寸以及具有非线性激活函数 Relu的深度可分离空洞卷积层 Dwise6, 由于 7级卷积特征的尺寸减少了，因此这里的深度可分离卷积层 Dwise6的卷积步长 stride为 2，其中深度可分离空洞卷积层 Dwise6的扩展率为 2。

图像目标检测装置使用非深度输出卷积层，对检测图像的 7级卷积特征进行降维操作，以得到检测图像的 7级特征（该特征尺寸以及维度为 2*2*256）。这里的非深度输出卷积层为具有 1*1卷积核尺寸以及不具有激活函数的标准卷积层 Conv7 步骤 S1104, 基于特征预测模型，对检测图像的 3级特征至 8级特征进行信息回归操作，从而获耳又检测图像的目标类型以及目标位置。获耳又检测图像的目标类型以及目标位置的流程包括：

图像目标检测装置使用特征分类卷积层，对检测图像的 3级特征至 8级特征进行信息回归操作，以得到检测图像的分类识别特征。其中特征分类卷积层为具有 3*3 卷积核尺寸以及不具有激活函数的深度可分离卷积层。

图像目标检测装置使用特征输出卷积层，对检测图像的分类识别特征进行降维操作，以得到检测图像的目标类型以及目标位置。其中特征输出卷积层为具有 1*1 卷积核尺寸以及不具有激活函数的标准卷积层。

这样即完成了图像中目标类型以及目标位置的输出操作，如图 11中的 1101所示。

本具体实施例的图像目标检测方法及图像目标检测装置的目标检测过程同时对深度特征提取模型、非深度特征提取模型以及特征预测模型三个部分进行优化，使原来的特征提取模型从 100Mb缩小到小于 1Mb，并且运行速度也得到了大于 10倍的提升。

本申请实施例的图像目标检测方法、装置及存储介质基于深度特征提取模型以及非深度特征提取模型对同一检测图像的多个不同尺寸的特征进行提取以及特征识另 ll，由于检测图像的小尺寸特征可直接在检测图像的大尺寸特征的基础上进行提耳又，因此整体特征提取速度较快，且对配置资源的需求较低；有效的解决了现有的图像目标检测方法及装置的运行速度较慢且无法在资源配置较小的移动终端上实施的技术问题。

本申请实施例所使用的术语“组件”、 “模块”、 “系统”、 “接口”、 “进程”等等一般地旨在指计算机相关实体：硬件、硬件和软件的组合、软件或执行中的软件。例如，组件可以是但不限于是运行在处理器上的进程、处理器、对象、可执行应用、执行的线程、程序和 /或计算机。通过图示，运行在控制器上的应用和该控制器二者都可以是组件。一个或多个组件可以有在于执行的进程和 /或线程内，并且组件可以位于一个计算机上和 /或分布在两个或更多计算机之间。

本申请实施例还提供了一种电子设备，包括：一个或多个处理器和存储装置；所述存储装置，用于存储一个或多个可执行程序指令；所述一个或多个处理器，用于执行所述存储装置中的一个或多个可执行程序指令，以实现上述实施例所述的图像目标检测方法。

图 12 和随后的讨论提供了对实现本申请实施例所述的图像目标检测装置所在的电子设备的工作环境的简短、概括的描述。图 12的工作环境仅仅是适当的工作环境的一个实例并且不旨在建议关于工作环境的用途或功能的范围的任何限制。实例电子设备 1212包括但不限于可穿戴设备、头戴设备、医疗健康平台、个人计算机、服务器计算机、手持式或膝上型设备、移动设备（比如移动电话、个人数字助理（PDA）、媒体播放器等等）、多处理器系统、消费型电子设备、小型计算机、大型计算机、包括上述任意系统或设备的分布式计算环境，等等。

尽管没有要求，但是在“计算机可读指令”被一个或多个电子设备执行的通用背景下描述实施例。计算机可读指令可以经由计算机可读介质来分布（下文讨论）。计算机可读指令可以实现为程序模块，比如执行特定任务或实现特定抽象数据类型的功能、对象、应用编程接口（API）、数据结构等等。典型地，该计算机可读指令的功能可以在各种环境中随意组合或分布。

图 12 图示了包括本申请的图像目标检测装置中的一个或多个实施例的电子设备 1212的实例。在一种配置中，电子设备 1212包括至少一个处理单元 1216和存储器 1218。根据电子设备的确切配置和类型，存储器 1218可以是易失性的（比如 RAM）、非易失性的（比如 ROM、闪存等）或二者的某种组合。该配置在图 12中由虚线 1214 图示。处理单元 1216可以是处理器，例如 CPU。

在其他实施例中，电子设备 1212 可以包括附加特征和 /或功能。例如，设备 1212还可以包括附加的存储装置（例如可移除和 /或不可移除的），其包括但不限于磁存储装置、光存储装置等等。这种附加存储装置在图 12中由存储装置 1220图示。在一个实施例中，用于实现本文所提供的一个或多个实施例的计算机可读指令可以在存储装置 1220中。存储装置 1220还可以存储用于实现操作系统、应用程序等的其他计算机可读指令。计算机可读指令可以载入存储器 1218中由例如处理单元 1216执行。

本文所使用的术语“计算机可读介质”包括计算机存储介质。该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。计算机存储介质包括以用于存储诸如计算机可读指令、或处理器可执行指令、或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。当上述的计算机可读指令或处理器可执行指令被电子设备的一个或多个处理器执行时，使得该电子设备实现如上述实施例中所述的图像目标检测方法。存储器 1218和存储装置 1220是计算机存储介质的实例。计算机存储介质包括但不限于 RAM、 ROM、 EEPROM、闪存或其他存储器技术、 CD-ROM、数字通用盘（DVD）或其他光存储装置、盒式磁带、磁带、磁盘存储装置或其他磁存储设备、或可以用于存储期望信息并可以被电子设备 1212访问的任何其他介质。任意这样的计算机存储介质可以是电子设备 1212的一部分。

电子设备 1212 还可以包括允许电子设备 1212 与其他设备通信的通信连接 1226。通信连接 1226可以包括但不限于调制解调器、网络接口卡 (NIC)、集成网络接口、射频发射器 /接收器、红外端口、 USB连接或用于将电子设备 1212连接到其他电子设备的其他接口。通信连接 1226可以包括有线连接或无线连接。通信连接 1226可以发射和 /或接收通信媒体。

术语“计算机可读介质”可以包括通信介质。通信介质典型地包含计算机可读指令或诸如载波或其他传输机构之类的“己调制数据信号”中的其他数据，并且包括任何信息递送介质。术语“己调制数据信号”可以包括这样的信号：该信号特性中的一个或多个按照将信息编码到信号中的方式来设置或改变。

电子设备 1212可以包括输入设备 1224，比如键盘、鼠标、笔、语音输入设备、触摸输入设备、红外相机、视频输入设备和 /或任何其他输入设备。设备 1212中也可以包括输出设备 1222，比如一个或多个显示器、扬声器、打印机和 /或任意其他输出设备。输入设备 1224和输出设备 1222可以经由有线连接、无线连接或其任意组合连接到电子设备 1212。在一个实施例中，来自另一个电子设备的输入设备或输出设备可以被用作电子设备 1212的输入设备 1224或输出设备 1222。

电子设备 1212的组件可以通过各种互连 (比如总线)连接。这样的互连可以包括外围组件互连 (PCI) (比如快速 PCI)、通用串行总线 (USB)、火线 (IEEE 1394)、光学总线结构等等。在另一个实施例中，电子设备 1212的组件可以通过网络互连。例如，存储器 1218可以由位于不同物理位置中的、通过网络互连的多个物理存储器单元构成。

本领域技术人员将认识到，用于存储计算机可读指令的存储设备可以跨越网络分布。例如，可经由网络 1228访问的电子设备 1230可以存储用于实现本申请所提供的一个或多个实施例的计算机可读指令。电子设备 1212可以访问电子设备 1230 并且下载计算机可读指令的一部分或所有以供执行。可替代地，电子设备 1212可以按需要下载多条计算机可读指令，或者一些指令可以在电子设备 1212处执行并且一些指令可以在电子设备 1230处执行。

本文提供了实施例的各种操作。在一个实施例中，所述的一个或多个操作可以构成一个或多个计算机可读介质上存储的计算机可读指令，其在被电子设备执行时将使得计算设备执行所述操作。描述一些或所有操作的顺序不应当被解释为暗示这些操作必需是顺序相关的。本领域技术人员将理解具有本说明书的益处的可替代的排序。而且，应当理解，不是所有操作必需在本文所提供的每个实施例中存在。

而且，尽管已经相对于一个或多个实现方式示出并描述了本申请，但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本申请包括所有这样的修改和变型，并且仅由所附权利要求的范围限制。特别地关于由上述组件（例如元件、资源等）执行的各种功能，用于描述这样的组件的术语旨在对应于执行所述组件的指定功能（例如其在功能上是等价的）的任意组件（除非另外指示），即使在结构上与执行本文所示的本申请的示范性实现方式中的功能的公开结构不等同。此外，尽管本申请的特定特征已经相对于若干实现方式中的仅一个被公开，但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或多个其他特征组合。而且，就术语“包括”、 “具有”、 “含有”或其变形被用在具体实施方式或权利要求中而言，这样的术语旨在以与术语“包含”相似的方式包括。

本申请实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器，磁盘或光盘等。上述的各装置或系统，可以执行相应方法实施例中的方法。

综上所述，虽然本申请已以实施例揭露如上，实施例前的序号仅为描述方便而使用，对本申请各实施例的顺序不造成限制。并且，上述实施例并非用以限制本申请本领域的普通技术人员，在不脱离本申请的精神和范围内，均可作各种更动与润饰，因此本申请的保护范围以权利要求界定的范围为准。

Claims

权利要求书

1、一种图像目标检测方法，由电子设备执行，包括：

获取检测图像、 n级深度特征图框架以及 m级非深度特征图框架， n为大于等于 2的整数， m为大于等于 1的整数；其中特征图框架包括输出的特征尺寸以及维度；

基于非深度特征提取模型，使用 j 级非深度特征图框架对所述检测图像的 ( j-1+n ) 级特征进非深度特征提取，以获取所述检测图像的 ( j+n ) 级特征，其中 j 为小于等于 m的正整数；以及

2、根据权利要求 1所述的图像目标检测方法，其中，所述深度特征提取模型包括深度输入卷积层、深度第一非线性转换卷积层、深度第二非线性转换卷积层以及深度输出卷积层；

所述基于深度特征提取模型，使用 i级深度特征图框架对所述检测图像的 ( i-1 ) 级特征进行深度特征提取，以获取所述检测图像的 i级特征的步骤包括：

使用所述深度输入卷积层，对所述检测图像的 ( i-1 ) 级特征进行升维操作，以得到所述检测图像的 i级升维特征；

使用所述深度第一非线性转换卷积层，对所述检测图像的 i级升维特征进行第一特征提取操作，以得到所述检测图像的 i级第一卷积特征；

使用所述深度第二非线性转换卷积层，对所述检测图像的 i级第一卷积特征进行第二特征提取操作，以得到所述检测图像的 i级第二卷积特征；以及

使用所述深度输出卷积层，对所述检测图像的 i级第二卷积特征进行降维操作，以得到所述检测图像的 i级特征。

3、根据权利要求 2所述的图像目标检测方法，其中，所述深度输入卷积层的卷积核尺寸为 1*1，所述深度第一非线性转换卷积层的卷积核尺寸为 3*3 , 所述深度第二非线性转换卷积层的卷积核尺寸为 3*3，所述深度输出卷积层的卷积核尺寸为 1*1 ;

所述深度输入卷积层为具有非线性激活函数的标准卷积层，所述深度第一非线性转换卷积层为具有非线性激活函数的深度可分离卷积层，所述深度第二非线性转换卷积层为具有非线性激活函数的深度可分离卷积层，所述深度输出卷积层为不具有激活函数的标准卷积层。

4、根据权利要求 3所述的图像目标检测方法，其中，所述深度第二非线性转换卷积层为具有非线性激活函数的深度可分离空洞卷积层。

5、根据权利要求 1所述的图像目标检测方法，其中，所述非深度特征提取模型包括非深度输入卷积层、非深度非线性转换卷积层以及非深度输出卷积层；

所述基于非深度特征提取模型，使用 j级非深度特征图框架对所述检测图像的 ( j- 1+n )级特征进非深度特征提取，以获取所述检测图像的 ( j+n )级特征的步骤包括：

使用所述非深度输入卷积层，对所述检测图像的 ( j-1+n )级特征进行升维操作，以得到所述检测图像的 ( j+n ) 级升维特征；

使用所述非深度非线性转换卷积层，对所述检测图像的 ( j+n )级升维特征进行特征提取操作，以得到所述检测图像的 ( j+n ) 级卷积特征；以及

使用所述非深度输出卷积层，对所述检测图像的 ( j+n )级卷积特征进行降维操作，以得到所述检测图像的 ( j+n ) 级特征。

6、根据权利要求 5所述的图像目标检测方法，其中，所述非深度输入卷积层的卷积核尺寸为 1*1，所述非深度非线性转换卷积层的卷积核尺寸为 3*3 , 所述非深度输出卷积层的卷积核尺寸为 1*1 ;

所述非深度输入卷积层为具有非线性激活函数的标准卷积层，所述非深度非线性转换卷积层为具有非线性激活函数的深度可分离卷积层，所述非深度输出卷积层为不具有激活函数的标准卷积层。

7、根据权利要求 6所述的图像目标检测方法，其中，所述非深度非线性转换卷积层为具有非线性激活函数的深度可分离空洞卷积层。

8、根据权利要求 1所述的图像目标检测方法，其中，所述特征预测模型包括特征分类卷积层以及特征输出卷积层；

所述基于特征预测模型，对所述检测图像的 a级特征至 ( m+n ) 级特征进行信息回归操作，从而获取所述检测图像的目标类型以及位置的步骤包括：

使用所述特征分类卷积层，对所述检测图像的 a级特征至（m+n）级特征进行特征提取操作，以得到所述检测图像的分类识别特征；以及

使用所述特征输出卷积层，对所述检测图像的分类识别特征进行降维操作，以得到所述检测图像的目标类型以及位置。

9、根据权利要求 8所述的图像目标检测方法，其中，所述特征分类卷积层的卷积核尺寸为 3*3，所述特征输出卷积层的卷积核尺寸为 1 * 1 ;

所述特征分类卷积层为不具有激活函数的深度可分离卷积层，所述特征输出卷积层为不具有激活函数的标准卷积层。

10、一种图像目标检测装置，包括：

深度特征提取模块，用于基于深度特征提取模型，使用 i级深度特征图框架对所述检测图像的（ i-1）级特征进行深度特征提取，以获耳又所述检测图像的 i级特征，其中 i为小于等于 n的正整数；

非深度特征提取模块，用于基于非深度特征提取模型，使用 j 级非深度特征图框架对所述检测图像的（ j-1+n）级特征进非深度特征提取，以获取所述检测图像的（j+n）级特征，其中 j为小于等于 m的正整数；以及

目标检测模块，用于基于特征预测模型，对所述检测图像的 a级特征至（ m+n）级特征进行信息回归操作，从而获取所述检测图像的目标类型以及目标位置，其中 a为小于 n且大于等于 2的整数。

11、根据权利要求 10所述的图像目标检测装置，其中，所述深度特征提取模型包括深度输入卷积层、深度第一非线性转换卷积层、深度第二非线性转换卷积层以及深度输出卷积层；

所述深度特征提取模块包括：

深度升维操作单元，用于使用所述深度输入卷积层，对所述检测图像的 i级特征进行升维操作，以得到所述检测图像的 i级升维特征；

第一深度特征提取单元，用于使用所述深度第一非线性转换卷积层，对所述检测图像的（i-1）级升维特征进行第一特征提取操作，以得到所述检测图像的 i级第一卷积特征；

第二深度特征提取单元，使用所述深度第二非线性转换卷积层，对所述检测图像的 i级第一卷积特征进行第二特征提取操作，以得到所述检测图像的 i级第二卷积特征；以及

深度降维操作单元，用于使用所述深度输出卷积层，对所述检测图像的 i级第二卷积特征进行降维操作，以得到所述检测图像的 i级特征。

12、根据权利要求 10所述的图像目标检测装置，其中，所述非深度特征提取模型包括非深度输入卷积层、非深度非线性转换卷积层以及非深度输出卷积层；

所述非深度特征提取模块包括：

非深度升维操作单元，用于使用所述非深度输入卷积层，对所述检测图像的 ( j-1+n ) 级特征进行升维操作，以得到所述检测图像的 ( j+n ) 级升维特征；

非深度特征提取单元，用于使用所述非深度非线性转换卷积层，对所述检测图像的 ( j+n ) 级升维特征进行特征提取操作，以得到所述检测图像的 ( j+n ) 级卷积特征；以及

非深度降维操作单元，用于使用所述非深度输出卷积层，对所述检测图像的 ( j+n ) 级卷积特征进行降维操作，以得到所述检测图像的 ( j+n ) 级特征。

13、根据权利要求 10所述的图像目标检测装置，其中，所述特征预测模型包括特征分类卷积层以及特征输出卷积层；

所述目标检测模块包括：

特征分类单元，用于使用所述特征分类卷积层，对所述检测图像的 a级特征至

( m+n ) 级特征进行特征提取操作，以得到所述检测图像的分类识别特征；以及特征输出单元，用于使用所述特征输出卷积层，对所述检测图像的分类识别特征进行降维操作，以得到所述检测图像的目标类型以及位置。

14、根据权利要求 13所述的图像目标检测装置，其中，所述特征分类卷积层的卷积核尺寸为 3*3，所述特征输出卷积层的卷积核尺寸为 1*1 ;

15、一种存储介质，其内存储有处理器可执行指令，所述指令由一个或一个以上处理器执行时，实现如权利要求 1-9中任一的图像目标检测方法。

16、一种电子设备，包括一个或多个处理器和存储装置；所述存储装置，用于存储一个或多个可执行程序指令；

所述一个或多个处理器，用于执行所述存储装置中的一个或多个可执行程序指令，以实现如权利要求 1-9任一项所述的图像目标检测方法。