WO2020228353A1

WO2020228353A1 - 一种基于运动加速度的图像搜索方法、系统及电子设备

Info

Publication number: WO2020228353A1
Application number: PCT/CN2019/130538
Authority: WO
Inventors: 张昱航; 任宏帅; 叶可江; 王洋; 须成忠
Original assignee: 深圳先进技术研究院
Priority date: 2019-05-13
Filing date: 2019-12-31
Publication date: 2020-11-19
Also published as: CN110147750A; CN110147750B

Abstract

一种基于运动加速度的图像搜索方法、系统及电子设备。所述方法包括：步骤a：根据前两帧图像的位移计算出待追踪目标在当前帧图像中的加速度；步骤b：根据所述加速度计算结果确定待追踪目标在当前帧图像中的搜索范围矩形框；步骤c：通过RPN网络沿所述搜索范围矩形框的对角线提取待追踪目标在当前帧图像中的候选框，并对所述候选框进行特征分析，得到所述待追踪目标在当前帧图像中的位置。该方案利用加速度计算方式确定的一个有限的搜索范围矩形框，并沿搜索范围矩形框对角线进行追踪目标的候选框选定，确定了一个更小的检索范围，无需进行全局检索，大大缩小了搜索范围从而减少了计算量，提高了计算速度。

Description

一种基于运动加速度的图像搜索方法、系统及电子设备

技术领域

本申请属于图像搜索技术领域，特别涉及一种基于运动加速度的图像搜索方法、系统及电子设备。

背景技术

随着人工智能技术的发展，越来越多的前沿知识实现了落地，其中，视频中的物体(目标)追踪技术受到了高校和企业界的广泛关注。目前，对于视频中的目标追踪，一般采用的技术方案是在视频的开始的第一帧标记出待追踪目标位置，然后再接下来的每一帧中，进行全局搜索从而找到下一帧中的待追踪目标。通常采用以下几种方式实现：

一、对全局图像进行滑动窗口方式下的搜索[Girshick R B,Donahue J,Darrell T,et al.Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[J].computer vision and pattern recognition,2014:580-587.]，这种搜索方式的效率相对低下，并不能克服物体在运动过程中的形变。

二、采用区域提议网络(RPN，Region Proposal Network，区域生成网络)进行[Ren S,He K,Girshick R B,et al.Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.]，这种网络的好处在于人为设置了全局目标的搜索方式，但是这种方式仍然要计算大量的图像，搜索范围广。

如上所述，现有的图像搜索技术都是全局范围搜索，都会产生较长的检索时间和比较多的计算冗余。

发明内容

本申请提供了一种基于运动加速度的图像搜索方法、系统及电子设备，旨在至少在一定程度上解决现有技术中的上述技术问题之一。

为了解决上述问题，本申请提供了如下技术方案：

一种基于运动加速度的图像搜索方法，包括以下步骤：

步骤a：根据前两帧图像的位移计算出待追踪目标在当前帧图像中的加速度；

步骤b：根据所述加速度计算结果确定待追踪目标在当前帧图像中的搜索范围矩形框；

步骤c：通过RPN网络沿所述搜索范围矩形框的对角线提取待追踪目标在当前帧图像中的候选框，并对所述候选框进行特征分析，得到所述待追踪目标在当前帧图像中的位置。

本申请实施例采取的技术方案还包括：在所述步骤a中，所述加速度为矢量单位，既有速度也有方向，所述加速度计算公式为：

本申请实施例采取的技术方案还包括：在所述步骤b中，所述根据加速度计算结果确定待追踪目标在当前帧图像中的搜索范围矩形框具体包括：将第i+1帧图像中待追踪目标的中心位置作为搜索范围矩形框对角线的交点，定义

分别表示待追踪目标的中心位置的横、纵坐标，定义下一帧即i+2帧的起始搜索原点为：

则i+2帧的搜索范围矩形框的起始点为

搜索范围矩形框的长宽分别为：

width _i+2＝2*width _i+1,height _i+2＝2*height _i+2。

本申请实施例采取的技术方案还包括：在所述步骤c中，所述通过RPN网络沿搜索范围矩形框的对角线提取待追踪目标在当前帧图像中的候选框具体为：在所述搜索范围矩形框的斜对角线上分别按照预设的间隔距离取得三个点，然后分别按照设定的三种长宽尺度比进行再次缩放，得到九个候选框。

本申请实施例采取的技术方案还包括：所述步骤a中，所述前两帧图像具体为连续的两帧图像、离散间隔的两帧图像或任意时刻的两帧图像。

本申请实施例采取的另一技术方案为：一种基于运动加速度的图像搜索系统，包括：

加速度计算模块：用于根据前两帧图像的位移计算出待追踪目标在当前帧图像中的加速度；

搜索范围计算模块：用于根据所述加速度计算结果确定待追踪目标在当前帧图像中的搜索范围矩形框；

候选框提取模块：用于通过RPN网络沿所述搜索范围矩形框的对角线提取待追踪目标在当前帧图像中的候选框；

目标检索模块：用于对所述候选框进行特征分析，得到所述待追踪目标在当前帧图像中的位置。

本申请实施例采取的技术方案还包括：所述加速度为矢量单位，既有速度也有方向，所述加速度计算公式为：

本申请实施例采取的技术方案还包括：所述搜索范围计算模块根据加速度计算结果确定待追踪目标在当前帧图像中的搜索范围矩形框具体包括：将第 i+1帧图像中待追踪目标的中心位置作为搜索范围矩形框对角线的交点，定义

则i+2帧的搜索范围矩形框的起始点为

搜索范围矩形框的长宽分别为：

width _i+2＝2*width _i+1,height _i+2＝2*height _i+2。

本申请实施例采取的技术方案还包括：所述候选框提取模块通过RPN网络沿搜索范围矩形框的对角线提取待追踪目标在当前帧图像中的候选框具体为：在所述搜索范围矩形框的斜对角线上分别按照预设的间隔距离取得三个点，然后分别按照设定的三种长宽尺度比进行再次缩放，得到九个候选框。

本申请实施例采取的技术方案还包括：所述前两帧图像具体为连续的两帧图像、离散间隔的两帧图像或任意时刻的两帧图像。

本申请实施例采取的又一技术方案为：一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的基于运动加速度的图像搜索方法的以下操作：

相对于现有技术，本申请实施例产生的有益效果在于：本申请实施例的基于运动加速度的图像搜索方法、系统及电子设备利用加速度计算方式确定的一个有限的搜索范围矩形框，并沿搜索范围矩形框对角线上三个点进行追踪目标的候选框选定，从而确定了一个更小的检索范围，相对于现有技术，本申请无需进行全局检索，大大缩小了搜索范围从而减少了计算量，提高了计算速度。

附图说明

图1是本申请实施例的基于运动加速度的图像搜索方法的流程图；

图2(a)为待追踪目标在第i帧的目标画面，图2(b)为待追踪目标在第(i+1)帧的目标画面；

图3为同一拍摄画面下(摄像头固定不动)的加速度计算方式示意图；

图4为i+2帧搜索范围矩形框示意图；

图5为本申请实施例的RPN网络的生成规则示意图；

图6是本申请实施例的基于运动加速度的图像搜索系统的结构示意图；

图7是本申请实施例提供的基于运动加速度的图像搜索方法的硬件设备结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

请参阅图1，是本申请实施例的基于运动加速度的图像搜索方法的流程图。本申请实施例的基于运动加速度的图像搜索方法包括以下步骤：

步骤100：在视频开始的第一帧图像中标记出待追踪目标的位置；

步骤200：根据前两帧图像的位移计算出待追踪目标在当前帧图像中的加速度及其可能的方向；

步骤200中，如图2所示，其中，图2(a)为待追踪目标在第i帧的目标画面，图2(b)为待追踪目标在第(i+1)帧的目标画面。将该图的目标追踪过程抽象为数学形式，即可表示为图3所示，为同一拍摄画面下(摄像头固定不动)的加速度计算方式。本申请实施例中，加速度同样和物理学中的加速度保持一样的性质，均为矢量单位，既有速度也有方向。加速度计算公式具体为：

可以理解，本申请不仅限于根据连续的前两帧图像位移来确定第三帧的加速度，还可以采用离散间隔的帧或任意时刻两帧图片中的目标位移进行当前帧的加速度计算。

步骤300：根据加速度和方向计算结果确定待追踪目标在当前帧图像中的搜索范围矩形框；

步骤300中，搜索范围矩形框计算方式具体为：将第i+1帧中待追踪目标的中心位置作为搜索范围矩形框对角线的交点，定义

公式(2)、(3)确定了i+2帧起始搜索的左下原点位置，则i+2帧的搜索范围矩形框的起始点为

搜索范围矩形框长宽分别为：

width _i+2＝2*width _i+1,height _i+2＝2*height _i+2 (4)

将上述过程绘制成如图4所示，即为i+2帧搜索范围矩形框示意图。如图所示，i+2帧的实际检测范围由传统算法的整张图片变为了右上方图片中方框内的矩形框(为清晰显示，i+2帧的图片尺寸做了放大，实际上整张图片尺寸一直不变，变的只有搜索范围矩形框)，从而减少目标搜索的计算量。

可以理解，因为全等四边形的中心和四个点均能确定唯一的矩形框，因此无论是通过坐标原点还是通过前一帧的四个边界顶点都可以确定下一帧的起始搜索原点。

步骤400：通过RPN网络沿搜索范围矩形框的对角线按照设定的间隔距离取三个点，并分别按照三种长宽比提取到待追踪目标在当前帧图像中的9个候选框；

步骤400中，现有的检测方式为在整张图像中，先对图像每一个选出的中心位置分别进行原始尺寸不变、0.5缩放原始图片、2倍扩大原始图像的操作，继而在这三种图像的尺寸上进行长宽比分别为1:1、1:2、2:1的改变。所以每一个中心点位置可以找到3*3种候选框进行选择。该方式生成的冗余候选框比较多，为了节省计算力并且提升速度，本申请不再采用三种尺度的候选框，即不再进行原始图片的原始尺寸不变、0.5缩放原始图片、2倍扩大原始图片的操作，而是采用沿搜索范围矩形框对角线上三个点进行候选框的选定。

步骤500：对9个候选框进行特征分析，得到待追踪目标在当前帧图像中的位置。

具体请参阅图5，为本申请实施例的候选框生成规则示意图。图5中的九个框即为生成的待追踪目标的候选框。这九个框都是将固定大小的候选框统一放大1.25倍后再按照三种不同的长宽比提取得到的。图5中的D即为搜索范围矩形框的斜对角线直径长，在斜对角线上分别按照0.25、0.5、0.75的间隔距离取得三个点，然后分别按照1:1、1:2、2:1的三种长宽尺度比进行再次缩放，从而得到九个候选框。现有的RPN网络是在全部的图片上进行N个中心点的9N个候选框检测和对比，而本申请只需要在确定搜索范围矩形框后进行9个候选框的检测，极大地缩小了检索范围。可以理解，斜对角线上取点的间隔距离以及缩放长宽尺度比等参数都可以根据实际操作进行设定。

另外，如果候选框缩放后超过了搜索范围矩形框，则在这一步保留上一帧图片这个位置的像素值或者特征值，直到选出的候选框能够准确捕捉到所有搜索范围矩形框。

请参阅图6，是本申请实施例的基于运动加速度的图像搜索系统的结构示意图。本申请实施例的基于运动加速度的图像搜索系统包括位置标记模块、加速度计算模块、搜索范围计算模块、候选框提取模块和目标检索模块。

位置标记模块：用于在视频开始的第一帧图像中标记出待追踪目标的位置；

加速度计算模块：用于根据前两帧图像的位移计算出待追踪目标在当前帧图像中的加速度及其可能的方向；具体的，如图2所示，其中，图2(a)为待追踪目标在第i帧的目标画面，图2(b)为待追踪目标在第(i+1)帧的目标画面。将该图的目标追踪过程抽象为数学形式，即可表示为图3所示，为同一拍摄画面下(摄像头固定不动)的加速度计算方式。本申请实施例中，加速度同样和物理学中的加速度保持一样的性质，均为矢量单位，既有速度也有方向。加速度计算公式具体为：

可以理解，本申请不仅限于根据图像前两帧位移来确定第三帧的加速度，还可以采用离散间隔的帧或任意时刻两帧图片中的目标位移进行加速度计算。

搜索范围计算模块：用于根据加速度和方向计算结果确定待追踪目标在当前帧图像中的搜索范围矩形框；其中，搜索范围矩形框计算方式具体为：将第i+1帧中待追踪目标的中心位置作为搜索范围矩形框对角线的交点，定义

矩形框长宽分别为：

width _i+2＝2*width _i+1,height _i+2＝2*height _i+2 (4)

将上述过程绘制成如图4所示，即为i+2帧搜索范围矩形框示意图。如图所示，i+2帧的实际检测范围由传统算法的整张图片变为了右上方图片中方框内的搜索范围矩形框(为清晰显示，i+2帧的图片尺寸做了放大，实际上整张图片尺寸一直不变，变的只有搜索范围矩形框)，从而减少目标搜索的计算量。

候选框提取模块：用于通过RPN网络沿搜索范围矩形框对角线按照设定的间隔距离取三个点，并分别按照三种长宽比提取到待追踪目标在当前帧图像中的9个候选框；其中，为了节省计算力并且提升速度，本申请不再采用三种尺度的候选框，即不再进行原始图片的原始尺寸不变、0.5缩放原始图片、2倍扩大原始图片的操作，而是采用沿搜索范围矩形框对角线上三个点进行候选框的选定。

具体请参阅图5，为本申请实施例的RPN网络的生成规则示意图。图中的九个框即为生成的待追踪目标的候选框。这九个框都是将固定大小的候选框统一放大1.25倍后再按照三种不同的长宽比提取得到的。图4中的D即为搜索范围矩形框的斜对角线直径长，在斜对角线上分别按照0.25、0.5、0.75的间隔距离取得三个点，然后分别按照1:1、1:2、2:1的三种长宽尺度比进行再次缩放，从而得到九个候选框。现有的RPN网络是在全部的图片上进行N个中心点的9N个候选框检测和对比，而本申请只需要在确定搜索范围矩形框后进行9个候选框的检测，极大地缩小了检索范围。可以理解，斜对角线上取点的间隔距离以及缩放长宽尺度比等参数都可以根据实际操作进行设定。

目标检索模块：用于对9个候选框进行特征分析，得到待追踪目标在当前帧图像中的位置。

图7是本申请实施例提供的基于运动加速度的图像搜索方法的硬件设备结构示意图。如图7所示，该设备包括一个或多个处理器以及存储器。以一个处理器为例，该设备还可以包括：输入系统和输出系统。

处理器、存储器、输入系统和输出系统可以通过总线或者其他方式连接，图7中以通过总线连接为例。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述方法实施例的处理方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理系统。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入系统可接收输入的数字或字符信息，以及产生信号输入。输出系统可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器中，当被所述一个或者多个处理器执行时，执行上述任一方法实施例的以下操作：

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例提供的方法。

本申请实施例提供了一种非暂态(非易失性)计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行以下操作：

本申请实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行以下操作：

本申请实施例的基于运动加速度的图像搜索方法、系统及电子设备利用加速度计算方式确定的一个有限的搜索范围矩形框，并沿搜索范围矩形框对角线上三个点进行追踪目标的候选框选定，从而确定了一个更小的检索范围，相对于现有技术，本申请无需进行全局检索，大大缩小了搜索范围从而减少了计算量，提高了计算速度。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

一种基于运动加速度的图像搜索方法，其特征在于，包括以下步骤：

步骤a：根据前两帧图像的位移计算出待追踪目标在当前帧图像中的加速度；

步骤b：根据所述加速度计算结果确定待追踪目标在当前帧图像中的搜索范围矩形框；

步骤c：通过RPN网络沿所述搜索范围矩形框的对角线提取待追踪目标在当前帧图像中的候选框，并对所述候选框进行特征分析，得到所述待追踪目标在当前帧图像中的位置。
根据权利要求1所述的基于运动加速度的图像搜索方法，其特征在于，在所述步骤a中，所述加速度为矢量单位，既有速度也有方向，所述加速度计算公式为：
根据权利要求2所述的基于运动加速度的图像搜索方法，其特征在于，在所述步骤b中，所述根据加速度计算结果确定待追踪目标在当前帧图像中的搜索范围矩形框具体包括：将第i+1帧图像中待追踪目标的中心位置作为搜索范围矩形框对角线的交点，定义
分别表示待追踪目标的中心位置的横、纵坐标，定义下一帧即i+2帧的起始搜索原点为：

则i+2帧的搜索范围矩形框的起始点为
搜索范围矩形框的长宽分别为：

width _i+2＝2*width _i+1,height _i+2＝2*height _i+2。
根据权利要求3所述的基于运动加速度的图像搜索方法，其特征在于，在所述步骤c中，所述通过RPN网络沿搜索范围矩形框的对角线提取待追踪目标在当前帧图像中的候选框具体为：在所述搜索范围矩形框的斜对角线上分别按照预设的间隔距离取得三个点，然后分别按照设定的三种长宽尺度比进行再次缩放，得到九个候选框。
根据权利要求1至4任一项所述的基于运动加速度的图像搜索方法，其特征在于，所述步骤a中，所述前两帧图像具体为连续的两帧图像、离散间隔的两帧图像或任意时刻的两帧图像。
一种基于运动加速度的图像搜索系统，其特征在于，包括：

加速度计算模块：用于根据前两帧图像的位移计算出待追踪目标在当前帧图像中的加速度；

搜索范围计算模块：用于根据所述加速度计算结果确定待追踪目标在当前帧图像中的搜索范围矩形框；

候选框提取模块：用于通过RPN网络沿所述搜索范围矩形框的对角线提取待追踪目标在当前帧图像中的候选框；

目标检索模块：用于对所述候选框进行特征分析，得到所述待追踪目标在当前帧图像中的位置。
根据权利要求6所述的基于运动加速度的图像搜索系统，其特征在于，所述加速度为矢量单位，既有速度也有方向，所述加速度计算公式为：
根据权利要求7所述的基于运动加速度的图像搜索系统，其特征在于，所述搜索范围计算模块根据加速度计算结果确定待追踪目标在当前帧图像中的搜索范围矩形框具体包括：将第i+1帧图像中待追踪目标的中心位置作为搜索范围矩形框对角线的交点，定义
分别表示待追踪目标的中心位置的横、纵坐标，定义下一帧即i+2帧的起始搜索原点为：

则i+2帧的搜索范围矩形框的起始点为
搜索范围矩形框的长宽分别为：

width _i+2＝2*width _i+1,height _i+2＝2*height _i+2。
根据权利要求8所述的基于运动加速度的图像搜索系统，其特征在于，所述候选框提取模块通过RPN网络沿搜索范围矩形框的对角线提取待追踪目标在当前帧图像中的候选框具体为：在所述搜索范围矩形框的斜对角线上分别按照预设的间隔距离取得三个点，然后分别按照设定的三种长宽尺度比进行再次缩放，得到九个候选框。
根据权利要求6至9任一项所述的基于运动加速度的图像搜索系统，其特征在于，所述前两帧图像具体为连续的两帧图像、离散间隔的两帧图像或任意时刻的两帧图像。
一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述1至5任一项所述的基于运动加速度的图像搜索方法的以下操作：

步骤a：根据前两帧图像的位移计算出待追踪目标在当前帧图像中的加速度；

步骤b：根据所述加速度计算结果确定待追踪目标在当前帧图像中的搜索范围矩形框；

步骤c：通过RPN网络沿所述搜索范围矩形框的对角线提取待追踪目标在当前帧图像中的候选框，并对所述候选框进行特征分析，得到所述待追踪目标在当前帧图像中的位置。