WO2022193990A1

WO2022193990A1 - 检测跟踪方法、装置、设备、存储介质及计算机程序产品

Info

Publication number: WO2022193990A1
Application number: PCT/CN2022/079697
Authority: WO
Inventors: 毛曙源
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2021-03-17
Filing date: 2022-03-08
Publication date: 2022-09-22
Also published as: US20230047514A1; CN113706576A

Abstract

本申请公开了一种检测跟踪方法、装置、设备、存储介质及计算机程序产品，属于视频处理领域。所述方法包括：对视频帧序列进行特征点分析，得到视频帧序列中每帧视频帧上的特征点；通过第一线程基于特征点对抽取帧进行目标检测，得到抽取帧中的目标框，抽取帧是采用目标步长在视频帧序列中抽取的视频帧；通过第二线程基于特征点和所述抽取帧中的目标框，在当前帧中进行目标框跟踪，得到当前帧中的目标框；输出当前帧中的目标框。上述方法将目标检测和目标跟踪分为两个线程操作，其中，检测算法并不会影响跟踪帧率，即使检测线程耗费时间较长，终端也能输出每帧视频帧的目标框，该方法能实时输出视频帧的目标框，提高目标检测跟踪的实时性和稳定性。

Description

检测跟踪方法、装置、设备、存储介质及计算机程序产品

相关申请的交叉引用

本申请基于申请号为202110287909.X、申请日为2021年03月17日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本申请涉及视频处理领域，涉及但不限于一种检测跟踪方法、装置、设备、存储介质及计算机程序产品。

背景技术

为了实现对视频流的实时分析，需要在视频帧中检测和跟踪特定类别的物体(比如运动人体)，并且实时输出物体的包围框和类别。

相关技术中采取对视频流的每一视频帧都进行检测的方法，即通过在每一个视频帧中检测出物体的包围框，将相邻视频帧的物体的包围框按照类别进行匹配关联。

但是对每一视频帧都进行检测往往耗时严重，难以保证实时输出物体的包围框和类别。

发明内容

本申请实施例提供了一种检测跟踪方法、装置、设备、存储介质及计算机程序产品，能够提高对目标检测跟踪的实时性和稳定性。所述技术方案如下：

本申请实施例提供一种检测跟踪方法，该方法由电子设备执行，方法包括：

对视频帧序列进行特征点分析，得到视频帧序列中每帧视频帧上的特征点；

通过第一线程基于特征点对抽取帧进行目标检测，得到抽取帧中的目标框，抽取帧是采用目标步长在视频帧序列中抽取的视频帧；

通过第二线程基于特征点和抽取帧中的目标框，在当前帧中进行目标框跟踪，得到当前帧中的目标框；

输出当前帧中的目标框。

本申请实施例提供一种检测跟踪装置，该装置包括：

分析模块，配置为对视频帧序列进行特征点分析，得到视频帧序列中每帧视频帧上的特征点；

检测模块，配置为通过第一线程基于特征点对抽取帧进行目标检测，得到抽取帧中的目标框，抽取帧是采用目标步长在视频帧序列中抽取的视频帧；

跟踪模块，配置为通过第二线程基于特征点和抽取帧中的目标框，在当前帧中进行目标框跟踪，得到当前帧中的目标框；

输出模块，配置为输出当前帧中的目标框。

本申请实施例提供一种计算机设备，该所述计算机设备包括：处理器和存储器，所述存储器存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如上所述的检测跟踪方法。

本申请实施例提供一种计算机可读存储介质，该存储介质存储有计算机程序，该计算机程序由处理器加载并执行以实现如上的检测跟踪方法。

本申请实施例提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述检测跟踪方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过对视频帧序列进行特征点分析得到每帧视频帧的特征点序列，然后分别通过第一线程和第二线程，对抽取帧进行目标检测和对当前帧进行目标跟踪，最终得到每帧的目标框。上述方法将目标检测和目标跟踪分为两个线程操作，其中，检测算法并不会影响跟踪帧率，即使检测线程耗费时间较长，终端也能输出每帧视频帧的目标框，且目标检测过程是针对抽取帧实现的，无需对每一视频帧都进行检测，从而能够降低检测过程的耗时，进而能够实时输出视频帧的目标框，提高目标检测跟踪的实时性和稳定性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一示例性实施例提供的多目标检测跟踪系统的示意图；

图2是本申请一个示例性实施例提供的检测跟踪方法的流程图；

图3是本申请一个示例性实施例提供的目标框的示意图；

图4是本申请一个示例性实施例提供的多目标实时检测系统的时序关系示意图；

图5是本申请另一个示例性实施例提供的检测跟踪方法的流程图；

图6是本申请另一个示例性实施例提供的检测跟踪方法的流程图；

图7是本申请一个示例性实施例提供的第三线程的流程图；

图8是本申请一个示例性实施例提供的第二线程的流程图；

图9是本申请一个示例性实施例提供的视频帧的示意图；

图10是本申请另一个示例性实施例提供的视频帧的示意图；

图11是本申请另一个示例性实施例提供的视频帧的示意图；

图12是本申请一个示例性实施例提供的检测跟踪装置的结构框图；

图13示出了本申请一个示例性实施例提供的电子设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请实施例中涉及的名词进行简单介绍：

检测跟踪：目标检测指在图像和视频(一系列的图像)中扫描和搜寻目标，即在一个场景中对目标进行定位和识别。目标跟踪指在视频中对目标的运动特征进行跟踪，并不对跟踪目标进行识别，故针对图像的检测跟踪可以广泛的应用于计算机视觉中的目标识别与追踪，例如，可以应用在自动驾驶场景下的目标检测和追踪。

第一线程：指检测线程，通过对输入的视频帧进行检测，输出检测到的物体目标框和类别。在一些实施例中，响应于输入视频帧，通过目标检测算法对视频帧中的物体进行检测，并输出物体的目标框和类别。示例性的，可以采用One-Stage(一种目标检测方法)算法、Two-Stage(一种目标检测方法)算法或Anchor-free(一种目标检测方法)算法对视频帧进行检测。

第二线程：指跟踪线程，通过目标特征点的匹配对实现目标框的跟踪。在一些实施例中，上一帧的目标框包含特征点x1、x2、x3，其在上一帧的坐标分别为a、b、c，特征点x1、x2、x3在当前帧中的坐标分别为a’、b’、c’，通过计算a、b、c和a’、b’、c’的位移和尺度，计算当前帧目标框和上一帧目标框的位移和尺度，因此得到当前帧的目标框。

第三线程：指运动分析线程，通过对初始帧进行特征点提取，并通过跟踪输出每帧视频帧的特征点。在一些实施例中，可以采用角点检测算法(例如Harris算法)、加速分段特征点测试算法(FAST，Features From Accelerated Segment Test)或特征点跟踪算法(GFTT，Good Feature To Tracker)进行特征点提取。在一些实施例中，可以采用光流跟踪算法实现对当前帧的上一帧的特征点跟踪，示例性的，可以采用光流跟踪算法(例如Lucas-Kanade算法)实现对当前帧的上一帧的特征点跟踪。

图1示出了本申请一个示例性实施例的多目标检测跟踪系统的结构框图。该多目标检测跟踪系统上设置有三个处理线程，第一线程121用于检测抽取帧的目标，得到抽取帧的检测目标框；第二线程122用于跟踪当前帧的上一帧中目标框的运动轨迹，并结合抽取帧的检测目标框，得到当前帧的目标框；第三线程123用于对初始帧进行特征点提取，得到初始帧上的特征点，并对当前帧的上一帧的特征点进行跟踪，得到当前帧(每一帧)的特征点。

响应于将每帧视频帧输入第三线程123，进行特征点提取和跟踪，得到包含特征点的每帧视频帧，将每帧视频帧输入第二线程122。

响应于将抽取帧输入第一线程121，对抽取帧进行方向调整，检测调整后的抽取帧，得到抽取帧的检测目标框，并将检测目标框输入第二线程122。

基于第二线程122输入包含特征点的每帧视频帧，且上一帧存在目标框，第二线程122得到基于上一帧的当前帧的跟踪目标框。

在第二线程122未收到第一线程121输入的最近一个抽取帧的检测目标框时，将上述第二线程122得到的当前帧的跟踪目标框作为当前帧的目标框，输出当前帧的目标框；

在第二线程122收到第一线程121输入的最近一个抽取帧的检测目标框时，得到检测目标框在当前帧的跟踪目标框，将上述检测目标框在当前帧的跟踪目标框和上一帧的跟踪目标框进行重复框合并，得到当前帧的目标框，输出当前帧的目标框。

在一些实施例中，上述多目标检测跟踪系统可以至少运行在电子设备上，电子设备可以是服务器或服务器群组，也可以是终端。也就是说，上述多目标检测跟踪系统可以至少运行在终端上，或运行在服务器上，或运行在终端和服务器上。本申请实施例的检测跟踪方法可以由终端来实现，也可以由服务器或服务器群组来实现，还可以由终端和服务器共同交互实现。

上述检测目标框和跟踪目标框，可以简称为目标框。

本领域技术人员可以知晓，上述终端和服务器的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量。上述服务器可以仅为一个，或者上述服务器为几十个或几百个，或者更多数量。本申请实施例对终端的数量和设备类型、服务器的数量不加以限定。

下述实施例以多目标实时检测跟踪系统应用于终端为例，进行解释说明。

为实现对多目标的实时检测跟踪，采取如图2所示的方法。

图2示出了本申请一个示例性实施例的检测跟踪方法，以该方法应用于图1所示的多目标检测跟踪系统举例说明，该方法包括：

步骤220，对视频帧序列进行特征点分析，得到视频帧序列中每帧视频帧上的特征点。

本申请实施例中，响应于输入视频帧序列，终端对视频帧序列进行特征点分析，得到视频帧序列中每帧视频帧上的特征点。特征点指视频帧中具有鲜明特性、能够有效反映视频帧本质特征的像素点，并且，特征点能够标识视频帧中的目标物体。在一些实施例中，通过对不同的特征点进行匹配，能够完成对目标物体的匹配，即对目标物体进行识别和分类。

在一些实施例中，特征点是由算法分析得到的含有丰富局部信息的点，例如，特征点存在于图像的拐角、纹理剧烈变化的区域。值得注意的是，特征点具有尺度不变性，即在不同图片中能够被识别出来的统一性质。

特征点分析指通过对输入的视频帧进行特征点提取和特征点跟踪。在本申请实施例中，响应于输入视频帧序列，终端对初始帧进行特征点提取，并通过特征点跟踪得到下一帧的跟踪特征点，依次跟踪得到所有视频帧的特征点。

在一些实施例中，可以采用Harris进行特征点提取，即通过对初始视频帧中设置一个固定窗口，使用该窗口在图像上进行任意方向上的滑动，比较滑动前与滑动后两种情况下，窗口中的像素点的灰度变化程度。如果存在任意方向上的滑动，像素点的灰度变化程度大于灰度变化阈值，或者，在多个像素点中，任一像素点的灰度变化程度大于该多个像素点中的每一像素点的灰度变化程度，则确定该像素点为特征点。

在一些实施例中，可以采用特征点提取算法(例如FAST-9算法)进行特征点提取，即通过对初始视频帧上的每个像素点进行检测，当像素点满足特定条件时，即认定该像素点为特征点，这里的特定条件至少包括：确定与像素点之间像素差的绝对值超过像素差阈值的目标相邻像素点的数量，并判断该是否大于或等于数量阈值，当该数量大于或等于数量阈值时则符合特定条件。举例来说，在一个以像素点P为圆心，半径为3的圆上存在16个像素点，计算圆周上下左右四个像素点(即像素点P的目标相邻像素点)与像素点P的像素差，假设数量阈值为3，若四个像素差的绝对值中有至少三个超过像素差阈值，则进入下一步判断，否则认定像素点P不是特征点；基于对像素点P的下一步判断，计算上述圆周的16个像素点与P的像素差，若这16个像素差中至少存在9个像素差的绝对值超过像素差阈值，则认定像素点P是特征点

在一些实施例中，采用Lucas-Kanade光流算法实现对上一帧特征点的跟踪。

步骤240，通过第一线程基于特征点对抽取帧进行目标检测，得到抽取帧中的目标框。

抽取帧是采用目标步长在视频帧序列中抽取的视频帧；目标步长是对视频帧序列进行抽取的帧间隔，如目标步长为2，即每两个视频帧抽取一个视频帧。在一些实施例中，目标步长为固定值，如以目标步长为2对视频帧序列进行抽取；在一些实施例中，目标步长可以是一个变量，也就是说，目标步长存在多种可能，如抽取第0帧、第3帧、第7帧、第12帧，上述第二次抽取与第一次抽取的目标步长为3，第三次抽取与第二次抽取的目标步长为4，第四次抽取与第三次抽取的目标步长为5。

在一些实施例中，目标步长可以依据检测算法的耗时进行设置。如，对每一个视频帧进行检测，需要三帧的时长，则终端将目标步长设置为3。

在一些实施例中，可以采用步长为3对视频帧序列进行抽取。第一线程用于检测抽取帧的目标，得到抽取帧的检测目标框。示意性的，可以采用One-Stage算法、Two-Stage算法或Anchor-free算法对视频帧进行检测。

例如，检测算法耗时往往大于1帧，即无法对每帧视频帧都进行检测，基于此本申请实施例提供的技术方案对视频帧序列进行多线程检测跟踪。

目标框用于标识物体。在一些实施例中，目标框表示为物体的包围框，并在包围框内显示物体的类别信息。示意性的，如图3所示，图3中示出了手机的目标框301、橙子的目标框302、鼠标的目标框303和水杯的目标框304，在这四个目标框中，不仅包括物体的包围框，在包围框内还显示物体的名称。在一些实施例中，目标框表现为物体的贴图，即在物体周围添加贴图，以增加视频帧的趣味性。在本申请实施例中，对目标框的种类不加以限定。

在本申请实施例中，目标框包括跟踪目标框和检测目标框。其中，跟踪目标框指基于对上一帧的目标框进行跟踪，得到的目标框；检测目标框指基于对视频帧进行检测，得到的目标框。

步骤260，通过第二线程基于特征点和抽取帧中的目标框，在当前帧中进行目标框跟踪，得到当前帧中的目标框。

为论述第二线程的作用，首先介绍该多目标实时检测系统的时序关系。示意性的，图4示出了本申请一个示例性实施例的多目标实时检测系统的时序关系示意图。图4中显示，视频帧跟踪的时长小于视频帧采集(即图4中所示的图像采集)的间隔，且对每帧视频帧均执行跟踪操作，而检测帧率(即图4中所示的视频帧检测)较低，无法对每帧视频帧均执行图像检测，进而采取对抽取帧进行图像检测，图4中抽取的步长为3。当跟踪线程处理完第2帧视频帧时，第0帧视频帧的检测刚刚完成，此时需要将第0帧检测得到的目标框“转移”到第2帧从而与第2帧的跟踪框进行融合，相当于再做一次第0帧到第2帧的跟踪。

在一些实施例中，通过第二线程基于特征点和抽取帧中的目标框，在当前帧中进行目标框跟踪，得到当前帧中的目标框，分为以下两种情况：

第一种、在第一线程未输出有第一目标框的情况下，通过第二线程基于特征点在当前帧中对第二目标框进行跟踪，得到当前帧中的目标框；其中，第一目标框是视频帧序列中位于当前帧的最近一个抽取帧中检测到的目标框，第二目标框是当前帧的上一帧中跟踪到的目标框。例如，当前帧的上一帧中不存在目标框时，则当前帧也不存在基于上一帧目标框得到的跟踪目标框。

结合参考图4，在当前输入的视频帧为第1帧时，第一线程未输出第0帧的检测框，此时第二线程基于第0帧的特征点和第1帧的特征点，对第0帧中的目标框进行跟踪，得到第1帧的跟踪目标框，此时，该跟踪目标框即为第1帧的目标框。

值得注意的是，当第0帧为初始帧时，第0帧上不存在目标框，因此第1帧也不存在基于第0帧得到的跟踪目标框。当第0帧不为初始帧时，第0帧上的目标框是基于第0帧的上一帧目标框跟踪得到的。

在一些实施例中，上述基于第0帧的特征点和第1帧的特征点，对第0帧中的目标框进行跟踪，得到第1帧的跟踪目标框，可由下述方法得到：首先，获取当前帧的跟踪特征点和当前帧的上一帧的目标特征点；然后，通过第二线程将当前帧的跟踪特征点和上一帧的目标特征点组成多组特征点匹配对，目标特征点是位于第二目标框中的特征点；确定多组特征点匹配对的多组特征点偏移向量；这里，可以通过计算得到多组特征点匹配对的多组特征点偏移向量；再然后，基于多组特征点偏移向量，计算得到第二目标框的目标框偏移向量；最后，根据目标框偏移向量对第二目标框进行偏移，得到当前帧中的目标框。

示意性的，第0帧的目标特征点为x1、x2、x3，其在第0帧的坐标分别为a、b、c，特征点x1、x2、x3在第1帧中对应的跟踪特征点为x1’、x2’、x3’，其在第1帧的坐标分别为a’、b’、c’，上述特征点x1、x1’组成特征点匹配对，x2、x2’组成特征点匹配对，x3、x3’组成特征点匹配对，得到多组特征点偏移向量为(a，a’)、(b，b’)、(c，c’)。假设第0帧的目标框的坐标表示为m。

在一些实施例中，目标框偏移向量为多组特征点偏移向量的平均向量，则第1帧的目标框坐标为m+((a，a’)+(b，b’)+(c，c’))/3。

在一些实施例中，目标框偏移向量为多组特征点偏移向量的加权向量，示意性的，偏移向量(a，a’)的权重为0.2，偏移向量(b，b’)的权重为0.4，偏移向量(c，c’)的权重为0.4，则第1帧的目标框坐标为m+(0.2(a，a’)+0.4(b，b’)+0.4(c，c’))。

第二种、在第一线程输出有第一目标框的情况下，通过第二线程基于特征点在当前帧中对第一目标框和第二目标框进行跟踪，得到当前帧中的目标框；其中，第一目标框是视频帧序列中位于当前帧的最近一个抽取帧中检测到的目标框，第二目标框是当前帧的上一帧中跟踪到的目标框。

在一些实施例中，上述方法包括以下步骤：通过第二线程基于特征点在当前帧中对第一目标框进行跟踪，得到第一跟踪框；通过第二线程基于特征点在当前帧中对第二目标框进行跟踪，得到第二跟踪框；将第一跟踪框和第二跟踪框中的重复框进行合并，得到当前帧中的目标框。

结合参考图4，当前帧为第2帧时，第一线程输出有第0帧的检测目标框，通过第二线程对第0帧的检测目标框进行跟踪，得到第一跟踪框，通过第二线程基于特征点在第2帧中对第1帧的目标框进行跟踪，得到第二跟踪框，将第一跟踪框和第二跟踪框中的重复框进行合并，得到第2帧中的目标框。

上述基于特征点实现目标框的跟踪在上文已进行说明，在此不再赘述。

步骤280，输出当前帧中的目标框。

通过上述步骤，终端得到当前帧的目标框并完成当前帧目标框的输出。

综上所述，上述方法将检测和跟踪分为两个线程操作，其中，检测算法并不会影响跟踪帧率，即使检测线程耗费时间较长，终端也能输出每帧视频帧的目标框，该方法不仅能实时输出视频帧的目标框，且实时输出的延时并不会随目标框个数增加而显著增加。并且，目标检测过程是针对抽取帧实现的，无需对每一视频帧都进行检测，从而能够降低检测过程的耗时，进而能够实时输出视频帧的目标框，提高目标检测跟踪的实时性和稳定性。

为实现对重复框的判断，图5示出了本申请一个示例性实施例的检测跟踪方法，其中步骤220，步骤240，步骤260，步骤280在上述已有说明，在此不再赘述。其中，步骤260中将第一跟踪框和第二跟踪框中的重复框进行合并，得到当前帧中的目标框之前，还包括以下步骤：

步骤250-1，基于第一跟踪框和第二跟踪框的并交比(IoU，Intersection over Union)大于IoU阈值，确定第一跟踪框和第二跟踪框存在重复框。

本申请实施例中，通过第二线程基于特征点在当前帧中对第一目标框进行跟踪得到第一跟踪框，通过第二线程基于特征点在当前帧中对第二目标框进行跟踪，得到第二跟踪框。

IoU是在特定数据集中检测相应物体准确度的一个标准，在本申请实施例中，这个标准用于测量跟踪目标框和检测目标框之间的相关度，相关度越高，该值越高。示意性的，跟踪目标框所在区域为S1，检测目标框所在区域为S2，S1与S2的交集为S3，S1与S2组成区域S4，则IoU为S3/S4。

在一些实施例中，计算第一跟踪框和第二跟踪框在当前帧的IoU，终端预先存储有并交比阈值，示意性的，该IoU阈值为0.5，当第一跟踪框和第二跟踪框在当前帧的IoU大于0.5时，即确定第一跟踪框和第二跟踪框存在重复框；若第一跟踪框和第二跟踪框在当前帧的IoU不大于0.5时，即确定第一跟踪框和第二跟踪框不存在重复框。

本申请实施例中，无论第一跟踪框和第二跟踪框的类别是否相同，都可以认为第一跟踪框和第二跟踪框存在重复框。

步骤250-2，基于第一跟踪框和第二跟踪框的IoU大于IoU阈值，且，第一跟踪框和第二跟踪框的类别相同，确定第一跟踪框和第二跟踪框存在重复框。

在一些实施例中，当第一跟踪框和第二跟踪框在当前帧的IoU大于IoU 阈值0.5时，且，第一跟踪框和第二跟踪框中物体为同一类别时，即确定第一跟踪框和第二跟踪框存在重复框。

上述步骤250-1和步骤250-2为并列步骤，即，仅执行步骤250-1或仅执行步骤250-2，即可完成对重复框的判断。

基于图2的可选实施例中，执行步骤260中重复框合并存在以下至少一种方法：

方法一：响应于第一跟踪框和第二跟踪框存在重复框，将第一跟踪框确定为当前帧的目标框；

基于上述步骤250-1和步骤250-2完成对第一跟踪框和第二跟踪框存在重复框的判断，将第一跟踪框确定为当前帧的目标框。

方法二：响应于第一跟踪框和第二跟踪框存在重复框，将第一跟踪框和第二跟踪框中置信度最高的跟踪框确定为当前帧的目标框；

基于上述步骤250-1和步骤250-2完成对第一跟踪框和第二跟踪框存在重复框的判断，将第一跟踪框和第二跟踪框中置信度最高的一个跟踪框确定为当前帧的目标框。

在一些实施例中，采用目标检测算法输出目标框的置信度评分，终端删除评分低于置信度阈值的目标框，并将置信度大于或等于置信度阈值的跟踪框作为当前帧的目标框。

方法三：响应于第一跟踪框和第二跟踪框存在重复框，且第一跟踪框处于当前帧的边界，将第二跟踪框确定为当前帧的目标框。

基于上述步骤250-1和步骤250-2完成对第一跟踪框和第二跟踪框存在重复框的判断，当第一跟踪框处于当前帧的边界时，确定第二跟踪框为当前帧的目标框。

在一些实施例中，当目标框表现为物体的包围框时，当检测相邻抽取帧得到的检测目标框无法完全包围整个物体时，即，在相邻抽取帧中物体无法完全显示时，确定第二跟踪框为当前帧的目标框。

上述方法一、二和三为并列方法，即，仅执行方法一、仅执行方法二或仅执行方法三，都可完成对重复框的合并。

综上所述，上述方法实现了对当前帧中是否存在重复框的判断和进行了重复框的合并，保证了当前帧的目标框彼此清晰有序，避免当前帧中重复出现作用相同的目标框。

为实现对特征点的提取和跟踪，图6示出了本申请一个示例性实施例的检测跟踪方法，其中步骤240、步骤260、步骤280在上述已有说明，不再赘述。

步骤221，通过第三线程对视频帧序列中的初始帧进行特征点提取，得到初始帧的特征点；

在一些实施例中，结合参考图1，响应于终端输入视频帧序列，首先通过第三线程123对初始帧进行特征点提取。

步骤222，通过第三线程基于初始帧的特征点，对视频帧序列中的第i帧进行特征点跟踪，得到视频帧序列中的第i帧的特征点；第i帧为位于初始帧之后的视频帧，i的起始编号为初始帧的帧号加一，i为正整数。

在一些实施例中，结合参考图1，响应于终端通过第三线程123对初始帧的特征点进行特征点跟踪，可得到第i帧的特征点，其中第i帧为位于初始帧之后的视频帧，i的起始编号为初始帧的帧号加一。值得注意的是，第三线程123只对初始帧进行特征点提取，并不对第i帧视频帧进行特征点提取。

步骤223，通过第三线程基于第i帧的特征点，对视频帧序列中的第i+1帧进行特征点跟踪，得到视频帧序列中的第i+1帧的特征点。

在一些实施例中，结合参考图1，响应于终端通过第三线程123对第i帧的特征点进行特征点跟踪，得到视频帧序列中的第i+1帧的特征点。

示意性的，通过第三线程对所述第i帧的特征点进行光流跟踪，得到所述视频帧序列中的第i+1帧的特征点，例如，可以采用Lucas-Kanade光流算法实现对上一帧特征点的跟踪。

通过上述步骤221至步骤223，即可实现对视频帧序列特征点的提取和跟踪。在一些实施例中，通过第三线程基于第i帧的特征点进行特征点跟踪，得到视频帧序列中的第i+1帧的特征点，还包括对第i+1帧特征点的删除和补充。

对第i+1帧特征点的删除：响应于第i+1帧中的第一特征点满足删除条件，删除第i+1帧中的第一特征点；其中，删除条件包括如下至少之一：

(1)第一特征点是跟踪失败的特征点。

在一些实施例中，通过第三线程基于第i帧的特征点进行特征点跟踪，得到视频帧序列中的第i+1帧的第一特征点，第一特征点是在第i帧中无法找到能与之构成特征点匹配对的特征点，即为跟踪失败的特征点。

(2)第一特征点与相邻特征点的距离小于距离阈值。

在一些实施例中，响应于第i+1帧的第一特征点与相邻特征点的距离小于距离阈值D，终端删除第i+1帧中的第一特征点。示意性的，距离阈值D视计算量和图像大小选取，如距离阈值D的取值范围为5至20。

对第i+1帧特征点的补充：响应于第i+1帧中的目标区域满足补点条件，从目标区域中提取新增特征点；其中，补点条件包括：目标区域是特征点跟踪结果为空的区域。

在一些实施例中，第i帧的目标区域内存在50个特征点，通过特征点跟踪，第i+1帧的目标区域内存在20个特征点，此时判断第i+1帧的特征点跟踪结果为空，此时进行从目标区域中提取新增特征点的操作，提取方法可以参考步骤220。

示意性的，第i帧的目标区域为“手机”区域，即通过50个特征点可对“手机”添加目标框，当第i+1帧的“手机”区域中仅存在20个特征点时，此时终端无法对手机添加目标框，此时需从“手机”区域中提取新增特征点，终端才可对手机添加目标框。值得注意的是，上述第三线程并不对“手机”区域添加目标框，仅表示终端存在对手机添加目标框的可能性，对“手机”区域添加目标框的操作在第二线程实现。

综上所述，上述方法实现了对初始帧的提取和对视频帧的特征点跟踪，并通过删除特征点和增加特征点的方式，提高了相邻帧特征点的稳定性，且保证了第二线程能通过相邻帧特征点得到目标框。

基于图2的可选实施例中，对视频帧序列进行特征点分析，得到视频帧序列中每帧视频帧上的特征点，可由图7所示的方法实现，图7示出了第三线程的流程图，其方法包括：

步骤701，输入视频帧序列。

响应于开始执行多目标实时检测的操作，终端输入视频帧序列。

步骤702，判断当前帧是否为初始帧。

基于终端输入的视频帧序列，终端对当前帧是否为初始帧进行判断；若当前帧为初始帧，则执行步骤706；若当前帧不是初始帧，则执行步骤703。

步骤703，对当前帧的上一帧中的特征点进行特征点跟踪，得到跟踪结果。

响应于当前帧不是初始帧，通过光流跟踪算法跟踪上一帧特征点得到特征点在当前帧的图像坐标，光流跟踪算法包括但不限于：Lucas-Kanade光流。

步骤704，基于跟踪结果，对特征点进行非极大值抑制。

这里，对特征点进行非极大值抑制是指终端删除跟踪失败的特征点，并当两个特征点之间距离小于距离阈值时，删除掉两个特征点中一个特征点。删除策略包括但不限于：随机删除一个；基于特征点梯度给特征点评分，删除评分较低的一个。距离阈值参考步骤506。

步骤705，特征点补点。

响应于在当前帧上没有跟踪特征点的区域提取新的特征点，新的特征点提取方法参考步骤706。

步骤706，初始帧的特征点提取，得到初始帧的特征点。

响应于当前帧是初始帧，终端进行对初始帧的特征点提取操作。终端在初始帧中提取特征点，确保特征点之间最低间隔不小于间隔阈值(间隔阈值视计算量和图像大小选取，如可以取值5至20)，特征提取方法包括但不限于：Harris、FAST、Good Feature To Tracker等。终端给每个新特征点分配一个特征点标号，其中标号从0开始递增。

步骤707，输出当前帧的特征点列表。

基于上述步骤701至步骤706，输出视频帧序列中每个视频帧的特征点列表。

基于图2的可选实施例中，通过第一线程基于特征点对抽取帧进行目标检测，得到抽取帧中的目标框，可由下述方法实现：通过第一线程，终端输入视频帧序列的抽取帧，输出检测到的物体包围框和类别。目标检测算法包括但不限于：One-Stage算法、Two-Stage算法和Anchor-free算法等。在一些实施例中，在检测之前终端先将抽取帧调整成重力方向来提升检测效果。

基于图2的可选实施例中，通过第二线程基于特征点在当前帧中对目标框进行跟踪，得到当前帧中的目标框，可由图8所示的方法来实现，图8示出了本申请一个示例性实施例的第二线程的流程图，该方法包括：

步骤801，输入相邻视频帧和对应的特征点列表。

响应于第三线程输出视频帧序列的特征点，终端将相邻视频帧和对应的特征点列表输入第二线程。

步骤802，将当前帧与上一帧特征点进行匹配。

通过特征点标号将当前帧的特征点和上一帧的特征点进行匹配，得到特征点匹配对。

步骤803，跟踪上一帧目标框。

基于上一帧的每个目标框，终端确定上一帧目标框内的特征点，根据特征点匹配对计算上一帧目标框在当前帧的位移和尺度。计算方式包括但不限于：中值流法、单应性矩阵法等。

步骤804，判断是否有新增目标框。

终端判断第一线程是否输出检测目标框，如果是，则执行步骤805；如果否，则执行步骤808。

步骤805，将当前帧与检测帧进行特征点匹配。

响应于第一线程输出检测目标框，终端通过特征点标号进行当前帧与检测帧特征点匹配，得到特征点匹配对。

步骤806，跟踪检测帧目标框。

基于检测帧的每个目标框，终端确定目标框内的特征点，根据特征点匹配对计算检测目标框在当前帧的位移和尺度。计算方式包括但不限于：中值流法、单应性矩阵法等。

步骤807，在当前帧中，新增目标框与跟踪目标框的融合框。

基于重复检测，跟踪目标框和检测目标框可能会重叠，重叠判断标准为：

(1)跟踪目标框和检测目标框的IOU大于IOU阈值，例如，该IOU阈值可以取值为0.5。

(2)跟踪目标框和检测目标框的物体类别相同。

基于终端确定跟踪目标框和检测目标框重叠，终端执行重叠框融合操作。

在一些实施例中，当跟踪目标框和检测目标框重叠时，需要通过策略将这两个目标框融合成一个目标框，得到融合框，融合策略至少包括以下方法：当前帧目标框始终选取检测目标框；依据目标检测算法，终端得到跟踪目标框和检测目标框的置信度评分，终端在当前帧中删除置信度评分较小的目标框；当检测目标框靠近当前帧边界时，终端确定物体检测不全，此时终端确定跟踪目标框为当前帧的目标框，否则终端确定检测目标框为当前帧的目标框。

步骤808，输出当前帧的所有目标框。

基于上述步骤801至步骤807，终端输出当前帧所有目标框。

下面对本申请实施例的应用场景进行说明：

在一些实施例中，当用户使用终端扫描真实环境中特定类别的物体时，终端的显示屏上弹出3D的增强现实(AR，Augmented Reality)特效，示意性的，图9示出了本申请一个示例性实施例提供的视频帧的示意图，图10示出了本申请另一个示例性实施例提供的视频帧的示意图。其中，当用户使用终端扫描图9中的饮料901时，饮料901周围出现带有颜色的立体文字902；当用户使用终端扫描图10中的植物1001时，植物周围弹出卡通挂件1002。

在一些实施例中，图11示出了本申请再一个示例性实施例的视频帧的示意图，响应于输入一段足球比赛视频，终端检测运动员1101、球门1102、足球1103等目标框，并在连续帧中跟踪这些目标，基于跟踪的结果可以进行后续的足球比赛分析。

在一些实施例中，终端对足球视频的视频帧序列进行特征点分析，得到视频帧序列中每帧视频帧上的特征点；通过第一线程基于特征点对抽取帧进行目标检测，终端得到抽取帧中的目标框，抽取帧是采用目标步长在视频帧序列中抽取的视频帧；通过第二线程基于特征点在当前帧中对目标框进行跟踪，终端得到当前帧中的目标框；终端输出当前帧中的目标框。

图12是本申请一个示例性实施例提供的检测跟踪装置的结构框图，如图12所示，该装置包括：

分析模块1010，配置为对视频帧序列进行特征点分析，得到视频帧序列中每帧视频帧上的特征点；检测模块1020，配置为通过第一线程基于特征点对抽取帧进行目标检测，得到抽取帧中的目标框，抽取帧是采用目标步长在视频帧序列中抽取的视频帧；跟踪模块1030，配置为通过第二线程基于特征点和所述抽取帧中的目标框，在当前帧中进行目标框跟踪，得到当前帧中的目标框；输出模块1050，配置为输出当前帧中的目标框。

在一个可选的实施例中，跟踪模块1030还配置为在第一线程未输出有第一目标框的情况下，通过第二线程基于特征点在当前帧中对第二目标框进行跟踪，得到当前帧中的目标框。

在一个可选的实施例中，跟踪模块1030还配置为在第一线程输出有第一目标框的情况下，通过第二线程基于特征点在当前帧中对第一目标框和第二目标框进行跟踪，得到当前帧中的目标框。其中，第一目标框是视频帧序列中位于当前帧之前的最近一个抽取帧中检测到的目标框，第二目标框是当前帧的上一帧中跟踪到的目标框。

在一个可选的实施例中，跟踪模块1030包括跟踪子模块1031和合并模块1032；其中，踪子模块1031配置为通过第二线程基于特征点在当前帧中对第一目标框进行跟踪，得到第一跟踪框。

在一个可选的实施例中，跟踪子模块1031还配置为通过第二线程基于特征点在当前帧中对第二目标框进行跟踪，得到第二跟踪框。

在一个可选的实施例中，合并模块1032配置为将第一跟踪框和第二跟踪框中的重复框进行合并，得到当前帧中的目标框。

在一个可选的实施例中，装置还包括确定模块1040；其中，确定模块1040配置为基于第一跟踪框和第二跟踪框的并交比IoU大于IoU阈值，确定第一跟踪框和第二跟踪框存在重复框。

在一个可选的实施例中，确定模块1040还配置为基于第一跟踪框和第二跟踪框的并交比IoU大于IoU阈值，且，第一跟踪框和第二跟踪框的类别相同，确定第一跟踪框和第二跟踪框存在重复框。

在一个可选的实施例中，确定模块1040还配置为响应于第一跟踪框和第二跟踪框存在重复框，确定第一跟踪框为当前帧的目标框。

在一个可选的实施例中，确定模块1040还配置为响应于第一跟踪框和第二跟踪框存在重复框，确定第一跟踪框和第二跟踪框中置信度高的跟踪框为当前帧的目标框。

在一个可选的实施例中，确定模块1040还配置为响应于第一跟踪框和第二跟踪框存在重复框，且第一跟踪框处于当前帧的边界，确定第二跟踪框为当前帧的目标框。

在一个可选的实施例中，跟踪模块1030还配置为获取当前帧的跟踪特征点和当前帧的上一帧的目标特征点，并通过第二线程将当前帧的跟踪特征点和上一帧的目标特征点组成多组特征点匹配对，目标特征点是位于第二目标框中的特征点。

在一个可选的实施例中，跟踪模块1030还配置为确定多组特征点匹配对的多组特征点偏移向量。

在一个可选的实施例中，跟踪模块1030还配置为基于多组特征点偏移向量，计算得到第二目标框的目标框偏移向量。

在一个可选的实施例中，跟踪模块1030还配置为根据目标框偏移向量对第二目标框进行偏移，得到当前帧中的目标框。

在一个可选的实施例中，分析模块1010还配置为通过第三线程对视频帧序列中的初始帧进行特征点提取，得到初始帧的特征点。

在一个可选的实施例中，分析模块1010还配置为通过第三线程基于初始帧的特征点，对视频帧序列中的第i帧进行特征点跟踪，得到视频帧序列中的第i帧的特征点，第i帧为位于初始帧之后的视频帧，i的起始编号为初始帧的帧号加一。

在一个可选的实施例中，分析模块1010还配置为通过第三线程基于第i帧的特征点，对视频帧序列中的第i+1帧进行特征点跟踪，得到视频帧序列中的第i+1帧的特征点。

在一个可选的实施例中，分析模块1010还配置为通过第三线程对第i帧的特征点进行光流跟踪，得到视频帧序列中的第i+1帧的特征点。

在一个可选的实施例中，分析模块1010还配置为响应于第i+1帧中的第一特征点满足删除条件，删除第i+1帧中的第一特征点；其中，删除条件包括如下至少之一：第一特征点是跟踪失败的特征点；第一特征点与相邻特征点的距离小于距离阈值。

在一个可选的实施例中，分析模块1010还配置为响应于第i+1帧中的目标区域满足补点条件，从目标区域中提取新增特征点；其中，补点条件包括：目标区域是特征点跟踪结果为空的区域。

综上所述，上述装置将检测和跟踪分为两个线程操作，其中，检测算法并不会影响跟踪帧率，即使检测线程耗费时间较长，终端也能输出每帧视频帧的目标框，该方法不仅能实时输出视频帧的目标框，且实时输出的延时并不会随目标框个数增加而显著增加。

上述装置还实现了对当前帧中是否存在重复框的判断和进行了重复框的合并，保证了当前帧的目标框彼此清晰有序，避免当前帧中重复出现作用相同的目标框。

上述装置还实现了对初始帧的提取和对其他帧的特征点跟踪，并通过删除特征点和增加特征点的方式，提高了相邻帧特征点的稳定性，且保证了第二线程能通过相邻帧特征点得到目标框。

图13示出了本申请一个示例性实施例提供的电子设备1300的结构框图。该电子设备1300可以是便携式移动终端，比如：智能手机、平板电脑、动态影像专家压缩标准音频层面3(MP3，Moving Picture Experts Group Audio Layer III)、动态影像专家压缩标准音频层面4(MP4，Moving Picture Experts Group Audio Layer IV)播放器、笔记本电脑或台式电脑。电子设备1300还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，电子设备1300包括有：处理器1301和存储器1302。

处理器1301可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1301可以采用数字信号处理(DSP，Digital Signal Processing)、现场可编程门阵列(FPGA，Field－Programmable Gate Array)、可编程逻辑阵列(PLA，Programmable Logic Array)中的至少一种硬件形式来实现。处理器1301也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称中央处理器(CPU，Central Processing Unit)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1301可以集成有图像处理器(GPU，Graphics Processing Unit)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。在一些实施例中，处理器1301还可以包括人工智能(AI，Artificial Intelligence)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1302可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1302还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1302中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1301所执行以实现本申请中方法实施例提供的图像修复方法。

在一些实施例中，电子设备1300还可选包括有：外围设备接口1303和至少一个外围设备。处理器1301、存储器1302和外围设备接口1303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1303相连。外围设备包括：射频电路1304、显示屏1305、摄像头组件1306、音频电路1307、定位组件1308和电源1309中的至少一种。

外围设备接口1303可被用于将输入/输出(I/O，Input/Output)相关的至少一个外围设备连接到处理器1301和存储器1302。在一些实施例中，处理器1301、存储器1302和外围设备接口1303被集成在同一芯片或电路板上；在一些其他实施例中，处理器1301、存储器1302和外围设备接口1303中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1304用于接收和发射射频(RF，Radio Frequency)信号，也称电磁信号。射频电路1304通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1304将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。例如，射频电路1304包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1304可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于以下至少之一：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和无线保真(WiFi，Wireless Fidelity)网络。在一些实施例中，射频电路1304还可以包括近距离无线通信(NFC，Near Field Communication)有关的电路，本申请对此不加以限定。

显示屏1305用于显示用户界面(UI，User Interface)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1305是触摸显示屏时，显示屏1305还具有采集在显示屏1305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1301进行处理。此时，显示屏1305还可以用于提供虚拟按钮和虚拟键盘中的至少之一，也称软按钮和软键盘。在一些实施例中，显示屏1305可以为一个，设置在电子设备1300的前面板；在另一些实施例中，显示屏1305可以为至少两个，分别设置在电子设备1300的不同表面或呈折叠设计；在另一些实施例中，显示屏1305可以是柔性显示屏，设置在电子设备1300的弯曲表面上或折叠面上。甚至，显示屏1305还可以设置成非矩形的不规则图形，也即异形屏。显示屏1305可以采用液晶显示屏(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-Emitting Diode)等材质制备。

摄像头组件1306用于采集图像或视频。例如，摄像头组件1306包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及虚拟现实(VR，Virtual Reality)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1306还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1307可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1301进行处理，或者输入至射频电路1304以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备1300的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1301或射频电路1304的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1307还可以包括耳机插孔。

定位组件1308用于定位电子设备1300的当前地理位置，以实现导航或基于位置的服务(LBS，Location Based Service)。定位组件1308可以是基于美国的全球定位系统(GPS，Global Positioning System)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源1309用于为电子设备1300中的各个组件进行供电。电源1309可以是交流电、直流电、一次性电池或可充电电池。当电源1309包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，电子设备1300还包括有一个或多个传感器1310。该一个或多个传感器1310包括但不限于：加速度传感器1311、陀螺仪传感器1312、压力传感器1313、指纹传感器1314、光学传感器1315以及接近传感器1316。

加速度传感器1311可以检测以电子设备1300建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1311可以用于检测重力加速度在三个坐标轴上的分量。处理器1301可以根据加速度传感器1313采集的重力加速度信号，控制显示屏1305以横向视图或纵向视图进行用户界面的显示。加速度传感器1313还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1312可以检测电子设备1300的机体方向及转动角度，陀螺仪传感器1312可以与加速度传感器1311协同采集用户对电子设备1300的3D动作。处理器1301根据陀螺仪传感器1312采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1313设置在电子设备1300的以下至少之一的下层：侧边框和显示屏1305。当压力传感器1313设置在电子设备1300的侧边框时，可以检测用户对电子设备1300的握持信号，由处理器1301根据压力传感器1313采集的握持信号进行左右手识别或快捷操作。当压力传感器1313设置在显示屏1305的下层时，由处理器1301根据用户对显示屏1305的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1314用于采集用户的指纹，由处理器1301根据指纹传感器1314采集到的指纹识别用户的身份，或者，由指纹传感器1314根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1301授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1314可以被设置在电子设备1300的正面、背面或侧面。当电子设备1300上设置有物理按键或厂商Logo时，指纹传感器1314可以与物理按键或厂商Logo集成在一起。

光学传感器1315用于采集环境光强度。在一些实施例中，处理器1301可以根据光学传感器1315采集的环境光强度，控制显示屏1305的显示亮度。当环境光强度较高时，调高显示屏1305的显示亮度；当环境光强度较低时，调低显示屏1305的显示亮度。在另一个实施例中，处理器1301还可以根据光学传感器1315采集的环境光强度，动态调整摄像头组件1306的拍摄参数。

接近传感器1316，也称距离传感器，通常设置在电子设备1300的前面板。接近传感器1316用于采集用户与电子设备1300的正面之间的距离。在一些实施例中，当接近传感器1316检测到用户与电子设备1300的正面之间的距离逐渐变小时，由处理器1301控制显示屏1305从亮屏状态切换为息屏状态；当接近传感器1316检测到用户与电子设备1300的正面之间的距离逐渐变大时，由处理器1301控制显示屏1305从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图13中示出的结构并不构成对电子设备1300的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请实施例还提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述方法实施例提供的检测跟踪方法。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方法实施例提供的检测跟踪方法。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种检测跟踪方法，所述方法由电子设备执行，所述方法包括：

对视频帧序列进行特征点分析，得到所述视频帧序列中每帧视频帧上的特征点；

通过第一线程基于所述特征点对抽取帧进行目标检测，得到所述抽取帧中的目标框，所述抽取帧是采用目标步长在所述视频帧序列中抽取的视频帧；

通过第二线程基于所述特征点和所述抽取帧中的目标框，在当前帧中进行目标框跟踪，得到所述当前帧中的目标框；

输出所述当前帧中的目标框。
根据权利要求1所述的方法，其中，所述通过第二线程基于所述特征点和所述抽取帧中的目标框，在当前帧中进行目标框跟踪，得到所述当前帧中的目标框，包括：

在所述第一线程未输出有第一目标框的情况下，通过所述第二线程基于所述特征点在所述当前帧中对第二目标框进行跟踪，得到所述当前帧中的目标框；

在所述第一线程输出有所述第一目标框的情况下，通过所述第二线程基于所述特征点在所述当前帧中对所述第一目标框和所述第二目标框进行跟踪，得到所述当前帧中的目标框；

其中，所述第一目标框是所述视频帧序列中位于所述当前帧之前的最近一个抽取帧中检测到的目标框，所述第二目标框是所述当前帧的上一帧中跟踪到的目标框。
根据权利要求2所述的方法，其中，所述通过所述第二线程基于所述特征点在所述当前帧中对所述第一目标框和所述第二目标框进行跟踪，得到所述当前帧中的目标框，包括：

通过所述第二线程基于所述特征点在所述当前帧中对所述第一目标框进行跟踪，得到第一跟踪框；

通过所述第二线程基于所述特征点在所述当前帧中对所述第二目标框进行跟踪，得到第二跟踪框；

将所述第一跟踪框和所述第二跟踪框中的重复框进行合并，得到所述当前帧中的目标框。
根据权利要求3所述的方法，其中，所述将所述第一跟踪框和所述第二跟踪框中的重复框进行合并，得到所述当前帧中的目标框之前，所述方法还包括：

如果所述第一跟踪框和所述第二跟踪框的并交比IoU大于IoU阈值，确定所述第一跟踪框和所述第二跟踪框存在重复框。
根据权利要求4所述的方法，其中，所述如果所述第一跟踪框和所述第二跟踪框的并交比IoU大于IoU阈值，确定所述第一跟踪框和所述第二跟踪框存在重复框，包括：

如果所述第一跟踪框和所述第二跟踪框的并交比IoU大于IoU阈值，且，所述第一跟踪框和所述第二跟踪框的类别相同，确定所述第一跟踪框和所述第二跟踪框存在重复框。
根据权利要求4或5所述的方法，其中，所述将所述第一跟踪框和所述第二跟踪框中的重复框进行合并，得到所述当前帧中的目标框，包括执行以下任意一种处理：

如果所述第一跟踪框和所述第二跟踪框存在重复框，将所述第一跟踪框确定为所述当前帧的目标框；

如果所述第一跟踪框和所述第二跟踪框存在重复框，将所述第一跟踪框和所述第二跟踪框中置信度最高的跟踪框确定为所述当前帧的目标框；

如果所述第一跟踪框和所述第二跟踪框存在重复框，且所述第一跟踪框处于所述当前帧的边界，将所述第二跟踪框确定为所述当前帧的目标框。
根据权利要求2所述的方法，其中，所述通过所述第二线程基于所述特征点在所述当前帧中对第二目标框进行跟踪，得到所述当前帧中的目标框，包括：

获取所述当前帧的跟踪特征点和所述当前帧的上一帧的目标特征点；

通过所述第二线程将所述当前帧的跟踪特征点和所述上一帧的目标特征点组成多组特征点匹配对，所述目标特征点是位于所述第二目标框中的特征点；

确定所述多组特征点匹配对的多组特征点偏移向量；

基于所述多组特征点偏移向量，计算得到所述第二目标框的目标框偏移向量；

根据所述目标框偏移向量对所述第二目标框进行偏移，得到所述当前帧中的目标框。
根据权利要求1至5任一项所述的方法，其中，所述对视频帧序列进行特征点分析，得到所述视频帧序列中每帧视频帧上的特征点，包括：

通过第三线程对所述视频帧序列中的初始帧进行特征点提取，得到所述初始帧的特征点；

通过所述第三线程基于所述初始帧的特征点，对所述视频帧序列中的第i帧进行特征点跟踪，得到所述视频帧序列中的第i帧的特征点，所述第i帧为位于所述初始帧之后的视频帧，i的起始编号为所述初始帧的帧号加一，i为正整数；

通过所述第三线程基于所述第i帧的特征点，对所述视频帧序列中的第i+1帧进行特征点跟踪，得到所述视频帧序列中的第i+1帧的特征点。
根据权利要求8所述的方法，其中，所述通过所述第三线程基于所述第i帧的特征点，对所述视频帧序列中的第i+1帧进行特征点跟踪，得到所述视频帧序列中的第i+1帧的特征点，包括：

通过所述第三线程对所述第i帧的特征点进行光流跟踪，得到所述视频帧序列中的第i+1帧的特征点。
根据权利要求8所述的方法，其中，所述方法还包括：

如果所述第i+1帧中的第一特征点满足删除条件，删除所述第i+1帧中的所述第一特征点；

其中，所述删除条件包括如下至少之一：

所述第一特征点是跟踪失败的特征点；

所述第一特征点与相邻特征点的距离小于距离阈值。
根据权利要求8所述的方法，其中，所述方法还包括：

如果所述第i+1帧中的目标区域满足补点条件，从所述目标区域中提取新增特征点；

其中，所述补点条件包括：所述目标区域是特征点跟踪结果为空的区域。
一种检测跟踪装置，所述装置包括：

分析模块，配置为对视频帧序列进行特征点分析，得到所述视频帧序列中每帧视频帧上的特征点；

检测模块，配置为通过第一线程基于所述特征点对抽取帧进行目标检测，得到所述抽取帧中的目标框，所述抽取帧是采用目标步长在所述视频帧序列中抽取的视频帧；

跟踪模块，配置为通过第二线程基于所述特征点和所述抽取帧中的目标框，在当前帧中进行目标框跟踪，得到所述当前帧中的目标框；

输出模块，配置为输出所述当前帧中的目标框。
一种计算机设备，所述计算机设备包括：处理器和存储器，所述存储器存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至11任一项所述的检测跟踪方法。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至11任一项所述的检测跟踪方法。
一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中；

当电子设备的处理器从所述计算机可读存储介质读取所述计算机指令，并执行所述计算机指令时，实现权利要求1至11任一项所述的检测跟踪方法。