WO2018153294A1

WO2018153294A1 - 人脸跟踪方法、存储介质及终端设备

Info

Publication number: WO2018153294A1
Application number: PCT/CN2018/076238
Authority: WO
Inventors: 赵凌; 李季檩
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2017-02-27
Filing date: 2018-02-11
Publication date: 2018-08-30
Also published as: CN106919918B; CN106919918A

Abstract

本申请实施例公开了一种人脸跟踪方法、存储介质即终端设备；本实施例在需要对视频流进行人脸跟踪时，可以获取相应的深度学习的网络模型，并为该网络模型分配内存资源，使得该网络模型的所有层共享同一存储空间，然后，基于分配的内存资源和网络模型对该视频流进行处理，以实现人脸的实时跟踪；由于在该方案中，网络模型的所有层都可以共享同一存储空间。

Description

AJ^r跟踪方法、存储介质及终端 i殳备本申请要求于 2017 年 02 月 27 日提交中国专利局、申请号为 201710108748.7、发明名称为 "一种人脸跟踪方法和装置" 的中国专利申请的优先权，其全部内容通过引用结合在本申请中。技术领域

本申请涉及通信技术领域，具体涉及一种人脸跟踪方法、存储介质及终端设备。背景技术近年来，人脸跟踪技术得到了长足的发展，在很多领域，比如监控、视频会议和远程教学等，都需要对特定人脸进行跟踪和分析。

在现有技术中，有多种人脸跟踪技术，深度学习前向预测技术就是其中一种。在深度学习前向预测技术中，针对不同的应用领域，需要建立不同的网络模型，而且根据需解决问题的复杂性的不同，其网络模型的层次也会有所不同，比如，复杂性较高的问题一般需要建立更深层次的网络模型，等等。在个人计算机（PC, Personal Computer )端，网络模型的每一层都需要独占一段存储区域，该存储区域具体可以通过配置文件来进行设置，例如，在分配存储资源时，可以通过读取配置文件，对当前层进行存储空间大小计算，并为当前层分配存储空间，等等，其中，各层的存储区域需要独立进行分配，且各层的存储区域之间无共享内存。发明内容本申请实施例提供一种人脸跟踪方案，不仅可以节省内存的占用，提高计算效率，而且，可以减少存储碎片，提高应用程序性能。

根据本申请一个方面，提供一种人脸跟踪方法，应用于终端设备，该方法包括：获取需要进行人脸跟踪的视频流以及深度学习的网络模型；为所述网络模型分配内存资源，使得所述网络模型的所有层共享同一存储空间；基于分配的内存资源和所述网络模型对所述视频流中的人脸进行跟踪。

根据本申请另一个方面，提供一种人脸跟踪方法，应用于终端设备，该方法包括：获取来自一个视频流的一个图像帧，并将其作为当前帧；获取所述视频流中所述当前帧的上一帧的人脸关键点坐标和与所述上一帧的人脸关键点坐标对应的置信度；以及分配内存资源，基于所述内存资源、所述上一帧的人脸关键点坐标和与所述上一帧的人脸关键点坐标对应的置信度，利用基于深度学习的网络模型，确定所述当前帧的人脸关键点坐标和与所述当前帧的人脸关键点坐标对应的置信度。

根据本申请又一个方面，提供一种终端设备，包括：处理器和存储器；所述存储器中存储有计算机可读指令，可以使所述处理器：获取需要进行人脸跟踪的视频流以及深度学习的网络模型；为所述网络模型分配内存资源，使得所述网络模型的所有层共享同一存储空间；以及基于分配的内存资源和所述网络模型对所述视频流中的人脸进行跟踪。

根据本申请又一个方面，提供一种终端设备，包括：处理器和存储器；所述存储器中存储有计算机可读指令，可以使所述处理器：获取来自一个视频流的一个图像帧，并将其作为当前帧；获取所述视频流中所述当前帧的上一帧的人脸关键点坐标和与所述上一帧的人脸关键点坐标对应的置信度；以及分配内存资源，基于所述内存资源、所述上一帧的人脸关键点坐标和与所述上一帧的人脸关键点坐标对应的置信度，利用基于深度学习的网络模型，确定所述当前帧的人脸关键点坐标和与所述当前帧的人脸关键点坐标对应的置信度。

根据本申请又一个方面，提供一种非易失性存储介质，存储有一个或多个程序，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据本申请的人脸跟踪方法。

本申请实施例在需要对视频流进行深度学习，以进行人脸跟踪时，可以获取相应的深度学习的网络模型，并为该网络模型分配内存资源，使得该网络模型的所有层共享同一存储空间。本申请实施例基于分配的内存资源和网络模型对该视频流进行处理，以实现人脸的实时跟踪。由于网络模型的所有层都可以共享同一存储空间，因此本申请实施例无需为网络模型的每一层都分配一独立的存储空间，可以大大节省内存的占用而提高计算效率、另外，由于只需分配一次，本申请实施例也可以大大降低分配操作的次数，减少存储碎片，有利于提高应用程序性能。附图简要说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图，其中：图 la是本申请实施例提供的人脸跟踪方法的场景示意图；

图 lb是本申请实施例提供的人脸跟踪方法的流程图；

图 lc是本申请实施例提供的人脸跟踪方法中内存分配的示意图；

图 Id是本申请实施例提供的人脸跟踪方法中内存空间的使用示意图；图 2 a是本申请实施例提供的人脸跟踪方法的另一流程图；

图 2b是本申请实施例提供的人脸跟踪方法中网络模型各个层次的示意图；图 3是本申请实施例提供的人脸跟踪装置的结构示意图；

图 4示出了本申请实施例提供的人脸跟踪方法的流程图；以及

图 5示出了本申请实施例提供的终端设备的结构示意图。实施本申请的方式下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种人脸跟踪方法和装置。

其中，该人脸跟踪装置具体集成在移动终端等终端设备中。例如，参见图 la, 该移动终端在需要对视频流进行人脸跟踪时，可以获取相应的深度学习的网络模型，并为该网络模型一次性分配内存资源，使得该网络模型的所有层共享同一存储空间。比如，该移动终端可以计算该网络模型中每一层网络所需的存储空间，选择其中的最大值作为预分配的存储空间的大小，并据此为该网络模型分配内存资源。在内存资源分配完毕之后，移动终端可以基于该分配的内存资源和该网络模型对该视频流中的人脸进行跟踪，从而达到省内存占用，减少存储碎片，以及提高计算效率的目的。

以下分别进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。实施例一、

本实施例将从人脸跟踪装置的角度进行描述，该人脸跟踪装置具体可以集成在移动终端等终端设备中，该移动终端可以包括手机、平板电脑、或智能穿戴设备等。

一种人脸跟踪方法，包括：获取需要进行人脸跟踪的视频流、以及深度学习的网络模型，为该网络模型分配内存资源，使得该网络模型的所有层共享同一存储空间，基于分配的内存资源和该网络模型对该视频流中的人脸进行跟踪。

如图 lb所示，该人脸跟踪方法的具体流程可以包括步骤 101、 102和 103。在步骤 101中获取需要进行人脸跟踪的视频流、以及深度学习的网络模型。例如，具体可以从本地或其他存储设备中获取视频流、以及深度学习的网络模型，等等。

其中，该网络模型可以根据实际应用的需求进行设置，在此不再赘述。在步骤 102中为该网络模型分配内存资源，使得该网络模型的所有层共享同一存储空间，例如，具体可以如下：

计算该网络模型中每一层网络所需的存储空间。

例如，可以获取网络模型的配置文件，根据该配置文件计算该网络模型中每一层网络所需的存储空间。比如，具体可以如下：

首先，读取该网络模型的配置文件，其次，根据该配置文件计算每一个网络层次的参数个数。例如，在深度学习的网络模型为卷积神经网络模型时，每一个网络层次的参数个数与该网络层的神经元个数成正比，但不限于此。这样，步骤 102可以根据参数个数，而得到每一层网络的输入（即 Bottom ) Blob、输出 (即 Top ) Blob、以及该层需要临时开辟的 Blob (即临时 Blob ) 大小。最后，步骤 102根据一层网络的 Bottom Blob, Top Blob和临时 Blob, 可以计算出该层网络所需要的存储空间，例如，如图 lc中所示的 A+B+C区域大小。其中， A区既可作为这一层的输入区，也可作为上一层或下一层的输出区，B区为这一层的临时区， C区既可作为这一层的输出区，也可作为上一层或下一层的输入区。

需说明的是，为了描述方便，在本申请实施例中，将 Bottom Blob称为输入区， Top Blob称为输出区，将临时 Blob称为临时区。其中， Blob是深度网络模型的存储单元名称，例如是一个四维矩阵，包含矩阵各维度大小。

在确定每一个网络层所需要的存储空间后，步骤 102可以将各网络层所需的存储空间中的最大值作为预分配的存储空间的大小。

例如，以六层的网络模型为例，若第五层所需要的存储空间最大，则以第五层所需要的存储空间为准，作为预分配的存储空间的大小，以此类推，等等。

步骤 102可以根据该预分配的存储空间的大小为该网络模型分配内存资源。即，只需为该网络模型一次性分配该预分配的存储空间大小的内存资源即可，在前向计算时不需分配其他空间。

其中，前向计算的内存分配过程可如图 Id所示：假设 A区当前存放第 n层的输入区（即 Bottom Blob )数据， B区存放当前层所需临时数据， C区存放计算得到的输出区（Top Blob )数据，则当第 n层计算得到输出结果后，便可以将该输出区（即 Top Blob )指针赋给第 n+1层的输入区（即 Bottom Blob ), 并将 A区的输入区指针赋给第 n+1层的输出区（即 Top Blob ), 用于存储第 n+1层的输出结果，而 B区同样用于保存第 n+1的临时数据，如此反复，即可完成整个前向网络的计算，该过程无其他数据拷贝和传输，即使指针赋值操作也可在预处理阶段完成。在步骤 103中，基于分配的内存资源和该网络模型对该视频流中的人脸进行跟踪。在一个实施例中，步骤 103可以根据该视频流确定当前需要处理的图像，得到当前帧。另外，步骤 103可以获取当前帧的上一帧图像的人脸关键点坐标和置信度。

其中，人脸关键点指的是能够反映人脸特征的信息，比如眼睛、眉毛、鼻子、嘴巴、以及脸部外轮廓等。人脸关键点坐标指的是这些人脸关键点的坐标集合，每个人脸关键点的坐标集合可以用一个数组，比如用数组（_Xl , _yi , x₂, y₂, x_n, y_n ) 来表征，其中，（_Xl, y. )代表其中第 i个点的坐标。

另外，步骤 103可以基于分配的内存资源、该网络模型、上一帧图像的人脸关键点坐标和置信度预测当前帧的人脸关键点坐标和置信度，并返回执行根据该视频流确定当前需要处理的图像的步骤，直至该视频流中的图像均处理完毕。其中，基于分配的内存资源、该网络模型、上一帧图像的人脸关键点坐标和置信度预测当前帧的人脸关键点坐标和置信度的方式可以有多种。在一个实施例中，当确定上一帧图像的置信度大于预设阔值时，步骤 S103可以利用分配的内存资源和网络模型确定当前帧的人脸关键点坐标和与当前帧的人脸关键点坐标对应的置信度。这里，置信度用于表示当前帧的人脸关键点坐标所描述的区域为人脸的概率。具体而言，步骤 103可以在当前帧中确定与上一帧的人脸关键点坐标对应的坐标，确定当前帧中第一基准人脸区域。例如，步骤 103可以基于人脸关键点坐标生成一个包络人脸关键点坐标的基准框。相应的，步骤 103可以在当前帧提取与基准框位置对应的区域作为第一基准人脸区域。在此基础上，步骤 S103可以利用网络模型对第一基准人脸区域进行处理，以获取当前帧的人脸关键点坐标和与当前帧的人脸关键点坐标对应的置信度。

在一个实施例中，上述网络模型包括公共网络部分、关键点预测分支和置信度预测分支。步骤 103可以通过该公共网络部分对第一基准人脸区域进行特征提取，以获取相应的特征提取结果。在此基础上，步骤 103可以通过关键点预测分支对该特征提取结果进行处理，得到当前帧的人脸关键点坐标，以及，通过该置信度预测分支对该特征提取结果进行处理，得到当前帧的置信度。

需说明的是，与上一帧图像的人脸关键点坐标对应的置信度如果低于（即不高于，包括等于）预设阔值，则表明上一帧的人脸关键点坐标的参考价值较低。因此，步骤 103可以釆用人脸检测的方式来获取当前帧中第二基准人脸区域。同理，若获取不到当前帧的上一帧图像的人脸关键点坐标和置信度，比如当前帧为该视频流的首帧，步骤 103也可以釆用人脸检测的方式来获取当前帧中第二基准人脸区域。在获取不到当前帧的上一帧图像的人脸关键点坐标和置信度，或者，确定上一帧图像的置信度小于等于预设阈值时，步骤 103可以基于分配的内存资源，通过人脸检测算法对当前帧中的人脸进行检测，以确定当前帧的人脸关键点坐标和置信度。

其中，检测的方式可以有多种，比如，可以釆用如下方式：

获取经过训练的强分类器。在一个实施例中，强分类器的训练方式如下：基于人脸图像样本，通过图像积分图计算人脸图像样本的人脸特征，从而根据计算得到的人脸特征构建区分人脸和非人脸的强分类器。在一个实施例中，为了提高人脸检测的准确率，本申请实施例可以采用 Adaboost算法来构建区分人脸和非人脸的强分类器，并通过级联方式将强分类器级联在一个系统里，即将该强分类器级联在同一系统中。其中， Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器 (弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器 (强分类器)。

在此基础上，步骤 103可以利用强分类器确定第二基准人脸区域。进一步，步骤 103可以利用网络模型对第二基准人脸区域进行处理，以获取当前帧的人脸关键点坐标和与当前帧的人脸关键点对应的置信度。

由上可知，本申请的实施例在需要对视频流进行人脸跟踪时，可以获取相应的深度学习的网络模型，并为该网络模型分配内存资源，使得该网络模型的所有层共享同一存储空间，然后，基于分配的内存资源和网络模型对该视频流进行处理，以实现人脸的实时跟踪。由于在该方案中，网络模型的所有层都可以共享同一存储空间，因此，无需为网络模型的每一层都分配一独立的存储空间，不仅可以大大节省内存的占用，提高计算效率，而且，由于只需分配一次，所以，也可以大大降低分配操作的次数，减少存储碎片，有利于提高应用程序性能。

实施例二、

根据实施例一所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该人脸跟踪装置具体可以集成在移动终端为例进行说明。

如图 2a所述，一种人脸跟踪方法，具体流程可以如下：

201、移动终端获取视频流。

例如，移动终端具体可以接收其他设备发送的视频流，或者，从本地存储空间获取视频流，等等。

202、移动终端获取深度学习的网络模型。

其中，该网络模型可以根据实际应用的需求进行设置，比如，该网络模型可以包括三部分，首先，第一部分为公共网络部分，其次，是公共网络部分后续生成的两个分支，关键点预测分支和置信度预测分支。其中，每一部分的层次可以根据需求而定，例如，参见图 2b, 各部分的层次具体可以如下：公共网络部分可以包括 6个卷积（Convolution )层，比如卷积层 1、卷积层 2、卷积层 3、卷积层 4、卷积层 5、以及卷积层 6 , 每个卷积层后紧接一个修正线性单元（Relu, Rectified linear unit )激活函数，简称非线性激活函数，部分非线性激活函数后还可以紧接用于聚合的层一一池化（Pooling )层，具体可参见图 2b。

关键点预测分支可以包括 1个卷积层和 3个内积（ Inner Product )层，比如，参见图 2b, 具体可以包括卷积层 7、内积层 1、内积层 2和内积层 3 , 每个卷积层和内积层后均紧接一个非线性激活函数。

置信度预测分支可以包括 1个卷积层（即卷积层 8 )、 5个内积层（即内积层 4、内积层 5、内积层 6、内积层 7和内积层 8 )、以及 1个柔性最大值传输函数（Softmax ) 层，其中， Softmax层输出两个值，分别为是人脸概率和非人脸概率，两者相加为 1.0。此外，每个卷积层、以及每两个内积层后均可接一个非线性激活函数。

203、移动终端计算该网络模型中每一层网络所需的存储空间。

例如，可以读取该网络模型的配置文件，根据该配置文件计算每一个网络层次的参数个数，得到每一层网络的输入区、输出区、以及临时区的大小，然后，根据该输入区、输出区、以及临时区的大小便可以计算出该层所需要的存储空间，即如图 lc中所示的 A+B+C区域大小，具体可详见实施例一，在此不再赘述。

204、移动终端将各层所需的存储空间中的最大值作为预分配的存储空间的大小，并根据该预分配的存储空间的大小为该网络模型分配内存资源。

其中，前向计算的内存分配过程可如图 Id所示：假设 A区当前存放第 n层的输入区数据， B区存放当前层所需临时数据， C区存放计算得到的输出区数据，则当第 n层计算得到输出结果后，便可以将该输出区指针赋给第 n+1层的输入区，并将 A区的输入区指针赋给第 n+1层的输出区，用于存储第 n+1层的输出结果，而 B区同样用于保存第 n+1的临时数据，在第 n+1层处理完之后，将 n的值更新为 "n+1" , 重复上述过程，如此反复，即可完成整个前向网络的计算。例如，以 n 的初始值等于 1为例，则具体可以如下：

当第 1层计算得到输出结果后，便可以将该第 1层的输出区（即第 1层的 C区）指针赋给第 2层的输入区，并将 A区的输入区指针赋给第 2层的输出区，用于存储第 2层的输出结果，而 B区同样用于保存第 2层的临时数据。同理，在第 2层计算得到输出结果后，便可以将该第 2层的输出区（第 2层的 C区，也是第 1层的 A区）指针赋给第 3层的输入区，并将第 2层的 A区（即第 1层的 C层）的输入区指针赋给第 3层的输出区，用于存储第 3层的输出结果，而 B区同样用于保存第 3的临时数据，以此类推，等等。

其中，该过程无其他数据拷贝和传输，即使指针赋值操作也可在预处理阶段完成。

可见，该计算利用了深度学习的一个特点，即第 n+1层的计算只需要用到第 n+1层的输入区（即第 n层的输出区）和第 n+1层的输出区，而不需要再用到第 n 层的输入区，从而可以循环利用第 n层的输入区所占用的内存；也就是说，所有层的运算均在预先分配的 "A+B+C" 内存区域中进行，因此，无论该深度网络层次有多深，所需存储空间仅取决于某一层的存储空间，所以，可以节省内存资源的占用，使得在移动终端平台应用复杂的深层次网络成为可能。此外，从计算过程来看，由于仅仅是内存中的指针赋值操作，因此，可以十分快速高效。

205、移动终端根据该视频流确定当前需要处理的图像，得到当前帧。

206、移动终端获取当前帧的上一帧图像的人脸关键点坐标和置信度，然后执行步骤 207。

其中，人脸关键点指的是能够反映人脸特征的信息，比如眼睛、眉毛、鼻子、嘴巴、以及脸部外轮廓等。人脸关键点坐标指的是这些人脸关键点的坐标。

需说明的是，若获取不到该当前帧的上一帧图像的人脸关键点坐标和置信度，比如当前帧为该视频流的第一帧，则可以通过检测来得到当前帧的人脸关键点坐标和置信度，即执行步骤 208。

207、移动终端确定该上一帧图像的人脸关键点坐标的置信度是否高于预设阔值，若是，则表明人脸关键点跟踪成功，执行步骤 209, 否则，若不高于预设阔值，则表明人脸关键点跟踪失败，执行步骤 208。

其中，该预设阔值可以根据实际应用的需求进行设置，在此不再赘述。

208、移动终端基于分配的内存资源，通过人脸检测算法对当前帧中的人脸进行检测而获取第二基准人脸区域，并通过网络模型对第二基准人脸区域进行处理以确定当前帧的人脸关键点坐标和置信度，然后执行步骤 210。其中，检测的方式可以有多种，具体请参见实施例一

209、移动终端利用分配的内存资源，通过该网络模型对根据上一帧图像的人脸关键点坐标而确定的第一基准人脸区域进行处理，以获取当前帧的人脸关键点坐标和相应的置信度，然后执行步骤 210。

其中，为了减少计算时间，以及节省计算资源，人脸关键点坐标和置信度的计算可以同步，即关键点预测分支和置信度预测分支的处理可以是并行的。

210、移动终端确定视频流中的图像是否均识别完毕，若是，则流程结束，否则，返回执行步骤 205。

即，将当前帧的人脸关键点坐标和置信度作为下一帧图像人脸跟踪的一个参考，如此循环，直至视频流中的图像均识别完毕。

由上可知，本实施例在需要对视频流进行人脸跟踪时，可以获取相应的深度学习的网络模型，并为该网络模型分配内存资源，使得该网络模型的所有层共享同一存储空间，然后，基于分配的内存资源和网络模型对该视频流进行处理，以实现在移动终端中完成人脸的实时跟踪。一方面，由于在该方案中，网络模型的所有层都可以共享同一存储空间，因此，无需为网络模型的每一层都分配一独立的存储空间，不仅可以大大节省内存的占用，提高计算效率，而且，由于只需分配一次，所以，也可以大大降低分配操作的次数，减少存储碎片，有利于提高应用程序性能；另一方面，本方案在人脸跟踪异常，如置信度小于等于阔值或获取不到上一帧的人脸关键点坐标和置信度时，还可以自动进行跟踪重置（即重新通过检测的方式来获取人脸关键点坐标和置信度），因此，可以加强人脸跟踪的连续性。

此外，由于该方案对内存的需求较少，且计算效率较高，因此，对设备性能的要求较低，可以适用于移动终端等设备，所以，相对于将深度学习前向算法放置在服务器端的方案而言，可以更加高效灵活地对人脸进行跟踪，有利于提高用户体验。实施例三、

为了更好地实施以上方法，本申请实施例还提供一种人脸跟踪装置，如图 3 所示，该人脸跟踪装置，包括获取单元 301、分配单元 302和跟踪单元 303 , 如下：获取单元 301 , 用于获取需要进行人脸跟踪的视频流、以及深度学习的网络模型。

例如，具体可以从本地或其他存储设备中获取视频流、以及深度学习的网络模型，等等。

其中，该网络模型可以根据实际应用的需求进行设置，比如，该网络模型可以包括公共网络部分、关键点预测分支和置信度预测分支等，具体可参见前面的方法实施例，在此不再赘述。

分配单元 302, 用于为该网络模型分配内存资源，使得该网络模型的所有层共享同一存储空间。

例如，该分配单元 302可以包括计算子单元和分配子单元，如下：

计算子单元，可以用于计算该网络模型中每一层网络所需的存储空间。例如，该计算子单元，具体可以用于获取网络模型的配置文件，根据该配置文件计算该网络模型中每一层网络所需的存储空间，比如，可以如下：

计算子单元读取该网络模型的配置文件，根据该配置文件计算每一个网络层次的参数个数，得到每一层网络的输入区、输出区、以及临时区的大小，然后，根据该输入区、输出区、以及临时区的大小便可以计算出该层所需要的存储空间，即如图 lc中所示的 A+B+C区域大小，具体可详见实施例一，在此不再赘述。

分配子单元，可以用于将各层所需的存储空间中的最大值作为预分配的存储空间的大小，根据该预分配的存储空间的大小为该网络模型分配内存资源。

跟踪单元 303 , 用于基于分配的内存资源和该网络模型对该视频流中的人脸进行跟踪。

例如，该跟踪单元 303可以包括确定子单元、参数获取子单元和预测子单元，下：

确定子单元，可以用于根据该视频流确定当前需要处理的图像，得到当前帧；

参数获取子单元，可以用于获取当前帧的上一帧图像的人脸关键点坐标和置信度。

其中，人脸关键点指的是能够反映人脸特征的信息，比如眼睛、眉毛、鼻子、嘴巴、以及脸部外轮廓等。人脸关键点坐标指的是这些人脸关键点的坐标。预测子单元，可以用于基于分配的内存资源、该网络模型、上一帧图像的人脸关键点坐标和置信度预测当前帧的人脸关键点坐标和置信度，并触发确定子单元执行根据该视频流确定当前需要处理的图像的操作，直至该视频流中的图像均处理完毕。

其中，基于分配的内存资源、该网络模型、上一帧图像的人脸关键点坐标和置信度预测当前帧的人脸关键点坐标和置信度的方式可以有多种，例如，具体可以如下：

该预测子单元，具体可以用于确定上一帧图像的置信度大于预设阔值时，利用分配的内存资源，通过该网络模型对根据上一帧图像的人脸关键点坐标而确定的第一基准人脸区域进行特征提取，以获取特征提取结果。这样，预测子单元可以根据该特征提取结果预测当前帧的人脸关键点坐标，以及计算该当前帧的置信度。

例如，以该网络模型包括公共网络部分、关键点预测分支和置信度预测分支为，，这里，预测子单元的实施方式与步骤 103—致，这里不再赘述。

具体实施时，以上各个单元可以分别作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

该人脸跟踪装置具体可以集成在移动终端等设备中，该移动终端可以包括手机、平板电脑或智能穿戴设备等。

由上可知，本实施例在需要对视频流进行人脸跟踪时，可以由获取单元 301 获取相应的深度学习的网络模型，并由分配单元 302为该网络模型分配内存资源，使得该网络模型的所有层共享同一存储空间，然后，由跟踪单元 303基于分配的内存资源和网络模型对该视频流进行处理，以实现人脸的实时跟踪；由于在该方案中，网络模型的所有层都可以共享同一存储空间，因此，无需为网络模型的每一层都分配一独立的存储空间，不仅可以大大节省内存的占用，提高计算效率，而且，由于只需分配一次，所以，也可以大大降低分配操作的次数，减少存储碎片，有利于提高应用程序性能。

图 4示出了根据本申请一些实施例的人脸跟踪方法 400的示意图。人脸跟踪方法 400例如可以在终端设备中执行。如图 4所示，方法 400可以包括步骤 401。在步骤 401中，获取来自一个视频流的一个图像帧，并将其作为当前帧。这里，视频流例如是从网络实时获取的视频数据流或者从本地获取的视频数据流，本申请对此不做限制。

在步骤 402中，获取视频流中当前帧的上一帧的人脸关键点坐标和与上一帧的人脸关键点坐标对应的置信度。

在步骤 403中，分配内存资源，基于内存资源、上一帧的人脸关键点坐标和与上一帧的人脸关键点坐标对应的置信度，利用基于深度学习的网络模型，确定当前帧的人脸关键点坐标和与当前帧的人脸关键点坐标对应的置信度。

在一个实施例中，为了分配内存资源，步骤 403可以计算网络模型中每一层网络所需的存储空间。另外，步骤 403将各层所需的存储空间中的最大值作为预分配的存储空间的大小。这样，步骤 403可以根据预分配的存储空间的大小为网络模型分配内存资源。

在一个实施例中，当确定与上一帧的人脸关键点坐标对应的置信度超过预设阔值时，步骤 403可以根据上一帧图像的人脸关键点坐标确定当前帧中第一基准人脸区域。这样，步骤 403可以利用网络模型对第一基准人脸区域进行处理，以确定当前帧的人脸关联点坐标和与当前帧的人脸关键点坐标对应的置信度。

在一个实施例中，网络模型例如可以包括公共网络部分、关键点预测分支和置信度预测分支。步骤 403可以通过公共网络部分对第一基准人脸区域进行特征提取，以获取相应的特征提取结果。在此基础上，步骤 403可以利用关键点预测分支对特征提取结果进行处理，以获取当前帧的人脸关键点坐标。另外，步骤 403可以利用置信度预测分支对特征提取结果进行处理，以确定与当前帧的人脸关键点坐标对应的置信度。

在一个实施例中，对于公共网络部分任意相邻的两个层，步骤 403可以在所分配的内存资源中，将这两个层中前一层的数据输入区作为后一层的数据输出区，将前一层的数据输出区作为后一层的数据输入区，以及将前一层的临时数据区作为后一层的临时数据区。

在一个实施例中，为了在所分配的内存资源中同时执行置信度预测分支和关联点预测分支，步骤 403可以将内存资源中划分为用于置信度预测分支的第一子区域和用于关键点预测分支的第二子区域。具体而言，对于置信度预测分支中非首层的任意相邻两层，在第一子区域中将这两个层中前一层的数据输入区作为后一层的数据输出区，将前一层的数据输出区作为后一层的数据输入区，前一层的临时数据区作为后一层的临时数据区、对于关键点预测分支中非首层的任意相邻两层，在第二子区域中将这两个层中前一层的数据输入区作为后一层的数据输出区，将前一层的数据输出区作为后一层的数据输入区，前一层的临时数据区作为后一层的临时数据区。换言之，第一和第二子区域各自可以包括一个数据输入区、一个数据输出区和一个临时数据区。综上，步骤 403可以使得所分配的内存资源中同时计算当前帧的人脸关键点坐标和置信度。

在一个实施例中，当确定与上一帧的人脸关键点坐标对应的置信度未超过预设阔值，或者未获取到上一帧的人脸关键点坐标和与上一帧的人脸关键点坐标对应的置信度时，步骤 403可以通过人脸检测算法对当前帧进行检测，以确定第二基准人脸区域。在此基础上，步骤 403可以利用网络模型对所述第二基准人脸区域进行处理，以确定当前帧的人脸关键点坐标和与当前帧的人脸关键点坐标对应的置信度。

综上，本申请的人脸跟踪方法，可以利用所分配的一块内存资源同时计算当前帧的人脸关键点坐标和置信度，从而可以利用有限的内存资源快速对人脸进行准确跟踪。

本申请实施例还提供一种移动终端，如图 5 所示，该移动终端可以包括射频（RF, Radio Frequency )电路 501、包括有一个或一个以上计算机可读存储介质的存储器 502、输入单元 503、显示单元 504、传感器 505、音频电路 506、无线保真（WiFi, Wireless Fidelity)模块 507、包括有一个或者一个以上处理核心的处理器 508、以及电源 509等部件。本领域技术人员可以理解，图 5中示出的移动终端结构并不构成对移动终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

存储器 502可用于存储软件程序以及模块，处理器 508通过运行存储在存储器 502的软件程序以及模块，从而执行各种功能应用以及数据处理。

处理器 508是移动终端的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器 502内的软件程序和 /或模块，以及调用存储在存储器 502 内的数据，执行移动终端的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器 508可包括一个或多个处理核心.优选的，处理器 508可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器 508中。

具体在本实施例中，移动终端中的处理器 508会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器 502 中，并由处理器 508来运行存储在存储器 502中的应用程序，从而实现各种功能：

获取需要进行人脸跟踪的视频流、以及深度学习的网络模型，为该网络模型分配内存资源，使得该网络模型的所有层共享同一存储空间，基于分配的内存资源和该网络模型对该视频流中的人脸进行跟踪。

例如，具体可以计算该网络模型中每一层网络所需的存储空间，比如获取网络模型的配置文件，根据该配置文件计算该网络模型中每一层网络所需的存储空间，然后，将各层所需的存储空间中的最大值作为预分配的存储空间的大小，根据该预分配的存储空间的大小为该网络模型分配内存资源，等等。

其中，该网络模型的结构可以根据实际应用的需求进行设置，比如，该网络模型可以包括公共网络部分、关键点预测分支和置信度预测分支等。此外，该公共网络部分、关键点预测分支和置信度预测分支的层次也可以根据实际应用的需求而定，具体可参见前面的方法实施例，在此不再赘述。

其中，基于分配的内存资源和该网络模型对该视频流中的人脸进行跟踪的方式可以有多种，例如，可以获取当前帧的上一帧图像的人脸关键点坐标和置信度，然后，基于分配的内存资源、该网络模型、上一帧图像的人脸关键点坐标和置信度预测当前帧的人脸关键点坐标和置信度，等等，即该存储在存储器

502中的应用程序，还可以实现如下功能：

根据该视频流确定当前需要处理的图像，得到当前帧；获取当前帧的上一帧图像的人脸关键点坐标和置信度；基于分配的内存资源、该网络模型、上一帧图像的人脸关键点坐标和置信度预测当前帧的人脸关键点坐标和置信度，并返回执行根据该视频流确定当前需要处理的图像的步骤，直至该视频流中的图像均处理完毕。

需说明的是，若上一帧的置信度不高于预设阔值，则表明上一帧的人脸关键点坐标的参考价值较低，因此，此时可以釆用检测的方式来获取当前帧中人脸关键点坐标；同理，若获取不到当前帧的上一帧图像的人脸关键点坐标和置信度，比如当前帧为该视频流的首帧，也同样可以釆用检测的方式来获取当前帧中人脸关键点坐标，即该存储在存储器 402中的应用程序，还可以实现如下功能：

在获取不到当前帧的上一帧图像的人脸关键点坐标和置信度，或者，确定上一帧图像的置信度小于等于预设阔值时，基于分配的内存资源，通过人脸检测算法对当前帧进行检测，以确定当前帧的第二基准人脸区域，并通过网络模型对第二基准人脸区域进行处理，以获取当前帧的人脸关键点坐标和置信度。。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本实施例的移动终端在需要对视频流进行深度学习，以进行人脸跟踪时，可以获取相应的深度学习的网络模型，并为该网络模型分配内存资源，使得该网络模型的所有层共享同一存储空间，然后，基于分配的内存资源和网络模型对该视频流进行处理，以实现人脸的实时跟踪；由于在该方案中，网络模型的所有层都可以共享同一存储空间，因此，无需为网络模型的每一层都分配一独立的存储空间，不仅可以大大节省内存的占用，提高计算效率，而且，由于只需分配一次，所以，也可以大大降低分配操作的次数，减少存储碎片，有利于提高应用程序性能。

此外，由于该方案对内存的需求较少，且计算效率较高，因此，对设备性能的要求较低，可以适用于移动终端等设备，所以，相对于将深度学习前向算法放置在服务器端的方案而言，可以更加高效灵活地对人脸进行跟踪，有利于提高用户体验。本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器（ ROM, Read Only Memory )、随机存取记忆体 ( RAM, Random Access Memory) . 磁盘或光盘等。

以上对本申请实施例所提供的一种人脸跟踪方法和装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

权利要求书

1、一种人脸跟踪方法，应用于终端设备，该方法包括：

获取需要进行人脸跟踪的视频流以及深度学习的网络模型；

为所述网络模型分配内存资源 , 使得所述网络模型的所有层共享同一存储空间；

基于分配的内存资源和所述网络模型对所述视频流中的人脸进行跟踪。

2、如权利要求 1所述的方法，其中，所述为所述网络模型分配内存资源，使得所述网络模型的所有层共享同一存储空间，包括：

计算所述网络模型中每一层网络所需的存储空间；

将各层所需的存储空间中的最大值作为预分配的存储空间的大小；根据所述预分配的存储空间的大小为所述网络模型分配内存资源。

3、如权利要求 2所述的方法，其中，所述计算所述网络模型中每一层网络所需的存储空间，包括：

获取所述网络模型的配置文件；

根据所述配置文件计算所述网络模型中每一层网络所需的存储空间。

4、如权利要求 1至 3任一项所述的方法，其中，所述基于分配的内存资源和所述网络模型对所述视频流中的人脸进行跟踪，包括：

根据所述视频流确定当前需要处理的图像，得到当前帧；

获取当前帧的上一帧图像的人脸关键点坐标和置信度；

基于分配的内存资源、所述网络模型、上一帧图像的人脸关键点坐标和置信度预测当前帧的人脸关键点坐标和置信度，并返回执行根据所述视频流确定当前需要处理的图像的步骤，直至所述视频流中的图像均处理完毕。

5、如权利要求 4所述的方法，其中，所述基于分配的内存资源、所述网络模型、上一帧图像的人脸关键点坐标和置信度预测当前帧的人脸关键点坐标和置信度，包括：

当确定所述上一帧图像的所述置信度大于预设阔值时，根据所述上一帧图像的人脸关键点坐标确定当前帧中第一基准人脸区域；

利用所述网络模型对所述当前帧中所述第一基准人脸区域对应的区域进行计算，以确定所述当前帧的人脸关联点坐标和表示所述当前帧的人脸关键点坐标和与所述当前帧的人脸关键点坐标对应的置信度。

6、如权利要求 5所述的方法，其中，所述网络模型包括公共网络部分、关键点预测分支和置信度预测分支；所述确定所述当前帧的人脸关联点坐标和表示所述当前帧的人脸关键点坐标和与所述当前帧的人脸关键点坐标对应的置信度，包括：

通过所述公共网络部分对所述第一基准人脸区域对应的区域进行特征提取，以获取相应的特征提取结果；；

利用所述关键点预测分支对所述特征提取结果进行处理，以获取所述当前帧的人脸关键点坐标；

利用所述置信度预测分支对所述特征提取结果进行处理，以确定与所述当前帧的人脸关键点坐标对应的置信度。

7、如权利要求 4所述的方法，还包括：

在获取不到当前帧的上一帧图像的人脸关键点坐标和置信度，或者，确定上一帧图像的置信度小于等于预设阔值时，基于分配的内存资源，通过人脸检测算法对当前帧中的人脸进行检测，以确定第二基准人脸区域；

利用所述网络模型对所述第二基准人脸区域进行处理，以确定当前帧的人脸关键点坐标和与当前帧的人脸关键点坐标对应的置信度。

8、一种人脸跟踪方法，应用于终端设备，该方法包括：

获取来自一个视频流的一个图像帧，并将其作为当前帧；

获取所述视频流中所述当前帧的上一帧的人脸关键点坐标和与所述上一帧的人脸关键点坐标对应的置信度；以及

分配内存资源，基于所述内存资源、所述上一帧的人脸关键点坐标和与所述上一帧的人脸关键点坐标对应的置信度，利用基于深度学习的网络模型，确定所述当前帧的人脸关键点坐标和与所述当前帧的人脸关键点坐标对应的置信度。

9、如权利要求 8所述的方法，其中，所述分配内存资源，包括：

计算所述网络模型中每一层网络所需的存储空间；

将各层所需的存储空间中的最大值作为预分配的存储空间的大小；根据所述预分配的存储空间的大小为所述网络模型分配所述内存资源。

10、如权利要求 8所述的方法，其中，所述基于所述内存资源、所述上一帧的人脸关键点坐标和与所述上一帧的人脸关键点坐标对应的置信度，利用基于深度学习的网络模型，确定所述当前帧的人脸关键点坐标和与所述当前帧的人脸关键点坐标对应的置信度，包括：

当确定与所述上一帧的人脸关键点坐标对应的所述置信度超过预设阔值时，根据所述上一帧图像的人脸关键点坐标确定当前帧中第一基准人脸区域；利用所述网络模型对所述第一基准人脸区域进行处理，以确定所述当前帧的人脸关联点坐标和与所述当前帧的人脸关键点坐标对应的置信度。

11、如权利要求 8所述的方法，所述基于所述内存资源、所述上一帧的人脸关键点坐标和与所述上一帧的人脸关键点坐标对应的置信度，利用基于深度学习的网络模型，确定所述当前帧的人脸关键点坐标和与所述当前帧的人脸关键点坐标对应的置信度，包括：

当确定与所述上一帧的人脸关键点坐标对应的所述置信度未超过预设阔值或者未获取到所述上一帧的人脸关键点坐标和与所述上一帧的人脸关键点坐标对应的所述置信度时，通过人脸检测算法对当前帧进行检测，以确定第二基准人脸区域；

利用所述网络模型对所述第二基准人脸区域进行处理，以确定当前帧的人脸关键点坐标和与所述当前帧的人脸关键点坐标对应的置信度。

12、如权利要求 10所述的方法，其中，所述网络模型包括公共网络部分、关键点预测分支和置信度预测分支；所述利用所述网络模型对所述第一基准人脸区域进行处理，以确定所述当前帧的人脸关联点坐标和与所述当前帧的人脸关键点坐标对应的置信度，包括：

通过所述公共网络部分对所述第一基准人脸区域进行特征提取，以获取相应的特征提取结果；

13、如权利要求 12所述的方法，其中，所述通过所述公共网络部分对所述第一基准人脸区域进行特征提取，以获取相应的特征提取结果，包括：对于所述公共网络部分任意相邻的两个层，在所述内存资源中将这两个层中前一层的数据输入区作为后一层的数据输出区，将前一层的数据输出区作为后一层的数据输入区，以及将前一层的临时数据区作为后一层的临时数据区；

所述利用所述关键点预测分支对所述特征提取结果进行处理，以获取所述当前帧的人脸关键点坐标，以及利用所述置信度预测分支对所述特征提取结果进行处理，以确定与所述当前帧的人脸关键点坐标对应的置信度，包括：

将所述内存资源中划分为用于所述置信度预测分支的第一子区域和用于所述关键点预测分支的第二子区域；

对于所述置信度预测分支中非首层的任意相邻两层，在所述第一子区域中将这两个层中前一层的数据输入区作为后一层的数据输出区，将前一层的数据输出区作为后一层的数据输入区，前一层的临时数据区作为后一层的临时数据区；

对于所述关键点预测分支中非首层的任意相邻两层，在所述第二子区域中将这两个层中前一层的数据输入区作为后一层的数据输出区，将前一层的数据输出区作为后一层的数据输入区，前一层的临时数据区作为后一层的临时数据区。

14、一种终端设备，包括：处理器和存储器；所述存储器中存储有计算机可读指令，可以使所述处理器：

获取需要进行人脸跟踪的视频流以及深度学习的网络模型；

为所述网络模型分配内存资源 , 使得所述网络模型的所有层共享同一存储空间；以及

15、如权利要求 14所述的终端设备，所述处理器进一步执行所述计算机可读指令，用于：

计算所述网络模型中每一层网络所需的存储空间；

16、如权利要求 15所述的终端设备，所述处理器进一步执行所述计算机可读指令，用于：

获取所述网络模型的配置文件；

17、如权利要求 14至 16任一项所述的终端设备，所述处理器进一步执行所述计算机可读指令，用于：

根据所述视频流确定当前需要处理的图像，得到当前帧；

获取当前帧的上一帧图像的人脸关键点坐标和置信度；

18、如权利要求 17所述的终端设备，所述处理器进一步执行所述计算机可读指令，用于：

19、如权利要求 18所述的终端设备，其中，所述网络模型包括公共网络部分、关键点预测分支和置信度预测分支；所述处理器进一步执行所述计算机可读指令，用于：

20、如权利要求 17所述的终端设备，所述处理器进一步执行所述计算机可读指令，用于：在获取不到当前帧的上一帧图像的人脸关键点坐标和置信度，或者，确定上一帧图像的置信度小于等于预设阔值时，基于分配的内存资源，通过人脸检测算法对当前帧进行检测，以确定第二基准人脸区域；

21、一种终端设备，包括：处理器和存储器；所述存储器中存储有计算机可读指令，可以使所述处理器：

获取来自一个视频流的一个图像帧，并将其作为当前帧；

22、如权利要求 21所述的终端设备，所述处理器进一步执行所述计算机可读指令，用于：

计算所述网络模型中每一层网络所需的存储空间；

23、如权利要求 21所述的终端设备，所述处理器进一步执行所述计算机可读指令，用于：

24、如权利要求 21所述的终端设备，所述处理器进一步执行所述计算机可读指令，用于：

当确定与所述上一帧的人脸关键点坐标对应的所述置信度未超过预设阔值或者未获取到所述上一帧的人脸关键点坐标和与所述上一帧的人脸关键点坐标对应的所述置信度时，通过人脸检测通过人脸检测算法对当前帧中的人脸进行检测，以确定第二基准人脸区域；

25、如权利要求 23所述的终端设备，其中，所述网络模型包括公共网络部分、关键点预测分支和置信度预测分支；所述处理器进一步执行所述计算机可读指令，用于：

26、如权利要求 25所述的终端设备，所述处理器进一步执行所述计算机可读指令，用于：

对于所述公共网络部分任意相邻的两个层，在所述内存资源中将这两个层中前一层的数据输入区作为后一层的数据输出区，将前一层的数据输出区作为后一层的数据输入区，以及将前一层的临时数据区作为后一层的临时数据区；当执行所述置信度预测分支和所述关键点预测分支时，将所述内存资源中划分为用于所述置信度预测分支的第一子区域和用于所述关键点预测分支的第二子区域；

27、一种非易失性存储介质，存储有一个或多个程序，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行权利要求 1-13中任一项所述方法的指令。