WO2021213158A1

WO2021213158A1 - 一种智能视频会议终端的实时人脸摘要服务的方法及系统

Info

Publication number: WO2021213158A1
Application number: PCT/CN2021/084231
Authority: WO
Inventors: 张晓帅
Original assignee: 厦门亿联网络技术股份有限公司
Priority date: 2020-04-20
Filing date: 2021-03-31
Publication date: 2021-10-28
Also published as: CN111770299B; CN111770299A

Abstract

本发明公开了一种智能视频会议终端的实时人脸摘要服务的方法及系统，属于人脸识别技术领域。本发明包括初始化模型；获取视频帧；利用人脸检测模型对预处理后的帧图像进行人脸检测；利用人脸检测结果，初始化跟踪器，并人脸进行人脸跟踪，跟踪捕获人脸的位置信息；利用人脸对齐模型，得到人脸关键点的坐标，然后采用相似变换将人脸变换到标准人脸图像；利用人脸识别模型，进行人脸特征映射，识别出帧图像中的人脸；将识别出的人脸图像录入人脸画廊中，并通过人脸优选，更新人脸画廊。本发明的方法进行人脸摘要服务的质量好，清晰度高，并且计算速度快，实时性好，无需借助大型计算平台，可以直接应用于视频会议终端，降低了成本。

Description

一种智能视频会议终端的实时人脸摘要服务的方法及系统

技术领域

本发明属于人脸识别技术领域，具体涉及一种智能视频会议终端的实时人脸摘要服务的方法及系统。

背景技术

随着经济和科技的发展，办公模式也在不断地发生着转变，视频会议也在各领域的地位逐渐突显出来。在视频会议中，很重要的一项技术就是人脸摘要服务，即将参与会议的人员的人脸都显示在人脸画廊中。对于视频会议，人脸摘要是根据视频画面采集人脸图像，然后录入到人脸画廊中，人脸画廊的作用是为了存储参会人员的人脸特征，筛选成高质量的人脸块作为显示，因此，人脸摘要服务技术面临很多技术问题，例如视频会议中会在同一场景中出现若干人脸，如何将更加清晰的人脸显示在人脸画廊中，另一方面，因为视频会议的图像都是动态的，如何快速地、实时地将视频中人脸提取出来，显示在人脸画廊中。

随着人工智能技术的发展，科研人员提出了很多生成人脸摘要的方法，例如申请号为201510158931.9的中国专利公开了一种基于人脸识别的人脸摘要方法、视频摘要方法，该方法包括生成出现在原始视频中的不同人的人脸图像，并形成出现的人脸图像列表，包括对原始视频中的图像帧进行扫描，获得视频帧中是否存在人脸区域的人脸检测、人脸特征提取、人脸特征聚类和人脸摘要图像生成等步骤。

然而采用现有技术中的方法，虽然能够生成人脸摘要以及视频摘要，但是现有技术中的方法，存在很多问题，首先就是生成的人脸摘要的清晰度问题，现有的方法直接采用人脸识别的方法生成人脸摘要，但是由于视频场景中光照变化、运动模糊、人脸比例等复杂多变的场景，严重影响了人脸的识别率，导致人脸摘要清晰程度较低，难以满足场景需求。其次，目前的人脸摘要生成方法中，采用的多为神经网络模型完成人脸识别、人脸检测，而现有技术中采用神经网络模型，往往比较大，从而导致计算量非常大，很难直接部署在终端设备上，为了能够实现快速地检测和识别视频中的人脸，往往需要借助大的机器平台，例如部署在云端服务器上，但是采用这样的方法，进行人脸检测、识别等操作是在云端服务器上完成，然后再返回到终端设备上，会造成延迟、实时性较差等情况，从而影响了人脸摘要服务的质量，因此很难满足视频会议等场景的需要。

综上分析，现有的人脸摘要服务的方法，人脸摘要服务的质量差、清晰度低，并且计算量大，导致难以快速地、实时准确地生成人脸摘要，并且不能直接将算法模型部署在终端设备上，需借助大型计算设备，实时性差、成本较高。

发明内容

技术问题：本发明提供了一种智能视频会议终端的实时人脸摘要服务的方法及系统，本发明能够生成质量好、清晰度高的人脸摘要，并且该方法计算量小、计算速度快、实时性好，能够直接部署在终端设备上，降低了计算成本。

技术方案：本发明的智能视频会议终端的实时人脸摘要服务的方法，包括：

S1：初始化人脸检测模型、人脸对齐模型、人脸识别模型以及人脸画廊，并进行模型加载和内存分配；

S2：获取视频帧，并对帧图像进行预处理；

S3：利用人脸检测模型对预处理后的帧图像进行人脸检测；

S4：利用人脸检测结果，初始化跟踪器，利用跟踪器对视频帧中的人脸进行人脸跟踪，跟踪捕获人脸的位置信息；

S5：根据人脸检测或人脸跟踪，输出的人脸检测框坐标裁剪出人脸图像块，将人脸图像块输入人脸对齐模型中，得到人脸关键点的坐标，然后采用相似变换将人脸变换到标准人脸图像；

S6：将标准人脸图像输入到人脸识别模型，根据人脸上具有区分度的特征，进行人脸特征映射，得到向量化的人脸特征数据，识别出帧图像中的人脸；

S7：将识别出的人脸图像录入人脸画廊中，并通过人脸优选，更新人脸画廊。

进一步地，所述步骤S7中，通过人脸优选，更新人脸画廊时，先判断人脸画廊中是否存在预先录入的人脸图像信息，并根据判断结果，分别执行如下操作：

若人脸画廊中无预先录入的人脸图像信息，则自动录入视频中出现的人脸图像信息，并通过人脸优选，随时间自动更新高质量的人脸图像，并保存所有出现在画廊中的人脸；

若人脸画廊中存在预先录入的人脸图像信息，则标定对应人脸ID名称，并将在视频中出现的但在人脸画廊中未预先录入的人脸图像录入人脸画廊中，然后通过人脸优选不断更新画廊中的人脸图像。

进一步地，所述人脸优选的方法包括：

根据人脸检测输出的人脸检测框，过滤掉人脸检测框面积小于人脸面积阈值的人脸图像；

根据人脸检测输出的置信度得分，过滤掉置信度得分小于置信度阈值的人脸图像；

根据人脸关键点，计算人脸的姿态得分，过滤掉姿态得分小于姿态得分阈值的人脸图像；

采用SMD算法，计算人脸图像的清晰度，并过滤掉清晰度低于清晰度阈值的人脸图像；

根据人脸检测框的面积、置信度得分、姿态得分及清晰度，计算人脸质量值。

进一步地，根据人脸检测框的面积、置信度得分、姿态得分及清晰度，计算人脸质量值的方法为：

Q＝10000×Q _c+3×Q _a+Q _f+2×Q _s

式中，Q表示人脸质量值，Q _c表示人脸置信度得分，Q _a表示人脸面积得分；Q _s表示人脸清晰度，Q _f表示人脸姿态角度，其中Q _a＝1-人脸检测框面积/7680。

进一步地，所述步骤S7中，对人脸画廊进行更新的具体方法为：

对人脸的相似度进行判断，若当前帧图像中的人脸与之前已录入人脸画廊的人脸相似度高于给定阈值，判定此人脸已出现过，然后计算出当前人脸图像的质量值，若高于画廊内的人脸的质量值，则进行出现在画廊中的人脸的更新替换；

若当前帧图像中的人脸与之前已录入人脸画廊的相似度低于给定阈值，则判定有新的人员进入，先通过人脸优选过滤掉一些不满足画廊录入要求的人脸图像，将满足要求的人脸图像加入到人脸画廊；

若视频帧中人脸被录入人脸画廊中后，某些人脸图像从视频帧中消失，超过时间阈值未再次出现在视频中，则删除人脸画廊中对应的人脸图像。

进一步地，所述步骤S4中，采用单目标跟踪方案，跟踪器初始化时，为检测到的每个人脸检测框初始化一个跟踪器，并且在跟踪周期内，由跟踪器输出当前帧中人脸的检测框坐标。

进一步地，所述人脸检测模型，采用级联的卷积神经网络进行人脸检测，所述级联的卷积神经网络依次由P-Net、R-Net和O-Net网络级联，所述P-Net网络采用标准卷积粗略筛选出视频帧中人脸检测框，R-Net网络和O-Net利用标准卷积和深度可分卷积提取图像中的人脸特征数据，用于过滤和细化人脸检测框，得到最终人脸位置信息。

进一步地，所述人脸对齐模型，利用卷积神经模型提取人脸的关键点，所述卷积神经网络模型利用标准卷积和深度可分卷积提取人脸的关键点特征，并采用一个FC全连接层作为卷积神经网络模型的输出。

进一步地，所述人脸识别网络模型采用若干个串联的MBConv卷积网络模块，提取人脸上有区分度的特征，并进行特征映射，识别出视频帧中的人脸。

进一步地，在将人脸图像块送入人脸识别模型进行人脸识别前，对人脸图像块进行二次检测，防止误检。

本发明的智能视频会议终端的实时人脸摘要服务的系统，采用本发明的方法进行智能视频会议终端的实时人脸摘要服务。

有益效果：本发明与现有技术相比，具有以下优点：

(1)本发明的智能视频会议终端的实时人脸摘要服务的方法，通过人脸检测、人脸跟踪、人脸对齐、人脸识别、人脸优选，然后生成人脸画廊并进行更新，相对与现有技术中的方法，本发明加入了人脸优选操作，通过人脸优选操作，在人脸摘要生成的过程中，不断地过滤掉质量差的人脸图像，一方面，加速了人脸摘要的生成速度；另一方面，通过人脸优选，不断地更新人脸画廊中的人脸图像，使得人脸画廊中人脸图像具有更高的质量和清晰度。

(2)本发明的方法中，人脸优选的方法根据人脸检测、人脸跟踪的输出结果，过滤掉人脸检测框面积过小以及置信度得分较低的人脸图像，避免了检测失误的情况；根据人脸姿态得分，过滤掉姿态得分较低的人脸图像，通过此操作，可以过滤掉采集的图像为人脸倾斜或侧脸程度过大的情况；通过计算清晰度，过滤掉因为光照变化、运动模糊等情况引起地图像模糊的情况，通过以上操作，过滤掉不符合要求的图像，可以有效地减少计算量，提高实时性；同时给出了人脸质量值的计算方法，通过人脸的质量值，可以快速地评估人脸图像的质量，快速地更新人脸画廊中的人脸图像质量，从而使得生成的人脸摘要具有更高的质量，更好的清晰度。

(3)本发明采用单目标跟踪器跟踪的方案，为检测到的每个人脸初始化一个跟踪器，并且只跟踪一个跟踪周期，由于人脸跟踪的效率远高于人脸检测，因此通过人脸跟踪实时输出人脸的位置信息，有效地提高了匀速速度，进而提高了方法的人脸摘要服务的实时性；同时，跟踪一个跟踪周期，避免了由于跟踪时间过长出现跟丢或漏人的情况，有效地提高了该方法的准确性。

(4)本发明的人脸检测模型，采用级联的卷积神经网络进行人脸检测，所述级联的卷积神经网络依次由P-Net、R-Net和O-Net网络级联，通过采用级联的卷积神经网络，并且利用标准卷积和深度可分卷积，有效地降低了网络的深度，精简了卷积层的设置，模型的大小只有83Kb，不仅降低了计算量，提高了网络模型的计算速度，从而能够快速地检测出视频帧中的人脸，提高了算法的实时性；并且，卷积神经模型很小，使其能够部署在低能耗的视频会议终端，无需借助大型的计算平台进行计算，不仅提高了实时性，同时降低了成本。

(5)本发明的人脸对齐模型，利用卷积神经模型提取人脸的关键点，所述卷积神经网络模型利用标准卷积和深度可分卷积提取人脸的关键点特征，并采用一个FC全连接层作为卷积神经网络模型的输出，简化了卷积层的设置，降低了神经网络的深度和模型的体积，因此降低了计算量，提高了算法的实时性，并且能够部署在低能耗的视频会议终端，无需借助大型的计算平台进行计算，提高了实时性的同时降低了成本。

(6)本发明的人脸识别模型，采用若干个串联的MBConv卷积网络模块，代替标准卷积，极大地降低了计算量，同时显著地提高了识别的精度，因此在保持高的识别精度的同时，具有较快的计算速度，从而能够更快速准确地将人脸从图像中识别出来。此外，利用MBConv卷积网络模块，使卷积神经网络模型具有较小的体积，能够直接应用于低能耗的视频会议终端，从而降低了成本。

附图说明

图1为本发明智能视频会议终端的实时人脸摘要服务的方法的流程图；

图2为本发明中的人脸检测模型中P-Net网络的结构图；

图3为本发明中的人脸检测模型中R-Net网络的结构图；

图4为本发明中的人脸检测模型中O-Net网络的结构图；

图5为本发明中的人脸对齐模型的卷积神经网络的结构图；

图6为MBConv网络模块的网络结构图；

图7为本发明中的人脸识别模型的卷积神经网络的结构图；

图8为将本发明的方法用于视频会议时的效果图；

图9为将本发明的方法用于视频会议时的效果图；

图10为将本发明的方法用于人脸打卡时的效果图；

图11为将本发明的方法用于人脸打卡时预先录入的人脸图像。

具体实施方式

下面结合实施例和说明书附图对本发明作进一步的说明。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，对附图中出现的英文单词进行说明：Conv表示标准卷积、DwiseConv表示深度可分卷积。

结合图1所示，本发明的智能视频会议终端的实时人脸摘要服务的方法，包括：

S2：获取视频帧，并对帧图像进行预处理；

S3：利用人脸检测模型对预处理后的帧图像进行人脸检测；

说明的是，人脸画廊的作用是为了将出现在视频中的人脸显示。

具体地，本发明的步骤S2中，对帧图像的预处理操作包括：格式转换、缩放处理和归一化。各种算法模型要求的图像输入一般是RGB格式，而实际视频帧的格式根据不同场景是多样化的，如YUV、ARGB等等，格式转换是指将上述格式的图像像素统一转换为RGB排列，以匹配算法模型要求。

缩放处理是指将原始分辨率的图像，如1080P图像，进行等比例缩小化，缩放处理采用的方法是双线性插值，通过进行缩放处理，能够降低算法模型的运行时间耗费，分辨率越大，算法处理时间越长，通过进行缩放处理，能够提高各种模型的计算速度，使得模型具有更好的实时性。

归一化处理是指将0～255图像像素处理到-1～1的范围，归一化处理有助于加快算法模型训练时的收敛速度和提高模型精度，应该说明的是，模型训练和实际测试要求的数据处理必须一致，所以实际进来的图像数据需要进行归一化处理。本发明对图像进行归一化处理采用的公式为：

式中，x表示原始图像的每个像素值，x′表示归一化后的像素值。

人脸检测，用于确定人脸在图像中的大小和位置，即解决“人脸在哪里”的问题，把真正的人脸区域从图像中裁剪出来，便于后续的人脸特征分析与识别。本发明的人脸检测模型采用级联的卷积神经网络进行人脸检测，所述级联的卷积神经网络依次由P-Net、R-Net和O-Net网络级联，所述P-Net网络采用标准卷积粗略筛选出视频帧中人脸检测框，R-Net网络和O-Net利用标准卷积和深度可分卷积提取图像中的人脸特征数据，用于过滤和细化人脸检测框，得到最终人脸位置信息。说明的是，标准卷积是指一般通用的卷积形式。通过人脸检测模型，输出当前视频帧中出现的人数、置信度分数、以及人脸检测框的坐标。

具体的，结合图2所示，P-Net(Proposal Network，生成网络)网络的网络结构为：依次连接的卷积层C101和卷积层C102，卷积层C102连接卷积层C103和卷积层C104。卷积层C101～C104均采用标准卷积，其中卷积层C101的核大小为3×3，通道数为8；卷积层C102的核大小为3×3，通道数为16；卷积层C103的核大小为3×3，通道数为4；卷积层C104的核大小为3×3，通道数为2。

结合图3所示，R-Net(Refine Network，提炼网络)网络的网络结构：包括依次连接的卷积层C201、卷积层C202、卷积层C203、卷积层C204、卷积层C205、卷积层C206，卷积层206连接全连接层FC201和全连接层FC202用于输出。其中，卷积层C201、卷积层C203、卷积层C205均采用标准卷积，且卷积层C201的核大小为3×3，通道数为16；卷积层C203的核大小为1×1，通道数为32；卷积层C205的核大小为1×1，通道数为64。卷积层C202、卷积层C204、卷积层C206均采用深度可分卷积，且核大小均为3×3，全连接层FC201、FC202的神经元数量均为64，其中全连接层FC201用于做分类判断，全连接层FC202用于输出人脸检测框的坐标值。

在本发明的实施例中，所述R-Net网络的输入的大小为24×24×3。

结合图4所示，O-Net(Output Network，输出网络)网络的网络结构：包括依次连接的卷积层C301、卷积层C302、卷积层C303、卷积层C304、卷积层C305、卷积层C306、卷积层C307、卷积层C308，卷积层C308连接全连接层FC301、全连接层FC302用于输出。卷积层C301、卷积层C303、卷积层C305、卷积层C307均采用标准卷积，且卷积层C301的核大小为3×3，通道数为16；卷积层C303的核大小为1×1，通道数为32；卷积层C305的核大小为1×1，通道数为64；卷积层C307的核大小为1×1，通道数为128。卷积层C302、卷积层C304、卷积层C306、卷积层C308均采用深度可分卷积，且核大小均为3×3，全连接层FC1、FC2的节点数均为128，其中全连接层FC1用于做分类判断，全连接层FC2用于输出人脸检测框的坐标值。在本发明的实施例中，O-Net网络的输入的大小为32×32×3。

本发明的人脸检测模型，采用级联式的卷积神经网络，并且利用深度可分卷积和标准卷积，精简了网络层的深度和卷积层的设置，使得整体的检测模型大小只有86Kb，实现了低功耗的视频会议终端的实时人脸检测，无需借助大型的计算设备，即能快速、实时地识别出视频中的人脸，因此不仅计算速度快，实时性好，同时还能够降低成本。

人脸跟踪，用于在检测到人脸的前提下，在后续帧中继续捕获人脸的位置信息，跟踪器初始化依赖于人脸检测输出的人脸检测框坐标的坐标，通常情况下，跟踪的时间效率要远超于检测效率，因此通过跟踪实时输出人脸信息，利于提高方法的实时性。在本发明的方法中，为了缓解长时间跟踪会存在跟丢或漏人的情况，设置了跟踪周期period以及参数MAX，意思是一个跟踪周期period最多为MAX帧，MAX值一般设置为10～25。本发明的方法，在步骤S4中，采用的是单目标跟踪方案，在跟踪器初始化时，为检测到的每张人脸初始化一个跟踪器，并且在跟踪周期内，由跟踪器输出当前帧中人脸的位置信息，即根据设定的MAX值，跟踪MAX帧视频图像。通过人脸跟踪，可以实时地输出人脸位置信息，降低了人脸检测的压力，提高了方法的实时性。

人脸对齐，因为同一个人在不同的图像序列中可能呈现出不同的姿态和表情，这种情况是不利于人脸识别的，所以有必要将人脸图像都变换到一个统一的角度和姿态。原理是找到人脸的关键点，在本发明的实时例中，共五个关键点，分别为左眼、右眼、鼻子、左嘴角和右嘴角，然后利用这些关键点通过相似变换(旋转、缩放和平移)将人脸尽可能变换到标准人脸，由此完成人脸对齐过程。

为了识别出人脸的五个关键点，为本发明的人脸对齐模型设计了关键点检测卷积神经网络用于检测人脸的关键点，具体地，结合图5所示，关键点检测卷积神经网络的网络结构为：包括依次连接的卷积层C401、卷积层C402、卷积层C403、卷积层C404、卷积层C405、卷积层C406、卷积层C407、卷积层C408、卷积层C409、卷积层C410、全连接层FC401。其中卷积层C401、卷积层C403、卷积层C405、卷积层C407、卷积层C409均采用标准卷积，卷积层C401的核大小均为3×3，通道数为16；卷积层C403、卷积层C405、卷积层C407和卷积层C409的核大小均为1×1，其中卷积层C403的通道数为32，卷积层C405的通道数为48，卷积层C407的通道数为64，卷积层C409的通道数为96。卷积层C402、卷积层C404、卷积层C406、卷积层C408、卷积层C410均采用深度可分卷积，且核大小均为3×3，所述全连接层FC1的神经元数量为96。采用关键点检测网络，识别出人脸的关键点的坐标，在本发明的实施例中，关键点为：左眼、左嘴角、右眼、右嘴角和鼻子，因此通过关键点检测网络，识别出五个关键点的坐标值。

在具体的操作中，需要根据人脸检测或人脸跟踪，输出的人脸检测框坐标裁剪出人脸图像块，将人脸图像块输入人脸对齐模型中，因为对于人脸检测和人脸跟踪都会输出人脸的位置信息，因此可根据人脸检测或人脸跟踪，输出的人脸检测框坐标裁剪出人脸图像块。

本发明的人脸对齐操作，利用卷积神经网络检测人脸的关键点，并且关键点卷积神经网络模型，利用标准卷积和深度可分卷积，识别人脸的关键点，精简了网络层的深度和卷积层的设置，并且只采用了一个全连接层输出，显著降低了模型体积，该模型的体积小于2M，从而能够用于低功耗的视频会议终端，从而能够不借助大型的计算设备，即能快速、实时地是被出人脸的关键点，便于其他操作。

人脸识别，特指将检测框中的人脸特征映射，通过深度学习特征建模得到向量化的人脸特征，依照分类器判别得到人脸识别的结果。人脸识别模型关键是怎样得到不同人脸中有区分度的特征，通常在识别一个人时会看他的眉形、脸轮廓、鼻子形状、眼睛的类型等，人脸识别算法要通过网络训练得到类似这样的有区分度的特征。为了进行人脸识别，本发明构建了如图7所示的人脸识别卷积神经网络模型，该卷积神经神经网络模型利用标准卷积核若干个MBConv网络模块进行人脸特征识别。具体地，人脸识别的卷积神经网络模型的结构为：依次连接的卷积层C501、卷积模块MBC-1～MBC-16、卷积层C502、卷积层C503、卷积层C504，其中卷积层C501、卷积层C502、卷积层C504采用标准卷积，卷积层C501的核大小为3×3，卷积层C502的核大小为1×1，卷积层C504的核大小为1×1，卷积层C503采用全局深度卷积(GlobalDepthwise Convolution，GDC)，核大小为5×4。

MBConv(Mobile inverted Bottleneck Convolution，逆残差卷积网络模块)网络模块的网络结构，如图6所示：包括依次连接的卷积层C601、卷积层C602和卷积层C603，其中卷积层C601、C603采用标准卷积，且核大小均为1×1，卷积层C603采用深度可分卷积，核大小为3×3；卷积模块的输入依次通过卷积层C601、C602和C603，从卷积层C603输出后再与卷积模块的输入通过残差连接，作为卷积模块的输出。

MBConv网络模块，有两个参数，即核大小和通道数，在本发明采用的如图7所示的卷积神经网络结构中，MBC-1模块的核大小为3×3，通道数为1；MBC-2～MBC-4模块的核大小均为3×3，通道数均为3；MBC-5模块的核大小为3×3，通道数为3； MBC-6～MBC-12模块的核大小均为3×3，通道数均为6；MBC-13模块的核大小为3×3，通道数为3；MBC-14～MBC-16模块的核大小均为3×3，通道数均为6。采用本发明实施例的网络模型，采用MBConv模块代替传统的标准卷积层，有效地降低了计算量，并且具有较高的精度，因此在极大地提高了运算速度和识别精度。此外该模型的体积小于2M，因此能够直接部署在视频会议终端，因此无需借助大型计算设备进行计算，不仅提高了实时性，同时有效地降低了成本。

为了使得训练出来的人脸特征具有更好的泛化能力，本发明在对人脸识别的卷积神经网络模型训练时，采用了ArcFace算法，从而使得训练出来的人脸特征具有较好的泛化能力。为了更快的实现在视频会议终端的网络推理，在进行模型训练时，对训练集图像进行了人工的清洗，去掉干扰部分，又进行了裁切处理，裁切掉图像上方和左右信息量较少的部分，从而使得训练出来的卷积神经网络模型能够应用于视频会议终端，并不需要借助大型的计算设备即可应用，从而满足实时视频会议系统的需求。

本发明的步骤S7中，通过人脸优选，更新人脸画廊时，先判断人脸画廊中是否存在预先录入的人脸图像信息，并根据判断结果，分别执行如下操作：若人脸画廊中无预先录入的人脸图像信息，则自动录入视频中出现的人脸图像信息，并通过人脸优选，随时间自动更新高质量的人脸图像，并保存所有出现在画廊中的人脸；若人脸画廊中存在预先录入的人脸图像信息，则标定对应人脸ID名称，并将在视频中出现的但在人脸画廊中未预先录入的人脸图像录入人脸画廊中，然后通过人脸优选不断更新画廊中的人脸图像。

人脸优选的方法包括：

根据人脸检测输出的人脸检测框，过滤掉人脸检测框面积小于人脸面积阈值的人脸图像，本发明的实施例中，人脸面积阈值的范围为2400～3600。

根据人脸检测输出的置信度得分，过滤掉置信度得分小于置信度阈值的人脸图像，本发明的实施例中，置信度阈值的范围为0.6～0.8。

根据人脸关键点，计算人脸的姿态得分，过滤掉姿态得分小于姿态得分阈值的人脸图像，本发明的实施例中，姿态得分阈值的范围为0.5～1。

采用SMD(Sum of Modulus of gray Difference，灰度差分函数)算法，计算人脸图像的清晰度，并过滤掉清晰度低于清晰度阈值的人脸图像，在本发明的实施例中，清晰度阈值的范围为80～100。

人脸质量值的计算采用如下公式：

Q＝10000×Q _c+3×Q _a+Q _f+2×Q _s

式中，Q表示人脸质量值，Q _c表示人脸置信度得分，Q _a表示人脸面积得分；Q _s表示人脸清晰度，Q _f表示人脸姿态得分，其中Q _a＝1-人脸检测框面积/7680。

其中人脸姿态得分Q _f，根据检测到的人脸关键点进行计算，具体的计算方法为：

确定第一连线：左眼与左嘴角的连线；

确定第二连线：右眼与右嘴角的连线；

通过鼻尖点的水平线分别与第一连线和第二连线相交，交点分别为第一交点和第二交点，鼻尖点到第一交点的距离为第一距离，鼻尖点到第二交点的距离为第二距离，用第一距离与第二距离中的最小值除以最大值，即得到人脸姿态得分Q _f。

对人脸画廊进行更新的具体方法为：

对人脸的相似度进行判断，若当前帧图像中的人脸与之前已录入人脸画廊的人脸相似度高于给定相似度阈值，判定此人脸已出现过，然后计算出当前人脸图像的质量值，若高于画廊内的人脸的质量值，则进行出现在画廊中的人脸的更新替换；

若当前帧图像的人脸与之前已录入人脸画廊的相似度低于给定相似度阈值，则判定有新的人员进入，先通过人脸优选过滤一些不满足画廊录入要求的人脸图像，将满足条件的人脸图像加入到画廊集，这里主要是为了过滤掉一些比较模糊的图像；说明的是，对于人脸画廊的录入要求主要是具有一定的清晰度，具体的，在实际应用中，根据需求进行设定。

在本发明的方法中，人脸的相似度采用余弦相似度进行计算，并且在本发明的一个实施例中，相似度阈值设定为60％，此处应该说明的是，相似度阈值可根据实际应用需求进行调整。

若视频帧中人脸被录入人脸画廊中后，某些人脸图像从视频帧中消失，超过时间阈值未再次出现在视频中，则删除人脸画廊中对应的人脸图像。具体地，因为人脸画廊中可以同时显示的人脸数量是有限的，但有些人脸在视频中出现后，人脸图像被录入到人脸画廊中，但录入后，某些人脸从视频中消失，一段时间后，该人脸都没有再次在视频中出现，为了避免人脸画廊中的人脸越来越多，需要将长时间未在视频中出现人脸删除人脸画廊中对应的人脸图像。具体操作时，对人脸画廊中出现的人脸进行计数统计，并定义时间阈值，人脸图像从视频帧中消失，超过时间阈值未再次出现在视频中，则删除人脸画廊中对应的人脸图像。更通俗地讲，当某个人脸在某一时刻从视频中消失，人脸画廊中对应的人脸会暂停更新，从消失的时刻起，经过时间阈值长度的时间段，该人脸仍未再次出现在视频中，则将人脸画廊中与该人脸对应的人脸图像从人脸画廊中删除。

在本发明的实施例中，时间阈值设定为20分钟，即如果连续20分钟内，人脸没有再次出现在视频中，会将对应的人脸图像从人脸画廊中删除，此处应该说明的是，时间阈值在实际应用时可以根据需求进行修改，并不是严格限定。

应该说明的是，当人脸画廊中初始状态下不存在人脸图像时，先将检测到人脸录入人脸画廊，然后按上述方法，随着时间不断更新。

进一步地，在本发明的优选实施例中，人脸图像块送入人脸识别模型进行人脸识别前，对人脸图像块进行二次检测，防止误检。对人脸图像块进行二次检测，仍然采用本发明的人脸检测的卷积神经网络模型结构，但是，参数会根据需求进行微调。

将本发明的方法，应用于视频会议系统，对于视频会议系统，由于参会的人群具有不确定性，因此通常人脸画廊中无预先录入的人脸图像信息。当人脸画廊中无预先录入的人脸信息时，会自动录入视频中出现的人脸图像信息，并通过人脸优选，随时间自动更新高质量的人脸图像，并保存所有画廊中出现的人脸。图8给出了一个视频会议场景的效果，图9给出了另一个视频会议场景的效果图，从图8和图9可以看出，采用本发明的方法，可以实时地得到人脸摘要，并且，人脸画廊中的人脸图像比较清晰；同时可以看到，有部分人脸是不清楚的，那是因为视频中出现相应的人脸是一些侧脸或者只是在视频中一闪而过的人脸，无法采集到完整的人脸信息。

本发明的方法的应用，不局限于视频会议系统中，也可以有其他应用，例如人脸打卡，图10给出了采用本发明的方法进行人脸打卡的效果图。对于人脸打卡，通常人脸打卡的人都是确定的，因此会提前录入这些人的人脸图像，例如，图11中给出了这些人脸的图像，系统会将这些人脸图像预先录入到人脸画廊中，从图10可以看出，人脸画廊中已经录入了图11中的人脸。在人脸打卡时，当人脸画廊中有与视频中出现的人脸相同的人脸是，在人脸画廊中会标定出人脸ID名称，说明该人员已经打卡成功。

本发明提供了一种智能视频会议终端的实时人脸摘要服务的方法，通过人脸检测、人脸跟踪、人脸对齐、人脸识别、人脸优选，生成和更新人脸画廊，快速实时地生成人脸摘要，采用本发明的方法，人脸摘要服务的质量好，清晰度高；同时，本发明的方法，精简优化了人脸检测、人脸识别、人脸对齐所采用的卷积神经网络模型，使得卷积神经网络模型的计算量降低，从而有效地提高了人脸摘要服务的速度，并且，精简优化后的神经网络模型的体积较小，能直接应用到视频会议系统的智能终端的ARM端，无需借助大型计算设备做辅助计算，使得视频摘要服务的实时性更好，降低了成本。

基于本发明的方法，本发明还提供了一种智能视频会议终端的实时人脸摘要服务的系统，该系统利用本发明的方法进行智能视频会议终端的实时人脸摘要服务。

上述实施例仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和等同替换，这些对本发明权利要求进行改进和等同替换后的技术方案，均落入本发明的保护范围。

Claims

一种智能视频会议终端的实时人脸摘要服务的方法，其特征在于，包括：

S1：初始化人脸检测模型、人脸对齐模型、人脸识别模型以及人脸画廊，并进行模型加载和内存分配；

S2：获取视频帧，并对帧图像进行预处理；

S3：利用人脸检测模型对预处理后的帧图像进行人脸检测；

S4：利用人脸检测结果，初始化跟踪器，利用跟踪器对视频帧中的人脸进行人脸跟踪，跟踪捕获人脸的位置信息；

S5：根据人脸检测或人脸跟踪，输出的人脸检测框坐标裁剪出人脸图像块，将人脸图像块输入人脸对齐模型中，得到人脸关键点的坐标，然后采用相似变换将人脸变换到标准人脸图像；

S6：将标准人脸图像输入到人脸识别模型，根据人脸上具有区分度的特征，进行人脸特征映射，得到向量化的人脸特征数据，识别出帧图像中的人脸；

S7：将识别出的人脸图像录入人脸画廊中，并通过人脸优选，更新人脸画廊。
根据权利要求1所述的一种智能视频会议终端的实时人脸摘要服务的方法，其特征在于，所述步骤S7中，通过人脸优选，更新人脸画廊时，先判断人脸画廊中是否存在预先录入的人脸图像信息，并根据判断结果，分别执行如下操作：

若人脸画廊中无预先录入的人脸图像信息，则自动录入视频中出现的人脸图像信息，并通过人脸优选，随时间自动更新高质量的人脸图像，并保存所有出现在画廊中的人脸；

若人脸画廊中存在预先录入的人脸图像信息，则标定对应人脸ID名称，并将在视频中出现的但在人脸画廊中未预先录入的人脸图像录入人脸画廊中，然后通过人脸优选不断更新画廊中的人脸图像。
根据权利要求2所述的一种智能视频会议终端的实时人脸摘要服务的方法，其特征在于，所述人脸优选的方法包括：

根据人脸检测输出的人脸检测框，过滤掉人脸检测框面积小于人脸面积阈值的人脸图像；

根据人脸检测输出的置信度得分，过滤掉置信度得分小于置信度阈值的人脸图像；

根据人脸关键点，计算人脸的姿态得分，过滤掉姿态得分小于姿态得分阈值的人脸图像；

采用SMD算法，计算人脸图像的清晰度，并过滤掉清晰度低于清晰度阈值的人脸图像；

根据人脸检测框的面积、置信度得分、姿态得分及清晰度，计算人脸质量值。
根据权利要求3所述的一种智能视频会议终端的实时人脸摘要服务的方法，其特征在于，根据人脸检测框的面积、置信度得分、姿态得分及清晰度，计算人脸质量值的方法为：

Q＝10000×Q _c+3×Q _a+Q _f+2×Q _s

式中，Q表示人脸质量值，Q _c表示人脸置信度得分，Q _a表示人脸面积得分；Q _s表示人脸清晰度，Q _f表示人脸姿态角度，其中Q _a＝1-人脸检测框面积/7680。
根据权利要求1所述的一种智能视频会议终端的实时人脸摘要服务的方法，其特征在于，所述步骤S7中，对人脸画廊进行更新的具体方法为：

对人脸的相似度进行判断，若当前帧图像中的人脸与之前已录入人脸画廊的人脸相似度高于给定阈值，判定此人脸已出现过，然后计算出当前人脸图像的质量值，若高于画廊内的人脸的质量值，则进行出现在画廊中的人脸的更新替换；

若当前帧图像中的人脸与之前已录入人脸画廊的相似度低于给定阈值，则判定有新的人员进入，先通过人脸优选过滤掉一些不满足画廊录入要求的人脸图像，将满足要求的人脸图像加入到人脸画廊；

若视频帧中人脸被录入人脸画廊中后，某些人脸图像从视频帧中消失，超过时间阈值未再次出现在视频中，则删除人脸画廊中对应的人脸图像。
根据权利要求1所述的一种智能视频会议终端的实时人脸摘要服务的方法，其特征在于，所述步骤S4中，采用单目标跟踪方案，跟踪器初始化时，为检测到的每个人脸检测框初始化一个跟踪器，并且在跟踪周期内，由跟踪器输出当前帧中人脸的检测框坐标。
根据权利要求1所述的一种智能视频会议终端的实时人脸摘要服务的方法，其特征在于，所述人脸检测模型，采用级联的卷积神经网络进行人脸检测，所述级联的卷积神经网络依次由P-Net、R-Net和O-Net网络级联，所述P-Net网络采用标准卷积粗略筛选出视频帧中人脸检测框，R-Net网络和O-Net利用标准卷积和深度可分卷积提取图像中的人脸特征数据，用于过滤和细化人脸检测框，得到最终人脸位置信息。
根据权利要求1所述的一种智能视频会议终端的实时人脸摘要服务的方法，其特征在于，所述人脸对齐模型，利用卷积神经模型提取人脸的关键点，所述卷积神经网络模型利用标准卷积和深度可分卷积提取人脸的关键点特征，并采用一个FC全连接层作为卷积神经网络模型的输出。
根据权利要求1所述的智能视频会议终端的实时人脸摘要服务的方法，其特征在于，所述人脸识别网络模型采用若干个串联的MBConv卷积网络模块，提取人脸上有区分度的特征，并进行特征映射，识别出视频帧中的人脸。
根据权利要求1-9任一项所述的一种智能视频会议终端的实时人脸摘要服务的方法，其特征在于，在将人脸图像块送入人脸识别模型进行人脸识别前，对人脸图像块进行二次检测，防止误检。
一种智能视频会议终端的实时人脸摘要服务的系统，其特征在于，采用权利要求1-10任一项所述的方法进行智能视频会议终端的实时人脸摘要服务。