WO2022205843A1

WO2022205843A1 - 唇动检测方法、装置、终端设备及计算机可读存储介质

Info

Publication number: WO2022205843A1
Application number: PCT/CN2021/125042
Authority: WO
Inventors: 曾钰胜; 庞建新
Original assignee: 深圳市优必选科技股份有限公司
Priority date: 2021-03-29
Filing date: 2021-10-20
Publication date: 2022-10-06
Also published as: CN112966654B; CN112966654A

Abstract

本申请适用于图像处理技术领域，提供了一种唇动检测方法、装置、终端设备及计算机可读存储介质，包括：检测目标视频的第t帧图像中目标人脸上的唇部关键点，获得唇部关键点信息；根据所述唇部关键点信息计算当前唇距，其中，所述当前唇距表示所述第t帧图像中所述目标人脸上的唇部区域对应的上下唇距离；获取历史唇距，其中，所述历史唇距表示所述目标视频的第t-n帧图像中所述目标人脸上的所述唇部区域对应的上下唇距离；根据所述当前唇距和所述历史唇距之间的唇距差值确定唇动检测结果。通过上述方法，能够有效提高唇动检测的效率和准确度。

Description

唇动检测方法、装置、终端设备及计算机可读存储介质

本申请要求于2021年03月29日在中国专利局提交的、申请号为202110333133.0的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请属于图像处理技术领域，尤其涉及一种唇动检测方法、装置、终端设备及计算机可读存储介质。

背景技术

唇动检测技术是指，通过对人脸图像中唇部区域进行检测、以确定唇部运动状态的一项技术。该项技术在人机交互方面发挥着巨大作用。例如：可以通过唇动检测技术检测用户是否发出指令，进而控制智能设备唤醒。

现有技术中，通常是将当前时刻检测出的人脸图像中的唇部关键点与历史时刻人脸图像中的唇部关键点进行一一匹配，然后根据匹配结果确定各个关键点的位置是否发生了变化，进而确定唇动状态。现有的唇动检测方法需要进行关键点的逐一匹配，计算量较大，检测效率较低，进而影响人机交互的灵敏性；另外，关键点的检测误差也可能造成错误的关键点匹配结果，进而影响唇动检测结果的准确性。

技术问题

本申请实施例提供了一种唇动检测方法、装置、终端设备及计算机可读存储介质，可以提高唇动检测的效率和准确率。

技术解决方案

第一方面，本申请实施例提供了一种唇动检测方法，包括：

检测目标视频的第t帧图像中目标人脸上的唇部关键点，获得唇部关键点信息，所述t为大于1的正整数；

根据所述唇部关键点信息计算当前唇距，其中，所述当前唇距表示所述第t帧图像中所述目标人脸上的唇部区域对应的上下唇距离；

获取历史唇距，其中，所述历史唇距表示所述目标视频的第t-n帧图像中所述目标人脸上的所述唇部区域对应的上下唇距离，所述n为小于t的正整数；

根据所述当前唇距和所述历史唇距之间的唇距差值确定唇动检测结果。

在本申请实施例中，根据检测出的唇部关键点计算上下唇距离(即唇距)，然后通过对比前后两帧图像各自对应的唇距确定前后两帧图像之间唇距是否发生了变化，根据唇距的变化情况确定唇动状态。通过上述方法，避免了唇部关键点的逐一比对，减少了数据处理量，有效提高了唇动检测的效率；同时避免了由于错误的关键点匹配结果造成的错误的唇动状态检测结果，有效提高了唇动检测的准确率。

在第一方面的一种可能的实现方式中，所述检测目标视频的第t帧图像中目标人脸上的唇部关键点，获得唇部关键点信息，包括：

将所述目标视频的所述第t帧图像输入到训练后到关键点检测模型中，获得所述唇部关键点信息；

其中，所述关键点检测模型为基于预设的对数损失函数训练后到检测模型，所述对数损失函数为

所述x为损失值，所述ω、所述∈和所述C为预设参数。

在第一方面的一种可能的实现方式中，所述根据所述唇部关键点信息计算当前唇距，包括：

根据所述唇部关键点信息确定所述第t帧图像中所述目标人脸上的所述唇部区域；

判断所述唇部区域是否存在遮挡；

若所述唇部区域未存在遮挡，则根据所述唇部关键点信息计算所述唇部区域对应的所述当前唇距。

在第一方面的一种可能的实现方式中，所述唇部关键点信息包括多个唇部关键点各自的像素坐标；

所述根据所述唇部关键点信息确定所述第t帧图像中所述目标人脸上的所述唇部区域，包括：

根据所述多个唇部关键点各自的像素坐标确定唇部中心点；

根据预设规则和所述唇部中心点确定所述第t帧图像中所述目标人脸上的所述唇部区域。

在第一方面的一种可能的实现方式中，所述判断所述唇部区域是否存在遮挡，包括：

提取所述第t帧图像中所述唇部区域的方向梯度直方图特征信息；

将所述方向梯度直方图特征信息输入到训练后的支持向量机判别器中，输出判断结果，其中，所述判断结果包括存在遮挡或未存在遮挡。

在第一方面的一种可能的实现方式中，所述若所述唇部区域未存在遮挡，则根据所述唇部关键点信息计算所述唇部区域对应的所述当前唇距，包括：

将所述唇部关键点划分为M对关键点，其中，每对关键点中包括一个上唇关键点和一个下唇关键点，所述M为正整数；

通过公式

计算所述唇部区域对应的所述当前唇距，其中，所述lipDist表示所述当前唇距，所述(x _{down_i},y _{down_i})表示第i对关键点中所述下唇关键点的像素坐标，所述(x _{up_i},y _{up_i})表示第i对关键点中所述上唇关键点的像素坐标。

在第一方面的一种可能的实现方式中，所述根据所述当前唇距和所述历史唇距之间的唇距差值确定唇动检测结果，包括：

对所述当前唇距进行卡尔曼滤波处理，获得滤波后的所述当前唇距；

根据所述滤波后的所述当前唇距和所述历史唇距之间的唇距差值确定所述唇动检测结果。

检测所述第t帧图像中目标人脸上的人脸关键点，获得人脸关键点信息；

根据所述人脸关键点信息确定所述第t帧图像中的人脸区域；

根据所述人脸区域在所述第t帧图像中所占的面积比例确定调整权值；

根据所述调整权值调整所述当前唇距，获得调整后的所述当前唇距；

根据所述调整后的所述当前唇距和所述历史唇距之间的唇距差值确定所述唇动检测结果。

第二方面，本申请实施例提供了一种唇动检测装置，包括：

关键点检测单元，用于检测目标视频的第t帧图像中目标人脸上的唇部关键点，获得唇部关键点信息，所述t为大于1的正整数；

唇距计算单元，用于根据所述唇部关键点信息计算当前唇距，其中，所述当前唇距表示所述第t帧图像中所述目标人脸上的唇部区域对应的上下唇距离；

历史数据获取单元，用于获取历史唇距，其中，所述历史唇距表示所述目标视频的第t-n帧图像中所述目标人脸上的所述唇部区域对应的上下唇距离，所述n为小于t的正整数；

唇动检测单元，用于根据所述当前唇距和所述历史唇距之间的唇距差值确定唇动检测结果。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上述第一方面中任一项所述的唇动检测方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上述第一方面中任一项所述的唇动检测方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的唇动检测方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的唇动检测方法的流程示意图；

图2是本申请实施例提供的人脸关键点的示意图；

图3是本申请实施例提供的损失函数的曲线示意图；

图4是本申请实施例提供的唇动检测装置的结构框图；

图5是本申请实施例提供的终端设备的结构示意图。

本发明的实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

如在本申请说明书和所附权利要求书中所使用的那样，术语“若”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。

参见图1，是本申请实施例提供的唇动检测方法的流程示意图，作为示例而非限定，所述方法可以包括以下步骤：

S101，检测目标视频的第t帧图像中目标人脸上的唇部关键点，获得唇部关键点信息。

t为大于1的正整数。

本申请实施例中的唇动检测方法是基于视频流进行检测的。首先需要检测出目标视频中各帧图像中的目标人脸，为了关联前后帧的目标人脸，可以引入人脸跟踪。对于跟踪到目标人脸的每一帧图像，检测该帧图像中的唇部关键点。

在一个实施例中，唇部关键点的检测方法可以为：将目标视频的第t帧图像输入到训练后到关键点检测模型中，获得唇部关键点信息。

可选的，关键点检测模型可以用于检测图像中目标人脸上的唇部区域，获得唇部关键点信息。

这种情况下，训练关键点检测模型时，只需对样本图像中人脸的唇部区域进行标注即可，无需标注人脸其他部分的关键点，可以减少标准工作量。但是，由于这种方式仅检测唇部区域，而忽视了人脸各个部分之间的关联，检测出的唇部关键点的位置很容易发生偏差，导致检测出的唇部关键点信息的准确性较低。

为了提高唇部关键点信息的准确性，可选的，关键点检测模型用于检测图像中的目标人脸，获得人脸关键点信息；然后根据人脸关键点信息确定唇部关键点信息。

关键点的质量决定着唇动检测结果的准确性。人脸关键点的检测质量，又与数据集高度相关。如68个人脸关键点点的数据集唇部点比较少，不太适合展开做后续的唇距判断；还有就是常用的106个人脸关键点，标注相对粗糙，注重了整体的分布而忽略了唇部的精定位，导致说话的时候唇部关键点基本没什么变化。

优选的，本申请实施例中采用WFLW98个人脸关键点，该类型的标注能比较好地反应唇部关键点的变化。示例性的，参见图2，是本申请实施例提供的人脸关键点的示意图。如图2所示，将第t帧图像输入到关键点检测模型中，输出第t帧图像中目标人脸上的人脸关键点0-97。根据预先的标注规则，可以确定检测出的0-97个人脸关键点中76-95这20个关键点为唇部关键点，即确定出唇部关键点信息。

这种情况下，训练关键点检测模型时，需要对样本图像中人脸上各个部位的关键点进行标注。如上示例中所述的98个人脸关键点的关键点检测模型，在训练时，需要标注98个人脸关键点。

现有技术中，通常是用dlib方法进行关键点检测的。但是dlib方法对大角度图像(如图像中的人脸为侧脸、低头或抬头的姿态)中关键点的检测效果较差，容易产生干扰，且对细微差异的响应较迟缓。

为了解决上述问题，在本申请实施例中，在训练关键点检测模型时，采用预设的对数损失函数。

参见图3，是本申请实施例提供的损失函数的曲线示意图。如图3所示，曲线I为指数函数的曲线，曲线II为对数函数的曲线。从图3中可以看出，当x值较小(表示损失值较小，即差异较小)时，对数函数的响应比指数函数的响应要灵敏。因此，利用对数函数作为损失函数对关键点检测模型进行训练，能够提高关键点检测结果的精确度。

针对大角度预测的偏差，可选的，可以加大大角度的预测权重，使训练大角度的时候能够得到更好的弥补。具体的，预设的对数损失函数为：

x为损失值，ω、∈和C为预设参数。

其中，ω为预测权重。当图像中人脸为侧脸、低头或抬头等大角度图像时，增加ω的值；反之，减小ω的值。通过这种方法，能够有效减小大角度的预测偏差。

关键点检测模型可以采用现有的神经网络模型，如mobilenetv2等。为了提高检测效率，可以对mobilenetv2进行通道剪裁。另外，在训练过程中，还可以进行随机的水平镜像增强、光线扰动增强和/或运动模糊增强。这样既能够更宽泛地学习到关键点特征，又能够保证视频帧检测的稳定性，还会提高关键点检测模型的鲁棒性。

S102，根据唇部关键点信息计算当前唇距。

其中，当前唇距表示第t帧图像中目标人脸上的唇部区域对应的上下唇距离。

当前唇距的一种计算方式可以为：计算唇部关键点的最大纵向距离；将最大纵向距离确定为当前唇距。具体的，选取唇部关键点中纵坐标最大的关键点，得到第一边界点；选取唇部关键点中纵坐标最小的关键点，得到第二边界点；计算第一边界点与第二边界点的纵坐标差值；将纵坐标差值确定为最大纵向距离，即当前唇距。

上述方法相当于仅选取了一对关键点进行计算，存在随机性，导致唇距计算结果的准确性较低。

为了提高唇距计算的准确性，可以选取多对关键点进行计算。可选的，当前唇距的一种计算方式为：

将唇部关键点划分为M对关键点，其中，每对关键点中包括一个上唇关键点和一个下唇关键点，M为正整数；通过公式

计算当前唇距，其中，lipDist表示当前唇距，(x _{down_i},y _{down_i})表示第i对关键点中下唇关键点的像素坐标，(x _{up_i},y _{up_i})表示第i对关键点中上唇关键点的像素坐标。

示例性的，如图2所示，可以将77和87确定为一对关键点，将78和86确定为一对关键点，79和85确定为一对关键点，80和84确定为一对关键点，81和83确定为一对关键的，将89和95确定为一对关键点，将90和94确定为一对关键点，将91和93确定为一对关键点。

由于唇部动作时，变化较大的为上唇中间部位和下唇中间部位，因此，可以选取部分唇部关键点。如图2中，可以选取上唇的89-91三个关键点，选取下唇的93-95三个关键点。然后将着6个关键点划分为3对，即将89和95确定为一对关键点，将90和94确定为一对关键点，将91和93确定为一对关键点。

实际应用中，一帧图像中目标人脸上的唇部区域有可能存在遮挡。这种情况是无法计算当前唇距的，进而导致唇动检测失效。

为了提高唇动检测方法的可行性，综合考虑各种可能出现的情况，在一个实施例中，当前唇距的一种计算方式为：

根据唇部关键点信息确定第t帧图像中目标人脸上的唇部区域；判断唇部区域是否存在遮挡；若唇部区域未存在遮挡，则根据唇部关键点信息计算唇部区域对应的当前唇距；若唇部区域存在遮挡，则获取历史唇距，并将历史唇距确定为当前唇距。

其中，唇部关键点信息包括多个唇部关键点各自的像素坐标。

可选的，唇部区域的确定方法可以包括：根据唇部关键点确定唇部区域的边界点；根据边界点确定唇部区域。

示例性的，选取唇部关键点中纵坐标最大的关键点，得到第一边界点；选取唇部关键点中纵坐标最小的关键点，得到第二边界点；选取唇部关键点中横坐标最大的关键点，得到第三边界点；选取唇部关键点中横坐标最小的关键点，得到第四边界点；根据第一边界点、第二边界点、第三边界点和第四边界点确定最小矩形，将该最小矩形确定为唇部区域。

另一示例，可以采用边界点检测方法，检测出边界点为76、77、78、79、80、81、82、83、84、85、86和87，然后根据检测出的边界点勾勒出唇部区域。

为了减少计算量，简化唇部区域的确定步骤，可选的，本申请实施例中提供唇部区域的另一种确定方法，可以包括：根据多个唇部关键点各自的像素坐标确定唇部中心点；根据预设规则和唇部中心点确定第t帧图像中目标人脸上的唇部区域。

示例性的，如图2所示，唇部关键点有76-95共20个，通过以下公式计算20个唇部关键点的唇部中心点：

其中，(centerpointX,centerpointY)为唇部中心点的像素坐标，(Point_x _i,Point_y _i)为第i个唇部关键点的像素坐标。

预设规则为：以唇部中心点为矩形中心，截取第t帧图像中一个预设尺寸的矩形区域；将该矩形区域确定为唇部区域。

其中，预设尺寸可以是预先确定的一个固定尺寸。例如：确定长为50mm，宽为30mm。

但由于个体差异，不同人脸的尺寸不同，对应的不同人脸中唇部大小也不同。利用固定尺寸确定出的唇部区域可能会存在偏差。为了解决该问题，可选的，预设尺寸可以为：lip _height＝face _height×p ₁；lip _weight＝face _weight×p ₂。

其中，lip _height为唇部区域的宽，lip _weight为唇部区域的长，face _height为目标人脸对应区域的宽，lip _weight为目标人脸对应区域的长，p ₁和p ₂为预设比例。例如：p ₁＝0.3，p ₂＝0.5。通过这种方法，能够根据目标人脸的尺寸适应性地确定唇部区域的大小。

在确定唇部区域之后，需要判断唇部区域是否存在遮挡。

在一个实施例中，判断唇部区域是否存在遮挡的方法可以包括：提取第t帧图像中唇部区域的方向梯度直方图特征信息；将方向梯度直方图特征信息输入到训练后的支持向量机判别器中，输出判断结果，其中，判断结果包括存在遮挡或未存在遮挡。

当然，也可以提取其他特征信息、采用其他的判别器。在此不做具体限定。

在确定唇部区域未被遮挡的情况下，根据唇部关键点信息计算唇部区域对应的当前唇距。具体方法可参见S102中计算当前唇距的方法，在此不再赘述。

S103，获取历史唇距。

其中，历史唇距表示目标视频的第t-n帧图像中目标人脸上的唇部区域对应的上下唇距离，n为小于t的正整数。

在本申请实施例中，历史唇距的计算方式与当前唇距的计算方式相同，具体可参见S102中当前唇距的计算方式，在此不再赘述。

示例性的，t＝3，n＝1。当前唇距为第3帧图像中目标人脸上的唇部区域对应的上下唇距离；历史唇距为第2帧图像中目标人脸上的唇部区域对应的上下唇距离。

有时计算资源充足，计算整套算法的速度很快，可能相邻帧之间的唇动特征并不明显，在跟踪过程中需要进行跳帧判断，如每3帧统计唇距变化、获得唇动的效果。大部分机器人算力都比较有限，无需跳帧就能捕捉到唇距的变化。

S104，根据当前唇距和历史唇距之间的唇距差值确定唇动检测结果。

本申请实施例中，对于目标视频中的第1帧图像，由于无历史唇距，因此可以只计算并存储唇距，无需进行唇动检测。从第2帧图像开始进行唇动检测。

可以设置唇动阈值。当唇距差值大于唇动阈值时，表示发生唇动；当唇动差值小于或等于唇动阈值时，表示未发生唇动。

当需要控制检测灵敏度时，可以适当地调整唇动阈值。需要说明的是，当唇动阈值较低时，也可能发生虚警；而唇动阈值较大时，检测精度又较低。因此，需要合理的设定唇动阈值。

唇动检测时，可能会由于关键点抖动造成唇距计算误差，进而导致唇动误检。为了提高检测准确率，在一个实施例中，S104的一种实现方式包括：对当前唇距进行卡尔曼滤波处理，获得滤波后的当前唇距；根据滤波后的当前唇距和历史唇距之间的唇距差值确定唇动检测结果。

另外，由于人脸距摄像头的距离的远近会影响唇距计算的偏差，离得近唇距变化就大，离得远唇距变化就小。为了减少这种偏差，在一个实施例中，S104的另一种实现方式包括：检测第t帧图像中目标人脸上的人脸关键点，获得人脸关键点信息；根据人脸关键点信息确定第t帧图像中的人脸区域；根据人脸区域在第t帧图像中所占的面积比例确定调整权值；根据调整权值调整当前唇距，获得调整后的当前唇距；根据调整后的当前唇距和历史唇距之间的唇距差值确定唇动检测结果。

示例性的，可以预先设定，人脸区域在整幅图像所占的面积比例的几个范围，然后设定每个范围对应的调整权值。假设计算出的第t帧图像中人脸区域在第t帧图像中所占的面积比例为0.5，对应的调整权值为0.8，那么将当前唇距乘以0.8，得到调整后的当前唇距。

当然，还可以综合考虑由于关键点抖动造成唇距计算误差，和由于人脸距摄像头的距离的远近会影响唇距计算的偏差。在一个实施例中，S104的另一种实现方式包括：

检测第t帧图像中目标人脸上的人脸关键点，获得人脸关键点信息；根据人脸关键点信息确定第t帧图像中的人脸区域；根据人脸区域在第t帧图像中所占的面积比例确定调整权值；根据调整权值调整当前唇距，获得调整后的当前唇距；对调整后的当前唇距进行卡尔曼滤波处理，获得滤波后的当前唇距；根据滤波后的当前唇距和历史唇距之间的唇距差值确定唇动检测结果。

可选的，还可以改变调整权值处理和滤波的顺序，即S104的另一种实现方式包括：对当前唇距进行卡尔曼滤波处理，获得滤波后的当前唇距；检测第t帧图像中目标人脸上的人脸关键点，获得人脸关键点信息；根据人脸关键点信息确定第t帧图像中的人脸区域；根据人脸区域在第t帧图像中所占的面积比例确定调整权值；根据调整权值调整滤波后的当前唇距，获得调整后的当前唇距；根据调整后的当前唇距和历史唇距之间的唇距差值确定唇动检测结果。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的唇动检测方法，图4是本申请实施例提供的唇动检测装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图4，该装置包括：

关键点检测单元41，用于检测目标视频的第t帧图像中目标人脸上的唇部关键点，获得唇部关键点信息，所述t为大于1的正整数。

唇距计算单元42，用于根据所述唇部关键点信息计算当前唇距，其中，所述当前唇距表示所述第t帧图像中所述目标人脸上的唇部区域对应的上下唇距离。

历史数据获取单元43，用于获取历史唇距，其中，所述历史唇距表示所述目标视频的第t-n帧图像中所述目标人脸上的所述唇部区域对应的上下唇距离，所述n为小于t的正整数。

唇动检测单元44，用于根据所述当前唇距和所述历史唇距之间的唇距差值确定唇动检测结果。

可选的，关键点检测单元41还用于：

将所述目标视频的所述第t帧图像输入到训练后到关键点检测模型中，获得所述唇部关键点信息；其中，所述关键点检测模型为基于预设的对数损失函数训练后到检测模型，所述对数损失函数为

所述x为损失值，所述ω、所述∈和所述C为预设参数。

可选的，唇距计算单元42包括：

唇部区域确定模块，用于根据所述唇部关键点信息确定所述第t帧图像中所述目标人脸上的所述唇部区域。

遮挡判断模块，用于判断所述唇部区域是否存在遮挡。

唇距计算模块，用于若所述唇部区域未存在遮挡，则根据所述唇部关键点信息计算所述唇部区域对应的所述当前唇距。

可选的，唇部区域确定模块还用于：

根据所述多个唇部关键点各自的像素坐标确定唇部中心点；根据预设规则和所述唇部中心点确定所述第t帧图像中所述目标人脸上的所述唇部区域。

可选的，遮挡判断模块还用于：

提取所述第t帧图像中所述唇部区域的方向梯度直方图特征信息；将所述方向梯度直方图特征信息输入到训练后的支持向量机判别器中，输出判断结果，其中，所述判断结果包括存在遮挡或未存在遮挡。

可选的，唇距计算模块还用于：

将所述唇部关键点划分为M对关键点，其中，每对关键点中包括一个上唇关键点和一个下唇关键点，所述M为正整数；通过公式

可选的，唇动检测单元44还用于：

对所述当前唇距进行卡尔曼滤波处理，获得滤波后的所述当前唇距；根据所述滤波后的所述当前唇距和所述历史唇距之间的唇距差值确定所述唇动检测结果。

可选的，唇动检测单元44还用于：

检测所述第t帧图像中目标人脸上的人脸关键点，获得人脸关键点信息；根据所述人脸关键点信息确定所述第t帧图像中的人脸区域；根据所述人脸区域在所述第t帧图像中所占的面积比例确定调整权值；根据所述调整权值调整所述当前唇距，获得调整后的所述当前唇距；根据所述调整后的所述当前唇距和所述历史唇距之间的唇距差值确定所述唇动检测结果。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

另外，图4所示的唇动检测装置可以是内置于现有的终端设备内的软件单元、硬件单元、或软硬结合的单元，也可以作为独立的挂件集成到所述终端设备中，还可以作为独立的终端设备存在。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图5是本申请实施例提供的终端设备的结构示意图。如图5所示，该实施例的终端设备5包括：至少一个处理器50(图5中仅示出一个)处理器、存储器51以及存储在所述存储器51中并可在所述至少一个处理器50上运行的计算机程序52，所述处理器50执行所述计算机程序52时实现上述任意各个唇动检测方法实施例中的步骤。

所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，图5仅仅是终端设备5的举例，并不构成对终端设备5的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所称处理器50可以是中央处理单元(Central Processing Unit，CPU)，该处理器50还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器51在一些实施例中可以是所述终端设备5的内部存储单元，例如终端设备5的硬盘或内存。所述存储器51在另一些实施例中也可以是所述终端设备5的外部存储设备，例如所述终端设备5上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器51还可以既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种唇动检测方法，其特征在于，所述方法包括：

检测目标视频的第t帧图像中目标人脸上的唇部关键点，获得唇部关键点信息，所述t为大于1的正整数；

根据所述唇部关键点信息计算当前唇距，其中，所述当前唇距表示所述第t帧图像中所述目标人脸上的唇部区域对应的上下唇距离；

获取历史唇距，其中，所述历史唇距表示所述目标视频的第t-n帧图像中所述目标人脸上的所述唇部区域对应的上下唇距离，所述n为小于t的正整数；

根据所述当前唇距和所述历史唇距之间的唇距差值确定唇动检测结果。
如权利要求1所述的唇动检测方法，其特征在于，所述检测目标视频的第t帧图像中目标人脸上的唇部关键点，获得唇部关键点信息，包括：

将所述目标视频的所述第t帧图像输入到训练后到关键点检测模型中，获得所述唇部关键点信息；

其中，所述关键点检测模型为基于预设的对数损失函数训练后到检测模型，所述对数损失函数为
所述x为损失值，所述ω、所述ε和所述C为预设参数。
如权利要求1所述的唇动检测方法，其特征在于，所述根据所述唇部关键点信息计算当前唇距，包括：

根据所述唇部关键点信息确定所述第t帧图像中所述目标人脸上的所述唇部区域；

判断所述唇部区域是否存在遮挡；

若所述唇部区域未存在遮挡，则根据所述唇部关键点信息计算所述唇部区域对应的所述当前唇距。
如权利要求3所述的唇动检测方法，其特征在于，所述唇部关键点信息包括多个唇部关键点各自的像素坐标；

所述根据所述唇部关键点信息确定所述第t帧图像中所述目标人脸上的所述唇部区域，包括：

根据所述多个唇部关键点各自的像素坐标确定唇部中心点；

根据预设规则和所述唇部中心点确定所述第t帧图像中所述目标人脸上的所述唇部区域。
如权利要求3所述的唇动检测方法，其特征在于，所述判断所述唇部区域是否存在遮挡，包括：

提取所述第t帧图像中所述唇部区域的方向梯度直方图特征信息；

将所述方向梯度直方图特征信息输入到训练后的支持向量机判别器中，输出判断结果，其中，所述判断结果包括存在遮挡或未存在遮挡。
如权利要求3所述的唇动检测方法，其特征在于，所述若所述唇部区域未存在遮挡，则根据所述唇部关键点信息计算所述唇部区域对应的所述当前唇距，包括：

将所述唇部关键点划分为M对关键点，其中，每对关键点中包括一个上唇关键点和一个下唇关键点，所述M为正整数；

通过公式
计算所述唇部区域对应的所述当前唇距，其中，所述lipDist表示所述当前唇距，所述(x _{down_i},y _{down_i})表示第i对关键点中所述下唇关键点的像素坐标，所述(x _{up_i},y _{up_i})表示第i对关键点中所述上唇关键点的像素坐标。
如权利要求1所述的唇动检测方法，其特征在于，所述根据所述当前唇距和所述历史唇距之间的唇距差值确定唇动检测结果，包括：

对所述当前唇距进行卡尔曼滤波处理，获得滤波后的所述当前唇距；

根据所述滤波后的所述当前唇距和所述历史唇距之间的唇距差值确定所述唇动检测结果。
如权利要求1所述的唇动检测方法，其特征在于，所述根据所述当前唇距和所述历史唇距之间的唇距差值确定唇动检测结果，包括：

检测所述第t帧图像中目标人脸上的人脸关键点，获得人脸关键点信息；

根据所述人脸关键点信息确定所述第t帧图像中的人脸区域；

根据所述人脸区域在所述第t帧图像中所占的面积比例确定调整权值；

根据所述调整权值调整所述当前唇距，获得调整后的所述当前唇距；

根据所述调整后的所述当前唇距和所述历史唇距之间的唇距差值确定所述唇动检测结果。
一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的方法。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的方法。