WO2020253051A1

WO2020253051A1 - 唇语的识别方法及其装置

Info

Publication number: WO2020253051A1
Application number: PCT/CN2019/117773
Authority: WO
Inventors: 庞烨; 王健宗; 王义文
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-06-18
Filing date: 2019-11-13
Publication date: 2020-12-24
Also published as: CN110415701A

Abstract

提供了一种唇语的识别方法及装置，涉及大数据技术领域。唇语的识别方法包括：获取用户的多帧面部图像（S101）；确定每帧面部图像中的多个唇部关键点，以及每个唇部关键点对应的坐标（S102）；根据每帧面部图像中每个唇部关键点对应的坐标，生成多帧面部图像对应的唇语编码（S103）；将唇语编码输入预设的唇语识别模型，以识别出唇语的内容（S104）。由此，实现了通过多帧面部图像中唇部关键点的坐标来生成对应的唇语编码，进而通过唇语编码识别出唇语的内容，避免了面部图像中肤色、纹理因素对唇语识别的影响，提高了唇语识别方法的泛化能力和识别准确度，能够解决现有技术中唇语识别准确度不高的技术问题。

Description

唇语的识别方法及其装置

本申请要求于2019年6月18日提交中国专利局、申请号为201910524060.6、申请名称为“唇语的识别方法及其装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

【技术领域】

本申请涉及大数据技术领域，尤其涉及一种唇语的识别方法及其装置。

【背景技术】

唇语识别技术可以根据用户的唇部变化，确定唇语的内容。

相关技术中，唇语识别算法对图像特征的提取时存在泛化能力较差的问题，图像中的颜色、纹理、形状等外部信息会对最后的识别结果产生影响，使得唇语识别不准确。

【申请内容】

有鉴于此，本申请实施例提供了一种唇语识别的方法和装置，用以解决现有技术中唇语识别准确度不高的问题。

一方面，本申请实施例提供了一种唇语识别的方法，所述方法包括：获取用户的多帧面部图像；确定每帧所述面部图像中的多个唇部关键点，以及每个所述唇部关键点对应的坐标；根据每帧所述面部图像中每个所述唇部关键点对应的坐标，生成所述多帧面部图像对应的唇语编码；以及将所述唇语编码输入预设的唇语识别模型，以识别出唇语的内容。

一方面，本申请实施例提供了一种唇语的识别装置，所述装置包括：第一获取模块，用于获取用户的多帧面部图像；确定模块，用于确定每帧所述面部图像中的多个唇部关键点，以及每个所述唇部关键点对应的坐标；第一生成模块，用于根据每帧所述面部图像中每个所述唇部关键点对应的坐标，生成所述多帧面部图像对应的唇语编码；第一输入模块，用于将所述唇语编码输入预设的唇语识别模型，以识别出唇语的内容。

一方面，本申请实施例提供了一种计算机设备，包括存储器和处理器，所述存储器用于存储包括程序指令的信息，所述处理器用于控制程序指令的执行，所述程序指令被处理器加载并执行时实现上述的唇语的识别方法的步骤。

一方面，本申请实施例提供了一种计算机非易失性可读存储介质，所述计算机非易失性可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机非易失性可读存储介质所在设备执行上述的唇语的识别方法。

在本申请实施例中，通过多帧面部图像中唇部关键点的坐标来生成对应的唇语编码，进而通过唇语编码识别出唇语的内容，解决了现有技术中唇语识别准确度不高的问题，达到了提高唇语识别方法的泛化能力和识别准确度的效果。

【附图说明】

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本申请实施例所提供的一种可选的唇语的识别方法的流程示意图；

图2为本申请实施例所提供的另一种唇语的识别方法的流程示意图；

图3为本申请实施例所提供的递归神经网络的结构示意图；

图4为本申请实施例所提供的唇语识别模型的结构示意图；

图5为本申请实施例所提出的又一种唇语的识别方法的流程示意图；

图6为本申请实施例所提供的唇语的识别方法的一个示例的流程图；

图7为本申请实施例所提供的一种唇语的识别装置的结构示意图；

图8为本申请实施例所提供的另一种唇语的识别装置的结构示意图；

图9为本申请实施例所提供的又一种唇语的识别装置的结构示意图；以及

图10是本申请实施例提供的一种计算机设备的示意图。

【具体实施方式】

为了更好的理解本申请的技术方案，下面结合附图对本申请实施例进行详细描述。

应当明确，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的相同的字段，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本申请实施例中可能采用术语第一、第二、第三等来描述预设范围等，但这些预设范围不应限于这些术语。这些术语仅用来将预设范围彼此区分开。例如，在不脱离本申请实施例范围的情况下，第一预设范围也可以被称为第二预设范围，类似地，第二预设范围也可以被称为第一预设范围。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

基于上述现有技术的描述可以知道，相关技术中，唇语识别算法对图像特征的提取时存在泛化能力较差的问题，图像中的颜色、纹理、形状等外部信息会对最后的识别结果产生影响，使得唇语识别不准确。

针对这一问题，本申请实施例提供了一种唇语的识别方法，通过多帧面部图像中唇部关键点的坐标来生成对应的唇语编码，进而通过唇语编码识别出唇语的内容，避免了面部图像中肤色、纹理等因素对唇语识别的影响，提高了唇语识别方法的泛化能力和识别准确度。

图1是本申请实施例所提供的一种可选的唇语的识别方法的流程示意图。如图1所示，该方法包括：

步骤S101，获取用户的多帧面部图像。

其中，用户的多帧面部图像是通过用户的面部视频获得的。

应当理解，面部视频可以按时间顺序拆解为多帧连续的面部图像。

步骤S102，确定每帧面部图像中的多个唇部关键点，以及每个唇部关键点对应的坐标。

应当理解，每帧面部图像都包括相应的唇部关键点。而不同帧的面部图像中同一个唇部关键点对应的坐标会随着用户发音的变化而不同。

为了确定每帧面部图像中的唇部关键点，一种可能的实现方式是，将每帧面部图像输入面部关键点识别模型，以识别出面部图像中的多个面部关键点，并对多个面部关键点进行标注。根据标注信息，从多个面部关键点中筛选出多个唇部关键点。建立平面坐标系，以确定多个唇部关键点对应的坐标。

需要说明的是，Dlib是一个面部关键点识别模型，拥有C++和python接口，可以进行面部关键点识别，并对面部关键点进行标注。具体地，可以获得68个面部关键点的位置，并对这68个面部关键点分别进行标注。可以理解，在对面部关键点进行标注时，对不同的面部图像采用相同的面部关键点标注方式进行标注。

举例来说，在面部图像A中左眼包括6个面部关键点，分别标注为37、38、39、40、41，而在面部图像B中左眼对应的6个面部关键点同样标注为37、38、39、40、41。也就是说，在面部图像中，可以通过标注所用的数字判断该面部关键点在面部所处的位置。

同样的，在面部图像中，嘴唇部位的面部关键点也是采用固定的数字进行标注，比如可以采用标注为49-64共16个嘴唇部位的面部关键点作为唇部关键点。

应当理解，在确定了多个唇部关键点之后，为了确定每个唇部关键点在不同帧的面部图像中的位置变化，需要建立平面坐标系，以确定多个唇部关键点对应的坐标。

需要特别说明的是，考虑到在不同的面部图像中人脸的位置会发生变化，为了避免人脸的移动对唇语的识别造成影响，一种可能的实现方式是，计算多个唇部关键点的中心位置，并将中心位置作为平面坐标系的原点。

本申请实施例所提供的平面坐标系以多个唇部关键点的中心位置作为原点，在人脸移动时，平面坐标系的原点也随之移动，可以避免人脸移动对唇语识别的影响。

在确定了平面坐标系的原点之后，可以进一步确定多个唇部关键点对应的坐标。

步骤S103，根据每帧面部图像中每个唇部关键点对应的坐标，生成多帧面部图像对应的唇语编码。

应当理解，每个唇部关键点对应的坐标是一个二维坐标，而每帧面部图像则包括多个唇部关键点。

为了生成多帧面部图像对应的唇语编码，一种可能的是实现方式是，将每帧面部图像中每个唇部关键点对应的坐标按照时间顺序和标注顺序进行排列，以生成多帧面部图像对应的唇语编码。

举例来说，第一帧和第二帧面部图像分别包括3个唇部关键点，在面部关键点识别模型中标注的数字分别为40，41，42，第一帧面部图像中3个唇部关键点的坐标分别为40(0，1)，41(-2，-0.5)，42(2，-0.5)，第二帧面部图像中3个唇部关键点的坐标分别为40(0，2)，41(-1，-0.5)，42(1，-0.5)。第一种可能的唇语编码结果是(0，1，-2，-0.5，2，-0.5，0，2，-1，-0.5，1，-0.5)，第二种可能的唇语编码结果是(0，1，0，2，-2，-0.5，-1，-0.5，2，-0.5，1，-0.5)。需要说明的是，上述例子仅仅是为了便于说明本申请实施例将坐标按照时间顺序和标注顺序进行排列的方式，不构成对本申请实施例的限制。

步骤S104，将唇语编码输入预设的唇语识别模型，以识别出唇语的内容。

可以理解，本申请实施例将用户在面部视频中的多个唇部关键点作为用户唇部变化的标记方法，通过唇语编码记录多帧图像中多个唇部关键点的坐标。也就说是，唇部编码以数字编码的方式记录了面部视频中用户的唇部变化信息。因此，唇语识别模型可以通过输入的唇语编码识别出唇语的内容。

应当理解的是，在唇语识别模型识别出唇语的内容时，是以音素为单位进行的。在确定了多帧面部图像对应的一组音素后，再对该组音素进行解码处理，得到唇语的内容。

举例来说，面部视频对应的正确唇语内容，以音素为单位进行表示，为A1，B1，C1三个音素。通过对唇语编码进行识别，确定第一个音素为A1的概率为90％，为A2的概率为8％，为A3的概率为2％。根据概率识别出唇语内容的第一个音素为A1。

综上所述，本申请实施例所提供的唇语的识别方法，获取用户的多帧面部图像，确定每帧面部图像中的多个唇部关键点，以及每个唇部关键点对应的坐标。根据每帧面部图像中每个唇部关键点对应的坐标，生成多帧面部图像对应的唇语编码，将唇语编码输入预设的唇语识别模型，以识别出唇语的内容。由此，实现了通过多帧面部图像中唇部关键点的坐标来生成对应的唇语编码，进而通过唇语编码识别出唇语的内容，避免了面部图像中肤色、纹理等因素对唇语识别的影响，提高了唇语识别方法的泛化能力和识别准确度。

为了更加清楚地说明本申请实施例所提供的唇语识别模型的生成方法，本申请实施例还提出了另一种唇语的识别方法，图2为本申请实施例所提供的另一种唇语的识别方法的流程示意图。如图2所示，基于图1所示的方法流程，唇语识别模型可以通过以下步骤生成：

步骤S201，获取多个唇语视频，以及每个唇语视频对应的唇语内容。

应当理解，本申请实施例所提供的多个唇语视频，是用来训练唇语识别模型的。因此，预先存储着每个唇语视频对应的唇语内容。

其中，唇语内容为唇语视频的正确识别结果。

步骤S202，根据多个唇语视频，生成每个唇语视频分别对应的唇语编码。

需要说明的是，此处生成每个唇语视频分别对应的唇语编码的方法与前述生成多帧面部图像对应的唇语编码的方法步骤相同，此处不再赘述。

步骤S203，将每个唇语视频对应的唇部编码输入唇语识别模型。

其中，唇语识别模型包括卷积神经网络和递归神经网络。

需要特别说明的是，为了让唇语识别模型的性能更优，一种优选的实现方式是，设置卷积神经网络的层数为4，卷积核大小为3，设置递归神经网络的层数为3，每层隐藏神经元数量为1024个。

应当理解，卷积神经网络的神经元能够获取到一定区域内的数据的特征。举例来说，若卷积神经元的卷积核的系数为5，该卷积核就与当前位置的数据和前后两个临近的数据进行相乘再相加，再将计算的结果放入当前数据位置。

如图3所示，递归神经网络是一个记忆网络，能够基于前一时刻的隐层和当前时刻的输入得到计算结果，显示预测概率。

步骤S204，将唇语识别模型的输出与每个唇语视频对应的唇语内容进行比较，以训练唇语识别模型的参数。

一种可能的实现方式是，使用损失函数CTC LOSS对唇语识别模型的输出与每个唇语视频对应的唇语内容进行比较，以量化二者之间的差异。

应当理解，唇语识别模型的输出是唇语识别模型对唇语编码进行处理后得到的结果，而唇语视频对应的唇语内容则是正确的识别结果，通过对二者进行比较，不断训练唇语识别模型的参数，可以使得唇语识别模型的识别准确度不断提高。

需要特别说明的是，对卷积神经网络的参数训练主要是训练卷积核的系数，以优化唇语编码的提取系数。

对递归神经网络的参数训练主要是训练每个隐藏神经元的权重参数，以提升唇语识别的准确度。

从而，实现了对唇语识别模型的参数训练和性能优化。

为了更加清楚地说明本申请实施例所提供的唇语识别模型的结构，下面进行举例说明。

如图4所示，在训练过程中，将唇语编码输入卷积神经网络，再将卷积神经网络的输出输入递归神经网络，使用损失函数CTC LOSS计算差值，以优化卷积神经网络和递归神经网络的参数。在使用过程中，将待识别的唇语编码先后输入卷积神经网络和递归神经网络，即可得到唇语的识别结果。

为了进一步提升本申请实施例所提供的唇语的识别方法的识别准确度，本申请实施例还提出了又一种唇语的识别方法，图5为本申请实施例所提出的又一种唇语的识别方法的流程示意图。如图5所示，基于图1所示的方法流程，在步骤S104，将唇语编码输入预设的唇语识别模型，以识别出唇语的内容之后，该方法还包括：

步骤S301，获取多帧面部图像对应的语音。

可以理解，本申请实施例所提供的多帧面部图像是通过用户的面部视频获得的，因此可以从中提取出对应的语音。

步骤S302，将语音输入预设的语音识别模型，以识别出语音的内容。

其中，本申请实施例所提供的语音识别模型的一种可能的生成方式包括以下步骤：

步骤S11，获取多个语音，以及每个语音对应的语音内容。

应当理解，本申请实施例所提供的多个语音是为了训练语音识别模型的。因此，预先存储着每个语音对应的语音内容。

步骤S12，生成语音的语音特征。

为了生成语音的语音特征，一种可能的实现方式是，对语音进行降噪，以降低环境噪声对训练结果的影响，然后使用梅尔频率倒谱系数从降噪后的语音中提取语音的语音特征。

具体地，对语音进行分窗，以获得多帧语音信号。对每帧语音信号进行快速傅里叶变换，以获取语音信号的频谱。对语音信号的频谱进行梅尔滤波，以提取语音的语音特征。

一种优选的实现方式是，本申请实施例所提供的语音为8kHz的语音信号，即1秒钟有8000个采样点。本申请实施例将其中每256个采样点作为一个处理单位，对应的时间长度为32ms。也就是说，对语音进行分窗后每32ms作为一个时间窗。

需要说明的是，人类说话的声音在固定的频段内，因此通过梅尔滤波可以将语音中的其他声音进行滤除，得到干净的人类说话的声音。

最后对处理之后的干净的语音信号进行特征提取。

步骤S13，将语音特征输入语音识别模型。

其中，语音识别模型包括深度神经网络。

步骤S14，将语音识别模型的输出与每个语音对应的语音内容进行比较，以训练语音识别模型的参数。

一种可能的实现方式是，kaldi提供了一种基于深度神经网络的语音识别模型的程序包，将干净的语音信号放入kaldi提供的深度神经网络进行训练，即可在很短的时间内得到较好的语音识别模型。

步骤S303，根据唇语的内容和语音的内容，生成多帧面部图像对应的语言内容。

需要说明的是，在本申请实施例所提供的又一种唇语的识别方法中，需要结合唇语的内容和语音的内容，以综合判断语言内容的识别结果。

举例来说，面部视频对应的正确语言内容，以音素为单位进行表示，为A1，B1，C1三个音素。唇语识别模型识别的结果为第一个音素为A1的概率为90％，为A2的概率为8％，为A3的概率为2％，语音识别模型识别的结果为第一个音素为A1的概率为80％，为A2的概率为20％，为A3的概率为0％。对两个模型识别的概率进行归一化处理后，得到第一个音素为A1的概率为85％，为A2的概率为14％，为A3的概率为1％。根据综合概率识别出语言内容的第一个音素为A1。

同样的，对得到的一组音素进行解码处理，即可得到语言内容的识别结果。

从而，实现了结合唇语识别模型和语音识别模型的识别结果，进一步提升对面部视频对应的语言内容的识别准确度。

为了更加清楚地说明本申请实施例所提供的唇语的识别方法是如何结合唇语识别模型和语音识别模型的识别结果的，下面进行举例说明。

如图6所示，从唇语视频中分别提取多帧面部图像和对应的语音。从每帧面部图像中提取唇部关键点对应的坐标，根据坐标得到唇语编码，将唇语编码输入唇语识别模型，得到识别出的内容以及对应的概率。对于语音进行信号采样和信号处理得到语音特征，将语音特征输入语音识别模型，得到识别出的内容以及对应的概率。对两个模型输出的概率进行归一化处理后，得到语言内容的识别结果。

为了实现上述实施例，本申请实施例还提出一种唇语的识别装置，图7为本申请实施例所提供的一种唇语的识别装置的结构示意图。如图7所示，该装置包括：第一获取模块410，确定模块420，第一生成模块430，第一输入模块440。

第一获取模块410，用于获取用户的多帧面部图像。

确定模块420，用于确定每帧面部图像中的多个唇部关键点，以及每个唇部关键点对应的坐标。

第一生成模块430，用于根据每帧面部图像中每个唇部关键点对应的坐标，生成多帧面部图像对应的唇语编码。

第一输入模块440，用于将唇语编码输入预设的唇语识别模型，以识别出唇语的内容。

进一步地，为了确定每帧面部图像中的唇部关键点，一种可能的实现方式是，确定模块420包括：输入子模块421，用于将每帧面部图像输入面部关键点识别模型，以识别出面部图像中的多个面部关键点。标注子模块422，用于对多个面部关键点进行标注。筛选子模块423，用于根据标注信息，从多个面部关键点中筛选出多个唇部关键点。建立子模块424，用于建立平面坐标系，以确定多个唇部关键点对应的坐标。

进一步地，为了确定每个唇部关键点在不同帧的面部图像中的位置变化，一种可能的实现方式是，建立子模块424包括：计算单元4241，用于计算多个唇部关键点的中心位置。设置单元4242，用于将中心位置作为平面坐标系的原点。确定单元4243，用于根据平面坐标系的原点，确定多个唇部关键点对应的坐标。

进一步地，为了生成多帧面部图像对应的唇语编码，一种可能的是实现方式是，第一生成模块430，用于将每帧面部图像中每个唇部关键点对应的坐标按照时间顺序和标注顺序进行排列，以生成多帧面部图像对应的唇语编码。

需要说明的是，前述对唇语的识别方法实施例的解释说明也适用于该实施例的唇语的识别装置，此处不再赘述。

综上所述，本申请实施例所提供的唇语的识别装置，获取用户的多帧面部图像，确定每帧面部图像中的多个唇部关键点，以及每个唇部关键点对应的坐标。根据每帧面部图像中每个唇部关键点对应的坐标，生成多帧面部图像对应的唇语编码，将唇语编码输入预设的唇语识别模型，以识别出唇语的内容。由此，实现了通过多帧面部图像中唇部关键点的坐标来生成对应的唇语编码，进而通过唇语编码识别出唇语的内容，避免了面部图像中肤色、纹理等因素对唇语识别的影响，提高了唇语识别方法的泛化能力和识别准确度。

为了实现上述实施例，本申请实施例还提出另一种唇语的识别装置，图8为本申请实施例所提供的另一种唇语的识别装置的结构示意图。如图8所示，基于图7所示的装置结构，该装置还包括：第二获取模块510，第二生成模块520，第二输入模块530，第一比较模块540。

第二获取模块510，用于获取多个唇语视频，以及每个唇语视频对应的唇语内容。

第二生成模块520，用于根据多个唇语视频，生成每个唇语视频分别对应的唇语编码。

第二输入模块530，用于将每个唇语视频对应的唇部编码输入唇语识别模型，其中，唇语识别模型包括卷积神经网络和递归神经网络。

第一比较模块540，用于将唇语识别模型的输出与每个唇语视频对应的唇语内容进行比较，以训练唇语识别模型的参数。

进一步地，为了将唇语识别模型的输出与每个唇语视频对应的唇语内容进行比较，一种可能的实现方式是，第一比较模块540，用于使用损失函数对唇语识别模型的输出与每个唇语视频对应的唇语内容进行比较。

从而，实现了对唇语识别模型的参数训练和性能优化。

为了实现上述实施例，本申请实施例还提出又一种唇语的识别装置，图9为本申请实施例所提供的又一种唇语的识别装置的结构示意图。如图9所示，基于图7所示的装置结构，该装置还包括：第三获取模块610，第三输入模块620，第三生成模块630。

第三获取模块610，用于获取多帧面部图像对应的语音。

第三输入模块620，用于将语音输入预设的语音识别模型，以识别出语音的内容。

第三生成模块630，用于根据唇语的内容和语音的内容，生成多帧面部图像对应的语言内容。

进一步地，为了生成语音识别模型，一种可能的实现方式是，该装置还包括：第四获取模块640，用于获取多个语音，以及每个语音对应的语音内容。第四生成模块650，用于生成语音的语音特征。第四输入模块660，用于将语音特征输入语音识别模型，其中，语音识别模型包括深度神经网络。第二比较模块670，用于将语音识别模型的输出与每个语音对应的语音内容进行比较，以训练语音识别模型的参数。

进一步地，为了生成语音的语音特征，一种可能的实现方式是，第四生成模块650包括：降噪子模块651，用于对语音进行降噪。提取子模块652，用于使用梅尔频率倒谱系数从降噪后的语音中提取语音的语音特征。

进一步地，为了提取语音的语音特征，一种可能的实现方式是，提取子模块652包括：分窗单元6521，用于对语音进行分窗，以获得多帧语音信号。变换单元6522，用于对每帧语音信号进行快速傅里叶变换，以获取语音信号的频谱。滤波单元6523，用于对语音信号的频谱进行梅尔滤波，以提取语音的语音特征。

为了实现上述实施例，本申请实施例还提出一种计算机设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，其特征在于，处理器执行计算机程序时实现如前述方法实施例的唇语的识别方法的步骤。

图10是本申请实施例提供的一种计算机设备的示意图。如图10所示，该实施例的计算机设备50包括：处理器51、存储器52以及存储在存储器52中并可在处理器51上运行的计算机程序53，该计算机程序53被处理器51执行时实现实施例中的唇语的识别方法，为避免重复，此处不一一赘述。或者，该计算机程序被处理器51执行时实现实施例中唇语的识别装置中各模型/单元的功能，为避免重复，此处不一一赘述。

计算机设备50可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括，但不仅限于，处理器51、存储器52。本领域技术人员可以理解，图10仅仅是计算机设备50的示例，并不构成对计算机设备50的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器51可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器52可以是计算机设备50的内部存储单元，例如计算机设备50的硬盘或内存。存储器52也可以是计算机设备50的外部存储设备，例如计算机设备50上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器52还可以既包括计算机设备50的内部存储单元也包括外部存储设备。存储器52用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器52还可以用于暂时地存储已经输出或者将要输出的数据。

为了实现上述实施例，本申请实施例还提出一种计算机非易失性可读存储介质，计算机非易失性可读存储介质存储有计算机程序，其特征在于，计算机程序被处理器执行时实现如前述方法实施例的唇语的识别方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机非易失性可读存储介质中。上述软件功能单元存储在一个计算机非易失性可读存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本申请各个实施例方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

一种唇语的识别方法，其特征在于，所述方法包括：

获取用户的多帧面部图像；

确定每帧所述面部图像中的多个唇部关键点，以及每个所述唇部关键点对应的坐标；

根据每帧所述面部图像中每个所述唇部关键点对应的坐标，生成所述多帧面部图像对应的唇语编码；以及

将所述唇语编码输入预设的唇语识别模型，以识别出唇语的内容。
如权利要求1所述的方法，其特征在于，所述确定每帧所述面部图像中的多个唇部关键点，以及每个所述唇部关键点对应的坐标，包括：

将每帧所述面部图像输入面部关键点识别模型，以识别出所述面部图像中的多个面部关键点，并对所述多个面部关键点进行标注；

根据标注信息，从所述多个面部关键点中筛选出所述多个唇部关键点；

建立平面坐标系，以确定所述多个唇部关键点对应的坐标。
如权利要求2所述的方法，其特征在于，所述建立平面坐标系，以确定所述多个唇部关键点对应的坐标，包括：

计算所述多个唇部关键点的中心位置，并将所述中心位置作为所述平面坐标系的原点；

根据所述平面坐标系的原点，确定所述多个唇部关键点对应的坐标。
如权利要求2或3所述的方法，其特征在于，所述根据每帧所述面部图像中每个所述唇部关键点对应的坐标，生成所述多帧面部图像对应的唇语编码，包括：

将每帧所述面部图像中每个所述唇部关键点对应的坐标按照时间顺序和标注顺序进行排列，以生成所述多帧面部图像对应的唇语编码。
如权利要求1所述的方法，其特征在于，所述唇语识别模型通过以下步骤生成：

获取多个唇语视频，以及每个所述唇语视频对应的唇语内容；

根据所述多个唇语视频，生成每个所述唇语视频分别对应的所述唇语编码；

将每个所述唇语视频对应的所述唇部编码输入所述唇语识别模型，其中，所述唇语识别模型包括卷积神经网络和递归神经网络；

将所述唇语识别模型的输出与所述每个所述唇语视频对应的唇语内容进行比较，以训练所述唇语识别模型的参数。
一种唇语的识别装置，其特征在于，所述装置包括：

第一获取模块，用于获取用户的多帧面部图像；

确定模块，用于确定每帧所述面部图像中的多个唇部关键点，以及每个所述唇部关键点对应的坐标；

第一生成模块，用于根据每帧所述面部图像中每个所述唇部关键点对应的坐标，生成所述多帧面部图像对应的唇语编码；

第一输入模块，用于将所述唇语编码输入预设的唇语识别模型，以识别出唇语的内容。
如权利要求6所述的装置，其特征在于，所述确定模块包括：

输入子模块，用于将每帧所述面部图像输入面部关键点识别模型，以识别出所述面部图像中的多个面部关键点；

标注子模块，用于对所述多个面部关键点进行标注；

筛选子模块，用于根据标注信息，从所述多个面部关键点中筛选出所述多个唇部关键点；

建立子模块，用于建立平面坐标系，以确定所述多个唇部关键点对应的坐标。
如权利要求7所述的装置，其特征在于，所述建立子模块包括：

计算单元，用于计算所述多个唇部关键点的中心位置；

设置单元，用于将所述中心位置作为所述平面坐标系的原点；

确定单元，用于根据所述平面坐标系的原点，确定所述多个唇部关键点对应的坐标。
如权利要求7或8所述的装置，其特征在于，

所述第一生成模块，用于将每帧所述面部图像中每个所述唇部关键点对应的坐标按照时间顺序和标注顺序进行排列，以生成所述多帧面部图像对应的唇语编码。
如权利要求6所述的装置，其特征在于，所述装置还包括：

第二获取模块，用于获取多个唇语视频，以及每个所述唇语视频对应的唇语内容；

第二生成模块，用于根据所述多个唇语视频，生成每个所述唇语视频分别对应的所述唇语编码；

第二输入模块，用于将每个所述唇语视频对应的所述唇部编码输入所述唇语识别模型，其中，所述唇语识别模型包括卷积神经网络和递归神经网络；

第一比较模块，用于将所述唇语识别模型的输出与所述每个所述唇语视频对应的唇语内容进行比较，以训练所述唇语识别模型的参数。
一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现以下步骤：

获取用户的多帧面部图像；

确定每帧所述面部图像中的多个唇部关键点，以及每个所述唇部关键点对应的坐标；

根据每帧所述面部图像中每个所述唇部关键点对应的坐标，生成所述多帧面部图像对应的唇语编码；以及

将所述唇语编码输入预设的唇语识别模型，以识别出唇语的内容。
如权利要求11所述的计算机设备，其特征在于，所述处理器执行所述计算机程序时还实现以下步骤：

将每帧所述面部图像输入面部关键点识别模型，以识别出所述面部图像中的多个面部关键点，并对所述多个面部关键点进行标注；

根据标注信息，从所述多个面部关键点中筛选出所述多个唇部关键点；

建立平面坐标系，以确定所述多个唇部关键点对应的坐标。
如权利要求12所述的计算机设备，其特征在于，所述处理器执行所述计算机程序时还实现以下步骤：

计算所述多个唇部关键点的中心位置，并将所述中心位置作为所述平面坐标系的原点；

根据所述平面坐标系的原点，确定所述多个唇部关键点对应的坐标。
如权利要求12或13所述的计算机设备，其特征在于，所述处理器执行所述计算机程序时还实现以下步骤：

将每帧所述面部图像中每个所述唇部关键点对应的坐标按照时间顺序和标注顺序进行排列，以生成所述多帧面部图像对应的唇语编码。
如权利要求11所述的计算机设备，其特征在于，所述处理器执行所述计算机程序时还实现以下步骤：

获取多个唇语视频，以及每个所述唇语视频对应的唇语内容；

根据所述多个唇语视频，生成每个所述唇语视频分别对应的所述唇语编码；

将每个所述唇语视频对应的所述唇部编码输入所述唇语识别模型，其中，所述唇语识别模型包括卷积神经网络和递归神经网络；

将所述唇语识别模型的输出与所述每个所述唇语视频对应的唇语内容进行比较，以训练所述唇语识别模型的参数。
一种计算机非易失性可读存储介质，所述计算机非易失性可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现以下步骤：

获取用户的多帧面部图像；

确定每帧所述面部图像中的多个唇部关键点，以及每个所述唇部关键点对应的坐标；

根据每帧所述面部图像中每个所述唇部关键点对应的坐标，生成所述多帧面部图像对应的唇语编码；以及

将所述唇语编码输入预设的唇语识别模型，以识别出唇语的内容。
如权利要求16所述的计算机非易失性可读存储介质，其特征在于，所述计算机程序被处理器执行时还实现以下步骤：

将每帧所述面部图像输入面部关键点识别模型，以识别出所述面部图像中的多个面部关键点，并对所述多个面部关键点进行标注；

根据标注信息，从所述多个面部关键点中筛选出所述多个唇部关键点；

建立平面坐标系，以确定所述多个唇部关键点对应的坐标。
如权利要求17所述的计算机非易失性可读存储介质，其特征在于，所述计算机程序被处理器执行时还实现以下步骤：

计算所述多个唇部关键点的中心位置，并将所述中心位置作为所述平面坐标系的原点；

根据所述平面坐标系的原点，确定所述多个唇部关键点对应的坐标。
如权利要求16或17所述的计算机非易失性可读存储介质，其特征在于，所述计算机程序被处理器执行时还实现以下步骤：

将每帧所述面部图像中每个所述唇部关键点对应的坐标按照时间顺序和标注顺序进行排列，以生成所述多帧面部图像对应的唇语编码。
如权利要求16所述的计算机非易失性可读存储介质，其特征在于，所述计算机程序被处理器执行时还实现以下步骤：

获取多个唇语视频，以及每个所述唇语视频对应的唇语内容；

根据所述多个唇语视频，生成每个所述唇语视频分别对应的所述唇语编码；

将每个所述唇语视频对应的所述唇部编码输入所述唇语识别模型，其中，所述唇语识别模型包括卷积神经网络和递归神经网络；

将所述唇语识别模型的输出与所述每个所述唇语视频对应的唇语内容进行比较，以训练所述唇语识别模型的参数。