WO2021051606A1

WO2021051606A1 - 基于双向lstm的唇形样本生成方法、装置和存储介质

Info

Publication number: WO2021051606A1
Application number: PCT/CN2019/118373
Authority: WO
Inventors: 韦嘉楠; 王义文; 王健宗
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-09-18
Filing date: 2019-11-14
Publication date: 2021-03-25
Also published as: CN110796000A; CN110796000B

Abstract

一种基于双向LSTM的唇形样本生成方法、装置和存储介质，该方法包括：通过从样本数据库中采集用户的样本数据，根据样本数据训练预设双向LSTM模型，以得到训练完成的双向LSTM模型（S10）；根据样本数据得到唇部掩码人脸图象，并根据样本数据和唇部掩码人脸图象训练预设图象补全模型，以得到训练完成的图象补全模型（S20）；获取新增的用户音频信息，并将用户音频信息输入至训练完成的双向LSTM模型，得到对应的第一唇部关键点（S30）；将第一唇部关键点和唇部掩码人脸图象输入至训练完成的图象补全模型，得到新增的样本数据（S40）。

Description

基于双向LSTM的唇形样本生成方法、装置和存储介质

本申请要求于2019年9月18日提交中国专利局、申请号为201910896546.2、发明名称为“基于双向LSTM的唇形样本生成方法、装置和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在申请中。

技术领域

本申请涉及计算机处理技术领域，尤其涉及一种基于双向LSTM的唇形样本生成方法、装置和存储介质。

背景技术

唇语识别技术目前已经逐渐被应用在金融安防之类的业务场景中，与语音识别不同，唇语识别是基于机器视觉与自然语言处理于一体的技术。唇语识别技术作为活体检测的一种手段，它的主要工作方式为，向用户提示一串数字，并要求用户阅读该串数字，以确定用户的身份，通过机器视觉识别说话人唇部动作，解读说话者的说话内容，并以此判断说话者是否为目标用户。

为了实现达到上述技术效果，唇语识别技术的后台数据库往往存储有目标用户的样本数据。但是，现有的唇语识别技术中，主要通过人工标注数据的方式增加样本数据，人工标注方式会消耗大量的人力，且人工标注的数据可能存在大量极端环境数据，难以满足唇语识别技术对样本数据的要求，进而影响唇语识别技术的识别准确率。

发明内容

本申请的主要目的在于提供了一种基于双向LSTM的唇形样本生成方法、装置和存储介质，旨在解决唇语识别技术中因存在极端环境的样本数据，进而影响识别准确率的技术问题。

为实现上述目的，本申请提供了一种基于双向LSTM的唇形样本生成方法，包括以下步骤：

对所述样本数据进行格式分离，得到对应的音频信息以及图象信息；

根据所述音频信息得到对应的第一Mel频率倒谱系数MFCC特征，并根据所述图象信息得到对应的第二唇部关键点；

将所述第一MFCC特征作为预设双向LSTM模型的输入，所述第二唇部关键点作为预设双向LSTM模型的输出，其中，所述第一MFCC特征和所述第二唇部关键点序列相同，训练预设双向LSTM模型，以得到训练完成的双向LSTM模型；

从样本数据库中采集用户的样本数据，根据所述样本数据训练预设双向长短期记忆网络LSTM模型，以得到训练完成的双向LSTM模型；

根据所述样本数据得到唇部掩码人脸图象，并根据所述样本数据和所述唇部掩码人脸图象训练预设图象补全模型，以得到训练完成的图象补全模型；

获取新增的用户音频信息，并将所述用户音频信息输入至训练完成的双向LSTM模型，得到对应的第一唇部关键点；

将所述第一唇部关键点和所述唇部掩码人脸图象输入至训练完成的图象补全模型，得到新增的样本数据。

此外，为实现上述目的，本申请还提供一种装置，所述装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可读指令，所述计算机可读指令被所述处理器执行时实现如上所述基于双向LSTM的唇形样本生成方法的步骤。

此外，为实现上述目的，本申请还提供一种非显失性可读存储介质，所述非显失性可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上所述基于双向LSTM的唇形样本生成方法的步骤。

本申请公开了一种基于双向LSTM的唇形样本生成方法、装置和存储介质，通过从样本数据库中采集用户的样本数据，根据样本数据训练预设双向LSTM模型，以得到训练完成的双向LSTM模型；根据样本数据得到唇部掩码人脸图象，并根据样本数据和唇部掩码人脸图象训练预设图象补全模型，以得到训练完成的图象补全模型；获取新增的用户音频信息，并将用户音频信息输入至训练完成的双向LSTM模型，得到对应的第一唇部关键点；将第一唇部关键点和唇部掩码人脸图象输入至训练完成的图象补全模型，得到新增的样本数据。通过对双向LSTM模型和图象补全模型进行训练，只需要将用户的音频信息输入至训练完成的双向LSTM模型和图象补全模型中，就能得到新增的用户数据，使用双向LSTM模型和图象补全模型保证新增的用户数据的准确性，从而避免极端环境下的样本数据的产生，通过上述方式产生大量新增样本，以此提高唇语识别的准确率。

附图说明

图1是本申请实施例方案涉及的硬件运行环境的装置结构示意图；

图2为本申请基于双向LSTM的唇形样本生成方法一实施例的流程示意图；

图3为本申请所述从样本数据库中采集用户的样本数据，根据所述样本数据训练预设双向LSTM模型，以得到训练完成的双向LSTM模型的步骤细化流程示意图；

图4为本申请所述根据所述图象信息得到对应的第二唇部关键点的步骤细化流程示意图；

图5为本申请基于双向LSTM的唇形样本生成方法另一实施例的流程示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的可选实施例仅仅用以解释本申请，并不用于限定本申请。

如图1所示，图1是本申请实施例方案涉及的硬件运行环境的终端结构示意图。

本申请终端是一种装置，该装置可以是一种手机、电脑、移动电脑等具有存储功能的终端设备。

如图1所示，该终端可以包括：处理器1001，例如CPU，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选的用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，终端还可以包括摄像头、Wi-Fi模块等等，在此不再赘述。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要包括输入单元比如键盘，键盘包括无线键盘和有线键盘，用于连接客户端，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的计算机可读指令，并执行以下操作：

从样本数据库中采集用户的样本数据，根据所述样本数据训练预设双向长短期记忆网络LSTM模型，以得到训练完成的双向LSTM 模型；

进一步地，处理器1001可以调用存储器1005中存储的计算机可读指令，还执行以下操作：

将所述第一MFCC特征作为预设双向LSTM模型的输入，所述第二唇部关键点作为预设双向LSTM模型的输出，其中，所述第一MFCC特征和所述第二唇部关键点序列相同，训练预设双向LSTM模型，以得到训练完成的双向LSTM模型。

将新增的用户音频信息输入至预设第一算法中，得到所述用户音频信息的第二MFCC特征；

将所述第二MFCC特征输入至训练完成的双向LSTM模型，得到对应的第一唇部关键点。

将所述音频信息输入至预设第一算法中，以对所述音频信息进行预加重处理，得到对应的音频序列；

其中，对所述音频信息进行预加重处理的公式为：

H(Z)＝1-μZ ^-1

μ为滤波参数，Z为音频信息的数据量；

对所述音频序列进行分帧和加窗处理，以得到所述音频序列的第一MFCC特征。

对所述图象信息进行人脸检测，得到对应的人脸图象；

将所述人脸图象输入至预设第二算法中进行卷积和降维，得到对应的第二唇部关键点。

根据所述第二唇部关键点，得到图象信息中所述人脸图象中的唇部区域；

对所述唇部区域掩码处理，将唇部区域进行掩码处理的人脸图象作为所述唇部掩码人脸图象。

将所述第一MFCC特征和所述第二唇部关键点输入至预设线性插值算法中，以调整所述第一MFCC特征和所述第二唇部关键点的序列相等。

本装置的可选实施例与下述基于双向LSTM的唇形样本生成方法各实施例基本相同，在此不作赘述。

请参阅图2，图2为本申请基于双向LSTM的唇形样本生成方法一实施例的流程示意图，本实施例提供的基于双向LSTM的唇形样本生成方法包括如下步骤：

步骤S10，从样本数据库中采集用户的样本数据，根据所述样本数据训练预设双向长短期记忆网络LSTM模型，以得到训练完成的双向LSTM模型；

容易理解的是，对于预设双向LSTM模型和预设图象补全模型的训练都是利用的现有的样本数据。在样本数据库中存储有用户原先的样本数据，从所述样本数据库中采集任意一段样本数据，即任意一段样本视频。为了进行后续的特征分离，可选地，采集时长大于1秒的样本视频。根据采集的样本数据对预设双向LSTM模型进行训练，并得到训练完成的双向LSTM模型。

步骤S20，根据所述样本数据得到唇部掩码人脸图象，并根据所述样本数据和所述唇部掩码人脸图象训练预设图象补全模型，以得到训练完成的图象补全模型；

本实施例中，使用采集的样本数据对原有的人脸图象信息进行处理，得到唇部掩码人脸图象。本实施例中还预设有图像补全模型，使用所述样本数据和唇部掩码人脸图象训练预设图象补全模型，并得到训练完成的图象补全模型。可选地，所述图像补全模型为U-NET模型，U-Net模型是基于FCN模型改进所得到的，U-Net模型较比FCN模型能够在更少的训练图像的情况下运行，并做出更为精确的分割操作，由于网络结构像U型，所以也叫U-Net网络，包括特征提取部分和上采样部分。其中，上采样部分，每上采样一次，就和特征提取部分对应的通道数相同尺度融合，实现多尺度特征的融合。

步骤S30，获取新增的用户音频信息，并将所述用户音频信息输入至训练完成的双向LSTM模型，得到对应的第一唇部关键点；

本实施例中，得到训练完成的双向LSTM模型和图象补全模型后，通过获取新增的用户音频信息增加样本数据库中的样本数据，且能保证新增的样本数据不处于极端环境的情况。可选地，先将所述用户音频信息输入至训练完成的双向LSTM模型，得到与所述用户新增的音频信息对应的第一唇部关键点。

步骤S40，将所述第一唇部关键点和所述唇部掩码人脸图象输入至训练完成的图象补全模型，得到新增的样本数据。

上述步骤后，将从双向LSTM模型得到的第一唇部关键点和唇部掩码人脸图象输入至训练完成的图象补全模型，得到新增的唇形人脸同步视频，并将所述唇形人脸同步视频作为新增的样本数据。

本实施例通过从样本数据库中采集用户的样本数据，根据样本数据训练预设双向LSTM模型，以得到训练完成的双向LSTM模型；根据样本数据得到唇部掩码人脸图象，并根据样本数据和唇部掩码人脸图象训练预设图象补全模型，以得到训练完成的图象补全模型；获取新增的用户音频信息，并将用户音频信息输入至训练完成的双向LSTM模型，得到对应的第一唇部关键点；将第一唇部关键点和唇部掩码人脸图象输入至训练完成的图象补全模型，得到新增的样本数据。本实施例通过对双向LSTM模型和图象补全模型进行训练，只需要将用户的音频信息输入至训练完成的双向LSTM模型和图象补全模型中，就能得到新增的用户数据，使用双向LSTM模型和图象补全模型保证新增的用户数据的准确性，从而避免极端环境下的样本数据的产生，通过上述方式产生大量新增样本，当对用户进行唇语识别时，由于样本数据的扩充，实现进一步地提高唇语识别的准确率。

进一步地，请参阅图3，图3为本申请所述从样本数据库中采集用户的样本数据，根据所述样本数据训练预设双向LSTM模型，以得到训练完成的双向LSTM模型步骤细化流程示意图。所述从样本数据库中采集用户的样本数据，根据所述样本数据训练预设双向LSTM模型，以得到训练完成的双向LSTM模型的步骤包括：

步骤S11，对所述样本数据进行格式分离，得到对应的音频信息以及图象信息；

应当理解的是，样本数据库中用户原先存储的样本数据为录制的用户说话视频，由于视频文件中具有音频和图像两种不同的格式，先对样本数据进行格式分离，可以使用常见的格式分离的方法，或链接格式分离的软件来实现图像和音频的分离，以此得到样本数据中的图像信息和音频信息。

步骤S12，根据所述音频信息得到对应的第一Mel频率倒谱系数MFCC特征，并根据所述图象信息得到对应的第二唇部关键点；

得到样本数据的音频信息后，对所述音频信息进行处理，提取出音频信息对应的第一MFCC特征，MFCC特征是将音频信息的频谱包络和音频细节进行编码运算得到的一组特征向量；并根据样本数据中的图像信息得到所述图像信息中对应的第二唇部关键点。

步骤S13，将所述第一MFCC特征作为预设双向LSTM模型的输入，所述第二唇部关键点作为预设双向LSTM模型的输出，其中，所述第一MFCC特征和所述第二唇部关键点序列相同，训练预设双向LSTM模型，以得到训练完成的双向LSTM模型。

本实施例中，预设有双向LSTM模型，双向LSTM模型在传统RNN模型上进行了改进，RNN模型由于其优化过程中运用到了梯度消失，因此不能很好的解决长期依赖问题，而本实施例应用的双向LSTM模型对于长期依赖关系的学习能力强于RNN模型，且LSTM训练上远比其他模型简单，因此选用双向LSTM模型。预设双向LSTM模型中新增了3个门，分别为输入门、遗忘门和输出门，以及隐藏状态，隐藏状态用于存储之前时间步的信息；通过上述改进记录额外的信息，以应对循环神经网络(RNN)中的梯度衰减问题，并更好地捕捉时间序列中时间步距离较大的依赖关系，体现了对长期依赖关系的学习能力较强的特点。

本实施例中，将所述第一MFCC特征作为预设双向LSTM模型的输入，所述唇部关键点作为预设双向LSTM模型的输出，训练预设双向LSTM模型，在所述双向LSTM模型训练完成后，得到一组可表现MFCC特征和唇部关键点映射关系的函数。

本实施例通过对样本数据进行数据分离，得到对应的音频信息和图像信息，并利用从样本数据提取出的音频信息和图像信息训练预设的双向LSTM模型，从而保证双向LSTM模型的训练完成度。

进一步地，所述将所述用户音频信息输入至训练完成的双向LSTM模型，得到对应的第一唇部关键点的步骤包括：

步骤S31，将新增的用户音频信息输入至预设第一算法中，得到所述用户音频信息的第二MFCC特征；

本实施例中还预设有第一算法，所述预设算法为MFCC提取算法，MFCC特征提取算法的主要目的在于提取音频信息中的MFCC特征，可以将上述样本数据中的音频信息理解为一组一维序列，将所述音频序列输入至预设MFCC特征提取算法中，得到该音频信息的第二MFCC特征。

步骤S32，将所述第二MFCC特征输入至训练完成的双向LSTM模型，得到对应的第一唇部关键点。

由于双向LSTM模型的输入为MFCC特征，双向LSTM模型的输出为唇部关键点。因此将预设双向LSTM模型训练完成后，将通过上述步骤得到的第二MFCC特征作为训练完成的双向LSTM模型的输入，则所述双向LSTM模型对应的输出为第一唇部关键点。

本实施例通过将新增的用户音频信息输入至训练完成的双向LSTM模型中，以此得到第一唇部关键点，从而保证后续生成的新增样本数据的准确性。

进一步地，所述根据所述音频信息得到对应的第一MFCC特征的步骤包括：

步骤S121，将所述音频信息输入至预设第一算法中，以对所述音频信息进行预加重处理，得到对应的音频序列；

其中，对所述音频信息进行预加重处理的公式为：

H(Z)＝1-μZ ^-1

μ为滤波参数，Z为音频信息的数据量；

将音频信息输入至预设第一算法中，得到对应的第一MFCC特征，预设第一算法处理步骤为，先对所述音频信息进行预加重处理，得到音频序列。预加重处理其实是将语音信号通过一个高通滤波器的过程，公式如上所示。其中，滤波参数μ的数值范围为(0.9,1)，通常取值0.97，当然，也可以根据实际情况对应调整滤波参数的数值，本实施例在此不做限制。

步骤S122，对所述音频序列进行分帧和加窗处理，以得到所述音频序列的第一MFCC特征。

对所述音频信息进行预加重处理后，对所述音频序列进行分帧和加窗处理，经过分帧和加窗后，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。特别的，对经过分帧和加窗的音频序列进行快速傅里叶变化，并输入至三角带通滤波器中，以得到所述音频序列的第一MFCC特征。

本实施例通过预设第一算法对新增的音频数据进行预加重处理、分帧以及加窗处理，得到对应的第一MFCC特征，保证后续生成的新增样本数据的准确性。

进一步地，请参阅图4，图4为本申请所述根据所述图象信息得到对应的第二唇部关键点的步骤细化流程示意图。所述根据所述图象信息得到对应的第二唇部关键点的步骤包括：

步骤S123，对所述图象信息进行人脸检测，得到对应的人脸图象；

得到所述样本数据中的图像信息后，对所述图象信息进行人脸检测，可选地，可以使用SSD关键点算法或MTCNN算法实现对图像信息的人脸检测，并得到图像信息中的人脸图像，人脸检测的算法，本实施例在此不作限制。

步骤S124，将所述人脸图象输入至预设第二算法中进行卷积和降维，得到对应的第二唇部关键点。

本实施例中，还预设有第二算法，可选地，所述第二算法为改进的dlib人脸检测算法，若获得的样本数据中的人脸图像为RGB图像，则可以将所述人脸图像作为dlib人脸检测算法的输入，当然也可以将人脸图像的RGB图像处理形成灰度图像后作为dlib人脸检测算法的输入。

预设第二算法对人脸图像进行卷积和降维，可选地，对输入的图像使用skipconnection连接(残差连接)，总共堆叠4层卷积层，每层卷积核的宽度依次为5*5、3*3、3*3以及3*3每层卷积核的数量对应分别为16、32、64以及128。每实现一次卷积后使用ReLu激活函数对卷积后的数据进行处理，可选地，使每层卷积层后接一层内核为2*2，步长为2的maxpooling层(最大池化层)达到降采样的目的。如此，经过四层卷积之后，卷积张量的形状为128*2*2，通过一层global average pooling(全局均值池化层)，从而将卷积张量降维到128的特征向量，经过全连接层回归出20个唇部关键点坐标，即全连接层后的输出为40维向量。

进一步地，预设第二算法中对人脸图象进行降维的公式为：

其中，t表示第二唇部关键点的序号，i表示人脸图象数据，Φ(w ^t)为正则项，

表示损失函数。

可选地，预设第二算法中对人脸图象进行降维的公式如上所示，本实施例通过对样本数据中的图像信息进行人脸检测，得到对应的人脸图像，再利用预设第二算法精准的提取与所述人脸图像对应的第二唇部关键点，从而保证后续生成的新增样本数据的准确性。

进一步地，所述根据所述样本数据得到唇部掩码人脸图象的步骤包括：

步骤S21，根据所述第二唇部关键点，得到图象信息中所述人脸图象中的唇部区域；

可选地，本实施例中唇部关键点的数目为20，将20个唇部关键点进行连线，就得到人脸图像中的唇部区域。

步骤S22，对所述唇部区域掩码处理，将唇部区域进行掩码处理的人脸图象作为所述唇部掩码人脸图象。

得到人脸图像中的唇部区域后，对图像信息中的所述唇部区域进行掩码处理，即将人脸图像中该唇部区域中各个像素对应的掩码位设置为屏蔽状态，后续对人脸图像进行处理时，并不会对掩码位状态为屏蔽状态的像素点进行处理。

此外，也可以通过更换唇部掩码人脸图像的方式，生成不同用户的唇形人脸同步视频。可选地，在得到唇部关键点后，并不使用原目标用户的唇部掩码人脸图像，而可以根据唇部关键点对任一其他用户的人脸图像信息进行唇部掩码处理，得到新的唇部掩码人脸图像，将唇部关键点和新的唇部掩码人脸图像输入至训练完成的图像补全模型中，得到唇形人脸同步视频。

进一步地，请参阅图5，图5为本申请基于双向LSTM的唇形样本生成方法另一实施例的流程示意图。上述步骤S12根据所述音频信息得到对应的第一MFCC特征，并根据所述图象信息得到对应的第二唇部关键点之后，还包括：

步骤S14，将所述第一MFCC特征和所述第二唇部关键点输入至预设线性插值算法中，以调整所述第一MFCC特征和所述第二唇部关键点的序列相等。

容易理解的是，由于音频分帧为一秒60帧，则第一MFCC特征序列是60帧/秒，而第二唇部关键点序列则是24帧/秒，上述第二唇部关键点序列和第一MFCC特征序列的长度不一定相等，因此应用线性插值法使第一MFCC特征和唇部关键点序列相等。

线性插值是指插值函数为一次多项式的插值方式，其在插值节点上的插值误差为零，线性插值可以用来近似代替原函数，也可以用来计算得到查表过程中表中没有的数值，将唇部关键点序列长度插值到第一MFCC特征序列长度，得到一段MFCC特征序列到唇部关键点的序列。

本实施例将第一MFCC特征和第二唇部关键点的序列调整相等，满足预设双向LSTM模型对输入数据和输出数据的要求，对应的减少计算量，提高所述双向LSTM模型的训练效率。

此外，本申请实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上所述基于双向LSTM的唇形样本生成方法的操作。

本申请计算机可读存储介质的可选实施例与上述基于双向LSTM的唇形样本生成方法各实施例基本相同，在此不作赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的可选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种基于双向LSTM的唇形样本生成方法，其中，包括以下步骤：

对样本数据进行格式分离，得到对应的音频信息以及图象信息；

根据所述音频信息得到对应的第一Mel频率倒谱系数MFCC特征，并根据所述图象信息得到对应的第二唇部关键点；

将所述第一MFCC特征作为预设双向LSTM模型的输入，所述第二唇部关键点作为预设双向LSTM模型的输出，其中，所述第一MFCC特征和所述第二唇部关键点序列相同，训练预设双向LSTM模型，以得到训练完成的双向LSTM模型；

根据所述样本数据得到唇部掩码人脸图象，并根据所述样本数据和所述唇部掩码人脸图象训练预设图象补全模型，以得到训练完成的图象补全模型；

获取新增的用户音频信息，并将所述用户音频信息输入至训练完成的双向LSTM模型，得到对应的第一唇部关键点；

将所述第一唇部关键点和所述唇部掩码人脸图象输入至训练完成的图象补全模型，得到新增的样本数据。
如权利要求1所述的基于双向LSTM的唇形样本生成方法，其中，所述将所述用户音频信息输入至训练完成的双向LSTM模型，得到对应的第一唇部关键点的步骤包括：

将新增的用户音频信息输入至预设第一算法中，得到所述用户音频信息的第二MFCC特征；

将所述第二MFCC特征输入至训练完成的双向LSTM模型，得到对应的第一唇部关键点。
如权利要求1所述的基于双向LSTM的唇形样本生成方法，其中，所述根据所述音频信息得到对应的第一MFCC特征的步骤包括：

将所述音频信息输入至预设第一算法中，以对所述音频信息进行预加重处理，得到对应的音频序列；

其中，对所述音频信息进行预加重处理的公式为：

H(Z)＝1-μZ ^-1

μ为滤波参数，Z为音频信息的数据量；

对所述音频序列进行分帧和加窗处理，以得到所述音频序列的第一MFCC特征。
如权利要求1所述的基于双向LSTM的唇形样本生成方法，其中，所述根据所述图象信息得到对应的第二唇部关键点的步骤包括：

对所述图象信息进行人脸检测，得到对应的人脸图象；

将所述人脸图象输入至预设第二算法中进行卷积和降维，得到对应的第二唇部关键点。
如权利要求4所述的基于双向LSTM的唇形样本生成方法，其中，预设第二算法中对人脸图象进行降维的公式为：

其中，t表示第二唇部关键点的序号，i表示人脸图象数据，Φ(w ^t)为正则项，
表示损失函数。
如权利要求4所述的基于双向LSTM的唇形样本生成方法，其中，所述根据所述样本数据得到唇部掩码人脸图象的步骤包括：

根据所述第二唇部关键点，得到图象信息中所述人脸图象中的唇部区域；

对所述唇部区域掩码处理，将唇部区域进行掩码处理的人脸图象作为所述唇部掩码人脸图象。
如权利要求1所述的基于双向LSTM的唇形样本生成方法，其中，所述根据所述音频信息得到对应的第一MFCC特征，并根据所述图象信息得到对应的第二唇部关键点的步骤之后，还包括：

将所述第一MFCC特征和所述第二唇部关键点输入至预设线性插值算法中，以调整所述第一MFCC特征和所述第二唇部关键点的序列相等。
一种装置，其中，所述装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可读指令，所述计算机可读指令被所述处理器执行时，执行如下步骤：

对样本数据进行格式分离，得到对应的音频信息以及图象信息；

根据所述音频信息得到对应的第一Mel频率倒谱系数MFCC特征，并根据所述图象信息得到对应的第二唇部关键点；

将所述第一MFCC特征作为预设双向LSTM模型的输入，所述第二唇部关键点作为预设双向LSTM模型的输出，其中，所述第一MFCC特征和所述第二唇部关键点序列相同，训练预设双向LSTM模型，以得到训练完成的双向LSTM模型；

从样本数据库中采集用户的样本数据，根据所述样本数据训练预设双向长短期记忆网络LSTM模型，以得到训练完成的双向LSTM模型；

根据所述样本数据得到唇部掩码人脸图象，并根据所述样本数据和所述唇部掩码人脸图象训练预设图象补全模型，以得到训练完成的图象补全模型；

获取新增的用户音频信息，并将所述用户音频信息输入至训练完成的双向LSTM模型，得到对应的第一唇部关键点；

将所述第一唇部关键点和所述唇部掩码人脸图象输入至训练完成的图象补全模型，得到新增的样本数据。
如权利要求8所述的装置，所述计算机可读指令被所述处理器执行时，还执行如下步骤：

将新增的用户音频信息输入至预设第一算法中，得到所述用户音频信息的第二MFCC特征；

将所述第二MFCC特征输入至训练完成的双向LSTM模型，得到对应的第一唇部关键点。
如权利要求8所述的装置，所述计算机可读指令被所述处理器执行时，还执行如下步骤：

将所述音频信息输入至预设第一算法中，以对所述音频信息进行预加重处理，得到对应的音频序列；

其中，对所述音频信息进行预加重处理的公式为：

H(Z)＝1-μZ ^-1

μ为滤波参数，Z为音频信息的数据量；

对所述音频序列进行分帧和加窗处理，以得到所述音频序列的第一MFCC特征。
如权利要求8所述的装置，所述计算机可读指令被所述处理器执行时，还执行如下步骤：

对所述图象信息进行人脸检测，得到对应的人脸图象；

将所述人脸图象输入至预设第二算法中进行卷积和降维，得到对应的第二唇部关键点。
如权利要求11所述的装置，其中，预设第二算法中对人脸图象进行降维的公式为：

其中，t表示第二唇部关键点的序号，i表示人脸图象数据，Φ(w ^t)为正则项，
表示损失函数。
如权利要求11所述的装置，所述计算机可读指令被所述处理器执行时，还执行如下步骤：

根据所述第二唇部关键点，得到图象信息中所述人脸图象中的唇部区域；

对所述唇部区域掩码处理，将唇部区域进行掩码处理的人脸图象作为所述唇部掩码人脸图象。
如权利要求8所述的装置，所述计算机可读指令被所述处理器执行时，还执行如下步骤：

将所述第一MFCC特征和所述第二唇部关键点输入至预设线性插值算法中，以调整所述第一MFCC特征和所述第二唇部关键点的序列相等。
一种非显失性可读存储介质，其中，所述非显失性可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时，执行如下步骤：

对样本数据进行格式分离，得到对应的音频信息以及图象信息；

根据所述音频信息得到对应的第一Mel频率倒谱系数MFCC特征，并根据所述图象信息得到对应的第二唇部关键点；

将所述第一MFCC特征作为预设双向LSTM模型的输入，所述第二唇部关键点作为预设双向LSTM模型的输出，其中，所述第一MFCC特征和所述第二唇部关键点序列相同，训练预设双向LSTM模型，以得到训练完成的双向LSTM模型；

根据所述样本数据得到唇部掩码人脸图象，并根据所述样本数据和所述唇部掩码人脸图象训练预设图象补全模型，以得到训练完成的图象补全模型；

获取新增的用户音频信息，并将所述用户音频信息输入至训练完成的双向LSTM模型，得到对应的第一唇部关键点；

将所述第一唇部关键点和所述唇部掩码人脸图象输入至训练完成的图象补全模型，得到新增的样本数据。
如权利要求15所述的非显失性可读存储介质，所述计算机可读指令被处理器执行时，还执行如下步骤：

将新增的用户音频信息输入至预设第一算法中，得到所述用户音频信息的第二MFCC特征；

将所述第二MFCC特征输入至训练完成的双向LSTM模型，得到对应的第一唇部关键点。
如权利要求15所述的非显失性可读存储介质，所述计算机可读指令被处理器执行时，还执行如下步骤：

将所述音频信息输入至预设第一算法中，以对所述音频信息进行预加重处理，得到对应的音频序列；

其中，对所述音频信息进行预加重处理的公式为：

H(Z)＝1-μZ ^-1

μ为滤波参数，Z为音频信息的数据量；

对所述音频序列进行分帧和加窗处理，以得到所述音频序列的第一MFCC特征。
如权利要求15所述的非显失性可读存储介质，所述计算机可读指令被处理器执行时，还执行如下步骤：

对所述图象信息进行人脸检测，得到对应的人脸图象；

将所述人脸图象输入至预设第二算法中进行卷积和降维，得到对应的第二唇部关键点。
如权利要求18所述的非显失性可读存储介质，所述计算机可读指令被处理器执行时，还执行如下步骤：

其中，t表示第二唇部关键点的序号，i表示人脸图象数据，Φ(w ^t)为正则项，
表示损失函数。
如权利要求15所述的非显失性可读存储介质，所述计算机可读指令被处理器执行时，还执行如下步骤：

根据所述第二唇部关键点，得到图象信息中所述人脸图象中的唇部区域；

对所述唇部区域掩码处理，将唇部区域进行掩码处理的人脸图象作为所述唇部掩码人脸图象。