WO2022267380A1

WO2022267380A1 - 基于语音驱动的人脸动作合成方法、电子设备及存储介质

Info

Publication number: WO2022267380A1
Application number: PCT/CN2021/137489
Authority: WO
Inventors: 彭飞; 马世奎
Original assignee: 达闼科技（北京）有限公司
Priority date: 2021-06-25
Filing date: 2021-12-13
Publication date: 2022-12-29
Also published as: CN113408449A; CN113408449B

Abstract

本发明实施例涉及计算机信息技术领域，公开了一种基于语音驱动的人脸动作合成方法、电子设备及存储介质。通过对待识别人脸动作的语音信号进行处理，得到所述语音信号对应的音频向量；将所述音频向量输入参数识别模型进行处理，输出所述待识别人脸动作对应的人脸肌肉运动参数；通过所述待识别人脸动作的人脸肌肉运动参数，控制人脸模型中按人脸肌肉分布划分的多个弹性体上的角点运动，得到待识别人脸动作结果。本方案可以普遍适用于包含多种角点数量的人物模型，且输出的人脸动作丰富，表情效果自然。

Description

基于语音驱动的人脸动作合成方法、电子设备及存储介质

交叉引用

本申请基于申请号为2021107122777、申请日为2021年06月25日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此以引入方式并入本申请。

技术领域

本发明实施例涉及计算机信息技术领域，特别涉及一种基于语音驱动的人脸动作合成方法、电子设备及存储介质。

背景技术

无论是现实中的机器人还是计算机里面的虚拟人物或模型，如何通过音频实现虚拟人物或模型自动对口型，这都是业界的一个难题，即使经过多年的研究和发展，这个问题依然困扰着相关从业人员。

目前，基于语音驱动虚拟人物口型的方式有很多，最常用的是VOCA(Voice Operated Character Animation)模型。VOCA模型的训练的目标数据是利用三维视觉特效合成软件如FALME虚拟出的人物模型的角点位置，而由于FLAME所合成的人物模型的角点数量固定，很难将目标数据迁移到自定义的虚拟人物中，从而不能达到一次训练，多场景应用的效果。此外，voca模型通常只对口型运动进行建模，人脸的其他很多地方是没有运动的，譬如，抬眉、眨眼等，这会导致输出的人脸动作效果僵硬。

发明内容

本发明实施方式的目的在于提供一种基于语音驱动的人脸动作合成方法、电子设备及存储介质，可以普遍适用于包含多种角点数量的人物模型，且输出的人脸动作丰富，表情效果自然。

为解决上述技术问题，本发明的实施方式提供了一种基于语音驱动的人脸动作合成方法，包括：

对待识别人脸动作的语音信号进行处理，得到所述语音信号对应的音频向量；

将所述音频向量输入参数识别模型进行处理，输出所述待识别人脸动作对应的人脸肌肉运动参数；

其中，所述参数识别模型是基于样本音频向量及预先确定的对应于各样本音频向量的人脸肌肉运动参数标签进行训练后得到的，所述参数识别模型训练时的损失函数基于人脸肌肉运动损失构成；

通过所述待识别人脸动作的人脸肌肉运动参数，控制人脸模型中按人脸肌肉分布划分的多个弹性体上的角点运动，得到待识别人脸动作结果。

本发明的实施方式还提供了一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的基于语音驱动的人脸动作合成方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的基于语音驱动的人脸动作合成方法。

本申请实施例还提供了一种计算机程序，所述计算机程序被处理器执行时实现以上所述的基于语音驱动的人脸动作合成方法。

本发明实施方式相对于现有技术而言，通过对待识别人脸动作的语音信号进行处理，得到语音信号对应的音频向量；将音频向量输入参数识别模型进行处理，其中，所述参数识别模型是基于样本音频向量及预先确定的对应于各样本音频向量的人脸肌肉运动参数标签进行训练后得到的，且参数识别模型训练时的损失函数是基于人脸肌肉运动损失构成，从而通过参数识别模型搭建出语音信号与人脸肌肉的运动参数之间的对应关系；通过这种对应关系将待识别人脸动作的语音信号转换为人脸肌肉运动参数；通过该人脸肌肉运动参数，控制人脸模型中按人脸肌肉分布划分的多个弹性体上的角点运动，得到待识别人脸动作结果。本方案中，摒弃了传统基于语音驱动人脸动作(如口型)的模型中直接构建语音信号与人脸模型中具体角点之间的关系，而是先通过参数识别模型建立语音信号与人脸肌肉运动参数之间的对应关系，然后将人脸肌肉运动参数与人脸模型中按人脸肌肉分布划分的多个弹性体上的角点运动相关联，从而基于人脸肌肉运动参数控制角点运动。由于通过人脸肌肉运动模拟人脸动作遵从了生物行为特性，输出的动作生动逼真。且由于是基于人脸肌肉运动参数控制角点运动，因此对角点数量没有限定，可适用多种不同角点数量的人脸模型，移植性好。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本发明第一实施方式的基于语音驱动的人脸动作合成方法的具体流程图；

图2是根据本发明第二实施方式的一种基于语音驱动的人脸动作合成方法的具体流程图；

图3是根据本发明第二实施方式的另一种基于语音驱动的人脸动作合成方法的具体流程图；

图4是根据本发明第三实施方式的基于语音驱动的人脸动作合成方法的具体流程图；

图5是根据本发明第四实施方式的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

在现有的基于语音驱动的人脸动作合成的方案中，主要是基于语音驱动口型运动。例如让虚拟人物说一句“今天天气真好”，那么在语音播放的同时，虚拟人物的口型运动要和真人的口型基本相同，从而给人感觉这句话就是虚拟人物说出。如果口型对不上，会给人带来“假”的感觉。这也是目前很多“虚拟主播”的口型运动要解决的问题。

目前，基于语音驱动虚拟人物口型的方式有很多，最常用的是VOCA(Voice Operated Character Animation)模型。VOCA模型的训练的目标数据是利用三维视觉特效合成软件如FALME虚拟出的人物模型中的角点位置，而由于FLAME所合成的人物模型的角点数量固定，很难将目标数据迁移到自定义的虚拟人物中，从而不能达到一次训练，多场景应用的效果。此外，voca模型通常只对口型运动进行建模，人脸的其他很多地方是没有运动的，譬如，抬眉、眨眼等，这会导致输出的人脸动作效果僵硬。

因此，本方案为解决上述问题，决定放弃传统方案中对虚拟人物的人脸的角点进行训练，转而采用对虚拟人物的“肌肉”参数进行训练。在对虚拟人物的人脸模型进行构建时，参考真人面部肌肉，进行人脸肌肉的模型构建，即在虚拟人物的面部根据人脸肌肉分布建模一些弹性体，用以模仿真人的面部肌肉(如眼轮匝肌、皱眉肌、上唇举肌、颧肌等)。然后，基于这些“肌肉”参数对相应的弹性体上的角点位置进行控制，从而达到基于语音驱合成人脸动作的效果，且在合成的人脸动作中不局限于口型运动。

本发明的第一实施方式涉及一种基于语音驱动的人脸动作合成方法，该方法适用于基于语音驱动人脸动作的场景，如虚拟人物、机器人场景等。如图1所示，该基于语音驱动的人脸动作合成方法包括如下步骤：

步骤101：对待识别人脸动作的语音信号进行处理，得到语音信号对应的音频向量。

其中，待识别人脸动作的语音信号可以为用户说话时，用户的语音传入录音设备或由语言合成系统合成语音，从而实时生成连续的语音信号。通过对该语音信号的信号帧进行数字编码，如采用深度语音(Deep Speech)模型进行编码，从而得到语音信号对应的音频向量。

步骤102：将音频向量输入参数识别模型进行处理，输出待识别人脸动作对应的人脸肌肉运动参数。

其中，参数识别模型是基于样本音频向量及预先确定的对应于各样本音频向量的人脸肌肉运动参数标签进行训练后得到的，参数识别模型训练时的损失函数基于人脸肌肉运动损失构成。

具体地，将音频向量输入预先训练好的参数识别模型，该模型即输出所述待识别人脸动作对应的人脸肌肉运动参数。其中，所述参数识别模型是基于样本音频向量及预先确定的对应于各样本音频向量的人脸肌肉运动参数标签进行训练后得到的，为了保证训练出的模型的准确性，通常会采用大量的样本音频向量进行训练。

上述训练样本的形成过程是：通过使用深度相机在一般室内场景下采集人说话时语音信号及人脸图像数据，将语音信号进行编码得到样本音频向量，将各样本音频向量与人脸图像数据按获取的时间节点进行关联；而对应于各样本音频向量的标签即为与各样本音频向量关联的人脸图像数据中人脸肌肉运动参数标签，该标签的获取方法即对样本音频向量关联的人脸图像数据中人脸肌肉运动进行参数标注获得。该标注过程可采用人工标注或者预置算法标注。人脸肌肉运动参数用于描述人脸肌肉运动时的位置参数，如沿肌肉纹理方向收缩的位移等。

为生动描述人说话时人脸动作的效果，可选择能够突出展示人脸动作的人脸肌肉进行人脸肌肉运动参数标签的设置。本实施例中，人脸肌肉运动参数至少包括以下肌肉中的一种沿肌肉纹理收缩方向的收缩参数：

左右额肌、左右皱眉肌、左右眼轮匝肌、左右提上唇鼻翼肌、左右口轮匝肌、左右降下唇肌、左右笑肌。

此外，进一步限定，所述参数识别模型训练时的损失函数基于人脸肌肉运动损失构成，该损失函数主要以构建模型参数识别模型时所采用的神经网络预测的人脸肌肉运动参数与预先确定的人脸肌肉运动参数标签之间的差值对模型训练过程进行约束。

步骤103：通过待识别人脸动作的人脸肌肉运动参数，控制人脸模型中按人脸肌肉分布划分的多个弹性体上的角点运动，得到待识别人脸动作结果。

其中，待控制的人脸模型可为3D人脸模型，该人脸模型上的角点被预先按真人的人脸肌肉分布划分到多个弹性体上，每个弹性体对应一块人脸肌肉，并与该人脸肌肉对应的上述人脸肌肉运动参数一一对应。

具体地，根据待识别人脸动作的人脸肌肉运动参数，控制人脸模型中与各人脸肌肉对应的弹性体上的角点动作，从而实现在人脸模型上输出人脸动作结果。例如人脸肌肉运动参数为笑肌运动指定位移，则该参数映射到人脸模型中即为笑肌对应的弹性体上的角点运动相应的位移，输出微笑动作。

本实施例与现有技术相比较，通过对待识别人脸动作的语音信号进行处理，得到语音信号对应的音频向量；将音频向量输入参数识别模型进行处理，其中，所述参数识别模型是基于样本音频向量及预先确定的对应于各样本音频向量的人脸肌肉运动参数标签进行训练后得到的，且参数识别模型训练时的损失函数是基于人脸肌肉运动损失构成，从而通过参数识别模型搭建出语音信号与人脸肌肉的运动参数之间的对应关系；通过这种对应关系将待识别人脸动作的语音信号转换为人脸肌肉运动参数；通过该人脸肌肉运动参数，控制人脸模型中按人脸肌肉分布划分的多个弹性体上的角点运动，得到待识别人脸动作结果。本方案中，摒弃了传统基于语音驱动人脸动作(如口型)的模型中直接构建语音信号与人脸模型中具体角点之间的关系，而是先通过参数识别模型建立语音信号与人脸肌肉运动参数之间的对应关系，然后将人脸肌肉运动参数与人脸模型中按人脸肌肉分布划分的多个弹性体上的角点运动相关联，从而基于人脸肌肉运动参数控制角点运动。由于通过人脸肌肉运动模拟人脸动作遵从了生物行为特性，输出的动作生动逼真。且由于是基于人脸肌肉运动参数控制角点运动，因此对角点数量没有限定，可适用多种不同角点数量的人脸模型，移植性好。

本发明的第二实施方式涉及一种基于语音驱动的人脸动作合成方法，第二实施方式是对第一实施方式的改进，改进之处在于对参数识别模型的内部结构进行细化，同时基于这种细化，对参数识别模型执行的数据处理过程进行了说明。具体地，上述参数识别模型为神经网络模型，且该神经网络模型包括三层卷积层和两层全连接层。如图2所示，上述步骤102具体包括如下子步骤：

子步骤1021：将音频向量依次经三层卷积层进行样本空间特征提取，得到卷积层特征数据。

其中，上述三层卷积层均为一维卷积层，每层卷积层的卷积核大小和数量均不作限定。具体地，各音频向量依次经三层卷积层完成样本空间特征提取，得到卷积层特征数据。该卷积层特征数据为具有指定维数的数字特征向量。

子步骤1022：将卷积层特征数据依次经两层全连接层进行分类后，输出待识别人脸动作对应的人脸肌肉运动参数。

其中，上述两层全连接层均为一维全连接层，卷积层特征数据经两层全连接层处理后输出的向量维度与上述音频向量的维度相同或接近。

在一个例子中，上述神经网络模型还可包两层池化层，用于对卷积层输出的中间向量数据进行降维，从而使卷积层中卷积核的大小和个数的设置更加灵活。相应地，上述子步骤1021具体可以包括：

在将音频向量依次经前两层卷积层处理时，每经一层卷积层处理后，将处理后的音频向量经一层池化层处理，并将经池化层处理后的音频向量输入到下一层卷积层进行处理。

具体地，音频向量经第一层卷积层处理形成第一卷积特征数据后，可先经一层池化层处理后降维；降维后的第一卷积特征数据被输入至第二层卷积层处理形成第二卷积特征数据后，再经另一层池化层处理后降维，降维后的第二卷积特征数据被输入至第三层卷积层处理，得到最终的卷积层特征数据。

在图2所示的方法步骤的基础上，在一个例子中，如图3所示，示出了更细化的参数识别模型的处理数据过程。在图3所示方法步骤中，上述步骤101可包括如下子步骤：

子步骤1011：对待识别人脸动作的语音信号采用深度语音模型进行编码，将语音信号帧中每32帧编码成一个具有29个维度的向量作为一个音频向量。

具体地，针对待识别的连续语音信号采用预先训练的深度语音模型进行编码，将语音信号帧中按时间顺序，每32帧编码成一个音频向量，每个音频向量的维度数为29。

此外，对编码后的音频向量还可以进一步执行去中心化、归一化处理，得到优化后的音频向量。

在子步骤1011的基础上，上述步骤102可具体包括如下子步骤。

子步骤1022：从音频向量中每次提取n个音频向量，经第一层卷积层进行处理得到第一卷积特征数据；第一层卷积层包含32个卷积核且卷积核大小为 3。

具体地，假设每次输入到参数识别模型语音中的音频向量数为n(n为大于0的整数)，第一层卷积层包含32个卷积核，大小为3，则输入向量维度是n×29，输出向量维度是n×32×29。

子步骤1023：将第一卷积特征数据经第一层池化层进行处理得到第一池化特征数据；第一池化层大小为2。

具体地，第一卷积特征数据经过第一池化层后的输出向量维度为n×32×15。

子步骤1024：将第一池化特征数据经第二层卷积层进行处理得到第二卷积特征数据；第二层卷积层包含64个卷积核且卷积核大小为3，

具体地，第一池化特征数据经第二层卷积层处理后的输出向量维度为n×64×15。

子步骤1025：将第二卷积特征数据经第二层池化层进行处理得到第二池化特征数据；第二池化层大小为2。

具体地，第二卷积特征数据经第二池化层处理后的输出向量维度为n×64×8。

子步骤1026：将第二池化特征数据经第三层卷积层进行处理得到第三卷积特征数据；第三层卷积层包含128个卷积核且卷积核大小为4。

具体地，第二池化特征数据经第三层卷积层(深度卷积层)处理后的输出向量维度为n×128×8。然后展平得到n×1024维的向量。

子步骤1027：将第三卷积特征数据依次经两层全连接层进行分类后，输出n个分别具有28个维度的向量，且每个向量分别为一组待识别人脸动作对应的人脸肌肉运动参数。

具体地，第三卷积特征数据送入到全连接层。第一层全连接输入向量为n×1024，输出向量维度为n×256，第二层全连接层输出向量维度为n×28。

此外，为了减小过拟合，本实施例的参数识别模型中还可进一步添加ReLU激活函数，和一个drop层，drop概率采用0.25。然后对预测值构建损失函数。损失函数采用二次函数，由预测向量和真实向量之差的二次方进行构建。

在一个例子中，上述人脸肌肉运动参数可包括：人脸肌肉的运动位移参数和人脸肌肉的运动速度参数，其中，运动速度参数为相邻两组运动位移参数的参数增量(在后运动位移参数减去在前运动位移参数的差值)。因此，运动位移参数和运动速度参数的维度相同。在上述28维度的人脸肌肉运动参数中，前14维度为运动位移参数，后14维度为运动速度参数。

相应地，上述参数识别模型训练时的损失函数可基于人脸肌肉的运动位移损失和运动速度损失构成；

其中，参数识别模型训练时的损失函数：

E _Total＝a ₁E _p+a ₂E _v……………………..(1)

其中，E _p为运动位移损失，E _v为运动速度损失，a _j(j＝1，2)是对应损失项的权重。

本实施例中，通过优化目标函数，不仅要求最小化神经网络输出的运动位移参数与对应的目标参数的差的最小化，而且还进一步提出了两者一阶微分(这里离散后为差分，即运动速度参数)的差值的最小化要求，这一项要求体现了人脸动作的运动相似性。通过调整运动位移损失和运动速度损失之间的权重，达到人脸动作既具有静态相似性，又具有动态相似性。

在一个例子中，运动位移损失E _p通过如下公式计算：

E _p＝||y _i-f _i|| ²……………………..(2)

其中，y _i是对应于第i个样本音频向量的参考人脸肌肉的运动位移信息，通过将第i个样本音频向量输入到标注算法得到，f _i是为参数识别模型训练时的神经网络预测的第i个样本音频向量的人脸肌肉的运动位移信息；i为大于0的整数。

运动速度损失E _v通过如下公式计算：

E _v＝||(y _i-y _i-1)-(f _i-f _i-1)|| ²……………………..(3)。

本实施例中，通过描述人脸静态表情约束的运动位移损失函数，以及描述人脸动态表情约束的运动速度损失函数训练参数识别模型，对体现虚拟人物说话时的真实性具有很重要的作用。

本发明的第三实施方式涉及一种基于语音驱动的人脸动作合成方法，第三实施方式是对第一实施方式以及第二实时方式的改进，改进之处在于基于预先设定的人脸模型中弹性体上的角点运动方向与人脸肌肉运动参数相对应，实现根据人脸肌肉运动参数控制人脸模型中相应角点的运动状态。如图4所示，上述步骤103具体包括如下子步骤：

子步骤1031：确定与人脸肌肉运动参数所对应的弹性体上的角点。

为了将人脸肌肉运动效果与面部模型的动作效果关联起来，可将人脸肌肉与人脸三维模型的角点进行关联。在实际应用场景中，不同场景中搭建的人脸模型的角点数量不尽相同，在针对不同人脸模型进行人脸动作控制时，应提前建立人脸肌肉运动参数与人脸模型中相应肌肉位置的弹性体上角点的对应关系。例如，在确定人脸模型后，可先按人脸肌肉的分布情况划分不同的人脸肌肉所控制的区域，相应区域内包含的角点即为与相应人脸肌肉对应的角点。

例如，以右笑肌为例，我们在嘴唇附近圈定笑肌所牵连的面部角点作为笑肌运动参数对应的角点。

子步骤1032：确定弹性体上的角点的运动方向。

预先将各人脸肌肉运动参数对应的角点沿着肌肉纹路的方向定义一个向量，该向量即为这些角点的运动方向。

子步骤1033：通过人脸肌肉运动参数控制对应的弹性体上的角点沿运动方向进行运动。

当人脸肌肉进行收缩时(产生一组人脸肌肉运动参数)，与该人脸肌肉对应的角点就可以按照预定义的运动方向进行运动，运动幅度的大小为肌肉收缩的参数，即人脸肌肉运动参数。

例如下表1所示，为参数识别模型某次计算输出人脸动作对应的人脸肌肉运动参数。

表1人脸肌肉运动参数

例如，在人脸模型中，预先定义人体的左为x方向，上为y方向，前为z方向。且选取笑肌对应的角点的运动方向是：(-1，1，0.8)。其他肌肉同理，参照人体面部肌肉，选择相应的角点，沿着肌肉纹理的方向预定义他们的运动方向。当语音信号输入时，根据参数识别模型计算出的人脸肌肉运动参数，确定相应角点的运动位移和运动速度，将人脸模型中对应的角点按照预定义的运动方向进行收缩，即可得到相对应的人脸动作(表情)效果。

本发明第四实施方式涉及一种电子设备，如图5所示，包括至少一个处理器202；以及，与至少一个处理器202通信连接的存储器；其中，存储器201存储有可被至少一个处理器202执行的指令，指令被至少一个处理器202执行，以使至少一个处理器202能够执行上述任一方法实施例。

其中，存储器201和处理器202采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器202和存储器201的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器202处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器202。

处理器202负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器201可以被用于存储处理器202在执行操作时所使用的数据。

本发明第五实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述任一方法实施例。

本发明第六实施方式涉及一种计算机程序。计算机程序被处理器执行时实现上述任一方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

一种基于语音驱动的人脸动作合成方法，其特征在于，包括：

对待识别人脸动作的语音信号进行处理，得到所述语音信号对应的音频向量；

将所述音频向量输入参数识别模型进行处理，输出所述待识别人脸动作对应的人脸肌肉运动参数；

其中，所述参数识别模型是基于样本音频向量及预先确定的对应于各样本音频向量的人脸肌肉运动参数标签进行训练后得到的，所述参数识别模型训练时的损失函数基于人脸肌肉运动损失构成；

通过所述待识别人脸动作的人脸肌肉运动参数，控制人脸模型中按人脸肌肉分布划分的多个弹性体上的角点运动，得到待识别人脸动作结果。
根据权利要求1所述的方法，其特征在于，所述参数识别模型为神经网络模型，所述神经网络模型包括三层卷积层和两层全连接层；所述将所述音频向量输入参数识别模型进行处理，输出所述待识别人脸动作对应的人脸肌肉运动参数，包括：

将所述音频向量依次经所述三层卷积层进行样本空间特征提取，得到卷积层特征数据；

将所述卷积层特征数据依次经所述两层全连接层进行分类后，输出所述待识别人脸动作对应的人脸肌肉运动参数。
根据权利要求2所述的方法，其特征在于，所述神经网络模型还包两层池化层；

所述将所述音频向量依次经所述三层卷积层进行样本空间特征提取，得到卷积层特征数据，包括：

在将所述音频向量依次经前两层卷积层处理时，每经一个所述卷积层处理后，将处理后的音频向量经一个所述池化层处理，并将经所述池化层处理后的音频向量输入到下一层卷积层进行处理。
根据权利要求3所述的方法，其特征在于，所述对待识别人脸动作的语音信号进行处理，得到所述语音信号对应的音频向量包括：

对待识别人脸动作的语音信号采用深度语音模型进行编码，将语音信号帧中每32帧编码成一个具有29个维度的向量作为一个所述音频向量；

所述将所述音频向量输入参数识别模型进行处理，输出所述待识别人脸动作对应的人脸肌肉运动参数包括：

从所述音频向量中每次提取n个音频向量，经第一层卷积层进行处理得到第一卷积特征数据；所述第一层卷积层包含32个卷积核且卷积核大小为3；

将所述第一卷积特征数据经第一层池化层进行处理得到第一池化特征数据；所述第一池化层大小为2；

将所述第一池化特征数据经第二层卷积层进行处理得到第二卷积特征数据；所述第二层卷积层包含64个卷积核且卷积核大小为3；

将所述第二卷积特征数据经第二层池化层进行处理得到第二池化特征数据；所述第二池化层大小为2；

将所述第二池化特征数据经第三层卷积层进行处理得到第三卷积特征数据；所述第三层卷积层包含128个卷积核且卷积核大小为4；

将所述第三卷积特征数据依次经所述两层全连接层进行分类后，输出n个分别具有28个维度的向量，且每个向量分别为一组所述待识别人脸动作对应的人脸肌肉运动参数。
根据权利要求1所述的方法，其特征在于，所述人脸肌肉运动参数包括：人脸肌肉的运动位移参数和人脸肌肉的运动速度参数，其中，所述运动速度参数为相邻两组运动位移参数的参数增量；所述参数识别模型训练时的损失函数基于人脸肌肉的运动位移损失和运动速度损失构成；

其中，所述参数识别模型训练时的损失函数E _Total＝a ₁E _p+a ₂E _v，其中，E _p为运动位移损失，E _v为运动速度损失，a _j(j＝1，2)是对应损失项的权重。
根据权利要求5所述的方法，其特征在于，

所述运动位移损失E _p通过如下公式计算：

E _p＝||y _i-f _i|| ²

其中，y _i是对应于第i个样本音频向量的参考人脸肌肉的运动位移信息，通过将所述第i个样本音频向量输入到标注算法得到，f _i是为所述参数识别模型训练时的神经网络预测的第i个样本音频向量的人脸肌肉的运动位移信息；i为大于0的整数；

所述运动速度损失E _v通过如下公式计算：

E _v＝||(y _i-y _i-1)-(f _i-f _i-1)|| ²。
根据权利要求1所述的方法，其特征在于，所述通过所述待识别人脸动作的人脸肌肉运动参数，控制人脸模型中按人脸肌肉分布所划分的多个弹性体上的角点运动，得到待识别人脸动作结果，包括：

确定与所述人脸肌肉运动参数所对应的所述弹性体上的角点；

确定所述弹性体上的角点的运动方向；

通过所述人脸肌肉运动参数控制对应的所述弹性体上的角点沿所述运动方向进行运动。
根据权利要求1-7中任一项所述的方法，其特征在于，所述人脸肌肉运动参数至少包括以下肌肉中的一种沿肌肉纹路收缩方向的收缩参数：

左右额肌、左右皱眉肌、左右眼轮匝肌、左右提上唇鼻翼肌、左右口轮匝肌、左右降下唇肌、左右笑肌。
一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至8中任一项所述的基于语音驱动的人脸动作合成方法。
一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的基于语音驱动的人脸动作合成方法。
一种计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的基于语音驱动的人脸动作合成方法。