WO2024088321A1

WO2024088321A1 - 虚拟形象面部驱动方法、装置、电子设备及介质

Info

Publication number: WO2024088321A1
Application number: PCT/CN2023/126582
Authority: WO
Inventors: 刘鑫
Original assignee: 维沃移动通信有限公司
Priority date: 2022-10-27
Filing date: 2023-10-25
Publication date: 2024-05-02
Also published as: CN115662388A

Abstract

一种虚拟形象面部驱动方法、装置、电子设备、介质及计算机程序产品，属于人工智能技术领域。该虚拟形象面部驱动方法包括：获取第一输入信息，该输入信息包括语音信息和文字信息中的至少一个（201）；基于第一输入信息，生成语音文字对齐信息（202）；基于该语音文字对齐信息，确定第一输入信息对应的N个音素，该音素包括音素信息，N为大于1的整数（203）；基于该音素、音素信息以及虚拟形象中的面部视素与该音素间的映射关系，生成第一驱动参数序列（204）；基于该第一驱动参数序列，驱动虚拟形象的面部（205）。

Description

虚拟形象面部驱动方法、装置、电子设备及介质

相关申请的交叉引用

本申请主张在2022年10月27日在中国提交的中国专利申请号202211325775.7的优先权，其全部内容通过引用包含于此。

技术领域

本申请属于人工智能技术领域，具体涉及一种虚拟形象面部驱动方法、装置、电子设备及介质。

背景技术

随着人工智能技术和大数据技术的发展，虚拟形象的应用范围也越来越广。例如，可以构建一个虚拟形象，并驱动该虚拟形象的面部表情，以模拟人的说话。

在相关技术中，在驱动虚拟形象的面部表情时，是将语音片段对应的每个文字和面部数据对应的口型动作进行一一对齐，来生成每个文字各自对应的唇形驱动数据，以实现驱动虚拟形象的唇形发生变化。

然而，由于上述方案是仅仅将文字与口型动作进行对齐，导致生成的唇形驱动数据不精细，从而使得最终呈现出来的唇形变化不协调，进而导致最终的同步效果较差。

发明内容

本申请实施例的目的是提供一种虚拟形象面部驱动方法、装置、电子设备及介质，能够解决唇形变化不协调导致的同步效果较差的问题。

第一方面，本申请实施例提供了一种虚拟形象面部驱动方法，该方法包括：获取第一输入信息；该第一输入信息包括语音信息和文字信息中的至少一个；基于上述第一输入信息，生成语音文字对齐信息；基于该语音文字对齐信息，确定上述第一输入信息对应的N个音素，该音素包括音素信息，N为大于1的整数；基于上述音素、上述音素信息以及虚拟形象中的面部视素与上述音素间的映射关系，生成第一驱动参数序列；基于该第一驱动参数序列，驱动上述虚拟形象的面部。

第二方面，本申请实施例提供了一种虚拟形象面部驱动装置，该装置包括：获取模块、生成模块、确定模块和执行模块，其中：上述获取模块，用于获取第一输入信息，该第一输入信息包括语音信息和文字信息中的至少一个；上述生成模块，用于基于获取模块获取到的上述第一输入信息，生成语音文字对齐信息；上述确定模块，用于基于生成模块生成的上述语音文字对齐信息，确定上述第一输入信息对应的N个音素，该音素包括音素信息，N为大于1的整数；上述生成模块，还用于基于确定模块确定的上述音素、上述音素信息以及虚拟形象中的面部视素与上述音素间的映射关系，生成第一驱动参数序列；上述执行模块，用于基于生成模块生成的上述第一驱动参数，驱动上述虚拟形象的面部。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

第六方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的方法。

在本申请实施例中，电子设备可以获取第一输入信息；该第一输入信息包括语音信息和文字信息中的至少一个；基于上述第一输入信息，生成语音文字对齐信息；基于该语音文字对齐信息，确定上述第一输入信息对应的N个音素，该音素包括音素信息，N为大于1的整数；基于上述音素、上述音素信息以及虚拟形象中的面部视素与上述音素间的映射关系，生成第一驱动参数序列；基于该第一驱动参数序列，驱动上述虚拟形象的面部。如此，由于上述N个音素的音素信息可以精确的表达出该第一输入信息所对应的虚拟形象的面部口型，因此，能够生成更精准的第一驱动参数序列，以驱动虚拟形象的面部。从而，避免呈现出的虚拟形象的面部口型动作不协调，提升了最终的同步效果。

附图说明

图1是本申请实施例提供的一种虚拟形象面部驱动方法的流程示意图；

图2是本申请实施例提供的一种虚拟形象面部驱动装置的结构示意图；

图3是本申请实施例提供的一种电子设备的结构示意图；

图4是本申请实施例提供的一种电子设备的硬件示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的虚拟形象面部驱动方法、装置、电子设备及介质进行详细地说明。

在相关技术中，电子设备在生成用于驱动虚拟形象的面部驱动数据时，是先基于输入的文字或语音信息，生成仅包括文字信息的语音文字对齐信息，然后获取到与该文字信息对应的唇形动作，最后生成用于驱动虚拟形象的唇形驱动数据。而采用这种方案，由于文字信息不能跟精准的表达该语音片段对应的唇形动作，导致最终生成的唇形驱动数据不精细，出现唇形抖动情况。

在本申请实施例提供的虚拟形象面部驱动方法、装置、电子设备及介质中，电子设备可以获取第一输入信息；该第一输入信息包括语音信息和文字信息中的至少一个；基于上述第一输入信息，生成语音文字对齐信息；基于该语音文字对齐信息，确定上述第一输入信息对应的N个音素，该音素包括音素信息，N为大于1的整数；基于上述音素、上述音素信息以及虚拟形象中的面部视素与上述音素间的映射关系，生成第一驱动参数序列；基于该第一驱动参数序列，驱动上述虚拟形象的面部。如此，由于上述N个音素的音素信息可以精确的表达出该第一输入信息所对应的虚拟形象的面部口型，因此，能够生成更精准的第一驱动参数序列，以驱动虚拟形象的面部。从而，避免呈现出的虚拟形象的面部口型动作不协调，提升了最终的同步效果。

本实施例提供的虚拟形象面部驱动方法的执行主体可以为虚拟形象面部驱动装置，该虚拟形象面部驱动装置可以为电子设备，也可以为该电子设备中的控制模块或处理模块等。以下以电子设备为例来对本申请实施例提供的技术方案进行说明。

本申请实施例提供一种虚拟形象面部驱动方法，如图1所示，该虚拟形象面部驱动方法可以包括如下步骤201至步骤205：

步骤201：电子设备获取第一输入信息。

在本申请实施例中，上述第一输入信息包括语音信息和文字信息中的至少之一。

在本申请实施例中，上述第一输入信息用于指示虚拟形象的待表达内容。

在本申请实施例在，上述虚拟形象可以包括电子设备生成的虚拟人物形象。

步骤202：电子设备基于第一输入信息，生成语音文字对齐信息。

在本申请实施例中，电子设备可以将上述语音信息与语音信息对应的文字信息进行对齐，以生成语音文字对齐信息。

在本申请实施例中，上述语音文字对齐信息用于指示上述文字信息中的每个字的开始时间和结束时间。

步骤203：电子设备基于语音文字对齐信息，确定第一输入信息对应的N个音素。

在本申请实施例中，上述音素包括音素信息。

其中，N为大于1的整数

在本申请实施例中，上述音素信息可以为上述文字信息中的文字所对应的拼音信息。

示例性地，上述拼音信息可以分为声母和韵母。

需要说明的是，上述韵母可以包括单韵母、复韵母、前鼻韵母和后鼻韵母。

在本申请实施例中，电子设备可以按照拼音类型，将上述N各因素分为单韵母、复韵母、前鼻韵母、后鼻韵母、整体认读音节、三拼音节。然后，再对三拼音节和整体认读音节进行拆分，拆分为前四种韵母的组合，生成对应的音素组。

步骤204：电子设备基于音素、音素信息以及虚拟形象中的面部视素与音素间的映射关系，生成第一驱动参数序列。

在本申请实施例中，上述面部视素可以为虚拟形象的面部的一个部位或者肌肉。

示例性地，上述面部视素可以包括下巴部位视素、嘴唇部位视素和其他部位视素。

需要说明的是，上述下巴部位视素和嘴部部位视素用于决定唇形运动，其他部位视素用于决定眼睛、鼻子、眉毛等面部表情运动。

示例性地，上述下巴部位视素可以包括：前颚、右下颚、左下颚、下颚。

示例性地，上述嘴部部位视素可以包括：嘴巴关闭、嘴巴扭动、嘴巴抽搐、嘴巴右部、嘴巴左部、嘴巴左部笑、嘴巴右部笑、嘴巴向左皱、嘴巴向左皱、嘴巴左部酒窝弯、嘴巴右部酒窝、嘴巴向左伸、嘴巴向右伸、嘴巴向下卷、嘴巴向上卷、下嘴唇耸动、上嘴唇耸动、按压嘴巴左部、按压嘴巴右部、嘴巴左下部、嘴巴右下部、嘴巴左上部、嘴巴右上部。

示例性地，上述其他部位视素可以包括：左眼眨眼、左眼向下看、左眼向里看、左眼向外看、左眼向上看、左眼眯眼、左眼睁大、右眼眨眼、右眼向下看、右眼向里看、右眼向外看、右眼向上看、右眼眯眼、右眼睁大、左眉毛向下、右眉毛向下、眉毛内侧向上、左眉毛外侧向上、右眉毛外侧向上、脸颊粉扑、脸颊向左斜、脸颊向右斜、鼻子向左动、鼻子向右动、伸出舌头。

在本申请实施例中，上述映射关系可以预先存储在电子设备中，也可以从网络侧获取。

以下将对如何生成上述映射关系进行示例性说明：

示例性地，电子设备可以先按照每个音素，通过真人录制视频，来统计各个音素的所对应的真人面部视素动作，并记录对应的驱动参数，使得虚拟形象与真人视频脸部运动一致，然后电子设备基于上述各个音素对应的驱动参数，建立音素和视素的一一对应关系，即上述映射关系。

举例说明，上述映射关系可以为音素到视素的映射值。例如：前颚的映射值为： 0.11426107876499998；下颚的映射值为：0.45334974318700005等。

步骤205：电子设备基于第一驱动参数序列，驱动虚拟形象的面部。

在本申请实施例中，电子设备在得到上述第一驱动参数序列后，可以将该第一驱动参数序列输入至驱动引擎中，即可通过该第一驱动参数序列驱动虚拟形象面部唇形运动。

示例性地，上述驱动引擎可以为三维(3 Dimensional，3D)引擎。

在本申请实施例提供的虚拟形象面部驱动方法中，电子设备可以获取第一输入信息；该第一输入信息包括语音信息和文字信息中的至少一个；基于上述第一输入信息，生成语音文字对齐信息；基于该语音文字对齐信息，确定上述第一输入信息对应的N个音素，该音素包括音素信息，N为大于1的整数；基于上述音素、上述音素信息以及虚拟形象中的面部视素与上述音素间的映射关系，生成第一驱动参数序列；基于该第一驱动参数序列，驱动上述虚拟形象的面部。如此，由于上述N个音素的音素信息可以精确的表达出该第一输入信息所对应的虚拟形象的面部口型，因此，能够生成更精准的第一驱动参数序列，以驱动虚拟形象的面部。从而，避免呈现出的虚拟形象的面部口型动作不协调，提升了最终的同步效果。

可选地，在本申请实施例中，上述步骤204中“电子设备基于音素、音素信息以及虚拟形象中的面部视素与音素间的映射关系，生成第一驱动参数序列”可以包括如下步骤204a和步骤204b：

步骤204a：电子设备基于音素和音素信息，确定音素对应的重要性权重和密集度权重。

在本申请实施例中，上述重要性权重用于表征上述音素在上述虚拟形象面部驱动中的重要程度。

在本申请实施例中，上述密集度权重用于表征每个音素在上述N个音素中的密集程度。

在本申请实施例中，电子设备可以基于上述音素组，为每个因素组设定对应的重要性权重。例如，对于重要性权重，设定声母、单韵母、复韵母、前鼻韵母、后鼻韵母的权重分别为(1.0，0.9，0.6，0.5，0.5)。

步骤204b：电子设备基于重要性权重、密集度权重、音素、音素信息以及虚拟形象中的面部视素与音素间的映射关系，生成第一驱动参数序列。

如此，通过采用上述音素的重要性权重和密集度权重来生成第一驱动参数序列，能够丢弃密集程度高且重要性低的音素，避免了生成的第一驱动参数序列所驱动的虚拟形象动作抖动。

可选地，在本申请实施例中，上述步骤204b中“电子设备基于重要性权重、密集度权重、音素、音素信息以及虚拟形象中的面部视素与音素间的映射关系，生成第一驱动参数序列”可以包括如下步骤204b1至和步骤204b3：

步骤204b1：电子设备获取音素对应的音素序列。

在本申请实施例中，上述音素序列用于指示上述N个音素的先后顺序。

在本申请实施例中，电子设备可以基于上述生成N个音素，根据输入信息的语序顺序，排列该N个音素，以获得音素序列。

步骤204b2：电子设备基于音素序列、重要性权重以及密集度权重，生成第一音素序列。

在本申请实施例中，电子设备可以基于上述音素序列、重要性权重和密集度权重，丢弃掉密集度高，重要程度小的音素，生成新的音素序列，即上述第一音素序列。

步骤204b3：电子设备根据音素信息和虚拟形象中的面部视素与音素间的映射关系，对第一音素序列进行转换，生成第一驱动参数序列。

示例性地，电子设备可以通过公式(1)计算得到上述第一驱动参数序列。公式(1)如下：
v_i＝min(S(p_i)*w_1i*w_2i,1.0) 公式(1)

其中，w_1i为上述重要性权重，w_2i为上述密集度权重，S为上述映射关系。

如此，通过将音素序列转变为具有时序特征的视素参数序列，使得电子设备可以基于该视素参数序列驱动虚拟形象，进一步提高了驱动虚拟形象的精细程度。

可选地，在本申请实施例中，上述步骤205中“电子设备基于第一驱动参数序列，驱动虚拟形象的面部”可以包括如选步骤205a至步骤205c：

步骤205a：电子设备对第一驱动参数序列中的每个音素对应的驱动参数分别进行时域特征平滑处理，得到处理后的第二驱动参数序列。

在本申请实施例中，电子设备在得到上述视素参数序列之后，可以对不同部位的视素参数分别进行平滑处理。

示例性地，上述平滑处理可以采用卷积平滑(Savitzky-Golay，SG)算法进行平滑。

示例性地，电子设备可以以上述文字信息中的每个字为单位，对每个字对的音素对应的驱动参数进行平滑，即对每个字的音素对应的驱动参数都应用SG算法，以保证每个字对应的面部视素更为自然，最后，得到上述第二驱动参数序列。

步骤205b：电子设备对第二驱动参数序列进行时域特征平滑处理，得到第三驱动参数序列。

在本申请实施例中，上述面部驱动数据与上述第三驱动参数相关。

示例性地，电子设备在得到上述第二驱动参数序列后，可以对该第二驱动参数序列整体应用SG算法，以保证整个输入信息对应的面部视素更为自然，得到上述第三驱动参数序列。

示例性地，以对下巴部位对应的驱动参数进行平滑为例，通过公式(2)得到下巴部位驱动参数序列。公式(2)如下：
V_s下巴＝SG((SG(v₁),...,SG(v_i))) 公式(2)

其中，m表示上述输入信息中的文字个数。

进一步地，电子设备可以将不同部位对应的驱动参数序列通过公式(3)，生成最终的第三驱动参数序列。公式(3)如下：
V_s＝{V_s下巴，V_s嘴部，V_s其他} 公式(3)

步骤205c：电子设备基于第三驱动参数序列，驱动虚拟形象的面部。

在本申请实施例中，电子设备在得到上述第三驱动参数序列后，可以将该第三驱动参数序列输入至3D引擎中，即可通过该第三驱动参数序列驱动虚拟形象面部唇形运动。

如此，先对各个音素对应的驱动参数进行平滑处理，在对整体的驱动参数序列进行平滑处理，使得生成的驱动参数序列更为精细，避免了不同音素过渡阶段出现的驱动参数跳变而导致的虚拟形象的不自然和抖动问题。

可选地，在本申请实施例中，上述步骤205中“电子设备基于第一驱动参数序列，驱动虚拟形象的面部”可以包括如选步骤205d至步骤205g：

步骤205d：电子设备基于第一输入信息的短时能量，生成每个音素对应的能量系数权重。

在本申请实施例中，上述短时能量包括上述语音信息的清音部分和浊音部分。

需要说明的是，上述浊音部分对应的能量比上述清音部分对应的能量大。

在本申请实施例中，上述能量系数权重用于表征上述清音部分和浊音部分在上述语音信息中所占的比重。换句话说，上述能量系数权重越大，对应的语音信息的音量越大。

步骤205e：电子设备基于第一输入信息中的音素对应的音素序列和能量系数权重，得到音素对应的能量系数权重序列。

在本身请实施例中，电子设备可以按照上述音素序列所指示的先后顺序，对上述能量系数权重进行处理，得到能量系数权重序列。

示例性地，电子设备可以通过公式(4)，得到上述能量戏输权重序列。公式(4)如下：

步骤205f：电子设备基于能量系数权重序列、虚拟形象中的面部视素的强度参数以及第一驱动参数序列，生成第四驱动参数序列。

在本申请实施例中，上述面部驱动数据与上述第四驱动参数序列相关。

在本申请实施例中，上述面部视素的强度参数用于表征上述驱动参数序列对应的情绪信息。

示例性地，上述情绪信息包括高兴、悲伤、愤怒、平静等。

示例性地，电子设备可以自定义的为上述不同部位的驱动参数序列设置不同的强度参数。然后，通过公式(5)生成上述第四驱动参数序列。公式(5)如下：
V_final＝W_E*{w_st1V_s下巴，w_st2V_s嘴部，w_st3V_s其他} 公式(5)

步骤205g：电子设备基于第四驱动参数序列，驱动虚拟形象的面部。

在本申请实施例中，电子设备在得到上述第四驱动参数序列后，可以将该第四驱动参数序列输入至3D引擎中，即可通过该第四驱动参数序列驱动虚拟形象面部唇形运动。

在本申请实施例中，电子设备可以通过音素的重要性权重和密集程度权重，丢弃对唇形运动贡献小的音素，来降低唇形抖动的问题。并建立音素到视素的映射方案，直接通过音素即可生成面部驱动数据，然后通过不同粒度的平滑策略，对驱动参数序列进行平滑，使得唇形运动更加自然。最后，还可以根据语音信息和内置策略对驱动参数序列进行动态调整，可以实现不同的说话风格。

如此，通过为上述第一驱动参数序列增加用于表征语音信息音量和用于表征虚拟形象情绪的参数，使得最终驱动虚拟形象的效果更为自然。

可选地，在本申请实施例中，上述步骤202中“电子设备基于第一输入信息，生成语音文字对齐信息”可以包括步骤202a和步骤202b：

步骤202a：电子设备提取第一语音信息对应的声学特征信息。

在本申请实施例中，上述第一语音信息为输入的上述语音信息，或者由上述文字信息转换成的语音信息。

在本申请实施例中，上述由文字信息转换语音信息可以包括：将文字信息通过语音合成(Text To Speech，TTS)接口，生成该文字信息对应的虚拟语音。

在本申请实施例中，上述声学特征信息用于表示上述第一语音信息的音高、音强、音强、音色。

在本申请实施例中，电子设备可以将上述输入信息输入特征提取模型，以提取对应的语音的声学特征。

示例性地，上述特征提取模型可以包括线性预测编码、梅尔频谱。

步骤202b：电子设备基于声学特征信息，将第一语音信息和第一语音信息对应的文字信息进行语音文字对齐，生成语音文字对齐信息。

在本申请实施例中，电子设备可以将上述声学特征信息和文字信息输入统计模型或深度学习方法模型进行动态匹配，以生成语音文字对齐信息。

如此，通过提取语音信息中的声学特征信息，将语音信息和对应的文字信息进行对齐，使得电子设备可以更加精准的获取到输入信息所包含的内容。

可选地，在本申请实施例中，上述音素信息包括每个音素的持续时间，上述步骤204a中“电子设备基于音素和音素信息，确定音素对应的密集度权重”可以包括如下步骤204a1和步骤204a2：

步骤204a1：电子设备基于每个音素的持续时间，将第一输入信息对应的持续时间划分为P个时间段。

其中，P为大于1的整数。

在本申请实施例中，上述持续时间可以为每个音素的开始时间至结束时间。

在本申请实施例中，上述输入信息对应的持续时间可以为上述语音信息对应的开始时间至结束时间。

在本申请实施例中，上述P个时间段可以为相同时间长度的时间段。

步骤204a2：电子设备基于P个时间段中的每个时间段中包含的每个音素的密集程度信息，确定音素对应的密集度权重。

在本申请实施例中，上述密集程度信息用于表示每个时间段中的每个音素的数量多少。

示例性地，电子设备可以通过公式(6)计算得到上述密集度权重。公式(6)如下：

其中，T表示上述P个时间段对应的时间长度，t_i表示上述N个音素中的第i个音素，t_max表示上述时间长度T中最长的音素的持续时间，P即为上述P个时间段。

如此，电子设备可以基于计算得到的密集度权重，丢弃密集度高但是对面部视素应用较小的音素，避免了唇形的抖动问题。

本申请实施例提供的虚拟形象面部驱动方法，执行主体可以为虚拟形象面部驱动装置。本申请实施例中以虚拟形象面部驱动装置执行虚拟形象面部驱动方法为例，说明本申请实施例提供的虚拟形象面部驱动装置。

本申请实施例提供一种虚拟形象面部驱动装置，如图2所示，该虚拟形象面部驱动装置400包括：获取模块401、生成模块402、确定模块403和执行模块404，其中：上述获取模块401，用于获取用于第一输入信息，该输入信息包括语音信息和文字信息中的至少一个；上述生成模块402，用于基于获取模块401获取到上述第一输入信息，生成语音文字对齐信息；上述确定模块403，用于基于生成模块402生成的上述语音文字对齐信息，确定上述第一输入信息对应的N个音素，该音素包括音素信息，N为大于1的整数；上述生成模块402，还用于基于确定模块403确定的上述音素、上述音素信息以及虚拟形象中的面部视素与上述音素间的映射关系，生成第一驱动参数序列；上述执行模块404，用于基于生成模块402生成的上述第一驱动参数序列，驱动上述虚拟形象的面部。

可选地，在本申请实施例中，上述确定模块403，还用于基于上述音素和上述音素信息，确定上述音素对应的重要性权重和密集度权重，上述重要性权重用于表征上述音素在上述虚拟形象面部驱动中的重要程度，上述密集度权重用于表征每个音素在上述N个音素中的密集程度；上述生成模块402，具体用于基于确定模块403确定的上述重要性权重、上述密集度权重、上述音素、上述音素信息以上述虚拟形象中的面部视素与上述音素间的映射关系，生成第一驱动参数序列。

可选地，在本申请实施例中，上述获取模块401，还用于获取上述音素对应的音素序列；上述生成模块402，具体用于：基于获取模块401获取到的上述音素序列、上述重要性权重以及上述密集度权重，生成第一音素序列；根据上述音素信息和上述虚拟形象中的面部视素与上述音素间的映射关系，对上述第一音素序列进行转换，生成上述第一驱动参数序列。

可选地，在本申请实施例中，上述执行模块404，具体用于对生成模块402生成的上述第一驱动参数序列中的上述每个音素对应的驱动参数分别进行时域特征平滑处理，得到平滑后的第二驱动参数序列；对该第二驱动参数序列进行时域特征平滑处理，得到第三驱动参数序列；基于该第三驱动参数序列，驱动上述虚拟形象的面部。

可选地，在本申请实施例中，上述执行模块404，具体用于基于上述第一输入信息的短时能量，生成上述每个音素对应的能量系数权重；基于上述第一输入信息中的上述音素对应的音素序列和上述能量系数权重，得到上述音素对应的能量系数权重序列；基于上述能量系数权重序列、上述虚拟形象中的面部视素的强度参数以及上述第一驱动参数序列，生成第四驱动参数序列；基于该第四驱动参数序列，驱动上述虚拟形象的面部。

可选地，在本申请实施例中，上述虚拟形象面部驱动装置400还包括：提取模块，其中：上述提取模块，用于提取第一语音信息对应的声学特征信息；上述第一语音信息为输入的上述语音信息，或者由上述文字信息转换成的语音信息；上述生成模块402，具体用于基于提取模块提取到的上述声学特征信息，将上述第一语音信息和该第一语音信息对应的文字信息进行语音文字对齐，生成上述语音文字对齐信息。

可选地，在本申请实施例中，上述音素信息包括上述每个音素的持续时间；上述确定模块403，具体用于基于上述每个音素的持续时间，将上述第一输入信息对应的持续时间划分为P个时间段，P为大于1的整数；基于上述P个时间段中的每个时间段中包含的每个音素的密集程度信息，确定上述音素对应的密集度权重。

本申请实施例提供的虚拟形象面部驱动装置中，该虚拟形象面部驱动装置可以获取第一输入信息；该第一输入信息包括语音信息和文字信息中的至少一个；基于上述第一输入信息，生成语音文字对齐信息；基于该语音文字对齐信息，确定上述第一输入信息对应的N个音素，该音素包括音素信息，N为大于1的整数；基于上述音素、上述音素信息以及虚拟形象中的面部视素与上述音素间的映射关系，生成第一驱动参数序列；基于该第一驱动参数序列，驱动上述虚拟形象的面部。如此，由于上述N个音素的音素信息可以精确的表达出该第一输入信息所对应的虚拟形象的面部口型，因此，能够生成更精准的第一驱动参数序列，以驱动虚拟形象的面部。从而，避免呈现出的虚拟形象的面部口型动作不协调，提升了最终的同步效果。

本申请实施例中的虚拟形象面部驱动装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的虚拟形象面部驱动装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为iOS操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的虚拟形象面部驱动装置能够实现图1的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图3所示，本申请实施例还提供一种电子设备600，包括处理器601和存储器602，存储器602上存储有可在所述处理器601上运行的程序或指令，该程序或指令被处理器601执行时实现上述虚拟形象面部驱动方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图4为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备100包括但不限于：射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、以及处理器110等部件。

本领域技术人员可以理解，电子设备100还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图4中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，上述处理器110，用于获取第一输入信息，该第一输入信息包括语音信息和文字信息中的至少一个；基于上述第一输入信息，生成语音文字对齐信息；基于上述语音文字对齐信息，确定上述第一输入信息对应的N个音素，该音素包括音素信息，N为大于1的整数；基于上述音素、上述音素信息以及虚拟形象中的面部视素与上述音素间的映射关系，生成第一驱动参数序列；基于该第一驱动参数序列，驱动上述虚拟形象的面部。

可选地，在本申请实施例中，上述处理器110，还用于在基于上述音素和上述音素信息，确定上述音素对应的重要性权重和密集度权重，上述重要性权重用于表征上述音素在上述虚拟形象面部驱动中的重要程度，上述密集度权重用于表征每个音素在上述N个音素中的密集程度；上述处理器110，具体用于基于上述重要性权重、上述密集度权重、上述音素、上述音素信息以上述虚拟形象中的面部视素与上述音素间的映射关系，生成第一驱动参数序列。

可选地，在本申请实施例中，上述处理器110，还用于：获取上述音素对应的音素序列；上述处理器110，具体用于：基于上述音素序列、上述重要性权重以及上述密集度权重，生成第一音素序列；根据上述音素信息和上述虚拟形象中的面部视素与上述音素间的映射关系，对上述第一音素序列进行转换，生成上述第一驱动参数序列。

可选地，在本申请实施例中，上述处理器110，具体用于对上述第一驱动参数序列中的上述每个音素对应的驱动参数分别进行时域特征平滑处理，得到平滑后的第二驱动参数序列；对该第二驱动参数序列进行时域特征平滑处理，得到第三驱动参数序列；基于该第三驱动参数序列，驱动上述虚拟形象的面部。

可选地，在本申请实施例中，上述处理器110，具体用于基于上述第一输入信息的短时能量，生成上述每个音素对应的能量系数权重；基于上述第一输入信息中的上述音素对应的音素序列和上述能量系数权重，得到上述音素对应的能量系数权重序列；基于上述能量系数权重序列、上述虚拟形象中的面部视素的强度参数以及上述第一驱动参数序列，生成第四驱动参数序列；基于该第四驱动参数序列，驱动上述虚拟形象的面部。

可选地，在本申请实施例中，上述处理器110，还用于提取第一语音信息对应的声学特征信息；上述第一语音信息为输入的上述语音信息，或者由上述文字信息转换成的语音信息；上述处理器110，具体用于基于上述声学特征信息，将上述第一语音信息和该第一语音信息对应的文字信息进行语音文字对齐，生成上述语音文字对齐信息。

可选地，在本申请实施例中，上述音素信息包括上述每个音素的持续时间；上述处理器110，具体用于基于上述每个音素的持续时间，将上述第一输入信息对应的持续时间划分为P个时间段，P为大于1的整数；基于上述P个时间段中的每个时间段中包含的每个音素的密集程度信息，确定上述音素对应的密集度权重。

在本申请实施例提供的电子设备中，电子设备可以获取第一输入信息；该第一输入信息包括语音信息和文字信息中的至少一个；基于上述第一输入信息，生成语音文字对齐信息；基于该语音文字对齐信息，确定上述第一输入信息对应的N个音素，该音素包括音素信息，N为大于1的整数；基于上述音素、上述音素信息以及虚拟形象中的面部视素与上述音素间的映射关系，生成第一驱动参数序列；基于该第一驱动参数序列，驱动上述虚拟形象的面部。如此，由于上述N个音素的音素信息可以精确的表达出该第一输入信息所对应的虚拟形象的面部口型，因此，能够生成更精准的第一驱动参数序列，以驱动虚拟形象的面部。从而，避免呈现出的虚拟形象的面部口型动作不协调，提升了最终的同步效果。

应理解的是，本申请实施例中，输入单元104可以包括图形处理器(Graphics Processing Unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元106可包括显示面板1061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板1061。用户输入单元107包括触控面板1071以及其他输入设备1072中的至少一种。触控面板1071，也称为触摸屏。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器109可以包括易失性存储器或非易失性存储器，或者，存储器109可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory， RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器109包括但不限于这些和任意其它适合类型的存储器。

处理器110可包括一个或多个处理单元；可选的，处理器110集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述虚拟形象面部驱动方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述虚拟形象面部驱动方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述虚拟形象面部驱动方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

一种虚拟形象面部驱动方法，所述方法包括：

获取第一输入信息，所述第一输入信息包括语音信息和文字信息中的至少一个；

基于所述第一输入信息，生成语音文字对齐信息；

基于所述语音文字对齐信息，确定所述第一输入信息对应的N个音素，所述音素包括音素信息，N为大于1的整数；

基于所述音素、所述音素信息，以及虚拟形象中的面部视素与所述音素间的映射关系，生成第一驱动参数序列；

基于所述第一驱动参数序列，驱动所述虚拟形象的面部。
根据权利要求1所述的方法，其中，所述基于所述音素、所述音素信息，以及虚拟形象中的面部视素与所述音素间的映射关系，生成第一驱动参数序列，包括：

基于所述音素和所述音素信息，确定所述音素对应的重要性权重和密集度权重，所述重要性权重用于表征所述音素在所述虚拟形象面部驱动中的重要程度，所述密集度权重用于表征每个音素在所述N个音素中的密集程度；

基于所述重要性权重、所述密集度权重、所述音素、所述音素信息以及所述虚拟形象中的面部视素与所述音素间的映射关系，生成第一驱动参数序列。
根据权利要求2所述的方法，其中，所述基于所述重要性权重、所述密集度权重、所述音素、所述音素信息以及所述虚拟形象中的面部视素与所述音素间的映射关系，生成第一驱动参数序列，包括：

获取所述音素对应的音素序列；

基于所述音素序列、所述重要性权重以及所述密集度权重，生成第一音素序列；

根据所述音素信息和所述虚拟形象中的面部视素与所述音素间的映射关系，对所述第一音素序列进行转换，生成所述第一驱动参数序列。
根据权利要求1所述的方法，其中，所述基于所述第一驱动参数序列，驱动所述虚拟形象的面部，包括：

对所述第一驱动参数序列中的所述每个音素对应的驱动参数分别进行时域特征平滑处理，得到平滑后的第二驱动参数序列；

对所述第二驱动参数序列进行时域特征平滑处理，得到第三驱动参数序列；

基于所述第三驱动参数序列，驱动所述虚拟形象的面部。
根据权利要求1所述的方法，其中，所述基于所述第一驱动参数序列，驱动所述虚拟形象的面部，包括：

基于所述第一输入信息的短时能量，生成所述每个音素对应的能量系数权重；

基于所述第一输入信息中的所述音素对应的音素序列和所述能量系数权重，得到所述音素对应的能量系数权重序列；

基于所述能量系数权重序列、所述虚拟形象中的面部视素的强度参数以及所述第一驱动参数序列，生成第四驱动参数序列；

基于所述第四驱动参数序列，驱动所述虚拟形象的面部。
根据权利要求1所述的方法，其中，所述基于所述第一输入信息，生成语音文字对齐信息，包括：

提取第一语音信息对应的声学特征信息；所述第一语音信息为输入的所述语音信息，或者由所述文字信息转换成的语音信息；

基于所述声学特征信息，将所述第一语音信息和所述第一语音信息对应的文字信息进行语音文字对齐，生成所述语音文字对齐信息。
根据权利要求2所述的方法，其中，所述音素信息包括所述每个音素的持续时间；

所述基于音素和所述音素信息，确定所述音素对应的密集度权重，包括：

基于所述每个音素的持续时间，将所述第一输入信息对应的持续时间划分为P个时间段，P为大于1的整数；

基于所述P个时间段中的每个时间段中包含的每个音素的密集程度信息，确定所述音素对应的密集度权重。
一种虚拟形象面部驱动装置，所述装置包括：获取模块、生成模块、确定模块和执行模块，其中：

所述获取模块，用于获取第一输入信息，所述第一输入信息包括语音信息和文字信息中的至少一个；

所述生成模块，用于基于所述获取模块获取到的所述第一输入信息，生成语音文字对齐信息；

所述确定模块，用于基于所述生成模块生成的所述语音文字对齐信息，确定所述第一输入信息对应的N个音素，所述音素包括音素信息，N为大于1的整数；

所述生成模块，还用于基于所述确定模块确定的所述音素、所述音素信息以及虚拟形象中的面部视素与所述音素间的映射关系，生成第一驱动参数序列；

所述执行模块，用于基于所述生成模块生成的所述第一驱动参数序列，驱动所述虚拟形象的面部。
根据权利要求8所述的装置，其中，

所述确定模块，还用于基于所述音素和所述音素信息，确定所述音素对应的重要性权重和密集度权重，所述重要性权重用于表征所述音素在所述虚拟形象面部驱动中的重要程度，所述密集度权重用于表征每个音素在所述N个音素中的密集程度；

所述生成模块，具体用于基于所述确定模块确定的所述重要性权重、所述密集度权重、所述音素、所述音素信息以及所述虚拟形象中的面部视素与所述音素间的映射关系，生成第一驱动参数序列。
根据权利要求9所述的装置，其中，

所述获取模块，还用于获取所述音素对应的音素序列；

所述生成模块，具体用于：

基于所述获取模块获取到的所述音素序列、所述重要性权重以及所述密集度权重，生成第一音素序列；

根据所述音素信息和所述虚拟形象中的面部视素与所述音素间的映射关系，对所述第一音素序列进行转换，生成所述第一驱动参数序列。
根据权利要求8所述的装置，其中，

所述执行模块，具体用于：

对所述生成模块生成的所述第一驱动参数序列中的所述每个音素对应的驱动参数分别进行时域特征平滑处理，得到平滑后的第二驱动参数序列；

对所述第二驱动参数序列进行时域特征平滑处理，得到第三驱动参数序列；

基于所述第三驱动参数序列，驱动所述虚拟形象的面部。
根据权利要求8所述的装置，其中，

所述执行模块，具体用于：

基于所述第一输入信息的短时能量，生成所述每个音素对应的能量系数权重；

基于所述第一输入信息中的所述音素对应的音素序列和所述能量系数权重，得到所述音素对应的能量系数权重序列；

基于所述能量系数权重序列、所述虚拟形象中的面部视素的强度参数以及所述第一驱动参数序列，生成第四驱动参数序列；

基于所述第四驱动参数序列，驱动所述虚拟形象的面部。
根据权利要求8所述的装置，其中，所述装置还包括：提取模块，其中：

所述提取模块，用于提取第一语音信息对应的声学特征信息；所述第一语音信息为输入的所述语音信息，或者由所述文字信息转换成的语音信息；

所述生成模块，具体用于基于所述提取模块提取到的所述声学特征信息，将所述第一语音信息和所述第一语音信息对应的文字信息进行语音文字对齐，生成所述语音文字对齐信息。
根据权利要求9所述的装置，其中，所述音素信息包括所述每个音素的持续时间；

所述确定模块，具体用于：

基于所述每个音素的持续时间，将所述第一输入信息对应的持续时间划分为P个时间段，P为大于1的整数；

基于所述P个时间段中的每个时间段中包含的每个音素的密集程度信息，确定所述音素对应的密集度权重。
一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至7任一项所述的虚拟形象面部驱动方法的步骤。
一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至7任一项所述的虚拟形象面部驱动方法的步骤。
一种计算机程序产品，所述程序产品被至少一个处理器执行以实现如权利要求1至7中任一项所述的虚拟形象面部驱动方法。
一种电子设备，所述电子设备被配置成用于执行如权利要求1至7中任一项所述的虚拟形象面部驱动方法。