WO2021196643A1

WO2021196643A1 - 交互对象的驱动方法、装置、设备以及存储介质

Info

Publication number: WO2021196643A1
Application number: PCT/CN2020/129770
Authority: WO
Inventors: 吴文岩; 吴潜溢; 钱晨; 宋林森
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2020-03-31
Filing date: 2020-11-18
Publication date: 2021-10-07
Also published as: TW202138993A; JP2022531057A; KR20210124312A; SG11202109464YA; TWI766499B; CN111459450A

Abstract

公开了一种交互对象的驱动方法、装置、设备以及存储介质，所述交互对象展示在显示设备中，所述方法包括：获取所述交互对象的声音驱动数据对应的音素序列；获取与所述音素序列匹配的所述交互对象的姿态参数值；根据所述姿态参数值控制所述显示设备展示的所述交互对象的姿态。

Description

交互对象的驱动方法、装置、设备以及存储介质

相关交叉引用

本申请基于申请号为2020102457619、申请日为2020年3月31日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本公开涉及计算机技术领域，具体涉及一种交互对象的驱动方法、装置、设备以及存储介质。

背景技术

人机交互的方式大多基于按键、触摸、语音进行输入，通过在显示屏上呈现图像、文本或虚拟人物进行回应。目前虚拟人物多是在语音助理的基础上改进得到的。

发明内容

本公开实施例提供一种交互对象的驱动方案。

根据本公开的一方面，提供一种交互对象的驱动方法，所述交互对象展示在显示设备中，所述方法包括：获取所述交互对象的声音驱动数据对应的音素序列；获取与所述音素序列匹配的所述交互对象的姿态参数值；根据所述姿态参数值控制所述显示设备展示的所述交互对象的姿态。结合本公开提供的任一实施方式，所述方法还包括：根据所述音素序列控制所述显示设备输出语音和/或文本。

结合本公开提供的任一实施方式，所述获取与所述音素序列匹配的所述交互对象的姿态参数值，包括：对所述音素序列进行特征编码，获得所述音素序列的特征信息；获取所述音素序列的特征信息对应的所述交互对象的姿态参数值。

结合本公开提供的任一实施方式，对所述音素序列进行特征编码，获得所述音素序列的特征信息，包括：针对所述音素序列包含的多种音素中的每种音素，生成所述音素分别的编码序列；根据所述音素分别对应的编码序列的编码值以及所述音素序列中多种音素分别对应的持续时间，获得所述音素分别的编码序列的特征信息；根据所述多种音素分别对应的编码序列的特征信息，获得所述音素序列的特征信息。

结合本公开提供的任一实施方式，针对所述音素序列包含的多种音素中的每种音素，生成所述音素分别的编码序列，包括：检测各时间点上是否对应有所述音素；通过将有所述音素的时间点上的编码值设置为第一数值，将没有所述音素的时间点上的编码值设置为第二数值，得到所述音素对应的所述编码序列。

结合本公开提供的任一实施方式，根据所述多种音素分别对应的编码序列的编码值以及所述多种音素分别对应的持续时间，获得所述多种音素分别对应的编码序列的特征信息，包括：对于所述多种音素中的每种音素，对于所述音素对应的编码序列，利用高斯滤波器对所述音素在时间上的连续值进行高斯卷积操作，获得所述音素对应的编码序列的特征信息。

结合本公开提供的任一实施方式，姿态参数包括面部姿态参数，所述面部姿态参数包括面部肌肉控制系数，所述面部肌肉控制系数用于控制至少一个面部肌肉的运动状态；根据所述姿态参数值控制所述显示设备展示的所述交互对象的姿态，包括：根据与所述音素序列匹配的面部肌肉控制系数值，驱动所述交互对象做出与所述音素序列中的各个音素匹配的面部动作。

结合本公开提供的任一实施方式，所述方法还包括：获取与所述面部姿态参数值关联的身体姿态的驱动数据；根据所述姿态参数值控制所述显示设备展示的所述交互对象的姿态，包括：根据与所述面部姿态参数值关联的所述身体姿态的所述驱动数据，驱动所述交互对象做出肢体动作。

结合本公开提供的任一实施方式，获取所述音素序列的特征信息对应的所述交互对象的姿态参数值，包括：以设定时间间隔对所述音素序列的特征信息进行采样，获得第一采样时间对应的采样特征信息；将所述第一采样时间对应的采样特征信息输入至预先训练的神经网络，获得与所述采样特征信息对应的所述交互对象的所述姿态参数值。

结合本公开提供的任一实施方式，所述神经网络包括长短期记忆网络和全连接网络，所述将所述第一采样时间对应的所述采样特征信息输入至预先训练的神经网络，获得与所述采样特征信息对应的交互对象的姿态参数值，包括：将所述第一采样时间对应的采样特征信息输入至所述长短期记忆网络，根据在所述第一采样时间之前的采样特征信息，输出关联特征信息；将所述关联特征信息输入至所述全连接网络，根据所述全连接网络的分类结果，确定与所述关联特征信息对应的姿态参数值；其中，所述分类结果中每种类别对应于一组姿态参数值。

结合本公开提供的任一实施方式，所述神经网络通过音素序列样本训练得到；所述方法还包括：获取一角色发出语音的视频段；根据所述视频段获取多个包含所述角色的第一图像帧，以及与多个所述第一图像帧分别对应的多个音频帧；将所述第一图像帧转化为包含所述交互对象的第二图像帧，获取所述第二图像帧对应的姿态参数值；根据所述第二图像帧对应的所述姿态参数值，对与所述第一图像帧对应的所述音频帧进行标注；根据标注有所述姿态参数值的所述音频帧，获得所述音素序列样本。

结合本公开提供的任一实施方式，所述方法还包括：对所述音素序列样本进行特征编码，获得所述第二采样时间对应的特征信息，并对于所述特征信息标注对应的姿态参数值，获得特征信息样本；根据所述特征信息样本对初始神经网络进行训练，在网络损失的变化满足收敛条件后训练得到所述神经网络，其中，所述网络损失包括所述初始神经网络预测得到的姿态参数值与标注的所述姿态参数值之间的差异。

结合本公开提供的任一实施方式，所述网络损失包括所述初始神经网络预测得到的所述姿态参数值与标注的所述姿态参数值的差的二范数；所述网络损失还包括，所述初始神经网络预测得到的所述姿态参数值的一范数。

根据本公开的一方面，提供一种交互对象的驱动装置，所述交互对象展示在显示设备中，所述装置包括：音素序列获取单元，用于获取所述交互对象的声音驱动数据对应的音素序列；参数获取单元，用于获取与所述音素序列匹配的所述交互对象的姿态参数值；驱动单元，用于根据所述姿态参数值控制所述显示设备展示的所述交互对象的姿态。

根据本公开的一方面，提供一种电子设备，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现本公开提供的任一实施方式所述的交互对象的驱动方法。

根据本公开的一方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本公开提供的任一实施方式所述的交互对象的驱动方法。

本公开一个或多个实施例的交互对象的驱动方法、装置、设备及计算机可读存储介质，通过获取显示设备展示的交互对象的声音驱动数据对应的音素序列，获取与所述音素序列匹配的所述交互对象的姿态参数值，并根据与所述音素序列匹配的所述交互对象的姿态参数值，控制所述显示设备展示的所述交互对象的姿态，使得所述交互对象做出与所述目标对象的进行交流或对所述目标对象进行回应的匹配的姿态，从而使目标对象产生与交互对象正在交流的感觉，提升了目标对象与交互对象的交互体验。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书一个或多个实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本公开至少一个实施例提出的交互对象的驱动方法中显示设备的示意图；

图2是本公开至少一个实施例提出的交互对象的驱动方法的流程图；

图3是本公开至少一个实施例提出的对音素序列进行特征编码的过程示意图；

图4是本公开至少一个实施例提出的音素序列样本的示意图；

图5是本公开至少一个实施例提出的交互对象的驱动装置的结构示意图；

图6是本公开至少一个实施例提出的电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

本公开至少一个实施例提供了一种交互对象的驱动方法，所述驱动方法可以由终端设备或服务器等电子设备执行，所述终端设备可以是固定终端或移动终端，例如手机、平板电脑、游戏机、台式机、广告机、一体机、车载终端等等，所述服务器包括本地服务器或云端服务器等，所述方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

在本公开实施例中，交互对象可以是任意一种能够与目标对象进行交互的虚拟形象。在一实施例中，交互对象可以是虚拟人物，还可以是虚拟动物、虚拟物品、卡通形象等等其他能够实现交互功能的虚拟形象。交互对象的展现形式既可以是2D形式也可以是3D形式，本公开对此并不限定。所述目标对象可以是用户，也可以是机器人，还可以是其他智能设备。所述交互对象和所述目标对象之间的交互方式可以是主动交互方式，也可以是被动交互方式。一示例中，目标对象可以通过做出手势或者肢体动作来发出需求，通过主动交互的方式来触发交互对象与其交互。另一示例中，交互对象可以通过主动打招呼、提示目标对象做出动作等方式，使得目标对象采用被动方式与交互对象进行交互。

所述交互对象可以通过终端设备进行展示，所述终端设备可以是电视机、带有显示功能的一体机、投影仪、虚拟现实(Virtual Reality，VR)设备、增强现实(Augmented Reality，AR)设备等，本公开并不限定终端设备的具体形式。

图1示出本公开至少一个实施例提出的显示设备。如图1所示，该显示设备具有透明显示屏，在透明显示屏上可以显示立体画面，以呈现出具有立体效果的虚拟场景以及交互对象。例如图1中透明显示屏显示的交互对象包括虚拟卡通人物。在一些实施例中，本公开中所述的终端设备也可以为上述具有透明显示屏的显示设备，显示设备中配置有存储器和处理器，存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现本公开提供的交互对象的驱动方法，以驱动透明显示屏中显示的交互对象对目标对象进行交流或回应。

在一些实施例中，响应于用于驱动交互对象输出语音的声音驱动数据，交互对象可以对目标对象发出指定语音。终端设备可以根据终端设备周边目标对象的动作、表情、身份、偏好等，生成声音驱动数据，以驱动交互对象通过发出指定语音进行交流或回应，从而为目标对象提供拟人化的服务。需要说明的是，声音驱动数据也可以通过其他方式生成，比如，由服务器生成并发送给终端设备。

在交互对象与目标对象的交互过程中，根据该声音驱动数据驱动交互对象发出指定语音时，可能无法驱动所述交互对象做出与该指定语音同步的面部动作，使得交互对象在发出语音时呆板、不自然，影响了目标对象与交互对象的交互体验。基于此，本公开至少一个实施例提出一种交互对象的驱动方法，以提升目标对象与交互对象进行交互的体验。

图2示出根据本公开至少一个实施例的交互对象的驱动方法的流程图，如图2所示，所述方法包括步骤201～步骤203。

步骤201，获取所述交互对象的声音驱动数据对应的音素序列。

所述声音驱动数据可以包括音频数据(语音数据)、文本等等。响应于声音驱动数据是音频数据，可以直接利用该音频数据驱动交互对象输出语音，也即终端设备通过该音频数据直接输出语音；响应于声音驱动数据是文本，需要根据所述文本中包含的语素，生成相应的音素，通过所生成的音素来驱动交互对象输出语音。所述声音驱动数据也可以是其他形式的驱动数据，本公开对此不进行限制。

在本公开实施例中，所述声音驱动数据可以是服务器端或终端设备根据与交互对象进行交互的目标对象的动作、表情、身份、偏好等生成的驱动数据，也可以是终端设备从内部存储器调用的声音驱动数据。本公开对于该声音驱动数据的获取方式不进行限制。

响应于所述声音驱动数据为音频数据，可以通过将音频数据拆分为多个音频帧，根据音频帧的状态对音频帧进行组合而形成音素；根据所述音频数据所形成的各个音素形成音素序列。其中，音素是根据语音的自然属性划分出来的最小语音单元，真实人物一个发音动作能够形成一个音素。

响应于所述声音驱动数据为文本，可以根据所述文本中包含的语素，获得所述语素所对应的音素，从而获得相应的音素序列。

本领域技术人员应当理解，还可以通过其他方式获得所述声音驱动数据对应的音素序列，本公开对此不进行限定。

步骤202，获取与所述音素序列匹配的所述交互对象的姿态参数值。

在本公开实施例中，可以根据所述音素序列的声学特征，获得与所述音素序列匹配的交互对象的姿态参数值；也可以通过对所述音素序列进行特征编码，确定特征编码所对应的姿态参数值，从而确定所述音素序列对应的姿态参数值。

姿态参数用于控制所述交互对象的姿态，利用不同的姿态参数值可以驱动所述交互对象做出相应的姿态。该姿态参数包括面部姿态参数，在一些实施例中，该姿态参数还可以包括肢体姿态参数。其中，面部姿态参数用于控制所述交互对象的面部姿态，包括表情、口型、五官动作和头部姿态等；肢体姿态参数用于控制所述交互对象的肢体姿态，也即用于驱动所述交互对象做出肢体动作。在本公开实施例中，可以预先建立音素序列的某种特征与交互对象的姿态参数值的对应关系，从而通过所述音素序列可获得对应的姿态参数值。获取与所述音素序列匹配的所述交互对象的姿态参数值的具体方法容后详述。姿态参数的具体形式可以根据交互对象模型的类型确定。

步骤203，根据所述姿态参数值控制所述显示设备展示的所述交互对象的姿态。

其中，所述姿态参数值与所述交互对象的声音驱动数据对应的音素序列相匹配，根据所述姿态参数值控制所述交互对象的姿态，可以使交互对象的姿态与交互对象对所述目标对象所进行的交流或回应相匹配。例如，在交互对象正在用语音与目标对象进行交流或回应时，所做出的姿态与所输出的语音是同步的，从而给目标对象一种所述交互对象正在说话的感觉。

在本公开实施例中，通过获取显示设备展示的交互对象的声音驱动数据对应的音素序列，获取与所述音素序列匹配的所述交互对象的姿态参数值，并根据与所述音素序列匹配的所述交互对象的姿态参数值，控制所述显示设备展示的所述交互对象的姿态，使得所述交互对象做出与所述目标对象进行交流或对所述目标对象进行回应的匹配的姿态，从而使目标对象产生与交互对象正在交流的感觉，提升了目标对象的交互体验。

在一些实施例中，所述方法应用于服务器，包括本地服务器或云端服务器等，所述服务器对于交互对象的声音驱动数据进行处理，生成所述交互对象的姿态参数值，并根据所述姿态参数值利用三维渲染引擎进行渲染，得到所述交互对象的动画。所述服务器可以将所述动画发送至终端进行展示来对目标对象进行交流或回应，还可以将所述动画发送至云端，以使终端能够从云端获取所述动画来对目标对象进行交流或回应。在服务器生成所述交互对象的姿态参数值后，还可以将所述姿态参数值发送至终端，以使终端完成渲染、生成动画、进行展示的过程。

在一些实施例中，所述方法应用于终端，所述终端对于交互对象的声音驱动数据进行处理，生成所述交互对象的姿态参数值，并根据所述姿态参数值利用三维渲染引擎进行渲染，得到所述交互对象的动画，所述终端可以展示所述动画以对目标对象进行交流或回应。

在一些实施例中，可以根据所述音素序列控制所述显示设备输出语音和/或展示文本。并且可以在根据所述音素序列控制所述显示设备输出语音和/或展示文本的同时，根据所述姿态参数值控制所述显示设备展示的所述交互对象的姿态。

在本公开实施例中，由于所述姿态参数值是与所述音素序列相匹配的，因此根据音素序列输出的语音和/或展示的文本，与根据所述姿态参数值控制交互对象的姿态是同步进行的情况下，交互对象所做出的姿态与所输出的语音和/或所展示的文本是同步的，给目标对象以所述交互对象正在说话的感觉。

由于声音的输出需要保持连续性，因此，在一实施例中，在音素序列上移动时间窗口，并输出在每次移动过程中时间窗口内的音素，其中，以设定时长作为每次移动时间窗口的步长。例如，可以将时间窗口的长度设置为1秒，将设定时长设置为0.1秒。在输出时间窗口内的音素的同时，获取时间窗口设定位置处的音素或音素的特征信息所对应的姿态参数值，利用所述姿态参数值控制所述交互对象的姿态；该设定位置为距离时间窗口起始位置设定时长的位置，例如在时间窗口的长度设置为1s时，该设定位置距离时间窗口的起始位置可以为0.5s。随着时间窗口的每次移动，在输出时间窗口内的音素同时，都以时间窗口设定位置处对应的姿态参数值控制交互对象的姿态，从而使交互对象的姿态与输出的语音同步，给目标对象以所述交互对象正在说话的感觉。

通过改变设定时长，可以改变获取姿态参数值的时间间隔(频率)，从而改变了交互对象做出姿态的频率。可以根据实际的交互场景来设置该设定时长，以使交互对象的姿态变化更加自然。

在一些实施例中，可以对所述音素序列进行特征编码，获得所述音素序列的特征信息；并根据所述特征信息确定所述交互对象的姿态参数值。

本公开实施例通过对交互对象的声音驱动数据所对应的音素序列进行特征编码，并根据所得到的特征信息获得对应的姿态参数值，以在根据音素序列输出声音的同时，根据所述特征信息对应的姿态参数值控制所述交互对象的姿态，尤其是根据所述特征信息对应的面部姿态参数值驱动所述交互对象做出面部动作，使得所述交互对象的表情与发出的声音是同步的，使目标对象产生交互对象正在说话的感觉，提升了目标对象的交互体验。

在一些实施例中，可以通过以下方式对所述音素序列进行特征编码，获得所述音素序列的特征信息。

首先，针对所述音素序列包含的多种音素，生成多种音素分别对应的编码序列。

在一个示例中，检测各时间点上是否对应有第一音素，所述第一音素为所述多个音素中的任一个；将有所述第一音素的时间点上的编码值设置为第一数值，将没有所述第一音素的时间点上的编码值设置为第二数值，在对各个时间点上的编码值进行赋值之后可得到第一音素对应的编码序列。例如，可以将有所述第一音素的时间点上的编码值设置为1，将没有所述第一音素的时间点上的编码值设置为0。即，针对所述音素序列包含的多个音素中的每个音素，检测各时间点上是否对应有该音素；将有所述音素的时间点上的编码值设置为第一数值，将没有所述音素的时间点上的编码值设置为第二数值，在对各个时间点上的编码值进行赋值之后可得到该音素对应的编码序列。本领域技术人员应当理解，上述编码值的设置仅为示例，也可以将编码值设置为其他值，本公开对此不进行限制。

之后，根据所述各个音素分别对应的编码序列的编码值以及所述音素序列中各个音素的持续时间，获得各个音素分别对应的编码序列的特征信息。

在一个示例中，对于第一音素对应的编码序列，利用高斯滤波器对所述第一音素在时间上的连续值进行高斯卷积操作，获得所述第一音素对应的编码序列的特征信息；所述第一音素为所述多个音素中的任一个。

最后，根据各个编码序列的特征信息的集合，获得所述音素序列的特征信息。

图3示出对音素序列进行特征编码的过程示意图。如图3所示，音素序列310含音素j、i1、j、ie4(为简洁起见，只示出部分音素)，针对每种音素j、i1、ie4分别获得与上述各音素分别对应的编码序列321、322、323。在各个编码序列中，将有所述音素的时间点上对应的编码值设置为第一数值(例如为1)，将没有所述音素的时间点上对应的编码值设置为第二数值(例如为0)。以编码序列321为例，在音素序列310中有音素j的时间点上，编码序列321的值为第一数值，在没有音素j的时间点上，编码序列321的值为第二数值。所有编码序列321、322、323构成总编码序列320。

根据音素j、i1、ie4分别对应的编码序列321、322、323的编码值，以及该三个编码序列中对应的音素的持续时间，也即在编码序列321中j的持续时间、在编码序列322中i1的持续时间、在编码序列323中ie4的持续时间，可以获得编码序列321、322、323的特征信息。

例如，可以利用高斯滤波器分别对所述编码序列321、322、323中的音素j、i1、ie4 在时间上的连续值进行高斯卷积操作，获得所述编码序列的特征信息。也即，通过高斯滤波器对音素在时间上的连续值进行高斯卷积操作，使得各个编码序列中编码值从第二数值到第一数值或者从第一数值到第二数值的变化阶段变得平滑。对各个编码序列321、322、323分别进行高斯卷积操作，从而获得各个编码序列的特征值，其中，特征值为构成特征信息的参数，根据各个编码序列的特征信息的集合，获得该音素序列310所对应的特征信息330。本领域技术人员应当理解，也可以对各个编码序列进行其他的操作来获得所述编码序列的特征信息，本公开对此不进行限制。

在本公开实施例中，通过根据音素序列中每种音素的持续时间获得所述编码序列的特征信息，使得编码序列的变化阶段平滑，例如，编码序列的值除了0和1也呈现出中间状态的值，例如0.2、0.3等等，而根据这些中间状态的值所获取的姿态参数值，使得交互人物的姿态变化过度的更加平缓、自然，尤其是交互人物的表情变化更加平缓、自然，提高了目标对象的交互体验。

在一些实施例中，所述面部姿态参数可以包括面部肌肉控制系数。

人脸的运动，从解剖学角度来看，是由面部各部分肌肉协同变形的结果。因此，通过对交互对象的面部肌肉进行划分而获得面部肌肉模型，并对划分得到的每一块肌肉(区域)通过对应的面部肌肉控制系数控制其运动，也即对其进行收缩/扩张控制，则能够使交互人物的面部做出各种表情。对于所述面部肌肉模型的每一块肌肉，可以根据肌肉所在的面部位置和肌肉自身的运动特征，来设置不同的肌肉控制系数所对应的运动状态。例如，对于上唇肌肉，其控制系数的数值范围为0～1，在该范围内的不同数值，对应于上唇肌肉不同的收缩/扩张状态，通过改变该数值，可以实现嘴部的纵向开合；而对于左嘴角肌肉，其控制系数的数值范围为0～1，在该范围内的不同数值，对应于左嘴角肌肉的收缩/扩张状态，通过改变该数值，可以实现嘴部的横向变化。

在根据音素序列输出声音的同时，根据与所述音素序列对应的面部肌肉控制系数值来驱动所述交互对象做出面部表情，则可以实现显示设备在输出声音时，交互对象同步做出发出该声音的表情，从而使目标对象产生该交互对象正在说话的感觉，提高了目标对象的交互体验。

在一些实施例中，可以将所述交互对象的面部动作与身体姿态相关联，也即将该面部动作所对应的面部姿态参数值与所述身体姿态相关联，所述身体姿态可以包括肢体动作、手势动作、走路姿态等等。

在交互对象的驱动过程中，获取与所述面部姿态参数值关联的身体姿态的驱动数据；在根据所述音素序列输出声音的同时，根据与所述面部姿态参数值关联的身体姿态的驱动数据，驱动所述交互对象做出肢体动作。也即，在根据所述交互对象的声音驱动数据驱动所述交互对象做出面部动作的同时，还根据该面部动作对应的面部姿态参数值获取相关联的身体姿态的驱动数据，从而在输出声音时，可以驱动交互对象同步做出相应的面部动作和肢体动作，使交互对象的说话状态更加生动自然，提高了目标对象的交互体验。

在一些实施例中，可以通过以下方法获取所述音素序列的特征信息对应的交互对象的姿态参数值。

首先，以设定时间间隔对所述音素序列的特征信息进行采样，获得各个第一采样时间对应的采样特征信息。例如，设定时间间隔为0.1s，则各个第一采样时间可以为0.1s、0.2s、0.3s等。

参见图3，特征信息330是基于时间的信息，因此，在以设定时间间隔对该特征信息进行取样时，可以获得各个第一采样时间所对应的采样特征信息。

接下来，将所述第一采样时间对应的采样特征信息输入至预先训练的神经网络，则可以获得与所述采样特征信息对应的交互对象的姿态参数值。基于各个第一采样时间对应的采样特征信息，则可以获得各个第一采样时间对应的交互对象的姿态参数值。

如前所述，在通过在音素序列上进行移动时间窗口输出音素的情况下，获取时间窗口设定位置处的特征信息，也即获得时间窗口设定位置所对应的第一采样时间处的特征信息，通过获取该特征信息所对应的姿态参数值来控制所述交互对象的姿态，则可以使交互对象做出与所发出的语音适配的姿态，从而使交互对象发出语音的过程更加生动、自然。

在一些实施例中，所述神经网络包括长短期记忆网络(Long Short-Term Memory，LSTM)和全连接网络。其中，长短期记忆网络是一种时间递归神经网络，其可以学习所输入采样特征信息的历史信息；并且，所述长短期记忆网络和全连接网络是联合训练的。

在所述神经网络包括长短期记忆网络和全连接网络的情况下，首先将所述第一采样时间对应的采样特征信息输入至长短期记忆网络，长短期记忆网络根据在所述第一采样时间之前的采样特征信息，输出关联特征信息。也即，长短期记忆网络所输出的信息包含了历史特征信息对当前特征信息的影响。接下来，将所述关联特征信息输入至所述全连接网络，根据所述全连接网络的分类结果，确定与所述关联特征信息对应的姿态参数值；其中，每一种分类对应于一组姿态参数值，即对应于一种面部肌肉控制系数的分布状况。

在本公开实施例中，通过长短期记忆网络和全连接网络来预测与音素序列的采样特征信息对应的姿态参数值，可以将具有关联性的历史特征信息和当前特征信息进行融合，从而使得历史姿态参数值对当前姿态参数值的变化产生影响，使得交互人物的姿态参数值的变化更加平缓、自然。

在一些实施例中，可以通过以下方式对所述神经网络进行训练。

首先，获取音素序列样本，所述音素序列样本包含在设定时间间隔的第二采样时间上标注的所述交互对象的姿态参数值。如图4所示的音素序列样本，其中虚线表示第二采样时间，在各个第二采样时间处标注交互对象的姿态参数值。

接下来，对所述音素序列样本进行特征编码，获得在各个第二采样时间对应的特征信息，并对于所述特征信息标注对应的姿态参数值，获得特征信息样本。也即，特征信息样本包含了在第二采样时间上标注的所述交互对象的姿态参数值。

在获得了特征信息样本后，可以根据该特征信息样本对所述神经网络进行训练，在网络损失小于设定损失值时完成训练，其中，所述网络损失包括所述神经网络预测得到的姿态参数值与标注的姿态参数值之间的差异。

在一个示例中，网络损失函数的表达式如公式(1)所示：

其中，

是神经网络预测得到的第i个姿态参数值；p _i是所标注的第i个姿态参数值，也即真实值；||·|| ₂表示向量的二范数。

通过调整所述神经网络的网络参数值，以最小化网络损失函数，在网络损失的变化满足收敛条件时，例如网络损失的变化量小于设定阈值时，或者迭代次数达到设定次数时完成训练，即得到了训练好的神经网络。

在另一个示例中，网络损失函数的表达式如公式(2)所示：

其中，

是神经网络预测得到的第i个姿态参数值；p _i是所标注的第i个姿态参数值，也即真实值；||·|| ₂表示向量的二范数；||·|| ₁表示向量的一范数。

通过在网络损失函数中，加入预测得到的姿态参数值的一范数，增加了对于面部参数稀疏性的约束。

在一些实施例中，可以通过以下方法获得音素序列样本。

首先，获取一角色发出语音的视频段。例如，可以获取一真实人物正在说话的视频段。

针对所述视频段，获取多个包含所述角色的第一图像帧，以及与所述第一图像帧对应的多个音频帧。也即，将所述视频段拆分为图像帧和音频帧，并且，每个图像帧与每个音频帧是对应的，也即，对于一个图像帧，可以确定该角色在做出图像帧的表情时所发出的声音对应的音频帧。

接下来，将所述第一图像帧，也即所述包含角色的图像帧，转化为包含所述交互对象的第二图像帧，获取所述第二图像帧对应的姿态参数值。以所述第一图像帧为包含真实人物的图像帧为例，可以将该真实人物的图像帧转换为包含交互对象所表示的形象的第二图像帧，并且所述真实人物的姿态参数值与所述交互对象的姿态参数值是对应的，从而可以获取各个第二图像帧中交互对象的姿态参数值。

之后，根据所述第二图像帧对应的姿态参数值，对与所述第一图像帧对应的音频帧进行标注，根据标注了姿态参数值的音频帧，获得音素序列样本。

在本公开实施例中，通过将一角色的视频段，拆分为对应的图像帧和音频帧，并通过将包含真实人物的第一图像帧转化为包含交互对象的第二图像帧来获取音素序列对应的姿态参数值，使得音素与姿态参数值的对应性较好，能够获得较高质量的音素序列样本。

图5示出根据本公开至少一个实施例的交互对象的驱动装置的结构示意图，所述交互对象展示在显示设备中，如图5所示，该装置可以包括：音素序列获取单元501，用于获取所述交互对象的声音驱动数据对应的音素序列；参数获取单元502，用于获取与所述音素序列匹配的所述交互对象的姿态参数值；驱动单元503，用于根据所述姿态参数值控制所述显示设备展示的所述交互对象的姿态。

在一些实施例中，所述装置还包括输出单元，用于根据所述音素序列控制所述显示设备输出语音和/或展示文本。

在一些实施例中，所述参数获取单元具体用于：对所述音素序列进行特征编码，获得所述音素序列的特征信息；获取所述音素序列的特征信息对应的所述交互对象的姿态参数值。

在一些实施例中，在对所述音素序列进行特征编码，获得所述音素序列的特征信息时，所述参数获取单元具体用于：针对所述音素序列包含的多种音素中的每种音素，生成多种音素分别对应的编码序列；根据所述多种音素分别对应的编码序列的编码值以及所述音素序列中多种音素分别对应的持续时间，获得所述多种音素分别对应的编码序列的特征信息；根据所述多种音素分别对应的编码序列的特征信息，获得所述音素序列的特征信息。

在一些实施例中，在针对所述音素序列包含的多种音素，生成多个音素分别对应的编码序列时，所述参数获取单元具体用于：检测各时间点上是否对应有第一音素，所述第一音素为所述多个音素中的任一个；通过将有所述第一音素的时间点上的编码值设置为第一数值，将没有所述第一音素的时间点上的编码值设置为第二数值，得到所述第一音素对应的编码序列。

在一些实施例中，在根据所述多种音素分别对应的编码序列的编码值以及所述音素序列中多种音素分别对应的持续时间，获得所述多种音素分别对应的编码序列的特征信息时，所述参数获取单元具体用于：对于第一音素对应的编码序列，利用高斯滤波器对所述第一音素在时间上的连续值进行高斯卷积操作，获得所述第一音素对应的编码序列的特征信息；所述第一音素为所述多个音素中的任一个。

在一些实施例中，姿态参数包括面部姿态参数，所述面部姿态参数包括面部肌肉控制系数，用于控制至少一个面部肌肉的运动状态；所述驱动单元具体用于：根据与所述音素序列匹配的面部肌肉控制系数，驱动所述交互对象做出与所述音素序列中的各个音素匹配的面部动作。

在一些实施例中，所述装置还包括动作驱动单元，用于获取与所述面部姿态参数关联的身体姿态的驱动数据；根据与所述面部姿态参数值关联的身体姿态的驱动数据，驱动所述交互对象做出肢体动作。

在一些实施例中，在获取所述音素序列的特征信息对应的所述交互对象的姿态参数值时，所述参数获取单元具体用于：以设定时间间隔对所述音素序列的特征信息进行采样，获得第一采样时间对应的采样特征信息；将所述第一采样时间对应的采样特征信息输入至预先训练的神经网络，获得与所述采样特征信息对应的交互对象的姿态参数值。

在一些实施例中，所述神经网络包括长短期记忆网络和全连接网络；在将所述第一采样时间对应的采样特征信息输入至预先训练的神经网络，获得与所述采样特征信息对应的交互对象的姿态参数值时，所述参数获取单元具体用于：将所述第一采样时间对应的采样特征信息输入至所述长短期记忆网络，根据在所述第一采样时间之前的采样特征信息，输出关联特征信息；将所述关联特征信息输入至所述全连接网络，根据所述全连接网络的分类结果，确定与所述关联特征信息对应的姿态参数值；其中，所述分类结果中每种类别对应于一组姿态参数值。

在一些实施例中，所述神经网络通过音素序列样本训练得到。所述装置还包括样本获取单元，用于：获取一角色发出语音的视频段；根据所述视频段获取多个包含所述角色的第一图像帧以及与所述第一图像帧对应的多个音频帧；将所述第一图像帧转化为包含所述交互对象的第二图像帧，获取所述第二图像帧对应的姿态参数值；根据所述第二图像帧对应的姿态参数值，对与所述第一图像帧对应的音频帧进行标注；根据标注有姿态参数值的音频帧，获得音素序列样本。

本说明书至少一个实施例还提供了一种电子设备，如图6所示，所述设备包括存储器、处理器，存储器用于存储可在处理器上运行的计算机指令，处理器用于在执行所述计算机指令时实现本公开任一实施例所述的交互对象的驱动方法。

本说明书至少一个实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本公开任一实施例所述的交互对象的驱动方法。

本领域技术人员应明白，本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于数据处理设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

一种交互对象的驱动方法，所述交互对象展示在显示设备中，所述方法包括：

获取所述交互对象的声音驱动数据对应的音素序列；

获取与所述音素序列匹配的所述交互对象的姿态参数值；

根据所述姿态参数值控制所述显示设备展示的所述交互对象的姿态。
根据权利要求1所述的方法，还包括：根据所述音素序列控制所述显示设备输出语音和/或展示文本。
根据权利要求1或2所述的方法，其中，获取与所述音素序列匹配的所述交互对象的姿态参数值，包括：

对所述音素序列进行特征编码，获得所述音素序列的特征信息；

获取所述音素序列的特征信息对应的所述交互对象的姿态参数值。
根据权利要求3所述的方法，其中，对所述音素序列进行特征编码，获得所述音素序列的特征信息，包括：

针对所述音素序列包含的多种音素中的每种音素，

生成所述音素对应的编码序列；

根据所述音素对应的编码序列的编码值以及所述音素对应的持续时间，获得所述音素对应的编码序列的特征信息；

根据所述多种音素分别对应的编码序列的特征信息，获得所述音素序列的特征信息。
根据权利要求4所述的方法，其中，针对所述音素序列包含的多种音素中的每种音素，生成所述音素对应的编码序列，包括：

检测各时间点上是否对应有所述音素；

通过将有所述音素的时间点上的编码值设置为第一数值，将没有所述音素的时间点上的编码值设置为第二数值，得到所述音素对应的所述编码序列。
根据权利要求4或5所述的方法，其中，根据所述多个音素分别对应的编码序列的编码值以及所述多种音素分别对应的持续时间，获得所述多种音素分别对应的编码序列的特征信息，包括：

对于所述多种音素中的每种音素，

对于所述音素对应的编码序列，利用高斯滤波器对所述音素在时间上的连续值进行高斯卷积操作，获得所述音素对应的编码序列的特征信息。
根据权利要求1至6任一项所述的方法，其中，姿态参数包括面部姿态参数，所述面部姿态参数包括面部肌肉控制系数，所述面部肌肉控制系数用于控制至少一个面部肌肉的运动状态；

根据所述姿态参数值控制所述显示设备展示的所述交互对象的姿态，包括：

根据与所述音素序列匹配的面部肌肉控制系数值，驱动所述交互对象做出与所述音素序列中的各个音素匹配的面部动作。
根据权利要求7所述的方法，还包括：

获取与所述面部姿态参数值关联的身体姿态的驱动数据；

根据与所述面部姿态参数值关联的所述身体姿态的所述驱动数据，驱动所述交互对象做出肢体动作。
根据权利要求3所述的方法，其中，获取所述音素序列的特征信息对应的所述交互对象的姿态参数值，包括：

以设定时间间隔对所述音素序列的特征信息进行采样，获得第一采样时间对应的采样特征信息；

将所述第一采样时间对应的采样特征信息输入至预先训练的神经网络，获得与所述采样特征信息对应的所述交互对象的所述姿态参数值。
根据权利要求9所述的方法，其中，所述预先训练的神经网络包括长短期记忆网络和全连接网络，

将所述第一采样时间对应的采样特征信息输入至预先训练的神经网络，获得与所述采样特征信息对应的所述交互对象的所述姿态参数值，包括：

将所述第一采样时间对应的所述采样特征信息输入至所述长短期记忆网络，根据在所述第一采样时间之前的采样特征信息，输出关联特征信息；

将所述关联特征信息输入至所述全连接网络，根据所述全连接网络的分类结果，确定与所述关联特征信息对应的姿态参数值；其中，所述分类结果中，每种类别对应于一组所述姿态参数值。
根据权利要求9或10所述的方法，其中，所述神经网络通过音素序列样本训练得到；

所述方法还包括：

获取一角色发出语音的视频段；

根据所述视频段获取多个包含所述角色的第一图像帧，以及与多个所述第一图像帧分别对应的多个音频帧；

将所述第一图像帧转化为包含所述交互对象的第二图像帧，获取所述第二图像帧对应的姿态参数值；

根据所述第二图像帧对应的所述姿态参数值，对与所述第一图像帧对应的所述音频帧进行标注；

根据标注有所述姿态参数值的所述音频帧，获得所述音素序列样本。
根据权利要求11所述的方法，还包括：

对所述音素序列样本进行特征编码，获得第二采样时间对应的特征信息，并对于所述特征信息标注对应的姿态参数值，获得特征信息样本；

根据所述特征信息样本对初始神经网络进行训练，在网络损失的变化满足收敛条件后训练得到所述神经网络，其中，所述网络损失包括所述初始神经网络预测得到的所述姿态参数值与标注的所述姿态参数值之间的差异。
根据权利要求12所述的方法，其中，所述网络损失包括所述初始神经网络预测得到的所述姿态参数值与标注的所述姿态参数值的差的二范数；

所述网络损失还包括，所述初始神经网络预测得到的所述姿态参数值的一范数。
一种交互对象的驱动装置，所述交互对象展示在显示设备中，所述装置包括：

音素序列获取单元，用于获取所述交互对象的声音驱动数据对应的音素序列；

参数获取单元，用于获取与所述音素序列匹配的所述交互对象的姿态参数值；

驱动单元，用于根据所述姿态参数值控制所述显示设备展示的所述交互对象的姿态。
根据权利要求14所述的装置，其中，所述参数获取单元用于：

针对所述音素序列包含的多种音素中的每个音素，生成所述音素对应的编码序列；

根据所述音素对应的编码序列的编码值以及所述音素对应的持续时间，获得所述音素对应的编码序列的特征信息；

根据所述多种音素分别对应的编码序列的特征信息，获得所述音素序列的特征信息；

其中，针对所述音素序列包含的多种音素中的每种音素，生成所述音素对应的编码序列，包括：

检测各时间点上是否对应有所述音素；

通过将有所述音素的时间点上的编码值设置为第一数值，将没有所述音素的时间点上的编码值设置为第二数值，得到所述音素对应的所述编码序列。
根据权利要求14或15所述的装置，其中，姿态参数包括面部姿态参数，所述面部姿态参数包括面部肌肉控制系数，所述面部肌肉控制系数用于控制至少一个面部肌肉的运动状；所述驱动单元用于：

根据与所述音素序列匹配的面部肌肉控制系数值，驱动所述交互对象做出与所述音素序列中的各个音素匹配的面部动作；

所述装置还包括动作驱动单元，用于获取与所述面部姿态参数值关联的身体姿态的驱动数据；根据与所述面部姿态参数值关联的所述身体姿态的所述驱动数据，驱动所述交互对象做出肢体动作。
根据权利要求15所述的装置，其中，在获取所述音素序列的特征信息对应的所述交互对象的姿态参数值时，所述参数获取单元用于：

以设定时间间隔对所述音素序列的特征信息进行采样，获得第一采样时间对应的采样特征信息；

将所述第一采样时间对应的采样特征信息输入至预先训练的神经网络，获得与所述采样特征信息对应的所述交互对象的所述姿态参数值，其中，所述神经网络包括长短期记忆网络和全连接网络；

在将所述第一采样时间对应的采样特征信息输入至预先训练的神经网络，获得与所述采样特征信息对应的所述交互对象的所述姿态参数值时，所述参数获取单元用于：

将所述第一采样时间对应的所述采样特征信息输入至所述长短期记忆网络，根据在所述第一采样时间之前的采样特征信息，输出关联特征信息；

将所述关联特征信息输入至所述全连接网络，根据所述全连接网络的分类结果，确定与所述关联特征信息对应的姿态参数值；其中，所述分类结果中，每种类别对应于一组所述姿态参数值。
根据权利要求17所述的装置，其中，所述神经网络通过音素序列样本训练得到；所述装置还包括样本获取单元，所述样本获取单元用于：

获取一角色发出语音的视频段；根据所述视频段获取多个包含所述角色的第一图像帧，以及与多个所述第一图像帧对应的多个音频帧；

将所述第一图像帧转化为包含所述交互对象的第二图像帧，获取所述第二图像帧对应的姿态参数值；

根据所述第二图像帧对应的所述姿态参数值，对与所述第一图像帧对应的所述音频帧进行标注；

根据标注有所述姿态参数值的所述音频帧，获得所述音素序列样本；

所述装置还包括训练单元，所述训练单元用于：

对所述音素序列样本进行特征编码，获得所述第二采样时间对应的特征信息，并对于所述特征信息标注对应的姿态参数值，获得特征信息样本；

根据所述特征信息样本对初始神经网络进行训练，在网络损失的变化满足收敛条件后训练得到所述神经网络，其中，所述网络损失包括所述初始神经网络预测得到的所述姿态参数值与标注的所述姿态参数值之间的差异；

其中，所述网络损失包括所述初始神经网络预测得到的所述姿态参数值与标注的所述姿态参数值的差的二范数；

所述网络损失还包括，所述初始神经网络预测得到的所述姿态参数值的一范数。
一种电子设备，包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现权利要求1至13任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至13任一所述的方法。