WO2022048404A1

WO2022048404A1 - 端到端的虚拟对象动画生成方法及装置、存储介质、终端

Info

Publication number: WO2022048404A1
Application number: PCT/CN2021/111423
Authority: WO
Inventors: 王从艺; 王斌; 柴金祥
Original assignee: 魔珐(上海)信息科技有限公司; 上海墨舞科技有限公司
Priority date: 2020-09-01
Filing date: 2021-08-09
Publication date: 2022-03-10
Also published as: US11810233B2; US20230267665A1; CN112184859B; CN112184859A

Abstract

一种端到端的虚拟对象动画生成方法及装置、存储介质、终端，所述方法包括：接收输入信息，所述输入信息包括待生成虚拟对象动画的文本信息或音频信息（S101）；将所述输入信息转换为发音单元序列（S102）；对所述发音单元序列进行特征分析，得到对应的语言学特征序列（S103）；将所述语言学特征序列输入预设时序映射模型，以基于所述语言学特征序列生成对应的虚拟对象动画（S104）。所述方法能够提供一种通用性更高的端到端虚拟对象动画生成方法，能够快速自动生成虚拟对象动画且输入选择性更为多样化。

Description

端到端的虚拟对象动画生成方法及装置、存储介质、终端

本申请要求2020年9月1日提交中国专利局、申请号为202010905550.3、发明名称为“端到端的虚拟对象动画生成方法及装置、存储介质、终端”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及虚拟数字对象技术领域，具体地涉及一种端到端的虚拟对象动画生成方法及装置、存储介质、终端。

背景技术

随着虚拟数字对象(可简称为虚拟对象)技术、动画产业等领域的飞速发展，市场对快速自动生成真实、逼真的虚拟形象的需求与日俱增。其中，如何生成与语音相匹配的逼真的虚拟数字对象动画是生成真实、逼真的虚拟形象的一个极其重要的环节。

传统的虚拟对象动画生成技术，主要依靠动画师和美术师对虚拟对象动画进行精细的人工制作。如人工根据输入端接收到的原始音频制作对应的虚拟对象动画，该过程需要较高的人力成本和时间成本，且无法实现端到端的虚拟对象动画自动生成。

近年来，随着计算机深度学习技术的飞速发展，出现了根据音频特征直接生成虚拟对象动画的端到端虚拟对象动画生成技术，极大地加快了高逼真度虚拟对象动画的制作过程。

然而，目前主流的此类端到端虚拟对象动画生成技术是对原始输入的音频信号在声波基础上进行分析进而生成相应的虚拟对象动画的。这种技术手段需要依赖特定的音频特征，只能适用于具有特定声音特征的配音演员，严重制约了该技术的通用性以及对制作成本的进一步降低。

此外，现有的端到端虚拟对象动画生成技术通常只能以音频作为唯一输入，无法通过输入原始文本的形式来直接驱动生成虚拟对象动画。这在一定程度上也限制了虚拟对象动画生成技术的输入选择性，影响用户的使用体验。

发明内容

本发明解决的技术问题是提高一种通用性更高的端到端虚拟对象动画生成方案。

为解决上述技术问题，本发明实施例提供一种端到端的虚拟对象动画生成方法，包括：接收输入信息，所述输入信息包括待生成虚拟对象动画的文本信息或音频信息；将所述输入信息转换为发音单元序列；对所述发音单元序列进行特征分析，得到对应的语言学特征序列；将所述语言学特征序列输入预设时序映射模型，以基于所述语言学特征序列生成对应的虚拟对象动画。

可选的，所述将所述输入信息转换为发音单元序列包括：将所述输入信息转换为发音单元及对应的时间码；根据所述时间码对所述发音单元进行时间对齐操作，以得到所述发音单元序列，其中，所述发音单元序列为时间对齐后的序列。

可选的，所述将所述输入信息转换为发音单元及对应的时间码包括：当所述输入信息为音频信息时，基于语音识别技术和预设发音字典将所述音频信息转换为发音单元及对应的时间码。

可选的，所述将所述输入信息转换为发音单元及对应的时间码包括：当所述输入信息为文本信息时，基于语音合成技术将所述文本信息转换为发音单元及对应的时间码。

可选的，所述将所述输入信息转换为发音单元序列包括：当所述输入信息为音频信息时，基于语音识别技术和预设发音字典将所述音频信息转换为发音单元及对应的时间码；根据所述时间码对所述发音单元进行时间对齐操作，以得到时间对齐后的发音单元序列。

可选的，所述将所述输入信息转换为发音单元序列包括：当所述输入信息为文本信息时，基于语音合成技术将所述文本信息转换为发音单元及对应的时间码；根据所述时间码对所述发音单元进行时间对齐操作，以得到时间对齐后的发音单元序列。

可选的，所述对所述发音单元序列进行特征分析，得到对应的语言学特征序列包括：对所述发音单元序列中的每个发音单元进行特征分析，得到每个发音单元的语言学特征；基于每个发音单元的语言学特征，生成对应的语言学特征序列。

可选的，所述对所述发音单元序列中的每个发音单元进行特征分析，得到每个发音单元的语言学特征包括：对于每个发音单元，分析所述发音单元的发音特征，以得到所述发音单元的独立语言学特征；基于所述独立语言学特征生成所述语言学特征。

可选的，所述对所述发音单元序列中的每个发音单元进行特征分析，得到每个发音单元的语言学特征包括：对于每个发音单元，分析所述发音单元的发音特征，以得到所述发音单元的独立语言学特征；分析所述发音单元的邻接发音单元的发音特征，得到所述发音单元的邻接语言学特征；基于所述独立语言学特征和邻接语言学特征生成所述语言学特征。

可选的，所述分析所述发音单元的邻接发音单元的发音特征，得到所述发音单元的邻接语言学特征包括：统计所述邻接发音单元所具有发音特征的种类以及同种发音特征的数量，并根据统计结果得到所述邻接语言学特征。

可选的，所述预设时序映射模型用于按时序将输入的语言学特征序列映射至虚拟对象的表情参数和/或动作参数，以生成对应的虚拟对象动画。

可选的，所述将所述语言学特征序列输入预设时序映射模型，以基于所述语言学特征序列生成对应的虚拟对象动画包括：基于所述预设时序映射模型对所述语言学特征序列进行多维度的信息提取，其中，所述多维度包括时间维度和语言学特征维度；基于所述预设时序映射模型对多维度的信息提取结果进行特征域的映射和特征维度变换，以得到所述虚拟对象的表情参数和/或动作参数，其中，所述特征域的映射是指语言学特征域到虚拟对象动画特征域的映射，所述虚拟对象动画特征域包括所述虚拟对象的表情特征和/或动作特征。

可选的，所述预设时序映射模型包括：多层卷积网络，用于接收所述语言学特征序列，并对所述语言学特征序列进行多维度的信息提取；深度神经网络，与所述多层卷积网络耦接，所述深度神经网络用于接收所述多层卷积网络输出的多维度的信息提取结果，并对多维度的信息提取结果进行特征域的映射和特征维度变换，以得到所述虚拟对象的表情参数和/或动作参数。

可选的，所述深度神经网络包括：多层串联连接的全连接层；多个非线性变换模块，分别耦接于除最后一层全连接层外的相邻两层全连接层之间，所述非线性变化模块用于对耦接的上一层全连接层的输出结果进行非线性变换处理，并将非线性变换处理的结果输入耦接的下一层全连接层。

可选的，在基于所述预设时序映射模型对所述语言学特征序列进行多维度的信息提取之后，基于所述预设时序映射模型对多维度的信息提取结果进行特征域的映射和特征维度变换之前，所述虚拟对象动画生成方法还包括：基于所述预设时序映射模型对时间维度的信息提取结果进行信息聚合处理，并将处理结果更新为所述时间维度的信息提取结果。

可选的，所述预设时序映射模型包括：长短时记忆网络，用于对时间维度的信息提取结果进行信息聚合处理。

可选的，所述虚拟对象的表情参数包括：用于生成唇形动画的控制器。

可选的，所述发音单元序列和所述语言学特征序列均为时间对齐后的序列。

为解决上述技术问题，本发明实施例还提供一种端到端的虚拟对象动画生成装置，包括：接收模块，用于接收输入信息，所述输入信息包括待生成虚拟对象动画的文本信息或音频信息；转换模块，用于将所述输入信息转换为发音单元序列；特征分析模块，用于对所述发音单元序列进行特征分析，得到对应的语言学特征序列；映射模块，用于将所述语言学特征序列输入预设时序映射模型，以基于所述语言学特征序列生成对应的虚拟对象动画。

为解决上述技术问题，本发明实施例还提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上述方法的步骤。

为解决上述技术问题，本发明实施例还提供一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

本发明实施例提供一种端到端的虚拟对象动画生成方法，包括：接收输入信息，所述输入信息包括待生成虚拟对象动画的文本信息或音频信息；将所述输入信息转换为发音单元序列；对所述发音单元序列进行特征分析，得到对应的语言学特征序列；将所述语言学特征序列输入预设时序映射模型，以基于所述语言学特征序列生成对应的虚拟对象动画。

较之现有必须依赖配音演员的特定音频特征来驱动端到端虚拟对象动画生成的技术方案，本实施例方案提供一种通用性更高的端到端虚拟对象动画生成方案，能够快速且自动地生成虚拟对象动画，特别是3D动画，且输入选择性更为多样化。

具体而言，提取原始音频或文本中对应的语言学特征序列，并以此作为预设时序映射模型的输入信息。由于语言学特征只与音频的语义内容相关，与音色、音调、基频F0特征等因发音人而异的特征无关。因此本实施例方案不会受限于特定发音人，具有不同音频特征的原始音频均可适用于本实施例所述预设时序映射模型。也就是说，由于本实施例方案不是对音频信息中的音频特征进行分析，而是将音频信息转换为发音单元后对发音单元的语言学特征进行分析，使得不依赖特定音频特征驱动神经网络模型生成虚拟对象动画成为可能。由此，本实施例方案提供的端到端的虚拟对象动画生成方法能够适用于任何配音演员、任何文本的端到端虚拟对象动画生成，特别是3D动画，解决了现有端到端自动化语音合成虚拟对象动画技术中对特定配音演员的依赖问题，真正实现该项技术的“通用性”。

进一步，基于深度学习技术训练构建预设时序映射模型，进而基于预设时序映射模型将输入的语言学特征序列映射至对应的虚拟对象的表情参数和/或动作参数。在动画生成过程中无需动画师和美术师的参与，完全依赖计算机的自动计算，从而极大的降低了人力成本和时间成本，真正意义上地实现端到端的自动化虚拟对象动画合成技术。

进一步，原始接收的输入信息可以为文本信息也可以为音频信息，使得本实施例方案能够根据不同的输入模态生成相应的虚拟对象动画。

附图说明

图1是本发明实施例一种端到端的虚拟对象动画生成方法的流程图；

图2是图1中步骤S103的一个具体实施方式的流程图；

图3是图1中步骤S104的一个具体实施方式的流程图；

图4是本发明实施例一种端到端的虚拟对象动画生成装置的结构示意图。

具体实施方式

如背景技术所言，现有的端到端虚拟对象动画生成技术必须依赖于特定发音人驱动。

具体而言，提取原始音频或文本中对应的语言学特征序列，并以此作为预设时序映射模型的输入信息。由于语言学特征只与音频的语义内容相关，与音色、音调、基频F0特征等因发音人而异的特征无关。因此本实施例方案不会受限于特定发音人，具有不同音频特征的原始音频均可适用于本实施例所述预设时序映射模型。也就是说，由于本实施例方案不是对音频信息中的音频特征进行分析，而是将音频信息转换为发音单元后对发音单元的语言学特征进行分析，使得不依赖特定音频特征驱动神经网络模型生成虚拟对象动画成为可能。由此，本实施例方案提供的端到端的虚拟对象动画生成方法能够适用于任何配音演员、任何文本的端到端虚拟对象动画生成，解决了现有端到端自动化语音合成虚拟对象动画技术中对特定配音演员的依赖问题，真正实现该项技术的“通用性”。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例一种端到端的虚拟对象动画生成方法的流程图。

本实施例方案可以应用于虚拟数字对象生成、动画制作等应用场景，如应用于多模态输入且任意发音人的端到端虚拟对象动画生成场景。

多模态输入可以包括语音输入和文本输入。

任意发音人可以指对发音人的音频特征没有限定。

虚拟对象可以包括虚拟人，也可以包括虚拟动物、虚拟植物等多类型的虚拟对象。虚拟对象可以是三维的也可以是二维的。

端到端可以指从输入端到输出端均由计算机操作实现，从输入端到输出端之间没有人力(如动画师)介入。其中，输入端是指接收原始音频、原始文本的端口，输出端是指生成并输出虚拟对象动画的端口。

所述输出端输出的虚拟对象动画可以包括用于生成虚拟对象动画的控制器，具体表现形式为数字化向量的序列。例如，所述虚拟对象动画可以包括唇形动画，所述输出端输出的唇形动画的控制器可以包括唇形特征点的偏移信息，将所述唇形动画的控制器输入渲染引擎即可驱动虚拟对象的唇形做出相应的动作。

也就是说，所述用于生成虚拟对象动画的控制器可以是一段虚拟对象动画数据的序列，该序列中的数据按输入信息的时序排列并与基于输入信息获取的音频数据同步。通过所述虚拟对象动画数据可以驱动虚拟对象的人脸表情运动与人体姿态运动。通过渲染引擎就可以获得最终的虚拟对象动画。

所述虚拟对象动画数据可以包括虚拟对象的人脸表情动作数据以及肢体动作数据。其中人脸表情动作包括表情、眼神等信息，肢体动作可以包括虚拟对象的人体姿态信息。本实施例将所述人脸表情动作数据称作虚拟对象的表情参数，将所述肢体动作数据称作虚拟对象的动作参数。

具体地，参考图1，本实施例所述端到端的虚拟对象动画生成方法可以包括如下步骤：

步骤S101，接收输入信息，其中，所述输入信息包括待生成虚拟对象动画的文本信息或音频信息；

步骤S102，将所述输入信息转换为发音单元序列；

步骤S103，对所述发音单元序列进行特征分析，得到对应的语言学特征序列；

步骤S104，将所述语言学特征序列输入预设时序映射模型，以基于所述语言学特征序列生成对应的虚拟对象动画。

更为具体地，所述语言学特征序列可以包括多个语言学特征，其中每一语言学特征至少包括对应的发音单元的发音特征。

进一步，所述预设时序映射模型可以用于基于深度学习按时序将输入的语言学特征序列映射至虚拟对象的表情参数和/或动作参数，以生成对应的虚拟对象动画。

进一步，所述发音单元序列和所述语言学特征序列均为时间对齐后的序列。

在一个具体实施中，所述输入信息可以为多模态输入，如以声音形式表现的音频信息，又如以文字形式表现的文本信息。所述输入信息可以接收自需要生成虚拟对象动画的用户端。

在一个具体实施中，所述输入信息可以是基于麦克风等设备实时采集得到的音频信息，或者基于键盘等设备实时输入的文本信息。

或者，所述输入信息可以是预先采集或录制完成的音频信息或文本信息，并在需要生成相应的虚拟对象动画时通过有线或无线形式传输至执行本实施例方案的计算设备。

在一个具体实施中，可以将输入信息划分成最小发音单元组成的发音单元序列，以作为后续进行语言学特征分析的数据基础。

具体地，所述步骤S102可以包括步骤：将所述输入信息转换为发音单元及对应的时间码；根据所述时间码对所述发音单元进行时间对齐操作，以得到所述时间对齐后的发音单元序列。为便于表述，本实施例将所述时间对齐后的发音单元序列简称为发音单元序列。

将单个发音单元和对应的时间码记作一组数据，通过执行所述步骤S102可以自输入信息中转换得到多组所述数据，其中每一组数据包含单个发音单元及对应的时间码。通过时间码可以将多组数据中的发音单元按时序对齐，以得到时间对齐后的发音单元序列。

当所述输入信息为音频信息时，可以将所述音频信息转换为文本信息后，再对所述文本信息进行处理以得到所述发音单元和对应的时间码。

当所述输入信息为文本信息时，可以直接对所述文本信息进行处理以得到所述发音单元和对应的时间码。

所述文本信息可以采用词语、文字、拼音、音素等文本表达形式。

当所述输入信息为音频信息时，可以基于自动语音识别(Automatic Speech Recognition，简称ASR)技术和预设发音字典将所述音频信息转换为发音单元及对应的时间码。

当所述输入信息为文本信息时，可以基于文本到语音(Text-to-Speech，简称TTS)技术中的前端(Front-End)模块和对齐(Alignment)模块，提取出文本信息中的基本发音单元及其在时间维度上的排列和时长信息，从而得到时间对齐后的基本发音单元序列。

也就是说，在所述步骤S102中，当所述输入信息为音频信息时，可以基于语音识别技术和预设发音字典将所述音频信息转换为发音单元及对应的时间码，然后根据所述时间码对所述发音单元进行时间对齐操作，以得到时间对齐后的发音单元序列。

当所述输入信息为文本信息时，则可以基于语音合成技术将所述文本信息转换为发音单元及对应的时间码，然后根据所述时间码对所述发音单元进行时间对齐操作，以得到时间对齐后的发音单元序列。

以所述发音单元为音素为例，当输入信息为音频信息时，可基于语音识别技术以及事先拟定的发音字典，从原始音频中提取出相应的音素序列以及每个音素的时长信息。

又例如，当输入信息为文本信息时，可基于TTS技术中的前端(Front-End)模块和基于注意力机制的对齐(Attention-based Alignment)模块，得到原始文本未时间对齐的音素序列以及音素与输出音频梅尔谱的对齐矩阵。然后可基于动态规划算法求得每个时间片段所对应的音素，从而得到时间对齐后的音素序列。

在一个具体实施中，在得到时间对齐的发音单元序列后，为进一步提升预设时序映射模型的泛化能力，可以执行所述步骤S103以对步骤S102得到的基本发音单元序列进行语言学特征分析，从而得到时间对齐后的语言学特征序列(可简称为语言学特征序列)。

具体地，参考图2，所述步骤S103可以包括如下步骤：

步骤S1031，对所述发音单元序列中的每个发音单元进行特征分析，得到每个发音单元的语言学特征；

步骤S1032，基于每个发音单元的语言学特征，生成对应的语言学特征序列。

更为具体地，所述语言学特征可以用于表征发音单元的发音特征。例如，所述发音特征包括但不限于所述发音单元为前鼻音还是后鼻音、所述发音单元为单元音还是双元音、所述发音单元为送气音还是非送气音、所述发音单元是否为摩擦音、所述发音单元是否为舌尖音等。

在一个具体实施中，所述发音单元的语言学特征可以包括对单个发音单元进行特征分析得到的独立语言学特征。

具体地，所述步骤S1031可以包括步骤：对于每个发音单元，分析所述发音单元的发音特征，以得到所述发音单元的独立语言学特征；基于所述发音单元的独立语言学特征生成所述发音单元的语言学特征。

更为具体地，所述独立语言学特征可以用于表征单个发音单元本身的发音特征。

以发音单元为音素为例，对于步骤S102得到的时间对齐后的音素序列中的每一音素，可以对每一音素进行特征分析从而得到所述音素的发音特征。

针对每一音素需要分析的发音特征可以包括{是否为鼻音；是否为前鼻音；是否为后鼻音；是否为单元音；是否为双元音；是否为送气音；是否为摩擦音；是否为清音；是否为浊音；是否为唇音；是否为舌尖音；是否为前舌尖音；是否为后舌尖音；是否为翘舌音；是否为平舌音；是否为包含A的元音；是否为包含E的元音；是否为包含I的元音；是否为包含O的元音；是否为包含U的元音；是否为包含V的元音；是否为塞音；是否为静音符；是否为声母；是否为韵母}。

对于每一音素均需判定上述所有问题，获得答案，以0代表“否”，以1代表“是”，从而以量化编码的形式生成各音素的独立语言学特征。

在一个具体实施中，考虑到协同发音以及生成动画的连贯性，单个发音单元在时序上前后邻接具有不同发音特征的发音单元可能影响当前发音单元对应的动画的动作特征，因此，所述步骤S1031可以包括步骤：对于每个发音单元，分析所述发音单元的发音特征，以得到所述发音单元的独立语言学特征；分析所述发音单元的邻接发音单元的发音特征，得到所述发音单元的邻接语言学特征；基于所述发音单元的独立语言学特征和邻接语言学特征生成所述发音单元的语言学特征。

具体而言，可以在一定的时间窗口范围内对每个发音单元的所有邻接发音单元进行分析，分析的维度包括但不限于当前发音单元的左侧窗口内有多少个元音或辅音、当前发音单元的右侧窗口内有多少个前鼻音或后鼻音等。

例如，统计所述邻接发音单元所具有发音特征的种类以及同种发音特征的数量，并根据统计结果得到所述邻接语言学特征。

进一步，可以将量化后的统计特征作为当前发音单元的邻接语言学特征。

进一步，所述发音单元的邻接发音单元可以包括：以所述发音单元为中心，在时序上位于所述发音单元前后的预设数量的发音单元。

所述预设数量的具体数值可以根据实验确定，如根据所述预设时序映射模型训练时的评价指标决定。

对于位于句子结束位置的发音单元，所述发音单元右侧的统计特征统一归零。

对于位于句子起始位置的发音单元，所述发音单元左侧的统计特征统一归零。

以发音单元为音素为例，对于步骤S102得到的时间对齐后的音素序列中的每一音素，可以以当前音素为中心，左右侧各取连续的20个音素，并统计所有音素的发音特征。

针对位于当前音素左右侧的各20个音素的发音特征的统计维度可以包括{中心发音单元左侧共有多少个元音；中心发音单元左侧共有多少个辅音；中心发音单元右侧共有多少个元音；中心发音单元右侧共有多少个辅音；中心发音单元左侧有多少个邻接元音；中心发音单元左侧有多少个邻接辅音；中心发音单元右侧有多少个邻接元音；中心发音单元右侧有多少个邻接辅音；中心发音单元左侧有多少个邻接前鼻音；中心发音单元左侧有多少个邻接后鼻音；中心发音单元右侧有多少个邻接前鼻音；中心发音单元右侧有多少个邻接后鼻音}。

基于上述统计维度，对每个音素的所有邻接音素进行分析，并将量化后的统计特征作为当前音素的邻接语言学特征。

进一步，对于每一发音单元，将所述发音单元的独立语言学特征和邻接语言学特征相组合，以得到所述发音单元的完整的语言学特征。

例如，可以将量化编码形式表示的独立语言学特征和邻接语言学特征前后拼接起来，得到所述发音单元的语言学特征。即，所述发音单元的语言学特征是由一系列量化数值组成的长数组。

在一个具体实施中，在所述步骤S1032中，将按照时序排列的各发音单元的语言学特征顺序拼接起来，可以得到量化的语言学特征序列。所述语言学特征序列是对所述输入信息的特征量化表达，且该表达方式不受特定发音人制约，无需特定的发音人驱动。

进一步，在得到所述量化的语言学特征序列后，可以执行步骤S104以将所述语言学特征序列输入已学习得到的预设时序映射模型中，得到对应的虚拟对象动画数据序列。

在一个具体实施中，参考图3，所述步骤S104可以包括如下步骤：

步骤S1041，基于所述预设时序映射模型对所述语言学特征序列进行多维度的信息提取，其中，所述多维度包括时间维度和语言学特征维度；

步骤S1042，基于所述预设时序映射模型对多维度的信息提取结果进行特征域的映射和特征维度变换，以得到所述虚拟对象的表情参数和/或动作参数；

其中，所述特征域的映射是指语言学特征域到虚拟对象动画特征域的映射，所述虚拟对象动画特征域包括所述虚拟对象的表情特征和/或动作特征。

具体地，由于步骤S101中输入的音频信息或文本信息的长度并不固定，因此，可以基于循环神经网络(Recurrent Neural Network，简称RNN)及其变体(如长短时记忆网络(Long Short-Term Memory，简称LSTM)等)处理基于输入信息处理得到的变长序列信息(即所述语言学特征序列)，从而从整体上提取特征信息。

进一步，所述RNN网络可从时间维度上对输入特征进行处理，而为了在更多维度上对特征进行处理从而提取出更高维度的特征信息，进而增强模型的泛化能力，可以基于卷积神经网络(Convolutional Neural Network，简称CNN)及其变体(如膨胀卷积、因果卷积等)对输入信息进行处理。

进一步，预设时序映射模型这类特征映射模型通常涉及到特征域转换以及特征维度变换。对此，可以基于全链接网络(Fully Connected Network，简称FCN)实现此转换功能。

进一步，在设计好所述预设时序映射模型后，可利用事先准备好的训练数据和机器学习技术对该模型进行训练，寻找该预设时序映射模型的最优参数，从而实现由语言学特征序列到虚拟对象动画序列的映射。

进一步，所述预设时序映射模型可以是一种能够利用时序信息(如与时间同步对齐的文本信息、音频信息)，对其他时序信息(如虚拟对象动画)做预测的模型。

在一个具体实施中，所述预设时序映射模型的训练数据可以包括文本信息、与所述文本信息同步的语音数据以及虚拟对象动画数据。

具体可以是由专业录音师(兼演员)根据丰富且带有情感的文本信息，表现出与之对应的语音数据与动作数据(语音与动作一一对应)。其中动作数据包含了人脸表情动作与肢体动作。人脸表情动作涉及了表情、眼神等信息。

通过建立人脸表情动作与虚拟对象控制器的对应关系后，得到虚拟对象人脸表情控制器数据。肢体动作则可以通过表演捕捉平台捕获演员表演的高质量姿态信息数据获得，肢体动作数据与表情数据具有时间对应性。由此，可以基于数字化向量序列(即所述语言学特征序列)映射得到对应的虚拟对象动画数据。

与人脸表情动作的驱动逻辑相类似，对肢体动作的驱动也可以基于控制器实现。或者，对所述肢体动作的驱动也可以是骨骼驱动的。

在一个具体实施中，所述预设时序映射模型可以为卷积网络-长短时记忆网络-深度神经网络(Convolutional LSTM Deep Neural Networks，简称CLDNN)。

需要指出的是，虽然本具体实施是以上述三个网络构成的预设时序映射模型为例进行详细阐述的。但在实际应用中，所述预设时序映射模型的结构可以不限于此，如所述预设时序映射模型可以是上述三种网络中的任一种，还可以是上述三种网络中任两种的组合。

具体地，所述预设时序映射模型可以包括：多层卷积网络，用于接收所述语言学特征序列，并对所述语言学特征序列进行多维度的信息提取。

例如，所述多层卷积网络可以包括四层膨胀卷积网络，用于对步骤S103处理得到的量化的语言学特征序列进行多维度的信息提取。所述语言学特征序列可以为二维数据，假设对于每一发音单元都由600位长度的发音特征表示且共有100个发音单元，则输入所述预设时序映射模型的语言学特征序列为100×600的二维数组。其中100这个维度代表时间维度，600这个维度代表语言学特征维度。相应的，所述多层卷积网络在时间和语言学特征两个维度上进行特征运算。

进一步，所述预设时序映射模型还可以包括：长短时记忆网络，用于对时间维度的信息提取结果进行信息聚合处理。由此，可以在时间维度上对经过多层卷积网络卷积处理后的特征从整体上进行连续性考虑。

例如，所述长短时记忆网络可以包括两层堆叠的双向LSTM网络，与所述多层卷积网络的耦接以获取所述多层卷积网络输出的对语言学特征序列在时间维度上的信息提取结果。进一步，所述两层堆叠的双向LSTM网络对语言学特征序列在时间维度上的信息提取结果进行高维度的信息加工，以进一步得到时间维度上的特征信息。

进一步，所述预设时序映射模型还可以包括：深度神经网络，与所述多层卷积网络和长短时记忆网络耦接，所述深度神经网络用于对所述多层卷积网络和长短时记忆网络的输出的多维度的信息提取结果进行特征域的映射和特征维度变换，以得到所述虚拟对象的表情参数和/或动作参数。

例如，所述深度神经网络可以接收所述多层卷积网络输出的语言学特征维度的信息提取结果，所述深度神经网络还可以接收所述长短时记忆网络输出的更新的时间维度上的信息提取结果。

所述维度变换可以指降维，如所述预设时序映射模型的输入为600个特征，输出则为100个特征。

例如，所述深度神经网络可以包括：多层串联连接的全连接层，其中，第一层全连接层用于接收所述多维度的信息提取结果，最后一层全连接层输出所述虚拟对象的表情参数和/或动作参数。

所述全连接层的数量可以为三层。

进一步，所述深度神经网络还可以包括：多个非线性变换模块，分别耦接于除最后一层全连接层外的相邻两层全连接层之间，所述非线性变化模块用于对耦接的上一层全连接层的输出结果进行非线性变换处理，并将非线性变换处理的结果输入耦接的下一层全连接层。

所述非线性变换模块可以为修正线性单元(Rectified linear unit，简称ReLU)激活函数。

所述非线性变换模块可以提升所述预设时序映射模型的表达能力和泛化能力。

在一个变化例中，多层卷积网络、长短时记忆网络和深度神经网络可以是依次串联连接的，所述多层卷积网络输出的语言学特征维度的信息提取结果经过长短时记忆网络透传至所述深度神经网络，所述多层卷积网络输出的时间维度的信息提取结果经过长短时记忆网络处理后传输至所述深度神经网络。

由上，采用本实施例方案，以多模态输入(音频或文本)作为原始信息，首先，将其转换为不受发音人、音频特征等影响的语言学发音单元及其特征(即所述语言学特征)，并且，在时间维度上所述语言学特征与音频是同步的；然后，将时间对齐后的语言学特征序列输入预先学习得到的预设时序映射模型中，得到与输入信息对应的虚拟对象动画。

采用本实施例方案，不依赖于特定的发音演员对模型进行驱动，彻底解决对特定发音演员的依赖，有利于降低动画制作过程中的人力成本。

进一步，本实施例方案能够输出高质量的虚拟对象动画，特别是3D动画，减轻了动画师和美术师对动画进行人工修整的人力成本和时间成本，有助于提高动画的制作效率。

进一步，本实施例方案具备接收不同类型输入信息的能力，从而提高了适用范围，有助于进一步降低动画制作的相关成本和效率。

进一步，传统的端到端虚拟对象动画合成技术所生成的主要是二维动画，而本实施例方案能够生成高质量的三维动画，同时也能够生成二维动画。

本实施例方案中所述“虚拟对象动画序列”是对量化后的动画数据或动画控制器的一种泛化表达，不局限于二维或三维动画，取决于前述预设时序映射模型在学习最优参数时，所使用的训练数据中“虚拟对象动画序列”的表现形式。在得到虚拟对象动画控制器后，可借助Maya、UE等软件将其转换为对应的视频动画。

图4是本发明实施例一种端到端的虚拟对象动画生成装置的结构示意图。本领域技术人员理解，本实施例所述端到端的虚拟对象动画生成装置4可以用于实施上述图1至图3所述实施例中所述的方法技术方案。

具体地，参考图4，本实施例所述端到端的虚拟对象动画生成装置4可以包括：接收模块41，用于接收输入信息，所述输入信息包括待生成虚拟对象动画的文本信息或音频信息；转换模块42，用于将所述输入信息转换为发音单元序列；特征分析模块43，用于对所述发音单元序列进行特征分析，得到对应的语言学特征序列；映射模块44，用于将所述语言学特征序列输入预设时序映射模型，以基于所述语言学特征序列生成对应的虚拟对象动画。

关于所述端到端的虚拟对象动画生成装置4的工作原理、工作方式的更多内容，可以参照上述图1至图3中的相关描述，这里不再赘述。

在一个典型的应用场景中，本实施例所述端到端的虚拟对象动画生成方法可以基于端到端的虚拟对象动画生成系统实现。

具体而言，所述端到端的虚拟对象动画生成系统可以包括：采集模块，用于采集得到所述输入信息；上述图4所示端到端的虚拟对象动画生成装置2，其中的接收模块41与所述采集模块耦接以接收所述输入信息，所述端到端的虚拟对象动画生成装置2执行上述图1至图3所示端到端的虚拟对象动画生成方法以生成对应的虚拟对象动画。

进一步，采集模块可以是键盘等文字输入设备，用于采集所述文本信息。所述采集模块还可以是录音设备，用于采集所述音频信息。

进一步，所述端到端的虚拟对象动画生成装置2可以集成于终端、服务器等计算设备。例如，端到端的虚拟对象动画生成装置2可以集中地集成于同一服务器内。或者，端到端的虚拟对象动画生成装置2可以分散的集成于多个终端或服务器内并相互耦接。例如，所述预设时序映射模型可以单独设置于一终端或服务器上，以确保较优的数据处理速度。

基于本实施例所述端到端的虚拟对象动画生成系统，用户在采集模块这端提供输入信息，即可在端到端的虚拟对象动画生成装置2这端获得对应的虚拟对象动画。

进一步地，本发明实施例还公开一种存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上述图1至图3所示实施例中所述的方法技术方案。优选地，所述存储介质可以包括诸如非挥发性(non-volatile)存储器或者非瞬态(non-transitory)存储器等计算机可读存储介质。所述存储介质可以包括ROM、RAM、磁盘或光盘等。

进一步地，本发明实施例还公开一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述图1至图3所示实施例中所述的方法技术方案。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

一种端到端的虚拟对象动画生成方法，其特征在于，包括：

接收输入信息，所述输入信息包括待生成虚拟对象动画的文本信息或音频信息；

将所述输入信息转换为发音单元序列；

对所述发音单元序列进行特征分析，得到对应的语言学特征序列；

将所述语言学特征序列输入预设时序映射模型，以基于所述语言学特征序列生成对应的虚拟对象动画。
根据权利要求1所述的虚拟对象动画生成方法，其特征在于，所述将所述输入信息转换为发音单元序列包括：

将所述输入信息转换为发音单元及对应的时间码；

根据所述时间码对所述发音单元进行时间对齐操作，以得到所述发音单元序列，其中，所述发音单元序列为时间对齐后的序列。
根据权利要求2所述的虚拟对象动画生成方法，其特征在于，所述将所述输入信息转换为发音单元及对应的时间码包括：

当所述输入信息为音频信息时，基于语音识别技术和预设发音字典将所述音频信息转换为发音单元及对应的时间码。
根据权利要求2所述的虚拟对象动画生成方法，其特征在于，所述将所述输入信息转换为发音单元及对应的时间码包括：

当所述输入信息为文本信息时，基于语音合成技术将所述文本信息转换为发音单元及对应的时间码。
根据权利要求1所述的虚拟对象动画生成方法，其特征在于，所述对所述发音单元序列进行特征分析，得到对应的语言学特征序列包括：

对所述发音单元序列中的每个发音单元进行特征分析，得到每个发音单元的语言学特征；

基于每个发音单元的语言学特征，生成对应的语言学特征序列。
根据权利要求5所述的虚拟对象动画生成方法，其特征在于，所述对所述发音单元序列中的每个发音单元进行特征分析，得到每个发音单元的语言学特征包括：

对于每个发音单元，分析所述发音单元的发音特征，以得到所述发音单元的独立语言学特征；

基于所述独立语言学特征生成所述语言学特征。
根据权利要求5所述的虚拟对象动画生成方法，其特征在于，所述对所述发音单元序列中的每个发音单元进行特征分析，得到每个发音单元的语言学特征包括：

对于每个发音单元，分析所述发音单元的发音特征，以得到所述发音单元的独立语言学特征；

分析所述发音单元的邻接发音单元的发音特征，得到所述发音单元的邻接语言学特征；

基于所述独立语言学特征和邻接语言学特征生成所述语言学特征。
根据权利要求7所述的虚拟对象动画生成方法，其特征在于，所述分析所述发音单元的邻接发音单元的发音特征，得到所述发音单元的邻接语言学特征包括：

统计所述邻接发音单元所具有发音特征的种类以及同种发音特征的数量，并根据统计结果得到所述邻接语言学特征。
根据权利要求1所述的虚拟对象动画生成方法，其特征在于，所述预设时序映射模型用于按时序将输入的语言学特征序列映射至虚拟对象的表情参数和/或动作参数，以生成对应的虚拟对象动画。
根据权利要求9所述的虚拟对象动画生成方法，其特征在于，所述将所述语言学特征序列输入预设时序映射模型，以基于所述语言学特征序列生成对应的虚拟对象动画包括：

基于所述预设时序映射模型对所述语言学特征序列进行多维度的信息提取，其中，所述多维度包括时间维度和语言学特征维度；

基于所述预设时序映射模型对多维度的信息提取结果进行特征域的映射和特征维度变换，以得到所述虚拟对象的表情参数和/或动作参数，其中，所述特征域的映射是指语言学特征域到虚拟对象动画特征域的映射，所述虚拟对象动画特征域包括所述虚拟对象的表情特征和/或动作特征。
根据权利要求10所述的虚拟对象动画生成方法，其特征在于，所述预设时序映射模型包括：

多层卷积网络，用于接收所述语言学特征序列，并对所述语言学特征序列进行多维度的信息提取；

深度神经网络，与所述多层卷积网络耦接，所述深度神经网络用于接收所述多层卷积网络输出的多维度的信息提取结果，并对多维度的信息提取结果进行特征域的映射和特征维度变换，以得到所述虚拟对象的表情参数和/或动作参数。
根据权利要求11所述的虚拟对象动画生成方法，其特征在于，所述深度神经网络包括：

多层串联连接的全连接层；

多个非线性变换模块，分别耦接于除最后一层全连接层外的相邻两层全连接层之间，所述非线性变化模块用于对耦接的上一层全连接层的输出结果进行非线性变换处理，并将非线性变换处理的结果输入耦接的下一层全连接层。
根据权利要求10所述的虚拟对象动画生成方法，其特征在于，在基于所述预设时序映射模型对所述语言学特征序列进行多维度的信息提取之后，基于所述预设时序映射模型对多维度的信息提取结果进行特征域的映射和特征维度变换之前，还包括：

基于所述预设时序映射模型对时间维度的信息提取结果进行信息聚合处理，并将处理结果更新为所述时间维度的信息提取结果。
根据权利要求13所述的虚拟对象动画生成方法，其特征在于，所述预设时序映射模型包括：

长短时记忆网络，用于对时间维度的信息提取结果进行信息聚合处理。
根据权利要求9所述的虚拟对象动画生成方法，其特征在于，所述虚拟对象的表情参数包括：用于生成唇形动画的控制器。
根据权利要求1至15中任一项所述的虚拟对象动画生成方法，其特征在于，所述发音单元序列和所述语言学特征序列均为时间对齐后的序列。
一种端到端的虚拟对象动画生成装置，其特征在于，包括：

接收模块，用于接收输入信息，所述输入信息包括待生成虚拟对象动画的文本信息或音频信息；

转换模块，用于将所述输入信息转换为发音单元序列；

特征分析模块，用于对所述发音单元序列进行特征分析，得到对应的语言学特征序列；

映射模块，用于将所述语言学特征序列输入预设时序映射模型，以基于所述语言学特征序列生成对应的虚拟对象动画。
一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1至16中任一项所述方法的步骤。
一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行权利要求1至16中任一项所述方法的步骤。