WO2024027661A1

WO2024027661A1 - 数字人驱动方法、装置、设备及存储介质

Info

Publication number: WO2024027661A1
Application number: PCT/CN2023/110343
Authority: WO
Inventors: 崔雨豪; 蒲黎明; 史运洲; 丁浩生; 赵中州; 周伟; 肖志勇; 陈海青
Original assignee: 阿里巴巴（中国）有限公司
Priority date: 2022-08-01
Filing date: 2023-07-31
Publication date: 2024-02-08
Also published as: CN114998491B; CN114998491A

Abstract

本公开涉及一种数字人驱动方法、装置、设备及存储介质。本公开通过驱动数字人的控制指令，从运动匹配模块和运动控制模块中确定出执行该控制指令的目标模块。由于运动匹配模块可以根据控制指令，从多个预设动画片段中确定出与控制指令匹配的目标动画片段。运动控制模块可以将控制指令、数字人的历史运动骨骼信息和历史运动轨迹输入到预先训练完成的机器学习模型中，通过机器学习模型生成用于驱动数字人的骨骼运动信息。因此，本实施例可以在两种确定骨骼运动信息的方式之间自由的切换，使得不同场景下的控制指令可以通过不同的方式生成驱动数字人的骨骼运动信息，不需要构建状态转移图，因此节省了人工成本。

Description

数字人驱动方法、装置、设备及存储介质

本申请要求于2022年08月01日提交中国专利局、申请号为202210917824.X、申请名称为“数字人驱动方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本公开涉及信息技术领域，尤其涉及一种数字人驱动方法、装置、设备及存储介质。

背景技术

随着科技的不断发展，在构建虚拟世界的过程中，例如，构建元宇宙、虚拟主播的过程中，如何驱动数字人运动成为关键性技术，数字人可以理解为虚拟世界中的人物。例如，数字人需要在虚拟世界中进行自由运动、以及和周围环境进行交互等。

但是，本申请的发明人发现，现有技术通过状态转移图来驱动数字人运动，例如，状态转移图中的每个节点是一个动画片段，该状态转移图中的每个边是一个状态转移条件，如果某个边上的状态转移条件成立，则用于驱动数字人的动画片段从该边所连接的一个动画片段变化为该边所连接的另一个动画片段，使得用于驱动数字人的动画片段在不同动画片段之间转移。但是，这种方式需要通过手工的方式预先构建不同的状态转移条件和相应的动画片段，从而导致人工成本较高。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种数字人驱动方法、装置、设备及存储介质，本实施例可以在两种确定骨骼运动信息的方式之间自由的切换，使得不同场景下的控制指令可以通过不同的方式生成驱动所述数字人的骨骼运动信息，不需要构建状态转移图，也不需要预先构建不同的状态转移条件和相应的动画片段即可实现对数字人的驱动，因此节省了人工成本。

第一方面，本公开实施例提供一种数字人驱动方法，包括：

获取用于驱动数字人的控制指令；

根据所述控制指令，从运动匹配模块和运动控制模块中确定出执行所述控制指令的目标模块；

若所述目标模块是所述运动匹配模块，则根据所述控制指令，从多个预设动画片段中确定出与所述控制指令匹配的目标动画片段，并将所述目标动画片段中的骨骼运动信息作为驱动所述数字人的骨骼运动信息；

若所述目标模块是所述运动控制模块，则将所述控制指令、所述数字人的历史运动骨骼信息和历史运动轨迹输入到预先训练完成的机器学习模型中，通过所述机器学习模型生成用于驱动所述数字人的骨骼运动信息；

根据所述骨骼运动信息，驱动所述数字人运动。

第二方面，本公开实施例提供一种数字人驱动装置，包括：

获取模块，用于获取用于驱动数字人的控制指令；

第一确定模块，用于根据所述控制指令，从运动匹配模块和运动控制模块中确定出执行所述控制指令的目标模块；

第二确定模块，用于若所述目标模块是所述运动匹配模块，则根据所述控制指令，从多个预设动画片段中确定出与所述控制指令匹配的目标动画片段，并将所述目标动画片段中的骨骼运动信息作为驱动所述数字人的骨骼运动信息；

生成模块，用于若所述目标模块是所述运动控制模块，则将所述控制指令、所述数字人的历史运动骨骼信息和历史运动轨迹输入到预先训练完成的机器学习模型中，通过所述机器学习模型生成用于驱动所述数字人的骨骼运动信息；

驱动模块，用于根据所述骨骼运动信息，驱动所述数字人运动。

第三方面，本公开实施例提供一种电子设备，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面所述的方法。

第四方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现第一方面所述的方法。

本公开实施例提供的数字人驱动方法、装置、设备及存储介质，通过驱动数字人的控制指令，从运动匹配模块和运动控制模块中确定出执行该控制指令的目标模块，当控制指令不同时，选取的目标模块可能是不同的，因此可以实现运动匹配模块和运动控制模块的灵活切换。由于运动匹配模块可以根据所述控制指令，从多个预设动画片段中确定出与所述控制指令匹配的目标动画片段，并将所述目标动画片段中的骨骼运动信息作为驱动所述数字人的骨骼运动信息。运动控制模块可以将所述控制指令、所述数字人的历史运动骨骼信息和历史运动轨迹输入到预先训练完成的机器学习模型中，通过所述机器学习模型生成用于驱动所述数字人的骨骼运动信息。因此，运动匹配模块和运动控制模块分别确定骨骼运动信息的方式不同，本实施例可以在两种确定骨骼运动信息的方式之间自由的切换，使得不同场景下的控制指令可以通过不同的方式生成驱动所述数字人的骨骼运动信息，不需要构建状态转移图，也不需要预先构建不同的状态转移条件和相应的动画片段即可实现对数字人的驱动，因此节省了人工成本。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的数字人驱动方法流程图；

图2为本公开实施例提供的应用场景的示意图；

图3为本公开另一实施例提供的数字人驱动方法流程图；

图4为本公开另一实施例提供的数字人驱动方法流程图；

图5为本公开实施例提供的数字人驱动装置的结构示意图；

图6为本公开实施例提供的电子设备实施例的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

通常情况下，通过状态转移图可以驱动数字人运动，例如，状态转移图中的每个节点是一个动画片段，该状态转移图中的每个边是一个状态转移条件，如果某个边上的状态转移条件成立，则用于驱动数字人的动画片段从该边所连接的一个动画片段变化为该边所连接的另一个动画片段，使得用于驱动数字人的动画片段在不同动画片段之间转移。但是，这种方式需要通过手工的方式预先构建不同的状态转移条件和相应的动画片段，从而导致人工成本较高。针对该问题，本公开实施例提供了一种数字人驱动方法，下面结合具体的实施例对该方法进行介绍。

图1为本公开实施例提供的数字人驱动方法流程图。该方法可以由数字人驱动装置执行，该装置可以采用软件和/或硬件的方式实现，该装置可配置于电子设备中，例如服务器或终端，其中，终端具体包括手机、电脑或平板电脑等。另外，本实施例所述的数字人驱动方法可以适用于如图2所示的应用场景。如图2所示，该应用场景包括终端21和服务器22，其中，服务器22可以采用本公开实施例所述的方法驱动数字人，并将数字人做动作的视频文件或视频流发送给终端21，从而使得终端21可以播放数字人做动作的画面。或者，终端21可以采用本公开实施例所述的方法驱动数字人，并播放数字人做动作的画面。下面结合图2对该方法进行详细介绍，如图1所示，该方法具体步骤如下：

S101、获取用于驱动数字人的控制指令。

假设以服务器22驱动数字人为例，服务器22可以获取用于驱动数字人的控制指令，该控制指令可以是来自于终端21的控制指令，例如终端21的用户发出的控制指令。或者，该控制指令可以是服务器22生成的。

S102、根据所述控制指令，从运动匹配模块和运动控制模块中确定出执行所述控制指令的目标模块。

例如，服务器22可以包括运动匹配模块和运动控制模块，这两个模块分别可以采用软件和/或硬件的方式实现。运动匹配模块和运动控制模块分别可以确定出用于驱动数字人的骨骼运动信息，但是，运动匹配模块和运动控制模块确定骨骼运动信息的原理和具体过程不同。例如，运动匹配模块可以从已有的多个动画片段中选取一个与该控制指令最匹配的动画片段作为驱动数字人的骨骼运动信息，运动控制模块可以通过预先训练完成的机器学习模型直接生成驱动数字人的骨骼运动信息。因此，在服务器22获取到控制指令的情况下，需要从运动匹配模块和运动控制模块中确定出执行该控制指令的目标模块。也就是说，服务器22需要从运动匹配模块和运动控制模块中确定出一个模块作为目标模块，由该目标模块确定驱动数字人的骨骼运动信息。在本实施例中，服务器22中可以预先存储有多个预设控制指令、以及执行每个预设控制指令的模块的标识，即服务器22可以预先存储有预设控制指令和模块标识之间的对应关系。当服务器22获取到某个控制指令时，可以根据该控制指令从该对应关系中查询出与该控制指令最匹配的一个预设控制指令，并将该预设控制指令对应的模块标识所对应的模块作为执行该控制指令的模块。也就是说，本实施例可以预先确定哪些控制指令由运动匹配模块和运动控制模块中的哪个模块来执行。在本实施例中，运动匹配模块采用运动匹配算法来处理控制指令，运动控制模块采用运动控制算法来处理控制指令。其中，运动匹配算法具体可以是从多个预设动画片段中确定出与所述控制指令匹配的目标动画片段的算法。运动控制算法可以是机器学习模型采用的算法，该机器学习模型可以根据该控制指令、该数字人的历史运动骨骼信息和历史运动轨迹，生成该数字人在下一时刻或下一帧的骨骼运动信息。

S103、若所述目标模块是所述运动匹配模块，则根据所述控制指令，从多个预设动画片段中确定出与所述控制指令匹配的目标动画片段，并将所述目标动画片段中的骨骼运动信息作为驱动所述数字人的骨骼运动信息。

例如，控制指令是“走到前面椅子旁”，服务器22可以将运动匹配模块作为执行该控制指令的目标模块，也就是说，服务器22可以将该控制指令给到运动匹配模块来执行。运动匹配模块在执行该控制指令时，可以根据该控制指令，从数据库中存储的多个预设动画片段中确定出与该控制指令匹配的目标动画片段，并将该目标动画片段中的骨骼运动信息作为驱动该数字人的骨骼运动信息。

S104、若所述目标模块是所述运动控制模块，则将所述控制指令、所述数字人的历史运动骨骼信息和历史运动轨迹输入到预先训练完成的机器学习模型中，通过所述机器学习模型生成用于驱动所述数字人的骨骼运动信息。

可选的，所述数字人的历史运动骨骼信息包括如下至少一种：所述数字人的每个骨骼点在所述历史运动轨迹中每个轨迹点上的位置信息、位移信息和旋转信息；所述数字人在所述历史运动轨迹中每个轨迹点上的状态信息。

例如，控制指令是“坐到椅子上”，服务器22可以将运动控制模块作为执行该控制指令的目标模块，也就是说，服务器22可以将该控制指令给到运动控制模块来执行。运动控制模块在执行该控制指令时，可以将该控制指令、该数字人的历史运动骨骼信息和历史运动轨迹输入到预先训练完成的机器学习模型中，使得该机器学习模型可以根据输入的信息生成该数字人在下一时刻或下一帧的骨骼运动信息。其中，该数字人包括多个骨骼点，历史运动轨迹包括多个历史轨迹点，该数字人的历史运动骨骼信息可以是该数字人在历史运动轨迹上运动过程中的骨骼运动信息。例如，该数字人的历史运动骨骼信息包括该数字人在每个历史轨迹点上的骨骼姿态信息、以及该数字人在每个历史轨迹点上的状态信息，其中，该数字人在每个历史轨迹点上的骨骼姿态信息包括该数字人的每个骨骼点分别在每个历史轨迹点或每个历史时刻上的位置信息、以及每个骨骼点分别在相邻两个历史轨迹点或相邻两个历史时刻之间的位移信息和旋转信息。其中，历史轨迹点和历史时刻可以一一对应，也可以不对应。该数字人在每个历史轨迹点上的状态信息包括行走、跑步、蹲下、站立等状态。

此外，该数字人在下一时刻或下一帧的骨骼运动信息包括该数字人在下一时刻或下一帧的骨骼姿态信息，例如，该数字人在下一时刻或下一帧的骨骼姿态信息包括该数字人的每个骨骼点分别在下一时刻或下一帧所处的位置信息、以及下一时刻相对于当前时刻或下一帧相对于当前帧而言，每个骨骼点分别的位移信息和旋转信息。可以理解的是，该数字人包括的多个骨骼点中有一个骨骼点是根节点，或者，根据该多个骨骼点可以确定出根节点，该根节点在地面上的投影点记为轨迹点。

S105、根据所述骨骼运动信息，驱动所述数字人运动。

例如，当服务器22确定出用于驱动数字人的骨骼运动信息时，可以根据重定向的方式驱动数字人运动，例如，将该骨骼运动信息中包括的各个骨骼点的旋转信息和位移信息绑定到该数字人的骨骼上，使得该数字人的骨骼可以和该骨骼运动信息中的骨骼做相似的运动。

本公开实施例通过驱动数字人的控制指令，从运动匹配模块和运动控制模块中确定出执行该控制指令的目标模块，当控制指令不同时，选取的目标模块可能是不同的，因此可以实现运动匹配模块和运动控制模块的灵活切换。由于运动匹配模块可以根据所述控制指令，从多个预设动画片段中确定出与所述控制指令匹配的目标动画片段，并将所述目标动画片段中的骨骼运动信息作为驱动所述数字人的骨骼运动信息。运动控制模块可以将所述控制指令、所述数字人的历史运动骨骼信息和历史运动轨迹输入到预先训练完成的机器学习模型中，通过所述机器学习模型生成用于驱动所述数字人的骨骼运动信息。因此，运动匹配模块和运动控制模块分别确定骨骼运动信息的方式不同，本实施例可以在两种确定骨骼运动信息的方式之间自由的切换，使得不同场景下的控制指令可以通过不同的方式生成驱动所述数字人的骨骼运动信息，不需要构建状态转移图，也不需要预先构建不同的状态转移条件和相应的动画片段即可实现对数字人的驱动，因此节省了人工成本。

图3为本公开另一实施例提供的数字人驱动方法流程图。在本实施例中，该方法具体步骤如下：

S301、获取至少一个用于驱动数字人的控制信号。

如图4所示，服务器22包括指令解析模块、动态状态机、前处理模块、运动匹配模块、运动控制模块、后处理模块。服务器22通过这几个模块可以实现对数字人的驱动方案，通过此方案可以生成和各类指令相对应的全地形位移动画、场景交互动画和长时序动作动画等。例如，指令解析模块可以接收如图4所示的脑电波、音频信号、视觉信号、语音信号、文本信号、路径规划信号等用于驱动数字人的控制信号，这些控制信号可以是终端21生成之后发送给服务器22的，或者可以是服务器22生成的。

S302、将每个控制信号分别解析为至少一个控制指令。

例如，脑电波可以是脑电传感器感应出的信号，脑电传感器可以设置在穿戴式设备中，该穿戴式设备可以是终端21，并穿戴在真实人物的头部，当真实人物的大脑在思考不同的控制指令时，脑电传感器可以感应出不同的信号。例如，当真实人物的大脑在思考“向前走”时，脑电传感器感应出的信号是0，当真实人物的大脑在思考“向后走”时，脑电传感器感应出的信号是1。因此，当指令解析模块接收到的脑电波代表信号0时，指令解析模块将该脑电波解析成的控制指令是“向前走”。当指令解析模块接收到的脑电波代表信号1时，指令解析模块将该脑电波解析成的控制指令是“向后走”。可以理解的是，此处只是示意性说明，在不同的场景中，脑电传感器感应出的0、1信号分别代表不同的意思，例如，在数字人的转向场景中，脑电传感器感应出的信号0可以被指令解析模块解析为“向右转”，信号1可以被解析为“向左转”。

如图4所示的音频信号可以是一段音乐或带有节凑的音频，指令解析模块可以从该音频信号中解析出用于控制数字人行为的控制指令，例如，根据音乐的音量大小解析出控制数字人动作幅度大小的控制指令，根据该音频信号的节凑解析出控制数字人脚步节凑的控制指令。视觉信号可以是一段在真实世界中拍摄的视频，指令解析模块可以解析出该视觉信号中的人物动作，并将该人物动作转换为相应的骨骼运动信息。或者，该视觉信号可以是虚拟视觉信号，即在虚拟环境中模拟出的视觉信号，如16线、64线视觉系统等。语音信号可以是终端21的用户发出的用于控制数字人的语音，指令解析模块可以通过自动语音识别(Automatic Speech Recognition，ASR)技术将该语音转换为文本信息，进一步，将该文本信息解析为至少一个控制指令。另外，如图4所示的文本信号可以是文本信息，指令解析模块可以对文本信息进行解析，并将文本信息拆解为连续的独立的控制指令。例如，文本信息是“去前面椅子旁坐下”，该文本信息可以被指令解析模块拆解为两个控制指令，其中一个控制指令是“走到前面椅子旁”，另一个控制指令是“坐在椅子上”。此外，如图4所示的路径规划信号可以包括目的地，指令解析模块可以根据该目的地进行自动的路径规划，并选择最优路径作为该数字人的避障路径，进一步，指令解析模块可以将该最优路径解析成多个控制指令，每个控制指令可以包括该最优路径上的一个轨迹点的位置信息，从而通过该多个控制指令来控制数字人沿着该最优路径移动。可以理解的是，在其他实施例中，可以将指令解析模块下发的控制指令替换为其他的控制模块下发的控制指令，或者该指令解析模块可以替换为任何能够下发控制指令的模块，或者动态状态机接收到的控制指令还可以是人工输入的任意控制指令。此外，指令解析模块所采用的解析方式并不限于如上所述的解析方式，例如，指令解析模块还可以通过机器学习模型对其接收到的控制信号进行解析，从而将其接收到的控制信号直接解析为控制指令，例如将指令解析模块接收到的文本信号或语音信号直接解析为相应的控制指令。

S303、将所述至少一个控制信号分别对应的至少一个控制指令进行排序，得到排序结果。

如图4所示，在一段时间内，指令解析模块可以接收到脑电波、音频信号、视觉信号、语音信号、文本信号、路径规划信号中的至少一个控制信号，并且可以将每个控制信号解析为至少一个控制指令。因此，在一段时间内，指令解析模块可以解析出多个控制指令，进一步，指令解析模块可以将其解析出的多个控制指令下发给动态状态机。此时，动态状态机可以对该多个控制指令进行排序，例如，按照执行的先后顺序进行排序，从而得到排序结果。例如，在一段时间内，指令解析模块解析出3个控制指令，分别记为控制指令A、控制指令B、控制指令C。动态状态机对该3个控制指令进行排序后得到的排序结果是控制指令B、控制指令A、控制指令C。

S304、从所述排序结果中获取当前首个未被执行的控制指令。

例如，动态状态机得到排序结果后，从该排序结果中获取当前首个未被执行的控制指令，例如，控制指令B是当前首个未被执行的控制指令。

S305、根据所述控制指令，从运动匹配模块和运动控制模块中确定出执行所述控制指令的目标模块。

例如，动态状态机根据控制指令B，从运动匹配模块和运动控制模块中确定出执行该控制指令B的目标模块。在本实施例中，运动匹配模块可以包括多个子模块。例如，运动匹配模块包括3个子模块，3个子模块分别记为位移子模块、交互子模块和动作子模块，其中，位移子模块用于处理关于数字人位移的控制指令，交互子模块用于处理关于数字人交互的控制指令，动作子模块用于处理关于数字人动作的控制指令。其中，数字人位移包括数字人行走、上下楼、爬山等产生的位移变化。数字人交互包括数字人与虚拟环境中的静态物体(例如沙发、椅子等)之间的静态交互，以及数字人与虚拟环境中的动态物体(例如其他数字人)之间的动态交互。数字人动作包括数字人跳舞、原地武术等原地的姿态变化。可以理解的是，在其他实施例中，不限于是一个子模块来处理关于数字人位移、交互或动作的控制指令，例如，以数字人位移为例，可以由多个位移子模块联合起来处理关于数字人位移的控制指令，或者该多个位移子模块中的每个位移子模块分别独立的用于处理关于数字人位移的控制指令。

同理，运动控制模块也可以包括3个子模块，例如，位移子模块、交互子模块和动作子模块，各个子模块的作用如上所述，此处不再赘述。但是，在本实施例中，由于运动匹配模块和运动控制模块分别适用的场景和/或控制指令不同，因此，对于同一个子模块，例如位移子模块而言，运动匹配模块中的位移子模块和运动控制模块中的位移子模块分别适用的场景和/或控制指令不同。因此，动态状态机根据控制指令B，从运动匹配模块和运动控制模块中确定出执行该控制指令B的目标模块时，具体可以从运动匹配模块包括的3个子模块和运动控制模块包括的3个子模块中确定出一个子模块作为目标模块。

例如，该控制指令B是关于数字人位移的控制指令，并且数字人位移是在平地上的位移，则动态状态机可以选择运动匹配模块中的位移子模块作为目标模块。如果该控制指令B是关于数字人位移的控制指令，并且数字人位移是在上下楼、爬山等场景下产生的位移，则动态状态机可以选择运动控制模块中的位移子模块作为目标模块。

例如，当目标模块处理完该控制指令B之后，该目标模块可以向动态状态机发送一个完成信号。此时，如上所述的排序结果中当前首个未被执行的控制指令变成了控制指令A，进一步，动态状态机可以给控制指令A确定目标模块，确定过程类似于给控制指令B确定目标模块的过程，此处不再赘述。当控制指令A被执行完成后，控制指令C变成了该排序结果中当前首个未被执行的控制指令，进一步，动态状态机可以给控制指令C确定目标模块，并由目标模块对该控制指令C进行处理。也就是说，动态状态机可以将指令解析模块下发的多个控制指令进行串联(例如排序)，并按照排序结果，将该多个控制指令依次分发给运动匹配模块中不同的子模块或运动控制模块中不同的子模块进行处理。

例如，数字人当前的状态为闲置状态(例如站立的休息状态)，假设此时指令解析模块向动态状态机下发了两个控制指令，分别是“走到椅子旁边”、“坐到椅子上”。动态状态机对这两个控制指令进行排序，排序结果是“走到椅子旁边”在先，“坐到椅子上”在后。进一步，动态状态机从运动匹配模块包括的3个子模块和运动控制模块包括的3个子模块中判断出适合完成“走到椅子旁边”的子模块，例如，运动匹配模块中的位移子模块。然后，动态状态机将“走到椅子旁边”分发给运动匹配模块中的位移子模块，该位移子模块完成后向动态状态机返回已完成信号，此时数字人可以回到闲置状态等待调用。接着，动态状态机从运动匹配模块包括的3个子模块和运动控制模块包括的3个子模块中判断出适合完成“坐到椅子上”的子模块，例如，运动控制模块中的交互子模块。进一步，动态状态机将“坐到椅子上”分发给运动控制模块中的交互子模块，当“坐到椅子上”被该交互子模块处理完成后，数字人可以再次回到闲置状态。可以理解的是，当数字人执行不同控制指令的动作后，该数字人回到的闲置状态可以是不同的，例如，当数字人完成某一个控制指令的动作后回到的闲置状态可以是该控制指令对应的一系列连贯动作中最后一个动作结束时的状态。

S306、若所述目标模块是所述运动匹配模块，则根据所述控制指令，从多个预设动画片段中确定出与所述控制指令匹配的目标动画片段，并将所述目标动画片段中的骨骼运动信息作为驱动所述数字人的骨骼运动信息。

例如图4所示，运动匹配模块和运动控制模块分别对应有前处理模块，具体的，运动匹配模块和运动控制模块分别对应的前处理模块可以是同一个模块，也可以是不同的模块。如果是同一个模块，那么该前处理模块针对运动匹配模块和运动控制模块分别执行的前处理过程是不同的。在本实施例中，运动匹配模块对应的前处理模块主要完成的功能是对数据库中存储的多个预设动画片段进行精修。

例如，动态状态机给某个控制指令选择的目标模块是运动匹配模块或运动匹配模块中的某个子模块时，运动匹配模块或运动匹配模块中的该子模块可以根据该控制指令，从数据库中存储的多个预设动画片段中确定出与该控制指令匹配的目标动画片段，并将该目标动画片段中的骨骼运动信息作为驱动该数字人的骨骼运动信息。以运动匹配模块执行该控制指令为例，当运动匹配模块的输入是该控制指令时，该运动匹配模块可以从多个预设动画片段中确定出与该控制指令匹配的目标动画片段，并输出该目标动画片段。

在一种可行的实现方式中，根据所述控制指令，从多个预设动画片段中确定出与所述控制指令匹配的目标动画片段，包括：根据驱动所述数字人运动的至少一个历史动画片段和所述控制指令，从多个预设动画片段中确定出与所述控制指令匹配、且与所述至少一个历史动画片段衔接的目标动画片段。

以运动匹配模块执行该控制指令为例，该运动匹配模块的输入不仅包括该控制指令，例如还可以包括前n个动画片段，该前n个动画片段是驱动该数字人运动的历史动画片段，该历史动画片段的个数是n个，n大于或等于1。也就是说，该运动匹配模块的输入可以包括该前n个动画片段和该控制指令，在这种情况下，该运动匹配模块不仅需要从多个预设动画片段中确定出与所述控制指令匹配的目标动画片段，同时还要使得确定出的目标动画片段和该前n个动画片段的衔接度大于或等于预设衔接度，即该运动匹配模块需要输出一个能够与该控制指令匹配、且与该前n个动画片段能够衔接的目标动画片段。

在另一种可行的实现方式中，根据所述控制指令，从多个预设动画片段中确定出与所述控制指令匹配的目标动画片段，包括：根据所述数字人的历史运动轨迹、驱动所述数字人运动的至少一个历史动画片段、以及所述控制指令，从多个预设动画片段中确定出与所述控制指令匹配、且与所述至少一个历史动画片段衔接的目标动画片段。

以运动匹配模块执行该控制指令为例，该运动匹配模块的输入不仅包括该前n个动画片段和该控制指令，例如还可以包括该数字人的历史运动轨迹。该历史运动轨迹可以是数字人在一定历史时间段内的运动轨迹，即行走经过的轨迹线。在这种情况下，该运动匹配模块可以输出一个能够与该控制指令匹配、且与该前n个动画片段能够衔接的目标动画片段。

在本实施例中，由运动匹配模块确定出的目标动画片段可以包括骨骼的初始姿态或基准姿态、以及基于该初始姿态或基准姿态的骨骼运动信息。具体的，本实施例可以将该目标动画片段中的骨骼运动信息作为驱动该数字人的骨骼运动信息。其中，该目标动画片段中包括的骨骼可以是该数字人的骨骼，也可以不是该数字人的骨骼。如果不是该数字人的骨骼，则能够保证将该目标动画片段中的骨骼运动信息重定向到数字人的骨骼上即可。

S307、若所述目标模块是所述运动控制模块，则将所述控制指令、所述数字人的历史运动骨骼信息和历史运动轨迹输入到预先训练完成的机器学习模型中，通过所述机器学习模型生成用于驱动所述数字人的骨骼运动信息。

例如，在本实施例中，运动控制模块对应的前处理模块主要完成的功能是对机器学习模型在训练过程中的输入即样本进行标准化，例如，在训练阶段中，该机器学习模型的输入包括骨骼运动信息，该标准化的过程可以是将该骨骼运动信息重定向到统一的标准骨骼姿态，例如，T-pose姿态。从而提高训练后的机器学习模型的准确度。

例如，动态状态机给某个控制指令选择的目标模块是运动控制模块或运动控制模块中的某个子模块时，运动控制模块或运动控制模块中的该子模块可以将该控制指令、该数字人的历史运动骨骼信息和历史运动轨迹输入到预先训练完成的机器学习模型中，使得该机器学习模型可以根据这些输入的信息生成该数字人在下一时刻或下一帧的骨骼运动信息。以运动控制模块执行该控制指令为例，该运动控制模块向机器学习模型输入的信息包括该控制指令、该数字人的历史运动骨骼信息和历史运动轨迹，其中，历史运动轨迹可以是该数字人在一定历史时间段内的运动轨迹。此处的历史运动骨骼信息的含义参照上述实施例中所述的内容，此处不再赘述。

可选的，将所述控制指令、所述数字人的历史运动骨骼信息和历史运动轨迹输入到预先训练完成的机器学习模型中，通过所述机器学习模型生成用于驱动所述数字人的骨骼运动信息，包括：将所述控制指令、所述数字人周围的环境信息、所述数字人的历史运动骨骼信息和历史运动轨迹输入到预先训练完成的机器学习模型中，通过所述机器学习模型生成下一时刻用于驱动所述数字人的骨骼运动信息。

例如，以运动控制模块执行该控制指令为例，该运动控制模块向机器学习模型输入的信息不限于包括该控制指令、该数字人的历史运动骨骼信息和历史运动轨迹，例如还可以包括该数字人周围的环境信息。另外，该机器学习模型的输出不限于包括该数字人在下一时刻或下一帧的骨骼运动信息，例如还可以包括该机器学习模型预测的该数字人在后续的一小段时间内的运动轨迹。可以理解的是，该机器学习模型在当前时刻的输出可以作为该机器学习模型下一时刻的输入，从而不断迭代计算，例如，该机器学习模型在当前时刻输出的运动轨迹可以作为该机器学习模型在下一时刻所需输入的历史运动轨迹。也就是说，该机器学习模型的输出是实时的。另外，根据该机器学习模型每一次输出的该数字人在下一时刻或下一帧的骨骼运动信息，可以对该数字人进行一次驱动，从而在该机器学习模型实时输出的同时还可以实时的驱动该数字人运动。

可选的，所述数字人周围的环境信息包括如下至少一种：所述数字人经过的预设长度的历史运动轨迹上每个轨迹点的高度信息；所述数字人周围预设范围内的虚拟物体的体素化信息；所述数字人周围动态物体的轨迹信息；所述数字人周围动态物体与所述数字人的接触信息。

在本实施例中，数字人周围的环境信息具体可以是该数字人所处的虚拟环境的信息。例如，该环境信息可以包括该数字人经过的前2米的历史运动轨迹上每个轨迹点的高度信息，该高度信息可以是相对于虚拟环境中的参考地平线的高度信息。该数字人经过的前2米的历史运动轨迹可以是相对于数字人当前位置的前2米的历史运动轨迹。另外，该环境信息还可以包括该数字人周围2米范围内的所有物体的体素化信息。可以理解的是，此处以2米为例进行示意性说明，在其他实施例中，并不限定具体的数值。此外，该环境信息还可以包括该数字人周围动态物体例如其他数字人的轨迹信息、以及该数字人与其他数字人之间的接触信息。

另外，如图4所示，运动匹配模块和运动控制模块还分别对应有后处理模块，该运动匹配模块对应的后处理模块可以将该运动匹配模块或该运动匹配模块中的某个子模块确定出的目标动画片段中的骨骼运动信息重定向到该数字人的骨骼上，从而使得该数字人的骨骼可以完成与该目标动作片段相应的动作。其中，目标动画片段可以是标准的骨骼动画片段。运动控制模块对应的后处理模块可以将机器学习模型生成的标准的骨骼运动信息重定向到该数字人的骨骼上，从而使得该数字人的骨骼可以完成与该机器学习模型生成的标准的骨骼运动信息相应的动作。

此外，该后处理模块还可以利用脚部反向运动学算法(Foot IK)对运动匹配模块确定出的目标动画片段或该机器学习模型生成的标准的骨骼运动信息进行处理，从而使得数字人在运动时，该数字人的脚部可以固定在地面上，避免数字人在行走时相对于地面滑动。

另外，该后处理模块还可以对该机器学习模型生成的骨骼运动信息进行优化，例如，该机器学习模型生成的骨骼运动信息位于绝对的世界坐标系中，该后处理模块可以将绝对的世界坐标系中的骨骼运动信息转换为相对的数字人坐标系中的骨骼运动信息，从而根据相对的数字人坐标系中的骨骼运动信息更好的完成如上所述的重定向。再例如，该后处理模块可以判断该机器学习模型生成的骨骼运动信息是否涉及到关节旋转方向可能有误的情况，如果存在，则该后处理模块可以对关节旋转方向进行预先约束，从而对不同的关节添加先验性的约束条件。例如，膝盖关节在行走时只能存在前后方向的旋转，很少出现其他方向的旋转，因此，可以给膝盖关节添加旋转方向为前后方向的约束条件。

可以理解的是，在本实施例中，前处理模块或后处理模块可以被取消，或者可以替换为其他的模块。例如，可以利用任意其他规则或利用机器学习模型来代替前处理模块或后处理模块的功能。另外，在其他一些实施例中，还可以通过定义步态信息来代替动态状态机的功能，或者利用动态状态机代替模型输入的步态信息。

S308、根据所述骨骼运动信息，驱动所述数字人运动。

具体的，S308和S105的实现方式和具体原理一致，此处不再赘述。

可选的，所述机器学习模型是根据预设骨骼运动信息、以及与所述预设骨骼运动信息适配的多个差异化环境信息训练得到的。

例如，在训练运动控制模块对应的机器学习模型时，可以输入与骨骼运动信息相适配的大量差异化的环境信息，该环境信息可以是真实世界中的环境信息。例如，在训练数字人坐椅子这个动作的过程中，数字人坐椅子的骨骼运动信息是固定的，但是在不同场景中，数字人坐的椅子可能是不同的，因此，通过增加不同类型的椅子可以构建差异化的环境信息，可以使得该机器学习模型的训练数据多样化。通过这种环境适配能力的提升，可以大幅提升机器学习模型在不同环境下的泛化性。从而解决了传统状态机和基于动作库匹配方案在不同场景需要重新构建相应的动作片段而导致的泛化性差的问题。另外，虽然构建差异化环境信息需要一定的成本，但是通过优异的环境自适应算法可以大幅降低人工成本，且构建环境信息的成本相比于收集不同环境下的适配的骨骼运动信息的成本要低很多。

另外，由于本实施例引入了运动控制模块，该运动控制模块采用的算法为生成式算法，例如，该运动控制模块对应的机器学习模型可以实时的生成骨骼运动信息。相比于传统状态机和动作库匹配算法，机器学习模型可以直接输出骨骼运动信息，而并非是从已有的动画片段中提取出某个动画片段。机器学习模型在训练过程中，输入到机器学习模型的训练数据中包括骨骼运动信息，而有的训练数据可能是无跳帧或穿模现象的，而有的训练数据可能是有跳帧或穿模现象的，但是，在训练过程中，机器学习模型可以对大量的训练数据进行拟合、并自动学习，因此，在拟合、学习过程中，机器学习模型的参数会受到好的训练数据(例如，无跳帧或穿模现象的训练数据)的影响，也会受到不好的训练数据(例如，有跳帧或穿模现象的训练数据)的影响。因此，当机器学习模型的参数趋于稳定之后，机器学习模型可以自动的对未精修的骨骼运动信息进行粗修，或者可以自动的对已经粗修的骨骼运动信息进行精修。从而节省了对动作库中每个动作片段都进行精修带来的巨大成本。

此外，传统状态机需要根据不同的状态手工构建大量的状态转移条件，成本高。而本公开实施例通过引入了运动匹配算法，能够从动作库(例如数据库)中自动的匹配出下一个适配的动画片段，这个过程是自动学习的，不需要引入额外的人工成本。由于运动匹配算法是从已有的动画片段中提取骨骼运动信息，因此，当发现某个动画片段不满足标准时，可以对该动作库中的该动画片段或该动画片段的部分进行修正即可。

另外，针对一个控制指令，如果需要数字人完成多个例如10个动作，并且该控制指令由运动控制模块来执行，那么在测试阶段中，可以由运动控制模块来驱动数字人完成该10个动作，同时监测该数字人做每个动作的效果是否达标，如果发现该数字人在做第3个动作和第4个动作的时候不达标。那么在发布阶段，可以由运动匹配模块来驱动数字人完成第3个动作和第4个动作，其他动作由运动控制模块来驱动数字人完成。从而使得运动匹配模块和运动控制模块能够完美结合，灵活切换，从而提高对数字人驱动后的展现效果。从而利用运动匹配模块的可控和生成动作精细的优点弥补了运动控制模块在部分场景中生成的数据不达标的问题。

可以理解的是，本实施例所述的方法可以应用于众多场景，例如，元宇宙、虚拟主播等场景中。

图5为本公开实施例提供的数字人驱动装置的结构示意图。本公开实施例提供的数字人驱动装置可以执行数字人驱动方法实施例提供的处理流程，如图5所示，数字人驱动装置50包括：

获取模块51，用于获取用于驱动数字人的控制指令；

第一确定模块52，用于根据所述控制指令，从运动匹配模块和运动控制模块中确定出执行所述控制指令的目标模块；

第二确定模块53，用于若所述目标模块是所述运动匹配模块，则根据所述控制指令，从多个预设动画片段中确定出与所述控制指令匹配的目标动画片段，并将所述目标动画片段中的骨骼运动信息作为驱动所述数字人的骨骼运动信息；

生成模块54，用于若所述目标模块是所述运动控制模块，则将所述控制指令、所述数字人的历史运动骨骼信息和历史运动轨迹输入到预先训练完成的机器学习模型中，通过所述机器学习模型生成用于驱动所述数字人的骨骼运动信息；

驱动模块55，用于根据所述骨骼运动信息，驱动所述数字人运动。

可选的，获取模块51还用于在获取用于驱动数字人的控制指令之前，获取至少一个用于驱动数字人的控制信号；该数字人驱动装置50还包括：解析模块56和排序模块57，其中，解析模块56用于将每个控制信号分别解析为至少一个控制指令，排序模块57用于将所述至少一个控制信号分别对应的至少一个控制指令进行排序，得到排序结果；获取模块51获取用于驱动数字人的控制指令时，具体用于：从所述排序结果中获取当前首个未被执行的控制指令。

可选的，第一确定模块52根据所述控制指令，从多个预设动画片段中确定出与所述控制指令匹配的目标动画片段时，具体用于：

根据驱动所述数字人运动的至少一个历史动画片段和所述控制指令，从多个预设动画片段中确定出与所述控制指令匹配、且与所述至少一个历史动画片段衔接的目标动画片段；或者

根据所述数字人的历史运动轨迹、驱动所述数字人运动的至少一个历史动画片段、以及所述控制指令，从多个预设动画片段中确定出与所述控制指令匹配、且与所述至少一个历史动画片段衔接的目标动画片段。

可选的，生成模块54将所述控制指令、所述数字人的历史运动骨骼信息和历史运动轨迹输入到预先训练完成的机器学习模型中，通过所述机器学习模型生成用于驱动所述数字人的骨骼运动信息时，具体用于：

将所述控制指令、所述数字人周围的环境信息、所述数字人的历史运动骨骼信息和历史运动轨迹输入到预先训练完成的机器学习模型中，通过所述机器学习模型生成下一时刻用于驱动所述数字人的骨骼运动信息。

可选的，所述数字人周围的环境信息包括如下至少一种：

所述数字人经过的预设长度的历史运动轨迹上每个轨迹点的高度信息；

所述数字人周围预设范围内的虚拟物体的体素化信息；

所述数字人周围动态物体的轨迹信息；

所述数字人周围动态物体与所述数字人的接触信息。

可选的，所述数字人的历史运动骨骼信息包括如下至少一种：

所述数字人的每个骨骼点在所述历史运动轨迹中每个轨迹点上的位置信息、位移信息和旋转信息；

所述数字人在所述历史运动轨迹中每个轨迹点上的状态信息。

图5所示实施例的数字人驱动装置可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

以上描述了数字人驱动装置的内部功能和结构，该装置可实现为一种电子设备。图6为本公开实施例提供的电子设备实施例的结构示意图。如图6所示，该电子设备包括存储器61和处理器62。

存储器61用于存储程序。除上述程序之外，存储器61还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器61可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器62与存储器61耦合，执行存储器61所存储的程序，以用于：

获取用于驱动数字人的控制指令；

根据所述骨骼运动信息，驱动所述数字人运动。

进一步，如图6所示，电子设备还可以包括：通信组件63、电源组件64、音频组件65、显示器66等其它组件。图6中仅示意性给出部分组件，并不意味着电子设备只包括图6所示组件。

通信组件63被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件63经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件63还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

电源组件64，为电子设备的各种组件提供电力。电源组件64可以包括电源管理系统，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。

音频组件65被配置为输出和/或输入音频信号。例如，音频组件65包括一个麦克风(MIC)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器61或经由通信组件63发送。在一些实施例中，音频组件65还包括一个扬声器，用于输出音频信号。

显示器66包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

另外，本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现上述实施例所述的数字人驱动方法。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

一种数字人驱动方法，其中，所述方法包括：

获取用于驱动数字人的控制指令；

根据所述控制指令，从运动匹配模块和运动控制模块中确定出执行所述控制指令的目标模块；

若所述目标模块是所述运动匹配模块，则根据所述控制指令，从多个预设动画片段中确定出与所述控制指令匹配的目标动画片段，并将所述目标动画片段中的骨骼运动信息作为驱动所述数字人的骨骼运动信息；

若所述目标模块是所述运动控制模块，则将所述控制指令、所述数字人的历史运动骨骼信息和历史运动轨迹输入到预先训练完成的机器学习模型中，通过所述机器学习模型生成用于驱动所述数字人的骨骼运动信息；

根据所述骨骼运动信息，驱动所述数字人运动。
根据权利要求1所述的方法，其中，获取用于驱动数字人的控制指令之前，所述方法还包括：

获取至少一个用于驱动数字人的控制信号；

将每个控制信号分别解析为至少一个控制指令；

将所述至少一个控制信号分别对应的至少一个控制指令进行排序，得到排序结果；

相应的，获取用于驱动数字人的控制指令，包括：

从所述排序结果中获取当前首个未被执行的控制指令。
根据权利要求1所述的方法，其中，根据所述控制指令，从多个预设动画片段中确定出与所述控制指令匹配的目标动画片段，包括：

根据驱动所述数字人运动的至少一个历史动画片段和所述控制指令，从多个预设动画片段中确定出与所述控制指令匹配、且与所述至少一个历史动画片段衔接的目标动画片段；或者

根据所述数字人的历史运动轨迹、驱动所述数字人运动的至少一个历史动画片段、以及所述控制指令，从多个预设动画片段中确定出与所述控制指令匹配、且与所述至少一个历史动画片段衔接的目标动画片段。
根据权利要求1所述的方法，其中，将所述控制指令、所述数字人的历史运动骨骼信息和历史运动轨迹输入到预先训练完成的机器学习模型中，通过所述机器学习模型生成用于驱动所述数字人的骨骼运动信息，包括：

将所述控制指令、所述数字人周围的环境信息、所述数字人的历史运动骨骼信息和历史运动轨迹输入到预先训练完成的机器学习模型中，通过所述机器学习模型生成下一时刻用于驱动所述数字人的骨骼运动信息。
根据权利要求4所述的方法，其中，所述机器学习模型是根据预设骨骼运动信息、以及与所述预设骨骼运动信息适配的多个差异化环境信息训练得到的。
根据权利要求4所述的方法，其中，所述数字人周围的环境信息包括如下至少一种：

所述数字人经过的预设长度的历史运动轨迹上每个轨迹点的高度信息；

所述数字人周围预设范围内的虚拟物体的体素化信息；

所述数字人周围动态物体的轨迹信息；

所述数字人周围动态物体与所述数字人的接触信息。
根据权利要求1所述的方法，其中，所述数字人的历史运动骨骼信息包括如下至少一种：

所述数字人的每个骨骼点在所述历史运动轨迹中每个轨迹点上的位置信息、位移信息和旋转信息；

所述数字人在所述历史运动轨迹中每个轨迹点上的状态信息。
一种数字人驱动装置，其中，包括：

获取模块，用于获取用于驱动数字人的控制指令；

第一确定模块，用于根据所述控制指令，从运动匹配模块和运动控制模块中确定出执行所述控制指令的目标模块；

第二确定模块，用于若所述目标模块是所述运动匹配模块，则根据所述控制指令，从多个预设动画片段中确定出与所述控制指令匹配的目标动画片段，并将所述目标动画片段中的骨骼运动信息作为驱动所述数字人的骨骼运动信息；

生成模块，用于若所述目标模块是所述运动控制模块，则将所述控制指令、所述数字人的历史运动骨骼信息和历史运动轨迹输入到预先训练完成的机器学习模型中，通过所述机器学习模型生成用于驱动所述数字人的骨骼运动信息；

驱动模块，用于根据所述骨骼运动信息，驱动所述数字人运动。
一种电子设备，其中，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-7中任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。