WO2023226913A1

WO2023226913A1 - 基于表情识别的虚拟人物驱动方法、装置及设备

Info

Publication number: WO2023226913A1
Application number: PCT/CN2023/095446
Authority: WO
Inventors: 马远凯; 朱鹏程; 张昆才; 冷海涛; 罗智凌; 周伟; 钱景; 李禹�; 王郁菲
Original assignee: 阿里巴巴（中国）有限公司
Priority date: 2022-05-23
Filing date: 2023-05-22
Publication date: 2023-11-30
Also published as: CN114821744A

Abstract

本申请提供一种基于表情识别的虚拟人物驱动方法、装置及设备，涉及计算机技术中的人工智能、深度学习、机器学习、虚拟现实等领域。本申请的方法，通过在虚拟人物与用户对话中，实时获取用户的人脸图像，通过用于人脸表情识别的基模型和多模态对齐模型，根据用户的人脸图像精准地识别用户当前表情的目标分类；在确定目标分类属于预设表情分类并且当前满足目标分类的响应触发条件时，根据用户表情的表情分类对应的响应策略确定对应的驱动数据，并根据驱动数据和虚拟人物的三维形象渲染模型驱动虚拟人物执行对应的响应行为，使得虚拟人物针对用户表情做出及时响应，提高了虚拟人物拟人化程度，使得虚拟人物与人的交互更顺畅、更智能。

Description

基于表情识别的虚拟人物驱动方法、装置及设备

本申请要求于2022年05月23日提交中国专利局、申请号为202210567627.X、申请名称为“基于表情识别的虚拟人物驱动方法、装置及设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术中的人工智能、深度学习、机器学习、虚拟现实等领域，尤其涉及一种基于表情识别的虚拟人物驱动方法、装置及设备。

背景技术

传统的虚拟人物与人的交互中主要以语音为载体，虚拟人物与人的交互仅停留在语音层面，不具备理解人的表情等视觉信息的能力，虚拟人物无法根据人的表情做出相应的反馈，例如虚拟人物播报过程中，若虚拟人物当前播报的内容不是作为交互对象的人想要获取的信息时，人会做出不耐烦甚至愤怒的表情，如果是真人交互会主动询问以促使当前对话顺利并有效地进行，但是虚拟人物不具有这种能力；遇到用户无语音打断虚拟人物播报，但表情上有明显打断意图的情况时，虚拟人物无法做出相应的打断行为，虚拟人物拟人化程度低，导致交互过程不顺畅、不智能。

发明内容

本申请提供一种基于表情识别的虚拟人物驱动方法、装置及设备，用以解决传统虚拟人物拟人化程度低，导致沟通过程不顺畅、不智能的问题。

一方面，本申请提供一种基于表情识别的虚拟人物驱动方法，包括：

获取虚拟人物的三维形象渲染模型，以利用虚拟人物向用户提供交互服务；

在虚拟人物与用户的一轮对话中，实时获取所述用户的人脸图像；

将所述用户的人脸图像分别输入用于人脸表情识别的基模型和多模态对齐模型，通过所述基模型确定第一表情分类结果，并通过所述多模态对齐模型确定第二表情分类结果；

根据所述第一表情分类结果和所述第二表情分类结果，确定所述用户当前表情的目标分类；

若确定所述目标分类属于预设表情分类，并且当前满足所述目标分类的响应触发条件，则根据所述目标分类对应的响应策略，确定对应的驱动数据；

根据所述驱动数据和虚拟人物的三维形象渲染模型，驱动虚拟人物执行对应的响应行为。

另一方面，本申请提供一种基于表情识别的虚拟人物驱动装置，包括：

渲染模型获取模块，用于获取虚拟人物的三维形象渲染模型，以利用虚拟人物向用户提供交互服务；

实时数据获取模块，用于在虚拟人物与用户的一轮对话中，实时获取所述用户的人脸图像；

实时表情识别模块，用于将所述用户的人脸图像分别输入用于人脸表情识别的基模型和多模态对齐模型，通过所述基模型确定第一表情分类结果，并通过所述多模态对齐模型确定第二表情分类结果；根据所述第一表情分类结果和所述第二表情分类结果，确定所述用户当前表情的目标分类；

决策驱动模块，用于若确定所述目标分类属于预设表情分类，并且当前满足所述目标分类的响应触发条件，则根据所述目标分类对应的响应策略，确定对应的驱动数据；根据所述驱动数据和虚拟人物的三维形象渲染模型，驱动虚拟人物执行对应的响应行为。

另一方面，本申请提供一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现上述所述的方法。

另一方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现上述所述的方法。

本申请提供的基于表情识别的虚拟人物驱动方法、装置及设备，通过在虚拟人物与用户的一轮对话中，实时获取用户的人脸图像，将用户的人脸图像分别输入用于人脸表情识别的基模型和多模态对齐模型，通过基模型确定第一表情分类结果，并通过多模态对齐模型确定第二表情分类结果；根据第一表情分类结果和第二表情分类结果，确定用户当前表情的目标分类，从而实时地精准地识别用户面部表情的表情分类；基于用户表情的表情分类，在确定目标分类属于预设表情分类并且当前满足目标分类的响应触发条件时，根据用户表情的表情分类对应的响应策略，确定对应的驱动数据，并根据驱动数据和虚拟人物的三维形象渲染模型驱动虚拟人物执行对应的响应行为，使得输出视频流中虚拟人物做出对应的响应行为，增加用户表情的识别能力，并且驱动虚拟人物针对用户的面部表情做出及时响应，提高了虚拟人物拟人化程度，使得虚拟人物与人的交互更顺畅、更智能。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请提供的基于表情识别的虚拟人物驱动方法的系统框架图；

图2为本申请一实施例提供的基于表情识别的虚拟人物驱动方法流程图；

图3为本申请一示例性实施例提供的表情识别方法的框架图；

图4为本申请另一实施例提供的基于表情识别的虚拟人物驱动方法流程图；

图5为本申请另一实施例提供的基于表情识别的虚拟人物驱动方法流程图；

图6为本申请另一实施例提供的虚拟人物驱动方法流程图；

图7为本申请一示例性实施例提供的基于表情识别的虚拟人物驱动装置的结构示意图；

图8为本申请一示例实施例提供的电子设备的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

首先对本申请所涉及的名词进行解释：

多模态交互：用户可通过文字、语音、表情等方式与虚拟人物交流，虚拟人物可以理解用户文字、语音、表情等信息，并可以反过来通过文字、语音、表情等方式与用户进行交流。

双工交互：实时的、双向的交互方式，用户可以随时打断虚拟人物，虚拟人物也可以在必要的时候打断正在说话的自己。

静态表情识别：从给定的静态图像中分离出人特定的表情状态，给出表情种类的判断。

本申请提供的基于表情识别的虚拟人物驱动方法，涉及计算机技术中的人工智能、深度学习、机器学习、虚拟现实等领域，具体可以应用于虚拟人物与人类交互的场景中。

示例性地，常见的虚拟人物与人类交互的场景包括：智能客服、政务咨询、生活服务、智慧交通、虚拟陪伴人、虚拟主播、虚拟教师、网络游戏等等。

针对传统虚拟人物拟人化程度低，导致沟通过程不顺畅、不智能的问题，本申请提供一种基于表情识别的虚拟人物驱动方法，通过在虚拟人物与用户的一轮对话中，实时获取用户的人脸图像；将用户的人脸图像分别输入用于人脸表情识别的基模型和多模态对齐模型，通过基模型确定第一表情分类结果，并通过多模态对齐模型确定第二表情分类结果；根据第一表情分类结果和第二表情分类结果，确定用户当前表情的目标分类，从而精准地、实时地识别用户的面部表情，在确定目标分类属于预设表情分类，并且当前满足目标分类的响应触发条件时，根据目标分类对应的响应策略，确定对应的驱动数据；根据驱动数据和虚拟人物的三维形象渲染模型，驱动虚拟人物执行对应的响应行为，从而使得虚拟人物能够针对用户的表情及时地做出相应的响应，提高了虚拟人物拟人化程度，使得虚拟人物与人的沟通过程更顺畅、更智能。

图1为本申请提供的基于表情识别的虚拟人物驱动方法的系统框架图，如图1所示，该系统框架包括以下4个模块：用户人脸图像获取模块、实时表情识别模块、双工决策模块、虚拟人物驱动模块。其中，用户人脸图像获取模块用于：在虚拟人物与用户的交互过程中，实时地监测用户侧的视频流，获取用户侧的视频帧，通过人脸检测算法对视频帧进行人脸检测，得到用户的人脸图像。实时表情识别模块用于：使用训练好的用于人脸表情识别的基模型和多模态对齐模型，对用户的人脸图像进行表情识别，识别出人脸图像中用户当前表情的表情分类及置信度，以实时地、精准地识别出用户的面部表情。双工决策模块用于：预先设置好需做出响应的预设表情分类及每一预设表情分类对应的响应策略，针对用户当前表情的目标分类及置信度，以及当前对话上下文信息，做出虚拟人物是否针对用户当前表情进行响应，以及做出何种响应行为的决策结果。具体地，基于用户当前表情的目标分类，确定用户当前表情的目标分类是否属于预设表情分类，以及当前是否满足目标分类的响应触发条件，并在确定用户当前表情的目标分类属于预设表情分类，并且当前满足目标分类的响应触发条件时，确定目标分类对应的响应策略。其中，响应策略包括做出表情、播报话术、做出动作等。虚拟人物驱动模块用于根据目标分类对应的响应策略，确定对应的驱动数据；根据驱动数据和虚拟人物的三维形象渲染模型，驱动虚拟人物执行对应的响应行为，以使虚拟人物针对用户当前表情及时地做出相应的响应行为，提高了虚拟人物拟人化程度，使得虚拟人物与人的沟通过程更顺畅、更智能。

示例性地，在虚拟人物与人的对话过程中，虚拟人物针对用户的表情执行的响应行为可以包括打断当前播报、情感关怀行为、承接辅助对话流程等等双工交互策略。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图2为本申请一实施例提供的基于表情识别的虚拟人物驱动方法流程图。本实施例提供的基于表情识别的虚拟人物驱动方法具体可以应用于具有使用虚拟人物实现与人类交互功能的电子设备，该电子设备可以是对话机器人、终端或服务器等，在其他实施例中，电子设备还可以采用其他设备实现，本实施例此处不做具体限定。

如图2所示，该方法具体步骤如下：

步骤S201、获取虚拟人物的三维形象渲染模型，以利用虚拟人物向用户提供交互服务。

其中，虚拟人物的三维形象渲染模型包括实现虚拟人物渲染所需的渲染数据，基于虚拟人物的三维形象渲染模型可以将虚拟人物的骨骼数据渲染成呈现给用户时展示的虚拟人物的三维形象。

本实施例提供的方法，可以应用于虚拟人物与人交互的场景中，利用具有三维形象的虚拟人物，实现机器与人的实时交互功能，以向人提供智能服务。

步骤S202、在虚拟人物与用户的一轮对话中，实时获取用户的人脸图像。

通常，在虚拟人物与人的交互过程中，虚拟人物可以与人进行多轮的对话，在每一轮对话过程中，可以通过实时地监测来自用户的视频流，按照预设频率采样视频帧，对视频帧进行人脸检测，获取视频帧中人脸部分，得到用户的人脸图像。

其中，对视频帧进行人脸检测获取用户的人脸图像，可以使用常用的人脸检测算法实现，此处不做具体限定。

通常虚拟人物与人的交互场景通常为一对一的对话场景，也即一个用户与虚拟人物进行交互的场景，如果视频帧中存在多个人脸，则可以检测出视频帧中每一人脸的人脸图像，根据人脸图像的中心点与视频帧的中心点的距离，以及人脸图像的面积，将其中一个人脸图像作为当前用户的人脸图像。

示例性地，可以将人脸图像面积最大且最靠近视频帧中心的人脸图像作为当前用户的人脸图像。

示例性地，若面积最大的人脸图像只有一个，则将该面积最大的人脸图像作为当前用户的人脸图像。若面积最大的人脸图像有多个，也即多个人脸图像的面积相同且面积最大，则根据面积最大的人脸图像的中心点与视频帧的中心点的距离，将与视频帧的中心点的距离最大的人脸图像作为当前用户的人脸图像。

在实时地获取到用户的人脸图像之后，通过步骤S203-S204，实时地对用户的人脸图像进行表情识别处理，确定人脸图像中用户当前表情的表情分类。

步骤S203、将用户的人脸图像分别输入用于人脸表情识别的基模型和多模态对齐模型，通过基模型确定第一表情分类结果，并通过多模态对齐模型确定第二表情分类结果。

本实施例中，为了提高表情识别的精准度，采用人脸表情识别的基模型与多模态对齐模型相结合进行表情识别的方法。

具体地，将用户的人脸图像输入训练好的用于人脸表情识别的基模型，通过该基模型对用户的人脸图像进行表情识别，得到第一表情分类结果；并将用户的人脸图像输入训练好的多模态对齐模型，通过多模态对齐模型对用户的人脸图像进行表情识别，得到第二表情分类结果。

其中，用于人脸表情识别的基模型为基于表情分类任务训练得到的模型，可以采用在人脸表情识别领域中在公开数据集上表现较优的表情识别模型，例如，人脸对齐算法(Deep Alignment Network，简称DAN)、MobileNet、ResNet等等。

为了缓解训练数据不足影响表情识别效果的问题，本方案引入已经在大量图文数据的公开数据集上完成预训练的多模态对齐模型，在用于表情识别的少量带有表情分类标注的训练数据上对预训练的多模态对齐模型进行微调，可以得到训练好的多模态对齐模型，该多模态对齐模型用于表情识别确定表情分类。

示例性地，多模态对齐模型可以采用CoOp(Context Optimization)、CLIP(Contrastive Language-Image Pre-training)、Prompt Ensembling、PET(Pattern-Exploting Training)等模型中的任意一种，此处不做具体限定。

步骤S204、根据第一表情分类结果和第二表情分类结果，确定用户当前表情的目标分类。

在分别通过用于人脸表情识别的基模型和多模态对齐模型对用户的人脸图像进行表情识别，得到第一表情分类结果和第二表情分类结果之后，综合第一表情分类结果和第二表情分类结果，确定用户当前表情的目标分类，以提高表情识别的精准度。

步骤S205、判断目标分类是否属于预设表情分类。

本实施例中，可以配置预设表情分类，并配置每一预设表情分类对应的响应策略。预设表情分类是配置的需要虚拟人物做出相应行为的表情分类。预设表情分类可以包括一种或多种表情分类。

预设表情分类对应的响应策略可以包括一种或多种响应策略，响应策略包含虚拟人物针对对应预设表情分类的表情进行响应的具体实现方式，每一预设表情分类对应的响应策略的种类和每一种响应策略的具体实现方式均独立配置，不同预设表情分类对应的响应策略可以不同。

示例性地，一种可选地实施方式中，预设表情分类可以包括以下至少一种：中性、伤心、生气、高兴、害怕、厌恶、吃惊。其中，“伤心”、“害怕”、“厌恶”这三种预设表情分类的响应策略可以只包括打断策略；“高兴”这种预设表情分类的响应策略可以只包括承接策略；“生气”、“吃惊”这两种预设表情分类的响应策略可以同时包括打断策略和承接策略。

另外，预设表情分类的数量和种类，以及每一种预设表情分类的响应策略可以根据具体应用场景的不同进行不同的设置，此处不做具体限定。例如，其他可选地实施方式中，还可以设置更多其他预设表情分类，“伤心”、“害怕”、“厌恶”等预设表情分类也可以设置承接策略，“生气”、“吃惊”也可以不设置打断策略等等。

在确定用户当前表情的目标分类之后，该步骤中判断用户当前表情的目标分类是否属于预设表情分类。

若目标分类属于预设表情分类，则虚拟人物可能需要针对用户当前表情进行响应处理，继续执行后续步骤S206。

若目标分类不属于预设表情分类，则虚拟人物无需针对用户当前表情进行响应处理，虚拟人物继续当前的处理。

步骤S206、判断当前是否满足目标分类的响应触发条件。

本实施例中，每一预设表情分类还具有对应的响应触发条件，只有在满足对应的响应触发条件时，才可以基于预设表情分类对应的响应策略，驱动虚拟人物做出对应的响应行为。

其中，预设表情分类的响应触发条件，可以根据具体应用场景进行配置和调整，此处不做具体限定。

该步骤中，判断当前是否满足目标分类的响应触发条件，若当前满足目标分类的响应触发条件，执行步骤S207-S208，根据目标分类对应的响应策略，驱动虚拟人物执行对应的响应行为。

若当前不满足目标分类的响应触发条件，则虚拟人物无需针对用户当前表情进行响应处理，虚拟人物继续当前的处理。

步骤S207、根据目标分类对应的响应策略，确定对应的驱动数据。

其中，响应策略包含虚拟人物针对对应预设表情分类的表情进行响应的具体实现方式。

示例性地，预设表情分类对应的响应策略可以包括：虚拟人物做出的表情、话术、动作等。

在确定目标分类属于预设表情分类，并且当前满足目标分类的响应触发条件时，根据目标分类对应的响应策略，确定对应的驱动数据。该驱动数据包括驱动虚拟人物执行目标分类对应的响应策略所需的所有驱动参数。

示例性地，若目标分类对应的响应策略包括虚拟人物做出规定表情，则该驱动数据包括表情驱动参数；若目标分类对应的响应策略包括虚拟人物做出规定动作，则该驱动数据包括动作驱动参数；若目标分类对应的响应策略包括虚拟人物播报规定话术，则该驱动数据包括语音驱动参数；若目标分类对应的响应策略包括表情、话术和动作中的多种响应方式，则该驱动数据包括对应的多种驱动参数，可以驱动虚拟人物执行响应策略对应的响应行为。

步骤S208、根据驱动数据和虚拟人物的三维形象渲染模型，驱动虚拟人物执行对应的响应行为。

在根据目标分类对应的响应策略，确定对应的驱动数据之后，根据驱动数据驱动虚拟人物的骨骼模型得到响应行为对应的骨骼数据，根据虚拟人物的三维详细渲染模型对骨骼数据进行渲染，得到响应行为对应的虚拟人物图像数据。通过将虚拟人物图像数据渲染到输出视频流中，使得输出视频流中虚拟人物做出对应的响应行为，从而实现虚拟人物针对用户的面部表情做出及时响应的多模态双工交互功能。

本实施例通过在虚拟人物与用户的一轮对话中，实时获取用户的人脸图像，将用户的人脸图像分别输入用于人脸表情识别的基模型和多模态对齐模型，通过基模型确定第一表情分类结果，并通过多模态对齐模型确定第二表情分类结果；根据第一表情分类结果和第二表情分类结果，确定用户当前表情的目标分类，从而实时地精准地识别用户面部表情的表情分类；基于用户表情的表情分类，在确定目标分类属于预设表情分类并且当前满足目标分类的响应触发条件时，根据用户表情的表情分类对应的响应策略，确定对应的驱动数据，并根据驱动数据和虚拟人物的三维形象渲染模型驱动虚拟人物执行对应的响应行为，使得输出视频流中虚拟人物做出对应的响应行为，增加用户表情的实时识别能力，并且驱动虚拟人物针对用户的面部表情做出及时地响应，提高了虚拟人物拟人化程度，使得虚拟人物与人的交互更顺畅、更智能。

一种可选的实施例中，为了提高表情识别的精准度，采用人脸表情识别的基模型与多模态对齐模型相结合进行表情识别的方法。

在上述步骤S203中，将用户的人脸图像输入训练好的用于人脸表情识别的基模型，通过该基模型对用户的人脸图像进行表情识别，得到第一表情分类结果；并将用户的人脸图像输入训练好的多模态对齐模型，通过多模态对齐模型对用户的人脸图像进行表情识别，得到第二表情分类结果。

其中，第一表情分类结果包括所有表情分类对应的一组置信度，包括用户当前表情属于每一表情分类的第一置信度，第一置信度越大表示用户当前表情属于该表情分类的可能性越高。

其中，第二表情分类结果包括所有表情分类对应的另一组置信度，包括用户当前表情属于每一表情分类的第二置信度，第二置信度越大表示用户当前表情属于该表情分类的可能性越高。

在上述步骤S204中，根据用户当前表情属于每一表情分类的第一置信度和第二置信度，确定用户当前表情的目标分类，以及用户当前表情属于目标分类的置信度。

可选地，根据第一表情分类结果和第二表情分类结果，将两组置信度中最大的置信度对应的表情分类作为当前用户表情的目标分类。

可选地，该步骤中可以根据第一表情分类结果和第二表情分类结果，对两组置信度中同一表情分类对应的第一置信度和第二置信度求均值，作为该表情分类的第三置信度；根据各个表情分类的第三置信度，将第三置信度最大的表情分类作为当前用户表情的目标分类。

示例性地，图3为本申请一示例性实施例提供的表情识别方法的框架图，以基模型采用用于人脸表情识别的DAN模型，多模态对齐模型采用用于人脸表情识别的CoOp模型实现为例，如图3所示，将实时获取到的用户的人脸图像分别输入DAN模型和CoOp模型，通过DAN模型的图片编码器对人脸图像进行编码，基于多个注意力模块进行特征提取，基于注意力融合模块融合多个注意力模块提取的特征，并基于融合结果进行分类处理，得到第一表情分类结果；同时，通过CoOp模型的图片编码器对人脸图像进行编码得到图片特征，并基于文本编码器对模型内置的文本信息进行编码得到文本特征，对于多模态特征(包括文本特征和图片特征)进行相似度计算和分类处理，得到第二表情分类结果。综合第一表情分类结果和第二表情分类结果，确定最终分类结果，得到用户表情的表情分类的最终结果。

进一步地，基于当前应用场景，获取具有多种不同表情的人脸图片，以及每一人脸图片的表情分类标签，作为训练数据，对预训练的CoOp模型进行训练直至模型收敛，得到训练好的CoOp模型，训练好的CoOp模型在测试集上的表情分类准确率较高，能够满足当前应用场景的要求。其中，预训练的CoOp模型是指在公开数据集上预训练得到的CoOp模型。

本实施例中通过结合用于人脸表情识别的基模型和多模态对齐模型进行人脸表情识别，提高了表情识别的精准度，在一测试数据集上的人脸表情分类达到92.9％的准确率。

在上述任一方法实施例的基础上，本实施例中用于人脸识别的模型结合了基模型和多模态对齐模型，模型参数量大、模型复杂，在硬件资源受限(例如，只有CPU资源无GPU资源)的情况下，模型的推理耗时(respond time，简称RT)较高，表情识别的效率较低。

为了满足表情识别的实时性要求，提高表情识别的效率，将用户的人脸图像分别输入用于人脸表情识别的基模型和多模态对齐模型，通过基模型确定第一表情分类结果，并通过多模态对齐模型确定第二表情分类结果之前，获取训练好的用于人脸表情识别的基模型和多模态对齐模型，对基模型和多模态对齐模型进行模型蒸馏，以对表情识别的模型进行压缩，在保证人脸表情识别的准确率满足要求的情况下减少模型的参数量，减少模型推理耗时，提高表情识别的效率，实现人脸表情的实时分类识别。

通过模型蒸馏，可使得表情识别的分类准确率基本维持(在上述测试数据集上达到91.2％)的情况下，模型的参数量减少，在CPU上单帧推理耗时控制在了30ms以内，达到了实时识别的效果。

可选地，还可以采用模型剪枝技术或其他模型压缩技术替换模型整理，对人脸识别的基模型和多模态对齐模型进行压缩，此处不做具体限定。

图4为本申请另一实施例提供的基于表情识别的虚拟人物驱动方法流程图。在上述任一方法实施例的基础上，可以实现具有双工能力、虚拟人物具有主动或被动打断自己当前播报的能力，并针对用户表情做出打断后的响应行为，以引导后续的对话流程，使得虚拟人物与用户的交互更加流畅、更加智能。如图4所示，该方法具体步骤如下：

步骤S401、获取虚拟人物的三维形象渲染模型，以利用虚拟人物向用户提供交互服务。

步骤S402、在虚拟人物与用户的一轮对话中，实时获取用户的人脸图像。

步骤S403、将用户的人脸图像分别输入用于人脸表情识别的基模型和多模态对齐模型，通过基模型确定第一表情分类结果，并通过多模态对齐模型确定第二表情分类结果。

步骤S404、根据第一表情分类结果和第二表情分类结果，确定用户当前表情的目标分类。

上述步骤S401-S404与上述步骤S201-S204的实现方式类似，具体实现参见上述实施例的详细介绍，本实施例此处不再赘述。

步骤S405、若当前的对话状态为虚拟人物输出用户接收的状态，判断目标分类是否属于第一预设表情分类。

其中，第一预设表情分类的响应策略包括打断策略。打断策略执行时会打断虚拟人物当前处理，并驱动虚拟人物执行打断策略对应的响应行为。

本实施例中，针对在虚拟人物输出用户接收的对话状态下，需要虚拟人物打断当前处理，并执行针对用户表情的响应行为的情况，设置第一预设表情分类，并设置每一第一预设表情分类对应的打断策略。

第一预设表情分类及每一第一预设表情分类对应的打断策略可以根据实际应用场景的需要进行设置和调整，此处不做具体限定。

示例性地，第一预设表情分及第一预设表情分类对应的打断策略可以设置为如下表1所示。

表1

上述表1仅为一示例，打断策略可以不同时包括播报话术、做出规定表情、做出规定动作的响应行为，可以只包含其中的任意一种或任意两种，例如可以不播报话术，仅仅做出规定表情和动作；或者播报规定话术，做出规定表情，但不做任何动作等等。

在确定用户当前表情的目标分类之后，该步骤中判断用户当前表情的目标分类是否属于第一预设表情分类。

若目标分类属于第一预设表情分类，则虚拟人物可能需要针对用户当前表情进行响应处理，继续执行后续步骤S406。

若目标分类不属于第一预设表情分类，则虚拟人物无需针对用户当前表情进行响应处理，虚拟人物继续当前的处理。

示例性地，基于上述表1的第一预设表情分类及对应的打断策略，假设当前虚拟人物正在基于用户提出的问题播报答复信息，若检测到用户的表情为生气，则确定虚拟人物可能需要针对用户生气的表情做出响应，继续执行后续步骤S406判断当前是否满足目标分类对应的打断触发条件，若当前满足目标分类对应的打断触发条件，则打断虚拟人物的当前输出，并根据目标分类对应的打断策略，驱动虚拟人物执行对应的打断响应行为。

步骤S406、判断当前是否满足目标分类对应的打断触发条件。

其中，目标分类对应的打断触发条件，包括以下至少一项：用户当前表情属于目标分类的置信度大于或等于目标分类对应的置信度阈值；当前对话轮次与前一次触发打断的对话轮次之间的间隔的轮次数量大于或等于预设轮次数量。

具体地，在虚拟人物与用户的交互过程中，可以记录上下文信息，上下文信息中包括是否被打断的信息。根据当前的上下文信息，可以判断当前对话轮次与前一次触发打断的对话轮次之间的间隔的轮次数量是否大于或等于预设轮次数量。

本实施例中，考虑到虚拟人物打断当前输出做出打断响应行为可能会干扰虚拟人物与用户的正常交互，因此可以根据实际应用场景的需要，设置每一第一预设表情分类对应的打断触发条件，来避免影响虚拟人物与用户的正常交互，提高虚拟人物与用户的交互的流畅度和智能化。

可选地，第一预设表情分类对应的打断触发条件可以包括：用户当前表情属于该第一预设表情分类的置信度大于或等于该第一预设表情分类对应的置信度阈值。这样，只有在用户的表情有较高置信度为第一预设表情分类时，才触发第一预设表情分类对应打断策略的执行，能够避免影响虚拟人物与用户的正常交互，提高虚拟人物与用户的交互的流畅度和智能化。

可选地，第一预设表情分类对应的打断触发条件可以包括：当前对话轮次与前一次触发打断的对话轮次之间的间隔的轮次数量大于或等于预设轮次数量，从而避免频繁地打断虚拟人物的输出，避免出现连续多轮的打断影响虚拟人物与用户的正常交互，提高虚拟人物与用户的交互的流畅度和智能化。

可选地，第一预设表情分类对应的打断触发条件可以包括：用户当前表情属于该第一预设表情分类的置信度大于或等于该第一预设表情分类对应的置信度阈值，并且当前对话轮次与前一次触发打断的对话轮次之间的间隔的轮次数量大于或等于预设轮次数量。这样，只有在用户的表情有较高置信度为第一预设表情分类，并且不会频繁打断虚拟人物的输出的情况下，触发第一预设表情分类对应打断策略的执行，能够更好地避免影响虚拟人物与用户的正常交互，提高虚拟人物与用户的交互的流畅度和智能化。

其中，不同的第一预设表情分类对应的置信度阈值可以不同，具体可以根据实际应用场景的需要进行设置和调整，预设轮次数量可以根据实际应用场景的需要进行设置和调整，本实施例此处不做具体限定。

示例性地，以目标分类对应的打断触发条件为：用户当前表情属于目标分类的置信度大于或等于目标分类对应的置信度阈值；和当前对话轮次与前一次触发打断的对话轮次之间的间隔的轮次数量大于或等于预设轮次数量，这两项同时满足为例，该步骤中，根据用户当前表情属于目标分类的置信度和当前的上下文信息，判断当前是否满足目标分类对应的打断触发条件。

若当前满足目标分类对应的打断触发条件，执行步骤S407-S408，根据目标分类对应的打断策略，驱动虚拟人物执行对应的打断响应行为。

若当前不满足目标分类对应的打断触发条件，则虚拟人物无需针对用户当前表情进行打断响应处理，虚拟人物继续当前的处理。

步骤S407、若当前满足目标分类对应的打断触发条件，则打断虚拟人物的当前输出，并根据目标分类对应的打断策略，确定对应的驱动数据，驱动数据用于驱动虚拟人物执行如下至少一种打断响应行为：播报针对对应表情分类的话术、做出具有特定情绪的表情、做出规定动作。

本实施例中，打断策略中可以包括以下至少一种打断响应行为：播报针对对应表情分类的话术、做出具有特定情绪的表情、做出规定动作。其中，不同的第一预设表情分类对应的打断策略包括的打断响应行为的种类和具体内容可以不同。

示例性地，如表1中所示，“伤心”和“生气”对应打断策略中做出相同的表情和动作，但是播报的话术不同；“害怕”和“厌恶”中做出的表情和动作均不相同，播报的话术也不同。

在确定目标分类属于第一预设表情分类，并且当前满足目标分类的打断触发条件时，根据目标分类对应的打断策略，确定对应的驱动数据。该驱动数据包括驱动虚拟人物执行目标分类对应的打断策略所需的所有驱动参数。

该步骤中，可以采用现有任意一种基于确定的策略生成虚拟人物的驱动数据的虚拟人物驱动方法实现，此处不再做详细地说明。

步骤S408、根据驱动数据和虚拟人物的三维形象渲染模型，驱动虚拟人物执行如下至少一种打断响应行为：播报针对对应表情分类的话术、做出具有特定情绪的表情、做出规定动作。

本实施例提供的方法可以应用于虚拟人物与人交互的场景中，利用具有三维形象的虚拟人物，实现机器与人的实时交互功能，以向人提供智能服务。

在根据目标分类对应的响应策略，确定对应的驱动数据之后，根据驱动数据驱动虚拟人物的骨骼模型得到响应行为对应的骨骼数据，根据虚拟人物的三维详细渲染模型对骨骼数据进行渲染，得到响应行为对应的虚拟人物图像数据。通过将虚拟人物图像数据渲染到输出视频流中，使得输出视频流中虚拟人物做出对应的响应行为，从而实现虚拟人物针对用户的面部表情做出及时响应的双工交互功能。

本实施例中，针对在虚拟人物输出用户接收的对话状态下，需要虚拟人物打断当前处理，并执行针对用户表情的响应行为的情况，设置第一预设表情分类，并设置每一第一预设表情分类对应的打断策略，通过实时识别用户表情的目标分类，在确定目标分类属于第一预设表情分类，并根据用户当前表情属于目标分类的置信度和当前的上下文信息，确定当前满足目标分类对应的打断触发条件时，根据目标分类对应的响应策略，确定对应的驱动数据，驱动虚拟人物执行如下至少一种打断响应行为：播报针对对应表情分类的话术、做出具有特定情绪的表情、做出规定动作，能够避免影响虚拟人物与用户的正常交互，同时提高虚拟人物与用户的交互的流畅度和智能化。

一种可选地实施方式中，在步骤S408之后，可以包括如下步骤：

步骤S409、若在第一预设时长内接收到用户的语音输入，并识别出用户的语音输入的语义信息，则开启下一轮对话，根据用户的语音输入的语义信息进行对话处理。

其中，第一预设时长一般设置为较短的时长，使得用户不会感觉到长时间的停顿，第一预设时长可以根据实际应用场景的需要进行设置和调整，例如几百毫秒、1秒、甚至几秒等，此处不做具体限定。

步骤S410、若在第一预设时长内未接收到用户的语音输入，或者无法识别出用户的语音输入的语义信息，则继续被打断的虚拟人物的当前输出。

可选地，若在第一预设时长内未接收到用户的语音输入，或者无法识别出用户的语音输入的语义信息，可以在停顿第三预设时长之后，继续被打断的虚拟人物的当前输出，以给用户留出足够的语音输入时间。

其中，第三预设时长可以为几百毫秒、1秒、甚至几秒等，可以根据实际应用场景的需要进行设置和调整，此处不做具体限定。

本实施例中，通过在驱动虚拟人物执行打断响应行为之后，如果在第一预设时长内接收到用户具有语义信息的语音输入，则开启新一轮对话，如果没有接收到用户具有语义信息的语音输入，则可以停顿一定时长后继续虚拟人物之前的播报，以避免打断响应行为影响虚拟人物与用户正常交互，提高虚拟人物与用户的交互的流畅度和智能化。

图5为本申请另一实施例提供的基于表情识别的虚拟人物驱动方法流程图。在上述方法实施例的基础上，虚拟人物与人的交互方案可以具有双工能力、虚拟人物具有根据用户表情进行主动承接功能，以引导后续的对话流程，使得虚拟人物与用户的交互更加流畅、更加智能。如图5所示，该方法具体步骤如下：

步骤S501、获取虚拟人物的三维形象渲染模型，以利用虚拟人物向用户提供交互服务。

步骤S502、在虚拟人物与用户的一轮对话中，实时获取用户的人脸图像。

步骤S503、将用户的人脸图像分别输入用于人脸表情识别的基模型和多模态对齐模型，通过基模型确定第一表情分类结果，并通过多模态对齐模型确定第二表情分类结果。

步骤S504、根据第一表情分类结果和第二表情分类结果，确定用户当前表情的目标分类。

上述步骤S501-S504与上述步骤S201-S204的实现方式类似，具体实现参见上述实施例的详细介绍，本实施例此处不再赘述。

步骤S505、若当前的对话状态为用户输入虚拟人物接收的状态，判断目标分类是否属于第二预设表情分类。

其中，第二预设表情分类的响应策略包括承接策略。承接策略主要应用于用户输入虚拟人物接收的对话状态中，不会明显打断用户的输入，虚拟人物做出不会影响用户输入的承接响应行为。

本实施例中，针对在用户输入虚拟人物接收的对话状态下，根据用户输入过程中的面部表情，驱动虚拟人物可以模拟真实人类在交互过程中对对方的表情实时地做出回应的情况，设置第二预设表情分类，并设置每一第二预设表情分类对应的承接策略。

第二预设表情分类及每一第二预设表情分类对应的承接策略可以根据实际应用场景的需要进行设置和调整，此处不做具体限定。

示例性地，第二预设表情分及第二预设表情分类对应的承接策略可以设置为如下表2所示。

表2

在确定用户当前表情的目标分类之后，该步骤中判断用户当前表情的目标分类是否属于第二预设表情分类。

若目标分类属于第二预设表情分类，则虚拟人物可能需要针对用户当前表情进行响应处理，继续执行后续步骤。

若目标分类不属于第二预设表情分类，则虚拟人物无需针对用户当前表情进行响应处理，虚拟人物继续当前的处理。

步骤S506、判断当前是否满足目标分类对应的承接触发条件。

其中，目标分类对应的承接触发条件，包括：至少连续N帧图像中用户的表情均属于目标分类，其中N为正整数，N为目标分类对应的预设值。

示例性地，N可以为5，N的值可以根据实际应用场景的需要进行设置和调整，本实施例此处不做具体限定。

本实施例中，通过设置第二预设表情分类对应的承接触发条件为至少连续N帧图像中用户的表情均属于该第二预设表情分类，能够避免虚拟人物频繁、不必要的承接响应行为，提高虚拟人物与用户的交互的流畅性和智能化。

该步骤中，若当前满足目标分类对应的承接触发条件，执行步骤S507-S508，根据目标分类对应的承接策略，驱动虚拟人物执行对应的承接响应行为。

若当前不满足目标分类对应的承接触发条件，则虚拟人物无需针对用户当前表情进行承接响应处理，虚拟人物继续当前的处理。

另外，该步骤S506为可选步骤，在其他实施例中，在上述步骤S505中确定目标分类属于第二预设表情分类时，可以直接执行步骤S507，根据目标分类对应的承接策略，确定对应的驱动数据，并根据驱动数据驱动虚拟人物执行承接响应行为。

步骤S507、根据目标分类对应的承接策略，确定对应的驱动数据，驱动数据用于驱动虚拟人物执行如下至少一种承接响应行为：播报具有特定语气的承接话术、做出具有特定情绪的表情、做出规定动作。

本实施例中，承接策略中可以包括以下至少一种承接响应行为：播报具有特定语气的承接话术、做出具有特定情绪的表情、做出规定动作。其中，不同的第二预设表情分类对应的承接策略包括的承接响应行为的种类和具体内容可以不同。

在确定目标分类属于第二预设表情分类，并且当前满足目标分类的承接触发条件时，根据目标分类对应的承接策略，确定对应的驱动数据。该驱动数据包括驱动虚拟人物执行目标分类对应的承接策略所需的所有驱动参数。

一种可选地实施方式中，该步骤还可以采用如下方式实现：获取用户当前输入的语音数据，并识别语言数据对应的用户意图信息，并确定用户意图信息对应的情感极性；根据用户意图信息对应的情感极性和承接策略，确定承接响应行为使用的特定语气和特定情绪；根据目标分类对应的承接策略和承接响应行为使用的特定语气和特定情绪，确定对应的驱动数据，驱动数据用于驱动虚拟人物执行如下至少一种承接响应行为：播报具有特定语气的承接话术、做出具有特定情绪的表情、做出规定动作。

示例性地，可以实时地获取用户输入的语音流，在确定目标分类属于第二预设表情分类时，可以获取最近一个时段内用户输入的语音数据，将语音数据转换为对应的文本信息；识别文本信息对应的用户意图信息，并确定用户意图信息对应的情感极性。

通常，用户意图一共有6种：“表示命令”，“表示辱骂”，“表示提问”，“正向陈述”，“负向陈述”，“其它意图”。其中：“表示命令”和“正向陈述”可被归类为正向语义，也即情感极性为正向；“表示提问”和“其它意图”可被归类为中性语义，也即情感极性为中性；“表示辱骂”和“负向陈述”可被归类为负向语义，也即情感极性为负向。

其中，用户意图信息对应的情感极性包括：正向、负向和中性。识别文本信息对应的用户意图信息，可以通过现有的基于自然语言理解(Natural Language Understanding，简称NLU)神经网络分类模型实现，例如可以采用TextRCNN，该模型平衡了效果和模型的计算开支、分类准确率较高且模型复杂度低，推理开销小。另外，该模型的可替代模型还有TextCNN、Transformer等等，本实施例此处不再赘述。

示例性地，承接策略中还可以包括用户意图信息对应的情感极性与承接响应行为中播报话术的特定语气的对应关系，用户意图信息对应的情感极性与承接响应行为中做出表情的特定情绪的对应关系，用户意图信息对应的情感极性与承接响应行为中做出动作类型的对应关系。基于用户意图信息对应的情感极性和承接策略，可以确定承接响应行为使用的特定语气和特定情绪。

这一实施方式中，通过识别用户当前语音输入的用户意图信息对应的情感极性，确定承接策略中虚拟人物做出承接响应行为时播报话术的特定语气和表情的特定情绪，使得虚拟人物能够针对用户当前的情感极性做出具有对应语气和情绪的承接，提高虚拟人物的拟人化程度，能够提高用户继续交互积极性，提高虚拟人物与用户交互的流畅度和智能化。

需要说明的是，承接策略中播报的承接话术通常设置为简短内容，如“嗯嗯”、“是”、“对对”、“嗯”、“哦哦”等，播报承接话术不会影响用户正常语音输入。

步骤S508、根据驱动数据和虚拟人物的三维形象渲染模型，驱动虚拟人物执行如下至少一种承接响应行为：播报具有特定语气的承接话术、做出具有特定情绪的表情、做出规定动作。

本实施例中，针对在用户输入虚拟人物接收的对话状态下，根据用户输入过程中的面部表情，驱动虚拟人物可以模拟真实人类在交互过程中对对方的表情实时地做出回应的情况，设置第二预设表情分类，并设置每一第二预设表情分类对应的承接策略，通过实时识别用户表情的目标分类，在确定目标分类属于第二预设表情分类，并确定当前满足目标分类对应的承接触发条件时，根据目标分类对应的承接策略，结合用户输入语音数据中用户意图信息的情感极性，确定对应的驱动数据，驱动虚拟人物执行如下至少一种承接响应行为：播报具有特定语气的承接话术、做出具有特定情绪的表情、做出规定动作，能够避免影响虚拟人物与用户的正常交互，同时提高虚拟人物的拟人化程度，提高虚拟人物与用户的交互的流畅度和智能化。

图6为本申请另一实施例提供的虚拟人物驱动方法流程图。在上述任一方法实施例的基础上，虚拟人物与人的交互方案可以具有双工能力、虚拟人物具有根据用户输入语音进行主动承接的功能，以引导后续的对话流程，使得虚拟人物与用户的交互更加流畅、更加智能。如图6所示，该方法具体步骤如下：

步骤S601、获取虚拟人物的三维形象渲染模型，以利用虚拟人物向用户提供交互服务。

该步骤与上述步骤S201一致，此处不再赘述。

步骤S602、在虚拟人物与用户的一轮对话中，实时获取用户输入的语音数据。

通常，在虚拟人物与人的交互过程中，虚拟人物可以与人进行多轮的对话，在每一轮对话过程中，可以实时地接收来自用户的语音流，也即用户输入的语音数据。

步骤S603、当检测到用户输入的语音数据的静默时长大于或等于第二预设时长时，若确定语音输入未结束，则将语音数据转换为对应的文本信息。

本实施例中，可以实时地对用户输入的语音流进行语音活动检测(Voice Activity Detection，简称VAD)，得到用户输入的静默时长(也即VAD时间)。

当检测到用户输入的静默时长大于或等于第二预设时长时，若确定此时本轮语音输入未结束，也即是用户在语音输入过程中产生了较长时间的停顿，这种情况下进行后续的承接响应处理，使得虚拟人物做出承接响应行为，以引导后续的对话流程，使得虚拟人物与用户的交互更加流畅、更加智能。

其中，第二预设时长为一个小于静默时长阈值的较短时长，静默时长阈值为判断用户本轮输入是否结束的静默时长，当用户语音输入的静默时长达到静默时长阈值，则确定用户本轮语音输入结束。例如静默时长阈值可以为800ms，第二预设时长可以为300ms。第二预设时长可以根据实际应用场景的需要进行设置和调整，此处不做具体限定。

具体地，当检测到用户输入的语音数据的静默时长大于或等于第二预设时长时，若确定语音输入未结束，也即静默时长小于静默时长阈值，将语音数据转换为对应的文本信息，并基于文本信息进行后续的处理。

步骤S604、识别文本信息对应的用户意图信息，并确定用户意图信息对应的情感极性。

其中，用户意图信息对应的情感极性包括：正向、负向和中性。

该步骤中，可以通过现有的自然语言理解(Natural Language Understanding，简称NLU)算法实现，本实施例此处不再赘述。

步骤S605、根据用户意图信息对应的情感极性，确定对应的驱动数据。

具体地，根据用户意图信息对应的情感极性，确定对应的承接策略；根据对应的承接策略生成对应的驱动数据。

本实施例中，针对用户语音输入发生较长时间的停顿(达到预设静默时长)时用户意图信息对应的情感极性，设置不同情感极性对应的承接策略。用户意图信息的情感极性不同，对应的承接策略不同。

示例性地，根据用户输入语音进行主动承接的功能中，对用户意图信息的不同情感极性，可以设置为表3所示的承接策略。

表3

步骤S606、根据驱动数据和虚拟人物的三维形象渲染模型，驱动虚拟人物执行如下至少一种承接响应行为：播报针对用户意图信息对应的情感极性配置的规定语气的承接话术、做出具有特定情绪的表情、做出规定动作。

其中，播报针对用户意图信息对应的情感极性配置的规定语气的承接话术不影响用户的语音输入。

本实施例中，通过在虚拟人物与用户的一轮对话中，实时获取用户输入的语音数据；当检测到用户输入的语音数据的静默时长大于或等于第二预设时长并且语音输入未结束时，根据语音数据识别用户意图信息及其对应的情感极性，根据当前用户意图信息对应的情感极性，确定对应的承接策略，并驱动虚拟人物根据对应的承接策略做出至少一种承接响应行为：播报针对用户意图信息对应的情感极性配置的规定语气的承接话术、做出具有特定情绪的表情、做出规定动作，能够不影响用户输入的同时提高虚拟人物的拟人化程度，提高虚拟人物与用户的交互的流畅度和智能化。

需要说明的是，在虚拟人物与用户的交互过程中，可以将上述实施例中的至少两种相结合使用，使得用户能感知到虚拟人物在视觉层面的反馈能力，获得“虚拟人物更智能、更聪明”的体感。

图7为本申请一示例性实施例提供的基于表情识别的虚拟人物驱动装置的结构示意图。本申请实施例提供的基于表情识别的虚拟人物驱动装置可以执行基于表情识别的虚拟人物驱动方法实施例提供的处理流程。如图7所示，基于表情识别的虚拟人物驱动装置70包括：渲染模型获取模块71、实时数据获取模块72、实时表情识别模块73和决策及驱动模块74。

渲染模型获取模块71用于获取虚拟人物的三维形象渲染模型，以利用虚拟人物向用户提供交互服务。

实时数据获取模块72用于在虚拟人物与用户的一轮对话中，实时获取用户的人脸图像。

实时表情识别模块73用于将用户的人脸图像分别输入用于人脸表情识别的基模型和多模态对齐模型，通过基模型确定第一表情分类结果，并通过多模态对齐模型确定第二表情分类结果；根据第一表情分类结果和第二表情分类结果，确定用户当前表情的目标分类。

决策及驱动模块74用于若确定目标分类属于预设表情分类，并且当前满足目标分类的响应触发条件，则根据目标分类对应的响应策略，确定对应的驱动数据；根据驱动数据和虚拟人物的三维形象渲染模型，驱动虚拟人物执行对应的响应行为。

本申请实施例提供的装置可以具体用于执行上述图2对应方法实施例所提供的方案，具体功能和所能实现的技术效果此处不再赘述。

一种可选地实施例中，第一表情分类结果包括：用户当前表情属于每一表情分类的第一置信度，第二表情分类结果包括用户当前表情属于每一表情分类的第二置信度。

在根据第一表情分类结果和第二表情分类结果，确定用户当前表情的目标分类时，实时表情识别模块还用于：根据用户当前表情属于每一表情分类的第一置信度和第二置信度，确定用户当前表情的目标分类，以及用户当前表情属于目标分类的置信度。

一种可选地实施例中，若确定目标分类属于预设表情分类，并且当前满足目标分类的响应触发条件，则根据目标分类对应的响应策略，确定对应的驱动数据时，决策及驱动模块还用于：若当前的对话状态为虚拟人物输出用户接收的状态，并且目标分类属于第一预设表情分类，则根据用户当前表情属于目标分类的置信度和当前的上下文信息，确定当前是否满足目标分类对应的打断触发条件，第一预设表情分类具有对应的打断策略；若确定当前满足目标分类对应的打断触发条件，则打断虚拟人物的当前输出，并根据目标分类对应的打断策略，确定对应的驱动数据，驱动数据用于驱动虚拟人物执行如下至少一种打断响应行为：播报针对对应表情分类的话术、做出具有规定情绪的表情、做出规定动作。

一种可选地实施例中，目标分类对应的打断触发条件，包括以下至少一项：用户当前表情属于目标分类的置信度大于或等于目标分类对应的置信度阈值；当前对话轮次与前一次触发打断的对话轮次之间的间隔的轮次数量大于或等于预设轮次数量。

一种可选地实施例中，在根据驱动数据和虚拟人物的三维形象渲染模型，驱动虚拟人物执行对应的响应行为时，决策及驱动模块还用于：若在第一预设时长内接收到用户的语音输入，并识别出用户的语音输入的语义信息，则开启下一轮对话，根据用户的语音输入的语义信息进行对话处理；若在第一预设时长内未接收到用户的语音输入，或者无法识别出用户的语音输入的语义信息，则继续被打断的虚拟人物的当前输出。

一种可选地实施例中，若确定目标分类属于预设表情分类，并且当前满足目标分类的响应触发条件，则根据目标分类对应的响应策略，确定对应的驱动数据时，决策及驱动模块还用于：若当前的对话状态为用户输入虚拟人物接收的状态，并且目标分类属于第二预设表情分类，则根据目标分类，判断当前是否满足目标分类对应的承接触发条件，第二预设表情分类具有对应的承接策略；若确定当前满足目标分类对应的承接触发条件，则根据目标分类对应的承接策略，确定对应的驱动数据，驱动数据用于驱动虚拟人物执行如下至少一种承接响应行为：播报具有特定语气的承接话术、做出具有特定情绪的表情、做出规定动作；其中，播报具有特定语气的承接话术不影响用户的语音输入。

一种可选地实施例中，在根据目标分类对应的承接策略，确定对应的驱动数据，驱动数据用于驱动虚拟人物执行至少一种承接响应行为时，决策及驱动模块还用于：根据用户当前输入的语音数据，识别语言数据对应的用户意图信息，并确定用户意图信息对应的情感极性；根据用户意图信息对应的情感极性和承接策略，确定承接响应行为使用的特定语气和特定情绪；根据目标分类对应的承接策略和承接响应行为使用的特定语气和特定情绪，确定对应的驱动数据，驱动数据用于驱动虚拟人物执行如下至少一种承接响应行为：播报具有特定语气的承接话术、做出具有特定情绪的表情、做出规定动作。

一种可选地实施例中，目标分类对应的承接触发条件包括：至少连续N帧图像中用户的表情均属于目标分类，其中N为正整数，N为目标分类对应的预设值。

一种可选地实施例中，实时数据获取模块还用于：在虚拟人物与用户的一轮对话中，实时获取用户输入的语音数据。

决策及驱动模块还用于：当检测到用户输入的语音数据的静默时长大于或等于第二预设时长时，若确定语音输入未结束，则将语音数据转换为对应的文本信息；识别文本信息对应的用户意图信息，并确定用户意图信息对应的情感极性；根据用户意图信息对应的情感极性，确定对应的驱动数据；根据驱动数据和虚拟人物的三维形象渲染模型，驱动虚拟人物执行如下至少一种承接响应行为：播报针对用户意图信息对应的情感极性配置的规定语气的承接话术、做出具有特定情绪的表情、做出规定动作。

一种可选地实施例中，在将用户的人脸图像分别输入用于人脸表情识别的基模型和多模态对齐模型，通过基模型确定第一表情分类结果，并通过多模态对齐模型确定第二表情分类结果之前，实时表情识别模块还用于：获取训练好的用于人脸表情识别的基模型和多模态对齐模型；对基模型和多模态对齐模型进行模型蒸馏。

本申请实施例提供的装置可以具体用于执行上述任一方法实施例所提供的方案，具体功能和所能实现的技术效果此处不再赘述。

图8为本申请一示例实施例提供的电子设备的结构示意图。如图8所示，该电子设备 80包括：处理器801，以及与处理器801通信连接的存储器802，存储器802存储计算机执行指令。

其中，处理器执行存储器存储的计算机执行指令，以实现上述任一方法实施例所提供的方案，具体功能和所能实现的技术效果此处不再赘述。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现上述任一方法实施例所提供的方案，具体功能和所能实现的技术效果此处不再赘述。

本申请实施例还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一方法实施例所提供的方案，具体功能和所能实现的技术效果此处不再赘述。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。“多个”的含义是两个以上，除非另有明确具体的限定。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

一种基于表情识别的虚拟人物驱动方法，其特征在于，包括：

获取虚拟人物的三维形象渲染模型，以利用虚拟人物向用户提供交互服务；

在虚拟人物与用户的一轮对话中，实时获取所述用户的人脸图像；

将所述用户的人脸图像分别输入用于人脸表情识别的基模型和多模态对齐模型，通过所述基模型确定第一表情分类结果，并通过所述多模态对齐模型确定第二表情分类结果；

根据所述第一表情分类结果和所述第二表情分类结果，确定所述用户当前表情的目标分类；

若确定所述目标分类属于预设表情分类，并且当前满足所述目标分类的响应触发条件，则根据所述目标分类对应的响应策略，确定对应的驱动数据；

根据所述驱动数据和虚拟人物的三维形象渲染模型，驱动虚拟人物执行对应的响应行为。
根据权利要求1所述的方法，其特征在于，所述第一表情分类结果包括：所述用户当前表情属于每一表情分类的第一置信度，所述第二表情分类结果包括所述用户当前表情属于每一表情分类的第二置信度，

所述根据所述第一表情分类结果和所述第二表情分类结果，确定所述用户当前表情的目标分类，包括：

根据所述用户当前表情属于每一表情分类的第一置信度和第二置信度，确定所述用户当前表情的目标分类，以及所述用户当前表情属于所述目标分类的置信度。
根据权利要求1所述的方法，其特征在于，所述若确定所述目标分类属于预设表情分类，并且当前满足所述目标分类的响应触发条件，则根据所述目标分类对应的响应策略，确定对应的驱动数据，包括：

若当前的对话状态为虚拟人物输出用户接收的状态，并且所述目标分类属于第一预设表情分类，则根据所述用户当前表情属于所述目标分类的置信度和当前的上下文信息，确定当前是否满足所述目标分类对应的打断触发条件，所述第一预设表情分类具有对应的打断策略；

若确定当前满足所述目标分类对应的打断触发条件，则打断所述虚拟人物的当前输出，并根据所述目标分类对应的打断策略，确定对应的驱动数据，所述驱动数据用于驱动所述虚拟人物执行如下至少一种打断响应行为：播报针对对应表情分类的话术、做出具有规定情绪的表情、做出规定动作。
根据权利要求3所述的方法，其特征在于，所述目标分类对应的打断触发条件，包括以下至少一项：

所述用户当前表情属于所述目标分类的置信度大于或等于所述目标分类对应的置信度阈值；

当前对话轮次与前一次触发打断的对话轮次之间的间隔的轮次数量大于或等于预设轮次数量。
根据权利要求3所述的方法，其特征在于，所述根据所述驱动数据和虚拟人物的三维形象渲染模型，驱动虚拟人物执行对应的响应行为之后，还包括：

若在第一预设时长内接收到用户的语音输入，并识别出所述用户的语音输入的语义信息，则开启下一轮对话，根据所述用户的语音输入的语义信息进行对话处理；

若在第一预设时长内未接收到所述用户的语音输入，或者无法识别出所述用户的语音输入的语义信息，则继续被打断的所述虚拟人物的当前输出。
根据权利要求1所述的方法，其特征在于，所述若确定所述目标分类属于预设表情分类，并且当前满足所述目标分类的响应触发条件，则根据所述目标分类对应的响应策略，确定对应的驱动数据，包括：

若当前的对话状态为用户输入虚拟人物接收的状态，并且所述目标分类属于第二预设表情分类，则根据所述目标分类，判断当前是否满足所述目标分类对应的承接触发条件，所述第二预设表情分类具有对应的承接策略；

若确定当前满足所述目标分类对应的承接触发条件，则根据所述目标分类对应的承接策略，确定对应的驱动数据，所述驱动数据用于驱动所述虚拟人物执行如下至少一种承接响应行为：播报具有特定语气的承接话术、做出具有特定情绪的表情、做出规定动作；

其中，所述播报具有特定语气的承接话术不影响所述用户的语音输入。
根据权利要求6所述的方法，其特征在于，根据所述目标分类对应的承接策略，确定对应的驱动数据，所述驱动数据用于驱动所述虚拟人物执行至少一种所述承接响应行为，包括：

根据用户当前输入的语音数据，识别所述语言数据对应的用户意图信息，并确定所述用户意图信息对应的情感极性；

根据所述用户意图信息对应的情感极性和所述承接策略，确定承接响应行为使用的特定语气和特定情绪；

根据所述目标分类对应的承接策略和承接响应行为使用的特定语气和特定情绪，确定对应的驱动数据，所述驱动数据用于驱动所述虚拟人物执行如下至少一种承接响应行为：播报具有特定语气的承接话术、做出具有特定情绪的表情、做出规定动作。
根据权利要求6所述的方法，其特征在于，所述目标分类对应的承接触发条件，包括：

至少连续N帧图像中所述用户的表情均属于所述目标分类，其中N为正整数，N为所述目标分类对应的预设值。
根据权利要求1-8中任一项所述的方法，其特征在于，所述方法还包括：

在虚拟人物与用户的一轮对话中，实时获取所述用户输入的语音数据；

当检测到所述用户输入的语音数据的静默时长大于或等于第二预设时长时，若确定所述语音输入未结束，则将所述语音数据转换为对应的文本信息；

识别所述文本信息对应的用户意图信息，并确定所述用户意图信息对应的情感极性；

根据所述用户意图信息对应的情感极性，确定对应的驱动数据；

根据所述驱动数据和虚拟人物的三维形象渲染模型，驱动虚拟人物执行如下至少一种承接响应行为：播报针对所述用户意图信息对应的情感极性配置的规定语气的承接话术、做出具有特定情绪的表情、做出规定动作；

其中，所述播报针对所述用户意图信息对应的情感极性配置的规定语气的承接话术不影响所述用户的语音输入。
根据权利要求1-8中任一项所述的方法，其特征在于，所述将所述用户的人脸图像分别输入用于人脸表情识别的基模型和多模态对齐模型，通过所述基模型确定第一表情分类结果，并通过所述多模态对齐模型确定第二表情分类结果之前，还包括：

获取训练好的用于人脸表情识别的基模型和多模态对齐模型；

对所述基模型和所述多模态对齐模型进行模型蒸馏。
一种基于表情识别的虚拟人物驱动装置，其特征在于，包括：

渲染模型获取模块，用于获取虚拟人物的三维形象渲染模型，以利用虚拟人物向用户提供交互服务；

实时数据获取模块，用于在虚拟人物与用户的一轮对话中，实时获取所述用户的人脸图像；

实时表情识别模块，用于将所述用户的人脸图像分别输入用于人脸表情识别的基模型和多模态对齐模型，通过所述基模型确定第一表情分类结果，并通过所述多模态对齐模型确定第二表情分类结果；根据所述第一表情分类结果和所述第二表情分类结果，确定所述用户当前表情的目标分类；

决策驱动模块，用于若确定所述目标分类属于预设表情分类，并且当前满足所述目标分类的响应触发条件，则根据所述目标分类对应的响应策略，确定对应的驱动数据；根据所述驱动数据和虚拟人物的三维形象渲染模型，驱动虚拟人物执行对应的响应行为。
一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1-10中任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-10中任一项所述的方法。