WO2023142651A1

WO2023142651A1 - 动作生成方法及相关装置、电子设备、存储介质和程序

Info

Publication number: WO2023142651A1
Application number: PCT/CN2022/135160
Authority: WO
Inventors: 宋子扬; 王栋梁
Original assignee: 上海商汤智能科技有限公司
Priority date: 2022-01-25
Filing date: 2022-11-29
Publication date: 2023-08-03
Also published as: CN114494543A

Abstract

本申请实施例公开了一种动作生成方法及相关装置、电子设备、存储介质和计算机程序，其中，动作生成方法包括：获取分别表征若干个体在若干动作帧的第一特征表示，并获取分别表征若干个体关于目标动作类别的第二特征表示；基于第一特征表示和第二特征表示进行关系建模，得到各动作帧中各个体的融合特征表示；其中，关系建模的类型与若干个体的第一总数相关；基于融合特征表示进行动作映射，得到若干个体关于目标动作类别的动作序列；其中，动作序列包括若干动作帧，且动作帧包含各个体的动作表示。

Description

动作生成方法及相关装置、电子设备、存储介质和程序

相关申请的交叉引用

本申请基于申请号为202210089863.5、申请日为2022年01月25日，名称为“动作生成方法及相关装置、电子设备和存储介质”的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本申请涉及计算机视觉技术领域，涉及但不限于一种动作生成方法及相关装置、电子设备、存储介质和程序。

背景技术

动作生成是诸如动画创作、仿人机器人交互等众多计算机视觉任务的关键所在。目前，现有的动作生成方式主要包括两种，一种是基于计算机图形学的建模-渲染方式，需要依赖于设计师投入大量时间和精力进行建模、蒙皮和动作捕捉等工作，效率较低；另一种是基于机器学习特别是深度学习的方式。得益于近年来机器学习技术的快速发展，利用深度神经网络执行动作生成任务，能够大大提升动作生成的效率。

发明内容

本申请实施例提供一种动作生成方法及相关装置、电子设备、存储介质和程序。

本申请实施例提供了一种动作生成方法，应用于电子设备中，该方法包括：获取分别表征若干个体在若干动作帧的第一特征表示，并获取分别表征若干个体关于目标动作类别的第二特征表示；基于第一特征表示和第二特征表示进行关系建模，得到各动作帧中各个体的融合特征表示；其中，关系建模的类型与若干个体的第一总数相关；基于融合特征表示进行动作映射，得到若干个体关于目标动作类别的动作序列；其中，动作序列包括若干动作帧，且动作帧包含各个体的动作表示。因此，获取分别表征若干个体在若干动作帧的第一特征表示，并获取分别表征若干个体关于目标动作类别的第二特征表示，在此基础上，基于第一特征表示和第二特征表示进行关系建模，得到各动作帧中各个体的融合特征表示，且关系建模的类型与若干个体的第一总数相关，再基于融合特征表示进行动作映射，即可得到若干个体关于目标动作类别的动作序列，且动作序列包括若干动作帧，动作帧包括各个体的动作表示，故一方面无需依赖于人工即可自动生成动作，另一方面通过根据若干个体的第一总数来针对性地进行关系建模，能够兼容单个个体和多个个体两种应用场景。故此，能够在提升动作生成效率的前提下，兼容单个个体和多个个体两种应用场景。

在一些实施例中，所述关系建模的类型与所述若干个体的第一总数相关，包括以下至少一项：在若干个体的第一总数为单个的情况下，关系建模包括建模各动作帧之间的时序关系；在若干个体的第一总数为多个的情况下，关系建模包括建模各动作帧中若干个体之间的交互关系和建模各动作帧之间的时序关系。因此，在若干个体的第一总数为单个的情况下，关系建模包括建模各动作帧之间的时序关系，故能够通过建模时序关系提升动作帧之间的时序连贯性，有利于提升动作序列的真实性，而在若干个体的第一总数为多个的情况下，关系建模包括建模各动作帧中若干个体之间的交互关系和建模各动作帧之间的时序关系，故能够通过建模交互关系提升个体之间的交互合理性，以及能够通过建模时序关系提升动作帧之间的时序连贯性，有利于提升动作序列的真实性。

在一些实施例中，在关系建模包括建模时序关系的情况下，基于第一特征表示和第二特征表示进行关系建模，得到各动作帧中各个体的融合特征表示，包括：选择个体作为目标个体，并将目标个体对应的第一特征表示和第二特征表示，作为目标个体在不同时序的时序特征表示；分别选择各个时序作为第一当前时序，并选择第一当前时序的时序特征表示作为第一当前时序表示；基于各个第一参考时序表示分别与第一当前时序表示的相关度，得到第一当前时序表示对应的融合特征表示；其中，第一参考时序表示包括目标个体在各时序的时序特征表示。

在一些实施例中，在关系建模包括建模交互关系的情况下，基于第一特征表示和第二特征表示进行关系建模，得到各动作帧中各个体的融合特征表示，包括：选择个体作为目标个体，并将目标个体对应的第一特征表示和第二特征表示，作为目标个体在不同时序的时序特征表示；分别选择各个时序作为第二当前时序，并选择第二当前时序的时序特征表示作为第二当前时序表示；基于各个第二参考时序表示分别与第二当前时序表示的相关度，得到第二当前时序表示对应的融合特征表示；其中，第二参考时序表示包括各个体分别在第二当前时序的时序特征表示。因此，选择个体作为目标个体，并将目标个体对应的第一特征表示和第二特征表示，作为目标个体在不同时序的时序特征表示，基于此将不同时序的时序特征表示，分别作为当前时序表示，再基于各参考时序表示分别与当前时序表示的相关度，得到当前时序表示对应的融合特征表示，且在建模时序关系的情况下，参考时序表示包括目标个体在各时序的时序特征表示，在建模交互关系的情况下，参考时序表示包括各个体分别在参考时序的时序特征表示，而参考时序为当前时序表示对应的时序，故能够通过相似的建模流程来建模时序关系和交互关系，故能进一步提升单个个体和多个个体两种应用场景的兼容性。

在一些实施例中，在关系建模包括建模交互关系和时序关系的情况下，基于第一特征表示和第二特征表示进行关系建模，得到各动作帧中各个体的融合特征表示，包括：基于第一特征表示和第二特征表示建模在先关系，得到在先关系的输出特征表示，基于输出特征表示建模在后关系，得到融合特征表示；其中，在先关系为交互关系，在后关系为时序关系，或者，在先关系为时序关系，在后关系为交互关系。因此，在关系建模包括建模交互关系和时序关系的情况下，将在先建模的交互关系的输出特征表示为在后建模的时序关系的输入特征表示，故在多个个体的应用场景下，通过先后建模交互关系和时序关系，使得各融合特征表示分别融入交互关系和时序关系，有利于提升交互关系和时序关系的融合效果。

在一些实施例中，动作序列由动作生成模型得到，动作生成模型包括关系建模网络，且关系建模网络包括时序建模子网络和交互建模子网络，时序建模子网络用于建模时序关系，交互建模子网络用于建模交互关系。因此，动作序列由动作生成模型得到，作生成模型包括关系建模网络，且关系建模网络包括时序建模子网络和交互建模子网络，时序建模子网络用于建模时序关系，交互建模子网络用于建模交互关系，故能够通过网络模型完成动作生成任务，有利于进一步提升动作生成效率。

在一些实施例中，第一特征表示基于高斯过程的采样得到。因此，基于高斯过程采样得到第一特征表示，有利于大大降低第一特征表示的获取复杂度，而且还能够提升在类别丰富的动作数据上的生成质量。

在一些实施例中，获取分别表征若干个体在若干动作帧的第一特征表示，包括：在若干高斯过程中，分别采样第二总数次，得到分别表征第二总数个动作帧的第一原始表示；其中，第一原始表示的长度与高斯过程的个数相同，各高斯过程的特征长度尺度各不相同；基于第一总数和第一原始表示，得到第三总数个第一特征表示；其中，第三总数为第一总数和第二总数的乘积。因此，在若干高斯过程中，分别采样第二总数次，得到分别表征第二总数个动作帧的第一原始表示，且第一原始表示的长度与高斯过程的个数相同，各高斯过程的特征长度尺度各不相同，基于此再基于第一总数和第一原始表示，得到第三总数个第一特征表示，且第三总数为第一总数和第二总数的乘积，由于各高斯过程的特征长度尺度各不相同，且每次对高斯过程采样均能够得到各个动作帧的特征信息，故能够提升各个第一特征表示的准确性。

在一些实施例中，第二特征表示基于目标动作类别映射得到。因此，基于对目标动作类别进行映射得到第二特征表示，故仅需对文本信息进行映射等简单处理即可得到第二特征表示，有利于大大降低驱动动作生成的复杂度。

在一些实施例中，获取分别表征若干个体关于目标动作类别的第二特征表示，包括：对目标动作类别进行嵌入表示，得到第二原始表示；基于第一总数和第二原始表示，得到第一总数个第二特征表示。因此，对目标动作类别进行嵌入表示，得到第二原始表示，并基于第一总数和第二原始表示，得到第一总数个第二特征表示，即通过对文本信息进行嵌入表示并结合第一总数进行相关处理，即可得到第一总数个第二特征表示，有利于大大降低获取第二特征表示的复杂度。

在一些实施例中，第一特征表示和第二特征表示均融合有位置编码；其中，在若干个体为单个个体的情况下，位置编码包括时序位置编码，在若干个体为多个个体的情况下，位置编码包括个体位置编码和时序位置编码。因此，第一特征表示和第二特征表示均融合位置编码，在若干个体为单个个体的情况下，位置编码包括时序位置编码，在若干个体为多个个体的情况下，位置编码包括个体位置编码和时序位置编码，故能够在单个个体和多个个体两种应用场景下，采用不同的位置编码策略来区分不同特征表示，使得特征表示的位置编码各不相同，有利于提升特征表示的准确性。

在一些实施例中，动作序列由动作生成模型得到，且位置编码在动作生成模型的训练过程中，与动作生成模型的网络参数一同调整，直至动作生成模型训练收敛为止。因此，动作序列由动作生成模型得到，且位置编码在动作生成模型的训练过程中，与动作生成模型的网络参数一同调整，直至动作生成模型训练收敛为止，由于位置编码随网络模型一同训练，故能够提升位置编码的表示能力，而在训练收敛之后位置编码不再调整，即维持固定，从而能够加入强大的先验约束，从而能够在先验约束和表示能力两者之间达到平衡，进而能够进一步提升特征表示的准确性，有利于提升动作序列的生成效果。

在一些实施例中，动作帧中个体的动作表示包括：在动作帧中，个体的关键点的第一位置信息和个体的姿态信息，且姿态信息包括个体的若干关节点的第二位置信息。因此，动作帧中个体的动作表示包括：在动作帧中个体的关键点的第一位置信息和个体的位姿信息，且位姿信息包括个体的若干关节点的第二位置信息，故能够通过关键点和关节点两者的位置信息来表达个体动作，有利于提升动作表示的准确性。

在一些实施例中，动作序列由动作生成模型得到，且动作生成模型与鉴别模型通过生成对抗训练得到。因此，通过生成对抗训练来协同训练动作生成模型和鉴别模型，能够使动作生成模型和鉴别模型在协同训练过程中相互促进，彼此相辅相成，最终有利于提升动作生成模型的模型性能。

在一些实施例中，生成对抗训练的步骤包括：获取若干样本个体关于样本动作类别的样本动作序列；其中，样本动作序列包括预设数值个样本动作帧，且样本动作序列标注有样本标记，样本标记表示样本动作序列实际是否动作生成模型生成得到；分别对样本动作序列中各个样本动作帧进行分解，得到样本图数据；其中，样本图数据包括预设数值张节点图，节点图由节点连接形成，节点包括关键点和关节点，节点图包括各个节点的节点特征表示，且节点的位置特征表示由若干样本个体分别在对应节点处的位置特征表示拼接得到；基于鉴别模型对样本图数据和样本动作类别进行鉴别，得到预测结果；其中，预测结果包括样本动作序列的第一预测标记，第一预测标记表示样本动作序列经预测由动作生成模型生成的可能性，第二预测标记表示样本动作序列属于样本动作类别的可能性；基于样本标记、第一预测标记和第二预测标记，调整动作生成模型、鉴别模型中任一者的网络参数。因此，通过将样本动作表示分解为样本图数据，能够将动作序列的鉴别巧妙地化解为图数据的鉴别，有利于大大降低训练复杂度以及鉴别模型的构建难度。

在一些实施例中，在样本动作序列为从真实场景采集得到的情况下，节点的位置特征表示按照若干样本个体的随机顺序，由若干样本个体分别在对应节点处的位置特征表示拼接得到。因此，节点的位置特征表示按照若干样本个体的随机顺序，由若干样本个体分别在对应节点处的位置特征表示拼接得到，从而在训练过程中使动作生成模型将不同排序而实际属于同一样本动作序列的情况视为不同样本，并对其进行建模，从而能够实现数据增强，进而有利于提升模型鲁棒性。

本申请实施例还提供了一种动作生成装置，包括：特征获取部分、关系建模部分和动作映射部分，特征获取部分，配置为获取分别表征若干个体在若干动作帧的第一特征表示，并获取分别表征若干个体关于目标动作类别的第二特征表示；关系建模部分，配置为基于第一特征表示和第二特征表示进行关系建模，得到各动作帧中各个体的融合特征表示；其中，关系建模的类型与若干个体的第一总数相关；动作映射部分，配置为基于融合特征表示进行动作映射，得到若干个体关于目标动作类别的动作序列；其中，动作序列包括若干动作帧，且动作帧包含各个体的动作表示。本申请实施例还提供了一种电子设备，包括相互耦接的存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述任意一种动作生成方法。

本申请实施例还提供了一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述任意一种动作生成方法。

本申请实施例还提供了一种计算机程序，包括计算机可读代码，当计算机可读代码在电子设备中运行时，电子设备中的处理器执行用于实现上述任意一种动作生成方法。

上述方案，获取分别表征若干个体在若干动作帧的第一特征表示，并获取分别表征若干个体关于目标动作类别的第二特征表示，在此基础上，基于第一特征表示和第二特征表示进行关系建模，得到各动作帧中各个体的融合特征表示，且关系建模的类型与若干个体的第一总数相关，再基于融合特征表示进行动作映射，即可得到若干个体关于目标动作类别的动作序列，且动作序列包括若干动作帧，动作帧包括各个体的动作表示，故一方面无需依赖于人工即可自动生成动作，另一方面通过根据若干个体的第一总数来针对性地进行关系建模，能够兼容单个个体和多个个体两种应用场景。故此，能够在提升动作生成效率的前提下，兼容单个个体和多个个体两种应用场景。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。

图1是本申请实施例提供的一种动作生成方法的流程示意图；

图2是本申请实施例提供的一种动作生成方法的过程示意图；

图3a是本申请实施例提供的第一种动作序列的示意图；

图3b是本申请实施例提供的第二种动作序列的示意图；

图3c是本申请实施例提供的第三种动作序列的示意图；

图3d是本申请实施例提供的第四种动作序列的示意图；

图3e是本申请实施例提供的第五种动作序列的示意图；

图3f是本申请实施例提供的第六种动作序列的示意图；

图4是本申请实施例提供的一种动作生成模型的训练方法的流程示意图；

图5是本申请实施例提供的一种样本动作帧的获取示意图；

图6是本申请实施例提供的一种样本图数据的示意图；

图7是本申请实施例提供的一种动作生成装置的框架示意图；

图8是本申请实施例提供的一种电子设备的框架示意图；

图9是本申请实施例提供的一种计算机可读存储介质的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

本申请实施例中，动作生成方法的执行主体可以是电子设备，例如，电子设备可以是终端设备、服务器或其它处理设备，其中，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些实施例中，该动作生成方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

请参阅图1，图1是本申请实施例提供的一种动作生成方法的流程示意图，可以包括如下步骤：

步骤S11：获取分别表征若干个体在若干动作帧的第一特征表示，并获取分别表征若干个体关于目标动作类别的第二特征表示。

在一个实施场景中，若干个体的第一总数以及目标动作类别可以在正式实施动作生成之前，由用户指定。示例性地，用户可以指定目标动作类别为“拥抱”，并指定若干个体的第一总数为两个；或者，用户可以指定目标动作类别为“跳舞”，并指定若干个体的第一总数为一个；或者，用户可以指定目标动作类别为“打架”，并指定若干个体的第一总数为三个。需要说明的是，以上示例仅仅是实际应用过程中几种可能的实施方式，并不因此而限定实际应用过程中的目标动作类别和若干个体的第一总数。

在另一个实施场景中，目标动作类别可以在正式实施动作生成之前由用户指定，而若干个体的第一总数可以基于目标动作类别自动分析得到。示例性地，用户可以指定目标动作类别为“击掌”，则基于该目标动作类别，可以自动分析得到若干个体的第一总数为两个；或者，用户可以指定目标动作类别为“交换物品”，则基于该目标动作类别可以自动分析得到若干个体的第一总数为两个；或者，用户可以指定目标动作类别为“搬运物品”，则基于该目标动作类别可以自动分析得到若干个体的第一总数为一个。需要说明的是，以上示例仅仅是实际应用过程中几种可能的实施方式，并不因此而限定实际应用过程中的目标动作类别和若干个体的第一总数。

在又一个实施场景中，目标动作类别可以在正式实施动作生成之前由用户指定，而若干个体的第一总数可以基于目标动作类别自动分析得到，且可以接受用户对自动分析得到的第一总数的修改指令，来更正自动分析得到的第一总数。示例性地，用户可以指定目标动作类别为“打架”，则基于该目标动作类别可以自动分析得到若干个体的第一总数为两个，并接受用户对自动分析得到的第一总数的修改指令，将其更正为四个；或者，用户可以指定目标动作类别为“散步”，则该基于目标动作类别可以自动分析得到若干个体的第一总数为一个，并接受用户对自动分析得到的第一总数的修改指令，将其更正为两个。需要说明的是，以上示例仅仅是实际应用过程中几种可能的实施方式，并不因此而限定实际应用过程中的目标动作类别和若干个体的第一总数。

需要说明的是，上述若干个体可以均为人。当然，也不排除若干个体同时包括人和动物。示例性地，可以指定目标动作类别为“遛狗”，则若干个体可以包括人和狗。

在一个实施场景中，若干动作帧的第二总数可以预先指定，示例性地，第二总数可以为10、15、20、30等等，在此不做限定。

在一个实施场景中，可以获取每个个体在每个动作帧的第一特征表示。例如，对于若干个体的第一总数为一个的情况而言(即对于单个个体的动作生成场景而言)，可以获取该单个个体分别在各个动作帧的第一特征表示；或者，对于若干个体的第一总数为两个的情况而言(即对于两个个体的动作生成场景而言)，可以获取每个个体分别在各个动作帧的第一特征表示，为了便于描述，可以将这两个个体分别称为“甲”和“乙”，则可以获取“甲”分别在各个动作帧的第一特征表示，并获取“乙”分别在各个动作帧的第一特征表示。其他情况可以以此类推，在此不再一一举例。

在一个实施场景中，需要说明的是，动作帧包含于本申请动作生成方法实施例最终期望生成的动作序列中，即在获取第一特征表示时，动作帧实际上并未生成，第一特征表示可以视为每个个体分别在各个动作帧中初始化的特征表示。例如，可以基于高斯过程采样得到第一特征表示。需要说明的是，高斯过程是概率论和数理统计中随机过程的一种，是一系列服从正态分布的随机变量在一指数集内的组合，高斯过程的具体含义，可以参阅高斯过程的技术细节。

在一个实施场景中，可以在若干高斯过程中，分别采样第二总数次，得到分别表征第二总数个动作帧的第一原始表示，且第一原始表示的长度与高斯过程的个数相同，各高斯过程的特征长度尺度各不相同。在此基础上，再基于第一总数和第一原始表示，得到第三总数个第一特征表示，且第三总数为第一总数和第二总数的乘积。示例性地，为了便于描述，可以将若干动作帧的第二总数记为T，若干高斯过程的特征长度尺度σ _c可以分别取值1、10、100、1000，则在特征长度尺度σ _c为1的高斯过程采样T次，得到一个长度为T的一维向量，以此类推，在特征长度尺度σ _c为10、100、1000的高斯过程上均可以采样得到长度为T的一维向量，将上述4个高斯过程分别采样得到的长度为T的一维特征向量上相同位置元素进行组合，即可得到T个长度为4的第一原始表示，且这T个第一原始表示分别与T个动作帧一一对应，即第一个第一原始表示对应于第一个动作帧，第二个第一原始表示对应于第二个动作帧，……，第T个第一原始表示对应于第T个动作帧。此外，请结合参阅图2，图2是本申请实施例提供的一种动作生成方法的过程示意图。如图2所示，为了便于描述，可以将上述采样得到的第一原始表示的长度记为C ₀，故上述分别表征若干动作帧的第一原始表示可以记为(T,C ₀)。在此基础上，可以对上述第一原始表示(T,C ₀)进行输入映射(如，可以采样多层感知机对第一原始表示进行映射)，以改变原第一原始表示(T,C ₀)的维度。此外，映射之后的第一原始表示的个数仍为T个。上述方式，由于各高斯过程的特征长度尺度各不相同，且每次对高斯过程采样均能够得到各个动作帧的特征信息，故能够提升各个第一特征表示的准确性。

在一个实施场景中，在得到分别表征第二总数个动作帧的第一原始表示之后，可以基于第一总数等于一还是大于一，确定是否对表征各个动作帧的第一原始表示进行复制，以此来得到各个动作帧中若干个体的第一原始表示。例如，在第一总数等于一的情况下，可以确定动作生成为单个个体的场景，则可以直接将前述采样得到的表征各个动作帧的第一原始表示，作为各个动作帧中该单个个体的第一原始表示；或者，在第一总数大于一的情况下，可以确定动作生成为多个个体的场景，则可以将前述采样得到的表征各个动作的第一原始表示分别复制第一总数次，得到各个动作帧中多个个体的第一原始表示，如在第一总数为2的情况下，可以将表征第1个动作帧的第一原始表示复制为两个第一原始表示，这两个第一原始表示分别表示在第1个动作帧中这两个个体的第一原始表示，其他情况可以以此类推，在此不再一一举例。

在一个实施场景中，请继续结合参阅图2，为了在单个个体以及多个个体的情况下区分不同第一原始表示，可以在第一原始表示的基础上编码各个第一原始表示的位置信息，得到对应的第一特征表示，也就是说，第一特征表示融合有位置编码，且各个位置编码各不相同。例如，在若干个体为单个个体的情况下，位置编码包括时序位置编码，也就是说，在若干个体为单个个体的情况下，主要通过对不同时序的动作帧进行编码来区分不同第一原始表示，从而得到第一特征表示。示例性地，仍以T个动作帧为例，在单个个体的情况下，可以分别对这T个动作帧的第一原始表示融入时序位置编码(如，1、2、……、T)，从而得到分别表征单个个体在这T个动作帧的第一特征表示。类似地，在若干个体为多个个体的情况下，位置编码可以包括时序位置编码和个体位置编码，也就是说，在若干个体为多个个体的情况下，不仅要对不同时序的动作帧进行编码，还要对每个动作帧中多个个体进行编码，以此来区分不同第一原始表示，从而得到第一特征表示(如图2位置编码后的虚线框所示)。示例性地，仍以T个动作帧为例，在多个个体的情况下，可以对第1动作帧的第一原始表示融入时序位置编码(如，1)，并进一步对第1个动作帧多个个体融入个体位置编码(如，1、2、……)，从而组合时序位置编码和个体位置编码作为位置编码，使得表征多个个体在第1个动作帧的第一特征表示分别融合有不同位置编码(如，1-1、1-2、……)；类似地，可以对第2个动作帧的第一原始表示融入时序位置编码(如，2)，并进一步对第1个动作帧多个个体融入个体位置编码(如，1、2、……)，从而组合时序位置编码和个体位置编码作为位置编码，使得表征多个个体在第2个动作帧的第一特征表示分别融合有不同位置编码(如，2-1、2-2、……)，其他动作帧可以以此类推，在此不再一一举例。此外，上述位置编码仅仅作为示例，在实际应用过程中，可以预先训练一个动作生成模型，且位置编码可以在动作生成模型的训练过程中，与动作生成模型的网络参数一同调整，直至动作生成模型训练收敛为止，自此之后，在后续应用过程中，即可使用调整好的位置编码。上述方式，能够在单个个体和多个个体两种应用场景下，采用不同的位置编码策略来区分不同特征表示，使得特征表示的位置编码各不相同，有利于提升特征表示的准确性。

在一个实施场景中，与第一特征表示类似地，对于第二特征表示而言，可以获取每个个体关于目标动作类别的第二特征表示。例如，对于若干个体的第一总数为一个的情况而言(即对于单个个体的动作生成场景而言)，可以获取该单个个体关于目标动作类别的第二特征表示；或者，对于若干个体的第一总数为两个的情况而言(即对于两个个体的动作生成场景而言)，可以获取每个个体分别关于目标动作类别的的第二特征表示，为了便于描述，可以将这两个个体分别称为“甲”和“乙”，则可以获取“甲”关于目标动作类别的第二特征表示，并获取“乙”关于目标动作类别的第二特征表示。其他情况可以以此类推，在此不再一一举例。

在一个实施场景中，如前所述，目标动作类别可以由用户指定，则在确定目标动作类别之后，可以基于该目标动作类别进行映射得到第二特征表示。

在一个实施场景中，可以对目标动作类别进行嵌入表示，得到第二原始表示，在此基础上，再基于第一总数和第二原始表示，得到第一总数个第二特征表示。需要说明的是，上述嵌入表示的作用是将目标动作类别转换为向量。示例性地，可以预先设置不同动作类别的类别向量，如不同动作类别总计有26个的情况下，可以预先设置26个动作类别的类别向量(如，每个类别向量的长度可以为200)，则在确定目标动作类别之后，可以其中与目标动作类别一致的动作类别的类别向量，作为该目标动作类别的第二原始表示；或者，也可以先将目标动作类别进行独热(one-hot)编码，再利用全连接层进行线性变换，得到该目标动作类别的第二原始表示，如不同动作类别总计有26个的情况下，可以先将目标动作类别进行独热(one-hot)编码为26维向量，而上述全连接层的线性变换可以视为N(如，200)*26的变换矩阵，再将该矩阵与26维的独热编码相乘即可得到该目标动作类别的第二原始表示。

在一个实施场景中，与获取第一特征表示类似地，在得到表征目标动作类别的第二原始表示之后，也可以基于第一总数等于一还是大于一，确定是否对该第一原始表示进行复制，以此来得到若干个体分别关于目标动作类别的第二原始表示。例如，在第一总数等于一的情况下，可以确定动作生成为单个个体的场景，则可以直接将前述采样得到的表征目标动作类别的第二原始表示，作为该单个个体关于该目标动作类别的第二原始表示；或者，在第一总数大于一的情况下，可以确定动作生成为多个个体的场景，则可以将前述表征目标动作类别的第二原始表示复制第一总数次，得到多个个体分别关于目标动作类别的第二原始表示，如在第一总数为2的情况下，可以将表征目标动作类别的第二原始表示复制为两个第二原始表示，这两个第二原始表示分别表示这两个个体关于目标动作类别的第二原始表示，其他情况可以以此类推，在此不再一一举例。

在一个实施场景中，请继续结合参阅图2，与获取第一特征表示类似地，为了在单个个体以及多个个体的情况下区分不同第二原始表示，可以在第二原始表示的基础上编码各个第二原始表示的位置信息，得到对应的第二特征表示。也就是说，与第一特征表示类似地，第二特征表示也融合有位置编码，且各个位置编码各不相同。需要说明的是，不仅各个第二特征表示融合的位置编码各不相同，而且第二特征表示融合的位置编码与第一特征表示融合的位置编码也各不相同。例如，在若干个体为单个个体的情况下，位置编码包括时序位置编码，也就是说，在若干个体为单个个体的情况下，第二特征表示可以通过在时序维度与不同动作帧的第一特征表示进行区分。示例性地，仍以T个动作帧为例，在单个个体的情况下，可以分别对这T个动作帧的第一原始表示融入时序位置编码(如，1、2、……、T)，从而得到分别表征单个个体在这T个动作帧的第一特征表示，则可以对目标动作类别的第二原始表示融入时序位置编码(如，T+1)，从而得到单个个体关于该目标动作类别的第二特征表示。类似地，在若干个体为多个个体的情况下，位置编码可以包括时序位置编码和个体位置编码，也就是说，在若干个体为多个个体的情况下，需要同时在时序维度和个体维度进行区分(如图2位置编码后的虚线框所示)。示例性地，仍以T个动作帧为例，在多个个体的情况下，可以对多个个体关于目标动作类别的第二原始表示先融入时序位置编码(如，T+1)，并进一步对第1个个体关于目标动作类别的第二原始表示融入个体位置编码(如，1)，进一步对第2个个体关于目标动作类别的第二原始表示融入个体位置编码(如，2)，以此类推，从而组合时序位置编码和个体位置编码，使得表征多个个体关于目标动作类别分别融合有不同位置编码(如，T+1-1，T+1-2、……)。此外，上述位置编码仅仅作为示例，在实际应用过程中，可以预先训练一个动作生成模型，且位置编码可以在动作生成模型的训练过程中，与动作生成模型的网络参数一同调整，直至动作生成模型训练收敛为止，自此之后，在后续应用过程中，即可使用调整好的位置编码。上述方式，能够在单个个体和多个个体两种应用场景下，采用不同的位置编码策略来区分不同特征表示，使得特征表示的位置编码各不相同，有利于提升特征表示的准确性。

在一个实施场景中，如前所述，第一特征表示和第二特征表示均融合有位置编码，且在若干个体为单个个体的情况下，位置编码包括时序位置编码，在若干个体为多个个体的情况下，位置编码包括个体位置编码和时序位置编码，可以结合参阅图2以及上述描述。进一步地，为了便于区分，各位置编码可以各不相同。以T个动作帧和P个(P等于1，或者，P大于1)个体为例，经上述操作最终可以得到(T+1)*P的特征表示，其中，包含T*P个分别表征各个动作帧中各个个体的第一特征表示，以及P个分别表征各个个体关于目标动作类别的第二特征表示。

需要说明的是，对于每个个体而言，可以将该个体分别在若干动作帧的第一原始表示和关于目标动作类别的第二原始表示，作为该个体在不同时序的原始时序表示。仍以T 个动作帧而言，则对于第p个个体而言，其在T个动作帧的第一原始表示和关于目标动作类别的第二原始表示，可以视为其在第1个时序至第T+1个时序的原始时序表示。在此基础上，在单个个体的动作生成场景下，在时序t的范围为1至T的情况下，可以将第t个时序的时序位置编码TPE _t与第t个原始时序表示相加，得到第t个时序的第一特征表示，在时序t为T+1的情况下，可以将第t个时序的时序位置编码TPE _t与第t个原始时序表示相加，得到第t个时序的第二特征表示。类似地，在多个个体的动作生成场景下，可以先将第p个个体的个体位置编码TPE _t与第t个时序的时序位置编码拼接，得到第p个个体在第t个时序的位置编码PE(t,p)＝concat(TPE _t,PPE _p)，其中，concat表示拼接操作，则在时序t的范围为1至T的情况下，可以将第p个个体在第t个时序的位置编码PE(t,p)与第p个个体在第t个时序的原始时序表示相加，得到第p个个体在第t个时序的第一特征表示，而在时序t为T+1的情况下，可以将p个个体在第t个时序的位置编码PE(t,p)与第p个个体在第t个时序的原始时序表示相加，得到第p个个体在第t个时序的第二特征表示。此外，除了上述时序位置编码与个体位置编码的组合式编码之外，也可以不区分时序位置编码和个体位置编码，而采用完全独立的固定编码，即对于T个动作帧以及P个个体的动作生成场景而言，可以预先设置(T+1)×P个独立的位置编码。

步骤S12：基于第一特征表示和第二特征表示进行关系建模，得到各动作帧中各个体的融合特征表示。

本申请实施例中，关系建模的类型与若干个体的第一总数相关，例如，在若干个体的第一总数为单个的情况下，关系建模包括建模各动作帧之间的时序关系，从而通过建模时序关系提升动作帧之间的时序连贯性，有利于提升动作序列的真实性，在若干个体的第一总数为多个的情况下，关系建模包括建模各动作帧中若干个体之间的交互关系和建模各动作帧之间的时序关系，从而通过建模交互关系提升个体之间的交互合理性，以及能够通过建模时序关系提升动作帧之间的时序连贯性，有利于提升动作序列的真实性。

在一个实施场景中，在若干个体的第一总数为单个的情况下，仅需建模时序关系，在此情况下，可以直接选择该单个个体作为目标个体，并将目标个体对应的第一特征表示和第二特征表示，作为目标个体在不同时序的时序特征表示。示例性地，仍以T个动作帧为例，可以将第1个动作帧中该目标个体的第一特征表示作为第一个时序特征表示，将第2个动作帧中该目标个体的第一特征表示作为第二个时序特征表示，……，将第T个动作帧中该目标个体的第一特征表示作为第T个时序特征表示，以及将该目标个体关于目标动作类别的第二特征表示作为第T+1个时序特征表示。在此基础上，可以分别选择各个时序分别作为当前时序，并选择当前时序的时序特征表示作为当前时序特征表示，并基于各个参考时序表示分别与当前时序表示的相关度，得到当前时序表示对应的融合特征表示。也就是说，在将第i个时序特征表示作为当前时序表示的情况下，可以将目标个体在各时序(即1至T+1)的时序特征表示作为参考时序表示，并基于这些参考时序表示分别与第i个时序特征表示之间的相关度，得到第i个时序特征表示对应的融合特征表示，从而在单个个体的动作生成场景中，最终可以得到T+1个融合特征表示，这T+1个融合特征表示包括：该单个个体融合时序关系之后在分别T个动作帧的特征表示，以及该单个个体融合时序关系之后关于目标动作类别的特征表示。需要说明的是，为了便于与后续交互关系的建模步骤加以区分，在时序建模中，当前时序可以命名为第一当前时序，当前时序的时序特征表示可以命名为第一当前时序表示，参考时序表示可以命名为第一参考时序表示。

在一个实施场景中，如前所述，为了提升动作生成效率，可以预先训练一个动作生成模型，且该动作生成模型可以包括关系建模网络，关系建模网络可以进一步包括时序建模子网络。示例性地，时序建模子网络可以基于Transformer构建，为了便于描述可以将时序建模子网络所包含的Transformer称为T-Former，则对于前述T+1个时序特征表示可以先分别经过线性变换，得到每个时序特征表示对应的{查询、键、值}特征表示。以第t个时序特征表示F _t为例，经线性变换可以得到对应的{查询、键、值}特征表示q _t,k _t,v _t：

q _t＝W _qF _t,k _t＝W _kF _t,v _t＝W _vF _t……(1)

上述公式(1)中，

分别表示线性变换参数，且可以在动作生成模型的训练过程中调整。在此基础上，在选择第t个时序特征表示作为当前时序表示的情况下，可以获取第t个时序特征表示对应的查询特征表示分别与第t′(取值范围为1至T+1)个时序特征表示的键特征表示之间的相关度w _t,t′：

w _t,t′＝q _t·k _t′……(2)

在得到相关度w _t,t′之后，即可基于该相关度w _t,t′对第t′(取值范围为1至T+1)个时序特征表示的值特征表示进行加权，得到第t个时序特征表示融合时序关系之后的融合特征表示H _t：

在一个实施场景中，时序建模子网络可以由L(L大于或等于1)层Transformer堆叠形成，在此基础上，在得到第l层Transformer输出的融合特征表示

之后，可以将其作为第l+1层Transformer的输入，并重新执行前述时序建模过程，得到第l+1层Transformer输出的融合特征表示

以此类推，最终可将最后一层Transformer输出的融合特征表示

作为最终的融合特征表示。此外，在得到最终的融合特征表示

之后，由于第1至第T个最终的融合特征表示已经充分融入目标动作类别，故在后续步骤S13动作生成前，可以将与目标动作类别相关的第T+1个最终的融合特征表示

丢弃。

在一个实施场景中，在若干个体为多个个体的情况下，需建模时序关系和交互关系，且交互关系和时序关系可以先后建模，示例性地，可以先建模交互关系，再建模时序关系；或者，也可以先建模时序关系，再建模交互关系。此外，在先建模关系的输出特征表示为在后建模关系的输入特征表示。也就是说，在关系建模包括建模交互关系和时序关系的情况下，可以基于第一特征表示和第二特征表示建模在先关系，得到在先关系的输出特征表示，再基于输出特征表示建模在后关系，得到融合特征表示。需要说明的是，在先关系为交互关系，在后关系为时序关系，或者，在先关系为时序关系，在后关系为时序关系。

在一个实施场景中，如前所述，为了提升动作生成效率，可以预先训练一个动作生成模型，且该动作生成模型可以包括关系建模网络，关系建模网络可以包括时序建模子网络和交互建模子网络。示例性地，时序建模子网络和交互建模子网络可以均基于Transformer构建，为了便于描述可以将时序建模子网络所包含的Transformer称为T-Former，并将交互建模子网络所包含的Transformer称为I-Former。与前述单个个体的动作生成场景类似地，在多个个体的动作生成场景中，也可以选择其中一个个体作为目标个体。示例性地，可以选择P个个体中第p个个体作为目标个体。在此基础上，可以将目标个体对应的第一特征表示和第二特征表示，作为该目标个体分别在不同时序的时序特征表示。为了便于区分，该目标个体分别在T个动作帧的第一特征表示和关于目标动作类别的第二特征表示，分别视为在时序1至时序T+1的时序特征表示，则对于前述T+1个时序特征表示可以先分别经过线性变换，得到每个时序特征表示对应的{查询、键、值}特征表示。以第p个个体选择作为目标个体为例，其第t个时序特征表示

经线性变换可以得到对应的{查询、键、值}特征表示

则在先构建交互关系时，与前述构建时序关系类似地，在得到目标个体在不同时序的时序特征表示之后，可以选择各个时序分别作为当前时序，并选择当前时序的时序特征表示作为当前时序表示，以及基于各个参考时序表示分别与当前时序表示的相关度，得到当前时序表示对应的融合特征表示，与构建时序关系不同的是，在建模交互关系的情况下，参考时序表示包括各个体分别在当前时序的时序特征表示。需要说明的是，为了与前述时序关系的建模步骤加以区分，当前时序可以命名为第二当前时序，第二当前时序的时序特征表示可以命名为第二当前时序表示，参考时序表示可以命名第二参考时序表示。具体而言，可以将第t个时序作为参考时序，各个个体分别在参考时序的时序特征表示即为各个个体分别在参考时序的键特征表示

其中，p′的取值范围为1至P。在此情况下，相关度可以表示为：

进一步地，可以基于该相关度

对第p′(p′取值范围为1至P)个个体在第t时序的值特征表示进行加权，得到第t个时序时第p个个体的时序特征表示融合交互关系之后的融合特征表示

在一个实施场景中，在得到各个个体分别在各个时序融合交互关系之后的融合特征表示

之后，可以如前所述，将这些融合特征表示作为构建时序关系的输入特征表示，以继续构建时序关系。时序关系的构建过程可以参阅前述相关描述。

在一个实施场景中，请结合参阅图2，用于构建交互关系的I-Former和用于构建时序关系的T-Former可以合为一组Transformer，以共同构建交互关系和时序关系，则关系构建网络可以包括L组Transformer。在此基础上，对于第t个时序的动作帧中第p个个体而言，可以将第l组Transformer输出的融合特征表示

以此类推，最终可以将最后一层Transformer输出的融合特征表示

丢弃。此外，请结合参阅表1，表1是动作生成模型一实施例的结构示意表。如表1所示，动作生成模型示例性地，可以包含2组Transformer。当然，也可以设置3组Transformer、4组Transformer、或5组Transformer等等，在此不做限定。需要说明的是，输入映射层和类别嵌入层的具体含义，可以分别参阅前述第一特征表示、第二特征表示的具体获取过程。此外，表1所示的动作生成模型仅仅是实际应用过程中一种可能的实施方式，在此对动作生成模型的具体结构不做限定。例如，表1所示的各网络层的输入/输出通道数也可以根据实际应用需要进行适应性调整。

表1 动作生成模型一实施例的结构示意表

需要说明的是，由前述实施方式可知，无论是建模时序关系，还是建模交互关系，两者的建模过程趋于类似，即均可以先选择个体作为目标个体，并将目标个体对应的第一特征表示和第二特征表示，作为目标个体在不同时序的时序特征表示，再选择各个时序分别作为当前时序，以及选择当前时序的时序特征表示作为当前时序表示，再基于各个参考时序表示分别与当前时序表示的相关度，得到当前时序表示对应的融合特征表示。两者的不同之处在于，在建模时序关系的情况下，参考时序表示包括目标个体在各时序的时序特征表示，在建模交互关系的情况下，参考时序表示包括各个体分别在当前时序的时序特征表示。故此，能够通过相似的建模流程来建模时序关系和交互关系，故能进一步提升单个个体和多个个体两种应用场景的兼容性。

步骤S13：基于融合特征表示进行动作映射，得到若干个体关于目标动作类别的动作序列。

本申请实施例中，动作序列包括若干动作帧，且动作帧包含各个体的动作表示。示例性地，动作序列可以包括T个动作帧，若干个体为P个个体，则每个动作帧中包含P个个体的动作表示，故此可以生成得到时序连续的三维动作。

在一个实施场景中，如前所述，为了提升动作生成效率，可以预先训练动作生成模型，且动作生成模型可以包括动作映射网络，如表1所示，动作映射网络可以包括诸如全连接层等线性层，在此对动作映射网络的具体结构不做限定。在此基础上，可以将各个动作帧中各个个体的融合特征表示输入至动作映射网络，即可得到若干个体关于目标动作类别的动作序列。以T个动作帧以及P个个体为例，可以得到T*P个融合特征表示，则可以将上述T*P个融合特征表示输入至动作映射网络，即可得到T个动作帧，且每个动作帧包含P个个体的动作表示，从而可以将T个动作帧按时序先后顺序组合，得到动作序列。为了便于描述，动作序列可以表示为{M _t|t∈[1,…,T]}，M _t表示第t个动作帧，且每个动作帧M _t包含P个个体的动作表示，即

在一个实施场景中，动作帧中个体的动作表示可以包括：在动作帧中，个体的关键点(如，胯部)的第一位置信息和个体的姿态信息，且姿态信息可以包括个体的若干关节点(如，左肩、右肩、左肘、右肘、左膝、右膝、左脚、右脚等等)的第二位置信息。示例性地，以第t个动作帧中第p个个体为例，第一位置信息可记为

其可以关键点在局部坐标系中的绝对位置，姿态信息可以记为

其可以包括局部坐标系中各关节点的位置坐标。示例性地，动作序列中每一动作帧可以表示为大小为(P,C)的张量，即动作帧中每个个体的动作表示可以以C维向量表示。基于此，动作序列可以表示为大小为(P,T,C)的张量。上述姿态信息可以表达为Skinned Multi Person Model(SMPL)中的姿态表示，SMPL是一种广泛使用的参数化人体模型，其含义可以参阅SMPL的技术细节。

在一个实施场景中，请结合参阅图3a至图3f，图3a为在目标动作类别为“祝酒”时所生成的动作序列，图3b为目标动作类别为“照相”时所生成的动作序列，图3c为目标动作类别为“搀扶”时所生成的动作序列，图3d为目标动作类别为“突袭”时所生成的动作序列，图3e为目标动作类别为“伸展”时所生成的动作序列，图3f为目标动作类别为“跳舞”时所述生成的动作序列。

在一个实施场景中，如图3a至图3f所示，动作生成模型所生成的动作序列仅包含各个个体分别在各个动作帧的动作表示，而不包含各个个体的外形以及动作场景，故在得到动作序列之后，可以根据需要自由设计各个个体的外形(如，发型、穿着、发色等)，也可以根据需要自由设计动作场景(如，街巷、商场、公园等)。示例性地，在确定目标动作类别为“照相”且若干个体的第一总数为2个之后，可以通过前述过程生成得到如图3b所示的动作序列，在此基础上，可以设计图3b中左侧个体的外形(如，短发、衬衫、短裤、黑发等)以及右侧个体的外形(长发、连衣裙、黑发等)，并可以设计动作场景为“公园”，从而可以进一步丰富得到动画，进而一方面能够提升设计灵活性，另一方面也能够大大减轻创作工作量。

请参阅图4，图4是本申请实施例提供的一种动作生成模型的训练方法的流程示意图。如前所述，动作序列由动作生成模型得到，为了提升训练效果，动作生成模型可以与鉴别模型通过生成对抗训练得到，训练过程可以包括如下步骤：

步骤S41：获取若干样本个体关于样本动作类别的样本动作序列。

本申请实施例中，样本动作序列包括预设数值个样本动作帧，且样本动作序列标注有样本标记，样本标记表示样本动作序列实际是否动作生成模型生成得到。例如，样本动作序列可以是由动作生成模型生成得到，也可以是在真实场景采集得到。

在一个实施场景中，请结合参阅图5，图5是本申请实施例提供的一种样本动作帧的获取示意图。如图5所示，可以获取若干样本关于样本动作类别的样本拍摄图像，即可以对真实个体演示样本动作类别进行拍摄。在此基础上，可以提取样本拍摄图像中各个样本个体的样本动作表示，如每个样本个体的样本动作表示可以包括样本个体的关键点和若干关节点的位置信息。在此基础上，每张样本拍摄图像可以表示为一个样本动作帧，且每个样本动作帧中每个样本个体的样本动作表示，与前述实施例中动作表示类似地，可以以C维向量表示。

步骤S42：分别对样本动作序列中各个样本动作帧进行分解，得到样本图数据。

本申请实施例中，样本图数据包括预设数值张节点图，节点图由节点连接形成，节点包括关键点和关节点，节点图包括各个节点的节点特征表示，且节点的位置特征表示由若干样本个体分别在对应节点处的位置特征表示拼接得到。仍以每个样本个体的样本动作表示包括该样本个体的关键点和若干关节点的位置信息为例，则该样本动作表示的C维向量可以分解为K个D维向量(如前所述，该向量表示位置信息，如位置坐标等)，且C＝K×D，其中，K为样本个体的关键点和若干关节点的总数，如每个样本个体的关键点和若干关节点的总数为18个。

在一个实施场景中，请参阅图6，图6是本申请实施例提供的一种样本图数据的示意图。如图6所示，对于单个样本个体的场景而言，每张节点图仅需表示单个样本个体即可，故每张节点图由K个节点连接形成，且节点图上每个节点由该节点的D维向量表达，故每张节点图可以表示为大小为(K,D)的张量，基于此样本图数据可以表示为大小为(T,K,D)的张量。

在另一个实施场景中，与单个样本个体的场景不同的是，在多个样本个体的场景中，每张节点图需要表示多个样本个体，此时每张节点图仍然由K个节点连接形成，但节点图上每个节点由多个样本个体在该节点的D维向量拼接得到，即每张节点图可以表示为大小为(K,P·D)的张量，基于此样本图数据可以表示为大小为(T,K,P·D)的张量。此外，对于样本动作序列中多个样本个体而言，如果排序不同，有可能导致后续鉴别模型的预测结果也不同，从而给模型训练带来不确定性，为弥补这一不足，在样本动作序列为从真实场景采集得到的情况下，节点的位置特征表示按照若干样本个体的随机顺序，由若干样本个体分别在对应节点处的位置特征表示拼接得到，从而在训练过程中使动作生成模型将不同排序而实际属于同一样本动作序列的情况视为不同样本，并对其进行建模，从而能够实现数据增强，进而有利于提升模型鲁棒性。

步骤S43：基于鉴别模型对样本图数据和样本动作类别进行鉴别，得到预测结果。

在一个实施场景中，鉴别模型可以基于时空图卷积网络构建，示例性地，请参阅表2，表2是鉴别模型一实施例的结构示意表。需要说明的是，表2仅仅是实际应用过程中鉴别模型一种可能的实施方式，并不因此而限定鉴别模型的具体结构。此外，关于表2中时空卷积的具体含义，可以参阅时空卷积的相关技术细节。

表2 鉴别模型一实施例的结构示意表

本申请实施例中，预测结果包括样本动作序列的第一预测标记和第二预测标记，第一预测标记表示样本动作序列经预测由动作生成模型生成的可能性，第二预测标记表示样本动作序列属于样本动作类别的可能性。需要说明的是，第一预测标记和第二预测标记可以采用数值来表示，且数值越大，对应的可能性越高。以鉴别模型采用表2所示的网络结构为例，可以将样本图数据记为x，经各层时空图卷积层处理之后，可以得到一个512维的向量φ(x)，且样本动作类别经类别嵌入表示之后，也可以得到一个512维的向量y，两者进行内积得到φ(x)·y。进一步地，可以将向量φ(x)输入输出映射层，得到

再结合前述内积φ(x)·y，即可得到鉴别模型对输入的样本动作类别、样本动作序列给出的分值，即前述第一预测标记和第二预测标记。

步骤S44：基于样本标记、第一预测标记和第二预测标记，调整动作生成模型、鉴别模型中任一者的网络参数。

在一些实施例中，通过第一预测标记和样本标记可以度量鉴别模型的鉴别损失，而通过第二预测标记和样本标记可以度量动作生成模型的生成损失，在训练过程中，可以每训练M次鉴别模型(此时调整鉴别模型的网络参数)，就训练N次动作生成模型(此时调整动作生成模型的网络参数)，如每训练4次鉴别模型，就训练1次动作生成模型，在此不做限定。在此基础上，通过训练鉴别模型，能够提升鉴别模型对样本动作序列的鉴别能力(即区分模型生成的样本动作序列和真实采集的样本动作序列的能力)，以此可以促进动作生成模型提升生成动作序列的真实性，而通过训练动作训练模型，能够提升动作生成模型生成动作序列的真实性(即模型生成的动作序列尽可能地接近真实采集的动作序列)，从而又促使鉴别模型提升其鉴别能力，进而使得鉴别模型和动作生成模型相互促进，相辅相成，经若干轮训练之后，动作生成模型的模型性能越来越优秀，鉴别模型已经无法区分动作生成模型所生成的动作序列以及真实采集的动作序列，至此即可结束训练。需要说明的是，生成对抗训练的具体过程，可以参阅生成对抗训练的具体技术细节。此外，如前述实施例所述，在动作生成过程中，可以进行位置编码，且位置编码在动作生成模型的训练过程中，可以与动作生成模型的网络参数一同调整。

上述方案，通过生成对抗训练来协同训练动作生成模型和鉴别模型，能够使动作生成模型和鉴别模型在协同训练过程中相互促进，彼此相辅相成，最终有利于提升动作生成模型的模型性能；此外，通过将样本动作表示分解为样本图数据，能够将动作序列的鉴别巧妙地化解为图数据的鉴别，有利于大大降低训练复杂度以及鉴别模型的构建难度。

请参阅图7，图7是本申请实施例提供的一种动作生成装置70的框架示意图。动作生成装置70包括：特征获取部分71、关系建模部分72和动作映射部分73，特征获取部分71，配置为获取分别表征若干个体在若干动作帧的第一特征表示，并获取分别表征若干个体关于目标动作类别的第二特征表示；关系建模部分72，配置为基于第一特征表示和第二特征表示进行关系建模，得到各动作帧中各个体的融合特征表示；其中，关系建模的类型与若干个体的第一总数相关；动作映射部分73，配置为基于融合特征表示进行动作映射，得到若干个体关于目标动作类别的动作序列；其中，动作序列包括若干动作帧，且动作帧包含各个体的动作表示。

上述方案，一方面无需依赖于人工即可自动生成动作，另一方面通过根据若干个体的第一总数来针对性地进行关系建模，能够兼容单个个体和多个个体两种应用场景。故此，能够在提升动作生成效率的前提下，兼容单个个体和多个个体两种应用场景。

在一些实施例中，所述关系建模的类型与所述若干个体的第一总数相关，包括以下至少一项：在若干个体的第一总数为单个的情况下，关系建模包括建模各动作帧之间的时序关系；在若干个体的第一总数为多个的情况下，关系建模包括建模各动作帧中若干个体之间的交互关系和建模各动作帧之间的时序关系。

在一些实施例中，关系建模部分72包括时序建模子部分，时序建模子部分包括第一选择单元，配置为选择个体作为目标个体，并将目标个体对应的第一特征表示和第二特征表示，作为目标个体在不同时序的时序特征表示，以及将不同时序分别作为第一当前时序，并将第一当前时序的时序特征表示作为第一当前时序表示；时序建模子部分包括第一表示融合单元，配置为基于各个第一参考时序表示分别与第一当前时序表示的相关度，得到第一当前时序表示对应的融合特征表示；其中，第一参考时序表示包括目标个体在各时序的时序特征表示。

在一些实施例中，关系建模部分72包括交互建模子部分，交互建模子部分包括第二选择单元，配置为选择个体作为目标个体，并将目标个体对应的第一特征表示和第二特征表示，作为目标个体在不同时序的时序特征表示，以及将不同时序分别作为第二当前时序，并将第二当前时序的时序特征表示作为第二当前时序表示；交互建模子部分包括表示第二融合单元，配置为基于各个第二参考时序表示分别与第二当前时序表示的相关度，得到第二当前时序表示对应的融合特征表示；其中，第二参考时序表示包括各个体分别在第二当前时序的时序特征表示。

在一些实施例中，在关系建模包括建模交互关系和时序关系的情况下，关系建模部分块72包括在先建模子部分，配置为基于第一特征表示和第二特征表示建模在先关系，得到在先关系的输出特征表示，关系建模部分72包括在后建模子部分，配置为基于输出特征表示建模在后关系，得到融合特征表示；其中，在先关系为交互关系，在后关系为时序关系，或者，在先关系为时序关系，在后关系为交互关系。

在一些实施例中，动作序列由动作生成模型得到，动作生成模型包括关系建模网络，且关系建模网络包括时序建模子网络和交互建模子网络，时序建模子网络用于建模时序关系，交互建模子网络用于建模交互关系。

在一些实施例中，第一特征表示基于高斯过程的采样得到。

在一些实施例中，特征获取部分71包括第一获取子部分，且第一获取子模块包括过程采样单元，配置为在若干高斯过程中，分别采样第二总数次，得到分别表征第二总数个动作帧的第一原始表示；其中，第一原始表示的长度与高斯过程的个数相同，各高斯过程的特征长度尺度各不相同；第一获取子部分包括第一获取单元，配置为基于第一总数和第一原始表示，得到第三总数个第一特征表示；其中，第三总数为第一总数和第二总数的乘积。

在一些实施例中，第二特征表示基于目标动作类别映射得到。

在一些实施例中，特征获取部分71包括第二获取子部分，且第二获取子模块包括嵌入表示单元，配置为对目标动作类别进行嵌入表示，得到第二原始表示；第二获取子部分包括第二获取单元，配置为基于第一总数和第二原始表示，得到第一总数个第二特征表示。

在一些实施例中，第一特征表示和第二特征表示均融合有位置编码；其中，在若干个体为单个个体的情况下，位置编码包括时序位置编码，在若干个体为多个个体的情况下，位置编码包括个体位置编码和时序位置编码。

在一些实施例中，动作序列由动作生成模型得到，且位置编码在动作生成模型的训练过程中，与动作生成模型的网络参数一同调整，直至动作生成模型训练收敛为止。

在一些实施例中，动作帧中个体的动作表示包括：在动作帧中，个体的关键点的第一位置信息和个体的姿态信息，且姿态信息包括个体的若干关节点的第二位置信息。

在一些实施例中，动作序列由动作生成模型得到，且动作生成模型与鉴别模型通过生成对抗训练得到。

在一些实施例中，动作生成部分70包括样本序列获取部分，配置为获取若干样本个体关于样本动作类别的样本动作序列；其中，样本动作序列包括预设数值个样本动作帧，且样本动作序列标注有样本标记，样本标记表示样本动作序列实际是否动作生成模型生成得到；动作生成部分70包括样本序列分解模块，配置为分别对样本动作序列中各个样本动作帧进行分解，得到样本图数据；其中，样本图数据包括预设数值张节点图，节点图由节点连接形成，节点包括样本个体的关键点和关节点，节点图包括各个节点的节点特征表示，且节点的位置特征表示由若干样本个体分别在对应节点处的位置特征表示拼接得到；动作生成部分70包括样本序列鉴别模块，配置为基于鉴别模型对样本图数据和样本动作类别进行鉴别，得到预测结果；其中，预测结果包括样本动作序列的第一预测标记和第二预测标记，第一预测标记表示样本动作序列经预测由动作生成模型生成的可能性，第二预测标记表示样本动作序列属于样本动作类别的可能性；动作生成部分70包括网络参数调整模块，配置为基于样本标记、第一预测标记和第二预测标记，调整动作生成模型、鉴别模型中任一者的网络参数。

在一些实施例中，在样本动作序列为从真实场景采集得到的情况下，节点的位置特征表示按照若干样本个体的随机顺序，由若干样本个体分别在对应节点处的位置特征表示拼接得到。

上述特征获取模块部分71、关系建模模块部分72和动作映射模块部分73均可以基于电子设备的处理器实现。

请参阅图8，图8是本申请实施例提供的一种电子设备80的框架示意图。电子设备80包括相互耦接的存储器81和处理器82，处理器82用于执行存储器81中存储的程序指令，以实现上述任一动作生成方法实施例的步骤。在一些实施例中，电子设备80可以包括但不限于：微型计算机、服务器，此外，电子设备80还可以包括笔记本电脑、平板电脑等移动设备，在此不做限定。处理器82用于控制其自身以及存储器81以实现上述任一动作生成方法实施例的步骤。处理器82还可以称为中央处理单元(Central Processing Unit，CPU)。处理器82可能是一种集成电路芯片，具有信号的处理能力。处理器82还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器82可以由集成电路芯片共同实现。

请参阅图9，图9为本申请实施例提供的一种计算机可读存储介质90的框架示意图。计算机可读存储介质90存储有能够被处理器运行的程序指令901，程序指令901用于实现上述任一动作生成方法实施例的步骤。

本申请实施例还提供一种计算机程序产品，该计算机产品承载有程序代码，所述程序代码包括的指令可用于实现上述任一动作生成方法实施例的步骤。其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一些实施例中，所述计算机程序产品体现为计算机存储介质，在一些实施例中，计算机程序产品体现为软件产品，例如软件开发包(Software Development Kit，SDK)等。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

一种动作生成方法，应用于电子设备中，所述方法包括：

获取分别表征若干个体在若干动作帧的第一特征表示，并获取分别表征所述若干个体关于目标动作类别的第二特征表示；

基于所述第一特征表示和所述第二特征表示进行关系建模，得到各所述动作帧中各所述个体的融合特征表示；其中，所述关系建模的类型与所述若干个体的第一总数相关；

基于所述融合特征表示进行动作映射，得到所述若干个体关于所述目标动作类别的动作序列；其中，所述动作序列包括所述若干动作帧，且所述动作帧包含各所述个体的动作表示。
根据权利要求1所述的方法，其中，所述关系建模的类型与所述若干个体的第一总数相关，包括以下至少一项：

在所述若干个体的第一总数为单个的情况下，所述关系建模包括建模各所述动作帧之间的时序关系；

在所述若干个体的第一总数为多个的情况下，所述关系建模包括建模各所述动作帧中所述若干个体之间的交互关系和建模各所述动作帧之间的时序关系。
根据权利要求2所述的方法，其中，在所述关系建模包括建模所述时序关系的情况下，所述基于所述第一特征表示和所述第二特征表示进行关系建模，得到各所述动作帧中各所述个体的融合特征表示，包括：

选择所述个体作为目标个体，并将所述目标个体对应的第一特征表示和第二特征表示，作为所述目标个体在不同时序的时序特征表示；

分别选择各个所述时序作为第一当前时序，并选择所述第一当前时序的时序特征表示作为第一当前时序表示；

基于各个第一参考时序表示分别与所述第一当前时序表示的相关度，得到所述第一当前时序表示对应的融合特征表示；

其中，所述第一参考时序表示包括所述目标个体在各所述时序的时序特征表示。
根据权利要求2所述的方法，其中，在所述关系建模包括建模所述交互关系的情况下，所述基于所述第一特征表示和所述第二特征表示进行关系建模，得到各所述动作帧中各所述个体的融合特征表示，包括：

选择所述个体作为目标个体，并将所述目标个体对应的第一特征表示和第二特征表示，作为所述目标个体在不同时序的时序特征表示；

分别选择各个所述时序作为第二当前时序，并选择所述第二当前时序的时序特征表示分别作为第二当前时序表示；

基于各个第二参考时序表示分别与所述第二当前时序表示的相关度，得到所述第二当前时序表示对应的融合特征表示；

其中，所述第二参考时序表示包括各所述个体分别在所述第二当前时序的时序特征表示。
根据权利要求2所述的方法，其中，在所述关系建模包括建模所述交互关系和所述时序关系的情况下，所述基于所述第一特征表示和所述第二特征表示进行关系建模，得到各所述动作帧中各所述个体的融合特征表示，包括：

基于所述第一特征表示和所述第二特征表示建模在先关系，得到所述在先关系的输出特征表示；

基于所述输出特征表示建模在后关系，得到所述融合特征表示；

其中，所述在先关系为所述交互关系，所述在后关系为所述时序关系，或者，所述在先关系为所述时序关系，所述在后关系为所述交互关系。
根据权利要求2所述的方法，其中，所述动作序列由动作生成模型得到，所述动作生成模型包括关系建模网络，且所述关系建模网络包括时序建模子网络和交互建模子网络，所述时序建模子网络用于建模所述时序关系，所述交互建模子网络用于建模所述交互关系。
根据权利要求1至6任一项所述的方法，其中，所述第一特征表示基于高斯过程的采样得到。
根据权利要求7所述的方法，其中，所述获取分别表征若干个体在若干动作帧的第一特征表示，包括：

在若干所述高斯过程中，分别采样第二总数次，得到分别表征第二总数个所述动作帧的第一原始表示；其中，所述第一原始表示的长度与所述高斯过程的个数相同，各所述高斯过程的特征长度尺度各不相同；

基于所述第一总数和所述第一原始表示，得到第三总数个所述第一特征表示；其中，所述第三总数为所述第一总数和所述第二总数的乘积。
根据权利要求1至8任一项所述的方法，其中，所述第二特征表示基于所述目标动作类别映射得到。
根据权利要求9所述的方法，其中，所述获取分别表征所述若干个体关于目标动作类别的第二特征表示，包括：

对所述目标动作类别进行嵌入表示，得到第二原始表示；

基于所述第一总数和所述第二原始表示，得到所述第一总数个所述第二特征表示。
根据权利要求1至10任一项所述的方法，其中，所述第一特征表示和所述第二特征表示均融合有位置编码；

其中，在所述若干个体为单个所述个体的情况下，所述位置编码包括时序位置编码，在所述若干个体为多个所述个体的情况下，所述位置编码包括个体位置编码和所述时序位置编码。
根据权利要求11所述的方法，其中，所述动作序列由动作生成模型得到，且所述位置编码在所述动作生成模型的训练过程中，与所述动作生成模型的网络参数一同调整，直至所述动作生成模型训练收敛为止。
根据权利要求1至12任一项所述的方法，其中，所述动作帧中所述个体的动作表示包括：在所述动作帧中，所述个体的关键点的第一位置信息和所述个体的姿态信息，且所述姿态信息包括所述个体的若干关节点的第二位置信息。
根据权利要求1至13任一项所述的方法，其中，所述动作序列由动作生成模型得到，且所述动作生成模型与鉴别模型通过生成对抗训练得到。
根据权利要求14所述的方法，其中，所述生成对抗训练的步骤包括：

获取若干样本个体关于样本动作类别的样本动作序列；其中，所述样本动作序列包括预设数值个样本动作帧，且所述样本动作序列标注有样本标记，所述样本标记表示所述样本动作序列实际是否所述动作生成模型生成得到；

分别对所述样本动作序列中各个所述样本动作帧进行分解，得到样本图数据；其中，所述样本图数据包括所述预设数值张节点图，所述节点图由节点连接形成，所述节点包括所述样本个体的关键点和关节点，所述节点图包括各个所述节点的节点特征表示，且所述节点的位置特征表示由所述若干样本个体分别在对应所述节点处的位置特征表示拼接得到；

基于鉴别模型对所述样本图数据和所述样本动作类别进行鉴别，得到预测结果；其中，所述预测结果包括所述样本动作序列的第一预测标记和第二预测标记，所述第一预测标记表示所述样本动作序列经预测由所述动作生成模型生成的可能性，所述第二预测标记表示所述样本动作序列属于样本动作类别的可能性；

基于所述样本标记、所述第一预测标记和所述第二预测标记，调整所述动作生成模型、所述鉴别模型中任一者的网络参数。
根据权利要求15所述的方法，其中，在所述样本动作序列为从真实场景采集得到的情况下，所述节点的位置特征表示按照所述若干样本个体的随机顺序，由所述若干样本个体分别在对应所述节点处的位置特征表示拼接得到。
一种动作生成装置，包括：

特征获取部分，配置为获取分别表征若干个体在若干动作帧的第一特征表示，并获取分别表征所述若干个体关于目标动作类别的第二特征表示；

关系建模部分，配置为基于所述第一特征表示和所述第二特征表示进行关系建模，得到各所述动作帧中各所述个体的融合特征表示；其中，所述关系建模的类型与所述若干个体的第一总数相关；

动作映射部分，配置为基于所述融合特征表示进行动作映射，得到所述若干个体关于所述目标动作类别的动作序列；其中，所述动作序列包括所述若干动作帧，且所述动作帧包含各所述个体的动作表示。
一种电子设备，包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，实现权利要求1至16任一项所述的动作生成方法。
一种计算机可读存储介质，其上存储有程序指令，所述程序指令被处理器执行时实现权利要求1至16任一项所述的动作生成方法。
一种计算机程序，包括计算机可读代码，当所述计算机可读代码在电子设备中运行时，所述电子设备中的处理器执行用于执行如权利要求1至16任一项所述的动作生成方法。