WO2024060978A1

WO2024060978A1 - 关键点检测模型训练及虚拟角色驱动的方法和装置

Info

Publication number: WO2024060978A1
Application number: PCT/CN2023/116711
Authority: WO
Inventors: 邓博; 王佳卓
Original assignee: 广州市百果园信息技术有限公司
Priority date: 2022-09-20
Filing date: 2023-09-04
Publication date: 2024-03-28
Also published as: CN115482556A

Abstract

一种关键点检测模型训练及虚拟角色驱动的方法和对应的装置，该虚拟角色驱动的方法包括：采集目标图像帧，所述目标图像帧包括部分人体的图像（201）；将所述目标图像帧输入至预先训练的关键点检测模型，并获得所述关键点检测模型输出的所述目标图像帧的人体关键点的坐标信息以及视场概率，所述视场概率为所述人体关键点在所述目标图像帧的拍摄视场内出现的概率（202）；根据所述人体关键点的所述坐标信息以及所述视场概率驱动对应的虚拟角色动作（203）。

Description

关键点检测模型训练及虚拟角色驱动的方法和装置

本申请要求在2022年09月20日提交中国专利局、申请号为202211145707.2的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请涉及图像处理技术领域，例如涉及一种关键点检测模型训练的方法、一种虚拟角色驱动的方法、一种关键点检测模型训练的装置、一种虚拟角色驱动的装置、一种电子设备、一种计算机可读存储介质以及一种计算机程序产品。

背景技术

随着虚拟产业的发展，直播的内容出现了数字化的直播形态，例如完全由虚拟形象呈现的虚拟主播。

在一种相关技术中，通过采用如光学动作捕捉、惯性动作捕捉等技术实现虚拟主播，但这种技术的实现需要主播长时间佩戴专业设备，且通常需要连接多种线缆，直播体验差。

在另一种相关技术中，通过端对端的三维(3Dimensions，3D)姿态数据生成真实环境下的3D人体数据,端到端的3D姿态估计方法可以极大的增强虚拟人物的交互能力。在获取3D人体数据时，相关技术通过普通RGB相机，利用深度学习网络直接从输入的RGB视频中预测出人体3D关节点的方案，普遍针对整个人体进行处理，一般对相机的视场角(Field Of View，FOV)和拍摄角度有一定要求，例如视场需要覆盖大部分人体。在用户距离相机较近，只有部分人体出现的情况下，由于具有终端性能有限、视场小、人体手/手肘等部分容易频繁移出视场等特点，姿态点位非常容易误检出错。而且由于移动端上资源有限，很多基于热图(heatmap)的方式由于分辨率限制，输出的坐标精度不够，输出坐标的稳定性也受到很大影响。

发明内容

本申请提供了一种关键点检测模型训练的方法、一种虚拟角色驱动的方法、一种关键点检测模型训练的装置、一种虚拟角色驱动的装置，以解决相关技术中姿态点位容易误检出错、输出坐标稳定性差的问题。

本申请提供了一种虚拟角色驱动的方法，所述方法包括：采集目标图像帧，所述目标图像帧包括部分人体的图像；将所述目标图像帧输入至预先训练的关键点检测模型，并获得所述关键点检测模型输出的所述目标图像帧的人体关键点的坐标信息以及视场概率，所述视场概率为所述人体关键点在所述目标图像帧的拍摄视场内出现的概率；根据所述人体关键点的所述坐标信息以及所述视场概率驱动对应的虚拟角色动作。

本申请提供了一种关键点检测模型训练的方法，所述方法包括：对样本集合中的多个样本图像帧进行关键点检测，以确定每个样本图像帧所包括的多个关键点的坐标信息；基于每个关键点的坐标信息确定所述每个关键点的视场标签，所述视场标签用于标记该关键点是否在所属的样本图像帧的拍摄视场内；将所述多个样本图像帧的多个关键点的坐标信息以及所述视场标签作为监督信号，训练关键点检测模型，所述关键点检测模型用于在模型推理阶段对目标图像帧进行关键点检测，并输出所述目标图像帧的关键点的坐标信息以及视场概率。

本申请提供了一种虚拟角色驱动的装置，所述装置包括：图像采集模块，设置为采集目标图像帧，所述目标图像帧包括部分人体的图像；人体关键点检测模块，设置为将所述目标图像帧输入至预先训练的关键点检测模型，并获得所述关键点检测模型输出的所述目标图像帧的人体关键点的坐标信息以及视场概率，所述视场概率为所述人体关键点在所述目标图像帧的拍摄视场内出现的概率；虚拟角色驱动模块，设置为根据所述人体关键点的所述坐标信息以及所述视场概率驱动对应的虚拟角色动作。

本申请提供了一种关键点检测模型训练的装置，所述装置包括：关键点检测模块，设置为对样本集合中的多个样本图像帧进行关键点检测，以确定每个样本图像帧所包括的多个关键点的坐标信息；视场标签确定模块，设置为基于每个关键点的坐标信息确定所述每个关键点的视场标签，所述视场标签用于标记该关键点是否在所属的样本图像帧的拍摄视场内；模型训练模块，设置为将所述多个样本图像帧的多个关键点的坐标信息以及所述视场标签作为监督信号，训练关键点检测模型，所述关键点检测模型用于在模型推理阶段对目标图像帧进行关键点检测，并输出所述目标图像帧的关键点的坐标信息以及视场概率。

本申请提供了一种电子设备，所述电子设备包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述一种虚拟角色驱动的方法或一种关键点检测模型训练的方法。

根据本申请的第六方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现上述一种关键点检测模型训练的方法或一种关键点检测模型训练的方法。

根据本申请的第七方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机可执行指令，所述计算机可执行指令在被执行时用于实现上述一种关键点检测模型训练的方法或一种关键点检测模型训练的方法。

附图说明

下面将对实施例描述中所需要使用的附图作简单地介绍。

图1是本申请实施例一提供的一种关键点检测模型训练的方法流程图；

图2是本申请实施例一提供的一种样本图像帧的示意图；

图3是本申请实施例一提供的一种裁剪后的样本图像帧的示意图；

图4是本申请实施例二提供的一种虚拟角色驱动的方法流程图；

图5是本申请实施例三提供的一种关键点检测模型训练的装置的结构示意图；

图6是本申请实施例四提供的一种虚拟角色驱动的装置的结构示意图；

图7是本申请实施例五提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述，所描述的实施例仅仅是本申请一部分的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于列出的那些步骤或单元，而是可包括没有列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1为本申请实施例一提供的一种关键点检测模型训练的方法流程图，该关键点检测模型用于检测具有局部人体特征的图像(比如半身图像)中的人体关键点，适用于人体关键点检测的场景中，例如在直播场景中，通过检测人体关键点来驱动虚拟角色的动作。

在虚拟直播场景中，端到端的3D姿态估计方法可以极大的增强虚拟主播的交互能力。通过调研分析发现，虚拟主播普遍采用手机进行直播，该场景具有：终端性能有限、视场小、人体手/手肘等部分容易频繁移出视场等特点，这种场景下许多开源的3D姿态点检测方案也非常容易出错。视场是指终端的摄像头能够观察到的最大范围，视场越大，观测范围越大。

本实施例在不增加主播额外拍摄硬件和使用成本的基础上，基于普通的RGB相机，设计了一种低成本的模型训练方法用于训练关键点检测模型，其中，该关键点检测模型可以为神经网络模型，该关键点检测模型可以包含两个预测头，每个预测头相当于一层神经网络，两个预测头的输入是特征图，其中一个预测头用于基于特征图预测关键点的位置，另一个预测头用于基于特征图对关键点是否在视场内进行预测。则通过该关键点检测模型可以判断关键点是否在视场内，提升了关键点检测模型对于近场场景中的图像的关键点检测准确率。

如图1所示，本实施例可以包括如下步骤。

步骤101，对样本集合中的多个样本图像帧进行关键点检测，以确定每个样本图像帧所包括的多个关键点的坐标信息。

样本图像帧中可以包含人体主要姿态，这样可以使得姿态网络的预测结果的准确性更高。

在一实施例中，可以通过预先生成的姿态检测模型来对样本图像帧进行关键点检测，该姿态检测模型可以是二维姿态检测模型，也可以是三维姿态检测模型。为了提高检测的精确度，该姿态检测模型还可以是二维姿态检测模型与三维姿态检测模型进行结合得到的模型。

关键点根据业务需求的不同可以是不同的，本实施例对此不作限制。例如，关键点可以包括但不限于：左肩膀点、右肩膀点、左手肘点、右手肘点、左手腕点、右手腕点、左手掌点、右手掌点、髋关节点、鼻子点等。

示例性地，关键点的坐标信息可以采用图像坐标和深度信息表示。在一种实现中，该深度信息可以采用设定的深度信息计算算法获得，而不用增加额外的深度传感器来获得深度信息，从而节省了硬件成本和标定成本。

在一种实施例中，步骤101可以包括如下步骤。

步骤101-1，将所述多个样本图像帧输入至预先生成的二维姿态网络，并获得所述二维姿态网络输出的所述多个样本图像帧的关键点的二维坐标信息。

示例性地，该二维坐标信息是基于图像坐标系下的坐标信息，包括水平坐标值以及垂直坐标值，可以表示为其中，为样本图像帧的编号为n的关键点的二维坐标信息，u_n为样本图像帧的编号为n的关键点的水平坐标值，v_n为样本图像帧的编号为n的关键点的垂直坐标值。

R^nx2表示nx2维实数集合，即中，每个元素都是2维向量，向量中每个分量都是实数。

步骤101-2，将所述多个样本图像帧输入至预先生成的三维姿态网络，并获得所述三维姿态网络输出的所述多个样本图像帧的关键点的三维坐标信息。

示例性地，该三维坐标信息是基于世界坐标系下的坐标信息，包括X轴坐标值、Y轴坐标值以及Z轴坐标值，可以表示为其中，为样本图像帧的编号为n的关键点的三维坐标信息，x_n为样本图像帧的编号为n的关键点的X轴坐标值，y_n为样本图像帧的编号为n的关键点的Y轴坐标值，z_n为样本图像帧的编号为n的关键点的Z轴坐标值。

R^nx3表示nx3维实数集合，即中，每个元素都是3维向量，向量中每个分量都是实数。

需要说明的是，该二维姿态网络与该三维姿态网络均可以为已有的姿态网络模型，本实施例假设两者检测出的关键点是一致的，只是两者的关键点的坐标系尺度不一致，需要进行步骤101-3中的坐标数据的统一处理。

步骤101-3，基于所获得的关键点的所述二维坐标信息以及所述三维坐标信息，确定每个关键点的坐标信息。

在该步骤中，每个关键点的坐标信息可以为融合了该关键点的二维坐标信息以及三维坐标信息后得到的坐标信息，从而实现将二维姿态网络和三维姿态网络的不同输出结果变换到统一的坐标系。示例性地，该坐标信息可以包括深度信息，该深度信息可以根据二维坐标信息以及三维坐标信息计算得到。

在一种实施例中，步骤101-3可以包括如下步骤。

步骤101-3-1，从所述多个样本图像帧的多个关键点中确定第一稳定关键点以及第二稳定关键点。

在实际中，稳定关键点可以为比较稳定地出现在视场中的关键点，例如肩膀点、手肘点、鼻子点等。

第一稳定关键点和第二稳定关键点可以以关键点对的形式出现，例如，第一稳定关键点为左肩膀点，第二稳定关键点为右肩膀点；或如，第一稳定关键点为左手肘点，第二稳定关键点为右手肘点，等等。

在一种实现中，开发人员可以预先配置不同应用场景下的稳定关键点白名单。当需要确定第一稳定关键点以及第二稳定关键点时，可以依据当前的应用场景(例如直播场景)，找到对应场景下的稳定关键点白名单，并在该稳定关键点白名单中匹配当前检测出的多个关键点，然后将匹配到的关键点作为稳定关键点。

第一稳定关键点和第二稳定关键点并无先后次序的限制，仅用于区分不同的稳定关键点，若查找到稳定关键点对，则可以将其中一个作为第一稳定关键点，另一个作为第二稳定关键点。

步骤101-3-2，根据所述第一稳定关键点的二维坐标信息和三维坐标信息以及所述第二稳定关键点的二维坐标信息和三维坐标信息，确定调节系数。

该调节系数为用于体现二维坐标信息与三维坐标信息的坐标系的尺度差异的参数，根据该调节系数可以确定多个关键点的深度信息。

在一种实施例中，步骤101-3-2可以包括如下步骤。

确定所述第一稳定关键点的二维坐标信息以及所述第二稳定关键点的二维坐标信息的差值绝对值，作为第一差值；确定所述第一稳定关键点的三维坐标信息以及所述第二稳定关键点的三维坐标信息的差值绝对值，作为第二差值；将所述第一差值与所述第二差值的比值作为调节系数。

例如，假设第一稳定关键点为左肩膀点，关键点编号为0；第二稳定关键点为右肩膀点，关键点编号为1。则：

调节系数

步骤101-3-3，采用所述调节系数对所述多个样本图像帧的多个关键点的Z轴坐标值进行调节，得到每个关键点的深度值。

在一种实现中，每个关键点的深度值depth为：depth_n＝scale*z_n。

步骤101-3-4，将每个关键点的所述水平坐标值、所述垂直坐标值以及所述深度值作为该关键点的坐标信息。

当得到每个关键点的深度值以后，则可以将每个关键点的图像坐标与深度值组织成所述每个关键点最终的坐标信息，即，其中，

在本实施例中，采用二维姿态网络获得样本图像帧的关键点的二维坐标信息，以及，采用三维姿态网络获得样本图像帧的关键点的三维坐标信息，然后融合该二维坐标信息以及三维坐标信息得到每个关键点的最终的坐标信息，可以得到成本更低、更加准确和稳定的关键点坐标信息，提高关键点的检测准确度。

在一种实施例中，当确定样本图像帧的每个样本图像帧所包括的多个关键点的坐标信息以后，还可以基于每个样本图像帧所包括的多个关键点的坐标信息对多个样本图像帧进行图像增广处理等预处理，其中，该图像增广处理可以包括如下的至少一种或结合：随机扰动、裁剪处理。

本实施例对随机扰动的实现方式不作限定。例如，若随机扰动是指针对每个像素点的像素值，按照预设方式进行随机变化。则在一示例性的实施方式中，若预设方式为按照扰动范围为本身的[-20,20]的范围进行随机扰动，若一像素点的RGB像素值为(6，12，230)，经过该预设方式的随机扰动后变为(8，12，226)。像素值中每种色素的范围为[0,255]，即扰动后最大值为255，最小值为0。

为了模拟距离拍摄设备较近的近场场景，还可以对多个样本图像帧(包含随机扰动后生成的样本图像帧)进行裁剪处理。在一种实施例中，裁剪处理可以包括如下过程：

基于每个样本图像帧所包括的多个关键点的坐标信息确定裁剪框中心位置；根据裁剪框中心位置确定裁剪框位置，并按照该裁剪框位置将位于裁剪框以外的像素点的RGB值设置为黑色。

在一种实现中，裁剪框中心位置可以为样本图像帧中的人体的中心位置，可以根据检测出的关键点的坐标信息来计算该裁剪框中心位置。例如，裁剪框中心位置可以为左肩膀点、右肩膀点、髋关节点这三点的坐标信息的均值。

得到裁剪框中心位置以后，则可以根据该裁剪框中心位置以及预设的裁剪框大小(即裁剪框的宽和高)确定裁剪框位置。当确定裁剪框位置以后，则可以将位于裁剪框以外的像素点的RGB值设置为黑色(即RGB值为0)，得到裁剪后的样本图像帧。例如，若样本图像帧如图2所示，则裁剪后的样本图像帧如图3所示。

在实际中，还可以针对裁剪框大小进行随机扰动，得到不同裁剪框大小的裁剪后的样本图像帧。

在本实施例中，通过图像增广处理可以扩大训练数据集，抑制模型过拟合，提高模型泛化能力。同时，通过低成本的标注迁移方法和数据预处理方法可以实现对目标场景进行有效模拟。

步骤102，基于每个关键点的坐标信息确定所述每个关键点的视场标签，所述视场标签用于标记该关键点是否在所属的样本图像帧的拍摄视场内。

当检测出多个样本图像帧的关键点集合以后，受模型检测的准确率影响，检测出的关键点有可能不在样本图像帧的范围内，例如，如果在样本图像帧中手掌点不在图像中，但检测出的关键点却包含了手掌点。基于此，在本实施例中对于每个关键点，还可以基于该关键点的坐标信息来判断该关键点是否在所属的样本图像帧的拍摄视场内，从而确定该关键点的视场标签。例如，如果一个关键点在所属的样本图像帧的拍摄视场内，则其视场标签为1，如果一个关键点不在所属的样本图像帧的拍摄视场内，则其视场标签为0。

在实现时，可以将样本图像帧的大小与关键点的坐标信息进行比较来判断该关键点是否在所属的样本图像帧的拍摄视场内，如果根据关键点的坐标信息判断该关键点位于其所属的样本图像帧的范围内，则判定该关键点在拍摄视场内，如果根据关键点的坐标信息判断该关键点不在其所属的样本图像帧的范围内，判定该关键点在拍摄视场外。

在一种实施例中，步骤102可以包括如下步骤。

获取每个样本图像帧的宽度和高度；以图像坐标系的原点为起点，根据所述多个样本图像帧的宽度确定水平坐标范围，根据所述多个样本图像帧的高度确定垂直坐标范围；若所述关键点的水平坐标值在所述水平坐标范围内，或者，所述关键点的垂直坐标值在所述垂直坐标范围内，则判定该关键点的视场标签为视场内标签；若所述关键点的水平坐标值不在所述水平坐标范围内，以及，所述关键点的垂直坐标值不在所述垂直坐标范围内，则判定该关键点的视场标签为视场外标签。

可以以图像坐标系的原点为起点，将该样本图像帧的宽度作为水平坐标轴的长度，也就是水平坐标范围为[0,width]，width为宽度；将该样本图像帧的高度作为垂直坐标轴的长度，也就是垂直坐标范围为[0,height]，height为高度。

在实际中，可以根据如下逻辑判断式来确定视场标签：

步骤103，将多个样本图像帧的多个关键点的坐标信息以及所述视场标签作为监督信号，训练关键点检测模型。

在该步骤中，可以将获得的多个样本图像帧的多个关键点的坐标信息以及视场标签作为监督信号训练关键点检测模型。

该关键点检测模型用于在模型推理阶段对目标图像帧进行关键点检测，并输出目标图像帧的关键点的坐标信息以及视场概率，后续应用中示例性地可以采用该坐标信息以及视场概率驱动对应的虚拟角色动作。

在一种实施例中，在训练关键点检测模型时，使用的损失函数包括热图损失函数Loss_heatmap、位置损失函数Loss_location以及标签损失函数Loss_label，例如：
Loss_total＝Loss_heatmap+Loss_location+Loss_label

需要说明的是，本实施例并不限制上述三种损失函数的实现方式，例如，Loss_heatmap可以用L2损失实现，Loss_location可以用L1损失实现，Loss_label可以用交叉熵损失实现。

在本实施例中，在数据准备阶段可以获取多个样本图像帧中的每个样本图像帧所包括的多个关键点的坐标信息以及视场标签，该视场标签用于标记该关键点是否在所属的样本图像帧的拍摄视场内，并在模型训练阶段采用该多个样本图像帧的多个关键点的坐标信息以及视场标签作为监督信号训练关键点检测模型，通过引入额外的预测头使得关键点检测模型能够具备输出关键点的视场标签的功能，从而有效判断关键点是否在视场内，提升了关键点检测模型对于近场场景中的图像的关键点检测准确率，例如，在用户距离相机较近，只有部分人体在相机的拍摄视场内出现的情况下，通过本实施例的关键点检测模型能够输出多个人体关键点在视场内还是在视场外的视场标签，避免后续利用在视场外的关键点进行场景处理影响处理效果的情况发生。

实施例二

图4为本申请实施例二提供的一种虚拟角色驱动的方法流程图，本实施例属于实施例一的关键点检测模型的模型推理阶段。本实施例

如图4所示，本实施例可以包括如下步骤。

步骤201，采集目标图像帧，所述目标图像帧包括部分人体的图像。

该目标图像帧可以为实时采集的图像帧，例如，在直播场景中，通过手机等设备采集到的主播的半身照片。

步骤202，将所述目标图像帧输入至预先训练的关键点检测模型，并获得所述关键点检测模型输出的所述目标图像帧的人体关键点的坐标信息以及视场概率。

当采集到目标图像帧以后，可以将目标图像帧输入至实施例一中生成的关键点检测模型，由关键点检测模型进行人体关键点检测，获得一个或多个人体关键点的坐标信息以及视场概率，其中，该视场概率为人体关键点在目标图像帧的拍摄视场内出现的概率。

坐标信息可以表示为(u_n,v_n,depth_n)，该关键点检测模型输出的坐标信息相比于三维姿态网络输出的三维坐标信息，成本更低。这是因为三维坐标信息中的信息有些是不需要用到的，且结合虚拟驱动场景并不需要实际场景可能的深度值，只需要一个相对值就可以，所以因此通过实施例一的训练方案把三维坐标信息转换成图像坐标尺度下的伪3D坐标信息。

在一种实施例中，当获得目标图像帧的人体关键点的坐标信息以及视场概率以后，还可以包括如下步骤：

确定当前目标图像帧与上一目标图像帧之间的平滑权重；采用所述平滑权重，对所述坐标信息以及所述视场概率进行平滑处理。

例如，在用手机进行虚拟直播的场景中，对于视场外的人体关键点并不是特别感兴趣，让其尽量平稳不出现跳变和明显的错误即可。因此可以通过滤波器对坐标信息和预测概率进行平滑处理。

在一种实施例中，上述确定当前目标图像帧与上一目标图像帧之间的平滑权重的步骤，可以包括如下步骤：

针对每个人体关键点，确定所述人体关键点在当前目标图像帧的坐标信息与在上一目标图像帧的平滑后的坐标信息之间的距离；将所述距离与设定距离进行比较，并根据比较结果确定距离权重；采用所述距离权重以及所述人体关键点在当前目标图像帧的视场概率，计算平滑权重。

在一种实现中，针对一个人体关键点，当获得其在上一目标图像帧的平滑后的坐标信息，以及，在当前目标图像帧的坐标信息以后，可以采用距离计算公式计算两个坐标信息之间的距离，例如，该距离可以采用如下公式计算：

distanceⁿ为第n个人体关键点在当前目标图像帧的坐标信息与在上一目标图像帧的平滑后的坐标信息之间的距离，为第n个人体关键点在当前目标图像帧的坐标信息，为第n个人体关键点在上一目标图像帧的平滑后的坐标信息。

在实现时，将上述获得的距离与设定距离进行比较，可以为计算两者的比值，则比较结果为两者的比值，即，其中，threshold为设定距离。距离distanceⁿ低于阈值thresold的情况下，缓存的历史数据权重较大，当前的关键点的权重很小；距离distanceⁿ大于阈值情况下，历史数据权重较小，当前的关键点的权重更大。

在一种实现中，可以采用如下公式计算距离权重：

k表示预设的平滑剧烈程度，越大表示窗口越小，抑制剧烈跳变的能力越强。

当获得距离权重以后，则可以结合距离权重与当前人体关键点在当前目标图像帧的视场概率，计算平滑权重。例如，可以采用如下公式计算平滑权重：

probⁿ为第n个人体关键点的视场概率。

当获得平滑权重以后，则可以采用该平滑权重对坐标信息以及视场概率进行平滑处理。在一种实施例中，该平滑处理可以包括如下步骤：

基于所述平滑权重，确定上一目标图像帧的第一权重，以及，当前目标图像帧的第二权重；基于所述第一权重以及所述第二权重，将上一目标图像帧的坐标信息以及当前目标图像帧的坐标信息进行加权计算，得到平滑后的坐标信息；基于所述第一权重以及所述第二权重，将上一目标图像帧的视场概率以及当前目标图像帧的视场概率进行加权计算，得到平滑后的视场概率。

例如，假设第一权重为平滑权重，则第二权重为数值1与平滑权重的差值，即，第一权重＝ratioⁿ，第二权重＝1-ratioⁿ。

对坐标信息进行平滑处理的过程如下公式所示：

对视场概率进行平滑处理的过程如下公式所示：
Cached_probⁿ＝ratioⁿ*Cached_prob^n-1-+(1-ratioⁿ)probⁿ

Cached_probⁿ为平滑处理后的视场概率，Cached_prob^n-1为上一次平滑处理后的视场概率。

本实施例引入的滤波器对关键点跳变程度和是否在视场内的情况进行平滑处理，通过调低关键点坐标剧烈跳变和不在视场内的情况下当前帧的权重，让输出的人体关键点结果总体保持一个比较稳定连续的状态。

步骤203，根据所述人体关键点的所述坐标信息以及所述视场概率驱动对应的虚拟角色动作。

当获得目标图像帧的人体关键点的最终的坐标信息以及视场概率以后，则可以根据该视场概率判断对应的人体关键点是否在目标图像帧的视场内，若在该视场内则可以根据坐标信息动作虚拟角色的对应人体部位到该坐标信息对应的位置上，若在该视场外则不对虚拟角色进行动作。

例如，通过这些人体关键点可以让主播与用户的交互更加丰富，比如挥手、比心、在3D形象的手臂或手腕上展示用户赠送的3D礼物、在虚拟3D空间中让主播和用户的虚拟形象进行交互游戏等。

在本实施例中，通过关键点检测模型可以检测目标图像帧的人体关键点的坐标信息以及视场概率，该视场概率为人体关键点在目标图像帧的拍摄视场内出现的概率，然后结合该视场概率和坐标信息驱动对应的虚拟角色动作，以此实现端到端的人体关键点的信号输出，并且在近景情况下可以保证一定的稳定性，满足手机端上虚拟角色的驱动要求。

实施例三

图5为本申请实施例三提供的一种关键点检测模型训练的装置的结构示意图，可以包括如下模块：关键点检测模块301，设置为对样本集合中的多个样本图像帧进行关键点检测，以确定每个样本图像帧所包括的多个关键点的坐标信息；视场标签确定模块302，设置为基于每个关键点的所述坐标信息确定所述每个关键点的视场标签，所述视场标签用于标记该关键点是否在所属的样本图像帧的拍摄视场内；模型训练模块303，设置为将多个样本图像帧的多个关键点的坐标信息以及所述视场标签作为监督信号，训练关键点检测模型，所述关键点检测模型用于在模型推理阶段对目标图像帧进行关键点检测，并输出所述目标图像帧的关键点的坐标信息以及视场概率。

在一种实施例中，关键点检测模块301可以包括如下模块：二维姿态预测模块，设置为将所述多个样本图像帧输入至预先生成的二维姿态网络，并获得所述二维姿态网络输出的所述多个样本图像帧的关键点的二维坐标信息；三维姿态预测模块，设置为将所述多个样本图像帧输入至预先生成的三维姿态网络，并获得所述三维姿态网络输出的所述多个样本图像帧的关键点的三维坐标信息；坐标确定模块，设置为基于所获得的关键点的所述二维坐标信息以及所述三维坐标信息，确定每个关键点的坐标信息。

在一种实施例中，所述二维坐标信息包括水平坐标值以及垂直坐标值，所述三维坐标信息包括X轴坐标值、Y轴坐标值以及Z轴坐标值；坐标确定模块可以包括如下模块：稳定关键点确定模块，设置为从所述多个样本图像帧的多个关键点中确定第一稳定关键点以及第二稳定关键点；调节系数确定模块，设置为根据所述第一稳定关键点以及所述第二稳定关键点的二维坐标信息以及三维坐标信息，确定调节系数；调节模块，设置为采用所述调节系数对所述多个样本图像帧的多个关键点的所述Z轴坐标值进行调节，得到每个关键点的深度值；坐标生成模块，设置为将每个关键点的所述水平坐标值、所述垂直坐标值以及所述深度值作为该关键点的坐标信息。

在一种实施例中，调节系数确定模块是设置为：确定所述第一稳定关键点以及所述第二稳定关键点的二维坐标信息的差值绝对值，作为第一差值；确定所述第一稳定关键点以及所述第二稳定关键点的三维坐标信息的差值绝对值，作为第二差值；将所述第一差值与所述第二差值的比值作为调节系数。

在一种实施例中，所述坐标信息包括水平坐标值以及垂直坐标值，所述视场标签包括视场内标签以及视场外标签；

视场标签确定模块302是设置为：获取每个样本图像帧的宽度和高度；以图像坐标系的原点为起点，根据所述多个样本图像帧的宽度确定水平坐标范围，根据所述多个样本图像帧的高度确定垂直坐标范围；若所述关键点的水平坐标值在所述水平坐标范围内，或者，所述关键点的垂直坐标值在所述垂直坐标范围内，则判定该关键点的视场标签为视场内标签；若所述关键点的水平坐标值不在所述水平坐标范围内，以及，所述关键点的垂直坐标值不在所述垂直坐标范围内，则判定该关键点的视场标签为视场外标签。

在一种实施例中，所述装置还可以包括如下模块：图像增广模块，设置为在所述确定每个样本图像帧所包括的多个关键点的坐标信息之后，基于所述每个样本图像帧所包括的多个坐标信息，对所述样本图像帧进行图像增广处理，所述图像增广处理包括如下的至少一种或结合：随机扰动、裁剪处理。

在一种实施例中，图像增广模块是设置为：基于所述每个样本图像帧所包括的多个关键点的坐标信息确定裁剪框中心位置；根据所述裁剪框中心位置确定裁剪框位置，并按照所述裁剪框位置将位于裁剪框以外的像素点的RGB值设置为黑色。

在一种实施例中，在训练所述关键点检测模型时，使用的损失函数包括热图损失函数、位置损失函数以及标签损失函数。

本申请实施例所提供的一种关键点检测模型训练的装置可执行本申请实施例一所提供的一种关键点检测模型训练的方法，具备执行方法相应的功能模块。

实施例四

图6为本申请实施例四提供的一种虚拟角色驱动的装置的结构示意图，可以包括如下模块：图像采集模块401，设置为采集目标图像帧，所述目标图像帧包括部分人体的图像；人体关键点检测模块402，设置为将所述目标图像帧输入至预先训练的关键点检测模型，并获得所述关键点检测模型输出的所述目标图像帧的人体关键点的坐标信息以及视场概率，所述视场概率为所述人体关键点在所述目标图像帧的拍摄视场内出现的概率；虚拟角色驱动模块403，设置为根据所述人体关键点的所述坐标信息以及所述视场概率驱动对应的虚拟角色动作。

在一种实施例中，所述装置还可以包括如下模块：平滑权重确定模块，设置为确定当前目标图像帧与上一目标图像帧之间的平滑权重；平滑处理模块，设置为采用所述平滑权重，对所述坐标信息以及所述视场概率进行平滑处理。

在一种实施例中，平滑权重确定模块是设置为：针对每个人体关键点，确定所述人体关键点在当前目标图像帧的坐标信息与在上一目标图像帧的平滑后的坐标信息之间的距离；将所述距离与设定距离进行比较，并根据比较结果确定距离权重；采用所述距离权重以及所述人体关键点在当前目标图像帧的视场概率，计算平滑权重。

在一种实施例中，平滑处理模块是设置为：基于所述平滑权重，确定上一目标图像帧的第一权重，以及，当前目标图像帧的第二权重；基于所述第一权重以及所述第二权重，将上一目标图像帧的坐标信息以及当前目标图像帧的坐标信息进行加权计算，得到平滑后的坐标信息；基于所述第一权重以及所述第二权重，将上一目标图像帧的视场概率以及当前目标图像帧的视场概率进行加权计算，得到平滑后的视场概率。

本申请实施例所提供的一种虚拟角色驱动的装置可执行本申请实施例二所提供的一种虚拟角色驱动的方法，具备执行方法相应的功能模块。

实施例五

图7示出了可以用来实施本申请的方法实施例的电子设备10的结构示意图。如图7所示，电子设备10可以为服务器、手机等设备，包括至少一个处理器11，以及与至少一个处理器11通信连接的存储装置，如只读存储器(Read-Only Memory，ROM)12、随机访问存储器(Random Access Memory，RAM)13等，其中，存储装置存储有可被至少一个处理器执行的一个或多个计算机程序，处理器11可以根据存储在ROM12中的计算机程序或者从存储单元18加载到RAM 13中的计算机程序，来执行多种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的多种程序和数据。

在一些实施例中，实施例一或实施例二中的方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可以执行上文描述的实施例一或实施例二中的方法的一个或多个步骤。

在一些实施例中，实施例一或实施例二中的方法可被实现为计算机程序产品，该计算机程序产品包括计算机可执行指令，该计算机可执行指令在被执行时用于执行上文描述的实施例一或实施例二中的方法的一个或多个步骤。

Claims

一种虚拟角色驱动的方法，包括：

采集目标图像帧，所述目标图像帧包括部分人体的图像；

将所述目标图像帧输入至预先训练的关键点检测模型，并获得所述关键点检测模型输出的所述目标图像帧的人体关键点的坐标信息以及视场概率，所述视场概率为所述人体关键点在所述目标图像帧的拍摄视场内出现的概率；

根据所述人体关键点的所述坐标信息以及所述视场概率驱动对应的虚拟角色动作。
根据权利要求1所述的方法，在所述根据所述人体关键点的所述坐标信息以及所述视场概率驱动对应的虚拟角色动作之前，还包括：

确定当前目标图像帧与上一目标图像帧之间的平滑权重；

采用所述平滑权重，对所述坐标信息以及所述视场概率进行平滑处理。
根据权利要求2所述的方法，其中，所述确定当前目标图像帧与上一目标图像帧之间的平滑权重，包括：

确定多个人体关键点中的每个人体关键点在当前目标图像帧的坐标信息与在上一目标图像帧的平滑后的坐标信息之间的距离；

将所述距离与设定距离进行比较，并根据比较结果确定距离权重；

采用所述多个人体关键点的距离权重以及所述多个人体关键点在当前目标图像帧的视场概率，计算平滑权重。
根据权利要求2或3所述的方法，其中，所述采用所述平滑权重，对所述坐标信息以及所述视场概率进行平滑处理，包括：

基于所述平滑权重，确定所述上一目标图像帧的第一权重，以及，所述当前目标图像帧的第二权重；

基于所述第一权重以及所述第二权重，将所述上一目标图像帧的坐标信息以及所述当前目标图像帧的坐标信息进行加权计算，得到平滑后的坐标信息；

基于所述第一权重以及所述第二权重，将所述上一目标图像帧的视场概率以及所述当前目标图像帧的视场概率进行加权计算，得到平滑后的视场概率。
一种关键点检测模型训练的方法，包括：

对样本集合中的多个样本图像帧进行关键点检测，以确定每个样本图像帧所包括的多个关键点的坐标信息；

基于每个关键点的坐标信息确定所述每个关键点的视场标签，所述视场标签用于标记该关键点是否在所属的样本图像帧的拍摄视场内；

将所述多个样本图像帧的多个关键点的坐标信息以及所述视场标签作为监督信号，训练关键点检测模型，所述关键点检测模型用于在模型推理阶段对目标图像帧进行关键点检测，并输出所述目标图像帧的关键点的坐标信息以及视场概率。
根据权利要求5所述的方法，其中，所述对样本集合中的多个样本图像帧进行关键点检测，以确定每个样本图像帧所包括的多个关键点的坐标信息，包括：

将所述多个样本图像帧输入至预先生成的二维姿态网络，并获得所述二维姿态网络输出的所述多个样本图像帧的关键点的二维坐标信息；

将所述多个样本图像帧输入至预先生成的三维姿态网络，并获得所述三维姿态网络输出的所述多个样本图像帧的关键点的三维坐标信息；

基于所获得的关键点的所述二维坐标信息以及所述三维坐标信息，确定每个关键点的坐标信息。
根据权利要求6所述的方法，其中，所述二维坐标信息包括水平坐标值以及垂直坐标值，所述三维坐标信息包括X轴坐标值、Y轴坐标值以及Z轴坐标值；

所述基于所获得的关键点的所述二维坐标信息以及所述三维坐标信息，确定每个关键点的坐标信息，包括：

从所述多个样本图像帧的多个关键点中确定第一稳定关键点以及第二稳定关键点；

根据所述第一稳定关键点的二维坐标信息和三维坐标信息以及所述第二稳定关键点的二维坐标信息和三维坐标信息，确定调节系数；

采用所述调节系数对所述多个样本图像帧的多个关键点的Z轴坐标值进行调节，得到每个关键点的深度值；

将每个关键点的所述水平坐标值、所述垂直坐标值以及所述深度值作为该关键点的坐标信息。
根据权利要求7所述的方法，其中，所述根据所述第一稳定关键点的二维坐标信息和三维坐标信息以及所述第二稳定关键点的二维坐标信息和三维坐标信息，确定调节系数，包括：

确定所述第一稳定关键点的二维坐标信息以及所述第二稳定关键点的二维坐标信息的差值绝对值，作为第一差值；

确定所述第一稳定关键点的三维坐标信息以及所述第二稳定关键点的三维坐标信息的差值绝对值，作为第二差值；

将所述第一差值与所述第二差值的比值作为调节系数。
根据权利要求5-8任一项所述的方法，其中，所述坐标信息包括水平坐标值以及垂直坐标值，所述视场标签包括视场内标签以及视场外标签；

所述基于每个关键点的所述坐标信息确定所述每个关键点的视场标签，包括：

获取每个样本图像帧的宽度和高度；

以图像坐标系的原点为起点，根据所述多个样本图像帧的宽度确定水平坐标范围，根据所述多个样本图像帧的高度确定垂直坐标范围；

响应于所述每个关键点的水平坐标值在所述水平坐标范围内，或者，所述每个关键点的垂直坐标值在所述垂直坐标范围内，判定该关键点的视场标签为视场内标签；

响应于所述每个关键点的水平坐标值不在所述水平坐标范围内，以及，所述每个关键点的垂直坐标值不在所述垂直坐标范围内，判定该关键点的视场标签为视场外标签。
根据权利要求5-8任一项所述的方法，在所述确定每个样本图像帧所包括的多个关键点的坐标信息之后，还包括：

基于每个样本图像帧所包括的多个关键点的坐标信息，对所述多个样本图像帧进行图像增广处理，所述图像增广处理包括如下的至少一种：随机扰动、裁剪处理。
根据权利要求10所述的方法，其中，在所述图像增广处理包括所述裁剪处理的情况下，所述裁剪处理包括：

基于每个样本图像帧所包括的多个关键点的坐标信息确定裁剪框中心位置；

根据所述裁剪框中心位置确定裁剪框位置，并按照所述裁剪框位置将位于裁剪框以外的像素点的RGB值设置为黑色。
一种虚拟角色驱动的装置，包括：

图像采集模块，设置为采集目标图像帧，所述目标图像帧包括部分人体的图像；

人体关键点检测模块，设置为将所述目标图像帧输入至预先训练的关键点检测模型，并获得所述关键点检测模型输出的所述目标图像帧的人体关键点的坐标信息以及视场概率，所述视场概率为所述人体关键点在所述目标图像帧的拍摄视场内出现的概率；

虚拟角色驱动模块，设置为根据所述人体关键点的所述坐标信息以及所述视场概率驱动对应的虚拟角色动作。
一种关键点检测模型训练的装置，包括：

关键点检测模块，设置为对样本集合中的多个样本图像帧进行关键点检测，以确定每个样本图像帧所包括的多个关键点的坐标信息；

视场标签确定模块，设置为基于每个关键点的坐标信息确定所述每个关键点的视场标签，所述视场标签用于标记该关键点是否在所属的样本图像帧的拍摄视场内；

模型训练模块，设置为将所述多个样本图像帧的多个关键点的坐标信息以及所述视场标签作为监督信号，训练关键点检测模型，所述关键点检测模型用于在模型推理阶段对目标图像帧进行关键点检测，并输出所述目标图像帧的关键点的坐标信息以及视场概率。
一种电子设备，包括：

至少一个处理器；

存储装置，设置为存储至少一个程序，

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-11任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如权利要求1-11任一项所述的方法。
一种计算机程序产品，包括计算机可执行指令，所述计算机可执行指令在被执行时用于实现权利要求1-11中任一项所述的方法。