WO2023279704A1

WO2023279704A1 - 直播方法、装置、计算机设备、存储介质及程序

Info

Publication number: WO2023279704A1
Application number: PCT/CN2022/073729
Authority: WO
Inventors: 邱丰; 曹国良; 王佳梨; 钱晨
Original assignee: 上海商汤智能科技有限公司
Priority date: 2021-07-07
Filing date: 2022-01-25
Publication date: 2023-01-12
Also published as: CN113422977A; CN113422977B; TW202304211A

Abstract

本公开提供了一种直播方法、装置、计算机设备、存储介质及程序，其中，所述方法由电子设备执行，该方法包括：获取真实主播在直播过程中采集到的多个视频图像；对每个视频图像中的真实主播的至少一个肢体部位进行姿态检测，得到姿态检测结果；根据所述姿态检测结果，在所述至少一个肢体部位中确定当前时刻的待识别肢体部位；在确定出所述待识别肢体部位满足肢体识别的切换条件的情况下，确定所述真实主播对应的虚拟主播模型的目标动画特效，并在视频直播界面中展示所述目标动画特效，所述目标动画特效包括所述虚拟主播模型中与待识别肢体相对应的虚拟肢体执行对应肢体动作的特效。

Description

直播方法、装置、计算机设备、存储介质及程序

相关申请的交叉引用

本专利申请要求2021年7月7日提交的中国专利申请号为202110768440.1、申请人为上海商汤智能科技有限公司，申请名称为“直播方法、装置、计算机设备以及存储介质”的优先权，该申请的全文以引用的方式并入本申请中。

技术领域

本公开实施例涉及计算机技术领域，尤其涉及一种直播方法、装置、计算机设备、存储介质及程序。

背景技术

在直播的过程中，相关技术中视觉动作捕捉方案可能出现对主播的一些特殊情况无法进行处理的情况。因为受到网络摄像头的视角规格、人体和摄像头之间的距离等不确定因素的影响，使得视觉动作捕捉方案捕捉到的画面无法保证稳定性，从而导致无法保证待捕捉的对象的稳定性，进而使得直播软件无法正常运行。例如，相关技术中视觉动作捕捉方案仅进行主播的面部表情捕捉，在主播距离相机较远、相机画面包含主播上半身肢体时则无法反映肢体动作；该视觉动作捕捉方案仅进行主播半身肢体捕捉，在主播距离相机较近、肢体超出相机画面、人脸以下部分均被画面边缘截断时则无法正常运作。

发明内容

本公开实施例至少提供一种直播方法、装置、计算机设备、存储介质及程序。

第一方面，本公开实施例提供了一种直播方法，包括：获取真实主播在直播过程中采集到的多个视频图像；对每个视频图像中真实主播的至少一个肢体部位进行姿态检测，得到姿态检测结果；根据所述姿态检测结果，在所述至少一个肢体部位中确定当前时刻的待识别肢体部位；在确定出所述待识别肢体部位满足肢体识别的切换条件的情况下，确定所述真实主播对应的虚拟主播模型的目标动画特效，并在视频直播界面中展示所述目标动画特效，所述目标动画特效包括所述虚拟主播模型中与待识别肢体相对应的虚拟肢体执行对应肢体动作的特效。

在本公开实施例中，在根据多个视频图像的姿态检测结果确定出当前时刻的待识别肢体部位，并在该待识别肢体部位满足肢体识别的切换条件的情况下，在视频直播界面中切换展示包括真实主播的虚拟主播模型中与待识别肢体相对应的虚拟肢体执行对应肢体动作的目标动画特效，可以实现自动切换真实主播的待捕捉的肢体部位。例如，当真实主播距离相机较近时，通过该处理方式，可以实现平稳的从面部表情捕捉切换至肢体动作捕捉；又例如，当真实主播的肢体超出相机画面之外时，通过该处理方式，可以实现平稳的从肢体动作捕捉切换至面部表情捕捉。因此，通过切换真实主播的待捕捉的肢体部位，并在视频直播界面中切换展示目标动画特效的方式，可以缓解相关技术中由于主播距离相机较远或者肢体未在相机画面内导致的直播软件运行异常的问题，进而可以提高直播软件的直播稳定性，以使得直播软件的稳定运行。

在一些实施例中，所述对每个所述视频图像中的真实主播的至少一个肢体部位进行姿态检测，得到姿态检测结果，包括：对每个所述视频图像中真实主播的至少一个肢体部位进行肢体检测，得到肢体检测结果；根据所述肢体检测结果确定所述姿态检测结果。

上述实施方式中，通过对每个视频图像进行肢体检测的方式，可以得到真实主播的每个肢体部位的检测结果，例如，可以得到以下肢体检测结果：肢体关键点、人脸框的位置信息、人脸关键点、手部检测框的位置信息、手部关键点。在根据上述所描述的肢体检测结果确定姿态检测结果时，可以通过对上述肢体检测结果进行数据分析，从而可以得到更加全面的姿态检测结果，例如，可以得到以下姿态检测结果：人脸框的尺寸、人脸框所占画面位置的相对比例、手部检测框的位置信息、手部关键点的有效性、手臂关键点和手臂连线的有效性；进而，可以提高待识别肢体部位的识别准确率。

在一些实施例中，所述根据所述姿态检测结果在所述至少一个肢体部位中确定当前时刻的待识别肢体部位，包括：根据所述姿态检测结果，确定针对所述真实主播的肢体部位的目标投票信息；所述目标投票信息用于指示所述多个视频图像中真实主播的每个有效指定肢体部位为所述待识别肢体部位的概率；所述有效指定肢体部位为满足特效触发条件的肢体部位；基于所述目标投票信息，确定满足预设概率要求的有效指定肢体部位为所述待识别肢体部位。

上述实施方式中，为了降低直播过程中出现抖动，可以通过基于时间序列的决策稳定算法，通过对多个视频图像中真实对象的至少一个肢体部位进行姿态检测，进而根据姿态检测结果确定真实主播的肢体部位的目标投票信息，并根据该目标投票信息在至少一个有效指定肢体部位中确定多个视频图像的待识别肢体部位的方式，可以准确确定多个视频图像中真实主播的待识别肢体部位，并对该待识别肢体部位进行动作捕捉，从而提高视频直播画面的稳定性，降低信号抖动的情况。

在一些实施例中，所述根据所述姿态检测结果，确定针对所述真实主播的肢体部位的目标投票信息，包括：根据所述姿态检测结果确定每个视频图像中所包含的有效指定肢体部位，得到至少一个有效指定肢体部位；统计每个所述有效指定肢体部位，在所述多个视频图像中的出现频率；基于所述出现频率确定所述目标投票信息。

上述实施方式中，通过统计多个视频图像中真实主播的每个有效指定肢体部位的出现频率确定目标投票信息的方式，可以预测出一段时间内，真实主播的各个有效指定肢体部位出现的倾向性，从而将倾向性较高的有效肢体部位确定为待识别肢体部位，以提高直播过程的稳定性。

在一些实施例中，在基于所述目标投票信息，确定满足预设概率要求的有效指定肢体部位为所述待识别肢体部位之前，所述方法还包括：在所述多个视频图像所属的视频流中确定多个视频帧；统计所述多个视频帧中包含每个有效指定肢体部位的目标视频帧的数量，得到多个数量；基于所述多个数量确定所述预设概率要求的调整信息，以通过所述调整信息对所述预设概率要求进行调整；基于所述目标投票信息，确定满足所述调整之后的预设概率要求的有效指定肢体部位为所述待识别肢体部位。

在一些实施例中，所述基于所述多个数量确定所述预设概率要求的调整信息，包括：基于所述多个数量确定目标调整参数，其中，所述目标调整参数用于表征有效指定肢体部位在所述多个视频帧中出现的倾向程度；为所述目标调整参数中最大调整参数所对应的预设概率要求生成第一调整信息，其中，所述第一调整信息用于指示降低所述预设概率要求中包含的预设概率阈值。

上述实施方式中，通过确定调整信息，并基于该调整信息对预设概率要求进行调整，可以在直播软件稳定运行的基础上，根据每个有效指定肢体部位在多个视频帧中出现的倾向程度，更加准确的从有效指定肢体部位中确定出待识别肢体部位，以提高待识别肢体部位的准确性。

在一些实施例中，所述确定出所述待识别肢体部位满足肢体识别的切换条件，包括：获取上一时刻为所述多个视频图像所属视频流中的视频图像确定出的历史识别部位；在确定出所述历史识别部位和所述待识别肢体部位不相同的情况下，确定所述历史识别部位在所述多个视频图像中的第一目标出现频率；并在所述第一目标出现频率小于或者等于第一阈值的情况下，确定所述待识别肢体部位满足肢体识别的切换条件；或者，在确定出所述历史识别部位和所述待识别肢体部位不相同的情况下，确定所述待识别肢体部位在所述多个视频图像中的第二目标出现频率；并在所述第二目标出现频率大于或者等于第二阈值的情况下，确定所述待识别肢体部位满足肢体识别的切换条件。

上述实施方式中，通过确定出的历史识别部位，判断待识别肢体部位是否满足肢体识别的切换条件，如此，能够使得捕捉状态的切换时更换倾向于保留当前的捕捉状态，进而在出现频率的数值处于预设概率阈值附近时获得比较好的稳定效果，降低切换抖动等问题。

在一些实施例中，所述第一阈值小于或者等于预设概率要求中所指示的预设概率阈值，所述第二阈值大于或者等于预设概率要求中所指示的预设概率阈值，其中，所述预设概率要求为在所述至少一个肢体部位中确定所述待识别肢体部位的阈值要求。

在本公开实施例中，通过基于阈值带宽确定上述第一阈值和第二阈值，可以使得切换待捕捉肢体部位时更换倾向于保留当前时刻的所捕捉的肢体部位，进而可以实现在出现频率的数值处于预设概率阈值附近时获得比较好的稳定效果，降低切换抖动问题，从而进一步提高直播软件的稳定运行。

在一些实施例中，所述确定所述待识别肢体部位满足肢体识别的切换条件，还包括：在确定出所述历史识别部位和所述待识别肢体部位相同的情况下，确定不满足所述肢体识别的切换条件。

在一些实施例中，所述确定所述真实主播对应的虚拟主播模型的目标动画特效，包括：确定所述待识别肢体部位所对应的姿态信息；确定与所述姿态信息相匹配的动画特效，并将所述相匹配的动画特效作为所述目标动画特效。

上述实施方式中，通过确定与姿态信息相匹配的动画特效的方式，可以在实现面部捕捉和肢体捕捉切换的基础上，丰富动画特效的触发内容，进而提高用户的直播体验。

第二方面，本公开实施例提供了一种直播装置，包括：获取单元，配置为获取真实主播在直播过程中采集到的多个视频图像；姿态检测单元，配置为对每个所述视频图像中真实主播的至少一个肢体部位进行姿态检测，得到姿态检测结果；第一确定单元，配置为根据所述姿态检测结果在所述至少一个肢体部位中确定当前时刻的待识别肢体部位；第二确定单元，配置为在确定出所述待识别肢体部位满足肢体识别的切换条件的情况下，确定所述真实主播对应的虚拟主播模型的目标动画特效，并在视频直播界面中展示所述目标动画特效，所述目标动画特效包括所述虚拟主播模型中与待识别肢体相对应的虚拟肢体执行对应肢体动作的特效。

第三方面，本公开实施例还提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第四方面，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

本公开实施例还提供一种计算机程序，所述计算机程序包括计算机可读代码，在所述计算机可读代码在电子设备中运行的情况下，所述电子设备的处理器执行上述任一实施例所述的直播方法。

为使本公开实施例的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1A示出了本公开实施例所提供的一种直播方法的流程图；

图1B示出可以应用本公开实施例的直播方法的一种系统架构示意图；

图2示出了本公开实施例所提供的直播方法中，对每个视频图像中真实主播的至少一个肢体部位进行姿态检测，得到姿态检测结果的具体方法的流程图；

图3示出了本公开实施例所提供的直播方法中，根据姿态检测结果在至少一个肢体部位中确定当前时刻的待识别肢体部位的具体方法的流程图；

图4示出了本公开实施例所提供的一种直播装置的示意图；

图5示出了本公开实施例所提供的一种计算机设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”，仅仅是描述一种关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

经研究发现，在相关技术中视觉动捕方案可能出现对主播的一些特殊情况无法进行处理的情况。例如，因为受到网络摄像头的视角规格、人体和摄像头之间的距离等不确定因素的影响，使得捕捉到的画面无法保证稳定性，从而导致无法保证待捕捉的对象的稳定性，进而使得直播软件无法正常运行。

基于上述研究，本公开实施例提供了一种直播方法、装置、计算及设备以及存储介质。本公开实施例所提供的直播方法，可以应用于虚拟直播场景下。虚拟直播场景可以理解为使用预先设定的虚拟主播模型，如小熊猫、小兔子、卡通人物等代替真实主播的实际形象进行直播，此时，在视频直播画面中所展示出的为上述虚拟主播模型。同时，还可以根据该虚拟主播模型进行真实主播与观众的互动。

举例来说，直播设备的摄像装置可以采集包含真实主播的视频图像，然后，对视频图像中所包含的真实主播的肢体进行捕捉，从而得到真实主播的姿态信息。在确定出该姿态信息之后，就可以生成对应的驱动信号，该驱动信号用于驱动在视频直播画面中展示虚拟主播模型对应的动画特效。

在一个可选的实施方式中，真实主播可以预先设定相应的虚拟主播模型，例如，可以预先设定的虚拟主播模型为“XXX游戏中的YYY角色模型”。真实主播可以预先设定一个或多个虚拟主播模型。在开启当前时刻的虚拟直播时，可以从预先设定的一个或多个虚拟主播模型中选择一个作为当前时刻的虚拟主播模型。其中，虚拟主播模型可以为2D模型，还可以为3D模型。

在另一个可选的实施方式中，除了上述所描述方式为真实主播确定虚拟主播模型之外，还可以在获取到视频图像之后，为该视频图像中的真实主播重塑虚拟主播模型。

举例来说，可以对视频图像中所包含的真实主播进行识别，从而根据识别结果为真实主播重塑虚拟主播模型。该识别结果可以包含以下至少之一：真实主播的性别、真实主播的外貌特征、真实主播的穿戴特征等。

此时，可以从虚拟主播模型库中搜索与该识别结果相匹配的模型作为该真实主播的虚拟主播模型。例如，根据识别结果确定出真实主播在直播过程中戴鸭舌帽、所穿衣服为嘻哈风格的衣服。此时，可以从虚拟主播模型库中搜索与该“鸭舌帽”或者“嘻哈风”相匹配的虚拟主播模型作为该真实主播的虚拟主播模型。

除了在虚拟主播模型库中搜索与识别结果相匹配的模型之外，还可以基于该识别结果，通过模型构建模块，为真实主播实时构建出相应的虚拟主播模型。

这里，在实时构建该虚拟主播模型时，还可以将该真实主播在过去时刻所发起的虚拟直播所使用的虚拟主播模型作为参考，构建当前时刻该真实主播所驱动的虚拟主播模型。

通过上述所描述的确定虚拟主播模型的方式，可以实现为真实主播个性化定制相应的虚拟主播模型，从而降低千篇一律的虚拟主播模型。同时，通过个性化定制虚拟主播模型，还可以为观众留下更深刻的印象。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种直播方法进行详细介绍，本公开实施例所提供的直播方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备可以为能够安装直播软件的设备，例如，智能手机、平板电脑和计算机。在一些可能的实现方式中，该直播方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

参见图1A所示，为本公开实施例提供的一种直播方法的流程图，所述方法由电子设备执行，所述方法包括步骤S101至S107，其中：

S101：获取真实主播在直播过程中采集到的多个视频图像。

S103：对每个视频图像中真实主播的至少一个肢体部位进行姿态检测，得到姿态检测结果。

这里，多个视频图像可以为视频流中位于目标时间窗口内的多个视频帧。例如，目标时间窗口可以设置为1秒，除此之外，还可以设置目标时间窗口为2秒、3秒等任意一个数值，本公开实施例对此不做具体限定。

在本公开实施例中，可以对每个视频图像中真实主播的至少一个肢体部位进行姿态检测，得到每个视频图像中真实主播的姿态检测结果。

S105：根据所述姿态检测结果，在所述至少一个肢体部位中确定当前时刻的待识别肢体部位。

在本公开实施例中，待识别肢体部位可以为上述至少一个肢体部位中的有效指定肢体部位。

指定肢体部位可以为预先设定的肢体部位，例如，指定肢体部位可以为头部、上半身肢体部位、手部等部位。“有效”可以用于表征指定肢体部位的完整性和/或表征该指定肢体部位处于指定姿态。

这里，指定姿态可以为预先设定的一种或多种姿态。针对不同的肢体部位，可以为其设置一种或多种指定姿态，且为其设置的指定姿态可以相同，还可以不同，本公开实施例对此不作具体限定。

例如，可以确定“完整的头部”为有效的头部部位；处于“OK”姿势的手部为有效的手部部位；处于“双手合十”的上半身肢体部位为有效的肢体部位。

S107：在确定出所述待识别肢体部位满足肢体识别的切换条件的情况下，确定所述真实主播对应的虚拟主播模型的目标动画特效，并在视频直播界面中展示所述目标动画特效，所述目标动画特效包括所述虚拟主播模型中与待识别肢体相对应的虚拟肢体执行对应肢体动作的特效。

图1B示出可以应用本公开实施例的直播方法的一种系统架构示意图；如图1B所示，该系统架构中包括：视频图像终端201、网络202和控制终端203。为实现支撑一个示例性应用，视频图像获取终端201和控制终端203通过网络202建立通信连接，视频图像201通过网络202向控制终端203上报多个视频图像，控制终端203每个视频图像中真实主播的至少一个肢体部位进行姿态检测，并根据姿态检测结果，在至少一个肢体部位中确定当前时刻的待识别肢体部位；在确定出待识别肢体部位满足肢体识别的切换条件的情况下，确定真实主播对应的虚拟主播模型的目标动画特效；最后，控制终端203在视频直播界面中展示目标动画特效，并通过网络202发送给视频图像获取终端201。

作为示例，视频图像获取终端201可以包括图像采集设备，控制终端203可以包括具有视觉信息处理能力的视觉处理设备或远程服务器。网络202可以采用有线或无线连接方式。其中，当控制终端203为视觉处理设备时，视频图像获取终端201可以通过有线连接的方式与视觉处理设备通信连接，例如通过总线进行数据通信；当控制终端203为远程服务器时，视频图像获取终端201可以通过无线网络与远程服务器进行数据交互。

或者，在一些场景中，视频图像获取终端201可以是带有视频采集模组的视觉处理设备，可以是带有摄像头的主机。这时，本公开实施例的直播方法可以由视频图像获取终端201执行，上述系统架构可以不包含网络202和控制终端203。

在一个可选的实施方式中，如图2所示，上述步骤S103，对每个所述视频图像中的真实主播的至少一个肢体部位进行姿态检测，得到姿态检测结果，包括如下过程：

步骤S1031，对每个所述视频图像中真实主播的至少一个肢体部位进行肢体检测，得到肢体检测结果；

步骤S1032，根据所述肢体检测结果确定所述姿态检测结果。

在本公开实施例中，可以通过肢体检测模型对视频图像中所包含的每个肢体部位进行肢体检测，得到肢体检测结果，该肢体检测结果包含以下至少之一：肢体关键点、人脸框的位置信息、人脸关键点、手部检测框的位置信息、手部关键点。

在得到肢体检测结果之后，就可以根据该肢体检测结果确定姿态检测结果。这里，姿态检测结果包含以下至少之一：人脸框的尺寸、人脸框所占画面位置的相对比例、手部检测框的位置信息、手部关键点的有效性、手臂关键点和手臂连线的有效性。

这里，手部关键点的有效性用于表征该手部是否处于指定姿态。手臂关键点和手臂连线的有效性用于表征上半身肢体部位是否处于指定姿态。

上述实施方式中，通过对每个视频图像进行肢体检测的方式，可以得到更加全面的姿态检测结果。

在一个可选的实施方式中，如图3所示，上述步骤S105，根据所述姿态检测结果在所述至少一个肢体部位中确定当前时刻的待识别肢体部位，包括如下过程：

步骤S1051，根据所述姿态检测结果，确定针对真实主播的肢体部位的目标投票信息；其中，所述目标投票信息用于指示所述多个视频图像中真实主播的每个有效指定肢体部位为所述待识别肢体部位的概率；所述有效指定肢体部位为满足特效触发条件的肢体部位；

步骤S1052，基于所述目标投票信息，确定满足预设概率要求的有效指定肢体部位为所述待识别肢体部位。

在本公开实施例中，在得到每个视频图像的姿态检测结果之后，可以根据该姿态检测结果，在多个视频图像中真实主播的至少一个肢体部位中确定至少一个有效指定肢体部位。然后，确定每个有效指定肢体部位为下一个待识别肢体部位(或者，待捕捉肢体部位)的概率，进而得到针对真实主播的肢体部位的目标投票信息。

这里，概率可以通过每个有效指定肢体部位在多个视频图像中的出现频率来进行确定。认为出现频率越高的有效指定肢体部位被识别(或者被捕捉)的可能性越高。

在确定出目标投票信息之后，就可以根据该目标投票信息所指示的概率，确定至少一个有效指定肢体部位中满足预设概率要求的有效指定肢体部位为待识别肢体部位。

这里，可以为每个有效指定肢体部位均设置对应的预设概率要求，不同有效指定肢体部位所设置的预设概率要求可以不完全相同。其中，预设概率要求中包含对应的预设概率阈值。也即，针对不同的有效指定肢体部位，所对应的预设概率阈值可以相同，还可以不同，本公开实施例对此不作具体限定。

举例来说，假设，有效指定肢体部位为“完整的脸部”和“处于OK姿势的手部”。预先为“完整的脸部”和“处于OK姿势的手部”设置的预设概率阈值均可以为0.5。

此时，可以对多个视频图像进行姿态检测，得到姿态检测结果，并根据姿态检测结果，确定多个视频图像中有效指定肢体部位“完整的脸部”和“处于OK姿势的手部”为待识别肢体部位的概率。例如，“完整的脸部”为待识别肢体部位的概率为0.6，“处于OK姿势的手部”为待识别肢体部位的概率为0.4。之后，就可以判断出“完整的脸部”为待识别肢体部位的概率大于0.5，“处于OK姿势的手部”为待识别肢体部位的概率小于0.5。此时，可以确定出“完整的脸部”为满足预设概率要求的有效指定肢体部位，进而将该“完整的脸部”确定为待识别肢体部位。

在一个可选的实施方式中，上述步骤S1051，根据所述姿态检测结果，确定针对所述真实主播的肢体部位的目标投票信息，包括如下步骤：

(1)、根据所述姿态检测结果确定每个视频图像中所包含的有效指定肢体部位，得到至少一个有效指定肢体部位；

(2)、统计每个所述有效指定肢体部位，在所述多个视频图像中的出现频率；

(3)、基于所述出现频率确定所述目标投票信息。

在本公开实施例中，可以根据每个视频图像中真实主播的姿态检测结果确定每个视频图像中所包含的有效指定肢体部位，进而得到至少一个有效指定肢体部位。然后，统计每个有效指定肢体部位在多个视频图像中的出现频率，将该出现频率，确定为每个有效指定肢体部位为待识别肢体部位的概率，从而得到目标投票信息。

下面，以有效指定肢体部位为“完整的脸部”和“处于OK姿势的手部”为例，来对上述过程进行举例说明。

在帧率较为稳定的直播设备上，可以获取固定数量多个视频图像，或者在帧率受设备性能影响较不稳定的直播设备上，获取固定时长(也即，动态数量)的多个视频图像，例如，可以选择30个视频图像。

此时，可以对每个视频图像进行姿态检测，得到姿态检测结果；并根据该姿态检测结果确定每个视频图像中所包含的有效指定肢体部位是“完整的脸部”，还是“处于OK姿势的手部”。如果确定出该有效指定肢体部位是“完整的脸部”，则确定该视频图像所对应的单帧切换信号为“1”，表示进入面部捕捉状态，反之，该视频图像所对应的单帧切换信号为“0”，表示进入肢体捕捉状态。

此时，可以统计进入面部捕捉状态的单帧切换信号的数量，进而根据该数量确定单帧切换信号为“1”的视频图像的出现频率，即面部捕捉的出现频率freq1＝(最近30帧内判断进入面部捕捉模式的单帧切换信号出现的帧数)/30；同时，还可以确定单帧切换信号为“0”的视频图像的出现频率，即肢体捕捉状态的出现频率freq2＝(最近30帧内判断进入肢体捕捉模式的单帧切换信号出现的帧数)/30。在得到上述出现频率之后，就可以将上述出现频率确定为目标投票信息中的概率。

在一个可选的实施方式中，在基于所述目标投票信息，确定满足预设概率要求的有效指定肢体部位为所述待识别肢体部位之前，该方法还包括如下过程，包括：

(1)、在所述多个视频图像所属的视频流中确定多个视频帧；

(2)、统计所述多个视频帧中包含每个有效指定肢体部位的目标视频帧的数量，得到多个数量；

(3)、基于所述多个数量确定所述预设概率要求的调整信息，以通过所述调整信息对所述预设概率要求进行调整，包括如下过程：

(31)、基于所述多个数量确定目标调整参数，其中，所述目标调整参数用于表征有效指定肢体部位在所述多个视频帧中出现的倾向程度；

(32)、为所述目标调整参数中最大调整参数所对应的预设概率要求生成第一调整信息，其中，所述第一调整信息用于指示降低所述预设概率要求中包含的预设概率阈值。

(4)、基于所述目标投票信息，确定满足所述调整之后的预设概率要求的有效指定肢体部位为所述待识别肢体部位。

在本公开实施例中，在帧率较为稳定的直播设备上，可以获取固定数量多个视频帧，或者在帧率受设备性能影响较不稳定的直播设备上，获取固定时长(也即，动态数量)的多个视频帧，例如，可以选择90个视频帧。

这里，视频帧与上述视频图像不同，该视频帧用于确定预设概率要求的第一调整信息。例如，上述所所选择的90个视频帧可以为包含上述多个视频图像的视频帧，还可以为不包含上述多个视频图像的视频帧，本公开实施例对此不作具体限定。

在得到90个视频帧之后，就可以统计90个视频帧中包含每个有效指定肢体部位的目标视频帧的数量，得到多个数量。此时，就可以基于logistic函数等非线性函数构建映射关系，得到自适应参数p(即，上述目标调整参数)的值，其中，上述映射关系为：p＝logistic((最近90帧内包含每个有效指定肢体部位的目标视频帧的数量)/90)。

应理解的是，假设p＝logistic((最近90帧内包含每个有效指定肢体部位的目标视频帧的数量)，此时，当该自适应参数p越接近1.0时，说明真实主播最近一段时间有效面部出现的倾向性越高，则应当对预设概率要求进行调整，使得调整之后的预设概率要求更倾向于触发面部捕捉。反之，当自适应参数越接近0.0，说明真实主播最近一段时间有效面部出现的倾向性较低，则应当对预设概率要求进行调整，使得调整之后的预设概率要求更倾向于触发其他有效指定肢体部位的捕捉。

在得到上述自适应参数之后，就可以基于该自适应参数(目标调整参数)，确定预设概率要求的调整信息，以通过调整信息对预设概率要求进行调整。并基于目标投票信息，确定满足调整之后的预设概率要求的有效肢体部件为待识别肢体部位。

这里，调整信息用于指示需要进行调整的预设概率要求，以及对该预设概率要求进行调整的调整方式(例如，提高预设概率要求，降低预设概率要求)。

在一个可选的实施方式中，基于该自适应参数(目标调整参数)，确定预设概率要求的调整信息，包括如下过程：

为所述目标调整参数中最大调整参数所对应的预设概率要求生成第一调整信息，其中，所述第一调整信息用于指示降低所述预设概率要求中包含的预设概率阈值。

在本公开实施例中，针对每个有效指定肢体部位，均可以确定出一个数量，即：多个视频帧中包含该每个有效指定肢体部位的目标视频帧的数量；通过映射关系p＝logistic((最近90帧内包含每个有效指定肢体部位的目标视频帧的数量)，可以为每个数量确定出相应的目标调整参数(也即，自适应参数)。

针对多个有效指定肢体部位，可以确定出多个目标调整参数，按照上述描述可知，多个目标调整参数中越接近于1，说明真实主播最近一段时间有效面部出现的倾向性越高。此时，可以基于最接近于1的目标调整参数(即最大调整参数)，对该目标调整参数所对应有效指定肢体部位A所对应的预设概率要求(也即最大调整参数所对应的预设概率要求)生成第一调整信息，从而根据第一调整信息降低该预设概率要求中包含的预设概率阈值，从而使得调整之后的预设概率要求更倾向于触发有效指定肢体部位A的捕捉。

举例来说，有效指定肢体部位为2个，即有效指定肢体部位A和有效指定肢体部位B。那么每个有效指定肢体部位所对应的预设概率要求中包含的预设概率阈值可以为0.5。假设，按照上述所描述的方法，确定出2个有效指定肢体部位中目标调整参数最接近于1的为基于有效指定肢体部位A确定出目标调整参数，此时，可以为有效指定肢体部位A生成第一调整信息，用于降低有效指定肢体部位A所对应的预设概率阈值，例如，将0.5降低至0.45，从而使得调整之后的预设概率要求更倾向于触发有效指定肢体部位A。

上述实施方式中，通过确定调整信息，并基于该调整信息对预设概率要求进行调整，在直播软件稳定运行的基础上，可以根据每个有效指定肢体部位在多个视频帧中出现的倾向程度，更加准确的从有效指定肢体部位中确定出待识别肢体部位，以提高待识别肢体部位的准确性。

在一个可选的实施方式中，上述步骤S107，确定出所述待识别肢体部位满足肢体识别的切换条件，包括如下过程：

(1)、获取上一时刻为所述多个视频图像所属视频流中的视频图像确定出的历史识别部位。

这里的视频图像为上一时刻为步骤S105中当前时刻的上一时刻。例如，当前时刻为T，那么当前时刻T的上一时刻T-1。此时，该步骤中的视频图像可以为视频流中上一时刻T-1所对应的视频图像。历史识别部位为基于上一时刻T-1所对应的视频图像确定出的真实主播的待捕捉的肢体部位。

(2)、在确定出所述历史识别部位和所述待识别肢体部位不相同的情况下，确定所述历史识别部位在所述多个视频图像中的第一目标出现频率；并在所述第一目标出现频率小于或者等于第一阈值的情况下，确定所述待识别肢体部位满足肢体识别的切换条件；

(3)、在确定出所述历史识别部位和所述待识别肢体部位不相同的情况下，确定所述待识别肢体部位在所述多个视频图像中的第二目标出现频率；并在所述第二目标出现频率大于或者等于第二阈值的情况下，确定所述待识别肢体部位满足肢体识别的切换条件。

这里，第一阈值小于或者等于预设概率要求中所指示的预设概率阈值，第二阈值大于或者等于预设概率要求中所指示的预设概率阈值，其中，所述预设概率要求为在所述至少一个肢体部位中确定所述待识别肢体部位的阈值要求。

(4)、在确定出所述历史识别部位和所述待识别肢体部位相同的情况下，确定不满足所述肢体识别的切换条件。

在本公开实施例中，可以获取上一次为视频流中的视频图像确定出的历史识别部位。如果确定出历史识别部位和待识别肢体部位相同的情况下，则不需要切换捕捉模式，确定不满足肢体识别的切换条件。

如果确定出历史识别部位和待识别肢体部位不相同，则还需要确定历史识别部位在多个视频图像中的第一目标出现频率。如果该第一目标出现频率小于或者等于第一阈值，则确定满足切换条件，否则不满足切换条件。

这里，第一阈值＝预设概率阈值-阈值带宽，其中，阈值带宽的取值与预设概率阈值相关联。

例如，预设概率阈值为0.5，那么阈值带宽可以设定为0.05；又例如，预设概率阈值为0.33，那么阈值带宽可以设定为0.03。也就是说，阈值带宽可以理解为与预设概率阈值之间具有特定映射关系的数值。

如果确定出历史识别部位和待识别肢体部位不相同，则还需要确定待识别肢体部位在多个视频图像中的第二目标出现频率。如果该第二目标出现频率大于第二阈值，则确定满足切换条件，否则不满足切换条件。

这里，第二阈值＝预设概率阈值+阈值带宽，其中，阈值带宽的取值与预设概率阈值相关联。

在本公开实施例中，通过基于阈值带宽确定上述第一阈值或者第二阈值，可以使得捕捉状态的切换时更换倾向于保留当前的捕捉状态，进而在出现频率的数值处于预设概率阈值附近时获得比较好的稳定效果，降低切换抖动等问题。

在一个可选的实施方式中，有效指定肢体部位为两个，分别为有效指定肢体部位A和有效指定肢体部位B。其中，有效指定肢体部位A可以理解为对视频图像进行面部捕捉，有效指定肢体部位B可以理解为对视频图像进行肢体捕捉，预设概率阈值为0.5，阈值带宽为b＝0.05。

情况一：历史识别部位为有效指定肢体部位A。

在此情况下，如果待识别肢体部位为有效指定肢体部位B，且检测到有效指定肢体部位A在多个视频图像中的目标出现频率小于或者等于第一阈值(0.5-0.05)的情况下，确定有效指定肢体部位B满足切换条件，则从面部捕捉切换至肢体捕捉。

在此情况下，如果待识别肢体部位为有效指定肢体部位B，且检测到有效指定肢体部位B在多个视频图像中的目标出现频率大于或者等于第一阈值(0.5+0.05)的情况下，确定有效指定肢体部位B满足切换条件，则从面部捕捉切换至肢体捕捉。

情况二：历史识别部位为有效指定肢体部位B。

在此情况下，如果待识别肢体部位为有效指定肢体部位A，且检测到有效指定肢体部位B在多个视频图像中的目标出现频率小于或者等于第一阈值(0.5-0.05)的情况下，确定有效指定肢体部位A满足切换条件，则从面部捕捉切换至肢体捕捉。

在此情况下，如果待识别肢体部位为有效指定肢体部位A，且检测到有效指定肢体部位A在多个视频图像中的目标出现频率大于或者等于第一阈值(0.5+0.05)的情况下，确定有效指定肢体部位A满足切换条件，则从面部捕捉切换至肢体捕捉。

情况三：历史识别部位与待识别肢体部位相同。

在确定出历史识别部位和待识别肢体部位相同的情况下，确定不满足所述肢体识别的切换条件。

在一个可选的实施方式中，上述步骤S107，确定所述真实主播对应的虚拟主播模型的目标动画特效，包括：

步骤S1071，确定所述待识别肢体部位所对应的姿态信息；

步骤S1072，确定与所述姿态信息相匹配的动画特效，并将所述相匹配的动画特效作为所述目标动画特效。

在本公开实施例中，在按照上述所描述的方式确定出待识别肢体部位之后，可以确定该待识别肢体部位所对应的姿态信息，进而，确定与该姿态信息相匹配的动画特效。

例如，该姿态信息为“OK”的姿态，或者为“比心”的姿态，真实主播处于不同姿态下可以对应不同的动画特效。

下面将结合具体实施方式对上述所描述的特效展示方法进行介绍。

假设，真实主播记为主播A，真实主播所驱动的虚拟主播模型为“兔子公主”。主播A所选用的直播设备为智能手机，在该智能手机上设置有相机。

这里，首先，通过相机采集真实主播在直播过程中的视频图像；然后，对视频图像中主播A的指定肢体部位进行肢体检测，得到肢体检测结果。肢体检测结果包含以下至少之一：肢体关键点、人脸框的尺寸、人脸框的位置信息、手部检测框的尺寸、手部检测框的位置信息。之后，可以根据肢体检测结果确定以下姿态检测结果：人脸框的尺寸、人脸框所占画面位置的相对比例、手部检测框的位置信息、手部关键点的有效性、手臂关键点和手臂连线的有效性。

在确定出姿态检测结果之后，可以根据姿态检测结果，确定每个视频图像中所包含的有效指定肢体部位，得到至少一个有效指定肢体部位。例如，至少一个有效指定肢体部位为：OK的手势，以及完整的面部表情。

之后，可以统计“OK的手势”和“完整的面部表情”，在多个视频图像中的出现频率；进而，根据该出现频率确定针对每个有效指定肢体部位的目标投票信息，即每个有效指定肢体部位为所述待识别肢体部位的概率。最后，将目标投票信息中概率最高的有效指定肢体部位确定待识别肢体部位。例如，OK的手势出现频率最高，该OK的手势为待识别肢体部位。

在确定出待识别肢体部位之后，还可以判断待识别肢体部位是否满足肢体识别的切换条件。例如，获取上一时刻为多个视频图像所属视频流中的视频图像确定出的历史识别部位。若该历史识别部位是“面部表情”，那么可以检测历史识别部位在多个视频图像中的目标出现频率。如果该目标出现频率小于或者等于第一阈值(比如，0.5至0.05)，确定“OK的手势”满足切换条件，则从面部捕捉切换至肢体捕捉；否则不满足切换条件，不进行动作捕捉的切换。通过该处理方式，可以使得捕捉状态的切换时更换倾向于保留当前的捕捉状态，进而在出现频率的数值处于预设概率阈值附近时获得比较好的稳定效果，降低切换抖动等问题。

在确定出所述待识别肢体部位满足肢体识别的切换条件的情况下，就可以确定“OK的手势”所对应的姿态信息，并确定与姿态信息相匹配的动画特效，并将相匹配的动画特效作为所述目标动画特效。该目标动画特效包括“兔子公主”中与待识别肢体部位相对应虚拟肢体执行对应肢体动作的特效，例如，“兔子公主”的手部和手臂可以执行“OK姿势”，同时，还可以在视频直播画面中展示出对应的贴纸特效，例如，可以在视频直播画面的指定位置上，展示出“爱心贴纸”等素材特效。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与直播方法对应的直播装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述直播方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图4所示，为本公开实施例提供的一种直播装置的示意图，所述装置包括：获取单元41、姿态检测单元42、第一确定单元43、第二确定单元44；其中，

获取单元41，配置为获取真实主播在直播过程中采集到的多个视频图像；

姿态检测单元42，配置为对每个视频图像中真实主播的至少一个肢体部位进行姿态检测，得到姿态检测结果；

第一确定单元43，配置为根据所述姿态检测结果，在所述至少一个肢体部位中确定当前时刻的待识别肢体部位；

第二确定单元44，配置为在确定出所述待识别肢体部位满足肢体识别的切换条件的情况下，确定所述真实主播对应的虚拟主播模型的目标动画特效，并在视频直播界面中展示所述目标动画特效，所述目标动画特效包括所述虚拟主播模型中与待识别肢体相对应的虚拟肢体执行对应肢体动作的特效。

在本公开实施例中，在得到姿态检测结果，根据姿态检测结果在目标视频图像所包含的至少一个肢体部位中确定当前时刻的待识别肢体部位，并在该待识别肢体部位满足肢体识别的切换条件的情况下，在视频直播界面中切换展示该待识别肢体部位所触发展示的动画特效，可以在直播过程中真实主播的肢体状态不稳定的情况下，对真实主播的待识别肢体部位进行平稳的切换，从而使得直播软件能够正常运行，进而提高用户使用直播软件的体验。

在一些实施例中，姿态检测单元42，还配置为：对每个所述视频图像中真实主播的至少一个肢体部位进行肢体检测，得到肢体检测结果；根据所述肢体检测结果确定所述姿态检测结果。

在一些实施例中，第一确定单元43，还配置为：根据所述姿态检测结果，确定针对所述真实主播的肢体部位的目标投票信息；所述目标投票信息用于指示所述多个视频图像中真实主播的每个有效指定肢体部位为所述待识别肢体部位的概率；所述有效指定肢体部位为满足特效触发条件的肢体部位；基于所述目标投票信息，确定满足预设概率要求的有效指定肢体部位为所述待识别肢体部位。

在一些实施例中，第一确定单元43，还配置为：根据所述姿态检测结果确定每个视频图像中所包含的有效指定肢体部位，得到至少一个有效指定肢体部位；统计每个所述有效指定肢体部位，在所述多个视频图像中的出现频率；基于所述出现频率确定所述目标投票信息。

在一些实施例中，该装置，还配置为：在所述多个视频图像所属的视频流中确定多个视频帧；统计所述多个视频帧中包含每个有效指定肢体部位的目标视频帧的数量，得到多个数量；基于所述多个数量确定所述预设概率要求的调整信息，以通过所述调整信息对所述预设概率要求进行调整；基于所述目标投票信息，确定满足所述调整之后的预设概率要求的有效指定肢体部位为所述待识别肢体部位。

在一些实施例中，该装置，还配置为：基于所述多个数量确定目标调整参数，其中，所述目标调整参数配置为表征有效指定肢体部位在所述多个视频帧中出现的倾向程度；为所述目标调整参数中最大调整参数所对应的预设概率要求生成第一调整信息，其中，所述第一调整信息配置为指示降低所述预设概率要求中包含的预设概率阈值。

在一些实施例中，该装置，还配置为：获取上一时刻为所述多个视频图像所属视频流中的视频图像确定出的历史识别部位；在确定出所述历史识别部位和所述待识别肢体部位不相同的情况下，确定所述历史识别部位在所述多个视频图像中的第一目标出现频率；并在所述第一目标出现频率小于或者等于第一阈值的情况下，确定所述待识别肢体部位满足肢体识别的切换条件；或者，在确定出所述历史识别部位和所述待识别肢体部位不相同的情况下，确定所述待识别肢体部位在所述多个视频图像中的第二目标出现频率；并在所述第二目标出现频率大于或者等于第二阈值的情况下，确定所述待识别肢体部位满足肢体识别的切换条件。

在一些实施例中，该装置，还配置为：在确定出所述历史识别部位和所述待识别肢体部位相同的情况下，确定不满足所述肢体识别的切换条件。

在一些实施例中，所述第一阈值小于或者等于预设概率要求中所指示的预设概率阈值，其中，所述预设概率要求为在所述至少一个肢体部位中确定所述待识别肢体部位的阈值要求。

在一些实施例中，第二确定单元44，配置为：确定所述待识别肢体部位所对应的姿态信息；确定与所述姿态信息相匹配的动画特效，并将所述相匹配的动画特效作为所述目标动画特效。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

对应于图1中的直播方法，本公开实施例还提供了一种计算机设备500，如图5所示，为本公开实施例提供的计算机设备500结构示意图，包括：

处理器51、存储器52、和总线53；存储器52用于存储执行指令，包括内存521和外部存储器522；这里的内存521也称内存储器，用于暂时存放处理器51中的运算数据，以及与硬盘等外部存储器522交换的数据，处理器51通过内存521与外部存储器522进行数据交换，当所述计算机设备500运行时，所述处理器51与所述存储器52之间通过总线53通信，使得所述处理器51执行以下指令：

获取真实主播在直播过程中采集到的多个视频图像；对每个视频图像中真实主播的至少一个肢体部位进行姿态检测，得到姿态检测结果；根据所述姿态检测结果，在所述至少一个肢体部位中确定当前时刻的待识别肢体部位；在确定出所述待识别肢体部位满足肢体识别的切换条件的情况下，确定所述真实主播对应的虚拟主播模型的目标动画特效，并在视频直播界面中展示所述目标动画特效，所述目标动画特效包括所述虚拟主播模型中与待识别肢体相对应的虚拟肢体执行对应肢体动作的特效。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的直播方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的直播方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

本公开实施例中涉及的设备可以是系统、方法和计算机程序产品中的至少之一。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(Random Access Memory，RAM)、只读存储器(Read-Only Memory，ROM)、可擦除可编程只读存储器(Electrical Programmable Read Only Memory，EPROM)或闪存、静态随机存取存储器(Static Random-Access Memory，SRAM)、便携式压缩盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、数字多功能盘(Digital Video Disc，DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和无线网中的至少之一下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和边缘服务器中的至少之一。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(Industry Standard Architecture，ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言，诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(Local Area Network，LAN)或广域网(Wide Area Network，WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、FPGA或可编程逻辑阵列(Programmable Logic Arrays，PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开实施例的各个方面。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开实施例的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开实施例的具体实施方式，用以说明本公开实施例的技术方案，而非对其限制，本公开实施例的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开实施例的保护范围应所述以权利要求的保护范围为准。

工业实用性

本公开实施例提供了一种直播方法、装置、计算机设备、存储介质及程序，其中，该方法包括：获取真实主播在直播过程中采集到的多个视频图像；对每个视频图像中的真实主播的至少一个肢体部位进行姿态检测，得到姿态检测结果；根据所述姿态检测结果，在所述至少一个肢体部位中确定当前时刻的待识别肢体部位；在确定出所述待识别肢体部位满足肢体识别的切换条件的情况下，确定所述真实主播对应的虚拟主播模型的目标动画特效，并在视频直播界面中展示所述目标动画特效，所述目标动画特效包括所述虚拟主播模型中与待识别肢体相对应的虚拟肢体执行对应肢体动作的特效。

Claims

一种直播方法，所述方法由电子设备执行，包括：

获取真实主播在直播过程中采集到的多个视频图像；

对每个视频图像中真实主播的至少一个肢体部位进行姿态检测，得到姿态检测结果；

根据所述姿态检测结果，在所述至少一个肢体部位中确定当前时刻的待识别肢体部位；

在确定出所述待识别肢体部位满足肢体识别的切换条件的情况下，确定所述真实主播对应的虚拟主播模型的目标动画特效，并在视频直播界面中展示所述目标动画特效，所述目标动画特效包括所述虚拟主播模型中与所述待识别肢体部位相对应的虚拟肢体执行对应肢体动作的特效。
根据权利要求1所述的方法，其中，所述对每个视频图像中的真实主播的至少一个肢体部位进行姿态检测，得到姿态检测结果，包括：

对每个所述视频图像中真实主播的至少一个肢体部位进行肢体检测，得到肢体检测结果；

根据所述肢体检测结果确定所述姿态检测结果。
根据权利要求1或2中任一项所述的方法，其中，所述根据所述姿态检测结果，在所述至少一个肢体部位中确定当前时刻的待识别肢体部位，包括：

根据所述姿态检测结果，确定针对所述真实主播的肢体部位的目标投票信息；所述目标投票信息用于指示所述多个视频图像中真实主播的每个有效指定肢体部位为所述待识别肢体部位的概率；所述有效指定肢体部位为满足特效触发条件的肢体部位；

基于所述目标投票信息，确定满足预设概率要求的有效指定肢体部位为所述待识别肢体部位。
根据权利要求3所述的方法，其中，所述根据所述姿态检测结果，确定针对所述真实主播的肢体部位的目标投票信息，包括：

根据所述姿态检测结果确定每个视频图像中所包含的有效指定肢体部位，得到至少一个有效指定肢体部位；

统计每个所述有效指定肢体部位，在所述多个视频图像中的出现频率；

基于所述出现频率确定所述目标投票信息。
根据权利要求3或4所述的方法，其中，在基于所述目标投票信息，确定满足预设概率要求的有效指定肢体部位为所述待识别肢体部位之前，所述方法还包括：

在所述多个视频图像所属的视频流中确定多个视频帧；

统计所述多个视频帧中包含每个有效指定肢体部位的目标视频帧的数量，得到多个数量；

基于所述多个数量确定所述预设概率要求的调整信息，以通过所述调整信息对所述预设概率要求进行调整；

基于所述目标投票信息，确定满足所述调整之后的预设概率要求的有效指定肢体部位为所述待识别肢体部位。
根据权利要求5所述的方法，其中，所述基于所述多个数量确定所述预设概率要求的调整信息，包括：

基于所述多个数量确定目标调整参数，其中，所述目标调整参数用于表征有效指定肢体部位在所述多个视频帧中出现的倾向程度；

为所述目标调整参数中最大调整参数所对应的预设概率要求生成第一调整信息，其中，所述第一调整信息用于指示降低所述预设概率要求中包含的预设概率阈值。
根据权利要求1至6中任一项所述的方法，其中，所述确定出所述待识别肢体部位满足肢体识别的切换条件，包括：

获取上一时刻为所述多个视频图像所属视频流中的视频图像确定出的历史识别部位；

在确定出所述历史识别部位和所述待识别肢体部位不相同的情况下，确定所述历史识别部位在所述多个视频图像中的第一目标出现频率；并在所述第一目标出现频率小于或者等于第一阈值的情况下，确定所述待识别肢体部位满足肢体识别的切换条件；

或者

在确定出所述历史识别部位和所述待识别肢体部位不相同的情况下，确定所述待识别肢体部位在所述多个视频图像中的第二目标出现频率；并在所述第二目标出现频率大于或者等于第二阈值的情况下，确定所述待识别肢体部位满足肢体识别的切换条件。
根据权利要求7所述的方法，其中，所述确定所述待识别肢体部位满足肢体识别的切换条件，还包括：

在确定出所述历史识别部位和所述待识别肢体部位相同的情况下，确定不满足所述肢体识别的切换条件。
根据权利要求7或8中所述的方法，其中，所述第一阈值小于或者等于预设概率要求中所指示的预设概率阈值，所述第二阈值大于或者等于预设概率要求中所指示的预设概率阈值，其中，所述预设概率要求为在所述至少一个肢体部位中确定所述待识别肢体部位的阈值要求。
根据权利要求1至9中任一项所述的方法，其中，所述确定所述真实主播对应的虚拟主播模型的目标动画特效，包括：

确定所述待识别肢体部位所对应的姿态信息；

确定与所述姿态信息相匹配的动画特效，并将所述相匹配的动画特效作为所述目标动画特效。
一种直播装置，其中，包括：

获取单元，配置为获取真实主播在直播过程中采集到的多个视频图像；

姿态检测单元，配置为对每个视频图像中真实主播的至少一个肢体部位进行姿态检测，得到姿态检测结果；

第一确定单元，配置为根据所述姿态检测结果，在所述至少一个肢体部位中确定当前时刻的待识别肢体部位；

第二确定单元，配置为在确定出所述待识别肢体部位满足肢体识别的切换条件的情况下，确定所述真实主播对应的虚拟主播模型的目标动画特效，并在视频直播界面中展示所述目标动画特效，所述目标动画特效包括所述虚拟主播模型中与待识别肢体相对应的虚拟肢体执行对应肢体动作的特效。
一种计算机设备，其中，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至10任一所述的直播方法的步骤。
一种计算机可读存储介质，其中，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至10任一所述的直播方法的步骤。
一种计算机程序，所述计算机程序包括计算机可读代码，在所述计算机可读代码在电子设备中运行的情况下，所述电子设备的处理器执行用于实现如权利要求1至10任一所述的增强现实场景下的展示方法。