WO2020221186A1

WO2020221186A1 - 一种虚拟形象控制方法、装置、电子设备及存储介质

Info

Publication number: WO2020221186A1
Application number: PCT/CN2020/087139
Authority: WO
Inventors: 徐子豪; 吴施祈
Original assignee: 广州虎牙信息科技有限公司
Priority date: 2019-04-30
Filing date: 2020-04-27
Publication date: 2020-11-05
Also published as: SG11202111640RA; US20220214797A1

Abstract

本申请实施例提供了一种虚拟形象控制方法、装置、电子设备及存储介质，涉及直播技术领域；其中，该虚拟形象控制方法包括：对直播发起端发送的主播视频帧进行分析，生成动作控制指令；其中，主播视频帧由直播发起端对主播进行拍摄得到，动作控制指令被配置成对直播接收端直播画面中的虚拟形象进行控制；判断是否获得主播对应的虚拟机位控制指令；若获得虚拟机位控制指令，则根据该虚拟机位控制指令和动作控制指令对虚拟形象进行控制；如此，能够展示不同机位下的虚拟形象，从而营造出舞台表演的效果，进而提高虚拟形象展示的趣味性，提升虚拟形象直播过程中的用户体验。

Description

一种虚拟形象控制方法、装置、电子设备及存储介质

相关申请的交叉引用

本申请要求于2019年4月30日提交中国专利局的申请号为201910358491X、名称为“虚拟形象控制方法、虚拟形象控制装置和电子设备”的中国专利申请的优先权，以及要求于2019年4月30日提交中国专利局的申请号为2019103583847、名称为“虚拟形象显示方法、虚拟形象显示装置和电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及直播技术领域，具体而言，提供一种虚拟形象控制方法、装置、电子设备及存储介质。

背景技术

在例如网络直播等场景中，为了提高直播的趣味性，可以采用虚拟形象替代主播的实际形象在直播画面中进行展示。但是，一些常见的直播技术中对虚拟形象的控制精度一般较低，从而导致结合虚拟形象进行直播的方案存在趣味性不足的问题。

发明内容

本申请的目的在于提供一种虚拟形象控制方法、装置、电子设备及存储介质，能够展示出不同机位下的虚拟形象，从而营造出舞台表演的效果，提升结合虚拟形象进行直播时的用户体验。

为实现上述目的中的至少一个目的，本申请采用的技术方案如下：

本申请实施例提供了一种虚拟形象控制方法，所述方法包括：

对直播发起端发送的主播视频帧进行分析，生成动作控制指令；其中，所述主播视频帧由所述直播发起端对主播进行拍摄得到，所述动作控制指令被配置成对直播接收端直播画面中的虚拟形象进行控制；

判断是否获得所述主播对应的虚拟机位控制指令；

若获得所述虚拟机位控制指令，则根据所述虚拟机位控制指令和所述动作控制指令对所述虚拟形象进行控制。

可选地，作为一种可能的实现方式，所述判断是否获得所述主播对应的虚拟机位控制指令的步骤，包括：

判断是否接收到所述直播接收端发送的与所述主播对应的虚拟机位控制指令。

可选地，作为一种可能的实现方式，所述判断是否接收到所述直播接收端发送的与所述主播对应的虚拟机位控制指令的步骤，包括：

在接收到所述直播接收端发送的虚拟机位操作指令时，判断所述虚拟机位操作指令是否符合第一预设条件，其中，所述第一预设条件基于所述直播接收端对应的用户历史数据确定；

若所述虚拟机位操作指令符合所述第一预设条件，则判定获得所述虚拟机位操作指令。

判断是否获得基于所述主播对应的信息生成的虚拟机位控制指令。

可选地，作为一种可能的实现方式，所述判断是否获得基于所述主播对应的信息生成的所述虚拟机位控制指令的步骤，包括：

判断是否获得基于所述主播对应的操作信息生成的虚拟机位控制指令。

可选地，作为一种可能的实现方式，所述判断是否获得基于所述主播对应的操作信息生成的虚拟机位控制指令的步骤，包括：

在接收到基于所述主播对应的操作信息生成的语音信息时，判断该语音信息中是否具有第一预设信息，并在具有该第一预设信息时，判定获取基于所述主播对应的操作信息生成的虚拟机位控制指令。

可选地，作为一种可能的实现方式，所述第一预设信息包括关键词信息和/或旋律特征信息。

可选地，作为一种可能的实现方式，所述判断是否获得基于所述主播对应的信息生成的虚拟机位控制指令的步骤，包括：

基于对所述主播视频帧进行分析得到的结果，判断是否获得基于所述主播对应的信息生成的虚拟机位控制指令。

可选地，作为一种可能的实现方式，所述基于对所述主播视频帧进行分析得到的结果，判断是否获得基于所述主播对应的信息生成的虚拟机位控制指令的步骤，包括：

基于对所述主播视频帧进行信息提取得到的图像信息，判断该图像信息中是否具有第二预设信息，并在具有该第二预设信息时，判定获得基于所述主播对应的信息生成的虚拟机位控制指令。

可选地，作为一种可能的实现方式，所述第二预设信息包括动作信息、深度信息、标识物件信息和/或标识颜色信息。

在接收到所述直播接收端发送的虚拟机位操作指令时，判断所述虚拟机位操作指令是否符合第二预设条件；其中，所述第二预设条件基于所述主播对应的用户历史数据确定；

若所述虚拟机位操作指令符合基于所述第二预设条件，则判定获得所述虚拟机位操作指令。

可选地，作为一种可能的实现方式，所述根据所述虚拟机位控制指令和所述动作控制指令对所述虚拟形象进行控制的步骤，包括：

根据所述动作控制指令对所述虚拟形象在所述直播画面中的展示姿态进行控制；

根据所述虚拟机位控制指令对所述虚拟形象在所述直播画面中的展示大小和/或展示角度进行控制。

可选地，作为一种可能的实现方式，所述虚拟机位操作指令中包括角度参数；

所述根据所述虚拟机位控制指令对所述虚拟形象在所述直播画面中的展示大小和/或展示角度进行控制的步骤，包括：

控制所述直播画面停止显示所述主播视频帧，并获取预先针对所述虚拟形象构建的三维图像数据中所述角度参数对应的部分三维视角数据。

可选地，作为一种可能的实现方式，所述虚拟机位操作指令中包括角度信息；

控制所述直播画面停止显示所述主播视频帧，根据该主播视频帧对预先针对所述虚拟形象构建的三维图像数据进行调整，并获取在调整后的三维图像数据中所述角度参数对应的部分三维视角数据。

可选地，作为一种可能的实现方式，所述根据该主播视频帧对预先针对所述虚拟形象构建的三维图像数据进行调整的步骤，包括：

获取所述主播视频帧中的目标特征点的坐标信息，并基于该坐标信息计算得到虚拟形象的其它特征点的坐标信息；

根据所述坐标信息对预先针对所述虚拟形象构建的三维图像数据进行调整。

可选地，作为一种可能的实现方式，所述虚拟机位操作指令中包括缩放参数；

根据所述缩放参数和所述虚拟形象的初始大小确定在所述直播画面中虚拟形象的展示大小。

可选地，作为一种可能的实现方式，还包括：

获取所述虚拟形象基于各展示角度在所述直播接收端的显示次数；

根据各展示角度对应的显示次数确定在基于该展示角度对所述虚拟形象进行显示时的数据量。

可选地，作为一种可能的实现方式，所述对直播发起端发送的主播视频帧进行分析，生成动作控制指令的步骤，包括：

对直播发起端发送的每一主播视频帧进行图像分析，并根据每一主播视频帧的图像分析结果生成动作控制指令；或

每隔预设周期提取直播发起端发送的主播视频帧中的当前视频帧，对该当前视频帧进行图像分析，并根据对该当前视频帧的图像分析结果生成动作控制指令。

本申请实施例还提供一种虚拟形象控制装置，所述装置包括：

控制指令生成模块，被配置成对直播发起端发送的主播视频帧进行分析，生成动作控制指令；其中，所述主播视频帧由所述直播发起端对主播进行拍摄得到，所述动作控制指令被配置成对直播接收端直播画面中的虚拟形象进行控制；

控制指令判断模块，被配置成判断是否获得所述主播对应的虚拟机位控制指令；

虚拟形象控制模块，被配置成在获得所述虚拟机位控制指令时，根据所述虚拟机位控制指令和所述动作控制指令对所述虚拟形象进行控制。

本申请实施例还提供一种电子设备，包括存储器、处理器和存储于该存储器并能够在该处理器上运行的计算机程序，该计算机程序在该处理器上运行时实现上述的虚拟形象控制方法。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被执行时实现上述的虚拟形象控制方法。

附图说明

图1为本申请实施例提供的电子设备的方框示意图。

图2为本申请实施例提供的虚拟形象控制方法的流程示意图。

图3为本申请实施例提供的直播系统的系统框图。

图4为本申请实施例提供的基于缩放参数对虚拟形象进行控制的效果示意图。

图5为本申请实施例提供的基于缩放参数对虚拟形象进行控制的另一效果示意图。

图6为本申请实施例提供的基于角度参数对虚拟形象进行控制的效果示意图。

图7为本申请实施例提供的基于特征点对虚拟形象进行控制的示意图。

图8为本申请实施例提供的特征点数量和显示次数之间的对应关系的示意图。

图9为本申请实施例提供的虚拟形象控制装置包括的功能模块的方框示意图。

图标：100-电子设备；102-存储器；104-处理器；106-虚拟形象控制装置；106a-控制指令生成模块；106b-控制指令判断模块；106c-虚拟形象控制模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本申请的一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。在本申请的描述中，术语“第一”、“第二”等仅用作区分描述，而不能理解为只是或暗示相对重要性。

如图1所示，本申请实施例提供了一种电子设备100。其中，该电子设备100可以作为一种直播设备，例如，该电子设备100可以是与主播在直播时使用的终端设备通信连接的后台服务器。

示例性地，电子设备100可以包括存储器102、处理器104和虚拟形象控制装置106。存储器102和处理器104之间可以直接或间接地电性连接，以实现数据的传输或交互。例如，存储器102和处理器104之间可通过一条或多条通讯总线或信号线实现电性连接。虚拟形象控制装置106可以包括至少一个可以软件或固件(firmware)的形式存储于存储器102中的软件功能模块。处理器104可以被配置成执行存储器102中存储的可执行的计算机程序，例如，虚拟形象控制装置106所包括的软件功能模块及计算机程序等，以对直播画面中的虚拟形象进行较高精度的控制。

其中，在一些可能的实现方式中，存储器102可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

另外，处理器104可以是一种集成电路芯片，具有信号的处理能力。上述的处理器104可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)、片上系统(System on Chip,SoC)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以理解的是，图1所示的结构仅为示意，电子设备100还可包括比图1所示结构更多或者更少的组件，或者具有与图1所示结构不同的配置，例如，还可以包括被配置成与其它直播设备(如主播使用的终端设备、观众使用的终端设备等)进行信息交互的通信单元。

结合图2，本申请实施例还提供一种可应用于上述电子设备100的虚拟形象控制方法。其中，虚拟形象控制方法有关的流程所定义的方法步骤可以由电子设备100实现。下面将对图2所示的具体流程进行详细阐述。

步骤201，对直播发起端发送的主播视频帧进行分析，生成动作控制指令。

在一可能的实施例中，直播发起端可以对正在进行网络直播的主播进行拍摄，以得到该主播对应的主播视频帧，并将该主播视频帧发送给电子设备100。

如此，电子设备100可以接收直播发起端发送的主播视频帧，并对该主播视频帧进行分析处理(如图像分析)，且基于分析结果生成动作控制指令，该动作控制指令可以被配置成对直播接收端的直播画面中的虚拟形象进行控制。

步骤203，判断是否获得主播对应的虚拟机位控制指令。

在一可能的实施例中，电子设备100通过步骤201生成动作控制指令之后，还可以判断是否获得该主播对应的虚拟机位控制指令。并且，在判断出获得该虚拟机位控制指令时，可以执行步骤205。

步骤205，根据虚拟机位控制指令和动作控制指令对虚拟形象进行控制。

在一可能的实施例中，电子设备100通过步骤203判断出获得主播对应的虚拟机位控制指令时，可以基于该虚拟机位控制指令和动作控制指令对虚拟形象进行控制。也就是说，电子设备100可以在基于动作控制指令对虚拟形象进行控制的基础上，结合虚拟机位控制指令，一起对虚拟形象进行控制，从而提高控制的精度。

并且，由于采用的是虚拟机位控制指令，还可以使得虚拟形象的展示呈现出不同机位下的状态，从而在直播间营造出舞台表演的效果，使得直播的呈现感受性更强，以提高虚拟形象展示的趣味性，提升用户体验。

其中，可以理解的是，对于电子设备100执行步骤201时分析的主播视频帧，本申请实施例对于电子设备100获取该主播视频帧的方式不进行限制。

例如，在一种可能的实现方式中，结合图3，电子设备100可以为后台服务器，该后台服务器通信连接有第一终端，且该第一终端还可以通信连接有一图像采集设备(如摄像头)。第一终端可以为主播在直播时使用的终端设备(如手机、平板电脑、电脑等)，图像采集设备可以被配置成在主播直播时对主播进行图像采集，从而得到主播视频帧并将该主播视频帧通过第一终端发送至后台服务器。

需要说明的是，上述的图像采集设备既可以是作为单独的一个器件，也可以是与第一终端集成于一体；例如，在一些可能的实现方式中，图像采集设备可以是手机、平板电脑、电脑等终端设备携带的摄像头。

并且，本申请实施例对于电子设备100执行步骤201对主播视频帧进行分析的方式也不进行限制。例如，在一种可能的实现方式中，电子设备100在执行步骤201时，可以随机的在主播视频帧中进行视频帧的提取，并基于提取的视频帧生成对应的动作控制指令。

又例如，在另一种可能的实现方式中，电子设备在执行步骤201时，可以每隔预设周期提取直播发起端发送的主播视频帧中的当前视频帧，对该当前视频帧进行图像分析，并根据对该当前视频帧的图像分析结果生成动作控制指令。

也就是说，电子设备100在获取到直播发起端发送的的主播视频帧之后，可以每间隔预设周期在主播视频帧中提取一视频帧(即当前主播视频帧)；然后，对提取的该视频帧进行图像分析处理(如特征提取等)；最后，可以基于分析处理的结果生成对应的动作控制指令。

如此，由于电子设备是按照一定的周期进行视频帧提取，可以使得在根据提取的视频帧生成的动作控制指令对虚拟形象的动作进行控制时，既能够在较大程度上反映主播的真实动作，还能减少数据的处理量，缓解相应的处理器的压力，并能够使得直播的实时性更佳。

需要说明的是，本申请实施例对于上述的预设周期的执行策略不进行限制，例如，该预设周期既可以是预设时长(如0.1s、0.2s、0.3s等)，也就是说，可以每间隔该预设时长进行一次视频帧提取操作，得到一视频帧；也可以是预设帧数(1帧、2帧、3帧等)，也就是说，可以每间隔该预设帧数进行一次视频帧提取操作，得到一视频帧。

再例如，在另一种可能的实现方式中，电子设备100在步骤201时，还可以对直播发起端发送的主播视频帧中的每一主播视频帧进行图像分析，并根据每一主播视频帧的图像分析结果生成动作控制指令。

也就是说，对于获取到直播发起端发送的所有主播视频帧，电子设备100可以提取每一主播视频帧；然后，对提取的每一主播视频帧进行图像分析处理(如特征提取等)；最后，可以基于每一主播视频帧的图像分析结果生成对应的动作控制指令。

如此，由于电子设备是根据每一主播视频帧分别生成对应的动作控制指令，可以在基于该动作控制指令对虚拟形象进行控制时，使得虚拟形象的动作能够完全反映主播的真实动作，使得虚拟形象的展示更为灵动、动作之间的衔接更为流畅，以提高观众的观看体验。

需要说明的是，当电子设备100执行步骤201，在进行图像分析、特征提取等处理时，可以利用训练好的神经网络对主播视频帧进行识别，以获得主播视频帧中主播的动作姿态，并基于该动作姿态，生成动作控制指令。

另外，在本申请实施例一些可能的实现方式中，电子设备100在执行步骤203时，可以判断是否接收到直播接收端发送的与主播对应的虚拟机位控制指令；也就是说，直播接收端可以将虚拟机位控制指令直接发送给电子设备100，从而由电子设备100根据接收的虚拟机位控制指令执行步骤205，以使直播接收端可以对该主播对应的虚拟形象进行控制。

其中，在一些可能的实现方式中，电子设备100在接收到直播接收端发送的虚拟机位操作指令时，电子设备100可以基于该直播接收端对应的用户历史数据确定出的第一预设条件，判断该虚拟机位操作指令是否符合第一预设条件；若虚拟机位操作指令符合第一预设条件，则电子设备100可以判定获得虚拟机位操作指令。

也就是说，首先，电子设备100会检测是否接收到直播接收端发送的虚拟机位操作指令；然后，在接收到虚拟机位操作指令时，判断该虚拟机位操作指令是否符合基于用户历史数据确定出的第一预设条件；最后，只有在虚拟机位操作指令符合第一预设条件时，才判定获得虚拟机位操作指令。

如此，使得只有具有特定用户历史数据的用户才能对虚拟形象的显示进行控制，从而提高用户观看直播的积极性。

其中，在一些可能的实现方式中，上述的用户历史数据的具体内容可以包括，但不限于用户的等级、观看直播的时长、发送的弹幕的数量、赠送的礼物的数量或价值等。例如，只有用户的等级达到一定的等级(如10级、15级等)，电子设备100才能在接收到虚拟机位控制指令时，判定获得该虚拟机位控制指令。

需要说明的是，电子设备100在基于用户历史数据对是否获得虚拟机位操作指令进行判断时，还可以进行更为精确的判定。例如，基于用户历史数据的不同，可以判定能够获得的虚拟机位操作指令的类型也不同。

在一种可能的实现方式中，以用户历史数据为用户等级为例进行说明。假设虚拟机位操作指令包括5种，分别为第一操作指令、第二操作指令、第三操作指令、第四操作操作和第五操作指令。若用户的等级属于区间[0，5]，那么，只有在接收到第一操作指令时，才能判定获得该操作指令；若用户的等级属于区间(5，10]，那么，只有在接收到第一操作指令或第二操作指令时，才能判定获得该操作指令；依此类推，若用户的等级属于区间(20，+∞)时，在接收到5种虚拟机位操作指令中的任意一种操作指令时，都可以判定获得该操作指令。

另外，在本申请实施例其他一些可能的实现方式，电子设备100在执行步骤203时，还可以采用例如信息提取等方式，判断是否获得基于主播对应的信息生成的虚拟机位控制指令；也就是说，直播发起端还可以不将虚拟机位控制指令直接发送给电子设备100，而是由电子设备基于主播对应的信息进行提取生成，从而根据提取生成的虚拟机位控制指令执行步骤205。

并且，电子设备100在判断是否获得基于主播的信息生成的虚拟机位控制指令时，根据虚拟机位控制指令的生成方式不同，判断的方式也可以不同。

例如，在一种可能的实现方式中(示例一)，该虚拟机位控制指令可以基于主播对应的操作信息生成。示例性地，上述的第一终端可以响应主播的操作生成对应的虚拟机位控制指令，并将该虚拟机位控制指令发送至上述的后台服务器。并且，该后台服务器可以在接收到虚拟机位控制指令时，判定获得虚拟机位控制指令。

其中，在本申请实施例提供的方案中，主播对第一终端的操作的方式不受限制，可以包括，但不限于主播对第一终端上的按键(如实体按键或屏幕虚拟按键)、键盘、鼠标以及麦克风等输入设备的操作。例如，主播既可以通过键盘输入一段文字信息或通过麦克风输入一段语音信息(如“放大2倍”或“展示背面”等，或者，也可以是一些简单的数字或字词，如“1”就代表放大1倍，“2”就代表放大2倍，只需要预先建立对应关系即可)，也可以通过鼠标执行特定的动作(如点击第一终端展示的虚拟形象之后，往左边、右边等方向移动鼠标，当第一终端识别到该动作之后，可以基于预先建立的对应关系生成对应的虚拟机位控制指令)。

也就是说，在一种可能的实现方式中，电子设备100在接收到基于主播对应的操作信息(通过麦克风对第一终端设备进行操作)生成的语音信息时，可以判断该语音信息中是否具有第一预设信息，并在具有该第一预设信息时，判定获取基于主播对应的操作信息生成的虚拟机位控制指令。

其中，示例性地，上述的第一预设信息可以是关键词信息或其它信息。例如，在语音信息为歌曲(如设备播放或主播唱的)时，上述的第一预设信息还可以是旋律特征信息。也就是说，电子设备100可以利用训练完成的神经网络识别第一终端发送的语音信息的旋律特征，并根据识别获得的旋律特征确定虚拟机位控制指令。例如，在轻柔的旋律中，电子设备100可以生成头顶机位渐远的控制指令。在高潮或者副歌的旋律中，电子设备100可以生成脸部机位放大的控制指令。

又例如，在另一种可能的实现方式中(示例二)，虚拟机位控制指令也可以电子设备100基于执行步骤201时对主播视频帧进行分析得到的结果生成。

也就是说，电子设备100还可以基于对直播发起端发送的主播视频帧进行分析得到的结果，判断是否获得基于主播对应的信息生成的虚拟机位控制指令。

示例性地，电子设备100可以对主播视频帧进行信息提取，以判断得到的图像信息中是否具有第二预设信息，并且，在具有该第二预设信息时，电子设备100可以基于该第二预设信息生成对应的虚拟机位控制指令，并判定获取到虚拟机位控制指令。

其中，本申请实施例对于上述的第二预设信息的具体内容不进行限制，例如，该第二预设信息可以包括，但不限于动作信息、深度信息或其它信息等。比如，示例性地，在一种可能的实现方式中，上述的第二预设信息可以为动作信息。

也就是说，在一些可能的实现方式中，电子设备100可以基于主播的特定动作生成对应的虚拟机位控制指令，例如，主播在伸出左手时，可以生成展示虚拟形象的左侧面的控制指令；主播在伸出右手时，可以生成展示虚拟形象的右侧面的控制指令；主播在左手与右手接触时，可以生成展示虚拟形象的背面的控制指令；主播在蹲下时，可以生成展示虚拟形象的头顶部的控制指令。

在一种可能的实现方式中，上述的其它信息可以是标识物件或标识颜色等信息。也就是说，主播可以携带标识物件或者穿戴具有标识颜色的衣物或配饰，使得电子设备100在执行步骤203时，可以通过识别该标识物件或者该标识颜色的方式获得虚拟机位控制指令。

例如，在一些可能的实现方式中，按照识别到的物件由大到小或识别到的颜色为红、橙、黄、绿、青、蓝或紫，可以生成机位渐近的控制指令。也就是说，在主播的不同部位携带有多种不同大小的标识物件，或穿戴有多种颜色不同的衣物或配饰时，使得主播在不同的时刻具有不同的动作时，从而当电子设备100在执行步骤203时，可以根据识别到的标识物件或标识颜色不同，控制虚拟形象可以展示出由远景到近景或由远景到近景的舞台效果。

另外，在一些可能的实现方式中，为了提高主播进行直播的积极性，电子设备100在执行步骤203时，还可以基于主播对应的历史直播数据判断是否获得虚拟机位控制指令。

示例性地，在上述的示例一中，电子设备100在接收到第一终端发送的虚拟机位控制指令之后，或者在上述的示例二中，在基于第一预设信息或者是第二预设信息生成对应的虚拟机位控制指令之后，电子设备100还可以根据基于该主播对应的用户历史数据确定出的第二预设条件，并判断虚拟机位控制指令是否符合该第二预设条件，并且，只有在该虚拟机位控制指令符合第二预设条件时，才能判定获得该虚拟机位控制指令。

其中，在一种可能的实现方式中，上述的主播对应的历史直播数据可以为主播的等级，并且，等级越高，能够判定获得的虚拟机位控制指令的数量就越多。例如，若主播的等级小于5级，可以判定不能获得任何的虚拟机位控制指令；若主播的等级大于或等于5级、小于或等于10级，可以判定能够获得部分的虚拟机位控制指令；若主播的等级大于10级，可以判定能够获得任何的虚拟机位控制指令。

需要说明的是，在上述示例中，是按照一定的等级范围对是否获得虚拟机位控制指令进行判断，在其它的一些示例中，也可以是针对每一个等级确定可以获得不同的虚拟机位控制指令。

另外，在本申请实施例其他一些可能的实现方式中，上述的主播对应的历史直播数据还可以包括主播在直播时收到的礼物的数量或价值、主播在直播时的观众的弹幕量，以及主播在直播时观看直播的最大观众数量等。例如，收到的礼物的数量越多或价值越高，弹幕量越大，或者最大观众数量越大，判定能够获得的虚拟机位控制指令可以越多。

并且，电子设备100在执行步骤203对是否获得虚拟机位控制指令进行判断之后，一方面，在判定获得虚拟机位控制指令时，可以执行步骤205。另一方面，在判定未获得虚拟机位控制指令时，具体的处理方式不受限制；比如，在一种可能的实现方式中，电子设备100可以根据动作控制指令对虚拟形象进行控制。

也就是说，在主播进行直播时，若电子设备100有获得虚拟机位控制指令，则根据虚拟机位控制指令和动作控制指令对虚拟形象进行控制；若电子设备100未获得虚拟机位控制指令，则仅根据动作控制指令对虚拟形象进行控制。

另外，本申请实施例对于电子设备100执行步骤205的方式也不进行限制，可以根据实际应用需求进行选择，如处理器104的性能、虚拟形象的控制精度等。

例如，在一种可能的实现方式中，电子设备100执行步骤205的方式可以如下：根据动作控制指令对虚拟形象在直播画面中的展示姿态进行控制；根据虚拟机位控制指令对虚拟形象在直播画面中的展示大小进行控制，或者是对虚拟形象在直播画面中的展示角度进行控制，或者是对虚拟形象在直播画面中的展示大小和展示角度进行控制。

也就是说，一方面，电子设备100可以根据动作控制指令对虚拟形象的展示姿态进行控制；另一方面，在对虚拟形象的展示姿态进行控制的基础上，电子设备100还可以基于获得的虚拟机位控制指令，对虚拟形象在该展示姿态时的展示大小进行控制，或者是对虚拟形象在该展示姿态时的展示角度进行控制，又或者是对虚拟形象在该展示姿态时的展示大小和展示角度进行控制。

例如，若主播当前在跳舞，则电子设备100可以基于动作控制指令控制虚拟形象进行跳舞。此时，若电子设备100获得虚拟机位控制指令，则可以根据该虚拟机位控制指令，对虚拟形象在跳舞状态下不同的展示大小进行控制，或者是对虚拟形象在跳舞状态下不同的展示角度进行控制，又或者是对虚拟形象在跳舞状态下不同的展示大小和不同的展示角度进行控制。

其中，在一些可能的实现方式中，上述的展示姿态可以包括，但不限于，踢脚、拍手、弯腰、抖肩、摇头等动作，以及皱眉、大笑、微笑、怒目等表情。并且，本申请实施例对虚拟形象进行控制的方式也不进行限制，在一种可能的实现方式中，电子设备100可以基于预先确定的特征点进行控制。

另外，作为一种可能的实现方式，为提高用户的体验，电子设备100还可以基于虚拟机位操作指令携带的信息对虚拟形象进行相应的控制。也就是说，用户可以对直播接收端进行不同的操作，使得直播接收端可以基于不同的操作生成携带不同信息的虚拟机位操作指令。

其中，本申请实施例中用户对直播接收端进行操作的方式不进行限制，例如，该操作方式可以包括用户对触摸屏、鼠标、键盘、麦克风等输入设备进行操作。并且，本申请实施例对于虚拟机位操作指令中携带的信息也不进行限制，可以根据实际应用需求进行选择。

例如，在一种可能的实现方式中，虚拟机位操作指令中可以包括缩放参数。也就是说，电子设备100在执行步骤205时，可以根据缩放参数和主播视频帧中虚拟形象的初始大小控制在直播接收端的直播画面中显示的虚拟形象的展示大小。

其中，根据控制精度的需求不同，电子设备100根据缩放参数对虚拟形象的展示大小进行控制的方式也可以不同。

例如，在控制精度的需求较低时，若电子设备100获得的虚拟机位操作指令中包括缩放参数，电子设备100则控制虚拟形象在初始大小的基础上放大特定倍数(如2倍、3倍或5倍等)或缩小特定倍数(如0.2倍、0.5倍或0.8倍等)。

又例如，在控制精度的需求较高时，电子设备100可以根据虚拟机位操作指令中缩放参数的具体数值，控制虚拟形象在初始大小的基础上放大或缩小不同的倍数。如图4所示，在缩放参数为2时，可以控制虚拟形象在初始大小的基础上放大2倍；如图5所示，在缩放参数为0.5时，可以控制虚拟形象在初始大小的基础上缩小0.5倍)。

又例如，在另一种可能的实现方式中，虚拟机位操作指令中可以包括角度参数。如此，电子设备100在执行步骤205时，可以根据该角度参数控制在直播接收端的直播画面中显示的虚拟形象的展示角度。

同理，根据控制精度的需求不同，电子设备100在根据角度参数对虚拟形象的展示角度进行控制的方式也可以不同。

例如，在控制精度的需求较低时，若电子设备100获得的虚拟机位操作指令中包括角度参数，电子设备100则可以控制虚拟形象在特定角度(如背面、左侧面或右侧面)下进行展示。

又例如，在控制精度的需求较高时，电子设备100可以根据虚拟机位操作指令中角度参数的具体数值，控制虚拟形象相应的角度下进行展示。如图6所示，在角度参数为180°时，电子设备100可以控制虚拟形象展示背面；在角度参数为90°时，电子设备100可以控制虚拟形象展示左侧面；在角度参数为270°时，电子设备100可以控制虚拟形象展示右侧面。

需要说明的是，根据实际的应用需求不同，电子设备100在基于角度参数对虚拟形象进行控制时的操作方式也可以不同。

例如，在一种可能的实现方式中，电子设备100在根据角度参数对虚拟形象进行控制时，可以控制直播接收端的直播画面停止显示主播视频帧，并获取预先针对虚拟形象构建的三维图像数据中该角度参数对应的部分三维视角数据。

也就是说，在直播接收端的直播画面显示主播视频帧的过程中，若用户对直播接收端进行操作，使得该直播接收端生成对应的虚拟机位操作指令并发送至电子设备100(后台服务器)，则电子设备10可以基于该虚拟机位操作指令停止向直播接收端发送主播视频帧，以控制直播接收端的直播画面停止显示主播视频帧。

并且，电子设备100可以根据虚拟机位指令中的角度参数，在预先针对虚拟形象构建的三维图像数据中获取对应的部分三维视角数据。例如，若角度参数为90°，则电子设备100可以获取三维图像数据中左侧面对应的部分三维视角数据；若角度参数为180°，则电子设备100可以获取三维图像数据中背面对应的部分三维视角数据。最后，电子设备100将获取的部分三维视角数据发送给直播接收端进行可视化处理，以完成对虚拟形象的控制。如此，可以较快的获取到与角度参数相对应的部分三维视角数据，使得数据的处理量较小，可以有效地保证直播具有较高的实时性。

又例如，在另一种可能的实现方式中，电子设备100可以在根据角度参数对虚拟形象进行控制时，可以控制直播接收端的直播画面停止显示主播视频帧，根据该主播视频帧对预先针对虚拟形象构建的三维图像数据进行调整，并获取在调整后的三维图像数据中角度参数对应的部分三维视角数据。

也就是说，在直播接收端的直播画面显示主播视频帧的过程中，若用户对直播接收端进行操作，使得该直播接收端生成对应的虚拟机位操作指令并发送至电子设备100(后台服务器)，电子设备100可以基于该虚拟机位操作指令停止向直播接收端发送主播视频帧，以控制直播接收端的直播画面停止显示主播视频帧。

并且，电子设备100可以根据主播视频帧对预先针对虚拟形象构建的三维图像数据进行调整，以得到新的三维图像数据。然后，再从新的三维图像数据中获取与角度参数对应的部分三维视角数据。例如，若角度参数为90°，则电子设备100可以获取新的三维图像数据中左侧面对应的部分三维视角数据；若角度参数为180°，则电子设备100可以获取新的三维图像数据中背面对应的部分三维视角数据。最后，电子设备100可以将获取的部分三维视角数据发送给直播接收端进行可视化处理，以完成对虚拟形象的控制。如此，可以使得获取的部分三维视角数据能够在较大程度上反映主播的实际动作，从而使得虚拟形象在展示不同的角度时，也具有较高的逼真程度，从而提升用户的体验度。

其中，本申请实施例对于电子设备100根据主播视频帧对三维图像数据进行调整的方式不进行限制。例如，在一种可能的实现方式中，电子设备100可以通过以下方式对三维图像数据进行调整：电子设备100可以获取主播视频帧中的目标特征点的坐标信息，并基于该坐标信息计算得到虚拟形象的其它特征点的坐标信息；然后根据坐标信息对预先针对虚拟形象构建的三维图像数据进行调整。

也就是说，电子设备100可以获取主播视频帧中的各目标特征点(虚拟形象的正面的各目标特征点，如眼睛、鼻子、嘴巴、耳朵等对应的特征点)的坐标信息(三维坐标，具有深度信息)；然后，电子设备100可以基于获取的坐标信息计算得到虚拟形象的其它特征点(虚拟形象的三维模型中目标特征点以外的特征点，如背面才能看到的特征点)的坐标信息；最后，电子设备100可以基于其它特征点的坐标信息，对预先构建的三维图像数据中与其它特征点对应的部分数据进行调整，以得到新的三维图像数据。

其中，基于目标特征点的坐标信息计算其它特征点的坐标信息的算法，可以是反(逆)向运动算法。

需要说明的是，在按照本申请实施例提供的上述方案对主播视频帧中各特征点进行调整后，直播接收端播放的视频帧即为：基于对三维图像数据中部分三维视角数据(正面部分)调整后的数据。另外，针对上述的目标特征点，已经完成了数据的调整；因此，在本申请实施例提供的上述方案中，只需对其它特征点对应的部分数据进行调整即可。

另外，为使在对虚拟形象进行控制时，还能够根据实际应用需求对显示虚拟形象时显示的数据量进行控制，例如，在对实时性要求较高时，可以显示较低的数据，在对控制精度要求较高时，可以显示较高的数据。

在一种可能的实现方式中，为了在保证具有较高的控制精度以确保用户的体验的基础上，还能较低数据的处理量，以使虚拟形象的直播实时性更好，电子设备100可以通过以下步骤确定显示虚拟形象时显示的数据量：获取虚拟形象基于各展示角度在直播接收端的显示次数；根据各展示角度对应的显示次数确定在基于该展示角度对虚拟形象进行显示时的数据量。

也就是说，电子设备100可以获取虚拟形象在所有的直播时间中或者在较近的一段直播时间中，各个展示角度对应的显示次数，例如，假定在最近的一个月内，展示角度为90°(左侧面)对应的显示次数为3000次，展示角度为180°(背面)对应的显示次数为7000次，展示角度为270°(右侧面)对应的显示次数为2000次。

然后，电子设备100可以基于获取的各显示次数，确定对应的展示角度的数据量。例如，若显示次数越大，可以控制显示对应的展示角度时，显示的数据量就越大。如此，在上述示例中，由于展示角度为180°(背面)时，显示次数(7000次)最大，电子设备100可以控制在基于该展示角度进行显示时的数据量也最大；由于展示角度为270°(右侧面)时，显示次数(2000次)最小，电子设备100可以控制在基于该展示角度进行显示时的数据量也最小。

其中，考虑到在对虚拟形象进行控制时，一般是基于对预先确定的特征点进行控制。因此，上述的数据量可以是指特征点的数量。也就是说，可以根据各展示角度对应的显示次数确定在基于该展示角度对虚拟形象进行显示时特征点的数量(如图7所示)。

例如，在上述示例中，展示角度为180°(背面)时，显示次数为7000次，对应地，可以控制的特征点的数量可以为300个；展示角度为90°(左侧面)时，显示次数为3000次，对应地，可以控制的特征点的数量可以为200个；展示角度为270°(右侧面)时，显示次数为2000次，对应地，可以控制的特征点的数量可以为150个。

示例性地，在一种可能的实现方式中，电子设备100可以预先建立特征点数量和显示次数之间的对应关系，从而在获取到显示次数之后，可以直接根据该对应关系得到特征点数量。如图8所示，对应关系可以为：显示次数越大，对应的特征点数量也就越大。

结合图9，本申请实施例还提供一种可应用于上述电子设备100的虚拟形象控制装置106。其中，虚拟形象控制装置106可以包括控制指令生成模块106a、控制指令判断模块106b和虚拟形象控制模块106c。

控制指令生成模块106a，可以被配置成对直播发起端发送的主播视频帧进行分析，生成动作控制指令；其中，主播视频帧由直播发起端对主播进行拍摄得到，动作控制指令被配置成对直播接收端直播画面中的虚拟形象进行控制；在一实施例中，该控制指令生成模块106a可以执行图2所示的步骤201，关于控制指令生成模块106a的相关内容可以参照本申请实施例前述对步骤201的描述。

控制指令判断模块106b，可以被配置成判断是否获得主播对应的虚拟机位控制指令；在一实施例中，控制指令判断模块106b可以执行图2所示的步骤203，关于控制指令判断模块106b的相关内容可以参照本申请实施例前述对步骤203的描述。

虚拟形象控制模块106c，可以被配置成在获得虚拟机位控制指令时，根据虚拟机位控制指令和动作控制指令对虚拟形象进行控制；在一实施例中，虚拟形象控制模块106c可以执行图2所示的步骤205，关于虚拟形象控制模块106c的相关内容可以参照本申请实施例前述对步骤205的描述。

其中，在控制指令判断模块106b判断出未获得虚拟机位控制指令时，虚拟形象控制模块106c，还可以被配置成根据动作控制指令对虚拟形象进行控制。

在本申请实施例中，对应于上述的虚拟形象控制方法，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，该计算机程序运行时执行上述虚拟形象控制方法的各个步骤。

其中，前述计算机程序运行时执行的各步骤，在此不再一一赘述，可参考前文对虚拟形象控制方法的解释说明。

综上，本申请提供的虚拟形象控制方法、装置、电子设备及存储介质，在基于直播发起端发送的主播视频帧对虚拟形象进行控制的基础上，若还获得主播对应的虚拟机位控制指令，还可以结合该虚拟机位控制指令一起对虚拟形象进行控制，以展示不同机位下的虚拟形象，从而营造出舞台表演的效果，进而提高虚拟形象展示的趣味性，提升虚拟形象直播过程中的用户体验。

以上所述仅为本申请的部分实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

工业实用性

由于在基于直播发起端发送的主播视频帧对虚拟形象进行控制的基础上，若还获得主播对应的虚拟机位控制指令，还可以结合该虚拟机位控制指令一起对虚拟形象进行控制，以展示不同机位下的虚拟形象，从而营造出舞台表演的效果，进而提高虚拟形象展示的趣味性，提升虚拟形象直播过程中的用户体验。

Claims

一种虚拟形象控制方法，其特征在于，所述方法包括：

对直播发起端发送的主播视频帧进行分析，生成动作控制指令；其中，所述主播视频帧由所述直播发起端对主播进行拍摄得到，所述动作控制指令被配置成对直播接收端直播画面中的虚拟形象进行控制；

判断是否获得所述主播对应的虚拟机位控制指令；

若获得所述虚拟机位控制指令，则根据所述虚拟机位控制指令和所述动作控制指令对所述虚拟形象进行控制。
根据权利要求1所述的虚拟形象控制方法，其特征在于，所述判断是否获得所述主播对应的虚拟机位控制指令的步骤，包括：

判断是否接收到所述直播接收端发送的与所述主播对应的虚拟机位控制指令。
根据权利要求2所述的虚拟形象控制方法，其特征在于，所述判断是否接收到所述直播接收端发送的与所述主播对应的虚拟机位控制指令的步骤，包括：

在接收到所述直播接收端发送的虚拟机位操作指令时，判断所述虚拟机位操作指令是否符合第一预设条件，其中，所述第一预设条件基于所述直播接收端对应的用户历史数据确定；

若所述虚拟机位操作指令符合所述第一预设条件，则判定获得所述虚拟机位操作指令。
根据权利要求1所述的虚拟形象控制方法，其特征在于，所述判断是否获得所述主播对应的虚拟机位控制指令的步骤，包括：

判断是否获得基于所述主播对应的信息生成的虚拟机位控制指令。
根据权利要求4所述的虚拟形象控制方法，其特征在于，所述判断是否获得基于所述主播对应的信息生成的所述虚拟机位控制指令的步骤，包括：

判断是否获得基于所述主播对应的操作信息生成的虚拟机位控制指令。
根据权利要求5所述的虚拟形象控制方法，其特征在于，所述判断是否获得基于所述主播对应的操作信息生成的虚拟机位控制指令的步骤，包括：

在接收到基于所述主播对应的操作信息生成的语音信息时，判断该语音信息中是否具有第一预设信息，并在具有该第一预设信息时，判定获取基于所述主播对应的操作信息生成的虚拟机位控制指令。
根据权利要求6所述的虚拟形象控制方法，其特征在于，所述第一预设信息包括关键词信息和/或旋律特征信息。
根据权利要求4所述的虚拟形象控制方法，其特征在于，所述判断是否获得基于所述主播对应的信息生成的虚拟机位控制指令的步骤，包括：

基于对所述主播视频帧进行分析得到的结果，判断是否获得基于所述主播对应的信息生成的虚拟机位控制指令。
根据权利要求8所述的虚拟形象控制方法，其特征在于，所述基于对所述主播视频帧进行分析得到的结果，判断是否获得基于所述主播对应的信息生成的虚拟机位控制指令的步骤，包括：

基于对所述主播视频帧进行信息提取得到的图像信息，判断该图像信息中是否具有第二预设信息，并在具有该第二预设信息时，判定获得基于所述主播对应的信息生成的虚拟机位控制指令。
根据权利要求9所述的虚拟形象控制方法，其特征在于，所述第二预设信息包括动作信息、深度信息、标识物件信息和/或标识颜色信息。
根据权利要求1所述的虚拟形象控制方法，其特征在于，所述判断是否获得所述主播对应的虚拟机位控制指令的步骤，包括：

在接收到所述直播接收端发送的虚拟机位操作指令时，判断所述虚拟机位操作指令是否符合第二预设条件；其中，所述第二预设条件基于所述主播对应的用户历史数据确定；

若所述虚拟机位操作指令符合基于所述第二预设条件，则判定获得所述虚拟机位操作指令。
根据权利要求1-11中任一项所述的虚拟形象控制方法，其特征在于，所述根据所述虚拟机位控制指令和所述动作控制指令对所述虚拟形象进行控制的步骤，包括：

根据所述动作控制指令对所述虚拟形象在所述直播画面中的展示姿态进行控制；

根据所述虚拟机位控制指令对所述虚拟形象在所述直播画面中的展示大小和/或展示角度进行控制。
根据权利要求12所述的虚拟形象控制方法，其特征在于，所述虚拟机位操作指令中包括角度参数；

所述根据所述虚拟机位控制指令对所述虚拟形象在所述直播画面中的展示大小和/或展示角度进行控制的步骤，包括：

控制所述直播画面停止显示所述主播视频帧，并获取预先针对所述虚拟形象构建的三维图像数据中所述角度参数对应的部分三维视角数据。
根据权利要求12所述的虚拟形象控制方法，其特征在于，所述虚拟机位操作指令中包括角度信息；

所述根据所述虚拟机位控制指令对所述虚拟形象在所述直播画面中的展示大小和/或展示角度进行控制的步骤，包括：

控制所述直播画面停止显示所述主播视频帧，根据该主播视频帧对预先针对所述虚拟形象构建的三维图像数据进行调整，并获取在调整后的三维图像数据中所述角度参数对应的部分三维视角数据。
根据权利要求14所述的虚拟形象控制方法，其特征在于，所述根据该主播视频帧对预先针对所述虚拟形象构建的三维图像数据进行调整的步骤，包括：

获取所述主播视频帧中的目标特征点的坐标信息，并基于该坐标信息计算得到虚拟形象的其它特征点的坐标信息；

根据所述坐标信息对预先针对所述虚拟形象构建的三维图像数据进行调整。
根据权利要求12所述的虚拟形象控制方法，其特征在于，所述虚拟机位操作指令中包括缩放参数；

所述根据所述虚拟机位控制指令对所述虚拟形象在所述直播画面中的展示大小和/或展示角度进行控制的步骤，包括：

根据所述缩放参数和所述虚拟形象的初始大小确定在所述直播画面中虚拟形象的展示大小。
根据权利要求12所述的虚拟形象控制方法，其特征在于，还包括：

获取所述虚拟形象基于各展示角度在所述直播接收端的显示次数；

根据各展示角度对应的显示次数确定在基于该展示角度对所述虚拟形象进行显示时的数据量。
根据权利要求1所述的虚拟形象控制方法，其特征在于，所述对直播发起端发送的主播视频帧进行分析，生成动作控制指令的步骤，包括：

对直播发起端发送的每一主播视频帧进行图像分析，并根据每一主播视频帧的图像分析结果生成动作控制指令；或

每隔预设周期提取直播发起端发送的主播视频帧中的当前视频帧，对该当前视频帧进行图像分析，并根据对该当前视频帧的图像分析结果生成动作控制指令。
一种虚拟形象控制装置，其特征在于，所述装置包括：

控制指令生成模块，被配置成对直播发起端发送的主播视频帧进行分析，生成动作控制指令；其中，所述主播视频帧由所述直播发起端对主播进行拍摄得到，所述动作控制指令被配置成对直播接收端直播画面中的虚拟形象进行控制；

控制指令判断模块，被配置成判断是否获得所述主播对应的虚拟机位控制指令；

虚拟形象控制模块，被配置成在获得所述虚拟机位控制指令时，根据所述虚拟机位控制指令和所述动作控制指令对所述虚拟形象进行控制。
一种电子设备，其特征在于，包括存储器、处理器和存储于该存储器并能够在该处理器上运行的计算机程序，该计算机程序在该处理器上运行时实现权利要求1-18任意一项所述的虚拟形象控制方法。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被执行时实现权利要求1-18任意一项所述的虚拟形象控制方法。