WO2021114710A1

WO2021114710A1 - 直播视频互动方法、装置以及计算机设备

Info

Publication number: WO2021114710A1
Application number: PCT/CN2020/109871
Authority: WO
Inventors: 唐自信; 薛德威
Original assignee: 上海幻电信息科技有限公司
Priority date: 2019-12-09
Filing date: 2020-08-18
Publication date: 2021-06-17
Also published as: US11778263B2; US20230012089A1; CN113038149A

Abstract

本申请公开了一种直播视频互动方法，该方法包括：获取直播主的主播视频和用户终端实时拍摄的用户画面，投放在同一个视频播放框显示；获取并识别出所述用户画面中的用户的第一手势动作，将所述第一手势动作与预设的手势特效对应表中的第二手势动作进行比对；当所述第一手势动作与所述第二手势动作一致时，查询出所述第二手势动作对应的视频特效，显示到所述视频播放框。本申请还提供一种直播视频互动装置、计算机设备以及计算机可读存储介质。本申请能够将主播视频和用户画面进行同框显示，根据用户画面中的手势动作触发视频特效，显示到包括用户画面和主播视频的视频播放框，从而加强了直播时主播与用户之间的互动。

Description

直播视频互动方法、装置以及计算机设备

本申请要求于2019年12月09日提交中国专利局、申请号为201911251115.7、发明名称为“直播视频互动方法、装置以及计算机设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及多媒体技术领域，尤其涉及一种直播视频互动方法、装置、计算机设备及计算机可读存储介质。

背景技术

随着互联网技术的快速发展，视频直播由于具备直观、快速、交互性强的特点已经成为一种非常广泛的娱乐方式，受到了大众的喜爱。在视频直播的过程中，用户与直播主的常见的互动行为包括送礼，点赞，打cll；丰富的礼物展示形式更能有效促进优质直播内容的产出。

发明人意识到，目前，送礼，点赞，打cll等互动行为的展示一般是在聊天公屏区域或直播画面上的固定区域以图文形式实时展示，其展示的方式较为单一，互动程度有限。

发明内容

本申请提出一种直播视频互动方法、装置、计算机设备及计算机可读存储介质，用于解决直播过程中用户跟主播进行互动时展示的方式较为单一，互动参与感有限的问题。

首先，为实现上述目的，本申请提供一种直播视频互动方法，所述方法包括：

获取直播主的主播视频和用户终端实时拍摄的用户画面；将所述主播视频和所述用户画面投放在同一个视频播放框显示；获取并识别出所述用户画面中的用户的第一手势动作，将所述第一手势动作与预设的手势特效对应表中的第二手势动作进行比对；当所述第一手势动作与所述第二手势动作一致时，在所述手势特效对应表查询出所述第二手势动作对应的第一视频特效；将所述第一视频特效显示到所述视频播放框。

在一个例子中，所述将所述主播视频和所述用户画面投放在同一个视频播放框显示包括：将所述主播视频和所述用户画面在所述视频播放框中第一部分和第二部分无缝拼接播放。

在一个例子中，所述将所述第一视频特效显示到所述视频播放框包括：获取所述第一手势动作的第一手掌位置，以及所述主播视频中的直播主人脸的第一人脸位置；将所述视频特效以所述第一手掌位置为起点、所述第一人脸位置为终点进行延伸显示。

在一个例子中，所述方法还包括：监测所述第一手势动作的手掌是否发生移动；当所述第一手势动作的手掌发生移动时，获取移动后所述第一手势动作的手掌的第二手掌位置；将所述视频特效的起点从所述第一手掌位置变更为所述第二手掌位置。

在一个例子中，所述方法还包括：监测所述直播主人脸是否发生移动；当所述直播主人脸发生移动时，获取移动后所述直播主人脸的第二人脸位置；将所述视频特效的终点从所述第一人脸位置变更为所述第二人脸位置。

在一个例子中，所述将所述视频特效显示到所述视频播放框包括：获取所述主播视频中的直播主的人脸图像；将所述人脸图像与所述第一手势动作对应的人脸特效进行合成并显示；其中，所述人脸特效包括服饰特效和表情特效中的至少一种。

在一个例子中，所述方法还包括：统计所述第一手势动作的手势持续时间；当所述手势持续时间大于或等于预设的时间阈值时，触发第二视频特效。

此外，为实现上述目的，本申请还提供一种直播视频互动装置，所述装置包括：

获取模块，用于获取直播主的主播视频和用户终端实时拍摄的用户画面；显示模块，用于将所述主播视频和所述用户画面投放在同一个视频播放框显示；识别模块，用于获取并识别出所述用户画面中的用户的第一手势动作；判断模块，用于将所述第一手势动作与预设的手势特效对应表中的第二手势动作进行比对，判断是否一致；查询模块，用于当所述第一手势动作与所述第二手势动作一致时，在所述手势特效对应表查询出所述第二手势动作对应的视频特效；所述显示模块，还用于将所述视频特效显示到所述视频播放框。

进一步地，本申请还提出一种计算机设备，所述计算机设备包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机可读指令，所述计算机可读指令被所述处理器执行时实现以下步骤：

进一步地，为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行以下步骤：

本申请所提出的直播视频互动方法、装置、计算机设备及计算机可读存储介质，获取直播主的主播视频和用户终端实时拍摄的用户画面，投放在同一个视频播放框显示；然后获取并识别出所述用户画面中的用户的第一手势动作，将所述第一手势动作与预设的手势特效对应表中的第二手势动作进行比对；当所述第一手势动作与所述第二手势动作一致时，在所述手势特效对应表查询出所述第二手势动作对应的视频特效，显示到所述视频播放框。通过以上方式，能够在同一界面内展示用户与主播画面，利用视频特效连接用户与主播之间的互动行为，丰富了互动展示的方式，加强了互动参与感。

附图说明

图1是本申请实施例一可选的应用环境的情景图；

图2是本申请直播视频互动方法一实施例的流程示意图；

图3是图2步骤S208中的将所述第一视频特效显示到所述视频播放框的一示例性实施例的流程图；

图4是是视频特效在直播画面延伸显示的效果图；

图5是基于图3的一示例性实施例的流程示意图；

图6是基于图3的另一示例性实施例的流程示意图；

图7是图2步骤S208中的将所述第一视频特效显示到所述视频播放框的另一示例性实施例的流程图；

图8是人脸特效之前的直播画面效果图；

图9是人脸特效之后的直播画面效果图；

图10是基于图2的一示例性实施例的流程示意图；

图11是本申请计算机设备一可选的硬件架构的示意图；

图12是本申请直播视频互动装置一实施例的程序模块示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本申请中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

图1是本申请一实施例的应用环境示意图。参阅图1所示，所述计算机设备1与直播主终端2连接，能够接收并获取到由所述直播主终端2发送过来的主播视频数据。在本实施例中，所述计算机设备1作为用户终端，可以是具有摄像功能的独立电子设备，比如手机、便携设备，PC机等。也可以是一个独立的功能模块附加在具备有摄像功能的主电子设备上，然后帮所述主电子设备实现直播视频互动的功能。

图2是本申请直播视频互动方法一实施例的流程示意图。可以理解，本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备为执行主体进行示例性描述。

如图2所示，所述直播视频互动方法可以包括步骤S200～S208，其中：

步骤S200，获取直播主的主播视频和用户终端实时拍摄的用户画面。

具体地，所述计算机设备1通过网络与所述直播主终端2连接，然后则可以获取由所述直播主终端2发送的主播视频，所述主播视频是所述直播主通过所述直播主终端2进行直播拍摄的视频数据。当然，所述计算机设备1作为用户的终端设备，设置有摄像单元，能够拍摄用户的用户画面。也就是说，所述计算机设备1能够获取到直播主的主播视频和用户的用户画面。

步骤S202，将所述主播视频和所述用户画面投放在同一个视频播放框显示。

具体地，所述计算机设备1还提供一个显示界面，所述显示界面上设置一个视频播放框，所述视频播放框用于播放视频数据。本实施例中，视频播放框包括第一部分与第二部分，第一部分用于展示主播视频，第二部分用于展示用户画面，从而实现将获取到的主播视频和用户画面通过所述视频播放框进行播放。

需要注意的是，在本实施例中，所述计算机设备1将所述主播视频和所述用户画面在所述视频播放框中第一部分和第二部分无缝拼接播放，比如上下两部分或者左右两部分。如，计算机设备1可以在主播视频为横屏时，设置第一部分与第二部分为上下拼接，在主播视频为竖屏时，设置第一部分与第二部分为左右拼接。当然，在其他实施例中，所述主播视频与所述用户画面在所述视频播放框中以其他方式共同播放，比如，所述主播视频与所述用户分开散落在所述视频播放框，或者所述主播视频和所述用户画面形成大小播放窗包含在一起播放，这里不做限制。在本实施例中，将主播视频和用户画面进行拼接播放，可以将用户和直播主的视频同框显示，因此可以给用户一种与直播主近距离的感觉。

步骤S204，获取并识别出所述用户画面中的用户的第一手势动作，将所述第一手势动作与预设的手势特效对应表中的第二手势动作进行比对。

步骤S206，当所述第一手势动作与所述第二手势动作一致时，在所述手势特效对应表查询出所述第二手势动作对应的第一视频特效。

步骤S208，将所述第一视频特效显示到所述视频播放框。

具体地，所述计算机设备1将所述用户画面和所述主播视频显示到所述视频播放框之后，则通过图像识别的方式对所述用户画面中的每一帧图像进行识别，从而获取所述用户画面中的每一帧图像中的手掌图像，然后识别手势动作。在本实施例中，所述计算机设备1可以预先存储一个能够识别手势动作的手势识别模型，然后获取所述用户画面的视频数据中的图像进行识别。当所述计算机设备识别出所述用户画面中的第一手势动作时，则会将所述第一手势动作与预设的手势特效对应表中的第二手势动作进行比对。其中，所述手势特效对应表包括手势动作与视频特效的一一对应关系。

当所述计算机设备1识别出的第一手势动作与所述手势特效对应表中的第二手势动作一致时，则进一步在所述手势特效对应表中查询出所述第二手势动作对应的第一视频特效。最后，所述计算机设备1将所述第一视频特效显示到所述视频播放框。

如图3所示，在一示例性的实施例中，步骤S208中的将所述第一视频特效显示到所述视频播放框的过程，包括步骤S300～S302。

步骤S300，获取所述第一手势动作的第一手掌位置，以及所述主播视频中的直播主人脸的第一人脸位置。

步骤S302，将所述视频特效以所述第一手掌位置为起点、所述第一人脸位置为终点进行延伸显示。

具体地，所述计算机设备1在查询出所述第二手势动作对应的第一视频特效之后，则将所述视频特效显示到所述用户画面和所述主播视频。所述计算机设备1先获取所述用户画面中的用户执行所述第一手势动作的第一手掌位置，然后再获取所述主播视频中直播主的第一人脸位置。在本实施例中，由于所述用户画面和所述主播视频在所述视频播放框中属于相对的固定位置关系(即短时间内位置固定不变)，因此，可以通过人体识别模型识别出所述用户画面的用户画面帧中的执行所述第一手势动作的手掌图像，以及识别出所述主播视频的主播视频帧中的直播主的人脸图像。

接着，所述计算机设备1根据所述手掌图像在所述用户画面帧的相对位置坐标标记为所述第一手掌位置；以及根据所述人脸图像在所述主动视频帧的相对位置坐标标记为所述第一人脸位置，其中，相对位置坐标表示手掌图像在所述用户画面帧中的位置或者所述人脸图像在所述主播视频帧中的位置。最后，所述计算机设备1将所述视频特效以所述第一手掌位置为起点、所述第一人脸位置为终点进行延伸显示。请参阅图4所示，用户手势比划出“比心”，然后视频特效产生一连串红心，从用户画面延伸显示到主播视频。通过这种方式，所述计算机设备1将视频特效以“互动”形式显示在所述用户画面和所述主播视频中，从而提升了直播视频过程中的互动感。

如图5所示，在一示例性的实施例中，步骤S208中的将所述第一视频特效显示到所述视频播放框的过程，除了包括步骤S300～S302，还包括步骤S400～S404。

步骤S400，监测所述第一手势动作的手掌是否发生移动。

步骤S402，当所述第一手势动作的手掌发生移动时，获取移动后所述第一手势动作的手掌的第二手掌位置。

步骤S404，将所述视频特效的起点从所述第一手掌位置变更为所述第二手掌位置。

在本实施例中，所述计算机设备1在将所述视频特效以所述第一手掌位置为起点、所述第一人脸位置为终点进行延伸显示的过程中，还会持续监测所述第一手势动作的手掌是否发生移动；当发生移动时，则获取移动后所述手掌的第二手掌位置，然后将所述视频特效的起点由所述第一手掌位置变更为所述第二手掌位置。

如图6所示，在另一示例性的实施例中，步骤S208中的将所述第一视频特效显示到所述视频播放框的过程，除了包括步骤S300～S302，还包括步骤S500～S504。

步骤S500，监测所述直播主人脸是否发生移动。

步骤S502，当所述直播主人脸发生移动时，获取移动后所述直播主人脸的第二人脸位置。

步骤S504，将所述视频特效的终点从所述第一人脸位置变更为所述第二人脸位置。

在本实施例中，所述计算机设备1在将所述视频特效以所述第一手掌位置为起点、所述第一人脸位置为终点进行延伸显示的过程中，还会持续监测所述直播主的人脸是否发生移动；当发生移动时，则获取移动后所述人脸的第二人脸位置，然后将所述视频特效的终点由所述第一人脸位置变更为所述第二人脸位置。

通过监测所述第一手势的手掌的位置以及所述直播主的人脸的位置从而调整所述视频特效的起点和终点，因此，可以提升直播视频互动中视频特效的“针对性”延伸，加强了互动效果。

如图7所示，在一示例性的实施例中，步骤S208中的将所述第一视频特效显示到所述视频播放框的过程，包括步骤S600～S602。

步骤S600，获取所述主播视频中的直播主的人脸图像。

步骤S602，将所述人脸图像与所述第一手势动作对应的人脸特效进行合成并显示；其中，所述人脸特效包括服饰特效和表情特效中的至少一种。

在本实施例中，所述计算机设备1识别出所述第一手势动作并判断为与所述手势特效对应表中的第二手势动作一致，因此触发所述第一手势动作对应的视频特效，其中，所述视频特效包括，将预设的人脸特效与所述主播视频中当前的直播主的人脸图像进合成并显示，人脸特效包括服饰特效或表情特效。例如，图8为正常的直播画面，图9是人脸特效之后的直播画面。如图9所示，下方的用户画面产生了投币的第一手势，而投币的第一手势能够触发将直播主当前的人脸图像加上墨镜的人脸特效，因此，所述计算机设备1则会在上方的主播视频中显示加上人脸特效的直播主的人脸图像。这种由用户触发，对直播主的人脸图像进行视频特效，因此，也能够很好提升互动效果。

如图10所示，在一示例性的实施例中，所述直播视频播放方法除了包括以上所述的步骤S200～S208，还包括步骤S700～S702：

步骤S700，统计所述第一手势动作的手势持续时间。

步骤S702，当所述手势持续时间大于或等于预设的时间阈值时，触发第二视频特效。

具体地，所述计算机设备1在将所述视频特效显示到所述视频播放框之后，还会继续监控所述第一手势动作的手势持续时间。当所述手势持续时间大于或等于预设阈值时，则触发第二视频特效。当然，所述第二视频特效也可以是基于所述视频特效的进一步加强，比如颜色、形状等变化。通过这种方式进一步加强直播视频互动的效果。

从上文可知，本实施例所提出的直播视频互动方法能够获取直播主的主播视频和用户终端实时拍摄的用户画面，投放在同一个视频播放框显示；然后获取并识别出所述用户画面中的用户的第一手势动作，将所述第一手势动作与预设的手势特效对应表中的第二手势动作进行比对；当所述第一手势动作与所述第二手势动作一致时，在所述手势特效对应表查询出所述第二手势动作对应的视频特效，显示到所述视频播放框。通过以上方式，能够在同一界面内展示用户与主播画面，利用视频特效连接用户与主播之间的互动行为，丰富了互动展示的方式，加强了互动参与感。

此外，本申请还提供一种计算机设备，参阅图11所示，是本申请计算机设备一可选的硬件架构的示意图。

本实施例中，所述计算机设备1可包括，但不仅限于，可通过系统总线相互通信连接存储器11、处理器12、网络接口13。所述计算机设备1通过网络接口13连接网络(图11未标出)，通过网络连接到直播主终端等(图11未标出)进行数据交互。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，GSM)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。

需要指出的是，图11仅示出了具有组件11-13的计算机设备1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

其中，所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器11可以是所述计算机设备1的内部存储单元，例如该计算机设备1的硬盘或内存。在另一些实施例中，所述存储器11也可以是所述计算机设备1的外部存储设备，例如该计算机设备1配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器11还可以既包括所述计算机设备1的内部存储单元也包括其外部存储设备。本实施例中，所述存储器11通常用于存储安装于所述计算机设备1的操作系统和各类应用软件，例如挡板应用的程序代码，以及直播视频互动装置200的程序代码等。此外，所述存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述计算机设备1的总体操作，例如执行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行所述直播视频互动装置200的应用程序，这里不做限制。

所述网络接口13可包括无线网络接口或有线网络接口，该网络接口13通常用于在所述计算机设备1与直播主终端之间建立通信连接。

本实施例中，所述计算机设备1内安装并运行有直播视频互动装置200时，当所述直播视频互动装置200运行时，能够获取直播主的主播视频和用户终端实时拍摄的用户画面，投放在同一个视频播放框显示；然后获取并识别出所述用户画面中的用户的第一手势动作，将所述第一手势动作与预设的手势特效对应表中的第二手势动作进行比对；当所述第一手势动作与所述第二手势动作一致时，在所述手势特效对应表查询出所述第二手势动作对应的视频特效，显示到所述视频播放框。通过以上方式，能够在同一界面内展示用户与主播画面，利用视频特效连接用户与主播之间的互动行为，丰富了互动展示的方式，加强了互动参与感。

至此，己经详细介绍了本申请计算机设备的硬件结构和功能。下面，将基于上述计算机设备，提出本申请的各个实施例。

参阅图12所示，是本申请直播视频互动装置200一实施例的程序模块图。

本实施例中，所述直播视频互动装置200包括一系列的存储于存储器11上的计算机可读指令，当该计算机可读指令被处理器12执行时，可以实现本申请实施例的直播视频互动功能。在一些实施例中，基于该计算机可读指令各部分所实现的特定的操作，直播视频互动装置200可以被划分为一个或多个模块。例如，在图12中，所述直播视频互动装置200可以被分割成获取模块201、显示模块202、识别模块203、判断模块204、查询模块205和监测模块206。其中：

所述获取模块201，用于获取直播主的主播视频和用户终端实时拍摄的用户画面。

具体地，所述计算机设备通过网络与所述直播主终端连接，然后则可以获取由所述直播主终端发送的主播视频，所述主播视频是所述直播主通过所述直播主终端进行直播拍摄的视频数据。当然，所述计算机设备作为用户的终端设备，设置有摄像单元，能够拍摄用户的用户画面。因此，所述获取模块201能够获取到直播主的主播视频和用户的用户画面。

所述显示模块202，用于将所述主播视频和所述用户画面投放在同一个视频播放框显示。

具体地，所述计算机设备还提供一个显示界面，所述显示界面上设置一个视频播放框，所述视频播放框用于播放视频数据。本实施例中，视频播放框包括第一部分与第二部分，第一部分用于展示主播视频，第二部分用于展示用户画面，所述显示模块202能够将获取到的主播视频和用户画面通过所述视频播放框进行播放。

需要注意的是，在本实施例中，所述显示模块202将所述主播视频和所述用户画面在所述视频播放框中第一部分和第二部分无缝拼接播放，比如上下两部分或者左右两部分。如，计算机设备1可以在主播视频为横屏时，设置第一部分与第二部分为上下拼接，在主播视频为竖屏时，设置第一部分与第二部分为左右拼接。当然，在其他实施例中，所述显示模块202也可以将所述主播视频与所述用户画面在所述视频播放框中以其他方式共同播放，比如，所述主播视频与所述用户分开散落在所述视频播放框，或者所述主播视频和所述用户画面形成大小播放窗包含在一起播放，这里不做限制。在本实施例中，将主播视频和用户画面进行拼接播放，可以将用户和直播主的视频同框显示，因此可以给用户一种与直播主近距离的感觉。

所述识别模块203，用于获取并识别出所述用户画面中的用户的第一手势动作。

所述判断模块204，用于将所述第一手势动作与预设的手势特效对应表中的第二手势动作进行比对，判断是否一致。

所述查询模块205，用于当所述第一手势动作与所述第二手势动作一致时，在所述手势特效对应表查询出所述第二手势动作对应的视频特效。

所述显示模块202，还用于将所述视频特效显示到所述视频播放框。

具体地，所述显示模块202将所述用户画面和所述主播视频显示到所述视频播放框之后，所述识别模块203则通过图像识别的方式对所述用户画面中的每一帧图像进行识别，从而获取所述用户画面中的每一帧图像中的手掌图像，然后识别手势动作。在本实施例中，所述计算机设备可以预先存储一个能够识别手势动作的手势识别模型，然后所述识别模块203可以调用该手势识别模型对获取所述用户画面的视频数据中的图像进行识别。当所述识别模块203识别出所述用户画面中的第一手势动作时，所述判断模块204则会将所述第一手势动作与预设的手势特效对应表中的第二手势动作进行比对，判断是否一致。其中，所述手势特效对应表包括手势动作与视频特效的一一对应关系。

当所述判断模块204判断出所述第一手势动作与所述手势特效对应表中的第二手势动作一致时，所述查询模块205则进一步在所述手势特效对应表中查询出所述第二手势动作对应的第一视频特效。最后，所述显示模块202将所述第一视频特效显示到所述视频播放框。

在本实施例中，所述显示模块202将所述第一视频特效显示到所述视频播放框的过程包括：获取所述第一手势动作的第一手掌位置，以及所述主播视频中的直播主人脸的第一人脸位置；将所述视频特效以所述第一手掌位置为起点、所述第一人脸位置为终点进行延伸显示。

具体地，所述显示模块202先获取所述用户画面中的用户执行所述第一手势动作的第一手掌位置，然后再获取所述主播视频中直播主的第一人脸位置。在本实施例中，由于所述用户画面和所述主播视频在所述视频播放框中属于相对的固定位置关系(即短时间内位置固定不变)，因此，可以通过人体识别模型识别出所述用户画面的用户画面帧中的执行所述第一手势动作的手掌图像，以及识别出所述主播视频的主播视频帧中的直播主的人脸图像。

接着，所述显示模块202根据所述手掌图像在所述用户画面帧的相对位置坐标标记为所述第一手掌位置；以及根据所述人脸图像在所述主动视频帧的相对位置坐标标记为所述第一人脸位置，其中，相对位置坐标表示手掌图像在所述用户画面帧中的位置或者所述人脸图像在所述主播视频帧中的位置。最后，所述显示模块202将所述视频特效以所述第一手掌位置为起点、所述第一人脸位置为终点进行延伸显示。请参阅图4所示，用户手势比划出“比心”，然后视频特效产生一连串红心，从用户画面延伸显示到主播视频。通过这种方式，所述计算机设备1将视频特效以“互动”形式显示在所述用户画面和所述主播视频中，从而提升了直播视频过程中的互动感。

所述监测模块206，用于在所述显示模块202将所述第一视频特效显示到所述视频播放框的过程中监测所述第一手势动作的手掌是否发生移动。

所述显示模块202，还用于当所述第一手势动作的手掌发生移动时，获取移动后所述第一手势动作的手掌的第二手掌位置，然后将所述视频特效的起点从所述第一手掌位置变更为所述第二手掌位置。

所述监测模块206，还用于在所述显示模块202将所述第一视频特效显示到所述视频播放框的过程中监测所述直播主人脸是否发生移动。

所述显示模块202，还用于当所述直播主人脸发生移动时，获取移动后所述直播主人脸的第二人脸位置，获取移动后所述第一手势动作的手掌的第二手掌位置，然后将所述视频特效的终点从所述第一人脸位置变更为所述第二人脸位置。

在另一实施例中，所述显示模块202还用于获取所述主播视频中的直播主的人脸图像，然后将所述人脸图像与所述第一手势动作对应的人脸特效进行合成并显示；其中，所述人脸特效包括服饰特效和表情特效中的至少一种。

在本实施例中，所述计算机设备预先设置所述视频特效包括：将预设的人脸特效与所述主播视频中当前的直播主的人脸图像进合成并显示，人脸特效包括服饰特效或表情特效。例如，图8为正常的直播画面，图9是人脸特效之后的直播画面。如图9所示，下方的用户画面产生了投币的第一手势，而投币的第一手势能够触发将直播主当前的人脸图像加上墨镜的人脸特效，因此，所述显示模块202则会在上方的主播视频中显示加上人脸特效的直播主的人脸图像。这种由用户触发，对直播主的人脸图像进行视频特效，因此，也能够很好提升互动效果。

当然，在另一实施例中，所述监测模块206还用于统计所述第一手势动作的手势持续时间。

所述显示模块202，还用于当所述手势持续时间大于或等于预设的时间阈值时，触发第二视频特效。

具体地，所述显示模块202在将所述视频特效显示到所述视频播放框之后，所述监测模块206则会继续监控所述第一手势动作的手势持续时间。当所述监测模块206统计出所述手势持续时间大于或等于预设阈值时，那么，所述显示模块202则触发显示第二视频特效。当然，所述第二视频特效也可以是基于所述视频特效的进一步加强，比如颜色、形状等变化。通过这种方式进一步加强直播视频互动的效果。

从上文可知，所述计算机设备能够获取直播主的主播视频和用户终端实时拍摄的用户画面，投放在同一个视频播放框显示；然后获取并识别出所述用户画面中的用户的第一手势动作，将所述第一手势动作与预设的手势特效对应表中的第二手势动作进行比对；当所述第一手势动作与所述第二手势动作一致时，在所述手势特效对应表查询出所述第二手势动作对应的视频特效，显示到所述视频播放框。通过以上方式，能够在同一界面内展示用户与主播画面，利用视频特效连接用户与主播之间的互动行为，丰富了互动展示的方式，加强了互动参与感。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法，包括：

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种直播视频互动方法，所述方法包括步骤：

获取直播主的主播视频和用户终端实时拍摄的用户画面；

将所述主播视频和所述用户画面投放在同一个视频播放框显示；

获取并识别出所述用户画面中的用户的第一手势动作，将所述第一手势动作与预设的手势特效对应表中的第二手势动作进行比对；

当所述第一手势动作与所述第二手势动作一致时，在所述手势特效对应表查询出所述第二手势动作对应的第一视频特效；

将所述第一视频特效显示到所述视频播放框。
如权利要求1所述的直播视频互动方法，所述将所述主播视频和所述用户画面投放在同一个视频播放框显示包括：

将所述主播视频和所述用户画面在所述视频播放框中第一部分和第二部分无缝拼接播放。
如权利要求1所述的直播视频互动方法，所述将所述第一视频特效显示到所述视频播放框包括：

获取所述第一手势动作的第一手掌位置，以及所述主播视频中的直播主人脸的第一人脸位置；

将所述视频特效以所述第一手掌位置为起点、所述第一人脸位置为终点进行延伸显示。
如权利要求3所述的直播视频互动方法，所述方法还包括：

监测所述第一手势动作的手掌是否发生移动；

当所述第一手势动作的手掌发生移动时，获取移动后所述第一手势动作的手掌的第二手掌位置；

将所述视频特效的起点从所述第一手掌位置变更为所述第二手掌位置。
如权利要求3所述的直播视频互动方法，所述方法还包括：

监测所述直播主人脸是否发生移动；

当所述直播主人脸发生移动时，获取移动后所述直播主人脸的第二人脸位置；

将所述视频特效的终点从所述第一人脸位置变更为所述第二人脸位置。
如权利要求1所述的直播视频互动方法，所述将所述视频特效显示到所述视频播放框包括：

获取所述主播视频中的直播主的人脸图像；

将所述人脸图像与所述第一手势动作对应的人脸特效进行合成并显示；其中，所述人脸特效包括服饰特效和表情特效中的至少一种。
如权利要求1所述的直播视频互动方法，所述方法还包括：

统计所述第一手势动作的手势持续时间；

当所述手势持续时间大于或等于预设的时间阈值时，触发第二视频特效。
一种直播视频互动装置，所述装置包括：

获取模块，用于获取直播主的主播视频和用户终端实时拍摄的用户画面；

显示模块，用于将所述主播视频和所述用户画面投放在同一个视频播放框显示；

识别模块，用于获取并识别出所述用户画面中的用户的第一手势动作；

判断模块，用于将所述第一手势动作与预设的手势特效对应表中的第二手势动作进行比对，判断是否一致；

查询模块，用于当所述第一手势动作与所述第二手势动作一致时，在所述手势特效对应表查询出所述第二手势动作对应的视频特效；

所述显示模块，还用于将所述视频特效显示到所述视频播放框。
一种计算机设备，所述计算机设备包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机可读指令，所述计算机可读指令被所述处理器执行时实现以下步骤：

获取直播主的主播视频和用户终端实时拍摄的用户画面；

将所述主播视频和所述用户画面投放在同一个视频播放框显示；

获取并识别出所述用户画面中的用户的第一手势动作，将所述第一手势动作与预设的手势特效对应表中的第二手势动作进行比对；

当所述第一手势动作与所述第二手势动作一致时，在所述手势特效对应表查询出所述第二手势动作对应的第一视频特效；

将所述第一视频特效显示到所述视频播放框。
如权利要求9所述的计算机设备，所述将所述主播视频和所述用户画面投放在同一个视频播放框显示包括：

将所述主播视频和所述用户画面在所述视频播放框中第一部分和第二部分无缝拼接播放。
如权利要求9所述的计算机设备，所述将所述第一视频特效显示到所述视频播放框包括：

获取所述第一手势动作的第一手掌位置，以及所述主播视频中的直播主人脸的第一人脸位置；

将所述视频特效以所述第一手掌位置为起点、所述第一人脸位置为终点进行延伸显示。
如权利要求11所述的计算机设备，所述计算机可读指令被所述处理器执行时还实现以下步骤：

监测所述第一手势动作的手掌是否发生移动；

当所述第一手势动作的手掌发生移动时，获取移动后所述第一手势动作的手掌的第二手掌位置；

将所述视频特效的起点从所述第一手掌位置变更为所述第二手掌位置。
如权利要求11所述的计算机设备，所述计算机可读指令被所述处理器执行时还实现以下步骤：

监测所述直播主人脸是否发生移动；

当所述直播主人脸发生移动时，获取移动后所述直播主人脸的第二人脸位置；

将所述视频特效的终点从所述第一人脸位置变更为所述第二人脸位置。
如权利要求9所述的计算机设备，所述将所述视频特效显示到所述视频播放框包括：

获取所述主播视频中的直播主的人脸图像；

将所述人脸图像与所述第一手势动作对应的人脸特效进行合成并显示；其中，所述人脸特效包括服饰特效和表情特效中的至少一种。
如权利要求9所述的计算机设备，所述计算机可读指令被所述处理器执行时还实现以下步骤：

统计所述第一手势动作的手势持续时间；

当所述手势持续时间大于或等于预设的时间阈值时，触发第二视频特效。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行以下步骤：

获取直播主的主播视频和用户终端实时拍摄的用户画面；

将所述主播视频和所述用户画面投放在同一个视频播放框显示；

获取并识别出所述用户画面中的用户的第一手势动作，将所述第一手势动作与预设的手势特效对应表中的第二手势动作进行比对；

当所述第一手势动作与所述第二手势动作一致时，在所述手势特效对应表查询出所述第二手势动作对应的第一视频特效；

将所述第一视频特效显示到所述视频播放框。
如权利要求16所述的计算机可读存储介质，所述将所述主播视频和所述用户画面投放在同一个视频播放框显示包括：

将所述主播视频和所述用户画面在所述视频播放框中第一部分和第二部分无缝拼接播放。
如权利要求16所述的计算机可读存储介质，所述将所述第一视频特效显示到所述视频播放框包括：

获取所述第一手势动作的第一手掌位置，以及所述主播视频中的直播主人脸的第一人脸位置；

将所述视频特效以所述第一手掌位置为起点、所述第一人脸位置为终点进行延伸显示。
如权利要求16所述的计算机可读存储介质，所述将所述视频特效显示到所述视频播放框包括：

获取所述主播视频中的直播主的人脸图像；

将所述人脸图像与所述第一手势动作对应的人脸特效进行合成并显示；其中，所述人脸特效包括服饰特效和表情特效中的至少一种。
如权利要求18所述的计算机可读存储介质，所述计算机可读指令被所述处理器执行，以使所述至少一个处理器还实现以下步骤：

监测所述第一手势动作的手掌是否发生移动；

当所述第一手势动作的手掌发生移动时，获取移动后所述第一手势动作的手掌的第二手掌位置；

将所述视频特效的起点从所述第一手掌位置变更为所述第二手掌位置；

或者，监测所述直播主人脸是否发生移动；

当所述直播主人脸发生移动时，获取移动后所述直播主人脸的第二人脸位置；

将所述视频特效的终点从所述第一人脸位置变更为所述第二人脸位置；

或者，统计所述第一手势动作的手势持续时间；

当所述手势持续时间大于或等于预设的时间阈值时，触发第二视频特效。