WO2023207516A1

WO2023207516A1 - 直播视频处理方法、装置、电子设备及存储介质

Info

Publication number: WO2023207516A1
Application number: PCT/CN2023/085650
Authority: WO
Inventors: 朱承丞; 张雯; 赵飞
Original assignee: 北京字跳网络技术有限公司
Priority date: 2022-04-27
Filing date: 2023-03-31
Publication date: 2023-11-02
Also published as: CN117014638A

Abstract

本申请提供一种直播视频处理方法、装置、电子设备及存储介质。所述方法包括：获取用于直播的视频流数据；根据所述视频流数据，生成目标对象区域数据；将所述目标对象区域数据添加至所述视频流数据并发送，以使在直播过程中在目标对象所占的区域区域之外渲染显示弹幕。

Description

直播视频处理方法、装置、电子设备及存储介质

本申请要求2022年4月27日递交的、标题为“直播视频处理方法、装置、电子设备及存储介质”、申请号为CN202210459338.8的中国发明专利申请的优先权。

技术领域

本申请涉及计算机技术领域，尤其涉及一种直播视频处理方法、装置、电子设备及存储介质。

背景技术

随着互联网和智能终端的发展，在线直播已经成为网络时代人们休闲互动的场景之一。在直播过程中，用户在观看直播的同时，还可以发弹幕。

发明内容

有鉴于此，本申请的目的在于提出一种直播视频处理方法、装置、电子设备及存储介质。

基于上述目的，本申请提供了一种直播视频处理方法，包括：

获取用于直播的视频流数据；

根据所述视频流数据，生成目标对象区域数据；

将所述目标对象区域数据添加至所述视频流数据并发送，以使在直播过程中在目标对象所占的区域区域之外渲染显示弹幕。

在一些实施方式中，所述方法还包括：获取用于直播的弹幕数据；根据所述视频流数据显示直播画面，并根据所述目标对象区域数据和所述弹幕数据，在直播画面中目标对象所占的区域之外渲染显示弹幕。

在一些实施方式中，所述视频流数据包括一定数量的视频帧；所述根据所述视频流数据，生成目标对象区域数据，包括：对所述视频帧进行轮廓识别，得到对应于识别到的目标对象轮廓的坐标点集合，将所述坐标点集合作为所述目标对象区域数据。

在一些实施方式中，所述将所述目标对象区域数据添加至所述视频流数据并发送，包括：根据预定的视频流编码规则，将所述目标对象区域数据作为补充增强信息添加至所述视频流数据。

在一些实施方式中，所述方法还包括通过以下方法确定直播画面中目标对象所占的区域：对于所述坐标点集合中的每个坐标点，将所述坐标点根据预定的映射关系映射为目标坐标点；其中，所述映射关系为所述轮廓识别输出的图像大小、所述视频帧的图像大小以及所述直播画面的图像大小之间的映射关系；将所述目标坐标点依次相连，以得到闭合曲线；将所述闭合曲线限定的区域确定为直播画面中目标对象所占的区域。

在一些实施方式中，所述将所述坐标点根据预定的映射关系映射为目标坐标点，包括：根据所述轮廓识别输出的图像大小与所述视频帧的图像大小，确定第一缩放参数；根据所述视频帧的图像大小与所述直播画面的图像大小，确定第二缩放参数；根据所述轮廓识别输出的图像大小、所述视频帧的图像大小以及所述直播画面的图像大小，确定裁剪参数；根据所述第一缩放参数、所述第二缩放参数和所述裁剪参数，将所述坐标点映射为目标坐标点。

在一些实施方式中，所述坐标点包括横坐标和纵坐标；所述将该坐标点根据预定的映射关系映射为目标坐标点，包括：根据所述直播画面的图像大小，确定移动参数；根据所述第一缩放参数、所述第二缩放参数和所述裁剪参数，对所述横坐标进行映射处理；根据所述第一缩放参数、所述第二缩放参数和所述移动参数，对所述纵坐标进行映射处理；根据映射处理后的所述横坐标和所述纵坐标，得到所述目标坐标点。

根据本公开的另一方面，本申请还提供了一种直播视频处理方法，包括：

接收用于直播的视频流数据和弹幕数据；其中，所述视频流数据携带有目标对象区域数据，所述目标对象区域数据用于确定直播画面中目标对象所占的区域；

根据所述视频流数据显示直播画面，并根据所述目标对象区域数据和所述弹幕数据，在直播画面中目标对象所占的区域之外渲染显示弹幕。

根据本公开的另一方面，本申请还提供了一种直播视频处理装置，包括：

获取模块，被配置为获取用于直播的视频流数据；

生成模块，被配置为根据所述视频流数据，生成目标对象区域数据；

发送模块，被配置为将所述目标对象区域数据添加至所述视频流数据并发送，以使在直播过程中在目标对象所占的区域区域之外渲染显示弹幕。

接收模块，被配置为接收用于直播的视频流数据和弹幕数据；其中，所述视频流数据携带有目标对象区域数据，所述目标对象区域数据用于表征直播画面中目标对象所占的区域；

显示模块，被配置为根据所述视频流数据显示直播画面，并根据所述目标对象区域数据和所述弹幕数据，在直播画面中目标对象所占的区域之外渲染显示弹幕。

根据本公开的另一方面，本申请还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任意一项所述的方法。

根据本公开的另一方面，本申请还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行如上任意一项所述的方法。

附图说明

为了更清楚地说明本申请或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的应用场景示意图；

图2为本申请实施例用于主播端或服务器的直播视频处理方法流程示意图；

图3为本申请实施例实现的弹幕避让目标对象的直播画面示意图；

图4为本申请实施例中的映射关系示意图；

图5为本申请实施例用于看播端的直播视频处理方法流程示意图；

图6为本申请实施例用于主播端或服务器的直播视频处理装置结构示意图；

图7为本申请实施例用于看播端的直播视频处理装置结构示意图；

图8为本申请实施例的电子设备结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本申请进一步详细说明。

下面将参考若干示例性实施方式来描述本申请的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本申请，而并非以任何方式限制本申请的范围。相反，提供这些实施方式是为了使本申请更加透彻和完整，并且能够将本申请的范围完整地传达给本领域的技术人员。

根据本申请的实施方式，提出了一种直播视频处理方法、装置、电子设备及存储介质。

在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本申请的若干代表性实施方式，详细阐释本申请的原理和精神。

在直播过程中，直播的观看者可以开启弹幕功能，在弹幕功能开启后，直播视频中会显示所有该直播的观看者发出的大量以字幕(或者图片)形式显示的评论，这使得观看者既能够观看当前的直播视频，又能够看到其他视频观看者对该直播视频的弹幕互动，给直播过程增加了趣味性和互动性。然而，当大量的弹幕同时显示在当前直播画面中时，容易对当前直播视频中的目标对象进行遮挡；例如，该目标对象可以是虚拟形象(虚拟主播)，或者是供观看者阅读的带有特定信息(如广告)的信息展示窗口等，从而导致观看者无法清楚、完整的观看到直播视频中的目标对象，影响直播效果。可以理解的是，在直播的场景下，直播视频中的目标对象恰恰是直播视频中最重要的视频内容，也是观看者最希望清楚观看的内容。而当大量弹幕对直播视频中的目标对象进行遮挡时，会显著的影响直播效果。虽然，目前也出现一些针对弹幕遮挡直播视频中的目标对象的解决方案，但是通常需要对看播端做额外配置，不易实施，成本较高。

在相关技术中，存在一些实现弹幕避让视频中的目标对象的方案。然而，相关技术中的方案，是针对于视频播放场景下的，该场景下播放的视频是离线的，需要预先对于离线视频进行相应的处理，以实现视频中的弹幕避让目标对象效果。该相关技术中的方案无法应用到在线直播的场景下。

针对于上述问题，本申请提供了一种直播视频处理方案，在主播端或服务器，基于用于直播的视频流数据，生成用于表征直播画面中目标对象所占的区域的目标对象区域数据，将该目标对象区域数据添加到直播的视频流数据后再发送至看播端。在主播端和看播端上，能够基于视频流数据中携带的目标对象区域数据，确定出直播画面中目标对象所占的区域，并仅在目标对象所占的区域之外的直播画面中渲染显示弹幕，从而在直播过程中实现弹幕避让目标对象的效果。本申请的方案，避免了弹幕对直播视频中目标对象的遮挡，仅在主播端或服务器进行处理得到目标对象区域数据，并将目标对象区域数据添加至视频流数据一并传输，故仅需对主播端或服务器的硬件配置进行相应设置，看播端的硬件配置均无需额外设置，兼容性强且易于实施。

参考图1，为本申请实施例的直播视频处理方法的应用场景示意图。

该应用场景包括客户端设备101、客户端设备103和服务器102，其中，客户端设备101、客户端设备103均可以与服务器102通过网络连接以实现数据交互。

可选地，客户端设备101和客户端设备103可以是靠近用户侧的具有数据传输、多媒体输入/输出功能的电子设备，如，计算机、平板电脑、智能手机、车载电脑、可穿戴设备等。

可选的，服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是云服务器等。

在本申请实施例的在线直播场景中，客户端设备101可以为主播使用的客户端设备，为更加清楚明确的表述，本申请实施例中称之为主播端。客户端设备103可以为观看者使用的客户端设备，为更加清楚明确的表述，本申请实施例中称之为看播端；在一般情况下，看播端会存在有多个。具体的，主播端和看播端均可以通过安装的直播客户端与服务器102通信，以使用服务器102提供的在线直播服务。

下面结合图1的应用场景，来描述根据本申请示例性实施方式的直播视频处理方法。需要注意的是，上述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。相反，本申请的实施方式可以应用于适用的任何场景。

首先，本申请实施例提供了一种直播视频处理方法，该方法应用于主播端。

参考图2，本实施例的直播视频处理方法，可以包括以下步骤：

步骤S201、获取用于直播的视频流数据。

本实施例中，用于直播的视频流数据是指主播端生成的用于向各个看播端进行在线直播的视频数据，一般情况下，该视频流数据时通过主播端设置的或者外接的图像获取装置(如摄像头)获取并经过主播端设置的流媒体处理软件处理后发送至服务器的。

步骤S202、根据所述视频流数据，生成目标对象区域数据。

本实施例中，目标对象区域数据是指用于表征直播画面中目标对象所占的区域的数据。其中，目标对象可以是直播画面中的期望向观众展示的对象，如直播画面中的虚拟形象(虚拟主播)或虚拟形象的局部或直播画面中展示的商品、或直播画面中的显示元素例如信息展示框(商品讲解卡)等，尤其是直播画面中不期望被弹幕遮挡而影响观众体验的对象；相应的，目标对象所占的区域可以是指直播画面中目标对象的外轮廓所包围限定出的区域，该区域内的画面内容一般是本申请的方案中不希望被弹幕所遮挡的直播内容。

本实施例中，视频流数据包括一定数量按照直播播放时序依次排列的视频帧，每一视频帧即直播视频的一帧图像。本步骤中根据视频流数据生成目标对象区域数据时，可以是对于每一视频帧均相应的生成目标对象区域数据。

作为一种可选的实施方式，可以通过识别轮廓所对应的坐标点的方式得到目标对象区域数据。具体的，根据视频流数据生成目标对象区域数据的方法可以包括：对视频帧进行轮廓识别，得到对应于识别到的目标对象轮廓的坐标点集合，将该坐标点集合作为目标对象区域数据。

其中，对视频帧进行轮廓识别和目标对象轮廓的坐标点的生成，可以使用Matting算法和FindContour算法实现。Matting算法可以对视频帧进行轮廓识别，识别出视频帧内包括的目标对象的轮廓。基于目标对象轮廓，再通过FindContour算法，输出目标对象轮廓对应的全部坐标点，该些坐标点即构成对应于视频帧中目标对象轮廓的坐标点集合。该坐标点集合即可以作为目标对象区域数据。其中，Matting算法和FindContour算法可以预先部署在主播端的本地，在使用时从本地调用；此外，上述算法也可以部署在网络侧的存储位置，例如提供开放接口接入的算法平台，在使用上述算法时主播端相应的访问算法平台进行调用并接收计算结果即可。

可以理解的是，具体实施时，除了上述使用Matting算法和FindContour算法之外，也可以使用其他任意可行的相关方案对视频帧进行轮廓识别以及生成目标对象的轮廓对应的坐标点，对于具体所使用的方法本申请实施例中不做限定。

此外，需要说明的是，对于一帧视频帧，其中包括的目标对象可能并不止一个，则相应的生成的目标对象区域数据应该是与视频帧中包括的目标对象的数量相对应的。且对于每个视频帧中的目标对象，其对应的目标对象区域数据是分别生成并存储的。例如，对于前述通过FindContour算法得到坐标点集合的方式，当视频帧中包括多个目标对象时，则会为每个目标对象分别生成对应的坐标点集合。

步骤S203、将所述目标对象区域数据添加至所述视频流数据并发送，以使在直播过程中在目标对象所占的区域区域之外渲染显示弹幕。

本实施例中，对于前述步骤生成的目标对象区域数据，会将该目标对象区域数据相加至视频流数据，使视频流数据携带目标对象区域数据并推流至直播服务器，后续的，看播端从直播服务器拉取视频流数据时，其拉取到的即为上述携带有目标对象区域数据的视频流数据。

作为一种可选的实施方式，可以通过将目标对象区域数据作为补充增强信息(Supplemental Enhancement Information，SEI)添加至视频流数据。具体的，将目标对象区域数据添加至视频流数据并发送，可以包括：根据预定的视频流编码规则，将目标对象区域数据作为补充增强信息添加至视频流数据。

其中，SEI是视频流编码压缩标准H.264/H.265的特性之一。SEI可以在视频流数据生成和传输的过程中进行添加，SEI携带的数据会与视频流数据一起传输至视频流数据的播放端。在相关技术中，常见的SEI的内容可以是压缩编码参数、摄像头参数等。本申请实施例中，基于SEI的上述特征，将生成目标对象区域数据通过SEI的方式添加至视频流数据中。通过SEI的方式为视频流数据添加目标对象区域数据，能够利用SEI的特点并加以充分的利用，同时对于已有的视频流数据的结构、传输方式等均不会发生变化，兼容性极佳。

此外，具体实施时，除了上述使用SEI添加目标对象区域数据的方式之外，也可以使用其他任意可行的相关方案将目标对象区域数据添加至视频流数据，对于具体所使用的方法本申请实施例中不做限定。

本实施例中，携带有目标对象区域数据的视频流数据推流至直播服务器，并被看播端拉取进行直播时，看播端可以根据视频流数据携带的目标对象区域数据，确定出直播画面中目标对象所占的区域，并在开启弹幕效果时，能够基于确定出的直播画面中目标对象所占的区域，仅在该区域之外渲染显示弹幕。其中，根据目标对象区域数据确定直播画面中目标对象所占的区域的具体方式，会在后述实施例中详细说明。

可见，本申请实施例的方法，在主播端生成用于表征直播画面中目标对象所占的区域的目标对象区域数据，并将该目标对象区域数据添加至视频流数据后一并发送，后续看播端拉取到视频流数据后，可以直接获得目标对象区域数据并相应实现弹幕避让目标对象的效果。目标对象区域数据的处理仅在主播端进行，直播服务器和看播端均无需进行过多额外的设置，在实现弹幕避让目标对象的效果的同时，方案易于实施，且具有更高的兼容性。

在一些可选的实施例中，在主播端除了发送携带有目标对象区域数据添的视频流数据之外，其本地也需要相应的显示直播画面，并且在主播端显示的直播画面中，也需要实现弹幕避让目标对象的效果。故对于应用于主播端的直播视频处理方法，还可以包括：获取用于直播的弹幕数据；根据所述视频流数据显示直播画面，并根据所述目标对象区域数据和所述弹幕数据，在直播画面中目标对象所占的区域之外渲染显示弹幕。

其中，弹幕数据是主播端从直播服务器获取的，其中包括了在当前直播中各个看播端发送的弹幕。基于该获取到的弹幕数据，并在当前直播的弹幕功能开启时，可以根据弹幕数据在直播画面中显示弹幕。例如，可以通过EffectSDK实现视频流数据和弹幕数据的处理；EffectSDK提供跨平台的音视频特效库，可以实现丰富的音视频特效、图文编辑渲、互动功能等。

本实施例中，生成并显示弹幕可以通过任意可行的相关技术实现。例如，可以通过蒙层的方式在直播画面中生成并显示弹幕；蒙层，也称为遮罩层或掩膜层，可以直观的理解为在直播画面上显示的图像层，通过透明度的设置，蒙层可以实现对其覆盖的图像层的部分遮盖；在通过蒙层渲染生成并显示弹幕时，弹幕以文本或图片等形式生成并在直播画面中显示，以实现直播画面中的弹幕效果。

本实施例中，基于视频流数据携带的目标对象区域数据，可以根据目标对象区域数据确定出直播画面中目标对象所占的区域。在显示弹幕时，可以仅在目标对象所占的区域之外渲染显示弹幕。以通过蒙层实现弹幕为例，基于确定出的直播画面中目标对象所占的区域，通过对于蒙层的设置，控制在直播画面中目标对象所占的区域之内不渲染生成任何弹幕，这样在目标对象所占的区域之内即可以清楚完整的看到原始的直播画面中的目标对象，从而实现弹幕避让目标对象的效果。最终形成的弹幕避让目标对象的效果可参考图3所示；图3中整体为直播画面，直播中弹幕301实现了避让目标对象302的效果。

此外，基于本申请实施例中的目标对象区域数据确定出的直播画面中目标对象所占的区域，也可以通过其他任意可行的相关技术，控制在直播画面中目标对象所占的区域之内不渲染显示弹幕，仅在该区域之外渲染显示弹幕的效果。

作为一个可选的实施方式，当目标对象区域数据为坐标点集合时，还可以通过以下方法确定直播画面中目标对象所占的区域：对于所述坐标点集合中的每个坐标点，将所述坐标点根据预定的映射关系映射为目标坐标点；将所述目标坐标点依次相连，以得到闭合曲线；将所述闭合曲线限定的区域确定为直播画面中目标对象所占的区域。

具体实施时，考虑到基于对视频流数据得到目标对象区域数据时，其具体使用的算法所基于的图像大小与后续形成视频流数据的视频帧时所使用的图像大小不相同，而视频帧的图像大小与在播放时(主播端或看播端)的直播画面的图像大小也不相同。由于存在上述各阶段中的图像大小的区别，则对于坐标点集合中的各个坐标点，应先将各个坐标点进行映射。具体的，可以预先设置映射关系，该映射关系为轮廓识别输出的图像大小、视频帧的图像大小以及直播画面的图像大小之间的映射关系。根据该映射关系，将坐标点集合中的每个坐标点先映射为基于视频帧的图像大小的表示，在映射为基于直播画面的图像大小的表示，将最终得到的该坐标点表示本实施例中称为目标坐标点。

具体实施时，对于经过映射处理得到的目标坐标点，将目标坐标点依次相连，以得到一闭合曲线。其中，对于任意相邻的两个目标坐标点，可以在其间连接贝塞尔曲线，从而将全部的目标坐标点依次连接形成闭合曲线。该闭合曲线限定出的区域，即可以确定为直播画面中目标对象所占的区域。其中，绘制得到闭合曲线可以采用任意的相关技术，例如，可以使用Android系统中的图形Api：Path.quadTo形成上述闭合曲线；后续可以使用Android系统中的画布工具Canvas Api绘制出上述闭合曲线，并结合蒙层的设置在该绘制出的闭合曲线内的区域控制不渲染显示弹幕，从而清楚完整的显示直播画面中的目标对象，实现弹幕避让。

作为一个可选的实施方式，当采用FindContour算法得到坐标点时，将坐标点根据预定的映射关系映射为目标坐标点，可以包括：根据所述轮廓识别输出的图像大小与所述视频帧的图像大小，确定第一缩放参数；根据所述视频帧的图像大小与所述直播画面的图像大小，确定第二缩放参数；根据所述轮廓识别输出的图像大小、所述视频帧的图像大小以及所述直播画面的图像大小，确定裁剪参数；根据所述第一缩放参数、所述第二缩放参数和所述裁剪参数，将所述坐标点映射为目标坐标点。

本实施例中，FindContour算法的输出是以一个固定大小的图像(128×224)为参考系的，而视频帧的传输使用的图像大小一般为(720×1080)，而直播画面的大小要取决于主播端或看播端的软硬件设置。图4示出上述各图像大小的映射关系。其中，根据主播端或看播端的软硬件设置，直播画面一般还会对画面在横向上进行裁剪。

其中，第一缩放参数，用于实现将坐标点从轮廓识别输出的图像大小到视频帧的图像大小的映射；第二缩放参数，用于实现将坐标点从视频帧的图像大小到播画面的图像大小的映射；裁剪参数，则用于实现直播画面在横向上的裁剪，其是基于上述映射关系得到的。

具体实施时，坐标点到目标坐标点的映射过程可以通过以下公式表示：

上式中，x为目标坐标点的横坐标，y为目标坐标点的纵坐标，originX为坐标点的横坐标，originY为坐标点的纵坐标，EFFECT_OUTPUT_WIDTH为识别算法输出的图像的宽度，EFFECT_OUTPUT_HEIGHT为识别算法输出的图像的高度，STREAM_WIDTH为视频帧的图像宽度，STREAM_HEIGHT为视频帧的图像的高度，PLAYER_VIEW_WIDTH为直播画面的图像的宽度，PLAYER_VIEW_HEIGHT为直播画面的图像的高度，C为裁剪参数；上述各参数中，宽度是指图像横向上的尺度，高度是指图像纵向上的尺度。

上述计算公式中，和两项即为第一缩放参数；即为第二缩放参数。

在一些实施方式中，在直播画面中，并非是全部直播画面的区域都用于显示弹幕。例如，对于一般的直播画面，其画面的上部往往会用于显示一些与直播有关的相关信息，如直播间名称、直播名称等，在显示相关信息的区域内并不会用于显示弹幕。考虑到上述直播画面存储的具体设置，本实施例中，为了实现最后确定出的直播画面中目标对象所占的区域与实际用于显示弹幕的区域的对应，还会在从坐标点到目标坐标点的映射过程中，进一步的对坐标值进行调整。

具体的，本实施例中，会根据直播画面的图像大小以及用于显示弹幕的区域的设置，确定移动参数，该移动参数表征用于显示弹幕的区域到直播画面的上边缘的距离。

具体实施时，根据第一缩放参数、第二缩放参数和裁剪参数，对坐标点的横坐标进行映射处理，具体的计算过程可以参考前述的关于x的计算公式。

具体实施时，根据第一缩放参数、第二缩放参数和移动参数对坐标点的纵坐标进行映射处理，映射过程可以通过以下公式表示：

上式中，TOP_MARGIN为移动参数。

通过上述映射处理，使基于得到的目标坐标点确定出的直播画面中目标对象所占的区域能够与主播端、看播端的画面输出设置向适应，并能够与直播画面中实际用于显示弹幕的区域的对应。

作为一个可选的实施方式，本申请实施例的直播视频处理方法，还可以用于服务器。该服务器即是指基于流媒体传输技术、用于实现视频在线直播的直播服务器。

本申请实施例的应用于服务器的直播视频处理方法所包括的步骤，可以参考图2所示。

对于步骤S201，服务器获取由看播端上传的、用于直播的视频流数据。此外，对于视频流数据的生成、视频流数据的传输等步骤的执行主体为服务器，上述各步骤的具体实施方式可以参照前述应用于主播端的方法实施例，本实施例中不再赘述。

对于步骤202和步骤203，对于生成目标对象区域数据、将目标对象区域数据添加至视频流数据、视频流数据的发送等步骤的执行主体为服务器，上述各步骤的具体实施方式可以参照前述应用于主播端的方法实施例，本实施例中不再赘述。

此外，对于步骤203中的发送相关步骤，是指服务器将添加目标对象区域数据后的视频流数据向看播端发送。

本实施例的直播视频处理方法，通过服务器接收主播端上传的视频流数据后，基于用于直播的视频流数据，生成用于表征直播画面中目标对象所占的区域的目标对象区域数据，将该目标对象区域数据添加到直播的视频流数据后发送至看播端，后续看播端拉取到视频流数据后，可以直接获得目标对象区域数据并相应实现弹幕避让目标对象的效果。目标对象区域数据的处理仅在服务器进行，主播端和看播端均无需进行过多额外的设置，在实现弹幕避让目标对象的效果的同时，方案易于实施，且具有更高的兼容性。

基于同一技术构思，本申请实施例还提供了一种直播视频处理方法，该方法应用于看播端。

参考图5，本实施例的直播视频处理方法，可以包括以下步骤：

步骤S501、接收用于直播的视频流数据和弹幕数据；其中，所述视频流数据携带有目标对象区域数据，所述目标对象区域数据用于确定直播画面中目标对象所占的区域；

步骤S502、根据所述视频流数据显示直播画面，并根据所述目标对象区域数据和所述弹幕数据，在直播画面中目标对象所占的区域之外渲染显示弹幕。

本实施例中，看播端从直播服务器拉取得到用于直播的视频流数据和弹幕数据，以进行直播画面的显示，以及直播画面中弹幕的显示。其中，由于视频流数据携带有目标对象区域数据，则看播端可以根据目标对象区域数据，确定直播画面中目标对象所占的区域，并控制仅在直播画面中目标对象所占的区域之外的区域内渲染显示弹幕，在直播画面中目标对象所占的区域之内区域不渲染显示弹幕，从清楚完整的显示直播画面中的目标对象，实现弹幕避让目标对象的效果。

本实施例中，涉及的显示直播画面、渲染显示弹幕、确定直播画面中目标对象所占的区域、坐标点根据预定的映射关系映射为目标坐标点等具体的实现方式以及相应的有益效果，在前述应用于主播端的方法实施例中已有详细说明，其具体实施方式均可以参照前述任一应用于主播端的方法的实施例，本实施例中不再赘述。

需要说明的是，本申请实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一技术构思，本申请实施例还提供了一种直播视频处理装置。参考图6，所述的直播视频处理装置600，包括：

获取模块601，被配置为获取用于直播的视频流数据；

生成模块602，被配置为根据所述视频流数据，生成目标对象区域数据；

发送模块603，被配置为将所述目标对象区域数据添加至所述视频流数据并发送，以使在直播过程中在目标对象所占的区域区域之外渲染显示弹幕。

在一些可选的实施例中，所述装置还包括：显示模块，被配置为获取用于直播的弹幕数据；根据所述视频流数据显示直播画面，并根据所述目标对象区域数据和所述弹幕数据，在直播画面中目标对象所占的区域之外渲染显示弹幕。

在一些可选的实施例中，所述视频流数据包括一定数量的视频帧；生成模块602，具体被配置为对所述视频帧进行轮廓识别，得到对应于识别到的目标对象轮廓的坐标点集合，将所述坐标点集合作为所述目标对象区域数据。

在一些可选的实施例中，发送模块603，具体被配置为根据预定的视频流编码规则，将所述目标对象区域数据作为补充增强信息添加至所述视频流数据。

在一些可选的实施例中，显示模块，具体被配置为对于所述坐标点集合中的每个坐标点，将所述坐标点根据预定的映射关系映射为目标坐标点；其中，所述映射关系为所述轮廓识别输出的图像大小、所述视频帧的图像大小以及所述直播画面的图像大小之间的映射关系；将所述目标坐标点依次相连，以得到闭合曲线；将所述闭合曲线限定的区域确定为直播画面中目标对象所占的区域。

在一些可选的实施例中，显示模块，具体被配置为根据所述轮廓识别输出的图像大小与所述视频帧的图像大小，确定第一缩放参数；根据所述视频帧的图像大小与所述直播画面的图像大小，确定第二缩放参数；根据所述轮廓识别输出的图像大小、所述视频帧的图像大小以及所述直播画面的图像大小，确定裁剪参数；根据所述第一缩放参数、所述第二缩放参数和所述裁剪参数，将所述坐标点映射为目标坐标点。

在一些可选的实施例中，所述坐标点包括横坐标和纵坐标；显示模块，具体被配置为根据所述直播画面的图像大小，确定移动参数；根据所述第一缩放参数、所述第二缩放参数和所述裁剪参数，对所述横坐标进行映射处理；根据所述第一缩放参数、所述第二缩放参数和所述移动参数，对所述纵坐标进行映射处理；根据映射处理后的所述横坐标和所述纵坐标，得到所述目标坐标点。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一应用于主播端或服务器的实施例中相应的直播视频处理方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一技术构思，本申请实施例还提供了一种直播视频处理装置。参考图7，所述的直播视频处理装置700，包括：

接收模块701，被配置为接收用于直播的视频流数据和弹幕数据；其中，所述视频流数据携带有目标对象区域数据，所述目标对象区域数据用于确定直播画面中目标对象所占的区域；

显示模块702，被配置为根据所述视频流数据显示直播画面，并根据所述目标对象区域数据和所述弹幕数据，在直播画面中目标对象所占的区域之外渲染显示弹幕。

在一些可选的实施例中，显示模块702，具体被配置为对于所述坐标点集合中的每个坐标点，将所述坐标点根据预定的映射关系映射为目标坐标点；其中，所述映射关系为所述轮廓识别输出的图像大小、所述视频帧的图像大小以及所述直播画面的图像大小之间的映射关系；将所述目标坐标点依次相连，以得到闭合曲线；将所述闭合曲线限定的区域确定为直播画面中目标对象所占的区域。

在一些可选的实施例中，显示模块702，具体被配置为根据所述轮廓识别输出的图像大小与所述视频帧的图像大小，确定第一缩放参数；根据所述视频帧的图像大小与所述直播画面的图像大小，确定第二缩放参数；根据所述轮廓识别输出的图像大小、所述视频帧的图像大小以及所述直播画面的图像大小，确定裁剪参数；根据所述第一缩放参数、所述第二缩放参数和所述裁剪参数，将所述坐标点映射为目标坐标点。

在一些可选的实施例中，所述坐标点包括横坐标和纵坐标；显示模块702，具体被配置为根据所述直播画面的图像大小，确定移动参数；根据所述第一缩放参数、所述第二缩放参数和所述裁剪参数，对所述横坐标进行映射处理；根据所述第一缩放参数、所述第二缩放参数和所述移动参数，对所述纵坐标进行映射处理；根据映射处理后的所述横坐标和所述纵坐标，得到所述目标坐标点。

上述实施例的装置用于实现前述任一应用于看播端的实施例中相应的直播视频处理方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一技术构思，本申请实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任一实施例所述的直播视频处理方法。

图8示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的直播视频处理方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一技术构思，本申请实施例还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的直播视频处理方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的直播视频处理方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

需要说明的是，除非另外定义，本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。元素前的冠词“一”或“一个”不排除多个这种元素的存在。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本申请的范围(包括权利要求)被限于这些例子；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本申请实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种直播视频处理方法，其特征在于，包括：

获取用于直播的视频流数据；

根据所述视频流数据，生成目标对象区域数据；

将所述目标对象区域数据添加至所述视频流数据并发送，以使在直播过程中在目标对象所占的区域区域之外渲染显示弹幕。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取用于直播的弹幕数据；

根据所述视频流数据显示直播画面，并根据所述目标对象区域数据和所述弹幕数据，在直播画面中目标对象所占的区域之外渲染显示弹幕。
根据权利要求2所述的方法，其特征在于，所述视频流数据包括至少一个视频帧；

所述根据所述视频流数据，生成目标对象区域数据，包括：

对所述视频帧进行轮廓识别，得到对应于识别到的目标对象轮廓的坐标点集合，将所述坐标点集合作为所述目标对象区域数据。
根据权利要求1所述的方法，其特征在于，所述将所述目标对象区域数据添加至所述视频流数据并发送，包括：

根据预定的视频流编码规则，将所述目标对象区域数据作为补充增强信息添加至所述视频流数据。
根据权利要求3所述的方法，其特征在于，所述方法还包括通过以下方法确定直播画面中目标对象所占的区域：

对于所述坐标点集合中的每个坐标点，将所述坐标点根据预定的映射关系映射为目标坐标点；其中，所述映射关系为所述轮廓识别输出的图像大小、所述视频帧的图像大小以及所述直播画面的图像大小之间的映射关系；

将所述目标坐标点依次相连，以得到闭合曲线；

将所述闭合曲线限定的区域确定为直播画面中目标对象所占的区域。
根据权利要求5所述的方法，其特征在于，所述将所述坐标点根据预定的映射关系映射为目标坐标点，包括：

根据所述轮廓识别输出的图像大小与所述视频帧的图像大小，确定第一缩放参数；

根据所述视频帧的图像大小与所述直播画面的图像大小，确定第二缩放参数；

根据所述轮廓识别输出的图像大小、所述视频帧的图像大小以及所述直播画面的图像大小，确定裁剪参数；

根据所述第一缩放参数、所述第二缩放参数和所述裁剪参数，将所述坐标点映射为目标坐标点。
根据权利要求6所述的方法，其特征在于，所述坐标点包括横坐标和纵坐标；

所述将该坐标点根据预定的映射关系映射为目标坐标点，包括：

根据所述直播画面的图像大小，确定移动参数；

根据所述第一缩放参数、所述第二缩放参数和所述裁剪参数，对所述横坐标进行映射处理；

根据所述第一缩放参数、所述第二缩放参数和所述移动参数，对所述纵坐标进行映射处理；

根据映射处理后的所述横坐标和所述纵坐标，得到所述目标坐标点。
一种直播视频处理方法，其特征在于，包括：

接收用于直播的视频流数据和弹幕数据；其中，所述视频流数据携带有目标对象区域数据，所述目标对象区域数据用于确定直播画面中目标对象所占的区域；

根据所述视频流数据显示直播画面，并根据所述目标对象区域数据和所述弹幕数据，在直播画面中目标对象所占的区域之外渲染显示弹幕。
根据权利要求8所述的方法，其特征在于，所述方法还包括通过以下方法确定直播画面中目标对象所占的区域：

对于所述坐标点集合中的每个坐标点，将所述坐标点根据预定的映射关系映射为目标坐标点；其中，所述映射关系为所述轮廓识别输出的图像大小、所述视频帧的图像大小以及所述直播画面的图像大小之间的映射关系；

将所述目标坐标点依次相连，以得到闭合曲线；

将所述闭合曲线限定的区域确定为直播画面中目标对象所占的区域。
根据权利要求9所述的方法，其特征在于，所述将所述坐标点根据预定的映射关系映射为目标坐标点，包括：

根据所述轮廓识别输出的图像大小与所述视频帧的图像大小，确定第一缩放参数；

根据所述视频帧的图像大小与所述直播画面的图像大小，确定第二缩放参数；

根据所述轮廓识别输出的图像大小、所述视频帧的图像大小以及所述直播画面的图像大小，确定裁剪参数；

根据所述第一缩放参数、所述第二缩放参数和所述裁剪参数，将所述坐标点映射为目标坐标点。
根据权利要求10所述的方法，其特征在于，所述坐标点包括横坐标和纵坐标；

所述将该坐标点根据预定的映射关系映射为目标坐标点，包括：

根据所述直播画面的图像大小，确定移动参数；

根据所述第一缩放参数、所述第二缩放参数和所述裁剪参数，对所述横坐标进行映射处理；

根据所述第一缩放参数、所述第二缩放参数和所述移动参数，对所述纵坐标进行映射处理；

根据映射处理后的所述横坐标和所述纵坐标，得到所述目标坐标点。
一种直播视频处理装置，其特征在于，包括：

获取模块，被配置为获取用于直播的视频流数据；

生成模块，被配置为根据所述视频流数据，生成目标对象区域数据；

发送模块，被配置为将所述目标对象区域数据添加至所述视频流数据并发送，以使在直播过程中在目标对象所占的区域区域之外渲染显示弹幕。
一种直播视频处理装置，其特征在于，包括：

接收模块，被配置为接收用于直播的视频流数据和弹幕数据；其中，所述视频流数据携带有目标对象区域数据，所述目标对象区域数据用于确定直播画面中目标对象所占的区域；

显示模块，被配置为根据所述视频流数据显示直播画面，并根据所述目标对象区域数据和所述弹幕数据，在直播画面中目标对象所占的区域之外渲染显示弹幕。
一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至11任意一项所述的方法。
一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，其特征在于，所述计算机指令用于使计算机执行如权利要求1至11任意一项所述的方法。