WO2019157977A1

WO2019157977A1 - 演出片段的标注方法、视频播放方法、装置及系统

Info

Publication number: WO2019157977A1
Application number: PCT/CN2019/074205
Authority: WO
Inventors: 高小猛
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2018-02-13
Filing date: 2019-01-31
Publication date: 2019-08-22
Also published as: US11625920B2; US20200302179A1; CN108337532A

Abstract

本申请实施例公开了一种演出片段的标注方法、视频播放方法、装置及终端，属于多媒体技术领域。所述方法包括：获取演出角色对应的多媒体文件；根据所述多媒体文件确定所述演出角色的角色特征；对所述目标视频进行解码，得到数据帧和所述数据帧对应的播放时间戳；在所述目标视频的所述数据帧中，识别与所述角色特征匹配的目标数据帧；根据所述目标数据帧的播放时间戳，自动标注出所述演出角色对应的演出片段信息。本申请实施例使得服务器能够批量地对大量的目标视频进行自动标注，解决了运营编辑在有限时间内只对一小部分视频进行标注的效率低下和精确性较差的问题，达到了能够在有限时间内高效地对目标视频进行标注的效果。

Description

演出片段的标注方法、视频播放方法、装置及系统

本申请要求于2018年02月13日提交的申请号为201810149601.7、发明名称为“演出片段的标注方法、视频播放方法、装置及系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及多媒体技术领域，特别涉及一种演出片段的标注方法、视频播放方法、装置及系统。

背景技术

针对用户的个人喜好或者时间有限的需求，视频播放APP(Application，应用程序)提供有只看他功能。只看他功能是指在视频中只观看某个演出角色的演出片段的功能。

由于运营编辑只能手工标注出一部分演出角色的演出片段信息，标记出的演出片段信息的精确性较差且效率较低。当一部电视剧上线后，通常需要若干天以后才能提供相应的只看他功能。

发明内容

本申请提供了一种演出片段的标注方法、视频播放方法、装置及系统，可以解决运营编辑手工对视频标注时的精确性较差且效率较低的问题。所述技术方案如下：

根据本申请的一方面，提供了一种演出片段的标注方法，应用于存储有目标视频的视频服务器中，所述方法包括：

获取演出角色对应的多媒体文件；

根据所述多媒体文件确定所述演出角色的角色特征；

对所述目标视频进行解码，得到数据帧和所述数据帧对应的播放时间戳，所述数据帧包括视频帧和/或音频帧；

在所述目标视频的所述数据帧中，识别与所述角色特征匹配的目标数据帧；

根据所述目标数据帧的播放时间戳，自动标注出所述演出角色对应的演出片段信息。

根据本申请的另一方面，提供了一种视频播放方法，应用于终端中，所述方法包括：

显示目标视频的播放界面；

在所述播放界面上显示至少一个演出角色的观看设置控件；

根据所述观看设置控件上接收到的操作，确定所述演出角色的观看属性；所述观看属性包括只看属性、忽略属性和快看属性中的至少一种；

获取所述目标视频和所述演出角色的演出片段信息，所述演出片段信息根据所述演出角色的角色特征自动标注，所述角色特征根据所述演出角色对应的多媒体文件确定；

根据所述观看属性和所述演出片段信息进行播放。

根据本申请的另一方面，提供了一种演出片段的标注装置，所述装置包括：

获取演出角色对应的多媒体文件；

根据所述多媒体文件确定所述演出角色的角色特征；

根据本申请的另一方面，提供了一种视频播放装置，所述装置包括：

显示模块，用于显示所述目标视频的播放界面；

所述显示模块，还用于在所述播放界面上显示至少一个演出角色的观看设置控件；

确定模块，用于根据所述观看设置控件上接收到的操作，确定所述演出角色的观看属性，所述观看属性包括只看属性、忽略属性和快看属性中的至少一种；

获取模块，用于获取所述目标视频中所述演出角色的演出片段信息，所述演出片段信息是预先根据所述演出角色的角色特征自动标注的，所述角色特征是预先根据所述演出角色对应的多媒体文件确定的；

播放模块，用于根据所述观看属性和所述演出片段信息对所述目标视频进行播放。

根据本申请的另一方面，提供了一种计算机设备，所述设备包括：处理器和存储器，所述存储器存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的演出片段的标注方法，或者，如上所述的视频播放方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的演出片段的标注方法，或者，如上所述的视频播放方法。

根据本申请的另一方面，提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述的演出片段的标注方法，或者，如上所述的视频播放方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过根据演出角色的多媒体文件，确定演出角色的角色特征；在目标视频中识别与该角色特征匹配的目标数据帧，根据目标数据帧的播放时间戳自动标注出该演出角色对应的演出片段信息，使得服务器能够批量地对大量的目标视频进行自动标注，解决了运营编辑手工对视频标注时的精确性较差且效率较低的问题，达到了能够在有限时间内(比如新电视剧的上线期)高效地对目标视频的演出片段信息进行标注的效果，同时由于本申请实施例是以数据帧为粒度进行标注，所以标注精度也远比运营编辑的手工标注精度高，提高了演出片段信息的标注准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个示例性实施例提供的视频播放系统的结构框图；

图2示出了本申请一个示例性实施例提供的演出片段的标注方法的流程图；

图3示出了本申请一个示例性实施例提供的演出片段的标注方法的流程图；

图4示出了本申请一个示例性实施例提供的上传演出角色的多媒体文件的界面示意图；

图5示出了本申请一个示例性实施例提供的演出片段的标注方法的流程图；

图6示出了本申请一个示例性实施例提供的演出片段的标注方法的流程图；

图7示出了本申请一个示例性实施例提供的视频播放方法的流程图；

图8示出了本申请一个示例性实施例提供的观看设置控件的界面示意图；

图9示出了本申请一个示例性实施例提供的视频播放方法的界面示意图；

图10示出了本申请一个示例性实施例提供的视频播放方法的界面示意图；

图11示出了本申请一个示例性实施例提供的视频播放方法的界面示意图；

图12示出了本申请另一个示例性实施例提供的视频播放方法的流程图；

图13示出了本申请一个示例性实施例提供的视频播放方法的界面示意图；

图14示出了本申请一个示例性实施例提供的视频播放方法的界面示意图；

图15示出了本申请一个示例性实施例提供的视频播放方法的界面示意图；

图16示出了本申请另一个示例性实施例提供的视频播放方法的流程图；

图17示出了本申请一个示例性实施例提供的视频播放方法的界面示意图；

图18示出了本申请另一个示例性实施例提供的视频播放方法的流程图；

图19示出了本申请一个示例性实施例提供的视频播放方法的界面示意图；

图20示出了本申请另一个示例性实施例提供的视频播放方法的流程图；

图21示出了本申请一个示例性实施例提供的视频播放方法的界面示意图；

图22示出了本申请一个示例性实施例提供的视频播放方法的界面示意图；

图23示出了本申请一个示例性实施例提供的演出片段的标注装置的框图；

图24示出了本申请一个示例性实施例提供的视频播放装置的框图；

图25示出了本申请一个示例性实施例提供的终端的框图；

图26示出了本申请一个示例性实施例提供的服务器的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1示出了本申请一个示例性实施例提供的视频播放系统的结构框图。该视频播放系统包括：终端110、视频服务器120、管理终端130和网络资源服务器140。

终端110可以是手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。终端110中安装有具有视频播放功能的应用程序。该应用程序可以是浏览器、在线视频播放APP、离线视频播放APP、短视频播放APP和新闻类APP中的至少一种。终端110可以向视频存储服务器120发送视频播放请求，该视频播放请求用于请求播放某个目标视频。

终端110通过网络与视频服务器120相连，该网络是无线网络或有线网络。

视频服务器120用于提供在线视频播放服务。视频服务器120存储有多个视频的视频数据。可选地，全部或部分视频还关联存储有演出角色的演出片段信息。同一个目标视频具有一个或多个演出角色的演出片段信息。演出片段信息用于表示该演出角色在该目标视频中出演的时间段。“出演”表示出现在视频的显示画面中，和/或，出现在视频的台词声音或背景声音中。

视频服务器120在接收到终端110的视频播放请求后，可以向终端110发送目标视频。当目标视频还关联存储有至少一个演出角色的演出片段信息时，视频服务器120还可以向终端110发送至少一个演出角色的演出片段信息。

视频服务器120还可以用于为全部或部分目标视频进行自动标注，从而标注得到各个演出角色的演出片段信息。在不同的实施例中，视频服务器120可以拆分实现成为多个服务器，比如，一个或多个视频存储服务器，以及一个或多个视频标注服务器；也可以实现成为一个虚拟化平台中的多个虚拟机，本申请实施例对此不加以限定。

视频服务器还通过网络与管理终端130相连，该网络是无线网络或有线网络。

管理终端130是运营编辑使用的终端。运营编辑可以使用管理终端130向视频服务器120上传视频、视频的属性信息。运营编辑还可以使用管理终端130向视频服务器120上传演出角色的多媒体文件。该多媒体文件可以是演员图像、演出角色的剧照图像数据、演出角色的剧中音频数据等。

视频服务器还通过网络与网络资源服务器140相连，该网络是无线网络或有线网络。

网络资源服务器140可以是搜索引擎服务器、百科网站服务器、多媒体文件库服务器等存储有网络资源的服务器。网络资源服务器140可以是一个或多个服务器，图1仅以示出了一个服务器来举例说明。

图2示出了本申请一个示例性实施例提供的演出片段的标注方法的流程图。本实施例以该演出片段的标注方法应用于图1所示的视频服务器120来举例说明。该方法包括：

步骤201，获取演出角色对应的多媒体文件；

视频服务器可以接收管理终端上传的演出角色的多媒体文件，也可以从网络资源服务器获取演出角色的多媒体文件。

该多媒体文件包括：该演出角色的图像数据，和/或，音频数据。

可选地，演出角色的多媒体文件是从目标视频之外的来源获取的，并不是从目标视频本身获取的。对于同一个目标视频，可以对应多名演出角色的多媒体文件。

可选地，演出角色是真人演出角色、动漫演出角色、动物演出角色、机械演出角色、木偶演出角色、机器人演出角色中的至少一种。

步骤202，根据多媒体文件确定演出角色的角色特征；

当多媒体文件包括演出角色的图像数据时，根据演出角色的图像数据确定演出角色的人脸特征，和/或，

当多媒体文件包括演出角色的音频数据时，根据演出角色的音频数据确定演出角色的声纹特征。

步骤203，对目标视频进行解码，得到数据帧和数据帧对应的播放时间戳；

目标视频中具有若干帧依序排列的数据帧，每个数据帧对应各自的播放时间戳。可选地，数据帧包括：图像帧，或者，图像帧和音频帧。当数据帧只包括图像帧时，目标视频可以是无声视频。

目标视频的类型包括但不限于：电影、电视剧、纪录片、综艺、动漫、体育视频、新闻视频中的至少一种。

终端解码得到目标视频中的至少一个数据帧，该数据帧包括图像帧和音频帧。每个数据帧对应有各自的播放时间戳。

步骤204，在目标视频的数据帧中，识别与角色特征匹配的目标数据帧；

目标数据帧包括目标图像帧和/或目标音频帧。

当角色特征包括演出角色的人脸特征时，识别与人脸特征匹配的目标图像帧；当角色特征包括演出角色的声纹特征时，识别与声纹特征匹配的目标音频帧。

步骤205，根据目标数据帧的播放时间戳，自动标注出演出角色对应的演出片段信息。

可选地，目标数据帧可能是连续的多个数据帧，对于这些连续的多个目标数据帧的播放时间戳进行合并，可以得到至少一个播放时间段。将这些播放时间段标注为该演出角色的演出片段信息。

综上所述，本实施例提供的视频标注方法，通过根据演出角色的多媒体文件，确定演出角色的角色特征；在目标视频中识别与该角色特征匹配的目标数据帧，根据目标数据帧的播放时间戳自动标注出该演出角色对应的演出片段信息，使得服务器能够批量地对大量的目标视频进行自动标注，解决了运营编辑手工对视频标注时的精确性较差且效率较低的问题，达到了能够在有限时间内高效地对目标视频的演出片段信息进行标注的效果，同时由于本申请实施例是以数据帧为粒度进行标注，所以标注精度也远比运营编辑的手工标注精度高，提高了演出片段信息的标注准确度。

由于演出角色的角色特征包括：人脸特征和声纹特征中的至少一种。下面以图3实施例对基于人脸特征进行自动标注的方案进行介绍；图5实施例对基于声纹特征进行自动标注的方案进行介绍。

图3是本申请另一个示例性实施例提供的演出片段的标注方法的流程图。本实施例以该演出片段的标注方法应用于图1所示的视频服务器120来举例说明。该方法包括：

步骤301，获取演出角色的图像数据，图像数据包括剧照图像数据和/或演员图像；

可选地，演出角色的图像数据包括有演出角色的人脸区域。演出角色的图像数据可以是剧照图像数据和/或演员图像。剧照图像数据是演出角色在目标视频中出演的剧照。演员图像包括：演员生活图像、写真图像、大头贴图像、电影海报中的至少一种。通常，演员图像不是演出角色在目标视频中出演时的剧照。

本步骤采用如下两种方式中的至少一种方式实现：

一、视频服务器接收管理终端上传的演出角色的图像数据；

运营编辑通过管理终端向视频服务器上传演出角色的图像数据。

运营编辑可以在通过管理终端向视频服务器上传目标视频时，同时上传该演出角色的图像数据。或者，运营编辑可以在视频服务器已经存储有目标视频后，再上传该演出角色的图像数据。

可选地，该图像数据是演出角色在目标视频中的剧照图像数据。视频服务器获取演出角色的剧照图像数据，该剧照图像数据是演出角色在目标视频中出演的剧照。受演出角色在不同的影视作品中的化妆、服装、后期美化以及整容因素的影响，同一演出角色在不同的目标视频中的人脸特征会存在差异。因此，运营编辑上传演出角色在当前目标视频中的剧照图像数据，能够得到较为准确的人脸特征。

参考图4，假设目标视频的标识为b00154qk4le，目标视频的类型为电视剧，目标视频的名称为《xx传奇》。运营编辑可以为该目标视频中的演出角色“雪莉”上传图像数据。运营编辑可以在演出角色名称输入框31中输入演出角色名称为“雪莉”，然后点击与上传剧照控件32对应的浏览按钮33，在本地的文件路径中选择雪莉的剧照图像数据。再点击与上传剧照控件32对应的上传按钮34，将雪莉的剧照图像数据上传至视频服务器。

二、视频服务器获取目标视频的演员表，根据演员表中的演出角色的演员名称，从人物百科页面抓取与该演员名称对应的演员图像，将该演员图像确定为待提取的演员图像。

视频服务器可以接收运营编辑为目标视频上传的演员表。或者，视频服务器从目标视频的属性信息中，提取到目标视频的演员表。演员表中包括一个或多个演出角色对应的演员名称。可选地，演员表中还包括一个或多个演出角色对应的配音演员名称。表一示意性的示出了该演员表。

表一

视频服务器向网络资源服务器发送查询请求，该查询请求携带有演出角色对应的演员名称。该网络资源服务器可以是人物百科网站的服务器。网络资源服务器根据该演员名称查询对应的人物百科页面。该人物百科页面具有该演员的人物介绍、演艺经历、代表作品介绍、相关新闻介绍、写照图像集、剧照图像集、海报图像集等。网络资源服务器将该人物百科页面或该人物百科页面中的演员图像发送给视频服务器，由视频服务器从这些演员图像中选择一张图像数据，作为待提取的演员图像。

本实施例对视频服务器选择其中一张演员图像作为待提取的演员图像的方式不加以限定。

可选地，当演员图像存在至少两张时，视频服务器提取演员图像中的图像元素，该图像元素包括文字和/或物品；根据图像元素确定每张演员图像与目标视频的关联度；将与目标视频的关联度最高的一张演员图像，确定为待提取的演员图像。

可选地，当演员图像存在至少两张时，视频服务器获取各个演员图像对应的图像拍摄时刻，以及目标视频的视频拍摄时刻；然后将图像拍摄时刻与目标视频的视频拍摄时刻最接近的一张演员图像，确定为待提取的演员图像。

可选地，演员图像的图像拍摄时刻可以存储在EXIF(Exchangeable Image File，可交换图像文件)格式的头部信息中。

可选地，视频服务器还对演员图像的图像质量不符合预设条件的图像进行过滤。预设条件包括但不限于：图像分辨率低于预设分辨率、图像曝光程度大于预设曝光度、人脸区域的完整程度不超过预定比例、人脸区域的面积小于预设面积中的至少一种。

步骤302，提取图像数据的人脸特征信息；

当图像数据包括剧照图像数据时，视频服务器从剧照图像数据中提取演出角色的人脸特征；当图像数据包括演员图像时，视频服务器从演员图像中提取演出角色的人脸特征。

视频服务器通过人脸识别技术提取图像数据中的人脸特征信息。

由于图像数据中具有演出角色的人脸区域，视频服务器通过人脸识别技术对该演出角色的第一人脸区域进行识别，然后在识别出的第一人脸区域中提取人脸特征信息。

人脸识别技术包括但不限于：基于几何特征的方法、基于模板的方法、基于模型的方法。其中，基于几何特征的方法是根据人脸中眼睛、鼻子、嘴巴、下巴等部件的形状特征和大小特征来进行人脸识别的技术；基于模板的方法包括基于相关匹配的方法、特征脸方法、线性判别分析方法、奇异值分解方法、神经网络方法、动态连接匹配方法；基于模型的方法包括基于隐马尔科夫模型的方法、基于主动形状模型的方法、基于主动外观模型的方法和基于神经网络模型的方法中的至少一种。本实施例对人脸识别技术不加以限定，只要能够提取出满足识别需求的人脸特征信息均可。

示意性的，以人脸识别技术是基于卷积神经网络模型的方法为例，视频服务器可以通过神经网络中的卷积层对第一人脸区域中的人脸特征信息进行提取。该人脸特征信息用于唯一标识该演出角色。

步骤303，解码得到目标视频中的图像帧；

视频服务器还对目标视频的视频文件或视频流进行解封装和解码，得到该目标视频中按序排列的多个图像帧。

可选地，视频服务器中具有编解码器(CODEC)：能够进行视频压缩与解压缩，以及音频压缩与解压缩。由于目标视频的视频数据通常采用预设的封装方式进行封装，比如AVI(Audio Video Interleaved，音频视频交错)格式、MKV(Multimedia Container，多媒体容器)格式和RMVB格式中的至少一种进行封装，视频服务器通过解码器对目标视频的视频数据进行解封装。然后，对解封装后的视频数据进行解码，得到目标视频中的多个图像帧。

可选地，每个图像帧对应有各自的播放时间戳，比如，图像帧1的播放时间戳为00:03:12，则代表该图像帧1是在目标视频开始播放后的00:03:12进行播放的图像帧。

步骤304，识别与人脸特征匹配的图像帧；

视频服务器会对目标视频中的全部或部分图像帧作为待识别的图像帧。比如，视频服务器将目标视频中的关键帧作为待识别的图像帧。通常，图像帧分为三种帧类型：I帧、P帧和B帧，I帧是能独立显示(或者说自描述)的帧，P帧和B帧是需要依赖相邻的I帧才能显示的帧。

可选地，视频服务器对目标视频的图像帧中的第二人脸区域进行识别，对识别到的第二人脸区域中的候选人脸特征进行提取，并计算演出角色的人脸特征和候选人脸特征之间的相似度。在相似度超过预定阈值时，将该图像帧确定为与演出角色的人脸特征相匹配的目标图像帧。

可选地，与演出角色的人脸特征相匹配的目标图像帧为多个，存在至少两个目标图像帧的播放时间戳是连续的。“连续”是指两个播放时间戳之间不存在其它播放时间戳，则这两个播放时间戳被认为是连续的。比如，相邻两个图像帧之间的播放时间戳之间相距1/24秒，则两个播放时间戳之间的时间差为1/24秒时，认为这两个播放时间戳是连续的。

步骤305，对目标图像帧的连续时间戳进行合并，得到演出角色的第一片段信息；

通常，一个演出角色的演出画面在整个视频中呈多个时间段出现。视频服务器对与人脸特征匹配的目标图像帧的连续时间戳进行合并，能够得到演出角色的第一片段信息。该第一片段信息可以认为是该演出角色在视觉维度上的演出片段信息。第一片段信息包括一个或多个演出片段。

可选地，当存在一组连续时间戳，采用该组连续时间戳中的最早时间戳和最晚时间戳表示为第一片段信息中的一个片段。第一片段信息可以包括至少一个片段。例如，演出角色A的第一片段信息包括：[00:30:12，00:31:56]、[00:33:00，00:38:56]、[01:13:00，01:15:56]。其中，[00:30:12，00:31:56]为一个片段，00:30:12是该片段的开始时间戳，00:31:56是该片段的结束时间戳。

步骤306，将演出角色的第一片段信息与目标视频进行关联存储。

视频服务器还将演出角色的第一片段信息，作为目标视频的属性信息进行关联存储。表二示意性的示出了该关联关系：

表二

视频ID	视频名称	演出角色名称	演出片段信息
b00154qk4le	xx传奇_01	雪莉	第一演出片段1
b00154qk4le	xx传奇_01	迈克	第一演出片段2
b00154qk4le	xx传奇_02	雪莉	第一演出片段3
b00154qk4le	xx传奇_02	迈克	第一演出片段4
b00154qk4le	xx传奇_03	雪莉	第一演出片段5

综上所述，本实施例提供的演出片段的标注方法，通过根据演出角色的多媒体文件，确定演出角色的角色特征；在目标视频中识别与该角色特征匹配的目标数据帧，根据目标数据帧的播放时间戳自动标注出该演出角色对应的演出片段信息，使得服务器能够批量地对大量的目标视频进行自动标注，解决了运营编辑手工对视频标注时的精确性较差且效率较低的问题，达到了能够在有限时间内高效地对目标视频的演出片段信息进行标注的效果，同时由于本申请实施例是以数据帧为粒度进行标注，所以标注精度也远比运营编辑的手工标注精度高，提高了演出片段信息的标注准确度。

本实施例提供的演出片段的标注方法，还通过演出角色的剧照图像数据作为提取该演出角色的人脸特征的素材，能够尽可能减少演出角色在不同的影视作品中的化妆、服装、后期美化以及整容因素的影响，从而提高在目标视频中识别与人脸特征匹配的图像帧时的准确度，提高视频服务器的匹配效率。

本实施例提供的演出片段的标注方法，视频服务器还可以通过利用网页服务器来搜集演出角色在人物百科页面中的演员图像，作为该演出角色的图像数据。由于无需运营编辑的手动上传，因此能够提高视频服务器在演出片段标注过程中的智能程度和标注效率。

图5是本申请另一个示例性实施例提供的演出片段的标注方法的流程图。本实施例以该演出片段的标注方法应用于图1所示的视频服务器120来举例说明。该方法包括：

步骤501，获取演出角色的音频数据，音频数据包括剧中音频数据和/或演员音频数据；

可选地，演出角色的音频数据包括剧中音频数据和/或演员音频数据。其中，剧中音频数据是演出角色在目标视频中对应的音频数据，演员音频数据是演出角色对应的演员在实际生活或其它视频中对应的音频数据。

其中，剧中音频数据包括：主演本身的音频数据，和/或，为该演出角色配音的音频数据。配音演员与主演可以是不同的人。

本步骤采用如下三种方式中的至少一种方式实现：

一、视频服务器接收管理终端上传的演出角色的音频数据。

运营编辑通过管理终端向视频服务器上传演出角色的音频数据，视频服务器可以接收管理终端上传的演出角色的音频数据。

运营编辑可以在通过管理终端向视频服务器上传目标视频时，同时上传该演出角色的音频数据。或者，运营编辑可以在视频服务器已经存储有目标视频后，再上传该演出角色的音频数据。

可选地，该音频数据是演出角色在目标视频中的剧中音频数据。受演出角色在不同的影视作品中可能会使用自己的声音或者不同配音演出角色的声音的影响，同一演出角色在不同的目标视频中的音频特征会存在差异。因此，运营编辑上传演出角色在当前目标视频中的剧中音频数据，以便能够得到较为准确的音频特征。

参考图4，假设目标视频的标识为b00154qk4le，目标视频的类型为电视剧，目标视频的名称为《xx传奇》。运营编辑可以为该目标视频中的演出角色“雪莉”上传音频数据。运营编辑可以在演出角色名称输入框31中输入演出角色名称为“雪莉”，然后点击与上传音频控件35对应的浏览按钮36，在本地的文件路径中选择雪莉的剧中音频数据。再点击与上传剧照控件35对应的上传按钮37，将雪莉的剧中音频数据上传至视频服务器。

二、视频服务器获取目标视频的演员表，当根据演员表确定存在演出角色的配音演员名称时，根据配音演员名称从网络资源中抓取演员音频数据。

视频服务器可以接收运营编辑为目标视频上传的演员表；或者，视频服务器从目标视频的属性信息中，提取到目标视频的演员表；或者，视频服务器从网络资源服务器中获取目标视频的演员表。演员表中包括一个或多个演出角色对应的演员名称。可选地，演员表中还包括一个或多个演出角色对应的配音演员名称。图3实施例中的表一示意性的示出了该演员表。

对于某一个演出角色，当视频服务器根据该演员表确定存在与该演出角色对应的配音演员名称时，根据配音演员名称从网络资源中抓取该配音演员的演员音频数据。可选地，视频服务器向网络资源服务器发送第一音频查询请求，该第一音频查询请求中携带有配音演员名称；网络资源服务器在自身存储的网络资源中查询与该配音演员名称对应的演员音频数据，将查询到的演员音频数据返回给视频服务器。

三、视频服务器获取目标视频的演员表，当根据演员表确定不存在演出角色的配音演员名称时，根据主演演员名称从网络资源中抓取演员音频数据。

对于某一个演出角色，当视频服务器根据该演员表确定不存在与该演出角色对应的配音演员名称时，根据主演演员名称从网络资源中抓取该主演演员的演员音频数据。可选地，视频服务器向网络资源服务器发送第二音频查询请求，该第二音频查询请求中携带有主演演员名称；网络资源服务器在自身存储的网络资源中查询与该主演演员名称对应的演员音频数据，将查询到的演员音频数据返回给视频服务器。

步骤502，从音频数据中提取演出角色的音频特征；

视频服务器可以通过音频识别技术，从音频数据中提取音频数据的声纹特征。演出角色的音频特征包括剧中音频数据和/或演员音频数据。

当音频数据包括剧中音频数据时，从剧中音频数据中提取演出角色的声纹特征；当音频数据包括演员音频数据时，从演员音频数据中提取演出角色的声纹特征。该声纹特征可以采用频谱、倒谱系、共振峰、基音、反射系统中的至少一种特征来标识。

音频识别技术包括但不限于：基于模板匹配的方法、基于最近邻的方法、基于神经网络的方法、基于隐马尔科夫模型的方法、基于多项式分类器的方法、基于神经网络模型的方法等。本实施例对音频识别技术不加以限定，只要能够提取出满足识别需求的音频特征信息均可。

步骤503，解码得到目标视频中的音频帧；

视频服务器还对目标视频的视频文件或视频流进行解封装和解码，得到该目标视频中的多个音频帧。

可选地，视频服务器中具有编解码器(CODEC)：能够进行视频的压缩与解压缩，以及音频的压缩与解压缩。由于目标视频的视频数据通常采用预设的封装方式进行封装，比如AVI格式、MKV格式和RMVB格式中的至少一种进行封装，视频服务器通过解码器对目标视频的视频数据进行解封装。然后，对解封装后的视频数据进行解码，得到目标视频中的多个音频帧。

可选地，每个音频帧对应有各自的播放时间戳，比如，音频帧1的播放时间戳为00:03:12，则代表该音频帧1是在目标视频开始播放后的00:03:12进行播放的音频帧。

步骤504，识别出与声纹特征匹配的目标音频帧；

视频服务器通过声纹识别(又称说话人识别)技术，识别出与音频特征信息匹配的音频帧。

可选地，视频服务器先通过说话人分类(speaker diarization)技术，对属于同一个说话人的各个音频帧进行分类；然后通过说话人识别(speaker Identification)技术，将每个分类的音频帧中的声纹特征与演出角色的声纹特征信息逐一进行匹配，从而识别出与该演出角色的声纹特征匹配的目标音频帧。

步骤505，对目标音频帧中的连续时间戳进行合并，得到演出角色的第二片段信息；

通常，一个演出角色在说话时的音频数据在整个视频中呈多个时间段出现。视频服务器对与音频特征信息匹配的音频帧的连续时间戳进行合并，能够得到演出角色的第二片段信息。该第二片段信息可以认为是该演出角色在听觉维度上的演出片段信息。

可选地，当存在一组连续时间戳，采用该组连续时间戳中的最早时间戳和最晚时间戳表示为第二片段信息中的一个片段。第二片段信息可以包括至少一个片段。例如，演出角色A的第二片段信息包括：[00:30:12，00:31:58]、[00:32:40，00:38:56]、[01:13:00，01:15:56]。其中，[00:30:12，00:31:58]为一个片段，00:30:12是该片段的开始时间戳，00:31:58是该片段的结束时间戳。

步骤506，将演出角色的第二片段信息与目标视频进行关联存储。

视频服务器还将演出角色的第二片段信息，作为目标视频的属性信息进行关联存储。表三示意性的示出了该关联关系：

表三

视频ID	视频名称	演出角色名称	演出片段信息
b00154qk4le	xx传奇_01	雪莉	第二演出片段1
b00154qk4le	xx传奇_01	迈克	第二演出片段2
b00154qk4le	xx传奇_02	雪莉	第二演出片段3

b00154qk4le	xx传奇_02	迈克	第二演出片段4
b00154qk4le	xx传奇_03	雪莉	第二演出片段5

综上所述，本实施例提供的演出片段的标注方法，通过根据演出角色的多媒体文件，确定演出角色的角色特征；在目标视频中识别与该角色特征匹配的目标数据帧，根据目标数据帧的播放时间戳自动标注出该演出角色对应的演出片段信息，使得服务器能够批量地对大量的目标视频进行自动标注，解决了运营编辑手工对视频标注时的精确性较差且效率较低的问题，达到了能够在有限时间内(比如新电视剧的上线期)高效地对目标视频的演出片段信息进行标注的效果，同时由于本申请实施例是以数据帧为粒度进行标注，所以标注精度也远比运营编辑的手工标注精度高，提高了演出片段信息的标注准确度。

本实施例提供的演出片段的标注方法，还通过演出角色的剧中音频信息作为提取该演出角色的声纹特征的素材，能够尽可能减少演出角色在不同的影视作品中可能采用不同配音的影响，从而提高在目标视频中识别与声纹特征匹配的目标音频帧时的准确度，提高视频服务器的匹配效率。

图6是本申请另一个示例性实施例提供的演出片段的标注方法的流程图。本实施例以该演出片段的标注方法应用于图1所示的视频服务器120来举例说明。该方法包括：

步骤601，获取演出角色对应的图像数据和音频数据；

可选地，演出角色的图像数据包括有演出角色的人脸区域。演出角色的图像数据包括剧照图像数据和/或演员图像。

其中，剧中音频数据包括：主演本身的音频数据，和/或，为该演出角色配音的音频数据。配音人员与主演可以是不同的人。

可选地，运营编辑通过管理终端向视频服务器上传演出角色的图像数据和音频数据。图像数据可以是该演出角色的剧照图像数据，音频数据可以是该演出角色的剧中音频数据。

参考图4，假设目标视频的标识为b00154qk4le，目标视频的类型为电视剧，目标视频的名称为《xx传奇》。运营编辑可以为该目标视频中的演出角色“雪莉”上传图像数据。运营编辑可以在演出角色名称输入框31中输入演出角色名称为“雪莉”，然后点击与上传剧照控件32对应的浏览按钮33，在本地的文件路径中选择雪莉的剧照图像数据。再点击与上传剧照控件32对应的上传按钮34，将雪莉的剧照图像数据上传至视频服务器。然后点击与上传音频控件35对应的浏览按钮36，在本地的文件路径中选择雪莉的剧中音频数据。再点击与上传剧照控件35对应的上传按钮37，将雪莉的剧中音频数据上传至视频服务器。

可选地，视频服务器通过图3实施例和/或图5实施例提供的获取方式，对演出角色的多媒体文件进行获取。

步骤602，提取图像数据的人脸特征；

视频服务器通过人脸识别技术提取图像数据中的人脸特征。演出角色的图像数据包括剧照图像数据和/或演员图像。本实施例以图像数据包括剧照图像数据来举例说明。

由于图像数据中具有演出角色的人脸区域，视频服务器通过人脸识别技术对该演出角色的第一人脸区域进行识别，然后在识别出的第一人脸区域中提取人脸特征。

步骤603，提取音频数据的声纹特征；

视频服务器可以通过音频识别技术，从音频数据中提取演出角色的声纹特征。演出角色的音频数据包括剧中音频数据和/或演员音频数据。本实施例以图像数据包括剧中音频数据来举例说明。

步骤604，解码得到目标视频中的图像帧和音频帧；

视频服务器还对目标视频的视频文件或视频流进行解封装和解码，得到该目标视频中的多个图像帧和音频帧。

可选地，视频服务器中具有编解码器(CODEC)：能够进行视频和音频的压缩与解压缩。由于目标视频的视频数据通常采用预设的封装方式进行封装，比如AVI格式、MKV格式和RMVB格式中的至少一种进行封装，视频服务器通过解码器对目标视频的视频数据进行解封装。然后，对解封装后的视频数据进行解码，得到目标视频中的多个图像帧和音频帧。

可选地，每个图像帧具有各自对应的播放时间戳，每个音频帧具有各自对应的播放时间戳。

步骤605，识别出与演出角色的人脸特征匹配的目标图像帧；

可选地，视频服务器对目标视频中的目标图像帧中的第二人脸区域进行识别，对识别到的第二人脸区域中的候选人脸特征进行提取，并计算演出角色的人脸特征和候选人脸特征之间的相似度。在相似度超过预定阈值时，将该目标图像帧确定为与演出角色的人脸特征相匹配的目标图像帧。

步骤606，对目标图像帧的连续时间戳进行合并，得到演出角色的第一片段信息。

视频服务器对目标图像帧的连续时间戳进行合并，能够得到演出角色的第一片段信息。该第一片段信息可以认为是该演出角色在视觉维度上的演出片段信息。第一片段信息包括一个或多个演出片段。

步骤607，识别出与演出角色的声纹特征匹配的目标音频帧；

视频服务器通过声纹识别(又称说话人识别)技术，识别出与声纹特征匹配的目标音频帧。

步骤608，对与目标音频帧中的连续时间戳进行合并，得到演出角色的第二片段信息。

视频服务器对与目标音频帧的连续时间戳进行合并，能够得到演出角色的第二片段信息。该第二片段信息可以认为是该演出角色在听觉维度上的演出片段信息。第二片段信息包括一个或多个演出片段。

步骤609，根据第一片段信息和第二片段信息的并集，得到演出角色的第三片段信息；

对于同一个演出角色，可能会存在视频画面中出现该演出角色但该演出角色没有说话，或者该演出角色正在说话但视频画面中没有出现该演出角色的情况，而这两种情形都可以认为是该演出角色的演出时段。

因此，视频服务器将根据第一片段信息的各个片段和第二片段信息的各个片段进行合并，得到演出角色的第三片段信息。例如：

演出角色A的第一片段信息包括：[00:30:12，00:31:56]、[00:33:00，00:38:56]、[01:13:00，01:15:56]。

演出角色A的第二片段信息包括：[00:30:12，00:31:58]、[00:32:40，00:38:56]、[01:13:00，01:15:56]。

则将第一片段信息和第二片段信息合并后，得到的第三片段信息包括：[00:30:12，00:31:58]、[00:32:40，00:38:56]、[01:13:00，01:15:56]。

步骤610，将演出角色的第三片段信息与目标视频进行关联存储。

视频服务器还将演出角色的第三片段信息，作为目标视频的属性信息进行关联存储。表四示意性的示出了该关联关系：

表四

视频ID	视频名称	演出角色名称	演出片段信息
b00154qk4le	xx传奇_01	雪莉	第三演出片段1
b00154qk4le	xx传奇_01	迈克	第三演出片段2
b00154qk4le	xx传奇_02	雪莉	第三演出片段3
b00154qk4le	xx传奇_02	迈克	第三演出片段4
b00154qk4le	xx传奇_03	雪莉	第三演出片段5

需要说明的一点是，本实施例对步骤602和步骤603之间的执行先后顺序不加以限定，步骤602可以在步骤603之前执行，也可以在步骤603之后执行，两者也可以并列执行。

需要说明的另一点是，本实施例对步骤605-606和步骤607-608之间的执行先后顺序不加以限定，步骤605-606可以在步骤607-608之前执行，也可以在步骤607-608之后执行，两组步骤也可以并列执行。

需要说明的再一点是，步骤609的合并过程是可选步骤，服务器也可以对演出角色的第一片段信息和第二片段信息不合并而直接存储。

综上所述，本实施例提供的演出片段的标注方法，通过根据演出角色的图像数据和音频数据对演出角色在目标视频中的演出片段进行标注，能够更为准确地标注出该演出角色在目标视频中的实际演出片段，提高演出片段的标注准确性和标注效率。

需要说明的是，上述图6实施例中的技术细节可以结合参考图3实施例和图5实施例所公开的内容，不再一一赘述。

图7是本申请一个示例性实施例提供的一种视频播放方法的流程图。本实施例以该方法应用于图1所示的终端110中来举例说明。该方法包括：

步骤701，终端向视频服务器发送视频播放请求，该视频播放请求携带有目标视频的视频标识；

终端中运行有前端程序，该前端程序可以是网页、在线视频播放APP、离线视频播放APP、短视频播放APP和新闻类APP中的至少一种。该前端程序也可以简称为视频APP。

以终端中运行有视频APP为例，当用户想看目标视频时，视频APP向视频服务器发送视频播放请求，该视频播放请求携带有目标视频的视频标识。

比如，目标视频的视频标识为b00154qk4le。

步骤702，视频服务器将目标视频的全部或部分数据发送至终端；

视频服务器中运行有后端程序，后端程序是指部署在视频服务器中的远程服务和接口。

可选地，当终端采用线下缓存方式对目标视频进行播放时，视频服务器可以将目标视频的整个视频数据发送至终端。

可选地，当终端采用线上实时加载目标视频进行播放时，视频服务器可以按照播放进度，将目标视频中的全部或部分视频流发送至终端。比如，视频服务器在初始阶段将目标视频的前n秒视频流发送给终端。

在一个可选的实施例中，视频服务器还可以将该目标视频对应的至少一个演出角色的演出片段信息伴随目标视频的视频数据同时发送至终端。对应地，终端接收目标视频的视频数据，并获取目标视频中至少一个演出角色的演出片段信息。

步骤703，终端显示目标视频的播放界面；

安装在终端中的前端程序根据目标视频的全部或部分视频数据，显示目标视频的播放界面。可选地，该播放界面上显示有播放按钮、快进按钮、快退按钮、播放进度条等播放控件。

可选地，播放界面上显示有播放进度条，播放进度条上显示有至少一个演出区间，每个演出区间对应各自的演出角色。参考图8所示，播放界面上显示有播放进度条70。播放进度条70上显示有三种不同填充图案表示的演出区间。其中，黑色填充图案71对应的演出区间对应演出角色A、条纹填充图案72对应的演出区间对应演出角色B、白色填充图案73对应的演出区间对应其它演出角色(或者没有演出角色的转场画面)，当演出角色A和演出角色B同时出现在同一个画面时，可以采用两种填充图案的叠加图案74来表示。

步骤704，终端在播放界面上显示至少一个演出角色的观看设置控件；

观看设置控件用于设置演出角色的观看属性，观看属性包括：只看属性、忽略属性和快看属性中的至少一种。每个演出角色在终端和服务器中对应有各自的角色标识。

只看属性是指播放该演出角色的演出片段，且不播放其它演出角色的演出片段的属性。忽略属性是指不播放该演出角色的演出片段的属性，且播放其它演出角色的演出片段的属性。快看属性是指以快进方式播放该演出角色的演出片段的属性，不播放其它演出角色的演出片段的属性。

可选地，观看属性还包括正常播放属性，正常播放属性是默认播放所有演出角色的演出片段的观看属性。

可选地，观看设置控件上还可以显示有每个演出角色对应的演出片段的总时长。

在一个可选的实施例中，在播放界面上的预设区域显示演出角色的观看设置控件。预设区域包括目标视频的播放窗口的上方区域、左方区域、下方区域或右方区域。

示例性的如图9所示，在终端显示的播放界面80的左半部分显示有播放窗口81。在播放窗口81的右侧区域显示有观看设置控件，该观看设置控件包括：观看属性选择控件82和演出角色选择控件83。其中，观看属性选择控件82用于将观看属性设置为只看属性、忽略属性和快看属性中的一种。演出角色选择控件83用于设置每种观看属性下所对应的演出角色。比如，具有只看属性的演出角色为竖向排列的两个演出角色中的第一个。

本申请对观看设置控件的具体形式和数量不加以限定，只要观看设置控件实现对一个或多个演出角色的观看属性进行设置的功能即可。

步骤705，终端根据观看设置控件上接收到的操作，确定演出角色的观看属性；

当用户在观看设置控件上进行操作时，用户可以在该观看设置控件上为演出角色设置观看属性。观看属性包括：只看属性、忽略属性和快看属性中的至少一种。

步骤706，终端获取目标视频中演出角色的演出片段信息；

在一个可选的实施例中，终端在接收目标视频的全部或部分数据时，同时获取目标视频中演出角色的演出片段信息。示意性的，终端向服务器发送目标视频的视频标识后，服务器根据该视频标识将目标视频中的至少一个演出角色的演出片段信息发送给终端，终端接收服务器发送的至少一个演出角色的演出片段信息。此时，步骤706与步骤701-702可以并列执行。

在一个可选的实施例中，终端在步骤705中确定出n个演出角色中被选择的演出角色的观看属性后，终端向服务器发送目标视频的视频标识后，服务器根据该视频标识将目标视频中的至少一个演出角色的演出片段信息发送给终端，终端接收服务器发送的至少一个演出角色的演出片段信息。该演出片段信息是服务器预先标注的，或者，由服务器在接收到终端发送的目标视频的视频标识后进行标注。

在另一个可选的实施例中，终端在步骤705中确定出n个演出角色中被选择的演出角色的观看属性后，向服务器发送被选择的演出角色的角色标识。服务器根据被选择的演出角色的角色标识，将被选择的演出角色的演出片段信息发送给终端，终端接收服务器发送的被选择的演出角色的演出片段信息。该演出片段信息是服务器预先标注的，或者，由服务器在接收到终端发送的被选择的演出角色的角色标识后进行标注。

可选地，该演出片段信息根据演出角色的角色特征自动标注，角色特征根据演出角色对应的多媒体文件确定。可选地，该演出片段信息由服务器预先进行标注，或者，由服务器在终端发送用于获取演出片段信息之前进行标注。本申请实施例对步骤706的具体执行时机和执行方式不加以限定。

可选地，演出角色的演出片段信息可以参考上述表一、表二或表三所示。该演出片段信息是视频服务器根据演出角色的多媒体文件自动标注的。演出角色的多媒体文件包括：演出角色的图像数据，和/或，演出角色的音频数据。

服务器根据演出角色的图像数据，自动标注出演出片段信息的过程可以参考图3实施例；服务器根据演出角色的音频数据，自动标注出演出片段信息的的过程可以参考图5实施例；服务器根据演出角色的图像数据和音频数据，自动标注出演出片段信息的过程可以参考图6实施例。

步骤707，当演出角色的观看属性是只看属性时，根据演出片段信息只播放演出角色对应的演出片段；

可选地，当演出角色的观看属性是只看属性时，终端获取该演出角色的演出片段信息，该演出片段信息包括一个或多个演出片段。对于该演出角色A的每个演出片段，从第i个演出片段的开始时刻开始播放，至该第i个演出片段的结束时刻停止播放或跳转至第i+1个演出片段的开始时刻继续播放，i为正整数。在其它演出角色的观看属性为默认的正常播放属性时，目标视频中除演出角色A的其它演出片段将不再被播放。

可选地，终端根据演出片段信息，在播放界面的播放进度条上对该演出角色对应的演出片段进行第一区别显示。该第一区别显示包括：增加显示亮度、采用属于鲜艳色系的第一颜色进行显示、采用第一填充图案显示、加粗显示中的至少一种。比如，该演员对应的演出片段显示为蓝色，而播放进度条上剩余的其它区域显示为灰色。

结合参考图8和图10，当演出角色A的观看属性是只看属性时，终端在播放界面的播放进度条70上，将演出角色A对应的演出片段71进行加粗显示。以便观众能够明确该演出角色A所对应的演出片段71。

可选地，当具有只看属性的演出角色为至少两个时，对至少两个演出角色的演出片段信息进行合并，播放合并后的演出片段信息对应的演出片段。该合并可以是求交集合并，也可以是求并集合并。

可选地，当至少两个演出角色是相同性别的演员时，终端对至少两个演出角色的演出片段信息进行求并集合并，只播放合并后的演出片段信息对应的演出片段；当至少两个演出角色是异性性别的两个演员时，由于异性性别的两个演员通常是情侣戏，终端可以对至少两个演出角色的演出片段信息进行求交集合并，只播放合并后的演出片段信息对应的演出片段。

步骤708，当演出角色的观看属性是忽略属性时，根据演出片段信息跳过演出角色对应的演出片段。

可选的，当演出角色的观看属性是忽略属性时，终端获取该演出角色的演出片段信息，该演出片段信息包括一个或多个演出片段。对于该演出角色A的每个演出片段，当播放至第i个演出片段的开始时刻的上一时刻时，直接跳转至第i个演出片段的结束时刻之后的下一个时刻进行播放，i为正整数。在其它演出角色的观看属性是正常观看属性时，目标视频中除演出角色A的其它演出片段均会被播放，而演出角色A的演出片段会被播放。

可选地，终端根据演出片段信息，在播放界面的播放进度条上对该演出角色对应的演出片段进行第二区别显示。该第二区别显示包括：降低显示亮度、采用属于暗淡色系的第二颜色进行显示、采用第二填充图案显示、缩小显示中的至少一种。比如，该演出角色对应的演出区段显示为灰色，而播放进度条上剩余的其它区域显示为蓝色。

当具有忽略属性的演出角色为至少两个时，对至少两个演出角色的演出片段信息进行合并，跳过合并后的演出片段信息对应的演出片段。该合并通常是求并集合并。

步骤709，当演出角色的观看属性是快看属性时，根据演出片段信息快进观看该演出角色对应的演出片段。

可选的，当演出角色的观看属性是快看属性时，终端获取该演出角色的演出片段信息，该演出片段信息包括一个或多个演出片段。对于该演出角色A的每个演出片段，当播放至第i个演出片段的开始时刻时，按照预设的快进速度进行播放；当播放至第i个演出片段的结束时刻时，按照正常速度进行播放。在其它演出角色的观看属性是正常观看属性时，目标视频中除演出角色A的其它演出片段均会被正常速度播放，而演出角色A的演出片段会被播放。

可选地，终端根据演出片段信息，在播放界面的播放进度条上对该演出角色对应的演出片段进行第三区别显示。该第三区别显示包括：改变显示亮度、采用第三颜色进行显示、采用第三填充图案显示、使用动画显示中的至少一种。比如，该演出角色对应的演出片段显示为灰色，而播放进度条上剩余的其它区域显示为蓝色。

当具有快看属性的演出角色为至少两个时，对至少两个演出角色的演出片段信息进行合并，快进播放合并后的演出片段信息对应的演出片段。该合并通常是求并集合并。

综上所述，本实施例提供的视频播放方法，通过由终端获取目标视频中至少一个演出角色对应的演出片段信息，根据观看属性和演出片段信息对目标视频进行选看播放，使得用户可以实现对同一个目标视频的不同演出角色进行不同形式的观看。

在基于步骤703提供的一个可选实施例中，观看设置控件在目标视频的播放界面上是隐藏状态。当接收到用户的触发操作时，在目标视频的播放界面上增加对观看设置控件的显示。如图11所示，终端在播放目标视频的过程中，在播放界面上显示“只看TA”控件83。在“只看TA”控件83被触发后，在播放界面上叠加显示观看设置控件84。该观看设置控件84上包括只看属性的设置区域、忽略属性的设置区域和快看属性的设置区域。图11以只看属性的设置区域为例，该只看属性的设置区域上显示有三个演出角色的头像和为每个演出角色设置只看属性的勾选框。

在基于步骤704的可选实施例中，步骤704可以替代实现成为步骤704a，步骤705可以替代实现成为步骤705a和705b，如图12所示：

步骤704a，在播放界面上显示观看设置控件，观看设置控件包括目标观看属性的设置区域，设置区域上显示有n个演出角色的角色元素，角色元素包括角色头像、演员名、演出角色名、勾选框中的至少一种。

观看设置控件包括如下设置区域中的至少一个：只看属性的设置区域、忽略属性的设置区域和快看属性的设置区域。每种观看属性的设置区域上显示有n个演出角色的角色元素。不同观看属性的设置区域上显示的n个演出角色的种类和个数可以是相同的，也可以是不同的。

在一个可选的实施例中，参考图11所示，观看设置控件84上包括只看属性的设置区域，该只看属性的设置区域上显示有3个演出角色的角色头像和勾选框。

在另一个可选的实施例中，参考图13所示，观看设置控件85上包括忽略属性的设置区域，该忽略属性的设置区域上显示有3个演出角色的角色头像。

在另一个可选的实施例中，参考图14所示，观看设置控件85上包括忽略属性的设置区域，该忽略属性的设置区域上显示有3个演出角色的演员名称。

在另一个可选的实施例中，参考图15所示，观看设置控件85上包括忽略属性的设置区域，该忽略属性的设置区域上显示有4个演出角色的演出角色名。

步骤705a，接收对n个演出角色的角色元素进行选择的选择信号；

可选地，该选择信号是在触摸屏上进行点击的选择信号。

示意性的，如图11所示，用户对3个演出角色中第1个和第3个演出角色的勾选框进行勾选，终端根据该勾选信号将第1个和第3个演出角色确定为被选择的演出角色；如图13所示，用户对3个演出角色中第1个和第2个演出角色的角色头像进行点击，终端根据该点击信号将第1个演出角色和第2个演出角色确定为被选择的演出角色，终端还可将第1个和第2个演出角色的角色头像进行加亮显示，以便于未被选择的第3个演出角色的角色头像进行区别；如图14所示，用户对3个演出角色中第3个演出角色的演员名进行点击，终端根据该点击信号将第3个演员名确定为被选择的演出角色，终端还可将第3个演出角色的演员名进行加粗显示，以便与未被选择的其它两个演出角色的演员名进行区别；如图15所示，用户对4个演出角色中第2个演出角色的演出角色名进行点击，终端根据该点击信号将第2个演员名确定为被选择的演出角色，用户对第2个演出角色的演出角色名进行加粗显示，以便与未被选择的其它三个演出角色的演出角色名进行区别。

步骤705b，将n个演出角色中被选择的演出角色的观看属性设置为目标观看属性。

可选地，终端将n个演出角色中被选择的演出角色的观看属性设置为目标观看属性。

在一个可选的实施例中，步骤704包括如下子步骤7041至7043，如图16所示：

步骤7041，在目标视频的播放界面上接收长按选择操作；

终端显示有目标视频的播放界面。该播放界面上显示有目标视频的视频画面。视频画面中显示有一个或多个演出角色。当用户希望只看某一个演出角色(或不看某个演出角色或快看某个演出角色)时，用户可以在目标视频的播放界面上，对该演出角色的人脸区域进行长按。

终端通过触摸屏接收用户的长按选择操作。

步骤7042，确定长按选择操作所选择的人脸对应的演出角色；

终端根据用户的长按选择操作，确定长按选择操作的按压位置以及长按时的第一图像帧(一帧或多帧)。对第一图像帧中与按压位置对应的人脸区域进行识别，从而识别出该人脸区域对应的演出角色。

步骤7043，显示演出角色对应的观看设置控件。

终端在目标视频的播放界面上叠加显示该演出角色对应的观看设置控件。可选地，终端在播放界面上的预定位置显示该演出角色对应的观看设置控件，或者，终端在按压位置的周侧区域显示该演出角色对应的观看设置控件。

结合参考图17，播放界面上显示有四个演出角色：孙悟空、沙僧、猪八戒和唐僧。当用户希望只看猪八戒的演出片段时，可以对猪八戒的人脸区域91进行长按选择操作。用户根据长按选择操作对人脸区域91进行识别，从而识别出演出角色为猪八戒，然后在人脸区域91的位置处叠加显示猪八戒对应的观看设置控件92。观看设置控件92上显示有“只看”选项、“忽略”选项和“快看”选项，用户可点击“只看”选项来触发只看猪八戒的演出片段；或者，也可点击“忽略”选项来触发不看猪八戒的演出片段；或者，也可点击“快看”选项来触发快进观看猪八戒的演出片段。

综上所述，本实施例提供的方法，在用户事先不知道演出角色的名称时，也可以通过长按选择操作触发终端，使得终端显示出与该演出角色对应的观看设置控件，提高了用户与终端之间的人机交互效率，以及观看设置控件的触发效率。

在一个可选的实施例中，步骤704包括如下子步骤7044至7046，如图18所示：

步骤7044，在目标视频的播放界面上接收区域选择操作；

终端显示有目标视频的播放界面。该播放界面上显示有目标视频的视频画面。视频画面中显示有一个或多个演出角色。当用户希望只看某一个演出角色(或不看某个演出角色或快看某个演出角色)时，用户可以在目标视频的播放界面上，对该演出角色的人脸区域进行画一个封闭曲线来进行选择。也即，区域选择操作可以是用户采用触摸操作画出一个封闭曲线，从而对位于封闭曲线所选择的区域内的演出角色进行选择的操作。

步骤7045，确定区域选择操作所选择的区域内的演出角色；

位于区域选择操作所选择的区域内的演出角色是一个或多个。

终端根据用户的区域选择操作，确定区域选择操作所选择的区域以及操作时的第二图像帧(一帧或多帧)。对第二图像帧中与被选择区域对应的人脸区域进行识别，从而识别出该人脸区域对应的演出角色。

步骤7046，显示演出角色对应的观看设置控件。

结合参考图19，播放界面上显示有四个演出角色：孙悟空、沙僧、猪八戒和唐僧。当用户希望只看沙僧和猪八戒的演出片段时，可以对沙僧和猪八戒的人脸区域93进行区域选择操作。用户根据区域选择操作对人脸区域93进行识别，从而识别出演出角色为沙僧和猪八戒，然后在人脸区域93的位置处叠加显示猪八戒对应的观看设置控件92。观看设置控件92上显示有“只看”选项、“忽略”选项和“快看”选项，用户可点击“只看”选项来触发只看沙僧和猪八戒的演出片段；或者，也可点击“忽略”选项来触发不看沙僧和猪八戒的演出片段；或者，也可点击“快看”选项来触发快进观看沙僧和猪八戒的演出片段。

综上所述，本实施例提供的方法，在用户事先不知道演出角色的名称时，也可以通过区域选择操作触发终端，使得终端显示出与该演出角色对应的观看设置控件，提高了用户与终端之间的人机交互效率，以及观看设置控件的触发效率。

在一个可选的实施例中，步骤704包括如下子步骤7047至7049，如图20所示：

步骤7047，在目标视频的播放界面上接收手势选择操作；

终端显示有目标视频的播放界面。该播放界面上显示有目标视频的视频画面。视频画面中显示有一个或多个演出角色。当用户希望只看某一个演出角色(或不看某个演出角色或快看某个演出角色)时，用户可以在目标视频的播放界面上，对该演出角色的人脸区域进行画一个手势来进行选择。也即，手势选择操作可以是用户画出预设图案的触摸操作。预设图案可以是画勾操作、画叉操作或画箭头操作。本实施例对预设图像的具体形式不加以限定。

其中，画勾操作表示希望触发该演出角色的只看属性，画叉操作表示希望触发该演出角色的不看属性，画箭头操作表示希望触发该演出角色的快看属性。

步骤7048，确定手势选择操作所选择的人脸对应的演出角色；

终端根据用户的手势选择操作，确定手势选择操作所作用的区域以及操作时的第三图像帧(一帧或多帧)。对第三图像帧中与被作用区域对应的人脸区域进行识别，从而识别出该人脸区域对应的演出角色。

步骤7049，显示演出角色对应的观看设置控件。

结合参考图21，播放界面上显示有四个演出角色：孙悟空、沙僧、猪八戒和唐僧。当用户希望只看猪八戒的演出片段时，可以对猪八戒的人脸区域94进行画勾操作。用户根据画勾操作对人脸区域94进行识别，从而识别出演出角色为猪八戒，然后在人脸区域94的位置处叠加显示猪八戒对应的观看设置控件92。观看设置控件92上显示有“只看”选项、“忽略”选项和“快看”选项，并且默认选择“只看”选项以便用户快速启用只看猪八戒的演出片段的功能。

结合参考图22，播放界面上显示有四个演出角色：孙悟空、沙僧、猪八戒和唐僧。当用户希望只看猪八戒的演出片段时，可以对猪八戒的人脸区域94进行画叉操作。用户根据画叉操作对人脸区域94进行识别，从而识别出演出角色为猪八戒，然后在人脸区域94的位置处叠加显示猪八戒对应的观看设置控件92。观看设置控件92上显示有“只看”选项、“忽略”选项和“快看”选项，并且默认选择“忽略”选项，以便用户快速启用忽略观看猪八戒的演出片段的功能。

综上所述，本实施例提供的方法，在用户事先不知道演出角色的名称时，也可以通过手势选择操作触发终端，使得终端显示出与该演出角色对应的观看设置控件，提高了用户与终端之间的人机交互效率，以及观看设置控件的触发效率。

以下为本申请提供的装置实施例，该装置实施例与上述方法实施例存在对应关系。对于装置实施例中未详细描述的细节，可以参考上述方法实施例。

请参考图23，其示出了本申请一个示例性实施例提供的演出片段的标注装置的框图。该演出片段的标注装置可以实现成为视频服务器或视频服务器的内部功能模块。该装置包括：获取模块2310、确定模块2330、解码模块2350、识别模块2370和标注模块2390。

获取模块2310，用于获取演出角色对应的多媒体文件；

确定模块2330，用于根据所述多媒体文件确定所述演出角色的角色特征；

解码模块2350，用于对所述目标视频进行解码，得到数据帧和所述数据帧对应的播放时间戳，所述数据帧包括视频帧和/或音频帧；

识别模块2370，用于在所述目标视频的所述数据帧中，识别与所述角色特征匹配的目标数据帧；

标注模块2390，用于根据所述目标数据帧的播放时间戳，自动标注出所述演出角色对应的演出片段信息。

在一个可选的实施例中，所述角色特征包括所述演出角色的声纹特征，所述识别模块2370用于在所述目标视频的所述音频帧中，识别与所述声纹特征匹配的目标音频帧。

在一个可选的实施例中，所述获取模块2310用于获取所述演出角色的剧中音频数据，所述剧中音频数据是所述演出角色在所述目标视频中的音频数据；所述确定模块2330用于从所述剧中音频数据中提取所述演出角色的声纹特征。

在一个可选的实施例中，所述获取模块2310用于获取所述目标视频的演员表；当根据所述演员表确定存在所述演出角色的配音演员名称时，根据所述配音演员名称从网络资源中抓取演员音频数据；当根据所述演员表确定不存在所述演出角色的配音演员名称时，获取所述演出角色的主演演员名称，根据所述主演演员名称从所述网络资源抓取所述演员音频数据；所述确定模块2330用于从所述演员音频数据中提取所述演出角色的音频特征。

在一个可选的实施例中，所述角色特征包括所述演出角色的人脸特征，所述获取模块2310用于在所述目标视频的所述图像帧中，识别与所述人脸特征匹配的目标图像帧。

在一个可选的实施例中，所述获取模块2310用于获取所述演出角色的剧照图像数据，所述剧照图像数据是所述演出角色在所述目标视频中出演的剧照；所述确定模块2330用于从所述剧照图像数据中提取所述演出角色的人脸特征。

在一个可选的实施例中，所述获取模块2310用于获取所述目标视频的演员表；根据所述演员表中的演出角色的演员名称，从人物百科页面抓取与所述演员名称对应的演员图像；所述确定模块2330用于从所述演员图像中提取所述演出角色的人脸特征。

在一个可选的实施例中，所述确定模块2330用当所述演员图像存在至少两张时，获取所述演员图像对应的图像拍摄时刻；将所述图像拍摄时刻与所述目标视频的视频拍摄时刻最接近的一张演出角色图像，确定为待提取的所述演员图像。

在一个可选的实施例中，所述标注模块2390用于当所述目标数据帧包括至少一帧目标图像帧时，对所述至少一帧目标图像帧的连续时间戳进行合并，得到所述演出角色的至少一个第一片段信息；或，所述标注模块2390用于当所述目标数据帧包括至少一帧目标音频帧时，对所述至少一帧目标数据帧的连续时间戳进行合并，得到所述演出角色的至少一个第二片段信息；或，所述标注模块2390用于当所述目标数据帧同时包括至少一帧目标图像帧和至少一帧目标音频帧时，对所述至少一帧目标图像帧的连续时间戳进行合并，得到所述演出角色的至少一个所述第一片段信息；对所述至少一帧目标音频帧的连续时间戳进行合并，得到所述演出角色的至少一个所述第二片段信息；根据所述第一片段信息和所述第二片段信息的并集，得到所述演出角色的第三片段信息。

请参考图24，其示出了本申请一个示例性实施例提供的视频播放装置的框图。该视频播放装置可以实现成为终端或终端的内部功能模块。该装置包括：显示模块2420、确定模块2440和获取模块2460。

显示模块2420，用于显示目标视频的播放界面。

所述显示模块2420，还用于在所述播放界面上显示至少一个演出角色的观看设置控件；

确定模块2440，用于根据所述观看设置控件上接收到的操作，确定所述演出角色的观看属性；所述观看属性包括以下属性中的至少一种：只看属性、忽略属性和快看属性。

获取模块2460，用于获取所述目标视频中所述演出角色的演出片段信息，所述演出片段信息根据所述演出角色的角色特征自动标注的，所述角色特征根据所述演出角色对应的多媒体文件确定。

所述显示模块2420，还用于根据所述观看属性和所述演出片段信息对所述目标视频进行播放。

在一个可选的实施例中，所述显示模块2420用于当所述演出角色的观看属性是只看属性时，根据所述演出片段信息只播放所述演出角色对应的演出片段；当所述演出角色的观看属性是忽略属性时，根据所述演出片段信息跳过所述演出角色对应的演出片段；当所述演出角色的观看属性是快看属性时，根据所述演出片段信息快进所述演出角色对应的演出片段。

在一个可选的实施例中，所述显示模块2420用于当具有所述只看属性的演出角色为至少两个时，对所述至少两个演出角色的所述演出片段信息进行合并，只播放合并后的所述演出片段信息对应的演出片段；和/或，所述显示模块2420用于当具有所述忽略属性的演出角色为至少两个时，对所述至少两个演出角色的所述演出片段信息进行合并，跳过合并后的所述演出片段信息对应的演出片段；和/或，所述显示模块2420用于当具有所述快看属性的演出角色为至少两个时，对所述至少两个演出角色的所述演出片段信息进行合并，快进合并后的所述演出片段信息对应的演出片段。

在一个可选的实施例中，所述显示模块2420用于在所述播放界面上接收长按选择操作；确定所述长按选择操作所选择的人脸对应的演出角色；显示所述演出角色对应的观看设置控件。

在一个可选的实施例中，所述显示模块2420用于在所述播放界面上接收区域选择操作；确定所述区域选择操作所选择的区域内的演出角色；显示所述演出角色对应的观看设置控件。

在一个可选的实施例中，所述显示模块2420用于在所述播放界面上接收手势选择操作；确定所述手势选择操作所选择的人脸对应的演出角色；显示所述演出角色对应的观看设置控件。

在一个可选的实施例中，所述显示模块2420用于显示具有所述目标视频的播放窗口的所述播放界面，所述播放窗口上的播放进度条上显示有至少一个演出片段，每个所述演出片段对应各自的所述演出角色。

在一个可选的实施例中，所述显示模块2420用于在所述播放界面上显示所述观看设置控件，所述观看设置控件包括目标观看属性的设置区域，所述设置区域上显示有n个演出角色的角色元素，所述角色元素包括角色头像、演员名、演出角色名、勾选框中的至少一种；所述确定模块2440用于接收对所述n个演出角色的角色元素进行选择的选择信号；将所述n个演出角色中被选择的演出角色的观看属性设置为所述目标观看属性，所述目标观看属性包括如下属性中的至少一种：所述只看属性、所述忽略属性和所述快看属性。

需要说明的是：上述实施例提供的演出片段的标注装置/视频播放装置在标注演出角色的演出片段信息时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的演出片段的标注/播放装置与视频标注/播放方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图25示出了本申请一个示例性实施例提供的终端2500的结构框图。该终端2500可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端2500还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端2500包括有：处理器2501和存储器2502。

处理器2501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器2501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器2501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器2501可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器2501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器2502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器2502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器2502中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器2501所执行以实现本申请中方法实施例提供的视频播放方法。

本领域技术人员可以理解，图25中示出的结构并不构成对终端2500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请还提供了一种服务器，该服务器包括处理器和存储器，存储器中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述各个方法实施例提供的演出片段的标注方法。需要说明的是，该服务器可以是如下图26所提供的服务器。

图26是根据一示例性实施例示出的一种服务器的结构示意图。所述服务器2600包括中央处理单元(CPU)2601、系统存储器2604，以及连接系统存储器2604和中央处理单元2601的系统总线2605。所述服务器2600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)2606，和大容量存储设备2607。

所述大容量存储设备2607通过连接到系统总线2605的大容量存储控制器(未示出)连接到中央处理单元2601。所述大容量存储设备2607及其相关联的计算机可读介质为服务器2600提供非易失性存储。也就是说，所述大容量存储设备2607可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

上述的系统存储器2604和大容量存储设备2607可以统称为存储器。

服务器2600可以通过连接在所述系统总线2605上的网络接口单元2611连接到互联网或者其它网络设备。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，中央处理器2601通过执行该一个或一个以上程序来实现所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本申请实施例提供的演出片段的标注方法中由服务器所执行的步骤。

本申请提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述各个方法实施例提供的演出片段的标注方法和/或视频播放方法。

本申请还提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述各个方法实施例提供的演出片段的标注方法和/或视频播放方法。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种演出片段的标注方法，其特征在于，应用于存储有目标视频的视频服务器中，所述方法包括：

获取演出角色对应的多媒体文件；

根据所述多媒体文件确定所述演出角色的角色特征；

对所述目标视频进行解码，得到数据帧和所述数据帧对应的播放时间戳，所述数据帧包括视频帧和/或音频帧；

在所述目标视频的所述数据帧中，识别与所述角色特征匹配的目标数据帧；

根据所述目标数据帧的播放时间戳，自动标注出所述演出角色对应的演出片段信息。
根据权利要求1所述的方法，其特征在于，所述角色特征包括所述演出角色的声纹特征，所述在所述目标视频的所述数据帧中，识别与所述角色特征匹配的目标数据帧，包括：

在所述目标视频的所述音频帧中，识别与所述声纹特征匹配的目标音频帧。
根据权利要求2所述的方法，其特征在于，所述获取演出角色对应的多媒体文件，包括：

获取所述演出角色的剧中音频数据，所述剧中音频数据是所述演出角色在所述目标视频中的音频数据；

所述根据所述多媒体文件确定所述演出角色的角色特征，包括：

从所述剧中音频数据中提取所述演出角色的声纹特征。
根据权利要求2所述的方法，其特征在于，所述获取演出角色对应的多媒体文件，包括：

获取所述目标视频的演员表；

当根据所述演员表确定存在所述演出角色的配音演员名称时，根据所述配音演员名称从网络资源中抓取演员音频数据；

当根据所述演员表确定不存在所述演出角色的配音演员名称时，获取所述演出角色的主演演员名称，根据所述主演演员名称从所述网络资源抓取所述演员音频数据；

所述根据所述多媒体文件确定所述演出角色的角色特征，包括：

从所述演员音频数据中提取所述演出角色的音频特征。
根据权利要求1所述的方法，其特征在于，所述角色特征包括所述演出角色的人脸特征，所述在所述目标视频的所述数据帧中，识别与所述角色特征匹配的目标数据帧，包括：

在所述目标视频的所述图像帧中，识别与所述人脸特征匹配的目标图像帧。
根据权利要求5所述的方法，其特征在于，所述获取演出角色对应的多媒体文件，包括:

获取所述演出角色的剧照图像数据，所述剧照图像数据是所述演出角色在所述目标视频中出演的剧照；

所述根据所述多媒体文件确定所述演出角色的角色特征，包括：

从所述剧照图像数据中提取所述演出角色的人脸特征。
根据权利要求5所述的方法，其特征在于，所述获取演出角色对应的多媒体文件，包括：

获取所述目标视频的演员表；

根据所述演员表中的演出角色的演员名称，从人物百科页面抓取与所述演员名称对应的演员图像；

所述根据所述多媒体文件确定所述演出角色的角色特征，包括：

从所述演员图像中提取所述演出角色的人脸特征。
根据权利要求7所述的方法，其特征在于，所述根据所述演员表中的演出角色的演员名称，从人物百科页面抓取与所述演员名称对应的演员图像之后，还包括：

当所述演员图像存在至少两张时，获取所述演员图像对应的图像拍摄时刻；

将所述图像拍摄时刻与所述目标视频的视频拍摄时刻最接近的一张演出角色图像，确定为待提取的所述演员图像。
根据权利要求1至8任一所述的方法，其特征在于，所述根据所述目标数据帧的播放时间戳，自动标注出所述演出角色对应的演出片段信息，包括：

当所述目标数据帧包括至少一帧目标图像帧时，对所述至少一帧目标图像帧的连续时间戳进行合并，得到所述演出角色的至少一个第一片段信息；

或，

当所述目标数据帧包括至少一帧目标音频帧时，对所述至少一帧目标数据帧的连续时间戳进行合并，得到所述演出角色的至少一个第二片段信息；

或，

当所述目标数据帧同时包括至少一帧目标图像帧和至少一帧目标音频帧时，对所述至少一帧目标图像帧的连续时间戳进行合并，得到所述演出角色的至少一个所述第一片段信息；对所述至少一帧目标音频帧的连续时间戳进行合并，得到所述演出角色的至少一个所述第二片段信息；根据所述第一片段信息和所述第二片段信息的并集，得到所述演出角色的第三片段信息。
一种视频播放方法，其特征在于，应用于终端中，所述方法包括：

显示目标视频的播放界面；

在所述播放界面上显示至少一个演出角色的观看设置控件；

根据所述观看设置控件上接收到的操作，确定所述演出角色的观看属性，所述观看属性包括如下属性中的至少一种：只看属性、忽略属性和快看属性；

获取所述目标视频中所述演出角色的演出片段信息，所述演出片段信息根据所述演出角色的角色特征自动标注，所述角色特征根据所述演出角色对应的多媒体文件确定；

根据所述观看属性和所述演出片段信息对所述目标视频进行播放。
根据权利要求10所述的方法，其特征在于，所述根据所述观看属性和所述演出片段信息对所述目标视频进行播放，包括：

当所述演出角色的观看属性是所述只看属性时，根据所述演出片段信息播放所述演出角色对应的演出片段；

当所述演出角色的观看属性是所述忽略属性时，根据所述演出片段信息跳过所述演出角色对应的演出片段；

当所述演出角色的观看属性是所述快看属性时，根据所述演出片段信息快进所述演出角色对应的演出片段。
根据权利要求11所述的方法，其特征在于，

所述根据所述演出片段信息播放所述演出角色对应的演出片段，包括：

当具有所述只看属性的演出角色为至少两个时，对所述至少两个演出角色的所述演出片段信息进行合并，播放合并后的所述演出片段信息对应的演出片段；

所述根据所述演出片段信息跳过所述演出角色对应的演出片段，包括：

当具有所述忽略属性的演出角色为至少两个时，对所述至少两个演出角色的所述演出片段信息进行合并，跳过合并后的所述演出片段信息对应的演出片段；

所述根据所述演出片段信息快进所述演出角色对应的演出片段，包括：

当具有所述快看属性的演出角色为至少两个时，对所述至少两个演出角色的所述演出片段信息进行合并，快进合并后的所述演出片段信息对应的演出片段。
根据权利要求10至12任一所述的方法，其特征在于，所述在所述播放界面上显示至少一个演出角色的观看设置控件，包括：

在所述播放界面上显示所述观看设置控件，所述观看设置控件包括目标观看属性的设置区域，所述设置区域上显示有n个演出角色的角色元素，n为正整数，所述角色元素包括如下元素中的至少一种：角色头像、演员名、演出角色名、勾选框；

所述根据所述观看设置控件上接收到的操作，确定所述演出角色的观看属性，包括：

接收对所述n个演出角色的角色元素进行选择的选择信号；

将所述n个演出角色中被选择的演出角色的观看属性设置为所述目标观看属性，所述目标观看属性包括如下元素中的至少一种：所述只看属性、所述忽略属性和所述快看属性。
根据权利要求10至12任一所述的方法，其特征在于，所述在所述播放界面上显示所述演出角色的观看设置控件，包括：

在所述播放界面上接收长按选择操作；

确定所述长按选择操作所选择的人脸对应的演出角色；

显示所述演出角色对应的观看设置控件。
根据权利要求10至12任一所述的方法，其特征在于，所述在所述播放界面上显示所述演出角色的观看设置控件，包括：

在所述播放界面上接收区域选择操作；

确定所述区域选择操作所选择的区域内的演出角色；

显示所述演出角色对应的观看设置控件。
根据权利要求10至12任一所述的方法，其特征在于，所述在所述播放界面上显示所述演出角色的观看设置控件，包括：

在所述播放界面上接收手势选择操作；

确定所述手势选择操作所选择的人脸对应的演出角色；

显示所述演出角色对应的观看设置控件。
根据权利要求10至12任一所述的方法，其特征在于，所述显示所述目标视频的播放界面，包括：

显示具有所述目标视频的播放窗口的所述播放界面，所述播放窗口上的播放进度条上显示有至少一个演出片段，每个所述演出片段对应各自的所述演出角色。
一种演出片段的标注装置，其特征在于，所述装置包括：

获取模块，用于获取演出角色对应的多媒体文件；

确定模块，用于根据所述多媒体文件确定所述演出角色的角色特征；

解码模块，用于对所述目标视频进行解码，得到数据帧和所述数据帧对应的播放时间戳，所述数据帧包括视频帧和/或音频帧；

识别模块，用于在所述目标视频的所述数据帧中，识别与所述角色特征匹配的目标数据帧；

标注模块，用于根据所述目标数据帧的播放时间戳，自动标注出所述演出角色对应的演出片段信息。
一种视频播放装置，其特征在于，所述装置包括：

显示模块，用于显示目标视频的播放界面；

所述显示模块，还用于在所述播放界面上显示至少一个演出角色的观看设置控件；

确定模块，用于根据所述观看设置控件上接收到的操作，确定所述演出角色的观看属性；所述观看属性包括以下属性中的至少一种：只看属性、忽略属性和快看属性；

获取模块，用于获取所述目标视频中所述演出角色的演出片段信息，所述演出片段信息根据所述演出角色的角色特征自动标注，所述角色特征根据所述演出角色对应的多媒体文件确定；

所述显示模块，还用于根据所述观看属性和所述演出片段信息对所述目标视频进行播放。
一种计算机设备，其特征在于，所述设备包括：处理器和存储器，所述存储器存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一所述的演出片段的标注方法，或者，如权利要求10至17任一所述的视频播放方法。
一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一所述的演出片段的标注方法，或者，如权利要求10至17任一所述的视频播放方法。