WO2022194084A1

WO2022194084A1 - 视频播放方法、终端设备、装置、系统及存储介质

Info

Publication number: WO2022194084A1
Application number: PCT/CN2022/080618
Authority: WO
Inventors: 徐威; 姜磊
Original assignee: 花瓣云科技有限公司
Priority date: 2021-03-16
Filing date: 2022-03-14
Publication date: 2022-09-22
Also published as: US20240031655A1; EP4297408A1; CN117939193A; CN115086710B; CN115086710A; CN117221625A

Abstract

本申请公开了一种视频播放方法，该方法包括：检测第一视频的播放位置，在播放到第一视频中的第一视频片段的起始位置时，提示用户是否同时观看与第一视频片段具有相同情节的其他视频片段；响应于用户的确认操作，向视频云平台发送第一视频片段的同情节片段请求；接收来自视频云平台的其他视频片段对应的视频，以及其他视频片段的起始位置和结束位置；将部分或全部其他视频片段和第一视频片段在同一界面上进行播放。该方法通过在第一视频中的第一视频片段处，向用户推荐与第一视频片段具有相同情节的其他视频片段，迎合了用户对相同情节片段的联想心理，快速实现多个具有相同情节的视频片段的同屏多画面播放，提升了用户体验。

Description

视频播放方法、终端设备、装置、系统及存储介质

本申请要求于2021年03月16日提交中国专利局、申请号为2021102811631、申请名称为“视频播放方法、终端设备、装置、系统及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及终端技术领域，尤其涉及到一种视频播放方法、终端设备、装置、系统及存储介质。

背景技术

随着网络的发展以及智能终端设备的普及，网络上的各种视频数量呈爆炸式增长。为了迎合用户的观影习惯，一些视频播放软件会主动分析用户的历史观看记录，然后向用户推荐同类型或者情节相似的视频。

然而，用户的兴趣点往往是稍纵即逝的，分析历史观看记录后再推荐相关视频，无法及时抓住用户在视频观看过程中的联想心理。例如，用户正在观看03版《天龙八部》，当看到“乔峰三兄弟大战少林寺”这个片段时，突然联想到97版《天龙八部》中具有相同情节的片段。在用户看完当前视频之后，视频播放软件才会分析此次观看记录，后续向用户推荐97版《天龙八部》时，用户可能已经失去了兴趣。如何抓住用户在视频观看过程中的联想心理并及时推荐相关内容，成为亟待解决的问题。

发明内容

本申请实施例提供了一种视频播放方法、终端设备、装置、系统及存储介质，能够在当前播放的视频中的某个视频片段处，向用户推荐具有相同情节的其他视频片段，主动迎合用户对同情节片段的联想心理，并且能够快速实现多个具有相同情节的视频片段的同屏多画面播放，提升用户体验。

第一方面，本申请提供了一种视频播放方法，应用于包含显示屏的终端设备，该方法包括：检测第一视频的播放位置，在播放到第一视频中的第一视频片段的起始位置时，提示用户是否同时观看与第一视频片段具有相同情节的其他视频片段；响应于用户的确认操作，向视频云平台发送第一视频片段的同情节片段请求；接收来自视频云平台的其他视频片段对应的视频，以及其他视频片段的起始位置和结束位置；将部分或全部其他视频片段和第一视频片段在同一界面上进行播放。

需要说明的是，第一视频有至少一个相关版本视频，在第一视频的相关版本视频中，包含与第一视频片段具有相同情节的其他视频片段，也就是说，第一视频的相关版本视频即为其他视频片段对应的视频。当然，在第一视频中除了有第一视频片段，还可能有第二视频片段，在相关版本视频中也有与第二视频片段同情节的其他视频片段。起始位置和结束位置可以一同概括为视频片段在对应视频中的起止时间。

可以看到，通过检测第一视频的播放位置，在播放到第一视频中的第一视频片段时，提示用户是否同时观看与第一视频片段具有相同情节的其他视频片段，迎合了用户在第一视频片段处的联想心理，然后向视频云平台发送请求，将获得的其他视频片段和第一视频片段在同一界面播放，提供直观的同情节片段对比，提升了用户体验。

基于第一方面，在可能的实施例中，在将部分或全部其他视频片段和第一视频片段在同一界面上进行播放之后，该方法还包括：在播放完第一视频片段和/或其他视频片段时，提示用户是否继续观看第一视频和/或其他视频片段对应的视频；在用户选择继续观看第一视频和其他视频片段对应的视频的情况下，继续播放第一视频和其他视频片段对应的视频；在用户选择观看第一视频的情况下，关闭其他视频片段对应的视频；在用户选择观看其他视频片段对应的视频的情况下，关闭第一视频。

可以看到，在第一视频片段和/或其他视频片段播放完毕之后，提示用户是否继续观看第一视频和/或其他视频片段对应的视频，然后根据用户的选择继续播放相应的视频，能够提升用户体验。

基于第一方面，在可能的实施例中，在检测第一视频的播放位置之前，该方法还包括：发送第一视频的观看请求至视频云平台；接收来自视频云平台的第一视频以及第一视频片段的起始位置和结束位置；播放第一视频。

可以看到，在检测第一视频的播放位置之前，终端设备向视频云平台请求第一视频，然后接收来自视频云平台的第一视频以及第一视频片段的起始位置和结束位置，以便在第一视频的播放过程中检测其播放位置，进而实现在第一视频片段处提示用户是否获取与第一视频片段具有相同情节的其他视频片段，主动迎合了用户对相同情节片段的联想心理，提升了用户体验。

第二方面，本申请实施例提供了又一种视频播放方法，用于视频云平台，该方法包括：接收来自终端设备的第一视频片段的同情节片段请求，其中，第一视频片段位于第一视频中；将与第一视频片段具有相同情节的其他视频片段对应的视频、以及其他视频片段的起始位置和结束位置，发送至终端设备，以使终端设备将部分或全部其他视频片段和第一视频片段在同一界面上进行播放。

可以看到，通过接收来自终端设备的请求，然后将与第一视频片段具有相同情节的其他视频片段对应的视频、以及其他视频片段的起始位置和结束位置发送至终端设备，能够使终端设备实现多个具有相同情节的视频片段的同屏多画面播放，迎合了用户在当前视频观看过程中对相同情节片段的联想心理，提供直观的视频片段对比，提升了用户体验感。

基于第二方面，在可能的实施例中，在接收来自终端设备的第一视频片段的同情节片段请求之前，该方法还包括：接收来自终端设备的第一视频的观看请求；发送第一视频以及第一视频片段的起始位置和结束位置至终端设备。

可以看到，视频云平台在接收来自终端设备的第一视频的观看请求后，将第一视频以及第一视频片段的起始位置和结束位置至终端设备，使得终端设备能够检测第一视频的播放位置，进而在播放到第一视频中的第一视频片段时，提示用户是否同时观看与第一视频片段具有相同情节的其他视频片段，迎合了用户的联想心理，提升了用户体验。

基于第二方面，在可能的实施例中，在接收来自终端设备的第一视频片段的同情节片段请求之前，该方法还包括：从多个视频中获取多个具有相同情节的视频片段，分别记录多个具有相同情节的视频片段中的每个视频片段的起始位置和结束位置，其中，第一视频是多个视频中的任意一个视频，多个具有相同情节的视频片段包括第一视频片段和其他视频片段。

可以看到，从多个视频中获取多个具有相同情节的视频片段，分别记录多个具有相同情节的视频片段中的每个视频片段的起始位置和结束位置，能够预先将多个具有相同情节的视频片段关联起来，然后视频云平台就可以在接收到用户的请求之后，把具有相同情节的其他视频片段发送至终端设备，以使终端设备快速实现多个具有相同情节的视频片段的同屏多画面播放，迎合了用户对相同情节片段的联想心理，提升了用户的体验感。

基于第二方面，在可能的实施例中，上述从多个视频中获取多个具有相同情节的视频片段，包括：从多个视频中获取多个目标类型片段；从多个目标类型片段中获取多个具有相同情节的视频片段。需要说明的是，目标类型片段是符合一定条件的视频片段，可以根据实际需求设置该条件，本申请实施例对此不做具体限定。先从多个视频中获取多个目标类型片段，再从多个目标类型片段中获取多个具有相同情节的视频片段，可以减少对情节进行判断的视频片段个数。

基于第二方面，在可能的实施例中，从多个视频中获取多个目标类型片段，包括：对多个视频中的每个视频分别进行镜头分割，得到每个视频对应的镜头集；对每个视频的镜头集分别使用聚类算法进行镜头聚类，得到每个视频对应的视频片段集合；将视频片段集合中的每一个视频片段分别输入目标类型检测模型，得到多个目标类型片段。

可以看到，通过对多个视频中的每个视频分别进行镜头分割、镜头聚类以及将视频片段输入目标类型检测模型，可以实现从多个视频中获取多个目标类型片段。其中，目标类型检测模型就是用来判断某视频片段是否符合一定条件、是否属于目标类型片段。

基于第二方面，在可能的实施例中，从多个目标类型片段中获取多个具有相同情节的视频片段，包括：从当前目标类型片段中提取音频、图像和字幕文本，其中，当前目标类型片段是多个目标类型片段中的任意一个目标类型片段；将当前目标类型片段的音频、图像和字幕文本分别输入音频特征提取模型、图像特征提取模型和文本特征提取模型，得到当前目标类型片段的第一音频特征向量、第一图像特征向量和第一文本特征向量；将当前目标类型片段的第一音频特征向量、第一图像特征向量和第一文本特征向量分别输入音频特征精细化模型、图像特征精细化模型和文本特征精细化模型，获得当前目标类型片段的第二音频特征向量、第二图像特征向量和第二文本特征向量；将当前目标类型片段的第二音频特征向量、第二图像特征向量和第二文本特征向量进行向量拼接，得到当前目标类型片段的融合特征向量；将当前目标类型片段的融合特征向量输入分类模型，得到当前目标类型片段的第一标签；提取当前目标类型片段的关键字，将关键字与第一标签组合得到当前目标类型片段的第二标签；将具有相同第二标签的目标类型片段作为多个具有相同情节的视频片段。

可以看到，先从当前目标类型片段中提取出音频、图像和字幕文本，然后将它们分别输入到相应的特征提取模型中，得到当前目标类型片段的第一音频特征向量、第一图像特征向量和第一文本特征向量；再将这三种特征向量分别输入相应的特征精细化模型中，得到当前目标类型片段的第二音频特征向量、第二图像特征向量和第二文本特征向量，将得到的这三种特征向量进行向量拼接，得到当前目标类型片段的融合特征向量；将当前目标类型片段的融合特征向量输入分类模型，得到当前目标类型片段的第一标签；再提取当前目标类型片段的关键字，将关键字与第一标签组合得到当前目标类型片段的第二标签；最后将具有相同第二标签的多个目标类型片段作为多个具有相同情节的视频片段。该方法通过提取特征向量并进行相应处理，得到每个目标类型片段的第二标签，再根据第二标签识别出多个具有相同情节的视频片段，并将它们关联起来，以使得终端设备能够在当前视频播放过程中提示用户是否获取具有相同情节的其他视频片段，迎合了用户的联想心理，实现多个具有相同情节的视频片段的同屏多画面播放，提升用户体验。

基于第二方面，在可能的实施例中，音频特征提取模型为VGGish网络模型，图像特征提取模型为Inception-V3网络模型，分类模型为混合专家模型，音频特征精细化模型为第一NetVLAD模型，图像特征精细化模型为第二NetVLAD模型，文本特征精细化模型为第三NetVLAD模型，其中，第一NetVLAD模型、第二NetVLAD模型和第三NetVLAD模型的模型参数不同。

第三方面，本申请实施例提供了一种终端设备，该终端设备包括：提示模块，用于检测第一视频的播放位置，在播放到第一视频中的第一视频片段的起始位置时，提示用户是否同时观看与第一视频片段具有相同情节的其他视频片段；发送模块，用于向视频云平台发送第一视频片段的同情节片段请求；接收模块，用于接收来自视频云平台的其他视频片段对应的视频，以及其他视频片段的起始位置和结束位置；显示模块，用于将部分或全部其他视频片段和第一视频片段在同一界面上进行播放。

终端设备的各个模块具体用于实现第一方面中任一实施例的方法。

第四方面，本申请实施例提供了一种装置，该装置包括：接收模块，用于接收来自终端设备的第一视频片段的同情节片段请求，其中，第一视频片段位于第一视频中；发送模块，用于将与第一视频片段具有相同情节的其他视频片段对应的视频、以及其他视频片段的起始位置和结束位置发送至终端设备，以使终端设备将部分或全部其他视频片段和第一视频片段在同一界面上进行播放。

上述装置的各个模块具体用于实现第二方面中任一实施例的方法。

第五方面，本申请实施例提供了又一种装置，该装置包括处理器、存储器和收发器，处理器、存储器和收发器可通过总线相互连接，也可以集成在一起。该处理器用于读取存储器中存储的程序代码，执行上述第一方面或第二方面的任一实施例的方法。

第六方面，本申请实施例提供了又一种视频播放系统，该系统包括上述终端设备和/或装置。

第七方面，本发明实施例提供了一种计算机可读存储介质；计算机可读存储介质用于存储第一方面或第二方面的任一方法的实现代码。

可以理解的是上述任何一方面可以与其他任一方面或者多方面一起实施，也可以独立实施。

在本申请实施例中，视频云平台预先从多个视频中获取多个具有相同情节的视频片段，分别记录多个具有相同情节的视频片段中的每个视频片段的起始位置和结束位置，将多个具有相同情节的视频片段关联起来；在终端设备向视频云平台请求第一视频时，视频云平台除了将第一视频发送至终端设备，还会将第一视频中的第一视频片段的起始位置和结束位置发送给终端设备，以使终端设备能够检测第一视频的播放位置；在播放到第一视频片段的起始位置时，终端设备提示用户是否同时观看与第一视频片段具有相同情节的其他视频片段，迎合了用户对相同情节片段的联想心理；视频云平台在接收到终端设备的请求后，将与第一视频片段具有相同情节的其他视频片段所对应的视频、以及其他视频片段的起始位置和结束位置一起发送给终端设备，以使终端设备能够快速实现多个具有相同情节的视频片段的同屏多画面播放，提供直观的对比；而且在播放完第一视频片段和/或所述其他视频片段时，终端设备提示用户是否继续观看第一视频和/或其他视频片段对应的视频，然后根据用户的选择继续播放相应的视频，提升了用户体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面对实施例描述中所需要使用的附图作简单地介绍。

图1是本申请实施例提供的一种视频观看场景；

图2是本申请实施例提供的一种视频播放系统的架构图；

图3是本申请实施例提供的一种终端设备的结构示意图；

图4是本申请实施例提供的一种软件架构示意图；

图5是本申请实施例提供的一种视频播放方法的流程示意图；

图6是本申请实施例提供的一种视频播放界面的示意图；

图7A-图7B是本申请实施例提供的提示用户的方式的示意图；

图8A-图8H是本申请实施例提供的一组视频播放界面的示意图；

图9A-图9D是本申请实施例提供的一组视频播放控制方法的示意图；

图10是本申请实施例提供的又一种视频播放方法的流程示意图；

图11是本申请实施例提供的一种视频结构化示意图；

图12是本申请实施例提供的一种多模态视频分析系统的架构图；

图13是本申请实施例提供的一种混合专家模型的结构示意图；

图14是本申请实施例提供的又一种视频播放方法的示意图；

图15是本申请实施例提供的又一种终端设备的结构示意图；

图16是本申请实施例提供的一种装置的结构示意图。

具体实施方式

下面对本申请实施例涉及的应用场景进行说明。如图1所示，用户正通过某种终端设备观看某个视频。在观看到当前视频中的某个视频片段时，用户联想到了相关版本视频中具有相同情节的其他视频片段。举例来说，当前视频为03版胡军主演的《天龙八部》，当用户观看到“乔峰三兄弟大战少林寺”这个情节的视频片段时，可能会联想到相关版本视频中具有相同情节的其他视频片段，这里的相关版本视频可以是97版陈浩民主演的《天龙八部》，还可以是13版钟汉良主演的《天龙八部》，这些相关版本视频中都包括“乔峰三兄弟大战少林寺”这个情节的视频片段。当前视频如果是电视剧版的《从前有座灵剑山》，用户在观看到“避开流星撞击”这个视频片段时，可能会联想到动漫版的《从前有座灵剑山》中具有相同情节的片段。假设当前视频为电视剧版的《仙剑奇侠传3》，用户在观看到“景天大战魔尊重楼”这个片视频段时，可能会联想到游戏版《仙剑奇侠传3》的视频中具有相同情节的片段。

当前视频与其他相关版本视频之间互为相关版本视频，相关版本视频是由同一故事(包括同一小说、游戏或者漫画等等)改编而来的多个不同的影视化版本。例如，由同一小说改编而来的不同电视剧版、电影版、动画版或者游戏版视频等等。多个相关版本视频之间通常具有相同的剧名，当然，它们对应的剧名、标题等等也可以不同，在多个相关版本视频中往往包括一些具有相同情节的视频片段，它们很容易引起用户的联想心理。

用户联想到相关版本视频中具有相同情节的其他视频片段时，便想要搜索出来观看。然而，用户主动去搜索相关版本视频时需要暂停观看当前视频，影响观看体验。通过常规的搜索方式，用户的搜索关键词不一定准确。比如，以当前视频的剧名进行搜索，只能够找出与当前视频剧名相同的相关版本视频，无法找到剧名不同的相关版本视频，并且无法精确定位具有相同情节的视频片段在相关版本视频中的起止时间。而且，当前视频片段和其他相关版本视频中具有相同情节的视频片段不能直接同时播放，无法及时抓住用户在观看过程中的联想心理并提供直观的同情节片段对比。

请参见图2，图2是本申请实施例方案所涉及的视频播放系统的架构图，该视频播放系统包括终端设备900和视频云平台200：

终端设备900，用于检测第一视频的播放位置，在播放到第一视频中的第一视频片段的起始位置时，提示用户是否同时观看与第一视频片段具有相同情节的其他视频片段；响应于用户的确认操作，向视频云平台200发送第一视频片段的同情节片段请求；

视频云平台200，用于接收来自终端设备900的第一视频片段的同情节片段请求；将与第一视频片段具有相同情节的其他视频片段对应的视频、以及其他视频片段的起始位置和结束位置发送至终端设备900，以使终端设备900将部分或全部其他视频片段和第一视频片段在同一界面上进行播放。

需要说明的是，上述第一视频至少有一个相关版本视频，第一视频和上述其他视频片段对应的视频，互为相关版本视频，在第一视频的相关版本视频中，包含与第一视频片段具有相同情节的其他视频片段。终端设备900和视频云平台200可以通过网络连接，该网络可以是有线网络，也可以是无线网络，还可以是二者的混合。

视频云平台200内部可以有多种划分，图2给出一种示例性的划分，视频云平台200包括视频媒资中心201和视频内容理解模块202。视频内容理解模块202用于对视频内容进行分析，获得相应的视频信息；视频媒资中心201用于存储视频资源以及视频信息，根据终端设备900的需求发送相应的内容。应理解，视频云平台200所实现的各种方法、功能，可以分别由视频媒资中心201和视频内容理解模块202来实现。视频云平台200可以部署在物理服务器，比如X86服务器、ARM服务器等等之上；也可以部署在通用的物理服务器结合网络功能虚拟化(network functions virtualization,NFV)技术实现的虚拟机(virtual machine,VM)之上。其中，虚拟机指通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统，比如云数据中心内的虚拟机，本申请不作具体限定。应理解，视频云平台200可以部署在单个物理服务器或者单个虚拟机之上，也可以部署在计算机集群之上。视频媒资中心201和视频内容理解模块202可以部署在同一个服务器或者服务器集群之上，也可以部署在不同的服务器，这二者之间可以通过网络连接，网络可以是有线网络，也可以是无线网络，还可以是二者的混合，本申请不做具体限定。

请参见图3，图3为本申请实施例所涉及的终端设备900的结构示意图。终端设备900可以是手机、平板电脑、可穿戴设备、车载设备、笔记本电脑、智能电视等，本申请对终端设备900的具体类型不作限制。

终端设备900可以包括：处理器910，外部存储器接口920，内部存储器921，通用串行总线(universal serial bus，USB)接口930，充电管理模块940，电源管理模块941，电池942，天线1，天线2，移动通信模块950，无线通信模块960，音频模块970，传感器模块980，按键990，马达991，指示器992，显示屏993，摄像头994以及用户标识模块(subscriber identification module，SIM)卡接口995等。其中，音频模块970可以包括扬声器970A，受话器970B，麦克风970C，耳机接口970D，传感器模块980可以包括压力传感器980A，陀螺仪传感器980B，指纹传感器980C，触摸传感器980D，环境光传感器980E等。

可以理解的是，本申请实施例示意的结构并不构成对终端设备900的具体限定。在本申请另一些实施例中，终端设备900可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器910可以包括一个或多个处理单元，例如：处理器910可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processing unit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是终端设备900的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器910中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器910中的存储器为高速缓冲存储器。该存储器可以保存处理器910刚用过或循环使用的指令或数据。如果处理器910需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器910的等待时间，因而提高了系统的效率。

在一些实施例中，处理器910可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuit sound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purpose input/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示例性地说明，并不构成对终端设备900的结构限定。在本申请另一些实施例中，终端设备900也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块940用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。

电源管理模块941用于连接电池942、充电管理模块940与处理器910。电源管理模块941接收电池942和/或充电管理模块940的输入，为处理器910、外部存储器920、内部存储器921、显示屏993、移动通信模块950和无线通信模块960等供电。

终端设备900的无线通信功能可以通过天线1、天线2、移动通信模块950、无线通信模块960、调制解调处理器以及基带处理器等实现。

终端设备900通过GPU、显示屏993以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏993和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器910可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏993用于显示图像，视频等。显示屏993包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emitting diode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emitting diode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot light emitting diodes，QLED)等。在一些实施例中，终端设备900可以包括1个或N个显示屏993，N为大于1的正整数。

终端设备900可以通过ISP，摄像头994，视频编解码器，GPU，显示屏993以及应用处理器等实现拍摄功能。ISP用于处理摄像头994反馈的数据。

摄像头994用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。

视频编解码器用于对数字视频压缩或解压缩。终端设备900可以支持一种或多种视频编解码器。这样，终端设备900可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现终端设备900的智能认知等应用，例如：图像识别，语音识别，文本理解等。

外部存储器接口920可以用于连接外部存储卡，例如Micro SD卡，实现扩展终端设备900的存储能力。外部存储卡通过外部存储器接口920与处理器910通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器921可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器910通过运行存储在内部存储器921的指令，从而执行终端设备900的各种功能应用以及数据处理。内部存储器921可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用(比如指纹识别功能等)。存储数据区可存储终端设备900使用过程中所创建的数据等。此外，内部存储器921可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

终端设备900可以通过音频模块970，扬声器970A，受话器970B，麦克风970C，耳机接口970D，以及应用处理器等实现音频功能。例如播放音频，录音等。

音频模块970用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。

扬声器970A，也称“喇叭”，用于将音频电信号转换为声音信号。

受话器970B，也称“听筒”，用于将音频电信号转换成声音信号。

麦克风970C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。

耳机接口970D用于连接有线耳机。耳机接口970D可以是USB接口930，也可以是3.5mm的开放移动终端设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器980A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器980A可以设置于显示屏993。压力传感器980A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。

陀螺仪传感器980B可以用于确定终端设备900的运动姿态。在一些实施例中，可以通过陀螺仪传感器980B确定终端设备900围绕三个轴(即，x，y和z轴)的角速度。

指纹传感器980C用于采集指纹。终端设备900可以利用采集的指纹特性实现指纹解锁，访问应用锁等。

触摸传感器980D，也称“触控面板”。触摸传感器980D可以设置于显示屏993，由触摸传感器980D与显示屏993组成触摸屏，也称“触控屏”。触摸传感器980D用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏993提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器980D也可以设置于终端设备900的表面，与显示屏993所处的位置不同。

环境光传感器980E用于感知环境光亮度。终端设备900可以根据感知的环境光亮度自适应调节显示屏993的亮度。

按键990包括开机键，音量键等。按键990可以是机械按键，也可以是触摸式按键。终端设备900可以接收按键输入，产生与终端设备900的用户设置以及功能控制有关的键信号输入。

指示器992可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口995用于连接SIM卡。SIM卡可以通过插入SIM卡接口995，或从SIM卡接口995拔出，实现和终端设备900的接触和分离。在一些实施例中，终端设备900采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在终端设备900中，不能和终端设备900分离。

终端设备900的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构等等。本申请实施例以分层架构的Android系统为例，示例性说明终端设备900的软件结构。

图4是本申请实施例的终端设备900的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图4所示，应用程序包可以包括天气、音乐、计算器、邮件、相机、图库、通话、WLAN、蓝牙、视频、短信等应用程序(也可以称为应用)。

应用程序框架层为应用程序层的应用程序提供应用编程接口(application programming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图4所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括视频应用的视频播放界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供终端设备900的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话界面形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，终端设备振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

基于上述视频播放系统，提出本申请视频播放方法的实施例。

参见图5，图5是本申请实施例提供的一种视频播放方法的流程示意图，应用于终端设备900，该方法包括以下步骤：

S101：检测第一视频的播放位置，在播放到第一视频中的第一视频片段的起始位置时，提示用户是否同时观看与第一视频片段具有相同情节的其他视频片段。

需要说明的是，第一视频至少有一个相关版本视频，相关版本视频可以是由同一故事(包括同一个小说、游戏或者漫画等等)改编而来的不同影视化版本，例如，由同一个小说改编而来的不同电视剧版本、电影版、动画版或者游戏版视频等等，第一视频的相关版本视频中包括与第一视频片段具有相同情节的其他视频片段。

下面描述本申请实施例中提示用户的方式(以终端设备900是智能手机为例进行描述)。

举例来说，如图6所示，终端设备900的显示屏上显示视频播放界面20，视频播放界面20的宽度为W0，高度为H0。可以看到，终端设备900正以横屏方式全屏(即整个视频播放界面20作为当前视频的播放区域)播放着97版《天龙八部》的第36集，整集视频的时长为44分47秒。当前视频即可作为本申请实施例中的第一视频，在第一视频中包含“少林寺扫地僧打斗”这个情节的视频片段，这里将它作为第一视频片段，第一视频片段在第一视频中的起始位置和结束位置分别为17分23秒和22分57秒。在播放到第一视频中的第一视频片段的起始位置时(也可以在第一视频片段的起始位置之前就提示)，终端设备900提示用户是否同时观看与第一视频片段具有相同情节的其他视频片段，可以有以下几种方式：

(1)以弹幕形式提示用户。例如，如图7A所示，在视频播放界面20中出现“名场面！少林寺扫地僧打斗，其他版本也很精彩，点击选择同屏观看”的弹幕31。用户可以通过点击弹幕31确认观看。如果在弹幕31的显示时间内，未检测到用户的点击操作，则继续在视频播放界面20中播放第一视频。

(2)以对话框形式提示用户。如图7B所示，在视频播放界面20中出现对话框32，对话框32中包括“前方高能！少林寺扫地僧，其他版本也很精彩，是否同时观看？”的字样。用户可以点击对话框中的“是”，作为确认操作。同理，如果在设定显示时间内未检测到用户的确认操作或者检测到用户点击了“否”，则对话框32消失，在视频播放界面20中继续播放第一视频。

需要说明的是，除了上述两种提示用户的方式，终端设备900还可以采用其他提示方式。例如，终端设备900可以发出语音提示，询问用户是否同时观看与第一视频片段具有相同情节的其他视频片段，然后接收用户输入的语音信号，根据语音信号判断用户是否确认观看。当然，终端设备900还可以有更多其他的提示方式，具体提示内容可以有所调整，用户的操作方式也可以有多种，本申请不做具体限定。

在一种可能的实施例中，在检测第一视频的播放位置之前，发送第一视频的观看请求至视频云平台200；接收来自视频云平台200的第一视频以及第一视频片段的起始位置和结束位置；播放所述第一视频。可以理解的是，用户通过终端设备900输入观看第一视频的请求之后，终端设备900便会向视频云平台200发出第一视频的观看请求，然后接收来自视频云平台200的第一视频以及第一视频片段的起始位置和结束位置，以使得终端设备900能够检测第一视频的播放位置，然后在播放到第一视频片段处给出相应的提示，迎合了用户对同情节片段的联想心理。

S102：响应于用户的确认操作，向视频云平台200发送第一视频片段的同情节片段请求。

关于用户的确认方式，本申请实施例不做具体限定。

S103：接收来自视频云平台200的其他视频片段对应的视频、以及其他视频片段的起止时间。

其中，起止时间包括起始位置和结束位置。需要说明的是，这里的其他视频片段对应的视频和第一视频互为相关版本视频，它们包含多个具有相同情节的视频片段。多个相关版本视频与多个具有相同情节的视频片段，可以是一一对应的关系。

在可能的实施例中，终端设备900接收来自视频云平台200的部分或全部其他视频片段。也就是说，视频云平台200只是将相应的视频片段发送到终端设备900，并没有发送各视频片段对应的完整视频。

S104：将部分或全部其他视频片段和第一视频片段在同一界面上进行播放。

也就是说，将包括第一视频片段的多个具有相同情节的视频片段在同一界面播放(即同屏多画面播放)。

下面描述本申请实施例中将多个具有相同情节的视频片段在同一界面播放的方式：

如图8A所示，终端设备900的显示屏上显示有视频播放界面20，视频播放界面20的宽度为W0，高度为H0。视频播放界面20中包括第一播放区域21和第二播放区域22，第一播放区域21的宽度和高度分别为W1和H1，第二播放区域的宽度和高度分别为W2和H2，其中，0<H1≤H0，0<H2≤H0，0<W1≤W0，0<W2≤W0。在第一播放区域21中显示第一视频片段，在第二播放区域中显示第二视频中的第二视频片段，其中，第一视频与第二视频是相关版本视频，第二视频片段是与第一视频片段具有相同情节的其他视频片段。

在一种可能的实施例中，如图8A所示，第一播放区域21与第二播放区域22的大小相同，即W1＝W2且H1＝H2。

在另一种可能的实施例中，如图8B所示，第一播放区域21与第二播放区域22的大小不相同，即W1≠W2和/或H1≠H2。

在一种可能实施例中，如图8A所示，第一播放区域21与第二播放区域22呈现左右位置关系。可以理解的是，当W1+W2＝W0，H1＝H2＝H0时，第一播放区域21与第二播放区域22刚好将视频播放界面20完全填充。

在另一种可能的实施例中，如图8C所示，第一播放区域21与第二播放区域22呈现上下位置关系。

在一种可能的实施例中，第一播放区域21与第二播放区域22呈现斜对角位置关系。例如，如图8D所示，第一播放区域21位于视频播放界面20的左下角，第二播放区域22位于视频播放界面20的右上角，第一播放区域21与第二播放区域22呈现斜对角位置关系。当然，还可以有不同于图8D所示的斜对角位置关系。

在一种可能的实施例中，如图8A所示，视频播放界面20中还可以包括第三播放区域23，第三播放区域23的宽度和高度分别为W3和H3，0<H3≤H0，0<W3≤W0，在第三播放区域23中显示第三视频中的第三视频片段。第三视频与第一视频、第二视频是相关版本视频，第三视频片段是与第一视频片段、第二视频片段具有相同情节的视频片段。第一播放区域21、第二播放区域22和第三播放区域23既可以按照图8A所示的方式水平排列，也可以竖直排列，还可以按斜对角方式排列。

在一种可能的实施例中，第一播放区域21、第二播放区域22和第三播放区域23呈现图8E所示的位置关系，第一播放区域21位于视频播放界面20的左侧，而第二播放区域22和第三播放区域23均位于视频播放界面20的右侧，且二者呈现上下位置关系。可以理解的是，视频播放界面20中还可以包括更多的播放区域，在各播放区域中分别显示与第一视频片段具有相同情节的不同视频片段，各播放区域可以呈现各种不同的位置关系，为了说明书的简洁，这里不一一列出。各播放区域的大小可以是相同的，也可以是不相同的。

在可能的实施例中，可以采用黑边或者图片等填充视频播放界面20中除了各个播放区域之外的剩余区域。

在一种可能的实施例中，关闭某个播放区域后，其余播放区域的大小和位置可以自动进行调整。例如，如图8E所示，视频播放界面20中包含第一视放区域21、第二播放区域22以及第三播放区域23。当用户选择关闭第三播放区域23，视频播放界面20由图8E变化到图8B，即第三播放区域23关闭，第二播放区域22的位置从视频播放界面20的右下角变化到右侧，第一播放区域21和第二播放区域22的都有所放大，以更好地适应视频播放界面20。

在一种可能的实施例中，各播放区域之间可以有重叠。如图8D所示，第一播放区域21与第二播放区域22有部分重叠，重叠区域R为图中斜线填充的部分。

在一种可能的实施例中，各个播放区域的位置可以进行调节。以调节第一播放区域21的位置为例，参见图8F，终端设备900响应于用户的调节位置操作c1(比如长按第一播放区域21并按箭头方向拖动)，第一播放区域21从虚线描绘的第一位置21(a)调整到了第二位置21(b)。

在一种可能的实施例中，各播放区域的大小可以进行调节。以调节第一播放区域21的大小为例，参见图8G，终端设备900响应于用户的调节大小操作c2(比如长按第一播放区域21的右上角并按箭头方向拖动)，第一播放区域21从虚线描绘的第一面积21(c)变化到第二面积21(d)，第一面积21(c)与第二面积21(d)不相等。也就是说，可以通过此操作将第一播放区域21放大，也可以将第一播放区域21缩小，第一播放区域21变化前后的宽高比(W1/H1)可以是相同的，也可以是不相同的，即可以等比例放大或缩小，也可以不同于原比例。当然还可以有其他用户操作方式，比如双指拖动第一播放区域21来进行放大或缩小。

其他播放区域的操作同理，用户可以分别调节各播放区域的位置和/或大小，也可以选择关闭任意一个或多个播放区域。除了上面描述的长按拖动操作，还可以有其他用户操作方式，本申请不做具体限定。当然，终端设备900也可以根据需要播放的视频片段的个数以及视频的画面比例，自动调整各播放区域的位置和大小。在可能的实施例中，用户还可以对播放区域的个数和/或大小进行设置。

在一种可能的实施例中，可以只播放其中一个视频片段的声音，将其他视频片段静音，避免各视频片段的声音互相干扰。

在一种可能的实施例中，用户可以直接选择将某个播放区域中的视频全屏显示。

在一种可能的实施例中，若有多个具有相同情节的视频片段，可以按照对应视频的评分从高到低进行排序，将排名靠前的设定个数内的视频片段分别显示在不同播放区域中。

需要说明的是，以上实施例均以终端设备900横屏播放的情况进行描述，实际上还可以竖屏播放。如图8H所示，在竖屏播放情况下，视频播放界面20中显示有第一播放区域21以及第二播放区域22，第一播放区域21的宽度和高度分别为W1和H1，第二播放区域的宽度和高度分别为W2和H2，其中，0<H1≤W0，0<H2≤W0，0<W1≤H0，0<W2≤H0。在第一播放区域21中显示第一视频片段，在第二播放区域22中显示第二视频片段。应理解，竖屏播放情况下播放区域的个数以及各播放区域的位置、大小和调节方式等均与横屏播放情况相似，实现方式同理，为了说明书的简洁，不一一列出。

在一种可能的实施例中，多个具有相同情节的视频片段可以在同一个终端设备900的不同显示屏上播放。

在可能的实施例中，每个播放区域中均可以包括一些控件，用于对每个播放区域中播放的内容进行控制。下面以第一播放区域21中播放着第一视频为例，介绍每个播放区域中所包括的各种控件以及相关操作。

如图9A所示，第一播放区域21中包括：顶部操作栏51、底部操作栏52以及屏幕锁定控件53。

顶部操作栏51包括返回控件511、设置控件512以及其他图标(例如视频标题、电量图标以及时间图标等等)。

其中，返回控件511用于退出当前视频，可以直接关闭当前播放区域，也可以返回上一个界面。

设置控件512用于对当前视频的画面比例等进行设置，还可以在设置控件512中选择缓存、收藏以及分享当前视频等等。

底部操作栏52中包括进度条521、播放控件522、下集控件523、弹幕控件524、倍速控件525、清晰度控件526以及选集控件527。

其中，进度条521用于显示当前视频的总时长以及当前播放位置，用户还可以通过进度条521控制当前视频的播放位置。例如，如图9A所示，在进度条521的左端显示当前视频播放到了17分23秒。如图9B所示，用户长按进度条521并按照箭头方向拖动到25分23秒的位置，于是在第一播放区域21中，开始从新的位置(25:23)处播放当前视频。

播放控件522用于控制播放或者暂停当前视频。当然，用户还可以通过双击第一播放区域21等操作实现播放或暂停，本申请对此不做具体限定。

下集控件523用于切换到当前视频的下一个视频。

弹幕控件524用于控制是否开启弹幕。若弹幕控件524设置为开启状态，在第一播放区域21中会出现弹幕，用户还可以在弹幕控件524的输入栏中输入文字并发送弹幕；若弹幕控件524设置为关闭状态，第一播放区域21中不显示弹幕。当然，还可以对弹幕大小、位置、颜色、透明度等进行设置。

倍速控件525用于控制当前视频的播放速度。例如，如图9C所示，终端设备900接收用户对倍速控件525的输入操作c3(例如点击)，倍速控件525从“倍速”变为“1.5X”，当前视频开始以1.5倍速进行播放。当然，还可以调节当前视频以其他速度进行播放，比如0.5倍速，1.25倍速等等。

清晰度控件526用于选择当前视频的清晰度。例如，图9A中的选择的是“高清”，用户还可以选择以“标清”、“蓝光”等清晰度播放当前视频。

选集控件527用于选择观看第几集视频。如图9A所示，当前选择的是《天龙八部》的第36集，在顶部操作栏51中显示有当前视频的剧名及集数。

屏幕锁定控件53用于锁定屏幕，隐藏其他操作控件，避免误触。

在一种可能的实施例中，可以对当前视频进行加速操作。例如，如图9D所示，终端设备900检测到用户对第一播放区域21的长按操作c4，然后在第一播放区域21中显示加速图标5d，当前视频开始以二倍速(也可以是其他速度)加速播放。当用户结束长按操作c4，加速图标5d消失，当前视频停止加速播放，恢复原始播放速度。

可以理解的是，在各播放区域中可按照视频原本的画面比例进行播放，也可以对视频画面进行相应的拉伸，或者直接铺满整个播放区域，用户还可以对视频的画面比例进行调节。各播放区域的大小可以根据需要播放的视频数量以及视频原本的画面比例自适应地进行调节，避免视频画面拉伸变形。

应理解，用户可以分别对各个播放区域进行控制，每个播放区域的控制方式与上文所描述的第一播放区域21的操作方式相同。需要说明的是，图9A至图9D只是示例性的给出了各播放区域的示意图，各播放区域中还可以包括更多或者更少的控件，各控件可以有其他的呈现形式，用户对各个控件的操作方式也可以不同，本申请不具体限定。

在一种可能的实施例中，在将部分或全部其他视频片段和第一视频片段在同一界面上进行播放之后，该方法还包括：在播放完第一视频片段和/或其他视频片段时，终端设备900提示用户是否继续观看第一视频和/或其他视频片段对应的视频；在用户选择继续观看第一视频和其他视频对应的视频的情况下，继续播放第一视频和其他视频片段对应的视频；在用户选择观看第一视频的情况下，关闭其他视频片段对应的视频；在用户选择观看其他视频片段对应的视频的情况下，关闭第一视频。可以理解的是，提示用户是否继续观看第一视频和/或其他视频片段对应的视频，可采用类似于步骤S101中描述的方式，具体提示方式、内容和用户操作方式，本申请不做限定。

在可能的实施例中，在播放完某一个视频片段时，直接关闭该视频片段所在的播放区域，无需提示用户。其他播放区域的位置和大小可自动进行调整。

可以理解的是，上述步骤S101-S102的方法也可以通过视频应用实现，视频应用包括后台管理模块和显示模块。

可以看到，本申请实施例通过接收来自视频云平台200的第一视频以及第一视频片段的起止时间，使得在终端设备900能够在播放第一视频的过程中检测第一视频的播放位置，然后在播放到第一视频中的第一视频片段的起始位置时，提示用户是否同时观看与第一视频具有相同情节的其他视频片段，迎合了用户对同情节片段的联想心理。响应于用户的确认操作，终端设备900向视频云平台200发出请求，然后接收来自视频云平台200的其他视频片段对应的视频、以及每个其他视频片段的起止时间；然后将部分或全部其他视频片段和第一视频片段在同一界面上播放，快速实现多个具有相同情节的视频片段的同屏多画面播放，给相同情节的视频片段提供了直观的对比。而且，在播放完第一视频片段和/或其他视频片段时，提示用户是否继续观看第一视频和/或其他视频片段对应的视频，然后按照用户的选择继续播放相应的视频，提升了用户体验。

参见图10，图10是本申请实施例提供的又一种视频播放方法的流程示意图，应用于视频云平台200，该方法包括以下步骤：

S201：接收来自终端设备900的第一视频片段的同情节片段请求。

其中，第一视频片段位于第一视频中。需要说明的是，第一视频至少有一个相关版本视频，在相关版本视频中至少有一个与第一视频片段具有相同情节的其他视频片段。

在一种可能的实施例中，在接收来自终端设备900的第一视频片段的同情节片段请求之前，视频云平台200接收来自终端设备900的第一视频的观看请求；发送第一视频以及第一视频片段的起始位置和结束位置至终端设备900。也就是说，视频云平台200在接收到终端设备900的第一视频的观看请求之后，除了将第一视频发送过去，还会将第一视频中的第一视频片段的起止时间发送至终端设备900，以使终端设备900能够在播放到第一视频中的第一视频片段时，提示用户是否同时观看与第一视频片段具有相同情节的其他视频片段，迎合了用户的联想心理。

在一种可能的实施例中，在接收来自终端设备900的第一视频片段的同情节片段请求之前，该方法还包括：从多个视频中获取多个具有相同情节的视频片段，分别记录多个具有相同情节的视频片段中的每个视频片段的起始位置和结束位置，其中，第一视频是多个视频中的任意一个视频，多个具有相同情节的视频片段包括第一视频片段和所述其他视频片段。也就是说，上述多个视频是包括第一视频的多个相关版本视频，这多个视频中包括多个具有相同情节的视频片段。可以理解的是，可以通过人工方式从多个视频中识别出多个具有相同情节的视频片段，并标记上每个视频片段的起始位置和结束位置(即每个视频片段在对应视频中的起止时间)，然后将这多个视频片段关联起来，作为可同屏多画面播放的视频片段集合。多个视频可以有多个可同屏多画面播放的视频片段集合，每个可同屏多画面播放的视频集合中包括多个具有相同情节的视频片段。

在一种可能的实施例中，从多个视频中获取多个具有相同情节的视频片段，包括：从多个视频中获取多个目标类型片段，然后从多个目标类型片段中获取多个具有相同情节的视频片段。需要说明的是，由于上述多个视频是由同一故事改编而来的多个不同的影视化版本，多个视频中往往具有很多组相同情节的视频片段，但并不是任何情节的视频片段都容易引起用户的联想心理，因此，在可能的实施例中，可以先从多个视频中获取多个目标类型片段，然后再从多个目标类型片段中获取多个具有相同情节的视频片段，这样就不需要对所有的视频片段进行情节分析。目标类型片段是符合一定条件的视频片段，可认为是容易引起用户联想的片段类型，可以根据实际需求设置该条件，本申请实施例对此不做具体限定。例如，目标类型片段可包括影视剧当中的一些激烈打斗场面，这种视频片段中往往包含激昂的配乐、快速切换的镜头、冲突性很强的旁白等等，也可以包括影视剧当中的一些浪漫场面，这种视频片段中往往包含舒缓温馨的配乐、一些特定台词等等，还可以包括一些激烈的枪战片段，这种视频片段往往包含持续的枪声、快速切换的镜头等等。在本申请实施例中，可以将符合上述特性/条件的视频片段作为目标类型片段，也可以将这些目标类型片段称为精彩片段，下文将介绍通过人工智能(artificialintelligence，AI)算法或者人工标注的方式确定多个视频中的哪些视频片段属于目标类型片段。当然，也可以根据实际需要将符合其他条件的视频片段作为目标类型片段，本申请不做具体限定。

在一种可能的实施例中，从多个视频中获取多个目标类型片段，包括：对多个视频中的每个视频分别进行镜头分割，得到每个视频对应的镜头集；对每个视频的镜头集分别使用聚类算法进行镜头聚类，得到每个视频对应的视频片段集合；将视频片段集合中的每一个视频片段分别输入目标类型检测模型，得到多个目标类型片段。下面具体介绍此实施例：

首先对视频结构进行一定的介绍。图11是本申请实施例提供的一种视频结构化示意图，视频的层级结构包括视频(video)、场景(scene)、镜头(shot)和帧(frame)：

视频可以看作是一系列时间上相互依赖的图像帧组成的数据流。

帧(也可称图像帧、视频帧)是视频数据流中的基本组成单元，每一帧均可看做一幅独立的静态图像。视频数据流就是由这些连续的图像帧构成的，将时间上连续的图像帧等间隔连续播放，就形成了动态视频。比如，在逐行倒相(phase alteration line,PAL)视频格式中，视频采样率为25帧/秒，即每一秒视频当中包含25帧图像。

镜头是单个摄像机拍下的不间断的帧序列，是视频数据流进一步结构化的基础结构层，镜头不具有或者具有较弱的语义信息，强调帧序列的视觉内容相似性。比如在一个对话场景中，镜头在两个主人公之间来回切换，视频中包括第一个主人公的就是一个镜头，转到另一个人就是另一个镜头，而相邻镜头之间就是镜头边界。

场景(视频片段)是视频所蕴含的高层抽象概念和语义表示，由语义上相关和时间上相邻的若干镜头组成。一个场景中往往包含一段完整的剧情，比如，在一个对话场景中包含了两人沟通的剧情。

在本申请实施例中，视频云平台200对多个视频中的每个视频分别执行以下步骤，得到每个视频中所包含的目标类型片段：

1、镜头分割。读取当前视频，采用镜头边界检测方法对视频中的镜头边界进行检测，然后从镜头边界处将此视频分割成多个独立的镜头，即得到当前视频对应的镜头集。当前视频是上述多个视频中的任意一个视频。

镜头边界检测方法包括像素差异法、直方图边界法、块匹配法等等，本申请对镜头边界检测方法不做具体限定，下面仅以直方图边界法为例进行简单介绍。通常一个镜头内相邻帧之间的内容变化不大，直方图之间具有相似性，直方图边界法就是利用此特性去判断两帧之间是否有镜头切变。直方图边界法首先将相邻帧的像素的灰度、亮度或颜色等分成N个等级，再针对每个等级统计像素数做成直方图比较。举例来说，设视频第i帧I _i与第j帧I _j的颜色直方图分别为H _i和H _j,可按照公式(1)计算帧差d(I _i,I _j)：

其中，N为颜色量化的等级数，H _i(n)表示第i帧的第n个颜色等级的像素数，H _j(n)表示第j帧的第n个颜色等级的像素数。如果相邻两帧之间的直方图差异很大，d(I _i,I _j)超过设定阈值，则认为两帧之间发生了镜头切变，将其判定为镜头边界；如果相邻两帧之间直方图差异很小，说明没有发生镜头切变。需要说明的是，本申请对计算帧差的公式不做具体限定，公式(1)只是一种示例，还可以用其他公式进行计算。比如获取RGB图像每个通道的直方图，然后根据多个通道的直方图对相邻两帧进行比较。需要说明的是，本申请实施例不限定于对视频中相邻两帧的直方图进行比较，也可以先对视频进行抽样，对抽取到的相邻关键帧的直方图进行比较。

2、镜头聚类。采用聚类算法对当前视频对应的镜头集中的多个镜头进行镜头聚类，得到一个个的视频片段，即得到当前视频对应的视频片段集合。

聚类算法可以采用K均值(k-means)算法。具体的，先分别计算每个镜头中所有图像的平均，比如在某个镜头中有50张图像，将这50张图像的每个像素点位置取平均值，得到该镜头对应的一张平均图像。再将平均图像的尺寸调整为设定尺寸，输入到Inception-V3网络(后文介绍)中提取出该镜头对应的特征向量。然后使用k-means算法对多个镜头对应的特征向量进行聚类，将属于同一类别的特征向量对应的镜头拼接成一个视频片段。最终，当前视频被分为多个视频片段。需要说明的是，本申请对聚类算法不做具体限定，还可以使用其他聚类算法将镜头聚类为一个个的视频片段。

3、确定目标类型片段。采用目标类型检测模型分别确定当前视频的视频片段集合中的每个视频片段是否属于目标类型片段。

本申请所涉及的目标类型检测模型是基于图神经网络(graphic neural network，GNN)实现的。首先获取多个视频片段，对这些视频片段人工标注上属于目标类型或不属于目标类型的标签，得到样本集。使用样本集对图神经网络进行训练，(图神经网络模型的输入数据包括对视频片段的音频进行特征提取后得到的音频特征向量、以及对视频片段的图像帧进行特征提取后得到的图像特征向量，具体可采用相应的特征提取网络分别进行提取，然后对图像特征向量和音频特征向量进行融合，再输入图神经网络)，更新图神经网络的参数，得到所述目标类型检测模型。然后使用目标类型检测模型对未标注的视频片段进行分类，识别出目标类型片段，将被识别为目标类型片段的视频片段在原视频中的起止时间记录下来。本申请对于图神经网络的类型不做具体限定，可以是图卷积网络、图注意力网络、图自编码机、图生成网络和图时空网络中的任意一种。

在一种可能的实施例中，上述从多个目标类型片段中获取多个具有相同情节的视频片段，包括：从当前目标类型片段中提取音频、图像和字幕文本，其中，当前目标类型片段是多个目标类型片段中的任意一个目标类型片段；将当前目标类型片段的音频、图像和字幕文本分别输入音频特征提取模型、图像特征提取模型和文本特征提取模型，得到当前目标类型片段的第一音频特征向量、第一图像特征向量和第一文本特征向量；将当前目标类型片段的第一音频特征向量、第一图像特征向量和第一文本特征向量分别输入音频特征精细化模型、图像特征精细化模型和文本特征精细化模型，获得当前目标类型片段的第二音频特征向量、第二图像特征向量和第二文本特征向量；将当前目标类型片段的第二音频特征向量、第二图像特征向量和第二文本特征向量进行向量拼接，得到当前目标类型片段的融合特征向量；将当前目标类型片段的融合特征向量输入分类模型，得到当前目标类型片段的第一标签；提取当前目标类型片段的关键字，将关键字与第一标签组合得到当前目标类型片段的第二标签；将具有相同第二标签的目标类型片段作为上述多个具有相同情节的视频片段。下面具体介绍此实施例：

参见图12，图12是本申请实施例提供的一种多模态视频分析系统的架构图，该系统包括信息提取模块、特征提取模块、特征精细化模块、特征融合模块和分类模型，其中，特征提取模块包括音频特征提取模型、图像特征提取模型和文本特征提取模型，特征精细化模块包括音频特征精细化模型、图像特征精细化模型和文本特征精细化模型。对当前目标类型片段分别执行以下步骤，得到当前目标类型片段的第一标签，其中，当前目标类型片段是多个目标类型片段中的任意一个目标类型片段：

(1)先由特征提取模块从当前目标类型片段中分离出音频、图像和视频光学字符识别(video optional character recognition，OCR)字幕文本，然后由特征提取模块分别对音频、视频画面、OCR字幕文本进行特征提取，得到一系列的底层特征。比如，从视频画面中提取到的图像特征包括图像的颜色特征、纹理特征、形状特征和空间关系特征等；从音频中提取到的音频特征包括有音调特征、重要停顿等。然后将提取到的底层特征分别输入相应的特征精细化模型，得到更加高层次的特征。

具体的，如图12所示，从当前目标类型片段中提取出的音频，先输入到音频特征提取模型，得到多个第一音频特征向量。其中，音频特征提取模型可以是VGGish网络模型，VGGish是在大量的YouTube数据集上预训练得到的模型，它是一种类VGG神经网络风格的模型，支持从音频波形中提取具有语义的128维特征向量。也就是说，这里提取到的第一音频特征向量默认是128维的，当然，也可以对VGGish模型进行调整，改变输出的第一音频特征向量的维度。将提取得到的多个第一音频特征向量输入音频特征精细化模型，得到第二音频特征向量。其中，音频特征精细化模型可以是第一NetVLAD模型，在该模型中采用NetVLAD算法处理多个第一音频特征向量，得到一个更加高层次的特征，称为第二音频特征向量，它可设置为128维。NetVLAD算法是从局部聚集描述子向量(vector of locally aggregated descriptions,VLAD)算法发展来的，关于NetVLAD算法将在下文进行介绍。可以理解的是，对第一音频特征向量使用NetVLAD算法进行处理，得到的第二音频特征向量相对于第一音频特征向量更具有区分性。

如图12所示，从当前目标类型片段中提取出的图像(包含多个图像帧)，先输入图像特征提取模型得到多个第一图像特征向量，每个图像帧都有一个对应的第一图像特征向量。其中，图像特征提取模型可以采用Inception-V3网络模型，它是谷歌公司推出的一种包含卷积或相关计算且具有深度结构的前馈神经网络模型，是基于深度学习进行图像特征提取的代表算法，它支持从图像中提取出1024维的第一图像特征向量。当然，第一图像特征向量还可以设置为其他维度。将提取得到的多个第一图像特征向量输入图像特征精细化模型，得到第二图像特征向量。其中，图像特征精细化模型可以是第二NetVLAD模型，在该模型中同样采用NetVLAD算法处理多个第一图像特征向量，得到一个更加高层次的特征，称为第二图像特征向量，这里可设置为1024维。

如图12所示，首先使用OCR技术从当前目标类型片段中提取字幕文本，得到OCR字幕文本。其中，OCR技术可自动识别视频中出现的文字内容，包括字幕、弹幕以及部分自然场景文字、竖直文字和艺术字等等，在本申请实施例主要是提取字幕文本。然后将提取得到的OCR字幕文本输入文本特征提取模型，得到第一文本特征向量。其中，文本特征提取模型可以采用某种词嵌入(word embedding)算法，比如词频-逆文本频率(term frequency-inverse document frequency，TF-IDF)算法。将提取得到的多个第一文本特征向量输入文本特征精细化模型，得到第二文本特征向量。其中，文本特征精细化模型可以是第三NetVLAD模型，在该模型中采用NetVLAD算法处理多个第一文本特征向量，得到一个更加高层次的特征，称为第二文本特征向量，这里可将其设置为256维。

由上述内容可知，上述第一NetVLAD模型、第二NetVLAD模型和第三NetVLAD模型中采用的都是NetVLAD算法，但各模型中使用的NetVLAD算法的参数有所不同，参数需要从相应的样本集中学习得到。下面以图像(假设包含N个图像帧)处理为例，简单介绍一下NetVLAD算法在本申请实施例中的使用过程：

对当前目标类型片段中取出的N个图像帧分别输入Inception-V3模型，得到N个D维的第一图像特征向量x _i，其中，i∈[1,N]，x _i为第i个图像帧对应的第一图像特征向量。然后使用公式(2)将N个D维的第一图像特征向量转化K个D维特征向量V _k。

其中，K为聚类中心的个数(K可调节)，聚类中心用c _k表示，j∈[1,D]，k∈[1,K]，x _i(j)表示第i个图像帧对应的第一图像特征向量的第j个特征值，c _k(j)表示第k个聚类中心的第j个特征值。这里，w _k、b _k和c _k就是NetVLAD算法中需要通过学习得到的参数。

最后将得到的K个D维特征向量V _k求平均，得到一个D维特征向量，即第二图像特征向量。对当前目标类型片段的音频和OCR字幕文本的操作同理，分别得到第二音频特征向量和第二文本特征向量。

(2)如图12所示，将当前目标类型片段的第二音频特征向量、第二图像特征向量和第二文本特征向量输入特征融合模块进行特征融合，得到当前目标类型片段的融合特征向量。具体的，可以直接将上述三种特征向量进行向量拼接，得到一个融合特征向量。例如，提取得到的第二音频特征向量有128维，第二图像特征向量有1024维，第二文本特征向量有256维，将上述三种维度的特征向量直接拼接，得到一个1408(即128+1025+256)维的融合特征向量。需要说明的是，上文所提到的各种特征向量的维度都是可调节的，本申请实施例只是给出部分参考值，并不具体限定。

(3)如图12所示，将当前目标类型片段的融合特征向量输入分类模型中，得到当前目标类型片段属于每个预设类别的概率，然后将当前目标类型片段归到概率最大的预设类别中，得到当前目标类型片段的第一标签。关于预设类别的名称及个数，可以根据实际应用场景进行设置，本申请不做具体限定。示例性的，可以设置为打斗、枪战、争吵和吻戏这四个预设类别。

具体的，分类模型可以采用混合专家(mixture of experts，MOE)模型。MOE模型是基于多个模块的集成方法，如图13所示，该模型的需要训练多个神经网络(也就是多个专家)，不同神经网络的结构、参数等有所不同，因此它们的侧重点不同，对于同一个输入，不同神经网络所给出的预测(即属于每个预设类别的概率)可能不一样。每一个神经网络都给出一个预测，然后根据不同神经网络的权重进行加权求和计算，输出最终的预测。需要说明的是，本申请实施例对MOE模型中的多个神经网络的结构不做限制，可以是全连接神经网络，也可以是卷积神经网络等等，各神经网络的参数及权重需要通过训练获得。

通过以上步骤得到当前目标类型片段的第一标签之后，还需要获取当前目标类型片段的关键字/词，譬如人名或者地名等，然后将当前目标类型片段的关键字与第一标签组合得当前目标类型片段的第二标签。在一种可能的实施例中，可以从OCR字幕文本中提取关键字。例如，某个目标类型片段经过多模态视频分析系统的处理，得到该目标类型片段属于“打斗”类别，即第一标签为“打斗”，然后从该目标类型片段的OCR字幕文本中提取到“少林寺”、“扫地僧”这两个关键字，然后将关键字与第一标签进行组合，得到第二标签为“少林寺+扫地僧+打斗”。可以理解的是，在视频云平台200中存储的视频资源都有一些配套的元数据信息，例如，某剧的某一集会有一些配套的简介，介绍这集视频中的关键信息(比如出现哪些任务、地点，大致故事情节等等)。因此，还可以从当前目标类型片段对应的原视频的元数据信息中提取出一些关键字，将其和当前目标类型片段的第一标签组合，得到第二标签。本申请对关键字的提取方式、标签的组合方式等不做具体限制。

通过上述方法得到每个目标类型片段的第二标签之后，将具有相同第二标签(表明具有相同情节)的精彩视频片段加入到同一个集合中，该集合也就是多个视频对应的可同屏多画面播放的视频集合，同时记录集合中各视频片段在原视频中的起止时间，将这些内容作为视频信息保存起来。可以理解的是，多个视频可以有多个可同屏多画面播放的视频集合，每个可同屏多画面播放的视频集合中包括多个具有相同情节的视频片段。

实际上，在使用上述多模态视频分析系统获取目标类型片段的第二标签之前，还需要对该系统进行训练。首先获取多个目标类型片段，对它们人工标注上所属的类别，得到样本集。使用该样本集对原始的多模态分析系统进行训练，更新特征精细化模块中的三个模型以及分类模型的参数，得到本申请实施例中所使用的多模态分析系统。

在一种可能的实施例中，上述识别目标类型片段、标注各视频片段的起止时间、获取目标类型片段的第一标签或第二标签、提取关键字、构建可同屏多画面播放的视频集合等等，都可以通过人工操作来完成。也就是说，可直接由人工标注多个视频中具有相同情节的视频片段及起止时间，作为可同屏多画面播放的视频集合。

S202：将与第一视频片段具有相同情节的其他视频片段对应的视频、以及其他视频片段的起始位置和结束位置发送至终端设备900，以使终端设备900将其他视频片段和第一视频片段在同一界面上进行播放。

在一种可能的实施例中，视频云平台200发送部分或全部与第一视频片段具有相同情节的其他视频片段至终端设备900。也就是说，视频云平台200可以只发送部分其他视频片段对应的视频及相应的信息，发送的数量可以根据用户设置或者视频云平台200的设置决定。在可能的实施例中，视频云平台200可以只发送部分或全部视频片段，无需发送完整视频。

可以理解的是，如图2所示，视频云平台200可以包括视频媒资中心201和视频内容理解模块202，S201至S202中的所有实施例方法，都可以由这二者分别或者共同执行。

可以看到，本申请实施例通过将多个视频中的多个具有相同情节的视频片段预先识别并关联起来，分别记录各视频片段的起止时间，然后在终端设备900向视频云平台200发出第一视频的观看请求时，除了发送第一视频，还将第一视频中的第一视频片段的起止时间发送给终端设备900，以使终端设备900在播放到第一视频片段时，提示用户是否同时观看与第一视频具有相同情节的其他视频片段，迎合用户对同情节片段的联想心理；视频云平台200在接收到终端设备900的第一视频片段的同情节片段请求时，将与第一视频片段具有相同情节的其他视频片段对应的视频、以及其他视频片段的起止时间发送过去，以使终端设备900将部分或全部其他视频片段与第一视频片段在同一界面上(同时)播放，即实现多个具有相同情节的视频片段的同屏多画面播放，提供直观的对比，提升用户体验。

请参阅图14，图14是本申请实施例提供的又一种视频播放方法的流程示意图，用于视频播放系统，视频播放系统包括终端设备900和视频云平台200，该方法包括以下步骤：

S301：视频云平台200从多个视频中获取多个具有相同情节的视频片段，生成视频信息。

其中，多个视频是相关版本视频，多个视频与多个具有相同情节的视频片段一一对应。视频信息包括上述多个具有相同情节的视频片段中的每一个视频片段的起止时间。第一视频是多个视频中的任意一个视频，多个具有相同情节的视频片段包括第一视频片段和所述其他视频片段。关于视频云平台200如何从多个视频中获取多个具有相同情节的视频片段，此步骤与S202相同，请参见上文。

S302：终端设备900发送第一视频的观看请求至视频云平台200。

S303：视频云平台200发送第一视频及第一视频片段的起止时间至终端设备900。

其中，起止时间包括第一视频片段的在第一视频中的起始位置和结束位置。

S304：终端设备900播放第一视频，在播放到第一视频片段的起始位置时，提示用户是否同时与第一视频片段具有相同情节的其他视频片段。

关于终端设备900提示用户的方式，与的提示方式相同，请参见上文描述。

S305：终端设备900响应于用户的确认操作，向视频云平台200发送第一视频的同情节片段请求。

关于用户的确认操作，也请参见S101中的相关描述。

S306：视频云平台200发送其他视频片段对应的视频及其他视频片段的起止时间至终端设备900。

上述其他视频片段与第一视频片段具有相同的情节，源自第一视频的相关版本视频中。

S307：终端设备900将部分或全部其他视频片段和第一视频片段在同一界面上进行播放。

此步骤与步骤S102相同，这里不重复介绍。

图15是本申请实施例提供的又一种终端设备900的示意图，终端设备900包括提示模块901、发送模块902、接收模块903和显示模块904：

提示模块901，用于检测第一视频的播放位置，在播放到第一视频中的第一视频片段的起始位置时，提示用户是否同时观看与第一视频片段具有相同情节的其他视频片段；

发送模块902，用于向视频云平台发送第一视频片段的同情节片段请求；

接收模块903，用于接收来自视频云平台的其他视频片段对应的视频，以及其他视频片段的起始位置和结束位置；

显示模块904，用于将部分或全部其他视频片段和第一视频片段在同一界面上进行播放。

上述终端设备900的各个模块具体用于实现图5或图14的视频播放方法中任一实施例的方法，为了说明书的简洁，这里不再赘述。

图16是本申请实施例提供的一种装置1600的示意图，装置1600包括接收模块1601和发送模块1602：

接收模块1601，用于接收来自终端设备的第一视频片段的同情节片段请求，其中，所述第一视频片段位于第一视频中；

发送模块1602，用于将与所述第一视频片段具有相同情节的其他视频片段对应的视频、以及所述其他视频片段的起始位置和结束位置发送至所述终端设备，以使所述终端设备将部分或全部所述其他视频片段和所述第一视频片段在同一界面上进行播放。

在可能的实施例中，上述装置1600还包括处理模块1603，处理模块1603用于：从多个视频中获取多个具有相同情节的视频片段，分别记录多个具有相同情节的视频片段中的每个视频片段的起始位置和结束位置，其中，第一视频是多个视频中的任意一个视频，多个具有相同情节的视频片段包括第一视频片段和其他视频片段。

上述装置1600的各个模块具体用于实现图10或图14的视频播放方法中视频云平台200的功能，为了说明书的简洁，这里不再赘述。

本申请实施例还提供一种视频播放系统，该视频播放系统包括上述终端设备900和/或上述装置1600。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在处理器上运行时，图5、图10或图14所示的方法流程得以实现。

本申请实施例还提供一种计算机程序产品，当计算机程序产品在处理器上运行时，图5、图10或图14所示的方法流程得以实现。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本申请一种较佳实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

一种视频播放方法，其特征在于，应用于包含显示屏的终端设备，所述方法包括：

检测第一视频的播放位置，在播放到所述第一视频中的第一视频片段的起始位置时，提示用户是否同时观看与所述第一视频片段具有相同情节的其他视频片段；

响应于用户的确认操作，向视频云平台发送所述第一视频片段的同情节片段请求；

接收来自所述视频云平台的所述其他视频片段对应的视频，以及所述其他视频片段的起始位置和结束位置；

将部分或全部所述其他视频片段和所述第一视频片段在同一界面上进行播放。
根据权利要求1所述的方法，其特征在于，在所述将部分或全部所述其他视频片段和所述第一视频片段在同一界面上进行播放之后，所述方法还包括：

在播放完所述第一视频片段和/或所述其他视频片段时，提示用户是否继续观看所述第一视频和/或所述其他视频片段对应的视频；

在用户选择继续观看所述第一视频和所述其他视频片段对应的视频的情况下，继续播放所述第一视频和所述其他视频片段对应的视频；

在用户选择观看所述第一视频的情况下，关闭所述其他视频片段对应的视频；

在用户选择观看所述其他视频片段对应的视频的情况下，关闭所述第一视频。
根据权利要求1或2所述的方法，其特征在于，在所述检测第一视频的播放位置之前，所述方法还包括：

发送所述第一视频的观看请求至所述视频云平台；

接收来自所述视频云平台的所述第一视频以及所述第一视频片段的起始位置和结束位置；

播放所述第一视频。
一种视频播放方法，其特征在于，应用于视频云平台，所述方法包括：

接收来自终端设备的第一视频片段的同情节片段请求，其中，所述第一视频片段位于第一视频中；

将与所述第一视频片段具有相同情节的其他视频片段对应的视频、以及所述其他视频片段的起始位置和结束位置发送至所述终端设备，以使所述终端设备将部分或全部所述其他视频片段和所述第一视频片段在同一界面上进行播放。
根据权利要求4所述的方法，其特征在于，在所述接收来自终端设备的第一视频片段的同情节片段请求之前，所述方法还包括：

接收来自所述终端设备的所述第一视频的观看请求；

发送所述第一视频以及所述第一视频片段的起始位置和结束位置至所述终端设备。
根据权利要求4或5所述的方法，其特征在于，在所述接收来自终端设备的第一视频片段的同情节片段请求之前，所述方法还包括：

从多个视频中获取多个具有相同情节的视频片段，分别记录所述多个具有相同情节的视频片段中的每个视频片段的起始位置和结束位置，其中，所述第一视频是所述多个视频中的任意一个视频，所述多个具有相同情节的视频片段包括所述第一视频片段和所述其他视频片段。
根据权利要求6所述的方法，其特征在于，所述从多个视频中获取多个具有相同情节的视频片段，包括：

从所述多个视频中获取多个目标类型片段；

从所述多个目标类型片段中获取所述多个具有相同情节的视频片段。
根据权利要求7所述的方法，其特征在于，所述从所述多个视频中获取多个目标类型片段，包括：

对所述多个视频中的每个视频分别进行镜头分割，得到所述每个视频对应的镜头集；

对所述每个视频的镜头集分别使用聚类算法进行镜头聚类，得到所述每个视频对应的视频片段集合；

将所述视频片段集合中的每一个视频片段分别输入目标类型检测模型，得到所述多个目标类型片段。
根据权利要求7所述的方法，其特征在于，所述从所述多个目标类型片段中获取所述多个具有相同情节的视频片段，包括：

从当前目标类型片段中提取音频、图像和字幕文本，其中，所述当前目标类型片段是所述多个目标类型片段中的任意一个目标类型片段；

将所述当前目标类型片段的音频、图像和字幕文本分别输入音频特征提取模型、图像特征提取模型和文本特征提取模型，得到所述当前目标类型片段的第一音频特征向量、第一图像特征向量和第一文本特征向量；

将所述当前目标类型片段的第一音频特征向量、第一图像特征向量和第一文本特征向量分别输入音频特征精细化模型、图像特征精细化模型和文本特征精细化模型，获得所述当前目标类型片段的第二音频特征向量、第二图像特征向量和第二文本特征向量；

将所述当前目标类型片段的第二音频特征向量、第二图像特征向量和第二文本特征向量进行向量拼接，得到所述当前目标类型片段的融合特征向量；

将所述当前目标类型片段的融合特征向量输入分类模型，得到所述当前目标类型片段的第一标签；

提取所述当前目标类型片段的关键字，将所述关键字与所述第一标签组合得到所述当前目标类型片段的第二标签；

将具有相同第二标签的所述目标类型片段作为所述多个具有相同情节的视频片段。
根据权利要求9所述的方法，其特征在于，所述音频特征提取模型为VGGish网络模型，所述图像特征提取模型为Inception-V3网络模型，所述分类模型为混合专家模型，所述音频特征精细化模型为第一NetVLAD模型，所述图像特征精细化模型为第二NetVLAD模型，所述文本特征精细化模型为第三NetVLAD模型，其中，所述第一NetVLAD模型、第二NetVLAD模型和第三NetVLAD模型的模型参数不同。
一种终端设备，其特征在于，所述终端设备包括：

提示模块，用于检测第一视频的播放位置，在播放到所述第一视频中的第一视频片段的起始位置时，提示用户是否同时观看与所述第一视频片段具有相同情节的其他视频片段；

发送模块，用于向视频云平台发送所述第一视频片段的同情节片段请求；

接收模块，用于接收来自所述视频云平台的所述其他视频片段对应的视频，以及所述其他视频片段的起始位置和结束位置；

显示模块，用于将部分或全部所述其他视频片段和所述第一视频片段在同一界面上进行播放。
根据权利要求11所述的终端设备，其特征在于，所述提示模块还用于，在播放完所述第一视频片段和/或所述其他视频片段时，提示用户是否继续观看所述第一视频和/或所述其他视频片段对应的视频；

所述显示模块还用于，在用户选择继续观看所述第一视频和所述其他视频片段对应的视频的情况下，继续播放所述第一视频和所述其他视频片段对应的视频；在用户选择观看所述第一视频的情况下，关闭所述其他视频片段对应的视频；在用户选择观看所述其他视频片段对应的视频的情况下，关闭所述第一视频。
根据权利要求11或12所述的终端设备，其特征在于，所述发送模块还用于，发送所述第一视频的观看请求至所述视频云平台；

所述接收模块还用于，接收来自所述视频云平台的所述第一视频以及所述第一视频片段的起始位置和结束位置；

所述显示模块还用于，播放所述第一视频。
一种装置，其特征在于，所述装置包括：

接收模块，用于接收来自终端设备的第一视频片段的同情节片段请求，其中，所述第一视频片段位于第一视频中；

发送模块，用于将与所述第一视频片段具有相同情节的其他视频片段对应的视频、以及所述其他视频片段的起始位置和结束位置发送至所述终端设备，以使所述终端设备将部分或全部所述其他视频片段和所述第一视频片段在同一界面上进行播放。
根据权利要求14所述的装置，其特征在于，所述接收模块还用于，接收来自所述终端设备的所述第一视频的观看请求；

所述发送模块还用于，发送所述第一视频以及所述第一视频片段的起始位置和结束位置至所述终端设备。
根据权利要求14或15所述的装置，其特征在于，所述装置还包括处理模块；

所述处理模块用于，从多个视频中获取多个具有相同情节的视频片段，分别记录所述多个具有相同情节的视频片段中的每个视频片段的起始位置和结束位置，其中，所述第一视频是所述多个视频中的任意一个视频，所述多个具有相同情节的视频片段包括所述第一视频片段和所述其他视频片段。
根据权利要求16所述的装置，其特征在于，所述处理模块具体用于：

从所述多个视频中获取多个目标类型片段；

从所述多个目标类型片段中识别出所述多个具有相同情节的视频片段。
根据权利要求17所述的装置，其特征在于，所述处理模块具体用于：

对所述多个视频中的每个视频分别进行镜头分割，得到所述每个视频对应的镜头集；

对所述每个视频的镜头集分别使用聚类算法进行镜头聚类，得到所述每个视频对应的视频片段集合；

将所述视频片段集合中的每一个视频片段分别输入目标类型检测模型，得到所述多个目标类型片段。
根据权利要求17所述的装置，其特征在于，所述处理模块具体用于：

从当前目标类型片段中提取音频、视频画面和字幕文本，其中，所述当前目标类型片段是所述多个目标类型片段中的任意一个目标类型片段；

将所述当前目标类型片段的音频、视频画面和字幕文本分别输入音频特征提取模型、图像特征提取模型和文本特征提取模型，得到所述当前目标类型片段的第一音频特征向量、第一图像特征向量和第一文本特征向量；

将所述当前目标类型片段的第一音频特征向量、第一图像特征向量和第一文本特征向量分别输入音频特征精细化模型、图像特征精细化模型和文本特征精细化模型，获得所述当前目标类型片段的第二音频特征向量、第二图像特征向量和第二文本特征向量；

将所述当前目标类型片段的第二音频特征向量、第二图像特征向量和第二文本特征向量进行向量拼接，得到所述当前目标类型片段的融合特征向量；

将所述当前目标类型片段的融合特征向量输入分类模型，得到所述当前目标类型片段的第一标签；

提取所述当前目标类型片段的关键字，将所述关键字与所述第一标签组合得到所述当前目标类型片段的第二标签；

将具有相同第二标签的所述目标类型片段作为所述多个具有相同情节的视频片段。
根据权利要求19所述的装置，其特征在于，所述音频特征提取模型为VGGish网络模型，所述图像特征提取模型为Inception-V3网络模型，所述分类模型为混合专家模型，所述音频特征精细化模型为第一NetVLAD模型，所述图像特征精细化模型为第二NetVLAD模型，所述文本特征精细化模型为第三NetVLAD模型，其中，所述第一NetVLAD模型、第二NetVLAD模型和第三NetVLAD模型的模型参数不同。
一种视频播放系统，其特征在于，所述系统包括权利要求11-13中任一项所述的终端设备和/或权利要求14-20中任一项所述的装置。
一种装置，其特征在于，包括处理器、存储器和收发器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述存储器中存储的计算机程序，以使得所述装置执行如权利要求1-3中任一项所述的方法。
一种装置，其特征在于，包括处理器、存储器和收发器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述存储器中存储的计算机程序，以使得所述装置执行如权利要求4-10中任一项所述的方法。
一种计算机可读存储介质，其特征在于，包括程序或指令，当所述程序或指令在计算机设备上执行时，如权利要求1-3或4-10中任一项所述的方法被执行。