WO2020119464A1

WO2020119464A1 - 一种视频拆分方法及电子设备

Info

Publication number: WO2020119464A1
Application number: PCT/CN2019/121447
Authority: WO
Inventors: 韦文博; 郭志刚; 王有俊
Original assignee: 华为技术有限公司
Priority date: 2018-12-12
Filing date: 2019-11-28
Publication date: 2020-06-18
Also published as: EP4351152A2; EP3890332A1; EP3890332B1; US20240129600A1; US20220021950A1; EP4351152A3; CN111314775B; CN111314775A; US11902636B2; EP3890332A4

Abstract

本申请提供一种视频拆分方法及电子设备，当该方法由服务器执行时，服务器将长视频处理成多个短视频，然后终端从服务器获取短视频并播放，当该方法由终端执行时，终端从服务器获取长视频，然后将长视频处理成多个短视频并播放。其中，服务器或者终端将长视频处理成多个短视频的方法是：首先从长视频中确定每个镜头的视频开始时间点和视频结束时间点，然后从长视频对应的字幕文件中确定每个字幕片段的字幕开始时间点和字幕结束时间点；继而依据镜头所对应的字幕片段的字幕开始时间点和字幕结束时间点，调整镜头的视频开始时间点和视频结束时间点，最终根据调整之后的各个镜头的视频开始时间点和视频结束时间点，对长视频进行拆分，生成多个短视频。

Description

一种视频拆分方法及电子设备

本申请要求在2018年12月12日提交中国国家知识产权局、申请号为201811519816.X、发明名称为“一种视频拆分方法及电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及终端技术领域，尤其涉及一种视频拆分方法及电子设备。

背景技术

目前通过看英文原声的视频学习英语已经是一种较为广泛的学习手段。但是目前英文原声电影或者英文原声电视都较长，短视频的资源非常缺乏。目前通常是将长视频拆分生成短视频，这样生成的短视频可以被用户拿来进行针对性地英语学习。现有技术通常是通过字幕文件自动地将长视频拆分成多个短视频。但是这样生成的短视频存在对话的开始或者结束比较生硬的问题，用户体验效果不佳。虽然人工对长视频进行拆分可以生成更适合英语学习的短视频，但是人工成本较高。

发明内容

本申请提供一种视频拆分方法及电子设备，用以将长视频拆分成多个独立的短视频。而且这样生成的短视频，其对话开始或者结束相对平滑，不会非常突兀，提高了用户的体验。

第一方面，本申请实施例提供了一种视频拆分方法，所述方法适用于电子设备，该方法包括：从长视频中确定每个镜头的视频开始时间点和视频结束时间点；然后从长视频对应的字幕文件中确定每个字幕片段的字幕开始时间点和字幕结束时间点。针对任意一个镜头，电子设备根据镜头的视频开始时间点和视频结束时间点，确定与镜头对应的至少一个字幕片段。接着，电子设备根据至少一个字幕片段的字幕开始时间点和字幕结束时间点，对该镜头的视频开始时间点和视频结束时间点进行调整，得到调整之后的所述镜头的视频开始时间点和视频结束时间点。最终电子设备根据调整之后的各个镜头的视频开始时间点和视频结束时间点，对所述长视频进行拆分，生成多个短视频。

本申请实施例中，电子设备可以更为平滑地切分长视频，这样生成的短视频开始是通过镜头逐渐过渡到对话开始，随着该镜头的结束而结束，更加人性化，用户体验更好。

在一种可能的设计中，电子设备可以从至少一个字幕片段中确定与镜头的视频开始时间点最邻近的字幕开始时间点；以及从至少一个字幕片段中确定与镜头的视频结束时间点最邻近的字幕结束时间点；然后，从最邻近的字幕开始时间点与第一起始偏移值之间的差值，以及镜头的视频开始时间点中，选择最晚发生的时间点作为调整后的所述镜头的视频开始时间点；另外，从最邻近的字幕结束时间点与第一结束偏移值之间的和值、以及镜头的视频结束时间点中，选择最早发生的时间点作为调整后的镜头的视频结束时间点。本申请实施例中，电子设备参考字幕片段的开始和结束时间点对镜头的开始和结束时间点进行调整，可以使得镜头开始和结束地更加平滑和人性化。

在一种可能的设计中，电子设备根据镜头的视频开始时间点和视频结束时间点，确定与镜头对应的至少一个字幕片段的方式可以是：从多个字幕片段中确定与所述镜头的视频开始时间点最邻近的第一字幕开始时间点，以及从所述多个字幕片段中确定与所述镜头的视频结束时间点最邻近的第一字幕结束时间点；

将落入所述第一字幕开始时间点和所述第一字幕结束时间点之间的字幕片段、发生在所述第一字幕开始时间点所在字幕片段之前的第一相邻字幕片段、以及发生在所述第一字幕结束时间点所在的字幕片段之后的第二相邻字幕片段，确定为所述镜头对应的字幕片段。

这样确定出来的镜头对应的至少一个字幕片段可以准确地反映视频的内容。

在一种可能的设计中，一方面，电子设备可以从所述第一字幕开始时间点与第二起始偏移值之间的差值、所述第一相邻字幕片段的字幕结束时间点、以及镜头的视频开始时间点中选择最晚发生的时间点作为调整后的镜头的视频开始时间点；另一方面，电子设备从第一字幕片段的字幕结束时间点与第二结束偏移值之间的和值、第二相邻字幕片段的字幕结束时间点，以及镜头的视频结束时间点中选择最早发生的时间点作为调整后的镜头的视频结束时间点。

本申请实施例中，电子设备通过字幕内容对镜头的开始时间点和结束时间点进行调整，可以实现最终生成的短视频开始是通过镜头逐渐过渡到对话开始，随着该镜头的结束而结束，更加人性化，用户体验更好。

在一种可能的设计中，电子设备根据长视频对应的字幕文件中的每段对话的开始时间点和结束时间点，将长视频对应的字幕文件进行拆分；然后确定拆分之后每个字幕片段的字幕开始时间点和字幕结束时间点。

在另一种可能的设计中，电子设备直接根据长视频对应的字幕文件中的每段对话的开始时间点和结束时间点，确定拆分之后每个字幕片段的字幕开始时间点和字幕结束时间点，即不对字幕文件进行拆分。

在一种可能的设计中，电子设备从字幕文件获取每段对话的对话开始时间点和对话结束时间点；然后从所述字幕文件的第一段对话开始执行如下操作：

将第一段对话的对话开始时间点作为首个字幕片段的字幕开始时间点；计算第一段对话的对话开始时间点向后推移固定时长所得到分割时间点，若分割时间点落在所述字幕文件的一段对话中，则确定字幕文件的一段对话的对话结束时间点为该首个字幕片段的字幕结束时间点。否则，选择该分割时间点之前相邻的对话的对话结束时间点为所述首个字幕片段的字幕结束时间点。依次将前一个字幕片段的字幕结束时间点之后的首个对话作为当前对话，对当前对话执行如下操作：计算当前对话的对话开始时间点向后推移固定时长所得到分割时间点；若该分割时间点落在一段对话中，则确定该一段对话的对话结束时间点为当前字幕片段的字幕结束时间点。本申请实施例中，电子设备通过上述方法所确定的字幕起始和结束时间点相对比较平滑，有助于对镜头的起始和技术时间点的调整。

在一种可能的设计中，在所述电子设备生成多个短视频之后，还包括：

针对任意一个短视频，根据所述短视频的视频开始时间点和视频结束时间点，确定与所述短视频对应的至少一个字幕片段；若所述至少一个字幕片段的总时长占所述短视频的总时长的比例大于设定阈值，则保存所述短视频，否则舍弃。本申请实施例中，通过上述方法可以舍弃对话过短无法用于英语学习的短视频，有助于提高短视频的可用性。

在一种可能的设计中，在所述电子设备生成多个短视频之后，还包括：针对任意一个短视频执行如下操作：

将所述短视频中的序列帧图像划分成至少两个部分，并从每个部分中抽取N帧图像进行场景识别，将每个部分的N帧图像的场景识别结果进行选举，将出现次数最多的场景识别结果作为该部分的标签信息，其中，N为大于等于1的正整数；然后将所述至少两个部分的标签信息进行选举，将出现次数最多的标签信作为所述短视频的标签信息。

本申请实施例中，用户可以上述方法生成的标签信息检索到自己所需要的短视频，以准确地满足用户的学习需求。

第二方面，本申请实施例提供一种电子设备，包括处理器和存储器。其中，存储器用于存储一个或多个计算机程序；当存储器存储的一个或多个计算机程序被处理器执行时，使得该电子设备能够实现上述任一方面的任意一种可能的设计的方法。

第三方面，本申请实施例还提供一种装置，该装置包括执行上述任一方面的任意一种可能的设计的方法的模块/单元。这些模块/单元可以通过硬件实现，也可以通过硬件执行相应的软件实现。

第四方面，本申请实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质包括计算机程序，当计算机程序在电子设备上运行时，使得所述电子设备执行上述任一方面的任意一种可能的设计的方法。

第五方面，本申请实施例还提供一种包含计算机程序产品，当所述计算机程序产品在终端上运行时，使得所述电子设备执行上述任一方面的任意一种可能的设计的方法。

本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

图1为本申请实施例提供的一种互联场景示意图；

图2为本申请实施例提供的一种服务器的结构示意图；

图3为本申请实施例提供的一种电子设备内部结构示意图；

图4为本申请实施例提供的安卓操作系统结构示意图；

图5为本申请实施例提供的一种视频拆分方法流程示意图；

图6为本申请实施例提供的一种字幕拆分方法流程示意图；

图7a至图7b为本申请实施例提供的一种应用方式示意图；

图7c为本申请实施例提供的一种应界面示意图；

图8为本申请实施例提供的一种视频拆分装置示意图。

具体实施方式

为了便于理解，示例的给出了部分与本申请实施例相关概念的说明以供参考。如下所示：

字幕文件一般是独立于影音文件的单独的文件，并且具有特定的文件格式(例如SRT、SSA、ASS、SUP等)。字幕文件包括时间信息和文本信息，其中，时间信息能够保证字幕文件可以和影音文件数据流合并显示。因此，影音文件和字幕文件进行播放的过程中，可以根据各自包含的时间信息之间的对应关系(如影音文件与字幕内容属性中的时间戳一致)，以及字幕显示参数属性，将影音数据和字幕内容叠加在一起进行播放。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。其中，在本申请实施例的描述中，以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

本申请实施例提供的图像处理方法可以应用于如图1所示的通信架构。该通信架构包括：多个终端100和服务器200。例如，服务器200可以将长视频处理成多个短视频，终端100可以从服务器200获取短视频，然后播放该短视频；或者是终端100从服务器200获取长视频，将长视频处理成多个短视频，然后播放该短视频。

其中，终端100和服务器200之间可以通过通信网络互联，该通信网络可以是局域网，也可以是通过中继(relay)设备转接的广域网。当该通信网络为局域网时，示例性的，该通信网络可以是wifi热点网络、wifi P2P网络、蓝牙网络、zigbee网络或近场通信(near field communication，NFC)网络等近距离通信网络。当该通信网络为广域网时，示例性的，该通信网络可以是第三代移动通信技术(3rd-generation wireless telephone technology，3G)网络、第四代移动通信技术(the 4th generation mobile communication technology，4G)网络、第五代移动通信技术(5th-generation mobile communication technology，5G)网络、未来演进的公共陆地移动网络(public land mobile network，PLMN)或因特网等。在图1所示的场景中，不同电子设备之间可以通过通信网络交互数据，例如交互图片、文本、视频，或者交互电子设备对图片、文本或视频等对象处理后的结果。

具体的，一种场景下，若服务器200可以将长视频处理成多个短视频，服务器200可以为存储有长视频和字幕文件的服务器或者云服务器。图2示出的是与本申请各实施例相关的服务器200的部分结构的框图。

如图2所示，该服务器200可以包括：包括处理器201、存储器202以及收发器203。其中一个或多个计算机程序被存储在上述存储202中并被配置为被该一个或多个处理器201执行。

处理器201，可以是中央处理单元(central processing unit，CPU)，或者为数字处理单元等，处理器201是服务器200的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器202内的计算机程序，以及调用存储在存储器202内的视频和字幕文件等数据，执行服务器200的各种功能和视频处理。

其中，处理器201从长视频中确定每个镜头的视频开始时间点和视频结束时间点，然后将长视频对应的字幕文件进行拆分，生成多个字幕片段，所述字幕片段包括所述字幕开始时间点和字幕结束时间点。针对任意一个镜头，根据所述镜头的视频开始时间点和视频结束时间点，确定与所述镜头对应的至少一个字幕片段；根据所述至少一个字幕片段的字幕开始时间点和字幕结束时间点，对该镜头的视频开始时间点和视频结束时间点进行调整，得到调整之后的所述镜头的视频开始时间点和视频结束时间点，根据调整之后的各个镜头的视频开始时间点和视频结束时间点，对所述长视频进行拆分，生成多个短视频。

收发器203，用于将处理器201生成的短视频发送至终端100。

本申请实施例中不限定上述处理器201以及存储器202之间的具体连接介质。本申请实施例在图2中以存储器202、处理器201以及收发器203之间通过总线204连接，总线在图2中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图2中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器202可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器203也可以是非易失性存储器(non-volatile memory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器202是能够用于携带或存储具有指令或数据结构形式的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器202可以是上述存储器的组合。

具体的，另一种场景下，若终端100从服务器200获取长视频，将长视频处理成多个短视频，然后播放该短视频。终端100可以是还包含其他功能诸如个人数字助理和/或音乐播放器功能的便携式电子设备，诸如手机、平板电脑、具备无线通讯功能的可穿戴设备(如智能手表)等。便携式电子设备的示例性实施例包括但不限于搭载

或者其他操作系统的便携式电子设备。上述便携式电子设备也可以是其他便携式电子设备，诸如具有触敏表面(例如触控面板)的膝上型计算机(laptop)等。下面以终端100为手机为例进行说明，图3示出的是与本申请各实施例相关的终端100的部分结构的框图。

如图3所示，终端100为手机，该手机可以包括处理器110，外部存储器接口120，内部存储器121，USB接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及SIM卡接口195等。

可以理解的是，本发明实施例示意的结构并不构成对终端100的具体限定。在本申请另一些实施例中，终端100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processing unit，GPU)，图像信号处理器(image signal processor,ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor,DSP)，基带处理器，和/或神经网络处理器(Neural-network Processing Unit,NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。本申请实施例中，处理器110用于获取长视频中的各个镜头的视频开始时间点和视频结束时间点，并根据与镜头对应的字幕片段的字幕开始时间点和字幕结束时间点，调整镜头的视频开始时间点和视频结束时间点进行调整，得到调整之后的所述镜头的视频开始时间点和视频结束时间点，最终根据调整之后的各个镜头的视频开始时间点和视频结束时间点，对所述长视频进行拆分，生成多个短视频。

其中，控制器可以是终端100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口，集成电路内置音频(inter-integrated circuit sound,I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purpose input/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

终端100的无线通信功能可以通过天线模块1，天线模块2移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。终端100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将蜂窝网天线复用为无线局域网分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在终端100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(Low Noise Amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在终端100上的包括无线局域网(wireless local area networks，WLAN)，蓝牙(bluetooth,BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication,NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。本申请实施例中，终端100通过无线通信模块160从服务器200获取长视频和字幕文件等数据。

在一些实施例中，终端100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得终端100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(code division multiple access，CDMA)，宽带码分多址(wideband code division multiple access,WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution,LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidou navigation satellite system,BDS)，准天顶卫星系统(quasi-zenith satellite system，QZSS))和/或星基增强系统(satellite based augmentation systems，SBAS)。

终端100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。本申请实施例中，终端100通过GPU，显示屏194，以及应用处理器等实现对短视频的播放显示。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用 LCD(liquid crystal display，液晶显示屏)，OLED(organic light-emitting diode,有机发光二极管)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的,AMOLED)，柔性发光二极管(flex light-emitting diode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot light emitting diodes，QLED)等。在一些实施例中，终端100可以包括1个或N个显示屏，N为大于1的正整数。

终端100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，终端100可以包括1个或N个摄像头，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当终端100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。终端100可以支持一种或多种视频编解码器。这样，终端100可以播放或录制多种编码格式的视频，例如：MPEG1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network,NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现终端100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展终端100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行终端100的各种功能应用以及数据处理。存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储终端100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

终端100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。终端100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当终端100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。终端100可以设置至少一个麦克风170C。在另一些实施例中，终端100可以设置两个麦克风，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，终端100还可以设置三个，四个或更多麦克风，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。本申请实施例中，麦克风170C可以用于采集用户的语音，例如第一用户的第一语言的第一语音。

本申请实施例以分层架构的Android系统为例，示例性说明终端100的软件结构。

图4是本发明实施例的终端100的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图4所示，应用程序包可以包括电话、相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(application programming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图4所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供终端100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如：MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

现有技术中通常是将长视频拆分成多个短视频，利用短视频进行英语学习。目前对长视频进行拆分的方式大部分是使用人工的方式，人工的方式容易出错，而且人力成本也比较高。除此之外，目前还有利用字幕文件对长视频进行拆分，也就是取字幕片段的开始时间为短视频的开始时间，取字幕片段的结束时间为短视频的结束时间，这样生成短视频可能的效果是对话结束，镜头画面虽然还在进行中但也被迫突然结束。例如长视频中Steve说完“see you again.”后还在挥手致意，但按照上述方法截取的短视频可能是到Steve说完再见就结束了，不再包括Steve挥手致意的画面。可见现有技术生成的短视频存在对话的开始或者结束比较生硬的问题，用户体验效果不佳。

为了解决上述问题，本申请实施例中，一方面，通过长视频中每个镜头的视频开始时间点和与之对应的字幕片段的字幕开始时间点，确定短视频的视频开始时间点；另一方面，通过长视频中该镜头的视频结束时间点和与之对应的字幕片段的字幕结束时间点，确定该短视频的视频结束时间点，这样最终完成将长视频拆分成多个独立的短视频。而且这样生成的短视频对话开始或者结束地相对平滑，不会非常突兀，提高了用户的体验。

以下将结合附图和应用场景，对本申请实施例提供的视频拆分方法进行详细介绍。

参见图5，示例性的示出了本申请实施例提供的一种视频拆分方法的流程，以下实施例以该方法是由服务器执行进行举例说明，该方法包括如下步骤。

步骤301，服务器从长视频中确定每个镜头的视频开始时间点和视频结束时间点。

其中，长视频是按照开始播放时间点的先后顺序组成的序列帧。例如长视频是电影《泰坦尼克号》的视频资源。假如说《泰坦尼克号》的视频资源中有100多个镜头切换，服务器可以将《泰坦尼克号》的视频资源中的每个镜头的视频开始时间点和视频结束时间点记录下来，得到如表1所示的多个镜头的信息。

表1

其中，在表1中，片段号为1的镜头的视频开始时间点为00:05:18:266，视频结束时间点为00:06:00:120；片段号为2的镜头的视频开始时间点为00:06:00:121，视频结束时间点为00:06:58:990；片段号为3的镜头的视频开始时间点为00:06:58:991，视频结束时间点为00:07:13:378。

需要说明的是，服务器是按照预设方式将长视频中的镜头进行拆分。其中预设方式可以是基于像素域的方法中的像素域法、直方图法、块匹配法或边缘变化法等，也可以是基于压缩域的方法中的离散余弦变换(Discrete Cosine Transform，DCT)系数法、小波变换法、时空分析法、矢量量化法或运动矢量法等。本申请实施例对此并不做具体的限定。

步骤302，服务器从所述长视频对应的字幕文件中确定每个字幕片段的字幕开始时间点和字幕结束时间点。

方式一，服务器可以以固定时长为参考值，直接将长视频的字幕文件拆分成多个字幕片段。例如，服务器将电影《泰坦尼克号》的字幕文件进行拆分，得到多个字幕片段。假如说《泰坦尼克号》的字幕文件共有3000秒左右的时长，服务器可以以固定时长30s为参考值，将《泰坦尼克号》的字幕文件拆分出大概100个字幕片段。如表2所示。

表2

其中，在表2中，片段号为1的字幕片段的字幕开始时间点为00:05:20:223，字幕结束时间点为00:05:50:223。片段号为2的字幕片段的字幕开始时间点为00:06:30:556，字幕结束时间点为00:07:00:556。片段号为3的字幕片段的字幕开始时间点为00:07:12:552，字幕结束时间点为00:07:42:552。

方式二，在上述方式一中，服务器按照固定时长30s拆分得到的字幕片段的字幕结束时间点可能不是一段对话的结束时间点，会影响最终生成的短视频的对话完整性，因此服务器在完成方式一所示的方法步骤之后，可以进一步根据字幕文件中每段对话的开始时间点和结束时间点调整字幕片段的字幕开始时间点和字幕结束时间点，使得每个字幕片段的字幕开始时间点为一段对话的开始时间点，该字幕片段的字幕结束时间点为该段对话或者另一段对话的结束时间点。例如，表2中的字幕开始时间点和字幕结束时间点按照上述方法调整之后，的字幕片段的时间信息如表3所示。

表3

其中，在表3中，片段号为1的字幕片段的字幕开始时间点为00:05:20:223，字幕结束时间点为00:06:01:123。片段号为2的字幕片段的字幕开始时间点为00:06:30:556，字幕结束时间点为00:06:57:887。片段号为3的字幕片段的字幕开始时间点为00:07:12:552，字幕结束时间点为00:07:46:338。

方式三，服务器也可以不对字幕文件进行拆分，仅根据固定时长和字幕文件中每段对话的开始时间点和结束时间点，记录每个字幕片段的字幕开始时间点和字幕结束时间点。例如，服务器获取电影《泰坦尼克号》的字幕文件的每个对话的开始时间点和结束时间点，以30s为固定时长，并参考字幕文件中每段对话的开始时间点和结束时间点，依次累加计算出每个字幕片段的字幕开始时间点和字幕结束时间点，最终生成包括每个字幕片段对应的时间信息的表格，具体计算过程参见下文图6所示的具体过程。

需要说明的是，服务器可以先执行步骤301，再执行步骤302，也可以先执行步骤302，再执行步骤301，或者服务器同时执行步骤301和步骤302，本申请实施例对此并不做具体限定。

步骤303，针对长视频中的任意一个镜头，服务器根据该镜头的视频开始时间点和视频结束时间点，确定与该镜头对应的至少一个字幕片段。

其中，与镜头对应的至少一个字幕片段包括字幕文件中的至少一段对话。也就是说，如果与镜头对应的是一个字幕片段，则该字幕片段包括一段或者多段对话；如果与镜头对应的是两个字幕片段，那么这两个字幕片段可能合起来包括一段对话。

示例性地，以表1中的片段号为2的镜头为例，服务器根据片段号为2的镜头的视频开始时间点和视频结束时间点，确定落在[00:06:00:121,00:06:58:990]时段内的字幕文件的片段号为2。服务器确定与片段号2相邻的字幕文件的片段号为片段号1和片段号3。进而服务器确定出与片段号为2的镜头对应的字幕片段分别是：片段号1对应的字幕片段、片段号2对应的字幕片段的和片段号3对应的字幕片段。

需要说明的是，有可能一个镜头同时对应多个字幕片段，也有可能多个镜头均对应相同的字幕片段。例如一个镜头的总时长是70s，假设落在该70s时长内的字幕片段有两个，再加上前后相邻的字幕片段，一个镜头就对应四个字幕片段；也有可能一个镜头的时长是15秒，而包括该镜头的时长的字幕片段的总时长为40s，该镜头和另一个相邻的镜头都对应该字幕片段。也就是说，本申请实施例中，镜头与字幕片段之间可能存在一对多，或者多对一、多对多的对应关系。

步骤304，服务器根据至少一个字幕片段的字幕开始时间点和字幕结束时间点，对该镜头的视频开始时间点和视频结束时间点进行调整，得到调整之后的镜头的视频开始时间点和视频结束时间点。

具体的，方式一，服务器可以从该至少一个字幕片段中确定与镜头的视频开始时间点最邻近的字幕开始时间点；以及从该至少一个字幕片段中确定与镜头的视频结束时间点最邻近的字幕结束时间点。

然后，服务器一方面从所述最邻近的字幕开始时间点与第一设定偏移值之间的差值，以及所述镜头的视频开始时间点中，选择最晚发生的时间点作为调整后的所述镜头的视频开始时间点；另一方面从所述最邻近的字幕结束时间点与第二设定偏移值之间的和值、以及所述镜头的视频结束时间点中，选择最早发生的时间点作为调整后的所述镜头的视频结束时间点。

也就是说，假设片段号为2的镜头对应的字幕片段分别是：片段号1对应的字幕片段、片段号2对应的字幕片段的和片段号3对应的字幕片段，服务器从中确定出与镜头的视频开始时间点00:06:00:121作为最邻近的字幕开始时间点00:06:30:556，以及确定出与镜头的视频结束时间点00:06:58:990作为最邻近的字幕结束时间点00:07:00:556。继而，服务器从字幕开始时间点00:06:30:556与第一起始偏移值的差值、以及片段号2对应的镜头的视频开始时间点中，选择最晚发生的时间点作为调整后的视频开始时间点。例如，第一起始偏移值为3s，MAX(00:06:30:556–00:00:03:000，00:06:00:121)＝00:06:27:556。因此调整后的视频开始时间点为00:06:27:556。另外，服务器从字幕结束时间点00:07:00:556与第一结束偏移值的和值、片段号2对应的镜头的视频结束时间点中，选择最早发生的时间点作为调整后的视频结束时间点。例如MIN(00:06:57:887+3，00:06:58:990)＝00:06:58:990。因此调整后的视频结束时间点为00:06:58:990。

方式二，服务器可以根据如下公式一和公式二，计算得到最终短视频的视频开始时间点和视频结束时间点。

CB_START＝MAX(Sub-B_START-CONTEXT_DELAY_IN，PREV_DIALOG_END，SB_START)……..公式一

其中，CB_START为短视频的视频开始时间点，Sub-B_START为字幕片段中字幕开始时间点，CONTEXT_DELAY_IN为第二起始偏移值，PREV_DIALOG_END为上一个字幕片段的字幕结束时间点，SB_START为镜头的视频开始时间点。

CB_END＝MIN(Sub-B_END+CONTEXT_DELAY_OUT，NEXT_DIALOG_START，SB_END)……..公式二

其中，CB_END为短视频的视频结束时间点，Sub-B_END为字幕片段中字幕结束时间点，CONTEXT_DELAY_OUT为第二结束偏移值，NEXT_DIALOG_START为下一个字幕片段的开始时间点，SB_END为镜头的视频结束时间点。

举例来说，假设片段号为2的镜头对应的字幕片段分别是：片段号1对应的字幕片段、片段号2对应的字幕片段的和片段号3对应的字幕片段，第二偏移值和第二结束偏移值均为3秒。一方面，服务器根据表1和表3，从片段号2对应的字幕片段的字幕开始时间点与偏移值的差值、片段号1对应的字幕片段的字幕结束时间点、以及片段号2对应的镜头的视频开始时间点中选择最晚发生的时间点作为调整后的视频开始时间点。例如MAX(00:06:30:556–00:00:03:000，00:06:01:123，00:06:00:121)＝00:06:27:556。

另一方面，服务器从片段号为2对应的字幕片段的字幕结束时间点与偏移值的和值、片段号3对应的字幕片段的字幕结束时间点，片段号2对应的镜头的视频结束时间点中选择最早发生的时间点作为调整后的视频结束时间点。例如MIN(00:06:57:887+3，00:07:12:552，00:06:58:990)＝00:06:58:990。因此可以得出最终该片段号为2的镜头的视频开始时间点和视频结束时间点如表4所示。

表4

步骤305，服务器根据调整之后的各个镜头的视频开始时间点和视频结束时间点对长视频进行拆分，生成多个短视频。

比如说，服务器按照表4中的视频开始时间点和视频结束时间点对电影《泰坦尼克号》的视频资源进行拆分，生成[00:06:27:556,00:06:58:990]时长对应的短视频。当服务器按照上述步骤生成了短视频之后，终端可以根据用户的指令，向用户发送调用请求，然后从服务器获取对应的短视频，然后在终端上播放。

另外，与表4中的片段号2的短视频时间点相对应的字幕片段是字幕片段2。这样，服务器最终生成的短视频可以既包括[00:06:27:556,00:06:58:990]时长对应的视频内容，也包括[00:06:30:556,00:06:57:887]时长对应的字幕片段的对话内容。这样生成的短视频开始是通过镜头逐渐过渡到对话开始，当对话结束时视频也不是马上结束，而是随着该镜头的结束而结束，更加人性化，用户体验更好。

在一种可能的设计中，若一个短视频中的字幕片段中的对话时长过短，例如10分钟的短视频中对话只有5秒或者只有10秒，则该短视频极有可能起不到用于英语学习的目的，因此本申请实施例可以在步骤304之后，可以进一步判断与短视频对应的字幕片段的时长，若该时长低于短视频总时长的设定比例，例如低于总时长的70％，则舍弃该短视频。否则则保存该短视频。这样生成的短视频更有助于英语学习。

在一种可能的设计中，在步骤302的方式二和方式三的实现方法中，服务器可以依照图6所示的方法流程确定每个字幕片段的字幕开始时间点和字幕结束时间点，具体步骤如下。

步骤401，服务器获取字幕文件中每段对话的对话开始时间点和对话结束时间点。

例如，表5是《泰坦尼克号》的字幕文件的部分内容，其中，第一段对话的对话开始时间点是00:01:56,350，对话结束时间点是00:01:58,900，第二段对话的对话开始时间点是00:02:12,000，对话结束时间点是00:02:14,500，第三段对话的对话开始时间点是00:02:16,120，对话结束时间点是00:02:17,500，依次类推。

表5

步骤402，服务器对字幕文件的第一段对话开始执行如下操作：将第一段对话的对话开始时间点作为首个字幕片段的字幕开始时间点，计算字幕开始时间点向后推移固定时长所得到分割时间点。

步骤403，判断该分割时间点是否落在字幕文件的一段对话中，若是，则执行步骤304，否则执行步骤305。

步骤404，若该分割时间点落在字幕文件的一段对话中，则确定该字幕文件的一段对话的对话结束时间点为该字幕片段的字幕结束时间点。

步骤405，若该分割时间点未落在一段对话中，则选择该分割时间点之前相邻的对话的对话结束时间点为该字幕片段的字幕结束时间点。

步骤406，生成首个字幕片段。

步骤407，返回对首个字幕片段的字幕结束时间点之后的首个对话重新执行上述操作，直至所述字幕文件的最后一段对话。

示例性地，表5中第一段对话的对话开始时间点00:01:56,350为字幕片段的开始时间点，假设固定时长为30s，那么第一段对话的对话开始时间点向后推移30s所得到分割时间点为00:02:26,350，该分割时间点未落在对话中，因此选择分割时间点之前相邻的第4段对话的对话结束时间点00:02:19,830为该字幕片段的字幕结束时间点。

需要说明的是，在一种可能的设计中，本申请实施例还可以对上述步骤生成的短视频进行场景识别，生成与镜头对应的标签信息，例如场景标签、字幕标签、段落号码等信息。具体地，针对每个短视频，服务器将该短视频拆分成多个部分，并从每个部分中抽取多帧图像。然后服务器对抽取出来的多帧图像进行场景识别，并将场景识别结果中的出现次数最多的标签信息作为该短视频的标签信息。最终，服务器除了生成短视频，还保存有短视频和标签信息的对应关系。这样，以便于服务器检索出用户所需要的短视频。

示例性地，以片段2对应的短视频为例，将该短视频中的序列帧图像按照时间顺序拆分为5个部分，再从每个部分中抽取20帧图像。针对每个部分的20帧图像按照如下三个维度进行场景识别，生成每帧图像的标签信息。其中，三个维度分别是：第一维度是画面中物体所处的环境：室内、室外、其它；第二维度室内的具体类型，例如家、餐厅、会议室、博物馆、学校、飞机、打车、轮船等，以及室外的具体类型，例如街道、景区、公园、农场等，本申请实施例中第二维度目前大概细分为69个类型；第三维度是画面中出现的具体物体，例如餐桌、咖啡杯、衣服、鞋子、领带、座椅等，本申请实施例中第三维度目前大概细分为360种类型。

可见，上述针对每个部分的20帧图像进行场景识别，本质是由“粗”到“细”的层级化处理。这样，服务器就可以对第一部分的20帧图像按照上述方法识别出来的标签信息进行选举，选举最多次数出现的标签信息作为该部分的标签信息。例如服务器选举出来该部分第一维度的标签信息是室内，第二维度的标签信息是客房内，第三维度的标签信息是茶杯。依次类推，服务器确定出来其余四个部分的标签信息，然后将这5个部分的标签按照相同的方式选举次数最多标签信息作为该短视频的标签信息。

另外，在一种可能的设计中，本申请实施例中服务器还可以对与短视频对应的字幕片段的内容进行归纳，生成与该短视频对应的内容描述。举例来说，假设与短视频对应的字幕片段是表4中第1段对话至第4段对话，则，服务器对这四段对话进行归纳总结可以生成“和平二号船出现”的字幕标签。或者，在其它可能的设计中，本申请实施例中服务器还可以用短视频对应的字幕片段的关键字或词组、或者短语，生成与该短视频对应的字幕标签。例如，假设与短视频对应的字幕片段中包括英文单词“check”，则服务器可以用英文“check”作为该短视频的字幕标签。当用户输入关键词“check”，则服务器可以检索到该短视频。再比如假设与短视频对应的字幕片段中包括短语“a lot of”，则服务器可以用英文“a lot of”作为该短视频的字幕标签。当用户输入短语“a lot of”，则可以检索到该短视频。

需要说明的是，上述图5和图6所示的方法也可以由终端执行，也就是说上述方法中的执行主体服务器也可以替换为终端。当上述方法由终端执行时，终端可以先从服务器获取长视频和长视频对应的字幕文件，然后终端从长视频中确定每个镜头的视频开始时间点和视频结束时间点，以及执行后续步骤。具体地执行方法与上述图5和图6中方法步骤相同，在此不再重复赘述。

在一种应用场景下，如图7a所示，基于上述视频拆分方法，开发人员可以将该视频拆分方法所对应的计算机程序(或者称为算法)集成在服务器侧的配置工具中，开发人员或者管理员可以执行往该配置工具中导入一个或者多个长视频的操作，然后服务器调用该视频拆分方法所对应的计算机程序，从而输出多个短视频。

进一步的，生成的短视频可以保存在服务器侧，当终端向服务器发出请求时，服务器再将对应的短视频发送至终端侧。具体地，如图7b所示，当终端用户操作终端上的视频应用客户端时，终端显示包括短视频列表的界面，假设终端检测到用户在该界面的搜索框输入关键词，或者检测到用户点击该界面上的场景标签控件的操作时，终端向服务器发送了查找请求，其中，查找请求中包括关键词所对应的字幕标签，或者场景标签控件对应的场景标签，因服务器侧在生成短视频的同时，保存有该短视频标识与字幕标签或者场景标签的关联关系，因此服务器可以根据该关联关系查找到对应的短视频标识，然后将该短视频标识所对应的短视频发送至终端。进而，终端在界面上显示搜索出来的短视频的缩略信息，若终端检测到用户的播放操作，则选择播放该短视频。

举例来说，当用户登录视频应用客户端进入视频首页时，终端可以显示如图7c所示的首页界面，用户可以通过在搜索框控件501输入单词“check”，当终端检测到用户的搜索指令时，则向服务器发送包括字幕标签为“check”的查找请求，继而服务器查找出该字幕标签“check”对应的短视频，并向终端返回该短视频信息，继而终端显示包括“check”的短视频的缩略图信息，若终端检测到用户的播放操作，则选择播放该短视频。

再比如说，用户可以操作图7c所示界面上的场景标签“餐厅”控件701，当终端检测到用户的触控指令时，向服务器发送包括场景标签为“餐厅”的查找请求，继而服务器查找出该场景标签为“餐厅”对应的短视频，并向终端返回该短视频信息，继而终端显示包括该短视频的缩略图信息，若终端检测到用户的播放操作，则选择播放该短视频。可见这样检索得到短视频更加准确地满足用户的学习需求。

本申请实施例还提供一种视频拆分装置，该视频拆分装置可以集成在服务器200中，也可以集成在终端100中，如图8所示，该装置中包括接收模块701、镜头识别模块702、字幕片段识别模块703、运算模块704、发送模块705。

其中，若视频拆分装置集成在服务器200中，接收模块701可以用于接收管理员或者开发人员传入的长视频和字幕文件，或者管理员或者开发人员向接收模块701所提供的接口传入包括长视频文件地址和字幕文件地址的输入参数，视频拆分装置的接收模块701根据长视频文件地址和字幕文件地址，获取对应的长视频和字幕文件。示例性地，图8中的接收模块701可以通过图2中的收发器203来实现。若视频拆分装置集成在终端100中，接收模块701可以用于接收服务器发送的长视频和字幕文件，示例性地，图8中的接收模块701可以通过图3中的移动通信模块150或者无线通信模块160来实现。需要说明的是，本申请对图8中单元模块的具体实现

镜头识别模块702，用于从长视频中确定每个镜头的视频开始时间点和视频结束时间点。具体地，镜头识别模块702可以用于执行如图5所对应的实施例中的步骤301，图5方法实施例涉及的相关内容均可以援引到该镜头识别模块702的功能描述，在此不再赘述。示例性地，图8中的镜头识别模块702可以通过图2中的处理器201来实现，或者可以通过图3中的处理器110来实现。

字幕片段识别模块703，用于从长视频对应的字幕文件中确定每个字幕片段的字幕开始时间点和字幕结束时间点。具体地，字幕片段识别模块703可以用于执行如图5所对应的实施例中的步骤302，图5和图6方法实施例涉及的相关内容均可以援引到该字幕片段识别模块703的功能描述，在此不再赘述。示例性地，图8中的字幕片段识别模块703可以通过图2中的处理器201来实现，或者可以通过图3中的处理器110来实现。

运算模块704，用于针对任意一个镜头，根据镜头的视频开始时间点和视频结束时间点，确定与镜头对应的至少一个字幕片段。然后根据所述至少一个字幕片段的字幕开始时间点和字幕结束时间点，对该镜头的视频开始时间点和视频结束时间点进行调整，最终得到调整之后的所述镜头的视频开始时间点和视频结束时间点；并根据调整之后的各个镜头的视频开始时间点和视频结束时间点，对长视频进行拆分，生成多个短视频。具体地，运算模块703可以用于执行如图5所对应的实施例中的步骤303至步骤305，图5方法实施例涉及的相关内容均可以援引到该运算模块704的功能描述，在此不再赘述。示例性地，图8中的运算模块704可以通过图2中的处理器201来实现，或者可以通过图3中的处理器110来实现。

若视频拆分装置集成在服务器200中，发送模块705，用于根据终端的短视频请求消息，将短视频发送至终端100，示例性地，图8中的发送模块705可以通过图2中的收发器203来实现。若视频拆分装置集成在终端100中，发送模块705，用于向服务器发送文件请求消息，以请求获取长视频和字幕文件，示例性地，图8中的发送模块705可以通过图3中的移动通信模块150或者无线通信模块160来实现。

需要说明的是，该视频拆分装置具有实现上述方法设计中的终端或者服务器的功能。这些单元模块可以通过终端或者服务器中的硬件实现，也可以通过终端或者服务器中的硬件执行相应的软件实现，本申请实施例对此并不作限定。

最终，视频拆分装置除了生成各个短视频，还生成与该短视频相关的输出参数，包括短视频的起始帧数和结束帧数，以及短视频的字幕标签、场景标签和段落号码等信息。这样，当服务器或者终端接收到用户的查找指令或者播放指令，可以根据指令中的信息确定出对应的输出参数，进而查找到对应的短视频。

例如，如图7c所示，当用户在搜索框输入单词“check”时，响应于该指令，终端向该视频应用对应的服务器发送查找请求，查找请求中包括短视频的字幕标签“check”信息，继而服务器根据该字幕标签“check”查找到对应的短视频，并将该短视频发送至终端，当终端收到该短视频之后，在界面上显示与该短视频对应的缩略图信息。当终端检测到用户播放该短视频的指令时，则播放该短视频。

再比如，当终端检测到用户作用于餐厅这一控件的操作时，则向该视频应用对应的服务器发送查找请求，查找请求中包括短视频的场景标签“餐厅”信息，继而服务器根据该场景标签“餐厅”查找到对应的短视频，并将该短视频发送至终端，当终端收到该短视频之后，在界面上显示与该短视频对应的缩略图信息。当终端检测到用户播放该短视频的指令时，则播放该短视频。

综上所述，本申请实施例中一方面通过每个镜头的视频开始时间点和与之对应的字幕片段的字幕开始时间点，确定短视频的视频开始时间点；另一方面通过长视频中该镜头的视频结束时间点和与之对应的字幕片段的字幕结束时间点，确定该短视频的视频结束时间点，这样最终完成将长视频拆分成多个独立的短视频。而且这样生成的短视频对话开始或者结束地相对平滑，不会非常突兀，提高了用户的体验。另外，用户在客户端可以通过短视频的标签信息实时检索的自己所需要的短视频，更加准确地满足了用户的学习需求。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请实施例各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请实施例的具体实施方式，但本申请实施例的保护范围并不局限于此，任何在本申请实施例揭露的技术范围内的变化或替换，都应涵盖在本申请实施例的保护范围之内。因此，本申请实施例的保护范围应以所述权利要求的保护范围为准。

Claims

一种视频拆分方法，应用于电子设备，其特征在于，所述方法包括：

从长视频中确定每个镜头的视频开始时间点和视频结束时间点；

从所述长视频对应的字幕文件中确定每个字幕片段的字幕开始时间点和字幕结束时间点；

针对所述长视频中的任意一个镜头，根据所述镜头的视频开始时间点和视频结束时间点，确定与所述镜头对应的至少一个字幕片段，其中，与所述镜头对应的至少一个字幕片段包括所述字幕文件中的至少一段对话；

根据所述至少一个字幕片段的字幕开始时间点和字幕结束时间点，对所述镜头的视频开始时间点和视频结束时间点进行调整，得到调整之后的所述镜头的视频开始时间点和视频结束时间点；

根据调整之后的各个镜头的视频开始时间点和视频结束时间点，对所述长视频进行拆分，生成多个短视频。
根据权利要求1所述的方法，其特征在于，所述电子设备根据所述至少一个字幕片段的字幕开始时间点和字幕结束时间点，对所述镜头的视频开始时间点和视频结束时间点进行调整，得到调整之后的所述镜头的视频开始时间点和视频结束时间点，包括：

从所述至少一个字幕片段中确定与所述镜头的视频开始时间点最邻近的字幕开始时间点；以及从所述至少一个字幕片段中确定与所述镜头的视频结束时间点最邻近的字幕结束时间点；

从所述最邻近的字幕开始时间点与第一起始偏移值之间的差值，以及所述镜头的视频开始时间点中，选择最晚发生的时间点作为调整后的所述镜头的视频开始时间点；

从所述最邻近的字幕结束时间点与第一结束偏移值之间的和值、以及所述镜头的视频结束时间点中，选择最早发生的时间点作为调整后的所述镜头的视频结束时间点。
根据权利要求1所述的方法，其特征在于，所述电子设备根据所述镜头的视频开始时间点和视频结束时间点，确定与所述镜头对应的至少一个字幕片段，包括：

从所述至少一个字幕片段中确定与所述镜头的视频开始时间点最邻近的第一字幕开始时间点，以及从所述至少一个字幕片段中确定与所述镜头的视频结束时间点最邻近的第一字幕结束时间点；

将落入所述第一字幕开始时间点和所述第一字幕结束时间点之间的字幕片段、发生在所述第一字幕开始时间点所在字幕片段之前的第一相邻字幕片段、以及发生在所述第一字幕结束时间点所在的字幕片段之后的第二相邻字幕片段，确定为所述镜头对应的字幕片段。
根据权利要求3所述的方法，其特征在于，所述电子设备根据所述至少一个字幕片段的字幕开始时间点和字幕结束时间点，对该镜头的视频开始时间点和视频结束时间点进行调整，得到调整之后的视频开始时间点和视频结束时间点，包括：

从所述第一字幕开始时间点与第二起始偏移值之间的差值、所述第一相邻字幕片段的字幕结束时间点、以及所述镜头的视频开始时间点中选择最晚发生的时间点作为调整后的所述镜头的视频开始时间点；

从所述第一字幕片段的字幕结束时间点与第二结束偏移值之间的和值、所述第二相邻字幕片段的字幕结束时间点，以及所述镜头的视频结束时间点中选择最早发生的时间点作为调整后的所述镜头的视频结束时间点。
根据权利要求1至4任一项所述的方法，其特征在于，所述电子设备从所述长视频对应的字幕文件中确定每个字幕片段的字幕开始时间点和字幕结束时间点，包括：

根据所述长视频对应的字幕文件中的每段对话的开始时间点和结束时间点，将所述长视频对应的字幕文件进行拆分；

确定拆分之后每个字幕片段的字幕开始时间点和字幕结束时间点。
根据权利要求1至4任一项所述的方法，其特征在于，所述电子设备从所述长视频对应的字幕文件中确定每个字幕片段的字幕开始时间点和字幕结束时间点，包括：

从所述长视频对应的字幕文件中获取每段对话的对话开始时间点和对话结束时间点，并将所述第一段对话的对话开始时间点作为首个字幕片段的字幕开始时间点；

计算所述第一段对话的对话开始时间点向后推移固定时长所得到分割时间点，若所述分割时间点落在所述字幕文件的一段对话中，则确定所述一段对话的对话结束时间点为所述首个字幕片段的字幕结束时间点；

依次将前一个字幕片段的字幕结束时间点之后的首个对话作为当前对话，对所述当前对话执行如下操作：

计算所述当前对话的对话开始时间点向后推移固定时长所得到分割时间点；

若所述分割时间点落在一段对话中，则确定所述一段对话的对话结束时间点为当前字幕片段的字幕结束时间点。
根据权利要求6所述的方法，其特征在于，还包括：

若所述分割时间点未落在所述字幕文件的一段对话中，则选择该分割时间点之前相邻的对话的对话结束时间点为所述当前字幕片段的字幕结束时间点。
根据权利要求1至7任一项所述的方法，其特征在于，在所述电子设备生成多个短视频之后，还包括：

针对任意一个短视频，根据所述短视频的视频开始时间点和视频结束时间点，确定与所述短视频对应的至少一个字幕片段；

若所述至少一个字幕片段的总时长占所述短视频的总时长的比例大于设定阈值，则保存所述短视频。
根据权利要求1至8任一项所述的方法，其特征在于，在所述电子设备生成多个短视频之后，还包括：

针对任意一个短视频执行如下操作：

将所述短视频中的序列帧图像划分成至少两个部分，并从每个部分中抽取N帧图像进行场景识别，将每个部分的N帧图像的场景识别结果进行选举，将出现次数最多的场景识别结果作为该部分的标签信息，其中，N为大于等于1的正整数；

将所述至少两个部分的标签信息进行选举，将出现次数最多的标签信作为所述短视频的标签信息。
一种电子设备，其特征在于，包括一个或多个处理器，一个或多个存储器，显示器；

其中，所述一个或多个存储器与所述一个或多个处理器耦合，所述存储器用于存储数据和指令，以供所述处理器调用；

所述处理器，用于从长视频中确定每个镜头的视频开始时间点和视频结束时间点；并从所述长视频对应的字幕文件中确定每个字幕片段的字幕开始时间点和字幕结束时间点；针对所述长视频中的任意一个镜头，根据所述镜头的视频开始时间点和视频结束时间点，确定与所述镜头对应的至少一个字幕片段，其中，与所述镜头对应的至少一个字幕片段包括所述字幕文件中的至少一段对话；根据所述至少一个字幕片段的字幕开始时间点和字幕结束时间点，对所述镜头的视频开始时间点和视频结束时间点进行调整，得到调整之后的所述镜头的视频开始时间点和视频结束时间点；根据调整之后的各个镜头的视频开始时间点和视频结束时间点，对所述长视频进行拆分，生成多个短视频；

所述显示器，用于根据所述处理器的指示，将所述短视频进行显示。
根据权利要求10所述的电子设备，其特征在于，所述处理器具体用于：

从所述至少一个字幕片段中确定与所述镜头的视频开始时间点最邻近的字幕开始时间点；以及从所述至少一个字幕片段中确定与所述镜头的视频结束时间点最邻近的字幕结束时间点；

从所述最邻近的字幕开始时间点与第一设定偏移值之间的差值，以及所述镜头的视频开始时间点中，选择最晚发生的时间点作为调整后的所述镜头的视频开始时间点；

从所述最邻近的字幕结束时间点与第二设定偏移值之间的和值、以及所述镜头的视频结束时间点中，选择最早发生的时间点作为调整后的所述镜头的视频结束时间点。
根据权利要求10所述的电子设备，其特征在于，所述处理器具体用于：

从所述至少一个字幕片段中确定与所述镜头的视频开始时间点最邻近的第一字幕开始时间点，以及从所述至少一个字幕片段中确定与所述镜头的视频结束时间点最邻近的第一字幕结束时间点；

将落入所述第一字幕开始时间点和所述第一字幕结束时间点之间的字幕片段、发生在所述第一字幕开始时间点所在字幕片段之前的第一相邻字幕片段、以及发生在所述第一字幕结束时间点所在的字幕片段之后的第二相邻字幕片段，确定为所述镜头对应的字幕片段。
根据权利要求12所述的电子设备，其特征在于，所述处理器具体用于：

从所述第一字幕开始时间点与第三设定偏移值之间的差值、所述第一相邻字幕片段的字幕结束时间点、以及所述镜头的视频开始时间点中选择最晚发生的时间点作为调整后的所述镜头的视频开始时间点；

从所述第一字幕片段的字幕结束时间点与第四设定偏移值之间的和值、所述第二相邻字幕片段的字幕结束时间点，以及所述镜头的视频结束时间点中选择最早发生的时间点作为调整后的所述镜头的视频结束时间点。
根据权利要求10至13任一项所述的电子设备，其特征在于，所述处理器具体用于：

根据所述长视频对应的字幕文件中的每段对话的开始时间点和结束时间点，将所述长视频对应的字幕文件进行拆分；

确定拆分之后每个字幕片段的字幕开始时间点和字幕结束时间点。
根据权利要求10至13任一项所述的电子设备，其特征在于，所述处理器具体用于：

从所述长视频对应的字幕文件中获取每段对话的对话开始时间点和对话结束时间点，并将所述第一段对话的对话开始时间点作为首个字幕片段的字幕开始时间点；

计算所述第一段对话的对话开始时间点向后推移固定时长所得到分割时间点，若所述分割时间点落在所述字幕文件的一段对话中，则确定所述一段对话的对话结束时间点为所述首个字幕片段的字幕结束时间点；

依次将前一个字幕片段的字幕结束时间点之后的首个对话作为当前对话，对所述当前对话执行如下操作：

计算所述当前对话的对话开始时间点向后推移固定时长所得到分割时间点；

若所述分割时间点落在一段对话中，则确定所述一段对话的对话结束时间点为当前字幕片段的字幕结束时间点。
根据权利要求15所述的电子设备，其特征在于，所述处理器还用于：

若所述分割时间点未落在所述字幕文件的一段对话中，则选择该分割时间点之前相邻的对话的对话结束时间点为所述当前字幕片段的字幕结束时间点。
根据权利要求10至16任一项所述的电子设备，其特征在于，所述处理器具体用于：

针对任意一个短视频，根据所述短视频的视频开始时间点和视频结束时间点，确定与所述短视频对应的至少一个字幕片段；

若所述至少一个字幕片段的总时长占所述短视频的总时长的比例大于设定阈值，则保存所述短视频。
根据权利要求10至17任一项所述的电子设备，其特征在于，所述处理器具体用于：

针对任意一个短视频执行如下操作：

将所述短视频中的序列帧图像划分成至少两个部分，并从每个部分中抽取N帧图像进行场景识别，将每个部分的N帧图像的场景识别结果进行选举，将出现次数最多的场景识别结果作为该部分的标签信息，其中，N为大于等于1的正整数；

将所述至少两个部分的标签信息进行选举，将出现次数最多的标签信作为所述短视频的标签信息。
一种计算机存储介质，其特征在于，所述计算机可读存储介质包括计算机程序，当计算机程序在电子设备上运行时，使得所述电子设备执行如权利要求1至9任一项所述的视频拆分方法。