WO2023279743A1

WO2023279743A1 - 一种音频切换模板生成方法及设备

Info

Publication number: WO2023279743A1
Application number: PCT/CN2022/079533
Authority: WO
Inventors: 张冉; 王可尧; 翟传磊
Original assignee: 北京达佳互联信息技术有限公司
Priority date: 2021-07-06
Filing date: 2022-03-07
Publication date: 2023-01-12
Also published as: CN113613061A; CN113613061B

Abstract

一种音频切换模板生成方法及设备质，涉及计算机技术领域。方法包括：从待处理视频的视频数据中提取画面切换点(S101)；从待处理视频的音频数据中提取至少一个切换类型的音频切换点(S102)；根据画面切换点和至少一个切换类型的音频切换点，确定待目标切换类型(S103)；从属于目标切换类型的音频切换点中，获取目标音频切换点(S104)；根据目标音频切换点，生成与音频数据对应的音频切换模板(S105)。

Description

一种音频切换模板生成方法及设备

本公开基于申请号为202110764340.1、申请日为2021年07月06日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本公开作为参考。

技术领域

本公开涉及计算机技术领域，尤其涉及一种音频切换模板生成方法及设备。

背景技术

随着移动互联网的迅速发展，卡点视频的出现受到了越来越多人的喜爱，其中，卡点视频是指画面能够随着音乐的节奏切换的时间点进行切换的视频。

发明内容

本公开提供一种音频切换模板生成方法及设备。本公开实施例的技术方案如下：

根据本公开实施例的一方面，提供一种音频切换模板生成方法，该方法可以应用于电子设备。该方法包括：

从待处理视频的视频数据中提取画面切换点；

从所述待处理视频的音频数据中提取至少一个切换类型的音频切换点；所述音频切换点的切换类型包括：节拍切换点、旋律切换点或者歌词切换点中的至少一项；

根据所述画面切换点和所述至少一个切换类型的音频切换点，确定目标切换类型；

从属于所述目标切换类型的音频切换点中，获取目标音频切换点，所述目标音频切换点与所述画面切换点对应；

根据所述目标音频切换点，生成与所述音频数据对应的音频切换模板；所述音频切换模板用于生成与所述音频切换模板对应的视频。

根据本公开实施例的另一方面，提供一种音频切换模板生成装置，可以应用于电子设备。该装置可以包括：获取单元、处理单元和生成单元；

所述获取单元，用于从待处理视频的视频数据中提取画面切换点；

所述获取单元，还用于从所述待处理视频的音频数据中提取至少一个切换类型的音频切换点；所述音频切换点的切换类型包括：节拍切换点、旋律切换点或者歌词切换点中的至少一项；

所述处理单元，用于根据所述画面切换点和所述至少一个切换类型的音频切换点，确定目标切换类型；

所述获取单元，还用于从属于所述目标切换类型的音频切换点中，获取目标音频切换点，所述目标音频切换点与所述画面切换点对应；

所述生成单元，用于根据所述目标音频切换点，生成与所述音频数据对应的音频切换模板；所述音频切换模板用于生成与所述音频切换模板对应的视频。

根据本公开实施例的另一方面，提供一种电子设备，可以包括：处理器和用于存储处理器可执行指令的存储器；其中，处理器被配置为执行所述指令，以实现如下步骤：

从待处理视频的视频数据中提取画面切换点；

根据本公开实施例的另一方面，提供一种计算机可读存储介质，计算机可读存储介质上存储有指令，所述计算机可读存储介质中的指令由电子设备的处理器执行，使得所述电子设备能够执行如下步骤：

从待处理视频的视频数据中提取画面切换点；

根据本公开实施例的另一方面，提供一种计算机程序产品，该计算机程序产品包括计算机指令，计算机指令在电子设备上运行，使得电子设备执行如下步骤：

从待处理视频的视频数据中提取画面切换点；

本公开的实施例中，在从待处理视频中提取画面切换点和至少一个切换类型的音频切换点后，能够根据该画面切换点和至少一个切换类型的音频切换点确定目标切换类型。从属于该目标切换类型的音频切换点中，确定与画面切换点对应的目标音频切换点，并根据确定的目标音频切换点生成音频切换模板。上述方案，无需人工参与即可生成音频切换模版，提高了音频切换模板的生成效率。其次，在画面切换点与目标音频切换点对应的情况下，画面切换点能够准确的对应上待处理视频中的音频切换点，提高了画面切换点的准确度，进而提高了音频切换模板中的目标音频切换点的准确度。

附图说明

图1示出了本公开实施例提供的一种音频切换模板生成方法的流程示意图。

图2示出了本公开实施例提供的又一种音频切换模板生成方法的流程示意图。

图3示出了本公开实施例提供的又一种音频切换模板生成方法的流程示意图。

图4示出了本公开实施例提供的又一种音频切换模板生成方法的流程示意图。

图5示出了本公开实施例提供的又一种音频切换模板生成装置的结构示意图。

图6示出了本公开实施例提供的一种终端的结构示意图。

图7示出了本公开实施例提供的一种服务器的结构示意图。

具体实施方式

本公开所涉及的数据可以为经用户授权或者经过各方充分授权的数据。

现有技术中生成卡点视频的方法主要是人工使用视频编辑软件制作音频切换模板，根据音频切换模板和接收到的图片或视频片段，生成卡点视频。然而，人工制作音频切换模板的效率极低。另外，由于上述方案中音频切换点的位置完全人工确定，从而导致确定的音频切换点的位置的准确性较差。

本公开实施例提供一种音频切换模板生成方法，在从待处理视频中提取画面切换点和至少一个切换类型的音频切换点后，能够根据该画面切换点和至少一个切换类型的音频切换点确定目标切换类型。从属于该目标切换类型的音频切换点中，确定与画面切换点对应的目标音频切换点，并根据确定的目标音频切换点生成音频切换模板。上述方案，无需人工参与即可生成音频切换模版，提高了音频切换模板的生成效率。其次，在画面切换点与目标音频切换点对应的情况下，画面切换点能够准确的对应上待处理视频中的音频切换点，提高了画面切换点的准确度，进而提高了音频切换模板中的目标音频切换点的准确度。

以下对本公开实施例提供的音频切换模板生成方法进行示例性说明：

本公开提供的音频切换模板生成方法应用于电子设备。

在一些实施例中，电子设备是服务器，或者是终端，或者是其他用于进行音频切换模板生成的电子设备，本公开对此不作限定。

其中，服务器是单独的一个服务器，或者是由多个服务器构成的服务器集群。在一些实施例中，服务器集群是分布式集群。本公开对服务器的具体实现方式也不作限制。

终端是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本，以及蜂窝电话、个人数字助理(personal digital assistant，PDA)、增强现实(augmented reality，AR)、虚拟现实(virtual reality，VR)设备等安装并使用内容社区应用的设备，本公开对该电子设备的具体形态不作特殊限制。终端能够通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式与用户进行人机交互。

下面结合附图对本公开实施例提供的音频切换模板生成方法进行详细介绍。

如图1所示，在音频切换模板生成方法应用于电子设备的情况下，该音频切换模板生成方法可以包括S101至S105。

S101、电子设备从待处理视频的视频数据中提取画面切换点。

在获取到待处理视频后，电子设备可以从待处理视频的视频数据中提取画面切换点。其中，待处理视频为卡点视频，也即画面能够随着音乐的节奏切换的时间点进行切换的视频。画面切换点为待处理视频中画面切换的时刻。

在一些实施例中，电子设备从待处理视频的视频数据中提取画面切换点时，能够利用画面切换检测技术，提取画面切换点；或者，电子设备能够将待处理视频划分为多个视频帧，将划分视频帧的时刻确定为画面切换点，以得到画面切换点；或者，电子设备还能够通过其他方式从待处理视频的视频数据中提取画面切换点，本公开对此不作限定。

在一些实施例中，在生成音频切换模板时，电子设备能够从大量的卡点视频中，获取热度较高的视频作为待处理视频。其中，视频的热度可以由视频的播放量、点赞量或者转发量中的至少一种来表征。

在一些实施例中，大量的卡点视频由电子设备通过搜索关键词，利用搜索能力搜索得到；或者由电子设备通过视频分类算法，对多个视频进行分类，确定包括卡点视频最多的类别，获取属于该类别的视频；或者，由电子设备确定发布卡点视频的博主，获取该博主发送的卡点视频，本公开对此不作限定。

S102、电子设备从待处理视频的音频数据中提取至少一个切换类型的音频切换点。

其中，每个切换类型能够提取到至少一个音频切换点。音频切换点的切换类型包括：节拍(beat)切换点、旋律(onset)切换点或者歌词切换点中的至少一项。其中，节拍切换点为待处理视频中节拍切换的时刻。旋律切换点为待处理视频中旋律切换的时刻。歌词切换点为待处理视频中歌词切换的时刻。在一些实施例中，该音频切换点也被称为卡点、节点。

卡点视频的音频数据一般包括各种各样的节点，例如节拍切换点、旋律切换点或者歌词切换点等。在获取到待处理视频后，电子设备能够从待处理视频的音频数据中提取至少一个切换类型的音频切换点。

需要说明的是，在待处理视频的音频数据中包括旋律切换点的情况下，说明待处理视频的音频数据中不包括人声。在这种情况下，电子设备只需提取旋律切换点和节拍切换点即可，无需提取歌词切换点。在待处理视频的音频数据中包括歌词切换点的情况下，说明待处理视频的音频数据中包括人声。在这种情况下，电子设备只需提取歌词切换点和节拍切换点即可，无需提取旋律切换点。

在一些实施例中，电子设备从待处理视频的音频数据中提取节拍切换点时，能够采用beat tracking(节拍跟踪)算法对待处理视频的音频数据进行处理，得到该音频数据的节拍切换点。

在一些实施例中，电子设备从待处理视频的音频数据中提取旋律切换点时，能够采用onset识别算法对待处理视频的音频数据进行处理，得到该音频数据的旋律切换点。

在一些实施例中，电子设备从待处理视频的音频数据中提取歌词切换点时，能够获取待处理视频的音频数据中的歌词内容，根据歌词内容确定该音频数据的歌词切换点。

需要说明的是，本公开对于S101和S102的先后顺序不作限定，电子设备能够先执行S101，后执行S102；或者，电子设备能够先执行S102，后执行S101；或者，电子设备还能够同时执行S101和S102；本公开对此不作限定。

S103、电子设备根据画面切换点和至少一个切换类型的音频切换点，确定目标切换类型。

在从待处理视频的视频数据中提取画面切换点，以及从待处理视频的音频数据中提取至少一个切换类型的音频切换点后，电子设备能够根据画面切换点和至少一个切换类型的音频切换点，确定目标切换类型，该目标切换类型为待处理视频对应的切换类型。

在一些实施例中，电子设备能够根据画面切换点与每个切换类型的音频切换点之间的重合度，确定目标切换类型；或者，电子设备能够也可以根据画面切换点的画面内容，与歌词切换点的歌词，确定目标切换类型；或者，电子设备还能够通过其他方式，确定目标切换类型，本公开对此不作限定。

S104、电子设备从属于目标切换类型的音频切换点中，获取至少一个目标音频切换点，该目标音频切换点与该画面切换点对应。

在一些实施例中，在根据画面切换点和至少一个切换类型的音频切换点，确定目标切换类型后，电子设备能够从属于目标切换类型的音频切换点中，获取与画面切换点对应的目标音频切换点。

在一些实施例中，在根据画面切换点和至少一个切换类型的音频切换点，确定目标切换类型为节拍切换点后，电子设备从待处理视频中，获取与画面切换点对应的目标节拍切换点。

需要说明的是，在画面切换点的数量为多个的情况下，目标音频切换点的数量与画面切换点的数量相同。即画面切换点与目标音频切换点为一一对应的关系，从而避免一个目标音频切换点对应多个画面切换点。其中，多个是指两个或两个以上。

S105、电子设备根据目标音频切换点，生成与音频数据对应的音频切换模板。

其中，音频切换模板用于生成与音频切换模板对应的视频。

在一些实施例中，在从属于目标切换类型的音频切换点中，获取目标音频切换点后，电子设备能够根据目标音频切换点，生成与音频数据对应的音频切换模板。

结合上述示例，从待处理视频中，获取目标节拍切换点后，电子设备根据获取到的目标节拍切换点，生成与音频数据对应的音频切换模板。后续，在接收到用户上传的图片或者视频片段后，电子设备可以将用户上传的图片或者视频片段按照预设顺序，添加到生成好的音频切换模板中节拍切换点处，以生成与音频切换模板对应的视频。

由S101-S105可知，在从待处理视频中提取画面切换点和至少一个切换类型的音频切换点后，能够根据该画面切换点和至少一个切换类型的音频切换点确定目标切换类型。从属于该目标切换类型的音频切换点中，确定与画面切换点对应的目标音频切换点，并根据确定的目标音频切换点生成音频切换模板。无需人工参与即可生成音频切换模版，提高了音频切换模板的生成效率。其次，在画面切换点与目标音频切换点对应的情况下，画面切换点能够准确的对应上待处理视频中的音频切换点，提高了画面切换点的准确度，进而提高了音频切换模板中的目标音频切换点的准确度。

在一些实施例中，如图2所示，上述S103中，电子设备根据画面切换点和至少一个切换类型的音频切换点，确定目标切换类型，包括S201至S202。

S201、电子设备分别确定画面切换点与每个切换类型的音频切换点之间的重合度。

其中，该重合度用于表示与音频切换点匹配的画面切换点的数量，在画面切换点中所占的比例。

在一些实施例中，电子设备在根据画面切换点和至少一个切换类型的音频切换点，确定目标切换类型时，能够根据该画面切换点与每个切换类型的音频切换点之间的重合度，从该至少一个切换类型中，确定目标切换类型。

例如，待处理视频的总时长为10秒。电子设备从待处理视频的视频数据中提取到的画面切换点为第1秒、第3秒和第8秒。电子设备从待处理视频的音频数据中提取到的节拍切换点为第1秒、第3秒和第7秒。电子设备从待处理视频的音频数据中提取到的旋律切换点为第1秒、第5秒和第9秒。电子设备从待处理视频的音频数据中提取到的歌词切换点为第2秒、第4秒和第9秒。由于3个画面切换点中有2个与节拍切换点重合，1个与旋律切换点重合，没有与歌词切换点重合的画面切换点。在这种情况下，电子设备能够确定画面切换点与节拍切换点的重合度为2/3，与旋律切换点的重合度为1/3，与歌词切换点的重合度为0。

S202、电子设备将重合度满足第一预设条件切换类型，确定为目标切换类型。

在确定画面切换点与至少一个切换类型的音频切换点之间的重合度后，得到至少一个重合度，电子设备从该至少一个重合度中，获取满足第一预设条件的重合度所对应的切换类型，并将该切换类型确定为目标切换类型。

在一些实施例中，第一预设条件是重合度最高，即画面切换点与某个切换类型的音频切换点的重合度最高。通过将与画面切换点重合度最高的音频切换点对应的切换类型确定为目标切换类型，能够保证后续从该目标切换类型中获取与画面切换点对应的目标音频切换点，提高了确定目标音频切换点的准确度。

例如，电子设备确定画面切换点与节拍切换点的重合度为2/3，与旋律切换点的重合度为1/3，与歌词切换点的重合度为0。在这种情况下，电子设备将节拍切换点确定为目标切换类型。

在一些实施例中，在画面切换点数量与某个切换类型的音频切换点的数量相同的情况下，将该切换类型确定为目标切换类型。

例如，电子设备从待处理视频的视频数据中提取到的画面切换点的数量为5个。电子设备从待处理视频的音频数据中提取到的节拍切换点的数量为5个。电子设备从待处理视频的音频数据中提取到的旋律切换点的数量为6个。电子设备从待处理视频的音频数据中提取到的歌词切换点的数量为7个。在这种情况下，电子设备将节拍切换点确定为目标切换类型。

由S201-S202可知，电子设备确定目标切换类型时，能够先分别确定画面切换点与每个切换类型的音频切换点之间的重合度。然后，电子设备将重合度最高的切换类型，确定为目标切换类型，从而能够保证能够从该目标切换类型中获取与画面切换点对应的目标音频切换点，能够实现对画面切换点的校正，提高了确定画面切换点的准确度。

在一些实施例中，如图3所示，上述S104中，电子设备从属于目标切换类型的音频切换点中，获取目标音频切换点，包括S301或S302。

S301、将属于目标切换类型的音频切换点中与画面切换点重合的音频切换点，确定为画面切换点对应的目标音频切换点。

其中，在从属于目标切换类型的音频切换点中，获取目标音频切换点时，电子设备能够依次判断画面切换点与属于目标切换类型的音频切换点是否重合。在画面切换点与属于目标切换类型的音频切换点重合的情况下，电子设备将与画面切换点重合的音频切换点，确定为画面切换点对应的目标音频切换点。

例如，电子设备提取到的第一个画面切换点为待处理视频第1秒的播放时刻，第一个节拍切换点也是待处理视频第1秒的播放时刻。在确定待处理视频的目标切换类型为节拍切换点后，由于第一个画面切换点和第一个节拍切换点重合(即第一个画面切换点和第一个节拍切换点都是待处理视频第1秒的播放时刻)，因此，将第一个节拍切换点确定为与第一个画面切换点对应的目标音频切换点。

S302、电子设备将属于目标切换类型的音频切换点中满足第二预设条件的音频切换点，确定为画面切换点对应的目标音频切换点。

在一些实施例中，在从属于目标切换类型的音频切换点中，获取目标音频切换点时，电子设备能够依次判断画面切换点与属于目标切换类型的音频切换点是否重合。在画面切换点与属于目标切换类型的音频切换点不重合的情况下，则电子设备将音频切换点中满足第二预设条件的音频切换点，确定为该画面切换点对应的目标音频切换点。

在一些实施例中，第二预设条件为与画面切换点的时间差最短的音频切换点。对于与属于目标切换类型的音频切换点不重合的画面切换点，将与画面切换点的时间差最短的音频切换点确定为与画面切换点对应的目标音频切换点，能够实现对画面切换点的校正，提高了确定画面切换点的准确度。

例如，电子设备提取到的第一个画面切换点为待处理视频第1秒的播放时刻，第一个节拍切换点待处理视频第2秒的播放时刻，第二个节拍切换点待处理视频第3秒的播放时刻。在确定目标切换类型为节拍切换点后，由于第一个画面切换点和第一个节拍切换点不重合，表示该画面切换点存在误差。在第二预设条件为与画面切换点的时间差最短的音频切换点点的情况下，由于第一个节拍切换点与第一个画面切换点的时间差(1秒)小于第二个节拍切换点与第一个画面切换点的时间差(2秒)，因此，电子设备将第一个节拍切换点确定为与第一个画面切换点对应的目标音频切换点。

由S301-S302可知，在确定目标切换类型后，在该目标切换类型中的音频切换点与画面切换点重合的情况下，则将重合的音频切换点直接确定为与画面切换点对应的目标音频切换点。在该目标切换类型中的音频切换点与画面切换点不重合时，则将满足第二预设条件的音频切换点确定为与画面切换点对应的目标音频切换点，实现对画面切换点的校正，提高了确定画面切换点的准确度。

在一些实施例中，本公开实施例提供的音频切换模板生成方法还包括：S401至S402。

S401、电子设备获取原始视频。

在获取待处理视频时，当待处理视频为一个视频片段时，则电子设备能够获取该视频片段对应的原始视频。

S402、电子设备将原始视频划分为至少一个视频片段，并将至少一个视频片段中的一个视频片段确定为待处理视频。

在获取原始视频后，电子设备能够将原始视频划分为至少一个视频片段，并将至少一个视频片段中的一个视频片段确定为待处理视频。对于原始视频中的每个视频片段，电子设备都能够依次执行S101-S105的方案，从而保证每个视频片段都有对应的音频切换模板。

例如，原始视频的播放时长为30秒，0-10秒的视频片段的切换类型为节拍切换点，10秒-20秒的视频片段的切换类型为歌词切换点，20秒-30秒的视频片段的切换类型为旋律切换点。在这种情况下，电子设备为每个视频片段生成不同的音频切换模板，丰富了用户体验。

由S401-S402可知，当待处理视频为一个视频片段时，则电子设备能够获取该视频片段对应的原始视频。在获取原始视频后，电子设备能够将原始视频划分为至少一个视频片段，并将至少一个视频片段中的一个视频片段确定为待处理视频。通过对于原始视频中的每个视频片段都分别执行S101-S105的方案，从而保证每个视频片段都有对应的音频切换模板。对于复杂的卡点视频也能很好的生成不同类型片段对应的音频切换模板，丰富了音频切换模板的应用场景，进而丰富了用户体验。

本公开实施例中的终端/服务器可以包含有用于实现前述对应音频切换模板生成方法的一个或多个硬件结构和/或软件模块，这些执行硬件结构和/或软件模块可以构成一个电子设备。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的算法步骤，本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

本公开实施例还对应提供一种音频切换模板生成装置，可以应用于电子设备。图5示出了本公开实施例提供的音频切换模板生成装置的结构示意图。如图5所示，该音频切换模板生成装置包括：获取单元501、处理单元502和生成单元503。

获取单元501，用于从待处理视频的视频数据中提取画面切换点。例如，结合图1，获取单元501用于执行S101。

获取单元501，还用于从待处理视频的音频数据中提取至少一个切换类型的音频切换点；该音频切换点的切换类型包括：节拍切换点、旋律切换点或者歌词切换点中的至少一项。例如，结合图1，获取单元501用于执行S102。

处理单元502，用于根据该画面切换点和该至少一个切换类型的音频切换点，确定目标切换类型。例如，结合图1，处理单元502用于执行S103。

获取单元501，还用于从属于目标切换类型的音频切换点中，获取目标音频切换点，该目标音频切换点与该画面切换点对应。例如，结合图1，获取单元501用于执行S104。

生成单元503，用于根据目标音频切换点，生成与音频数据对应的音频切换模板；该音频切换模板用于生成与该音频切换模板对应的视频。例如，结合图1，生成单元503用于执行S105。

在一些实施例中，处理单元502，用于：

分别确定画面切换点与每个切换类型的音频切换点之间的重合度，该重合度用于表示与音频切换点匹配的画面切换点的数量，在画面切换点中所占的比例。例如，结合图2，处理单元502用于执行S201。

将重合度满足第一预设条件的切换类型，确定为该目标切换类型。例如，结合图2，处理单元502用于执行S203。

在一些实施例中，第一预设条件为重合度最高。

在一些实施例中，获取单元501，具体用于：

将属于该目标切换类型的音频切换点中与该画面切换点重合的音频切换点，确定为该画面切换点对应的目标音频切换点。例如，结合图3，获取单元501用于执行S301。

在一些实施例中，获取单元501，具体用于：

将属于该目标切换类型的音频切换点中满足第二预设条件的音频切换点，确定为该画面切换点对应的目标音频切换点。例如，结合图3，获取单元501用于执行S302。

在一些实施例中，第二预设条件为与画面切换点的时间差最短的音频切换点。

在一些实施例中，获取单元501，还用于获取原始视频。例如，结合图4，获取单元501用于执行S401。

处理单元502，还用于将原始视频划分为至少一个视频片段，并将至少一个视频片段中的一个视频片段确定为待处理视频。例如，结合图4，处理单元502用于执行S402。

如上所述，本公开实施例可以根据上述方法示例对电子设备进行功能模块的划分。其中，上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。另外，还需要说明的是，本公开实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。

关于上述实施例中的音频切换模板生成装置，其中各个模块执行操作的具体方式、以及具备的有益效果，均已经在前述方法实施例中进行了详细描述，此处不再赘述。

在示例性实施例中，提供了一种电子设备，该电子设备包括：处理器；用于存储该处理器可执行程序代码的存储器；其中，该处理器被配置为执行该指令，以实现如下步骤：

从待处理视频的视频数据中提取画面切换点；

从该待处理视频的音频数据中提取至少一个切换类型的音频切换点；该音频切换点的切换类型包括：节拍切换点、旋律切换点或者歌词切换点中的至少一项；

根据该画面切换点和该至少一个切换类型的音频切换点，确定目标切换类型；

从属于该目标切换类型的音频切换点中，获取目标音频切换点，该目标音频切换点与该画面切换点对应；

根据该目标音频切换点，生成与该音频数据对应的音频切换模板；该音频切换模板用于生成与该音频切换模板对应的视频。

在一些实施例中，该处理器被配置为执行该程序代码，以实现如下步骤：

分别确定该画面切换点与每个切换类型的音频切换点之间的重合度，该重合度用于表示与音频切换点匹配的画面切换点的数量，在该画面切换点中所占的比例；

将重合度满足第一预设条件的切换类型，确定为该目标切换类型。

在一些实施例中，该第一预设条件为重合度最高。

将属于该目标切换类型的音频切换点中与该画面切换点重合的音频切换点，确定为该画面切换点对应的目标音频切换点。

将属于该目标切换类型的音频切换点中满足第二预设条件的音频切换点，确定为该画面切换点对应的目标音频切换点。

在一些实施例中，该第二预设条件为与该画面切换点的时间差最短的音频切换点。

获取原始视频；

将该原始视频划分为至少一个视频片段，并将该至少一个视频片段中的一个视频片段确定为该待处理视频。

在一些实施例中，本公开实施例还提供一种终端，电子设备被提供为终端时，终端可以是手机、电脑等用户终端。图6示出了本公开实施例提供的终端的结构示意图。该终端可以是音频切换模板生成装置可以包括至少一个处理器61，通信总线62，存储器63以及至少一个通信接口64。

处理器61可以是一个处理器(central processing units，CPU)，微处理单元，ASIC(Application Specific Integrated Circuit，专用集成电路)，或一个或多个用于控制本公开方案程序执行的集成电路。作为一个示例，结合图5，电子设备中的获取单元501、处理单元502和生成单元503实现的功能与图6中的处理器61实现的功能相同。

通信总线62可包括一通路，在上述组件之间传送信息。

通信接口64，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如服务器、以太网，无线接入网(radio access network，RAN)，无线局域网(wireless local area networks，WLAN)等。作为一个示例，

存储器63可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理单元相连接。存储器也可以和处理单元集成在一起。

其中，存储器63用于存储执行本公开方案的应用程序代码，并由处理器61来控制执行。处理器61用于执行存储器63中存储的应用程序代码，从而实现本公开方法中的功能。

在具体实现中，作为一种实施例，处理器61可以包括一个或多个CPU，例如图6中的CPU0和CPU1。

在具体实现中，作为一种实施例，终端可以包括多个处理器，例如图6中的处理器61和处理器65。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，终端还可以包括输入设备66和输出设备67。输入设备66和输出设备67通信，可以以多种方式接受用户的输入。例如，输入设备66可以是鼠标、键盘、触摸屏设备或传感设备等。输出设备67和处理器61通信，可以以多种方式来显示信息。例如，输出设备61可以是液晶显示器(liquid crystal display，LCD)，发光二级管(light emitting diode，LED)显示设备等。

本领域技术人员可以理解，图6中示出的结构并不构成对终端的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本公开实施例还提供一种服务器。图7示出了本公开实施例提供的服务器的结构示意图。该服务器可以是音频切换模板生成装置。该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器71和一个或一个以上的存储器72。其中，存储器72中存储有至少一条指令，至少一条指令由处理器71加载并执行以实现上述各个方法实施例提供的音频切换模板生成方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本公开还提供了一种包括指令的计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述计算机可读存储介质中的指令由计算机设备的处理器执行时，使得计算机能够执行上述所示实施例提供的音频切换模板生成方法。例如，计算机可读存储介质可以为包括指令的存储器63，上述指令可由终端的处理器61执行以完成上述方法。又例如，计算机可读存储介质可以为包括指令的存储器72，上述指令可由服务器的处理器71执行以完成上述方法。可选地，计算机可读存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。

本公开还提供了一种计算机程序产品，该计算机程序产品包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行上述图1-图4任一附图所示的音频切换模板生成方法。

本公开所有实施例均可以单独被执行，也可以与其他实施例相结合被执行，均视为本公开要求的保护范围。

Claims

一种音频切换模板生成方法，包括：

从待处理视频的视频数据中提取画面切换点；

从所述待处理视频的音频数据中提取至少一个切换类型的音频切换点；所述音频切换点的切换类型包括：节拍切换点、旋律切换点或者歌词切换点中的至少一项；

根据所述画面切换点和所述至少一个切换类型的音频切换点，确定目标切换类型；

从属于所述目标切换类型的音频切换点中，获取目标音频切换点，所述目标音频切换点与所述画面切换点对应；

根据所述目标音频切换点，生成与所述音频数据对应的音频切换模板；所述音频切换模板用于生成与所述音频切换模板对应的视频。
根据权利要求1所述的音频切换模板生成方法，其中，所述根据所述画面切换点和所述至少一个切换类型的音频切换点，确定目标切换类型，包括：

分别确定所述画面切换点与每个切换类型的音频切换点之间的重合度，所述重合度用于表示与音频切换点匹配的画面切换点的数量，在所述画面切换点中所占的比例；

将重合度满足第一预设条件的切换类型，确定为所述目标切换类型。
根据权利要求2所述的音频切换模板生成方法，其中，所述第一预设条件为重合度最高。
根据权利要求1所述的音频切换模板生成方法，其中，所述从属于所述目标切换类型的音频切换点中，获取目标音频切换点，包括：

将属于所述目标切换类型的音频切换点中与所述画面切换点重合的音频切换点，确定为所述画面切换点对应的目标音频切换点。
根据权利要求1所述的音频切换模板生成方法，其中，所述从属于所述目标切换类型的音频切换点中，获取目标音频切换点，包括：

将属于所述目标切换类型的音频切换点中满足第二预设条件的音频切换点，确定为所述画面切换点对应的目标音频切换点。
根据权利要求5所述的音频切换模板生成方法，其中，所述第二预设条件为与所述画面切换点的时间差最短的音频切换点。
根据权利要求1-6任一项所述的音频切换模板生成方法，其中，还包括：

获取原始视频；

将所述原始视频划分为至少一个视频片段，并将所述至少一个视频片段中的一个视频片段确定为所述待处理视频。
一种音频切换模板生成装置，包括：获取单元、处理单元和生成单元；

所述获取单元，用于从待处理视频的视频数据中提取画面切换点；

所述获取单元，还用于从所述待处理视频的音频数据中提取至少一个切换类型的音频切换点；所述音频切换点的切换类型包括：节拍切换点、旋律切换点或者歌词切换点中的至少一项；

所述处理单元，用于根据所述画面切换点和所述至少一个切换类型的音频切换点，确定目标切换类型；

所述获取单元，还用于从属于所述目标切换类型的音频切换点中，获取目标音频切换点，所述目标音频切换点与所述画面切换点对应；

所述生成单元，用于根据所述目标音频切换点，生成与所述音频数据对应的音频切换模板；所述音频切换模板用于生成与所述音频切换模板对应的视频。
根据权利要求8所述的音频切换模板生成装置，其中，所述处理单元，用于：

分别确定所述画面切换点与每个切换类型的音频切换点之间的重合度，所述重合度用于表示与音频切换点重合的画面切换点的数量，在所述画面切换点中所占的比例；

将重合度满足第一预设条件的切换类型，确定为所述目标切换类型。
根据权利要求9所述的音频切换模板生成装置，其中，所述第一预设条件为重合度最高。
根据权利要求8所述的音频切换模板生成装置，其中，所述获取单元，用于：

将属于所述目标切换类型的音频切换点中与所述画面切换点重合的音频切换点，确定为所述画面切换点对应的目标音频切换点。
根据权利要求8所述的音频切换模板生成装置，其中，所述获取单元，用于：

将属于所述目标切换类型的音频切换点中满足第二预设条件的音频切换点，确定为所述画面切换点对应的目标音频切换点。
根据权利要求12所述的音频切换模板生成装置，其中，所述第二预设条件为与所述画面切换点的时间差最短的音频切换点。
根据权利要求8-13任一项所述的音频切换模板生成装置，其中，

所述获取单元，还用于获取原始视频；

所述处理单元，还用于将所述原始视频划分为至少一个视频片段，并将所述至少一个视频片段中的一个视频片段确定为所述待处理视频。
一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如下步骤：

从待处理视频的视频数据中提取画面切换点；

从所述待处理视频的音频数据中提取至少一个切换类型的音频切换点；所述音频切换点的切换类型包括：节拍切换点、旋律切换点或者歌词切换点中的至少一项；

根据所述画面切换点和所述至少一个切换类型的音频切换点，确定目标切换类型；

从属于所述目标切换类型的音频切换点中，获取目标音频切换点，所述目标音频切换点与所述画面切换点对应；

根据所述目标音频切换点，生成与所述音频数据对应的音频切换模板；所述音频切换模板用于生成与所述音频切换模板对应的视频。
根据权利要求15所述的电子设备，其中，所述处理器被配置为执行所述程序代码，以实现如下步骤：

分别确定所述画面切换点与每个切换类型的音频切换点之间的重合度，所述重合度用于表示与音频切换点匹配的画面切换点的数量，在所述画面切换点中所占的比例；

将重合度满足第一预设条件的切换类型，确定为所述目标切换类型。
根据权利要求16所述的电子设备，其中，所述第一预设条件为重合度最高。
根据权利要求15所述的电子设备，其中，所述处理器被配置为执行所述程序代码，以实现如下步骤：

将属于所述目标切换类型的音频切换点中与所述画面切换点重合的音频切换点，确定为所述画面切换点对应的目标音频切换点。
根据权利要求15所述的电子设备，其中，所述处理器被配置为执行所述程序代码，以实现如下步骤：

将属于所述目标切换类型的音频切换点中满足第二预设条件的音频切换点，确定为所述画面切换点对应的目标音频切换点。
根据权利要求19所述的电子设备，其中，所述第二预设条件为与所述画面切换点的时间差最短的音频切换点。
根据权利要求15-20任一项所述的电子设备，其中，所述处理器被配置为执行所述程序代码，以实现如下步骤：

获取原始视频；

将所述原始视频划分为至少一个视频片段，并将所述至少一个视频片段中的一个视频片段确定为所述待处理视频。
一种非易失性计算机可读存储介质，所述计算机可读存储介质上存储有指令，所述计算机可读存储介质中的指令由电子设备的处理器执行，使得所述电子设备能够执行如下步骤：

从待处理视频的视频数据中提取画面切换点；

从所述待处理视频的音频数据中提取至少一个切换类型的音频切换点；所述音频切换点的切换类型包括：节拍切换点、旋律切换点或者歌词切换点中的至少一项；

根据所述画面切换点和所述至少一个切换类型的音频切换点，确定目标切换类型；

从属于所述目标切换类型的音频切换点中，获取目标音频切换点，所述目标音频切换点与所述画面切换点对应；

根据所述目标音频切换点，生成与所述音频数据对应的音频切换模板；所述音频切换模板用于生成与所述音频切换模板对应的视频。
一种计算机程序产品，包括指令，所述指令在电子设备上运行，使得所述电子设备执行如下步骤：

从待处理视频的视频数据中提取画面切换点；

从所述待处理视频的音频数据中提取至少一个切换类型的音频切换点；所述音频切换点的切换类型包括：节拍切换点、旋律切换点或者歌词切换点中的至少一项；

根据所述画面切换点和所述至少一个切换类型的音频切换点，确定目标切换类型；

从属于所述目标切换类型的音频切换点中，获取目标音频切换点，所述目标音频切换点与所述画面切换点对应；

根据所述目标音频切换点，生成与所述音频数据对应的音频切换模板；所述音频切换模板用于生成与所述音频切换模板对应的视频。