WO2017181852A1

WO2017181852A1 - 一种歌曲确定方法和装置、存储介质

Info

Publication number: WO2017181852A1
Application number: PCT/CN2017/079631
Authority: WO
Inventors: 赵伟锋
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2016-04-19
Filing date: 2017-04-06
Publication date: 2017-10-26
Also published as: MY194965A; US10719551B2; CN105868397A; JP6576557B2; US20180349494A1; KR20180050745A; KR102110057B1; CN105868397B; JP2019505874A

Abstract

一种歌曲确定方法和装置、存储介质，上述方法包括：提取视频中的音频文件，并获取该音频文件中插曲所属候选歌曲的候选歌曲标识，得到候选歌曲标识集合（101）；获取候选歌曲标识对应的候选歌曲文件，并获取该候选歌曲文件与该音频文件之间相匹配的匹配音频帧，得到匹配音频帧单元（102）；其中，该匹配音频帧单元包括多个连续的匹配音频帧；根据该候选歌曲标识对应的该匹配音频帧单元，从该候选歌曲标识集合中获取该插曲所属目标歌曲的目标歌曲标识，并根据该目标歌曲标识确定该插曲所属的目标歌曲（103）。上述方法能够提高确定或定位视频插曲对应歌曲的精确性。

Description

一种歌曲确定方法和装置、存储介质

技术领域

本发明涉及音视频处理技术，具体涉及一种歌曲确定方法和装置、存储介质。

背景技术

随着互联网的发展和通信网络的发展，视频技术也随之得到了突飞猛进的发展，网络视频得到了广泛的推广，越多的用户通过网络观看视频。

目前一些视频中经常会出现插曲，此时，就需要为视频的插曲添加歌词，以使得用户可以观看到插曲的歌词，提升用户体验。而为视频插曲填充歌词首先需要确定或者定位视频插曲所属的歌曲，目前确定或者定位视频插曲所属歌曲的方式主要为：提取视频中视频插曲片段，然后，将视频插曲片段与音乐库中的歌曲进行大致的匹配，将匹配成功的歌曲作为视频插曲所属的歌曲。

相关技术提供的确定或者定位视频插曲所属的歌曲方案中，由于视频插曲片段提取的准确性低，以及歌曲匹配采用较为简单的匹配方式，因此，会导致确定视频插曲对应歌曲的精确性比较低。

发明内容

本发明实施例提供一种歌曲确定方法和装置、存储介质，可以提高确定视频插曲对应歌曲的精确性。

第一方面，本发明实施例提供一种歌曲确定方法，包括：

提取视频中的音频文件，并获取所述音频文件中插曲所属候选歌曲的候选歌曲标识，得到候选歌曲标识集合；

获取候选歌曲标识对应的候选歌曲文件，并获取所述候选歌曲文件与所述音频文件之间相匹配的匹配音频帧，得到匹配音频帧单元，其中，所述匹配音频帧单元包括多个连续的匹配音频帧；

根据所述候选歌曲标识对应的所述匹配音频帧单元，从所述候选歌曲标识集合中获取目标歌曲标识，并根据所述目标歌曲标识确定所述插曲所属的目标歌曲。

第二方面，本发明实施例还提供一种歌曲确定装置，包括：

标识获取单元，配置为提取视频中的音频文件，并获取所述音频文件中插曲所属候选歌曲的候选歌曲标识，得到候选歌曲标识集合；

音频帧获取单元，配置为获取候选歌曲标识对应的候选歌曲文件，并获取所述候选歌曲文件与所述音频文件之间相匹配的匹配音频帧，得到匹配音频帧单元，其中，所述匹配音频帧单元包括多个连续的匹配音频帧；

歌曲确定单元，配置为根据所述候选歌曲标识对应的所述匹配音频帧单元，从所述候选歌曲标识集合中获取目标歌曲标识，并根据所述目标歌曲标识确定所述插曲所属的目标歌曲。

第三方面，本发明实施例提供一种歌曲确定装置，包括：存储器和处理器，所述存储器中存储有可执行指令，所述可执行指令用于引起所述处理器执行包括以下的操作：

提取视频中的音频文件；

获取所述音频文件中插曲所属候选歌曲的候选歌曲标识，形成候选歌曲标识集合；

获取候选歌曲标识对应的候选歌曲文件，并获取所述候选歌曲文件与所述音频文件之间相匹配的匹配音频帧；

基于所获取的匹配音频帧形成匹配音频帧单元，其中，所述匹配音频帧单元包括多个连续的匹配音频帧；

根据所述候选歌曲标识对应的所述匹配音频帧单元，从所述候选歌曲标识集合中获取目标歌曲标识；

根据所述目标歌曲标识确定所述插曲所属的目标歌曲。

第四方面，本发明实施例提供一种存储介质，存储有可执行指令，用于执行本发明实施例提供的歌曲确定方法。

本发明实施例采用提取视频中的音频文件，并获取该音频文件中插曲所属候选歌曲的候选歌曲标识，得到候选歌曲标识集合，然后，获取候选歌曲标识对应的候选歌曲文件，并获取该候选歌曲文件与该音频文件之间相匹配的匹配音频帧，得到匹配音频帧单元，其中，该匹配音频帧单元包括多个连续的匹配音频帧，根据该候选歌曲标识对应的该匹配音频帧单元，从该候选歌曲标识集合中获取该插曲所属目标歌曲的目标歌曲标识，并根据该目标歌曲标识确定该插曲所属的目标歌曲。

该方案可以先获取视频插曲所属候选歌曲的候选歌曲标识集合，然后，基于视频的音频文件与歌曲之间的匹配音频帧，从候选歌曲标识集合中选取视频插曲所属歌曲的标识，从而确定视频插曲所属的歌曲，相对于相关技术而言，可以提高确定或者定位视频插曲对应歌曲的精确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种歌曲确定方法的流程图；

图2a是本发明实施例提供的一种获取候选歌曲标识的流程图；

图2b是本发明实施例提供的频谱峰值点分布图；

图2c是本发明实施例提供的过滤后的频谱峰值点分布图；

图3a是本发明实施例提供的第一种歌曲确定装置的结构示意图；

图3b是本发明实施例提供的第二种歌曲确定装置的结构示意图；

图3c是本发明实施例提供的第三种歌曲确定装置的结构示意图；

图4是本发明实施例提供的歌曲确定装置的硬件的结构的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种歌曲确定方法和装置。以下将分别进行详细说明。

本发明实施例将从歌曲确定装置的角度进行描述，该歌曲确定装置具体可以集成在服务器等需要确定视频插曲对应歌曲的设备中。

当然，该歌曲确定装置也可以集成在用户终端(如智能手机、平板电脑)等需要确定视频插曲对应歌曲的设备中。

本发明实施例提供一种歌曲确定方法，包括：提取视频中的音频文件，并获取该音频文件中插曲所属候选歌曲的候选歌曲标识，得到候选歌曲标识集合，然后，获取候选歌曲标识对应的候选歌曲文件，并获取该候选歌曲文件与该音频文件之间相匹配的匹配音频帧，得到匹配音频帧单元，其中，该匹配音频帧单元包括多个连续的匹配音频帧，根据该候选歌曲标识对应的该匹配音频帧单元，从该候选歌曲标识集合中获取该插曲所属目标歌曲的标识，即目标歌曲标识，并根据该目标歌曲标识确定该插曲所属的目标歌曲。

如图1所示，该歌曲确定方法的具体流程可以如下：

步骤101、提取视频中的音频文件，并获取该音频文件中插曲所属候选歌曲的候选歌曲标识，得到候选歌曲标识集合。

其中，获取视频的方式可以有多种，比如，可以向视频服务器发送请求来获取视频，也可以从本地存储中提取视频；也即步骤“提取视频中的音频文件”可以包括：

向视频服务器发送视频获取请求；

接收该视频服务器根据该视频获取请求返回的视频；

提取该视频中的音频文件。

该提取视频中的音频文件的方式可以有多种，比如，可以对视频进行音频和视频进行分离处理，得到视频的音频文件；即步骤“提取视频中的音频文件”可以包括：对视频进行音视频分离处理，得到视频的音频文件。

在本发明实施例中，插曲所属的候选歌曲可以为可能与视频插曲相匹配的歌曲，该候选歌曲标识为与视频插曲匹配的歌曲的标识。

该获取候选歌曲标识的方式可以有多种，比如，先将视频的音频文件划分成多个音频段，然后，将每个音频段与歌曲(曲库中的歌曲)进行匹配，以得与视频插曲相匹配的歌曲，将该歌曲的标识作为候选歌曲标识；例如，基于音频段与歌曲的音频指纹(也就是歌曲的音频的数字化的特征)进行歌曲匹配；也即步骤“获取该音频文件中插曲所属候选歌曲的候选歌曲标识”可以包括：

将该音频文件划分成多个音频段，并获取该音频段的音频指纹；

确定预设样本集合中是否存在与该音频指纹匹配的指纹样本；

若是，则获取匹配指纹样本对应的歌曲标识，得到该音频段对应的歌曲标识集合，该歌曲标识集合包括多个该歌曲标识；

从该歌曲标识集合中，选取该插曲所属候选歌曲的候选歌曲标识。

其中，获取候选歌曲标识的具体过程将在本发明实施例的后续记载中作进一步描述。

步骤102、获取候选歌曲标识对应的候选歌曲文件，并获取该候选歌曲文件与该音频文件之间相匹配的匹配音频帧，得到匹配音频帧单元，其中，该匹配音频帧单元包括多个连续的匹配音频帧。

比如，可以从歌曲服务器的歌曲数据库中获取候选歌曲标识对应的候选歌曲文件，例如，可以向歌曲服务器发送请求来获取对应的歌曲文件；也即步骤“获取候选歌曲标识对应的候选歌曲文件”可以包括：

向歌曲服务器发送歌曲获取请求，该歌曲获取请求携带候选歌曲标识；

接收该歌曲服务器根据该歌曲获取请求返回的候选歌曲文件。

其中，匹配音频帧可以为候选歌曲文件与该音频文件之间相匹配的匹配音频帧，比如，在候选歌曲文件包括多个第一音频帧，音频文件包括多个第二音频帧时，候选歌曲文件中与该音频文件中第二音频帧匹配的第一音频帧为匹配音频帧，同样，音频文件中与候选歌曲文件中第一音频帧匹配的第二音频帧也为匹配音频帧。此时，该匹配音频帧单元可以为候选歌曲文件中的音频帧单元，也可以为音频文件中的音频帧单元。

可以理解地，上述的第一音频帧是用于表示候选歌曲中的音频帧，以用于与音频文件中的音频帧(即第二音频帧)进行比较，并非是候选歌曲中的某个特定的音频帧，同理，第二音频帧是用于表示音频文件中的音频帧，并非用于表示音频文件中的某个特定的音频帧。

本发明实施例中，获取匹配音频帧的方式可以有多种，比如，将候选歌曲中音频帧与音频文件中的音频帧进行匹配。

例如，音频帧匹配可以采用基于音频帧的音频特征匹配的方式，如将候选歌曲文件中的第一音频帧的音频特征与音频文件中第二音频帧的音频特征进行匹配，根据音频帧的音频特征匹配结果来获取匹配音频帧；也即步骤“获取该候选歌曲文件与该音频文件之间相匹配的匹配音频帧，得到匹配音频帧单元”可以包括：

将该候选歌曲文件中第一音频帧的音频特征与该音频文件中第二音频帧的音频特征进行匹配，得到匹配结果；

根据该匹配结果获取该候选歌曲文件与该音频文件之间相匹配的匹配音频帧；

根据该匹配音频帧获取匹配音频帧单元。

其中，音频帧的音频特征可以称为音频指纹，该音频特征的获取方式可以有多种，比如，可以根据音频帧对应频段的平均幅值来获取，也即在步骤“根据候选歌曲标识获取相应的候选歌曲文件”之后，步骤“将该候选歌曲文件中第一音频帧对应的音频特征与该音频文件中第二音频帧对应的音频特征进行匹配”之前，该歌曲确定方法还可以包括：获取该候选歌曲文件中第一音频帧对应的音频特征；例如，步骤“获取该候选歌曲文件中第一音频帧对应的音频特征”可以包括：

获取所候选歌曲文件中每个第一音频帧对应的频谱；

将该第一音频帧对应的频谱划分成预设数量的频段，并获取该频段对应的平均幅值；

将每个该频段的平均幅值与上一个第一音频帧对应频段的平均幅值进行比较，得到比较结果；

根据该比较结果获取该第一音频帧对应的音频特征。

例如，将候选歌曲文件转换成预设格式的音频，如8k16bit音频(也就是8*1024采样率、16比特的量化音频)，然后，以第一预设数量的采样点为一帧，以第二预设数量的采样点为帧移进行傅立叶变换，得到频谱(如以1856个采样点为一帧，以58个采样点为帧移进行傅立叶变换)，接着，将该频谱平均分成第三预设数量(如32个)的频段，并计算每个频段对应的平均幅度值，随后，将每个频段与上一个帧中对应频段进行比较(第二音频帧中第一个频段与第一个音频帧第一频段进行比较，第二音频帧中第二频段与第一个音频帧第二频段进行比较，依次类推直到比较完所有频段)，若大于则为1，小于则为0，这样每一个帧将会得到第三预设数量个bit值组成的数据单元，该数据单元即为该帧的音频特征；例如，在将频谱划分长32个频段的情况下，每一音频帧将会得到一个包括32个bit值的数据单元，该32个bit值即为每一音频帧的音频特征。

同样，视频中的音频文件的音频特征也可以采用上述获取方式获取，例如获取过程可以参考上述描述，这里就不在赘述。

本发明实施例中音频特征的匹配方式可以有多种，比如，可以以帧单元为一个单位进行特征匹配，即步骤“将该候选歌曲文件中第一音频帧对应的音频特征与该音频文件中第二音频帧对应的音频特征进行匹配，得到匹配结果”可以包括：

获取该候选歌曲文件中第一音频帧的帧数，从该音频文件中选取音频帧单元，该音频帧单元包括与该帧数相等数量的第二音频帧；

将该候选歌曲文件中第一音频帧的音频特征与该音频帧单元中第二音频帧的音频特征进行匹配，得到音频特征匹配结果；

此时，步骤“根据该匹配结果获取该候选歌曲文件与该音频文件之间相匹配的匹配音频帧”可以包括：根据该音频特征匹配结果获取该候选歌曲文件与该音频文件之间相匹配的匹配音频帧，该匹配音频帧为音频特征匹配成功的音频帧；

相应地，步骤“根据该匹配音频帧获取匹配音频帧单元”可以包括：获取该匹配音频帧连续的个数，并根据该个数获取相应的匹配音频帧单元。

例如，步骤“获取该匹配音频帧连续的个数，并根据该个数获取相应的匹配音频帧单元”可以包括：

根据匹配音频帧获取帧连续单元，该帧连续单元包括多个连续的该匹配音频帧；

获取帧连续单元中匹配音频帧的个数，并根据该个数确定该帧连续单元为匹配音频帧单元。

比如，候选歌曲有n个第一音频帧，音频文件有m个第二音频帧，m＞n，且均为正整数时，从m个第二音频帧中连续选取n个第二音频帧组成音频帧单元a，然后，将音频帧单元a中第二音频帧的音频特征与候选歌曲中相应第一音频帧的音频特征进行匹配(如将音频帧单元a中第一个音频帧与候选歌曲中第一个音频帧的音频特征进行匹配，将音频帧单元a中第二个音频帧与候选歌曲中第二音频帧的音频特征进行匹配，以此类推，直至将音频帧单元a第n个音频帧与候选歌曲中第n个音频帧的音频特征进行匹配)，此时，需要进行n次的特征匹配，得到音频特征匹配结果。

如音频特征匹配结果包括音频特征匹配成功的第一音频帧和第二音频帧，根据该匹配结果获取匹配音频帧，并获取帧连续单元以及该帧连续单元中匹配音频帧的个数。

接着，重新从m个第一音频帧连续选取新的n个第二音频帧组成新的音频帧单元b，其中，该音频帧单元b与音频帧单元a存在至少一个不同的第二音频帧(也即，重新连续选取的n个第二音频帧，与之前连续选取的n个第二音频帧至少存在一个不同的音频帧；如，之前选取第1个第二音频帧……第10个第二音频帧组成音频帧单元a，之后可以选取第2个第二音频帧……第11个音频帧组成音频帧单元b)，将音频帧单元b中第二音频帧的音频特征与候选歌曲中相应第一音频帧的音频特征进行匹配(如将音频帧单元b中第一个音频帧与候选歌曲中第一个音频帧的音频特征进行匹配，将音频帧单元b中第二个音频帧与候选歌曲中第二音频帧的音频特征进行匹配……将音频帧单元b第n个音频帧与候选歌曲中第n个音频帧的音频特征进行匹配)，以得音频特征匹配结果，如该结果包括音频特征匹配成功的第一音频帧和第二音频帧，根据该匹配结果获取匹配音频帧，并获取帧连续单元以及该帧连续单元中匹配音频帧的个数，……依次类推接下来还需要重新连续选取新的n个第二音频帧组成音频帧单元，并进行音频特征匹配，以获取匹配音频帧连续的个数，直到每个第二音频帧均经过匹配之后才停止匹配。

在经过前述匹配之后，可得到一系列帧连续单元及其对应的匹配音频帧个数，此时，可以基于该个数来确定帧连续单元为匹配音频帧单元。比如，可以选取匹配音频帧个数最大的帧连续单元为匹配音频帧单元；也即步骤“根据该个数确定该帧连续单元为匹配音频帧单元”可以包括：当该帧连续单元的匹配音频帧个数大于其余帧连续单元的匹配音频帧个数时，确定该帧连续单元为匹配音频帧单元。

比如，候选歌曲有10个音频帧p，即10帧，音频文件有20个音频帧q，即20帧时，可以选取第1至第10个音频帧b组成第一音频帧单元，然后，将第一音频帧单元中的第1-10个音频帧q(也就是音频文件中的第1至10个音频帧))，与候选歌曲的10个音频帧p进行匹配，得到匹配音频帧(例如，将音频帧单元中第1个音频帧q与音频帧p进行特征匹配……，将第10个音频q与第10个音频帧p进行特征匹配)，获取连续的匹配音频帧组成帧连续单元，并获取帧连续单元中匹配音频帧的个数。

接着，选取音频文件中的第2至11个音频帧q组成第二音频帧单元，然后，将第二音频帧单元中的第1-10个音频帧q(也就是音频文件中的第2至11个音频帧q)与10个音频帧p进行匹配，得到匹配音频帧，获取连续的匹配音频帧组成帧连续单元，并获取帧连续单元中匹配音频帧的个数，以此类推，直到选取第11至第20个音频帧q组成音频帧单元进行特征匹配。

经过前面的特征匹配，可得到多个帧连续单元及其对应的匹配音频帧个数，此时，可以选取包括的匹配音频帧个数最大的帧连续单元作为匹配音频帧单元，即选取最长的帧连续单元作为匹配音频帧单元。

步骤103、根据该候选歌曲标识对应的该匹配音频帧单元，从该候选歌曲标识集合中获取该插曲所属目标歌曲的目标歌曲标识，并根据所述目标歌曲标识确定所述插曲所属的目标歌曲。

通过步骤102可以获取候选歌曲标识对应的候选歌曲文件与音频文件之间相匹配的匹配音频帧单元，即每个候选歌曲标识对应的匹配音频帧单元，这样便可以根据候选歌曲标识对应的匹配音频帧单元从候选歌曲标识集合选取视频插曲所属目标个的目标歌曲标识。

比如，可以对匹配音频帧单元进行帧扩展得到候选歌曲文件与音频文件之间相匹配的匹配歌曲片段，然后，基于该匹配歌曲片段来获取目标歌曲标识；也即步骤“根据该候选歌曲标识对应的该匹配音频帧单元，从该候选歌曲标识集合中获取该插曲所属目标歌曲的目标歌曲标识”可以包括：

对该候选歌曲标识对应的该匹配音频帧单元进行音频帧扩展，得到该候选歌曲标识对应的匹配歌曲片段；

根据该匹配歌曲片段获取候选歌曲标识对应的时间信息，该时间信息包括：该匹配歌曲片段在该视频中的第一起始时间、在该候选歌曲中的第二起始时间以及该匹配歌曲片段的时长；

根据该候选标识对应的时间信息从该候选歌曲标识集合中获取该插曲所属目标歌曲的目标歌曲标识。

可以理解地，第一起始时间用于表示该匹配歌曲片段在该视频中的起始时间，以与在该匹配歌曲片段在候选歌曲中的起始时间(也就是第二起始时间)进行区分，并非用于特指某个时间。

其中，候选歌曲标识对应的匹配歌曲片段为候选歌曲标识对应的候选歌曲与音频文件相匹配的匹配歌曲片段，该匹配歌曲片段可以为候选歌曲中的歌曲片段，也可以为音频文件中的歌曲片段；本发明实施例中，由于匹配歌曲片段由音频帧组成，在获取匹配歌曲片段之后即可根据片段中音频帧获取该片段在候选歌曲中的起始时间，在视频中的起始时间，以及该片段的时长(即该片段的长度)。

比如，可以根据片段的音频帧在歌曲中序号获取片段在候选歌曲中的起始时间，也可以根据片段的音频帧在音频文件中序号获取片段在视频中的起始时间。

本发明实施例中，对匹配音频帧单元进行帧扩展的方式可以有多种，比如，分别在候选歌曲文件和音频文件中进行帧扩展，也即步骤“对该候选歌曲标识对应的该匹配音频帧单元进行音频帧扩展，得到该候选歌曲标识对应的匹配歌曲片段”可以包括：

分别在该候选歌曲文件和该音频文件中对该匹配音频帧单元进行音频帧扩展，得到该候选歌曲文件中的第一匹配音频帧扩展单元以及该音频文件中的第二匹配音频帧扩展单元；

将该第一匹配音频帧扩展单元中第一音频帧的音频特征与该第二匹配音频帧扩展单元中第二音频帧的音频特征进行匹配，得到扩展单元之间的匹配音频帧；

根据该扩展单元之间的匹配音频帧的数量，确定该第一匹配音频帧扩展单元或者第二匹配音频帧扩展单元为该候选歌曲与该音频文件之间相匹配的匹配歌曲片段。

在本发明实施例一实施方式中，可以在候选歌曲文件中音频文件同步进行帧扩展，即扩展的音频帧数相同，方向相同。

其中，根据该扩展单元之间的匹配音频帧的数量确定匹配歌曲片段的方式可以有多种，比如当该数量大于某个预设数量时，确定此时的扩展单元为匹配歌曲片段，又比如，当匹配音频帧的数量与扩展单元音频帧总数量的比值大于预设比值(如90％)时，确定此时的扩展单元为匹配歌曲片段。

在获取候选歌曲标识对应的时间信息情况下，步骤“根据该候选标识对应的时间信息从该候选歌曲标识集合中获取目标歌曲标识”可以包括：

根据候选歌曲标识对应的第二起始时间和该时长获取该候选歌曲标识对应的播放时间，该播放时间为该匹配歌曲片段在该视频中的播放时间；

根据候选歌曲标识对应的播放时间对该候选歌曲标识集合中的候选歌曲标识进行过滤，得到过滤后的候选标识集合；

将该过滤后的候选标识集合中的该候选歌曲作为目标歌曲标识。

比如，在获取候选歌曲标识对应的播放时间之后，可以确定播放时间具有包含关系的候选歌曲标识，然后，过滤掉播放时间被包含的候选歌曲标识，即过滤掉播放时间具有包含关系的候选歌曲标识中播放时间短的候选歌曲标识；例如歌曲ID1对应的播放时间为第1s到第10s，歌曲ID2对应的播放时间为第2s到第5s，歌曲ID3对应的播放时间为第3s至第8s；此时，歌曲ID1、ID2、ID3对应的播放时间具有包含关系，因此，可以过滤播放时间较短的歌曲ID，这里，过滤掉歌曲ID2和ID3。

又比如，在获取候选歌曲标识对应的播放时间之后，还可以确定播放时间具有重叠关系的候选歌曲标识，然后，过滤掉播放时长较短的候选歌曲标识。例如，歌曲ID1对应的播放时间为第1s到第10s，歌曲ID2对应的播放时间为第5s到第12s，此时，可以过滤掉播放时长短的歌曲ID，这里歌曲ID1的播放时长为10s，歌曲ID2的播放时长为7s，因此，过滤掉歌曲ID2。

本发明实施例在获取目标歌曲标识之后，可以将目标歌曲标识对应的歌曲作为插曲所属的目标歌曲。

在本发明实施例一实施方式中，还可以在获取视频插曲对应的目标歌曲标识之后，将视频插曲的歌词填充至视频中，以使得播放视频插曲时显示视频插曲的歌词；也即，在步骤103之后，还可以包括：

根据所述目标歌曲标识及其对应的匹配音频帧单元，将所述插曲对应的歌词填充至所述视频。

例如，在对匹配音频帧单元进行扩展得到匹配歌曲片段及其时间信息的情况下，步骤“根据所述目标歌曲标识及其对应的匹配音频帧单元，将所述插曲对应的歌词填充至所述视频”可以包括：根据目标歌曲标识及其对应的时间信息，获取该插曲对应的歌词，并将该歌词填充至该视频，其中，时间信息为该目标歌曲对应的匹配歌曲片段的时间信息。

比如，可以根据目标歌曲标识对应的匹配歌曲片段在歌曲中的起始时间、以及该匹配歌曲片段的时长，获取插曲对应的歌词，以及根据该匹配歌曲片段在视频中的起始时间以及时长来进行歌词填充；也即步骤“根据目标歌曲标识及其对应的时间信息，获取该插曲对应的歌词，并将该歌词填充至该视频”可以包括：

根据目标歌曲标识及其对应的该第一起始时间、该时长，获取该插曲对应的歌词；

根据该目标歌曲标识对应的该第二起始时间和该时长，将该歌词填充至该视频。

比如，可以根据目标歌曲标识获取相应目标歌曲的目标歌词文件，然后，根据匹配歌曲片段在该目标歌曲中的起始时间和匹配歌曲片段的时长，从该目标歌词文件中提取插曲对应的歌词；即步骤“根据目标歌曲标识及其对应的该第一起始时间、该时长，获取该插曲对应的歌词”可以包括：

根据目标歌曲标识获取相应的目标歌曲的歌词文件；

根据目标歌曲标识对应的第一起始时间和时长，从该歌词文件中提取相应的歌词，以作为插曲的歌词。

例如，目标歌曲标识为歌曲1，该歌曲1对应的匹配歌曲片段在歌曲1中的起始时间为第5s，该匹配歌曲片段为10s，此时，可以从歌曲1的歌词文件中获取第5s至15s的歌词。

又比如，步骤“根据该目标歌曲标识对应的该第二起始时间和该时长，将该歌词填充至该视频”可以包括：

根据该目标歌曲对应的第二起始时间和时长，获取歌词在视频中的展示时间；

根据该展示时间将该歌词填充至该视频。

例如，目标歌曲标识对应的匹配歌曲片段在视频中的第二起始时间为第7s，以及匹配歌曲片段的时长为8s，此时，可以得到歌词在视频中的展示时间为第7s至第15s，之后，可以基于该展示时间在视频的相应位置插入该歌词。

在本发明实施例一实施方式中，为展示完整语句的插曲歌词，以提升用户体验，在获取插曲歌词之后可以确定歌词是否为完整的语句，若是，则进行歌词填充操作；也即在步骤“获取该插曲对应的歌词”之后，步骤“将歌词填充至该视频”之前，该方法还可以包括：

确定该歌词是否为完整的语句；

若是，则执行根据该目标歌曲标识对应的该第二起始时间和该时长，将该歌词填充至该视频的步骤。

在本发明实施例一实施方式中，为了提高用户体验，还可以在视频中设置一个接口，以使得在播放视频插曲时可以通过该接口跳转到播放该视频插曲所属的歌曲；也即在步骤“在获取该插曲目标歌曲标识”之后，该方法还可以包括：

根据目标歌曲标识在该视频中设置跳转接口，以使得终端在播放该插曲时通过该跳转接口跳转至播放该插曲所属的目标歌曲。

其中，该跳转接口的形式可以为多种，比如可以为按钮、输入框等等，可以根据实际需求设定。

在本发明实施例一实施方式中，为提高用户体验，还可以同样在视频中设置一个为接口，以使得在播放视频插曲时可以通过该接口将视频插曲所属的目标歌曲添加到音乐软件的歌曲列表中，也即在步骤“获取所述插曲所属目标歌曲的目标歌曲标识”之后，还可以包括：

根据目标歌曲标识在所述视频中设置添加接口，以使得终端在播放所述插曲时通过所述添加接口将所述目标歌曲添加到音乐软件的歌曲列表中。

其中，该添加接口的形式可以为多种，比如可以为按钮、输入框等等，可以根据实际需求设定；音乐软件可以为常用的音乐播放软件，如基于云端的音乐播放软件、在线音乐播放软件等等，该歌曲列表可以为歌单或者歌曲播放列表，如收藏歌单等等。

由上可知，本发明实施例采用提取视频中的音频文件，并获取该音频文件中插曲所属候选歌曲的候选歌曲标识，以得到候选歌曲标识集合，然后，获取候选歌曲标识对应的候选歌曲文件，并获取该候选歌曲文件与该音频文件之间相匹配的匹配音频帧，以得到匹配音频帧单元，其中，该匹配音频帧单元包括多个连续的匹配音频帧，根据该候选歌曲标识对应的该匹配音频帧单元，从该候选歌曲标识集合中获取该插曲所属目标歌曲的目标歌曲标识，并根据该目标歌曲标识确定该插曲所属的目标歌曲；该方案可以先获取视频插曲所属候选歌曲的候选歌曲标识集合，然后，基于视频的音频文件与歌曲之间的匹配音频帧，从候选歌曲标识集合中选取视频插曲所属歌曲的标识，从而确定视频插曲所属的歌曲，相对于相关技术而言，可以提高确定或者定位视频插曲对应歌曲的精确性和效率。

此外，本发明实施例还在确定视频插曲所属歌曲之后，根据目标歌曲标识及其对应的匹配音频帧单元将该插曲对应的歌词填充至该视频；该方案还可以自动完成视频插曲与歌曲的匹配，以确定视频插曲所属的歌曲，并可以自动获取视频插曲的歌词进行填充，相对于相关技术而言，还可以提高视频插曲歌词填充的准确性以及效率。

本发明实施例将在前述记载的歌曲确定方法的基础上，作进一步说明。

由本发明实施例前述的记载可知，可以基于视频中音频文件和候选歌曲文件之间的音频指纹匹配获取候选歌曲标识，本发明实施例中将着重介绍基于音频指纹匹配获取候选歌曲标识的过程，参考图2a，该获取候选歌曲标识的流程如下：

步骤201、将该音频文件划分成多个音频段，并获取该音频段的音频指纹。

例如，音频文件的划分方式可以有多种，比如，可以以预设帧长和预设帧移，将音频文件划分成多个音频段，每个音频段的时长与预设帧长相等，也即步骤“将该音频文件划分成多个音频段”可以包括：

将音频文件转换成相应格式的音频；

以预设帧长和预设帧移，将音频文件划分成多个音频段。

例如，将音频文件转换成8k16bit(也就是8*1024采样率、16比特的量化音频)脉码编码调制(PCM Pulse Code Modulation)也称为音频，然后，以10秒为帧长，1秒为帧移，分割为多个以10秒钟为一段的小音频段，如，在每帧时长为1s时，将第一帧与第十帧划分成一个音频段，将第二帧与第十一帧划分成一个音频段。具体实施时可以根据实际需求选的合适的划分方式。

本发明实施例中音频指纹可以为多种，为了减少计算量，加快歌词填充速度，选用音频小指纹，该音频小指纹为一种数据结构，其可以由频谱上频谱峰值点组合而成，例如，获取音频的音频帧对应的频谱，然后，提取音频帧对应的频谱峰值点，从而得到该音频对应的频谱峰值点，然后，将集合中峰值点两两组合得到音频指纹；也即步骤“获取该音频段的音频指纹”可以包括：

获取该音频段中音频帧对应的频谱；

从该频谱中提取该音频帧对应的频谱峰值点，得到该音频段对应的峰值集合，该峰值集合包括该音频帧对应的频谱峰值点；

将该峰值集合中频谱峰值点两两进行组合，得到该音频段的音频指纹。

在本发明实施例一实施方式中，步骤“将该峰值集合中频谱峰值点两两进行组合，得到该音频段的音频指纹”可以包括：

确定与该频谱峰值点相组合的目标频谱峰值点；

将该频谱峰值点与该目标频谱峰值点进行组合，得到音频段的音频指纹，该音频指纹包括：该频谱峰值点对应的频率、该频谱峰值点与该目标频谱峰值点之间的时间差和频率差。

其中，与该频谱峰值点相组合的目标频谱峰值点，可以为除了该频谱峰值点以外的频谱峰值点；比如，在获取音频段对应的峰值集合之后，根据峰值集合生成频率峰值点分布图，然后，在可以在频率峰值点分布图确定某个频率峰值点(也称为锚点)对应的目标区域，该目标区域包括：与该频率峰值点相组合的目标频率峰值点，接着，将该锚点与目标区域中的目标频率峰值点进行组合，组合之后，可以得到多个音频指纹。

例如，将某个频谱峰值点a1(t1，f1)与目标区域内的目标频谱峰值点a2(t2，f2)进行组合构成音频指纹D1(f1，Δf’，Δt’)，其中，频率Δf’＝f2-f1，Δt’＝t2-t1，其中，该t1可以为音频指纹D1在该音频段内的偏移时间，同样将该频谱峰值点a1(t1，f1)分别与目标区域内的目标频谱峰值点a3(t3，f3)，a4(t4，f4)进行组合，可以得到音频指纹D2(f1，Δf”，Δt”)，D2(f1，Δf”’，Δt”’),其中，Δf”＝f3-f1，Δt”＝t3-t1,Δf”；＝f4-f1，Δt”’＝t4-t1，以此类推，可以得到音频段对应的音频指纹集合。

其中，频率峰值点分布图的横轴为时间，纵轴为峰值点的频率，由于音频帧与时间具有对应关系，为了快速获取音频指纹，本发明实施例中可以用音频帧序号来表示时间，此外，还可以用频带索引号来表示峰值点的频率，索引号的范围可以为(0～255)，即上述峰值点t和f分别可以用音频帧序号和频段索引号来表示。此时，目标区域即可用音频帧序号和频带索引号来表示，比如，目标区域可以由时间区域和频域区域构成，其中，时间区域可以为(15～63)帧(时间差用6bit表示)，频域区域可以为(-31～31)个频带(频带差用6bit表示)，该目标区域的大小可以根据实际需求设定，为了节省资源加快获取指纹速度，在本发明实施例一实施方式中，该目标区域中仅可以包括三个目标频谱峰值点，即锚点对应的目标频谱峰值点的个数为3。

在本发明实施例一实施方式中，为了能够精确地提取音频指纹，需要保证频谱峰值点分布均匀，因此，需要对音频段的峰值集合进行峰值点过滤，例如，过滤掉存在相互影响的峰值点，比如，由于人对声音感知时，短时谱峰值频率点之间是相互影响，一个频率分量可能掩蔽与其相近的频率分量(即所谓的听觉掩蔽效应)，所以要将时间间距较小，且频率间距较小的峰值点过滤掉，以保证选取的峰值点沿时间和频率轴分布比较均匀；即在步骤“得到音频段对应的峰值集合”之后，步骤“将该峰值集合中频谱峰值点两两进行组合”之前，该歌曲确定方法还可以包括：

根据频谱峰值点之间的时间差以及频率差，对峰值集合中频谱峰值点进行过滤。

参考图2b，为某个音频的峰值集合对应的频谱峰值点分布图，为了使得频谱峰值点分布均匀，可以对该峰值集合中峰值点进行过滤，过滤后的峰值集合对应的频谱峰值点分布参考图2c。

为了与本发明实施例前述记载的音频指纹(即音频特征)进行区别，比如，可以基于音频指纹的大小进行区别，该实施例一中音频特征可以称为大音频指纹，本发明实施例基于图2的记载中音频段的音频指纹可以称为小音频指纹。

步骤202、确定预设样本集合中是否存在与该音频指纹匹配的指纹样本，若是，执行步骤203，若否，结束流程。

其中，预设样本集合可以包括至少一种指纹样本，该预设样本集合中每一种指纹样本为一首歌曲的音频指纹；例如，预设样本集合可以多种指纹样本，每一种指纹样本可以对应一种歌曲ID，例如，指纹样本1对应歌曲1、指纹样本2对应歌曲2……指纹样本n对应歌曲n。

例如，可以获取音频段的多个音频指纹，然后，确定预设样本集合中是否存在每个音频指纹匹配(即相同)的指纹样本，得到多个匹配指纹样本，然后，获取每个匹配指纹样本对应的歌曲标识，以得到歌曲标识集合，该歌曲标识集合包括多个该歌曲标识。比如，对于某个音频段，该音频段对应的音频指纹包括：音频指纹D1、音频指纹D2时，将该音频段的音频指纹D1分别与预设样本集合中指纹样本一一比较，若有与音频指纹D1相同的指纹样本，则确定预设样本存在与该音频指纹D1相匹配的指纹样本，同样，可以将音频指纹D2分别与预设样本集合中指纹样本一一比较，若有与音频指纹D2相同的指纹样本，则确定预设样本集合存在与该音频指纹D2相匹配的指纹样本。

本发明实施例中，可以从歌曲数据库中提取歌曲，然后，提取该歌曲的音频指纹作为指纹样本，其中，提取歌曲的音频指纹的方式也可以采用上述音频段的音频指纹获取方式，即可以获取歌曲中音频帧对应的频谱，然后，提取频谱峰值点，并对频谱峰值点两两组合，以得到歌曲的音频指纹(即指纹样本)，该歌曲可以从某个歌曲数据库中提取；也即在步骤201之前，该歌曲确定方法还可以包括：

从歌曲数据库中获取歌曲；

获取歌曲对应的音频指纹，并将该歌曲对应的音频指纹作为指纹样本，以得到预设样本集合。

步骤203、获取匹配指纹样本对应的歌曲标识，以得到该音频段对应的第一歌曲标识集合，该第一歌曲标识集合包括多个该歌曲标识。

其中，获取匹配指纹样本对应的歌曲标识的方式可以有多种，比如，可以采用映射关系集合来获取匹配指纹样本对应的歌曲标识，该映射关系集合可以包括指纹样本与歌曲标识之间的映射关系(即对应关系)，也即步骤“获取匹配指纹样本对应的歌曲标识”的步骤具体，包括：

基于映射关系集合获取该匹配指纹样本对应的歌曲标识，该映射关系集合包括指纹样本与歌曲标识之间的映射关系。

其中，该映射关系集合可以为预置的映射关系集合，该指纹样本与歌曲标识之间的映射关系可以由系统预先设置，也可以由用户自行进行设置；也即在步骤“提取视频中的音频文件”之前，该歌曲确定方法还可以包括：

接收映射关系设置请求，该映射关系设置请求指示需要建立映射关系的指纹样本和歌曲标识；

根据该映射关系设置请求建立指纹样本与歌曲标识之间的映射关系，以得到映射关系集合。

本发明实施例中映射关系集合可以以表格的形式呈现，称为映射关系表，该映射关系表可以包括：预设样本集合，以及预设样本集合中指纹样本对应的歌曲标识，其中，该映射关系表可以存储在某个数据库，可称为指纹库。

步骤204、从该歌曲标识集合中，选取该插曲所属候选歌曲的候选歌曲标识。

在本发明实施例获取音频段对应的歌曲标识集合之后，还需要进一步地作筛选，获取最有可能与音频段匹配的歌曲标识；由于最有可能与音频段匹配的歌曲(即插曲所属的候选歌曲)与音频段在歌曲标识对应的歌曲中的起始时间相关，因此，可以基于音频段在歌曲中的起始时间从歌曲标识集合中选取插曲所属候选歌曲的候选歌曲标识；也即步骤“获取音频指纹”之后，步骤“从歌曲标识集合中选取候选歌曲标识”之前，该方法还可以包括：获取该音频指纹在该音频段中的第一偏移时间、以及该匹配指纹样本在匹配歌曲中的第二偏移时间，其中，该第一偏移时间为该频谱峰值点在该音频段内的时间，该匹配歌曲为该歌曲标识对应的歌曲；

此时，步骤“从该歌曲标识集合中，选取该插曲所属候选歌曲的候选歌曲标识”可以包括：

根据该第一偏移时间和该第二偏移时间，获取该音频段在该匹配歌曲中的起始时间；

根据该音频段在匹配歌曲中的起始时间，从该歌曲标识集合中选取该候选歌曲标识。

比如，可以获取音频指纹D1(f1，Δf’，Δt’)在音频段内的偏移时间t1，该t1即为频谱峰值点a1在音频段中的时间，同样在采用上述方式提取指纹样本时，该指纹样本在其所属歌曲中的偏移时间，即为指纹样本对应的频谱峰值点(即锚点)在其所属歌曲中的时间。

例如，本发明实施例中可以基于预设时间映射关系集合来获取匹配指纹样本在匹配歌曲中的偏移时间，该预设时间映射关系集合可以包括：指纹样本与该指纹样本在其所属歌曲中的偏移时间之间的映射关系(对应关系)，也即步骤“该匹配指纹样本在匹配歌曲中的第二偏移时间”可以包括：

根据预设时间映射关系集合，获取匹配指纹样本在该歌曲标识中对应的匹配歌曲中的第二偏移时间，其中，预设时间映射关系集合包括：指纹样本与该指纹样本其所属歌曲中的偏移时间之间的映射关系。

其中，该预设时间映射关系集合可以为预置的时间映射关系集合，该指纹样本与偏移时间之间的映射关系可以由系统预先设置，也可以由用户自行进行设置；也即在步骤“提取视频中的音频文件”之前，该歌词填充方法还可以包括：

接收时间映射关系设置请求，该时间映射关系设置请求指示需要建立映射关系的指纹样本和偏移时间，该偏移时间为该指纹样本在其所属歌曲中的偏移时间；

根据该时间映射关系设置请求建立指纹样本与偏移时间之间的映射关系，以得到时间映射关系集合。

本发明实施例中时间映射关系集合可以以表格的形式呈现，称为时间映射关系表，该映射关系表可以包括：预设样本集合，以及预设样本集合中指纹样本对应的偏移时间。

在本发明实施例一实施方式中，为方便获取歌曲标识和偏移时间，时间映射关系集合与上述映射关系集合设置在同一个映射关系集合，比如，设置一个总映射关系集合，该集合可以包括：指纹样本与歌曲标识之间的映射关系，和指纹样本与偏移时间之间的映射关系，例如，可以设置一张总映射关系表，该关系表可以包括：预设样本集合、预设样本集合中指纹样本对应的歌曲标识、预设样本集合中指纹样本对应偏移时间。

实际应用中，如果音频段在多个不同歌曲中的起始时间相同时，表明该多个歌曲最有可能是与音频段匹配的歌曲即视频插曲所属的候选歌曲，也即步骤“根据该歌曲标识集合中歌曲标识对应的起始时间，从该歌曲标识集合中选取该候选歌曲标识”可以包括：

获取该歌曲标识集合中歌曲标识对应的起始时间，以得到时间集合；

根据该起始时间的相同个数从该时间集合中确定目标起始时间；

从歌曲标识集合中选取该目标起始时间对应的歌曲标识作为候选歌曲标识。

比如，可以选取相同个数达到预设个数的起始时间作为目标起始时间，也即步骤“根据该起始时间的相同个数从该时间集合中确定目标起始时间”可以包括：

获取该时间集合中每种该起始时间的个数；

判断该个数是否大于预设个数；

若是，则确定该种起始时间为目标起始时间。

其中，预设个数可以根据实际需求设定，比如，可以为5、6、9等等。

本发明实施例中，音频段在歌曲中的起始时间可以根据该音频指纹对应的偏移时间、以及该歌曲标识集合中该歌曲标识对应的偏移时间得到，例如，可以计算歌曲标识对应的偏移时间与音频指纹对应的偏移时间之间的时间差，该时间差即为该音频段在该歌曲中的起始时间。例如，音频段音频指纹对应的偏移时间为t’，匹配指纹样本对应的偏移时间(即歌曲标识对应的偏移时间)为t”，此时，音频段在该歌曲标识对应的歌曲中的起始时间也即该歌曲标识对应的起始时间为Δt＝t”-t’，采用此方式可以计算歌曲标识集合每个歌曲标识对应的起始时间Δt，得到时间集合，比如(Δt1、Δt2、Δt1、Δt1、Δt2、Δt3……Δt3……Δtn)。

在得到时间集合之后，可以获取每种起始时间的个数，然后，判断该个数是否大于预设个数，若是，则确定待种起始时间为目标起始时间；比如，在预设个数为8时，统计Δt1的个数为10、Δt2的个数为6，Δt3的个数为12，此时Δt1的个数大于预设个数，Δt2的个数小于预设个数，Δt3的个数大于预设个数，那么可以确定Δt1和Δt3为目标起始时间。

在本发明实施例一实施方式中，为提高音频指纹的匹配速度，可以对音频指纹进行转换，比如，采用预设算法将音频指纹转换成一个具体的特征数字，命名为哈希值(hash_key)。例如，对于音频指纹D1(f1，Δf’，Δt’)，可以采用公式：hash_key＝f1·2^12+Δf·2^6+Δt，“^”为指数运算符，将其转换成一个具体的数字，即按位高低构成一个20bit整数，这样在后续进行音频指纹匹配时只需进行hash_key匹配即可，也即步骤“确定预设样本集合中是否存在与该音频指纹匹配的指纹样本”可以包括：

将该音频指纹转换成相应的特征数字；

确定预设数字集合中是否存在与该特征数字匹配的数字样本；

若是，则确定预设样本集合中存在与该音频指纹匹配的指纹样本；

若否，则确定预设样本集合中不存在与该音频指纹匹配的指纹样本。

其中，预设数字样本集合中包括至少一种特征数字，称为数字样本，每一种数字样本可以对应一种歌曲标识。

此时，步骤“获取匹配指纹样本对应的歌曲标识”可以包括：获取匹配数字样本对应的歌曲标识。

例如，可以基于数字映射关系集合来获取匹配数字样本对应的歌曲标识，也即步骤“获取匹配数字样本对应的歌曲标识”可以包括：根据数字映射关系集合获取匹配数字样本对应的歌曲标识，其中，该数字映射关系集合包括：数字样本与歌曲标识之间的对应关系。

其中，该数字映射关系集合可以为预置的数字映射关系集合，该数字样本与歌曲标识之间的映射关系可以由系统预先设置，也可以由用户自行进行设置；也即在步骤“提取视频中的音频文件”之前，该歌曲确定方法还可以包括：

获取歌曲的音频指纹，并将该音频指纹转换成数字特征；

接收数字映射关系设置请求，该数字映射关系设置请求指示需要建立映射关系的数字特征和歌曲标识；

根据该数字映射关系设置请求获取数字特征与歌曲标识之间的映射关系，得到数字映射关系集合。

同样，步骤“获取该匹配指纹样本在匹配歌曲中的第二偏移时间”可以包括：根据数字时间映射关系集合获取匹配数字样本对应的第二偏移时间，其中，数字时间映射关系集合包括数字样本与偏移时间之间的映射关系。例如，数字时间映射关系集合的获取方式可以参考上述数字映射关系集合或者时间映射关系集合的创建方式，这里就不再赘述。

在本发明实施例一实施方式中，该数字映射关系集合、该数字时间映射关系集合可以设置在一个集合中，比如，设置一个总映射关系集合，该集合包括：数字样本与歌曲标识之间的映射关系、数字样本与偏移时间之间的映射关系；例如，可以设置一个映射关系表，该映射关系表可以包括：预设数字样本集合、预设数字样本集合中数字样本对应的歌曲标识、预设数字样本集合中数字样本对应的偏移时间。

例如，可以从歌曲数据库中获取歌曲，然后，获取歌曲的音频指纹及其对应的偏移时间，将音频指纹转换成特征数字hash_key，之后可以创建一张hash_表，该hash_表包括多个hash_记录，每个hash_记录包括：{hash_key}：(value)，其中，hash_key＝f1·2^12+Δf·2^6+Δt(按位高低构成一个20bit整数)，value＝{song_id：t_1}，表示成32bit数字，其中song_id占用19bit(可表示52万首歌曲)，t1占用13bit(如果帧移为0.032ms，可表示最长歌曲长度为5min)。

由上可知，本发明实施例采用将该音频文件划分成多个音频段，并获取该音频段的音频指纹，然后，确定预设样本集合中是否存在与该音频指纹匹配的指纹样本，若是，则获取匹配指纹样本对应的歌曲标识，得到该音频段对应的第一歌曲标识集合，从该歌曲标识集合中，选取该插曲所属候选歌曲的候选歌曲标识；该方案可以获取视频插所属的所有候选歌曲，然后，基于候选歌曲与视频的音频的匹配从该候选歌曲中确定视频插曲对应的歌曲，与相关技术相比，可以提高确定视频插曲对应歌曲的精确性和效率。

此外，由于本发明实施例采用频谱峰值点来构建音频指纹，可以精确地可获取视频插曲对应的候选歌曲及其标识，进一步提高了确定或者定位视频插曲所属候选歌曲的准确性。

本发明实施例还提供一种歌曲确定装置，如图3a所示，该歌曲确定装置还可以包括标识获取单元301、音频帧获取单元302以及歌曲确定单元303，如下：

(1)标识获取单元301；

标识获取单元301，配置为提取视频中的音频文件，并获取该音频文件中插曲所属候选歌曲的候选歌曲标识，得到候选歌曲标识集合。

比如，该标识获取单元301可以包括：音频提取子单元、指纹获取子单元、确定子单元、标识集合获取子单元以及选取子单元；

该音频提取子单元，配置为提取视频中的音频文件；

该指纹获取子单元，配置为将该音频文件划分成多个音频段，并获取该音频段的音频指纹；

该确定子单元，配置为确定预设样本集合中是否存在与该音频指纹匹配的指纹样本；

该标识集合获取子单元，配置为在确定存在与该音频指纹匹配的指纹样本时，获取匹配指纹样本对应的歌曲标识，得到该音频段对应的歌曲标识集合，该歌曲标识集合包括多个该歌曲标识；

该选取子单元，配置为从该歌曲标识集合中，选取该插曲所属候选歌曲的候选歌曲标识。

其中，获取视频的方式可以有多种，比如，可以向视频服务器发送请求来获取视频，也可以从本地存储中提取视频；也即音频提取子单元可以具体配置为：

向视频服务器发送视频获取请求；

接收该视频服务器根据该视频获取请求返回的视频；

提取该视频中的音频文件。

该提取视频中的音频文件的方式可以有多种，比如，可以对视频进行音视频分离处理，以得到视频的音频文件；即步骤“提取视频中的音频文件”可以包括：对视频进行音视频分离处理，以得到视频的音频文件。

例如，该音频文件的划分方式可以有多种，比如，可以以预设帧长和预设帧移，将音频文件划分成多个音频段，每个音频段的时长与预设帧长相等。

例如，获取音频段的音频指纹的方式也有多种，比如可以采用以下方式获取：

获取该音频段中音频帧对应的频谱；

从该频谱中提取该音频帧对应的频谱峰值点，以得到该音频段对应的峰值集合，该峰值集合包括该音频帧对应的频谱峰值点；

将该峰值集合中频谱峰值点两两进行组合，以得到该音频段的音频指纹。

比如，步骤“将该峰值集合中频谱峰值点两两进行组合，以得到该音频段的音频指纹”可以包括：

在本发明实施例一实施方式中，从歌曲标识集合中选取候选歌曲标识的方式可以有多种，比如，可以基于音频指纹的偏移时间来获取，也即，该歌曲确定装置还可以包括：偏移时间获取单元，该偏移时间获取单元，配置为在指纹获取子单元获取音频指纹之后，选取子单元选取候选歌曲标识之前，获取该音频指纹在该音频段中的第一偏移时间、以及该匹配指纹样本在匹配歌曲中的第二偏移时间，其中，该第一偏移时间为该频谱峰值点在该音频段内的时间，该匹配歌曲为该歌曲标识对应的歌曲；

此时，选取子单元，可以具体配置为：

比如，选取子单元具体配置为：

根据每种该起始时间的个数从该时间集合中确定目标起始时间；

(2)、音频帧获取单元302；

该音频帧获取单元302，配置为获取候选歌曲标识对应的候选歌曲文件，并获取该候选歌曲文件与该音频文件之间相匹配的匹配音频帧，以得到匹配音频帧单元，其中，该匹配音频帧单元包括多个连续的匹配音频帧。

比如，该音频帧获取单元302，可以具体包括：匹配子单元、第一获取子单元以及第二获取子单元；

该匹配子单元，配置为将该候选歌曲文件中第一音频帧的音频特征与该音频文件中第二音频帧的音频特征进行匹配，以得到匹配结果；

该第一获取子单元，配置为根据该匹配结果获取该候选歌曲文件与该音频文件之间相匹配的匹配音频帧；

该第二获取子单元，配置为根据该匹配音频帧获取匹配音频帧单元。

其中，该匹配子单元，具体配置为：

此时，该第一获取子单元，具体配置为：根据该音频特征匹配结果获取该候选歌曲文件与该音频文件之间相匹配的匹配音频帧，该匹配音频帧为音频特征匹配成功的音频帧；

该第二获取子单元，具体配置为：

在本发明实施例一实施方式中，本发明实施例歌曲确定装置还可以包括：特征获取单元，该特征获取单元在标识获取单元301获取候选歌曲标识之后，匹配子单元进行特征匹配之前，配置为获取该候选歌曲文件中第一音频帧对应的音频特征。

比如，该特征获取单元，可以具体配置为：

获取所候选歌曲文件中每个第一音频帧对应的频谱；

根据该比较结果获取该第一音频帧对应的音频特征。

例如，将候选歌曲文件转换成预设格式的音频(如8k16bit音频)，然后，以第一预设数量的采样点为一帧，以第二预设数量的采样点为帧移进行傅立叶变换，得到频谱(如以1856个采样点为一帧，以58个采样点为帧移进行傅立叶变换)，接着，将该频谱平均分成第三预设数量(如32个)的频段，并计算每个频段对应的平均幅度值，随后，将每个频段与上一个帧中对应频段进行比较(第二音频帧中第一个频段与第一个音频帧第一频段进行比较，第二音频帧中第二频段与第一个音频帧第二频段进行比较，以此类推直到比较完所有频段)，若大于则为1，小于则为0，这样每一个帧将会得到第三预设数量个bit值组成的数据单元，该数据单元即为该帧的音频特征；例如，在将频谱划分长32个频段的情况下，每一音频帧将会得到一个包括32个bit值的数据单元，该32个bit值即为每一音频帧的音频特征。

(3)、歌曲确定单元303；

该歌曲确定单元303，配置为根据所述候选歌曲标识对应的所述匹配音频帧单元，从所述候选歌曲标识集合中获取目标歌曲标识，并根据所述目标歌曲标识确定所述插曲所属的目标歌曲。

比如，该歌曲确定单元303具体可以包括：音频帧扩展子单元、时间获取子单元、标识获取子单元以及歌曲确定子单元；

该音频帧扩展子单元，配置为对该候选歌曲标识对应的该匹配音频帧单元进行音频帧扩展，得到该候选歌曲标识对应的匹配歌曲片段；

该时间获取子单元，配置为根据该匹配歌曲片段获取候选歌曲标识对应的时间信息，该时间信息包括：该匹配歌曲片段在该视频中的第一起始时间、在该候选歌曲中的第二起始时间以及该匹配歌曲片段的时长；

所述标识获取子单元，配置为根据所述候选标识对应的时间信息从所述候选歌曲标识集合中获取目标歌曲标识；

所述歌曲确定子单元，配置为根据所述目标歌曲标识确定所述插曲所属的目标歌曲。

其中，音频帧扩展子单元可以具体配置为：

分别在该候选歌曲文件和该音频文件中对该匹配音频帧单元进行音频帧扩展，以得到该候选歌曲文件中的第一匹配音频帧扩展单元以及该音频文件中的第二匹配音频帧扩展单元；

将该第一匹配音频帧扩展单元中第一音频帧的音频特征与该第二匹配音频帧扩展单元中第二音频帧的音频特征进行匹配，以得到扩展单元之间的匹配音频帧；

其中，标识获取子单元可以具体配置为：

根据候选歌曲标识对应的播放时间对该候选歌曲标识集合中的候选歌曲标识进行过滤，以得到过滤后的候选标识集合；

将该过滤后的候选标识集合中的该候选歌曲作为该插曲所属目标歌曲的目标歌曲标识。

比如，在获取候选歌曲标识对应的播放时间之后，可以确定播放时间具有包含关系的候选歌曲标识，然后，过滤掉播放时间被包含的候选歌曲标识；又比如，在获取候选歌曲标识对应的播放时间之后，还可以确定播放时间具有重叠关系的候选歌曲标识，然后，过滤掉播放时长较短的候选歌曲标识。

在本发明实施例一实施方式中，参考图3b，基于图3a，本发明实施例歌曲确定装置还可以包括：歌词填充单元304；

该歌词填充单元304，配置为根据所述目标歌曲标识及其对应的匹配音频帧单元，将所述插曲对应的歌词填充至所述视频；

相应地，对于歌曲确定单元303中的所述标识获取子单元和所述歌曲确定子单元来说：

比如，该歌词填充单元304可以包括：歌词获取子单元和填充子单元；

该歌词获取子单元，配置为根据目标歌曲标识及其对应的该第一起始时间、该时长，获取该插曲对应的歌词；

该填充子单元，配置为根据该目标歌曲标识对应的该第二起始时间和该时长，将该歌词填充至该视频。

比如，可以根据目标歌曲标识获取相应目标歌曲的目标歌词文件，然后，根据匹配歌曲片段在该目标歌曲中的起始时间和匹配歌曲片段的时长，从该目标歌词文件中提取插曲对应的歌词，也即歌词获取子单元可以具体配置为：

根据目标歌曲标识获取相应的目标歌曲的歌词文件；

又比如，填充子单元，可以具体配置为：

根据该展示时间将该歌词填充至该视频。

在本发明实施例一实施方式中，为展示完整语句的插曲歌词，以提升用户体验，在获取插曲歌词之后可以确定歌词是否为完整的语句，若是，则进行歌词填充操作；也即本发明实施例歌曲确定装置还可以包括，歌词确定单元305，参考图3c；

该歌词确定单元305，可以配置为在歌词填充单元304获取该插曲对应的歌词之后，将歌词填充至该视频之前，确定该歌词是否为完整的语句；

此时，该歌词填充单元304，可以具体配置为在歌词确定单元305确定歌词是完整的语句时，执行根据该目标歌曲标识对应的该第二起始时间和该时长，将该歌词填充至该视频的步骤。

在本发明实施例一实施方式中，本发明实施例还可以在视频中设置一个接口，以使得在播放视频插曲时可以通过该接口跳转到播放该视频插曲所属的歌曲；也即本发明实施例歌词填充方法还可以包括：接口设置单元；

该接口设置单元可以配置为在歌曲确定单元303获取插曲目标歌曲标识之后，根据目标歌曲标识在该视频中设置跳转接口，以使得终端在播放该插曲时通过该跳转接口跳转至播放该插曲所属的目标歌曲。

在本发明实施例一实施方式中，该接口设置单元，还可以配置为在歌曲确定单元303获取目标歌曲标识之后，根据目标歌曲标识在所述视频中设置添加接口，以使得终端在播放所述插曲时通过所述添加接口将所述目标歌曲添加到音乐软件的歌曲列表中。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本发明实施例歌曲确定装置标识获取单元301采用提取视频中的音频文件，并获取该音频文件中插曲所属候选歌曲的候选歌曲标识，以得到候选歌曲标识集合，然后，由音频帧获取单元302获取候选歌曲标识对应的候选歌曲文件，并获取该候选歌曲文件与该音频文件之间相匹配的匹配音频帧，以得到匹配音频帧单元，其中，该匹配音频帧单元包括多个连续的匹配音频帧，由歌曲确定单元303根据所述候选歌曲标识对应的所述匹配音频帧单元，从所述候选歌曲标识集合中获取目标歌曲标识，并根据所述目标歌曲标识确定所述插曲所属的目标歌曲；

该方案可以先获取视频插曲所属候选歌曲的候选歌曲标识集合，然后，基于视频的音频文件与歌曲之间的匹配音频帧，从候选歌曲标识集合中选取视频插曲所属歌曲的标识，从而确定视频插曲所属的歌曲，相对于相关技术而言，可以提高确定或者定位视频插曲对应歌曲的精确性和效率。

此外，本发明实施例装置还可以在确定视频插曲所属歌曲之后，根据目标歌曲标识及其对应的匹配音频帧单元将该插曲对应的歌词填充至该视频；该方案还可以自动完成视频插曲与歌曲的匹配，以确定视频插曲所属的歌曲，并可以自动获取视频插曲的歌词进行填充，相对于相关技术而言，还可以提高视频插曲歌词填充的准确性以及效率。

图4示例性示出了本发明实施例提供的歌曲确定装置40的结构的示意图。图4示出的结构仅仅是适当的结构的一个实例并且不旨在建议关于歌曲确定装置40的结构的任何限制。歌曲确定装置40可以在包括如服务器计算机、小型计算机、大型计算机以及任意的上述设备的分布式计算环境中实现。

尽管没有要求，但是在“计算机可读指令”被一个或多个歌曲确定装置执行的通用背景下描述实施例。计算机可读指令可以经由计算机可读介质来分布(下文讨论)。计算机可读指令可以实现为程序模块，比如执行特定任务或实现特定抽象数据类型的功能、对象、应用编程接口(API)、数据结构等等。典型地，该计算机可读指令的功能可以在各种环境中随意组合或分布。

图4图示了包括本发明实施例的提供的歌曲确定装置40的结构的实例。在一种配置中，歌曲确定装置40包括至少一个处理单元41和存储单元42。根据歌曲确定装置的确切配置和类型，存储单元42可以是易失性的(比如随机存取器(RAM，Random Access Memory))、非易失性的(比如只读存储器(ROM，Read Only Memory)、闪存等)或二者的某种组合。该配置在图4中由虚线图示。

在其他实施例中，歌曲确定装置40可以包括附加特征和/或功能。例如，歌曲确定装置40还可以包括附加的存储装置(例如可移除和/或不可移除的)，其包括但不限于磁存储装置、光存储装置等等。这种附加存储装置在图4中由存储单元43图示。在一个实施例中，用于实现本发明实施例所提供的一个或多个实施例的计算机可读指令可以在存储单元43中。存储单元43还可以存储用于实现操作系统、应用程序等的其他计算机可读指令。计算机可读指令可以载入存储单元42中由例如处理单元41执行。

本发明实施例所使用的术语“计算机可读介质”包括计算机存储介质。计算机存储介质包括以用于存储诸如计算机可读指令或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。存储单元42和存储单元43是计算机存储介质的实例。计算机存储介质包括但不限于RAM、ROM、电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory)、闪存或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光存储装置、盒式磁带、磁带、磁盘存储装置或其他磁存储设备、或可以用于存储期望信息并可以被歌曲确定装置40访问的任何其他介质。任意这样的计算机存储介质可以是歌曲确定装置40的一部分。

歌曲确定装置40还可以包括允许歌曲确定装置40与其他设备通信的通信连接46。通信连接46可以包括但不限于调制解调器、网络接口卡(NIC)、集成网络接口、射频发射器/接收器、红外端口、USB连接或用于将歌曲确定装置40连接到其他歌曲确定装置的其他接口。通信连接46可以包括有线连接或无线连接。通信连接46可以发射和/或接收通信媒体。

术语“计算机可读介质”可以包括通信介质。通信介质典型地包含计算机可读指令或诸如载波或其他传输机构之类的“已调制数据信号”中的其他数据，并且包括任何信息递送介质。术语“已调制数据信号”可以包括这样的信号：该信号特性中的一个或多个按照将信息编码到信号中的方式来设置或改变。

歌曲确定装置40可以包括输入单元45，比如键盘、鼠标、笔、语音输入设备、触摸输入设备、红外相机、视频输入设备和/或任何其他输入设备。歌曲确定装置40中也可以包括输出单元44，比如一个或多个显示器、扬声器、打印机和/或任意其他输出设备。输入单元45和输出单元44可以经由有线连接、无线连接或其任意组合连接到歌曲确定装置40。在一个实施例中，来自另一个歌曲确定装置的输入设备或输出设备可以被用作歌曲确定装置40的输入单元45或输出单元44。

歌曲确定装置40的组件可以通过各种互连(比如总线)连接。这样的互连可以包括外部设备互连总线(PCI，Peripheral Component Interconnect)(比如快速PCI)、通用串行总线(USB，Universal Serial Bus)、火线(IEEE1394)、光学总线结构等等。在另一个实施例中，歌曲确定装置40的组件可以通过网络互连。例如，存储单元42可以由位于不同物理位置中的、通过网络互连的多个物理存储器单元构成。

以上对本发明实施例所提供的一种歌曲确定方法、装置和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

一种歌曲确定方法，包括：

提取视频中的音频文件；

获取所述音频文件中插曲所属候选歌曲的候选歌曲标识，形成候选歌曲标识集合；

获取候选歌曲标识对应的候选歌曲文件，并获取所述候选歌曲文件与所述音频文件之间相匹配的匹配音频帧；

基于所获取的匹配音频帧形成匹配音频帧单元，其中，所述匹配音频帧单元包括多个连续的匹配音频帧；

根据所述候选歌曲标识对应的所述匹配音频帧单元，从所述候选歌曲标识集合中获取目标歌曲标识；

根据所述目标歌曲标识确定所述插曲所属的目标歌曲。
如权利要求1所述的歌曲确定方法，其中，

所述获取所述候选歌曲文件与所述音频文件之间相匹配的匹配音频帧，基于所获取的匹配音频帧形成匹配音频帧单元，包括：

将所述候选歌曲文件中第一音频帧的音频特征与所述音频文件中第二音频帧的音频特征进行匹配，得到匹配结果；

根据所述匹配结果获取所述候选歌曲文件与所述音频文件之间相匹配的匹配音频帧；

根据所述匹配音频帧获取匹配音频帧单元。
如权利要求2所述的歌曲确定方法，其中，

所述将所述候选歌曲文件中第一音频帧对应的音频特征与所述音频文件中第二音频帧对应的音频特征进行匹配，得到匹配结果，包括：

获取所述候选歌曲文件中第一音频帧的帧数，从所述音频文件中选取音频帧单元，所述音频帧单元包括与所述帧数相等数量的第二音频帧；

将所述候选歌曲文件中第一音频帧的音频特征与所述音频帧单元中第二音频帧的音频特征进行匹配，得到音频特征匹配结果；

所述根据所述匹配结果获取所述候选歌曲文件与所述音频文件之间相匹配的匹配音频帧，包括：

根据所述音频特征匹配结果获取所述候选歌曲文件与所述音频文件之间相匹配的匹配音频帧，所述匹配音频帧为音频特征匹配成功的音频帧；

所述根据所述匹配音频帧获取匹配音频帧单元，包括：

根据匹配音频帧获取帧连续单元，所述帧连续单元包括多个连续的所述匹配音频帧；

获取帧连续单元中匹配音频帧的个数，并根据所述个数确定所述帧连续单元为匹配音频帧单元。
如权利要求1所述的歌曲确定方法，其中，

所述根据所述候选歌曲标识对应的所述匹配音频帧单元，从所述候选歌曲标识集合中获取目标歌曲标识，包括：

对所述候选歌曲标识对应的所述匹配音频帧单元进行音频帧扩展，得到所述候选歌曲标识对应的匹配歌曲片段；

根据所述匹配歌曲片段获取候选歌曲标识对应的时间信息，其中，所述时间信息包括：所述匹配歌曲片段在所述视频中的第一起始时间、在所述候选歌曲中的第二起始时间以及所述匹配歌曲片段的时长；

根据所述候选标识对应的时间信息从所述候选歌曲标识集合中获取目标歌曲标识。
如权利要求4所述的歌曲确定方法，其中，

所述对所述候选歌曲标识对应的所述匹配音频帧单元进行音频帧扩展，得到所述候选歌曲标识对应的匹配歌曲片段，包括：

分别在所述候选歌曲文件和所述音频文件中对所述匹配音频帧单元进行音频帧扩展，得到所述候选歌曲文件中的第一匹配音频帧扩展单元以及所述音频文件中的第二匹配音频帧扩展单元；

将所述第一匹配音频帧扩展单元中第一音频帧的音频特征与所述第二匹配音频帧扩展单元中第二音频帧的音频特征进行匹配，得到扩展单元之间的匹配音频帧；

根据所述扩展单元之间的匹配音频帧的数量，确定所述第一匹配音频帧扩展单元或者所述第二匹配音频帧扩展单元为所述候选歌曲与所述音频文件之间相匹配的匹配歌曲片段。
如权利要求2所述的歌曲确定方法，其中，

在根据候选歌曲标识获取相应的候选歌曲文件之后，将所述候选歌曲文件中第一音频帧对应的音频特征与所述音频文件中第二音频帧对应的音频特征进行匹配之前，所述歌曲确定方法还包括：

获取所候选歌曲文件中每个第一音频帧对应的频谱；

将所述第一音频帧对应的频谱划分成预设数量的频段，并获取所述频段对应的平均幅值；

将每个所述频段的平均幅值与上一个第一音频帧对应频段的平均幅值进行比较，得到比较结果；

根据所述比较结果获取所述第一音频帧对应的音频特征。
如权利要求4所述的歌曲确定方法，其中，

所述根据所述候选标识对应的时间信息从所述候选歌曲标识集合中获取目标歌曲标识，包括：

根据候选歌曲标识对应的第二起始时间和所述时长获取所述候选歌曲标识对应的播放时间，所述播放时间为所述匹配歌曲片段在所述视频中的播放时间；

根据候选歌曲标识对应的播放时间对所述候选歌曲标识集合中的候选歌曲标识进行过滤，得到过滤后的候选标识集合；

将所述过滤后的候选标识集合中的所述候选歌曲作为目标歌曲标识。
如权利要求4所述的歌曲确定方法，其中，还包括：

在获取所述插曲所属目标歌曲的目标歌曲标识之后，

根据所述目标歌曲标识及其对应的匹配音频帧单元，将所述插曲对应的歌词填充至所述视频。
如权利要求5所述的歌曲确定方法，其中，

所述根据所述目标歌曲标识及其对应的匹配音频帧单元，将所述插曲对应的歌词填充至所述视频，包括：

根据目标歌曲标识及其对应的所述第一起始时间、所述时长，获取所述插曲对应的歌词；

根据所述目标歌曲标识对应的所述第二起始时间和所述时长，将所述歌词填充至所述视频。
如权利要求9所述的歌曲确定方法，其中，还包括：

在获取所述插曲对应的歌词之后，且在将歌词填充至所述视频之前，

确定所述歌词是否为完整的语句；

若是，则执行根据所述目标歌曲标识对应的所述第二起始时间和所述时长，将所述歌词填充至所述视频的步骤。
如权利要求1所述的歌曲确定方法，其中，

所述获取所述音频文件中插曲所属候选歌曲的候选歌曲标识，包括：

将所述音频文件划分成多个音频段，并获取所述音频段的音频指纹；

确定预设样本集合中是否存在与所述音频指纹匹配的指纹样本；

若是，则获取匹配指纹样本对应的歌曲标识，得到所述音频段对应的歌曲标识集合，所述歌曲标识集合包括多个所述歌曲标识；

从所述歌曲标识集合中，选取所述插曲所属候选歌曲的候选歌曲标识。
如权利要求11所述的歌曲确定方法，其中，

所述获取所述音频段的音频指纹，包括：

获取所述音频段中音频帧对应的频谱；

从所述频谱中提取所述音频帧对应的频谱峰值点，得到所述音频段对应的峰值集合，所述峰值集合包括所述音频帧对应的频谱峰值点；

将所述峰值集合中频谱峰值点两两进行组合，得到所述音频段的音频指纹。
如权利要求12所述的歌曲确定方法，其中，

所述将所述峰值集合中频谱峰值点两两进行组合，得到所述音频段的音频指纹，包括：

确定与所述频谱峰值点相组合的目标频谱峰值点；

将所述频谱峰值点与所述目标频谱峰值点进行组合，得到音频段的音频指纹，所述音频指纹包括：所述频谱峰值点对应的频率、所述频谱峰值点与所述目标频谱峰值点之间的时间差和频率差。
如权利要求13所述的歌曲确定方法，其中，还包括：

在获取所述音频指纹之后，选取候选歌曲标识之前，

获取所述音频指纹在所述音频段中的第一偏移时间、以及所述匹配指纹样本在匹配歌曲中的第二偏移时间，其中，所述第一偏移时间为所述频谱峰值点在所述音频段内的时间，所述匹配歌曲为所述歌曲标识对应的歌曲；

所述从所述歌曲标识集合中，选取所述插曲所属候选歌曲的候选歌曲标识，包括：

根据所述第一偏移时间和所述第二偏移时间，获取所述音频段在所述匹配歌曲中的起始时间；

根据所述音频段在匹配歌曲中的起始时间，从所述歌曲标识集合中选取所述候选歌曲标识。
如权利要求14所述的歌曲确定方法，其中，

所述根据所述歌曲标识集合中歌曲标识对应的起始时间，从所述歌曲标识集合中选取所述候选歌曲标识，包括：

获取所述歌曲标识集合中歌曲标识对应的起始时间，得到时间集合；

根据每种所述起始时间的个数从所述时间集合中确定目标起始时间；

从歌曲标识集合中选取所述目标起始时间对应的歌曲标识作为候选歌曲标识。
如权利要求4所述的歌曲确定方法，其中，还包括：

在获取所述插曲所属目标歌曲的目标歌曲标识之后，

根据目标歌曲标识在所述视频中设置跳转接口，供终端在播放所述插曲时通过所述跳转接口跳转至播放所述插曲所属的目标歌曲。
如权利要求1所述的歌曲确定方法，其中，还包括：

在获取目标歌曲标识之后，

根据目标歌曲标识在所述视频中设置添加接口，供终端在播放所述插曲时通过所述添加接口将所述目标歌曲添加到音乐软件的歌曲列表中。
一种歌曲确定装置，包括：

标识获取单元，配置为提取视频中的音频文件，并获取所述音频文件中插曲所属候选歌曲的候选歌曲标识，形成候选歌曲标识集合；

音频帧获取单元，配置为获取候选歌曲标识对应的候选歌曲文件，并获取所述候选歌曲文件与所述音频文件之间相匹配的匹配音频帧，基于所获取的匹配音频帧形成匹配音频帧单元，其中，所述匹配音频帧单元包括多个连续的匹配音频帧；

歌曲确定单元，配置为根据所述候选歌曲标识对应的所述匹配音频帧单元，从所述候选歌曲标识集合中获取目标歌曲标识，并根据所述目标歌曲标识确定所述插曲所属的目标歌曲。
如权利要求18所述的歌曲确定装置，其中，

所述音频帧获取单元具体包括：匹配子单元、第一获取子单元以及第二获取子单元；

所述匹配子单元，配置为将所述候选歌曲文件中第一音频帧的音频特征与所述音频文件中第二音频帧的音频特征进行匹配，得到匹配结果；

所述第一获取子单元，配置为根据所述匹配结果获取所述候选歌曲文件与所述音频文件之间相匹配的匹配音频帧；

所述第二获取子单元，配置为根据所述匹配音频帧获取匹配音频帧单元。
权利要求19所述的歌曲确定装置，其中，

所述匹配子单元，具体配置为：

获取所述候选歌曲文件中第一音频帧的帧数，从所述音频文件中选取音频帧单元，所述音频帧单元包括与所述帧数相等数量的第二音频帧；

将所述候选歌曲文件中第一音频帧的音频特征与所述音频帧单元中第二音频帧的音频特征进行匹配，得到音频特征匹配结果；

所述第一获取子单元，具体配置为：根据所述音频特征匹配结果获取所述候选歌曲文件与所述音频文件之间相匹配的匹配音频帧，所述匹配音频帧为音频特征匹配成功的音频帧；

所述第二获取子单元，具体配置为：

根据匹配音频帧获取帧连续单元，所述帧连续单元包括多个连续的所述匹配音频帧；

获取帧连续单元中匹配音频帧的个数，并根据所述个数确定所述帧连续单元为匹配音频帧单元。
如权利要求18所述的歌曲确定装置，其中，

所述歌曲确定单元具体包括：音频帧扩展子单元、时间获取子单元、标识获取子单元以及歌曲确定子单元；

所述音频帧扩展子单元，配置为对所述候选歌曲标识对应的所述匹配音频帧单元进行音频帧扩展，得到所述候选歌曲标识对应的匹配歌曲片段；

所述时间获取子单元，配置为根据所述匹配歌曲片段获取候选歌曲标识对应的时间信息，其中，所述时间信息包括：所述匹配歌曲片段在所述视频中的第一起始时间、在所述候选歌曲中的第二起始时间以及所述匹配歌曲片段的时长；

所述标识获取子单元，配置为根据所述候选标识对应的时间信息从所述候选歌曲标识集合中获取目标歌曲标识；

所述歌曲确定子单元，配置为根据所述目标歌曲标识确定所述插曲所属的目标歌曲。
如权利要求21所述的歌曲确定装置，其中，

所述标识获取子单元，具体配置为：

根据候选歌曲标识对应的第二起始时间和所述时长获取所述候选歌曲标识对应的播放时间，所述播放时间为所述匹配歌曲片段在所述视频中的播放时间；

根据候选歌曲标识对应的播放时间对所述候选歌曲标识集合中的候选歌曲标识进行过滤，得到过滤后的候选标识集合；

将所述过滤后的候选标识集合中的所述候选歌曲作为所述插曲所属目标歌曲的目标歌曲标识。
如权利要求21所述的歌曲确定装置，其中，还包括：

歌词填充单元，配置为根据所述目标歌曲标识及其对应的匹配音频帧单元，将所述插曲对应的歌词填充至所述视频。
如权利要求23所述的歌曲确定装置，其中，

所述歌词填充单元包括：歌词获取子单元和填充子单元；

所述歌词获取子单元，配置为根据目标歌曲标识及其对应的所述第一起始时间、所述时长，获取所述插曲对应的歌词；

所述填充子单元，配置为根据所述目标歌曲标识对应的所述第二起始时间和所述时长，将所述歌词填充至所述视频。
如权利要求18所述的歌曲确定装置，其中，

所述标识获取单元具体包括：音频提取子单元、指纹获取子单元、确定子单元、标识集合获取子单元以及选取子单元；

所述音频提取子单元，配置为提取视频中的音频文件；

所述指纹获取子单元，配置为将所述音频文件划分成多个音频段，并获取所述音频段的音频指纹；

所述确定子单元，配置为确定预设样本集合中是否存在与所述音频指纹匹配的指纹样本；

所述标识集合获取子单元，配置为在确定存在与所述音频指纹匹配的指纹样本时，获取匹配指纹样本对应的歌曲标识，得到所述音频段对应的歌曲标识集合，所述歌曲标识集合包括多个所述歌曲标识；

所述选取子单元，配置为从所述歌曲标识集合中，选取所述插曲所属候选歌曲的候选歌曲标识。
一种歌曲确定装置，包括：存储器和处理器，所述存储器中存储有可执行指令，所述可执行指令用于引起所述处理器执行包括以下的操作：

提取视频中的音频文件；

获取所述音频文件中插曲所属候选歌曲的候选歌曲标识，形成候选歌曲标识集合；

获取候选歌曲标识对应的候选歌曲文件，并获取所述候选歌曲文件与所述音频文件之间相匹配的匹配音频帧；

基于所获取的匹配音频帧得到匹配音频帧单元，其中，所述匹配音频帧单元包括多个连续的匹配音频帧；

根据所述候选歌曲标识对应的所述匹配音频帧单元，从所述候选歌曲标识集合中获取目标歌曲标识；

根据所述目标歌曲标识确定所述插曲所属的目标歌曲。
一种存储介质，存储有可执行指令，用于执行权利要求1至17任一项所述的歌曲确定方法。