WO2019137115A1

WO2019137115A1 - 音乐分类方法及节拍点检测方法、存储设备及计算机设备

Info

Publication number: WO2019137115A1
Application number: PCT/CN2018/119112
Authority: WO
Inventors: 吴晓婕
Original assignee: 广州市百果园信息技术有限公司
Priority date: 2018-01-09
Filing date: 2018-12-04
Publication date: 2019-07-18
Also published as: EP3723080A1; RU2743315C1; EP3723080A4; CN108320730A; CN108320730B; US11715446B2; US20200357369A1

Abstract

一种音乐分类方法及节拍点检测方法、存储设备及计算机设备。该音乐节拍点的检测方法包括：对音乐信号进行分帧处理，得到帧信号（S100）；获取帧信号的功率谱（S200）；把功率谱进行子带分解，分为至少两个子带（S300）；根据每个子带对应的节拍类型，对每个子带的信号进行时频域联合滤波（S400）；根据时频域联合滤波的结果从音乐信号的帧信号中得到待确认节拍点（S500）；根据待确认节拍点的功率值获取音乐信号的节拍点（S600）。因此，通过音乐节拍点的检测方法可获取到音乐信号的节拍点，从而可结合节拍点触发特效组中的某一个视频特效，提高用户体验的满意度。

Description

音乐分类方法及节拍点检测方法、存储设备及计算机设备

技术领域

本发明涉及互联网技术领域，具体而言，本发明涉及一种音乐分类方法及节拍点检测方法、存储设备及计算机设备。

背景技术

随着互联网技术及视频直播技术的高速发展，在播放短视频或者视频直播时增加了音乐效果。为了提高用户体验，可以根据视频中的音乐类型给用户推荐适合这首音乐的视频特效组，以增强视频在听觉和视觉上的感染力。

然而，在传统的视频特效处理过程中，无法获取播放音乐的节拍点，从而无法根据该播放音乐的节拍点触发相应的视频特效。因此，在视频特效处理中，无法实现特效根据视频中播放音乐进行个性化设置，进而影响了用户的体验满意度。

发明内容

本发明的目的旨在提供一种音乐分类方法及节拍点检测方法、存储设备及计算机设备，以获取音乐中的节拍点，从而可实现根据节拍点的位置触发特效组中的某一个视频特效，提高用户体验的满意度。

本发明提出以下技术方案：

一种音乐节拍点的检测方法，包括以下步骤：对音乐信号进行分帧处理，得到帧信号；获取所述帧信号的功率谱；把所述功率谱进行子带分解，分为至少两个子带；根据每个子带对应的节拍类型，对每个子带的信号进行时频域联合滤波；根据时频域联合滤波的结果从所述音乐信号的帧信号中得到待确认节拍点；根据所述待确认节拍点的功率值获取所述音乐信号的节拍点。

在其中一个实施例中，所述根据时频域联合滤波的结果从所述音乐信号的帧信号中得到待确认节拍点，包括：根据时频域联合滤波的结果，获取每个子带的信号中每个频率的节拍置信度；根据所述每个频率的节拍置信度计算每个子带中所有频率对应的功率值的加权求和值；根据该加权求和值得到所述待确认节拍点。

在其中一个实施例中，所述根据所述待确认节拍点的功率值获取所述音乐信号的节拍点，包括：获取加权求和值大于门限功率值的待确认节拍点，将该待确认节拍点作为所述音乐信号的节拍点。

在其中一个实施例中，所述门限功率值通过以下方式确定：获取所有所述待确认节拍点的功率值的均值以及方差；计算所述均值与两倍方差的和值，将该和值作为所述门限功率值。

在其中一个实施例中，所述将该待确认节拍点作为所述音乐信号的节拍点之后，还包括：根据强节拍点门限功率值获取所述音乐信号的强节拍点，所述强节拍点门限功率值通过以下方式确定：获取所有所述待确认节拍点的功率值的均值以及方差；计算所述均值与三倍方差的和值，将该和值作为强节拍点门限功率值；获取所述音乐信号的弱节拍点，所述弱节拍点通过以下方式确定：获取所述音乐信号的节拍点中，功率值小于等于所述强节拍点门限功率值，且大于所述门限功率值的节拍点，将该节拍点作为所述音乐信号的弱节拍点。

在其中一个实施例中，所述把所述功率谱进行子带分解，分为至少两个子带，包括：把所述功率谱进行子带分解，分为四个子带；其中，所述四个子带包括用于检测底鼓节拍点的第一子带，用于检测军鼓节拍点的第二子带，用于检测军鼓节拍点的第三子带，以及用于检测高频节拍乐器节拍点的第四子带。

在其中一个实施例中，所述第一子带的频段为120Hz～3K Hz，所述第二子带的频段为3K Hz～10K Hz，所述第三子带的频段为10K Hz～fs/2 Hz；其中，fs为信号的采样频率。

在其中一个实施例中，所述根据每个子带对应的节拍类型，对每个子带的信号进行时频域联合滤波，包括：根据所述第一子带、所述第二子带、所述第三子带及所述第四子带对应检测的节拍类型，采用节拍类型相应的参数对每个子带的信号进行时频域联合滤波。

在其中一个实施例中，所述节拍类型相应的参数由以下方式确定:根据每个子带中，用于检测的节拍类乐器节拍点与其他不同于该节拍点的干扰信号，在时间上的特性及在谐波分布上的特性设置该子带的参数。

一种基于音乐节拍点的音乐分类方法，包括步骤：使用上述任一实施例所述的音乐节拍点的检测方法检测出音乐的节拍点；根据每个子带内节拍点的数量，对所述音乐进行分类。

在其中一个实施例中，所述根据每个子带内节拍点的数量，对所述音乐进行分类，包括：根据每个子带内节拍点的数量，统计所述音乐信号中军鼓节拍点的数量以及底鼓节拍点的数量；若所述军鼓节拍点的数量大于第一阈值，且所述底鼓节拍点的数量大于所述第一阈值，将该音乐分类为强节奏感类音乐；若所述底鼓节拍点的数量小于第二阈值，将该音乐分类为抒情类音乐。

一种存储设备，其上存储有多条指令；所述指令适于由处理器加载并执行：对音乐信号进行分帧处理，得到帧信号；获取所述帧信号的功率谱；把所述功率谱进行子带分解，分为至少两个子带；根据每个子带对应的节拍类型，对每个子带的信号进行时频域联合滤波；根据时频域联合滤波的结果从所述音乐信号的帧信号中得到待确认节拍点；根据所述待确认节拍点的功率值获取所述音乐信号的节拍点；或，所述指令适于由处理器加载并执行：使用上述任一实施例所述的音乐节拍点的检测方法检测出音乐的节拍点；根据每个子带内节拍点的数量，对所述音乐进行分类。

一种计算机设备，其包括：一个或多个处理器；存储器；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行；所述一个或多个应用程序配置用于执行根据上述任一实施例所述的音乐节拍点的检测方法；或，所述一个或多个应用程序配置用于执行根据上述任一实施例所述的音乐分类方法。

相比现有技术，本发明的方案具有以下优点：

本发明提供的一种音乐节拍点的检测方法，先对音乐信号进行分帧处理，并获取每一帧信号的功率谱，进而对功率谱进行子带分解。每个子带对应一个节拍类型，针对不同的子带进行时频域联合滤波。根据滤波结果可得到待确认的节拍点，进而根据每个待确认的节拍点的功率值确定出该音乐信号的节拍点。因此，通过本发明的音乐节拍点的检测方法可获取到音乐信号的节拍点，从而可结合节拍点触发特效组中的某一个视频特效，提高用户体验的满意度。

进一步地，该音乐节拍点的检测方法获取每个子带信号中每个频率的节拍置信度，通过节拍置信度计算每个子带中所有频率对应的功率值的加权求和值，以根据加权求和值得到待确认节拍点。因此，可进一步提高待确认节拍点的准确性。

同时，该音乐节拍点的检测方法中，将每一帧信号的功率谱分为用于检测底鼓节拍点的第一子带，用于检测军鼓节拍点的第二子带，用于检测军鼓节拍点的第三子带，以及用于检测高频节拍乐器节拍点的第四子带。因此，该检测方法可根据音乐中具体节拍点的类型进行子带分解，从而更加精准地检测出音乐信号中的节拍点。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明一实施例提供的服务器与客户端之间的交互示意图；

图2为本发明一实施例提供的一种音乐节拍点的检测方法的流程图；

图3为本发明一实施例提供的步骤S500的流程图；

图4为本发明一实施例提供的步骤S500之后得到的军鼓信号图；

图5为本发明计算机设备结构一实施例中的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本发明提供的一种音乐节拍点的检测方法以及一种基于音乐节拍点的音乐分类方法，应用于如图1所示的应用环境。

如图1所示，服务器100与客户端300位于同一个网络200环境中，服务器100与客户端300通过网络200进行数据信息的交互。服务器100与客户端300的数量不作限定，图1所示只作为示例说明。客户端300中安装有APP(Application，应用程序)。用户可以通过客户端300中的APP与对应的服务器100进行信息交互。

服务器100可以是，但不限于，网络服务器、管理服务器、应用程序服务器、数据库服务器、云端服务器等等。客户端300可以是，但不限于智能手机、个人电脑(personal computer，PC)、平板电脑、个人数字助理(personal digital assistant，PDA)、移动上网设备(mobile Internet device，MID)等。客户端300的操作系统可以是，但不限于，安卓(Android)系统、IOS(iPhone operating system)系统、Windows phone系统、Windows系统等。

用户在客户端300的视频类APP中点击选择了一首音乐(歌曲)或者上传了一首音乐(歌曲)之后，服务器100对该音乐进行分析估计，进一步根据估计出来的音乐类型给用户所在的客户端300下发推荐适合这首音乐(歌曲)的视频特效组，并在所估计出来的节拍点时间位置处触发特效组中的某一个视频特效。本发明提供一种音乐节拍点的检测方法，对用户上传或者选择的音乐的节拍点进行检测，从而可以根据该音乐的节拍点触发对应的视频特效，提高用户体验的满意度。

本发明提供一种音乐节拍点的检测方法。在一实施例中，如图2所示，本发明的一种音乐节拍点的检测方法，包括步骤：

S100，对音乐信号进行分帧处理，得到帧信号。

在本实施例中，服务器获取待检测的音乐信号，并对该音乐信号进行分帧处理，得到该音乐信号的多个帧信号。音乐信号可以是用户上传的音乐信号，或者服务器数据库中的音乐信号。

在一实施方式中，服务器首先对输入的音乐信号进行预处理。所述预处理的过程包括对输入的音乐信号进行解码，双通道转单通道，采样率转换，去除直流分量等必要的预处理操作。其中，此处的预处理过程属于常规操作，此处不做详细说明。进一步地，服务器对音乐信号进行分帧处理，得到多个帧信号。

S200，获取所述帧信号的功率谱。

在本实施例中，服务器获取到所述音乐信号的多个帧信号之后，进一步获取每个帧信号的功率谱。具体地，服务器对音乐信号进行分帧处理时，N点为一帧，每次更新M点(M<N，M/N＝0.25～0.5)，overlap＝N–M。分帧后对每一帧长为N点的信号加窗处理，然后对每个信号做FFT(Fast Fourier Transformation，快速傅立叶变换)，得每个帧信号的功率谱P(t，k)。上述获取功率谱的过程是信号处理中的常规操作，此处不做详细说明。

S300，把所述功率谱进行子带分解，分为至少两个子带。

在本实施例中，服务器将每个帧信号对应的功率谱进行子带分解，分解为至少两个子带。每个子带对应用于检测一种类型的节拍点。具体地，服务器对所述音乐信号的频谱进行分析，结合音乐中常用的节拍类乐器的频响特点，对所述音乐信号进行子带分解。

在一实施方式中，把所述功率谱进行子带分解，分为四个子带；所述四个子带包括用于检测底鼓节拍点的第一子带，用于检测军鼓节拍点的第二子带，用于检测军鼓节拍点的第三子带，以及用于检测高频节拍乐器节拍点的第四子带。其中，所述第一子带的频段为0 Hz～120 Hz，所述第二子带的频段为120Hz～3K Hz，所述第三子带的频段为3K Hz～10K Hz，所述第四子带的频段为10K Hz～fs/2 Hz；其中，fs为信号的采样频率。

在本实施方式中，对于功率谱的子带频段的分解，主要是由于底鼓、军鼓与其它节拍类乐器(高频节拍乐器节拍点)除了在频响上有很大差别外，不同的节拍类乐器的持续时间也有很大差异，底鼓能量主要集中在低频子带，但低频子带中往往还有贝斯这一类非节拍性乐器，贝斯的持续时间比底鼓的持续时间长很多。军鼓的能量主要集中在中频子带，但3kHz以下的子带受人声等信号的干扰，3kHz以上的子带主要受其它伴奏乐器的干扰，在中频的2个子带上，军鼓的持续时间都明显短于其它的干扰信号，而3kHz以下的子带干扰信号的持续时间与3kHz以上的子带干扰信号持续时间有明显不同，因此做时频域联合滤波时需要采用不同的策略。高频子带往往是一些持续时间非常长的旋律类伴奏乐器的声音，这一点和中频子带的出现的伴奏乐器及人声特性又有所不同。

S400，根据每个子带对应的节拍类型，对每个子带的信号进行时频域联合滤波。

在本实施例中，服务器将每个帧信号对应的功率谱进行子带分解后，进一步根据每个子带对应的节拍类型，对每个子带的信号进行时频域联合滤波。具体地，当服务器将帧信号的功率谱分解为步骤S300中所述的四个子带时，将根据第一子带、第二子带、第三子带及第四子带分别对应检测的节拍类型，采用节拍类型相应的参数对每个子带的信号进行时频域联合滤波。其中，节拍类型相应的参数由以下方式确定:根据每个子带中，用于检测的节拍类乐器节拍点与其他不同于该节拍点的干扰信号，在时间上的特性及在谐波分布上的特性设置该子带的参数。

在该步骤中，服务器采用节拍类型相应的参数对每个子带的信号进行时频域联合滤波时，该节拍类型相应的参数可以在实施本发明所述的音乐节拍点的检测方法之前，根据检测的节拍类乐器节拍点与其他不同于该节拍点的干扰信号，在时间上的特性及在谐波分布上的特性获取到的参数。或者，该节拍类型相应的参数也可以在实施本发明所述的音乐节拍点的检测方法的同时，服务器根据检测的节拍类乐器节拍点与其他不同于该节拍点的干扰信号，在时间上的特性及在谐波分布上的特性获取到的参数。

本实施方式中，时频域联合滤波的具体步骤可描述为：

对当前帧信号P(t，k)，取其前hi帧信号和后hi帧信号，对每一个频率Bin k，组成一个时域窗口[P(t-hi,k),…,P(t+hi,k)]，在这个窗口上选取合适的平滑窗wi对其进行平滑，得到P_smt(t，k)。

对当前帧信号P(t，k)，对每一个频率Bin k，取其前hj个Bin和后hj个Bin，组成一个频域窗口[P(t,k-hj),…,P(t,k+hj)]，在这个窗口上选取合适的平滑窗wj对其进行平滑，得到P_smf(t,k)。

对于不同的子带，上述时频域联合滤波的操作步骤是一样的，但hi和hj的参数值是不同的。hi和hj的参数选择由落在不同子带内节拍类乐器和其它旋律类干扰信号在持续时间上的特性和在谐波分布上的特性共同决定。对每一个频率Bin k，看它归属于哪一个子带，就选择该子带设定的参数进行滤波。

平滑窗wi和wj可以选择均值滤波或中值滤波，或选择高斯窗滤波等。本发明实施方式主要是对帧信号在时频域联合进行平滑(低通滤波)，在其他实施方式中也可采用其他滤波方式。

S500，根据时频域联合滤波的结果从所述音乐信号的帧信号中得到待确认节拍点。

在本实施例中，服务器根据时频域联合滤波的结果，可从所述音乐信号的帧信号中得到待确认的节拍点。在一实施方式中，如图3所示，步骤S500包括以下步骤：

S510，根据时频域联合滤波的结果，获取每个子带的信号中每个频率的节拍置信度。

S530，根据所述每个频率的节拍置信度计算每个子带中所有频率对应的功率值的加权求和值。

S550，根据该加权求和值得到所述待确认节拍点。

在一实施方式中，可根据以下方式计算每个子带的信号中每个频率的节拍置信度以及其他非节拍的旋律类的置信度。

对当前帧信号P(t，k)，对每一个频率k，可以根据时频域联合滤波的结果给出它是否为一个节拍的置信度(即维纳滤波)。其中，k表示频率。

B(t,k)＝P_smf(t,k)*P_smf(t,k)/(P_smf(t,k)*P_smf(t,k)+P_smt(t,k)*P_smt(t,k))。

相应的，它是否为一个旋律类成分的置信度为：

H(t,k)＝P_smt(t,k)*P_smt(t,k)/(P_smf(t,k)*P_smf(t,k)+P_smt(t,k)*P_smt(t,k))＝1–B(t,k)。

进一步地，根据以下方式，按节拍点的类型分别对当前帧信号P(t，k)进行加权求和。

Kick(t)＝sum(P(t,k)*B(t,k))k∈子带1，用于检测底鼓；

Snare(t)＝sum(P(t,k)*B(t,k))k∈子带2和子带3，用于检测军鼓；

Beat(t)＝sum(P(t,k)*B(t,k))k∈子带4，用于检测其它节拍点。

P(t,k)是信号做STFT(短时傅立叶变换)之后得到的功率谱，P(t,k)*B(t,k)体现了对功率谱的加权，B(t,k)是信号在第t帧第k个频率上是不是节拍的置信度。置信度是一个0～1之间的数值，将置信度和信号的功率谱相乘，属于节拍的功率谱P(t,k)会保留下来，不属于节拍的功率谱P(t,k)会被抑制(乘完变小了)。

加权之后，对加权后的功率谱进行求和，按子带划分情况，对k进行求和。比如，对时间t＝t1，P(t1,k)，STFT分析后k的取值范围是1～N/2+1，也即有P(t1,1),P(t1,2)…P(t1,N/2+1)这么多个数，每一个频率k对应的频率是k*fs/N，因此也可以知道k属于哪一个子带。比如举个例子：k＝1～10属于子带1(底鼓子带)，k＝20～50属于子带2(军鼓子带)，以此类推，那么把P(t1,1)*B(t1,1),P(t1,2)*B(t1,2)…P(t1,10)*B(t1,10)加起来就是对子带1(底鼓)进行加权求和，得到kick(t1)。对所有的帧都进行上述处理就得到了kick(1),kick(2)…kick(L)，L的大小由这个音乐信号具体有多长决定。

S600，根据所述待确认节拍点的功率值获取所述音乐信号的节拍点。

在本实施例中，服务器获取到待确认节拍点之后，根据节拍点对应的功率值获取所述音乐信号的节拍点。具体地，如步骤S500所述的，服务器计算得到每个子带中所有频率对应的功率值的加权求和值之后，进一步获取加权求和值大于门限功率值的待确认节拍点，将该待确认节拍点作为所述音乐信号的节拍点。其中，门限功率值通过以下方式确定：获取所有所述待确认节拍点的功率值的均值以及方差；计算所述均值与两倍方差的和值，将该和值作为所述门限功率值。

在一具体实施方式中，对于步骤S500中获取的Kick、Snare和Beat(Kick、Snare和Beat分别为Kick(t)、Snare(t)和Beat(t)的缩写表述)。对Kick、Snare和Beat分别扫描找到所有峰值点，功率值大于门限功率值T1＝mean+std*2(mean所有峰值点功率值的均值、std所有峰值点功率值的方差)的峰值点为所检测到的节拍点。若在Kick中被检出则标记为底鼓，若在Snare中被检出则标记为军鼓，若在Beat中被检出则标记为其它节拍点(高频节拍乐器节拍点)。

在一实施例中，步骤S600之后，还包括：

根据强节拍点门限功率值获取所述音乐信号的强节拍点，所述强节拍点门限功率值通过以下方式确定：

获取所有所述待确认节拍点的功率值的均值以及方差；

计算所述均值与三倍方差的和值，将该和值作为强节拍点门限功率值；

获取所述音乐信号的弱节拍点，所述弱节拍点通过以下方式确定：

获取所述音乐信号的节拍点中，功率值小于等于所述强节拍点门限功率值，且大于所述门限功率值的节拍点，将该节拍点作为所述音乐信号的弱节拍点。

具体地，如步骤S600所述，峰值点功率值大于强节拍点门限功率值 T2＝mean+std*3的节拍点为强节拍点。峰值点功率值小于强节拍点门限功率值，其大于等于门限功率值T1＝mean+std*2的节拍点为弱节拍点。节拍点位置为所找到的峰值点所对应的帧t。

综上所述，如图4所示，本发明给出一实施例中步骤S500之后得到的军鼓信号图。横轴是时间t，纵轴是功率P，此处的功率P为按照步骤S500得到的加权求和值。如图4所示，信号曲线上有很多峰，可通过扫描得到曲线上所有的峰值点。P1代表强节拍点门限功率值，P2代表所述门限功率值。扫描得到的峰值点，其功率值必须大于P2才能被检测出来，大于P2小于等于P1的峰值点对应的节拍属于弱节拍点，大于P1的峰值点对应的节拍属于强节拍点。功率值小于P2的峰值点将被丢弃。

本发明提供的方案，对音乐(歌曲)中的节拍点位置和节拍类型和音乐类型进行分析，自动化的提取出音乐中非常重要的骨架——节拍，用所提取到的节拍点位置和节拍点类型及音乐类型指导视频特效的触发时机和触发类型，使得音乐与视频特效能很好的结合起来，符合人视听音乐时的习惯。这部分工作，原来需要人来手工标注出音乐中的节拍点及其类型，非常繁琐。使用本发明所描述的方法，可自动化标注出音乐中的节拍点机器类型，准确率可以达到90％以上。

本发明还提供一种基于音乐节拍点的音乐分类方法。该方法包括步骤：使用上述任一实施例所述的音乐节拍点的检测方法检测出音乐的节拍点；根据每个子带内节拍点的数量，对所述音乐进行分类。

其中，所述根据每个子带内节拍点的数量，对所述音乐进行分类，包括：根据每个子带内节拍点的数量，统计所述音乐信号中军鼓节拍点的数量以及底鼓节拍点的数量；若所述军鼓节拍点的数量大于第一阈值，且所述底鼓节拍点的数量大于所述第一阈值，将该音乐分类为强节奏感类音乐；若所述底鼓节拍点的数量小于第二阈值，将该音乐分类为抒情类音乐。

具体地，利用上述音乐节拍点的检测方法所提及的获取3类节拍点的个数可以对音乐类型进行分类。军鼓节拍点>阈值1，同时底鼓节拍点>阈值1的音乐类型为节奏感强的音乐。底鼓节拍点<阈值2的音乐类型为抒情类音乐。阈值1和阈值2根据音乐分类中军鼓节拍点及底鼓节拍点的数量设置。

在应用中，将音乐类型粗分为节奏感强的音乐和抒情类音乐两大类，可以区别使用完全不同的特效类，避免在抒情类的音乐中大量触发过于激烈的特效，有助于和人的视听习惯保持统一。

本发明还提供一种存储设备，其上存储有多条指令；所述指令适于由处理器加载并执行：对音乐信号进行分帧处理，得到帧信号；获取所述帧信号的功率谱；把所述功率谱进行子带分解，分为至少两个子带；根据每个子带对应的节拍类型，对每个子带的信号进行时频域联合滤波；根据时频域联合滤波的结果从所述音乐信号的帧信号中得到待确认节拍点；根据所述待确认节拍点的功率值获取所述音乐信号的节拍点。

或者，所述指令适于由处理器加载并执行：使用上述任一实施例所述的音乐节拍点的检测方法检测出音乐的节拍点；根据每个子带内节拍点的数量，对所述音乐进行分类。

进一步地，该存储设备可以是U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

在其他实施例中，本发明提供的存储设备中的指令，由处理器加载并执行上述任一实施例设备上所述的音乐节拍点的检测方法中所述的步骤。或者，本发明提供的存储设备中的指令，由处理器加载并执行上述任一实施例所述音乐分类方法。

本发明还提供一种计算机设备。该计算机设备包括：一个或多个处理器；存储器；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行设备中上述任一实施例所述的音乐节拍点的检测方法或者音乐分类方法。

图5为本发明一实施例中的计算机设备的结构示意图。本实施例所述的设备可以是计算机设备。例如服务器、个人计算机以及网络设备。如图5所示，设备包括处理器503、存储器505、输入单元507以及显示单元509等器件。本领域技术人员可以理解，图5示出的设备结构器件并不构成对所有设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件。存储器505可用于存储应用程序501以及各功能模块，处理器503运行存储在存储器505的应用程序501，从而执行设备的各种功能应用以及数据处理。存储器可以是内存储器或外存储器，或者包括内存储器和外存储器两者。内存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)、快闪存储器、或者随机存储器。外存储器可以包括硬盘、软盘、ZIP盘、U盘、磁带等。本发明所公开的存储器包括但不限于这些类型的存储器。本发明所公开的存储器只作为例子而非作为限定。

输入单元507用于接收信号的输入，以及接收用户输入的关键字。输入单元507可包括触控面板以及其它输入设备。触控面板可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)，并根据预先设定的程序驱动相应的连接装置；其它输入设备可以包括但不限于物理键盘、功能键(比如播放控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元509可用于显示用户输入的信息或提供给用户的信息以及计算机设备的各种菜单。显示单元509可采用液晶显示器、有机发光二极管等形式。处理器503是计算机设备的控制中心，利用各种接口和线路连接整个电脑的各个部分，通过运行或执行存储在存储器503内的软件程序和/或模块，以及调用存储在存储器内的数据，执行各种功能和处理数据。

在一实施方式中，设备包括一个或多个处理器503，以及一个或多个存储器505，一个或多个应用程序501。其中所述一个或多个应用程序501被存储在存储器505中并被配置为由所述一个或多个处理器503执行，所述一个或多个应用程序501配置用于执行以上实施例所述音乐节拍点的检测方法或者音乐分类方法。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括存储器、磁盘或光盘等。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

一种音乐节拍点的检测方法，其特征在于，包括以下步骤：

对音乐信号进行分帧处理，得到帧信号；

获取所述帧信号的功率谱；

把所述功率谱进行子带分解，分为至少两个子带；

根据每个子带对应的节拍类型，对每个子带的信号进行时频域联合滤波；

根据时频域联合滤波的结果从所述音乐信号的帧信号中得到待确认节拍点；

根据所述待确认节拍点的功率值获取所述音乐信号的节拍点。
根据权利要求1所述的音乐节拍点的检测方法，其特征在于，所述根据时频域联合滤波的结果从所述音乐信号的帧信号中得到待确认节拍点，包括：

根据时频域联合滤波的结果，获取每个子带的信号中每个频率的节拍置信度；

根据所述每个频率的节拍置信度计算每个子带中所有频率对应的功率值的加权求和值；

根据该加权求和值得到所述待确认节拍点。
根据权利要求2所述的音乐节拍点的检测方法，其特征在于，所述根据所述待确认节拍点的功率值获取所述音乐信号的节拍点，包括：

获取加权求和值大于门限功率值的待确认节拍点，将该待确认节拍点作为所述音乐信号的节拍点。
根据权利要求3所述的音乐节拍点的检测方法，其特征在于，所述门限功率值通过以下方式确定：

获取所有所述待确认节拍点的功率值的均值以及方差；

计算所述均值与两倍方差的和值，将该和值作为所述门限功率值。
根据权利要求4所述的音乐节拍点的检测方法，其特征在于，所述将该待确认节拍点作为所述音乐信号的节拍点之后，还包括：

根据强节拍点门限功率值获取所述音乐信号的强节拍点，所述强节拍点门限功率值通过以下方式确定：

获取所有所述待确认节拍点的功率值的均值以及方差；

计算所述均值与三倍方差的和值，将该和值作为强节拍点门限功率值；

获取所述音乐信号的弱节拍点，所述弱节拍点通过以下方式确定：

获取所述音乐信号的节拍点中，功率值小于等于所述强节拍点门限功率值，且大于所述门限功率值的节拍点，将该节拍点作为所述音乐信号的弱节拍点。
根据权利要求1所述的音乐节拍点的检测方法，其特征在于，所述把所述功率谱进行子带分解，分为至少两个子带，包括：

把所述功率谱进行子带分解，分为四个子带；

其中，所述四个子带包括用于检测底鼓节拍点的第一子带，用于检测军鼓节拍点的第二子带，用于检测军鼓节拍点的第三子带，以及用于检测高频节拍乐器节拍点的第四子带。
根据权利要求6所述的音乐节拍点的检测方法，其特征在于，所述第一子带的频段为120Hz～3K Hz，所述第二子带的频段为3K Hz～10K Hz，所述第三子带的频段为10K Hz～fs/2Hz；其中，fs为信号的采样频率。
根据权利要求6所述的音乐节拍点的检测方法，其特征在于，所述根据每个子带对应的节拍类型，对每个子带的信号进行时频域联合滤波，包括：

根据所述第一子带、所述第二子带、所述第三子带及所述第四子带对应检测的节拍类型，采用节拍类型相应的参数对每个子带的信号进行时频域联合滤波。
根据权利要求8所述的音乐节拍点的检测方法，其特征在于，所述节拍类型相应的参数由以下方式确定:

根据每个子带中，用于检测的节拍类乐器节拍点与其他不同于该节拍点的干扰信号，在时间上的特性及在谐波分布上的特性设置该子带的参数。
一种基于音乐节拍点的音乐分类方法，其特征在于，包括步骤：

使用权利要求1-9中任意一项的音乐节拍点的检测方法检测出音乐的节拍点；

根据每个子带内节拍点的数量，对所述音乐进行分类。
根据权利要求10所述的音乐分类方法，其特征在于，所述根据每个子带内节拍点的数量，对所述音乐进行分类，包括：

根据每个子带内节拍点的数量，统计所述音乐信号中军鼓节拍点的数量以及底鼓节拍点的数量；

若所述军鼓节拍点的数量大于第一阈值，且所述底鼓节拍点的数量大于所述第一阈值，将该音乐分类为强节奏感类音乐；

若所述底鼓节拍点的数量小于第二阈值，将该音乐分类为抒情类音乐。
一种存储设备，其特征在于，其上存储有多条指令；所述指令适于由处理器加载并执行：

对音乐信号进行分帧处理，得到帧信号；

获取所述帧信号的功率谱；

把所述功率谱进行子带分解，分为至少两个子带；

根据每个子带对应的节拍类型，对每个子带的信号进行时频域联合滤波；

根据时频域联合滤波的结果从所述音乐信号的帧信号中得到待确认节拍点；

根据所述待确认节拍点的功率值获取所述音乐信号的节拍点；或，

所述指令适于由处理器加载并执行：

使用权利要求1-9中任意一项的音乐节拍点的检测方法检测出音乐的节拍点；

根据每个子带内节拍点的数量，对所述音乐进行分类。
一种计算机设备，其特征在于，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行；

所述一个或多个应用程序配置用于执行根据权利要求1至9任一项所述的音乐节拍点的检测方法；或，所述一个或多个应用程序配置用于执行根据权利要求10至11任一项所述的音乐分类方法。