WO2017050175A1

WO2017050175A1 - 音频识别方法和系统

Info

Publication number: WO2017050175A1
Application number: PCT/CN2016/099053
Authority: WO
Inventors: 杜志军
Original assignee: 阿里巴巴集团控股有限公司; 杜志军
Priority date: 2015-09-24
Filing date: 2016-09-14
Publication date: 2017-03-30
Also published as: SG11201801808RA; CN106558318A; US10679647B2; US20180174599A1; EP3355302A1; CN106558318B; KR102077411B1; KR20180044957A; EP3355302A4; JP6585835B2; JP2018534609A; EP3355302B1

Abstract

一种音频识别方法及系统，所述方法包括：对待识别音频文件的语谱图中的第一特征点进行扩散处理，得到特征点图，所述第一特征点的数量为多个（S110）；在目标音频文件的语谱图中查找是否存在与所述特征点图中扩散处理后的各第一特征点分别对应的第二特征点（S120）；若是，则确定所述待识别音频文件为所述目标音频文件的一部分（S130），本方法可以在音频识别中提高特征点的匹配成功率。

Description

音频识别方法和系统

技术领域

本申请涉及互联网技术领域，特别涉及一种音频识别方法及系统。

背景技术

随着互联网技术的不断发展，互联网已成为人们生活中必不可少的工具。利用互联网设备实现未知音频的识别，并基于音频识别的互动，成为一种新的应用趋势。

基于音频识别的互动有多种应用，一种应用例如是：用户听到一首不知道歌名的歌曲，可以录制该歌曲的一段音频，然后利用音频识别技术，可以识别出这首歌的歌名、歌手等信息。

现有技术中，一般是提取待识别音频的特征点，利用特征点对进行识别的。如图1所示，横轴代表时间，纵轴代表频率。提取的特征点为图中的“X”；两个特征点构成一个特征点对，在目标区域内有8个特征点对；采用特征点对的方式在数据库中进行识别，数据库内存储有歌曲的特征点及歌曲信息如歌名、歌手等；如果在数据库中能在相同的目标区域内匹配到一样的特征点对，则匹配成功；进而可以得到对应的歌曲信息。然而，由于录制音频时不可避免的受到噪声的影响，提取的特征点不一定都在正常的位置出现，所以导致特征点对匹配成功的概率较低。

综上所述，现有技术中存在音频识别中特征点匹配成功率低的问题。

发明内容

本申请实施例的目的是提供一种音频识别方法及系统，用以解决现有技术中音频识别中特征点匹配成功率低的问题。

为解决上述技术问题，本申请一实施例提供的音频识别方法，包括：

对待识别音频文件的语谱图中的第一特征点进行扩散处理，得到特征点图，所述第一特征点的数量为多个；

在目标音频文件的语谱图中查找是否存在与所述特征点图中扩散处理后的各第一特征点分别对应的第二特征点；

若是，则确定所述待识别音频文件为所述目标音频文件的一部分。

本申请一实施例提供的音频识别系统，包括：

扩散单元，用于对待识别音频文件的语谱图中的第一特征点进行扩散处理，得到特征点图，所述第一特征点的数量为多个；

查找单元，在目标音频文件的语谱图中查找是否存在与所述特征点图中扩散处理后的各第一特征点分别对应的第二特征点；

确定单元，用于在目标音频文件的语谱图中查找到与所述特征点图中扩散处理后的各第一特征点分别对应的第二特征点时，则确定所述待识别音频文件为所述目标音频文件的一部分。

由以上本申请实施例提供的技术方案可见，本申请实施例提供的一种音频识别方法及系统，通过对待识别音频文件的语谱图中的第一特征点进行扩散处理，可以减少所述第一特征点受噪声影响产生的偏差；从而提高扩散处理后的第一特征点与目标音频文件的匹配率，即提高了特征点匹配成功率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中利用特征点对进行识别的示意图；

图2为本申请一实施例中提供的音频识别方法的流程图；

图3为待识别音频文件的语谱图的示意图；

图4a为扩散处理前的第一特征点的示意图；

图4b为扩散处理后的第一特征点的示意图；

图5为图1中S120步骤的方法流程图；

图6为在目标音频文件的语谱图中查找与特征点图中扩散处理后第一特征点分别对应的第二特征点的示意图；

图7为本申请一实施例中提供的音频识别方法的流程图；

图8a为在语谱图中确定的第一特征点的示意图；

图8b为图8a的局部放大图；

图9为本申请一实施例中提供的音频识别系统的模块示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

图2为本申请一实施例中提供的音频识别方法的流程图。本实施例中，所述音频识别方法包括如下步骤：

S110：对待识别音频文件的语谱图中的第一特征点进行扩散处理，得到特征点图，所述第一特征点的数量为多个。

语谱图也称为语音频谱图，一般是通过处理接收的时域信号得到。一般地，语谱图的横坐标用来表示时间，纵坐标用来表示频率，坐标点值表示语音数据的能量。通常可以采用二维平面来表达三维信息，所以坐标点值所表示的语音数据的能量值，大小可以通过颜色来表示。例如通过彩色的方式表示，颜色越深的可以表示该坐标点的语音能量越强；反之，颜色越浅的可以表示该坐标点的语音能量越弱。还可以通过灰度的方式表示，颜色越接近于白色的可以表示该坐标点的语音能量越强；反之，颜色越接近于黑色的可以表示该坐标点的语音能量越弱。

这样，语谱图可以直观的表示语音信号随时间变化的频谱特性。任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。

具体地，语谱图可以通过如下步骤获得：

A1：对待识别音频文件按照预设时间进行分帧处理。

所述预设时间可以是用户根据过往经验得出的经验值。本实施例中所述预设时间包括32毫秒。即对待识别音频文件按照32毫秒进行分帧处理，得到每32毫秒为一帧，帧叠16毫秒的音频片段。

A2：对分帧处理后的音频片段进行短时频谱分析，得到语谱图。

所述短时频谱分析包括快速傅立叶变化(Fast Fourier Transformation，FFT)。FFT是离散傅立叶变换的快速算法，利用FFT可以将音频信号转变为记录了时间域与频率域的联合分布信息的语谱图。

由于以32毫秒分帧处理，而32毫秒对应了8000hz采样，使得FFT计算后可以得到256频率点。

如图3中横轴可以代表帧数，即音频文件分帧处理后的帧数的个数，对应了语谱图的宽度；纵轴可以代表频率，共有256个频率点，对应了语谱图的高度；坐标点值表示第一特征点的能量。

优选地，在对分帧处理后的音频片段进行短时频谱分析之后，还可以包括：

A3：提取所述短时频谱分析后300-2khz频率段。

由于一般的歌曲主要的频率是集中在300-2khz这个频率段上的，所以本实施例通过提取300-2khz这个频率段后，即可以消除其它频率段噪声对所述频率段的负面影响。

在本申请的另一实施例中，在S110步骤之前，还可以包括：

将待识别音频文件的语谱图的第一特征点的能量值归一化为第一特征点的灰度值。

本实施例中，由于经过FFT之后的第一特征点的能量值范围较大，有时可能达到0-2^8，甚至0-2^16(能量值范围与音频文件的信号强度呈正比)；所以，这里将所述能量值归一化到0-255的范围内；使得0-255可以对应为灰度值，0代表黑色，255代表白色。

一般的归一化方法包括：遍历整个语谱图中的第一特征点的能量值，获得最大值和最小值；

对所述第一特征点进行归一化：

其中，V为第一特征点的能量值；V_min为最小值；V_max为最大值。

本申请实施例可以是采用上述一般的归一化方法。然而，这种归一化方法，对于可能存在某些弱音时，获得的V_min太小，例如可能趋近与0，使得归一化公式变为了

这样就与V_min无关了。因此这样的V_min不具有代表性，影响了整体的归一化处理结果。

本申请实施例中提供了一种新的归一化方法，可以包括：

以第一预设长度为窗口逐帧遍历语谱图；

获取所述窗口内第一特征点的能量值中的局部最大值和局部最小值；

根据所述局部最大值和局部最小值将第一特征点的能量值归一化为第一特征点的灰度值。

利用(2)所示的公式，其中，V为第一特征点的能量值；V_min为局部最小值；V_max为局部最大值。

本实施例以分帧处理后说明，所述第一预设长度可以包括当前帧的前T帧到当前帧的后T帧。即所述第一预设长度为2T帧，2T+1帧大于1秒。

本实施例提供的归一化方法，对于某些弱音，只能影响在其所在的第一预设长度内的归一化结果，不能影响在第一预设长度之外的归一化结果。所以这样的归一化方法可以减少弱音对整体归一化结果的影响。

所述扩散处理，可以包括高斯函数(Gauss function)扩散处理，即利用高斯函数对第一特征点进行扩散处理；还可以包括放大处理，即将第一特征点放大若干倍，例如放大10倍。

以下以高斯函数扩散处理为例，利用如下公式：

其中a、b与c为常数，且a>0。

即利用公式(1)对第一特征点的半径或直径进行高斯函数扩散处理。

以下以将第一特征点放大处理为例。将所述第一特征点的半径或直径放大处理，例如将半径或直径放大10倍。当然，在某些实施例中，还可以将所述第一特征点放大若干倍后变为圆形、菱形、矩形等中的至少一种。

如图4a所示，在扩散处理前的白点(待识别音频文件的第一特征点)与黑点(目标音频文件的特征点)存在偏差，进而最后匹配得到的第二特征点就少；如图4b所示，在扩散处理后的白点从一个点扩散成了一个区域，并且所述区域与黑点都重合。

扩散处理可以使得第一特征点由点扩散为区域，进而可以对噪声有一定的抗干扰能力，例如由于噪声干扰的影响，录制的音频的第一特征点可能与原始的音频的第一特征点位置有少许的偏差，而通过所述扩散处理后可以忽略这个偏差，增加匹配得到的第二特征点的数量。

S120：在目标音频文件的语谱图中查找是否存在与所述特征点图中扩散处理后的各第一特征点分别对应的第二特征点。

如图5所示，所述S120步骤，具体可以包括：

S121：以所述特征点图为窗口逐帧遍历所述目标音频文件的语谱图；

S122：每次遍历过程中将所述窗口内所述目标音频文件的语谱图中坐标位于所述窗口内扩散处理后第一特征点的坐标范围内的特征点确定为第二特征点；

S123：查找所述窗口内所述目标音频文件的语谱图中是否存在与所述扩散处理后各第一特征点分别对应的各第二特征点。

如图6所示，为在目标音频文件的语谱图中查找与特征点图中扩散处理后第一特征点分别对应的第二特征点的示意图。假设特征点图的帧数为N；目标音频文件的语谱图的帧数为L，所述L大于或等于N。首先在所述目标音频文件的语谱图中帧数为[0，N]的区域内查找；之后在[1，N+1]的区域内查找；这样逐帧查找，直到[L-N，L]的区域结束遍历。在每次遍历过程中每一帧的[t，t+N]的窗口内其中t为帧数，将目标音频文件的语谱图中坐标位于扩散处理后第一特征点的坐标范围内的特征点确定为第二特征点。在目标音频文件内查找与所述扩散处理后各第一特征分别对应的各第二特征点。

在其它实施例中，还可以是遍历数据库中所有的音频文件。这样，可以更精确的识别出待识别音频文件的音频信息。

S130：若是，则确定所述待识别音频文件的语谱图为所述目标音频文件的一部分。

如果在目标音频文件的语谱图中查找到与所述扩散处理后各第一特征点分别对应的第二特征点，则可以确定所述待识别音频文件为所述目标音频文件的一部分。

通过本实施例中，对待识别音频文件的语谱图中的第一特征点进行扩散处理，可以减少所述第一特征点受噪声影响产生的偏差；从而提高扩散处理后的第一特征点与目标音频文件的匹配率，即可以实现了提高音频特征点匹配成功率。

在本申请的一实施例中，所述S122步骤，具体可以包括：

确定所述窗口内所述目标音频文件的语谱图中坐标位于所述窗口内扩散处理后第一特征点的坐标范围内的特征点与第一特征点的匹配度；

将所述匹配度大于第一阈值的特征点确定为第二特征点。

所述匹配度包括所述窗口内语谱图中位于扩散处理后第一特征点的坐标范围内的特征点个数与第一特征点个数的比值或所述窗口内语谱图中位于扩散处理后第一特征点的坐标范围内的特征点对应的第一特征点的能量值或者灰度值之和。所述第一阈值可以是用户根据综合相关因素的一个统计结果。

以所述窗口内语谱图中位于扩散处理后第一特征点的坐标范围内的特征点个数与第一特征点个数的比值为例，例如扩散后第一特征点为100个，所述特征点为60个；则所述第一特征点与所述特征点的匹配度为60％。如果所述第一阈值为80％，那么将所述特征点确定为第二特征点。

以所述窗口内语谱图中位于扩散处理后第一特征点的坐标范围内的特征点对应的第一特征点的能量值之和为例，例如特征点有10个，那么将这10个特征点对应的10个第一特征点的能量值相加，得到能量值之和。如果所述能量值之和大于所述第一阈值，那么将所述特征点确定为第二特征点。

以所述窗口内语谱图中位于扩散处理后第一特征点的坐标范围内的特征点对应的第一特征点的灰度值之和为例，例如特征点有10个，那么将这10个特征点对应的10个第一特征点的灰度值相加，得到灰度值之和。如果所述灰度值之和大于所述第一阈值，那么将所述特征点确定为第二特征点。

在本申请的一实施例中，在S110步骤之前，还可以包括S101、S102，如图7所示：

S101：将待识别音频文件的语谱图中包含的能量值或者灰度值大于第二阈值的特征点作为关键点；

所述第二阈值可以是用户根据综合相关因素的一个统计结果；第二阈值越小，可以提取的关键点就越多，进而可能造成后续匹配时间越久；第二阈值越大，可以提取的关键点就越少，进而可能造成后续匹配的成功概率过低。

S102：若所述关键点的能量值或者灰度值在预设区域内为最大值，则将该关键点确定为第一特征点；

所述预设区域可以是以所述关键点为中心并根据预设半径确定的圆形区域；或者以所述关键点为中心并根据预设长和宽确定的矩形区域。

所述预设区域可以是用户根据综合相关因素的一个统计结果；预设区域越小，可以确定的第一特征点越多，进而可能造成后续匹配时间越久；预设区域越大，可以确定的第一特征点越少，进而可能造成后续匹配的成功概率过低。

如图8a所示，为确定的第一特征点在语谱图上的示意图。图中白点即第一特征点。具体的，假设所述第二预设阈值为30，所述预设区域为15*15(以关键点为中心，横坐标取15帧，纵坐标取长度15)，如图8b所示，为图8a的局部放大示意图；图中白点的能量值或者灰度值即大于第一预设阈值30并且在预设区域15*15内依然是最大值，提取出这样的点作为第一特征点。

本申请实施例与上一实施例不同之处在于，通过提取语谱图中能量值或者灰度值大的特征点作为第一特征点，从而可以排除能量弱的特征点对后续匹配的干扰，并且还可以大大的减少扩散处理的数据量，进而提高系统性能。

在本申请的一实施例中，所述目标音频文件可以携带有音频信息。本申请应用于歌曲识别场景中时，所述音频信息可以包括歌曲名。用户录制一段不知道歌曲名的待识别音频文件或待识别音频文件就是一首不知道歌曲名的歌曲，当确定待识别音频文件为目标音频文件的一部分时，就可以识别出所述待识别音频文件的歌曲名。

图9为本申请一实施例中提供的音频识别系统的模块示意图。本实施例中，所述音频识别系统包括：

扩散单元210，用于对待识别音频文件的语谱图中的第一特征点进行扩散处理，得到特征点图，所述第一特征点的数量为多个；

查找单元220，在目标音频文件的语谱图中查找是否存在与所述特征点图中扩散处理后的各第一特征点分别对应的第二特征点；

确定单元230，用于在目标音频文件的语谱图中查找到与所述特征点图中扩散处理后的各第一特征点分别对应的第二特征点的区域时，则确定所述待识别音频文件为所述目标音频文件的一部分。

优选地，在所述扩散单元210之前，还可以包括：

归一化单元，用于将待识别音频文件的语谱图的第一特征点的能量值归一化为第一特征点的灰度值。

优选地，所述扩散处理包括高斯函数扩散处理或者放大处理中的至少一种。

优选地，所述归一化单元，具体可以包括：

第一归一化子单元，用于以第一预设长度为窗口逐帧遍历语谱图；

第二归一化子单元，用于获取所述窗口内第一特征点的能量值中的局部最大值和局部最小值；

第三归一化子单元，用于根据所述局部最大值和局部最小值将第一特征点的能量值归一化为第一特征点的灰度值。

优选地，所述查找单元220，具体可以包括：

第一查找子单元，用于以所述特征点图为窗口逐帧遍历所述目标音频文件的语谱图；

第二查找子单元，用于每次遍历过程中将所述窗口内所述目标音频文件的语谱图中坐标位于所述窗口内扩散处理后第一特征点的坐标范围内的特征点确定为第二特征点；

第三查找子单元，用于查找所述窗口内所述目标音频文件的语谱图中是否存在与所述扩散处理后各第一特征点分别对应的各第二特征点。

优选地，所述第二查找子单元，具体可以包括：

第四查找子单元，用于确定所述窗口内所述目标音频文件的语谱图中坐标位于所述窗口内扩散处理后第一特征点的坐标范围内的特征点与所述第一特征点的匹配度；

第五查找子单元，用于将所述匹配度大于第一阈值的特征点确定为第二特征点。

优选地，所述匹配度包括所述窗口内语谱图中位于扩散处理后第一特征点的坐标范围内的特征点个数与第一特征点个数的比值或所述窗口内语谱图中位于扩散处理后第一特征点的坐标范围内的特征点对应的第一特征点的能量值或者灰度值之和。

优选地，在所述扩散处理之前，还可以包括：

第一处理单元，用于将待识别音频文件的语谱图中包含的能量值或者灰度值大于第二阈值的特征点作为关键点；

第二处理单元，用于在所述关键点的能量值或者灰度值在预设区域内为最大值时，将该关键点确定为第一特征点。

优选地，所述目标音频文件携带有音频信息，所述音频信息包括歌曲名。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable Gate Array，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL (Ruby Hardware Description Language)等，目前最普遍使用的是VHDL(Very-High-Speed Integrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

一种音频识别方法，其特征在于，包括：

对待识别音频文件的语谱图中的第一特征点进行扩散处理，得到特征点图，所述第一特征点的数量为多个；

在目标音频文件的语谱图中查找是否存在与所述特征点图中扩散处理后的各第一特征点分别对应的第二特征点；

若是，则确定所述待识别音频文件为所述目标音频文件的一部分。
如权利要求1所述的方法，其特征在于，在所述对待识别音频文件的语谱图中的第一特征点进行扩散处理，之前，还包括：

将待识别音频文件的语谱图中的第一特征点的能量值归一化为第一特征点的灰度值。
如权利要求1或2所述的方法，其特征在于，所述扩散处理包括高斯函数扩散处理或者放大处理中的至少一种。
如权利要求2所述的方法，其特征在于，将待识别音频文件的语谱图中的第一特征点的能量值归一化为第一特征点的灰度值，具体包括：

以第一预设长度为窗口逐帧遍历语谱图；

获取所述窗口内第一特征点的能量值中的局部最大值和局部最小值；

根据所述局部最大值和局部最小值将第一特征点的能量值归一化为第一特征点的灰度值。
如权利要求1或2所述的方法，其特征在于，所述在目标音频文件的语谱图中查找是否存在与所述特征点图中扩散处理后的各第一特征点分别对应的第二特征点，具体包括：

以所述特征点图为窗口逐帧遍历所述目标音频文件的语谱图；

每次遍历过程中将所述窗口内所述目标音频文件的语谱图中坐标位于所述窗口内扩散处理后第一特征点的坐标范围内的特征点确定为第二特征点；

查找所述窗口内所述目标音频文件的语谱图中是否存在与所述扩散处理后各第一特征点分别对应的各第二特征点。
如权利要求5所述的方法，其特征在于，所述将所述窗口内所述目标音频文件的语谱图中坐标位于所述窗口内扩散处理后第一特征点的坐标范围内的特征点确定为第二特征点，包括：

确定所述窗口内所述目标音频文件的语谱图中坐标位于所述窗口内扩散处理后第一特征点的坐标范围内的特征点与第一特征点的匹配度；

将所述匹配度大于第一阈值的特征点确定为第二特征点。
如权利要求6所述的方法，其特征在于，所述匹配度包括所述窗口内语谱图中位于扩散处理后第一特征点的坐标范围内的特征点个数与第一特征点个数的比值或所述窗口内语谱图中位于扩散处理后第一特征点的坐标范围内的特征点对应的第一特征点的能量值或者灰度值之和。
如权利要求1或2所述的方法，其特征在于，在所述对待识别音频文件的语谱图的第一特征点进行扩散处理，之前，还包括：

将待识别音频文件的语谱图中包含的能量值或者灰度值大于第二阈值的特征点作为关键点；

若所述关键点的能量值或者灰度值在预设区域内为最大值，则将该关键点确定为第一特征点。
如权利要求1所述的方法，其特征在于，所述目标音频文件携带有音频信息，所述音频信息包括歌曲名。
一种音频识别系统，其特征在于，包括：

扩散单元，用于对待识别音频文件的语谱图中的第一特征点进行扩散处理，得到特征点图，所述第一特征点的数量为多个；

查找单元，在目标音频文件的语谱图中查找是否存在与所述特征点图中扩散处理后的各第一特征点分别对应的第二特征点；

确定单元，用于在目标音频文件的语谱图中查找到与所述特征点图中扩散处理后的各第一特征点分别对应的第二特征点时，则确定所述待识别音频文件为所述目标音频文件的一部分。
如权利要求10所述的系统，其特征在于，在所述扩散单元之前，还包括：

归一化单元，用于将待识别音频文件的语谱图中的第一特征点的能量值归一化为第一特征点的灰度值。
如权利要求10或11所述的系统，其特征在于，所述扩散处理包括高斯函数扩散处理或者放大处理中的至少一种。
如权利要求11所述的系统，其特征在于，所述归一化单元，具体包括：

第一归一化子单元，用于以第一预设长度为窗口逐帧遍历语谱图；

第二归一化子单元，用于获取所述窗口内第一特征点的能量值中的局部最大值和局部最小值；

第三归一化子单元，用于根据所述局部最大值和局部最小值将第一特征点的能量值归一化为第一特征点的灰度值。
如权利要求10或11所述的系统，其特征在于，所述查找单元，具体包括：

第一查找子单元，用于以所述特征点图为窗口逐帧遍历所述目标音频文件的语谱图；

第二查找子单元，用于每次遍历过程中将所述窗口内所述目标音频文件的语谱图中坐标位于所述窗口内扩散处理后第一特征点的坐标范围内的特征点确定为第二特征点；

第三查找子单元，用于查找所述窗口内所述目标音频文件的语谱图中是否存在与所述扩散处理后各第一特征点分别对应的各第二特征点。
如权利要求14所述的系统，其特征在于，所述第二查找子单元，具体包括：

第四查找子单元，用于确定所述窗口内所述目标音频文件的语谱图中坐标位于所述窗口内扩散处理后第一特征点的坐标范围内的特征点与第一特征点的匹配度；

第五查找子单元，用于将所述匹配度大于第一阈值的特征点确定为第二特征点。
如权利要求15所述的系统，其特征在于，所述匹配度包括所述窗口内语谱图中位于扩散处理后第一特征点的坐标范围内的特征点个数与第一特征点个数的比值或所述窗口内语谱图中位于扩散处理后第一特征点的坐标范围内的特征点对应的第一特征点的能量值或者灰度值之和。
如权利要求10或11所述的系统，其特征在于，在所述扩散处理之前，还包括：

第一处理单元，用于将待识别音频文件的语谱图中包含的能量值或者灰度值大于第二阈值的特征点作为关键点；

第二处理单元，用于在所述关键点的能量值或者灰度值在预设区域内为最大值时，将该关键点确定为第一特征点。
如权利要求10所述的系统，其特征在于，所述目标音频文件携带有音频信息，所述音频信息包括歌曲名。