WO2019109787A1

WO2019109787A1 - 音频分类方法、装置、智能设备和存储介质

Info

Publication number: WO2019109787A1
Application number: PCT/CN2018/115544
Authority: WO
Inventors: 程亮; 甄德聪
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2017-12-05
Filing date: 2018-11-15
Publication date: 2019-06-13
Also published as: CN110019931B; CN110019931A

Abstract

一种音频分类方法、装置、智能设备和存储介质。所述方法包括：获取待分类音频文件（S11）；对待分类音频文件的音频信号进行处理，生成表示第一音频特征的输入向量（S12），第一音频特征为所述待分类音频文件对应的音频特征；将所述输入向量输入至预先训练得到的用于音频分类的神经网络模型（S13）；通过所述神经网络模型分析所述输入向量，生成所述待分类音频文件的分类结果（S14）。该方法能够突破现有技术的局限性，提高对待分类音频文件进行分类的准确度和效率。

Description

音频分类方法、装置、智能设备和存储介质

本申请要求于2017年12月5日提交中国专利局、申请号201711265842.X、申请名称为“音频分类方法、装置、智能设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及音频分类技术。

背景技术

随着经济社会的快速发展，人们的生活水平日益提高，在物质需求逐渐被满足时，人们越来越注重精神追求以及精神上的享受。而比如音乐等音频能够很好的调剂人们的生活，能够一定程度上满足人们的精神追求和精神上的享受。现实生活中，不同的人对不同种类的音频的喜好可能并不相同，同一个人在不同时期以及不同状态下想要接触的音频也可能不同，因此，对音频进行分类很有必要。

目前的技术中，主要是依靠人工方式对音频进行分类，需要消耗大量人力资源，耗时较长，效率较低，并且受到个人知识局限性、个人偏好等因素的影响，客观性不高。而现有机器辅助的方式，仍依赖音频的与人工相关的元信息，比如歌手，年代等人工信息来建模，同样存在效率较低、客观性不高的问题，并且，随着音频数量越来越多，数据量庞大，一般每天也新增许多音频，这些音频里面，元信息的缺失现象很普遍，从而导致难以对这些音频进行准确分类。

因此，目前的技术中，无论是依靠人工方式还是机器辅助的方式，都存在效率都较低，分类的准确度的也不高的问题，存在较大的局限性。

发明内容

有鉴于此，本申请实施例提供了一种音频分类方法、装置、智能设备和存储介质，能够突破现有技术的局限性，提高对音频进行分类的准确度和效率。

为实现上述目的，本申请实施例提供如下技术方案：

一种音频分类方法，包括：

获取待分类音频文件；

对所述待分类音频文件的音频信号进行处理，生成表示第一音频特征的输入向量，所述第一音频特征为所述待分类音频文件对应的音频特征；

将所述输入向量输入至预先训练得到的用于音频分类的神经网络模型；

通过所述神经网络模型分析所述输入向量，生成所述待分类音频文件的分类结果。

一种音频分类装置，包括：

待分类音频文件获取模块，用于获取待分类音频文件；

输入向量生成模块，用于对所述待分类音频文件的音频信号进行处理，生成表示第一音频特征的输入向量，所述第一音频特征为所述待分类音频文件对应的音频特征；

输入模块，用于将所述输入向量输入至预先训练得到的用于音频分类的神经网络模型；

分类结果生成模块，用于通过所述神经网络模型分析所述输入向量，生成所述待分类音频文件的分类结果。

一种智能设备，包括：

处理器和存储器，所述处理器与存储器通过通信总线相连接：

其中，所述处理器，用于调用并执行所述存储器中存储的程序；

所述存储器，用于存储程序，所述程序至少用于执行上述的音频分类方法。

一种存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行上述的音频分类方法。

一种计算机程序产品，包括指令，当其在计算机上运行时，使得计算机执行上述的音频分类方法。

经由上述的技术方案可知，与现有技术相比，本申请实施例提供了一种音频分类方法、装置、智能设备和存储介质。本申请实施例提供的技术方案，首先获取待分类音频文件，然后对待分类音频文件的音频信号进行处理，生成表示第一音频特征的输入向量，第一音频特征为从待分类音频文件本身提取出的音频特征，将所述输入向量输入至预先训练得到的用于音频分类的神经网络模型，通过所述神经网络模型分析所述输入向量，生成所述待分类音频文件的分类结果。也就是说，本申请实施例提供的技术方案，是基于待分类音频文件本身的音频特征，借助预先训练得到的用于音频分类的神经网络模型来对待分类音频文件进行分类，而非依赖人工相关的元信息，相对于现有技术，不但客观，而且准确度较高，受人工主观因素的影响很小，并且，由于能够实现待分类音频文件的自动分类，能够显著提高工作效率。因此，本申请实施例提供的技术方案，能够突破现有技术的局限性，可靠性较高，更加适于应用。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种音频分类方法的流程图；

图2为本申请实施例提供的一种生成表示第一音频特征的输入向量的方法的流程图；

图3为本申请实施例提供的一种提取待分类音频文件的音频信号的方法的流程图；

图4为本申请实施例提供的一种梅尔标注频谱图；

图5为本申请实施例提供的另外一种生成表示第一音频特征的输入向量的方法的流程图；

图6为本申请实施例提供的另外一种生成表示第一音频特征的输入向量的方法的流程图；

图7为本申请实施例提供的另外一种生成表示第一音频特征的输入向量的方法的流程图；

图8为本申请实施例提供的一种预先建立的卷积神经网络模型的结构图；

图9为本申请实施例提供的另外一种音频分类方法的流程图；

图10为本申请实施例提供的一种音频分类装置的结构图；

图11为本申请实施例提供的一种输入向量生成模块的结构图；

图12为本申请实施例提供的一种输入向量生成模块的结构图；

图13为本申请实施例提供的一种输入向量生成模块的结构图；

图14为本申请实施例提供的一种输入向量生成模块的结构图；

图15为本申请实施例提供的另外一种音频分类装置的结构图；

图16为本申请实施例提供的一种智能设备的硬件结构图；

图17为本申请实施例提供的一种音频分类方法所应用的硬件拓扑环境的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

实施例

请参阅图1，图1为本申请实施例提供的一种音频分类方法的流程图。如图1所示，该方法包括：

S11，获取待分类音频文件。

当存在需要进行分类的音频文件时，智能设备首先获取需要分类音频对应的音频文件，即待分类音频文件。

S12，对所述待分类音频文件的音频信号进行处理，生成表示第一音频特征的输入向量。

智能设备可以提取所述待分类音频文件的音频信号，处理所述音频信号，生成表示第一音频特征的输入向量。其中，所述第一音频特征为所述待分类音频文件对应的音频特征，表示第一音频特征的输入向量可以是二维向量。

S13，将所述输入向量输入至预先训练得到的用于音频分类的神经网络模型。

可选的，所述预先训练得到的用于音频分类的神经网络模型可以是：

卷积神经网络模型(Convolutional Neural Network，简称CNN)；

或者卷积循环神经网络模型(Convolutional Recurrent Neural Network，简称CRNN)与卷积神经网络模型的组合形成的神经网络模型。

S14，通过所述神经网络模型分析所述输入向量，生成所述待分类音频文件的分类结果。

可以理解的是，所述神经网络模型的输入是输入向量，输出是待分类音频文件的分类结果，而输入向量可以表示待分析音频文件的音色、节奏、强度、旋律、和声以及乐器等第一音频特征，这样，当将输入向量输入到预先训练得到的用于音频分类的神经网络模型后，分析输入向量，从而至少确定待分析音频文件的音色、节奏、强度、旋律、和声以及乐器等第一音频特征，最终生成所述待分类音频文件的分类结果。此时，待分类音频文件的分类结果是根据待分类音频文件本身的音频特征(第一音频特征)进行确定的，并不依赖于人工相关信息。

本申请实施例提供的技术方案，是基于待分类音频文件本身的音频特征，借助预先训练得到的用于音频分类的神经网络模型来对待分类音频文件进行分类，而非依赖人工相关的元信息，相对于现有技术，不但客观，而且准确度较高，受人工主观因素的影响很小，并且，由于能够实现待分类音频文件的自动分类，能够显著提高工作效率。因此，本申请实施例提供的技术方案，能够突破现有技术的局限性，可靠性较高，更加适于应用。

可选的，本申请实施例中，所述S12可以有多种实现方式，下文将对所述S12的具体实现进行详细介绍。

请参阅图2，图2为本申请实施例提供的一种生成表示第一音频特征的输入向量的方法的流程图。如图2所示，该方法包括：

S121，提取所述待分类音频文件的音频信号。

在一种实现方式中，请参阅图3，图3为本申请实施例提供的一种提取所述待分类音频文件的音频信号的方法的流程图。如图3所示，该提取所述待分类音频文件的音频信号的方法包括：

S1211，将所述待分类音频文件转换为单声道音频文件。

S1212，将所述单声道的音频文件的采样频率调整为预设采样频率，按照所述预设采样频率对所述单声道音频文件进行采样，以提取得到所述待分类音频文件的音频信号。

可以理解的是，待分类音频文件或已分类音频文件记录的是基于时间的信号，需要将其转化为时间和频率的信号，以减少数据大小、过滤不相关的信息，便于后续通过神经网络进行训练或者分类。

可选的，所述预设采样频率可以为12kHz(千赫兹)。

S122，将所述音频信号经过短时傅里叶变换和梅尔频率转换，生成表示第一音频特征的梅尔标注频谱图作为输入向量。

可选的，将提取得到的所述待分类音频文件的音频信号，首先进行预处理，然后经过短时傅里叶变换(short-time Fourier transform，简称STFT)得到该音频信号的频谱图(spectrogram)，然后对该频谱图进行梅尔标注(mel-scale)频率转换，从而实现把实际频率转换为适应人的听觉特征的频率，生成表示第一音频特征的梅尔标注频谱图作为输入向量。

其中，对提取得到的所述待分类音频文件的音频信号进行预处理的过程，可以包括分帧和加窗操作；对该频谱图进行梅尔标注(mel-scale)频率转换后，还可以对振幅取对数，使那些振幅较低的成分相对振幅较高的成分得以拉高，以便观察掩盖在低幅噪声中的周期信号。

请参阅图4，图4为本申请实施例提供的一种梅尔标注频谱图。该图中梅尔标注频谱图的振幅经过了取对数处理，该图表示了一段音频在时间轴上不同频率的信号分布，通过一个二维向量表示，作为下一步神经网络模型训练的输入，或者作为神经网络模型为实现音频分类的输入。如图4所示，左侧纵轴表示频率，单位是赫兹(Hz)；横轴表示时间，单位是分钟；右侧纵轴表示声音强度，单位是分贝(dB)。图4中，mel power spectrogram表示该图为振幅经过了取对数处理的梅尔标注频谱图。

请参阅图5，图5为本申请实施例提供的另外一种生成表示第一音频特征的输入向量的方法的流程图。如图5所示，该方法包括：

S121，提取所述待分类音频文件的音频信号。

在一种实现方式中，提取所述待分类音频文件的音频信号的方法请参阅图3对应实施例的描述，此处不再赘述。

S123，将所述音频信号经过短时傅里叶变换，生成表示所述第一音频特征的频谱图作为输入向量。

可选的，将提取得到的所述待分类音频文件的音频信号，首先进行预处理，然后经过短时傅里叶变换(short-time Fourier transform，简称STFT)得到该音频信号的频谱图(spectrogram)，生成表示第一音频特征的频谱图作为输入向量。其中，对提取得到的所述待分类音频文件的音频信号进行预处理的过程，可以包括分帧和加窗操作。该方法直接以经过短时傅里叶变换得到该音频信号的频谱图作为输入向量，相对于上文中已阐述的以梅尔标注频谱图作为输入向量，无需经历梅尔频率转换，提高了处理效率。

请参阅图6，图6为本申请实施例提供的另外一种生成表示第一音频特征的输入向量的方法的流程图。如图6所示，该方法包括：

S121，提取所述待分类音频文件的音频信号。

S124，将所述音频信号经过短时傅里叶变换、梅尔频率转换和梅尔频率倒谱系数转换，生成表示第一音频特征的梅尔频率倒谱系数作为输入向量。

可选的，将提取得到的所述待分类音频文件的音频信号，首先进行预处理，然后经过短时傅里叶变换(short-time Fourier transform，简称STFT)得到该音频信号的频谱图(spectrogram)，然后对该频谱图进行梅尔标注(mel-scale)频率转换，从而实现把实际频率转换为适应人的听觉特征的频率，得到梅尔标注频谱图，然后将梅尔标注频谱图进行梅尔频率倒谱系数转换，生成表示第一音频特征的梅尔频率倒谱系数作为输入向量。该方法以表示第一音频特征的梅尔频率倒谱系数作为输入向量，相对于上文中已阐述的以梅尔标注频谱图作为输入向量，在后续神经网络模型对待分类音频文件分类的准确度更高。

其中，对提取得到的所述待分类音频文件的音频信号进行预处理的过程，可以包括分帧和加窗操作；对该频谱图进行梅尔标注(mel-scale)频率转换后、将梅尔标注频谱图进行梅尔频率倒谱系数转换之前，还可以对振幅取对数，使那些振幅较低的成分相对振幅较高的成分得以拉高，以便观察掩盖在低幅噪声中的周期信号。

请参阅图7，图7为本申请实施例提供的另外一种生成表示第一音频特征的输入向量的方法的流程图。如图7所示，该方法包括：

S121，提取所述待分类音频文件的音频信号。

S125，将所述音频信号经过常数Q转换(Constant-Q Transform，简称CQT)，生成表示第一音频特征的频谱图作为输入向量。

可选的，将提取得到的所述待分类音频文件的音频信号，首先进行预处理，然后经过常数Q转换得到该音频信号的频谱图(spectrogram)，从而生成表示第一音频特征的频谱图作为输入向量，常数Q转换得到的频谱图最大的特色在于频率轴为对数标度(log scale)而不是线性标度(linear scale)，且窗口长度(window length)会随着频率而改变，比较适用于分析各种不同类型的待分类音频文件。其中，对提取得到的所述待分类音频文件的音频信号进行预处理的过程，可以包括分帧和加窗操作。

可选的，本申请另外一个实施例提供的音频分类方法，所述S13之前，还包括：

A、获取已分类音频文件和已分类音频文件的分类标识信息；

可以理解的是，为了训练用于音频分类的神经网络模型，首先获取大量已分类音频文件，以及这些已分类音频文件各自对应的分类标识信息。可选的，所述分类标识信息包括但不限于：已分类音频文件所属于的流派和标签信息。比如，已分类音频文件所属于的流派包括：流行(Pop Music)、节奏布鲁斯(Rhythm&Blues，R&B)、说唱(Rap)、爵士(Jazz)、摇滚(Rock)以及乡村乐等；标签信息则更加自由和广泛，可以有多角度的标签信息，如音频文件属于抒情歌曲、催眠曲、安静或者躁动的音频、钢琴演奏的音频、古筝演奏的音频等等。

B、对训练音频信号进行处理，生成表示第二音频特征的训练向量。

其中，所述训练音频信号为所述已分类音频文件的音频信号，所述第二音频特征为所述已分类音频文件对应的音频特征。

可选的，对训练音频信号进行处理，生成表示第二音频特征的训练向量的过程，与本申请上文实施例中已经阐述的所述S12的过程基本相同，区别在于所述步骤S12处理的对象是待分类音频文件，而此处B步骤中处理的对象是已分类音频文件。因此，此处不再对B步骤进行详细阐述，具体可参照上文实施例中的S12部分。

C、以所述训练向量以及所述训练向量对应的分类标识信息，训练预先建立的神经网络模型，得到用于音频分类的神经网络模型。

可以理解的是，本申请实施例需要预先建立神经网络模型，预先建立的神经网络模型可以是卷积神经网络模型，或者卷积循环神经网络模型与卷积神经网络模型的组合形成的神经网络模型。然后以所述训练向量以及所述训练向量对应的分类标识信息作为输入，训练预先建立的神经网络模型，得到用于音频分类的神经网络模型。其中，如果预先建立的神经网络模型是卷积神经网络模型，或者卷积循环神经网络模型与卷积神经网络模型的组合形成的神经网络模型，则训练预先建立的神经网络模型，主要是训练预先建立的神经网络模型的权重。

需要说明的是，预先建立的神经网络模型在其建立的过程中，需要按照第二音频特征的训练向量，选取适当的激活函数，损失函数和优化器，以便让数据通过多个卷积层发掘出多种隐含的特征。

可选的，请参阅图8，图8为本申请实施例提供的一种预先建立的卷积神经网络模型的结构图。如图8所示，该预先建立的卷积神经网络模型为5层2D卷积的模型。其中，从多个流派中选取已分类音频文件所属于的一个流派的场景对应的激活函数可以为softmax，损失函数可以为categorical crossentropy；为已分类音频文件选取标签信息的场景对应的激活函数可以为sigmoid，损失函数可以为binary cross-entropy。具体的，附图8中，卷积神经网络模型的卷积层的数量可调整，BatchNormalization是可选的，池化层可以除了Max Pooling也可以采用其它方式，激活函数ELU也可用其它函数，本申请对此并不做限制。

需要说明的是，图8示出的预先建立的卷积神经网络模型仅是一种示例，本领域技术人员可以依照本申请实施例的启示建立其他类似的神经网络模型用于对音频进行分类，这些变更仍旧属于本申请的保护范围。

此外，上文实施例中的S12部分生成输入向量的方法与本实施例中的步骤B和C部分生成训练向量的方法应该是相同的，以保证训练得到的用于音频分类的神经网络模型的输入与S12得到的输入向量相匹配。

请参阅图9，图9为本申请实施例提供的另外一种音频分类方法的流程图。如图9所示，该方法包括：

S21，获取已分类音频文件和已分类音频文件的分类标识信息。

可选的，所述S21包括：

获取已分类音频文件，以及已分类音频文件的标签信息和所属于的流派。

S22，对训练音频信号进行处理，生成表示第二音频特征的训练向量。

S23，以所述训练向量以及所述训练向量对应的分类标识信息，训练预先建立的神经网络模型，得到用于音频分类的神经网络模型。

S24，获取待分类音频文件。

S25，对所述待分类音频文件的音频信号进行处理，生成表示第一音频特征的输入向量。

S26，将所述输入向量输入至预先训练得到的用于音频分类的神经网络模型。

S27，通过所述神经网络模型分析所述输入向量，生成所述待分类音频文件的分类结果。

可选的，所述步骤S27包括：

通过所述神经网络模型分析所述输入向量，生成所述待分类音频文件的标签信息和所属于的流派。其中，生成所述待分类音频文件的标签信息和所属于的流派，可选的为：生成所述待分类音频文件的多个标签信息，以及从多个流派中确定的所述待分类音频文件所属于的一个流派。

可选的，所述分类结果也可以是所述待分类音频文件所匹配的各标签信息的概率以及所属于的流派的概率。

可以理解的是，由于本申请实施例提供的技术方案，能够自动对待分类音频文件进行分类，如确定待分类音频文件的各个标签信息，以及待分类音频文件所属于的流派等分类结果，这些分类结果能够使音频应用软件(即提供播放音频服务的应用软件)获得这些待分类音频文件比较完整的基础元数据，从而能够方便音频应用软件对这些待分类音频文件进行音频个性推荐、音频分类管理和内容编辑等，这些过程可以由音频应用软件的服务器自动执行，尤其对于如腾讯公司的JOOX(一种音频应用软件)这种拥有巨大存量和增量的音频歌曲库的服务而言，能够节省大量人力和时间，并且准确度的也较高。

为了更加全面地阐述本申请提供的技术方案，对应于本申请实施例提供的音频分类方法，本申请公开一种音频分类装置。

请参阅图10，图10为本申请实施例提供的一种音频分类装置的结构图。如图10所示，该装置包括：

待分类音频文件获取模块11，用于获取待分类音频文件；

输入向量生成模块12，用于对所述待分类音频文件的音频信号进行处理，生成表示第一音频特征的输入向量；所述第一音频特征为所述待分类音频文件对应的音频特征；

输入模块13，用于将所述输入向量输入至预先训练得到的用于音频分类的神经网络模型；

卷积神经网络模型(Convolutional Neural Network，简称CNN)；

分类结果生成模块14，用于通过所述神经网络模型分析所述输入向量，生成所述待分类音频文件的分类结果。

可以理解的是，所述神经网络模型的输入是输入向量，输出是待分类音频文件的分类结果，而输入向量可以表示待分析音频文件的音色、节奏、强度、旋律、和声以及乐器等第一音频特征，这样，当将输入向量输入到预先训练得到的用于音频分类的神经网络模型后，所述分类结果生成模块14通过预先训练得到的用于音频分类的神经网络模型，分析所述输入向量，从而至少确定待分析音频文件的音色、节奏、强度、旋律、和声以及乐器等第一音频特征，最终生成所述待分类音频文件的分类结果。此时，待分类音频文件的分类结果是根据待分类音频文件本身的音频特征(第一音频特征)进行确定的，并不依赖于人工相关信息。

本申请实施例提供的音频分类装置，是基于待分类音频文件本身的音频特征，借助预先训练得到的用于音频分类的神经网络模型来对待分类音频文件进行分类，而非依赖人工相关的元信息，相对于现有技术，不但客观，而且准确度较高，受人工主观因素的影响很小，并且，由于能够实现待分类音频文件的自动分类，相对于现有技术，能够显著提高工作效率。因此，本申请实施例提供的音频分类装置，能够突破现有技术的局限性，可靠性较高，更加适于应用。

可选的，本申请实施例中，所述输入向量生成模块12可以有多种实现方式，下文将对输入向量生成模块12的具体实现进行详细介绍。

请参阅图11，图11为本申请实施例提供的一种输入向量生成模块的结构图。如图11所示，该模块包括：

音频信号提取单元121，用于提取所述待分类音频文件的音频信号；

在一种实现方式中，如图11所示，音频信号提取单元121包括：

单声道转换子单元1211，用于将所述待分类音频文件转换为单声道音频文件；

采样子单元1212，用于将所述单声道的音频文件的采样频率调整为预设采样频率，按照所述预设采样频率对所述单声道音频文件进行采样，以提取得到所述待分类音频文件的音频信号；

可选的，所述预设采样频率可以为12kHz(千赫兹)。

输入向量第一生成单元122，用于将所述音频信号经过短时傅里叶变换和梅尔频率转换，生成表示第一音频特征的梅尔标注频谱图作为输入向量。

可选的，输入向量第一生成单元122将提取得到的所述待分类音频文件的音频信号，首先进行预处理，然后经过短时傅里叶变换(short-time Fourier transform，简称STFT)得到该音频信号的频谱图(spectrogram)，然后对该频谱图进行梅尔标注(mel-scale)频率转换，从而实现把实际频率转换为适应人的听觉特征的频率，生成表示第一音频特征的梅尔标注频谱图作为输入向量。

请参阅图12，图12为本申请实施例提供的一种输入向量生成模块的结构图。如图12所示，该模块包括：

在一种实现方式中，如图12所示，音频信号提取单元121的结构可以参见图11中音频信号提取单元121所示，此处不再赘述。

输入向量第二生成单元123，用于将所述音频信号经过短时傅里叶变换，生成表示第一音频特征的频谱图作为输入向量。

可选的，输入向量第二生成单元123将提取得到的所述待分类音频文件的音频信号，首先进行预处理，然后经过短时傅里叶变换(short-time Fourier transform，简称STFT)得到该音频信号的频谱图(spectrogram)，生成表示第一音频特征的频谱图作为输入向量。其中，对提取得到的所述待分类音频文件的音频信号进行预处理的过程，可以包括分帧和加窗操作。该方法直接以经过短时傅里叶变换得到该音频信号的频谱图作为输入向量，相对于上文中已阐述的以梅尔标注频谱图作为输入向量，无需经历梅尔频率转换，提高了处理效率。

请参阅图13，图13为本申请实施例提供的一种输入向量生成模块的结构图。如图13所示，该模块包括：

在一种实现方式中，如图13所示，音频信号提取单元121的结构可以参见图11中音频信号提取单元121所示，此处不再赘述。

输入向量第三生成单元124，用于将所述音频信号经过短时傅里叶变换、梅尔频率转换和梅尔频率倒谱系数转换，生成表示第一音频特征的梅尔频率倒谱系数作为输入向量。

可选的，输入向量第三生成单元124将提取得到的所述待分类音频文件的音频信号，首先进行预处理，然后经过短时傅里叶变换(short-time Fourier transform，简称STFT)得到该音频信号的频谱图(spectrogram)，然后对该频谱图进行梅尔标注(mel-scale)频率转换，从而实现把实际频率转换为适应人的听觉特征的频率，得到梅尔标注频谱图，然后将梅尔标注频谱图进行梅尔频率倒谱系数转换，生成表示第一音频特征的梅尔频率倒谱系数作为输入向量。该方法以表示第一音频特征的梅尔频率倒谱系数作为输入向量，相对于上文中已阐述的以梅尔标注频谱图作为输入向量，在后续神经网络模型对待分类音频文件分类的准确度更高。

请参阅图14，图14为本申请实施例提供的一种输入向量生成模块的结构图。如图14所示，该模块包括：

在一种实现方式中，如图14所示，音频信号提取单元121的结构可以参见图11中音频信号提取单元121所示，此处不再赘述。

输入向量第四生成单元125，用于将所述音频信号经过常数Q转换，生成表示第一音频特征的频谱图作为输入向量。

可选的，输入向量第四生成单元125将提取得到的所述待分类音频文件的音频信号，首先进行预处理，然后经过常数Q转换得到该音频信号的频谱图(spectrogram)，从而生成表示第一音频特征的频谱图作为输入向量，常数Q转换得到的频谱图最大的特色在于频率轴为对数标度(log scale)而不是线性标度(linear scale)，且窗口长度(window length)会随着频率而改变，比较适用于分析各种不同类型的待分类音频文件。其中，对提取得到的所述待分类音频文件的音频信号进行预处理的过程，可以包括分帧和加窗操作。

可选的，本申请另外一个实施例提供的音频分类装置，还包括：

已分类音频文件和分类标识信息获取模块，用于获取已分类音频文件和已分类音频文件的分类标识信息；

可以理解的是，为了训练用于音频分类的神经网络模型，已分类音频文件和分类标识信息获取模块用于获取大量已分类音频文件，以及这些已分类音频文件各自对应的分类标识信息。可选的，所述分类标识信息包括但不限于：已分类音频文件所属于的流派和标签信息。比如，已分类音频文件所属于的流派包括：流行(Pop Music)、节奏布鲁斯(Rhythm&Blues，R&B)、说唱(Rap)、爵士(Jazz)、摇滚(Rock)以及乡村乐等；标签信息则更加自由和广泛，可以有多角度的标签信息，如音频文件的歌手、发行年代、抒情歌曲、催眠曲、安静和躁动等等。

训练向量生成模块，用于对训练音频信号进行处理，生成表示第二音频特征的训练向量。

所述训练音频信号为所述已分类音频文件的音频信号，所述第二音频特征为所述已分类音频文件对应的音频特征。

可选的，训练向量生成模块对训练音频信号进行处理，生成表示第二音频特征的训练向量的过程，与本申请上文实施例中已经阐述的所述输入向量生成模块12的实现过程基本相同，区别在于所述输入向量生成模块12处理的对象是待分类音频文件，而此处训练向量生成模块处理的对象是已分类音频文件。因此，此处不再对训练向量生成模块进行详细阐述，具体可参照上文实施例中的输入向量生成模块12部分。

神经网络模型训练模块，用于以所述训练向量以及所述训练向量对应的分类标识信息，训练预先建立的神经网络模型，得到用于音频分类的神经网络模型。

可以理解的是，本申请实施例需要预先建立神经网络模型，预先建立的神经网络模型可以是卷积神经网络模型，或者卷积循环神经网络模型与卷积神经网络模型的组合形成的神经网络模型。然后以所述训练向量以及所述训练向量对应的分类标识信息作为输入，训练预先建立的神经网络模型，得到用于音频分类的神经网络模型。其中，如果预先建立的神经网络模型是卷积神经网络模型，或者卷积循环神经网络模型与卷积神经网络模型的组合形成的神经网络模型，则训练预先建立的神经网络模型，主要是训练预先建立的神经网络模型的卷积核(或者称为权重)。

此外，上文实施例中输入向量生成模块12部分生成输入向量所执行的方法与本实施例中训练向量生成模块部分生成训练向量所执行的方法应当是相同的，以保证训练得到的用于音频分类的神经网络模型的输入与输入向量生成模块12得到的输入向量相匹配。

请参阅图15，图15为本申请实施例提供的另外一种音频分类装置的结构图。如图15所示，该装置包括：

已分类音频文件和分类标识信息获取模块21，用于获取已分类音频文件和已分类音频文件的分类标识信息；

可选的，所述已分类音频文件和分类标识信息获取模块21具体用于：

训练向量生成模块22，用于对训练音频信号进行处理，生成表示第二音频特征的训练向量；

神经网络模型训练模块23，用于以所述训练向量以及所述训练向量对应的分类标识信息，训练预先建立的神经网络模型，得到用于音频分类的神经网络模型；

待分类音频文件获取模块24，用于获取待分类音频文件；

输入向量生成模块25，用于对所述待分类音频文件的音频信号进行处理，生成表示第一音频特征的输入向量；

输入模块26，用于将所述输入向量输入至预先训练得到的用于音频分类的神经网络模型；

分类结果生成模块27，用于通过所述神经网络模型分析所述输入向量，生成所述待分类音频文件的分类结果。

所述分类结果生成模块27具体用于：

通过所述神经网络模型分析所述输入向量，生成所述待分类音频文件的标签信息和所属于的流派。

本申请实施例提供的音频分类装置，是基于待分类音频文件本身的音频特征，借助预先训练得到的用于音频分类的神经网络模型来对待分类音频文件进行分类，而非依赖人工相关的元信息，相对于现有技术，不但客观，而且准确度较高，受人工主观因素的影响很小，并且，由于能够实现待分类音频文件的自动分类，能够显著提高工作效率。因此，本申请实施例提供的音频分类装置，能够突破现有技术的局限性，可靠性较高，更加适于应用。

为了更加全面地阐述本申请提供的技术方案，对应于本申请实施例提供的音频分类方法，本申请公开一种智能设备，本申请提供的音频分类方法可以应用于智能设备，该智能设备可以是计算机，或者服务器等。

请参阅图16，图16为本申请实施例提供的一种智能设备的硬件结构图。如图16所示，该智能设备包括：

处理器1，通信接口2，存储器3和通信总线4；

其中处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1，用于执行程序；

存储器3，用于存放程序；

程序可以包括程序代码，所述程序代码包括计算机操作指令；在本申请实施例中，程序可以包括上述所述音频分类方法对应的程序。

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

其中，程序可具体用于：

获取待分类音频文件；

本申请实施例提供的智能终端，是基于待分类音频文件本身的音频特征，借助预先训练得到的用于音频分类的神经网络模型来对待分类音频文件进行分类，而非依赖人工相关的元信息，相对于现有技术，不但客观，而且准确度较高，受人工主观因素的影响很小，并且，由于能够实现待分类音频文件的自动分类，能够显著提高工作效率。因此，本申请实施例提供的智能终端，能够突破现有技术的局限性，可靠性较高，更加适于应用。

此外，本申请实施例还提供一种存储介质，该存储介质存储有计算机可执行指令，所述计算机可执行指令用于执行上述实施例所述的音频分类方法。

本申请实施例还提供一种计算机程序产品，包括指令，当其在计算机上运行时，使得计算机执行上述实施例所述的音频分类方法。

为了更加全面地阐述本申请提供的技术方案，下面对本申请实施例提供的音频分类方法所应用的硬件拓扑环境进行介绍。

请参阅图17，图17为本申请实施例提供的一种音频分类方法所应用的硬件拓扑环境的结构图。如图17所示，本申请实施例提供的音频分类方法所应用的硬件拓扑环境，包括服务器31，以及与所述服务器31相连接的客户端32；其中所述客户端32可以为计算机终端321，也可以为移动终端322；

所述服务器31用于：获取已分类音频文件和已分类音频文件的分类标识信息；对训练音频信号进行处理，生成表示第二音频特征的训练向量；所述训练音频信号为所述已分类音频文件的音频信号，所述第二音频特征为所述已分类音频文件对应的音频特征；以所述训练向量以及所述训练向量对应的分类标识信息，训练预先建立的神经网络模型，得到用于音频分类的神经网络模型。

可选的，所述服务器31在训练得到用于音频分类的神经网络模型后，可以对新的音频文件(即待分类音频文件)进行分类，则所述服务器31还用于：

获取待分类音频文件；对所述待分类音频文件的音频信号进行处理，生成表示第一音频特征的输入向量，所述第一音频特征为所述待分类音频文件对应的音频特征；将所述输入向量输入至预先训练得到的用于音频分类的神经网络模型；通过所述神经网络模型分析所述输入向量，生成所述待分类音频文件的分类结果。

另外，所述服务器31在训练得到用于音频分类的神经网络模型后，可以将用于音频分类的神经网络模型配置在客户端32，该客户端32可以是服务器本地的客户端，如提供音频分类软件服务的商家本地的客户端，也可以是用户的客户端，此时，所述客户端32可以用于：

也就是说，配置有用于音频分类的神经网络模型的客户端32，可以脱离服务器独立实现对新的(如新发布的)音频文件进行分类。比如，用户自己下载了一首歌曲，用户可以用自己的客户端(如用户的移动终端或用户的计算机)对该歌曲进行分类，这首歌曲便可以归属到所分的类别(如摇滚乐)当中，后续使用户收听该所分类别下的歌曲时，便可自动收听到该歌曲，能够有效提升用户体验。

需要说明的是，客户端32也可以将新的音频文件发送到服务器31，由服务器31对新的音频文件进行分类，然后将分类结果反馈至客户端32。

经由上述内容可以确定，本申请实施例提供的音频分类方法所应用的硬件拓扑环境，是基于待分类音频文件本身的音频特征，借助预先训练得到的用于音频分类的神经网络模型来对待分类音频文件进行分类，而非依赖人工相关的元信息，相对于现有技术，不但客观，而且准确度较高，受人工主观因素的影响很小，并且，由于能够实现待分类音频文件的自动分类，能够显著提高工作效率，也有利于提升用户体验。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者智能设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者智能设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者智能设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、智能设备和存储介质而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

一种音频分类方法，应用于智能设备，包括：

获取待分类音频文件；

对所述待分类音频文件的音频信号进行处理，生成表示第一音频特征的输入向量，所述第一音频特征为所述待分类音频文件对应的音频特征；

将所述输入向量输入至预先训练得到的用于音频分类的神经网络模型；

通过所述神经网络模型分析所述输入向量，生成所述待分类音频文件的分类结果。
根据权利要求1所述的方法，所述对所述待分类音频文件的音频信号进行处理，生成表示第一音频特征的输入向量，包括：

提取所述待分类音频文件的音频信号；

将所述音频信号经过短时傅里叶变换和梅尔频率转换，生成表示所述第一音频特征的梅尔标注频谱图作为输入向量。
根据权利要求1所述的方法，所述对所述待分类音频文件的音频信号进行处理，生成表示第一音频特征的输入向量，包括：

提取所述待分类音频文件的音频信号；

将所述音频信号经过短时傅里叶变换，生成表示所述第一音频特征的频谱图作为输入向量。
根据权利要求2～3任一项所述的方法，所述提取所述待分类音频文件的音频信号，包括：

将所述待分类音频文件转换为单声道音频文件；

将所述单声道音频文件的采样频率调整为预设采样频率，按照所述预设采样频率对所述单声道音频文件进行采样，以提取得到所述待分类音频文件的音频信号。
根据权利要求1所述的方法，所述将所述输入向量输入至预先训练得到的神经网络模型之前，还包括：

获取已分类音频文件和所述已分类音频文件的分类标识信息；

对训练音频信号进行处理，生成表示第二音频特征的训练向量；所述训练音频信号为所述已分类音频文件的音频信号，所述第二音频特征为所述已分类音频文件对应的音频特征；

以所述训练向量以及所述训练向量对应的分类标识信息，训练预先建立的神经网络模型，得到所述用于音频分类的神经网络模型。
根据权利要求5所述的方法，获取已分类音频文件和所述已分类音频文件的分类标识信息，包括：

获取所述已分类音频文件，以及所述已分类音频文件的标签信息和所属于的流派；

所述通过所述神经网络模型分析所述输入向量，生成所述待分类音频文件的分类结果，包括：

通过所述神经网络模型分析所述输入向量，生成所述待分类音频文件的标签信息和所属于的流派。
根据权利要求1～3任一项所述的方法，所述神经网络模型为：

卷积神经网络模型；

或者卷积循环神经网络模型与卷积神经网络模型的组合形成的神经网络模型。
一种音频分类装置，包括：

待分类音频文件获取模块，用于获取待分类音频文件；

输入向量生成模块，用于对所述待分类音频文件的音频信号进行处理，生成表示第一音频特征的输入向量；所述第一音频特征为所述待分类音频文件对应的音频特征；

输入模块，用于将所述输入向量输入至预先训练得到的用于音频分类的神经网络模型；

分类结果生成模块，用于通过所述神经网络模型分析所述输入向量，生成所述待分类音频文件的分类结果。
根据权利要求8所述的装置，所述输入向量生成模块包括：

音频信号提取单元，用于提取所述待分类音频文件的音频信号；

输入向量第一生成单元，用于将所述音频信号经过短时傅里叶变换和梅尔频率转换，生成表示所述第一音频特征的梅尔标注频谱图作为输入向量。
根据权利要求8所述的装置，所述输入向量生成模块包括：

音频信号提取单元，用于提取所述待分类音频文件的音频信号；

输入向量第二生成单元，用于将所述音频信号经过短时傅里叶变换，生成表示所述第一音频特征的频谱图作为输入向量。
根据权利要求9～10任一项所述的装置，所述音频信号提取单元包括：

单声道转换子单元，用于将所述待分类音频文件转换为单声道音频文件；

采样子单元，用于将所述单声道音频文件的采样频率调整为预设采样频率，按照所述预设采样频率对所述单声道音频文件进行采样，以提取得到所述待分类音频文件的音频信号。
根据权利要求8所述的装置，还包括：

已分类音频文件和分类标识信息获取模块，用于获取已分类音频文件和所述已分类音频文件的分类标识信息；

训练向量生成模块，用于对训练音频信号进行处理，生成表示第二音频特征的训练向量；所述训练音频信号为所述已分类音频文件的音频信号，所述第二音频特征为所述已分类音频文件对应的音频特征；

神经网络模型训练模块，用于以所述训练向量以及所述训练向量对应的分类标识信息，训练预先建立的神经网络模型，得到所述用于音频分类的神经网络模型。
根据权利要求12所述的装置，所述已分类音频文件和分类标识信息获取模块用于：

获取所述已分类音频文件，以及所述已分类音频文件的标签信息和所属于的流派；

所述分类结果生成模块用于：

通过所述神经网络模型分析所述输入向量，生成所述待分类音频文件的标签信息和所属于的流派。
一种智能设备，包括：

处理器和存储器，所述处理器与存储器通过通信总线相连接：

其中，所述处理器，用于调用并执行所述存储器中存储的程序；

所述存储器，用于存储程序，所述程序至少用于执行权利要求1～7任一项所述的音频分类方法。
一种存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1至7任一项所述的音频分类方法。
一种计算机程序产品，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至7任一项所述的音频分类方法。