WO2024012284A1

WO2024012284A1 - 音频识别方法、装置、电子设备和计算机程序产品

Info

Publication number: WO2024012284A1
Application number: PCT/CN2023/105121
Authority: WO
Inventors: 杜行健; 梁会东; 朱碧磊; 马泽君
Original assignee: 北京有竹居网络技术有限公司
Priority date: 2022-07-13
Filing date: 2023-06-30
Publication date: 2024-01-18
Also published as: CN115240704A

Abstract

本公开的实施例提供了一种音频识别方法、装置、电子设备和计算机程序产品。该方法可以包括基于音频数据的多级特征图，获取所述音频数据的目标特征图。该方法还可以包括基于所述目标特征图，确定所述音频数据的特征表示。此外，该方法可以进一步包括至少基于所述特征表示，确定所述音频数据的识别结果。通过实现本公开的技术方案，确定的特征表示具有高分辨率的位置信息，从而优化了模型性能，提升了用户体验。

Description

音频识别方法、装置、电子设备和计算机程序产品

相关申请的交叉引用

本申请要求申请号为202210828275.9，题为“音频识别方法、装置、电子设备和计算机程序产品”、申请日为2022年7月13日的中国发明专利申请的优先权，通过引用的方式将该申请整本并入本文。

技术领域

本公开的实施例涉及数据处理领域，并且更具体地，涉及音频识别方法、装置、电子设备和计算机程序产品。

背景技术

智能地识别诸如歌曲、人声等音频数据的技术是很多领域研究的关键。因此，基于深度学习的音频识别技术在很多领域中都均有广泛的应用场景。例如，当前的基于深度学习的音频识别技术通常会利用诸如卷积运算实现特征提取，所提取的特征具有丰富的高层次语义信息，但同时也忽略了其他信息。亟需一种音频识别技术，其提取的特征能够包含更多的信息。

发明内容

本公开的实施例提供了音频识别方案。

在本公开的第一方面中，提供了一种音频识别方法。该方法可以包括基于音频数据的多级特征图，获取所述音频数据的目标特征图。该方法还可以包括基于所述目标特征图，确定所述音频数据的特征表示。此外，该方法可以进一步包括至少基于所述特征表示，确定所述音频数据的识别结果。

在本公开的第二方面中，提供了一种音频识别装置，该音频识别装置可以包括：目标特征图获取模块，被配置为基于音频数据的多级特征图，获取所述音频数据的目标特征图；特征表示确定模块，被配置为基于所述目标特征图，确定所述音频数据的特征表示；以及识别结果确定模块，被配置为至少基于所述特征表示，确定所述音频数据的识别结果。

在本公开的第三方面中，提供了一种电子设备，包括：处理器；以及与所述处理器耦合的存储器，所述存储器具有存储于其中的指令，所述指令在被处理器执行时使所述电子设备执行动作，所述动作包括：基于音频数据的多级特征图，获取所述音频数据的目标特征图；基于所述目标特征图，确定所述音频数据的特征表示；以及至少基于所述特征表示，确定所述音频数据的识别结果。

在本公开的第四方面中，提供了一种计算机程序产品，计算机程序产品被有形地存储在计算机可读介质上并且包括机器可执行指令，机器可执行指令在被执行时使机器执行根据第一方面的方法的任意步骤。

提供该内容部分是为了简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。该内容部分无意标识本公开的关键特征或主要特征，也无意限制本公开的范围。

附图说明

通过结合附图对本公开示例性实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施例中，相同或相似的参考标号通常代表相同或相似的部件。在附图中：

图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图；

图2示出了根据本公开的实施例的用于训练和应用模型的详细示例环境的示意图；

图3示出了根据本公开的实施例的用于音频识别的过程的流程图；

图4示出了根据本公开的实施例的确定特征表示的示例环境的示意图；

图5示出了根据本公开的实施例的特征图的示意图；

图6示出了根据本公开的实施例的多级特征图的示意图；

图7示出了根据本公开的实施例的模型训练架构的示意图；

图8示出了根据本公开的实施例的音频识别装置的示意图；以及

图9示出了可以用来实施本公开的实施例的示例设备的示意性框图。

具体实施方式

可以理解的是，在使用本公开各实施例公开的技术方案之前，均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。

例如，在响应于接收到用户的主动请求时，向用户发送提示信息，以明确地提示用户，其请求执行的操作将需要获取和使用到用户的个人信息。从而，使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。

作为一种可选的但非限定性的实现方式，响应于接收到用户的主动请求，向用户发送提示信息的方式例如可以是弹窗的方式，弹窗中可以以文字的方式呈现提示信息。此外，弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。

可以理解的是，上述通知和获取用户授权过程仅是示意性的，不对本公开的实现方式构成限定，其它满足相关法律法规的方式也可应用于本公开的实现方式中。

可以理解的是，本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。

下面将参考附图中示出的若干示例实施例来描述本公开的原理。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

在本公开的实施例中，术语“数据”可以是指待识别的实时数据，例如，从一段歌曲中截取的音频片段，该音频片段可以利用训练好的识别模型进行音频识别。此外，术语“数据”还可以是指包含标注信息的数据，例如，模型训练数据。该标注信息例如可以是预先标注的分类信息。术语“分类”一般是指音频片段的识别结果，例如，可以通过识别模型确定一帧音频片段是否是某类音频，诸如，副歌。术语“特征表示”一般是指利用深度神经网络中的至少部分网络从数据中提取的特征。

如上文所描述，随着计算机技术的不断发展，深度神经网络被广泛应用于人们生活的各个方面。为了更好地执行音频识别的分类任务，需要对传统的音频识别模型的训练过程进行优化。在传统的音频识别模型的训练过程中，随着模型的深入，提取的特征图的分辨率逐渐降低。尽管分辨率降低的特征图携带了更高层的语义信息，但分辨率的牺牲使得特征图丢失了精确的位置信息。应理解，本文提及的“位置信息”主要是指一帧音频片段在一段音频中的位置，例如，该帧音频片段的起始时间、截止时间。

根据本公开的实施例，提出了一种用于音频识别的方案。该方案在提取用于确定特征表示的目标特征图时，不仅利用了目标特征图的最接近的上一级特征图，还利用了每一级或者多级特征提取得到的特征图，从而使最终获取的目标特征图既包含丰富的语义信息，也具有高分辨率的位置信息，从而能够解决上述问题和/或其他潜在问题。

此外，在模型训练过程中，训练数据的数量和多样性直接决定了模型的性能。对于音频识别的训练数据而言，样本量和/或多样性的不充足对音频识别模型的训练带来了不利影响。为此，本公开的后续实施例还提供了对上述的由目标特征图确定的特征表示进行增强的方案。

以下将结合示例场景来详细描述本公开的各实施例。应当理解，这仅仅是出于说明的目的，不旨在以任何方式限制本公开的范围。

图1示出了根据本公开的实施例的用于音频识别的示例系统100的框图。应当理解，图1所示的系统100仅仅是本公开的实施例可实现于其中的一种示例，不旨在限制本公开的范围。本公开的实施例同样适用于其他系统或架构。

如图1所示，系统100可以包括计算设备120。计算设备120可以被配置为接收音频数据110，并输出与音频数据110相关的识别结果130。在一些实施例中，音频数据110是时域的音频数据经常数Q变换或其他变换的频谱图。

在一些实施例中，计算设备120可以获取音频数据110。在一些实施例中，音频数据110可以是待识别的音频片段。在另一些实施例中，音频数据110可以包括用于训练深度神经网络或机器学习模型(也被称为目标模型)的多个训练样本。音频数据110可以具有对应的标注信息。这样的标注信息可以是由人工标注、模型自动标注或者其他适当的方式所产生的。

在本公开中，目标模型可以被设计用于执行音频识别任务。目标模型的示例包括但不限于各类深度神经网络(DNN)、卷积神经网络(CNN)、支持向量机(SVM)、决策树、随机森林模型等等。在本公开的实现中，目标模型也可以被称为“识别模型”。在下文中，术语“识别模型”、“神经网络”、“学习模型”、“学习网络”、“模型”和“网络”可替换地使用。

在一些实施例中，计算设备120可以包括但不限于个人计算机、服务器计算机、手持或膝上型设备、移动设备(诸如移动电话、个人数字助理PDA、媒体播放器等)、消费电子产品、小型计算机、大型计算机、云计算资源等。

在一些实施例中，识别结果130可以被设置为从音频数据110中确定的分类信息，例如，作为歌曲的音频片段的音频数据110是否属于副歌分类等。备选地或附加地，识别结果130还可以被设置为在模型训练过程中被修正或更新的预测结果(该结果在后续过程中与经标注的真值结果进行比较，以便确定损失函数)。

应当理解，系统100中所包括的这些装置和/或装置中的单元仅是示例性的，而不旨在限制本公开的范围。应当理解的是，系统100还可以包括未示出的附加装置和/或单元。例如，在一些实施例中，系统100的计算设备120中还可以进一步包括用于存储预先输入的超参数等的存储单元(未示出)以及经训练的模型。

下文将参考图2对计算设备120中的模型的训练和使用进行描述。

图2示出了根据本公开的实施例的详细示例环境200的示意图。与图1类似地，示例环境200可以包含计算设备220、输入计算设备220的音频数据210和从计算设备220输出的识别结果230。区别在于，示例环境200总体上可以包括模型训练系统260和模型应用系统270。作为示例，模型训练系统260和/或模型应用系统270可以在如图1所示的计算设备120或如图2所示的计算设备220中实现。应当理解，仅出于示例性的目的描述示例环境200的结构和功能并不旨在限制本文所描述主题的范围。本文所描述主题可以在不同的结构和/或功能中实施。

如前所述，对输入的音频数据110进行处理以确定诸如音频片段的分类信息的识别结果230的过程可以分为两个阶段：模型训练阶段和模型应用阶段。作为示例，在模型训练阶段中，模型训练系统260可以利用训练数据集250来训练用于执行相应功能的识别模型240。应理解，训练数据集250可以是多个样本数据(作为识别模型240的输入)以及相应的被标注的监督信息(或称为“标签”、“真值结果”)的组合。在模型应用阶段中，模型应用系统270可以接收经训练的识别模型240。由此，载入到模型应用系统270的计算设备220中的识别模型240可以基于音频数据210来确定识别结果230。

在其他实施例中，识别模型240可以被构建为学习网络。在一些实施例中，该学习网络可以包括多个网络，其中每个网络可以是一个多层神经网络，其可以由大量的神经元组成。通过训练过程，每个网络中的神经元的相应参数能够被确定。这些网络中的神经元的参数被统称为识别模型240的参数。

识别模型240的训练过程可以以迭代方式来被执行，直至识别模型240的参数中的至少部分参数收敛或者直至达到预定迭代次数，由此获得最终的模型参数。

上文描述的技术方案仅用于示例，而非限制本公开。应理解，还可以按照其他方式和连接关系来布置各个网络。为了更清楚地解释上述方案的原理，下文将参考图3来更详细描述从音频数据110中确定识别结果130的过程。

图3示出了根据本公开的实施例的用于音频识别的过程300的流程图。在某些实施例中，过程300可以在图1中的计算设备120和图2中的计算设备220中实现。现参照图3描述根据本公开实施例的音频识别的过程300。为了便于理解，在下文描述中提及的具体实例均是示例性的，并不用于限定本公开的保护范围。

在步骤302，计算设备120可以基于音频数据110的多级特征图，获取音频数据110的目标特征图。之后，在步骤304，计算设备120可以基于目标特征图，确定音频数据110的特征表示。

为了清楚地描述本公开提及的“特征表示”的确定过程，现参照图4描述特征提取的过程。图4示出了根据本公开的实施例的确定特征表示的示例环境400的示意图。

如图4所示，示例环境400中包含音频数据410、特征提取网络 420以及特征表示430。应理解，音频数据410可以是音频数据110或者音频数据110的一个片段。音频数据410被输入特征提取网络420后，特征提取网络420会对音频数据410执行特征提取运算。作为示例，特征提取网络420可以是如图4所示的深度神经网络或者多层的特征提取器。如图所示，特征提取网络420可以至少包含第一级提取器421和第二级提取器422。应理解，特征提取网络420还可以包含更多级的提取器。

为了获取目标特征图，计算设备120可以利用例如至少包含上述第一级提取器421和第二级提取器422的特征提取网络420来获取音频数据410的多级特征图。作为示例，第一级提取器421和第二级提取器422可以是卷积神经网络，故第一级提取器421可以对音频数据410执行卷积运算以得到第一级特征图，并且第二级提取器422可以对第一级特征图执行卷积运算以得到第二级特征图。

应注意，卷积运算过程本质上是下采样过程，由于多级特征图中的下一级特征图是从上一级特征图提取的，故第二级特征图的分辨率比第一级特征图的分辨率更低。

之后，计算设备120可以至少基于下一级特征图和上一级特征图进行特征重建，以确定目标特征图，进而可以获得音频数据410在抽象空间中的特征向量，即特征表示430。以此方式，通过特征重建将下一级特征图的分辨率提升到上一级特征图的分辨率，并且特征重建至少基于下一级特征图和上一级特征图，从而既包含了下一级特征图中提取的丰富的语义信息，又包含了上一级特征图中的高分辨率，使得定位特定类型的音频片段的位置更加容易。

为了清楚地描述本公开提及的“特征图”，现参照图5描述特征图的示例形式。图5示出了根据本公开的实施例的特征图510的示意图。如图5所示，特征图510可以是基于音频数据410确定的特征数据组，其中的A…I均为上述特征数据的具体数值。作为示例，特征图510可以是100×100的矩阵。当特征图510被第一级提取器421执行卷积运算后，特征图510被下采样为例如50×50的矩阵，并且当进一步被第二级提取器422执行卷积运算后，特征图510被下采样为例如25×25的矩阵。对于上述特征重建过程，作为25×25的矩阵的特征图510可以被上采样为例如50×50的矩阵，进而被上采样为例如100×100的矩阵。应理解，特征重建的过程并不止于此，为了更详细的描述特征提取和特征重建的过程，现参照图6描述确定目标特征图的架构。

图6示出了根据本公开的实施例的多级特征图600的示意图。如图6所示，多级特征图600包含第一级特征图601、第二级特征图602、第三级特征图603以及基于第三级特征图603生成的特征图604、基于特征图604与第二级特征图602生成的特征图605、基于特征图605与第一级特征图601生成的特征图606。

在图6中，第一级特征图601可以是由图4中所示的第一级提取器421从音频数据410中提取的，第二级特征图602可以是由图4中所示的第二级提取器422从第一级特征图601中提取的，进而第三级特征图603可以是从第二级特征图602中提取的。应理解，图6中所示的多级特征图600可以具有更多层级，并且层级的数目与模型的网络结构有关。

由此，在进行特征重建时，计算设备120可以将直接将第三级特征图603中的数值直接复制到特征图604中。之后，计算设备120可以对特征图604进行上采样，即，将特征图604扩充为备用的特征图605。换言之，计算设备120可以将上采样后的特征图604中的数值复制到特征图605中，并且将与特征图605同级的第二级特征图602中的数值与特征图605中的数值进行诸如均值或其他运算，并且将算得的结果存储在特征图605中。类似地，计算设备120进一步可以对特征图605进行上采样，即，将特征图605扩充为备用的特征图606，并且将与特征图606同级的第一级特征图601中的数值与特征图606中的数值进行诸如均值或其他运算，并且将算得的结果存储在特征图606中，此时的特征图606即为目标特征图。以此方式，目标特征图中既包含了丰富的语义信息，又具有高分辨率的位置信息，从而优化了模型性能。

回到图3，在步骤306，计算设备120可以至少基于特征表示确定音频数据110的识别结果130。

在某些实施例中，音频数据110是歌曲的音频片段，为了确定音频数据110的识别结果130，计算设备120可以确定音频片段是否属于副歌分类。由此，可以自动识别一首歌曲中的副歌部分。应理解，本公开不限于识别歌曲中的副歌部分，还可以识别歌曲中的其他部分，诸如主歌、过渡句、桥段等，并且也可以识别其他音频数据中的可分类的部分。

以此方式，通过上述实施例确定的特征数据包含了更丰富的信息，与传统的音频识别模块相比，具有更精确的位置信息，从而改善了模型的性能。

以上实施例主要涉及对识别模型240的应用，下面将详细介绍识别模型240的训练过程。在模型训练过程中，音频数据110可以是训练数据或训练数据集，并且在被训练的模型确定了识别结果130之后，计算设备120可以进一步基于识别结果130与训练数据的预先标注的真值结果，确定被训练的识别模型的损失函数值，以更新识别模型的参数。

为了确定模型的损失函数值，计算设备120需要对真值标签与实时生成的识别结果进行比较。图7示出了根据本公开的实施例的模型训练架构700的示意图。

如图7所示，音频数据701可以被输入提取模块710，以确定音频数据701的特征表示。之后，经确定的特征表示被输入预测模块720，以确定音频数据701的特征表示的预测结果。由此，损失确定模块730可以基于经确定的结果和音频数据701的真值标签702，确定模型的损失函数值703。

在某些实施例中，为了优化(泛化)模型的性能，计算设备120可以对提取模块710确定的特征表示进行数据增强(data augmentation)。作为示例，计算设备120可以利用图7中的增强模块740确定属于副歌分类或者不属于副歌分类的音频片段所对应的特征表示的分布，进而将该分布中的采样特征表示确定为附加特征表示。

在某些实施例中，为了将采样特征表示确定为附加特征表示，计算设备120可以在该分布中采样预定数目的特征表示，作为附加特征表示。由此，计算设备120可以将提取模块710确定的一个特征表示与经数据增强得到的多个附加特征表示输入识别模型的全连接层，以确定识别结果或预测结果。以此方式，本公开可以在特征向量的层级上增扩更多的训练数据，从而提升了训练数据的数据量和多样性。

应理解，经数据增强得到的特征表示可以基于如下公式(1)生成：

其中a_i是特征表示，i是提取模块710确定的特征表示中的第i行特征。y_i表示第i帧的标注类别(诸如，副歌)。表示类别y_i的协方差矩阵。λ是模型的超参数，例如可以被设置为λ＞0。

应理解，当采样特征表示的数目较多时，模型训练的运算量将显著增加。为此，计算设备120可以通过将采样特征表示的数目设定为正无穷来确定识别模型的损失函数的上限，从而确定损失函数值。

具体地，设数据集的大小为N，采样特征表示的数目为M，则将增强的训练数据的采样数目为N×(M+1)。在某些实施例中，可以使用交叉熵损失函数来训练模块。对于全连接层，可以将类别c所对应的权重W表示为w_c，并且将对应的偏移b表示为b_c。当M为正无穷时：

公式(2)等效于如下损失函数公式：

其中

借助Jensen不等式E[logX]≤logE[X]，可以推导出损失函数的上限即，如下公式(5)：

最终，损失函数的上限可以被推导为如下公式(6)：

其中

以此方式，无需如公式(1)一样花费较大的计算资源，即可确定损失函数，从而快速求得损失函数值，从而优化了模型训练。

本公开还提供了一种视频识别装置。具体地，图8示出了根据本公开的实施例的音频识别装置800的示意图。如图8所示，音频识别装置800至少可以包括目标特征图获取模块802、特征表示确定模块804、和识别结果确定模块806。目标特征图获取模块802可以基于音频数据的多级特征图来获取音频数据的目标特征图。特征表示确定模块804可以进一步基于获取的目标特征图来确定音频数据的特征表示。此外，识别结果确定模块806可以至少基于确定的特征表示来进一步确定音频数据的识别结果。

在某些实施例中，目标特征图获取模块802可以包括多级特征图获取子模块，其用于获取音频数据的多级特征图。应理解，多级特征图中的下一级特征图是从上一级特征图提取的。多级特征图获取子模块可以包含第一级提取器、第二级提取器等。第一级提取器可以对音频数据执行卷积运算以得到第一级特征图，并且第二级提取器可以对第一级特征图执行卷积运算以得到第二级特征图。此外，目标特征图获取模块802还可以包括目标特征图确定子模块，其用于至少基于下一级特征图和上一级特征图进行特征重建，以确定目标特征图。

在某些实施例中，目标特征图确定子模块在进行特征重建时可以将第二级特征图扩充为第一级备用特征图，并且基于第一级备用特征图和第一级特征图确定目标特征图。

在某些实施例中，音频数据可以是训练数据，并且音频识别装置800还可以包括：损失函数值确定子模块，用于基于识别结果与训练数据的预先标注的真值结果，确定被训练的识别模型的损失函数值，以更新识别模型的参数。

在某些实施例中，音频识别装置800还可以包括：分布确定模块，用于确定属于副歌分类或者不属于副歌分类的音频片段所对应的特征表示的分布；以及附加特征表示确定模块，用于将该分布中的采样特征表示确定为附加特征表示。

在某些实施例中，附加特征表示确定模块可以被配置为在该分布中采样预定数目的特征表示，作为附加特征表示。

在某些实施例中，损失函数值确定子模块可以被配置为通过将预定数目设定为正无穷确定识别模型的损失函数的上限，以确定损失函数值。

在某些实施例中，识别结果确定模块806可以被配置为将特征表示与附加特征表示输入识别模型的全连接层，以确定识别结果。

在某些实施例中，音频数据是歌曲的音频片段，并且识别结果确定模块806可以包括：分类模块，用于确定音频片段属于副歌分类或者不属于副歌分类。

图9示出了可以用来实施本公开的实施例的示例设备900的示意性框图。例如，如图1所示的计算设备120可以由设备900来实施。如图所示，设备900包括中央处理单元(CPU)901，其可以根据存储在只读存储器(ROM)902中的计算机程序指令或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序指令，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。应理解，本公开可以利用输出单元907显示用户满意度的实时动态变化信息、满意度的群体用户或个体用户的关键因素识别信息、优化策略信息、以及策略实施效果评估信息等。

处理单元901可通过一个或多个处理电路来实现。处理单元901可被配置为执行上文所描述的各个过程和处理，例如过程300。例如，在一些实施例中，过程300可以被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序被加载到RAM 903并由CPU 901执行时，可以执行上文描述的过程300中的一个或多个步骤。

效果详述

通过执行上述实施例，可以显著提升经训练的模型的性能。为了验证模型性能，利用多种测试数据集来检测经训练的模型的性能并与传统的多种模型进行比较：

对于RWC(真实世界计算)数据集，CNMF(卷积非负矩阵分解)模型的AUC(曲线下面积)评分为0.526、SCluster模型的AUC评分为0.533、Highlighter模型的AUC评分为0.804、Multi2021模型的AUC评分为0.819、DeepChorus模型的AUC评分为0.842，而本公开的经训练的模型的AUC评分为0.906。

对于SP(salami-pop)数据集，CNMF模型的AUC评分为0.543、SCluster模型的AUC评分为0.545、Highlighter模型的AUC评分为0.703、Multi2021模型的AUC评分为0.675、DeepChorus模型的AUC 评分为0.780，而本公开的经训练的模型的AUC评分为0.887。

对于SL(salami-live)数据集，CNMF模型的AUC评分为0.478、SCluster模型的AUC评分为0.551、Highlighter模型的AUC评分为0.671、Multi2021模型的AUC评分为0.633、DeepChorus模型的AUC评分为0.765，而本公开的经训练的模型的AUC评分为0.831。

对于DC(Di-Chorus)数据集，CNMF模型的AUC评分为0.488、SCluster模型的AUC评分为0.568、Highlighter模型的AUC评分为0.553、DeepChorus模型的AUC评分为0.811，而本公开的经训练的模型的AUC评分为0.872。

此外，通过其他实验，本公开的模型的F评分(F-score)也高于传统模块。由此可见，根据本公开的实施例训练的音频识别模块的性能较传统模型具有显著提高的性能。

本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

根据本公开的一个或多个实施例，示例1.一种音频识别方法，包括：基于音频数据的多级特征图，获取所述音频数据的目标特征图；基于所述目标特征图，确定所述音频数据的特征表示；以及至少基于所述特征表示，确定所述音频数据的识别结果。

示例2.根据示例1所述的方法，其中获取所述目标特征图包括：获取所述音频数据的所述多级特征图，所述多级特征图中的下一级特征图是从上一级特征图提取的；以及至少基于所述下一级特征图和所述上一级特征图进行特征重建，以确定所述目标特征图。

示例3.根据示例2所述的方法，其中所述多级特征图至少包括：从所述音频数据中提取的第一级特征图；以及根据所述第一级特征图提取的第二级特征图。

示例4.根据示例3所述的方法，其中所述特征重建至少包括：将所述第二级特征图扩充为第一级备用特征图；以及基于所述第一级备用特征图和所述第一级特征图，确定所述目标特征图。

示例5.根据示例1所述的方法，其中所述音频数据是训练数据，并且所述方法还包括：基于所述识别结果与所述训练数据的预先标注的真值结果，确定被训练的识别模型的损失函数值，以更新所述识别模型的参数。

示例6.根据示例5所述的方法，还包括：确定属于副歌分类或者不属于副歌分类的音频片段所对应的特征表示的分布；将所述分布中的采样特征表示确定为附加特征表示。

示例7.根据示例6所述的方法，其中将所述采样特征表示确定为所述附加特征表示包括：在所述分布中采样预定数目的特征表示，作为所述附加特征表示。

示例8.根据示例7所述的方法，其中确定所述损失函数值包括：通过将所述预定数目设定为正无穷确定所述识别模型的损失函数的上限，以确定所述损失函数值。

示例9.根据示例6所述的方法，其中至少基于所述特征表示确定所述识别结果包括：将所述特征表示与所述附加特征表示输入所述识别模型的全连接层，以确定所述识别结果。

示例10.根据示例1所述的方法，其中所述音频数据是歌曲的音频片段，并且确定所述音频数据的识别结果包括：确定所述音频片段属于副歌分类；或者确定所述音频片段不属于副歌分类。

根据本公开的一个或多个实施例，示例11.一种音频识别装置，包括：目标特征图获取模块，被配置为基于音频数据的多级特征图，获取所述音频数据的目标特征图；特征表示确定模块，被配置为基于所述目标特征图，确定所述音频数据的特征表示；以及识别结果确定模块，被配置为至少基于所述特征表示，确定所述音频数据的识别结果。

示例12.根据示例11所述的音频识别装置，其中目标特征图获取模块包括：多级特征图获取子模块，被配置为获取所述音频数据的所述多级特征图，所述多级特征图中的下一级特征图是从上一级特征图提取的；以及目标特征图确定子模块，被配置为至少基于所述下一级特征图和所述上一级特征图进行特征重建，以确定所述目标特征图。

示例13.根据示例12所述的音频识别装置，其中所述多级特征图至少包括：从所述音频数据中提取的第一级特征图；以及根据所述第一级特征图提取的第二级特征图。

示例14.根据示例13所述的音频识别装置，其中所述目标特征图获取模块在所述特征重建时可以被配置为：将所述第二级特征图扩充为第一级备用特征图；以及基于所述第一级备用特征图和所述第一级特征图，确定所述目标特征图。

示例15.根据示例11所述的音频识别装置，其中所述音频数据是训练数据，并且所述音频识别装置还包括：损失函数值确定子模块，被配置为基于所述识别结果与所述训练数据的预先标注的真值结果，确定被训练的识别模型的损失函数值，以更新所述识别模型的参数。

示例16.根据示例15所述的音频识别装置，还包括：分布确定模块，被配置为确定属于副歌分类或者不属于副歌分类的音频片段所对应的特征表示的分布；以及附加特征表示确定模块，被配置为将所述分布中的采样特征表示确定为附加特征表示。

示例17.根据示例16所述的音频识别装置，其中所述附加特征表示确定模块被配置为在所述分布中采样预定数目的特征表示，作为所述附加特征表示。

示例18.根据示例17所述的音频识别装置，其中所述损失函数值确定子模块被配置为通过将所述预定数目设定为正无穷确定所述识别模型的损失函数的上限，以确定所述损失函数值。

示例19.根据示例16所述的音频识别装置，其中所述识别结果确定模块被配置为将所述特征表示与所述附加特征表示输入所述识别模型的全连接层，以确定所述识别结果。

示例20.根据示例11所述的音频识别装置，其中所述音频数据是歌曲的音频片段，并且所述识别结果确定模块包括：分类模块，被配置为确定所述音频片段属于副歌分类或者不属于副歌分类。

根据本公开的一个或多个实施例，示例21.一种电子设备，包括：处理器；以及与所述处理器耦合的存储器，所述存储器具有存储于其中的指令，所述指令在被处理器执行时使所述电子设备执行动作，所述动作包括：基于音频数据的多级特征图，获取所述音频数据的目标特征图；基于所述目标特征图，确定所述音频数据的特征表示；以及至少基于所述特征表示，确定所述音频数据的识别结果。

示例22.根据示例21所述的设备，其中获取所述目标特征图包括：获取所述音频数据的所述多级特征图，所述多级特征图中的下一级特征图是从上一级特征图提取的；以及至少基于所述下一级特征图和所述上一级特征图进行特征重建，以确定所述目标特征图。

示例23.根据示例22所述的设备，其中所述多级特征图至少包括：从所述音频数据中提取的第一级特征图；以及根据所述第一级特征图提取的第二级特征图。

示例24.根据示例23所述的设备，其中所述特征重建至少包括：将所述第二级特征图扩充为第一级备用特征图；以及基于所述第一级备用特征图和所述第一级特征图，确定所述目标特征图。

示例25.根据示例21所述的设备，其中所述音频数据是训练数据，并且所述方法还包括：基于所述识别结果与所述训练数据的预先标注的真值结果，确定被训练的识别模型的损失函数值，以更新所述识别模型的参数。

示例26.根据示例25所述的设备，还包括：确定属于副歌分类或者不属于副歌分类的音频片段所对应的特征表示的分布；将所述分布中的采样特征表示确定为附加特征表示。

示例27.根据示例26所述的设备，其中将所述采样特征表示确定为所述附加特征表示包括：在所述分布中采样预定数目的特征表示，作为所述附加特征表示。

示例28.根据示例27所述的设备，其中确定所述损失函数值包括：通过将所述预定数目设定为正无穷确定所述识别模型的损失函数的上限，以确定所述损失函数值。

示例29.根据示例26所述的设备，其中至少基于所述特征表示确定所述识别结果包括：将所述特征表示与所述附加特征表示输入所述识别模型的全连接层，以确定所述识别结果。

示例30.根据示例21所述的设备，其中所述音频数据是歌曲的音频片段，并且确定所述音频数据的识别结果包括：确定所述音频片段属于副歌分类；或者确定所述音频片段不属于副歌分类。

根据本公开的一个或多个实施例，示例31.一种计算机程序产品，所述计算机程序产品被有形地存储在计算机可读介质上并且包括机器可执行指令，所述机器可执行指令在被执行时使机器执行根据示例1至10中的任一项所述的方法。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

一种音频识别方法，包括：

基于音频数据的多级特征图，获取所述音频数据的目标特征图；

基于所述目标特征图，确定所述音频数据的特征表示；以及

至少基于所述特征表示，确定所述音频数据的识别结果。
根据权利要求1所述的方法，其中获取所述目标特征图包括：

获取所述音频数据的所述多级特征图，所述多级特征图中的下一级特征图是从上一级特征图提取的；以及

至少基于所述下一级特征图和所述上一级特征图进行特征重建，以确定所述目标特征图。
根据权利要求2所述的方法，其中所述多级特征图至少包括：

从所述音频数据中提取的第一级特征图；以及

根据所述第一级特征图提取的第二级特征图。
根据权利要求3所述的方法，其中所述特征重建至少包括：

将所述第二级特征图扩充为第一级备用特征图；以及

基于所述第一级备用特征图和所述第一级特征图，确定所述目标特征图。
根据权利要求1所述的方法，其中所述音频数据是训练数据，并且所述方法还包括：

基于所述识别结果与所述训练数据的预先标注的真值结果，确定被训练的识别模型的损失函数值，以更新所述识别模型的参数。
根据权利要求5所述的方法，还包括：

确定属于副歌分类或者不属于副歌分类的音频片段所对应的特征表示的分布；

将所述分布中的采样特征表示确定为附加特征表示。
根据权利要求6所述的方法，其中将所述采样特征表示确定为所述附加特征表示包括：

在所述分布中采样预定数目的特征表示，作为所述附加特征表示。
根据权利要求7所述的方法，其中确定所述损失函数值包括：

通过将所述预定数目设定为正无穷确定所述识别模型的损失函数的上限，以确定所述损失函数值。
根据权利要求6所述的方法，其中至少基于所述特征表示确定所述识别结果包括：

将所述特征表示与所述附加特征表示输入所述识别模型的全连接层，以确定所述识别结果。
根据权利要求1所述的方法，其中所述音频数据是歌曲的音频片段，并且确定所述音频数据的识别结果包括：

确定所述音频片段属于副歌分类；或者

确定所述音频片段不属于副歌分类。
一种音频识别装置，包括：

目标特征图获取模块，被配置为基于音频数据的多级特征图，获取所述音频数据的目标特征图；

特征表示确定模块，被配置为基于所述目标特征图，确定所述音频数据的特征表示；以及

识别结果确定模块，被配置为至少基于所述特征表示，确定所述音频数据的识别结果。
一种电子设备，包括：

处理器；以及

与所述处理器耦合的存储器，所述存储器具有存储于其中的指令，所述指令在被处理器执行时使所述电子设备执行动作，所述动作包括：

基于音频数据的多级特征图，获取所述音频数据的目标特征图；

基于所述目标特征图，确定所述音频数据的特征表示；以及

至少基于所述特征表示，确定所述音频数据的识别结果。
一种计算机程序产品，所述计算机程序产品被有形地存储在计算机可读介质上并且包括机器可执行指令，所述机器可执行指令在被执行时使机器执行根据权利要求1至10中的任一项所述的方法。