WO2024037348A1

WO2024037348A1 - 音频处理方法、模型训练方法、装置、设备、介质及产品

Info

Publication number: WO2024037348A1
Application number: PCT/CN2023/111004
Authority: WO
Inventors: 黄家鸿; 马东鹏; 项伟
Original assignee: 广州市百果园信息技术有限公司
Priority date: 2022-08-17
Filing date: 2023-08-03
Publication date: 2024-02-22
Also published as: CN115346543A

Abstract

音频处理方法、模型训练方法、装置、设备、介质及产品。该方法包括：确定预设音频处理模型对应的目标右侧填充数量和目标左侧填充数量，其中，目标右侧填充数量用于指示在卷积层的输入数据右侧填充的数据数量，目标左侧填充数量用于指示在卷积层的输入数据左侧填充的数据数量，目标右侧填充数量大于0且小于目标左侧填充数量，基于目标右侧填充数量、目标左侧填充数量和预设音频处理模型，对待处理音频流进行处理，得到对应的处理后的目标音频流。

Description

音频处理方法、模型训练方法、装置、设备、介质及产品

本申请要求在2022年08月17日提交中国专利局、申请号为202210986541.0的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及音频处理技术领域，例如涉及音频处理方法、模型训练方法、装置、设备、存储介质及产品。

背景技术

随着音频处理技术的快速发展，神经网络模型在音频处理方面已得到广泛的应用。例如，音色转换作为一种重要的音频处理技术，基于神经网络模型的音色转换方案，已经广泛应用于如音频内容生成以及娱乐音频制作等各种领域。

音色转换是一种保持原始音频的内容信息不变的前提下，把其音色转换为目标音色的技术。目前，音色转换等音频处理技术，大部分情况下使用离线推理方案，而对于语音通话或直播等对时效性要求较高的应用场景来说，需要使用流式推理方案。而相关的流式推理方案难以兼顾低延迟和转换效果。

发明内容

本申请实施例提供了音频处理方法、模型训练方法、装置、设备、存储介质及产品，可以更好地适用于对音频流的处理。

根据本申请的一方面，提供了一种音频处理方法，该方法包括：

确定预设音频处理模型对应的目标右侧填充数量和目标左侧填充数量，其中，所述预设音频处理模型中包含卷积层，所述目标右侧填充数量用于指示在所述卷积层的输入数据右侧填充的数据数量，所述目标左侧填充数量用于指示在所述卷积层的输入数据左侧填充的数据数量，所述目标右侧填充数量大于0，且同一卷积层对应的所述目标右侧填充数量小于对应的所述目标左侧填充数量；

基于所述目标右侧填充数量、所述目标左侧填充数量和所述预设音频处理模型，对待处理音频流进行处理，得到对应的处理后的目标音频流。

根据本申请的另一方面，提供了一种模型训练方法，该方法包括：

确定音频处理模型对应的右侧填充数量和左侧填充数量，其中，所述音频处理模型中包含卷积层，所述右侧填充数量用于指示在所述卷积层的输入数据右侧填充的数据数量，所述左侧填充数量用于指示在所述卷积层的输入数据左侧填充的数据数量，所述左侧填充数量用于指示在所述卷积层的输入数据左侧填充的数据数量，所述右侧填充数量大于0，且同一卷积层对应的所述右侧填充数量小于对应的所述左侧填充数量；

基于所述右侧填充数量、所述左侧填充数量和所述音频处理模型，对样本音频流进行处理，得到对应的处理后的目标样本音频流，其中，所述样本音频流对应有标准音频流；

根据所述目标样本音频流与所述标准音频流确定目标损失关系，并基于所述目标损失关系对所述音频处理模型进行训练。

根据本申请的另一方面，提供了一种音频处理装置，该装置包括：

填充数量确定模块，设置为确定预设音频处理模型对应的目标右侧填充数量和目标左侧填充数量，其中，所述预设音频处理模型中包含卷积层，所述目标右侧填充数量用于指示在所述卷积层的输入数据右侧填充的数据数量，所述目标左侧填充数量用于指示在所述卷积层的输入数据左侧填充的数据数量，所述目标右侧填充数量大于0，且同一卷积层对应的所述目标右侧填充数量小于对应的所述目标左侧填充数量；

音频流处理模块，设置为基于所述目标右侧填充数量、所述目标左侧填充数量和所述预设音频处理模型，对待处理音频流进行处理，得到对应的处理后的目标音频流。

根据本申请的另一方面，提供了一种模型训练装置，该装置包括：

数量确定模块，设置为确定音频处理模型对应的右侧填充数量和左侧填充数量，其中，所述音频处理模型中包含卷积层，所述右侧填充数量用于指示在所述卷积层的输入数据右侧填充的数据数量，所述左侧填充数量用于指示在所述卷积层的输入数据左侧填充的数据数量，所述右侧填充数量大于0，且同一卷积层对应的所述右侧填充数量小于对应的所述左侧填充数量；

音频处理模块，设置为基于所述右侧填充数量、所述左侧填充数量和所述音频处理模型，对样本音频流进行处理，得到对应的处理后的目标样本音频流，其中，所述样本音频流对应有标准音频流；

模型训练模块，设置为根据所述目标样本音频流与所述标准音频流确定目标损失关系，并基于所述目标损失关系对所述音频处理模型进行训练。

根据本申请的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请任一实施例所述的音频处理方法和/或模型训练方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于使处理器执行时实现本申请任一实施例所述的音频处理方法和/或模型训练方法。

根据本申请的另一方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序在被处理器执行时实现本申请任一实施例所述的音频处理方法和/或模型训练方法。

附图说明

下面将对实施例描述中所需要使用的附图作简单地介绍，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种音频处理方法的流程示意图；

图2为相关技术中的一种卷积方式示意图；

图3为本申请实施例提供的一种卷积方式示意图；

图4为本申请实施例提供的一种预设音频处理模型的结构示意图；

图5为本申请实施例提供的又一种音频处理方法的流程示意图；

图6为本申请实施例提供的一种音频处理方法的原理示意图；

图7为本申请实施例提供的一种模型训练方法的流程示意图；

图8为本申请实施例提供的一种音频处理装置的结构框图；

图9为本申请实施例提供的一种模型训练装置的结构框图；

图10为本申请实施例提供的一种电子设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于理解本申请实施例，以音频处理方式为音色转换处理为例，先对相关技术进行介绍。

目前，流式音色转换方案主要有以下两种：

第一种，自回归模型方案，该类方案采用自回归的框架，在预测当前步长(step)的信息时候只用到前面的信息，不会向后面看(也即不会用到后面的信息)，在训练的时候需要设置语音块(chunk)的大小来限定向前看的信息量。自回归架构虽然适合做流式推理，但是由于不会用到后面的信息，无法利用后面的信息来协助预测当前步长的输出，难以保证较高的转换音色后的音频的质量。

第二种，卷积模型方案，该类方案将不同层的卷积合并在一起组成一个模型，其中，卷积一般采用常规卷积，如因果卷积、传统卷积或空洞卷积等。采用卷积组合的架构，需要计算好整个框架下，卷积的感受野大小，以便在做流式推理的时候，左右(也可理解为前后)填充(pad)与感受野大小一致的数值，也即左侧填充的数据量和右侧填充的数据量一致。由于做语音转换时，一般还需要加入声码器，声码器内部经常也是采用卷积，如果声学模型和声码器都采用卷积，两个模型叠加会增加感受野的大小，而大的感受野会导致延迟变大。目前，常见的做法是减少卷积的卷积核，以达到缩小感受野大小减少延迟的效果，但是缩小感受野会导致效果变差。

本申请实施例中，提供一种全新的卷积方式，在右侧填充数据，且右侧填充数据数量少于左侧填充数据数量，也即左侧填充多于右侧，本文中将该种卷积方式称为偏左卷积。通过将用于进行音频流处理的模型中的常规卷积更改为偏左卷积，可以达到不需要通过减少卷积核来缩小感受野大小的方式，来保证既能参考到后面的信息，又可以有效控制延迟，从而兼顾低延时和处理效果。

图1为本申请实施例提供的一种音频处理方法的流程示意图，本实施例可适用于对音频流进行处理的情况，具体可以适用于如语音通话、音视频直播以及多人在线会议等各种对实时性要求较高的应用场景。该方法可以由音频处理装置执行，该音频处理装置可以采用硬件和/或软件的形式实现，该音频处理装置可配置于音频处理设备等电子设备中。所述电子设备可以为手机、智能手表、平板电脑以及个人数字助理等移动设备；也可为台式计算机等其他设备。如图1所示，该方法包括：

步骤101、确定预设音频处理模型对应的目标右侧填充数量和目标左侧填充数量，其中，所述预设音频处理模型中包含卷积层，所述目标右侧填充数量用于指示在所述卷积层的输入数据右侧填充的数据数量，所述目标左侧填充数量用于指示在所述卷积层的输入数据左侧填充的数据数量，所述目标右侧填充数量大于0，且同一卷积层对应的所述目标右侧填充数量小于对应的所述目标左侧填充数量。

本申请实施例中，预设音频处理模型可以理解为通过预先训练得到的用于对音频流进行处理，以得到处理后的音频流的神经网络模型，其中，预设音频处理模型对应的音频处理方式可以包括如音色转换、语种转换(如自动将中文语音转换为英文语音)、语音降噪、语音内容替换、以及口语识别等等。该模型中包括一个或多个卷积层，具体模型结构可以采用本申请实施例中提供的模型训练方法训练得到。

示例性的，在利用预设音频处理模型对待处理音频流进行处理之前，先确定目标右侧填充数量和目标左侧填充数量。待处理音频流可理解为当前需要进行处理的音频流，具体可以是实时通话语音流，视频直播语音流或在线会议语音流等。其中，目标右侧填充数量和目标左侧填充数量的确定方式，可以是读取预先设定的目标右侧填充数量和目标左侧填充数量，也可以根据待处理音频流的实际情况、音频处理的实际需求或网络质量等相关因素动态确定。目标右侧填充数量和目标左侧填充数量的不同取值情况，可以对应不同的预设音频处理模型，也即，可以根据确定好的目标右侧填充数量和目标左侧填充数量来选择对应的预设音频处理模型；目标右侧填充数量和目标左侧填充数量的不同取值情况，也可以对应同一个通用的预设音频处理模型，该通用的预设音频处理模型在训练时，可以采用随机确定右侧填充数量和左侧填充数量方式进行训练，以适应不同的取值情况。

示例性的，在处理音频流时，一般需要对音频流进行分块，得到多个语音块，具体大小可以根据实际情况进行设置，例如对应10个或20个语音帧的大小，并以语音块为单位进行推理。数据在经过卷积层的卷积操作后，输出的数据量会减少，为了保证每次输入的数据量一致，减少计算误差，需要在输入卷积层之前，在输入数据左侧(也可以理解为前面)和右侧(也可理解为后面)填充(pad)一定数量的数据，如一定数量的步长值为0的数据。

本申请实施例中，目标右侧填充数量(也可称为目标后方填充数量)用于指示在卷积层的输入数据右侧填充的数据数量，当预设音频处理模型中包含多个卷积层时，不同卷积层对应的目标右侧填充数量可以相同或不同，也即，可以确定多个目标右侧填充数量，个数可以与卷积层的个数一致；目标左侧填充数量(也可称为目标前方填充数量)用于指示在卷积层的输入数据左侧填充的数据数量，当预设音频处理模型中包含多个卷积层时，不同卷积层对应的目标左侧填充数量可以相同或不同，也即，可以确定多个目标左侧填充数量，个数可以与卷积层的个数一致；所有目标右侧填充数量可以均大于0，并且，对于同一个卷积层来说，其对应的目标右侧填充数量小于目标左侧填充数量，也即，预设音频处理模型中的每个卷积层为偏左卷积方式。

图2为相关技术中的一种卷积方式示意图，图2中所示的为传统卷积方式，例如卷积核大小(kernel_size)为5，当输入的时间步长(time_step)为3时，在左右pad两个step值为0的数据，也即左侧填充数量等于右侧填充数量，然后采用卷积进行计算，此时的感受野大小为5。在对音频流进行处理时，右侧填充的数据应为即将到来的两个语音块，需要等待后面的两个语音块获取到后，才能够得到卷积层的输入数据，因此延迟为两个语音块的时间(其他因素此处忽略不计)。

图3为本申请实施例提供的一种卷积方式示意图，图3中所示的为本申请提供的一种新的非平衡卷积方式，偏左卷积。在处理流式语音时，影响延迟的是卷积右边的感受野，因此，为了兼顾延迟和音频质量，本申请实施例采用偏左卷积，即卷积的感受野偏向左边，需要左边pad的个数比右边多，例如，卷积核大小同样为5，当输入的时间步长(time_step)为3时，在左侧pad三个step值为0的数据，在右侧pad一个step值为0的数据，也即左侧填充数量大于右侧填充数量，然后采用卷积进行计算，此时的感受野大小为5。在对音频流进行处理时，右侧填充的数据应为即将到来的一个语音块，需要等待后面的一个语音块获取到后，才能够得到卷积层的输入数据，因此延迟为一个语音块的时间 (其他因素此处忽略不计)，对比图2中所示的传统卷积方式来说，可以减少一个语音块的延迟。

步骤102、基于所述目标右侧填充数量、所述目标左侧填充数量和所述预设音频处理模型，对待处理音频流进行处理，得到对应的处理后的目标音频流。

示例性的，在确定好目标右侧填充数量和目标左侧填充数量后，可以将待处理音频流输入至预设音频处理模型；或对待处理音频流进行预处理后，将预处理结果数据输入至预设音频处理模型。预设音频处理模型在对输入模型的数据进行处理的过程中，基于各卷积层对应的目标右侧填充数量和目标左侧填充数量，对即将输入至对应卷积层的输入数据进行填充后，输入至对应卷积层，以完成卷积计算，最后由预设音频处理模型输出经过处理的音频流，根据预设音频处理模型的输出确定目标音频流，例如，在模型输出的基础上去除填充数据对应的音频数据，得到目标音频流。

本申请实施例中提供的音频处理方法，在需要对待处理音频流进行处理时，先确定预设音频处理模型对应的目标右侧填充数量和目标左侧填充数量，其中，预设音频处理模型中包含卷积层，目标右侧填充数量用于指示在卷积层的输入数据右侧填充的数据数量，目标左侧填充数量用于指示在卷积层的输入数据左侧填充的数据数量，目标右侧填充数量大于0且小于目标左侧填充数量，随后，再基于目标右侧填充数量、目标左侧填充数量和预设音频处理模型，对待处理音频流进行处理，得到对应的处理后的目标音频流。通过采用上述音频处理方法，在为卷积层的输入数据填充数据时，在右侧填充数据可以保证参考到后面的信息，提高音频处理后的音频质量，而右侧填充数据数量少于左侧填充数据数量，可以有效控制延迟，从而可以兼顾低延时和处理效果。

在一些实施例中，所述预设音频处理模型中包括预设音色添加模型(可理解为声学模型)和预设声码器模型，所述预设音色添加模型和所述预设声码器模型中均包含卷积层，所述预设音色添加模型设置为为内容信息添加音色信息，得到音色内容信息，所述预设声码器模型设置为将音色内容信息转换为音频数据。此时，预设音频处理模型可认为是预设音色转换模型，设置为对音频流进行音色转换。其中，内容信息可以理解为语音内容信息，可以利用自动语音识别技术(Automatic Speech Recognition，ASR)对音频流中的音频帧进行预处理，以将音频帧中包含的人的语音信息转换为文本信息，将文本信息作为上述内容信息。预设音色添加模型和预设声码器模型中均包含一个或多个卷积层。

图4为本申请实施例提供的一种预设音频处理模型的结构示意图，如图4所示，内容信息经过预设音色添加模型后，被添加了音色信息，再经过预设声码器模型经过上采样转换为音频数据。示例性的，预设音色添加模型可以为声学模型(Acoustic Model，AM)，具体可以是一维卷积残差网络(conv1d resnet)的声学模型；预设声码器模型(vocoder)，具体可以是HiFi-GAN声码器，该声码器采用生成对抗网络(Generative Adversial Networks，GAN)作为基础生成模型，可以保证生成音频的音质。

在一些实施例中，所述基于所述目标右侧填充数量、所述目标左侧填充数量和所述预设音频处理模型，对待处理音频流进行处理，得到对应的处理后的目标音频流，包括：提取待处理音频流中的待处理内容信息；将所述待处理内容信息输入至所述预设音频处理模型，以使所述预设音频处理模型基于所述目标右侧填充数量和所述目标左侧填充数量对所述待处理内容信息进行处理，得到对应的变化音色的目标音频流。这样设置的好处在于，可以准确地保证进行音色转换后的目标音频流与待处理音频流的内容信息的一致性。

示例性的，利用ASR技术从待处理音频流中提取出待处理内容信息，将待处理内容信息输入至预设音频处理模型进行处理，通过预设音频处理模型中预设音色添加模型，在待处理内容信息基础上添加目标音色信息，得到目标音色内容信息，目标音色内容信息经预设声码器模型上采样后转换为音色变更为目标音色的目标音频流，在上述处理过程中，数据输入至各卷积层之前，基于相应卷积层对应的目标右侧填充数量和目标左侧填充数量进行填充，再输入至相应卷积层进行卷积计算。

在一些实施例中，所述确定预设音频处理模型对应的目标右侧填充数量和目标左侧填充数量，包括：确定预设音频处理模型对应的目标右侧填充数量；确定所述卷积层对应的卷积核大小；根据所述卷积核大小和所述目标右侧填充数量，确定目标左侧填充数量。这样设置的好处在于，可以在卷积核大小固定的情况下，快速准确地确定目标右侧填充数量和目标左侧填充数量。

示例性的，对于同一卷积层来说，对应的填充总数量可以根据模型的感受野来确定，感受野可以由该卷积层的卷积核大小确定，填充总数量一般为卷积核大小减1(也即kernel_size-1)，可先确定目标右侧填充数量(right_pad_num)，再根据填充总数量与目标右侧填充数量的差值，确定目标左侧填充数量(left_pad_num)，也即，left_pad_num＝kernel_size-1-right_pad_num。

在一些实施例中，所述目标右侧填充数量根据所述待处理音频流对应的预期延时确定，其中，所述目标右侧填充数量和所述预期延时成正相关关系。这样设置的好处在于，可以根据实际的延时需求快速合理地确定目标右侧填充数量。

其中，预期延时可以理解为想要达到的延时时长，可根据当前对延时的容忍程度来确定预期延时。例如，容忍程度越高，预期延时越长，相应的，目标右侧填充数量可以大一些；容忍程度越低，预期延时越短，相应的，目标右侧填充数量可以小一些。可选的，可以预先建立右侧填充数量集合与延时之间的对应关系，得到数量延时映射关系，根据预期延时查询该数量延时映射关系，得到目标右侧填充数量。数量延时映射关系的建立方式可以通过实验等方式，右侧填充数量集合中包含每个卷积层对应的右侧填充数量。

图5为本申请实施例提供的又一种音频处理方法的流程示意图，以音频处理为音色转换为例，图6为本申请实施例提供的一种音频处理方法的原理示意图，可结合图5和图6对本申请实施例进行理解，在上述各可选实施例基础上，该方法可包括：

步骤501、根据待处理音频流对应的预期延时确定预设音频处理模型对应的目标右侧填充数量。

其中，预设音频处理模型中包括预设音色添加模型和预设声码器模型，预设音色添加模型中包含第一预设数量(记为M，大于或等于1)的卷积层，预设声码器模型中包含第二预设数量(记为N，大于或等于1)的卷积层。

可选的，可以预先通过实验等方式，确定预设音频处理模型中各卷积层分别对应不同的右侧填充数量的情况下，预设音频处理模型对应的不同延时，建立右侧填充数量集合与延时之间的对应关系，得到数量延时映射关系。例如，M个卷积层对应的右侧填充数量分别Mr1、Mr2、......、Mrm，N个卷积层对应的右侧填充数量分别Nr1、Nr2、......、Nrm，右侧填充数量的取值范围为大于0，且小于对应的卷积核大小减1后的差值再除以2，也即(kernel_size-1)/2，对Mr1、Mr2、......、Mrm、Nr1、Nr2、......、Nrm的不同取值分别进行组合，得到多个右侧填充数量集合，每个右侧填充数量集合中包含一种Mr1、Mr2、......、Mrm、Nr1、Nr2、......、Nrm的取值(也即M+N个数值)，且对应一个延时，得到数量延时映射关系。

本步骤中，可以根据预期延时查询该数量延时映射关系，得到对应的目标右侧填充数量集合。

步骤502、确定卷积层对应的卷积核大小，并根据卷积核大小和目标右侧填充数量，确定目标左侧填充数量。

示例性的，针对每个卷积层，根据该卷积层对应的卷积核大小和对应的目标右侧填充数量，确定对应的目标左侧填充数量。

步骤503、提取待处理音频流中的待处理内容信息。

其中，本步骤也可在步骤501之前进行。

步骤504、将待处理内容信息输入至预设音频处理模型，以使预设音频处理模型基于目标右侧填充数量和目标左侧填充数量对待处理内容信息进行处理，得到对应的变更音色的目标音频流。

为了便于说明，假设针对预设音频处理模型中的各卷积层，所确定的目标右侧填充数量均相同。如图6所示，以语音块(chunk)为单位进行推理，假设10个假设内容信息(PPg)为1个语音块，其中，PPg的单位可以是帧，目标右侧填充数量为1个语音块(10个PPg)，卷积核大小为5个语音块，则目标左侧填充数量为3个语音块(30个PPg)。第1次获取50个PPg，其中的前40个PPg作为预设音频处理模型的输入(为了描述方便，未对预设音频处理模型内部进行展开)，后10个PPg相当于右侧填充数据，左侧填充30个数值为0的PPg，经预设音频处理模型输出80个PPg对应的音频数据(wav)，其长度为80*期望大小(hope_size)，而中间(第31至70)的40*hope_size个wav为需要提供给用户的目标音频数据。第2次继续获取40个PPg，其中，上次获取的最后10个PPg和本次获取的前30个PPg作为预设音频处理模型的输入，本次获取的最后10个PPg相当于右侧填充数据，而上次获取的中间30个PPg作为左侧填充数据，经预设音频处理模型输出80个PPg对应的wav后，去除pad对应的wav，得到目标音频数据。第3次之后，依次类推，此处不再赘述。

本申请实施例提供的音频处理方法，可以根据当前的预期延时灵活精准地确定卷积层的输入数据的左右填充数据的数量，从而实现可调节延迟的流式变声方案，且可以在保证较低延时的情况下，兼顾较好的接近甚至超过离线推理方案的音色转换效果，保证音频质量，对于直播等应用场景来说，可以做到直播过程中的实时变声，满足用户的实时变声需求，提升用户体验。

图7为本申请实施例提供的一种模型训练方法的流程示意图，本实施例可适用于，对用于进行音频流处理的模型进行训练的情况，该模型具体可以适用于如语音通话、音视频直播以及多人在线会议等各种对实时性要求较高的应用场景。该方法可以由模型训练装置执行，该装置可以采用硬件和/或软件的形式实现，该装置可配置于模型训练设备等电子设备中。所述电子设备可以为手机、智能手表、平板电脑以及个人数字助理等移动设备；也可为台式计算机等其他设备。采用本申请实施例训练得到的音频处理模型可以应用于本申请中任意实施例提供的音频处理方法。

如图7所示，该方法包括：

步骤701、确定音频处理模型对应的右侧填充数量和左侧填充数量，其中，所述音频处理模型中包含卷积层，所述右侧填充数量用于指示在所述卷积层的输入数据右侧填充的数据数量，所述左侧填充数量用于指示在所述卷积层的输入数据左侧填充的数据数量，所述右侧填充数量大于0，且同一卷积层对应的所述右侧填充数量小于对应的所述左侧填充数量。

示例性的，右侧填充数量和左侧填充数量可以预先设定，这样，训练得到的音频处理模型，可以适用于所设定的右侧填充数量和左侧填充数量对应的语音处理情况；右侧填充数量和左侧填充数量也可以在规定的取值范围内随机确定，这样，训练得到的音频处理模型，可以适用于不同的右侧填充数量和左侧填充数量对应的语音处理情况，也即可以是一个通用的音频处理模型。

步骤702、基于所述右侧填充数量、所述左侧填充数量和所述音频处理模型，对样本音频流进行处理，得到对应的处理后的目标样本音频流，其中，所述样本音频流对应有标准音频流。

示例性的，对于样本音频流，可以采用对时效性要求不高的处理效果较理想的方式进行处理，得到对应的标准音频流，以音色转换为例，可以采用离线音色转换模型，对样本音频流进行音色转换处理，得到标准音频流。

示例性的，也可以对标准音频流进行处理后，得到对应的样本音频流，以音色转换为例，可以采用离线音色转换模型，对标准音频流进行音色转换处理，得到样本音频流。

步骤703、根据所述目标样本音频流与所述标准音频流确定目标损失关系，并基于所述目标损失关系对所述音频处理模型进行训练。

示例性的，标准音频流可以理解为模型输出想要达到的具有理想处理效果的音频流。损失关系可以用于表征两种数据之间的差异，可以以损失值表示，具体可以采用损失函数来计算。目标损失关系用于表征目标样本音频流与标准音频流之间的差异，在计算目标损失关系时，所采用的具体的损失函数可以根据实际需求进行设置。根据目标损失关系对音频处理模型进行训练，在训练过程中，可以以最小化目标损失关系为目标，利用反向传播等训练手段不断优化音频处理模型中的权重参数值，直到满足预设训练截止条件。具体的训练截止条件可根据实际需求进行设置，例如可以基于迭代次数、损失值收敛程度、或模型准确率等设定。训练结束后得到的音频处理模型，可以成为上述实施例中音频处理方法中的预设音频处理模型。

本申请实施例提供的模型训练方法，预设音频处理模型中包含卷积层，在训练过程中，在为卷积层的输入数据填充数据时，在右侧填充数据可以保证参考到后面的信息，提高音频处理后的音频质量，而右侧填充数据数量少于左侧填充数据数量，可以有效控制延迟，从而可以使得训练后得到的模型，能够实现兼顾低延时和处理效果。

在一些实施例中，所述音频处理模型中包括音色添加模型和声码器模型，所述音色添加模型和所述声码器模型中均包含卷积层，所述音色添加模型设置为为内容信息添加音色信息，得到音色内容信息，所述声码器模型设置为将音色内容信息转换为音频数据。其中，所述基于所述右侧填充数量、所述左侧填充数量和所述音频处理模型，对样本音频流进行处理，得到对应的处理后的目标样本音频流，包括：提取样本音频流中的样本内容信息；将所述样本内容信息输入至所述音频处理模型，以使所述音频处理模型基于所述右侧填充数量和所述左侧填充数量对所述样本内容信息进行处理，得到对应的变更音色的目标样本音频流。这样设置的好处在于，可以训练得到兼顾低延时和转换效果的用于音色转换的音频处理模型。

在一些实施例中，所述确定音频处理模型对应的右侧填充数量和左侧填充数量，包括：采用随机方式确定音频处理模型对应的右侧填充数量和左侧填充数量。可选的，可包括：采用随机方式确定音频处理模型对应的右侧填充数量；确定所述卷积层对应的卷积核大小；根据所述卷积核大小和所述右侧填充数量，确定左侧填充数量。这样设置的好处在于，可以适用于不同的右侧填充数量和左侧填充数量对应的语音处理情况，也即可以训练得到通用的音频处理模型，方便根据实际应用需求，动态确定右侧填充数量，可以达到灵活调整延时的效果。

图8为本申请实施例提供的一种音频处理装置的结构框图，该装置可由软件和/或硬件实现，一般可集成在音频处理设备等电子设备中，可通过执行音频处理方法来对音频流进行处理。如图8所示，该装置包括：填充数量确定模块801和音频流处理模块802。

填充数量确定模块801，设置为确定预设音频处理模型对应的目标右侧填充数量和目标左侧填充数量，其中，所述预设音频处理模型中包含卷积层，所述目标右侧填充数量用于指示在所述卷积层的输入数据右侧填充的数据数量，所述目标左侧填充数量用于指示在所述卷积层的输入数据左侧填充的数据数量，所述目标右侧填充数量大于0，且同一卷积层对应的所述目标右侧填充数量小于对应的所述目标左侧填充数量；

音频流处理模块802，设置为基于所述目标右侧填充数量、所述目标左侧填充数量和所述预设音频处理模型，对待处理音频流进行处理，得到对应的处理后的目标音频流。

本申请实施例提供的音频处理装置，在需要对待处理音频流进行处理时，先确定预设音频处理模型对应的目标右侧填充数量和目标左侧填充数量，其中，预设音频处理模型中包含卷积层，目标右侧填充数量用于指示在卷积层的输入数据右侧填充的数据数量，目标左侧填充数量用于指示在卷积层的输入数据左侧填充的数据数量，目标右侧填充数量大于0且小于目标左侧填充数量，随后，再基于目标右侧填充数量、目标左侧填充数量和预设音频处理模型，对待处理音频流进行处理，得到对应的处理后的目标音频流。通过采用上述音频处理装置，在为卷积层的输入数据填充数据时，在右侧填充数据可以保证参考到后面的信息，提高音频处理后的音频质量，而右侧填充数据数量少于左侧填充数据数量，可以有效控制延迟，从而可以兼顾低延时和处理效果。

可选的，所述预设音频处理模型中包括预设音色添加模型和预设声码器模型，所述预设音色添加模型和所述预设声码器模型中均包含卷积层，所述预设音色添加模型设置为为内容信息添加音色信息，得到音色内容信息，所述预设声码器模型设置为将音色内容信息转换为音频数据；

其中，所述音频流处理模块包括：

内容信息提取单元，设置为提取待处理音频流中的待处理内容信息；

音色转换单元，设置为将所述待处理内容信息输入至所述预设音频处理模型，以使所述预设音频处理模型基于所述目标右侧填充数量和所述目标左侧填充数量对所述待处理内容信息进行处理，得到对应的变更音色的目标音频流。

可选的，所述填充数量确定模块，包括：

右侧填充数量确定单元，设置为确定预设音频处理模型对应的目标右侧填充数量；

卷积核大小确定单元，设置为确定所述卷积层对应的卷积核大小；

左侧填充数量确定单元，设置为根据所述卷积核大小和所述目标右侧填充数量，确定目标左侧填充数量。

可选的，所述目标右侧填充数量根据所述待处理音频流对应的预期延时确定，其中，所述目标右侧填充数量和所述预期延时成正相关关系。

图9为本申请实施例提供的一种模型训练装置的结构框图，该装置可由软件和/或硬件实现，一般可集成在模型训练设备等电子设备中，可通过执行模型训练方法来进行模型训练。如图9所示，该装置包括：数量确定模块901、音频处理模块902和模型训练模块903。

数量确定模块901，设置为确定音频处理模型对应的右侧填充数量和左侧填充数量，其中，所述音频处理模型中包含卷积层，所述右侧填充数量用于指示在所述卷积层的输入数据右侧填充的数据数量，所述左侧填充数量用于指示在所述卷积层的输入数据左侧填充的数据数量，所述右侧填充数量大于0，且同一卷积层对应的所述右侧填充数量小于对应的所述左侧填充数量；

音频处理模块902，设置为基于所述右侧填充数量、所述左侧填充数量和所述音频处理模型，对样本音频流进行处理，得到对应的处理后的目标样本音频流，其中，所述样本音频流对应有标准音频流；

模型训练模块903，设置为根据所述目标样本音频流与所述标准音频流确定目标损失关系，并基于所述目标损失关系对所述音频处理模型进行训练。

本申请实施例提供的模型训练装置，预设音频处理模型中包含卷积层，在训练过程中，在为卷积层的输入数据填充数据时，在右侧填充数据可以保证参考到后面的信息，提高音频处理后的音频质量，而右侧填充数据数量少于左侧填充数据数量，可以有效控制延迟，从而可以使得训练后得到的模型，能够实现兼顾低延时和处理效果。

可选的，所述音频处理模型中包括音色添加模型和声码器模型，所述音色添加模型和所述声码器模型中均包含卷积层，所述音色添加模型设置为为内容信息添加音色信息，得到音色内容信息，所述声码器模型设置为将音色内容信息转换为音频数据；

其中，所述音频处理模块，包括：

信息提取单元，设置为提取样本音频流中的样本内容信息；

音色变更单元，设置为将所述样本内容信息输入至所述音频处理模型，以使所述音频处理模型基于所述右侧填充数量和所述左侧填充数量对所述样本内容信息进行处理，得到对应的变更音色的目标样本音频流。

可选的，所述数量确定模块，包括：

随机确定单元，设置为采用随机方式确定音频处理模型对应的右侧填充数量；

卷积核确定单元，设置为确定所述卷积层对应的卷积核大小；

左侧数量确定单元，设置为根据所述卷积核大小和所述右侧填充数量，确定左侧填充数量。

本申请实施例提供了一种电子设备，该电子设备中可集成本申请实施例提供的音频处理装置和/或模型训练装置。图10为本申请实施例提供的一种电子设备的结构框图。电子设备1000包括处理器1001，以及与处理器1001通信连接的存储器1002，其中，存储器1002存储有可被处理器1001执行的计算机程序，计算机程序被处理器1001执行，以使所述处理器1001能够执行本申请任一实施例所述的音频处理方法和/或模型训练方法。其中，处理器的数量可以是一个或多个，图10中以一个处理器为例。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于使处理器执行时实现本申请任一实施例所述的音频处理方法。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序在被处理器执行时实现如本申请实施例提供的音频处理方法。

上述实施例中提供的音频处理装置、模型训练装置、设备、存储介质及产品可执行本申请任意实施例所提供的音频处理方法或模型训练方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的音频处理方法或模型训练方法。

Claims

一种音频处理方法，包括：

确定预设音频处理模型对应的目标右侧填充数量和目标左侧填充数量，其中，所述预设音频处理模型中包含卷积层，所述目标右侧填充数量用于指示在所述卷积层的输入数据右侧填充的数据数量，所述目标左侧填充数量用于指示在所述卷积层的输入数据左侧填充的数据数量，所述目标右侧填充数量大于0，且同一卷积层对应的所述目标右侧填充数量小于对应的所述目标左侧填充数量；

基于所述目标右侧填充数量、所述目标左侧填充数量和所述预设音频处理模型，对待处理音频流进行处理，得到对应的处理后的目标音频流。
根据权利要求1所述的方法，其中，所述预设音频处理模型中包括预设音色添加模型和预设声码器模型，所述预设音色添加模型和所述预设声码器模型中均包含卷积层，所述预设音色添加模型设置为为内容信息添加音色信息，得到音色内容信息，所述预设声码器模型设置为将音色内容信息转换为音频数据；

其中，所述基于所述目标右侧填充数量、所述目标左侧填充数量和所述预设音频处理模型，对待处理音频流进行处理，得到对应的处理后的目标音频流，包括：

提取待处理音频流中的待处理内容信息；

将所述待处理内容信息输入至所述预设音频处理模型，以使所述预设音频处理模型基于所述目标右侧填充数量和所述目标左侧填充数量对所述待处理内容信息进行处理，得到对应的变更音色的目标音频流。
根据权利要求1所述的方法，其中，所述确定预设音频处理模型对应的目标右侧填充数量和目标左侧填充数量，包括：

确定预设音频处理模型对应的目标右侧填充数量；

确定所述卷积层对应的卷积核大小；

根据所述卷积核大小和所述目标右侧填充数量，确定目标左侧填充数量。
根据权利要求1-3任一所述的方法，其中，所述目标右侧填充数量根据所述待处理音频流对应的预期延时确定，其中，所述目标右侧填充数量和所述预期延时成正相关关系。
一种模型训练方法，包括：

确定音频处理模型对应的右侧填充数量和左侧填充数量，其中，所述音频处理模型中包含卷积层，所述右侧填充数量用于指示在所述卷积层的输入数据右侧填充的数据数量，所述左侧填充数量用于指示在所述卷积层的输入数据左侧填充的数据数量，所述右侧填充数量大于0，且同一卷积层对应的所述右侧填充数量小于对应的所述左侧填充数量；

基于所述右侧填充数量、所述左侧填充数量和所述音频处理模型，对样本音频流进行处理，得到对应的处理后的目标样本音频流，其中，所述样本音频流对应有标准音频流；

根据所述目标样本音频流与所述标准音频流确定目标损失关系，并基于所述目标损失关系对所述音频处理模型进行训练。
根据权利要求5所述的方法，其中，所述音频处理模型中包括音色添加模型和声码器模型，所述音色添加模型和所述声码器模型中均包含卷积层，所述音色添加模型设置为为内容信息添加音色信息，得到音色内容信息，所述声码器模型设置为将音色内容信息转换为音频数据；

其中，所述基于所述右侧填充数量、所述左侧填充数量和所述音频处理模型，对样本音频流进行处理，得到对应的处理后的目标样本音频流，包括：

提取样本音频流中的样本内容信息；

将所述样本内容信息输入至所述音频处理模型，以使所述音频处理模型基于所述右侧填充数量和所述左侧填充数量对所述样本内容信息进行处理，得到对应的变更音色的目标样本音频流。
根据权利要求5所述的方法，其中，所述确定音频处理模型对应的右侧填充数量和左侧填充数量，包括：

采用随机方式确定音频处理模型对应的右侧填充数量；

确定所述卷积层对应的卷积核大小；

根据所述卷积核大小和所述右侧填充数量，确定左侧填充数量。
一种音频处理装置，包括：

填充数量确定模块，设置为确定预设音频处理模型对应的目标右侧填充数量和目标左侧填充数量，其中，所述预设音频处理模型中包含卷积层，所述目标右侧填充数量用于指示在所述卷积层的输入数据右侧填充的数据数量，所述目标左侧填充数量用于指示在所述卷积层的输入数据左侧填充的数据数量，所述目标右侧填充数量大于0，且同一卷积层对应的所述目标右侧填充数量小于对应的所述目标左侧填充数量；

音频流处理模块，设置为基于所述目标右侧填充数量、所述目标左侧填充数量和所述预设音频处理模型，对待处理音频流进行处理，得到对应的处理后的目标音频流。
一种模型训练装置，包括：

数量确定模块，设置为确定音频处理模型对应的右侧填充数量和左侧填充数量，其中，所述音频处理模型中包含卷积层，所述右侧填充数量用于指示在所述卷积层的输入数据右侧填充的数据数量，所述左侧填充数量用于指示在所述卷积层的输入数据左侧填充的数据数量，所述右侧填充数量大于0，且同一卷积层对应的所述右侧填充数量小于对应的所述左侧填充数量；

音频处理模块，设置为基于所述右侧填充数量、所述左侧填充数量和所述音频处理模型，对样本音频流进行处理，得到对应的处理后的目标样本音频流，其中，所述样本音频流对应有标准音频流；

模型训练模块，设置为根据所述目标样本音频流与所述标准音频流确定目标损失关系，并基于所述目标损失关系对所述音频处理模型进行训练。
一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4任一项所述的音频处理方法和/或权利要求5-7任一项所述的模型训练方法。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于使处理器执行时实现权利要求1-4任一项所述的音频处理方法和/或权利要求5-7任一项所述的模型训练方法。
一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-4任一项所述的音频处理方法和/或权利要求5-7任一项所述的模型训练方法。