WO2024103383A1

WO2024103383A1 - 音频处理方法、装置、设备、存储介质及程序产品

Info

Publication number: WO2024103383A1
Application number: PCT/CN2022/132820
Authority: WO
Inventors: 孙洪文; 陈传艺; 吴东海; 劳振锋; 关迪聆
Original assignee: 广州酷狗计算机科技有限公司
Priority date: 2022-11-18
Filing date: 2022-11-18
Publication date: 2024-05-23
Also published as: CN116034423A

Abstract

本申请实施例提供了一种音频处理方法、装置、设备、存储介质及程序产品，涉及音频技术领域。所述方法包括：获取第一音频文件(110)；提取所述第一音频文件的音频特征(120)；通过第一用户的声学模型对所述音频特征进行处理，生成第二音频文件；其中，所述第一用户的声学模型是学习有所述第一用户的声学特征的模型，所述第二音频文件具有所述第一用户的音色(130)。采用本申请实施例提供的技术方案，能够提升音频内容的丰富性。

Description

音频处理方法、装置、设备、存储介质及程序产品

技术领域

本申请实施例涉及音频技术领域，特别涉及一种音频处理方法、装置、设备、存储介质及程序产品。

背景技术

目前，随着音频技术的发展，音频处理方式越来越多种多样。

在相关技术中，用户可以通过某个音频制作应用程序给自己录音、调音并播放制作的音频。

在上述相关技术中，用户只能采用自己录音得到的音频进行音频制作，制作得到的音频内容较为单一。

发明内容

本申请实施例提供了一种音频处理方法、装置、设备、存储介质及程序产品，能够提升音频内容的丰富性。所述技术方案如下：

根据本申请实施例的一个方面，提供了一种音频处理方法，所述方法包括：

显示第一音频文件的相关信息；

响应于针对所述第一音频文件的音色制作指令，显示通过第一用户的声学模型根据所述第一音频文件生成的第二音频文件；其中，所述第一用户的声学模型是学习有所述第一用户的声学特征的模型，所述第二音频文件具有所述第一用户的音色。

根据本申请实施例的一个方面，提供了一种音频处理装置，所述装置包括：

信息显示模块，用于显示第一音频文件的相关信息；

文件显示模块，用于响应于针对所述第一音频文件的音色制作指令，显示通过第一用户的声学模型根据所述第一音频文件生成的第二音频文件；其中，所述第一用户的声学模型是学习有所述第一用户的声学特征的模型，所述第二音频文件具有所述第一用户的音色。

根据本申请实施例的一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现上述音频处理方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现上述音频处理方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品，所述计算机程序产品由处理器加载并执行以实现上述音频处理方法。

本申请实施例提供的技术方案可以包括如下有益效果：

通过提取第一音频文件的音频特征，并基于第一音频文件的音频特征、和用户的声学模型，将该用户的声学特征与第一音频文件融合，生成具有该用户音色的第二音频文件，实现了对音频进行音色修改的功能，从而提升了音频内容的丰富性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的音频处理方法的流程图；

图2是本申请一个实施例提供的音素的示意图；

图3是本申请一个实施例提供的声学模型的示意图；

图4是本申请一个实施例提供的音频处理装置的框图；

图5是本申请另一个实施例提供的音频处理装置的框图；

图6是本申请一个实施例提供的计算机设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的方法的例子。

本申请实施例提供的方法，各步骤的执行主体可以是计算机设备，该计算机设备是指具备数据计算、处理和存储能力的电子设备。该计算机设备可以是诸如PC(Personal Computer，个人计算机)、平板电脑、智能手机、可穿戴设备、智能机器人等终端；也可以是服务器。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。

下面，通过几个实施例对本申请技术方案进行介绍说明。

请参考图1，其示出了本申请一个实施例提供的音频处理方法的流程图。在本实施例中，主要以该方法应用于上文介绍的计算机设备中来举例说明。该方法可以包括如下几个步骤(110～130)：

步骤110，获取第一音频文件。

在一些实施例中，第一音频文件可以是歌曲、配音、诗朗诵、有声读物、广播剧等类型的音频。

在一些实施例中，获取一个或多个第一音频文件。也即，可以对单个音频文件进行音色制作；也可以对多个音频文件同时进行音色制作，从而提升音色制作效率。

在一些实施例中，第一音频文件可以是通过有线或无线传输(如网络连接)获取到的音频文件。在一些实施例中，该方法应用于终端设备的目标应用程序中(如目标应用程序的客户端)。该目标应用程序可以是音频类应用程序，如音乐制作应用程序、音频播放应用程序、音频直播应用程序、K歌应用程序等，本申请实施例对此不作具体限定。该目标应用程序还可以是社交应用程序、支付应用程序、视频应用程序、购物应用程序、新闻应用程序、游戏应用程序等任何具有音频处理功能的应用程序。在一些实施例中，第一音频文件可以是通过目标应用程序的客户端录制和/或制作得到的音频文件。

步骤120，提取第一音频文件的音频特征。

在一些实施例中，第一音频文件中包括任意用户发出的语音内容，从第一音频文件中提取出该用户发出的语音内容的音频特征。

在一些实施例中，音频特征包括以下至少之一：

音素特征，用于表征第一音频文件中的音频内容的音素信息；

音高特征，用于表征第一音频文件中的音频内容的音高信息。

其中，音素是指是根据语音的自然属性划分出来的最小语音单位，是从音质的角度划分出来的最小的线性的语音单位。音素是具体存在的物理现象。依据音节里的发音动作来分析，一个动作构成一个音素。在一些实施例中，音素分为元音与辅音两大类。例如，汉语音节啊(ā)只有一个音素，爱(ài)有两个音素，代(dài)有三个音素。在一些实施例中，音素信息包括第一音频文件中的音频内容包含的音素、以及各个音素的发音时长，这些特征共同组成了音素特征。例如，有些人发音较为饱满，则在正常语速下，元音对应的音素发音时间就相对较长；又例如，有些人语速较快，发音较为短促，则每个音素的时长都比较短；又例如，受生理音素或生活环境影响，有些人很难发出某些音素(如“h”、“n”等)。

在一些实施例中，如图2所示，各个音素可以用音素块表示，音素块的长度用于表示对应音素的发音时长；例如，音素块21的长度a ₁用于表示音素a的发音时长。

其中，音高是指声音的音调高低，音高由声波的频率和波长决定。频率越高、波长越短，则音高越高；反之，频率越低、波长越长，则音高越低。

在一些实施例中，音频特征还可以包括第一音频文件中的音频内容的能量特征、气声特征、张力特征等，本申请对此不作限定。其中，能量特征可以用于指示第一音频文件中的音频内容的音量/响度大小；气声是指声带不振动或几乎不振动的发音方式，气声特征可以指示用户使用气声发音的规律或节奏；张力特征是指第一音频文件中的音频内容的低音与高音之间、弱音与强音之间的变化特征。

步骤130，通过第一用户的声学模型对音频特征进行处理，生成第二音频文件；其中，第一用户的声学模型是学习有第一用户的声学特征的模型，第二音频文件具有第一用户的音色。

在一些实施例中，第一用户的声学特征包括第一用户的音色特征。音色是指不同声音的声音特点，在物理上表现在声波的波形特点，因而音色也可以称为声纹特征。不同人说话的声音的音色各不相同。

在一些实施例中，采用学习有第一用户的声学特征的模型，对第一音频文件的音频特征进行处理，生成第二音频文件。也即，将第一用户的音色与第一音频文件的音频特征(如音素特征、音高特征等)融合，生成兼具第一用户音色、第一音频文件的音素和音高特征的第二音频文件。

在一些实施例中，该步骤130还包括：通过第一用户的声学模型对音频特征进行处理，生成梅尔频谱(mel spectrogram)；根据梅尔频谱，生成第二音频文件。研究表明，人类对声音频率的感知并不是线性的，并且对低频信号的感知要比高频信号敏感。例如，人们可以比较容易地感知到500和1000Hz(Hertz，赫兹)的区别，却很难发现7500和8000Hz的区别。针对这种情况提出的梅尔标度(the Mel Scale)，是针对声音频率的非线性变换，对于以梅尔标度为单位的信号(如声音信号)，可以模拟人对于声音信号变化的线性感知。

在一些实施例中，梅尔频谱也可以替换为其他可行的频谱，本申请实施例对此不作具体限定。

在一些实施例中，如图3所示，声学模型30包括编码器31和解码器32；通过第一用户的声学模型对音频特征进行处理，生成梅尔频谱，包括如下步骤：

1、通过编码器31对音频特征中的音素特征进行处理，得到编码后的音素特征；其中，音素特征用于表征第一音频文件中的音频内容的音素信息；

2、将编码后的音素特征与音频特征中的音高特征进行融合，得到融合特征；

3、通过解码器32对融合特征进行处理，得到梅尔频谱。

在一些实施例中，编码器31通过获取音频特征中的音素特征，对音素特征进行编码处理，得到编码后的音素特征33(也可以称为中间层变量)。可选地，由于音素的发音时长并不完全一致，在对音素特征进行编码处理时，通过长度调节器对不同音素特征的编码后长度进行调节，从而使得编码后的音素特征长度相同。例如，对音素特征进行初步编码处理后得到的各个音素特征的长度还不统一，则以长度最长的初步编码处理后的音素特征的长度为标准长度，将其他初步编码处理后的音素特征相对于标准长度短缺/不足的部分补全，如将短缺的部分用“0”填充补全，从而将所有音素特征的长度统一，得到长度统一编码后的音素特征。又例如，预先设定一个标准长度，将各个音素特征相对于标准长度短缺的部分补全，从而将所有编码后的音素特征的长度都统一为标准长度。其中，标准长度可以由相关技术人员根据实际情况进行设定，本申请实施例对此不作具体限定。可选地，标准长度不短于长度最长的初步编码处理后的音素特征的长度。

在一些实施例中，将编码后的音素特征与音频特征中的音高特征进行融合，得到融合特征之后，还包括：从融合特征中截取设定长度的切片特征；其中，切片特征用于作为解码器32的输入，得到梅尔频谱。也即，融合特征不会全部作为解码器32的输入，而是将其截取出设定长度的连续的特征片段，并将该特征片段进行切片处理，得到多个切片特征，并将该多个切片特征输入解码器32，得到梅尔频谱。在一些实施例中，音频是由多个音频帧(即多个音频片段)组成的。可选地，每个音频帧的长度(即时长)相等，一个音频帧的长度可以认为是1，则100个连续音频帧的长度就是100。在一些实施例中，每个切片特征的长度相同(即每个切片特征的中包含的音频帧的数量相同)。例如，融合特征长度为3000，从融合特征中截取多个连续的切片特征输入解码器32，每一个切片特征的长度均为500。

在上述实施例中，仅从融合特征中截取出设定长度的切片特征进行处理，无需对整个融合特征进行处理，根据实验结果，这样处理对模型精度的影响较小，从而在保证声学模型精度的前提下，节省处理资源、并提升模型的处理效率。

在一些实施例中，获取第一用户的声纹特征；通过解码器对融合特征和第一用户的声纹特征进行处理，得到梅尔频谱。从而将第一音频文件的音频内容的音频特征，与第一用户的声纹特征进行融合，得到兼具第一用户的声纹特征、第一音频文件的音素特征和音高特征的第二音频文件。对于唱歌场景，可以得到听上去像是第一用户按照第一音频文件中的演唱者的唱法演唱出的歌曲(即第二音频文件)，从而提升处理得到的音频文件的内容丰富性。

综上所述，本申请实施例提供的技术方案中，通过第一音频文件的相关信息、音色制作指令和用户的声学模型，将该用户的声学特征与第一音频文件融合，生成具有该用户音色的第二音频文件，实现了对音频进行音色修改的功能，从而提升了音频内容的丰富性。

在一些可能的实现方式中，方法还包括：

1、获取第一用户的音频文件，第一用户的音频文件是指对第一用户的音频内容进行录制得到的文件；

2、采用第一用户的音频文件，对预训练的声学模型进行调整，得到第一用户的声学模型。

在一些实施例中，第一用户通过演唱歌曲、诗朗诵、配音等方式录制得到第一用户的音频文件。并基于第一用户的音频文件，对预训练的声学模型进行调整，得到第一用户的声学模型。

在一些实施例中，采用第一用户的音频文件，对预训练的声学模型进行调整，得到第一用户的声学模型，包括：

(1)提取第一用户的音频文件对应的音频特征、声纹特征和标准梅尔频谱；

(2)通过预训练的声学模型根据第一用户的音频文件对应的音频特征和声纹特征，生成预测梅尔频谱；

(3)根据预测梅尔频谱和标准梅尔频谱，对预训练的声学模型的参数进行调整，得到第一用户的声学模型。

在上述实施例中，采用第一用户的音频文件对预训练的声学模型进行微调。将从第一用户的音频文件中提取出来的音频特征和声纹特征输入预训练的声学模型中，预训练的声学模型输出对应的预测梅尔频谱；基于预测梅尔频谱和标准梅尔频谱计算损失，并根据损失计算结果调整预训练的声学模型的参数，使其损失函数的呈梯度下降的趋势，直到预训练的声学模型微调完成，则得到第一用户的声学模型。从而可以对音频文件的音频特征进行处理，将该音频文件中人发出的语音(如演唱的歌曲、朗诵内容、配音内容等)的声纹/音色，修改为第一用户的声纹/音色，实现音色的修改和替换。

在一些实施例中，第一用户的音频文件对应的音频特征和声纹特征，预加载进GPU(Graphics Processing Unit，图形处理器)显存中，从而无需从别处花更多时间获取第一用户的音频文件对应的音频特征和声纹特征，从而提升数据加载速度，节省模型的训练时间。

在一些实施例中，该方法还包括：获取样本音频文件；采用样本音频文件对初始的声学模型进行训练，得到预训练的声学模型。在上述实施例中，提取样本音频文件对应的音频特征、声纹特征和标准梅尔频谱；通过初始的声学模型根据样本音频文件对应的音频特征和声纹特征，生成样本音频文件对应的预测梅尔频谱；再根据根据样本音频文件对应的预测梅尔频谱和样本音频文件对应的标准梅尔频谱，对初始的声学模型的参数进行调整，得到预训练的声学模型。采用样本音频文件对初始的声学模型进行训练、得到预训练的声学模型的过程，可以参考上文实施例中对预训练的声学模型的参数进行调整、得到第一用户的声学模型的相关内容，此处不再赘述。

其中，样本音频文件可以是较大规模的音频文件。在音频文件为歌曲的情况下，样本音频文件可以包括明星、歌手演唱的歌曲，也可以包括普通人演唱的歌曲，本申请实施例对此不作具体限定。

在上述实现方式中，基于第一用户的音频文件，对预训练的声学模型进行调整，得到第一用户的声学模型；由于第一用户的音频文件的数量较少，可以采用小样本数据对预训练的声学模型进行快速调整，从而快速得到专属于第一用户的个性化声学模型。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图4，其示出了本申请一个实施例提供的音频处理装置的框图。该装置具有实现上述音频处理方法示例的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是上文介绍的计算机设备，也可以设置在计算机设备上。该装置400可以包括：文件获取模块410、特征提取模块420和文件生成模块430。

所述文件获取模块410，用于获取第一音频文件。

所述特征提取模块420，用于提取所述第一音频文件的音频特征。

所述文件生成模块430，用于通过第一用户的声学模型对所述音频特征进行处理，生成第二音频文件；其中，所述第一用户的声学模型是学习有所述第一用户的声学特征的模型，所述第二音频文件具有所述第一用户的音色。

在一些实施例中，所述音频特征包括以下至少之一：

音素特征，用于表征所述第一音频文件中的音频内容的音素信息；

音高特征，用于表征所述第一音频文件中的音频内容的音高信息。

在一些实施例中，如图5所示，所述文件生成模块430，包括：频谱生成子模块431和文件生成子模块432。

所述频谱生成子模块431，用于通过所述第一用户的声学模型对所述音频特征进行处理，生成梅尔频谱。

所述文件生成子模块432，用于根据所述梅尔频谱，生成所述第二音频文件。

在一些实施例中，所述声学模型包括编码器和解码器；如图5所示，频谱生成子模块431，用于：

通过所述编码器对所述音频特征中的音素特征进行处理，得到编码后的音素特征；其中，所述音素特征用于表征所述第一音频文件中的音频内容的音素信息；

将所述编码后的音素特征与所述音频特征中的音高特征进行融合，得到融合特征；

通过所述解码器对所述融合特征进行处理，得到所述梅尔频谱。

在一些实施例中，如图5所示，所述装置400还包括：特征截取模块440。

所述特征截取模块440，用于从所述融合特征中截取设定长度的切片特征；其中，所述切片特征用于作为所述解码器的输入，得到所述梅尔频谱。

在一些实施例中，如图5所示，所述装置400还包括：特征获取模块450。

所述特征获取模块450，用于获取所述第一用户的声纹特征。

所述频谱生成子模块431，用于通过所述解码器对所述融合特征和第一用户的声纹特征进行处理，得到所述梅尔频谱。

在一些实施例中，如图5所示，所述装置400还包括：模型调整模块460。

所述文件获取模块410，还用于获取所述第一用户的音频文件，所述第一用户的音频文件是指对所述第一用户的音频内容进行录制得到的文件。

所述模型调整模块460，用于采用所述第一用户的音频文件，对预训练的所述声学模型进行调整，得到所述第一用户的声学模型。

在一些实施例中，如图5所示，所述模型调整模块460，用于：

提取所述第一用户的音频文件对应的音频特征、声纹特征和标准梅尔频谱；

通过预训练的所述声学模型根据所述第一用户的音频文件对应的音频特征和声纹特征，生成预测梅尔频谱；

根据所述预测梅尔频谱和所述标准梅尔频谱，对预训练的所述声学模型的参数进行调整，得到所述第一用户的声学模型。

在一些实施例中，所述第一用户的音频文件对应的音频特征和声纹特征，预加载进图形处理器GPU显存中。

在一些实施例中，如图5所示，所述装置400还包括：模型训练模块470。

所述文件获取模块410，还用于获取样本音频文件。

所述模型训练模块470，用于采用所述样本音频文件对初始的所述声学模型进行训练，得到预训练的所述声学模型。

综上所述，本申请实施例提供的技术方案中，通过第一音频文件的相关信息、音色制作指令和用户的声学模型，将该用户的声学特征与第一音频文件融合，生成具有该用户声学特征的第二音频文件，从而提升了音频内容的丰富性。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图6，其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备用于实施上述实施例中提供的音频处理方法。具体来讲：

所述计算机设备600包括CPU(Central Processing Unit，中央处理单元)601、包括RAM(Random Access Memory，随机存取存储器)602和ROM(Read-Only Memory，只读存储器)603的系统存储器604，以及连接系统存储器604和中央处理单元601的系统总线605。所述计算机设备600还包括帮助计算机内的各个器件之间传输信息的基本I/O(Input/Output，输入/输出)系统606，和用于存储操作系统613、应用程序614和其他程序模块615的大容量存储设备607。

所述基本输入/输出系统606包括有用于显示信息的显示器608和用于用户输入信息的诸如鼠标、键盘之类的输入设备609。其中所述显示器608和输入设备609都通过连接到系统总线605的输入输出控制器610连接到中央处理单元601。所述基本输入/输出系统606还可以包括输入输出控制器610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器610还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备607通过连接到系统总线605的大容量存储控制器(未示出)连接到中央处理单元601。所述大容量存储设备607及其相关联的计算机可读介质为计算机设备600提供非易失性存储。也就是说，所述大容量存储设备607可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory，只读光盘)驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory，可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory，可擦除可编程只读存储器)、闪存或其他固态存储器，CD-ROM、DVD(Digital Video Disc，高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器604和大容量存储设备607可以统称为存储器。

根据本申请的各种实施例，所述计算机设备600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备600可以通过连接在所述系统总线605上的网络接口单元611连接到网络612，或者说，也可以使用网络接口单元611来连接到其他类型的网络或远程计算机系统(未示出)。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有计算机程序，所述计算机程序在被处理器执行时以实现上述音频处理方法。

在示例性实施例中，还提供了一种计算机程序产品，所述计算机程序产品由处理器加载并执行以实现上述音频处理方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种音频处理方法，其特征在于，所述方法包括：

获取第一音频文件；

提取所述第一音频文件的音频特征；

通过第一用户的声学模型对所述音频特征进行处理，生成第二音频文件；其中，所述第一用户的声学模型是学习有所述第一用户的声学特征的模型，所述第二音频文件具有所述第一用户的音色。
根据权利要求1所述的方法，其特征在于，所述音频特征包括以下至少之一：

音素特征，用于表征所述第一音频文件中的音频内容的音素信息；

音高特征，用于表征所述第一音频文件中的音频内容的音高信息。
根据权利要求1所述的方法，其特征在于，所述通过第一用户的声学模型对所述音频特征进行处理，生成第二音频文件，包括：

通过所述第一用户的声学模型对所述音频特征进行处理，生成梅尔频谱；

根据所述梅尔频谱，生成所述第二音频文件。
根据权利要求3所述的方法，其特征在于，所述声学模型包括编码器和解码器；

所述通过所述第一用户的声学模型对所述音频特征进行处理，生成梅尔频谱，包括：

通过所述编码器对所述音频特征中的音素特征进行处理，得到编码后的音素特征；其中，所述音素特征用于表征所述第一音频文件中的音频内容的音素信息；

将所述编码后的音素特征与所述音频特征中的音高特征进行融合，得到融合特征；

通过所述解码器对所述融合特征进行处理，得到所述梅尔频谱。
根据权利要求4所述的方法，其特征在于，所述将所述编码后的音素特征与所述音频特征中的音高特征进行融合，得到融合特征之后，还包括：

从所述融合特征中截取设定长度的切片特征；

其中，所述切片特征用于作为所述解码器的输入，得到所述梅尔频谱。
根据权利要求4所述的方法，其特征在于，所述方法还包括：

获取所述第一用户的声纹特征；

所述通过所述解码器对所述融合特征进行处理，得到所述梅尔频谱，包括：

通过所述解码器对所述融合特征和第一用户的声纹特征进行处理，得到所述梅尔频谱。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述第一用户的音频文件，所述第一用户的音频文件是指对所述第一用户的音频内容进行录制得到的文件；

采用所述第一用户的音频文件，对预训练的所述声学模型进行调整，得到所述第一用户的声学模型。
根据权利要求7所述的方法，其特征在于，所述采用所述第一用户的音频文件，对预训练的所述声学模型进行调整，得到所述第一用户的声学模型，包括：

提取所述第一用户的音频文件对应的音频特征、声纹特征和标准梅尔频谱；

通过预训练的所述声学模型根据所述第一用户的音频文件对应的音频特征和声纹特征，生成预测梅尔频谱；

根据所述预测梅尔频谱和所述标准梅尔频谱，对预训练的所述声学模型的参数进行调整，得到所述第一用户的声学模型。
根据权利要求8所述的方法，其特征在于，所述第一用户的音频文件对应的音频特征和声纹特征，预加载进图形处理器GPU显存中。
根据权利要求7所述的方法，其特征在于，所述方法还包括：

获取样本音频文件；

采用所述样本音频文件对初始的所述声学模型进行训练，得到预训练的所述声学模型。
一种音频处理装置，其特征在于，所述装置包括：

文件获取模块，用于获取第一音频文件；

特征提取模块，用于提取所述第一音频文件的音频特征；

文件生成模块，用于通过第一用户的声学模型对所述音频特征进行处理，生成第二音频文件；其中，所述第一用户的声学模型是学习有所述第一用户的声学特征的模型，所述第二音频文件具有所述第一用户的音色。
一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现上述权利要求1至10任一项所述的音频处理方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现上述权利要求1至10任一项所述的音频处理方法。
一种计算机程序产品，其特征在于，所述计算机程序产品由处理器加载并执行以实现上述权利要求1至10任一项所述的音频处理方法。