WO2022089097A1

WO2022089097A1 - 音频处理方法、装置及电子设备和计算机可读存储介质

Info

Publication number: WO2022089097A1
Application number: PCT/CN2021/119539
Authority: WO
Inventors: 徐东
Original assignee: 腾讯音乐娱乐科技（深圳）有限公司
Priority date: 2020-10-28
Filing date: 2021-09-22
Publication date: 2022-05-05
Also published as: US20230402047A1; CN112289300A; CN112289300B

Abstract

一种音频处理方法、装置及一种电子设备和计算机可读存储介质，该方法包括：获取目标干声音频，确定目标干声音频中每个歌词字的起止时间（S101）；检测目标干声音频的调高和每段起止时间内的基频，并基于基频和调高确定每个歌词字的当前音名（S102）；对每个歌词字分别进行对应的第一音分跨度和多个不同的第二音分跨度的升调处理，分别得到第一和声和多个不同的第二和声；其中，第一音分跨度为正整数个音分，多个不同的第二音分跨度为第一音分跨度与多个不同的第三音分跨度的和，第一音分跨度与第三音分跨度相差一个数量级（S103）；将第一和声和多个不同的第二和声进行合成形成多轨和声，混合多轨和声和目标干声音频，得到合成干声音频（S104）。提供的音频处理方法，提高了干声音频的听觉效果。

Description

音频处理方法、装置及电子设备和计算机可读存储介质

本申请要求于2020年10月28日提交中国专利局、申请号为202011171384.5、发明名称为“音频处理方法、装置及电子设备和计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及音频处理技术领域，更具体地说，涉及音频处理方法、装置及电子设备和计算机可读存储介质。

背景技术

对于唱歌场景，在相关技术中，利用音频采集设备直接采集用户录制的干声音频。由于大多数用户没有经过专业的唱歌训练，他们对于唱歌时的嗓音、口腔，甚至胸腔共鸣等方面的控制仍处于空白状态，因此，用户直接录制的干声音频听觉效果较差。可见，在实现本发明过程中，发明人发现相关技术中至少存在如下问题：干声音频的听觉效果较差。

因此，如何提高干声音频的听觉效果是本领域技术人员需要解决的技术问题。

发明内容

本申请的目的在于提供一种音频处理方法、装置及一种电子设备和一种计算机可读存储介质，提高了干声音频的听觉效果。

为实现上述目的，本申请第一方面提供了一种音频处理方法，包括：

获取目标干声音频，确定所述目标干声音频中每个歌词字的起止时间；

检测所述目标干声音频的调高和每段所述起止时间内的基频，并基于所述基频和所述调高确定每个所述歌词字的当前音名；

对每个所述歌词字分别进行对应的第一音分跨度和多个不同的第二音分跨度的升调处理，分别得到第一和声和多个不同的第二和声；其中，所述第一音分跨度为正整数个音分，多个不同的所述第二音分跨度为所述第一音分跨度与多个不同的第三音分跨度的和，所述第一音分跨度与所述第三音分跨度相差一个数量级；

将所述第一和声和多个不同的所述第二和声进行合成形成多轨和声，混合所述多轨和声和所述目标干声音频，得到合成干声音频。

为实现上述目的，本申请第二方面提供了一种音频处理装置，包括：

获取模块，用于获取目标干声音频，确定所述目标干声音频中每个歌词字的起止时间；

检测模块，用于检测所述目标干声音频的调高和每段所述起止时间内的基频，并基于所述基频和所述调高确定每个所述歌词字的音名；

升调模块，用于对每个所述歌词字分别进行对应的第一音分跨度和多个不同的第二音分跨度的升调处理，分别得到第一和声和多个不同的第二和声；其中，所述第一音分跨度为正整数个音分，多个不同的所述第二音分跨度为所述第一音分跨度与多个不同的第三音分跨度的和，所述第一音分跨度与所述第三音分跨度相差一个数量级；

合成模块，用于将所述第一和声和多个所述第二和声进行合成形成多轨和声；

混合模块，用于混合所述多轨和声和所述目标干声音频，得到合成干声音频。

为实现上述目的，本申请第三方面提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述音频处理方法的步骤。

为实现上述目的，本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述音频处理方法的步骤。

通过以上方案可知，本申请提供的一种音频处理方法，包括：获取目标干声音频，确定所述目标干声音频中每个歌词字的起止时间；检测所述目标干声音频的调高和每段所述起止时间内的基频，并基于所述基频和所述调高确定每个所述歌词字的当前音名；对每个所述歌词字分别进行对应的第一音分跨度和多个不同的第二音分跨度的升调处理，分别得到第一和声和多个不同的第二和声；其中，所述第一音分跨度为正整数个音分，多个不同的所述第二音分跨度为所述第一音分跨度与多个不同的第三音分跨度的和，所述第一音分跨度与所述第三音分跨度相差一个数量级；将所述第一和声和多个不同的所述第二和声进行合成形成多轨和声，混合所述多轨和声和所述目标干声音频，得到合成干声音频。

本申请提供的音频处理方法，首先基于和弦乐理对用户输入的目标干声音频进行整数个音分的第一音分跨度的升调处理，可以使得升调后的第一和声更具有乐感，更加符合人耳的听音习惯。其次通过微扰变调方法生成多个不同的第二和声，第一和声和多个不同的第二和声形成的多轨和声实现了对实际场景下歌手多次录制的模拟，避免了单轨和声单薄的听觉效果。最后对多轨和声和目标干声音频进行混合得到更加适配人耳听感的合成干声音频，提升了干声音频的层次感。由此可见，本申请提供的音频处理方法，提高了干声音频的听觉效果。本申请还公开了一种音频处理装置及一种电子设备和一种计算机可读存储介质，同样能实现上述技术效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1为本申请实施例提供的一种音频处理系统的架构图；

图2为本申请实施例提供的第一种音频处理方法的流程图；

图3为本申请实施例提供的第二种音频处理方法的流程图；

图4为本申请实施例提供的第三种音频处理方法的流程图；

图5为本申请实施例提供的第四种音频处理方法的流程图；

图6为本申请实施例提供的一种音频处理装置的结构图；

图7为本申请实施例提供的一种电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解本申请提供的音频处理方法，下面对其使用的系统进行介绍。参见图1，其示出了本申请实施例提供的一种音频处理系统的架构图，如图1所示，包括音频采集设备10和服务器20。

音频采集设备10用于采集用户录制的目标干声音频，服务器20用于对目标干声音频进行升调处理得到多轨和声，并对多轨和声和目标干声音频进行混合得到更加适配人耳听感的合成干声音频。

当然，音频处理系统还可以客户端30，可以包括PC(中文全称：个人计算机，英文全称：Personal Computer)等固定终端和手机等移动终端，客户端30上可以设置扬声器，用于输出合成干声音频或基于合成干声音频合成的歌曲。

本申请实施例公开了一种音频处理方法，提高了干声音频的听觉效果。

参见图2，本申请实施例提供的第一种音频处理方法的流程图，如图2所示，包括：

S101：获取目标干声音频，确定所述目标干声音频中每个歌词字的起止时间；

本实施例的执行主体为上述实施例提供的音频处理系统中的服务器，目的为对用户录制的目标干声音频进行处理以得到更加适配人耳听感的合成干声音频。在本步骤中，音频采集设备采集用户录制的目标干声音频，将其发送至服务器。需要说明的是，目标干声音频为用户录制的干声波形文件，本实施例不对目标干声音频的音频格式进行限定，可以包括MP3、WAV(Waveform Audio File Format)、FLAC(中文全称：无损音频压缩编码，英文全称：Free Lossless Audio Codec)、OGG(OGG Vorbis)等格式。优选的，为了保证声音信息的不丢失，可以采用FLAC、WAV等无损编码格式。

在具体实施中，服务器首先获取目标干声音频对应的歌词文本，可以直接获取该目标干声音频对应的歌词文件，也可以直接在从目标干声音频中提取歌词文本，即从干声音频中直接识别干声对应的歌词文本，在此不进行具体限定。可以理解的是，由于用户录制的目标干声音频中可能包含噪音导致识别歌词不准确，因此可以在识别歌词文本之前对训练干声音频进行降噪处理。

其次，从歌词文本中获取目标干声音频中的每个歌词字。可以理解的是，歌词一般以歌词字和歌词起止时间的方式进行存储，例如，一段歌词文本的表现形式为：太[0,1000]阳[1000,1500]当[1500,3000]空[3000,3300]照[3300,5000]，中括号中的内容代表每个歌词字的起止时间，单位为毫秒，即“太”的起始时间为0毫秒，终止时间为1000毫秒，“阳”的起始时间为1000毫秒，终止时间为1500毫秒等，据此提取的歌词文本为“太，阳，当，空，照”。当然，歌词也可以为其他语言类型，以英语为例，提取的歌词文本为“the,sun,is,rising”。最后根据每个歌词字的文字类型确定每个歌词字的音标，若歌词字的文字类型为汉字，则其对应的音标为拼音，例如，对于歌词文本“太，阳，当，空，照”来说，其对应的拼音为“tai yang dang kong zhao”，若歌词字的文字类型为英文，则其对应的音标为英文音标。

S102：检测所述目标干声音频的调高和每段所述起止时间内的基频，并基于所述基频和所述调高确定每个所述歌词字的当前音名；

在本步骤中，检测输入的目标干声音频的调高，确定每段起止时间内的基频，通过分析每个歌词字的起止时间内声音的基频结合调高得到每个歌词字的当前音名。例如，在时间(t1,t2)内有一个歌词字“你”，由于已经得到干声的调高，通过提取(t1,t2)时间段内声音的基频，即可得到该歌词字对应的音名。

S103：对每个所述歌词字分别进行对应的第一音分跨度和多个不同的第二音分跨度的升调处理，分别得到第一和声和多个不同的第二和声；其中，所述第一音分跨度为正整数个音分，多个不同的所述第二音分跨度为所述第一音分跨度与多个不同的第三音分跨度的和，所述第一音分跨度与所述第三音分跨度相差一个数量级；

本步骤的目的在于对目标干声音频进行升调处理，以更加符合人耳听感。在具体实施中，对目标干声音频中的每个歌词字分别进行对应的第一音分跨度和多个不同的第二音分跨度的升调处理，分别得到第一和声和多个不同的第二和声。其中，第一音分跨度为正整数个音分，此处的音分即为key，音分跨度指升调后的目标音分与当前音分的音分差，第一和声相当于对目标干声音频的和弦升调。第二音分跨度为第一音分跨度与多个不同的第三音分跨度的和，第三音分跨度比第一音分跨度低一个数量级，即第二和声相当于对第一和声的微调变调。

可以理解的是，本领域技术人员可以直接设置第一音分跨度和多个不同的第三音分跨度的具体值，也可以预设音名跨度和多个不同的第三音分跨度，程序基于预设第一音名跨度依据大三和弦与小三和弦的乐理确定第一音分跨度，即所述对每个所述歌词字分别进行对应的第一音分跨度和多个不同的第二音分跨度的升调处理，分别得到第一和声和多个不同的第二和声的步骤包括：确定预设音名跨度，并对每个所述歌词字进行预设音名跨度的升调处理得到第一和声；其中，相邻音名相差一个或两个所述第一音分跨度；对所述第一和声进行多个不同的所述第三音分跨度的升调处理得到多个不同的第二和声。在具体实施中，首先对目标干声音频中的每个歌词字进行预设音名跨度的升调处理得到第一和声。其次，对第一和声进行多个不同的第三音分跨度的升调处理得到多个不同的第二和声。可以理解的是，预设音名跨度是指升调之后的目标音名与当前音名之间的音名差，音名(对固定高度的音所定的名称)可以包括CDEFGAB，升调七个音名相当于升调12音分。如果升满12个key相当于频率变为原来的2倍，比如从440Hz变为880Hz；如果升3个key，相当于频率变为2的3/12幂次方(约为1.189倍)，比如从440Hz变为523Hz。此处不对预设音名跨度进行具体限定，本领域技术人员可以根据实际情况进行灵活选择，一般不超过7，优选为2。根据大三和弦与小三和弦的乐理，相邻音名之间的音分跨度可以为1key或2key，具体参见表1，表1中“+key”即为相邻音名之间的音分跨度。

表1

音名	C	D	E	F	G	A	B	C
唱名	do	re	mi	fa	so	la	si	do
简谱	1	2	3	4	5	6	7	1
+key		+2	+2	+1	+2	+2	+2	+1

作为一种可行的实施方式，对每个所述歌词字进行预设音名跨度的升调处理得到第一和声，包括：根据每个所述歌词字的当前音名和预设音名跨度确定每个歌词字经升调处理后的目标音名；基于每个所述歌词字的目标音名与当前音名之间的音分跨度确定每个所述歌词字对应的第一音分跨度数量；对每个所述歌词字进行对应数量的第一音分跨度的升调处理得到第一和声。

在具体实施中，基于每个歌词字目标音名与当前音名之间的音分跨度，可以确定每个歌词字升调处理的第一音分跨度数量，对每个歌词字进行对应数量的第一音分跨度的升调处理得到第一和声。以预设音名跨度为2为例，若(t1,t2)的时间段内的歌词字“你”的当前音名name＝C，根据表1可知，其对应的唱名为do，对应的简谱为1，则对歌词字“你”上升2个音名后的目标音名为E，目标音名与当前音名之间的音分差即第一音分跨度为4，即实际音分(key)上升了4个key，分别为C至D的2个key和D至E的2个key。若另一歌词字的当前音名name＝E，则上升2个音名后的目标音名为G，目标音名与当前音名之间的第一音分跨度为3，即实际音分上升了3个key，分别为E至F的1个key，和F至G的2个key。上述升调处理方式依据大三和弦与小三和弦的乐理，这种处理方式可以让升调后的声音更具有乐感，更符合人耳的听音习惯。

按照上述方式将每个歌词字进行相应的升调处理，得到目标干声音频的升调结果，即经过和弦升调之后的第一和声，其为单轨和声。可以理解的是，本实施例中的升调方式是通过将声音基频增大，得到听感上音调升高的声音。

对上述单轨和声进行小幅度的变调，即进行第三音分跨度的升调处理，获得多轨和声的处理结果。此处不对第三音分跨度进行具体限定，本领域技术人员可以根据实际情况进行灵活选择，一般不超过1key。每个第二和声相对于第一和声升调的预设音分跨度不同，例如，可以为0.05key、0.1key、0.15key、0.2key等。此处同样不对第二和声的轨数进行限定，例如，可以为3轨、5轨、7轨等，分别对应3个预设音分跨度、5个预设音分跨度和7个预设音分跨度。

对单轨和声进行小幅度的变调实际上是模拟实际场景下歌手多次录制的情况，因为人多次录制同一首歌曲时，很难保证音准在每次录制时都完全一样，即会有一点音准上的浮动，恰恰这种浮动带来了更丰富的混合体验，避免的单薄的效果。可见，多轨和声可以增加干声音频的层次感。

S104：将所述第一和声和多个不同的所述第二和声进行合成形成多轨和声，混合所述多轨和声和所述目标干声音频，得到合成干声音频。

在本步骤中，将上一步骤得到的第一和声和多个不同的第二和声合成为多轨和声，并将多轨和声和目标干声音频进行混合得到合成干声音频。作为一种可行的实施方式，将所述第一和声和多个不同的所述第二和声进行合成形成多轨和声，包括：确定所述第一和声和每个所述第二和声对应的的音量和时延；按照所述第一和声和每个所述第二和声对应的的音量和时延对所述第一和声和每个所述第二和声对应的进行混合得到所述合成干声音频。在具体实施中，首先确定每一轨混合时的音量和时延。以a表示音量、delay表示时延，那么处理后的第i轨和声SH _i可以表示为：y＝a×SH _i+delay。此处的a一般为0.2，也可以为其它值，delay一般为1和30，单位为毫秒，也可以为其它值。然后将每一轨和声按照音量、时延的处理进行叠加，即可得到混合后的合成干声音频。公式表示为：

其中，a _i为第i轨和声的音量系数，SH _i为第i轨的和声，delay _i为第i轨和声的时延系数，m为多轨和声的总轨数。

本申请实施例提供的音频处理方法，首先基于和弦乐理对用户输入的目标干声音频进行整数个音分的第一音分跨度的升调处理，可以使得升调后的第一和声更具有乐感，更加符合人耳的听音习惯。其次通过微扰变调方法生成多个不同的第二和声，第一和声和多个不同的第二和声形成的多轨和声实现了对实际场景下歌手多次录制的模拟，避免了单轨和声单薄的听觉效果。最后对多轨和声和目标干声音频进行混合得到更加适配人耳听感的合成干声音频，提升了干声音频的层次感。由此可见，本申请实施例提供的音频处理方法，提高了干声音频的听觉效果。

在上述实施例的基础上，作为一种优选实施方式，所述混合所述多轨和声和所述目标干声音频，得到合成干声音频之后，还包括：利用音效器件为所述合成干声音频增加音效；获取所述合成干声音频对应的伴奏音频，将所述伴奏音频与增加音效后的合成干声音频按照预设方式进行叠加得到合成音频。

可以理解的是，合成的目标干声音频可以结合伴奏生成最终的歌曲，合成的歌曲可以在服务器的后台进行存储、输出至客户端或通过扬声器进行播放。

在具体实施中，可以通过混响器、均衡器等音效器件对合成的目标干声音频进行处理，得到有一定音效的干声音频。这里的音效器有很多可以选择的方式，例如通过音效插件、音效算法等方式处理，在此不进行具体限定。由于目标干声音频为纯人声音频，没有器乐的声音，这其实和生活中常见的歌曲有区别，例如不包含没有人声唱的前奏部分，如果没有伴奏，前奏部分为一段静音。因此需要将增加效后的目标干声音频与伴奏音频按照预设方式进行叠加得到合成音频即歌曲。

此处不对具体的叠加方式进行限定，本领域技术可以根据实际情况进行灵活选择。作为一种可行的实施方式，将所述伴奏音频与增加音效后的目标干声音频按照预设方式进行叠加得到合成音频，包括：对所述伴奏音频与增加音效后的目标干声音频进行功率归一化处理，得到中间伴奏音频和中间干声音频；按照预设的能量比例对所述中间伴奏音频和所述中间干声音频进行叠加得到所述合成音频。在具体实施中，对伴奏音频与增加音效后的目标干声音频分别进行功率归一化处理，得到中间伴奏音频accom和中间干声音频vocal，其均为时域波形，若预设的能量比例为0.6:0.4，则合成音频W＝0.6×vocal+0.4×accom。

由此可见，在此实施方式下，利用算法的高效、稳健和准确的优势，通过对用户发布的原始干声进行处理，获得对应的和声，将和声与用户的原始干声进行混合得到处理后的歌曲作品，该作品在听感上具有更加好听的特点，即提升用户发布作品的音乐感染力，从而有助于提升用户使用的满意度。另外，也有助于提升唱歌平台的内容提供商获得更大的影响力和竞争力。

本申请实施例公开了一种音频处理方法，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。具体的：

参见图3，本申请实施例提供的第二种音频处理方法的流程图，如图3所示，包括：

S201：获取目标干声音频，确定所述目标干声音频中每个歌词字的起止时间；

S202：提取所述目标干声音频的音频特征；其中，所述音频特征包括基频特征和频谱信息；

本步骤的目的在于提取训练干声音频的音频特征，该音频特征与目标干声音频的发声特点与音质密切相关。此处的音频特征可以包括基频特征和频谱信息。基频特征是指一段干声音频的最低振动频率，反映的是干声音频的音高，基频的数值越大，干声音频的音调越高。频谱信息是指目标干声音频频率的分布曲线。

S203：将所述音频特征输入调高分类器中得到所述目标干声音频的调高；

在本步骤中，将音频特征输入调高分类器中得到目标干声音频的调高。此处的调高分类器可以包括常见的隐马尔科夫模型(Hidden Markov Model，HMM)、支持向量机(Support Vector Machine，SVM)、深度学习模型等，在此不进行具体限定。

S204：检测每段所述起止时间内的基频，并基于所述基频和所述调高确定每个所述歌词字的当前音名；

S205：确定预设音名跨度，对每个所述歌词字进行预设音名跨度的升调处理得到第一和声，并对所述第一和声进行多个不同的所述第三音分跨度的升调处理得到多个不同的第二和声；其中，相邻音名相差一个或两个所述第一音分跨度；

S206：将所述第一和声和多个不同的所述第二和声进行合成形成多轨和声，混合所述多轨和声和所述目标干声音频，得到合成干声音频。

由此可见，在本实施例中，通过将目标干声音频的音频特征输入调高分类器中得到目标干声音频的调高，提高了检测调高的准确性。

本申请实施例公开了一种音频处理方法，相对于第一个实施例，本实施例对技术方案作了进一步的说明和优化。具体的：

参见图4，本申请实施例提供的第三种音频处理方法的流程图，如图4所示，包括：

S301：获取目标干声音频，确定所述目标干声音频中每个歌词字的起止时间；

S302：检测所述目标干声音频的调高和每段所述起止时间内的基频，并基于所述基频和所述调高确定每个所述歌词字的当前音名；

S303：确定预设音名跨度，对每个所述歌词字进行预设音名跨度的升调处理得到第一和声，对所述第一和声进行多个不同的所述第三音分跨度的升调处理得到多个不同的第二和声，对所述目标干声音频进行所述第三音分跨度的升调处理得到第三和声；其中，相邻音名相差一个或两个所述第一音分跨度；

S304：将所述第三和声、所述第一和声和多个不同的所述第二和声进行合成形成多轨和声，混合所述多轨和声和所述目标干声音频，得到合成干声音频。

在本实施例中，为了保证不同用户的演唱特色，可以对目标干声音频直接进行小幅度的升调处理，即对目标干声音频中的每个歌词字进行预设音分跨度的升调处理得到第三和声，并将升调处理后的第三和声加入多轨和声中。通过基于升调干声的方式获得和声，该和声可以为用户创作的原始干声带来更好听的听感效果，提升用户发布作品的质量。

作为一种可行的实施方式，将所述第三和声、所述第一和声和多个不同的所述第二和声进行合成形成多轨和声，包括：确定所述第三和声、所述第一和声和每个所述第二和声对应的音量和时延；按照所述第三和声、所述第一和声和每个所述第二和声对应的音量和时延将所述第三和声、所述第一和声和多个所述第二和声进行合成形成多轨和声。上述过程与第一个实施例介绍的过程类似，在此不再赘述。

由此可见，本实施例可以通过对用户录制干声进行处理，首先得到符合和弦调式的单轨和声，然后得到更具层次感与饱满度的多轨和声，通过有机混合得到混合后的单轨和声，该和声与干声叠加得到处理后的人声，相比原始的用户干声，在听感上更加好听悦耳，提升了用户作品的内容质量，提高了用户的满意度。

参见图5，本申请实施例提供的第四种音频处理方法的流程图，如图5所示，包括：

S401：获取目标干声音频，确定所述目标干声音频中每个歌词字的起止时间；

S402：提取所述目标干声音频的音频特征；其中，所述音频特征包括基频特征和频谱信息；

S403：将所述音频特征输入调高分类器中得到所述目标干声音频的调高；

S404：检测每段所述起止时间内的基频，并基于所述基频和所述调高确定每个所述歌词字的当前音名；

S405：确定预设音名跨度，对每个所述歌词字进行预设音名跨度的升调处理得到第一和声，对所述第一和声进行多个不同的所述第三音分跨度的升调处理得到多个不同的第二和声，对所述目标干声音频进行所述第三音分跨度的升调处理得到第三和声；其中，相邻音名相差一个或两个所述第一音分跨度；

S406：将所述第三和声、所述第一和声和多个不同的所述第二和声进行合成形成多轨和声，混合所述多轨和声和所述目标干声音频，得到合成干声音频。

由此可见，本实施例通过将目标干声音频的音频特征输入调高分类器中得到目标干声音频的调高，提高了检测调高的准确性。通过对用户录制干声进行处理，得到更具层次感与饱满度的多轨和声，通过有机混合得到混合后的单轨和声，提升了干声音频的层次感，在听感上更加好听悦耳，提高了干声音频的听觉效果。另外，本实施例既可以通过计算机后台处理，也可以通过云端处理，处理效率高，运行速度快。

为了便于理解，结合本申请的一种应用场景进行介绍。结合图1，在K歌场景下，用户通过K歌客户端的音频采集设备录制干声音频，服务器对该干声音频进行音频处理，具体可以包括以下步骤：

步骤1：和弦升调

在本步骤中，首先，检测输入干声音频的调高。然后，通过歌词时间获得歌词字的起止时间，分析该起止时间内声音的基频，得到该起止时间内歌词字的音调。最后，通过大三和弦与小三和弦的乐理，对该起止时间内的声音进行升调处理。将每个歌词字都进行相应的升调处理，得到干声的升调结果，即经过和弦升调之后的和声。其中，升调的方式是通过将声音基频增大，得到听感上音调升高的声音。由于只有一轨的和声，这里简称为单轨和声，记为和声B。

步骤2：微扰变调

在本步骤中，首先，通过将干声进行+0.1key的升调，得到和声A。然后，将和声B分别进行+0.1key、+0.15key、+0.2key的升调，得到和声C、D、E。最后，将这些和声统一起来，记为5轨和声SH＝[A，B，C，D，E]。

步骤3：多轨混合

在本步骤中，首先确定每一轨混合时的音量和时延，然后将每一轨和声按照音量、时延的处理进行叠加，即可得到混合后的一轨和声。

步骤4：增加伴奏与混响，得到处理完成的歌曲；

步骤5：输出

在本步骤，将处理完成后的歌曲声音进行输出，比如输出到移动终端、后台存储、通过终端的扬声器播放等方式。

下面对本申请实施例提供的一种音频处理装置进行介绍，下文描述的一种音频处理装置与上文描述的一种音频处理方法可以相互参照。

参见图6，本申请实施例提供的一种音频处理装置的结构图，如图5所示，包括：

获取模块100，用于获取目标干声音频，确定所述目标干声音频中每个歌词字的起止时间；

检测模块200，用于检测所述目标干声音频的调高和每段所述起止时间内的基频，并基于所述基频和所述调高确定每个所述歌词字的音名；

升调模块300，用于对每个所述歌词字分别进行对应的第一音分跨度和多个不同的第二音分跨度的升调处理，分别得到第一和声和多个不同的第二和声；其中，所述第一音分跨度为正整数个音分，多个不同的所述第二音分跨度为所述第一音分跨度与多个不同的第三音分跨度的和，所述第一音分跨度与所述第三音分跨度相差一个数量级；

合成模块400，用于将所述第一和声和多个不同的所述第二和声进行合成形成多轨和声；

混合模块500，用于混合所述多轨和声和所述目标干声音频，得到合成干声音频。

本申请实施例提供的音频处理装置，首先基于和弦乐理对用户输入的目标干声音频进行整数个音分的第一音分跨度的升调处理，可以使得升调后的第一和声更具有乐感，更加符合人耳的听音习惯。其次通过微扰变调方法生成多个不同的第二和声，第一和声和多个不同的第二和声形成的多轨和声实现了对实际场景下歌手多次录制的模拟，避免了单轨和声单薄的听觉效果。最后对多轨和声和目标干声音频进行混合得到更加适配人耳听感的合成干声音频，提升了干声音频的层次感。由此可见，本申请实施例提供的音频处理装置，提高了干声音频的听觉效果。

在上述实施例的基础上，作为一种优选实施方式，所述检测模块200包括：

提取单元，用于提取所述目标干声音频的音频特征；其中，所述音频特征包括基频特征和频谱信息；

输入单元，用于将所述音频特征输入调高分类器中得到所述目标干声音频的调高；

第一确定单元，用于检测每段所述起止时间内的基频，并基于所述基频和所述调高确定每个所述歌词字的当前音名。

在上述实施例的基础上，作为一种优选实施方式，所述升调模块300具体为对每个所述歌词字进行预设音名跨度的升调处理得到第一和声，对所述第一和声进行多个预设音分跨度的升调处理得到多个第二和声，对所述目标干声音频进行所述第三音分跨度的升调处理得到第三和声的模块；

相应的，所述合成模块400具体为将所述第三和声、所述第一和声和多个不同的所述第二和声进行合成形成多轨和声，混合所述多轨和声和所述目标干声音频，得到合成干声音频的模块。

在上述实施例的基础上，作为一种优选实施方式，所述合成模块400包括：

第二确定单元，用于确定所述第三和声、所述第一和声和每个所述第二和声对应的音量和时延；

合成单元，用于按照所述第三和声、所述第一和声和每个所述第二和声对应的音量和时延将所述第三和声、所述第一和声和多个所述第二和声进行合成形成多轨和声；

混合单元，用于混合所述多轨和声和所述目标干声音频，得到合成干声音频。

在上述实施例的基础上，作为一种优选实施方式，还包括：

增加模块，用于利用音效器件为所述合成干声音频增加音效；

叠加模块，用于获取所述合成干声音频对应的伴奏音频，将所述伴奏音频与增加音效后的合成干声音频按照预设方式进行叠加得到合成音频。

在上述实施例的基础上，作为一种优选实施方式，所述叠加模块包括：

获取单元，用于获取所述合成干声音频对应的伴奏音频；

归一化处理单元，用于对所述伴奏音频与增加音效后的合成干声音频进行功率归一化处理，得到中间伴奏音频和中间干声音频；

叠加单元，用于按照预设的能量比例对所述中间伴奏音频和所述中间干声音频进行叠加得到所述合成音频。

在上述实施例的基础上，作为一种优选实施方式，所述升调模块300包括：

第一升调单元，用于确定预设音名跨度，并对每个所述歌词字进行预设音名跨度的升调处理得到第一和声；其中，相邻音名相差一个或两个所述第一音分跨度；

第二升调单元，用于对所述第一和声进行多个不同的所述第三音分跨度的升调处理得到多个不同的第二和声。

在上述实施例的基础上，作为一种优选实施方式，所述第一升调单元包括：

第一确定子单元，用于确定预设音名跨度，并根据每个所述歌词字的当前音名和预设音名跨度确定每个歌词字经升调处理后的目标音名；

第二确定子单元，用于基于每个所述歌词字的目标音名与当前音名之间的音分跨度确定每个所述歌词字对应的第一音分跨度数量；

升调子单元，用于对每个所述歌词字进行对应数量的第一音分跨度的升调处理得到第一和声。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请还提供了一种电子设备，参见图7，本申请实施例提供的一种电子设备70的结构图，如图7所示，可以包括处理器71和存储器72。

其中，处理器71可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器71可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器71也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器71可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器71还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器72可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器72还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器72至少用于存储以下计算机程序721，其中，该计算机程序被处理器71加载并执行之后，能够实现前述任一实施例公开的由服务器侧执行的音频处理方法中的相关步骤。另外，存储器72所存储的资源还可以包括操作系统722和数据723等，存储方式可以是短暂存储或者永久存储。其中，操作系统722可以包括Windows、Unix、Linux等。

在一些实施例中，电子设备70还可包括有显示屏73、输入输出接口74、通信接口75、传感器76、电源77以及通信总线78。

当然，图7所示的电子设备的结构并不构成对本申请实施例中电子设备的限定，在实际应用中电子设备可以包括比图7所示的更多或更少的部件，或者组合某些部件。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述任一实施例服务器所执行的音频处理方法的步骤。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

一种音频处理方法，其特征在于，包括：

获取目标干声音频，确定所述目标干声音频中每个歌词字的起止时间；

检测所述目标干声音频的调高和每段所述起止时间内的基频，并基于所述基频和所述调高确定每个所述歌词字的当前音名；

对每个所述歌词字分别进行对应的第一音分跨度和多个不同的第二音分跨度的升调处理，分别得到第一和声和多个不同的第二和声；其中，所述第一音分跨度为正整数个音分，多个不同的所述第二音分跨度为所述第一音分跨度与多个不同的第三音分跨度的和，所述第一音分跨度与所述第三音分跨度相差一个数量级；

将所述第一和声和多个不同的所述第二和声进行合成形成多轨和声；

混合所述多轨和声和所述目标干声音频，得到合成干声音频。
根据权利要求1所述音频处理方法，其特征在于，所述检测所述目标干声音频的调高，包括：

提取所述目标干声音频的音频特征；其中，所述音频特征包括基频特征和频谱信息；

将所述音频特征输入调高分类器中得到所述目标干声音频的调高。
根据权利要求1所述音频处理方法，其特征在于，所述基于所述基频和所述调高确定每个所述歌词字的当前音名之后，还包括：

对所述目标干声音频进行所述第三音分跨度的升调处理得到第三和声；

相应的，将所述第一和声和多个不同的所述第二和声进行合成形成多轨和声，包括：

将所述第三和声、所述第一和声和多个不同的所述第二和声进行合成形成多轨和声。
根据权利要求3所述音频处理方法，其特征在于，将所述第三和声、所述第一和声和多个不同的所述第二和声进行合成形成多轨和声，包括：

确定所述第三和声、所述第一和声和每个所述第二和声对应的音量和时延；

按照所述第三和声、所述第一和声和每个所述第二和声对应的音量和时延将所述第三和声、所述第一和声和多个所述第二和声进行合成形成多轨和声。
根据权利要求1所述音频处理方法，其特征在于，所述混合所述多轨和声和所述目标干声音频，得到合成干声音频之后，还包括：

利用音效器件为所述合成干声音频增加音效；

获取所述合成干声音频对应的伴奏音频，将所述伴奏音频与增加音效后的合成干声音频按照预设方式进行叠加得到合成音频。
根据权利要求5所述音频处理方法，其特征在于，将所述伴奏音频与增加音效后的合成干声音频按照预设方式进行叠加得到合成音频，包括：

对所述伴奏音频与增加音效后的合成干声音频进行功率归一化处理，得到中间伴奏音频和中间干声音频；

按照预设的能量比例对所述中间伴奏音频和所述中间干声音频进行叠加得到所述合成音频。
根据权利要求1至6中任一项所述音频处理方法，其特征在于，所述对每个所述歌词字分别进行对应的第一音分跨度和多个不同的第二音分跨度的升调处理，分别得到第一和声和多个不同的第二和声，包括：

确定预设音名跨度，并对每个所述歌词字进行预设音名跨度的升调处理得到第一和声；其中，相邻音名相差一个或两个所述第一音分跨度；

对所述第一和声进行多个不同的所述第三音分跨度的升调处理得到多个不同的第二和声。
根据权利要求7所述音频处理方法，其特征在于，所述对每个所述歌词字进行预设音名跨度的升调处理得到第一和声，包括：

根据每个所述歌词字的当前音名和预设音名跨度确定每个歌词字经升调处理后的目标音名；

基于每个所述歌词字的目标音名与当前音名之间的音分跨度确定每个所述歌词字对应的第一音分跨度数量；

对每个所述歌词字进行对应数量的第一音分跨度的升调处理得到第一和声。
一种音频处理装置，其特征在于，包括：

获取模块，用于获取目标干声音频，确定所述目标干声音频中每个歌词字的起止时间；

检测模块，用于检测所述目标干声音频的调高和每段所述起止时间内的基频，并基于所述基频和所述调高确定每个所述歌词字的音名；

升调模块，用于对每个所述歌词字分别进行对应的第一音分跨度和多个不同的第二音分跨度的升调处理，分别得到第一和声和多个不同的第二和声；其中，所述第一音分跨度为正整数个音分，多个不同的所述第二音分跨度为所述第一音分跨度与多个不同的第三音分跨度的和，所述第一音分跨度与所述第三音分跨度相差一个数量级；

合成模块，用于将所述第一和声和多个不同的所述第二和声进行合成形成多轨和声；

混合模块，用于混合所述多轨和声和所述目标干声音频，得到合成干声音频。
一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至8任一项所述音频处理方法的步骤。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述音频处理方法的步骤。