WO2024077452A1

WO2024077452A1 - 音频处理方法、装置、设备及存储介质

Info

Publication number: WO2024077452A1
Application number: PCT/CN2022/124432
Authority: WO
Inventors: 杨亚斌; 党正军; 漆原; 刘佳泽
Original assignee: 广州酷狗计算机科技有限公司
Priority date: 2022-10-10
Filing date: 2022-10-10
Publication date: 2024-04-18
Also published as: CN115956270A

Abstract

本申请公开了一种音频处理方法、装置、设备及存储介质，涉及音频处理领域。该方法包括：对音频数据进行短时傅里叶变换得到频域数据集，所述频域数据集中每个时间窗口对应一组频域数据，所述频域数据包括频率以及频率对应的振幅；根据频域数据集中的振幅计算响度，得到第一频域响度集，所述第一频域响度集中每个时间窗口对应一组频域响度，所述频域响度包括频率以及频率对应的响度；采用淡入淡出函数，对所述第一频域响度集中每个时间窗口的所述频域响度执行首尾加窗处理，得到第二频域响度集。该方法使频谱图更贴合人耳听觉。

Description

音频处理方法、装置、设备及存储介质

技术领域

本申请涉及音频处理领域，特别涉及一种音频处理方法、装置、设备及存储介质。

背景技术

在播放音乐时，会显示音乐的频谱图。音乐的频谱图可以显示为柱状图，用户通过观赏柱状图的上下起伏来从视觉上感受音乐的韵律节奏。

相关技术中该频谱图的获取方式为：对音频数据进行短时傅里叶变换，得到每一帧的频谱数据，对频谱数据进行平滑处理，既可以得到频谱图。在播放音频数据的同时可以同步播放该音频数据每一帧的频谱图，进而显示出音频数据的韵律节奏。

相关技术中的方法所得到的频谱图并不符合人耳听觉所听到的音乐效果。

发明内容

本申请实施例提供了一种音频处理方法、装置、设备及存储介质，可以使频谱图更贴合人耳听觉。所述技术方案如下。

根据本申请的一方面，提供了一种音频处理方法，所述方法包括：

对音频数据进行短时傅里叶变换得到频域数据集，所述频域数据集中每个时间窗口对应一组频域数据，所述频域数据包括频率以及频率对应的振幅；

根据频域数据集中的振幅计算响度，得到第一频域响度集，所述第一频域响度集中每个时间窗口对应一组频域响度，所述频域响度包括频率以及频率对应的响度；

采用淡入淡出函数，对所述第一频域响度集中每个时间窗口的所述频域响度执行首尾加窗处理，得到第二频域响度集。

根据本申请的另一方面，提供了一种音频处理装置，所述装置包括：

处理模块，用于对音频数据进行短时傅里叶变换得到频域数据集，所述频域数据集中每个时间窗口对应一组频域数据，所述频域数据包括频率以及频率对应的振幅；

响度模块，用于根据频域数据集中的振幅计算响度，得到第一频域响度集，所述第一频域响度集中每个时间窗口对应一组频域响度，所述频域响度包括频率以及频率对应的响度；

加窗模块，用于采用淡入淡出函数，对所述第一频域响度集中每个时间窗口的所述频域响度执行首尾加窗处理，得到第二频域响度集。

根据本申请的另一方面，提供了一种计算机设备，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的音频处理方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上方面所述的音频处理方法。

根据本公开实施例的另一个方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述可选实现方式中提供的音频处理方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过对音频数据进行短时傅里叶变换，可以得到每个时间窗口的频域数据，该频域数据标识在时间窗口内音频数据在各个频率的振幅分布情况。然后基于频域数据中的振幅计算得到响度，进而得到每个时间窗口的频域响度。频域响度可以表示当前时间窗口内人耳听觉对各个频率声波的响度感受。进一步的，由于人耳对高频音波和低频音波的感知较弱，则对每个时间窗口音频响度的首尾进行淡入淡出加窗，使响度值从中部向两边逐渐递减。通过上述方法计算得到的每个时间窗口的频域响度，更符合音频数据播放时人耳所听到的响度分布情况，根据该频域响度即可制作音频播放时的相关显示效果，以使显示效果更近人耳听觉效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的计算机设备的框图；

图2是本申请另一个示例性实施例提供的音频处理方法的方法流程图；

图3是本申请另一个示例性实施例提供的音频处理方法的方法流程图；

图4是本申请另一个示例性实施例提供的音频处理方法的示意图；

图5是本申请另一个示例性实施例提供的音频处理方法的示意图；

图6是本申请另一个示例性实施例提供的音频处理装置的框图；

图7是本申请另一个示例性实施例提供的服务器的结构示意图；

图8是本申请另一个示例性实施例提供的终端的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1示出了本申请一个示例性实施例提供的计算机设备101的示意图，该计算机设备101可以是终端或服务器。

终端可以包括数码相机、智能手机、笔记本电脑、台式电脑、平板电脑、智能音箱、智能机器人中的至少一种。可选地，该终端还可以是具有音响的设备，例如，MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group 4，动态图像专家组)、音箱、智能音箱、车载计算机、耳机、智能家居设备等。在一种可选的实现方式中，本申请提供的音频处理方法可以应用于具有音频处理功能的应用程序中，该应用程序可以是：音乐播放程序、视频播放程序、小视频播放程序、音频编辑程序、视频编辑程序、社交程序、生活服务程序、购物程序、直播程序、论坛程序、资讯程序、生活类程序、办公程序等。可选地，终端上安装有该应用程序的客户端。

示例性的，终端上存储有音频处理算法，当客户端需要使用本申请实施例提供的音频处理功能时，客户端可以调用音频处理算法完成音频处理。示例性的，音频处理过程可以由终端来完成，也可以由服务器来完成。

终端与服务器之间通过有线或者无线网络相互连接。

终端包括第一存储器和第一处理器。第一存储器中存储有音频处理算法；上述音频处理算法被第一处理器调用执行以实现本申请提供的音频处理方法。第一存储器可以包括但不限于以下几种：随机存取存储器(Random Access Memory，RAM)、只读存储器(Read Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)、以及电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)。

第一处理器可以是一个或者多个集成电路芯片组成。可选地，第一处理器可以是通用处理器，比如，中央处理器(Central Processing Unit，CPU)或者网络处理器(Network Processor，NP)。可选地，第一处理器可以通过运行程序或代码来实现本申请提供的音频处理方法。

服务器包括第二存储器和第二处理器。第二存储器中存储有音频处理算法；上述音频处理算法被第二处理器调用来实现本申请提供的音频处理方法。可选地，第二存储器可以包括但不限于以下几种：RAM、ROM、PROM、EPROM、EEPROM。可选地，第二处理器可以是通用处理器，比如，CPU或者NP。

图2示出了本申请一个示例性实施例提供的音频处理方法的流程图。该方法可以由计算机设备来执行，例如，如图1所示的终端或服务器来执行。方法包括如下步骤。

步骤210，对音频数据进行短时傅里叶变换得到频域数据集，频域数据集中每个时间窗口对应一组频域数据，频域数据包括频率以及频率对应的振幅。

音频数据可以为PCM(Pulse Code Modulation，脉冲编码调制)音频数据，或者，音频数据可以为其他音频格式的音频数据。

短时傅里叶变换从时间上将音频数据分割为多个时间窗口，对每个时间窗口内的音频数据进行傅里叶变换，得到每个时间窗口的频域数据。多个时间窗口的频域数据组成频域数据集。即，频域数据集是由时间窗口、频率、振幅组成的三维数据。频域数据集中包括多个时间窗口的频域数据，每个时间窗口的频域数据包括各个频率上的振幅。示例性的，频域数据也可以是包括各个频率上的实部和虚部，基于实部和虚部计算得到振幅和相位，本申请实施例中利用振幅计算得到响度。

例如，每个时间窗口为一帧(30ms、60ms或100ms)。将音频数据的每一帧音频信号进行傅里叶变换，得到每一帧的频域数据，多帧频域数据组成频域数据集。一帧频域数据包括该帧音频数据在至少一个频率上的振幅。当然时间窗口的长度可以任意设置，例如，设置为两帧、一秒、1ms等。

步骤220，根据频域数据集中的振幅计算响度，得到第一频域响度集，第一频域响度集中每个时间窗口对应一组频域响度，频域响度包括频率以及频率对应的响度。

将频域数据集中的振幅计算为响度，并将响度替换频域数据集中的振幅得到第一频域响度集。

例如，响度＝20lg(振幅)。当第一帧(第一时间窗口)在20Hz(赫兹)的振幅为10时，其对应计算得到的响度为20。则第一频域响度集中第一帧(第一时间窗口)在20Hz的响度为20。

第一频域响度集与频域数据集的关系为：时间窗口不变、频率不变、振幅对应替换为响度。例如，频域数据集包括30个时间窗口的频域数据，则第一频域响度集也包括30个时间窗口的频域响度，且频域数据集中的时间窗口与第一频域响度集中的时间窗口具有一一对应关系。

可选的，也可以根据频域数据集中的振幅计算声压，得到第一频域声压集。第一频域声压集中每个时间窗口对应一组频域声压，频域声压包括频率以及频率对应的声压。则，后续步骤中的“响度”相关名词可以对应替换为“声压”。

步骤230，采用淡入淡出函数，对第一频域响度集中每个时间窗口的频域响度执行首尾加窗处理，得到第二频域响度集。

淡入淡出函数可以是起始点和终止点为0/趋于0，先逐渐增大后逐渐减小的函数。例如，淡入淡出函数可以为在(0,0)、(1,1)、(2,1)、(3,0)连成的折线函数。

当淡入淡出函数为连续的一个函数时，可以使用淡入淡出函数对每个时间窗口的频域响度执行全频段的加窗处理。加窗处理是指用加窗函数(淡入淡出函数)乘以被加窗数据(频域响度)。

可选的，淡入淡出函数还可以是两个函数：淡入函数和淡出函数。淡入函数为起始点为0/趋于0的逐渐增大的函数。淡出函数为终止点为0/趋于0的逐渐减小的函数。

可以使用淡入函数对每个时间窗口的频域响度的首部(从起始点开始的一段频段)执行加窗处理，使用淡出函数对每个时间窗口的频域响度的尾部(到终止点结束的一段频段)执行加窗处理。加窗的窗口长度(频段长度)可以是任意设置的，首部和尾部的窗口长度可以相同也可以不同，不同时间窗口的首部执行加窗的窗口长度可以相同也可以不同，不同时间窗口的尾部执行加窗的窗口长度可以相同也可以不同。

综上所述，本实施例提供的方法，通过对音频数据进行短时傅里叶变换，可以得到每个时间窗口的频域数据，该频域数据标识在时间窗口内音频数据在各个频率的振幅分布情况。然后基于频域数据中的振幅计算得到响度，进而得到每个时间窗口的频域响度。频域响度可以表示当前时间窗口内人耳听觉对各个频率声波的响度感受。进一步的，由于人耳对高频音波和低频音波的感知较弱，则对每个时间窗口音频响度的首尾进行淡入淡出加窗，使响度值从中部向两边逐渐递减。通过上述方法计算得到的每个时间窗口的频域响度，更符合音频数据播放时人耳所听到的响度分布情况，根据该频域响度即可制作音频播放时的相关显示效果，以使显示效果更近人耳听觉效果。

图3示出了本申请一个示例性实施例提供的音频处理方法的流程图。该方法可以由计算机设备来执行，例如，如图1所示的终端或服务器来执行。该方法包括以下步骤。

例如，一个时间窗口为一帧，音频数据包括1000帧，则对音频数进行短时傅里叶变换后得到了由1000帧频域数据组成的频域数据集。1帧频域数据可以构成横轴为频率(例如取值范围为0-20000Hz)纵轴为振幅的点图/折线图/柱状图。则频域数据集包括1000张频域数据的点图/折线图/柱状图。

例如，步骤210举例中的1000帧频域数据的频域数据集转换为第一频域响度集，第一频域响度集包括1000帧频域响度，一帧频域响度可以构成横轴为频率(例如取值范围为0-20000Hz)纵轴为振幅的点图/折线图/柱状图。则第一频域响度集包括1000张频域响度的点图/折线图/柱状图。

步骤221，对第一频域响度集进行A加权滤波处理和梅尔标度转化。

可选的，在通过步骤220得到第一频域响度集后，还会度第一频域响度集中的各时间窗口的频域响度进行进一步处理，进一步处理包括a加权滤波处理和梅尔标度转化。

A加权滤波处理是模拟人耳对40方纯音的响度，当信号通过时，其低频、中段频(1000Hz以下)有较大的衰减。A加权滤波的特性曲线接近于人耳的听感特性。例如，可以利用a加权滤波器对第一频域响度集中的每个频域响度进行处理。

梅尔标度转化用于将频率转换为梅尔标度。大部分人耳所能识别的频率范围在20～20000Hz之间，但是人耳对声音频率单位Hz的识别关系并不是简单的线性关系，例如人耳对中低频(1000Hz左右)的声音最为敏感，声音频率由1000Hz提高到2000Hz时人耳并不能感受到频率成倍的变化。为此人们常利用梅尔标度来重新量化人耳对频率的感受特点。

例如，频域响度的横轴为频率，取值范围为0-20000Hz，则通过梅尔标度转化，将0-20000Hz转化为梅尔标度。梅尔标度对应的响度为梅尔标度对应的频率响度区间内的响度之和。例如，梅尔标度1对应了一段频段，则梅尔标度1的响度为该频段内所有频率对应的响度之和。进而使第一频域响度集更符合人耳对响度的感受。

梅尔标度转化的公式为：梅尔标度＝2595*lg(1+频率/700)。例如，6300Hz转化为梅尔标度为2595。

梅尔标度转化可以利用梅尔标度滤波器完成，将经过A加权滤波后的第一频域响度集中的频域响度输入梅尔标度滤波器，得到经过梅尔标度转化的第一频域响度集。

可选的，后续步骤中所使用的第一频域响度集可以是步骤220得到的第一频域响度集，也可以是指经过A加权滤波处理的第一频域响度集，也可以是指经过梅尔标度转化的第一频域响度集，还可以是指经过A加权滤波处理和梅尔标度转化的第一频域响度集。

进过A加权滤波和梅尔标度转化可以得到比较符合人类听觉变化的频域响度，但是该数据参差不齐，过于抖动，则本实施例通过帧内和帧间的数据处理实现数据的平滑、错差符合观感，以及淡入淡出。

步骤222，在频域响度的分布情况满足集中分布条件的情况下，降低频域响度中低于平均响度的响度值。

集中分布条件用于判断频域响度的分布情况是否集中分布在平均响度附近。例如，平均分布条件为响度方差小于第一阈值，且响度期望与平均响度之差小于第二阈值。第一阈值和第二阈值的取值根据实际需求来确定。

计算每个时间窗口的频域响度的最大响度、最小响度、平均响度、响度期望、响度方差，进而判断该时间窗口频域响度的分布情况。若分布集中在平均响度附近，则对于低于平均响度的响度拉低其取值，从而突出当前时间窗口中高响度的部分。

可选的，基于频域响度计算平均响度、响度期望和响度方差；在响度方差小于第一阈值，且响度期望与平均响度之差小于第二阈值的情况下，降低频域响度中响度低于平均响度的取值。

降低频域响度中响度低于平均响度的取值的方式可以是：减去固定值、乘以系数、减去梯度值等等。例如，将低于平均响度的所有响度都乘以0.5。

例如，如图4中的(1)所示，为第一频域响度集的第一时间窗口的频域响度，其响度集中分布在平均响度附近，则将低于平均响度的响度降低取值，得到如图4中的(2)，从而突出高响度部分，使其贴合人耳听觉效果。

可选的，采用淡入函数，对第一频域响度集中每个时间窗口的频域响度的首部执行加窗处理，首部为频率低于第一频率阈值的部分；采用淡出函数，对第一频域响度集中每个时间窗口的频域响度的尾部执行加窗处理，尾部为频率高于第二频率阈值的部分。

首部和尾部的窗口大小和位置可以任意设置。例如，可以根据横轴的取值范围设置，从取值范围的最小值开始到第一频率阈值为首部，从第二频率阈值到取值范围的最大值为尾部。还可以根据频域响度中响度值大于0的频率范围/梅尔标度范围来确定，例如，频率响度的横轴取值范围为0-100，但0-10的响度都为0，10的响度为1,90的响度为1，90-100的响度都为0，则响度值大于0的频率/梅尔标度范围为10-90，则从响度值大于0的频率/梅尔标度范围的最小值开始到第一频率阈值为首部，从第二频率阈值到响度值大于0的频率/梅尔标度范围的最大值为止为尾部。首部和尾部的窗口长度可以相同也可以不同。

例如，频域响度的频率取值范围为0-20000Hz，则首部可以是0-100Hz，尾部可以是19900-20000Hz。或者，频域响度的梅尔标度范围为0-100，则首部可以是0-10，尾部可以是90-100。

可选的，淡入函数为正弦函数的0至π/2部分；淡出函数为余弦函数的0至π/2部分。

将淡入函数缩放至与首部的横轴窗口长度相同，然后将淡入函数与首部的频域响度相乘，得到加窗处理后的首部。将淡出函数缩放至与尾部的横轴窗口长度相同，然后将淡出函数与尾部的频域响度相乘，得到加窗处理后的尾部。

例如，如图5中的(1)所示，为第一时间窗口的频域响度，横轴为频率/梅尔标度纵轴为响度，则采用淡入函数对首部进行加窗处理，采用淡出函数对尾部进行加窗处理，加窗处理后得到如图5中的(2)所示的频域响度。

步骤231，对第二频域响度集中每个时间窗口的频域响度执行窗口内数据平滑。

可选的，采用多项式平滑算法对每个时间窗口的频域响度进行窗口内的数据平滑。例如，窗口内包括0-100hz的10个响度，则第j个响度用第j-2个响度、第j-1个响度、第j+1个响度、第j+2个响度来进行平滑，如此依次平滑时间窗口内的每一个响度。j为大于2的整数。

步骤232，对第二频域响度集中每个时间窗口的频域响度执行窗口间数据平滑。

可选的，采用滑动平滑加权滤波算法，基于第i-1个时间窗口、第i个时间窗口、第i+1个时间窗口的频域响度，平滑第i个时间窗口的频域响度，i为正整数。

若第i+1个时间窗口在第x个频率的响度f3小于第i个时间窗口在第x个频率的响度f2，则第i个时间窗口在第x个频率平滑后的响度c3＝(第i+1个时间窗口在第x个频率的响度f3)*下降系数a+(1-下降系数a)*(1-下降系数a)*(第i个时间窗口在第x个频率平滑前的响度f2)+(1-下降系数a)*下降系数a*(第i-1个时间窗口在第x个频率的响度f1)。

若第i+1个时间窗口在第x个频率的响度f3大于等于第i个时间窗口在第x个频率的响度f2，则第i个时间窗口在第x个频率平滑后的响度c3＝(第i+1个时间窗口在第x个频率的响度f3)*上升系数b+(1-上升系数b)*上升系数b*(第i个时间窗口在第x个频率平滑前的响度f2)+(1-上升系数b)*(1-上升系数b)*(第i-1个时间窗口在第x个频率的响度f1)。

其中，下降系数a和上升系数b可以根据需求设置。a和b的取值范围为0到1。

步骤233，基于第二频域响度集生成音频数据的播放显示效果，播放显示效果包括音频数据的频谱图、背景图播放效果、歌词播放效果、音乐喷泉效果、灯光效果中的至少一种。

可选的，在经过上述步骤的处理后得到的第二频域响度集，其中的频域响度即为符合人耳听觉的频谱数据。则基于第二频域响度集中的频域响度可以生成音频数据播放时所显示的播放显示效果。

例如，可以生成音乐播放时随音乐律动的频谱图。或者，根据音频响度来控制背景图播放效果，例如，控制图片显示时长、图片缩放大小、图片播放速度等。或者，还可以根据频域响度来控制灯光照射效果。通过这些播放显示效果，从视觉上为用户带来音乐播放体验，提高用户听到的音乐与播放显示效果的一致度，提高用户的音乐观赏体验。

可选的，上述对音频数据处理的步骤可以任意删减、调整先后顺序、组合得到新的实施例。

综上所述，本实施例提供的方法，通过对音频数据进行短时傅里叶变换，可以得到每个时间窗口的频域数据，该频域数据标识在时间窗口内音频数据在各个频率的振幅分布情况。然后基于频域数据中的振幅计算得到响度，进而得到每个时间窗口的频域响度。频域响度可以表示当前时间窗口内人耳听觉对各个频率声波的响度感受。进一步的，对频域响度进行A加权滤波和梅尔标度转化。然后，对于响度分布集中在平均响度的时间窗口，将其中低于平均响度的响度降低取值，以突出高响度部分。再对每个时间窗口音频响度的首尾进行淡入淡出加窗，使响度值从中部向两边逐渐递减。最后对帧内数据进行平滑以及对帧间数据进行平滑，使频域响度值的视觉效果更为流程。通过上述方法计算得到的每个时间窗口的频域响度，更符合音频数据播放时人耳所听到的响度分布情况，根据该频域响度即可制作音频播放时的相关显示效果，以使显示效果更近人耳听觉效果，提高用户观赏播放显示效果时的视觉和听觉匹配度，提高观赏体验。

以下为本申请的装置实施例，对于装置实施例中未详细描述的细节，可以结合参考上述方法实施例中相应的记载，本文不再赘述。

图6示出了本申请的一个示例性实施例提供的音频处理装置的结构示意图。该装置可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分，该装置包括：

处理模块401，用于对音频数据进行短时傅里叶变换得到频域数据集，所述频域数据集中每个时间窗口对应一组频域数据，所述频域数据包括频率以及频率对应的振幅；

响度模块402，用于根据频域数据集中的振幅计算响度，得到第一频域响度集，所述第一频域响度集中每个时间窗口对应一组频域响度，所述频域响度包括频率以及频率对应的响度；

加窗模块403，用于采用淡入淡出函数，对所述第一频域响度集中每个时间窗口的所述频域响度执行首尾加窗处理，得到第二频域响度集。

在一个可选的实施例中，所述加窗模块403，用于采用淡入函数，对所述第一频域响度集中每个时间窗口的所述频域响度的首部执行加窗处理，所述首部为频率低于第一频率阈值的部分；

所述加窗模块403，用于采用淡出函数，对所述第一频域响度集中每个时间窗口的所述频域响度的尾部执行加窗处理，所述尾部为频率高于第二频率阈值的部分。

在一个可选的实施例中，所述淡入函数为正弦函数的0至π/2部分；

所述淡出函数为余弦函数的0至π/2部分。

在一个可选的实施例中，所述装置还包括：

降低模块406，用于在所述频域响度的分布情况满足集中分布条件的情况下，降低所述频域响度中低于平均响度的响度值。

在一个可选的实施例中，所述降低模块406，用于基于所述频域响度计算平均响度、响度期望和响度方差；

所述降低模块406，用于在所述响度方差小于第一阈值，且所述响度期望与所述平均响度之差小于第二阈值的情况下，降低所述频域响度中响度低于所述平均响度的取值。

在一个可选的实施例中，所述第二频域响度集中每个时间窗口对应一组频域响度；所述装置还包括：

平滑模块405，用于对所述第二频域响度集中每个时间窗口的所述频域响度执行窗口内数据平滑。

平滑模块405，用于对所述第二频域响度集中每个时间窗口的所述频域响度执行窗口间数据平滑。

在一个可选的实施例中，所述平滑模块405，用于采用滑动平滑加权滤波算法，基于第i-1个时间窗口、第i个时间窗口、第i+1个时间窗口的所述频域响度，平滑所述第i个时间窗口的所述频域响度，i为正整数。

在一个可选的实施例中，所述处理模块401，用于对所述第一频域响度集进行A加权滤波处理和梅尔标度转化。

在一个可选的实施例中，所述装置还包括：

显示模块404，用于基于所述第二频域响度集生成所述音频数据的播放显示效果，所述播放显示效果包括所述音频数据的频谱图、背景图播放效果、歌词播放效果、音乐喷泉效果中的至少一种。

图7是本申请一个实施例提供的服务器的结构示意图。具体来讲：服务器800包括中央处理单元(英文：Central Processing Unit，简称：CPU)801、包括随机存取存储器(英文：Random Access Memory，简称：RAM)802和只读存储器(英文：Read-Only Memory，简称：ROM)803的系统存储器804，以及连接系统存储器804和中央处理单元801的系统总线805。服务器800还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)806，和用于存储操作系统813、应用程序814和其他程序模块815的大容量存储设备807。

基本输入/输出系统806包括有用于显示信息的显示器808和用于用户帐号输入信息的诸如鼠标、键盘之类的输入设备809。其中显示器808和输入设备809都通过连接到系统总线805的输入/输出控制器810连接到中央处理单元801。基本输入/输出系统806还可以包括输入/输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入/输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备807通过连接到系统总线805的大容量存储控制器(未示出)连接到中央处理单元801。大容量存储设备807及其相关联的计算机可读介质为服务器800提供非易失性存储。也就是说，大容量存储设备807可以包括诸如硬盘或者只读光盘(英文：Compact Disc Read-Only Memory，简称：CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(英文：Erasable Programmable Read-Only Memory，简称：EPROM)、电可擦除可编程只读存储器(英文：Electrically Erasable Programmable Read-Only Memory，简称：EEPROM)、闪存或其他固态存储器技术，CD-ROM、数字通用光盘(英文：Digital Versatile Disc，简称：DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器804和大容量存储设备807可以统称为存储器。

根据本申请的各种实施例，服务器800还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器800可以通过连接在系统总线805上的网络接口单元811连接到网络812，或者说，也可以使用网络接口单元811来连接到其他类型的网络或远程计算机系统(未示出)。

本申请还提供了一种终端，该终端包括处理器和存储器，存储器中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述各个方法实施例提供的音频处理方法。需要说明的是，该终端可以是如下图8所提供的终端。

图8示出了本申请一个示例性实施例提供的终端900的结构框图。该终端900可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端900还可能被称为用户帐号设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端900包括有：处理器901和存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以在集成有GPU(Graphics Processing Unit，音频处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器901所执行以实现本申请中方法实施例提供的音频处理方法或音频处理方法。

在一些实施例中，终端900还可选包括有：外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903 相连。具体地，外围设备包括：射频电路904、显示屏905、摄像头组件906、音频电路907、定位组件908和电源909中的至少一种。

外围设备接口903可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中，处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上；在一些其他实施例中，处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路904用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。示例性的，射频电路904包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户帐号身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路904还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏905用于显示UI(User Interface，用户帐号界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时，显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时，显示屏905还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏905可以为一个，设置终端900的前面板；在另一些实施例中，显示屏905可以为至少两个，分别设置在终端900的不同表面或呈折叠设计；在再一些实施例中，显示屏905可以是柔性显示屏，设置在终端900的弯曲表面上或折叠面上。甚至，显示屏905还可以设置成非矩形的不规则图形，也即异形屏。显示屏905可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件906用于采集图像或视频。示例性的，摄像头组件906包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路907可以包括麦克风和扬声器。麦克风用于采集用户帐号及环境的声波，并将声波转换为电信号输入至处理器901进行处理，或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路907还可以包括耳机插孔。

定位组件908用于定位终端900的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。定位组件908可以是基于美国的GPS(Global Positioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源909用于为终端900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于：加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。

加速度传感器911可以检测以终端900建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号，控制显示屏905以横向视图或纵向视图进行用户帐号界面的显示。加速度传感器911还可以用于游戏或者用户帐号的运动数据的采集。

陀螺仪传感器912可以检测终端900的机体方向及转动角度，陀螺仪传感器912可以与加速度传感器911协同采集用户帐号对终端900的3D动作。处理器901根据陀螺仪传感器912采集的数据，可以实现如下功能：动作感应(比如根据用户帐号的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器913可以设置在终端900的侧边框和/或显示屏905的下层。当压力传感器913设置在终端900的侧边框时，可以检测用户帐号对终端900的握持信号，由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在显示屏905的下层时，由处理器901根据用户帐号对显示屏905的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器914用于采集用户帐号的指纹，由处理器901根据指纹传感器914采集到的指纹识别用户帐号的身份，或者，由指纹传感器914根据采集到的指纹识别用户帐号的身份。在识别出用户帐号的身份为可信身份时，由处理器901授权该用户帐号执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器914可以被设置终端900的正面、背面或侧面。当终端900上设置有物理按键或厂商Logo时，指纹传感器914可以与物理按键或厂商Logo集成在一起。

光学传感器915用于采集环境光强度。在一个实施例中，处理器901可以根据光学传感器915采集的环境光强度，控制显示屏905的显示亮度。具体地，当环境光强度较高时，调高显示屏905的显示亮度；当环境光强度较低时，调低显示屏905的显示亮度。在另一个实施例中，处理器901还可以根据光学传感器915采集的环境光强度，动态调整摄像头组件906的拍摄参数。

接近传感器916，也称距离传感器，通常设置在终端900的前面板。接近传感器916用于采集用户帐号与终端900的正面之间的距离。在一个实施例中，当接近传感器916检测到用户帐号与终端900的正面之间的距离逐渐变小时，由处理器901控制显示屏905从亮屏状态切换为息屏状态；当接近传感器916检测到用户帐号与终端900的正面之间的距离逐渐变大时，由处理器901控制显示屏905从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图8中示出的结构并不构成对终端900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本申请实施例提供的音频处理方法。

本申请还提供一种计算机设备，该计算机设备包括：处理器和存储器，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的音频处理方法。

本申请还提供一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的音频处理方法。

本申请还提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述可选实现方式中提供的音频处理方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种音频处理方法，其特征在于，所述方法包括：

对音频数据进行短时傅里叶变换得到频域数据集，所述频域数据集中每个时间窗口对应一组频域数据，所述频域数据包括频率以及频率对应的振幅；

根据频域数据集中的振幅计算响度，得到第一频域响度集，所述第一频域响度集中每个时间窗口对应一组频域响度，所述频域响度包括频率以及频率对应的响度；

采用淡入淡出函数，对所述第一频域响度集中每个时间窗口的所述频域响度执行首尾加窗处理，得到第二频域响度集。
根据权利要求1所述的方法，其特征在于，所述采用淡入淡出函数，对所述第一频域响度集中每个时间窗口的所述频域响度执行首尾加窗处理，得到第二频域响度集，包括：

采用淡入函数，对所述第一频域响度集中每个时间窗口的所述频域响度的首部执行加窗处理，所述首部为频率低于第一频率阈值的部分；

采用淡出函数，对所述第一频域响度集中每个时间窗口的所述频域响度的尾部执行加窗处理，所述尾部为频率高于第二频率阈值的部分。
根据权利要求2所述的方法，其特征在于，所述淡入函数为正弦函数的0至π/2部分；

所述淡出函数为余弦函数的0至π/2部分。
根据权利要求1至3任一所述的方法，其特征在于，所述采用淡入淡出函数，对所述第一频域响度集中每个时间窗口的所述频域响度执行首尾加窗处理，得到第二频域响度集之前，还包括：

在所述频域响度的分布情况满足集中分布条件的情况下，降低所述频域响度中低于平均响度的响度值。
根据权利要求4所述的方法，其特征在于，所述在所述频域响度的分布情况满足集中分布条件的情况下，降低所述频域响度中低于平均响度的响度取值，包括：

基于所述频域响度计算平均响度、响度期望和响度方差；

在所述响度方差小于第一阈值，且所述响度期望与所述平均响度之差小于第二阈值的情况下，降低所述频域响度中响度低于所述平均响度的取值。
根据权利要求1至3任一所述的方法，其特征在于，所述第二频域响度集中每个时间窗口对应一组频域响度；

所述采用淡入淡出函数，对所述第一频域响度集中每个时间窗口的所述频域响度执行首尾加窗处理，得到第二频域响度集之后，还包括：

对所述第二频域响度集中每个时间窗口的所述频域响度执行窗口内数据平滑。
根据权利要求1至3任一所述的方法，其特征在于，所述第二频域响度集中每个时间窗口对应一组频域响度；

所述采用淡入淡出函数，对所述第一频域响度集中每个时间窗口的所述频域响度执行首尾加窗处理，得到第二频域响度集之后，还包括：

对所述第二频域响度集中每个时间窗口的所述频域响度执行窗口间数据平滑。
根据权利要求7所述的方法，其特征在于，所述对所述第二频域响度集中每个时间窗口的所述频域响度执行窗口间数据平滑，包括：

采用滑动平滑加权滤波算法，基于第i-1个时间窗口、第i个时间窗口、第i+1个时间窗口的所述频域响度，平滑所述第i个时间窗口的所述频域响度，i为大于正整数。
根据权利要求8所述的方法，其特征在于，所述根据频域数据集中的振幅计算响度，得到第一频域响度集之后，还包括：

对所述第一频域响度集进行A加权滤波处理和梅尔标度转化。
根据权利要求1至3任一所述的方法，其特征在于，所述方法还包括：

基于所述第二频域响度集生成所述音频数据的播放显示效果，所述播放显示效果包括所述音频数据的频谱图、背景图播放效果、歌词播放效果、音乐喷泉效果、灯光效果中的至少一种。
一种音频处理装置，其特征在于，所述装置包括：

处理模块，用于对音频数据进行短时傅里叶变换得到频域数据集，所述频域数据集中每个时间窗口对应一组频域数据，所述频域数据包括频率以及频率对应的振幅；

响度模块，用于根据频域数据集中的振幅计算响度，得到第一频域响度集，所述第一频域响度集中每个时间窗口对应一组频域响度，所述频域响度包括频率以及频率对应的响度；

加窗模块，用于采用淡入淡出函数，对所述第一频域响度集中每个时间窗口的所述频域响度执行首尾加窗处理，得到第二频域响度集。
一种计算机设备，其特征在于，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行，以实现如权利要求1至10任一项所述的音频处理方法。
一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行，以实现如权利要求1至10任一项所述的音频处理方法。