WO2022179264A1

WO2022179264A1 - 一种音频生成方法及设备

Info

Publication number: WO2022179264A1
Application number: PCT/CN2021/138568
Authority: WO
Inventors: 闫震海
Original assignee: 腾讯音乐娱乐科技（深圳）有限公司
Priority date: 2021-02-27
Filing date: 2021-12-15
Publication date: 2022-09-01
Also published as: US20230402054A1; CN112863481B; CN112863481A

Abstract

一种音频生成方法及设备，其中方法包括：接收用户输入的音频生成指令(S101)，音频生成指令用于指示用户想要在生成的目标音频中嵌入的二维图像；响应于音频生成指令，获取二维图像的目标灰度图像(S102)(S501)(S901)；将目标灰度图像中各个像素点的灰度数据转换为语谱图中各个像素点的频域数据，得到目标语谱图(S103)；利用目标语谱图生成目标语谱图对应的目标音频(S104)(S504)(S903)。可以实现在音频中嵌入图像信息的目的，使得图像具备发声功能，同时音频中又可以包含了图像信息，大大地提升了音频与图像的关联性。

Description

一种音频生成方法及设备

技术领域

本申请涉及音频处理技术领域，尤其涉及一种音频生成方法及设备。

背景技术

目前存在一些将图片和音频关联的场景，例如，直接将图片作为音频文件的封面，然后将图片和音频存储为新的文件格式，以便于用户在播放音频时，可以直接展示该图片。该方式下，图片仅仅作为音频的封面图片，图片与音频之间的相关性比较低，实用性较差。

发明内容

本申请实施例提供了一种基于图像处理音频生成方法及设备，能够实现在音频中嵌入图像信息的目的，使得图像具备发声功能，同时音频中又可以包含了图像信息，大大地提升了音频与图像的关联性。

一方面，本申请实施公开了一种音频生成方法，该方法包括：

接收用户输入的音频生成指令，所述音频生成指令用于指示用户想要在生成的目标音频中嵌入的二维图像；

响应于所述音频生成指令，获取所述二维图像的目标灰度图像；

将所述目标灰度图像中各个像素点的灰度数据转换为语谱图中各个像素点的频域数据，得到目标语谱图；

利用所述目标语谱图生成所述目标语谱图对应的目标音频。

另一方面，本申请实施例提供了一种音频生成设备，该设备包括:

处理器和存储器，所述处理器和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，并执行如下步骤：

利用所述目标语谱图生成所述目标语谱图对应的目标音频。

再一方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如下步骤：

利用所述目标语谱图生成所述目标语谱图对应的目标音频。

本申请实施例在接收到音频生成指令时，能够通过响应于该音频生成指令，获取用户想要在生成的目标音频中嵌入的二维图像的目标灰度图像，并将该目标灰度图像中各个像素点的灰度数据转换为语谱图中各个像素点的频域数据，得到目标语谱图，也就是将二维图像与目标音频的目标语谱图关联起来，然后利用目标语谱图生成目标语谱图对应的目标音频，从而实现根据二维图像生成目标音频。由此可见，本申请实施例能够实现在音频中嵌入图像信息的目的，使得图像具备发声功能，同时音频中又可以包含了图像信息，大大地提升了音频与图像的关联性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种音频生成方法的流程示意图；

图2是本申请实施例提供的一种获取目标灰度图像的流程示意图；

图3是本申请实施例提供的一种图像处理过程的效果示意图；

图4是本申请实施例提供的一种目标语谱图合成音频的流程示意图；

图5是本申请实施例提供的另一种音频生成方法的流程示意图；

图6是本申请实施例提供的一种原始语谱图获取方法的流程示意图；

图7a是本申请实施例提供的一种目标语谱图的效果示意图；

图7b是本申请实施例提供的另一种目标语谱图的效果示意图；

图8a是本申请实施例提供的一种目标语谱图实例图；

图8b是本申请实施例提供的另一种目标语谱图实例图；

图9是本申请实施例提供的再一种音频生成方法的流程示意图；

图10是本申请实施例提供的一种音频生成装置的结构示意图；

图11是本申请实施例提供的一种音频生成设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

本申请实施例能够实现在音频中嵌入图像信息，比如根据图像信息改造或者构造语谱图，从而得到带有图像信息的音频，提升了图像和音频之间的相关性，用户能直观感受到含有图像信息的音频。

在本申请中，语谱图可以是指一种语音频谱图。语谱图的横坐标可以为时间，纵坐标可以为频率，每个坐标点值可表示语音数据能量值的大小，语谱图中每个时间点对应的一列数据表示某一帧音频信号对应的频域数据。其中，语音数据能量值的大小通常用颜色深浅表示，颜色越深可表示能量值越大，或者还可通过其余方式表示，本申请不做限定。

本申请涉及的音频生成方案能够用于音频生成设备中，比如可具体应用于音频生成设备安装的各类音频软件中，包括但不限于音乐播放软件、音频编辑软件、音频转换软件等等。该音频生成设备可以为终端，或者可以为服务器，或者可以为其余设备，本申请不做限定。可选的，此处的终端可以包括但不限于：智能手机、平板电脑、膝上计算机以及台式电脑等等。

基于上述描述，本申请实施例提出的音频生成方法、装置、设备及介质，可以通过利用图像信息改造或构造语谱图的形式获取带有图像信息的音频。从而实现在音频中嵌入图像信息的目的，使得图像具备发声功能，同时音频中又可以包含了图像信息，大大地提升了音频与图像的关联性。以下分别详细说明。

请参见图1，图1为本申请实施例提供的一种音频生成方法的流程示意图。图1所示流程可以包括以下步骤S101-S104。

S101、接收用户输入的音频生成指令。

其中，该音频生成指令可用于指示用户想要在生成的目标音频中嵌入的二维图像。该二维图像可以现有的存储为图片格式的图像，也可以是在临时创作区域创作的内容，还可以是多个用于采集用户动作变化的二维图像。若用户想要在生成的目标音频中嵌入的内容为文字、表格等非图片格式的文件，则可将该非图片格式的文件转换为图片格式，进而将转换为图片格式后的图像嵌入目标音频。该图片格式可以是静态图像文件格式，如jpg、png、bmp、jpeg等，此处不做限定。例如，获取需要嵌入目标音频的文件，判断文件的后缀名，如果不为图片格式，如vsd、xls、doc等文件格式，就将其转化为图片格式。

S102、响应于所述音频生成指令，获取所述二维图像的目标灰度图像。

其中，该目标灰度图像可以是通过获取二维图像并对该二维图像进行处理得到，也可以是从存储器直接获取进行处理后的灰度图像作为目标灰度图像，本申请不做限定。可选的，该目标灰度图像也可被称为目标灰度图、目标灰度信息、目标灰度矩阵等，该目标灰度图像可以为灰度数据矩阵、带有像素值的方框图等等，该目标灰度图像中每个位置的值可以被称为灰度值、像素值等，此处不做限制。

在可能的实现方式中，通过获取二维图像并对该二维图像进行处理可以包括：获取二维图像的原始灰度图像、对原始灰度图像进行等比缩放处理、对原始灰度图像进行直方图均衡化处理、对原始灰度图像进行归一化处理等操作。例如，如图2所示，获取二维图像的目标灰度图像可以包括以下步骤S201-S202。

S201、获取所述二维图像的原始灰度图像，对所述原始灰度图像做等比缩放处理，得到等比缩放处理后的灰度图像。

其中，该二维图像的原始灰度图像可以为图像处理领域的灰度图概念，图像中每个像素的灰度级数为256阶，255代表全白，0表示全黑。例如，某二维图像灰度化处理后的原始灰度图像为(0,100,123；215,124,165；255,65,98)。为方便理解，此处将该二维图像的原始灰度图像记为GrayP1，图片的高为H1。

在一种可能的实施方式中，该等比缩放处理可以是根据缩放因子进行等比缩放处理。等比缩放处理旨在调整二维图像的原始灰度图像GrayP1的高H1，得到等比缩放处理后的灰度图像，为方便理解将等比缩放处理后的灰度图像记为GrayP2，GrayP2的高记为H2。需要说明的是，等比缩放处理后的灰度图像的高H2为预设值，可以根据等比缩放处理后的灰度图像的高H2与二维图像的原始灰度图像的高H1计算得到等比缩放因子scale，如scale＝H2/H1。确定出对应的等比缩放因子后，可以使用该等比缩放因子将原始灰度图像等比例调节到合适尺寸，以便于通过最终生成的目标灰度图像改造或构造原始音频从而得到目标音频。可选的，等比缩放处理后的灰度图像GrayP2的高H2可以为2^N+1，N为预设的正整数。该等比缩放处理后的灰度图像的高H2可以根据用户需要生成的目标音频对应的目标语谱图的高确定，或者可以根据原始语谱图的频域数据定出，或者可以根据设备屏幕大小和/或分辨率确定出，或者可以通过其他方式确定出，本申请不做限定。

S202、对所述等比缩放处理后的灰度图像做归一化处理，得到所述二维图像的目标灰度图像。

对该等比缩放处理后的灰度图像做归一化处理，可以遍历该等比缩放处理后的灰度图像GrayP2的所有值，找到GrayP2的最大值max(GrayP2)，并对所有数据做归一化处理，得到二维图像的目标灰度图像，为方便理解，将该目标灰度图像记为GrayP3，Gray P3为灰度数据矩阵，即：

GrayP3＝GrayP2/max(GrayP2)。

例如，若GrayP2为(20,30,40；50,60,70；80,90,100)，经过归一化之后，目标灰度图像GrayP3为(0.2,0.3,0.4；0.5；0.6,0.7；0.8,0.9,1)。经过步骤S201-S202，得到二维图像的目标灰度图像的灰度数据矩阵GrayP3，其中，GrayP3所有数据介于0-1之间。如图3所示，图3展现一种图像处理过程的效果展示图，一张彩色图片经过灰度化转换得到二维图像的原始灰度图像，然后经过缩放处理得到等比缩放处理后的灰度图像，再经过归一化处理得到二维图像的目标灰度图像。

在可能的实现方式中，还可对等比缩放处理后的灰度图像GrayP2做直方图均衡化处理，以增强GrayP2中不同位置数据的对比度，提高图片质量。在具体实施例中，可直接调用函数进行处理，如MATLAB中的histeq函数，opencv中的equalizeHist函数等。进而可对直方图均衡化处理的灰度图像进行归一化处理，得到二维图像的目标灰度图像。

需要说明的是，若二维图像符合上述步骤S201-S202的处理结果标准，则无需对该二维图像进行上述步骤S201-S202的操作，直接将该二维图像作为目标灰度图像。

在一种实施方式中，该二维图像可以包括多个用于采集用户动作变化的二维图像，该用户动作变化可以是指用户的手势变化、脸部表情变化等等，此处不做限制。该二维图像的目标灰度图像的获取可以包括以下步骤：分别计算该多个二维图像中采集时间相邻的二维图像之间的灰度差值，得到多个灰度差值；将该多个灰度差值按照灰度差值对应的采集时间进行排列，得到目标灰度图像。该多个二维图像的采集来源可以是实时拍摄的视频，也可以是存储于音频生成设备如终端或其余存储设备的视频，还可以是连续拍摄的多张图像等，此处不做限制。该灰度差值可以是根据该采集时间相邻的二维图像对应的目标灰度图像的差值。例如，一段视频中存在多个二维图像，在t1、t2、t3时间点分别采集一张二维图像，从而得到三张二维图像P1、P2、P3，根据步骤S201-S202，得到该三张二维图像的目标灰度图像，计算P1与P2间的灰度差值，以及P2与P3间的灰度差值，将这两个灰度差值按照采集时间进行排列，比如将P1与P2间的灰度差值排在P2与P3间的灰度差值之前，也就是靠左的位置，从而得到该多个用于采集用户动作变化的二维图像对应的目标灰度图像。

S103、将所述目标灰度图像中各个像素点的灰度数据转换为语谱图中各个像素点的频域数据，得到目标语谱图。

本申请实施例获取目标语谱图主要分为两种方式，在一种实施方式中，基于该二维图像的目标灰度图像对原始音频的原始语谱图进行改造以得到目标语谱图，比如可将目标灰度图像如灰度数据矩阵GrayP3作为加权因子对原始音频的原始语谱图加权处理，得到目标语谱图；再一种实施方式中，基于该二维图像的目标灰度图像构建(构造)音频的目标语谱图，以便于直接利用该目标灰度图像得到目标音频，比如可将灰度数据矩阵GrayP3直接作为频域数据，得到目标语谱图。以便于实现改造或构造音频的语谱图以获取带有图像信息的音频，使图像和音频能够紧密联系，大大地提升了音频与图像的关联性。

S104、利用所述目标语谱图生成所述目标语谱图对应的目标音频。

其中，目标音频是指生成的嵌入了图像信息如上述的二维图像的信息的音频。可选的，利用目标语谱图生成目标语谱图对应的目标音频可以包括一下步骤：获取目标语谱图的每一帧频域数据对应的时域信号；根据每一帧频域数据对应的时域信号，得到目标音频。例如，可以将目标语谱图的每一帧频域数据进行上下翻转处理，对翻转处理后的频域数据的复数取共轭；对取共轭后的每一帧频域数据进行逆傅里叶变换，得到每一帧频域数据对应的时域信号，并将各帧时域信号合成为目标音频。

在可能的实现方式中，由于目标语谱图的频域数据具有共轭对成性，在将目标语谱图的频域数据合成时域信号时，若语谱图每一帧频域数据有2^N+1个数据，只需要对频域数据的第2到第2^N/2个数据进行上下翻转处理，对翻转处理后的频域数据的复数取共轭，该N为正整数。例如，目标语谱图的每一帧频域数据有1025个数据，则只需要对第2到第512个数据进行上下翻转处理，对翻转处理后的频域数据的复数取共轭。进而可对取共轭后的每一帧频域数据进行逆傅里叶变换，得到每一帧频域数据对应的时域信号，则目标语谱图的每一帧频域数据均被转换为时域信号。

在得到目标语谱图的每一帧频域数据对应的时域信号之后，可以将每一帧时域信号根据一定混叠率进行混叠拼接，得到完整的音频信号。为了便于与其他音频区分，可以将该音频信号所表示的音频称为目标音频。该目标音频嵌入了图像信息，用户能够直观的感受到图像信息对原始音频带来的改变或图像信息直接构成的独特声音。步骤S104的过程如图4所示，目标语谱图由多帧频域数据组成，每一帧频域数据转化成对应的时域信号，多帧时域信号混叠拼接成音频信号。

在可能的实现方式中，在得到目标音频之后，接收用户输入的音频播放指令；响应于该音频播放指令，播放所述目标音频并按照目标音频的播放进度展示与该播放进度对应面积的目标语谱图。由此可以实现在播放目标音频时，随着音频的播放进度关联地一点点展示出所嵌入的图像。例如，可以在接收到针对该目标音频的播放指令时，播放该目标音频，当播放到时间点t1时，展示0-t1之间对应面积的目标语谱图，当播放到时间点t2时，展示0-t2之间对应面积的目标语谱图，当播放完毕时，展示完整的目标语谱图。可选的，还可以在接收到针对该目标音频的分享指令时，将该目标音频分享给目标对象，该目标对象可以是联系人，也可以是应用软件中的功能模块，此处不做限制。

通过图1所示方法，可获得带有图像信息的目标音频，目标音频在播放时，可以随着音乐的播放逐渐展示出目标音频的目标语谱图，从而使用户能直观地看到嵌入的图像信息，所得到的目标音频还可以分享给其他用户。

例如，在某音乐播放软件中，用户从终端导入一张图片a和一段音频b，经过本实施例的处理，则可得到嵌入了图像a的音频c，音频c在播放时，会随着音乐的播放逐渐展示出音频的语谱图，从而使用户能直观地看到嵌入的图像信息。

又如，在某音乐播放软件中，用户使用终端的摄像头拍摄带有动态变化的视频，经过该实施例的处理，从动态变化的视频中截取多个表示用户动作变化的二维图像，对该二维图像处理后得到音频d，音频d呈现出动态变化带来的声音效果。

本申请实施例从整体上对技术方案进行介绍，本申请根据图像信息获取音频的方式可分为两种，主要区别在于目标语谱图的获取方式的不同，一种是通过目标灰度图像改造语谱图的方式得到音频；另一种是通过目标灰度图像构造语谱图的方式得到音频。从而可通过对语谱图的改造或构造得到目标音频，音频中嵌入有图像信息，图像信息与音频紧密结合，使得图像具备发声功能，同时声音中有包含了图像信息，所谓声音中有包含了图像信息，即音频的语谱图中含有图像信息。通过本申请实施例，能够实现在音频中嵌入图像信息的目的，使得图像具备发声功能，同时音频中又可以包含了图像信息，大大地提升了音频与图像的关联性，且操作过程具有较强的灵活性、趣味性。

请参见图5，是本申请实施例提供的另一种音频生成方法的流程示意图。如图5所示，该音频生成方法为基于该二维图像的目标灰度图像对音频的语谱图进行改造以得到目标语谱图，进而得到目标音频，包括以下步骤S501-S504。

S501、接收用户输入的音频生成指令，响应于所述音频生成指令，获取所述二维图像的目标灰度图像。

此步骤参照步骤S101-S102的相关描述，这里不再赘述。

在本申请实施例中，可以基于该二维图像的目标灰度图像对原始音频的语谱图进行改造以得到目标语谱图，则可以在对二维图像的原始灰度图像做等比缩放处理时，将该原始灰度图像的高等比缩放至与原始语谱图的高相同。

S502、接收用户输入的音频选择指令，并响应于所述音频选择指令，获取所述原始音频对应的原始语谱图。

其中，该音频选择指令用于指示生成目标音频所需的原始音频。可选的，该原始音频可以是本地存储的音频文件，也可以是临时下载的其他存储设备上的音频文件，该音频文件的内容可以是音乐、谈话内容、噪音等，本申请不做限定。

在具体实施过程中，根据原始音频得到原始语谱图的过程可以如图6所示。例如，可以对原始音频的时域信号做分帧处理，得到多帧时域信号；其中，帧长为每一帧的时间长度，帧移为相邻两帧重叠的时间长度，如，第k帧时域信号的起始时间为t，结束时间为t+E，第k+1帧时域信号起始时间为t+L，结束时间为t+E+L，则帧长为E，帧移为L；将每一帧时域信号做加窗处理，窗函数的长度应与帧长的长度一致，窗函数可以采用汉宁窗、矩形窗、三角窗、海明窗、高斯窗等；对该多帧加窗后的时域信号的每一帧做快速傅里叶变换(FFT)，得到多帧频域数据；将每一帧频域数据按照列向量的形式排布，得到原始语谱图。例如，排布时将所有频域数据按照频率由下往上逐渐增大，将所有频域数据按照时间顺序横向摆放，得到原始语谱图，原始语谱图横轴为时间，纵轴为频率，坐标点的值为能量值，能量值的大小用颜色深浅表示。

可选的，在对每一帧加窗后的时域信号做快速傅里叶变换(FFT)，得到多帧频域数据时，若每一帧加窗后的时域信号为2^K个数值，能够减少傅里叶变换的时间复杂度，从而能提升傅里叶变换的运算效率。相应的，针对每一帧时域信号对应的频域数据具有(2^K/2)+1个数值，其中，K为正整数。或者可以表示为，如果每一帧时域信号为2^(N+1)个数值，则得到的每一帧对应的频域数据具有2^N+1个数值。其中，N为大于或等于0的整数。

S503、利用所述目标灰度图像中各个像素点的灰度数据对所述原始语谱图中各个像素点的频域数据进行处理，得到目标语谱图。

其中，该目标灰度图像中各个像素点的灰度数据可以通过灰度数据矩阵进行表示，该灰度数据矩阵中，每个数值代表目标灰度图像中对应位置的像素点的值。

在可能的实施方式中，利用目标灰度图像中各个像素点的灰度数据对原始语谱图中各个像素点的频域数据进行处理，得到目标语谱图，可以包括以下操作：对灰度数据矩阵进行上下翻转处理；将翻转处理后的灰度数据矩阵作为加权因子，对原始语谱图中各个像素点的频域数据进行加权，得到目标语谱图。

其中，在具体实施过程中，上下翻转处理可表示将灰度数据矩阵按照Y轴方向上下翻转。例如，灰度数据矩阵为(0.1,0.2,0.3；0.4,0.5,0.6；0.7,0.8,0.9)，上下翻转处理后的灰度数据矩阵为(0.7,0.8,0.9；0.4,0.5,0.6；0.1,0.2,0.3)。

可选的，通过加权因子对原始语谱图中各个像素点的频域数据进行加权可以对频域数据的所有数据做加权，但该原始语谱图的频域数据具有共轭对称性，若频域数据有2^N+1个数据，只需要对频域数据的第2到第2^N/2+1个数据做加权处理，则可实现对频域数据的所有数据做加权的目的，得到的目标语谱图效果如图7a所示，虚线框包围的部分为嵌入的二维图像，虚线外为原始语谱图的频域数据，该原始语谱图的横轴为时间，纵轴为频率，颜色的深浅代表对应坐标点能量值的大小。可以看到，嵌入的二维图像的高与原始语谱图的高相等，这是由于步骤S501将原始灰度图像的高缩放至与原始语谱图的高相等。

可选的，该翻转处理后的灰度数据矩阵可进行降采样，缩小灰度数据矩阵的大小，将降采样后的灰度数据矩阵作为加权因子，对原始语谱图的部分频域数据做加权，得到目标语谱图，从而可将二维图像嵌入到原始语谱图的局部位置。例如，频域数据有2^N+1个数据，灰度数据矩阵的高有2^N+1个像素，对灰度数据矩阵进行降采样，降采样因子为1/2，则灰度数据矩阵的高变为2^N/2+1，可对频域数据的第M到第M+2^N/2+1个数据做加权，得到的目标语谱图只有频域数据的第M到第M+2^N/2+1个数据含有图像信息，M、N为正整数。经此步骤得到的目标语谱图效果可以如图7b所示，虚线框住的部分为嵌入图像，虚线外为原始的原始语谱图的频域数据，该原始语谱图的横轴为时间，纵轴为频率，颜色的深浅代表对应坐标点能量值的大小。可以看到，嵌入的二维图像的高与原始语谱图的高不相等，嵌入图像只存在于原始语谱图的局部位置。若将加权因子缩放至更小，那么对原始语谱图加权之后，嵌入信息对原始音频的影响将非常小，所合成的目标音频与原始音频大致上无异，可隐秘地将图像信息嵌入目标音频中。

S504、利用所述目标语谱图生成所述目标语谱图对应的目标音频。

本步骤的描述可参照步骤S104，其中，将每一帧时域信号合成音频时，混叠率可以根据步骤S502分帧处理的帧移与帧长确定出，比如可以为分帧处理时帧移与帧长的比值，以便于将未做加权处理部分的原始语谱图合成音频。如，分帧处理时的帧长为2W，帧移为W，则混叠率应取值W/2W，即50％。将每一帧时域信号混叠拼接在一起得到完整的音频信号，即为目标音频。

本申请实施例在获取目标语谱图时，将灰度数据矩阵作为加权因子对原始语谱图的频域数据加权处理，得到目标语谱图，对目标语谱图的每一帧频域数据做傅里叶变换得到时域信号，再将时域信号混叠拼接，最终得到目标音频，即通过改造原始语谱图的方式得到音频。由此可见，通过对原始语谱图的改造得到目标音频能够在音频中嵌入图像，使得图像具备发声功能，同时音频中又可以包含了图像信息，大大地提升了音频与图像的关联性。

下面以将本申请实施例所提出方法应用于某音乐播放软件中创作图像并改造原始语谱图得到新的音频为例，对该实施阐述的方法进行说明。此处的音乐播放软件包括但不限于手机端、电脑端等等。在某音乐播放软件中，提供一个临时创作区域，用户在该临时创作区创作内容，并将该创作内容保存为图片格式，同时，用户选择想要改造的音频文件。对创作的图像进行步骤S501的处理，得到目标灰度图像，其中将目标灰度图像的高缩放至为2^10+1像素，此数据设定是为了与原始语谱图的高相对照；同时依照步骤S502获取音频文件的原始语谱图，对原始音频做分帧处理时，帧长为30ms，帧移为15ms做加窗处理时，窗函数的长度为与帧长长度30ms相同的汉宁窗；对灰度数据矩阵和原始语谱图进行如步骤S503操作，原始语谱图每一帧频域数据有1025个数据，可只对原始语谱图每一帧频域数据的第2到第513个数据做加权处理，则可对整个频域数据做加权，得到目标语谱图；将目标语谱图的每一帧频域数据的第2到第512个数据进行上下翻转处理，对翻转处理后的频域数据的复数取共轭；对取共轭后的每一帧频域数据进行逆傅里叶变换，得到每一帧频域数据对应的时域信号；然后按照混叠率将每一帧时域信号合成目标音频，该混叠率为帧移与帧长的比值15ms/30ms，即50％。最终生成的目标音频文件包含在创作区域所创作的内容，目标音频的目标语谱图的高与嵌入的二维图像的目标灰度图像的高是一致的，用音频软件查看所获得的目标音频的目标语谱图，实例效果图如图8a、8b所示，能够看到在目标语谱图中，二维图像是目标语谱图的一部分，但从频率轴来看，二维图像的高与目标语谱图的高相同，目标语谱图能量值的大小与二维图像的目标灰度图像的各个像素点的灰度数据对应。生成的目标音频还能够分享给其他用户，与朋友共享嵌入图像后的音频效果。

又如，在某音乐播放软件中，用户选择想要嵌入音频的图像，同时，选择想要改造的原始音频文件。对该图像进行步骤S501的处理，得到目标灰度图像，其中将目标灰度图像的高缩放至为2^10+1像素；同时依照步骤S503获取原始音频文件的原始语谱图，对原始音频做分帧处理时，帧长为40ms，帧移为20ms，做加窗处理时，窗函数的长度为与帧长的长度40ms相同的汉宁窗；对灰度数据矩阵和原始语谱图进行如步骤S504操作，若原灰度数据矩阵大小为1025*1025，降采样后，灰度数据矩阵变为513*513，原始语谱图每一帧频域数据有1025个数据，对语谱图的部分频域数据做加权，例如，降采样后灰度数据矩阵的大小为513*513，则可对频域数据的第100到第612个数据做加权，得到目标语谱图，得到的目标语谱图只有频域数据的第100到第612个数据含有图像信息，该第100到第612个数据可为其他连续的频域数据，如第200到第712个数据，第313到第825个数据等。按照步骤S505-S506对目标语谱图进行处理，其中，由于实数信号具有共轭对称性，将目标语谱图的每一帧频域数据的第2到第512个数据进行上下翻转处理，对翻转处理后的频域数据的复数取共轭；对取共轭后的每一帧频域数据进行逆傅里叶变换，得到每一帧频域数据对应的时域信号；然后按照混叠率将每一帧时域信号合成目标音频，该混叠率为帧移与帧长的比值20ms/40ms，即50％。最终生成目标音频文件包含了导入的图像的信息，目标音频的目标语谱图的高与嵌入的图像的高不一致，用音频软件查看所获得的目标音频的目标语谱图，能够看到在目标语谱图中，该图像是目标语谱图的一部分，且与从频率轴来看，图像的高也只占目标语谱图的高的一部分，目标语谱图能量值的大小与图像的各个像素点的灰度数据对应。生成的目标音频还能够分享给其他用户，与朋友共享嵌入图像后的音频效果。

又如，通过本申请实施例的方法，可以获取多个二维图像(如一个视频中的多个二维图像，或者实时采集的多个手势图像等等)作为需要嵌入原始音频的二维图像。具体可分别计算该多个二维图像中采集时间相邻的二维图像之间的灰度差值，得到多个灰度差值；将多个灰度差值按照灰度差值对应的采集时间进行排列，得到目标灰度图像；进而利用目标灰度图像中各个像素点的灰度数据对原始音频对应的原始语谱图中各个像素点的频域数据进行处理，得到目标语谱图。例如，以获取到三个二维图像为例，根据步骤S102的操作得到该三个二维图像对应的目标灰度图像M1、M2、M3，间隔相邻时间采集的两个二维图像的目标灰度图像做差，从而得到两个灰度差值：M2-M1、M3-M2，将这两个灰度差值按时间顺序进行排列，从而得到该多张二维图像对应的目标灰度图像。再根据步骤S502获取一个原始音频的原始语谱图，根据步骤S503的操作将该目标灰度图像作为加权因子对原始语谱图的频域数据进行加权，从而得到目标语谱图，再根据目标语谱图得到目标音频。根据这样的方法能够通过多个二维图像改造原始音频，使得原始音频中具有该视频中图像进行变化信息。

请参见图9，是本申请实施例提供的另一种音频生成方法的流程示意图。如图9所示，该音频生成方法通过基于该二维图像的目标灰度图像构建(构造)音频的目标语谱图，进而得到目标音频，包括以下步骤S901-S903。

S901、接收用户输入的音频生成指令，响应于所述音频生成指令，获取所述二维图像的目标灰度图像。

该步骤描述可参照上述步骤S101-S102相关描述，此处不赘述。

S902、对所述灰度数据矩阵进行上下翻转处理，将翻转处理后的灰度数据矩阵作为语谱图中各个像素点的频域数据，得到目标语谱图。

其中，对灰度数据矩阵进行上下翻转处理可表示将灰度数据矩阵按照Y轴方向上下翻转。例如，灰度数据矩阵为(0.1,0.2,0.3；0.4,0.5,0.6；0.7,0.8,0.9),上下翻转处理后的灰度数据矩阵为(0.7,0.8,0.9；0.4,0.5,0.6；0.1,0.2,0.3)。

在一种实施方式中，将翻转处理后的灰度数据矩阵作为目标语谱图中各个像素点的频域数据，换句话说，就是将灰度数据矩阵的数据作为目标语谱图的对应位置的像素点数据，也就是目标语谱图中的每个像素点对应的能量值，该能量值可以通过目标语谱图中的颜色来表示，如，通过颜色深浅来表示不同能量值的大小，或通过不同色相表示的不同能量值的大小，此处不做限制。可选的，在将灰度数据矩阵作为频域数据时，可以是灰度数据矩阵的数值越大，对应目标语谱图的能量值越大。例如，预设在获得的目标语谱图中，能量值越大颜色越深，若存在灰度数据矩阵GrayP3为(0.7,0.8,0.9；0.4,0.5,0.6；0.1,0.2,0.3)，那么将0.9作为语谱图对应位置的频域数据后，对应的能量值大于灰度值为比0.9小的数据转化为频域数据的能量值，从而使得到的目标语谱图中，0.9对应位置的颜色比其他数据对应位置的颜色更深，则通过这种颜色深浅关系可以在目标语谱图中表现出嵌入的二维图像。或者，在将灰度数据矩阵作为频域数据时，也可以是灰度数据矩阵数值越小，对应目标语谱图的能量越大。例如，预设在获得的目标语谱图中，能量值越大颜色越深，若存在灰度数据矩阵GrayP3为(0.7,0.8,0.9；0.4,0.5,0.6；0.1,0.2,0.3)，根据公式1-GrayP3，可以得到(0.3,0.2,0.1；0.6,0.5,0.4；0.9,0.8,0.7)，所以那么将0.9作为语谱图对应位置的频域数据后，对应的能量值小于比0.9小的数据转化为频域数据的能量值，从而使得得到的目标语谱图中，0.9对应位置的颜色比其他数据对应位置的颜色更浅，从而通过这种颜色深浅关系可以在目标语谱图中表现出嵌入的二维图像。

可选的，可以利用比例因子调整灰度数据矩阵的数值大小，从而调整所得到的目标语谱图的能量大小，如，进行翻转处理后的灰度数据矩阵GrayP3为(0.7,0.8,0.9；0.4,0.5,0.6；0.1,0.2,0.3)，比例因子取值为1.1，则灰度数据矩阵变为(0.77,0.88,0.99；0.44,0.55,0.66；0.11,0.22,0.33)。

S903、利用所述目标语谱图生成所述目标语谱图对应的目标音频。

本步骤的描述可参照步骤S104，其中由于本实施例目标语谱图的获取方式为直接将灰度数据矩阵作为目标语谱图的频域数据，而不是将灰度数据矩阵对原始语谱图进行加权处理，则根据混叠率混叠拼接每一帧时域信号时，只需要在0-100％(不含100％)中选取混叠率进行混叠，得到完整的音频信号即可，该音频信号即为目标音频。

本申请实施例在获取目标语谱图时，用目标灰度图像的灰度数据矩阵作为频域数据，得到目标语谱图，对目标语谱图的每一帧频域数据做傅里叶变换得到时域信号，再将时域信号混叠拼接，最终得到目标音频文件，即通过构造目标语谱图的方式得到目标音频。若嵌入的二维图像为多个用于采集用户动作变化的二维图像，则可以获得该多个二维图像的特征变化带来的声音效果。由此可见，通过对语谱图的构造得到目标音频，从而实现在音频中嵌入图像信息的目的，使得图像具备发声功能，同时音频中又可以包含了图像信息，大大地提升了音频与图像的关联性。

下面以将本申请实施例所提出方法应用于音乐播放软件，且嵌入图像为视频流中不断变化的手势图像为例，对该实施方法进行说明。在音乐播放软件中，用户利用摄像头拍摄固定机位的画面，并在摄像头面前随意挥舞自己的手指，则该视频流中包含了多个手势图像，间隔100ms采集第一手势图像和第二手势图像，对第一手势图像和第二手势图像进行步骤S201处理过程，得到第一手势图像和第二手势图像对应的目标灰度图像，计算第一手势图像和第二手势图像的目标灰度图像的差值，根据该灰度差值确定该多个手势图像对应的目标灰度图像，如第一手势图像灰度数据矩阵为(0.1,0.2,0.3；0.4,0.5,0.6；0.7,0.8,0.9)，第二手势图像的灰度数据矩阵(0.11,0.23,0.34；0.48,0.56,0.64；0.78,0.89,0.92)，则灰度差值为(0.01,0.02,0.04；0.08,0.06,0.04；0.08,0.09,0.02)。将对灰度数据矩阵进行上下翻转处理；将翻转处理后的灰度数据矩阵作为目标语谱图的频域数据，得到目标语谱图，其中，选取灰度数据矩阵数值越大，对应目标语谱图的能量越大的映射关系，同时，采用大小为1.1的比例因子调整灰度数据矩阵数值大小，则得到的灰度数据矩阵为(0.011,0.022,0.044；0.088,0.066,0.044；0.088,0.099,0.022)。可见，通过调整灰度数据矩阵可以调整目标语谱图的能量值大小。将目标语谱图进行步骤S904的操作，并按照混叠率60％将每一帧时域信号拼接，得到目标音频。

可选的，可以在视频流中多次进行如上操作，则可在构成的目标音频中感受到多次手势变换的音频。例如，视频流中有多个手势图像，每个图像都为间隔100ms采集，经过步骤S201处理后得到灰度数据矩阵T1，T2，T3，T4，那么就会产生灰度差值T2-T1＝T12，T3-T2＝T23，T4-T3＝T34，将T12，T23，T34按照时间顺序排列，映射为目标语谱图，从而合成一段手势变换带来的连续的音频。根据以上方法，得到的音频体现了视频中动态图像的改变带来的声音效果，生成的音频还能够分享给其他用户，与朋友共享动态变换带来的奇特声音效果。

可以理解，上述方法实施例都是对本申请的音频生成方法的举例说明，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

基于上述音频生成方法实施例的描述，本发明实施例还公开了一种音频生成装置。可选的，所述音频生成装置可以是运行于音频生成设备如终端中的一个计算机程序(包括程序代码/程序指令)。例如，该音频生成装置可以执行图1、5、9的方法。请参见图10，所述音频生成装置可以运行如下模块：

获取模块1001，用于接收用户输入的音频生成指令，所述音频生成指令用于指示用户想要在生成的目标音频中嵌入的二维图像；

获取模块1001，还用于响应于所述音频生成指令，获取所述二维图像的目标灰度图像；

处理模块1002，用于将所述目标灰度图像中各个像素点的灰度数据转换为语谱图中各个像素点的频域数据，得到目标语谱图；

处理模块1002，还用于利用所述目标语谱图生成所述目标语谱图对应的目标音频。

在一种实施方式中，处理模块1002还用于接收用户输入的音频选择指令，所述音频选择指令用于指示生成目标音频所需的原始音频，并响应于所述音频选择指令，获取所述原始音频对应的原始语谱图；在将所述目标灰度图像中各个像素点的灰度数据转换为语谱图中各个像素点的频域数据，得到目标语谱图时，可具体用于：利用所述灰度图像中各个像素点的灰度数据对所述原始语谱图中各个像素点的频域数据进行处理，得到目标语谱图。

再一种实施方式中，所述各个像素点的灰度数据为灰度数据矩阵，处理模块1002在利用所述目标灰度图像中各个像素点的灰度数据对所述原始语谱图中各个像素点的频域数据进行处理，得到目标语谱图时，具体用于：对所述灰度数据矩阵进行上下翻转处理；将翻转处理后的灰度数据矩阵作为加权因子，对所述原始语谱图中各个像素点的频域数据进行加权，得到目标语谱图。

再一种实施方式中，所述各个像素点的灰度数据为灰度数据矩阵，处理模块1002在利用所述目标灰度图像中各个像素点的灰度数据对所述原始语谱图中各个像素点的频域数据进行处理，得到目标语谱图时，具体用于：对灰度数据矩阵进行上下翻转处理，对翻转处理后的灰度数据矩阵进行降采样处理；将降采样处理后的灰度数据矩阵作为加权因子，对原始语谱图的部分频域数据进行加权，得到目标语谱图。

再一种实施方式中，所述各个像素点的灰度数据为灰度数据矩阵，处理模块1002在将所述目标灰度图像中各个像素点的灰度数据转换为语谱图中各个像素点的频域数据，得到目标语谱图时，具体用于：对所述灰度数据矩阵进行上下翻转处理，将翻转处理后的灰度数据矩阵作为语谱图中各个像素点的频域数据，得到目标语谱图。

再一种实施方式中，处理模块1002在利用所述目标语谱图生成所述目标语谱图对应的目标音频时，具体用于：将所述目标语谱图的每一帧频域数据进行上下翻转处理，对翻转处理后的频域数据的复数取共轭；对取共轭后的每一帧频域数据进行逆傅里叶变换，得到每一帧频域数据对应的时域信号，并将各帧所述时域信号合成为目标音频。

再一种实施方式中，处理模块1002在用于获取所述二维图像的目标灰度图像时，具体用于：获取所述二维图像的原始灰度图像，对所述原始灰度图像做等比缩放处理，得到等比缩放处理后的灰度图像；对所述等比缩放处理后的灰度图像做归一化处理，得到所述二维图像的目标灰度图像。

再一种实施方式中，所述二维图像包括多个用于采集用户动作变化的二维图像；处理模块1002在获取所述二维图像的灰度图像时，具体用于：分别计算多个所述二维图像中采集时间相邻的二维图像之间的灰度差值，得到多个灰度差值；将多个所述灰度差值按照所述灰度差值对应的采集时间进行排列，得到所述目标灰度图像。

再一种实施方式中，处理模块1002还用于接收用户输入的音频播放指令；响应于所述音频播放指令，播放所述目标音频并按照所述目标音频的播放进度展示与所述播放进度对应面积的目标语谱图。

根据本发明的一个实施例，图1、5、9所示的方法所涉及的各个步骤均可以是由图10所示的音频生成装置中的各个模块来执行的。例如，图1中所示的步骤S101、S102可以由图10中所示的获取模块1001来执行，步骤S103和S104可由图10中所示的处理模块1002来执行。

根据本发明的另一个实施例，图10所示的音频生成装置中的各个模块可以分别或全部合并为一个或若干个另外的模块来构成，或者其中的某个(些)模块还可以再拆分为功能上更小的多个模块来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。上述模块是基于逻辑功能划分的，在实际应用中，一个模块的功能也可以由多个模块来实现，或者多个模块的功能由一个模块实现。在本发明的其它实施例中，基于音频生成装置也可以包括其它模块，在实际应用中，这些功能也可以由其它模块协助实现，并且可以由多个模块协作实现。

基于上述方法实施例以及装置实施例的描述，本发明实施例还提供一种音频生成设备。请参见图11，该设备至少包括处理器1101和存储器1102，处理器1101与存储器1102之间相互连接。可选的，该音频生成设备还可包括输入设备1103和/或输出设备1104。其中，处理器1101、输入设备1103、输出设备1104以及存储器1102可通过总线或其他方式连接。

存储器1102可用于存储计算机程序(或者可用于存储计算机(可读)存储介质，该计算机存储介质包括计算机程序)，所述计算机程序包括程序指令，所述处理器1101被配置用于调用所述程序指令。处理器1101(或称CPU(Central Processing Unit，中央处理器))是设备的计算核心以及控制核心，其被配置用于调用所述程序指令，具体适于加载并执行程序指令从而实现上述方法流程或相应功能。输入设备1103可包括键盘、触摸屏、射频接收器或其他输入设备中的一种或多种；输出设备1104可包括显示屏(显示器)，该输出设备1104还可包括扬声器、射频发送器或其他输出设备中的一种或多种。可选的，该设备还可包括内存模块、电源模块、应用客户端等等。

例如，在一个实施例中，本发明实施例所述的处理器1101可以用于进行一系列的音频生成处理，包括：接收用户输入的音频生成指令，所述音频生成指令用于指示用户想要在生成的目标音频中嵌入的二维图像；响应于所述音频生成指令，获取所述二维图像的灰度图像；将所述灰度图像中各个像素点的灰度数据转换为语谱图中各个像素点的频域数据，得到目标语谱图；利用所述目标语谱图生成所述目标语谱图对应的目标音频，等等，具体可参照上述实施例的描述，此处不赘述。

本发明实施例还提供了一种计算机(可读)存储介质，所述计算机存储介质可以是设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括设备中的内置存储介质，当然也可以包括设备所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了音频生成设备如终端的操作系统。并且，在该存储空间中还存放了适于被处理器1101加载并执行的程序指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器11(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器1101的计算机存储介质。

在一个实施例中，可由处理器1101加载并执行计算机存储介质中程序指令，以实现上述实施例中的方法的相应步骤；例如，具体实现中，计算机存储介质中程序指令由处理器1101加载并执行如下步骤：

利用所述目标语谱图生成所述目标语谱图对应的目标音频。

在一种实施方式中，所述程序指令还可由处理器1101加载并执行：接收用户输入的音频选择指令，所述音频选择指令用于指示生成目标音频所需的原始音频，并响应于所述音频选择指令，获取所述原始音频对应的原始语谱图；在将所述目标灰度图像中各个像素点的灰度数据转换为语谱图中各个像素点的频域数据，得到目标语谱图时，所述程序指令还可由处理器1101加载并具体执行：利用所述目标灰度图像中各个像素点的灰度数据对所述原始语谱图中各个像素点的频域数据进行处理，得到目标语谱图。

再一种实施方式中，所述各个像素点的灰度数据为灰度数据矩阵，在利用所述目标灰度图像中各个像素点的灰度数据对所述原始语谱图中各个像素点的频域数据进行处理，得到目标语谱图时，所述程序指令还可由处理器1101加载并具体执行：对所述灰度数据矩阵进行上下翻转处理；将翻转处理后的灰度数据矩阵作为加权因子，对所述原始语谱图中各个像素点的频域数据进行加权，得到目标语谱图。

再一种实施方式中，所述各个像素点的灰度数据为灰度数据矩阵，在利用所述目标灰度图像中各个像素点的灰度数据对所述原始语谱图中各个像素点的频域数据进行处理，得到目标语谱图时，所述程序指令还可由处理器1101加载并具体执行：对所述灰度数据矩阵进行上下翻转处理，对翻转处理后的灰度数据矩阵进行降采样处理；将降采样处理后的灰度数据矩阵作为加权因子，对所述原始语谱图中各个像素点的频域数据进行加权，得到目标语谱图。

再一种实施方式中，所述各个像素点的灰度数据为灰度数据矩阵，在将所述目标灰度图像中各个像素点的灰度数据转换为语谱图中各个像素点的频域数据得到目标语谱图时，所述程序指令还可由处理器1101加载并具体执行：对所述灰度数据矩阵进行上下翻转处理，将翻转处理后的灰度数据矩阵作为语谱图中各个像素点的频域数据，得到目标语谱图。

再一种实施方式中，在利用所述目标语谱图生成所述目标语谱图对应的目标音频时，所述程序指令还可由处理器1101加载并具体执行：将所述目标语谱图的每一帧频域数据进行上下翻转处理，对翻转处理后的频域数据的复数取共轭；对取共轭后的每一帧频域数据进行逆傅里叶变换，得到每一帧频域数据对应的时域信号，并将各帧所述时域信号合成为目标音频。

再一种实施方式中，获取所述二维图像的目标灰度图像时，所述程序指令还可由处理器1101加载并具体执行：获取所述二维图像的原始灰度图像，对所述原始灰度图像做等比缩放处理，得到等比缩放处理后的灰度图像；对所述等比缩放处理后的灰度图像做归一化处理，得到所述二维图像的目标灰度图像。

再一种实施方式中，所述二维图像包括多个用于采集用户动作变化的二维图像，在获取所述二维图像的目标灰度图像时，所述程序指令还可由处理器1101加载并具体执行：分别计算多个所述二维图像中采集时间相邻的二维图像之间的灰度差值，得到多个灰度差值；将多个所述灰度差值按照所述灰度差值对应的采集时间进行排列，得到所述目标灰度图像。

再一种实施方式中所述程序指令还可由处理器1101加载并具体执行：接收用户输入的音频播放指令；响应于所述音频播放指令，播放所述目标音频并按照所述目标音频的播放进度展示与所述播放进度对应面积的目标语谱图。

可以理解，上述描述的音频生成设备和装置的具体工作过程，可以参考前述各个实施例中的相关描述，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机存储介质中，该计算机存储介质可以为计算机可读存储介质，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本申请的部分实施例，不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

一种音频生成方法，其特征在于，包括：

接收用户输入的音频生成指令，所述音频生成指令用于指示用户想要在生成的目标音频中嵌入的二维图像；

响应于所述音频生成指令，获取所述二维图像的目标灰度图像；

将所述目标灰度图像中各个像素点的灰度数据转换为语谱图中各个像素点的频域数据，得到目标语谱图；

利用所述目标语谱图生成所述目标语谱图对应的目标音频。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

接收用户输入的音频选择指令，所述音频选择指令用于指示生成目标音频所需的原始音频，并响应于所述音频选择指令，获取所述原始音频对应的原始语谱图；

所述将所述目标灰度图像中各个像素点的灰度数据转换为语谱图中各个像素点的频域数据，得到目标语谱图，包括：

利用所述目标灰度图像中各个像素点的灰度数据对所述原始语谱图中各个像素点的频域数据进行处理，得到目标语谱图。
根据权利要求2所述的方法，其特征在于，所述各个像素点的灰度数据为灰度数据矩阵，所述利用所述目标灰度图像中各个像素点的灰度数据对所述原始语谱图中各个像素点的频域数据进行处理，得到目标语谱图，包括：

对所述灰度数据矩阵进行上下翻转处理；

将翻转处理后的灰度数据矩阵作为加权因子，对所述原始语谱图中各个像素点的频域数据进行加权，得到目标语谱图。
根据权利要求2所述的方法，其特征在于，所述各个像素点的灰度数据为灰度数据矩阵，所述利用所述目标灰度图像中各个像素点的灰度数据对所述原始语谱图中各个像素点的频域数据进行处理，得到目标语谱图，包括：

对所述灰度数据矩阵进行上下翻转处理，对翻转处理后的灰度数据矩阵进行降采样处理；

将降采样处理后的灰度数据矩阵作为加权因子，对所述原始语谱图中各个像素点的频域数据进行加权，得到目标语谱图。
根据权利要求1所述的方法，其特征在于，所述各个像素点的灰度数据为灰度数据矩阵，所述将所述目标灰度图像中各个像素点的灰度数据转换为语谱图中各个像素点的频域数据，得到目标语谱图，包括：

对所述灰度数据矩阵进行上下翻转处理，将翻转处理后的灰度数据矩阵作为语谱图中各个像素点的频域数据，得到目标语谱图。
根据权利要求1-5任一项所述的方法，其特征在于，所述利用所述目标语谱图生成所述目标语谱图对应的目标音频，包括：

将所述目标语谱图的每一帧频域数据进行上下翻转处理，对翻转处理后的频域数据的复数取共轭；

对取共轭后的每一帧频域数据进行逆傅里叶变换，得到每一帧频域数据对应的时域信号，并将各帧所述时域信号合成为目标音频。
根据权利要求1-5任一项所述的方法，其特征在于，所述获取所述二维图像的目标灰度图像，包括：

获取所述二维图像的原始灰度图像，对所述原始灰度图像做等比缩放处理，得到等比缩放处理后的灰度图像；

对所述等比缩放处理后的灰度图像做归一化处理，得到所述二维图像的目标灰度图像。
根据权利要求1-5任一项所述的方法，其特征在于，所述二维图像包括多个用于采集用户动作变化的二维图像；所述获取所述二维图像的目标灰度图像，包括：

分别计算多个所述二维图像中采集时间相邻的二维图像之间的灰度差值，得到多个灰度差值；

将多个所述灰度差值按照所述灰度差值对应的采集时间进行排列，得到所述目标灰度图像。
根据权利要求1-5任一项所述的方法，其特征在于，还包括：

接收用户输入的音频播放指令；

响应于所述音频播放指令，播放所述目标音频并按照所述目标音频的播放进度展示与所述播放进度对应面积的目标语谱图。
一种音频生成设备，其特征在于，所述设备包括：

处理器、存储器和输入设备，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-9任一项所述的方法。