WO2023221674A1

WO2023221674A1 - 音频编解码方法及相关产品

Info

Publication number: WO2023221674A1
Application number: PCT/CN2023/085872
Authority: WO
Inventors: 华超; 黄飞
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2022-05-19
Filing date: 2023-04-03
Publication date: 2023-11-23
Also published as: CN115050378A

Abstract

一种音频编解码方法、音频编解码装置、计算机可读介质、电子设备以及计算机程序产品。属于音视频技术领域。音频解码方法包括：获取音频帧序列中各个音频帧的编码向量（S410）；当解码到音频帧序列中的当前音频帧时，对历史音频帧的编码向量进行上采样得到上采样特征值，历史音频帧是音频帧序列中在当前音频帧之前解码的一个或者多个音频帧，上采样特征值是在上采样过程中得到的用于描述历史音频帧的特征向量（S420）；根据上采样特征值对当前音频帧的编码向量进行上采样得到当前音频帧的解码数据（S430）。可以提高音频数据的编解码质量。

Description

音频编解码方法及相关产品

本申请要求于2022年5月19日提交中国专利局、申请号202210546928.4、申请名称为“音频编解码方法及相关产品”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请属于音视频技术领域，具体涉及一种音频编解码方法、音频编解码装置、计算机可读介质、电子设备以及计算机程序产品。

背景技术

对音视频等媒体数据进行编解码处理，可以实现对媒体数据的压缩传输，从而降低媒体数据的网络传输成本，提高网络传输效率。

而在进行编码处理时，可能会使得媒体数据出现数据丢失，进而导致媒体数据质量差的问题。

发明内容

本申请提供一种音频编解码方法、音频编解码装置、计算机可读介质、电子设备以及计算机程序产品，目的在于提高媒体数据质量。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供一种音频解码方法，所述方法由计算机设备执行，该方法包括：

获取音频帧序列中各个音频帧的编码向量；

当解码到所述音频帧序列中的当前音频帧时，对历史音频帧的编码向量进行上采样得到上采样特征值，所述历史音频帧是所述音频帧序列中在所述当前音频帧之前解码的一个或者多个音频帧，所述上采样特征值是在上采样过程中得到的用于描述历史音频帧的特征向量；

根据所述上采样特征值对所述当前音频帧的编码向量进行上采样得到所述当前音频帧的解码数据。

根据本申请实施例的一个方面，提供一种音频编码方法，所述方法由计算机设备执行，该方法包括：

获取音频帧序列中各个音频帧的音频数据；

当编码到所述音频帧序列中的当前音频帧时，对历史音频帧的音频数据进行下采样得到下采样特征值，所述历史音频帧是所述音频帧序列中在所述当前音频帧之前编码的一个或者多个音频帧，所述下采样特征值是在下采样过程中得到的用于描述历史音频帧的特征向量；

根据所述下采样特征值对所述当前音频帧的音频数据进行下采样得到所述当前音频帧的编码向量。

根据本申请实施例的一个方面，提供一种音频解码装置，所述装置部署在计算机设备上，该装置包括：

获取模块，被配置为获取音频帧序列中各个音频帧的编码向量；

第一上采样模块，被配置为当解码到所述音频帧序列中的当前音频帧时，对历史音频帧的编码向量进行上采样得到上采样特征值，所述历史音频帧是所述音频帧序列中在所述当前音频帧之前解码的一个或者多个音频帧，所述上采样特征值是在上采样过程中得到的用于描述历史音频帧的特征向量；

第二上采样模块，被配置为根据所述上采样特征值对所述当前音频帧的编码向量进行上采样得到所述当前音频帧的解码数据。

根据本申请实施例的一个方面，提供一种音频编码装置，所述装置部署在计算机设备上，该装置包括：

获取模块，被配置为获取音频帧序列中各个音频帧的音频数据；

第一下采样模块，被配置为当编码到所述音频帧序列中的当前音频帧时，对历史音频帧的音频数据进行下采样得到下采样特征值，所述历史音频帧是所述音频帧序列中在所述当前音频帧之前编码的一个或者多个音频帧，所述下采样特征值是在下采样过程中得到的用于描述历史音频帧的特征向量；

第二下采样模块，被配置为根据所述下采样特征值对当前音频帧的音频数据进行下采样得到所述当前音频帧的编码向量。

根据本申请实施例的一个方面，提供一种计算机可读介质，所述计算机可读介质上存储有计算机程序，所述计算机程序被处理器执行时实现如以上技术方案中的音频编解码方法。

根据本申请实施例的一个方面，提供一种电子设备，该电子设备包括：处理器；以及存储器，用于存储所述处理器可执行的计算机程序；其中，所述处理器被配置为经由执行所述可执行的计算机程序使得所述电子设备执行如以上技术方案中的音频编解码方法。

根据本申请实施例的一个方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如以上技术方案中的音频编解码方法。

基于本申请实施例提供的技术方案，获取音频帧序列中各个音频帧的编码向量，当解码到音频帧序列中的当前音频帧时，可以对当前音频帧的编码向量进行上采样，在对当前音频帧的编码向量进行上采样的过程中，可以引入对历史音频帧的编码向量进行上采样得到的上采样特征值，从而根据上采样特征值对当前音频帧的编码向量进行上采样得到当前音频帧的解码数据，使得单个音频帧的上采样过程能够获得更大的数据感受野，因此能够提高音频的数据质量。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图；

图2示出视频编码装置和视频解码装置在流式传输环境中的放置方式；

图3示出了一个基于卷积神经网络构建的编解码器的网络结构框图；

图4示出了本申请一个实施例中音频解码方法的流程图；

图5示出了本申请一个实施例中基于包括多个上采样层的卷积神经网络进行音频解码的方法步骤流程图；

图6示出了本申请一个实施例中实现数据编解码处理的网络模块示意图；

图7示出了本申请一个实施例中对多个采样通道输出的通道特征值进行归一化处理的原理示意图；

图8示出了本申请一个实施例中基于查询码本进行音频帧解码处理的步骤流程图；

图9示出了本申请一个实施例中基于数据映射确定编码向量的原理示意图；

图10示出了本申请一个实施例中对量化器进行训练的步骤流程图；

图11示出了本申请一个实施例中的音频编码方法的步骤流程图；

图12示出了本申请一个实施例中基于包括多个下采样层的卷积神经网络进行音频编码的方法步骤流程图；

图13示出了本申请一个实施例中对编码器和解码器进行模型训练的步骤流程图；

图14示出了本申请一个实施例中基于生成对抗网络进行编解码模型训练的原理示意图；

图15示出了本申请一个实施例中的音频解码装置的结构框图；

图16示出了本申请一个实施例中的音频编码装置的结构框图；

图17示出了本申请一个实施例中电子设备的计算机系统结构框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

需要说明的是：在本文中提及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

在本申请的具体实施方式中，涉及到音频帧等与用户相关的数据，当本申请的各个实施例运用到具体产品或技术中时，需要获得用户单独许可或者单独同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本申请实施例中涉及的相关术语或者缩略语解释如下。

卷积神经网络：在文本、图像、音视频等多媒体数据处理领域，卷积神经网络是应用最成功的深度学习结构，卷积神经网络由多个卷积层组成，一般包括卷积层(Convolutional Layer)、降采样层(Pooling Layer)、激活函数层(Activation Layer)、标准化层(Normalization Layer)、全连接层(Full Connected Layer)等。

音频编解码：音频编码过程为将音频压缩到更小的数据，解码过程为将更小的数据还原为音频。编码后的更小数据用于网络传输，占用更小的带宽。

音频采样率：音频采样率描述单位时间(1秒)内包含的数据个数。如16k采样率包含16000个采样点，每个采样点对应一个短型整数。

码本：多个向量的集合，编码器和解码器两边保存一模一样的码本。

量化：将输入向量在码本中找到距离最近的向量，将其返回作为输入向量的替换，并将对应的码本索引位置返回。

量化器：量化器负责量化工作，并负责更新码本内向量。

弱网环境：网络传输质量较差的环境，例如指3kpbs以下的带宽。

音频帧：表示网络中单次传输的最小语音时长。

短时傅里叶变换(Short Time Fourier Transform，STFT)：将长时间信号分成数个较短的等长信号，然后再分别计算每个较短段的傅里叶变换。通常拿来描绘频域与时域上的变化，为时频分析中的一个重要的工具。

图1示意性地示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。

如图1所示，系统架构100包括多个终端设备，所述终端设备可通过例如网络150彼此通信。举例来说，系统架构100可以包括通过网络150互连的第一终端设备110和第二终端设备120。在图1的实施例中，第一终端设备110和第二终端设备120执行单向数据传输。

举例来说，第一终端设备110可对音视频数据(例如由终端设备110采集的音视频数据流)进行编码以通过网络150传输到第二终端设备120，已编码的音视频数据以一个或多个已编码音视频码流形式传输，第二终端设备120可从网络150接收已编码音视频数据，对已编码音视频数据进行解码以恢复音视频数据，并根据恢复的音视频数据进行内容播放或显示。

在本申请的一个实施例中，系统架构100可以包括执行已编码音视频数据的双向传输的第三终端设备130和第四终端设备140，所述双向传输比如可以发生在音视频会议期间。对于双向数据传输，第三终端设备130和第四终端设备140中的每个终端设备可对音视频数据(例如由终端设备采集的音视频数据流)进行编码，以通过网络150传输到第三终端设备130和第四终端设备140中的另一终端设备。第三终端设备130和第四终端设备140中的每个终端设备还可接收由第三终端设备130和第四终端设备140中的另一终端设备传输的已编码音视频数据，且可对已编码音视频数据进行解码以恢复音视频数据，并根据恢复的音视频数据进行内容播放或显示。

在图1的实施例中，第一终端设备110、第二终端设备120、第三终端设备130和第四终端设备140可为个人计算机和智能电话，但本申请公开的原理可不限于此。本申请公开的实施例适用于膝上型计算机、平板电脑、媒体播放器和/或专用音视频会议设备。网络150表示在第一终端设备110、第二终端设备120、第三终端设备130和第四终端设备140之间传送已编码音视频数据的任何数目的网络，包括例如有线和/或无线通信网络。通信网络150可在电路交换和/或分组交换信道中交换数据。该网络可包括电信网络、局域网、广域网和/或互联网。出于本申请的目的，除非在下文中有所解释，否则网络150的架构和拓扑对于本申请公开的操作来说可能是无关紧要的。

在本申请的一个实施例中，图2示意性地示出音视频编码装置和音视频解码装置在流式传输环境中的放置方式。本申请所公开主题可同等地适用于其它支持音视频的应用，包括例如音视频会议、数字TV(television，电视机)、在包括CD、DVD、存储棒等的数字介质上存储压缩音视频等等。

流式传输系统可包括采集子系统213，采集子系统213可包括麦克风、摄像头等音视频源201，音视频源创建未压缩的音视频数据流202。相较于已编码的音视频数据204(或已编码的音视频码流204)，音视频数据流202被描绘为粗线以强调高数据量的音视频数据流，音视频数据流202可由电子设备220处理，电子设备220包括耦接到音视频源201的音视频编码装置203。音视频编码装置203可包括硬件、软件或软硬件组合以实现或实施如下文更详细地描述的所公开主题的各方面。相较于音视频数据流202，已编码的音视频数据204(或已编码的音视频码流204)被描绘为细线以强调较低数据量的已编码的音视频数据204(或已编码的音视频码流204)，其可存储在流式传输服务器205上以供将来使用。一个或多个流式传输客户端子系统，例如图2中的客户端子系统206和客户端子系统208，可访问流式传输服务器205以检索已编码的音视频数据204的副本207和副本209。客户端子系统206可包括例如电子设备230中的音视频解码装置210。音视频解码装置210对已编码的音视频数据的传入副本207进行解码，且产生可在输出端212(例如扬声器、显示器)或另一呈现装置上呈现的输出音视频数据流211。在一些流式传输系统中，可根据某些音视频编码/压缩标准对已编码的音视频数据204、音视频数据207和音视频数据209(例如音视频码流)进行编码。

应注意，电子设备220和电子设备230可包括图中未示出的其它组件。举例来说，电子设备220可包括音视频解码装置，且电子设备230还可包括音视频编码装置。

图3示出了本申请一个实施例中基于卷积神经网络构建的编解码器的网络结构框图。

如图3所示，编解码器的网络结构包括编码器310和解码器320，其中编码器310可以作为软件实现如图2所示的音视频编码装置203，解码器320可以作为软件实现如图2所示的音视频解码装置210。

在数据发送端可以通过编码器310对音频数据进行编码压缩。在本申请的一个实施例中，编码器310可以包括一个输入层311、一个或者多个下采样层312以及一个输出层313。

举例而言，输入层311和输出层313可以是基于一维卷积核构建的卷积层，在输入层311和输出层313之间依次连接有四个下采样层312。基于一个应用场景对各个网络层的功能做如下说明。

在编码器的输入阶段，对待编码的原始音频数据进行数据采样，可以得到通道数为1、维度为16000的向量；将该向量输入至输入层311，经过卷积处理后可以得到通道数为32、维度为16000的特征向量。在一些可选的实施方式中，为了提高编码效率，编码器310可以同时对数量为B的一个批次的音频向量进行编码处理。

在编码器的下采样阶段，第一个下采样层将向量维度降低至1/2，得到通道数为64、维度为8000的特征向量；第二个下采样层将向量维度降低至1/4，得到通道数为128、维度为2000的特征向量；第三个下采样层将向量维度降低至1/5，得到通道数为256、维度为400的特征向量；第四个下采样层将向量维度降低至1/4，得到通道数为512、维度为50的特征向量。

在编码器的输出阶段，输出层313对特征向量进行卷积处理后得到通道数为vq_dim、维度为25的编码向量。其中，vq_dim为预设的矢量量化维度，例如可以取值为32。

将编码向量输入至量化器330，可以在码本中查询得到每个编码向量对应的向量索引。随后可以将向量索引传输至数据接收端，由数据接收端通过解码器320对向量索引进行解码处理，得到还原后的音频数据。

在本申请的一个实施例中，解码器320可以包括一个输入层321、一个或者多个上采样层322以及一个输出层323。

数据接收端在接收到网络传输的向量索引后，首先可以通过量化器320在码本中查询向量索引对应的码本向量，该码本向量例如可以是通道数为vq_dim、维度为25的向量。其中，vq_dim为预设的矢量量化维度，例如可以取值为32。在一些可选的实施方式中，为了提高解码效率，数据接收端可以同时对数量为B的一个批次的码本向量进行解码处理。

在解码器的输入阶段，将待解码的码本向量输入至输入层321，经过卷积处理后可以得到通道数为512、维度为50的特征向量。

在解码器的上采样阶段，第一个上采样层将向量维度升高至8倍(例如8×)，得到通道数为256、维度为400的特征向量；第二个上采样层将向量维度升高至5倍(例如5×)，得到通道数为128、维度为2000的特征向量；第三个上采样层将向量维度升高至4倍(例如4×)，得到通道数为64、维度为8000的特征向量；第四个上采样层将向量维度升高至2倍(例如2×)，得到通道数为32、维度为16000的特征向量。

在解码器的输出阶段，输出层323对特征向量进行卷积处理后，还原得到通道数为1、维度为16000的解码音频数据。

编解码器整体可以看成是语音转语音模型，为了使模型生成的语音更符合人耳听觉曲线，本申请实施例可以将输入与输出音频分别提取梅尔频谱，作为损失函数的输入，使得二者在梅尔频谱上接近。梅尔频谱可设置不同的采样窗口大小，为了让生成语音质量更接近输入语音，本申请实施例可以采用多尺度梅尔频谱约束作为重构损失函数。

梅尔频谱是在梅尔标度(mel scale)下分布的声谱图(spectrogram)，梅尔频谱可以表示为mel频谱。声音信号本是一维的时域信号，直观上很难看出频率变化规律。如果通过傅里叶变换把它变到频域上，虽然可以看出信号的频率分布，但是丢失了时域信息，无法看出频率分布随时间的变化。本申请实施例可以采用短时傅里叶变换、小波变换、Wigner分布等时频域分析方法解决这一问题。

短时傅里叶变换(STFT)是对分帧处理得到的短时信号做傅里叶变换(FFT)，具体是将一段长信号分帧、加窗，再对每一帧做傅里叶变换，最后把每一帧的结果沿另一个维度堆叠起来，得到类似于一幅图的二维信号形式。当原始信号是音频信号时，通过STFT展开得到的二维信号即为声谱图。为了得到合适大小的声音特征，通过梅尔标度滤波器组(mel-scale filter banks)对声谱图进行滤波变换，即可得到梅尔频谱。

下面结合具体实施方式，分别从作为数据接收端的解码侧和作为数据发送端的编码侧两个方面对本申请提供的音频编码方法、音频解码方法、音频编码装置、音频解码装置、计算机可读介质、电子设备以及计算机程序产品等技术方案做出详细说明。

图4示出了本申请一个实施例中的音频解码方法的步骤流程图，该方法可以由接收到编码数据的终端设备或者服务器执行，即执行本申请实施例提供的音频解码方法的电子设备可以是终端设备或服务器，本申请实施例以终端设备执行的音频解码方法作为示例进行说明，该终端设备例如可以是图2所示的音视频解码装置210或者图3所示的解码器320。

如图4所示，本申请实施例中的音频解码方法可以包括如下的S410至S430。

S410：获取音频帧序列中各个音频帧的编码向量。

音频帧是对原始音频数据进行分帧处理和加窗处理后得到的具有指定时间长度的数据分段，编码向量是对音频帧进行多次下采样后得到的数据压缩向量。本申请实施例可以采用如图3中所示的基于卷积神经网络构建的编码器对音频帧进行编码处理后得到编码向量。

原始音频数据从整体来看其特性及表征其本质特征的参数均是随时间而变化的，所以它是一个非平稳态过程，不能用处理平稳信号的数字信号处理技术对其进行分析处理。但是，由于不同的语音是由人的口腔肌肉运动构成声道某种形状而产生的响应，而这种口腔肌肉运动相对于语音频率来说是非常缓慢的，所以从另一方面看，虽然音频信号具有时变特性，但在一个短时间范围内(例如在10-30ms的短时间内)，其特性基本保持不变即相对稳定，因而可以将其看作是一个准稳态过程，即音频信号具有短时平稳性。为实现对音频信号的短时分析，本申请实施例可以将原始音频数据分为一段一段来分析其特征参数，其中每一段称为一个音频帧。音频帧的帧长例如可以在10-30ms的范围内进行取值。分帧可以采用连续分段的方法，也可以采用交叠分段的方法，交叠分段可以使帧与帧之间平滑过渡，保持其连续性。前一帧和后一帧的交叠部分称为帧移，帧移与帧长的比值可以取值为0～1/2。

加窗处理是指利用窗函数对分帧后的音频信号进行函数映射，使得相邻的两个音频数据帧能够平稳过渡，减少数据帧在起始和结束部分信号不连续的问题，使全局具有更高的连续性，避免出现吉布斯效应。另外，通过加窗处理，也可以使原本没有周期性的音频信号呈现出周期函数的部分特征，有利于对其进行信号分析和处理。

在进行加窗处理时，应当尽量减小时间窗两端的坡度，使窗口边缘两端不引起急剧变化而平滑过渡到零，这样可以使截取出的信号波形缓慢降为零，减小音频数据帧的截断效应。窗口长度应当适中，如果窗口长度很大，则等效于很窄的低通滤波器，音频信号通过时，反映波形细节的高频部分被阻碍，短时能量随时间变化很小，不能真实地反映音频信号的幅度变化：反之，如果窗口长度太短，则滤波器的通带变宽，短时能量随时间有急剧的变化，不能得到平滑的能量函数。

在本申请的一个实施例中，可以选用汉明窗作为窗函数，汉明窗具有平滑的低通特性，能够在较高的程度上反映短时信号的频率特性。在其他一些实施例中，也可以选用矩形窗、海宁窗等其他类型的窗函数。

S420：当解码到音频帧序列中的当前音频帧时，对历史音频帧的编码向量进行上采样得到上采样特征值，历史音频帧是音频帧序列中在当前音频帧之前解码的一个或者多个音频帧，上采样特征值是在上采样过程中得到的用于描述历史音频帧的特征向量。

在本申请的一个实施例中，历史音频帧是在音频帧序列中与当前音频帧时间连续的一个或者多个音频帧，例如正在解码的当前音频帧是音频帧序列中的第N个音频帧，与之对应的历史音频帧可以是音频帧序列中的第N-1个音频帧。

上采样是将编码向量由低维度向高维度进行映射处理的操作，例如可以采用线性插值、反卷积或者反池化等上采样方法。其中，线性插值是基于线性插值函数向低维度向量中插入新元素以得到高维度向量的方法，可以包括最近邻插值算法、双线性插值算法、双三次插值算法等等。反卷积，也可以称为转置卷积，是一种特殊的卷积操作，例如可以先向低维度向量中补0以扩大向量维度，然后再通过卷积核进行正向卷积得到高维度向量。反池化，是池化的逆操作。

在本申请的一个实施例中，可以通过配置缓存区保留上采样的过程数据。在对一个音频帧进行上采样时，可以缓存上采样过程中获得的用于描述音频帧的特征向量，例如历史音频帧的上采样特征值。

S430：根据上采样特征值对当前音频帧的编码向量进行上采样得到当前音频帧的解码数据。

在本申请的一个实施例中，可以将历史音频帧的上采样特征值与当前音频帧的编码向量共同作为输入数据输入至解码器中，使得解码器能够利用历史视频帧的特征向量对当前音频帧进行上采样。

原始音频数据在编码过程中会损失一些信息，基于上采样的解码过程通常难以还原出原始音频数据，本申请实施例通过缓存在前解码的历史音频帧的上采样特征，可以指导当前音频帧的上采样过程，提高音频解码的数据还原效果，因而能够提高音频的编解码质量。

图5示出了本申请一个实施例中基于包括多个上采样层的卷积神经网络进行音频解码的方法步骤流程图。如图5所示，该音频解码方法可以包括如下的S510至S540。

S510：获取音频帧序列中各个音频帧的编码向量。

S520：获取包括多个上采样层的解码器，通过多个上采样层对历史音频帧的编码向量进行上采样处理得到多个特征向量，历史音频帧是在当前音频帧之前解码的一个或者多个音频帧。

本申请实施例可以采用如图3中所示的基于卷积神经网络构建的解码器对音频帧的编码向量进行解码处理。其中，解码器包括多个依次连接的上采样层，每个上采样层通过对输入向量进行卷积操作可以实现上采样处理。

本申请实施例中由解码器对历史音频帧的编码向量进行上采样处理后，可以得到与上采样层数量相同的多个特征向量，此时该多个特征向量可以作为上采样特征值。例如图3所示的解码器包括四个上采样层，每个上采样层输出一个特征向量，则针对一个历史音频帧进行上采样处理可以得到四个特征向量。

在一些可选的实施方式中，由解码器对历史音频帧的编码向量进行上采样处理后，可以得到数量小于上采样层的多个特征向量。例如图3所示的解码器包括四个上采样层，每个上采样层输出一个特征向量，然后从中抽取部分特征向量，即针对一个历史音频帧进行上采样处理可以得到数量少于四个的特征向量。

S530：将当前音频帧的编码向量输入解码器，并将多个特征向量对应输入多个上采样层。

当前音频帧的编码向量依次通过编码器的多个上采样层进行多次上采样，在对当前音频帧的编码向量进行上采样处理的过程中，将历史音频帧经过上采样得到的多个特征向量同步输入至上采样层。即编码器中上采样层的输入数据除了前一个上采样层的输出数据之外，还包括了对历史音频帧进行上采样处理得到的特征向量。

S540：通过多个上采样层对当前音频帧的编码向量和多个特征向量进行上采样处理，得到当前音频帧的解码数据。

图6示出了本申请一个实施例中实现数据编解码处理的网络模块示意图。图6所示的网络模块是构成图3所示的编码器或者解码器的基础功能模块，例如编码器中的每个下采样层或者解码器中的每个上采样层均可以包括一个或者多个图6所示的网络模块。

如图6所示，实现数据编解码处理的网络模块中包括有多个残差块Res Block。网络模块的输入数据包括两部分，即当前输入特征In feature和第一历史特征Last feature。其中，当前输入特征In feature可以是前一网络模块对当前音频帧进行卷积处理得到的输出特征，历史特征Last feature可以是当前网络模块对前一音频帧进行卷积处理得到的输出特征，例如可以是本申请以上实施例中通过上采样层对历史音频帧的编码向量进行上采样处理得到的上采样特征值。

网络模块的输出数据也包括两部分，即当前输出特征Out feature和第二历史特征Last feature。其中，当前输出特征Out feature可以作为后一网络模块对当前音频帧进行卷积处理得到的输出特征，第二历史特征Last feature可以作为当前网络模块对后一音频帧进行卷积处理的输入特征。

本申请实施例通过保留前一音频帧的输出特征，可以将历史音频帧在上采样过程中获得的上采样特征值与当前音频帧的编码向量进行共同解码，因此能够提升当前音频帧的输入感受野，提高音频编解码的准确性。

在本申请的一个实施例中，解码器的上采样层包括至少两个采样通道。在此基础上，S540中通过多个上采样层对当前音频帧的编码向量和多个特征向量进行上采样处理的方法可以包括：通过上采样层中的至少两个采样通道对当前音频帧的编码向量和多个特征向量进行特征提取得到至少两个通道特征值；获取至少两个通道特征值的均值和方差；根据均值和方差对至少两个通道特征值进行归一化处理。

不同的采样通道可以基于不同大小或者不同参数的卷积核对输入数据进行卷积处理得到不同表征维度下的多个通道特征值，从而可以提高对音频帧进行特征提取的全面性和可靠性。在此基础上，为了降低模型计算量，本申请实施例可以对同一音频帧在不同采样通道上采集到的通道特征值进行归一化处理。

图7示出了本申请一个实施例中对多个采样通道输出的通道特征值进行归一化处理的原理示意图。图7中的每一个方格代表一个数据采样点，沿水平方向分布的一行方格表示一个音频帧，沿竖直方向分布的多行方格表示在一个批次中同步进行编解码的多个音频帧，纵深方向分布的多行方格表示对同一个音频帧进行采样的多个采样通道。

如图7所示，在对数据采样点的映射数据进行归一化处理时，一个音频帧作为一个归一化单元，各个音频帧之间相互独立。首先可以对同一个音频帧中由不同采样通道采样得到的多个通道特征值计算均值和方差，再将每个通道特征值减去均值后除以方差，即可得到均一化的通道特征值。通过对每个音频帧在不同采样通道采样得到的多个通道特征值进行归一化处理，可以使各个采样通道共享同一个均值和方差，在保证数据采样全面性的同时降低数据计算量。

在本申请的一个实施例中，在根据均值和方差对至少两个通道特征值进行归一化处理之前，可以对各个音频帧之间的均值和方差进行加权平滑处理，此时对至少两个通道特征值进行归一化处理的方式可以是根据加权平滑处理后的均值和方差对所述至少两个通道特征值进行归一化处理，以进一步降低数据计算量。

在进行音频数据传输时，可能采用实时分段传输。实时分段传输的特点决定了用户在无需下载完整媒体文件的情况下便可以实时获得媒体数据，但同时也对用户的设备性能和网络条件提出了很高的要求。在网络状态不理想的情况下，为了保证音频帧的传输效率，可以将音频帧压缩并量化后得到一个索引值，这样，在进行传输时传输的是量化后的索引值，从而降低数据传输量，进而提高数据传输效率。在这种情况下，在进行解码时可以通过索引值从码本中找到对应的编码向量，进而完成解码。

图8示出了本申请一个实施例中基于查询码本进行音频帧解码处理的步骤流程图。通过在编码器和解码器配置相同的码本，可以基于查询码本的方式对音频帧的编码向量进行定位，降低编解码侧的数据传输量。如图8所示，基于查询码本对音频帧的编码向量进行解码处理的方法可以包括如下的S810至S840。

S810：针对音频帧序列中的每个音频帧，获取音频帧的编码索引值，编码索引值用于指示码本中的码本向量。

码本用于保存编码索引值与码本向量之间的映射关系，音频数据的发送方可以通过网络传输向接收方传递各个音频帧的编码索引值，由此可以极大地降低数据传输量，显著提高音频数据的传输效率。

S820：在码本中查询与编码索引值相关联的码本向量，并根据码本向量确定音频帧的编码向量。

当音频数据的接收方获取到编码索引值之后，可以通过量化器在码本中查询与编码索引值相关联的码本向量，并进一步根据码本向量确定音频帧的编码向量。

在一些可选的实施方式中，解码器可以直接将码本中查询到的码本向量作为音频帧的编码向量，或者可以根据预设的映射规则对查询到的码本向量进行数据映射以确定音频帧的编码向量。预设的映射规则可以是音频数据的发送方与接收方进行预先约定的规则，利用数据映射的方式确定编码向量，可以在共享码本的同时，提高数据传输的安全性。

在本申请的一个实施例中，码本向量的维度低于编码向量的维度；根据码本向量确定音频帧的编码向量的方法可以包括：对码本向量进行升维投影，得到音频帧的编码向量。本申请实施例中采用升维投影的方式进行数据映射，可以降低码本中的向量维度，起到压缩码本的作用，降低码本的维护数据量。

图9示出了本申请一个实施例中基于数据映射确定编码向量的原理示意图。如图9所示，在编码侧，经过编码器对音频帧进行数据编码后，可以得到编码向量，其向量维度例如为N。在查询码本之前，先对编码向量进行降维投影，可以维度为N/Q的压缩向量。相应地，码本中包括有M个码本向量，其中每个码本向量的向量维度均为N/Q。经过查询码本，可以确定与编码向量相对应的编码索引值，编码索引值的取值范围为1～M。

在解码侧，当接收到数据发送方传输的编码索引值后，可以首先在码本中查询与之对应的码本向量，该码本向量的向量维度为N/Q。再对码本向量进行升维投影后，可以还原得到向量维度为N的编码向量。

在本申请的一个实施例中，可以基于线性变换对编码向量进行降维投影或者升维投影，或者可以利用卷积层、全连接层等神经网络的部分网络层进行数据映射。

S830：对历史音频帧的编码向量进行上采样得到上采样特征值，历史音频帧是音频帧序列中在当前音频帧之前解码的一个或者多个音频帧，上采样特征值是在上采样过程中得到的用于描述历史音频帧的特征向量。

历史音频帧是在音频帧序列中与当前音频帧时间连续的一个或者多个音频帧，例如正在解码的当前音频帧是音频帧序列中的第N个音频帧，与之对应的历史音频帧可以是音频帧序列中的第N-1个音频帧。

上采样是将编码向量由低维度向高维度进行映射处理的操作，例如可以采用线性插值、反卷积或者反池化等上采样方法。本申请实施例可以通过配置缓存区保留上采样的过程数据。在对一个音频帧进行上采样时，可以缓存上采样过程中获得的用于描述音频帧的特征向量。

S840：根据上采样特征值对当前音频帧的编码向量进行上采样得到当前音频帧的解码数据。

本申请实施例可以将历史音频帧的上采样特征值与当前音频帧的编码向量共同作为输入数据输入至解码器中，使得解码器能够利用历史视频帧的上采样特征值对当前音频帧进行上采样。原始音频数据在编码过程中会损失一些信息，基于上采样的解码过程通常难以还原出原始音频数据，本申请实施例通过缓存在前解码的历史音频帧的上采样特征，可以指导当前音频帧的上采样过程，提高音频解码的数据还原效果，因而能够提高音频的编解码质量。

为了保证数据编解码的稳定性和可靠性，在编解码模型中可以通过量化器对码本进行查询，并可以根据样本数据对码本进行更新。本申请实施例中的量化器可以是基于卷积神经网络构建的模型，基于样本数据可以对量化器进行训练以提高其对于音频帧的编码量化效果。

在本申请的一个实施例中，对量化器进行训练的方法可以包括：获取码本以及用于维护码本的量化器，码本用于表示编码索引值与码本向量之间的映射关系；获取由编码器对音频帧样本进行编码处理得到的编码向量样本；通过量化器预测与编码向量样本相匹配的码本向量样本；根据编码向量样本与码本向量样本之间的损失误差，更新量化器的网络参数，从而实现对量化器的训练。在训练得到量化器后，可以通过训练得到的量化器在码本中查询与编码索引值相关联的码本向量。

在本申请的一个实施例中，基于量化器维护更新码本的方法可以包括：获取与码本向量样本相匹配的编码向量样本的统计参数；根据统计参数更新码本，更新后的码本用于下一次预测与编码向量样本相匹配的码本向量样本。通过对码本的不断更新，可以提高其对于音频帧的编码量化效果。

在本申请的一个实施例中，编码向量样本的统计参数包括向量和与命中数中的至少一种，向量和表示对各个编码向量样本进行加权平均处理后得到的平均值向量，命中数表示与码本向量样本相匹配的编码向量样本的数量。在此基础上，根据统计参数更新码本的方法可以包括：根据向量和对码本进行指数加权平滑；根据命中数对码本进行拉普拉斯平滑。

图10示出了本申请一个实施例中对量化器进行训练的步骤流程图。如图10所示，本申请实施例基于训练量化器，可以实现码本的构建和维护，该训练过程包括如下的S1001至S1006。

S1001：获取量化器的输入数据，输入数据是对音频数据(例如音频帧样本的音频数据)进行编码处理后得到的编码向量样本。

S1002：判断输入数据是否为量化器的首次输入数据。若输入数据是首次输入量化器，则执行S1003；若输入数据不是首次输入量化器，则执行S1004。

S1003：对输入数据进行聚类处理，得到M个聚类簇，每个聚类簇对应一个码本向量。M个码本向量可以组成用于进行数据量化的码本，码本中保存每个码本向量对应的编码索引值。

在一个可选的实施方式中，本申请实施例可以基于K-means聚类对输入数据进行聚类处理，每个聚类簇即对应一个码本向量和一个编码索引值。与此同时，可以统计每个聚类簇中各个向量的向量和以及每个聚类簇进行向量查询的命中数。

S1004：在码本中查询输入数据的归属类别。

查询归属类别的方式可以包括将输入数据与各个聚类簇的聚类中心进行相似度预测，将相似度最高的一个聚类簇作为输入数据的归属类别。

S1005：根据输入数据的归属类别确定对应的编码索引值以及量化处理后的码本向量。

S1006：获取码本向量的损失误差，并根据损失误差更新量化器的网络参数。码本向量的损失误差例如可以使用均方误差损失MSE Loss，均方误差是指参数估计值与参数值之差平方的期望值。均方误差损失可以评价数据的变化程度，均方误差损失的值越小，说明量化器对于输入数据的量化处理具有更好的精确度。

S1007：根据向量和对码本进行指数加权平滑。EMA平滑，即指数滑动平均(exponential moving average)，可以看作是变量的过去一段时间取值的均值，相比对变量直接赋值而言，滑动平均得到的值在数据分布上更加平缓光滑、抖动性更小，不会因为某次的异常取值而使得滑动平均值波动很大。

S1008：根据命中数对码本进行拉普拉斯平滑。通过拉普拉斯平滑可以解决码本的向量预测中出现的零概率问题。

本申请实施例通过对码本进行加权平滑，可以不断更新码本，使得编码器生成的向量更接近码本中的向量，提高量化器对于码本中向量的预测准确性。

图11示出了本申请一个实施例中的音频编码方法的步骤流程图，该方法可以由发送音频数据的终端设备或者服务器执行，本申请实施例以终端设备执行的音频编码方法作为示例进行说明，该终端设备例如可以是图2所示的音视频编码装置203或者图3所示的编码器310。

如图11所示，本申请实施例中的音频解码方法可以包括如下的S1110至S1130。

S1110：获取音频帧序列中各个音频帧的音频数据。

音频帧是对原始音频数据进行分帧处理和加窗处理后得到的具有指定时间长度的数据分段。

S1120：当编码到音频帧序列中的当前音频帧时，对历史音频帧的音频数据进行下采样得到下采样特征值，历史音频帧是音频帧序列中在当前音频帧之前编码的一个或者多个音频帧，下采样特征值是在下采样过程中得到的用于描述历史音频帧的特征向量。

下采样是将编码向量由高维度向低维度进行映射处理的操作，例如可以采用卷积操作或者池化操作进行下采样。

在本申请的一个实施例中，可以通过配置缓存区保留下采样的过程数据。在对一个音频帧进行下采样时，可以缓存下采样过程中获得的用于描述音频帧的特征向量。

S1130：根据下采样特征值对当前音频帧的音频数据进行下采样得到当前音频帧的编码向量。

在本申请的一个实施例中，可以将历史音频帧的下采样特征值与当前音频帧的音频数据共同作为输入数据输入至编码器中，使得编码器能够利用历史视频帧的特征对当前音频帧进行下采样。

原始音频数据在编码过程中会损失一些信息，本申请实施例通过缓存在前编码的历史音频帧的下采样特征，可以指导当前音频帧的下采样过程，提高音频编码的数据关联性，提高音频的编解码质量。

图12示出了本申请一个实施例中基于包括多个下采样层的卷积神经网络进行音频编码的方法步骤流程图。如图12所示，该音频编码方法可以包括如下的S1210至S1240。

S1210：获取音频帧序列中各个音频帧的音频数据。

S1220：获取包括多个下采样层的编码器，通过多个下采样层对历史音频帧的音频数据进行下采样处理得到多个特征向量，历史音频帧是在当前音频帧之前编码的一个或者多个音频帧。

本申请实施例可以采用如图3中所示的基于卷积神经网络构建的编码器对音频帧的音频数据进行编码处理。其中，编码器包括多个依次连接的下采样层，每个下采样层通过对输入向量进行卷积操作可以实现下采样处理。

本申请实施例中由编码器对历史音频帧的音频数据进行下采样处理后，可以得到与下采样层数量相同的多个特征向量。例如图3所示的编码器包括四个下采样层，每个下采样层输出一个特征向量，则针对一个历史音频帧进行下采样处理可以得到四个特征向量。

在一些可选的实施方式中，由编码器对历史音频帧的音频数据进行下采样处理后，可以得到数量小于下采样层的多个特征向量。例如图3所示的编码器包括四个下采样层，每个下采样层输出一个特征向量，然后从中抽取部分特征向量，即针对一个历史音频帧进行下采样处理可以得到数量少于四个的特征向量。

S1230：将当前音频帧的音频数据输入编码器，并将多个特征向量对应输入多个下采样层。

当前音频帧的音频数据依次通过编码器的多个下采样层进行多次下采样，在对当前音频帧的音频数据进行下采样处理的过程中，将历史音频帧经过下采样得到的多个特征向量同步输入至下采样层。即编码器中下采样层的输入数据除了前一个下采样层的输出数据之外，还包括了对历史音频帧进行下采样处理得到的特征向量。

S1240：通过多个下采样层对当前音频帧的音频数据和多个特征向量进行下采样处理，得到当前音频帧的编码向量。

本申请实施例通过保留前一音频帧的输出特征，可以将历史音频帧在下采样过程中获得的特征向量与当前音频帧的音频数据进行共同编码，因此能够提升当前音频帧的输入感受野，提高音频编解码的准确性。

在本申请的一个实施例中，编码器的下采样层包括至少两个采样通道。在此基础上，S1240中通过多个下采样层对当前音频帧的音频数据和多个特征向量进行下采样处理的方法可以包括：通过下采样层中的至少两个采样通道对当前音频帧的音频数据和多个特征向量进行特征提取得到至少两个通道特征值；获取至少两个通道特征值的均值和方差；根据均值和方差对至少两个通道特征值进行归一化处理。

不同的采样通道可以基于不同大小或者不同参数的卷积核对输入数据进行卷积处理得到不同表征维度下的多个通道特征值，从而可以提高对音频帧进行特征提取的全面性和可靠性。在此基础上，为了降低模型计算量，本申请实施例可以对同一音频帧在不同采样通道上采集到的通道特征值进行归一化处理。对不同采样通道上采集到的通道特征值进行归一化处理的方案可以参考图7所示的实施例，此处不再赘述。

在本申请的一个实施例中，可以基于查询码本进行音频帧编码处理。通过在编码器和解码器配置相同的码本，可以基于查询码本的方式对音频帧的编码向量进行定位，降低编解码侧的数据传输量。在本申请实施例中，当获得编码向量后，可以根据编码向量在码本中查询得到码本向量，并获取与码本向量相关联的编码索引值。

图13示出了本申请一个实施例中对编码器和解码器进行模型训练的步骤流程图。如图13所示，本申请实施例通过构建生成对抗网络实现对编码器和解码器的模型训练，训练方法可以包括如下的S1310至S1350。

S1310：获取包括多个下采样层的编码器和包括多个上采样层的解码器。

本申请实施例中的编码器和解码器可以是如图3所示的基于卷积神经网络构建的编解码模型，其中每个上采样层或者下采样层可以采用卷积操作或者因果卷积操作，用以进行特征映射。

S1320：通过编码器和解码器对音频输入样本进行编解码处理得到音频输出样本。

编码器对音频输入样本进行编码处理后可以得到对应的编码向量样本，然后由解码器对编码向量样本进行解码处理后得到音频输出样本。编码器和解码器进行编解码处理的方法可以参考上述实施例，此处不再赘述。

S1330：根据音频输入样本和音频输出样本确定编码器和解码器的第一损失误差。

在本申请的一个实施例中，分别对音频输入样本和音频输出样本进行频谱特征提取，即对音频输入样本进行频谱特征提取得到第一梅尔频谱，以及对音频输出样本进行频谱特征提取得到第二梅尔频谱，然后根据第一梅尔频谱和第二梅尔频谱的差异度确定编码器和解码器的第一损失误差。

在本申请的一个实施例中，对音频输入样本进行频谱特征提取得到第一梅尔频谱，以及对音频输出样本进行频谱特征提取得到第二梅尔频谱的方式可以是：获取包括至少两种样本尺度的采样窗口；通过采样窗口在不同的样本尺度上对音频输入样本进行频谱特征提取得到多尺度的第一梅尔频谱，以及对音频输出样本进行频谱特征提取得到多尺度的第二梅尔频谱。

S1340：通过样本判别器对音频输入样本和音频输出样本进行类型判别，并根据判别结果确定样本判别器的第二损失误差。

S1350：根据第一损失误差和第二损失误差对编码器、解码器和样本判别器进行生成对抗训练，以更新编码器、解码器和样本判别器的网络参数。

在本申请的一个实施例中，样本判别器可以包括原始样本判别器和样本特征判别器；通过样本判别器对音频输入样本和音频输出样本进行类型判别的方法包括：将音频输入样本和音频输出样本输入至原始样本判别器，得到由原始样本判别器输出的第一类型判别结果；对音频输入样本进行频谱特征提取得到第一梅尔频谱，以及对音频输出样本进行频谱特征提取得到第二梅尔频谱；将第一梅尔频谱和所述第二梅尔频谱输入至样本特征判别器，得到由样本特征判别器输出的第二类型判别结果。此时判别结果包括第一类型判别结果和第二类型判别结果。

图14示出了本申请一个实施例中基于生成对抗网络进行编解码模型训练的原理示意图。如图14所示，编解码器整体可以看成是语音转语音模型，为了使得模型生成出的语音更符合人耳听觉曲线，将输入音频input与输出音频output分别提取Mel频谱，作为损失函数的输入，使得二者在Mel频谱上接近。Mel频谱可设置不同的采样窗口大小，为了让生成语音质量更接近输入语音，本申请实施例采用多尺度Mel频谱约束作为重构Loss。

本申请实施例采用生成对抗网络(Generative Adversarial Network，GAN)进行模型训练，将编解码器作为生成器，同时设计两个判别器：原始语音作为输入的判别器(例如图14中的第一判别器)和Mel频谱作为输入的判别器(例如图14中的第二判别器)。通过两个判别器从音频采样和梅尔频谱采样两个角度进行数据判别，能够提高数据判别强度，进而提高编解码模型对于音频数据的编解码质量。

利用本申请上述实施例提供的编解码模型对音频数据进行编码或者解码处理，能够显著提高音频数据的编解码质量，尤其是在弱网环境下，如电梯内、高楼下、山区等环境中，提高语音通话、视频通话的通话质量。

表1示出了本申请实施例与相关技术中编解码模型的通话质量对比结果。其中，PESQ与STOI指标均用于衡量语音质量，且值越大越好。

表1

由表1的结果对比可知，本申请实施例提供的编解码模型在3kbps带宽下可流畅地语音通话，且通话质量高于开源编解码器Opus在6kbps带宽的通话质量。

应当注意，尽管在附图中以特定顺序描述了本申请中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的音频编解码方法。

图15示出了本申请一个实施例中的音频解码装置的结构框图。如图15所示，音频解码装置1500包括：

获取模块1510，被配置为获取音频帧序列中各个音频帧的编码向量；

第一上采样模块1520，被配置为当解码到所述音频帧序列中的当前音频帧时，对历史音频帧的编码向量进行上采样得到上采样特征值，所述历史音频帧是所述音频帧序列中在所述当前音频帧之前解码的一个或者多个音频帧，所述上采样特征值是在上采样过程中得到的用于描述历史音频帧的特征向量；

第二上采样模块1530，被配置为根据所述上采样特征值对所述当前音频帧的编码向量进行上采样得到所述当前音频帧的解码数据。

在本申请的一个实施例中，第二上采样模块1530可以进一步包括：

解码器获取模块，被配置为获取包括多个上采样层的解码器，所述上采样特征值包括由所述多个上采样层分别对所述历史音频帧的编码向量进行上采样处理得到的多个特征向量；

数据输入模块，被配置为将所述当前音频帧的编码向量输入所述解码器，并将所述多个特征向量对应输入所述多个上采样层；

上采样处理模块，被配置为通过所述多个上采样层对所述当前音频帧的编码向量和所述多个特征向量进行上采样处理，得到所述当前音频帧的解码数据。

编码器获取模块，被配置为获取包括多个下采样层的编码器；

编解码处理模块，被配置为通过所述编码器和所述解码器对音频输入样本进行编解码处理得到音频输出样本；

第一误差确定模块，被配置为根据所述音频输入样本和所述音频输出样本确定所述编码器和所述解码器的第一损失误差；

第二误差确定模块，被配置为通过样本判别器对所述音频输入样本和所述音频输出样本进行类型判别，并根据判别结果确定所述样本判别器的第二损失误差；

生成对抗训练模块，被配置为根据所述第一损失误差和所述第二损失误差对所述编码器、所述解码器和所述样本判别器进行生成对抗训练，以更新所述编码器、所述解码器和所述样本判别器的网络参数。

在本申请的一个实施例中，所述样本判别器包括原始样本判别器和样本特征判别器；第二误差确定模块包括：

判别器输入模块，被配置为将所述音频输入样本和所述音频输出样本输入至所述原始样本判别器，得到由所述原始样本判别器输出的第一类型判别结果；

频谱特征提取模块，被配置为对所述音频输入样本进行频谱特征提取得到第一梅尔频谱，以及对所述音频输出样本进行频谱特征提取得到第二梅尔频谱；

频谱特征输入模块，被配置为将所述第一梅尔频谱和所述第二梅尔频谱输入至所述样本特征判别器，得到由所述样本特征判别器输出的第二类型判别结果，所述判别结果包括所述第一类型判别结果和所述第二类型判别结果。

在本申请的一个实施例中，第一误差确定模块可以进一步被配置为：对所述音频输入样本进行频谱特征提取得到第一梅尔频谱，以及对所述音频输出样本进行频谱特征提取得到第二梅尔频谱；根据所述第一梅尔频谱和所述第二梅尔频谱的差异度确定所述编码器和所述解码器的第一损失误差。

在本申请的一个实施例中，第一误差确定模块可以进一步被配置为：获取包括至少两种样本尺度的采样窗口；通过所述采样窗口在不同的样本尺度上对所述音频输入样本进行频谱特征提取得到多尺度的第一梅尔频谱，以及对所述音频输出样本进行频谱特征提取得到多尺度的第二梅尔频谱。

在本申请的一个实施例中，所述上采样层包括至少两个采样通道；上采样处理模块，包括：

通道特征提取模块，被配置为通过所述上采样层中的至少两个采样通道对所述当前音频帧的编码向量和所述多个特征向量进行特征提取得到至少两个通道特征值；

均值方差获取模块，被配置为获取所述至少两个通道特征值的均值和方差；

归一化处理模块，被配置为根据所述均值和方差对所述至少两个通道特征值进行归一化处理。

在本申请的一个实施例中，上采样处理模块还包括：

加权平滑模块，被配置为对各个音频帧之间的均值和方差进行加权平滑处理；

归一化处理模块，被配置为根据加权平滑处理后的均值和方差对所述至少两个通道特征值进行归一化处理。

在本申请的一个实施例中，获取模块1510可以进一步包括：

编码索引值获取模块，被配置为针对所述音频帧序列中的每个音频帧，获取音频帧的编码索引值，所述编码索引值用于指示码本中的码本向量；

编码向量确定模块，被配置为在所述码本中查询与所述编码索引值相关联的码本向量，并根据所述码本向量确定音频帧的编码向量。

在本申请的一个实施例中，所述码本向量的维度低于所述编码向量的维度；编码向量确定模块可以进一步被配置为：对所述码本向量进行升维投影，得到音频帧的编码向量。

在本申请的一个实施例中，获取模块1510可以进一步包括：

量化器获取模块，被配置为获取所述码本以及用于维护所述码本的量化器，所述码本用于表示编码索引值与码本向量之间的映射关系；

编码向量样本获取模块，被配置为获取由编码器对音频帧样本进行编码处理得到的编码向量样本；

量化器预测模块，被配置为通过所述量化器预测与所述编码向量样本相匹配的码本向量样本；

量化器更新模块，被配置为根据所述编码向量样本与所述码本向量样本之间的损失误差，更新所述量化器的网络参数；

编码向量确定模块，被配置为通过训练得到的量化器在所述码本中查询与所述编码索引值相关联的码本向量。

在本申请的一个实施例中，获取模块1510可以进一步包括：

统计参数获取模块，被配置为获取与所述码本向量样本相匹配的编码向量样本的统计参数；

码本更新模块，被配置为根据所述统计参数更新所述码本，更新后的码本用于下一次预测与编码向量样本相匹配的码本向量样本。

在本申请的一个实施例中，所述统计参数包括向量和与命中数中的至少一种，所述向量和表示对各个编码向量样本进行加权平均处理后得到的平均值向量，所述命中数表示与所述码本向量样本相匹配的编码向量样本的数量；码本更新模块可以进一步被配置为：根据向量和对所述码本进行指数加权平滑；根据命中数对所述码本进行拉普拉斯平滑。

图16示出了本申请一个实施例中的音频编码装置的结构框图。如图16所示，音频编码装置1600包括：

获取模块1610，被配置为获取音频帧序列中各个音频帧的音频数据；

第一下采样模块1620，被配置为当编码到所述音频帧序列中的当前音频帧时，对历史音频帧的音频数据进行下采样得到下采样特征值，所述历史音频帧是所述音频帧序列中在所述当前音频帧之前编码的一个或者多个音频帧，所述下采样特征值是在下采样过程中得到的用于描述历史音频帧的特征向量；

第二下采样模块1630，被配置为根据所述下采样特征值对所述当前音频帧的音频数据进行下采样得到所述当前音频帧的编码向量。

本申请各实施例中提供的音频编解码装置的具体细节已经在对应的方法实施例中进行了详细的描述，此处不再赘述。

图17示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图。

需要说明的是，图17示出的电子设备的计算机系统1700仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图17所示，计算机系统1700包括中央处理器1701(Central Processing Unit，CPU)，其可以根据存储在只读存储器1702(Read-Only Memory，ROM)中的程序或者从存储部分1708加载到随机访问存储器1703(Random Access Memory，RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器1703中，还存储有系统操作所需的各种程序和数据。中央处理器1701、在只读存储器1702以及随机访问存储器1703通过总线1704彼此相连。输入/输出接口1705(Input/Output接口，即I/O接口)也连接至总线1704。

以下部件连接至输入/输出接口1705：包括键盘、鼠标等的输入部分1706；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1707；包括硬盘等的存储部分1708；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分17017。通信部分17017经由诸如因特网的网络执行通信处理。驱动器1710也根据需要连接至输入/输出接口1705。可拆卸介质1711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1710上，以便于从其上读出的计算机程序根据需要被安装入存储部分1708。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分17017从网络上被下载和安装，和/或从可拆卸介质1711被安装。在该计算机程序被中央处理器1701执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

一种音频解码方法，所述方法由计算机设备执行，包括：

获取音频帧序列中各个音频帧的编码向量；

当解码到所述音频帧序列中的当前音频帧时，对历史音频帧的编码向量进行上采样得到上采样特征值，所述历史音频帧是所述音频帧序列中在所述当前音频帧之前解码的一个或者多个音频帧，所述上采样特征值是在上采样过程中得到的用于描述历史音频帧的特征向量；

根据所述上采样特征值对所述当前音频帧的编码向量进行上采样得到所述当前音频帧的解码数据。
根据权利要求1所述的音频解码方法，根据所述上采样特征值对所述当前音频帧的编码向量进行上采样得到所述当前音频帧的解码数据，包括：

获取包括多个上采样层的解码器，所述上采样特征值包括由所述多个上采样层分别对所述历史音频帧的编码向量进行上采样处理得到的多个特征向量；

将所述当前音频帧的编码向量输入所述解码器，并将所述多个特征向量对应输入所述多个上采样层；

通过所述多个上采样层对所述当前音频帧的编码向量和所述多个特征向量进行上采样处理，得到所述当前音频帧的解码数据。
根据权利要求2所述的音频解码方法，在将所述当前音频帧的编码向量输入所述解码器之前，所述方法还包括：

获取包括多个下采样层的编码器；

通过所述编码器和所述解码器对音频输入样本进行编解码处理得到音频输出样本；

根据所述音频输入样本和所述音频输出样本确定所述编码器和所述解码器的第一损失误差；

通过样本判别器对所述音频输入样本和所述音频输出样本进行类型判别，并根据判别结果确定所述样本判别器的第二损失误差；

根据所述第一损失误差和所述第二损失误差对所述编码器、所述解码器和所述样本判别器进行生成对抗训练，以更新所述编码器、所述解码器和所述样本判别器的网络参数。
根据权利要求3所述的音频解码方法，所述样本判别器包括原始样本判别器和样本特征判别器；通过样本判别器对所述音频输入样本和所述音频输出样本进行类型判别，包括：

将所述音频输入样本和所述音频输出样本输入至所述原始样本判别器，得到由所述原始样本判别器输出的第一类型判别结果；

对所述音频输入样本进行频谱特征提取得到第一梅尔频谱，以及对所述音频输出样本进行频谱特征提取得到第二梅尔频谱；

将所述第一梅尔频谱和所述第二梅尔频谱输入至所述样本特征判别器，得到由所述样本特征判别器输出的第二类型判别结果，所述判别结果包括所述第一类型判别结果和所述第二类型判别结果。
根据权利要求3所述的音频解码方法，根据所述音频输入样本和所述音频输出样本确定所述编码器和所述解码器的第一损失误差，包括：

对所述音频输入样本进行频谱特征提取得到第一梅尔频谱，以及对所述音频输出样本进行频谱特征提取得到第二梅尔频谱；

根据所述第一梅尔频谱和所述第二梅尔频谱的差异度确定所述编码器和所述解码器的第一损失误差。
根据权利要求5所述的音频解码方法，对所述音频输入样本进行频谱特征提取得到第一梅尔频谱，以及对所述音频输出样本进行频谱特征提取得到第二梅尔频谱，包括：

获取包括至少两种样本尺度的采样窗口；

通过所述采样窗口在不同的样本尺度上对所述音频输入样本进行频谱特征提取得到多尺度的第一梅尔频谱，以及对所述音频输出样本进行频谱特征提取得到多尺度的第二梅尔频谱。
根据权利要求2所述的音频解码方法，所述上采样层包括至少两个采样通道；通过所述多个上采样层对所述当前音频帧的编码向量和所述多个特征向量进行上采样处理，包括：

通过所述上采样层中的至少两个采样通道对所述当前音频帧的编码向量和所述多个特征向量进行特征提取得到至少两个通道特征值；

获取所述至少两个通道特征值的均值和方差；

根据所述均值和方差对所述至少两个通道特征值进行归一化处理。
根据权利要求7所述的音频解码方法，在根据所述均值和方差对所述至少两个通道特征值进行归一化处理之前，所述方法还包括：

对各个音频帧之间的均值和方差进行加权平滑处理；

所述根据所述均值和方差对所述至少两个通道特征值进行归一化处理，包括：

根据加权平滑处理后的均值和方差对所述至少两个通道特征值进行归一化处理。
根据权利要求1至8中任意一项所述的音频解码方法，获取音频帧序列中各个音频帧的编码向量，包括：

针对所述音频帧序列中的每个音频帧，获取音频帧的编码索引值，所述编码索引值用于指示码本中的码本向量；

在所述码本中查询与所述编码索引值相关联的码本向量，并根据所述码本向量确定音频帧的编码向量。
根据权利要求9所述的音频解码方法，所述码本向量的维度低于所述编码向量的维度；根据所述码本向量确定音频帧的编码向量，包括：

对所述码本向量进行升维投影，得到音频帧的编码向量。
根据权利要求9所述的音频解码方法，在所述码本中查询与所述编码索引值相关联的码本向量之前，所述方法还包括：

获取所述码本以及用于维护所述码本的量化器，所述码本用于表示编码索引值与码本向量之间的映射关系；

获取由编码器对音频帧样本进行编码处理得到的编码向量样本；

通过所述量化器预测与所述编码向量样本相匹配的码本向量样本；

根据所述编码向量样本与所述码本向量样本之间的损失误差，更新所述量化器的网络参数；

在所述码本中查询与所述编码索引值相关联的码本向量，包括：

通过训练得到的量化器在所述码本中查询与所述编码索引值相关联的码本向量。
根据权利要求11所述的音频解码方法，在通过所述量化器预测与所述编码向量样本相匹配的码本向量样本之后，所述方法还包括：

获取与所述码本向量样本相匹配的编码向量样本的统计参数；

根据所述统计参数更新所述码本，更新后的码本用于下一次预测与编码向量样本相匹配的码本向量样本。
根据权利要求12所述的音频解码方法，所述统计参数包括向量和与命中数中的至少一种，所述向量和表示对各个编码向量样本进行加权平均处理后得到的平均值向量，所述命中数表示与所述码本向量样本相匹配的编码向量样本的数量；根据所述统计参数更新所述码本，包括：

根据所述向量和对所述码本进行指数加权平滑；

根据所述命中数对所述码本进行拉普拉斯平滑。
一种音频编码方法，所述方法由计算机设备执行，包括：

获取音频帧序列中各个音频帧的音频数据；

当编码到所述音频帧序列中的当前音频帧时，对历史音频帧的音频数据进行下采样得到下采样特征值，所述历史音频帧是所述音频帧序列中在所述当前音频帧之前编码的一个或者多个音频帧，所述下采样特征值是在下采样过程中得到的用于描述历史音频帧的特征向量；

根据所述下采样特征值对所述当前音频帧的音频数据进行下采样得到所述当前音频帧的编码向量。
一种音频解码装置，所述装置部署在计算机设备上，包括：

获取模块，被配置为获取音频帧序列中各个音频帧的编码向量；

第一上采样模块，被配置为当解码到所述音频帧序列中的当前音频帧时，对历史音频帧的编码向量进行上采样得到上采样特征值，所述历史音频帧是所述音频帧序列中在所述当前音频帧之前解码的一个或者多个音频帧，所述上采样特征值是在上采样过程中得到的用于描述历史音频帧的特征向量；

第二上采样模块，被配置为根据所述上采样特征值对所述当前音频帧的编码向量进行上采样得到所述当前音频帧的解码数据。
一种音频编码装置，所述装置部署在计算机设备上，包括：

获取模块，被配置为获取音频帧序列中各个音频帧的音频数据；

第一下采样模块，被配置为当编码到所述音频帧序列中的当前音频帧时，对历史音频帧的音频数据进行下采样得到下采样特征值，所述历史音频帧是所述音频帧序列中在所述当前音频帧之前编码的一个或者多个音频帧，所述下采样特征值是在下采样过程中得到的用于描述历史音频帧的特征向量；

第二下采样模块，被配置为根据所述下采样特征值对当前音频帧的音频数据进行下采样得到所述当前音频帧的编码向量。
一种计算机可读介质，所述计算机可读介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至14中任意一项所述的方法。
一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器可执行的计算机程序；

其中，所述处理器配置为经由执行所述可执行的计算机程序使得所述电子设备执行权利要求1至14中任意一项所述的方法。
一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现权利要求1至14中任意一项所述的方法。