WO2022213787A1

WO2022213787A1 - 音频编码方法、音频解码方法、装置、计算机设备、存储介质及计算机程序产品

Info

Publication number: WO2022213787A1
Application number: PCT/CN2022/081414
Authority: WO
Inventors: 梁俊斌
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2021-04-09
Filing date: 2022-03-17
Publication date: 2022-10-13
Also published as: JP2024501933A; EP4239630A1; US20230046509A1; CN112767956B; CN112767956A

Abstract

一种音频编码方法、音频解码方法、装置、计算机设备、计算机可读存储介质及计算机程序产品，该方法包括：获取第一样本音频中各个样本音频帧对应的样本音频特征参数（401）；通过编码码率预测模型对样本音频特征参数进行编码码率预测处理，得到样本音频帧的样本编码码率（402）；基于样本编码码率对样本音频帧进行音频编码，并基于各帧样本音频帧对应的编码结果生成样本音频数据（403）；对样本音频数据进行音频解码，得到样本音频数据对应的第二样本音频（404）；基于第一样本音频和第二样本音频，训练编码码率预测模型，直至样本编码质量分值达到目标编码质量分值时结束训练（405）；其中，样本编码质量分值通过第一样本音频和第二样本音频确定。

Description

音频编码方法、音频解码方法、装置、计算机设备、存储介质及计算机程序产品

相关申请的交叉引用

本申请实施例基于申请号为202110380547.9、申请日为2021年04月09日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请实施例作为参考。

技术领域

本申请涉及音视频技术领域，特别涉及一种音频编码方法、音频解码方法、装置、计算机设备、计算机可读存储介质及计算机程序产品。

背景技术

语音编码技术是将采集到的原始无损音频信号，通过音频模型对时域和频域的冗余分析和压缩，从而降低语音传输带宽和存储空间，同时保持较好的音频质量。一般语音编码器的输入参数包括：采样率、通道数和编码码率等，其中，编码码率越大则编码码流占用带宽越多、编码文件占用的存储空间越大，语音编码质量越高。

相关技术中，一般通过实验经验值设置编码码率，比如，在实验室环境下使用主观语音质量评估(PESQ，Perceptual Evaluation of Speech Quality)的方法测量不同编码参数下对应的PESQ值，再根据PESQ值和语音质量目标要求进行匹配，进而确定所需要的语音编码码率，该语音编码码率被用于实际业务中，在语音编码压缩的整个过程中，编码码率通常是固定不变的。

显然，采用相关技术中的固定编码码率的语音编码方法，由于语音信号本身是时变信号，不同时刻、不同语音信号在语音编码器内部的压缩过程存在较大差异，使得相同编码码率下，不同语音信号的编码质量差异较大，无法保证语音编码的质量。

发明内容

本申请实施例提供了一种音频编码方法、音频解码方法、装置、计算机设备、计算机可读存储介质及计算机程序产品，可以提高音频编码的质量，该技术方案包括如下方面。

本申请实施例提供了一种音频编码方法，所述方法包括：

获取第一样本音频中各个样本音频帧对应的样本音频特征参数；

通过编码码率预测模型对所述样本音频特征参数进行编码码率预测处理，得到所述样本音频帧的样本编码码率；

基于所述样本编码码率对所述样本音频帧进行音频编码，并基于各帧样本音频帧对应的编码结果生成样本音频数据；

对所述样本音频数据进行音频解码，得到所述样本音频数据对应的第二样本音频；

基于所述第一样本音频和所述第二样本音频，训练所述编码码率预测模型，直至样本编码质量分值达到目标编码质量分值时结束所述训练；

其中，所述样本编码质量分值通过所述第一样本音频和所述第二样本音频确定。

本申请实施例提供了一种音频编码方法，所述方法包括：

获取原始音频中各个音频帧对应的音频特征参数；

通过编码码率预测模型对所述音频特征参数进行编码码率预测处理，得到所述音频帧的音频编码码率，其中，所述编码码率预测模型用于预测达到目标编码质量分值时各个所述音频帧对应的音频编码码率；

基于所述音频编码码率对所述音频帧进行音频编码，并基于各帧音频帧对应的编码结果生成目标音频数据。

本申请实施例提供了一种音频解码方法，所述方法包括：

获取所述编码后的目标音频数据；

通过与音频编码码率对应的音频解码码率对所述编码后的目标音频数据进行音频解码，得到解码后的所述目标音频数据。

本申请实施例提供了一种音频编码装置，所述装置包括：

第一获取模块，配置为获取第一样本音频中各个样本音频帧对应的样本音频特征参数；

第一处理模块，配置为通过编码码率预测模型对所述样本音频特征参数进行编码码率预测处理，得到所述样本音频帧的样本编码码率；

第一编码模块，配置为基于所述样本编码码率对所述样本音频帧进行音频编码，并基于各帧样本音频帧对应的编码结果生成样本音频数据；

音频解码模块，配置为对所述样本音频数据进行音频解码，得到所述样本音频数据对应的第二样本音频；

训练模块，配置为基于所述第一样本音频和所述第二样本音频，训练所述编码码率预测模型，直至样本编码质量分值达到目标编码质量分值时结束所述训练；其中，所述样本编码质量分值通过所述第一样本音频和所述第二样本音频确定。

本申请实施例提供了一种音频编码装置，所述装置包括：

第四获取模块，配置为获取原始音频中各个音频帧对应的音频特征参数；

第二处理模块，配置为通过编码码率预测模型对所述音频特征参数进行编码码率预测处理，得到所述音频帧的音频编码码率，其中，所述编码码率预测模型用于预测达到目标编码质量分值时各个所述音频帧对应的音频编码码率；

第二编码模块，配置为基于所述音频编码码率对所述音频帧进行音频编码，并基于各帧音频帧对应的编码结果生成目标音频数据。

本申请实施例提供了一种音频解码装置，所述装置包括：

第五获取模块，配置为获取所述编码后的目标音频数据；

解码模块，配置为通过与音频编码码率对应的音频解码码率对所述编码后的目标音频数据进行音频解码，得到解码后的所述目标音频数据。

本申请实施例提供了一种计算机设备，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如上述方面所述音频编码方法或所述音频解码方法。

本申请实施例提供了一种计算机可读存储介质，所述存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现如上述方面所述音频编码方法或所述音频解码方法。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述可选实现方式中提供的音频编码方法或所述音频解码方法。

本申请实施例提供的技术方案可以包括以下有益效果：

在音频编码场景中，通过分析原始音频中各个音频帧对应的音频特征参数，以实现基于音频特征参数动态调控音频帧对应的音频编码码率的目的，可以为各个音频帧确定与音频特征参数匹配的音频编码码率，从而提高整个音频的编码质量；相比于相关技术中采用固定编码码率，采用动态编码码率进行音频编码，可以在音频编码质量满足目标要求的同时，尽可能的减小音频编码码率，进而可以降低音频数据的存储空间，以及减少传输音频数据过程中的带宽消耗。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1示出了相关技术中音频编码的过程示意图；

图2示出了本申请实施例提供的实施环境的示意图；

图3示出了本申请实施例示出的音频编码方法的流程图；

图4示出了本申请实施例示出的音频编码方法的流程图；

图5示出了本申请实施例示出的音频编码方法的流程图；

图6示出了本申请实施例示出的音频编码方法的流程图；

图7示出了本申请实施例示出的完整模型训练过程的示意图；

图8示出了本申请实施例示出的音频编码方法的流程图；

图9示出了本申请实施例示出的音频编码方法的流程图；

图10示出了本申请实施例示出的音频编码过程的示意图；

图11示出了本申请实施例示出的音频编码装置的结构方框图；

图12示出了本申请实施例示出的音频编码装置的结构方框图；

图13示出了本申请实施例提供的计算机设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

为了便于理解，下面对本申请实施例涉及的名词进行解释。

1)音频编码：音频编码是将原始采集到的原始无损音频信号，通过音频模型对时域和频域的冗余分析和压缩，从而降低语音传输带宽和存储空间，同时保持较好的音频质量。音频编码器的输入参数包括：采样率、通道数、编码码率等；其中，当音频编码时所采用的编码码率越大时，语音编码质量越好，但是编码码流占用带宽越多，且音频编码后的音频文件占用的存储空间越大。

2)人工智能(AI，Artificial Intelligence)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

需要说明的是，本申请实施例主要涉及到人工智能技术领域中的机器学习技术领域。

请参考图1，其示出了相关技术中音频编码的过程示意图。以语音通话场景中的音频编码为例，往往在语音通话启动之前，就预先基于实验经验值为音频编码器设置固定的编码参数，当发送端101启动语音通话时，基于当前语音通话场景配置的编码参数104，对采集到的原始语音103进行语音编码和信道编码后，并将编码结果经过互联网传输至接收端102，接收端102对编码结果进行信道解码和语音解码，生成对应的声音信号105。在整个语音通话过程中，编码参数(编码码率)一般是固定不变的，仅会根据丢包状态106进行适当调节。

显然，以固定编码码率对音频信号进行编码，由于语音信号本身是时变信号，不同时刻、不同语音信号在语音编码器内部的压缩过程存在较大差异，使得相同编码码率下，不同语音信号的编码质量差异较大，无法保证语音编码的质量。

针对相关技术中的问题，本申请实施例提供了一种基于音频特征参数动态调整音频编码码率的方法(即音频编码方法以及音频解码方法)，请参考图2，其示出了本申请实施例提供的实施环境的示意图。该实施环境可以包括：第一终端210、服务器220和第二终端230。

第一终端210中安装和运行有支持网络通话技术的应用程序。其可以是诸如智能手机、台式电脑、平板电脑、多媒体播放设备、智能手表、智能音箱，膝上型便携计算机等电子设备。其中，该应用程序可以是社交类程序、直播类程序、购物类程序、游戏类程序、视频类程序、音频类程序、即时通讯类程序等。

在一些实施例中，第一终端210中存储有编码码率预测模型，该编码码率预测模型可以基于音频信号对应的音频特征参数，动态调控音频编码码率，并基于预测得到的音频编码码率进行音频编码，并将编码得到的音频数据流通过服务器220推送至第二终端230；例如，当编码后的音频数据需要通过网络传输时，为了使得音频数据可以以更好的质量传输至接收端(比如，第二终端230)，可以在预测编码码率时加入接收端反馈的网络状态参数。例如，除了特定场景(该特定场景可以是：音视频通话场景、直播场景等)下需要将编码得到的音频数据通过网络传输至接收端，在其他可能的应用场景下，编码后的音频数据无需通过网络传输，仅需要存储在本地或其他存储介质中，对应的，在预测音频编码码率时，也就无需考虑网络状态参数。

需要说明的是，第一终端210中预先存储的编码码率预测模型可以是由其他计算机设备(图中未示出)训练完成，并将该编码码率预测模型推送至第一终端210中，使得第一终端210在实际应用过程中，可以基于该编码码率预测模型实现动态调整音频编码码率的目的。例如，该计算机设备可以是第一终端210中应用程序对应的后台服务器。

其中，第一终端210与服务器220之间可以通过无线网络或有线网络相连。

服务器220用于为第一终端210或第二终端230中的应用程序(如能够进行网络通话的应用程序)提供后台服务。例如，服务器220可以是上述应用程序的后台服务器。服务器220可以是一台服务器，也可以是由多台服务器组成的服务器集群，其中多个服务器可组成为一区块链，而服务器为区块链上的节点，或者是一个云计算服务中心。本申请实施例中，服务器220可以接收来自第一终端210的音频数据流，并向指示的第二终端230推送该音频数据流。例如，服务器220可以接收第二终端230反馈的网络状态参数，并将该网络状态参数反馈给第一终端210，以便第一终端210基于该网络状态参数调整音频编码码率。

其中，第二终端230与服务器220之间可以通过无线网络或有线网络相连。

第二终端230中安装和运行有支持网络通话技术的应用程序。其可以是诸如智能手机、台式电脑、平板电脑、多媒体播放设备、智能手表、智能音箱，膝上型便携计算机等电子设备。其中，该应用程序可以是社交类程序、直播类应用程序、购物类程序、游戏类程序、视频类程序、音频类程序、即时通讯类程序等。本实施例中，第二终端230可以接收第一终端210发送的音频数据流，并对音频数据流进行解码，呈现传输的音频。例如，第二终端230可以向第一终端210反馈网络状态参数，使得第一终端210可以基于网络状态参数动态调整音频编码码率。例如，除了特定场景(该特定场景可以是：音视频通话场景、直播场景等)下需要将编码得到的音频数据通过网络传输至接收端，在其他可能的应用场景下，编码后的音频数据无需通过网络传输，仅需要存储在本地或其他存储介质中，对应的，在预测音频编码码率时，也就无需考虑网络状态参数。

需要说明的是，本申请实施例中的音频并不局限于通话音频，还可以是录音、直播音频等。其中，上述终端可以包括各种类型的应用，例如，即时通讯应用、视频播放应用、录音应用、直播应用等。

在一些实施例中，上述音频编码方法以及音频解码方法不限于应用于云游戏、语音通话、视频直播等场景中。

请参考图3，其示出了本申请实施例示出的音频编码方法的流程图，本申请实施例以该方法应用于图2所示的第一终端210为例进行说明，该方法包括如下步骤。

步骤301，获取原始音频中各个音频帧对应的音频特征参数。

其中，原始音频可以是终端采集到的语音，示意性的，原始音频可以是网络语音通话场景或视频通话场景中采集到的声音信号，也可以是直播场景中采集到的声音信号，也可以是在线K歌场景中采集到的声音信号，也可以是语音广播场景中采集到的声音信号；例如，原始音频也可以是语音存储场景中获取到的音频，示意性的，原始音频可以是语音、音乐、视频等，本申请实施例不局限于原始音频的形式。

为了使得音频可以更易存储和远距离传输，通常需要对获取到的原始音频进行音频编码，以减少音频存储的空间，或减少远距离传输所消耗的流量带宽，相关技术中，在进行音频编码过程中，一般通过前期测量得到不同应用场景下所适用的音频编码码率，从而在实际应用过程中，采用该音频编码码率对获取到的原始音频进行编码，也就是说，对于某个应用场景下的所有音频，均采用固定编码码率。以语音信号为例，语音信号本身是时变信号，若采用固定编码码率对不同语音信号进行编码，不同时刻、不同语音信号在音频编码器内部的压缩质量显然存在较大差异，可能无法保证语音编码质量。

本申请实施例中，考虑到音频信号的特征(可变性)，为了提高音频编码质量，在一种可能的实施方式中，通过分析同一原始音频中各个音频帧对应的音频特征参数，以便基于该音频特征参数分别预测得到各个音频帧对应的音频编码码率，使得音频编码码率可以基于不同音频特征参数进行动态调控，从而使得每一帧音频帧都可以达到编码质量要求，进而提高了原始音频的编码质量。

例如，对原始音频进行音频帧划分时，可以按照设定时长进行划分，示意性的，20ms为一帧音频帧。

例如，音频特征参数可以包括固定增益、自适应增益、基音周期、线谱对参数等，本申请实施例不局限于固定增益、自适应增益、基音周期、线谱对参数。

基音周期是用于反映声门相邻两次开闭之间的时间间隔或开闭的频率；示意性的，人在发音时，声带振动产生浊音(清音由空气摩擦产生)。浊音的发音过程是：来自肺部的气流冲击声门，造成声门的一张一合，形成一系列准周期的气流脉冲，经过声道(含口腔、鼻腔)的谐振及唇齿辐射，最终形成语音信号。故浊音波形呈现一定的准周期性，而基音周期，就是对这种准周期而言的。例如，在提取音频信号对应的基音周期时，可以采用自相关法、倒谱法、平均幅度差函数法、线性预测法、小波-自相关函数法，谱减-自相关函数法等。示意性的，一般浊音需要较高的编码码率(编码码率大于浊音码率阈值)，而清音需要较低的编码码率(编码码率大于清音码率阈值)，因此针对不同语音信号，使其达到预设编码质量时所需要采用的编码码率也不相同，对应的，在训练编码码率预测模型过程中，通过提取音频帧所对应的基音周期，进一步分析该基音周期对应的音频帧所需要采用的编码码率。

由于手机等设备采集的原始音频往往有时候响度偏低，有时候响度偏高，造成声音忽大忽小，影响听众的主观感受，因此，在进行音频编码过程中，需要对输入声音进行正向或负向调节，使得输出的声音适宜人耳的主观感受。该过程即为对原始音频的增益调控过程，而不同时刻的语音信号由于响度高低的差异，对应的自适应增益存在差异，在对音频帧进行增益过程中，也同样会增加音频信号中的噪声信号，而音频编码的实质是为了减少音频中的冗余(即噪声信号)，显然，不同增益会影响该音频信号的编码码率，因此，需要基于不同音频帧对应的增益确定其对应的编码码率。

线谱对参数用于反映音频信号的频谱特征，线谱对参数具有误差相对独立性，即某个频率点上的线谱对参数偏差只对该频率附近的语音频谱产生影响，而对其它频率上的线谱对参数语音频谱影响不大。这样有利于线谱对参数的量化和插值，以相对少的编码码率达到相同质量的编码音频，可见音频信号对应的线谱对参数有助于编码码率的确定。

例如，可以设置对应的音频特征提取模型，将原始音频输入该音频特征提取模型，对原始音频中包含的各个音频帧进行音频特征提取，从而输出各帧音频帧对应的音频特征参数。

例如，由于音频特征参数包含很多特征维度，为了提高音频特征提取的效率，可以从中选择出对编码结果影响较大(编码结果影响大于影响阈值)的N种音频特征维度上的特征参数，对应的，仅需要提取该N种音频特征维度上的音频特征参数即可，其中，N为正整数。例如，针对不同音频种类，可以设置不同音频特征提取维度。

步骤302，通过编码码率预测模型对音频特征参数进行编码码率预测处理，得到音频帧的音频编码码率。

其中，编码码率预测模型是以目标编码质量分值为目标进行训练的，因此，在应用该编码码率预测模型进行编码码率预测过程中，可以基于各个音频帧对应的音频特征参数，预测出使得原始音频对应的音频编码质量达到目标编码质量分值时，各个音频帧所对应的音频编码码率。其中，不同音频特征参数对应不同音频编码码率。

其中，终端中设置有编码码率预测模型，该编码码率预测模型可以基于各个音频帧对应的音频特征参数，动态调控各个音频帧对应的音频编码码率。将每一帧音频帧对应的音频特征参数输入该编码码率预测模型中，从而可以得到该帧音频帧对应的音频编码码率，以便后续可以基于该音频编码码率对音频帧进行音频编码。

示意性的，编码码率预测模型的训练过程可以参考下文实施例，本申请实施例在此不做赘述。

步骤303，基于音频编码码率对音频帧进行音频编码，并基于各帧音频帧对应的编码结果生成目标音频数据。

在一些实施例中，当获取到不同音频帧对应的音频编码码率后，可以基于该音频编码码率对音频帧进行编码，进而结合各个音频帧对应的编码结果，以生成原始音频对应的目标音频数据。

示意性的，若原始音频被划分为音频帧1～音频帧50，对应的，音频帧对应音频特征参数为音频特征参数1～音频特征参数50，将各个音频帧对应的音频特征参数分别输入编码码率预测模型中，得到音频帧对应的编码码率(即编码码率1～编码码率50)，再分别基于各个音频帧对应的音频编码码率对音频帧进行音频编码，得到各个音频帧对应的音频编码结果(即音频编码结果1～音频编码结果50)，从而组合音频编码结果1～音频编码结果50，得到原始音频对应的目标音频数据。

需要说明的是，本申请实施例的音频编码方法可以是脉冲编码调制(PCM，Pulse Code Modulation)编码、波形声音文件(WAV)编码、MP3编码等。

例如，该目标音频数据可以存储在终端中，也可以通过网络传输至其他设备。例如，特定场景(例如音视频通话场景、直播场景等)下需要将编码得到的目标音频数据通过网络传输至接收端，接收端通过与音频编码码率对应的音频解码码率对目标音频数据进行音频解码，得到解码后的目标音频数据，以无损播放解码后的目标音频数据。

例如，对于同一原始音频中，一般连续几帧音频帧之间的音频特征差异小，对应的音频编码码率的差异也小，或一般对应相同音频编码码率，为了避免编码码率预测模型出现偶然误差影响音频编码结果，可以对获得的各个音频帧对应的音频编码码率进行平滑处理，以降低预测误差对音频编码质量的影响。

综上，本申请实施例中，通过分析原始音频中各个音频帧对应的音频特征参数，以实现基于音频特征参数动态调控音频帧对应的音频编码码率的目的，可以为各个音频帧确定与音频特征参数匹配的音频编码码率，从而提高整个音频的编码质量；相比于相关技术中采用固定编码码率，本申请实施例中采用动态编码码率进行音频编码，可以在音频编码质量满足目标要求的同时，尽可能的减小音频编码码率，进而可以降低音频数据的存储空间，以及减少传输音频数据过程中的带宽消耗。

为了使得编码码率预测模型可以实现动态调控音频编码码率的目标，需要预先通过大量样本音频对编码码率预测模型进行训练，使得该编码码率预测模型可以学习到对应不同音频特征参数的音频所适用的音频编码码率，以便在应用过程中可以基于该编码码率预测模型动态调控音频编码码率。

请参考图4，其示出了本申请实施例示出的音频编码方法的流程图，本申请实施例以计算机设备为例进行示例性说明，该方法包括如下步骤。

步骤401，获取第一样本音频中各个样本音频帧对应的样本音频特征参数。

需要说明的是，编码码率预测模型是用于匹配不同音频特征参数所对应的音频编码码率的，在编码码率预测模型的训练过程中，需要获取到大量的样本音频，以及样本音频中各个样本音频帧对应的样本音频特征参数，用于训练编码码率预测模型。

例如，样本音频特征参数可以由音频特征提取模型提取得到。

例如，为了使得编码码率预测模型可以适用于更多应用场景，在获取第一样本音频时，可以获取不同种类的音频，比如，语音、音乐、音视频中的音频等。

示意性的，第一样本音频的数量越多，编码码率预测模型预测的准确性越高；第一样本音频的种类越丰富，编码码率预测模型的预测范围和预测准确性也越高。

例如，在选择第一样本音频帧时，除了可以选择不同类型的音频，对于同一类型的音频，也可以选取不同音频内容、不同音频时长的样本音频；对于同一样本音频，也可以对第一样本音频划分为不同音频帧，用于后续提取音频特征参数。

步骤402，通过编码码率预测模型对样本音频特征参数进行编码码率预测处理，得到样本音频帧的样本编码码率。

在一些实施例中，将各个样本音频帧对应的样本音频特征参数输入编码码率预测模型中，可以得到编码码率预测模型输出的各个样本音频帧对应的样本编码码率。

例如，编码码率预测模型可以采用全连接网络作为主网络，也可以采用深度神经网络(DNN，Deep Neural Networks)、卷积神经网络(CNN，Convolutional Neural Networks)、循环神经网络(RNN，Recurrent Neural Network)等神经网络，或者开发人员基于实际需求搭建神经网络，本申请实施例不限定于编码码率预测模型的结构。不同样本音频特征参数对应不同样本编码码率。

步骤403，基于样本编码码率对样本音频帧进行音频编码，并基于各帧样本音频帧对应的编码结果生成样本音频数据。

由于编码码率预测模型输出的样本编码码率或音频编码码率是对应音频编码场景的，对应的，在评估编码码率预测模型输出的编码码率是否匹配音频帧时，需要利用该样本编码码率对样本音频帧进行音频编码后，再基于音频编码结果作为训练编码码率预测模型的依据之一。

在一些实施例中，对于第一样本音频，获取到该第一样本音频中各个样本音频帧对应的样本编码码率，并基于各个样本音频帧对应的样本编码码率对各个样本音频帧进行音频编码，从而基于各帧样本音频帧对应的编码结果生成样本音频数据，以用于后续评估第一样本音频对应的本次语音编码质量。

步骤404，对样本音频数据进行音频解码，得到样本音频数据对应的第二样本音频。

为了评估语音编码质量，通过对样本音频数据进行音频解码，得到基于样本音频数据生成的第二样本音频，以便通过比较第二样本音频和原始样本音频，进而确定第一样本音频的音频编码质量。

步骤405，基于第一样本音频和第二样本音频，训练编码码率预测模型，直至样本编码质量分值达到目标编码质量分值时结束训练。

其中，样本编码质量分值通过第一样本音频和第二样本音频确定。

在一些实施例中，通过比较原始音频(第一样本音频)和经过音频编解码之后的音频(第二样本音频)，来确定本次编码参数所对应的编码质量，从而基于该编码质量调整编码码率预测模型的各个参数，进而通过若干训练周期完成编码码率预测模型的训练过程。

在训练编码码率预测模型过程中，当采用编码码率预测模型输出的编码码率对样本音频进行音频编码后，可以使得样本音频的样本编码质量分值达到目标编码质量分值时，确定编码码率预测模型训练完成。示意性的，该目标编码质量分值可以是5分。例如，也可以基于实际应用场景需求设置编码码率预测模型对应的目标编码质量分值。

其中，针对确定样本编码质量的方式，可以采用主观语音质量评估(PESQ，Perceptual Evaluation of Speech Quality)测试方法，通过计算出第一样本音频和第二样本音频对应的差异值，进而映射到平均意见值(MOS，Mean Opinion Score)，若第一样本音频和第二样本音频差异越大，对应的语音编码质量越差，MOS值越低。

综上，本申请实施例中，通过训练编码码率预测模型，使得编码码率预测模型可以基于样本音频帧对应的样本音频特征参数，动态调控音频编码码率，在实际应用过程中，使得基于编码码率预测模型预测得到的音频编码码率更符合音频信号的特征，可以在音频编码质量满足目标要求的同时，尽可能的减小音频编码码率，进而可以降低音频数据的存储空间，以及减少传输音频数据过程中的带宽消耗。

对于一段音频，虽然不同时刻均是变化的，但是连续多帧音频帧之间的差异小，也就是说，相邻音频帧之间的音频特征参数差异小，在预测当前音频帧对应的音频编码码率时，前一帧音频帧对应的音频编码码率对当前音频帧具有一定的参考意义，为了进一步提高音频编码码率的预测准确性，可以将前一帧音频帧对应的音频编码码率回归到下一帧音频帧的编码码率预测过程中。

请参考图5，其示出了本申请实施例示出的音频编码方法的流程图，本申请实施例以计算机设备为例进行示例性说明，该方法包括如下步骤。

步骤501，获取第一样本音频中各个样本音频帧对应的样本音频特征参数。

步骤501的实施方式可以参考步骤401，本申请实施例在此不做赘述。

例如，样本音频特征参数可以包括固定增益、自适应增益、基音周期、基音频率、线谱对参数中的至少一种。

步骤502，获取第i-1帧样本音频帧对应的第i-1样本编码码率。

其中，i为递增的整数且取值范围为1<i≤N，N为样本音频帧的数量，N为大于1的整数。

在一些实施例中，通过将前一帧样本音频帧对应的样本编码码率回归到编码码率预测模型中，使得在预测下一帧样本音频帧对应的样本编码码率时，可以参考前一帧的样本编码码率，可以尽量避免出现样本编码码率波动大的情况。

步骤503，通过编码码率预测模型对第i样本音频特征参数和第i-1样本编码码率进行编码码率预测处理，得到第i帧样本音频帧对应的第i样本编码码率。

在一些实施例中，在预测第i帧样本音频帧对应的第i样本编码码率时，可以将获取到的第i-1帧样本编码码率和第i样本音频特征参数一起输入编码码率预测模型中，为第i样本编码码率提供预测依据，可以进一步提高编码码率的预测准确性。

示意性的，若第一样本音频被划分为样本音频帧1～样本音频帧60，对应的，在编码码率预测过程中，当编码码率预测模型输出第10帧样本音频帧对应的第10样本编码码率，预测第11帧样本音频帧对应的第11样本编码码率时，可以将第10样本编码码率和第11样本音频特征参数一起输入编码码率预测模型中，得到第11样本编码码率。

步骤504，基于样本编码码率对样本音频帧进行音频编码，并基于各帧样本音频帧对应的编码结果生成样本音频数据。

步骤505，对样本音频数据进行音频解码，得到样本音频数据对应的第二样本音频。

步骤504和步骤505的实施方式可以参考上述实施例，本申请实施例在此不做赘述。

步骤506，基于第一样本音频和第二样本音频，确定第一样本音频对应的样本编码质量分值。

在一些实施例中，通过对第一样本音频和第二样本音频进行PSEQ测试，进而将测量结果映射到MOS值，将该MOS值确定为第一样本音频对应的样本编码质量分值。

示意性的，MOS值的取值范围可以是0～5，其中，MOS分值越高，表示音频编码质量越好。

步骤507，基于样本编码质量分值和目标编码质量分值，训练编码码率预测模型。

其中，目标编码质量分值指示音频编码的预期目标，由开发人员进行设置，可以基于编码码率预测模型的应用场景设置不同的目标编码质量分值，示意性的，若编码码率预测模型适用于语音通话场景，可以设置目标编码质量分值为4，若编码码率预测模型适用于音频存储场景，可以设置目标编码质量分值为5。

例如，也可以针对不同目标编码质量分值训练出不同的编码码率预测模型，以便在实际应用过程中，可以基于实际应用场景对目标编码质量分值的要求，选择对应的编码码率预测模型。

在一些实施例中，通过比较样本编码质量分值和目标编码质量分值，确定本次编码结果与预期目标之间的差距，进而基于该音频差距训练编码码率预测模型，从而更新编码码率预测模型中的各个参数。

在音频编码过程中，除了目标编码质量分值之外，编码码率的选取也应该作为评价编码质量的指标之一，示意性的，对于同一音频信号，若采用编码码率A和编码码率B均可以达到相同的编码质量，但是编码码率A小于编码码率B，而编码码率越大，可能会消耗更多的存储空间和流量带宽，因此，还需要从编码码率A和编码码率B中决策出较小的编码码率，对应的，在模型训练过程中，将编码码率也作为编码码率预测模型的损失参数之一。

示例性地，训练编码码率预测模型的过程还可以包括如下步骤。

一、确定第一样本音频对应的平均编码码率，平均编码码率通过各帧样本音频帧对应的样本编码码率确定。

本申请实施例在音频编码过程中，针对每一帧样本音频帧均预测了对应的样本编码码率，在评价是否可以达到较小的样本编码码率时，可以对各帧样本音频帧对应的样本编码码率取平均值，求得平均编码码率，进而将该平均编码码率确定为评价音频编码质量的参数之一。

二、基于平均编码码率、样本编码质量分值和目标编码质量分值，构建第一样本音频对应的第一编码损失。

在一些实施例中，通过综合编码码率和编码质量分值两个参数维度，共同评价第一样本音频对应的编码损失，即基于平均编码码率、样本编码质量分值和目标编码质量分值，计算得到第一样本音频对应的第一编码损失。

例如，开发人员可以基于应用场景的需求，自行调整两个参数维度上的权重，示意性的，对于语音通话场景下，可以为编码码率设置较大的权重；对于音频存储场景，可以为编码质量分值设置较大的权重。

示例性地，构建第一编码损失的过程还可以包括如下步骤。

1、获取平均编码码率对应的第一损失权重，以及编码质量分值对应的第二损失权重，编码质量分值通过样本编码质量分值和目标编码质量分值确定。

在一些实施例中，在计算编码损失时，可以分别获取到平均编码码率和编码质量分值对应的损失权重，进而基于各个参数对应的损失权重，计算得到第一编码损失。

例如，第一损失权重和第二损失权重由开发人员进行设置。可以基于编码码率预测模型应用场景的不同，分别设置不同的第一损失权重和第二损失权重，使得训练得到的编码码率预测模型更适用于该应用场景的需求。

例如，也可以针对不同损失权重的组合训练不同的编码码率预测模型，进而在实际应用过程中，可以针对不同应用场景的需求选择对应的编码码率预测模型。

2、基于平均编码码率、第一损失权重、编码质量分值以及第二损失权重，构建第一样本音频对应的第一编码损失。

示例性地，计算第一编码损失的公式可以表示为如下：

a*average(bitrate)+(1-a)*power(f(MOS_SET-mos)，3)

其中，a表示值为0～1的加权系数(即损失权重)；average(.)表示求平均函数；bitrate表示编码码率；power(.)表示幂函数；MOS_SET表示语音客观质量MOS分的预设目标值(即目标编码质量分值)，mos表示样本编码质量分值，函数f(x)定义为当x<＝0时，f(x)＝0，而x>0时，f(x)＝x。

在一些实施例中，将平均编码码率、第一损失权重、样本编码质量分值、目标编码质量分值、第二损失权重带入上述公式，可以计算得到第一样本音频对应的第一编码损失。

三、基于第一编码损失和预设编码损失，训练编码码率预测模型。

在一些实施例中，在训练编码码率预测模型过程中使用交叉熵(Cross-Entropy)准则，也就是说，预先设置有预设编码损失，只有当第一编码损失无限接近于预设编码损失时，可以确定编码码率预测模型训练完成。

在一些实施例中，通过将前一帧样本编码码率回归到编码码率预测模型中，可以为后一帧样本编码码率的预测提供一定的参考价值，从而避免预测过程中编码码率波动幅度大，进而可以提高编码码率的预测准确性；此外，以编码码率小和编码质量好为目标训练编码码率预测模型，使得编码码率预测模型在应用过程中控制语音编码码率时，达到语音编码质量满足目标要求的前提下编码码率最小，对应的，在同等带宽或存储空间条件下，可以使音频编码质量最佳。

在特定应用场景中，经过音频编码之后的音频数据需要经过网络传输至其他终端，比如，语音通话场景下，需要将编码后的语音数据传输至其他客户端，而接收端是否可以获取到好的音频信号不仅取决于编码码率，还与网络传输过程的网络环境状态有关，因此，为了使得在该特定场景下接收端可以获得质量好的音频信号，在预测音频编码码率的过程中，还需要考虑到当前网络状态参数，对应的，在模型训练过程中，也需要网络状态参数参与模型训练。

示例性地，在图4的基础上，如图6所示，步骤402可以被替换为步骤601和步骤602。

步骤601，获取第一样本音频的样本网络状态参数。

在训练编码码率预测模型中，为了使得预测出的音频编码码率适用于当前网络状态，可以将网络状态参数也加入到训练编码码率预测模型的训练样本中。示意性的，样本网络状态参数可以是丢包率、网络传输速率等。

例如，可以随机模拟所需要的样本网络状态参数。示意性的，可以针对不同样本音频生成不同的样本网络状态参数，或针对不同样本音频帧生成对应的样本网络状态参数，或每隔预设时间段生成对应的样本网络状态参数。

对应的，在预测样本音频帧对应的样本编码码率时，可以将样本网络状态参数和该样本音频帧对应的样本音频特征参数共同输入编码码率预测模型中，进行编码码率预测。

步骤602，通过编码码率预测模型对样本网络状态参数和样本音频特征参数进行编码码率预测处理，得到样本音频帧的样本编码码率。

在一些实施例中，在预测样本音频帧对应的样本编码码率时，除了需要获取到该样本音频帧对应的样本音频特征参数，还需要获取到本次预测所使用的样本网络状态参数，并将样本网络状态参数和该样本音频特征参数共同输入编码码率预测模型中，从而得到编码码率预测模型输出的样本编码码率。

例如，为了进一步提高特定应用场景下的编码预测准确性，在进行编码码率预测过程中，也可以将前一帧样本音频帧对应的样本编码码率回归到编码码率预测模型中，为预测下一帧样本音频帧对应的样本编码码率提供预测参考。

在一些实施例中，可以将样本网络状态参数、第i-1样本编码码率(第i-1帧样本音频帧对应的编码码率)和第i样本音频特征参数输入编码码率预测模型中，其中，样本网络状态参数提供当前网络状态参考，第i-1样本编码码率提供编码码率预测参考，进而生成第i样本音频帧对应的第i样本编码码率。

在一些实施例中，通过在训练过程中添加网络状态参数，使得编码码率预测模型在预测编码码率时可以考虑到网络状态对编码码率的影响，进一步提高在特定场景下(比如，语音通话场景下)对应的音频编码质量。

请参考图7，其示出了本申请实施例示出的完整模型训练过程的示意图。在基于第一样本语音701对编码码率预测模型702进行训练的过程中，将第一样本语音701划分为若干样本音频帧，并将各个样本音频帧对应的样本音频特征参数704、网络丢包标志 703输入编码码率预测模型702中，得到编码码率预测模型702输出的当前帧编码码率705，该当前帧编码码率705不仅用于语音编码，还可以将当前帧编码码率705回归到编码码率预测模型702中，用于预测下一帧编码码率；基于各帧样本音频帧对应的编码码率进行音频编码，得到音频编码结果，再将语音编码结果经过音频解码后，生成第二样本语音706，以便通过对第一样本语音701和第二样本语音706进行PESQ测试，继而基于测试结果训练编码码率预测模型702。

示例性地，编码码率预测模型702包括全连接层(DENSE)和门控循环单元(GRU)，示意性的，GRU1的神经元数量为24，DENSE2的神经元数量为96，GRU2、GRU3的神经元数量均为256，DENSE3的神经元数量为1；将网络丢包标志703输入DENSE1中，提取网络状态特征；同时将样本音频特征参数704输入DENSE2中，用于提取音频特征，再通过GRU2、GRU3进行特征融合，输入DENSE3中，由DENSE3输出各个预设编码码率的概率，进而将概率最高的预设编码码率确定为当前样本音频帧对应的当前帧编码码率。

例如，编码码率预测模型702还可以采用其他网络结构，比如，编码码率预测模型702仅包括全连接层。

在模型训练过程中，通过将前一帧编码码率回归到网络模型中，以作为预测下一帧编码码率的依据，对应的，在实际应用过程中，为了进一步提高音频编码质量，也可以将每帧编码码率预测模型输出的音频编码码率回归到模型中，为下一帧编码码率预测提供参考。

在图3的基础上，如图8所示，步骤302可以被替换为步骤801和步骤802。

步骤801，获取第j-1帧音频帧对应的第j-1音频编码码率。

其中，j为递增的整数且取值范围为1<j≤M，M为音频帧的数量，M为大于1的整数。

在一些实施例中，当编码码率预测模型预测出第j-1帧音频帧对应的第j-1音频编码码率后，除了应用于后续基于该第j-1音频编码码率对第j-1音频帧进行音频编码之外，还可以将第j-1音频编码码率重新输入编码码率预测模型中，用于为预测第j帧音频帧对应的第j音频编码码率提供参考依据。

步骤802，通过编码码率预测模型对第j-1音频编码码率和第j帧音频帧对应的第j音频特征参数进行编码码率预测处理，得到第j帧音频帧对应的第j音频编码码率。

在一些实施例中，在预测第j帧音频帧对应的第j音频编码码率时，可以获取到第j-1帧音频帧对应的第j-1音频编码码率，以便将第j-1音频编码码率和第j音频特征参数共同输入编码码率预测模型中，由第j-1音频编码码率为第j音频编码码率提供预测依据，进而得到编码码率预测模型输出的第j音频编码码率。

在一些实施例中，通过将前一帧音频编码码率回归到编码码率预测模型中，可以为后一帧音频编码码率的预测起到参考作用，可以避免编码码率预测过程中音频编码码率波动幅度大，进而可以提高音频编码码率的预测准确性。

对于某些特定应用场景下，比如，语音通话场景下、直播场景下等需要在线传输音频数据的场景，网络状态会影响到接收端接收到的语音质量，因此，在该特定应用场景下，为了避免网络状态对语音质量的影响，需要在生成音频编码码率时考虑当前网络状态的影响。

在图3的基础上，如图9所示，步骤302可以被替换为步骤901和步骤902。

步骤901，获取接收端反馈的当前网络状态参数，接收端用于接收经过网络传输的目标音频数据。

在一种可能的应用场景下，经过音频编码的目标音频数据需要经过网络传输至其他终端(即接收端)，而网络状态对音频编码过程也具有一定的影响，示意性的，若网络状态较差，对应的，则采用较小的编码码率；网络状态较好，则采用较大的编码码率，因此，对于用于网络传输的音频数据，在预测编码码率过程中，还需要考虑到接收端反馈的当前网络状态参数。

其中，该网络状态参数可以由接收端返回，以网络状态参数为丢包率为例，接收端通过统计一定时间内的网络丢包率，并将该网络丢包率返回至发送端，当发送端接收到该丢包率时，即可将该丢包率作为网络状态参数，输入编码码率预测模型中，使得在预测音频编码码率时，可以考虑到当前的网络状态。

示意性的，发送终端可以每隔设定时间从接收端获取网络状态参数，或接收端每隔预定时间向发送终端反馈网络状态参数。其中，设定时间可以是30分钟(min)。

步骤902，通过编码码率预测模型对当前网络状态参数和音频特征参数进行编码码率预测处理，得到音频帧的音频编码码率。

在一些实施例中，在预测音频帧对应的音频编码码率时，考虑到当前网络状态的影响，可以将获取到的当前网络状态参数和音频帧对应的音频特征参数输入编码码率预测模型中，使得在预测音频编码码率时，兼顾当前网络状态这一影响因素，从而得到编码码率预测模型输出的音频编码码率。

当发送端基于该音频编码码率对音频进行编码后，并将编码结果通过网络传输至接收端后，由于在音频编码过程中所使用的音频编码码率已经考虑到当前网络状态，可以保证接收端收到好的音频信号。

例如，为了进一步提高特定应用场景下的编码预测准确性，在进行编码码率预测过程中，也可以将前一帧音频帧对应的音频编码码率回归到编码码率预测模型中，为预测下一帧音频帧对应的音频编码码率提供预测参考。

在一些实施例中，可以将网络状态参数、第j-1音频编码码率(即第j-1音频帧对应的音频编码码率)和第j音频特征参数输入编码码率预测模型中，由网络状态参数为第j音频编码码率提供网络状态参考，由第j-1音频编码码率为第j音频编码码率提供编码码率预测参考，进而由编码码率预测模型输出第j音频帧对应的第j音频编码码率，j为大于1的整数。

在一些实施例中，通过在预测音频编码码率的过程中，添加网络状态参数，使得编码码率预测模型在预测编码码率时可以考虑到网络状态对编码码率的影响，进一步提高在特定场景下(比如，语音通话场景下)对应的音频编码质量。

请参考图10，其示出了本申请实施例示出的音频编码过程的示意图。在模型应用过程中，可以将网络丢包标志1001(即网络状态参数)和音频特征参数1002输入编码码率预测模型1003中，从而输出当前帧编码码率1004；例如，还可以将当前帧编码码率1004输入编码码率预测模型中，用于为预测下一帧编码码率提高参考依据；进而基于各帧音频帧对应的音频编码码率进行音频编码，基于各帧音频帧对应的编码结果生成原始音频对应的音频编码数据。

请参考图11，其示出了本申请实施例示出的音频编码装置的结构方框图。该音频编码装置可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分。该音频编码装置可以包括：

第一获取模块1101，配置为获取第一样本音频中各个样本音频帧对应的样本音频特征参数；第一处理模块1102，配置为通过编码码率预测模型对所述样本音频特征参数进行编码码率预测处理，得到所述样本音频帧的样本编码码率；第一编码模块1103，配置为基于所述样本编码码率对所述样本音频帧进行音频编码，并基于各帧样本音频帧对应的编码结果生成样本音频数据；音频解码模块1104，配置为对所述样本音频数据进行音频解码，得到所述样本音频数据对应的第二样本音频；训练模块1105，配置为基于所述第一样本音频和所述第二样本音频，训练所述编码码率预测模型，直至样本编码质量分值达到目标编码质量分值时结束所述训练；其中，所述样本编码质量分值通过所述第一样本音频和所述第二样本音频确定。

在一些实施例中，所述装置还包括：第二获取模块，配置为获取所述第一样本音频的样本网络状态参数；所述第一处理模块1102，包括：第一处理单元，配置为通过所述编码码率预测模型对所述样本网络状态参数和所述样本音频特征参数进行编码码率预测处理，得到所述样本音频帧的样本编码码率。

在一些实施例中，所述装置还包括：第三获取模块，配置为获取第i-1帧样本音频帧对应的第i-1样本编码码率；

所述第一处理模块1102，包括：第二处理单元，配置为通过所述编码码率预测模型对所述第i样本音频特征参数和所述第i-1样本编码码率进行编码码率预测处理，得到第i帧样本音频帧对应的第i样本编码码率；其中，i为递增的整数且取值范围为1<i≤N，N为所述样本音频帧的数量，N为大于1的整数。

在一些实施例中，所述训练模块1105，包括：确定单元，配置为基于所述第一样本音频和所述第二样本音频，确定所述第一样本音频对应的所述样本编码质量分值；训练单元，配置为基于所述样本编码质量分值和所述目标编码质量分值，训练所述编码码率预测模型。

在一些实施例中，所述训练单元，还配置为：确定所述第一样本音频对应的平均编码码率，其中，所述平均编码码率通过各帧样本音频帧对应的所述样本编码码率确定；基于所述平均编码码率、所述样本编码质量分值和所述目标编码质量分值，构建所述第一样本音频对应的第一编码损失；基于所述第一编码损失和预设编码损失，训练所述编码码率预测模型。

在一些实施例中，所述训练单元，还配置为：获取所述平均编码码率对应的第一损失权重、和编码质量分值对应的第二损失权重，所述编码质量分值通过所述样本编码质量分值和所述目标编码质量分值确定；基于所述平均编码码率、所述第一损失权重、所述编码质量分值和所述第二损失权重，构建所述第一样本音频对应的所述第一编码损失。

在一些实施例中，所述样本音频特征参数的类型包括以下至少之一：固定增益、自适应增益、基音周期、基音频率、线谱对参数。

综上所述，本申请实施例中，通过在训练编码码率预测模型过程中，分析样本音频中各个样本音频帧对应的样本音频特征参数，以便基于样本音频特征参数预测各帧样本音频帧对应的样本音频编码码率，进而基于各帧对应的样本编码码率对样本音频帧进行音频编码，在对音频编码结果进行音频解码后，通过比较音频解码后的音频和原始音频之间的关系，训练编码码率预测模型，使得在实际应用过程中，编码码率预测模型具备可以基于音频特征参数动态调控音频编码码率的功能，可以在音频编码质量满足目标要求的同时，尽可能的减小音频编码码率，进而可以降低音频数据的存储空间，以及减少传输音频数据过程中的带宽消耗。

请参考图12，其示出了本申请实施例示出的音频编码装置的结构方框图。该音频编码装置可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分。该音频编码装置可以包括：

第四获取模块1201，配置为获取原始音频中各个音频帧对应的音频特征参数；

第二处理模块1202，配置为通过编码码率预测模型对所述音频特征参数进行编码码率预测处理，得到所述音频帧的音频编码码率，其中，所述编码码率预测模型用于预测达到目标编码质量分值时各个所述音频帧对应的音频编码码率；

第二编码模块1203，配置为基于所述音频编码码率对所述音频帧进行音频编码，并基于各帧音频帧对应的编码结果生成目标音频数据。

在一些实施例中，所述目标音频数据用于网络传输；

所述装置还包括：

第五获取模块，配置为获取接收端反馈的当前网络状态参数，所述接收端用于接收经过所述网络传输的目标音频数据；所述第二处理模块1202，包括：第三处理单元，配置为通过所述编码码率预测模型对所述当前网络状态参数和所述音频特征参数进行编码码率预测处理，得到所述音频帧的音频编码码率。

在一些实施例中，所述装置还包括：

第六获取模块，配置为获取第j-1帧音频帧对应的第j-1音频编码码率；所述第二处理模块1202，包括：第四处理单元，配置为通过所述编码码率预测模型对所述第j-1音频编码码率和所述第j帧音频帧对应的第j音频特征参数进行编码码率预测处理，得到第j帧音频帧对应的第j音频编码码率；其中，j为递增的整数且取值范围为1<j≤M，M为所述音频帧的数量，M为大于1的整数。

在一些实施例中，所述音频特征参数的类型包括以下至少之一：固定增益、自适应增益、基音周期、基音频率、线谱对参数。

综上所述，本申请实施例中，通过分析原始音频中各个音频帧对应的音频特征参数，以实现基于音频特征参数动态调控音频帧对应的音频编码码率的目的，可以为各个音频帧确定与音频特征参数匹配的音频编码码率，从而提高整个音频的编码质量；相比于相关技术中采用固定编码码率，本实施例中采用动态编码码率进行音频编码，可以在音频编码质量满足目标要求的同时，尽可能的减小音频编码码率，进而可以降低音频数据的存储空间，以及减少传输音频数据过程中的带宽消耗。

本申请实施例还提供一种音频解码装置，该音频解码装置可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分。该音频解码装置可以包括：

第五获取模块，配置为获取所述编码后的目标音频数据；解码模块，配置为通过与音频编码码率对应的音频解码码率对所述编码后的目标音频数据进行音频解码，得到解码后的所述目标音频数据。

请参考图13，其示出了本申请实施例提供的计算机设备的结构框图。该计算机设备可用于实施上述实施例中提供的音频编码方法或音频解码方法。具体来讲：

所述计算机设备1300包括中央处理单元(CPU，Central Processing Unit)1301、包括随机存取存储器(RAM，Random Access Memory)1302和只读存储器(ROM，Read-Only Memory)1303的系统存储器1304，以及连接系统存储器1304和中央处理单元1301的系统总线1305。所述计算机设备1300还包括帮助计算机设备内的各个器件之间传输信息的基本输入/输出系统(I/O系统，Input/Output系统)1306，和用于存储操作系统1313、应用程序1314和其他程序模块1315的大容量存储设备1307。

所述基本输入/输出系统1306包括有用于显示信息的显示器1308和用于用户输入信息的诸如鼠标、键盘之类的输入设备1309。其中所述显示器1308和输入设备1309都通过连接到系统总线1305的输入输出控制器1310连接到中央处理单元1301。所述基本输入/输出系统1306还可以包括输入输出控制器1310以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1310还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1307通过连接到系统总线1305的大容量存储控制器(未示出)连接到中央处理单元1301。所述大容量存储设备1307及其相关联的计算机可读存储介质为计算机设备1300提供非易失性存储。也就是说，所述大容量存储设备1307可以包括诸如硬盘或者只读光盘(CD-ROM，Compact Disc Read-Only Memory)驱动器之类的计算机可读存储介质(未示出)。

不失一般性，所述计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读存储指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读寄存器(EPROM，Erasable Programmable Read Only Memory)、电子抹除式可复写只读存储器(EEPROM，Electrically-Erasable Programmable Read-Only Memory)、闪存或其他固态存储其技术，CD-ROM、数字多功能光盘(DVD，Digital Versatile Disc)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1304和大容量存储设备1307可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1301执行，一个或多个程序包含用于实现上述方法实施例的指令，中央处理单元1301执行该一个或多个程序实现上述各个方法实施例提供的方法。

根据本申请的各种实施例，所述计算机设备1300还可以通过诸如因特网等网络连接到网络上的远程服务器运行。也即计算机设备1300可以通过连接在所述系统总线1305上的网络接口单元1311连接到网络1312，或者说，也可以使用网络接口单元1311来连接到其他类型的网络或远程服务器系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本申请实施例提供的方法中计算机设备所执行的步骤。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的音频编码方法或音频解码方法。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述可选实现方式中提供的音频编码方法或音频解码方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

一种音频编码方法，由计算机设备执行，所述方法包括：

获取第一样本音频中各个样本音频帧对应的样本音频特征参数；

通过编码码率预测模型对所述样本音频特征参数进行编码码率预测处理，得到所述样本音频帧的样本编码码率；

基于所述样本编码码率对所述样本音频帧进行音频编码，并基于各帧样本音频帧对应的编码结果生成样本音频数据；

对所述样本音频数据进行音频解码，得到所述样本音频数据对应的第二样本音频；

基于所述第一样本音频和所述第二样本音频，训练所述编码码率预测模型，直至样本编码质量分值达到目标编码质量分值时结束所述训练；

其中，所述样本编码质量分值通过所述第一样本音频和所述第二样本音频确定。
根据权利要求1所述的方法，其中，所述通过编码码率预测模型对所述样本音频特征参数进行编码码率预测处理，得到所述样本音频帧的样本编码码率之前，所述方法还包括：

获取所述第一样本音频的样本网络状态参数；

所述通过编码码率预测模型对所述样本音频特征参数进行编码码率预测处理，得到所述样本音频帧的样本编码码率，包括：

通过所述编码码率预测模型对所述样本网络状态参数和所述样本音频特征参数进行编码码率预测处理，得到所述样本音频帧的样本编码码率。
根据权利要求1所述的方法，其中，所述通过编码码率预测模型对所述样本音频特征参数进行编码码率预测处理，得到所述样本音频帧的样本编码码率之前，所述方法还包括：

获取第i-1帧样本音频帧对应的第i-1样本编码码率；

所述通过编码码率预测模型对所述样本音频特征参数进行编码码率预测处理，得到所述样本音频帧的样本编码码率，包括：

通过所述编码码率预测模型对所述第i样本音频特征参数和所述第i-1样本编码码率进行编码码率预测处理，得到第i帧样本音频帧对应的第i样本编码码率；

其中，i为递增的整数且取值范围为1<i≤N，N为所述样本音频帧的数量，N为大于1的整数。
根据权利要求1至3任一所述的方法，其中，所述基于所述第一样本音频和所述第二样本音频，训练所述编码码率预测模型，包括：

基于所述第一样本音频和所述第二样本音频，确定所述第一样本音频对应的所述样本编码质量分值；

基于所述样本编码质量分值和所述目标编码质量分值，训练所述编码码率预测模型。
根据权利要求4所述的方法，其中，所述基于所述样本编码质量分值和目标编码质量分值，训练所述编码码率预测模型，包括：

确定所述第一样本音频对应的平均编码码率，其中，所述平均编码码率通过各帧样本音频帧对应的所述样本编码码率确定；

基于所述平均编码码率、所述样本编码质量分值和所述目标编码质量分值，构建所述第一样本音频对应的第一编码损失；

基于所述第一编码损失和预设编码损失，训练所述编码码率预测模型。
根据权利要求5所述的方法，其中，所述基于所述平均编码码率、所述样本编码质量分值和所述目标编码质量分值，构建所述第一样本音频对应的第一编码损失，包括：

获取所述平均编码码率对应的第一损失权重、和编码质量分值对应的第二损失权重，所述编码质量分值通过所述样本编码质量分值和所述目标编码质量分值确定；

基于所述平均编码码率、所述第一损失权重、所述编码质量分值和所述第二损失权重，构建所述第一样本音频对应的所述第一编码损失。
根据权利要求1至3任一所述的方法，其中，所述样本音频特征参数的类型包括以下至少之一：固定增益、自适应增益、基音周期、基音频率、线谱对参数。
一种音频编码方法，由计算机设备执行，所述方法包括：

获取原始音频中各个音频帧对应的音频特征参数；

通过编码码率预测模型对所述音频特征参数进行编码码率预测处理，得到所述音频帧的音频编码码率，其中，所述编码码率预测模型用于预测达到目标编码质量分值时各个所述音频帧对应的音频编码码率；

基于所述音频编码码率对所述音频帧进行音频编码，并基于各帧音频帧对应的编码结果生成目标音频数据。
根据权利要求8所述的方法，其中，

所述目标音频数据用于网络传输；

所述通过编码码率预测模型对所述音频特征参数进行编码码率预测处理，得到所述音频帧的音频编码码率之前，所述方法还包括：

获取接收端反馈的当前网络状态参数，所述接收端用于接收经过所述网络传输的目标音频数据；

所述通过编码码率预测模型对所述音频特征参数进行编码码率预测处理，得到所述音频帧的音频编码码率，包括：

通过所述编码码率预测模型对所述当前网络状态参数和所述音频特征参数进行编码码率预测处理，得到所述音频帧的音频编码码率。
根据权利要求8所述的方法，其中，

所述通过编码码率预测模型对所述音频特征参数进行编码码率预测处理，得到所述音频帧的音频编码码率之前，所述方法还包括：

获取第j-1帧音频帧对应的第j-1音频编码码率；

所述通过编码码率预测模型对所述音频特征参数进行编码码率预测处理，得到所述音频帧的音频编码码率，包括：

通过所述编码码率预测模型对所述第j-1音频编码码率和所述第j帧音频帧对应的第j音频特征参数进行编码码率预测处理，得到第j帧音频帧对应的第j音频编码码率；

其中，j为递增的整数且取值范围为1<j≤M，M为所述音频帧的数量，M为大于1的整数。
根据权利要求8至10任一所述的方法，其中，所述音频特征参数的类型包括以下至少之一：固定增益、自适应增益、基音周期、基音频率、线谱对参数。
一种音频解码方法，由计算机设备执行，应用于如权利要求8-11所述音频编码方法所编码后的目标音频数据；

所述方法包括：

获取所述编码后的目标音频数据；

通过与音频编码码率对应的音频解码码率对所述编码后的目标音频数据进行音频解码，得到解码后的所述目标音频数据。
一种音频编码装置，所述装置包括：

第一获取模块，配置为获取第一样本音频中各个样本音频帧对应的样本音频特征参数；

第一处理模块，配置为通过编码码率预测模型对所述样本音频特征参数进行编码码率预测处理，得到所述样本音频帧的样本编码码率；

第一编码模块，配置为基于所述样本编码码率对所述样本音频帧进行音频编码，并基于各帧样本音频帧对应的编码结果生成样本音频数据；

音频解码模块，配置为对所述样本音频数据进行音频解码，得到所述样本音频数据对应的第二样本音频；

训练模块，配置为基于所述第一样本音频和所述第二样本音频，训练所述编码码率预测模型，直至样本编码质量分值达到目标编码质量分值时结束所述训练；其中，所述样本编码质量分值通过所述第一样本音频和所述第二样本音频确定。
一种音频编码装置，所述装置包括：

第四获取模块，配置为获取原始音频中各个音频帧对应的音频特征参数；

第二处理模块，配置为通过编码码率预测模型对所述音频特征参数进行编码码率预测处理，得到所述音频帧的音频编码码率，其中，所述编码码率预测模型用于预测达到目标编码质量分值时各个所述音频帧对应的音频编码码率；

第二编码模块，配置为基于所述音频编码码率对所述音频帧进行音频编码，并基于各帧音频帧对应的编码结果生成目标音频数据。
一种音频解码装置，所述装置包括：

第五获取模块，配置为获取所述编码后的目标音频数据；

解码模块，配置为通过与音频编码码率对应的音频解码码率对所述编码后的目标音频数据进行音频解码，得到解码后的所述目标音频数据。
一种计算机设备，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如权利要求1至7任一所述的音频编码方法，或实现如权利要求8至11任一所述的音频编码方法，或实现如权利要求12任一所述的音频解码方法。
一种计算机可读存储介质，所述存储介质中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现权利要求1至7任一所述的音频编码方法，或实现如权利要求8至11任一所述的音频编码方法，或实现如权利要求12任一所述的音频解码方法。
一种计算机程序产品，包括计算机指令，所述计算机指令使得计算机执行以实现权利要求1至7任一所述的音频编码方法，或实现如权利要求8至11任一所述的音频编码方法，或实现如权利要求12任一所述的音频解码方法。