WO2021052293A1

WO2021052293A1 - 音频编码方法和装置

Info

Publication number: WO2021052293A1
Application number: PCT/CN2020/115123
Authority: WO
Inventors: 王卓; 王萌; 范泛
Original assignee: 华为技术有限公司
Priority date: 2019-09-18
Filing date: 2020-09-14
Publication date: 2021-03-25
Also published as: EP4024394A1; CN112530444B; CN112530444A; US20220208200A1; JP2022548299A; JP7387879B2; EP4024394A4; KR20220066316A

Abstract

一种音频编码方法和装置。音频编码方法包括：获取第一音频数据；获取目标码率和蓝牙包类型，目标码率和蓝牙包类型与当前蓝牙信道状况对应；根据第一音频数据、目标码率和蓝牙包类型通过预先训练得到的神经网络获取比特池参数集合、心理声学参数集合和频谱带宽参数集合中的一个或多个；根据比特池参数集合、心理声学参数集合和频谱带宽参数集合中的一个或多个对第一音频数据进行编码得到待发送码流。可以自适应地匹配蓝牙信道状况，并且最大化保证音质的同时带来连续的音频听觉体验。

Description

音频编码方法和装置

本申请要求于2019年9月18日提交中国专利局、申请号为201910883038.0、申请名称为“音频编码方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及音频处理技术，尤其涉及一种音频编码方法和装置。

背景技术

随着真无线立体声(True Wireless Stereo，TWS)耳机、智能音箱和智能手表等无线蓝牙设备在日常生活中的广泛普及和使用，人们在各种场景下对追求高质量音乐播放体验的需求也变得越来越迫切。由于蓝牙信道对数据传输大小的限制，音频数据必须经过蓝牙设备发送端的音频编码器进行数据压缩后才能传输到蓝牙设备接收端进行解码和播放。目前主流的蓝牙编解码技术包括高级音频传输协议(Advanced Audio Distribution Profile，A2DP)默认的次频带编码(Sub-band Coding，SBC)，动态影像专家组(Moving Picture Experts Group，MPEG)的高级音频编码(Advanced Audio Coding，AAC)系列，索尼(Sony)的LDAC，高通(Qualcomm)的aptX系列等。

目前在音频的传输过程中，音频质量严格依赖于蓝牙连接链路的吞吐量和稳定性，当蓝牙连接链路的信道质量受到干扰时，一旦码率波动较大，就会导致音频数据在传输过程中丢失，进而在音频播放时产生声音的卡顿断续，严重影响了用户的体验。相关技术可以对码率波动的范围进行控制，但是控制方法较为粗糙，无法兼顾声音连续和音质保证。

发明内容

本申请提供一种音频编码方法和装置，以自适应地匹配蓝牙信道状况，并且最大化保证音质的同时带来连续的音频听觉体验。

第一方面，本申请提供一种音频编码方法，包括：

获取第一音频数据；获取目标码率和蓝牙包类型，所述目标码率和所述蓝牙包类型与当前蓝牙信道状况对应；根据所述第一音频数据、所述目标码率和所述蓝牙包类型通过预先训练得到的神经网络获取比特池参数集合、心理声学参数集合和频谱带宽参数集合中的一个或多个，所述比特池参数集合中的参数用于表示可用于编码的剩余码流比特数，所述心理声学参数集合中的参数用于表示编码所需比特数在不同频率处的分配，所述频谱带宽参数集合中的参数用于表示编码后的音频频谱的最高截止频率；根据所述比特池参数集合、所述心理声学参数集合和所述频谱带宽参数集合中的一个或多个对所述第一音频数据进行编码得到待发送码流。

本申请根据与当前蓝牙信道状况对应的目标码率和蓝牙包类型，以及音频数据通过神经网络获取进行编码的相关参数，既可以自适应地匹配蓝牙信道状况，又可以有效降低音频编码的码率波动，提升音频传输时的抗干扰性，最大化保证音质的同时带来连续的音频听觉体验。

在一种可能的实现方式中，所述根据所述第一音频数据、所述目标码率和所述蓝牙包类型通过预先训练得到的神经网络获取比特池参数集合、心理声学参数集合和频谱带宽参数集合中的一个或多个，包括：对所述第一音频数据、所述目标码率和所述蓝牙包类型进行特征提取得到第一特征向量；将所述第一特征向量输入所述神经网络得到所述比特池参数集合、所述心理声学参数集合和所述频谱带宽参数集合中的一个或多个。

在一种可能的实现方式中，所述蓝牙包类型指蓝牙发射的包类型，可以包括2DH1，2DH3，2DH5，3DH1，3DH3和3DH5中的任意一种。

在一种可能的实现方式中，所述目标码率用于指示设定时间段内编码生成的数据包的平均字节数。

在一种可能的实现方式中，所述获取第一音频数据之前，还包括：构建所述神经网络的训练数据集，所述训练数据集包括第一取值组合和第二取值组合的对应关系，所述第一取值组合为音频数据、目标码率和蓝牙包类型的多个取值组合的任意一个，所述第二取值组合为比特池参数集合、心理声学参数集合和频谱带宽参数集合的多个取值组合的其中之一，所述比特池参数集合、心理声学参数集合和频谱带宽参数集合的多个取值组合和多个ODG分数对应，其中，所述第二取值组合对应的ODG分数最高；根据所述训练数据集训练得到所述神经网络。

本申请由于在神经网络的训练过程中，目标码率和蓝牙包类型均与蓝牙信道状况对应，因此与其对应的比特池参数集合、心理声学参数集合和频谱带宽参数集合的最优取值组合也是和蓝牙信道状况对应的，可见神经网络已经考虑到了蓝牙信道状况的变化，且考虑到了匹配蓝牙信道状况的最优的相关参数的取值组合。

在一种可能的实现方式中，所述构建所述神经网络的训练数据集，包括：获取多个音频数据；在所述第一取值组合下，采用所述比特池参数集合、心理声学参数集合和频谱带宽参数集合的多个取值组合分别对第二音频数据进行编码，所述第二音频数据为所述多个音频数据中的任意一个；根据编码结果获取所述多个ODG分数；将所述多个ODG分数中最高者对应的取值组合确定为所述第二取值组合；将所述第一取值组合和所述第二取值组合加入所述训练数据集。

第二方面，本申请提供一种音频编码装置，包括：

输入模块，用于获取第一音频数据；获取目标码率和蓝牙包类型，所述目标码率和所述蓝牙包类型与当前蓝牙信道状况对应；参数获取模块，用于根据所述第一音频数据、所述目标码率和所述蓝牙包类型通过预先训练得到的神经网络获取比特池参数集合、心理声学参数集合和频谱带宽参数集合中的一个或多个，所述比特池参数集合中的参数用于表示可用于编码的剩余码流比特数，所述心理声学参数集合中的参数用于表示编码所需比特数在不同频率处的分配，所述频谱带宽参数集合中的参数用于表示编码后的音频频谱的最高截止频率；编码模块，用于根据所述比特池参数集合、所述心理声学参数集合和所述频谱带宽参数集合中的一个或多个对所述第一音频数据进行编码得到待发送码流。

在一种可能的实现方式中，所述参数获取模块，具体用于对所述第一音频数据、所述目标码率和所述蓝牙包类型进行特征提取得到第一特征向量；将所述第一特征向量输入所述神经网络得到所述比特池参数集合、所述心理声学参数集合和所述频谱带宽参数集合中的一个或多个。

在一种可能的实现方式中，所述参数获取模块，还用于构建所述神经网络的训练数据集，所述训练数据集包括第一取值组合和第二取值组合的对应关系，所述第一取值组合为音频数据、目标码率和蓝牙包类型的多个取值组合的任意一个，所述第二取值组合为比特池参数集合、心理声学参数集合和频谱带宽参数集合的多个取值组合的其中之一，所述比特池参数集合、心理声学参数集合和频谱带宽参数集合的多个取值组合和多个ODG分数对应，其中，所述第二取值组合对应的ODG分数最高；根据所述训练数据集训练得到所述神经网络。

在一种可能的实现方式中，所述参数获取模块，具体用于获取多个音频数据；在所述第一取值组合下，采用所述比特池参数集合、心理声学参数集合和频谱带宽参数集合的多个取值组合分别对第二音频数据进行编码，所述第二音频数据为所述多个音频数据中的任意一个；根据编码结果获取所述多个ODG分数；将所述多个ODG分数中最高者对应的取值组合确定为所述第二取值组合；将所述第一取值组合和所述第二取值组合加入所述训练数据集。

第三方面，本申请提供一种终端设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述第一方面中任一项所述的方法。

第四方面，本申请提供一种计算机可读存储介质，包括计算机程序，所述计算机程序在计算机上被执行时，使得所述计算机执行上述第一方面中任一项所述的方法。

第五方面，本申请提供一种计算机程序产品，所述计算机程序产品包括计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行上述第一方面中任一项所述的方法。

附图说明

图1示例性的示出了本申请音频编码方法适用的应用场景的一个示例图；

图2示例性的示出了本申请音频编码系统的一个示例图；

图3为本申请音频编码方法实施例的流程图；

图4示例性的示出了心理声学过程的一个示意图；

图5示例性的示出了参数获取方法的一个示意图；

图6示出了训练数据集的构建方法的一个示意图；

图7为本申请音频编码装置实施例的结构示意图；

图8为本申请提供的终端设备的示意性结构图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书实施例和权利要求书及附图中的术语“第一”、“第二”等仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

图1示例性的示出了本申请音频编码方法适用的应用场景的一个示例图，如图1所示，该应用场景包括终端设备和蓝牙设备，终端设备和蓝牙设备可以是具备蓝牙连接功能且支持AAC系列标准的设备，其中，终端设备例如可以是手机、电脑(包括笔记本、台式机等)和平板(包括手持平板、车载平板等)等，蓝牙播放设备例如可以是TWS耳机、无线头戴式耳机和无线颈圈式耳机等，蓝牙设备例如还可以是智能音箱、智能手表、智能眼镜和车载音箱等。本申请中最广泛的应用场景存在于手机和蓝牙设备之间，即手机与TWS耳机、无线头戴式耳机和无线颈圈式耳机等之间，或者手机与智能音箱、智能手表、智能眼镜和车载音箱等之间。但本申请并不限定于此。

图2示例性的示出了本申请音频编码系统的一个示例图，如图2所示，音频编码系统包括输入模块、处理模块和输出模块。

其中，输入模块获取到的数据包括音频数据，例如音频脉冲编码调制(Pulse Code Modulation，PCM)码流，以及基于蓝牙信道状况确定的目标码率和蓝牙包类型，该目标码率和蓝牙包类型与当前蓝牙信道状况对应。目标码率用于指示设定时间段内编码生成的数据包的平均字节数。蓝牙包类型指蓝牙发射的包类型。在蓝牙连接链路中，用于传输音频码流的异构链接层(Asynchronous Connection-Less，ACL)上使用的蓝牙包类型可以包括2DH1(限定传输的音频码流中的数据包最大可以是31字节)、2DH3(限定传输的音频码流中的数据包最大可以是356字节)，2DH5(限定传输的音频码流中的数据包最大可以是656字节)，3DH1(限定传输的音频码流中的数据包最大可以是11字节)、3DH3(限定传输的音频码流中的数据包最大可以是536字节)和3DH5(限定传输的音频码流中的数据包最大可以是986字节)中的任意一种，其中，2DH1、2DH3和2DH5采用的调制方式为π/4四相相对相移键控(Differential Quadrature Reference Phase Shift Keying，DQPSK)，3DH1、3DH3和3DH5采用的调制方式为8DQPSK。当蓝牙受干扰程度小，信道状态好时，优先选择2DH5或者3DH5，这两种蓝牙包类型具有更大的数据传输能力和较弱的抗干扰能力，可以让音频编码器以128kbps以上的目标码率工作，实现更高的音质传输；当蓝牙受干扰程度大，信道状态差时，优先选择2DH3、3DH3、2DH1或者3DH1，这几种蓝牙包类型具有更大的抗干扰能力和较小的数据传输能力，可以使音频编码器以96kbps以下的目标码率工作，优先保证音频传输的连续性。

处理模块包括调参子模块、编码子模块和辅助子模块。调参子模块包括特征提取和神经网络两个功能，用于根据输入模块输入的数据确定最佳的编码参数的取值组合；编码子模块包括参数配置、编码和解码三个功能，用于根据最佳的编码参数的取值组合对音频数据进行编码，以及对码流进行解码；辅助子模块包括码率波动统计和主观差异打分(即ODG打分)两个功能，用于对编码产生的数据包的字节数变化进行统计，并对编码再解码后的音频的音质打分。ODG打分通过国际电信联盟标准(International Telecommunication Union，ITU)BS.1387-1中的主观度量音频感知算法(Perceptual Evaluation of Audio Quality，PEAQ)得到，分数的取值范围是-4-0，得分越接近0表示编码再解码后的音频的音质越好。

输出模块输出的数据即为编码生成的数据包，再通过蓝牙包类型封装后组成的音频码流。

图3为本申请音频编码方法实施例的流程图，如图3所示，本实施例的方法可以由图1中的终端设备，例如可以是手机、电脑(包括笔记本、台式机等)和平板(包括手持平板、车载平板等)等执行。音频编码方法可以包括：

步骤301、获取第一音频数据。

第一音频数据为待编码的音频数据。终端设备可以从本地的存储器中直接读取该第一音频数据，也可以接收来自其他设备的第一音频数据，本申请对此不做具体限定。

步骤302、获取目标码率和蓝牙包类型，目标码率和蓝牙包类型与当前蓝牙信道状况对应。

目标码率用于指示设定时间段内编码生成的数据包的平均字节数，即可以认为目标码率是对第一音频数据编码后，期望得到的数据包的平均字节数，由于多个因素的影响，编码产生的每个数据包的字节数(即码率)均要达到目标码率的可能性较低，因此可以允许各个数据包的码率在目标码率附近小范围波动，只要求设定时间段内的多个数据包的平均码率满足目标码率即可。蓝牙包类型指蓝牙发射的包类型。蓝牙包类型可以包括2DH1，2DH3，2DH5，3DH1，3DH3和3DH5中的任意一种，每种蓝牙包类型对应一个码率波动的上限。本申请中目标码率和蓝牙包类型均与当前蓝牙信道状况对应，亦即目标码率和蓝牙包类型均是基于蓝牙信道状况确定的，因此目标码率和蓝牙包类型也是对蓝牙信道状况的一种反映。

在图3所示的实施例中，步骤301和步骤302没有先后顺序之分。

步骤303、根据第一音频数据、目标码率和蓝牙包类型通过预先训练得到的神经网络获取比特池参数集合、心理声学参数集合和频谱带宽参数集合中的一个或多个。

比特池参数集合中的参数用于表示可用于编码的剩余码流比特数，相关技术中通过调节比特池的大小来控制固定码率(Constant Bitrate，CBR)编码模式下的码率波动，实现码率瞬时波动，长时收敛的特点。该方法在CBR编码模式下允许一定程度的码率波动，通过对不同的音频数据分配不同的比特数提供更好的音质保证。当分配的实际比特数(码率)比目标比特数(目标码率)少，就将剩余的比特放进比特池；当分配的实际比特数比目标比特数多，就从比特池取出一些比特使用。由于比特池不是无限大，所以编码过程中长时间段内的平均码率仍被限制在CBR编码模式的目标码率附近。该方法中的比特池状态由所有历史帧和当前帧共同决定，其反应从过去到当前状态一整个时间段内的码率波动和可压难易程度。若比特池大，则可允许的码率波动大，进而编码的音质高；若比特池小，则可允许的码率波动小，进而编码的音质低。

心理声学参数集合中的参数用于表示表示编码所需比特数在不同频率处的分配，相关技术中通过心理声学模型确定了一段音频中哪些信息是主要信息，在编码过程中是必须保留的，哪些信息是次要信息，可以在编码中忽略。示例性的，图4示例性的示出了心理声学过程的一个示意图，如图4所示，在900Hz处有一个掩体，具有很高的能量，位于该掩体附近的能量在虚线以下分贝的音频则不会被人听到，这说明了虚线以下的信息可以不经过编码，降低了编码的比特数。掩蔽由三部分决定，一是带内掩蔽参数dr，二是掩蔽低频带的衰减速度k1，三是掩蔽高频带的衰减速度k2。dr，k1，k2这三个参数在AAC量化过程中直接决定了编码产生的数据包的比特数(码率)。如果实际数据包的码率大于目标码率，则降低dr；如果实际数据包的码率小于目标码率，则增大dr。

频谱带宽参数集合中的参数用于表示编码后的音频频谱的最高截止频率，截止频率越高，相应的音频高频成分越丰富，在一定程度上能够提升音频音质。

终端设备可以对第一音频数据、目标码率和蓝牙包类型进行特征提取得到第一特征向量，将第一特征向量输入神经网络得到比特池参数集合、心理声学参数集合和频谱带宽参数集合中的一个或多个。图5示例性的示出了参数获取方法的一个示意图，如图5所示，终端设备对第一音频数据、目标码率和蓝牙包类型进行特征变换，提取特征向量，例如码率和表示音乐特征的梅尔倒谱系数，又例如表示音乐特征的线性预测倒谱系数，该特征提取过程可以降低数据维度，进而减少计算量。终端设备将特征向量输入预先训练好的神经网络，得到上述比特池参数集合、心理声学参数集合和频谱带宽参数集合中的一个或多个。

需要说明的是，本申请中除了采用上述的神经网络获取比特池参数集合、心理声学参数集合和频谱带宽参数集合中的一个或多个外，还可以采用人工智能(Artificial Intelligence，AI)的其他方法、数学运算等方式获取上述参数集合，对此本申请不做具体限定。

本申请中，终端设备可以构建神经网络的训练数据集，该训练数据集包括第一取值组合和第二取值组合的对应关系，第一取值组合为音频数据、目标码率和蓝牙包类型的多个取值组合的任意一个，第二取值组合为比特池参数集合、心理声学参数集合和频谱带宽参数集合的多个取值组合的其中之一，比特池参数集合、心理声学参数集合和频谱带宽参数集合的多个取值组合和多个ODG分数对应，其中，第二取值组合对应的ODG分数最高。根据训练数据集训练得到神经网络。

示例性的，图6示出了训练数据集的构建方法的一个示意图，如图6所示，终端设备获取多个音频数据。在第一取值组合下，采用比特池参数集合、心理声学参数集合和频谱带宽参数集合的多个取值组合分别对第二音频数据进行编码，第二音频数据为多个音频数据中的任意一个。根据编码结果获取多个ODG分数。将多个ODG分数中最高者对应的取值组合确定为第二取值组合。将第一取值组合和第二取值组合加入训练数据集。即终端设备首先搜集大量音乐文件，这些音乐文件的风格、类型等各不相同，然后对于每个音乐文件中的音频数据，在各个音频数据、目标码率和蓝牙包类型的取值组合下，通过不断变换比特池参数集合、心理声学参数集合和频谱带宽参数集合的取值组合，采用相应的取值组合对前述音频数据进行编码，并且每次编码都统计编码产生的多个数据包的码率波动和采用ODG方法打分，最后将满足码率波动要求的ODG分数最高者对应的比特池参数集合、心理声学参数集合和频谱带宽参数集合的取值组合输出，得到x＝(蓝牙包类型，目标码率和音频数据的取值组合之一)和y＝(比特池参数集合、心理声学参数集合和频谱带宽参数集合的最优取值组合)之间的对应关系，x为神经网络的输入，y为神经网络的输出，(x,y)表示神经网络的训练数据集。

基于上述训练数据集，终端设备可以将提取得到的特征向量输入神经网络进行训练，输出比特池参数集合、心理声学参数集合和频谱带宽参数集合，并与训练数据集中的最优取值组合进行比对，得到神经网络的损失，通过大量的反向传播训练，最终获得收敛后的具有预测不同目标码率，不同蓝牙包类型和不同音频数据的神经网络。

由于在神经网络的训练过程中，目标码率和蓝牙包类型均与蓝牙信道状况对应，因此与其对应的比特池参数集合、心理声学参数集合和频谱带宽参数集合的最优取值组合也是和蓝牙信道状况对应的，可见神经网络已经考虑到了蓝牙信道状况的变化，且考虑到了匹配蓝牙信道状况的最优的相关参数的取值组合。

步骤304、根据比特池参数集合、心理声学参数集合和频谱带宽参数集合中的一个或多个对第一音频数据进行编码得到待发送码流。

终端设备可以将比特池参数集合、心理声学参数集合和频谱带宽参数集合中的一个或多个中的参数设置到编码器中，然后对第一音频数据进行编码，获取编码后的码流。本申请可以参考上述步骤303中的编码技术，根据本步骤获取的比特池参数集合、心理声学参数集合和频谱带宽参数集合中的一个或多个对第一音频数据进行编码，其实现原理类似，此处不再赘述。这样既可以满足蓝牙对码率波动的限制，又能确保较高的音质水平。

本申请在编码端(即终端设备)根据与当前蓝牙信道状况对应的目标码率和蓝牙包类型，以及音频数据通过神经网络获取进行编码的相关参数，既可以自适应地匹配蓝牙信道状况，又可以有效降低音频编码的码率波动，提升音频传输时的抗干扰性，最大化保证音质的同时带来连续的音频听觉体验。

图7为本申请音频编码装置实施例的结构示意图，如图7所示，本实施例的装置700可以包括：输入模块701、参数获取模块702和编码模块703，其中，输入模块701，用于获取第一音频数据；获取目标码率和蓝牙包类型，所述目标码率和所述蓝牙包类型与当前蓝牙信道状况对应。其中，所述目标码率用于指示设定时间段内编码生成的多个数据包的平均字节数，所述蓝牙包类型指蓝牙发射的包类型；参数获取模块702，用于根据所述第一音频数据、所述目标码率和所述蓝牙包类型通过预先训练得到的神经网络获取比特池参数集合、心理声学参数集合和频谱带宽参数集合中的一个或多个，所述比特池参数集合中的参数用于表示可用于编码的剩余码流比特数，所述心理声学参数集合中的参数用于表示编码所需比特数在不同频率处的分配，所述频谱带宽参数集合中的参数用于表示编码后的音频频谱的最高截止频率；编码模块703，用于根据所述比特池参数集合、所述心理声学参数集合和所述频谱带宽参数集合中的一个或多个对所述第一音频数据进行编码得到待发送码流。

在一种可能的实现方式中，所述参数获取模块702，具体用于对所述第一音频数据、所述目标码率和所述蓝牙包类型进行特征提取得到第一特征向量；将所述第一特征向量输入所述神经网络得到所述比特池参数集合、所述心理声学参数集合和所述频谱带宽参数集合中的一个或多个。

在一种可能的实现方式中，所述蓝牙包类型包括2DH1，2DH3，2DH5，3DH1，3DH3和3DH5中的任意一种。

在一种可能的实现方式中，所述参数获取模块702，还用于构建所述神经网络的训练数据集，所述训练数据集包括第一取值组合和第二取值组合的对应关系，所述第一取值组合为音频数据、目标码率和蓝牙包类型的多个取值组合的任意一个，所述第二取值组合为比特池参数集合、心理声学参数集合和频谱带宽参数集合的多个取值组合的其中之一，所述比特池参数集合、心理声学参数集合和频谱带宽参数集合的多个取值组合和多个ODG分数对应，其中，所述第二取值组合对应的ODG分数最高；根据所述训练数据集训练得到所述神经网络。

在一种可能的实现方式中，所述参数获取模块702，具体用于获取多个音频数据；在所述第一取值组合下，采用所述比特池参数集合、心理声学参数集合和频谱带宽参数集合的多个取值组合分别对第二音频数据进行编码，所述第二音频数据为所述多个音频数据中的任意一个；根据编码结果获取所述多个ODG分数；将所述多个ODG分数中最高者对应的取值组合确定为所述第二取值组合；将所述第一取值组合和所述第二取值组合加入所述训练数据集。

本实施例的装置700，可以用于执行图3-图6所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图8为本申请提供的终端设备的示意性结构图。如图8所示，终端设备800包括处理器801和收发器802。

可选地，终端设备800还包括存储器803。其中，处理器801、收发器802和存储器803之间可以通过内部连接通路互相通信，传递控制信号和/或数据信号。

其中，存储器803用于存储计算机程序。处理器801用于执行存储器803中存储的计算机程序，从而实现上述装置实施例中音频编码装置的各功能。

可选地，存储器803也可以集成在处理器801中，或者独立于处理器801。

可选地，终端设备800还可以包括天线804，用于将收发器802输出的信号发射出去。或者，收发器802通过天线接收信号。

可选地，终端设备800还可以包括电源805，用于给终端设备中的各种器件或电路提供电源。

除此之外，为了使得终端设备的功能更加完善，终端设备800还可以包括输入单元806、显示单元807(也可以认为是输出单元)、音频电路808、摄像头809和传感器810等中的一个或多个。音频电路还可以包括扬声器8081、麦克风8082等，不再赘述。

本实施例的装置800，可以用于执行图3-图6所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。处理器可以是通用处理器、数字信号处理器(digital signal processor，DSP)、特定应用集成电路(application-specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate array，FPGA)或其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。本申请实施例公开的方法的步骤可以直接体现为硬件编码处理器执行完成，或者用编码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

上述各实施例中提及的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种音频编码方法，其特征在于，包括：

获取第一音频数据；

获取目标码率和蓝牙包类型，所述目标码率和所述蓝牙包类型与当前蓝牙信道状况对应；

根据所述第一音频数据、所述目标码率和所述蓝牙包类型通过预先训练得到的神经网络获取比特池参数集合、心理声学参数集合和频谱带宽参数集合中的一个或多个，所述比特池参数集合中的参数用于表示可用于编码的剩余码流比特数，所述心理声学参数集合中的参数用于表示编码所需比特数在不同频率处的分配，所述频谱带宽参数集合中的参数用于表示编码后的音频频谱的最高截止频率；

根据所述比特池参数集合、所述心理声学参数集合和所述频谱带宽参数集合中的一个或多个对所述第一音频数据进行编码得到待发送码流。
根据权利要求1所述的方法，其特征在于，所述根据所述第一音频数据、所述目标码率和所述蓝牙包类型通过预先训练得到的神经网络获取比特池参数集合、心理声学参数集合和频谱带宽参数集合中的一个或多个，包括：

对所述第一音频数据、所述目标码率和所述蓝牙包类型进行特征提取得到第一特征向量；

将所述第一特征向量输入所述神经网络得到所述比特池参数集合、所述心理声学参数集合和所述频谱带宽参数集合中的一个或多个。
根据权利要求1或2所述的方法，其特征在于，所述蓝牙包类型包括2DH1，2DH3，2DH5，3DH1，3DH3和3DH5中的任意一种。
根据权利要求1-3中任一项所述的方法，其特征在于，所述目标码率用于指示设定时间段内编码生成的数据包的平均字节数。
根据权利要求1-4中任一项所述的方法，其特征在于，所述获取第一音频数据之前，还包括：

构建所述神经网络的训练数据集，所述训练数据集包括第一取值组合和第二取值组合的对应关系，所述第一取值组合为音频数据、目标码率和蓝牙包类型的多个取值组合的任意一个，所述第二取值组合为比特池参数集合、心理声学参数集合和频谱带宽参数集合的多个取值组合的其中之一，所述比特池参数集合、心理声学参数集合和频谱带宽参数集合的多个取值组合和多个ODG分数对应，其中，所述第二取值组合对应的ODG分数最高；

根据所述训练数据集训练得到所述神经网络。
根据权利要求5所述的方法，其特征在于，所述构建所述神经网络的训练数据集，包括：

获取多个音频数据；

在所述第一取值组合下，采用所述比特池参数集合、心理声学参数集合和频谱带宽参数集合的多个取值组合分别对第二音频数据进行编码，所述第二音频数据为所述多个音频数据中的任意一个；

根据编码结果获取所述多个ODG分数；

将所述多个ODG分数中最高者对应的取值组合确定为所述第二取值组合；

将所述第一取值组合和所述第二取值组合加入所述训练数据集。
一种音频编码装置，其特征在于，包括：

输入模块，用于获取第一音频数据；获取目标码率和蓝牙包类型，所述目标码率和所述蓝牙包类型与当前蓝牙信道状况对应；

参数获取模块，用于根据所述第一音频数据、所述目标码率和所述蓝牙包类型通过预先训练得到的神经网络获取比特池参数集合、心理声学参数集合和频谱带宽参数集合中的一个或多个，所述比特池参数集合中的参数用于表示可用于编码的剩余码流比特数，所述心理声学参数集合中的参数用于表示编码所需比特数在不同频率处的分配，所述频谱带宽参数集合中的参数用于表示编码后的音频频谱的最高截止频率；

编码模块，用于根据所述比特池参数集合、所述心理声学参数集合和所述频谱带宽参数集合中的一个或多个对所述第一音频数据进行编码得到待发送码流。
根据权利要求7所述的装置，其特征在于，所述参数获取模块，具体用于对所述第一音频数据、所述目标码率和所述蓝牙包类型进行特征提取得到第一特征向量；将所述第一特征向量输入所述神经网络得到所述比特池参数集合、所述心理声学参数集合和所述频谱带宽参数集合中的一个或多个。
根据权利要求7或8所述的装置，其特征在于，所述蓝牙包类型包括2DH1，2DH3，2DH5，3DH1，3DH3和3DH5中的任意一种。
根据权利要求7-9中任一项所述的方法，其特征在于，所述目标码率用于指示设定时间段内编码生成的数据包的平均字节数。
根据权利要求7-10中任一项所述的装置，其特征在于，所述参数获取模块，还用于构建所述神经网络的训练数据集，所述训练数据集包括第一取值组合和第二取值组合的对应关系，所述第一取值组合为音频数据、目标码率和蓝牙包类型的多个取值组合的任意一个，所述第二取值组合为比特池参数集合、心理声学参数集合和频谱带宽参数集合的多个取值组合的其中之一，所述比特池参数集合、心理声学参数集合和频谱带宽参数集合的多个取值组合和多个ODG分数对应，其中，所述第二取值组合对应的ODG分数最高；根据所述训练数据集训练得到所述神经网络。
根据权利要求11所述的装置，其特征在于，所述参数获取模块，具体用于获取多个音频数据；在所述第一取值组合下，采用所述比特池参数集合、心理声学参数集合和频谱带宽参数集合的多个取值组合分别对第二音频数据进行编码，所述第二音频数据为所述多个音频数据中的任意一个；根据编码结果获取所述多个ODG分数；将所述多个ODG分数中最高者对应的取值组合确定为所述第二取值组合；将所述第一取值组合和所述第二取值组合加入所述训练数据集。
一种终端设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一项所述的方法。
一种计算机可读存储介质，其特征在于，包括计算机程序，所述计算机程序在计算机上被执行时，使得所述计算机执行权利要求1-6中任一项所述的方法。
一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行权利要求1-6中任一项所述的方法。