WO2023173941A1

WO2023173941A1 - 一种多声道信号的编解码方法和编解码设备以及终端设备

Info

Publication number: WO2023173941A1
Application number: PCT/CN2023/073845
Authority: WO
Inventors: 王智; 王喆; 李海婷
Original assignee: 华为技术有限公司
Priority date: 2022-03-14
Filing date: 2023-01-30
Publication date: 2023-09-21
Also published as: TW202403728A

Abstract

本申请实施例公开了一种多声道信号的编码方法和编解码设备以及终端设备，其中，一种多声道信号的编解码方法，包括：获取多声道信号的静音标记信息，所述静音标记信息包括：静音使能标志，和/或静音标志；对所述多声道信号进行多声道编码处理，以得到各传输通道的传输通道信号；根据所述各传输通道的传输通道信号和所述静音标记信息生成码流，所述码流包括：所述静音标记信息和所述传输通道信号的多声道编码结果。本申请实施例中根据静音标记信息对各传输通道的传输通道信号进行编码以生成码流，考虑到了多声道信号的静音情况，因此提高编码效率和编码比特资源利用率。

Description

一种多声道信号的编解码方法和编解码设备以及终端设备

本申请要求于2022年03月14日提交中国专利局、申请号为202210254868.9、发明名称为“一种多声道信号的编解码方法和终端设备以及网络设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

本申请要求于2022年06月20日提交中国专利局、申请号为202210699863.7、发明名称为“一种多声道信号的编解码方法和编解码设备以及终端设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及音频编解码领域，尤其涉及一种多声道信号的编解码方法和编解码设备以及终端设备。

背景技术

音频数据的压缩是媒体通信和媒体广播等媒体应用中不可或缺的环节。音频数据的压缩可以通过多声道编码实现，多声道编码可以是对具有多个声道的声床信号进行编码，多声道编码也可以是对多个对象音频信号进行编码。多声道编码还可以是对同时包含声床信号和对象音频信号的混合信号进行编码。

声床信号、对象信号、还是包含声床信号和对象音频信号的混合信号都可以作为多声道信号输入到音频通道中，而多声道信号的特征不可能完全相同，而且多声道信号的特征也在不断变化。

目前针对上述的多声道信号，采用固定的编码方案进行处理，例如采用统一的比特分配方案进行处理，根据比特分配的结果对多声道信号进行量化编码。上述统一的比特分配方案虽然具有简单易操作的优点，但是存在编码效率低，编码比特资源浪费的问题。

发明内容

本申请实施例提供了一种多声道信号的编解码方法和编解码设备以及终端设备，用于提高编码效率和编码比特资源利用率。

为解决上述技术问题，本申请实施例提供以下技术方案：

第一方面，本申请实施例提供一种多声道信号的编码方法，包括：

获取多声道信号的静音标记信息，以得到静音标记信息，所述静音标记信息包括：静音使能标志，和/或静音标志；

对所述多声道信号进行多声道编码处理，以得到各传输通道的传输通道信号；

根据所述各传输通道的传输通道信号和所述静音标记信息生成码流，所述码流包括：所述静音标记信息和所述各传输通道的传输通道信号的多声道量化编码结果。

在上述方案中，多声道信号的静音标记信息包括：静音使能标志，和/或静音标志；对所述多声道信号进行多声道编码处理，以得到各传输通道的传输通道信号；根据所述各传输通道的传输通道信号和所述静音标记信息生成码流，所述码流包括：所述静音标记信息和所述各传输通道的传输通道信号的多声道量化编码结果。本申请实施例中根据静音标记信息对各传输通道的传输通道信号进行编码以生成码流，考虑到了多声道信号的静音情况，因此提高编码效率和编码比特资源利用率。

在一种可能的实现方式中，所述多声道信号，包括：声床信号，和/或对象信号；

所述静音标记信息包括：所述静音使能标志；所述静音使能标志包括：全局静音使能标志，或部分静音使能标志，其中，

所述全局静音使能标志为作用于所述多声道信号的静音使能标志；或者，

所述部分静音使能标志为作用于所述多声道信号中部分声道的静音使能标志。

在一种可能的实现方式中，当所述静音使能标志为所述部分静音使能标志时，

所述部分静音使能标志为作用于所述对象信号的对象静音使能标志，或者，所述部分静音使能标志为作用于所述声床信号的声床静音使能标志，或者，所述部分静音使能标志为作用于所述多声道信号中不包含非低频效果LFE声道信号的其他声道信号的静音使能标志，或者所述部分静音使能标志为作用于多声道信号中参与组对的声道信号的静音使能标志。

在上述方案中，通过上述全局静音使能标志，或部分静音使能标志能够对针对声床信号和/或对象信号进行静音指示，从而基于全局静音使能标志或部分静音使能标志进行后续的编码处理，例如比特分配，可以提升编码效率。

在一种可能的实现方式中，所述多声道信号，包括：声床信号，和对象信号；

所述静音标记信息包括：所述静音使能标志；所述静音使能标志包括：声床静音使能标志，和对象静音使能标志，

所述静音使能标志占用第一比特位和第二比特位，所述第一比特位用于承载所述声床静音使能标志的值，所述第二比特位用于承载所述对象静音使能标志的值。

在上述方案中，静音使能标志可以使用不同的比特位来指示该静音使能标志的具体实现方式，例如预定义第一比特位和第二比特位，通过上述不同的比特位，能够指示静音使能标志为声床静音使能标志，和对象静音使能标志。

在一种可能的实现方式中，所述静音标记信息包括：所述静音使能标志；

所述静音使能标志用于指示静音标记检测功能是否开启；或者，

所述静音使能标志用于指示是否需要发送所述多声道信号的各声道的静音标志；或者，

所述静音使能标志用于指示所述多声道信号的各声道是否均为非静音通道。

在上述方案中，静音使能标志用于指示静音检测功能是否开启。例如，静音使能标志为第一值(例如1)时，表示开启静音检测功能，进一步检测多声道信号的各声道的静音标志。静音使能标志为第二值(例如0)时，表示关闭静音检测功能。

在上述方案中，静音使能标志还可以用于指示多声道信号的各声道是否均为非静音通道。例如，静音使能标志为第一值(例如1)时，表示需要进一步检测各声道的静音标志。静音使能标志为第二值(例如0)时，表示多声道信号的各声道均为非静音通道。

在一种可能的实现方式中，所述获取多声道信号的静音标记信息，包括：

根据输入编码设备的控制信令获取所述静音标记信息；或者，

根据编码设备的编码参数获取所述静音标记信息；或者，

对所述多声道信号的各声道进行静音标记检测，以得到所述静音标记信息。

在上述方案中，编码设备中可以输入控制信令，根据该控制信令确定静音标记信息，静音标记信息可以由外部输入控制，或者，编码设备会包括编码参数(也称为编码器参数)，编码参数可用于确定静音标记信息，可以根据编码速率、编码带宽等编码器参数预先设定。或者，还可以根据各通道的静音检测结果确定静音标记信息。本申请实施例中对于静音标记信息的实现方式不做限定。

在一种可能的实现方式中，所述静音标记信息包括：所述静音使能标志和所述静音标志；

所述对多声道信号的各声道进行静音标记检测，以得到静音标记信息，包括：

对所述多声道信号的各声道进行静音标记检测，以得到所述各声道的静音标志；

根据所述各声道的静音标志确定所述静音使能标志。

在上述方案中，编码端可以先检测各声道的静音标志，各声道的静音标志用于指示各声道是否为静音帧。在确定各声道的静音标志之后，根据各声道的静音标志确定静音使能标志，基于上述方式可以生成静音使能标志，从而可以生成静音标记信息。

在一种可能的实现方式中，所述静音标记信息包括：所述静音标志；或者，所述静音标记信息包括：所述静音使能标志和所述静音标志；

所述静音标志，用于指示所述静音使能标记作用的各声道是否为静音通道，所述静音通道为不需要编码的通道或者需要按照低比特编码的通道。

在上述方案中，静音标志的值为第一值(例如1)时，表示静音使能标记作用的该声道为静音通道；静音标志的值为第二值(例如0)时，表示静音使能标记作用的该声道为非静音通道。静音标志的值为第一值(例如1)时，不对该声道进行编码或者按照较低比特编码。

在一种可能的实现方式中，所述获取多声道信号的静音标记信息之前，所述方法还包括：

对所述多声道信号进行预处理，以得到预处理后的多声道信号，所述预处理包括如下至少一种：暂态检测、窗型判断、时频变换、频域噪声整形、时域噪声整形、频带扩展编码；

所述获取多声道信号的静音标记信息，包括：

对所述预处理后的多声道信号进行静音标记检测，以得到所述静音标记信息。

在上述方案中，通过上述预处理过程，可以提高多声道信号的编码效率。

在一种可能的实现方式中，所述方法还包括：

根据所述预处理后的多声道信号对所述静音标记信息进行修正。

在上述方案中，经过预处理之后，还可以根据预处理的结果对静音标记信息进行修正，例如，频域噪声整形后，多声道信号的某一声道的能量发生变化，可调整该声道的静音标记检测结果，从而对静音标记信息进行修正。

在一种可能的实现方式中，所述根据所述各传输通道的传输通道信号和所述静音标记信息生成码流，包括：

根据所述静音标记信息调整初始多声道处理方式，以得到调整后的多声道处理方式；

根据所述调整后的多声道处理方式对所述多声道信号进行编码，以得到所述码流。

在上述方案中，编码端可以依据静音标记信息调整初始多声道处理方式，再根据调整后的多声道处理方式对多声道信号进行编码，从而可以提高编码效率。例如，在多声道信号的筛选过程中，静音标志为1的声道不参与组对筛选。

根据所述静音标记信息、可用比特数和多声道边信息，为所述各传输通道进行比特分配，得到所述各传输通道的比特分配结果；

根据所述各通道的比特分配结果对所述各传输通道的传输通道信号进行编码，以得到所述码流。

在上述方案中，编码端根据静音标记信息、可用比特数和多声道边信息，进行比特分配；根据各传输通道的比特分配结果进行编码，获得编码后的码流。对于该比特分配策略的具体内容不做限定。例如，对传输通道信号的编码可以是多声道量化编码，本申请实施例对多声道量化编码的具体实现可以是组对下混后的信号经过神经网络变化，获得潜在特征；对潜在特征进行量化，并进行区间编码。多声道量化编码的具体实现可以是基于矢量量化对组对下混后的信号进行量化编码。

在一种可能的实现方式中，所述根据所述静音标记信息、可用比特数和多声道边信息，为所述各传输通道进行比特分配，包括：

根据可用比特数和多声道边信息，按照所述静音标记信息对应的比特分配策略为所述各传输通道进行比特分配。

在上述方案中，依据静音标记信息进行比特分配，可以是先根据总的可用比特和各传输通道的信号特征，结合比特分配策略进行初次比特分配。再根据静音标记信息调整比特分配结果，通过比特分配的调整，能够提高多声道信号的传输效率。

在一种可能的实现方式中，所述多声道边信息，包括：声道比特分配比例字段，

其中，所述声道比特分配比例字段用于指示多声道信号中非低频效果LFE声道之间的比特分配比例。

在上述方案中，通过声道比特分配比例字段，能够指示多声道信号中除LFE声道以外的所有声道的比特分配比例，从而确定出每个非LFE声道的比特数。

在一种可能的实现方式中，所述对多声道信号的各声道进行静音标记检测，包括：

根据所述多声道信号的当前帧的各声道的输入信号，确定所述当前帧的各声道的信号能量；

根据所述当前帧的各声道的信号能量，确定所述当前帧的各声道的静音检测参数；

根据所述当前帧的各声道的静音检测参数和预设的静音检测阈值，确定所述当前帧的各声道的静音标志。

在上述方案中，将当前帧各声道的静音检测参数分别与静音检测阈值进行比较，以当前帧的第一声道的静音标志检测为例，如果当前帧第一声道的静音检测参数小于静音检测阈值，则当前帧第一声道为静音帧，即当前时刻第一声道为静音通道，当前帧第一声道的静音标志muteFlag[1]为第一值(例如1)。如果当前帧第一声道的静音检测参数大于等于静音检测阈值，则当前帧第一声道为非静音帧，即当前时刻第一声道为非静音通道，当前帧第一声道的静音标志muteFlag[1]为第二值(例如0)。

在一种可能的实现方式中，所述对所述多声道信号进行多声道编码处理，以得到所述各传输通道的传输通道信号，包括：

对所述多声道信号进行多声道信号筛选，以得到筛选后的多声道信号；

对所述筛选后的多声道信号进行组对处理，以得到多声道组对信号和多声道边信息；

根据所述多声道边信息对所述多声道组对信号进行下混处理，以得到所述各传输通道的传输通道信号。

在上述方案中，编码设备对多声道信号进行筛选，例如筛选掉不参与多声道组对的多声道信号，得到筛选后的多声道信号。筛选后的多声道信号可以是参与组对的多声道信号，例如筛选后的声道不包括LFE声道。完成多声道信号的筛选之后，还可以对多声道信号进行组对，例如ch1和ch2组成一个声道组对，得到多声道组对信号。在生成多声道组对信号之后，再进行下混处理，对于具体的下混过程不再详细说明，可以得到各传输通道的传输通道信号，本申请实施例中传输通道可以是多声道组对下混后的通道。

在一种可能的实现方式中，所述多声道边信息包括如下至少一种：声道间幅度差参数量化码书索引、声道组对数量、声道对索引；

其中，所述声道间幅度差参数量化码书索引，用于指示所述多声道信号的各声道中每个声道的声道间幅度差ILD参数量化的码书索引，

所述声道组对数量，用于表示所述多声道信号的当前帧的声道组对数量，

所述声道对索引，用于表示声道对的索引。

在上述方案中，本申请实施例中不限定声道间幅度差参数量化码书索引占用的比特数。例如，声道间幅度差参数量化码书索引占用5个比特。声道间幅度差参数量化码书索引可以表示为mcIld[ch1]、mcIld[ch2]，占用5比特，当前声道对中每个声道的声道间幅度差ILD参数量化的码书索引，用于恢复解码频谱的幅度。本申请实施例中不限定声道组对数量占用的比特数。例如，声道组对数量占用4个比特，声道组对数量表示为pairCnt，占用4比特，用于表示当前帧的声道组对数量。本申请实施例中不限定声道对索引占用的比特数。例如，声道对索引表示为channelPairIndex，channelPairIndex比特数与总声道数量有关，用于表示声道对的索引，可解析得到当前声道对中的两个声道的索引值，即ch1和ch2。

第二方面，本申请实施例提供了一种多声道信号的解码方法，包括：

从编码设备的码流中解析出静音标记信息，并根据所述静音标记信息确定各传输通道的编码信息，所述静音标记信息包括：静音使能标志，和/或静音标志；

对所述各传输通道的编码信息进行解码，以得到所述各传输通道的解码信号；

对所述各传输通道的解码信号进行多声道解码处理，以得到多声道解码输出信号。

在上述方案中，本申请实施例中解码端可以从编码端的码流中得到静音标记信息，从而便于解码端采用与编码端一致的方式进行解码处理。

在一种可能的实现方式中，所述从编码设备的码流中解析出静音标记信息，包括：

从所述码流中解析出各声道的静音标志；或者，

从所述码流中解析出所述静音使能标志，若所述静音使能标志为第一值时，从所述码流中解析出静音标志；或者，

从所述码流中解析出声床静音使能标志和/或对象静音使能标志，及各声道的静音标志；或者，

从所述码流中解析出声床静音使能标志和/或对象静音使能标志；根据所述声床静音使能标志和/或对象静音使能标志，从所述码流中解析出各声道的部分声道的静音标志。

在上述方案中，码端从编码设备的码流中解析出静音标记信息，根据编码设备生成的静音标记信息的具体内容的不同，解码端得到的静音标记信息与编码侧相对应。具体的，一种方式中，静音标志，用于指示各声道是否为静音通道，静音通道为不需要编码的通道或者需要按照低比特编码的通道，解码端可以从码流中解析出各声道的静音标志。一种方式中，静音使能标志还可以用于指示各声道是否均为非静音通道。例如，静音使能标志为第一值(例如1)时，表示需要进一步检测各声道的静音标志。静音使能标志为第二值(例如0)时，表示各声道均为非静音通道，解码端从码流中解析出静音使能标志，若静音使能标志为第一值时，从码流中解析出静音标志。一种方式中，静音使能标志包括：声床静音使能标志，和/或对象静音使能标志，解码端从码流中解析出声床静音使能标志和/或对象静音使能标志，及各声道的静音标志。一种方式中，解码端从码流中解析出声床静音使能标志和/或对象静音使能标志；根据声床静音使能标志和/或对象静音使能标志，从码流中解析出部分声道的静音标志。

在一种可能的实现方式中，所述对所述各传输通道的编码信息进行解码，包括：

从所述码流中解析出多声道边信息；

根据所述多声道边信息和所述静音标志信息为所述各传输通道进行比特分配，以得到所述各通道的编码比特数；

根据所述各通道的编码比特数对所述各传输通道的编码信息进行解码。

在上述方案中，码流中还可以包括多声道边信息，解码端可以根据多声道边信息和静音标志信息为各传输通道进行比特分配，以得到各传输通道的编码比特数，解码端得到的编码比特数与编码端预设的编码比特数相同，再根据各传输通道的编码比特数对各传输通道的编码信息进行解码，从而实现对各传输通道的传输通道信号的解码。

在一种可能的实现方式中，所述对所述各传输通道的解码信号进行多声道解码处理，以得到多声道解码输出信号之后，所述方法还包括：

对所述多声道解码输出信号进行后处理，所述后处理包括如下至少一种：频带扩展解码、逆时域噪声整形、逆频域噪声整形、逆时频变换。

在上述方案中，上述对多声道解码输出信号进行后处理的过程与编码端的预处理的过程相逆，对于具体的处理方式不再限定。

其中，所述声道间幅度差参数量化码书索引，用于指示所述各声道中每个声道的声道间幅度差ILD参数量化的码书索引，

所述声道对索引，用于表示声道对的索引。

第三方面，本申请实施例提供了一种编码设备，所述编码设备包括：

静音标记检测模块，用于获取多声道信号的静音标记信息，所述静音标记信息包括：静音使能标志，和/或静音标志；

多声道编码模块，用于对所述多声道信号进行多声道编码处理，以得到各传输通道的传输通道信号；

码流生成模块，用于根据所述各传输通道的传输通道信号和所述静音标记信息生成码流，所述码流包括：所述静音标记信息和所述传输通道信号的多声道量化编码结果。

第四方面，本申请实施例提供了一种解码设备，所述解码设备包括：

解析模块，用于从编码设备的码流中解析出静音标记信息，并根据所述静音标记信息确定各传输通道的编码信息，所述静音标记信息包括：静音使能标志，和/或静音标志；

反量化模块，用于对所述各传输通道的编码信息进行解码，以得到所述各传输通道的解码信号；

多声道解码模块，用于对所述各传输通道的解码信号进行多声道解码处理，以得到多声道解码输出信号。

第五方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面或第二方面所述的方法。

第六方面，本申请实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面或第二方面所述的方法。

第七方面，本申请实施例提供一种通信装置，该通信装置可以包括终端设备或者芯片等实体，所述通信装置包括：处理器、存储器；所述存储器用于存储指令；所述处理器用于执行所述存储器中的所述指令，使得所述通信装置执行如前述第一方面或第二方面中任一项所述的方法。

第八方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储第一方面的方法所生成的码流。

第九方面，本申请提供了一种芯片系统，该芯片系统包括处理器，用于支持编解码设备实现上述方面中所涉及的功能，例如，发送或处理上述方法中所涉及的数据和/或信息。在一种可能的设计中，所述芯片系统还包括存储器，所述存储器，用于保存编解码设备必要的程序指令和数据。该芯片系统，可以由芯片构成，也可以包括芯片和其他分立器件。

附图说明

图1为本申请实施例提供的一种多声道信号的处理系统的组成结构示意图；

图2a为本申请实施例提供的音频编码器和音频解码器应用于终端设备的示意图；

图2b为本申请实施例提供的音频编码器应用于无线设备或者核心网设备的示意图；

图2c为本申请实施例提供的音频解码器应用于无线设备或者核心网设备的示意图；

图3a为本申请实施例提供的多声道编码器和多声道解码器应用于终端设备的示意图；

图3b为本申请实施例提供的多声道编码器应用于无线设备或者核心网设备的示意图；

图3c为本申请实施例提供的多声道解码器应用于无线设备或者核心网设备的示意图；

图4为本申请实施例提供的一种多声道信号的编码方法的示意图；

图5为本申请实施例提供的一种多声道信号的解码方法的示意图；

图6为本申请实施例提供的一种多声道信号的编码流程的示意图；

图7为本申请实施例提供的一种多声道信号的编码流程的示意图；

图8为本申请实施例提供的一种多声道信号的解码流程的示意图；

图9为本申请实施例提供的一种多声道信号的解码流程的示意图；

图10为本申请实施例提供的一种编码设备的组成结构示意图；

图11为本申请实施例提供的一种解码设备的组成结构示意图；

图12为本申请实施例提供的另一种编码设备的组成结构示意图；

图13为本申请实施例提供的另一种解码设备的组成结构示意图。

具体实施方式

本申请实施例提供了一种多声道信号的编解码方法和终端设备以及网络设备，用于提高编码效率和编码比特资源利用率。

下面结合附图，对本申请的实施例进行描述。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

声音(sound)是由物体振动产生的一种连续的波。产生振动而发出声波的物体称为声源。声波通过介质(如：空气、固体或液体)传播的过程中，人或动物的听觉器官能感知到声音。

声波的特征包括音调、音强和音色。音调表示声音的高低。音强表示声音的大小。音强也可以称为响度或音量。音强的单位是分贝(decibel，dB)。音色又称为音品。

声波的频率决定了音调的高低。频率越高音调越高。物体在一秒钟之内振动的次数称为频率，频率单位是赫兹(hertz，Hz)。人耳能识别的声音的频率在20Hz至20000Hz之间。

声波的幅度决定了音强的强弱。幅度越大音强越大。距离声源越近，音强越大。

声波的波形决定了音色。声波的波形包括方波、锯齿波、正弦波和脉冲波等。

根据声波的特征，声音可以分为规则声音和无规则声音。无规则声音是指声源无规则地振动发出的声音。无规则声音例如是影响人们工作、学习和休息等的噪声。规则声音是指声源规则地振动发出的声音。规则声音包括语音和乐音。声音用电表示时，规则声音是一种在时频域上连续变化的模拟信号。该模拟信号可以称为音频信号(acoustic signals)。音频信号是一种携带语音、音乐和音效的信息载体。

由于人的听觉具有辨别空间中声源的位置分布的能力，则听音者听到空间中的声音时，除了能感受到声音的音调、音强和音色外，还能感受到声音的方位。

声音还可以根据分为单声道和立体声。单声道具有一个声音通道，用一个传声器拾取声音，用一个扬声器进行放音。立体声具有多个声音通道，且不同的声音通道传输不同声音波形。其中，声音通道也可以简称为声道或者通道，例如多声道信号可以包括各声道的信号，该各声道也可以称为各通道，本申请后续实施例中各声道与各通道的含义相同。当多声道信号经过多声道编码之后可以得到各传输通道的传输通道信号，该传输通道指的是经过多声道编码之后的通道，进一步的，该多声道编码可以包括声道组对以及下混处理，因此传输通道也可以称为声道组对以及下混后的通道。详见后续实施例中对多声道编码过程的说明。

本申请实施例应用于音频编解码领域，特别是多声道编码。多声道编码可以是对具有多个声道的声床信号进行编码，例如5.1声道、5.1.4声道、7.1声道、7.1.4声道、22.2声道等。多声道编码也可以是对多个对象音频信号进行编码。多声道编码还可以是对同时包含声床信号和/或对象音频信号的混合信号进行编码。

其中，5.1声道：包括中央声道(C)、前置左声道(L)、前置右声道(R)、后置左环绕声道(LS)、后置右环绕声道(RS)，以及0.1(LFE)声道。

5.1.4声道是在5.1声道基础上增加如下声道：左高声道、右高声道、左高环绕声道、右高环绕声道。

7.1声道包括中央声道(C)、前置左声道(L)、前置右声道(R)、后置左环绕声道(LS)、后置右环绕声道(RS)，左后置声道(LB)、右后置声道(RB)以及0.1声道LFE声道。

7.1.4声道是在7.1声道基础上增加4个高度声道。

22.2声道是一种多声道格式，包括三层共22个声道以及2个LFE声道。

声床信号和对象信号的混合信号是三维声中一种信号组合，共同完成电影制作、体育比赛、音乐会等复杂场景的音频录制、传输及重放需求。例如，体育比赛转播中赛场的声音内容通常由声床信号表示，不同评论员的评论通常用多个对象音频表示。无论是声床信号、对象信号、还是包含声床信号和对象音频信号的混合信号，在同一时刻，不同声道间的输入信号的特征不完全相同，不同时刻间，同一声道的输入信号的特征也在不断变化。

目前的多声道信号采用固定的编码方案，不考虑不同时刻和或不同声道间的输入信号特征的差异，例如采用统一的比特分配方案进行处理，根据比特分配的结果对多声道信号进行量化编码。

采用相同的比特分配方案无法适应不同时刻不同声道间输入信号特征的变化，编码效率低。例如，待编码的多通道音频信号包含5.1.4声道的声床信号和4个对象信号。其中，待编码的14个声道中，通道0-9属于声床信号、通道10-13属于对象信号。某一时刻，通道6-9和通道11、12、13是静音通道(能被听觉感知的信息少)，其他通道包含主要音频信息，即非静音通道。另一时刻，静音通道变成通道10、12、13，其他通道包含主要音频信息。

如果不同时刻采用相同的比特分配方案，可能会导致有些包含主要音频信息的声道没有足够的比特数进行编码，而有些静音通道被分配过多的编码比特数，造成编码比特资源的浪费。

本申请实施例提供一种音频处理技术，尤其是提供一种面向多声道信号的音频编码技术，以改进传统的音频编码系统，多声道信号是指包括多个声道的音频信号，例如多声道信号可以是立体声信号。音频处理包括音频编码和音频解码两部分。音频编码在源侧执行，包括编码(例如，压缩)原始音频以减少表示该音频所需的数据量，从而更高效地存储和/或传输。音频解码在目的侧执行，包括相对于编码器作逆处理，以重建原始音频。编码部分和解码部分也合称为编码。下面将结合附图对本申请实施例的实施方式进行详细描述。

本申请实施例的技术方案可以应用于各种的音频处理系统，如图1所示，为本申请实施例提供的音频处理系统的组成结构示意图。音频处理系统100可以包括：多声道信号的编码装置101和多声道信号的解码装置102。其中，多声道信号的编码装置101又可以称为音频编码装置，可用于生成码流，然后该音频编码码流可以通过音频传输通道传输给多声道信号的解码装置102，多声道信号的解码装置102又可以称为多音频解码装置，可以接收到码流，然后执行多声道信号的解码装置102的音频解码功能，最后获得重建后的信号。

在本申请的实施例中，该多声道信号的编码装置可以应用于各种有音频通信需要的终端设备、有转码需要的无线设备与核心网设备，例如多声道信号的编码装置可以是上述终端设备或者无线设备或者核心网设备的音频编码器。同样的，该多声道信号的解码装置可以应用于各种有音频通信需要的终端设备、有转码需要的无线设备与核心网设备，例如多声道信号的解码装置可以是上述终端设备或者无线设备或者核心网设备的音频解码器。例如，音频编码器可以包括无线接入网、核心网的媒体网关、转码设备、媒体资源服务器、移动终端、固网终端等，音频编码器还可以是应用于虚拟现实技术(virtual reality，VR)流媒体(streaming)服务中的音频编码器。

在申请实施例中，以适用于虚拟现实流媒体(VR streaming)服务中的音频编码模块(audio encoding及audio decoding)为例，端到端对音频信号的编解码流程包括：音频信号A经过采集模块(acquisition)后进行预处理操作(audioPReprocessing)，预处理操作包括滤除掉信号中的低频部分，可以是以20Hz或者50Hz为分界点，提取信号中的方位信息，之后进行编码处理(audio encoding)打包(file/segment encapsulation)之后发送(delivery)到解码端，解码端首先进行解包(file/segment decapsulation)，之后解码(audio decoding)，对解码信号进行双耳渲染(audio rendering)处理，渲染处理后的信号映射到收听者耳机(headphones)上，可以为独立的耳机，也可以是眼镜设备上的耳机。

如图2a所示，为本申请实施例提供的音频编码器和音频解码器应用于终端设备的示意图。对于每个终端设备都可以包括：音频编码器、信道编码器、音频解码器、信道解码器。具体的，信道编码器用于对音频信号进行信道编码，信道解码器用于对音频信号进行信道解码。例如，在第一终端设备20中可以包括：第一音频编码器201、第一信道编码器202、第一音频解码器203、第一信道解码器204。在第二终端设备21中可以包括：第二音频解码器211、第二信道解码器212、第二音频编码器213、第二信道编码器214。第一终端设备20连接无线或者有线的第一网络通信设备22，第一网络通信设备22和无线或者有线的第二网络通信设备23之间通过数字信道连接，第二终端设备21连接无线或者有线的第二网络通信设备23。其中，上述无线或者有线的网络通信设备可以泛指信号传输设备，例如通信基站，数据交换设备等。

在音频通信中，作为发送端的终端设备首先进行音频采集，对采集到的音频信号进行音频编码，再进行信道编码后，通过无线网络或者核心网进行在数字信道中传输。而作为接收端的终端设备根据接收到的信号进行信道解码，以获得码流，然后经过音频解码恢复出音频信号，由接收端的终端设备进音频回放。

如图2b所示，为本申请实施例提供的音频编码器应用于无线设备或者核心网设备的示意图。其中，无线设备或者核心网设备25包括：信道解码器251、其他音频解码器252、本申请实施例提供的音频编码器253、信道编码器254，其中，其他音频解码器252是指除音频解码器以外的其他音频解码器。在无线设备或者核心网设备25内，首先通过信道解码器251对进入该设备的信号进行信道解码，然后使用其他音频解码器252进行音频解码，然后使用本申请实施例提供的音频编码器253进行音频编码，最后使用信道编码器254对音频信号进行信道编码，完成信道编码之后再传输出去。其中，其他音频解码器252是对信道解码器251解码后的码流进行音频解码。

如图2c所示，为本申请实施例提供的音频解码器应用于无线设备或者核心网设备的示意图。其中，无线设备或者核心网设备25包括：信道解码器251、本申请实施例提供的音频解码器255、其他音频编码器256、信道编码器254，其中，其他音频编码器256是指除音频编码器以外的其他音频编码器。在无线设备或者核心网设备25内，首先通过信道解码器251对进入该设备的信号进行信道解码，然后使用音频解码器255对接收到的音频编码码流进行解码，然后使用其他音频编码器256进行音频编码，最后使用信道编码器254对音频信号进行信道编码，完成信道编码之后再传输出去。在无线设备或者核心网设备中，如果需要实现转码，则需要进行相应的音频编码处理。其中，无线设备指的是通信中的射频相关的设备，核心网设备指的是通信中核心网相关的设备。

在本申请的一些实施例中，该多声道信号的编码装置可以应用于各种有音频通信需要的终端设备、有转码需要的无线设备与核心网设备，例如多声道信号的编码装置可以是上述终端设备或者无线设备或者核心网设备的多声道编码器。同样的，该多声道信号的解码装置可以应用于各种有音频通信需要的终端设备、有转码需要的无线设备与核心网设备，例如多声道信号的解码装置可以是上述终端设备或者无线设备或者核心网设备的多声道解码器。

如图3a所示，为本申请实施例提供的多声道编码器和多声道解码器应用于终端设备的示意图，对于每个终端设备都可以包括：多声道编码器、信道编码器、多声道解码器、信道解码器。该多声道编码器可以执行本申请实施例提供的音频编码方法，该多声道解码器可以执行本申请实施例提供的音频解码方法。具体的，信道编码器用于对多声道信号进行信道编码，信道解码器用于对多声道信号进行信道解码。例如，在第一终端设备30中可以包括：第一多声道编码器301、第一信道编码器302、第一多声道解码器303、第一信道解码器304。在第二终端设备31中可以包括：第二多声道解码器311、第二信道解码器312、第二多声道编码器313、第二信道编码器314。第一终端设备30连接无线或者有线的第一网络通信设备32，第一网络通信设备32和无线或者有线的第二网络通信设备33之间通过数字信道连接，第二终端设备31连接无线或者有线的第二网络通信设备33。其中，上述无线或者有线的网络通信设备可以泛指信号传输设备，例如通信基站，数据交换设备等。音频通信中作为发送端的终端设备对采集到的多声道信号进行多声道编码，再进行信道编码后，通过无线网络或者核心网进行在数字信道中传输。而作为接收端的终端设备根据接收到的信号，进行信道解码，以获得多声道信号编码码流，然后经过多声道解码恢复出多声道信号，由作为接收端的终端设备进回放。

如图3b所示，为本申请实施例提供的多声道编码器应用于无线设备或者核心网设备的示意图，其中，无线设备或者核心网设备35包括：信道解码器351、其他音频解码器352、多声道编码器353、信道编码器354，与前述图2b类似，此处不再赘述。

如图3c所示，为本申请实施例提供的多声道解码器应用于无线设备或者核心网设备的示意图，其中，无线设备或者核心网设备35包括：信道解码器351、多声道解码器355、其他音频编码器356、信道编码器354，与前述图2c类似，此处不再赘述。

其中，音频编码处理可以是多声道编码器中的一部分，音频解码处理可以是多声道解码器中的一部分，例如，对采集到的多声道信号进行多声道编码可以是将采集到的多声道信号经过处理后获得音频信号，再按照本申请实施例提供的方法对获得的音频信号进行编码；解码端根据多声道信号编码码流，解码获得音频信号，经过上混处理后恢复出多声道信号。因此，本申请实施例也可应用于终端设备、无线设备、核心网设备中的多声道编码器和多声道解码器。在无线或者核心网设备中，如果需要实现转码，则需要进行相应的多声道编码处理。

首先介绍本申请实施例提供的一种多声道信号的编码方法，该方法可以由终端设备执行，例如该终端设备可以是一种多声道信号的编码装置(如下简称编码端或者编码器或者编码设备，例如编码端可以是人工智能(artificial intelligence，AI)编码器)。本申请实施例中多声道信号可以包括多个声道，例如第一声道和第二声道，或者多个声道可以包括第一声道、第二声道和第三声道等。如图4所示，对本申请实施例中编码设备(或者称为编码端)执行的编码流程进行说明：

401、获取多声道信号的静音标记信息，静音标记信息包括：静音使能标志，和/或静音标志。

本申请实施例中编码端输入多声道信号之后，可以获取该多声道信号的静音标记信息。该静音标记信息可以指示多声道信号中的声道的静音情况。例如对多声道信号进行静音标记检测，以检测多声道信号是否支持静音标记，编码端可以根据多声道信号生成静音标记信息。该静音标记信息可以用于指导后续的编码处理，例如比特分配等处理。静音标记信息还可以由编码端写入码流，传输给解码端，保证编解码处理的一致。

本申请实施例中静音标记信息用于指示多声道信号的静音标记，静音标记信息具有多种实现方式，例如静音标记信息可以包含静音使能标志和/或静音标志。其中，静音使能标志用于指示静音检测是否开启，静音标志用于指示多声道信号的各声道是否为静音帧。

在本申请的一些实施例中，多声道信号包含声床信号和/或对象信号，目前的编码方案不考虑不同时刻和或不同声道间的输入信号特征的差异，采用统一的编码方案进行处理，编码效率低。本申请实施例中提供的静音使能标志能够针对声床信号和/或对象信号进行静音指示。具体的，静音标记信息包括：静音使能标志；静音使能标志包括：全局静音使能标志，或部分静音使能标志，其中，

全局静音使能标志为作用于多声道信号的静音使能标志；或者，

部分静音使能标志为作用于多声道信号中部分声道的静音使能标志。

其中，静音使能标志记作HasSilFlag，静音使能标志可以是全局静音使能标志或部分静音使能标志。通过上述全局静音使能标志，或部分静音使能标志能够对针对声床信号和/或对象信号进行静音指示，从而基于全局静音使能标志或部分静音使能标志进行后续的编码处理，例如比特分配，可以提升编码效率。

在一些具体的实现方式中，当静音使能标志为部分静音使能标志时，

部分静音使能标志为作用于对象信号的对象静音使能标志，或者，部分静音使能标志为作用于声床信号的声床静音使能标志，或者，部分静音使能标志为作用于多声道信号中不包含非低频效果(Low Frequency Effects，LFE)声道的其他声道的静音使能标志，或者所述部分静音使能标志为作用于多声道信号中参与组对的声道信号的静音使能标志。

例如，全局静音使能标志作用于所有通道，部分静音使能标志作用于部分通道。例如，对象静音使能标志应用于多声道信号中对象信号对应的声道，声床静音使能标志应用于多声道信号中声床信号对应的声道。例如，仅作用于多声道信号中的对象信号的对象静音使能标志，记作objMuteEna。又如，仅作用于多声道信号中的声床信号的声床静音使能标志，记作bedMuteEna。

例如，全局静音使能标志为作用于所述多声道信号的静音使能标志：多声道信号只包含声床信号的时候，全局静音使能标志为作用于所述声床信号的静音使能标志；多声道信号只包含对象信号的时候，全局静音使能标志为作用于所述对象信号的静音使能标志；多声道信号包含声床信号和对象信号的时候，全局静音使能标志为作用于所述声床信号和对象信号的静音使能标志。

部分静音使能标志为作用于所述多声道信号中部分声道的静音使能标志，部分声道为预先设定的，例如，所述部分静音使能标志为作用于所述对象信号的对象静音使能标志，或者，所述部分静音使能标志为作用于所述声床信号的声床静音使能标志，或者，所述部分静音使能标志为作用于所述多声道信号中不包含LFE声道信号的其他声道信号的静音使能标志。所述部分静音使能标志为作用于多声道信号中参与组对的声道信号的静音使能标志。本申请实施例中对多声道信号进行组对处理的具体方式不做限定。

在本申请的一些实施例中，多声道信号，包括：声床信号，和对象信号；

静音标记信息包括：静音使能标志；静音使能标志包括：声床静音使能标志，和对象静音使能标志，

静音使能标志占用第一比特位和第二比特位，第一比特位用于承载声床静音使能标志的值，第二比特位用于承载对象静音使能标志的值。

其中，静音使能标志可以使用不同的比特位来指示该静音使能标志的具体实现方式，例如预定义第一比特位和第二比特位，第一比特位用于承载声床静音使能标志的值，第二比特位用于承载对象静音使能标志的值，通过上述不同的比特位，能够指示静音使能标志为声床静音使能标志，和对象静音使能标志。

在本申请的一些实施例中，步骤401获取多声道信号的静音标记信息，包括：

A1、根据输入编码设备的控制信令获取所述静音标记信息；或者，

A2、根据编码设备的编码参数获取所述静音标记信息；或者，

A3、对所述多声道信号的各声道进行静音标记检测，以得到所述静音标记信息。

其中，编码设备中可以输入控制信令，根据该控制信令确定静音标记信息，静音标记信息可以由外部输入控制，或者，编码设备会包括编码参数(也称为编码器参数)，编码参数可用于确定静音标记信息，可以根据编码速率、编码带宽等编码器参数预先设定。或者，还可以根据各通道的静音检测结果确定静音标记信息。本申请实施例中对于静音标记信息的实现方式不做限定。

在本申请的一些实施例中，静音标记信息包括：静音使能标志；

静音使能标志用于指示静音标记检测功能是否开启；

静音使能标志用于指示是否需要发送多声道信号的各声道的静音标志；或者，

静音使能标志用于指示多声道信号的各声道是否均为非静音通道。

其中，静音使能标志用于指示静音检测是否开启。例如，静音使能标志为第一值(例如1)时，表示开启静音检测功能，进一步检测各声道的静音标志。静音使能标志为第二值(例如0)时，表示关闭静音检测功能。或者，静音使能标志可以用于指示各声道是否均为非静音通道。例如，静音使能标志为第一值(例如1)时，表示需要进一步检测各声道的静音标志。静音使能标志为第二值(例如0)时，表示各声道均为非静音通道。

在本申请的一些实施例中，静音标记信息包括：静音使能标志和静音标志；

步骤A3对多声道信号的各声道进行静音标记检测，以得到静音标记信息，包括：

A31、对多声道信号的各声道进行静音标记检测，以得到各声道的静音标志；

A32、根据各声道的静音标志确定静音使能标志。

其中，编码端可以先检测各声道的静音标志，各声道的静音标志用于指示各声道是否为静音帧。各声道的静音标志记作muteflag[ch]，其中ch为通道编号，ch＝0…N-1，其中N为待编码输入信号的总通道数，其中声床信号的通道数为M，对象声道的通道数为P，总统通道数N＝M+P。声床信号的通道编号。例如，待编码信号为包含声床信号和对象信号的混合信号，其中，声床信号为5.1.4声道信号，声床信号的通道数M＝10；对象信号的数量为4个，对象信号的通道数P＝4；总通道数为14。声床信号的通道编号为从0到9，对象信号的通道编号为10到13。静音标志muteflag[ch]，ch＝0…13，对应各个通道的静音标志，用于指示各个通道是否为静音通道。在确定各声道的静音标志之后，根据各声道的静音标志确定静音使能标志。

在本申请的一些实施例中，静音标记信息包括：静音标志；或者，静音标记信息包括：静音使能标志和静音标志；

静音标志，用于指示静音使能标志作用的各声道是否为静音通道，静音通道为不需要编码的通道或者需要按照低比特编码的通道。

例如，声床信号的通道编号为从0到9，对象信号的通道编号为10到13。静音标志 muteflag[ch]，ch＝0…13，对应各个声道的静音标志，用于指示静音使能标志作用的各个声道是否为静音通道。静音通道是信号的能量或分贝或响度低于听觉门限的通道，是不需要编码的通过或者进需要按照较低比特编码的通道。静音标志的值为第一值(例如1)时，表示该通道为静音通道；静音标志的值为第二值(例如0)时，表示该通道为非静音通道。静音标志的值为第一值(例如1)时，不对该通道进行编码或者按照较低比特编码。

在本申请的一些实施例中，步骤A3对多声道信号的各声道进行静音标记检测，包括：

B1、根据多声道信号的当前帧的各声道的输入信号，确定当前帧的各声道的信号能量。

根据当前帧各声道的输入信号，确定当前帧各声道的信号能量，本申请实施例中对帧长的取值不做限定。

B2、根据当前帧的各声道的信号能量，确定当前帧的各声道的静音检测参数。

当前帧各声道的静音检测参数用于表征当前帧各声道信号的能量值、功率值、分贝值或者响度值。

B3、根据当前帧的各声道的静音检测参数和预设的静音检测阈值，确定当前帧的各声道的静音标志。

将当前帧各声道的静音检测参数分别与静音检测阈值进行比较，以当前帧的第一声道的静音标志检测为例，如果当前帧第一声道的静音检测参数小于静音检测阈值，则当前帧第一声道为静音帧，即当前时刻第一声道为静音通道，当前帧第一声道的静音标志muteFlag[1]为第一值(例如1)。如果当前帧第一声道的静音检测参数大于等于静音检测阈值，则当前帧第一声道为非静音帧，即当前时刻第一声道为非静音通道，当前帧第一声道的静音标志muteFlag[1]为第二值(例如0)。

402、对多声道信号进行多声道编码处理，以得到各传输通道的传输通道信号。

本申请实施例中，编码设备可以对多声道信号进行多声道编码处理，多声道编码的过程有多种，详见后续实施例的举例说明，通过上述编码过程，可以得到各传输通道的传输通道信号。

多声道量化编码的具体实现可以是组对下混后的信号经过神经网络变化，获得潜在特征；对潜在特征进行量化，并进行区间编码。多声道量化编码的具体实现可以是基于矢量量化对组对下混后的信号进行量化编码。本申请实施例对此不做限定。

在本申请的一些实施例中，步骤402对多声道信号进行多声道编码处理，以得到各传输通道的传输通道信号，包括：

C1、对多声道信号进行多声道信号筛选，以得到筛选后的多声道信号。

例如，编码设备完成多声道信号的筛选，筛选后的信号是参与组对的多声道信号，例如筛选后的声道不包括LFE声道，对于具体的筛选方式不做限定。

C2、对筛选后的多声道信号进行组对处理，以得到多声道组对信号和多声道边信息。

例如，编码设备对多声道信号进行筛选，筛选后的多声道信号可以是参与组对的多声道信号，完成多声道信号的筛选之后，还可以对多声道信号进行组对，例如声道ch1和声道ch2组成一个声道组对，得到多声道组对信号。组对处理的具体方法本发明不做限定。多声道边信息包括如下至少一种：声道间幅度差参数量化码书索引、声道组对数量、声道对索引。其中，声道间幅度差参数量化码书索引，用于指示多声道信号的各声道中每个声道的声道间幅度差(Interaural Level Difference，ILD)参数量化的码书索引；声道组对数量，用于表示多声道信号的当前帧的声道组对数量；声道对索引，用于表示声道对的索引。

C3、根据多声道边信息对多声道组对信号进行下混处理，以得到各传输通道的传输通道信号。

在生成多声道组对信号和多声道边信息之后，可以使用该多声道边信息对多声道组对信号进行下混处理，对于具体的下混过程不再详细说明，通过前述的多声道组对和下混，可以得到多声道组对下混后的各传输通道的传输通道信号，该传输通道具体可以指的是多声道组对和下混后的通道。

在本申请的一些实施例中，步骤401获取多声道信号的静音标记信息之前，编码端执行的多声道信号的编码方法还包括：

D1、对多声道信号进行预处理，以得到预处理后的多声道信号，预处理包括如下至少一种：暂态检测、窗型判断、时频变换、频域噪声整形、时域噪声整形、频带扩展编码；

在前述执行步骤D1的实现场景下，步骤401获取多声道信号的静音标记信息，包括：

对预处理后的多声道信号进行静音标记检测，以得到静音标记信息。

其中，静音标志检测的输入信号可以是原始输入的多声道信号，也可以是经过预处理后的多声道信号。预处理可以包括但不限于：暂态检测、窗型判断、时频变换、频域噪声整形、时域噪声整形、频带扩展编码等处理。该多声道信号可以是时域信号，也可以是频域信号。通过上述预处理过程，可以提高多声道信号的编码效率。

在本申请的一些实施例中，编码端执行的多声道信号的编码方法还包括：

E1、对多声道信号进行预处理，以得到预处理后的多声道信号，预处理包括如下至少一种：暂态检测、窗型判断、时频变换、频域噪声整形、时域噪声整形、频带扩展编码；

E2、根据预处理后的多声道信号对静音标记信息进行修正。

其中，编码端可以对多声道信号进行预处理。预处理可以包括但不限于：暂态检测、窗型判断、时频变换、频域噪声整形、时域噪声整形、频带扩展编码等处理。多声道信号可以是时域信号，也可以是频域信号。经过预处理之后，还可以根据预处理后的多声道信号对步骤401中的静音标记信息进行修正，例如，频域噪声整形后，多声道信号的某一声道的信号能量发生变化，可调整该声道的静音标记检测结果。

403、根据各传输通道的传输通道信号和静音标记信息生成码流，码流包括：静音标记信息和各传输通道的传输通道信号的多声道量化编码结果。

其中，编码端生成码流，该码流中包括静音标记信息，从而使得解码端可以获取到该静音标记信息，基于该静音标记信息对码流解码，便于解码端采用与编码端一致的方式进行解码处理，例如比特分配。

在本申请的一些实施例中，步骤403根据各传输通道的传输通道信号和静音标记信息生成码流，包括：

F1、根据静音标记信息调整初始多声道处理方式，以得到调整后的多声道处理方式；

F2、根据调整后的多声道处理方式对多声道信号进行编码，以得到码流。

其中，编码端可以依据静音标记信息调整初始多声道处理方式，再根据调整后的多声道处理方式对多声道信号进行编码，从而可以提高编码效率。例如，在多声道信号的筛选过程中，静音标志为1的声道不参与组对筛选。

G1、根据所述静音标记信息、可用比特数和多声道边信息，为各传输通道进行比特分配，得到各传输通道的比特分配结果；

G2、根据各通道的比特分配结果对各传输通道的传输通道信号进行编码，以得到码流。

其中，编码端可以将静音标记信息用于传输通道的比特分配，首先根据可用比特数和多声道边信息为各传输通道进行初始比特分配，然后根据静音标记信息再进行比特分配，得到各传输通道的比特分配结果；根据各传输通道的比特分配结果对传输通道信号进行编码，获得码流，该码流可以称为编码码流，或者多声道信号的码流。

进一步的，在本申请的一些实施例中，步骤G1根据所述静音标记信息、可用比特数和多声道边信息，为各传输通道进行比特分配，包括：

G11、根据可用比特数和多声道边信息，按照静音标记信息对应的比特分配策略为各传输通道进行比特分配。

编码端可以依据静音标记信息为各传输通道进行比特分配。静音使能标志可用于选择不同的比特分配策略。对于该比特分配策略的具体内容不做限定，举例说明如下：假设静音使能标志包括声床静音使能标志bedMuteEna和对象静音使能标志objMuteEna，依据静音标记信息进行比特分配，可以是先根据总的可用比特和各传输通道的信号特征，进行初次比特分配。再根据静音标记信息调整比特分配结果，通过比特分配的调整，能够提高多声道信号的传输效率。例如，若对象静音使能标志objMuteEna为1，将对象信号中muteflag为1的声道初次分配的比特分配给声床信号或其他对象通道。若声床静音使能标志bedMuteEna和对象静音使能标志均为1，可以将对象通道中muteflag为1的声道初次分配的比特重新分配给其他对象通道，将声床信号中muteflag为1的声道初次分配的比特重新分配给其他声床通道。

进一步的，在本申请的一些实施例中，多声道边信息，包括：声道比特分配比例，

其中，声道比特分配比例用于指示多声道信号中非低频效果LFE声道之间的比特分配比例。

其中，低频效果LFE声道是低音声音范围从3-120Hz的音频声道，该声道可用于发送到专门为低音调而设计的扬声器，声道比特分配比例用于指示非LFE声道的比特分配比例。例如，声道比特分配比例占用6个比特。本申请实施例中不限定声道比特分配比例占用的比特数。

例如，声道比特分配比例可以是多声道边信息中的声道比特分配比例字段，表示为chBitRatios，占用6个比特，用于指示多声道信号中除LFE声道以外的所有声道的比特分配比例。通过声道比特分配比例字段，能够指示每个传输通道的比特分配比例，从而确定出每个传输通道得到的比特数。不限定的是，该比特数还可以进一步转换为字节数。

在本申请的一些实施例中，多声道边信息包括如下至少一种：声道间幅度差参数量化码书索引、声道组对数量、声道对索引；

其中，声道间幅度差参数量化码书索引，用于指示各声道中每个声道的声道间幅度差(Interaural Level Difference，ILD)参数量化的码书索引；

声道组对数量，用于表示多声道信号的当前帧的声道组对数量；

声道对索引，用于表示声道对的索引。

其中，本申请实施例中不限定声道间幅度差参数量化码书索引占用的比特数。例如，声道间幅度差参数量化码书索引占用5个比特。声道间幅度差参数量化码书索引可以表示为mcIld[ch1]、mcIld[ch2]，占用5比特，当前声道对中每个声道的声道间幅度差ILD参数量化的码书索引，用于恢复解码频谱的幅度。

本申请实施例中不限定声道组对数量占用的比特数。例如，声道组对数量占用4个比特，声道组对数量表示为pairCnt，占用4比特，用于表示当前帧的声道组对数量。

本申请实施例中不限定声道对索引占用的比特数。例如，声道对索引表示为channelPairIndex，channelPairIndex比特数与总声道数量有关，用于表示声道对的索引，可解析得到当前声道对中的两个声道的索引值，即ch1和ch2。

在本申请的一些实施例中，编码端除了执行前述步骤之外，编码设备执行的多声道信号的编码方法还包括：

向解码设备发送码流。

在本申请实施例中，编码端获得各传输通道的传输通道信号和静音标记信息之后，可以生成码流，该码流中携带静音标记信息，编码端可以向解码端发送该码流。

通过前述实施例的举例说明可知，对多声道信号进行静音标记检测，以得到静音标记信息，所述静音标记信息包括：静音使能标志，和/或静音标志；对所述多声道信号进行多声道编码处理，以得到各传输通道的传输通道信号；根据所述各传输通道的传输通道信号和所述静音标记信息生成码流，所述码流包括：所述静音标记信息和所述各传输通道的传输通道信号的多声道量化编码结果。依据静音标记信息进行后续的编码处理，可以提升编码效率。

本申请实施例还提供一种多声道信号的解码方法，该方法可以由终端设备执行，例如该终端设备可以是一种多声道信号的解码装置(如下简称解码端或者解码器，例如该解码端可以是AI解码器)。如图5所示，对本申请实施例中解码端执行的方法主要包括：

501、从编码设备的码流中解析出静音标记信息，并根据静音标记信息确定各传输通道的编码信息，静音标记信息包括：静音使能标志，和/或静音标志。

其中，解码端采用与编码端相逆的处理方式，首先从编码设备接收到码流，由于该码流中携带静音标记信息，因此根据静音标记信息确定各传输通道的编码信息，静音标记信息包括：静音使能标志，和/或静音标志。对于静音使能标志和静音标志的说明，详见前述编码端的实施例说明，此处不再赘述。

在本申请的一些实施例中，步骤501从编码设备的码流中解析出静音标记信息，包括：

H1、从码流中解析出各声道的静音标志；或者，

H2、从码流中解析出静音使能标志，若静音使能标志为第一值时，从码流中解析出静音标志；或者，

H3、从码流中解析出声床静音使能标志和/或对象静音使能标志，及各声道的静音标志；或者，

H4、从码流中解析出声床静音使能标志和/或对象静音使能标志；根据声床静音使能标志和/或对象静音使能标志，从码流中解析出各声道的部分声道的静音标志。

解码端从编码设备的码流中解析出静音标记信息，根据编码设备生成的静音标记信息的具体内容的不同，解码端得到的静音标记信息与编码侧相对应。具体的，一种方式中，静音标志，用于指示各声道是否为静音通道，静音通道为不需要编码的声道或者需要按照低比特编码的声道，解码端可以从码流中解析出各声道的静音标志。一种方式中，静音使能标志还可以用于指示各声道是否均为非静音通道。例如，静音使能标志为第一值(例如1)时，表示需要进一步检测各声道的静音标志。静音使能标志为第二值(例如0)时，表示各声道均为非静音通道，解码端从码流中解析出静音使能标志，若静音使能标志为第一值时，从码流中解析出静音标志。一种方式中，静音使能标志包括：声床静音使能标志，和/或对象静音使能标志，解码端从码流中解析出声床静音使能标志和/或对象静音使能标志，及各声道的静音标志。一种方式中，解码端从码流中解析出声床静音使能标志和/或对象静音使能标志；根据声床静音使能标志和/或对象静音使能标志，从码流中解析出部分声道的静音标志。对于所得到的具体哪个部分声道的静音标志不做限定。

502、对各传输通道的编码信息进行解码，以得到各传输通道的解码信号。

其中，解码端在从码流中获取到各传输通道的编码信息之后，可以对各传输通道的编码信息进行解码，该解码反量化的过程与编码端的量化编码过程相逆，从而可以得到各传输通道的解码信号。

在本申请的一些实施例中，步骤502对各传输通道的编码信息进行解码，包括：

I1、从码流中解析出多声道边信息；

I2、根据多声道边信息和静音标志信息为各传输通道进行比特分配，以得到各通道的编码比特数；

I3、根据各通道的编码比特数对各传输通道的编码信息进行解码。

其中，码流中还可以包括多声道边信息，解码端可以根据多声道边信息和静音标志信息为各传输通道进行比特分配，以得到各通道的编码比特数，解码端得到的编码比特数与编码端预设的编码比特数相同，再根据各传输通道的编码比特数对各传输通道的编码信息进行解码，从而实现对各传输通道的传输通道信号的解码。

进一步的，在本申请的一些实施例中，多声道边信息，包括：声道比特分配比例字段，

其中，声道比特分配比例字段用于指示各声道中的非低频效果(Low Frequency Effects，LFE)声道的比特分配比例。

其中，低频效果LFE声道是低音声音范围从3-120Hz的音频声道，该声道可用于发送到专门为低音调而设计的扬声器。例如，声道比特分配比例字段占用6个比特。本申请实施例中不限定声道比特分配比例字段占用的比特数。

例如，声道比特分配比例字段表示为chBitRatios，占用6个比特，用于指示各声道中非LFE声道的比特分配比例。通过声道比特分配比例字段，能够指示每个声道的比特分配比例，从而确定出每个声道得到的比特数。不限定的是，该比特数还可以进一步转换为字节数。

其中，声道间幅度差参数量化码书索引，用于指示各声道中每个声道的声道间幅度差ILD参数量化的码书索引；

声道对索引，用于表示声道对的索引。

在本申请的一些实施例中，步骤I2根据多声道边信息和静音标志信息为各传输通道进行比特分配，包括：

I21、根据可用比特数和安全比特数，确定第一剩余比特数；

其中，对于安全比特数的取值不做限定，例如安全字节数表示为safeBits，安全字节数为8个比特，将可用比特数减去安全比特数可以得到第一剩余比特数。

I22、根据多声道边信息中的声道比特分配比例字段将第一剩余比特数分配给各通道，声道比特分配比例字段用于指示各通道的比特分配比例；

I23、当第一剩余比特数分配给各通道之后还存在第二剩余比特数时，根据声道比特分配比例字段将第二剩余比特数分配给各通道；

其中，将第一剩余比特数减去分配给各通道的比特数可以得到第二剩余比特数。

I24、当第二剩余比特数分配给各通道之后还存在第三剩余比特数时，将第三剩余比特数分配给采用第一剩余比特数进行比特分配时分配比特数最多的通道；

其中，将第二剩余比特数减去分配给各通道的比特数可以得到第三剩余比特数。

I25、当各通道中的第一通道被分配的比特数超过单个通道比特数的上限时，将超过的比特数分配给各通道中除第一通道以外的其它通道。

其中，对于单个通道比特数的上限的取值不做限定。第一通道可以是各个通道中的任意一个通道。

503、对各传输通道的解码信号进行多声道解码处理，以得到多声道解码输出信号。

其中，解码端通过解码，得到各传输通道的解码信号之后，进一步对该各传输通道的解码信号进行解码处理，从而得到解码输出信号。

在本申请的一些实施例中，步骤503对各传输通道的解码信号进行多声道解码处理，以得到多声道解码输出信号之后，解码端执行的多声道信号的解码方法还包括：

J1、对多声道解码输出信号进行后处理，后处理包括如下至少一种：频带扩展解码、逆时域噪声整形、逆频域噪声整形、逆时频变换。

其中，上述对输出信号进行后处理的过程与编码端的预处理的过程相逆，对于具体的处理方式不再限定。

通过前述的举例说明可知，本申请实施例中解码端可以从编码端的码流中得到静音标记信息，从而便于解码端采用与编码端一致的方式进行解码处理，例如比特分配。

为便于更好的理解和实施本申请实施例的上述方案，下面举例相应的应用场景来进行具体说明。

多声道音频编码器，产品包括手机终端、芯片及无线网。

实施例一编码端如图6所示，包括静音标记检测单元、多声道编码处理单元、多声道量化编码单元、码流复用接口。

静音标记检测单元主要用于根据输入信号进行静音标记信息检测，确定静音标记信息。静音标记信息可以包含静音使能标志和/或静音标志。

静音使能标志记作HasSilFlag，静音使能标志可以是全局静音使能标志或部分静音使能标志，例如，仅作用于多声道信号中的对象信号的对象静音使能标志，记作objMuteEna。又如，仅作用于多声道信号中的对象信号的声床静音使能标志，记作bedMuteEna。

全局静音使能标志为作用于所述多声道信号的静音使能标志，多声道信号只包含声床信号的时候，全局静音使能标志为作用于所述声床信号的静音使能标志；多声道信号只包含对象信号的时候，全局静音使能标志为作用于所述对象信号的静音使能标志；多声道信号包含声床信号和对象信号的时候，全局静音使能标志为作用于所述声床信号和对象信号的静音使能标志。

部分静音使能标志为作用于所述多声道信号中部分声道的静音使能标志，部分声道为预先设定的，例如：所述部分静音使能标志为作用于所述对象信号的对象静音使能标志，或者，所述部分静音使能标志为作用于所述声床信号的声床静音使能标志，或者，所述部分静音使能标志为作用于所述多声道信号中不包含LFE声道信号的其他声道信号的静音使能标志。所述部分静音使能标志为作用于多声道信号中参与组对的声道信号的静音使能标志。本申请实施例中对多声道信号进行组对处理的具体方式不做限定。

静音使能标志用于指示静音检测是否开启。例如，静音使能标志为第一值(例如1)时，表示开启静音检测功能，进一步检测各通道的静音标志。静音使能标志为第二值(例如0)时，表示关闭静音检测功能。

静音使能标志也可以用于指示是否需要进一步传输各通道的静音标志。例如，静音使能标志为第一值(例如1)时，表示需要进一步传输各通道的静音标志。静音使能标志为第二值(例如0)时，表示不需要进一步传输各通道的静音标志。

静音使能标志还可以用于指示各通道是否均为非静音通道。例如，静音使能标志为第一值(例如1)时，表示需要进一步检测各通道的静音标志。静音使能标志为第二值(例如0)时，表示各通道均为非静音通道。

全局静音使能标志作用于所有通道，部分静音使能标志作用于部分通道。例如，对象静音使能标志应用于多声道信号中对象信号对应的声道，声床静音使能标志应用于多声道信号中声床信号对应的声道。

静音使能标志可以由外部输入控制，可以根据编码速率、编码带宽等编码器参数预先设定，还可以根据各通道的静音检测结果确定。

各通道的静音标志用于指示各通道是否为静音帧。各通道的静音标志记作silFlag[i]，其中ch为通道编号，ch＝0…N-1，其中N为待编码输入信号的总通道数，其中声床信号的通道数为M，对象声道的通道数为P，总的通道数N＝M+P。例如，待编码信号为包含声床信号和对象信号的混合信号，其中：声床信号为5.1.4声道信号，声床信号的通道数M＝10；对象信号的数量为4个，对象信号的通道数P＝4；总通道数为14。声床信号的通道编号为从0到9，对象信号的通道编号为10到13。静音标志silFlag[i]，ch＝0…13，对应各个通道的静音标志，用于指示各个通道是否为静音通道。静音通道是信号的能量/分贝/响度低于听觉门限的通道，是不需要编码的通道或者仅需要按照较低比特编码的通道。静音标志的值为第一值(例如1)时，表示该通道为静音通道；静音标志的值为第二值(例如0)时，表示该通道为非静音通道。静音标志的值为第一值(例如1)时，不对该通道进行编码或者按照较低比特编码。

静音标志检测的输入信号可以是原始输入信号，也可以是经过预处理后的信号。预处理可以包括但不限于：暂态检测、窗型判断、时频变换、频域噪声整形、时域噪声整形、频带扩展编码等处理。输入信号可以是时域信号，也可以是频域信号。以输入信号为多声道信号中的各通道的时域信号为例，一种检测各通道的静音标志的方法可以是：

根据当前帧各通道的输入信号，确定当前帧各通道信号的能量。

假设帧长FRAME_LEN，当前帧的第ch通道的能量energy(ch)为：

其中，orig_ch为当前帧的第ch通道的输入信号，energy(ch)为当前帧的第ch通道的能量。

根据当前帧各通道信号的能量，确定当前帧各通道的静音检测参数。

当前帧各通道的静音检测参数用于表征当前帧各通道信号的能量值、功率值、分贝值或者响度值。

例如，当前帧各通道的静音检测参数，可以是当前帧各通道信号的能量的log域的取值，例如log2(energy(ch))或者log10(energy(ch))。根据当前帧各通道信号的能量，计算当前帧各通道的静音检测参数，当前帧各通道的静音检测参数满足如下条件：

energyDB[ch]＝10*log10(energy[ch]/Bit_Depth/Bit_Depth)；

其中，energyDB[ch]为当前帧的第ch通道的静音检测参数，energy(ch)为当前帧的第ch通道的能量，Bit_Depth为位宽的满偏值，例如采样位深为16bit，则位宽的满偏值为216＝65536。

根据当前帧各通道的静音检测参数和静音检测阈值，确定当前帧各通道的静音标志。

将当前帧各通道的静音检测参数分别与静音检测阈值进行比较：如果当前帧第ch通道的静音检测参数小于静音检测阈值，则当前帧第ch通道为静音帧，即当前时刻第ch通道为静音通道，当前帧第ch通道的静音标志silFlag[i]为第一值(例如1)。如果当前帧第ch通道的静音检测参数大于等于静音检测阈值，则当前帧第ch通道为非静音帧，即当前时刻第ch通道为非静音通道，当前帧第ch通道的静音标志silFlag[i]为第二值(例如0)。

根据当前帧第ch通道的静音检测参数和静音检测阈值，确定当前帧第ch通道的静音标志的伪代码如下：

silFlag[i]＝0；

if(energyDB[ch]<g_MuteThrehold)

{silFlag[i]＝1；}

静音标记信息可以包含静音使能标志和/或静音标志，不同的静音标记信息构成如下举例：

方式一：静音标记信息为各通道的静音标志silFlag[i]。确定各通道的静音标志silFlag[i]，并将各通道的静音标志silFlag[i]写入码流，传输到解码端。

方式二：静音标记信息包含静音使能标志HasSilFlag和静音标志silFlag[i]。

静音使能标志HasSilFlag指示当前帧是否打开静音检测功能，也可以用于指示当前帧是否传输各通道的静音检测结果。

确定静音使能标志HasSilFlag，写入码流，传输到解码端；根据静音使能标志的值，确定是否将静音标志silFlag[i]写入码流。

当静音使能标志HasSilFlag为0时，不将静音标志silFlag[i]写入码流传输到解码端。

当静音使能标志HasSilFlag为1时，将静音标志silFlag[i]写入码流传输到解码端。

方式三：静音标记信息包含声床静音使能标志bedMuteEna、对象静音使能标志objMuteEna和各通道的静音标志silFlag[i]。

声床静音使能标志bedMuteEna可以用于指示当前帧是否打开声床信号对应通道的静音检测功能。类似的，对象静音使能标志objMuteEna可以用于指示当前帧是否打开对象信号对应通道的静音检测功能。例如：

当声床静音使能标志bedMuteEna为0，对象静音使能标志objMuteEna为1，声床信号对应通道的静音标志值均设置为0，即非静音通道。对象信号对应通道的静音标志值为静音检测结果。

当声床静音使能标志bedMuteEna为1，对象静音使能标志objMuteEna为0，对象信号对应通道的静音标志值均设置为0，即非静音通道。声床信号对应通道的静音标志值为静音检测结果。

当声床静音使能标志bedMuteEna为0，对象静音使能标志objMuteEna为0，各通道的静音标志值均设置为0，即非静音通道。

当声床静音使能标志bedMuteEna为1，对象静音使能标志objMuteEna为1，各通道的静音标志为静音检测结果。

当静音标记信息包含声床静音使能标志bedMuteEna、对象静音使能标志objMuteEna和静音标志时，可以传输各通道的静音标志。

方式四：静音标记信息包含声床静音使能标志bedMuteEna、对象静音使能标志objMuteEna和部分通道的静音标志silFlag[i]。

方式四与方式三的区别在于：仅传出部分通道的静音标志。例如，当声床静音使能标志bedMuteEna为0，对象静音使能标志objMuteEna为1时，可以仅传输对象信号对应通道的静音标志，不传输声床信号对应通道的静音标志；当声床静音使能标志bedMuteEna为1，对象静音使能标志objMuteEna为0时，可以仅传输声床信号对应通道的静音标志；当声床静音使能标志bedMuteEna为0，对象静音使能标志objMuteEna为0时，无需传出各通道的静音标志；当声床静音使能标志bedMuteEna为1，对象静音使能标志objMuteEna为1时，则传输各通道的静音标志。

方法五：声床静音使能标志bedMuteEna、对象静音使能标志objMuteEna可以替换为HasSilFlag＝{HasSilFlag(0),HasSilFlag(1)}表示，其中HasSilFlag(0)和HasSilFlag(0)分别对应bedMuteEna和objMuteEna。也可以由一个2比特的静音使能标志HasSilFlag表示声床静音使能标志bedMuteEna和对象静音使能标志objMuteEna。本申请实施例不做限定。

方法六：先确定各通道的静音标志，然后基于各通道的静音标志确定静音使能标志。

例如，静音使能标志可以是全局静音使能标志。如果各通道的静音标志均为0，则全局静音使能标志置为0，仅需要将全局静音使能标志写入码流，传到解码侧，无需传输各通道的静音标志。如果各通道的静音标志至少一个为1，则全局静音使能标志置为1，仅需要将全局静音使能标志写入码流，传到解码侧，无需传输各通道的静音标志。

又例如，静音使能标志可以是声床静音使能标志bedMuteEna和对象静音使能标志objMuteEna。以声床静音使能标志bedMuteEna为例，如果声床信号对应的各通道的静音标志均为0，则声床静音使能标志置为0，仅需要将声床静音使能标志写入码流，传到解码侧，无需传输声床信号对应的各通道的静音标志。如果声床信号对应的各通道的静音标志至少一个为1，则声床静音使能标志置为1，仅需要将声床静音使能标志写入码流，传到解码侧，无需传输声床信号对应的各通道的静音标志。对象静音使能标志objMuteEna可做类似处理，这里不再赘述。

本申请实施例仅例举了部分实现方式，具体的实现可能还有其他可能的实现方式，不做限定。

多声道编码处理单元完成多声道信号的筛选、组对、下混处理及多声道边信息生成，并获得多声道组对下混后的各传输通道信号。

可选地，静音标记检测处理与多声道编码处理之间还可以包含预处理，用于对输入信号进行预处理，以获得预处理后的，作为多声道编码处理的输入。预处理可以包括但不限于：暂态检测、窗型判断、时频变换、频域噪声整形、时域噪声整形、频带扩展编码等处理，本申请实施例不做限定。如图7所示，根据多声道的输入信号或者预处理后的多声道信号，进行多声道信号的筛选，获得筛选后的多声道信号。对筛选后的多声道信号进行组对处理，获得多声道组对信号。对多声道组对信号进行下混处理(例如中置-边信息(MIDSIDE，MS)处理)获得待编码的多声道组对下混后的信号。

可选地，在预处理过程中，可以对静音标记信息进行修正。例如，频域噪声整形后，某一传输通道信号的能量发生变化，可调整该通道的静音检测结果。

多声道边信息包括但不限于：组对数、组对声道索引列表、组对声道耳间强度差ILD系数列表、组对声道ILD大小端列表。

可选地，可以依据静音标记信息调整初始多声道处理方式。例如，在多声道信号的筛选过程中，静音标志为1的声道不参与组对筛选。

多声道量化编码单元，对多声道组对下混后的各传输通道信号进行量化编码。

多声道量化编码包括比特分配处理和编码。

可选的是，根据所述静音标记信息、可用比特数和多声道边信息，进行比特分配；根据各通道的比特分配结果进行编码，获得编码码流。

可选地，可以依据静音标记信息进行比特分配。例如，根据静音使能标志，选择不同的比特分配策略。

假设静音使能标志包括声床静音使能标志bedMuteEna和对象静音使能标志objMuteEna，依据静音标记信息进行比特分配，可以是先根据总的可用比特和各通道的信号特征，进行初次比特分配。再根据静音标记信息调整比特分配结果。例如，若对象静音使能标志objMuteEna为1，将对象信号中静音标识为1的声道初次分配的比特分配给声床信号或其他对象通道。若声床静音使能标志bedMuteEna和对象静音使能标志均为1，可以将对象通道中静音标识为1的声道初次分配的比特重新分配给其他对象通道，将声床信号中静音标识为1的声道初次分配的比特重新分配给其他声床通道。

码流复用接口将编码声道进行复用形成串行比特流bitStream以方便在信道中传输或者在数字媒质中存储。

本实施例解码端如图8所示，包括码流解复用单元、声道解码反量化单元、多声道解码处理单元、多声道后处理单元。

码流解复用单元，从接收到的码流中解析静音标志信息，并确定各声道编码信息。

从接收到的码流中解析静音标志信息，解析过程为编码端将静音标志信息写入码流的逆过程。

例如，编码端采用方式一，则解码端：从码流中解析各通道的静音标志silFlag[i]，ch＝0…N-1，其中N为待解码的多声道信号的通道数。

或者，编码端采用方式二，则解码端：先从码流中解析静音使能标志HasSilFlag；若静音使能标志HasSilFlag为第一值(例如1)时，从码流中解析静音标志silFlag[i]，ch＝0…N-1，其中N为待解码的多声道信号的通道数。

或者，编码端采用方式三，则解码端：先从码流中解析声床静音使能标志bedMuteEna和对象静音使能标志objMuteEna及各通道的静音标志silFlag[i]，ch＝0…N-1，其中N为待解码的多声道信号的通道数。

或者，编码端采用方式四，则解码端：先从码流中解析声床静音使能标志bedMuteEna和对象静音使能标志objMuteEna；再根据解析声床静音使能标志bedMuteEna和对象静音使能标志objMuteEna，从码流中解析对应通道的静音标志。例如：当声床静音使能标志bedMuteEna为0，对象静音使能标志objMuteEna为1时，则从码流中解析对象信号对应通道的静音标志；当声床静音使能标志bedMuteEna为1，对象静音使能标志objMuteEna为0时，则从码流中解析声床信号对应通道的静音标志；当声床静音使能标志bedMuteEna为0，对象静音使能标志objMuteEna为0时，无需从码流中解析静音标志；当声床静音使能标志bedMuteEna为1，对象静音使能标志objMuteEna为1时，则从码流中解析各通道的静音标志，解析的声道数为声床信号对应通道数与对象信号对应通道数之和。

以如下方式为例，具体的解码端从码流中解析静音标记信息的语法如下：

从接收到的码流中解析多声道边信息。

根据多声道边信息进行比特分配，确定各声道的编码比特数。可选地，如果编码端依据静音标志信息进行比特分配，解码侧也需要根据静音标志信息，进行比特分配，确定各声道的编码比特数。

根据各声道的编码比特数，从接收到的码流中确定各声道编码信息。

解码单元，对各编码声道进行逆编码和逆量化，得到多声道组对下混的解码信号。

逆编码和逆量化是编码端多声道量化编码的逆过程。

多声道解码处理单元，多声道组对下混的解码信号进行多声道解码处理，获得多通道的输出信号。

多声道解码处理是多声道编码处理的逆过程。利用多声道边信息，根据多声道组对下混的解码信号重建多通道的输出信号。

如图9所示，如果编码端多声道编码处理之前还包含预处理，则解码端多声道解码处理之后还包含对应的后处理，例如：频带扩展解码、逆时域噪声整形、逆频域噪声整形、逆时频变换等，以获得最终的输出信号。

通过前述的举例说明可知，对多声道输入信号进行静音标记信息检测，确定静音标记信息，并依据静音标记信息进行后续的编码处理，例如比特分配，可以提升编码效率。

本申请实施例提出了一种根据输入信号特征生成静音标识位流的方法。编码端对多声道输入信号进行静音标记信息检测确定静音标记信息；将静音标记信息传输到解码端；根据静音标记信息进行比特分配，对多声道信号进行编码。解码端从码流中解析静音标记信息；根据静音标记信息进行比特分配，对多声道信号进行解码。

本申请实施例包括的技术方案中，计算每路输入信号得到静音标识位，用来指导编码和解码的比特分配。对输入信号判断是否是静音帧，如果是静音帧，对该声道不进行编码或者给予少量比特数编码。在输入端计算信号的分贝值或者响度值，和设置的听觉门限比较，低于听觉门限静音标识置为1，否则静音标识置为0。静音标识为1时该通道不编码或者按照较低比特编码；对mute位为1的通道的量化前的数据可清0；静音标识作为边信息传到解码端指导解码端的比特解复用，编码端的传输语法如下：使用HasSilFlag表示静音标识使能，可用1bit来传输HasSilFlag；在HasSilFlag＝1的情况下进一步传输各声道的静音标识，HasSilFlag＝0时不传输各声道的静音标识。比如5.1.4声道，在多通道的边信息里传输10比特的静音标识，每个声道1bit，顺序和输入声道的顺序一致；编码端其他模块可修改静音标识，将静音标识从1改成0并在码流中传输。

本申请实施例具有如下优点：对多声道输入信号进行静音标记信息检测，确定静音标记信息，并依据静音标记信息进行后续的编码处理，例如比特分配，对于静音通道，可以不编码或者按照较低比特编码，节省编码比特数，提升编码效率。

将静音标记信息传输到解码端，便于解码端采用与编码端一致的方式进行解码处理，例如比特分配。

在本申请的另一些实施例中，对混合编码改进方案进行如下说明：

一种混合模式编解码支持声床信号和对象信号的编解码。具体实现方案分为三部分：

混合编码比特预分配：根据多声道边信息bedBitsRatio得到声床信号的预分配比特数bedAvailbleBytes和对象信号的预分配比特数objAvailbleBytes。

混合编码比特分配：分为四个步骤，按照处理顺序依次为：静音帧比特分配、非静音帧比特分配适配、非静音帧比特分配、非静音帧比特分配适配还原。

静音帧比特分配：如果存在静音帧，根据边信息的静音标志silFlag[i]和混合分配策略mixAllocStrategy来给静音帧声道分配比特，并更新声床信号的预分配比特数bedAvailbleBytes和对象信号的预分配总比特数objAvailbleBytes。

非静音帧比特分配适配：对声道参数顺序映射，作用是方便非静音帧比特分配处理。

非静音帧比特分配：根据声床信号的更新后的预分配比特数bedAvailbleBytes和对象信号更新后的预分配比特数objAvailbleBytes和声道比特分配比例因子chBitRatios来分配比特。

非静音帧比特分配适配还原：对声道参数顺序逆映射，作用是方便后续的区间解码、逆量化和神经网络逆变换步骤使用。

混合编码上混：根据声道对索引channelPairIndex指示的已组对的两个声道ch1和ch2，进行M/S上混，得到上混后声道信号。

多声道立体声边信息语法如下表1所示，为DecodeMcSideBits()语法。

语义说明如下，bedBitsRatio占用4比特，表示声床信号占总比特数的比例因子索引，取值0-15，对应的浮点比例如下：

1：0.0625

2：0.125

3：0.1875

4：0.25

5：0.3125

6：0.375

7：0.4375

8：0.5

9：0.5625

10：0.625

11：0.6875

12：0.75

13：0.8125

14：0.875

15：0.9375。

mixAllocStrategy占用2比特，表示声床信号和对象信号的混合信号的分配策略。该混合分配策略可以是预定的，或者混合分配策略按照编码参数预定义的，编码参数包括：编码速率、信号特征参数。编码参数是预定的。分配策略的取值范围及含义如下：

0:因Mute机制(静音标志)产生的多余的声床比特给声床信号，多余的对象比特给对象信号，静音的声床分给非静音声床。

1：因Mute机制产生的多余的声床比特分给声床信号，多余的对象比特给声床信号。

2：因Mute机制产生的多余的声床比特给对象信号，多余的对象比特给对象信号。

3：保留。

HasSilFlag占用1比特，0表示关闭静音帧处理或者没有静音帧；1表示开启静音帧处理且存在静音帧。

silFlag[i]占用1比特，表示对应通道的静音帧标记，0表示非静音帧，1表示静音帧。

soundBedType占用1比特，type of sound bed,0 f只有对象信号or none(only objs),1是声床信号或者HOA信号or mc or hoa。

codingProfile占用3比特，0单声道，或者立体声信号或声床信号for mono/stereo/mc,1声床和对象的混合信号for channel+obj mix,2 for hoa。

pairCnt占用4比特，用于表示当前帧的声道组对数量。

channelPairIndex比特数与总声道数量有关，见上表注1。用于表示声道对的索引，可解析得到当前声道对中的两个声道的索引值，即ch1和ch2。

mcIld[ch1],mcIld[ch2]占用4比特，当前声道对中每个声道的声道间幅度差参数，用于恢复解码频谱的幅度。

scaleFlag[ch1],scaleFlag[ch2]占用1比特，表示当前声道对中每个声道的缩放标志参数，表示当前声道的幅度是被缩小或放大。

chBitRatios占用4比特，表示每个声道的比特分配比例。

解码过程如下，首先进行混合编码比特预分配。

混合编码比特预分配模块的作用是根据位流中解码获得的声床信号占总比特数的比例因子索引参数，将去除其他边信息后的剩余可用比特数计算得到声床预分配字节数和对象预分配字节数，提供给后续模块使用。

当前帧扣除其他边信息后剩余的可用字节数记为availableBytes，其中，声床预分配字节数是bedAvailbleBytes，对象预分配字节数是objAvailbleBytes。声床信号占总比特数的比例因子索引参数是bedBitsRatio，bedBitsRatio对应的浮点比例因子为bedBitsRatioFloat，bedBitsRatio和bedBitsRatioFloat的对应关系见前述语义中bedBitsRatio部分。

根据可用字节数availableBytes和声床信号占总比特数的浮点比例因子bedBitsRatioFloat计算声床预分配字节数bedAvailbleBytes和对象预分配字节数objAvailbleBytes的公式如下：

bedAvailbleBytes＝floor(availableBytes*bedBitsRatioFloat)；

objAvailbleBytes＝availableBytes–bedAvailbleBytes。

混合编码比特分配过程如下，混合编码比特分配会根据位流中比特分配参数、可用字节数等参数共同来完成将可用比特数分配给混合编码多声道立体声中的各个下混声道，从而完成后续的区间解码、逆量化和神经网络逆变换步骤。混合编码比特分配包括以下部分：

静音帧声道的比特分配。静音帧声道的比特分配处理模块的作用是根据位流中解码获得的声床信号和对象信号的混合信号的分配策略参数mixAllocStrategy和位流中解码获得的静音帧标记参数静音使能标志HasSilFlag和静音标志silFlag来完成混合信号静音帧的比特分配。

步骤1：混合编码静音帧比特分配处理。

混合编码静音帧比特分配处理子模块根据位流中解码获得的静音帧标记相关参数 HasSilFlag和silFlag来完成混合编码静音帧的比特分配。存在以下情况及相应处理：

情况1：解析到HasSilFlag为0时，表示当前帧没有开启静音帧处理模式或者当前帧不存在静音帧，混合编码静音帧比特分配处理子模块不执行其他操作。

情况2：解析到HasSilFlag为1时，表示当前帧开启了静音帧处理且存在静音帧。此时遍历所有声道的silFlag[i]，当silFlag[i]为1时，声道的字节数channelBytes[i]被置为最小安全字节数safetyBytes，最小安全字节数safetyBytes的取值和量化及区间编码模块对输入字节数的要求有关，比如，这里可以设置成10字节。

更新对象预分配字节数objAvailbleBytes。遍历silFlag[i]为1的对象声道，对于每个silFlag[i]为1的对象声道，执行以下操作：

objAvailbleBytes-＝safetyBytes；

更新声床预分配字节数bedAvailbleBytes。遍历silFlag[i]为1的声床声道，对于每个silFlag[i]为1的声床声道，执行以下操作：

bedAvailbleBytes-＝safetyBytes。

步骤2：静音帧剩余比特分配策略。

静音帧比特分配策略子模块的作用是当存在静音帧时，根据位流中解码获得的声床信号和对象信号的混合信号的分配策略参数mixAllocStrategy来决定将静音帧产生的剩余比特数分配给声床信号还是对象信号，具体的分配策略由mixAllocStrategy的值来确定，mixAllocStrategy取值含义详见mixAllocStrategy部分。

本申请实施例支持2种不同的静音帧剩余比特分配策略。首先进行预计算：

根据对象预分配字节数objAvailbleBytes和对象声道个数objNum计算得到对象声道分配平均字节数objAvgBytes，计算公式如下：

objAvgBytes[i]＝floor(objAvailbleBytes/objNum)；

如果均分后有剩余字节，把剩余字节拆分成多个1Byte按照对象信号的序号从低到高二次分配，即当sum(objAvgBytes[i])<objAvailbleBytes时,

objAvgBytes[0]+＝1，其他对象声道objAvgBytes[i]做同样操作，直到sum(objAvgBytes[i])＝＝objAvailbleBytes时结束。

方案1：mixAllocStrategy为0时，定义初始值为0的对象静音帧剩余比特objSilLeftBytes，遍历所有对象声道对应的silFlag[i]，当silFlag[i]＝1时，将objSilLeftBytes的值更新，即，

objSilLeftBytes+＝objAvailbleBytes[i]–safetyBytes；0<＝i<objNum；

直到遍历完所有的obj声道。

方案2:mixAllocStrategy为1时，定义初始值为0的对象静音帧剩余比特objSilLeftBytes，遍历所有对象声道对应的silFlag[i]，当silFlag[i]＝1时，将objSilLeftBytes的值更新，即

objSilLeftBytes+＝objAvailbleBytes[i]–safetyBytes；0<＝i<objNum；

直到遍历完所有的obj声道。

更新声床预分配字节数bedAvailbleBytes和对象预分配字节数objAvailbleBytes，例如采用如下方式：

bedAvailbleBytes+＝objSilLeftBytes；

objAvailbleBytes-＝objSilLeftBytes。

非静音帧比特分配前适配。将非静音帧声道的比特分配的输入参数映射成声道连续排列(静音帧声道的存在将造成非静音帧声道在物理上可能离散排布)，方便后续模块非静音帧声道的比特分配处理。

非静音帧声道的比特分配。对声床非静音帧声道进行比特分配处理采用比特分配通用模块，其作用是根据声床更新后的预分配字节数bedAvailbleBytes和声道比特分配比例等参数共同来完成将可用比特数分配给声床对象多声道立体声中的各个下混声道。

输入的可用字节数记为availableBytes。多声道立体声模式可能存在LFE声道，一般情况下LFE声道的有效频谱信息较少，不需要参与多声道立体声模式的比特分配过程，预先分配固定的比特数即可。LFE声道的预分配比特数量与编码码率有关。记声道对平均码率为cpeRate，cpeRate为总编码码率折算到一个声道对的结果。若cpeRate<64kb/s，LFE声道分配的字节数为10；若cpeRate<96kb/s，LFE声道分配的字节数为15；若cpeRate>＝96kb/s，则LFE声道分配的字节数为20。若LFE声道存在，则将LFE声道的预分配字节数从可用字节数availableBytes中扣除，扣除后剩余的字节数再分配给除LFE声道外的其他声道。

可用字节数availableBytes分配给其余声道的过程分为四个步骤，如下：

第一步、根据chBitRatios将比特分配给各个声道。

每个声道的字节数可表示为：

channelBytes[i]＝availableBytes*chBitRatios[i]/(1<<4)。

其中，(1<<4)表示声道比特分配比例chBitRatios的最大取值范围。

第二步、若第一步中未将所有字节分配完毕，则将剩余的字节数按chBitRatios[i]表示的比例再次分配给各个声道。

第三步、若第二步结束后仍有比特剩余，则将剩余比特分配给第一步中分配字节最多的声道。

第四步、若某些声道分配的字节数超过单个声道字节数的上限，则将超过的部分分配给其余声道。

对对象非静音帧声道进行比特分配处理采用比特分配通用模块，其作用是根据对象更新后的可用字节数objAvailbleBytes和声道比特分配比例等参数共同来完成将可用比特数分配给声床对象多声道立体声中的各个下混声道。对象具体非静音帧声道进行比特分配处理过程同声床信号的非静音帧声道进行比特分配处理过程。

非静音帧声道适配还原。将非静音帧声道比特分配处理输出的字节数参数根据前述的规则逆映射成物理排布排列(静音帧声道的存在将造成非静音帧声道在物理上可能离散排布)，方便后续模块区间解码、逆量化和神经网络逆变换步骤的处理。

混合编码上混。对声道对索引channelPairIndex指示的已组对的两个声道ch1和ch2，进行中央/侧边(Mid/Side，M/S)上混，上混方式与双声道立体声模式M/S上混一致。

M/S上混后，需要对上混后声道的改进型离散余弦变换(Modified Discrete Cosine Transform，MDCT)频谱进行逆双耳声强差(Interaural Level Difference，ILD)处理，以恢复声道的幅度差异，逆ILD处理的过程如下：

其中，factor为第i个声道ILD参数对应的幅度调整因子，(1<<4)为mcIld的最大量化值范围，mdctSpectrum[i]表示第i个声道的MDCT系数矢量。

本申请实施例的技术效果如下，当多声道信号为包含声床信号和对象信号的混合信号且多声道信号中包含静音帧时，采用不同的混合包括声床信号和对象信号的混合信号的分配策略mixAllocStrategy，对静音帧节省的比特数分配到其他非静音帧，提升编码效率。

本申请实施例的改进之处如下，确定声床的预分配比特数bedAvailbleBytes和对象的预分配总比特数objAvailbleBytes；确定声床和对像中是否包括静音帧；如果存在静音帧，根据边信息silFlag[i]和mixAllocStrategy来给静音帧声道分配比特，并更新声床的预分配比特数bedAvailbleBytes和对象的预分配总比特数objAvailbleBytes。

本申请实施例提出了一种声床对象混合模式下比特分配模式位流的方法。从码流中解析包括声床信号和对象信号的混合信号的分配策略mixAllocStrategy；根据包括声床信号和对象信号的混合信号的分配策略，进行静音帧声道分配比特。

确定声床的预分配比特数bedAvailbleBytes和对象的预分配总比特数objAvailbleBytes；确定声床和对像中是否包括静音帧；如果存在静音帧，根据边信息silFlag[i]和mixAllocStrategy来给静音帧声道分配比特，并更新声床的预分配比特数bedAvailbleBytes和对象的预分配总比特数objAvailbleBytes。

从码流中解析静音标志信息(包括HasSilFlag和silFlag[i])；依据静音标志信息确定是否存在静音帧。

根据边信息silFlag[i]和mixAllocStrategy来给静音帧声道分配比特，并更新声床的预分配比特数bedAvailbleBytes和对象的预分配总比特数objAvailbleBytes。

根据获得的包括声床信号和对象信号的混合信号的分配策略参数mixAllocStrategy来确定将静音帧产生的剩余比特数分配给声床信号还是对象信号。

mixAllocStrategy2比特，表示包括声床信号和对象信号的混合信号的分配策略。取值范围及含义如下：

0:因Mute机制产生的多余比特属于声床信号的，该多余比特分配给别的声床信号，多余比特属于对象信号的，该多余比特分配给别的对象信号。

1：因Mute机制产生的多余比特属于声床信号的，该多余比特分配给别的声床信号，多余比特属于对象信号的，该多余比特分配给别的声床信号。

2：因Mute机制产生的多余比特属于声床信号的，该多余比特分配给别的对象信号，多余比特属于对象信号的，该多余比特分配给别的对象信号。

3：保留。

2种不同的静音帧剩余比特分配策略对应的具体的剩余比特分配方法。当多声道信号为包含声床信号和对象信号的混合信号时，将对象信号当成声床信号按照统一的比特分配策略一起进行比特分配，声床信号和对象信号之间相互影响，质量均变差。

本申请实施例提出了一种声床对象混合模式下比特分配位流的方法，具体的：

当多声道信号为包含声床信号和对象信号的混合信号时，根据码流解码得到比特分配比例因子，比特分配比例因子用于表征声床信号和/或对象声道信号编码比特数与总可用比特数之间的关系；

根据比特分配比例因子，确定声床信号的预分配比特数bedAvailbleBytes和对象信号的预分配比特数objAvailbleBytes；

根据声床信号的预分配比特数bedAvailbleBytes和对象信号的预分配比特数objAvailbleBytes，确定各通道的比特分配数；

根据各通道的比特分配数和码流进行解码，获得解码的多声道信号。

比特分配比例因子为声床信号的编码比特数占总可用比特数的比例因子(实施例中的bedBitsRatioFloat)，或者对象信号的编码比特数占总可用比特数的比例因子，或者声床信号的编码比特数与对象信号的编码比特数之比，或者对象信号的编码比特数与声床信号的编码比特数之比。

比特分配比例因子为声床信号的编码比特数占总可用比特数的比例因子，确定比特分配比例因子的具体方法为：从码流中解析比特分配比例因子索引(如实施例中的bedBitsRatio)，根据比特分配比例因子索引，确定比特分配比例因子(如实施例中的bedBitsRatioFloat)。

比特分配比例因子索引可以是对比特分配比例因子进行均匀量化编码后的编码索引，也可以是对比特分配比例因子进行非均匀量化编码后的编码索引。

比特分配比例因子索引和比特分配比例因子可以是线性关系，或者非线性关系。

根据可用字节数availableBytes和声床bed占总比特数的浮点比例因子bedBitsRatioFloat计算声床预分配字节数bedAvailbleBytes和对象预分配字节数objAvailbleBytes的公式如下：

bedAvailbleBytes＝floor(availableBytes*bedBitsRatioFloat)；

objAvailbleBytes＝availableBytes–bedAvailbleBytes。

从码流中解析静音标志信息(包括HasSilFlag和silFlag[i])，根据声床信号的预分配比特数bedAvailbleBytes、对象信号的预分配比特数objAvailbleBytes和静音标志信息，进行比特分配，已确定各通道的比特分配数。

混合编码比特分配的步骤：依据静音标志信息确定是否存在静音帧；如果存在静音帧，根据边信息silFlag[i](和mixAllocStrategy)来给静音帧声道分配比特，并更新声床信号的预分配比特数bedAvailbleBytes和对象信号的预分配总比特数objAvailbleBytes；按照非静音帧比特分配原则，给非静音帧声道分配比特(包括非静音帧比特分配适配、非静音帧比特分配和非静音帧比特分配适配还原三个步骤)。

编码端确定比特分配比例因子；

对该因子进行量化编码，得到比特分配比例因子的索引；

把该索引写入码流。

比例因子按照编码参数预定义的。

编码参数包括：编码速率、信号特征参数。编码参数是预定的。

编码参数是根据每一帧信号的特征，例如信号的类型，自适应确定的。

编码端确定混合分配策略，在码流中携带混合分配策略。编码端发送给解码端。

当静音使能标志包含对象静音使能标志和声床静音使能标志时，声床对象混合信号的分配策略还可以包含其他模式，例如：

模式1：对象静音使能标志为1，将因对象信号中存在静音通道产生的多余比特分配给对象通道中的其他非静音通道；

模式2：对象静音使能标志为1，将因对象信号中存在静音通道产生的多余比特分配给声床信号所在通道；

模式3：声床静音使能标志为1，将因声床信号中存在静音通道产生的多余比特分配给声床通道中的其他非静音通道；

模式4：声床静音使能标志为1，将因声床信号中存在静音通道产生的多余比特分配给对象信号所在通道；

模式5：声床静音使能标志和对象静音使能标志均为1，将因对象信号中存在静音通道产生的多余比特分配给对象通道中的其他非静音通道；

模式6：声床静音使能标志和对象静音使能标志均为1，将因对象信号中存在静音通道产生的多余比特分配给声床通道中的其他非静音通道。

在本申请的另一些实施例中，混合信号编码改进方案如下：

AVS3P3标准中的混合信号编码模式支持声床信号和对象信号的编解码。在实际应用声床信号和对象信号中存在大量静音帧，合理的处理静音帧可以有效提升混合信号的编码效率。因此本提案给出一种混合信号高效编码方法，通过对声床信号和对象信号中静音帧和非静音帧合理的比特分配，提升混合信号编码质量。同时，将混合信号的比特分配策略放到编码端实现，解码端在比特分配环节不区分声床和对象。具体实现方案包括：

静音使能标志记作HasSilFlag，各通道中第i个通道的静音标志记作silFlag[i]，静音使能标志为作用于多声道信号中不包含LFE声道信号的其他声道信号的静音使能标志。例如，HasSilFlag，用于指示各声道中除LFE声道之外的其他声道中是否存在静音帧。各声道中除LFE声道之外，每个声道对应的SilFlag用于指示该声道是否为静音帧。

chBitRatios[i]从非LFE声道才出现此字段改为非LFE非静音声道才出现此字段；chBitRatios[i]的比特数从4改为6；

ILD边信息从4比特的声道间幅度差参数和1比特的缩放标志参数改为5比特的缩放因子码书索引。

多声道立体声解码语法如下表2所示，为Avs3McDec()语法。

多声道立体声边信息语法如下表3，为DecodeMcSideBits()语法。

语义McBitsAllocationHasSiL()为多声道立体声比特分配。

coupleChNum为多声道信号中不包含LFE声道的所有其他声道的声道数量。

HasSilFlag占用1比特，表示音频信号当前帧的各个声道是否存在静音帧，0表示没有静音帧，1表示存在静音帧。

silFlag[i]占用1比特，0表示第i个通道是非静音帧，1表示第i个通道是静音帧

mcIld[ch1]、mcIld[ch2]占用5比特，当前声道对中每个声道的声道间幅度差ILD参数量化的码书索引，用于恢复解码频谱的幅度。

pairCnt占用4比特，用于表示当前帧的声道组对数量。

声道对索引表示为channelPairIndex，channelPairIndex比特数与总声道数量有关，见上表中的注1。用于表示声道对的索引，可解析得到当前声道对中的两个声道的索引值，即ch1和ch2。

chBitRatios占用6比特，表示每个声道的比特分配比例。

解码过程如下：

混合信号比特分配。混合信号比特分配根据位流中解码获得的静音声道标记、比特分配比例参数，将去除其他边信息后的剩余可用比特数分配给多声道立体声中的各个下混声道，从而完成后续的区间解码、逆量化和神经网络逆变换步骤。

当前帧扣除其他边信息后剩余的可用字节数记为availableBytes。

多声道立体声模式可能存在静音声道，静音声道不需要参与多声道立体声模式的比特分配过程，预先分配固定的字节数即可，字节数为8。若静音声道存在，则将静音声道的预分配字节数从可用字节数availableBytes中扣除，扣除后剩余的字节数再分配给除静音声道外的其他声道。

可用字节数availableBytes分配给其余声道的过程分为五个步骤，如下：

第一步，每个声道预分配安全字节数safeBits，安全字节数为8。安全字节数从可用字节数availableBytes中扣除，扣除后剩余的字节数availableBytes再继续后续步骤的分配。

第二步，根据chBitRatios将比特分配给各个声道，每个声道的字节数可表示为：

channelBytes[i]＝availableBytes*chBitRatios[i]/(1<<6)。

其中，(1<<6)表示声道比特分配比例chBitRatios的最大取值范围。

第三步，若第二步骤中未将所有字节分配完毕，则将剩余的字节数按chBitRatios[i] 表示的比例再次分配给各个声道。

第四步，若第三步骤结束后仍有比特剩余，则将剩余比特分配给步骤1中分配字节最多的声道。

第五步，若某些声道分配的字节数超过单个声道字节数的上限，则将超过的部分分配给其余声道。

接下来对上混的过程进行说明，对声道对索引channelPairIndex指示的已组对的两个声道ch1和ch2，进行M/S上混，上混方式与双声道立体声模式M/S上混一致。M/S上混后，需要对上混后声道的MDCT频谱进行逆ILD处理，以恢复声道的幅度差异，逆ILD处理的伪代码如下：

factor＝mcIldCodebook[mcIld[i]]，

mdctSpectrum[i]＝factor*mdctSpectrum[i]。

其中，factor为第i个声道ILD参数对应的幅度调整因子，mcIldCodebook为ILD参数的量化码书如下表4所示，mcIld[i]表示第i个声道的ILD参数对应的码书索引，mdctSpectrum[i]表示第i个声道的MDCT系数矢量。其中，如下表4为mcILD码表：

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

为便于更好的实施本申请实施例的上述方案，下面还提供用于实施上述方案的相关装置。

请参阅图10所示，本申请实施例提供的一种编码设备1000，可以包括：静音标记信息获取模块1001、多声道编码模块1002和码流生成模块1003，其中，

静音标记信息获取模块，用于获取多声道信号的静音标记信息，所述静音标记信息包括：静音使能标志，和/或静音标志；

码流生成模块，用于根据所述各传输通道的传输通道信号和所述静音标记信息生成码流，所述码流包括：所述静音标记信息和所述传输通道信号的多声道编码结果。

请参阅图11所示，本申请实施例提供的一种解码设备1100，可以包括：解析模块1101和处理模块1102，其中，

处理模块，用于对所述各传输通道的编码信息进行解码，以得到所述各传输通道的解码信号；

所述处理模块，还用于对所述各传输通道的解码信号进行多声道解码处理，以得到多声道解码输出信号。

需要说明的是，上述装置各模块/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其带来的技术效果与本申请方法实施例相同，具体内容可参见本申请前述所示的方法实施例中的叙述，此处不再赘述。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储有程序，该程序执行包括上述方法实施例中记载的部分或全部步骤。

接下来介绍本申请实施例提供的另一种编码设备，请参阅图12所示，编码设备1200 包括：

接收器1201、发射器1202、处理器1203和存储器1204(其中编码设备1200中的处理器1203的数量可以一个或多个，图12中以一个处理器为例)。在本申请的一些实施例中，接收器1201、发射器1202、处理器1203和存储器1204可通过总线或其它方式连接，其中，图12中以通过总线连接为例。

存储器1204可以包括只读存储器和随机存取存储器，并向处理器1203提供指令和数据。存储器1204的一部分还可以包括非易失性随机存取存储器(non-volatile random access memory，NVRAM)。存储器1204存储有操作系统和操作指令、可执行模块或者数据结构，或者它们的子集，或者它们的扩展集，其中，操作指令可包括各种操作指令，用于实现各种操作。操作系统可包括各种系统程序，用于实现各种基础业务以及处理基于硬件的任务。

处理器1203控制编码设备的操作，处理器1203还可以称为中央处理单元(central processing unit，CPU)。具体的应用中，编码设备的各个组件通过总线系统耦合在一起，其中总线系统除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都称为总线系统。

上述本申请实施例揭示的方法可以应用于处理器1203中，或者由处理器1203实现。处理器1203可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1203中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1203可以是通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field-programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1204，处理器1203读取存储器1204中的信息，结合其硬件完成上述方法的步骤。

接收器1201可用于接收输入的数字或字符信息，以及产生与编码设备的相关设置以及功能控制有关的信号输入，发射器1202可包括显示屏等显示设备，发射器1202可用于通过外接接口输出数字或字符信息。

本申请实施例中，处理器1203用于执行前述实施例图4、图6、图7所示的由编码设备执行的方法。

接下来介绍本申请实施例提供的另一种解码设备，请参阅图13所示，解码设备1300包括：

接收器1301、发射器1302、处理器1303和存储器1304(其中解码设备1300中的处理器1303的数量可以一个或多个，图13中以一个处理器为例)。在本申请的一些实施例中，接收器1301、发射器1302、处理器1303和存储器1304可通过总线或其它方式连接，其中，图13中以通过总线连接为例。

存储器1304可以包括只读存储器和随机存取存储器，并向处理器1303提供指令和数据。存储器1304的一部分还可以包括NVRAM。存储器1304存储有操作系统和操作指令、可执行模块或者数据结构，或者它们的子集，或者它们的扩展集，其中，操作指令可包括各种操作指令，用于实现各种操作。操作系统可包括各种系统程序，用于实现各种基础业务以及处理基于硬件的任务。

处理器1303控制解码设备的操作，处理器1303还可以称为CPU。具体的应用中，解码设备的各个组件通过总线系统耦合在一起，其中总线系统除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都称为总线系统。

上述本申请实施例揭示的方法可以应用于处理器1303中，或者由处理器1303实现。处理器1303可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1303中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1303可以是通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1304，处理器1303读取存储器1304中的信息，结合其硬件完成上述方法的步骤。

本申请实施例中，处理器1303，用于执行前述实施例图5、图8、图9所示的由解码设备执行的方法。

在另一种可能的设计中，当编码设备或者解码设备为终端内的芯片时，芯片包括：处理单元和通信单元，所述处理单元例如可以是处理器，所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令，以使该终端内的芯片执行上述第一方面任意一项的音频编码方法，或者第二方面任意一项的音频解码方法。可选地，所述存储单元为所述芯片内的存储单元，如寄存器、缓存等，所述存储单元还可以是所述终端内的位于所述芯片外部的存储单元，如只读存储器(read-onlymemory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(randomaccessmemory，RAM)等。

其中，上述任一处提到的处理器，可以是一个通用中央处理器，微处理器，ASIC，或一个或多个用于控制上述第一方面或第二方面方法的程序执行的集成电路。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本申请提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

Claims

一种多声道信号的编码方法，其特征在于，包括：

获取多声道信号的静音标记信息，所述静音标记信息包括：静音使能标志，和/或静音标志；

对所述多声道信号进行多声道编码处理，以得到各传输通道的传输通道信号；

根据所述各传输通道的传输通道信号和所述静音标记信息生成码流，所述码流包括：所述静音标记信息和所述传输通道信号的多声道编码结果。
根据权利要求1所述的方法，其特征在于，所述多声道信号，包括：声床信号，和/或对象信号；

所述静音标记信息包括：所述静音使能标志；所述静音使能标志包括：全局静音使能标志，或部分静音使能标志，其中，

所述全局静音使能标志为作用于所述多声道信号的静音使能标志；或者，

所述部分静音使能标志为作用于所述多声道信号中部分声道的静音使能标志。
根据权利要求2所述的方法，其特征在于，当所述静音使能标志为所述部分静音使能标志时，

所述部分静音使能标志为作用于所述对象信号的对象静音使能标志，或者，所述部分静音使能标志为作用于所述声床信号的声床静音使能标志，或者，所述部分静音使能标志为作用于所述多声道信号中不包含非低频效果LFE声道信号的其他声道信号的静音使能标志，或者所述部分静音使能标志为作用于多声道信号中参与组对的声道信号的静音使能标志。
根据权利要求1至3中任一项所述的方法，其特征在于，所述多声道信号，包括：声床信号，和对象信号；

所述静音标记信息包括：所述静音使能标志；所述静音使能标志包括：声床静音使能标志，和对象静音使能标志，

所述静音使能标志占用第一比特位和第二比特位，所述第一比特位用于承载所述声床静音使能标志的值，所述第二比特位用于承载所述对象静音使能标志的值。
根据权利要求1至4中任一项所述的方法，其特征在于，所述静音标记信息包括：所述静音使能标志；

所述静音使能标志用于指示静音标记检测功能是否开启；或者，

所述静音使能标志用于指示是否需要发送所述多声道信号的各声道的静音标志；或者，

所述静音使能标志用于指示所述多声道信号的各声道是否均为非静音通道。
根据权利要求1至5中任一项所述的方法，其特征在于，所述获取多声道信号的静音标记信息，包括：

根据输入编码设备的控制信令获取所述静音标记信息；或者，

根据编码设备的编码参数获取所述静音标记信息；或者，

对所述多声道信号的各声道进行静音标记检测，以得到所述静音标记信息。
根据权利要求6所述的方法，其特征在于，所述静音标记信息包括：所述静音使能标志和所述静音标志；

所述对多声道信号的各声道进行静音标记检测，以得到所述静音标记信息，包括：

对所述多声道信号的各声道进行静音标记检测，以得到所述各声道的静音标志；

根据所述各声道的静音标志确定所述静音使能标志。
根据权利要求1所述的方法，其特征在于，所述静音标记信息包括：所述静音标志；或者，所述静音标记信息包括：所述静音使能标志和所述静音标志；

所述静音标志，用于指示所述静音使能标志作用的各声道是否为静音通道，所述静音通道为不需要编码的通道或需要按照低比特编码的通道。
根据权利要求1至8中任一项所述的方法，其特征在于，所述获取多声道信号的静音标记信息之前，所述方法还包括：

对所述多声道信号进行预处理，以得到预处理后的多声道信号，所述预处理包括如下至少一种：暂态检测、窗型判断、时频变换、频域噪声整形、时域噪声整形、频带扩展编码；

所述获取多声道信号的静音标记信息，包括：

对所述预处理后的多声道信号进行所述静音标记检测，以得到所述静音标记信息。
根据权利要求1至8中任一项所述的方法，其特征在于，所述方法还包括：

对所述多声道信号进行预处理，以得到预处理后的多声道信号，所述预处理包括如下至少一种：暂态检测、窗型判断、时频变换、频域噪声整形、时域噪声整形、频带扩展编码；

根据所述预处理后的多声道信号对所述静音标记信息进行修正。
根据权利要求1至10中任一项所述的方法，其特征在于，所述根据所述各传输通道的传输通道信号和所述静音标记信息生成码流，包括：

根据所述静音标记信息调整初始多声道处理方式，以得到调整后的多声道处理方式；

根据所述调整后的多声道处理方式对所述各传输通道的传输通道信号进行编码，以得到所述码流。
根据权利要求1至10中任一项所述的方法，其特征在于，所述根据所述各传输通道的传输通道信号和所述静音标记信息生成码流，包括：

根据所述静音标记信息、可用比特数和多声道边信息，为所述各传输通道进行比特分配，得到所述各传输通道的比特分配结果；

根据所述各传输通道的比特分配结果对所述各传输通道的传输通道信号进行编码，以得到所述码流。
根据权利要求12所述的方法，其特征在于，所述根据所述静音标记信息、可用比特数和多声道边信息，为所述各传输通道进行比特分配，包括：

根据可用比特数和多声道边信息，按照所述静音标记信息对应的比特分配策略为所述各传输通道进行比特分配。
根据权利要求12所述的方法，其特征在于，所述多声道边信息包括：声道比特分配比例，

其中，所述声道比特分配比例用于指示所述多声道信号中非低频效果LFE声道之间的比特分配比例。
根据权利要求6或7所述的方法，其特征在于，所述对所述多声道信号的各声道进行静音标记检测，包括：

根据所述多声道信号的当前帧的各声道的信号，确定所述当前帧的各声道的信号能量；

根据所述当前帧的各声道的信号能量，确定所述当前帧的各声道的静音检测参数；

根据所述当前帧的各声道的静音检测参数和预设的静音检测阈值，确定所述当前帧的各声道的静音标志。
根据权利要求1至15中任一项所述的方法，其特征在于，所述对所述多声道信号进行多声道编码处理，以得到所述各传输通道的传输通道信号，包括：

对所述多声道信号进行多声道信号筛选，以得到筛选后的多声道信号；

对所述筛选后的多声道信号进行组对处理，以得到多声道组对信号；

对所述多声道组对信号进行下混处理和比特分配处理，以得到所述各传输通道的传输通道信号和多声道边信息。
根据权利要求16所述的方法，其特征在于，所述多声道边信息包括如下至少一种：声道间幅度差参数量化码书索引、声道组对数量、声道对索引、声道比特分配比例；

其中，所述声道间幅度差参数量化码书索引，用于指示所述多声道信号的各声道中每个声道的声道间幅度差ILD参数量化的码书索引；

所述声道组对数量，用于表示所述多声道信号的当前帧的声道组对数量；

所述声道对索引，用于表示声道对的索引；

所述声道比特分配比例用于指示所述多声道信号中非低频效果LFE声道之间的比特分配比例。
一种多声道信号的解码方法，其特征在于，包括：

从编码设备的码流中解析出静音标记信息，并根据所述静音标记信息确定各传输通道的编码信息，所述静音标记信息包括：静音使能标志，和/或静音标志；

对所述各传输通道的编码信息进行解码，以得到所述各传输通道的解码信号；

对所述各传输通道的解码信号进行多声道解码处理，以得到多声道解码输出信号。
根据权利要求18所述的方法，其特征在于，所述从编码设备的码流中解析出静音标记信息，包括：

从所述码流中解析出各声道的静音标志；或者，

从所述码流中解析出所述静音使能标志，若所述静音使能标志为第一值时，从所述码流中解析出静音标志；或者，

从所述码流中解析出声床静音使能标志和/或对象静音使能标志，及各声道的静音标志；或者，

从所述码流中解析出声床静音使能标志和/或对象静音使能标志；根据所述声床静音使能标志和/或对象静音使能标志，从所述码流中解析出各声道的部分声道的静音标志。
根据权利要求18所述的方法，其特征在于，所述对所述各传输通道的编码信息进行解码，包括：

从所述码流中解析出多声道边信息；

根据所述多声道边信息和所述静音标志信息为所述各传输通道进行比特分配，以得到所述各传输通道的编码比特数；

根据所述各传输通道的编码比特数对所述各传输通道的编码信息进行解码。
根据权利要求18所述的方法，其特征在于，所述对所述各传输通道的解码信号进行多声道解码处理，以得到多声道解码输出信号之后，所述方法还包括：

对所述多声道解码输出信号进行后处理，所述后处理包括如下至少一种：频带扩展解码、逆时域噪声整形、逆频域噪声整形、逆时频变换。
根据权利要求20所述的方法，其特征在于，所述多声道边信息包括如下至少一种：声道间幅度差参数量化码书索引、声道组对数量、声道对索引、声道比特分配比例；

其中，所述声道间幅度差参数量化码书索引，用于指示各声道中每个声道的声道间幅度差ILD参数量化的码书索引；

所述声道组对数量，用于表示所述多声道信号的当前帧的声道组对数量；

所述声道对索引，用于表示声道对的索引；

所述声道比特分配比例用于指示所述多声道信号中非低频效果LFE声道之间的比特分配比例。
一种编码设备，其特征在于，所述编码设备包括：

静音标记信息获取模块，用于获取多声道信号的静音标记信息，所述静音标记信息包括：静音使能标志，和/或静音标志；

多声道编码模块，用于对所述多声道信号进行多声道编码处理，以得到各传输通道的传输通道信号；

码流生成模块，用于根据所述各传输通道的传输通道信号和所述静音标记信息生成码流，所述码流包括：所述静音标记信息和所述传输通道信号的多声道编码结果。
一种解码设备，其特征在于，所述解码设备包括：

解析模块，用于从编码设备的码流中解析出静音标记信息，并根据所述静音标记信息确定各传输通道的编码信息，所述静音标记信息包括：静音使能标志，和/或静音标志；

处理模块，用于对所述各传输通道的编码信息进行解码，以得到所述各传输通道的解码信号；

所述处理模块，还用于对所述各传输通道的解码信号进行多声道解码处理，以得到多声道解码输出信号。
一种终端设备，其特征在于，所述终端设备包括：处理器，存储器；所述处理器、所述存储器之间进行相互的通信；

所述存储器用于存储指令；

所述处理器用于执行所述存储器中的所述指令，执行如权利要求1至17中任一项所述的方法。
一种终端设备，其特征在于，所述终端设备包括：处理器，存储器；所述处理器、所述存储器之间进行相互的通信；

所述存储器用于存储指令；

所述处理器用于执行所述存储器中的所述指令，执行如权利要求18至22中任一项所述的方法。
一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至17，或者18至22中任意一项所述的方法。
一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如权利要求1至17，或者18至22中任意一项所述的方法。
一种计算机可读存储介质，其特征在于，存储有如权利要求1至17任意一项所述的方法所生成的码流。