WO2022253187A1

WO2022253187A1 - 一种三维音频信号的处理方法和装置

Info

Publication number: WO2022253187A1
Application number: PCT/CN2022/096025
Authority: WO
Inventors: 高原; 刘帅; 王宾; 王喆; 曲天书; 徐佳浩
Original assignee: 华为技术有限公司
Priority date: 2021-05-31
Filing date: 2022-05-30
Publication date: 2022-12-08
Also published as: JP2024521204A; CN115938388A; EP4332964A1; BR112023025071A2; CA3221992A1; KR20240012519A; US20240105187A1

Abstract

一种三维音频信号的处理方法、装置和计算机可读存储介质，该方法包括：对三维音频信号的当前帧进行线性分解，以得到线性分解结果（401）；根据线性分解结果获取当前帧对应的声场分类参数（402）；根据声场分类参数确定当前帧的声场分类结果（403）。

Description

一种三维音频信号的处理方法和装置

本申请要求于2021年05月31日提交中国专利局、申请号为202110602507.4，发明名称为“一种三维音频信号的处理方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及音频处理技术领域，尤其涉及一种三维音频信号的处理方法和装置。

背景技术

三维音频技术在无线通信语音、虚拟现实/增强现实和媒体音频等方面得到了广泛应用。三维音频技术是对真实世界中的声音事件和三维声场信息进行获取、处理、传输和渲染回放的音频技术。三维音频技术使声音具有强烈的空间感、包围感及沉浸感，给人以“声临其境”的非凡听觉体验。高阶立体混响(higher order ambisonics，HOA)技术具有在录制、编码与回放阶段与扬声器布局无关的性质和HOA格式数据的可旋转回放特性，在进行三维音频回放时具有更高的灵活性，因而也得到了更为广泛的关注和研究。

采集设备(如麦克风)采集大量的数据记录三维声场信息，向回放设备(例如扬声器，耳机等)传输三维音频信号，以便于回放设备播放三维音频信号。由于三维声场信息的数据量较大，导致需要大量的存储空间存储数据，以及传输三维音频信号的带宽需求较高。为了解决上述问题，可以对三维音频信号进行压缩，存储或传输压缩数据。

目前，编码器可以采用预先配置的多个虚拟扬声器对三维音频信号进行编码，但是在编码器对三维音频信号进行编码之前，无法对三维音频信号进行分类，存在无法有效识别三维音频信号的问题。

发明内容

本申请实施例提供了一种三维音频信号的处理方法和装置，用于实现对三维音频信号的声场分类，从而可以准确识别三维音频信号。

为解决上述技术问题，本申请实施例提供以下技术方案：

第一方面，本申请实施例提供一种三维音频信号的处理方法，包括：对三维音频信号的当前帧进行线性分解，以得到线性分解结果；根据所述线性分解结果获取所述当前帧对应的声场分类参数；根据所述声场分类参数确定所述当前帧的声场分类结果。在上述方案中，首先对三维音频信号的当前帧进行线性分解，以得到线性分解结果；然后根据线性分解结果获取当前帧对应的声场分类参数；最后根据声场分类参数确定当前帧的声场分类结果。由于本申请实施例中通过对三维音频信号的当前帧进行线性分解，获得了当前帧的线性分解结果，再通过该线性分解结果获取到当前帧对应的声场分类参数，因此通过该声场分类参数确定出了当前帧的声场分类结果，通过该声场分类结果可对当前帧实现声场分类。本申请实施例对三维音频信号的声场分类，从而可以准确识别三维音频信号。

在一种可能的实现方式中，所述三维音频信号包括：高阶立体混响HOA信号，或者一阶立体混响FOA信号。

在一种可能的实现方式中，所述对所述三维音频信号的当前帧进行线性分解，以得到线性分解结果，包括：对所述当前帧进行奇异值分解，以得到所述当前帧对应的奇异值，其中，所述线性分解结果包括：所述奇异值；或者，对所述当前帧进行主成分分析，以得到所述当前帧对应的第一特征值，其中，所述线性分解结果包括：所述第一特征值；或者，对所述当前帧进行独立成分分析，以得到所述当前帧对应的第二特征值，其中，所述线性分解结果包括：所述第二特征值。在上述方案中，线性分解可以是奇异值分解。线性分解也可以是主成分分析，得到特征值，线性分解还可以是独立成分分析，得到第二特征值。通过上述三种的任意一种方式，都可以实现对当前帧的线性分解，为后续进行声道判断提供线性分析结果。

在一种可能的实现方式中，所述线性分解结果为多个，所述声场分类参数为多个；所述根据所述线性分解结果获取所述当前帧对应的声场分类参数，包括：获取所述当前帧的第i个线性分析结果与所述当前帧的第i+1个线性分析结果的比值，所述i为正整数；根据所述比值获取所述当前帧对应的第i个声场分类参数。

进一步的，所述第i个线性分析结果和所述第i+1个线性分析结果是所述当前帧的连续两个线性分析结果。

在上述方案中，编码端可以根据线性分解结果计算得到当前帧对应的声场分类参数。例如当前帧的线性分解结果为多个，多个线性分析结果中连续两个线性分析结果表示为第i个线性分析结果与当前帧的第i+1个线性分析结果，则可以计算出当前帧的第i个线性分析结果与当前帧的第i+1个线性分析结果的比值，对于i的具体取值不做限定。在获取到上述比值之后，使用该第i个线性分析结果与当前帧的第i+1个线性分析结果的比值可以获取到当前帧对应的第i个声场分类参数。

在一种可能的实现方式中，所述声场分类参数为多个；所述声场分类结果包括：声场类型；所述根据所述声场分类参数确定所述当前帧的声场分类结果，包括：当所述多个声场分类参数的值都满足预设的弥散性声源判决条件时，确定所述声场类型为弥散性声场；或者，当所述多个声场分类参数的值中至少一个值满足预设的相异性声源判决条件时，确定所述声场类型为相异性声场。在上述方案中，声场类型可以包括相异性声场和弥散性声场，本申请实施例中预设弥散性声源判决条件和相异性声源判决条件，弥散性声源判决条件用于判断声场类型是否为弥散性声场，相异性声源判决条件用于判断声场类型是否为相异性声场。在获取到当前帧的多个声场分类参数之后，根据多个声场分类参数的值与预设的上述条件进行判断。

在一种可能的实现方式中，所述弥散性声源判决条件包括：所述声场分类参数的值小于预设的相异性声源判定阈值；或者，所述相异性声源判决条件包括：所述声场分类参数的值大于或者等于预设的相异性声源判定阈值。在上述方案中，相异性声源判定阈值可以是预先设定的阈值，具体取值不做限定。弥散性声源判决条件包括：声场分类参数的值小于预设的相异性声源判定阈值，因此在多个声场分类参数的值都小于预设的相异性声源判定阈值时，确定声场类型为弥散性声场。相异性声源判决条件包括：声场分类参数的值大于或者等于预设的相异性声源判定阈值，因此多个声场分类参数的值中至少一个值大于或者等于预设的相异性声源判定阈值时，确定声场类型为相异性声场。

在一种可能的实现方式中，所述声场分类参数为多个；所述声场分类结果包括：声场类型；或者，所述声场分类结果包括：相异性声源数量和声场类型；所述根据所述声场分类参数确定所述当前帧的声场分类结果，包括：根据所述多个声场分类参数的值获取所述当前帧对应的相异性声源数量；根据所述当前帧对应的相异性声源数量确定所述声场类型。在上述方案中，编码端获取到当前帧对应的多个生成分类参数之后，编码端可以通过多个声场分类参数的值获取当前帧对应的相异性声源数量，相异性声源是位置和/方向不相同的点声源，当前帧中包括的相异性声源的数量被称为相异性声源数量。通过相异性声源数量可以对当前帧的声场进行分类。在获取到当前帧对应的相异性声源数量确定声场类型之后，通过对当前帧对应的相异性声源数量进行分析，可以确定出该当前帧对应的声场类型。

在一种可能的实现方式中，所述声场分类参数为多个；所述声场分类结果包括：相异性声源数量；所述根据所述声场分类参数确定所述当前帧的声场分类结果，包括：根据所述多个声场分类参数的值获取所述当前帧对应的相异性声源数量。在上述方案中，编码端获取到当前帧对应的多个生成分类参数之后，编码端可以通过多个声场分类参数的值获取当前帧对应的相异性声源数量，相异性声源是位置和/方向不相同的点声源，当前帧中包括的相异性声源的数量被称为相异性声源数量。

在一种可能的实现方式中，所述多个声场分类参数为temp[i]，所述i＝0，1，…，min(L，K)-2，所述L表示所述当前帧的通道数量，所述K为所述当前帧的每个通道对应的信号点数，所述min表示取最小值运算；所述根据所述多个声场分类参数的值获取所述当前帧对应的相异性声源数量，包括：从i＝0开始依次执行如下判断流程：判断所述temp[i]是否大于预设的相异性声源判定阈值；当本次判断流程中所述temp[i]小于所述相异性声源判定阈值时，更新i的取值为i+1，继续执行下次判断流程；或者，当本次判断流程中所述temp[i]大于或等于所述相异性声源判定阈值时，终止执行判断流程，确定本次判断流程的i加上1等于所述相异性声源数量。在上述方案中，通过多次执行上述判断流程，并每次判断是否终止执行判断流程，以此获取到相异性声源数量。

在一种可能的实现方式中，所述根据所述当前帧对应的相异性声源数量确定所述声场类型，包括：当所述相异性声源数量满足第一预设条件时，确定所述声场类型为第一声场类型；当所述相异性声源数量不满足所述第一预设条件时，确定所述声场类型为第二声场类型；其中，所述第一声场类型对应的相异性声源数量和所述第二声场类型对应的相异性声源数量不同。在上述方案中，可以按照相异性声源数量的不同将声场类型划分为两种类型：第一声场类型和第二声场类型。编码端获取预设条件，判断相异性声源数量是否满足预设条件，当相异性声源数量满足第一预设条件时，确定声场类型为第一声场类型；当相异性声源数量不满足第一预设条件时，确定声场类型为第二声场类型。本申请实施例中可以通过判断相异性声源数量是否满足第一预设条件，实现对当前帧的声场类型的划分，从而可以准确识别出当前帧的声场类型属于第一声场类型或者第二声场类型。

在一种可能的实现方式中，所述第一预设条件包括所述相异性声源数量大于第一阈值且小于第二阈值，其中，所述第二阈值大于所述第一阈值；或者，所述第一预设条件包括所述相异性声源数量不大于第一阈值或不小于第二阈值，其中，所述第二阈值大于所述第一阈值。在上述方案中，第一阈值和第二阈值的具体取值不做限定，具体可以结合应用场景。第二阈值大于第一阈值，因此第一阈值和第二阈值可以构成一个预设范围，则第一预设条件可以是相异性声源数量处于该预设范围内，或者第一预设条件可以是相异性声源数量处于该预设范围之外。通过上述第一预设条件中的第一阈值和第二阈值，可以对相异性声源数量进行判断，以确定该相异性声源数量是否满足第一预设条件，从而可以准确识别出当前帧的声场类型属于第一声场类型或者第二声场类型。

在一种可能的实现方式中，所述方法还包括：根据所述声场分类结果确定所述当前帧对应的编码模式。在上述方案中，编码端可以根据该声场分类结果确定当前帧对应的编码模式。该编码模式是指对三维音频信号的当前帧进行编码时采用的模式，编码模式有多种，根据当前帧的声场分类结果的不同可以采用不同的编码模式。本申请实施例中针对当前帧的不同声场分类结果选择合适的编码模式，以使用该编码模式对当前帧进行编码，提升音频信号的压缩效率和听觉质量。

在一种可能的实现方式中，所述根据所述声场分类结果确定所述当前帧对应的编码模式，包括：当所述声场分类结果包括相异性声源数量，或所述声场分类结果包括相异性声源数量和声场类型时，根据所述相异性声源数量确定所述当前帧对应的编码模式；或者，当所述声场分类结果包括声场类型，或所述声场分类结果包括相异性声源数量和声场类型时，根据所述声场类型确定所述当前帧对应的编码模式；或者，当所述声场分类结果包括相异性声源数量和声场类型时，根据所述相异性声源数量和所述声场类型确定所述当前帧对应的编码模式。在上述方案中，编码端可以通过相异性声源数量和/或声场类型确定当前帧对应的编码模式，从而编码端能够根据当前帧的声场分类结果确定相应的编码模式，使得所确定的编码模式能够与三维音频信号的当前帧相适配，从而可以提高编码效率。

在一种可能的实现方式中，所述根据所述相异性声源数量确定所述当前帧对应的编码模式包括：当所述相异性声源数量满足第二预设条件时，确定所述编码模式为第一编码模式；当所述相异性声源数量不满足所述第二预设条件时，确定所述编码模式为第二编码模式；其中，所述第一编码模式为基于虚拟扬声器选择的HOA编码模式或基于方向音频编码的HOA编码模式，所述第二编码模式为基于虚拟扬声器选择的HOA编码模式或基于方向音频编码的HOA编码模式，且所述第一编码模式和所述第二编码模式为不同的编码模式。在上述方案中，可以按照相异性声源数量的不同将编码模式划分为两种类型：第一编码模式和第二编码模式。编码端获取第二预设条件，判断相异性声源数量是否满足第二预设条件，当相异性声源数量满足第二预设条件时，确定编码模式为第一编码模式；当相异性声源数量不满足第二预设条件时，确定编码模式为第二编码模式。本申请实施例中可以通过判断相异性声源数量是否满足第二预设条件，实现对当前帧的编码模式的划分，从而可以准确识别出当前帧的编码模式属于第一编码模式或者第二编码模式。

在一种可能的实现方式中，所述第二预设条件包括所述相异性声源数量大于第一阈值且小于第二阈值，其中，所述第二阈值大于所述第一阈值；或，所述第二预设条件包括所述相异性声源数量不大于第一阈值或不小于第二阈值，其中，所述第二阈值大于所述第一阈值。

在一种可能的实现方式中，所述根据所述声场类型确定所述当前帧对应的编码模式，包括：当所述声场类型为相异性声场时，确定所述编码模式为基于虚拟扬声器选择的HOA 编码模式；当所述声场类型为弥散性声场时，确定所述编码模式为基于方向音频编码的HOA编码模式。

在一种可能的实现方式中，所述根据所述声场分类结果确定所述当前帧对应的编码模式，包括：根据所述当前帧的声场分类结果确定所述当前帧对应的初始编码模式；获取所述当前帧所在的滑动窗，所述滑动窗包括：所述当前帧的初始编码模式，以及所述当前帧之前的N-1帧的编码模式，所述N为所述滑动窗的长度；根据所述当前帧的初始编码模式和所述N-1帧的编码模式确定所述当前帧的编码模式。在上述方案中，本申请实施例中通过滑动窗对当前帧的初始编码模式进行修正，以得到当前帧的编码模式，以保证连续帧之间的编码模式不会出现频繁切换，提高编码效率。

在一种可能的实现方式中，所述方法还包括：根据所述声场分类结果确定所述当前帧对应的编码参数。在上述方案中，编码端可以根据该声场分类结果确定当前帧对应的编码参数。该编码参数是指对三维音频信号的当前帧进行编码时采用的参数，编码参数有多种，根据当前帧的声场分类结果的不同可以采用不同的编码参数。本申请实施例中针对当前帧的不同声场分类结果选择合适的编码参数，以使用该编码参数对当前帧进行编码，提升音频信号的压缩效率和听觉质量。

在一种可能的实现方式中，所述编码参数，包括如下至少一种：虚拟扬声器信号的通道数、残差信号的通道数、虚拟扬声器信号的编码比特数、残差信号的编码比特数、或最佳匹配扬声器搜索的投票轮次数；其中，所述虚拟扬声器信号和所述残差信号是根据所述三维音频信号生成的信号。

在一种可能的实现方式中，所述投票轮次数满足如下关系：1≤I≤d，其中，所述I为所述投票轮次数，所述d为所述声场分类结果包括的相异性声源数量。在上述方案中，编码端根据当前帧的相异性声源数量确定最佳匹配扬声器搜索的投票轮次数，该投票轮次数小于或等于当前帧的相异性声源数量，从而使得投票轮次数能够符合当前帧的声场分类的实际情况，解决了对当前帧进行编码时需要确定最佳匹配扬声器搜索的投票轮次数的问题。

在一种可能的实现方式中，所述声场分类结果包括相异性声源数量和声场类型；当所述声场类型为相异性声场时，所述虚拟扬声器信号的通道数满足如下关系：F＝min(S，PF)，其中，所述F为所述虚拟扬声器信号的通道数，所述S为所述相异性声源数量，所述PF为编码器预设的虚拟扬声器信号通道数；或，当所述声场类型为弥散性声场时，所述虚拟扬声器信号的通道数满足如下关系：F＝1，其中，所述F为所述虚拟扬声器信号的通道数。在上述方案中，虚拟扬声器信号的通道数是指传输虚拟扬声器信号所使用的通道的数量，虚拟扬声器信号的通道数可以通过相异性声源数量和声场类型确定，在上述计算方式中，当声场类型为弥散性声场时，确定虚拟扬声器信号的通道数为1，从而可以提到对当前帧的编码效率。当声场类型为相异性声场时，min表示取最小值运算，即从S和PF中取最小值作为虚拟扬声器信号的通道数，从而使得虚拟扬声器信号的通道数能够符合当前帧的声场分类的实际情况，解决了对当前帧进行编码时需要确定虚拟扬声器信号的通道数的问题。

在一种可能的实现方式中，当所述声场类型为弥散性声场时，所述残差信号的通道数满足如下关系：R＝max(C-1，PR)，其中，所述PR为编码器预设的残差信号通道数，所述C 为所述编码器预设的残差信号的通道数和所述编码器预设的虚拟扬声器信号通道数之和；或，当所述声场类型为相异性声场时，所述残差信号的通道数满足如下关系：R＝C–F，其中，所述R表示所述残差信号的通道数，所述C为编码器预设的残差信号通道数和所述编码器预设的虚拟扬声器信号通道数之和，所述F为所述虚拟扬声器信号的通道数。在上述方案中，在获取到虚拟扬声器信号的通道数之后，可以根据预设的残差信号的通道数和预设的虚拟扬声器信号的通道数之和、预设的残差信号通道数计算出残差信号的通道数，该PR的取值可以是编码端预设的，通过上述max(C-1，PR)计算公式可以获取到R的取值，该预设的残差信号的通道数和预设的虚拟扬声器信号的通道数之和是编码端预设的。另外，上述C也可以简称为总的传输通道数。

在一种可能的实现方式中，所述声场分类结果包括相异性声源数量；所述虚拟扬声器信号的通道数满足如下关系：F＝min(S，PF)，其中，所述F为所述虚拟扬声器信号的通道数，所述S为所述相异性声源数量，所述PF为编码器预设的虚拟扬声器信号通道数。

在一种可能的实现方式中，所述残差信号的通道数满足如下关系：R＝C–F，其中，所述R表示所述残差信号的通道数，所述C为编码器预设的残差信号的通道数和所述编码器预设的虚拟扬声器信号的通道数之和，所述F为所述虚拟扬声器信号的通道数。在上述方案中，在获取到虚拟扬声器信号的通道数之后，可以根据预设的残差信号的通道数和预设的虚拟扬声器信号的通道数之和、虚拟扬声器信号的通道数计算出残差信号的通道数，该预设的残差信号的通道数和预设的虚拟扬声器信号的通道数之和是编码端预设的。另外，上述C也可以简称为总的传输通道数。

在一种可能的实现方式中，所述声场分类结果包括相异性声源数量，或者所述声场分类结果包括相异性声源数量和声场类型；所述虚拟扬声器信号的编码比特数，通过虚拟扬声器信号的编码比特数与传输通道的编码比特数的比值得到；所述残差信号的编码比特数，通过虚拟扬声器信号的编码比特数与传输通道的编码比特数的比值得到；其中，所述传输通道的编码比特数包括所述虚拟扬声器信号的编码比特数和所述残差信号的编码比特数，当所述相异性声源数量小于或等于虚拟扬声器信号的通道数时，所述虚拟扬声器信号的编码比特数与传输通道的编码比特数的比值，通过增加所述虚拟扬声器信号的编码比特数与传输通道的编码比特数的初始比值得到。

在一种可能的实现方式中，所述方法还包括：对所述当前帧和所述声场分类结果进行编码，并写入码流。

第二方面，本申请实施例还提供一种三维音频信号的处理方法，包括：接收码流；解码所述码流以获得当前帧的声场分类结果；根据所述声场分类结果获得所述当前帧解码后的三维音频信号。在上述方案中，该声场分类结果能够用于码流中的当前帧的解码，因此解码端采用与当前帧的声场匹配的解码方式进行解码，从而得到编码端发送的三维音频信号，实现音频信号从编码端到解码端的传输。

在一种可能的实现方式中，所述根据所述声场分类结果获得所述当前帧解码后的三维音频信号，包括：根据所述声场分类结果确定所述当前帧的解码模式；根据所述解码模式获得所述当前帧解码后的三维音频信号。

在一种可能的实现方式中，所述根据所述声场分类结果确定所述当前帧的解码模式，包括：当所述声场分类结果包括相异性声源数量，或所述声场分类结果包括相异性声源数量和声场类型时，根据所述相异性声源数量确定所述当前帧的解码模式；或者，当所述声场分类结果包括声场类型，或所述声场分类结果包括相异性声源数量和声场类型时，根据所述声场类型确定所述当前帧的解码模式；或者，当所述声场分类结果包括相异性声源数量和声场类型时，根据所述相异性声源数量和所述声场类型确定所述当前帧的解码模式。

在一种可能的实现方式中，所述根据所述相异性声源数量确定所述当前帧对应的解码模式包括：当所述相异性声源数量满足预设条件时，确定所述解码模式为第一解码模式；当所述相异性声源数量不满足所述预设条件时，确定所述解码模式为第二解码模式；其中，所述第一解码模式为基于虚拟扬声器选择的HOA解码模式或基于方向音频编码的HOA解码模式，所述第二解码模式为基于虚拟扬声器选择的HOA解码模式或基于方向音频编码的HOA解码模式，且所述第一解码模式和所述第二解码模式为不同的解码模式。

在一种可能的实现方式中，所述预设条件包括所述相异性声源数量大于第一阈值且小于第二阈值，其中，所述第二阈值大于所述第一阈值；或，所述预设条件包括所述相异性声源数量不大于第一阈值或不小于第二阈值，其中，所述第二阈值大于所述第一阈值。

在一种可能的实现方式中，所述根据所述声场分类结果获得所述当前帧解码后的三维音频信号，包括：根据所述声场分类结果确定所述当前帧的解码参数；根据所述解码参数获得所述当前帧解码后的三维音频信号。

在一种可能的实现方式中，所述解码参数，包括如下至少一种：虚拟扬声器信号的通道数、残差信号的通道数、虚拟扬声器信号的解码比特数、或残差信号的解码比特数；其中，所述虚拟扬声器信号和所述残差信号是通过所述码流解码得到的。

在一种可能的实现方式中，所述声场分类结果包括相异性声源数量和声场类型；当所述声场类型为相异性声场时，所述虚拟扬声器信号的通道数满足如下关系：F＝min(S，PF)，其中，所述F为所述虚拟扬声器信号的通道数，所述S为所述相异性声源数量，所述PF为解码器预设的虚拟扬声器信号通道数；或，当所述声场类型为弥散性声场时，所述虚拟扬声器信号的通道数满足如下关系：F＝1，其中，所述F为所述虚拟扬声器信号的通道数。

在一种可能的实现方式中，当所述声场类型为弥散性声场时，所述残差信号的通道数满足如下关系：R＝max(C-1，PR)，其中，所述PR为解码器预设的残差信号通道数，所述C为所述解码器预设的残差信号的通道数和所述解码器预设的虚拟扬声器信号通道数之和；或，当所述声场类型为相异性声场时，所述残差信号的通道数满足如下关系：R＝C–F，其中，所述R表示所述残差信号的通道数，所述C为解码器预设的残差信号通道数和所述解码器预设的虚拟扬声器信号通道数之和，所述F为所述虚拟扬声器信号的通道数。

在一种可能的实现方式中，所述声场分类结果包括相异性声源数量；所述虚拟扬声器信号的通道数满足如下关系：F＝min(S，PF)，其中，所述F为所述虚拟扬声器信号的通道数，所述S为所述相异性声源数量，所述PF为解码器预设的虚拟扬声器信号通道数。

在一种可能的实现方式中，所述残差信号的通道数满足如下关系：R＝C–F，其中，所述R表示所述残差信号的通道数，所述C为解码器预设的残差信号的通道数和所述解码器预设的虚拟扬声器信号的通道数之和，所述F为所述虚拟扬声器信号的通道数。

在一种可能的实现方式中，所述声场分类结果包括相异性声源数量，或者所述声场分类结果包括相异性声源数量和声场类型；所述虚拟扬声器信号的解码比特数，通过虚拟扬声器信号的解码比特数与传输通道的解码比特数的比值得到；所述残差信号的解码比特数，通过虚拟扬声器信号的解码比特数与传输通道的解码比特数的比值得到；其中，所述传输通道的解码比特数包括所述虚拟扬声器信号的解码比特数和所述残差信号的解码比特数，当所述相异性声源数量小于或等于虚拟扬声器信号的通道数时，所述虚拟扬声器信号的解码比特数与传输通道的解码比特数的比值，通过增加虚拟扬声器信号的解码比特数与传输通道的解码比特数的初始比值得到。

第三方面，本申请实施例还提供一种三维音频信号的处理装置，包括：线性分析模块，用于对三维音频信号进行线性分解，以得到线性分解结果；参数生成模块，用于根据所述线性分解结果获取所述当前帧对应的声场分类参数；声场分类模块，用于根据所述声场分类参数确定所述当前帧的声场分类结果。

在本申请的第三方面中，三维音频信号的处理装置的组成模块还可以执行前述第一方面以及各种可能的实现方式中所描述的步骤，详见前述对第一方面以及各种可能的实现方式中的说明。

第四方面，本申请实施例还提供一种三维音频信号的处理装置，包括：接收模块，用于接收码流；解码模块，用于解码所述码流以获得当前帧的声场分类结果；信号生成模块，用于根据所述声场分类结果获得所述当前帧解码后的三维音频信号。

在本申请的第四方面中，三维音频信号的处理装置的组成模块还可以执行前述第二方面以及各种可能的实现方式中所描述的步骤，详见前述对第二方面以及各种可能的实现方式中的说明。

在一种可能的实现方式中，所述虚拟扬声器信号的编码比特数满足如下关系：

其中，所述core_numbit为虚拟扬声器信号的编码比特数，所述fac1为虚拟扬声器信号的编码比特分配的加权因子，所述fac2为残差信号的编码比特分配的加权因子，所述round表示向下取整，所述F为所述虚拟扬声器信号的通道数，所述R表示残差信号的通道数，所述numbit为虚拟扬声器信号的编码比特数和残差信号的编码比特数之和；所述残差信号的编码比特数满足如下关系：

res_numbit＝numbit-core_numbit。

其中，所述res_numbit为残差信号的编码比特数，所述core_numbit为虚拟扬声器信号的编码比特数，所述numbit为虚拟扬声器信号的编码比特数和残差信号的编码比特数之和。

在一种可能的实现方式中，所述fac1＞fac2。

在一种可能的实现方式中，所述残差信号的编码比特数满足如下关系：

其中，所述res_numbit为残差信号的编码比特数，所述fac1为虚拟扬声器信号的编码比特分配的加权因子，所述fac2为残差信号的编码比特分配的加权因子，所述round表示向下取整，所述F为所述虚拟扬声器信号的通道数，所述R表示残差信号的通道数，所述numbit为虚拟扬声器信号的编码比特数和残差信号的编码比特数之和；

所述虚拟扬声器信号的编码比特数满足如下关系：

core_numbit＝numbit-res_numbit；

其中，所述core_numbit为虚拟扬声器信号的编码比特数，所述res_numbit为残差信号的编码比特数，所述numbit为虚拟扬声器信号的编码比特数和残差信号的编码比特数之和。

在一种可能的实现方式中，每个虚拟扬声器信号的编码比特数满足如下关系：

其中，所述core_ch_numbit为每个虚拟扬声器信号的编码比特数，所述fac1为虚拟扬声器信号的编码比特分配的加权因子，所述fac2为残差信号的编码比特分配的加权因子，所述round表示向下取整，所述F为所述虚拟扬声器信号的通道数，所述R表示残差信号的通道数，所述numbit为虚拟扬声器信号的编码比特数和残差信号的编码比特数之和；

每个残差信号的编码比特数满足如下关系：

其中，所述res_numbit为每个残差信号的编码比特数，所述fac1为虚拟扬声器信号的编码比特分配的加权因子，所述fac2为残差信号的编码比特分配的加权因子，所述round表示向下取整，所述F为所述虚拟扬声器信号的通道数，所述R表示残差信号的通道数，所述numbit为虚拟扬声器信号的编码比特数和残差信号的编码比特数之和。

第五方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面或第二方面所述的方法。

第六方面，本申请实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面或第二方面所述的方法。

第七方面，本申请实施例提供了一种计算机可读存储介质，包括如前述第一方面所述的方法所生成的码流。

第八方面，本申请实施例提供一种通信装置，该通信装置可以包括终端设备或者芯片等实体，所述通信装置包括：处理器、存储器；所述存储器用于存储指令；所述处理器用于执行所述存储器中的所述指令，使得所述通信装置执行如前述第一方面或第二方面中任一项所述的方法。

第九方面，本申请提供了一种芯片系统，该芯片系统包括处理器，用于支持音频编码器或者音频解码器实现上述方面中所涉及的功能，例如，发送或处理上述方法中所涉及的数据和/或信息。在一种可能的设计中，所述芯片系统还包括存储器，所述存储器，用于保存音频编码器或者音频解码器必要的程序指令和数据。该芯片系统，可以由芯片构成，也可以包括芯片和其他分立器件。

从以上技术方案可以看出，本申请实施例具有以下优点：

在本申请实施例中，首先对三维音频信号的当前帧进行线性分解，以得到线性分解结果；然后根据线性分解结果获取当前帧对应的声场分类参数；最后根据声场分类参数确定当前帧的声场分类结果。由于本申请实施例中通过对三维音频信号的当前帧进行线性分解，获得了当前帧的线性分解结果，再通过该线性分解结果获取到当前帧对应的声场分类参数，因此通过该声场分类参数确定出了当前帧的声场分类结果，通过该声场分类结果可对当前帧实现声场分类。本申请实施例对三维音频信号的声场分类，从而可以准确识别三维音频信号。

附图说明

图1为本申请实施例提供的音频处理系统的组成结构示意图；

图2a为本申请实施例提供的音频编码器和音频解码器应用于终端设备的示意图；

图2b为本申请实施例提供的音频编码器应用于无线设备或者核心网设备的示意图；

图2c为本申请实施例提供的音频解码器应用于无线设备或者核心网设备的示意图；

图3a为本申请实施例提供的多声道编码器和多声道解码器应用于终端设备的示意图；

图3b为本申请实施例提供的多声道编码器应用于无线设备或者核心网设备的示意图；

图3c为本申请实施例提供的多声道解码器应用于无线设备或者核心网设备的示意图；

图4为本申请实施例提供的一种三维音频信号的处理方法的示意图；

图5为本申请实施例提供的一种三维音频信号的处理方法的示意图；

图6为本申请实施例提供的一种三维音频信号的处理方法的示意图；

图7为本申请实施例提供的一种三维音频信号的处理方法的示意图；

图8为本申请实施例提供的一种混合型HOA编码器的编码流程示意图；

图9为本申请实施例提供的一种确定HOA信号的编码模式的流程示意图；

图10为本申请实施例提供的一种混合型HOA解码器的解码流程示意图；

图11为本申请实施例提供的一种基于MP的HOA编码器的编码流程示意图；

图12为本申请实施例提供的一种音频编码装置的组成结构示意图；

图13为本申请实施例提供的一种音频解码装置的组成结构示意图；

图14为本申请实施例提供的另一种音频编码装置的组成结构示意图；

图15为本申请实施例提供的另一种音频解码装置的组成结构示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

声音(sound)是由物体振动产生的一种连续的波。产生振动而发出声波的物体称为声源。声波通过介质(如：空气、固体或液体)传播的过程中，人或动物的听觉器官能感知到声音。

声波的特征包括音调、音强和音色。音调表示声音的高低。音强表示声音的大小。音强也可以称为响度或音量。音强的单位是分贝(decibel，dB)。音色又称为音品。

声波的频率决定了音调的高低。频率越高音调越高。物体在一秒钟之内振动的次数称为频率，频率单位是赫兹(hertz，Hz)。人耳能识别的声音的频率在20Hz至20000Hz之间。

声波的幅度决定了音强的强弱。幅度越大音强越大。距离声源越近，音强越大。

声波的波形决定了音色。声波的波形包括方波、锯齿波、正弦波和脉冲波等。

根据声波的特征，声音可以分为规则声音和无规则声音。无规则声音是指声源无规则地振动发出的声音。无规则声音例如是影响人们工作、学习和休息等的噪声。规则声音是指声源规则地振动发出的声音。规则声音包括语音和乐音。声音用电表示时，规则声音是一种在时频域上连续变化的模拟信号。该模拟信号可以称为音频信号(acoustic signals)。音频信号是一种携带语音、音乐和音效的信息载体。

由于人的听觉具有辨别空间中声源的位置分布的能力，则听音者听到空间中的声音时，除了能感受到声音的音调、音强和音色外，还能感受到声音的方位。

随着人们对听觉系统体验的关注和品质要求与日俱增，为了增强声音的纵深感、临场感和空间感，则三维音频技术应运而生。从而听音者不仅感受到来自前、后、左和右的声源发出的声音，而且感受到自己所处空间被这些声源产生的空间声场(简称“声场”(sound field))所包围的感觉，以及声音向四周扩散的感觉，营造出一种使听音者置身于影院或音乐厅等场所的“身临其境”的音响效果。

三维音频技术是指将人耳以外的空间假设为一个系统，耳膜处接收到的信号为声源发出的声音经过耳朵以外系统滤波输出的三维音频信号。例如，人耳以外的系统可以定义为系统冲击响应h(n)，任意一个声源可以定义为x(n)，耳膜处接收到的信号为x(n)和h(n)的卷积结果。本申请实施例所述的三维音频信号可以是指高阶立体混响(higher order ambisonics，HOA)信号或者一阶立体混响(first order ambisonics，FOA)信号。三维音频也可以称为三维音效、空间音频、三维声场重建、虚拟3D音频或双耳音频等。

声波在理想介质中传播，波数为k＝w/c，角频率为w＝2πf，其中，f为声波频率，c为声速。声压p满足公式(1)，

为拉普拉斯算子。

假设人耳以外的空间系统是一个球形，听音者处于球的中心，从球外传来的声音在球面上有一个投影，过滤掉球面以外的声音，假设声源分布在这个球面上，用球面上的声源产生的声场来拟合原始声源产生的声场，即三维音频技术就是一个拟合声场的方法。具体地，在球坐标系下求解公式(1)等式方程，在无源球形区域内，该公式(1)方程解为如下公式(2)。

其中，r表示球半径，θ表示水平角，

表示仰角，k表示波数，s表示理想平面波的幅度，m表示三维音频信号的阶数序号(或称为HOA信号的阶数序号)。

表示球贝塞尔函数，球贝塞尔函数又称为径向基函数，其中，第一个j表示虚数单位，

不随角度变化。

表示θ，

方向的球谐函数，

表示声源方向的球谐函数。三维音频信号系数满足公式(3)。

将公式(3)代入公式(2)，公式(2)可以变形为公式(4)。

其中，

表示N阶的三维音频信号系数，用于近似描述声场。声场是指介质中有声波存在的区域。N为大于或等于1的整数。比如，N的取值范围为2至6的整数。本申请的实施例所述的三维音频信号的系数可以是指HOA系数或环境立体声(ambisonic)系数。

三维音频信号是一种携带声场中声源的空间位置信息的信息载体，描述了空间中听音者的声场。公式(4)表明声场可以在球面上按球谐函数展开，即声场可以分解为多个平面波的叠加。因此，可以将三维音频信号描述的声场使用多个平面波的叠加来表达，并通过三维音频信号系数重建声场。

相对5.1声道的音频信号或7.1声道的音频信号，由于N阶的HOA信号有(N+1) ²个声道，则HOA信号包括用于描述声场的空间信息的数据量较多。若采集设备(比如：麦克风)将该三维音频信号传输到回放设备(比如：扬声器)，需要消耗较大的带宽。目前，编码器可以利用空间压缩环绕音频编码(spatial squeezed surround audio coding，S3AC)方法或方向音频编码(directional audio coding，DirAC)方法或者基于虚拟扬声器选择的编码方法对三维音频信号进行压缩编码得到码流，向回放设备传输码流，其中，基于虚拟扬声器选择的编码方法也可以称为匹配投影(matchPRojection，MP)编码方法，后续以虚拟扬声器选择的编码方法进行示例说明。回放设备对码流进行解码，并重建三维音频信号，播放重建后三维音频信号。从而降低向回放设备传输三维音频信号的数据量，以及带宽的占用。

针对上述的三维音频信号，目前无法对三维音频信号的声场进行分类，如何对三维音频信号进行声场分类，是本申请实施例所要解决的一个技术问题。本申请实施例中通过三维音频信号的线性分解可以实现对三维音频信号的声场分类，从而可以准确实现对三维音频信号的声场分类，达到能够获取当前帧的声场分类结果的目的。

另外，目前的编码器对三维音频信号进行压缩编码时，存在无法获得较高的压缩比的问题。因此，如何提高对不同声场的三维音频信号进行压缩编码的压缩比也是本申请实施例解决的另一个问题。

本申请实施例提供一种音频编码技术，尤其是提供一种面向三维音频信号的三维音频编码技术，具体提供一种采用较少的声道表示三维音频信号的编码技术，以改进传统的音频编码系统。音频编码(或通常称为编码)包括音频编码和音频解码两部分。音频编码在源侧执行，包括处理(例如，压缩)原始音频以减少表示该音频所需的数据量，从而更高效地存储和/或传输。音频解码在目的侧执行，包括相对于编码器作逆处理，以重建原始音频。编码部分和解码部分也合称为编码。下面将结合附图对本申请实施例的实施方式进行详细描述。

本申请实施例的技术方案可以应用于各种的音频处理系统，如图1所示，为本申请实施例提供的音频处理系统的组成结构示意图。音频处理系统100可以包括：音频编码装置101和音频解码装置102。其中，音频编码装置101可用于生成码流，然后该音频编码码流可以通过音频传输通道传输给音频解码装置102，音频解码装置102可以接收到码流，然后执行音频解码装置102的音频解码功能，最后得到重建后的信号。

在本申请的实施例中，该音频编码装置可以应用于各种有音频通信需要的终端设备、有转码需要的无线设备与核心网设备，例如音频编码装置可以是上述终端设备或者无线设备或者核心网设备的音频编码器。同样的，该音频解码装置可以应用于各种有音频通信需要的终端设备、有转码需要的无线设备与核心网设备，例如音频解码装置可以是上述终端设备或者无线设备或者核心网设备的音频解码器。例如，音频编码器可以包括无线接入网、核心网的媒体网关、转码设备、媒体资源服务器、移动终端、固网终端等，音频编码器还可以是应用于虚拟现实技术(virtual reality，VR)流媒体(streaming)服务中的音频编码器。

在申请实施例中，以适用于虚拟现实流媒体(VR streaming)服务中的音频编码模块(audio encoding及audio decoding)为例，端到端对音频信号的处理流程包括：音频信号A经过采集模块(acquisition)后进行预处理操作(audioPReprocessing)，预处理操作包括滤除掉信号中的低频部分，可以是以20Hz或者50Hz为分界点，提取信号中的方位信息，之后进行编码处理(audio encoding)打包(file/segment encapsulation)之后发送(delivery)到解码端，解码端首先进行解包(file/segment decapsulation)，之后解码(audio decoding)，对解码信号进行双耳渲染(audio rendering)处理，渲染处理后的信号映射到收听者耳机(headphones)上，可以为独立的耳机也可以是眼镜设备上的耳机。

如图2a所示，为本申请实施例提供的音频编码器和音频解码器应用于终端设备的示意图。对于每个终端设备都可以包括：音频编码器、信道编码器、音频解码器、信道解码器。具体的，信道编码器用于对音频信号进行信道编码，信道解码器用于对音频信号进行信道解码。例如，在第一终端设备20中可以包括：第一音频编码器201、第一信道编码器202、第一音频解码器203、第一信道解码器204。在第二终端设备21中可以包括：第二音频解码器211、第二信道解码器212、第二音频编码器213、第二信道编码器214。第一终端设备20连接无线或者有线的第一网络通信设备22，第一网络通信设备22和无线或者有线的第二网络通信设备23之间通过数字信道连接，第二终端设备21连接无线或者有线的第二网络通信设备23。其中，上述无线或者有线的网络通信设备可以泛指信号传输设备，例如通信基站，数据交换设备等。

在音频通信中，作为发送端的终端设备首先进行音频采集，对采集到的音频信号进行音频编码，再进行信道编码后，通过无线网络或者核心网进行在数字信道中传输。而作为接收端的终端设备根据接收到的信号进行信道解码，以得到码流，然后经过音频解码恢复出音频信号，由接收端的终端设备进音频回放。

如图2b所示，为本申请实施例提供的音频编码器应用于无线设备或者核心网设备的示意图。其中，无线设备或者核心网设备25包括：信道解码器251、其他音频解码器252、本申请实施例提供的音频编码器253、信道编码器254，其中，其他音频解码器252是指除音频解码器以外的其他音频解码器。在无线设备或者核心网设备25内，首先通过信道解码器251对进入该设备的信号进行信道解码，然后使用其他音频解码器252进行音频解码，然后使用本申请实施例提供的音频编码器253进行音频编码，最后使用信道编码器254对音频信号进行信道编码，完成信道编码之后再传输出去。其中，其他音频解码器252是对信道解码器251解码后的码流进行音频解码。

如图2c所示，为本申请实施例提供的音频解码器应用于无线设备或者核心网设备的示意图。其中，无线设备或者核心网设备25包括：信道解码器251、本申请实施例提供的音频解码器255、其他音频编码器256、信道编码器254，其中，其他音频编码器256是指除音频编码器以外的其他音频编码器。在无线设备或者核心网设备25内，首先通过信道解码器251对进入该设备的信号进行信道解码，然后使用音频解码器255对接收到的音频编码码流进行解码，然后使用其他音频编码器256进行音频编码，最后使用信道编码器254对音频信号进行信道编码，完成信道编码之后再传输出去。在无线设备或者核心网设备中，如果需要实现转码，则需要进行相应的音频编码处理。其中，无线设备指的是通信中的射频相关的设备，核心网设备指的是通信中核心网相关的设备。

在本申请的一些实施例中，该音频编码装置可以应用于各种有音频通信需要的终端设备、有转码需要的无线设备与核心网设备，例如音频编码装置可以是上述终端设备或者无线设备或者核心网设备的多声道编码器。同样的，该音频解码装置可以应用于各种有音频通信需要的终端设备、有转码需要的无线设备与核心网设备，例如音频解码装置可以是上述终端设备或者无线设备或者核心网设备的多声道解码器。

如图3a所示，为本申请实施例提供的多声道编码器和多声道解码器应用于终端设备的示意图，对于每个终端设备都可以包括：多声道编码器、信道编码器、多声道解码器、信道解码器。该多声道编码器可以执行本申请实施例提供的音频编码方法，该多声道解码器可以执行本申请实施例提供的音频解码方法。具体的，信道编码器用于对多声道信号进行信道编码，信道解码器用于对多声道信号进行信道解码。例如，在第一终端设备30中可以包括：第一多声道编码器301、第一信道编码器302、第一多声道解码器303、第一信道解码器304。在第二终端设备31中可以包括：第二多声道解码器311、第二信道解码器312、第二多声道编码器313、第二信道编码器314。第一终端设备30连接无线或者有线的第一网络通信设备32，第一网络通信设备32和无线或者有线的第二网络通信设备33之间通过数字信道连接，第二终端设备31连接无线或者有线的第二网络通信设备33。其中，上述无线或者有线的网络通信设备可以泛指信号传输设备，例如通信基站，数据交换设备等。音频通信中作为发送端的终端设备对采集到的多声道信号进行多声道编码，再进行信道编码后，通过无线网络或者核心网进行在数字信道中传输。而作为接收端的终端设备根据接收到的信号，进行信道解码，以得到多声道信号编码码流，然后经过多声道解码恢复出多声道信号，由作为接收端的终端设备进回放。

如图3b所示，为本申请实施例提供的多声道编码器应用于无线设备或者核心网设备的示意图，其中，无线设备或者核心网设备35包括：信道解码器351、其他音频解码器352、多声道编码器353、信道编码器354，与前述图2b类似，此处不再赘述。

如图3c所示，为本申请实施例提供的多声道解码器应用于无线设备或者核心网设备的示意图，其中，无线设备或者核心网设备35包括：信道解码器351、多声道解码器355、其他音频编码器356、信道编码器354，与前述图2c类似，此处不再赘述。

其中，音频编码处理可以是多声道编码器中的一部分，音频解码处理可以是多声道解码器中的一部分，例如，对采集到的多声道信号进行多声道编码可以是将采集到的多声道信号经过处理后得到音频信号，再按照本申请实施例提供的方法对得到的音频信号进行编码；解码端根据多声道信号编码码流，解码得到音频信号，经过上混处理后恢复出多声道信号。因此，本申请实施例也可应用于终端设备、无线设备、核心网设备中的多声道编码器和多声道解码器。在无线或者核心网设备中，如果需要实现转码，则需要进行相应的多声道编码处理。

首先介绍本申请实施例提供的一种三维音频信号的处理方法，该方法可以由终端设备执行，例如该终端设备可以是一种音频编码装置(如下简称编码端或者编码器)。不限定的是，该终端设备还可以是一种三维音频信号的处理装置。如图4所示，三维音频信号的处理方法主要包括如下：

401、对三维音频信号的当前帧进行线性分解，以得到线性分解结果。

其中，编码端可以获取三维音频信号，例如该三维音频信号可以是场景音频信号。具体的，该三维音频信号可以是时域信号，或者频域信号。另外，该三维音频信号还可以是经过下采样的信号。

在本申请的一些实施例中，三维音频信号包括：高阶立体混响HOA信号，或者一阶立体混响FOA信号。不限定的是，三维音频信号还可以是其它类型的信号，此处只是本申请的一种举例，不作为对本申请实施例的限定。

例如，三维音频信号可以是时域HOA信号，也可以是频域HOA信号。又如，三维音频信号可以包含HOA信号的所有通道，也可以包含部分HOA通道(例如FOA通道)。另外，三维音频信号可以是HOA信号的全部样点，也可以是待分析HOA信号下采样后的1/Q个下采样点。其中，Q是下采样间隔，1/Q是下采样率。

本申请实施例中，三维音频信号中包括多个帧，接下来以对三维音频信号中的一个帧的处理为例，例如该帧为当前帧，则在三维音频信号中在当前帧之前还存在前一帧，在当前帧之后还存在后一帧。另外，本申请实施例中三维音频信号的除当前帧之外的其它帧的处理方法，与当前帧的处理方法相类似，后续以当前帧的处理为例。

本申请实施例中，在获取到三维音频信号的当前帧之后，先对该当前帧进行线性分解，通过线性分解可以得到当前帧的线性分解结果。线性分解的方式有多种，接下来进行详细说明。

本申请的一些实施例中，步骤401对三维音频信号的当前帧进行线性分解，以得到线性分解结果，包括：

A1、对当前帧进行奇异值分解，以得到当前帧对应的奇异值，其中，线性分解结果包括：奇异值；

或者，

A2、对当前帧进行主成分分析，以得到当前帧对应的第一特征值，其中，线性分解结果包括：第一特征值；

或者，

A3、对当前帧进行独立成分分析，以得到当前帧对应的第二特征值，其中，线性分解结果包括：第二特征值。

其中，线性分解的方式有多种，例如线性分解可以包括如下至少一种：奇异值分解(singular value decomposition，SVD)、主成分分析(principal component analysis，PCA)、独立成分分析(independent component analysis，ICA)。在不同的线性分解方式下，得到的线性分解结果具有不同的表述方式，接下来进行详细说明。

在步骤A1中，线性分解可以是奇异值分解。例如，假设三维音频信号为HOA信号，由HOA信号构成矩阵A，矩阵A是一个L*K的矩阵，L等于HOA信号的通道数，K为当前帧的每个通道HOA信号的信号点数。例如该信号点数可以包括：频点数量，或者时域的样点数量，或者下采样后的频点数量或样点数量。对矩阵A进行奇异值分解，满足如下关系：

A＝UΣV ^T。

其中，U是一个L*L的矩阵，V是一个K*K的矩阵，角标T为矩阵V的转置，*表示相乘。Σ是一个L*K的对角矩阵，其主对角线上的每个元素为奇异值分解获得的矩阵A的奇异值，主对角线之外的元素皆为0。对角矩阵Σ主对角线上的元素，即矩阵A的奇异值，记作v[i]，i＝0，1，…，min(L，K)-1。

需要说明的是，如果三维音频信号为经过下采样处理后HOA信号，则K为当前帧的每个通道HOA信号下采样后的信号点数，例如该信号点数可以是样点数，或者频点数。

在步骤A2中，线性分解也可以是主成分分析，得到特征值，为区分于后续实施例中的其它特征值，将通过主成分分析得到的特征值定义为第一特征值。对于主成分分析的具体实现方式，此处不再赘述。

在步骤A3中，线性分解还可以是独立成分分析，得到第二特征值。对于独立成分分析的具体实现方式，此处不再赘述。

本申请实施例中通过上述A1至A3中的任一种实现方式，都可以实现对当前帧的线性分解，从而可以获取到多种类型的线性分解结果。

402、根据线性分解结果获取当前帧对应的声场分类参数。

编码端在获取到当前帧的线性分析结果之后，编码端对该线性分解结果进行分析，从而可以得到当前帧对应的声场分类参数，该声场分类参数通过对当前帧的线性分解结果进行分析得到，该声场分类参数是用于确定当前帧的声场分类结果。根据该线性分解结果的具体实现方式的不同，该声场分类参数可以有多种实现方式。

在本申请实施例中，线性分解结果可以为一个或多个，例如线性分解结果包括奇异值，奇异值v[i]，i＝0，1，…，min(L，K)-1。当当前帧的奇异值只有一个时，i的取值只有一个，即v[0]，当当前帧的奇异值有多个时，i的取值有多个，即v[i]，i＝1，…，min(L，K)-1。

本申请实施例中，当线性分解结果为两个时，得到的声场分类参数为一个。当线性分解结果为N个时，得到的声场分类参数为N-1个，N的取值不做限定。

在本申请的一些实施例中，步骤402根据线性分解结果获取当前帧对应的声场分类参数，包括：

B1、获取当前帧的第i个线性分析结果与当前帧的第i+1个线性分析结果的比值，i为正整数；

B2、根据比值获取当前帧对应的第i个声场分类参数。

其中，编码端可以根据线性分解结果计算得到当前帧对应的声场分类参数。例如当前帧的线性分解结果为多个，多个线性分析结果中连续两个线性分析结果表示为第i个线性分析结果与当前帧的第i+1个线性分析结果，则可以计算出当前帧的第i个线性分析结果与当前帧的第i+1个线性分析结果的比值，对于i的具体取值不做限定。

可选的，第i个线性分析结果和第i+1个线性分析结果是当前帧的连续两个线性分析结果。

在获取到上述比值之后，使用该第i个线性分析结果与当前帧的第i+1个线性分析结果的比值可以获取到当前帧对应的第i个声场分类参数。由此说明可知，第i个线性分析结果与第i+1个线性分析结果的比值可计算出第i个声场分类参数，则第i+1个线性分析结果与第i+2个线性分析结果的比值可计算出第i+1个声场分类参数，以此类推。线性分析结果与声场分类参数之间具有对应关系。

一种可实现的方式是，第i个线性分析结果与第i+1个线性分析结果的比值就可以作为第i个声场分类参数。不限定的是，在获取到第i个线性分析结果与第i+1个线性分析结果的比值之后，还可以对该比值进行多种计算，从而可计算出第i个声场分类参数，例如对该比值按照预设的调整因子进行相乘运算，以此可以得到第i个声场分类参数。

举例说明如下，若线性分解采用奇异值分解，则声场分类参数可根据奇异值分解得到奇异值，计算相邻的两个奇异值之间的比值参数，作为声场分类参数。

例如，计算奇异值之间的比值temp[i]，作为声场分类参数。对于i＝0，1，…，min(L，K)-2，temp[i]满足：

temp[i]＝v[i]/v[i+1]。

若线性分解采用PCA或ICA，则声场分类参数可以根据特征值确定。声场分类参数计算方法与上述奇异值之间比值temp的计算方法类似，也可以是根据线性分解得到的特征值，计算连续两个特征值之间的比值作为声场分类参数。

需要说明的是，若线性分解获得的特征值或奇异值的数量大于2，则声场分类参数为矢量；否则，声场分类参数为标量。举例说明如下，对于v[i]，如果i的取值等于2，那么计算出的temp[i]是标量，即只有一个temp值；对于v[i]，如果i的取值大于2，那么算出的temp[i]是矢量，temp中有至少两个元素。

403、根据声场分类参数确定当前帧的声场分类结果。

在本申请实施例中，编码端在获取到当前帧对应的声场分类参数之后，编码端根据该声场分类参数可以对当前帧进行声场分类，由于当前帧对应的声场分类参数可以指示该当前帧对应的声场进行分类时所需要的参数，因此基于该声场分类参数可以得到当前帧的声场分类结果。

在本申请的一些实施例中，声场分类结果可以包括如下至少一种：声场类型、相异性声源数量。

其中，声场类型是指对当前帧进行声场分类后确定的当前帧的声场的类型，声场类型的划分方式有多种，例如声场类型可以划分为第一声场类型、第二声场类型，或者声场类型可以划分为第一声场类型、第二声场类型、第三声场类型等。具体可以基于应用场景确定声场可以被划分为多少种的类型。又如，声场类型可以包括相异性声场和弥散性声场。相异性声场是指声场中存在位置和/或方向不同的点声源，弥散性声场是指不包含相异性声源的声场。例如，位置和/方向不相同的点声源是相异性声源，含有相异性声源的声场为相异性声场，不含相异性声源的声场为弥散性声场。

其中，相异性声源是位置和/方向不相同的点声源，当前帧中包括的相异性声源的数量被称为相异性声源数量。通过相异性声源数量也可以对当前帧的声场进行分类。

在本申请的一些实施例中，声场分类参数为多个；声场分类结果包括：声场类型；

步骤403根据声场分类参数确定当前帧的声场分类结果，包括：

当多个声场分类参数的值都满足预设的弥散性声源判决条件时，确定声场类型为弥散性声场；

或者，

当多个声场分类参数的值中至少一个值满足预设的相异性声源判决条件时，确定声场类型为相异性声场。

其中，声场类型可以包括相异性声场和弥散性声场，本申请实施例中预设弥散性声源判决条件和相异性声源判决条件，弥散性声源判决条件用于判断声场类型是否为弥散性声场，相异性声源判决条件用于判断声场类型是否为相异性声场。在获取到当前帧的多个声场分类参数之后，根据多个声场分类参数的值与预设的上述条件进行判断，对于弥散性声源判决条件和相异性声源判决条件的具体实现方式，此处不做限定。

编码端获取到多个声场分类参数之后，当多个声场分类参数的值都满足预设的弥散性声源判决条件时，确定声场类型为弥散性声场。例如当前帧对应有N个声场分类参数，则只有这N个声场分类参数的值都满足预设的弥散性声源判决条件时，确定该当前帧的声场类型为弥散性声场。

编码端获取到多个声场分类参数之后，当多个声场分类参数的值中至少一个值满足预设的相异性声源判决条件时，确定声场类型为相异性声场。例如当前帧对应有N个声场分类参数，则只要这N个声场分类参数中至少一个值满足预设的相异性声源判决条件时，确定声场类型为相异性声场。

进一步的，在本申请的一些实施例中，弥散性声源判决条件包括：声场分类参数的值小于预设的相异性声源判定阈值；

或者，

相异性声源判决条件包括：声场分类参数的值大于或者等于预设的相异性声源判定阈值。

其中，相异性声源判定阈值可以是预先设定的阈值，具体取值不做限定。弥散性声源判决条件包括：声场分类参数的值小于预设的相异性声源判定阈值，因此在多个声场分类参数的值都小于预设的相异性声源判定阈值时，确定声场类型为弥散性声场。相异性声源判决条件包括：声场分类参数的值大于或者等于预设的相异性声源判定阈值，因此多个声场分类参数的值中至少一个值大于或者等于预设的相异性声源判定阈值时，确定声场类型为相异性声场。

在本申请的一些实施例中，声场分类参数为多个；

声场分类结果包括：声场类型；或者，声场分类结果包括：相异性声源数量和声场类型；

C1、根据多个声场分类参数的值获取当前帧对应的相异性声源数量；

C2、根据当前帧对应的相异性声源数量确定声场类型。

其中，编码端获取到当前帧对应的多个生成分类参数之后，编码端可以通过多个声场分类参数的值获取当前帧对应的相异性声源数量，相异性声源是位置和/方向不相同的点声源，当前帧中包括的相异性声源的数量被称为相异性声源数量。通过相异性声源数量可以对当前帧的声场进行分类。在获取到当前帧对应的相异性声源数量确定声场类型之后，通过对当前帧对应的相异性声源数量进行分析，可以确定出该当前帧对应的声场类型。

在本申请的一些实施例中，声场分类参数为多个；

声场分类结果包括：相异性声源数量；

D1、根据多个声场分类参数的值获取当前帧对应的相异性声源数量。

其中，编码端获取到当前帧对应的多个生成分类参数之后，编码端可以通过多个声场分类参数的值获取当前帧对应的相异性声源数量，相异性声源是位置和/方向不相同的点声源，当前帧中包括的相异性声源的数量被称为相异性声源数量。

进一步的，在本申请的一些实施例中，多个声场分类参数为temp[i]，i＝0，1，…，min(L，K)-2，L表示当前帧的通道数量，K为当前帧的每个通道对应的信号点数，min表示取最小值运算；例如，该信号点数可以是频点数量，也可以是时域样点数量，或者下采样后的频点数量或时域样点数量。

前述的步骤C1或D1根据多个声场分类参数的值获取当前帧对应的相异性声源数量，包括：

从i＝0开始依次执行如下判断流程：

判断temp[i]是否大于预设的相异性声源判定阈值；

当本次判断流程中temp[i]小于相异性声源判定阈值时，更新i的取值为i+1，继续执行下次判断流程；或者，

当本次判断流程中temp[i]大于或等于相异性声源判定阈值时，终止执行判断流程，确定本次判断流程的i加上1等于相异性声源数量。

具体的，编码端根据声场分类参数，可以估计相异性声源数量，并确定声场类型。

声场类型可以包括相异性声场和弥散性声场。相异性声场是指声场中存在位置和/或方向不同的点声源。弥散性声场是指不包含相异性声源的声场。

若声场分类参数的值均满足弥散性声场判决条件，则声场类型为弥散性声场。

若声场分类参数的值中存在满足相异性声场判决条件的值，则声场类型为相异性声场。可以根据声场分类参数的值中满足相异性声场判决条件的值的序号来估计的相异性声源数量。

例如，当采用奇异值之间的比值temp[i]，作为声场分类参数。根据声场分类参数，估计声场类型和相异性声源数量，从i＝0开始依次判断temp[i]的值，当i的取值为m时，第m个声场分类参数的值表示为temp[m]，当第m个声场分类参数满足temp[m]≥TH1时，此时声场类型为相异性声场且当前帧的声场中存在(m+1)个相异性声源；若不存在temp[m]≥TH1，此时声场类型为弥散性声场；其中，m的取值范围为[0，1，…，min(L，K)-2]，TH1为预先设定的相异性声源判定阈值，TH1的取值可以是常数，例如TH1的取值可以是30或者100，本申请实施例中对于TH1的取值不做限定。

在本申请的一些实施例中，前述步骤C2根据当前帧对应的相异性声源数量确定声场类型，包括：

当相异性声源数量满足第一预设条件时，确定声场类型为第一声场类型；

当相异性声源数量不满足第一预设条件时，确定声场类型为第二声场类型；

其中，第一声场类型对应的相异性声源数量和第二声场类型对应的相异性声源数量不同。

具体的，可以按照相异性声源数量的不同将声场类型划分为两种类型：第一声场类型和第二声场类型。编码端获取第一预设条件，判断相异性声源数量是否满足第一预设条件，当相异性声源数量满足第一预设条件时，确定声场类型为第一声场类型；当相异性声源数量不满足第一预设条件时，确定声场类型为第二声场类型。本申请实施例中可以通过判断相异性声源数量是否满足第一预设条件，实现对当前帧的声场类型的划分，从而可以准确识别出当前帧的声场类型属于第一声场类型或者第二声场类型。

在本申请的一些实施例中，第一预设条件包括相异性声源数量大于第一阈值且小于第二阈值，其中，第二阈值大于第一阈值；

或者，

第一预设条件包括相异性声源数量不大于第一阈值或不小于第二阈值，其中，第二阈值大于第一阈值。

其中，第一阈值和第二阈值的具体取值不做限定，具体可以结合应用场景。第二阈值大于第一阈值，因此第一阈值和第二阈值可以构成一个预设范围，则第一预设条件可以是相异性声源数量处于该预设范围内，或者第一预设条件可以是相异性声源数量处于该预设范围之外。通过上述第一预设条件中的第一阈值和第二阈值，可以对相异性声源数量进行判断，以确定该相异性声源数量是否满足第一预设条件，从而可以准确识别出当前帧的声场类型属于第一声场类型或者第二声场类型。

举例说明如下，第一阈值为0，第二阈值为3，相异性声源数量表示为n，则第一预设条件可以是0<n<3，或者第一预设条件可以是n>＝3或n＝0。

在本申请的一些实施例中，根据声场分类参数确定当前帧的声场分类结果，还可以包括：根据声场分类参数和其他表征三维音频信号特征的参数确定当前帧的声场分类结果。

其中，其他表征三维音频信号特征的参数，具有多种实现方式，例如其他表征三维音频信号特征的参数可以包括如下至少一种：三维音频信号的能量比例参数、三维音频信号的高频和低频特征分析参数等。

如图5所示，本申请实施例提供的一种三维音频信号的处理方法主要包括如下：

501、对三维音频信号的当前帧进行线性分解，以得到线性分解结果。

502、根据线性分解结果获取当前帧对应的声场分类参数。

503、根据声场分类参数确定当前帧的声场分类结果。

其中，上述步骤501至步骤503的实现方式，与前述实施例中步骤401至步骤403的实现方式相类似，此处不再对501至503进行详细说明。

504、根据声场分类结果确定当前帧对应的编码模式。

其中，编码端可以执行前述步骤501至步骤503，编码端在获取到当前帧的声场分类结果之后，编码端可以根据该声场分类结果确定当前帧对应的编码模式。该编码模式是指对三维音频信号的当前帧进行编码时采用的模式，编码模式有多种，根据当前帧的声场分类结果的不同可以采用不同的编码模式。本申请实施例中针对当前帧的不同声场分类结果选择合适的编码模式，以使用该编码模式对当前帧进行编码，提升音频信号的压缩效率和听觉质量。

进一步的，在本申请的一些实施例中，步骤503根据声场分类结果确定当前帧对应的编码模式，包括：

E1、当声场分类结果包括相异性声源数量，或声场分类结果包括相异性声源数量和声场类型时，根据相异性声源数量确定当前帧对应的编码模式；

或者，

E2、当声场分类结果包括声场类型，或声场分类结果包括相异性声源数量和声场类型时，根据声场类型确定当前帧对应的编码模式；

或者，

E3、当声场分类结果包括相异性声源数量和声场类型时，根据相异性声源数量和声场类型确定当前帧对应的编码模式。

在上述步骤E1中，编码端获取到当前帧的相异性声源数量之后，相异性声源数量可用于确定当前帧对应的编码模式。在上述步骤E2中，编码端获取到当前帧的声场类型之后，声场类型可用于确定当前帧对应的编码模式。在上述步骤E3中，编码端获取到当前帧的相异性声源数量和声场类型之后，相异性声源数量和声场类型可用于确定当前帧对应的编码模式。因此，编码端可以通过相异性声源数量和/或声场类型确定当前帧对应的编码模式，从而编码端能够根据当前帧的声场分类结果确定相应的编码模式，使得所确定的编码模式能够与三维音频信号的当前帧相适配，从而可以提高编码效率。

进一步的，在本申请的一些实施例中，步骤E1根据相异性声源数量确定当前帧对应的编码模式包括：

当相异性声源数量满足第二预设条件时，确定编码模式为第一编码模式；

当相异性声源数量不满足第二预设条件时，确定编码模式为第二编码模式；

其中，第一编码模式为基于虚拟扬声器选择的HOA编码模式或基于方向音频编码的HOA编码模式，第二编码模式为基于虚拟扬声器选择的HOA编码模式或基于方向音频编码的HOA 编码模式，且第一编码模式和第二编码模式为不同的编码模式。基于虚拟扬声器选择的HOA编码模式也可以称为基于匹配投影(matchPRojection，MP)的HOA编码模式。

具体的，可以按照相异性声源数量的不同将编码模式划分为两种类型：第一编码模式和第二编码模式。编码端获取第二预设条件，判断相异性声源数量是否满足第二预设条件，当相异性声源数量满足第二预设条件时，确定编码模式为第一编码模式；当相异性声源数量不满足第二预设条件时，确定编码模式为第二编码模式。本申请实施例中可以通过判断相异性声源数量是否满足第二预设条件，实现对当前帧的编码模式的划分，从而可以准确识别出当前帧的编码模式属于第一编码模式或者第二编码模式。

例如，第一编码模式为基于虚拟扬声器选择的HOA编码模式时，第二编码模式为基于方向音频编码的HOA编码模式。或者，第一编码模式为基于方向音频编码的HOA编码模式时，第二编码模式为基于虚拟扬声器选择的HOA编码模式，可以根据应用场景确定第一编码模式和第二编码模式的具体实现方式。

举例说明如下，本申请实施例中声场分类结果可以决定编码端选择的编码模式。例如，声场分类结果可以用于确定HOA信号的编码模式。例如，根据声场类型确定编码模式：属于相异性声场的HOA信号适合用编码模式A对应的编码器进行编码，属于弥散性声场的HOA信号适合用编码模式B对应的编码器进行编码。又例如，根据相异性声源数量确定编码模式：当相异性声源数量满足使用编码模式X的判决条件，用编码模式X对应的编码器进行编码。还例如，也根据声场类型和相异性声源数量确定编码模式：当声场类型为弥散性声场，用编码模式C对应的编码器进行编码；当声场类型为相异性声场且相异性声源数量满足使用编码模式X的判决条件，用编码模式X对应的编码器进行编码。编码模式A、编码模式B、编码模式C、编码模式X可以包含多种不同的编码模式，本申请实施例中不同的声场分类结果对应的编码模式不同，本申请实施例中不做限定。例如编码模式X可以是相异性声源数量小于预设阈值的时候为编码模式1，相异性声源数量大于等于预设阈值的时候为编码模式2。

在本申请的一些实施例中，第二预设条件包括相异性声源数量大于第一阈值且小于第二阈值，其中，第二阈值大于第一阈值；

或者，

第二预设条件包括相异性声源数量不大于第一阈值或不小于第二阈值，其中，第二阈值大于第一阈值。

其中，第一阈值和第二阈值的具体取值不做限定，具体可以结合应用场景。第二阈值大于第一阈值，因此第一阈值和第二阈值可以构成一个预设范围，则第二预设条件可以是相异性声源数量处于该预设范围内，或者第二预设条件可以是相异性声源数量处于该预设范围之外。通过上述第二预设条件中的第一阈值和第二阈值，可以对相异性声源数量进行判断，以确定该相异性声源数量是否满足第二预设条件，从而可以准确识别出当前帧的声场类型属于第一声场类型或者第二声场类型。

举例说明如下，第一阈值为0，第二阈值为3，相异性声源数量表示为n，则第二预设条件可以是0<n<3，或者第二预设条件可以是n>＝3或n＝0。

需要说明的是，本申请实施例中，第一预设条件是为识别不同的声场类型而设置的条件，第二预设条件是为了识别不同的编码模式而设置的条件，第一预设条件和第二预设条件可以包括相同的条件内容，也可以包括不同的条件内容。即第一预设条件和第二预设条件可以是有差别的预设条件，或者第一预设条件和第二预设条件可以是相同的预设条件。但是考虑到实际使用中可以有差别，第一预设条件和第二预设条件采用第一、第二进行区分。

在本申请的一些实施例中，步骤E2根据声场类型确定当前帧对应的编码模式，包括：

当声场类型为相异性声场时，确定编码模式为基于虚拟扬声器选择的HOA编码模式；

当声场类型为弥散性声场时，确定编码模式为基于方向音频编码的HOA编码模式。

其中，基于方向音频的HOA编码模式，对于声场中相异性声源较少的情况以及弥散性声场的情况，压缩效率不如基于虚拟扬声器选择的HOA编码模式。而在声场中相异性声源较多的情况下，基于虚拟扬声器选择的HOA编码模式压缩效率不如基于方向音频的HOA编码模式。本申请实施例中，当声场类型为相异性声场时，确定编码模式为基于虚拟扬声器选择的HOA编码模式，当声场类型为弥散性声场时，确定编码模式为基于方向音频编码的HOA编码模式，本申请实施例中可以根据当前帧的声场分类结果选择相应的编码模式，以满足不同类型的音频信号均获得最大压缩效率的需要。

在本申请的一些实施例中，前述步骤503根据声场分类结果确定当前帧对应的编码模式，包括：

F1、根据当前帧的声场分类结果确定当前帧对应的初始编码模式；

F2、获取当前帧所在的滑动窗(hangover)，滑动窗包括：当前帧的初始编码模式，以及当前帧之前的N-1帧的编码模式，N为滑动窗的长度；

F3、根据当前帧的初始编码模式和N-1帧的编码模式确定当前帧的编码模式。

其中，在步骤F1中，初始编码模式可以是根据声场分类结果确定的编码模式，例如根据前述步骤E1至E3中任意一种实现方式可以确定当前帧的编码模式，该编码模式可以作为F1中的初始编码模式。在获取到该初始编码模式之后，根据当前帧以及滑动窗的窗口大小获取到滑动窗，该滑动窗包括当前帧的初始编码模式，以及当前帧之前的N-1帧的编码模式，N表示滑动窗包括的帧的个数。最后根据滑动窗内N个帧分别对应的编码模式确定当前帧的编码模式，步骤F3中得到的当前帧的编码模式可以是对当前帧进行编码时所采用的编码模式。本申请实施例中通过滑动窗对当前帧的初始编码模式进行修正，以得到当前帧的编码模式，以保证连续帧之间的编码模式不会出现频繁切换，提高编码效率。

举例说明如下，在获取到当前帧的初始编码模式之后，可以对当前帧进行滑动窗处理，以保证连续帧之间的编码模式不会出现频繁切换。滑动窗处理方法有很多种，本申请实施例中不做限定。例如，一种处理方式可以是滑动窗内保存长度为N帧的编码器选择标识，N帧包括当前帧及之前N-1帧的编码器选择标识；当编码器选择标识累加到指定阈值时，更新当前帧编码类型指示标识。可选的，除了滑动窗处理，还可以采用其他后处理对当前帧进行修正处理。例如，将初始编码模式作为初始分类，根据音频信号的语音分类结果、信噪比等特征对初始分类进行修正，将修正后的结果作为编码模式最终结果。

如图6所示，本申请实施例提供的一种三维音频信号的处理方法主要包括如下：

601、对三维音频信号的当前帧进行线性分解，以得到线性分解结果。

602、根据线性分解结果获取当前帧对应的声场分类参数。

603、根据声场分类参数确定当前帧的声场分类结果。

其中，上述步骤601至步骤603的实现方式，与前述实施例中步骤401至步骤403的实现方式相类似，此处不再对601至603进行详细说明。

604、根据声场分类结果确定当前帧对应的编码参数。

其中，编码端可以执行前述步骤601至步骤603，编码端在获取到当前帧的声场分类结果之后，编码端可以根据该声场分类结果确定当前帧对应的编码参数。该编码参数是指对三维音频信号的当前帧进行编码时采用的参数，编码参数有多种，根据当前帧的声场分类结果的不同可以采用不同的编码参数。本申请实施例中针对当前帧的不同声场分类结果选择合适的编码参数，以使用该编码参数对当前帧进行编码，提升音频信号的压缩效率和听觉质量。

进一步的，在本申请的一些实施例中，编码参数，包括如下至少一种：虚拟扬声器信号的通道数、残差信号的通道数、虚拟扬声器信号的编码比特数、残差信号的编码比特数、或最佳匹配扬声器搜索的投票轮次数；

其中，虚拟扬声器信号和残差信号是根据三维音频信号生成的信号。

具体的，编码端通过当前帧的声场分类结果可以确定当前帧的编码参数，从而可以使用该编码参数对当前帧进行编码。编码参数具有多种实现方式，例如编码参数，包括如下至少一种：虚拟扬声器信号的通道数、残差信号的通道数、虚拟扬声器信号的编码比特数、残差信号的编码比特数、或最佳匹配扬声器搜索的投票轮次数。其中，通道数也可以称为传输通道数量，通道数是信号编码时分配的传输通道数，编码比特数是信号编码时分配的编码比特个数。

本申请实施例中提供选择虚拟扬声器的方法，编码器利用当前帧的虚拟扬声器系数对候选虚拟扬声器集合中每个虚拟扬声器进行投票，依据投票值选取当前帧的虚拟扬声器，从而减小虚拟扬声器搜索的计算负责度，以及减轻编码器的计算负担。最佳匹配扬声器搜索的投票轮次数是指为搜索最佳匹配的扬声器时需要进行的投票轮的次数，在一种可能的实现方式中，投票轮次数可以是预先配置的，也可以是根据当前帧的声场分类结果确定的。例如，最佳匹配扬声器搜索的投票轮次数是根据三维音频信号确定虚拟扬声器信号的过程中进行虚拟扬声器搜索的投票轮次数。

另外，本申请实施例中的虚拟扬声器信号和残差信号是根据三维音频信号生成的信号。举例说明如下，根据第一场景音频信号从预设的虚拟扬声器集合中选择出第一目标虚拟扬声器；根据第一场景音频信号和第一目标虚拟扬声器的属性信息生成虚拟扬声器信号；使用第一目标虚拟扬声器的属性信息和第一虚拟扬声器信号获得第二场景音频信号；根据第一场景音频信号和第二场景音频信号生成残差信号。

在本申请的一些实施例中，投票轮次数满足如下关系：

1≤I≤d，

其中，I为投票轮次数，d为声场分类结果包括的相异性声源数量。

其中，编码端根据当前帧的相异性声源数量确定最佳匹配扬声器搜索的投票轮次数，该投票轮次数小于或等于当前帧的相异性声源数量，从而使得投票轮次数能够符合当前帧的声场分类的实际情况，解决了对当前帧进行编码时需要确定最佳匹配扬声器搜索的投票轮次数的问题。

举例说明如下，投票轮次数I应遵循以下原则：投票轮次数最小取一次，投票轮次数的最大值不能超过扬声器总个数，投票轮次数的最大值也不能超过虚拟扬声器信号通道数，例如扬声器总个数可以是编码器中的虚拟扬声器集合生成单元得到的1024个扬声器，虚拟扬声器信号通道数是编码器要传输的虚拟扬声器信号，也就是N个最佳匹配扬声器对应生成的N个传输通道，通常情况下虚拟扬声器信号通道数小于扬声器总个数。投票轮次数估计方法如下，根据声场分类结果中获取的当前帧的声场中相异性声源数量确定最佳匹配扬声器搜索的投票轮次数I。投票轮次数I满足如下关系：1≤I≤d，其中，d为声场中包含不同方向的声源个数，即声场分类结果中估计的相异性声源数量。例如，I＝d。或，投票轮次数I＝min(d，扬声器总个数，虚拟扬声器信号通道数，预设的投票轮次数)。通过上述min(d，扬声器总个数，虚拟扬声器信号通道数，预设的投票轮次数)可以获取到投票轮次数I，从而编码端可以按照I的取值确定出最佳匹配扬声器搜索的投票轮次数。

在本申请的一些实施例中，声场分类结果包括相异性声源数量和声场类型；

当声场类型为相异性声场时，虚拟扬声器信号的通道数满足如下关系：

F＝min(S，PF)，

其中，F为虚拟扬声器信号的通道数，S为相异性声源数量，PF为编码器预设的虚拟扬声器信号通道数；或，

当声场类型为弥散性声场时，虚拟扬声器信号的通道数满足如下关系：

F＝1，

其中，F为虚拟扬声器信号的通道数。

其中，虚拟扬声器信号的通道数是指传输虚拟扬声器信号所使用的通道的数量，虚拟扬声器信号的通道数可以通过相异性声源数量和声场类型确定，在上述计算方式中，当声场类型为弥散性声场时，确定虚拟扬声器信号的通道数为1，从而可以提到对当前帧的编码效率。当声场类型为相异性声场时，min表示取最小值运算，即从S和PF中取最小值作为虚拟扬声器信号的通道数，从而使得虚拟扬声器信号的通道数能够符合当前帧的声场分类的实际情况，解决了对当前帧进行编码时需要确定虚拟扬声器信号的通道数的问题。

在本申请的一些实施例中，当所述声场类型为弥散性声场时，所述残差信号的通道数满足如下关系：

R＝max(C-1，PR)，

其中，所述PR为编码器预设的残差信号通道数，所述C为所述编码器预设的残差信号的通道数和所述编码器预设的虚拟扬声器信号通道数之和；或，

当所述声场类型为相异性声场时，所述残差信号的通道数满足如下关系：

R＝C–F，

其中，所述R表示所述残差信号的通道数，所述C为编码器预设的残差信号通道数和所述编码器预设的虚拟扬声器信号通道数之和，所述F为所述虚拟扬声器信号的通道数。

其中，在获取到虚拟扬声器信号的通道数之后，可以根据预设的残差信号的通道数和预设的虚拟扬声器信号的通道数之和、预设的残差信号通道数计算出残差信号的通道数，该PR的取值可以是编码端预设的，通过上述max(C-1，PR)计算公式可以获取到R的取值，该预设的残差信号的通道数和预设的虚拟扬声器信号的通道数之和是编码端预设的。另外，上述C也可以简称为总的传输通道数。

在本申请的一些实施例中，在获取到虚拟扬声器信号的通道数之后，可以根据预设的残差信号的通道数和预设的虚拟扬声器信号的通道数之和、虚拟扬声器信号的通道数计算出残差信号的通道数，该预设的残差信号的通道数和预设的虚拟扬声器信号的通道数之和是编码端预设的。另外，上述C也可以简称为总的传输通道数。

在本申请的一些实施例中，声场分类结果包括相异性声源数量；

虚拟扬声器信号的通道数满足如下关系：

F＝min(S，PF)，

其中，F为虚拟扬声器信号的通道数，S为相异性声源数量，PF为编码器预设的虚拟扬声器信号通道数。

其中，虚拟扬声器信号的通道数是指传输虚拟扬声器信号所使用的通道的数量，虚拟扬声器信号的通道数可以通过相异性声源数量确定，在上述计算方式中，min表示取最小值运算，即从S和PF中取最小值作为虚拟扬声器信号的通道数，从而使得虚拟扬声器信号的通道数能够符合当前帧的声场分类的实际情况，解决了对当前帧进行编码时需要确定虚拟扬声器信号的通道数的问题。

在本申请的一些实施例中，残差信号的通道数满足如下关系：

R＝C–F，

其中，R表示残差信号的通道数，C为编码器预设的残差信号的通道数和编码器预设的虚拟扬声器信号的通道数之和，F为虚拟扬声器信号的通道数。例如，C为前述的PF和PR之和。

其中，在获取到虚拟扬声器信号的通道数之后，可以根据预设的残差信号的通道数和预设的虚拟扬声器信号的通道数之和、虚拟扬声器信号的通道数计算出残差信号的通道数，该预设的残差信号的通道数和预设的虚拟扬声器信号的通道数之和是编码端预设的。另外，上述C也可以简称为总的传输通道数。

在本申请的一些实施例中，声场分类结果包括相异性声源数量，或者声场分类结果包括相异性声源数量和声场类型；

虚拟扬声器信号的编码比特数，通过虚拟扬声器信号的编码比特数与传输通道的编码比特数的比值得到；

残差信号的编码比特数，通过虚拟扬声器信号的编码比特数与传输通道的编码比特数的比值得到；

其中，传输通道的编码比特数包括所述虚拟扬声器信号的编码比特数和所述残差信号的编码比特数，当相异性声源数量小于或等于虚拟扬声器信号的通道数时，虚拟扬声器信号的编码比特数与传输通道的编码比特数的比值，通过增加虚拟扬声器信号的编码比特数与传输通道的编码比特数的初始比值得到。

其中，编码端预设虚拟扬声器信号的编码比特数与传输通道的编码比特数的初始比值，编码端获取相异性声源数量，判断相异性声源数量是否小于或等于虚拟扬声器信号的通道数，若相异性声源数量小于或等于虚拟扬声器信号的通道数，可以增加虚拟扬声器信号的编码比特数与传输通道的编码比特数的初始比值，将增大后的初始比值定义为虚拟扬声器信号的编码比特数与传输通道的编码比特数的比值，虚拟扬声器信号的编码比特数与传输通道的编码比特数的比值可用于计算虚拟扬声器信号的编码比特数，虚拟扬声器信号的编码比特数与传输通道的编码比特数的比值还可用于计算残差信号的编码比特数。在上述计算方式中，使得虚拟扬声器信号的编码比特数、残差信号的编码比特数能够符合当前帧的声场分类的实际情况，解决了对当前帧进行编码时需要确定虚拟扬声器信号的编码比特数、残差信号的编码比特数的问题。

举例说明如下，编码端根据声场分类结果确定虚拟扬声器信号和残差信号的比特分配方法，将传输通道信号分为虚拟扬声器信号组和残差信号组，将预先设定的虚拟扬声器信号组的分配比例作为虚拟扬声器信号的编码比特数与传输通道的编码比特数的初始比值，当相异性声源数量≤虚拟扬声器信号的通道数时，根据预设的调整值，增大虚拟扬声器信号的编码比特数与传输通道的编码比特数的初始比值，将增大后的比值作为虚拟扬声器信号的编码比特数与传输通道的编码比特数的比值。例如，增大后的比值等于预设的调整值与初始比值之和。

在本申请的一些实施例中，残差信号的编码比特数与传输通道的编码比特数的比值＝1.0-虚拟扬声器信号的编码比特数与传输通道的编码比特数的比值。

在本申请的一些实施例中，编码端除了执行前述步骤，编码端执行的方法还可以包括如下步骤：

对当前帧和声场分类结果进行编码，并写入码流。

其中，声场分类结果可以被编码到码流中，编码端将该码流发送至解码端之后，从而解码端可以通过码流获取到声场分类结果，解码端通过解析码流，可以得到该码流中携带的声场分类结果，解码端通过该声场分类结果可以获取到当前帧的声场分布情况，从而可以对当前帧进行解码，以得到三维音频信号。

在本申请的一些实施例中，对当前帧和声场分类结果进行编码，具体可以包括直接对当前帧进行编码，或者先对当前帧进行处理，在获取到虚拟扬声器信号和残差信号之后，对虚拟扬声器信号和残差信号进行编码，例如编码端具体可以是核心编码器，核心编码器对虚拟扬声器信号、残差信号和声场分类结果进行编码，以得到码流。该码流也可以称为音频信号编码码流。

本申请实施例提供的三维音频信号的处理方法可以包括：音频编码方法和音频解码方法，其中，音频编码方法由音频编码装置执行，音频解码方法由音频解码装置执行，音频编码装置和音频解码装置之间可以进行通信。前述图4至图6由音频编码装置执行，接下来介绍本申请实施例提供中音频解码装置(后续简称为解码端)执行的三维音频信号的处理方法，如图7所示，主要包括如下步骤：

701、接收码流。

其中，解码端接收来自编码端的码流。该码流中携带声场分类结果。

702、解码所述码流以获得当前帧的声场分类结果。

解码端解析码流，从该码流中获得当前帧的声场分类结果，该声场分类结果由编码端按照前述图4至图6所示的实施例得到。

703、根据所述声场分类结果获得所述当前帧解码后的三维音频信号。

解码端获取到该声场分类结果之后，解码端使用该声场分类结果解析码流，得到当前帧解码后的三维音频信号，本申请实施例中对于当前帧的解码过程不做限定。本申请实施例中解码端可以通过声场分类结果对当前帧进行解码，该声场分类结果能够用于码流中的当前帧的解码，因此解码端采用与当前帧的声场匹配的解码方式进行解码，从而得到编码端发送的三维音频信号，实现音频信号从编码端到解码端的传输。

例如，解码端能够根据码流中传输的声场分类结果即可确定与编码端一致的解码模式和/或解码参数，相对于编码端将编码模式和/或编码参数传输到解码端的方式，降低了编码比特数。

在本申请的一些实施例中，步骤703所述根据所述声场分类结果获得所述当前帧解码后的三维音频信号，包括：

G1、根据所述声场分类结果确定所述当前帧的解码模式；

G2、根据所述解码模式获得所述当前帧解码后的三维音频信号。

其中，解码模式和前述实施例中的编码模式相对应，对于步骤G1的实现方式与前述实施例步骤504相类似，此处不再赘述。解码端在获取到解码模式之后，可以按照该解码模式解码码流，以得到当前帧解码后的三维音频信号。

进一步的，在本申请的一些实施例中，步骤G1根据所述声场分类结果确定所述当前帧的解码模式，包括：

当所述声场分类结果包括相异性声源数量，或所述声场分类结果包括相异性声源数量和声场类型时，根据所述相异性声源数量确定所述当前帧的解码模式；

或者，

当所述声场分类结果包括声场类型，或所述声场分类结果包括相异性声源数量和声场类型时，根据所述声场类型确定所述当前帧的解码模式；

或者，

当所述声场分类结果包括相异性声源数量和声场类型时，根据所述相异性声源数量和所述声场类型确定所述当前帧的解码模式。

上述实现方式与前述实施例中的步骤E1至E3的实现方式类似，此处不再赘述。

在本申请的一些实施例中，根据所述相异性声源数量确定所述当前帧对应的解码模式包括：

当所述相异性声源数量满足预设条件时，确定所述解码模式为第一解码模式；

当所述相异性声源数量不满足所述预设条件时，确定所述解码模式为第二解码模式；

其中，所述第一解码模式为基于虚拟扬声器选择的HOA解码模式或基于方向音频编码的HOA解码模式，所述第二解码模式为基于虚拟扬声器选择的HOA解码模式或基于方向音频编码的HOA解码模式，且所述第一解码模式和所述第二解码模式为不同的解码模式。

需要说明的是，该预设条件是解码端为了识别不同的解码模式而设置的条件，对该预设条件的实现方式不做限定。

在本申请的一些实施例中，所述预设条件包括所述相异性声源数量大于第一阈值且小于第二阈值，其中，所述第二阈值大于所述第一阈值；

或

所述预设条件包括所述相异性声源数量不大于第一阈值或不小于第二阈值，其中，所述第二阈值大于所述第一阈值。

在本申请的一些实施例中，步骤703根据所述声场分类结果获得所述当前帧解码后的三维音频信号，包括：

H1、根据所述声场分类结果确定所述当前帧的解码参数；

H2、根据所述解码参数获得所述当前帧解码后的三维音频信号。

其中，解码参数和前述实施例中的编码参数相对应，对于步骤H1的实现方式与前述实施例步骤604相类似，此处不再赘述。解码端在获取到解码参数之后，可以按照该解码参数解码码流，以得到当前帧解码后的三维音频信号。

在本申请的一些实施例中，所述解码参数，包括如下至少一种：虚拟扬声器信号的通道数、残差信号的通道数、虚拟扬声器信号的解码比特数、或残差信号的解码比特数；

其中，所述虚拟扬声器信号和所述残差信号是通过所述码流解码得到的。

在本申请的一些实施例中，所述声场分类结果包括相异性声源数量和声场类型；

当所述声场类型为相异性声场时，所述虚拟扬声器信号的通道数满足如下关系：

F＝min(S，PF)，

其中，所述F为所述虚拟扬声器信号的通道数，所述S为所述相异性声源数量，所述PF为解码器预设的虚拟扬声器信号通道数；或

当所述声场类型为弥散性声场时，所述虚拟扬声器信号的通道数满足如下关系：

F＝1，

其中，所述F为所述虚拟扬声器信号的通道数。

R＝max(C-1，PR)，

其中，所述PR为解码器预设的残差信号通道数，所述C为所述解码器预设的残差信号的通道数和所述解码器预设的虚拟扬声器信号通道数之和；或，

R＝C–F，

其中，所述R表示所述残差信号的通道数，所述C为解码器预设的残差信号通道数和所述解码器预设的虚拟扬声器信号通道数之和，所述F为所述虚拟扬声器信号的通道数。

需要说明的是，解码器预设的虚拟扬声器信号通道数等于编码器预设的虚拟扬声器信号通道数，同样的，解码器预设的残差信号的通道数等于编码器预设的残差信号的通道数。

在本申请的一些实施例中，所述声场分类结果包括相异性声源数量；

所述虚拟扬声器信号的通道数满足如下关系：

F＝min(S，PF)，

其中，所述F为所述虚拟扬声器信号的通道数，所述S为所述相异性声源数量，所述PF为解码器预设的虚拟扬声器信号通道数。

在本申请的一些实施例中，所述残差信号的通道数满足如下关系：

R＝C–F，

其中，所述R表示所述残差信号的通道数，所述C为解码器预设的残差信号的通道数和解码器预设的虚拟扬声器信号的通道数之和，所述F为所述虚拟扬声器信号的通道数。

需要说明的是，上述解码参数的实现方式与前述实施例中编码参数的实现方式相类似，此处不再详细说明。

在本申请的一些实施例中，所述声场分类结果包括相异性声源数量，或者所述声场分类结果包括相异性声源数量和声场类型；

所述虚拟扬声器信号的解码比特数，通过虚拟扬声器信号的解码比特数与传输通道的解码比特数的比值得到；

所述残差信号的解码比特数，通过虚拟扬声器信号的解码比特数与传输通道的解码比特数的比值得到；

其中，所述传输通道的解码比特数包括所述虚拟扬声器信号的解码比特数和所述残差信号的解码比特数，当所述相异性声源数量小于或等于虚拟扬声器信号的通道数时，所述虚拟扬声器信号的解码比特数与传输通道的解码比特数的比值，通过增加虚拟扬声器信号的解码比特数与传输通道的解码比特数的初始比值得到。

为便于更好的理解和实施本申请实施例的上述方案，下面举例相应的应用场景来进行具体说明。

本申请实施例中以三维音频信号为HOA信号为例，本申请实施例中的HOA信号的声场分类方法应用于一种混合型HOA编码器，编码基本流程如图8所示，编码端对待编码HOA信号进行分类，以确定当前帧待编码的HOA信号是适合基于虚拟扬声器选择的HOA编码方案，还是适合用基于方向音频编码DirAC的HOA编码方案，并根据声场分类结果确定当前帧的HOA编码模式。具体可以是，HOA编码器中包括编码器选择单元，通过编码器选择单元对待编码HOA信号进行声场分类，并确定当前帧的编码模式；根据编码模式选择编码器A或编码器B进行编码，得到最终的编码码流。其中，编码器A和编码器B表示的是不同类型的编码器，每一种编码器与当前帧的一种声场类型相适配，当使用与声场类型适配的编码器进行编码时，能够提高信号的压缩比。

其中，对待编码HOA信号进行声场分类，并确定编码模式的具体过程包括：

对待编码HOA信号进行声场分类，得到声场分类结果。

根据声场分类结果，确定当前帧的编码模式。

当前帧的编码模式用于指示当前帧的编码器的选择方式。确定编码器选择标识的准则可以根据编码器A和编码器B适用的HOA信号的声场类型决定。例如，编码器A处理的信号类型为相异性声场且相异性声源数量小于3个的HOA信号，编码器B处理的信号类型为相异性声场且相异性声源数量大于等于3个的HOA信号。或者，编码器B处理的信号类型为弥散性声场或相异性声源数量大于等于3个的HOA信号。

需要注意的是，还可以对声场分类结果进行滑动窗(hangover)处理，以保证连续帧之间的编码模式不会出现频繁切换。滑动窗处理方法有很多种，本申请实施例不做限定。例如，一种处理方式可以是滑动窗内保存长度为N帧的编码器选择标识，N帧包括当前帧及之前N-1帧的编码器选择标识；当编码器选择标识累加到指定阈值时，更新当前帧的编码类型指示标识。可选的，除了滑动窗处理，还可以采用其他处理对声场分类结果进行修正处理。

如图9所示，确定HOA信号的编码模式的流程，主要包括：

S01、获取待分析的HOA信号。

S02、对HOA信号下采样。

不限定的是，对待分析的HOA信号进行下采样为可选的步骤。

通过对待分析HOA信号进行下采样，可以降低计算复杂度。待分析的HOA信号可以是时域HOA信号，也可以是频域HOA信号，待分析的HOA信号可以包含所有通道，待分析的HOA信号也可以包含部分HOA通道(例如FOA通道)。例如待分析的HOA信号可以是全部的样点，也可以是1/Q下采样点，例如本实施例中采用1/120下采样点。

例如，当前帧的HOA信号的阶数为3阶，HOA信号的通道数为16个通道，当前帧的帧长为20毫秒(ms)，即当前帧信号包含960样点，当前帧的待编码HOA信号经过1/120下采样处理后，每个通道信号包含的采样点个数为8。即HOA信号共有16个通道，每个通道有8个样点，构成声场类型分析的输入信号，即待分析的HOA信号。

S03、根据下采样后的信号进行声场类型分析。

对HOA信号进行下采样之后，通过对HOA信号中相异性声源数量分析得到声场类型。

例如，本申请实施例中声场类型分析可以是对HOA信号进行线性分解，通过线性分解得到线性分解结果，再通过线性分解结果得到声场分类结果。

例如根据线性分解结果可以得到相异性声源数量。例如该线性分解结果可以包括特征值，通过特征值之间的比值估计相异性声源数量，具体包括：

对待分析的HOA信号进行奇异值分解，得到奇异值v[i]，i＝0，1，…min(L，K)-1。

其中，L等于HOA信号的通道数，K为当前帧的每个通道的信号点数，例如该信号点数可以是频点数。本实施例中，L＝16，K＝8，min(L，K)＝8。

计算奇异值v之间的比值temp[i]作为声场分类参数，i＝0，1，…min(L，K)-2：

temp[i]＝v[i]/v[i+1]。

相异性声源判定阈值为100，估计相异性声源数量n可以通过如下方式：

从i＝0开始，判断temp[i]是否大于或等于100，若temp[i]大于或等于100，满足temp[i]≥100，则停止判断；否则i＝i+1，继续判断。当停止判断，停止判断时的序号i加上1等于相异性声源数量n。例如，i＝0时，若temp[0]≥100，则停止判断，相异性声源数量n等于1；否则令i＝1，继续判断i＝1；当i＝1时，temp[1]≥100，则停止判断，相异性声源数量n等于i+1＝2。

S04、根据声场类型分析结果判断预计编码模式。

根据相异性声源数量n，判定预计编码模式：

当0<n<3时，预计编码模式为编码模式1；

当n>＝3或n＝0，预计编码模式为编码模式2。

例如，编码模式1可以是基于虚拟扬声器选择的HOA编码方案。编码模式2可以是基于方向音频DirAC的HOA编码方案。

S05、根据预计编码模式，判断实际编码模式。

在确定当前帧的预计编码模式之后，接下来判断实际编码模式。例如采用滑动窗实现实际编码模式判别。在滑动窗内，当滑动窗内的多个帧的预期编码模式2累加到指定阈值时，当前帧的实际编码模式采用编码模式2，否则当前帧的实际编码模式采用编码模式1。

举例说明如下，滑动窗内有10帧的预期编码模式结果，其中包含当前帧步骤S03的编码模式判决结果以及当前帧之前9个帧的编码模式结果，如果10个帧的预期编码模式结果中预期编码模式是编码模式2的帧累积到7帧，当前帧的实际编码模式确定为编码模式2。

S06、获得最终的编码模式。

与编码端对应的一种混合型HOA解码器的解码基本流程，如图10所示：解码端从编码端获取到码流，然后根据码流解析当前帧的HOA解码模式。根据当前帧的HOA解码模式，选择对应的解码方案进行解码，获得重建的HOA信号。具体可以是，解码端中包括解码器选择单元，通过解码器选择单元对码流进行解析，确定解码模式；根据解码模式选择解码器A或解码器B进行解码，得到重建HOA信号。其中，解码器A和解码器B表示的是不同类型的解码器，每一种解码器与当前帧的一种声场类型相适配，当使用与声场类型适配的解码器进行解码时，能够正确重建出HOA信号。

通过前述的说明可知，对待编码HOA信号进行声场分类结果，并根据声场分类结果确定编码模式，可以配合不同编码模式适合的信号类型，使不同类型的信号均获得最大压缩效率。

接下来介绍本申请实施例提供的基于虚拟扬声器选择的HOA编码器，编码基本流程如图11所示。

该编码端可以包括：虚拟扬声器配置单元、编码分析单元、虚拟扬声器集合生成单元、虚拟扬声器选择单元、虚拟扬声器信号生成单元、核心编码器处理单元、信号重建单元、残差信号生成单元、选择单元和信号补偿单元。接下来分别对编码端的各个组成单元的功能进行说明。本申请实施例中，图11所示的编码端可以生成一个虚拟扬声器信号，也可以生成多个虚拟扬声器信号，其中，多个虚拟扬声器信号的生成流程可以是根据图11所示的编码器结构进行多次生成，接下来以一个虚拟扬声器信号的生成流程为例。

虚拟扬声器配置单元，用于对虚拟扬声器集合中的虚拟扬声器进行配置，以得到多个虚拟扬声器。

虚拟扬声器配置单元根据编码器配置信息输出虚拟扬声器配置参数。编码器配置信息包括且不限于：HOA阶数，编码比特率，用户自定义信息等，虚拟扬声器配置参数包括且不限于：虚拟扬声器的个数，虚拟扬声器的HOA阶数、虚拟扬声器的位置坐标等。

虚拟扬声器配置单元输出的虚拟扬声器配置参数作为虚拟扬声器集合生成单元的输入。

编码分析单元，用于对待编码HOA信号进行编码分析，例如分析待编码HOA信号的声场分布，包括待编码HOA信号的声源个数、方向性、弥散度等特征，作为决定如何选择目标虚拟扬声器的判断条件之一。

不限定的是，本申请实施例中，编码端中还可以不包括编码分析单元，即编码端可以不对输入信号进行分析，则采用一种默认配置决定如何选择目标虚拟扬声器。

其中，编码端获取待编码HOA信号，例如可以将从实际采集设备记录的HOA信号或采用人工音频对象合成的HOA信号作为编码器的输入，同时编码器输入的待编码HOA信号可以是时域HOA信号也可以是频域HOA信号。

虚拟扬声器集合生成单元，用于生成虚拟扬声器集合，该虚拟扬声器集合中可以包括：多个虚拟扬声器，虚拟扬声器集合中的虚拟扬声器也可以称为“候选虚拟扬声器”。

虚拟扬声器集合生成单元根据虚拟扬声器配置参数生成指定的候选虚拟扬声器HOA系数。生成候选虚拟扬声器HOA系数需要候选虚拟扬声器的坐标(即位置坐标或者位置信息)和候选虚拟扬声器的HOA阶数，候选虚拟扬声器的坐标确定方法包括且不限于按等距规则产生K个虚拟扬声器、根据听觉感知原理生成非均匀分布的K个候选虚拟扬声器，以下举例一种产生均匀分布固定个数虚拟扬声器的方法。

根据候选虚拟扬声器的个数生成分布均匀的候选虚拟扬声器的坐标，例如使用数值迭代计算方法给出近似均匀的扬声器排布。

虚拟扬声器集合生成单元输出的候选虚拟扬声器的HOA系数作为虚拟扬声器选择单元的输入。

虚拟扬声器选择单元，用于根据待编码HOA信号从虚拟扬声器集合中的多个候选虚拟扬声器中选择出目标虚拟扬声器，该目标虚拟扬声器可以称为“与待编码HOA信号匹配的虚拟扬声器”，或者简称为匹配虚拟扬声器。

虚拟扬声器选择单元将待编码HOA信号与虚拟扬声器集合生成单元输出的候选虚拟扬声器HOA系数匹配，选择出指定的匹配虚拟扬声器。

本申请实施例中，对待编码HOA信号进行声场分类，可以声场分类结果，并根据声场分类结果确定编码参数。

编码分析单元，根据待编码HOA信号进行编码分析，该分析可以包括：根据待编码HOA信号进行声场分类，声场分类方法详见前述实施例，这里不再赘述。

根据声场分类结果，确定编码参数。编码参数可以包括基于虚拟扬声器选择的HOA编码方案中虚拟扬声器信号的通道数、残差信号的通道数、最佳匹配扬声器搜索的投票轮次数中的至少一种。

具体的，虚拟扬声器选择单元，根据确定的最佳匹配扬声器搜索的投票轮次数和虚拟扬声器信号的通道数，将待编码HOA系数与虚拟扬声器集合生成单元输出的候选虚拟扬声器HOA系数匹配，选择出最佳匹配虚拟扬声器，并获得匹配虚拟扬声器HOA系数。最佳匹配虚拟扬声器的个数等于虚拟扬声器信号的通道数。

虚拟扬声器选择单元，采用基于投票的最佳匹配扬声器搜索方法将待编码HOA系数与虚拟扬声器集合生成单元输出的候选虚拟扬声器HOA系数匹配，选择出最佳匹配虚拟扬声器，可以根据声场分类结果确定最佳匹配扬声器搜索的投票轮次数I。

投票轮次数I应遵循以下原则，投票轮次数最小取一次，最大值不能超过扬声器总个数(例如，虚拟扬声器集合生成单元得到的1024个扬声器)和虚拟扬声器信号通道数(编码器要传输的虚拟扬声器信号，也就是N个最佳匹配扬声器对应生成的N个传输通道)，通常情况下虚拟扬声器信号通道数小于扬声器总个数。

投票轮次数估计方法如下：

根据声场分类结果中获取的声场中相异性声源数量，确定扬声器选择投票轮次数I。

投票轮次数I满足1≤I≤d,，其中，d为声场中包含不同方向的声源个数，即声场分类结果中估计的相异性声源数量。例如，I＝d。

根据声场类型确定虚拟扬声器信号的通道数、残差信号的通道数。

接下来，本申请实施例给出一种自适应虚拟扬声器信号的通道数F选择方法：

当声场类型为相异性声场时，F＝min(S，PF)，其中，S为声场中相异性声源数量，PF为编码器预设的虚拟扬声器信号通道数。

当声场类型为弥散性声场时，F＝1。

接下来，本申请实施例给出一种自适应残差信号的通道数R选择方法：

当声场类型为弥散性声源场时，R＝max(C-1，PR)，其中，C为预设的总的传输通道数，PR为编码器预设的残差信号个数。例如，C为PF和PR之和。

当声场类型为相异性声源场时，R＝C-F。

根据声场分类结果确定虚拟扬声器信号和残差信号的比特分配方法：

当相异性声源数量≤虚拟扬声器信号的通道数时，此时残差信号能量较低，因此可以为虚拟扬声器信号通道分配更多比特。

在一些实施例中，将虚拟扬声器信号和残差信号分为两组，即虚拟扬声器信号组和残差信号组，当相异性声源数量≤虚拟扬声器信号的通道数时，根据预设的比例调整值，增大预先设定的虚拟扬声器信号组的分配比例，将增大后的虚拟扬声器信号组的分配比例作为虚拟扬声器信号组的分配比例。

残差信号组的分配比例＝1.0-虚拟扬声器信号组的分配比例。

虚拟扬声器信号生成单元：通过待编码HOA系数和匹配虚拟扬声器HOA系数计算虚拟扬声器信号。

信号重建单元：通过虚拟扬声器信号和匹配虚拟扬声器HOA系数对HOA信号进行重建。

残差信号生成单元：根据步骤1中确定的残差信号的通道数，通过待编码HOA系数与HOA信号重建单元输出的重建HOA信号计算残差信号。

信号补偿单元：由于选择小于N阶Ambisonic系数的通道数作为待传输的残差信号，与N阶Ambisonic系数的残差信号相比会有信息丢失，因此需要对不传输的残差信号进行信息补偿。

选择单元：虚拟扬声器信号具有较高的振幅或能量，待传输残差信号具有相对较低的振幅或能量。因此选择单元将所有可用比特对虚拟扬声器信号和待传输残差信号进行预分配，得到的比特预分配信息用于指导核心编码器处理。

核心编码器处理单元：对传输通道进行核心编码器处理，输出传输码流。传输通道包括虚拟扬声器信号通道和残差信号通道。

根据声场分类结果，确定编码参数。编码参数还可以包括基于虚拟扬声器选择的HOA编码方案中虚拟扬声器信号的比特分配、残差信号的比特分配中的至少一种。如果采用声场分类结果确定虚拟扬声器信号的比特分配、残差信号的比特分配，则需要根据声场分类结果确定虚拟扬声器信号和残差信号的比特分配。

在一些实施例中，根据声场分类结果确定虚拟扬声器信号和残差信号的比特分配方法如下：假设虚拟扬声器信号的通道数为F，残差信号的通道数为R，可用于对虚拟扬声器信号和残差信号进行编码的总比特数为numbit。

一种方式是，先确定虚拟扬声器信号编码的总比特数和残差信号编码的总比特数，再确定各个通道的编码比特数。例如：

虚拟扬声器信号编码的总比特数为：

其中，fac1为虚拟扬声器信号编码比特分配的加权因子，fac2为残差信号编码比特分配的加权因子。round()表示向下取整。例如，fac1＞fac2。例如fac1＝2，fac2＝1。

残差信号编码的总比特数res_numbit＝numbit-core_numbit。

然后根据虚拟扬声器信号的比特分配准则对虚拟扬声器信号各个通道的编码比特进行分配，根据残差信号的比特分配准则对残差信号各个通道的编码比特进行分配。

或者，残差信号编码的总比特数为：

虚拟扬声器信号编码的总比特数core_numbit＝numbit-res_numbit。

然后，根据虚拟扬声器信号的比特分配准则对虚拟扬声器信号各个通道的编码比特进行分配，根据残差信号的比特分配准则对残差信号各个通道的编码比特进行分配。

另外，也可以直接确定每个通道的编码比特数。例如，每个虚拟扬声器信号编码的比特数为：

每个残差信号编码的比特数为：

需要说明的是，最终用于对虚拟扬声器信号和残差信号进行编码的比特分配结果，可以是依据上述方法得到的比特分配结果进行调整后确定的。在得到对虚拟扬声器信号和残差信号进行编码的比特分配结果后，核心编码器处理单元将根据比特分配结果进行对虚拟扬声器信号和残差信号进行编码。

对待编码HOA信号进行声场分类结果，根据声场分类结果确定编码参数，并根据确定的编码参数对待编码信号进行编码。编码参数包括基于虚拟扬声器选择的HOA编码方案中虚拟扬声器信号的通道数、残差信号的通道数、虚拟扬声器信号的比特分配、残差信号的比特分配、最佳匹配扬声器搜索的投票轮次数中的至少一种。对于编码参数的说明可以参阅前述内容，此处不再赘述。

通过前述的举例说明可知，本申请实施例对待编码HOA信号进行声场分类，从而针对待编码HOA信号的不同特征选择合适的编码模式和或编码参数，对HOA信号进行编码，提升压缩效率和听觉质量。

本申请实施例中对于解码端执行的解码流程不再详细说明。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

为便于更好的实施本申请实施例的上述方案，下面还提供用于实施上述方案的相关装置。

请参阅图12所示，本申请实施例提供的一种三维音频信号的处理装置，例如该该三维音频信号的处理装置具体为音频编码装置1200，可以包括：线性分析模块1201、参数生成模块1202和声场分类模块1203，其中，

线性分析模块，用于对三维音频信号进行线性分解，以得到线性分解结果；

参数生成模块，用于根据所述线性分解结果获取所述当前帧对应的声场分类参数；

声场分类模块，用于根据所述声场分类参数确定所述当前帧的声场分类结果。

在本申请的一些实施例中，所述三维音频信号包括：高阶立体混响HOA信号，或者一阶立体混响FOA信号。

在本申请的一些实施例中，所述线性分析模块，用于对所述当前帧进行奇异值分解，以得到所述当前帧对应的奇异值，其中，所述线性分解结果包括：所述奇异值；或者，对所述当前帧进行主成分分析，以得到所述当前帧对应的第一特征值，其中，所述线性分解结果包括：所述第一特征值；或者，对所述当前帧进行独立成分分析，以得到所述当前帧对应的第二特征值，其中，所述线性分解结果包括：所述第二特征值。

在本申请的一些实施例中，所述线性分解结果为多个，所述声场分类参数为多个；

所述参数生成模块，用于获取所述当前帧的第i个线性分析结果与所述当前帧的第i+1个线性分析结果的比值，其中，所述i为正整数；根据所述比值获取所述当前帧对应的第i个声场分类参数。

可选的，所述第i个线性分析结果和所述第i+1个线性分析结果是所述当前帧的连续两个线性分析结果。

在本申请的一些实施例中，所述声场分类参数为多个；所述声场分类结果包括：声场类型；所述声场分类模块，用于当所述多个声场分类参数的值都满足预设的弥散性声源判决条件时，确定所述声场类型为弥散性声场；或者，当所述多个声场分类参数的值中至少一个值满足预设的相异性声源判决条件时，确定所述声场类型为相异性声场。

在本申请的一些实施例中，所述弥散性声源判决条件包括：所述声场分类参数的值小于预设的相异性声源判定阈值；或者，所述相异性声源判决条件包括：所述声场分类参数的值大于或者等于预设的相异性声源判定阈值。

在本申请的一些实施例中，所述声场分类参数为多个；

所述声场分类结果包括：声场类型；或者，所述声场分类结果包括：相异性声源数量和声场类型；

所述声场分类模块，用于根据所述多个声场分类参数的值获取所述当前帧对应的相异性声源数量；根据所述当前帧对应的相异性声源数量确定所述声场类型。

在本申请的一些实施例中，所述声场分类参数为多个；

所述声场分类结果包括：相异性声源数量；

所述声场分类模块，用于根据所述多个声场分类参数的值获取所述当前帧对应的相异性声源数量。

在本申请的一些实施例中，所述多个声场分类参数为temp[i]，所述i＝0，1，…，min(L，K)-2，所述L表示所述当前帧的通道数量，所述K为所述当前帧的每个通道对应的信号点数，所述min表示取最小值运算；

所述声场分类模块，用于从i＝0开始依次执行如下判断流程：

判断所述temp[i]是否大于预设的相异性声源判定阈值；

当本次判断流程中所述temp[i]小于所述相异性声源判定阈值时，更新i的取值为i+1，继续执行下次判断流程；或者，

当本次判断流程中所述temp[i]大于或等于所述相异性声源判定阈值时，终止执行判断流程，确定本次判断流程的i加上1等于所述相异性声源数量。

在本申请的一些实施例中，所述根据所述当前帧对应的相异性声源数量确定所述声场类型，包括：

当所述相异性声源数量满足第一预设条件时，确定所述声场类型为第一声场类型；

当所述相异性声源数量不满足所述第一预设条件时，确定所述声场类型为第二声场类型；

其中，所述第一声场类型对应的相异性声源数量和所述第二声场类型对应的相异性声源数量不同。

在本申请的一些实施例中，所述第一预设条件包括所述相异性声源数量大于第一阈值且小于第二阈值，其中，所述第二阈值大于所述第一阈值；

或者，

所述第一预设条件包括所述相异性声源数量不大于第一阈值或不小于第二阈值，其中，所述第二阈值大于所述第一阈值。

在本申请的一些实施例中，所述音频编码装置，还包括：编码模式确定模块(图12中未示意)，编码模式确定模块用于根据所述声场分类结果确定所述当前帧对应的编码模式。

在本申请的一些实施例中，所述编码模式确定模块，用于当所述声场分类结果包括相异性声源数量，或所述声场分类结果包括相异性声源数量和声场类型时，根据所述相异性声源数量确定所述当前帧对应的编码模式；或者，当所述声场分类结果包括声场类型，或所述声场分类结果包括相异性声源数量和声场类型时，根据所述声场类型确定所述当前帧对应的编码模式；或者，当所述声场分类结果包括相异性声源数量和声场类型时，根据所述相异性声源数量和所述声场类型确定所述当前帧对应的编码模式。

在本申请的一些实施例中，所述编码模式确定模块，用于当所述相异性声源数量满足第二预设条件时，确定所述编码模式为第一编码模式；当所述相异性声源数量不满足所述第二预设条件时，确定所述编码模式为第二编码模式；

其中，所述第一编码模式为基于虚拟扬声器选择的HOA编码模式或基于方向音频编码的HOA编码模式，所述第二编码模式为基于虚拟扬声器选择的HOA编码模式或基于方向音频编码的HOA编码模式，且所述第一编码模式和所述第二编码模式为不同的编码模式。

在本申请的一些实施例中，所述第二预设条件包括所述相异性声源数量大于第一阈值且小于第二阈值，其中，所述第二阈值大于所述第一阈值；或，

所述第二预设条件包括所述相异性声源数量不大于第一阈值或不小于第二阈值，其中，所述第二阈值大于所述第一阈值。

在本申请的一些实施例中，所述编码模式确定模块，用于当所述声场类型为相异性声场时，确定所述编码模式为基于虚拟扬声器选择的HOA编码模式；当所述声场类型为弥散性声场时，确定所述编码模式为基于方向音频编码的HOA编码模式。

在本申请的一些实施例中，所述编码模式确定模块，用于根据所述当前帧的声场分类结果确定所述当前帧对应的初始编码模式；获取所述当前帧所在的滑动窗，所述滑动窗包括：所述当前帧的初始编码模式，以及所述当前帧之前的N-1帧的编码模式，所述N为所述滑动窗的长度；根据所述当前帧的初始编码模式和所述N-1帧的编码模式确定所述当前帧的编码模式。

在本申请的一些实施例中，所述音频编码装置，还包括：编码参数确定模块(图12中未示意)，编码参数确定模块用于根据所述声场分类结果确定所述当前帧对应的编码参数。

在本申请的一些实施例中，所述编码参数，包括如下至少一种：虚拟扬声器信号的通道数、残差信号的通道数、虚拟扬声器信号的编码比特数、残差信号的编码比特数、或最佳匹配扬声器搜索的投票轮次数；

其中，所述虚拟扬声器信号和所述残差信号是根据所述三维音频信号生成的信号。

在本申请的一些实施例中，所述投票轮次数满足如下关系：

1≤I≤d，

其中，所述I为所述投票轮次数，所述d为所述声场分类结果包括的相异性声源数量。

F＝min(S，PF)，

其中，所述F为所述虚拟扬声器信号的通道数，所述S为所述相异性声源数量，所述PF为编码器预设的虚拟扬声器信号通道数；或，

F＝1，

其中，所述F为所述虚拟扬声器信号的通道数。

R＝max(C-1，PR)，

R＝C–F，

所述虚拟扬声器信号的通道数满足如下关系：

F＝min(S，PF)，

其中，所述F为所述虚拟扬声器信号的通道数，所述S为所述相异性声源数量，所述PF为编码器预设的虚拟扬声器信号通道数。

R＝C–F，

其中，所述R表示所述残差信号的通道数，所述C为编码器预设的残差信号的通道数和所述编码器预设的虚拟扬声器信号的通道数之和，所述F为所述虚拟扬声器信号的通道数。

所述虚拟扬声器信号的编码比特数，通过虚拟扬声器信号的编码比特数与传输通道的编码比特数的比值得到；

所述残差信号的编码比特数，通过虚拟扬声器信号的编码比特数与传输通道的编码比特数的比值得到；

其中，所述传输通道的编码比特数包括所述虚拟扬声器信号的编码比特数和所述残差信号的编码比特数，当所述相异性声源数量小于或等于虚拟扬声器信号的通道数时，所述虚拟扬声器信号的编码比特数与传输通道的编码比特数的比值，通过增加所述虚拟扬声器信号的编码比特数与传输通道的编码比特数的初始比值得到。

在本申请的一些实施例中，所述音频编码装置，还包括：编码模块(图12中未示意)，编码模块用于对所述当前帧和所述声场分类结果进行编码，并写入码流。

通过前述实施例的举例说明可知，首先对三维音频信号的当前帧进行线性分解，以得到线性分解结果；然后根据线性分解结果获取当前帧对应的声场分类参数；最后根据声场分类参数确定当前帧的声场分类结果。由于本申请实施例中通过对三维音频信号的当前帧进行线性分解，获得了当前帧的线性分解结果，再通过该线性分解结果获取到当前帧对应的声场分类参数，因此通过该声场分类参数确定出了当前帧的声场分类结果，通过该声场分类结果可对当前帧实现声场分类。本申请实施例对三维音频信号的声场分类，从而可以准确识别三维音频信号。

请参阅图13所示，本申请实施例提供的一种三维音频信号的处理装置，例如该该三维音频信号的处理装置具体为音频解码装置1300，可以包括：接收模块1301、解码模块1302和信号生成模块1303，其中，

接收模块，用于接收码流；

解码模块，用于解码所述码流以获得当前帧的声场分类结果；

信号生成模块，用于根据所述声场分类结果获得所述当前帧解码后的三维音频信号。

在本申请的一些实施例中，所述信号生成模块，用于根据所述声场分类结果确定所述当前帧的解码模式；根据所述解码模式获得所述当前帧解码后的三维音频信号。

在本申请的一些实施例中，所述信号生成模块，用于当所述声场分类结果包括相异性声源数量，或所述声场分类结果包括相异性声源数量和声场类型时，根据所述相异性声源数量确定所述当前帧的解码模式；或者，当所述声场分类结果包括声场类型，或所述声场分类结果包括相异性声源数量和声场类型时，根据所述声场类型确定所述当前帧的解码模式；或者，当所述声场分类结果包括相异性声源数量和声场类型时，根据所述相异性声源数量和所述声场类型确定所述当前帧的解码模式。

在本申请的一些实施例中，所述信号生成模块，用于当所述相异性声源数量满足预设条件时，确定所述解码模式为第一解码模式；当所述相异性声源数量不满足所述预设条件时，确定所述解码模式为第二解码模式；

或

在本申请的一些实施例中，所述信号生成模块，用于根据所述声场分类结果确定所述当前帧的解码参数；根据所述解码参数获得所述当前帧解码后的三维音频信号。

F＝min(S，PF)，

其中，所述F为所述虚拟扬声器信号的通道数，所述S为所述相异性声源数量，所述PF为解码器预设的虚拟扬声器信号通道数；或，

F＝1，

其中，所述F为所述虚拟扬声器信号的通道数。

R＝max(C-1，PR)，

R＝C–F，

所述虚拟扬声器信号的通道数满足如下关系：

F＝min(S，PF)，

R＝C–F，

其中，所述R表示所述残差信号的通道数，所述C为解码器预设的残差信号的通道数和所述解码器预设的虚拟扬声器信号的通道数之和，所述F为所述虚拟扬声器信号的通道数。

通过前述实施例的举例说明可知，该声场分类结果能够用于码流中的当前帧的解码，因此解码端采用与当前帧的声场匹配的解码方式进行解码，从而得到编码端发送的三维音频信号，实现音频信号从编码端到解码端的传输。

需要说明的是，上述装置各模块/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其带来的技术效果与本申请方法实施例相同，具体内容可参见本申请前述所示的方法实施例中的叙述，此处不再赘述。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储有程序，该程序执行包括上述方法实施例中记载的部分或全部步骤。

接下来介绍本申请实施例提供的另一种音频编码装置，请参阅图14所示，音频编码装置1400包括：

接收器1401、发射器1402、处理器1403和存储器1404(其中音频编码装置1400中的处理器1403的数量可以一个或多个，图14中以一个处理器为例)。在本申请的一些实施例中，接收器1401、发射器1402、处理器1403和存储器1404可通过总线或其它方式连接，其中，图14中以通过总线连接为例。

存储器1404可以包括只读存储器和随机存取存储器，并向处理器1403提供指令和数据。存储器1404的一部分还可以包括非易失性随机存取存储器(non-volatile random access memory，NVRAM)。存储器1404存储有操作系统和操作指令、可执行模块或者数据结构，或者它们的子集，或者它们的扩展集，其中，操作指令可包括各种操作指令，用于实现各种操作。操作系统可包括各种系统程序，用于实现各种基础业务以及处理基于硬件的任务。

处理器1403控制音频编码装置的操作，处理器1403还可以称为中央处理单元(central processing unit，CPU)。具体的应用中，音频编码装置的各个组件通过总线系统耦合在一起，其中总线系统除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都称为总线系统。

上述本申请实施例揭示的方法可以应用于处理器1403中，或者由处理器1403实现。处理器1403可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1403中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1403可以是通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field-programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1404，处理器1403读取存储器1404中的信息，结合其硬件完成上述方法的步骤。

接收器1401可用于接收输入的数字或字符信息，以及产生与音频编码装置的相关设置以及功能控制有关的信号输入，发射器1402可包括显示屏等显示设备，发射器1402可用于通过外接接口输出数字或字符信息。

本申请实施例中，处理器1403用于执行前述实施例图4至图6所示的由音频编码装置执行的方法。

接下来介绍本申请实施例提供的另一种音频解码装置，请参阅图15所示，音频解码装置1500包括：

接收器1501、发射器1502、处理器1503和存储器1504(其中音频解码装置1500中的处理器1503的数量可以一个或多个，图15中以一个处理器为例)。在本申请的一些实施例中，接收器1501、发射器1502、处理器1503和存储器1504可通过总线或其它方式连接，其中，图15中以通过总线连接为例。

存储器1504可以包括只读存储器和随机存取存储器，并向处理器1503提供指令和数据。存储器1504的一部分还可以包括NVRAM。存储器1504存储有操作系统和操作指令、可执行模块或者数据结构，或者它们的子集，或者它们的扩展集，其中，操作指令可包括各种操作指令，用于实现各种操作。操作系统可包括各种系统程序，用于实现各种基础业务以及处理基于硬件的任务。

处理器1503控制音频解码装置的操作，处理器1503还可以称为CPU。具体的应用中，音频解码装置的各个组件通过总线系统耦合在一起，其中总线系统除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都称为总线系统。

上述本申请实施例揭示的方法可以应用于处理器1503中，或者由处理器1503实现。处理器1503可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1503中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1503可以是通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1504，处理器1503读取存储器1504中的信息，结合其硬件完成上述方法的步骤。

本申请实施例中，处理器1503，用于执行前述实施例图7所示的由音频解码装置执行的方法。

在另一种可能的设计中，当音频编码装置或者音频解码装置为终端内的芯片时，芯片包括：处理单元和通信单元，所述处理单元例如可以是处理器，所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令，以使该终端内的芯片执行上述第一方面任意一项的音频编码方法，或者第二方面任意一项的音频解码方法。可选地，所述存储单元为所述芯片内的存储单元，如寄存器、缓存等，所述存储单元还可以是所述终端内的位于所述芯片外部的存储单元，如只读存储器(read-onlymemory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(randomaccessmemory，RAM)等。

其中，上述任一处提到的处理器，可以是一个通用中央处理器，微处理器，ASIC，或一个或多个用于控制上述第一方面或第二方面方法的程序执行的集成电路。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本申请提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

Claims

一种三维音频信号的处理方法，其特征在于，包括：

对三维音频信号的当前帧进行线性分解，以得到线性分解结果；

根据所述线性分解结果获取所述当前帧对应的声场分类参数；

根据所述声场分类参数确定所述当前帧的声场分类结果。
根据权利要求1所述的方法，其特征在于，所述三维音频信号包括：高阶立体混响HOA信号，或者一阶立体混响FOA信号。
根据权利要求1或2所述的方法，其特征在于，所述对所述三维音频信号的当前帧进行线性分解，以得到线性分解结果，包括：

对所述当前帧进行奇异值分解，以得到所述当前帧对应的奇异值，其中，所述线性分解结果包括：所述奇异值；

或者，

对所述当前帧进行主成分分析，以得到所述当前帧对应的第一特征值，其中，所述线性分解结果包括：所述第一特征值；

或者，

对所述当前帧进行独立成分分析，以得到所述当前帧对应的第二特征值，其中，所述线性分解结果包括：所述第二特征值。
根据权利要求1至3中任一项所述的方法，其特征在于，所述线性分解结果为多个，所述声场分类参数为多个；

所述根据所述线性分解结果获取所述当前帧对应的声场分类参数，包括：

获取所述当前帧的第i个线性分析结果与所述当前帧的第i+1个线性分析结果的比值，其中，所述i为正整数；

根据所述比值获取所述当前帧对应的第i个声场分类参数。
根据权利要求1至4中任一项所述的方法，其特征在于，所述声场分类参数为多个；所述声场分类结果包括：声场类型；

所述根据所述声场分类参数确定所述当前帧的声场分类结果，包括：

当所述多个声场分类参数的值都满足预设的弥散性声源判决条件时，确定所述声场类型为弥散性声场；

或者，

当所述多个声场分类参数的值中至少一个值满足预设的相异性声源判决条件时，确定所述声场类型为相异性声场。
根据权利要求5所述的方法，其特征在于，所述弥散性声源判决条件包括：所述声场分类参数的值小于预设的相异性声源判定阈值；

或者，

所述相异性声源判决条件包括：所述声场分类参数的值大于或者等于预设的相异性声源判定阈值。
根据权利要求1至4中任一项所述的方法，其特征在于，所述声场分类参数为多个；

所述声场分类结果包括：声场类型；或者，所述声场分类结果包括：相异性声源数量和声场类型；

所述根据所述声场分类参数确定所述当前帧的声场分类结果，包括：

根据所述多个声场分类参数的值获取所述当前帧对应的相异性声源数量；

根据所述当前帧对应的相异性声源数量确定所述声场类型。
根据权利要求1至4中任一项所述的方法，其特征在于，所述声场分类参数为多个；

所述声场分类结果包括：相异性声源数量；

所述根据所述声场分类参数确定所述当前帧的声场分类结果，包括：

根据所述多个声场分类参数的值获取所述当前帧对应的相异性声源数量。
根据权利要求7或8所述的方法，其特征在于，所述多个声场分类参数为temp[i]，所述i＝0，1，…，min(L，K)-2，所述L表示所述当前帧的通道数量，所述K为所述当前帧的每个通道对应的信号点数，所述min表示取最小值运算；

所述根据所述多个声场分类参数的值获取所述当前帧对应的相异性声源数量，包括：

从i＝0开始依次执行如下判断流程：

判断所述temp[i]是否大于预设的相异性声源判定阈值；

当本次判断流程中所述temp[i]小于所述相异性声源判定阈值时，更新i的取值为i+1，继续执行下次判断流程；或者，

当本次判断流程中所述temp[i]大于或等于所述相异性声源判定阈值时，终止执行判断流程，确定本次判断流程的i加上1等于所述相异性声源数量。
根据权利要求7所述的方法，其特征在于，所述根据所述当前帧对应的相异性声源数量确定所述声场类型，包括：

当所述相异性声源数量满足第一预设条件时，确定所述声场类型为第一声场类型；

当所述相异性声源数量不满足所述第一预设条件时，确定所述声场类型为第二声场类型；

其中，所述第一声场类型对应的相异性声源数量和所述第二声场类型对应的相异性声源数量不同。
根据权利要求10所述的方法，其特征在于，所述第一预设条件包括所述相异性声源数量大于第一阈值且小于第二阈值，其中，所述第二阈值大于所述第一阈值；

或者，

所述第一预设条件包括所述相异性声源数量不大于第一阈值或不小于第二阈值，其中，所述第二阈值大于所述第一阈值。
根据权利要求1至11中任一项所述的方法，其特征在于，所述方法还包括：

根据所述声场分类结果确定所述当前帧对应的编码模式。
根据权利要求12所述的方法，其特征在于，所述根据所述声场分类结果确定所述当前帧对应的编码模式，包括：

当所述声场分类结果包括相异性声源数量，或所述声场分类结果包括相异性声源数量和声场类型时，根据所述相异性声源数量确定所述当前帧对应的编码模式；

或者，

当所述声场分类结果包括声场类型，或所述声场分类结果包括相异性声源数量和声场类型时，根据所述声场类型确定所述当前帧对应的编码模式；

或者，

当所述声场分类结果包括相异性声源数量和声场类型时，根据所述相异性声源数量和所述声场类型确定所述当前帧对应的编码模式。
根据权利要求13所述的方法，其特征在于，所述根据所述相异性声源数量确定所述当前帧对应的编码模式包括：

当所述相异性声源数量满足第二预设条件时，确定所述编码模式为第一编码模式；

当所述相异性声源数量不满足所述第二预设条件时，确定所述编码模式为第二编码模式；

其中，所述第一编码模式为基于虚拟扬声器选择的HOA编码模式或基于方向音频编码的HOA编码模式，所述第二编码模式为基于虚拟扬声器选择的HOA编码模式或基于方向音频编码的HOA编码模式，且所述第一编码模式和所述第二编码模式为不同的编码模式。
根据权利要求14所述的方法，其特征在于，所述第二预设条件包括所述相异性声源数量大于第一阈值且小于第二阈值，其中，所述第二阈值大于所述第一阈值；或，

所述第二预设条件包括所述相异性声源数量不大于第一阈值或不小于第二阈值，其中，所述第二阈值大于所述第一阈值。
根据权利要求13所述的方法，其特征在于，所述根据所述声场类型确定所述当前帧对应的编码模式，包括：

当所述声场类型为相异性声场时，确定所述编码模式为基于虚拟扬声器选择的HOA编码模式；

当所述声场类型为弥散性声场时，确定所述编码模式为基于方向音频编码的HOA编码模式。
根据权利要求12所述的方法，其特征在于，所述根据所述声场分类结果确定所述当前帧对应的编码模式，包括：

根据所述当前帧的声场分类结果确定所述当前帧对应的初始编码模式；

获取所述当前帧所在的滑动窗，所述滑动窗包括：所述当前帧的初始编码模式，以及所述当前帧之前的N-1帧的编码模式，所述N为所述滑动窗的长度；

根据所述滑动窗内当前帧的初始编码模式和所述N-1帧的编码模式确定所述当前帧的编码模式。
根据权利要求1至17中任一项所述的方法，其特征在于，所述方法还包括：

根据所述声场分类结果确定所述当前帧对应的编码参数。
根据权利要求18所述的方法，其特征在于，所述编码参数，包括如下至少一种：虚拟扬声器信号的通道数、残差信号的通道数、虚拟扬声器信号的编码比特数、残差信号的编码比特数、或最佳匹配扬声器搜索的投票轮次数；

其中，所述虚拟扬声器信号和所述残差信号是根据所述三维音频信号生成的。
根据权利要求19所述的方法，其特征在于，所述投票轮次数满足如下关系：

1≤I≤d，

其中，所述I为所述投票轮次数，所述d为所述声场分类结果包括的相异性声源数量。
根据权利要求19或20所述的方法，其特征在于，所述声场分类结果包括相异性声源数量和声场类型；

当所述声场类型为相异性声场时，所述虚拟扬声器信号的通道数满足如下关系：

F＝min(S，PF)，

其中，所述F为所述虚拟扬声器信号的通道数，所述S为所述相异性声源数量，所述PF为编码器预设的虚拟扬声器信号通道数；或，

当所述声场类型为弥散性声场时，所述虚拟扬声器信号的通道数满足如下关系：

F＝1，

其中，所述F为所述虚拟扬声器信号的通道数。
根据权利要求19至21任一项所述的方法，其特征在于，当所述声场类型为弥散性声场时，所述残差信号的通道数满足如下关系：

R＝max(C-1，PR)，

其中，所述PR为编码器预设的残差信号通道数，所述C为所述编码器预设的残差信号的通道数和所述编码器预设的虚拟扬声器信号通道数之和；或，

当所述声场类型为相异性声场时，所述残差信号的通道数满足如下关系：

R＝C–F，

其中，所述R表示所述残差信号的通道数，所述C为编码器预设的残差信号通道数和所述编码器预设的虚拟扬声器信号通道数之和，所述F为所述虚拟扬声器信号的通道数。
根据权利要求19或20所述的方法，其特征在于，所述声场分类结果包括相异性声源数量；

所述虚拟扬声器信号的通道数满足如下关系：

F＝min(S，PF)，

其中，所述F为所述虚拟扬声器信号的通道数，所述S为所述相异性声源数量，所述PF为编码器预设的虚拟扬声器信号通道数。
根据权利要求19，20，21或23所述的方法，其特征在于，所述残差信号的通道数满足如下关系：

R＝C–F，

其中，所述R表示所述残差信号的通道数，所述C为编码器预设的残差信号的通道数和所述编码器预设的虚拟扬声器信号的通道数之和，所述F为所述虚拟扬声器信号的通道数。
根据权利要求19至24中任一项所述的方法，其特征在于，所述声场分类结果包括相异性声源数量，或者所述声场分类结果包括相异性声源数量和声场类型；

所述虚拟扬声器信号的编码比特数，通过虚拟扬声器信号的编码比特数与传输通道的编码比特数的比值得到；

所述残差信号的编码比特数，通过虚拟扬声器信号的编码比特数与传输通道的编码比特数的比值得到；

其中，所述传输通道的编码比特数包括所述虚拟扬声器信号的编码比特数和所述残差信号的编码比特数，当所述相异性声源数量小于或等于虚拟扬声器信号的通道数时，所述虚拟扬声器信号的编码比特数与传输通道的编码比特数的比值，通过增加所述虚拟扬声器信号的编码比特数与传输通道的编码比特数的初始比值得到。
根据权利要求1至25中任一项所述的方法，其特征在于，所述方法还包括：

对所述当前帧和所述声场分类结果进行编码，并写入码流。
一种三维音频信号的处理方法，其特征在于，包括：

接收码流；

解码所述码流以获得当前帧的声场分类结果；

根据所述声场分类结果获得所述当前帧解码后的三维音频信号。
根据权利要求27所述的方法，其特征在于，所述根据所述声场分类结果获得所述当前帧解码后的三维音频信号，包括：

根据所述声场分类结果确定所述当前帧的解码模式；

根据所述解码模式获得所述当前帧解码后的三维音频信号。
根据权利要求28所述的方法，其特征在于，所述根据所述声场分类结果确定所述当前帧的解码模式，包括：

当所述声场分类结果包括相异性声源数量，或所述声场分类结果包括相异性声源数量和声场类型时，根据所述相异性声源数量确定所述当前帧的解码模式；

或者，

当所述声场分类结果包括声场类型，或所述声场分类结果包括相异性声源数量和声场类型时，根据所述声场类型确定所述当前帧的解码模式；

或者，

当所述声场分类结果包括相异性声源数量和声场类型时，根据所述相异性声源数量和所述声场类型确定所述当前帧的解码模式。
根据权利要求29所述的方法，其特征在于，所述根据所述相异性声源数量确定所述当前帧对应的解码模式包括：

当所述相异性声源数量满足预设条件时，确定所述解码模式为第一解码模式；

当所述相异性声源数量不满足所述预设条件时，确定所述解码模式为第二解码模式；

其中，所述第一解码模式为基于虚拟扬声器选择的HOA解码模式或基于方向音频编码的HOA解码模式，所述第二解码模式为基于虚拟扬声器选择的HOA解码模式或基于方向音频编码的HOA解码模式，且所述第一解码模式和所述第二解码模式为不同的解码模式。
根据权利要求30所述的方法，其特征在于，所述预设条件包括所述相异性声源数量大于第一阈值且小于第二阈值，其中，所述第二阈值大于所述第一阈值；

或

所述预设条件包括所述相异性声源数量不大于第一阈值或不小于第二阈值，其中，所述第二阈值大于所述第一阈值。
根据权利要求27所述的方法，其特征在于，所述根据所述声场分类结果获得所述当前帧解码后的三维音频信号，包括：

根据所述声场分类结果确定所述当前帧的解码参数；

根据所述解码参数获得所述当前帧解码后的三维音频信号。
根据权利要求32所述的方法，其特征在于，所述解码参数，包括如下至少一种：虚拟扬声器信号的通道数、残差信号的通道数、虚拟扬声器信号的解码比特数、或残差信号的解码比特数；

其中，所述虚拟扬声器信号和所述残差信号是通过所述码流解码得到的。
根据权利要求33所述的方法，其特征在于，所述声场分类结果包括相异性声源数量和声场类型；

当所述声场类型为相异性声场时，所述虚拟扬声器信号的通道数满足如下关系：

F＝min(S，PF)，

其中，所述F为所述虚拟扬声器信号的通道数，所述S为所述相异性声源数量，所述PF为解码器预设的虚拟扬声器信号通道数；或，

当所述声场类型为弥散性声场时，所述虚拟扬声器信号的通道数满足如下关系：

F＝1，

其中，所述F为所述虚拟扬声器信号的通道数。
根据权利要求33或34所述的方法，其特征在于，当所述声场类型为弥散性声场时，所述残差信号的通道数满足如下关系：

R＝max(C-1，PR)，

其中，所述PR为解码器预设的残差信号通道数，所述C为所述解码器预设的残差信号的通道数和所述解码器预设的虚拟扬声器信号通道数之和；或，

当所述声场类型为相异性声场时，所述残差信号的通道数满足如下关系：

R＝C–F，

其中，所述R表示所述残差信号的通道数，所述C为解码器预设的残差信号通道数和所述解码器预设的虚拟扬声器信号通道数之和，所述F为所述虚拟扬声器信号的通道数。
根据权利要求33，或35所述的方法，其特征在于，所述声场分类结果包括相异性声源数量；

所述虚拟扬声器信号的通道数满足如下关系：

F＝min(S，PF)，

其中，所述F为所述虚拟扬声器信号的通道数，所述S为所述相异性声源数量，所述PF为解码器预设的虚拟扬声器信号通道数。
根据权利要求33至36中任一项所述的方法，其特征在于，所述残差信号的通道数满足如下关系：

R＝C–F，

其中，所述R表示所述残差信号的通道数，所述C为解码器预设的残差信号的通道数和所述解码器预设的虚拟扬声器信号的通道数之和，所述F为所述虚拟扬声器信号的通道数。
根据权利要求33至37中任一项所述的方法，其特征在于，所述声场分类结果包括相异性声源数量，或者所述声场分类结果包括相异性声源数量和声场类型；

所述虚拟扬声器信号的解码比特数，通过虚拟扬声器信号的解码比特数与传输通道的解码比特数的比值得到；

所述残差信号的解码比特数，通过虚拟扬声器信号的解码比特数与传输通道的解码比特数的比值得到；

其中，所述传输通道的解码比特数包括所述虚拟扬声器信号的解码比特数和所述残差信号的解码比特数，当所述相异性声源数量小于或等于虚拟扬声器信号的通道数时，所述虚拟扬声器信号的解码比特数与传输通道的解码比特数的比值，通过增加虚拟扬声器信号的解码比特数与传输通道的解码比特数的初始比值得到。
一种三维音频信号的处理装置，其特征在于，包括：

线性分析模块，用于对三维音频信号进行线性分解，以得到线性分解结果；

参数生成模块，用于根据所述线性分解结果获取所述当前帧对应的声场分类参数；

声场分类模块，用于根据所述声场分类参数确定所述当前帧的声场分类结果。
一种三维音频信号的处理装置，其特征在于，包括：

接收模块，用于接收码流；

解码模块，用于解码所述码流以获得当前帧的声场分类结果；

信号生成模块，用于根据所述声场分类结果获得所述当前帧解码后的三维音频信号。
一种三维音频信号的处理装置，其特征在于，所述三维音频信号的处理装置包括至少一个处理器，所述至少一个处理器用于与存储器耦合，读取并执行所述存储器中的指令，以实现如权利要求1至26中任一项所述的方法。
根据权利要求41所述的三维音频信号的处理装置，其特征在于，所述三维音频信号的处理装置还包括：所述存储器。
一种三维音频信号的处理装置，其特征在于，所述三维音频信号的处理装置包括至少一个处理器，所述至少一个处理器用于与存储器耦合，读取并执行所述存储器中的指令，以实现如权利要求27至38中任一项所述的方法。
根据权利要求43所述的三维音频信号的处理装置，其特征在于，所述音频解码装置还包括：所述存储器。
一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至26、或者27至38中任意一项所述的方法。
一种计算机可读存储介质，包括如权利要求1至26任一项所述的方法所生成的码流。