WO2023202250A1

WO2023202250A1 - 音频传输方法、装置、终端、存储介质及程序产品

Info

Publication number: WO2023202250A1
Application number: PCT/CN2023/079987
Authority: WO
Inventors: 梁俊斌
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2022-04-18
Filing date: 2023-03-07
Publication date: 2023-10-26
Also published as: CN116959458A

Abstract

一种音频传输方法、装置、终端(1100)、存储介质及程序产品，属于多媒体传输技术领域。方法包括：对输入信号进行子带分解和压缩编码，得到至少两组信号子带的第一子带编码数据(301)；基于输入信号的能量分布情况，从第一子带编码数据中确定第二子带编码数据(302)；对第二子带编码数据进行纠错编码，得到冗余数据(303)；向音频接收端(120)发送音频数据包，音频数据包中包含第一子带编码数据和冗余数据(304)。音频传输方法可以在提升音频传输质量的同时，降低音频传输过程中冗余数据的数据量。

Description

音频传输方法、装置、终端、存储介质及程序产品

本申请要求于2022年04月18日提交的申请号为202210405956.4、发明名称为“音频传输方法、装置、终端、存储介质及程序产品”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及多媒体传输技术领域，特别涉及一种音频传输方法、装置、终端、存储介质及程序产品。

背景技术

语音编解码在现代通讯系统中占有重要地位。在音视频通话场景中，信号发送端通过编码器对声音信号进行压缩和打包，而后按照网络传输格式和协议将数据发送至接收端。接收端对数据包进行解包和解码得到声音信号。

相关技术中，为了解决传输过程中的丢包问题，发送端通常采用前向纠错(ForwardErrorCorrection，FEC)技术进行信道编码，生成冗余数据包。接收端在确定存在丢包情况时，能够基于冗余数据包进行数据恢复，得到完整的多媒体数据。

然而，FEC冗余数据包会消耗额外的传输带宽，并且传输系统的抗丢包能力与编码冗余度正相关。为了保证通信质量，需要提高FEC编码冗余度，从而导致传输带宽和运行成本大幅度增加。

发明内容

本申请实施例提供了一种音频传输方法、装置、终端、存储介质及程序产品。所述技术方案如下：

一方面，本申请提供了一种音频传输方法，所述方法由音频发送端执行，所述方法包括：

对输入信号进行子带分解和压缩编码，得到至少两组信号子带的第一子带编码数据，不同信号子带对应所述输入信号的不同音频频段；

基于所述输入信号的能量分布情况，从所述第一子带编码数据中确定第二子带编码数据，所述第二子带编码数据对应信号子带的音频频段为信号能量集中频段；

对所述第二子带编码数据进行纠错编码，得到冗余数据；

向音频接收端发送音频数据包，所述音频数据包中包含所述第一子带编码数据和所述冗余数据，所述音频接收端用于在丢包的情况下基于所述冗余数据对所述第一子带编码数据进行数据恢复。

另一方面，本申请提供了一种音频传输方法，所述方法由音频接收端执行，所述方法包括：

接收音频数据包，所述音频数据包中包含冗余数据以及至少两组第一子带编码数据，所述冗余数据由音频发送端对所述第一子带编码数据中的第二子带编码数据进行纠错编码得到，所述第一子带编码数据由所述音频发送端对输入信号进行子带分解和压缩编码得到，不同子带编码数据对应所述输入信号中不同音频频段的第一信号子带，所述第二子带编码数据的音频频段为信号能量集中频段；

对所述第一子带编码数据进行丢包检测；

在所述第一子带编码数据丢包的情况下，基于所述冗余数据对所述第一子带编码数据进行数据恢复，得到输出信号。

另一方面，本申请提供了一种音频传输装置，所述装置包括：

子带编码模块，用于对输入信号进行子带分解和压缩编码，得到至少两组信号子带的第一子带编码数据，不同信号子带对应所述输入信号的不同音频频段；

确定模块，用于基于所述输入信号的能量分布情况，从所述第一子带编码数据中确定第二子带编码数据，所述第二子带编码数据对应信号子带的音频频段为信号能量集中频段；

纠错编码模块，用于对所述第二子带编码数据进行纠错编码，得到冗余数据；

数据发送模块，用于向音频接收端发送音频数据包，所述音频数据包中包含所述第一子带编码数据和所述冗余数据，所述音频接收端用于在丢包的情况下基于所述冗余数据对所述第一子带编码数据进行数据恢复。

数据接收模块，用于接收音频数据包，所述音频数据包中包含冗余数据以及至少两组第一子带编码数据，所述冗余数据由音频发送端对所述第一子带编码数据中的第二子带编码数据进行纠错编码得到，所述第一子带编码数据由所述音频发送端对输入信号进行子带分解和压缩编码得到，不同第一子带编码数据对应所述输入信号中不同音频频段的第一信号子带，所述第二子带编码数据的音频频段为信号能量集中频段；

丢包检测模块，用于对所述第一子带编码数据进行丢包检测；

解码模块，用于在所述第一子带编码数据丢包的情况下，基于所述冗余数据对所述第一子带编码数据进行数据恢复，得到输出信号。

另一方面，本申请提供了一种终端，所述终端包括处理器和存储器；所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如上述方面所述的音频传输方法。

另一方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现如上述方面所述的音频传输方法。

根据本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。终端的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该终端执行上述方面的各种可选实现方式中提供的音频传输方法。

本申请实施例提供的技术方案至少包括以下有益效果：

本申请实施例中，通过对输入信号进行分频段分解和压缩编码，得到至少两组第一子带编码数据，针对其中信号能量集中的部分子带编码数据进行纠错编码，确保音频接收端对主要音频数据的恢复能力。相比于直接对完整的输入信号进行纠错编码的方案，在提升音频传输质量的同时，能够降低冗余数据的数据量，从而降低纠错编码对传输带宽和运行成本的消耗。

附图说明

图1是相关技术方案的音频传输流程图；

图2是本申请一个示例性实施例提供的实施环境的示意图；

图3是本申请一个示例性实施例提供的音频传输方法的流程图；

图4是本申请另一个示例性实施例提供的音频传输方法的流程图；

图5是本申请一个示例性实施例提供的子带编码模型的框架图；

图6是本申请另一个示例性实施例提供的音频传输方法的流程图；

图7是本申请另一个示例性实施例提供的音频传输方法的流程图；

图8是本申请一个示例性实施例提供的音频编解码系统的框架图；

图9是本申请一个示例性实施例提供的音频传输装置的结构框图；

图10是本申请另一个示例性实施例提供的音频传输装置的结构框图；

图11是本申请一个示例性实施例提供的终端的结构框图。

具体实施方式

语音编解码在现代通讯系统中占有重要的地位。如图1所示，在语音通话场景中，声音信号经由麦克风采集得到，终端(发送端)通过模数转换电路将模拟的声音信号转换为数字声音信号。数字声音信号经过语音编码器进行压缩编码，而后按照通信网络传输格式和协议打包发送到接收端，接收端设备接收到数据包后解包输出语音编码压缩码流，通过语音解码器进行压缩解码后重新生成语音数字信号。最后语音数字信号通过扬声器播放声音信号。语音编解码有效地降低语音信号传输的带宽，对于节省语音信息存储传输成本，保障通信网络传输过程中的语音信息完整性方面起了决定性作用。

在实际应用中，传输网络的不稳定性会导致传输过程出现丢包现象，造成接收端声音的卡顿和不连贯，使收听者体验较差。为抵抗网络丢包采取了多种方法，包括：前向纠错、丢包隐藏、自动重传请求等，其中前向纠错抗丢包方案能有效解决完美恢复丢包位置信息。经过前向纠错编码后的数据打包发送到接收端，接收端接收到前向纠错码后进行解码从而能恢复出丢包位置的完整数据，实现完美恢复的效果。前项纠错需要额外消耗带宽，且前项纠错的冗余度越高抗丢包能力越强，但同时也带来带宽的增加。因此如何有效控制前向纠错冗余度，减少带宽消耗的同时达到端到端较佳的音频传输效果，是值得研究的课题。

本申请提出了一种音频传输方法，请参考图2，其示出了本申请一个示例性实施例提供的实施环境的示意图。该实施环境中包括：音频发送端110和音频接收端120。

音频发送端110结合子带编解码方法，对输入信号进行子带分解和压缩编码并进行信号分类，根据信号分类结果，对能量集中的部分子带编码数据进行纠错编码，生成冗余数据。音频发送端110向音频接收端120发送各组子带编码数据以及冗余数据。音频接收端120接收并解析数据，检测子带编码数据是否丢包。在丢包的情况下，音频接收端120可以基于冗余数据恢复出能量集中频段的信号子带，进而通过子带预测得到完整的输出信号。通过结合子带编码以及纠错编码，传输部分子带的纠错编码，相比于相关技术中的纠错编码方案，能够有效降低纠错编码的比特消耗，从而降低传输带宽和运行成本。

值得一提的是，图中所示的音频发送端110也可以作为接收端接收音频数据，音频接收端120也可以作为发送端发送音频数据。并且，图中仅示出了两个终端接入传输网络，实际应用场景(比如多人通话场景或在线会议场景等)中终端的数量可以更多。本申请实施例对终端的数量和设备类型不加以限定。

请参考图3，其示出了本申请一个示例性实施例提供的音频传输方法的流程图。本实施例以该方法由音频发送端执行为例进行说明，该方法包括如下步骤：

步骤301，对输入信号进行子带分解和压缩编码，得到至少两组信号子带的第一子带编码数据，不同信号子带对应输入信号的不同音频频段。

输入信号为终端通过麦克风等装置采集到的声音信号。在一种可能的实施方式中，音频发送端将输入信号从时域转换至频域，在频域上对输入信号进行子带分解，得到不同音频频段的信号子带，并分别对各组信号子带的输入信号进行压缩编码，得到各组信号子带的第一子带编码数据。因此不同信号子带对应输入信号的不同音频频段。

可选的，音频发送端通过对输入信号进行一次子带分解和压缩编码得到各信号子带的第一子带编码数据，或者音频发送端对输入信号进行多次子带分解(例如先通过一次子带分解得到两组信号子带，然后继续对部分或全部信号子带进行再分解)，然后进行压缩编码。若单次子带分解，则可以得到两组信号子带，对应压缩编码后得到两组第一子带编码数据；若经过多次子带分解，则可以至少得到三组以及三组以上信号子带，对应压缩编码后得到三组以及三组以上第一子带编码数据。

示意性的，在语音通话场景中，人说话声的频率通常分布在500Hz至4KHz的范围内，因此对于16KHz音频文件的传输，音频发送端首先对输入信号进行子带分解和压缩编码，得到0-8KHz以及8KHz-16KHz两个音频频段的第一子带编码数据。

可选的，音频发送端可以使用多个带通滤波器(Band-Pass Filter，BPF)将输入信号分成若干连续的音频频段，每个音频频段的输入信号称为信号子带，进而对每个信号子带进行担负压缩编码，从而得到输入信号的多组第一子带编码数据。

步骤302，基于输入信号的能量分布情况，从第一子带编码数据中确定第二子带编码数据，第二子带编码数据对应信号子带的音频频段为信号能量集中频段。

不同于相关技术中直接对全部原始数据包进行纠错编码，并将编码后数据发送给音频接收端，虽然抗丢包能力较强，但是相对会带来较多额外带宽的消耗；为了减少音频传输过程中的带宽消耗，本实施例中，通过仅提取输入信号中部分关键信号子带的子带编码数据进行纠错编码，以减少传输冗余数据(纠错编码后得到的编码数据)所需消耗的带宽。则为了可以使得后续可以对部分第一子带编码数据进行纠错编码，首先音频发送端需要从第一子带编码数据中确定关键信号子带的第二子带编码数据。

可选的，由于关键信号子带往往是输入信号中的信号能量集中频段，比如，若输入信号的绝大部分能量集中在低频，则输入信号中的低频子带即输入信号中的关联信号子带；若输入信号的绝大部分能量集中在高频，则输入信号中的高频子带即关键信号子带。对应音频发送端可以通过计算输入信号的能量分布情况，从输入信号中确定出信号能量集中的音频频段，将该音频频段对应的第一子带编码数据确定为第二子带编码数据，即关键子带编码数据。

例如，对于步骤301中的输入信号，若音频发送端确定信号能量集中在0-8KHz这一音频频段，则将该音频频段的第一子带编码数据确定为第二子带编码数据。

可选的，第二子带编码数据为能量占比最高的一组第一子带编码数据，或者，在频带划分较为精细的情况下，第二子带编码数据包含能量占比最高的多组第一子带编码数据。本申请实施例对此不作限定。

步骤303，对第二子带编码数据进行纠错编码，得到冗余数据。

在实际音频传输场景中，由于传输网络的不稳定性、设备硬件的故障等原因，导致音频数据传输过程出现丢包现象，从而造成音频接收端所播放声音的卡顿和不连贯，会使收听者体验较差。传输系统通常采用纠错编码的方式抵抗网络丢包。纠错编码又称为信道编码，主要包括丢包隐藏(Packet Loss Concealment，PLC)、自动重传请求(Automatic Repeat-reQuest，ARQ)、前向纠错(Forward Error Correction，FEC)编码、混合纠错编码、比特交织以及BCH纠错编码等技术。其中，前向纠错编码又可以通过里德-所罗门码(Reed-Solomoncode，RScode)，汉明码(HammingCode)或低密度奇偶校验码(Low Density Parity Check Code，LDPC)等多种算法实现。

音频发送端对第二子带编码数据进行纠错编码得到冗余数据，而对于其它第一子带编码数据则不进行纠错编码。以此确保音频接收端能够在丢包的情况下基于冗余数据首先恢复出重要音频频段(关键音频频段)的声音信号。同时又能够降低冗余数据对传输带宽的损耗。

步骤304，向音频接收端发送音频数据包，音频数据包中包含第一子带编码数据和冗余数据，音频接收端用于在丢包的情况下基于冗余数据对所述第一子带编码数据进行数据恢复。

可选的，音频发送端将输入信号对应的各组第一子带编码数据以及冗余数据打包发送至音频接收端，使音频接收端基于第一子带编码数据和冗余数据进行解码，最终输出声音信号。

综上所述，本申请实施例中，通过对输入信号进行分频段分解和压缩编码，得到至少两组第一子带编码数据，针对其中信号能量集中的部分第二子带编码数据进行纠错编码，确保音频接收端对主要音频数据的恢复能力。相比于直接对完整的输入信号进行纠错编码的方案，在提升音频传输质量的同时，能够降低冗余数据的数据量，从而降低纠错编码对传输带宽和运行成本的消耗。

在一种可能的实施方式中，开发人员可以基于实际应用场景，设置固定的需要进行纠错编码的音频频段，例如对于语音通话场景，由于人声通常为低频信号，因此设置音频发送端将低频子带的第一子带编码数据作为第二子带编码数据，也即仅对低频子带的第一子带编码数据进行纠错编码。而为了提高音频编码以及传输质量，音频发送端还可以通过计算能量占比从第一子带编码数据中确定第二子带编码数据。

请参考图4，其示出了本申请另一个示例性实施例提供的音频传输方法的流程图。本实施例以该方法由音频发送端执行为例进行说明，该方法包括如下步骤：

步骤401，对麦克风采集到的模拟声音信号进行模数转换，生成数字声音信号。

在语音通话场景中，声音信号经由麦克风采集得到，此时音频发送端采集到的声音信号为模拟信号。音频发送端通过模数转换电路将模拟的声音信号转换为数字声音信号，以便进行后续的压缩编码、纠错编码以及音频传输。

步骤402，对数字声音信号进行傅里叶变换，得到频域信号。

子带编码技术是将原始信号由时间域转变为频率域，然后将其分割为若干个子频带，并分别对各个子频带的信号进行数字编码的技术。由于音频发送端需要对输入信号进行子带分解，因此首先将时域的信号转换为频域的信号。音频发送端通过对数字声音信号进行傅里叶变换，得到频域声音信号。

步骤403，对频域信号进行子带分解和压缩编码，生成至少两组信号子带的第一子带编码数据。

音频发送端通过将输入信号分解成不同频带的分量以去除信号相关性，再将每组分量分别进行取样、量化、编码，从而得到多组互不相关的码字。在一种可能的实施方式中，步骤403具体实施方式可以包括如下步骤403a至步骤403b(图中未示出)：

步骤403a，通过至少两个带通滤波器对频域信号进行子带分解，得到至少两个信号子带，不同带通滤波器对应不同音频频段，且各个带通滤波器的音频频段连续。

如图5所示，语音子带编码的基本思想是由音频发送端先通过一组带通滤波器将输入信号分解成若干个在不同音频频段上的信号子带，然后将这些信号子带经过频率搬移转变成基带信号，再分别对各个基带信号进行取样。取样后的信号经过量化、编码，合并成一个总的码流传输给接收端。子带编码可以根据人耳的听觉特性，合理分配各信号子带的比特数，以得到更好的听觉效果，同时还能够节省存储资源，降低传输带宽。

在一种可能的实施方式中，本申请实施例中的音频发送端基于上述基本思想对输入信号进行子带分解和压缩编码处理，得到各个信号子带的第一子带编码数据。音频发送端首先通过一组带通滤波器，例如正交镜像滤波器组(Quadrature Mirror Filter，QMF)，将一帧输入信号的频带分成若干个连续的音频频段，每个音频频段称为信号子带。

步骤403b，对信号子带进行频率搬移以及量化编码，得到各组信号子带的第一子带编码数据。

音频发送端将各信号子带进行频率搬移，移至高频端，并对频率搬移后的信号子带进行量化编码。可选的，音频发送端采用统一的编码方案对各组信号子带进行编码，或者，音频发送端对每组信号子带采用单独的编码方案进行编码。本申请实施例对此不作限定。

步骤404，基于输入信号在各音频频段内的样点信号，确定低频子带的低频能量占比。

可选的，音频发送端在对输入信号进行子带分解后，同步进行压缩编码和低频能量占比的计算，或者，音频发送端在对信号子带进行压缩编码之后再计算输入信号的低频能量占比，本申请实施例对此不作限定。

音频发送端通过计算低频子带的能量占比，确定能量集中的信号子带。若低频子带的能量占比高，则说明信号能量集中在低频子带；若低频子带的能量占比较低，则说明信号能量集中在高频子带。其中，低频子带的音频频率低于其他信号子带的音频频率。

示意性的，低频能量占比的计算公式如下：

其中，x(k，i)为单帧信号经过子带分解后第k个信号子带的第i个样点信号，其中k值越大则对应的子带频率越高，k＝1代表的是低频子带，M为总子带数。可选的，样点信号是各个信号子带中的采样点信号。

可选的，当输入信号被分解为两组信号子带时，音频发送端只需计算低频的一个信号子带的能量占比。当总信号子带数大于2时，音频发送端计算最低频的一组信号子带的能量占比，或者计算最低频的多组信号子带的能量占比，开发人员可以根据实际应用场景以及音频文件格式等因素，设置低频能量占比的计算方式以及第二子带编码数据的确定方式。例如，当终端传输的音频文件为32KHz时，音频发送端可以首先将输入信号分解为0-16KHz以及16-32KHz两个频段，然后再将0-16KHz的频段分解为0-8KHz和8-16KHz两个频段，并计算0-8KHz频段以及8-16KHz频段的低频能量占比。本申请实施例对此不作限定。

步骤405，基于低频能量占比，从第一子带编码数据中确定第二子带编码数据。

可选的，音频发送端基于低频能量占比，判断能量所集中的音频频段，继而将能量集中的音频频段(信号子带)的第一子带编码数据确定为第二子带编码数据。在一种可能的实施方式中，步骤405具体可以包括如下步骤405a至步骤405b(图中未示出)：

步骤405a，在低频能量占比高于阈值的情况下，将低频子带的第一子带编码数据确定为第二子带编码数据。

可选的，音频发送端中存储有阈值，当音频发送端计算出低频能量占比后，通过比较低频能量占比和阈值的大小关系，并根据比较结果对输入信号进行分类，以确定输入信号属于低频信号或高频信号，进而根据比较结果确定选取低频子带或高频子带的第一子带编码数据，作为第二子带编码数据。

可选的，低频子带是信号子带中音频频率低于其他信号子带的信号子带，高频子带是信号子带中音频频率高于其他信号子带的信号子带。

可选的，当音频发送端确定低频能量占比高于阈值时，表示输入信号为低频信号，低频信号子带即为输入信号的关键信号自子带，后续需要对低频信号子带进行着重修复。则音频发送端直接将低频信号子带的第一子带编码数据确定为第二子带编码数据。在输入信号被分解为三组或三组以上信号子带的情况下，音频发送端可以通过计算多组信号子带的能量占比，确定能量集中的信号子带，进而确定第二子带编码数据。

示意性的，输入信号被分解为0-8KHz和8-16KHz两个频段的信号子带，阈值为50％，若0-8KHz的低频能量占比高于50％，则确定输入信号为低频信号，低频信号为关键信号子带，对应音频发送端将0-8KHz频段的第一子带编码数据确定为第二子带编码数据。

步骤405b，在低频能量占比低于阈值的情况下，将高频子带的第一子带编码数据确定为第二子带编码数据，高频子带的音频频率高于其它信号子带的音频频率。

可选的，在输入信号被分解为两组信号子带的情况下，若低频能量占比低于阈值，表示输入信号为高频信号，高频信号子带即为输入信号的关键信号自子带，后续需要对高频信号子带进行着重修复。则音频发送端直接将高频信号子带的第一子带编码数据确定为第二子带编码数据。在输入信号被分解为三组或三组以上信号子带的情况下，音频发送端可以通过计算多组信号子带的能量占比，确定能量集中的信号子带，进而确定第二子带编码数据。

步骤406，对第二子带编码数据进行纠错编码，得到冗余数据。

步骤406的具体实施方式可以参考上述步骤303，本申请实施例在此不再赘述。

步骤407，基于低频能量占比生成信号类型标识。

其中，信号类型标识用于指示输入信号属于浊音信号或非浊音信号，其中，浊音信号的低频能量占比高于阈值，低频信号对语音可懂度起到关键作用，需要对低频信号子带的第一子带编码数据进行纠错编码，以便在丢包的情况下可以着重恢复低频信号；非浊音信号的低频能量占比低于阈值，高频信号对语音可懂度起到关键作用，需要对高频信号子带的第一子带编码数据进行纠错编码，以便在丢包的情况下可以着重恢复高频信号。

在一种可能的实施方式中，终端在计算得到低频能量占比后，对输入信号进行分类，信号类型包括浊音信号和非浊音信号。浊音信号指能量集中在低频区域的声音信号，非浊音信号指能量集中在高频区域的声音信号。浊音信号与非浊音信号对应的信号类型标识不同。可选的，音频发送端在确定输入信号的低频能量占比高于阈值时，确定输入信号为浊音信号，设置浊音信号的信号类型标识；若音频发送端确定输入信号的高频能量占比低于阈值时，确定输入信号为非浊音信号，设置非浊音信号的信号类型标识。

在另一种可能的实施方式中，音频发送端在计算得到低频能量占比后，首先对输入信号进行分类，生成信号类型标识，并在音频数据包中携带输入信号的信号类型标识，使得音频接收端在确定丢包的情况下，可以根据信号类型标识从第一子带编码数据中确定需要着重修复的第二子带编码数据，进而基于冗余数据对第二子带编码数据进行纠错编码。可选的，当信号类型标识属于浊音信号标识时，表示在丢包情况下主要需要对低频信号子带进行数据恢复，对应音频接收端从第一子带编码数据中确定低频信号子带的第一子带编码数据(第二子带编码数据)，进而基于冗余数据对第二子带编码数据进行数据恢复。当信号类型标识属于非浊音信号标识时，表示在丢包情况下主要需要对高频信号子带进行数据恢复，对应音频接收端从第一子带编码数据中确定高频信号子带的第一子带编码数据(第二子带编码数据)，进而基于冗余数据对第二子带编码数据进行数据恢复。

可选的，在信号类型标识属于浊音信号标识时，音频发送端对低频子带的第一子带编码数据进行纠错编码；当信号类型标识属于非浊音信号标识时，音频发送端对高频子带的第一子带编码数据进行纠错编码。

步骤408，对第一子带编码数据、冗余数据以及信号类型标识进行打包，生成音频数据包。

可选的，音频发送端将信号类型标识与第一子带编码数据和冗余数据打包后一同发送至音频接收端，以便音频接收端在丢包的情况下基于信号类型标识，从第一子带编码数据中确定出第二子带编码数据，并进行数据恢复和信号子带预测。其中，若信号类型标识为浊音信号标识，音频接收端将低频子带的第一子带编码数据确定为第二子带编码数据；若信号类型标识为非浊音信号标识，信号接收端将高频子带的第一子带编码数据确定为第二子带编码数据。

步骤409，向音频接收端发送音频数据包。

可选的，当音频发送端基于信号类型标识、第一子带编码数据和冗余数据生成音频数据包后，即可以向音频接收端发送音频数据包，对应音频接收端用于在丢包的情况下，基于信号类型标识从第一子带编码数据中确定第二子带编码数据，以及基于第二子带编码数据和冗余数据进行数据恢复。

本申请实施例中，音频发送端通过计算低频子带的低频能量占比，确定能量集中的频段，进而确定第二子带编码数据，使得能够对实际重要的信号子带进行纠错编码，避免由于对固定频段进行纠错编码，导致丢包时无法恢复出连续信号的情况，在降低传输带宽的基础上提高了信号传输质量。此外，通过确定输入信号的信号类型标识，并在音频数据包中携带该信号类型标识，使得音频接收端在丢包的情况下，可以根据信号类型标识，从第一子带编码数据中确定出需要进行数据修复的第二子带编码数据，进而基于冗余数据和第二子带编码数据进行数据恢复；使得音频接收端无需重复确定需要进行修复的信号子带，且可以准确定位出需要进行数据恢复的信号子带，提高丢包情况下数据修复的准确行。

上述各个实施例示出了音频发送端进行子带编码以及纠错编码的过程。对于音频接收端，在接收到音频数据包后，首先判断是否存在丢包的情况。在发生丢包的情况下，需要音频接收端基于冗余数据对第一子带编码数据进行数据恢复和子带预测，从而输出连续的声音信号。请参考图6，其示出了本申请一个示例性实施例提供的音频传输方法的流程图。本实施例以该方法由音频接收端执行为例进行说明，该方法包括如下步骤：

步骤601，接收音频数据包。

音频数据包中包含冗余数据以及至少两组第一子带编码数据，冗余数据由音频发送端对第一子带编码数据中的第二子带编码数据进行纠错编码得到，所述第一子带编码数据由所述音频发送端对输入信号进行子带分解和压缩编码得到，不同第一子带编码数据对应输入信号中不同音频频段的第一信号子带，第二子带编码数据对应的音频频段为信号能量集中频段。

音频接收端接收音频数据包后进行数据解析，得到音频数据包中包含的第一子带编码数据和冗余数据并进行数据缓存。

步骤602，对第一子带编码数据进行丢包检测。

在一种可能的实施方式中，音频发送端在进行数据编码的过程中，按照信号采集的时序，对第一子带编码数据添加连续的编号。音频接收端解析数据后，检测第一子带编码数据对应的编号是否连续。若编号连续，则确定第一子带编码数据未丢包，若编号不连续，则确定存在丢包的情况。

步骤603，在第一子带编码数据丢包的情况下，基于冗余数据对第一子带编码数据进行数据恢复，得到输出信号。

当未发生丢包时音频接收端直接进行子带解码流程。若检测到存在丢包的情况，则音频接收端需要先从数据缓存区中获取冗余数据以及相邻数据包进行纠错解码，得到丢包位置的子带编码数据，然后通过子带解码以及子带预测，得到连续的输出信号。

本申请实施例中，音频接收端接收包含冗余数据以及第一子带编码数据的音频数据包，其中冗余数据是音频发送端针对能量集中频段的数据进行纠错编码的到的，相比于直接对完整输入信号进行纠错编码的方式，在提升网络抗丢包能力的同时，一方面能够降低冗余数据的数据量，减少音频接收端缓存数据所消耗的存储资源，另一方面能够降低传输带宽和运行成本。

由于冗余数据并非是对完整输入信号进行纠错编码得到，而是根据输入信号的信号类型，仅对输入信号中的低频子带或者高频子带进行纠错编码得到。因此，根据冗余数据仅能恢复出低频子带或高频子带的输入信号，则在数据修复过程中，需要根据输入信号的信号类型标识，确定如何对第一子带编码数据进行数据修复。

请参考图7，其示出了本申请另一个示例性实施例提供的音频传输方法的流程图。本实施例以该方法由音频接收端执行为例进行说明，该方法包括如下步骤：

步骤701，接收音频数据包。

步骤702，对第一子带编码数据进行丢包检测。

步骤701至步骤702的具体实施方式可以参考上述步骤601至步骤602，本申请实施例在此不再赘述。

步骤703，基于信号类型标识从第一子带编码数据中确定第二子带编码数据。

在一种可能的实施方式中，音频数据包中还包含信号类型标识，该信号类型标识用于指示第一子带编码数据对应的输入信号属于浊音信号或非浊音信号。其中，浊音信号的第二子带编码数据为低频子带的第一子带编码数据，非浊音信号的第二子带编码数据为高频子带的第一子带编码数据。低频子带的音频频率低于其它第一信号子带的音频频率，高频子带的音频频率高于其它第一信号子带的音频频率。即，浊音信号指信号能量集中在低频区域的声音信号(输入信号)，非浊音信号指信号能量集中在非低频区域的声音信号(输入信号)。

当存在丢包的情况时，音频接收端需要从数据缓存区中读取相关冗余数据以及相邻数据包进行纠错解码。而冗余数据是音频接收端针对第二子带编码数据进行纠错编码得到的，因此音频接收端首先基于信号类型标识所指示的信号类型(浊音信号或非浊音信号)，从至少两组第一子带编码数据中确定出第二子带编码数据。若信号类型标识指示信号类型为浊音信号，则将低频子带的第一子带编码数据确定为第二子带编码数据；若信号类型标识指示信号类型为非浊音信号，则将高频子带的第一子带编码数据确定为第二子带编码数据。

步骤704，基于冗余数据以及相邻音频数据包中的第一子带编码数据，对第二子带编码数据进行纠错解码。

基于音频发送端的纠错编码算法，音频接收端采用对应的纠错解码算法进行纠错解码，得到丢包位置的子带编码数据和信号分类标识。

步骤705，对纠错解码后的第二子带编码数据进行子带解码，得到第二信号子带。

音频接收端恢复出丢包位置的第二子带编码数据后，对完整的第二子带编码数据进行压缩解码，得到第二信号子带。

步骤706，基于第二信号子带对其它第一子带编码数据进行数据恢复。

冗余数据是音频发送端对第二子带编码数据进行纠错编码得到的，音频接收端同样也是基于冗余数据对第二子带编码数据进行丢包数据恢复。而音频数据是以数据捆包的形式在信道中传输，丢包即意味着各个子带编码数据均存在丢包情况。因此音频接收端还需基于恢复出的第二信号子带和信号分类标识，对其它子带的数据进行子带预测，才能够得到完整声音信号。

本申请实施例采用深度学习的方法进行子带预测。在一种可能的实施方式中，当接收到的音频帧属于浊音帧时，步骤706具体包括如下步骤706a至步骤706c(图中未示出)：

步骤706a，在信号类型标识属于浊音信号标识的情况下，对第二信号子带进行特征提取，得到第一信号特征，第一信号特征包括对数功率谱、基因周期以及互相关值中的至少一种。

对于浊音帧(浊音信号)，由于冗余数据是低频子带的第一子带编码数据进行纠错编码得到的，则在纠错解码后，仅可以得到低频的第二信号子带，而为了恢复出完成输入信号，对应音频接收端还需要通过低频子带的解码信号预测高频子带信号。首先经过提取低频子带(第二信号子带为低频子带)的相关特征作为深度学习网络的输入，例如：对数功率谱、基音周期、互相关值。

步骤706b，将第一信号特征输入第一深度学习网络，得到第一深度学习网络输出的高频子带功率谱。

第一深度学习网络基于样本低频信号的信号特征以及样本高频信号的功率谱训练得到，样本低频信号以及样本高频信号属于同一声音信号的不同信号子带。

在一种可能的实施方式中，在模型训练阶段，计算机设备对样本声音信号进行子带分解，得到样本低频信号和样本高频信号。计算机设备将样本低频信号的信号特征输入第一深度学习网络，得到第一深度学习网络预测的高频子带功率谱。计算机设备基于样本高频信号的功率谱以及第一深度学习网络的预测结果，对第一深度学习网络进行反向传播训练。

第一深度学习网络可以是多层卷积神经网络(Convolutional Neural Networks，CNN)和多层长短期记忆网络(Long Short-Term Memory，LSTM)的结合。

步骤706c，基于高频子带功率谱以及随机相位值进行反傅里叶变换，得到高频子带信号。

经过第一深度学习网络预测得到的高频功率谱值，配合随机相位值，并经过反傅里叶变换，即可得到时域高频子带信号。

可选的，音频接收端将基于冗余数据恢复出的第二信号子带，以及根据第二信号子带预测得到的高频子带信号合并，即可以得到数据恢复出的完整输出信号。

在一种可能的实施方式中，当接收到的音频帧属于非浊音帧时，步骤706具体包括如下步骤706d至步骤706f(图中未示出)：

步骤706d，在信号类型标识属于非浊音信号标识的情况下，对第二信号子带进行特征提取，得到第二信号特征，第二信号特征包括对数功率谱。

对于非浊音帧(非浊音信号)，由于冗余数据是高频子带的第一子带编码数据进行纠错编码得到的，则在纠错解码后，仅可以得到高频的第二信号子带，而为了恢复出完成输入信号，对应音频接收端还需要通过高频子带的解码信号(第二信号子带)预测低频子带。首先经过提取高频信号的相关特征作为深度学习网络的输入，例如对数功率谱。

步骤706e，将第二信号特征输入第二深度学习网络，得到第二深度学习网络输出的低频子带功率谱。

第二深度学习网络基于样本高频信号的信号特征以及样本低频信号的功率谱训练得到，样本低频信号以及样本高频信号属于同一声音信号的不同信号子带。

在一种可能的实施方式中，在模型训练阶段，计算机设备对样本声音信号进行子带分解，得到样本低频信号和样本高频信号。计算机设备将样本高频信号的信号特征输入第二深度学习网络，得到第二深度学习网络预测的低频子带功率谱。计算机设备基于样本低频信号的功率谱以及第二深度学习网络的预测结果，对第二深度学习网络进行反向传播训练。

第二深度学习网络可以是多层CNN和多层LSTM的结合。

步骤706f，基于低频子带功率谱以及随机相位值进行反傅里叶变换，得到低频子带信号。

经过第二深度学习网络预测得到的低频信号功率谱值，配合随即相位值，再经过反傅里叶变换，即可得到时域低频子带信号。

可选的，音频接收端将基于冗余数据恢复出的第二信号子带，以及根据第二信号子带预测得到的低频子带信号合并，即可以得到数据恢复出的完整输出信号。

步骤707，基于各个第二信号子带进行子带合成，得到输出信号。

音频接收端进行子带预测和恢复后，得到所有子带的完整子带信号。随后经过子带合成，例如QMF子带合成方法，将多组子带信号合成为一个完整的子带信号进行输出。

上述步骤703至步骤707是在子带编码数据丢包的情况下，音频接收端进行纠错解码和子带预测，得到完整声音信号的过程。在一种可能的实施方式中，步骤702之后还包括如下步骤(图中未示出)：

在子带编码数据未丢包的情况下，对第一子带编码数据进行子带解码以及子带合成，得到输出信号。

若不存在丢包的情况，音频接收端可直接对各组子带编码数据进行压缩解码，得到第二信号子带。而后经过反傅里叶变换、子带合成等过程，得到输出信号。

本申请实施例中，在丢包的情况下，音频接收端可以基于冗余数据恢复出关键信号子带，进而基于关键信号子带预测得到其他信号子带，保证了输入信号中与可懂度相关的部分信号的传输准确性，进一步提高了音频传输网络的抗丢包能力。

如图8所示，其示出了音频发送端采集并发送音频以及音频接收端接收并输出音频的流程。音频发送端对输入信号进行编码：首先对输入信号进行子带分解和子带编码，同时确定输入信号的类型，信号类型包括浊音信号和非浊音信号；对于浊音信号，音频发送端提取低频子带编码码流和信号类型标识进行纠错编码，对于非浊音信号则提取高频子带编码码流和信号分类标识进行纠错编码；最终对子带编码数据、纠错编码冗余数据进行数据捆包发送至音频接收端，音频接收端对接收到的信号进行解码：首先接收数据并缓存；检测是否存在丢包情况，若没有发生丢包则进行子带解码流程，将解码得到的各子带信号经过子带合成得到完整输出信号，若发生丢包则从数据缓存区中获取相关冗余数据以及相邻数据宝进行纠错解码，经过纠错解码得到丢包位置的子带编码数据和信号类型标识；基于纠错解码得到的子带码流，对其余子带进行预测和恢复，得到所有子带信号，随后经过子带合成得到完整的输出信号。

图9是本申请一个示例性实施例提供的音频传输装置的结构框图，该装置包括如下结构：

子带编码模块901，用于对输入信号进行子带分解和压缩编码，得到至少两组信号子带的第一子带编码数据，不同信号子带对应所述输入信号的不同音频频段；

确定模块902，用于基于所述输入信号的能量分布情况，从所述第一子带编码数据中确定第二子带编码数据，所述第二子带编码数据对应信号子带的音频频段为信号能量集中频段；

纠错编码模块903，用于对所述第二子带编码数据进行纠错编码，得到冗余数据；

数据发送模块904，用于向音频接收端发送音频数据包，所述音频数据包中包含所述第一子带编码数据和所述冗余数据，所述音频接收端用于在丢包的情况下基于所述冗余数据对所述第一子带编码数据进行数据恢复。

可选的，所述确定模块902，还用于：

基于所述输入信号在各音频频段内的样点信号，确定低频子带的低频能量占比，所述低频子带的音频频率低于其它信号子带的音频频率；

基于所述低频能量占比，从所述第一子带编码数据中确定所述第二子带编码数据。

可选的，所述确定模块902，还用于：

在所述低频能量占比高于阈值的情况下，将所述低频子带的所述第一子带编码数据确定为所述第二子带编码数据；

在所述低频能量占比低于所述阈值的情况下，将高频子带的所述第一子带编码数据确定为所述第二子带编码数据，所述高频子带的音频频率高于其它信号子带的音频频率。

可选的，所述装置还包括：

标识生成模块，用于基于所述低频能量占比生成信号类型标识，所述信号类型标识用于指示所述输入信号属于浊音信号或非浊音信号，其中，所述浊音信号的所述低频能量占比高于所述阈值，所述非浊音信号的所述低频能量占比低于所述阈值；

所述数据发送模块904，还用于：

对所述第一子带编码数据、所述冗余数据以及所述信号类型标识进行打包，生成所述音频数据包；

向所述音频接收端发送所述音频数据包，所述音频接收端用于在丢包的情况下，基于所述信号类型标识从所述第一子带编码数据中确定所述第二子带编码数据，以及基于所述第二子带编码数据和所述冗余数据进行数据恢复。

可选的，所述子带编码模块901，还用于：

对麦克风采集到的模拟声音信号进行模数转换，生成数字声音信号；

对所述数字声音信号进行傅里叶变换，得到频域信号；

对所述频域信号进行子带分解和压缩编码，生成至少两组信号子带的所述第一子带编码数据。

可选的，所述子带编码模块901，还用于：

通过至少两个带通滤波器对所述频域信号进行子带分解，得到至少两个所述信号子带，不同带通滤波器对应不同音频频段，且各个所述带通滤波器的所述音频频段连续；

对所述信号子带进行频率搬移以及量化编码，得到各组所述信号子带的所述第一子带编码数据。

图10是本申请另一个示例性实施例提供的音频传输装置的结构框图，该装置包括如下结构：

数据接收模块1001，用于接收音频数据包，所述音频数据包中包含冗余数据以及至少两组第一子带编码数据，所述冗余数据由音频发送端对所述第一子带编码数据中的第二子带编码数据进行纠错编码得到，所述第一子带编码数据由所述音频发送端对输入信号进行子带分解和压缩编码得到，不同第一子带编码数据对应所述输入信号中不同音频频段的第一信号子带，所述第二子带编码数据的音频频段为信号能量集中频段；

丢包检测模块1002，用于对所述第一子带编码数据进行丢包检测；

解码模块1003，用于在所述第一子带编码数据丢包的情况下，基于所述冗余数据对所述第一子带编码数据进行数据恢复，得到输出信号。

可选的，所述音频数据包中还包含信号类型标识，所述信号类型标识用于指示所述输入信号属于浊音信号或非浊音信号，其中，所述浊音信号的所述第二子带编码数据为低频子带的所述第一子带编码数据，所述非浊音信号的所述第二子带编码数据为高频子带的所述第一子带编码数据，所述低频子带的音频频率低于其它第一信号子带的音频频率，所述高频子带的音频频率高于其它第一信号子带的音频频率；

所述解码模块1003，还用于：

基于所述信号类型标识从所述第一子带编码数据中确定所述第二子带编码数据；

基于所述冗余数据以及相邻音频数据包中的第一子带编码数据，对所述第二子带编码数据进行纠错解码；

对纠错解码后的所述第二子带编码数据进行子带解码，得到第二信号子带；

基于所述第二信号子带对其它所述第一子带编码数据进行数据恢复；

基于各个所述第二信号子带进行子带合成，得到所述输出信号。

可选的，所述解码模块1003，还用于：

在所述信号类型标识属于浊音信号标识的情况下，对所述第二信号子带进行特征提取，得到第一信号特征，所述第一信号特征包括对数功率谱、基因周期以及互相关值中的至少一种；

将所述第一信号特征输入第一深度学习网络，得到所述第一深度学习网络输出的高频子带功率谱，所述第一深度学习网络基于样本低频信号的信号特征以及样本高频信号的功率谱训练得到，所述样本低频信号以及所述样本高频信号属于同一声音信号的不同信号子带；

基于所述高频子带功率谱以及随机相位值进行反傅里叶变换，得到高频子带信号。

可选的，所述解码模块1003，还用于：

在所述信号类型标识属于非浊音信号标识的情况下，对所述第二信号子带进行特征提取，得到第二信号特征，所述第二信号特征包括对数功率谱；

将所述第二信号特征输入第二深度学习网络，得到所述第二深度学习网络输出的低频子带功率谱，所述第二深度学习网络基于样本高频信号的信号特征以及样本低频信号的功率谱训练得到，所述样本低频信号以及所述样本高频信号属于同一声音信号的不同信号子带；

基于所述低频子带功率谱以及随机相位值进行反傅里叶变换，得到低频子带信号。

可选的，所述解码模块1003，还用于：

在所述子带编码数据未丢包的情况下，对所述第一子带编码数据进行子带解码以及子带合成，得到所述输出信号。

综上所述，本申请实施例中，通过对输入信号进行分频段分解和压缩编码，得到至少两组子带编码数据，针对其中信号能量集中的部分子带编码数据进行纠错编码，确保音频接收端对主要音频数据的恢复能力。相比于直接对完整的输入信号进行纠错编码的方案，在提升音频传输质量的同时，能够降低冗余数据的数据量，从而降低纠错编码对传输带宽和运行成本的消耗。

请参考图11，其示出了本申请一个示例性实施例提供的终端1100的结构框图。该终端1100可以是便携式移动终端，比如：智能手机、平板电脑、动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer III，MP3)播放器、动态影像专家压缩标准音频层面4(Moving Picture Experts Group Audio Layer IV，MP4)播放器。终端1100还可能被称为用户设备、便携式终端等其他名称。

通常，终端1100包括有：处理器1101和存储器1102。

处理器1101可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1101可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称中央处理器(Central Processing Unit，CPU)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1101可以在集成有图像处理器(Graphics Processing Unit，GPU)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1101还可以包括人工智能(Artificial Intelligence，AI)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1102可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是有形的和非暂态的。存储器1102还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1102中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1101所执行以实现本申请实施例提供的方法。

在一些实施例中，终端1100还可选包括有：外围设备接口1103。

外围设备接口1103可被用于将输入/输出(Input/Output，I/O)相关的至少一个外围设备连接到处理器1101和存储器1102。在一些实施例中，处理器1101、存储器1102和外围设备接口1103被集成在同一芯片或电路板上；在一些其他实施例中，处理器1101、存储器1102和外围设备接口1103中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上各个实施例所述的音频传输方法。

根据本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面的各种可选实现方式中提供的音频传输方法。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的输入信号、音频数据等都是在充分授权的情况下获取的。

Claims

一种音频传输方法，所述方法由音频发送端执行，所述方法包括：

对输入信号进行子带分解和压缩编码，得到至少两组信号子带的第一子带编码数据，不同信号子带对应所述输入信号的不同音频频段；

基于所述输入信号的能量分布情况，从所述第一子带编码数据中确定第二子带编码数据，所述第二子带编码数据对应信号子带的音频频段为信号能量集中频段；

对所述第二子带编码数据进行纠错编码，得到冗余数据；

向音频接收端发送音频数据包，所述音频数据包中包含所述第一子带编码数据和所述冗余数据，所述音频接收端用于在丢包的情况下基于所述冗余数据对所述第一子带编码数据进行数据恢复。
根据权利要求1所述的方法，其中，所述基于所述输入信号的能量分布情况，从所述第一子带编码数据中确定第二子带编码数据，包括：

基于所述输入信号在各音频频段内的样点信号，确定低频子带的低频能量占比，所述低频子带的音频频率低于其它信号子带的音频频率；

基于所述低频能量占比，从所述第一子带编码数据中确定所述第二子带编码数据。
根据权利要求2所述的方法，其中，所述基于所述低频能量占比，从所述第一子带编码数据中确定所述第二子带编码数据，包括：

在所述低频能量占比高于阈值的情况下，将所述低频子带的所述第一子带编码数据确定为所述第二子带编码数据；

在所述低频能量占比低于所述阈值的情况下，将高频子带的所述第一子带编码数据确定为所述第二子带编码数据，所述高频子带的音频频率高于其它信号子带的音频频率。
根据权利要求3所述的方法，其中，所述基于所述输入信号在各音频频段内的样点信号，确定低频子带的低频能量占比之后，所述方法包括：

基于所述低频能量占比生成信号类型标识，所述信号类型标识用于指示所述输入信号属于浊音信号或非浊音信号，其中，所述浊音信号的所述低频能量占比高于所述阈值，所述非浊音信号的所述低频能量占比低于所述阈值；

所述向音频接收端发送音频数据包，包括：

对所述第一子带编码数据、所述冗余数据以及所述信号类型标识进行打包，生成所述音频数据包；

向所述音频接收端发送所述音频数据包，所述音频接收端用于在丢包的情况下，基于所述信号类型标识从所述第一子带编码数据中确定所述第二子带编码数据，以及基于所述第二子带编码数据和所述冗余数据进行数据恢复。
根据权利要求1至4任一所述的方法，其中，所述对输入信号进行子带分解和压缩编码，得到至少两组信号子带的第一子带编码数据，包括：

对麦克风采集到的模拟声音信号进行模数转换，生成数字声音信号；

对所述数字声音信号进行傅里叶变换，得到频域信号；

对所述频域信号进行子带分解和压缩编码，生成至少两组所述信号子带的所述第一子带编码数据。
根据权利要求5所述的方法，其中，所述对所述频域信号进行子带分解和压缩编码，生成至少两组信号子带的所述第一子带编码数据，包括：

通过至少两个带通滤波器对所述频域信号进行子带分解，得到至少两个所述信号子带，不同带通滤波器对应不同音频频段，且各个所述带通滤波器的所述音频频段连续；

对所述信号子带进行频率搬移以及量化编码，得到各组所述信号子带的所述第一子带编码数据。
一种音频传输方法，所述方法由音频接收端执行，所述方法包括：

接收音频数据包，所述音频数据包中包含冗余数据以及至少两组第一子带编码数据，所述冗余数据由音频发送端对所述第一子带编码数据中的第二子带编码数据进行纠错编码得到，所述第一子带编码数据由所述音频发送端对输入信号进行子带分解和压缩编码得到，不同第一子带编码数据对应所述输入信号中不同音频频段的第一信号子带，所述第二子带编码数据的音频频段为信号能量集中频段；

对所述第一子带编码数据进行丢包检测；

在所述第一子带编码数据丢包的情况下，基于所述冗余数据对所述第一子带编码数据进行数据恢复，得到输出信号。
根据权利要求7所述的方法，其中，所述音频数据包中还包含信号类型标识，所述信号类型标识用于指示所述输入信号属于浊音信号或非浊音信号，其中，所述浊音信号的所述第二子带编码数据为低频子带的所述第一子带编码数据，所述非浊音信号的所述第二子带编码数据为高频子带的所述第一子带编码数据，所述低频子带的音频频率低于其它第一信号子带的音频频率，所述高频子带的音频频率高于其它第一信号子带的音频频率；

所述在所述第一子带编码数据丢包的情况下，基于所述冗余数据对所述第一子带编码数据进行数据恢复，得到输出信号，包括：

基于所述信号类型标识从所述第一子带编码数据中确定所述第二子带编码数据；

基于所述冗余数据以及相邻音频数据包中的第一子带编码数据，对所述第二子带编码数据进行纠错解码；

对纠错解码后的所述第二子带编码数据进行子带解码，得到第二信号子带；

基于所述第二信号子带对其它所述第一子带编码数据进行数据恢复；

基于各个所述第二信号子带进行子带合成，得到所述输出信号。
根据权利要求8所述的方法，其中，所述基于所述第二信号子带对其它第一子带编码数据进行数据恢复，包括：

在所述信号类型标识属于浊音信号标识的情况下，对所述第二信号子带进行特征提取，得到第一信号特征，所述第一信号特征包括对数功率谱、基因周期以及互相关值中的至少一种；

将所述第一信号特征输入第一深度学习网络，得到所述第一深度学习网络输出的高频子带功率谱，所述第一深度学习网络基于样本低频信号的信号特征以及样本高频信号的功率谱训练得到，所述样本低频信号以及所述样本高频信号属于同一声音信号的不同信号子带；

基于所述高频子带功率谱以及随机相位值进行反傅里叶变换，得到高频子带信号。
根据权利要求8所述的方法，其中，所述基于所述第二信号子带对其它第一子带编码数据进行数据恢复，包括：

在所述信号类型标识属于非浊音信号标识的情况下，对所述第二信号子带进行特征提取，得到第二信号特征，所述第二信号特征包括对数功率谱；

将所述第二信号特征输入第二深度学习网络，得到所述第二深度学习网络输出的低频子带功率谱，所述第二深度学习网络基于样本高频信号的信号特征以及样本低频信号的功率谱训练得到，所述样本低频信号以及所述样本高频信号属于同一声音信号的不同信号子带；

基于所述低频子带功率谱以及随机相位值进行反傅里叶变换，得到低频子带信号。
根据权利要求7至10任一所述的方法，其中，所述对所述子带编码数据进行丢包检测之后，所述方法还包括：

在所述子带编码数据未丢包的情况下，对所述第一子带编码数据进行子带解码以及子带合成，得到所述输出信号。
一种音频传输装置，所述装置包括：

子带编码模块，用于对输入信号进行子带分解和压缩编码，得到至少两组信号子带的第一子带编码数据，不同信号子带对应所述输入信号的不同音频频段；

确定模块，用于基于所述输入信号的能量分布情况，从所述第一子带编码数据中确定第二子带编码数据，所述第二子带编码数据对应信号子带的音频频段为信号能量集中频段；

纠错编码模块，用于对所述第二子带编码数据进行纠错编码，得到冗余数据；

数据发送模块，用于向音频接收端发送音频数据包，所述音频数据包中包含所述第一子带编码数据和所述冗余数据，所述音频接收端用于在丢包的情况下基于所述冗余数据对所述第一子带编码数据进行数据恢复。
根据权利要求12所述的装置，其中，所述确定模块，还用于：

基于所述输入信号在各音频频段内的样点信号，确定低频子带的低频能量占比，所述低频子带的音频频率低于其它信号子带的音频频率；

基于所述低频能量占比，从所述第一子带编码数据中确定所述第二子带编码数据。
根据权利要求13所述的装置，其中，所述确定模块，还用于：

在所述低频能量占比高于阈值的情况下，将所述低频子带的所述第一子带编码数据确定为所述第二子带编码数据；

在所述低频能量占比低于所述阈值的情况下，将高频子带的所述第一子带编码数据确定为所述第二子带编码数据，所述高频子带的音频频率高于其它信号子带的音频频率。
根据权利要求14所述的装置，其中，所述装置还包括：

标识生成模块，用于基于所述低频能量占比生成信号类型标识，所述信号类型标识用于指示所述输入信号属于浊音信号或非浊音信号，其中，所述浊音信号的所述低频能量占比高于所述阈值，所述非浊音信号的所述低频能量占比低于所述阈值；

所述数据发送模块，还用于：

对所述第一子带编码数据、所述冗余数据以及所述信号类型标识进行打包，生成所述音频数据包；

向所述音频接收端发送所述音频数据包，所述音频接收端用于在丢包的情况下，基于所述信号类型标识从所述第一子带编码数据中确定所述第二子带编码数据，以及基于所述第二子带编码数据和所述冗余数据进行数据恢复。
根据权利要求12至15任一所述的装置，其中，所述子带编码模块，还用于：

对麦克风采集到的模拟声音信号进行模数转换，生成数字声音信号；

对所述数字声音信号进行傅里叶变换，得到频域信号；

对所述频域信号进行子带分解和压缩编码，生成至少两组所述信号子带的所述第一子带编码数据。
一种音频传输装置，所述装置包括：

数据接收模块，用于接收音频数据包，所述音频数据包中包含冗余数据以及至少两组第一子带编码数据，所述冗余数据由音频发送端对所述第一子带编码数据中的第二子带编码数据进行纠错编码得到，所述第一子带编码数据由所述音频发送端对输入信号进行子带分解和压缩编码得到，不同第一子带编码数据对应所述输入信号中不同音频频段的第一信号子带，所述第二子带编码数据的音频频段为信号能量集中频段；

丢包检测模块，用于对所述第一子带编码数据进行丢包检测；

解码模块，用于在所述第一子带编码数据丢包的情况下，基于所述冗余数据对所述第一子带编码数据进行数据恢复，得到输出信号。
一种终端，所述终端包括处理器和存储器；所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如权利要求1至6任一所述的音频传输方法或权利要求7至11任一所述的音频传输方法。
一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至6任一所述的音频传输方法或权利要求7至11任一所述的音频传输方法。
一种计算机程序产品，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中；终端的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述终端执行如权利要求1至6任一所述的音频传输方法或权利要求7至11任一所述的音频传输方法。