WO2021203753A1

WO2021203753A1 - 音频信号的增量编码方法及装置

Info

Publication number: WO2021203753A1
Application number: PCT/CN2020/140741
Authority: WO
Inventors: 黄旭; 潘兴德; 吴超刚; 谭敏强
Original assignee: 全景声科技南京有限公司
Priority date: 2020-04-10
Filing date: 2020-12-29
Publication date: 2021-10-14
Also published as: CN111462767A; CN111462767B

Abstract

一种音频信号的增量编码方法及装置，涉及数字音频制作技术领域。增量编码方法包括输入压缩音频信号S（P1）；对S进行解码得到T0（P2）；对T0中的数据进行添加、删除或替换或三种方式的任意组合的编辑后，得到T（P3）；对T进行分类，得到T中包括未修改的音频信号T1和修改的音频信号T2（P4）；查找T1在S中对应的码流字段S1 （P5）；对T2进行编码得到音频码流S2（P6）；将S1和S2复用成新的音频码流S'（P7）。由此区分未修改的声音数据和修改的数据，并仅对修改的数据做压缩编码，避免未修改数据的音质损失并降低编码复杂度。

Description

音频信号的增量编码方法及装置

技术领域

本公开涉及数字音频制作技术领域，尤其涉及一种音频信号的增量编码方法及装置。

背景技术

音频技术经过多年发展，立体声、5.1、7.1环绕声等系统已经获得了广泛的应用，但这些系统因缺乏声音的高度信息，最多只能呈现二维的声音。在真实的世界中，全景声(也称三维声)是声音最真实的呈现和表达方式，无论自然界、艺术领域或视听娱乐领域，全景声都是未来的发展趋势。

全景声有时也被称为三维声、沉浸声，全景声信号一般分为音频数据和辅助数据。音频数据可以是单声道或多声道信号，如单声道、立体声、4.0声道、5.1声道、7.1声道、9.1声道、11.1声道、13.1声道、22.2声道以及上述声道类型的任意组合，如7.1声道信号+4.0声道信号+6个立体声信号；辅助数据一般用于定义音频数据的空间位置或渲染方式，能够提升音频数据的呈现效果，比如三维定位信息，能使音频的空间感、沉浸感更强，以及音效(如均衡器、混响等)处理信息，能使音频更加多元化，丰富听觉体验。有时，也将一个音频数据及其辅助数据统一称为声音对象，将没有辅助数据的音频数据称为声床。目前已经商用的典型全景声技术可以参考三维全景声国家标准AVS2-P3(GB/T 33475.3)、国际标准MPEG-H(ISO/IEC 23008-3)、Dolby Atmos和WANOS等。

在全景声信号中，音频数据可以是单声道信号、立体声信号、单层多声道信号、多层多声道信号(即多个声道信号组合，分布在不同高度平面)等。例如，有些全景声信号采用中间层及顶层的两层平面(如5.1.4就是5.1和4.0两种多声道音频信号的组合，5.1在中间层，4.0在顶层)，有些全景声信号采用三层平面等。有些全景声信号只有多层音频数据，但没有辅助数据，例如SMPTE的22.2三维声系统和AURO 9.1系统等。有些全景声信号则既有多层多声道信号，也有辅助数据，例如MPEG-H、Dolby Atmos和DTS:X系统。当然，作为一个极端的例子，全景声信号也可以全部是单声道或立体声信号和辅助数据。

全景声音格式和AAC、AC3、MP3等格式一样，也属于压缩音频格式。目前在制作压缩音频信号时普遍采用两类制作工具。第一类是数字音频工作站(Digital Audio Workstation，DAW，比如Pro Tools、Nuendo、Cubase、Logic Pro、Adobe Audition等)，这些软件广泛应用于电影和音乐的制作，能够使用专业的音频插件，制作出高质量的音频信号。

第二类是一些音视频应用软件，如K歌、短视频、配音软件等等。这些软件广泛深入大众生活，以潜移默化的方式改变着人们的日常生活和工作。这类音视频应用软件支持常规音频格式(包括PCM格式，以及mp3、aac、wma等目前常用的压缩音频格式)的编辑制作，并在互联网的加持下，能够随时随地上传分享自己的作品以及观看其他人的作品，具有很强的娱乐性和互动性。

随着音频制作的日益普及，制作方式也变得五花八门，比如在已有音频信号基础上直接进行二次制作。在互联网应用中，多人可以用接力的方式共同完成一部作品(如多人配音、合唱、合奏等)，每个人在前一个人的作品(即已有压缩音频信号)基础上进行编辑制作，把自己的制作成果融入作品中，然后传给下一个人继续制作。以目前的技术，在已有音频信号基础上进行二次制作的方法如图1所示(参考申请号为2020102093909中国发明申请)，包括以下步骤：

(101)导入已有音频信号S0，并将其包含的每个声音元素(以下简称音轨)及其对应的辅助数据解出，分别记作音轨集合C和辅助数据集合E。辅助数据和音轨对应，每个音轨可包含0个、1个或多个辅助数据。

(102)进行编辑制作，制作过程通过添加、删除、替换或三种方式的任意组合对已有音轨/辅助数据进行编辑；此步骤可重复进行，完成后生成音轨集合C'和辅助数据集合E'。

(103)将音轨集合C'和辅助数据集合E'编码成新的压缩音频信号S0'。

例如，一个乐队按照申请号为2020102093909的中国发明申请所述的可拆解和再编辑的方式，共同制作一首摇滚乐，如图2所示。第一个人录入吉他音轨C1并为其添加均衡器E1，然后将C1和E1编码(生成的压缩码流记作S0')并上传；第二个人将S0'解码，将其包含的吉他音轨及其均衡器解出，记作C1'和E1，然后录入自己的贝斯音轨C2并为其添加混响效果E2，然后将C1'、E1、C2、E2编码(生成的压缩码流记作S0”)并上传；第三个人解出C1”、E1、C2'、E2，录入键盘音轨C3，编码成S0”'，以此类推。

然而，现有的音频编解码技术需要对声音节目中的所有声音元素重新编码。这种处理方式，一方面需要较高编码的复杂度，另一方面是声音质量(尤指未修改部分的声音质量)会随着多次编码而快速下降。上例中，第一个人需要将C1、E1编码，第二个人需要将C1'、E1、C2、E2编码，第三个人需要将C1”、E1、C2'、E2、C3编码，以此类推，最后一个人需要编码的数据是最多的。另外，吉他音轨C1是第一个人录入的原声，质量最好，且始终未被修改过，但经过编码之后，再解出的C1'质量就会下降，C1”质量更差；同理，贝斯音轨C2'质量也比C2差。

发明内容

本公开提供了一种音频信号的增量编码方法及装置，其技术目的是：在原有音频信号的基础上，区分未修改的声音数据和修改的数据，并仅对修改的数据做压缩编码，未修改的数据首先从原始码流中解析出其压缩数据，并和修改数据生成的压缩数据组织成新的码流，即对修改部分做增量编码，避免未修改数据的音质损失并降低编码复杂度。

本公开的上述技术目的是通过以下技术方案得以实现的：

一种音频信号的增量编码方法，包括：

P1：输入压缩音频信号S；

P2：对所述S进行解码得到解码后的音频信号T0；

P3:对所述T0中的数据进行添加、删除或替换或三种方式的任意组合的编辑后，得到T；

P4：对所述T进行分类，得到所述T中包括的未修改的音频信号T1和修改的音频信号T2；

P5：查找所述T1在所述S中对应的码流字段S1；

P6：对所述T2进行编码得到音频码流S2；

P7：将所述S1和所述S2复用成新的音频码流S'。

进一步地，所述T0和所述T均由音轨数据组成，或由音轨数据和辅助数据共同组成。

进一步地，所述T1仅包括音轨数据，或仅包括辅助数据，或包括音轨数据和辅助数据，或无任何数据。

进一步地，若所述T2仅包含音轨数据，则所述步骤P6仅对音轨数据进行编码。

进一步地，若所述T2仅包含辅助数据，则所述步骤P6仅对辅助数据进行编码。

进一步地，若所述T2包含音轨数据和辅助数据，则所述步骤P6对音轨数据和辅助数据同时进行编码。

一种音频信号的增量编码装置，包括：

音频信号输入模块,输入压缩音频信号S；

音频解码模块，对所述S进行解码得到解码后的音频信号T0，所述T0包括音轨数据集合A0和辅助数据集合B0；

音频编辑模块，对所述T0中的数据进行添加、删除或替换或三种方式的任意组合的编辑后，得到T，所述T包括音轨数据集合A1和集合辅助数据B1；

音频分类模块，对所述T进行分类，得到所述T中包括未修改的音频信号T1和修改的音频信号T2；

查找模块，查找所述T1在所述S中对应的码流字段为S1；

音频编码模块，对所述T2进行编码得到音频码流S2；

音频复用模块，将所述S1和所述S2复用成新的音频码流S'。

进一步地，所述音频编辑模块包括：

音轨编辑单元，对所述音轨集合A0进行添加、删除或替换或三种方式的任意组合的编辑后，生成新的音轨集合A1；

辅助数据编辑单元，对所述辅助数据集合B0进行添加、删除或替换或三种方式的任意组合的编辑后，生成新的辅助数据集合B1。

进一步地，所述音频分类模块包括：

音轨分类单元，将所述A1分为未修改部分的音轨和修改部分的音轨；

辅助数据分类单元，将所述B1分为未修改部分的辅助数据和修改部分的辅助数据。

本公开的有益效果在于：音频信号输入模块输入压缩音频信号S；音频解码模块对所述S进行解码得到解码后的音频信号T0，所述T0包括音轨数据集合A0和辅助数据集合B0；音频编辑模块对所述T0中的数据进行添加、删除或替换或三种方式的任意组合的编辑后，得到T，所述T包括音轨数据集合A1和集合辅助数据B1；音频分类模块对所述T进行分类，得到所述T中包括未修改的音频信号T1和修改的音频信号T2；查找模块查找所述T1在所述S中对应的码流字段为S1；音频编码模块对所述T2进行编码得到音频码流S2；音频复用模块将所述S1和所述S2复用成新的音频码流S'。

在原有音频信号的基础上，区分未修改的声音数据和修改的数据，并仅对修改的数据做压缩编码，未修改的数据首先从原始码流中解析出其压缩数据，并和修改数据生成的压缩数据组织成新的码流，即对修改部分做增量编码，避免未修改数据的音质损失并降低编码复杂度。

附图说明

图1为现有音频信号二次制作的方法流程图；

图2为现有音频信号二次制作的具体实施例流程图；

图3为本发明方法流程图；

图4为本发明装置示意图；

图5为本发明装置具体实施的示意图；

图6为本发明实施例一流程图；

图7为本发明实施例二流程图；

图8为本发明实施例三流程图。

具体实施方式

下面将结合附图对本公开技术方案进行详细说明。

本发明提供的音频信号的增量编码方法，如图3所示，包括如下步骤：

P1：输入压缩音频信号S；

P2：对S进行解码得到解码后的音频信号T0；对S进行解码即将S中包含的所有音轨数据和辅助数据完全分离(参考申请号为2020102093909的中国发明申请专利)，生成原始音轨数据集合A0和辅助数据集合B0；

P3:对T0中的音轨数据及其辅助数据进行添加、删除或替换或三种方式的任意组合的编辑后，得到T；此步骤可反复进行，编辑完成后生成T，T则包括音轨数据集合A1和辅助数据集合B1；

P4：对T进行分类，得到T中包括未修改的音频信号T1和修改的音频信号T2；即将T和T0中的数据进行逐一比对，将修改的数据和未修改的数据分别标记出来；

P5：在原有的压缩音频信号S中，找到未修改的音频信号T1对应的码流字段S1并保留；

P6：对修改的音频信号T2进行编码得到音频码流S2；

P7：将S1和所述S2复用成新的音频码流S'。

图4为本发明所述的音频信号的增量编码装置的示意图，如图4所示，该增量编码装置包括音频信号输入模块、音频解码模块、音频编辑模块、音频分类模块、查找模块、音频编码模块和音频复用模块。图5为增量编码装置具体实施例的示意图，由图5可知，音频编辑模块包括音轨编辑单元和辅助数据编辑单元，音频分类模块包括音轨分类单元和辅助数据分类单元。

实施例一：对已有音频信号中的音轨进行编辑制作，如图6所示，具体步骤如下：

601：导入已有音频信号，记作S1；

602：将S1解码，得到音轨集合，记作C[0,...,k-1]，表示S1中包含k个音轨，k≥0；

603：对音频进行编辑制作，同时将每个音轨的改动情况进行标记,包含如下情况：

(1)添加音轨:将添加的音轨数量记作k1，并将添加的音轨放在C[k,k+1,...,k+k1-1]中，即目前音轨共有k+k1个；同时设立标记集合P[0,...,k+k1-1]，将P[k,...,k+k1-1]标记为“添加”；更新k值，使其始终等于当前音轨总数，即k＝k+k1,k1≥0；

(2)删除音轨:删除第n1至n2个音轨，将C[n1,...,n2]的音轨数据清空；将P[n1,...,n2]标记为“删除”(如果已标记为“添加”则覆盖原有标记)；k值保持不变(n1至n2虽然被删除，但音轨位置依然存在)；0≤n1≤n2≤k-1；

(3)替换音轨：替换第n3至n4个音轨，则C[n3,...,n4]的音轨数据发生变化，将P[n3,...,n4]标记为“替换”(如果已标记为“添加”则覆盖原有标记)，k值保持不变；0≤n3≤n4≤k-1；

此步骤可重复进行；

604：将制作前后的音轨进行逐一对比，此时音轨总数为k，则将标记集合P[0,...,k-1]中的所有“添加”、“替换”标记对应的音轨视为修改部分M[](集合中储存的是音轨编号，下同)，“删除”标记对应的音轨视为修改部分N[]，P中其他元素视为未修改部分L[]；

605：利用原始音频信号S1、音轨标记集合P[]，将制作后的音轨编码成新的音频信号。新建空码流S2，先将S1的帧头放入S2中，然后逐个扫描P[]中的每个元素i：若P[i]∈L[]，则将S1中的第i个音频码流直接放入S2中(从第0个音轨起，按顺序依次排放，下同)；若P[i]∈M[]，则将音轨C[i]编码，放入S2中；若P[i]∈N[]，则不进行任何操作；扫描完成后，重新整理音轨编号并更新帧头，此时输出的S2即为新的音频码流；S2中的音轨总数小于等于k。

实施例二：对已有音频信号中的辅助数据进行编辑制作，如图7所示，具体步骤如下：

(701)导入已有音频信号，记作S1；

(702)将S1解码，得到音轨和辅助数据集合，其中音轨集合记作C[0,...,k-1]，表示S1中包含k个音轨；将辅助数据集合记作 E[0,...,k-1][](由于每个音轨都可能包含辅助数据，故用二维数组表示，下同)，其中每个音轨分别记作E[0][0,...,m0-1]、E[1][0,...,m1-1]、...、E[k-1][m _k-1-1]，表示每个音轨的辅助数据数量分别是m0、m1、...、m _k-1；k≥0，m0、m1、...、m _k-1≥0；

(703)对音频进行编辑制作，同时将每个辅助数据的改动情况进行标记，包含如下情况：

(1)添加辅助数据：对第i个音轨添加辅助数据，将添加的辅助数据数量记作ni，并将添加的辅助数据放在E[i][mi,...,mi+ni-1]，即目前第i个音轨共有mi+ni个辅助数据；同时为每个音轨设立辅助数据标记集合Q[i][0,...,mi+ni-1]，将Q[i][mi,...,mi+ni-1]标记为“添加”；更新mi值，使其始终等于第i个音轨总数，即mi＝mi+ni；0≤i≤k-1，ni≥0；

(2)删除辅助数据:从第i个音轨上删除第n1i至n2i个辅助数据，将E[i][n1i,...,n2i]的辅助数据数据清空；将Q[i][n1i,...,n2i]标记为“删除”(如果已标记为“添加”则覆盖原有标记)；mi值保持不变(n1i,...,n2i虽然被删除，但辅助数据位置依然存在)；0≤n1i≤n2i≤mi-1；

(3)替换辅助数据:在第i个音轨上替换第n3i至n4i个辅助数据，则E[i][n3i,...,n4i]的辅助数据数据发生变化，将Q[i][n3i,...,n4i]标记为“替换”(如果已标记为“添加”则覆盖原有标记)，mi值保持不变；0≤n3i≤n4i≤mi-1；

此步骤可重复进行；

(704)对于每个音轨，将制作前后的辅助数据进行逐一对比。此时每个音轨上的辅助数据总数为mi，则将标记集合Q[i][0,...,mi-1]中的所有“添加”“替换”标记对应的辅助数据视为修改部分M[i][](集合中储存的是辅助数据编号，下同)，“删除”标记对应的音轨视为修改部分N[i][]，Q中其他元素视为未修改部分L[i][]；

(705)利用原始音频信号S1、辅助数据标记集合Q[][]，将制作后的音轨和辅助数据编码成新的音频信号。新建空码流S2，先将S1的帧头放入S2中，然后对每个音轨逐个扫描Q[i][0,...,mi-1]中的每个辅助数据标记(记作j)：若Q[i][j]∈L[i][]，则将S1中第i个音轨码流附属的第j个辅助数据码流字段直接放入S2中(从第0个音轨起，按顺序依次排放；对于每个音轨，从第0个辅助数据起，按顺序依次排放，下同)；若Q[i][j]∈M[i][]，则将辅助数据E[i][j]编码，放入S2中；若Q[i][j]∈N[i][]，则不进行任何操作。扫描完成后，重新整理辅助数据编号并更新帧头，同时将第i个音轨码流字段直接放入S2的对应位置中；将k个音轨全部扫描完成后，此时输出的S2即为新的音频码流；S2中每个音轨的辅助数据总数小于等于mi。

实施例三：对音频信号中的音轨和辅助数据进行编辑制作以及二次/多次制作，如图8所示，具体如下：

(801)导入已有音频信号，记作S1；

(802)将S1解码，得到音轨和辅助数据集合，其中音轨集合记作C[0,...,k-1]，表示S1中包含k个音轨；将辅助数据集合记作E[0,...,k-1][]，其中每个音轨分别记作E[0][0,...,m0-1]、E[1][0,...,m1-1]、...、E[k-1][m _k-1-1]，表示每个音轨的辅助数据数量分别是m0、m1、...、m _k-1；k≥0，m0、m1、...、m _k-1≥0；

(803)对音频进行编辑制作，包含如下情况：

(1)添加音轨：将添加的音轨数量记作k1，并将添加的音轨放在C[k,k+1,...,k+k1-1]，即目前音轨共有k+k1个；同时设立标记集合P[0,...,k+k1-1]，将P[k,...,k+k1-1]标记为“添加”；更新k值，使其始终等于当前音轨总数，即k＝k+k1；k1≥0；

(2)删除音轨：删除第n1至n2个音轨，将C[n1,...,n2]的音轨数据及其辅助数据清空；将P[n1,...,n2]标记为“删除”(如果已标记为“添加”则覆盖原有标记)；k值保持不变(n1,...,n2虽然被删除，但音轨位置依然存在)；0≤n1≤n2≤k-1；

(4)添加辅助数据：对第i个音轨添加辅助数据，将添加的辅助数据数量记作ni，并将添加的辅助数据放在E[i][mi,...,mi+ni-1]，即目前第i个音轨共有mi+ni个辅助数据；同时为每个音轨设立辅助数据标记集合Q[i][0,...,mi+ni-1]，将Q[i][mi,...,mi+ni-1]标记为“添加”；更新mi值，使其始终等于第i个音轨总数，即mi＝mi+ni；0≤i≤k-1，ni≥0；

(5)删除辅助数据：从第i个音轨上删除第n5i至n6i个辅助数据，将E[i][n5i,...,n6i]的辅助数据数据清空；将Q[i][n5i,...,n6i]标记为“删除”(如果已标记为“添加”则覆盖原有标记)；mi值保持不变(n5i至n6i虽然被删除，但辅助数据位置依然存在)；0≤n5i≤n6i≤mi-1；

(6)替换辅助数据：在第i个音轨上替换第n7i至n8i个辅助数据，则E[i][n7i,...,n8i]的辅助数据数据发生变化，将Q[i][n7i,...,n8i]标记为“替换”(如果已标记为“添加”则覆盖原有标记)，mi值保持不变；0≤n7i≤n8i≤mi-1；

此步骤可重复进行；

(804)将制作前后的音轨和辅助数据进行对比：此时音轨总数为k，则将标记集合P[0,...,k-1]中的所有“添加”“替换”标记对应的音轨视为修改部分M1[](集合中储存的是音轨编号，下同)，“删除”标记对应的音轨视为修改部分N1[]，P中其他元素视为未修改部分L1[]；此时每个音轨上的辅助数据总数为mi，则将标记集合Q[i][0,...,mi-1]中的所有“添加”“替换”标记对应的辅助数据视为修改部分M2[i][](集合中储存的是辅助数据编号，下同)，“删除”标记对应的音轨视为修改部分N2[i][]，Q中其他元素视为未修改部分L2[i][]；

(805)利用原始音频信号S1、音轨标记集合P[]、辅助数据标记集合Q[][]，将制作后的音轨和辅助数据编码成新的音频信号。

新建空码流S2，先将S1的帧头放入S2中，然后按照音轨逐个扫描：

(1)对于音轨数据，逐个扫描P[]中的每个元素i：若P[i]∈L1[]，则将S1中的第i个音频码流直接放入S2中(从第0个音轨起，按顺序依次排放)；若P[i]∈M1[]，则将音轨C[i]编码，放入S2中；若P[i]∈N1[]，则不进行任何操作；

(2)对于辅助数据数据，扫描Q[i][0,...,mi-1]中的每个辅助数据标记(记作j)：若Q[i][j]∈L2[i][]，则将S1中第i个音轨码流附属的第j 个辅助数据码流字段直接放入S2中(从第0个辅助数据起，按顺序依次排放)；若P[i][j]∈M2[i][]，则将辅助数据E[i][j]编码，放入S2中；若P[i][j]∈N2[i][]，则不进行任何操作。

扫描完成后，重新整理音轨和辅助数据编号并更新帧头，此时输出的S2即为新的音频码流；S2中的音轨总数≤k，每个音轨的辅助数据总数小于等于mi。

(806)若需要二次/多次制作，则将步骤(705)输出的压缩音频信号S2作为已有音频信号S1，开始下一次制作过程，重复步骤(701)至(706)；制作完毕后，输出最终的压缩音频流。

作为具体实施例地，上述处理过程中描述的所有音频信号，音频声道数包括单声道、立体声、4.0声道、5.1声道、7.1声道、9.1声道、11.1声道、13.1声道、22.2声道以及上述声道种类的任意组合形式；每个音频信号均可包含一个或多个音轨，每个音轨都可包含0个、1个或多个辅助数据。编码格式包括常规音频格式(如MP3、AAC、AC3等)、全景声音频格式(如Atmos、WANOS、AVS、MPEG-H)等。

以上为本公开示范性实施例，本公开的保护范围由权利要求书及其等效物限定。

Claims

一种音频信号的增量编码方法，其特征在于，包括：

P1：输入压缩音频信号S；

P2：对所述S进行解码得到解码后的音频信号T0；

P3:对所述T0中的数据进行添加、删除或替换或三种方式的任意组合的编辑后，得到T；

P4：对所述T进行分类，得到所述T中包括未修改的音频信号T1和修改的音频信号T2；

P5：查找所述T1在所述S中对应的码流字段S1；

P6：对所述T2进行编码得到音频码流S2；

P7：将所述S1和所述S2复用成新的音频码流S'。
如权利要求1所述的音频信号的增量编码方法，其特征在于，所述T0和所述T均由音轨数据组成，或由音轨数据和辅助数据共同组成。
如权利要求2所述的音频信号的增量编码方法，其特征在于，所述T1仅包括音轨数据，或仅包括辅助数据，或包括音轨数据和辅助数据，或无任何数据。
如权利要求3所述的音频信号的增量编码方法，其特征在于，若所述T2仅包含音轨数据，则所述步骤P6仅对音轨数据进行编码。
如权利要求3所述的音频信号的增量编码方法，其特征在于，若所述T2仅包含辅助数据，则所述步骤P6仅对辅助数据进行编码。
如权利要求3所述的音频信号的增量编码方法，其特征在于，若所述T2包含音轨数据和辅助数据，则所述步骤P6对音轨数据和辅助数据同时进行编码。
一种音频信号的增量编码装置，其特征在于，包括：

音频信号输入模块,输入压缩音频信号S；

音频解码模块，对所述S进行解码得到解码后的音频信号T0，所述T0包括音轨数据集合A0和辅助数据集合B0；

音频编辑模块，对所述T0中的数据进行添加、删除或替换或三种方式的任意组合的编辑后，得到T，所述T包括音轨数据集合A1和集合辅助数据B1；

音频分类模块，对所述T进行分类，得到所述T中包括未修改的音频信号T1和修改的音频信号T2；

查找模块，查找所述T1在所述S中对应的码流字段为S1；

音频编码模块，对所述T2进行编码得到音频码流S2；

音频复用模块，将所述S1和所述S2复用成新的音频码流S'。
如权利要求7所述的音频信号的增量编码装置，其特征在于，所述音频编辑模块包括：

音轨编辑单元，对所述音轨集合A0进行添加、删除或替换或三种方式的任意组合的编辑后，生成新的音轨集合A1；

辅助数据编辑单元，对所述辅助数据集合B0进行添加、删除或替换或三种方式的任意组合的编辑后，生成新的辅助数据集合B1。
如权利要求8所述的音频信号的增量编码装置，其特征在于，所述音频分类模块包括：

音轨分类单元，将所述A1分为未修改部分的音轨和修改部分的音轨；

辅助数据分类单元，将所述B1分为未修改部分的辅助数据和修改部分的辅助数据。