WO2021052050A1

WO2021052050A1 - 一种沉浸式音频渲染方法及系统

Info

Publication number: WO2021052050A1
Application number: PCT/CN2020/107157
Authority: WO
Inventors: 孙学京; 郭红阳; 张兴涛; 许春生
Original assignee: 南京拓灵智能科技有限公司
Priority date: 2019-09-17
Filing date: 2020-08-05
Publication date: 2021-03-25
Also published as: CN110751956B; CN110751956A

Abstract

一种沉浸式音频渲染方法及系统，该方法包括：针对待混合的多个扬声器播放的多路音频，获取各路音频的基于HOA的第一增益和基于VBAP的第二增益（S1）；为各路音频配置混合权重，并根据混合权重确定第一增益和第二增益的权重系数（S2）；根据第一增益、第二增益以及各自的权重系数，确定各路音频的混合增益，并通过混合增益完成多路音频的混音处理（S3）。该方法能够更精准地定位声源位置，从而满足中小型场馆现场沉浸式制作与播放的需求。

Description

一种沉浸式音频渲染方法及系统

技术领域

本申请涉及音频数据处理技术领域，特别涉及一种沉浸式音频渲染方法及系统。

背景技术

近年来，随着高清视频的不断发展，从2K到4K，甚至8K，还有伴随着虚拟现实VR、AR的发展，人们对音频的听觉要求也随之提高。人们已不再满足于流行多年的立体声、5.1、7.1等音响效果，开始追求更具有沉浸感、真实感的3D音效或沉浸式音效。目前，沉浸式音频处理主要基于通道(channel-basedaudio，CBA)、对象音频(object-basedaudio，OBA)和Ambisonics场景音频(scene-based audio，SBA)等技术进行处理，包含音频制作、编解码、打包以及渲染等技术。

具体地，Ambisonics利用球谐函数记录声场并驱动扬声器，具有严格的扬声器排布要求，能够在扬声器中心位置高质量重建原始声场。在渲染移动音源时，HOA(HigherOrderAmbisonics)会营造出更加流畅，平滑的听感。

此外，幅度矢量合成(VectorBasedAmplitudePanning，VBAP)基于三维空间中的正弦法则，利用空间中3个临近的扬声器形成三维声音矢量，不会影响低频的双耳时间差(ITD)或者高频的频谱线索，对声音在三维空间中的定位更加精准。由于该算法简单，VBAP成为最常用的多声道三维音频处理技术。

然而，现有的沉浸式音频处理方法不能满足中小型场馆现场沉浸式制作与播放的需求，且HOA用一种中间格式来重建一个3D声场，但受限于采用的阶数，可能会带来高频线索的缺失，从而影响听者的定位的精准度；而VBAP在渲染移动音源时会产生跳跃，产生不连贯的空间声效果。

发明内容

本申请的目的在于提供一种沉浸式音频渲染方法及系统，能够更精准地定位声源位置，从而满足中小型场馆现场沉浸式制作与播放的需求。

为实现上述目的，本申请提供一种沉浸式音频渲染方法，所述方法包括：

针对待混合的多个扬声器播放的多路音频，获取各路所述音频的基于HOA的第一增益和基于VBAP的第二增益；

为各路所述音频配置混合权重，并根据所述混合权重确定所述第一增益和所述第二增益的权重系数；

根据所述第一增益、所述第二增益以及各自的权重系数，确定各路所述音频的混合增益，并通过所述混合增益完成所述多路音频的混音处理。

进一步地，根据所述混合权重确定所述第一增益和所述第二增益的权重系数包括：

将所述混合权重作为所述第一增益的权重系数，以及将1与所述混合权重的差值作为所述第二增益的权重系数。

进一步地，各个所述扬声器的混合增益按照以下公式确定：

g _mn(t)＝w _n(t)g _HOAn(t)+(1-w _n(t))g _VBAPn(t)

其中，g _mn(t)表示第n个扬声器对应音频的混合增益，w _n(t)表示所述混合权重，g _HOAn(t)表示第n个扬声器对应音频的第一增益，g _VBAPn(t)表示第n个扬声器对应音频的第二增益，t表示时间。

进一步地，为各路所述音频配置混合权重包括：

判断音源是否处于移动状态，并根据判断结果，自适应地选用不同的混合权重的配置方式；其中，若所述音源静止，将所述当前扬声器对应音频的混合权重配置为0；若所述音源处于移动状态，为所述当前扬声器对应音频配置与移动速度相匹配的混合权重。

进一步地，为各路所述音频配置混合权重包括：

获取音频训练样本，并基于神经网络模型对所述音频训练样本进行训练；

获取当前扬声器的输入音频，并提取所述输入音频的多声道语谱图；

将所述多声道语谱图输入训练后的模型，并将所述训练后的模型输出的结果作为所述当前扬声器对应音频的混合权重。

进一步地，所述多声道语谱图的横坐标为时间，纵坐标为频率，并且音频能量值通过颜色等级进行划分。

进一步地，所述神经网络为多层卷积神经网络和全连接层，且卷积神经网络至少为M层，其中M为大于等于2的正整数，用于从所述多声道语谱图中提取特征信息，并且所述卷积神经网络中的卷积层和池化层用于响应所述特征信息的平移不变性。

进一步地，在对所述音频训练样本进行训练之后，所述方法还包括：

根据训练后的模型预测得到的估计权重与预先确定的实际权重，对训练过程中的模型参数进行调整，以使得调整后预测得到的估计权重与所述实际权重之间的差值满足误差允许条件。

为实现上述目的，本申请还提供一种沉浸式音频渲染系统，所述系统包括：

增益获取单元，用于针对待混合的多个扬声器播放的多路音频，获取各路所述音频的基于HOA的第一增益和基于VBAP的第二增益；

权重系数确定单元，用于为各路所述音频配置混合权重，并根据所述混合权重确定所述第一增益和所述第二增益的权重系数；

混合单元，用于根据所述第一增益、所述第二增益以及各自的权重系数，确定各路所述音频的混合增益，并通过所述混合增益完成所述多路音频的混音处理。

进一步地，所述权重系数确定单元包括：

训练模块，用于获取音频训练样本，并基于神经网络模型对所述音频训练样本进行训练；

提取模块，用于获取输入音频，并提取所述输入音频的多声道语谱图；

权重确定模块，用于将所述多声道语谱图输入训练后的模型，并将所述训练后的模型输出的结果作为所述当前扬声器对应音频的混合权重。

进一步地，所述神经网络为多层卷积神经网络和全连接层，且卷积神经网络至少为M层，其中M为大于等于2的正整数。

由上可见，本申请提出一种沉浸式音频渲染的方法和系统，基于HOA和对象音频技术，根据音频内容自适应选择最优的处理方式，对音频进行渲染处理，该方法可以在保持声音平滑运动的情况下更精准定位声源位置，从而满足中小型场馆现场沉浸式音频制作与播放的需求。

附图说明

图1为本申请实施方式中沉浸式音频渲染方法的步骤图；

图2为本申请实施方式中通过机器学习的方式确定混合权重的流程图；

图3为本申请实施方式中沉浸式音频渲染系统的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本申请一部分实施方式，而不是全部的实施方式。基于本申请中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施方式，都应当属于本申请保护的范围。

本申请提供一种沉浸式音频渲染方法，请参阅图1，所述方法包括：

S1：针对待混合的多个扬声器播放的多路音频，获取各路所述音频的基于HOA的第一增益和基于VBAP的第二增益。

S2：为各路所述音频配置混合权重，并根据所述混合权重确定所述第一增益和所述第二增益的权重系数。

S3：根据所述第一增益、所述第二增益以及各自的权重系数，确定各路所述音频的混合增益，并通过所述混合增益完成所述多路音频的混音处理。

在一个实施方式中，可以将所述混合权重作为所述第一增益的权重系数，以及将1与所述混合权重的差值作为所述第二增益的权重系数。

具体地，在一个实施方式中，可以基于对象音频技术和HOA技术进行沉浸式音频渲染处理，且基于规则的(rule-based)增益生成方式来设置权重。

假设有N个扬声器，对于第n个扬声器播放的音频而言，基于HOA的增益为g _HOAn(t)，基于VBAP的增益为g _VBAPn(t)，最后的混合模式增益为g _mn(t)。

各路所述音频的混合增益按照以下公式确定：

g _mn(t)＝w _n(t)g _HOAn(t)+(1-w _n(t))g _VBAPn(t)

在一个实施方式中，为各路所述音频配置混合权重时，可以判断音源是否处于移动状态，并根据判断结果，自适应地选用不同的混合权重的配置方式。其中，若所述音源静止，将所述当前扬声器对应音频的混合权重配置为0；若所述音源处于移动状态，为所述当前扬声器对应音频配置与移动速度相匹配的混合权重。具体地，对于静止音源，w _n(t)则设置为0；音源移动权重则根据移动速度来设置，比如速度需小于v，w _n(t)则设置小于0.5。

该实施方式适用于混音处理，音源是否移动以及移动速度，可以预先知道或者由混音师自定义。

在另一个实施方式中，基于对象音频技术和HOA技术进行沉浸式音频渲染处理，且通过数据驱动的方式来确定权重。

同样地，假设有N个扬声器，对于第n个扬声器播放的音频而言，基于 HOA的增益为g _HOAn(t)，基于VBAP的增益为g _VBAPn(t)，最后的混合模式增益为g _mn(t)。

各路所述音频的混合增益按照以下公式确定：

g _mn(t)＝wn(t)g _HOAn(t)+(1-w _n(t))g _VBAPn(t)

其中，w _n(t)可以通过数据驱动的方式来确定权重，比如通过机器学习，基于神经网络的深度学习方法。

具体地，构建神经网络方法包括：1)输入为不同channel的音频语谱图(spectrogram)；2)隐层多层卷积神经网络和全连接层；3)输出为混合权重为w _n(t)。

在根据神经网络进行预测时，可以包括：获取音频训练样本，并基于多层卷积神经网络和全连接层网络模型对所述音频训练样本进行训练；获取输入音频，并提取所述输入音频的多声道语谱图；将所述多声道语谱图输入训练后的模型，并将所述训练后的模型输出的结果作为所述当前扬声器对应音频的混合权重。

具体地，语谱图的横坐标是时间，纵坐标是频率，坐标点值为该频点的音频能量。由于是采用二维平面表达三维信息，所以能量值的大小是通过颜色来表示的，颜色深，表示该点的音频能量越强。通过音频的语谱图，我们能分析出音频的频率分布。根据多声道的语谱图，能够分析得到音源的运动轨迹。

请参阅图2，卷积神经网络具有表征学习能力，能够从多声道的语谱图中提取高阶特征，其中，卷积神经网络中的卷积层和池化层能够响应输入特征的平移不变性，即能够识别位于空间不同位置的相近特征。神经网络一般包含训练和测试两部分，输入为多声道的语谱图，输出为对应的权重，训练时的损失函数根据实际权重(预先确定)和估计权重进行设置，不断调整神经网络参数。也就是说，可以将训练后的模型预测得到的估计权重与预先确定的实际权重进行对比，并根据所述估计权重和所述实际权重的差值，对训练过程中的参数进行调整，以使得调整后预测得到的估计权重与所述实际权重之间的差值满足误差允许条件。

该实施方式使用于音源是否移动以及移动速度未知的情况，系统根据输入音频自动匹配混合权重，用于渲染处理。

请参阅图3，本申请还提供一种沉浸式音频渲染系统，所述系统包括：

在一个实施方式中，所述权重系数确定单元包括：

提取模块，用于输入音频，并提取所述输入音频的多声道语谱图；

在一个实施方式中，所述神经网络模型为多层卷积神经网络和全连接层，且卷积神经网络至少为M层，其中M为大于等于2的正整数。

上面对本申请的各种实施方式的描述以描述的目的提供给本领域技术人员。其不旨在是穷举的、或者不旨在将本申请限制于单个公开的实施方式。如上所述，本申请的各种替代和变化对于上述技术所属领域技术人员而言将是显而易见的。因此，虽然已经具体讨论了一些另选的实施方式，但是其它实施方式将是显而易见的，或者本领域技术人员相对容易得出。本申请旨在包括在此已经讨论过的本申请的所有替代、修改、和变化，以及落在上述申请的精神和范围内的其它实施方式。

Claims

一种沉浸式音频渲染方法，其中，所述方法包括：

针对待混合的多个扬声器播放的多路音频，获取各路所述音频的基于HOA的第一增益和基于VBAP的第二增益；

为各路所述音频配置混合权重，并根据所述混合权重确定所述第一增益和所述第二增益的权重系数；

根据所述第一增益、所述第二增益以及各自的权重系数，确定各路所述音频的混合增益，并通过所述混合增益完成所述多路音频的混音处理。
根据权利要求1所述的方法，其中，根据所述混合权重确定所述第一增益和所述第二增益的权重系数包括：

将所述混合权重作为所述第一增益的权重系数，以及将1与所述混合权重的差值作为所述第二增益的权重系数。
根据权利要求1所述的方法，其中，各路所述音频的混合增益按照以下公式确定：

g _mn(t)＝w _n(t)g _HOAn(t)+(1-w _n(t))g _VBAPn(t)

其中，g _mn(t)表示第n个扬声器对应音频的混合增益，w _n(t)表示所述混合权重，g _HOAn(t)表示第n个扬声器对应音频的第一增益，g _VBAPn(t)表示第n个扬声器对应音频的第二增益，t表示时间。
根据权利要求1所述的方法，其中，为各路所述音频配置混合权重包括：

判断音源是否处于移动状态，并根据判断结果，自适应地选用不同的混合权重的配置方式；其中，若所述音源静止，将当前扬声器对应音频的混合权重配置为0；若所述音源处于移动状态，为所述当前扬声器对应音频配置与移动速度相匹配的混合权重。
根据权利要求1所述的方法，其中，为各路所述音频配置混合权重包括：

获取音频训练样本，并基于神经网络模型对所述音频训练样本进行训练；

获取输入音频，并提取所述输入音频的多声道语谱图；

将所述多声道语谱图输入训练后的模型，并将所述训练后的模型输出的结果作为当前扬声器对应音频的混合权重。
根据权利要求5所述的方法，其中，所述神经网络模型为多层卷积神经网络和全连接层，且卷积神经网络至少为M层，其中M为大于等于2的正整数。
一种沉浸式音频渲染系统，其中，所述系统包括：

增益获取单元，用于针对待混合的多个扬声器播放的多路音频，获取各路所述音频的基于HOA的第一增益和基于VBAP的第二增益；

权重系数确定单元，用于为各路所述音频配置混合权重，并根据所述混合权重确定所述第一增益和所述第二增益的权重系数；

混合单元，用于根据所述第一增益、所述第二增益以及各自的权重系数，确定各路所述音频的混合增益，并通过所述混合增益完成所述多路音频的混音处理。
根据权利要求7所述的系统，其中，所述权重系数确定单元包括：

判断音源是否处于移动状态，并根据判断结果，自适应地选用不同的混合权重的配置方式；其中，若所述音源静止，将当前扬声器对应音频的混合权重配置为0；若所述音源处于移动状态，为所述当前扬声器对应音频配置与移动速度相匹配的混合权重。
根据权利要求7所述的系统，其中，所述权重系数确定单元包括：

训练模块，用于获取音频训练样本，并基于神经网络模型对所述音频训练样本进行训练；

提取模块，用于获取输入音频，并提取所述输入音频的多声道语谱图；

权重确定模块，用于将所述多声道语谱图输入训练后的模型，并将所述训练后的模型输出的结果作为所述当前扬声器对应音频的混合权重。
根据权利要求9所述的系统，其中，所述神经网络模型为多层卷积神经网络和全连接层，且卷积神经网络至少为M层，其中M为大于等于2的正整数。