WO2023212883A1

WO2023212883A1 - 音频输出方法和装置、通信装置和存储介质

Info

Publication number: WO2023212883A1
Application number: PCT/CN2022/091055
Authority: WO
Inventors: 吕雪洋; 吕柱良; 史润宇; 刘晗宇
Original assignee: 北京小米移动软件有限公司
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2023-11-09

Abstract

本公开涉及音频输出方法和装置、通信装置和存储介质，其中，所述音频输出方法包括：确定音频的发送端在虚拟空间中的朝向信息，以及所述音频的接收端和所述发送端在所述虚拟空间中的角度信息；根据所述角度信息和所述朝向信息，确定在所述虚拟空间中所述发送端相对于所述接收端的音频发射角；至少根据所述音频发射角对音频数据进行渲染以得到音频信号；输出所述音频信号。根据本公开，在对音频数据进行渲染时，考虑了发送端相对于接收端的音频发射角，使得渲染得到的音频信号可以包含有关音频发射角的特征，以便接收端的用户在收听到所述音频信号时，能够分辨出声音在虚拟空间中的来源方向，有利于提高用户在虚拟空间中进行通信的体验。

Description

音频输出方法和装置、通信装置和存储介质

技术领域

本公开涉及通信技术领域，具体而言，涉及音频输出方法、音频输出装置、通信装置和计算机可读存储介质。

背景技术

当前VR(Virtual Reality，虚拟现实)/AR(Augmented Reality，增强现实)的实现领域主要是在游戏以及影视场景，主要的实现领域是在视觉，音频方面还没有普及空间音频的实现。

要实现VR/AR的音频通信，需要依托空间音频技术，目前空间音频的技术在多媒体播放端已经比较成熟，比如Dolby Atmos(杜比全景声)，DTS(Digital Theatre System，数字化影院系统)，sony 360等音频格式，但是目前这些技术存在一些问题。

以Dolby Atmos格式为例，Dolby Atmos格式音频都是后期制作的，也就是录制一道音轨声音作为object(对象)声音，然后再用制作软件，去给这段声音的每个时间点配上metadata(元数据)里的空间位置,只适合作为一种离线回放的音频存储格式。

Dolby Atmos虽然添加了object的位置信息，但是没有添加object的发声角度，所以在回放的时候，object的声音只能作为一个无指向性的声音进行回放，所以dolby atmos在回放时只有空间位置信息，导致收听声音的用户无法区分声音的来源方向，影响用户VR/AR的使用体验。

发明内容

有鉴于此，本公开的实施例提出了音频输出方法、音频输出装置、通信装置和计算机可读存储介质，以解决相关技术中的技术问题。

根据本公开实施例的第一方面，提出一种音频输出方法，包括：确定音频的发送端在虚拟空间中的朝向信息，以及所述音频的接收端和所述发送端在所述虚拟空间中的角度信息；根据所述角度信息和所述朝向信息，确定在所述虚拟空间中所述发送端相对于所述接收端的音频发射角；至少根据所述音频发射角对音频数据进行渲染以得到音频信号；输出所述音频信号。

可选地，所述至少根据所述音频发射角对音频数据进行渲染以得到音频信号包括：根据所述音频发射角确定第一增益系数和/或低通滤波器的高频衰减系数；根据所述第一增益系数和/或所述低通滤波器对所述音频数据进行渲染以得到所述音频信号；其中，所述第一增益系数与所述音频发射角正相关，和/或所述高频衰减系数与所述音频发射角负相关。

可选地，所述至少根据所述音频发射角对音频数据进行渲染以得到音频信号包括：确定所述接收端和所述发送端在所述虚拟空间中的距离；根据所述距离确定第二增益系数，其中，所述第二增益系数在预设距离范围内与所述距离反相关；根据所述第二增益系数对所述音频数据进行渲染以得到待输出信号；根据所述音频发射角对所述待输出信号进行渲染以得到所述音频信号。

可选地，所述至少根据所述音频发射角对音频数据进行渲染以得到音频信号包括：确定所述发送端在所述虚拟空间中的第一位置、所述接收端在所述虚拟空间中的第二位置、以及所述发送端和所述接收端在所述虚拟空间中所处房间的三维形状和反射系数；根据所述音频发射角对所述音频数据进行渲染以得到待输出信号；根据所述第一位置、第二位置、所述房间的三维形状和反射系数以及所述待输出信号生成混响并添加至所述待输出信号以得到所述音频信号。

可选地，所述至少根据所述音频发射角对音频数据进行渲染以得到音频信号包括：根据所述角度信息和所述朝向信息，确定在所述虚拟空间中所述接收端相对于所述发送端的音频接收角；根据所述音频发射角对所述音频数据进行渲染以得到待输出信号；根据头相关变换函数hrtf和/或幅度矢量合成定位vbap算法以及所述音频接收角对所述待输出信号进行渲染以得到所述音频信号。

根据本公开实施例的第二方面，提出一种音频输出装置，包括：处理模块，被配置为确定音频的发送端在虚拟空间中的朝向信息，以及所述音频的接收端和所述发送端在所述虚拟空间中的角度信息；根据所述角度信息和所述朝向信息，确定在所述虚拟空间中所述发送端相对于所述接收端的音频发射角；至少根据所述音频发射角对音频数据进行渲染以得到音频信号；输出模块，别配置为输出所述音频信号。

可选地，所述处理模块，被配置为根据所述音频发射角确定第一增益系数和/或低通滤波器的高频衰减系数；根据所述第一增益系数和/或所述低通滤波器对所述音频数据进行渲染以得到所述音频信号；其中，所述第一增益系数与所述音频发射角正相关，和/或所述高频衰减系数与所述音频发射角负相关。

可选地，所述处理模块，被配置为确定所述接收端和所述发送端在所述虚拟空间中的距离；根据所述距离确定第二增益系数，其中，所述第二增益系数在预设距离范围内与所述距离反相关；根据所述第二增益系数对所述音频数据进行渲染以得到待输出信号；根据所述音频发射角对所述待输出信号进行渲染以得到所述音频信号。

可选地，所述处理模块，被配置为确定所述发送端在所述虚拟空间中的第一位置、所述接收端在所述虚拟空间中的第二位置、以及所述发送端和所述接收端在所述虚拟空间中所处房间的三维形状和反射系数；根据所述音频发射角对所述音频数据进行渲染以得到待输出信号；根据所述第一位置、第二位置、所述房间的三维形状和反射系数以及所述待输出信号生成混响并添加至所述待输出信号以得到所述音频信号。

可选地，所述处理模块，被配置为根据所述角度信息和所述朝向信息，确定在所述虚拟空间中所述接收端相对于所述发送端的音频接收角；根据所述音频发射角对所述音频数据进行渲染以得到待输出信号；根据头相关变换函数hrtf和/或幅度矢量合成定位vbap算法以及所述音频接收角对所述待输出信号进行渲染以得到所述音频信号。

根据本公开实施例的第三方面，提出一种通信装置，包括：处理器；用于存储计算机程序的存储器；其中，当所述计算机程序被处理器执行时，实现上述音频输出方法。

根据本公开实施例的第四方面，提出一种计算机可读存储介质，用于存储计算机程序，当所述计算机程序被处理器执行时，实现上述音频输出方法中的步骤。

根据本公开的实施例，在对音频数据进行渲染时，考虑了发送端相对于接收端的音频发射角，使得渲染得到的音频信号可以包含有关音频发射角的特征，以便接收端的用户在收听到所述音频信号时，能够分辨出声音在虚拟空间中的来源方向，有利于提高用户在虚拟空间中进行通信的体验。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本公开的实施例示出的一种音频输出方法的示意流程图。

图2是根据本公开的实施例示出的接收端和发送端的空间关系示意图。

图3是根据本公开的实施例示出的另一种音频输出方法的示意流程图。

图4是根据本公开的实施例示出的又一种音频输出方法的示意流程图。

图5是根据本公开的实施例示出的又一种音频输出方法的示意流程图。

图6是根据本公开的实施例示出的又一种音频输出方法的示意流程图。

图7是根据本公开的实施例示出的又一种音频输出方法的示意流程图。

图8是根据本公开的实施例示出的一种音频输出装置的示意框图。

图9是根据本公开的实施例示出的一种用于音频输出的装置的示意框图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

在本公开实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开实施例。在本公开实施例和所附权利要求书中所使用的单数形式的“一种”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

出于简洁和便于理解的目的，本文在表征大小关系时，所使用的术语为“大于”或“小于”、“高于”或“低于”。但对于本领域技术人员来说，可以理解：术语“大于” 也涵盖了“大于等于”的含义，“小于”也涵盖了“小于等于”的含义；术语“高于”涵盖了“高于等于”的含义，“低于”也涵盖了“低于等于”的含义。

图1是根据本公开的实施例示出的一种音频输出方法的示意流程图。本实施例所示的方法可以适用于VR设备、AR设备等能够作为虚拟空间中音频信号的接收端的设备。

如图1所示，所述音频输出方法可以包括以下步骤：

在步骤S101中，确定音频的发送端在虚拟空间中的朝向信息，以及所述音频的接收端和所述发送端在所述虚拟空间中的角度信息；

在步骤S102中，根据所述角度信息和所述朝向信息，确定在所述虚拟空间中所述发送端相对于所述接收端的音频发射角；

在步骤S103中，至少根据所述音频发射角对音频数据进行渲染以得到音频信号；

在步骤S104中，输出所述音频信号。

在一个实施例中，所述虚拟空间可以是VR场景中的虚拟空间，也可以是AR场景中的虚拟空间，具体可以基于应用场景而定。

其中，本公开实施例的应用场景包括但不限于以下至少之一：

远程多人虚拟会议场景、远程网课场景、线上音乐会场景、沉浸式游戏场景、影音交互场景

例如在远程多人虚拟会议场景中，虚拟空间可以包括虚拟会议室，发送端可以包括虚拟空间中的发言者，接收端可以是VR/AR设备的使用者，例如作为与会人员。

例如在远程网课场景中，虚拟场景可以包括虚拟教室，发送端可以包括虚拟空间中的老师、发言的学生，接收端可以是VR/AR设备的使用者，例如作为学生。

例如在线上音乐会场景中，虚拟场景可以包括虚拟音乐厅，发送端可以包括虚拟空间中的演奏者、歌唱者，接收端可以是VR/AR设备的使用者，例如作为听众。

例如在沉浸式游戏场景中，虚拟场景可以包括游戏场景，发动端可以包括虚拟空间中的其他玩家、NPC(Non-Player Character，非玩家角色)，接收端可以是VR/AR设备的使用者，例如作为玩家。

例如在影音交互场景中，虚拟场景可以包括虚拟电影院，发送端可以包括虚拟空间中的音响，接收端可以是VR/AR设备的使用者，例如作为观众。

如图2所示，发送端在虚拟空间中位于点A，接收端在虚拟空间中位于点B，以点B为原点构建坐标系，yBz平面为接收端的基准面，y轴正方向为接收端的基准方向，也即y轴正方向为旋转角0度，在xBy平面内沿着逆时针方向旋转角的角度增大。

发送端在虚拟空间中的第一位置为(x _a,y _a,z _a)，接收端在虚拟空间中的第二位置为(x _b,y _b,z _b)，所述角度信息可以包括发送端(点A)到接收端(点B)的旋转角θ _ab和俯仰角

其中，θ _ab和

的计算方式如下：

需要说明的是，图2所示的是三维的虚拟空间，在二位的虚拟空间中，角度信息可以仅包括旋转角，而不包括俯仰角。

在一个实施例中，第一位置、第二位置、发送端的朝向信息，可以直接获取到。

例如可以通过对发送端和接收端进行定位，然后映射到虚拟空间中得到第一位置和第二位置；或者在接收端的位置为原点的情况下，根据在虚拟空间中生成的发送端(例如虚拟人物)所处的位置与原点的相对位置关系确定第一位置和第二位置(例如原点)。

例如可以根据发送端上设置的陀螺仪来确定发送端在虚拟空间中的朝向信息，其中，发送端在虚拟空间中的朝向信息，可以包括旋转朝向角度azim _a和俯仰朝向角度elev _a。

然后可以根据所述角度信息和所述朝向信息，确定在所述虚拟空间中所述发送端相对于所述接收端的音频发射角，例如音频发射角包括旋转方向上的角度θ _trans和俯仰方向上的角度

其中，θ _trans＝azim _a-θ _ab，

例如在A点和B点处于同一水平面的情况下，当发送端的朝向为正对着接收端时，θ _trans＝π，当发送端背对着接收端时，θ _trans＝0。进而可以根据所述音频发射角对音频数据进行渲染以得到音频信号，最后输出所述音频信号。

需要说明的是，本公开的实施例在根据所述音频发射角对音频数据进行渲染以得到音频信号的基础上，还可以结合其他参数对音频数据进行渲染，以便确保得到的音频信号与接收端所处的虚拟空间更为契合。

图3是根据本公开的实施例示出的另一种音频输出方法的示意流程图。如图3所示，所述至少根据所述音频发射角对音频数据进行渲染以得到音频信号包括：

在步骤S301中，根据所述音频发射角确定第一增益系数和/或低通滤波器的高频衰减系数；

在步骤S302中，根据所述第一增益系数和/或所述低通滤波器对所述音频数据进行渲染以得到所述音频信号；

其中，所述第一增益系数与所述音频发射角正相关，和/或所述高频衰减系数与所述音频发射角负相关。

在一个实施例中，可以根据音频发射角度确定第一增益系数，然后根据第一增益系数对音频数据进行渲染。其中，第一增益系数与音频发射角正相关，例如在0至π角度范围内，第一增益系数随着音频发射角的增大而增大。

例如在音频发射角为0时，也即发送端背对着接收端时，第一增益系数最小，根据第一增益系数渲染音频数据得到的音频信号也相对较小，接收端收听到发送端发出音频的音量相对较小；在音频发射角为π时，也即发送端正对着接收端时，第一增益系数最大，根据第一增益系数渲染音频数据得到的音频信号也相对较大，接收端收听到发送端发出音频的音量相对较大。

据此，发射端越接近正对着接收端时，接收端的用户听到发送端发出音频的音量越大，发射端越接近背对着接收端时，接收端的用户听到发送端发出音频的音量越小。

在一个实施例中，可以根据音频发射角度确定低通滤波器的高频衰减系数，然后根据低通滤波器对音频数据进行渲染，具体可以是滤波。其中，高频衰减系数与所述音频发射角负相关，例如在0至π角度范围内，高频衰减系数随着音频发射角的增大而减小。

例如在音频发射角为0时，也即发送端背对着接收端时，高频衰减系数最大，根据低通滤波器对音频数据进行滤波得到的音频信号中高频部分相对较少，接收端收听到发送端发出音频的高频部分相对较少；在音频发射角为π时，也即发送端正对着接收端时，高频衰减系数最小(例如低通滤波器为全通滤波器)，根据低通滤波器渲染音频数据得到的音频信号也相对较大，接收端收听到发送端发出音频的高频部分相对较多。

据此，由于声音的明亮以及细节成分主要是由高频部分决定的，且高频部分的指向性更强，因此根据本实施例，可以确保发射端越接近正对着接收端时，接收端的用户根据较多的高频部分确定发射端指向接收端，发射端越接近背对着接收端时，接收端的用户根据较少的高频部分确定发射端背对接收端。

在一个实施例中，可以综合第一增益系数和低通滤波器对音频数据进行渲染，例如第一增益系数为g _trans，低通滤波器为LPF，音频数据为Au，渲染得到的音频信号为Au'，那么Au'＝g _transLPF(Au)。据此，用户可以结合音频信号的音量和高频部分准确地区分音频信号的来源方向。

图4是根据本公开的实施例示出的又一种音频输出方法的示意流程图。如图4所示，所述至少根据所述音频发射角对音频数据进行渲染以得到音频信号包括：

在步骤S401中，确定所述接收端和所述发送端在所述虚拟空间中的距离；

在步骤S402中，根据所述距离确定第二增益系数，其中，所述第二增益系数在预设距离范围内与所述距离反相关；

在步骤S403中，根据所述第二增益系数对所述音频数据进行渲染以得到待输出信号；

在步骤S404中，根据所述音频发射角对所述待输出信号进行渲染以得到所述音频信号。

在一个实施例中，可以确定发送端在虚拟空间中的第一位置为(x _a,y _a,z _a)，接收端在虚拟空间中的第二位置为(x _b,y _b,z _b)，进而根据第一位置和第二位置计算接收端和所述发送端在虚拟空间中的距离d _ab，其中：

由于接收端到发送端的距离越远，接收端接收到发送端发出声音的音量就越小，因此可以根据距离确定第二增益系数g _d，且g _d第二增益系数在预设距离范围(可以根据需要进行设置，例如1米以上距离范围)内与所述距离反相关，例如：

进而根据所述第二增益系数对所述音频数据进行渲染以得到待输出信号，音频数据为Au，待输出信号为Au”，那么Au”＝g _dAu。然后根据所述音频发射角对所述待输出信号进行渲染以得到所述音频信号。据此，在对音频数据进行渲染时，考虑了发送端到接收端的距离，使得渲染得到的音频信号可以包含有关距离的特征，以便接收端的用户在收听到所述音频信号时，在能够分辨出声音在虚拟空间中的来源方向的基础上，还能分辨出在虚拟空间中的距离，有利于提高用户在虚拟空间中进行通信的体验。

其中，在1米以内，可以设置第二增益系数为定值1，也即在1米以内，渲染得到的音频信号不再随着距离的减少而增大，有利于避免音量过大而影响用户体验。

图5是根据本公开的实施例示出的又一种音频输出方法的示意流程图。如图5所示，所述至少根据所述音频发射角对音频数据进行渲染以得到音频信号包括：

在步骤S501中，确定所述发送端在所述虚拟空间中的第一位置、所述接收端在所述虚拟空间中的第二位置、以及所述发送端和所述接收端在所述虚拟空间中所处房间的三维形状和反射系数；

在步骤S502中，根据所述音频发射角对所述音频数据进行渲染以得到待输出信号；

在步骤S503中，根据所述第一位置、第二位置、所述房间的三维形状和反射系数以及所述待输出信号生成混响并添加至所述待输出信号以得到所述音频信号。

在一个实施例中，可以确定发送端在虚拟空间中的第一位置为(x _a,y _a,z _a)，接收端在虚拟空间中的第二位置为(x _b,y _b,z _b)，以及发送端和接收端在所述虚拟空间中所处房间的三维形状(x _r,y _r,z _r)和反射系数r _w，(x _r,y _r,z _r)和r _w可以整合为(x _r,y _r,z _r,r _w)。

进而可以先根据所述音频发射角对所述音频数据进行渲染以得到待输出信号，然后据所述第一位置、第二位置、所述房间的三维形状和反射系数以及所述待输出信号生成混响并添加至所述待输出信号以得到所述音频信号。

例如待输出信号为Au，渲染得到的音频信号为Au”'，那么Au”'＝reverb(Au，(x _a,y _a,z _a)，(x _a,y _a,z _a)，(x _r,y _r,z _r,r _w))，reverb表示用于计算混响以及将混响添加到待输出信号以得到音频信号的函数。

据此，在对音频数据进行渲染时，考虑了发送端和接收端在所述虚拟空间中所处房间的三维形状和反射系数，使得渲染得到的音频信号可以包含有关混响的特征，以便接收端的用户在收听到所述音频信号时，在能够分辨出声音在虚拟空间中的来源方向的基础上，还能根据混响分辨出在虚拟空间中所处房间的情况，有利于提高用户在虚拟空间中进行通信的体验。

图6是根据本公开的实施例示出的又一种音频输出方法的示意流程图。如图6所示，所述至少根据所述音频发射角对音频数据进行渲染以得到音频信号包括：

在步骤S601中，根据所述角度信息和所述朝向信息，确定在所述虚拟空间中所述接收端相对于所述发送端的音频接收角；

在步骤S602中，根据所述音频发射角对所述音频数据进行渲染以得到待输出信号；

在步骤S603中，根据头相关变换函数hrtf(Head Related Transfer Function)和/或幅度矢量合成定位vbap(Vector Base Amplitude Panning)算法以及所述音频接收角对所述待输出信号进行渲染以得到所述音频信号。

在一个实施例中，可以根据所述角度信息和所述朝向信息，确定在所述虚拟空间中所述接收端相对于所述发送端的音频接收角，例如音频接收角包括旋转方向上的角度θ _rece和俯仰方向上的角度

其中，θ _rece＝θ _ab-azim _b，

进而可以先根据所述音频发射角对所述音频数据进行渲染以得到待输出信号，然后根据头相关变换函数hrtf和/或幅度矢量合成定位vbap算法以及所述音频接收角对所述待输出信号进行渲染以得到所述音频信号。

例如待输出信号为Au，渲染得到的音频信号为Au””。其中，在接收端通过不同方式收听音频信号时，可以选择不同的方式进行渲染，例如在通过耳机收听时，可以通过hrtf渲染，

例如在通过扬声器收听时，可以通过vbap渲染，

据此，在对音频数据进行渲染时，考虑了在虚拟空间中接收端相对于发送端的音频接收角，使得渲染得到的音频信号可以包含有关音频接收角的特征，以便接收端的用户在收听到所述音频信号时，在能够分辨出声音在虚拟空间中的来源方向的基础上，还能确保在使用耳机收听时和/或使用扬声器收听时的收听效果，有利于提高用户在虚拟空间中进行通信的体验。

需要说明的是，本公开的各个实施例可以根据需要自行结合。例如，可以综合考虑上面多个实施例来对音频数据进行渲染，例如音频数据为Au。

首先，根据所述第二增益系数进行渲染Au ₁＝g _dAu；

然后，根据第一增益系数和低通滤波器进行渲染Au ₂＝g _transLPF(Au ₁)；

接下来，根据第一位置、第二位置、房间的三维形状和反射系数进行渲染Au ₃＝reverb(Au ₂，(x _a,y _a,z _a)，(x _a,y _a,z _a)，(x _r,y _r,z _r,r _w))；

最后，根据hrtf以及音频接收角

进行渲染得到音频信号

或者根据vbap算法音频接收角进行渲染得到音频信号

如图7所示，发送端发出的声音可以包括两部分，一部分为音频数据Audio，另一部分为发送端的元数据(metadata)，元数据中至少包括所述音频发射角，具体可以包括一增益系数、低通滤波器(高频衰减系数)，还可以包括接收端和发送端在虚拟空间中的距离、发送端和接收端在虚拟空间中所处房间的三维形状和反射系数等。

可以将音频数据和元数据整合为Object格式音频，进而进行编码并传输至接收端，接收端可以对接收到的内容进行解码，得到音频数据、发送端的元数据，然后根据音频数据、发送端的元数据和接收端的元数据(例如至少包括音频接收角)对音频数据进行渲染，得到音频信息后进行输出(播放)，接收端的用户进行收听。

需要说明的是，本公开的实施例可以适用音频实时收听场景，也可以适用于音频回放场景。

与前述的音频输出方法的实施例相对应地，本公开还提供了音频输出装置的实施例。

图8是根据本公开的实施例示出的一种音频输出装置的示意框图。本实施例所示的装置可以适用于VR设备、AR设备等能够作为虚拟空间中音频信号的接收端的设备。

如图8所示，所述音频输出装置可以包括：

处理模块801，被配置为确定音频的发送端在虚拟空间中的朝向信息，以及所述音频的接收端和所述发送端在所述虚拟空间中的角度信息；根据所述角度信息和所述朝向信息，确定在所述虚拟空间中所述发送端相对于所述接收端的音频发射角；至少根据所述音频发射角对音频数据进行渲染以得到音频信号；

输出模块802，别配置为输出所述音频信号。

在一个实施例中，所述处理模块，被配置为根据所述音频发射角确定第一增益系数和/或低通滤波器的高频衰减系数；根据所述第一增益系数和/或所述低通滤波器对所述音频数据进行渲染以得到所述音频信号；

在一个实施例中，述处理模块，被配置为确定所述接收端和所述发送端在所述虚拟空间中的距离；根据所述距离确定第二增益系数，其中，所述第二增益系数在预设距离范围内与所述距离反相关；根据所述第二增益系数对所述音频数据进行渲染以得到待输出信号；根据所述音频发射角对所述待输出信号进行渲染以得到所述音频信号。

在一个实施例中，所述处理模块，被配置为确定所述发送端在所述虚拟空间中的第一位置、所述接收端在所述虚拟空间中的第二位置、以及所述发送端和所述接收端在所述虚拟空间中所处房间的三维形状和反射系数；根据所述音频发射角对所述音频数据进行渲染以得到待输出信号；根据所述第一位置、第二位置、所述房间的三维形状和反射系数以及所述待输出信号生成混响并添加至所述待输出信号以得到所述音频信号。

在一个实施例中，所述处理模块，被配置为根据所述角度信息和所述朝向信息，确定在所述虚拟空间中所述接收端相对于所述发送端的音频接收角；根据所述音频发射角对所述音频数据进行渲染以得到待输出信号；根据头相关变换函数hrtf和/或幅度矢量合成定位vbap算法以及所述音频接收角对所述待输出信号进行渲染以得到所述音频信号。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在相关方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本公开的实施例还提出一种通信装置，包括：处理器；用于存储计算机程序的存储器；其中，当所述计算机程序被处理器执行时，实现上述任一实施例所述的音频输出方法。

本公开的实施例还提出一种计算机可读存储介质，用于存储计算机程序，当所述计算机程序被处理器执行时，实现上述任一实施例所述的音频输出方法中的步骤。

图9是根据本公开的实施例示出的一种用于音频输出的装置900的示意框图。例如，装置900可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。

参照图9，装置900可以包括以下一个或多个组件：处理组件902、存储器904、电源组件906、多媒体组件908、音频组件910、输入/输出(I/O)的接口912、传感器组件914以及通信组件916。

处理组件902通常控制装置900的整体操作，诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器920来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在装置900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)，只读存储器(ROM)、磁存储器、快闪存储器、磁盘或光盘。

电源组件906为装置900的各种组件提供电力。电源组件906可以包括电源管理系统，一个或多个电源，及其他与为装置900生成、管理和分配电力相关联的组件。

多媒体组件908包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当装置900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频信号。例如，音频组件910包括一个麦克风(MIC)，当装置900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频信号。

I/O接口912为处理组件902和外围接口模块之间提供接口，上述外围接口模块可以是键盘、点击轮、按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件914包括一个或多个传感器，用于为装置900提供各个方面的状态评估。例如，传感器组件914可以检测到装置900的打开/关闭状态，组件的相对定位，例如所述组件为装置900的显示器和小键盘，传感器组件914还可以检测装置900或装置900一个组件的位置改变，用户与装置900接触的存在或不存在，装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。

通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络，如WiFi、2G、3G、4G LTE、5G NR或它们的组合。在一个示例性实施例中，通信组件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件916还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术、红外数据协会(IrDA)技术、超宽带(UWB)技术、蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器904，上述指令可由装置900的处理器920执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本公开实施例所提供的方法和装置进行了详细介绍，本文中应用了具体个例对本公开的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本公开的方法及其核心思想；同时，对于本领域的一般技术人员，依据本公开的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本公开的限制。

Claims

一种音频输出方法，其特征在于，包括：

确定音频的发送端在虚拟空间中的朝向信息，以及所述音频的接收端和所述发送端在所述虚拟空间中的角度信息；

根据所述角度信息和所述朝向信息，确定在所述虚拟空间中所述发送端相对于所述接收端的音频发射角；

至少根据所述音频发射角对音频数据进行渲染以得到音频信号；

输出所述音频信号。
根据权利要求1所述的方法，其特征在于，所述至少根据所述音频发射角对音频数据进行渲染以得到音频信号包括：

根据所述音频发射角确定第一增益系数和/或低通滤波器的高频衰减系数；

根据所述第一增益系数和/或所述低通滤波器对所述音频数据进行渲染以得到所述音频信号；

其中，所述第一增益系数与所述音频发射角正相关，和/或所述高频衰减系数与所述音频发射角负相关。
根据权利要求1或2所述的方法，其特征在于，所述至少根据所述音频发射角对音频数据进行渲染以得到音频信号包括：

确定所述接收端和所述发送端在所述虚拟空间中的距离；

根据所述距离确定第二增益系数，其中，所述第二增益系数在预设距离范围内与所述距离反相关；

根据所述第二增益系数对所述音频数据进行渲染以得到待输出信号；

根据所述音频发射角对所述待输出信号进行渲染以得到所述音频信号。
根据权利要求1或2所述的方法，其特征在于，所述至少根据所述音频发射角对音频数据进行渲染以得到音频信号包括：

确定所述发送端在所述虚拟空间中的第一位置、所述接收端在所述虚拟空间中的第二位置、以及所述发送端和所述接收端在所述虚拟空间中所处房间的三维形状和反射系数；

根据所述音频发射角对所述音频数据进行渲染以得到待输出信号；

根据所述第一位置、第二位置、所述房间的三维形状和反射系数以及所述待输出信号生成混响并添加至所述待输出信号以得到所述音频信号。
根据权利要求1或2所述的方法，其特征在于，所述至少根据所述音频发射角对音频数据进行渲染以得到音频信号包括：

根据所述角度信息和所述朝向信息，确定在所述虚拟空间中所述接收端相对于所述发送端的音频接收角；

根据所述音频发射角对所述音频数据进行渲染以得到待输出信号；

根据头相关变换函数hrtf和/或幅度矢量合成定位vbap算法以及所述音频接收角对所述待输出信号进行渲染以得到所述音频信号。
一种音频输出装置，其特征在于，包括：

处理模块，被配置为确定音频的发送端在虚拟空间中的朝向信息，以及所述音频的接收端和所述发送端在所述虚拟空间中的角度信息；根据所述角度信息和所述朝向信息，确定在所述虚拟空间中所述发送端相对于所述接收端的音频发射角；至少根据所述音频发射角对音频数据进行渲染以得到音频信号；

输出模块，别配置为输出所述音频信号。
根据权利要求6所述的装置，其特征在于，所述处理模块，被配置为根据所述音频发射角确定第一增益系数和/或低通滤波器的高频衰减系数；根据所述第一增益系数和/或所述低通滤波器对所述音频数据进行渲染以得到所述音频信号；

其中，所述第一增益系数与所述音频发射角正相关，和/或所述高频衰减系数与所述音频发射角负相关。
根据权利要求6或7所述的装置，其特征在于，所述处理模块，被配置为确定所述接收端和所述发送端在所述虚拟空间中的距离；根据所述距离确定第二增益系数，其中，所述第二增益系数在预设距离范围内与所述距离反相关；根据所述第二增益系数对所述音频数据进行渲染以得到待输出信号；根据所述音频发射角对所述待输出信号进行渲染以得到所述音频信号。
根据权利要求6或7所述的装置，其特征在于，所述处理模块，被配置为确定所述发送端在所述虚拟空间中的第一位置、所述接收端在所述虚拟空间中的第二位置、以及所述发送端和所述接收端在所述虚拟空间中所处房间的三维形状和反射系数；根据所述音频发射角对所述音频数据进行渲染以得到待输出信号；根据所述第一位置、第二位置、所述房间的三维形状和反射系数以及所述待输出信号生成混响并添加至所述待输出信号以得到所述音频信号。
根据权利要求6或7所述的装置，其特征在于，所述处理模块，被配置为根据所述角度信息和所述朝向信息，确定在所述虚拟空间中所述接收端相对于所述发送端的音频接收角；根据所述音频发射角对所述音频数据进行渲染以得到待输出信号；根据头相关变换函数hrtf和/或幅度矢量合成定位vbap算法以及所述音频接收角对所述待输出信号进行渲染以得到所述音频信号。
一种通信装置，其特征在于，包括：

处理器；

用于存储计算机程序的存储器；

其中，当所述计算机程序被处理器执行时，实现权利要求1至5中任一项所述的音频输出方法。
一种计算机可读存储介质，用于存储计算机程序，其特征在于，当所述计算机程序被处理器执行时，实现权利要求1至5中任一项所述的音频输出方法中的步骤。