WO2023098332A1

WO2023098332A1 - 一种音频处理方法、装置、设备、介质及程序产品

Info

Publication number: WO2023098332A1
Application number: PCT/CN2022/126681
Authority: WO
Inventors: 曹木勇
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2021-12-01
Filing date: 2022-10-21
Publication date: 2023-06-08
Also published as: CN114143700A; CN114143700B; US20230364513A1

Abstract

本申请实施例公开了一种音频处理方法、装置、设备、介质及程序产品，其中的方法包括：获取第一游戏用户的语音音频以及第一游戏用户在游戏场景中操控的第一虚拟对象的空间位置信息；对第一游戏用户的语音音频进行转换处理，得到与第一虚拟对象的角色属性相匹配的目标音频；将目标音频与第一虚拟对象的空间位置信息发送至第二游戏用户，使第二游戏用户根据第一虚拟对象的空间位置信息对目标音频进行播放，其中，第二游戏用户操控的第二虚拟对象与第一虚拟对象处于同一游戏场景。

Description

一种音频处理方法、装置、设备、介质及程序产品

本申请要求于2021年12月1日提交中国专利局、申请号为202111460896.8名称为“一种音频处理方法、装置、设备、介质及程序产品”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，具体涉及人工智能领域，尤其涉及一种音频处理方法、一种音频处理装置、一种音频处理设备、一种计算机可读存储介质及一种计算机程序产品。

背景

许多应用场景(如直播场景、游戏场景、视频会议场景等)中，均会涉及对声音的处理。例如，游戏场景中支持对游戏用户的声音进行采集，得到游戏用户的语音音频，并将语音音频传输至游戏中其他游戏用户，实现游戏场景中多个游戏用户之间的语音交流。

技术内容

本申请实施例提供了一种音频处理方法，该方法包括：

获取第一游戏用户的语音音频以及第一游戏用户在游戏场景中操控的第一虚拟对象的空间位置信息；

对第一游戏用户的语音音频进行转换处理，得到与第一虚拟对象的角色属性相匹配的目标音频；

将目标音频与第一虚拟对象的空间位置信息发送至第二游戏用户，使第二游戏用户根据第一虚拟对象的空间位置信息对目标音频进行播放，其中，第二游戏用户操控的第二虚拟对象与第一虚拟对象处于同一游戏场景。

本申请实施例提供了一种音频处理方法，该方法包括：

接收第一游戏用户的目标音频及第一虚拟对象的空间位置信息，第一虚拟对象是第一游戏用户在游戏场景中操控的虚拟对象；目标音频是对第一游戏用户的语音音频进行转换处理后得到的，且与第一虚拟对象的角色属性相匹配的音频；

根据第一虚拟对象的空间位置信息对目标音频进行播放，其中，第一虚拟对象与第二虚拟对象处于同一游戏场景中，第二虚拟对象是第二游戏用户在游戏场景中操控的虚拟对象。

本申请实施例提供了一种音频处理装置，该装置包括：

获取单元，用于获取第一游戏用户的语音音频以及第一游戏用户在游戏场景中操控的第一虚拟对象的空间位置信息；

处理单元，用于对第一游戏用户的语音音频进行转换处理，得到与第一虚拟对象的角色属性相匹配的目标音频；

处理单元，还用于将目标音频与第一虚拟对象的空间位置信息发送至第二游戏用户，使第二游戏用户根据第一虚拟对象的空间位置信息对目标音频进行播放，其中，第二游戏用户操控的第二虚拟对象与第一虚拟对象处于同一游戏场景。

本申请实施例还提供一种音频处理装置，该装置包括：

接收单元，用于接收第一游戏用户的目标音频及第一虚拟对象的空间位置信息，第一虚拟对象是第一游戏用户在游戏场景中操控的虚拟对象；目标音频是对第一游戏用户的语音音频进行转换处理后得到的，且与第一虚拟对象的角色属性相匹配的音频；

处理单元，用于根据第一虚拟对象的空间位置信息对目标音频进行播放，其中，第一虚拟对象与第二虚拟对象处于同一游戏场景中，第二虚拟对象是第二游戏用户在游戏场景中操控的虚拟对象。

本申请实施例提供了一种音频处理设备，该音频处理设备包括：

处理器，用于加载并执行计算机程序；

计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，该计算机程序被处理器执行时，实现上述音频处理方法。

本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，该计算机程序适于由处理器加载并执行上述音频处理方法。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。音频处理设备的处理器从计算机可读存储介质读取该计算机指令，计算机指令被处理器执行时实现上述的音频处理方法。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个示例性实施例提供的一种音频处理系统的架构示意图；

图2示出了本申请一个示例性实施例提供的一种音频处理方法的流程示意图；

图3示出了本申请一个示例性实施例提供的一种模数转换的流程示意图；

图4示出了本申请一个示例性实施例提供的一种提示打开麦克风的示意图；

图5示出了本申请一个示例性实施例提供的一种目标点为摄像头的游戏场景的示意图；

图6示出了本申请一个示例性实施例提供的一种时域信号变换为频域信号的示意图；

图7a示出了本申请一个示例性实施例提供的一种采用两个不同的数据通道，分别传输目标音频和第一虚拟对象的空间位置信息的示意图；

图7b示出了本申请一个示例性实施例提供的一种采用同一数据通道传输目标音频和第一虚拟对象的空间位置信息的示意图；

图8示出了本申请一个示例性实施例提供的一种音频处理方法的流程示意图；

图9示出了本申请一个示例性实施例提供的一种距离信息与音量信息之间的映射关系的示意图；

图10示出了本申请一个示例性实施例提供的一种音频处理方法的流程示意图；

图11a示出了本申请一个示例性实施例提供的一种源终端执行音频处理方法的流程示意图；

图11b示出了本申请一个示例性实施例提供的一种云端转发服务器执行音频处理方法的流程示意图；

图11c示出了本申请一个示例性实施例提供的一种目标终端执行音频处理方法的流程示意图；

图12示出了本申请一个示例性实施例提供的一种音频处理装置的结构示意图；

图13示出了本申请一个示例性实施例提供的一种音频处理装置的结构示意图；

图14示出了本申请一个示例性实施例提供的一种音频处理设备的结构示意图。

实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

但实践发现，相关游戏场景为用户提供了一种较为简单和直接的语音音频处理模式，即将游戏用户的语音音频编码后，就直接传输给其他游戏用户进行语音音频的播放。这使得播放语音音频时呈现的声音效果是平面的，并不能体现出多个游戏用户操控的游戏角色之间的立体空间关系，且语音音频的音色与现实世界中游戏用户的声音相似，导致游戏场景中的语音音频缺乏隐秘性。

本申请实施例提供一种音频处理方法、装置、设备、介质及程序产品，可以提高游戏场景中语音音频的立体空间感，提升语音音频的隐秘性。

在本申请实施例中，涉及一种适用于本申请实施例提供的音频处理方法的音频处理系统，该音频处理系统的架构示意图可如图1所示；该音频处理系统包括多个终端(如终端101、终端102、……)和服务器(如服务器103、服务器104及服务器105)，本申请实施例对终端和服务器的数量不作限定。其中：终端可包括但不限于：智能手机(如Android手机、iOS手机等)、平板电脑、便携式个人计算机、移动互联网设备(Mobile Internet Devices，简称MID)、智能电视、车载设备、头戴设备等可以进行触屏的音频处理设备。终端中可以运行应用程序(可简称为应用，如游戏应用、社交应用、视频应用、web应用、任一应用中部署的游戏类小程序等等)。服务器可以包括但不限于：数据处理服务器、Web服务器、应用服务器、云端服务器(或简称为云服务器)等等具有复杂计算能力的设备。服务器可以是任一应用的后台服务器，用于与运行该任一应用的终端进行交互，以为该任一应用提供计算和应用服务支持。服务器可以是独立的物理服务器，也可以是由多个物理服务器构成的服务器集群或者分布式系统。终端和服务器可以通过有线或无线方式进行直接或间接地通信连接，本申请实施例并不对终端和服务器之间的连接方式进行限定。

基于上述的音频处理系统，提出一种基于游戏场景的音频处理方案。所谓游戏场景可以是指由目标游戏提供的、支持一个或多个游戏玩家(或称为游戏用户)游玩的三维空间场景。例如，目标游戏提供的游戏场景可包括：虚拟对象(即游戏玩家在目标游戏中操控的角色)驾驶载具(如汽车、船等)的场景、虚拟对象持枪械射击的场景、虚拟对象跳伞的场景、……。其中，目标游戏可包括但不限于：客户端游戏、网页游戏、小程序游戏、云游戏、街机游戏、遥控游戏等等。所谓音频是指人类能够听见的所有声音；音频凭借其具有高度同步性、互动性强等优势被广泛应用于各个领域，如音频被应用于游戏领域。举例来说，假设游戏场景中包括游戏用户1和游戏用户2，那么可采集游戏用户1的语音音频，并将语音音频发送至游戏用户2，来实现游戏场景中多个游戏用户之间的信息交流。

在具体实现中，本申请实施例提出的音频处理方案的大致原理可包括：若获取到游戏场景中第一游戏用户(如任一游戏用户)的语音音频，则对该语音音频进行转换处理，使得转换处理后得到的目标音频是与第一虚拟对象的角色属性相匹配的；这不仅能确保目标音频能够准确传递第一游戏用户欲表达的内容，还通过将目标音频的音色调整为与第一虚拟对象的角色属性相匹配的音色，避免暴露第一游戏用户的真实声音，提升声音的隐秘性和趣味性。并且，还可以获取第一游戏用户在游戏场景中操控的第一虚拟对象的空间位置信息，使得基于第一虚拟对象的空间位置信息来播放目标音频时，能够表征第一虚拟对象在游戏场景中的空间位置，提供给第二游戏用户(参与目标游戏的游戏用户中除第一游戏用户的任一游戏用户)更为真实的立体空间感。

该音频处理方案可以由第一游戏用户所使用的源终端、第二游戏用户所使用的目标终端以及服务器共同执行，或者，由第一游戏用户所使用的源终端中的运行的目标应用(如任一应用)、第二游戏用户所使用的目标终端中的运行的目标应用以及目标应用对应的后台服务器共同执行；为便于阐述，后续均以源终端、目标终端以及服务器来共同执行音频处理方案为例进行介绍。其中，在图1所示的音频处理系统中，第一游戏用户所使用的源终端可以为终端101、第二游戏用户所使用的目标终端可以为终端102，服务器可以是云服务器，云服务器具体可以包括：云端配置服务器103、云端信令服务器104以及云端数据传输服务器105；下面对给出的三种云端服务器进行简单介绍：

①云端配置服务器103可以为目标游戏提供配置服务，具体可为目标游戏的运行提供配置资源。例如，第一游戏用户使用终端101打开目标游戏时，终端101向云端配置服务器103发送数据配置请求，该数据配置请求用于请求云端配置服务器103返回初始化目标游戏所需要的配置资源，以便于终端101基于配置资源初始化目标游戏。②云端信令服务器104用于实现参与目标游戏的多个游戏用户(或多个游戏用户所使用的多个终端)之间的通信连接。具体地，当参与目标游戏的多个游戏用户之间的通信连接发生变化时，均可以通过云端信令服务器实现状态更新(如各个终端的网络状态的更新等)；例如，游戏用户1、游戏用户2以及游戏用户3参与同一游戏场景，若检测到游戏用户1所示用的终端与云端信令服务器104断开连接，如游戏用户1下线，则云端信令服务器104向游戏用户2以及游戏用户3发送通知消息，该通知消息用于通知游戏用户1下线。③云端数据传输服务器105用于实现参与目标游戏的多个游戏用户(或多个游戏用户所使用的多个终端)之间的数据转发。例如，云端数据传输服务器105可用于将终端101发送的第一游戏用户的目标音频转发给终端102。上述只是对三种云端服务器的简单介绍，后续会结合具体实施例对三种云端服务器进一步介绍。

需要说明的是，与第一游戏用户处于同一游戏场景的第二游戏用户的数量可以为至少两个，由于任一个第二游戏用户与第一游戏用户之间的音频处理流程是一致的，因此后续均以一个第二游戏用户为例对音频处理方案进行介绍。另外，上述提及的云端配置服务器103、云端信令服务器104以及云端数据转发服务器105是相互独立的云端服务器，终端可以按照需求与三个云端服务器中的任一个或多个进行交互。当然，根据实际应用的需求，本申请实施例还可能涉及其他类型的云端服务器，本申请实施例对云端服务器的类型和数量不作限定。

基于上述描述的音频处理方案，本申请实施例提出更为详细的音频处理方法，下面将结合附图对本申请实施例提出的音频处理方法进行详细介绍。

图2示出了本申请一个示例性实施例提供的一种音频处理方法的流程示意图；本申请实施例以该音频处理方法由上述提及的源终端来执行为例进行说明，该音频处理方法可包括但不限于步骤S201-S204：

S201：获取第一游戏用户的语音音频。

第一游戏用户的语音音频是指：对麦克风捕捉的模拟信号进行声音采集处理得到的数字信号；此处麦克风捕捉的模拟信号是由麦克风对第一游戏用户所处物理环境的声音进行采集得到的。其中，麦克风可部署于第一游戏用户所使用的源终端中，或麦克风是外接于源终端的设备。具体地，在麦克风处于打开状态时，麦克风可对第一游戏用户所处的物理环境中的声音进采集，得到模拟信号；再对采集的模拟信号进行声音采集处理，将模拟信号转换成能够被设备传输的数字信号。模拟信号又称为连续信号，是一种信号与信息的连续变化的物理量表示，例如，信号的幅度、频率或相位随时间作连续变化。数字信号又称为离散信号，相对于模拟信号而言，是指在取值上是离散的、不连续的信号。

正如前述所描述的，数字信号是对模拟信号进行声音采集处理得到的，具体可是使用脉冲编码调制(Pulse Code Modulation，PCM)，对模拟信号进行抽样、量化和编码产生的。下面结合图3所示的模数转换的流程示意图，对将模拟信号转换为数字信号的过程进行简单介绍；如图3所示，首先，对连续变化的模拟信号进行抽样，得到离散的抽样值；抽样是指对模拟信号进行周期性扫描，把时间上连续的信号变成时间上离散的信号的过程。其次，对抽样得到的离散的抽样值进行量化，所谓量化是指把经过抽样得到的瞬时值离散的过程，即用一组规定的电平，将瞬时值用最接近的电平值来表示，通常是采用二进制来表示。最后，对量化值进行编码，得到数字信号，所谓编码就是用一组二进制码组来标识每一个有固定电平的量化值。应当理解的是，图3所示的模拟信号的波形以及横纵坐标的取值均是示例性的，在其他应用场景中模拟信号的波形以及横纵坐标的取值可发生适应性变化，特在此说明。

对麦克风在第一游戏用户所处物理环境中采集的模拟信号，执行图3所示的模数转换的具体实现方式后，可将模拟信号转换为能够被源终端处理的数字信号，即获取到第一游戏用户的语音音频。需要说明的是，在麦克风处于关闭状态的情况下，本申请实施例还支持提示第一游戏用户开启麦克风。例如，在源终端的显示屏幕上输出提示消息，该提示消息用于提示第一游戏用户打开麦克风，以便于采集第一游戏用户的语音音频；再如，输出提示语音，该提示语音的语音内容可为“请开启麦克风”；等等。以麦克风部署于源终端为例，当第一游戏用户采用身份标识(如游戏账号、密码、指纹信息、面容信息等)成功登录目标游戏时，若检测到麦克风未被打开，则在源终端的显示屏幕上输出提示消息(如图4所示的提示消息401)，以便于第一游戏用户在看到提示消息后能够执行开启麦克风的操作；这样源终端响应于第一游戏用户开启麦克风的操作，执行初始化麦克风的相关参数的步骤，如设置麦克风的采集率(又称为采样频率，是指单位时间内采集的样本数)、声道数(即采集声音时每次生成的声波数据的个数)、采样位数(即每个采样点所采用的比特的数量)等，以实现启动麦克风。

S202：获取第一游戏用户在游戏场景中操控的第一虚拟对象的空间位置信息。

其中，第一虚拟对象是第一游戏用户在游戏场景中操控的游戏角色，该游戏角色所执行的动作(如打枪、跳跃、奔跑等)均是由第一游戏用户来操控的，该游戏角色可以包括：人或动物。第一虚拟对象在游戏场景中的空间位置信息可用于表征：第一虚拟对象在游戏场景中的三维位置信息，即(X,Y,Z)，X、Y、Z分别对应三个方向的距离，单位为米(或厘米、千米等其他单位)；在游戏场景中的空间位置信息可以按照一定比例还原成现实世界中的位置信息。

本申请实施例中，第一虚拟对象的空间位置信息可包括两种；一种实现方式中，第一虚拟对象的空间位置信息可包括：第一虚拟对象在游戏场景中基于坐标原点确定的目标坐标。另一种实现方式中，第一虚拟对象的空间位置信息可包括：在游戏场景中第一虚拟对象与第二虚拟对象之间的目标距离信息和方位信息。此处的第二虚拟对象是由第二游戏用户操控的，且与第一虚拟对象处于同一游戏场景的游戏角色。其中，第一虚拟对象与第二虚拟对象处于同一游戏场景可是指：操控第一虚拟对象的第一游戏用户，与操控第二虚拟对象的第二游戏用户在目标游戏中进入同一游戏场景(或简单理解为进入同一游戏房间)。值得说明的是，游戏场景往往包含多帧游戏画面，而处于同一游戏场景的第一虚拟对象和第二虚拟对象，并不一定同时显示于游戏场景的每帧游戏画面中；也就是说，按照游戏游玩情况，在游戏场景的一帧图像中可以只包含第一虚拟对象或第二虚拟对象，但第一虚拟对象和第二虚拟对象仍是处于同一游戏场景中的。

下面分别对上述给出的两种第一虚拟对象的空间位置信息的确定方式进行阐述，其中：

在一种实现方式中，第一虚拟对象的空间位置信息包括：第一虚拟对象在游戏场景中基于坐标原点确定的目标坐标。此实现方式下，获取第一游戏用户在游戏场景中操控的第一虚拟对象的空间位置信息的实现方式可包括：先将游戏场景中的目标点确定为坐标原点；再根据坐标原点建立空间坐标系；最后基于空间坐标系生成第一虚拟对象的目标坐标。其中，游戏场景中的目标点可以包括：摄像头(或称为摄像机)或光源点；游戏场景中的摄像头类似于人类的眼睛，可用于观察游戏场景；游戏场景中的光源点类似于灯光，用于照亮游戏场景，使得游戏场景中可产生物理的阴影，增加游戏场景的真实感和立体感。游戏场景中的摄像头和光源点可以位于相同或不同的位置，本申请实施例对此不作限定。

一种示例性的目标点为摄像头的游戏场景可参见图5，如图5所示，该游戏场景501中包含第一虚拟对象502以及第二虚拟对象503；假设游戏场景501中的摄像头位于水平地面的右边位置，基于摄像头建立空间坐标系504；那么以游戏场景501中所示的第一虚拟对象502和空间坐标系504之间的位置关系，可得到一种示例性的第一虚拟对象的目标坐标(即空间位置信息)为(2,10,0)。不难理解的是，根据摄像头在游戏场景中的设置位置的不同，或基于摄像头建立的空间坐标系的方向不同，第一虚拟对象在游戏场景中的空间位置信息并不相同，本申请实施例对第一虚拟对象的空间位置信息的具体数值不作限定。

在其他实现方式中，第一虚拟对象的空间位置信息包括：第一虚拟对象与第二虚拟对象之间的目标距离信息和方位信息。此实现方式下，获取第一游戏用户在游戏场景中操控的第一虚拟对象的空间位置信息的实现方式可包括：首先获取第一虚拟对象在游戏场景中的第一位置信息，以及第二虚拟对象在游戏场景中的第二位置信息；然后，对第一位置信息和第二位置信息进行距离运算，得到第一虚拟对象与第二虚拟对象之间的目标距离信息；再对第一位置信息和第二位置信息进行方位运算，得到第一虚拟对象和第二虚拟对象之间的方位信息。其中，第一虚拟对象在游戏场景中的第一位置信息可是指前述实施例提及的，第一虚拟对象在游戏场景中基于坐标原点确定的目标坐标(或称为第一坐标)；同理，第二虚拟对象在游戏场景中的第二位置信息可是指第二虚拟对象在游戏场景中基于坐标原点确定的第二坐标。

可以理解的是，当第一虚拟对象的空间位置信息为：第一虚拟对象与第二虚拟对象之间的目标距离信息和方位信息时，还可以直接将第一虚拟对象或第二虚拟对象作为目标点来建立空间坐标系；例如，将第一虚拟对象作为目标点建立空间坐标系时，第一虚拟对象的第一坐标默认为(0,0,0)，那么就可以只计算第二虚拟对象在空间坐标系中的第二坐标；在一定程度上可减少计算空间位置信息的计算量，提高数据处理效率。

继续以图5所示的游戏场景为例，在以摄像头为坐标原点建立的空间坐标系504中，假设计算得到的第二虚拟对象的第二坐标(即第二位置信息)为(8,0,1)，第一虚拟对象的第一坐标(即第一位置信息)为(2,10,0)；则对第一坐标和第二坐标进行距离运算可得到第一虚拟对象和第二虚拟对象之间的目标距离信息大约为11.7，本申请实施例对第一虚拟对象和第二虚拟对象之间的距离运算的具体实现方式不作限定，例如，可以通过计算第一坐标和第二坐标对应的坐标值的差值，再对三个差值的平方和开根号，得到第一虚拟对象和第二虚拟对象之间的目标距离信息。同理，对第一坐标和第二坐标进行方位运算可得到第一虚拟对象和第二虚拟对象之间的方位信息大致为：在x轴方向上第一虚拟对象相比于第二虚拟对象更靠近坐标原点，在y轴方向上第一虚拟对象相比于第二虚拟对象远离坐标原点，在z轴方向上第一虚拟对象相比于第二虚拟对象更靠近原点。

为更好地理解第一虚拟对象和第二虚拟对象的方位信息，本申请实施例引入第二虚拟对象的正面朝向来表述第一虚拟对象和第二虚拟对象的方位信息。如图5所示的第二虚拟对象的正面朝向y轴正方向，则此时第一虚拟对象和第二虚拟对象之间的方位信息可表述为：第一虚拟对象位于第二虚拟对象的左上方大约30°的位置。当然，根据第二虚拟对象的正面朝向的不同，第一虚拟对象和第二虚拟对象之间的方位信息可表述为其他内容；例如，第二虚拟对象的正面朝向x轴负方向，则此时第一虚拟对象和第二虚拟对象之间的方位信息可表述为：第一虚拟对象位于第二虚拟对象的右上方大约60°的位置。

S203：对第一游戏用户的语音音频进行转换处理，得到与第一虚拟对象的角色属性相匹配的目标音频。

正如前述步骤S201所描述的，第一游戏用户的语音音频是对麦克风采集的第一游戏用户的声音进行声音采集处理得到的，该语音音频的音色与第一游戏用户的真实声音的音色是相似的；若直接对第一游戏用户的语音音频进行播放，那么第二游戏用户很可能基于第一游戏用户的语音音频的音色，识别出第一游戏用户的真实身份，导致第一游戏用户的真实身份的暴露。基于此，本申请实施例支持对第一游戏用户的语音音频进行转换处理，转换处理得到的目标音频的音色是与语音音频的音色不同的；这能确保第二游戏用户基于目标音频并不能识别出第一游戏用户的真实身份，提高声音的隐秘性和趣味性。

在具体实现中，对第一游戏用户的语音音频进行转换处理的步骤可包括但不限于步骤s11-s13，其中：

s11：将第一游戏用户的语音音频进行第一变换处理，提取到第一游戏用户的语音音频的频域信息。

需要说明的是，在自然环境(或称为物理环境)中产生的声音都是由发音物体(或简称为发声体，如第一游戏用户)发出的一系列频率、振幅各不相同的振动复合(或叠加)而成的。其中，将多个振动中频率最低的振动所发出的音称为基音，基音往往是由发音物体整体振动所产生的声音，可决定声音的音高，用于表达声音的主要内容；而将多个振动中除频率最低的振动产生的音以外的音称为泛音，泛音往往是发音物体部分振动所产生的声音，可决定声音的音色(如音色为稚嫩音色、低层音色、粗犷音色等)。

基于上述对声音的描述可知，第一游戏用户的语音音频是由基音和至少一种频率对应的泛音叠加而成的时域信号，该时域信号体现在坐标轴上的波形表现为随时间连续变化的信号，坐标轴的横坐标是时间，纵坐标是信号的变化。当对语音音频进行第一变换处理时，其实质是对语音音频的波形进行第一变换处理，即将波形中的每个频率拆开来，再在纵轴上展开，横坐标是频率，就可以得到语音音频对应的频域信息(或称为频域信号)；该频域信息包括：基于语音音频中基音的频率变换得到的基音频域信息，以及基于语音音频中泛音的频率变换得到的泛音频域信息。其中，上述描述的第一变换处理是指傅立叶变换处理(或简称为傅立叶变换)，傅立叶变换是一种将信号转换成频率的技术，即时域转换到频域的变换方法。一种示例性的将时域信号变换为频域信号的示意图可参见图6，如图6所示，将时域信号的波形中的每个频率拆开来，并将各个频率的数值映射至横坐标，将频率对应的幅度值映射至纵坐标，就可以得到时域信号对应的频域信号。

s12：按照第一虚拟对象的角色属性对泛音频域信息进行修改，得到修改后的泛音频域信息。

正如步骤s11所描述的，语音音频的频域信息包括基音频域信息和泛音频域信息，而基音频域信息决定了第一游戏用户欲表达的内容，泛音频域信息决定第一游戏用户的声音的音色。考虑到在游戏场景中既要确保准确地传递第一游戏用户欲表达的内容，又要提升第一游戏用户的声音的隐秘性；因此，本申请实施例支持对泛音频域信息进行修改，使得修改后的泛音频域信息指示的音色与第一游戏用户的真实声音的音色不同，且能够正确表达第一游戏用户欲表达的内容。

具体地，可按照第一虚拟对象的角色属性对泛音频域信息进行修改。具体实现过程可包括：先获取第一虚拟对象的角色属性对应的音频配置信息，该音频配置信息包括泛音配置信息；再根据泛音配置信息，对泛音频域信息进行修改，得到修改后的泛音频域信息。也就是说，在获取到第一虚拟对象的角色属性信息对应的音频配置信息后，可采用音频配置信息对泛音频域信息(如频域信息对应的频率段中的泛音频率段)进行修改，此处的修改可是指对泛音频域信息进行增益(如放大泛音频域信息中的幅度值)或衰减(如缩小泛音频域信息中的幅度值)，得到修改后的泛音频域信息。

其中，第一虚拟对象的角色属性可包括但不限于：年龄属性、性别属性、样貌属性等等，不同角色属性的虚拟对象对应的声音的音色并不相同。第一虚拟对象的角色属性对应的音频配置信息是根据第一虚拟对象的角色属性确定的；例如，第一虚拟对象的角色属性1包括“12岁、女性”时的音频配置信息1与第一虚拟对象的角色属性2包括“60岁、女性”时的音频配置信息2并不相同，体现在音色上音频配置信息1表现的音色相比于音频配置信息2表现的音色更加稚嫩、清脆。其中，不同角色属性的音频配置信息是由业务人员事先设置好的，当第一游戏用户在选择或配置第一虚拟对象的角色属性时，可根据第一游戏用户选择或配置的角色属性确定第一虚拟对象对应的音频配置信息。另外，第一虚拟对象的角色属性对应的音频配置信息还可以是根据游戏场景生成的；此实现方式下，游戏场景中多个游戏玩家的语音音频被修改后，修改后的语音音频的音色是相同的。

综上所述，不管音频配置信息是根据第一虚拟对象的角色配置确定的，还是根据游戏场景生成的，采用音频配置信息对泛音频域信息进行修改后，修改后的泛音频域信息指示的音色均与第一游戏用户的真实声音的音色不同，提升声音的隐秘性。并且，在音频配置信息是根据第一虚拟对象的角色配置确定的这种实现方式下，由于参与游戏场景的多个游戏玩家操控的多个虚拟对象的角色属性并不相同，那么根据不同角色信息对应的音频配置信息修改后的泛音频域信息并不相同，这使得多个游戏用户发出的声音的音色不同，在一定程度上实现游戏场景中游戏声音的唯一性，提高目标游戏的趣味性，进而提升游戏用户粘性。

s13：融合基音频域信息和修改后的泛音频域信息，并对融合后的频域信息进行第二变换处理，得到与第一虚拟对象的角色属性相匹配的目标音频。

由于基音频域信息决定了第一游戏用户欲表达的内容，因此将基音频域信息和修改后的泛音频域信息融合后，得到的融合的频域信息不仅可以准确表达第一游戏用户欲表达的内容，还可以改变第一游戏用户的声音的音色，提升目标游戏的隐秘性。在得到融合后的频域信息后，本申请实施例还对融合后的频域信息进行第二变换处理，使得频域信息变换为时域对应的目标音频。与前述提及的第一变换处理对应的，此处的第二变换处理是逆傅立叶变换，该逆傅立叶变换能够将频域信号变换为时域信号。其中，逆傅立叶变换的处理过程与前述提及的傅立叶变换的处理过程是类似的，本申请实施例在此不作详细描述。

通过上述步骤s11-s13所示的具体实现过程，可将第一游戏用户的语音音频进行转换处理，得到音色变化后的目标音频，即转换处理是为了改变语音音频的音色；这样就将与第一游戏用户的真实声音的音色一致的语音音频，变换为音色与第一虚拟对象的角色属性相匹配的目标音频；在准确传递第一游戏用户欲表达的内容的前提下，改变了传递的声音的音色，使得与第一游戏用户参与同一游戏场景的第二游戏用户，不容易察觉第一游戏用户的真实身份，提升目标游戏的趣味性，提高游戏用户的粘性。

S204：将目标音频和第一虚拟对象的空间位置信息发送至第二游戏用户。

本申请实施例支持将目标音频和第一虚拟对象的空间位置信息发送至第二游戏用户，第二游戏用户所操控的第二虚拟对象与第一游戏用户所操控的第一虚拟对象处于同一场景中。这样第二游戏用户在接收到目标音频和第一虚拟对象的空间位置信息后，可根据第一虚拟对象的空间位置信息对目标音频进行播放，具体是根据第一虚拟对象和第二虚拟对象之间的目标距离信息和方位信息对目标音频进行播放。例如，第一虚拟对象的空间位置信息指示：第一虚拟对象与第二虚拟对象之间的距离较近时，播放目标音频时的音量较大，以使第二游戏用户了解到第一虚拟对象与第二虚拟对象之间的距离较近；反之，当第一虚拟对象和第二虚拟对象之间的距离较大时，播放目标音频时的音量较小，以使第二游戏用户了解到第一虚拟对象与第二虚拟对象之间的距离较远。再如，第一虚拟对象的空间位置信息指示：第一虚拟对象位于第二虚拟对象的正后方(或其他方向)，则播放目标音频时，第二游戏用户感受到的声音来源是正后方，这使得第二游戏用户能够感受到较为立体的听觉感受，提高游戏场景的真实性。

本申请实施例支持采用相互独立的数据通道，将目标音频和第一虚拟对象的空间位置信息独立发送到第二游戏用户；或者，采用同一数据通道将目标音频和第一虚拟对象的空间位置信息发送到第二游戏用户。下面对上述这两种传输方式进行介绍；其中：

1)采用相互独立的数据通道将目标音频和第一虚拟对象的空间位置信息独立发送到第二游戏用户。具体实现中，首先，对目标音频进行编码，生成第一音频数据包；此处的编码与前述提及的脉冲编码调制中的编码并不相同，此处的编码是采用压缩算法(compaction algorithm)对目标音频进行压缩，以减少目标音频的占用空间，可提升数据传输效率和速度，减少数据传输能耗；压缩算法是指数据压缩的算法，在电子与通信领域也常被称为信号编码，包括压缩和还原(或编码和解码)，压缩可包括但不限于：字典算法、固定位长算法(Fixed Bit Length Packing)、行程长度编码(run-length encoding，RLE)等等。其次，采用第一数据通道将编码得到的第一音频数据包发送至第二游戏用户。最后，采用第二数据通道将第一虚拟对象的空间位置信息，发送至第二游戏用户；具体是基于第一虚拟对象的空间位置信息生成第二音频数据包，并将第二音频数据包发送至第二游戏用户，该第二音频数据包所包含的内容可以为“pos:x＝5；y＝6；z＝7”，表示第一虚拟对象处于游戏场景中的x，y，z坐标分别为5、6、7米。当然，如果第一虚拟对象的空间位置信息的数据量较大或存在冗余，那么在采用第二数据通道发送第一虚拟对象的空间位置信息之前，也可以对基于空间位置信息生成的第二音频数据包进行编码，并采用第二数据通道发送编码后的第二音频数据包。其中，第一数据通道和第二数据通道不同。

一种示例性的采用两个不同的数据通道分别传输目标音频和第一虚拟对象的空间位置信息的示意图可参见图7a；如图7a所示，第一游戏用户操控的终端101可以采用第一数据通道，将第一音频数据包发送至云端数据转发服务器105，以便于云端数据转发服务器105采用第一数据通道将第一音频数据包转发至第二游戏用户操控的终端102；同理，第一游戏用户操控的终端101采用第二数据通道将第二音频数据包发送至云端数据转发服务器105，以便于云端数据转发服务器105采用第二数据通道将第二音频数据包转发至第二游戏用户操控的终端102。

需要说明的是，本申请实施例并不对发送目标音频和第一虚拟对象的空间位置信息的先后顺序进行限定。也就是说，可以先采用第一数据通道将目标音频发送至第二游戏用户，再采用第二数据通道将第一虚拟对象的空间位置信息发送至第二游戏用户；或者，先采用第二数据通道将第一虚拟对象的空间位置信息发送至第二游戏用户，再采用第一数据通道将目标音频发送至第二游戏用户；或者，同时采用第一数据通道将目标音频发送至第二游戏用户，以及采用第二数据通道将第一虚拟对象的空间位置信息发送至第二游戏用户。

2)采用同一数据通道将目标音频和第一虚拟对象的空间位置信息发送至第二游戏用户。具体实现中，首先，对目标音频进行编码生成第一音频数据包，此处编码的具体实现方式，可参见前述实现方式1)所示的具体实现方式的相关描述，在此不作赘述。其次，将第一虚拟对象的空间位置信息附加至第一音频数据包；具体可包括：将第一虚拟对象的空间位置信息附加至第一音频数据包的包尾或包首；例如，将第一虚拟对象的空间位置信息附加至第一音频数据包的包尾时，附加第一虚拟对象的空间位置信息的第一音频数据包的内容为“[voice_data][type＝pos；len＝12；x＝5；y＝6；z＝7]”，表示第一音频数据包后叠加类型为“pos”，长度为12字节，值为“x＝5；y＝6；z＝7”的空间位置信息。最后，将附加第一虚拟对象的空间位置信息的第一音频数据包，发送至第二游戏用户。一种示例性的将附加第一虚拟对象的空间位置信息的第一音频数据包，发送至第二游戏用户的示意图可参见图7b。

本申请实施例中，可对第一游戏用户的语音音频进行转换处理，使得转换处理后的目标音频与第一虚拟对象的角色属性相匹配，这在确保目标音频能够准确传递第一游戏用户欲表达的内容的同时，通过将目标音频的音色调整为与第一虚拟对象的角色属性相匹配的音色，避免暴露第一游戏用户的真实声音，提升声音的隐秘性和趣味性。另外，可获取第一虚拟对象在游戏场景中的空间位置信息，使得基于第一虚拟对象的空间位置信息来播放目标音频时，能够表征第一虚拟对象在游戏场景中的空间位置，提供给第二游戏用户更为真实的立体空间感。

图8示出了本申请一个示例性实施例提供的一种音频处理方法的流程示意图；本申请实施例以该音频处理方法由上述提及的目标终端来执行为例进行说明，该音频处理方法可包括但不限于步骤S801-S802：

S801：接收第一游戏用户的目标音频及第一虚拟对象的空间位置信息。

其中，第一虚拟对象是第一游戏用户在游戏场景中操控的虚拟对象；目标音频是对第一游戏用户的语音音频进行转换处理得到的，且与第一虚拟对象的角色属性相匹配的音频；具体地对第一游戏用户的语音音频进行转换处理得到目标音频的具体实现方式，可参见图2所示实施例中步骤S202所示的具体实现方式的相关描述，在此不作赘述。

正如前述图2所示实施例中步骤S204所描述的，第一游戏用户可采用独立的数据通道发送目标音频和第一虚拟对象的空间位置信息，或者，采用同一数据通道发送目标音频和第一虚拟对象的空间位置信息。那么当第一游戏用户采用第一数据通道发送目标音频，以及采用第二数据通道发送第一虚拟对象的空间位置信息时，第二游戏用户通过第一数据通道接收目标音频以及通过第二数据通道接收第一虚拟对象的空间位置信息；同理，当第一游戏用户采用同一数据通道将第一虚拟对象的空间位置信息以及目标音频发送至第二游戏用户时，第二游戏用户采用该同一数据通道接收第一虚拟对象的空间位置信息以及目标音频。

S802：根据第一虚拟对象的空间位置信息对目标音频进行播放。

在具体实现中，基于第一虚拟对象的空间位置信息，确定第一虚拟对象与第二虚拟对象之间的音频播放信息，该音频播放信息包括音频音量信息和音频方位信息；再按照音频播放信息对目标音频进行播放。其中，音频播放信息所包含的音频音量信息，是根据游戏场景中第一虚拟对象和第二虚拟对象之间的目标距离信息确定的，音频音量信息用于指示对目标音频进行播放时的音量大小；音频音量信息的单位可为分贝，如音频音量信息为100分贝。音频播放信息所包含的音频方位信息，是根据游戏场景中第一虚拟对象和第二虚拟对象之间的方位信息确定的，音频方位信息用于指示对目标音频进行播放时的声音来源方向；音频方位信息可包括：第一游戏虚拟对象和第二游戏虚拟对象在游戏场景中的方位角度，如第一游戏虚拟对象位于第二游戏用户的左上方30°。

下面分别对确定音频音量信息和音频方位信息的实现方式进行介绍，其中：

1)音频播放信息包括音频音量信息。基于第一虚拟对象的空间位置信息确定音频音量信息的实现方式可包括：

首先，基于第一虚拟对象的空间位置信息，得到第一虚拟对象与第二虚拟对象之间的目标距离信息。根据第一虚拟对象的空间位置信息所包含的内容不同，确定目标距离信息的方式并不相同。例如：当第一虚拟对象的空间位置信息包括：第一虚拟对象在游戏场景中基于坐标原点确定的目标坐标时，可先在游戏场景中确定第二虚拟对象的第二坐标，再根据第一虚拟对象的目标坐标和第二虚拟对象的第二坐标，计算第一虚拟对象和第二虚拟对象之间的目标距离信息；其中，在游戏场景中确定第二虚拟对象的第二坐标的方式可参见前述图2所示实施例中相关内容的相关描述，在此不作赘述。再如：当第一虚拟对象的空间位置信息包括：第一虚拟对象与第二虚拟对象之间的目标距离信息时，可直接从空间位置信息中获取第一虚拟对象与第二虚拟对象之间的目标距离信息。

其次，获取不同距离信息与音量信息之间的映射关系。可以理解的是，根据第一虚拟对象与第二虚拟对象之间的不同的距离信息，可映射得到与各个距离信息对应的音量信息；这样对于第二游戏用户来说，其听到的目标音频的音量也并不相同。例如：距离信息指示第一虚拟对象和第二虚拟对象之间相差2米时，与该距离信息具有映射关系的音量信息可以为100分贝(参见图9)；再如：距离信息指示第一虚拟对象和第二虚拟对象之间相差10米时，与该距离信息具有映射关系的音量信息可以为20分贝(参见图9)；分贝值越高，表示第二游戏用户听到的音量越大。需要说明的是，图9只是给出的一种示例性的距离信息与音频信息之间的映射关系，在实际应用场景中，根据不同的发音物体以及不同的声音传播介质，距离信息与音频信息之间的映射关系与图9所示的映射关系可能并不相同；本申请实施例对距离信息与音量信息之间的映射关系不作限定。

最后，根据映射关系和目标距离信息，确定第一虚拟对象与第二虚拟对象之间的音频音量信息。举例来说，假设目标距离信息指示第一虚拟对象和第二虚拟对象之间的距离为6米，则将目标距离信息与图9所示的映射关系中的各个距离信息进行匹配，可得到6米对应的音量信息大约为33.3分贝，则将33.3分贝作为第一虚拟对象与第二虚拟对象之间的音频音量信息。

2)音频播放信息包括音频方位信息。正如前述所描述的，第一虚拟对象的空间位置信息可包括：第一虚拟对象在游戏场景中基于坐标原点确定的目标坐标，或，第一虚拟对象与第二虚拟对象之间的方位信息；那么根据第一虚拟对象的空间位置信息所包含的内容不同，确定音频方位信息的方式并不相同。例如：当第一虚拟对象的空间位置信息包括：第一虚拟对象在游戏场景中基于坐标原点确定的目标坐标时，可先在游戏场景中确定第二虚拟对象的第二坐标，再根据第一虚拟对象的目标坐标和第二虚拟对象的第二坐标，计算第一虚拟对象和第二虚拟对象之间的音频方位信息；其中，在游戏场景中确定第二虚拟对象的第二坐标的实现方式，以及，根据第二虚拟对象的第二坐标以及第一虚拟对象的目标坐标确定音频方位信息的实现方式，可参见前述图2所示实施例中相关内容的相关描述，在此不作赘述。再如：当第一虚拟对象的空间位置信息包括：第一虚拟对象与第二虚拟对象之间的方位信息时，可直接从空间位置信息中获取第一虚拟对象与第二虚拟对象之间的方位信息，该方位信息即为音频方位信息。

基于上述实现方式1)和实现方式2)，得到第一虚拟对象和第二虚拟对象之间的音频音量信息和音频方位信息后，本申请实施例再根据音频音量信息和音频方位信息对目标音频进行播放，使得播放的目标音频能够体现第一虚拟对象和第二虚拟对象在游戏场景中的距离和方向。其中，根据第二游戏用户所处的物理环境中包含的设备条件的不同，根据音频音量信息和音频方位信息对目标音频进行播放的实现方式并不相同。下面分别以第二游戏用户所处的物理环境中包含多个喇叭，或第二游戏用户持有的目标终端可调用目标声学函数为例为例，对根据音频音量信息和音频方位信息对目标音频进行播放的实现方式进行示例性介绍，其中：

在一种实现方式中，假设第二游戏用户所处的物理环境中包含多个喇叭，那么可先对多个喇叭进行调整，使得调整后的喇叭播放目标音频时，能够体现出第一虚拟对象和第二虚拟对象之间的方向；然后，再根据音频音量信息和调整后的多个喇叭播放目标音频。其中，对多个喇叭的调整可包括：对多个喇叭的摆放位置、播放模式或功率等进行调整；本申请实施例对具体的调整方式不作限定。基于此，根据音频音量信息播放目标音频时可体现第一虚拟对象和第二虚拟对象之间的距离，且根据调整后的多个喇叭播放目标音频时可体现第一虚拟对象和第二虚拟对象之间的方向或方位，使得多个喇叭所产生的音效形成环绕立体音效。

其他实现方式中，若第二游戏用户所使用的目标终端中开启了音效定位模式(如HRTF模式)，那么可先调用目标声学函数对目标音频进行过滤处理，得到过滤处理后的目标音频；当播放该过滤处理后的目标音频时，人耳能够感知在游戏场景中第一虚拟对象位于第二虚拟对象的哪个方向；然后，再根据音频音量信息播放过滤处理后的目标音频，此时人耳可根据音频音量信息感知第一虚拟对象和第二虚拟对象之间距离，且根据过滤处理后的目标音频感知第一虚拟对象和第二虚拟对象之间的方向。其中，目标声学函数可以包括头相关传输函数(Head Related Transfer Functions，HRTF)，此时音效定位模式可是指HRTF模式。HRTF又称为ATF(anatomical transfer function)，是一种音效定位算法；HRTF作为一组滤波器，其利用耳间时间延迟(Interaural Time Delay，HDITD)、双耳幅度差(Interaural Amplitude Difference，IAD)和耳廓频率振动等技术，可实时处理目标音频，使得处理后的目标音频能够产生立体音效，这样处理后的目标音频的声音传递至人耳内的耳廓、耳道和鼓膜时，人耳会有环绕音效的感觉。那么采用头相关传输函数对目标音频进行过滤处理可包括：可将音频方位信息作为头相关传输函数的输入信息，得到新的头相关传输函数；再采用该新的头相关传输函数对目标音频进行过滤处理，得到过滤处理后的目标音频。需要说明的是，本申请实施例并不限定目标声学函数只为头相关传输函数；为便于说明，本申请实施例只是以目标声学函数为头相关传输函数为例，对采用头相关传输函数对目标音频的处理过程进行介绍。

综上所述，本申请实施例可按照音频音量信息和音频方位信息对目标音频进行播放，使得播放的目标音频能够体现三维立体的空间特征，提供立体的听觉感受，进而提升游戏用户的沉浸式游戏体验。并且，对第一游戏用户的语音音频进行转换处理，使得转换处理后的目标音频与第一虚拟对象的角色属性相匹配，这在确保目标音频能够准确传递第一游戏用户欲表达的内容的同时，通过将目标音频的音色调整为与第一虚拟对象的角色属性相匹配的音色，避免暴露第一游戏用户的真实声音，提升声音的隐秘性和趣味性。

上述图2和图8所示实施例，分别对源终端和目标终端执行音频处理方法的实现方式进行了详细介绍，下面结合图10并以该音频处理方法由源终端、目标终端以及服务器(如云端服务器)共同执行为例，对音频处理方案的整体流程进行说明；该音频处理方法可包括但不限于步骤S1001-S1018：

S1001、源终端向云端配置服务器发送数据配置请求。

S1002、源终端接收云端配置服务器响应于所述数据配置请求返回的配置信息。

S1003、源终端根据所述配置信息初始化目标游戏。

步骤S1001-S1003中，当第一游戏用户通过源终端打开并使用目标游戏时，源终端向云端配置服务器发送数据配置请求，该数据配置请求用于请求云端配置服务器查找并返回与目标游戏、第一游戏用户相关的配置信息。其中，配置信息可包括运行目标游戏所需要的配置资源，该配置资源包括：配置参数(如游戏画面的分辨率、目标游戏的系统框架、游戏数据等)，以及第一游戏用户在目标游戏的游戏场景中操控的第一虚拟对象的角色属性(如性别、年龄等)等。源终端在接收到云端配置服务器响应于数据配置请求所返回的配置资源后，可基于配置资源初始化目标游戏(如加载运行目标游戏的配置资源)，使得第一游戏用户成功启动目标游戏。

S1004、源终端检测到进入目标游戏的游戏场景的触发事件。

S1005、源终端向云端信令服务器发送状态变化请求。

S1006、源终端接收云端信令服务器返回的反馈结果。

步骤S1004-S1006中，触发进入目标游戏的游戏场景的触发事件可以包括：在目标游戏的第一游戏界面中对进入游戏场景的入口执行触发操作时所产生的事件、接收到第二游戏用户的游戏邀请时所产生的事件、接收到控制进入游戏场景的语音信号时所产生的事件等等。当产生触发事件时，表示第一游戏用户欲进入游戏场景，此时源终端可基于触发事件生成状态变化请求，该状态变化请求中携带游戏场景的场景标识(如沙漠场景、竞技场景、雪天场景、雨林场景等)，该状态变化请求用于请求云端信令服务器记录第一游戏用户游玩的游戏场景的相关游戏数据(如游戏开始时间、游戏场景的场景标识、处于同一游戏场景的第二游戏用户的相关信息等)。云端信令服务器响应于源终端发送的状态变化请求可返回反馈结果给源终端，该反馈结果可包括：成功或失败进入游戏场景、与第一虚拟对象处于同一游戏场景的第二游戏用户所操控的第二虚拟对象的对象数据(如昵称、历史游戏记录、游戏等级等)。

S1007、目标终端向云端配置服务器发送数据配置请求。

S1008、目标终端接收云端配置服务器响应于所述数据配置请求返回的配置信息。

S1009、目标终端根据所述配置信息初始化目标游戏。

需要说明的是，步骤S1007-S1009所示的具体实现方式，可参见步骤S1001-S1003所示的具体实现方式的相关描述，只是步骤S1007-S1009所示的具体实现方式是由目标终端来执行的，而S1001-S1003所示的具体实现方式是由源终端来执行；在此对步骤S1007-S1009所示的具体实现方式的不作赘述。

S1010、目标终端检测到进入目标游戏的游戏场景的触发事件。

S1011、目标终端向云端信令服务器发送状态变化请求。

S1012、目标终端接收云端信令服务器返回的反馈结果。

需要说明的是，步骤S1010-S1012所示的具体实现方式，可参见步骤S1004-S1006所示的具体实现方式的相关描述，只是步骤S1010-S1012所示的具体实现方式是由目标终端来执行的，而S1004-S1006所示的具体实现方式是由源终端来执行；在此对步骤S1010-S1012所示的具体实现方式的不作赘述。

S1013、源终端获取第一游戏用户的语音音频，以及获取第一游戏用户在游戏场景中操控的第一虚拟对象的空间位置信息。

需要说明的是，步骤S1013的具体实现方式，可参见图2所示实施例中步骤S201所示的具体实现方式的相关描述，在此不作赘述。

另外，若第一游戏用户是首次登录目标游戏，则在获取第一游戏用户的语音音频之前，本申请实施例还支持第一游戏用户在目标游戏中选择第一虚拟对象，这样后续第一游戏用户可操控第一虚拟对象进行目标游戏的游玩。其中，选择第一虚拟对象可理解为选择或设置第一虚拟对象的角色属性，例如，选择第一虚拟对象的角色属性为女性、设置第一虚拟对象的年龄为20岁等等。另外，若在获取第一游戏用户的语音音频之前，检测到麦克风未被打开，本申请实施例还支持通知第一游戏用户打开麦克风，其中，打开麦克风的具体实现过程可参见前述步骤S201所示的相关描述，在此不作赘述。

S1014、源终端对第一游戏用户的语音音频进行转换处理，得到与第一虚拟对象的角色属性相匹配的目标音频。

需要说明的是，步骤S1014的具体实现方式，可参见图2所示实施例中步骤S202所示的具体实现方式的相关描述，在此不作赘述。

本申请实施例在对第一游戏用户的语音音频进行转换处理之前，还支持对第一游戏用户的语音音频进行声音前处理，得到前处理后的语音音频，该前处理后的语音音频相比于前处理之前的语音音频，过滤掉语音音频中环境产生或电路产生的干扰信号、噪声信号，使得音频质量更高，提升语音音频的清晰性。其中，声音前处理可包括但不限于：回声消除、降噪、声音活动检测等处理方法；本申请实施例对声音前处理的具体实现方式不作限定，在此说明。

S1015、源终端将目标音频与第一虚拟对象的空间位置信息发送至云端数据转发服务器。

需要说明的是，步骤S1015的具体实现方式，可参见图2所示实施例中步骤S203所示的具体实现方式的相关描述，在此不作赘述。

S1016、云端数据转发服务器将目标音频和第一虚拟对象的空间位置信息，发送至目标终端。

S1017、目标终端接收云端数据转发服务器转发的目标音频和第一虚拟对象的空间位置信息。

S1018、根据第一虚拟对象的空间位置信息对目标音频进行播放。

需要说明的是，步骤S1016-S1018的具体实现方式，可参见图8所示实施例中步骤S801-S802所示的具体实现方式的相关描述，在此不作赘述。

可以理解的是，源终端中采集的第一游戏用户的语音音频往往不止一个，那么源终端可以将采集的多个语音音频经过转换处理后，生成各个语音音频对应的目标音频，并将各个目标音频进行编码，得到各个语音音频对应的第一音频数据包，以及将各个第一音频数据包和各个语音音频对应的空间位置信息发送至云端转发服务器。这样目标终端可以接收到多个第一音频数据包和对应的空间位置信息。为便于目标终端能够完整、准确地传达第一游戏用户的语音音频，本申请实施例支持在接收到多个第一音频数据包和对应的空间位置信息后，对多个第一音频数据包和对应的空间位置信息进行缓冲排序，所谓缓冲排序是指对接收到的信号(如多个第一音频数据包和对应的空间位置信息)按源终端的产生的先后顺序进行排序存储，使得后续按照缓冲排序的先后顺序对多个第一音频数据包中的目标音频进行播放时，能够准备传递第一游戏用户欲表达的内容。

另外，正如前述步骤S202所示的相关描述，源终端是将对目标音频编码后生成的第一音频数据包发送至云端数据转发服务器，以便于云端数据转发服务器将第一音频数据包转发至目标终端；那么目标终端接收到云端数据转发服务器转发的第一音频数据包后，还会对第一音频数据包进行解码，才得到目标音频。解码是采用解压缩算法对第一音频数据包进行解压缩，恢复目标音频的过程；编码与解码的过程是对应的，即目标终端需采用与源终端采用的压缩算法对应的解压缩算法对第一音频数据包进行解压缩。

上述步骤S1001-S1018示出了源终端、目标终端以及服务器(如云端配置服务器、云端信令服务器以及云端数据转发服务器)共同执行音频处理方法的流程。下面结合图11a、图11b以及图11c给出各个步骤的执行主体；其中：

源终端可以执行步骤S1001-S1006，以及步骤S1013-S1015所示的具体实现过程；一种源终端执行步骤S1001-S1006，以及步骤S1013-S1015的流程示意图可参见图11a。如图11a所示，源终端执行音频处理方法的流程包括：开始(如打开目标游戏)→初始化目标游戏→设置第一虚拟对象→开启麦克风→获取第一游戏用户的语音音频→声音前处理→第一变换处理(如傅立叶变换)→泛音特性化(如对语音音频对应的泛音频域信息的修改)→第二变换处理(如逆傅立叶变换)→编码→获取第一虚拟对象的空间位置信息→发送目标音频和空间位置信息至云端数据转发服务器→结束(如释放系统软硬件资源，退出目标游戏)。需要说明的是，上述流程的具体实现过程可参见图2或图10所示实施例的相关描述，在此不作赘述；另外，在具体实现过程中上述流程中所有步骤并非一定要全部执行，如可以不对第一游戏用户的语音音频进行泛音特性化，这样播放语音音频时仍然可体会立体的听觉感觉，只是语音音频的音色与第一游戏用户的真实声音是相似的。

云端服务器包括云端配置服务、云端信令服务器以及云端数据转发服务器，在音频处理方法中不同云端服务器起到的作用并不相同；例如，云端数据转发服务器用于实现源终端和目标终端之间的数据转发。下面结合图11b以给出云端数据转发服务器执行音频处理方法的流程，如图11b所示，云端数据转发服务器执行音频处理方法的流程包括：开始→初始化系统(如响应系统资源申请，准备接收数据(如语音音频))→接收数据(如循环接收源终端发送的语音音频和空间位置信息)→转发数据(如将接收到的数据转发到目标终端，如步骤S1016)→结束(如释放系统软硬件资源，退出目标游戏)。上述流程的具体实现过程可参见图2、图8或图10所示实施例的相关描述，在此不作赘述。

目标终端可以执行步骤S1007-S1012，以及步骤S1017-S1018所示的具体实现过程；一种目标终端执行步骤S1007-S1012，以及步骤S1017-S1018的流程示意图可参见图11c。如图11c所示，目标终端执行音频处理方法的流程包括：开始→初始化目标游戏→缓冲排序→解码→获取第一虚拟对象的空间位置信息→根据空间位置信息播放目标音频→结束。上述流程的具体实现过程可参见图8或图10所示实施例的相关描述，在此不作赘述。

值得说明的是，本申请实施例对步骤S1001-S1018中各个步骤执行的先后顺序不作限定，例如，可以先执行步骤S1001-S1003实现源终端对目标游戏的初始化，再执行步骤S1007-S1009实现目标终端对目标游戏的初始化；或者，同时执行的步骤S1001-S1003和步骤S1007-S1009；或者，先执行步骤S1007-S1009实现目标终端对目标游戏的初始化，再执行步骤S1001-S1003实现源终端对目标游戏的初始化。另外，步骤S1001-S1018只是给出音频处理方法的部分流程步骤，在实际应用场景中，音频处理方法还可以包括其他步骤，本申请实施例并不限定音频处理方法的具体实现步骤。

本申请实施例中，一方面，可对第一游戏用户的语音音频进行转换处理，使得转换处理后的目标音频与第一虚拟对象的角色属性相匹配，这在确保目标音频能够准确传递第一游戏用户欲表达的内容的同时，通过将目标音频的音色调整为与第一虚拟对象的角色属性相匹配的音色，避免暴露第一游戏用户的真实声音，提升声音的隐秘性和趣味性。另一方面，可获取第一虚拟对象在游戏场景中的空间位置信息，使得基于第一虚拟对象的空间位置信息来播放目标音频时，能够表征第一虚拟对象在游戏场景中的三维位置信息，提供更为真实的立体空间感。

上述详细阐述了本申请实施例的方法，为了便于更好地实施本申请实施例的上述方法，相应地，下面提供了本申请实施例的装置。

图12示出了本申请一个示例性实施例提供的一种音频处理装置的结构示意图，该音频处理装置可以是运行于源终端中的一个计算机程序(包括程序代码)；该音频处理装置可以用于执行图2及图10所示的方法实施例中的部分或全部步骤，该音频处理装置包括如下单元：

获取单元1201，用于获取第一游戏用户的语音音频，以及获取第一游戏用户在游戏场景中操控的第一虚拟对象的空间位置信息；

处理单元1202，用于对第一游戏用户的语音音频进行转换处理，得到与第一虚拟对象的角色属性相匹配的目标音频；

处理单元1202，还用于将目标音频与第一虚拟对象的空间位置信息发送至第二游戏用户，使第二游戏用户根据第一虚拟对象的空间位置信息对目标音频进行播放，其中，第二游戏用户操控的第二虚拟对象与第一虚拟对象处于同一游戏场景。

在一种实现方式中，处理单元1202，用于对第一游戏用户的语音音频进行转换处理，得到与第一虚拟对象的角色属性相匹配的目标音频时，具体用于：

将第一游戏用户的语音音频进行第一变换处理，提取到第一游戏用户的语音音频的频域信息，频域信息包括基音频域信息和泛音频域信息；

按照第一虚拟对象的角色属性对泛音频域信息进行修改，得到修改后的泛音频域信息；

融合基音频域信息和修改后的泛音频域信息，并对融合后的频域信息进行第二变换处理，得到与第一虚拟对象的角色属性相匹配的目标音频。

在一种实现方式中，处理单元1202，用于按照第一虚拟对象的角色属性对泛音频域信息进行修改，得到修改后的泛音频域信息时，具体用于：

获取第一虚拟对象的角色属性对应的音频配置信息，音频配置信息包括泛音配置信息，音频配置信息是根据第一虚拟对象的角色属性确定的，或者，音频配置信息是根据游戏场景生成的；

根据泛音配置信息，对泛音频域信息进行修改，得到修改后的泛音频域信息。

在一种实现方式中，第一虚拟对象的空间位置信息包括：第一虚拟对象在游戏场景中基于坐标原点确定的目标坐标；处理单元1202，用于获取第一游戏用户在游戏场景中操控的第一虚拟对象的空间位置信息时，具体用于：

将游戏场景中的目标点确定为坐标原点，游戏场景中的目标点包括：摄像头或光源点；

根据坐标原点建立空间坐标系，并基于空间坐标系生成第一虚拟对象的目标坐标。

在一种实现方式中，第一虚拟对象的空间位置信息包括：第一虚拟对象与第二虚拟对象之间的目标距离信息和方位信息；处理单元1202，用于获取第一游戏用户在游戏场景中操控的第一虚拟对象的空间位置信息时，具体用于：

获取第一虚拟对象在游戏场景中的第一位置信息，以及第二虚拟对象在游戏场景中的第二位置信息；

对第一位置信息和第二位置信息进行距离运算，得到第一虚拟对象与第二虚拟对象之间的目标距离信息；以及，

对第一位置信息和第二位置信息进行方位运算，得到第一虚拟对象与第二虚拟对象之间的方位信息。

在一种实现方式中，处理单元1202，用于将目标音频与第一虚拟对象的空间位置信息发送至第二游戏用户时，具体用于：

对目标音频进行编码，生成第一音频数据包，并采用第一数据通道将第一音频数据包发送至第二游戏用户；以及，

采用第二数据通道将第一虚拟对象的空间位置信息，发送至第二游戏用户；

其中，第一数据通道与第二数据通道不同。

对目标音频进行编码，生成第一音频数据包；

将第一虚拟对象的空间位置信息附加至第一音频数据包；

将附加第一虚拟对象的空间位置信息的第一音频数据包，发送至第二游戏用户。

根据本申请的一个实施例，图12所示的音频处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，该音频处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2及图10所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图12中所示的音频处理装置，以及来实现本申请实施例的音频处理方法。计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

本申请实施例中，一方面，处理单元1202可用于对第一游戏用户的语音音频进行转换处理，使得转换处理后的目标音频与第一虚拟对象的角色属性相匹配，这在确保目标音频能够准确传递第一游戏用户欲表达的内容的同时，通过将目标音频的音色调整为与第一虚拟对象的角色属性相匹配的音色，避免暴露第一游戏用户的真实声音，提升声音的隐秘性和趣味性。另一方面，处理单元1202可用于获取第一虚拟对象在游戏场景中的空间位置信息，使得基于第一虚拟对象的空间位置信息来播放目标音频时，能够表征第一虚拟对象在游戏场景中的三维位置信息，提供更为真实的立体空间感。

图13示出了本申请一个示例性实施例提供的一种音频处理装置的结构示意图，该音频处理装置可以是运行于源终端中的一个计算机程序(包括程序代码)；该音频处理装置可以用于执行图8及图10所示的方法实施例中的部分或全部步骤，该音频处理装置包括如下单元：

接收单元1301，用于接收第一游戏用户的目标音频及第一虚拟对象的空间位置信息，第一虚拟对象是第一游戏用户在游戏场景中操控的虚拟对象；目标音频是对第一游戏用户的语音音频进行转换处理后得到的，且与第一虚拟对象的角色属性相匹配的音频；

处理单元1302，用于根据第一虚拟对象的空间位置信息对目标音频进行播放，其中，第一虚拟对象与第二虚拟对象处于同一游戏场景中，第二虚拟对象是第二游戏用户在游戏场景中操控的虚拟对象。

在一种实现方式中，处理单元1302，用于根据第一虚拟对象的空间位置信息对目标音频进行播放时，具体用于：

基于第一虚拟对象的空间位置信息，确定第一虚拟对象与第二虚拟对象之间的音频播放信息，音频播放信息包括音频音量信息和音频方位信息；

按照音频播放信息播放目标音频。

在一种实现方式中，处理单元1302，用于基于第一虚拟对象的空间位置信息，确定第一虚拟对象与游戏场景中第二虚拟对象之间的音频播放信息时，具体用于：

基于第一虚拟对象的空间位置信息，得到第一虚拟对象与第二虚拟对象之间的目标距离信息；

获取不同距离信息与音量信息之间的映射关系；

根据映射关系以及所述目标距离信息，确定出第一虚拟对象与第二虚拟对象之间的音频音量信息；

根据音频音量信息，确定音频播放信息。

在一种实现方式中，第一虚拟对象的空间位置信息包括：第一虚拟对象在游戏场景中基于坐标原点确定的目标坐标；处理单元1302，用于基于第一虚拟对象的空间位置信息，确定第一虚拟对象与游戏场景中第二虚拟对象之间的音频播放信息时，具体用于：

获取第二虚拟对象在游戏场景中的参考坐标；

对目标坐标和参考坐标进行计算，得到第一虚拟对象和第二虚拟对象之间的音频方位信息；

根据音频方位信息，确定音频播放信息。

根据本申请的一个实施例，图13所示的音频处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，该音频处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质 (ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图8及图10所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图13中所示的音频处理装置，以及来实现本申请实施例的音频处理方法。计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

本申请实施例中，一方面，处理单元1302可用于对第一游戏用户的语音音频进行转换处理，使得转换处理后的目标音频与第一虚拟对象的角色属性相匹配，这在确保目标音频能够准确传递第一游戏用户欲表达的内容的同时，通过将目标音频的音色调整为与第一虚拟对象的角色属性相匹配的音色，避免暴露第一游戏用户的真实声音，提升声音的隐秘性和趣味性。另一方面，处理单元1302可用于获取第一虚拟对象在游戏场景中的空间位置信息，使得基于第一虚拟对象的空间位置信息来播放目标音频时，能够表征第一虚拟对象在游戏场景中的三维位置信息，提供更为真实的立体空间感。

图14示出了本申请一个示例性实施例提供的一种音频处理设备的结构示意图。请参见图14，该音频处理设备包括处理器1401、通信接口1402以及计算机可读存储介质1403。其中，处理器1401、通信接口1402以及计算机可读存储介质1403可通过总线或者其它方式连接。其中，通信接口1402用于接收和发送数据。计算机可读存储介质1403可以存储在音频处理设备的存储器中，计算机可读存储介质1403用于存储计算机程序，计算机程序包括程序指令，处理器1401用于执行计算机可读存储介质1403存储的程序指令。处理器1401(或称CPU(Central Processing Unit，中央处理器))是音频处理设备的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。

本申请实施例还提供了一种计算机可读存储介质(Memory)，计算机可读存储介质是音频处理设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括音频处理设备中的内置存储介质，当然也可以包括音频处理设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了音频处理设备的处理系统。并且，在该存储空间中还存放了适于被处理器1401加载并执行的一条或多条的指令，这些指令可以是一个或多个的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；在一些实施例中，还可以是至少一个位于远离前述处理器的计算机可读存储介质。

在一个实施例中，该计算机可读存储介质中存储有一条或多条指令；由处理器1401加载并执行计算机可读存储介质中存放的一条或多条指令，以实现上述音频处理方法实施例中的相应步骤；具体实现中，计算机可读存储介质中的一条或多条指令由处理器1401加载并执行如下步骤：

获取第一游戏用户的语音音频，以及获取第一游戏用户在游戏场景中操控的第一虚拟对象的空间位置信息；

在一种实现方式中，计算机可读存储介质中的一条或多条指令由处理器1401加载并在执行对第一游戏用户的语音音频进行转换处理，得到与第一虚拟对象的角色属性相匹配的目标音频时，具体执行如下步骤：

在一种实现方式中，计算机可读存储介质中的一条或多条指令由处理器1401加载并在执行按照第一虚拟对象的角色属性对泛音频域信息进行修改，得到修改后的泛音频域信息时，具体执行如下步骤：

在一种实现方式中，第一虚拟对象的空间位置信息包括：第一虚拟对象在游戏场景中基于坐标原点确定的目标坐标；计算机可读存储介质中的一条或多条指令由处理器1401加载并在执行获取第一游戏用户在游戏场景中操控的第一虚拟对象的空间位置信息时，具体执行如下步骤：

在一种实现方式中，第一虚拟对象的空间位置信息包括：第一虚拟对象与第二虚拟对象之间的目标距离信息和方位信息；计算机可读存储介质中的一条或多条指令由处理器1401加载并在执行获取第一游戏用户在游戏场景中操控的第一虚拟对象的空间位置信息时，具体执行如下步骤：

在一种实现方式中，计算机可读存储介质中的一条或多条指令由处理器1401加载并在执行将目标音频与第一虚拟对象的空间位置信息发送至第二游戏用户时，具体执行如下步骤：

其中，第一数据通道与第二数据通道不同。

对目标音频进行编码，生成第一音频数据包；

将第一虚拟对象的空间位置信息附加至第一音频数据包；

在另一个实施例中，该计算机可读存储介质中存储有一条或多条指令；由处理器1401加载并执行计算机可读存储介质中存放的一条或多条指令，以实现上述音频处理方法实施例中的相应步骤；具体实现中，计算机可读存储介质中的一条或多条指令由处理器1401加载并执行如下步骤：

在一种实现方式中，计算机可读存储介质中的一条或多条指令由处理器1401加载并在执行根据第一虚拟对象的空间位置信息对目标音频进行播放时，具体执行如下步骤：

按照音频播放信息播放目标音频。

在一种实现方式中，计算机可读存储介质中的一条或多条指令由处理器1401加载并在执行基于第一虚拟对象的空间位置信息，确定第一虚拟对象与游戏场景中第二虚拟对象之间的音频播放信息时，具体执行如下步骤：

获取不同距离信息与音量信息之间的映射关系；

根据音频音量信息，确定音频播放信息。

在一种实现方式中，第一虚拟对象的空间位置信息包括：第一虚拟对象在游戏场景中基于坐标原点确定的目标坐标；计算机可读存储介质中的一条或多条指令由处理器1401加载并执行基于第一虚拟对象的空间位置信息，确定第一虚拟对象与游戏场景中第二虚拟对象之间的音频播放信息时，具体执行如下步骤：

获取第二虚拟对象在游戏场景中的参考坐标；

根据音频方位信息，确定音频播放信息。

本申请实施例中，一方面，处理器1401可对第一游戏用户的语音音频进行转换处理，使得转换处理后的目标音频与第一虚拟对象的角色属性相匹配，这在确保目标音频能够准确传递第一游戏用户欲表达的内容的同时，通过将目标音频的音色调整为与第一虚拟对象的角色属性相匹配的音色，避免暴露第一游戏用户的真实声音，提升声音的隐秘性和趣味性。另一方面，处理器1401可获取第一虚拟对象在游戏场景中的空间位置信息，使得基于第一虚拟对象的空间位置信息来播放目标音频时，能够表征第一虚拟对象在游戏场景中的三维位置信息，提供更为真实的立体空间感。

本申请实施例还提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。音频处理设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该音频处理设备执行上述音频处理方法。

本领域普通技术人员可以意识到，结合本申请中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用，使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程设备。计算机指令可以存储在计算机可读存储介质中，或者通过计算机可读存储介质进行传输。计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如，同轴电缆、光纤、数字用户线(DSL))或无线(例如，红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据处理设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如，固态硬盘(Solid State Disk，SSD))等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种音频处理方法，由第一终端执行，包括：

获取第一游戏用户的语音音频以及所述第一游戏用户在游戏场景中操控的第一虚拟对象的空间位置信息；

对所述第一游戏用户的语音音频进行转换处理，得到与所述第一虚拟对象的角色属性相匹配的目标音频；

将所述目标音频与所述第一虚拟对象的空间位置信息发送至第二游戏用户，使所述第二游戏用户根据所述第一虚拟对象的空间位置信息对所述目标音频进行播放，其中，所述第二游戏用户操控的第二虚拟对象与所述第一虚拟对象处于同一游戏场景。
如权利要求1所述的方法，其中，所述对所述第一游戏用户的语音音频进行转换处理，得到与所述第一虚拟对象的角色属性相匹配的目标音频，包括：

将所述第一游戏用户的语音音频进行第一变换处理，提取到所述第一游戏用户的语音音频的频域信息，所述频域信息包括基音频域信息和泛音频域信息；

按照所述第一虚拟对象的角色属性对所述泛音频域信息进行修改，得到修改后的泛音频域信息；

融合所述基音频域信息和所述修改后的泛音频域信息，并对融合后的频域信息进行第二变换处理，得到与所述第一虚拟对象的角色属性相匹配的目标音频。
如权利要求2所述的方法，其中，所述按照所述第一虚拟对象的角色属性对所述泛音频域信息进行修改，得到修改后的泛音频域信息，包括：

获取所述第一虚拟对象的角色属性对应的音频配置信息，所述音频配置信息包括泛音配置信息，所述音频配置信息是根据所述第一虚拟对象的角色属性确定的，或者，所述音频配置信息是根据所述游戏场景生成的；

根据所述泛音配置信息，对所述泛音频域信息进行修改，得到修改后的泛音频域信息。
如权利要求1所述的方法，其中，所述第一虚拟对象的空间位置信息包括：所述第一虚拟对象在所述游戏场景中基于坐标原点确定的目标坐标；所述获取所述第一游戏用户在游戏场景中操控的第一虚拟对象的空间位置信息，包括：

将所述游戏场景中的目标点确定为坐标原点，所述游戏场景中的目标点包括：摄像头或光源点；

根据所述坐标原点建立空间坐标系，并基于所述空间坐标系生成所述第一虚拟对象的目标坐标。
如权利要求1所述的方法，其中，所述第一虚拟对象的空间位置信息包括：所述第一虚拟对象与所述第二虚拟对象之间的目标距离信息和方位信息；所述获取所述第一游戏用户在游戏场景中操控的第一虚拟对象的空间位置信息，包括：

获取所述第一虚拟对象在所述游戏场景中的第一位置信息，以及所述第二虚拟对象在所述游戏场景中的第二位置信息；

对所述第一位置信息和所述第二位置信息进行距离运算，得到所述第一虚拟对象与所述第二虚拟对象之间的目标距离信息；以及，

对所述第一位置信息和所述第二位置信息进行方位运算，得到所述第一虚拟对象与所述第二虚拟对象之间的方位信息。
如权利要求1～5任一项所述的方法，其中，所述将所述目标音频与所述第一虚拟对象的空间位置信息发送至第二游戏用户，包括：

对所述目标音频进行编码，生成第一音频数据包，并采用第一数据通道将所述第一音频数据包发送至第二游戏用户；以及，

采用第二数据通道将所述第一虚拟对象的空间位置信息，发送至第二游戏用户；

其中，所述第一数据通道与所述第二数据通道不同。
如权利要求1～5任一项所述的方法，其中，所述将所述目标音频与所述第一虚拟对象的空间位置信息发送至第二游戏用户，包括：

对所述目标音频进行编码，生成第一音频数据包；

将所述第一虚拟对象的空间位置信息附加至所述第一音频数据包；

将附加所述第一虚拟对象的空间位置信息的第一音频数据包，发送至第二游戏用户。
一种音频处理方法，由第二终端执行，包括：

接收第一游戏用户的目标音频及第一虚拟对象的空间位置信息，所述第一虚拟对象是所述第一游戏用户在所述游戏场景中操控的虚拟对象；所述目标音频是对所述第一游戏用户的语音音频进行转换处理后得到的，且与所述第一虚拟对象的角色属性相匹配的音频；

根据所述第一虚拟对象的空间位置信息对所述目标音频进行播放，其中，所述第一虚拟对象与第二虚拟对象处于同一游戏场景中，所述第二虚拟对象是第二游戏用户在所述游戏场景中操控的虚拟对象。
如权利要求8所述的方法，其中，所述根据所述第一虚拟对象的空间位置信息对所述目标音频进行播放，包括：

基于所述第一虚拟对象的空间位置信息，确定所述第一虚拟对象与所述第二虚拟对象之间的音频播放信息，所述音频播放信息包括音频音量信息和音频方位信息；

按照所述音频播放信息对所述目标音频进行播放。
如权利要求9所述的方法，其中，所述基于所述第一虚拟对象的空间位置信息，确定所述第一虚拟对象与游戏场景中第二虚拟对象之间的音频播放信息，包括：

基于所述第一虚拟对象的空间位置信息，得到所述第一虚拟对象与所述第二虚拟对象之间的目标距离信息；

获取不同距离信息与音量信息之间的映射关系；

根据所述映射关系以及所述目标距离信息，确定所述第一虚拟对象与所述第二虚拟对象之间的音频音量信息；

根据所述音频音量信息，确定所述音频播放信息。
如权利要求9所述的方法，其中，所述第一虚拟对象的空间位置信息包括：所述第一虚拟对象在所述游戏场景中基于坐标原点确定的目标坐标；

所述基于所述第一虚拟对象的空间位置信息，确定所述第一虚拟对象与游戏场景中第二虚拟对象之间的音频播放信息，包括：

获取所述第二虚拟对象在游戏场景中的参考坐标；

对所述目标坐标和所述参考坐标进行计算，得到所述第一虚拟对象和所述第二虚拟对象之间的音频方位信息；

根据所述音频方位信息，确定所述音频播放信息。
一种音频处理装置，包括：

获取单元，用于获取第一游戏用户的语音音频以及所述第一游戏用户在游戏场景中操控的第一虚拟对象的空间位置信息；

处理单元，用于对所述第一游戏用户的语音音频进行转换处理，得到与所述第一虚拟对象的角色属性相匹配的目标音频；

所述处理单元，还用于将所述目标音频与所述第一虚拟对象的空间位置信息发送至第二游戏用户，使所述第二游戏用户根据所述第一虚拟对象的空间位置信息对所述目标音频进行播放，其中，所述第二游戏用户操控的第二虚拟对象与所述第一虚拟对象处于同一游戏场景。
一种音频处理装置，包括：

接收单元，用于接收第一游戏用户的目标音频及第一虚拟对象的空间位置信息，所述第一虚拟对象是所述第一游戏用户在所述游戏场景中操控的虚拟对象；所述目标音频是对所述第一游戏用户的语音音频进行转换处理后得到的，且与所述第一虚拟对象的角色属性相匹配的音频；

处理单元，用于根据所述第一虚拟对象的空间位置信息对所述目标音频进行播放，其中，所述第一虚拟对象与第二虚拟对象处于同一游戏场景中，所述第二虚拟对象是第二游戏用户在所述游戏场景中操控的虚拟对象。
一种音频处理设备，包括：

处理器，适于执行计算机程序；

计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1-7任一项所述的音频处理方法，或实现如权利要求8-11任一项所述的音频处理方法。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于被处理器加载并执行如权利要求1-7任一项所述的音频处理方法，或执行如权利要求8-11任一项所述的音频处理方法。
一种计算机程序产品，所述计算机程序产品包括计算机指令，所述计算机指令被处理器执行时实现如权利要求1-7任一项所述的音频处理方法，或实现如权利要求8-11任一项所述的音频处理方法。