WO2022067652A1

WO2022067652A1 - 实时通信方法、装置和系统

Info

Publication number: WO2022067652A1
Application number: PCT/CN2020/119357
Authority: WO
Inventors: 张立斌
Original assignee: 华为技术有限公司
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2022-04-07
Also published as: CN114667744B; CN114667744A

Abstract

本申请实施例提供一种实时通信方法、装置和系统，在音视频通话的过程中，用户能够收听到对方带有位置指向性音效的语音，提升音视频通话的体验，该方法包括：在第一通信设备与第二通信设备进行音视频通话的过程中，根据第一通信设备的位置，以及来自第一通信设备的第一音频，及第二通信设备的参数，生成具有位置指向性的第二音频，该第二音频用于播放设备播放。

Description

实时通信方法、装置和系统

技术领域

本申请涉及通信技术领域，尤其涉及一种实时通信方法、装置和系统。

背景技术

目前，智能耳机已具有立体音效功能、降噪功能、以及生物监测等功能，极大地提升了用户音频体验，成为用户经常使用的产品。又由于其具有便携性，用户也经常使用智能耳机与通话对方进行语音交互。但是，当用户利用聊天工具进行实时的语音通话或视频通话(简称音视频通话)的过程中，用户仅能获取通话对方的声音内容，降低了用户的音视频通话的体验。

发明内容

本申请实施例提供一种实时通信方法、装置和系统，在音视频通话的过程中，用户能够收听到对方带有位置指向性音效的语音，提升音视频通话的体验。

为达到上述目的，本申请实施例采用如下技术方案。

第一方面，本申请实施例提供一种实时通信方法，该方法包括：在第一通信设备与第二通信设备进行音视频通话的过程中，获取第一通信设备的位置，接收来自第一通信设备的第一音频。根据第一通信设备的位置，第一音频，以及第二通信设备的参数，生成第二音频，第二音频为具有位置指向性的音频。因此，当第二通信设备在播放第二音频时，用户能够收听到对方带有位置指向性音效的语音，提升音视频通话的体验。

其中，接收来自第一通信设备的第一音频，应理解为，直接接收来自第一通信设备的第一音频，如，直接接收第一通信设备发送的第一音频。或者，间接接收来自第一通信设备的第一音频，如，接收由其他设备发送的来自第一通信设备的第一音频。

一种具体可实现方式中，获取第一通信设备的位置，具体为：接收来自第一通信设备的第一消息，第一消息包括第一通信设备的位置。本申请实施例中，第一通信设备的位置是第一通信设备发送的，使得第二通信设备可以直接获取第一通信设备的位置，更简洁高效。

一种具体可实现方式中，获取第一通信设备的位置，具体为：为第一通信设备配置第一虚拟位置。在本申请实施例中，第二通信设备直接为第一通信设备分配第一虚拟位置，无需第一通信设备发送第一通信设备的位置，使得第二通信设备获取第一通信设备的位置，更简洁高效。

一种具体可实现方式中，获取第一通信设备的位置，具体为：检测第一音频的音频数据中的位置关键词，位置关键词用于表征第一通信设备的位置。本申请实施例通过第二通信设备检测第一通信设备的第一音频的音频数据中包含的位置关键词，通过分析位置关键词确定第一通信设备的位置，无需依赖第一通信设备发送第一通信设备的位置。

一种具体可实现方式中，根据第一通信设备的位置，以及第一音频，生成第三音频，第三音频包含第一通信设备与第二通信设备的相对位置信息。根据第三音频，及第二通信设备的参数，生成第二音频。

其中，第三音频例如可以是一种“基于对象的音频沉浸式声音元数据和码流”的标准中的空间音频对象。该空间音频对象包含位置字段和内容字段。其中位置字段为第一通信设备和第二通信设备的相对位置信息；内容字段为第一通信设备的第一音频的语音内容信息。

一种具体可实现方式中，第二通信设备包括至少一个播放设备；播放设备包括耳机、虚拟现实VR或增强现实AR。

一种具体可实现方式中，第二通信设备外接播放设备。根据第一通信设备的位置，第一音频，以及第二通信设备的参数，生成第二音频，具体为：在第二通信设备与播放设备处于连接时，根据第一通信设备的位置，第一音频，以及第二通信设备的参数，生成第二音频。

一种具体可实现方式中，根据第三音频包含的相对位置信息，获取相对位置信息对应的播放设备上的头相关传输函数。将第一音频与头相关传输函数进行处理，得到第二音频。

一种具体可实现方式中，播放设备为耳机，耳机具有左耳和右耳。根据第一通信设备的位置，第一音频，以及第二通信设备的参数，生成第二音频，具体为：根据第三音频包含的相对位置信息，获取相对位置信息对应的左耳的头相关传输函数和右耳的头相关传输函数。将第一音频分别与左耳的头相关传输函数和右耳的头相关传输函数进行处理，得到耳机的左耳音频和右耳音频。

一种具体可实现方式中，第二音频用于第二通信设备播放。

也就是说，第二通信设备可以使用自身配置的播放器播放第二音频。

基于第一方面所述的方法，在根据第一通信设备的位置，第一音频，以及第二通信设备的参数，生成第二音频之后，包括：向第三通信设备发送第二音频，第二音频用于指示第三通信设备播放第二音频。

应理解为，第三通信设备可以是第二通信设备的外接播放设备，第三通信设备收到第二音频后可以知道应该播放第二音频。

一种具体可实现方式中，音视频通话包括视频通话、语音通话、语音会议和视频会议中的一种或多种。

第二方面，本申请实施例提供一种实时通信方法，该方法包括：在第一通信设备与第二通信设备进行音视频通话的过程中，第一通信设备发送第一音频。第二通信设备获取第一通信设备的位置。第二通信设备接收来自第一通信设备的第一音频。第二通信设备根据第一通信设备的位置，来自第一通信设备的第一音频，以及第二通信设备的参数，生成第二音频，第二音频为具有位置指向性的音频。第二通信设备播放第二音频。

一种具体可实现方式中，第二通信设备包括至少一个播放设备，第二通信设备播放第二音频，具体为：第二通信设备将第二音频发送给至少一个播放设备。播放设备接收第二音频，并播放第二音频。

第三方面，本申请实施例提供一种实时通信方法，该方法包括：在第一通信设备与第二通信设备进行音视频通话的过程中，第一通信设备发送第一通信设备的第一音频。服务器接收来自第一通信设备的第一音频。服务器获取第一通信设备的位置和第二通信设备的位置。服务器根据第一通信设备的位置，第二通信设备的位置，来自第一通信设备的第一音频，以及第二通信设备的参数，生成第二音频，第二音频为具有位置指向性的音频。服务器将第二音频发送给第二通信设备。第二通信设备播放第二音频。

第四方面，本申请实施例提供一种通信装置，包括：获取接收单元，用于在第一通信设备与第二通信设备进行音视频通话的过程中，获取第一通信设备的位置，接收来自第一通信设备的第一音频。生成单元，用于根据第一通信设备的位置，第一音频，以及第二通信设备的参数，生成第二音频，第二音频为具有位置指向性的音频。

一种具体可实现方式中，获取接收单元还用于接收来自第一通信设备的第一消息，第一消息包括第一通信设备的位置；或者，为第一通信设备配置第一虚拟位置；或者，检测第一音频的音频数据中的位置关键词，位置关键词用于表征第一通信设备的位置。

一种具体可实现方式中，生成单元还用于：根据第一通信设备的位置，以及第一音频，生成第三音频，第三音频包含第一通信设备与第二通信设备的相对位置信息；根据第三音频，及第二通信设备的参数，生成第二音频。

一种具体可实现方式中，第二通信设备包括至少一个播放设备。播放设备包括耳机、虚拟现实VR或增强现实AR。

一种具体可实现方式中，第二通信设备外接播放设备。生成单元还用于在第二通信设备与播放设备处于连接时，根据第一通信设备的位置，第一音频，以及第二通信设备的参数，生成第二音频。

一种具体可实现方式中，生成单元还用于：根据第三音频包含的相对位置信息，获取相对位置信息对应的播放设备上的头相关传输函数；将第一音频与头相关传输函数进行处理，得到第二音频。

一种具体可实现方式中，播放设备为耳机，耳机具有左耳和右耳。生成单元还用于：根据第三音频包含的相对位置信息，获取相对位置信息对应的左耳的头相关传输函数和右耳的头相关传输函数；将第一音频分别与左耳的头相关传输函数和右耳的头相关传输函数进行处理，得到耳机的左耳音频和右耳音频。

一种具体可实现方式中，第二音频用于第二通信设备播放。

基于第一方面所述的通信装置，该通信装置还包括：发送单元，用于向第三通信设备发送第二音频，第二音频用于指示第三通信设备播放第二音频。

第五方面，本申请实施例提供一种通信系统，包括：在第一通信设备与第二通信设备进行音视频通话的过程中，第一通信设备用于发送第一音频。第二通信设备用于接收来自第一通信设备的第一音频。第二通信设备用于获取第一通信设备的位置，并根据第一通信设备的位置，来自第一通信设备的第一音频，以及第二通信设备的参数，生成第二音频，第二音频为具有位置指向性的音频。第二通信设备用于播放第二音频。

一种具体可实现方式中，第二通信设备包括至少一个播放设备，包括：第二通信设备用于将第二音频发送给至少一个播放设备；播放设备用于接收第二音频，并播放第二音频。

第六方面，本申请实施例提供一种通信系统，包括：在第一通信设备与第二通信设备进行音视频通话的过程中，第一通信设备用于发送第一通信设备的第一音频；服务器用于接收来自第一通信设备的第一音频。服务器用于获取第一通信设备的位置和第二通信设备的位置；服务器用于根据第一通信设备的位置，第二通信设备的位置，来自第一通信设备的第一音频，以及第二通信设备的参数，生成第二音频，第二音频为具有位置指向性的音频；服务器用于将第二音频发送给第二通信设备；第二通信设备用于播放第二音频。

第七方面，本申请实施例提供一种电子设备，该电子设备包括：处理器和存储器，所述存储器与所述处理器耦合，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述处理器从所述存储器中读取所述计算机指令，以使得所述电子设备执行上述第一方面或者上述方面的任一种可能的设计所述的实时通信方法。

第八方面，本申请实施例提供一种计算机程序产品，所述计算机程序产品包括计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行上述第一方面或者上述方面的任一种可能的设计所述的实时通信方法。

第九方面，本申请实施例提供一种计算机可读存储介质，其特征在于，包括计算机指令，所述计算机可读存储介质包括计算机指令，当所述计算机指令在计算机上运行时，使得所述计算机执行上述第一方面或者上述方面的任一种可能的设计所述的实时通信方法。

第十方面，本申请实施例提供一种芯片系统，其特征在于，包括一个或多个处理器，当所述一个或多个处理器执行指令时，所述一个或多个处理器执行上述第一方面或者上述方面的任一种可能的设计所述的时通信方法。

其中，上述第二方面至第十方面中各个实施例的具体实施方式及对应的技术效果可以参见上述第一方面的具体实施方式及技术效果。

本申请实施例，通过在第一通信设备与第二通信设备进行音视频通话的过程中，根据获取的第一通信设备的位置，接收的来自第一通信设备的第一音频，以及第二通信设备的参数，生成具有位置指向性的第二音频。因此，当第二通信设备在播放第二音频时，用户能够收听到对方带有位置指向性音效的语音，提升音视频通话的体验。

附图说明

图1a为本申请实施例提供的一种智能音响的实际应用场景示意图一；

图1b为本申请实施例提供的一种智能音响的实际应用场景示意图二；

图2a为本申请实施例提供的一种耳机的实际应用场景示意图；

图3a为本申请实施例提供的一种车载设备的实际应用场景示意图一；

图3b为本申请实施例提供的一种车载设备的实际应用场景示意图二；

图1为本申请实施例提供的一种通信系统的架构示意图；

图2为本申请实施例提供的一种电子设备的组成示意图；

图3为本申请实施例提供的一种实时通信方法的流程图；

图4为本申请实施例提供的一种通信方法的应用场景示意图；

图5为本申请实施例提供的又一种通信方法的应用场景示意图；

图6为本申请实施例提供的又一种通信方法的流程图；

图7为本申请实施例提供的再一种通信方法的流程图；

图8为本申请实施例提供的一种通信装置的组成示意图。

具体实施方式

目前，智能耳机已具有立体音效功能、降噪功能、以及生物监测等功能，极大地提升了用户音频体验，成为用户经常使用的产品。

其中，立体音效功能可以利用人对声音的空间方位的感知原理。该人对声音的空间方位的感知原理，具体为：空间声源经过空气传递到人的左右耳，由于声波到达左右耳的距离不同，造成达到人的左右耳的声波不同，包括声波的声压不同、频率的相位不相同。左右耳基于同一声源的不同声波形成了对声源的音频空间方位和距离的感知。示例性的，当用户采用智能耳机听音乐时，用户可以收听到具有立体音效的音乐。

降噪功能可以利用噪音中和的原理。具体为：安置在智能耳机内部的麦克风检测环境中低频噪音(100～1000Hz)，并将检测到的低频噪音传递至智能耳机中的控制电路。控制电路根据低频噪音进行实时运算，得到与低频噪音相位相反、振幅相同的声波，并控制播放器播放。

综上可知，现有的智能耳机功能强大。又由于其具有便携性，用户也经常使用智能耳机与通话对方进行语音交互。但是，当用户利用聊天工具进行实时的音视频通话的过程中，用户仅能获取通话对方的声音内容，并不能有效利用智能耳机的立体音效功能。

因此，为了解决上述技术问题，在本申请实施例中，提出了一种实时通信方法。该方法通过在第一通信设备与第二通信设备进行音视频通话的过程中，根据获取的第一通信设备的位置，以及来自第一通信设备的第一音频生成第三音频。其中，第三音频包含第一通信设备和第二通信设备的相对位置信息。根据第三音频和第二通信设备的参数，生成具有位置指向性的第二音频。因此，当第二通信设备在播放第二音频时，用户能够收听到对方带有位置指向性音效的语音，提升音视频通话的体验。

以下结合一些具体的应用场景，对本申请实施例提供的技术方案进行简单说明。

场景一、智能家居

上述实施例中所述的第二通信设备可以为智能音响。第一通信设备可以为能够与第二通信设备进行音视频通话的电子设备，例如，手机。

以第一通信设备为手机，第二通信设备为智能音响为例，图1a为本申请实施例提供的一种智能音响的实际应用场景示意图一。如图1a所示，用户A坐在家里的沙发 (即位置A)上，用户B乘坐公共汽车位于位置B处。其中，在地理位置上，位置A位于位置B的正南方向上。当用户A使用智能音响11(即第二通信设备)与用户B使用的手机12(即第一通信设备)进行音频通话时，智能音响11根据获取的手机12的位置，及来自手机12的第一音频生成具有位置指向性的第二音频。当智能音响11播放第二音频时，用户A能够收听到用户B带有位置指向性的语音。例如，图1b为本申请实施例提供的一种智能音响的实际应用场景示意图二。如图1b所示，用户A坐在家里的沙发上面向北方。用户A能够感知用户B在用户A的正前方说话，使得用户A与用户B像在面对面的近距离交谈，提升音视频通话的体验。

当然，上述实施例中所述的第二通信设备还可以为智慧屏，用户A可以使用智慧屏与用户B使用的手机进行音频通话。其中，智慧屏可以与上述智能音响执行相似的操作，及相同的效果，在此不再赘述。

场景二、多人会议

上述实施例中所述的第二通信设备可以为耳机，耳机的数量可以为一个或多个。第一通信设备可以为能够与第二通信设备进行音视频通话的电子设备(例如，手机、耳机)，第一通信设备的数量可以为一个或多个。

以两个第一通信设备，一个第二通信设备，且第一通信设备和第二通信设备均是耳机为例，图2a为本申请实施例提供的一种耳机的实际应用场景示意图。如图2a所示，用户A位于位置A处，用户B1位于位置B1处，用户B2位于位置B2处。其中，位置B1位于位置A的西南方位上，位置B2位于位置A的东南方位上。用户A采用的耳机与用户B1和用户B2进行电话会议。用户A的耳机获取用户B1的耳机的位置和用户B2的耳机的位置。用户A的耳机根据用户B1的耳机的位置和用户B2的耳机的位置，及来自用户B1的耳机的音频和来自用户B2的耳机的音频，生成具有位置指向性的音频，可以实现不同人的音频具有不同的位置指向音效。如图2a所示，用户A能够感知用户B1在用户A的右前方说话，及用户B2在用户A的左前方说话，为用户B提供声临其境的感觉。因此，当多个人同时讲话时，收听者也可以根据不同的位置指向音效区分不同的发声者，提高音视频通话体验。

场景三、驾车场景

上述实施例中所述的第二通信设备可以为车载设备。第一通信设备可以为能够与第二通信设备进行音视频通话的电子设备，例如，手机。

以第一通信设备为手机，第二通信设备为车载设备为例，图3a为本申请实施例提供的一种车载设备的实际应用场景示意图一。如图3a所示，用户A开车位于位置A(即车载设备的位置)处，用户B乘坐公交车位于位置B(即手机的位置)处，其中，位置B位于位置A的正东方位。用户A使用车载设备31与用户B采用的手机32进行音视频通话。此时，车载设备31的显示屏上可以显示“用户B通话中”等提示信息。车载设备31获取手机32的位置。车载设备31根据手机32的位置，及来自手机32的音频，生成具有位置指向性的语音。例如，图3b为本申请实施例提供的一种车载设备的实际应用场景示意图二。如图3b所示，用户A能够感知用户B在用户A的东边(即右侧方)说话，使得用户B像在副驾驶座位上与用户A进行交谈，提升音视频通话的体验。

当然，第一通信设备和第二通信设备还可以为其他设备，如电视机、摄像头，等等。在此不再一一列举。具体可详见下述相关内容。

下面结合本申请实施例中的附图，对本申请实施例提供的实时通信方法进行描述。

本申请实施例提供的实时通信方法可应用于图1所示的通信系统，如图1所示，该通信系统100可以包括第一通信设备110和第二通信设备120。该通信系统100还可以包括服务器130。下面对图1所示架构中涉及的设备进行介绍。

第一通信设备110，可以是用于实现无线通信功能的设备，例如通信设备或者可用于通信设备中的芯片等。该第一通信设备110可以为具有麦克风、显示屏、摄像头和播放器等功能单元的通信设备。具体的，该第一通信设备110可以包括5G网络或者未来演进的通信系统中的用户设备(user equipment，UE)、智慧屏、接入终端、终端单元、终端站、移动站、移动台、远方站、远程终端、移动设备、无线通信设备、终端代理或终端装置等。接入终端可以是蜂窝电话、无绳电话、会话启动协议(session initiation protocol，SIP)电话、无线本地环路(wireless local loop，WLL)站、个人数字处理(personal digital assistant，PDA)、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备或可穿戴设备，第一通信设备110可以是移动的，也可以是固定的。在一些示例中，第一通信设备110也可以外接播放设备。可以由第一通信设备110可以使用自身配置的播放器播放音频，也可以采用外接的播放设备播放音频。

其中，播放设备可以为头戴式播放设备，该头戴式播放设备可以为有线耳机、无线耳机(例如，TWS蓝牙耳机、颈挂式蓝牙耳机、头戴式蓝牙耳机)、虚拟现实(virtual reality，VR)设备、增强现实(augmented reality，AR)设备等，本申请对该穿耳机的具体形式不做特殊限制。

第二通信设备120与第一通信设备110可以相同，可参见上述第一通信设备110的相关描述，在此不再赘述。

在一示例中，第一通信设备和第二通信设备分别连接头戴式播放设备140。或者，第一通信设备110连接头戴式播放设备140，第二通信设备120不连接头戴式播放设备140。或者，第一通信设备110不连接头戴式播放设备140，第二通信设备120连接头戴式播放设备140。如图1所示，本申请实施例以第一通信设备110不连接头戴式播放设备140，第二通信设备120连接头戴式播放设备140为例进行阐述。

服务器130，该服务器也可以称为服务设备、服务装置、云服务器、云计算服务器、云主机。本申请的实施例中的服务器可用于提供音视频通话服务，如蜂窝通话或互联网通话。具体的，第一通信设备110和第二通信设备120通过服务器130进行音视频通话。该音视频通话可以包括：视频通话，语音通话，语音会议和视频会议中的一种或多种。在一示例中，第一通信设备110和第二通信设备120可以采用会话初始协议(session initiation protocol，SIP)和实时传输协议(real-time transport protocol，RTP)进行音视频通话。

在具体实现时，可以由第二通信设备120或服务器130执行本申请实施例提供的实时通信方法，具体如下：

第二通信设备120为本申请实施例提供的实时通信方法的执行主体。

在第一通信设备110与第二通信设备120进行音视频通话的过程中，第二通信设备120接收来自第一通信设备110的第一音频。第二通信设备120获取第一通信设备110的位置。第二通信设备120根据第一通信设备110的位置，及第一通信设备110的第一音频，生成第三音频，第三音频包含第一通信设备110和第二通信设备120的相对位置信息。第二通信设备120根据第三音频及第二通信设备120的参数，生成具有位置指向性的第二音频，第二通信设备120播放第二音频。

其中，第二通信设备接收来自第一通信设备的第一音频，应理解为，直接接收来自第一通信设备的第一音频，如，第二通信设备直接接收第一通信设备发送的第一音频。或者，第二通信设备间接接收来自第一通信设备的第一音频，如，第一通信设备将第一音频发送给其他设备，第二通信设备接收由其他设备发送的来自第一通信设备的第一音频。

其中，第二通信设备可以采用如下任一种方式获取第一通信设备的位置：接收来自第一通信设备的第一消息，第一消息包括第一通信设备的位置；或者，第二通信设备为第一通信设备配置第一虚拟位置；或者，第二通信设备检测第一音频的音频数据中的位置关键词，位置关键词用于表征第一通信设备的位置。本申请实施例对第二通信设备获取第一通信设备的位置的方式不做具体限定。

在一示例中，第二通信设备外接播放设备。第二通信设备将第二音频发送给播放设备，该播放设备接收第二音频，并播放第二音频。

在一示例中，第二通信设备外接播放设备。第二通信设备将第三音频发送给播放设备，播放设备接收第三音频，并根据第三音频及播放设备的参数，生成具有位置指向性的第二音频，并播放该第二音频。

示例性的，播放设备可以为头戴式播放设备，该头戴式播放设备可以为有线耳机、无线耳机(例如，TWS蓝牙耳机、颈挂式蓝牙耳机、头戴式蓝牙耳机)、虚拟现实(virtual reality，VR)设备、增强现实(augmented reality，AR)设备等，本申请对该穿耳机的具体形式不做特殊限制。

若头戴式播放设备为耳机，则头戴式播放设备根据第三音频及头戴式播放设备的参数，生成第二音频，具体可实现为：根据第三音频包含的相对位置信息，获取相对位置信息对应的左耳的头相关传输函数和右耳的头相关传输函数；将第一音频分别与左耳的头相关传输函数和右耳的头相关传输函数进行处理，得到耳机的左耳音频和右耳音频。

以下，以无线耳机为例。耳机分别用于佩戴在用户左耳部和右耳部的左耳机和右耳机。耳机可通过有线连接或无线连接(如图1所示的路径11)彼此通信。耳机还可以通过有线连接或无线连接(如图1所示的路径12)与第二通信设备进行通信。其中，无线连接例如可以是蓝牙、WiFi、NFC、紫蜂(ZigBee)等连接方式。其中，路径12可以采用例如BT，WLAN(如Wi-Fi)，Zigbee，FM，NFC，IR，或通用2.4G/5G无线通信技术等。路径12所采用的连接方式与路径11所采用的连接方式可以相同，也可以不同，本申请实施例对此不做具体限定。

在一示例中，第二通信设备外接的播放设备与第二通信设备执行相似的操作。

另外，服务器也可以为本申请实施例提供的实时通信方法的执行主体。服务器与第二通信设备执行相似的操作。如，服务器130获取第一通信设备110的位置和第二通信设备120的位置。服务器130根据第一通信设备110的位置和第二通信设备120的位置，计算第一通信设备110和第二通信设备120的相对位置。服务器130根据第一通信设备110和第二通信设备120的相对位置，及第一通信设备110的第一音频，生成第三音频，第三音频包含第一通信设备110和第二通信设备120的相对位置信息。进一步的，服务器130根据第三音频及第二通信设备120的头戴式播放设备140的参数，生成第二音频。

在具体实现时，上述各设备(如：通信设备、头戴式播放设备)均可以采用图2所示的组成结构，或者包括图2所示的部件。图2为本申请实施例提供的一种电子设备200的结构示意图，该电子设备200可以包括处理器201，存储器202，通用串行总线(universal serial bus，USB)接口203，天线1，天线2，移动通信模块204，无线通信模块205，音频模块206，麦克风206A，耳机接口206B。

可以理解的是，本发明实施例示意的结构并不构成对电子设备200的具体限定。在本申请另一些实施例中，电子设备200可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器201可以包括一个或多个处理单元，例如：处理器201可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processing unit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

处理器201中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器201中的存储器为高速缓冲存储器。该存储器可以保存处理器201刚用过或循环使用的指令或数据。如果处理器201需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器201的等待时间，因而提高了系统的效率。

USB接口203是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口203可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他通信设备，例如AR设备等。

可以理解的是，本发明实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备200的结构限定。在本申请另一些实施例中，电子设备200也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

电子设备200的无线通信功能可以通过天线1，天线2，移动通信模块204，无线通信模块205，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备200中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块204可以提供应用在电子设备200上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块204可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块204可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块204还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块204的至少部分功能模块可以被设置于处理器201中。在一些实施例中，移动通信模块204的至少部分功能模块可以与处理器201的至少部分模块被设置在同一个器件中。

无线通信模块205可以提供应用在电子设备200上的包括无线局域网(wireless local area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块205可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块205经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器201。无线通信模块205还可以从处理器201接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备200的天线1和移动通信模块204耦合，天线2和无线通信模块205耦合，使得电子设备200可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(code division multiple access，CDMA)，宽带码分多址(wideband code division multiple access，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidou navigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellite system，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

存储器202可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器202可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备200使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器202可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。处理器201通过运行存储在内部存储器202的指令，和/或存储在设置于处理器中的存储器的指令，执行电子设备200的各种功能应用以及数据处理。

电子设备200可以通过音频模块206，麦克风206A，耳机接口206B，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块206用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块206还可以用于对音频信号编码和解码。在一些实施例中，音频模块206可以设置于处理器201中，或将音频模块206的部分功能模块设置于处理器201中。

麦克风206A，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风206A发声，将声音信号输入到麦克风206A。电子设备200可以设置至少一个麦克风206A。在另一些实施例中，电子设备200可以设置两个麦克风206A，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备200还可以设置三个，四个或更多麦克风206A，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口206B用于连接有线耳机。耳机接口206B可以是USB接口203，也可以是3.5mm的开放移动通信设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

当然，该电子设备200还可以包括传感器模块207，摄像头208，显示屏209等。其中传感器模块207可以包括陀螺仪传感器207A等。本申请实施例不在详细介绍。

需要说明的是，图1和图2仅为示例性架构图，除图1和图2中所示功能单元外，该系统还可以包括其他功能单元，本申请实施例对此不进行限定。此外，图1和图2中各个设备的名称不受限制，除图1和图2所示名称之外，各个设备还可以命名为其他名称，如替换成具备相同或相似功能的网元名称，不予限制。

在具体实现时，上述服务器可以包括处理器和存储器。进一步的，该服务器还可以包括通信线路以及通信接口。其中，处理器，存储器以及通信接口之间可以通过通信线路连接。

处理器，可以是中央处理器(central processing unit，CPU)、通用处理器、网络处理器(network processor，NP)、数字信号处理器(digital signal processing，DSP)、微处理器、微控制器、可编程逻辑器件(programmable logic device，PLD)或它们的任意组合。处理器还可以是其它具有处理功能的装置，如电路、器件或软件模块，不予限制。

通信线路，用于在服务器所包括的各部件之间传送信息。

通信接口，用于与其他设备或其它通信网络进行通信。该其它通信网络可以为以太网，无线接入网(radio access network，RAN)，无线局域网(wireless local area networks，WLAN)等。通信接口可以是模块、电路、收发器或者任何能够实现通信的装置。

存储器，用于存储指令。其中，指令可以是计算机程序。

其中，存储器可以是只读存储器(read-only memory，ROM)或可存储静态信息和/或指令的其他类型的静态存储设备，也可以是随机存取存储器(random access memory，RAM)或可存储信息和/或指令的其他类型的动态存储设备，还可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟)、磁盘存储介质、其他磁存储设备，不予限制。

需要说明的是，存储器可以独立于处理器存在，也可以和处理器集成在一起。存储器可以用于存储指令或者程序代码或者一些数据等。存储器可以位于服务器内，也可以位于服务器外，不予限制。

处理器，用于执行存储器中存储的指令，以实现本申请下述实施例提供的实时通信方法。例如，当电子设备为会话管理网元或者会话管理网元中的芯片或者片上系统时，处理器执行存储器中存储的指令，以实现本申请下述实施例中会话管理网元所执行的步骤。又例如，当电子设备为移动性管理网元或者移动性管理网元中的芯片或者片上系统时，处理器可以执行存储器中存储的指令，以实现本申请下述实施例中移动性管理网元所执行的步骤。

在一种示例中，处理器可以包括一个或多个CPU。

作为一种可选的实现方式，服务器包括多个处理器。

作为一种可选的实现方式，服务器还包括输出设备和输入设备。示例性地，输入设备是键盘、鼠标、麦克风或操作杆等设备，输出设备是显示屏、扬声器(speaker)等设备。

当然，服务器还可以包括其他功能单元，本申请实施例对此不进行限定。

下面以图1所示架构为例，对本申请实施例提供的通信方法进行描述。下述实施例中的各网元可以具备图2所示部件，不予赘述。需要说明的是，本申请的实施例中各个设备之间交互的消息名称或消息中的参数名称等只是一个示例，具体实现中也可以采用其他的名称。本申请实施例中的生成(generate)也可以理解为创建(create)或者确定，本申请实施例中的“包括”也可以理解为“携带”，在此统一说明，本申请实施例对此不作具体限定。

图3为本申请实施例提供的一种实时通信方法的流程示意图，如图3所示，该方法可以包括：

S300、第二通信设备获取第一通信设备的位置，接收来自第一通信设备的第一音频。

其中，第二通信设备获取第一通信设备的位置，具体可以采用以下至少一种方式实现：

方式一，第二通信设备可以接收来自第一通信设备的第一消息，该第一消息包括第一通信设备的位置。

具体可以采用如下方式：

第一种方式，在第一通信设备与第二通信设备进行音视频通话连接时，第二通信设备获取音视频通话请求中携带的第一通信设备的位置，该音视频通话请求为在第一通信设备与第二通信设备进行音视频通话连接时，第一通信设备发送的。

在本申请实施例中，第一通信设备的位置是在音视频通话建立时音视频通话请求中携带的，使得第二通信设备获取第一通信设备的位置简洁高效。

第二种方式，在第一通信设备与第二通信设备进行音视频通话的过程中，第二通信设备获取第一通信设备发送的媒体报文中封装的第一通信设备的位置。第二通信设备接收第一通信设备发送的媒体报文，并解析出第一通信设备的位置。

具体的，在第一通信设备与第二通信设备进行音视频通话的过程中，且在第一通信设备与第二通信设备处于静音状态时，第一通信设备发送媒体报文，第二通信设备接收第一通信设备发送的媒体报文，并解析出该媒体报文中封装的第一通信设备的位置。

本申请实施例中，第一通信设备的位置是第一通信设备发送的媒体报文中封装的，使得第二通信设备可以直接获取第一通信设备的位置，更简洁高效。

方式二，第二通信设备为第一通信设备配置第一虚拟位置。应理解为，第二通信设备为第一通信设备随机指定虚拟位置。

该虚拟位置，可以理解为以参照物为原点，设置为该参照物的前方，左边，右边或后方等位置。

具体为，该虚拟位置通过坐标系上的坐标设置，该坐标系可以为二维坐标系，如直角坐标系等。当然，该坐标系也可以为三维坐标系，如三维笛卡尔坐标系等。

示例性的，以直角坐标系为例，当第二通信设备与第一通信设备进行一对一的音视频通话时，第二通信设备可以以自身作为参照物，以自身所在位置为坐标原点，指定x轴的正半轴(即第二通信设备的左边)上的任一坐标作为第一通信设备的第一虚拟位置；或者，x轴的负半轴(即第二通信设备的右边)上的任一坐标作为第一通信设备的第一虚拟位置；或者，y轴的正半轴(即第二通信设备的前面)上的任一坐标作为第一通信设备的第一虚拟位置；或者，y轴的负半轴(即第二通信设备的后面)上的任一坐标作为第一通信设备的第一虚拟位置。

具体实施时，图4为本申请实施例提供的一种通信方法的应用场景示意图。第二通信设备指定第二通信设备的前面的位置作为第一通信设备的第一虚拟位置(如图4中所示的虚拟位置A)。

示例性的，以直角坐标系为例，当第二通信设备与第一通信设备进行一对一的音视频通话时，第二通信设备可以以第一通信设备和第二通信设备的中心位置(即会议中心)作为参照物，即中心位置为坐标原点，第二通信设备也可以任意指定会议中心周围的任两位置作为第一通信设备和第二通信设备的虚拟位置。

具体实施时，图5为本申请实施例提供的又一种通信方法的应用场景示意图。如图5所示，第二通信设备可以将虚拟位置A作为自身的位置，第二通信设备指定虚拟位置B作为第一通信设备的第一虚拟位置。或者，第二通信设备指定虚拟位置C为第一通信设备的第一虚拟位置，将虚拟位置D作为自身的位置；再或者，第二通信设备指定虚拟位置A为第一通信设备的第一虚拟位置，将虚拟位置E作为自身的位置。当然，还可以为其他组合，在此不再一一列举。

这里需要说明的是，第二通信设备还可以设置虚拟的目标方向(如在直角坐标系中，沿x轴的正半轴方向)，并将目标方向上的任一位置作为第一通信设备的第一虚拟位置。

在本申请实施例中，第二通信设备直接为第一通信设备分配第一虚拟位置，无需第一通信设备发送第一通信设备的位置，使得第二通信设备获取第一通信设备的位置，更简洁高效。

方式三，第二通信设备检测第一通信设备的第一音频的音频数据中的位置关键词，位置关键词用于表征第一通信设备的位置。第二通信设备根据位置关键词确定第一通信设备的位置。

示例性的，第二通信设备检测第一通信设备的第一音频的音频数据中含有“XXAXX”，A为地名。第二通信设备根据A确定A的位置，并将A的位置作为第一通信设备的位置。

示例性的，第二通信设备检测第一通信设备的第一音频的音频数据中含有“我在A”或“你在A吗？”其中，A为地名。第二通信设备根据A确定A的位置，并将A的位置作为第一通信设备的位置。

示例性的，第二通信设备检测第一通信设备的第一音频的音频数据中含有“A”的出现次数多于“B”的出现次数，A和B均为地名。第二通信设备选择出现次数最多的A，并根据A确定A的位置，并将A的位置信息作为第一通信设备的位置。

当然，还可以包括其他情况，如第二通信设备检测第一通信设备的第一音频的音频数据中包含有“A”、“B”和“C”，A、B和C均为地名，B为A的下级地名，C为B的下级地名，且A出现的次数最多。第二通信设备根据C确定C的位置，并将C的位置作为第一通信设备的位置。因此，具体需要根据实际情况设定，本申请实施例不再一一列举。

本申请实施例通过第二通信设备检测第一通信设备的第一音频的音频数据中包含的位置关键词，通过分析位置关键词确定第一通信设备的位置，无需依赖第一通信设备发送第一通信设备的位置。

其中，第二通信设备接收来自第一通信设备的第一音频，应理解为，直接接收来自第一通信设备的第一音频，如，第二通信设备直接接收第一通信设备发送的第一音频。或者，第二通信设备间接接收来自第一通信设备的第一音频，如，第一通信设备将第一音频发送给其他设备，第二通信设备接收由其他设备发送的来自第一通信设备的第一音频。本申请不做具体限定。

S301、在第一通信设备与第二通信设备进行音视频通话的过程中，第二通信设备根据第一通信设备的位置，以及来自第一通信设备的第一音频，生成第三音频。

该音视频通话可以包括视频通话，语音通话、语音会议和视频会议中的一种或多种。

该第三音频包含第一通信设备与第二通信设备的相对位置信息。

其中，第一通信设备的位置可以用经纬度表示。当然，第一通信设备的位置也可以用地理位置坐标表示。同理，第二通信设备的位置可以用经纬度表示或地理位置坐标表示。所以，第一通信设备与第二通信设备的相对位置信息可以为相对经纬度，也可以为相对地理位置坐标。

其中，S301具体可实现为：第二通信设备根据第一通信设备的位置和第二通信设备的位置，确定第一通信设备和第二通信设备的相对位置。第二通信设备根据第一通信设备和第二通信设备的相对位置，及第一通信设备的第一音频的音频数据，生成第三音频。

其中，该第三音频包含第一通信设备与第二通信设备的相对位置信息。第三音频也可以是一种“基于对象的音频沉浸式声音元数据和码流”的标准中的空间音频对象。该空间音频对象对应的数组字段中：位置字段对应第一通信设备和第二通信设备的相对位置信息；内容字段对应第一通信设备的第一音频的语音内容信息。

示例性的，假设第二通信设备B的位置坐标为(Xb，Yb)，第一通信设备A的位置坐标为(Xa,Ya)，则第一通信设备A相对第二通信设备B的x轴和y轴坐标分别为：

Y＝Ya-Yb

X＝Xa-Xb

即，得到第一通信设备A相对于第二通信设备B的位置坐标为A’(X,Y)。

这里需要说明的是，第一通信设备与第二通信设备的相对位置可以用经纬度的度数表示，无需转换成地理位置坐标。由于经纬度的度数对应的距离较长(如每一度经纬度大约代表111公里)，因此，本申请实施例中应用于空间音频对象时，第一通信设备与第二通信设备的相对位置的单位可以为厘米或分米。

由于现有的空间音频对象对应的数组字段中包括位置字段和内容字段。因此，本申请实施例利用了现有的空间音频对象的结构。具体为，第二通信设备根据第一通信设备的位置和第二通信设备的位置，确定第三音频的位置参数。第二通信设备根据来自第一通信设备的第一音频的音频数据，确定调度第三音频的内容参数。也就是说，第二通信设备将第三音频的位置字段对应的位置信息替换为第一通信设备与第二通信设备的相对位置。第二通信设备将第三音频的内容字段对应的内容信息替换为第一通信设备的第一音频的语音内容信息，即可得到第一通信设备的第三音频。

S302、第二通信设备根据第三音频，及第二通信设备的参数生成第二音频。

第二音频用于第二通信设备播放。换句话说，第二音频由第二通信设备播放。

再或者，本申请实施例提供的实时通信方法还包括：第二通信设备向第三通信设备发送第二音频，该第二音频还用于指示第三通信设备播放第二音频。也就是说，第三通信设备可以是第二通信设备的外接播放设备，第三通信设备收到第二音频后可以知道应该播放第二音频。

其中，第二通信设备具有至少一个播放设备，可以理解为：播放设备可以是第二通信设备的一部分，即播放设备与第二播放设备为同一设备；或者，播放设备可以与第二通信设备互为独立器件。其中，该播放设备可以为头戴式播放设备，该头戴式播放设备可以包括耳机(包括有线耳机、无线耳机等)、VR(virtual reality，虚拟现实)或AR(augmented reality，增强现实)等。

步骤S302具体可实现为：根据第三音频包含的相对位置信息，获取相对位置信息对应的播放设备上的头相关传输函数；将第一音频与所述头相关传输函数进行处理，得到第二音频。

示例性的，若头戴式播放设备可以为耳机，该耳机具有左耳和右耳，第二通信设备根据第三音频及第二通信设备的头戴式播放设备的参数生成第二音频，具体可实现为：

S3021、第二通信设备根据第三音频的位置参数，获取位置参数对应的左耳HRTF函数和右耳HRTF函数。

其中，HRTF函数，又称头相关传输函数(head related transfer function，HRTF)，其用于描述人体的头部及耳廓等部位对声波的散射作用以及由此产生的双耳时差(interaural time difference，ITD)和声级差(interaural level difference，ILD)，反映了声波从声源到双耳的传输过程。具体实施时，人体的听觉系统利用ITD和历史的听觉经验，实现声源的精确定位。

也就是说，左耳HRTF函数和右耳HRTF函数本质上是包含了空间方位信息。即不同的空间方位，其HRTF函数是完全不一样的。因此，HRTF函数实际上是包含了空间信息的，是不同空间声源到双耳传递函数的一个表征。

S3022、第二通信设备将第三音频分别与左耳HRTF函数和右耳HRTF函数进行处理，得到耳机的左耳音频和右耳音频。

应理解为，第二通信设备通过耳机的传感器对用户的头部或耳机姿态进行空间定位，并将该空间定位设定为坐标原点，将用户应该听到的声源设为目标。由于开源的HRTF函数库中没有每个位置的HRTF函数，因此，第二通信设备根据目标周围已知方位的HRTF函数进行插值计算，可以得到目标方位的HRTF函数。在时域上，第二通信设备将目标方位的HRTF函数与第三音频进行卷积处理，得到耳机的左耳音频和右耳音频，并将其经逆变换后即可得到时域信号，再基于耳机播放用户即可感受空间音频。

以上申请实施例是以一个第一通信设备与一个第二通信设备的音视频通话进行说明的，下面分别对一个第二通信设备对多个第一通信设备的音视频通话，及多个第一通信设备与多个第二通信设备的音视频通话进行说明。具体如下：

在多个第一通信设备与一个第二通信设备进行音视频通话的过程中，第二通信设备根据每个第一通信设备的第一音频，每个第一通信设备的位置，及第二通信设备的位置，生成各个第一通信设备的第三音频。第二通信设备根据各个第一通信设备的第三音频，及第二通信设备的参数生成第二音频。

以第一通信设备A1、第一通信设备A2与第二通信设备B进行音视频通话为例：

示例性的，第二通信设备B获取第一通信设备A1的位置A1和第一通信设备A2的位置A2。在第一通信设备A1、第一通信设备A2和第二通信设备B进行音视频通话过程中，第二通信设备B根据第一通信设备A1的位置A1，第二通信设备B的位置B，及来自第一通信设备A1的第一音频，生成第一通信设备A1的第三音频。同时，第二通信设备B根据第一通信设备A2的位置A2，第二通信设备B的位置B，及来自第一通信设备A2的第一音频，生成第一通信设备A2的第三音频。第二通信设备B根据第一通信设备A1的第三音频，及第二通信设备B的参数生成第一通信设备A1的第二音频。第二通信设备B根据第一通信设备A2的第三音频，及第二通信设备B的参数生成第一通信设备A2的第二音频。第二通信设备B播放第一通信设备A1的第二音频和第一通信设备A2的第二音频，使得第二通信设备B的用户B能够收听到第一通信设备A1的用户A1带有位置指向性的语音，及第一通信设备A2的用户A2带有位置指向性的语音，为用户B提供声临其境的感受，提升音视频通话的体验。

其中，第二通信设备B获取第一通信设备A1的位置A1和第一通信设备A2的位置A2的具体实现过程可以采用上述实施例中的相关内容，本申请实施例不再赘述。

在多个第一通信设备与多个第二通信设备进行音视频通话的过程中，多个第二通信设备中的目标第二通信设备根据每个第一通信设备的第一音频，每个第一通信设备的位置，及目标第二通信设备的位置，生成各个第一通信设备的第三音频。目标第二通信设备根据各个第一通信设备的第三音频，及目标第二通信设备的参数生成第二音频。

以第一通信设备A1、第一通信设备A2、第二通信设备B1和第二通信设备B2进行音视频通话为例：

第二通信设备B1获取第一通信设备A1的位置、第一通信设备A2的位置和第二通信设备B2的位置。在第一通信设备A1、第一通信设备A2、第二通信设备B1和第二通信设备B2进行音视频通话过程中，第二通信设备B1根据第一通信设备A1的位置，第二通信设备B1的位置，来自第一通信设备A1的第一音频，及第二通信设备B1的参数，生成第一通信设备A1的第二音频。第二通信设备B1根据第一通信设备A2的位置，第二通信设备B1的位置，来自第一通信设备A2的第一音频，及第二通信设备B1的参数，生成第一通信设备A2的第二音频。第二通信设备B1根据第二通信设备B1的位置，第二通信设备B2的位置，第二通信设备B2的第一音频，及第二通信设备B1的参数，生成第二通信设备B2的第二音频。第二通信设备B1播放第一通信设备A1的第二音频、第一通信设备A2的第二音频及第二通信设备B2的第二音频，使得第二通信设备B1的用户能够收听到对方带有位置指向性的语音，为用户B提供声临其境的感受，提升音视频通话的体验。

当然，第一通信设备A1、第一通信设备A2和第二通信设备B2的操作与第二通信设备B1采用的操作相似，在此不再赘述。

这里需要说明的是，在上述一个第二通信设备对多个第一通信设备的音视频通话，及多个第一通信设备与多个第二通信设备的音视频通话的实施例中，在第二通信设备根据每个第一通信设备的第一音频，以及每个第一通信设备的位置，生成各个第一通信设备的第三音频之前，本申请实施例提供的实时通信方法包括：第二通信设备获取各个第一通信设备的第一音频。

在一种可实现方式中，第二通信设备接收混合音频，该混合音频中包含多路音频。第二通信设备对混合音频进行采样处理，并提取采样处理后的混合音频的语音特征。第二通信设备将混合音频输入神经网络模型，神经网络模型中的注意力机制(亦称attention机制)的核心是从大量信息中筛选出对当前任务更有效的信息。第二通信设备采用k均值聚类算法(k-means clustering algorithm)，或称k-means算法，该算法对经过attention机制后的语音特征进行聚类，就得到了分离后的多路音频。

示例性的，假设第二通信设备收到的混合音频流是x(n)，包含两路音频流s1(n)和s2(n)。首先，对混合音频流x(n)进行降采样到8kHz，并对其做短时傅里叶变化。在实验中使用32ms的汉明窗，窗移为8ms。为了保证语音信号的局部一致性，对混合音频流进行100帧的分割。其次，采用双向长短期记忆网络(Long Short-Term Memory，LSTM)提取采样处理后的合音频流的语音特征。其中，LSTM解决了循环神经网络(recurrent neural network,RNN)长距离依赖的问题。然后，初始时，令Q＝K＝V＝I,其中I为输入向量且I＝[i ₁,i ₂,…,i _n],其中n为向量维度，计算Q和K的点积，并除以K的维度，将所得结果通过归一化指数函数(Softmax logical regression)，或称softmax函数，从而得到每一特征向量的权重a：

经过attention机制后，所得向量为：

O _n＝[a ₁*i ₁,a ₂*i ₂,…,a _n*i _n]

最后，①确定K值，即聚类后的集合数目，本申请实施例中可以指定为2。②从数据集中随机选择K个数据点作为初始质心。③对于数据集中的每一个点，分别计算它们与这K个点的欧氏距离d _k，根据距离远近分别将这些数据划分到K个质心所在的集合中。④对K个集合中的每个数据点，分别重新计算每个集合的质心。⑤如果得到的新的质心没有变化，则聚类结束，所得的K个集合就是最后的划分结果，否则返回③。通过以上算法过程，就得到了分离后的多路第一音频s1(n)和s2(n)。

在一些实施例中，若第二通信设备包括至少一个播放设备，该播放设备外接于第二通信设备上，则S302具体可实现为：在第二通信设备检测到第二通信设备与头戴式播放设备处于连接时，第二通信设备根据第三音频，及第二通信设备的参数生成第二音频。

本申请实施例通过仅在第二通信设备检测到第二通信设备与头戴式播放设备处于连接的状态下执行生成第二音频的操作，有效节省能耗。

以上所述的实施例中各个步骤的执行主体为同一主体，如第二电子通信设备。当然，执行主体也可以为播放设备、服务器等，在此不再一一列举。下面针对多个执行主体，例如，第一通信设备和第二通信设备；或者，第一通信设备、第二通信设备和服务器。本申请实施例提供的实时通信方法的具体实现方式如下：

方式一，以执行主体为第一通信设备和第二通信设备为例：

图6为本申请实施例提供的又一种实时通信方法的流程示意图，如图6所示，第一通信设备与第二通信设备进行音视频通话，该方法可以包括：

S600、第一通信设备发送第一音频。

S601、第二通信设备接收来自第一通信设备的第一音频，及获取第一通信设备的位置。

S602、第二通信设备根据来自第一通信设备的第一音频，以及第一通信设备的位置，生成第三音频。

若第二通信设备具有至少一个播放设备，其中，播放设备可以是第二通信设备的一部分；或者，播放设备可以与第二通信设备互为独立器件；再或者，播放设备与第二播放设备为同一设备。

其中，播放设备可以为头戴式播放设备，该头戴式播放设备可以包括耳机(包括有线耳机、无线耳机等)、VR(virtual reality，虚拟现实)或AR(augmented reality，增强现实)等。

S603、第二通信设备将第三音频发送给播放设备。

S604、播放设备接收第三音频，并根据第三音频，及播放设备的参数生成第二音频。

若播放设备为耳机，S604包括S6041和S6042，具体可实现为：

S6041、耳机根据第三音频的位置参数，获取位置参数对应的左耳HRTF函数和右耳HRTF函数。

S6042、耳机将第三音频分别与左耳HRTF函数和右耳HRTF函数进行处理，得到耳机的左耳音频和右耳音频。

其中，S601至S602与上述S300至S301相似，可参考上述S300至S301中的相关描述。S604及其包括的S6041和S6042与上述S302及其包括的S3021和S3022相似，可参考上述S302及其包括的S3021和S3022中的相关描述。

方式二，以执行主体为第一通信设备、第二通信设备和服务器为例：

图7为本申请实施例提供的另一种实时通信方法的流程示意图，如图7所示，第一通信设备与第二通信设备进行音视频通话，该方法可以包括：

S701、第一通信设备向服务器发送第一通信设备的第一音频。

其中，第一通信设备的第一音频，应理解为，第一通信设备发送的音频。

S702、服务器接收来自第一通信设备的第一音频，以及服务器获取第一通信设备的位置和第二通信设备的位置。

其中，S702具体可以采用以下至少一种方式实现：

方式一，服务器可以接收第一通信设备发送的第一通信设备的位置，及第二通信设备发送的第二通信设备的位置。

方式一可以细分以下两种情况：

第一种情况，在第一通信设备与第二通信设备进行音视频通话连接时，服务器可以获取第一通信设备的位置和第二通信设备的位置，具体可以为：服务器获取第一通信设备发送的音视频通话请求中携带的第一通信设备的位置，及第二通信设备发送的音视频通话请求中携带的第二通信设备的位置。

在本申请实施例中，第一通信设备的位置是在音视频通话建立时音视频通话请求携带的，第二通信设备的位置是在音视频通话建立时音视频通话请求携带的，使得服务器获取第一通信设备的位置及第二通信设备的位置较简洁高效。

第一种情况，在第一通信设备与第二通信设备进行音视频通话的过程中，且在第一通信设备与第二通信设备处于静音状态时，服务器获取第一通信设备发送的媒体报文中封装的第一通信设备的位置，及第二通信设备发送的媒体报文中封装的第二通信设备的位置。服务器接收第一通信设备发送的媒体报文，并解析出第一通信设备的位置。服务器接收第二通信设备发送的媒体报文，并解析出第二通信设备的位置。

在本申请实施例中，第一通信设备/第二通信设备的位置是在第一通信设备与第二通信设备进行音视频通话的过程中，且静音状态下第一通信设备/第二通信设备发送的媒体报文中封装的，使得服务器获取第一通信设备的位置和第二通信设备的位置更简洁高效。

方式二，服务器为第一通信设备配置第一虚拟位置。服务器为第二通信设备配置第二虚拟位置。应理解为，服务器为第一通信设备和第二通信设备随机指定虚拟位置。

示例性的，以直角坐标系为例，服务器也可以以第二通信设备作为参照物，以第二通信设备所在位置为坐标原点，指定直角坐标系中的任一坐标为第一通信设备的第一虚拟位置。具体实施时，服务器指定第二通信设备的用户面向的位置作为第一通信设备的第一虚拟位置(如图4中所示的虚拟位置A)。

这里需要说明的是，服务器还可以设置虚拟的目标方向，并将目标方向上的任一位置作为第一通信设备的第一虚拟位置。

当然，以直角坐标系为例，服务器可以以第一通信设备和第二通信设备的中心位置(即会议中心)作为参照物，即中心位置为坐标原点。服务器也可以任意指定会议中心周围的任一位置作为第一通信设备配置第一虚拟位置和第二通信设备的第二虚拟位置。例如，图5为本申请实施例提供的又一种通信方法的应用场景示意图。如图5所示，服务器可以指定虚拟位置A作为第二通信设备的第二虚拟位置，服务器指定虚拟位置B作为第一通信设备的第一虚拟位置。或者，服务器指定虚拟位置C为第一通信设备的第一虚拟位置，虚拟位置D作为第二通信设备的第二虚拟位置；再或者，服务器指定虚拟位置A为第一通信设备的第一虚拟位置，虚拟位置E作为第二通信设备的第二虚拟位置。当然，还可以为其他组合，在此不再一一列举。

在本申请实施例中，服务器直接为第一通信设备和第二通信设备分配虚拟位置，无需第一通信设备和第二通信设备发送各自的位置，使得服务器利用第一通信设备的位置和第二通信设备的位置进行声源定位，更简洁高效。

方式三，服务器检测第一通信设备的第一音频的音频数据中的位置关键词，位置关键词用于表征第一通信设备的位置。服务器根据位置关键词确定第一通信设备的位置。同理，服务器检测第二通信设备的第一音频的音频数据中的第二位置关键词，第二位置关键词用于表征第二通信设备的位置。服务器根据第二位置关键词确定第二通信设备的位置。

示例性的，服务器检测第一通信设备的第一音频的音频数据中含有“XXAXX”，A为地名。服务器根据A确定A的位置，并将A的位置作为第一通信设备的位置。同理，服务器确定第二通信设备的位置。

示例性的，服务器检测第一通信设备的第一音频的音频数据中含有“我在A”或“你在A吗？”其中，A为地名。服务器根据A确定A的位置，并将A的位置作为第一通信设备的位置。同理，服务器确定第二通信设备的位置。

示例性的，服务器检测第一通信设备的第一音频的音频数据中含有“A”的出现次数多于“B”的出现次数，A和B均为地名。服务器选择出现次数最多的A，并根据A确定A的位置，并将A的位置信息作为第一通信设备的位置。同理，服务器确定第二通信设备的位置。

当然，还可以包括其他情况，如服务器检测第一通信设备的第一音频的音频数据中包含有“A”、“B”和“C”，A、B和C均为地名，B为A的下级地名，C为B的下级地名，且A出现的次数最多。服务器根据C确定C的位置，并将C的位置作为第一通信设备的位置。同理，服务器确定第二通信设备的位置。因此，具体需要根据实际情况设定，本申请实施例不再一一列举。

本申请实施例通过服务器检测第一通信设备的第一音频的音频数据中包含的位置关键词，通过分析位置关键词确定第一通信设备的位置和第二通信设备的位置，无需依赖第一通信设备和第二通信设备发送的位置。

S703、服务器根据来自第一通信设备的第一音频，以及第一通信设备的位置，生成第三音频。

S704、服务器将第三音频发送给第二通信设备。

S705、第二通信设备接收第三音频，并根据第三音频及第二通信设备的参数生成第二音频。

其中，S705包括S7051和S7052。S7051和S7052具体可实现为：

S7051、第二通信设备将第三音频发送给播放设备。

S7052、播放设备接收第三音频，并根据第三音频，及播放设备的参数生成第二音频。

其中，S7052包括S70521和S70522。若播放设备为耳机，S70521和S70522具体可实现为：

S70521、耳机根据第三音频的位置参数，获取位置参数对应的左耳HRTF函数和右耳HRTF函数。

S70522、耳机将第三音频分别与左耳HRTF函数和右耳HRTF函数进行处理，得到耳机的左耳音频和右耳音频。

其中，S702至S703与上述S300至S301相似，可参考上述S300至S301中的相关描述。S705、S7051、S7052及其包括的S70521和S70522与上述S302及其包括的S3021和S3022相似，可参考上述S302及其包括的S3021和S3022中的相关描述。

具体的，该可能的设计中所述的通信系统用于执行图3所示实时通信方法中各个设备的功能，因此可以达到与上述实时通信方法相同的效果。

图8为本申请实施例提供的一种通信装置，该通信装置800可以包括：获取接收单元810，用于在第一通信设备与第二通信设备进行音视频通话的过程中，获取第一通信设备的位置，接收来自第一通信设备的第一音频；生成单元820，用于根据第一通信设备的位置，第一音频，以及第二通信设备的参数，生成第二音频，第二音频为具有位置指向性的音频。

在一些实施例中，获取接收单元810还用于：接收来自第一通信设备的第一消息，第一消息包括第一通信设备的位置；或者，第一通信设备配置第一虚拟位置；或者，检测第一音频的音频数据中的位置关键词，位置关键词用于表征第一通信设备的位置。

可选的，获取接收单元810可以包括：接收子单元811，配置子单元812和检测子单元813。其中，接收子单元811，用于接收来自第一通信设备的第一消息，第一消息包括第一通信设备的位置；或者，配置子单元812，用于为第一通信设备配置第一虚拟位置；或者，检测子单元813，用于检测第一音频的音频数据中的位置关键词，位置关键词用于表征第一通信设备的位置。

在一些实施例中，生成单元820还用于：根据第一通信设备的位置，以及第一音频，生成第三音频，第三音频包含第一通信设备与第二通信设备的相对位置信息；第二生成子单元，用于根据第三音频，及第二通信设备的参数，生成第二音频。

可选的，生成单元820可以包括：第一生成子单元821和第二生成子单元822。其中，第一生成子单元821，用于根据第一通信设备的位置，以及第一音频，生成第三音频，第三音频包含第一通信设备与第二通信设备的相对位置信息；第二生成子单元822，用于根据第三音频，及第二通信设备的参数，生成第二音频。

在一些实施例中，第二通信设备包括至少一个播放设备；播放设备包括耳机、虚拟现实VR或增强现实AR。

在一些实施例中，第二通信设备外接播放设备；生成单元820还用于在第二通信设备与播放设备处于连接时，根据第一通信设备的位置，第一音频，以及第二通信设备的参数，生成第二音频。

可选的，第二通信设备外接播放设备；生成单元820还可以包括：第三生成子单元823。其中，第三生成子单元823，用于在第二通信设备与播放设备处于连接时，根据第一通信设备的位置，第一音频，以及第二通信设备的参数，生成第二音频。

在一些实施例中，生成单元820还用于根据第三音频包含的相对位置信息，获取相对位置信息对应的播放设备上的头相关传输函数；将第一音频与头相关传输函数进行处理，得到第二音频。

可选的，第二生成子单元822还可以包括：第一获取子单元8221和第一处理子单元8222。其中，第一获取子单元8221，用于根据第三音频包含的相对位置信息，获取相对位置信息对应的播放设备上的头相关传输函数；第一处理子单元8222，用于将第一音频与头相关传输函数进行处理，得到第二音频。

在一些实施例中，播放设备为耳机，耳机具有左耳和右耳；生成单元820还用于：根据第三音频包含的相对位置信息，获取相对位置信息对应的左耳的头相关传输函数和右耳的头相关传输函数；将第一音频分别与左耳的头相关传输函数和右耳的头相关传输函数进行处理，得到耳机的左耳音频和右耳音频。

可选的，第二生成子单元822还可以包括：第二获取子单元8223和第二处理子单元8224。其中，第二获取子单元8223，用于根据第三音频包含的相对位置信息，获取相对位置信息对应的左耳的头相关传输函数和右耳的头相关传输函数；第二处理子单元8224，用于将第一音频分别与左耳的头相关传输函数和右耳的头相关传输函数进行处理，得到耳机的左耳音频和右耳音频。

在一些实施例中，第二音频用于第二通信设备播放。

在一些实施例中，通信装置800可以包括：发送单元830，用于向第三通信设备发送第二音频，第二音频用于指示第三通信设备播放第二音频。

在一些实施例中，音视频通话包括视频通话、语音通话、语音会议和视频会议中的一种或多种。

可选的，上述通信装置800可以由代码实现也可由电路实现，具体的，通信装置可以是终端设备的整机。示例性的，获取接收单元810可以是接收电路，也可以由天线(如图2所示的天线1)和移动通信模块(如图2所示的移动通信模块)实现，还可以由天线(如图2所示的天线2)和无线通信模块(如图2所示的无线通信模块)实现。生成单元820可以是处理器(如图2所示的处理器201)。发送单元830可以是发送电路，也可以由天线(如图2所示的天线1)和移动通信模块(如图2所示的移动通信模块)实现，还可以由天线(如图2所示的天线2)和无线通信模块(如图2所示的无线通信模块)实现。

可选的，该可能的设计中，上述图1a～图7所示方法实施例中涉及电子设备的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。该可能的设计中所述的电子设备用于执行图1a～图7所示实时通信方法中电子设备的功能，因此可以达到与上述实时通信方法相同的效果。

本申请实施例提供的一种电子设备，包括：处理器和存储器，存储器与处理器耦合，存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当处理器从存储器中读取计算机指令，以使得电子设备执行图3～图7所示实时通信方法。

本申请实施例提供的一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行图3～图7所示实时通信方法。

本申请实施例提供的一种计算机可读存储介质，包括计算机指令，当计算机指令在终端上运行时，使得网络设备执行图3～图7所示实时通信方法。

本申请实施例提供的一种芯片系统，包括一个或多个处理器，当一个或多个处理器执行指令时，一个或多个处理器执行图3～图7所示实时通信方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

可以理解的是，上述通信设备等为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

本申请实施例可以根据上述方法示例对上述通信设备等进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本发明实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

Claims

一种实时通信方法，其特征在于，包括：

在第一通信设备与第二通信设备进行音视频通话的过程中，获取所述第一通信设备的位置，接收来自所述第一通信设备的第一音频；

根据所述第一通信设备的位置，所述第一音频，以及所述第二通信设备的参数，生成第二音频，所述第二音频为具有位置指向性的音频。
根据权利要求1所述的方法，其特征在于，获取所述第一通信设备的位置，包括：

接收来自所述第一通信设备的第一消息，所述第一消息包括所述第一通信设备的位置；或者，

为所述第一通信设备配置第一虚拟位置；或者，

检测所述第一音频的音频数据中的位置关键词，所述位置关键词用于表征所述第一通信设备的位置。
根据权利要求1或2所述的方法，其特征在于，根据所述第一通信设备的位置，所述第一音频，以及所述第二通信设备的参数信息，生成第二音频，包括：

根据所述第一通信设备的位置，以及所述第一音频，生成第三音频，所述第三音频包含所述第一通信设备与所述第二通信设备的相对位置信息；

根据所述第三音频，及所述第二通信设备的参数，生成所述第二音频。
根据权利要求3所述的方法，其特征在于，所述第二通信设备包括至少一个播放设备；所述播放设备包括耳机、虚拟现实VR或增强现实AR。
根据权利要求4所述的方法，其特征在于，所述第二通信设备外接所述播放设备；根据所述第一通信设备的位置，所述第一音频，以及所述第二通信设备的参数，生成第二音频，包括：

在所述第二通信设备与所述播放设备处于连接时，根据所述第一通信设备的位置，所述第一音频，以及所述第二通信设备的参数，生成第二音频。
根据权利要求4所述的方法，其特征在于，根据所述第三音频，及所述第二通信设备的参数，生成所述第二音频，包括：

根据所述第三音频包含的所述相对位置信息，获取所述相对位置信息对应的播放设备上的头相关传输函数；

将所述第一音频与所述头相关传输函数进行处理，得到所述第二音频。
根据权利要求6所述的方法，其特征在于，所述播放设备为耳机，所述耳机具有左耳和右耳；

根据所述第三音频，及所述第二通信设备的参数，生成所述第二音频，包括：

根据所述第三音频包含的所述相对位置信息，获取所述相对位置信息对应的左耳的头相关传输函数和右耳的头相关传输函数；

将所述第一音频分别与所述左耳的头相关传输函数和所述右耳的头相关传输函数进行处理，得到所述耳机的左耳音频和右耳音频。
根据权利要求1-7任一项所述的方法，其特征在于，所述第二音频用于所述第二通信设备播放。
根据权利要求1-7任一项所述的方法，其特征在于，在根据所述第一通信设备的位置，所述第一音频，以及所述第二通信设备的参数，生成第二音频之后，包括：

向第三通信设备发送所述第二音频，所述第二音频用于指示所述第三通信设备播放所述第二音频。
根据权利要求1-9任一项所述的方法，其特征在于，所述音视频通话包括视频通话、语音通话、语音会议和视频会议中的一种或多种。
一种实时通信方法，其特征在于，包括：

在第一通信设备与第二通信设备进行音视频通话的过程中，所述第一通信设备发送第一音频；

所述第二通信设备获取所述第一通信设备的位置，及接收来自所述第一通信设备的第一音频；

所述第二通信设备根据所述第一通信设备的位置，来自所述第一通信设备的第一音频，以及所述第二通信设备的参数，生成第二音频，所述第二音频为具有位置指向性的音频；

所述第二通信设备播放所述第二音频。
根据权利要求11所述的方法，其特征在于，所述第二通信设备包括至少一个播放设备，所述第二通信设备播放所述第二音频，包括：

所述第二通信设备将所述第二音频发送给所述至少一个播放设备；

所述播放设备接收所述第二音频，并播放所述第二音频。
一种实时通信方法，其特征在于，包括：

在第一通信设备与第二通信设备进行音视频通话的过程中，所述第一通信设备发送所述第一通信设备的第一音频；

服务器获取所述第一通信设备的位置和所述第二通信设备的位置，及接收来自所述第一通信设备的第一音频；

所述服务器根据所述第一通信设备的位置，所述第二通信设备的位置，来自所述第一通信设备的第一音频，以及所述第二通信设备的参数，生成第二音频，所述第二音频为具有位置指向性的音频；

所述服务器将所述第二音频发送给所述第二通信设备；

所述第二通信设备接收所述第二音频，并播放所述第二音频。
根据权利要求13所述的方法，其特征在于，所述第二通信设备包括至少一个播放设备，所述第二通信设备播放所述第二音频，包括：

所述第二通信设备将所述第二音频发送给所述至少一个播放设备；

所述播放设备接收所述第二音频，并播放所述第二音频。
一种通信装置，其特征在于，包括：

获取接收单元，用于在第一通信设备与第二通信设备进行音视频通话的过程中，获取所述第一通信设备的位置，接收来自所述第一通信设备的第一音频；

生成单元，用于根据所述第一通信设备的位置，所述第一音频，以及所述第二通信设备的参数，生成第二音频，所述第二音频为具有位置指向性的音频。
根据权利要求15所述的通信装置，其特征在于，所述获取接收单元还用于：

接收来自所述第一通信设备的第一消息，所述第一消息包括所述第一通信设备的位置；或者，所述第一通信设备配置第一虚拟位置；或者，检测所述第一音频的音频数据中的位置关键词，所述位置关键词用于表征所述第一通信设备的位置。
根据权利要求15或16所述的通信装置，其特征在于，所述生成单元还用于：

根据所述第一通信设备的位置，以及所述第一音频，生成第三音频，所述第三音频包含所述第一通信设备与所述第二通信设备的相对位置信息；

根据所述第三音频，及所述第二通信设备的参数，生成所述第二音频。
根据权利要求17所述的通信装置，其特征在于，所述第二通信设备包括至少一个播放设备；所述播放设备包括耳机、虚拟现实VR或增强现实AR。
根据权利要求18所述的通信装置，其特征在于，所述第二通信设备外接所述播放设备；

所述生成单元还用于在所述第二通信设备与所述播放设备处于连接时，根据所述第一通信设备的位置，所述第一音频，以及所述第二通信设备的参数，生成第二音频。
根据权利要求19所述的通信装置，其特征在于，所述生成单元还用于：

根据所述第三音频包含的所述相对位置信息，获取所述相对位置信息对应的播放设备上的头相关传输函数；

将所述第一音频与所述头相关传输函数进行处理，得到所述第二音频。
根据权利要求20所述的通信装置，其特征在于，所述播放设备为耳机，所述耳机具有左耳和右耳；

所述生成单元还用于：

根据所述第三音频包含的所述相对位置信息，获取所述相对位置信息对应的左耳的头相关传输函数和右耳的头相关传输函数；

将所述第一音频分别与所述左耳的头相关传输函数和所述右耳的头相关传输函数进行处理，得到所述耳机的左耳音频和右耳音频。
根据权利要求15-21任一项所述的通信装置，其特征在于，所述第二音频用于所述第二通信设备播放。
根据权利要求15-21任一项所述的通信装置，其特征在于，包括：

发送单元，用于向第三通信设备发送所述第二音频，所述第二音频用于指示所述第三通信设备播放所述第二音频。
根据权利要求15-23任一项所述的通信装置，其特征在于，所述音视频通话包括视频通话、语音通话、语音会议和视频会议中的一种或多种。
一种通信系统，其特征在于，包括：

在第一通信设备与第二通信设备进行音视频通话的过程中，所述第一通信设备用于发送第一音频；

所述第二通信设备用于获取所述第一通信设备的位置，及接收来自所述第一通信设备的第一音频；

所述第二通信设备用于根据所述第一通信设备的位置，来自所述第一通信设备的第一音频，以及所述第二通信设备的参数，生成第二音频，所述第二音频为具有位置指向性的音频；

所述第二通信设备用于播放所述第二音频。
根据权利要求25所述的通信系统，其特征在于，所述第二通信设备包括至少一个播放设备，包括：

所述第二通信设备用于将所述第二音频发送给所述至少一个播放设备；

所述播放设备用于接收所述第二音频，并播放所述第二音频。
一种通信系统，其特征在于，包括：

在第一通信设备与第二通信设备进行音视频通话的过程中，所述第一通信设备用于发送所述第一通信设备的第一音频；

服务器用于获取所述第一通信设备的位置和所述第二通信设备的位置，及接收来自所述第一通信设备的第一音频；

所述服务器用于根据所述第一通信设备的位置，所述第二通信设备的位置，来自所述第一通信设备的第一音频，以及所述第二通信设备的参数，生成第二音频，所述第二音频为具有位置指向性的音频；

所述服务器用于将所述第二音频发送给所述第二通信设备；

所述第二通信设备用于接收所述第二音频，并播放所述第二音频。
根据权利要求27所述的通信系统，其特征在于，所述第二通信设备包括至少一个播放设备，包括：

所述第二通信设备用于将所述第二音频发送给所述至少一个播放设备；

所述播放设备用于接收所述第二音频，并播放所述第二音频。
一种电子设备，其特征在于，包括：处理器和存储器，所述存储器与所述处理器耦合，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述处理器从所述存储器中读取所述计算机指令，以使得所述电子设备执行如权利要求1-10中任一项所述的实时通信方法。
一种计算机程序产品，所述计算机程序产品包括计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如权利要求1-10中任一项所述的实时通信方法。
一种计算机可读存储介质，其特征在于，包括计算机指令，所述计算机可读存储介质包括计算机指令，当所述计算机指令在计算机上运行时，使得所述计算机执行如权利要求1-10中任一项所述的实时通信方法。
一种芯片系统，其特征在于，包括一个或多个处理器，当所述一个或多个处理器执行指令时，所述一个或多个处理器执行如权利要求1-10中任一项所述的实时通信方法。