WO2023246563A1

WO2023246563A1 - 一种声音处理方法及电子设备

Info

Publication number: WO2023246563A1
Application number: PCT/CN2023/099912
Authority: WO
Inventors: 徐波; 张超; 马晓慧; 余平; 张丽梅; 冯素梅; 陈鹏; 周秀敏
Original assignee: 华为技术有限公司
Priority date: 2022-06-24
Filing date: 2023-06-13
Publication date: 2023-12-28
Also published as: CN117334207A; WO2023246563A9

Abstract

一种声音处理方法，包括：获取目标参数，目标参数包括与目标设备关联的环境信息和/或用户的状态信息；根据目标参数，对原始音频数据进行处理，得到目标音频数据，目标音频数据与环境信息和/或状态信息相匹配；输出目标音频数据。这样，根据目标参数对原始音频数据进行处理，以使得原始音频数据能够与目标参数相匹配，由此以构建出与当前环境或当前用户的状态适配的待播放的音频数据，从而使得待播放的音频数据能够与当前环境或当前用户的状态相融合，提升了用户体验。

Description

一种声音处理方法及电子设备

本申请要求于2022年6月24日提交中国国家知识产权局、申请号为202210727150.7、申请名称为“一种声音处理方法及电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及终端技术领域，尤其涉及一种声音处理方法及电子设备。

背景技术

目前，手机、音箱等具备音频播放功能的电子设备已逐渐进入到人们的生活中。通过这种类型的电子设备，用户可以随时随地播放其所需的音频数据。例如，用户可以在家庭中使用音箱播放其喜欢的音乐，也可以在车辆中使用手机进行导航或播放音乐，亦可以在车辆中使用配置在车辆中的车载终端进行导航或播放音乐等。但目前电子设备在播放音频数据过程中，仅能播放够原汁原味的音频数据，用户体验较差。

发明内容

本申请提供了一种声音处理方法、电子设备、计算机存储介质及计算机程序产品，能够构建出与当前环境或当前用户的状态适配的待播放的音频数据，从而使得待播放的音频数据能够与当前环境或当前用户的状态相融合，提升了用户体验。

第一方面，本申请提供一种声音处理方法，该方法可以包括：获取与目标设备关联的环境信息，环境信息包括目标设备所处区域的环境数据；根据环境数据，确定与环境数据相关联的N个声音对象，N≥1；获取各个声音对象对应的白噪音，得到N个音频数据，每个音频数据均与一个声音对象关联；将N个音频数据合成，得到目标音频数据，其中，目标音频数据与环境信息相匹配；输出目标音频数据。这样，由于N个声音对象是与目标设备所处区域的环境数据相关联的，因此，由N个声音对象对应的白噪音得到的目标音频数据也是与目标设备所处区域的环境数据相匹配的，这样，用户在收听目标音频数据时即可以有身处环境中的体验，从而具有身临其境的感受，提升了用户体验。

在一些实施例中，该方法可以应用于下文图1所描述的场景中。此时，目标设备可以为车辆，也可以为车辆中的电子设备。示例性的，目标设备可以为集成在车辆中的设备，比如车载终端等，也可以为与车辆分离的设备，比如驾驶员的手机等。另外，环境数据可以包括环境图像，环境声音，天气信息或季节信息等中的一项或多项。

在一些实施例中，N个声音对象可以为基于环境数据识别出的声音对象，也可以为用户对基于环境数据识别出的声音对象进行筛选后得到的声音对象，比如，剔除某些声音对象所剩的声音对象，或者，添加一些新的声音对象所得到的声音对象等等。

在一种可能的实现方式中，获取各个声音对象对应的白噪音，得到N个音频数据，具体包括：基于N个声音对象，查询原子数据库，得到N个音频数据，其中，原子数据库中配置有各个单一对象在特定的一段时间内的音频数据。示例性的，将原子数据库中的多个对象的音频数据随机组合或者按照预设规律组合，可以获取到一定时长的音频数据。示例性的，原子数据库中可以包括：水流的音频数据、蝉鸣的音频数据、草木的音频数据等。示例性的，原子数据库中的白噪音的音频数据可以提前配置在车辆中，或者实时从服务器中获取等。

在一种可能的实现方式中，环境数据中包括环境声音。获取各个声音对象对应的白噪音，得到N个音频数据，具体包括：从环境声音中提取出M个声音对象的音频数据，以得到M个音频数据，0≤M≤N；其中，当M＜N时，基于N个声音对象中剩余的声音对象，查询原子数据库，得到(N-M)个音频数据，其中，原子数据库中配置有各个单一对象在特定的一段时间内的音频数据。示例性的，当从环境声音中提取出的声音对象的音频数据不满足要求时，可以舍弃该音频数据，并从原子数据库中得到相应的声音对象对应的音频数据，由此以提升后续得到的目标音频数据的质量。可以预先设定一些策略，比如，隔绝全部的环境声音，隔绝环境声音中的部分声音，不隔绝环境声音，或者，当提取到的声音对象的音频数据的幅值大于预设值时保留该音频数据等等。其中，当隔绝全部的环境声音时，则M＝0；当隔绝部分的环境声音时，则0＜M≤N；当不隔绝环境声音时，则M＝N。

在一种可能的实现方式中，在得到M个音频数据之后，还包括：将M个音频数据中各个音频数据所包含的声道的增益均调整至目标值。由此以提升音频数据的响度等，从而更能真实的还原环境声音，提升用户体验。

在一种可能的实现方式中，每个音频数据所表达的情感均与环境数据所表达的情感相同。由此以进一步使目标音频数据与环境信息相匹配，提升用户体验。

第二方面，本申请提供一种声音处理方法，该方法可以包括：获取与目标设备关联的环境信息，环境信息包括目标设备所处的环境中需同时播放第一音频数据和第二音频数据，且第一音频数据和第二音频数据均通过同一设备播放，其中，第一音频数据为第一时间段内持续性播放的音频数据，第二音频数据为第一时间段内偶发性播放的音频数据；获取待播放的第二音频数据；根据第二音频数据，从第一音频数据中提取出待播放的第三音频数据，以及，对第三音频数据进行目标处理，得到第四音频数据，其中，第二音频数据和第四音频数据对应的播放时间段相同，目标处理包括人声消除或人声降低；根据第二音频数据，确定第二音频数据所需调整的第一增益，以及，基于第一增益，对第二音频数据中各个声道的增益进行调整，得到第五音频数据；根据第四音频数据或者第五音频数据，确定第四音频数据所需调整的第二增益，以及，基于第二增益，对第四音频数据中各个声道的增益进行调整，得到第六音频数据；基于第五音频数据和第六音频数据，得到目标音频数据，其中，目标音频数据与环境信息相匹配；输出目标音频数据。

这样，通过对持续性播放的音频数据进行人声消除或人声降低处理等，并同时播报偶发性播放的音频数据和经处理后的需持续性播放的音频数据，使得用户在能够清楚感知到偶发性播放的音频数据中所包含的信息的同时，也可以清楚的感知到其他的音频数据的曲调、背景声等，从而更加有效的满足了用户听感，提升了用户体验。示例性的，持续性播放的音频数据(即第一音频数据)可以为某种类型的音乐，偶发性播放的音频数据(即第二音频数据)可以为导航时需播报的导航的音频数据。示例性的，人声消除可以理解为是消除音频数据中的人声，人声降低可以理解为是降低音频数据中的人声。

在一些实施例中，该方法可以应用于下文图4所描述的场景中。此时，目标设备可以为车辆，也可以为车辆中的电子设备。示例性的，目标设备可以为集成在车辆中的设备，比如车载终端等，也可以为与车辆分离的设备，比如驾驶员的手机等。

在一些实施例中，该方法可以但不限于应用于第一设备，该第一设备可以为播放第一音频数据和第二音频数据的设备。

在一种可能的实现方式中，第二音频数据为第一数据，或者，第四音频数据为第一数据；其中，根据第一数据，确定第一数据所需调整的增益，具体包括：获取第一数据的音频特征，音频特征包括以下一项或多项：时域特征，频域特征，或者，乐理特征；根据音频特征，确定第一数据所需调整的增益。示例性的，可以基于预先设定的增益计算公式，对音频特征进行处理，以得到所需调整的增益。

在一些实施例中，当第一数据为第二音频数据时，音频特征可以但不限于为时域特征，比如响度，包络能量，或者，短时能量等。响度可以为第二音频数据中各个时刻的响度，或者，最大的响度等。

在一些实施例中，当第一数据为第四音频数据时，音频特征可以但不限于为时域特征(比如响度，包络能量，或者，短时能量等)、频域特征(比如：多个频段的频谱能量等)、乐理特征(比如：节拍，调式，和弦，音高，音色，旋律，情感等)。

在一种可能的实现方式中，根据第五音频数据，确定第四音频数据所需调整的第二增益，具体包括：获取第五音频数据的最大响度值；根据第五音频数据的最大响度值和第一比例，确定第二增益，其中，第一比例为第二音频数据的最大响度值和第四音频数据的最大响度值间的比例。

在一种可能的实现方式中，在确定出第二增益之后，方法还包括：基于第一增益，对第二增益进行修正。由此以使得在后续播放第五音频数据产生的声音更容易被感知。示例性的，基于预先设定的第一增益和第二增益之间的线性关系，对第二增益进行修正。

在一种可能的实现方式中，在确定出第二增益之后，方法还包括：确定第二增益大于预设增益值；将第二增益更新为预设增益值。示例性的，当第二增益大于预先设定的增益值时，表明播放第四音频数据产生的声音较小，其对播放后续得到的第五音频数据产生的声音造成影响较小，因此可以将确定出的第二增益的值更新为预先设定的增益值。

在一种可能的实现方式中，基于第二增益，对第四音频数据中各个声道的增益进行调整，具体包括：在第四音频数据播放开始之后，且与第四音频数据播放开始的时刻相距第一预设时间的第一时长内，按照第一预设步长将第四音频数据中各个声道的增益逐渐调整至第二增益；以及，在第四音频数据播放结束之前，且与第四音频数据播放结束的时刻相距第二预设时间的第二时长内，按照第二预设步长将第四音频数据中各个声道的增益逐渐由第二增益调整至预设增益值。由此以避免出现音量突变的情况，进而使得用户感知到的声音的音量等是逐渐变化的，提升用户体验。

在一种可能的实现方式中，基于第二增益，对第四音频数据中各个声道的增益进行调整，具体包括：在第四音频数据播放开始之前，且与第四音频数据播放开始的时刻相距第一预设时间的第一时长内，按照第一预设步长将第四音频数据中各个声道的增益逐渐调整至第二增益；以及，在第四音频数据播放结束之后，且与第四音频数据播放结束的时刻相距第二预设时间的第二时长内，按照第二预设步长将第四音频数据中各个声道的增益逐渐由第二增益调整至预设增益值。由此以避免出现音量突变的情况，进而使得用户感知到的声音的音量等是逐渐变化的，提升用户体验。

在一种可能的实现方式中，基于第二增益，对第四音频数据中各个声道的增益进行调整，具体包括：在第四音频数据播放开始之后，且与第四音频数据播放开始的时刻相距第一预设时间的第一时长内，按照第一预设步长将第四音频数据中各个声道的增益逐渐调整至第二增益；以及，在第四音频数据播放结束之后，且与第四音频数据播放结束的时刻相距第二预设时间的第二时长内，按照第二预设步长将第四音频数据中各个声道的增益逐渐由第二增益调整至预设增益值。由此以避免出现音量突变的情况，进而使得用户感知到的声音的音量等是逐渐变化的，提升用户体验。

在一种可能的实现方式中，基于第二增益，对第四音频数据中各个声道的增益进行调整，具体包括：在第四音频数据播放开始之前，且与第四音频数据播放开始的时刻相距第一预设时间的第一时长内，按照第一预设步长将第四音频数据中各个声道的增益逐渐调整至第二增益；以及，在第四音频数据播放结束之前，且与第四音频数据播放结束的时刻相距第二预设时间的第二时长内，按照第二预设步长将第四音频数据中各个声道的增益逐渐由第二增益调整至预设增益值。由此以避免出现音量突变的情况，进而使得用户感知到的声音的音量等是逐渐变化的，提升用户体验。

第三方面，本申请提供一种声音处理方法，该方法可以包括：第一设备获取第二设备发送的第一消息，第一消息为第二设备需要播报音频数据时发送；响应于第一消息，第一设备对其待播放的音频数据进行目标处理，以及播放经目标处理的音频数据，目标处理用于消除或降低音频数据中的目标声音；第一设备获取第二设备发送的第二消息，第二消息为第二设备结束播报音频数据时发送；响应于第二消息，第一设备停止对其待播放的音频数据进行目标处理，以及播放未经目标处理的音频数据。

这样，在偶发性播放音频数据的电子设备播报音频数据的过程中，可以降低持续性播放音频数据的电子设备所播放的音频数据的干扰，使得用户能够清楚的感知到偶发性播放音频数据的电子设备所播放的音频数据。示例性的，偶发性播放音频数据可以为通话时的音频数据，持续性播放的音频数据可以为某种类型的音乐。

在一些实施例中，该方法可以应用于家居场景中，此时，第二设备可以为手机，第一设备可以为智能音箱、智能电视等。在该场景下，第一设备可以正在播放音乐、电视剧或者电影等，第二设备需播报的音频数据可以是用户使用第二设备进行通话时第二设备需播放的音频数据。另外，该方法也可以应用于驾车场景中，此时，第二设备可以为手机，第一设备可以为车载终端。在该场景下，第一设备可以正在播放音乐等，第二设备需播报的音频数据可以是用户使用第二设备进行导航或通话时第二设备需播放的音频数据。

在一种可能的实现方式中，目标处理包括人声消除处理或者人声降低处理。

第四方面，本申请提供一种声音处理方法，该方法可以包括：获取与目标设备关联的环境信息，环境信息包括目标设备在目标空间中的目标位置，目标空间中配置有至少一个扬声器；确定目标设备与N个扬声器间的距离，以得到N个第一距离，N为正整数，其中，N个扬声器与目标设备处于同一空间中；根据N个第一距离和N个扬声器，构建目标虚拟扬声器组，目标虚拟扬声器组由M个目标虚拟扬声器组成，M个目标虚拟扬声器位于以目标设备所处的位置为中心，且以N个第一距离中的目标距离为半径的圆上，M的值与构建空间环绕声所需的扬声器的数量相等，M个目标虚拟扬声器的布置方式与构建空间环绕声所需的扬声器的布置方式相同，每个目标虚拟扬声器均通过调整N个扬声器中的至少一个扬声器对应的音频信号的增益得到；根据在N个扬声器中且与目标虚拟扬声器关联的扬声器对应的音频信号所需调整的增益，对原始音频数据中各个声道的增益进行调整，得到目标音频数据，其中，目标音频数据与环境信息相匹配；输出目标音频数据。这样，目标电子设备在空间中所处的位置，调整空间中各个扬声器输出的音频信号的增益，从而使得用户可以随时随地享受到空间环绕声。示例性的，构建空间环绕声所需的扬声器的布置方式可以为5.1.X或者7.1.X的要求中所需的布置方式。在一些实施例中，该方法可以应用于下文图9或10所描述的场景中。其中，目标设备可以为图10中的电子设备100。

在一些实施例中，一个音频数据中可以但不限于包括各个相应的扬声器所需播放的音频信号。示例性的，一个音频数据中所包含的每个音频信号均可以与一个声道相对应。在一种可能的实现方式中，目标距离为N个第一距离中的最小值。这样可以将扬声器均虚拟至与目标设备距离最近的区域，提升空间环绕声效果。

在一种可能的实现方式中，根据N个第一距离和N个扬声器，构建目标虚拟扬声器组，具体包括：以目标距离为基准，确定N个扬声器中除目标扬声器之外的各个扬声器对应的音频信号所需调整的增益，以构建出第一虚拟扬声器组，第一虚拟扬声器组为将N个扬声器均虚拟至以目标设备为中心，且以目标距离为半径的圆上得到的扬声器的组合，目标扬声器为目标距离对应的扬声器；根据第一虚拟扬声器组和构建空间环绕声所需的扬声器的布置方式，确定目标虚拟扬声器组，其中，目标虚拟扬声器组中的中置扬声器位于目标设备当前的朝向上的预设角度范围内。

示例性的，可以以目标距离为基准，并基于预先设定的增益计算模型，对目标距离和除目标扬声器之外的各个扬声器与目标设备间的距离进行处理，以得到除目标扬声器之外的各个扬声器对应的音频信号所需调整的增益，从而构建出第一虚拟扬声器组。接着，可以基于构建空间环绕声所需的扬声器的布置方式，从第一虚拟扬声器组中确定出目标虚拟扬声器组。其中，当目标虚拟扬声器组中的某个虚拟扬声器未在第一虚拟扬声器组中时，可以通过VBAP算法对第一虚拟扬声器组中的虚拟扬声器进行处理，以构建出目标虚拟扬声器组中的虚拟扬声器。其中，该确定目标虚拟扬声器组的方式可以参阅下文图11中的描述。

在一种可能的实现方式中，根据N个第一距离和N个扬声器，构建目标虚拟扬声器组，具体包括：根据N个扬声器，N个第一距离，构建空间环绕声所需的扬声器的布置方式，目标设备的朝向，以及目标设备所处的位置，构建第一虚拟扬声器组，第一虚拟扬声器组中包括M个第一虚拟扬声器，每个第一虚拟扬声器均通过调整N个扬声器中的至少一个扬声器对应的音频信号的增益得到；确定目标设备与各个第一虚拟扬声器间的第二距离，以得到M个第二距离；将M个第一虚拟扬声器均虚拟至以目标设备所处的位置为中心，且以第二距离中的一个距离为半径的圆上，以得到目标虚拟扬声器组。也即是说，可以先确定出一定数量(即构建空间环绕声所需的扬声器的数量)的虚拟扬声器，然后，再将这些虚拟扬声器虚拟至同一个圆上，以得到目标虚拟扬声器组。其中，该确定目标虚拟扬声器组的方式可以参阅下文图17中的描述。

在一种可能的实现方式中，在确定目标设备与N个扬声器间的距离之前，方法还包括：根据目标设备所处空间中配置的扬声器，目标设备的朝向，目标设备所处的位置，以及构建空间环绕声所需的扬声器的布置方式，从目标设备所处空间中配置的扬声器中筛选出N个扬声器，N个扬声器用于构建空间环绕声。也即是说，可以先筛选出构建空间环绕声所需的真实的扬声器，然后再由这些真实的扬声器构建出所需的虚拟扬声器。其中，该确定目标虚拟扬声器组的方式可以参阅下文图19中的描述。

在一种可能的实现方式中，方法还包括：确定目标设备与目标空间中的各个扬声器间的距离；根据目标设备与目标空间中的各个扬声器间的距离，确定目标空间中的各个扬声器在播放音频数据时的延迟时间；控制目标空间中的各个扬声器按照相应的延迟时间播放音频数据。由此以控制各个扬声器同步播放，提升用户体验。

第五方面，本申请提供一种声音处理方法，该方法可以包括：获取与目标设备关联的环境信息，环境信息包括目标设备产生的画面在目标空间中的目标位置，目标空间中配置有至少一个扬声器；根据目标位置，构建与目标空间匹配的虚拟空间，虚拟空间的体积小于目标空间的体积；根据目标空间中各个扬声器的位置，在虚拟空间中构建出目标虚拟扬声器组，目标虚拟扬声器组中包括至少一个目标虚拟扬声器，且每个目标虚拟扬声器均通过调整目标空间中的一个扬声器对应的音频信号的增益得到；根据在目标空间中且与目标虚拟扬声器关联的扬声器对应的音频信号所需调整的增益，对原始音频数据中各个声道的增益进行调整，得到目标音频数据，其中，目标音频数据与环境信息相匹配；输出目标音频数据。

这样，结合目标设备设备产生的画面在空间中的目标位置，在目标位置处构建出一个虚拟的扬声器组，并控制目标设备中的音频数据由该虚拟扬声器组播放，从而使得目标设备播放的画面和音频数据同步，提升用户的听感和视感一致性体验。在一些实施例中，该方法可以应用于下文图20所描述的场景中。其中，目标设备可以为图20中的电子设备100。此时，原始音频数据可以为用户使用目标设备所播放的音频数据。

在一种可能的实现方式中，根据目标空间中各个扬声器的位置，在虚拟空间中构建出目标虚拟扬声器组，具体包括：根据虚拟空间和目标空间间的比例，在虚拟空间中确定出目标虚拟扬声器组中各个目标虚拟扬声器的位置；根据各个目标虚拟扬声器和与各个目标虚拟扬声器对应的目标扬声器间的距离，确定出各个目标扬声器对应的音频信号所需调整的增益，以得到目标虚拟扬声器组，目标扬声器为目标空间中的扬声器。

在一种可能的实现方式中，方法还包括：确定目标设备产生的画面与目标空间中的各个扬声器间的距离；根据目标设备产生的画面与目标空间中的各个扬声器间的距离，确定目标空间中的各个扬声器在播放音频数据时的延迟时间；控制目标空间中的各个扬声器按照相应的延迟时间播放音频数据。由此以控制各个扬声器同步播放，提升用户体验。

进一步地，该方法还可以包括：从确定出的目标设备产生的画面与目标空间中的各个扬声器间的距离中，选取一个距离作为基准距离；并根据该基准距离，确定目标设备产生的画面的出现时间。由此以提升音画同步的效果。示例性的，该基准距离可以为确定出的目标设备产生的画面与目标空间中的各个扬声器间的距离中的最大的一个距离。示例性的，可以基于该基准距离和声音的传播速度，确定出产生的画面相对于该基准距离对应的扬声器产生的声音出现的延时时间；然后，在控制目标设备在该基准距离对应的扬声器播放相应的音频数据的时刻之后，且达到该延时时间时，在显示出相应的画面。例如，若确定出的延时时间为3s，该基准距离对应的扬声器播放相应的音频数据的时刻为t，则目标设备产生的画面出现的时刻为(t+3)。

第六方面，本申请提供一种声音处理方法，该方法可以包括：获取与目标设备关联的用户的状态信息，用户的状态信息包括目标设备与目标用户的头部间的目标距离，目标用户的头部在目标空间中的目标位置，目标空间中配置有至少一个扬声器；根据目标距离、目标位置和目标空间中各个扬声器的位置，构建目标虚拟扬声器组，目标虚拟扬声器组中包括至少一个目标虚拟扬声器，每个目标虚拟扬声器均通过调整目标空间中的一个扬声器对应的音频信号的增益得到，每个目标虚拟扬声器均处于以目标位置为圆心且以目标距离为半径的圆上；根据在目标空间中且与目标虚拟扬声器关联的扬声器对应的音频信号所需调整的增益，对原始音频数据中各个声道的增益进行调整，得到目标音频数据，其中，目标音频数据与用户的状态相匹配；输出目标音频数据。这样，结合目标设备与目标用户的头部间的目标距离，目标用户的头部在目标空间中的目标位置等，在目标用户的周围构建出一个虚拟的扬声器组，并控制目标设备中的音频数据由该虚拟扬声器组播放，从而使得目标设备播放的画面和音频数据同步，提升用户的听感和视感一致性体验。在一些实施例中，该方法可以应用于下文图24所描述的场景中。其中，目标设备可以为图24中的电子设备100。此时，原始音频数据可以为用户使用目标设备所播放的音频数据。

在一种可能的实现方式中，根据目标距离、目标位置和目标空间中各个扬声器的位置，构建目标虚拟扬声器组之后，还包括：根据目标虚拟扬声器组，构建第一虚拟扬声器组，第一虚拟扬声器组由M个虚拟扬声器组成，M个虚拟扬声器位于以目标位置为中心，且以目标距离为半径的圆上，M的值与构建空间环绕声所需的扬声器的数量相等，M个虚拟扬声器的布置方式与构建空间环绕声所需的扬声器的布置方式相同，M个虚拟扬声器中每个虚拟扬声器均通过调整目标空间中的至少一个扬声器对应的音频信号的增益得到。

此时，根据在目标空间中且与目标虚拟扬声器关联的扬声器对应的音频信号所需调整的增益，对原始音频数据中各个声道的增益进行调整，得到目标音频数据，具体包括：根据在目标空间中且与M个虚拟扬声器关联的扬声器对应的音频信号所需调整的增益，对原始音频数据中各个声道的增益进行调整，得到目标音频数据。由此，以构建出播放空间环绕声所需的虚拟扬声器，并可以通过这些虚拟扬声器播放目标音频数据，从而使得用户可以收听到空间环绕声，提升用户体验。

在一种可能的实现方式中，目标虚拟扬声器组中包括S个虚拟扬声器，S个虚拟扬声器为构建空间环绕声所需的扬声器，S个虚拟扬声器中的每个虚拟扬声器均通过调整N个扬声器中的至少一个扬声器对应的音频信号的增益得到；确定目标位置与S个虚拟扬声器中各个虚拟扬声器间的距离，以得到S个距离；将S个虚拟扬声器均虚拟至以目标位置为中心，且以S个距离中的一个距离为半径的圆上，以得到所需的虚拟扬声器组，以及基于构建所需的虚拟扬声器组过程中确定出的各个真实的扬声器对应的音频信号所需调整的增益，对原始音频数据进行调整，以得到目标音频数据。也即是说，可以先确定出一定数量(即构建空间环绕声所需的扬声器的数量)的虚拟扬声器，然后，再将这些虚拟扬声器虚拟至同一个圆上，以得到所需虚拟扬声器组；最后，可以基于构建所需的虚拟扬声器组过程中确定出的各个真实的扬声器对应的音频信号所需调整的增益，对原始音频数据进行调整，以得到目标音频数据。

在一种可能的实现方式中，该方法还可以包括：根据目标距离、目标位置、目标空间中各个扬声器的位置，以及构建空间环绕声所需的扬声器的布置方式，从目标设备所处空间中配置的扬声器中筛选出N个扬声器，N个扬声器用于构建空间环绕声；根据N个扬声器，确定所需的虚拟扬声器组，以及基于构建所需的虚拟扬声器组过程中确定出的各个真实的扬声器对应的音频信号所需调整的增益，对原始音频数据进行调整，以得到目标音频数据。也即是说，可以先筛选出构建空间环绕声所需的真实的扬声器，然后再由这些真实的扬声器构建出所需的虚拟扬声器；最后，可以基于构建所需的虚拟扬声器组过程中确定出的N个真实的扬声器对应的音频信号所需调整的增益，对原始音频数据进行调整，以得到目标音频数据。

第七方面，本申请提供一种声音处理方法，该方法可以包括：获取与目标设备关联的环境信息，其中，目标设备位于车辆中，环境信息包括车辆的行驶速度、转速和加速踏板的开度中的一项或多项；根据行驶速度、转速和加速踏板的开度中的至少一个，从原始音频数据中，确定出第一音频数据，其中，第一音频数据为基于行驶速度对原始音频数据中的目标音频粒子进行伸缩变换得到；根据行驶速度，确定车辆的加速度，并根据加速度，调整第一音频数据中各个声道的增益，以得到第二音频数据，以及，确定车辆中的声场向目标方向移动的目标速度；根据目标速度，确定目标音频数据的声源的虚拟位置；根据虚拟位置，确定车辆中多个扬声器对应的音频信号的所需调整的目标增益，得到F个目标增益，F≥2；根据F个目标增益，调整第二音频数据中各个声道的增益，以得到目标音频数据，其中，目标音频数据与环境信息相匹配；输出目标音频数据。这样，驾驶员在车辆中听到的声音可以是与车辆的行驶速度相关联的，使得听感更真实，提升了用户体验。

在一些实施例中，该方法可以应用于下文所描述的“控制新能源车辆加速行驶”的场景。此时，在用户驾驶车辆过程中，根据车辆中的扬声器控制车辆中声场的移动，使得声浪声音可以产生空间上的变化，从而使得车辆的内部可以出现多普勒效应，进而使得车辆所播放的声浪声音与真实驾驶状态相符，使得听感更真实，提升了用户体验。另外，在该场景下，目标设备可以为车辆，也可以为车辆中的电子设备。示例性的，目标设备可以为集成在车辆中的设备，比如车载终端等，也可以为与车辆分离的设备，比如驾驶员的手机等。

在一种可能的实现方式中，在根据行驶速度，调整第一音频数据中各个声道的增益之前，还包括：确定行驶速度的变化值超过预设速度阈值；和/或，确定第一音频数据中每个声道的增益对应的调整值均小于或等于预设调整值，其中，当第一音频数据中目标声道的增益对应的目标调整值大于预设调整值时，将目标调整值更新为预设调整值。由此以避免用户听到的声音忽大忽小或者声音产生突变，提升用户体验。

在一种可能的实现方式中，目标参数还包括车辆的加速时长，方法还包括：根据加速时长，控制车辆中的氛围灯工作。由此以为用户带来视觉上的体验。另外，还可以控制氛围灯颜色颜色变化的速度与车辆中声场移动的目标速度相同，以使得车辆中的空间听感和空间视感相对应，提升用户体验。

第八方面，本申请提供一种声音处理方法，该方法可以包括：获取与目标设备关联的用户的状态信息，状态信息包括用户的疲劳等级；根据疲劳等级，确定第一特征参数的目标调整值，第一特征参数为当前所需播放的原始音频数据的特征参数，第一特征参数包括音调和/或响度；根据目标调整值，对原始音频数据进行处理，得到目标音频数据，其中，目标音频数据的特征参数的值高于第一特征参数的值，目标音频数据与用户的状态信息相匹配；输出目标音频数据。这样，当检测到用户出现驾驶疲劳时，可以根据用户的疲劳等级改变原始音频数据的特征参数(比如音调、响度等)，从而使得播放的音频数据能够在听觉上对用户产生冲击，进而提高用户的注意力。在一些实施例中，该方法可以应用于下文图35所描述的场景中。在该场景下，目标设备可以为车辆，也可以为车辆中的电子设备。示例性的，目标设备可以为集成在车辆中的设备，比如车载终端等，也可以为与车辆分离的设备，比如驾驶员的手机等。另外，在该场景下，原始音频数据可以为待播放的导航音的音频数据。

在一种可能的实现方式中，输出目标音频数据，具体包括：根据疲劳等级，确定第一目标提示音；根据预先设定的播报顺序，输出目标音频数据和第一目标提示语音。由此以进一步在听觉上对用户产生冲击，并使得播报方式和语言更具生活化和人性化，提升用户体验。示例性的，第一目标提示语音可以下文“表2”中所示的提示语音。

在一种可能的实现方式中，方法还包括：根据疲劳等级和地图信息，确定第二目标提示音；输出第二目标提示音。由此以进一步在听觉上对用户产生冲击，进而提高用户的注意力。示例性的，第二目标提示语音可以为“注意！注意！驾驶人员已极度疲劳，可于xxx米远的xxx路口/超市/中转站停车休息”。

在一种可能的实现方式中，目标设备位于车辆中。此时，在输出目标音频数据之前，方法还包括：确定车辆处于自动驾驶状态，且车辆所处的路段的路况低于预设路况阈值，和/或，确定车辆所处的路段为预设路段。由此，以在特定的条件下提高用户的注意力。

在一种可能的实现方式中，方法还包括：根据疲劳等级，确定警示灯的闪烁频率和/或颜色，以及控制警示灯按照确定出的闪烁频率和/颜色工作。由此以给予用户在视觉上的冲击，进而提高用户的注意力。

第九方面，本申请提供一种声音处理方法，该方法可以包括：获取与目标设备关联的用户的状态信息，状态信息包括用户选择的第一音频数据和第二音频数据；确定第一音频数据的第一音频特征，第一音频特征包括：各个时刻的响度和/或各个节拍的位置点；根据第一音频特征，调整第二音频数据的第二音频特征，以得到第三音频数据，第二音频特征包括响度、音调和音速中的至少一项；根据第一音频数据和第三音频数据，得到目标音频数据，其中，目标音频数据与用户的状态信息相匹配；输出目标音频数据。这样，可以基于用户选择的一种音频数据对另一种音频数据进行处理，从而使得两种音频数据能够自然的融合到一起，进而给用户带来更好的听觉体验。在一些实施例中，该方法可以应用于下文所描述的“用户选择多种音频数据叠加播放”的场景。在该场景下，第一音频数据可以为背景音，第二音频数据可以为白噪音。

在一种可能的实现方式中，第一音频特征包括：第一音频数据的各个时刻的响度，第二音频特征包括响度。根据目标音频特征，调整第二音频数据的第二音频特征，具体包括：根据第一音频数据的各个时刻的响度和预设响度比例，确定第二音频数据中各个时刻对应的目标响度；将第二音频数据中各个时刻的响度，调整至第二音频数据中各个时刻对应的目标响度。由此以使得两个音频数据中各个时刻的响度与预先设定的响度比例相符，从而使得两者可以自然的融合到一起。

在一种可能的实现方式中，目标音频特征包括：各个节拍的位置点，第二音频特征包括音调和/或音速。根据目标音频特征，调整第二音频数据的音调，具体包括：针对第一音频数据中任意相邻的两个节拍，根据任意相邻的两个节拍，确定任意相邻的两个节拍对应的目标节奏；根据目标节奏，确定第二音频数据在任意相邻的两个节拍对应的位置点内的第二音频特征的目标调整值；根据目标调整值，对第二音频数据在任意相邻的两个节拍对应的位置点内的第二音频特征进行调整。由此，以使得第二音频数据的音频特征能够与第一音频数据的节奏相匹配，从而使得两者可以自然的融合到一起。

第十方面，本申请提供一种声音处理方法，该方法可以包括：获取与目标设备关联的用户的状态信息，用户的状态信息包括以下一项或多项：用户选择的图片，视频，或者，用户为目标对象所添加的音频数据；确定N张图片，N≥2；确定N张图片中各张图片内包含的目标对象，以得到M个目标对象，M≥1；确定各个目标对象在N张图中每张图片中的空间位置，以及，确定各个目标对象在目标视频中出现的时长，以得到M个第一时长，目标视频基于N张图片得到；根据各个目标对象的空间位置，以及N张图片中各个相邻的图片在目标视频中出现的时刻，确定各个目标对象在各个相邻的图片间的移动速度；根据M个目标对象，得到Q个第一音频数据，1≤Q≤M，其中，一个第一音频数据至少与一个目标对象相关联；将各个第一音频数据的第二时长均调整至与相应的目标对象对应的第一时长相等，以得到Q个第二音频数据；根据各个目标对象的空间位置，以及各个目标对象在各个相邻的图片间的移动速度，分别对各个目标对象对应的第二音频数据进行处理，以得到Q个第三音频数据；根据Q个第三音频数据和N张图片，得到目标视频，其中，目标视频中包括目标音频数据，目标音频数据基于Q个第三音频数据得到，其中，目标音频数据与用户的状态信息相匹配；输出目标音频数据。这样，基于用户所选择的数据，为数据中的目标对象添加空间音频，从而使得在制作完成的视频中目标对象的声音可以随着目标对象的运动而移动，进而使得用户听感更加真实，提升了观看体验。在一些实施例中，该方法可以应用于下文所所描述的“制作视频或动态图片”的场景。在一些实施例中，目标视频的时长可以是按照固定时间播放一张图片计算得到，也可以是通过选取的一段音频数据的时长得到。

在一种可能的实现方式中，方法还包括：根据N张图片，确定出与N张图片匹配的第四音频数据；将第四音频数据中至少一部分节拍的位置点作为N张图片中至少一部分图片出现的时刻，和/或，将第四音频数据中至少一部分小节的开始或结束的位置点作为N张图片中至少一部分图片出现的时刻。由此以使得N张图片中的至少一部分图片出现的时刻可以与某些节拍的位置点或者某些小节的位置点一致，使得在听感的关键点处呈现视觉的冲击变化，即在听感的关键点处用户可以观看到图片，从而在视听上产生一致的冲击感，进而提升用户体验。

在一种可能的实现方式中，确定各个目标对象在N张图中每张图片中的空间位置，具体包括：针对第i张图片内的第k个目标对象，基于预先设定的三维坐标系，确定第k个目标对象在第i张图片中的第一空间位置，其中，三维坐标系的中心点为第i张图片的中心位置，第i张图片为N张图中的任意一张图片，第k个目标对象为第i张图片中的任意一个目标对象。

在一种可能的实现方式中，方法还包括：确定第(i+1)张图片中不存在第k个目标对象；将第(i+1)张图片的第一边界上的第一位置，作为第k个目标对象在第(i+1)张图片中的第二空间位置。由此以避免在第(i+1)张图片中第k个目标对象的声音突然消失。

在一种可能的实现方式中，第一边界为第k个目标对象在第i张图片中的目标朝向上的边界，第一位置在第(i+1)张图片中以第一空间位置为起点，且在目标朝向上延伸的直线与第一边界的交点。

在一种可能的实现方式中，方法还包括：确定第(i+2)张图片中不存在第k个目标对象；根据第一空间位置，第二空间位置，以及第i张图片和第(i+1)张图片间的时间间隔，确定第k个目标对象的第一移动速度和第一移动方向；将第(i+2)张图片之外的第二位置，作为第k个目标对象在第(i+2)张图片中的第三空间位置；其中，第二位置为在第一移动方向上，且与在第(i+2)张图片中的第二空间位置相距第一目标距离的位置点，第一目标距离根据第一移动速度，以及第(i+1)张图片和第(i+2)张图片间的时间间隔得到。由此以使得第k个目标对象的声音是逐渐向目标方向远去，而不是突然消失，提升用户体验。

在一种可能的实现方式中，方法还包括：确定第(i-1)张图片中不存在第k个目标对象，其中，i≥2；将第(i-1)张图片的第二边界上的第三位置，作为第k个目标对象在第(i-1)张图片中的第四空间位置。由此以避免在第i张图片中第k个目标对象的声音突然出现。

在一种可能的实现方式中，第二边界为第k个目标对象在第i张图片中的目标朝向的反方向上的边界，第三位置在第(i-1)张图片中以第一空间位置为起点，且在目标朝向的反方向上延伸的直线与第二边界的交点。

在一种可能的实现方式中，方法还包括：确定第(i-2)张图片中不存在第k个目标对象，其中，i≥3；根据第一空间位置，第四空间位置，以及第i张图片和第(i-1)张图片间的时间间隔，确定第k个目标对象的第二移动速度和第二移动方向；将第(i-2)张图片之外的第四位置，作为第k个目标对象在第(i-2)张图片中的第五空间位置；其中，第四位置为在第二移动方向的反方向上，且与在第(i-2)张图片中的第四空间位置相距第二目标距离的位置点，第二目标距离根据第二移动速度，以及第(i-1)张图片和第(i-2)张图片间的时间间隔得到。由此以使得第k个目标对象的声音是逐渐向目标方向靠近，而不是在第i张图片中突然出现，提升用户体验。

在一种可能的实现方式中，方法还包括：确定第(i+1)张图片至第(i+j)张图片中均不存在第k个目标对象，j≥2，且第(i+j+1)张图片中存在第k个目标对象，(i+j+1)≤N；以第i张图片为基准，分别确定第k个目标对象在第(i+1)张图片至第(i+j)张图片中各张图片中的空间位置，以得到第一空间位置集合{P_i+1，...，P_i+j}，其中，P_i+j为第k个目标对象在第(i+j)张图片中的空间位置，以及，以第(i+j+1)张图片为基准，分别确定第k个目标对象在第(i+1)张图片至第(i+j)张图片中各张图片中的空间位置，以得到第二空间位置集合{P′_i+1，...，P′_i+j}，其中，P′_i+j为第k个目标对象在第(i+j)张图片中的空间位置；根据第一空间集合和第二空间集合，确定第k个目标对象在第(i+1)张图片至第(i+j)张图片中各张图片中的空间位置。由此以提升第k个目标对象在第(i+1)张图片至第(i+j)张图片中各张图片中的空间位置中的准确度。

在一种可能的实现方式中，根据第一空间集合和第二空间集合，确定第k个目标对象在第(i+1)张图片至第(i+j)张图片中各张图片中的空间位置，具体包括：根据第一空间集合和第二空间集合，分别确定第k个目标对象在第(i+1)张图片至第(i+j)张图片中每张图片内的两个空间位置之间的距离，以得到j个距离；根据第一空间集合和第二空间集合，确定第k个目标对象在第(i+c)张图片中的空间位置，第(i+c)张图片为j个距离的一个距离对应的图片，1≤c≤j；根据第k个目标对象在第i张图片中的空间位置，第k个目标对象在第(i+j+1)张图片中的空间位置，第k个目标对象在第(i+c)张图片中的空间位置，以及，第i张图片至第(i+j+1)张图片中各张图片在目标视频中出现的时刻，确定第k个目标对象第i张图片至第(i+c)张图片间的各张图片中的空间位置，以及确定第k个目标对象第第(i+c)张图片至第(i+j+1)张图片间的各张图片中的空间位置。

第十一方面，本申请提供一种电子设备，包括：至少一个存储器，用于存储程序；至少一个处理器，用于执行存储器存储的程序；其中，当存储器存储的程序被执行时，处理器用于执行第一方面至第十方面中所提供的任意一方面中所提供的方法。

第十二方面，本申请提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，当计算机程序在电子设备上运行时，使得电子设备执行第一方面至第十方面中所提供的任意一方面中所提供的方法。

第十三方面，本申请提供一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行第一方面至第十方面中所提供的任意一方面中所提供的方法。

第十四方面，本申请还提供了一种芯片，包括处理器，所述处理器与存储器耦合，用于读取并执行所述存储器中存储的程序指令，以使所述芯片实现上述第一方面至第十方面中所提供的任意一方面中所提供的方法。可以理解的是，上述第十一方面至第十四方面的有益效果可以参见上述第一方面至第十方面中的相关描述，在此不再赘述。

附图说明

下面对实施例或现有技术描述中所需使用的附图作简单地介绍。

图1是本申请一实施例提供的一种应用场景的示意图；

图2是本申请一实施例提供的一种声音处理方法的流程示意图；

图3是本申请一实施例提供的一种电子设备的显示界面示意图；

图4是本申请一实施例提供的一种应用场景的示意图；

图5是本申请一实施例提供的一种声音处理方法的流程示意图；

图6是本申请一实施例提供的一种音频数据的时域波形示意图和包络示意图；

图7是本申请一实施例提供的一种对音频数据进行短时傅里叶变换后得到的频谱图的示意图；

图8是本申请一实施例提供的一种声音处理方法的流程示意图；

图9是本申请一实施例提供的一种应用场景的示意图；

图10是本申请一实施例提供的一种应用场景的示意图；

图11是本申请一实施例提供的一种声音处理方法的流程示意图；

图12是本申请一实施例提供的一种电子设备的朝向示意图；

图13是本申请一实施例提供的一种构建虚拟扬声器的示意图；

图14是本申请一实施例提供的一种构建虚拟扬声器的过程示意图；

图15是本申请一实施例提供的一种构建虚拟扬声器组的过程示意图；

图16是本申请一实施例提供的另一种构建虚拟扬声器组的过程示意图；

图17是本申请一实施例提供的一种声音处理方法的流程示意图；

图18是本申请一实施例提供的一种构建虚拟扬声器的过程示意图；

图19是本申请一实施例提供的又一种声音处理方法的流程示意图；

图20是本申请一实施例提供的一种应用场景的示意图；

图21是本申请一实施例提供的一种三点定位的示意图；

图22是本申请一实施例提供的一种声音处理方法的流程示意图；

图23是本申请一实施例提供的一种构建虚拟空间的示意图；

图24是本申请一实施例提供的一种声音处理方法的流程示意图；

图25是本申请一实施例提供的一种在虚拟空间中构建虚拟扬声器组的示意图；

图26是本申请一实施例提供的一种声音处理方法的流程示意图；

图27是本申请一实施例提供的一种声音处理方法的流程示意图；

图28是本申请一实施例提供的一种声音处理方法的流程示意图；

图29是本申请一实施例提供的一种声音处理方法的流程示意图；

图30是本申请一实施例提供的一种车辆的硬件结构示意图；

图31是本申请一实施例提供的一种声音处理方法的流程示意图；

图32是本申请一实施例提供的一种声场移动的示意图；

图33是本申请一实施例提供的一种声场移动的示意图；

图34是本申请一实施例提供的一种车辆中氛围灯的颜色跟随车辆的加速时长逐渐变化的示意图；

图35是本申请一实施例提供的一种应用场景的示意图；

图36是本申请一实施例提供的一种声音处理方法的流程示意图；

图37是本申请一实施例提供的一种对声音进行变速不变调处理的过程示意图；

图38是本申请一实施例提供的一种声音处理方法的流程示意图；

图39是本申请一实施例提供的一种声音处理方法的流程示意图；

图40是本申请一实施例提供的一种声音处理方法的流程示意图；

图41是本申请一实施例提供的一种声音处理方法的流程示意图；

图42是本申请一实施例提供的一种声音处理方法的流程示意图；

图43是本申请一实施例提供的一种将图片出现的时刻调整至节拍的位置点上的示意图；

图44是本申请一实施例提供的一种确定图片中目标对象的空间位置的示意图；

图45是本申请一实施例提供的一种确定图片中目标对象的空间位置的示意图；

图46是本申请一实施例提供的一种声音处理方法的流程示意图；

图47是本申请一实施例提供的一种电子设备的硬件结构示意图；

图48是本申请一实施例提供的一种电子设备的软件结构框图。

具体实施方式

本文中术语“和/或”，是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本文中符号“/”表示关联对象是或者的关系，例如A/B表示A或者B。

本文中的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述对象的特定顺序。例如，第一响应消息和第二响应消息等是用于区别不同的响应消息，而不是用于描述响应消息的特定顺序。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

在本申请实施例的描述中，除非另有说明，“多个”的含义是指两个或者两个以上，例如，多个处理单元是指两个或者两个以上的处理单元等；多个元件是指两个或者两个以上的元件等。

示例性的，本申请实施例提供了一种声音处理方法，该方法可以根据外部信息输入，对原始音频数据进行处理，构建出待播放的音频数据。例如，该方法可以根据与电子设备关联的环境信息和/或用户的状态信息等，构建出与当前环境或当前用户的状态适配的待播放的音频数据，从而使得待播放的音频数据能够与当前环境或当前用户的状态相融合，提升了用户体验。其中，在构建与当前环境或当前用户的状态适配的待播放的音频数据时，可以通过调整待播放的音频数据的音频特征(比如：增益，音调或响度等)，得到所需的音频数据，和/或，通过将与当前环境适配的目标对象的音频数据进行组合，得到所需的音频数据。又例如，该方法可以根据电子设备拍摄的图片或视频相关的信息，构建出与拍摄的图片或视频适配的待播放的音频数据。

在一些实施例中，与电子设备关联的环境信息可以包括以下一项或多项：电子设备所处区域的环境数据(比如：环境图像，环境声音，天气信息或季节信息等)，电子设备所处的环境中是否需要同时播放不同的音频数据，电子设备在空间中的位置，电子设备产生的画面在空间中的位置，或者，当电子设备位于车辆中时，车辆的行驶参数(比如：行驶速度等)，等。

与电子设备关联的用户的状态信息可以包括以下一项或多项：用户的疲劳等级，电子设备与与用户的头部间的距离和用户的头部在空间中的位置，用户选择的音频数据，或者，用户选择的图片或视频，等。

在本申请实施例中，该声音处理方法主要涉及以下几个场景：

1、在车辆中融合环境声音的场景。在该场景下，可以通过车辆中的电子设备，并结合与该电子设备所处区域的环境数据，从预先配置的白噪音的原子数据库中，确定出与当前环境适配的各个声音对象的音频数据。以及，可以将确定出的各个声音对象的音频数据合成，得到目标音频数据，并播放该目标音频数据。这样，驾驶员或其他的用户在车辆中即可以听到与外部环境相匹配的声音，从而使得用户可以有身临其境的体验。其中，白噪音的原子数据库中可以配置各个单一对象在特定的一段时间内的音频数据，比如水流的音频数据、蝉鸣的音频数据、草木的音频数据等。在该场景中，可以根据电子设备关联的环境信息构建出待播放的音频数据，其中，与电子设备关联的环境信息可以为电子设备所处区域的环境数据。

2、持续播放一种音频数据，且，偶发性播放另一种音频数据的场景。该场景可以包括两种场景。

第一种场景是，持续性播放的音频数据和偶发性播放的音频数据，是通过同一个电子设备播放。在该场景下，可以通过电子设备，对持续性播放的音频数据进行人声消除或人声降低处理等，并可以同时播报偶发性播放的音频数据和经处理后的需持续性播放的音频数据。这样，用户在能够清楚感知到偶发性播放的音频数据中所包含的信息的同时，也可以清楚的感知到其他的音频数据的曲调、背景声等，从而更加有效的满足了用户听感，提升了用户体验。示例性的，持续性播放的音频数据可以为某种类型的音乐，偶发性播放的音频数据可以为导航时需播报的导航的音频数据。

第二种场景是，持续性播放的音频数据和偶发性播放的音频数据，是通过不同的电子设备播放。在该场景下，一个电子设备(以下简称“第一设备”)可以持续性播放一种音频数据，另一个电子设备可以偶发性播放另一种音频数据。在该场景下，当偶发性播放音频数据的电子设备需要播放音频数据时，该电子设备可以指示持续性播放音频数据的电子设备执行人声消除或人声降低操作；以及在偶发性播放音频数据的电子设备播报结束后，该电子设备可以指示持续性播放音频数据的电子设备停止执行人声消除或人声降低操作。这样，在偶发性播放音频数据的电子设备播报音频数据的过程中，可以降低持续性播放音频数据的电子设备所播放的音频数据的干扰，使得用户能够清楚的感知到偶发性播放音频数据的电子设备所播放的音频数据。示例性的，偶发性播放音频数据可以为通话时的音频数据，持续性播放的音频数据可以为某种类型的音乐。

在上述两种场景中，可以根据电子设备关联的环境信息构建出待播放的音频数据，其中，与电子设备关联的环境信息可以为电子设备所处的环境中是否需要同时播放不同的音频数据。

3、利用空间中设置的扬声器播放音频数据的场景。该场景可以包括两种场景。

其中，第一种场景可以是：在空间中配置有多个扬声器，且至少有一部分扬声器是按照一定的要求(比如：5.1.X，或，7.1.X等)布置。另外，在该场景下，电子设备或者其他的设备正在使用扬声器播放音频数据。在该场景下，可以结合电子设备所处的位置，调整各个扬声器输出的音频信号的增益，从而使得用户可以随时随地享受到空间环绕声。在该场景中，可以根据电子设备关联的环境信息构建出待播放的音频数据，其中，与电子设备关联的环境信息可以为电子设备在空间所处的位置。

第二种场景可以是：在空间中配置有多个扬声器，且电子设备可以产生画面(比如：用户使用电子设备观看影片等)，以及电子设备通过空间中布置的扬声器播放其上的音频数据。在该场景下，可以结合电子设备所处的位置，在电子设备或者电子设备所产生的画面的的周围构建出一个虚拟的扬声器组，使得电子设备中的音频数据可以由该虚拟扬声器组播放，使得电子设备播放的画面和音频数据同步，提升用户的听感和视感一致性体验。在该场景中，可以根据电子设备关联的环境信息或者用户的状态信息，构建出待播放的音频数据，其中，与电子设备关联的环境信息可以为电子设备产生的画面在空间中的位置；用户的状态信息包括电子设备与用户的头部间的距离，用户的头部在空间中的位置等。

4、控制新能源车辆加速行驶的场景。在该场景下，可以通过车辆中的电子设备，并结合车辆的行驶速度等行驶参数，控制车辆中声场的移动，使得声浪声音(比如：模仿的燃油车辆的引擎的声音等)可以产生空间上的变化，从而使得车辆的内部可以出现多普勒效应，进而使得车辆所播放的声浪声音与真实驾驶状态相符，使得听感更真实，提升了用户体验。应理解的是，在本申请实施例中，新能源车辆是指采用非常规的车用燃料作为动力来源(或使用常规的车用燃料、采用新型车载动力装置)的车辆。比如：混合动力电动汽车、纯电动汽车、燃料电池电动汽车、其他新能源(如超级电容器、飞轮等高效储能器)汽车等。其中，非常规的车用燃料指除汽油、柴油之外的燃料。在该场景中，可以根据电子设备关联的环境信息构建出待播放的音频数据，其中，电子设备关联的环境信息可以为车辆的行驶参数。

5、驾车，并利用车辆中的电子设备进行导航，且驾驶员出现驾驶疲劳的场景。在该场景下，当检测到驾驶员出现驾驶疲劳时，可以根据驾驶员的疲劳等级改变导航播报的音频数据的特征参数(比如音调、增益等)，从而使得播放的音频数据能够在听觉上对驾驶员产生冲击，进而提高驾驶员的注意力，实现安全驾驶。在该场景中，可以根据与电子设备关联的用户的状态信息构建出待播放的音频数据，其中，与电子设备关联的用户的状态信息可以为用户的疲劳等级。

6、用户选择多种音频数据叠加播放的场景。在该场景下，可以基于用户选择的至少一种音频数据，对用户所选择的其他的音频数据进行改造，从而使得两者可以更自然的融合在一起，进而给用户带来更好的听觉体验。示例性的，用户所选择的音频数据可以包括背景音和白噪音等。在该场景中，可以根据与电子设备关联的用户的状态信息构建出待播放的音频数据，其中，与电子设备关联的用户的状态信息可以为用户选择的音频数据。

7、制作视频或动态图片的场景。在该场景下，可以在制作视频或动态图片过程中，基于电子设备拍摄的图片或视频，为电子设备拍摄的图片或视频中的目标对象添加空间音频，从而使得在制作完成的视频或动态图片中目标对象的声音可以随着目标对象的运动而移动，进而使得用户听感更加真实，提升了观看体验。在该场景中，可以根据与电子设备关联的用户的状态信息构建出待播放的音频数据，该音频数据为制作完成的视频或动态图片中目标对象的音频数据。其中，与电子设备关联的用户的状态信息可以为用户选择的图片，视频，和/或，为目标对象所添加的音频数据。

接下来，基于上述各个场景的顺序，依次分场景对本申请实施例中提供的声音处理方法进行介绍。

1、在车辆中融合环境声音的场景。

示例性的，图1示出了本申请一些实施例中的一种应用场景。如图1所示，驾驶员A位于车辆200中。在车辆200中配置有电子设备100和扬声器230，且电子设备100处于开机状态。其中，电子设备100可以为集成在车辆200中的设备，比如车载终端，也可以为与车辆200分离的设备，比如驾驶员A的手机等，此处不做限定。

当电子设备100集成在车辆200中时，电子设备100可以直接利用车辆200中的扬声器230播报其所需播报的音频数据。当电子设备100与车辆200分离布置时，电子设备100与车辆200间可以但不限于通过短距通信(比如蓝牙等)的方式建立连接。其中，当电子设备100与车辆200间分离布置时，电子设备100可以将其所需播报的音频数据传输至车辆200，并通过车辆200上的扬声器230进行播报，或者，电子设备100可以通过其内置的扬声器播报其所需播报的音频数据。

另外，车辆200的外部可以设置有摄像头等图像采集装置210，以采集车辆200外部的环境图像。车辆200的外部还可以设置有用于采集环境中声音的拾音器220，比如麦克风等。

可以理解的是，本申请实施例示意的结构并不构成对车辆200的具体限定。在本申请另一些实施例中，车辆200可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。

示例性的，图2示出了一种声音处理方法。在图2中，电子设备100可以为集成在车辆200中的设备，比如车载终端等，也可以为与车辆200分离的设备，比如驾驶员A的手机等。另外，图2中所示的方法，可以但不限于应用于驾车场景，比如开车时的场景等，或者户外露营场景，比如在山谷或湖畔露营的场景等。此外，在图2中的电子设备100上可以但不限于设置有用于启动执行该方法的控件，比如：该控件的名称可以为“露营模式”，当用户选择开启露营模式时，可以执行图2中所示的方法。如图2所示，该方法包括以下步骤：

S201、电子设备100获取车辆200所处区域的环境数据，环境数据包括：环境图像，环境声音，天气信息或季节信息等中的一项或多项。

本实施例中，车辆200上的图像采集装置210可以实时或周期性采集200所处区域的环境图像，并将采集到的数据传输至电子设备100。车辆200上的拾音器220可以实时或周期性采集200所处区域的环境声音，并将采集到的数据传输至电子设备100。另外，电子设备100可以实时或周期性通过网络获取车辆200所处区域的天气信息和/或季节信息。

S202、电子设备100根据环境数据，确定当前所需的各个声音对象。

本实施例中，电子设备100可以将环境数据输入至预先训练的声音对象检测模型中，以由声音对象检测模型输出当前所需的各个声音对象。在一些实施例中，声音对象检测模型可以但不限于是基于卷积神经网络(convolutional neural network,CNN)训练得到。

举例来说，当车辆200在树林中的道路行驶，当前为白天且天气晴朗时，由环境图像可以确定出车辆200处于树林中，由环境声音可以确定出当前环境中存在鸟叫的声音，由天气信息可以确定出当前的天气是晴朗的，且是白天。这样，确定出的各个声音对象为树木、鸟叫、白天且晴朗。

在一些实施例中，除了由声音对象检测模型得到当前所需的声音对象外，还可以根据环境数据，确定出与环境数据适配的声音主题。然后，再将该声音主题中包含的声音对象，作为当前所需的声音对象。其中，每个声音主题下均包含有至少一个与该声音主题相关联的声音对象。示例性的，声音主题可以为“夏夜蝉鸣”，在该声音主题下所包含的声音对象可以有“蝉鸣”、“夜晚且晴朗”、“微风”、“流水”；另外，声音主题也可以为“夏夜暴雨”，在该声音主题下所包含的声音对象可以有“狂风”、“暴雨”、“雷鸣”。

S203、电子设备100基于各个声音对象从白噪音的原子数据库中，确定出各个声音对象的音频数据。

本实施例中，电子设备100在获取到各个声音对象后，可以查询白噪音的原子数据库，从而获取到各个声音对象在特定的一段时间内的音频数据。其中，白噪音的原子数据库中配置的是各个单一对象在特定的一段时间内的音频数据，比如水流的音频数据、蝉鸣的音频数据、草木的音频数据等。将原子数据库中的多个对象的音频数据随机组合或者按照预设规律组合，可以获取到一定时长的音频数据。示例性的，原子数据库中的白噪音音频数据可以提前配置在车辆中，或者实时从服务器中获取等。

在一些实施例中，原子数据库中可以包括一个声音对象在不同的时间段内的音频数据，且，不同时间段内的音频数据可以具有不同的情感。例如，当声音对象为鸟叫时，原子数据库中可以包括一段欢快的鸟叫声和一段悲伤的鸟叫声。

进一步地，在确定各个声音对象的音频数据时，可以基于当前的环境数据，确定出与当前的环境数据所表达的情感适配的各个声音对象的音频数据。例如，当天气晴朗时，可以确定当前的环境数据所表达的情感为快乐，此时可以从原子数据库中筛选出当前所需的各个声音对象中音频数据，且这些音频数据所表达的情感均为快乐。

S204、电子设备100将各个声音对象的音频数据合成，得到目标音频数据，以及播放目标音频数据。

本实施例中，电子设备100可以将各个声音对象的音频数据进行合成，得到目标音频数据，以及播放该目标音频数据。其中，电子设备100在播放该目标音频数据时，可以通过车辆200的扬声器进行播放。这样，驾驶员在车辆中即可以听到与外部环境相匹配的声音，从而使得用户可以有身临其境的体验。

在一些实施例中，可以通过混音算法对各个声音对象的音频数据进行混音处理，以得到目标音频数据。其中，可以根据音频数据的类型，选择使用与该类型相适配的混音算法进行处理。例如，当音频数据的类型为浮点(float)型时，可以直接将各个音频数据叠加混合，以得到目标音频数据。当音频数据的类型不是float型时，可以采用自适应加权混音算法、线性叠加求平均等混音算法对各个音频数据进行处理，以得到目标音频数据。

此外，在混音处理过程中，可以根据声音对象的类型，在混音过程中选择混音的次数。例如，对于蝉鸣、鸟叫类的声音对象，其声音较为短促，因此在混音过程中可以采用随机时间下多次输入这些声音对象的音频数据进行混音处理。

对于底噪类的声音对象，当其对应的音频数据的时长足够长时，在混音过程中可以输入一次即可；当其对应的音频数据的时长较短时，在混音过程中可以输入多次，且相邻的两个音频数据间头尾相连，即第一个音频数据的播放结束时间是第二个音频数据的播放起始时间，由此以得到足够时长的底噪类声音。

在一些实施例中，电子设备100在播放目标音频数据时，可以向用户展示组成目标音频数据的各个声音对象的标识，以及用户当前可以添加的声音对象的标识。这样，用户可以根据自身需求选择添加声音对象或者删减声音对象。例如，如图3所示，电子设备100可以在控件31处显示当前播放的声音对象(即组成目标音频数据的声音对象)，以及在控件32处显示可添加的声音对象。继续参阅图3，用户可以在控件31中的子控件33选择删除声音对象，和/或，在控件32中的子控件34选择添加声音对象。

当用户选择删除一个或多个声音对象，或者，选择添加一个或多个声音对象时，电子设备100可以对用户所选择的其所需播放的声音对象重新进行合成，以得到用户所需的音频数据。举例来说，继续参阅图3，当用户删除“蜂鸣”、“鸟叫”、“微风”，并选择添加“落石”、“狂风”后，此时用户所期望播放的声音对象是：“白天晴朗”、“树叶窸窣”、“狂风”、“流水”、“落石”。在用户选择完成后，电子设备100可以将用户所期望播放的声音对象(即“白天晴朗”、“树叶窸窣”、“狂风”、“流水”、“落石”)的音频数据进行合成，以得到新的目标音频数据，并进行播放。

在一些实施例中，电子设备100获取到环境声音后，可以基于设定的透传策略，确定是否透传环境声音。示例性的，透传环境声音可以理解为是播放环境声音。

示例性的，透传策略可以包括：隔绝全部的环境声音，隔绝环境声音中的部分声音，或者，不隔绝环境声音中的任意一项。其中，该透传策略可以为用户自行选择，此时在电子设备100上可以设置有用于选择透传策略的机械按键或虚拟按键，用户可以根据自身需求进行选择。另外，该透传策略也可以由电子设备100自行决定，例如，当环境噪声大于第一噪声值时，电子设备100可以选择的透传策略可以为隔绝全部的环境声音；当环境噪声大于第二噪声值，且小于第一噪声值时，电子设备100可以选择的透传策略可以为隔绝环境声音中的部分声音；当环境噪声小于第二噪声值时，电子设备100可以选择的透传策略可以为不隔绝环境声音。

当透传策略为隔绝全部分环境声音时，电子设备100可以舍弃该环境声音，即不播放环境声音。

当透传策略为隔绝环境声音中的部分声音时，电子设备100可以将环境声音输入至预先训练好的声音分离模型，以由该声音分离模型提取到环境声音中所包含的各个声音对象对应的音频数据。电子设备100获取到环境声音中所包含的各个声音对象对应的音频数据后，可以从中舍弃一部分声音对象对应的音频数据，并将剩余的声音对象对应的音频数据与前述确定出的各个声音对象的音频数据进行合成，以得到目标音频数据，以及播放该目标音频数据，从而将真实环境中的音频数据与从原子数据库中确定出的音频数据相融合，使得用户能够更真实的感受外部的环境。

示例性的，电子设备100可以根据环境数据，确定出与环境数据适配的声音主题。其中，每个声音主题下均包含有至少一个与该声音主题相关联的声音对象。当与环境数据适配的声音主题中未包含环境声音中所包含的某个声音对象时，电子设备100可以舍弃该声音对象对应的音频数据。当与环境数据适配的声音主题中包含环境声音中所包含的某个声音对象时，电子设备100可以保留该声音对象对应的音频数据。例如，若确定出的声音主题为“夏夜蝉鸣”，在该声音主题下所包含的声音对象有“蝉鸣”、“夜晚且晴朗”、“微风”、“流水”，如果由环境声音中包含的声音对象为“蝉鸣”、“落石”，电子设备100则可以保留环境声音中的“蝉鸣”对应的音频数据，并舍弃环境声音中的“落石”对应的音频数据。

进一步地，为了能够真实还原环境声音，电子设备100可以对提取到的声音对象对应的音频数据中各个声道的增益进行调整。例如，当提取到的声音对象的音频数据为风声时，电子设备100可以提升该风声的响度。

另外，电子设备100在从环境声音中提取出声音对象的音频数据后，还可以对各个音频数据对应的声音对象进行标记。同时，电子设备100可以从前述确定出的当前所需的各个声音对象中剔除与此时标记的各个声音对象相同的对象。由此以避免后续将相似的音频数据进行合成，提升合成后的音频数据的质量。例如，当前述确定出的当前所需的各个声音对象为：树木、鸟叫、白天且晴朗，而从环境声音中提取出的音频数据对应的声音对象为鸟叫时，电子设备100可以将前述确定出的当前所需的声音对象中的“鸟叫”剔除。

作为一种可能的实现方式，电子设备100在剔除前述确定出的某个声音对象之前，还可以判断在环境声音中的该声音对象对应的音频数据幅值等是不是满足要求。当满足要求时，则可以剔除前述确定出的某个声音对象，否则，则保留前述确定出的某个声音对象对应的音频数据，并剔除环境声音中的该声音对象对应的音频数据，或者，对环境声音中的该声音对象对应的音频数据进行调整，以使其满足要求，并剔除前述确定出的某个声音对象。

举例来说，若前述确定出的声音对象(即前述S202中根据环境数据得到的声音对象)为“蝉鸣”，且从环境声音中可以提取到“蝉鸣”对应的音频数据。此时，若电子设备100确定出从环境声音中可以提取到“蝉鸣”对应的音频数据的幅值低于预设值，电子设备100则可以舍弃从环境声音中可以提取到“蝉鸣”对应的音频数据；或者，电子设备100可以对从环境声音中可以提取到“蝉鸣”对应的音频数据的幅值进行调整，以使其幅值高于预设值，并舍弃前述确定出的声音对象对应的音频数据。若电子设备100确定出从环境声音中可以提取到“蝉鸣”对应的音频数据的幅值高于预设值，电子设备100则可以保留从环境声音中可以提取到“蝉鸣”对应的音频数据，并舍弃前述确定出的声音对象对应的音频数据。

当透传策略为不隔绝环境声音时，电子设备100可以将环境声音与前述确定出的各个声音对象的音频数据进行合成，以得到目标音频数据，以及播放该目标音频数据。

2、持续播放一种音频数据，且，偶发性播放另一种音频数据的场景。

2.1、持续性播放的音频数据和偶发性播放的音频数据，是通过同一个电子设备播放。

示例性的，图4示出了本申请一些实施例中的一种应用场景。如图4所示，在驾驶员A驾驶车辆200前往目的地的过程中，驾驶员A可以利用位于车辆200中的电子设备100导航至目的地。同时，驾驶员A可以利用电子设备100播放音乐。也即是说，在电子设备100上同时开启有与导航相关的软件(比如Google等)，和，与播放音乐相关的软件(比如等)。在图4中，电子设备100可以为集成在车辆200中的设备，比如车载终端，也可以为与车辆200分离的设备，比如驾驶员A的手机等，此处不做限定。当电子设备100 集成在车辆200中时，电子设备100可以直接利用车辆200中的扬声器播报其所需播报的音频数据。当电子设备100与车辆200分离布置时，电子设备100与车辆200间可以但不限于通过短距通信(比如蓝牙等)的方式建立连接。其中，当电子设备100与车辆200间分离布置时，电子设备100可以将其所需播报的音频数据传输至车辆200，并通过车辆200上的扬声器进行播报，或者，电子设备100可以通过其内置的扬声器播报其所需播报的音频数据。

一般地，当导航播报的声音和音乐播放的声音并发时，即需要同时播放这两种声音时，电子设备100可以降低音乐播放的音量，并以正常的音量播放导航的声音。其中，正常的音量可以理解为：在播放音乐过程中未降低音乐播放的声音之前的音量。当导航的声音播报完毕后，电子设备100可以将音乐播放的音量恢复至正常音量。当这种方式是以降低音乐播放声音为基础，使得用户听感上只有导航播报的声音，而对音乐播放的声音几乎无法感知，即大幅牺牲了用户的音乐体验。

有鉴于此，本申请实施例中提供了一种声音处理方法，在导航播报的声音和音乐播放的声音并发时，使得用户在获得导航播报的声音的同时，可以对音乐播放的声音拥有更好的听感体验。

示例性的，图5示出了本申请一些实施例中的一种声音处理方法。在图5中，电子设备100可以为集成在车辆200中的设备，比如车载终端；也可以为与车辆200分离的设备，比如驾驶员A的手机等。另外，在图5中，电子设备100上同时运行有与导航相关的软件(比如Google等)，和，与播放音乐相关的软件(比如Apple等)，且用户正在使用电子设备100由一个位置导航至另一个位置，以及正在使用电子设备100播放音乐。如图5所示，该方法可以包括以下步骤：

S501、电子设备100在播放第一音频数据的过程中，获取待播放的第二音频数据。

本实施例中，电子设备100在播放一个音频数据的过程中，可以获取另一个待播放的音频数据。其中，第一音频数据可以是电子设备100所播放的音乐数据，第二音频数据可以是电子设备100所需播放的导航的数据。

S502、电子设备100根据第二音频数据，从第一音频数据中提取出待播放的第三音频数据，其中，第二音频数据和第三音频数据对应的播放时间段相同。

本实施例中，电子设备100可以根据第二音频数据的初始播放时间和数据长度，从第一音频数据中提取出待播放的第三音频数据，其中，该第三音频数据的初始播放时间与第二音频数据的初始播放时间相同，该第三音频数据的数据长度与第二音频数据的数据长度相等。也即是说，第二音频数据和第三音频数据对应的播放时间段相同。

S503、电子设备100对第三音频数据进行人声消除或人声降低处理，得到第四音频数据。

本实施例中，当需要进行人声消除处理时，电子设备100可以将第三音频数据输入至预先训练完毕的人声消除模型，对第三音频数据进行人声消除处理，以得到第四音频数据。当需要进行人声降低处理时，电子设备100可以将第三音频数据输入至预先训练完毕的人声降低模型，对第三音频数据进行人声降低处理，以得到第四音频数据。对于选择人声消除处理，还是选择人声降低处理，可以但不限于预先设定。其中，由于第四音频数据是通过对第三音频数据处理得到，而第二音频数据和第三音频数据对应的播放时间段相同，所以第二音频数据和第四音频数据对应的播放时间段也相同。

作为一种可能的实现方式，在进行人声消除处理或者人声降低处理时，电子设备100还可以先将第三音频数据输入至高通滤波器，以过滤掉特定频率的数据。然后，电子设备100 可以经高通滤波器输出的数据进行声道混合，以消除人声。最后，电子设备100可以将进行声道混合后的数据输入至低通滤波器，以过滤掉特定频率的数据，从而得到第四音频数据。

示例性的，在进行声道混合时，以左声道和右声道两个声道为例，可以在一个声道中设定两个声道对应的音频信号的比例。例如：新左声道里原左声道所占的百分数a1；新左声道里原右声道所占的百分数a2；新右声道里原左声道所占的百分数b1；新右声道里原右声道所占的百分数b2。a1、a2、a3、a4这四个数的数值在-100到100之间，则新左声道采样值newLeft＝a1*Left+a2*Right，新右声道采样值newRight＝b1*Left+b2*Right。

当选择进行人声消除处理时，为了实现左右声道的相减，声道混合的四个数值分别为：100,-100,-100,100，这样生成了一个左右声道波形相反的立体声波形。当一个声道中的两个波形相加后，即相互抵消，此时即完成对人声的消除。

当选择进行人声降低处理时，可以根据预先设定的降低比例，更改声道混合的四个数值。例如，当选择将人声的音量降低一半时，声道混合的四个数值可以分别为：100,-50,-50,100。这样，当一个声道中的两个波形相加后，即抵消一半，此时即完成对人声的降低。

S504、电子设备100根据第二音频数据，确定第二音频数据所需调整的第一增益，以及，基于第一增益，对第二音频数据中各个声道的增益进行调整，得到第五音频数据。

本实施例中，电子设备100可以先提取第二音频数据的音频特征，比如时域特征等。然后，再根据确定出的音频特征，确定第二音频数据所需调整的第一增益。其中，时域特征可以包括响度，包络能量，或者，短时能量等。

当需要提取第二音频数据的音频特征是响度时，可以由第二音频数据在时域上的波形图，确定出各个时刻的波形的幅值，进而确定出各个时刻的响度。其中，一个幅值为一个时刻的响度。另外，也可以根据需求选择特定的响度，比如最大的响度等。

当需要提取第二音频数据的音频特征是包络能量时，可以基于第二音频数据在时域上的波形图，构建第二音频数据对应的包络；然后通过积分计算该包络所围成的图形的面积，得到第二音频数据在时域上的平均包络能量，该平均包络能量即为所需的包络能量。示例性的，可以将时域波形图上各个时刻对应的幅值做比较，当后一时刻的幅值大于前一时刻的幅值时，基于两个幅值之间的差值和预先设定的控制因子控制两个时刻间的幅值的峰值的连线上升；当后一时刻的幅值小于前一时刻的幅值时，基于两个幅值之间的差值和预先设定的控制因子控制两个时刻间的幅值的峰值的连线下降；最后构成的曲线即为第二音频数据对应的包络。在一些实施例中，包络可以理解为在时域波形图上第二音频数据的幅值随时间的变化曲线。示例性的，如图6a所示，该图为第二音频数据的时域波形图，此时，图6a中的第二音频数据对应的包络的曲线可以为图6b所示，其中，图6b中包络的曲线与横轴之间的面积即为第二音频数据对应的平均包络能量。

当需要提取第二音频数据的音频特征是短时能量时，可以由第二音频数据在时域上的波形图，确定出各个时刻的波形的幅值，并对各个时刻的波形的幅值进行平方求和，以得到第二音频数据的短时能量。

在获取到第二音频数据的音频特征后，电子设备100可以基于确定出的音频特征和预先设定的第一增益计算公式，确定出第一增益。示例性的，第一增益计算公式可以为：
g＝w₁*(K₁-x₁)+w₂*(K₂-x₂)+…+w_n*(K_n-x_n) (公式1)

其中，g为增益；w_n为预先设定的第n个权重值；K_n为预设的第n个门槛值；x_n为第n个音频特征的最大值，比如，响度的最大值等。

在一些实施例中，电子设备100在确定第一增益时，还可以先对第二音频数据进行分帧处理，得到至少一个音频帧。然后，电子设备100可以前述的方式获取到各个音频帧对应的响度和/或短时能量等。

进一步地，当音频特征为响度时，可以从各个音频帧对应的响度中选取一个最大的响度，并将其代入上述的“公式1”，即可以得到第一增益。

当音频特征为包络能量时，可以从各个音频帧对应的包络能量中选取一个最大的包络能量，并将其代入上述的“公式1”，即可以得到第一增益。

当音频特征为短时能量时，可以从各个音频帧对应的短时能量中选取一个最大的短时能量，并将其代入上述的“公式1”，即可以得到第一增益。

当音频特征为响度和包络能量时，可以从各个音频帧对应的响度中选取一个最大的响度，以及从各个音频帧对应的包络能量中选取一个最大的包络能量，并将两者代入上述的“公式1”，即可以得到第一增益。

当音频特征为响度和短时能量时，可以从各个音频帧对应的响度中选取一个最大的响度，以及从各个音频帧对应的短时能量中选取一个最大的短时能量，并将两者代入上述的“公式1”，即可以得到第一增益。

当音频特征为响度、包络能量和短时能量时，可以从各个音频帧对应的响度中选取一个最大的响度，从各个音频帧对应的包络能量中选取一个最大的包络能量，以及从各个音频帧对应的短时能量中选取一个最大的短时能量，并将两者代入上述的“公式1”，即可以得到第一增益。

在确定出第二音频数据所需调整的第一增益后，电子设备100可以基于第一增益，对第二音频数据中各个声道的增益进行调整，得到第五音频数据。

在一些实施例中，当第二音频数据对应的最大的响度值超过一定值时，表明第二音频数据的响度能够满足要求。此时，在根据第二音频数据确定第一增益，且第一增益的单位使用分贝表示时，可以将第一增益的值置为0，以降低后续的计算量。这样，后续得到的第五音频数据即为第二音频数据。

S505、电子设备100根据第四音频数据，确定第四音频数据所需调整的第二增益，以及，基于第二增益，对第四音频数据中各个声道的增益进行调整，得到第六音频数据。

本实施例中，电子设备100可以先提取第四音频数据的音频特征，比如时域特征，乐理特征，或者，频域特征等。然后，再根据确定出的音频特征，确定第四音频数据所需调整的第二增益。其中，时域特征可以包括响度和/或短时能量等。乐理特征可以包括节拍，调式，和弦，音高，音色，旋律，情感等等。频域特征可以包括预先设定的多个频段的频谱能量等。

对于确定时域特征，可以参见S504中的描述，此处不再一一赘述。

对于确定乐理特征，电子设备100可以将第四音频数据输入至预先训练出的乐理特征确定模型，得到第四音频数据的乐理特征。示例性的，乐理特征确定模型可以使用高斯过程模型、神经网络模型、支持向量机等，对用于训练的音频数据进行训练得到。另外，还可以基于Krumhansl-Schmuckler调性分析算法确定出第四音频数据所包含的调式。此外，也可以基于Thayer情感模型确定出第四音频数据所包含的情感等。

对于确定频域特征，电子设备100可以对第四音频数据进行短时傅里叶变换(short time fourier transform，STFT)，将该帧音频数据从时域转换至频域，得到第四音频数据对应的频谱图。由第四音频数据对应的频谱图，即可以得到第四音频数据对应的频谱能量。示例性的，可以将第四音频数据划分成n个频段，每个频段中的各个频率均对应存在一个频谱能量，将每个频段中各个频率对应的频谱能量进行求和或均值计算即可以得到该频段对应的频谱能量。举例来说，如图7所示，该图为对第四音频数据进行短时傅里叶变换后得到的频谱图，横轴为频率，纵轴为频谱能量值；将第四音频数据划分成了3个频段，每个频段中的各个频率均对应有一个频谱能量，将这些频谱能量进行求和或均值计算就可以得到相应的频段(如频段1)对应的频谱能量。

在确定出第四音频数据的乐理特征和/或频域特征后，可以基于预先设定的第二增益计算公式，确定出第四音频数据所需调整的第二增益。示例性的，第二增益计算公式可以为：
g＝w₁*x₁+w₂*x₂+…+w_n*x_n (公式2)

其中，g为增益，w_n为预先设定的第n个权重值，x_n为第n个音频特征的值。

在确定出第四音频数据所需调整的第二增益后，电子设备100可以基于第二增益，对第四音频数据中各个声道的增益进行调整，得到第六音频数据。

在一些实施例中，电子设备100在确定第二增益时，还可以先对第四音频数据进行分帧处理，得到至少一个音频帧。然后，电子设备100可以对各个音频帧进行短时傅里叶变换(short time fourier transform，STFT)，将该帧音频数据从时域转换至频域，得到各个音频帧对应的频谱图。由各个音频帧对应的频谱图，即可以得到各个音频帧对应的频谱能量。接着，可以选取频谱能量最大的一个音频帧作为所需的音频帧，以及采用前述的确定时域特在，乐理特征，或者，频域特征的方式，对该音频帧进行处理，以得到第四音频数据所需调整的第二增益。

在一些实施例中，在基于前述的方式，确定出第二增益后，为了使得在后续播放第五音频数据产生的声音更容易被感知，还可以基于预先设定的第一增益和第二增益之间的线性关系，对第二增益进行修正，以得到所需的第二增益。示例性的，第一增益和第二增益之间的线性关系可以为：
g＝g₁*K+g₂

其中，g为修正后的第二增益，g₁为第一增益，g₂为修正前的第二增益，K为常数。

S506、电子设备100同时播放第五音频数据和第六音频数据。

本实施例中，电子设备100在获取到第五音频数据和第六音频数据后，可以同时播放第五音频数据和第六音频数据。这样，用户在能够清楚感知到原有的第二音频数据中所包含的信息的同时，也可以清楚的感知到原有的第一音频数据的曲调、背景声等，从而更加有效的满足了用户听感，提升了用户体验。

在一些实施例中，在确定第四音频数据所需调整的第二增益时，除了前述S505中所描述的方式外，还可以根据第五音频数据(即基于第一增益对第二音频数据进行调整后得到的数据)，确定第二增益。

示例性的，可以根据第五音频数据的最大响度值，和，实时计算的第二音频数据的最大响度值和第四音频数据的最大响度值间的比例，确定第二增益。或者，根据第五音频数据的最大响度值，和，预先设定的第二音频数据的最大响度值和第四音频数据的最大响度值间的比例，确定第二增益。

举例来说，若第二音频数据的最大响度值和第四音频数据的最大响度值间的比例为f，第二音频数据当前的最大响度值为A，第五音频数据的最大响度值为B，则由f和B可以确定出第六音频数据(即基于第二增益对第四音频数据进行调整后得到的数据)的最大响度值为 fB。由fB和A的差值，可以确定出第四音频数据需要调整的响度值。根据响度值与增益之间的映射关系，可以确定出第四音频数据所需调整的第二增益。

在一些实施例中，在S505中，在确定出第四音频数据所需调整的第二增益后，可以将该第二增益与预先设定的增益值(比如0、0.1等)进行比较。当第二增益大于预先设定的增益值时，表明播放第四音频数据产生的声音较小，其对播放S504中得到的第五音频数据产生的声音造成影响较小，因此可以将确定出的第二增益的值更新为预先设定的增益值。例如，若第二增益的单位使用标准化值(比如放大倍数等)表示时，若确定出的第二增益的值为0.2，预先设定的增益值为0.1，此时则可以将第二增益的值由0.2调整为0.1。

在一些实施例中，在S505中，当基于第二增益，对第四音频数据中各个声道的增益进行调整，得到第六音频数据时，可以在开始播放之后且与开始播放的时刻相距预设的时长内，以一定步长将需调整的增益由预设值(比如0、1等)逐渐调整至第二增益，以及，在结束播放之前且与结束播放的时刻相距预设的时长内，以一定步长将需调整的增益由第二增益调整至预设值(比如0、1等)。由此以在过渡到播放第六音频数据时，或者，由播放第六音频数据过渡到播放第一音频数据中的其他数据时，避免出现音量突变的情况，提升用户体验。

另外，还可以在开始播放之前且与开始播放的时刻相距预设的时长内，以一定步长将需调整的增益由预设值(比如0、1等)逐渐调整至第二增益，以及，在结束播放之后且与结束播放的时刻相距预设的时长内，以一定步长将需调整的增益由第二增益调整至预设值(比如0、1等)。由此以在过渡到播放第六音频数据时，或者，由播放第六音频数据过渡到播放第一音频数据中的其他数据时，避免出现音量突变的情况，提升用户体验。

也可以在开始播放之前且与开始播放的时刻相距预设的时长内，以一定步长将需调整的增益由预设值(比如0、1等)逐渐调整至第二增益，以及，在结束播放之前且与结束播放的时刻相距预设的时长内，以一定步长将需调整的增益由第二增益调整至预设值(比如0、1等)。由此以在过渡到播放第六音频数据时，或者，由播放第六音频数据过渡到播放第一音频数据中的其他数据时，避免出现音量突变的情况，提升用户体验。

亦可以在开始播放之后且与开始播放的时刻相距预设的时长内，以一定步长将需调整的增益由预设值(比如0、1等)逐渐调整至第二增益，以及，在结束播放之后且与结束播放的时刻相距预设的时长内，以一定步长将需调整的增益由第二增益调整至预设值(比如0、1等)。由此以在过渡到播放第六音频数据时，或者，由播放第六音频数据过渡到播放第一音频数据中的其他数据时，避免出现音量突变的情况，提升用户体验。

2.2、持续性播放的音频数据和偶发性播放的音频数据，是通过不同的电子设备播放。

示例性的，图8示出了本申请一些实施例中的另一种声音处理方法。在图8中，第一设备与第二设备为分离的设备，且第一设备与第二设备之间可以但不限于通过蓝牙等短距通信方式建立连接。在图8中，第一设备上配置有能够持续播放音频数据相关的软件(比如Apple等)，或者，第一设备可以为能够持续播放音频数据的设备，比如智能电视、智能音箱等，且第一设备正在使用其自身所拥有的扬声器播放音频数据。第二设备上配置有能够偶发性播放音频数据相关的软件(比如通话、Google等)；其中，第二设备上产生的声音是通过其自身所拥有的扬声器播放。示例性的，第一设备可以为智能电视、智能音箱、车载终端等；第二设备可以为手机、平板电脑等。如图8所示，该方法可以包括以下步骤：

S801、当第二设备需要播报音频数据时，第二设备向第一设备发送第一消息，第一消息用于指示第一设备执行人声消除或人声降低操作。

本实施例中，当第二设备需要播报音频数据时，第二设备可以向第一设备发送第一消息，以指示第一设备执行人声消除或人声降低操作。

示例性的，在家居场景中，第二设备可以为手机，第一设备可以为智能音箱、智能电视等。在该场景下，第一设备可以正在播放音乐、电视剧或者电影等，第二设备需播报的音频数据可以是用户使用第二设备进行通话时第二设备需播放的音频数据。也即是说，在家居场景中，当用户需要使用第二设备进行通话时(例如，当第二设备收到来电时，或者用户接通第二设备上的来电时)，第二设备可以向第一设备发送指示第一设备进行人声消除或人声降低操作的消息。

在驾车场景中，第二设备可以为手机(例如图5中所示的电子设备100)，第一设备可以为车载终端(例如图4中所示的车辆200)。在该场景下，第一设备可以正在播放音乐等，第二设备需播报的音频数据可以是用户使用第二设备进行导航或通话时第二设备需播放的音频数据。也即是说，在驾车场景中，当第二设备需要播放导航音频数据，或者，用户需要使用第二设备进行通话时，第二设备可以向第一设备发送指示第一设备进行人声消除或人声降低操作的消息。

S802、第一设备响应于第一消息，对其待播放的音频数据进行人声消除或人声降低操作。

本实施例中，当选择进行人声消除操作时，第一设备可以通过前述的人声消除方式对其待播放的音频数据进行人声消除操作。当选择进行人声降低操作时，第一设备可以通过前述的人声降低方式对其待播放的音频数据进行人声降低操作。

在一些实施例中，当第二设备待播放的音频数据为导航音频数据时，第一消息中可以包括导航音频数据的初始播放时间和数据长度。第一设备可以在获取到第一消息后，从其待播放的音频数据中提取出与该初始播放时间和数据长度均相等的子数据，并对该子数据进行人声消除操作，其中，该子数据的初始播放时间与导航音频数据的初始播放时间相同，该子数据的数据长度与导航音频数据的长度相等。

S803、第二设备播报音频数据，以及，第一设备播放进行人声消除或人声降低后的音频数据。

S804、当第二设备结束播报音频数据时，第二设备向第一设备发送第二消息，第二消息用于指示第一设备停止执行人声消除或人声降低操作。

本实施例中，当第二设备结束播报音频数据时，第二设备向第一设备发送第二消息，第二消息用于指示第一设备停止执行人声消除或人声降低操作。

示例性的，当用户使用第二设备进行通话时，在用户结束通话时(例如，用户挂断电话时)，第二设备可以将其结束通话的状态告知第一设备，从而使得第一设备可以停止执行人声消除或人声降低操作。当用户使用第二设备进行导航时，在第二设备结束导航播报时，第二设备可以将其结束导航播报的状态告知第一设备，从而使得第一设备可以停止执行人声消除或人声降低操作。

S805、第一设备响应于第二消息，停止对其待播放的音频数据进行人声消除或人声降低操作，以及播放未进行人声消除或人声降低的音频数据。

这样，在第二设备播报音频数据的过程中，可以降低第一设备所播放的音频数据的干扰，使得用户能够清楚的感知到第二设备播放的音频数据。

3、利用空间中设置的扬声器播放音频数据的场景。

3.1、在空间中配置有多个扬声器，且至少有一部分扬声器是按照一定的要求(比如：5.1.X，或，7.1.X等)布置，以及，电子设备或者其他的设备正在使用扬声器播放音频数据。

示例性的，图9的(A)示出了本申请一些实施例中的一种应用场景。如图9的(A)所示，可以按照5.1.X的要求在房间内的固定位置配置扬声器，以使用户享受到极致的影院级的声音。其中，5.1.X中，5代表构建空间环绕声的扬声器的数量，1代表低音炮，X代表在房间的顶部需要设置的扬声器的数量。在图9的(A)中，扬声器201布置在用户A所处位置的正前方；扬声器202布置在用户A的右前方，比如，扬声器202可以布置在以用户A所处的位置和扬声器201间的连线为基准线，并以用户A所处的位置为圆心，向右偏30度的位置处；扬声器203布置在用户A的右后方，比如，扬声器203可以布置在以用户A所处的位置和扬声器201间的连线为基准线，并以用户A所处的位置为圆心，向右偏120度的位置处；扬声器204布置在用户A的左后方，比如，扬声器204可以布置在以用户A所处的位置和扬声器201间的连线为基准线，并以用户A所处的位置为圆心，向左偏120度的位置处；扬声器205布置在用户A的左前方，比如，扬声器205可以布置在以用户A所处的位置和扬声器201间的连线为基准线，并以用户A所处的位置为圆心，向左偏30度的位置处。通过调整扬声器201、202、203、204和205输出的音频信号的增益，可以使得用户A在当前所处的位置处享受到空间环绕声。

图9的(B)示出了本申请一些实施例中的另一种应用场景。如图9的(B)所示，可以按照7.1.X的要求在房间内的固定位置配置扬声器，以使用户享受到极致的影院级的声音。在图9的(B)中，扬声器201布置在用户A所处位置的正前方；扬声器202布置在用户A的右前方，比如，扬声器202可以布置在以用户A所处的位置和扬声器201间的连线为基准线，并以用户A所处的位置为圆心，向右偏30度的位置处；扬声器203布置在用户A的正右方，比如，扬声器203可以布置在以用户A所处的位置和扬声器201间的连线为基准线，并以用户A所处的位置为圆心，向右偏90度的位置处；扬声器204布置在用户A的右后方，比如，扬声器204可以布置在以用户A所处的位置和扬声器201间的连线为基准线，并以用户A所处的位置为圆心，向右偏150度的位置处；扬声器205布置在用户A的左后方，比如，扬声器205可以布置在以用户A所处的位置和扬声器201间的连线为基准线，并以用户A所处的位置为圆心，向左偏150度的位置处；扬声器206布置在用户A的正左方，比如，扬声器206可以布置在以用户A所处的位置和扬声器201间的连线为基准线，并以用户A所处的位置为圆心，向左偏90度的位置处；扬声器207布置在用户A的左前方，比如，扬声器207可以布置在以用户A所处的位置和扬声器201间的连线为基准线，并以用户A所处的位置为圆心，向左偏30度的位置处。通过调整扬声器201、202、203、204、205、206和207输出的音频信号的增益，可以使得用户A在当前期所处的位置处享受到空间环绕声。

但在图9中当用户A离开其当前所处的位置时，用户A在其他的位置处将不能享受到空间环绕声。

为使得用户能够随时随地享受到空间环绕声，本申请实施例中提供了一种声音处理方法，可以基于用户与各个扬声器之间的距离，调整各个扬声器输出的音频信号的增益，从而使得用户可以随时随地享受到空间环绕声。

示例性的，图10的(A)示出了本申请一些实施例中的又一种应用场景。图10的(A) 中所示的场景与图9中所示的场景主要的不同之处在于：图10的(A)中所示的空间中配置有图像采集装置，比如摄像头300，和/或，用户A携带有电子设备100。

在图10的(A)所示的场景中，摄像头300可以采集用户A在空间中的图像，以由采集到的图像确定出用户A与各个扬声器之间的距离。

在一些实施例中，摄像头300可以与用于控制各个扬声器的控制器(图中未示出)通过有线网络或无线网络(比如蓝牙等)建立连接，这样，摄像头300可以将其采集到的图像传输至控制器，以由控制器对图像进行处理，比如将图像输入至预先训练好的图像处理模型，以由控制器根据该模型输出用户A与各个扬声器之间的距离。示例性的，图像处理模型可以但不限于是基于卷积神经网络(convolutional neural network，CNN)训练得到。在另一些实施例中，摄像头300可以与电子设备100通过无线网络(比如蓝牙等)建立连接，这样，摄像头300可以将其采集到的图像传输至电子设备100，以由电子设备100对图像进行处理，比如将图像输入至预先训练好的图像处理模型，以由电子设备100根据该模型输出用户A与各个扬声器之间的距离。

在一些实施例中，电子设备100可以与各个扬声器通过无线网络(比如蓝牙等)建立连接。此时，除了可以通过摄像头300采集到的图像确定用户A与各个扬声器之间的距离外，还可以基于电子设备100与各个扬声器之间的无线通信信号确定，例如：可以通过基于接收信号的强度指示(received signal strength indication，RSSI)测距方法确定电子设备100与各个扬声器之间的距离。由于电子设备100被用户A携带，因此，确定出电子设备100与各个扬声器之间的距离，即确定出用户A与各个扬声器之间的距离。应理解的，确定用户A与各个扬声器间的距离的执行主体可以是电子设备100，也可以是用于控制各个扬声器的控制器(图中未示出)，此处不做限定。示例性的，当电子设备100为执行主体确定电子设备100与扬声器的距离时，可以通过下述“公式一”确定电子设备100与某个扬声器之间的距离，该公式为：

其中，d为电子设备100与扬声器间的距离；abs为绝对值函数；RSSI为电子设备100获取到的扬声器发送的消息对应的RSSI；A为电子设备100与扬声器相隔1米时，电子设备100获取到的扬声器发送的消息对应的RSSI，该值可以预先标定；n为环境衰减因子，其可以为经验值。当用于控制各个扬声器的控制器为执行主体确定电子设备100与扬声器的距离时，可以参考电子设备100为执行主体确定电子设备100与扬声器的距离的方式，此处不再赘述。

在一些实施例中，在确定出电子设备100与扬声器间的距离后，可以利用三点定位法对电子设备100与至少三个扬声器间的距离进行处理，以得到电子设备100的位置。另外，由电子设备100在不同时刻的位置可以获取到电子设备100的移动距离。其中，由于电子设备100是由用户携带，因此，电子设备100的移动距离即为用户的移动距离。

示例性的，图10的(B)示出了本申请一些实施例中的又一种应用场景。图10的(B)中所示的场景与图10的(A)中所示的场景主要的不同之处在于：图10的(B)中所示的空间中在由扬声器201至205围成的区域之外还配置有其他的扬声器，比如，扬声器208、209等。在图10的(B)中，当用户A移动至扬声器202、208、209、210和203所围成的区域时，可以在该区域内控制产生空间环绕声。应当理解的是，在图10的(B)中所示的空间中在由扬声器201至205围成的区域之外配置的扬声器，除了可以与扬声器201至205处于一个空间内之外，还可以处于与扬声器201至205所处的空间相邻的某个空间中，此处不做限定。另外，图10中示出的是按照5.1.X的要求配置扬声器的场景，对于按照其他要求配置扬声器的场景，可以参考图10中的描述，此处不再赘述。

在一些实施例中，在图10所示的场景中，用户A可以在电子设备100上配置摄像头和/或各个扬声器在空间中的位置，和/或，配置摄像头和/或各个扬声器的标识等，以便于后续确定用户A与各个扬声器之间的距离，以及便于后续选择所需的扬声器。示例性的，电子设备100上可以安装有用于配置摄像头和/或扬声器的应用程序(application，APP)，用户A可以登录该APP进行配置。在另一些实施例中，在图10所示的场景中，各个扬声器可以根据与电子设备之间的距离，自动识别其在空间中的位置，并显示在电子设备100安装的APP界面中。用户A还可以在该APP中对各个扬声器在空间中的位置进行调整。

接下来，基于上文所描述的内容，对本申请实施例提供的一种声音处理方法进行详细介绍。

示例性的，图11示出了本申请一些实施例中的一种声音处理方法的流程。在图11中，电子设备100与各个扬声器之间可以但不限于通过蓝牙建立连接。在图11中，扬声器中所播放的音频信号可以是电子设备100中的音频信号，也可以是其他设备中的音频信号，此处不做限定。在图11中，用户的移动区域可以是构建空间环绕声的扬声器所围成的区域，比如：图10的(A)中扬声器201至205所围成的区域等，也可以是其他的区域，比如：图10的(A)中扬声器201至205所围成的区域之外的区域，此处不做限定。另外，图11中所示的方法可以实时的执行，也可以在满足一定条件时再执行，比如，当检测到用户移动的距离大于一定阈值时再执行，此处不做限定。如图11所示，该声音处理方法包括以下步骤：

S1101、电子设备100确定其与N个扬声器之间的距离，以得到N个第一距离，N为正整数。

本实施例中，电子设备100可以基于用户所处的空间中配置有图像采集装置采集到图像，确定其与各个扬声器之间的距离，以得到N个第一距离。另外，电子设备100也可以基于其与各个扬声器之间的无线通信信号，确定其与各个扬声器之间的距离，以得到N个第一距离。其中，N为正整数。可选地，N≥5。

在一些实施例中，N个扬声器可以为按照某个要求(比如5.1.X或7.1.X等)配置的构建空间环绕声的扬声器。例如，N个扬声器可以为图10的(A)中所示的扬声器201至205。在另一些实施例中，N个扬声器可以为空间中所有的扬声器，例如图10的(B)所示的扬声器201至205、以及扬声器208至210。

S1102、电子设备100基于N个第一距离，从N个扬声器中筛选出目标扬声器，目标扬声器与电子设备100间的距离最短。

本实施例中，电子设备100可以对N个第一距离进行排序，比如由大到小或者由小到大排序等，并从中挑选出最小的一个第一距离，以及将该最小的第一距离对应的扬声器作为目标扬声器。

在一些实施例中，目标扬声器也可以是其他的扬声器，比如，与电子设备100距离最远的扬声器等，具体可根据实际情况而定，此处不做限定。

S1103、电子设备100以其与目标扬声器间的距离为基准，确定除目标扬声器之外的各个扬声器对应的音频信号所需调整的增益，以构建出第一扬声器组，其中，第一扬声器组为将N个扬声器均虚拟至以电子设备100为中心，且以电子设备100与目标扬声器间的距离为半径的圆上得到的扬声器的组合。在一些实施例中，一个音频数据中可以但不限于包括各个相应的扬声器所需播放的音频信号。示例性的，一个音频数据中所包含的每个音频信号均可以与一个声道相对应。

本实施例中，电子设备100可以选择以其与目标扬声器间的距离为基准，并根据该基准距离和其他的扬声器与电子设备100间的距离，确定出其他的扬声器对应的音频信号所需调整的增益，以将其他的扬声器均虚拟至以电子设备100与目标扬声器间的距离为半径的圆上，从而构建出第一扬声器组。

在一些实施例中，若电子设备100与目标扬声器间的距离为d1，电子设备100与除目标扬声器之外的其中一个扬声器间的距离为d2，则该其中一个扬声器对应的音频信号所需调整的增益gi＝d2/d1。另外，在确定其他扬声器对应的音频信号所需调整的增益时，电子设备100也可以选用其他的线性模型进行确定，例如，上述的其中一个扬声器对应的音频信号所需调整的增益可以为gi＝Q(d2/d1)+P，其中，Q和P均为常数，具体可根据实际情况而定，此处不做限定。

此外，在构建第一扬声器组过程中，电子设备100可以记录每个真实的扬声器对应的音频信号所需调整的增益，以得到第一增益集合。

S1104、电子设备100以其当前的朝向为基准，并基于第一扬声器组，构建虚拟扬声器组，虚拟扬声器组由M个虚拟扬声器组成，M的值与构建空间环绕声所需的扬声器的数量相等，虚拟扬声器组中各个虚拟扬声器的布置方式与构建空间环绕声所需的扬声器的布置方式相同。

本实施例中，电子设备100可以先基于第一扬声器组，在其朝向上确定出一个虚拟扬声器，然后，再基于预先设定的构建空间环绕声所需的扬声器的布置方式(比如5.1.X或7.1.X的布置方式等)确定出剩余的虚拟扬声器，从而构建出虚拟扬声器组。其中，虚拟扬声器可以理解为是虚拟的扬声器。

在一些实施例中，当在第一扬声器组中位于电子设备100的朝向上存在一个扬声器，或者，在其朝向上的预设角度范围内存在一个扬声器时，可以将该扬声器定为虚拟扬声器组中的中置扬声器。中置扬声器可以理解为在电子设备100的朝向上，且处于0度方向上的扬声器，比如图10的(A)中所示的扬声器201。示例性的，电子设备100的朝向可以理解为是由电子设备100的底部朝向其顶部的方向。其中，对于电子设备100的顶部和底部，以电子设备100为手机为例，如图12所示，手机的听筒1201所在的位置可以为手机的顶部，手机上与听筒1201相对的位置1202可以为手机的底部，箭头1203所指的方向即为手机的朝向。可选地，当电子设备100的显示屏与水平面不平行时，电子设备100的朝向可以由电子设备100在水平面上的投影确定，此时电子设备100的朝向可以为电子设备100的底部在水平面上的投影朝向其顶部在水平面上的投影的方向。

当在第一扬声器组中位于电子设备100的朝向上不存在扬声器，或者，在其朝向上的预设角度范围内不存在扬声器时，可以由在第一扬声器组中位于该朝向上左右相邻的两个扬声器虚拟出一个扬声器，并将该虚拟出的扬声器作为虚拟扬声器组中的中置扬声器。其中，在由第一扬声器组中的两个扬声器虚拟出一个虚拟的扬声器时，可以通过调整第一扬声器组中的两个扬声器对应的音频信号的增益，以虚拟出一个虚拟的扬声器。示例性的，对于电子设备100的朝向上的预设角度范围，继续参阅图12，当预设角度为α时，电子设备100的朝向上的预设角度范围为由角度α所构建出的区域。示例性的，可以利用向量基础振幅平移 (vector base amplitude panning，VBAP)算法由两个扬声器虚拟出一个扬声器。应理解的是，当在电子设备100的朝向上存在一个扬声器时，也可以理解为是虚拟出一个扬声器，只是这个虚拟的扬声器本质上是第一扬声器组中的一个扬声器。

举例来说，如图13所示，若第一扬声器组中包括扬声器SP1和SP2，扬声器SP1和SP2在以用户U11为中心的圆上，且用户U11的当前的朝向为矢量P所指的方向。在该情况下，可以利用扬声器SP1和SP2的位置将声音固定在虚拟扬声器VSP1的位置处。例如，在将用户U11的位置作为原点O的情况下，其具有垂直方向和水平方向分别作为x轴方向和y轴方向的二维坐标系。在该二维坐标系中，虚拟扬声器VSP1的位置可以由矢量P表示。由于矢量P是二维矢量，因此矢量P可以由以原点O作为起始点、分别在扬声器SP1的方向和扬声器SP2的方向上延伸的矢量L1和L2的线性和来表示，即，P＝g1L1+g2L2。其中，计算出g1和g2后，以系数g1作为扬声器SP1对应的音频信号的增益，以系数g2作为扬声器SP2对应的音频信号的增益，即可以将声音固定在虚拟扬声器VSP1的位置处。在图13中，通过调整g1和g2的值，可以使虚拟扬声器VSP1位于将扬声器SP1和SP2连接的弧线AR11上的任意位置处。

在确定出虚拟扬声器组中的虚拟的中置扬声器后，可以按照预先设定的构建空间环绕声所需的扬声器的布置方式确定出剩余的虚拟扬声器，从而构建出虚拟扬声器组。例如，以构建5.1.X要求的虚拟扬声器组为例，在确定出中置扬声器后，可以确定用户U11右前方、右后方、左后方和左前方的虚拟扬声器。可选的，如前所述，用户U11右前方的虚拟扬声器位于以用户U11所处的位置和扬声器VSP1间的连线为基准线，并以用户U11所处的位置为圆心，向右偏30度的位置处；用户U11右后方的虚拟扬声器位于以用户U11所处的位置和扬声器VSP1间的连线为基准线，并以用户U11所处的位置为圆心，向右偏120度的位置处；用户U11左后方的扬声器位于以用户U11所处的位置和扬声器VSP1间的连线为基准线，并以用户U11所处的位置为圆心，向左偏120度的位置处；用户U11左前方的扬声器位于以用户U11所处的位置和扬声器VSP1间的连线为基准线，并以用户U11所处的位置为圆心，向左偏30度的位置处。其中，在确定剩余的虚拟扬声器时，当特定角度或特定角度范围不存在扬声器时，通过左右两个扬声器虚拟出虚拟扬声器，具体可以参考前述的确定中置扬声器的方式，此处不再一一赘述。

在根据第一扬声器组，构建虚拟扬声器组的过程中，可以记录第一扬声器组中每个扬声器对应的音频信号所需调整的增益，从而得到第二增益集合。

在一些实施例中，在构建虚拟扬声器组完毕后，当得到虚拟扬声器的数量未满足构建空间环绕声所需的扬声器的数量时，还可以由已得到的虚拟扬声器虚拟出所需的扬声器。其中，由已得到的虚拟扬声器虚拟出所需的扬声器的方式，可以参考前述的确定中置扬声器的方式，此处不再一一赘述。

S1105、电子设备100控制虚拟扬声器组播放音频数据。

本实施例中，电子设备100构建出虚拟扬声器组后，可以控制该虚拟扬声器组播放音频数据。其中，虚拟扬声器组所播放的音频数据可以根据前述确定出的第一增益集合和第二增益集合，对音频数据中的各个声道的增益进行调整得到。

举例来说，如图14的(A)所示，以空间中布置的两个扬声器SP1和SP2，且扬声器SP1与用户U11(即电子设备100)间的距离为d1，扬声器SP2与用户U11间的距离为d2为例。如图14的(B)所示，在构建第一扬声器组时，若以d1为基准，可以将扬声器SP2虚拟至圆C1上，即得到扬声器SP2’。接着，如图14的(C)所示，在构建虚拟扬声器组时，可以由扬声器SP1和SP2’虚拟出一个虚拟扬声器VSP1。

在图14的(B)中，假设确定出的扬声器SP2对应的音频信号所需调整的增益为g1，由于是以d1为基准，因此可以不用调整扬声器SP1对应的音频信号的增益，此时可以将扬声器SP1对应的音频信号所需调整的增益设定为g0。其中，当g0的单位为分贝(decibe l，DB)时，其取值可以为0；当g0的单位是标准化值(比如放大倍数等)时，其取值可以为1。因此，在图14的(B)中得到的第一增益集合为：扬声器SP1对应的音频信号所需调整的增益为g0，扬声器SP2对应的音频信号所需调整的增益为g1。

在图14的(C)中，假设确定出的扬声器SP1所需调整的增益为g2，扬声器SP2’所需调整的增益为g3。因此，在图14的(C)中得到的第二增益集合为：扬声器SP1对应的音频信号所需调整的增益为g2，扬声器SP2’对应的声道所需调整的增益为g3。

由图14的(B)中确定出的第一增益集合和图14的(C)中确定出的第二增益集合，可以确定出扬声器SP1对应的音频信号最终所需调整的增益为g2，扬声器SP2对应的音频信号最终所需调整的增益为gi＝g1*g3，或者，gi＝g1+g3等。其中，当所需调整的增益的单位为分贝时，可以采用相加的方式，当所需调整的增益的单位为标准化值时，可以采用相乘的方式。

最后，电子设备100可以基于确定出各个真实扬声器对应的音频信号所需调整的增益，对音频数据中相应的声道的增益进行调整，以得到所需的音频数据，并将相应的声道对应的信号发送至相应的扬声器，从而在听感上使得声音就像是通过虚拟扬声器组播放产生的一样。这样，用户感知到的声音近似是在其身边产生，从而使得用户可以随时随地的享受到空间环绕声。

在一些实施例中，当存在用户与扬声器间的距离大于预设距离阈值时，可以分别确定各个扬声器对应的时延，以便各个扬声器可以同步播放同一个音频数据。示例性的，可以选择最大的一个第一距离为基准，并由该距离确定出其他的各个扬声器的时延。例如，若确定出的基准距离为d1，电子设备100与其中一个虚拟扬声器间的距离为d2，则该其中一个扬声器的时延delay＝(d1-d2)/v，其中，v为声音在空气中的传播速度。

在确定出各个扬声器对应的时延后，电子设备100可以控制各个扬声器按照对应的时延播放音频数据。

这样，用户在移动过程中，跟随用户的移动随时随地调整各个扬声器的增益，从而使得用户可以随时随地的享受到空间环绕声。

为了便于理解上述方案，下面举例进行说明。

示例性的，如图15的(A)所示，在空间中布置于5个扬声器，即扬声器SP1、SP2、SP3、SP4和SP5，用户所使用的电子设备100处于位置a1处，且用户在5个扬声器所围成的区域中移动。

在图15的(B)中，电子设备100的位置由位置a1切换至位置a2处，此时触发执行上述图11中的方法。其中，可以假设扬声器SP2在电子设备100的朝向上。

在图15的(C)中，由于电子设备100与扬声器SP2之间的距离最短，因此可以选用该距离为基准距离，以及将扬声器SP1、SP3、SP4和SP5均虚拟至以该基准距离为半径且以位置a2为圆心的圆C1上。在图15的(C)中，扬声器SP1对应的虚拟扬声器为SP1’，扬声器SP3对应的虚拟扬声器为SP3’，扬声器SP4对应的虚拟扬声器为SP4’，扬声器SP5对应的虚拟扬声器为SP5’。

在图15的(D)中，电子设备100可以按照5.1.X的要求构建出虚拟扬声器组。该虚拟扬声器组由扬声器SP2、VSP1、VSP2、SP4’和SP1’组成。其中，扬声器VSP1由扬声器SP2和SP3’虚拟得到，扬声器VSP2由扬声器SP2和SP1’虚拟得到。可以理解，扬声器SP2、SP4’和SP1’位于满足条件的角度或角度范围内。

最后，电子设备100可以控制该虚拟扬声器组播放音频数据。

示例性的，如图16的(A)所示，在空间中布置于7个扬声器，即扬声器SP1、SP2、SP3、SP4、SP5、SP6和SP8，用户所使用的电子设备100处于位置a1处。

在图16的(B)中，电子设备100的位置由位置a1切换至位置a2处，此时触发执行上述图11中的方法。其中，可以假设扬声器SP5在电子设备100的朝向上。

在图16的(C)中，由于电子设备100与扬声器SP5之间的距离最短，因此可以选用该距离为基准距离，以及将扬声器SP1、SP2、SP3、SP4、SP6和SP8均虚拟至以基准距离为半径且以位置a2为圆心的圆C1上。在图16的(C)中，扬声器SP1对应的虚拟扬声器为SP1’，扬声器SP2对应的虚拟扬声器为SP2’，扬声器SP3对应的虚拟扬声器为SP3’，扬声器SP4对应的虚拟扬声器为SP4’，扬声器SP6对应的虚拟扬声器为SP6’，扬声器SP8对应的虚拟扬声器为SP8’。

在图16的(D)中，电子设备100可以按照5.1.X的要求构建出虚拟扬声器组。该虚拟扬声器组由扬声器SP5、VSP1、SP6’、VSP2、和SP3’组成。其中，扬声器VSP1由扬声器SP1’和SP6’虚拟得到，扬声器VSP2由扬声器SP8’和SP4’虚拟得到。可以理解，扬声器SP5、SP6’和SP3’位于满足条件的角度或角度范围内。

最后，电子设备100可以控制该虚拟扬声器组播放音频数据。

示例性的，图17示出了本申请一些实施例中的一种声音处理方法的流程。在图17中，电子设备100与各个扬声器之间可以但不限于通过蓝牙建立连接。在图17中，扬声器中所播放的音频信号可以是电子设备100中的音频信号，也可以是其他设备中的音频信号，此处不做限定。在图17中，用户的移动区域可以是构建空间环绕声的扬声器所围成的区域，比如：图10的(A)中扬声器201至205所围成的区域等，也可以是其他的区域，比如：图10的(A)中扬声器201至205所围成的区域之外的区域，此处不做限定。另外，图17中所示的方法可以实时的执行，也可以在满足一定条件时再执行，比如，当检测到用户移动的距离大于一定阈值时在执行，此处不做限定。如图17所示，该声音处理方法包括以下步骤：

S1701、电子设备100确定其与N个扬声器之间的距离，以得到N个第一距离，N为正整数。

S1702、电子设备100以其朝向为基准，构建第一虚拟扬声器组，第一虚拟扬声器组由M个虚拟扬声器组成，且M的值与构建空间环绕声所需的扬声器的数量相同。

本实施例中，电子设备100可以先在其朝向上确定出一个虚拟扬声器，然后，再基于预先设定的构建空间环绕声所需的扬声器的布置方式(比如5.1.X或7.1.X的布置方式等)依次确定出剩余的虚拟扬声器，从而构建出第一虚拟扬声器组。

在一些实施例中，当电子设备100的朝向上存在一个扬声器，或者，在其朝向上的预设角度范围内存在一个扬声器时，可以将该扬声器定为虚拟扬声器组中的中置扬声器。

当电子设备100的朝向上不存在扬声器，或者，在其朝向上的预设角度范围内不存在扬声器时，可以由该朝向上左右相邻的两个扬声器虚拟出一个扬声器，并将该虚拟出的扬声器作为虚拟扬声器组中的中置扬声器。其中，在由两个真实的扬声器虚拟出一个虚拟的扬声器时，可以通过调整两个真实的扬声器的增益，以虚拟出一个虚拟的扬声器。详见前述图13中的描述，此处不再赘述。

另外，当电子设备100的朝向上不存在扬声器(或者，在其朝向上的预设角度范围内不存在扬声器)，且该朝向上左右相邻的两个扬声器与电子设备100间的距离不相等时，可以先通过调整两者中的至少一个对应的声道所需调整的增益，将两者虚拟到以电子设备100为中心的圆上；然后，再通过图13中的方式虚拟出一个扬声器VSP1。例如，继续参阅图14，如图14的(A)所示，扬声器SP1和SP2未同时在以用户U11(即电子设备100)为中心的圆上，扬声器SP1和SP2与用户U11间的距离分别为d1和d2，且d1＜d2。此时，一种可能的实现方式中，可以将d1作为所需的圆C1的半径。接着，如图14的(B)所示，可以通过前述S1103中描述的方式调整扬声器SP2对应的音频信号所需调整的增益，例如，扬声器SP2对应的音频信号所需调整的增益可以为gi＝d2/d1，以将扬声器SP2虚拟至以用户U11为中心，以d1为半径的圆C1上，图中扬声器SP2’为由扬声器SP2虚拟出的扬声器。在图14的(B)中，d2’＝d1。之后，在图14的(C)中，可以通过图14中所描述的方式由扬声器SP1和SP2’虚拟出一个虚拟的扬声器VSP1。例如，扬声器SP1对应的增益为g1，扬声器SP2’对应的增益为g2。示例性的，若由扬声器SP2虚拟出扬声器SP2’时，扬声器SP2对应的音频信号所需调整的增益可以为gi，由扬声器SP1和SP2’虚拟出VSP1时，扬声器SP1对应的音频信号所需调整的增益为g1，扬声器SP2’对应的声道所需调整的增益为g2，则在本实现方式中，扬声器SP1的增益为g1，扬声器SP2的总增益为gi与g2的乘积，或者gi与g2相加的和等。其中，当所需调整的增益的单位为分贝时，可以采用相加的方式，当所需调整的增益的单位为标准化值(比如放大倍数等)时，可以采用相乘的方式。

另一种可能的实现方式中，也可以将d2作为所需的圆C1的半径，进而，可以通过前述S1103中描述的方式调整SP1对应的音频信号所需调整的增益，并进一步虚拟出扬声器VSP1。再一种可能的实现方式中，也可以选取d1和d2范围内的任一值作为所需的圆C1的半径，进而，可以通过前述类似方式调整扬声器SP1和SP2对应的音频信号所需调整的增益，并进一步最终虚拟出扬声器VSP1。其具体实现方式可以参考图13及其描述，本申请在此不再赘述。

进一步地，在确定剩余的虚拟扬声器时，可以参考确定中置扬声器的过程，此处不再赘述。

此外，在构建第一虚拟扬声器组的过程中，电子设备100可以记录每个真实的扬声器对应的音频信号所需调整的增益，以得到第一增益集合。

S1703、电子设备100确定其与第一虚拟扬声器组中各个虚拟扬声器间的距离，以得到M个第二距离。

本实施例中，电子设备100在构建第一虚拟扬声器组时，均是以其与某个扬声器间的距离为基准构建，且均是在以其自身为中心，且以该距离为半径的圆上虚拟出一个扬声器。因此，某个虚拟扬声器与电子设备100间的距离，为构建该虚拟扬声器所选用的基准对应的距离。举例来说，继续参阅图14，最终确定出的虚拟扬声器为VSP1’，且是以扬声器SP1与用户U11(即电子设备100)间的距离d1为基准，因此，虚拟扬声器VSP1’与用户U11(即电子设备100)间的距离为d1。

S1704、电子设备100基于M个第二距离，从M个虚拟扬声器中筛选出目标扬声器，目标扬声器与电子设备100间的距离最短。

本实施例中，电子设备100可以对M个第二距离进行排序，比如由大到小或者由小到大排序等，并从中挑选出最小的一个第二距离，以及将该最小的第二距离对应的虚拟扬声器作为目标扬声器。

在一些实施例中，目标扬声器也可以是其他的虚拟扬声器，比如，与电子设备100距离最远的虚拟扬声器等，具体可根据实际情况而定，此处不做限定。

S1705、电子设备100以其与目标扬声器间的距离为基准，并基于第一虚拟扬声器组，构建第二虚拟扬声器组，其中，第二虚拟扬声器组为将第一虚拟扬声器组中的M个虚拟扬声器均虚拟至以电子设备100为中心，且以电子设备100与目标扬声器间的距离为半径的圆上得到的虚拟扬声器的组合。

本实施例中，电子设备100可以选择以其与目标扬声器间的距离为基准，并根据该基准距离和其他的虚拟扬声器与电子设备100间的距离，确定出其他的虚拟扬声器对应的音频信号所需调整的增益，以将其他的虚拟扬声器均调整至以电子设备100与目标扬声器间的距离为半径的圆上，从而构建出第二虚拟扬声器组。在一些实施例中，若电子设备100与目标扬声器间的距离为d1，电子设备100与除目标扬声器之外的其中一个虚拟扬声器间的距离为d2，则该其中一个虚拟扬声器对应的音频信号所需调整的增益gi＝d2/d1。另外，在确定其他扬声器对应的音频信号所需调整的增益时，电子设备100也可以选用其他的线性模型进行确定，例如，上述的其中一个扬声器对应的音频信号所需调整的增益可以为gi＝Q(d1/d2)+P，其中，Q和P均为常数，具体可根据实际情况而定，此处不做限定。

在根据第一虚拟扬声器组，构建第二虚拟扬声器组的过程中，可以记录第一虚拟扬声器组中每个虚拟扬声器对应的音频信号所需调整的增益，以得到第二增益集合。

S1706、电子设备100控制第二虚拟扬声器组播放音频数据。

本实施例中，电子设备100构建出第二虚拟扬声器组后，可以控制该第二虚拟扬声器组播放音频数据。其中，第二虚拟扬声器组所播放的音频数据可以根据前述确定出的第一增益集合和第二增益集合，对音频数据中的各个声道的增益进行调整得到。

举例来说，如图18的(A)所示，以空间中布置的三个扬声器SP1、SP2和SP3，且扬声器SP3是用户U11(即电子设备100)朝向上的一个扬声器，以及需要由扬声器SP1和SP2虚拟出另一个所需的扬声器。如图18的(B)所示，在构建第一虚拟扬声器组时，若以d1为基准，可以将扬声器SP2虚拟至圆C1上，即得到扬声器SP2’。接着，如图18的(C)所示，可以由扬声器SP1和SP2’虚拟出一个虚拟扬声器VSP1，此时即构建出第一虚拟扬声器组中的两个扬声器，即扬声器SP3和虚拟扬声器VSP1。接着，如图18的(D)所示，在构建第二虚拟扬声器组时，可以以d3为基准，将虚拟扬声器VSP1’虚拟至圆C2上，从而构建出第二扬声器组中的两个扬声器，即扬声器SP3和虚拟扬声器VSP1’。

在图18的(B)中，假设确定出的扬声器SP2对应的音频信号所需调整的增益为g1，由于是以d1为基准，因此可以不用调整扬声器SP1对应的音频信号的增益，此时可以将扬声器SP1对应的音频信号所需调整的增益设定为g0。其中，当g0的单位为分贝(decibel，DB)时，其取值可以为0；当g0的单位是标准化值(比如放大倍数等)时，其取值可以为1。在图18的(C)中，假设确定出的扬声器SP1所需调整的增益为g2，扬声器SP2’所需调整的增益为g3。因此，在构建第一虚拟扬声器组时，由图18的(B)和(C)得到的第一增益集合为：扬声器SP1对应的音频信号所需调整的增益为(g0*g2)，或者，(g0+g2)；扬声器SP2对应的音频信号所需调整的增益为gi＝g1*g3，或者，gi＝g1+g3等。其中，当所需调整的增益的单位为分贝时，可以采用相加的方式，当所需调整的增益的单位为标准化值时，可以采用相乘的方式。

在图18的(D)中，假设确定出的虚拟扬声器VSP1对应的音频信号所需调整的增益为g4，由于是以d3基准，因此可以不用调整扬声器SP3对应的音频信号的增益，此时可以将扬声器SP3对应的音频信号所需调整的增益设定为g0。因此，在构建第二虚拟扬声器组时，由图18的(D)得到的第二增益集合为：扬声器SP3对应的音频信号所需调整的增益为g0，虚拟扬声器VSP1对应的音频信号所需调整的增益为g4。

在图18的(D)中，虚拟扬声器VSP1’等效于是先将扬声器SP1和SP2虚拟至圆C2上，然后再由这两个扬声器虚拟出虚拟扬声器VSP1’。由于扬声器SP1、SP2’、VSP1是在同一个圆C1上，基于将三者虚拟至圆C2上时，三者对应的声道所需调整的增益相等。因此，由图18的(D)得到的第二增益集合，可以确定出在构建第二虚拟扬声器组时，虚拟扬声器VSP1对应的真实的扬声器对应的音频信号所需调整的增益，且两个真实的扬声器(即扬声器SP1和SP2)对应的声道所需调整的增益也为g4。

进一步地，由第一增益集合和第二增益集合，可以确定出扬声器SP1对应的音频信号最终所需调整的增益为(g0+g2+g4)或者(g0*g2*g4)，扬声器SP2对应的音频信号最终所需调整的增益为(gi+g4)或者(gi*g4)，扬声器SP3对应的音频信号所需调整的增益为g0。其中，当所需调整的增益的单位为分贝时，可以通过将各个增益相加得到最终所需的调整的增益，当所需调整的增益的单位为标准化值时，可以通过将各个增益相加得到最终所需的调整的增益。

最后，电子设备100可以基于确定出各个真实扬声器对应的音频信号所需调整的增益，对音频数据中相应的声道的增益进行调整，以得到所需的音频数据，并将相应的声道对应的信号发送至相应的扬声器，从而在听感上使得声音就像是通过第二虚拟扬声器组播放产生的一样。

这样，用户感知到的声音近似是在其身边产生，从而使得用户可以随时随地的享受到空间环绕声。

示例性的，图19示出了本申请一些实施例中的一种声音处理方法的流程。在图19中，电子设备100与各个扬声器之间可以但不限于通过蓝牙建立连接。在图19中，扬声器中所播放的音频信号可以是电子设备100中的音频信号，也可以是其他设备中的音频信号，此处不做限定。在图19中，用户的移动区域可以是构建空间环绕声的扬声器所围成的区域，比如：图10的(A)中扬声器201至205所围成的区域等，也可以是其他的区域，比如：图10的(A)中扬声器201至205所围成的区域之外的区域，此处不做限定。另外，图19中所示的方法可以实时的执行，也可以在满足一定条件时在执行，比如，当检测到用户移动的距离大于一定阈值时在执行，此处不做限定。如图19所示，该声音处理方法包括以下步骤：

S1901、电子设备100以其朝向为基准，从N个扬声器中筛选出K个扬声器，K个扬声器用于构建空间环绕声。

本实施例中，电子设备100可以先在其朝向上确定出一个扬声器，然后，再基于预先设定的构建空间环绕声所需的扬声器的布置方式(比如5.1.X或7.1.X的布置方式等)依次确定出剩余的所需的扬声器，从而得到K个扬声器。

在一些实施例中，当电子设备100的朝向上存在一个扬声器，或者，在其朝向上的预设角度范围内存在一个扬声器时，可以将该扬声器作为所需的扬声器。

当电子设备100的朝向上不存在扬声器，或者，在其朝向上的预设角度范围内不存在扬声器时，可以由该朝向上左右相邻的两个扬声器作为所需的扬声器。

进一步地，在确定剩余的所需的扬声器时，可以参考在电子设备100的朝向上确定所需的扬声器的过程，此处不再赘述。

S1902、电子设备100基于K个扬声器，构建虚拟扬声器组，其中，虚拟扬声器组为将K个扬声器均虚拟至以电子设备100为中心的圆上得到的虚拟扬声器的组合。可选的，可以以电子设备100与K个扬声器中的一个扬声器间的距离为半径。其中，构建虚拟扬声器组的过程可以参见前述图11或图17中的描述，此处不再赘述。

S1903、电子设备100控制虚拟扬声器组播放音频数据。其中，电子设备100控制播放音频数据的过程详见前述图11或图17中的描述，此处不再赘述。

在一些实施例中，电子设备100可以基于确定出的各个扬声器对应的音频信号所需调整的增益，分别向各个扬声器发送用于调整音量的指示信息。示例性的，可以预先设定扬声器对应的音频信号所需调整的增益与音量的调整值间映射关系，当确定出扬声器对应的音频信号所需调整的增益后，电子设备100可以查询该映射关系确定出该扬声器的音量的调整值，进而向该扬声器发送指示信息，该指示信息中可以包括音量的调整值。

在一些实施例中，电子设备100还可以控制与虚拟扬声器组无关的各个真实的扬声器所播放的音频信号的响度降至低于预设响度值，以便降低这些扬声器的干扰，且使得后续在需要使用到这些扬声器时，不会出现卡顿的情况。例如，电子设备100可以控制与虚拟扬声器组无关的各个真实的扬声器将音量调整至最低，或者，将这些扬声器对应的音频信号所需调整的增益调整至最低等。当然，电子设备100也可以控制与虚拟扬声器组无关的各个真实的扬声器暂停工作。

需要说明的是，上述实施例中所描述的方法，除了可以对位于空间中水平方向上的扬声器进行处理外，还可以对其他方向上的扬声器进行处理，以构造出相应的环绕声。比如可以对布置在空间顶部的扬声器进行处理，处理方式可以参考前述的方式，此处就不再一一赘述。

3.2、在空间中配置有多个扬声器，且电子设备可以产生画面(比如：用户使用电子设备观看影片等)，以及，电子设备通过空间中布置的扬声器播放其上的音频数据。

示例性的，图20的(A)示出了本申请一些实施例中的一种应用场景。如图20的(A)所示，在车辆200中配置有6个扬声器，即扬声器SP1、SP2、SP3、SP4、SP5和SP6。用户U11在车辆200的右后座上使用电子设备100观看影片，且电子设备100与车辆200通过蓝牙等短距通信方式建立连接。电子设备100中的音频数据可以通过车辆200中的扬声器播放，从而获得更好的听感。

图20的(B)示出了本申请一些实施例中的另一种应用场景。如图20的(B)所示，按照一定的要求(比如，5.1.X等)在房间内的固定位置配置扬声器，即扬声器SP1、SP2、SP3、SP4和SP5。用户U11在房间中的座椅上使用电子设备100观看影片，且电子设备100与房间中的扬声器间通过蓝牙等短距通信方式建立连接。电子设备100中的音频数据可以通过房间中的扬声器播放，从而获得更好的听感。

图20的(C)示出了本申请一些实施例中的又一种应用场景。如图20的(C)所示，在房间中配置有扬声器SP1、SP2、SP3和SP4，以及配置有投影设备400。用户U11在房间中的座椅上，可以使用投影设备400将电子设备100中的影片等内容投影到墙体500上。电子设备100可以与房间中的扬声器间通过蓝牙等短距通信方式建立连接。电子设备100中的音频数据可以通过房间中的扬声器播放，从而获得更好的听感。

在图20的(A)和(B)所示的场景下，用户U11利用电子设备100外部的扬声器播放电子设备100上的音频数据时，当电子设备100与其外部的扬声器的位置不协调时，常会出现电子设备100所显示的画面与扬声器所播放的音频数据不同步的情况。在图20的(C)所示的场景下，用户U11观看的画面是在墙体500上显示，而声音是通过房间中的扬声器播放，且墙体500上所显示的画面的位置与扬声器的位置往往不协调，因此墙体500上所显示的画面与扬声器所播放的音频数据常会存在不同步的情况。

为解决这一问题，本申请实施例中提供了一种声音处理方法，可以基于空间中布置的扬声器，在电子设备100(或者基于电子设备100产生的画面)的周围构建出一个包含有至少一个虚拟扬声器的虚拟扬声器组，使得电子设备100中的音频数据可以由该虚拟扬声器组播放，进而解决音画不同步的问题，提升用户的听感和视感一致性体验。

可以理解的是，在图20的(A)和(B)所示的场景下，还可以配置有摄像头300。摄像头300可以采集用户U11和电子设备100在空间中的图像，以由采集到的图像确定出用户U11的头部与电子设备100在空间中的位置，和/或，电子设备100与各个扬声器间的距离等。另外，在图20的(C)所示的场景下，也可以配置有摄像头300。摄像头300可以采集用户U11、电子设备100和基于电子设备100产生的画面在空间中的图像，以由采集到的图像确定出用户U11的头部与电子设备100在空间中的位置，电子设备100与各个扬声器间的距离，基于电子设备100产生的画面与各个扬声器间的距离，或者，基于电子设备100产生的画面的位置等。

在一些实施例中，摄像头300可以与用于控制各个扬声器的控制器(图中未示出)通过有线网络或无线网络(比如蓝牙等)建立连接，这样，摄像头300可以将其采集到的图像传输至控制器，以由控制器对图像进行处理，比如将图像输入至预先训练好的图像处理模型，以由该模型输出用户U11的头部与电子设备100在空间中的位置，和/或，电子设备100与各个扬声器间的距离等。示例性的，图像处理模型可以但不限于是基于卷积神经网络(convolutional neural network，CNN)训练得到。在另一些实施例中，摄像头300可以与电子设备100通过无线网络(比如蓝牙等)建立连接，这样，摄像头300可以将其采集到的图像传输至电子设备100，以由电子设备100对图像进行处理，比如将图像输入至预先训练好的图像处理模型，以由该模型输出用户U11的头部与电子设备100在空间中的位置，电子设备100与各个扬声器间的距离，基于电子设备100产生的画面与各个扬声器间的距离，或者，基于电子设备100产生的画面的位置等。

在一些实施例中，电子设备100可以与各个扬声器通过无线网络(比如蓝牙等)建立连接。此时，除了可以通过摄像头300采集到的图像确定出电子设备100在空间中的位置，和/或，电子设备100与各个扬声器间的距离等外，还可以基于电子设备100与各个扬声器之间的无线通信信号确定，例如：可以通过基于接收信号的强度指示(received signal strength indication，RSSI)测距方法，确定电子设备100在空间中的位置，和/或，电子设备100与各个扬声器间的距离。应理解的，确定用户A与各个扬声器间的距离的执行主体可以是电子设备100，也可以是用于控制各个扬声器的控制器(图中未示出)，也可以是位于图1所示场景中的其他设备，此处不做限定。示例性的，当电子设备100为执行主体确定电子设备100 与扬声器的距离时，可以通过前述3.1的场景中所描述的“公式一”确定电子设备100与某个扬声器之间的距离。另外，当用于控制各个扬声器的控制器为执行主体确定电子设备100与扬声器的距离时，可以参考电子设备100为执行主体确定电子设备100与扬声器的距离的方式，此处不再赘述。

此外，在确定出电子设备100与各个扬声器间的距离后，可以基于电子设备100与至少三个扬声器间的距离，确定出电子设备100所在的位置。举例来说，如图24所示，若电子设备100与扬声器SP1的距离为d1，与扬声器SP2的距离为d2，与扬声器SP3的距离为d3，由于扬声器SP1、SP2和SP3的位置是已知且固定的，因此可以分别以各个扬声器所在的位置为中心，并以相应的扬声器与电子设备100间的距离为半径画圆，这三个圆的交点(即图中的位置E)即为电子设备100的位置。

示例性的，图22示出了本申请一些实施例中的一种声音处理方法的流程。在图22中，电子设备100与各个扬声器之间可以但不限于通过蓝牙建立连接。图22中所示的方法可以但不限于应用在图20的(A)或(B)所示的场景下。图22中所示的方法的执行主体可以是电子设备100。如图22所示，该声音处理方法包括以下步骤：

S2201、电子设备100确定其在目标空间中的目标位置，目标空间中配置有至少一个扬声器。

本实施例中，电子设备100可以基于用户所处的空间中摄像头采集到的图像，确定其在目标空间中的位置，也可以由其与各个扬声器间的无线通信信号，确定其在目标空间中的位置。

S2202、电子设备100根据目标位置，构建与目标空间匹配的虚拟空间，虚拟空间的体积小于目标空间的体积。

本实施例中，电子设备100可以将目标位置置于预先设定的空间模型中，并在空间模型中将目标位置与目标空间中某个部件或区域相关联，即在空间模型中将目标位置作为目标空间中某个部件或区域的位置，以构建出与目标空间匹配的虚拟空间。其中，虚拟空间可以理解为是一个小型化的目标空间。示例性的，该虚拟空间可以将目标空间按一定比例缩小形成。该虚拟空间可以是预先设定，且能够将用户围绕在其中的空间。例如，在图20的(A)所示的场景中，空间模型可以为一个小型的虚拟车辆，在该虚拟车辆中可以将目标位置置于车辆200中车机的显示屏的位置。在图20的(B)所示的场景中，空间模型可以为一个小型的虚拟房间，在该虚拟房间中可以将目标位置置于房间中用户U11正前方的墙体的位置。

S2203、电子设备100根据目标空间中各个扬声器的位置，在虚拟空间中构建虚拟扬声器组，虚拟扬声器组中包括与目标空间中各个扬声器对应的虚拟扬声器。

本实施例中，电子设备100可以基于虚拟空间与目标空间的比例，在虚拟空间出确定出与目标空间中的各个扬声器对应的虚拟扬声器的位置。

举例来说，以图20的(A)所示的场景为例，如图23所示，此时虚拟空间为虚拟车辆41，电子设备100所处的位置为虚拟车辆2301中车机的显示屏的位置。在车辆200中车机的显示屏与各个扬声器间的距离和角度均是固定的。若虚拟车辆2301与车辆200间的比例为1:10，在车辆200中扬声器SP1与车机的显示屏210间的距离为d1，角度为α，则可以在虚拟车辆2301中，在与电子设备100相距d1/10，且角度为α的位置处，布置一个虚拟扬声器 VSP1。对于在虚拟车辆2301中布置其他的虚拟扬声器的方式，可以参考布置虚拟扬声器VSP1的方式，此处不再赘述。

在虚拟空间中确定出各个虚拟扬声器的位置后，可以由虚拟扬声器与目标空间中扬声器间的距离，确定出目标空间中扬声器对应的音频信号所需调整的增益，并可以对目标空间中各个扬声器对应的音频信号的增益进行调整，以构建出虚拟扬声器组，从而将目标空间中的各个扬声器映射到虚拟空间中。其中，虚拟扬声器组中包括与目标空间中各个扬声器对应的虚拟扬声器。示例性的，虚拟扬声器可以理解为是虚拟的扬声器，车辆200中配置的扬声器可以理解为是真实的扬声器。

在一些实施例中，电子设备100可以通过目标空间中扬声器与虚拟空间中虚拟扬声器间的距离和预先设定的距离模型，确定出各个扬声器对应的音频信号所需调整的增益。

举例来说，以图20的(A)所示的场景为例，继续参阅图23，若预先设定的距离模型为g＝k*d+b，g为扬声器对应的音频信号所需调整的增益，k和b为常数，d为虚拟扬声器与真实的扬声器间的距离。若虚拟扬声器VSP1和扬声器SP1间的距离为d2，则扬声器SP1对应的音频信号所需调整的增益为g1＝k*d2+b，此时，电子设备100对其待播放的音频数据中扬声器SP1对应的音频信号的增益进行调整，且调整值为g1，即可以将扬声器SP1映射至虚拟车辆41中，从而在虚拟车辆41中构建出与扬声器SP1对应的虚拟扬声器。利用剩余的各个扬声器与相应的虚拟扬声器间的距离和距离模型，可以在虚拟车辆41中构建出与剩余的各个扬声器对应的虚拟扬声器。另外，电子设备100也可以记录下每个扬声器对应的音频信号所需调整的增益的值，并在后续再对待播放的音频数据进行调整。

S2204、电子设备100利用虚拟扬声器组播放目标音频数据，目标音频数据中各个声道的增益由在构建虚拟扬声器组过程中、基于目标空间中各个扬声器对应的音频信号所需调整的增益得到。

本实施例中，在构建出虚拟扬声器组后，电子设备100可以利用该虚拟扬声器组播放目标音频数据。例如，电子设备100可以将目标音频数据所包含的不同声道对应的音频信号传输至相应的扬声器进行播放。其中，目标音频数据中各个声道的增益由在构建虚拟扬声器组过程中、基于目标空间中各个扬声器对应的音频信号所需调整的增益得到。

这样，在用户使用外部的扬声器播放器所使用的电子设备上的音频数据时，使得用户听到的声音近似于是从电子设备上产生，且是围绕在用户周围，从而使得电子设备所播放的画面与声音同步，提升了用户的听感和视感一致性体验。

示例性的，图24示出了本申请一些实施例中的另一种声音处理方法的流程。在图24中，电子设备100与各个扬声器之间可以但不限于通过蓝牙建立连接。图24中所示的方法可以但不限于应用在图20的(A)或(B)所示的场景下。图24中所示的方法的执行主体可以是电子设备100。如图24所示，该声音处理方法包括以下步骤：

S2401、电子设备100确定其与用户的头部间的第一距离，以及确定用户的头部在目标空间中的第一位置，目标空间中配置有至少一个扬声器。

本实施例中，电子设备100可以基于用户所处的空间中摄像头采集到图像，确定其与用户的头部间的第一距离，以及确定用户的头部在目标空间中的第一位置。

S2402、电子设备100根据第一距离、第一位置和目标空间中各个扬声器的位置，构建虚拟扬声器组，虚拟扬声器组中包括与目标空间中各个扬声器对应的虚拟扬声器，各个虚拟扬声器均处于以第一位置为圆心且以第一距离为半径的圆上。

本实施例中，电子设备100可以以第一距离为半径，并以第一位置为圆心构建一个圆，以及将目标空间中的各个扬声器均虚拟至该圆上。在一些实施例中，电子设备100可以基于第一位置与各个扬声器的位置间的距离，将目标空间中的各个扬声器均虚拟至其构建的圆上。示例性的，可以预先设定有距离模型，将第一位置与各个扬声器的位置间的距离输入至该距离模型中，可以得到各个扬声器对应的音频信号所需调整的增益，并可以对目标空间中各个扬声器对应的音频信号的增益进行调整，以构建出虚拟扬声器组。

举例来说，以图20的(A)所示的场景为例，请参阅图25，若预先设定的距离模型为g＝k*d+b，g为扬声器对应的音频信号所需调整的增益，k和b为常数，d为用户的头部的位置与真实的扬声器间的距离。若用户U11的头部的位置与车辆200中的扬声器SP1间的距离为d1，则该扬声器SP1对应的音频信号所需调整的增益为g1＝k*d1+b，此时，电子设备100对其待播放的音频数据中该扬声器SP1对应的音频信号的增益进行调整，且调整值为g1，即可以将该扬声器SP1虚拟至其构建的圆上，即得到虚拟扬声器VSP1。基于同样的实现方式，电子设备100可以将车辆200中的其他的扬声器虚拟到其构建的圆上，即构建出虚拟扬声器组。

S2403、电子设备100利用虚拟扬声器组播放目标音频数据，目标音频数据中各个声道的增益由在构建虚拟扬声器组过程中基于目标空间中各个扬声器对应的音频信号所需调整的增益得到。

本实施例中，在构建出虚拟扬声器组后，电子设备100可以利用该虚拟扬声器组播放目标音频数据。例如，电子设备100可以将目标音频数据所包含的不同声道对应的音频信号传输至相应的扬声器进行播放。其中，目标音频数据中各个声道的增益由在构建虚拟扬声器组过程中基于目标空间中各个扬声器对应的音频信号所需调整的增益得到。

在一些实施例中，在确定出虚拟扬声器组后，还可以利用向量基础振幅平移(vector base amplitude panning，VBAP)算法，从虚拟扬声器组中构建出另一个虚拟扬声器组。其中，构建虚拟扬声器组的方式可以参见前述3.1的场景中的相关描述，此处不再赘述。最新构建出的虚拟扬声器组中可以由M个虚拟扬声器组成，M的值与构建空间环绕声所需的扬声器的数量相等，且虚拟扬声器组中各个虚拟扬声器的布置方式与构建空间环绕声所需的扬声器的布置方式相同。在构建出最新的虚拟扬声器组后，电子设备100可以利用该虚拟扬声器组播放目标音频数据。这样，用户可以享受到空间环绕声，提升了用户体验。

示例性的，图26示出了本申请一些实施例中的又一种声音处理方法的流程。在图26中，电子设备100与各个扬声器之间可以但不限于通过蓝牙建立连接。图26中所示的方法可以但不限于应用在图20的(A)或(B)所示的场景下。图26中所示的方法的执行主体可以是音响设备控制系统，该系统可以用于控制各个扬声器。在图26中，S802和S803可以参见图22中S2202和S2203中的描述；另外，在S2603中音响设备控制系统是记录每个扬声器对应的音频信号所需调整的增益，而在S2203中电子设备100既可以记录每个扬声器对应的音频信号所需调整的增益，也可以直接对待播放的音频数据中相应的声道的增益进行调整。如图26 所示，该声音处理方法包括以下步骤：

S2601、音响设备控制系统确定电子设备100在目标空间中的目标位置，目标空间中配置有至少一个扬声器。

本实施例中，音响设备控制系统可以基于用户所处的空间中摄像头采集到图像，确定电子设备100在目标空间中的位置，也可以由电子设备100与各个扬声器间的无线通信信号，确定电子设备100在目标空间中的位置。

S2602、音响设备控制系统根据目标位置，构建与目标空间匹配的虚拟空间，虚拟空间的体积小于目标空间的体积。

S2603、音响设备控制系统根据目标空间中各个扬声器的位置，在虚拟空间中构建虚拟扬声器组，虚拟扬声器组中包括与目标空间中各个扬声器对应的虚拟扬声器。

S2604、音响设备控制系统获取电子设备100发送的目标音频数据，以及利用各个扬声器对应的音频信号所需调整的增益，对目标音频数据中的各个声道的增益进行调整，并播放调整后的目标音频数据。

本实施例中，音响设备控制系统获取到电子设备100发送的目标音频数据后，可以根据其构建虚拟扬声器组过程中记录的各个扬声器对应的音频信号所需调整的增益，对目标音频数据中各个声道的增益进行调整，并播放调整后的目标音频数据。

示例性的，图27示出了本申请一些实施例中的再一种声音处理方法的流程。在图27中，电子设备100与各个扬声器之间可以但不限于通过蓝牙建立连接。图27中所示的方法可以但不限于应用在图20的(A)或(B)所示的场景下。图27中所示的方法的执行主体可以是音响设备控制系统，该系统可以用于控制各个扬声器。在图27中，S902可以参见图24中S2402的描述，S2703可以参见图26中S2604的描述。如图27所示，该声音处理方法包括以下步骤：

S2701、音响设备控制系统确定电子设备100与用户的头部间的第一距离，以及确定用户的头部在目标空间中的第一位置，目标空间中配置有至少一个扬声器。

本实施例中，音响设备控制系统可以基于用户所处的空间中摄像头采集到图像，确定电子设备100与用户的头部间的第一距离，以及确定用户的头部在目标空间中的第一位置。

S2702、音响设备控制系统根据第一距离、第一位置和目标空间中各个扬声器的位置，构建虚拟扬声器组，虚拟扬声器组中包括与目标空间中各个扬声器对应的虚拟扬声器，各个虚拟扬声器均处于以第一位置为圆心且以第一距离为半径的圆上。

S2703、音响设备控制系统获取电子设备100发送的目标音频数据，以及利用各个扬声器对应的音频信号所需调整的增益，对目标音频数据中的各个声道的增益进行调整，并播放调整后的目标音频数据。

在一些实施例中，在确定出虚拟扬声器组后，还可以利用向量基础振幅平移(vector base amplitude panning，VBAP)算法，从虚拟扬声器组中构建出另一个虚拟扬声器组。其中，构建虚拟扬声器组的方式可以参见前述3.1的场景中的相关描述，此处不再赘述。最新构建出的虚拟扬声器组中可以由M个虚拟扬声器组成，M的值与构建空间环绕声所需的扬声器的数量相等，且虚拟扬声器组中各个虚拟扬声器的布置方式与构建空间环绕声所需的扬声器的布置方式相同。在构建出最新的虚拟扬声器组后，音响设备控制系统可以利用该虚拟扬声器组播放目标音频数据。这样，用户可以享受到空间环绕声，提升了用户体验。

示例性的，图28示出了本申请一些实施例中的再一种声音处理方法的流程。在图28中，电子设备100与各个扬声器之间可以但不限于通过蓝牙建立连接。图28中所示的方法可以但不限于应用在图20的(C)所示的场景下。图28中所示的方法的执行主体可以是电子设备100。在图28中，S2803至S2804可以参考前述图22中S2203至S2204中的描述，此处不再赘述。如图28所示，该声音处理方法包括以下步骤：

S2801、电子设备100确定基于其产生的画面在目标空间中所处的目标位置，目标空间中配置有至少一个扬声器。

本实施例中，电子设备100可以通过摄像头拍摄的图像获取其产生的画面在目标空间中所处的目标位置。另外，用户也可以预先在电子设备100中出配置目标位置，具体可根据实际情况而定，此处不做限定。

S2802、电子设备100根据目标位置，构建与目标空间匹配的虚拟空间，虚拟空间的体积小于目标空间的体积。

本实施例中，电子设备100可以将目标位置置于预先设定的空间模型中，并在空间模型中将目标位置与目标空间中某个部件或区域相关联，即在空间模型中将目标位置作为目标空间中某个部件或区域的位置，以构建出与目标空间匹配的虚拟空间。其中，虚拟空间可以理解为是一个小型化的目标空间。示例性的，该虚拟空间可以将目标空间按一定比例缩小形成。该虚拟空间可以是预先设定的空间。例如，在图20的(C)所示的场景中，空间模型可以为一个小型的虚拟房间，在该虚拟房间中可以将目标位置置于房间中用户U11正前方的墙体500上的某个位置。

S2803、电子设备100根据目标空间中各个扬声器的位置，在虚拟空间中构建虚拟扬声器组，虚拟扬声器组中包括与目标空间中各个扬声器对应的虚拟扬声器。

S2804、电子设备100利用虚拟扬声器组播放目标音频数据，目标音频数据中各个声道的增益由在构建虚拟扬声器组过程中、基于目标空间中各个扬声器对应的音频信号所需调整的增益得到。

这样，在用户使用投影设备观看电子设备上的画面，且使用外部的扬声器播放器所使用的电子设备上的音频数据时，使得用户听到的声音近似于是从投影设备投影出的画面上产生，从而使得基于电子设备产生的画面与声音同步，提升了用户的听感和视感一致性体验。

示例性的，图29示出了本申请一些实施例中的再一种声音处理方法的流程。在图29中，电子设备100与各个扬声器之间可以但不限于通过蓝牙建立连接。图29中所示的方法可以但不限于应用在图20的(C)所示的场景下。图29中所示的方法的执行主体可以是音响设备控制系统，该系统可以用于控制各个扬声器。在图29中，S2901至S2903可以参考前述图28中S2801至S2803中的描述，图29中的S2904可以参考前述图26中的S2604中的描述，此处不再赘述。如图29所示，该声音处理方法包括以下步骤：

S2901、音响设备控制系统确定基于电子设备100产生的画面在目标空间中所处的目标位置，目标空间中配置有至少一个扬声器。

S2902、音响设备控制系统根据目标位置，构建与目标空间匹配的虚拟空间，虚拟空间的体积小于目标空间的体积。

S2903、音响设备控制系统根据目标空间中各个扬声器的位置，在虚拟空间中构建虚拟扬声器组，虚拟扬声器组中包括与目标空间中各个扬声器对应的虚拟扬声器。

S2904、音响设备控制系统获取电子设备100发送的目标音频数据，以及利用各个扬声器对应的音频信号所需调整的增益，对目标音频数据中的各个声道的增益进行调整，并播放调整后的目标音频数据。

在一些实施例中，当存在用户与扬声器间的距离大于预设距离阈值，和/或，用户与基于电子设备100所产生的画面间的距离大于预设距离阈值时，还可以分别确定目标空间中各个扬声器对应的时延，以便用户看到的画面和听到的声音相匹配，从而提升用户体验。示例性的，可以以用户与基于电子设备100所产生的画面间的目标距离为基准，并由该目标距离确定出目标空间中各个扬声器的时延。例如，若目标距离为d1，电子设备100与目标空间中一个扬声器间的距离为d2，则该扬声器的时延delay＝(d2-d1)/v，其中，v为声音在空气中的传播速度。示例性的，在图20的(A)或(B)所示的场景中，用户与基于电子设备100所产生的画面间的距离可以为：用户U11和电子设备100间的距离；在图20的(C)所示的场景中，用户与基于电子设备100所产生的画面间的距离可以为：用户U11与墙体500间的距离，该距离可以但不限于通过房间中的摄像头300获得。示例性的，当计算得到的某个扬声器的时延delay为正数时，表明该扬声器离用户更远，所以此时可以控制该扬声器提前播放，比如：提前的时间可以为确定出的时延delay；当计算得到的某个扬声器的时延delay为负数时，表明该扬声器离用户更近，所以此时可以控制该扬声器延迟播放，比如：延迟的时间可以为确定出的时延delay的绝对值。

在确定出各个扬声器对应的时延后，电子设备100或者音响设备控制系统可以控制各个扬声器按照对应的时延提前或延迟播放音频数据。由此以使得用户看到的画面和听到的声音相匹配，从而提升用户体验。

进一步地，还可以从确定出的目标设备产生的画面与目标空间中的各个扬声器间的距离中，选取一个距离作为基准距离；并根据该基准距离，确定目标设备产生的画面的出现时间。由此以提升音画同步的效果。示例性的，该基准距离可以为确定出的目标设备产生的画面与目标空间中的各个扬声器间的距离中的最大的一个距离。示例性的，可以基于该基准距离和声音的传播速度，确定出产生的画面相对于该基准距离对应的扬声器产生的声音出现的延时时间；然后，在控制目标设备在该基准距离对应的扬声器播放相应的音频数据的时刻之后，且达到该延时时间时，在显示出相应的画面。例如，若确定出的延时时间为3s，该基准距离对应的扬声器播放相应的音频数据的时刻为t，则目标设备产生的画面出现的时刻为(t+3)。

4、控制新能源车辆加速行驶的场景。

一般地，用户在使用新能源车辆(以下简称“车辆”)，车辆可以根据其自身的行驶状态循环播放声浪声音。比如：车辆在加速时可以将其扬声器的音量逐步增加至最大值，在减速时可以将其扬声器的音量逐步降低至最小值。但这种方式，声浪声音仅有音量变化，而没有在空间上的变化，即没有形成空间化声浪，这使得车辆所播放的声浪声音与真实驾驶状态相符相差较大。

另外，还可以通过将声浪音频切分成以毫秒为单位的极短片段，并根据车辆的速度等，选取对应的片段。以及，将选取的片段进行叠加合成，并播放合成后的数据，以还原真实的声浪效果。但这种方式，声浪声音仍然是仅有音量变化，而没有在空间上的变化，即没有形成空间化声浪，用户体验较差。

为解决上述问题，本申请实施例提供了一种声音处理方法，该方法可以在用户使用车辆过程中，使声浪声音产生空间上的变化，以使车辆的内部出现多普勒效应，从而使得车辆所播放的声浪声音与真实驾驶状态相符，进而使得听感更真实，提升了用户体验。

示例性的，图30示出了一种车辆的硬件结构。如图30所示，该车辆200中可以配置有电子设备100和扬声器210。其中，电子设备100可以将声浪声音传输至扬声器210，以通过扬声器210播放。示例性的，电子设备100可以但不限于为车载终端。扬声器210的数量和位置可以根据需求配置，此处不做限定。

另外，车辆200中还可以配置有其正常运行所必须的部件，比如各类传感器等，此处不做限定。在一些实施例中，车辆200中可以配置有用于感知车辆运动状态的传感器，比如：速度传感器、加速度传感器等。

示例性的，图31示出了一种声音处理方法。可以理解的是，该方法可以但不限于由车辆中配置的电子设备(比如车载终端等)执行。如图31所示，该声音处理方法可以包括以下步骤：

S3101、电子设备100确定车辆200当前的行驶参数，行驶参数包括行驶速度、转速和加速踏板的开度中的一项或多项。

本实施例中，车辆200中的传感器感知到车辆200的行驶参数后，可以将该行驶参数传输至电子设备100。

S3102、电子设备100根据行驶参数，确定与行驶速度对应的第一音频数据。

本实施例中，电子设备100可以根据行驶参数和预配置的原始音频数据，确定出与行驶参数对应的第一音频数据。

示例性的，电子设备100可以先获取到由原始音频数据得到的音频粒子。其中，每个音频粒子均可以与车辆的一个行驶速度相对应。示例性的，音频粒子可以理解为是将原始音频数据分成极短片段(比如以毫秒为单位的片段等)所形成的数据。示例性的，原始音频数据可以默认的音频数据，也可以是由用户自行选择的音频数据，此处不做限定。当原始音频数据是由用户自行选择的音频数据时，在电子设备100上可以配置有选择入口，以供用户进行选择。

然后，电子设备100可以由行驶参数和音频粒子间的映射关系，确定出在当前的行驶参数对应的音频粒子。最后，再利用车辆200当前的加速度，对确定出的音频粒子进行伸缩变换，以调整音频粒子的数据长度，从而使得音频粒子的播放速度与当前的驾驶状态相匹配。其中，第一音频数据为进行伸缩变换后的音频粒子。

举例来说，当行驶参数为行驶速度时，若行驶速度和音频粒子间的映射关系为：速度为a1时，音频粒子为音频粒子b1；速度为a2时，音频粒子为音频粒子b2。当在t1时刻确定出的车辆的行驶速度为a2时，由行驶速度和音频粒子间的映射关系可以确定出当前所需的音频粒子为音频粒子b2。若t0时刻确定出车辆200的行驶速度为a0，在t1时刻车辆200的加速度则为(a2-a0)/(t1-t0)。接着，可以利用确定出的加速度，查询预设的加速度和伸缩变化值之间的映射关系，确定出与当前的加速度对应的伸缩变换值。最后，可以基于该伸缩变化值，并通过时域压扩(time-scale modificatio，TSM)算法对音频粒子b2进行处理，以完成对音频粒子b2的伸缩变换，进而得到第一音频数据。

作为一种可能的实现方式，可以先利用不同的伸缩变换值，对原始音频数据进行伸缩变换。然后，再分别对伸缩变换后的音频数据进行切分。这样切分得到的音频粒子均可以与原始音频数据中的某个音频粒子对应，且，原始音频数据中的每个音频粒子均对应有一个粒子组，该粒子组中包括至少一个进行伸缩变换后的音频粒子，且在该粒子组中不同的音频粒子与不同的伸缩变化值对应。由于每个行驶速度均可以与原始音频数据中的一个音频粒子对应，因此，每个行驶速度均可以与前述的一个粒子组对应。示例性的，一个音频粒子可以与一个速度区间对应，即在该速度区间中的速度均对应同一个粒子。例如，音频粒子a对应的速度区间可以为(20km/h，25km/h)。

另外，除了先对原始音频数据进行伸缩变换，再进行切分外，还可以先对原始音频数据进行切分，然后再利用不同的伸缩变换值，对切分后得到的音频粒子进行伸缩变换。具体可根据实际情况而定，此处不做限定。

举例来说，若利用伸缩变化值x1和x2分别对原始音频数据进行伸缩变换，并对伸缩变换后的音频数据进行切分，则对于原始音频数据中的音频粒子b0，可以与利用伸缩变化值x1进行伸缩变换后的音频粒子b1和利用伸缩变化值x2进行伸缩变换后的音频粒子b2对应，此时音频粒子b0对应的粒子组由音频粒子b1和b2组成。其中，音频粒子b0、b1和b2对应的时间点相同；另外，也可以理解为，音频粒子b1是利用伸缩变化值x1对音频粒子b0进行伸缩变换得到，音频粒子b2是利用伸缩变化值x2对音频粒子b0进行伸缩变换得到。

进一步地，在确定出车辆200当前的行驶速度后，可以根据该行驶速度，确定出一个粒子组。然后，再根据当前的加速度，查询预设的加速度和伸缩变化值之间的映射关系，确定出与当前的加速度对应的伸缩变换值。最后，可以基于该伸缩变化值，查询粒子组中各个音频粒子与伸缩变化值之间的关系，可以从粒子组中确定出所需的音频粒子，该音频粒子即为第一音频数据。

当行驶参数为转速或加速踏板的开度的情形，可以参考行驶参数是行驶速度的情形，此处不再赘述。

S3103、电子设备100根据行驶参数，调整第一音频数据中各个声道的增益，以得到第二音频数据。

本实施例中，电子设备100可以根据行驶速度和预先设定的增益调整模型，确定出所需调整的增益，并对第一音频数据中各个声道的增益进行调整，以得到第二音频数据。示例性的，增益调整模型可以为线性模型，比如：y＝kx+b，y为需调整的增益，k和b为常数，x为加速度。其中，线性模型中的加速度可以由行驶速度、时间和加速度之间的关系确定。此时，可以理解为是先根据行驶速度确定出车辆的加速度，然后，再根据加速度，调整第一音频数据中各个声道的增益。

在一些实施例中，为防止出现音量突变的情况，可以设定每次增益调整的范围。当确定出的所需调整的增益超过预设的范围时，可以将预设的范围的最大值作为此次的调整的增益。

在一些实施例中，为防止出现音量忽大忽小的情况，可以设定一个调整增益的条件，比如当行驶速度的变化值超过预设速度值(比如3km/h等)时，可以调整增益，否则不调整增益。换言之，当车辆200的行驶速度的变化值超过一定速度值时，可以调整增益。

S3104、电子设备100根据行驶参数，确定声场向目标方向移动的目标速度。

本实施例中，电子设备100可以利用车辆200的行驶速度，确定出车辆200的加速度。然后，再利用确定出的加速度，查询预先设定的加速度和声场向目标方向移动的速度间的映射关系，确定出声场向目标方向移动的目标速度。在一些实施例中，目标方向可以为车辆200的前部朝向后部的方向。

S3105、电子设备100利用目标扬声器组中的扬声器播放第二音频数据，以及，根据目标速度，调整第二音频数据中各个声道的增益，目标扬声器组中包括至少两个扬声器，目标扬声器组用于控制声场在目标方向上以目标速度移动。

在一些实施例中，可以预先设定声场的初始位置，比如车辆200初始位置可以为在车辆200中位于驾驶员前方的某个位置。在播放第二音频数据时，可以按照目标速度逐渐控制声场的位置由初始位置向车辆200的后部移动。示例性的，声场的位置可以理解为用户感知到的声源的位置。

举例来说，如图32所示，以车辆200中位于驾驶员前方布置有两个扬声器，且车辆200加速行驶为例，扬声器SP1布置在驾驶员的左前方，扬声器SP2布置在驾驶员的右前方。在图32的(A)中，位置3201所处的区域可以是声场的初始位置，该初始位置可以为默认的扬声器SP1和SP2对应的音频信号的增益，且两者播放声音时声场的位置。在车辆200加速行驶过程中，可以由声场移动的目标速度确定出下一时刻声场的位置，比如在图32的(B)中的位置3202所处的区域。此时，通过调整扬声器SP1和SP2对应的音频信号的增益可以在位置3202处虚拟出一个虚拟的扬声器VSP1。同时，利用扬声器SP1对应的音频信号所需调整的增益对第二音频数据中相应的声道的增益进行调整；以及利用扬声器SP2对应的音频信号所需调整的增益对第二音频数据中相应的声道的增益进行调整，从而完成对第二音频数据中各个声道的增益的调整。接着，电子设备100可以利用扬声器SP1和SP2播放该第二音频数据。这样，驾驶员听到声音等效于是在位置3202处播放。由此即实现了声场在空间中的移动。其中，扬声器SP1和扬声器SP2即为目标扬声器组。另外，电子设备100除了基于各个扬声器对应的音频信号所需调整的增益，对第二音频数据进行处理外，还可以按照各个扬声器对应的音频信号所需调整的增益，分别调整相应的扬声器的音量，并播放第二音频数据，由此以实现声场的移动。在一些实施例中，在由多个真实的扬声器虚拟出一个扬声器时，可以但不限于利用向量基础振幅平移(vector base amplitude panning，VBAP)算法进行操作。其中，基于VBAP算法构建虚拟的扬声器的过程可以参见前述3.1的场景中的描述，此处不再赘述。另外，也可以由预先设定的距离增益模型，确定出目标扬声器组中各个扬声器对应的音频信号的增益，并基于该增益对第二音频数据进行调整，从而虚拟出一个扬声器。例如，继续参阅4的(B)，若用户U11与位置3201间的距离为L1，用户U11与位置3202间的距离为L2，则在位置3202处虚拟出一个扬声器时，扬声器SP1和SP2对应的音频信号所需调整的增益可以为g＝L2/L1。其中，距离增益模型为gi＝x2/x1，x1为声场的初始位置与基准点之间的距离，x2为声场的当前位置与基准点之间的距离，在图32的(B)中用户U11所处的位置为基准点。

在控制声场移动时，除了图32中所描述的方式外，还可以通过其他的方式进行移动，此处不做限定。例如，当车辆200的两侧均布置有多个扬声器时，可以分别在每侧均虚拟出一个虚拟扬声器，再利用该虚拟扬声器播放第二音频数据。

举例来说，如图33所示，以车辆200的两侧均布置有两个扬声器，且车辆200加速行驶为例，扬声器SP1布置在驾驶员的左前方，扬声器SP2布置在驾驶员的右前方，扬声器SP3布置在驾驶员的正左方，扬声器SP4布置在驾驶员的正右方。在图33的(A)中，位置3301所处的区域可以是声场的初始位置，该初始位置可以为默认的扬声器SP1、SP2、SP3和SP4对应的音频信号的增益，且两者播放声音时声场的位置。在车辆200加速行驶过程中，可以由声场移动的目标速度确定出下一时刻声场的位置，比如在图33的(B)中的位置3302所处的区域。此时，通过调整扬声器SP1和SP3对应的音频信号的增益可以在车辆200的左侧处虚拟出一个虚拟的扬声器VSP1；通过调整扬声器SP2和SP4对应的音频信号的增益可以在车辆200的右侧虚拟出一个虚拟的扬声器VSP2。其中，确定扬声器SP1、SP2、SP3和SP4对应的音频信号所需调整的增益的方式，可以参见图32中所描述的确定方式，比如，基于距离增益模型确定等，详见前述描述，此处不再赘述。进一步地，可以利用扬声器SP1对应的音频信号所需调整的增益对第二音频数据中相应的声道的增益进行调整；利用扬声器SP2对应的音频信号所需调整的增益对第二音频数据中相应的声道的增益进行调整；利用扬声器SP3对应的音频信号所需调整的增益对第二音频数据中相应的声道的增益进行调整；利用扬声器SP4对应的音频信号所需调整的增益对第二音频数据中相应的声道的增益进行调整。接着，电子设备100可以通过扬声器SP1、SP2、SP3和SP4播放第二音频数据。这样，驾驶员听到声音等效于是由虚拟的扬声器VSP1和VSP2播放。由此即实现了声场在空间中的移动。其中，扬声器SP1、扬声器SP2、扬声器SP3和扬声器SP4即为目标扬声器组。另外，电子设备100除了基于各个扬声器对应的音频信号所需调整的增益，对第二音频数据进行处理外，还可以按照各个扬声器对应的音频信号所需调整的增益，分别调整相应的扬声器的音量，并，由此以实现声场的移动。

在一些实施例中，可以先根据目标速度，确定目标音频数据的声源的虚拟位置。然后，在根据虚拟位置，从车辆中筛选出控制声场移动的扬声器。接着，可以根据该虚拟位置，确定筛选出的多个扬声器对应的音频信号的所需调整的目标增益，得到F个目标增益，F≥2。接着，可以根据F个目标增益，调整第二音频数据中各个声道的增益，以得到目标音频数据。最后，可以利用筛选出的扬声器播放该目标音频数据。其中，筛选出的扬声器即为目标扬声器组。

在一些实施例中，在控制声场移动过程中，还可以根据目标速度，用户的位置、声场的初始位置等，对第二音频数据进行多普勒处理，从而使得用户听到的声音存在声调变化的过程，提升用户体验。

由此，在用户驾驶车辆过程中，根据车辆中的扬声器控制车辆中声场的移动，使得声浪声音可以产生空间上的变化，从而使得车辆的内部可以出现多普勒效应，进而使得车辆所播放的声浪声音与真实驾驶状态相符，使得听感更真实，提升了用户体验。

在一些实施例中，为了能够带来视觉上的体验，还可以控制车辆200中氛围灯的颜色跟随车辆200的加速时长逐渐变化。例如，如图34所示，可以随着加速时长的增加，控制氛围灯的颜色逐渐由浅色渐变为深色，比如：加速时氛围灯的颜色由淡黄逐渐变为深黄，最后变成变红等。在一些实施例中，可以控制氛围灯颜色颜色变化的速度与声场移动的目标速度相同，以使得车辆200中的空间听感和空间视感相对应，提升用户体验。在一些实施例中，车辆200中的氛围灯可以是可以呈现渐变色的灯带。

在一些实施例中，为了使得由目标音频数据产生的声音的听感更优美，还可以在不同的速度区间段添加不同的底噪(即背景噪音)。示例性的，可以在不同速度范围内选取不同的音频作为底噪混合播放。例如：在车辆的行驶速度小于50km/h时，将由音频1提取到的音频粒子作为底噪，并与目标音频数据混音播放；在车辆的行驶速度小于100km/h且大于50km/H时，将由音频2提取到的音频粒子作为底噪，并与目标音频数据混音播放。其中，音频1和音频2可以为预先设定的音频，不同的速度区间可以对应有不同的音频粒子，这些音频粒子主要是用于作为底噪使用。

在一些实施例中，前述的方法，除了可以由车辆中配置的电子设备(比如车载终端等)执行外，还可以由位于车辆中，且与车辆分离的电子设备(比如手机等)执行。当由与车辆分离的电子设备执行时，可以预先在该电子设备中配置好车辆中扬声器的布置位置，以使得该电子设备可以确定出各个扬声器对应的音频信号所需调整的增益。在这种实现方式中，车辆的行驶速度可以由车辆传输至电子设备，也可以通过电子设备自己去感知，此处不做限定。另外，在这种实现方式中，电子设备可以先调整第二音频数据中各个声道的增益，再将调整后的音频数据发送至车辆进行播放。

此外，前述的方法，也可以根据实际情况，选择部分由车辆或者集成在车辆中的电子设备(比如车载终端等)执行，另一部分由与车辆分离的电子设备(比如手机等)执行，即前述方法中各个步骤的执行主体可以根据需求进行适应性调整，且调整后的方案仍在本申请的保护范围之内。对于调整执行主体后的方案，可以参考前述方法中的描述，此处就不在一一赘述。

5、驾车，并利用车辆中的电子设备进行导航，且驾驶员出现驾驶疲劳的场景。

示例性的，图35示出了本申请一些实施例中的一种应用场景。如图35所示，在驾驶员A驾驶车辆200前往目的地的过程中，驾驶员A可以利用位于车辆200中的电子设备100导航至目的地。其中，当驾驶员A出现驾驶疲劳时，可以改变电子设备100导航播报的音频数据的特征参数(比如音调、增益等)，使得驾驶员在听觉的冲击下提高注意力，实现安全驾驶。

在图35中，电子设备100位于车辆200中，其可以为集成在车辆200中的设备，比如车载终端，也可以为与车辆200分离的设备，比如驾驶员A的手机等，此处不做限定。当电子设备100集成在车辆200中时，电子设备100可以直接利用车辆200中的扬声器播报其所需播报的音频数据。当电子设备100与车辆200分离布置时，电子设备100与车辆200间可以但不限于通过短距通信(比如蓝牙等)的方式建立连接。其中，当电子设备100与车辆200间分离布置时，电子设备100可以将其所需播报的音频数据传输至车辆200，并通过车辆200上的扬声器进行播报，或者，电子设备100可以通过其内置的扬声器播报其所需播报的音频数据。

另外，车辆200的内部可以设置有摄像头等图像采集装置，以采集驾驶员的面部数据。此外，车辆200的内部还可以设置有扬声器，电子设备100中所需播报的导航音可以通过车辆200上的扬声器播报。在一些实施例中，在车辆200的外部可以设置有用于采集路况信息的传感器(比如雷达、摄像头等)。

示例性的，图36示出了本申请一些实施例中的一种声音处理方法。在图36中，电子设备100可以为集成在车辆200中的设备，比如车载终端，也可以为与车辆200分离的设备，比如驾驶员A的手机等。如图36所示，该方法可以包括以下步骤：

S3601、电子设备100确定驾驶员的疲劳等级。

本实施例中，在车辆200中可以配置有图像采集装置，比如摄像头等。通过该图像采集装置可以实时采集或者周期性采集(比如每隔2秒，3秒或5秒采集一次等)驾驶员A的面部数据，比如：眼睛、嘴巴等。其中，车辆200可以将其上图像采集装置采集到的一定时长(比如5秒等)的驾驶员A的面部数据传输至电子设备100。示例性的，车辆200可以基于动态滑窗的方式缓存短时间(5s或者10s)采集到的面部数据。比如，车辆200可以将其采集到的视频中的某个时间段(比如：1s至5s，2s至6s，或者3s至7s等)的数据，作为所需的驾驶员A的面部数据。

电子设备100获取到驾驶员A的面部数据后，可以将其获取到的面部数据输入至预先训练的疲劳监测模型中，以由疲劳监测模型输出驾驶员A的疲劳等级。在一些实施例中，疲劳监测模型可以但不限于是基于卷积神经网络(convolutional neural network,CNN)训练得到。

作为一种可能的实现方式，可以基于预设时长内驾驶员A的眨眼次数、打哈欠次数或者点头次数等与疲劳等级间的映射关系，确定出驾驶员A的疲劳等级。

举例来说，以眨眼次数为例，如表1所示，表1中示出的是眨眼次数与疲劳等级之间的映射关系。其中，当基于驾驶员A的面部数据检测出10秒内驾驶员A的眨眼次数为10次时，由表1中可以确定出驾驶员A的疲劳等级为3级。可以理解，疲劳等级越高，表示驾驶员A在预设时间段内越疲劳。

表1

S3602、电子设备100根据疲劳等级，确定第一特征参数的目标调整值，第一特征参数为当前所需播放的音频数据的特征参数。

本实施例中，电子设备100确定出驾驶员A的疲劳等级后，可以查询预先设定的疲劳等级与特征参数的调整值之间的映射关系，确定出当前所需播放的音频数据的特征参数的目标调整值。在一些实施例中，特征参数可以包括：音调和/或响度等。

作为一种可能的实现方式，电子设备100可以根据疲劳等级和预先设定的特征参数对应的关系表达式，确定出目标调整值。

示例性的，疲劳等级越高，音调的目标调整值越高，带给用户的听感刺激性越强。疲劳等级越高，响度的目标调整值越高，听感响度越大。举例来说，若音调对应的关系表达式可以为S＝0.2*x²+1,响度对应的关系表达式可以为G＝0.5*x+1，其中，x为疲劳等级，则当疲劳等级为1级时，音调的目标调整值为1.2，响度的目标调整值为1.5。

S3603、电子设备100根据目标调整值，对当前所需播放的音频数据进行处理，得到目标音频数据，其中，目标音频数据的特征参数的值高于第一特征参数的值。

本实施例中，电子设备100可以调整当前所需播报的导航音的音频数据的音调和/或响度等，以得到目标音频数据。其中，目标音频数据的特征参数的值高于第一特征参数的值。例如，当特征参数为响度，且响度的单位用标准化值(比如放大倍数等)表示时，若目标调整值为1.5，电子设备100可以对当前所需播报的导航音的音频数据的响度进行调整，且调整后的响度为原始的增益的1.5倍；若目标调整值为10，且响度的单位用分贝表示时，电子设备100可以对当前所需播报的导航音的音频数据的响度进行调整，且调整后的响度为原始的音量响度和目标调整值之和。当特征参数为音调时，若目标调整值为1.2，电子设备100可以基于变调算法将当前所需播报的导航音的音频数据的音调升高至原始的音调的1.2倍。示例性的，变调算法可以为同步波形叠加法(synchronized overlap-add,SOLA)、固定同步波形叠加法(synchronized overlap-add and fixed synthesis,SOLAFS)、时域基音同步叠加法(time-domain pitch synchronized overlap-add,TD-PSOLA)、波形相似叠加法(waveform similarity overlap-and-add,WSOLA)等时域法，也可以为基音同步波形叠加算法(pitch-synchronized overlap-add,PSOLA)等频域法。

在一些实施例中，为了保证当前所需播报的导航音的清晰度，可以采用变调不变速的方式对当前所需播报的导航音的音频数据的音调进行处理。

为便于理解，下面以采用时域法实现变调不变速为例进行说明。在采用时域法调整时，一般可以采用“变速不变调+重采样”的方式来达到变调不变速的效果。其中，可以先对当前所需播报的导航音的音频数据进行变速不变调处理，然后再进行重采样处理。

对于变速不变调处理，如图37的(a)所示，可以先在原始时域x上对当前所需播报的导航音的音频数据进行分帧处理。接着，如图37的(b)所示，可以取出一帧数据(即x_m)，以及将该帧数据添加至时域y上。然后，如图37的(c)所示，可以间隔固定的采样点数H_a取出另一帧数据(即x_m+1)。最后，如图37的(d)所示，可以将图37的(b)中取出的一帧数据(即x_m)和图37的(c)中取出的另一帧数据(即x_m+1)进行波形叠加，即可以得到由x_m和x_m+1重建的语音，即时域y上的音频数据。应理解的是，在重建语音过程中，可以每间隔固定的采样点数H_a均取一帧数据，并将取出的数据进行叠加，从而得到重建后的所需播报的导航音的音频数据。其中，H_a的值可以预先设定。另外，通过上述方式重建的音频数据时，重建后的音频数据所包含的帧数会减少，且采样点减少，但采样率与原始的音频数据的采样率一样，因此，在播放时声音的速度会变快，从而达到了变速不变调的目的。

对于重采样，可以选定相应的重采样因子P/Q，实现P/Q倍的重采样，从而使得重采样后的语速和音调变为原来的Q/P倍。其中，P为上采样因子，Q为下采样因子。重采样的过程可以包括上采样过程和下采样过程。其中，上采样的过程是：向原始信号中各个相邻的两个采样点间均内插(P-1)个采样点，从而使得原始信号的基音周期变为原来的P倍，时长变为原来的P倍，即基频变为原来的1/P倍，音调降为原来的1/P倍，语速变为原来的1/P倍。下采样的过程是：在原始信号中，每间隔(Q-1)个采样点抽取一个采样点，从而使得基音周期长度变为原来的1/Q倍，时长变为原来的1/Q倍，即基频变为原来的Q倍，音调升为原来的Q倍，语速变为原来的Q倍。通过按照重采样因子P/Q对变速不变调后的音频数据进行重采样，即可以将音频数据的语速和音调均调制为原始的Q/P倍。其中，重采样因子P/Q可以由音调对应的调整值得到，例如，当音调对应的目标调整值为1.5时，则重采样因子P/Q＝1/1.5＝2/3。

S3604、电子设备100播放目标音频数据。

本实施例中，电子设备100在由当前所需播报的导航音的音频数据得到目标音频数据后，即可以播放目标音频数据。由于目标音频数据的特征参数的值高于第一特征参数(即当前所需播报的导航音的音频数据的特征参数)的值，因此可以达到提醒驾驶员的目的。例如，当播放的音频数据的音调较高和/或声音响度较高时，驾驶员听到的声音将比较刺耳，这样即可以达到刺激驾驶员的目的，从而提高驾驶员的注意力。在一些实施例中，当电子设备100未集成在车辆200中时，电子设备100可以通过其自身的扬声器播放该目标音频数据，也可以将该目标音频数据传输至车辆200，并由车辆200的扬声器进行播放。当电子设备100集成在车辆200中时，电子设备100可以通过车辆200的扬声器播放目标音频数据。

由此，当检测到驾驶员出现驾驶疲劳时，可以根据驾驶员的疲劳等级改变电子设备100导航播报的音频数据的特征参数(比如音调、响度等)，从而使得播放的音频数据能够在听觉上对驾驶员产生冲击，进而提高驾驶员的注意力，实现安全驾驶。

在一些实施例中，电子设备100还可以根据疲劳等级确定出相应的提示语音，以及基于预先设定的播报顺序播报目标音频数据和提示语音，从而使得播报方式和语言更具生活化和人性化，提升用户体验。另外，若当前不需要播报导航音，但已根据疲劳等级等级确定出相应的提示语音，电子设备100则可以直接播放提示语音。示例性的，电子设备100可以根据疲劳等级查询预先设定的疲劳等级和提示语音之间的映射关系，确定出当前所需的提示语音。可选的，各个疲劳等级对应的提示语音可以是用户预先设定的，也可以是电子设备100中预设的模板语句。

举例来说，如表3所示，当疲劳等级为2级时，可以确定出提示语音为“注意！驾驶员已中度疲劳，请开窗通风”。此时，若目标音频数据为“前方50米请左转”，电子设备100所需播报的音频数据可以为“前方50米请左转，注意！驾驶员已中度疲劳，请开窗通风”。

表2

另外，若当前没有所需播报的导航音，电子设备100可以基于疲劳等级，确定出相应的提示语音，并播报该提示语音。

此外，电子设备100还可以根据疲劳等级和导航中的地图信息，确定出所需播报的提示语音。例如，继续参阅表3，当疲劳等级为3级时，所需播报的提示语音为“注意！注意！驾驶人员已极度疲劳，可于xxx米远的xxx路口/超市/中转站停车休息”。当电子设备100根据导航中的地图信息确定出在500米远的位置存在服务区时，电子设备100可以确定所需播报的提示语音为“注意！注意！驾驶人员已极度疲劳，可于500米远的服务区停车休息”。其中，电子设备100可以将由导航中的地图信息确定出的“500米远的服务区”，与根据疲劳等级确定出的提示语音“注意！注意！驾驶人员已极度疲劳，可于xxx米远的xxx路口/超市/中转站停车休息”进行拼接，以得到其最终所需播报的提示语音。

示例性的，对于音频拼接过程，将一段音频数据的脉冲编码调制(pulse code modulation，PCM)数据，插入到另一段音频数据的PCM数据中的某个时间点上，即完成两个音频数据的拼接。举例来说，假设一段音频数据A为[1,2,3,4,5]，另一段音频数据B为[7,8,9]，若需要将音频数据B插入到音频数据A中的“3”和“4”之间，则可以将“7”、“8”、“9”插入到到“3”和“4”之间，从而将音频数据A和B拼接在一起。

在一些实施例中，为进一步达到提高驾驶员的注意力的目的，电子设备100还可以根据疲劳等级，确定出设置于车辆200中的信号灯的颜色和/或闪烁频率等；以及，控制车辆200中的信号灯以确定出的颜色和/或闪烁频率工作，从而在视觉上对驾驶员产生冲击，进而提高驾驶员的注意力，实现安全驾驶，并与导航声音实现视觉和听觉的同步告警。示例性的，电子设备100可以基于确定出的疲劳等级，查询预先设定的疲劳等级与信号灯间的映射关系，确定出信号灯的颜色和/或闪烁频率等。示例性的，疲劳等级越高，信号灯的色彩可以愈发明亮鲜艳，信号灯的闪烁频率可以越高。例如，如表2所示，表2示出了疲劳等级与信号灯的颜色和闪烁频率之间的映射关系，当确定出的疲劳等级为2级时，可以确定出信号灯的颜色为黄色，闪烁频率为每分钟闪烁60次。

表3

在一些实施例中，当车辆200处于自动驾驶状态时，此时一般不需要驾驶员集中注意力。但当路况较差(比如事故多发路段)、或者处于需要提醒用户的关键路段(比如需转弯的路口等)时，往往需要驾驶员操控车辆。因此，为了提升车辆在自动驾驶时的安全性，电子设备100在车辆200处于自动驾驶状态时，可以结合车辆200外部的路况信息，播报目标音频数据。另外，当车辆200未处于自动驾驶状态时，若车辆200当前行驶的路况较差或者处于需要提醒用户的关键路段时，电子设备100也可以播放目标音频数据，以提醒驾驶员集中注意力。

作为一种可能的实现方式，当驾驶员在车辆200上触发自动驾驶功能后，车辆200可以将其处于自动驾驶状态的信息通知电子设备100。这样，电子设备100即可以获知到车辆200处于自动驾驶状态。

另外，车辆200可以利用其外部的传感器(比如雷达、摄像头等)采集其外部的路况信息，以及将采集到的信息传输至电子设备100。电子设备100获取到车辆200外部的路况信息后，可以在路况较差时再播报目标音频数据。

示例性的，图38示出了本申请一些实施例中的一种声音处理方法。在图38中，电子设备100为与车辆200分离的设备，比如手机等，电子设备100和车辆200之间通过蓝牙等短距通信方式建立连接。在图38中，驾驶员使用电子设备100进行导航。在图38中，S3801、S3802、S3804、S3805可以参见图36中的相关描述，此处不再赘述。如图38所示，该方法可以包括以下步骤：

S3801、车辆200获取驾驶员的面部数据。

S3802、车辆200根据驾驶员的面部数据，确定驾驶员的疲劳等级。

S3803、车辆200将驾驶员的疲劳等级发送至电子设备100。

本实施例中，车辆200确定出驾驶员的疲劳等级后，可以将该疲劳等级发送至电子设备100。

另一些实施例中，车辆200也可以直接将步骤S3801中获取的驾驶员的面部数据发送给电子设备100。进一步地，电子设备100可以根据驾驶员的面部数据，确定驾驶员的疲劳等级。

S3804、电子设备100根据疲劳等级，确定第一特征参数的目标调整值，第一特征参数为当前所需播放的音频数据的特征参数。

S3805、电子设备100根据目标调整值，对当前所需播放的音频数据进行处理，得到目标音频数据，其中，目标音频数据的特征参数的值高于第一特征参数的值。

S3806、电子设备100将目标音频数据发送至车辆200。

本实施例中，电子设备100确定出目标音频数据后，可以将该目标音频数据发送至车辆200。S3807、车辆200播放目标音频数据。本实施例中，车辆200获取到目标音频数据后，可以播放该目标音频数据。

另一些实施例中，步骤S3806中，电子设备100也可以通过其自身的扬声器播放该目标音频数据，即电子设备100不需要将目标音频数据发送至车辆200。

示例性的，图39示出了本申请一些实施例中的一种声音处理方法。在图39中，电子设备100为与车辆200分离的设备，比如手机等，电子设备100和车辆200之间通过蓝牙等短距通信方式建立连接。在图39中，驾驶员使用电子设备100进行导航。在图39中，S3901至S3906，可以参见前述的相关描述，此处不再赘述。如图39所示，该方法可以包括以下步骤：

S3901、车辆200获取驾驶员的面部数据。

S3902、车辆200根据驾驶员的面部数据，确定驾驶员的疲劳等级。

S3903、车辆200根据疲劳等级，确定第一特征参数的目标调整值，第一特征参数为当前所需播放的音频数据的特征参数。

S3904、电子设备100将待播放的音频数据发送至车辆200。

S3905、车辆200根据目标调整值，对待播放的音频数据进行处理，得到目标音频数据，其中，目标音频数据的特征参数的值高于第一特征参数的值。

S3906、车辆200播放目标音频数据。

另一些实施例中，步骤S3906中，车辆200也可以将目标音频数据发送至电子设备100，使得电子设备100播放该目标音频数据。

示例性的，图40示出了本申请一些实施例中的一种声音处理方法。在图40中，电子设备100为与车辆200分离的设备，比如手机等，电子设备100和车辆200之间通过蓝牙等短距通信方式建立连接。在图40中，驾驶员使用电子设备100进行导航。在图40中，S4001至S4007，可以参见前述的相关描述，此处不再赘述。如图40所示，该方法可以包括以下步骤：

S4001、车辆200获取驾驶员的面部数据。

S4002、车辆200根据驾驶员的面部数据，确定驾驶员的疲劳等级。

S4003、车辆200根据疲劳等级，确定第一特征参数的目标调整值，第一特征参数为当前所需播放的音频数据的特征参数。

S4004、车辆200将目标调整值发送至电子设备100。

S4005、电子设备100根据目标调整值，对待播放的音频数据进行处理，得到目标音频数据，其中，目标音频数据的特征参数的值高于第一特征参数的值。

S4006、电子设备100将目标音频数据发送至车辆200。

S4007、车辆200播放目标音频数据。

另一些实施例中，步骤S4006中，电子设备100也可以通过其自身的扬声器播放该目标音频数据，即电子设备100不需要将目标音频数据发送至车辆200。

可以理解的是，上述图38至图40所示的实施例中，电子设备100和车辆200之间可以进行交互的数据包括但不限于驾驶员的面部数据、驾驶员的疲劳等级、第一特征参数的目标调整值、待播放的音频数据、目标音频数据等。也可以理解为，上述确定驾驶员的疲劳等级、确定第一特征参数的目标调整值、对待播放的音频数据进行处理等过程可以在电子设备100上完成，也可以在车辆在200上完成。例如，车辆200获取驾驶员的面部数据后，可以由车辆200确定驾驶员的疲劳等级，车辆200也可以将驾驶员的面部数据发送给电子设备100，由电子设备确定驾驶员的疲劳等级。又例如，车辆200可以根据驾驶员的疲劳等级，确定第一特征参数的目标调整值，并将该目标调整值发送给电子设备100，电子设备100也可以自己根据驾驶员的疲劳等级确定第一特征参数的目标调整值。本申请不一一列举。在一些可能的实现方式中，上述实施例中的各步骤可以根据实际情况适应性调整执行主体，调整后的方案仍在本申请的保护范围之内。

6、用户选择多种音频数据叠加播放的场景。

一般地，人们在休息时，可以通过播放白噪音的方式，以达到助眠的效果。但单一的播放白噪音，给用户带来的听觉体验较差。因此，在播放白噪音时，可以同时播放一些其他的声音，比如，同时播放用户喜欢的歌曲等。但目前，在同时播放白噪音和其他的声音时，均是简单的将两者进行混音，这使得两者的融合效果较差，进而给用户带来的听觉体验也相对较差。

有鉴于此，本申请实施例提供了一种声音处理方法。该方法可以基于用户选择的背景音(即前述的其他的声音)，对用户所选择的白噪音进行改造，从而使得两者可以更自然的融合在一起，进而给用户带来更好的听觉体验。

示例性的，图41示出了一种声音处理方法。可以理解，该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行，比如，可以但不限于通过音箱、手机等执行。在一些实施例中，该方法可以是在用户开启目标功能(比如：白噪音功能等)，且用户有播放音频数据的需求的情况下执行。例如，当该方法通过手机等具有显示屏的设备执行时，用户可以在设备的系统或者设备上的某个应用程序(application，APP)中开启目标功能，且用户可以使用该设备播放歌曲。当该方法通过音箱等不具有显示屏的设备执行时，用户可以通过与音箱等设备相连的其他的设备，对音箱等设备进行控制，以开启音箱等设备上的目标功能，且用户可以使用音箱等设备播放歌曲。

如图41所示，该声音处理方法可以包括以下步骤：

S4101、获取第一音频数据和第二音频数据。

本实施例中，第一音频数据可以为背景音，第二音频数据可以为白噪音。示例性的，背景音可以但不限于为某首歌曲。

在用户选定背景音和白噪音时，可以基于用户的选择，从网络上或者本地数据库中获取到第一音频数据和第二音频数据。示例性的，在电子设备(比如手机等)上可以配置有与播放音频数据相关的应用程序(application，APP)，用户可以在该APP上选择背景音和白噪音。

另外，在用户选定背景音时，可以基于用户的选择，从网络上或者本地数据库中获取到该背景音。同时，还可以基于该背景音，查询预先设定的背景音与白噪声之间的映射关系，从网络上或者本地数据库中获取到与该背景音适配的白噪音。

在一些实施例中，第一音频数据的第一时长可以与第二音频数据的第二时长相等，这样两者可以同步播放。

其中，当第二音频数据的第二时长大于第一音频数据的第一时长时，可以从第二音频数据中截取出与第一时长相等的时长的数据，并将截取到的数据作为所需的第二音频数据。例如，当第一时长为10秒，第二时长为20秒时，可以将第二音频数据中前10秒的数据作为所需的数据，或者，将第二音频数据中第5秒至第15秒的数据作为所需的数据。

当第二音频数据的第二时长小于第一音频数据的第一时长时，可将多个第二音频数据进行拼接，并从拼接后的数据中截取出与第一时长相等的时长的数据，并将截取到的数据作为所需的第二音频数据。

S4102、获取第一音频数据的目标音频特征，目标音频特征包括：各个时刻的响度和各个节拍的位置点。

本实施例中，对于各个时刻的响度，可以由第一音频数据在时域上的波形图，确定出各个时刻的波形的幅值，进而确定出各个时刻的响度。其中，一个幅值为一个时刻的响度。

对于各个节拍的位置点，可以将第一音频数据输入至预先训练得到的机器学习模型，以得到各个节拍的位置点；其中，机器学习模型可以基于深度学习神经网络训练得到。另外，还可以基于节拍检测算法(比如librosa等)，对第一音频数据进行处理，以得到第一音频数据中各个节拍的位置点。

S4103、根据目标音频特征，对第二音频数据进行处理，以得到第三音频数据。

本实施例中，可以基于第一音频数据中各个时刻的响度，并结合预先设定的噪音响度与音乐响度之间的比例关系，确定出第二音频数据中各个时刻对应的目标响度。进一步地，可以对第二音频数据中各个时刻的响度进行调整，以将其各个时刻的响度均调整至确定出的各个时刻对应的目标响度。例如，若第一音频数据中第一时刻的响度为10分贝，预先设定的噪音响度与音乐响度之间的比值为1/2，由此可以确定出第二音频数据中第一时刻的目标响度为5分贝。进一步地，可以将第二音频数据在第一时刻的响度调整至5分贝。

另外，可以基于各个节拍的位置点，对第二音频数据的音调进行调整，以使得第二音频数据的音调与第一音频数据的节奏相匹配。例如，当第一音频数据在某一时间段舒缓的时候，可以降低第二音频数据在该时间段的音调，从而使得第二音频数据也逐渐舒缓。

作为一种可能的实现方式，可以基于第一音频数据中相邻的两个节拍间的时间间隔，和，预先设定的基准节奏，确定出是否调整第二音频数据的音调，以及，在需要调整第二音频数据的音调时，确定是升高音调还是降低音调。

举例来说，假设预先设定的基准节奏为：每分钟的节拍数为30下。当第一音频数据中相邻的两个节拍间的时间间隔为1秒时，可以确定出这两个相邻的节拍对应的节奏为每分钟的节拍数为60下。此时，确定出的节奏大于基准节奏，表明在这两个相邻的节拍间第一音频数据的节奏较快。因此，可以第二音频数据中相同的时间段内的音调升高，从而使得在该时间段内第一音频数据和第二音频数据所表达的情感相同。

进一步地，在确定出需要调整第二音频数据的音调后，可以由相邻的两个节拍确定出的节奏，和，预先设定的节奏与音调调整间的映射关系，确定出第二音频数据中在这两个节拍对应的位置点内的音调所需调整的目标音调调整值。接着，可以基于该目标音调调整值，并利用变调算法，对第二音频数据中在这两个节拍对应的位置点内的数据的音调进行调整。示例性的，当目标音调调整值为0.8时，可以基于变调算法，将第二音频数据中在这两个节拍对应的位置点内的数据的音调降低至原始的音调的0.8倍。在一些实施例中，可以通过采用上采样的方式从所需调整的数据中抽取一定数量的采样点，以完成升高音调的目的。另外，也可以通过采用上采样的方式从所需调整的数据中插入一定数量的采样点，以完成降低音调的目的。

作为又一种可能的实现方式，可以基于第一音频数据中相邻的两个节拍间的时间间隔，和，预先设定的基准节奏，确定出是否调整第二音频数据的音速(即音频播放速度)，以及，在需要调整第二音频数据的音速时，确定是升高音速还是降低音速。对于确定升高音速还是降低音速的方式，可以参见前述的确定是升高音调还是降低音调的方式，此处不再赘述。

进一步地，在确定出需要调整第二音频数据的音速后，可以由相邻的两个节拍确定出的节奏，和，预先设定的节奏与音速调整间的映射关系，确定出第二音频数据中在这两个节拍对应的位置点内的音速所需调整的目标音速调整值。接着，可以基于该目标音速调整值，对第二音频数据中在这两个节拍对应的位置点内的数据的音速进行调整。示例性的，当目标音速调整值为0.8时，可以将第二音频数据中在这两个节拍对应的位置点内的数据的音速降低至原始的音速的0.8倍。在一些实施例中，可以通过采用上采样的方式从所需调整的数据中抽取一定数量的采样点，以完成升高音速的目的。另外，也可以通过采用上采样的方式从所需调整的数据中插入一定数量的采样点，以完成降低音速的目的。

可以理解的是，对于第二音频数据的音调和音速，可以同时调整，也可以择一调整，此处不做限定。

在基于目标音频特征，对第二音频数据进行处理后，即可以得到第三音频数据，并可以执行S4104。

S4104、播放目标音频数据，目标音频数据基于第一音频数据和第三音频数据得到。

本实施例中，可以通过混音算法对第一音频数据和第三音频数据进行混音处理，以得到目标音频数据。示例性的，当第一音频数据和第三音频数据的类型均为浮点(float)型时，可以直接将第一音频数据和第三音频数据叠加混合，以得到目标音频数据。当第一音频数据和第三音频数据的类型不是float型时，可以采用自适应加权混音算法、线性叠加求平均等混音算法，对第一音频数据和第三音频数据进行处理，以得到目标音频数据。

由此，基于第一音频数据的音频特征，对第二音频数据进行改造，从而使得两者可以更自然的融合在一起，进而给用户带来更好的听觉体验。

7、制作视频或动态图片的场景。

一般地，在制作视频或者动态图片的过程中，可以为视频或者动态图片中的对象增加空间音效，以使得用户在后续观看视频或动态图片时可以沉浸式地体验近似真实世界中的声音，从而带来更好的观看体验。在一些实施例中，制作视频可以是对原始的视频进行编辑，也可以是由多张图片生成一段视频，此处不做限定。动态图片可以理解为是图形交换格式(graphics interchange format，GIF)的文件。

有鉴于此，本申请实施例中还提供了一种声音处理方法，当用户在电子设备上制作视频或者动态图片时，可以根据自身需求为视频或动态图片中的目标对象添加空间音频，从而使得在视频或动态图片中目标对象的声音可以随着目标对象的运动而移动，进而使得用户听感更加真实，提升了观看体验。该声音处理方法对环境和信息采集设备无要求，且视频或动态图片中对象的音频位置与该对象的音频的实际位置相符，使得后续用户观看视频时不会出现听感与观感割裂的情况，提升了用户体验。

示例性的，图42示出了一种声音处理方法。可以理解，该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图42所示，该方法可以包括以下步骤：

S4201、确定N张图片，N≥2。

本实施例中，N张图片可以是用户选择的图片。例如：用户可以从手机等电子设备中选取N张图片，以由这N张图片制作视频。

N张图片也可以是一段时间内用户拍摄的图片。例如，当用户利用手机等电子设备拍摄图片后，可以将一周、一个月或者一年的图片确定为所需的N张图片。

N张图片亦可以是按照预设的采样频率从用户选择的目标视频中抽取到的图片。示例性的，在从目标视频中抽取N张图片的过程中，可以记录抽取到的每张图片对应的时刻。例如，若采样频率是每1秒(second，S)采集一张图片，且采集到的第一张图片的时刻为0s，则采集到的第二张图片的时刻为1s，采集到的第三张图片的时刻为2s，等等。

N张图片还可以是从动态图片中提取到的图片。在一些实施例中，动态图片可以理解为是由多张图片拼接形成，因此，N张图片可以是组成动态图片的多张图片。

S4202、确定N张图片中各张图片在目标视频中出现的时刻，目标视频基于N张图片得到。

本实施例中，可以基于默认的播放N张图片所需的播放时长，或者，基于用户设定的播放时长，并按照预设顺序，将N张图片在该播放时长上均匀布置，以等间隔播放各张图片。例如，若N＝10，且用户设定的播放时长为9s，则可以在0s、1s、2s，…，9s处分别放置一张图片播放。示例性的，预设顺序可以是基于拍摄图片或者提取到图片的时间顺序，也可以是用户指定的顺序，等等。可选地，目标视频的时长可以为默认的播放N张图片所需的播放时长，或者，用户设定的播放时长。

在一些实施例中，当N张图片是从用户选取的视频中抽取得到时，可以将每张图片在视频中对应的时刻，作为各张图片在目标视频中出现的时刻。此时，目标视频可以与用户选取的视频相同。

在一些实施例中，当N张图片是从动态图片中提取得到时，可以将每张图片在动态图片中对应出现的时刻，作为各张图片在目标视频中出现的时刻。此时，目标视频可以理解为是该动态图片。另外，还可以单独为各个图片设定一个时刻，并在后续将这些图片重新制作为视频或动态图片。可选地，目标视频的时长可以为播放动态图片所需的时长。

在一些实施例中，可以基于N张图片，筛选出一个与这些图片适配的音频数据。以及，根据确定出的音频数据，确定N张图片中各张图片在目标视频中出现的时刻。示例性的，可以将N张图片输入至人工智能(artificial intelligence，AI)模型(比如机器学习模型、神经网络模型等)，以由AI模型对N张图片进行处理，从而得到与这些图片适配的音频数据。其中，该音频数据可以是本地数据库中存储的数据，也可以是网络上的音频数据，此处不做限定。可选地，目标视频的时长可以为筛选出的音频数据的时长。

当获取到的音频数据的时长较长时，可以从中截取一段数据作为所需的音频数据。其中，可以但不限于将音频数据中的高潮部分作为所需的音频数据。

在获取到所需的音频数据后，可以对该音频数据进行分析，以确定出该音频数据中各个节拍的位置点，和/或，每个小节的位置点。其中，各个节拍的位置点可以理解为是各个节拍的起始位置的时间点，每个小节的位置点可以理解为是每个小节的起始位置的时间点。示例性的，可以通过AI模型、节拍提取算法等，提取到该音频数据中各个节拍的位置点，和/或，每个小节的位置点。

接着，可以获取确定出的音频数据的播放时长，并将N张图片等间隔均匀布置在该播放时长上。以及，基于确定出的各个节拍的位置点，和/或，每个小节的位置点，对N张图片中至少一部分图片的出现时刻进行调整，从而使得N张图片中的至少一部分图片出现的时刻可以与某些节拍的位置点或者某些小节的位置点一致，使得在听感的关键点处呈现视觉的冲击变化，即在听感的关键点处用户可以观看到图片，从而在视听上产生一致的冲击感，进而提升用户体验。

其中，当采用各个节拍的位置点对N张图片中至少一部分图片的出现时刻进行调整时，对于任意一张图片，当与该图片出现的时刻距离最近的一个节拍的位置点上未设置图片时，可以将该图片出现的时刻调整至该位置点上。

举例来说，如图43所示，假设总共确定出5个节拍的位置点，且有4张图片。如图43的(A)所示，在等间隔对4张图片进行布置后，图片1出现的时刻位于节拍0的位置点，图片4出现的时刻位于节拍5的位置点，图片2和图片3均未出现在相应的节拍的位置点上，且图片2距离节拍2的位置点最近，图片3距离节拍3的位置点最近。因此，如图43的(B)所示，可以将图片2出现的时刻调整至节拍2的位置点，以及，将图片3出现的时刻调整至节拍3的位置点。

另外，当相邻的两个节拍的位置点上均布置有图片，且这两个节拍的位置点之间仍存在其他的图片时，可以不调整这些图片出现的时刻，也可以在这两个节拍的位置点之间均匀布置这些图片，具体可根据实际情况而定，此处不做限定。

当采用每个小节的位置点对N张图片中至少一部分图片的出现时刻进行调整时，对于任意一张图片，当与该图片出现的时刻距离最近的一个小节开始的位置点上未设置图片时，可以将该图片出现的时刻调整至该位置点上。另外，当该图片出现的时刻与该小节结束的位置点间的距离，小于，该图片出现的时刻与该小节开始的位置点间的距离时，还可以将该图片出现的时刻调整至该小节结束时的位置点上。具体调整方式可以参考采用各个节拍的位置点时的调整方式，此处不再赘述。

在一些实施例中，除了可以由N张图片筛选出所需的音频数据外，还可以将用户指定的某个音频数据作为所需的音频数据。以及，按照前述描述的方式，确定N张图片中各张图片在目标视频中出现的时刻。

S4203、确定N张图片中各张图片内包含的目标对象，以得到M个目标对象。

本实施例中，可以将N张图片中的各张图片分别输入到预先训练得到的目标检测模型中，以通过目标检测模型对各张图片所包含的目标对象进行检测，从而获取到各张图片中包含的目标对象。示例性的，目标检测模型可以但不限于基于卷积神经网络(convolutional neural networks，CNN)训练得到。示例性的，目标对象可以理解为是图片中能够产生声音的对象，比如，当图片中包括飞机时，该图片中的目标对象可以为飞机。

作为一种可能的实现方式，还可以基于目标检测算法(比如YOLOv4等)，对各张图片进行处理，从而获取到各张图片中包含的目标对象。

作为另一种可能的实现方式，当基于目标检测模型或目标检测算法，获取到目标对象后，还可以向用户展示目标对象的选择界面，以供用户选择出其所需的目标对象。此时，目标对象为用户选择出的其所需的目标对象。

作为又一种可能的实现方式，还可以基于用户在图片上的选取操作，获取到各张图片中包含的目标对象。示例性的，在确定出N张图片后，可以向用户展示各张图片。用户在观看到某张图片时，其可以通过手动标记的方式在该图片中标记出目标对象。

S4204、确定M个目标对象在每张图片中的空间位置，以得到(M*N)个空间位置，以及，确定各个目标对象在目标视频中出现的时长，以得到M个第一时长。

本实施例中，对于确定M个目标对象在每张图片中的空间位置，可以以拍摄图片的设备的位置为中心构建一个三维坐标系。N张图片中的每张图片的中心位置即为三维坐标系的原点。在三维坐标系中，x轴和y轴组成的平面可以是图片所在的平面。在三维坐标系中，z轴可以表示深度，其描述的是目标对象到拍摄图片的设备的实际距离。目标对象在三维坐标系中的位置可以为(x_i，y_i，z_i)表示。其中，在坐标系确定后，x_i和y_i的值即可以确定出。对于z_i可以通过拍摄图片的设备上的飞行时间(time of flight，ToF)摄像头获取，或者，通过预先训练的深度检测模型获取。示例性的，深度检测模型可以但不限于基于卷积神经网络训练得到。应理解的是，本实施例中，目标对象的空间位置可以是指目标对象在三维坐标系中的位置。

在一些实施例中，当N张图片可以是用户选择的图片，或者，是一段时间内用户拍摄的图片时，可以按照每张图片的拍摄时间，对N张图片进行排序。然后，可以按照时间由远及近的方式，依次确定每张图片中所包含的目标对象，在各张图片中的空间位置。

其中，对于第i张图片中的第k个目标对象。当在第i张图片之前的图片中均不存在该第k个目标对象时，可以认为该第k个目标对象在第i张图片之前的每张图片中的空间位置均处于无穷远的位置处。应理解的是，在本实施例中，第i张图片可以是N张图片中的任意一张图片，第k个目标对象可以是第i张图片中的任意一个目标对象。

举例来说，参阅图44，图44的(A)所示的为第(i-1)张图片，图44的(B)所示的为第i张图片，图44的(C)所示的为第(i+1)张图片，同时，确定出的目标对象为图44的(B)中所示的小鸟4301。在图44的(A)所示的图片中不存在小鸟4301，且该图片的拍摄时间在图44的(B)所示的图片的拍摄时间之前，图44的(A)所示的图片之前不存在其他图片，因此，可以将小鸟4301在图44的(A)所示的图片的空间位置置于无穷远的位置处。

当在第(i+1)张图片中不存在该第k个目标对象时，可以将第(i+1)张图片上的某个边界上的位置作为该第k个目标对象在第(i+1)张图片中的空间位置。示例性的，边界上的位置可以是指定的某个边界上的某个位置，也可以是由第i张图片中确定出的目标对象的朝向上的边界上的某个位置。

举例来说，继续参阅图44，在图44的(C)所示的图片(即第(i+1)张图片)中不存在小鸟4301，且该图片的拍摄时间在图44的(B)所示的图片的拍摄时间之后，因此，可以将小鸟4301在图44的(C)所示的图片的空间位置置于该图片的某个边界位置处。由于在图44的(B)中，小鸟4301是朝向图片的左上方移动，因此，可以将图44的(C)所示的图片的左上方的某个边界处的位置(比如区域4302所示的位置)作为小鸟4301的空间位置。

当在第i张图片和第(i+1)张图片中均存在该第k个目标对象，且在第(i+2)张图片中不存在该第k个目标对象时，可以由第k个目标对象在第i张图片和第(i+1)张图片中的空间位置，确定出其移动方向，并将第(i+2)张图片中在该移动方向上的边界处的位置，作为该第k个目标对象在第(i+2)张图片中的空间位置。

举例来说，参阅图45，图45的(A)所示的为第i张图片，图45的(B)所示的为第(i+1)张图片，图45的(C)所示的为第(i+2)张图片，同时，确定出的目标对象为图45的(A)和(B)中所示的小鸟4501。在图45的(A)和(B)中均存在小鸟4501，但在图45的(C)中不存在小鸟4501。由图45的(A)和(B)可以确定出小鸟4501的移动方向是图4中箭头所指的方向。在图45的(C)中箭头所指的方向上边界的位置为区域42，因此可以将区域42作为该小鸟4501在第(i+2)张图片中的空间位置。

进一步地，当在第(i+3)张图片中也不存在该第k个目标对象时，可以根据目标对象的移动方向，移动速度，以及第(i+2)张图片和第(i+3)张图片间的时间间隔，在第(i+3)张图片之外确定出一个位置，并将该位置作为该第k个目标对象在第(i+3)张图片处的空间位置。

举例来说，继续参阅图45，图45的(D)所示的为第(i+3)张图片。在图45的(D)中也不存在小鸟4501。由图45的(A)和(B)可以确定出小鸟4501的移动方向(即图中箭头所指的方向)和移动速度。然后，由移动方向和移动速度，以及图45的(C)和(D)所示的图片间的时间间隔，可以确定出在图45的(D)中，小鸟4501能够移动到区域43所示的位置。因此，可以将区域43所示的位置作为小鸟4501在第(i+3)张图片处的空间位置。其中，对于相邻的两张图片间的时间间隔，详见下文描述。

在一些实施例中，对于第i张图片中的第k个目标对象。当在第i张图片之前的图片中均不存在该第k个目标对象时，除了可以将该第k个目标对象在第i张图片之前的每张图片中的空间位置均处于无穷远的位置处，还可以采用前述的确定第k个目标对象在第(i+j)张图片处的空间位置的方式确定，j≥1。具体地，对于第k个目标对象在第(i-1)张图片处的空间位置，可以将其置于第(i-1)张图片的边界的某个位置处，比如，可以将在第(i-1)张图片中，且位于第k个目标对象在第i张图片中朝向的反方向上的某个边界处的位置，作为第k个目标对象在第(i-1)张图片处的空间位置，详见前述的确定第k个目标对象在第(i+1)张图片处的空间位置的方式，此处不再赘述。

在一些实施例中，对于第i张图片中的第k个目标对象。当第(i+1)张图片至第(i+j)张图片中不存在第k个目标对象，j≥1，且第(i+j+1)张图片中存在第k个目标对象时，可以以第i张图片为基准，以及通过前述的确定第k个目标对象在第(i+j)张图片处的空间位置的方式，确定出第k个目标对象在第(i+1)张图片至第(i+j)张图片中各张图片中的空间位置，并得到一个空间位置集合{P_i+1，...，P_i+j}。其中，P_i+j为第k个目标对象在第(i+j)张图片中的空间位置。

同时，可以以第(i+j+1)张图片为基准，以及通过前述的确定第k个目标对象在第(i+j)张图片处的空间位置的方式，确定出第k个目标对象在第(i+1)张图片至第(i+j)张图片中各张图片中的空间位置，并得到一个空间位置集合{P′_i+1，...，P′_i+j}。其中，P′_i+j为第k个目标对象在第(i+j)张图片中的空间位置。

然后，可以根据空间位置集合{P_i+1，...，P_i+j}和空间位置集合{P′_i+1，...，P′_i+j}，确定出第k个目标对象在第(i+1)张图片至第(i+j)张图片中各张图片中的空间位置。

作为一种可能的实现方式，可以对第k个目标对象在同一张图片中的两个空间位置进行加权平均，并将得到的结果作为第k个目标对象在该图片中的空间位置。例如：对于第k个目标对象在第(i+1)张图片中的空间位置，该位置可以为(P_i+1+P′_i+1)/2。

作为另一种可能的实现方式，第k个目标对象在第(i+1)张图片至第(i+j)张图片中各张图片中均具有两个空间位置。因此，针对每张图片，均可以确定第k个目标对象在该张图片中的两个空间位置之间的距离，从而可以得到j个距离。

然后，可以从j个距离中选取出一个最短的距离(当然，也可以选用其他的距离，但最好是选用最短的距离，因为这样表明通过两种方式得到的空间位置相近，所以确定出的距离较为准确)，并将该距离对应的图片作为目标图片。

接着，可以对第k个目标对象在目标图片中的两个空间位置进行加权平均，并将得到的结果作为第k个目标对象在该目标图片中的空间位置。

接着，可以将第k个目标对象在第i张图片中的空间位置和在目标图片中的空间位置相连，得到目标连线，并在该目标连线上确定出第k个目标对象在第i张图片和目标图片之间的各张图片中的空间位置。例如，由第k个目标对象在第i张图片中的空间位置和在目标图片中的空间位置，以及，第i张图片和目标图片间的时间间隔，可以确定出第k个目标对象的移动速度。由该移动速度，以及，第i张图片和任意一张图片(即第i张图片和目标图片间的某张图片)间的时间间隔，可以确定出在该时间间隔内第k个目标对象的移动距离。以第k个目标对象在第i张图片中的空间位置为起点，并在目标连线上找到与该起点相距第k个目标对象的移动距离的位置点，该位置点即为第k个目标对象在该任意一张图片(即第i张图片和目标图片间的某张图片)上的空间位置。对于确定第k个目标对象在目标图片和第(i+j+1)张图片之间的各张图片中的空间位置，可以参考确定第k个目标对象在第i张图片和目标图片之间的各张图片中的空间位置的方式，此处不再赘述。

应理解的是，当N张图片是按照预设的采样频率从用户选择的目标视频中抽取到的图片，或者，是从动态图片中提取到的图片时，确定每张图片中所包含的目标对象在各张图片中的空间位置的方式，可以参考前述的N张图片是用户选择的图片的方式，此处不再赘述。

对于确定各个目标对象在目标视频中出现的时长，针对任意一个目标对象，可以将其首次出现的时刻与最后一张图片结束播放的时刻间的时长，作为其在目标视频中出现的时长。

此外，在确定各个目标对象在目标视频中出现的时长时，针对任意一个目标对象，还可以将目标视频的时长，作为其在目标视频中出现的时长。

S4205、根据M个目标对象在各张图片中的目标位置，以及N张图片中各个相邻的图片出现的时间间隔，确定各个目标对象在各个相邻的图片间的移动速度。

本实施例中，在确定出各个目标对象在每张图片中的空间位置，以及确定出N张图片中各张图片出现的时刻后，可以基于速度计算公式，由M个目标对象在各张图片中的目标位置，和N张图片中各个相邻的图片出现的时间间隔，确定出各个目标对象在各个相邻的图片间的移动速度。

举例来说，若目标对象p在第i个图像中的位置为P_i(x_i，y_i，z_i)，在第(i+1)个图像中的位置为P_i+1(x_i+1，y_i+1，z_i+1)，第i个图像出现的时刻为t_i，第(i+1)个图像出现的时刻为t_i+1,则目标对象p在第i个图像和第(i+1)个图像间的移动速度可以为V_i＝(p_i+1-p_i)/(t_i+1-t_i)。

S4206、根据M个目标对象，得到Q个第一音频数据，1≤Q≤M，其中，一个第一音频数据至少与一个目标对象相关联。

本实施例中，可以基于各个目标对象，查询预先设定的目标对象与音频数据间的映射关系，确定出各个目标对象对应的第一音频数据的标识；以及，基于确定出的各个第一音频数据的标识，从预先设定的音频库中筛选出各个目标对象对应的第一音频数据，以得到Q个第一音频数据；此时，Q＝M。示例性的，音频库中可以包括至少一个音频数据。

作为一种可能的实现方式，用户还可以从M个目标对象中选择出Q个目标对象，以及，为这Q个目标对象添加它们各自相关联的第一音频数据。其中，用户添加的第一音频数据是用户基于自身需求所选择的音频数据，比如，用户可以为飞机添加火车发出的声音，也可以为飞机添加飞机发出的声音，等。另外，用户添加的第一音频数据可以是本地音频库中的数据，也可以是网络上的数据，此处不做限定。

S4207、将各个第一音频数据的第二时长均调整至与相应的目标对象对应的第一时长相等，以得到Q个第二音频数据。

本实施例中，针对任意一个第一音频数据，当该第一音频数据的第二时长大于该第一音频数据对应的目标对象在目标视频中出现的第一时长时，可以从该第一音频数据中截取出与第一时长相等的时长的数据，从而得到第二音频数据。例如，当第一时长为10秒，第二时长为20秒时，可以将第一音频数据中前10秒的数据作为第二音频数据，或者，将第一音频数据中第5秒至第15秒的数据作为第二音频数据。

当该第一音频数据的第二时长小于该第一音频数据对应的目标对象在目标视频中出现的第一时长时，可以将多个该第一音频数据进行拼接，并从拼接后得到的音频数据中截取出与第一时长相等的时长的数据，从而得到第二音频数据。

S4208、根据各个目标对象对应的空间位置，以及各个目标对象在各个相邻的图片间的移动速度，分别对各个目标对象对应的第二音频数据进行处理，以得到Q个第三音频数据。

本实施例中，针对任意一个目标对象，可以基于该目标对象对应的各个空间位置，其在各个相邻的图片间的移动速度，以及其对应的第二音频数据的音频参数，并通过头相关传递函数(head related transfer function，HRTF)和多普勒算法，对其对应的第二音频数据进行处理，从而得到该目标对象对应的第三音频数据。其中，该第三音频数据是具有空间音效的音频数据。第二音频数据的音频参数可以包括采样率、声道数、比特率等。

举例来说，以第i张图片中的第k个目标对象为例，假设该第k个目标对象在第i张图片之前的均未出现，且在第i张图片之后的是朝向远离三维坐标系中原点的方向移动。当将第k个目标对象在第i张图片之前的图片处的位置均被置为无穷远时，可以在第i张图片出现之前，不播放第k个目标对象对应的音频数据，而从第i张图片开始播放第k个目标对象对应的音频数据，且在第i张图片之后，控制该目标对象的声音按照一定的速度逐渐远去。

当将第k个目标对象在第i张图片之前的图片处的位置为无穷远时，在第i张图片出现之前，可以控制该目标对象的声音按照一定的速度逐渐向用户身边移动，且在第i张图片之后，控制该目标对象的声音按照一定的速度逐渐远去。

在一些实施例中，当第k个目标对象是首次出现时，对于该目标对象对应的音频数据的声音大小，可以预先设定，也可以基于该目标对象所在的图片中的空间位置确定。比如，可以基于该目标对象在图片中的空间位置和三维坐标系的原点之间的距离，查询预先设定的距离和声音大小间的映射关系，确定出该目标对象在该图片中对应的音频数据的声音大小。

S4209、根据Q个第三音频数据和N张图片，得到目标视频。

本实施例中，可以基于混音算法对Q个第三音频数据进行混音处理，从而得到与N张图片相关的空间环境音频。另外，当在前述的S4202中，需要筛选出与N张图片适配的音频数据，或者，用户指定了某个音频数据时，还可以将这些音频数据与Q个第三音频数据进行混音处理，以得到与N张图片相关的空间环境音频。

在得到与N张图片相关的空间环境音频后，可以通过ffmpeg技术或者javaCV技术将空间环境音频与N张图片结合，从而生成带有空间音频的视频，即得到目标视频。

在一些实施例中，当N张图片是从某个视频中抽取得到的时，还可以将得到的空间环境音频与N张图片对应的视频合成，以生成带有空间音效的视频，即得到目标视频。

这样，由于最终获取到的目标视频是具有空间音效的视频，因此，在播放过程中，用户听到的与目标对象相关的声音是跟随目标对象运动而移动，从而做到了音随画动，让人感觉身临其境。

接下来，基于前述所描述的内容，本申请实施例还提供了一种声音处理方法。

示例性的，图46示出了一种声音处理方法。可以理解，该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图46所示，该方法可以包括以下步骤：

S4601、获取目标参数，目标参数包括与目标设备关联的环境信息和/或用户的状态信息。

本实施例中，与目标设备关联的环境信息可以包括以下一项或多项：

目标设备所处区域的环境数据；目标设备所处的环境中需同时播放第一音频数据和第二音频数据，且第一音频数据和第二音频数据均通过同一设备播放，其中，第一音频数据为第一时间段内持续性播放的音频数据，第二音频数据为第一时间段内偶发性播放的音频数据；目标设备在目标空间中的目标位置，目标空间中配置有至少一个扬声器；目标设备产生的画面在目标空间中的目标位置，目标空间中配置有至少一个扬声器；或者，搭载有目标设备的车辆的行驶速度。

与目标设备关联的用户的状态信息可以包括以下一项或多项：

目标设备与目标用户的头部间的目标距离，目标用户的头部在目标空间中的目标位置，其中，目标空间中配置有至少一个扬声器；用户的疲劳等级；用户选择的第一音频数据和第二音频数据；或者，用户选择的图片，视频，或者，用户为目标对象所添加的音频数据。

对于获取目标参数的方式可以参见前述的实施例中的描述，此处不再赘述。

S4602、根据目标参数，对原始音频数据进行处理，得到目标音频数据，目标音频数据与环境信息和/或状态信息相匹配。

本实施例中，获取到目标参数后，可以根据目标参数对原始音频数据进行处理，以使得原始音频数据能够与目标参数相匹配，由此以构建出与当前环境或当前用户的状态适配的待播放的音频数据，从而使得待播放的音频数据能够与当前环境或当前用户的状态相融合，提升了用户体验。其中，在对原始音频数据处理后，可以得到目标音频数据，该目标音频数据可以与环境信息和/或状态信息相匹配。

S4603、输出目标音频数据。

本实施例中，在获取到目标音频数据后，可以输出该目标音频数据。

这样，由于目标音频数据是与当前环境或当前用户的状态相适配，所以，目标音频数据能够与当前环境或当前用户的状态相融合，提升了用户体验。

可以理解的是，上述各个实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。此外，在一些可能的实现方式中，上述实施例中的各步骤可以根据实际情况选择性执行，可以部分执行，也可以全部执行，此处不做限定。本申请的任意实施例的任意特征的全部或部分在不矛盾的前提下，可以自由地、任何地组合。组合后的技术方案也在本申请的范围之内。

可以理解的是，本申请实施例中涉及的电子设备100可以是手机、平板电脑、桌面型计算机、膝上型计算机、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本，以及蜂窝电话、个人数字助理(personal digital assistant，PDA)、增强现实(augmented reality，AR)设备、虚拟现实(virtual reality，VR)设备、人工智能(artificial intelligence,AI)设备、可穿戴式设备、车载设备、智能家居设备和/或智慧城市设备等。电子设备的示例性实施例包括但不限于搭载iOS、android、Windows、鸿蒙系统(Harmony OS)或者其他操作系统的电子设备，其中，本申请实施例中对该电子设备的具体类型不作特殊限制。

下面介绍本申请实施例涉及的电子设备100。图47示出了电子设备100的结构示意图。请参阅图47，电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processing unit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuit sound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purpose input/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。在一些实施例中，处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K，充电器，闪光灯，摄像头193等。例如：处理器110可以通过I2C接口耦合触摸传感器180K，使处理器110与触摸传感器180K通过I2C总线接口通信，实现电子设备100的触摸功能。

I2S接口可以用于音频通信。在一些实施例中，处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合，实现处理器110与音频模块170之间的通信。在一些实施例中，音频模块170可以通过I2S接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。

PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中，音频模块170也可以通过PCM接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。在一些实施例中，音频模块170可以用于对音频信号编码和解码。在一些实施例中，音频模块170还可以用于对音频信号进行音频处理，比如，调整音频信号的增益等。

UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，UART接口通常被用于连接处理器110与无线通信模块160。例如：处理器110通过UART接口与无线通信模块160中的蓝牙模块通信，实现蓝牙功能。在一些实施例中，音频模块170可以通过UART接口向无线通信模块160传递音频信号，实现通过蓝牙耳机播放音乐的功能。

MIPI接口可以被用于连接处理器110与显示屏194，摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(display serial interface，DSI)等。在一些实施例中，处理器110和摄像头193通过CSI接口通信，实现电子设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信，实现电子设备100的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110与摄像头193，显示屏194，无线通信模块160，音频模块170，传感器模块180等。GPIO接口还可以被配置为I2C接口，I2S接口，UART接口，MIPI接口等。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电，也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他电子设备，例如AR设备等。

可以理解的是，本发明实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为电子设备供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，显示屏194，摄像头193，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wireless local area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(code division multiple access，CDMA)，宽带码分多址(wideband code division multiple access，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long termevolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidou navigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellite system，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emitting diode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emitting diode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot light emitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，颜色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。处理器110通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，执行电子设备100的各种功能应用以及数据处理。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A，电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194，电子设备100根据压力传感器180A检测所述触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器180B检测电子设备100抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消电子设备100的抖动，实现防抖。陀螺仪传感器180B还可以用于导航，体感游戏场景。

气压传感器180C用于测量气压。在一些实施例中，电子设备100通过气压传感器180C测得的气压值计算海拔高度，辅助定位和导航。

磁传感器180D包括霍尔传感器。电子设备100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中，当电子设备100是翻盖机时，电子设备100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态，设置翻盖自动解锁等特性。

加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态，应用于横竖屏切换，计步器等应用。

距离传感器180F，用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中，拍摄场景，电子设备100可以利用距离传感器180F测距以实现快速对焦。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定电子设备100附近有物体。当检测到不充分的反射光时，电子设备100可以确定电子设备100附近没有物体。电子设备100可以利用接近光传感器180G检测用户手持电子设备100贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式，口袋模式自动解锁与锁屏。

环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测电子设备100是否在口袋里，以防误触。

指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器180J用于检测温度。在一些实施例中，电子设备100利用温度传感器180J检测的温度，执行温度处理策略。例如，当温度传感器180J上报的温度超过阈值，电子设备100执行降低位于温度传感器180J附近的处理器的性能，以便降低功耗实施热保护。在另一些实施例中，当温度低于另一阈值时，电子设备100对电池142加热，以避免低温导致电子设备100异常关机。在其他一些实施例中，当温度低于又一阈值时，电子设备100对电池142 的输出电压执行升压，以避免低温导致的异常关机。

触摸传感器180K，也称“触控器件”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于电子设备100的表面，与显示屏194所处的位置不同。

骨传导传感器180M可以获取振动信号。在一些实施例中，骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏，接收血压跳动信号。在一些实施例中，骨传导传感器180M也可以设置于耳机中，结合成骨传导耳机。音频模块170可以基于所述骨传导传感器180M获取的声部振动骨块的振动信号，解析出语音信号，实现语音功能。应用处理器可以基于所述骨传导传感器180M获取的血压跳动信号解析心率信息，实现心率检测功能。

在一些实施例中，电子设备100可以基于步行者航位推算(pedestrian dead reckoning，PDR)算法对至少一个传感器采集到的数据进行处理，以得到用户的运动状态，比如移动方向、移动速度等等。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入，产生与电子设备100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作，马达191也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同，也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。电子设备100通过SIM卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，电子设备100采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在电子设备100中，不能和电子设备100分离。

电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本申请实施例以分层架构的Android系统为例，示例性说明电子设备100的软件结构。

图48是本申请实施例的电子设备100的软件结构框图。分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。应用程序层可以包括一系列应用程序包。

如图48所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(application programming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图48所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(media libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

应理解，本申请实施例可以适用于Android、IOS或者鸿蒙等等系统中。

可以理解的是，本申请的实施例中的处理器可以是中央处理单元(central processing unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件，硬件部件或者其任意组合。通用处理器可以是微处理器，也可以是任何常规的处理器。

本申请的实施例中的方法步骤可以通过硬件的方式来实现，也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(random access memory，RAM)、闪存、只读存储器(read-only memory，ROM)、可编程只读存储器(programmable rom，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

可以理解的是，在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本申请的实施例的范围。

Claims

一种声音处理方法，其特征在于，所述方法包括：

获取目标参数，所述目标参数包括与目标设备关联的环境信息和/或用户的状态信息；

根据所述目标参数，对原始音频数据进行处理，得到目标音频数据，所述目标音频数据与所述环境信息和/或所述状态信息相匹配；

输出所述目标音频数据。
根据权利要求1所述的方法，其特征在于，所述目标参数包括所述环境信息，所述环境信息包括所述目标设备所处区域的环境数据；

所述根据所述目标参数，对原始音频数据进行处理，得到目标音频数据，具体包括：

根据所述环境数据，确定与所述环境数据相关联的N个声音对象，N≥1；

获取各个所述声音对象对应的白噪音，得到N个音频数据，每个所述音频数据均与一个所述声音对象关联；

将所述N个音频数据合成，得到所述目标音频数据。
根据权利要求2所述的方法，其特征在于，所述获取各个所述声音对象对应的白噪音，得到N个音频数据，具体包括：

基于所述N个声音对象，查询原子数据库，得到所述N个音频数据，其中，所述原子数据库中配置有各个单一对象在特定的一段时间内的音频数据。
根据权利要求2所述的方法，其特征在于，所述环境数据中包括环境声音；

所述获取各个所述声音对象对应的白噪音，得到N个音频数据，具体包括：

从所述环境声音中提取出M个所述声音对象的音频数据，以得到M个音频数据，0≤M≤N；

其中，当M＜N时，基于所述N个声音对象中剩余的声音对象，查询原子数据库，得到(N-M)个音频数据，其中，所述原子数据库中配置有各个单一对象在特定的一段时间内的音频数据。
根据权利要求4所述的方法，其特征在于，在得到所述M个音频数据之后，还包括：

将所述M个音频数据中各个音频数据所包含的声道的增益均调整至目标值。
根据权利要求2-5任一所述的方法，其特征在于，每个所述音频数据所表达的情感均与所述环境数据所表达的情感相同。
根据权利要求1所述的方法，其特征在于，所述目标参数包括所述环境信息，所述环境信息包括所述目标设备所处的环境中需同时播放第一音频数据和第二音频数据，且所述第一音频数据和所述第二音频数据均通过同一设备播放，其中，所述第一音频数据为第一时间段内持续性播放的音频数据，所述第二音频数据为所述第一时间段内偶发性播放的音频数据；

所述根据所述目标参数，对原始音频数据进行处理，得到目标音频数据，具体包括：

获取待播放的所述第二音频数据；

根据所述第二音频数据，从所述第一音频数据中提取出待播放的第三音频数据，以及，对所述第三音频数据进行目标处理，得到第四音频数据，其中，所述第二音频数据和所述第四音频数据对应的播放时间段相同，所述目标处理包括人声消除或人声降低；

根据所述第二音频数据，确定所述第二音频数据所需调整的第一增益，以及，基于所述第一增益，对所述第二音频数据中各个声道的增益进行调整，得到第五音频数据；

根据所述第四音频数据或者所述第五音频数据，确定所述第四音频数据所需调整的第二增益，以及，基于所述第二增益，对所述第四音频数据中各个声道的增益进行调整，得到第六音频数据；

基于所述第五音频数据和所述第六音频数据，得到所述目标音频数据。
根据权利要求7所述的方法，其特征在于，所述第二音频数据为第一数据，或者，所述第四音频数据为第一数据；

其中，根据所述第一数据，确定所述第一数据所需调整的增益，具体包括：

获取所述第一数据的音频特征，所述音频特征包括以下一项或多项：时域特征，频域特征，或者，乐理特征；

根据所述音频特征，确定所述第一数据所需调整的增益。
根据权利要求7所述的方法，其特征在于，所述根据所述第五音频数据，确定所述第四音频数据所需调整的第二增益，具体包括：

获取所述第五音频数据的最大响度值；

根据所述第五音频数据的最大响度值和第一比例，确定所述第二增益，其中，所述第一比例为所述第二音频数据的最大响度值和所述第四音频数据的最大响度值间的比例。
根据权利要求7-9任一所述的方法，其特征在于，在确定出所述第二增益之后，所述方法还包括：

基于所述第一增益，对所述第二增益进行修正。
根据权利要求7-10任一所述的方法，其特征在于，在确定出所述第二增益之后，所述方法还包括：

确定所述第二增益大于预设增益值；

将所述第二增益更新为所述预设增益值。
根据权利要求7-11任一所述的方法，其特征在于，所述基于所述第二增益，对所述第四音频数据中各个声道的增益进行调整，具体包括：

在所述第四音频数据播放开始之后，且与所述第四音频数据播放开始的时刻相距第一预设时间的第一时长内，按照第一预设步长将所述第四音频数据中各个声道的增益逐渐调整至所述第二增益；

以及，在所述第四音频数据播放结束之前，且与所述第四音频数据播放结束的时刻相距第二预设时间的第二时长内，按照第二预设步长将所述第四音频数据中各个声道的增益逐渐由所述第二增益调整至预设增益值。
根据权利要求7-11任一所述的方法，其特征在于，所述基于所述第二增益，对所述第四音频数据中各个声道的增益进行调整，具体包括：

在所述第四音频数据播放开始之前，且与所述第四音频数据播放开始的时刻相距第一预设时间的第一时长内，按照第一预设步长将所述第四音频数据中各个声道的增益逐渐调整至所述第二增益；

以及，在所述第四音频数据播放结束之后，且与所述第四音频数据播放结束的时刻相距第二预设时间的第二时长内，按照第二预设步长将所述第四音频数据中各个声道的增益逐渐由所述第二增益调整至预设增益值。
根据权利要求1所述的方法，其特征在于，所述目标参数包括所述环境信息，所述环境信息包括所述目标设备在目标空间中的目标位置，所述目标空间中配置有至少一个扬声器；

所述根据所述目标参数，对原始音频数据进行处理，得到目标音频数据，具体包括：

确定所述目标设备与N个扬声器间的距离，以得到N个第一距离，N为正整数，其中，所述N个扬声器与所述目标设备处于同一空间中；

根据所述N个第一距离和所述N个扬声器，构建目标虚拟扬声器组，所述目标虚拟扬声器组由M个目标虚拟扬声器组成，所述M个目标虚拟扬声器位于以所述目标设备所处的位置为中心，且以所述N个第一距离中的目标距离为半径的圆上，M的值与构建空间环绕声所需的扬声器的数量相等，所述M个目标虚拟扬声器的布置方式与构建空间环绕声所需的扬声器的布置方式相同，每个所述目标虚拟扬声器均通过调整所述N个扬声器中的至少一个扬声器对应的音频信号的增益得到；

根据在所述N个扬声器中且与所述目标虚拟扬声器关联的扬声器对应的音频信号所需调整的增益，对所述原始音频数据中各个声道的增益进行调整，得到所述目标音频数据。
根据权利要求14所述的方法，其特征在于，所述目标距离为所述N个第一距离中的最小值。
根据权利要求14或15所述的方法，其特征在于，所述根据所述N个第一距离和所述N个扬声器，构建目标虚拟扬声器组，具体包括：

以所述目标距离为基准，确定所述N个扬声器中除目标扬声器之外的各个扬声器对应的音频信号所需调整的增益，以构建出第一虚拟扬声器组，所述第一虚拟扬声器组为将所述N个扬声器均虚拟至以所述目标设备为中心，且以所述目标距离为半径的圆上得到的扬声器的组合，所述目标扬声器为所述目标距离对应的扬声器；

根据所述第一虚拟扬声器组和构建空间环绕声所需的扬声器的布置方式，确定所述目标虚拟扬声器组，其中，所述目标虚拟扬声器组中的中置扬声器位于所述目标设备当前的朝向上的预设角度范围内。
根据权利要求14或15所述的方法，其特征在于，所述根据所述N个第一距离和所述N个扬声器，构建目标虚拟扬声器组，具体包括：

根据所述N个扬声器，所述N个第一距离，构建空间环绕声所需的扬声器的布置方式，所述目标设备的朝向，以及所述目标设备所处的位置，构建第一虚拟扬声器组，所述第一虚拟扬声器组中包括M个第一虚拟扬声器，每个所述第一虚拟扬声器均通过调整所述N个扬声器中的至少一个扬声器对应的音频信号的增益得到；

确定所述目标设备与各个所述第一虚拟扬声器间的第二距离，以得到M个第二距离；

将所述M个第一虚拟扬声器均虚拟至以所述目标设备所处的位置为中心，且以所述第二距离中的一个距离为半径的圆上，以得到所述目标虚拟扬声器组。
根据权利要求14-17任一所述的方法，其特征在于，在所述确定所述目标设备与N个扬声器间的距离之前，所述方法还包括：

根据所述目标设备所处空间中配置的扬声器，所述目标设备的朝向，所述目标设备所处的位置，以及构建空间环绕声所需的扬声器的布置方式，从所述目标设备所处空间中配置的扬声器中筛选出所述N个扬声器，所述N个扬声器用于构建空间环绕声。
根据权利要求14-18任一所述的方法，其特征在于，所述方法还包括：

确定所述目标设备与所述目标空间中的各个扬声器间的距离；

根据所述目标设备与所述目标空间中的各个扬声器间的距离，确定所述目标空间中的各个扬声器在播放音频数据时的延迟时间；

控制所述目标空间中的各个扬声器按照相应的所述延迟时间播放音频数据。
根据权利要求1所述的方法，其特征在于，所述目标参数包括所述环境信息，所述环境信息包括所述目标设备产生的画面在目标空间中的目标位置，所述目标空间中配置有至少一个扬声器；

所述根据所述目标参数，对原始音频数据进行处理，得到目标音频数据，具体包括：

根据所述目标位置，构建与所述目标空间匹配的虚拟空间，所述虚拟空间的体积小于所述目标空间的体积；

根据所述目标空间中各个扬声器的位置，在所述虚拟空间中构建出目标虚拟扬声器组，所述目标虚拟扬声器组中包括至少一个目标虚拟扬声器，且每个所述目标虚拟扬声器均通过调整所述目标空间中的一个扬声器对应的音频信号的增益得到；

根据在所述目标空间中且与所述目标虚拟扬声器关联的扬声器对应的音频信号所需调整的增益，对所述原始音频数据中各个声道的增益进行调整，得到所述目标音频数据。
根据权利要求20所述的方法，其特征在于，所述根据所述目标空间中各个扬声器的位置，在所述虚拟空间中构建出目标虚拟扬声器组，具体包括：

根据所述虚拟空间和所述目标空间间的比例，在所述虚拟空间中确定出所述目标虚拟扬声器组中各个目标虚拟扬声器的位置；

根据各个所述目标虚拟扬声器和与各个所述目标虚拟扬声器对应的目标扬声器间的距离，确定出各个所述目标扬声器对应的音频信号所需调整的增益，以得到所述目标虚拟扬声器组，所述目标扬声器为所述目标空间中的扬声器。
根据权利要求20或21所述的方法，其特征在于，所述方法还包括：

确定所述目标设备产生的画面与所述目标空间中的各个扬声器间的距离；

根据所述目标设备产生的画面与所述目标空间中的各个扬声器间的距离，确定所述目标空间中的各个扬声器在播放音频数据时的延迟时间；

控制所述目标空间中的各个扬声器按照相应的所述延迟时间播放音频数据。
根据权利要求1所述的方法，其特征在于，所述目标参数包括所述用户的状态信息，所述用户的状态信息包括所述目标设备与目标用户的头部间的目标距离，所述目标用户的头部在目标空间中的目标位置，所述目标空间中配置有至少一个扬声器；

所述根据所述目标参数，对原始音频数据进行处理，得到目标音频数据，具体包括：

根据所述目标距离、所述目标位置和所述目标空间中各个扬声器的位置，构建目标虚拟扬声器组，所述目标虚拟扬声器组中包括至少一个目标虚拟扬声器，每个所述目标虚拟扬声器均通过调整所述目标空间中的一个扬声器对应的音频信号的增益得到，每个所述目标虚拟扬声器均处于以所述目标位置为圆心且以所述目标距离为半径的圆上；

根据在所述目标空间中且与所述目标虚拟扬声器关联的扬声器对应的音频信号所需调整的增益，对所述原始音频数据中各个声道的增益进行调整，得到所述目标音频数据。
根据权利要求23所述的方法，其特征在于，所述根据所述目标距离、所述目标位置和所述目标空间中各个扬声器的位置，构建目标虚拟扬声器组之后，还包括：

根据所述目标虚拟扬声器组，构建第一虚拟扬声器组，所述第一虚拟扬声器组由M个虚拟扬声器组成，所述M个虚拟扬声器位于以所述目标位置为中心，且以所述目标距离为半径的圆上，M的值与构建空间环绕声所需的扬声器的数量相等，所述M个虚拟扬声器的布置方式与构建空间环绕声所需的扬声器的布置方式相同，所述M个虚拟扬声器中每个虚拟扬声器均通过调整所述目标空间中的至少一个扬声器对应的音频信号的增益得到；

所述根据在所述目标空间中且与所述目标虚拟扬声器关联的扬声器对应的音频信号所需调整的增益，对所述原始音频数据中各个声道的增益进行调整，得到所述目标音频数据，具体包括：

根据在所述目标空间中且与所述M个虚拟扬声器关联的扬声器对应的音频信号所需调整的增益，对所述原始音频数据中各个声道的增益进行调整，得到所述目标音频数据。
根据权利要求1所述的方法，其特征在于，所述目标设备位于车辆中，所述目标参数包括所述环境信息，所述环境信息包括所述车辆的行驶速度、转速和加速踏板的开度中的一项或多项；

所述根据所述目标参数，对原始音频数据进行处理，得到目标音频数据，具体包括：

根据所述行驶速度、所述转速和所述加速踏板的开度中的至少一个，从原始音频数据中，确定出第一音频数据，其中，所述第一音频数据为基于所述行驶速度对所述原始音频数据中的目标音频粒子进行伸缩变换得到；

根据所述行驶速度，确定所述车辆的加速度，并根据所述加速度，调整所述第一音频数据中各个声道的增益，以得到第二音频数据，以及，确定所述车辆中的声场向目标方向移动的目标速度；

根据所述目标速度，确定所述目标音频数据的声源的虚拟位置；

根据所述虚拟位置，确定所述车辆中多个扬声器对应的音频信号的所需调整的目标增益，得到F个目标增益，F≥2；

根据所述F个目标增益，调整所述第二音频数据中各个声道的增益，以得到所述目标音频数据。
根据权利要求25所述的方法，其特征在于，在根据所述行驶速度，调整所述第一音频数据中各个声道的增益之前，还包括：

确定所述行驶速度的变化值超过预设速度阈值；和/或

确定所述第一音频数据中每个声道的增益对应的调整值均小于或等于预设调整值，其中，当所述第一音频数据中目标声道的增益对应的目标调整值大于所述预设调整值时，将所述目标调整值更新为所述预设调整值。
根据权利要求25或26所述的方法，其特征在于，所述目标参数还包括所述车辆的加速时长，所述方法还包括：

根据所述加速时长，控制所述车辆中的氛围灯工作。
根据权利要求1所述的方法，其特征在于，所述目标参数包括所述用户的状态信息，所述状态信息包括用户的疲劳等级；

所述根据所述目标参数，对原始音频数据进行处理，得到目标音频数据，具体包括：

根据所述疲劳等级，确定第一特征参数的目标调整值，第一特征参数为当前所需播放的原始音频数据的特征参数，所述第一特征参数包括音调和/或响度；

根据所述目标调整值，对所述原始音频数据进行处理，得到所述目标音频数据，其中，所述目标音频数据的特征参数的值高于所述第一特征参数的值。
根据权利要求28所述的方法，其特征在于，所述输出所述目标音频数据，具体包括：

根据所述疲劳等级，确定第一目标提示音；

根据预先设定的播报顺序，输出所述目标音频数据和所述第一目标提示语音。
根据权利要求28或29所述的方法，其特征在于，所述方法还包括：

根据所述疲劳等级和地图信息，确定第二目标提示音；

输出所述第二目标提示音。
根据权利要求28-30任一所述的方法，其特征在于，所述目标设备位于车辆中；

所述输出所述目标音频数据之前，所述方法还包括：

确定所述车辆处于自动驾驶状态，且所述车辆所处的路段的路况低于预设路况阈值，和/或，确定所述车辆所处的路段为预设路段。
根据权利要求1所述的方法，其特征在于，所述目标参数包括所述用户的状态信息，所述状态信息包括用户选择的第一音频数据和第二音频数据；

所述根据所述目标参数，对原始音频数据进行处理，得到目标音频数据，具体包括：

确定所述第一音频数据的第一音频特征，第一音频特征包括：各个时刻的响度和/或各个节拍的位置点；

根据所述第一音频特征，调整所述第二音频数据的第二音频特征，以得到第三音频数据，所述第二音频特征包括响度、音调和音速中的至少一项；

根据所述第一音频数据和所述第三音频数据，得到所述目标音频数据。
根据权利要求32所述的方法，其特征在于，所述第一音频特征包括：所述第一音频数据的各个时刻的响度，所述第二音频特征包括响度；

所述根据所述目标音频特征，调整所述第二音频数据的第二音频特征，具体包括：

根据所述各个时刻的响度和预设响度比例，确定所述第二音频数据中各个时刻对应的目标响度；

将所述第二音频数据中各个时刻的响度，调整至所述第二音频数据中各个时刻对应的目标响度。
根据权利要求32或33所述的方法，其特征在于，所述目标音频特征包括：各个节拍的位置点，所述第二音频特征包括音调和/或音速；

所述根据所述目标音频特征，调整所述第二音频数据的音调，具体包括：

针对所述第一音频数据中任意相邻的两个节拍，根据所述任意相邻的两个节拍，确定所述任意相邻的两个节拍对应的目标节奏；

根据所述目标节奏，确定所述第二音频数据在所述任意相邻的两个节拍对应的位置点内的第二音频特征的目标调整值；

根据所述目标调整值，对所述第二音频数据在所述任意相邻的两个节拍对应的位置点内的第二音频特征进行调整。
根据权利要求1所述的方法，其特征在于，所述目标参数包括所述用户的状态信息，所述状态信息包括以下一项或多项：用户选择的图片，视频，或者，用户为目标对象所添加的音频数据；

所述根据所述目标参数，对原始音频数据进行处理，得到目标音频数据，具体包括：

确定N张图片，N≥2；

确定所述N张图片中各张图片内包含的目标对象，以得到M个目标对象，M≥1；

确定各个所述目标对象在所述N张图中每张图片中的空间位置，以及，确定各个所述目标对象在目标视频中出现的时长，以得到M个第一时长，所述目标视频基于所述N张图片得到；

根据各个所述目标对象的空间位置，以及所述N张图片中各个相邻的图片在所述目标视频中出现的时刻，确定各个所述目标对象在各个相邻的图片间的移动速度；

根据所述M个目标对象，得到Q个第一音频数据，1≤Q≤M，其中，一个所述第一音频数据至少与一个所述目标对象相关联；

将各个所述第一音频数据的第二时长均调整至与相应的所述目标对象对应的第一时长相等，以得到Q个第二音频数据；

根据各个所述目标对象的空间位置，以及各个所述目标对象在各个相邻的图片间的移动速度，分别对各个所述目标对象对应的第二音频数据进行处理，以得到Q个第三音频数据；

根据所述Q个第三音频数据和所述N张图片，得到目标视频，其中，所述目标视频中包括所述目标音频数据，所述目标音频数据基于所述Q个第三音频数据得到。
根据权利要求35所述的方法，其特征在于，所述方法还包括：

根据所述N张图片，确定出与所述N张图片匹配的第四音频数据；

将所述第四音频数据中至少一部分节拍的位置点作为所述N张图片中至少一部分图片出现的时刻，和/或，将所述第四音频数据中至少一部分小节的开始或结束的位置点作为所述N张图片中至少一部分图片出现的时刻。
根据权利要求35或36所述的方法，其特征在于，所述确定各个所述目标对象在所述N张图中每张图片中的空间位置，具体包括：

针对第i张图片内的第k个目标对象，基于预先设定的三维坐标系，确定所述第k个目标对象在所述第i张图片中的第一空间位置，其中，所述三维坐标系的中心点为第i张图片的中心位置，所述第i张图片为所述N张图中的任意一张图片，所述第k个目标对象为所述第i张图片中的任意一个目标对象。
根据权利要求37所述的方法，其特征在于，所述方法还包括：

确定所述第(i+1)张图片中不存在所述第k个目标对象；

将所述第(i+1)张图片的第一边界上的第一位置，作为所述第k个目标对象在所述第(i+1)张图片中的第二空间位置。
根据权利要求38所述的方法，其特征在于，所述第一边界为所述第k个目标对象在所述第i张图片中的目标朝向上的边界，所述第一位置在所述第(i+1)张图片中以所述第一空间位置为起点，且在所述目标朝向上延伸的直线与所述第一边界的交点。
根据权利要求38或39所述的方法，其特征在于，所述方法还包括：

确定所述第(i+2)张图片中不存在所述第k个目标对象；

根据所述第一空间位置，所述第二空间位置，以及所述第i张图片和所述第(i+1)张图片间的时间间隔，确定所述第k个目标对象的第一移动速度和第一移动方向；

将所述第(i+2)张图片之外的第二位置，作为所述第k个目标对象在所述第(i+2)张图片中的第三空间位置；其中，所述第二位置为在所述第一移动方向上，且与在所述第(i+2)张图片中的所述第二空间位置相距第一目标距离的位置点，所述第一目标距离根据所述第一移动速度，以及所述第(i+1)张图片和所述第(i+2)张图片间的时间间隔得到。
根据权利要求37-40任一所述的方法，其特征在于，所述方法还包括：

确定所述第(i-1)张图片中不存在所述第k个目标对象，其中，i≥2；

将所述第(i-1)张图片的第二边界上的第三位置，作为所述第k个目标对象在所述第(i-1)张图片中的第四空间位置。
根据权利要求41所述的方法，其特征在于，所述第二边界为所述第k个目标对象在所述第i张图片中的目标朝向的反方向上的边界，所述第三位置在所述第(i-1)张图片中以所述第一空间位置为起点，且在所述目标朝向的反方向上延伸的直线与所述第二边界的交点。
根据权利要求41或42所述的方法，其特征在于，所述方法还包括：

确定所述第(i-2)张图片中不存在所述第k个目标对象，其中，i≥3；

根据所述第一空间位置，所述第四空间位置，以及所述第i张图片和所述第(i-1)张图片间的时间间隔，确定所述第k个目标对象的第二移动速度和第二移动方向；

将所述第(i-2)张图片之外的第四位置，作为所述第k个目标对象在所述第(i-2)张图片中的第五空间位置；其中，所述第四位置为在所述第二移动方向的反方向上，且与在所述第(i-2)张图片中的所述第四空间位置相距第二目标距离的位置点，所述第二目标距离根据所述第二移动速度，以及所述第(i-1)张图片和所述第(i-2)张图片间的时间间隔得到。
根据权利要求37-43任一所述的方法，其特征在于，所述方法还包括：

确定第(i+1)张图片至第(i+j)张图片中均不存在所述第k个目标对象，j≥2，且第(i+j+1)张图片中存在所述第k个目标对象，(i+j+1)≤N；

以所述第i张图片为基准，分别确定所述第k个目标对象在第(i+1)张图片至第(i+j)张图片中各张图片中的空间位置，以得到第一空间位置集合{P_i+1，...，P_i+j}，其中，P_i+j为所述第k个目标对象在所述第(i+j)张图片中的空间位置，以及，以所述第(i+j+1)张图片为基准，分别确定所述第k个目标对象在第(i+1)张图片至第(i+j)张图片中各张图片中的空间位置，以得到第二空间位置集合{P′_i+1，...，P′_i+j}，其中，P′_i+j为所述第k个目标对象在所述第(i+j)张图片中的空间位置；

根据所述第一空间集合和所述第二空间集合，确定所述第k个目标对象在第(i+1)张图片至第(i+j)张图片中各张图片中的空间位置。
根据权利要求44所述的方法，其特征在于，所述根据所述第一空间集合和所述第二空间集合，确定所述第k个目标对象在第(i+1)张图片至第(i+j)张图片中各张图片中的空间位置，具体包括：

根据所述第一空间集合和所述第二空间集合，分别确定所述第k个目标对象在所述第(i+1)张图片至所述第(i+j)张图片中每张图片内的两个空间位置之间的距离，以得到j个距离；

根据所述第一空间集合和所述第二空间集合，确定所述第k个目标对象在第(i+c)张图片中的空间位置，所述第(i+c)张图片为所述j个距离的一个距离对应的图片，1≤c≤j；

根据所述第k个目标对象在所述第i张图片中的空间位置，所述第k个目标对象在所述第(i+j+1)张图片中的空间位置，所述第k个目标对象在所述第(i+c)张图片中的空间位置，以及，所述第i张图片至所述第(i+j+1)张图片中各张图片在所述目标视频中出现的时刻，确定所述第k个目标对象所述第i张图片至所述第(i+c)张图片间的各张图片中的空间位置，以及确定所述第k个目标对象所述第第(i+c)张图片至所述第(i+j+1)张图片间的各张图片中的空间位置。
一种电子设备，其特征在于，包括：

至少一个存储器，用于存储程序；

至少一个处理器，用于执行所述存储器存储的程序；

其中，当所述存储器存储的程序被执行时，所述处理器用于执行如权利要求1-45任一所述的方法。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序在电子设备上运行时，使得所述电子设备执行如权利要求1-45任一所述的方法。
一种计算机程序产品，其特征在于，当所述计算机程序产品在电子设备上运行时，使得所述电子设备执行如权利要求1-45任一所述的方法。