WO2023245700A1

WO2023245700A1 - 一种音频能量分析方法和相关装置

Info

Publication number: WO2023245700A1
Application number: PCT/CN2022/102036
Authority: WO
Inventors: 郝斌
Original assignee: 青岛海尔科技有限公司; 海尔智家股份有限公司
Priority date: 2022-06-20
Filing date: 2022-06-28
Publication date: 2023-12-28
Also published as: CN117292691A

Abstract

本公开实施例提供了一种音频能量分析方法和相关装置，在进行音频能量分析时，处理设备可以先确定第二设备对应的能量损耗参数，该能量损耗参数能够标识第一设备向第二设备传递音频能量时的损耗。以及，处理设备可以获取第二设备接收到的第二总音频能量，以及第一设备通过播放音频产生的自身音频能量，从而可以结合这些数据分析得到该第二设备从语音交互的声源处接收到的音频能量。

Description

一种音频能量分析方法和相关装置

技术领域

本公开涉及数据分析技术领域，特别是涉及一种音频能量分析方法和相关装置。

本公开要求于2022年06月20日提交中国专利局、申请号为202210697612.5、发明名称“一种音频能量分析方法和相关装置”的中国专利申请的优先权，其全部内容通过引用结合在本公开中。

背景技术

语音交互是当下常用的人机交互手段之一，当场景中存在多个支持语音交互的设备时，相关设备需要判断用户真正想要交互的是哪一个设备，并进行相应的语音交互。

在相关技术中，当进行语音交互的设备自身不会发出声音时，可以较为准确的判断用户想要进行交互的设备；然而，当这些设备自身会发出声音时，就难以确定用户想要进行交互的设备，用户的语音交互体验较差。

发明内容

为了解决上述技术问题，本公开提供了一种音频能量分析方法，处理设备可以对设备自身的音频干扰进行分析，从而准确识别出语音交互的声源，改善用户的语音交互体验。

本公开实施例公开了如下技术方案：

第一方面，本公开实施例公开了一种音频能量分析方法，所述方法包括：

确定第二设备对应的能量损耗参数，所述能量损耗参数用于标识第一设备向所述第二设备传递音频能量时的损耗；

获取所述第二设备对应的第二总音频能量以及所述第一设备对应的自身音频能量，所述第二总音频能量为所述第二设备接收到的音频能量，所述自身音频能量为基于所述第一设备播放的音频产生的能量；

根据所述能量损耗参数、所述自身音频能量和所述第二总音频能量，确定所述第二设备对应的第二声源音频能量，所述第二声源音频能量为所述第二设备从声源处获取到的音频能量。

第二方面，本公开实施例公开了一种音频能量分析装置，所述装置包括第一确定单元、获取单元和第二确定单元：

所述第一确定单元，设置为确定第二设备对应的能量损耗参数，所述能量损耗参数用于标识第一设备向所述第二设备传递音频能量时的损耗；

所述获取单元，设置为获取所述第二设备对应的第二总音频能量以及所述第一设备对应的自身音频能量，所述第二总音频能量为所述第二设备接收到的音频能量，所述自身音频能量为基于所述第一设备播放的音频产生的能量；

所述第二确定单元，设置为根据所述能量损耗参数、所述自身音频能量和所述第二总音频能量，确定所述第二设备对应的第二声源音频能量，所述第二声源音频能量为所述第二设备从声源处获取到的音频能量。

第三方面，本公开实施例公开了一种计算机可读存储介质，当所述计算机可读存储介质中的指令被至少一个处理器运行时，所述至少一个处理器执行如第一方面中的任一项所述的音频能量分析方法。

第四方面，本公开实施例公开了一种计算机设备，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机设备可执行指令在被所述至少一个处理器运行时，所述至少一个处理器执行如第一方面中的任一项所述的音频能量分析方法。

由上述技术方案可以看出，在进行音频能量分析时，处理设备可以先确定第二设备对应的能量损耗参数，该能量损耗参数能够标识第一设备向第二设备传递音频能量时的损耗。以及，处理设备可以获取第二设备接收到的第二总音频能量，以及第一设备通过播放音频产生的自身音频能量，从而可以结合这些数据分析得到该第二设备从语音交互的声源处接收到的音频能量，消除第一设备自播的音频对于语音交互识别上的干扰，能够基于音频能量更加准确的分析出用户想要进行交互的设备，改善用户的语音交互体验。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种音频能量分析方法的流程图；

图2为本公开实施例提供的一种音频能量分析装置的结构框图；

图3是根据本公开实施例的一种可选的计算机设备的结构框图。

具体实施方式

下面结合附图，对本公开的实施例进行描述。

可以理解的是，该方法可以应用于处理设备上，该处理设备为能够进行音频能量分析的处理设备，例如可以为具有音频能量分析功能的终端设备或服务器。该方法可以通过终端设备或服务器独立执行，也可以应用于终端设备和服务器通信的网络场景，通过终端设备和服务器配合执行。其中，终端设备可以为计算机、手机等设备。服务器可以理解为是应用服务器，也可以为Web服务器，在实际部署时，该服务器可以为独立服务器，也可以为集群服务器。

参见图1，图1为本公开实施例提供的一种音频能量分析方法的流程图，该方法包括：

S101：确定第二设备对应的能量损耗参数。

其中，该能量损耗参数用于标识第一设备向第二设备传递音频能量时的损耗，即音频能量从第一设备发出时，第二设备所能够接收多少该音频能量。例如，该能量损耗参数可以为0.9，即当第一设备发出音频能量时，第二设备能够接收到所发出音频能量的90％。

S102：获取第二设备对应的第二总音频能量以及第一设备对应的自身音频能量。

该第二总音频能量为第二设备接收到的音频能量，该自身音频能量为基于第一设备播放的音频产生的能量。可以理解的是，在有设备自播的场景下，该第二设备所接收到的音频能量包括两部分，一部分为进行语音交互的用户所发出的音频产生的音频能量，另一部分为第一设备所发出音频产生的音频能量。而在多设备场景下，为了准确分析用户想要进行交互的是哪一台设备，通常情况下是基各台设备所接收到的来自该用户的音频能量进行判定，因此，在本公开实施例中，处理设备需要先从该第二总音频能量中去除来自第一设备的音频能量部分，才能够进行准确的语音交互。

S103：根据能量损耗参数、自身音频能量和第二总音频能量，确定第二设备对应的第二声源音频能量。

上已述及，该能量损耗参数能够标识出第一设备向第二设备传递音频能量时的损耗，该自身音频能量为第一设备播放音频产生的音频能量，因此，处理设备可以通过能量损耗参数和自身音频能量确定出第二设备从第一设备处接收到的音频能量，从而可以从第二总音频能量中去除这部分能量，得到该第二设备对应的第二声源音频能量，该第二声源音频能量为第二设备从声源处获取到的音频能量，该声源为进行语音交互的声源，例如可以为进行语音交互的用户等。

在一种可能的实现方式中，该能量损耗参数可以是基于以下方式得到的。在没有除第一设备以外的其它声源的环境下，处理设备可以确定第一设备在播放音频时对应的测试自身音频能量，以及第二设备从第一设备接收到的接收音频能量，该测试自身音频能量是指由该第一设备播放的音频产生的音频能量。处理设备可以根据该接收音频能量与测试自身音频能量的比值，确定所述第二设备对应的能量损耗参数，该比值能够体现出第二设备实际接收到音频能量与第一设备发出的音频能量之间的差异，进而能够标识出第一设备向第二设备传递音频能量时的损耗。

在一种可能的实现方式中，为了判断用户想要进行语音交互的是第一设备还是第二设备，处理设备还可以确定该第一设备接收到的第一总音频能量，然后根据所述自身音频能量、所述第一总音频能量，确定所述第一设备对应的第一声源音频能量，即去除该第一总音频能量中的自身音频能量部分，该第一声源音频能量和第二声源音频能量来自同一声源。处理设备可以判断第一声源音频能量与第二声源音频能量之间的大小关系，该大小关系在一定程度上能够体现出用户对于第一设备和第二设备的交互意愿。响应于该第一声源音频能量大于该第二声源音频能量，说明该用户更想要与第一设备进行交互，处理设备可以唤醒该第一设备对应的语音交互功能。

例如，以两台音箱A，B为例，说明流程。两台音频都配置了相同的唤醒词，且具备分布式唤醒功能。当两台设备接收到唤醒词时，处理设备可以计算出对应的音频能量上传到云端决策，云端根据打分标准选择需要响应的设备。

首先，云端可以控制音箱A播放一段时间的白噪音频，此时A，B接收到的音频信号经过stft变换，统计该段时间的音频能量均值记为X _A(k)和X _A→B(k)。以16k采样率为例，FFT长度512，选择频率统计范围为200-5000Hz(对应频带k＝3-160)，则音箱B对应的能量损耗参数可以为C _A→B(k)＝X _A→B(k)/X _A(k)。

反之可以得到音箱A对应的能量损耗参数可以为C _B→A(k)＝X _B→A(k)/X _B(k).

其中，X _A(k)和X _A→B(k)是设备计算上传到云端，云端计算得到C _A→B(k)后推送到设备A中；同理推送C _B→A(k)。

当设备A播放音频时，用户靠近A发出唤醒词，此时A接收到的音频能量包括：

Y _A(l，k)＝S _A(l，k)+E _A(l，k)，S _A(k)表示音箱A对应的声源音频能量，E _A(k)表示音箱A对应的自身音频能量，Y _A(l，k)表示第一总音频能量。

此刻音箱B接收到的音频能量包括：

Y _A→B(l，k)＝S _B(l，k)+E _A→B(l，k)，S _B(l，k)表示音箱B对应的声源音频能量，E _A→B(l，k)表示音箱B从音箱A发出的音频中接收到的音频能量。

经过AEC，可以得到音箱A对应的声源音频能量Y′ _A(l，k)＝S _A(l，k)，则 E _A(l，k)＝Y _A(l，k)-Y′ _A(l，k)。经矫正后，E _A→B(l，k)＝E _A(l，k)*C _A→B(l，k)，从而可以确定出音箱B对应的声源音频能量S _B(l，k)。

根据S _B(l，k)和S _A(l，k)的大小判断，处理设备可以确定用户实际想要唤醒的音箱。

可以理解的是，由于播放音频时产生的震动等原因，设备所接收的基于自身产生的音频能量可能并不等同于播放的音频能量。因此，在一种可能的实现方式中，为了更加精确的进行音频能量分析，在对第一设备对应的声源音频能量进行分析时，处理设备可以根据自身音频能量，确定该第一设备对应的非线性能量，该非线性能量是基于所述第一设备播放音频时产生的震动生成的。处理设备可以去除所述第一总音频能量中的所述自身音频能量和所述非线性能量，得到所述第一声源音频能量，从而能够得到更加准确的声源能量。

在一种可能的实现方式中，具体的，处理设备可以通过神经网络模型，根据自身音频能量，确定第一设备对应的非线性能量。该神经网络模型可以是通过以下方式训练得到：

首先，处理设备可以获取训练样本集，该训练样本集包括目标设备在没有其它声源的环境下采集的样本自身音频能量和样本总音频能量。由于该样本自身音频能量是直接基于目标设备自身播放的音频信息确定的，因此该样本自身音频能量为了该目标设备对应的线性音频能量；该样本总音频能量为从该目标设备中接收到的总音频能量，即包括线性音频能量和非线性音频能量，因此，根据该样本总音频能量和该样本自身音频能量，处理设备可以确定目标设备对应的样本非线性能量，然后通过该样本总音频能量、该样本自身音频能量和所述样本非线性能量，训练初始神经网络模型，得到所述神经网络模型，在该训练过程中，神经网络模型可以学习到非线性音频能量部分与线性音频能量之间的关联关系，从而能够学习到如何基于线性音频能量部分确定非线性音频能量部分。

例如，利用回采信号Ref(l，k)(即样本自身音频能量)可以对麦克风信号Mic(l，k)(即样本总音频能量)进行回声消除得到Aec(l，k)(样本非线性能量)。用NLMS、RLS等线性方法，去除线性音频能量成分E _linear(l，k)后，还有一部分非线性音频能量成分E _residual(l，k)。

语音信号mic、ref、aec通过stft得到对应的频域信号，频域信号是复数，以16k采样，帧长16ms，fft长度512为例，每个频域信号都是257(根据FFT的对称特性，512/2+1＝257)的复数组。复数信号取绝对值后转换到Bark域，可得64维数据。模型的输入，拼接aec、ref、mic的bark值，每帧为64*3的向量。

模型结构采用CRN结构，同时考虑设备上内存和性能限制，encoder和decoder层仅一层。具体得，encoder层采用一维卷积，输入通道192，输出通道64，卷积核大小3，接BatchNorm和PReLU；enhancer层采用输入64，隐藏层64的LSTM；decoder层采用二维卷积，输入通道64+64，输出通道64，卷积核大小3，接BatchNorm和PReLU；激活函数采用sigmoid。损失函数采用MES，估计的残留回声成分与真实的残留回声成分的均方差。优化函数采用Adam，学习率0.001，β ₁＝0.9，β ₁＝0.999。

模型输入维度64*3，输出维度64，转换为频域得到增益值G(l，k)，E _residual(l，k)＝(Mic(l，k)-E _linear(l，k))*G(l，k)，即，从设备发出的总音频能量去除线性音频能量后，结合该增益值可以确定出非线性音频能量。从而，通过该过程，模型可以学习到如何基于线性音频能量部分确定出非线性音频能量部分。

基于上述实施例提供的音频能量分析方法，本公开实施例还提供了一种音频能量分析装置，参见图2，图2为本公开实施例提供的一种音频能量分析装置200的结构框图，该装置包括第一确定单元201、获取单元202和第二确定单元203：

所述第一确定单元201，设置为确定第二设备对应的能量损耗参数，所述能量损耗参数用于标识第一设备向所述第二设备传递音频能量时的损耗；

所述获取单元202，，设置为获取所述第二设备对应的第二总音频能量以及所述第一设备对应的自身音频能量，所述第二总音频能量为所述第二设备接收到的音频能量，所述自身音频能量为基于所述第一设备播放的音频产生的能量；

所述第二确定单元203，设置为根据所述能量损耗参数、所述自身音频能量和所述第二总音频能量，确定所述第二设备对应的第二声源音频能量，所述第二声源音频能量为所述第二设备从声源处获取到的音频能量。

在一种可能的实现方式中，所述能量损耗参数是基于以下方式得到的：

在没有除所述第一设备以外的其它声源的环境下，确定所述第一设备在播放音频时对应的测试自身音频能量，以及所述第二设备从所述第一设备接收到的接收音频能量；

根据所述接收音频能量与所述测试自身音频能量的比值，确定所述第二设备对应的能量损耗参数。

在一种可能的实现方式中，所述装置还包括第三确定单元、第四确定单元和唤醒单元：

所述第三确定单元，设置为确定所述第一设备接收到的第一总音频能量；

所述第四确定单元，设置为根据所述自身音频能量、所述第一总音频能量，确定所述第一设备对应的第一声源音频能量，所述第一声源音频能量和所述第二声源音频能量来自同一声源；

所述唤醒单元，设置为响应于所述第一声源音频能量大于所述第二声源音频能量，唤醒所述第一设备对应的语音交互功能。

在一种可能的实现方式中，所述第四确定单元具体设置为：

根据所述自身音频能量，确定所述第一设备对应的非线性能量，所述非线性能量是基于所述第一设备播放音频时产生的震动生成的；

去除所述第一总音频能量中的所述自身音频能量和所述非线性能量，得到所述第一声源音频能量。

在一种可能的实现方式中，所述第四确定单元具体设置为：

通过神经网络模型，根据所述自身音频能量，确定所述第一设备对应的非线性能量。

在一种可能的实现方式中，所述神经网络模型是通过以下方式训练得到的：

获取训练样本集，所述训练样本集包括目标设备在没有其它声源的环境下采集的样本自身音频能量和样本总音频能量；

根据所述样本总音频能量和所述样本自身音频能量，确定所述目标设备对应的样本非线性能量；

通过所述样本总音频能量、所述样本自身音频能量和所述样本非线性能量，训练初始神经网络模型，得到所述神经网络模型。

本公开公开了一种计算机可读存储介质，当所述计算机可读存储介质中的指令被至少一个处理器运行时，所述至少一个处理器执行上述实施例中的任一项所述的音频能量分析方法。

本公开还公开了一种计算机设备，如图3所示，该计算机设备包括：

至少一个处理器304；

至少一个存储计算机可执行指令的存储器302，

其中，所述计算机设备可执行指令在被所述至少一个处理器运行时，所述至少一个处理器执行如上述实施例中的任一项所述的音频能量分析方法。

可选地，在本实施例中，上述计算机设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，确定第二设备对应的能量损耗参数，所述能量损耗参数用于标识第一设备向所述第二设备传递音频能量时的损耗；

S2，获取所述第二设备对应的第二总音频能量以及所述第一设备对应的自身音频能量，所述第二总音频能量为所述第二设备接收到的音频能量，所述自身音频能量为基于所述第一设备播放的音频产生的能量；

S3，根据所述能量损耗参数、所述自身音频能量和所述第二总音频能量，确定所述第二设备对应的第二声源音频能量，所述第二声源音频能量为所述第二设备从声源处获取到的音频能量。

可选地，本领域普通技术人员可以理解，图3所示的结构仅为示意，计算机设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Intemet Devices，MID)、PAD等终端设备。图3其并不对上述计算机设备的结构造成限定。例如，计算机设备还可包括比图3中所示更多或者更少的组件(如网络接口等)，或者具有与图2所示不同的配置。

其中，存储器302可用于存储软件程序以及模块，如本公开实施例中的语义转换方法和装置对应的程序指令/模块，处理器304通过运行存储在存储器302内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的语义转换方法。存储器302可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器302可进一步包括相对于处理器304远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。作为一种示例，如图3所示，上述存储器302中可以但不限于包括上述音频能量分析装置中的第一确定单元1301、获取单元1302、第二确定单元1303。此外，还可以包括但不限于上述音频能量分析装置中的其他模块单元，本示例中不再赘述。c

可选地，上述的传输装置306用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置306包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置306为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器308；和连接总线310，用于连接上述电子装置中的各个模块部件。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器(英文：read-only memory，缩写：ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本公开的一种具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应该以权利要求的保护范围为准。

Claims

一种音频能量分析方法，所述方法包括：

确定第二设备对应的能量损耗参数，所述能量损耗参数用于标识第一设备向所述第二设备传递音频能量时的损耗；

获取所述第二设备对应的第二总音频能量以及所述第一设备对应的自身音频能量，所述第二总音频能量为所述第二设备接收到的音频能量，所述自身音频能量为基于所述第一设备播放的音频产生的能量；

根据所述能量损耗参数、所述自身音频能量和所述第二总音频能量，确定所述第二设备对应的第二声源音频能量，所述第二声源音频能量为所述第二设备从声源处获取到的音频能量。
根据权利要求1所述的方法，其中，所述能量损耗参数是基于以下方式得到的：

在没有除所述第一设备以外的其它声源的环境下，确定所述第一设备在播放音频时对应的测试自身音频能量，以及所述第二设备从所述第一设备接收到的接收音频能量；

根据所述接收音频能量与所述测试自身音频能量的比值，确定所述第二设备对应的能量损耗参数。
根据权利要求1所述的方法，其中，所述方法还包括：

确定所述第一设备接收到的第一总音频能量；

根据所述自身音频能量、所述第一总音频能量，确定所述第一设备对应的第一声源音频能量，所述第一声源音频能量和所述第二声源音频能量来自同一声源；

响应于所述第一声源音频能量大于所述第二声源音频能量，唤醒所述第一设备对应的语音交互功能。
根据权利要求3所述的方法，其中，所述根据所述自身音频能量、所述第一总音频能量，确定所述第一设备对应的第一声源音频能量，包括：

根据所述自身音频能量，确定所述第一设备对应的非线性能量，所述非线性能量是基于所述第一设备播放音频时产生的震动生成的；

去除所述第一总音频能量中的所述自身音频能量和所述非线性能量，得到所述第一声源音频能量。
根据权利要求4所述的方法，其中，所述根据所述自身音频能量，确定所述第一设备对应的非线性能量，包括：

通过神经网络模型，根据所述自身音频能量，确定所述第一设备对应的非线性能量。
根据权利要求5所述的方法，其中，所述神经网络模型是通过以下方式训练得到的：

获取训练样本集，所述训练样本集包括目标设备在没有其它声源的环境下采集的样本自身音频能量和样本总音频能量；

根据所述样本总音频能量和所述样本自身音频能量，确定所述目标设备对应的样本非线性能量；

通过所述样本总音频能量、所述样本自身音频能量和所述样本非线性能量，训练初始神经网络模型，得到所述神经网络模型。
一种音频能量分析装置，所述装置包括第一确定单元、获取单元和第二确定单元：

所述第一确定单元，设置为确定第二设备对应的能量损耗参数，所述能量损耗参数用于标识第一设备向所述第二设备传递音频能量时的损耗；

所述获取单元，设置为获取所述第二设备对应的第二总音频能量以及所述第一设备对应的自身音频能量，所述第二总音频能量为所述第二设备接收到的音频能量，所述自身音频能量为基于所述第一设备播放的音频产生的能量；

所述第二确定单元，设置为根据所述能量损耗参数、所述自身音频能量和所述第二总音频能量，确定所述第二设备对应的第二声源音频能量，所述第二声源音频能量为所述第二设备从声源处获取到的音频能量。
根据权利要求7所述的装置，其中，所述能量损耗参数是基于以下方式得到的：

在没有除所述第一设备以外的其它声源的环境下，确定所述第一设备在播放音频时对应的测试自身音频能量，以及所述第二设备从所述第一设备接收到的接收音频能量；

根据所述接收音频能量与所述测试自身音频能量的比值，确定所述第二设备对应的能量损耗参数。
根据权利要求7所述的装置，其中，所述装置还包括第三确定单元、第四确定单元和唤醒单元：

所述第三确定单元，设置为确定所述第一设备接收到的第一总音频能量；

所述第四确定单元，设置为根据所述自身音频能量、所述第一总音频能量，确定所述第一设备对应的第一声源音频能量，所述第一声源音频能量和所述第二声源音频能量来自同一声源；

所述唤醒单元，设置为响应于所述第一声源音频能量大于所述第二声源音频能量，唤醒所述第一设备对应的语音交互功能。
根据权利要求9所述的装置，其中，所述第四确定单元还设置为：

根据所述自身音频能量，确定所述第一设备对应的非线性能量，所述非线性能量是基于所述第一设备播放音频时产生的震动生成的；

去除所述第一总音频能量中的所述自身音频能量和所述非线性能量，得到所述第一声源音频能量。
根据权利要求9所述的装置，其中，所述第四确定单元还设置为：

通过神经网络模型，根据所述自身音频能量，确定所述第一设备对应的非线性能量。
根据权利要求11所述的装置，其中，所述神经网络模型是通过以下方式训练得到的：

获取训练样本集，所述训练样本集包括目标设备在没有其它声源的环境下采集的样本自身音频能量和样本总音频能量；

根据所述样本总音频能量和所述样本自身音频能量，确定所述目标设备对应的样本非线性能量；

通过所述样本总音频能量、所述样本自身音频能量和所述样本非线性能量，训练初始神经网络模型，得到所述神经网络模型。
一种计算机可读存储介质，当所述计算机可读存储介质中的指令被至少一个处理器运行时，所述至少一个处理器执行如权利要求1-6中的任一项所述的音频能量分析方法。
一种计算机设备，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机设备可执行指令在被所述至少一个处理器运行时，所述至少一个处理器执行如权利要求1-6中的任一项所述的音频能量分析方法。