WO2020024816A1

WO2020024816A1 - 音频信号处理方法、装置、设备和存储介质

Info

Publication number: WO2020024816A1
Application number: PCT/CN2019/096813
Authority: WO
Inventors: 田彪; 银鞍; 余涛
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2018-07-30
Filing date: 2019-07-19
Publication date: 2020-02-06
Also published as: CN110782911A

Abstract

一种音频信号处理方法、装置、设备和存储介质。该方法包括：使用麦克风阵列的多个集音设备接收音频信号，确定音频信号中是否包括目标音频信号(S410)；如果音频信号中包括目标音频信号，确定音频信号对应的多个集音设备的相关性(S420)；利用音频信号对应的多个集音设备的相关性，对音频信号进行音频增强处理，得到音频增强的音频信号(S430)。该方法可以实现在多干扰源的嘈杂环境下实现自适应的音频增强，提高音频信号的信噪比。

Description

音频信号处理方法、装置、设备和存储介质

本申请要求2018年07月30日递交的申请号为201810882538.8、发明名称为“音频信号处理方法、装置、设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及数据处理技术领域，尤其涉及一种音频信号处理方法、装置、设备和存储介质。

背景技术

随着音频识别技术的不断发展，音频识别技术在汽车驾驶、智能家居、智能商务系统等领域得到了快速的发展，音频识别技术可以通过对音频的识别，快速、准确地执行相应的功能。

为了确保多干扰源的嘈杂环境中音频识别系统的可用性，现有的音频识别技术可以通过检测多个干扰源的具体信息，从而对检测到的干扰源发出的干扰信号进行信号分离，得到目标音频信号。但是在强干扰环境中，干扰源复杂多变，这种信号处理方法采集到的音频信号质量较差，音频识别信噪比低，实用性不高。

发明内容

本发明实施例提供一种音频信号处理方法、装置、设备和存储介质，可以实现在多干扰源的嘈杂环境下实现自适应的音频增强，提高音频信号的信噪比。

根据本发明实施例的一方面，提供一种音频信号处理方法，包括：

使用麦克风阵列的多个集音设备接收音频信号，确定音频信号中是否包括目标音频信号；如果音频信号中包括目标音频信号，确定音频信号对应的多个集音设备的相关性；利用音频信号对应的多个集音设备的相关性，对音频信号进行音频增强处理，得到音频增强的音频信号。

根据本发明实施例的另一方面，提供一种音频信号处理装置，包括：

音频信号检测模块，用于使用麦克风阵列的多个集音设备接收音频信号，确定音频信号中是否包括目标音频信号；相关性确定模块，用于如果音频信号中包括目标音频信号，确定音频信号对应的多个集音设备的相关性；音频信号增强模块，用于利用音频信号对应的多个集音设备的相关性，对音频信号进行音频增强处理，得到音频增强的音频信号。

根据本发明实施例的再一方面，提供一种音频信号处理设备，包括：存储器和处理器；该存储器用于存储程序；该处理器用于读取存储器中存储的可执行程序代码以执行上述的音频信号处理方法。

根据本发明实施例的又一方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行上述各方面的音频信号处理方法。

根据本发明实施例的还一方面，提供了一种音频交互设备，包括：

音频信号检测器，用于使用麦克风阵列的多个集音设备接收音频信号，确定音频信号中是否包括目标音频信号；目标音频分离器，用于如果音频信号中包括目标音频信号，确定音频信号对应的多个集音设备的相关性；目标音频增强器，用于利用音频信号对应的多个集音设备的相关性，对音频信号进行音频增强处理，得到音频增强的音频信号。

根据本发明实施例中的音频信号处理方法、装置、设备和存储介质，可以在多干扰源的嘈杂环境下检测音频信号中是否存在目标音频信号，并根据检测结果确定音频信号对应的多个集音设备的相关性，并利用音频信号对应的集音设备之间的相关性，对音频信号进行音频增强处理，得到增强的音频信号，整个音频信号处理过程不需要检测多个干扰源的具体信息，即音频信号的音频增强过程与具体的干扰源无关，因此可以适应复杂多变的干扰环境，具有更强的实用性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是示出根据本发明示例性实施例的音频信号处理方法的应用场景示意图；

图2是示出根据本发明实施例的麦克风阵列对目标区域进行声源定位的场景示意图；

图3是示出根据本发明一实施例的音频信号处理方法的流程图；

图4是示出根据本发明另一实施例的音频信号处理方法的流程图；

图5根据本发明一实施例的音频信号处理装置的结构示意图；

图6是示出了可以实现根据本发明实施例的音频信号处理方法和装置的计算设备的示例性硬件架构的结构图；

图7示出了根据本发明实施例的音频交互设备的结构示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本发明实施例中，音频交互系统例如智能音响设备、智能音频购物机、智能音频售票机和智能音频电梯，通常需要在商场、地铁站和社交场所等存在多干扰源的嘈杂环境中进行音频信号采集和音频信号处理。

在本发明下述实施例的描述中，可以使用麦克风阵列对存在多干扰源的嘈杂环境中来自空间不同方向的音频信号进行信号采样和信号处理。麦克风阵列中的每个声学传感器例如麦克风可以称为是一个阵元，每个麦克风阵列至少包括两个阵元。每个阵元可以视为一个声音采集通道，可以利用包含多个阵元的麦克风阵列获得多通道声音信号。

本发明实施例中的麦克风阵列可以是一组位于空间不同位置的声学传感器按照一定的形状规则布置形成的阵列，是对空间传播的声音信号进行空间采样的一种装置。麦克风阵列中声学传感器被布置的形状排列规则，可以称为是麦克风阵列的拓扑结构，根据麦克风阵列的拓扑结构，可以将麦克风阵列分为线性麦克风阵列、平面麦克风阵列和立体麦克风阵列。

作为一个示例，线性麦克风阵列可以表示麦克风阵列的阵元中心位于同一条直线上，例如水平阵列；平面麦克风阵列可以表示麦克风阵列的阵元中心分布在一个平面上，例如三角形阵列、圆形阵列、T型阵列、L型阵列、方型阵列等；立体麦克风阵列可以表示麦克风阵列的阵元中心分布在立体空间中，例如多面体阵列、球形阵列等。

本发明实施例的音频信号处理方法对使用的麦克风阵列的具体形式不做具体限定。作为一个示例，麦克风阵列可以是水平阵列、T型阵列、L型阵列、正方体阵列。为了简化描述起见，本文下述的多个实施例以L型阵列为例来阐述采集多通道音频信号。但该描述并不能被解读为限制本方案的范围或实施可能性，L型阵列以外的其他拓扑结构的麦克风阵列的处理方法与对L型阵列的处理方法保持一致。

在本发明实施例中，音频信号处理的实际应用场景中通常包含环境噪声、其他音频信号干扰例如人声干扰、混响以及回声等多种干扰源。其中，混响可以理解为是声音信号和该声音信号在传播时经障碍物多次反射和吸收而形成声波叠加的一种声学现象；回声也可以称为是声学回波(Acoustic Echo)，回声可以理解为是音频交互设备自身扬声器播放的声音在空间内经传播和反射形成的重复的声音信号，该重复的声音信号会回传给麦克风所形成的噪声干扰。上述环境噪声、其他音频信号干扰、混响以及回声等多种干扰源构成强干扰且复杂多变的声学环境，有损音频信号处理系统采集到的音频信号的质量。

在本发明实施例中，目标音频信号可以表示来自目标区域的可以驱动音频交互设备进行交互的音频信号。作为一个示例，目标音频信号可以是语音信号，也可以是通过机器播放的有含义的音频信号，只要该音频信号可以驱动音频交互设备进行音频交互即可。

下面以地铁站音频购票为例，描述本发明实施例的音频信号处理方法的实际应用场景。图1示出了根据本发明示例性实施例的音频信号处理方法的应用场景示意图。

如图1所示，地铁站的音频购票环境可以包括购票人10和音频购票系统20，音频购票系统20可以包括人机交互显示设备21和音频交互设备22。音频购票系统20可以让购票人10使用音频交互的形式，实现通过指定站名购票、指定票价购票、或者目的地模糊搜索购票等功能。

在一个实施例中，音频交互显示设备22可以包括麦克风阵列(图中未示出)，音频交互设备22可以利用麦克风阵列中的多个阵元所提供的多个声音采集通道，实时采集来自实际购票环境中的声音信号。

继续参考图1，在一个实施例中，人机交互显示设备21可以显示建议的音频交互指令，建议的音频交互指令可以是对购票人10与音频交互设备22的音频交互具有规范引导作用的指令范例。例如“我要去站点B”、“买两张去站点C的票”以及“两张票价A的票”等；人机交互显示设备21可以根据购票人10发出的音频交互指令中的目的地，经音频交互设备22处理后，调用地图服务显示距离该目的地最近的推荐地铁线路和站点；以及人机交互显示设备21还可以显示支付信息，以便购票人10根据显示的支付信息进行支付后，由音频购票系统20完成出票。

在实际购票环境中，可以将购票人10的声源作为目标声源，音频交互设备22使用麦克风阵列采集到的音频信号中不仅可以包括来自目标声源的目标音频信号，还可以包括麦克风阵列拾音范围内的包括环境噪声、人声干扰、混响以及回声等多种干扰源的非目标音频信号。

作为一个示例，环境噪声例如可以包括地铁列车的运行噪声以及通风空调设备的运行产生的噪声等；人声干扰例如可以是购票人10以外的其他人员发出的音频信号。在下述实施例的描述中，也可以将非目标音频信号称为干扰信号或噪声信号。

为了在多干扰源的嘈杂环境下拾取有效的音频信号，提供稳健的音频识别效果，本发明实施例提供一种音频信号处理方法、装置、系统和存储介质，可以在多干扰源的公共场所等嘈杂环境中实现对目标音频进行音频增强，提高音频信号的质量和信噪比。

为了更好的理解本发明，下面将结合附图，以地铁站音频购票环境为例，详细描述根据本发明实施例的音频信号处理方法，应注意，这些实施例并不是用来限制本发明公开的范围。

图2示出了根据本发明实施例的麦克风阵列对目标区域进行声源定位的场景示意图。

在本发明实施例中，声源定位是指在实际应用场景中，基于麦克风阵列采集的音频信号，确定音频信号的声源方向或声源的空间位置，从而对音频的声源进行位置探测或者方向探测，确定麦克风阵列和与声源的空间位置关系。作为一个示例，音频的声源可以来自通过麦克风阵列与音频交互设备22进行对话的人。在地铁音频购票环境中，可以基于麦克风阵列对来自购票人10的位置和方向进行探测，确定购票人10相对于麦克风阵列的位置或方向。

如图2所示，在本发明实施例中，可以利用麦克风阵列将接收到的来自不同方位的音频信号，在麦克风阵列的拾音范围内，接收的音频信号可以包括来自购票人10，以及例如噪声1、噪声2和噪声3等干扰源的噪声信号。

在本发明实施例中，利用麦克风阵列进行声源定位的方法通常可以包括以下两种方案。第一种方案是通过麦克风阵列中的两个阵元接收到同一声源的声音信号的强弱，计算每个阵元与该声源之间的距离，从而判断声源的位置；第二种方案是利用麦克风阵列中的两个阵元接收到来自同一声源的声音信号的时间差，利用该时间差确定对声源进行定位。

考虑到多干扰源的强干扰环境对声音信号的强弱影响较大，而对麦克风阵列中每个阵元接收到声音信号的时间差影响较小，检测结果更精确，因此本发明实施例可以采用时延估计(Time Delay Estimation，TDE)的方法进行声源定位。

在一个实施例中，采用时延估计的方法进行声源定位的方法可以包括以下两个步骤。步骤S01，利用时延估计算法计算来自同一个声源到达麦克风阵列中不同阵元的时间差(Time Difference Of Arrival，TDOA)；步骤S02，利用同一个声源到达麦克风阵列中不同阵元的时间差，以及麦克风阵列中阵元之间的几何位置关系估计声源的位置。

在本发明实施例中，步骤S01中常用的时延估计方法可以包括：广义互相关时延估计法、加权广义互相关估计法、自适应时延估计法等。为了便于理解，下面以计算同一声源的声音信号到达麦克风阵列中的两个不同阵元的时间差为例，介绍本发明实施例的时延估计法。

在一个实施例中，广义互相关时延估计法可以将麦克风阵列中的两个阵元接收到的来自同一声源的声音信号作为两个麦克风信号，通过计算这两个麦克风信号之间的互相关函数，利用该互相关函数描述两个麦克风信号之间的相互关系，以此衡量两个麦克风信号之间相似程度和在时间轴上的位置差别，对该互相关函数进行峰值搜索，搜索得到的互相关函数的峰值对应的时刻即这两个麦克风信号的时延差。

在本发明实施例中，声音信号是一种周期信号，时域分析和频域分析是对声音信号进行周期性分析的两种不同方式。简单的说，时域可以用于描述音频信号与时间的关系，即以时间作为变量，分析音频信号随时间的动态变化；而频域可以用于描述音频信号与频率之间的关系，即以频率作为变量，分析音频信号在不同频率时的特性。

在该实施例中，对音频信号进行时域分析时，可以较为直观地获取音频信号的周期和振幅等信息，而将音频信号从时域信号转化为频域信号，通过分析音频信号的频谱特性，在频域对音频信号进行处理，可以获得更高的处理效率和性能。

在一个实施例中，声音信号的时域信号和频域信号可以相互转换。例如，可以通过傅立叶变换算法将音频信号从时域信号变换为频域信号，以及通过傅里叶反变换算法可以将频域信号变换为时域信号。

具体地，傅立叶变换算法的基本原理可以理解为：将通过连续测量得到的声音信号，表示为不同频率的正弦波信号的无限叠加。因此，傅立叶变换可以将直接测量到的声音信号作为原始信号，并以该叠加方式计算声音信号中不同正弦波信号的频率、振幅和相位，从而将时域信号变换为频域信号。

在一个实施例中，对声音信号进行频域分析时，声音信号的功率谱密度函数(如下简称功率谱)可以用于描述声音信号功率随频率的变化关系。两个麦克风信号的互功率密度谱函数(如下可以简称为互谱或互频谱)可以从频域上描述该两个麦克风信号的相互关系，互功率密度谱函数中的每一个谱线可以理解为是一个具有幅度加权的冲击函数。

由此可见，互谱与互相关函数是分别从频域和时域描述上述实施例中的两个麦克风信号的相互关系的两种不同表示。

因此，作为一个示例，本发明实施例中通过广义互相关时延估计法进行声源定位时，首先可以在频域计算出两个麦克风信号的互功率谱函数，并在频域内乘以相应的权重函数，以增强两个麦克风信号中信噪比较高的频率部分，从而抑制干扰源的影响，最后将互功率谱函数通过傅里叶反变换到时域，得到两个麦克风信号之间的互相关函数，该互相关函数的峰值对应的时刻就是该两个麦克风信号的时延差。

在一个实施例中，广义互相关时延估计法的性能取决于选取的权重函数。其中，根据选取的权重函数的不同，加权广义互相关估计法中最具代表性的是采用最大似然(Maximum Likelihood，ML)加权的互相关算法和采用相位变换(Phase Transform，PHAT)加权的互相关算法，用户可以根据实际情况和计算需求进行选择。

在该实施例中，最大似然加权需要已知声源信号的功率谱及干扰源的功率谱，因此理想情况下，最大似然加权的广义互相关时延估计法精度较高，可以达到最优估计，但是考虑到实际应用中强干扰环境中干扰源的复杂多变，最大似然加权的互相关估计法在计算干扰源的功率谱的复杂度高且计算量大。

在该实施例中，相位变换加权是一种利用声源信号和干扰源信号的先验信息，根据声源信号和不同的干扰源信号选择不同的加权函数的加权方式。相位变换加权不需要计算声源信号的功率谱及计算干扰源信号的功率谱，受到噪声干扰时两个麦克风信号的互相关函数的峰值仍然较为突出且容易分辨，表现出了相对较好的鲁棒性。

在一个实施例中，自适应时延估计法是一种可以不依赖声音信号的先验信息，而是根据实际应用场景中声音信号的变化，不断调整参与时延计算的函数参数和函数结构，进而估计出同一个声源到达麦克风阵列中两个不同阵元的时间差的计算方法，因此，自适应时延估计法适用于跟踪动态和时变的音频输入环境。

在本发明实施例的多干扰音频环境中，麦克风阵列中的每个阵元接收到的音频信号可能叠加了多种混响信号，从而造成两个麦克风信号的互相关函数的峰值点可能有多个，针对此问题，可以采用上述实施例描述的相位变换加权的互相关算法进行声源定位。

继续参考图2，进行声源定位时可以预先建立麦克风阵列对应的三维空间坐标系。作为一个示例，该三维空间坐标系的坐标原点M ₀可以是音频交互设备22中麦克风阵列的中心位置，或者麦克风阵列中的任意一个阵元的位置，或指定的其他位置。

在一个实施例中，可以根据麦克风阵列中阵元之间的排列顺序和阵元之间的间隔距离，确定每个之阵元相对于坐标原点M ₀的偏移距离，从而确定每个阵元M _i相对于坐标原点M ₀的三维空间坐标。

在一个实施例中，假设购票人10作为目标声源位于三维空间中的空间位置点S，该位置点S的三维空间坐标可以表示为S(x ₀,y ₀,z ₀)，其中，x ₀,y ₀,z ₀分别为位置点S在三维空间中坐标系的X轴、Y轴和Z轴的坐标值，(x ₀,y ₀,z ₀)表示空间位置点S的三维空间坐标。

在该实施例中，空间位置点S的三维空间坐标和坐标矢量满足：

其中，r ₀表示购票人10所在的空间位置点S(x ₀,y ₀,z ₀)与三维空间坐标系的坐标原点M ₀(x ₀,y ₀,z ₀)之间的距离，俯仰角θ ₀表示空间点S与坐标原点M ₀形成的连线与Z轴正方向的夹角，水平角

表示空间点S在XOY平面的投影S′与坐标原点M ₀形成的连线与X轴正方向的夹角。其中，水平角

的取值范围可以是

俯仰角为θ ₀的取值范围可以是0°≤θ ₀≤360°。

在一个实施例中，可以将r ₀称为是空间位置点S与麦克风阵列的距离，θ ₀称为是空间位置点S与麦克风阵列的俯仰角，

称为是空间位置点S与麦克风阵列的水平角。

在本发明实施例中，在检测到来自音频信号到达两个不同的阵元的时间差后，可以利用该时间差可以计算该同一声源的音频信号到达两个不同的阵元的距离差，在上述步骤S02中，可以利用同一声源的音频信号到达两个不同的阵元的距离差，麦克风阵列中每个阵元的三维空间坐标以及该声源的三维空间坐标，利用几何解析原理，计算该声源相对于麦克风阵列的位置或者方向。

在本发明实施例中，声源定位精度与声源与麦克风阵列的角度(俯仰角和/或水平角)和距离有关，为了提高麦克风阵列的声源定位精度，以及提高音频交互设备22的处理效率，可以预先设置音频信号位置信息的目标区域，检测目标区域内的声源，从而缩小音频交互设备22的声源采集范围，提高跟踪声源目标的准确度和计算效率。

在本发明实施例中，目标音频信号的声源位置的空间区域范围可以根据实际应用场景来确定。音频购票应用场景中，购票人10通常会位于靠近音频购票系统20的一个较为固定的区域范围内，来自该区域范围内的音频信号中包括声源位置的概率更高。因此，在一个实施例中，设定的目标区域满足如下条件，即该区域范围内任意一个空间点R(x _i,y _i,z _i)的坐标矢量满足r _i≤r _max，θ _i≤θ _max，

也就是说，的声源位置的空间区域范围内的空间点R与麦克风阵列的距离小于等于预设的距离最大值r _max，空间点R与麦克风阵列的水平角小于等于预设的水平角最大值

空间点R与麦克风阵列的俯仰角小于等于预设的俯仰角最大值θ _max。

根据本发明实施例的音频信号处理方法，对音频信号进行声源定位后，可以获取来自目标区域的音频信号例如图2所示出的噪声1、噪声2和购票人10，通过目标区域的设定，还可以有效过滤部分干扰源，尤其是非购票人员的音频干扰，从而缩小声源目标的检测范围，提高跟踪声源目标的效率和精确程度。

在一个实施例中，可以通过音频活动检测(Voice Activity Detection，VAD)，确定来自目标区域内的音频信号是否包括目标音频信号。

在本发明实施例中，可以利用音频活动检测组件，从音频信号中检测目标音频信号所在的起点时刻和终点时刻，从而提取该目标音频信号，排除静音段和非目标音频信号的干扰，减少音频识别系统的计算压力，提高音频识别系统的响应速度。

在一个实施例中，该音频活动检测组件可以是利用标注为目标音频的正样本和标注为非目标音频的负样本，预先进行训练得到的。

作为一个示例，可以构建神经网络模型，利用标注为目标音频的正样本和标注为非目标音频的负样本，对该神经网络模型进行训练，得到可以进行音频活动检测的音频活动检测模型，根据该音频活动检测模型生成音频活动检测组件。应理解，本发明实施例对神经网络模型的具体形式不做具体限定，神经网络模型例如可以是深度神经网络、循环神经网络或卷积神经网络等神经网络中的任一种。

作为一个示例，目标音频信号为语音信号时，标注为目标音频的正样本可以是包含语音信号声学特征的音频信号，标注为非目标音频的负样本可以是不包含语音信号声学特征的音频信号。

在一个实施例中，为了在复杂多变的声学环境下对多干扰源形成的噪声信号进行抑制，提高音频信号的信噪比，可以根据目标音频活动检测结果，对不同检测结果中的音频信号分别进行统计，并针对统计的音频信号进行音频增强处理，得到音频增强后的音频信号。

下面结合图3，描述如何通过音频信号的音频活动检测结果，对目标音频信号和非目标音频信号分别进行统计，并利用统计结果进行音频增强处理的具体过程。

图3示出了根据本发明一实施例的音频信号处理方法的流程图。如图3所示，本发明实施例中的音频信号处理方法可以包括：

步骤S310，使用麦克风阵列的多个集音设备接收音频信号，确定音频信号中是否包括目标音频信号。

在该步骤中，目标音频信号为来自目标区域的可以驱动音频交互设备进行交互的音频信号。作为一个示例，该目标音频信号可以是语音信号，也可以是机器播放的有含义的声音，只要能驱动音频交互设备进行交互即可。

在一个实施例中，可以通过上述实施例中描述的声源定位方法，对采集的音频信号进行声源定位，获取定位得到的声源中来自目标区域的音频信号；并可以对来自目标区域的音频信号进行音频活动检测，确定来自目标区域的音频信号中是否包括目标音频信号。

具体地，通过对音频信号的音频活动检测，可以确定该音频信号的每个指定时间段内是否存在目标音频信号，从而对音频信号中每个指定时间段内的目标音频信号或每个指定时间段内的非目标音频信号分别进行统计。

为了简化描述起见，本文下述的多个实施例以音频信号中每个音频帧所占用时间段作为一个指定时间段，对音频信号中的音频帧依次进行处理。但该描述并不能被解读为限制本方案的范围或实施可能性，其他自定义的时间段内的音频信号的处理方法与对每个音频帧的音频信号的处理方法保持一致。

在一个实施例中，音频信号的采样率表示对于音频信号的波形进行处理时，每秒抽取声波幅度样本的次数。采样频率的计量单位可以是赫兹。作为一个示例，对音频信号的采样率为16kHz时，表示每秒对音频信号采样16000次。

在一个实施例中，可以根据每个音频帧的时长，确定单位时间内包含的音频帧的数量。作为一个示例，每个音频帧的时长为0.01秒即10ms时，表示每10ms的音频采样数据构成一个音频帧，即每秒包括100个音频帧。

在该实施例中，如果以每个音频帧作为音频信号的处理单位，根据音频信号的采样率和每个音频帧的时长，可以计算得到每个音频帧中的采样信号对应的采样次数。作为一个示例，音频信号的采样率为16kHz，每个音频帧的采样时长为0.01秒，即每秒对音频信号采样16000次，且每秒包括100个音频帧，则可以确定每个音频帧中包括160个采样点。

为了便于理解，下面以音频信号中的每个音频帧的采样数据为例，描述对音频信号的音频活动检测结果进行统计的具体步骤。

在本发明实施例中，如果将每个集音设备视为在空间中的一个维度采集音频信号，在一个音频帧中，将麦克风阵列的每个集音设备的采样数据按行存放，可以得到每个音频帧的样本矩阵。音频帧的样本矩阵的每行可以表示音频信号在不同的集音设备对应的维度的音频特征，音频帧的样本矩阵的每列可以表示不同的音频采样时间点。

因此，可以将每个音频帧的样本矩阵视为音频信号在一个帧的采样时间内的音频特征的多维正态分布，将每个集音设备视为在空间中的一个维度采集音频信号，假设音频帧样本中某个主要维度最能代表未被噪声干扰的目标音频数据的音频特征，由于音频信号采集过程中，该主要维度受到其他维度的干扰，因此需要确定音频信号各维度在空间和时间中的相关性。

进一步地，由于协方差矩阵可以表征音频信号的不同维度之间的相关性，因此可以通过音频信号的协方差矩阵对该音频信号进行统计。

下面通过具体的实施例描述确定每帧音频信号的协方差矩阵的具体步骤。

在一个实施例中，协方差矩阵的行表示排序后的集音设备；协方差矩阵的列表示与协方差矩阵的行具有相同排序的集音设备；音频帧对应的多个集音设备中任意两个集音设备之间的相关性表示：协方差矩阵中元素的行所在位置对应的集音设备与元素的列所在位置对应的集音设备之间的相关性。

在一个实施例中，确定音频帧对应的协方差矩阵，可以包括如下步骤：

确定音频帧对应的音频采样矩阵，音频采样矩阵的行表示经排序的集音设备，音频采样矩阵的列表示多个音频采样时间点，音频采样矩阵的元素表示元素的行所在位置对应的集音设备，在元素的列所在位置对应的采样时间点采集的音频信号的音频特征；

利用音频帧对应的音频采样矩阵，确定音频帧对应的协方差矩阵。

举例说明，在每帧音频信号的协方差矩阵中，第i行第j列的元素取值，可以用于表示在当前音频帧的时间段内麦克风阵列中第i个集音设备和第j个集音设备的相关关系。在该示例中，如果第i行第j列的元素的取值的绝对值越大，表示第i个集音设备和第j个集音设备相关性越大。

举例来说，可以将该音频帧的样本矩阵作行列互换，得到音频帧的样本矩阵的转置矩阵。则音频帧的样本矩阵的转置矩阵中行和列的关系，可以视为该音频帧的采样时长内，音频采样时间点与集音设备的映射关系。

在该实施例中，在确定集音设备与音频采样时间点的映射关系，和确定音频采样时间点与集音设备的映射关系的情况下，可以通过映射关系的转换，确定该音频帧的采样时长内，集音设备与集音设备的相关关系。

在一个实施例中，可以通过矩阵乘法进行映射关系的转换。也就是说，将音频帧的样本矩阵与音频帧的样本矩阵的转置矩阵，通过矩阵乘法的运算，得到一个新的矩阵，该新的矩阵可以表征集音设备间的对应关系，该新的矩阵即该音频帧的协方差矩阵。

通过上述实施例可知，对于每帧音频信号，均可以计算得到该帧音频信号对应的协方差矩阵。

步骤S320，如果音频信号中包括目标音频信号，确定音频信号对应的多个集音设备的相关性。

在一个实施例中，对于音频信号中的一个音频帧，通过音频活动检测，确定音频帧中是否包括目标音频信号。

在一个实施例中，确定音频信号对应的多个集音设备的相关性的步骤，具体可以包括：

建立音频信号对应的多个集音设备的相关性矩阵，相关性矩阵中元素的取值表示音频信号对应的多个集音设备中任意两个集音设备之间的相关性。

获取音频信号中包括目标音频信号的每个音频帧，确定音频帧对应的协方差矩阵，音频帧对应的协方差矩阵中元素的取值表示音频帧对应的多个集音设备中任意两个集音设备之间的相关性；

根据音频帧对应的协方差矩阵，确定音频信号对应的协方差矩阵，将音频信号对应的协方差矩阵作为音频信号对应的多个集音设备的相关性矩阵。

在该实施例中，根据上述实施例中计算音频帧的协方差矩阵的方法，将该音频帧对应的协方差矩阵与上一个音频帧对应的协方差矩阵，迭代计算每个音频帧对应的协方差矩阵，通过矩阵加法运算，得到音频信号对应的协方差矩阵，实现以增量更新的形式更新该音频信号对应的协方差矩阵。

在该实施例中，每帧音频信号是动态变化的，当检测到一帧音频信号包括目标音频信号时，不需要获取全部目标音频信号帧，再计算获取的全部目标音频信号帧的协方差矩阵，而只需要计算包含目标音频信号的音频信号对应的协方差矩阵，并通过矩阵运算对音频信号对应的集音设备的相关性特征进行增量更新，从而提高音频信号帧的信号特征的统计效率和运算性能。

在一个实施例中，在进行两个音频帧的协方差矩阵的矩阵加法计算时，可以为不同采样时间段的音频帧设置不同的权重值。

在本发明实施例中，为了弱化间隔时间较长的采样时间在先的采样时间段内的音频信号对当前采样时间段内的音频信号的影响，提高对音频信号进行特征分析的准确度，在进行音频帧的协方差矩阵的矩阵运算时，可以设置采样时间段在先的音频帧的协方差矩阵的权重值，小于采样时间段在后的音频帧的协方差矩阵的权重值。

作为一个示例，对于音频帧中的第一音频帧和第二音频帧，如果第一音频帧对应的第一采样时间段和第二音频帧对应的第二采样时间段相比，第一采样时间段早于第二采样时间段，可以设置第一音频帧的协方差矩阵的权重值小于第二音频帧的协方差矩阵的权重值。

步骤S330，利用音频信号对应的多个集音设备的相关性，对音频信号进行音频增强处理，得到音频增强的音频信号。

通过上述实施例可知，音频信号对应的集音设备之间具有相关性且对目标音频造成干扰。因此，降噪处理应使包含目标音频的音频信号对应的集音设备之间的相关性尽可能减弱。

由上述实施例的描述可知，音频帧信号的协方差矩阵的主对角线位置上的元素是麦克风阵列在各个维度上的方差，可用于衡量音频信号在各个维度的能量或权重；而协方差矩阵的主对角线以外位置上的元素可用于衡量多个集音设备中任意两个集音设备之间的相关性。为了使保留下来的集音设备间的相关性尽可能小，应使音频信号的协方差矩阵中对角线以外位置上的元素尽可能小，例如使音频信号的协方差矩阵中对角线以外位置上的元素取值为0。

在一个实施例中，可对音频信号的协方差矩阵进行对角化处理，对角化处理后得到新的矩阵。对角化处理后，新的矩阵的主对角线位置的元素为音频信号的协方差矩阵的特征值，非对角线位置的元素均可以取值为0，即通过对角化处理，保留下的集音设备之间的相关性已经减到最弱，从而避免因集音设备之间的相关性带来的噪声干扰。

在一个实施例中，步骤S330可以包括：

步骤S331，利用相关性矩阵的特征向量，构建音频信号的特征向量矩阵，特征向量矩阵的每列为相关性矩阵的特征向量中的一个，且特征向量矩阵表示多个集音设备之间互不相关的特征空间；

步骤S332，利用音频信号的特征向量矩阵，对音频信号进行特征空间变换，得到去除集音设备之间相关性的音频信号，将去除集音设备之间相关性的音频信号作为音频增强的音频信号。

也就是说，可以通过对音频信号的协方差矩阵进行对角化处理，以去除集音设备之间相关性的音频信号，具体可以包括以下步骤：

步骤S11，对音频信号对应的相关性矩阵进行矩阵特征分解，得到该音频信号对应的相关性矩阵的特征值和与特征值对应的特征向量。

步骤S12，利用与特征值对应的特征向量组成特征向量矩阵，该特征向量矩阵也可以称为是投影矩阵。

步骤S13，利用该投影矩阵，对音频信号的样本矩阵进行特征空间变换，得到特征空间变换后的音频信号对应的新的音频信号的样本矩阵。

在该步骤中，该新的音频信号的样本矩阵即音频增强的音频信号。特征空间变化后的音频信号对应的集音设备之间的相关性已经降到最弱，从而实现对音频信号的降噪。

在一个实施例中，音频信号处理方法，还包括：

步骤S340，如果音频信号中包括目标音频信号，将音频信号作为目标信号，确定目标信号的信号频率；如果音频信号中包括非目标音频信号，将音频信号作为噪声信号，确定噪声信号的信号频率。

步骤S350，基于目标信号的信号频率和噪声信号的信号频率，对目标信号进行音频增强处理，得到音频增强的音频信号。

在该实施例中，通过对音频信号的信号频率进行滤波处理，保留具有特定频率的音频信号，滤除特定频率以外的其他频率的音频信号，从而去除目标音频信号的信号频率以外的干扰噪声。

在一个实施例中，可以通过音频滤波器对音频信号进行滤波处理。音频滤波器可以视为音频信号的频率选择装置，通过音频滤波器可以使音频信号中特定频率的音频信号通过，衰减特定频率以外的其他频率的音频信号，从而滤除音频信号中的干扰噪声。该特定频率例如可以是目标信号的信号频率，特定频率以外的其他频率例如可以是噪声信号的信号频率。

在该实施例中，滤波处理包括保留特定频率的音频信号，去除滤波频率阈值范围内的音频信号。

在本发明实施例中，可以将目标信号作为音频观察信号，噪声信号作为音频参考信号，将音频观察信号和音频参考信号输入音频滤波器，该音频滤波器的滤波频率阈值范围可以不是一个固定的频率范围，而是可以利用音频参考信号，使音频滤波器的滤波频率阈值范围跟随音频参考信号的频率而变化，从而消除音频信号中的噪声干扰，并使得对音频信号的滤波处理更有针对性，实现对音频信号的自适应滤波处理，实现音频信号的音频增强。

在本发明实施例中，为了获得更好的音频增强效果，如果音频信号中包括目标音频信号，可以首先去除音频信号对应的集音设备之间的相关性，得到去除相关性的音频信号；其次，获取非目标音频信号的频率范围，根据非目标音频信号的频率范围确定滤波频率阈值范围；最后，对去除相关性的音频信号，去除信号频率在滤波频率阈值范围内的音频信号，得到增强的音频信号，得到更好的音频增强效果。

根据本发明实施例的音频信号处理方法，可以实时检测音频信号中是否存在目标音频信号，如果音频信号中存在目标音频信号，确定该音频信号中集音设备之间的相关性特征，根据该集音设备之间的相关性特征对音频信号进行增强处理，得到增强的目标音频信号，整个音频信号处理过程不需要检测多个干扰源的具体信息，因此可以适应复杂多变的干扰环境，提高音频信号的降噪比，具有更强的实用性。

图4示出了根据本发明一实施例的音频信号处理方法的流程示意图。如图4所示，在一个实施例中，本发明实施例中的音频信号处理方法400包括以下步骤：

步骤S410，使用麦克风阵列的多个集音设备接收音频信号，确定音频信号中是否包括目标音频信号。

在一个实施例中，步骤S410中，确定音频信号中是否包括目标音频信号的步骤，具体可以包括：

步骤S411，对音频信号进行声源定位，确定音频信号中声源的位置信息；

步骤S412，根据声源的位置信息，获取目标位置区域，确定来自目标位置区域的音频信号中是否包括目标音频信号。

步骤S420，如果音频信号中包括目标音频信号，确定音频信号对应的多个集音设备的相关性。

在一个实施例中，确定音频信号对应的多个集音设备的相关性的步骤，具体可以包括：建立音频信号对应的多个集音设备的相关性矩阵，相关性矩阵中元素的取值表示音频信号对应的多个集音设备中任意两个集音设备之间的相关性。

对音频信号进行声源定位，确定音频信号中声源的位置信息；

根据声源的位置信息，获取目标位置区域，确定来自目标位置区域的音频信号中是否包括目标音频信号。

在一个实施例中，确定音频信号对应的多个集音设备的相关性的步骤，具体可以包括：对于音频信号中的一个音频帧，通过音频活动检测，确定音频帧中是否包括目标音频信号。

在该步骤中，音频活动检测的步骤具体可以包括：

使用训练好的音频活动检测模型对音频信号进行音频活动检测，其中，对音频活动检测模型进行训练所使用的样本，可以包括语音信号的声学特征。

步骤S421，获取音频信号中包括目标音频信号的每个音频帧，确定音频帧对应的协方差矩阵，音频帧对应的协方差矩阵中元素的取值表示音频帧对应的多个集音设备中任意两个集音设备之间的相关性；

步骤S422，根据音频帧对应的协方差矩阵，确定音频信号对应的协方差矩阵，将音频信号对应的协方差矩阵作为音频信号对应的多个集音设备的相关性矩阵。

在一个实施例中，确定音频帧对应的协方差矩阵的步骤，可以包括：确定音频帧对应的音频采样矩阵，音频采样矩阵的行表示经排序的集音设备，音频采样矩阵的列表示多个音频采样时间点，音频采样矩阵的元素表示元素的行所在位置对应的集音设备，在元素的列所在位置对应的采样时间点采集的音频信号的音频特征；利用音频帧对应的音频采样矩阵，确定音频帧对应的协方差矩阵。

步骤S430，利用音频信号对应的多个集音设备的相关性，对音频信号进行音频增强处理，得到音频增强的音频信号。

在一个实施例中，可以利用音频信号对应的多个集音设备的相关性矩阵，对音频信号进行音频增强处理，得到音频增强的音频信号。

在一个实施例中，步骤S430具体可以包括：

步骤S431，利用相关性矩阵的特征向量，构建音频信号的特征向量矩阵，特征向量矩阵的每列为相关性矩阵的特征向量中的一个，且特征向量矩阵表示多个集音设备之间互不相关的特征空间。

步骤S432，利用音频信号的特征向量矩阵，对音频信号进行特征空间变换，得到去除集音设备之间相关性的音频信号，将去除集音设备之间相关性的音频信号作为音频增强的音频信号。

在一个实施例中，音频信号处理方法400还可以包括：

步骤S440，如果音频信号中包括目标音频信号，将音频信号作为目标信号，确定目标信号的信号频率。

步骤S450，如果音频信号中包括非目标音频信号，将音频信号作为噪声信号，确定噪声信号的信号频率。

步骤S460，基于目标信号的信号频率和噪声信号的信号频率，对目标信号进行音频增强处理，得到音频增强的音频信号。

在一个实施例中，步骤S460具体可以包括：

步骤S21，获取噪声的信号频率的取值范围，将噪声的信号频率的取值范围作为噪声频率范围；

步骤S22，去除目标信号中信号频率在噪声频率范围内的音频信号，得到音频增强的音频信号。

根据本发明实施例的音频信号处理方法，可以对音频信号进行声源定位和音频活动检测，并进行音频增强处理增量，整个音频信号处理过程不需要检测多个干扰源的具体信息，因此可以适应复杂多变的干扰环境，提高音频信号的信噪比。

图5示出了根据本发明实施例的音频信号处理装置的模块示意图，如图5所示，音频信号处理装置500可以包括：

音频信号检测模块510，用于使用麦克风阵列的多个集音设备接收音频信号，确定音频信号中是否包括目标音频信号；

相关性确定模块520，用于如果音频信号中包括目标音频信号，确定音频信号对应的多个集音设备的相关性；

音频信号增强模块530，用于利用音频信号对应的多个集音设备的相关性，对音频信号进行音频增强处理，得到音频增强的音频信号。

在一个实施例中，音频信号检测模块510可以包括：

声源定位单元，用于对音频信号进行声源定位，确定音频信号中声源的位置信息。

目标音频获取单元，用于根据声源的位置信息，获取目标位置区域，确定来自目标位置区域的音频信号中是否包括目标音频信号。

在一个实施例中，相关性确定模块520具体可以包括：

对于音频信号中的一个音频帧，通过音频活动检测，确定音频帧中是否包括目标音频信号。

在一个实施例中，相关性确定模块520具体可以包括：相关性确定模块，包括：

音频帧相关性确定单元，用于获取音频信号中包括目标音频信号的每个音频帧，确定音频帧对应的协方差矩阵，音频帧对应的协方差矩阵中元素的取值表示音频帧对应的多个集音设备中任意两个集音设备之间的相关性；

音频信号相关性确定单元，用于根据音频帧对应的协方差矩阵，确定音频信号对应的协方差矩阵，将音频信号对应的协方差矩阵作为音频信号对应的多个集音设备的相关性矩阵。

在该实施例中，协方差矩阵的行表示排序后的集音设备；协方差矩阵的列表示与协方差矩阵的行具有相同排序的集音设备；音频帧对应的多个集音设备中任意两个集音设备之间的相关性表示：协方差矩阵中元素的行所在位置对应的集音设备与元素的列所在位置对应的集音设备之间的相关性。

在该实施例中，音频帧相关性确定单元，具体用于：

确定音频帧对应的音频采样矩阵，音频采样矩阵的行表示经排序的集音设备，音频采样矩阵的列表示多个音频采样时间点，音频采样矩阵的元素表示元素的行所在位置对应的集音设备，在元素的列所在位置对应的采样时间点采集的音频信号的音频特征；利用音频帧对应的音频采样矩阵，确定音频帧对应的协方差矩阵。

在一个实施例中，音频信号增强模块530具体可以包括：

特征向量确定单元，用于利用相关性矩阵的特征向量，构建音频信号的特征向量矩阵，特征向量矩阵的每列为相关性矩阵的特征向量中的一个，且特征向量矩阵表示多个集音设备之间互不相关的特征空间。

音频信号增强模块，还用于利用音频信号的特征向量矩阵，对音频信号进行特征空间变换，得到去除集音设备之间相关性的音频信号，将去除集音设备之间相关性的音频信号作为音频增强的音频信号。

在一个实施例中，音频信号处理装置500还可以包括：

目标信号频率确定单元，用于如果音频信号中包括目标音频信号，将音频信号作为目标信号，确定目标信号的信号频率。

噪声信号频率确定单元，用于如果音频信号中包括非目标音频信号，将音频信号作为噪声信号，确定噪声信号的信号频率。

音频信号增强模块530，还可以用于基于目标信号的信号频率和噪声信号的信号频率，对目标信号进行音频增强处理，得到音频增强的音频信号。

在一个实施例中，音频信号增强模块530还可以用于：

获取噪声的信号频率的取值范围，将噪声的信号频率的取值范围作为噪声频率范围；去除目标信号中信号频率在噪声频率范围内的音频信号，得到音频增强的音频信号。

在该实施例中，采用自适应滤波等滤波方式对音频信号中的非目标音频信号进行过滤，得到增强的音频信号。

在该实施例中，可以采用去除音频信号对应的集音设备之间的相关性干扰和自适应信号频率滤波的方式对音频信号进行音频增强处理，得到增强的音频信号。

根据发明实施例的音频信号处理装置，可以在多干扰源的嘈杂环境下实时检测音频信号中在目标区域是否存在目标音频信号，根据检测结果确定目标音频信号的信号特征，对音频信号进行音频增强处理，得到增强的音频信号，提高音频信号的信噪比，具有更好的实用性。

本发明实施例的音频信号处理装置的具体细节，可以参考前述音频信号处理方法实施例中的对应过程，在此不再赘述。

图6是示出能够实现根据本发明实施例的音频信号处理方法和装置的计算设备的示例性硬件架构的结构图。

如图6所示，计算设备600包括输入设备601、输入接口602、中央处理器603、存储器604、输出接口605、以及输出设备606。其中，输入接口602、中央处理器603、存储器604、以及输出接口605通过总线610相互连接，输入设备601和输出设备606分别通过输入接口602和输出接口605与总线610连接，进而与计算设备600的其他组件连接。具体地，输入设备601接收来自外部(例如，麦克风阵列)的输入信息，并通过输入接口602将输入信息传送到中央处理器603；中央处理器603基于存储器604中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器604中，然后通过输出接口605将输出信息传送到输出设备606；输出设备606将输出信息输出到计算设备600的外部供用户使用。

也就是说，图6所示的计算设备也可以被实现为包括：存储有计算机可执行指令的存储器；以及处理器，该处理器在执行计算机可执行指令时可以实现结合图1至图5描述的音频信号处理方法和装置。这里，处理器可以与音频交互设备使用的麦克风阵列进行通信，从而基于来自音频交互设备的相关信息执行计算机可执行指令，从而实现结合图1至图5描述的音频信号处理方法和装置。

在一个实施例中，图6所示的计算设备600可以被实现为一种音频信号处理设备，包括存储器和处理器；存储器用于储存有可执行程序代码；处理器用于读取存储器中存储的可执行程序代码以执行如上结合图1至图5描述的音频信号处理方法。

本发明实施例的计算设备的具体细节，可以参考前述音频信号处理方法实施例中的对应过程，在此不再赘述。

图7示出了根据本发明实施例的音频交互设备的结构示意图。如图7所示，本发明实施例提供一种音频交互设备，在一个实施例中，音频交互设备700包括：

音频信号检测器710，用于使用麦克风阵列的多个集音设备接收音频信号，确定音频信号中是否包括目标音频信号；

目标音频分离器720，用于如果音频信号中包括目标音频信号，确定音频信号对应的多个集音设备的相关性；

目标音频增强器730，用于利用音频信号对应的多个集音设备的相关性，对音频信号进行音频增强处理，得到音频增强的音频信号。

在一个实施例中，该音频交互设备700还包括：

目标音频分离器，还用于如果音频信号中包括目标音频信号，将音频信号作为目标信号，确定目标信号的信号频率；

干扰音频分离器740，用于如果音频信号中包括非目标音频信号，将音频信号作为噪声信号，确定噪声信号的信号频率；

目标音频增强器730，还用于基于目标信号的信号频率和噪声信号的信号频率，对目标信号进行音频增强处理，得到音频增强的音频信号。

本发明实施例的音频交互设备的具体细节，可以参考前述音频信号处理方法实施例中的对应过程，在此不再赘述。

根据发明实施例的音频交互设备，可以在多干扰源的嘈杂环境下实现自适应的音频增强，从而提高音频信号的信噪比，具有更好的实用性。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品或计算机可读存储介质的形式实现。所述计算机程序产品或计算机可读存储介质包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

一种音频信号处理方法，包括：

使用麦克风阵列的多个集音设备接收音频信号，确定所述音频信号中是否包括目标音频信号；

如果所述音频信号中包括目标音频信号，确定所述音频信号对应的所述多个集音设备的相关性；

利用所述音频信号对应的所述多个集音设备的相关性，对所述音频信号进行音频增强处理，得到音频增强的音频信号。
根据权利要求1所述的音频信号处理方法，其中，所述确定所述音频信号对应的所述多个集音设备的相关性，包括：

建立所述音频信号对应的所述多个集音设备的相关性矩阵，所述相关性矩阵中元素的取值表示所述音频信号对应的所述多个集音设备中任意两个集音设备之间的相关性。
根据权利要求1所述的音频信号处理方法，其中，所述确定所述音频信号中是否包括目标音频信号，包括：

对所述音频信号进行声源定位，确定所述音频信号中声源的位置信息；

根据所述声源的位置信息，获取目标位置区域，确定来自所述目标位置区域的音频信号中是否包括目标音频信号。
根据权利要求1所述的音频信号处理方法，其中，所述确定所述音频信号中是否包括目标音频信号，包括：

对于所述音频信号中的一个音频帧，通过音频活动检测，确定所述音频帧中是否包括所述目标音频信号。
根据权利要求1所述的音频信号处理方法，其中，所述确定所述音频信号对应的所述多个集音设备的相关性，包括：

获取所述音频信号中包括目标音频信号的每个音频帧，确定所述音频帧对应的协方差矩阵，所述音频帧对应的协方差矩阵中元素的取值表示所述音频帧对应的所述多个集音设备中任意两个集音设备之间的相关性；

根据所述音频帧对应的协方差矩阵，确定所述音频信号对应的协方差矩阵，将所述音频信号对应的协方差矩阵作为所述音频信号对应的所述多个集音设备的相关性矩阵。
根据权利要求5所述的音频信号处理方法，其中，

所述协方差矩阵的行表示排序后的集音设备；

所述协方差矩阵的列表示与所述协方差矩阵的行具有相同排序的集音设备；

所述音频帧对应的所述多个集音设备中任意两个集音设备之间的相关性表示：所述协方差矩阵中元素的行所在位置对应的集音设备与所述元素的列所在位置对应的集音设备之间的相关性。
根据权利要求5所述的音频信号处理方法，其中，所述确定所述音频帧对应的协方差矩阵，包括：

确定所述音频帧对应的音频采样矩阵，所述音频采样矩阵的行表示经排序的集音设备，所述音频采样矩阵的列表示多个音频采样时间点，所述音频采样矩阵的元素表示所述元素的行所在位置对应的集音设备，在所述元素的列所在位置对应的采样时间点采集的音频信号的音频特征；

利用所述音频帧对应的音频采样矩阵，确定所述音频帧对应的协方差矩阵。
根据权利要求2所述的音频信号处理方法，所述利用所述音频信号对应的所述多个集音设备的相关性矩阵，对所述音频信号进行音频增强处理，得到音频增强的音频信号，包括：

利用所述相关性矩阵的特征向量，构建所述音频信号的特征向量矩阵，所述特征向量矩阵的每列为所述相关性矩阵的特征向量中的一个，且所述特征向量矩阵表示所述多个集音设备之间互不相关的特征空间；

利用所述音频信号的特征向量矩阵，对所述音频信号进行特征空间变换，得到去除所述集音设备之间相关性的音频信号，将所述去除所述集音设备之间相关性的音频信号作为所述音频增强的音频信号。
根据权利要求1所述的音频信号处理方法，还包括：

如果所述音频信号中包括目标音频信号，将所述音频信号作为目标信号，确定所述目标信号的信号频率；

如果所述音频信号中包括非目标音频信号，将所述音频信号作为噪声信号，确定所述噪声信号的信号频率；

基于所述目标信号的信号频率和所述噪声信号的信号频率，对所述目标信号进行音频增强处理，得到音频增强的音频信号。
根据权利要求9所述的音频信号处理方法，其中，所述基于所述目标信号的信号频率和所述噪声的信号频率，对所述目标信号进行音频增强处理，得到音频增强的音频信号，包括：

获取所述噪声的信号频率的取值范围，将所述噪声的信号频率的取值范围作为噪声频率范围；

去除所述目标信号中信号频率在所述噪声频率范围内的音频信号，得到所述音频增强的音频信号。
一种音频信号处理装置，包括：

音频信号检测模块，用于使用麦克风阵列的多个集音设备接收音频信号，确定所述音频信号中是否包括目标音频信号；

相关性确定模块，用于如果所述音频信号中包括目标音频信号，确定所述音频信号对应的所述多个集音设备的相关性；

音频信号增强模块，用于利用所述音频信号对应的所述多个集音设备的相关性，对所述音频信号进行音频增强处理，得到音频增强的音频信号。
根据权利要求11所述的音频信号处理装置，其中，所述相关性确定模块，具体用于：

建立所述音频信号对应的所述多个集音设备的相关性矩阵，所述相关性矩阵中元素的取值表示所述音频信号对应的所述多个集音设备中任意两个集音设备之间的相关性。
根据权利要求11所述的音频信号处理装置，其中，所述音频信号检测模块，包括：

声源定位单元，用于对所述音频信号进行声源定位，确定所述音频信号中声源的位置信息；

目标区域确定单元，用于根据所述声源的位置信息，获取目标位置区域，确定来自所述目标位置区域的音频信号中是否包括目标音频信号。
根据权利要求11所述的音频信号处理装置，其中，所述相关性确定模块，具体用于：

对于所述音频信号中的一个音频帧，通过音频活动检测，确定所述音频帧中是否包括所述目标音频信号。
根据权利要求11所述的音频信号处理装置，其中，所述相关性确定模块，包括：

音频帧相关性确定单元，用于获取所述音频信号中包括目标音频信号的每个音频帧，确定所述音频帧对应的协方差矩阵，所述音频帧对应的协方差矩阵中元素的取值表示所述音频帧对应的所述多个集音设备中任意两个集音设备之间的相关性；

音频信号相关性确定单元，用于根据所述音频帧对应的协方差矩阵，确定所述音频信号对应的协方差矩阵，将所述音频信号对应的协方差矩阵作为所述音频信号对应的所述多个集音设备的相关性矩阵。
根据权利要求15所述的音频信号处理装置，其中，

所述协方差矩阵的行表示排序后的集音设备；

所述协方差矩阵的列表示与所述协方差矩阵的行具有相同排序的集音设备；

所述音频帧对应的所述多个集音设备中任意两个集音设备之间的相关性表示：所述协方差矩阵中元素的行所在位置对应的集音设备与所述元素的列所在位置对应的集音设备之间的相关性。
根据权利要求15所述的音频信号处理装置，其中，所述音频帧相关性确定单元，具体用于：

确定所述音频帧对应的音频采样矩阵，所述音频采样矩阵的行表示经排序的集音设备，所述音频采样矩阵的列表示多个音频采样时间点，所述音频采样矩阵的元素表示所述元素的行所在位置对应的集音设备，在所述元素的列所在位置对应的采样时间点采集的音频信号的音频特征；

利用所述音频帧对应的音频采样矩阵，确定所述音频帧对应的协方差矩阵。
根据权利要求12所述的音频信号处理装置，其中，所述音频信号增强模块，包括：

特征向量确定单元，用于利用所述相关性矩阵的特征向量，构建所述音频信号的特征向量矩阵，所述特征向量矩阵的每列为所述相关性矩阵的特征向量中的一个，且所述特征向量矩阵表示所述多个集音设备之间互不相关的特征空间；

所述音频信号增强模块，还用于利用所述音频信号的特征向量矩阵，对所述音频信号进行特征空间变换，得到去除所述集音设备之间相关性的音频信号，将所述去除所述集音设备之间相关性的音频信号作为所述音频增强的音频信号。
根据权利要求11所述的音频信号处理装置，还包括：

目标信号频率确定单元，用于如果所述音频信号中包括目标音频信号，将所述音频信号作为目标信号，确定所述目标信号的信号频率；

噪声信号频率确定单元，用于如果所述音频信号中包括非目标音频信号，将所述音频信号作为噪声信号，确定所述噪声信号的信号频率；

所述音频信号增强模块，还用于基于所述目标信号的信号频率和所述噪声信号的信号频率，对所述目标信号进行音频增强处理，得到音频增强的音频信号。
根据权利要求19所述的音频信号处理装置，其中，所述音频信号增强模块，还用于：

获取所述噪声的信号频率的取值范围，将所述噪声的信号频率的取值范围作为噪声频率范围；

去除所述目标信号中信号频率在所述噪声频率范围内的音频信号，得到所述音频增强的音频信号。
一种音频信号处理设备，其特征在于，包括存储器和处理器；

所述存储器用于储存有可执行程序代码；

所述处理器用于读取所述存储器中存储的可执行程序代码以执行权利要求1至10任一项所述的音频信号处理方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1-10任意一项所述的音频信号处理方法。
一种音频交互设备，包括：

音频信号检测器，用于使用麦克风阵列的多个集音设备接收音频信号，确定所述音频信号中是否包括目标音频信号；

目标音频分离器，用于如果所述音频信号中包括目标音频信号，确定所述音频信号对应的所述多个集音设备的相关性；

目标音频增强器，用于利用所述音频信号对应的所述多个集音设备的相关性，对所述音频信号进行音频增强处理，得到音频增强的音频信号。
根据权利要求23所述的音频交互设备，还包括：

所述目标音频分离器，还用于如果所述音频信号中包括目标音频信号，将所述音频信号作为目标信号，确定所述目标信号的信号频率；

干扰音频分离器，用于如果所述音频信号中包括非目标音频信号，将所述音频信号作为噪声信号，确定所述噪声信号的信号频率；

所述目标音频增强器，还用于基于所述目标信号的信号频率和所述噪声信号的信号频率，对所述目标信号进行音频增强处理，得到音频增强的音频信号。