WO2015196760A1

WO2015196760A1 - 一种麦克风阵列语音检测方法及装置

Info

Publication number: WO2015196760A1
Application number: PCT/CN2014/094542
Authority: WO
Inventors: 范泛; 付中华; 黎家力
Original assignee: 中兴通讯股份有限公司
Priority date: 2014-06-27
Filing date: 2014-12-22
Publication date: 2015-12-30
Also published as: CN105321528A; CN105321528B

Abstract

一种麦克风阵列语音检测方法及装置，所述方法包括如下步骤：根据阵列语音输入信号的固定波束输出功率谱和平均功率谱计算阵列语音输入信号的最大子带功率比（101）；根据预先设定的判断条件，采用所述最大子带功率比和当前检测阈值判断当前所处的语音状态（102）；当判断当前转入的语音状态为预设的检测阈值调整状态时，对检测阈值进行调整（103）。该麦克风阵列语音检测方法及装置，在复杂噪声条件下能够准确确定检测阈值，提高噪声检测的准确度。

Description

一种麦克风阵列语音检测方法及装置

技术领域

本发明涉及语音处理技术，尤其涉及一种麦克风阵列语音检测方法及装置。

背景技术

在语音通信和人机语音交互中，语音检测是一个重要的环节，准确检测语音信号对语音的识别、增强、编码等等都有重要影响。传统的单通道语音检测通常都以某种特征为检测依据，通过对输入的信号进行特征分析，然后用分类器进行检测。由于实时性的要求，特征分析和分类器检测都相对简单，特征分析所常用的特征包括短时能量、过零率或其他的谱特征等，而分类器也以阈值判定、线性分离器等为主。这些检测方法在复杂噪声条件下检测性能极其有限，噪声环境下语音检测的基本假设是噪声与语音信号的特征不同，这在实际当中存在如下困难：检测阈值的确定不够准确，特别是变化的噪声环境，检测阈值更是难以确定。

发明内容

本发明实施例提供一种麦克风阵列语音方法及装置，在复杂噪声条件下能够准确确定检测阈值，提高噪声检测的准确度。

根据本发明的一个方面，本发明实施例提供了一种麦克风阵列语音检测方法，包括：

根据阵列语音输入信号的固定波束输出功率谱和平均功率谱计算阵列语音输入信号的最大子带功率比；

根据预先设定的判断条件，采用所述最大子带功率比和当前检测阈值判断当前所处的语音状态；

当判断当前转入的语音状态为预设的检测阈值调整状态时，对检测阈值进行调整。

可选地，计算阵列语音输入信号的最大子带功率比和检测阈值的步骤包括：

采用帧间回归平滑和频域平滑的方式估算阵列语音输入信号的固定波束输出功率谱，并采用帧间平滑和频域平滑的方式估算阵列语音输入信号的平均功率谱；

根据所述固定波束输出功率谱和平均功率谱的比值计算每个频点功率比；

以频点功率比最大的频点为中心，在设定宽度的子带范围内，根据所述子带范围内的平均功率比，采用帧间回归平滑的方式估计最大子带功率比。

可选的，所述固定波束输出功率谱计算公式为：

其中，k为频点编号；λ为短时帧编号；

为短时帧编号为λ时的当前帧波束输出信号功率谱；a_x为第一回归系数；l₁为预设定频点数，其中，0<a_x<1，k，λ，b，l₁分别为正整数；

所述阵列语音输入信号的平均功率谱的计算公式为：

为短时帧编号为λ时的当前帧的平均功率谱；a_y为第二回归系数，0<a_y<1；

所述每个频点功率比的计算公式为：

所述最大子带功率谱比的计算公式为：

r(λ)＝a_rr(λ-1)+(1-a_r)r(λ)；

r(λ-1)为r(λ)的上次计算结果，r(λ-1)初始值为设定宽度的子带范围内的平均功率比；a_r为第三回归系数，0<a_γ<1。

可选地，所述检测阈值调整状态包括有语音状态。

可选地，根据预先设定的判断条件，采用所述最大子带功率比和检测阈值判断当前所处的语音状态的步骤具体包括：

若当前处于语音开始状态且最大子带功率大于当前检测阈值、且连续处于语音开始状态的帧数大于设定的第一帧数阈值，则判断转入有语音状态；

若当前处于语音结束状态且最大子带功率大于当前检测阈值，则判断转入有语音状态。

可选地，根据预先设定的判断条件，采用所述最大子带功率比和检测阈值判断当前所处的语音状态的步骤还包括：

若当前处于无语音状态且最大子带功率比大于当前检测阈值，则判断转入语音开始状态；

若当前处于语音开始状态且最大子带功率小于等于当前检测阈值，则判断转入无语音状态；

若当前处于有语音状态且最大子带功率小于等于当前检测阈值，则判断转入语音结束状态；

若当前处于有语音状态且最大子带功率小于等于当前检测阈值、且连续处于语音结束状态的帧数大于设定的第二帧数阈值，则判断转入无语音状态。

可选地，根据阵列语音输入信号的固定波束输出功率谱和平均功率谱计算阵列语音输入信号的最大子带功率比的步骤之前，还包括：

接收通过语音采集设备输入的阵列语音输入信号；

对所述阵列语音输入信号进行加窗截短，并进行短时傅里叶变换处理，得到所述阵列语音输入信号的时频表示信号；

根据所述时频表示信号计算频域固定波束输出；

根据所述频域固定波束输出计算阵列当前语音帧平均功率谱和阵列当前语音帧波束输出信号功率谱；

根据所述阵列当前语音帧平均功率谱计算阵列语音输入信号的固定波束输出功率谱；并根据所述阵列当前语音帧波束输出信号功率谱计算阵列语音输入信号的平均功率谱。

可选地，所述固定波束输出采用所述原始阵列语音信号的时频表示信号乘以相应的预设波束参数；若采用A(k)表示阵元为a_i(k)的矩阵，其中i＝1……N，所述预设波束参数通过下述公式进行确定：

约束条件为A^H(k)d(k)＝1，并且，

Γ(k)为目标语音信号的理想扩散场归一化相干矩阵，该矩阵为N×N矩阵，其第n₁行n₂列元素为：

上述关于Γ(k)的公式中，

为第n₁个麦克风和第n₂个麦克风之间的距离，c是声速，K是短时傅里叶变换的长度；

WNG_min(k)是白噪声增益；

d(k)为目标声源到语音采集设备的空间导向矢量，其计算公式为：

上述公式中，θ为目标声源到语音采集设备的方位角；d₁……d_N是第1到N个数字语音采集设备到数字语音采集设备阵列中心的距离；f_s是采样频率，N为正整数。

可选地，当判断当前转入的语音状态为预设的检测阈值调整状态时，依据下述公式对检测阈值进行调整：

其中，θ′(λ)为调整后的检测阈值；θ_L、θ_H分别为预设的语音检测阈值下限和上限；

为有语音状态时对最大子带功率谱比进行缓慢回归平滑的值。

根据本发明的另一方面，本发明实施例还提供一种麦克风阵列语音检测装置，包括：

第一计算模块：设置为根据阵列语音输入信号的固定波束输出功率谱和平均功率谱计算阵列语音输入信号的最大子带功率比；

状态判断模块：设置为根据预先设定的判断条件，采用所述最大子带功率比和当前检测阈值判断当前所处的语音状态；

阈值调整模块：设置为当判断当前转入的语音状态为预设的检测阈值调整状态时，对检测阈值进行调整。

可选地，第一计算模块具体包括：

第一计算单元：设置为采用帧间回归平滑和频域平滑的方式估算阵列语音输入信号的固定波束输出功率谱，并采用帧间平滑和频域平滑的方式估算阵列语音输入信号的平均功率谱；

第二计算单元：设置为根据所述固定波束输出功率谱和平均功率谱的比值计算每个频点功率比；

第三计算单元：设置为以频点功率比最大的频点为中心，在设定宽度的子带范围内，根据所述子带范围内的平均功率比，采用帧间回归平滑的方式估计最大子带功率比。

可选地，所述固定波束输出功率谱计算公式为：

其中，k为频点编号；λ为短时帧编号；

所述阵列语音输入信号的平均功率谱的计算公式为：

所述每个频点功率比的计算公式为：

所述最大子带功率谱比的计算公式为：

r(λ)＝a_rr(λ-1)+(1-a_r)r(λ)；

可选地，所述检测阈值调整状态包括有语音状态。

可选地，所述状态判断模块具体包括：

第一判断单元：设置为在当前处于语音开始状态且最大子带功率大于当前检测阈值、且连续处于语音开始状态的帧数大于设定的第一帧数阈值时，判断转入有语音状态；

和/或，第二判断单元：设置为在当前处于语音结束状态且最大子带功率大于当前检测阈值时，判断转入有语音状态。

可选的，所述状态判断模块还包括：

第三判断单元：设置为在前处于无语音状态且最大子带功率比大于当前检测阈值时，判断转入语音开始状态；

第四判断单元：设置为在当前处于语音开始状态且最大子带功率小于等于当前检测阈值时，判断转入无语音状态；

第五判断单元：设置为在当前处于有语音状态且最大子带功率小于等于当前检测阈值是，判断转入语音结束状态；

第六判断单元：设置为在当前处于有语音状态且最大子带功率小于等于当前检测阈值、且连续处于语音结束状态的帧数大于设定的第二帧数阈值时，判断转入无语音状态。

可选地，所述装置还包括：

信号接收模块：设置为接收通过语音采集设备输入的阵列语音输入信号；

信号变换模块：设置为对所述阵列语音输入信号进行加窗截短，并进行短时傅里叶变换处理，得到所述阵列语音输入信号的时频表示信号；

第二计算模块：设置为根据所述时频表示信号计算频域固定波束输出；

第三计算模块：设置为根据所述频域固定波束输出计算阵列当前帧平均功率谱和当前帧波束输出信号功率谱；

第四计算模块：设置为根据所述阵列当前帧平均功率谱计算阵列语音输入信号的固定波束输出功率谱；并根据所述当前帧波束输出信号功率谱计算阵列语音输入信号的平均功率谱。

约束条件为A^H(k)d(k)＝1，并且，

上述关于Γ(k)的公式中，

WNG_min(k)是白噪声增益；

可选地，所述阈值调整模块依据下述公式对检测阈值进行调整：

从上面所述可以看出，本发明实施例提供的麦克风语音检测方法及装置，在根据预设的条件判断处于语音状态时，对检测阈值进行调整，即使在变化的噪声环境中，也可以辅助确定检测阈值。此外，本发明实施例在语音检测过程中，根据预设的波束参数对语音信号进行处理，增强语音信号的指向性，降低噪声或其他语音信号对语音检测设备和系统造成的影响。

附图概述

图1为本发明一实施例的麦克风语音检测方法流程示意图；

图2为本发明一实施例中计算阵列语音输入信号的最大子带功率比和检测阈值的步骤的过程；

图3为本发明另一实施例包含的步骤示意图；

图4为本发明一实施例的状态转换示意图；

图5为本发明一实施例的麦克风语音检测装置结构示意图；

图6为本发明一实施例中计算频域固定波束输出时的信号流图；

图7为本发明一实施例中计算当前帧平均功率谱时的信号流图。

本发明的较佳实施方式

下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。另外，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明实施例提供一种麦克风阵列语音检测方法，如图1所示，包括以下步骤：

步骤101：根据阵列语音输入信号的固定波束输出功率谱和平均功率谱计算阵列语音输入信号的最大子带功率比；

步骤102：根据预先设定的判断条件，采用所述最大子带功率比和当前检测阈值判断当前所处的语音状态；

步骤103：当判断当前转入的语音状态为预设的检测阈值调整状态时，对检测阈值进行调整。

本发明实施例提供的麦克风阵列语音检测方法，按照预先设定的判断条件，对当前所处的语音状态进行判断，并在当前转入的语音状态为预设的检测阈值调整状态时，对检测阈值进行调整。在调整检测阈值时的语音状态下，阵列语音输入信号的最大子带功率比处于设定的范围，这样可以在变化的噪声环境中较为准确地确定检测阈值。

在本发明的一些实施例中，计算阵列语音输入信号的最大子带功率比和检测阈值的步骤，具体包括如图2所示的过程：

步骤201：采用帧间回归平滑和频域平滑的方式估算阵列语音输入信号的固定波束输出功率谱，并采用帧间平滑和频域平滑的方式估算阵列语音输入信号的平均功率谱。

步骤202：根据所述固定波束输出功率谱和平均功率谱的比值计算每个频点功率比。

步骤203：以频点功率比最大的频点为中心，在设定宽度的子带范围内，根据所述子带范围内的平均功率比，采用帧间回归平滑的方式估计最大子带功率比。

在一些实施例中，所述固定波束输出功率谱计算公式为：

其中，k为频点编号；λ为短时帧编号；

为频点编号为b且短时帧编号为λ时的当前帧波束输出信号功率谱；a_x为第一回归系数；l₁为预设定频点数；其中，0<a_x<1，k，λ，b，l₁分别为正整数。

所述阵列语音输入信号的平均功率谱的计算公式为：

为短时帧编号为λ时的当前帧的平均功率谱；a_y为第二回归系数， 0<a_y<1；

所述每个频点功率比的计算公式为：

所述最大子带功率谱比的计算公式为：

r(λ)＝a_rr(λ-1)+(1-a_r)r(λ)；

在一些实施例中，所述检测阈值调整状态包括有语音状态。

在一些实施例中，根据预先设定的判断条件，采用所述最大子带功率比和检测阈值判断当前所处的语音状态的步骤具体包括：

和/或，若当前处于语音结束状态且最大子带功率大于当前检测阈值，则判断转入有语音状态。

在一些实施例中，根据预先设定的判断条件，采用所述最大子带功率比和检测阈值判断当前所处的语音状态的步骤还包括：

具体地，参照图4，设当前检测阈值为θ(λ)。采用两个计数器分别记录连续处于语音开始状态的帧数和连续处于语音结束状态的帧数，设连续处于语音状态的帧数为c₁，连续处于语音结束状态的帧数为c₂；则在本发明一实施例中，采用所述最大子带功率比和检测阈值判断当前所处的语音状态的步骤包括如下过程：

若当前处于无语音状态且r(λ)＞θ(λ)，则判断从无语音状态转入语音开始状态；

若当前处于语音开始状态且r(λ)≤θ(λ)，则判断从语音开始状态转入无语音状态；

预设连续处于语音状态的第一帧数阈值L₁：若当前处于语音开始状态且r(λ)＞θ(λ)、c₁＞L₁，则判断从语音开始状态转入有语音状态，其中L₁为经验值，取正整数；

若当前处于有语音状态且r(λ)≤θ(λ)，则判断从有语音状态转入语音结束状态；

若当前处于语音结束状态且r(λ)＞θ(λ)，则判断从语音结束状态转入有语音状态；

预设连续处于语音结束状态的第二帧数阈值L₂：若当前处于语音结束状态且r(λ)≤θ(λ)、c₂＞L₂，则判断从语音结束状态转入无语音状态；其中L₂为经验值，取正整数。

相关技术的语音检测技术在实际使用过程中，不仅检测阈值较难确定，而且当噪声或干扰声来自其他的语音信号时，检测系统可能完全失效。

为了适应复杂多变的环境噪声干扰，可选择主从麦克风和麦克风阵列作为拾音设备。主从麦克风采样两只不同指向性的麦克风，使目标方向信号在两只麦克风中产生功率差异，进而利用两只麦克风的功率比来进行目标语音检测，其关键在于主从麦克风设计以及目标语音方位。麦克风阵列则利用每个阵元的空间拓扑结构，形成特定的指向性波束，从而使波束内外信号产生功率差异，然后利用这一线索检测目标方向的信号。然而，相关技术中的主从麦克风拾音技术仍然存在问题：麦克风阵列波束不可避免会受到旁瓣的影响，且低频指向性很差；因此，相关技术的主从麦克风拾音过程中的语音检测技术实际使用时仍有许多问题需要解决。

在本发明的一些实施例中，根据阵列语音输入信号的固定波束输出功率谱和平均功率谱计算阵列语音输入信号的最大子带功率比的步骤之前，还包括如图3所示的过程：

步骤301：接收通过语音采集设备输入的阵列语音输入信号；

步骤302：对所述阵列语音输入信号进行加窗截短，并进行短时傅里叶变换处理，得到所述阵列语音输入信号的时频表示信号；

步骤303：根据所述时频表示信号计算频域固定波束输出；

步骤304：根据所述频域固定波束输出计算阵列当前语音帧平均功率谱和当前帧波束输出信号功率谱；

步骤305：根据所述阵列当前语音帧平均功率谱计算阵列语音输入信号的固定波束输出功率谱；并根据所述阵列当前语音帧波束输出信号功率谱计算阵列语音输入信号的平均功率谱。

具体地，作为一个实施例，在对所述原始阵列语音信号进行加窗截短时，采用汉宁窗，重叠3/4窗长；时间窗长度为L_wnd、相邻窗之间重叠L_ovlp。对所述原始阵列语音信号进行短时傅里叶变换，得到原始语音阵列信号的时频表示信号：y₁(k,λ)……y_N(k,λ)。k为频点编号；λ为短时帧编号，k，λ为正整数。

更具体地，所述频域固定波束输出采用所述原始语音阵列信号的时频表示信号乘以相应的预设波束参数a_i(k)，即，所述频域固定波束输出为：

N为正整数。

计算所述频域固定波束输出时的信号流图如图6所示。

通过计算频域固定波束输出，可增强波束的指向性，降低噪声干扰或其它语音干扰对系统检测造成的影响。在上述频域固定波束计算公式中，取原始语音阵列信号的时频表示信号乘以相应的预设波束参数计算结果和y₁(k,λ)中的最小值，可有效避免波束稳健性不够导致低频异常放大。

所述波束参数的设计好坏可能会直接影响波束内外信号的功率比，在本发明的一个具体实施例中，采用最优频域波束参数设计方法，在满足阵列白噪声增益小于15dB的条件下，设计频域的最优超指向性波束参数。若采用A(k)表示阵元为a_i(k)的矩阵，其中i＝1……N，则所述最优超指向性波束参数为：

约束条件为A^H(k)d(k)＝1，并且，

上述公式中，

为第n₁个麦克风和第n₂个麦克风之间的距离，c是声速，K是短时傅里叶变换的长度。

WNG_min(k)是白噪声增益。

最优超指向性波束参数可以采用第三方开源凸优化软件进行设计，如CVX和SeDuMi等。

更具体地，所述当前帧波束输出信号功率谱计算公式为：

更具体地，所述当前帧平均功率谱计算过程计算公式为：

在一些实施例中，当判断当前转入的语音状态为预设的检测阈值调整状态时，依据下述公式对检测阈值进行调整：

为有语音状态时对最大子带功率谱比进行缓慢回归平滑的值，0<θ_L<1,0<θ_H<1。

具体地，当判断处于语音状态时，先采用下述公式对最大子带功率谱比进行缓慢回归平滑，

其中，a₀为回归平滑系数；

为对最大带子带功率谱比进行缓慢回归平滑后的值，其中，0<a₀<1。

计算出上述最大子带功率谱比缓慢回归平滑后的值之后，根据下述公式采用最小最大方法调整检测阈值：

在一具体实施例中，当语音检测装置的采样率为16kHz时，上述实施例中所提到的参数可参考下列数值：

N＝6；L_wnd＝32ms；L_ovlp＝24ms；c＝340m/s；f_s＝16000Hz；WNG_min(k)＝15dB；a₀＝0.99；a_x＝0.8；a_y＝0.8；a_r＝0.8；L₁＝10；L₂＝150；θ_L＝0.25；θ_H＝0.3。

本发明实施例还提供一种麦克风阵列语音检测装置，如图5所示，包括：

仍然参照图5，在一些实施例中，第一计算模块具体包括：

在一些实施例中，所述固定波束输出功率谱计算公式为：

其中，k为频点编号；λ为短时帧编号；

为短时帧编号为λ时的当前帧波束输出信号功率谱；a_x为第一回归系数；l₁为预设定频点数；其中，0<a_x<1，k，λ，b，l₁分别为正整数。

所述阵列语音输入信号的平均功率谱的计算公式为：

所述每个频点功率比的计算公式为：

所述最大子带功率谱比的计算公式为：

r(λ)＝a_rr(λ-1)+(1-a_r)r(λ)；

在一些实施例中，所述检测阈值调整状态包括有语音状态。

在一些实施例中，所述状态判断模块具体包括：

在一些实施例中，所述状态判断模块还包括：

仍然参照图5，在一些实施例中，所述装置还包括：

在一些实施例中，所述固定波束输出采用所述原始阵列语音信号的时频表示信号乘以相应的预设波束参数；若采用A(k)表示阵元为a_i(k)的矩阵，其中i＝1……N，所述预设波束参数通过下述公式进行确定：

约束条件为A^H(k)d(k)＝1，并且，

上述关于Γ(k)的公式中，

WNG_min(k)是白噪声增益；

从上面所述可以看出，本发明实施例提供的麦克风阵列语音检测方法和装置，根据预设的条件判断处于语音状态时，对检测阈值进行调整，即使在变化的噪声环境中，也可以辅助确定检测阈值。此外，本发明实施例在语音检测过程中，根据预设的波束参数对语音信号进行处理，增强语音信号的指向性，降低噪声或其他语音信号对语音检测设备和系统造成的影响。

本领域普通技术人员可以理解上述实施例的全部或部分步骤可以使用计算机程序流程来实现，所述计算机程序可以存储于一计算机可读存储介质中，所述计算机程序在相应的硬件平台上(如系统、设备、装置、器件等)执行，在执行时，包括方法实施例的步骤之一或其组合。

可选地，上述实施例的全部或部分步骤也可以使用集成电路来实现，这些步骤可以被分别制作成一个个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

上述实施例中的每装置/功能模块/功能单元可以采用通用的计算装置来实现，它们可以集中在单个的计算装置上，也可以分布在多个计算装置所组成的网络上。

上述实施例中的每装置/功能模块/功能单元以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。上述提到的计算机可读取存储介质可以是只读存储器，磁盘或光盘等。

任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求所述的保护范围为准。

工业实用性

本发明实施例提供的麦克风阵列语音检测方法和装置，根据预设的条件判断处于语音状态时，对检测阈值进行调整，即使在变化的噪声环境中，也可以辅助确定检测阈值。此外，本发明实施例在语音检测过程中，根据预设的波束参数对语音信号进行处理，增强语音信号的指向性，降低噪声或其他语音信号对语音检测设备和系统造成的影响。

Claims

一种麦克风阵列语音检测方法，包括：

根据阵列语音输入信号的固定波束输出功率谱和平均功率谱计算阵列语音输入信号的最大子带功率比；

根据预先设定的判断条件，采用所述最大子带功率比和当前检测阈值判断当前所处的语音状态；

当判断当前转入的语音状态为预设的检测阈值调整状态时，对检测阈值进行调整。
根据权利要求1所述的方法，其中，所述计算阵列语音输入信号的最大子带功率比和检测阈值的步骤包括：

采用帧间回归平滑和频域平滑的方式估算阵列语音输入信号的固定波束输出功率谱，并采用帧间平滑和频域平滑的方式估算阵列语音输入信号的平均功率谱；

根据所述固定波束输出功率谱和平均功率谱的比值计算每个频点功率比；

以频点功率比最大的频点为中心，在设定宽度的子带范围内，根据所述子带范围内的平均功率比，采用帧间回归平滑的方式估计最大子带功率比。
根据权利要求2所述的方法，其中，所述固定波束输出功率谱计算公式为：

其中，k为频点编号；λ为短时帧编号；
为频点编号为b且短时帧编号为λ时的阵列当前语音帧波束输出信号功率谱；a_x为第一回归系数；l₁为预设定频点数；其中，0<a_x<1，k，λ，b，l₁分别为正整数；

所述阵列语音输入信号的平均功率谱的计算公式为：

为频点编号为b且短时帧编号为λ时的阵列当前语音帧的平均功率谱；a_y为第二回归系数，0<a_y<1；

所述每个频点功率比的计算公式为：

所述最大子带功率谱比的计算公式为：

r(λ)＝a_rr(λ-1)+(1-a_r)r(λ)；

r(λ-1)为r(λ)的上次计算结果，r(λ-1)初始值为设定宽度的子带范围内的平均功率比；a_r为第三回归系数，0<a_γ<1。
根据权利要求1所述的方法，其中，所述检测阈值调整状态包括有语音状态。
根据权利要求4所述的方法，其中，所述根据预先设定的判断条件，采用所述最大子带功率比和检测阈值判断当前所处的语音状态的步骤包括：

若当前处于语音开始状态且最大子带功率大于当前检测阈值、且连续处于语音开始状态的帧数大于设定的第一帧数阈值，则判断转入有语音状态；

若当前处于语音结束状态且最大子带功率大于当前检测阈值，则判断转入有语音状态。
根据权利要求4所述的方法，其中，所述根据预先设定的判断条件，采用所述最大子带功率比和检测阈值判断当前所处的语音状态的步骤还包括：

若当前处于无语音状态且最大子带功率比大于当前检测阈值，则判断转入语音开始状态；

若当前处于语音开始状态且最大子带功率小于等于当前检测阈值，则判断转入无语音状态；

若当前处于有语音状态且最大子带功率小于等于当前检测阈值，则判断转入语音结束状态；

若当前处于有语音状态且最大子带功率小于等于当前检测阈值、且连续处于语音结束状态的帧数大于设定的第二帧数阈值，则判断转入无语音状态。
根据权利要求1所述的方法，其中，在根据阵列语音输入信号的固定波束输出功率谱和平均功率谱计算阵列语音输入信号的最大子带功率比的步骤之前，还包括：

接收通过语音采集设备输入的阵列语音输入信号；

对所述阵列语音输入信号进行加窗截短，并进行短时傅里叶变换处理，得到所述阵列语音输入信号的时频表示信号；

根据所述时频表示信号计算频域固定波束输出；

根据所述频域固定波束输出计算阵列当前语音帧平均功率谱和阵列当前语音帧波束输出信号功率谱；

根据所述阵列当前语音帧平均功率谱计算阵列语音输入信号的固定波束输出功率谱；并根据所述阵列当前语音帧波束输出信号功率谱计算阵列语音输入信号的平均功率谱。
根据权利要求7所述的方法，其中，所述固定波束输出采用所述原始阵列语音信号的时频表示信号乘以相应的预设波束参数；

所述预设波束参数通过下述公式进行确定：

约束条件为A^H(k)d(k)＝1，并且，

Γ(k)为目标语音信号的理想扩散场归一化相干矩阵，该矩阵为N×N矩阵，其第n₁行n₂列元素为：

上述关于Γ(k)的公式中，
为第n₁个麦克风和第n₂个麦克风之间的距离，c是声速，K是短时傅里叶变换的长度；

WNG_min(k)是白噪声增益；

d(k)为目标声源到语音采集设备的空间导向矢量，其计算公式为：

上述公式中，θ为目标声源到语音采集设备的方位角；d₁……d_N是第1到N个数字语音采集设备到数字语音采集设备阵列中心的距离；f_s是采样频率，N为正整数。
根据权利要求1所述的方法，其中，当判断当前转入的语音状态为预设的检测阈值调整状态时，依据下述公式对检测阈值进行调整：

其中，θ′(λ)为调整后的检测阈值；θ_L、θ_H分别为预设的语音检测阈值下限和上限；
为有语音状态时对最大子带功率谱比进行缓慢回归平滑的值，0<θ_L<1,0<θ_H<1。
一种麦克风阵列语音检测装置，包括：

第一计算模块：设置为根据阵列语音输入信号的固定波束输出功率谱和平均功率谱计算阵列语音输入信号的最大子带功率比；

状态判断模块：设置为根据预先设定的判断条件，采用所述最大子带功率比和当前检测阈值判断当前所处的语音状态；

阈值调整模块：设置为当判断当前转入的语音状态为预设的检测阈值调整状态时，对检测阈值进行调整。
根据权利要求10所述的装置，其中，第一计算模块包括：

第一计算单元：设置为采用帧间回归平滑和频域平滑的方式估算阵列语音输入信号的固定波束输出功率谱，并采用帧间平滑和频域平滑的方式估算阵列语音输入信号的平均功率谱；

第二计算单元：设置为根据所述固定波束输出功率谱和平均功率谱的比值计算每个频点功率比；

第三计算单元：设置为以频点功率比最大的频点为中心，在设定宽度的子带范围内，根据所述子带范围内的平均功率比，采用帧间回归平滑的方式估计最大子带功率比。
根据权利要求11所述的装置，其中，所述固定波束输出功率谱计算公式为：

其中，k为频点编号；λ为短时帧编号；
为频点编号为b且短时帧编号为λ时的当前帧波束输出信号功率谱；a_x为第一回归系数；l₁为预设定频点数；其中，0<a_x<1，k，λ，b，l₁分别为正整数；

所述阵列语音输入信号的平均功率谱的计算公式为：

率谱；a_y为第二回归系数，0<a_y＜1；

所述每个频点功率比的计算公式为：

所述最大子带功率谱比的计算公式为：

r(λ)＝a_rr(λ-1)+(1-a_r)r(λ)；

r(λ-1)为r(λ)的上次计算结果，其初始值为设定宽度的子带范围内的平均功率比；a_r为第三回归系数，0<a_γ<1。
根据权利要求10所述的装置，其中，所述检测阈值调整状态包括有语音状态。
根据权利要求13所述的装置，其中，所述状态判断模块包括：

第一判断单元：设置为在当前处于语音开始状态且最大子带功率大于当前检测阈值、且连续处于语音开始状态的帧数大于设定的第一帧数阈值时，判断转入有语音状态；

第二判断单元：设置为在当前处于语音结束状态且最大子带功率大于当前检测阈值时，判断转入有语音状态。
根据权利要求14所述的装置，其中，所述状态判断模块还包括：

第三判断单元：设置为在前处于无语音状态且最大子带功率比大于当前检测阈值时，判断转入语音开始状态；

第四判断单元：设置为在当前处于语音开始状态且最大子带功率小于等于当前检测阈值时，判断转入无语音状态；

第五判断单元：设置为在当前处于有语音状态且最大子带功率小于等于当前检测阈值是，判断转入语音结束状态；

第六判断单元：设置为在当前处于有语音状态且最大子带功率小于等于当前检测阈值、且连续处于语音结束状态的帧数大于设定的第二帧数阈值时，判断转入无语音状态。
根据权利要求10所述的装置，其中，所述装置还包括：

信号接收模块：设置为接收通过语音采集设备输入的阵列语音输入信号；

信号变换模块：设置为对所述阵列语音输入信号进行加窗截短，并进行短时傅里叶变换处理，得到所述阵列语音输入信号的时频表示信号；

第二计算模块：设置为根据所述时频表示信号计算频域固定波束输出；

第三计算模块：设置为根据所述频域固定波束输出计算阵列当前帧平均功率谱和当前帧波束输出信号功率谱；

第四计算模块：设置为根据所述阵列当前帧平均功率谱计算阵列语音输入信号的固定波束输出功率谱；并根据所述当前帧波束输出信号功率谱计算阵列语音输入信号的平均功率谱。
根据权利要求16所述的装置，其中，所述固定波束输出采用所述原始阵列语音信号的时频表示信号乘以相应的预设波束参数；

所述预设波束参数通过下述公式进行确定：

约束条件为A^H(k)d(k)＝1，并且，

Γ(k)为目标语音信号的理想扩散场归一化相干矩阵，该矩阵为N×N矩阵，其第n₁行n₂列元素为：

上述关于Γ(k)的公式中，
为第n₁个麦克风和第n₂个麦克风之间的距离，c是声速，K是短时傅里叶变换的长度；

WNG_min(k)是白噪声增益；

d(k)为目标声源到语音采集设备的空间导向矢量，其计算公式为：

上述公式中，θ为目标声源到语音采集设备的方位角；d₁……d_N是第1到N个数字语音采集设备到数字语音采集设备阵列中心的距离；f_s是采样频率，N为正整数。
根据权利要求10所述的装置，其中，所述阈值调整模块依据下述公式对检测阈值进行调整：

其中，θ′(λ)为调整后的检测阈值；θ_L、θ_H分别为预设的语音检测阈值下限和上限；
为有语音状态时对最大子带功率谱比进行缓慢回归平滑的值，0<θ_L<1,0<θ_H<1。