WO2016183791A1

WO2016183791A1 - 一种语音信号处理方法及装置

Info

Publication number: WO2016183791A1
Application number: PCT/CN2015/079245
Authority: WO
Inventors: 赵天宇
Original assignee: 华为技术有限公司
Priority date: 2015-05-19
Filing date: 2015-05-19
Publication date: 2016-11-24
Also published as: CN107534725B; CN107534725A

Abstract

本发明实施例公开了一种语音信号处理方法及装置，其中，该方法包括：通过图像采集设备采集目标发言人的图像；从该图像中确定目标发言人的嘴部区域，作为目标声源区域；通过点特征定位方式获取目标声源区域相对图像采集设备的位置信息；根据预先存储的图像采集设备与麦克风阵列的空间相对位置，以及目标声源区域相对图像采集设备的位置信息，确定目标声源区域与麦克风阵列的相对位置；在通过麦克风阵列接收到语音信号后，根据目标声源区域与麦克风阵列的相对位置，利用最小方差无失真响应MVDR波束形成算法对语音信号进行增强处理。本发明实施例可以提高声源定位的准确度以及有效提高语音信号的降噪效果。

Description

一种语音信号处理方法及装置

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音信号处理方法及装置。

背景技术

在实际应用中，一般是通过麦克风来拾取语音信号，而拾取的语音信号往往会受到环境噪声、其他说话人的声音、混响等信号的干扰，使得语音的质量严重下降，因此，需要对拾取的语音信号进行有效的降噪处理，以抑制噪声，提高语音质量。

目前，常见的一种降噪技术是基于麦克风阵列的降噪方法，其原理是利用麦克风阵列定位声源，以确定波束方向，将麦克风接收到的且在该波束方向上的语音信号进行增强，同时尽量抑制其他方向上的干扰。在声源单一且环境噪声不复杂等情况下采用上述方法进行降噪会有较明显效果，然而，当多声源并发且环境噪声较为复杂时，容易引起来波方向角的误判，以致在进行声源定位时准确度下降，从而使得降噪效果降低。

发明内容

本发明实施例公开了一种语音信号处理方法及装置，能够提高声源定位的准确度以及有效提高语音信号的降噪效果。

本发明实施例第一方面公开了一种语音信号处理方法，包括：

通过图像采集设备采集目标发言人的图像；

从所述图像中确定所述目标发言人的嘴部区域，作为目标声源区域；

通过点特征定位方式获取所述目标声源区域相对所述图像采集设备的位置信息；

根据预先存储的所述图像采集设备与麦克风阵列的空间相对位置，以及所述目标声源区域相对所述图像采集设备的位置信息，确定所述目标声源区域与所述麦克风阵列的相对位置；

在通过所述麦克风阵列接收到语音信号后，根据所述目标声源区域与所述麦克风阵列的相对位置，利用最小方差无失真响应MVDR波束形成算法对所述语音信号进行增强处理。

结合本发明实施例第一方面，在本发明实施例第一方面的第一种可能的实现方式中，所述通过点特征定位方式获取所述目标声源区域相对所述图像采集设备的位置信息，包括：

提取所述目标声源区域的至少一个点特征，根据所述点特征的像素值获取所述点特征在所述图像的坐标系下的坐标，其中，所述图像的坐标系中的坐标原点为所述图像采集设备的光轴在所述图像上的垂直投影点，且所述图像的坐标系中的相互垂直的两个轴在所述图像所在平面内；

根据所述点特征在所述图像的坐标系下的坐标和所述图像采集设备的焦距，获取所述目标声源区域的中心点在所述图像采集设备的坐标系下的坐标，作为所述目标声源区域相对所述图像采集设备的位置信息；其中，所述图像采集设备的坐标系中的坐标原点为所述图像采集设备的中心点，且所述图像采集设备的坐标系中的两两互相垂直的三个轴中的一个轴与所述图像所在平面垂直，其余两个轴分别与所述图像的坐标系的两个轴平行。

结合本发明实施例第一方面的第一种可能的实现方式，在本发明实施例第一方面的第二种可能的实现方式中，所述根据预先存储的所述图像采集设备与麦克风阵列的空间相对位置，以及所述目标声源区域相对所述图像采集设备的位置信息，确定所述目标声源区域与所述麦克风阵列的相对位置，包括：

根据预先存储的所述图像采集设备与麦克风阵列的空间相对位置，确定所述麦克风阵列在所述图像采集设备的坐标系下的坐标；

根据所述麦克风阵列在所述图像采集设备的坐标系下的坐标，以及所述目标声源区域的中心点在所述图像采集设备的坐标系下的坐标，确定所述目标声源区域的中心点与所述麦克风阵列的相对位置，作为所述目标声源区域与所述麦克风阵列的相对位置。

结合本发明实施例第一方面或第一方面的第一种至第二种中的任一种可能的实现方式，在本发明实施例第一方面的第三种可能的实现方式中，所述麦克风阵列中的任意两个麦克风之间的距离大于所述语音信号的波长的一半。

结合本发明实施例第一方面或第一方面的第一种至第三种中的任一种可能的实现方式，在本发明实施例第一方面的第四种可能的实现方式中，所述在通过所述麦克风阵列接收到语音信号后，根据所述目标声源区域与所述麦克风阵列的相对位置，利用最小方差无失真响应MVDR波束形算法对所述语音信号进行增强处理，包括：

在通过所述麦克风阵列接收到语音信号后，根据所述目标声源区域与所述麦克风阵列的相对位置，计算所述目标声源区域的中心点至所述麦克风阵列中各个麦克风的直线距离，并计算所述目标声源区域的中心点与任意两个麦克风的声程差，其中，所述声程差为所述目标声源区域的中心点至所述任意两个麦克风中的一个麦克风的直线距离与所述目标声源区域的中心点至所述任意两个麦克风中的另一个麦克风的直线距离的绝对差值；

根据所述目标声源区域的中心点至所述任意两个麦克风的声程差，计算所述目标声源区域的中心点至所述任意两个麦克风的时延；

根据所述目标声源区域的中心点至所述任意两个麦克风的时延对所述任意两个麦克风进行时延补偿，以增强各个麦克风接收到的指向所述目标声源区域方向的语音信号。

本发明实施例第二方面公开了一种语音信号处理装置，包括：

采集单元，用于通过图像采集设备采集目标发言人的图像；

第一确定单元，用于从所述图像中确定所述目标发言人的嘴部区域，作为目标声源区域；

获取单元，用于通过点特征定位方式获取所述目标声源区域相对所述图像采集设备的位置信息；

第二确定单元，用于根据预先存储的所述图像采集设备与麦克风阵列的空间相对位置，以及所述目标声源区域相对所述图像采集设备的位置信息，确定所述目标声源区域与所述麦克风阵列的相对位置；

处理单元，用于在通过所述麦克风阵列接收到语音信号后，根据所述目标声源区域与所述麦克风阵列的相对位置，利用最小方差无失真响应MVDR波束形成算法对所述语音信号进行增强处理。

结合本发明实施例第二方面，在本发明实施例第二方面的第一种可能的实现方式中，所述获取单元包括：

第一获取子单元，用于提取所述目标声源区域的至少一个点特征，根据所述点特征的像素值获取所述点特征在所述图像的坐标系下的坐标，其中，所述图像的坐标系中的坐标原点为所述图像采集设备的光轴在所述图像上的垂直投影点，且所述图像的坐标系中的相互垂直的两个轴在所述图像所在平面内；

第二获取子单元，用于根据所述点特征在所述图像的坐标系下的坐标和所述图像采集设备的焦距，获取所述目标声源区域的中心点在所述图像采集设备的坐标系下的坐标，作为所述目标声源区域相对所述图像采集设备的位置信息；其中，所述图像采集设备的坐标系中的坐标原点为所述图像采集设备的中心点，且所述图像采集设备的坐标系中的两两互相垂直的三个轴中的一个轴与所述图像所在平面垂直，其余两个轴分别与所述图像的坐标系的两个轴平行。

结合本发明实施例第二方面的第一种可能的实现方式，在本发明实施例第二方面的第二种可能的实现方式中，所述第二确定单元包括：

第一确定子单元，用于根据预先存储的所述图像采集设备与麦克风阵列的空间相对位置，确定所述麦克风阵列在所述图像采集设备的坐标系下的坐标；

第二确定子单元，用于根据所述麦克风阵列在所述图像采集设备的坐标系下的坐标，以及所述目标声源区域的中心点在所述图像采集设备的坐标系下的坐标，确定所述目标声源区域的中心点与所述麦克风阵列的相对位置，作为所述目标声源区域与所述麦克风阵列的相对位置。

结合本发明实施例第二方面或第二方面的第一种至第二种中的任一种可能的实现方式，在本发明实施例第二方面的第三种可能的实现方式中，所述麦克风阵列中的任意两个麦克风之间的距离大于所述语音信号的波长的一半。

结合本发明实施例第二方面或第二方面的第一种至第三种中的任一种可能的实现方式，在本发明实施例第二方面的第四种可能的实现方式中，所述处理单元包括：

第一计算子单元，用于在通过所述麦克风阵列接收到语音信号后，根据所述目标声源区域与所述麦克风阵列的相对位置，计算所述目标声源区域的中心点至所述麦克风阵列中各个麦克风的直线距离，并计算所述目标声源区域的中心点至任意两个麦克风的声程差，其中，所述声程差为所述目标声源区域的中心点至所述任意两个麦克风中的一个麦克风的直线距离与所述目标声源区域的中心点至所述任意两个麦克风中的另一个麦克风的直线距离的绝对差值；

第二计算子单元，用于根据所述目标声源区域的中心点至所述任意两个麦克风的声程差，计算所述目标声源区域的中心点至所述任意两个麦克风的时延；

时延补偿子单元，用于根据所述目标声源区域的中心点至所述任意两个麦克风的时延对所述任意两个麦克风进行时延补偿，以增强各个麦克风接收到的指向所述目标声源区域方向的语音信号。

本发明实施例第三方面公开了一种语音信号处理装置，包括：处理器、存储器、通信总线、图像采集设备和麦克风阵列；

其中，所述存储器用于存储程序和数据；

所述通信总线用于建立所述处理器、所述存储器、所述图像采集设备和所述麦克风阵列之间的连接通信；

所述处理器用于调用所述存储器存储的程序，执行如下步骤：

通过所述图像采集设备采集目标发言人的图像；

根据所述存储器预先存储的所述数据包括的所述图像采集设备与所述麦克风阵列的空间相对位置，以及所述目标声源区域相对所述图像采集设备的位置信息，确定所述目标声源区域与所述麦克风阵列的相对位置；

结合本发明实施例第三方面，在本发明实施例第三方面的第一种可能的实现方式中，所述处理器通过点特征定位方式获取所述目标声源区域相对所述图像采集设备的位置信息的方式具体为：

结合本发明实施例第三方面的第一种可能的实现方式，在本发明实施例第三方面的第二种可能的实现方式中，所述处理器根据所述存储器预先存储的所述数据包括的所述图像采集设备与所述麦克风阵列的空间相对位置，以及所述目标声源区域相对所述图像采集设备的位置信息，确定所述目标声源区域与所述麦克风阵列的相对位置的方式具体为：

根据所述存储器预先存储的所述数据包括的所述图像采集设备与所述麦克风阵列的空间相对位置，确定所述麦克风阵列在所述图像采集设备的坐标系下的坐标；

结合本发明实施例第三方面或第三方面的第一种至第二种中的任一种可能的实现方式，在本发明实施例第三方面的第三种可能的实现方式中，所述麦克风阵列中的任意两个麦克风之间的距离大于所述语音信号的波长的一半。

结合本发明实施例第三方面或第三方面的第一种至第三种中的任一种可能的实现方式，在本发明实施例第三方面的第四种可能的实现方式中，所述处理器在通过所述麦克风阵列接收到语音信号后，根据所述目标声源区域与所述麦克风阵列的相对位置，利用最小方差无失真响应MVDR波束形算法对所述语音信号进行增强处理的方式具体为：

在通过所述麦克风阵列接收到语音信号后，根据所述目标声源区域与所述麦克风阵列的相对位置，计算所述目标声源区域的中心点至所述麦克风阵列中各个麦克风的直线距离，并计算所述目标声源区域的中心点至任意两个麦克风的声程差，其中，所述声程差为所述目标声源区域的中心点至所述任意两个麦克风中的一个麦克风的直线距离与所述目标声源区域的中心点至所述任意两个麦克风中的另一个麦克风的直线距离的绝对差值；

本发明实施例中，可以通过图像采集设备采集目标发言人的图像，根据图像确定目标发言人的嘴部区域，以作为目标声源区域，可以通过点特征定位方式获取目标声源区域相对图像采集设备的位置信息，并根据预先存储的图像采集设备与麦克风阵列的空间相对位置，以及目标声源区域相对图像采集设备的位置信息，确定目标声源区域与麦克风阵列的相对位置，当通过麦克风阵列接收到语音信号后，根据目标声源区域与麦克风阵列的相对位置，利用最小方差无失真响应MVDR波束形成算法对语音信号进行增强处理。可见，本发明实施例可以将图像采集设备和麦克风阵列结合起来对声源进行定位，从而能够提高声源定位的准确度；进一步地，在语音增强过程中，准确的声源定位有利于提高语音信号的降噪效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种语音信号处理方法的流程示意图；

图2是本发明实施例公开的另一种语音信号处理方法的流程示意图；

图3是本发明实施例公开的一种目标声源定位的坐标示意图；

图4是本发明实施例公开的一种语音信号处理装置的结构示意图；

图5是本发明实施例公开的另一种语音信号处理装置的结构示意图；

图6是本发明实施例公开的又一种语音信号处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种语音信号处理方法及装置，能够提高声源定位的准确度以及有效提高语音信号的降噪效果。以下分别进行详细说明。

请参阅图1，图1是本发明实施例公开的一种语音信号处理方法的流程示意图。如图1所示，该语音信号处理方法可以包括以下步骤：

S101、通过图像采集设备采集目标发言人的图像。

本发明实施例中，可以是语音信号处理装置通过图像采集设备实时采集目标发言人的图像，具体可以是在语音信号处理装置开启视频通话或免提会议等模式时通过图像采集设备实时采集目标发言人的图像。其中，语音信号处理装置可以包括但不限于智能手机、个人电脑、多媒体播放器、可视电话以及可实现通信的装置等。

本发明实施例中，图像采集设备可以是一个或多个，可以集成在语音信号处理装置内部，也可以是独立于语音信号处理装置的外部设备且与语音信号处理装置保持通信连接；图像采集设备可以是摄像头、相机等设备，本发明实施例不作限定。

S102、从该图像中确定目标发言人的嘴部区域，作为目标声源区域。

在一个实施例中，可以在从该图像中确定目标发言人的嘴部区域之前，检测该图像中是否包含目标发言人的人脸图像，即人脸检测的过程。常见的人脸检测有以下几种方法：基于特征的人脸检测法、模板匹配的人脸检测法、基于外观的人脸检测法等等。其中，基于特征的人脸检测法的实现过程为将提取的图像的特征信息与预先存储的人脸特征信息进行比较，以判断是否包含人脸；模板匹配的人脸检测法的实现过程为将图像与预先建立的人脸模板进行匹配，以判断是否包含人脸；基于外观的人脸检测法的实现过程为将图像与预先训练的人脸和非人脸分类器进行比对，以判断是否包含人脸。在该实施例中，上述人脸检测方法可以单独使用，也可以结合使用。

在一个实施例中，当该图像中包含人脸图像时，在该人脸图像区域，采用哈尔Haar嘴部特征分类器，定位嘴部在该人脸图像上的大致位置；根据人脸面部特征分布满足三分之一比例的原则，将获取的嘴部的大致位置中满足在人脸下部1/3区域的位置，确定为嘴部的最终位置，并将其划定为嘴部区域，该嘴部区域即为目标声源区域。

S103、通过点特征定位方式获取目标声源区域相对图像采集设备的位置信息。

本发明实施例中，点特征定位是一种运用单帧图像的定位方法，是根据目标声源区域上n个特征点来确定图像采集设备的相对位置和姿态，也就是利用图像采集设备摄取一幅包含有n个空间点的图像，且这n个空间点的坐标已知，来确定这n个空间点在图像采集设备的坐标系下的坐标，从而获得目标声源区域相对图像采集设备的位置信息。其中，n为大于0的整数。

S104、根据预先存储的图像采集设备与麦克风阵列的空间相对位置，以及目标声源区域相对图像采集设备的位置信息，确定目标声源区域与麦克风阵列的相对位置。

本发明实施例中，麦克风阵列包括至少两个麦克风，且各个麦克风均可以为全向接收型麦克风，即可以拾取各个方向的语音信号。麦克风阵列可以集成在语音信号处理装置的内部，也可以独立于语音信号处理装置且与语音信号处理装置保持通信连接。

本发明实施例中，图像采集设备与麦克风阵列之间的空间相对位置可以是已知的，可以预先存储在语音信号处理装置的存储器中。通过预先存储的图像采集设备与麦克风阵列之间的空间相对位置，以及执行步骤S103时获取到的目标声源区域相对图像采集设备的位置信息，可以确定出目标声源区域与麦克风阵列之间的相对位置。

S105、在通过麦克风阵列接收到语音信号后，根据目标声源区域与麦克风阵列的相对位置，利用最小方差无失真响应MVDR波束形成算法对语音信号进行增强处理。

本发明实施例中，语音信号处理装置在通过麦克风阵列中的各个麦克风采集到来自任意方向的语音信号后，在获取到目标声源区域与麦克风阵列之间的相对位置的情况下，可以利用波束形成技术将各个麦克风采集到的语音信号进行增强处理，以增强各麦克风指向目标声源方向的语音信号，而抑制接收到的其他方向上的语音信号。

本发明实施例中，波束形成技术是通过对各个麦克风接收到的语音信号进行加权处理，增强特定方向语音信号而削弱其它方向语音信号，从而得到来自特定方向的语音信号，此时，特定方向为各麦克风指向目标声源的方向。麦克风阵列的波束形成能力使其可以在捕捉方向性声源的同时，提供比单麦克风更高的系统输出信噪比。目前，波束形成技术运用相当普遍，常见的波束形成算法有LMS(Least mean square，最小均方)算法、RLS(Recursive Least Squares，递归最小二乘法)算法、MVDR(Minimum Variance Distortionless Response，最小方差无失真响应)算法等等。本发明实施例选用的是MVDR波束形成算法，其原理为让感兴趣的语音信号无失真输出，而使得波束输出噪声方差最小。与LMS算法、RLS算法等相比，MVDR算法能够提高阵增益，因此对噪声的抑制能力更强。

本发明实施例中，可以通过图像采集设备采集目标发言人的图像，根据图像确定目标发言人的嘴部区域，以作为目标声源区域，可以通过点特征定位方式获取目标声源区域相对图像采集设备的位置信息，并根据预先存储的图像采集设备与麦克风阵列的空间相对位置，以及目标声源区域相对图像采集设备的位置信息，确定目标声源区域与麦克风阵列的相对位置，当通过麦克风阵列接收到语音信号后，根据目标声源区域与麦克风阵列的相对位置，利用最小方差无失真响应MVDR波束形成算法对语音信号进行增强处理。通过实施图1所描述的语音信号处理方法，可以将图像采集设备和麦克风阵列结合起来对声源进行定位，从而能够提高声源定位的准确度；进一步地，在语音增强过程中，准确的声源定位有利于提高语音信号的降噪效果。

请参阅图2，图2是本发明实施例公开的另一种语音信号处理方法的流程示意图。如图2所示，该语音信号处理方法可以包括以下步骤：

S201、通过图像采集设备采集目标发言人的图像。

本发明实施例中，当语音信号处理装置开启视频通话或者免提会议等模式时，可以通过一个或多个图像采集设备采集目标发言人的图像。其中，图像采集设备可以是摄像头、相机等，本发明实施例不作限定。

本发明实施例中，目标发言人可以是一个，也可以是多个。可以利用一个图像采集设备采集多个目标发言人的图像，也可以利用多个图像采集设备采集多个目标发言人的图像。

S202、从该图像中确定目标发言人的嘴部区域，作为目标声源区域。

本发明实施例中，可以按照预设的算法从该图像中确定出目标发言人的嘴部区域，并将其定位为目标声源区域。当目标发言人不止一个时，则可以同时确定出多个目标发言人的嘴部区域，以得出多个目标声源区域。

S203、提取目标声源区域的至少一个点特征，根据点特征的像素值获取点特征在该图像的坐标系下的坐标，其中，该图像的坐标系中的坐标原点为图像采集设备的光轴在该图像上的垂直投影点，且该图像的坐标系中的相互垂直的两个轴在该图像所在平面内。

本发明实施例中，在目标声源区域上可以提取若干个点特征，这些点特征在该图像内都有与之对应的像素值，从而可以将这些像素值看作是点特征在该图像内构建的坐标系下的坐标。该图像的坐标系为二维坐标系，其中，坐标原点为图像采集设备的光轴在该图像上的垂直投影点，两个轴互相垂直且处于该图像所在平面内。

S204、根据点特征在该图像的坐标系下的坐标和图像采集设备的焦距，获取目标声源区域的中心点在图像采集设备的坐标系下的坐标，作为目标声源区域相对图像采集设备的位置信息；其中，图像采集设备的坐标系中的坐标原点为图像采集设备的中心点，且图像采集设备的坐标系中的两两互相垂直的三个轴中的一个轴与该图像所在平面垂直，其余两个轴分别与该图像的坐标系的两个轴平行。

本发明实施例中，可以以图像采集设备的中心点(即光心)为坐标原点构建图像采集设备的坐标系，图像采集设备的坐标系为三维坐标系，三个轴两两互相垂直，其中一个轴与该图像所在平面垂直，另外两个轴分别与该图像的坐标系的两个轴平行。在点特征在该图像的坐标系下的坐标已知，以及图像采集设备的焦距已知的情况下，可以利用图像采集设备的坐标系与该图像的坐标系的位置关系，确定出目标声源区域上的点特征在图像采集设备的坐标系下的坐标，并选取目标声源区域的其中一个点特征的坐标或者是目标声源区域的中心点的坐标作为目标声源区域相对图像采集设备的位置信息。

请一并参阅图3，图3是本发明实施例公开的一种目标声源定位的坐标示意图。其中，图3中仅示出了一个图像采集设备，且麦克风阵列只包括两个麦克风m₁和m₂的情况。本领域技术人员可以理解，图3中示出的图像采集设备和麦克风阵列的排列并不构成对本发明的限定，它们既可以处在同一直线上，也可以任意排列，还可以包括比图3所示的更多的图像采集设备和麦克风。

其中，o点为图像采集设备的中心点(即光心)，o＇点为图像采集设备的光轴在该图像上的垂直投影点，该图像的坐标系以o＇点为坐标原点，两个轴u轴和v轴互相垂直，且在该图像所在平面内。在目标声源区域上选取若干个点特征，且这些点特征在该图像的坐标系下坐标已知，其中点M为目标声源区域的中心点，且点M在该图像的坐标系下的坐标也已知。图像采集设备的坐标系以o点为坐标原点，三个轴x轴、y轴和z轴互相垂直，其中，y轴与该图像所在平面垂直，垂足即为o＇点，x轴与u轴平行，z轴与v轴平行，o o＇为图像采集设备的焦距。根据两个坐标系的位置关系以及点特征在该图像的坐标系下的坐标已知，即可确定出点特征在图像采集设备的坐标系下的坐标，即可确定点M在图像采集设备的坐标系下的坐标，从而获得目标声源区域相对图像采集设备的位置信息。

S205、根据预先存储的图像采集设备与麦克风阵列的空间相对位置，以及目标声源区域相对图像采集设备的位置信息，确定目标声源区域与麦克风阵列的相对位置。

本发明实施例中，步骤S205的具体实施方式可以包括以下步骤：

21)根据预先存储的图像采集设备与麦克风阵列的空间相对位置，确定麦克风阵列在图像采集设备的坐标系下的坐标；

22)根据麦克风阵列在图像采集设备的坐标系下的坐标，以及目标声源区域的中心点在图像采集设备的坐标系下的坐标，确定目标声源区域的中心点与麦克风阵列的相对位置，作为目标声源区域与麦克风阵列的相对位置。

本发明实施例中，图像采集设备与麦克风阵列的空间相对位置是已知的，如图3所示，麦克风阵列包括的两个麦克风m₁、m₂均位于x轴上，且与图像采集设备的距离均为L，因此，可以根据两个麦克风与图像采集设备的距离确定出两个麦克风在图像采集设备的坐标系下的坐标。获得两个麦克风m₁、m₂在图像采集设备的坐标系下的坐标，以及目标声源区域的中心点M在图像采集设备的坐标系下的坐标，即可确定出目标声源区域的中心点M与两个麦克风m₁、m₂之间的相对位置。

S206、在通过麦克风阵列接收到语音信号后，根据目标声源区域与麦克风阵列的相对位置，利用最小方差无失真响应MVDR波束形成算法对语音信号进行增强处理。

本发明实施例中，麦克风阵列中的任意两个麦克风之间的距离大于语音信号的波长的一半。其中，语音信号的波长为语音信号在空气中的传播速度除以语音信号的频率所获得的结果。

本发明实施例中，步骤S206的具体实施方式可以包括以下步骤：

23)在通过麦克风阵列接收到语音信号后，根据目标声源区域与麦克风阵列的相对位置，计算目标声源区域的中心点至麦克风阵列中各个麦克风的直线距离，并计算目标声源区域的中心点与任意两个麦克风的声程差，其中，该声程差为目标声源区域的中心点至上述任意两个麦克风中的一个麦克风的直线距离与目标声源区域的中心点至上述任意两个麦克风中的另一个麦克风的直线距离的绝对差值；

24)根据目标声源区域的中心点至上述任意两个麦克风的声程差，计算目标声源区域的中心点至上述任意两个麦克风的时延；

25)根据目标声源区域的中心点至上述任意两个麦克风的时延对上述任意两个麦克风进行时延补偿，以增强各个麦克风接收到的指向目标声源区域方向的语音信号。

本发明实施例中，当目标声源区域与麦克风阵列的相对位置已知的情况下，可以计算目标声源区域的中心点至麦克风阵列中各个麦克风的直线距离，并可以进一步计算出目标声源区域的中心点至任意两个麦克风的声程差。接着，将该声程差除以语音信号的传播速度，即可获得目标声源区域的中心点至上述任意两个麦克风的时延△t，此时，时延△t为上述任意两个麦克风分别接收到目标声源区域发出的语音信号的时间差值。并根据该时延△t对上述任意两个麦克风进行时延补偿，从而增强各麦克风接收到的指向目标声源区域方向的语音信号，而抑制其他方向上的语音信号。

举例来说，如图3所示，分别获得了麦克风m₁和麦克风m₂在图像采集设备的坐标系下的坐标，且确定了目标声源区域的中心点M在图像采集设备的坐标系下的坐标，则可以计算出目标声源区域的中心点M与麦克风m₁之间的直线距离S₁，以及目标声源区域的中心点M与麦克风m₂之间的直线距离S₂。进一步地，可以计算出目标声源区域的中心点M与麦克风m₁和麦克风m₂的直线距离的绝对差值|S₁-S₂|，并将该绝对差值|S₁-S₂|作为目标声源区域的中心点M至麦克风m₁和麦克风m₂的声程差。接着，将声程差|S₁-S₂|除以语音信号在空气中的传播速度(一般为340m/s)，即得出目标声源区域的中心点M至麦克风m₁和麦克风m₂的时延△t，并根据时延△t对麦克风m₁和麦克风m₂进行时延补偿，以最大输出麦克风m₁和麦克风m₂指向目标声源区域的中心点M方向的语音信号，并尽量抑制接收到的其他方向上的语音信号。

在一个实施例中，图2所描述的语音信号处理方法还可以包括以下步骤：

26)提高增强处理后的语音信号的增益，并对该语音信号进行滤波处理。

在该实施例中，可以利用IIR(Infinite Impulse Response，无限脉冲响应)数字滤波器对增强处理后的语音信号进行滤波处理，以适当提升语音信号频带中的较高频带，从而可以提高语音信号的清晰度。

本发明实施例中，通过实施图2所描述的语音信号处理方法，可以将图像采集设备和麦克风阵列结合起来对声源进行定位，从而能够提高声源定位的准确度；进一步地，在语音增强过程中，准确的声源定位有利于提高语音信号的降噪效果。

请参阅图4，图4是本发明实施例公开的一种语音信号处理装置的结构示意图。其中，图4所示的语音信号处理装置可以用于执行本发明实施例公开的语音信号处理方法。如图4所示，该语音信号处理装置可以包括：

采集单元401，用于通过图像采集设备采集目标发言人的图像。

本发明实施例中，采集单元401可以是在语音信号处理装置开启视频通话或免提会议等模式时通过图像采集设备实时采集目标发言人的图像。其中，图像采集设备可以是一个或多个，可以集成在语音信号处理装置内部，也可以是独立于语音信号处理装置的外部设备且与语音信号处理装置保持通信连接；图像采集设备可以是摄像头、相机等设备，本发明实施例不作限定。

第一确定单元402，用于从该图像中确定目标发言人的嘴部区域，作为目标声源区域。

在一个实施例中，在第一确定单元402从该图像中确定目标发言人的嘴部区域之前，语音信号处理装置可以检测该图像中是否包含目标发言人的人脸图像，即人脸检测的过程。常见的人脸检测有以下几种方法：基于特征的人脸检测法、模板匹配的人脸检测法、基于外观的人脸检测法等等。其中，基于特征的人脸检测法的实现过程为将提取的图像的特征信息与预先存储的人脸特征信息进行比较，以判断是否包含人脸；模板匹配的人脸检测法的实现过程为将图像与预先建立的人脸模板进行匹配，以判断是否包含人脸；基于外观的人脸检测法的实现过程为将图像与预先训练的人脸和非人脸分类器进行比对，以判断是否包含人脸。在该实施例中，上述人脸检测方法可以单独使用，也可以结合使用。

在一个实施例中，当检测出该图像中包含人脸图像时，在该人脸图像区域，第一确定单元402可以采用哈尔Haar嘴部特征分类器，定位嘴部在该人脸图像上的大致位置；根据人脸面部特征分布满足三分之一比例的原则，将获取的嘴部的大致位置中满足在人脸下部1/3区域的位置，确定为嘴部的最终位置，并将其划定为嘴部区域，该嘴部区域即为目标声源区域。

获取单元403，用于通过点特征定位方式获取目标声源区域相对图像采集设备的位置信息。

第二确定单元404，用于根据预先存储的图像采集设备与麦克风阵列的空间相对位置，以及目标声源区域相对图像采集设备的位置信息，确定目标声源区域与麦克风阵列的相对位置。

本发明实施例中，图像采集设备与麦克风阵列之间的空间相对位置可以是已知的，可以预先存储在语音信号处理装置的存储器中。第二确定单元404通过预先存储的图像采集设备与麦克风阵列之间的空间相对位置，以及通过上述获取单元403获取到的目标声源区域相对图像采集设备的位置信息，可以确定出目标声源区域与麦克风阵列之间的相对位置。

处理单元405，用于在通过麦克风阵列接收到语音信号后，根据目标声源区域与麦克风阵列的相对位置，利用最小方差无失真响应MVDR波束形成算法对语音信号进行增强处理。

本发明实施例中，在通过麦克风阵列中的各个麦克风采集到来自任意方向的语音信号后，在上述第二确定单元404确定出目标声源区域与麦克风阵列之间的相对位置的情况下，处理单元405可以利用波束形成技术将各个麦克风采集到的语音信号进行增强处理，以增强各麦克风指向目标声源方向的语音信号，而抑制接收到的其他方向上的语音信号。

本发明实施例中，波束形成技术是通过对各个麦克风接收到的语音信号进行加权处理，增强特定方向语音信号而削弱其它方向语音信号，从而得到来自特定方向的语音信号，此时，特定方向为各麦克风指向目标声源的方向。麦克风阵列的波束形成能力使其可以在捕捉方向性声源的同时，提供比单麦克风更高的系统输出信噪比。目前，波束形成技术运用相当普遍，常见的波束形成算法有LMS算法、RLS算法、MVDR算法等等。本发明实施例选用的是MVDR波束形成算法，其原理为让感兴趣的语音信号无失真输出，而使得波束输出噪声方差最小。与LMS算法、RLS算法等相比，MVDR算法能够提高阵增益，因此对噪声的抑制能力更强。

本发明实施例中，采集单元401可以通过图像采集设备采集目标发言人的图像，第一确定单元402根据该图像确定目标发言人的嘴部区域，以作为目标声源区域，获取单元403可以通过点特征定位方式获取目标声源区域相对图像采集设备的位置信息，第二确定单元404根据预先存储的图像采集设备与麦克风阵列的空间相对位置，以及目标声源区域相对图像采集设备的位置信息，确定目标声源区域与麦克风阵列的相对位置，处理单元405在通过麦克风阵列接收到语音信号后，根据目标声源区域与麦克风阵列的相对位置，利用最小方差无失真响应MVDR波束形成算法对语音信号进行增强处理。通过实施图4所示的语音信号处理装置，可以将图像采集设备和麦克风阵列结合起来对声源进行定位，从而能够提高声源定位的准确度；进一步地，在语音增强过程中，准确的声源定位有利于提高语音信号的降噪效果。

请参阅图5，图5是本发明实施例公开的另一种语音信号处理装置的结构示意图。其中，图5所示的语音信号处理装置可以用于执行本发明实施例公开的语音信号处理方法。如图5所示，该语音信号处理装置可以包括：

采集单元501，用于通过图像采集设备采集目标发言人的图像。

第一确定单元502，用于从该图像中确定目标发言人的嘴部区域，作为目标声源区域。

获取单元503，用于通过点特征定位方式获取目标声源区域相对图像采集设备的位置信息。

在图5所示的语音信号处理装置中，获取单元503可以进一步包括：

第一获取单元5031，用于提取目标声源区域的至少一个点特征，根据点特征的像素值获取点特征在该图像的坐标系下的坐标，其中，该图像的坐标系中的坐标原点为图像采集设备的光轴在该图像上的垂直投影点，且该图像的坐标系中的相互垂直的两个轴在该图像所在平面内。

第二获取单元5032，用于根据点特征在该图像的坐标系下的坐标和图像采集设备的焦距，获取目标声源区域的中心点在图像采集设备的坐标系下的坐标，作为目标声源区域相对图像采集设备的位置信息；其中，图像采集设备的坐标系中的坐标原点为图像采集设备的中心点，且图像采集设备的坐标系中的两两互相垂直的三个轴中的一个轴与该图像所在平面垂直，其余两个轴分别与该图像的坐标系的两个轴平行。

第二确定单元504，用于根据预先存储的图像采集设备与麦克风阵列的空间相对位置，以及目标声源区域相对图像采集设备的位置信息，确定目标声源区域与麦克风阵列的相对位置。

在图5所示的语音信号处理装置中，第二确定单元504可以进一步包括：

第一确定子单元5041，用于根据预先存储的图像采集设备与麦克风阵列的空间相对位置，确定麦克风阵列在图像采集设备的坐标系下的坐标。

第二确定子单元5042，用于根据麦克风阵列在图像采集设备的坐标系下的坐标，以及目标声源区域的中心点在图像采集设备的坐标系下的坐标，确定目标声源区域的中心点与麦克风阵列的相对位置，作为目标声源区域与麦克风阵列的相对位置。

处理单元505，用于在通过麦克风阵列接收到语音信号后，根据目标声源区域与麦克风阵列的相对位置，利用最小方差无失真响应MVDR波束形成算法对语音信号进行增强处理。

本发明实施例中，麦克风阵列中的任意两个麦克风之间的距离大于语音信号的波长的一半。

在图5所示的语音信号处理装置中，处理单元505可以进一步包括：

第一计算子单元5051，用于在通过麦克风阵列接收到语音信号后，根据目标声源区域与麦克风阵列的相对位置，计算目标声源区域的中心点至麦克风阵列中各个麦克风的直线距离，并计算目标声源区域的中心点至任意两个麦克风的声程差，其中，该声程差为目标声源区域的中心点至上述任意两个麦克风中的一个麦克风的直线距离与目标声源区域的中心点至上述任意两个麦克风中的另一个麦克风的直线距离的绝对差值。

第二计算子单元5052，用于根据目标声源区域的中心点至上述任意两个麦克风的声程差，计算目标声源区域的中心点至上述任意两个麦克风的时延。

时延补偿子单元5053，用于根据目标声源区域的中心点至上述任意两个麦克风的时延对上述任意两个麦克风进行时延补偿，以增强各个麦克风接收到的指向目标声源区域方向的语音信号。

本发明实施例中，通过实施图5所示的语音信号处理装置，可以将图像采集设备和麦克风阵列结合起来对声源进行定位，从而能够提高声源定位的准确度；进一步地，在语音增强过程中，准确的声源定位有利于提高语音信号的降噪效果。

请参阅图6，图6是本发明实施例公开的又一种语音信号处理装置的结构示意图。其中，图6所示的语音信号处理装置可以用于执行本发明实施例公开的语音信号处理方法。如图6所示，该语音信号处理装置600可以包括：至少一个处理器601，例如CPU(Central Processing Unit，中央处理器)，至少一个图像采集设备602，麦克风阵列603，存储器604以及通信总线605。其中，通信总线605用于实现这些组件之间的连接通信。本领域技术人员可以理解，图6中示出的语音信号处理装置的结构并不构成对本发明的限定，它既可以是总线形结构，也可以是星型结构，还可以包括比图6所示的更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明实施例中，图像采集设备602可以是摄像头、相机等，用于采集目标发言人的图像；麦克风阵列603包括至少两个麦克风，用于接收各个方向上的语音信号。

本发明实施例中，存储器604可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器604可选的还可以是至少一个位于远离前述处理器601的存储装置。如图6所示，作为一种计算机存储介质的存储器604中可以包括操作系统、语音信号处理程序和数据等，本发明实施例不作限定。

在图6所示的语音信号处理装置中，处理器601可以用于调用存储器604中存储的语音信号处理程序以执行以下操作：

通过图像采集设备602采集目标发言人的图像；

从该图像中确定目标发言人的嘴部区域，作为目标声源区域；

通过点特征定位方式获取目标声源区域相对图像采集设备602的位置信息；

根据存储器604预先存储的语音信号处理数据包括的图像采集设备602与麦克风阵列603的空间相对位置，以及目标声源区域相对图像采集设备602的位置信息，确定目标声源区域与麦克风阵列603的相对位置；

在通过麦克风阵列603接收到语音信号后，根据目标声源区域与麦克风阵列603的相对位置，利用最小方差无失真响应MVDR波束形成算法对语音信号进行增强处理。

本发明实施例中，处理器601通过点特征定位方式获取目标声源区域相对图像采集设备602的位置信息的方式具体可以为：

提取目标声源区域的至少一个点特征，根据点特征的像素值获取点特征在该图像的坐标系下的坐标，其中，该图像的坐标系中的坐标原点为图像采集设备602的光轴在该图像上的垂直投影点，且该图像的坐标系中的相互垂直的两个轴在该图像所在平面内；

根据点特征在该图像的坐标系下的坐标和图像采集设备602的焦距，获取目标声源区域的中心点在图像采集设备602的坐标系下的坐标，作为目标声源区域相对图像采集设备602的位置信息；其中，图像采集设备602的坐标系中的坐标原点为图像采集设备602的中心点，且图像采集设备602的坐标系中的两两互相垂直的三个轴中的一个轴与该图像所在平面垂直，其余两个轴分别与该图像的坐标系的两个轴平行。

相应地，处理器601根据存储器604预先存储的语音信号处理数据包括的图像采集设备602与麦克风阵列603的空间相对位置，以及目标声源区域相对图像采集设备602的位置信息，确定目标声源区域与麦克风阵列603的相对位置的方式具体可以为：

根据存储器604预先存储的语音信号处理数据包括的图像采集设备602与麦克风阵列603的空间相对位置，确定麦克风阵列603在图像采集设备602的坐标系下的坐标；

根据麦克风阵列603在图像采集设备602的坐标系下的坐标，以及目标声源区域的中心点在图像采集设备602的坐标系下的坐标，确定目标声源区域的中心点与麦克风阵列603的相对位置，作为目标声源区域与麦克风阵列603的相对位置。

本发明实施例中，麦克风阵列603中的任意两个麦克风之间的距离大于语音信号的波长的一半。

本发明实施例中，处理器601在通过麦克风阵列603接收到语音信号后，根据目标声源区域与麦克风阵列603的相对位置，利用最小方差无失真响应MVDR波束形成算法对语音信号进行增强处理的方式具体可以为：

在通过麦克风阵列603接收到语音信号后，根据目标声源区域与麦克风阵列603的相对位置，计算目标声源区域的中心点至麦克风阵列603中各个麦克风的直线距离，并计算目标声源区域的中心点至任意两个麦克风的声程差，其中，该声程差为目标声源区域的中心点至上述任意两个麦克风中的一个麦克风的直线距离与目标声源区域的中心点至上述任意两个麦克风中的另一个麦克风的直线距离的绝对差值；

根据目标声源区域的中心点至上述任意两个麦克风的声程差，计算目标声源区域的中心点至上述任意两个麦克风的时延；

根据目标声源区域的中心点至上述任意两个麦克风的时延对上述任意两个麦克风进行时延补偿，以增强各个麦克风接收到的指向目标声源区域方向的语音信号。

本发明实施例中，通过实施图6所示的语音信号处理装置，可以将图像采集设备和麦克风阵列结合起来对声源进行定位，从而能够提高声源定位的准确度；进一步地，在语音增强过程中，准确的声源定位有利于提高语音信号的降噪效果。

具体地，本发明实施例中介绍的语音信号处理装置可以实施本发明结合图1或图2介绍的语音信号处理方法实施例中的部分或全部流程。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

以上对本发明实施例所提供的语音信号处理方法及装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

一种语音信号处理方法，其特征在于，包括：

通过图像采集设备采集目标发言人的图像；

从所述图像中确定所述目标发言人的嘴部区域，作为目标声源区域；

通过点特征定位方式获取所述目标声源区域相对所述图像采集设备的位置信息；

根据预先存储的所述图像采集设备与麦克风阵列的空间相对位置，以及所述目标声源区域相对所述图像采集设备的位置信息，确定所述目标声源区域与所述麦克风阵列的相对位置；

在通过所述麦克风阵列接收到语音信号后，根据所述目标声源区域与所述麦克风阵列的相对位置，利用最小方差无失真响应MVDR波束形成算法对所述语音信号进行增强处理。
根据权利要求1所述的方法，其特征在于，所述通过点特征定位方式获取所述目标声源区域相对所述图像采集设备的位置信息，包括：

提取所述目标声源区域的至少一个点特征，根据所述点特征的像素值获取所述点特征在所述图像的坐标系下的坐标，其中，所述图像的坐标系中的坐标原点为所述图像采集设备的光轴在所述图像上的垂直投影点，且所述图像的坐标系中的相互垂直的两个轴在所述图像所在平面内；

根据所述点特征在所述图像的坐标系下的坐标和所述图像采集设备的焦距，获取所述目标声源区域的中心点在所述图像采集设备的坐标系下的坐标，作为所述目标声源区域相对所述图像采集设备的位置信息；其中，所述图像采集设备的坐标系中的坐标原点为所述图像采集设备的中心点，且所述图像采集设备的坐标系中的两两互相垂直的三个轴中的一个轴与所述图像所在平面垂直，其余两个轴分别与所述图像的坐标系的两个轴平行。
根据权利要求2所述的方法，其特征在于，所述根据预先存储的所述图像采集设备与麦克风阵列的空间相对位置，以及所述目标声源区域相对所述图像采集设备的位置信息，确定所述目标声源区域与所述麦克风阵列的相对位置，包括：

根据预先存储的所述图像采集设备与麦克风阵列的空间相对位置，确定所述麦克风阵列在所述图像采集设备的坐标系下的坐标；

根据所述麦克风阵列在所述图像采集设备的坐标系下的坐标，以及所述目标声源区域的中心点在所述图像采集设备的坐标系下的坐标，确定所述目标声源区域的中心点与所述麦克风阵列的相对位置，作为所述目标声源区域与所述麦克风阵列的相对位置。
根据权利要求1-3中任一项所述的方法，其特征在于，所述麦克风阵列中的任意两个麦克风之间的距离大于所述语音信号的波长的一半。
根据权利要求1-4中任一项所述的方法，其特征在于，所述在通过所述麦克风阵列接收到语音信号后，根据所述目标声源区域与所述麦克风阵列的相对位置，利用最小方差无失真响应MVDR波束形算法对所述语音信号进行增强处理，包括：

在通过所述麦克风阵列接收到语音信号后，根据所述目标声源区域与所述麦克风阵列的相对位置，计算所述目标声源区域的中心点至所述麦克风阵列中各个麦克风的直线距离，并计算所述目标声源区域的中心点至任意两个麦克风的声程差，其中，所述声程差为所述目标声源区域的中心点至所述任意两个麦克风中的一个麦克风的直线距离与所述目标声源区域的中心点至所述任意两个麦克风中的另一个麦克风的直线距离的绝对差值；

根据所述目标声源区域的中心点至所述任意两个麦克风的声程差，计算所述目标声源区域的中心点至所述任意两个麦克风的时延；

根据所述目标声源区域的中心点至所述任意两个麦克风的时延对所述任意两个麦克风进行时延补偿，以增强各个麦克风接收到的指向所述目标声源区域方向的语音信号。
一种语音信号处理装置，其特征在于，包括：

采集单元，用于通过图像采集设备采集目标发言人的图像；

第一确定单元，用于从所述图像中确定所述目标发言人的嘴部区域，作为目标声源区域；

获取单元，用于通过点特征定位方式获取所述目标声源区域相对所述图像采集设备的位置信息；

第二确定单元，用于根据预先存储的所述图像采集设备与麦克风阵列的空间相对位置，以及所述目标声源区域相对所述图像采集设备的位置信息，确定所述目标声源区域与所述麦克风阵列的相对位置；

处理单元，用于在通过所述麦克风阵列接收到语音信号后，根据所述目标声源区域与所述麦克风阵列的相对位置，利用最小方差无失真响应MVDR波束形成算法对所述语音信号进行增强处理。
根据权利要求6所述的装置，其特征在于，所述获取单元包括：

第一获取子单元，用于提取所述目标声源区域的至少一个点特征，根据所述点特征的像素值获取所述点特征在所述图像的坐标系下的坐标，其中，所述图像的坐标系中的坐标原点为所述图像采集设备的光轴在所述图像上的垂直投影点，且所述图像的坐标系中的相互垂直的两个轴在所述图像所在平面内；

第二获取子单元，用于根据所述点特征在所述图像的坐标系下的坐标和所述图像采集设备的焦距，获取所述目标声源区域的中心点在所述图像采集设备的坐标系下的坐标，作为所述目标声源区域相对所述图像采集设备的位置信息；其中，所述图像采集设备的坐标系中的坐标原点为所述图像采集设备的中心点，且所述图像采集设备的坐标系中的两两互相垂直的三个轴中的一个轴与所述图像所在平面垂直，其余两个轴分别与所述图像的坐标系的两个轴平行。
根据权利要求7所述的装置，其特征在于，所述第二确定单元包括：

第一确定子单元，用于根据预先存储的所述图像采集设备与麦克风阵列的空间相对位置，确定所述麦克风阵列在所述图像采集设备的坐标系下的坐标；

第二确定子单元，用于根据所述麦克风阵列在所述图像采集设备的坐标系下的坐标，以及所述目标声源区域的中心点在所述图像采集设备的坐标系下的坐标，确定所述目标声源区域的中心点与所述麦克风阵列的相对位置，作为所述目标声源区域与所述麦克风阵列的相对位置。
根据权利要求6-8中任一项所述的装置，其特征在于，所述麦克风阵列中的任意两个麦克风之间的距离大于所述语音信号的波长的一半。
根据权利要求6-9中任一项所述的装置，其特征在于，所述处理单元包括：

第一计算子单元，用于在通过所述麦克风阵列接收到语音信号后，根据所述目标声源区域与所述麦克风阵列的相对位置，计算所述目标声源区域的中心点至所述麦克风阵列中各个麦克风的直线距离，并计算所述目标声源区域的中心点至任意两个麦克风的声程差，其中，所述声程差为所述目标声源区域的中心点至所述任意两个麦克风中的一个麦克风的直线距离与所述目标声源区域的中心点至所述任意两个麦克风中的另一个麦克风的直线距离的绝对差值；

第二计算子单元，用于根据所述目标声源区域的中心点至所述任意两个麦克风的声程差，计算所述目标声源区域的中心点至所述任意两个麦克风的时延；

时延补偿子单元，用于根据所述目标声源区域的中心点至所述任意两个麦克风的时延对所述任意两个麦克风进行时延补偿，以增强各个麦克风接收到的指向所述目标声源区域方向的语音信号。
一种语音信号处理装置，其特征在于，包括：处理器、存储器、通信总线、图像采集设备和麦克风阵列；

其中，所述存储器用于存储程序和数据；

所述通信总线用于建立所述处理器、所述存储器、所述图像采集设备和所述麦克风阵列之间的连接通信；

所述处理器用于调用所述存储器存储的程序，执行如下步骤：

通过所述图像采集设备采集目标发言人的图像；

从所述图像中确定所述目标发言人的嘴部区域，作为目标声源区域；

通过点特征定位方式获取所述目标声源区域相对所述图像采集设备的位置信息；

根据所述存储器预先存储的所述数据包括的所述图像采集设备与所述麦克风阵列的空间相对位置，以及所述目标声源区域相对所述图像采集设备的位置信息，确定所述目标声源区域与所述麦克风阵列的相对位置；

在通过所述麦克风阵列接收到语音信号后，根据所述目标声源区域与所述麦克风阵列的相对位置，利用最小方差无失真响应MVDR波束形成算法对所述语音信号进行增强处理。
根据权利要求11所述的装置，其特征在于，所述处理器通过点特征定位方式获取所述目标声源区域相对所述图像采集设备的位置信息的方式具体为：

提取所述目标声源区域的至少一个点特征，根据所述点特征的像素值获取所述点特征在所述图像的坐标系下的坐标，其中，所述图像的坐标系中的坐标原点为所述图像采集设备的光轴在所述图像上的垂直投影点，且所述图像的坐标系中的相互垂直的两个轴在所述图像所在平面内；

根据所述点特征在所述图像的坐标系下的坐标和所述图像采集设备的焦距，获取所述目标声源区域的中心点在所述图像采集设备的坐标系下的坐标，作为所述目标声源区域相对所述图像采集设备的位置信息；其中，所述图像采集设备的坐标系中的坐标原点为所述图像采集设备的中心点，且所述图像采集设备的坐标系中的两两互相垂直的三个轴中的一个轴与所述图像所在平面垂直，其余两个轴分别与所述图像的坐标系的两个轴平行。
根据权利要求12所述的装置，其特征在于，所述处理器根据所述存储器预先存储的所述数据包括的所述图像采集设备与所述麦克风阵列的空间相对位置，以及所述目标声源区域相对所述图像采集设备的位置信息，确定所述目标声源区域与所述麦克风阵列的相对位置的方式具体为：

根据所述存储器预先存储的所述数据包括的所述图像采集设备与所述麦克风阵列的空间相对位置，确定所述麦克风阵列在所述图像采集设备的坐标系下的坐标；

根据所述麦克风阵列在所述图像采集设备的坐标系下的坐标，以及所述目标声源区域的中心点在所述图像采集设备的坐标系下的坐标，确定所述目标声源区域的中心点与所述麦克风阵列的相对位置，作为所述目标声源区域与所述麦克风阵列的相对位置。
根据权利要求11-13中任一项所述的装置，其特征在于，所述麦克风阵列中的任意两个麦克风之间的距离大于所述语音信号的波长的一半。
根据权利要求11-14中任一项所述的装置，其特征在于，所述处理器在通过所述麦克风阵列接收到语音信号后，根据所述目标声源区域与所述麦克风阵列的相对位置，利用最小方差无失真响应MVDR波束形算法对所述语音信号进行增强处理的方式具体为：

在通过所述麦克风阵列接收到语音信号后，根据所述目标声源区域与所述麦克风阵列的相对位置，计算所述目标声源区域的中心点至所述麦克风阵列中各个麦克风的直线距离，并计算所述目标声源区域的中心点至任意两个麦克风的声程差，其中，所述声程差为所述目标声源区域的中心点至所述任意两个麦克风中的一个麦克风的直线距离与所述目标声源区域的中心点至所述任意两个麦克风中的另一个麦克风的直线距离的绝对差值；

根据所述目标声源区域的中心点至所述任意两个麦克风的声程差，计算所述目标声源区域的中心点至所述任意两个麦克风的时延；

根据所述目标声源区域的中心点至所述任意两个麦克风的时延对所述任意两个麦克风进行时延补偿，以增强各个麦克风接收到的指向所述目标声源区域方向的语音信号。