WO2019200722A1

WO2019200722A1 - 声源方向估计方法和装置

Info

Publication number: WO2019200722A1
Application number: PCT/CN2018/094132
Authority: WO
Inventors: 邹黄辉
Original assignee: 深圳市沃特沃德股份有限公司
Priority date: 2018-04-16
Filing date: 2018-07-02
Publication date: 2019-10-24
Also published as: CN108957392A

Abstract

提供了一种声源方向估计方法和装置，该方法包括：当检测到声音信号时，通过摄像头采集图像（S11）；获取声源在图像中的位置坐标（S12）；根据声源在图像中的位置坐标计算出摄像头与声源的连线与摄像头的投影面的第一夹角（S13）；根据第一夹角和预置的第二夹角计算出声源的方向（S14）。通过该方法估计声源的方向，避免了环境噪声的影响，提高了估计的准确性。

Description

声源方向估计方法和装置

技术领域

本发明涉及电子技术领域，特别是涉及到一种声源方向估计方法和装置。

背景技术

在语音降噪、声源跟踪等应用场景，都需要首先估计声源方向。目前，最有效的声源方向估计方法是采用双麦克风技术进行声源方向估计，即利用两个麦克风采集声音信号，根据采集的两个声音信号的相位差来估计声源方向。

但是，当用于远场语音降噪时，或者背景噪音较大时，上述声源方向估计方法的效果就大打折扣，导致估计的声源方向不够准确，从而影响后续语音降噪或声源跟踪的效果。

技术问题

本发明的主要目的为提供一种提高声源方向估计的准确性的声源方向估计方法和装置，旨在解决现有估计声源方向不准确的技术问题。

技术解决方案

为达以上目的，本发明实施例提出一种声源方向估计方法，所述方法包括以下步骤：

当检测到声音信号时，通过摄像头采集图像；

获取声源在所述图像中的位置坐标；

根据所述位置坐标计算出所述摄像头与所述声源的连线与所述摄像头的投影面的第一夹角；

根据所述第一夹角和预置的第二夹角计算出所述声源的方向；其中，所述第二夹角为两个麦克风的连线与所述摄像头的横轴的夹角。

可选地，所述获取声源在所述图像中的位置坐标的步骤包括：

识别所述图像中的人脸；

获取所述图像中人脸的嘴唇的位置坐标，并将所述嘴唇的位置坐标作为所述声源在所述图像中的位置坐标。

可选地，所述获取所述图像中人脸的嘴唇的位置坐标的步骤包括：

当所述图像中的人脸至少有两个时，检测所述人脸的嘴唇是否在抖动；

获取嘴唇在抖动的人脸的嘴唇的位置坐标。

可选地，所述根据所述位置坐标计算出所述摄像头与所述声源的连线与所述摄像头的投影面的第一夹角的步骤包括：

利用以下公式计算出所述第一夹角：

A1= atan((x*x+y*y)^0.5/(c *f))；

其中，A1为第一夹角，（x,y）为所述位置坐标，c为所述图像与所述投影面的距离，f为所述摄像头的焦距。

可选地，所述根据所述第一夹角和预置的第二夹角计算出所述声源的方向的步骤包括：

利用以下公式计算出所述声源的方向：

A =arccos(cos(A1)*cos(A2))；

其中，A1为第一夹角，A2为第二夹角，A为所述声源与所述麦克风的连线与两个麦克风的连线的夹角，代表所述声源的方向。

可选地，所述根据所述第一夹角和预置的第二夹角计算出所述声源的方向的步骤之后还包括：

根据所述声源的方向计算出两个麦克风接收到所述声源的声音信号的时间延迟。

可选地，所述根据所述声源的方向计算出两个麦克风接收到所述声源的声音信号的时间延迟的步骤包括：

利用以下公式计算出所述时间延迟：

t= d*cos(A)/340；

其中，t为所述时间延迟，d为两个麦克风之间的距离，A为所述声源与所述麦克风的连线与两个麦克风的连线的夹角。

可选地，所述根据所述声源的方向计算出两个麦克风接收到所述声源的声音信号的时间延迟的步骤之后还包括：

根据所述时间延迟对两个麦克风接收到的两个声音信号的波函数进行对齐处理；

根据所述两个声音信号的波函数获取相干性函数，并获取所述声音信号的噪声函数；

根据所述声音信号的波函数、所述相干性函数和所述噪声函数计算出降噪后的语音信号的波函数。

可选地，所述根据所述两个声音信号的波函数获取相干性函数的步骤包括：

利用以下公式获取所述相干性函数：

r(w)=2* y1(w)*y2(w)/( y1(w)*y1(w) + y2(w)*y2(w));

其中，r(w)为相干性函数，y1(w)为其中一个麦克风接收到的声音信号的波函数，y2(w)为另一个麦克风接收到的声音信号的波函数。

可选地，所述根据所述声音信号的波函数、所述相干性函数和所述噪声函数计算出降噪后的语音信号的波函数的步骤包括：

利用以下公式计算出降噪后的语音信号的波函数：

y(w)=r(w)*（y1(w)- n1(w)）；

其中，y(w)为降噪后的语音信号的波函数，y1(w) 为其中一个麦克风接收到的声音信号的波函数， n1(w)为其中一个麦克风接收到的声音信号的噪声函数。

本发明实施例同时提出一种声源方向估计装置，所述装置包括：

图像采集模块，用于当检测到声音信号时，通过摄像头采集图像；

位置获取模块，用于获取声源在所述图像中的位置坐标；

第一计算模块，用于根据所述位置坐标计算出所述摄像头与所述声源的连线与所述摄像头的投影面的第一夹角；

第二计算模块，用于根据所述第一夹角和预置的第二夹角计算出所述声源的方向；其中，所述第二夹角为两个麦克风的连线与所述摄像头的横轴的夹角。

可选地，所述位置获取模块包括：

识别单元，用于识别所述图像中的人脸；

获取单元，用于获取所述图像中人脸的嘴唇的位置坐标，并将所述嘴唇的位置坐标作为所述声源在所述图像中的位置坐标。

可选地，所述获取单元包括：

检测子单元，用于当所述图像中的人脸至少有两个时，检测所述人脸的嘴唇是否在抖动；

获取子单元，用于获取嘴唇在抖动的人脸的嘴唇的位置坐标。

可选地，所述第一计算模块用于：

利用以下公式计算出所述第一夹角：

A1= atan((x*x+y*y)^0.5/(c *f))；

可选地，所述第二计算模块用于：

利用以下公式计算出所述声源的方向：

A =arccos(cos(A1)*cos(A2))；

可选地，所述装置还包括第三计算模块，所述第三计算模块用于：根据所述声源的方向计算出两个麦克风接收到所述声源的声音信号的时间延迟。

可选地，所述第三计算模块用于：

利用以下公式计算出所述时间延迟：

t= d*cos(A)/340；

可选地，所述装置还包括：

对齐处理模块，用于根据所述时间延迟对两个麦克风接收到的两个声音信号的波函数进行对齐处理；

函数获取模块，用于根据所述两个声音信号的波函数获取相干性函数，并获取所述声音信号的噪声函数；

函数计算模块，用于根据所述声音信号的波函数、所述相干性函数和所述噪声函数计算出降噪后的语音信号的波函数。

可选地，所述函数获取模块用于：

利用以下公式获取所述相干性函数：

r(w)=2* y1(w)*y2(w)/( y1(w)*y1(w) + y2(w)*y2(w));

可选地，所述函数计算模块用于：

利用以下公式计算出降噪后的语音信号的波函数：

y(w)=r(w)*（y1(w)- n1(w)）；

本发明实施例还提出一种终端设备，其包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序，所述应用程序被配置为用于执行前述声源方向估计方法。

有益效果

本发明实施例所提供的一种声源方向估计方法，当检测到声音信号时，利用图像识别技术获取声源在图像中的位置坐标，据此估计声源的方向，从而避免了环境噪声对声源方向估计的影响，提高了声源方向估计的准确性，进而为提高后续语音降噪或声源定位的效果奠定了基础。

附图说明

图1是本发明的声源方向估计方法第一实施例的流程图；

图2是本发明的声源方向估计方法第二实施例的流程图；

图3是本发明的声源方向估计方法第三实施例的流程图；

图4是本发明的声源方向估计装置第一实施例的模块示意图；

图5是图4中的位置获取模块的模块示意图；

图6是图5中的获取单元的模块示意图；

图7是本发明的声源方向估计装置第二实施例的模块示意图；

图8是本发明的声源方向估计装置第三实施例的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

本发明的最佳实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语（包括技术术语和科学术语），具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，执行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS（Personal Communications Service，个人通信系统），其可以组合语音、数据处理、传真和/或数据通信能力；PDA（Personal Digital Assistant，个人数字助理），其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS（Global Positioning System，全球定位系统）接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具（航空、海运和/或陆地）中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID（Mobile Internet Device，移动互联网设备）和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本技术领域技术人员可以理解，这里所使用的服务器，其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此，云由基于云计算（Cloud Computing）的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。本发明的实施例中，服务器、终端设备与WNS服务器之间可通过任何通信方式实现通信，包括但不限于，基于3GPP、LTE、WIMAX的移动通信、基于TCP/IP、UDP协议的计算机网络通信以及基于蓝牙、红外传输标准的近距无线传输方式。

本发明实施例的声源方向估计方法，可以应用于各种电子设备，包括终端设备（如相机、手机、平板等）、智能家居设备（如音响设备、智能电视等）、机器人设备、安监设备（如监控装置等）等。以下以应用于终端设备为例进行详细说明。

参照图1，提出本发明的声源方向估计方法第一实施例，所述方法包括以下步骤：

S11、当检测到声音信号时，通过摄像头采集图像。

本发明实施例中，终端设备通过双麦克风检测声音，当检测到声音信号时，立即通过摄像头采集图像。

S12、获取声源在图像中的位置坐标。

本发明实施例中，终端设备采用人脸识别技术识别图像中的人脸，当识别到人脸时，则获取图像中人脸的嘴唇的位置坐标，并将嘴唇的位置坐标作为声源在图像中的位置坐标。

可选地，当图像中的人脸至少有两个时，检测人脸的嘴唇是否在抖动，当嘴唇在抖动时才说明在说话，因此获取嘴唇在抖动的人脸的嘴唇的位置坐标作为声源在图像中的位置坐标。

S13、根据声源在图像中的位置坐标计算出摄像头与声源的连线与摄像头的投影面的第一夹角。

本发明实施例中，终端设备获取预置的摄像头的焦距以及图像与投影面的距离，并根据声源在图像中的位置坐标、摄像头的焦距以及图像与投影面的距离，计算出摄像头与声源的连线与摄像头的投影面的第一夹角。

具体的，终端设备可以利用以下公式计算出第一夹角：

A1= atan((x*x+y*y)^0.5/(c *f))；

其中，A1为第一夹角，（x,y）为声源在图像中的位置坐标，c为图像与投影面（摄像头的焦点所在的且与摄像头平行的面）的距离，f为摄像头的焦距。

S14、根据第一夹角和预置的第二夹角计算出声源的方向。

本发明实施例中，可以根据硬件设计预先计算出两个麦克风的连线与摄像头的横轴的夹角，并将该夹角作为第二夹角预置于终端设备。终端设备则根据第一夹角和第二夹角计算出声源的方向。

具体的，终端设备可以利用以下公式计算出声源的方向：

A =arccos(cos(A1)*cos(A2))；

其中，A1为第一夹角，A2为第二夹角，A为声源与一个麦克风的连线与两个麦克风的连线的夹角，代表声源的方向。由于两个麦克风之间的距离相对于声源与麦克风的距离来说是极小的，因此第二夹角可以是声源与任意一个麦克风的连线与两个麦克风的连线的夹角。

从而，利用图像识别技术获取声源在图像中的位置坐标，据此估计声源的方向，从而避免了环境噪声对声源方向估计的影响，提高了声源方向估计的准确性。

进一步，如图2所示，在本发明的声源方向估计方法第二实施例中，步骤S14之后还包括以下步骤：

S15、根据声源的方向计算出两个麦克风接收到声源的声音信号的时间延迟。

本实施例中，终端设备根据两个麦克风之间的距离以及声源与一个麦克风的连线与两个麦克风的连线的夹角（即声源方向），计算出两个麦克风接收到声源的声音信号的时间延迟。

具体的，终端设备可以利用以下公式计算出时间延迟：

t= d*cos(A)/340；

其中，t为时间延迟，d为两个麦克风之间的距离，A为声源与一个麦克风的连线与两个麦克风的连线的夹角（声源方向）。

从而，即使在嘈杂的环境下，也能准确的计算出两个麦克风采集的声音信号的时间延迟，从而为提高后续语音降噪的效果奠定了基础。

更进一步地，如图3所示，在本发明的声源方向估计方法第三实施例中，步骤S15之后还包括以下步骤：

S16、根据时间延迟对两个麦克风接收到的两个声音信号的波函数进行对齐处理。

本实施例中，终端设备根据两个麦克风接收到的声音信号的时间延迟t对两个声音信号的波函数进行对齐处理，如将其中一个波函数向前平移t或者将另一个波函数向后平移t。

S17、根据两个声音信号的波函数获取相干性函数，并获取声音信号的噪声函数。

本实施例中，终端设备先对两个声音信号的波函数进行傅立叶变换，再计算两个波函数的相干性，获取相干性函数。同时，终端设备通过检测声音信号中的无语音部分，获取声音信号的噪声函数。终端设备只需获取任意一个麦克风采集的声音信号的噪声函数，如获取麦克风1采集的声音信号的噪声函数n1(w)。

具体的，终端设备利用以下公式获取相干性函数：

r(w)=2* y1(w)*y2(w)/( y1(w)*y1(w) + y2(w)*y2(w));

其中，r(w)为相干性函数，y1(w)为其中一个麦克风（麦克风1）接收到的声音信号的波函数，y2(w)为另一个麦克风（麦克风2）接收到的声音信号的波函数。

S18、根据声音信号的波函数、相干性函数和噪声函数计算出降噪后的语音信号的波函数。

本实施例中，终端设备根据相干性函数r(w)、噪声函数n1(w)和声音信号的波函数y1(w)等映射关系进行信号更新，得到降噪后的语音信号的波函数y(w)，并对该波函数y(w)进行反傅立叶变换，得到降噪后的语音信号。

具体的，终端设备可以利用以下公式计算出降噪后的语音信号的波函数：

y(w)=r(w)*（y1(w)- n1(w)）；

其中，y(w)为降噪后的语音信号的波函数，y1(w) 为其中一个麦克风（麦克风1）接收到的声音信号的波函数，n1(w)为其中一个麦克风（麦克风1）接收到的声音信号的噪声函数。可选地，前述y1(w)和n1(w)也可以分别替换为y2(w)和n2(w)。

从而，即使进行远场语音降噪时，或者背景噪音较大时，也能获得良好的语音降噪效果，提升了用户体验。

本发明实施例的声源方向估计方法，当检测到声音信号时，利用图像识别技术获取声源在图像中的位置坐标，据此估计声源的方向，从而避免了环境噪声对声源方向估计的影响，提高了声源方向估计的准确性，进而为提高后续语音降噪或声源定位的效果奠定了基础。

参照图4，提出本发明的声源方向估计装置第一实施例，所述装置包括图像采集模块10、位置获取模块20、第一计算模块30和第二计算模块40，其中：图像采集模块10，用于当检测到声音信号时，通过摄像头采集图像；位置获取模块20，用于获取声源在图像中的位置坐标；第一计算模块30，用于根据位置坐标计算出摄像头与声源的连线与摄像头的投影面的第一夹角；第二计算模块40，用于根据第一夹角和预置的第二夹角计算出声源的方向。

本发明实施例中，终端设备通过双麦克风检测声音，当检测到声音信号时，图像采集模块10立即通过摄像头采集图像，位置获取模块20则获取声源在图像中的位置坐标。

本发明实施例中，位置获取模块20如图5所示，包括识别单元21和获取单元22，其中：识别单元21，用于采用人脸识别技术识别图像中的人脸；获取单元22，用于当识别到人脸时，获取图像中人脸的嘴唇的位置坐标，并将嘴唇的位置坐标作为声源在图像中的位置坐标。

可选地，获取单元22如图6所示，包括检测子单元221和获取子单元222，其中：检测子单元221，用于当图像中的人脸至少有两个时，检测人脸的嘴唇是否在抖动；获取子单元222，用于获取嘴唇在抖动的人脸的嘴唇的位置坐标作为声源在图像中的位置坐标。

本发明实施例中，第一计算模块30获取预置的摄像头的焦距以及图像与投影面的距离，并根据声源在图像中的位置坐标、摄像头的焦距以及图像与投影面的距离，计算出摄像头与声源的连线与摄像头的投影面的第一夹角。

具体的，第一计算模块30利用以下公式计算出第一夹角：

A1= atan((x*x+y*y)^0.5/(c *f))；

本发明实施例中，可以根据硬件设计预先计算出两个麦克风的连线与摄像头的横轴的夹角，并将该夹角作为第二夹角预置于终端设备。第二计算模块40则根据第一夹角和第二夹角计算出声源的方向。

具体的，第二计算模块40可以利用以下公式计算出声源的方向：

A =arccos(cos(A1)*cos(A2))；

其中，A1为第一夹角，A2为第二夹角，A为声源与麦克风的连线与两个麦克风的连线的夹角，代表声源的方向。由于两个麦克风之间的距离相对于声源与麦克风的距离来说是极小的，因此第二夹角可以是声源与任意一个麦克风的连线与两个麦克风的连线的夹角。

进一步地，如图7所示，在本发明的声源方向估计装置第二实施例中，该装置还包括第三计算模块50，该第三计算模块50用于：根据声源的方向计算出两个麦克风接收到声源的声音信号的时间延迟。

本实施例中，第三计算模块50根据两个麦克风之间的距离以及声源与一个麦克风的连线与两个麦克风的连线的夹角（即声源方向），计算出两个麦克风接收到声源的声音信号的时间延迟。

具体的，第三计算模块50可以利用以下公式计算出时间延迟：

t= d*cos(A)/340；

其中，t为时间延迟，d为两个麦克风之间的距离，A为声源与麦克风的连线与两个麦克风的连线的夹角。

更进一步地，如图8所示，在本发明的声源方向估计装置第三实施例中，该装置还包括对齐处理模块60、函数获取模块70和函数计算模块80，其中：对齐处理模块60，用于根据时间延迟对两个麦克风接收到的两个声音信号的波函数进行对齐处理；函数获取模块70，用于根据两个声音信号的波函数获取相干性函数，并获取声音信号的噪声函数；函数计算模块80，用于根据声音信号的波函数、相干性函数和噪声函数计算出降噪后的语音信号的波函数。

本实施例中，对齐处理模块60根据两个麦克风接收到的声音信号的时间延迟t对两个声音信号的波函数进行对齐处理，如将其中一个波函数向前平移t或者将另一个波函数向后平移t。

本实施例中，函数获取模块70先对两个声音信号的波函数进行傅立叶变换，再计算两个波函数的相干性，获取相干性函数。同时，函数获取模块70通过检测声音信号中的无语音部分，获取声音信号的噪声函数。函数获取模块70只需获取任意一个麦克风采集的声音信号的噪声函数，如获取麦克风1采集的声音信号的噪声函数n1(w)。

具体的，函数获取模块70可以利用以下公式获取相干性函数：

r(w)=2* y1(w)*y2(w)/( y1(w)*y1(w) + y2(w)*y2(w));

本实施例中，函数计算模块80计算出降噪后的语音信号的波函数y(w)，并对该波函数y(w)进行反傅立叶变换，得到降噪后的语音信号。

具体的，函数计算模块80可以利用以下公式计算出降噪后的语音信号的波函数：

y(w)=r(w)*（y1(w)- n1(w)）；

其中，y(w)为降噪后的语音信号的波函数，y1(w) 为其中一个麦克风（麦克风1）接收到的声音信号的波函数， n1(w)为其中一个麦克风（麦克风1）接收到的声音信号的噪声函数。可选地，前述y1(w)和n1(w)也可以分别替换为y2(w)和n2(w)。

本发明实施例的声源方向估计装置，当检测到声音信号时，利用图像识别技术获取声源在图像中的位置坐标，据此估计声源的方向，从而避免了环境噪声对声源方向估计的影响，提高了声源方向估计的准确性，进而为提高后续语音降噪或声源定位的效果奠定了基础。

本发明同时提出一种终端设备，其包括存储器、处理器和至少一个被存储在存储器中并被配置为由处理器执行的应用程序，所述应用程序被配置为用于执行声源方向估计方法。所述声源方向估计方法包括以下步骤：当检测到声音信号时，通过摄像头采集图像；获取声源在图像中的位置坐标；根据位置坐标计算出摄像头与声源的连线与摄像头的投影面的第一夹角；根据第一夹角和预置的第二夹角计算出声源的方向；其中，第二夹角为两个麦克风的连线与摄像头的横轴的夹角。本实施例中所描述的声源方向估计方法为本发明中上述实施例所涉及的声源方向估计方法，在此不再赘述。

本领域技术人员可以理解，本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造，或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序，这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备（例如，计算机）可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中，所述计算机可读介质包括但不限于任何类型的盘（包括软盘、硬盘、光盘、CD-ROM、和磁光盘）、ROM（Read-Only Memory，只读存储器）、RAM（Random Access Memory，随机存储器）、EPROM（Erasable Programmable Read-Only Memory，可擦写可编程只读存储器）、EEPROM（Electrically Erasable Programmable Read-Only Memory，电可擦可编程只读存储器）、闪存、磁性卡片或光线卡片。也就是，可读介质包括由设备（例如，计算机）以能够读的形式存储或传输信息的任何介质。

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上参照附图说明了本发明的优选实施例，并非因此局限本发明的权利范围。本领域技术人员不脱离本发明的范围和实质，可以有多种变型方案实现本发明，比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡在运用本发明的技术构思之内所作的任何修改、等同替换和改进，均应在本发明的权利范围之内。

Claims

一种声源方向估计方法，其特征在于，包括以下步骤：

当检测到声音信号时，通过摄像头采集图像；

获取声源在所述图像中的位置坐标；

根据所述位置坐标计算出所述摄像头与所述声源的连线与所述摄像头的投影面的第一夹角；

根据所述第一夹角和预置的第二夹角计算出所述声源的方向；其中，所述第二夹角为两个麦克风的连线与所述摄像头的横轴的夹角。
根据权利要求1所述的声源方向估计方法，其特征在于，所述获取声源在所述图像中的位置坐标的步骤包括：

识别所述图像中的人脸；

获取所述图像中人脸的嘴唇的位置坐标，并将所述嘴唇的位置坐标作为所述声源在所述图像中的位置坐标。
根据权利要求2所述的声源方向估计方法，其特征在于，所述获取所述图像中人脸的嘴唇的位置坐标的步骤包括：

当所述图像中的人脸至少有两个时，检测所述人脸的嘴唇是否在抖动；

获取嘴唇在抖动的人脸的嘴唇的位置坐标。
根据权利要求1所述的声源方向估计方法，其特征在于，所述根据所述位置坐标计算出所述摄像头与所述声源的连线与所述摄像头的投影面的第一夹角的步骤包括：

利用以下公式计算出所述第一夹角：

A1= atan((x*x+y*y)^0.5/(c *f))；

其中，A1为第一夹角，（x,y）为所述位置坐标，c为所述图像与所述投影面的距离，f为所述摄像头的焦距。
根据权利要求1所述的声源方向估计方法，其特征在于，所述根据所述第一夹角和预置的第二夹角计算出所述声源的方向的步骤包括：

利用以下公式计算出所述声源的方向：

A =arccos(cos(A1)*cos(A2))；

其中，A1为第一夹角，A2为第二夹角，A为所述声源与所述麦克风的连线与两个麦克风的连线的夹角，代表所述声源的方向。
根据权利要求1所述的声源方向估计方法，其特征在于，所述根据所述第一夹角和预置的第二夹角计算出所述声源的方向的步骤之后还包括：

根据所述声源的方向计算出两个麦克风接收到所述声源的声音信号的时间延迟。
根据权利要求6所述的声源方向估计方法，其特征在于，所述根据所述声源的方向计算出两个麦克风接收到所述声源的声音信号的时间延迟的步骤包括：

利用以下公式计算出所述时间延迟：

t= d*cos(A)/340；

其中，t为所述时间延迟，d为两个麦克风之间的距离，A为所述声源与所述麦克风的连线与两个麦克风的连线的夹角。
根据权利要求6所述的声源方向估计方法，其特征在于，所述根据所述声源的方向计算出两个麦克风接收到所述声源的声音信号的时间延迟的步骤之后还包括：

根据所述时间延迟对两个麦克风接收到的两个声音信号的波函数进行对齐处理；

根据所述两个声音信号的波函数获取相干性函数，并获取所述声音信号的噪声函数；

根据所述声音信号的波函数、所述相干性函数和所述噪声函数计算出降噪后的语音信号的波函数。
根据权利要求8所述的声源方向估计方法，其特征在于，所述根据所述两个声音信号的波函数获取相干性函数的步骤包括：

利用以下公式获取所述相干性函数：

r(w)=2* y1(w)*y2(w)/( y1(w)*y1(w) + y2(w)*y2(w));

其中，r(w)为相干性函数，y1(w)为其中一个麦克风接收到的声音信号的波函数，y2(w)为另一个麦克风接收到的声音信号的波函数。
根据权利要求8所述的声源方向估计方法，其特征在于，所述根据所述声音信号的波函数、所述相干性函数和所述噪声函数计算出降噪后的语音信号的波函数的步骤包括：

利用以下公式计算出降噪后的语音信号的波函数：

y(w)=r(w)*（y1(w)- n1(w)）；

其中，y(w)为降噪后的语音信号的波函数，y1(w) 为其中一个麦克风接收到的声音信号的波函数， n1(w)为其中一个麦克风接收到的声音信号的噪声函数。
一种声源方向估计装置，其特征在于，包括：

图像采集模块，用于当检测到声音信号时，通过摄像头采集图像；

位置获取模块，用于获取声源在所述图像中的位置坐标；

第一计算模块，用于根据所述位置坐标计算出所述摄像头与所述声源的连线与所述摄像头的投影面的第一夹角；

第二计算模块，用于根据所述第一夹角和预置的第二夹角计算出所述声源的方向；其中，所述第二夹角为两个麦克风的连线与所述摄像头的横轴的夹角。
根据权利要求11所述的声源方向估计装置，其特征在于，所述位置获取模块包括：

识别单元，用于识别所述图像中的人脸；

获取单元，用于获取所述图像中人脸的嘴唇的位置坐标，并将所述嘴唇的位置坐标作为所述声源在所述图像中的位置坐标。
根据权利要求12所述的声源方向估计装置，其特征在于，所述获取单元包括：

检测子单元，用于当所述图像中的人脸至少有两个时，检测所述人脸的嘴唇是否在抖动；

获取子单元，用于获取嘴唇在抖动的人脸的嘴唇的位置坐标。
根据权利要求11所述的声源方向估计装置，其特征在于，所述第一计算模块用于：

利用以下公式计算出所述第一夹角：

A1= atan((x*x+y*y)^0.5/(c *f))；

其中，A1为第一夹角，（x,y）为所述位置坐标，c为所述图像与所述投影面的距离，f为所述摄像头的焦距。
根据权利要求11所述的声源方向估计装置，其特征在于，所述第二计算模块用于：

利用以下公式计算出所述声源的方向：

A =arccos(cos(A1)*cos(A2))；

其中，A1为第一夹角，A2为第二夹角，A为所述声源与所述麦克风的连线与两个麦克风的连线的夹角，代表所述声源的方向。
根据权利要求11所述的声源方向估计装置，其特征在于，所述装置还包括第三计算模块，所述第三计算模块用于：

根据所述声源的方向计算出两个麦克风接收到所述声源的声音信号的时间延迟。
根据权利要求16所述的声源方向估计装置，其特征在于，所述第三计算模块用于：

利用以下公式计算出所述时间延迟：

t= d*cos(A)/340；

其中，t为所述时间延迟，d为两个麦克风之间的距离，A为所述声源与所述麦克风的连线与两个麦克风的连线的夹角。
根据权利要求11所述的声源方向估计装置，其特征在于，所述装置还包括：

对齐处理模块，用于根据所述时间延迟对两个麦克风接收到的两个声音信号的波函数进行对齐处理；

函数获取模块，用于根据所述两个声音信号的波函数获取相干性函数，并获取所述声音信号的噪声函数；

函数计算模块，用于根据所述声音信号的波函数、所述相干性函数和所述噪声函数计算出降噪后的语音信号的波函数。
根据权利要求18所述的声源方向估计装置，其特征在于，所述函数获取模块用于：

利用以下公式获取所述相干性函数：

r(w)=2* y1(w)*y2(w)/( y1(w)*y1(w) + y2(w)*y2(w));

其中，r(w)为相干性函数，y1(w)为其中一个麦克风接收到的声音信号的波函数，y2(w)为另一个麦克风接收到的声音信号的波函数。
根据权利要求18所述的声源方向估计装置，其特征在于，所述函数计算模块用于：

利用以下公式计算出降噪后的语音信号的波函数：

y(w)=r(w)*（y1(w)- n1(w)）；

其中，y(w)为降噪后的语音信号的波函数，y1(w) 为其中一个麦克风接收到的声音信号的波函数， n1(w)为其中一个麦克风接收到的声音信号的噪声函数。