WO2021037129A1

WO2021037129A1 - 一种声音采集方法及装置

Info

Publication number: WO2021037129A1
Application number: PCT/CN2020/111684
Authority: WO
Inventors: 罗大为
Original assignee: 北京搜狗科技发展有限公司
Priority date: 2019-08-29
Filing date: 2020-08-27
Publication date: 2021-03-04
Also published as: CN110493690A; CN110493690B

Abstract

本申请实施例公开了一种声音采集方法及装置，具体为，麦克风阵列首先从视觉传感系统获取实时采集的用户的位置信息，以根据用户的位置信息确定用户对应的采集方向。再对用户对应的采集方向进行定向收音，如果在用户对应的采集方向接收到目标声音信号，则将接收到目标声音信号的采集方向确定为目标声源方向，进而对目标声源方向进行声音采集，从而获得所需的声音信号。即，本申请实施例通过视觉传感系统的辅助可以确定出多个可能的采集方向并确定出最终的目标声源方向，以根据已知的声源方向进行声音采集，避免了对空间全方位的扫描采集，提高了采集的准确性以及效率。

Description

一种声音采集方法及装置

本申请要求于2019年08月29日提交中国国家知识产权局、申请号为2019108090704、发明名称为“一种声音采集方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及数据处理技术领域，具体涉及一种声音采集方法及装置。

背景技术

麦克风阵列一般由一定数目的声学传感器组成，用来对声场的空间特性进行采样并处理。麦克风阵列在人机交互领域具有重要意义，可以极大扩展交互距离，使得用户无需手持或者贴近收音设备即可进行自然的语音交互，已经在智能家居等场景中得到广泛的应用。

传统的麦克风阵列在工作过程中，需要对整个空间进行扫描以采集声音信号。但是，在实际应用场景中，麦克风阵列的使用环境复杂，可能无法准确采集到目标声源发出的声音，造成麦克风阵列无法达到预期的使用效果。

发明内容

有鉴于此，本申请实施例提供一种声音采集方法及装置，以解决现有技术中麦克风阵列可能无法准确采集到目标声源的声音的技术问题。

为解决上述问题，本申请实施例提供的技术方案如下：

在本申请实施例第一方面，提供了一种声音采集方法，该方法应用于麦克风阵列，所述方法包括：

获取视觉传感系统实时采集的用户的位置信息；

根据所述用户的位置信息确定所述用户对应的采集方向；

对所述用户对应的采集方向进行定向收音；

当接收到目标声音信号时，将接收到所述目标声音信号的采集方向确定为目标声源方向；

对所述目标声源方向进行声音采集，获得采集的声音信号。

在一种可能的实现方式中，所述方法还包括：

获取干扰源的位置信息；

根据所述干扰源的位置信息确定所述干扰源的方向；

在对所述目标声源方向进行声音采集的过程中，对所述干扰源的方向进行定向抑制采集。

在一种可能的实现方式中，所述获取干扰源的位置信息，包括：

获取预先标记的固定干扰源的位置信息作为干扰源的位置信息；

和/或，将接收到所述目标声音信号的采集方向确定为目标声源方向后，将排除所述目标声源方向之外的其他采集方向对应的用户确定为干扰用户，获取所述干扰用户的位置信息作为干扰源的位置信息。

在一种可能的实现方式中，所述方法还包括：

根据目标用户的位置信息、空间的尺寸信息以及所述麦克风阵列的位置信息计算房间冲激响应，所述目标用户为所述目标声源方向对应的用户；

将所述房间冲激响应作为消除混响算法的初始参数，对所述采集的声音信号根据所述消除混响算法进行消除混响操作。

在一种可能的实现方式中，所述方法还包括：

根据干扰源的位置信息、空间的尺寸信息以及所述麦克风阵列的位置信息计算干扰混响信息；

所述对所述干扰源的方向进行定向抑制采集，包括：

根据所述干扰混响信息对所述干扰源的方向进行定向抑制采集。

在一种可能的实现方式中，所述方法还包括：

接收所述视觉传感系统发送的指定频率声音信号；

计算所述麦克风阵列的零度朝向与所述接收所述指定频率声音信号的方向之间的第一角度差。

在一种可能的实现方式中，所述根据所述用户的位置信息确定所述用户对应的采集方向，包括：

计算第一连线与第二连线之间的第二角度差；所述第一连线为根据所述视觉传感系统的位置信息与所述麦克风阵列的位置信息确定的所述视觉传感系统与所述麦克风阵列之间的连线，所述第二连线为根据所述麦克风阵列的位置信息与所述用户的位置信息确定的所述麦克风阵列与所述用户之间的连线；

根据所述第一角度差以及所述第二角度差确定所述麦克风阵列的零度朝向与所述第二连线之间的第三角度差，将所述第三角度差作为所述用户对应的采集方向。

在一种可能的实现方式中，所述方法还包括：

当获取到所述视觉传感系统检测到的无用户活动信号，控制进入待机状态。

在本申请实施例第二方面，提供了一种声音采集装置，所述装置应用于麦克风阵列，所述装置包括：

第一获取单元，用于获取视觉传感系统实时采集的用户的位置信息；

第一确定单元，用于根据所述用户的位置信息确定所述用户对应的采集方向；

收音单元，用于对所述用户对应的采集方向进行定向收音；

第二确定单元，用于当接收到目标声音信号时，将接收到所述目标声音信号的采集方向确定为目标声源方向；

第一采集单元，用于对所述目标声源方向进行声音采集，获得采集的声音信号。

在一种可能的实现方式中，所述装置还包括：

第二获取单元，用于获取干扰源的位置信息；

第三确定单元，用于根据所述干扰源的位置信息确定所述干扰源的方向；

第二采集单元，用于在对所述目标声源方向进行声音采集的过程中，对所述干扰源的方向进行定向抑制采集。

在一种可能的实现方式中，所述第二获取单元，具体用于获取预先标记的固定干扰源的位置信息作为干扰源的位置信息；和/或，将接收到所述目标声音信号的采集方向确定为目标声源方向后，将排除所述目标声源方向之外的其他采集方向对应的用户确定为干扰用户，获取所述干扰用户的位置信息作为干扰源的位置信息。

在一种可能的实现方式中，所述装置还包括：

第一计算单元，用于根据目标用户的位置信息、空间的尺寸信息以及所述麦克风阵列的位置信息计算房间冲激响应，所述目标用户为所述目标声源方向对应的用户；

消除单元，用于将所述房间冲激响应作为消除混响算法的初始参数，对所述采集的声音信号根据所述消除混响算法进行消除混响操作。

在一种可能的实现方式中，所述装置还包括：

第二计算单元，用于根据干扰源的位置信息、空间的尺寸信息以及所述麦克风阵列的位置信息计算干扰混响信息；

所述第二采集单元，具体用于根据所述干扰混响信息对所述干扰源的方向进行定向抑制采集。

在一种可能的实现方式中，所述装置还包括：

接收单元，用于接收所述视觉传感系统发送的指定频率声音信号；

第三计算单元，用于计算所述麦克风阵列的零度朝向与所述接收所述指定频率声音信号的方向之间的第一角度差。

在一种可能的实现方式中，所述第一确定单元，包括：

计算子单元，用于计算第一连线与第二连线之间的第二角度差；所述第一连线为根据所述视觉传感系统的位置信息与所述麦克风阵列的位置信息确定的所述视觉传感系统与所述麦克风阵列之间的连线，所述第二连线为根据所述麦克风阵列的位置信息与所述用户的位置信息确定的所述麦克风阵列与所述用户之间的连线；

确定子单元，用于根据所述第一角度差以及所述第二角度差确定所述麦克风阵列的零度朝向与所述第二连线之间的第三角度差，将所述第三角度差作为所述用户对应的采集方向。

在一种可能的实现方式中，所述装置还包括：

控制单元，用于当获取到所述视觉传感系统检测到的无用户活动信号，控制进入待机状态。

在本申请实施例第三方面，提供了一种用于声音采集的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取视觉传感系统实时采集的用户的位置信息；

根据所述用户的位置信息确定所述用户对应的采集方向；

对所述用户对应的采集方向进行定向收音；

对所述目标声源方向进行声音采集，获得采集的声音信号。

在本申请实施例第四方面，提供了一种计算机可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行第一方面所述的声音采集的方法。

由此可见，本申请实施例具有如下有益效果：

本申请实施例中麦克风阵列首先从视觉传感系统获取实时采集的用户的位置信息，以根据用户的位置信息确定用户对应的采集方向。即，根据视觉传感系统采集的用户位置信息先确定可能的声源方向。再对用户对应的采集方向进行定向收音，如果在用户对应的采集方向接收到目标声音信号，则将接收到目标声音信号的采集方向确定为目标声源方向，进而对目标声源方向进行声音采集，从而获得所需的声音信号。即，本申请实施例通过视觉传感系统的辅助可以确定出多个可能的采集方向并确定出最终的目标声源方向，以根据已知的声源方向进行声音采集。避免了对空间全方位的扫描采集，提高了采集的准确性以及效率。另外，视觉传感系统可以实时采集用户的位置信息，以便麦克风阵列可以获取用户的实时位置信息，进而可以实时确定用户对应的采集方向，避免因用户移动导致定向收音不准确的问题。

附图说明

图1为本申请实施例提供的一种应用场景示意图；

图2为本申请实施例提供的一种声音采集方法的流程图；

图3为本申请实施例提供的一种抑制干扰源方法的流程图；

图4为本申请实施例提供的一种确定用户采集方向的示例图；

图5为本申请实施例提供的一种声音采集装置的结构图；

图6为本申请实施例提供的另一种声音采集装置的结构图；

图7为本申请实施例提供的一种服务器结构图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。

发明人在对传统的麦克风阵列采集声音方法研究中发现，传统的声音采集方法主要利用麦克风阵列在整个空间内进行全盲扫描，进而根据声源定位方法估计目标声源。然而，在实际应用环境中，由于使用环境复杂，导致难以准确估计目标声源，进而无法准确获取目标声源的声音信号。

基于此，本申请实施例提供了一种声音采集方法，具体为，麦克风阵列在采集声音信号之前，首先从视觉传感系统获取实时采集的用户的位置信息，进而根据用户的位置确定用户对应的采集方向。也就是，麦克风阵列在采集声音信号前，先根据用户的位置信息确定出可能声源的采集方向。然后，在可能的采集方向上进行定向收音，如果在可能的采集方向采集到目标声音信号，则将采集到目标声音信号的采集方向确定为目标声源方向，该采集方向对应的用户为目标用户。最后，在目标声源方向上进行声音采集，获得目标用户的声音信号。即，在视觉传感系统的辅助下，麦克风阵列可以先在可能存在目标声源的采集方向上收音，进而根据收音结果确定出目标声源方向，从而可以在确定的目标声源方向上采集声音信号，无需进行全方位扫描，提高目标声源声音信号的采集准确性。

为便于理解本申请实施例提供的参见图1，该图为本申请实施例提供的示例性应用场景的框架示意图。其中，本申请实施例提供的声音采集方法可以应用于麦克风阵列10中。在实际应用时，视觉传感系统20可以安装在一个空间内，例如房间，具体安装位置可以根据实际情况确定，以确保其可以监控整个空间。

在具体实现时，视觉传感系统20可以实时采集空间内每个用户(例如，用户1和用户2)的位置信息。麦克风阵列10从视觉传感系统20中获取该空间内每个用户的位置信息，以确定每个用户各自对应的采集方向。然后，麦克风阵列10在每个采集方向上进行定向收音，以获得每个用户的声音信号。如果定向收音中出现目标声音信号，则将接收到的目标声音信号的采集方向确定为目标声源方向，以从目标声源方向进行声音采集，获得目标用户的声音信号。例如，麦克风阵列10分别接收用户1的声音信号、用户2的声音信号，当用户1的声音信号为目标声音信号时，则将用户1对应的采集方向为目标声源方向，用户1为目标用户，进而麦克风阵列对用户1的采集方向进行声音采集，获得目标用户的声音信号。

基于上述说明，在实际应用中，本实施例中的视觉传感系统可以包括红外摄像设备、彩色摄像设备、高频发声单元以及传输单元。视觉传感系统的作用为定位和追踪室内发声设备和人员等的位置，并将其传输给麦克风阵列。具体的，外摄像设备和/或彩色摄像设备可以用于实时采集的用户的位置信息，高频发声单元可以用于指定频率声音信号，传输单元可以用于将采集的用户的位置信息发送给麦克风阵列。麦克风阵列可以包含多个麦克风及采集板、扬声器以及信号处理单元。麦克风阵列的作用为根据视觉辅助设备传输的位置信息进行阵列信号处理，进行远场拾音，并通过自身的扬声器和用户实现远场语音交互。

在实际应用中，麦克风阵列可以通过蓝牙等无线方式与视觉传感系统直接通信，也可以通过路由器或网络传输协议等方式与视觉传感系统进行中继通信，本实施例在此不做限定。

本领域技术人员可以理解，图1所示的框架示意图仅是本申请的实施方式可以在其中得以实现的一个示例。本申请实施方式的适用范围不受到该框架任何方面的限制。

为便于理解本申请技术方案的具体实现，下面将结合附图对本申请提供的声音采集方法进行说明。

参见图2，该图为本申请实施例提供的一种声音采集方法的流程图，该方法应用于麦克风阵列，如图2所示，该方法可以包括：

S201：获取视觉传感系统实时采集的用户的位置信息。

本实施例中，视觉传感系统可以实时采集空间内每个用户的位置信息。麦克风阵列可以从视觉传感系统获取每个用户的位置信息，从而可以获知可能的声源位置。其中，用户的位置信息可以为空间坐标系下的位置信息，该位置信息即为用户在空间内的位置坐标。

可以理解的是，位于空间的用户可能会发生位置移动，为保证麦克风阵列可以获取用户最新的位置信息，视觉传感系统将实时采集用户的位置信息，进而使得麦克风阵列可以获取最新的位置信息，以保证麦克风阵列在执行S202时，可以确定用户对应的最新的采集方向。

S202：根据用户的位置信息确定用户对应的采集方向。

麦克风阵列在获取空间内每个用户的位置信息后，可以根据自身的位置信息以及用户的位置信息确定用户对应的采集方向。在具体实现时，由于麦克风阵列在空间内的位置坐标已知，在获取用户的位置坐标后，通过两个位置坐标，可以计算用户相对于麦克风阵列的方向，即用户对应的采集方向。

即本实施例中，视觉传感系统先获取当前空间存在的用户的位置信息，以便麦克风阵列可以预先获取该空间内可能为声源的用户位置信息，进而麦克风阵列通过S202可以确定出可能声源对应的采集方向，无需在空间内进行全方位扫描以估计声源位置。

S203：对用户对应的采集方向进行定向收音。

本实施例中，当麦克风阵列确定出每个用户对应的采集方向，对每个用户对应的采集方向进行定向收音，以获取每个用户的声音信号。在实际应用时，麦克风阵列在对用户对应的采集方向进行定向收音的同时，也可以抑制其他方向的声音干扰，以提高后续确定声源方向的准确性。

在具体实现时，可以采用波束形成方法进行定向收音，具体为通过麦克风阵列获取声音信号的空间谱特性，再对声音信号进行空域滤波从而实现定向收音。

S204：当接收到目标声音信号时，将接收到目标声音信号的采集方向确定为目标声源方向。

本实施例中，当麦克风阵列获得每个采集方向上的声音信号时，如果接收到的声音信号中存在目标声音信号时，将接收到的目标声音信号的采集方向确定为目标声源方向。其中，目标声音信号可以为该声音信号中存在特定的唤醒词和/或该声音信号的声纹特征符合预设的声纹特征。

在具体实现时，可以在麦克风阵列中预先存储设定的唤醒词，当从用户对应的采集方向进行定向收音时，判断所接收到的声音信号中是否出现预设的唤醒词。如果存在，则将该声音信号确定为目标声音信号，并将该目标声音信号对应的采集方向确定为目标声源方向，该目标声音信号对应的用户为目标用户。

和/或，在麦克风阵列中预先存储目标用户的声纹特征，当从用户对应的采集方向进行定向收音时，判断所接收到的声音信号的声纹特征是否与预先的声纹特征相同。如果相同，则将该声音信号确定为目标声音信号，并将该目标声音信号对应的采集方向确定为目标声源方向，该目标声音信号对应的用户为目标用户。

S205：对目标声源方向进行声音采集，获得采集的声音信号。

当确定出目标声源方向时，麦克风阵列可以采集目标声源方向的声音信号，从而获得目标声源的声音信号，进而可以进行声音识别等操作。

可以理解的是，在实际应用环境中，声音信号在空间内传播时，遇到障碍物被反射产生混响，影响听觉效果。基于此，为解除声音混响，本实施提供还了一种解混响方法，具体可以包括：

1)根据目标用户的位置信息、空间的尺寸信息以及麦克风阵列的位置信息计算房间冲激响应。

本实施例中，通过视觉传感系统可以获得目标用户的位置信息，然后根据目标用户的位置信息、空间的尺寸信息以及麦克风阵列的位置信息计算得到房间冲激响应。其中，目标用户为目标声源方向对应的用户。在具体实现时，可以利用IMAGE方法估计房间冲激响应。

2)将房间冲激响应作为消除混响算法的初始参数，对采集的声音信号根据消除混响算法进行消除混响操作。

当获得房间冲激响应后，将其作为消除混响算法的初始参数，以提高消除混响算法的性能。再利用该消除混响算法对采集的目标用户的声音信号进行消除混响操作，获得去混响的声音信号，从而避免混响对用户的听觉影响。即，针对混响造成识别效果下降的问题，本实施例在得到目标声源位置信息的基础上，结合空间尺寸以及麦克风阵列位置，可以得到较为准确的解混响滤波器的初始参数，从而得到更好的解混响效果。

通过上述描述，本申请实施例中麦克风阵列首先从视觉传感系统获取实时采集的用户的位置信息，以根据用户的位置信息确定用户对应的采集方向。即，根据视觉传感系统采集的用户位置信息先确定可能声源的方向。再对用户对应的采集方向进行定向收音，如果在用户对应的采集方向接收到目标声音信号，则将接收到目标声音信号的采集方向确定为目标声源方向，进而对目标声源方向进行声音采集，从而获得所需的声音信号。本申请实施例通过视觉传感系统的辅助可以确定出多个可能的采集方向并确定出最终的目标声源方向，以根据已知的声源方向进行声音采集。避免了对空间全方位的扫描采集，提高了采集的准确性以及效率。另外，视觉传感系统可以实时采集用户的位置信息，以便麦克风阵列可以获取用户的实时位置信息，进而可以实时确定用户对应的采集方向，避免因用户移动导致定向收音不准确的问题。

可以理解的是，在复杂的应用场景中，可能存在干扰源影响麦克风阵列采集声源的声音信号。为减少麦克风阵列所采集的声音信号中的干扰信号，麦克风阵列可以在采集目标声源方向上的声音信号时，抑制干扰源方向上的声音信号。

基于此，本申请实施例还提供了一种抑制干扰源方法，下面将结合附图对该方法进行说明。参加图3，该图为本申请实施例提供的一种抑制干扰源方法的流程图，该方法可以包括：

S301：获取干扰源的位置信息。

S302：根据干扰源的位置信息确定干扰源的方向。

本实施例中，麦克风阵列首先获取空间内每个干扰源的位置信息，以根据干扰源的位置信息确定干扰源的方向，即确定干扰源相对于麦克风阵列的方向。

其中，干扰源可以为空间内固定发声设备，例如电视机、音响、空调等，也可以为空间内除目标用户外其他用户。当干扰源为固定发声设备时，麦克风在获取干扰源的位置信息时，可以为获取预先标记的固定干扰源的位置信息作为干扰源位置信息。即，当干扰源为固定发声设备时，由于其在空间内位置通常固定不变，因此，可以预先标记固定干扰源在空间内的位置信息，从而使得麦克风阵列可以直接获取固定干扰源的位置信息。

当干扰源为空间内除目标用户外其他用户时，麦克风阵列在获取干扰源的位置信息时，可以为将接收到目标声音信号的采集方向确定为目标声源方向后，将排除目标声源方向之外的其他采集方向对应的用户确定为干扰用户，将干扰用户的位置信息作为干扰源的位置信息。即，在麦克风阵列获取空间内每个用户对应的采集方向后执行S203时，将接收到目标声音信号的采集方向对应的用户确定为目标用户，其他采集方向对应的用户确定干扰用户，该干扰用户的位置信息即为干扰源的位置信息。

S303：在对目标声源方向进行声音采集的过程中，对干扰源的方向进行定向抑制采集。

当确定干扰源的方向后，麦克风阵列在采集目标声源方向的声音信号的同时，对干扰源方向进行定向抑制采集，以减少干扰声音信号的采集。在具体实现时，麦克风阵列可以采用复杂度低且抑制力强的固定零陷波束形成方法在目标声源方向形成波束采集声音信号，在干扰源方向通过零陷位置进行抑制。

可以理解的是，干扰源的声音信号在空间传播时，也产生混响，基于此，本实施例提供了一种计算干扰源混响信息的实现方式。具体为，根据干扰源的位置信息、空间的尺寸信息以及麦克风阵列的位置信息计算干扰源混响信息；则对干扰源的方向进行定向采集抑制，包括：根据干扰混响信息对干扰源的方向进行定向采集抑制。即，麦克风阵列可以根据干扰源的位置信息、空间的尺寸信息以及自身的位置信息计算干扰源在该空间的产生的干扰混响信息。在对干扰源的方向进行定向采集抑制时，根据干扰混响信息进行定向采集抑制。

在具体实现时，可以根据广义旁瓣相消(Generalized Sidelobe Canceller,GSC)方法以及干扰混响信息对干扰源的方向进行定向采集抑制。具体为，将干扰混响信息作为该方法中自适应滤波器的参考初值，通过加快收敛速度，增强麦克风阵列的干扰抑制能力。

通过上述描述可知，麦克风阵列可以获取干扰源的位置信息以准确地确定所有干扰源的方向，进而在采集目标声源方向上的声音信号时，抑制干扰源方向的干扰，从而实现稳定高效的拾音和抑制效果。此外，本申请在得到干扰源准确位置信息的基础上，结合空间的尺寸信息以及麦克风阵列的位置信息获得较为准确的干扰混响信息，并将其用于干扰抑制的滤波器以进一步抑制干扰，提高麦克风阵列输出的信噪比。

需要说明的是，麦克风阵列在使用之前，还可以根据视觉传感系统发出的校准声音，对自身的阵列朝向进行校准，以获得视觉传感系统相对于麦克风阵列的方向。具体为，接收视觉传感系统发送的指定频率声音信号；计算麦克风阵列的零度朝向与接收指定频率声音信号的方向之间的第一角度差。其中，麦克风阵列的零度朝向为麦克风阵列自身定义的零度朝向，其在进行定向收音时，是基于零度朝向来确定采集方向。

即，麦克风阵列可以通过对指定频率声音信号测向，获得发出指定频率声音信号的视觉传感系统相对于麦克风阵列的零度朝向的方向，即确定视觉传感系统与麦克风阵列之间的连线与零度朝向的角度，如图4所示。

在具体实现时，麦克风阵列在接收到指定频率声音信号时可以根据波达方向(Direction Of Arrival，DOA)估计算法确定视觉传感系统相对于零度朝向的第一角度差。

基于上述描述，由于麦克风阵列在定向收音时，是基于零度朝向进行定向收音，因此麦克风阵列在根据用户的位置信息确定用户对应的采集方向时，该采集方向应为用户相对于麦克风阵列零度朝向的方向，从而可以准确采集目标声源的声音信号。基于此，本实施例采用了一种确定用户对应的采集方向的实现方式，具体为：

1)计算第一连线与第二连线之间的第二角度差。

本实施例中，麦克风阵列可以根据视觉传感系统的位置信息与麦克风阵列的位置确定视觉传感系统与麦克风阵列之间的连线，即第一连线。再根据麦克风阵列的位置信息与用户的位置信息确定麦克风阵列与用户之间的连线，即第二连线，并计算两个连线之间的夹角，即第二角度差。

在具体实现时，由于麦克风阵列位置信息、视觉传感系统位置信息以及用户的位置信息已知，可以利用三角函数计算第一连线与第二连线之间的角度差，从而获得第二角度差。如图4所示，麦克风阵列、视觉传感系统与用户构成三角形，根据三者的位置信息可以计算获得三角形每条边的长度，进而利用三角函数获得第二角度差。

2)根据第一角度差和第二角度差确定麦克阵列的零度朝向与第二连线之间的第三角度差，将第三角度差作为用户对应的采集方向。

本实施例中，麦克风阵列根据第一连线与零度朝向之间的第一角度差以及第一连线与第二连线之间的角度差，确定用户相对于零度朝向的方向夹角。即零度朝向与第二连线之间的第三角度差，将第三角度差作为用户对应的采集方向。将第一角度差与第二角度差相加获得第三角度差，从而麦克风阵列可以获知在零度朝向的多少偏角进行收音。

在一种可能的实现方式中，为降低麦克风阵列的功耗以及提高使用寿命，麦克风阵列还可以根据视觉传感系统发送的信息控制自身处于待机状态。具体为，当获取到视觉传感系统检测到的无用户活动信号时，控制进入待机状态。

由于视觉传感系统可以实时采集空间内用户的位置信息，因此，其可以监测空间内是否有人员活动，如果监测到无人员活动时，告知麦克风阵列当前空间内无用户活动，以使得麦克风阵列处于待机状态，不进行信号处理和应答响应。当麦克风阵列获取到视觉传感系统检测到有用户活动信号时，麦克风阵列进入待唤醒状态，并获取用户的位置信息，以便在可能的方向上进行定向收音以及后续操作。

在实际应用中，为提高用户体验，还可以在麦克风阵列上安装LED指向灯，当确定目标声源后，指向目标声源方向的LED高亮，以使得用户可以直观地了解麦克风阵列在采集其声音信号。另外，还可以在麦克风阵列上安装全角度摄像系统，以辅助对目标声源的定位和追踪，从实时采集目标声源的声音信号。

此外，当干扰源与目标声源的角度间距较小或者在同一方向时，为实现稳定高效的拾音和抑制效果，可以部署多个麦克风阵列形成分布式麦克风阵列系统，共同接收视觉传感系统发送的用户的位置信息，进而可以增加确定目标声源的精度，实现远场拾音和干扰抑制。

基于上述方法实施例，本申请提供了一种声音采集装置，下面将结合附图对该装置进行说明。

参见图5，该图为本申请实施例提供的一种声音采集装置结构图，该装置应用与麦克风阵列，如图5所示，该装置可以包括：

第一获取单元501，用于获取视觉传感系统实时采集的用户的位置信息；

第一确定单元502，用于根据所述用户的位置信息确定所述用户对应的采集方向；

收音单元503，用于对所述用户对应的采集方向进行定向收音；

第二确定单元504，用于当接收到目标声音信号时，将接收到所述目标声音信号的采集方向确定为目标声源方向；

第一采集单元505，用于对所述目标声源方向进行声音采集，获得采集的声音信号。

在一种可能的实现方式中，所述装置还包括：

第二获取单元，用于获取干扰源的位置信息；

在一种可能的实现方式中，所述装置还包括：

在一种可能的实现方式中，所述第一确定单元，包括：

在一种可能的实现方式中，所述装置还包括：

需要说明的是，本实施例中各个单元的实现可以参见上述方法实施例，本实施例在此不再赘述。

图6示出了一种实现声音采集的装置600的框图。例如，装置600可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图6，装置600可以包括以下一个或多个组件：处理组件602，存储器604，电源组件606，多媒体组件608，音频组件610，输入/输出(I/O)的接口612，传感器组件614，以及通信组件616。

处理组件602通常控制装置600的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件602可以包括一个或多个处理器620来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理部件602可以包括多媒体模块，以方便多媒体组件608和处理组件602之间的交互。

存储器604被配置为存储各种类型的数据以支持在设备600的操作。这些数据的示例包括用于在装置600上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件606为装置600的各种组件提供电力。电源组件606可以包括电源管理系统，一个或多个电源，及其他与为装置600生成、管理和分配电力相关联的组件。

多媒体组件608包括在所述装置600和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件608包括一个前置摄像头和/或后置摄像头。当设备600处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件610被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中，音频组件610还包括一个扬声器，用于输出音频信号。

I/O接口612为处理组件602和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器，用于为装置600提供各个方面的状态评估。例如，传感器组件614可以检测到设备600的打开/关闭状态，组件的相对定位，例如所述组件为装置600的显示器和小键盘，传感器组件614还可以检测装置600或装置600一个组件的位置改变，用户与装置600接触的存在或不存在，装置600方位或加速/减速和装置600的温度变化。传感器组件614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件614还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件616被配置为便于装置600和其他设备之间有线或无线方式的通信。装置600可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件616还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行下述方法：

获取视觉传感系统实时采集的用户的位置信息；

根据所述用户的位置信息确定所述用户对应的采集方向；

对所述用户对应的采集方向进行定向收音；

对所述目标声源方向进行声音采集，获得采集的声音信号。

可选的，所述方法还包括：

获取干扰源的位置信息；

根据所述干扰源的位置信息确定所述干扰源的方向；

可选的，所述获取干扰源的位置信息，包括：

可选的，所述方法还包括：

所述对所述干扰源的方向进行定向抑制采集，包括：

可选的，所述方法还包括：

接收所述视觉传感系统发送的指定频率声音信号；

可选的，所述根据所述用户的位置信息确定所述用户对应的采集方向，包括：

可选的，所述方法还包括：

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器604，上述指令可由装置600的处理器620执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行声音采集的方法，所述方法包括：

获取视觉传感系统实时采集的用户的位置信息；

根据所述用户的位置信息确定所述用户对应的采集方向；

对所述用户对应的采集方向进行定向收音；

对所述目标声源方向进行声音采集，获得采集的声音信号。

可选的，所述方法还包括：

获取干扰源的位置信息；

根据所述干扰源的位置信息确定所述干扰源的方向；

可选的，所述获取干扰源的位置信息，包括：

可选的，所述方法还包括：

所述对所述干扰源的方向进行定向抑制采集，包括：

可选的，所述方法还包括：

接收所述视觉传感系统发送的指定频率声音信号；

可选的，所述方法还包括：

图7是本发明实施例中服务器的结构示意图。该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)722(例如，一个或一个以上处理器)和存储器732，一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器722可以设置为与存储介质730通信，在服务器700上执行存储介质730中的一系列指令操作。

终端700还可以包括一个或一个以上电源726，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口758，一个或一个以上键盘756，和/或，一个或一个以上操作系统741，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

一种声音采集方法，其特征在于，所述方法应用于麦克风阵列，所述方法包括：

获取视觉传感系统实时采集的用户的位置信息；

根据所述用户的位置信息确定所述用户对应的采集方向；

对所述用户对应的采集方向进行定向收音；

当接收到目标声音信号时，将接收到所述目标声音信号的采集方向确定为目标声源方向；

对所述目标声源方向进行声音采集，获得采集的声音信号。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取干扰源的位置信息；

根据所述干扰源的位置信息确定所述干扰源的方向；

在对所述目标声源方向进行声音采集的过程中，对所述干扰源的方向进行定向抑制采集。
根据权利要求2所述的方法，其特征在于，所述获取干扰源的位置信息，包括：

获取预先标记的固定干扰源的位置信息作为干扰源的位置信息；

和/或，将接收到所述目标声音信号的采集方向确定为目标声源方向后，将排除所述目标声源方向之外的其他采集方向对应的用户确定为干扰用户，获取所述干扰用户的位置信息作为干扰源的位置信息。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据目标用户的位置信息、空间的尺寸信息以及所述麦克风阵列的位置信息计算房间冲激响应，所述目标用户为所述目标声源方向对应的用户；

将所述房间冲激响应作为消除混响算法的初始参数，对所述采集的声音信号根据所述消除混响算法进行消除混响操作。
根据权利要求2所述的方法，其特征在于，所述方法还包括：

根据干扰源的位置信息、空间的尺寸信息以及所述麦克风阵列的位置信息计算干扰混响信息；

所述对所述干扰源的方向进行定向抑制采集，包括：

根据所述干扰混响信息对所述干扰源的方向进行定向抑制采集。
根据权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

接收所述视觉传感系统发送的指定频率声音信号；

计算所述麦克风阵列的零度朝向与所述接收所述指定频率声音信号的方向之间的第一角度差。
根据权利要求6所述的方法，其特征在于，所述根据所述用户的位置信息确定所述用户对应的采集方向，包括：

计算第一连线与第二连线之间的第二角度差；所述第一连线为根据所述视觉传感系统的位置信息与所述麦克风阵列的位置信息确定的所述视觉传感系统与所述麦克风阵列之间的连线，所述第二连线为根据所述麦克风阵列的位置信息与所述用户的位置信息确定的所述麦克风阵列与所述用户之间的连线；

根据所述第一角度差以及所述第二角度差确定所述麦克风阵列的零度朝向与所述第二连线之间的第三角度差，将所述第三角度差作为所述用户对应的采集方向。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

当获取到所述视觉传感系统检测到的无用户活动信号，控制进入待机状态。
一种声音采集装置，其特征在于，所述装置应用于麦克风阵列，所述装置包括：

第一获取单元，用于获取视觉传感系统实时采集的用户的位置信息；

第一确定单元，用于根据所述用户的位置信息确定所述用户对应的采集方向；

收音单元，用于对所述用户对应的采集方向进行定向收音；

第二确定单元，用于当接收到目标声音信号时，将接收到所述目标声音信号的采集方向确定为目标声源方向；

第一采集单元，用于对所述目标声源方向进行声音采集，获得采集的声音信号。
根据权利要求9所述的装置，其特征在于，所述装置还包括：

第二获取单元，用于获取干扰源的位置信息；

第三确定单元，用于根据所述干扰源的位置信息确定所述干扰源的方向；

第二采集单元，用于在对所述目标声源方向进行声音采集的过程中，对所述干扰源的方向进行定向抑制采集。
根据权利要求10所述的装置，其特征在于，所述第二获取单元，具体用于获取预先标记的固定干扰源的位置信息作为干扰源的位置信息；和/或，将接收到所述目标声音信号的采集方向确定为目标声源方向后，将排除所述目标声源方向之外的其他采集方向对应的用户确定为干扰用户，获取所述干扰用户的位置信息作为干扰源的位置信息。
根据权利要求9所述的装置，其特征在于，所述装置还包括：

第一计算单元，用于根据目标用户的位置信息、空间的尺寸信息以及所述麦克风阵列的位置信息计算房间冲激响应，所述目标用户为所述目标声源方向对应的用户；

消除单元，用于将所述房间冲激响应作为消除混响算法的初始参数，对所述采集的声音信号根据所述消除混响算法进行消除混响操作。
根据权利要求10所述的装置，其特征在于，所述装置还包括：

第二计算单元，用于根据干扰源的位置信息、空间的尺寸信息以及所述麦克风阵列的位置信息计算干扰混响信息；

所述第二采集单元，具体用于根据所述干扰混响信息对所述干扰源的方向进行定向抑制采集。
根据权利要求9-13任一项所述的装置，其特征在于，所述装置还包括：

接收单元，用于接收所述视觉传感系统发送的指定频率声音信号；

第三计算单元，用于计算所述麦克风阵列的零度朝向与所述接收所述指定频率声音信号的方向之间的第一角度差。
根据权利要求14所述的装置，其特征在于，所述第一确定单元，包括：

计算子单元，用于计算第一连线与第二连线之间的第二角度差；所述第一连线为根据所述视觉传感系统的位置信息与所述麦克风阵列的位置信息确定的所述视觉传感系统与所述麦克风阵列之间的连线，所述第二连线为根据所述麦克风阵列的位置信息与所述用户的位置信息确定的所述麦克风阵列与所述用户之间的连线；

确定子单元，用于根据所述第一角度差以及所述第二角度差确定所述麦克风阵列的零度朝向与所述第二连线之间的第三角度差，将所述第三角度差作为所述用户对应的采集方向。
根据权利要求9所述的装置，其特征在于，所述装置还包括：

控制单元，用于当获取到所述视觉传感系统检测到的无用户活动信号，控制进入待机状态。
一种用于声音采集的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取视觉传感系统实时采集的用户的位置信息；

根据所述用户的位置信息确定所述用户对应的采集方向；

对所述用户对应的采集方向进行定向收音；

当接收到目标声音信号时，将接收到所述目标声音信号的采集方向确定为目标声源方向；

对所述目标声源方向进行声音采集，获得采集的声音信号。
一种计算机可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至8中任一项所述的声音采集的方法。