WO2020147642A1

WO2020147642A1 - 语音信号处理方法、装置、计算机可读介质及电子设备

Info

Publication number: WO2020147642A1
Application number: PCT/CN2020/071205
Authority: WO
Inventors: 胡玉祥
Original assignee: 北京地平线机器人技术研发有限公司
Priority date: 2019-01-15
Filing date: 2020-01-09
Publication date: 2020-07-23
Also published as: CN111435598B; US11817112B2; US20210312936A1; CN111435598A

Abstract

一种语音信号处理方法、装置、计算机可读介质及电子设备，包括：获取声源位置信息和来自传声器阵列的至少两路声音信号（步骤101）；根据声源位置信息，从至少两路声音信号中抑制来自声源方向的声音信号，以获得传声器阵列的噪声参考信号（步骤102）；根据声源位置信息，从至少两路声音信号中获取来自声源方向的声音信号，以得到语音参考信号（步骤103）；基于噪声参考信号，去除语音参考信号中残留的噪声信号，以得到期望语音信号（步骤104）。结合声源位置信息，一方面抑制声源方向的声音信号以得到噪声参考信号，另一方面，获取声源方向的声音信号以得到语音参考信号，进而从语音参考信号中去除噪声信号，以实现降低噪声干扰，提升语音增强效果的目的。

Description

语音信号处理方法、装置、计算机可读介质及电子设备

本公开要求2019年1月15日提交的申请号为201910035553.3的中国专利申请的优先权，通过引用将其全部内容并入本文。

技术领域

本公开涉及语音增强技术领域，具体涉及一种语音信号处理方法、装置、计算机可读介质及电子设备。

发明背景

车载智能设备的普及使得语音技术在现代生活中得到了前所未有的发展，而语音作为信息传递的重要载体，其质量是否能得以保障会影响到达人耳的听觉效果或者语音处理系统的处理效果。在实际环境(例如，车载系统)中，由于受到环境噪声、混响以及干扰等因素的影响，传声器阵列拾取的语音信号的质量的会明显下降。语音分离技术则以提高语音质量为出发点，有效地对噪声进行抑制，从而增强封闭环境下的带噪语音信号的质量，尽可能地恢复出原始的纯净语音信号。

发明内容

为了解决上述技术问题，提出了本公开。

根据本公开的一个方面，提供了一种语音信号处理方法，包括：获取声源位置信息和来自传声器阵列的至少两路声音信号；

根据声源位置信息，从至少两路声音信号中抑制来自声源方向的声音信号，以获得传声器阵列的噪声参考信号；

根据声源位置信息，从至少两路声音信号中获取来自声源方向的声音信号，以得到语音参考信号；

基于噪声参考信号，去除语音参考信号中残留的噪声信号，以得到期望语音信号。

根据本公开的另一个方面，提供了一种语音信号处理装置，包括：

第一获取模块，用于获取声源位置信息和来自传声器阵列的至少两路声音信号；

声源抑制模块，用于根据声源位置信息，从至少两路声音信号中抑制来自声源方向的声音信号，以获得传声器阵列的噪声参考信号；

声源增强模块，用于根据声源位置信息，从至少两路声音信号中获取来自声源方向的声音信号，以得到语音参考信号；

降噪模块，用于基于噪声参考信号，去除语音参考信号中残留的噪声信号，以得到期望语音信号。

根据本公开的另一个方面，提供了一种计算机可读存储介质，存储介质存储有计算机程序，计算机程序用于执行上述任一所述的方法。

根据本公开的另一个方面，提供了一种电子设备，电子设备包括：处理器；用于存储处理器可执行指令的存储器；处理器用于执行上述任一的方法。

本公开实施例提供的语音信号处理方法、装置、计算机可读介质及电子设备，结合声源位置信息，一方面抑制声源方向的声音信号以得到噪声参考信号，另一方面，获取声源方向的声音信号以得到语音参考信号，进而从语音参考信号中去除噪声信号，以实现降低噪声干扰，提升语音增强效果的目的。

附图简要说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开第一示例性实施例提供的语音信号处理方法的流程示意图。

图2是本公开第二示例性实施例提供的语音信号处理方法的流程示意图。

图3是本公开第三示例性实施例提供的语音信号处理方法的流程示意图。

图4是本公开一示例性实施例提供的系统结构图。

图5是本公开第四示例性实施例提供的语音信号处理方法的流程示意图。

图6是本公开另一示例性实施例提供的系统结构图。

图7是本公开第一示例性实施例提供的语音信号处理装置的结构示意图。

图8是本公开第二示例性实施例提供的语音信号处理装置的结构示意图。

图9是本公开第三示例性实施例提供的语音信号处理装置的结构示意图。

图10是本公开第四示例性实施例提供的语音信号处理装置的结构示意图。

图11是本公开第五示例性实施例提供的语音信号处理装置的结构示意图。

图12是本公开一示例性实施例提供的电子设备的结构图。

实施本公开的方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

在语音增强技术领域中，从在嘈杂环境(例如，在该环境中包括了音乐、车辆行驶噪声以及多个说话人的声音)中分离提取期望说话人的语音信号是语音增强系统极具挑战性的问题之一。在一些技术中，采用盲信号分离(Blind Source Separation，BSS)系统或广义旁瓣相消器(Generalized Sidelobe Canceller，GSC)进行语音分离，识别和增强来自特定声源方向的语音信号，从而得到期望说话人的语音信号。但是，由于语音信号的时延及空间滤波效应，使得BSS或者GSC对期望语音信号进行分离可能出现噪声干扰较大或期望语音信号泄露等问题，从而使得分离出的语音的质量不够理想。当声源数目多于传声器数目时，盲信号分离系统的分离性能的稳定性较差，得到的期望语音信号的噪声干扰太大，而广义旁瓣相消器的阻塞矩阵设计较为复杂，且目前使用自由场声传播模型设计的阻塞矩阵，会引起期望方向的信号泄露。

在本公开中，结合声源位置信息，将噪声信号与来自声源方向的声音信号分离开，且基于分离出的噪声信号去除来自声源方向的声音信号中残留的噪声，以实现降低噪声干扰，提升语音增强效果的目的，从而提取出信号质量较好的期望语音信号。

图1是本公开第一示例性实施例提供的语音信号处理方法的流程示意图。本实施例可应用在电子设备上，如图1所示，可以包括如下步骤：

步骤101，获取声源位置信息和来自传声器阵列的至少两路声音信号。

其中，声源位置信息可以通过图像识别的方法获取到。示例性地，可以通过图像采集装置进行图像采集，再对采集到的图像进行图像识别，以确定每个声源的位置，从而形成声源位置信息。声源位置信息可以包括声源相对于传声器阵列的距离信息、角度信息，或者距离信息和角度信息的结合。

传声器阵列由在空间中按一定几何尺寸排列的若干个传声器组成。传声器阵列可以从环境中采集到声源的空域和时/频信息，以将这些空域和时/频信息作为声音信号，用于后续实现声源的定位和跟踪。在本公开中，可以从传声器阵列获取到至少两路声音信号，这些声音信号来自于多个声源。示例性地，在车载环境中，声音信号可以包括来自音乐播放器、人说话的声音(语音信号)及环境中的其他声音等。

步骤102，根据声源位置信息，从至少两路声音信号中抑制来自声源方向的声音信号，以获得传声器阵列的噪声参考信号。

在本公开中，声源位置信息可以用以确定声源的方向，从而可以从传声器阵列的至少两路声音信号中确定出来自声源方向的声音信号，进而抑制该来自声源方向的声音信号，得到传声器阵列的噪声信号，以作为本公开中的噪声参考信号。

步骤103，根据声源位置信息，从至少两路声音信号中获取来自声源方向的声音信号，以得到语音参考信号。

在本步骤中，根据声源位置信息确定出来自声源方向的信号，从而获取来自声源方向的声音信号，以作为本公开中的语音参考信号。

需要说明的是，步骤102和步骤103可以不受先后顺序的限制，在完成步骤101后，可以先执行步骤102，也可以先执行步骤103。

步骤104，基于噪声参考信号，去除语音参考信号中残留的噪声信号，以得到期望语音信号。

在步骤103中得到的语音参考信号中，会有部分残留的噪声干扰信号，将会影响到语音信号的质量。为了能够提高期望语音信号的信号质量，在本公开中，基于步骤102中得到的噪声参考信号，去除语音参考信号中残留的噪声信号，降低语音参考信号的噪声干扰。在示例性实施例中，去除语音参考信号中残留的噪声信号可以用例如自适应滤波算法、子空间降噪算法、线性滤波法等语音降噪法。

示例性地，可以通过自适应降噪滤波器对噪声参考信号进行滤波处理，将语音参考信号与滤波处理后的噪声参考信号进行相减运算，以得到语音增强信号，再基于语音增强信号对自适应降噪滤波器的滤波系数进行调整，直到语音增强信号的强度大于预设强度为止，以得到期望语音信号。本公开实施例采用自适应降噪滤波器进行降噪处理，可有效提升特定场景(例如，声源数目多于传声器数目)的语音增强效果，得到语音质量更理想的期望语音信号。

本公开提供的语音信号处理方法，利用声源位置信息准确地获得来自声源方向的声音信号，而将噪声信号与来自声源方向的声音信号分离开，即一方面抑制声源方向的声音信号以得到噪声参考信号，另一方面，获取声源方向的声音信号以得到语音参考信号，进而基于分离出的噪声信号去除来自声源方向的声音信号中残留的噪声，以实现降低噪声干扰，达到提升语音增强效果的目的，从而提取出信号质量较好的期望语音信号。

图2是本公开第二示例性实施例提供的语音信号处理方法的流程示意图。如图2所示，本公开提供的语音信号处理方法可以包括如下步骤：

步骤201，获取声源位置信息和来自传声器阵列的至少两路声音信号。

在本示例性实施例中，步骤201的实现原理和实现过程可以参考第一示例性实施例中的步骤101的相关描述，为了简洁，在此不再进行详细描述。

步骤202，对至少两路声音信号进行快速傅立叶变换，得到语音信号矩阵。

在本公开中，声音信号可以用声源的空域和时/频信息来表示。在本步骤中，可以对声音信号(例如，空域和时/频信息)进行快速傅立叶变换(Fast Fourier Transform，FFT)，以确定语音信号矩阵。为了能够保障声音信号的语音质量，会保留较多的抽样点。在本公开中，采用快速傅立叶变换针对声音信号进行计算，能够减少傅立叶变换的乘法次数，从而降低计算量，加快运算速率和提高运算效率。

步骤203，基于语音信号矩阵，通过预设的带方向约束的盲源分离算法，确定传声器阵列的噪声参考信号。

根据本公开实施例，本公开中预设的带方向约束的盲源分离算法示例性的可以是带波达方向(Direction of Arrival，DOA)约束的盲信号分离(Blind Source Separation，BSS)算法，该算法可以根据声源位置信息确定。示例性地，本公开的带DOA约束的BSS算法代价函数可以表示如下：

其中，W(k)为第k个频点对应的分离滤波器，log表示取对数，det表示求矩阵的行列式；

G(y _i)为对照函数，可以表示为log q(y _i)，q(y _i)为第i个声源的概率密度分布；

为惩罚因子；其中，w ₁(k)为分离矩阵W(k)的第一行，g _θ(k)为在声源方向θ形成空间零点的滤波器，λ用来控制约束条件的强弱。

示例性地，步骤203可以通过如下方式实现：根据声源位置信息和语音信号矩阵，确定声源方向的导向向量，再根据该导向向量确定第一滤波器，其中，该第一滤波器用于抑制声源方向的语音信号，进一步地，将该第一滤波器作为本公开中带方向约束的盲源分离算法的第一组分离滤波器初值。在一些实施例中，基于本公开中带方向约束的盲源分离算法中的惩罚因子(参见步骤105中的相关描述)，使得w ₁(k)会在g _θ(k)附近进行收敛。当w ₁(k)＝g _θ(k)时，公式引入的惩罚因子项为0，此时会在声源方向形成空间零点，从而抑制了来自声源方向的信号，而输出传声器阵列的噪声参考信号。

在本公开实施例中，针对语音信号矩阵中的任一路声音信号，其导向向量的确定可以通过如下方案实现：示例性地，假设传声器数目为2时，在自由场条件下，针对语音信号矩阵中的来自θ方向声音信号，其导向向量为h _θ(k)可以表示为：

h _θ(k)＝[1 e ^{-jkr cos θ}] ^T

其中，r为传声器阵列中传声器的间距，k为波数，θ为声音信号的方向(或者声源位置)。

进一步地，在本公开实施例中，为了抑制θ方向的声音信号，根据其导向向量来确定第一滤波器。示例性地，第一滤波器用g _θ(k)来表示，则使得g _θ(k)在θ方向的空间响应可以表示为：

g _θ(k)h _θ(k)＝0

示例性地，第一滤波器g _θ(k)可以表示为：

g _θ(k)＝[1 -e ^jkr cos θ]

步骤204，根据声源位置信息，从至少两路声音信号中获取来自声源方向的声音信号，以得到语音参考信号。

在本公开实施例中，带方向约束的盲源分离算法对传声器阵列的声音信号进行分离后，分离后一路得到噪声参考信号(参考前述步骤202和步骤203)，另一路则如本步骤中所述分离得到语音参考信号。

步骤205，基于噪声参考信号，去除语音参考信号中残留的噪声信号，以得到期望语音信号。

在本示例性实施例中，步骤205的实现原理和实现过程可以参考第一示例性实施例中的步骤104的相关描述，为了简洁，在此不再进行详细描述。

结合前述步骤的相关描述，第一滤波器g _θ(k)是基于自由场模型设计的，实际环境由于混响等存在，g _θ(k)形成的空间零点效果不够理想，即抑制声源方向的声音信号的效果不理想，此外，BSS算法可以形成较为理想的空间零点，但BSS算法对分离矩阵初值选区比较敏感，并且当声源数目多于传声器数目时，BSS算法无法保证在声源方向形成空间零点。而在本公开实施例中，添加DOA约束(提供的声源位置信息)可以为BSS算法提供较为理想的初值，此外，本公开中带方向约束的盲源分离算法中的惩罚因子(参见步骤203中的相关描述)，使得w ₁(k)会在g _θ(k)附近进行收敛。当w ₁(k)＝g _θ(k)时，公式引入的惩罚因子项为0，此时会在声源方向形成空间零点，从而抑制了来自声源方向的信号，而输出较理想传声器阵列的噪声参考信号。进一步地，基于该噪声参考信号去除语音参考信号中残留的噪声的效果是特别希望的，以至输出质量较好的期望语音信号。

在图2所示的第二示例性实施例的基础上，如图3所示，本公开提供的一种语音信号处理方法还可以包括如下步骤：

步骤301，获取声源位置信息和来自传声器阵列的至少两路声音信号。

在本示例性实施例中，步骤301的实现原理和实现过程可以参考第一示例性实施例中的步骤101的相关描述，为了简洁，在此不再进行详细描述。

步骤302，对至少两路声音信号进行快速傅立叶变换，得到语音信号矩阵。

在本示例性实施例中，步骤302的实现原理和实现过程可以参考第二示例性实施例中的步骤202的相关描述，为了简洁，在此不再进行详细描述。

步骤303，基于语音信号矩阵，通过预设的带方向约束的盲源分离算法，确定传声器阵列的噪声参考信号。

在本示例性实施例中，步骤303的实现原理和实现过程可以参考第二示例性实施例中的步骤203的相关描述，为了简洁，在此不再进行详细描述。

步骤304，根据声源位置信息和语音信号矩阵，确定声源方向的导向向量。

该步骤的实现原理和过程可以参考第二示例性实施例中步骤203中关于导向向量的相关描述。

步骤305，根据导向向量确定第二滤波器，第二滤波器用于增强声源方向的语音信号。

在本公开实施例中，导向向量可以表征出声音信号的特性。进一步地，基于传声器阵列的声音信号的特性确定出第二滤波器。示例性地，第二滤波器可以与导向向量运算后，可以达到增强声源方向语音信号的目的即可。

步骤306，将第二滤波器作为带方向约束的盲源分离算法的第二组分离滤波器初值，以输出语音参考信号。

步骤307，基于噪声参考信号，去除语音参考信号中残留的噪声信号，以得到期望语音信号。

在本示例性实施例中，步骤307的实现原理和实现过程可以参考第二示例性实施例中的步骤104的相关描述，为了简洁，在此不再进行详细描述。

在本公开实施例中，添加DOA约束(提供的声源位置信息)可以为BSS算法提供较为理想的初值，从而提高BSS算法的分离效果，增强声源方向的语音信号。

为了本领域技术人员能够清楚、准确地理解本公开技术方案，下面结合系统结构图对上述实施例进一步描述说明，前述第一示例性实施例、第二示例性实施例和第三示例性实施例都可以基于图4所示的系统结构图实现。图4是本公开一示例性实施例提供的系统结构图。如图4所示，本公开提供一种语音信号处理方法，可以获取声源位置信息和来自传声器阵列的至少两路声音信号，基于本公开的带DOA约束的BSS算法分离得到语音参考信号Y _ch1和噪声参考信号Y _ch2，并基于噪声参考信号Y _ch2通过例如自适应降噪滤波器对语音参考信号Y _ch1进行降噪处理，最终输出期望语音信号Y。需要说明的是，图中仅示意了来自传声器阵列的两路声音信号，实际可以是两路或者两路以上的声音信号。

图5是本公开第四示例性实施例提供的语音信号处理方法的流程示意图。如图5所示，本公开提供的一种语音信号处理方法还包括如下步骤：

步骤501，获取声源位置信息和来自传声器阵列的至少两路声音信号。

在本示例性实施例中，步骤501的实现原理和实现过程可以参考第一示例性实施例中的步骤101的相关描述，为了简洁，在此不再进行详细描述。

步骤502，根据声源位置信息，从至少两路声音信号中抑制来自声源方向的声音信号，以获得传声器阵列的噪声参考信号。

在本示例性实施例中，步骤502的实现原理、实现过程及技术效果可以参考前述第一示例性实施例中的步骤102、第二示例性实施例中的步骤202和步骤203的相关描述，为了简洁，在此不再进行详细描述。

步骤503，获取传声器阵列的位置信息。

在本公开实施例中，可以获取传声器阵列中相邻两个传声器的之间的距离信息，从而作为本步骤中传声器阵列的位置信息。对于传声器阵列的位置信息可以通过获取输入装置的输入信息以获取，也可以从传声器阵列自身的配置信息中获取到。在本公开实施例中对此不做限制。

步骤504，基于声源位置信息以及传声器阵列的位置信息，通过波束形成算法确定第三滤波器。

在本公开实施例中，可以通过固定波束形成算法确定第三滤波器。示例性地，传声器阵列中相邻两个传声器的之间的距离表示为d，且假设声源位于远场，波束到达阵列的入射角度为θ，声速为c，则第n个传声器与参考传声器之间的延时可表示为：F _n(τ)＝(n-1)τ＝(n-1)d cos(θ)/c，进而对于入射角度为θ的确定，可以先采用广义互相关函数法估计声源到达参考传声器与另一个传声器的时延差，通过时延来计算距离差，再利用距离差和传声器阵列的空间几何位置来确定，示例性地，可以表示为

从而确定出第三滤波器。

采用固定波束形成算法确定第三滤波器只是本公开的一个示例性实施例，但不限于采用固定波束形成算法一种算法实现，例如还可以采用自适应波束形成算法等实现。

步骤505，通过第三滤波器处理来自传声器阵列的声音信号，得到语音参考信号。

在本步骤中，将来自传声器阵列的声音信号输入步骤504中的第三滤波器，示例性地，声音信号中至少直接或间接地包括有声速等信息，进而可以确定出波束到达阵列的入射角度θ，即可确定出声源方向的声音信号，以输出语音参考信号。

步骤506，基于噪声参考信号，去除语音参考信号中残留的噪声信号，以得到期望语音信号。

在本示例性实施例中，步骤506的实现原理、实现过程及技术效果可以参考前述第一示例性实施例中的步骤104的相关描述，或者，可以通过前述第一示例性实施例中关于步骤104的实现方式实现，为了简洁，在此不再进行详细描述。

根据本公开实施例，结合声源位置信息确定出传声器阵列的噪声参考信号，以及结合声源位置信息并采用波束形成算法确定出语音参考信号，可以降低语音参考信号的信号泄露，以及基于噪声参考信号进一步对语音参考信号进行降噪处理，可以进一步抑制期望语音信号中的干扰分量。

为了本领域技术人员能够清楚、准确地理解本公开技术方案，下面结合系统结构图对上述实施例进一步描述说明，前述第四示例性实施例可以基于图6所示的系统结构图实现。

图6是本公开另一示例性实施例提供的系统结构图。如图6所示的结构图，在获得声源位置信息和来自传声器阵列的至少两路声音信号后，可以分别通过波束形成算法和带DOA约束的BSS算法进行处理，示例性地，在可以获知相邻传声器的距离时即可确定声源方向，从而得到语音参考信号Y _ch1，以及带DOA约束的BSS算法处理后确定出噪声参考信号Y _ch2。因此，通过波束形成算法得到语音参考信号可以降低传声器阵列中传声器数目较多情况的影响(因此，特别适用于传声器阵列中传声器数目较多的场景)，通过带DOA约束的BSS算法可以有效抑制声源方向的声音信号，从而获得特别希望(声源方向的声音信号分量较少)的噪声参考信号Y _ch2。因此，基于该语音参考信号和噪声参考信号最终确定的期望语音信号Y，其噪声干扰分量得到减少，语音增强效果得到提高。

前述实施例详细地对本公开语音信号处理方法进行描述，本公开还提供了实现语音信号处理装置。下面将结合附图对语音信号处理装置进行描述，装置中涉及的模块、单元或者子单元，其功能与前述语音信号处理方法可以相互对应，其技术效果可以参考前述语音信号处理方法相关实施例。

图7是本公开第一示例性实施例提供的语音信号处理装置的结构示意图。如图7所示，本公开中语音信号处理装置700可以包括：第一获取模块710、声源抑制模块720、声源增强模块730和降噪模块740。

其中，第一获取模块710可以用于获取声源位置信息和来自传声器阵列的至少两路声音信号，声源抑制模块720可以用于根据第一获取模块710获取的声源位置信息，从至少两路声音信号中抑制来自声源方向的声音信号，以获得传声器阵列的噪声参考信号，声源增强模块730可以用于根据第一获取模块710声源位置信息，从至少两路声音信号中获取来自声源方向的声音信号，以得到语音参考信号，以及降噪模块740用于基于声源抑制模块720得到的噪声参考信号，去除语音参考信号中残留的噪声信号，以得到期望语音信号。

图8是本公开第二示例性实施例提供的语音信号处理装置的结构示意图。如图8所示，本公开中语音信号处理装置700可以包括：第一获取模块710、声源抑制模块720、声源增强模块730、降噪模块740。

其中，声源抑制模块720可以包括矩阵确定单元721和噪声确定单元722。矩阵确定单元721可以用于对至少两路声音信号进行快速傅立叶变换，得到语音信号矩阵，噪声确定单元722用于基于语音信号矩阵，并通过预设的带方向约束的盲源分离算法，确定传声器阵列的噪声参考信号，其中，所述预设的带方向约束的盲源分离算法根据所述声源位置信息确定。

进一步地，噪声确定单元722还可以包括：向量确定子单元(图中未示出)、信号抑制子单元(图中未示出)和噪声确定子单元(图中未示出)。其中，向量确定子单元可以用于根据声源位置信息和语音信号矩阵，确定声源方向的导向向量；信号抑制子单元可以用于根据导向向量确定第一滤波器，第一滤波器用于抑制声源方向的语音信号；噪声确定子单元可以用于将第一滤波器作为带方向约束的盲源分离算法的第一组分离滤波器初值，以输出传声器阵列的噪声参考信号。

图9是本公开第三示例性实施例提供的语音信号处理装置的结构示意图。如图9所示，本公开提供的语音信号处理装置700中包括第一获取模块710、声源抑制模块720、声源增强模块730、降噪模块740。其中，声源增强模块730可以包括向量确定单元731、语音增强单元732和信号输出单元733。

向量确定单元731可以用于根据声源位置信息确定声源方向的导向向量，语音增强单元732可以用于根据所述导向向量确定第二滤波器，其中，第二滤波器用于增强所述声源方向的语音信号，信号输出单元733可以用于将第二滤波器作为带方向约束的盲源分离算法的第二组分离滤波器初值，以输出语音参考信号。

图10是本公开第四示例性实施例提供的语音信号处理装置的结构示意图。如图10所示，本公开提供的语音信号处理装置700还可以包括第二获取模块750，以及声源增强模块730可以包括滤波器确定单元734和信号处理单元735。

其中，第二获取模块750用于获取所述传声器阵列的位置信息，以及滤波器确定单元734可以用于基于声源位置信息以及传声器阵列的位置信息，通过波束形成算法确定第三滤波器；信号处理单元735用于通过第三滤波器处理来自传声器阵列的声音信号，得到语音参考信号。

图11是本公开第五示例性实施例提供的语音信号处理装置的结构示意图。如图11所示，在前述图7至图10所示实施例的基础，降噪模块740可以包括滤波单元741、运算单元742和系数调整单元743。

其中，滤波单元741可以用于通过自适应降噪滤波器对噪声参考信号进行滤波处理；运算单元742可以用于将语音参考信号与滤波处理后的噪声参考信号进行相减运算，以得到语音增强信号；系数调整单元743可以用于基于语音增强信号对自适应降噪滤波器的滤波系数进行调整，直到语音增强信号的强度大于预设强度为止，以得到期望语音信号。

本公开实施例提供的语音信号处理装置，结合声源位置信息，一方面抑制声源方向的声音信号以得到噪声参考信号，另一方面，获取声源方向的声音信号以得到语音参考信号，进而从语音参考信号中去除噪声信号，以实现降低噪声干扰，提升语音增强效果的目的。

图12图示了根据本公开实施例的电子设备的框图。

如图12所示，电子设备11包括一个或多个处理器111和存储器112。

处理器111可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备11中的其他组件以执行期望的功能。

存储器112可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器111可以运行程序指令，以实现上文所述的本公开的各个实施例的语音信号处理方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备11还可以包括：输入装置113和输出装置114，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，该输入装置113可以是上述的摄像头或传声器、传声器阵列等，用于捕捉图像或声源的输入信号。在该电子设备是单机设备时，该输入装置123可以是通信网络连接器，用于从神经网络处理器接收所采集的输入信号。

此外，该输入设备113还可以包括例如键盘、鼠标等等。

该输出装置114可以向外部输出各种信息，包括确定出的输出电压、输出电流信息等。该输出设备114可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图12中仅示出了该电子设备11中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备11还可以包括任何其他适当的组件。

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语音信号处理方法中的步骤。

计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语音信号处理方法中的步骤。

计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

一种语音信号处理方法，包括：

获取声源位置信息和来自传声器阵列的至少两路声音信号；

根据所述声源位置信息，从所述至少两路声音信号中抑制来自声源方向的声音信号，以获得所述传声器阵列的噪声参考信号；

根据所述声源位置信息，从所述至少两路声音信号中获取来自声源方向的声音信号，以得到语音参考信号；

基于所述噪声参考信号，去除所述语音参考信号中残留的噪声信号，以得到期望语音信号。
根据权利要求1所述的方法，其中，所述根据所述声源位置信息，从所述至少两路声音信号中抑制来自声源方向的语音信号，以获得所述传声器阵列的噪声参考信号，包括：

对所述至少两路声音信号进行快速傅立叶变换，得到语音信号矩阵；

基于所述语音信号矩阵，通过预设的带方向约束的盲源分离算法，确定所述传声器阵列的噪声参考信号，其中，所述预设的带方向约束的盲源分离算法根据所述声源位置信息确定。
根据权利要求2所述的方法，其中，所述基于所述语音信号矩阵，通过预设的所述带方向约束的盲源分离算法，确定所述传声器阵列的噪声参考信号包括：

根据所述声源位置信息和语音信号矩阵，确定所述声源方向的导向向量；

根据所述导向向量确定第一滤波器，所述第一滤波器用于抑制所述声源方向的语音信号；

将所述第一滤波器作为所述带方向约束的盲源分离算法的第一组分离滤波器初值，以输出所述传声器阵列的噪声参考信号。
根据权利要求1至3中任一项所述的方法，其中，根据所述声源位置信息，从所述至少两路声音信号中获取来自声源方向的声音信号，以获得语音参考信号，包括：

根据所述声源位置信息和语音信号矩阵，确定所述声源方向的导向向量；

根据所述导向向量确定第二滤波器，所述第二滤波器用于增强所述声源方向的语音信号；

将所述第二滤波器作为所述带方向约束的盲源分离算法的第二组分离滤波器初值，以输出所述语音参考信号。
根据权利要求4所述的方法，其中，所述根据所述导向向量确定第二滤波器，包括：

根据所述导向向量所表征的传声器阵列的声音信号的特性，确定第二滤波器。
根据权利要求1至5中任一项中所述的方法，其中，所述方法还包括：

获取所述传声器阵列的位置信息；

所述根据所述声源位置信息，从所述至少两路声音信号中获取来自声源方向的声音信号，以得到语音参考信号，还包括：

基于所述声源位置信息以及所述传声器阵列的位置信息，通过波束形成算法确定第三滤波器；

通过所述第三滤波器处理所述来自传声器阵列的声音信号，得到所述语音参考信号。
根据权利要求6所述的方法，其中，所述获取所述传声器阵列的位置信息，包括：

获取传声器阵列中相邻两个传声器的之间的距离信息，作为传声器阵列的位置信息。
根据权利要求6或7所述的方法，其中，所述获取所述传声器阵列的位置信息，包括：

通过输入装置的输入信息获取所述传声器阵列的位置信息。
根据权利要求6或7所述的方法，其中，所述获取所述传声器阵列的位置信息，包括：

从所述传声器阵列自身的配置信息中获取所述传声器阵列的位置信息。
根据权利要求6至9中任一项所述的方法，其中，所述通过波束形成算法确定第三滤波器，包括：

通过固定波束形成算法或自适应波束形成算法确定所述第三滤波器。
根据权利要求1至10中任一项所述的方法，其中，所述基于所述噪声参考信号，去除所述语音参考信号中残留的噪声信号，以得到期望语音信号，包括：

通过自适应降噪滤波器对所述噪声参考信号进行滤波处理；

将所述语音参考信号与滤波处理后的所述噪声参考信号进行相减运算，以得到语音增强信号；

基于所述语音增强信号对所述自适应降噪滤波器的滤波系数进行调整，直到所述语音增强信号的强度大于预设强度为止，以得到所述期望语音信号。
根据权利要求1至11中任一项所述的方法，其中，所述获取声源位置信息，包括：

通过图像采集装置进行图像采集，再对采集到的图像进行图像识别，以确定每个声源的位置，从而形成声源位置信息。
一种语音信号处理装置，包括：

第一获取模块，用于获取声源位置信息和来自传声器阵列的至少两路声音信号；

声源抑制模块，用于根据所述声源位置信息，从所述至少两路声音信号中抑制来自声源方向的声音信号，以获得所述传声器阵列的噪声参考信号；

声源增强模块，用于根据所述声源位置信息，从所述至少两路声音信号中获取来自声源方向的声音信号，以得到语音参考信号；

降噪模块，用于基于所述噪声参考信号，去除所述语音参考信号中残留的噪声信号，以得到期望语音信号。
根据权利要求13所述的装置，其中，所述声源抑制模块包括：

矩阵确定单元，用于对所述至少两路声音信号进行快速傅立叶变换，确定语音信号矩阵；

噪声确定单元，用于基于所述语音信号矩阵，通过预设的所述带方向约束的盲源分离算法，确定所述传声器阵列的噪声参考信号，其中，所述预设的带方向约束的盲源分离算法根据所述声源位置信息确定。
根据权利要求14所述的装置，其中，所述噪声确定单元包括：

向量确定子单元，用于根据声源位置信息和语音信号矩阵，确定声源方向的导向向量；

信号抑制子单元，用于根据导向向量确定第一滤波器，所述第一滤波器用于抑制声源方向的语音信号；

噪声确定子单元，用于将第一滤波器作为带方向约束的盲源分离算法的第一组分离滤波器初值，以输出传声器阵列的噪声参考信号。
根据权利要求13至15中任一项所述的装置，其中，所述声源增强模块包括：

向量确定单元，用于根据声源位置信息确定所述声源方向的导向向量；

语音增强单元，用于根据所述导向向量确定第二滤波器，其中所述第二滤波器用于增强所述声源方向的语音信号；

信号输出单元，用于将所述第二滤波器作为带方向约束的盲源分离算法的第二组分离滤波器初值，以输出语音参考信号。
根据权利要求13至16中任一项所述的装置，还包括：

第二获取模块，用于获取所述传声器阵列的位置信息；

其中，所述声源增强模块包括：

滤波器确定单元，用于基于所述声源位置信息以及所述传声器阵列的位置信息，通过波束形成算法确定第三滤波器；

信号处理单元，用于通过所述第三滤波器处理来自所述传声器阵列的声音信号，得到语音参考信号。
根据权利要求13至17中任一项所述的装置，其中，所述降噪模块包括：

滤波单元，用于通过自适应降噪滤波器对所述噪声参考信号进行滤波处理；

运算单元，用于将所述语音参考信号与滤波处理后的所述噪声参考信号进行相减运算，以得到语音增强信号；

系数调整单元，用于基于所述语音增强信号对所述自适应降噪滤波器的滤波系数进行调整，直到所述语音增强信号的强度大于预设强度为止，以得到期望语音信号。
一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-12任一所述的语音信号处理方法。
一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器用于执行上述权利要求1-12任一所述的语音信号处理方法。