WO2024016793A1

WO2024016793A1 - 语音信号的处理方法、装置、设备及计算机可读存储介质

Info

Publication number: WO2024016793A1
Application number: PCT/CN2023/092935
Authority: WO
Inventors: 陈俊彬
Original assignee: 深圳Tcl新技术有限公司
Priority date: 2022-07-20
Filing date: 2023-05-09
Publication date: 2024-01-25
Also published as: CN117174078A

Abstract

一种语音信号的处理方法、装置、设备及计算机可读存储介质。该方法包括：根据麦克风阵列采集的原始语音信号确定出目标声源的第一方向信息（101）；按照独立向量分析算法和第一方向信息，从原始语音信号中分离出目标声源对应的第一语音信号（102）；根据第一方向信息和麦克风阵列的参数信息从原始语音信号中确定出噪声信号（103）；根据噪声信号对第一语音信号降噪处理（104）。

Description

语音信号的处理方法、装置、设备及计算机可读存储介质

本申请要求于2022年07月20日提交中国专利局、申请号为202210863937.6、申请名称为“语音信号的处理方法、装置、设备及计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及语音处理技术领域，具体涉及一种语音信号的处理方法、装置、设备及计算机可读存储介质。

背景技术

目前的很多智能家电、智能终端设备等都带有语音控制功能，用户可以通过语音进行开关、控制指令的触发等，要实现准确的语音控制就需要语音的准确识别，但是噪声环境下的语义识别准确率较低。

发明内容

本申请实施例提供一种语音信号的处理方法、装置、设备及计算机可读存储介质，能够提高语音识别的准确度。

第一方面，本申请实施例提供一种语音信号的处理方法，包括：

根据麦克风阵列采集的原始语音信号确定出目标声源的第一方向信息；

按照独立向量分析算法和所述第一方向信息，从所述原始语音信号中分离出所述目标声源对应的第一语音信号；

根据所述第一方向信息和所述麦克风阵列的参数信息从所述原始语音信号中确定出噪声信号；

根据所述噪声信号对所述第一语音信号进行降噪处理，得到第二语音信号。

第二方面，本申请实施例还提供一种语音信号的处理装置，包括：

声源定位模块，用于根据麦克风阵列采集的原始语音信号确定出目标声源的第一方向信息；

信号分离模块，用于按照独立向量分析算法和所述第一方向信息，从所述原始语音信号中分离出所述目标声源对应的第一语音信号；

噪声识别模块，用于根据所述第一方向信息和所述麦克风阵列的参数信息从所述原始语音信号中确定出噪声信号；

语音降噪模块，用于根据所述噪声信号对所述第一语音信号进行降噪处理，得到第二语音信号。

第三方面，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如本申请任一实施例提供的语音信号的处理方法中的步骤。

第四方面，本申请实施例还提供一种电子设备，所述电子设备包括处理器、存储器以及存储于所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本申请任一实施例提供的语音信号的处理方法中的步骤。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的语音信号的处理方法的第一种流程示意图。

图2为本申请实施例提供的语音信号的处理装置的结构示意图。

图3为本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本申请的保护范围。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例提供一种语音信号的处理方法，包括：

在一些实施例中，所述根据麦克风阵列采集的原始语音信号确定出目标声源的第一方向信息，包括：

获取麦克风阵列采集的原始语音信号，所述原始语音信号为时域信号；

对所述原始语音信号进行时频转换，得到频域信号；

按照声源定位算法对所述频域信号进行声源定位处理，确定出目标声源的第一方向信息。

在一些实施例中，所述对所述原始语音信号进行时频转换，得到频域信号，包括：

对所述原始语音信号进行分帧处理，得到按照接收时间的先后顺序排列的连续多帧语音信号；

对于每一帧语音信号，对所述语音信号进行时频转换处理，得到一帧对应的频域信号。

在一些实施例中，所述第一方向信息为第一方向向量；所述按照独立向量分析算法和所述第一方向信息，从所述原始语音信号中分离出所述目标声源对应的第一语音信号，包括：

计算所述第一方向向量在所述频域信号的各个频点处对应的导向矢量；

基于所述导向矢量，按照独立向量分析算法对所述频域信号分离处理，得到所述目标声源对应的第一语音信号。

在一些实施例中，所述基于所述导向矢量，按照独立向量分析算法对所述频域信号分离处理，得到所述目标声源对应的第一语音信号，包括：

根据所述频域信号计算独立向量分析算法的第一辅助参数矩阵；

根据所述导向矢量对所述第一辅助参数矩阵进行修正处理，得到第二辅助参数矩阵；

根据所述第二辅助参数矩阵，计算目标声源子空间；

根据所述目标声源子空间确定出所述目标声源的分离矩阵；

根据所述频域信号和所述分离矩阵，计算得到所述目标声源对应的第一语音信号。

在一些实施例中，所述参数信息包括排布方式；所述根据所述第一方向信息和所述麦克风阵列的参数信息从所述原始语音信号中确定出噪声信号，包括：

根据所述麦克风阵列的排布方式以及所述第一方向信息，确定出噪声信号的第二方向向量；

根据所述第二方向向量对所述频域信号进行波束成形，得到噪声信号。

在一些实施例中，所述根据所述噪声信号对所述第一语音信号进行降噪处理，得到第二语音信号，包括：

将所述多帧频域信号的对应的噪声信号作为自适应滤波器的输入信号，按照最小均方差算法进行迭代运算，确定出所述自适应滤波器的系数；

根据系数确定的所述自适应滤波器对所述第一语音信号中进行降噪处理，得到第二语音信号。

在一些实施例中，所述对所述原始语音信号进行时频转换，得到频域信号之前，所述方法还包括：

检测所述原始语音信号是否存在预设唤醒词；

当检测到所述原始语音信号中存在所述预设唤醒词时，执行对所述原始语音信号进行时频转换，得到频域信号的步骤。

本申请实施例提供的技术方案，先根据麦克风阵列采集的原始语音信号确定出目标声源的第一方向信息，再按照独立向量分析算法和第一方向信息从原始语音信号中分离出目标声源对应的第一语音信号，然后，根据该第一方向信息和麦克风阵列的参数信息从原始语音信号中确定出噪声信号，再根据噪声信号对第一语音信号进行降噪处理，得到第二语音信号。该方案在对原始语音信号进行分离时，结合目标生源的方向信息作为约束条件，加强了独立向量分析算法输出的稳定性和准确性，避免输出的是纯噪声信号，此外，在得到第一语音信号之后，使用获取到的噪声信号再对第一语音信号进行进一步的降噪处理，得到更加纯粹的目标声源的信号，进而提高语音识别的准确度。

本申请实施例提供一种语音信号的处理方法，该语音信号的处理方法的执行主体可以是电子设备。其中，电子设备可以是智能手机、平板电脑等带有语音控制功能的终端设备；也可以是智能冰箱、智能空调等带有语音控制功能的智能家电设备；还可以是如无线音箱、智能投影仪等其他带有语音控制功能的设备。

请参阅图1，图1为本申请实施例提供的语音信号的处理方法的第一种流程示意图。本申请实施例提供的语音信号的处理方法的具体流程可以如下：

101、根据麦克风阵列采集的原始语音信号确定出目标声源的第一方向信息。

电子设备设置有两个或者两个以上的麦克风，这多个麦克风构成麦克风阵列，并在电子设备处于运行状态时，对电子设备周围的语音信号进行采集。电子设备在通过麦克风阵列采集语音信号时，除了可以采集到用户发出的语音信号之外，还会采集到周边环境中的其他干扰语音信号，例如，环境噪声，其他人发出的声音等，也就是说，麦克风阵列采集到的原始语音信号是一个混合信号。这些信号会影响到电子设备对用户的目标语音信号的识别的准确度，因此，电子设备在检测到原始语音信号后，需要对该原始语音信号进行分离处理，从中确定出目标声源的语音信号，即从这个混合语音信号中确定出用户发出的用于控制电子设备的语音信号。

麦克风阵列采集的语音信号为时域信号，记做x_m(t)，其中，m＝1,2,...,M，t＝1,2,...,T，M是麦克风阵列中麦克风的个数，T是一帧信号的长度。电子设备将麦克风阵列采集到的语音信号按照时间先后顺序逐帧存储到缓存器y中。

其中，y＝{y₁；y₂；...；y_M}，y_m＝{y_m(1),y_m(2),...,y_m(L)}，y_m(1)＝{y_m(1,1),y_m(1,2),...,y_m(1,T)}，L是缓存器中存放的时域信号的帧数。每当新进来一帧时域信号x_m(t)，电子设备按照如下方式为y_m赋值：y_m(1,t)＝y_m(2,t),y_m(2,t)＝y_m(3,t),...,y_m(L-1,t)＝y_m(L,t),y_m(L,t)＝x_m(t)。

在后续的信号处理过程中，电子设备从缓存器y中按照时间先后顺序获取多帧时域信号进行处理。

对于原始语音信号，可以按照声源定位算法从其中确定出目标声源的第一方向信息。例如，在一实施例中，根据麦克风阵列采集的原始语音信号确定出目标声源的第一方向信息，包括：获取麦克风阵列采集的原始语音信号，原始语音信号为时域信号；对原始语音信号进行时频转换，得到频域信号；按照声源定位算法对频域信号进行声源定位处理，确定出目标声源的第一方向信息。

获取缓存器中的时域信号，对这些时域信号进行视频转换处理，得到频域信号，再基于频域信号进行后续的定位处理。此外，语音信号是一种时序信号，因此可以在时间轴上对连续的语音信号进行分帧处理，然后，基于连续的多帧语音信号执行后续的操作。例如，在一实施例中，对原始语音信号进行时频转换，得到频域信号，包括：对原始语音信号进行分帧处理，得到按照接收时间的先后顺序排列的连续多帧语音信号；对于每一帧语音信号，对语音信号进行时频转换处理，得到一帧对应的频域信号。

该实施例中，对时域信号进行重新分帧加窗处理，例如帧长为T′，帧数为L′。然后对多帧时域的语音信号进行时频转换处理，得到频域信号。例如，按照快速傅里叶变换(Fast Fourier Transform，FFT)进行时频转换处理，得到频域信号，记为Y(l′,k′),l′＝1,2,...,L′,k′＝1,2,...,K′，K′是FFT点数。Y(l′,k′)＝{Y₁(l′,k′)；...；Y_M(l′,k′)}。

其中，在一实施例中，对所述原始语音信号进行时频转换，得到频域信号之前，所述方法还包括：检测所述原始语音信号是否存在预设唤醒词；当检测到所述原始语音信号中存在所述预设唤醒词时，执行对所述原始语音信号进行时频转换，得到频域信号的步骤。

在语音控制场景下，用户一般需要先使用唤醒词唤醒语音系统，语音系统才会对后续的语音指令进行应答。该实施例中，获取麦克风采集到的原始语音信号之后，可以先检测原始语音信号中是否存在有预设唤醒词，当存在原始唤醒词时，再执行后续的语音信号处理操作，反之，则无需执行后续的语音信号处理操作。

接下来，按照声源算法对频域信号进行声源定位处理，确定出目标声源的第一方向信息。例如，利用频域信号Y′(l′,k′)做若干个声源方向的初步测定，按照预设的角度范围，在空间中均匀选取N个方向向量d_n，n＝1,2,...,N，采用SRP-PHAT(Steering response power-phase transform，基于可控功率响应和相位变换)算法计算与该方向向量对应的SRP-PHAT值，然后在这些SRP-PHAT值里面确定出最大峰值对应的方向向量，将该方向向量确定为目标声源的第一方向信息，记为第一方向向量d_speec。

102、按照独立向量分析算法和第一方向信息，从原始语音信号中分离出目标声源对应的第一语音信号。

传统的overIVA(overdetermined Independent Vector Analysis，超定的独立向量分析)算法会对混合语音信号进行分离，但是难以确定分离出的是目标语音还是干扰语音。本申请实施例的方案，在确定出表征目标声源的方向信息的第一方向向量后，将该第一方向向量作为独立向量分析算法的约束条件，进行信号分离处理。

在一些实施例中，第一方向信息为第一方向向量；按照独立向量分析算法和第一方向信息，从原始语音信号中分离出目标声源对应的第一语音信号，包括：计算第一方向向量在频域信号的各个频点处对应的导向矢量；基于导向矢量，按照独立向量分析算法对频域信号分离处理，得到目标声源对应的第一语音信号。

其中，频域信号中包含多个频点，根据第一方向向量计算出的各个频点对应的导向矢量，然后在按照独立向量分析算法对频域信号分离处理的过程中，使用该导向矢量对算法进行约束，使得最终分离出的信号是目标声源对应的信号，而不是其他的干扰信号。

其中，从原始语音信号中分离出的目标声源对应的第一语音信号为

在一些实施中，基于导向矢量，按照独立向量分析算法对频域信号分离处理，得到目标声源对应的第一语音信号，包括：根据频域信号计算独立向量分析算法的第一辅助参数矩阵；根据导向矢量对第一辅助参数矩阵进行修正处理，得到第二辅助参数矩阵；根据第二辅助参数矩阵，计算目标声源子空间；根据目标声源子空间确定出目标声源的分离矩阵；根据频域信号和分离矩阵，计算得到目标声源对应的第一语音信号。

其中，频域信号包括K个频点，α(k,d_speec)为第一方向向量d_speec在K个频点中的第k个频点处对应的导向矢量。具体地，先求M个麦克风在d_speec的相对时延，即在d_speec方向下，声波从麦克风处传播到坐标原点的时间。以原点为起点，第m个麦克风的坐标为终点，表示成向量形式为δ_m，则有相对时延其中符号“·”表示内积。

可以得到d_speec在第k个频点处对应的导向矢量

其中，对原始语音信号(时域信号)x_m经过时频转换后，得到频域信号 X(l,k)，其中，l代表第l帧，k代表频率索引，k＝1,2,...,K，K是FFT点数。(·)^H表示共轭转置。W_bp(l,k)是的第一行，其中，W_bp(l,k)为1×M的矩阵，是一个M×M的矩阵。因此，要计算出分离出的第一语音信号，则需要计算出

其中，是独立向量分析算法的分离矩阵，是一个M×M的矩阵。A(l,k)是个M×M的对角矩阵，其对角线元上的元素为求逆后的对角线上的元素。

其中，

W(l,k)是一个1×M的矩阵，表示目标声源子空间，其初始值W(0,k)的第一个元素为1，其它位置的元素为零。该矩阵的作用是从M个输入中分离出目标声源。U(l,k)＝[U₁(l,k)；U₂(l,k)；...；U_M-1(l,k)]。U(l,k)是一个(M-1)×M的矩阵。

接下来，对W(l,k)和U(l,k)的计算过程进行说明。首先，计算第一辅助参数矩阵V(l,k)。

其中，本申请实施例的方案不需要等到采集到完整的语音信号之后，才能进行语音信号的分离，缓存器y中每存入一帧新的语音信号，就可以从缓存器中读取最新一帧语音信号，采用迭代的方式进行后续语音信号的一些列处理。例如，在按照独立向量分析算法进行信号的分离时，在计算第l帧的相关数据时，可以结合第l-1帧的数据。例如上文中计算第一辅助参数矩阵的公式，就是按照迭代的方式进行运算，其中，V(l,k)的初始值V(0,k)的对角线上的元素为1，其它位置的元素为零。α是一个取值范围在0-1之间的遗忘因子。X(l,k)是频域信号，(·)^H表示共轭转置。

接下来，根据上文中计算得到的导向矢量对第一辅助参数矩阵进行修正，得到第二辅助参数矩阵，使得使用第二辅助参数矩阵计算得到的分离矩阵能够从混合语音信号中分离出目标声源的信号，而非其他干扰信号。

具体地，第二辅助参数矩阵D(l,k)＝V(l,k)+λα(k,d_speec)α^H(k,d_speec)，其中，λ为预设常数，用来调节导向矢量在独立向量分析算法中的参与程度。

其中，W(l,k)的计算公式如下：

如果Φ(l,k)等于0，则

如果Φ(l,k)不等于0，则

其中，Ψ(l,k)＝P^H(l,k)D(l,k)P(l,k)，Φ(l,k)＝P^H(l,k)D(l,k)Q(l,k)，Q(l,k)＝λσD^-1(l,k)α(k,d_speec)。其中，σ也是一个预设常数，用来调节导向矢量在独立向量分析算法中的参与程度。

U(l,k)是一个(M-1)×M的矩阵，U(l,k)＝[J(l,k),-I_M-1]。

其中，J(l,k)＝(A₂C(l,k)W^H(l,k))(A₁C(l,k)W^H(l,k))^-1。

A₁＝[1,O_1×M-1]，A₂＝[O_(M-1)×1,I_M-1]，I_*为*行*列的单位矩阵。O_*为*行*列的零矩阵，C(l,k)是M×M的方阵。

C(l,k)＝αC(l-1,k)+(1-α)X(l,k)X^H(l,k)，α为遗忘因子，取值在0～1之间，例如，在一实施例中，α设置为0.95，C(l,k)初始初值为C(0,k)，可设置为零矩阵。

按照上文中公式计算得到W(l,k)和U(l,k)，即可得到W_bp(l,k)。

其中，在一实施例中，在得到W_bp(l,k)之后，可以对其进行归一化处理，从而提高是独立向量分析算法的输出的稳定性，以及算法收敛之后的降噪效果。

103、根据第一方向信息和麦克风阵列的参数信息从原始语音信号中确定出噪声信号。

按照上述方式对原始语音信号进行分离处理之后，得到目标声源的第一语音信号，由于环境噪声的存在，该第一语音信号中还可能会存在有部分噪声信号，为了进一步地对该信号进行去噪处理，还可以进一步地从原始语音信号中识别出噪声信号。再基于该噪声信号对第一语音信号进行降噪处理。

例如，在一实施例中，参数信息包括排布方式；所述根据所述第一方向信息和所述麦克风阵列的参数信息从所述原始语音信号中确定出噪声信号，包括：根据所述麦克风阵列的排布方式以及所述第一方向信息，确定出噪声信号的第二方向向量；根据所述第二方向向量对所述频域信号进行波束成形，得到噪声信号。

对于麦克风阵列来说，不同阵型的方位角最大夹角和俯仰角最大夹角都不一样。常规的麦克风阵列的阵型有线阵和圆阵两种。假如麦克风阵列的阵型是线阵，那么与目标声源方位角的最大夹角为90°、与目标声源俯仰角的最大夹角为45°，如果阵型是圆阵，那么与目标声源方位角的最大夹角为180°、与目标声源俯仰角的最大夹角为45°。上文中已经计算出目标声源的第一方向向量，在空间坐标下，每一个方向向量都可以分解为方位角和俯仰角，反之，在知道方位角和俯仰角的情况下也可以反推出方向向量。对于电子设备来说，其麦克风阵列的排布方式是确定的，而在与目标声源具有最大夹角的方向的语音信号中包含的目标声源的分量是最小的，基于这样的原理，可以将与目标声源具有最大夹角的方向的语音信号作为噪声信号。该噪声信号与目标声源的语音信号之间的方位角最大夹角、俯仰角最大夹角都是已知的，目标声源对应的方位角和俯仰角也可以根据第一方向向量计算得到，可以根据噪声信号与目标声源的语音信号之间的方位角最大夹角、俯仰角最大夹角，以及第一方向向量计算得到噪声信号对应的第二方向向量d_noise。

在确定出第二方向向量后，计算第二方向向量的导向矢量。α(k,d_noise)为d_noise在第k个频点处对应的导向矢量。具体地，先求M个麦克风在d_noise的相对时延，即在d_noise方向下，声波从麦克风处传播到坐标原点的时间。以原点为起点，第m个麦克风的坐标为终点，表示成向量形式为δ_m，则有相对时延其中符号“·”表示内积。可以得到

然后，根据该方向矢量对原始语音信号进行波束成形处理，得到该方向矢量处的语音信号，作为噪声信号。其中，在一实施例中，可以采用超指向型波束成形得到波束输出信号B(l,k)。

104、根据噪声信号对第一语音信号进行降噪处理，得到第二语音信号。

确定出噪声信号后，将多帧频域信号的对应的噪声信号作为自适应滤波器的输入信号，按照最小均方差算法进行迭代运算，确定出自适应滤波器的系数；根据系数确定的自适应滤波器对第一语音信号中进行降噪处理，得到第二语音信号。

上文计算出的第一语音信号为Z(l,k)，按照如下公式可以计算出第二语音信号E(l,k)。
E(l,k)＝Z(l,k)-B(l,k)W_NLMS(l,k)

其中，l是帧索引，k是频率索引，且k＝1,2,...,K，K是频点数量，E(l,k)为自适应滤波后的信号，B(l,k)是B(l,k)的历史缓存。

B(l,k)＝[B(l,k),B(l-1,k),...,B(l-ORD+1,k)]，ORD是缓存的帧数。

W_NLMS(l,k)为自适应滤波器的系数。其中，该系数的迭代方式如下：

其中，μ是步长调节因子，·^*表示求共轭。

按照最小均方差算法进行迭代运算确定出自适应滤波器的系数，再按照上文中的公式计算出第二语音信号E(l,k)，已完成对目标声源的语音信号的进一步降噪。

具体实施时，本申请不受所描述的各个步骤的执行顺序的限制，在不产生冲突的情况下，某些步骤还可以采用其它顺序进行或者同时进行。

由上可知，本申请实施例提供的语音信号的处理方法，先根据麦克风阵列采集的原始语音信号确定出目标声源的第一方向信息，再按照独立向量分析算法和第一方向信息从原始语音信号中分离出目标声源对应的第一语音信号，然后，根据该第一方向信息和麦克风阵列的参数信息从原始语音信号中确定出噪声信号，再根据噪声信号对第一语音信号进行降噪处理，得到第二语音信号。该方案在对原始语音信号进行分离时，结合目标生源的方向信息作为约束条件，加强了独立向量分析算法输出的稳定性和准确性，避免输出的是纯噪声信号，此外，在得到第一语音信号之后，使用获取到的噪声信号再对第一语音信号进行进一步的降噪处理，得到更加纯粹的目标声源的信号，进而提高语音识别的准确度。

在一实施例中还提供一种语音信号的处理装置。请参阅图2，图2为本申请实施例提供的语音信号的处理装置300的结构示意图。其中该语音信号的处理装置300应用于电子设备，该语音信号的处理装置300包括声源定位模块301、信号分离模块302、噪声识别模块303以及语音降噪模块304，如下：

声源定位模块301，用于根据麦克风阵列采集的原始语音信号确定出目标声源的第一方向信息；

信号分离模块302，用于按照独立向量分析算法和第一方向信息，从原始语音信号中分离出目标声源对应的第一语音信号；

噪声识别模块303，用于根据第一方向信息和麦克风阵列的参数信息从原始语音信号中确定出噪声信号；

语音降噪模块304，用于根据噪声信号对第一语音信号进行降噪处理，得到第二语音信号。

在一些实施例中，声源定位模块301还用于：获取麦克风阵列采集的原始语音信号，原始语音信号为时域信号；对原始语音信号进行时频转换，得到频域信号；以及，按照声源定位算法对频域信号进行声源定位处理，确定出目标声源的第一方向信息。

在一些实施例中，声源定位模块301还用于：对原始语音信号进行分帧处理，得到按照接收时间的先后顺序排列的连续多帧语音信号；以及，对于每一帧语音信号，对语音信号进行时频转换处理，得到一帧对应的频域信号。

在一些实施例中，第一方向信息为第一方向向量；声源定位模块301还用于：计算第一方向向量在频域信号的各个频点处对应的导向矢量；以及，基于导向矢量，按照独立向量分析算法对频域信号分离处理，得到目标声源对应的第一语音信号。

在一些实施例中，信号分离模块302还用于：根据频域信号计算独立向量分析算法的第一辅助参数矩阵；根据导向矢量对第一辅助参数矩阵进行修正处理，得到第二辅助参数矩阵；根据第二辅助参数矩阵，计算目标声源子空间；根据目标声源子空间确定出目标声源的分离矩阵；以及，根据频域信号和分离矩阵，计算得到目标声源对应的第一语音信号。

在一些实施例中，噪声识别模块303还用于：根据麦克风阵列的排布方式以及第一方向信息，确定出噪声信号的第二方向向量；以及，根据第二方向向量对频域信号进行波束成形，得到噪声信号。

在一些实施例中，语音降噪模块304还用于：将多帧频域信号的对应的噪声信号作为自适应滤波器的输入信号，按照最小均方差算法进行迭代运算，确定出自适应滤波器的系数；根据系数确定的所述自适应滤波器对所述第一语音信号中进行降噪处理，得到第二语音信号。

在一些实施例中，该装置还包括：

语音识别模块，用于检测原始语音信号是否存在预设唤醒词；

声源定位模块301还用于：当检测到原始语音信号中存在预设唤醒词时，执行对原始语音信号进行时频转换，得到频域信号。

应当说明的是，本申请实施例提供的语音信号的处理装置与上文实施例中的语音信号的处理方法属于同一构思，通过该语音信号的处理装置可以实现语音信号的处理方法实施例中提供的任一方法，其具体实现过程详见语音信号的处理方法实施例，此处不再赘述。

由上可知，本申请实施例提出的语音信号的处理装置，先根据麦克风阵列采集的原始语音信号确定出目标声源的第一方向信息，再按照独立向量分析算法和第一方向信息从原始语音信号中分离出目标声源对应的第一语音信号，然后，根据该第一方向信息和麦克风阵列的参数信息从原始语音信号中确定出噪声信号，再根据噪声信号对第一语音信号进行降噪处理，得到第二语音信号。该方案在对原始语音信号进行分离时，结合目标生源的方向信息作为约束条件，加强了独立向量分析算法输出的稳定性和准确性，避免输出的是纯噪声信号，此外，在得到第一语音信号之后，使用获取到的噪声信号再对第一语音信号进行进一步的降噪处理，得到更加纯粹的目标声源的信号，进而提高语音识别的准确度。

本申请实施例还提供一种电子设备，电子设备可以是智能手机、平板电脑等带有语音控制功能的终端设备；也可以是智能冰箱、智能空调等带有语音控制功能的智能家电设备；还可以是如无线音箱、智能投影仪等其他带有语音控制功能的设备。请参阅图3，图3为本申请实施例提供的电子设备的结构示意图。该电子设备400包括有一个或者一个以上处理核心的处理器401、有一个或一个以上计算机可读存储介质的存储器402及存储在存储器402上并可在处理器上运行的计算机程序。其中，处理器401与存储器402电性连接。本领域技术人员可以理解，图中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

处理器401是电子设备400的控制中心，利用各种接口和线路连接整个电子设备400的各个部分，通过运行或加载存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备400的各种功能和处理数据，从而对电子设备400进行整体监控。

在本申请实施例中，电子设备400中的处理器401会按照如下的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能：

按照独立向量分析算法和第一方向信息，从原始语音信号中分离出目标声源对应的第一语音信号；

根据第一方向信息和麦克风阵列的参数信息从原始语音信号中确定出噪声信号；

根据噪声信号对第一语音信号进行降噪处理，得到第二语音信号。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

可选的，如图3所示，电子设备400还包括：触控显示屏403、射频电路404、语音电路405、输入单元406以及电源407。其中，处理器401分别与触控显示屏403、射频电路404、语音电路405、输入单元406以及电源407电性连接。本领域技术人员可以理解，图3中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

触控显示屏403可用于显示图形用户界面以及接收用户作用于图形用户界面产生的操作指令。触控显示屏403可以包括显示面板和触控面板。其中，显示面板可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。触控面板可用于收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)，并生成相应的操作指令，且操作指令执行对应程序。可选的，触控面板可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器401，并能接收处理器401发来的命令并加以执行。

射频电路404可用于收发射频信号，以通过无线通信与网络设备或其他电子设备建立无线通讯，与网络设备或其他电子设备之间收发信号。

语音电路405可以用于通过扬声器、传声器提供用户与电子设备之间的语音接口。语音电路405可将接收到的语音数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由语音电路405接收后转换为语音数据，再将语音数据输出处理器401处理后，经射频电路404以发送给比如另一电子设备，或者将语音数据输出至存储器402以便进一步处理。语音电路405还可能包括耳塞插孔，以提供外设耳机与电子设备的通信。

输入单元406可用于接收输入的数字、字符信息或用户特征信息(例如指纹、虹膜、面部信息等)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

电源407用于给电子设备400的各个部件供电。可选的，电源407可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源407还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管图3中未示出，电子设备400还可以包括摄像头、传感器、无线保真模块、蓝牙模块等，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

由上可知，本实施例提供的电子设备，先根据麦克风阵列采集的原始语音信号确定出目标声源的第一方向信息，再按照独立向量分析算法和第一方向信息从原始语音信号中分离出目标声源对应的第一语音信号，然后，根据该第一方向信息和麦克风阵列的参数信息从原始语音信号中确定出噪声信号，再根据噪声信号对第一语音信号进行降噪处理，得到第二语音信号。该方案在对原始语音信号进行分离时，结合目标生源的方向信息作为约束条件，加强了独立向量分析算法输出的稳定性和准确性，避免输出的是纯噪声信号，此外，在得到第一语音信号之后，使用获取到的噪声信号再对第一语音信号进行进一步的降噪处理，得到更加纯粹的目标声源的信号，进而提高语音识别的准确度。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如本申请实施例提供的任意一种语音信号的处理方法中的步骤。例如，该计算机程序可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种语音信号的处理方法中的步骤，因此，可以实现本申请实施例所提供的任一种语音信号的处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种语音信号的处理方法、装置、设备及计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

一种语音信号的处理方法，其中，包括：

根据麦克风阵列采集的原始语音信号确定出目标声源的第一方向信息；

按照独立向量分析算法和所述第一方向信息，从所述原始语音信号中分离出所述目标声源对应的第一语音信号；

根据所述第一方向信息和所述麦克风阵列的参数信息从所述原始语音信号中确定出噪声信号；

根据所述噪声信号对所述第一语音信号进行降噪处理，得到第二语音信号。
如权利要求1所述的语音信号的处理方法，其中，所述根据麦克风阵列采集的原始语音信号确定出目标声源的第一方向信息，包括：

获取麦克风阵列采集的原始语音信号，所述原始语音信号为时域信号；

对所述原始语音信号进行时频转换，得到频域信号；

按照声源定位算法对所述频域信号进行声源定位处理，确定出目标声源的第一方向信息。
如权利要求2所述的语音信号的处理方法，其中，所述对所述原始语音信号进行时频转换，得到频域信号，包括：

对所述原始语音信号进行分帧处理，得到按照接收时间的先后顺序排列的连续多帧语音信号；

对于每一帧语音信号，对所述语音信号进行时频转换处理，得到一帧对应的频域信号。
如权利要求3所述的语音信号的处理方法，其中，所述第一方向信息为第一方向向量；所述按照独立向量分析算法和所述第一方向信息，从所述原始语音信号中分离出所述目标声源对应的第一语音信号，包括：

计算所述第一方向向量在所述频域信号的各个频点处对应的导向矢量；

基于所述导向矢量，按照独立向量分析算法对所述频域信号分离处理，得到所述目标声源对应的第一语音信号。
如权利要求4所述的语音信号的处理方法，其中，所述基于所述导向矢量，按照独立向量分析算法对所述频域信号分离处理，得到所述目标声源对应的第一语音信号，包括：

根据所述频域信号计算独立向量分析算法的第一辅助参数矩阵；

根据所述导向矢量对所述第一辅助参数矩阵进行修正处理，得到第二辅助参数矩阵；

根据所述第二辅助参数矩阵，计算目标声源子空间；

根据所述目标声源子空间确定出所述目标声源的分离矩阵；

根据所述频域信号和所述分离矩阵，计算得到所述目标声源对应的第一语音信号。
如权利要求3所述的语音信号的处理方法，其中，所述参数信息包括排布方式；所述根据所述第一方向信息和所述麦克风阵列的参数信息从所述原始语音信号中确定出噪声信号，包括：

根据所述麦克风阵列的排布方式以及所述第一方向信息，确定出噪声信号的第二方向向量；

根据所述第二方向向量对所述频域信号进行波束成形，得到噪声信号。
如权利要求6所述的方法，其中，所述根据所述噪声信号对所述第一语音信号进行降噪处理，得到第二语音信号，包括：

将所述多帧频域信号的对应的噪声信号作为自适应滤波器的输入信号，按照最小均方差算法进行迭代运算，确定出所述自适应滤波器的系数；

根据系数确定的所述自适应滤波器对所述第一语音信号中进行降噪处理，得到第二语音信号。
如权利要求2所述的方法，其中，所述对所述原始语音信号进行时频转换，得到频域信号之前，所述方法还包括：

检测所述原始语音信号是否存在预设唤醒词；

当检测到所述原始语音信号中存在所述预设唤醒词时，执行对所述原始语音信号进行时频转换，得到频域信号的步骤。
一种语音信号的处理装置，其中，包括：

声源定位模块，用于根据麦克风阵列采集的原始语音信号确定出目标声源的第一方向信息；

信号分离模块，用于按照独立向量分析算法和所述第一方向信息，从所述原始语音信号中分离出所述目标声源对应的第一语音信号；

噪声识别模块，用于根据所述第一方向信息和所述麦克风阵列的参数信息从所述原始语音信号中确定出噪声信号；

语音降噪模块，用于根据所述噪声信号对所述第一语音信号进行降噪处理，得到第二语音信号。
如权利要求9所述的装置，其中，所述声源定位模块还用于：

获取麦克风阵列采集的原始语音信号，所述原始语音信号为时域信号；

对所述原始语音信号进行时频转换，得到频域信号；

按照声源定位算法对所述频域信号进行声源定位处理，确定出目标声源的第一方向信息。
如权利要求10所述的装置，其中，所述声源定位模块还用于：

对所述原始语音信号进行分帧处理，得到按照接收时间的先后顺序排列的连续多帧语音信号；

对于每一帧语音信号，对所述语音信号进行时频转换处理，得到一帧对应的频域信号。
如权利要求11所述的装置，其中，所述第一方向信息为第一方向向量；所述声源定位模块还用于：

计算所述第一方向向量在所述频域信号的各个频点处对应的导向矢量；

基于所述导向矢量，按照独立向量分析算法对所述频域信号分离处理，得到所述目标声源对应的第一语音信号。
如权利要求12所述的装置，其中，所述信号分离模块302还用于：

根据所述频域信号计算独立向量分析算法的第一辅助参数矩阵；

根据所述导向矢量对所述第一辅助参数矩阵进行修正处理，得到第二辅助参数矩阵；

根据所述第二辅助参数矩阵，计算目标声源子空间；

根据所述目标声源子空间确定出所述目标声源的分离矩阵；

根据所述频域信号和所述分离矩阵，计算得到所述目标声源对应的第一语音信号。
如权利要求11所述的装置，其中，所述参数信息包括排布方式；所述噪声识别模块303还用于：

根据所述麦克风阵列的排布方式以及所述第一方向信息，确定出噪声信号的第二方向向量；

根据所述第二方向向量对所述频域信号进行波束成形，得到噪声信号。
如权利要求14所述的装置，其中，所述语音降噪模块304还用于：

将所述多帧频域信号的对应的噪声信号作为自适应滤波器的输入信号，按照最小均方差算法进行迭代运算，确定出所述自适应滤波器的系数；

根据系数确定的所述自适应滤波器对所述第一语音信号中进行降噪处理，得到第二语音信号。
如权利要求10所述的装置，其中，所述装置还包括：

语音识别模块，用于检测所述原始语音信号是否存在预设唤醒词；

所述声源定位模块还用于：当检测到所述原始语音信号中存在所述预设唤醒词时，对所述原始语音信号进行时频转换，得到频域信号。
一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的语音信号的处理方法中的步骤。
一种电子设备，其中，所述电子设备包括处理器、存储器以及存储于所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1所述的语音信号的处理方法中的步骤。
如权利要求18所述的电子设备，其中，所述处理器执行所述计算机程序时还可以实现：

获取麦克风阵列采集的原始语音信号，所述原始语音信号为时域信号；

对所述原始语音信号进行时频转换，得到频域信号；

按照声源定位算法对所述频域信号进行声源定位处理，确定出目标声源的第一方向信息。
如权利要求19所述的电子设备，其中，所述处理器执行所述计算机程序时还可以实现：

对所述原始语音信号进行分帧处理，得到按照接收时间的先后顺序排列的连续多帧语音信号；

对于每一帧语音信号，对所述语音信号进行时频转换处理，得到一帧对应的频域信号。