WO2019061439A1

WO2019061439A1 - 一种基于渐进串行正交化盲源分离算法的改进声源定位方法及其实现系统

Info

Publication number: WO2019061439A1
Application number: PCT/CN2017/104879
Authority: WO
Inventors: 周冉冉; 崔浩; 王永; 郭晓宇; 倪暹
Original assignee: 山东大学
Priority date: 2017-09-29
Filing date: 2017-09-30
Publication date: 2019-04-04
Also published as: CN107644650A; CN107644650B

Abstract

一种基于渐进串行正交化盲源分离算法的改进声源定位方法及其实现系统，方法包括步骤如下：（1）采集声音信号并存储；（2）对声音信号分离，得到独立声源信号；（3）对独立声源信号，通过模式匹配算法，选取需要定位的声音的独立声源信号；（4）根据模式匹配的结果，如果为单一声源，先粗定位：求取信号的包络，低分辨率采样，通过广义自相关函数法粗略计算时延，根据粗略定位的点数对信号进行时域搬移；再细定位：高分辨率采样，通过广义自相关函数法计算时延，得到精确时延，求解出声源位置；如果为多个声源，则通过TDOA算法计算时延，求解声源位置；相比传统的TDOA方法，可以一定程度上提高精度，并减少算法运算量。

Description

一种基于渐进串行正交化盲源分离算法的改进声源定位方法及其实现系统

技术领域

本发明涉及一种基于渐进串行正交化盲源分离算法的改进声源定位方法及其实现系统，属于声源定位技术领域。

背景技术

声音是自然界中信息传播的一个重要载体，通过获取声音信号，人们不单能获取到声音承载的语音信息，还能根据声音传播的特性和传播路径本身，通过声源定位技术，还可以获取声音承载的内容信息之外的位置信息。根据声音的这两种特性，所以声音信号的获取在安全监控、定位搜寻、区域探测等领域有着不可替代的作用。

早先对于未知目标位置的定位方法主要依靠无线电、激光、超声等方式进行，通过主动发射探测信号并接收经被测物体反射回来的反射波来分析和计算被测物体的位置信息。因为是主动方式进行探测，发射和接收都要使用预先制定的频率波，所以不易受自然环境干扰，且具有高精度和高抗干扰的特性。但是主动式定位方式需要有强大的发射功率，这会在功率不足或某些能源限制环境下无法得到应用。而声源定位采用被动式原理，便于隐藏，使用广泛存在的声波，再加上设备成本低、功耗低，因而得到了广泛的关注和应用。

盲源分离技术是20世纪90年代发展起来的一种信号处理方法，是在不知源信号和传输通道的参数的情况下，根据源信号的统计特性，仅由观测信号恢复出源信号各个成分的过程。这里的“源”指原始信号，即独立成分；“盲”一是源信号不能被观测到，二是源信号的混合方式未知，因此，在源信号与传输信道参数都未知的情况下，可以用盲源分离技术来处理混合声音信号。渐进串行正交化盲源分离算法是盲源分离算法的一种，通过渐进正交化的不动点迭代找到独立成分。

基于到达时延的声源定位。假定一个以定速在空气中传播的声波，它到达位于不同位置的一对接收机的相位不同，根据接收机接收到的声音信号的相位差别，通过时延算法求得声音到各个接收端的时间差，进而求得声源位置。该定位算法有以下几个优点：一是设备要求不高；二是步骤简单，计算量小；二是方便与其它需要定位数据的系统结合。

中国专利文献CN104181506A公开了一种基于改进PHAT加权时延估计的声源定位方法，该系统由麦克风阵列采集4路声音信号，通过A/D采样电路转化为数字信号，并通过改进的PHAT加权广义互相关函数法进行时延估计算法处理，获得时延估计值，再结合放置的麦克风阵列空间位置，利用迭代法解非线性方程组，从而得到声源的相对位置。但是，该专利所述系统不能辨识多个声源，也不能分辨带有方向性的噪声。

中国专利文献CN 104614069A公开了基于联合近似对角化盲源分离算法的电力设备故障音检测方法，具体步骤包括：(1)采用麦克风阵列；(2)采用基于联合近似对角化盲源分离算法针对步骤(1)采用麦克风阵列采集的声音信号分离各个独立声源信号；(3)提取独立声源信号的Mel频率倒谱系数MFCC作为声音特征参数，通过模式匹配算法识别声音信号，将待测试声音模板与所有的参考样本模板进行匹配后，匹配距离最小的参考样本模板就是电力设备工作音识别的结果。但是该专利采用的联合近似对角化算法的性能受协方差矩阵数量的影响较大，当矩阵的数量越大时，运算越复杂。

发明内容

为了克服现有声源定位方法中不能辨识多个声源的不足，本发明提出了一种基于渐进串行正交化盲源分离算法的改进声源定位方法；

本发明还提出了上述改进声源定位方法的实现系统。

本发明的技术方案为：

一种基于渐进串行正交化盲源分离算法的改进声源定位方法，包括步骤如下：

(1)通过麦克风阵列采集声音信号并存储；

(2)采用基于渐进串行正交化盲源分离算法对步骤(1)采集到的声音信号分离，得到各个独立声源信号；

(3)对步骤(2)得到的每个独立声源信号，提取梅尔频率倒谱系数(MFCC)作为声音特征参数，通过模式匹配算法识别声音信号，选取需要定位的声音的独立声源信号；

(4)根据步骤(3)中模式匹配的结果，如果为单一声源，则进入步骤(5)；如果为多个声源，则通过TDOA算法计算时延，求解声源位置；

(5)先粗定位：求取信号的包络，低分辨率采样，通过广义自相关函数法粗略计算时延，根据粗略定位的点数对信号进行时域搬移；再细定位：高分辨率采样，通过广义自相关函数法计算时延，得到精确时延，求解声源位置。

传统的TDOA算法中，时延估计的精度受到采样频率的限制，所需精度越高，所需采样频率就越高，对于相同的采样时长，高采样频率带来极高的采样点数，算法的运算量也就越大。粗定位细定位算法中，先采用低分辨率对信号进行一定的时域搬移，再采用高分辨率进行高精度时延校准。较于低分辨率采样的传统算法，此种算法可以达到高分辨率采样的计算精度；较于高分辨率采样的传统算法，此算法因进行过一次时域搬移，在高精度校准时只需较短的有效时长即可将时延计算出来，减少了算法运算量；基于上述原理，该算法可以解决采样MIC之间的距离限制，当时延超出有效时长的距离时，只需进行一次粗定位时域搬移，即可计算精确时延。

根据本发明优选的，根据所述步骤(5)得到精确时延，包括步骤如下：

A、设定通过步骤(3)获取4路声音信号，即x₁(t)、x₂(t)、x₃(t)、x₄(t)，t为数字信号中采样点的序号，长度为N，将4路声音信号进行加窗滤波处理，消除噪声；

B、对4路信号进行包络提取，只取包络的上半部分为有效信号，以Fs/n的频率进行抽点采样，得x′₁(t)、x′₂(t)、x′₃(t)、x′₄(t)，Fs为盲源分离时的采样频率，n为大于1的整数；

C、对x′₁(t)、x′₂(t)、x′₃(t)、x′₄(t)进行傅立叶变换到频域，即X′₁(k)、X′₂(k)、X′₃(k)、X′₄(k)，其中k为与t对应的数字信号中采样点的序号，t、k均为整数；

D、将x′₁(t)作为基准信号，分别计算X′₁(k)与X′₂(k)、X′₁(k)与X′₃(k)、X′₁(k)与X′₄(k)的互功率谱G′₁₂(k)、G′₁₃(k)、G′₁₄(k),对互功率谱G′₁₂(k)、G′₁₃(k)、G′₁₄(k)进行PHAT加权操作，如式(Ⅰ)、式(Ⅱ)、式(Ⅲ)所示：

式(Ⅰ)、式(Ⅱ)、式(Ⅲ)中，

为X′₁(k)的共轭；

E、将互功率谱G′₁₂(k)、G′₁₃(k)、G′₁₄(k)逆变换到频域，得到对应的广义互相关函数R′₁₂(t)、R′₁₃(t)、R′₁₄(t)；当R′₁₂(t)、R′₁₃(t)、R′₁₄(t)分别取最大值时n所对应的时延即为3路声音信号x′₂(t)、x′₃(t)、x′₄(t)与基准信号x′₁(t)的时延估计t′₁₂、t′₁₃、t′₁₄；

设R′_1s(t)取最大值时t的值为n′_1s，s＝2、3、4，所取声音信号的点数为N′＝fix(N/n)，采样频率为Fs/n，若n′_1s>N′/2,则n′_1s更新为n′_1s-N′-1；若n′_1s≤N′/2，则n′_1s不变；由此计算得到n′₁₂、n′₁₃、n′₁₄；

F、若n′_1s≥0，将x₁(t)在时域上向左平移n′_1s*n个点；若n′_1s<0,x_s(t)在时域上向右平移n′_1s*n个点；

取x₁(t)、x_s(t)前N₁个点信号为z(t)、z_s(t)，N₁为大于2n小于N的整数；N₁为信号长度，Fs为采样频率；

按照步骤C-E采用广义自相关求取精确时延点数n″₁₂，即将信号z₁(t)、z₂(t)傅立叶变换到频域，PHAT加权计算互功率谱，然后傅立叶反变换到时域求得互相关函数，取互相关最大时点数所对应的时间为两路的时延估计n″₁₃，n″₁₃和n″₁₄与n″₁₂计算方法一致；

G、则x₁(t)、x₂(t)的时延

同理

根据本发明优选的，所述步骤(4)，如果为多个声源，则通过TDOA算法计算时延，包括步骤如下：

a、步骤(2)获取需要进行定位的独立分量为y_i(t)，i为整数且1≤i≤4，t为数字信号中采样点的序号，将y_i(t)、x₁(t)、x₂(t)、x₃(t)、x₄(t)这5路信号进行加窗滤波处理，再经傅立叶变换到频域，得到频域信号Y_i(k)、X₁(k)、X₂(k)、X₃(k)、X₄(k)，k为与t对应的数字信号采样点的序号；

b、将独立分量y_i(t)作为基准信号，分别计算Y_i(k)与X₁(k)、Y_i(k)与X₂(k)、Y_i(k)与X₃(k)、Y_i(k)与X₄(k)的互功率谱，即G_i1(k)、G_i2(k)、G_i3(k)、G_i4(k)，对互功率谱G_i1(k)、G_i2(k)、G_i3(k)、G_i4(k)进行PHAT加权操作，如式(Ⅳ)、(Ⅴ)、(Ⅵ)、(Ⅶ)所示：

式(Ⅳ)、(Ⅴ)、(Ⅵ)、(Ⅶ)中，

为Y_i(k)的共轭，

为PHAT函数；

c、将互功率谱G_i1(k)、G_i2(k)、G_i3(k)、G_i4(k)逆变换到频域，得到对应的广义互相关函数R_i1(n)、R_i2(n)、R_i3(n)、R_i4(n)，当R_i1(n)、R_i2(n)、R_i3(n)、R_i4(n)分别取最大值时，n所对应的时延即为4路声音信号x₁(t)、x₂(t)、x₃(t)、x₄(t)与基准信号y_i(t)的时延估计t_i1、t_i2、t_i3、t_i4，设R_i1(n)取最大值时的n的值为n_i1，所取声音信号的点数为N，采样频率为Fs，若n_i1＞N/2，则

若n_i1≤N/2，则

t_i2、t_i3、t_i4的计算与t_i1的计算方法一致；

设R_i2(n)取最大值时的n的值为n_i2，所取声音信号的点数为N，采样频率为Fs，若n_i2＞N/2，则

若n_i2≤N/2，则

设R_i3(n)取最大值时的n的值为n_i3，所取声音信号的点数为N，采样频率为Fs，若n_i3＞N/2，则

若n_i3≤N/2，则

设R_i4(n)取最大值时的n的值为n_i4，所取声音信号的点数为N，采样频率为Fs，若n_i4＞N/2，则

若n_i4≤N/2，则

d、将t_i1作为基准延时，则t₁₂＝t_i1-t_i2表示x₁(t)相对于x₂(t)的延时，t₁₃＝t_i1-t_i3表示x₁(t)相对于x₃(t)的延时，t₁₄＝t_i1-t_i4表示x₁(t)相对于x₄(t)的延时，得到x₁(t)相对于x₂(t)、x₃(t)、x₄(t)的延时t₁₂、t₁₃、t₁₄。

根据本发明优选的，所述步骤(4)、(5)中，求解声源位置，包括：设定声源位置坐标为(x，y，z)，得到延时参数以后，通过式(Ⅷ)求取声源位置坐标：

求得声源的位置坐标(x，y，z)，式中，t₁₂、t₁₃、t₁₄为三路之间的延时值，v为声音在空气中的速度。

根据本发明优选的，所述麦克风阵列为：在三维直角坐标系下选择(0,0,0),(a,0,0),(0,a,0),(0,0,a)四个位置摆放麦克风，得到所述麦克风阵列，a为固定参数，表示三个坐标(a,0,0),(0,a,0),(0,0,a)到坐标系原点(0,0,0)位置麦克风的距离。

根据本发明优选的，所述步骤(1)，通过麦克风阵列采集的声音信号即混合声音信号x(t)，x(t)＝[x₁(t),x₂(t),x₃(t),x₄(t)]，x₁(t)、x₂(t)、x₃(t)、x₄(t)分别如式(Ⅸ)、(Ⅹ)、(Ⅺ)、(Ⅻ)所示：

x₁(t)＝a₁₁s₁+a₁₂s₂+a₁₃s₃+a₁₄s₄ (Ⅸ)

x₂(t)＝a₂₁s₁+a₂₂s₂+a₂₃s₃+a₂₄s₄ (Ⅹ)

x₃(t)＝a₃₁s₁+a₃₂s₂+a₃₃s₃+a₃₄s₄ (Ⅺ)

x₄(t)＝a₄₁s₁+a₄₂s₂+a₄₃s₃+a₄₄s₄ (Ⅻ)

式(Ⅰ)中，s₁,s₂,s₃,s₄为4个独立声源发出的声音信号，a_ij(i＝1,2,3,4；j＝1,2,3,4)是实系数。

根据本发明所优选的，步骤(2)中，采用基于渐进串行正交化盲源分离算法对步骤(1)采集到的声音信号分离，得到各个独立声源信号；包括步骤如下：

①采用麦克风阵列采集到环境声音，取出同一时间段内的4路声音信号进行中心化处理，即去均值处理，去均值后得到信号

通过式(XIII)求得：

②对去均值后的声音信号

进行白化处理，即对

进行线性变换V，得到白化信号z(t)：

白化处理采用主分量分析方法，对信号进行去相关和缩放，线性白化变换V如式(XV)所示：

式(XV)中，矩阵E以协方差矩阵

的单位范数特征向量为列，D＝diag(d₁,d₂,d₃,d₄)是以C的特征值为对角元素的特征矩阵；

③计算观测信号z(t)的独立成分个数，记为m，且m≤4；因为步骤a中麦克风阵列由4个麦克风组成，采集4组声音信号，根据盲源分离原理，独立分量数目不大于观测信号数目。

选择具有单位范数的初始化向量w_p,p＝1,2,…,m，令p＝1；

④对w_p进行如式(XVI)所示的迭代运算：

式(XVI)中，函数g为g₁(y)、g₂(y)或g₃(y)；g₁(y)＝tanh(a₁y)，g₂(y)＝y*exp(-y^2/2)，g₃(y)＝y^3；

⑤对步骤④中迭代后的w_p进行正交化和标准化，正交化方法如式(XVII)所示：

对w_p标准化，即除以其范数，如式(XVIII)所示：

w_p＝w_p/norm(w_p) (XVIII)

⑥对步骤⑤中标准化后的w_p进行检测，看其是否收敛，如果尚未收敛，则返回步骤④；

⑦p更新为p+1，如果p≤m，返回步骤④，否则，进入步骤⑧；

⑧通过步骤③～⑦的循环计算，得到解混矩阵W＝{w₁,w₂,…,w_m}^T，m≤4；由式(XIX)得到源信号y(t):

y(t)＝Wx(t) (XIX)

式(XIX)中，y(t)＝[y₁(t),y₂(t),…y_i(t)…,y_m(t)]，i＝1,2,…,m，分别为麦克风阵列采集声音信号经过盲源分离后得到的m个独立分量，即独立声源信号。

根据本发明优选的，所述步骤(3)，对得到的每个独立声源信号，提取梅尔频率倒谱系数(MFCC) 作为声音特征参数，通过模式匹配算法识别声音信号，选取需要定位的声音的独立声源信号；包括步骤如下：

⑨对步骤⑧中分离出的源信号y(t)进行如下处理：

对源信号y(t)做预加重处理，即将源信号y(t)通过一个高通滤波器,该高通滤波器的传递函数为；H(z)＝1-μz^-1，0.9≤μ≤1.0；

对预加重处理后的源信号y(t)做分帧处理，帧长为10ms-30ms，帧移为帧长的1/2-1/3；可以避免帧与帧之间的特性变化过大；

对每帧信号做加窗处理，可以增加帧左端和右端的连续性，窗函数为汉明窗，公式为

⑩对步骤⑨处理后的每帧信号进行快速傅立叶(FFT)变换，将信号从时域转到频域，得到信号的频谱，再取模的平方作为离散功率谱S(k)；

将每帧的频谱参数通过梅尔刻度滤波器，梅尔刻度滤波器包括V个三角形带通滤波器，20≤V≤30，得到V个参数P_v，v＝0,1,…,v-1；将每个频带的输出取对数，得到L_v，v＝0,1,…,v-1；将得到的V个参数进行离散余弦变换，得到D_v，v＝0,1,…,v-1；去掉D₀，取D₁，D₂，…，D_k作为MFCC的参数；

通过动态时间规整DTW算法进行声音识别，包括：

步骤

中的声音信号分了p帧矢量，即{T(1):T(2):…:T(n)…:T(p)},T(n)为第n帧的语音特征矢量，1≤n≤p，参考样本中有q帧矢量，即{R(1):R(2):…:R(m)…:R(q)}，R(m)为第m帧的语音特征矢量，1≤m≤q，则动态时间规整DTW算法利用时间规整函数j＝w(i)完成待测试矢量与模板矢量时间轴的映射，且规整函数w满足式(XX)：

在式(XX)中，d[T(i),R(w(j))]是待测试矢量T(i)与参考模板矢量R(j)之间的距离；T(i)表示T中第i帧的语音特征矢量；R(w(j))表示R中第j帧的语音特征矢量；D表示待测试矢量与参考样本矢量之间的最小距离；

利用DTW将待测试声音模板与所有参考样本模板进行匹配后，匹配距离最小的参考样本模板就是独立分量识别的结果，当4路待测试声音匹配的距离最小时所用参考模板为同一个参考模板时，则麦克风阵列信号采集的4路信号为单一声源，麦克风阵列信号采集的4路信号为多个声源。即可根据要求选取需要定位的独立声源信息。

一种实现上述声源定位方法的实现系统，包括4个麦克风与电压放大抬高电路模块、存储模块、算法处理和系统控制模块以及显示模块，所述4个麦克风与电压放大抬高电路模块均连接所述存储模块，所述存储模块、所述算法处理和系统控制模块、所述显示模块依次连接；

所述4个麦克风与电压放大抬高电路模块实时获取声音信号；所述存储模块用于存储获取的声音信号和时间信号；所述算法处理和系统控制模块通过基于渐进串行正交化盲源分离算法分离采集到的混合声音信号，通过选择TDOA声音定位算法计算时延，并列出方程组求解出声源位置；所述显示模块用于显示声源位置。

根据本发明优选的，所述算法处理和系统控制模块为STM32开发平台；所述显示模块为液晶显示屏。

本发明的有益效果为：

1、本发明采用TDOA算法计算延时求得声源位置，当分离信号为多声源时，将分离的目标信号直接与混合信号相关计算时延，运算量小，计算速度快；当采集信号为单声源时，采用改进的TDOA算法进行时延计算，可以在一定程度上提高精度，并减少算法运算量。

2、本发明采用无源定位方法，被动式原理，功耗小。

3、本发明将盲源分离与声源定位结合起来，弥补以往声源定位不能辨识多个声源的不足。

附图说明

图1为本发明基于渐进串行正交化盲源分离算法的改进声源定位方法的实现系统的结构框图。

图2为本发明基于渐进串行正交化盲源分离算法的改进声源定位方法中的流程示意图。

图3为本发明改进TDOA算法的流程示意图。

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例1

一种基于渐进串行正交化盲源分离算法的改进声源定位方法，如图2所示，包括步骤如下：

(1)通过麦克风阵列采集声音信号并存储；麦克风阵列为：在三维直角坐标系下选择(0,0,0),(a,0,0),(0,a,0),(0,0,a)四个位置摆放麦克风，得到所述麦克风阵列，a为固定参数，表示三个坐标(a,0,0),(0,a,0),(0,0,a)到坐标系原点(0,0,0)位置麦克风的距离。通过麦克风阵列采集的声音信号即混合声音信号x(t)，x(t)＝[x₁(t),x₂(t),x₃(t),x₄(t)]，x₁(t)、x₂(t)、x₃(t)、x₄(t)分别如式(Ⅸ)、(Ⅹ)、(Ⅺ)、(Ⅻ)所示：

x₁(t)＝a₁₁s₁+a₁₂s₂+a₁₃s₃+a₁₄s₄ (Ⅸ)

x₂(t)＝a₂₁s₁+a₂₂s₂+a₂₃s₃+a₂₄s₄ (Ⅹ)

x₃(t)＝a₃₁s₁+a₃₂s₂+a₃₃s₃+a₃₄s₄ (Ⅺ)

x₄(t)＝a₄₁s₁+a₄₂s₂+a₄₃s₃+a₄₄s₄ (Ⅻ)

(2)采用基于渐进串行正交化盲源分离算法对步骤(1)采集到的声音信号分离，得到各个独立声源信号；对复杂环境下的声音定位，使用声源分离技术，可以从环境混合声音信号中将目标声源提取出来，从而可以提高复杂环境下声音定位的准确度。

实施例2

根据实施例1所述的一种基于渐进串行正交化盲源分离算法的改进声源定位方法，其区别在于，根据步骤(5)得到精确时延，如图3所示，求解声源位置，包括步骤如下：

式(Ⅰ)、式(Ⅱ)、式(Ⅲ)中，

为X′₁(k)的共轭；

G、则x₁(t)、x₂(t)的时延

同理

H、设定独立声源坐标为(x，y，z)，得到延时参数以后，通过式(Ⅷ)求取声源坐标：

实施例3

根据实施例1所述的一种基于渐进串行正交化盲源分离算法的改进声源定位方法，其区别在于，所述步骤(4)，如果为多个声源，则通过TDOA算法计算时延，求解声源位置，包括步骤如下：

式(Ⅳ)、(Ⅴ)、(Ⅵ)、(Ⅶ)中，

为Y_i(k)的共轭，

为PHAT函数；

若n_i1≤N/2，则

t_i2、t_i3、t_i4的计算与t_i1的计算方法一致；

若n_i2≤N/2，则

若n_i3≤N/2，则

若n_i4≤N/2，则

实施例4

根据实施例1所述的一种基于渐进串行正交化盲源分离算法的改进声源定位方法，其区别在于，步骤(2)中，采用基于渐进串行正交化盲源分离算法对步骤(1)采集到的声音信号分离，得到各个独立声源信号；包括步骤如下：

通过式(XIII)求得：

②对去均值后的声音信号

进行白化处理，即对

进行线性变换V，得到白化信号z(t)：

式(XV)中，矩阵E以协方差矩阵

选择具有单位范数的初始化向量w_p,p＝1,2,…,m，令p＝1；

④对w_p进行如式(XVI)所示的迭代运算：

式(XVI)中，函数g为g₁(y)、g₂(y)或g₃(y)；g₁(y)＝tanh(a₁y)，g₂(y)＝y*exp(-y^2/2)， g₃(y)＝y^3；

对w_p标准化，即除以其范数，如式(XVIII)所示：

w_p＝w_p/norm(w_p) (XVIII)

⑦p更新为p+1，如果p≤m，返回步骤④，否则，进入步骤⑧；

y(t)＝Wx(t) (XIX)

实施例5

根据实施例1所述的一种基于渐进串行正交化盲源分离算法的改进声源定位方法，其区别在于，所述步骤(3)，对得到的每个独立声源信号，提取梅尔频率倒谱系数(MFCC)作为声音特征参数，通过模式匹配算法识别声音信号，选取需要定位的声音的独立声源信号；包括步骤如下：

⑨对步骤⑧中分离出的源信号y(t)进行如下处理：

将每帧的频谱参数通过梅尔刻度滤波器，梅尔刻度滤波器包括V个三角形带通滤波器，20≤V≤30，得到V个参数P_v，v＝0,1,…,v-1；将每个频带的输出取对数，得到L_v，v＝0,1,…,v-1；将得到的V个参数进行离散余弦变换，得到D_v，v＝0,1,…,v-1；去掉D₀，取D₁，D₂，…，D_k作为MFCC 的参数；

通过动态时间规整DTW算法进行声音识别，包括：

步骤

实施例6

一种实现实施例1-5任一所述的一种基于渐进串行正交化盲源分离算法的改进声源定位方法上述声源定位方法的实现系统，如图1所示，包括4个麦克风与电压放大抬高电路模块、存储模块、算法处理和系统控制模块以及显示模块，4个麦克风与电压放大抬高电路模块均连接存储模块，存储模块、算法处理和系统控制模块、显示模块依次连接；

4个麦克风与电压放大抬高电路模块实时获取声音信号；存储模块用于存储获取的声音信号和时间信号；算法处理和系统控制模块通过基于渐进串行正交化盲源分离算法分离采集到的混合声音信号，通过选择TDOA声音定位算法计算时延，并列出方程组求解出声源位置；显示模块用于显示声源位置。

算法处理和系统控制模块为STM32开发平台；显示模块为液晶显示屏。

Claims

一种基于渐进串行正交化盲源分离算法的改进声源定位方法，其特征在于，包括步骤如下：

(1)通过麦克风阵列采集声音信号并存储；

(2)采用基于渐进串行正交化盲源分离算法对步骤(1)采集到的声音信号分离，得到各个独立声源信号；

(3)对步骤(2)得到的每个独立声源信号，提取梅尔频率倒谱系数作为声音特征参数，通过模式匹配算法识别声音信号，选取需要定位的声音的独立声源信号；

(4)根据步骤(3)中模式匹配的结果，如果为单一声源，则进入步骤(5)；如果为多个声源，则通过TDOA算法计算时延，求解声源位置；

(5)先粗定位：求取信号的包络，低分辨率采样，通过广义自相关函数法粗略计算时延，根据粗略定位的点数对信号进行时域搬移；再细定位：高分辨率采样，通过广义自相关函数法计算时延，得到精确时延，求解声源位置。
根据权利要求1所述的一种基于渐进串行正交化盲源分离算法的改进声源定位方法，其特征在于，根据所述步骤(5)得到精确时延，包括步骤如下：

A、设定通过步骤(3)获取4路声音信号，即x₁(t)、x₂(t)、x₃(t)、x₄(t)，t为数字信号中采样点的序号，长度为N，将4路声音信号进行加窗滤波处理，消除噪声；

B、对4路信号进行包络提取，只取包络的上半部分为有效信号，以Fs/n的频率进行抽点采样，得x′₁(t)、x′₂(t)、x′₃(t)、x′₄(t)，Fs为盲源分离时的采样频率，n为大于1的整数；

C、对x′₁(t)、x′₂(t)、x′₃(t)、x′₄(t)进行傅立叶变换到频域，即X′₁(k)、X′₂(k)、X′₃(k)、X′₄(k)，其中k为与t对应的数字信号中采样点的序号，t、k均为整数；

D、将x′₁(t)作为基准信号，分别计算X′₁(k)与X′₂(k)、X′₁(k)与X′₃(k)、X′₁(k)与X′₄(k)的互功率谱G′₁₂(k)、G′₁₃(k)、G′₁₄(k),对互功率谱G′₁₂(k)、G′₁₃(k)、G′₁₄(k)进行PHAT加权操作，如式(Ⅰ)、式(Ⅱ)、式(Ⅲ)所示：

式(Ⅰ)、式(Ⅱ)、式(Ⅲ)中，
为X′₁(k)的共轭；

E、将互功率谱G′₁₂(k)、G′₁₃(k)、G′₁₄(k)逆变换到频域，得到对应的广义互相关函数R′₁₂(t)、R′₁₃(t)、R′₁₄(t)；当R′₁₂(t)、R′₁₃(t)、R′₁₄(t)分别取最大值时n所对应的时延即为3路声音信号x′₂(t)、x′₃(t)、x′₄(t)与基准信号x′₁(t)的时延估计t′₁₂、t′₁₃、t′₁₄；

设R′_1s(t)取最大值时t的值为n′_1s，s＝2、3、4，所取声音信号的点数为N′＝fix(N/n)，采样频率为Fs/n，若n′_1s>N′/2,则n′_1s更新为n′_1s-N′-1；若n′_1s≤N′/2，则n′_1s不变；由此计算得到n′₁₂、n′₁₃、n′₁₄；

F、若n′_1s≥0，将x₁(t)在时域上向左平移n′_1s*n个点；若n′_1s<0,x_s(t)在时域上向右平移n′_1s*n个点；

取x₁(t)、x_s(t)前N₁个点信号为z(t)、z_s(t)，N₁为大于2n小于N的整数；N₁为信号长度，Fs为采样频率；

按照步骤C-E采用广义自相关求取精确时延点数n″₁₂，即将信号z₁(t)、z₂(t)傅立叶变换到频域，PHAT加权计算互功率谱，然后傅立叶反变换到时域求得互相关函数，取互相关最大时点数所对应的时间为两路的时延估计n″₁₃，n″₁₃和n″₁₄与n″₁₂计算方法一致；

G、则x₁(t)、x₂(t)的时延
同理
根据权利要求1所述的一种基于渐进串行正交化盲源分离算法的改进声源定位方法，其特征在于，所述步骤(4)，如果为多个声源，则通过TDOA算法计算时延，包括步骤如下：

a、设定步骤(2)获取需要进行定位的独立分量为y_i(t)，i为整数且1≤i≤4，t为数字信号中采样点的序号，将y_i(t)、x₁(t)、x₂(t)、x₃(t)、x₄(t)这5路信号进行加窗滤波处理，再经傅立叶变换到频域，得到频域信号Y_i(k)、X₁(k)、X₂(k)、X₃(k)、X₄(k)，k为与t对应的数字信号采样点的序号；

b、将独立分量y_i(t)作为基准信号，分别计算Y_i(k)与X₁(k)、Y_i(k)与X₂(k)、Y_i(k)与X₃(k)、Y_i(k)与X₄(k)的互功率谱，即G_i1(k)、G_i2(k)、G_i3(k)、G_i4(k)，对互功率谱G_i1(k)、G_i2(k)、G_i3(k)、G_i4(k)进行PHAT加权操作，如式(Ⅳ)、(Ⅴ)、(Ⅵ)、(Ⅶ)所示：

式(Ⅳ)、(Ⅴ)、(Ⅵ)、(Ⅶ)中，
为Y_i(k)的共轭，
为PHAT函数；

c、将互功率谱G_i1(k)、G_i2(k)、G_i3(k)、G_i4(k)逆变换到频域，得到对应的广义互相关函数R_i1(n)、R_i2(n)、R_i3(n)、R_i4(n)，当R_i1(n)、R_i2(n)、R_i3(n)、R_i4(n)分别取最大值时，n所对应的时延即为4路声音信号x₁(t)、x₂(t)、x₃(t)、x₄(t)与基准信号y_i(t)的时延估计t_i1、t_i2、t_i3、t_i4，设R_i1(n)取最大值时的n的值为n_i1，所取声音信号的点数为N，采样频率为Fs，若n_i1＞N/2，则
若n_i1≤N/2，则

设R_i2(n)取最大值时的n的值为n_i2，所取声音信号的点数为N，采样频率为Fs，若n_i2＞N/2，则
若n_i2≤N/2，则

设R_i3(n)取最大值时的n的值为n_i3，所取声音信号的点数为N，采样频率为Fs，若n_i3＞N/2，则
若n_i3≤N/2，则

设R_i4(n)取最大值时的n的值为n_i4，所取声音信号的点数为N，采样频率为Fs，若n_i4＞N/2，则
若n_i4≤N/2，则

d、将t_i1作为基准延时，则t₁₂＝t_i1-t_i2表示x₁(t)相对于x₂(t)的延时，t₁₃＝t_i1-t_i3表示x₁(t)相对于x₃(t)的延时，t₁₄＝t_i1-t_i4表示x₁(t)相对于x₄(t)的延时，得到x₁(t)相对于x₂(t)、x₃(t)、x₄(t)的延时t₁₂、t₁₃、t₁₄。
根据权利要求2或3所述的一种基于渐进串行正交化盲源分离算法的改进声源定位方法，其特征在于，所述步骤(4)、(5)中，求解声源位置，包括：设定声源位置坐标为(x，y，z)，得到延时参数以后，通过式(Ⅷ)求取声源位置坐标：

求得声源的位置坐标(x，y，z)，式中，t₁₂、t₁₃、t₁₄为三路之间的延时值，v为声音在空气中的速度。
根据权利要求1所述的一种基于渐进串行正交化盲源分离算法的改进声源定位方法，其特征在于，所述麦克风阵列为：在三维直角坐标系下选择(0,0,0),(a,0,0),(0,a,0),(0,0,a)四个位置摆放麦克风，得到所述麦克风阵列，a为固定参数，表示三个坐标(a,0,0),(0,a,0),(0,0,a)到坐标系原点(0,0,0)位置麦克风的距离。
根据权利要求1所述的一种基于渐进串行正交化盲源分离算法的改进声源定位方法，其特征在于，所述步骤(1)，通过麦克风阵列采集的声音信号即混合声音信号x(t)，x(t)＝[x₁(t),x₂(t),x₃(t),x₄(t)]，x₁(t)、x₂(t)、x₃(t)、x₄(t)分别如式(Ⅸ)、(Ⅹ)、(Ⅺ)、(Ⅻ)所示：

x₁(t)＝a₁₁s₁+a₁₂s₂+a₁₃s₃+a₁₄s₄ (Ⅸ)

x₂(t)＝a₂₁s₁+a₂₂s₂+a₂₃s₃+a₂₄s₄ (Ⅹ)

x₃(t)＝a₃₁s₁+a₃₂s₂+a₃₃s₃+a₃₄s₄ (Ⅺ)

x₄(t)＝a₄₁s₁+a₄₂s₂+a₄₃s₃+a₄₄s₄(Ⅻ)

式(Ⅰ)中，s₁,s₂,s₃,s₄为4个独立声源发出的声音信号，a_ij(i＝1,2,3,4；j＝1,2,3,4)是实系数。
根据权利要求6所述的一种基于渐进串行正交化盲源分离算法的改进声源定位方法，其特征在于，步骤(2)中，采用基于渐进串行正交化盲源分离算法对步骤(1)采集到的声音信号分离，得到各个独立声源信号；包括步骤如下：

①采用麦克风阵列采集到环境声音，取出同一时间段内的4路声音信号进行中心化处理，即去均值处理，去均值后得到信号
通过式(XIII)求得：

②对去均值后的声音信号
进行白化处理，即对
进行线性变换V，得到白化信号z(t)：

白化处理采用主分量分析方法，对信号进行去相关和缩放，线性白化变换V如式(XV)所示：

式(XV)中，矩阵E以协方差矩阵
的单位范数特征向量为列，D＝diag(d₁,d₂,d₃,d₄)是以C的特征值为对角元素的特征矩阵；

③计算观测信号z(t)的独立成分个数，记为m，且m≤4；

选择具有单位范数的初始化向量w_p,p＝1,2,…,m，令p＝1；

④对w_p进行如式(XVI)所示的迭代运算：

式(XVI)中，函数g为g₁(y)、g₂(y)或g₃(y)；g₁(y)＝tanh(a₁y)，g₂(y)＝y*exp(-y^2/2)，g₃(y)＝y^3；

⑤对步骤④中迭代后的w_p进行正交化和标准化，正交化方法如式(XVII)所示：

对w_p标准化，即除以其范数，如式(XVIII)所示：

w_p＝w_p/norm(w_p) (XVIII)

⑥对步骤⑤中标准化后的w_p进行检测，看其是否收敛，如果尚未收敛，则返回步骤④；

⑦p更新为p+1，如果p≤m，返回步骤④，否则，进入步骤⑧；

⑧通过步骤③～⑦的循环计算，得到解混矩阵W＝{w₁,w₂,…,w_m}^T，m≤4；由式(XIX)得到源信号y(t):

y(t)＝Wx(t) (XIX)

式(XIX)中，y(t)＝[y₁(t),y₂(t),…y_i(t)…,y_m(t)]，i＝1,2,…,m，分别为麦克风阵列采集声音信号经过盲源分离后得到的m个独立分量，即独立声源信号。
根据权利要求7所述的一种基于渐进串行正交化盲源分离算法的改进声源定位方法，其特征在于，所述步骤(3)，对得到的每个独立声源信号，提取梅尔频率倒谱系数作为声音特征参数，通过模式匹配算法识别声音信号，选取需要定位的声音的独立声源信号；包括步骤如下：

⑨对步骤⑧中分离出的源信号y(t)进行如下处理：

对源信号y(t)做预加重处理，即将源信号y(t)通过一个高通滤波器,该高通滤波器的传递函数为；H(z)＝1-μz^-1，0.9≤μ≤1.0；

对预加重处理后的源信号y(t)做分帧处理，帧长为10ms-30ms，帧移为帧长的1/2-1/3；

对每帧信号做加窗处理，窗函数为汉明窗，公式为

⑩对步骤⑨处理后的每帧信号进行快速傅立叶变换，将信号从时域转到频域，得到信号的频谱，再取模的平方作为离散功率谱S(k)；

将每帧的频谱参数通过梅尔刻度滤波器，梅尔刻度滤波器包括V个三角形带通滤波器，20≤ V≤30，得到V个参数P_v，v＝0,1,…,v-1；将每个频带的输出取对数，得到L_v，v＝0,1,…,v-1；将得到的V个参数进行离散余弦变换，得到D_v，v＝0,1,…,v-1；去掉D₀，取D₁，D₂，…，D_k作为MFCC的参数；

通过动态时间规整DTW算法进行声音识别，包括：

步骤
中的声音信号分了p帧矢量，即{T(1):T(2):…:T(n)…:T(p)},T(n)为第n帧的语音特征矢量，1≤n≤p，参考样本中有q帧矢量，即{R(1):R(2):…:R(m)…:R(q)}，R(m)为第m帧的语音特征矢量，1≤m≤q，则动态时间规整DTW算法利用时间规整函数j＝w(i)完成待测试矢量与模板矢量时间轴的映射，且规整函数w满足式(XX)：

在式(XX)中，d[T(i),R(w(j))]是待测试矢量T(i)与参考模板矢量R(j)之间的距离；T(i)表示T中第i帧的语音特征矢量；R(w(j))表示R中第j帧的语音特征矢量；D表示待测试矢量与参考样本矢量之间的最小距离；

利用DTW将待测试声音模板与所有参考样本模板进行匹配后，匹配距离最小的参考样本模板就是独立分量识别的结果，当4路待测试声音匹配的距离最小时所用参考模板为同一个参考模板时，则麦克风阵列信号采集的4路信号为单一声源，麦克风阵列信号采集的4路信号为多个声源。
一种实现权利要求1或权利要求4-8任一所述的一种基于渐进串行正交化盲源分离算法的改进声源定位方法的实现系统，其特征在于，包括4个麦克风与电压放大抬高电路模块、存储模块、算法处理和系统控制模块以及显示模块，所述4个麦克风与电压放大抬高电路模块均连接所述存储模块，所述存储模块、所述算法处理和系统控制模块、所述显示模块依次连接；

所述4个麦克风与电压放大抬高电路模块实时获取声音信号；所述存储模块用于存储获取的声音信号和时间信号；所述算法处理和系统控制模块通过基于渐进串行正交化盲源分离算法分离采集到的混合声音信号，通过选择TDOA声音定位算法计算时延，并列出方程组求解出声源位置；所述显示模块用于显示声源位置。
根据权利要求9所述的实现系统，所述算法处理和系统控制模块为STM32开发平台；所述显示模块为液晶显示屏。