WO2016176887A1

WO2016176887A1 - 基于声谱图双特征的动物声音识别方法

Info

Publication number: WO2016176887A1
Application number: PCT/CN2015/080284
Authority: WO
Inventors: 李应; 吴志彬
Original assignee: 福州大学
Priority date: 2015-05-06
Filing date: 2015-05-29
Publication date: 2016-11-10
Also published as: CN104882144A; CN104882144B

Abstract

一种基于声谱图双特征的动物声音识别方法，包括以下步骤：建立一声音样本库；采集待识别的声音信号；将预存声音样本及待识别的声音信号转化成声谱图；将声谱图进行规范化，并进行特征值分解和投影，转化成一投影特征X_K；将声谱图转化成等价LBP值矩阵ｕ，统计对应的像素与周围像素灰度值的方差，形成一特征向量LBPV；将投影特征X_K和特征向量LBPV结合，形成双层特征X_K+LBPV ；以所述声音样本库中预存声音样本对应的双层特征集为训练样本集，以待识别的声音信号对应的双层特征为输入样本，通过随机森林的训练，得出待识别的声音信号于声音样本库中对应的类别并输出结果。该方法改善了不同声音环境下各种低信噪比动物声音的识别率。

Description

基于声谱图双特征的动物声音识别方法

技术领域

本发明涉及一种基于声谱图双特征的动物声音识别方法。

背景技术

生态环境与我们的生活密切相关，生态环境下的动物叫声包含丰富的信息。通过对动物声音的识别，可以对其生活习性和分布做一定的了解与分析，从而可以有效地对其进行监控和保护。近年来，动物声音识别受到越来越多的关注。

动物声音识别，一般以声谱图、时间序列、Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)、声音库索引以及小波包分解为基础，通过支持向量机(Support Vector Machine,SVM)等分类识别。比较典型方法包括，基于声谱图相关系数(Spectrogram Correlation)识别动物声音，对平滑处理的声谱图使用边缘检测(‘edge’detector)提取特征进行露脊鲸(Right Whale)叫声检测，基于时间序列特征的动物声音识别，Mel频率倒谱系数结合支持向量机的鸟类声音分类等。此外，也借助于经典的基于文本(Text-based)数据库查询方法，采用基于索引(index-based)的动物声音检索，以及基于上下文变量(context variables)的动物声音检索。近期，Exadaktylos等通过声音识别确定动物的状态，用于畜牧业生产优化。Potamitis等提出在连续和真实的现场录音中，识别特定的鸟类声音。我们也在最近的工作中，提出经过自适应能量检测(AED)后，基于Mel尺度的小波包分解子带倒谱系数(MWSCC)特征和MFCC，结合支持向量机(SVM)的鸟声检测方法。

由于真实环境中存在各种各样的噪声，因此对动物声音的识别带来一定的挑战。尤其，实时获取的声音信号，当信噪比很低时，对动物声音的识别尤为困难。对于低信噪比情况下，声音信号的分析、分类和识别，目前已有一定的研究。对于低信噪比声音识别的特征，常见的有基于时间与频率相结合的特征和基于声谱图及其相关的特征。

关于时间与频率相结合的特征，主要有时间、频率特征，小波域特征，Gabor字典匹配追踪算法提取的特征等。近期的研究还包括，小波包(Wavelet Packets)过滤的低信噪比声音事件识别，基于高通滤波的MFCC扩展特征的声音事件识别，基于多个交叉超级帧的随机回归森林的声音事件识别和检测。其中，利用匹配追踪算法从Gabor字典中选择重要的原子，用主成分分析(PCA)和线性判别分析(LDA)确定声音事件的特征，最后采用SVM分类器进行分类识别，对于低信噪比声音事件的识别效果明显。

关于声谱图及其相关的特征，主要是声音信号经过短时傅里叶变换(Short-Time Fourier Transform,STFT)得到声谱图，借助图像特征，一些图像识别的方法可以用于低信噪比声音识别。如，Khunarsal等提出利用声谱图模式匹配结合前馈神经网络和k近邻(k-NN)的环境声音分类方法。我们也对声谱图提取灰度共生矩阵特征，并结合随机森林分类器识别鸟类声音。在非平稳的噪声环境中，Duan等提出基于非负声谱图分解(non-negative spectrogram decomposition)的声音增强算法。Dennis等提出基于声谱图特征的声音事件识别方法。Czarnecki和Moszyński使用集中摄谱(Concentrated Spectrograph)的方法进行声音信号的时频分析。Dennis等提出局部声谱图特征(Local Spectrogram Features)使用广义的霍夫变换(Generalised Hough Transform)投票系统识别重叠的声音事件。McLoughlin等提出谱图基于图像的前端特征(Spectrogram Image-based Front End Features)使用SVM和深度神经网络分离器(Deep Neural Network)分类器分类声音事件。尤其，Dennis等提出的子带功率分布(sub-band power distribution,SPD)特征，在谱图中将可靠的声音事件与噪声分开，并用最近邻居分类器(kNN)对特征进行识别。这种方法能在信噪比低至0dB时，也可能识别相关的声音事件。然而，对于不同的声音环境，对于各种低信噪比声音信号，整体识别精度依然很低。

发明内容

本发明的目的在于提供一种基于声谱图双特征的动物声音识别方法，改善不同声音环境下各种低信噪比动物声音的识别率。

为实现上述目的，本发明采用如下技术方案：一种基于声谱图双特征的动物声音识别方法，其特征在于包括以下步骤：

步骤S1：建立一声音样本库，用以预存声音样本；

步骤S2：采集待识别的声音信号；

步骤S3：将所述预存声音样本及待识别的声音信号转化成声谱图；

步骤S4：将所述声谱图进行规范化，并对所述规范化后的声谱图进行特征值分解和投影，将其转化得到一投影特征X_K；

步骤S5：将所述声谱图转化成等价LBP值矩阵u，统计每一个等价LBP值对应的像素与周围像素灰度值的方差，形成一特征向量LBPV；

步骤S6：将所述投影特征X_K和特征向量LBPV结合，形成双层特征X_K+LBPV；

步骤S7：以所述声音样本库中预存声音样本对应的双层特征集为训练样本集，以待识别的声音信号对应的双层特征为输入样本，通过随机森林的训练，得出待识别的声音信号于声音样本库中对应的类别并输出结果。

进一步的，所述步骤S3转化过程具体内容如下：

对所述预存的声音样本或采集的声音信号进行STFT，得到其幅度谱S(t,f)，其中，t为帧索引，f为频率索引，对应的幅度谱S(t,f)的值转化为灰度级所构成的二维图像即为所述声谱图。

进一步的，所述步骤S4的具体内容如下：

将所述幅度谱S(t,f)第t帧的数据视为一个向量

所述向量包含N个频率数据，进一步，将所述向量

转化为规范化的log尺度向量S_t：

所述规范化的log尺度向量S_t表示规范化的log尺度的第t个帧的数据；

假设所述幅度谱S(t,f)共有M个帧，将所述M个帧的向量表示为一声谱图矩阵X＝[S₁,...,S_t,...S_M]^T，X∈R^M×N，由于特征分解的对象为方阵，因此，计算C＝X^TX得到矩阵X的协方差矩阵C∈R^N×N，按以下公式利用特征值分解对所述协方差矩阵C降维：

C＝UΛU^T (3)

C＝λ₁u₁u′₁+λ₂u₂u′₂+...+λ_Nu_Nu'_N (5)

C≈λ₁u₁u₁′+λ₂u₂u₂′+...+λ_Ku_Ku_K′,K<<N (6)

其中，矩阵U∈R^N×N包含矩阵C的所有特征向量μ₁,...,μ_N，Λ是对角矩阵，其对角线上的元素是特征值λ₁,...,λ_N，所述特征值λ₁,...,λ_N代表对应特征向量的权重，而且λ₁≥λ₂≥...≥λ_N，再通过以下公式计算前K个特征值的贡献比重η_K来衡量前K个特征向量在表示声音中的重要性：

矩阵U携带了声音的主要信息，选取前K个特征向量组成基本向量矩阵U_K∈R^N×K，所述投影特征X_K是对所述声谱图矩阵X在所述基本向量矩阵U_K∈R^N×K上进行投影：

X_K＝XU_K (8)

其中X_K∈R^M×K。

进一步的，所述步骤S5的具体内容如下：

纹理T是以g_c像素为中心，在半径为R的环形邻域上的P个像素点的联合分布T：

T≈t(s(g₀-g_c),s(g₁-g_c),...,s(g_P-1-g_c)) (9) 其中，g_c表示所述环形领域的中心像素的像素值，g_i(i＝0,1,...,P-1)表示环形邻域上的P个像素点的灰度值，s为符号函数：

根据所述联合分布T按特定方向排序构成的0/1序列结合LBP算子计算其二进制模式，形成LBP值，即LBP_P,R：

环形领域上具有P个像素点，LBP产生2^P种二进制模式，即2^P个不同的LBP值；

提出一等价模式，所述等价模式对应的循环二进制从0到1或从1到0最多有两次跳变，U值表示所述等价模式中跳变的次数，并用U值判定等价模式：

所有满足U≤2的模式都称为等价模式，所述等价模式的值称为等价LBP值，用

值表示：

其中，所述LBP值

的上标u2表示LBP对应的U值最大是2，所述等价模式把模式的数量从2^P减少为P(P-1)+2，除所述等价模式以外的模式都归为第P(P-1)+3类；

对一M×N的声谱图提取其等价LBP，每个像素点(m，n)都得到一等价LBP值，这些等价LBP值组成一等价LBP图，所述等价LBP图即为等价LBP值矩阵u，统计所述等价LBP图中每个数字出现的频率，得到所述声谱图的纹理特征向量，但对于相同等价LBP值的等价LBP图，其纹理可能不同，统计每一个等价LBP值对应的像素与周围像素灰度值的方差，形成一特征向量LBPV，特征向量LBPV的第k个成分LBPV(k)表示为：

其中，整数k的范围为k∈[1,P(P-1)+3]，w(m,n,k)表示声谱图中像素(m,n)对应于LBPV第k个成分的等价LBP值的权值，LBPV(k)是把声谱图中所有像素对应于第k个成分的等价LBP值的权值进行累加，根据公式(14)，得到的LBPV(k),LBPV(2),LBPV(k),…,LBPV(P(P-1)+3)，最终形成一个大小为P(P-1)+3的特征向量LBPV。

进一步的，所述步骤S7的具体内容如下：

将所述声音样本模块中预存的声音样本对应的双层特征集为训练样本集从所述训练样本集中自助重采样，生成s棵决策树，并形成一随机森林；

将所述测试声音模块采集的声音信号对应的双层特征

为输入样本，置于所述随机森林中s棵决策树的根节点处，按照决策树的分类规则向下传递，直到到达某一个叶节点处，这个叶节点对应类标便是这棵决策树对所述双层特征

所属类别l所做的投票，所述随机森林的s棵决策树均对所述双层特征

的类别l进行投票得到s个投票，统计所述s个投票，其中票数最多的类别l便是双层特征

对应的类别。

在本发明一实施例中，在所述步骤S2和步骤S3之间还包括一声音增强，将所述预存声音样本及待识别的声音信号进行增强处理，所述增强处理采用短时谱估计算法。

进一步的，所述短时谱估计的具体内容如下：

声音信号y(t)可表示为：

y(t)＝s(t)+n(t) (18)

其中，s(t)为动物声音，n(t)为环境声音，对所述声音信号y(t)进行STFT可得到其幅度谱Y(k,l)，其中k为帧索引，l为频率索引，短时谱估计由环境声功率谱N(k,l)估计、增益因子G(k,l)计算和增强的声音信号幅度谱F(k,l)计算三部分组成：

步骤S81：对含噪声信号功率谱|Y(k,l)|²进行平滑处理，得到平滑后功率谱：

S(k,l)＝αS(k-1,l)+(1-α)|Y(k,l)|² (19)

式中，α为平滑系数，α＝0.7；

步骤S82：通过前向和后向相结合的双向搜索算法寻找S(k,l)最小频谱分量：

S_min(k,l)＝max{S_min1(k,l),S_min2(k,l)} (20)

S_min1(k,l)＝min{S(i,l)},k-D+1≤i≤k (21)

S_min2(k,l)＝min{S(i,l)},k≤i≤i+D-1 (22)式中，S_min1(k,l)表示前向搜索D帧出来的最小值，S_min2(k,l)表示后向搜索D帧出来的最小值，S_min(k,l)表示采用双向搜索得到的最小频谱分量；

步骤S83：计算动物声音存在的概率：

P(k,l)＝α₁P(k-1,l)+(1-α₁)H(k,l) (23)

式中，α₁是常量平滑参数，本文设α₁＝0.2，H(k,l)是环境声音存在的判别准则：

式中，φ(k)是依赖于频率的判别阈值：

式中，Lf和Hf分别表示音频信号频率集中范围的最小值和最大值，Lf＝1kHz，Hf＝18kHz，Fs表示采样频率；

步骤S84：计算时-频平滑因子η(k,l)进行环境声功率谱估计。

η(k,l)＝α₂+(1-α₂)P(k,l) (26)

式中，根据实际情况设定α₂＝0.95，显然，α₂≤η(k,l)≤1。由η(k,l)可以进行噪声功率谱的估计：

N(k,l)＝η(k,l)N(k-1,l)+(1-η(k,l))|Y(k,l)|² (27)

以上是环境声功率谱N(k,l)的估计过程；

步骤S85：计算频谱增益因子：

G(k,l)＝C(k,l)/(C(k,l)+σN(k,l)) (28)

式中，C(k,l)＝|Y(k,l)|²-N(k,l)表示纯净声音信号功率谱，σ为过减因子，其值为：

步骤S86：得到增强后的音频信号幅度谱：

F(k,l)＝|G(k,l)×|Y(k,l)|²|^1/2 (30)。

本发明与现有技术相比具有以下有益效果：

1、本发明提出投影特征与LBPV特征相结合的双层特征用于各种环境下的动物声音识别，不仅提高识别率，还具有较高的抗噪性；

2、本发明提出用随机森林识别器用于双层特征的识别；

3、本发明提出短时谱估计声音增强结合双层特征与随机森林的架构，特别适用于低信噪比动物声音识别。

附图说明

图1是本发明算法流程图。

图2是本发明实施例一系统模块图。

图3是本发明实施例二系统模块图。

图4是本发明实施例声音增强采用短时谱估计算法模块示意图。

图5a是本发明实施例白鹤叫声的声谱图。

图5b是本发明实施例白鹤叫声的规范化log尺度的声谱图。

图6是本发明实施例白鹤叫声前K个特征值之和占全部特征值之和的比重图。

图7a是本发明实施例3*3图像区域灰度值示意图。

图7b是本发明图7a中间像素点c的LBP值示意图。

图7c是本发明对图7a实线框部分计算等价LBP值后形成的等价LBP图。

图7d是本发明图7a实现框部分对应像素的方差矩阵v示意图。

图7e是本发明每个模式出现的频率直方图。

图7f是本发明图7c的等价LBP值及表1的序号k，通过图7d方差计算LBPV(k)，形成的LBPV直方图。

图8a是本发明图5a转化而成的等价LBP图。

图8b是本发明图8a的等价LBP直方图。

图8c是本发明图的LBPV直方图。

图9是本发明随机森林的基本原理示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供一种基于声谱图双特征的动物声音识别方法，其特征在于包括以下步骤：

步骤S1：建立一声音样本库，用以预存声音样本；

步骤S2：采集待识别的声音信号；

进一步的，所述步骤S3转化过程具体内容如下：

对所述预存的声音样本或采集的声音信号进行STFT，得到其幅度谱S(t,f)，其中，t为帧索引，f为频率索引，对应的幅度谱S(t,f)的值转化为灰度级所构成的二维图像即为所述声谱图，图5a所示白鹤叫声的声谱图。

进一步的，所述步骤S4的具体内容如下：

将所述幅度谱S(t,f)第t帧的数据视为一个向量

所述向量

包含N个频率数据，进一步，将所述向量

转化为规范化的log尺度向量S_t：

所述规范化的log尺度向量S_t表示规范化的log尺度的第t个帧的数据，图5b所示是图5a规范化log尺度的声谱图，这些向量由于维度过高，不适合直接用于分类，必须转化成低维度的表示；

特征值分解是低维度表示的一个简单有效的方法，我们采用特征值分解来降低维度，假设所述幅度谱S(t,f)共有M个帧，将所述M个帧的向量表示为一声谱图矩阵X＝[S₁,...，S_t,...S_M]^T，X∈R^M×N，由于特征分解的对象为方阵，因此，计算C＝X^TX得到矩阵X的协方差矩阵C∈R^N×N，按以下公式利用特征值分解对所述协方差矩阵C降维：

C＝UΛU^T (3)

C＝λ₁u₁u′₁+λ₂u₂u'₂+...+λ_Nu_Nu'_N (5)

C≈λ₁u₁u₁′+λ₂u₂u₂′+...+λ_Ku_Ku_K′,K<<N (6)

其中，矩阵U∈R^N×N包含矩阵C的所有特征向量μ₁,...,μ_N，Λ是对角矩阵，其对角线上的元素是特征值λ₁,...，λ_N，所述特征值λ₁,...,λ_N代表对应特征向量的权重，而且λ₁≥λ₂≥...≥λ_N，特征值的大小λ_n反应了它对应的特征向量μ_n对于声音的重要性，特征值越大对应的特征向量越重要，再通过以下公式计算前K个特征值的贡献比重η_K来衡量前K个特征向量在表示声音中的重要性，如图6所示是本发明实施例白鹤叫声前K个特征值之和占全部特征值之和的比重图，从图中我们可以看出，当K≤10时K个特征值之和所占比重快速上升，当K继续增大，比重上升趋势较为平缓且逐渐趋于100％：

X_K＝XU_K (8)

其中X_K∈R^M×K。

进一步的，所述步骤S5的具体内容如下：

LBPV是对ULBP中每个模式对应的所有像素的方差进行累计形成的向量，等价LBP值描述了图像纹理特征的空间结构，方差则表示对比度信息，LBPV向量结合了这两者特征。

T≈t(s(g₀-g_c),s(g₁-g_c),...,s(g_P-1-g_c)) (9)

其中，g_c表示所述环形领域的中心像素的像素值，g_i(i＝0,1,...,P-1)表示环形邻域上的P个像素点的灰度值，s为符号函数：

图7a实线框部分为本发明实施例3*3图像区域像素灰度值示意图，计算灰度值为80的中心像素点c的LBP值如图7b所示，其中(141≥80)→1，(109≥80)→1，(89≥80)→1，(68<80)→0，(48<80)→0，(52<80)→0，(60<80)→0，(89≥80)→1，因此LBP_P,R＝(11100001)₂＝(225)₁₀，对于边缘像素的LBP值，可以用图7a虚线部分所示的方式，先对相应像素进行拓展后，在用式(11)进行计算。

根据绝大多数的模式最多包含两次从1到0或0到1的跳变，提出一等价模式，所述等价模式对应的循环二进制从0到1或从1到0最多有两次跳变，U值表示所述等价模式中跳变的次数，并用U值判定等价模式：

值表示：

其中，所述LBP值

的上标u2表示LBP对应的U值最大是2，所述等价模式把模式的数量从2^P减少为P(P-1)+2，除所述等价模式以外的模式都归为第P(P-1)+3类，以图7a为例，当P＝8和R＝1时，等价模式的数量为59个，根据式(13)可以得到59个等价LBP值，把他们与1-59的序号k相对应，可以得到如表1所述的等价LBP值与序号k对应关系，其中ULBP(k)是序号k对应的LBP值；

表1.等价LBP值与序号k对应关系

对一M×N的声谱图提取其等价LBP，每个像素点(m，n)都得到一等价LBP值，这些等价LBP值组成一等价LBP图，所述等价LBP图即为等价LBP值矩阵u，统计所述等价LBP图中每个数字出现的频率，得到所述声谱图的纹理特征向量，图7c是对图7a实线框部分计算等价LBP值后形成的等价LBP图，也是一个由等价LBP值组成的矩阵，即等价LBP值矩阵u，图7e表示每个模式出现的频率直方图，也即表示图7a的纹理特征向量；

但对于相同等价LBP值的等价LBP图，其纹理可能不同，因此，我们用方差来表示对比度信息，方差越大说明该区域纹理变化大，统计每一个等价LBP值对应的像素与周围像素灰度值的方差，形成一特征向量LBPV，特征向量LBPV的第k个成分LBPV(k)表示为：

其中，整数k的范围为k∈[1,P(P-1)+3]，w(m,n,k)表示声谱图中像素(m,n)对应于LBPV第k个成分的等价LBP值的权值，LBPV(k)是把声谱图中所有像素对应于第k个成分的等价LBP值的权值进行累加，根据公式(14)，得到的LBPV(k),LBPV(2),LBPV(k),…,LBPV(P(P-1)+3)，最终形成一个大小为P(P-1)+3的特征向量LBPV；

图7d是图7a实线区域内对应像素的方差矩阵v，图7f是根据图7c的等价LBP值及相应的表1的序号k，通过图7d方差计算LBPV(k)，形成的LBPV直方图，即LBPV特征，它的示意过程如下：

u(0,0)＝u(0,1)＝193＝ULBP(38)→v(0,0)+v(0,1)＝577+653→LBPV(38)＝1230,

u(0,2)＝u(1,2)＝241＝ULBP(49)→v(0,2)+v(1,2)＝218+446→LBPV(49)＝664,

u(1,0)＝u(1,1)＝225＝ULBP(44)→v(1,0)+v(1,1)＝1111+880→LBPV(44)＝1991,

u(2,0)＝u(2,1)＝231＝ULBP(46)→v(2,0)+v(2,1)＝216+197→LBPV(46)＝413,

u(2,2)＝255＝ULBP(58)→u(2,2)＝132→LBPV(58)＝132,

因此，

LBPV＝{0,…,LBPV(38),0,…,LBPV(44),0,LBPV(46),0,0,LBPV(49),0,…,LBPV(58),0}，代入相应的值，得

LBPV＝{0,…,1230,0,…,1991,0,413,0,0,664,0,…,132,0}，其直方图如图7f所示；

以图5a的白鹤声的声谱图为例，图8a-8c表示等价模式的LBP直方图与LBPV直方图的比较，在图8b中，对应等价LBP值为255，出现的频率特别高，也即二进制模式为11111111的比例特别高，根据式(10)，当gn≥gc时，s(gn-gc)＝1，也就是当中心像素的灰度或灰度值相等是，二进制模式对应的位取1，它表示相应的声谱图空白部分或灰度值相同的部分占的比例特别高，相对于等价LBP直方图，如图8c所示，LBPV直方图，用周围像素灰度的方差作为权值，更能反映声谱图中的纹理变化，有利于分类识别。

因此，下一步，我们把投影特征X_k和特征向量LBPV相结合形成双层特征X_k+LBPV，作为各种环境下，动物声音识别的特征，当然也可单把投影特征X_k或特征向量LBPV作为动物识别的特征，双层特征相比于这两者识别率会更加高。

进一步的，所述步骤S7的具体内容如下：

随机森林是一种利用多个决策树分类器来对数据进行判别的集成分类器算法，其原理如图9所示，通过自助重采样技术将所述声音样本模块中预存的声音样本对应的双层特征集

投影特征集

或特征向量集W＝{LBPV¹，LBPV²，...，LBPV^Q}为训练样本集

从所述训练样本集中自助重采样，生成s棵决策树，并形成一随机森林，测试数据的判别结果则由森林中s可数投票形成的分数而定；

使用随机森林对待识别声音的识别过程如下，将所述测试声音模块采集的声音信号对应的双层特征

投影特征X_k或特征向LBPV为输入样本，置于所述随机森林中s棵决策树的根节点处，按照决策树的分类规则向下传递，直到到达某一个叶节点处，这个叶节点对应类标便是这棵决策树对所述双层特征

对应的类别。

在本发明一实施例中，针对于受到噪声严重污染的声音样本，在所述步骤S2和步骤S3之间还包括一声音增强，将所述预存声音样本及待识别的声音信号进行增强处理，所述增强处理采用短时谱估计算法。

进一步的，所述短时谱估计的具体内容如下：

声音信号y(t)可表示为：

y(t)＝s(t)+n(t) (18)

S(k,l)＝αS(k-1,l)+(1-α)|Y(k,l)|² (19)

式中，α为平滑系数，α＝0.7；

S_min(k,l)＝max{S_min1(k,l),S_min2(k,l)} (20)

S_min1(k,l)＝min{S(i,l)},k-D+1≤i≤k (21)

S_min2(k,l)＝min{S(i,l)},k≤i≤i+D-1 (22)

式中，S_min1(k,l)表示前向搜索D帧出来的最小值，S_min2(k,l)表示后向搜索D帧出来的最小值，S_min(k,l)表示采用双向搜索得到的最小频谱分量；

步骤S83：计算动物声音存在的概率：

P(k,l)＝α₁P(k-1,l)+(1-α₁)H(k,l) (23)

式中，φ(k)是依赖于频率的判别阈值：

步骤S84：计算时-频平滑因子η(k,l)进行环境声功率谱估计。

η(k,l)＝α₂+(1-α₂)P(k,l) (26)式中，根据实际情况设定α₂＝0.95，显然，α₂≤η(k,l)≤1。由η(k,l)可以进行噪声功率谱的估计：

N(k,l)＝η(k,l)N(k-1,l)+(1-η(k,l))|Y(k,l)|² (27)

以上是环境声功率谱N(k,l)的估计过程；

步骤S85：计算频谱增益因子：

G(k,l)＝C(k,l)/(C(k,l)+σN(k,l)) (28)

步骤S86：得到增强后的音频信号幅度谱：

F(k,l)＝|G(k,l)×|Y(k,l)|²|^1/2 (30)。

为了让一般技术人员更好的理解本发明的技术方案，以下结合系统本发明进行进一步介绍。

本发明采用的系统如图2所示，包括一声谱图模块，所述声谱图模块的输入端与一声音样本库模块、测试声音模块连接，所述声谱图模块的输出端与一投影特征模块、一LBPV特征模块的输入端连接，所述投影特征模块、LBPV特征模块的输出端分别与一双层特征模块的输入端连接，所述双层特征模块的输出端与一RF识别模块、一结果输出模块依次连接；

所述声谱图模块将所述声音样本库模块中预存的声音样本及测试声音模块采集的声音信号转化成声谱图；

所述投影特征模块将所述声谱图模块输出的声谱图进行规范化，并对规范化的声谱图进行特征值分解和投影得到投影特征X_K；

所述LBPV特征模块将所述声谱图模块输出的声谱图转化成等价LBP值矩阵u，统计每一个等价LBP值对应的像素与周围像素灰度值的方差，形成一特征向量LBPV；

所述双层特征模块将所述投影特征模块输出的投影特征X_K和LBPV特征模块输出的特征向量LBPV结合，形成双层特征X_K+LBPV；

所述RF识别模块以所述声音样本模块中预存的声音样本对应的双层特征集为训练样本集，以测试声音模块采集的声音信号对应的双层特征为输入样本，通过随机森林的训练，得出测试声音模块采集的声音信号于声音样本库模块中预存的声音样本对应的类别并输送给结果输出模块。

于本发明另一实施例中，还包括一声音增强模块，所述声音增强模块的输出端与所述声谱图模块的输入点连接，所述声音增强模块的输入端与所述声音样本库模块、测试声音模块连接，如图3所示，所述声音增强模块使用声音增强算法对声音信号进行声音增强，而于各种声音增强算法中，经比较得出又以短时谱估计算法效果最为突出，如图4所示。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

一种基于声谱图双特征的动物声音识别方法，其特征在于包括以下步骤：

步骤S1：建立一声音样本库，用以预存声音样本；

步骤S2：采集待识别的声音信号；

步骤S3：分别将所述预存声音样本及待识别的声音信号转化成声谱图；

步骤S4：将所述声谱图进行规范化，并对所述规范化后的声谱图进行特征值分解和投影，将其转化得到一投影特征X_K；

步骤S5：将所述声谱图转化成等价LBP值矩阵u，统计每一个等价LBP值对应的像素与周围像素灰度值的方差，形成一特征向量LBPV；

步骤S6：将所述投影特征X_K和特征向量LBPV结合，形成双层特征X_K+LBPV；

步骤S7：以所述声音样本库中预存声音样本对应的双层特征集为训练样本集，以待识别的声音信号对应的双层特征为输入样本，通过随机森林的训练，得出待识别的声音信号于声音样本库中对应的类别并输出结果。
根据权利要求1所述的基于声谱图双特征的动物声音识别方法，其特征在于：所述步骤S3转化过程具体内容如下：

对所述预存的声音样本或采集的声音信号进行STFT，得到其幅度谱S(t,f)，其中，t为帧索引，f为频率索引，对应的幅度谱S(t,f)的值转化为灰度级所构成的二维图像即为所述声谱图。
根据权利要求2所述的基于声谱图双特征的动物声音识别方法，其特征在于：所述步骤S4的具体内容如下：

将所述幅度谱S(t,f)第t帧的数据视为一个向量
所述向量
包含N个频率数据，进一步，将所述向量
转化为规范化的log尺度向量S_t：

所述规范化的log尺度向量S_t表示规范化的log尺度的第t个帧的数据；

假设所述幅度谱S(t,f)共有M个帧，将所述M个帧的向量表示为一声谱图矩阵X＝[S₁,…,S_t,…S_M]^T，X∈R^M×N，由于特征分解的对象为方阵，因此，计算C＝X^TX得到矩阵X的协方差矩阵C∈R^N×N，按以下公式利用特征值分解对所述协方差矩阵C降维：

C＝UΛU^T            (3)

C＝λ₁u₁u′₁+λ₂u₂u′₂+…+λ_Nu_Nu′_N           (5)

C≈λ₁u₁u₁′+λ₂u₂u₂′+…+λ_Ku_Ku_K′,K<<N          (6)

其中，矩阵U∈R^N×N包含矩阵C的所有特征向量μ₁,…,μ_N，Λ是对角矩阵，其对角线上的元素是特征值λ₁,…,λ_N，所述特征值λ₁,…,λ_N代表对应特征向量的权重，而且λ₁≥λ₂≥…≥λ_N，再通过以下公式计算前K个特征值的贡献比重η_K来衡量前K个特征向量在表示声音中的重要性：

矩阵U携带了声音的主要信息，选取前K个特征向量组成基本向量矩阵U_K∈R^N×K，所述投影特征X_K是对所述声谱图矩阵X在所述基本向量矩阵U_K∈R^N×K上进行投影：

X_K＝XU_K            (8)

其中X_K∈R^M×K。
根据权利要求1所述的基于声谱图双特征的动物声音识别方法，其特征在于：所述步骤S5的具体内容如下：

纹理T是以g_c像素为中心，在半径为R的环形邻域上的P个像素点的联合分布T：

T≈t(s(g₀-g_c),s(g₁-g_c),…,s(g_P-1-g_c)) (9)

其中，g_c表示所述环形领域的中心像素的像素值，g_i(i＝0,1,…,P-1)表示环形邻域上的P个像素点的灰度值，S为符号函数：

根据所述联合分布T按特定方向排序构成的0/1序列结合LBP算子计算其二进制模式，形成LBP值，即LBP_P,R：

环形领域上具有P个像素点，LBP产生2^P种二进制模式，即2^P个不同的LBP值；提出一等价模式，所述等价模式对应的循环二进制从0到1或从1到0最多有两次跳变，U值表示所述等价模式中跳变的次数，并用U值判定等价模式：

所有满足U≤2的模式都称为等价模式，所述等价模式的值称为等价LBP值，用
值表示：

其中，所述LBP值
的上标u2表示LBP对应的U值最大是2，所述等价模式把模式的数量从2^P减少为P(P-1)+2，除所述等价模式以外的模式都归为第P(P-1)+3类；

对一M×N的声谱图提取其等价LBP，每个像素点(m，n)都得到一等价LBP值，这些等价LBP值组成一等价LBP图，所述等价LBP图即为等价LBP值矩阵u，统计所述等价LBP图中每个数字出现的频率，得到所述声谱图的纹理特征向量，但对于相同等价LBP值的等价LBP图，其纹理可能不同，统计每一个等价LBP值对应的像素与周围像素灰度值的方差，形成一特征向量LBPV，特征向量LBPV的第k个成分LBPV(k)表示为：

其中，整数k的范围为k∈[1,P(P-1)+3]，w(m,n,k)表示声谱图中像素(m,n)对应于LBPV第k个成分的等价LBP值的权值，LBPV(k)是把声谱图中所有像素对应于第k个成分的等价LBP值的权值进行累加，根据公式(14)，得到的LBPV(k),LBPV(2),LBPV(k),…,LBPV(P(P-1)+3)，最终形成一个大小为P(P-1)+3的特征向量LBPV。
根据权利要求1所述的基于声谱图双特征的动物声音识别方法，其特征在于：所述步骤S7的具体内容如下：

将所述声音样本模块中预存的声音样本对应的双层特征集为训练样本集
从所述训练样本集中自助重采样，生成s棵决策树，并形成一随机森林；

将所述测试声音模块采集的声音信号对应的双层特征
为输入样本，置于所述随机森林中s棵决策树的根节点处，按照决策树的分类规则向下传递，直到到达某一个叶节点处，这个叶节点对应类标便是这棵决策树对所述双层特征
所属类别l所做的投票，所述随机森林的s棵决策树均对所述双层特征
的类别l进行投票得到s个投票，统计所述s个投票，其中票数最多的类别l便是双层特征
对应的类别。
根据权利要求1所述的基于声谱图双特征的动物声音识别方法，其特征在于：在所述步骤S2和步骤S3之间还包括一声音增强，将所述预存声音样本及待识别的声音信号进行增强处理，所述增强处理采用短时谱估计算法。
根据权利要求6所述的基于声谱图双特征的动物声音识别方法，其特征在于：所述短时谱估计算法的具体内容如下：

声音信号y(t)可表示为：

y(t)＝s(t)+n(t)            (18)

其中，s(t)为动物声音，n(t)为环境声音，对所述声音信号y(t)进行STFT可得到其幅度谱Y(k,l)，其中k为帧索引，l为频率索引，短时谱估计由环境声功率谱N(k,l)估计、增益因子G(k,l)计算和增强的声音信号幅度谱F(k,l)计算三部分组成：

步骤S81：对含噪声信号功率谱|Y(k,l)|²进行平滑处理，得到平滑后功率谱：

S(k,l)＝αS(k-1,l)+(1-α)|Y(k,l)|²          (19)

式中，α为平滑系数，α＝0.7；

步骤S82：通过前向和后向相结合的双向搜索算法寻找S(k,l)最小频谱分量：

S_min(k,l)＝max{S_min1(k,l),S_min2(k,l)}               (20)

S_min1(k,l)＝min{S(i,l)},k-D+1≤i≤k          (21)

S_min2(k,l)＝min{S(i,l)},k≤i≤i+D-1          (22)

式中，S_min1(k,l)表示前向搜索D帧出来的最小值，S_min2(k,l)表示后向搜索D帧出来的最小值，S_min(k,l)表示采用双向搜索得到的最小频谱分量；

步骤S83：计算动物声音存在的概率：

P(k,l)＝α₁P(k-1,l)+(1-α₁)H(k,l)          (23)

式中，α₁是常量平滑参数，本文设α₁＝0.2，H(k,l)是环境声音存在的判别准则：

式中，φ(k)是依赖于频率的判别阈值：

式中，Lf和Hf分别表示音频信号频率集中范围的最小值和最大值，Lf＝1kHz，Hf＝18kHz，Fs表示采样频率；

步骤S84：计算时-频平滑因子η(k,l)进行环境声功率谱估计。

η(k,l)＝α₂+(1-α₂)P(k,l)              (26)

式中，根据实际情况设定α₂＝0.95，显然，α₂≤η(k,l)≤1。由η(k,l)可以进行噪声功率谱的估计：

N(k,l)＝η(k,l)N(k-1,l)+(1-η(k,l))|Y(k,l)|²                (27)

以上是环境声功率谱N(k,l)的估计过程；

步骤S85：计算频谱增益因子：

G(k,l)＝C(k,l)/(C(k,l)+σN(k,l))              (28)

式中，C(k,l)＝|Y(k,l)|²-N(k,l)表示纯净声音信号功率谱，σ为过减因子，其值为：

步骤S86：得到增强后的音频信号幅度谱：

F(k,l)＝|G(k,l)×|Y(k,l)|²|^1/2              (30)。