WO2020181998A1

WO2020181998A1 - 一种基于监督变分编码器因素分解的混合声音事件检测方法

Info

Publication number: WO2020181998A1
Application number: PCT/CN2020/077189
Authority: WO
Inventors: 毛启容; 陈静静; 高利剑; 黄多林; 张飞飞
Original assignee: 江苏大学
Priority date: 2019-03-11
Filing date: 2020-02-28
Publication date: 2020-09-17
Also published as: CN110070895A; CN110070895B

Abstract

一种基于监督变分编码器因素分解的混合声音事件检测方法，包括如下步骤：接收语音信号，并对语音信号进行预处理；提取预处理后的语音信号特征；使用监督变分自动编码器提取声音事件潜在属性空间；使用因素分解方法分解构成混合声音的各种因素，进而学习得到每个特定声音事件相关的特征表示；再使用对应的声音事件检测器检测特定声音事件是否发生。采用因素分解学习的方法解决混合声音中声音事件类别较多的情况下，声音事件检测准确率不高的问题，有效提高真实场景声音事件检测的准确度，还可用于说话人识别等任务。

Description

一种基于监督变分编码器因素分解的混合声音事件检测方法

技术领域

本发明涉及语音信号处理、模式识别等领域，特别涉及一种关于变分自动编码器和因素分解方法的声音事件检测方法。

背景技术

多类别声音事件检测是指从一个混有多种声音的事件当中，检测出每种事件是否发生。与传统少类别声音事件检测相比，在现实领域的适用性更广，在医学场景监听、交通场景声音事件检测等领域有着广阔的应用前景和实际意义。

传统的多类别声音事件检测方法主要是采用语音识别和模板匹配的思想，例如，使用混合高斯模型和以梅尔频率倒谱系数为特征的隐马尔可夫模型，或者是使用非负矩阵分解来表示每一种事件，并将其与声音事件词典进行匹配；然而，这种传统方法中的手工特征并不能完全表示不同的声音事件。最近，引入带有瓶颈层的深度神经网络来学习多类别声音事件检测的瓶颈特征，取得了很好的结果，但是准确率不是很高。无监督特征表示学习在捕获数据生成因子方面取得了不错的进展，然而如果直接用于多类别声音事件检测，则会为所有的声音事件学习到同样的一组特征，这可能会导致性能的下降，也就是说，这组特征对于多类别声音事件没有足够的辨别能力。尽管目前很多方法已经通过特征学习取得了一些新的进展，但是目前仍然没有解决如何通过因素分解的方法进行多类别声音事件检测，这正是现实环境中声音事件检测的重中之重。

发明内容

本发明提供一种因素分解方法，使得分解出的特征不受与检测任务无关的因素干扰，分解出的特征只针对每一个特定的声音事件，从而解决多类别声音事件检测在真实环境当中准确率不高的问题，提高检测的准确度。

为了解决以上技术问题，本发明首先对语音信号进行预处理、提取特征，然后通过监督变分编码器提取声音事件潜在属性空间，再通过因素分解的方法学习到每个特定声音事件的特征表示，然后使用对应的声音事件检测器检测特定声音事件是否发生。

具体技术方案如下：

一种基于监督变分编码器因素分解的混合声音事件检测方法，包括下列步骤：

步骤一，对语音信号进行预处理；

步骤二，提取预处理后的语音信号特征；

步骤三，使用监督变分自动编码器提取声音事件潜在属性空间；

步骤四，使用因素分解方法分解构成混合声音的各种因素，进而学习得到每个特定声音事件的特征表示；

步骤五，使用对应的声音事件检测器检测特定声音事件是否发生。

进一步，所述步骤一具体为：将语音信号按照固定的帧长度进行分帧，帧与帧之间有重叠部分。

进一步，所述步骤二具体为：提取预处理后语音信号的梅尔频率倒谱系数。

进一步，所述步骤三中声音事件潜在属性空间具体为：将输入的语音信号特征压缩到低维高斯分布中。

进一步，所述步骤四中特定声音事件的特征表示

其中a _k为声音事件潜在属性空间的注意力权重，z为声音事件潜在属性空间。

进一步，所述步骤五中对应的声音事件检测器采用深度神经网络作为检测器网络。

本发明具有有益效果：与传统的多类别声音事件检测相比，该种基于监督变分编码器因素分解的混合声音事件检测方法，引入特征表示学习，学习到声音事件潜在属性空间，能够处理现实场景当中多类别声音事件情况下的检测工作；另一个优势就是该方法引入了一个生成模型-变分自动编码器，这样就可以生成更多的训练数据，从而通过数据增强的方法提高检测准确率。该方法还有可用于各种识别任务，如说话人检测等。

附图说明

图1是基于监督变分编码器因素分解的混合声音事件检测方法的流程图。

图2是实施例中注意力机制的说明示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都是本发明保护的范围。

参见图1，是本发明提供的一个实施例的基于因素分解的声音事件检测方法的具体流程，该方法包括如下步骤：

步骤一，接收语音信号，并对语音信号进行预处理：主要是将语音信号按照固定的帧长度进行分帧，帧与帧之间有重叠部分，即存在帧内重叠。

步骤二，提取预处理后的语音信号特征

提取预处理后的语音信号特征是指提取语音信号每一帧的MFCC(梅尔频率倒谱系数)特征，并将5帧信号作为一个样本，5帧信号对应着连续的不同时刻，所以每个样本包含了时域信息。

步骤三，使用监督变分自动编码器提取声音事件潜在属性空间

用长短期记忆网络将输入的5帧语音信号特征X压缩到低维高斯分布当中去，该高斯分布的均值和方差分别为μ和σ；通过公式计算声音事件潜在属性空间z，其公式如下：

z＝(μ+σ⊙ε) (1)

其中ε是服从与均值为0、方差为1的正态分布的随机数；因为每个样本包含5帧语音信号的特征，z就包含时域信息，这也是选择长短期记忆网络来处理语音信号特征的最主要原因，长短期记忆网络能够处理时域信息，并且将其长期保存在网络内，大大降低梯度消失和梯度爆炸的可能性。

步骤四，使用因素分解方法分解构成混合声音的各种因素，进而学习得到每个特定声音事件相关的特征表示

如图2所示，在声音事件潜在属性空间运用注意力机制，避免将输入序列编码作为一个固定长度的潜在向量，从而提供更大的灵活性；要为每一个声音事件类型设计一个注意力层，共有K个声音事件类型，所以共设计了K个注意力层，使用softmax函数对声音事件潜在属性空间进行激活后，则可获取到声音事件潜在属性空间的注意力权重a _k，其计算公式为：

a _k＝soft max _k(z) (2)

计算特定声音事件相关的特征表示

其计算公式如下：

通常合理地假设声音事件的出现是互相独立的，也就是说

是相互独立的，那么就可以计算后验分布与先验分布之间的KL(Kullback-Leibler)散度，其计算公式如下：

其中，i代表第i个样本，

和

分别是

的均值和方差，对于每一个特征表示

来说，后验分布

应该与先验分布

相匹配，

服从于均值为0、方差为1的标准正态分布，其中i＝1…I，I表示总的样本数，k＝1…K；该散度作为因素分解损失函数的第一部分。

步骤五，使用对应的声音事件检测器检测特定声音事件是否发生

用对应的声音事件检测器检测特定声音事件是否发生，是指为每一个特定的声音事件类型构造一个声音事件检测器，用二分类函数sigmoid来检测对应的声音事件发生的概率，从而判断该事件是否发生，其方法为：

Detector即为构造的声音事件检测器，每一个声音事件检测器对应一个

检测器是一个以sigmoid函数作为输出的多层感知器。

所有的检测器都用一个二值交叉熵损失作为损失函数来进行训练：

其中，

代表第i个样本的真实值，为1或者0；

是第i个样本被识别为第k个声音事件的可能性。该损失函数作为因素分解损失函数的第二部分。

综上，本发明实施例提出的总的特定事件因素分解损失函数为：

其中，β衡量每一个声音事件的潜在表示的因素分解程度。

此外，实施例还训练了一个解码器来通过声音事件潜在属性空间z来对输入的语音信号特征进行重构，以确保潜在属性空间z捕获到了数据生成因子，其损失函数为：

E表示采用均方误差损失函数。

定义最后的总的损失函数为：

L _s-β-VAE(θ,φ,θ'；x,y,z)＝L _recons(θ,φ；x,z)+λL _disent(φ,θ'；x,y,z) (9)

其中，λ是衡量声音事件检测和重构任务的权重因子。

实施例选用2个广泛使用的声音事件检测基准数据库来进行实验评估：TUT2017和Freesound，同时实施例还在TIMIT数据集上进行说话人识别的评估。为比较实施例方法与其他方法的性能，在每一个数据集上，将实施例方法与当下最先进的方法(普通深度神经网络DNN、长短期记忆网络LSTM、增强拓扑结构的联合神经进化网络J-NEAT、卷积-循环神经网络CRNN、身份向量i-Vector)进行对比，从而证明实施例所提算法的有效性。在所有实验当中，实施例采用两种评价指标，分别是F1得分和错误率(ER)，其计算公式分别为：

其中，TP(k)是真正，FP(k)是假正，FN(k)是假负；

其中，N(k)是总样本个数，S(k)、D(k)、I(k)分别是替换、删除和插入的个数。

(1)TUT2017数据集

TUT2017数据集包含了各种各样街道场景下的声音，音量大小各不相同，这个数据集与人类活动和真实交通场景最为密切相关。

表1采用不同方法后的F1得分和错误率(ER)

方法	F1(％)	ER
DNN	42.80	0.9358
LSTM	43.22	0.9031
J-NEAT	44.90	0.8979

CRNN	41.70	0.7914
监督变分自动编码器	45.86	0.8259

从表1的实验结果中，可以看出，实施例的基于监督变分编码器因素分解的方法取得了最高的F1得分，与此同时，还保持着非常有竞争力的ER。在国际声音事件检测大赛DCASE2017当中，J-NEAT方法取得了最高的F1得分，但ER排第15位；CRNN方法取得了最好的ER，但F1得分排第11位。作为比较，实施例的基于监督变分编码器因素分解的方法取得了最高的F1得分，并且在ER上排到了第4位。

(2)Freesound数据集

Freesound数据集是从用户上传的音频样本当中提取出来的声音事件数据库，包含了28种声音事件，用来评估在复杂程度逐渐增加的情况下，实施例所提出的算法的性能。

表2不同声音事件类别数目下的F1得分和错误率(ER)

从表2的实验结果中，可以看出，随着声音事件类别的增加，DNN和CRNN方法的F1得分快速下降，而实施例所提算法F1得分的下降速度则较为缓慢。DNN和CRNN方法的ER错误率快速增加，而实施例所提算法的ER错误率则缓慢增加。由此可以看出：实施例所提出的算法，最大的优势就是其可以处理现实场景中多类别的声音事件检测问题，这也是其它的方法所不擅长的地方。

(3)TIMIT数据集

TIMIT数据集总共包含了6300条语音，来自630个人，每个人10条语音。TIMIRT数据集中的每一条语音都只源自一个说话人，将其用来评估实施例提出的算法对于混合语音说话人识别的性能。

表3不同方法在TIMIT数据集上说话人识别的F1得分和错误率(ER)

方法	F1(％)	ER
监督变分自动编码器	0.8120	0.3049
i-Vector	0.7338	0.4255

从表3的实验结果中，可以看到i-Vector方法的F1得分为73.38％，ER错误率为0.4255；而实施例的方法F1得分为81.20％，ER错误率为0.3049，实施例的方法比i-Vector方法性能更好。

从上面的验证结果可以看出，实施例提出的方法为各种各样的声音事件检测和识别任务提供了一个通用的框架。

以上实验结果表明：与其它的算法相比，实施例所采用的基于监督变分编码器因素分解的声音事件检测方法可以有效解决在多类别声音事件情况下，检测准确率不高的问题，提高准确度；同时，还为声音事件检测和识别任务提供了一个通用的框架。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

一种基于监督变分编码器因素分解的混合声音事件检测方法，其特征在于，包括下列步骤：

步骤一，对语音信号进行预处理；

步骤二，提取预处理后的语音信号特征；

步骤三，使用监督变分自动编码器提取声音事件潜在属性空间；

步骤四，使用因素分解方法分解构成混合声音的各种因素，进而学习得到每个特定声音事件的特征表示；

步骤五，使用对应的声音事件检测器检测特定声音事件是否发生。
根据权利要求1所述的基于监督变分编码器因素分解的混合声音事件检测方法，其特征在于，所述步骤一具体为：将语音信号按照固定的帧长度进行分帧，帧与帧之间有重叠部分。
根据权利要求1所述的基于监督变分编码器因素分解的混合声音事件检测方法，其特征在于，所述步骤二具体为：提取预处理后语音信号的梅尔频率倒谱系数。
根据权利要求1所述的基于监督变分编码器因素分解的混合声音事件检测方法，其特征在于，所述步骤三中声音事件潜在属性空间具体为：将输入的语音信号特征压缩到低维高斯分布中。
根据权利要求1所述的基于监督变分编码器因素分解的混合声音事件检测方法，其特征在于，所述步骤四中特定声音事件的特征表示
其中a _k为声音事件潜在属性空间的注意力权重，z为声音事件潜在属性空间。
根据权利要求1所述的基于监督变分编码器因素分解的混合声音事件检测方法，其特征在于，所述步骤五中对应的声音事件检测器采用深度神经网络作为检测器网络。