WO2022001245A1

WO2022001245A1 - 多种声音事件的检测方法、装置、计算机设备及存储介质

Info

Publication number: WO2022001245A1
Application number: PCT/CN2021/083752
Authority: WO
Inventors: 刘博卿; 王健宗; 张之勇; 程宁
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-10-29
Filing date: 2021-03-30
Publication date: 2022-01-06
Also published as: CN112309405A

Abstract

一种多种声音事件的检测方法，包括从声源数据提取声源矩阵（S100）；将声源矩阵输入到训练好的特征提取网络，以提取声音事件的特征矩阵（S200）；将特征矩阵输入到训练好的权重门控循环层，根据权重门控循环层的权重矩阵和特征矩阵中的前项向量的权重，对特征矩阵中对应的后项向量加权，得到加权后的特征矩阵（S300）；将加权后的特征矩阵输入到全连接层中，通过全连接获取概率矩阵，其中该概率矩阵的维数与声音事件的种类数量相对应（S400）；根据概率矩阵，确定发生的目标声音事件（S600）。其中，声源矩阵可存储在区块链中。

Description

多种声音事件的检测方法、装置、计算机设备及存储介质

本申请要求于2020年10月29日提交中国专利局、申请号为202011186597.5，发明名称为“多种声音事件的检测方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及声音识别技术领域，尤其涉及一种多种声音事件的检测方法、装置、计算机设备及存储介质。

背景技术

声音事件检测应用于家庭智能音箱发展、电话客服等的应用领域，声音事件可以即时的辅助相关人员对声音事件进行识别和反应。发明人意识到，现有的事件检测大多只能实现对单一声音的检测，比如只能识别婴儿的哭声或者烟雾报警器的报警声中的一种，更加典型的是对唤醒词的检测，比如“Hi Sara”“小爱同学”。

现有的声音事件检测方案，因为需要对特定的声音频谱进行针对性的训练，需要专门的标注团队，对声音事件发生的详细的时间端点值进行仔细且大量的数据标注，以此作为特定声音事件的训练素材，因为很多声音来源只是对一整段声源进行标注，即使这个声音并没有在这一整段语音中一直存在，这样就造成了声音事件和时间端点的对应关系不能保证，如此现有的声音事件检测方案的训练效果不佳，声音检测的不准确。在此基础之上，对现有声音事件监测方案同时进行多种声音事件模型的训练，则模型的训练效果更差，声音事件的检测精度更差。

发明内容

本申请实施例的目的在于精确的同时检测多种声音事件。

为了解决上述技术问题，本申请实施例提供一种多种声音事件的检测方法，采用了如下所述的技术方案：

一种多种声音事件的检测方法，该方法包括，

从声源数据提取声源矩阵；

将所述声源矩阵输入到训练好的特征提取网络，以提取声音事件的特征矩阵；

将所述特征矩阵输入到训练好的权重门控循环层，根据权重门控循环层的权重矩阵和所述特征矩阵中的前项向量的权重，对所述特征矩阵中对应的后项向量加权，得到加权后的特征矩阵；

将加权后的所述特征矩阵输入到全连接层中，通过全连接获取概率矩阵，其中所述概率矩阵的维数与声音事件的种类数量相对应；

根据所述概率矩阵，确定发生的目标声音事件。

为了解决上述技术问题，本申请实施例还提供一种一种多种声音事件的检测装置，包括，

声源提取模块，用于从声源数据提取声源矩阵；

特征提取模块，用于将所述声源矩阵输入到训练好的特征提取网络，以提取声音事件的特征矩阵；

权重加权模块，用于将所述特征矩阵输入到训练好的权重门控循环层，根据权重门控循环层的权重矩阵和所述特征矩阵中的前项向量的权重，对所述特征矩阵中对应的后项向量加权，得到加权后的特征矩阵；

全连接模块，用于将加权后的所述特征矩阵输入到全连接层中，通过全连接获取概率矩阵，其中所述概率矩阵的维数与声音事件的种类数量相对应；

确定模块，用于根据所述概率矩阵，确定发生的目标声音事件。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时还实现如下步骤：

从声源数据提取声源矩阵；

根据所述概率矩阵，确定发生的目标声音事件。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时，使得所述处理器还执行如下步骤：

从声源数据提取声源矩阵；

根据所述概率矩阵，确定发生的目标声音事件。

与现有技术相比，本申请实施例主要有以下有益效果：通过对提取的声音源做特征提取得到包括若干向量的特征矩阵，之后，在权重门循环层中根据特征矩阵中的前一项向量的权重，配合训练好的权重矩阵，对特征矩阵中的后一项进行加权，使得特征矩阵之中前一项向量中的声音事件的特征对后一项影响，降低加权过程中隐含层对声音特征的影响，使得帧与帧之间声音事件的特征能够形成连续的反馈，对持续时间短的声音特征和持续事件长的声音特征，都能够通过加权有效的突出出来，之后进行连接获得与声音事件的种类相对应的概率矩阵。并根据概率确定每种声音事件的发生情况，并且确定发生的目标声音事件。该方案能够精确的同时对多个声音事件进行检测。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1根据本申请的多种声音事件的检测方法的一个实施例的流程图；

图2是图1中步骤S200的一种具体实施方式的流程图；

图3是图1中步骤S300的一种具体实施方式的流程图；

图4根据本申请的多种声音事件的检测方法的一个实施例的流程图；

图5是图1中步骤S100的一种具体实施方式的流程图；

图6是根据本申请的多种声音事件的检测装置的一个实施例的结构示意图；

图7是图6所示特征提取模块一种具体实施方式的结构示意图；

图8是图6所示权重模块一种具体实施方式的结构示意图；

图9是图6所示声源提取模块一种具体实施方式的结构示意图；

图10是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

参考图1，示出了根据本申请的多种声音事件的检测方法的一个实施例的流程图。所述的多种声音事件的检测方法，包括以下步骤：

步骤S100，从声源数据提取声源矩阵。

对声音来源进行数据提取，以获取数字化的声源数据，其中对于本实施例而言，针对的是多种声音事件的检测，所以声音来源是复杂的，获取的声源数据经过滤波和降噪之后，仍然包括多种声音。数字化之后的声音以矩阵的形式存储声音中的信息，通常通过声源矩阵存储声音数据的时候，矩阵中的向量保存了一个音频帧当中的声音数据，而通过向量拼接而成的声源矩阵则存储了整段声音数据。所述音频帧指的是一段时间的音频，是本方案中音频存储和操作的最小单位。

步骤S200，将所述声源矩阵输入到训练好的特征提取网络，以提取声音事件的特征矩阵。

特征提取网络中通过神经网络的深度学习能力能够对数据进行特征提取，常见的通过卷积神经网络，通过预先训练的卷积核，对数据进行层层卷积，并通过卷积核形成的通道将数据特征提取出来。

步骤S300，将所述特征矩阵输入到训练好的权重门控循环层，根据权重门控循环层的权重矩阵和所述特征矩阵中的前项向量的权重，对所述特征矩阵中对应的后项向量加权，得到加权后的特征矩阵。

特征矩阵中包括若干向量，每个向量与一个音频帧相对应，并且通过向量保存一段声音的特征数据，根据预先训练的权重矩阵以及向量的前项向量提供的权重对后项向量进行加权，并且更新特征矩阵，这样首先能够根据检测的多种声音事件对特征矩阵进行加权以凸显声音事件的特征，另一方面，通过前项向量提供的权重，使得特征矩阵中的向量相互之间有所关联，这样根据不同声音的发声长短等因素，能够对声音的特征进行修正，因此能够削弱特征矩阵中向量的序列化的影响。可以防止一个声音已经停止了，但是依然在所在向量的后项向量中体现；如果一个声音持续事件较长，也能够在后项向量中通过前项向量提供的权重持续体现。

在本实施例中，特征矩阵是通过x ₁、x ₂、x ₃……x _tn个向量顺序组成，其中每个在先向量对应的每个向量向后项向量提供权重O _t(t＝[1,n])。例如：x ₁的权重为O ₁，权重矩阵为Z，对x ₂进行加权需要结合权重矩阵，以及O ₁，其中O ₁具体为和x ₁相关的数值，并通过相应的向量积O ₁*x ₂*Z，对位相O ₁*Z+x ₂加，拼接

等方式，对特征矩阵中的向量x ₂进行加权。其中所述运算符+为运算符两侧的向量中对位元素数量相加，运算符

为运算符两侧的向量或矩阵拼接为矩阵。显然，通过前项向量对后项向量提供权重的方式，不限于上述方案，通过前项内容，对后项内容加权，以将前项声音事件对后项的的影响传递给后项，后项向量加权的方式均属于本方案的具体实施方式。

步骤S400，将加权后的所述特征矩阵输入到全连接层中，通过全连接获取概率矩阵，其中所述概率矩阵的维数与声音事件的种类数量相对应。

对加权之后的特征矩阵进行全连接，全连接层设置在权重门控循环层之后，目的是调整矩阵维度，形成维度与声音事件种类数量相当的概率矩阵。获取的概率矩阵中每一个维度的向量对应的一种声音事件发生的概率，全连接层使用的神经元个数与所述声音事件的检测个数相同，如果对n中声音事件进行检测，则全连接层的神经元个数为n，如此输出n维矩阵，包括了n个反应特定声音事件发生概率的向量。即，概率矩阵中每一个维度的向量对应一种声音事件发生的概率。

步骤S600，根据所述概率矩阵，确定发生的目标声音事件。

根据概率矩阵中的向量提供的与声音事件对应的概率，确定在一段音频中，声音事件是否发生，并且确定发生的目标声音事件。

本申请通过对提取的声音源做特征提取得到包括若干向量的特征矩阵，之后，在权重门循环层中根据特征矩阵中的前一项向量的权重，配合训练好的权重矩阵，对特征矩阵中的后一项向量进行加权，使得特征矩阵之中前一项向量中的声音事件的特征对后一项影响，降低加权过程中隐含层对声音特征的影响，使得帧与帧之间声音事件的特征能够形成连续的反馈，对持续时间短的声音特征和持续事件长的声音特征，都能够通过加权有效的突出出来，之后进行连接获得与声音事件的种类相对应的概率矩阵。并根据概率确定每种声音事件的发生情况，并且确定发生的目标声音事件。该方案能够精确的同时对多个声音事件进行检测。

需要强调的是，为进一步保证上述多种声音事件的检测方法信息的私密和安全性，上述声源矩阵、概率矩阵、特征矩阵信息还可以存储于一区块链的节点中。

进一步的，所述特征提取网络包括门控线性激活函数下的卷积层和最大池化层，所述门控线性激活函数下的卷积层和最大池化层分别至少设置有一组，并且所述门控线性激活函数下的卷积层和最大池化层依次间隔设置；

所述步骤S200，将所述声源矩阵输入到训练好的特征提取网络，以提取声音事件的特征矩阵，具体包括：

步骤S201，将声源矩阵输入到所述门控线性激活函数下的卷积层进行卷积操作，并且施加门控，以获取中间矩阵；

具体的，本实施例中使用的门控线性激活函数为：

Y＝(W*X+b)☉sigmoid(V*X+c)

其中W和V分别为数量和大小相同的卷积核，更佳的，本实施例中使用的卷积核为3*3卷积核，这样的卷积核设置有128个，以提供128个通道进行卷积，b和c是通过训练获取的偏移量，X为特征矩阵，通过sigmoid激活函数在门控下对卷积结果进行激活，以获取特征矩阵。

通过施加门控能够使得声源矩阵提取的特征矩阵的数据更为平滑，如此提取的特征更为准确集中。

步骤S202，将所述门控线性激活函数下的卷积层输出的中间矩阵输入到最大池化层中进行降维，以输出特征矩阵。

通过池化防止特征矩阵过度拟合，保证特征矩阵的提取精度。

该方案通过对卷积结果实施门控，使得特征矩阵的特征提取准确和集中，提升了特征提取的准确性。

进一步的，所述步骤S300，将所述特征矩阵输入到训练好的权重门控循环层，根据权重门控循环层的权重矩阵和所述特征矩阵中的前项向量的权重，对所述特征矩阵中对应的后项向量加权，得到加权后的特征矩阵，具体包括：

步骤S301：获取特征矩阵中每个向量所对应的激活值。

具体的，本实施例中，权重门控循环层中隐含层的计算过程为：

其中g为激活函数，本实施例中用的是双曲正切函数；h _t是t时刻的激活值，h _t-1是t-1时刻的激活值，x _t是特征矩阵中t时刻对应的向量。Y和U分别是与x _t和x _t-1对应的权重矩阵，ω是在计算x _t的激活值的时候对x _t-1施加的权值。b是偏移量。当t＝1时，没有前项向量，对其加权可仅仅使用训练得到的特征矩阵和参数进行加权，当t>1时，结合前项的激活值和训练的到的特征矩阵和参数进行加权。

在本实施例中，当t>1时加权的过程分为两个阶段：

第一次加权，即Y*x _t，是通过第一权重矩阵对特征矩阵中的一个向量进行加权，以突出向量中声音事件相关的特征。

第二次加权，即ωUh _t-1+b，是根据每个向量的前项向量声音事件出现和延续的比重对向量进行的加权，这一加权通过前项的激活值以及第二权重矩阵，还有对前项向量附加的权值体现，上述权值在前项声音事件向后持续，对后项向量有所影响时，权值就大，反之，如果前项中的声音事件向后没有延续，或对后项向量的影响减弱，权值就小。其中第一权重矩阵和第二权重矩阵分别通过训练确定。二次加权能够克服序列性网络中，向量序列化的影响，即当序列当中前项向量中的声音事件持续时间短，那么对后项向量的加权就小，如果前项向量中的声音事件持续时间长，那么对后项向量的加权就大。如此加权后的特征矩阵即能够有效展示持续时间短的声音事件，也能够有效展示持续时间长的声音事件。

步骤S302：将所述激活值拼接以获得加权后的特征矩阵。

具体的，激活值为与特征向量向对应的向量，各个激活值的维数是相同的，将维数相同的激活值依次排列，以获得加权后的特征矩阵

在本实施例前项向量的激活值能够体现出前项向量包含的特征，如果前项向量和后项向量的特征相关性高，那么前项向量对后项向量的加权过程影响就强，其次对前项向量施加权值，能够反应声音事件延续的时间长短，如果声音事件延续的时间比较长，那么施加的权值就比较高，保持相应的声音事件的特征能够保持，相反，如果声音事件延续的时间短，那么施加的权值就比较低，声音事件的特征就会被及时放弃，而不影响到后续向量的特征展示。

因此，该方案能够通过权重的调整，突出声音事件的特征，提升了概率矩阵提取的准确性。

进一步的，所述步骤S400，对加权后的所述特征矩阵进行全连接，以获取概率矩阵之后，该方法还包括：

步骤S500，通过softmax函数对概率矩阵所对应的声音事件分类，所述声音事件分类与概率矩阵中的向量相对应。

通过softmax函数对概率矩阵进行映射和时间分类，能够使得各个声音事件发生的概率整理到0到1之间，当声音事件的发声概率接近于1时，确定该声音事件很有可能发生，这样有利于更加直观的反应声音事件是否发生。

进一步的，所述步骤S100，从声源数据提取声源矩阵，具体包括：

步骤S101，根据帧长和帧移量分割声源数据，提取音频帧；

声源数据一般会限定时长，根据时长接取声源数据，多种声音的判断方法就是对这一段时长范围内的声源数据进行多种声音事件的检测，在本实施例中，每段声源数据的时长是10s，在10s的声源数据中，通过100ms的帧长，和23ms的帧移截取音频帧，由此共能截取到431个音频帧。

具体10s＝10000ms，第1个音频帧的时间范围：0-100ms，第2帧23ms-123ms,前后连续的帧是有重合的部分的，所以第n帧就是[23*(n-1)ms,23*(n-1)+100ms]时间范围内的音频，而23*(n-1)+100<＝10000ms，所以10s的声源数据可以解出n<＝431.43,n是整数，所以n＝431，可见，相邻的两个音频帧中的音频数据是部分重叠的，这样也有利于后续特征提取和加权的过程当中，声音事件的特征能够连续，易于捕捉。

本申请中，10s这个值是本实施例分析判断的最小单位，如果获取的声源数据很长，可以按照可分析的最小单位将该声源数据进行切割，得到多段子数据，对每一段子数据进行声音检测，判断有什么声音事件发生，当然，在其他实施方式中，每段声源数据的时长也可也根据实际需要进行调整。

步骤S102，根据FBANK格式提取所述音频帧为音频向量；

FBANK是一种针对音频的特征提取格式，对于一段音频，能够在提取特征之后通过向量的形式对音频进行记录和存储，其中每个向量，对应的是一个时间段内的音频数据，在本实施例中，每个音频帧中的音频数据都通过FBANK格式生成一个向量进行存储，在本实施例汇总每个音频帧对应的音频向量的维数为64维。

步骤S103，将音频向量拼接，以获取声源矩阵。

音频向量拼接所得的声源矩阵为431*64的声源矩阵。

该方案将声源数据中的数据，以时间为分割，通过向量进行提取，有利于后续在音频帧的维度上对声源数据进行特征提取和加工，最终反映出整段音频中声音事件发生的概率。该方案对音频数据的存储有利于提升声音检测的检测效率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图2，作为对上述图1所示方法的实现，本申请提供了一种多种声音事件的检测装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

为了解决上述技术问题，本申请实施例提供的一种多种声音事件的检测装置，采用了如下所述的技术方案：

多种声音事件的检测装置，包括，

声源提取模块100，从声源数据提取声源矩阵；

特征提取模块200，用于将所述声源矩阵输入到训练好的特征提取网络，以提取声音事件的特征矩阵；

权重加权模块300，用于将所述特征矩阵输入到训练好的权重门控循环层，根据权重门控循环层的权重矩阵和所述特征矩阵中的前项向量的权重，对所述特征矩阵中对应的后项向量加权，得到加权后的特征矩阵；

全连接模块400，用于将加权后的所述特征矩阵输入到全连接层中，通过全连接获取概率矩阵，其中所述概率矩阵的维数与声音事件的种类数量相对应；

确定模块600，用于根据所述概率矩阵，确定发生的目标声音事件。

本申请通过对提取的声音源做特征提取得到包括若干向量的特征矩阵，之后，在权重门循环层中根据特征矩阵中的前一项向量的权重，配合训练好的权重矩阵，对特征矩阵中的后一项向量进行加权，使得特征矩阵之中前一项向量中的声音事件的特征对后一项影响，降低加权过程中隐含层对声音特征的影响，使得帧与帧之间声音事件的特征能够形成连续的反馈，对持续时间短的声音特征和持续事件长的声音特征，都能够通过加权有效的突出出来，之后进行连接和池化获得与声音事件的种类相对应的概率矩阵。并根据概率确定每种声音事件的发生情况，该方案能够精确的同时对多个声音事件进行检测。

所述特征提取模块200，具体包括：

特征提取子模块201，用于将声源矩阵输入到所述门控线性激活函数下的卷积层进行卷积操作，并且施加门控，以获取中间矩阵；

特征池化子模块202，用于将所述门控线性激活函数下的卷积层输出的中间矩阵输入到最大池化层中进行降维，以输出特征矩阵。

具体的，本实施例中使用的门控现行激活函数为：

Y＝(W*X+b)☉sigmoid(V*X+c)

其中W和V分别为卷积核，更佳的，本实施例中使用的卷积核为3*3卷积核，这样的卷积核设置有128个，以提供128个通道进行卷积，b和c是通过训练获取的偏移量，X为特征矩阵，通过sigmoid激活函数在门控下对卷积结果进行激活，以获取特征矩阵。该方案通过对卷积结果实施门控，使得特征矩阵的特征提取准确和集中，提升了特征提取的准确性。

进一步的，所述权重加权模块300具体包括：

激活值确定子模块301，用于获取特征矩阵中每个向量所对应的激活值。

特征加权子模块302，用于将所述激活值拼接以获得加权后的特征矩阵。

具体的，本实施例中，用于激活值确定子模块301中的权重门控循环层中隐含层的计算过程为：

h _t＝g(Y*x _t+ωUh _t-1+b)

其中g为激活函数，本实施例中用的是双曲正切函数；h _t是t时刻的激活值，h _t-1是t-1时刻的激活值，x _t是特征矩阵中t时刻对应的向量。Y和U分别是与x _t和x _t-1对应的权重矩阵，ω是在计算x _t的激活值的时候对x _t-1施加的权值。b是偏移量。

该方案能够通过权重的调整，突出声音事件的特征，提升了概率矩阵提取的准确性。

进一步的，多种声音事件的检测装置，还包括概率整理模块500，通过softmax函数对概率矩阵所对应的声音事件分类，所述声音事件分类与概率矩阵中的向量相对应。

通过softmax函数对概率矩阵进行映射和时间分类，能够使得各个声音事件发生的概率整理到0到1之间，有利于更加直观的反应声音事件是否发生。

进一步的，所述声源提取模块100具体包括：

音频帧提取子模块101，用于根据帧长和帧移量分割声源数据，提取音频帧。

音频向量提取子模块102，用于根据FBANK格式提取所述音频帧为音频向量。

声源矩阵拼接子模块103，用于将音频向量拼接，以获取声源矩阵。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图3，图3为本实施例计算机设备基本结构框图。

所述计算机设备6包括通过系统总线相互通信连接存储器61、处理器62、网络接口63。需要指出的是，图中仅示出了具有组件61-63的计算机设备6，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器61至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。所述计算机可读存储介质可以是非易失性，也可以是易失性。在一些实施例中，所述存储器61可以是所述计算机设备6的内部存储单元，例如该计算机设备6的硬盘或内存。在另一些实施例中，所述存储器61也可以是所述计算机设备6的外部存储设备，例如该计算机设备6上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器61还可以既包括所述计算机设备6的内部存储单元也包括其外部存储设备。本实施例中，所述存储器61通常用于存储安装于所述计算机设备6的操作系统和各类应用软件，例如多种声音事件的检测方法的计算机可读指令等。此外，所述存储器61还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器62在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器62通常用于控制所述计算机设备6的总体操作。本实施例中，所述处理器62用于运行所述存储器61中存储的计算机可读指令或者处理数据，例如运行所述多种声音事件的检测方法的计算机可读指令。

所述网络接口63可包括无线网络接口或有线网络接口，该网络接口63通常用于在所述计算机设备6与其他电子设备之间建立通信连接。

本实施例提供的计算机设备，在执行多种声音的检测方法时，对提取的声音源做特征提取得到包括若干向量的特征矩阵，之后，在权重门循环层中根据特征矩阵中的前一项向量的权重，配合训练好的权重矩阵，对特征矩阵中的后一项向量进行加权，使得特征矩阵之中前一项向量中的声音事件的特征对后一项影响，降低加权过程中隐含层对声音特征的影响，使得帧与帧之间声音事件的特征能够形成连续的反馈，对持续时间短的声音特征和持续事件长的声音特征，都能够通过加权有效的突出出来，之后进行连接获得与声音事件的种类相对应的概率矩阵。并根据概率确定每种声音事件的发生情况，该方案能够精确的同时对多个声音事件进行检测。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有多种声音事件的检测方法计算机可读指令，所述多种声音事件的检测方法计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的多种声音事件的检测方法的步骤。

本实施例提供的计算机可读存储介质所记录的计算机可读指令，在执行多种声音的检测方法时，对提取的声音源做特征提取得到包括若干向量的特征矩阵，之后，在权重门循环层中根据特征矩阵中的前一项向量的权重，配合训练好的权重矩阵，对特征矩阵中的后一项向量进行加权，使得特征矩阵之中前一项向量中的声音事件的特征对后一项影响，降低加权过程中隐含层对声音特征的影响，使得帧与帧之间声音事件的特征能够形成连续的反馈，对持续时间短的声音特征和持续事件长的声音特征，都能够通过加权有效的突出出来，之后进行连接获得与声音事件的种类相对应的概率矩阵。并根据概率确定每种声音事件的发生情况，该方案能够精确的同时对多个声音事件进行检测。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

一种多种声音事件的检测方法，该方法包括：

从声源数据提取声源矩阵；

将所述声源矩阵输入到训练好的特征提取网络，以提取声音事件的特征矩阵；

将所述特征矩阵输入到训练好的权重门控循环层，根据权重门控循环层的权重矩阵和所述特征矩阵中的前项向量的权重，对所述特征矩阵中对应的后项向量加权，得到加权后的特征矩阵；

将加权后的所述特征矩阵输入到全连接层中，通过全连接获取概率矩阵，其中所述概率矩阵的维数与声音事件的种类数量相对应；

根据所述概率矩阵，确定发生的目标声音事件。
根据权利要求1所述的多种声音事件的检测方法，其中，

所述特征提取网络包括门控线性激活函数下的卷积层和最大池化层，所述门控线性激活函数下的卷积层和最大池化层分别至少设置有一组，并且所述门控线性激活函数下的卷积层和最大池化层依次间隔设置；

所述将所述声源矩阵输入到训练好的特征提取网络，以提取声音事件的特征矩阵，具体包括：

将声源矩阵输入到所述门控线性激活函数下的卷积层进行卷积操作，并且施加门控，以获取中间矩阵；

将所述门控线性激活函数下的卷积层输出的中间矩阵输入到最大池化层中进行降维，以输出特征矩阵。
根据权利要求2所述的多种声音事件的检测方法，其中，所述将声源矩阵输入到所述门控线性激活函数下的卷积层进行卷积操作，并且施加门控，以获取中间矩阵，具体通过以下公式获得：

Y＝(W*X+b)☉sigmoid(V*X+c)

其中Y为中间矩阵，W和V分别为数量和大小相同的卷积核，b和c是通过训练获取的偏移量，X为所述声源矩阵。
根据权利要求1所述的多种声音事件的检测方法，其中，所述权重矩阵包括第一权重矩阵和第二权重矩阵，所述将所述特征矩阵输入到训练好的权重门控循环层，根据权重门控循环层的权重矩阵和所述特征矩阵中的前项向量的权重，对所述特征矩阵中对应的后项向量加权，得到加权后的特征矩阵，具体包括：

通过以下公式获取特征矩阵中每个向量所对应的激活值：

其中g为激活函数；h _t是x _t所对应的激活值，h _t-1是x _t-1所对应的激活值，x _t是特征矩阵中t时刻对应的向量，Y是第一权重矩阵，U是第二权重矩阵，ω是在计算x _t的激活值的时候对x _t-1施加的权值，b和c是偏移量；

将所述激活值拼接以获得加权后的特征矩阵。
根据权利要求1所述的多种声音事件的检测方法，其中，所述对加权后的所述特征矩阵进行全连接，以获取概率矩阵之后，该方法还包括：

通过softmax函数对概率矩阵所对应的声音事件分类，所述分类的数量与概率矩阵中的维数一致。
根据权利要求1所述的多种声音事件的检测方法，其中，所述从声源数据提取声源矩阵，具体包括：

根据帧长和帧移量分割声源数据，提取音频帧；

根据FBANK格式提取所述音频帧为音频向量；

将音频向量拼接，以获取声源矩阵。
一种多种声音事件的检测装置，包括，

声源提取模块，用于从声源数据提取声源矩阵；

特征提取模块，用于将所述声源矩阵输入到训练好的特征提取网络，以提取声音事件的特征矩阵；

权重加权模块，用于将所述特征矩阵输入到训练好的权重门控循环层，根据权重门控循环层的权重矩阵和所述特征矩阵中的前项向量的权重，对所述特征矩阵中对应的后项向量加权，得到加权后的特征矩阵；

全连接模块，用于将加权后的所述特征矩阵输入到全连接层中，通过全连接获取概率矩阵，其中所述概率矩阵的维数与声音事件的种类数量相对应；

确定模块，用于根据所述概率矩阵，确定发生的目标声音事件。
根据权利要求7所述的多种声音事件的检测装置，其中，

所述权重矩阵包括第一权重矩阵和第二权重矩阵，所述权重加权模块具体包括：

激活值确定子模块，用于通过以下公式获取特征矩阵中每个向量所对应的激活值：

其中g为激活函数；h _t是x _t所对应的激活值，h _t-1是x _t-1所对应的激活值，x _t是特征矩阵中t时刻对应的向量，Y是第一权重矩阵，U是第二权重矩阵，ω是在计算x _t的激活值的时候对x _t-1施加的权值，b和c是偏移量；

特征加权子模块，用于将所述激活值拼接以获得加权后的特征矩阵。
一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时还实现如下步骤：

从声源数据提取声源矩阵；

将所述声源矩阵输入到训练好的特征提取网络，以提取声音事件的特征矩阵；

将所述特征矩阵输入到训练好的权重门控循环层，根据权重门控循环层的权重矩阵和所述特征矩阵中的前项向量的权重，对所述特征矩阵中对应的后项向量加权，得到加权后的特征矩阵；

将加权后的所述特征矩阵输入到全连接层中，通过全连接获取概率矩阵，其中所述概率矩阵的维数与声音事件的种类数量相对应；

根据所述概率矩阵，确定发生的目标声音事件。
根据权利要求9所述的计算机设备，其中，

所述特征提取网络包括门控线性激活函数下的卷积层和最大池化层，所述门控线性激活函数下的卷积层和最大池化层分别至少设置有一组，并且所述门控线性激活函数下的卷积层和最大池化层依次间隔设置；

所述将所述声源矩阵输入到训练好的特征提取网络，以提取声音事件的特征矩阵，具体包括：

将声源矩阵输入到所述门控线性激活函数下的卷积层进行卷积操作，并且施加门控，以获取中间矩阵；

将所述门控线性激活函数下的卷积层输出的中间矩阵输入到最大池化层中进行降维，以输出特征矩阵。
根据权利要求10所述的计算机设备，其中，所述将声源矩阵输入到所述门控线性激活函数下的卷积层进行卷积操作，并且施加门控，以获取中间矩阵，具体通过以下公式获得：

Y＝(W*X+b)☉sigmoid(V*X+c)

其中Y为中间矩阵，W和V分别为数量和大小相同的卷积核，b和c是通过训练获取的偏移量，X为所述声源矩阵。
根据权利要求9所述的计算机设备，其中，所述权重矩阵包括第一权重矩阵和第二权重矩阵，所述将所述特征矩阵输入到训练好的权重门控循环层，根据权重门控循环层的权重矩阵和所述特征矩阵中的前项向量的权重，对所述特征矩阵中对应的后项向量加权，得到加权后的特征矩阵，具体包括：

通过以下公式获取特征矩阵中每个向量所对应的激活值：

其中g为激活函数；h _t是x _t所对应的激活值，h _t-1是x _t-1所对应的激活值，x _t是特征矩阵中t时刻对应的向量，Y是第一权重矩阵，U是第二权重矩阵，ω是在计算x _t的激活值的时候对x _t-1施加的权值，b和c是偏移量；

将所述激活值拼接以获得加权后的特征矩阵。
根据权利要求9所述的计算机设备，其中，所述对加权后的所述特征矩阵进行全连接，以获取概率矩阵之后，所述处理器执行所述计算机可读指令时还实现如下步骤：

通过softmax函数对概率矩阵所对应的声音事件分类，所述分类的数量与概率矩阵中的维数一致。
根据权利要求9所述的计算机设备，其中，所述从声源数据提取声源矩阵，具体包括：

根据帧长和帧移量分割声源数据，提取音频帧；

根据FBANK格式提取所述音频帧为音频向量；

将音频向量拼接，以获取声源矩阵。
一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时，使得所述处理器还执行如下步骤：

从声源数据提取声源矩阵；

将所述声源矩阵输入到训练好的特征提取网络，以提取声音事件的特征矩阵；

将所述特征矩阵输入到训练好的权重门控循环层，根据权重门控循环层的权重矩阵和所述特征矩阵中的前项向量的权重，对所述特征矩阵中对应的后项向量加权，得到加权后的特征矩阵；

将加权后的所述特征矩阵输入到全连接层中，通过全连接获取概率矩阵，其中所述概率矩阵的维数与声音事件的种类数量相对应；

根据所述概率矩阵，确定发生的目标声音事件。
根据权利要求15所述的计算机可读存储介质，其中，

所述特征提取网络包括门控线性激活函数下的卷积层和最大池化层，所述门控线性激活函数下的卷积层和最大池化层分别至少设置有一组，并且所述门控线性激活函数下的卷积层和最大池化层依次间隔设置；

所述将所述声源矩阵输入到训练好的特征提取网络，以提取声音事件的特征矩阵，具体包括：

将声源矩阵输入到所述门控线性激活函数下的卷积层进行卷积操作，并且施加门控，以获取中间矩阵；

将所述门控线性激活函数下的卷积层输出的中间矩阵输入到最大池化层中进行降维，以输出特征矩阵。
根据权利要求16所述的计算机可读存储介质，其中，所述将声源矩阵输入到所述门控线性激活函数下的卷积层进行卷积操作，并且施加门控，以获取中间矩阵，具体通过以下公式获得：

Y＝(W*X+b)☉sigmoid(V*X+c)

其中Y为中间矩阵，W和V分别为数量和大小相同的卷积核，b和c是通过训练获取的偏移量，X为所述声源矩阵。
根据权利要求15所述的计算机可读存储介质，其中，所述权重矩阵包括第一权重矩阵和第二权重矩阵，所述将所述特征矩阵输入到训练好的权重门控循环层，根据权重门控循环层的权重矩阵和所述特征矩阵中的前项向量的权重，对所述特征矩阵中对应的后项向量加权，得到加权后的特征矩阵，具体包括：

通过以下公式获取特征矩阵中每个向量所对应的激活值：

其中g为激活函数；h _t是x _t所对应的激活值，h _t-1是x _t-1所对应的激活值，x _t是特征矩阵中t时刻对应的向量，Y是第一权重矩阵，U是第二权重矩阵，ω是在计算x _t的激活值的时候对x _t-1施加的权值，b和c是偏移量；

将所述激活值拼接以获得加权后的特征矩阵。
根据权利要求15所述的计算机可读存储介质，其中，所述对加权后的所述特征矩阵进行全连接，以获取概率矩阵之后，所述计算机可读指令被所述处理器执行时，使得所述处理器还执行如下步骤：

通过softmax函数对概率矩阵所对应的声音事件分类，所述分类的数量与概率矩阵中的维数一致。
根据权利要求15所述的计算机可读存储介质，其中，所述从声源数据提取声源矩阵，具体包括：

根据帧长和帧移量分割声源数据，提取音频帧；

根据FBANK格式提取所述音频帧为音频向量；

将音频向量拼接，以获取声源矩阵。