WO2020006935A1

WO2020006935A1 - 动物声纹特征提取方法、装置及计算机可读存储介质

Info

Publication number: WO2020006935A1
Application number: PCT/CN2018/111658
Authority: WO
Inventors: 王健宗; 蔡元哲; 程宁; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-07-05
Filing date: 2018-10-24
Publication date: 2020-01-09
Also published as: CN108899037B; CN108899037A

Abstract

一种动物声纹特征提取方法、装置及计算机非易失性可读存储介质，涉及动物身份识别技术领域，可以准确提取动物声纹特征，进而提高动物身份识别效果。方法包括：获取动物语音数据（S101）；从动物语音数据中提取动物语音特征向量（S102）；将动物语音特征向量输入至卷积神经网络模型进行训练，得到用于识别动物身份的动物声纹特征（S103）。

Description

动物声纹特征提取方法、装置及计算机可读存储介质

本申请要求于2018年7月5日提交中国专利局、申请号为2018107292687、申请名称为“动物声纹特征提取方法、装置及电子设备”的中国专利申请的优先权，其全部内容通过引用结合在申请中。

技术领域

本申请涉及动物身份识别技术领域，尤其是涉及到动物声纹特征提取方法、装置及计算机非易失性可读存储介质。

背景技术

在最新的动物身份识别系统中，可以采用提取动物声纹特征来识别动物身份信息，进而确定动物身份。声纹识别是生物识别的一种，不同物种、不同个体均有其独特的声纹信息，人类可以通过动物声音区分出来是哪种动物，但是对于同一物种的不同个体发出的声音通过人耳确很难直接识别出来。

具体在动物身份识别过程中，实验测试的技术人员会将动物语音数据经过处理后放入语音库中，建立动物声纹特征库，通过动物声纹特征库记录动物的身份信息，进一步对确定身份的动物语音数据进行标签，从而确定动物身份，以便于在需要验证动物身份信息时，通过将待识别动物语音数据与动物声纹特征库中的动物语音数据进行比对，识别动物身份信息。

现有的动物声纹特征提取方法通常是将动物声音信号转换为语谱图，语谱图是声音信号的一种图像化表示方式，声音在各个频率点的幅值大小用颜色来区分，再通过不同的处理手段得到动物声纹特征。然而，通过分析语谱图的方式来提取动物声纹特征的准确度较低，使得动物声纹特征提取准确度受影响，另外，在提取动物声纹特征的过程中，环境的嘈杂以及多种声音的混杂都会影响声纹提取的效果。

发明内容

本申请实施例提供了动物声纹特征提取方法、装置及计算机非易失性可读存储介质，解决了相关技术中无法准确提取动物声纹特征的问题。

根据本申请实施例的第一方面，提供一种动物声纹特征提取方法，所述方法包括：

获取动物语音数据；

从所述动物语音数据中提取动物语音特征向量；

将所述动物语音特征向量输入至卷积神经网络模型进行训练，得到用于识别动物身份的动物声纹特征。

根据本申请实施例的第二方面，提供一种动物声纹特征提取装置，所述装置包括：

获取单元，用于获取动物语音数据；

提取单元，用于从所述动物语音数据中提取动物语音特征向量；

训练单元，用于将所述动物语音特征向量输入至卷积神经网络模型进行训练，得到用于识别动物身份的动物声纹特征。

根据本申请实施例的第三方面，提供一种计算机非易失性可读存储介质，其上存储有计算机可读指令，该程序被处理器执行时实现以下步骤：

获取动物语音数据；

从所述动物语音数据中提取动物语音特征向量；

根据本申请实施例的第四方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，所述处理器执行所述程序时实现以下步骤：

获取动物语音数据；

从所述动物语音数据中提取动物语音特征向量；

通过本申请，从动物语音数据中提取动物语音特征向量，由于动物语音特征向量具有计算简单，区分能力好等优点，通过将动物语音特征向量输入至卷积神经网络模型进行训练，进而提取动物声纹特征，与现有技术通过语谱图的方式来提取动物声纹特征的方法相比，本申请实施例采用更先进的声纹提取技术，通过卷积神经网络模型对动物语音特征向量进行反复训练，从而准确提取动物声纹特征，进而提高动物身份识别效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种动物声纹特征提取方法的流程图；

图2是根据本申请实施例的另一种动物声纹特征提取方法的流程图；

图3是根据本申请实施例的一种动物声纹特征提取装置的结构框图；

图4是根据本申请实施例的另一种动物声纹特征提取装置的结构框图；

图5是根据本申请实施例的动物声纹特征提取装置400的框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

在本实施例中提供了一种动物声纹特征提取方法，图1是根据本申请实施例的一种动物声纹特征提取方法的流程图，如图1所示，该流程包括如下步骤：

步骤S101，获取动物语音数据；

其中，动物语音数据为动物发出声音的数据，相当于动物交流的独特的声音数据，例如，蜜蜂通过翅膀发出声音来传递信息，海豚能像人一样发出悦耳的音符，猪叫声音也可以传递很多信息，如判断猪只的健康情况，识别猪只的身份信息等。

对于本申请实施例，该动物语音数据为从动物身上采集到的音频数据，具体可以通过在动物身上安装采集设备来获取动物语音数据，也可以通过在动物生活场所内安装采集设备，本申请实施例不进行限定，为了保证获取到更准确的动物语音数据，通常在动物脖子上安装可佩带传感器来获取动物语音数据。

步骤S102，从所述动物语音数据中提取动物语音特征向量；

通常情况下，根据参数的稳定性可以将动物语音特征向量分为两大类，一类用于反映动物固有特性(如声道结构等)，这类动物语音特征向量主要表现在语音的频谱结构上，包含反映声道共振的频谱包络特征信息和反映声带振动等声源特征的频谱细节构造特征信息，具有代表性的特征参数有基因和共振峰，这类特征不易被模仿，但容易受到健康状况影响；另一类用于反映动物声道运动特征，即发音方式、发音习惯等，主要表现在语音频谱结构随时间的变化上，具有代表性的特征参数有倒谱系数，包含了特征参数的动态特性，这类特征相对稳定且容易被模仿。

对于本申请实施例，动物语音特征向量包含有动物语音数据中的独特的语音信息，相当于后续动物声纹特征提取的准备阶段，通过从动物语音数据中提取动物语音特征向量，可以从动物语音数据中提取出对动物身份识别的有用信息，去掉无关的冗余信息。

步骤S103，将所述动物语音特征向量输入至卷积神经网络模型进行训练，得到用于识别动物身份的动物声纹特征。

对于本申请实施例，这里的卷积神经网络模型为可以通过反复训练动物语音特征向量实现提取动物声纹特征的网络结构，该网络结构可以对动物语音特征向量进行训练，并给出正确的输入-输出关系。

具体卷积神经网络模型的结构可以通过卷积层、全连接层以及池化层结构实现，这里的卷积层相当于卷积神经网络的隐含层，可以为多层结构，用于提取更深层次的动物声纹特征；在卷积神经网络模型中，为了减小参数，减低计算，常常在连续卷积层中间隔插入池化层；这里的全连接层与卷积层相似，卷积层的神经元和上一层输出局部区域相连，当然为了减少输出特征向量过多，可以设置两个全连接层，在动物语音特征向量通过若干个卷积层训练后对训练输出的特征向量进行整合。

动物声纹信息是唯一能够识别动物的声音特征，是用电声学仪器显示的携带语言信息的声波频谱图形，虽然动物的发音器官生理构造总是相同的，但是动物在发声过程中使用的器官在尺寸和形态上差异很大，而不同的声道特征也决定了声纹的唯一性，且具有长期稳定的特征信号。

图2是根据本申请实施例的另一动物声纹特征提取方法的流程图，如图2所示，该方法包括以下步骤：

步骤S201，获取动物语音数据。

应说明的是，这里获取动物语音数据的具体方式与步骤S101中采用相同的实现方式，在此不进行赘述。

对于本申请实施例，考虑到选取动物的种类以及数量问题，如果记录动物语音数据时间过久，则每种动物或者每只动物需要花费大量的处理时间，通过设置预设时间段来控制语音数据采集的时间长度，方便后续对动物语音数据的处理。

步骤S202，对动物语音数据进行预处理，得到处理后的动物语音数据。

对于本申请实施例，预处理可以包括采样量化、预加重、取音框以及加窗等操作。采样量化的目的是将时间、幅值上都连续的动物语音序列转换为在时间上离散、幅值上仍然连续的离散模拟信号，并用规定的数值来表示动物语音序列的幅值。预加重的作用就是为了消除动物发生过程中声带和嘴唇造成的效应，来补偿动物语音序列收到发音系统所压抑的高频部分，并且能突出高频的共振峰。取音框的作用是将动物语音数据进行音框化，通常设置N个取样点集合作为一个观测单位，即一个音框。加窗作用是消除动物语音数据两端的不连续性，避免分析时受到前后相连音框的影响。

步骤S203，按照预设时间区间对处理后的动物语音数据进行分帧操作，得到多帧动物语音序列。

对于本申请实施例，动物语音数据并非是稳定的音频信号，通过按照预设时间区间对处理后的动物语音数据进行分帧操作，得到多帧动物语音序列，进而将每一帧动物语音序列看成稳定的音频信号，以便于后续对动物语音序列进行处理。

例如，对动物语音数据进行分帧，通常设置预设时间区间为200～400ms，当然这里不进行限定，具体根据实际情况确定。

步骤S204，从动物语音数据中提取动物语音特征向量。

其中，动物语音特征向量是能够反映动物个体信息的基本特征，这些基本特征必须能够准确、有效地区分不同的发音动物，且对于同一个体，这些基本特征应具有稳定性。

对于不同的动物语音特征向量具有不同的特征参数，而不同的特征参数具有不同的物理意义，例如，基因以及共振峰是表征动物固有特征参数，以全极点模型为基础的LPC可以较为准确地反映动物语音序列的频谱幅度，倒谱系数反映了动物声道的共振特性，将较小的峰值信息和更重要的声道形状信息相分离。

对于本申请实施例，不同的动物语音特征向量具有不同的提取方式，当动物语音特征向量用于反映动物语音在频谱结构随时间变化的特征信息，可以通过下述实现方式从动物语音数据中提取动物语音特征向量，首先对每帧动物语音序列进行傅立叶变换得到每帧动物语音序列的频谱，并对每帧动物语音序列的频谱取模平方得到动物语音序列的功率谱，然后通过预设滤波器对所述动物语音序列的功率谱滤波，得到动物语音序列的对数能量，最后对所述动物语音序列的对数能量进行离散余弦变换，得到动物语音特征向量。当动物语音特征向量用于反映动物语音在频谱结构上的特征信息，可以通过下述实现方式从动物语音数据中提取动物语音特征向量，首先对每帧动物语音序列进行时域分析以及频域分析，然后计算每帧动物语音序列的时域特征参数以及频域特征参数，最后根据时域特征参数以及频域特征参数，得到动物语音特征向量。

通常情况下，MFCC特征是目前使用最为广泛的语音特征之一，具有计算简单、区分能力好等突出优点，可以在一定程度上模拟动物耳朵对语音的处理特点，识别效果较高，所以本申请实施例可以选取梅尔频率倒谱系数(MFCC特征)作为从动物语音数据中提取的动物语音特征向量，由于MFCC特征同样用于反映动物语音在频谱结构随时间变化的特征信息，具体MFCC特征的提取方式如上述步骤所述，在此不进行赘述。

步骤S205，将动物语音特征向量输入至卷积神经网络模型进行训练，得到用于识别动物身份的动物声纹特征。

对于本申请实施例，卷积神经网络模型为多层结构的网络模型，通过卷积神经网络模型的卷积层可以提取动物语音特征向量的局部声纹信息，该层相当于神经网络模型的隐含层，这里的局部声纹信息用于反映动物声纹信息的局部特征，可以设置多个卷积层，将提取到的局部声纹信息再次输入卷积层进行局部声纹信息提取，进而提取到更深层次的局部声纹信息；通过卷积神经网络模型的全连接层将提取到的局部声纹信息进行连接，得到多维度的局部声纹信息，为了减少输出大小和降低拟合过程，在得到多维度的局部声纹信息后，通过卷积神经网络模型的池化层对多维度的局部声纹信息进行降维处理，得到动物声纹特征。

需要说明的是，考虑到前后两帧语音特征向量之间的依赖性，在将动物语音特征向量输入至卷积神经网络模型的卷积层进行局部声纹信息提取的过程中，通过对每次输入至卷积神经网络模型卷积层的动物语音特征向量进行拼帧处理，以增加前后帧之间耦合的特征关系，例如，在第一层输入至卷积层的时候对前5帧动物语音特征向量进行拼帧，第二次输入至卷积层的时候对前9帧动物语音特征向量进行拼帧。

例如，设置神经网络模型的层数为15层，前11层作为卷积层，第1层为卷积层，将拼接前后5帧的动物语音向量特征作为第1层神经网络模型的输入参数，如果每帧83维的动物语音特征向量，共得到415维的动物语音特征向量作为输入参数，对动物语音特征向量进行局部声纹信息提取，输出提取到的局部声纹信息，第2层为全连接层，将提取到的局部声纹信息进行连接，第3层为卷积层，同理将第2层神经网络模型输出的局部声纹信息作为第3层神经网络模型的输入参数，对动物语音特征向量进行局部声纹信息提取，输出提取到的局部声纹信息，直至第11层卷积层输出局部声纹信息，第12层为池化层，将前11层训练输出的局部声纹信息进行整合，计算均值和方差，第13-15层为全连接层，对整合后的声纹特征进行降维，输出一维的动物声纹特征，提取出动物声纹特征。

进一步地，在对动物身份进行识别之前，为了保证动物声纹特征的准确度，可以通过对动物声纹特征进行提纯，得到最能够表现动物身份的声纹特征。

例如，通过LDA矩阵对所有1024为的动物声纹特征向量，输出保留可以最大程度表示动物声纹特征的特征向量，提高动物声纹特征的精度。

步骤S206，根据提取出的不同动物声纹特征，建立动物声纹特征库，不同动物声纹特征携带有唯一动物身份信息。

由于动物声纹特征相当于动物特有的标识信息，不同动物声纹特征携带有动物身份信息，为了方便对动物身份进行识别，根据提取出的不同动物声纹特征作为动物声纹样本，建立动物声纹特征库，该声纹特征库相当于存储不同动物声纹特征的数据库，并且每个动物声纹信息携带有动物标识信息，如数字或字母编号等形式，这里不进行限定。

需要说明的是，为了方便后续动物身份识别，可以预先对声纹特征库进行分类整理，如将不同动物物种，不同区域的动物或者不同年龄的动物进行划分，在对动物身份识别之前对无效的动物身份样本进行筛除，节省动物身份验证时间。

步骤S207，当接收到动物身份验证请求时，将待识别动物身份的动物声纹特征与动物声纹特征库中的动物声纹特征进行比对，确定动物身份信息。

由于动物声纹特征库中存储有不同动物声纹样本，在接收到动物身份验证请求时，通过上述步骤S201至步骤S205提取待识别动物身份的动物声纹特征，并将待识别动物身份的动物声纹特征与动物声纹特征库中的动物声纹特征逐一进行比对，从而确定动物身份信息。

通过本申请实施例，从动物语音数据中提取动物语音特征向量，由于动物语音特征向量具有计算简单，区分能力好等优点，通过将动物语音特征向量输入至卷积神经网络模型进行训练，进而提取动物声纹特征，与现有技术通过语谱图的方式来提取动物声纹特征的方法相比，本申请实施例采用更先进的声纹提取技术，通过卷积神经网络模型对动物语音特征向量进行反复训练，从而准确提取动物声纹特征，进而提高动物身份识别效果。

图3是根据本申请实施例的一种动物声纹特征提取装置的结构框图。参照图3，该装置包括获取单元31，提取单元32和训练单元33。

获取单元31，可以用于获取动物语音数据；

提取单元32，可以用于从动物语音数据中提取动物语音特征向量；

训练单元33，可以用于将动物语音特征向量输入至卷积神经网络模型进行训练，得到用于识别动物身份的动物声纹特征。

作为图3中所示动物声纹特征提取装置的进一步说明，图4是根据本申请实施例另一种动物声纹特征提取装置的结构示意图，如图4所示，该装置还包括：

预处理单元34，可以用于在获取动物语音数据之后，对动物语音数据进行预处理，得到处理后的动物语音数据；

分帧单元35，可以用于按照预设时间区间对处理后的动物语音数据进行分帧操作，得到多帧动物语音序列；

建立单元36，可以用于在将动物语音特征向量输入至卷积神经网络模型进行训练，得到用于识别动物身份的动物声纹特征之后，根据提取出的不同动物声纹特征，建立动物声纹特征库，该不同动物声纹特征携带有唯一动物身份信息；

比对单元37，可以用于当接收到动物身份验证请求时，将待识别动物身份的动物声纹特征与动物声纹特征库中的动物声纹特征进行比对，确定动物身份信息。

进一步地，当动物语音特征向量用于反映动物语音在频谱结构随时间变化的特征信息，提取单元32包括：

第一提取模块321，可以用于对每帧动物语音序列进行傅立叶变换得到每帧动物语音序列的频谱，并对每帧动物语音序列的频谱取模平方得到动物语音序列的功率谱；

第二提取模块322，可以用于通过预设滤波器对动物语音序列的功率谱滤波，得到动物语音序列的对数能量；

第三提取模块323，可以用于对动物语音序列的对数能量进行离散余弦变换，得到动物语音特征向量。

进一步地，当动物语音特征向量用于反映动物语音在频谱结构上的特征信息，提取单元32包括：

第四提取模块324，可以用于对每帧动物语音序列进行时域分析以及频域分析，计算每帧动物语音序列的时域特征参数以及频域特征参数；

第五提取模块325，可以用于根据时域特征参数以及频域特征参数，得到动物语音特征向量。

进一步地，训练单元33包括：

第六提取模块331，可以用于通过卷积神经网络模型的卷积层提取动物语音特征向量的局部声纹信息；

连接模块332，可以用于通过卷积神经网络模型的全连接层将提取到的局部声纹信息进行连接，得到多维度的局部声纹信息；

降维模块333，可以用于通过卷积神经网络模型的池化层对多维度的局部声纹信息进行降维处理，得到动物声纹特征。

进一步地，训练单元33还包括：

拼帧模块334，可以用于在通过卷积神经网络模型的卷积层提取动物语音特征向量的局部声纹信息之前，对每次输入至卷积神经网络模型卷积层的动物语音特征向量进行拼帧处理。

图5是根据本申请实施例的动物声纹特征提取装置400的框图。例如，可以是一个计算机设备，装置400可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，装置400可以包括以下一个或多个组件：处理组件402，存储器404，电源组件406，多媒体组件408，音频组件410，I/O(Input/Output，输入/输出)的接口412，传感器组件414，以及通信组件416。

处理组件402通常控制装置400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便于处理组件402和其他组件之间的交互。例如，处理组件402可以包括多媒体模块，以方便多媒体组件408和处理组件402之间的交互。

存储器404被配置为存储各种类型的数据以支持在装置400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如SRAM(Static Random Access Memory,静态随机存取存储器)，EEPROM(Electrically-Erasable Programmable Read-Only Memory,电可擦除可编程只读存储器)，EPROM(Erasable Programmable Read Only Memory,可擦除可编程只读存储器)，PROM(Programmable Read-Only Memory,可编程只读存储器)，ROM(Read-Only Memory,只读存储器)，磁存储器，快闪存储器，磁盘或光盘。

电源组件406为装置400的各种组件提供电力。电源组件406可以包括电源管理系统，一个或多个电源，及其他与为装置400生成、管理和分配电力相关联的组件。

多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括LCD(Liquid Crystal Display，液晶显示器)和TP(Touch Panel，触摸面板)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件408包括一个前置摄像头和/或后置摄像头。当装置400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件410被配置为输出和/或输入音频信号。例如，音频组件410包括一个MIC(Microphone,麦克风)，当装置400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中，音频组件410还包括一个扬声器，用于输出音频信号。

I/O接口412为处理组件402和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件414包括一个或多个传感器，用于为装置400提供各个方面的状态评估。例如，传感器组件414可以检测到设备400的打开/关闭状态，组件的相对定位，例如组件为装置400的显示器和小键盘，传感器组件414还可以检测装置400或装置400一个组件的位置改变，用户与装置400接触的存在或不存在，装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器，如CMOS(Complementary Metal Oxide Semiconductor，互补金属氧化物)或CCD(Charge-coupled Device，电荷耦合元件)图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件416还包括NFC(Near Field Communication,近场通信)模块，以促进短程通信。例如，在NFC模块可基于RFID(Radio Frequency Identification,射频识别)技术，IrDA(Infra-red Data Association,红外数据协会)技术，UWB(Ultra Wideband,超宽带)技术，BT(Bluetooth,蓝牙)技术和其他技术来实现。

在示例性实施例中，装置400可以被一个或多个ASIC(Application Specific Integrated Circuit,应用专用集成电路)、DSP(Digital signal Processor,数字信号处理器)、DSPD(Digital signal ProcessorDevice，数字信号处理设备)、PLD(Programmable Logic Device,可编程逻辑器件)、FPGA)(Field Programmable Gate Array,现场可编程门阵列)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述动物声纹特征提取方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机非易失性可读存储介质，例如包括指令的存储器404，上述指令可由装置400的处理器420执行以完成上述方法。例如，所述非临时性计算机非易失性可读存储介质可以是ROM、RAM(Random Access Memory,随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory,光盘只读存储器)、磁带、软盘和光数据存储设备等。

一种非临时性计算机非易失性可读存储介质，当所述非易失性可读存储介质中的指令由动物声纹特征提取装置的处理器执行时，使得动物声纹特征提取装置能够执行上述动物声纹特征提取方法。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算机设备来实现，它们可以集中在单个的计算机设备上，或者分布在多个计算机设备所组成的网络上，可选地，它们可以用计算机设备的计算机可读指令来实现，从而，可以将它们存储在存储装置中由计算机设备来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本申请的保护范围之内。

Claims

一种动物声纹特征提取方法，其特征在于，所述方法包括：

获取动物语音数据；

从所述动物语音数据中提取动物语音特征向量；

将所述动物语音特征向量输入至卷积神经网络模型进行训练，得到用于识别动物身份的动物声纹特征。
根据权利要求1所述的方法，其特征在于，在所述获取动物语音数据之后，所述方法还包括：

对所述动物语音数据进行预处理，得到处理后的动物语音数据；

按照预设时间区间对处理后的动物语音数据进行分帧操作，得到多帧动物语音序列；

所述从所述动物语音数据中提取动物语音特征向量包括：

从所述多帧动物语音序列中提取出与所述多帧动物语音序列一一对应的多个动物语音特征向量。
根据权利要求2所述的方法，其特征在于，当所述动物语音特征向量用于反映动物语音在频谱结构随时间变化的特征信息，所述从所述动物语音数据中提取动物语音特征向量包括：

对每帧动物语音序列进行傅立叶变换得到每帧动物语音序列的频谱，并对所述每帧动物语音序列的频谱取模平方得到动物语音序列的功率谱；

通过预设滤波器对所述动物语音序列的功率谱滤波，得到动物语音序列的对数能量；

对所述动物语音序列的对数能量进行离散余弦变换，得到动物语音特征向量。
根据权利要求2所述的方法，其特征在于，当所述动物语音特征向量用于反映动物语音在频谱结构上的特征信息，所述从所述动物语音数据中提取动物语音特征向量包括：

对每帧动物语音序列进行时域分析以及频域分析，计算每帧动物语音序列的时域特征参数以及频域特征参数；

根据所述时域特征参数以及频域特征参数，得到动物语音特征向量。
根据权利要求2所述的方法，其特征在于，所述卷积神经网络为多层结构的网络模型，所述将所述动物语音特征向量输入至卷积神经网络进行训练，得到用于识别动物身份的动物声纹特征包括：

通过所述卷积神经网络模型的卷积层提取所述动物语音特征向量的局部声纹信息；

通过所述卷积神经网络模型的全连接层将提取到的局部声纹信息进行连接，得到多维度的局部声纹信息；

通过所述卷积神经网络模型的池化层对所述多维度的局部声纹信息进行降维处理，得到动物声纹特征。
根据权利要求5所述的方法，其特征在于，在所述通过所述卷积神经网络模型的卷积层提取所述动物语音特征向量的局部声纹信息之前，所述方法还包括：

对每次输入至所述卷积神经网络模型卷积层的动物语音特征向量进行拼帧处理。
根据权利要求1-6中任一项所述的方法，其特征在于，在所述将所述动物语音特征向量输入至卷积神经网络模型进行训练，得到用于识别动物身份的动物声纹特征之后，所述方法还包括：

根据提取出的不同动物声纹特征，建立动物声纹特征库，所述不同动物声纹特征携带有唯一动物身份信息；

当接收到动物身份验证请求时，将待识别动物身份的动物声纹特征与所述动物声纹特征库中的动物声纹特征进行比对，确定动物身份信息。
一种动物声纹特征提取装置，其特征在于，所述装置包括：

获取单元，用于获取动物语音数据；

提取单元，用于从所述动物语音数据中提取动物语音特征向量；

训练单元，用于将所述动物语音特征向量输入至卷积神经网络模型进行训练，得到用于识别动物身份的动物声纹特征。
根据权利要求8所述的装置，其特征在于，所述装置还包括：

预处理单元，用于在所述获取动物语音数据之后，对所述动物语音数据进行预处理，得到处理后的动物语音数据；

分帧单元，用于按照预设时间区间对处理后的动物语音数据进行分帧操作，得到多帧动物语音序列。
根据权利要求9所述的装置，其特征在于，当所述动物语音特征向量用于反映动物语音在频谱结构随时间变化的特征信息，所述提取单元包括：

第一提取模块，用于对每帧动物语音序列进行傅立叶变换得到每帧动物语音信号的频谱，并对所述每帧动物语音信号的频谱取模平方的动物语音信号的功率谱；

第二提取模块，用于通过预设滤波器对所述动物语音信号的功率谱滤波，得到动物语音信号的对数能量；

第三提取模块，用于对所述动物语音信号的对数能量进行离散余弦变换，得到动物语音特征向量。
根据权利要求9所述的装置，其特征在于，当所述动物语音特征向量用于反映动物语音在频谱结构上的特征信息，所述提取单元包括：

第四提取模块，用于对每帧动物语音序列进行时域分析以及频域分析，计算每帧动物信号的时域特征参数以及频域特征参数；

第五提取模块，用于根据所述时域特征参数以及频域特征参数，得到动物语音特征向量。
根据权利要求8所述的装置，其特征在于，所述训练单元包括：

第六提取模块，用于通过所述卷积神经网络模型的卷积层提取所述动物语音特征向量的局部声纹信息；

连接模块，用于通过所述卷积神经网络模型的全连接层将提取到的局部声纹信息进行连接，得到多维度的局部声纹信息；

降维模块，用于通过所述卷积神经网络模型的池化层对所述多维度的局部声纹信息进行降维处理，得到动物声纹特征。
根据权利要求12所述的装置，其特征在于，所述训练单元还包括：

拼帧模块，用于在所述通过所述卷积神经网络模型的卷积层提取所述动物语音特征向量的局部声纹信息之前，对每次输入至所述卷积神经网络模型卷积层的动物语音特征向量进行拼帧处理。
根据权利要求8-13中任一项所述的装置，其特征在于，所述装置还包括：

建立单元，用于在所述将所述动物语音特征向量输入至卷积神经网络模型进行训练，得到用于识别动物身份的动物声纹特征之后，根据提取出的不同动物声纹特征作为动物声纹样本，建立动物声纹数据库，所述不同动物声纹特征携带有唯一动物身份信息；

比对单元，用于当接收到动物身份验证请求时，通过将待识别动物身份的动物声纹特征与所述动物声纹特征库中的动物声纹特征进行比对，确定动物身份信息。
一种计算机非易失性可读存储介质，其上存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现动物声纹特征提取方法，包括：

获取动物语音数据；

从所述动物语音数据中提取动物语音特征向量；

将所述动物语音特征向量输入至卷积神经网络模型进行训练，得到用于识别动物身份的动物声纹特征。
根据权利要求15所述的计算机非易失性可读存储介质，其特征在于，所述计算机可读指令被处理器执行时实现在所述获取动物语音数据之后，所述方法还包括：

对所述动物语音数据进行预处理，得到处理后的动物语音数据；按照预设时间区间对处理后的动物语音数据进行分帧操作，得到多帧动物语音序列；

所述从所述动物语音数据中提取动物语音特征向量包括：从所述多帧动物语音序列中提取出与所述多帧动物语音序列一一对应的多个动物语音特征向量。
根据权利要求16所述的计算机非易失性可读存储介质，其特征在于，所述计算机可读指令被处理器执行时实现当所述动物语音特征向量用于反映动物语音在频谱结构随时间变化的特征信息，所述从所述动物语音数据中提取动物语音特征向量包括：

对每帧动物语音序列进行傅立叶变换得到每帧动物语音序列的频谱，并对所述每帧动物语音序列的频谱取模平方得到动物语音序列的功率谱；

通过预设滤波器对所述动物语音序列的功率谱滤波，得到动物语音序列的对数能量；

对所述动物语音序列的对数能量进行离散余弦变换，得到动物语音特征向量。
一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现动物声纹特征提取方法，包括：

获取动物语音数据；

从所述动物语音数据中提取动物语音特征向量；

将所述动物语音特征向量输入至卷积神经网络模型进行训练，得到用于识别动物身份的动物声纹特征。
根据权利要求18所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时实现在所述获取动物语音数据之后，所述方法还包括：

对所述动物语音数据进行预处理，得到处理后的动物语音数据；

按照预设时间区间对处理后的动物语音数据进行分帧操作，得到多帧动物语音序列；

所述从所述动物语音数据中提取动物语音特征向量包括：

从所述多帧动物语音序列中提取出与所述多帧动物语音序列一一对应的多个动物语音特征向量。
根据权利要求19所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时实现当所述动物语音特征向量用于反映动物语音在频谱结构随时间变化的特征信息，所述从所述动物语音数据中提取动物语音特征向量包括：

对每帧动物语音序列进行傅立叶变换得到每帧动物语音序列的频谱，并对所述每帧动物语音序列的频谱取模平方得到动物语音序列的功率谱；

通过预设滤波器对所述动物语音序列的功率谱滤波，得到动物语音序列的对数能量；对所述动物语音序列的对数能量进行离散余弦变换，得到动物语音特征向量。