WO2020259057A1

WO2020259057A1 - 声音的识别方法及装置、存储介质和电子装置

Info

Publication number: WO2020259057A1
Application number: PCT/CN2020/087072
Authority: WO
Inventors: 屈奇勋; 胡雯; 张磊; 石瑗璐; 李宛庭; 沈凌浩; 郑汉城
Original assignee: 深圳数字生命研究院; 深圳碳云智能数字生命健康管理有限公司
Priority date: 2019-06-26
Filing date: 2020-04-26
Publication date: 2020-12-30
Also published as: CN111883174A

Abstract

一种声音的识别方法及装置、存储介质和电子装置。其中，该方法包括：采集目标对象发出的声音信息（S202）；判断采集到的目标对象发出的声音信息是否为哭声信息（S204）；在判断结果为是的情况下，将声音信息输入预先训练的声音模型（S206）；其中，声音模型包括第一级模型和第二级模型；第一级模型用于识别出声音信息的用于表征目标对象需求的需求类型，第二级模型用于识别出声音信息在需求类型中的需求状态；通过第一级模型和第二级模型识别出与声音信息对应的用于表征目标对象的具体需求（S208）。该方法能够解决相关技术中只能根据人的经验对婴儿的哭声进行识别容易导致识别失误的问题。

Description

声音的识别方法及装置、存储介质和电子装置

技术领域

本申请涉及计算机领域，具体而言，涉及一种声音的识别方法及装置、存储介质和电子装置。

背景技术

啼哭是婴儿很主要的一种表达方式，正确识别哭声了解婴儿的需求对于养育婴儿非常重要。初生婴儿在最开始的几个月内获得的安全感对其以后的生活有着非常重要的影响，极有可能伴随并影响其一生。因此，若能够正确识别婴儿的哭声并满足其需求，将会更有利于婴儿的健康成长。

相对来说，哭声相对比较复杂，哭声所传达的信息也是比较模糊，比如饥饿、累了、孤独等。但是，对于一个有经验的育婴师来说，及时、有效地分清婴儿的哭声包含的需求尚且不容易，更不用说对于初为人母/人父的青年父母。可见，相关技术中对于婴儿哭声的识别均是依据人的经验，而人的经验往往是不一致的，而且主观的判断容易导致识别失误。

针对相关技术中的上述问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种声音的识别方法及装置、存储介质和电子装置，以至少解决相关技术中只能根据人的经验对婴儿的哭声进行识别容易导致识别失误的问题。

根据本申请的一个实施例，提供了一种声音的识别方法，包括：采集目标对象发出的声音信息；判断采集到的目标对象发出的声音信息是否为哭声信息；在判断结果为是的情况下，将所述声音信息输入预先训练的声音模型，其中，所述声音模型是根据由多个哭声信息组成的训练集对初始声音模型进行训练得到的，且所述声音模型包括第一级模型和第二级模型；所述第一级模型用于识别出所述声音信息的用于表征所述目标对象需求的需求类型，所述第二级模型用于识别出所述声音信息在所述需求类型中的需求状态；通过所述第一级模型和所述第二级模型识别出与所述声音信息对应的用于表征所述目标对象的具体需求。

根据本申请的另一个实施例，提供了一种声音的识别装置，包括：采集模块，设置为采集目标对象发出的声音信息；判断模块，设置为判断采集到的目标对象发出的声音信息是否为哭声信息；输入模块，设置为在判断结果为是的情况下，将所述声音信息输入预先训练的声音模型，其中，所述声音模型是根据由多个哭声信息组成的训练集对初始声音模型进行训练得到的，且所述声音模型包括第一级模型和第二级模型；所述第一级模型用于识别出所述声音信息的用于表征所述目标对象需求的需求类型，所述第二级模型用于识别出所述声音信息在所述需求类型中的需求状态；识别模块，设置为通过所述第一级模型和所述第二级模型识别出与所述声音信息对应的用于表征所述目标对象的具体需求。

根据本申请的又一个实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本申请的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本申请，在判断出采集到的目标对象发出的声音信息为哭声信息的情况下，进一步可以根据声音模型中的第一级模型和第二级模型识别出该声音信息的需求类型以及该需求类型下的需求状态，从而可以通过声音模型根据哭声信息识别出目标对象当前的需求状态，而不是根据人的经验来判别哭声所表征的需求状态，解决了相关技术中只能根据人的经验对婴儿的哭声进行识别容易导致识别失误的问题，达到了提高对哭声表征的需求状态识别的准确率。

附图说明

图1是本申请实施例的一种声音的识别方法的终端的硬件结构框图；

图2是根据本申请实施例的声音的识别方法流程图；

图3是根据本申请实施例的分级的UBM-GMM模型示意图；

图4是根据本申请实施例UBM-GMM模型的训练过程的示意图；

图5是根据本申请实施例的声音的识别装置的结构框图；

图6是根据本申请实施例的声音的识别装置的可选结构框图一；

图7是根据本申请实施例的声音的识别装置的可选结构框图二。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请所提供的方法实施例可以在终端、计算机终端或者类似的运算装置中执行。以运行在终端上为例，图1是本申请实施例的一种声音的识别方法的终端的硬件结构框图。如图1所示，终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和设置为存储数据的存储器104，可选地，上述终端还可以包括设置为通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述终端的结构造成限定。例如，终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可设置为存储计算机程序，例如，应用软件的软件程序以及模块，如本申请实施例中的声音的识别方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106设置为经由一个网络接收或者发送数据。上述的网络具体实例可包括终端的通信供应商提供的无线网络或有线网络。在一个实例中，传输设备106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频(Radio Frequency，简称为RF)模块，其设置为通过无线方式与互联网进行通讯。

此外，需要说明的是，对于本申请中的方法步骤是否要用到上述传输设备106，取决于本申请的方案本身，例如，本申请是一个交互类的方法步骤方案则需要用到传输106，如果本申请中的所有方法步骤均在可以在上述终端内部执行，则无需使用到传输设备106。

在本实施例中提供了一种运行于上述终端的声音的识别方法，图2是根据本申请实施例的声音的识别方法流程图，如图2所示，该流程包括如下步骤：

步骤S202，采集目标对象发出的声音信息；

步骤S204，判断采集到的目标对象发出的声音信息是否为哭声信息；

步骤S206，在判断结果为是的情况下，将声音信息输入预先训练的声音模型，其中，该声音模型是根据由多个哭声信息组成的训练集对初始声音模型进行训练得到的，且该预先训练的声音模型包括：第一级模型和第二级模型；第一级模型用于识别出声音信息的用于表征目标对象需求的需求类型，第二级模型用于识别出声音信息在需求类型中的需求状态；

步骤S208，通过第一级模型和第二级模型识别出与声音信息对应的用于表征目标对象的具体需求。

需要说明的是，在本申请中，所述预先训练的声音模型是由多级模型组成的，可以是两级模型(第一级模型和第二级模型)，也可是由三级模型、四级模型或更多级模型组成；相应的，所述用于表征目标对象需求的具体需求可直接由第一级模型和第二级模型依次识别得出，或基于第一级模型和第二级模型依次识别得到的结果后，由第三级模型识别得出(三级模型组成)，或由第四级模型基于第三级模型识别得到的结果识别得出(四级模型组成)，以此类推。

本申请的一个实施方式中，步骤S206中预先训练的声音模型只包括第一级模型和第二级模型时，所述其中第二级模型识别获得的目标对象的需求状态即为目标对象的具体需求。在其他实施方式中，步骤S206中预先训练的声音模型可以为三级模型、四级模型或其他级数的模型构成，当预先训练的声音模型为三个不同层级的模型组成时，所述第一级模型用于识别出声音信息的用于表征目标对象需求的第一需求类型，所述第二级模型用于识别出声音信息在第一需求类型中的第二需求状态类型，所述第三级模型用于识别声音信息在第二需求状态类型中的表征目标对象的具体需求状态，所述目标对象的具体需求即为目标对象的需求状态。

例如，当预先训练的声音模型为三个不同层级的模型组成时，所述第一级模型用于识别出声音信息的用于表征目标对象需求的第一需求类型，第一需求类型包括生理性和非生理性两种。其中，“生理性”对应的第二级模型的第二需求类型为：生理反应、生理需求和情感需求；“生理反应”对应的第三级模型的需求状态为：打嗝、肚子痛、其他不舒服；“生理需求”对应的第三级模型的需求状态为：饿了、冷了或热了、困了；“情感需求”对应的第三级模型的需求状态为：害怕、孤单。“非生理性”对应的第二级模型的第二需求类型为：疼痛、呼吸不畅和体弱乏力等。“疼痛”对应的第三级模型的需求状态为：腹痛、头痛等；“呼吸不畅”对应的第三级模型的需求状态为：鼻塞等；“体弱乏力”对应的第三级模型的需求状态为：体弱乏力。

通过上述步骤S202至步骤S208，在判断出采集到的目标对象发出的声音信息为哭声信息的情况下，进一步可以根据声音模型中的第一级模型和第二级模型识别出该声音信息的需求类型以及该需求类型下的需求状态，从而可以通过声音模型根据哭声信息识别出目标对象当前的需求状态，而不是根据人的经验来判别哭声所表征的需求状态，解决了相关技术中只能根据人的经验对婴儿的哭声进行识别容易导致识别失误的问题，达到了提高对哭声表征的需求状态识别的准确率。

需要说明的是，本申请中涉及到的目标对象优选为婴儿，当然也可以是几岁的小朋友，或者是动物。在本申请对此并不限定具体的对象，可以根据实际的情况进行相应的设置。

在本实施例的可选的实施方式中，对于本申请步骤S204中涉及到的判断采集到的目标对象发出的声音信息是否为哭声信息的方式，可以是通过如下方式来实现：

步骤S204-11，将采集到的声音信息转码为指定格式；

其中，在本申请的优选方式中该指定格式优选为wav格式，音频采样率均为8000Hz；当然在其他应用场景中也可以是3gp，aac，amr，caf，flac，mp3，ogg，aiff等格式，基于此，可选择以下采样频率(单位Hz)8000，11025，12000，16000，22050，24000，32000，40000，44100，47250，48000等，具体在此不做限定。

需要说明的是，对输入音频(声音信息)统一格式(转码)、需要统一采样频率，以使在实际使用过程中的更加方便快捷；如果对输入音频不转码为统一格式，即需要对每一种格式都进行分别读取，从而导致操作繁琐；而且不统一采样频率，如果相同长度的音频会包含不同数量的数据，则会影响后续的特征提取、模型训练，所以要先将音频进行预处理。在目前的实际使用中，将输入音频转换至wav格式，也可以转换成其他格式，只要能读取到音频数据即可，音频采样频率统一为8000Hz，当然也可以是其他采样频率。另外，在本申请中对声音信息进行转码的工具优选为 FFMpeg。

步骤S204-12，对转码后的声音信息的音频进行分段，并从每一段音频中提取出频谱特征；其中，相邻两段音频相互重叠部分音频；

其中，需要说明的是，在实际使用过程中，由于用户上传的音频长度是不统一的，优选将不定长的音频转化为定长音频。若直接将不定长的输入音频通过例如插值等方法，转换为定长音频，会丢失很多音频本身的信息；通过上述步骤S204-12的方式使用分段，且分段间有重叠，既可保留音频完整的信息，又保留了分段间的关联性。实际使用中，对输入音频进行分段，例如分段长度为3秒，相邻两段音频重叠1秒。当然也可以是分段长度为4秒，相邻两段音频重叠1.5秒，或者分段长度为5秒，相邻两段音频重叠2秒等等，可以根据实际情况进行相应的设置。

步骤S206-13，通过分类模型对每一段音频的频谱特征进行检测以判断声音信息是否为哭声信息。

其中，在本申请的优选实施方式中，使用的特征优选为梅尔频率倒谱系数及梅尔频率倒谱系数的一阶梯度，这两个特征属于音频的频率特征。为了可以学习更多的特征，以取得更好的判断声音信息的效果，本申请在更优选的是实施方式中，使用的特征为梅尔频率倒谱系数及梅尔频率倒谱系数的一阶梯度和二阶梯度。

下面对对梅尔频率倒谱系数的计算过程进行介绍：1)对输入音频加窗(例如加窗长度为50毫秒)，相邻窗之间有叠加(例如叠加长度为20毫秒)；2)对每个窗的音频信号进行傅里叶变换，得到频率谱；3)对每个窗的频率普，使用若干个梅尔滤波器(比如使用20个梅尔滤波器)，获得梅尔刻度(那么获得20个梅尔刻度)；4)对每个梅尔刻度取对数，获得能量；5)对每个梅尔刻度对数能量做离散傅里叶反变换(或离散余弦反变换)，得到倒频谱；6)得到的若干的倒频谱(20个，与使用的梅尔滤波器个数相同)的幅值即为梅尔频率倒谱系数。然后计算梅尔频率倒谱系数的一阶梯度和二阶梯度。

其中，提取梅尔频率倒谱系数的相关参数范围：音频加窗长度范围优选为30毫秒至50毫秒；相邻窗叠加长度范围优选为10毫秒至20毫秒；使用的梅尔滤波器个数优选为20至40个。

因此，对于上述步骤S204-13中的分类模型，在本申请的分类模型可以是梯度提升树、支持向量机、多层感知机、统计概率模型和/或深度学习模型，本申请的一个优选实施方式中，分类模型为梯度提升树、支持向量机和多层感知机，即将音频特征分别输入该三个分类器，该三个分类器分别判断获得各自的分类结果，再统计各分类结果并将相同结果的数量最多的结果作为产生的检测结果，即是或不是目标对象的哭声。。

上述本申请中涉及到的分类模型是需要预先训练的，因此，在本实施例的可选实施方式，在步骤S202采集目标对象发出的声音信息之前，本示例的方法还包括：

步骤S101，获取第一数据集，其中，第一数据集中包括多个为哭声信息的声音信息；

步骤S102，提取第一数据集中声音信息的频谱特征；

步骤S103，从第一数据集中选择部分数据作为初始分类模型的训练集，并基于训练集中的频谱特征对初始统计概率模型进行训练以确定分类模型的参数。

对于上述步骤S101至步骤S103，在具体的应用场景中以婴儿为目标对象，分类模型为梯度提升树、支持向量机和多层感知机，则具体的训练过程可以是：

第一数据集：第一数据集可来源于数据集donateacry-corpus等其他数据集，有2467段宝宝哭声音频；数据集ESC-50，包含50类音频，每一类音频均含有40个样本，50类中有一类为宝宝哭声，其余49类为非宝宝哭声音频，包括的类别有动物叫声、自然环境声、人声、室内声及城市噪音；因此，宝宝哭声音频样本共有2507段，非宝宝哭声样本共有1960段。将数据集20％划分为测试集，80％划分为训练集。

进而，通过上述步骤S206-13，对每段音频提取梅尔频率倒谱系数及其一阶、二阶梯度特征；使用训练集和使用交叉验证，分别训练梯度提升树(XGBoost)、支持向量机(SVM)及多层感知机(MLP)，确定分类器模型最佳参数；使用测试集，对某一样本分别使用训练好的梯度提升树、支持向量机及多层感知机进行分类，三个模型的分类结果投票产生最终分类结果；统计测试集样本分类结果，用于评价模型的训练效果，最后确定的模型参数如表1所示：

表1

此外，在本实施例的另一个可选实施方式中，对于声音模型也是需要训练的，即在步骤S202采集目标对象发出的声音信息之前，本实施例的方法还包括：

步骤S111，获取第二数据集；其中，第二数据集中的声音信息被划分为多个需求类型的声音信息；每个需求类型中包括用于表征目标对象需求的需求状态的声音信息；

步骤S112，提取第二数据集中声音信息的频谱特征；

步骤S113，从第二数据集中选择部分数据作为初始声音模型的训练集，并基于训练集中的频谱特征对初始声音模型中的初始第一级模型和初始第二级模型进行训练以确定声音模型中第一级模型和第二级模型的参数。

在具体的应用场景中还是以目标对象为婴儿为例，则声音模型为分级的UBM-GMM，则上述步骤S111至步骤S113，在具体应用场景中可以是：

该第二数据集的来源可以是数据donateacry-corpus等其他数据集，包括：2467段宝宝哭声音频，分为8类，分别是饿了740段、累了468段、孤独232段、要打嗝161段、肚子痛268段、冷了或热了115段、害怕149段及其他不舒服334段。其中，将该第二数据集中的20％划分为测试集，80％划分为训练集。

进而通过上述步骤S206-13，对每段音频提取梅尔频率倒谱系数及其一阶、二阶梯度特征；

图3是根据本申请实施例的分级的UBM-GMM模型示意图，基于图3，使用上述第二数据中的训练集和使用交叉验证，训练分级的UBM-GMM：首先训练UBM-GMM1，将输入音频分为3个大类，对于每个大类，训练UBM-GMM2、UBM-GMM3及UBM-GMM4，再将大类分类成小类。根据宝宝不同的需求，将哭声分为三个需求类型大类，分别是“生理反应”“生理需求”及“情感需求”；再将三个需求类型分成若干需求状态小类，生理反应：打嗝、肚子痛、其他不舒服；生理需求：饿了、困了、冷了热了；情感需求：害怕、孤单。

使用分级的UBM-GMM的原因是：(1)第二数据集中各类别数据量差异大；若只使用单个UBM-GMM，会造成数据量多的类别很容易被识别，但数据量少的类别却很难被识别；使用分级的方法，将小类合并成大类，首先就降低了类别间数据量的不均衡性，提升了分类的准确率；(2)婴儿哭的原因并不总是单一的，在大的类别中再分小类，有利于获得造成婴儿哭的所有可能的因素。

对每一个UBM-GMM模型的训练过程，如图4中的实线部分，首先使用所有训练数据训练一个GMM，称为UBM；然后，分别使用每个类别的数据训练GMM，获得每个类别的模型CN-GMM；这样，训练过程就完成了。使用单个UBM-GMM对新的输入数据的分类过程如图4中虚线所示，首先将此输入的特征分别输入到各类别GMM模型中，同时结合UBM模型做最大后验概率估计，获得输入在每个类别模型上的得分，得分最大的类别，即输入属于的类别；训练每个UBM-GMM模型的参数如表2所示：

表2

在本实施例的再一个可选实施方式中，步骤S208中涉及到的通过第一级模型和第二级模型识别出与声音信息对应的用于表征目标对象需求的需求状态的方式，可以通过如下方式来实现：

步骤S208-11，将声音信息的频谱特征输入到第一级模型中，得到声音信息分别为多个需求类型的概率值；

步骤S208-12，从多个需求类型的概率值中选择出概率值最大的需求类型；

步骤S208-13，将声音信息的频谱特征输入到第二级模型中，得到与选择出的概率值最大的需求类型对应的需求状态的概率值；

步骤S208-14，将概率值最大的需求状态作为声音信息的需求状态。

本实施例中该预先训练的模型为两级模型，那么第一级模型用于识别出声音信息的用于表征目标对象需求的需求类型，第二级模型用于识别出声音信息的用于表征目标对象需求的需求类型，其中，这里的需求类型即为目标对象的具体需求。因此上述步骤S208-11为将声音信息的频谱特征输入第一级模型中，得到声音信息分别为多个需求类型的概率值；二步骤S208-13为将声音信息的频谱特征输入第二级模型中，得到与选择出的概率值最大的需求类型对应的需求状态的概率值。

此外，在本申请中需求类型优选为生理反应、情感需求、生理需求；当然也可以根据实际情况增加其他需求类型，例如心理反应等等。而生理反应的需求状态包括：打嗝、肚子疼、不舒服等等；生理需求包括：饿了、冷了/热了，困了等等；情感需求：害怕、孤单等等。也就是说，在本申请中用分级的方法，先将哭声分成大类，再把各个大类分别分成各个小类，这样相应的，在模型训练时，同一大类下的各小类的样本数据可合并作为该大类的训练模型训练样本，各小类的样本数据作为该小类的训练模型样本，通过这种方法训练出来的第一级模型和第二级模型，与现有技术中直接以各个小类的样本数据进行模型训练的方法获得模型相比，能够避免因为各小类训练的样本数据量之间的不均衡性而导致的识别不准确的问题，从而提升了识别的准确率；另外，因为宝宝哭的原因并不总是单一的，因此通过先识别出宝宝哭声对应的大类，再从大类中识别出小类，能够有效的获得宝宝哭的所有可能的因素(具体需求)。

下面结合本申请的具体实施方式，对本申请进行举例说明；

1)，进行数据集预处理：

本具体实施方式中的第二数据集的来源为数据集donateacry-corpus等其他数据集，有2467段宝宝哭声音频，分为3类需求类型，8类需求状态：

需求类型一：生理反应，包含打嗝、肚子痛、其他不舒服等3需求状态；

需求类型二：生理需求，包含饿了、冷了或热了、困了等3需求状态；

需求类型三：情感需求，包含害怕、孤单等2需求状态。

将第二数据集20％的样本划分为测试集，80％的样本划分为训练集；接着，将训练集中的音频样本转码为8000Hz的wav格式音频；将转码后的音频以长度3秒重叠1秒的方式进行分段，对每个音频分段提取梅尔频率倒谱系数及其一阶、二阶梯度特征，使用训练集分段后提取的特征的训练单级的UBM-GMM模型及多级的UBM-GMM模型。进而将测试集中的音频样本转码为8000Hz的wav格式音频；将转码后的音频以长度3秒重叠1秒的方式进行分段，对每个音频分段提取梅尔频率倒谱系数及其一阶、二阶梯度特征，使用测试集分段后提取的特征对训练出的单级的UBM-GMM模型及多级的UBM-GMM模型进行评价。

2)，训练及评价多级的UBM-GMM模型：

其中，训练多级的UBM-GMM模型：

多级的UBM-GMM模型指的是首先使用第一级UBM-GMM模型将输入样本分为三个类别；然后根据此分类结果，选择使用不同类别对应的第二级UBM-GMM模型将输入样本分类为此类别的子类别。

其中，第一级UBM-GMM模型的分类类别为：生理反应，生理需求和情感需求；

“生理反应”类别对应的第二级UBM-GMM模型的分类类别为：打嗝、肚子痛、其他不舒服；

“生理需求”类别对应的第二级UBM-GMM模型的分类类别为：饿了、冷了或热了、困了；

“情感需求”类别对应的第二级UBM-GMM模型的分类类别为：害怕、孤单。

使用训练集分段后提取的特征，结合交叉验证，首先训练第一级UBM-GMM模型并调整相关超参数至最优，超参数包含第一级UBM及第一级每一类GMM的混合成分数量；然后，分别使用对应类别的训练集特征训练3个第二级UBM-GMM模型，调整相关超参数至最优，超参数包含第二级UBM及第二级每一类GMM的混合成分数量。

评价多级的UBM-GMM模型：

使用测试集分段后提取的特征评价训练出的多级的UBM-GMM模型。过程为：对于一个完整的测试集样本，分别将其分段音频的特征输入训练出的多级的UBM-GMM模型，获得其每个分段的分类结果，统计所有分段的分类结果，获得每个分类的概率，其中，概率最高的类别即为此完整测试样本所被预测的结果。结果显示，使用多级UBM-GMM模型具有更准确地识别待测音频。

3)，训练及评价单级的UBM-GMM模型：

需要说明的是，该单级的UBM-GMM模型为传统常用的模型，即对比例。

训练单级的UBM-GMM模型：

单级的UBM-GMM模型指的是使用单个UBM-GMM模型对输入样本进行8分类，分类类别为：饿了、累了、孤独、要打嗝、肚子痛、冷了或热了、害怕及其他不舒服。

使用训练集分段后提取的特征，结合交叉验证，训练单级的UBM-GMM模型并调整相关超参数至最优，超参数包含UBM及每一类的GMM的混合成分数量。

评价单级的UBM-GMM模型：

使用测试集分段后提取的特征评价训练出的单级的UBM-GMM模型。过程为：对于一个完整的测试集样本，分别将其分段音频的特征输入训练出的单级的UBM-GMM模型，获得其每个分段的分类结果，统计所有分段的分类结果，获得每个分类的概率，其中，概率最高的类别即为此完整测试样本所被预测的结果。使用训练出的单级的UBM-GMM模型，对测试集中的每个完整样本进行分类，统计测试集样本分类准确率为38％。

下面采用一段“饿了”的音频对上述单级和多级UBM-GMM模型进行测试：

多级UBM-GMM模型：首先使用第1级UBM-GMM模型对测试样本分段音频特征进行分类，获得测试样本每个分段的分类结果。经过第1级UBM-GMM模型分类，输入测试样本的分类结果为，“生理需求”类别概率为0.8，“生理反应”类别概率为0.2，则此输入测试样本的类别为“生理需求”；进而，使用“生理需求”对应的第2级UBM-GMM模型进行分类，输入测试样本的分类结果为，“饿了”类别概率0.8，“困了”类别概率0.2，则此输入测试样本的最终分类类别为“饿了”。

同样地，使用上述同样的测试样本，使用单级的UBM-GMM模型进行分类，得到的分类结果为“饿了”类别概率为0.4，“害怕”类别概率为0.2，“困了”类别概率为0.2，“肚子痛”类别概率为0.2；可见，最终的分类结果也是“饿了”，使用多级UBM-GMM模型的分类结果要优于使用单级UBM-GMM模型的分类结果，因为多级UBM-GMM模型中“饿了”的概率更高。

下面再采用一段“肚子疼”的音频上述单级和多级UBM-GMM模型进行测试。

多级UBM-GMM模型：首先使用第1级UBM-GMM模型对测试样本分段音频特征进行分类，获得测试样本每个分段的分类结果。经过第1级UBM-GMM模型分类，输入测试样本的分类结果为，“生理反应”类别概率为0.8，“生理需求”类别概率为0.2，则此输入测试样本的类别为“生理反应”；进而，使用“生理反应”对应的第2级UBM-GMM模型进行分类，输入测试样本的分类结果为，“肚子痛”类别概率0.8，“打嗝”类别概率0.2，则此输入测试样本的最终分类类别为“肚子痛”。

同样地，使用上述同样的测试样本，使用单级的UBM-GMM模型分类，分类的结果是：“困了”的概率是0.4，“害怕”的概率是0.2，“打嗝”的概率是0.2，“肚子疼”的概率是0.2，最终结果是“困了”。

通过上述多级UBM-GMM模型和单级UBM-GMM模型进行分类的结果可知，测试音频为“肚子痛”类别的音频，采用UBM-GMM分级模式测试以0.8的大概率识别为“肚子痛”，而使用单级UBM-GMM模型的分类结果错误为“困了”。

由此可见，通过本申请的多级UBM-GMM模型对声音进行识别，能够准确的识别出结果。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

在本实施例中还提供了一种声音的识别装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图5是根据本申请实施例的声音的识别装置的结构框图，如图5所示，该装置包括：采集模块52，设置为采集目标对象发出的声音信息；判断模块54，与采集模块52耦合连接，设置为判断采集到的目标对象发出的声音信息是否为哭声信息；输入模块56，与判断模块54耦合连接，设置为在判断结果为是的情况下，将声音信息输入预先训练的声音模型，其中，声音模型是根据由多个哭声信息组成的训练集对初始声音模型进行训练得到的，且声音模型包括第一级模型和第二级模型；第一级模型用于识别出声音信息的用于表征目标对象需求的需求类型，第二级模型用于识别出声音信息在需求类型中的需求状态；识别模块58，与输入模块56耦合连接，设置为通过第一级模型和第二级模型识别出与声音信息对应的用于表征目标对象的具体需求。

可选地，本实施例中的判断模块54进一步可以包括：转码单元，设置为将采集到的声音信息转码为指定格式；处理单元，设置为对转码后的声音信息的音频进行分段，并从每一段音频中提取出频谱特征；其中，相邻两端音频相互重叠部分音频；判断单元，设置为通过分类模型对每一段音频的频谱特征进行检测以判断声音信息是否为哭声信息。

其中，在本申请的优选方式中该指定格式优选为wav格式，音频采样率均为8000Hz；当然在其他应用场景中也可以是以下格式：3gp，aac，amr，caf，flac，mp3，ogg，aiff等格式，基于此，以下采样频率(单位Hz)都可以：8000，11025，12000，16000，22050，24000，32000，40000，44100，47250，48000等。

需要说明的是，对输入音频(声音信息)统一格式(转码)、统一采样频率主要是为了实际使用过程中的方便，因为如果不转码，那就需要对每一种格式都实现读取方式，这样会导致很繁琐；不统一采样频率，则相同长度的音频会包含不同数量的数据，影响后续的特征提取、模型训练。所以要先将音频进行预处理。在目前的实际使用中，将输入音频转换至wav格式，也可以转换成其他格式，只要能读取到音频数据即可，音频采样频率统一为8000Hz，当然也可以是其他采样频率。另外，在本申请中对声音信息进行转码的工具优选为FFMpeg。

此外，在本申请的优选实施方式中，使用的特征优选为梅尔频率倒谱系数及梅尔频率倒谱系数一阶梯度和二阶梯度，这两个特征属于音频的频率特征。

下面对对梅尔频率倒谱系数的计算过程进行介绍：1)对输入音频加窗(长度为50毫秒)，相邻窗之间有叠加(叠加长度为20毫秒)；2)对每个窗的音频信号进行傅里叶变换，得到频率谱；3)对每个窗的频率普，使用若干个梅尔滤波器(使用20个)，获得梅尔刻度(20个)；4)对每个梅尔刻度取对数，获得能量；5)对每个梅尔刻度对数能量做离散傅里叶反变换，(或离散余弦反变换)得到倒频谱；6)得到的若干的倒频谱(20个，与使用的梅尔滤波器个数相同)的幅值即为梅尔频率倒谱系数。然后计算梅尔频率倒谱系数的一阶梯度和二阶梯度。

图6是根据本申请实施例的声音的识别装置的可选结构框图一，如图6所示，装置还包括：第一获取模块62，设置为在采集目标对象发出的声音信息之前，获取第一数据集，其中，第一数据集中包括多个为哭声信息的声音信息；第一提取模块64，与第一获取模块62耦合连接，设置为提取第一数据集中声音信息的频谱特征；第一训练模块66，与第一提取模块64耦合连接，设置为从第一数据集中选择部分数据作为初始分类模型的训练集，并基于训练集中的频谱特征对初始统计概率模型进行训练以确定分类模型的参数。

在具体的应用场景中以婴儿为目标对象，分类模型为梯度提升树、支持向量机和多层感知机，则具体的训练过程可以是：

进而，对每段音频提取梅尔频率倒谱系数及其一阶、二阶梯度特征；使用训练集和使用交叉验证，分别训练梯度提升树(XGBoost)、支持向量机(SVM)及多层感知机(MLP)，确定分类器模型最佳参数；使用测试集，对某一样本分别使用训练好的梯度提升树、支持向量机及多层感知机进行分类，三个模型的分类结果投票产生最终分类结果；统计测试集样本分类结果，用于评价模型的训练效果。

图7是根据本申请实施例的声音的识别装置的可选结构框图二，如图7所示，装置还包括：第二获取模块72，设置为在采集目标对象发出的声音信息之前，获取第二数据集；其中，第二数据集中的声音信息被划分为多个需求类型的声音信息；每个需求类型中包括用于表征目标对象需求的需求状态的声音信息；第二提取模块74，与第二获取模块72耦合连接，设置为提取第二数据集中声音信息的频谱特征；第二训练模块76，与第二提取模块74耦合连接，设置为从第二数据集中选择部分数据作为初始声音模型的训练集，并基于训练集中的频谱特征对初始声音模型中的初始第一级模型和初始第二级模型进行训练以确定声音模型中第一级模型和第二级模型的参数。

在具体的应用场景中还是目标对象为婴儿为例，则声音模型为分级的UBM-GMM，则上述训练过程在具体应用场景中可以是：

该第二数据集的来源可以是数据集donateacry-corpus等其他数据集，包括：2467段宝宝哭声音频，分为8类，分别是饿了740段、累了468段、孤独232段、要打嗝161段、肚子痛268段、冷了或热了115段、害怕149段及其他不舒服334段。其中，将该第二数据集中的20％划分为测试集，80％划分为训练集。

进而对每段音频提取梅尔频率倒谱系数及其一阶、二阶梯度特征；

基于图3，使用上述第二数据中的训练集和使用交叉验证，训练分级的UBM-GMM：首先训练UBM-GMM1，将输入音频分为3个大类，对于每个大类，训练UBM-GMM2、UBM-GMM3及UBM-GMM4，再将大类分类成小类。根据宝宝不同的需求，将哭声分为三个需求类型大类，分别是“生理反应”“生理需求”及“情感需求”；再将三个需求类型分成若干需求状态小类，生理反应：打嗝、肚子痛、其他不舒服；生理需求：饿了、困了、冷了热了；情感需求：害怕、孤单。

使用分级的UBM-GMM的原因是：(1)第二数据集中各类别数据量差异大；若只使用单个UBM-GMM，会造成数据量多的类别很容易被识别，但数据量少的类别却很难被识别；使用分级的方法，将需求状态合并成需求类型，首先就降低了类别间数据量的不均衡性，提升了分类的准确率；(2)婴儿哭的原因并不总是单一的，在大的类别中再分小类，有利于获得造成婴儿哭的所有可能的因素。

对每一个UBM-GMM模型的训练过程，如图4所示，首先使用所有训练数据训练一个GMM，称为UBM；然后，分别使用每个类别的数据训练GMM，获得每个类别的模型CN-GMM；这样，训练过程就完成了

可选地，本实施例中的识别模块58进一步可以包括：第一输入单元，设置为将声音信息的频谱特征输入到第一级模型中，得到声音信息分别为多个需求类型的概率值；选择单元，设置为从多个需求类型的概率值中选择出概率值最大的需求类型；第二输入单元，设置为将声音信息的频谱特征输入到第二级模型中，得到与选择出的概率值最大的需求类型对应的需求状态的概率值；识别单元，设置为将概率值最大的需求状态作为声音信息的需求状态。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，采集目标对象发出的声音信息；

S2，判断采集到的目标对象发出的声音信息是否为哭声信息；

S3，在判断结果为是的情况下，将声音信息输入预先训练的声音模型，其中，该声音模型是根据由多个哭声信息组成的训练集对初始声音模型进行训练得到的，且声音模型包括：第一级模型和第二级模型；第一级模型用于识别出声音信息的用于表征目标对象需求的需求类型，第二级模型用于识别出声音信息在需求类型中的需求状态；

S4，通过第一级模型和第二级模型识别出与声音信息对应的用于表征目标对象的具体需求。

可选地，在本实施例中，上述计算机可读存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本申请的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，采集目标对象发出的声音信息；

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

工业实用性

如上所述，本申请实施例提供的一种声音的识别方法及装置、存储介质和电子装置具有以下有益效果：解决了相关技术中只能根据人的经验对婴儿的哭声进行识别容易导致识别失误的问题，达到了提高对哭声表征的需求状态识别的准确率。

Claims

一种声音的识别方法，包括：

采集目标对象发出的声音信息；

判断采集到的目标对象发出的声音信息是否为哭声信息；

在判断结果为是的情况下，将所述声音信息输入预先训练的声音模型，其中，所述预先训练的声音模型是根据由多个哭声信息组成的训练集对初始声音模型进行训练得到的，且所述预先训练的声音模型包括第一级模型和第二级模型；所述第一级模型用于识别出所述声音信息的用于表征所述目标对象需求的需求类型，所述第二级模型用于识别出所述声音信息在所述需求类型中的需求状态；

通过所述第一级模型和所述第二级模型识别出与所述声音信息对应的用于表征所述目标对象的具体需求。
根据权利要求1所述的方法，其中，判断采集到的目标对象发出的声音信息是否为哭声信息，包括：

将采集到的所述声音信息转码为指定格式；

对转码后的声音信息的音频进行分段，并从每一段音频中提取出频谱特征；其中，相邻两段音频相互重叠部分音频；

通过分类模型对每一段音频的频谱特征进行检测以判断所述声音信息是否为哭声信息。
根据权利要求2所述的方法，其中，在采集目标对象发出的声音信息之前，所述方法还包括：

获取第一数据集，其中，所述第一数据集中包括多个为哭声信息的声音信息；

提取所述第一数据集中声音信息的频谱特征；

从所述第一数据集中选择部分数据作为初始分类模型的训练集，并基于所述训练集中的频谱特征对初始统计概率模型进行训练以确定所述分类模型的参数。
根据权利要求1所述的方法，其中，在采集目标对象发出的声音信息之前，所述方法还包括：

获取第二数据集；其中，所述第二数据集中的声音信息被划分为多个需求类型的声音信息；每个需求类型中包括用于表征所述目标对象需求的需求状态的声音信息；

提取所述第二数据集中声音信息的频谱特征；

从所述第二数据集中选择部分数据作为初始声音模型的训练集，并基于所述训练集中的频谱特征对所述初始声音模型中的初始第一级模型和初始第二级模型进行训练以确定所述声音模型中所述第一级模型和所述第二级模型的参数。
根据权利要求1或4所述的方法，其中，通过所述第一级模型和所述第二级模型识别出与所述声音信息对应的用于表征所述目标对象需求的需求状态，包括：

将所述声音信息的频谱特征输入到所述第一级模型中，得到所述声音信息分别为多个需求类型的概率值；

从多个所述需求类型的概率值中选择出概率值最大的需求类型；

将所述声音信息的频谱特征输入到所述第二级模型中，得到与选择出的概率值最大的需求类型对应的需求状态的概率值；

将概率值最大的需求状态作为所述声音信息的需求状态。
一种声音的识别装置，包括：

采集模块，设置为采集目标对象发出的声音信息；

判断模块，设置为判断采集到的目标对象发出的声音信息是否为哭声信息；

输入模块，设置为在判断结果为是的情况下，将所述声音信息输入预先训练的声音模型，其中，所述声音模型是根据由多个哭声信息组成的训练集对初始声音模型进行训练得到的，且所述声音模型包括第一级模型和第二级模型；所述第一级模型用于识别出所述声音信息的用于表征所述目标对象需求的需求类型，所述第二级模型用于识别出所述声音信息在所述需求类型中的需求状态；

识别模块，设置为通过所述第一级模型和所述第二级模型识别出与所述声音信息对应的用于表征所述目标对象的具体需求。
根据权利要求6所述的装置，其中，所述判断模块包括：

转码单元，设置为将采集到的所述声音信息转码为指定格式；

处理单元，设置为对转码后的声音信息的音频进行分段，并从每一段音频中提取出频谱特征；其中，相邻两段音频相互重叠部分音频；

判断单元，设置为通过分类模型对每一段音频的频谱特征进行检测以判断所述声音信息是否为哭声信息。
根据权利要求7所述的装置，其中，所述装置还包括：

第一获取模块，设置为在采集目标对象发出的声音信息之前，获取第一数据集，其中，所述第一数据集中包括多个为哭声信息的声音信息；

第一提取模块，设置为提取所述第一数据集中声音信息的频谱特征；

第一训练模块，设置为从所述第一数据集中选择部分数据作为初始分类模型的训练集，并基于所述训练集中的频谱特征对初始统计概率模型进行训练以确定所述分类模型的参数。
根据权利要求6所述的装置，其中，所述装置还包括：

第二获取模块，设置为在采集目标对象发出的声音信息之前，获取第二数据集；其中，所述第二数据集中的声音信息被划分为多个需求类型的声音信息；每个需求类型中包括用于表征所述目标对象需求的需求状态的声音信息；

第二提取模块，设置为提取所述第二数据集中声音信息的频谱特征；

第二训练模块，设置为从所述第二数据集中选择部分数据作为初始声音模型的训练集，并基于所述训练集中的频谱特征对所述初始声音模型中的初始第一级模型和初始第二级模型进行训练以确定所述声音模型中所述第一级模型和所述第二级模型的参数。
根据权利要求6或9所述的装置，其中，所述识别模块包括：

第一输入单元，设置为将所述声音信息的频谱特征输入到所述第一级模型中，得到所述声音信息分别为多个需求类型的概率值；

选择单元，设置为从多个所述需求类型的概率值中选择出概率值最大的需求类型；

第二输入单元，设置为将所述声音信息的频谱特征输入到所述第二级模型中，得到与选择出的概率值最大的需求类型对应的需求状态的概率值；

识别单元，设置为将概率值最大的需求状态作为所述声音信息的需求状态。
一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至5任一项中所述的方法。
一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至5任一项中所述的方法。