WO2021051577A1

WO2021051577A1 - 语音情绪识别方法、装置、设备及存储介质

Info

Publication number: WO2021051577A1
Application number: PCT/CN2019/117886
Authority: WO
Inventors: 占小杰; 方豪; 王少军
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-09-17
Filing date: 2019-11-13
Publication date: 2021-03-25
Also published as: CN110556130A

Abstract

一种语音情绪识别方法、装置、设备及存储介质，其中，方法包括：获取待识别语音片段（S1）；对获取的待识别语音片段进行预处理（S2），包括：对所述待识别语音片段进行分帧处理，得到多帧语音；用预先训练生成的情绪识别模型对所述多帧语音进行处理，以得出多个情绪识别结果，每个情绪识别结果与一帧语音或设定数量帧语音相对应（S3）；根据所述多个情绪识别结果得到与所述待识别语音片段对应的情绪（S4）。通过得到与每一帧或多帧语音对应的情绪，将对语音的情绪识别减小到毫秒级，更加接近对语音片段情绪的实时连续预测，提高语音情绪识别的准确率。

Description

语音情绪识别方法、装置、设备及存储介质

本申请要求于2019年09月17日提交的中国专利申请号201910875372.1的优先权益，上述案件全部内容以引用的方式并入本文中。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种语音情绪识别方法、装置、设备及存储介质。

背景技术

随着人工智能、机器学习与网络信息的快速发展，很多场合都应用到对语音进行情绪识别预测的技术，例如，人机交互、语音通话等。语音情绪识别预测是一个有强烈主观性的问题，其判断必须依据上下文。现有的语音情绪识别均是直接基于语音片段给定情绪预测结果，片段时长与说话人连续说话时长相关。但是，即使在一句话中，语音的情绪也是存在波动的，所以基于语音片段进行的情绪判断存在较大的误差。

发明内容

本申请提供一种语音情绪识别方法、装置、设备及存储介质，以解决现有技术对语音片段进行情绪识别存在较大误差的问题。

为了实现上述目的，本申请的第一个方面是提供一种语音情绪识别方法，包括以下步骤：

获取待识别语音片段；

对获取的待识别语音片段进行预处理，包括：对所述待识别语音片段进行分帧处理，得到多帧语音；

用预先训练生成的情绪识别模型对所述多帧语音进行处理，以得出多个情绪识别结果，每个情绪识别结果与一帧语音或设定数量帧语音相对应；

根据所述多个情绪识别结果得到与所述待识别语音片段对应的情绪。

为了实现上述目的，本申请的第二个方面是提供一种语音情绪识别装置，包括：语音获取模块、预处理模块、情绪识别模块和情绪获取模块，其中，语音获取模块用于获取待识别语音片段，预处理模块用于对获取的待识别语音片段进行预处理，得到多帧语音；情绪识别模块用于用预先训练生成的情绪识别模型对经过预处理的待识别语音片段进行处理，得到多个情绪识别结果，每个情绪识别结果与一帧语音或设定数量帧语音相对应；情绪获取模块用于根据多个情绪识别结果得到与所述待识别语音片段对应的情绪。

为了实现上述目的，本申请的第三个方面是提供一种电子设备，该电子设备包括：处理器和存储器，所述存储器中包括语音情绪识别程序，所述语音情绪识别程序被所述处理器执行时实现如上所述的语音情绪识别方法。

为了实现上述目的，本申请的第四个方面是提供一种计算机非易失性可读存储介质，所述计算机非易失性可读存储介质中包括语音情绪识别程序，所述语音情绪识别程序被处理器执行时，实现如上所述的语音情绪识别方法。

相对于现有技术，本申请具有以下优点和有益效果：

本申请通过情绪识别模型得到与一个语音片段中的每一帧或多帧语音对应的情绪，将对语音片段的情绪识别减小到毫秒级，更加接近对语音片段情绪的实时连续预测，提高语音情绪识别的准确率。

附图说明

图1为本申请所提供的语音情绪识别方法的流程示意图；

图2为本申请中语音情绪识别装置的示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将参考附图来描述本申请所述的实施例。本领域的普通技术人员可以认识到，在不偏离本申请的精神和范围的情况下，可以用各种不同的方式或其组合对所描述的实施例进行修正。因此，附图和描述在本质上是说明性的，仅仅用以解释本申请，而不是用于限制权利要求的保护范围。此外，在本说明书中，附图未按比例画出，并且相同的附图标记表示相同的部分。

图1为本申请所提供的语音情绪识别方法的流程示意图，如图1所示，本申请所提供的语音情绪识别方法，包括以下步骤：

步骤S1，获取待识别语音片段，待识别语音片段为语音识别系统对说话人进行语音端点检测时获取的任意时长的语音片段；

步骤S2，对获取的所述待识别语音片段进行预处理，包括：对所述待识别语音片段进行分帧处理，得到多帧语音，并分别提取每一帧语音的特征向量，以便于对语音进行进一步地处理；

步骤S3，用预先训练生成的情绪识别模型对所述多帧语音进行处理，以得出多个情绪识别结果，每个情绪识别结果与一帧语音或设定数量帧语音相对应，例如，对于一个时长为2s的待识别语音片段，经过分帧移帧处理，得到200帧语音，每一帧时长为25ms，可以每一帧语音得到一个情绪识别结果，即得到200个情绪识别结果，也可以每5帧语音得到一个情绪识别结果，即得到40个情绪识别结果；

步骤S4，根据输出的多个情绪识别结果得到与所述待识别语音片段对应的情绪。

由于语音情绪的表达体现在文字的语气上，存在间歇性，有高有底，语气严重的语音片段的情绪，人容易识别，情绪识别模型也会容易识别，仅仅通过语音片段中的某一帧来判断情绪可能会存在不准确的情况，难以最大限度的检测出语音中的负面情绪。本申请通过情绪识别模型得到与每一帧或多帧语音对应的情绪，将对语音的情绪识别减小到毫秒级，更加接近对语音片段情绪的实时连续预测，提高语音情绪识别的准确率。

需要说明的是，当情绪识别结果与设定数量帧语音相对应时，如果连续帧数太大，可能又会降低情绪识别效果，所以根据不同的应用场景，确定一个连续帧数阈值，即例如当设定数量为8的时候，更加贴近该场景情绪的表达，识别效果最佳。

优选地，对语音片段进行分帧时，每一帧语音时长为25ms～50ms，以符合短时平稳的语音特征；移帧时，每次移帧时长15ms，以保证帧之间的情绪连续性，例如，一个时长1s的语音片段，可以得到1000/(20-15)＝200帧。

对每一帧语音提取的特征向量包括过零率(Zero Crossing Rate，ZCR)、短时能量(short-term energy)、短时能量熵(short-term entropy of energy)、频谱中心和延展度(spectral centroid and spread)、谱熵(spectral entropy)、频谱流量(spectral flux)、频谱滚降点(spectral roll-off)、梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)、调和比和间距(Harmonic ratio and pitch)等34维的LLDs(Low-Level Descriptors)特征，则对于一个语音片段得到的特征矩阵维度为N*34，其中，N表示帧的数量，50≤N≤800。

本申请的一个可选实施例中，在所述用预先训练生成的情绪识别模型对所述多帧语音进行处理之前，还包括：对情绪识别模型进行训练，具体地，训练步骤包括：

构建样本库，并对所述样本库中的样本标注标签，所述样本为语音片段，所标注的标签为与该语音片段对应的情绪类型，包括负面情绪和非负面情绪，其中，负面情绪用NEG表示，包括愤怒、生气和悲伤等，非负面情绪用NEU表示，包括正常、开心、兴奋等，例如，对于一个整通的录音文件，标注该录音文件中带有负面情绪的语音片段的时间起点和终点(500ms<片段时长<8s)，根据停顿点确定划分的语音片段时长，从而将整通录音文件化分为多个样本，并标注每个样本的情绪类型，从而可以获取一个给定的语音片段中的负面情绪片段以及正面情绪片段，并分别标注；

将样本库划分为训练集和测试集，并将所述训练集划分为开发集和验证集，开发集用于训练模型，验证集用于调优模型，所述测试集用于测试模型实际环境的性能；

利用所述训练集中的训练样本训练所述情绪识别模型的超参数，以获取符合预设条件的超参数集，并根据所述超参数集更新所述情绪识别模型，其中，超参数包括模型的所有的权重和偏置，以及微调参数等，预设条件为所确定的超参数集使得所述情绪识别模型的性能最优，情绪识别模型的情绪识别准确率大于预设准确率；

利用所述测试集中的测试样本对更新后的所述情绪识别模型进行测试，若生成的测试结果通过验证，则结束训练，若生成的测试结果未通过验证，则继续执行所述利用所述训练集中的训练样本训练所述情绪识别模型的超参数的步骤。

本申请的一个可选实施例中，利用所述训练集中的训练样本训练所述情绪识别模型的超参数，以获取符合预设条件的超参数集，并根据所述超参数集更新所述情绪识别模型，包括：

将训练集中的训练样本平均分成预设数目份训练子集；

依次取第i份训练子集作为验证集，其余训练子集作为开发集，对所述情绪识别模型进行预设数目轮训练，并得出预设数目组超参数集；

根据预设超参数集选择条件从所述预设数目组超参数集中选取出最优超参数集，其中，预设超参数集选择条件为选择的超参数集使得对应的情绪识别模型的性能最优；

根据所述最优超参数集更新所述情绪识别模型，并继续执行所述将训练集中的训练样本平均分成预设数目份训练子集的步骤，直至所述最优超参数集符合预设条件。

例如，预设数目为5时，使用5折交叉验证训练模型，将训练集中的训练样本平均分成5份训练子集，依次取第i份(i＝1,2,3,4,5)训练子集作为验证集，其余四份训练子集进行合并作为开发集，对情绪识别模型分别进行5轮训练，完成一次迭代，其中，每轮训练均得到一组超参数集，则通过一次迭代可以得到5组超参数集，根据预设超参数集选择条件确定5组超参数集中的最优超参数集，作为下一次迭代的基础，更新所述情绪识别模型，并继续执行所述将训练集中的训练样本平均分成5份训练子集的步骤，进行多次迭代，直至所述最优超参数集符合预设条件。

进一步地，利用训练集中的训练样本训练情绪识别模型的超参数的步骤，包括：

初始化所述情绪识别模型的超参数并生成初始化情绪识别模型；

用所述初始化情绪识别模型对所述训练集中的训练样本进行处理，得出与每个训练样本对应的预测类别标签；

根据所述预测类别标签与标注标签计算此次的迭代损失值；

根据所述迭代损失值更新所述初始化情绪识别模型的超参数。

其中，通过交叉熵损失函数获取迭代损失值，表示为：

其中，L表示迭代损失值，y ⁽ⁱ⁾表示样本i的标注标签，

表示样本i的预测标签，N表示样本总数量。

本申请的一个可选实施例中，利用所述测试集中的测试样本对更新后的所述情绪识别模型进行测试，包括：利用所述测试样本测试所述情绪识别模型，并得出所述情绪识别模型的情绪识别准确率，若准确率超过小于或等于准确率，则所述情绪识别模型未通过验证，否则，所述情绪识别模型通过验证。其中，准确率根据语音片段的实际应用场景而设定，不同的应用场景可以设定不同的准确率阈值。

本申请的一个可选实施例中，所述情绪识别模型包括：循环记忆神经网络结构和注意力机制层，通过循环记忆神经网络结构处理变长的时间序列，使得每一帧语音的情绪识别结果考虑了之前的情绪状态特征，所述注意力机制层与所述循环记忆神经网络结构的最后一个隐藏层连接，通过注意力机制层强化语音片段中的关键情绪特征，例如，提高负面情绪语音的权重，降低非负面情绪语音的权重。

所述循环神经网络结构包括双向循环神经网络，所述双向循环神经网络包括长短期记忆(Long Short-Term Memory，LSTM)网络结构、BILSTM(Bi-directional Long Short-Term Memory)网络结构。

本申请的一个可选实施例中，所述LSTM网络结构包括：

遗忘门：

f _t＝σ(W _f·[h _t-1,x _t]+b _f)

其中，f _t表示t时刻遗忘门的输出，W _f表示遗忘门的权重，σ表示sigmoid激活函数，h _t-1表示t-1时刻LSTM的cell单元的隐含层输出，x _t表示t时刻的输入数据，b _f表示遗忘门的偏置；

更新门：

i _t＝σ(W _i·[h _t-1,x _t]+b _i)

其中，i _t表示t时刻更新门的输出，W _i表示更新门中sigmoid激活函数的权重，b _i表示sigmoid激活函数的偏置，σ表示sigmoid激活函数，h _t-1表示t-1时刻LSTM的cell单元的隐含层输出，x _t表示t时刻的输入数据，

表示更新门中激活函数tanh的输出，W _C表示更新门中激活函数tanh的权重，b _C表示更新门中激活函数tanh的偏置；

更新信息：

其中，C _t表示t时刻更新门的输出状态；

输出门：

o _t＝σ(W _o·[h _t-1,x _t]+b _o)

h _t＝o _t*tanh(C _t)

其中，o _t表示LSTM的输出，W _o表示输出门sigmoid的权重，b _o表示输出门sigmoid的偏置，σ表示sigmoid激活函数，h _t-1表示t-1时刻LSTM的cell单元的隐含层输出，x _t表示t时刻的输入数据，h _t表示t时刻LSTM的cell单元的隐含层输出。

本申请通过所述注意力机制层学习到LSTM网络结构最后一个隐藏层的信息的权重参数，对隐含层输出不做选择性的进行深度特征提取，获取输入的语音片段的基于注意力的深度特征表示，提高语音情绪识别的准确率。本申请的一个可选实施例中，所述注意力机制层包括注意力机制模型和打分模型，注意机制模型用于迭代训练LSTM网络结构的权重参数，打分模型用于调整语音片段中的负面情绪的权重参数，其中，所述注意力机制层对LSTM网络结构的权重参数的训练通过下式得到：

u ^j＝v ^jf(W ₁h ^j)

α ^j＝softmax(u ^j)

c ^j＝Σ _jα ^jh ^j

其中，u ^j表示对LSTM网络结构的隐含层的第j个节点输出向量的非线性变换结果，v ^j表示注意力机制层的超参数，W ₁表示LSTM网络结构的权重参数，h ^j表示LSTM网络结构的隐含层的第j个节点输出，f()表示非线性函数，α ^j表示计算状态得分结果，其中softmax()函数结合f()非线性函数构成得分计算模型，c ^j表示与h ^j对应的注意力机制层输出结果。

本申请的一个可选实施例中，根据所述多个情绪识别结果得到与所述待识别语音片段对应的情绪，包括：

获取多个情绪识别结果中，负面情绪所占的比例；

若负面情绪所占的比例大于或等于预设比例阈值，则判定与所述待识别语音片段对应的情绪为负面；若负面情绪所占的比例小于预设比例阈值，则判定与所述待识别语音片段对应的情绪为非负面。

例如，对于一个待识别语音片段，通过分帧移帧处理，得到125帧语音，每一帧语音通过情绪识别模型得到一个识别结果，125帧语音得到125个情绪识别结果，对于整个待识别语音片段，设定比例阈值为70％，若其中有大于或等于70％帧的语音识别为负面情绪，则判定所述待识别语音片段的情绪类型为负面。

对于一个时长为2s的待识别语音片段，经过分帧移帧处理，得到200帧语音，每一帧时长为25ms，通过情绪识别模型，每5帧得到一个情绪识别结果，即得到40个情绪识别结果，若其中有70％的帧识别为负面情绪，则判定所述待识别语音片段的情绪类型为负面，如果忽略情绪起止点判断误差，和情绪不存在较大起伏问题，可直接取5帧的识别结果作为实时输出，则可以认为，对于任意一通语音数据，每50ms就会得到一个情绪识别结果，可以认为是连续性的情绪侦测，且情绪识别准确率较高。

本申请所述语音情绪识别方法应用于电子设备，所述电子设备可以是电视机、智能手机、平板电脑、计算机等终端设备。

所述电子设备包括：处理器和存储器，所述存储器用于存储语音情绪识别程序，处理器执行所述语音情绪识别程序，实现以下的语音情绪识别方法：

获取待识别语音片段；对获取的待识别语音片段进行预处理，包括：对所述待识别语音片段进行分帧处理，得到多帧语音；用预先训练生成的情绪识别模型对所述多帧语音进行处理，以得出多个情绪识别结果，每个情绪识别结果与一帧语音或设定数量帧语音相对应；根据所述多个情绪识别结果得到与所述待识别语音片段对应的情绪。

所述电子设备还包括网络接口和通信总线等。其中，网络接口可以包括标准的有线接口、无线接口，通信总线用于实现各个组件之间的连接通信。

存储器包括至少一种类型的可读存储介质，可以是闪存、硬盘、光盘等非易失性存储介质，也可以是插接式硬盘等，且并不限于此，可以是以非暂时性方式存储指令或软件以及任何相关联的数据文件并向处理器提供指令或软件程序以使该处理器能够执行指令或软件程序的任何装置。本申请中，存储器存储的软件程序包括语音情绪识别程序，并可以向处理器提供该语音情绪识别程序，以使得处理器可以执行该语音情绪识别程序，实现语音情绪识别方法。

处理器可以是中央处理器、微处理器或其他数据处理芯片等，可以运行存储器中的存储程序，例如，本申请中语音情绪识别程序。

所述电子设备还可以包括显示器，显示器也可以称为显示屏或显示单元。在一些实施例中显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。显示器用于显示在电子设备中处理的信息以及用于显示可视化的工作界面。

所述电子设备还可以包括用户接口，用户接口可以包括输入单元(比如键盘)、语音输出装置(比如音响、耳机)等。

需要说明的是，本申请中所述电子设备的具体实施方式与上述语音情绪识别方法的具体实施方式大致相同，在此不再一一赘述。

图2为本申请中语音情绪识别装置的示意图，所述语音情绪识别装置包括：语音获取模块1、预处理模块2、情绪识别模块3和情绪获取模块4，通过语音获取模块1获取待识别语音片段之后，通过预处理模块2对获取的待识别语音片段进行预处理，预处理包括：对所述待识别语音片段进行分帧处理，得到多帧语音；通过情绪识别模块3利用预先训练生成的情绪识别模型对经过预处理的待识别语音片段进行处理，得到多个情绪识别结果，每个情绪识别结果与一帧语音或设定数量帧语音相对应；最后，通过情绪获取模块4根据多个情绪识别结果得到与所述待识别语音片段对应的情绪。

通过情绪识别模块将一段语音片段识别出与每一帧或多帧语音对应的情绪识别结果，可以将对语音的情绪识别减小到毫秒级，从而更加接近对语音片段情绪的实时连续预测，提高语音情绪识别的准确率。

所述语音情绪识别装置还包括训练模块，在对所述多帧语音进行处理之前对所述情绪识别模型进行训练，所述训练模块包括：

样本库构建单元，构建样本库并对所述样本库中的样本标注标签，所述样本为语音片段；样本库划分单元，将样本库划分为训练集和测试集，并将所述训练集划分为开发集和验证集，开发集用于训练模型，验证集用于调优模型，所述测试集用于测试模型；训练单元，利用所述训练集中的训练样本训练所述情绪识别模型的超参数，以获取符合预设条件的超参数集，并根据所述超参数集更新所述情绪识别模型；测试单元，利用所述测试集中的测试样本对更新后的所述情绪识别模型进行测试，若生成的测试结果未通过验证，则继续通过所述训练单元训练所述情绪识别模型的超参数。

所述训练单元通过下述方式训练所述情绪识别模型的超参数，包括：

将训练集中的训练样本平均分成预设数目份训练子集；依次取第i份训练子集作为验证集，其余训练子集作为开发集，对所述情绪识别模型进行预设数目轮训练，并得出预设数目组超参数集；根据预设超参数集选择条件从所述预设数目组超参数集中选取出最优超参数集；根据所述最优超参数集更新所述情绪识别模型，并继续执行所述将训练集中的训练样本平均分成预设数目份训练子集的步骤，直至所述最优超参数集符合预设条件。

需要说明的是，所述语音情绪识别装置对情绪识别模型的其他训练步骤与上述语音情绪识别方法中的训练步骤类似，在此不再赘述。

本申请的一个可选实施例中，所述情绪识别模块中使用的情绪识别模型包括循环记忆神经网络结构和注意力机制层，通过循环记忆神经网络结构处理变长的时间序列，使得每一帧语音的情绪识别结果考虑了之前的情绪状态特征，所述注意力机制层与所述循环记忆神经网络结构的最后一个隐藏层连接，通过注意力机制层强化语音片段中的关键情绪特征，例如，提高负面情绪语音的权重，降低非负面情绪语音的权重。

需要说明的是，所述情绪识别模型的结构与上述语音情绪识别方法中使用的情绪识别模型大致相同，在此不再赘述。

本申请的一个可选实施例中，所述情绪获取模块包括比例获取模块和情绪判定模块，其中，通过比例获取模块获取多个情绪识别结果中负面情绪所占的比例，情绪判定模块根据负面情绪所占的比例判定与待识别语音片段对应的情绪为负面或非负面，具体地，包括：若负面情绪所占的比例大于或等于预设比例阈值，则判定与所述待识别语音片段对应的情绪为负面；若负面情绪所占的比例小于预设比例阈值，则判定与所述待识别语音片段对应的情绪为非负面。

例如，对于一个待识别语音片段，通过分帧移帧处理，得到125帧语音，每一帧语音通过情绪识别模型得到一个识别结果，125帧语音得到125个情绪识别结果，对于整个待识别语音片段，设定比例阈值为70％，若其中有大于或等于70％的帧识别为负面情绪，则判定所述待识别语音片段的情绪类型为负面。

在其他实施例中，语音情绪识别程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器中，并由处理器执行，以完成本申请，实现上述语音情绪识别装置的功能。本申请所称的模块是指能够完成特定功能的一系列计算机程序指令段。所述语音情绪识别程序可以被分割为：语音获取模块1、预处理模块2、情绪识别模块3和情绪获取模块4。上述模块所实现的功能或操作步骤均与上文类似，此处不再详述，示例性地，例如其中：

语音获取模块1，获取待识别语音片段；

预处理模块2，对获取的待识别语音片段进行预处理，包括：对所述待识别语音片段进行分帧处理，得到多帧语音；

情绪识别模块3，用预先生成的情绪识别模型对所述多帧语音进行处理，以得出多个情绪识别结果，每个情绪识别结果与一帧或设定数量帧语音相对应；

情绪获取模块4，根据所述多个情绪识别结果得到与所述待识别语音片段对应的情绪。

本申请的一个实施例中，计算机非易失性可读存储介质可以是任何包含或存储程序或指令的有形介质，其中的程序可以被执行，通过存储的程序指令相关的硬件实现相应的功能。例如，计算机可读存储介质可以是计算机磁盘、硬盘、随机存取存储器、只读存储器等。本申请并不限于此，可以是以非暂时性方式存储指令或软件以及任何相关数据文件或数据结构并且可提供给处理器以使处理器执行其中的程序或指令的任何装置。所述计算机非易失性可读存储介质中包括语音情绪识别程序，所述语音情绪识别程序被处理器执行时，实现如下的语音情绪识别方法：

本申请之计算机非易失性可读存储介质的具体实施方式与上述语音情绪识别方法、装置、电子设备的具体实施方式大致相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

Claims

一种语音情绪识别方法，应用于电子设备，其特征在于，包括以下步骤：

获取待识别语音片段；

对获取的待识别语音片段进行预处理，包括：对所述待识别语音片段进行分帧处理，得到多帧语音；

用预先训练生成的情绪识别模型对所述多帧语音进行处理，以得出多个情绪识别结果，每个情绪识别结果与一帧语音或设定数量帧语音相对应；

根据所述多个情绪识别结果得到与所述待识别语音片段对应的情绪。
根据权利要求1所述的语音情绪识别方法，其特征在于，在所述用预先训练生成的情绪识别模型对所述多帧语音进行处理之前，还包括：

构建样本库，并对所述样本库中的样本标注标签，所述样本为语音片段；

将样本库划分为训练集和测试集，并将所述训练集划分为开发集和验证集，开发集用于训练模型，验证集用于调优模型，所述测试集用于测试模型；

利用所述训练集中的训练样本训练所述情绪识别模型的超参数，以获取符合预设条件的超参数集，并根据所述超参数集更新所述情绪识别模型；

利用所述测试集中的测试样本对更新后的所述情绪识别模型进行测试，若生成的测试结果未通过验证，则继续执行所述利用所述训练集中的训练样本训练所述情绪识别模型的超参数的步骤。
根据权利要求2所述的语音情绪识别方法，其特征在于，利用所述训练集中的训练样本训练所述情绪识别模型的超参数，以获取符合预设条件的超参数集，并根据所述超参数集更新所述情绪识别模型，包括：

将训练集中的训练样本平均分成预设数目份训练子集；

依次取第i份训练子集作为验证集，其余训练子集作为开发集，对所述情绪识别模型进行预设数目轮训练，并得出预设数目组超参数集；

根据预设超参数集选择条件从所述预设数目组超参数集中选取出最优超参数集；

根据所述最优超参数集更新所述情绪识别模型，并继续执行所述将训练集中的训练样本平均分成预设数目份训练子集的步骤，直至所述最优超参数集符合预设条件。
根据权利要求2或3所述的语音情绪识别方法，其特征在于，利用训练集中的训练样本训练情绪识别模型的超参数的步骤包括：

初始化所述情绪识别模型的超参数并生成初始化情绪识别模型；

用所述初始化情绪识别模型对所述训练集中的训练样本进行处理，得出与每个训练样本对应的预测类别标签；

根据所述预测类别标签与标注标签计算迭代损失值；

根据所述迭代损失值更新所述初始化情绪识别模型的超参数，

其中，迭代损失值通过下式获取：

其中，L表示迭代损失值，y ⁽ⁱ⁾表示样本i的标注标签，
表示样本i的预测类别标签，N表示样本总数量。
根据权利要求2所述的语音情绪识别方法，其特征在于，利用所述测试集中的测试样本对更新后的所述情绪识别模型进行测试，包括：利用所述测试样本测试所述情绪识别模型，并得出所述情绪识别模型的情绪识别准确率，若所述准确率小于或等于预设准确率，则所述情绪识别模型未通过验证，否则，所述情绪识别模型通过验证。
根据权利要求1所述的语音情绪识别方法，其特征在于，根据所述多个情绪识别结果得到与所述待识别语音片段对应的情绪的步骤，包括：

获取所述多个情绪识别结果中，负面情绪所占的比例；

若负面情绪所占的比例大于或等于预设比例阈值，则判定与所述待识别语音片段对应的情绪为负面；若负面情绪所占的比例小于预设比例阈值，则判定与所述待识别语音片段对应的情绪为非负面。
根据权利要求1所述的语音情绪识别方法，其特征在于，所述情绪识别模型包括：循环记忆神经网络结构和注意力机制层，其中，所述注意力机制层与所述循环记忆神经网络结构的最后一个隐藏层连接，所述循环记忆神经网络结构是LSTM网络结构，所述LSTM网络结构包括：

遗忘门：

f _t＝σ(W _f·[h _t-1,x _t]+b _f)

其中，f _t表示t时刻遗忘门的输出，W _f表示遗忘门的权重，σ表示sigmoid 激活函数，h _t-1表示t-1时刻LSTM的cell单元的隐含层输出，x _t表示t时刻的输入数据，b _f表示遗忘门的偏置；

更新门：

i _t＝σ(W _i·[h _t-1,x _t]+b _i)

其中，i _t表示t时刻更新门的输出，W _i表示更新门中sigmoid激活函数的权重，b _i表示sigmoid激活函数的偏置，σ表示sigmoid激活函数，h _t-1表示t-1时刻LSTM的cell单元的隐含层输出，x _t表示t时刻的输入数据，
表示更新门中激活函数tanh的输出，W _C表示更新门中激活函数tanh的权重，b _C表示更新门中激活函数tanh的偏置；

更新信息：

其中，C _t表示t时刻更新门的输出状态；

输出门：

o _t＝σ(W _o·[h _t-1,x _t]+b _o)

h _t＝o _t*tanh(C _t)

其中，o _t表示LSTM的输出，W _o表示输出门sigmoid的权重，b _o表示输出门sigmoid的偏置，σ表示sigmoid激活函数，h _t-1表示t-1时刻LSTM的cell单元的隐含层输出，x _t表示t时刻的输入数据，h _t表示t时刻LSTM的cell单元的隐含层输出。
根据权利要求7所述的语音情绪识别方法，其特征在于，所述注意力机制层包括注意力机制模型和打分模型，所述注意机制模型用于迭代训练LSTM网络结构的权重参数，所述打分模型用于调整语音片段中的负面情绪的权重参数；

其中，注意力机制层对LSTM网络结构的权重参数的训练通过下式得到：

u ^j＝v ^jf(W ₁h ^j)

α ^j＝softmax(u ^j)

其中，u ^j表示对LSTM网络结构的隐含层的第j个节点输出向量的非线性变换结果，v ^j表示注意力机制层的超参数，W ₁表示LSTM网络结构的权重参数，h ^j表示LSTM网络结构的隐含层的第j个节点输出，f()表示非线性函数，α ^j表示计算状态得分结果，c ^j表示与h ^j对应的注意力机制层输出结果。
根据权利要求1所述的语音情绪识别方法，其特征在于，对所述待识别语音片段进行分帧处理时，每一帧语音时长为25ms～50ms；移帧时，每次移帧时长15ms。
一种语音情绪识别装置，其特征在于，包括：语音获取模块、预处理模块、情绪识别模块和情绪获取模块，其中，语音获取模块用于获取待识别语音片段，预处理模块用于对获取的待识别语音片段进行预处理，得到多帧语音；情绪识别模块用于用预先训练生成的情绪识别模型对经过预处理的待识别语音片段进行处理，得到多个情绪识别结果，每个情绪识别结果与一帧语音或设定数量帧语音相对应；情绪获取模块用于根据多个情绪识别结果得到与所述待识别语音片段对应的情绪。
根据权利要求10所述的语音情绪识别装置，其特征在于，所述情绪识别模型包括：循环记忆神经网络结构和注意力机制层，其中，所述注意力机制层与所述循环记忆神经网络结构的最后一个隐藏层连接，所述循环记忆神经网络结构是LSTM网络结构，所述LSTM网络结构包括：

遗忘门：

f _t＝σ(W _f·[h _t-1,x _t]+b _f)

其中，f _t表示t时刻遗忘门的输出，W _f表示遗忘门的权重，σ表示sigmoid激活函数，h _t-1表示t-1时刻LSTM的cell单元的隐含层输出，x _t表示t时刻的输入数据，b _f表示遗忘门的偏置；

更新门：

i _t＝σ(W _i·[h _t-1,x _t]+b _i)

其中，i _t表示t时刻更新门的输出，W _i表示更新门中sigmoid激活函数的权重，b _i表示sigmoid激活函数的偏置，σ表示sigmoid激活函数，h _t-1表示t-1时刻LSTM的cell单元的隐含层输出，x _t表示t时刻的输入数据，
表示更新门中激活函数tanh的输出，W _C表示更新门中激活函数tanh的权重，b _C表示更新门中激活函数tanh的偏置；

更新信息：

其中，C _t表示t时刻更新门的输出状态；

输出门：

o _t＝σ(W _o·[h _t-1,x _t]+b _o)

h _t＝o _t*tanh(C _t)

其中，o _t表示LSTM的输出，W _o表示输出门sigmoid的权重，b _o表示输出门sigmoid的偏置，σ表示sigmoid激活函数，h _t-1表示t-1时刻LSTM的cell单元的隐含层输出，x _t表示t时刻的输入数据，h _t表示t时刻LSTM的cell单元的隐含层输出。
根据权利要求10所述的语音情绪识别装置，其特征在于，所述注意力机制层包括注意力机制模型和打分模型，所述注意机制模型用于迭代训练LSTM网络结构的权重参数，所述打分模型用于调整语音片段中的负面情绪的权重参数；

其中，注意力机制层对LSTM网络结构的权重参数的训练通过下式得到：

u ^j＝v ^jf(W ₁h ^j)

α ^j＝softmax(u ^j)

其中，u ^j表示对LSTM网络结构的隐含层的第j个节点输出向量的非线性变换结果，v ^j表示注意力机制层的超参数，W ₁表示LSTM网络结构的权重参数，h ^j表示LSTM网络结构的隐含层的第j个节点输出，f()表示非线性函数，α ^j表示计算状态得分结果，c ^j表示与h ^j对应的注意力机制层输出结果。
根据权利要求10所述的语音情绪识别装置，其特征在于，所述情绪获取模块包括比例获取模块和情绪判定模块，其中，比例获取模块用于获取多个情绪识别结果中负面情绪所占的比例，情绪判定模块用于根据负面情绪所占的比例判定与待识别语音片段对应的情绪为负面或非负面。
根据权利要求10所述的语音情绪识别装置，其特征在于，所述语音情绪识别装置还包括训练模块，在对所述多帧语音进行处理之前对所述情绪识别模型进行训练，所述训练模块包括：

样本库构建单元，构建样本库并对所述样本库中的样本标注标签，所述样本为语音片段；

样本库划分单元，将样本库划分为训练集和测试集，并将所述训练集划分为开发集和验证集，开发集用于训练模型，验证集用于调优模型，所述测试集用于测试模型；

训练单元，利用所述训练集中的训练样本训练所述情绪识别模型的超参数，以获取符合预设条件的超参数集，并根据所述超参数集更新所述情绪识别模型；

测试单元，利用所述测试集中的测试样本对更新后的所述情绪识别模型进行测试，若生成的测试结果未通过验证，则继续通过所述训练单元训练所述情绪识别模型的超参数。
根据权利要求14所述的语音情绪识别方法，其特征在于，所述训练单元通过下述方式训练所述情绪识别模型的超参数，包括：

将训练集中的训练样本平均分成预设数目份训练子集；

依次取第i份训练子集作为验证集，其余训练子集作为开发集，对所述情绪识别模型进行预设数目轮训练，并得出预设数目组超参数集；

根据预设超参数集选择条件从所述预设数目组超参数集中选取出最优超参数集；

根据所述最优超参数集更新所述情绪识别模型，并继续执行所述将训练集中的训练样本平均分成预设数目份训练子集的步骤，直至所述最优超参数集符合预设条件。
一种电子设备，其特征在于，该电子设备包括：处理器和存储器，所述存储器中包括语音情绪识别程序，所述语音情绪识别程序被所述处理器执行时实现如权利要求1所述的语音情绪识别方法。
根据权利要求16所述的电子设备，其特征在于，所述语音情绪识别程序被所述处理器执行时，还实现在对所述多帧语音进行处理之前，对情绪识别模型进行训练的方法，包括：

构建样本库，并对所述样本库中的样本标注标签，所述样本为语音片段；

将样本库划分为训练集和测试集，并将所述训练集划分为开发集和验证集，开发集用于训练模型，验证集用于调优模型，所述测试集用于测试模型；

利用所述训练集中的训练样本训练所述情绪识别模型的超参数，以获取符合预设条件的超参数集，并根据所述超参数集更新所述情绪识别模型；

利用所述测试集中的测试样本对更新后的所述情绪识别模型进行测试，若生成的测试结果未通过验证，则继续执行所述利用所述训练集中的训练样本训练所述情绪识别模型的超参数的步骤。
根据权利要求17所述的电子设备，其特征在于，利用所述训练集中的训练样本训练所述情绪识别模型的超参数，以获取符合预设条件的超参数集，并根据所述超参数集更新所述情绪识别模型的步骤，包括：

将训练集中的训练样本平均分成预设数目份训练子集；

依次取第i份训练子集作为验证集，其余训练子集作为开发集，对所述情绪识别模型进行预设数目轮训练，并得出预设数目组超参数集；

根据预设超参数集选择条件从所述预设数目组超参数集中选取出最优超参数集；

根据所述最优超参数集更新所述情绪识别模型，并继续执行所述将训练集中的训练样本平均分成预设数目份训练子集的步骤，直至所述最优超参数集符合预设条件。
根据权利要求17所述的电子设备，其特征在于，利用训练集中的训练样本训练情绪识别模型的超参数的步骤包括：

初始化所述情绪识别模型的超参数并生成初始化情绪识别模型；

用所述初始化情绪识别模型对所述训练集中的训练样本进行处理，得出与每个训练样本对应的预测类别标签；

根据所述预测类别标签与标注标签计算迭代损失值；

根据所述迭代损失值更新所述初始化情绪识别模型的超参数，

其中，迭代损失值通过下式获取：

其中，L表示迭代损失值，y ⁽ⁱ⁾表示样本i的标注标签，
表示样本i的预测类别标签，N表示样本总数量。
一种计算机非易失性可读存储介质，其特征在于，所述计算机非易失性可读存储介质中包括语音情绪识别程序，所述语音情绪识别程序被处理器执行时，实现如权利要求1至9中任一项所述的语音情绪识别方法。