WO2020173133A1

WO2020173133A1 - 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质

Info

Publication number: WO2020173133A1
Application number: PCT/CN2019/117711
Authority: WO
Inventors: 刘博卿; 贾雪丽; 王健宗
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-02-27
Filing date: 2019-11-12
Publication date: 2020-09-03
Also published as: CN109817246B; CN109817246A

Abstract

一种情感识别模型的训练方法、装置、设备及存储介质，该方法包括：根据用户的语音信息及数据标签构建样本数据；对样本数据中的语音信息进行预处理以得到对应的频谱向量；基于循环神经网络，根据语音信息对应的频谱向量和数据标签进行模型训练以得到情感识别模型。

Description

情感识别模型的训练方法、情感识别方法、装置、设备及存储介质

本申请要求于2019年2月27日提交中国专利局、申请号为201910145605.2、发明名称为“情感识别模型的训练方法、情感识别方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中

技术领域

本申请涉及模型训练技术领域，尤其涉及一种情感识别模型的训练方法、情感识别方法、装置、计算机设备及存储介质。

背景技术

近年来，基于机器学习利用声音识别用户情感的情感识别模型得到了广泛的发展，但针对声音的情感识别还面临了很多挑战，比如为了产生持续的精确的正负情感的识别，部分识别模型采用文字和声学特征结合的方式，这种方式需要利用语音识别(Automatic Speech Recognition，ASR)技术将声音转化为文字信息，但是存在延迟性严重的问题。同时，情感识别模型还存在泛化性差的问题，当把模型应用到新的说话人时，其准确率会降低。

发明内容

本申请提供了一种情感识别模型的训练方法、情感识别方法、装置、计算机设备及存储介质，以提高情感识别模型的可泛化性，提高识别的准确率。

第一方面，本申请提供了一种情感识别模型的训练方法，所述方法包括：

获取用户的语音信息以及所述语音信息对应的数据标签；

根据所述语音信息以及对应的数据标签构建样本数据；

根据预设处理规则对所述样本数据中的语音信息进行预处理以得到对应的频谱向量；

提取预设的循环神经网络，所述循环神经网络包括注意力机制，所述注意力机制用于加强所述语音信息中的部分区域；

基于所述循环神经网络，根据所述语音信息对应的频谱向量和数据标签进行模型训练以得到情感识别模型。

第二方面，本申请还提供了一种情感识别方法，所述方法包括：

采集用户的语音信号；

根据预设处理规则对所述语音信号进行预处理以得到所述语音信号对应的频谱向量；

将所述频谱向量输入至情感识别模型对所述用户的情感进行识别，以得到所述用户的情感类别，所述情感识别模型为采用上述的情感识别模型训练方法训练得到的模型。

第三方面，本申请还提供了一种情感识别模型的训练装置，所述装置包括：

获取单元，用于获取用户的语音信息以及所述语音信息对应的数据标签；

样本构建单元，用于根据所述语音信息以及对应的数据标签构建样本数据；

预处理单元，用于根据预设处理规则对所述样本数据中的语音信息进行预处理以得到对应的频谱向量；

提取单元，用于提取预设的循环神经网络，所述循环神经网络包括注意力机制，所述注意力机制用于加强所述语音信息中的部分区域；

模型训练单元，用于基于所述循环神经网络，根据所述语音信息对应的频谱向量和数据标签进行模型训练以得到情感识别模型。

第三方面，本申请还提供了一种情感识别装置，所述装置包括：

信号采集单元，用于采集用户的语音信号；

信号处理单元，用于根据预设处理规则对所述语音信号进行预处理以得到所述语音信号对应的频谱向量；

情感识别单元，用于将所述频谱向量输入至情感识别模型对所述用户的情感进行识别，以得到所述用户的情感类别，所述情感识别模型为采用上述的情感识别模型训练方法训练得到的模型。

第四方面，本申请还提供了一种计算机设备，所述计算机设备包括存储器和处理器；所述存储器用于存储计算机程序；所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如上述的情感识别模型的训练方法，或者所述的情感识别方法。

第五方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如上述的情感识别模型的训练方法，或者所述的情感识别方法。

本申请公开了一种情感识别模型的训练方法、装置、设备及存储介质，该方法在获取到用户的语音信息以及对应的数据标签后，根据预设处理规则对语音信息进行预处理以得到对应的频谱向量，再基于预设的循环神经网络，根据语音信息对应的频谱向量和数据标签进行模型训练以得到情感识别模型，其中，该循环神经网络包括注意力机制，所述注意力机制用于加强所述语音信息中的部分区域。该方法训练出的情感识别模型具有可泛化性强，识别的准确率高等优点。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请的实施例提供的一种情感识别模型的训练方法的示意流程图；

图2是本申请的实施例提供的循环神经网络的结构示意图；

图3是图1中的情感识别模型的训练方法的子步骤示意流程图；

图4是本申请的实施例提供的一种情感识别模型的训练方法的示意流程图；

图5是本申请的实施例提供的一种情感识别方法的示意流程图；

图6为本申请实施例提供的一种模型训练装置的示意性框图；

图7为本申请实施例提供的另一种模型训练装置的示意性框图；

图8为本申请实施例提供的一种情感识别装置的示意性框图；

图9为本申请一实施例提供的一种计算机设备的结构示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本申请的实施例提供了一种情感识别模型的训练方法、情感识别方法、装置、计算机设备及存储介质。其中，情感识别模型的训练方法可使用服务器进行训练；情感识别方法可以应用于终端或服务器中，用于根据用户的声音识别出该用户的情感类型，比如高兴或悲伤等。

其中，服务器可以为独立的服务器，也可以为服务器集群。该终端可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参阅图1，图1是本申请的实施例提供的一种情感识别模型的训练方法的示意流程图。其中，该情感识别模型是基于预设的循环神经网络进行模型训练得到的。

如图2所示，图2是本申请的实施例提供的一种预设的循环神经网络的结构示意图。所述循环神经网络的结构包括输入层、循环层、注意力机制、全连层和输出层；所述注意力机制用于根据注意力方程建立所述循环层的输出量与权重向量之间的映射关系以实现加强所述语音信息中的部分区域，进而提高模型的识别准确度。

其中，循环层包括长短期记忆网络(Long Short-Term Memory，LSTM)单元，输出层采用的是Softmax输出。在循环神经网络的结构中，输入层对应的输入序列中时间上的依赖是用一个包括长短期记忆网络单元的循环层来建模的；注意力机制是被应用到在序列中每一个时间点对应的循环层的输出上，为序列中的一些区域增加更多的权重，这些区域是识别正负情绪时重要的区域。相对于其他的循环神经网络(Recurrent Neural Networks,RNN)来说，该预设的循环神经网络可以用来学习长时间的依赖关系，同时还没有梯度消失或者梯度爆炸的问题，可以得到更好的识别效果。

以下将结合图2中的循环神经网络的结构，介绍本申请的实施例提供的情感识别模型的训练方法。

如图1所示，该情感识别模型的训练方法，用于训练出情感识别模型以准确快速地识别出用户的情感类型。其中该训练方法包括步骤S101至步骤S105。

S101、获取用户的语音信息以及所述语音信息对应的数据标签。

其中，数据标签为用户的情感标签，包括正情绪标签、中性情绪标签和负情绪标签等。当然，也可以将语音信息分为更多的类，进而对应更多数据标签，比如高兴、悲伤、害怕、伤心或中性等数据标签，不同数据标签代表用户的不同情绪。

具体地，从预设数据库中获取用户的语音信息，该语音信息均包括有标签数据，即所述语音信息对应的数据标签。在此之前，还包括：采集用户的语音信息并根据数据标签对所述语音信息进行标记，以及将标记有数据标签的语音信息保存在所述预设数据库中。用户可以包括不同人群中用户，比如小孩、青年、中年和老年等人群的用户等；可以理解的是，也可以是不同职业的人群，比如教师、学生、医生、律师和IT人员等，进而丰富样本数据的多样性。

在一个实施例中，为了提高模型的识别准确度，对语音信息进行设定并采集，即所述获取用户的语音信息以及所述语音信息对应的数据标签，包括：获取用户讲述不同情感类型的故事时对应的语音信息以及所述用户对所述语音信息进行情感打分生成的数据标签。

具体地，首先采集用户讲述两个消极的故事和两个乐观的故事分别对应的语音信息；并在讲每一个故事之前或讲故事之后，获取所述用户按照打分标准对其情绪进行打分对应的打分分数；打分标准比如打0-5分表示负情绪，6-10分是正情绪，并根据打分分数生成对应的数据标签；比如打分为4分，则该语音信息对应的标签数据为负情绪标签。

当然，也可以将采集的用户讲述两个消极的故事和两个乐观的故事对应的语音信息进行分段打分，并根据分段打分对应的打分分数确定相应的数据标签，比如，将语音信息分成两段语音片段，第一段语音片段的打分分数为0分，则对应的数据标签为负情绪，第二段语音片段的打分分数为10分，则对应的数据标签为正情绪。

S102、根据所述语音信息以及对应的数据标签构建样本数据。

具体地，可以根据采集用户的语音信息以及对应的数据标签构成样本数据。用户为多个用户，具体数量在此不限定，由于用户的情感不同，因此该样本数据包括正样本数据和负样本数据，正样本数据对应正情绪的语音信息，正情绪比如为乐观、高兴和兴奋等；负样本数据对应负情绪的语音信息，负情绪比如为消极、悲伤和痛苦等相关的情绪。

S103、根据预设处理规则对所述样本数据中的语音信息进行预处理以得到对应的频谱向量。

其中，该预设处理规则为用于将所述样本数据中的语音信息转出频域中的信息，具体比如采用快速傅里叶变换规则或者小波变换规则将在时域中采集的语音信息转换成频域中的信息。

在一实施例中，为了加快模型的训练以及识别的精度，采用预处理规则，如图3所示，即步骤S103包括：子步骤S103a至子步骤S103d。

S103a、对所述样本数据中的语音信息进行分帧加窗处理以得到处理后的语音信息。

其中，分帧加窗处理具体设置帧长为40ms，按照设置的帧长40ms对语音信息进行分割处理以得到分割后的语音信息，然后再对分割后语音信息加海明窗处理，加海明窗处理是指将分割后语音信息乘以一个窗函数，目的是为了进行傅里叶展开。

需要说明的是，分帧加窗处理，具体设置帧长可以设为其他值，比如设置为50ms、30ms或其他值。

在一个实施例中，在对所述样本数据中的语音信息进行分帧加窗处理以得到处理后的语音信息之前，还可对语音信息进行预加重处理，具体是乘以一个与语音信息的频率成正相关的预设系数，以提升高频的幅值，该预设系数的大小与模型训练的参数相关联，即根据模型参数的变化而变化，比如与权重向量a _i相关联，具体根据权重向量a _i对应的均值增大而增大，或者根据该均值减小而减小。目的是更好地提高模型的识别精度。

在一个可选的实施例中，预设系数可以设为一个经验值，设置一个经验值可以用于消除用户发声过程中声带和嘴唇造成的效应，来补偿语音信息受到发音系统所压抑的高频部分，并且能突显高频的共振峰。

S103b、对处理后的语音信息进行频域变换以得到对应的幅度谱。

具体地，是对处理后的语音信息进行快速傅里叶变换(Fast Fourier Transform、FFT)，以得到相应的参数，在本实施例中是为了得到幅值作为幅度谱，即快速傅里叶变换后的幅值。当然，也可以用FFT变换后的其他参数，比如幅值加上相位信息等。

可以理解的是，也可以对处理后的语音信息进行小波变换以得到相应的参数，并选择变换后的幅值作为幅度谱。

S103c、通过梅尔滤波器组对所述幅度谱进行滤波处理，并对滤波处理后的幅度谱进行离散余弦变换以得到梅尔频率倒谱系数。

具体地，所述通过梅尔滤波器组对所述幅度谱进行滤波处理，包括：获取所述语音信息对应的最大频率，利用梅尔频率计算公式计算所述最大频率对应的梅尔频率；根据计算的梅尔频率以及所述梅尔滤波器组中三角滤波器的数量计算两个相邻三角滤波器的中心频率的梅尔间距；根据所述梅尔间距完成对多个三角滤波器的线性分布；根据完成线性分布的多个三角滤波器对所述幅度谱进行滤波处理。

梅尔滤波器组具体包括40个线性分布在梅尔量度的三角滤波器。将得到幅度谱通过40个线性分布在梅尔量度的三角滤波器进行滤波处理后，再进行离散余弦变换得到梅尔频率倒谱系数。

确定语音信息中对应的最大频率，根据最大频率利用梅尔频率计算公式可计算最大梅尔频率，根据最大梅尔频率以及三角滤波器的数量(40个)计算两个相邻三角滤波器的中心频率的间距；根据计算出来的间距完成对多个三角滤波器的线性分布。

其中，所述梅尔频率计算公式为：

在公式(1)中，f _mel为所述梅尔频率，f为所述语音信息对应的最大频率，A为系数，具体为2595。

例如，确定的最大频率为4000Hz，利用公式(1)可以求出最大梅尔频率为2146.1mel。

由于在梅尔量度范围内，各个三角滤波器的中心频率是相等间隔的线性分布。由此，可以计算两个相邻三角滤波器的中心频率的间距为：

其中，Δmel为两个相邻三角滤波器的中心频率的间距；k为三角滤波器的数量。

S103d、对所述梅尔频率倒谱系数进行归一化处理以得到所述语音信息对应的频谱向量。

具体地，采用零均值归一化对所述梅尔频率倒谱系数进行归一化处理以得到所述语音信息对应的频谱向量，所述零均值归一化对应的转化公式为：

其中，

为梅尔频率倒谱系数的均值；σ为梅尔频率倒谱系数的标准差；x为每个梅尔频率倒谱系数；x ^*为归一化后的梅尔频率倒谱系数。

采用的零-均值归一化(Z-Score标准化)，也称为标准差标准化。经过处理的数据的均值为0，标注差为1。Z-Score标准化是将不同量级的数据统一转化为同一个量级，统一用计算出的Z-Score值衡量，以保证数据之间的可比性。

S104、提取预设的循环神经网络，所述循环神经网络包括注意力机制，所述注意力机制用于加强所述语音信息中的部分区域。

其中，所述循环神经网络的结构包括输入层、循环层、注意力机制、全连层和输出层；所述注意力机制用于根据注意力方程建立所述循环层的输出量与权重向量之间的映射关系以实现加强所述语音信息中的部分区域。

所述注意力方程为：

其中，g为所述全连层的输入向量；h _i为每一个时间点i对应的循环层的输出量；a _i是每一个时间点i对应的权重向量，用来代表每一个时间点i对全连层和输出层的影响大小。

注意力机制的关键是学习到这个方程，该方程在每一个时间点i给每一个循环层的输出h _i和一个权重向量a _i之间建立了一个映射关系，h _i表示循环层的输出，a _i是用来代表每一个时间点对网络中之后的层的影响大小。

其中，f(h _i)中的参数在训练过程中会被优化，其表达式具体为：

f(h _i)＝tanh(Wh _i+b) (4)

在公式(4)中，W和b是线性方程的参数，h _i对应的是每个时间点i的LSTM层的输出，表示为h _i＝(h ₀,...h _T-1)，其中T是对于一个给定的序列中时间点的总个数。在本实施例中简化的其表达式的形式，具体如公式(4)采用一个线性函数加上一个tanh的激活函数，既可以取得较好的效果，同时又可以提高模型的训练速度。

对于一个给定的时间点i，权重向量a _i的公式为：

在公式(5)中，W为一个维度S*D的矩阵参数,S为正整数，b和u为一个维度为S的向量参数，D为所述循环层中网络单元的个数。

需要说明的是，g为一个向量作为全连接层的输入，激活函数采用ReLu函数，之后全连层使用的是Softmax函数，从而得到最后的输出。

S105、基于所述循环神经网络，根据所述语音信息对应的频谱向量和数据标签进行模型训练以得到情感识别模型。

具体地，将频谱向量输入至预设的循环神经网络进行模型训练，通过改进的模型中的注意力机制对声音中的主要部分进行加强，优化相应的模型参数进而得到情感识别模型，模型训练参数如表1所示。

表1为训练网络的相关参数

参数类型	参数值
优化算法	Adam

学习率	0.0005
LSTM单元个数	128
全连接层神经元个数	20
Dropout保留的概率	0.7

上述实施例提供的模型训练方法在获取到用户的语音信息以及对应的数据标签后，根据预设处理规则对语音信息进行预处理以得到对应的频谱向量，再基于预设的循环神经网络，根据语音信息对应的频谱向量和数据标签进行模型训练以得到情感识别模型，其中，该循环神经网络包括注意力机制，所述注意力机制用于加强所述语音信息中的部分区域。该方法训练出的情感识别模型具有可泛化性强，识别的准确率高等优点。

请参阅图4，图4是本申请的实施例提供的另一种情感识别模型的训练方法的示意流程图。其中，该情感识别模型是基于预设的循环神经网络进行模型训练得到的，当然也可以采用其他网络进行训练得到。

如图4所示，该情感识别模型的训练方法，包括步骤S201至步骤S207。

S201、获取用户的语音信息以及所述语音信息对应的数据标签。

S202、根据所述语音信息以及对应的数据标签构建样本数据，所述样本数据至少包括正样本数据和负样本数据。

具体地，可以根据采集用户的语音信息以及对应的数据标签构成样本数据。由于用户的情感不同，因此该样本数据至少包括正样本数据和负样本数据，比如还可包括中性样本数据。正样本数据对应正情绪的语音信息；负样本数据对应负情绪的语音信息。

S203、判断所述样本数据中的正样本数据和负样本数据是否达到平衡。

具体地，所述判断所述样本数据中的正样本数据和负样本数据是否达到平衡，并产生判断结果，该判断结果包括：正样本数据和负样本数据平衡，和正样本数据和负样本数据不平衡。

其中，若正样本数据和负样本数据不平衡，则执行步骤S204；若正样本数据和负样本数据平衡，则执行步骤S205。

S204、根据预设数据处理规则对所述样本数据进行处理以使所述正样本数据和负样本数据达到平衡。

若所述正样本数据和负样本数据不平衡，根据预设数据处理规则对所述样本数据进行处理以使所述正样本数据和负样本数据达到平衡。具体地，可通过两种方式对应样本数据进行处理以使正样本数据和负样本数据达到平衡。分别为：

一、通过过采样的方式对样本数据进行处理：构建的样本数据中的正样本数据和负样本数据，一般是负样本数据要小于正样本数据，具体将该负样本数据复制多次并与正样本数据构成训练用的样本数据。对于训练用于的样本数据来说，由于把其中的负样本数据多复制了几遍，构成新的样本数据，进而可以解决样本不均的问题。

二、通过设置加权损失函数对样本数据进行处理：通过使一个标准的交叉熵函数或者加权的交叉熵函数最小化训练的模型权重θ最优，具体通过加权的思想，比如负样本少，在训练的时候知道是负样本，通过权重去对模型参数进行调整，以增大负样本的影响。其中，标准的交叉熵损失函数对应的表达式为：

其中，

是每一个观察到的序列n的Softmax的输出，其中X是维度为F*D的矩阵，其中F代表的是在每一个时间点输入的频谱系数的数量；C _n是每一个观察到的序列n对应的类的标签，标签的取值范围是{0，1}，当然也可以是{0，1，2}，分别对应负样本，中性样本和正样本。当然，也可以采用加权的交叉熵函数，该加权的交叉熵函数与标准的交叉熵损失函数类似，目标都是解决样本数据不均匀的问题。

S205、根据预设处理规则对所述样本数据中的语音信息进行预处理以得到对应的频谱向量。

具体地，若所述正样本数据和负样本数据达到平衡，则根据预设处理规则对所述样本数据中的语音信息进行预处理以得到对应的频谱向量。其中，该预设处理规则为用于将所述样本数据中的语音信息转出频域中的信息，具体比如采用快速傅里叶变换规则或者小波变换规则将在时域中采集的语音信息转换成频域中的信息。

S206、提取预设的循环神经网络，所述循环神经网络包括注意力机制，所述注意力机制用于加强所述语音信息中的部分区域。

S207、基于所述循环神经网络，根据所述语音信息对应的频谱向量和数据标签进行模型训练以得到情感识别模型。

具体地，将频谱向量输入至预设的循环神经网络进行模型训练，通过改进的模型中的注意力机制对声音中的主要部分进行加强，优化相应的模型参数进而得到情感识别模型。

该方法训练出的情感识别模型具有可泛化性强，识别的准确率高等优点。同时因为极端的情绪经常会比中性的情绪要少见很多，因此样本不均的问题以及导致过拟合问题，该方法可以很好解决样本不均匀问题，进而提高模型的准确度。

请参阅图5，图5是本申请的实施例提供的一种情感识别方法的示意流程图。该情感识别方法，可应用于终端或服务器中，用于根据用户的声音识别用户的情感。

如图5所示，该情感识别方法，包括步骤S301至步骤S303。

S301、采集用户的语音信号。

具体地，可通过录音设备采集与用户聊天时对应的语音信号，该录音设备比如录音笔、智能手机、平板电脑、笔记本或智能穿戴设备等，比如智能手环或智能手表等。

S302、根据预设处理规则对所述语音信号进行预处理以得到所述语音信号对应的频谱向量。

具体地，根据预设处理规则对所述语音信号进行预处理以得到所述语音信号对应的频谱向量，包括：对语音信息进行分帧加窗处理以得到处理后的语音信息；对处理后的语音信息进行快速傅里叶变换以得到幅度谱；对幅度谱增加梅尔滤波器组，并将梅尔滤波器组的输出做离散余弦变换以得到梅尔频率倒谱系数；将得到的每个梅尔频率倒谱系数进行归一化处理以得到语音信息对应的频谱向量。

S303、将所述频谱向量输入至情感识别模型对所述用户的情感进行识别，以得到所述用户的情感类别。

其中，所述情感识别模型为采用上述实施例中提供的情感识别模型训练方法训练得到的模型。通过该情感识别模型对输入的频谱向量进行分析，以准确地得到用户的情感，具体为情感类型，比如高兴、悲伤或中性等。

上述实施例提供的情感识别方法，通过采集用户的语音信号；根据预设处理规则对所述语音信号进行预处理以得到所述语音信号对应的频谱向量；将所述频谱向量输入至情感识别模型对所述用户的情感进行识别，以得到所述用户的情感类别。该方法可以快速识别到用户的情感类型，同时又具有识别准确率高等优点。

请参阅图6，图6是本申请一实施例提供的一种模型训练装置的示意性框图，该模型训练装置可以配置于服务器中，用于执行前述的情感识别模型的训练方法。

如图6所示，该模型训练装置400，包括：信息获取单元401、样本构建单元402、数据处理单元403、网络提取单元404和模型训练单元405。

信息获取单元401，用于获取用户的语音信息以及所述语音信息对应的数据标签。

样本构建单元402，用于根据所述语音信息以及对应的数据标签构建样本数据。

数据处理单元403，用于根据预设处理规则对所述样本数据中的语音信息进行预处理以得到对应的频谱向量。

在一个实施例中，所述数据处理单元403，包括：

信息处理子单元4031，用于对所述样本数据中的语音信息进行分帧加窗处理以得到处理后的语音信息；信息变换子单元4032，用于对处理后的语音信息进行频域变换以得到对应的幅度谱；滤波变换子单元4033，用于通过梅尔滤波器组对所述幅度谱进行滤波处理，并对滤波处理后的幅度谱进行离散余弦变换以得到梅尔频率倒谱系数；归一化子单元4034，用于对所述梅尔频率倒谱系数进行归一化处理以得到所述语音信息对应的频谱向量。

在一个实施例中，滤波变换子单元4033，具体用于：获取所述语音信息对应的最大频率，利用梅尔频率计算公式计算所述最大频率对应的梅尔频率；根据计算的梅尔频率以及所述梅尔滤波器组中三角滤波器的数量计算两个相邻三角滤波器的中心频率的梅尔间距；根据所述梅尔间距完成对多个三角滤波器的线性分布；根据完成线性分布的多个三角滤波器对所述幅度谱进行滤波处理。

网络提取单元404，用于提取预设的循环神经网络，所述循环神经网络包括注意力机制，所述注意力机制用于加强所述语音信息中的部分区域；

模型训练单元405，用于基于所述循环神经网络，根据所述语音信息对应的频谱向量和数据标签进行模型训练以得到情感识别模型。

请参阅图7，图7是本申请一实施例提供的另一种模型训练装置的示意性框图，该模型训练装置可以配置于服务器中，用于执行前述的情感识别模型的训练方法。

如图7所示，该模型训练装置500，包括：信息获取单元501、样本构建单元502、平衡判断单元503、平衡处理单元504、数据处理单元505、网络提取单元506和模型训练单元507。

信息获取单元501，用于获取用户的语音信息以及所述语音信息对应的数据标签。

样本构建单元502，用于根据所述语音信息以及对应的数据标签构建样本数据，所述样本数据包括正样本数据和负样本数据。

平衡判断单元503，用于判断所述样本数据中的正样本数据和负样本数据是否达到平衡.

平衡处理单元504，用于若所述正样本数据和负样本数据不平衡，根据预设数据处理规则对所述样本数据进行处理以使所述正样本数据和负样本数据达到平衡。

数据处理单元505，用于若所述正样本数据和负样本数据平衡，根据预设处理规则对所述样本数据中的语音信息进行预处理以得到对应的频谱向量。

网络提取单元506，用于提取预设的循环神经网络，所述循环神经网络包括注意力机制，所述注意力机制用于加强所述语音信息中的部分区域；

模型训练单元507，用于基于所述循环神经网络，根据所述语音信息对应的频谱向量和数据标签进行模型训练以得到情感识别模型。

请参阅图8，图8是本申请一实施例提供的一种情感识别装置的示意性框图，该情感识别装置可以配置于终端或服务器中，用于执行前述的情感识别方法。

如图8所示，该情感识别装置600，包括：信号采集单元601、信号处理单元602和情感识别单元603。

信号采集单元601，用于采集用户的语音信号。

信号处理单元602，用于根据预设处理规则对所述语音信号进行预处理以得到所述语音信号对应的频谱向量。

情感识别单元603，用于将所述频谱向量输入至情感识别模型对所述用户的情感进行识别，以得到所述用户的情感类别，所述情感识别模型为采用上述任一项所述的情感识别模型训练方法训练得到的模型。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

上述的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图9所示的计算机设备上运行。

请参阅图9，图9是本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是服务器或终端。

参阅图9，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种情感识别模型的训练方法或情感识别方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种情感识别模型的训练方法或情感识别方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请的实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现本申请实施例提供的任一项情感识别模型的训练方法或情感识别方法。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种情感识别模型的训练方法，所述方法包括：

获取用户的语音信息以及所述语音信息对应的数据标签；

根据所述语音信息以及对应的数据标签构建样本数据；

根据预设处理规则对所述样本数据中的语音信息进行预处理以得到对应的频谱向量；

提取预设的循环神经网络，所述循环神经网络包括注意力机制，所述注意力机制用于加强所述语音信息中的部分区域；

基于所述循环神经网络，根据所述语音信息对应的频谱向量和数据标签进行模型训练以得到情感识别模型；

其中，所述循环神经网络的结构包括输入层、循环层、注意力机制、全连层和输出层；所述注意力机制用于根据注意力方程建立所述循环层的输出量与权重向量之间的映射关系以实现加强所述语音信息中的部分区域；

所述注意力方程为：

其中，
f(h _i)＝tanh(Wh _i+b)；g为所述全连层的输入向量；h _i为每一个时间点i对应的循环层的输出量；a _i是每一个时间点i对应的权重向量，用来代表每一个时间点i对全连层和输出层的影响大小；T为时间点i的总个数；W为一个维度S*D的矩阵参数,S为正整数，b和u为一个维度为S的向量参数，D为所述循环层中网络单元的个数。
根据权利要求1所述的训练方法，其中，所述根据预设处理规则对所述样本数据中的语音信息进行预处理以得到对应的频谱向量，包括：

对所述样本数据中的语音信息进行分帧加窗处理以得到处理后的语音信息；

对处理后的语音信息进行频域变换以得到对应的幅度谱；

通过梅尔滤波器组对所述幅度谱进行滤波处理，并对滤波处理后的幅度谱进行离散余弦变换以得到梅尔频率倒谱系数；

对所述梅尔频率倒谱系数进行归一化处理以得到所述语音信息对应的频谱向量。
根据权利要求2所述的训练方法，其中，所述通过梅尔滤波器组对所述幅度谱进行滤波处理，包括：

获取所述语音信息对应的最大频率，利用梅尔频率计算公式计算所述最大频率对应的梅尔频率；

根据计算的梅尔频率以及所述梅尔滤波器组中三角滤波器的数量计算两个相邻三角滤波器的中心频率的梅尔间距；

根据所述梅尔间距完成对多个三角滤波器的线性分布；

根据完成线性分布的多个三角滤波器对所述幅度谱进行滤波处理。
根据权利要求3所述的训练方法，其中，所述梅尔频率计算公式为：

其中，f _mel为所述梅尔频率，f为所述语音信息对应的最大频率，A为系数；

所述对所述梅尔频率倒谱系数进行归一化处理以得到所述语音信息对应的频谱向量，包括：

采用零均值归一化对所述梅尔频率倒谱系数进行归一化处理以得到所述语音信息对应的频谱向量，所述零均值归一化对应的转化公式为：

其中，
为梅尔频率倒谱系数的均值；σ为梅尔频率倒谱系数的标准差；x为每个梅尔频率倒谱系数；x ^*为归一化后的梅尔频率倒谱系数。
根据权利要求2所述的训练方法，其中，所述对所述样本数据中的语音信息进行分帧加窗处理以得到处理后的语音信息之前，还包括：

对语音信息进行预加重处理，所述预加重处理包括乘以一个与所述语音信息的频率成正相关的预设系数。
一种情感识别方法，所述方法包括：

采集用户的语音信号；

根据预设处理规则对所述语音信号进行预处理以得到所述语音信号对应的频谱向量；

将所述频谱向量输入至情感识别模型对所述用户的情感进行识别，以得到所述用户的情感类别，所述情感识别模型为采用权利要求1至5中任一项所述的情感识别模型训练方法训练得到的模型。
一种情感识别模型的训练装置，所述装置包括：

信息获取单元，用于获取用户的语音信息以及所述语音信息对应的数据标签；

样本构建单元，用于根据所述语音信息以及对应的数据标签构建样本数据；

数据处理单元，用于根据预设处理规则对所述样本数据中的语音信息进行预处理以得到对应的频谱向量；

网络提取单元，用于提取预设的循环神经网络，所述循环神经网络包括注意力机制，所述注意力机制用于加强所述语音信息中的部分区域；

模型训练单元，用于基于所述循环神经网络，根据所述语音信息对应的频谱向量和数据标签进行模型训练以得到情感识别模型；

其中，所述循环神经网络的结构包括输入层、循环层、注意力机制、全连层和输出层；所述注意力机制用于根据注意力方程建立所述循环层的输出量与权重向量之间的映射关系以实现加强所述语音信息中的部分区域；

所述注意力方程为：

其中，
f(h _i)＝tanh(Wh _i+b)；g为所述全连层的输入向量；h _i为每一个时间点i对应的循环层的输出量；a _i是每一个时间点i对应的权重向量，用来代表每一个时间点i对全连层和输出层的影响大小；T为时间点i的总个数；W为一个维度S*D的矩阵参数,S为正整数，b和u为一个维度为S的向量参数，D为所述循环层中网络单元的个数。
一种情感识别装置，所述装置包括：

信号采集单元，用于采集用户的语音信号；

信号处理单元，用于根据预设处理规则对所述语音信号进行预处理以得到所述语音信号对应的频谱向量；

情感识别单元，用于将所述频谱向量输入至情感识别模型对所述用户的情感进行识别，以得到所述用户的情感类别，所述情感识别模型为采用权利要求1至5中任一项所述的情感识别模型训练方法训练得到的模型。
一种计算机设备，其中，所述计算机设备包括存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如下步骤：

获取用户的语音信息以及所述语音信息对应的数据标签；

根据所述语音信息以及对应的数据标签构建样本数据；

根据预设处理规则对所述样本数据中的语音信息进行预处理以得到对应的频谱向量；

提取预设的循环神经网络，所述循环神经网络包括注意力机制，所述注意力机制用于加强所述语音信息中的部分区域；

基于所述循环神经网络，根据所述语音信息对应的频谱向量和数据标签进行模型训练以得到情感识别模型；

其中，所述循环神经网络的结构包括输入层、循环层、注意力机制、全连层和输出层；所述注意力机制用于根据注意力方程建立所述循环层的输出量与权重向量之间的映射关系以实现加强所述语音信息中的部分区域；

所述注意力方程为：

其中，
f(h _i)＝tanh(Wh _i+b)；g为所述全连层的输入向量；h _i为每一个时间点i对应的循环层的输出量；a _i是每一个时间点i对应的权重向量，用来代表每一个时间点i对全连层和输出层的影响大小；T为时间点i的总个数；W为一个维度S*D的矩阵参数,S为正整数，b和u为一个维度为S的向量参数，D为所述循环层中网络单元的个数。
根据权利要求9所述的计算机设备，其中，所述处理器实现所述根据预设处理规则对所述样本数据中的语音信息进行预处理以得到对应的频谱向量的步骤，包括：

对所述样本数据中的语音信息进行分帧加窗处理以得到处理后的语音信息；

对处理后的语音信息进行频域变换以得到对应的幅度谱；

通过梅尔滤波器组对所述幅度谱进行滤波处理，并对滤波处理后的幅度谱进行离散余弦变换以得到梅尔频率倒谱系数；

对所述梅尔频率倒谱系数进行归一化处理以得到所述语音信息对应的频谱向量。
根据权利要求10所述的计算机设备，其中，所述处理器实现所述通过梅尔滤波器组对所述幅度谱进行滤波处理的步骤，包括：

获取所述语音信息对应的最大频率，利用梅尔频率计算公式计算所述最大频率对应的梅尔频率；

根据计算的梅尔频率以及所述梅尔滤波器组中三角滤波器的数量计算两个相邻三角滤波器的中心频率的梅尔间距；

根据所述梅尔间距完成对多个三角滤波器的线性分布；

根据完成线性分布的多个三角滤波器对所述幅度谱进行滤波处理。。
根据权利要求11所述的计算机设备，其中，所述梅尔频率计算公式为：

其中，f _mel为所述梅尔频率，f为所述语音信息对应的最大频率，A为系数；

所述处理器实现所述对所述梅尔频率倒谱系数进行归一化处理以得到所述语音信息对应的频谱向量的步骤，包括：

采用零均值归一化对所述梅尔频率倒谱系数进行归一化处理以得到所述语音信息对应的频谱向量，所述零均值归一化对应的转化公式为：

其中，
为梅尔频率倒谱系数的均值；σ为梅尔频率倒谱系数的标准差；x为每个梅尔频率倒谱系数；x ^*为归一化后的梅尔频率倒谱系数。
根据权利要求9所述的计算机设备，其中，所述处理器实现所述对所述样本数据中的语音信息进行分帧加窗处理以得到处理后的语音信息之前，还包括：

对语音信息进行预加重处理，所述预加重处理包括乘以一个与所述语音信息的频率成正相关的预设系数。
一种计算机设备，其中，所述计算机设备包括存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如下步骤：

采集用户的语音信号；

根据预设处理规则对所述语音信号进行预处理以得到所述语音信号对应的频谱向量；

将所述频谱向量输入至情感识别模型对所述用户的情感进行识别，以得到所述用户的情感类别，所述情感识别模型为采用权利要求1至5中任一项所述的情感识别模型训练方法训练得到的模型。
一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如下步骤：

获取用户的语音信息以及所述语音信息对应的数据标签；

根据所述语音信息以及对应的数据标签构建样本数据；

根据预设处理规则对所述样本数据中的语音信息进行预处理以得到对应的频谱向量；

提取预设的循环神经网络，所述循环神经网络包括注意力机制，所述注意力机制用于加强所述语音信息中的部分区域；

基于所述循环神经网络，根据所述语音信息对应的频谱向量和数据标签进行模型训练以得到情感识别模型；

其中，所述循环神经网络的结构包括输入层、循环层、注意力机制、全连层和输出层；所述注意力机制用于根据注意力方程建立所述循环层的输出量与权重向量之间的映射关系以实现加强所述语音信息中的部分区域；

所述注意力方程为：

其中，
f(h _i)＝tanh(Wh _i+b)；g为所述全连层的输入向量；h _i为每一个时间点i对应的循环层的输出量；a _i是每一个时间点i对应的权重向量，用来代表每一个时间点i对全连层和输出层的影响大小；T为时间点i的总个数；W为一个维度S*D的矩阵参数,S为正整数，b和u为一个维度为S的向量参数，D为所述循环层中网络单元的个数。
根据权利要求15所述的计算机可读存储介质，其中，所述处理器实现所述根据预设处理规则对所述样本数据中的语音信息进行预处理以得到对应的频谱向量的步骤，包括：

对所述样本数据中的语音信息进行分帧加窗处理以得到处理后的语音信息；

对处理后的语音信息进行频域变换以得到对应的幅度谱；

通过梅尔滤波器组对所述幅度谱进行滤波处理，并对滤波处理后的幅度谱进行离散余弦变换以得到梅尔频率倒谱系数；

对所述梅尔频率倒谱系数进行归一化处理以得到所述语音信息对应的频谱向量。
根据权利要求16所述的计算机可读存储介质，其中，所述处理器实现所述通过梅尔滤波器组对所述幅度谱进行滤波处理的步骤，包括：

获取所述语音信息对应的最大频率，利用梅尔频率计算公式计算所述最大频率对应的梅尔频率；

根据计算的梅尔频率以及所述梅尔滤波器组中三角滤波器的数量计算两个相邻三角滤波器的中心频率的梅尔间距；

根据所述梅尔间距完成对多个三角滤波器的线性分布；

根据完成线性分布的多个三角滤波器对所述幅度谱进行滤波处理。。
根据权利要求17所述的计算机可读存储介质，其中，所述梅尔频率计算公式为：

其中，f _mel为所述梅尔频率，f为所述语音信息对应的最大频率，A为系数；

所述处理器实现所述对所述梅尔频率倒谱系数进行归一化处理以得到所述语音信息对应的频谱向量的步骤，包括：

采用零均值归一化对所述梅尔频率倒谱系数进行归一化处理以得到所述语音信息对应的频谱向量，所述零均值归一化对应的转化公式为：

其中，
为梅尔频率倒谱系数的均值；σ为梅尔频率倒谱系数的标准差；x为每个梅尔频率倒谱系数；x ^*为归一化后的梅尔频率倒谱系数。
根据权利要求15所述的计算机可读存储介质，其中，所述处理器实现所述对所述样本数据中的语音信息进行分帧加窗处理以得到处理后的语音信息之前，还包括：

对语音信息进行预加重处理，所述预加重处理包括乘以一个与所述语音信息的频率成正相关的预设系数。
一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如下步骤：

采集用户的语音信号；

根据预设处理规则对所述语音信号进行预处理以得到所述语音信号对应的频谱向量；

将所述频谱向量输入至情感识别模型对所述用户的情感进行识别，以得到所述用户的情感类别，所述情感识别模型为采用权利要求1至5中任一项所述的情感识别模型训练方法训练得到的模型。