WO2022199215A1

WO2022199215A1 - 一种融合人群信息的语音情感识别方法和系统

Info

Publication number: WO2022199215A1
Application number: PCT/CN2022/070728
Authority: WO
Inventors: 李太豪; 郑书凯; 刘昱龙; 裴冠雄; 马诗洁
Original assignee: 之江实验室
Priority date: 2021-03-26
Filing date: 2022-01-07
Publication date: 2022-09-29
Also published as: WO2022198923A1; US20220328065A1; CN112712824B; CN112712824A; US11837252B2

Abstract

一种融合人群信息的语音情感识别方法和系统，属于人工智能领域。方法包括以下步骤：采集用户语音信号（S1）；预处理语音信号，获取梅尔谱（S2）；切除梅尔谱前后静音段（S3）；通过人群分类网络获取深度人群信息（S4）；通过梅尔谱预处理网络获取梅尔谱深度信息（S5）；通过SENet融合特征，获取融合信息（S6）；通过分类网络，得到情感识别结构（S7）。通过融合人群信息特征，使情感特征提取更加准确，通过SENet的通道注意力机制进行信息融合，能够有效的进行深度特征的提取，提高整体识别精度。

Description

[根据细则26改正03.03.2022]　一种融合人群信息的语音情感识别方法及系统

技术领域

本发明属于人工智能领域，具体涉及一种融合人群信息的语音情感识别方法和系统。

背景技术

语言交互是人类最早的交流方式之一，因此语音成为了人类表达情感的主要方式。随着人机交互的兴起，智能的进行语音情感分析也越发重要起来。目前情感主要的分类方式是上世纪Ekman提出的7种情感，分别为：中性、开心、悲伤、生气、害怕、厌恶、惊讶。

当前主流的语音情感识别方法是基于传统算法或者基于简单神经网络架构的深度学习方法。基于传统方法的基本流程为：对语音进行特征提取、通过特征对语音进行情感分类。其中语音特征通常有梅尔频率倒谱系数、梅尔频谱、过零率、基频等。基于深度学习的方法基本流程与传统方法一样，只是传统方法分类器用的是SVM等传统算法，深度学习用的是神经网络分类器。目前深度学习方法使用的特征有梅尔频率倒谱系数和梅尔频谱，网络通常只是简单的几层RNN或者几层CNN作为分类器。

在目前的技术中，因为只考虑了语音的浅层信息，使用了简单的网络结构，所以情感识别识别率都比较低，泛化性也比较差。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提供了基于SENet融合人群信息和梅尔谱特征信息，有效提高语音情感识别准确率的方法和系统，其具体技术方案如下：

一种融合人群信息的语音情感识别方法，包括如下步骤：

S1：通过录音采集设备，采集用户音频信号，表示为X _audio；

S2：对采集的音频信号X _audio，进行预处理，生成梅尔谱图信号，表示为X _mel

S3：对生成的梅尔谱图信号X _mel，计算不同时间帧梅尔谱图的能量大小，通过设置阈值，切除前后静音段，得到长度为T的梅尔谱图信号，表示为X _input；

S4：将S3得到的X _input输入人群分类网络，得到人群深度特征信息H _p；

S5：将S3得到的X _input输入梅尔谱预处理网络，得到梅尔谱深度特征信息H _m；

S6：将S4提取的人群深度特征信息H _p和S5提取的梅尔谱深度特征信息H _m通过通道注意力网络SENet进行融合，得到融合特征H _f；

S7：将S6融合后的特征H _f，通过池化层后，输入人群分类网络进行情感识别。

进一步的，所述人群分类网络由三层LSTM网络结构构成，所述步骤S4具体包括如下步骤：

S4_1：首先将输入的长度为T的梅尔谱图信号X _input，有重叠的切分成三段

等长度的梅尔谱片段，切分方法为0到

切分成第一段，

到

切分成第二段，

到T切分成第三段；

S4_2：将S4_1切分好的三个梅尔谱片段，依次输入到三层LSTM网络中，并取LSTM网络输出的最后一个输出作为最终状态，三个梅尔谱片段最终获得3个隐含特征，最后将3个隐含特征进行取平均，得到最终的人群深度特征信息H _p。

进一步的，所述步骤S5的梅尔谱预处理网络由ResNet网络级联FMS网络组成，所述步骤S5具体包括如下步骤：首先将长度为T的梅尔谱图信号X _input扩充成三维矩阵；然后利用所述的ResNet网络结构采用2层卷积加最大池化的结构，提取梅尔谱图信息中与表示情感的相关的信息；再利用FMS网络架构对ResNet网络提取出的信息进行有效组合，最后得到梅尔谱深度特征信息H _m。

进一步的，所述步骤S6具体包括如下步骤：

S6_1：所述人群深度特征信息H _p是空间R ^C中的一维向量，其中C代表通道维度；所述梅尔谱深度特征信息H _m是空间R ^T×W×C中的三维矩阵，其中T代表时间维度，W代表宽度维度，C代表通道维度；通过SENet网络，将H _m在时间维度T和宽度维度W上做全局平均池化，转换成C维向量，得到空间R ^C的一维向量H _{p_avg}，具体的，

H _m＝[H ¹，H ²，H ³，...，H ^C]

其中，

另外，

全局平均池化公式如下：

S6_2：将S6_1得到的H _{p_avg}与人群深度特征信息H _p进行拼接，得到拼接特征H _c，表达式为：

S6_3：将S6_2得到的拼接特征H _c输入两层全连接网络，得到通道权重向量W _c，其中，全连接网络的计算公式如下：

Y＝W*X+b

其中，Y表示网络的输出，X表示网络的输入，W表示网络的权重参数，b表示网络的偏置参数；

S6_4：将S6_3得到的权重参数乘以S5得到的深度梅尔谱特征信息H _m，得到情感特征矩阵，将情感特征矩阵在维度T×W上做全局平均池化，得到融合特征H _f。

进一步的，所述步骤S7具体包括如下步骤：

S7_1：将S6得到的H _f，经过池化层后，输入到两层全连接网络，得到7维特征向量H _b，其中7表示所有的情感类别数；

S7_2：将S7_1得到的特征向量：

作为Softmax算子的自变量，计算Softmax的最终值，做为输入音频属于每一类情感的概率值，最后取类别概率值最大的作为最终的音频情感类别，其中Softmax的计算公式如下：

其中的e为常量。

一种融合人群信息的语音情感识别系统，包括：

语音信号采集模块，用于采集用户语音信号；

语音信号预处理模块，用于将采集到的语音信号进行预处理，对语音进行端点检测，去除语音前后静音段，生成可用于神经网络处理的数据；

情感预测模块，用于通过设计的网络模型处理梅尔谱特征，预测用户音频的情感类型；

数据存储模块，用于利用MySQL数据库，存储用户的语音数据和情感标签数据。

进一步的，所述语音信号采集模块采用高保真单麦克风或者麦克风阵列。

进一步的，所述预处理，包括：预加重、分帧、加窗、短时傅里叶变换、三角函数滤波、静音去除操作，将语音信号从时域信号转换到频域信号，即从音频采样转换成梅尔谱特征；其中采用谱减法对语音进行静音去噪，采用Z变换方法对语音进行预加重，采用短时傅里叶变换方法对语音进行梅尔谱特征提取。

本发明的优点如下：

1、本发明的语音情感识别方法，融合人群信息对语音情感进行识别，由于不同人群在生理发育上的不同，导致声带形态构造不同，从而影响人的发音效果，例如：儿童的发音清脆、尖锐，老人的声音浑浊、低沉，另外，成年男子的声音通常比成年女子声音更加低沉，因此，融合人群信息能够更加有效提取语音中的蕴含的情感信息；

2、本发明的语音情感识别方法，利用LSTM取最后一个输出和全局池化技术，能够忽略语音长度限制，实现不同长度语音进行情感识别；

3、本发明的语音情感识别方法，利用SENet进行信息融合，能够通过SENet的通道注意力机制，有效提取网络中的重要信息，提高模型整体精度；

4、本发明的语音情感识别系统具有情感分析结果及原始对话语音存储功能，能够帮助做出合理分析和建议，例如用于智能电话客服服务质量评估场景，智能语音对话机器人用户满意度分析场景、语音留言情感分析场景、视频内语音情感类别分析场景等。

附图说明

图1为本发明的语音情感识别系统的结构示意图；

图2为本发明的语音情感识别方法的流程示意图；

图3为本发明的语音情感识别方法的网络结构示意图；

图4 ResNet与FMS融合的网络结构示意图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图，对本发明作进一步详细说明。

如图1所示，一种融合人群信息的语音情感识别系统，包括：

语音信号采集模块，用于采集用户语音信号，一般采用高保真单麦克风或者麦克风阵列，以降低语音信号采集的失真度；

语音信号预处理模块，用于将采集到的语音信号进行预处理，对语音进行端点检测，去除语音前后静音段，生成可用于神经网络处理的数据，具体为：该模块通过对语音进行预加重、分帧、加窗、短时傅里叶变换、三角函数滤波、静音去除等操作，将语音信号从时域信号转换到频域信号，即从音频采样转换成梅尔谱特征，用于后续处理；其中采用谱减法对语音进行去噪，采用Z变换方法对语音进行预加重，采用短时傅里叶变换方法对语音进行梅尔谱提取；

数据存储模块，用于利用MySQL等数据库，存储用户的语音数据和情感标签数据。

如图2所示，一种使用融合人群信息的语音情感识别系统的方法，包括如下步骤：

S1：通过录音采集设备，采集用户音频信号，表示为X _audio。

S2：对采集的音频信号X _audio，进行预加重、短时傅里叶变换等预处理，生成梅尔谱图信号，表示为X _mel，梅尔谱是一个维度为T′×128的矩阵。

S3：对生成的梅尔谱图信号X _mel，计算不同时间帧梅尔谱图的能量大小，通过设置阈值，切除前后静音段，得到网络输入是维度为T×128的梅尔谱图信号，表示为X _input。

其中，所述切除前后静音段，采用累加各帧不同频率维度的梅尔谱图的能量，通过设置阈值去除能量低于该阈值的帧，实现去除静音帧。

S4：将S3得到的X _input输入人群分类网络，得到人群深度特征信息H _p，该人群分类网络由三层LSTM网络结构构成，LSTM网络是一种能够有效解决长序列依赖问题的递归神经网络结构，多层LSTM常用于解决例如语音这样的序列相关的问题。具体的，包括如下步骤：

S4_1：首先将输入的长度为T的梅尔谱，有重叠的切分成三段

等长度的梅尔谱片段，切分方法为0到

切分成第一段，

到

切分成第二段，

到T切分成第三段；

S4_2：将S4_1切分好的三段梅尔谱，依次输入到三层LSTM网络中，并取LSTM网络输出的最后一个输出作为最终状态。通过此方法，三个梅尔谱片段最终获得3个维度为256的隐含特征，最后将三个特征进行取平均，作为最终的人群深度特征信息H _p。三层LSTM可以有效提取梅尔谱这种较长时序序列的信息；取LSTM最后一个状态和求平均能够有效去除梅尔谱中与人群信息无关的文本内容等信息，提高人群信息提取的准确度。

S5：将S3得到的X _input输入梅尔谱预处理网络，得到梅尔谱深度特征信息 H _m。

所述梅尔谱预处理网络结构由ResNet网络级联FMS网络，具体网络结构如图4所示，梅尔谱预处理网络处理步骤为：首先将维度为T×128的梅尔谱扩充成T×128×1的三维矩阵，然后通过ResNet与FMS网络结构进行梅尔谱特征的深度信息处理，生成维度为T×128×256的深度梅尔谱特征；ResNet网络结构采用2层卷积加最大池化的结构，提取梅尔谱中与表示情感的相关的信息，然后再利用FMS网络架构对ResNet网络提取出的信息进行有效的组合，得到更加合理的与情感相关的特征。

ResNet网络能够在拓展网络深度，提高网络学习能力的同时，解决深度学习中出现的梯度消失问题；FMS网络能够有效进行网络中的信息提取，有助于ResNet网络高效的提取网络中的有用信息。

S6：将S4提取的人群深度特征信息H _p和S5提取的梅尔谱深度特征信息H _m通过通道注意力网络SENet进行融合，如图3所示，得到融合特征H _f，具体步骤包括：

S6_1：步骤S4得到的人群深度特征信息H _p是空间R ^C中的一维向量，其中C代表通道维度；步骤S5得到的梅尔谱深度特征信息H _m是空间R ^G×W×C中的三维矩阵，其中T代表时间维度，W代表宽度维度，C代表通道维度；通过通道注意力网络SENet，将H _m在时间维度和宽度维度上做全局平均池化，转换成C维向量，得到R ^C空间的一维向量H _{p_avg}，具体的，

H _m＝[H ¹，H ²，H ₃，...，H ^C]

其中，

则平均池化后的特征为：

全局平均池化公式如下:

S6_3：将S6_2得到的拼接特征H _c输入两层全连接网络，得到通道权重向量W _c。具体的，全连接网络的计算公式如下：

Y＝W*X+b

其中的，Y表示网络的输出，X表示网络的输入，W表示网络的权重参数，b表示网络的偏置参数；

S6_4：将S6_3得到的权重参数乘以S5得到的深度梅尔谱特征信息H _m，得到融合特征H _f；

所述SENet通过网络自动计算各个通道的权重系数，能够有效增强网络中提取的重要信息，同时降低无用信息的权重。另外，加入人群信息的SENet，能够根据不同人群，侧重提取与该人群发音特点的相关信息，进一步提高情感识别的准确率。

S7：将S6融合后的特征H _f，通过一层池化层后，输入人群分类网络进行情感识别，即：将T×128×256的三维矩阵转换成256维的一维向量，输入到分类网络进行情感识别，所述分类网络由一层256维的全连接网络加一层7维的全连接网络构成，最后将输出的7维特征通过Softmax算子进行情感7分类的概率计算，以概率最大者为最终的情感类别，具体的，包括如下步骤：

S7_2：将S7_1得到的特征向量：

其中的e为常量。

综上所述，本实施提供的方法，通过融合人群信息，增加了音频情感特征提取的准确性，能够增加整个模型的情感识别能力。

以上所述，仅为本发明的优选实施案例，并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明，对于熟悉本领域的人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等，均应包含在本发明的保护范围之内。

Claims

一种融合人群信息的语音情感识别方法，包括如下步骤：

S1：通过录音采集设备，采集用户音频信号，表示为X _audio；

S2：对采集的音频信号X _audio，进行预处理，生成梅尔谱图信号，表示为X _mel；

S3：对生成的梅尔谱图信号X _mel，计算不同时间帧梅尔谱图的能量大小，通过设置阈值，切除前后静音段，得到长度为T的梅尔谱图信号，表示为X _input；

S4：将S3得到的X _input输入人群分类网络，得到人群深度特征信息H _p；

S5：将S3得到的X _input输入梅尔谱预处理网络，得到梅尔谱深度特征信息H _m；

S6：将S4提取的人群深度特征信息H _p和S5提取的梅尔谱深度特征信息H _m通过通道注意力网络SENet进行融合，得到融合特征H _f；

S7：将S6融合后的特征H _f，通过池化层后，输入人群分类网络进行情感识别；

所述人群分类网络由三层LSTM网络结构构成，所述步骤S4具体包括如下步骤：

S4_1：首先将输入的长度为T的梅尔谱图信号X _input，有重叠的切分成三段
等长度的梅尔谱片段，切分方法为0到
切分成第一段，
到
切分成第二段，
到T切分成第三段；

S4_2：将S4_1切分好的三个梅尔谱片段，依次输入到三层LSTM网络中，并取LSTM网络输出的最后一个输出作为最终状态，三个梅尔谱片段最终获得3个隐含特征，最后将3个隐含特征进行取平均，得到最终的人群深度特征信息H _p。
如权利要求1所述的一种融合人群信息的语音情感识别方法，其特征在于，所述步骤S5的梅尔谱预处理网络由ResNet网络级联FMS网络组成，所述步骤S5具体包括如下步骤：首先将长度为T的梅尔谱图信号X _input扩充成三维矩阵；然后利用所述的ResNet网络结构采用2层卷积加最大池化的结构，提取梅尔谱图信息中与表示情感的相关的信息；再利用FMS网络架构对ResNet网络提取出的信息进行有效组合，最后得到梅尔谱深度特征信息H _m。
如权利要求1所述的一种融合人群信息的语音情感识别方法，其特征在于，所述步骤S6具体包括如下步骤：

S6_1：所述人群深度特征信息H _p是空间R ^C中的一维向量，其中C代表通道维度；所述梅尔谱深度特征信息H _m是空间R ^T×W×C中的三维矩阵，其中T代表时间维度，W代表宽度维度，C代表通道维度；通过SENet网络，将H _m在时间维度T和宽度维度W上做全局平均池化，转换成C维向量，得到空间R ^C的一维向量H _{p_avg}，具体的，

H _m＝[H ¹，H ²，H ³，...，H ^C]

其中，

另外，

全局平均池化公式如下：

S6_2：将S6_1得到的H _{p_avg}与人群深度特征信息H _p进行拼接，得到拼接特征H _c，表达式为：

S6_3：将S6_2得到的拼接特征H _c输入两层全连接网络，得到通道权重向量W _c，其中，全连接网络的计算公式如下：

Y＝Q*X+b

其中，Y表示网络的输出，X表示网络的输入，Q表示网络的权重参数，b表示网络的偏置参数；

S6_4：将S6_3得到的权重参数乘以S5得到的深度梅尔谱特征信息H _m，得到情感特征矩阵，将情感特征矩阵在维度T×W上做全局平均池化，得到融合特征H _f。
如权利要求1所述的一种融合人群信息的语音情感识别方法，其特征在于，所述步骤S7具体包括如下步骤：

S7_1：将S6得到的H _f，经过池化层后，输入到两层全连接网络，得到7维特征向量H _b，其中7表示所有的情感类别数；

S7_2：将S7_1得到的特征向量：

作为Softmax算子的自变量，计算Softmax的最终值，做为输入音频属于每一类情感的概率值，最后取类别概率值最大的作为最终的音频情感类别，其中Softmax的计算公式如下：

其中的e为常量。