WO2024040793A1

WO2024040793A1 - 一种结合分层策略的多模态情绪识别方法

Info

Publication number: WO2024040793A1
Application number: PCT/CN2022/136487
Authority: WO
Inventors: 刘波; 孙芃; 徐小龙
Original assignee: 天翼电子商务有限公司
Priority date: 2022-08-26
Filing date: 2022-12-05
Publication date: 2024-02-29
Also published as: CN115641878A

Abstract

本发明公开了一种结合分层策略的多模态情绪识别方法。本发明提出了一种结合分层策略的多模态情绪识别方法，该情绪识别方法结合了语音特征和文本特征，与单语音和单文本情绪识别方法相比，进一步提高了情绪识别的准确率；多模态情绪识别模型一般较大，使得模型的推理预测速度较慢，影响模型的响应效率和并发，因此本发明提出了一种结合分层策略的多模态情绪识别方法，对较易预测的样本在浅层模型中推理预测，对较难预测的样本放在深层模型中推理预测，从而在保证准确率的情况下，提高了多模态情绪识别的整体响应速度。

Description

一种结合分层策略的多模态情绪识别方法

技术领域

本发明涉及情绪识别领域，特别涉及一种结合分层策略的多模态情绪识别方法。

背景技术

情绪作为人的一种心理表现，进而会影响到人的行为表现，一个好的情绪，能有助于更好的进行沟通以及提高工作效率。因此在人机对话或在人人对话中，情绪变化的监测识别就有着重要的作用和意义。情绪的识别技术也在近几年不断的兴起，被逐渐应用到客服对话、智能机器人等场景。

目前常用的情绪识别为文本情绪识别，但文本情绪识别只能从文本语义中判断情绪的变化情况，无法结合语调、语气等语音信息，而多模态结合的情绪识别能够融合文本和语音特征进一步改善情绪识别的效果，但目前多模态情绪识别模型一般较大，推理速度较慢，这样会影响实际业务的响应速度，并使得实际业务的并发受到影响，在实际的场景中，用户有许多常用语或者简单普通的表达，这些表达只需用较简单的模型就能准确识别，只有较复杂的表达才需要用大模型去识别。

发明内容

本发明要解决的技术问题是克服现有技术的缺陷，提供一种结合分层策略的多模态情绪识别方法，与单文本和单语音情绪识别相比，进一步提高了情绪识别的效果，并进一步结合了分层策略，对较易预测的样本在浅层模型中推理预测，对较难预测的样本放在深层模型中推理预测，从而在保证准确率的情况下，提高了多模态情绪识别的整体响应速度。

本发明提供了如下的技术方案：

本发明提供一种结合分层策略的多模态情绪识别方法，包括以下步骤：

S1、首先该结合分层策略的多模态情绪识别方法的输入为语音以及该语音对应的文本；

S2、该结合分层策略的多模态情绪识别方法的浅层模型由语音情绪识别模型CNN和一个文本情绪识别框架组成，其中文本情绪识别框架由高频句匹配、正则表达式匹配和BiGRU-Attention模型构成，其深层模型为一个多模态情绪识别模型Transformer-based joint-encoding(TBJE)；

S3、将语音数据输入一个CNN语音情绪识别模型进行推理预测，该语音情绪识别模型较小，并且推理的速度较快；

S4、为语音情绪识别模型的情绪标签设置相应的阈值，如果语音情绪识别模型预测到该情绪类别的概率值超过该情绪类别对应的阈值时，则令变量audio_emotion等于该情绪类别，否则令变量audio_emotion的值为null；

S5、同时将文本数据输入一个分层的文本情绪识别框架，该文本情绪识别框架分为高频句匹配，正则表达式匹配以及一个BiGRU-Attention模型，BiGRU-Attention模型为一个双向GRU模型并结合了Attention注意力机制，该模型相对较小，并且推理的速度较快；其中GRU单元的更新方式如下：

z _t＝σ(W _xzx _t+W _hzh _t-1)

r _t＝σ(W _xrx _t+W _hrh _t-1)

其中z _t表示更新门，r _t表示重置门，σ为sigmod激活函数，x _t表示t时刻的输入，h _t-1表示t-1时刻的隐藏状态，h _t表示t时刻的隐藏状态；

采用BiGRU结构，对每条文本分别计算正向和反向的隐藏状态并拼接，得到目标文本序列H；

并使用attention注意力机制，计算注意力权重系数，计算过程如下：

a＝softmax(W ^Ttanh(H))

其中H为目标文本序列,softmax为归一化指数函数，a为注意力权重系数,W ^T为变量参数；

进一步地，利用注意力权重系数计算出目标文本序列的上下文序列为：

M＝tanh(Ha ^T)

其中a为注意力权重系数，H为目标文本序列，M为上下文序列；

将上下文序列M输入全连接层(Full Connected Layer)以及softmax函数得到分类结果；

以上为BiGRU-Attention模型的推理过程，在本发明中采用一种分层的文本情绪识别框架，当文本输入该文本情绪识别框架时，首先进行高频句匹配，如果该输入文本匹配到高频句库中的高频句，则令text_emotion等于该高频句所对应的情绪标签，并结束文本情绪识别过程，否则将该文本输入正则表达式匹配层，如果该文本与某条正则表达式匹配成功，则令text_emotion等于该条正则表达式所对应的情绪标签，并结束文本情绪识别过程，否则将该文本输入BiGRU-Attention模型，为BiGRU-Attention模型的分类情绪标签设置相应的阈值，如果BiGRU-Attention模型预测到的情绪类别的概率值超过该情绪类别对应的阈值，则令变量text_emotion等于该情绪类别，否则令变量text_emotion的值为null；

S6、比较语音情绪识别与文本情绪识别的结果，即比较audio_emotion与text_emotion的情绪标签值，如果两者的值相同，则将该情绪标签值作为最后的情绪识别结果并输出，结束本轮预测过程；如果audio_emotion与text_emotion的值不同或者audio_emotion、text_emotion中存在null值，则将语音和其对应的文本输入多模态情绪识别模型Transformer-basedjoint-encoding(TBJE)；

S7、Transformer-based joint-encoding(TBJE)为一个多模态情绪识别模型，其输入为语音以及该语音对应的文本，首先将语音和文本同时输入Transformer-based joint-encoding(TBJE)模型，文本输入Embedding层以及LSTM层后得到文本特征a，语音提取特征并输入至全连接层(Full Connected Layer)，得到语音特征b,将文本特征a以及语音特征b，同时输入至多层的Multimodal Transformer，并输出特征

和特征

将特征

和特征

经过Flatten、Add和Norm层后，得到融合语音和文本的特征c,将特征c输入至全连接层(Full Connected Layer)得到本轮情绪识别结果并输出；

S8、该结合分层策略的多模态情绪识别方法将较易预测的样本在浅层进行推理预测，并在浅层设置了一个较小的语音情绪识别模型和文本情绪识别框架，只有当两者预测的情绪标签相同时，才会直接输出情绪识别结果；否则会将较难预测的样本输入至更深层的模型，保证了浅层模型情绪识别的准确率，深层模型为一个多模态情绪识别模型Transformer-based joint-encoding(TBJE)，将较难预测的样本输入至该模型，得到其情绪识别结果并输出；因大部分常用语或普通的表达都能在浅层模型中得到预测并输出结果，因此在保证了准确率的前提下，提高了多模态情绪识别的整体响应速度。

与现有技术相比，本发明的有益效果如下：

1.本发明提出了一种结合分层策略的多模态情绪识别方法，该情绪识别方法结合了语音特征和文本特征，与单语音和单文本情绪识别方法相比，进一步提高了情绪识别的准确率；

2.多模态情绪识别模型一般较大，使得模型的推理预测速度较慢，影响模型的响应效率和并发，因此本发明提出了一种结合分层策略的多模态情绪识别方法，对较易预测的样本在浅层模型中推理预测，对较难预测的样本放在深层模型中推理预测，从而在保证准确率的情况下，提高了多模态情绪识别的整体响应速度。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明的整体架构图；

图2是本发明的语音情绪识别模型CNN的架构示意图；

图3是本发明的文本情绪识别框架中的BiGRU-Attention模型的架构示意图；

图4是本发明的多模态情绪识别模型Transformer-based joint-encoding(TBJE)的整体架构图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。其中附图中相同的标号全部指的是相同的部件。

实施例1

如图1-4，本发明提供一种结合分层策略的多模态情绪识别方法，包括以下步骤：

S5、同时将文本数据输入一个分层的文本情绪识别框架，该文本情绪识别框架分为高频句匹配，正则表达式匹配以及一个BiGRU-Attention模型，BiGRU-Attention模型为一个双向GRU模型并结合了Attention注意力机制，该模型相对较小，并且推理的速度较快。其中GRU单元的更新方式如下：

z _t＝σ(W _xzx _t+W _hzh _t-1)

r _t＝σ(W _xrx _t+W _hrh _t-1)

本发明采用BiGRU结构，对每条文本分别计算正向和反向的隐藏状态并拼接，得到目标文本序列H；

a＝softmax(W ^Ttanh(H))

其中H为目标文本序列,softmax为归一化指数函数，a为注意力权重系数,W ^T为变量参数。

M＝tanh(Ha ^T)

其中a为注意力权重系数，H为目标文本序列，M为上下文序列。

将上下文序列M输入全连接层(Full Connected Layer)以及softmax函数得到分类结果。

以上为BiGRU-Attention模型的推理过程，在本发明中采用一种分层的文本情绪识别框架，当文本输入该文本情绪识别框架时，首先进行高频句匹配，如果该输入文本匹配到高频句库中的高频句，则令text_emotion等于该高频句所对应的情绪标签，并结束文本情绪识别过程，否则将该文本输入正则表达式匹配层，如果该文本与某条正则表达式匹配成功，则令text_emotion等于该条正则表达式所对应的情绪标签，并结束文本情绪识别过程，否则将该文本输入BiGRU-Attention模型，为BiGRU-Attention模型的分类情绪标签设置相应的阈值，如果BiGRU-Attention模型预测到的情绪类别的概率值超过该情绪类别对应的阈值，则令变量text_emotion等于该情绪类别，否则令变量text_emotion的值为null。

S6、比较语音情绪识别与文本情绪识别的结果，即比较audio_emotion与text_emotion的情绪标签值，如果两者的值相同，则将该情绪标签值作为最后的情绪识别结果并输出，结束本轮预测过程。如果audio_emotion与text_emotion的值不同或者audio_emotion、text_emotion中存在null值，则将语音和其对应的文本输入多模态情绪识别模型Transformer-basedjoint-encoding(TBJE)。

和特征

将特征

和特征

经过Flatten、Add和Norm层后，得到融合语音和文本的特征c,将特征c输入至全连接层(Full Connected Layer)得到本轮情绪识别结果并输出。

S8、该结合分层策略的多模态情绪识别方法将较易预测的样本在浅层进行推理预测，并在浅层设置了一个较小的语音情绪识别模型和文本情绪识别框架，只有当两者预测的情绪标签相同时，才会直接输出情绪识别结果。否则会将较难预测的样本输入至更深层的模型，保证了浅层模型情绪识别的准确率，在本发明方案中，深层模型为一个多模态情绪识别模型Transformer-based joint-encoding(TBJE)，将较难预测的样本输入至该模型，得到其情绪识别结果并输出。因大部分常用语或普通的表达都能在浅层模型中得到预测并输出结果，因此在保证了准确率的前提下，提高了多模态情绪识别的整体响应速度。

具体的，示例如下：

1.设情绪识别场景的类别有中性，高兴，愤怒三种情绪类别。

2.设语音情绪识别模型CNN在中性，高兴，愤怒三种情绪类别上的阈值都为0.5。

3.设文本情绪识别框架中的BiGRU-Attention模型在中性，高兴，愤怒三种情绪类别上的阈值都为0.5。

4.输入的样本为语音以及该语音所对应的文本，将语音输入语音情绪识别CNN模型，设语音情绪识别模型预测到三个类别中性、高兴、愤怒的概率为0.21、0.6、0.19，因为情绪标签高兴的概率值0.6大于阈值0.5。则令audio_emotion＝高兴。反之如果模型预测到三个类别中性、高兴、愤怒的概率值都小于0.5，则令audio_emotion＝null。

5.将文本输入文本情绪识别框架，如该文本匹配到了高频句，则令text_emotion＝该条高频句对应的情绪类别，并结束文本情绪识别过程。如果该文本没有匹配到高频句，则将文本输入到正则表达式匹配层，如该文本匹配到某条正则表达式，则令text_emotion＝该条正则表达式对应的情绪类别，并结束文本情绪识别过程，如果该文本未匹配到正则表达式，则将该文本输入至BiGRU-Attention模型，假设该条文本在高频句和正则表达式层均未匹配成功，且通过BiGRU-Attention模型预测后在三个类别中性、高兴、愤怒的概率为0.05、0.7、0.25，因为情绪标签高兴的概率值大于阈值0.5，则令text_emotion＝高兴。反之如果模型预测到三个类别中性、高兴、愤怒的概率值都小于0.5，则令text_emotion＝null。

6.比较audio_emotion与text_emotion的情绪标签值，如果两者的值相等，则输出该情绪标签值，结束本轮预测过程。如果两者的值不相等，或audio_emotion、text_emotion中存在null值，则将语音和该条语音对应的文本输入至多模态情绪识别模型Transformer-based joint-encoding(TBJE)中进行推理预测，将预测的结果作为本轮情绪识别的预测结果并输出。

本发明具备以下特点：

1.多模态情绪识别模型一般较大，使得模型的推理预测速度较慢，影响模型的响应效率和并发，因此本发明提出了一种结合分层策略的多模态情绪识别方法，对较易预测的样本在浅层模型中推理预测，对较难预测的样本放在深层模型中推理预测，从而在保证准确率的情况下，提高了多模态情绪识别的整体响应速度。

2.具体地该结合分层策略的多模态情绪识别方法的浅层模型由一个较小的语音情绪识别模型(如：CNN)和一个文本情绪识别框架组成，其中文本情绪识别框架由高频句匹配、正则表达式匹配和一个较小的模型(如：BiGRU-Attention)构成，语音情绪识别模型和文本情绪识别框架均相对较小，推理速度较快，其深层模型为一个多模态情绪识别模型(如：Transformer-based joint-encoding)。

3.该发明的输入为语音以及该语音对应的文本，其中语音和文本为同时输入。将语音输入至语音情绪识别模型，为语音情绪识别模型的情绪标签设置相应的阈值，如果语音情绪识别模型预测到该情绪类别的概率值超过该情绪类别对应的阈值时，则令变量audio_emotion等于该情绪类别，否则令变量audio_emotion的值为null。

4.将文本输入文本情绪识别框架时，首先进行高频句匹配，如果该输入文本匹配到高频句库中的高频句，则令text_emotion等于该高频句所对应的情绪标签，并结束文本情绪识别过程，否则将该文本输入正则表达式匹配层，如果该文本与某条正则表达式匹配成功，则令text_emotion等于该条正则表达式所对应的情绪标签，并结束文本情绪识别过程，否则将该文本输入一个较小的模型(如：BiGRU-Attention)，为该模型的分类情绪标签设置相应的阈值，如果该模型预测到的情绪类别的概率值超过对应情绪类别的阈值，则令变量text_emotion等于该情绪类别，否则令变量text_emotion的值为null。

5.当浅层模型中语音情绪识别的结果audio_emotion与文本情绪识别的的结果text_emotion，两者的情绪标签值相等时，会直接输出情绪识别结果，否则会将较难预测的样本输入至更深层的模型，保证了该结合分层策略的多模态情绪识别方法的准确率，在本发明方案中，深层模型为一个多模态情绪识别模型(如：Transformer-based joint-encoding)，将较难预测的样本输入至该模型，得到其情绪识别结果并输出。因大部分常用语或普通的表达都能在浅层模型中得到预测并输出结果，因此在保证了准确率的前提下，提高了多模态情绪识别的整体响应速度。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种结合分层策略的多模态情绪识别方法，其特征在于，包括以下步骤：

S1、首先该结合分层策略的多模态情绪识别方法的输入为语音以及该语音对应的文本；

S2、该结合分层策略的多模态情绪识别方法的浅层模型由语音情绪识别模型CNN和一个文本情绪识别框架组成，其中文本情绪识别框架由高频句匹配、正则表达式匹配和BiGRU-Attention模型构成，其深层模型为一个多模态情绪识别模型Transformer-based joint-encoding(TBJE)；

S3、将语音数据输入一个CNN语音情绪识别模型进行推理预测，该语音情绪识别模型较小，并且推理的速度较快；

S4、为语音情绪识别模型的情绪标签设置相应的阈值，如果语音情绪识别模型预测到该情绪类别的概率值超过该情绪类别对应的阈值时，则令变量audio_emotion等于该情绪类别，否则令变量audio_emotion的值为null；

S5、同时将文本数据输入一个分层的文本情绪识别框架，该文本情绪识别框架分为高频句匹配，正则表达式匹配以及一个BiGRU-Attention模型，BiGRU-Attention模型为一个双向GRU模型并结合了Attention注意力机制，该模型相对较小，并且推理的速度较快；其中GRU单元的更新方式如下：

z _t＝σ(W _xzx _t+W _hzh _t-1)

r _t＝σ(W _xrx _t+W _hrh _t-1)

其中z _t表示更新门，r _t表示重置门，σ为sigmod激活函数，x _t表示t时刻的输入，h _t-1表示t-1时刻的隐藏状态，h _t表示t时刻的隐藏状态；

采用BiGRU结构，对每条文本分别计算正向和反向的隐藏状态并拼接，得到目标文本序列H；

并使用attention注意力机制，计算注意力权重系数，计算过程如下：

a＝softmax(W ^Ttanh(H))

其中H为目标文本序列,softmax为归一化指数函数，a为注意力权重系数,W ^T为变量参数；

进一步地，利用注意力权重系数计算出目标文本序列的上下文序列为：

M＝tanh(Ha ^T)

其中a为注意力权重系数，H为目标文本序列，M为上下文序列；

将上下文序列M输入全连接层(Full Connected Layer)以及softmax函数得到分类结果；

以上为BiGRU-Attention模型的推理过程，在本发明中采用一种分层的文本情绪识别框架，当文本输入该文本情绪识别框架时，首先进行高频句匹配，如果该输入文本匹配到高频句库中的高频句，则令text_emotion等于该高频句所对应的情绪标签，并结束文本情绪识别过程，否则将该文本输入正则表达式匹配层，如果该文本与某条正则表达式匹配成功，则令text_emotion等于该条正则表达式所对应的情绪标签，并结束文本情绪识别过程，否则将该文本输入BiGRU-Attention模型，为BiGRU-Attention模型的分类情绪标签设置相应的阈值，如果BiGRU-Attention模型预测到的情绪类别的概率值超过该情绪类别对应的阈值，则令变量text_emotion等于该情绪类别，否则令变量text_emotion的值为null；

S6、比较语音情绪识别与文本情绪识别的结果，即比较audio_emotion与text_emotion的情绪标签值，如果两者的值相同，则将该情绪标签值作为最后的情绪识别结果并输出，结束本轮预测过程；如果audio_emotion与 text_emotion的值不同或者audio_emotion、text_emotion中存在null值，则将语音和其对应的文本输入多模态情绪识别模型Transformer-based joint-encoding(TBJE)；

S7、Transformer-based joint-encoding(TBJE)为一个多模态情绪识别模型，其输入为语音以及该语音对应的文本，首先将语音和文本同时输入Transformer-based joint-encoding(TBJE)模型，文本输入Embedding层以及LSTM层后得到文本特征a，语音提取特征并输入至全连接层(Full Connected Layer)，得到语音特征b,将文本特征a以及语音特征b，同时输入至多层的Multimodal Transformer，并输出特征
和特征
将特征
和特征
经过Flatten、Add和Norm层后，得到融合语音和文本的特征c,将特征c输入至全连接层(Full Connected Layer)得到本轮情绪识别结果并输出；

S8、该结合分层策略的多模态情绪识别方法将较易预测的样本在浅层进行推理预测，并在浅层设置了一个较小的语音情绪识别模型和文本情绪识别框架，只有当两者预测的情绪标签相同时，才会直接输出情绪识别结果；否则会将较难预测的样本输入至更深层的模型，保证了浅层模型情绪识别的准确率，深层模型为一个多模态情绪识别模型Transformer-based joint-encoding(TBJE)，将较难预测的样本输入至该模型，得到其情绪识别结果并输出；因大部分常用语或普通的表达都能在浅层模型中得到预测并输出结果，因此在保证了准确率的前提下，提高了多模态情绪识别的整体响应速度。