WO2021134277A1

WO2021134277A1 - 情感识别方法、智能装置和计算机可读存储介质

Info

Publication number: WO2021134277A1
Application number: PCT/CN2019/130065
Authority: WO
Inventors: 丁万; 黄东延; 李柏; 邵池; 熊友军
Original assignee: 深圳市优必选科技股份有限公司
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2021-07-08
Also published as: CN111164601A; CN111164601B

Abstract

一种情感识别方法、智能装置(10)和计算机可读存储介质(30)，该情感识别方法包括：获取包括视频数据、音频数据和/或文本数据中的至少两个的待识别多模态数据组(S101)；提取视频数据的视频语义特征序列，提取音频数据的音频语义特征序列，和/或提取文本数据中的文本语义特征序列(S102)；将文本语义特征序列向音频数据的时间维度对齐处理，生成文本语义时序序列(S103)；将视频语义特征序列、音频语义特征序列和/或文本语义时序序列按照时间维度融合，生成多模态语义特征序列(S104)；将多模态语义特征序列输入预训练的情感识别神经网络，将情感识别神经网络的输出结果作为待识别数据组对应的目标情感(S105)。该方法可以有效提升情感识别的准确性。

Description

情感识别方法、智能装置和计算机可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及情感识别方法、智能装置和计算机可读存储介质。

背景技术

人在自然状态下的情感会引起多个模态(如脸部动作、说话音调、语言、心跳等)的反应。传统的多模态融合情感识别方法基于低层特征对齐融合(Low-level features fusion)或者决策层融合(Decision-level fusion)。这两种方法的局限性在于(a)人脑对于不同模态的低层信息(如物理特征：像素的亮度、声波的频谱、单词的拼写)的处理机制是相互独立的；(b)决策层融合忽略了多模态语义特征之间的时空关系。多模态语义特征的不同时-空分布会对应不同的情感信息。例如A:笑脸和说“好”同时出现；B：笑脸在说“好”之后出现。A和B的不同在于笑脸和说“好”这两个语义特征的先后关系不同，先后关系的不同导致情感表达的不同，例如B更可能是在敷衍或无奈。

申请内容

基于此，有必要针对上述问题，提出了情感识别方法、智能装置和计算机可读存储介质。

一种情感识别方法，所述方法包括：获取待识别多模态数据组，所述待识别多模态数据组包括视频数据、音频数据和/或文本数据中的至少两个；提取所述视频数据的视频语义特征序列，提取所述音频数据的音频语义特征序列，和/或，提取所述文本数据中的文本语义特征序列；将所述文本语义特征序列向所述音频数据的时间维度对齐处理，生成文本语义时序序列；将所述视频语义特征序列、所述音频语义特征序列和/或所述文本语义时序序列按照所述时间维度融合，生成多模态语义特征序列；将所述多模态语义特征序列输入预训练的情感识别神经网络，将所述情感识别神经网络的输出结果作为所述待识别数据组对应的目标情感。

一种智能装置，包括：获取模块，获取待识别数据组，所述待识别数据组包括视频数据、音频数据和文本数据；提取模块，用于提取所述视频数据的视频语义特征序列，提取所述音频数据的音频语义特征序列，以及提取所述文本数据中的文本语义特征序列；对齐模块，用于将所述文本语义特征序列向所述音频数据的时间维度对齐，生成文本语义时序序列；串联模块，用于将所述视频语义特征序列、所述音频语义特征序列以及所述文本语义时序序列按照所述时间维度串联，生成多模态语义特征序列；情感模块，用于将所述多模态语义特征序列输入预训练的情感识别神经网络，将所述情感识别神经网络的输出结果作为所述待识别数据组对应的目标情感。

一种智能装置，包括：获取电路、处理器、存储器，所述处理器耦接所述存储器和所述获取电路，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序以实现如上所述的方法。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序能够被处理器执行以实现如上所述的方法。

采用本发明实施例，具有如下有益效果：

获取待识别多模态数据组后，提取视频数据的视频语义特征序列，提取音频数据的音频语义特征序列，和/或，提取文本数据中的文本语义特征序列。将文本语义特征序列向音频数据的时间维度对齐处理，生成文本语义时序序列，将所述视频语义特征序列、所述音频语义特征序列和/或所述文本语义时序序列按照所述时间维度融合，生成多模态语义特征序列，获取的是语义特征而非低层特征，可以更加准确的表示待识别多模态数据组的情感特征保留多模态时空关系的特征对齐和融合，根据该多模态语义特征序列获取的目标情感的准确度更高，因此有效提升了情感识别的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1是本发明一个实施例中情感识别方法应用环境图；

图2是本发明提供的情感识别方法的第一实施例的流程示意图；

图3是本发明提供的情感识别方法的第二实施例的流程示意图；

图4是本发明提供的情感识别方法的第三实施例的流程示意图；

图5是本发明提供的智能装置的第一实施例的结构示意图；

图6是本发明提供的智能装置的第二实施例的结构示意图；

图7是本发明提供的计算机可读存储介质的一实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术中决策层融合忽略了多模态语义特征之间的时空关系。由于多模态语义特征的不同时-空分布对应不同的情感信息，因而忽略了时空关系会造成情感识别的准确率不高。

在本实施例中，为了解决上述问题，提供了一种情感识别方法，可以有效提升了情感识别的准确率。

请参阅图1，图1是本发明一个实施例中情感识别方法应用环境图。参照图1，该脸部情感识别方法应用于情感识别系统。该情感识别系统包括终端110和服务器120。终端110和服务器120通过网络连接，终端110具体可以是台式终端或移动终端，移动终端具体可以是手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端110用于获取待识别多模态数据组，待识别多模态数据组包括视频数据、音频数据和/或文本数据中的至少两个，服务器120用于提取视频数据的视频语义特征序列，提取音频数据的音频语义特征序列，和/或，提取文本数据中的文本语义特征序列；将文本语义特征序列向音频数据的时间维度对齐处理，生成文本语义时序序列；将视频语义特征序列、音频语义特征序列和/或文本语义时序序列按照时间维度融合，生成多模态语义特征序列；将多模态语义特征序列输入预训练的情感识别神经网络，获取待识别数据组对应的目标情感。

请参阅图2，图2是本发明提供的情感识别方法的第一实施例的流程示意图。本发明提供的情感识别方法包括如下步骤：

S101：获取待识别多模态数据组，待识别多模态数据组包括视频数据、音频数据和/或文本数据中的至少两个。

在一个具体的实施场景中，获取待识别多模态数据组，待识别多模态数据组包括视频数据、音频数据和/或文本数据中的至少两个。在本实施场景中，待识别多模态数据组包括视频数据、音频数据和文本数据。待识别多模态数据组可以是由用户提供的，或者是从数据库中获取的，还可以是现场录制生成的。视频数据、音频数据和文本数据对应同一时间段内同一说话人。

S102：提取视频数据的视频语义特征序列，提取音频数据的音频语义特征序列，和/或，提取文本数据中的文本语义特征序列。

在本实施场景中，提取视频数据的视频语义特征序列，提取音频数据的音频语义特征序列，提取文本数据中的文本语义特征序列。可以通过将待识别多模态数据组输入预训练的特征提取神经网络，获取视频语义特征序列、音频数据的音频语义特征序列和文本语义特征序列。在其他实施场景中，还可以是将视频数据输入预训练的视频特征提取神经网络，获取视频语义特征序列，将音频数据输入预训练的音频特征提取神经网络，获取音频语义特征序列，将文本数据输入预训练的文本特征提取神经网络，获取文本语义特征序列。

具体地说，将视频数据输入预训练的视频特征提取神经网络，获取视频语义特征序列之前，需要对视频特征提取神经网络进行训练。准备脸部视频数据，标注出脸部视频数据中的脸部动作单元。在训练前，定义视频特征提取网络的结果为CNN-RNN结构，定义迭代初始值为Epoch＝0，定义损失函数。将脸部视频数据及其对应的脸部动作单元输入视频特征提取神经网络，获取训练结果，将训练结果随机分批，计算损失函数，根据计算出的损失值的大小，采用返现梯度传播算法更新CNN-RNN的权值，当全部的训练结构遍历后，迭代值Epoch+1，直至Epoch＝2000，训练终止。

将文本数据输入预训练的文本特征提取神经网络，获取文本语义特征序列之前，需要对文本特征提取神经网络进行训练。准备训练文本数据，为训练文本数据标注正/负面情绪标注，统计训练文本数据的词频，基于数值最大的最大词频对文本数据进行分词。基于word2vec方法训练条件概率函数p(w _i|w _i-2,w _i-1,w _i+1,w _i+2)，提取文本数据中的词特征。定义文本特征提取神经网络的结构为Transformer+Attention+RNN结构，定义损失函数，将文本数据的词特征和文本数据的正/负面情绪标注输入文本特征提取神经网络进行训练，在损失函数满足预设条件时终止训练。

S103：将文本语义特征序列向音频数据的时间维度对齐处理，生成文本语义时序序列。

在本实施场景中，音频数据和视频数据均带有时间维度，而文本数据不具有时间维度，因此音频语义特征序列和视频语义特征序列均具有时间维度，而文本语义特征序列不具有时间维度。将文本语义特征序列向音频数据的时间维度进行对齐处理。在其他实施场景中，还可以将文本语义特征序列向视频数据的时间维度进行对齐处理。

在本实施场景中，可以通过语音识别的方法获取音频数据中每个发音音素，在文本语义特征序列中找到对应该发音音素的文本语义特征数据，将文本语义特征序列中的每个文本语义特征数据与发音音素的时间维度对齐，生成文本语义时序序列。

S104：将视频语义特征序列、音频语义特征序列和/或文本语义时序序列按照时间维度融合，生成多模态语义特征序列。

在本实施场景中，以音频语义特征序列的时间维度为基准，将视频语义特征序列的时间维度与音频语义特征序列的时间维度对齐，文本语义时序序列与音频语义特征序列在时间维度上是对齐的。

获取每一时刻的视频语义特征数据、音频语义特征数据和文本语义特征数据，将每一时刻的视频语义特征数据、音频语义特征数据和文本语义特征数据串联成语义特征单元。将每一时刻的语义特征单元按照时序排列生成多模态语义特征序列。

S105：将多模态语义特征序列输入预训练的情感识别神经网络，将情感识别神经网络的输出作为待识别数据组对应的目标情感。

在本实施场景中，将多模态语义特征序列输入预训练的情感识别神经网络，将情感识别神经网络的输出作为待识别数据组对应的目标情感。

在本实施场景中，需要对情感识别神经网络进行训练。在训练前准备好多个训练多模态语义特征序列，为每个训练多模态语义特征序列标注情感数据，定义情感识别神经网络的网络结构，可以定义情感识别神经网络的层数，例如，19层。还可以定义情感识别神经网络的类型，例如卷积神经网络，或者全连接神经网络等等。定义情感识别神经网络的损失函数，以及定义情感识别神经网络的训练终止的条件，例如训练2000次后停止。在训练成功后，将多模态语义特征序列输入情感识别神经网络，情感识别神经网络将会输出多模态语义特征序列对应的目标情感。

通过上述描述可知，在本实施例中获取待识别多模态数据组后，提取视频数据的视频语义特征序列，提取音频数据的音频语义特征序列，和/或，提取文本数据中的文本语义特征序列。将文本语义特征序列向音频数据的时间维度对齐处理，生成文本语义时序序列，将视频语义特征序列、音频语义特征序列和/或文本语义时序序列按照时间维度融合，生成多模态语义特征序列，获取的是语义特征而非低层特征，可以更加准确的表示待识别多模态数据组的情感特征，保留多模态时空关系的特征对齐和融合，根据该多模态语义特征序列获取的目标情感的准确度更高，因此有效提升了情感识别的准确率。

请参阅图3，图3是本发明提供的情感识别方法的第二实施例的流程示意图。本发明提供的情感识别方法包括如下步骤：

S201：获取待识别多模态数据组，待识别多模态数据组包括视频数据、音频数据和/或文本数据中的至少两个。

S202：提取视频数据的视频语义特征序列，提取音频数据的音频语义特征序列，和/或，提取文本数据中的文本语义特征序列。

在一个具体的实施场景中，步骤S201-S202与本发明提供的情感识别方法的第一实施例的步骤S101-S102基本一致，此处不在进行赘述。

S203：获取音频数据的至少一个发音音素，获取每个发音音素对应的文本语义特征序列中的文本语义特征数据。

在本实施场景中，通过ASR(Automatic Speech Recognition，语音识别)技术获取音频数据的至少一个发音音素，在文本语义特征序列中找出与每个发音音素对应的文本语义特征数据。

S204：获取每个发音音素的时刻位置，将文本语义特征数据与对应的发音音素的时刻位置对齐。

在本实施场景中，获取每个发音音素的时刻位置，将文本语义特征序列中的文本语义特征数据与对应的发言音素的时刻位置对齐。例如，发音音素“啊”的时刻位置为1分32秒，则文本语义特征序列中对应“啊”的文本语义特征数据与时刻位置1分32秒对齐。

S205：分别获取视频语义特征序列、音频语义特征序列和/或文本语义时序序列每一时刻的视频语义特征数据、音频语义特征数据和文本语义特征数据。

在本实施场景中，视频语义特征序列也是具有时间维度的，可以获取每一时刻的视频语义特征数据。同理，可以获取每一时刻的音频语义特征数据，文本语义时序序列中的文本语义特征数据经过步骤S204中与音频数据的时间维度对齐后，可以获取每一时刻的文本语义特征数据。

S206：将同一时刻的视频语义特征数据、音频语义特征数据和/或文本语义特征数据串联成语义特征单元。

在本实施场景中，视频语义特征数据、音频语义特征数据和文本语义特征数据均为向量，将同一时刻的视频语义特征数据、音频语义特征数据和文本语义特征数据串联成语义特征单元，即为将三个向量串联为一个向量。例如，视频语义特征数据、音频语义特征数据和文本语义特征数据均为2维向量，则串联后生成的语音特征单元为6维向量。

S207：将每一时刻的语义特征单元按照时间顺序排列，生成多模态语义特征序列。

在本实施场景中，将每一时刻的语音特征单元按照时间顺序排列，生成多磨语义特征序列。时间顺序即为音频语义特征序列的时间维度。

S208：将多模态语义特征序列输入预训练的情感识别神经网络，将情感识别神经网络的输出作为待识别数据组对应的目标情感。

在一个具体的实施场景中，步骤S208与本发明提供的情感识别方法的第一实施例的步骤S105基本一致，此处不在进行赘述。

通过上述描述可知，在本实施例中通过获取音频数据的每个发音音素对应的文本语义特征序列中的文本语义特征数据，获取文本语义特征数据对应的时刻，将同一时刻的视频语义特征数据、音频语义特征数据和文本语义特征数串联为语义特征单元，将每一时刻的语义特征单元按照时间顺序排列，生成多模态语义特征序列，保留多模态时空关系的特征对齐和融合，根据该多模态语义特征序列获取的目标情感的准确度更高，因此有效提升了情感识别的准确率。

请参阅图4，图4是本发明提供的情感识别方法的第三实施例的流程示意图。本发明提供的情感识别方法包括如下步骤：

S301：获取待识别多模态数据组，待识别多模态数据组包括视频数据、音频数据和/或文本数据中的至少两个。

S302：提取视频数据的视频语义特征序列，提取音频数据的音频语义特征序列，和/或，提取文本数据中的文本语义特征序列。

S303：将文本语义特征序列向音频数据的时间维度对齐处理，生成文本语义时序序列。

S304：将视频语义特征序列、音频语义特征序列和/或文本语义时序序列按照时间维度融合，生成多模态语义特征序列。

在一个具体的实施场景中，步骤S301-S304与本发明提供的情感识别方法的第一实施例的步骤S101-S104基本一致，此处不在进行赘述。

S305：分别将每一时刻的语义特征单元输入预训练的单元识别神经网络，将单元识别神经网络的输出结果作为每一时刻的情绪识别结果。

在本实施场景中，将每一时刻的语义特征单元输入预训练的单元识别神经网络，将单元识别神经网络的输出结果作为每一时刻的情绪识别结果。

在本实施场景中，单元识别神经网络包括卷积神经网络层和双向长短记忆神经网络层。卷积神经网络以当前元素x _i为中心定义宽度为2d的感应窗口，对窗口内的输入元素进行全连接网络计算，以一维数据为例

设输入为[x ₁,x ₂,…,x _n-1,x _n]，卷积神经网络的模型为：

其中σ为非线性激活函数，w _k表示共享权值，即i不等但是k相等时输入对应的权值即相等。

CNN常与池化(pooling)层一起使用，池化层函数的特点在于空间不变性，常见的有：

Max-pooling：

Average-pooling：

长短期记忆网络(LSTM，Long Short-Term Memory)是一个序列标注模型，当前时刻t的输出h _t是当前时刻输入x _t和前一时刻输出h _t-1的函数。以下展示了一种LSTM的实现方法：

设x _t为当前输入向量，h _t-1为前一时刻输出向量，c _t-1为前一时刻细胞状态向量，h _t为当前时刻输出向量，h _t的计算方式为：

f _t＝σ(W _fx _t+U _fh _t-1)

i _t＝σ(W _ix _t+U _ih _t-1)

o _t＝σ(W _ox _t+U _oh _t-1)

h _t＝o _t*tanh(c _t)

其中W和U分别代表不同的权值矩阵，tanh为非线性激活函数：

在其他实施场景中，单元识别神经网络也可以仅包括一层神经网络，例如LSTM。

S306：将每一时刻的情绪识别结果按照时间排序，生成情绪识别序列。

在本实施场景中，将每一时刻的情绪识别结果按照时间排序，生成情绪识别序列。可以设置多个单元识别神经网络，可以同时输出每一时刻的情绪识别结果，也可以设置一个单元识别神经网络，依次输入每一时刻的语义特征单元，依次输出每一时刻的情绪识别结果。

S307：获取每一时刻的情绪识别结果的权重，将每一时刻的情绪识别结果与其对应的权重进行点乘运算，将点乘运算后的情绪识别序列输入预训练的情绪识别神经网络，将情感识别神经网络的输出作为待识别数据组对应的目标情感。

在本实施场景中，获取情绪识别序列中每一时刻的情绪识别结果的权重，将每一时刻的情绪识别结果与其对应的权重点乘运算。因为情绪识别序列中，各时刻的情绪识别结果之间相互影响，例如，某些情绪识别结果是下意识的反应，某些情绪识别结果带有较为强烈的情感，则不同的情绪识别结果对情绪识别序列对应的目标情绪的影响能力大小不同。

在本实施场景中，对情绪识别序列进行注意力运算，获取每一时刻的情绪识别结果的权重。

其中，a为每一时刻的情绪识别结果的权重，

为情绪识别序列，softmax函数的运算公式为：

在本实施场景中，情感识别神经网络为全连接神经网络。全连接神经网络默认建立所有的输入与输出之间的权值连接，以一维数据为例：

设输入为[x ₁,x ₂,…,x _n-1,x _n]，全连接网络的模型为：

其中w _i为网络参数，σ为非线性激活函数，常见的如Sigmoid函数σ(x)＝1/1+e ^-x。

通过上述描述可知，在本实施例中将同一时刻的视频语义特征数据、音频语义特征数据和文本语义特征数串联为语义特征单元，将每一时刻的语义特征单元输入单元识别神经网络，获取每一时刻的情绪识别结果，单元识别神经网络包括卷积神经网络层和双向长短记忆神经网络层，可以提高情绪识别结果的准确率。

请参阅图5，图5是本发明提供的智能装置的第一实施例的结构示意图。智能装置10包括获取模块11、提取模块12、对齐模块13、串联模块14和情感模块15。获取模块11获取待识别数据组，待识别数据组包括视频数据、音频数据和文本数据。提取模块12用于提取视频数据的视频语义特征序列，提取音频数据的音频语义特征序列，以及提取文本数据中的文本语义特征序列。对齐模块13用于将文本语义特征序列向音频数据的时间维度对齐，生成文本语义时序序列。串联模块14用于将视频语义特征序列、音频语义特征序列以及文本语义时序序列按照时间维度串联，生成多模态语义特征序列。情感模块15用于将多模态语义特征序列输入预训练的情感识别神经网络，获取待识别数据组的包括的情感。

通过上述描述可知，在本实施例中智能装置获取待识别多模态数据组后，提取视频数据的视频语义特征序列，提取音频数据的音频语义特征序列，和/或，提取文本数据中的文本语义特征序列。将文本语义特征序列向音频数据的时间维度对齐处理，生成文本语义时序序列，将视频语义特征序列、音频语义特征序列和/或文本语义时序序列按照时间维度融合，生成多模态语义特征序列，可以保留多模态时空关系的特征对齐和融合，根据该多模态语义特征序列获取的目标情感的准确度更高，因此有效提升了情感识别的准确率。

请继续参阅图5。对齐模块13包括第一获取子模块131和对齐子模块132。第一获取子模块131用于获取音频数据的至少一个发音音素，获取每个发音音素对应的文本语义特征数据。对齐子模块132用于获取每个发音音素的时刻位置，将文本语义特征数据与对应的发音音素的时刻位置对齐。

串联模块14包括第二获取子模块141和串联子模块142。第二获取子模块141用于分别获取视频语义特征序列、音频语义特征序列以及文本语义时序序列每一时刻的视频语义特征数据、音频语义特征数据和文本语义特征数据。串联子模块142用于将同一时刻的视频语义特征数据、音频语义特征数据和文本语义特征数据串联成语义特征单元。

情感模块15包括情绪识别子模块151、排列子模块152和情感子模块153。情绪识别子模块151用于分别将每一时刻的语义特征单元输入预训练的单元识别神经网络，获取每一时刻的情绪识别数据。排列子模块152用于将每一时刻的情绪识别数据按照时间排序，生成情绪识别序列。情感子模块153用于将情绪识别序列输入预训练的情绪识别神经网络，获取待识别数据组的包括的情感。

情感子模块153包括权重单元1531。权重单元1531用于获取每一时刻的情绪识别数据的权重，将每一时刻的情绪识别数据与其对应的权重进行点乘运算，将运算的情绪识别序列后输入预训练的情绪识别神经网络。

其中，权重单元1531用于对情绪识别序列进行注意力运算，获取每一时刻的情绪识别数据的权重。

其中，单元识别神经网络包括卷积神经网络层和双向长短记忆网络层。

其中，情感识别神经网络为全连接神经网络。

智能装置10还包括训练模块16，训练模块16用于训练情感识别神经网络。

训练模块16包括准备子模块161、定义子模块162、输入子模块163。

准备子模块161用于准备多个训练多模态特征序列，标注每个训练多模态特征序列的目标情感。定义子模块162用于定义训练的情感识别神经网络的结构、损失函数和终止条件。输入子模块163用于将多个多模态特征序列及其对应的目标情感为输入情感识别神经网络进行训练。

通过上述描述可知，本实施例中将每一时刻的语义特征单元按照时间顺序排列，生成多模态语义特征序列，获取的是语义特征而非低层特征，可以更加准确的表示待识别多模态数据组的情感特征，保留多模态时空关系的特征对齐和融合，根据该多模态语义特征序列获取的目标情感的准确度更高，因此有效提升了情感识别的准确率，同一时刻的视频语义特征数据、音频语义特征数据和文本语义特征数串联为语义特征单元，将每一时刻的语义特征单元输入单元识别神经网络，获取每一时刻的情绪识别结果，单元识别神经网络包括卷积神经网络层和双向长短记忆神经网络层，可以提高情绪识别结果的准确率。

请参阅图6，图6是本发明提供的智能装置的第二实施例的结构示意图。智能装置20包括处理器21、存储器22和获取电路23。处理器21耦接存储器22和获取电路23。存储器22中存储有计算机程序，处理器21在工作时执行该计算机程序以实现如图2-图4所示的方法。详细的方法可参见上述，在此不再赘述。

通过上述描述可知，在本实施例中智能装置获取待识别多模态数据组后，提取视频数据的视频语义特征序列，提取音频数据的音频语义特征序列，和/或，提取文本数据中的文本语义特征序列。将文本语义特征序列向音频数据的时间维度对齐处理，生成文本语义时序序列，将视频语义特征序列、音频语义特征序列和/或文本语义时序序列按照时间维度融合，生成多模态语义特征序列，获取的是语义特征而非低层特征，可以更加准确的表示待识别多模态数据组的情感特征，保留多模态时空关系的特征对齐和融合，根据该多模态语义特征序列获取的目标情感的准确度更高，因此有效提升了情感识别的准确率。

请参阅图7，图7是本发明提供的计算机可读存储介质的一实施例的结构示意图。计算机可读存储介质30中存储有至少一个计算机程序31，计算机程序71用于被处理器执行以实现如图2-图4所示的方法，详细的方法可参见上述，在此不再赘述。在一个实施例中，计算机可读存储介质30可以是终端中的存储芯片、硬盘或者是移动硬盘或者优盘、光盘等其他可读写存储的工具，还可以是服务器等等。

通过上述描述可知，在本实施例中存储介质中存储的计算机程序可以用于获取待识别多模态数据组后，提取视频数据的视频语义特征序列，提取音频数据的音频语义特征序列，和/或，提取文本数据中的文本语义特征序列。将文本语义特征序列向音频数据的时间维度对齐处理，生成文本语义时序序列，将视频语义特征序列、音频语义特征序列和/或文本语义时序序列按照时间维度融合，生成多模态语义特征序列，获取的是语义特征而非低层特征，可以更加准确的表示待识别多模态数据组的情感特征，保留多模态时空关系的特征对齐和融合，根据该多模态语义特征序列获取的目标情感的准确度更高，因此有效提升了情感识别的准确率。

区别于现有技术，本发明获取的是语义特征而非低层特征，可以更加准确的表示待识别多模态数据组的情感特征，保留多模态时空关系的特征对齐和融合，根据该多模态语义特征序列获取的目标情感的准确度更高，因此有效提升了情感识别的准确率。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

一种情感识别方法，其特征在于，包括：

获取待识别多模态数据组，所述待识别多模态数据组包括视频数据、音频数据和/或文本数据中的至少两个；

提取所述视频数据的视频语义特征序列，提取所述音频数据的音频语义特征序列，和/或，提取所述文本数据中的文本语义特征序列；

将所述文本语义特征序列向所述音频数据的时间维度对齐处理，生成文本语义时序序列；

将所述视频语义特征序列、所述音频语义特征序列和/或所述文本语义时序序列按照所述时间维度融合，生成多模态语义特征序列；

将所述多模态语义特征序列输入预训练的情感识别神经网络，将所述情感识别神经网络的输出结果作为所述待识别数据组对应的目标情感。
根据权利要求1所述的情感识别方法，其特征在于，所述将所述文本语义特征序列向所述音频数据的时间维度对齐处理的步骤，包括：

获取音频数据的至少一个发音音素，获取每个所述发音音素对应的文本语义特征序列中的文本语义特征数据；

获取每个所述发音音素的时刻位置，将所述文本语义特征数据与对应的所述发音音素的所述时刻位置对齐。
根据权利要求2所述的情感识别方法，其特征在于，所述将所述多模态语义特征序列输入预训练的情感识别神经网络的步骤，包括：

分别获取所述视频语义特征序列、所述音频语义特征序列和/或所述文本语义时序序列每一时刻的所述视频语义特征数据、所述音频语义特征数据和/或所述文本语义特征数据；

将同一时刻的所述视频语义特征数据、所述音频语义特征数据和/或所述文本语义特征数据串联成语义特征单元。
根据权利要求3所述的情感识别方法，其特征在于，所述将所述多模态语义特征序列输入预训练的情感识别神经网络，获取待识别数据组的包括的情感的步骤，包括：

分别将每一时刻的所述语义特征单元输入预训练的单元识别神经网络，将所述单元识别神经网络的输出结果作为每一时刻的情绪识别结果；

将所述每一时刻的情绪识别结果按照时间排序，生成情绪识别序列；

将所述情绪识别序列输入预训练的情绪识别神经网络，获取待识别多模态数据组的包括的情感。
根据权利要求4所述的情感识别方法，其特征在于，所述将所述情绪识别序列输入预训练的情绪识别神经网络的步骤，包括：

获取每一时刻的情绪识别结果的权重，将每一时刻的情绪识别结果与其对应的权重进行点乘运算，将所述点乘运算后的所述情绪识别序列输入预训练的情绪识别神经网络。
根据权利要求5所述的情感识别方法，其特征在于，

所述获取每一时刻的情绪识别结果的权重的步骤，包括：

对所述情绪识别序列进行注意力运算，获取每一时刻的情绪识别结果的权重。
根据权利要求4所述的情感识别方法，其特征在于，

所述单元识别神经网络包括卷积神经网络层和双向长短记忆神经网络层。
根据权利要求1所述的情感识别方法，其特征在于，

所述情感识别神经网络为全连接神经网络。
根据权利要求1所述的情感识别方法，其特征在于，所述将所述多模态语义特征序列输入预训练的情感识别神经网络的步骤之前，包括：

训练所述情感识别神经网络；

所述训练所述情感识别神经网络的步骤，包括：

准备多个训练多模态特征序列，标注每个所述训练多模态特征序列的目标情感；

定义训练的所述情感识别神经网络的结构、损失函数和终止条件；

将所述多个多模态特征序列及其对应的目标情感为输入所述情感识别神经网络进行训练。
一种智能装置，其特征在于，包括：

获取模块，获取待识别数据组，所述待识别数据组包括视频数据、音频数据和文本数据；

提取模块，用于提取所述视频数据的视频语义特征序列，提取所述音频数据的音频语义特征序列，以及提取所述文本数据中的文本语义特征序列；

对齐模块，用于将所述文本语义特征序列向所述音频数据的时间维度对齐，生成文本语义时序序列；

串联模块，用于将所述视频语义特征序列、所述音频语义特征序列以及所述文本语义时序序列按照所述时间维度串联，生成多模态语义特征序列；

情感模块，用于将所述多模态语义特征序列输入预训练的情感识别神经网络，将所述情感识别神经网络的输出结果作为所述待识别数据组对应的目标情感。
根据权利要求10所述的智能装置，其特征在于，所述对齐模块包括：

第一获取子模块，用于获取音频数据的至少一个发音音素，获取每个所述发音音素对应的文本语义特征数据；

对齐子模块，用于获取每个所述发音音素的时刻位置，将所述文本语义特征数据与对应的所述发音音素的所述时刻位置对齐。
根据权利要求10所述的智能装置，其特征在于，所述串联模块包括：

第二获取子模块，用于分别获取所述视频语义特征序列、所述音频语义特征序列以及所述文本语义时序序列每一时刻的所述视频语义特征数据、所述音频语义特征数据和所述文本语义特征数据；

串联子模块，用于将同一时刻的所述视频语义特征数据、所述音频语义特征数据和所述文本语义特征数据串联成语义特征单元。
根据权利要求12所述的智能装置，其特征在于，所述情感模块包括：

情绪识别子模块，用于分别将每一时刻的所述语义特征单元输入预训练的单元识别神经网络，获取每一时刻的情绪识别结果；

排列子模块，用于将所述每一时刻的情绪识别结果按照时间排序，生成情绪识别序列；

情感子模块，用于将所述情绪识别序列输入预训练的情绪识别神经网络，获取待识别数据组的包括的情感。
根据权利要求13所述的智能装置，其特征在于，所述情感子模块包括：

权重单元，用于获取每一时刻的情绪识别结果的权重，将每一时刻的情绪识别结果与其对应的权重进行点乘运算，将所述运算的所述情绪识别序列后输入预训练的情绪识别神经网络。
根据权利要求14所述的智能装置，其特征在于，

所述权重单元用于对所述情绪识别序列进行注意力运算，获取每一时刻的情绪识别结果的权重。
根据权利要求13所述的智能装置，其特征在于，

所述单元识别神经网络包括卷积神经网络层和双向长短记忆网络层。
根据权利要求13所述的智能装置，其特征在于，

所述情感识别神经网络为全连接神经网络。
根据权利要求10所述的智能装置，其特征在于，所述智能装置还包括训练模块，用于训练所述情感识别神经网络；

所述训练模块包括：

准备子模块，用于准备多个训练多模态特征序列，标注每个所述训练多模态特征序列的目标情感；

定义子模块，用于定义训练的所述情感识别神经网络的结构、损失函数和终止条件；

输入子模块，用于将所述多个多模态特征序列及其对应的目标情感为输入所述情感识别神经网络进行训练。
一种智能装置，其特征在于，包括：获取电路、处理器、存储器，所述处理器耦接所述存储器和所述获取电路，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序以实现如权利要求1-9任一项所述的方法。
一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序能够被处理器执行以实现如权利要求1-9任一项所述的方法。