WO2023185243A1

WO2023185243A1 - 基于注意力调制上下文空间信息的表情识别方法

Info

Publication number: WO2023185243A1
Application number: PCT/CN2023/074089
Authority: WO
Inventors: 朱春华; 李雪; 范亚君; 陶华伟; 崔名扬; 徐大同; 邹曙光; 韩伟良; 郭歆莹; 杨静; 傅洪亮
Original assignee: 河南工业大学
Priority date: 2022-03-29
Filing date: 2023-02-01
Publication date: 2023-10-05
Also published as: CN114758383A; LU503919B1

Abstract

本发明公开了一种基于注意力调制上下文空间信息的表情识别方法，具体步骤为：S1：获取待训练的自然场景人脸表情图像公共数据集，对人脸表情图像进行预处理；S2：构建用于自然场景人脸表情识别的注意力调制上下文空间信息网络模型；S3：利用预处理过的人脸表情图像对上下文空间信息(ACSI)网络模型进行训练；S4：重复步骤S3的模型训练，直至达到设定的训练次数，得到训练后的深度残差网络模型，利用训练后的深度残差网络模型进行人脸表情识别。上下文卷积和协调注意力的联合可以显著提高表情识别性能。在公开的表情数据集上，与同类的算法相比，ACSI具有更高的识别性能。

Description

基于注意力调制上下文空间信息的表情识别方法

技术领域

本发明涉及表情自动识别技术领域，涉及一种表情识别算法，具体涉及一种基于注意力调制上下文空间信息的表情识别方法。

背景技术

面部表情具有丰富的特征信息，人脸表情识别在人机交互、心理健康评估等方面得到了广泛的应用。传统的表情识别方法可以分为两类，一类是基于面部动作单元(Action Unit,AU)的表情识别方法，通常将人脸表情识别(Facial Expression Recognition,FER)任务转化为AU检测任务，AU是与表情相关的微小但可辨别的肌肉动作，然而使用该方法难以检测人脸的局部变化，而且光照或姿势变化等因素也会降低AU检测的性能；另一类是通过人工设计特征来表征人脸图像并训练表情分类器来实现表情识别。然而，在自然场景中，受不可控因素的影响，基于人工设计特征的人脸表情识别方法性能有限。近年来，基于深度学习的人脸表情识别成为研究的热点，相关工作已经从受控的实验室场景转向自然场景，并取得了一定的进展。卷积神经网络(Convolutional Neural Network,CNN)是表情识别的主流模型，CNN在表情识别任务中具有很强的泛化性。其后出现了各种改进方法。在这些方法中，一方面，为了解决表情特征不完备的问题，Zhao Z等人设计了一种对称结构来学习残差块中的多尺度特征，在粒度级别上保留人脸表情信息；Li Y等人提出了滑动块(Slide-Patch,SP)，在每个特征图上进行窗口滑动，提取面部表情的全局特征；Fan X等人提出了一种分层尺度卷积神经网络(Hierarchical Scale Net,HSNet)用于人脸表情识别，其中添加了膨胀起始块来增强核尺度信息提取。Liang X等人采用双分支网络进行表情识别，其中一个分支利用CNN捕捉局部边缘信息，另一个分支应用视觉Transformer来获得更好的全局表示；毛君宇等人提出使用大小不同的卷积核组成金字塔卷积单元提取表情特征，提高模型的非线性表达能力。然而，上述方法通过增加辅助网络层或采用分支结构的方式来改善所提取表情特征的完备性，另一方面，为了解决表情类间分类边界模糊的问题，Xie S等人提出了一个名为显著表情区域描述(Salient Expressional Region Descriptor,SERD)的模块，突出与表情相关的显著特征，提高特征表征能力；Gera D等人提出一种新的空间通道注意网络(Spatio-Channel Attention Net,SCAN)获得每个通道及每个空间位置的局部和全局注意，在空间和通道维度上处理表情特征，而不是直接进行特征降维压缩；Wang Z等人采用类似于U-Net的体系结构设计了一个注意力分支，用于突出细微的局部表情信息。宋玉琴等在提取多尺度特征之后使用CBAM注意力机制对表情特征进行筛选，提升有效表情特征的表达。上述方法通过增加网络辅助层或使用分支结构的方式来提取更细微的深层人脸表情特征，从而使模型性能得到提升。然而，这些方法忽略了人脸局部区域间潜在的上下文关系，而且复杂的网络结构不利于模型轻量化。

中国专利文献(申请号：202010537198.2)公开了一种基于深度残差网络的人脸表情识别方法，首先通过深度残差网络模型对放大的人脸表情图像进行多尺度特征提取，然后对提取的特征进行降维压缩处理，将处理后的特征用于表情分类。该方法存在三个缺陷：①在残差网络中使用具有固定感受野的标准卷积核，无法获取广泛的人脸表情信息；②通过降维压缩特征方案去除冗余信息的同时丢失了部分与表情相关的重要信息；③在实验室受控数据集上表现良好，但在非受控数据集上的识别性能有待验证。以上几点致使该方法所提取表情特征的完备性受限，特征的表征能力还有待提高。

中国专利文献(申请号：202110133950.1)公开了一种基于表征流嵌入网络的动态表情识别方法及系统，在卷积神经网络中嵌入可微分的表征流层从视频序列中提取动态表情特征，并使用空间注意力权重对输出特征进行加权。该方法有两个缺陷：①仅使用了空间注意力，没有从通道维度上进行特征优选；②涉及视频数据的采集和处理，工作步骤复杂，导致操作成本较高。

现有方法存在以下不足：1)在特征提取阶段，仅考虑人脸表情全局或局部特征，致使特征完备性受限；2)在特征处理阶段，对特征进行降维压缩，导致类间分类边界模糊。

发明内容

本发明提供一种基于注意力调制上下文空间信息的表情识别方法，提出了一种新的自然场景人脸表情识别模型，称为注意力调制上下文空间信息(Attention-modulated Contextual Spatial Information,ACSI)模型，利用上下文卷积替换残差网络中的标准卷积，构建上下文卷积残差网络CoResNet18和CoResNet50用于提取多尺度特征，在不增加网络复杂度的情况下获得更细微的表情信息；在CoResNet中的每个残差块内嵌入协调注意力以关注显著特征，增强输入特征图中与表情相关的有用信息和抑制冗余信息，有效降低深层卷积对人脸遮挡和姿势变化的敏感性。

为了解决上述技术问题，本发明采用的技术方案是：该基于注意力调制上下文空间信息的表情识别方法，具体包括以下步骤：

S1：获取待训练的自然场景人脸表情图像公共数据集，对人脸表情图像进行预处理；

S2：构建用于自然场景人脸表情识别的注意力调制上下文空间信息网络模型；

S3：利用预处理过的人脸表情图像对上下文空间信息(ACSI)网络模型进行训练；

S4：重复步骤S3的模型训练，直至达到设定的训练次数，得到训练后的深度残差网络模型，利用训练后的深度残差网络模型进行人脸表情识别。

采用上述技术方案，构建了基于注意力调制上下文空间信息的表情识别模型该模型，首先使用具有较低膨胀率的卷积核捕获局部上下文信息，其次使用具有较高膨胀率的卷积核合并全局上下文信息，提取人脸的辨别性局部特征和相关性全局特征，保证表情特征信息的互补性，最后使用协调注意力机制为提取的特征分配注意力权重，增大表情类间特征差异，强化特征表征能力，在AffectNet-7和RAF_DB数据集上进行实验，验证了ACSI模型的有效性，且与同类模型相比，所提模型具有更好的识别性能。

作为本发明的优选技术方案，所述步骤S2具体包括以下步骤：

S21：利用上下文卷积块替换残差块的中间卷积层，形成上下文卷积残差模块构建上下文卷积残差网络；

S22：使用协调注意力(CoordinateAttention,CA)构建协调注意力模块对CoResNet提取的多尺度特征分配注意力权重以强化特征表征能力。

采用上述技术方案，首先，利用上下文卷积替换卷积残差块中的标准卷积，构建上下文卷积残差网络(CoResNet)作为特征提取部分，以不同膨胀率大小的卷积核捕获局部和合并全局上下文信息；其次，将协调注意力模块嵌入CoResNet作为特征处理部分，为所提取特征分配注意权重，突出显著特征，增大表情类间特征差异，最终构成ACSI模型用于人脸表情识别。

作为本发明的优选技术方案，所述步骤S21具体为：

S211：上下文卷积块接收输入特征图Mⁱⁿ，其在不同层级L＝{1,2,3,...,n}应用具有不同膨胀率的卷积核D＝{d₁,d₂,d₃,...,d_n}，即levelⁱ上的卷积核具有膨胀率d_i,

S212：在不同上下文卷积的级别level上，上下文卷积均输出多个特征图对于所有i∈L，每个图具有宽度W^out和高度H^out；

S213：保持残差结构将层间的相关性结合起来，得到上下文卷积残差模块；

S214：根据特征图的尺寸调整每层中上下文卷积块的级别(level)，从而构建上下文卷积残差网络。所述步骤S2中构建的上下文卷积残差网络(CoResNet)包括CoResNet18和CoResNet50；在CoResNet18中，每个上下文残差模块由一个上下文卷积残差模块和一个构成1*1标准卷积层构成；在CoResNet50中，每个上下文残差模块由一个上下文卷积残差模块和两个1*1标准卷积层构成；上下文卷积残差模块用于多尺度特征提取，1*1标准卷积层用于通道变换；根据输入特征图的尺寸，在每个上下文残差模块使用不同级别的上下文卷积块。在第一个上下文卷积残差模块使用级别为4(level＝4)的上下文卷积块，第一个上下文卷积残差模块中level＝3，第三个上下文卷积残差模块中level＝2，最后一个上下文卷积残差模块中level＝1。这里，当level＝n时，上下文卷积块中有膨胀率大小di＝i,i＝1,…,n-1,n的卷积核。

作为本发明的优选技术方案，所述步骤S21中上下文卷积的可学习参数和浮点运算的数量采用公式(1)和(2)进行计算；
params＝Mⁱⁿ·K^w·K^h·M^out(1)；
FLOPs＝Mⁱⁿ·K^h·K^w·M^out·W^out·H^out(2)；

其中，Mⁱⁿ和M^out表示输入和输出特征映射的数量，K^w和K^h表示卷积核的宽度和高度，最后，W^out和H^out表示输出特征映射的宽度和高度。

作为本发明的优选技术方案，所述步骤S22具体为：

S221：将CoResNet提取的特征记为X，首先使用尺寸(H,1)和(1,W)的平均池化核沿着水平坐标方向和竖直坐标方向对每个通道进行编码，高度为h的第c个通道的编码输出由公式(3)计算：

宽度为w的第c个通道的编码输出由公式(4)计算：

S222：将步骤S221中的两个变换沿着两个空间方向进行特征聚合，返回一对方向感知注意力图；

S223：将所述步骤S222中生成的一对方向感知注意力图连接起来，将其送入一个1×1的卷积变换函数F中；
f＝δ(F([y^h,y^w]))(5)；

其中，[，]表示沿着空间维度的拼接操作，δ为非线性的sigmoid激活函数，f∈R^C/r×(H+W)为水平方向和垂直方向对空间信息进行编码的中间特征映射；为了降低模型的复杂性，采用适当的减小率r来减少f的通道数；

S224：继续沿着空间维把f分解成两个单独的张量f^h∈R^C/r×H和f^w∈R^C/r×W，对其使用两个1×1卷积变换F_h和F_w将f^h和f^w分别变换为相同通道数的张量，采用公式(6)和(7)；
m^h＝δ(F_h(f^h))(6)；
m^w＝δ(F_w(f^w))(7)；

其中，δ为sigmoid函数，输出的m^h和m^w作为注意力权值，最后协调注意力模块的输出Z，由公式(8)所示：

其中z_c(i,j)为输出，x_c(i,j)为输入，和为注意力权值。

采用上述技术方案，是为了关注显著特征和增强表情类间特征差异，从而采用协调注意力机制，在上下文卷积残差网络中嵌入协调注意力模块(CA)进行特征处理，以实现对输入特征图中表情相关信息的增强和冗余信息的抑制。在网络中嵌入协调注意力，可以沿着一个空间方向捕获输入特征间的远程依赖性，并在另一个空间方向上保留表情相关人脸区域的位置信息，然后将得到的特征图编码成一对方向感知和位置敏感的注意力图，将其应用于输入特征图以增强细微的表情信息；在每个上下文卷积块和CoResNet后添加CA模块，筛选关键尺度特征和强调显著人脸区域以增强特征表征能力，从而提高识别性能。

作为本发明的优选技术方案，所述步骤S1具体为：首先将输入图像尺寸调整为256×256，然后对其进行上下左右以及中心的裁剪，获得五张224×224的人脸图像，它们拥有相同的表情标签，再以0.5的概率对其进行随机水平翻转。

作为本发明的优选技术方案，所述步骤S3的具体步骤为：

S31：通过上下文卷积残差网络(CoResNet)对输入的人脸表情图像进行多尺度特征提取和上下文空间信息整合；

S32：在每个上下文卷积残差模块中嵌入注意力模块以关注显著尺度特征，对CoResNet输出特征使用协调注意力对提取的特征进行注意力加权，分别在两个空间方向上捕捉到表情信息的相关性和保留精确的人脸关键区域信息；

S33：将注意力加权后的特征进行下采样操作，对下采样后的特征进行分类处理。

作为本发明的优选技术方案，所述步骤S3中的上下文空间信息网络模型(ACSI)包括依次相连的卷积层、bn层、relu层、Maxpool层、四个上下文残差模块、协调注意力(CA)模块、全局平均池化层、fc层和Softmax分类层；所述卷积层将输入的人脸表情图像经过3*3标准卷积操作提取特征；bn层对提取的特征进行批量归一化防止梯度消失或爆炸；然后所述relu层对其进行非线性激活；最大池化层用于特征降维；四个上下文卷积模块用于从降维的特征中提取到多尺度的人脸特征；嵌入上下文卷积模块的协调注意力(CA) 模块用于关注不同尺度的特征；所述CoResNet输出特征层后的CA模块对输出特征进行注意力加权；全局平均池化层和fc层进行下采样操作，下采样后的人脸表情特征再经过Softmax分类器进行分类。

作为本发明的优选技术方案，所述Softmax分类器的输入的是一个任意实数的向量，输出的是一个向量，其中每个元素的取值在(0，1)之间，且其和为1，设有一个数组，其Softmax的计算公式为式(9)：

其中，x_i表示第i个元素，softmax(x_i)表示softmax的取值中为第i个元素的输出值，I为元素个数，即分类的类别个数；通过Softmax函数就可以将多分类的输出值转换为范围在[0,1]且其和为1的概率分布。

作为本发明的优选技术方案，所述步骤S3中在利用人脸表情数据集对注意力调制上下文空间信息网络模型(ACSI)训练前，采用超过1000万数据的大型人脸数据集MS-CELEB-1M(包含近10万个受试者的1000万张人脸图像)作为训练集，预先训练了ACSI，然后分别将人脸表情数据集AffectNet-7和RAF_DB输入预训练后的ACSI模型中，经过前向传播得到输出值(预测类别概率)，根据输出值采用交叉熵损失函数计算ACSI模型的损失值；交叉熵损失函数计算公式为式(10)所示：

其中，p(x)是指真实的类别概率，q(x)是模型的预测类别概率；

所述步骤S4根据式(10)计算得到的ACSI模型的损失值进行反向传播更新网络权值，重复训练，直至达到设定的训练次数时结束训练，得到训练好的注意力调制上下文空间信息网络模型ACSI模型。

与现有技术相比，本发明基于注意力调制上下文空间信息的表情识别方法具有的有益效果：

(1)利用具有不同膨胀率大小的卷积核组成的上下文卷积块替换残差网络中的部分卷积层，在多个网络层上访问人脸图像的上下文空间信息，提取更鲁棒的多尺度表情特征，同时保持与同等大小的标准卷积层相似的参数量和计算成本；

(2)使用了一种新的注意力机制，即协调注意力，它可以沿一个空间方向捕获辨别性局部特征间的依赖关系，同时沿另一个空间方向保留关键人脸区域的精确位置信息，从而以降低深层网络对遮挡和姿势变化的敏感性，强化特征表征能力；

(3)在两个大型自然环境人脸表情图像数据集上验证了所构建的模型在非受控环境下进行人脸表情识别的有效性和可靠性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明基于注意力调制上下文空间信息的表情识别方法的流程图；

图2是本发明基于注意力调制上下文空间信息的表情识别方法中的注意力协调上下文空间信息网络(ACSI)模型框图；

图3是本发明基于注意力调制上下文空间信息的表情识别方法中的上下文卷积块示意图；

图4是本发明基于注意力调制上下文空间信息的表情识别方法中的协调注意力模块结构示意图；

图5是基线方法和ACSI50模型在AffectNet-7数据集上提取特征的t-SNE可视化结果；其中(a)是基线方法在AffectNet-7数据集上提取特征的t-SNE可视化示意图；(b)是ACSI50模型在AffectNet-7数据集上提取特征的t-SNE可视化示意图；

图6是本发明基于注意力调制上下文空间信息的表情识别方法中的基线方法和ACSI50模型在RAF-DB上提取特征的t-SNE可视化结果；其中(a)是基线方法在在RAF-DB上提取特征的t-SNE可视化示意图；(b)是ACSI50模型在在RAF-DB上提取特征的t-SNE可视化结果示意图；

图7是本发明基于注意力调制上下文空间信息的表情识别方法中的RAF_DB数据集中示例表情图像上的注意力可视化结果示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：如图1所示，该基于注意力调制上下文空间信息的表情识别方法，具体包括以下步骤：

所述步骤S1具体为：首先将输入图像尺寸调整为256×256，然后对其进行上下左右以及中心的裁剪，获得五张224×224的人脸图像，它们拥有相同的表情标签，再以0.5的概率对其进行随机水平翻转；

S2：构建用于自然场景人脸表情识别的注意力调制上下文空间信息网络模型；首先，利用上下文卷积替换卷积残差块中的标准卷积，构建上下文卷积卷积残差网络(CoResNet)作为特征提取部分，以不同膨胀率大小的卷积核捕获局部和合并全局上下文信息；其次，将协调注意力模块嵌入CoResNet作为特征处理部分，为所提取特征分配注意权重，突出显著特征，增大表情类间特征差异，最终构成ACSI模型用于人脸表情识别；

所述步骤S2具体包括以下步骤：

S21：利用上下文卷积块替换残差块的中间卷积层，形成上下文卷积残差模块构建上下文卷积残差网络；在深度人脸表情识别任务中，多尺度特征非常重要，它在描述全局语义信息的同时能够捕获更丰富的局部细节信息，上下文卷积块包含不同膨胀率的卷积核，可通过不同大小的感受野提取多尺度特征；在CNN中，标准卷积仅使用具有固定感受野的卷积核，其卷积核大小通常为，因为增加卷积核大小会带来参数量和计算时间的增加；标准卷积的可学习参数(权重)和浮点运算的数量可用公式(1)和(2)进行计算；和标准卷积层一样，上下文卷积块中的所有卷积核都是独立的，允许并行执行，与标准卷积层不同的是，相同大小的下上文卷积在保持相似数量的参数和计算成本的同时具备了整合上下文信息的能力；所以，上下文卷积块能够作为标准卷积层的直接替代来更好地完成特征提取；

如图2所示，所述步骤S21具体为：

S211：上下文卷积块接收输入特征图Mⁱⁿ，其在不同层级L＝{1,2,3,...,n}应用具有不同膨胀率的卷积核D＝{d₁,d₂,d₃,...,d_n}，即levelⁱ上的卷积核具有膨胀率d_i,从level¹到levelⁿ膨胀率依次增大，这样的操作可以提取越来越广泛的上下文信息，其中，具有较低膨胀率的卷积核负责从输入特征图中捕获有关人脸局部细节的信息，而具有较高膨胀率的卷积核负责合并全局上下文信息，从而帮助整个表情识别过程；

S214：根据特征图的尺寸调整每层中上下文卷积块的级别(level)，从而构建上下文卷积残差网络；所述步骤S2中构建的上下文卷积残差网络(CoResNet)包括CoResNet18和CoResNet50；在CoResNet18中，每个上下文残差模块由一个上下文卷积残差模块和一个构成1*1标准卷积层构成；在CoResNet50中，每个上下文残差模块由一个上下文卷积残差模块和两个1*1标准卷积层构成；上下文卷积残差模块用于多尺度特征提取，1*1标准卷积层用于通道变换；根据输入特征图的尺寸，在每个上下文残差模块使用不同级别的上下文卷积块；上下文卷积块的示意图如图3所示，在第一个上下文卷积残差模块使用级别为4(level＝4)的上下文卷积块，第一个上下文卷积残差模块中level＝3，第三个上下文卷积残差模块中level＝2，最后一个上下文卷积残差模块中level＝1；这里，当level＝n时，上下文卷积块中有膨胀率大小di＝i,i＝1,…,n-1,n的卷积核；与以往网络级联的工作不同，该技术方案，直接将上下文卷积集成到广泛使用的残差网络中，分别对ResNet18和ResNet50中的残差块进行改进，得到相应的CoResNet18和CoResNet50；CoResNet主要由4个网络层组成，每层中有不同级别的上下文卷积残差块，因为特征图的大小会随着网络层离输入越远而减小，所以本文根据特征图的尺寸调整每层中上下文卷积块的级别，在第一层中使用CoConv4，即level＝4的上下文卷积块，第二层中为CoConv3，第三层为CoConv2，而由于输入最后一层的特征图分辨率已经降低到了7×7，此时使用上下文卷积不再合理，所以只使用一个标准卷积，同样记为CoConv1；不同级别CoConv的卷积参数情况如表1所示。

表1上下文卷积残差块的卷积参数情况

所述步骤S21中上下文卷积的可学习参数和浮点运算的数量采用公式(1)和(2)进行计算；
params＝Mⁱⁿ·K^w·K^h·M^out(1)；
FLOPs＝Mⁱⁿ·K^h·K^w·M^out·W^out·H^out(2)；

其中，Mⁱⁿ和M^out表示输入和输出特征映射的数量，K^w和K^h表示卷积核的宽度和高度，最后，W^out和H^out表示输出特征映射的宽度和高度；

S22：使用协调注意力(CoordinateAttention,CA)构建协调注意力模块(其结构如图4所示)对CoResNet提取的多尺度特征分配注意力权重以强化特征表征能力；

所述步骤S22具体为：

宽度为w的第c个通道的编码输出由公式(4)计算：

其中，[_，]表示沿着空间维度的拼接操作，δ为非线性的sigmoid激活函数，f∈R^C/r×(H+W)为水平方向和垂直方向对空间信息进行编码的中间特征映射；为了降低模型的复杂性，采用适当的减小率r来减少f的通道数；

其中z_c(i,j)为输出，x_c(i,j)为输入，和为注意力权值；

为了关注显著特征和增强表情类间特征差异，从而采用协调注意力机制，在上下文卷积残差网络中嵌入协调注意力模块(CA)进行特征处理，以实现对输入特征图中表情相关信息的增强和冗余信息的抑制。如图在网络中嵌入协调注意力，可以沿着一个空间方向捕获输入特征间的远程依赖性，并在另一个空间方向上保留表情相关人脸区域的位置信息，然后将得到的特征图编码成一对方向感知和位置敏感的注意力图，将其应用于输入特征图以增强细微的表情信息；在每个上下文卷积块和CoResNet后添加CA模块，筛选关键尺度特征和强调显著人脸区域以增强特征表征能力，从而提高识别性能。

S3：利用预处理过的人脸表情图像对上下文空间信息(ACSI)网络模型进行训练；所述步骤S3中的上下文空间信息网络模型(ACSI)包括依次相连的卷积层、bn层、relu层、Maxpool层、四个上下文残差模块、协调注意力(CA)模块、全局平均池化层、fc层和Softmax分类层；所述卷积层将输入的人脸表情图像经过3*3标准卷积操作提取特征；bn层对提取的特征进行批量归一化防止梯度消失或爆炸；然后所述relu层对其进行非线性激活；最大池化层用于特征降维；四个上下文卷积模块用于从降维的特征中提取到多尺度的人脸特征；嵌入上下文卷积模块的协调注意力(CA)模块用于关注不同尺度的特征；所述CoResNet输出特征层后的CA模块对输出特征进行注意力加权；全局平均池化层和fc层进行下采样操作，下采样后的人脸表情特征再经过Softmax分类器进行分类；

所述步骤S3的具体步骤为：

S33：将注意力加权后的特征进行下采样操作，对下采样后的特征采用Softmax分类器进行分类处理；

所述Softmax分类器的输入的是一个任意实数的向量，输出的是一个向量，其中每个元素的取值在(0，1)之间，且其和为1，设有一个数组，其Softmax的计算公式为式(9)：

其中，x_i表示第i个元素，softmax(x_i)表示softmax的取值中为第i个元素的输出值，I为元素个数，即分类的类别个数；通过Softmax函数就可以将多分类的输出值转换为范围在[0,1]且其和为1的概率分布；

所述步骤S3中在利用人脸表情数据集对注意力调制上下文空间信息网络模型(ACSI)训练前，采用超过1000万数据的大型人脸数据集MS-CELEB-1M(包含近10万个受试者的1000万张人脸图像)作为训练集，预先训练了ACSI，然后分别将人脸表情数据集AffectNet-7和RAF_DB输入预训练后的ACSI模型中，经过前向传播得到输出值(预测类别概率)，根据输出值采用交叉熵损失函数计算ASCP模型的损失值；交叉熵损失函数计算公式为式(10)所示：

S4：重复步骤S3的模型训练，直至达到设定的训练次数，得到训练后的深度残差网络模型，利用训练后的深度残差网络模型进行人脸表情识别；所述步骤S4根据式(10)计算得到的ACSI模型的损失值进行反向传播更新网络权值，重复训练，直至达到设定的训练次数时结束训练，得到训练好的注意力调制上下文空间信息网络模型ACSI模型。

具体应用实施例：采用上述技术方案，为了验证本文所提ASCP模型的有效性，在两个公共面部表情数据库AffectNet和RAF-DB进行实验，这两个数据库都提供了自然场景下的人脸图像。其中，AffectNet数据库是人脸情感计算研究领域中最大的数据库之一，大约有44万张人脸图像，包含AffectNet-7和AffectNet-8(增加了“蔑视”类别)；RAF-DB数据库包括7种基本面部表情和12种复合面部表情，总共大约30000张人脸图像。如表2所示，本文实验使用AffectNet-7和RAF-DB数据库中的7类基本面部表情(快乐、惊讶、悲伤、愤怒、厌恶、恐惧和中性)的人脸图像作为训练集，由于测试集不可用，所以在相应的验证集上进行了测试，以评估所提出的模型性能。

步骤S1中在图像预处理阶段，首先将输入图像尺寸调整为256×256，然后对其进行上下左右以及中心的裁剪，获得五张224×224的人脸图像，它们拥有相同的表情标签，再以0.5的概率对其进行随机水平翻转；模型使用pytorch实现，在NVIDIA GeForce GTX 1650 GPU上进行模型训练，训练过程中采用SGD算法进行优化，设置动量为0.9，初始学习率为0.01，每迭代20次将学习率下降为原来的0.1，总迭代次数为60，批处理大小为16。

表2实验数据集的详细信息，包括表情类别、训练集和测试集数量

采用该基于注意力调制上下文空间信息的表情识别方法在AffectNet-7和RAF-DB验证集上的实验结果如表3所示，其中CoResNet18和CoResNet50(本文的基线模型)为上下文卷积残差网络，而CoResNet18_CA_a和CoResNet50_CA_a分别是在CoResNet18和CoResNet50的特征输出层后嵌入协调注意力模块；CoResNet18_CA_b和CoResNet50_CA_b是在相应CoResNet的每个上下文卷积残差块中嵌入协调注意力模块；

表3 ACSI模型在AffectNet-7和RAF-DB验证集上的识别准确率

从表3可以看出，在AffectNet-7验证集上，ACSI18的表情识别准确率相比于CoResNet18增加了1.70％，相比于CoResNet18_CA_a和CoResNet18_CA_b分别增加了1.36％和1.30％。ACSI50的表情识别准确率相比CoResNet50增加了2.03％，相比于CoResNet50_CA_a和CoResNet50_CA_b分别增加了0.80％和0.25％。在RAF_DB验证集上，ACSI18的表情识别准确率相比于CoResNet18增加了1.89％，相比于CoResNet18_CA_a和CoResNet18_CA_b分别增加了1.23％和1.14％；ACSI50的表情识别准确率相比CoResNet50增加了1.79％，相比于CoResNet50_CA_a和CoResNet50_CA_b分别增加了0.35％和0.06％；以上实验结果表明了本文算法的有效性和泛化性。

为进一步说明该基于注意力调制上下文空间信息的表情识别方法中所构建的上下文空间信息(ACSI)网络模型的有效性，将构建的上下文空间信息(ACSI)网络模型与近年来其它同类模型在数据集AffectNet-7和RAF-DB上进行了性能对比，如表4、表5所示；从表4可以看出，本文所提出的ACSI50 在AffectNet-7上相比于FMPN提高了1.61％，相比于OADN提高了0.97％。相比于Ensemble CNN提高了0.75％，相比于DDA-Loss方法提高了0.52％；从表5可以看出，本文所提出的ACSI50在RAF_DB上相比于FSN提高了2.5％，相比于CNN提高了0.91％，相比于DLP-CNN提高了0.76％，相比于pACNN提高了0.33％。结果表明本文所提模型在AffectNet-7和RAF-DB上的识别准确率均有一定的提升，相比同类模型具有一定的竞争性。由于这些模型没能很好地解决特征完备性受限或类间分类边界模糊的问题，所以识别性能较低，本文所提模型使用上下文卷积能够提取多尺度的人脸表情特征，在网络中嵌入协调注意力模块能够使网络关注更具判别性的表情特征，通过残差结构能够将层间的相关性更好地结合起来，最终使识别性能得以提高。

表4 AffectNet-7上模型的性能比较

表5 RAF-DB上模型的性能比较

为了证明ACSI模型提取表情特征的类间差异性，本节对ACSI50模型在AffectNet-7和RAF-DB验证集上提取的特征进行t-SNE可视化，结果如图5和图6所示。图2-6中均显示了7种基本人脸表情分类，包括愤怒(Anger)、厌恶(Digust)、恐惧(Fear)、快乐(Happiness)、悲伤(Sadness)、惊讶(Surprise)和中立(Neutral)，从图中可以看到，相比基线模型，由ACSI50模型所提取的特征具有类间相对分散，类内相对聚集的分布特点。

为了进一步研究模型中注意力模块的作用，使用类激活图(CAM,Class Activation Map)方法来可视化本文注意力所产生的注意力图；类激活图方法用于可视化不同表情的激活部分，将输出层的权重映射到卷积特征图，以识别人脸图像不同区域的重要性，具体为通过CAM为所提网络ACSI可视化面部激活区域，得到注意力图，为了在原始图像上显示注意力区域，一般是将注意力图调整为与输入图像相同的大小，并通过COLORMAP_JET颜色映射将注意力图可视化到原始图像。该技术方案在使用时具体步骤为：首先将可视化注意力图调整为与输入图像相同的大小，并通过颜色映射将注意力图可视化到原始图像；图7显示了RAF_DB中不同表情图像的注意图，该图中有7列，每列显示七种表情中的一种，自左向右的分别是愤怒(Anger)、厌恶(Digust)、恐惧(Fear)、快乐(Happiness)、悲伤(Sadness)、惊讶(Surprise)和中立(Neutral)，第1行显示原始对齐的面部图像，第2行为ACSI50模型对相应表情图像的注意力可视化，从图7中可以明显看到，在存在遮挡和姿势变化的情况下，本文所用注意力模块使网络聚焦于更具辨别力的人脸区域；结果表明，上下文卷积和协调注意力的联合可以显著提高表情识别性能。在公开的表情数据集上，与同类的算法相比，ACSI具有更高的识别性能。

以上所述仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种基于注意力调制上下文空间信息的表情识别方法，其特征在于，具体包括以下步骤：

S1：获取待训练的自然场景人脸表情图像公共数据集，对人脸表情图像进行预处理；

S2：构建用于自然场景人脸表情识别的注意力调制上下文空间信息网络模型ACSI；

S3：利用预处理过的人脸表情图像对上下文空间信息网络模型ACSI进行训练；

S4：重复步骤S3的模型训练，直至达到设定的训练次数，得到训练后的深度残差网络模型，利用训练后的深度残差网络模型进行人脸表情识别。
根据权利要求1所述的基于注意力调制上下文空间信息的表情识别方法，其特征在于，所述步骤S2具体包括以下步骤：

S21：利用上下文卷积块替换残差块的中间卷积层，形成上下文卷积残差模块构建上下文卷积残差网络；

S22：使用协调注意力构建协调注意力CA模块对所述步骤S21中构建的上下文卷积残差网络CoResNet提取的多尺度特征分配注意力权重以强化特征表征能力。
根据权利要求2所述的基于注意力调制上下文空间信息的表情识别方法，其特征在于，所述步骤S21具体为：

S211：上下文卷积块接收输入特征图Mⁱⁿ，其在不同层级L＝{1,2,3,...,n}应用具有不同膨胀率的卷积核D＝{d₁,d₂,d₃,...,d_n}，即levelⁱ上的卷积核具有膨胀率

S212：在不同上下文卷积的级别level上，上下文卷积均输出多个特征图对于所有i∈L，每个图具有宽度W^out和高度H^out；

S213：保持残差结构将层间的相关性结合起来，得到上下文卷积残差模块；

S214：根据特征图的尺寸调整每层中上下文卷积块的级别，从而构建上下文卷积残差网络。
根据权利要求3所述的基于注意力调制上下文空间信息的表情识别方法，其特征在于，所述步骤S21中上下文卷积的可学习参数和浮点运算的数量采用公式(1)和(2)进行计算；

params＝Mⁱⁿ·K^w·K^h·M^out(1)；

FLOPs＝Mⁱⁿ·K^h·K^w·M^out·W^out·H^out(2)；

其中，Mⁱⁿ和M^out表示输入和输出特征映射的数量，K^w和K^h表示卷积核的宽度和高度，最后，W^out和H^out表示输出特征映射的宽度和高度。
根据权利要求2所述的基于注意力调制上下文空间信息的表情识别方法，其特征在于，所述步骤S22具体为：

S221：将CoResNet提取的特征记为X，首先使用尺寸(H,1)和(1,W)的平均池化核沿着水平坐标方向和竖直坐标方向对每个通道进行编码，高度为h的第c个通道的编码输出由公式(3)计算：

该公式(3)计算水平坐标方向上高度为h时的第c个通道的编码输出，沿宽度i，对输入特征进行求和运算；宽度为w的第c个通道的编码输出由公式(4)计算：

该公式(4)计算竖直坐标方向上高度为w时的第c个通道的编码输出，沿高度j，0≤j≤H对输入特征进行求和运算；

S222：将步骤S221中的两个变换沿着两个空间方向进行特征聚合，返回一对方向感知注意力图；

S223：将所述步骤S222中生成的一对方向感知注意力图连接起来，将其送入一个1×1的卷积变换函数F中；

f＝δ(F([y^h,y^w]))(5)；

其中，[，]表示沿着空间维度的拼接操作，δ为非线性的sigmoid激活函数，f∈R^C/r×(H+W)为水平方向和垂直方向对空间信息进行编码的中间特征映射

S224：继续沿着空间维把f分解成两个单独的张量f^h∈R^C/r×H和f^w∈R^C/r×W对其使用两个1×1卷积变换F_h和F_w将f^h和f^w分别变换为相同通道数的张量，采用公式(6)和(7)；

m^h＝δ(F_h(f^h))(6)；

m^w＝δ(F_w(f^w))(7)；

其中，δ为sigmoid函数，输出的m^h和m^w作为注意力权值，最后协调注意力模块的输出Z，由公式(8)所示：

其中z_c(i,j)为输出，x_c(i,j)为输入，和为注意力权值。
根据权利要求2所述的基于注意力调制上下文空间信息的表情识别方法，其特征在于，所述步骤S1具体为：首先将输入图像尺寸调整为256×256，然后对其进行上下左右以及中心的裁剪，获得五张224×224的人脸图像，它们拥有相同的表情标签，再以0.5的概率对其进行水平翻转。
根据权利要求2所述的基于注意力调制上下文空间信息的表情识别方法，其特征在于，所述步骤S3的具体步骤为：

S31：通过上下文卷积残差网络CoResNet对输入的人脸表情图像进行多尺度特征提取和上下文空间信息整合；

S32：在每个上下文卷积残差模块中嵌入注意力模块以关注显著尺度特征，对CoResNet输出特征使用协调注意力对提取的特征进行注意力加权，分别在两个空间方向上捕捉到表情信息的相关性和保留人脸关键区域信息；

S33：将注意力加权后的特征进行下采样操作，对下采样后的特征进行分类处理。
根据权利要求7所述的基于注意力调制上下文空间信息的表情识别方法，其特征在于，所述步骤S3中的上下文空间信息网络模型ACSI包括依次相连的卷积层、bn层、relu层、Maxpool层、四个上下文残差模块、协调注意力CA模块、全局平均池化层、fc层和Softmax分类层；所述卷积层将输入的人脸表情图像经过3*3标准卷积操作提取特征；bn层对提取的特征进行批量归一化防止梯度消失或爆炸；然后所述relu层对其进行非线性激活；最大池化层用于特征降维；四个上下文卷积模块用于从降维的特征中提取到多尺度的人脸特征；嵌入上下文卷积模块的协调注意力CA模块用于关注不同尺度的特征；所述CoResNet输出特征层后的CA模块对输出特征进行注意力加权；全局平均池化层和fc层进行下采样操作，下采样后的人脸表情特征再经过Softmax分类器进行分类。
根据权利要求8所述的基于注意力调制上下文空间信息的表情识别方法，其特征在于，所述Softmax分类器的输入的是一个任意实数的向量，输出的是一个向量，其中每个元素的取值在(0，1)之间，且其和为1，设有一个数组，其Softmax的计算公式为式(9)：

其中，x_i表示第i个元素，softmax(x_i)表示softmax的取值中为第i个元素的输出值，I为元素个数，即分类的类别个数；通过Softmax函数就可以将多分类的输出值转换为范围在[0,1]且其和为1的概率分布。
根据权利要求8所述的基于注意力调制上下文空间信息的表情识别方法，其特征在于，所述步骤S3中在利用人脸表情数据集对注意力调制上下文空间信息网络模型ACSI训练前，采用超过1000万数据的大型人脸数据集MS-CELEB-1M作为训练集，预先训练了ACSI，然后分别将人脸表情数据集AffectNet-7和RAF_DB输入预训练后的ACSI模型中，经过前向传播得到输出值，根据输出值采用交叉熵损失函数计算ACSI模型的损失值；交叉熵损失函数计算公式为式(10)所示：

其中，p(x)是指真实的类别概率，q(x)是模型的预测类别概率；

所述步骤S4根据式(10)计算得到的ACSI模型的损失值进行反向传播更新网络权值，重复训练，直至达到设定的训练次数时结束训练，得到训练好的注意力调制上下文空间信息网络模型ACSI模型。