WO2023065503A1

WO2023065503A1 - 一种面部表情的分类方法和电子设备

Info

Publication number: WO2023065503A1
Application number: PCT/CN2021/138099
Authority: WO
Inventors: 叶欣婷; 谢耀钦; 胡嘉尼; 梁晓坤; 秦文健
Original assignee: 中国科学院深圳先进技术研究院
Priority date: 2021-10-19
Filing date: 2021-12-14
Publication date: 2023-04-27
Also published as: CN114067389A

Abstract

图像处理领域，一种面部表情的分类方法，包括：获取目标图像，该目标图像包括目标对象的面部表情（S101）；将目标图像输入到表情分类模型中，得到分类结果，分类结果用于指示面部表情的情绪表达程度；表情分类模型包括：第一特征提取网络、第二特征提取网络和融合分类模块；通过第一特征提取网络对目标图像进行局部特征提取，得到面部表情所在区域的第一特征；通过第二特征提取网络对目标图像进行全局特征提取，得到第二特征；通过融合分类模块对第一特征和第二特征进行特征融合和分类，得到分类结果（S102）。上述方法能够提高面部表情的情绪特征的提取率，从而解决面部表情分类准确率低的问题。

Description

一种面部表情的分类方法和电子设备

技术领域

本申请涉及图像处理领域，尤其涉及一种面部表情的分类方法和电子设备。

背景技术

近年来，面部表情分类是图像处理领域的研究热点，例如，面部疼痛表情的分类是医学领域研究的热点之一。通常采用卷积神经网络对新生儿、重症患者以及失语症患者的面部疼痛表情进行疼痛程度分类。但是，现有卷积神经网络对面部疼痛表情进行疼痛特征提取的结果不理想，从而影响其根据该疼痛特征提取结果对面部疼痛表情进行疼痛程度分类的准确率。

因此，如何提高对面部表情分类的准确率是当前急需解决的问题。

发明内容

本申请提供了一种面部表情的分类方法和电子设备，能够解决面部表情分类准确率低的问题。

第一方面，提供了一种面部表情的分类方法，包括：获取目标图像，所述目标图像包括目标对象的面部表情；将所述目标图像输入到表情分类模型中，得到分类结果，所述分类结果用于指示所述面部表情的情绪表达程度；所述表情分类模型包括：第一特征提取网络、第二特征提取网络和融合分类模块；通过所述第一特征提取网络对所述目标图像进行局部特征提取，得到所述面部表情所在区域的第一特征；通过第二特征提取网络对所述目标图像进行全局特征提取，得到第二特征；通过所述融合分类模块对所述第一特征和所述第二特征进行特征融合和分类，得到所述分类结果。

上述方法可以由电子设备上的芯片执行。相比现有卷积神经网络对目标对象的面部表情仅进行局部特征提取的方法，本申请采用并联式的第一特征提取网络和第二特征提取网络形成的表情分类模型对目标对象的面部表情进行局部特征提取和全局特征提取，其中，第二特征提取网络对面部表情的情绪特征进行全局特征提取可以弥补第一特征提取网络在对面部表情的局部特征进行提取时遗漏的重要特征信息，从而提高了面部表情的情绪特征的提取率，进而提高了根据面部表情的特征提取结果进行情绪表达程度分类的准确率。

可选地，所述第一特征提取网络为VGG16，所述VGG16的输入层包括：局部注意力层，所述局部注意力层用于对所述目标图像中所述面部表情所在区域以外的区域进行信息衰减操作。

上述局部注意力层对目标图像中面部表情所在区域以外的区域进行不相关信息衰减操作，同时反向增强了目标图像中面部表情所在区域的重要相关信息，从而有利于提高表情分类模型根据面部表情的情绪特征提取结果进行分类的准确率。

可选地，所述VGG16的输入层包括依次连接的第一卷积层、第一批归一化层、第一激活层、所述局部注意力层和第一最大池化层；所述局部注意力层对所述目标图像中所述面部表情所在区域以外的区域进行信息衰减操作的方式为：所述局部注意力层接收到所述第一激活层的输出信息后，根据所述第一激活层的输出信息确定二维图像掩码，并将所述二维图像掩码和所述第一激活层的输出信息相乘，得到所述局部注意力层的输出信息；其中，所述局部注意力层的输出信息用于输入至连接在所述局部注意力层之后的网络层进行局部特征提取。

可选地，所述根据所述第一激活层的输出信息确定二维图像掩码，包括：对所述第一激活层的输出信息中每个通道的特征图进行平均激活值计算，得到N个平均激活值；根据所述N个平均激活值确定第一通道，所述第一通道为所述N个平均激活值中最大的平均激活值对应的通道；对所述第一通道中的每个像素进行掩码设置，其中，当所述第一通道中的第一像素大于或者等于所述最大的平均激活值时，将与所述第一像素值对应位置的掩码值设置为1；当所述第一通道中的第一像素小于所述最大的平均激活值时，将与所述第一像素值对应位置的掩码值设置为0；所述第一像素为所述第一通道中的任意一个像素，所述N为正整数。

可选地，所述第二特征提取网络为ResNet18。

可选地，所述融合分类模块包括正交模块和分类模块，所述正交模块用于利用预设的正交函数对所述面部表情所在区域的第一特征和所述第二特征进行正交操作，得到正交结果；所述分类模块用于利用预设的分类函数对所述正交结果进行特征汇聚以及分类，得到所述分类结果。

可选地，所述目标图像为疼痛表情图像。

第二方面，提供了一种面部表情的分类装置，包括用于执行第一方面中任一种方法的模块。

第三方面，提供了一种电子设备，包括用于执行第一方面中任一种方法的模块。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储了计算机程序，当所述计算机程序被处理器执行时，使得处理器执行第一方面中任一项所述的方法。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中面部表情的分类方法的实现步骤示意图；

图2为本发明实施例中表情分类模型的结构示意图；

图3为本发明实施例中残差网络的部分结构示意图；

图4为本发明实施例中表情分类模型对疼痛表情图像进行疼痛程度分类的结果示意图；

图5为本发明实施例中面部表情的分类方法的具体流程步骤示意图；

图6为本发明实施例中面部表情的分类装置结构示意图；

图7为本发明实施例中电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、像素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、像素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。因此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

近年来，面部表情分类是图像处理领域的研究热点，例如，在医学研究领域，通常采用卷积神经网络对新生儿、重症患者以及失语症患者的面部疼痛表情进行疼痛程度分类。但是，现有卷积神经网络在对面部疼痛表情进行疼痛特征提取时丢失了很多关键特征信息，从而导致面部疼痛表情的分类结果准确率很低。

本申请将采用双并联式的表情分类模型对人脸的面部表情进行分类，其中，第一特征提取网络用于提取表情图像中面部表情所在区域的第一特征，第二特征提取网络用于提取表情图像的全局特征，以弥补第一特征提取网络未提取到表情图像的其他特征信息，从而使得该双并联式的表情分类模型能够提高面部表情的情绪特征的提取率，进而解决面部表情分类准确率低的问题。

下面结合附图和具体实施例对本申请做进一步详细说明。

为了提高面部表情的情绪特征的提取率，从而解决面部表情分类准确率低的问题，本申请提出了一种面部表情的分类方法，如图1所示，该方法由电子设备执行，该方法包括：

S101，获取目标图像，该目标图像包括目标对象的面部表情。

示例性地，电子设备获取目标图像(即人脸的面部表情图像)，其中，目标对象包括新生儿、失语症患者、普通正常人；目标图像包括：高兴表情图像、恐惧表情图像、愤怒表情图像以及疼痛表情图像。本申请仅以疼痛表情图像的疼痛程度分类为例，来说明面部疼痛表情的疼痛程度分类方法，其他类型的表情图像的分类方式类似，在此不再赘述。

例如，电子设备可以通过UNBC-McMaster肩痛表达档案数据库(UNBC-McMaster Shoulder Pain Expression Archive Database，简称UNBC数据库)获取人脸的疼痛表情数据集。该数据集包含25个志愿者的肩痛视频数据，并且，该肩痛视频数据总共有200段视频序列数据；该200段视频序列数据总共包含48198帧疼痛表情图像。此外，该48198帧疼痛表情图像均按照PNG格式进行存储，并且，每帧疼痛表情图像的分辨率在352×240像素左右；实际应用中，可将每帧疼痛表情图像进行裁剪处理，以得到图像维度为3*200*200的目标数据(即尺寸大小为200*200且通道数为3的图像数据)。

上述现有疼痛表情数据集已经根据PSPI标准对每帧疼痛表情图像进行疼痛程度划分，并且，已按照疼痛程度的轻重程度划分为16个级别。上述疼痛程度越高，说明疼痛程度越大。但是，上述现有疼痛表情数据集的疼痛程度划分出现了不同疼痛级别数据量分布不均匀的情况。因此，在现有疼痛表情数据集的疼痛程度划基础上，重新对不同疼痛程度的疼痛表情数据进行聚类降维操作，比如，将现有疼痛程度为0等级、1等级、2等级和3等级的表情划分结果保留；将原疼痛程度为4级和5级的疼痛表情数据合并为一个新的级别，即4级；将原疼痛程度为6级及6级以上的疼痛表情数据合并为一个新的级别，即5级。最终将现有疼痛表情数据集的疼痛程度重新划分为6个等级。

由于重新划分后的不同疼痛程度中的疼痛表情图像的数量不同，有些疼痛程度对应的疼痛表情图像的数量远远大于其他疼痛程度的数据量，比如，0等级的疼痛表情图像的数量有31200帧；1等级的疼痛表情图像的数量有4000帧、2等级的疼痛表情图像的数量有3409帧；3等级的疼痛表情图像的数量有1989帧，4等级的疼痛表情图像的数量有3600帧，5等级的疼痛表情图像的数量有4100帧，显然，0等级的疼痛表情图像的数量出现了极大的情况，此时，实际应用中可以从0等级的疼痛表情图像中随机抽取1/10的数据，即0等级中3120(即31200除以10)帧的疼痛表情图像被用于实际应用中。当然，也可以从数量极大的疼痛程度(比如，0等级)的疼痛表情图像数据中随机抽取1/8或者1/11的数据用于实际应用中，本申请对随机抽取的比例不做任何限定，用户可以根据实际需求进行选择。

在实际应用中，由于重新划分后的同一疼痛程度中的疼痛表情图像数据时按照不同志愿者的顺序存放的，为了避免在数据抽取过程中，仅仅抽取到部分志愿者的疼痛表情图像，现将每个疼痛程度中不同志愿者的疼痛表情图像数据的存放方式随机打乱；然后，按照一定比例(比如，8：2的比例，也可以是其他比例，本申请对此不作任何限定)，将每个疼痛程度的疼痛表情图像数据划分为训练数据集和测试数据集。该训练数据集和测试数据集分别用于训练表情分类模型以及测试表情分类模型。

S102，将目标图像输入到表情分类模型中，得到分类结果；该分类结果用于指示面部表情的情绪表达程度；表情分类模型包括：第一特征提取网络、第二特征提取网络和融合分类模块；通过第一特征提取网络对目标图像进行局部特征提取，得到面部表情所在区域的第一特征；通过第二特征提取网络对目标图像进行全局特征提取，得到第二特征；通过融合分类模块对第一特征和第二特征进行特征融合和分类，得到分类结果。

示例性地，上述分类结果是指表情分类模型对输入的目标图像进行情绪程度分类的结果，该分类结果可以指示面部表情的情绪表达程度，其中，情绪包括：疼痛、愉悦、恐惧和愤怒；上述分类结果包括：疼痛程度，恐惧程度，愤怒程度和愉悦程度；比如，上述疼痛表情图像的疼痛程度可以划分为6级，即0级、1级、2级、3级、4级、5级；再比如，表情分类模型对输入的疼痛表情图像(即目标图像)进行疼痛特征提取并输出疼痛程度的分类结果；再比如，表情分类模型对输入的愤怒表情图像进行愤怒特征提取并输出愤怒程度的分类结果。比如，向表情分类模型中输入未知疼痛程度的疼痛表情图像，则表情分类模型输出该疼痛表情图像对应的疼痛程度为1级。再比如，向表情分类模型中输入未知恐惧程度的恐惧表情图像，则表情分类模型输出该恐惧表情图像对应的恐惧程度为2级。

示例性地，如图2所示，上述表情分类模型包括：第一特征提取网络202、第二特征提取网络203和融合分类模块204；电子设备通过第一特征提取网络202对目标图像中面部表情所在区域进行局部重要特征(即目标图像中人脸所在区域的情绪特征)提取，得到面部表情所在区域的第一特征；同时，通过第二特征提取网络203对目标图像进行全局特征的补充提取，得到第二特征；之后，通过融合分类模块204对面部表情所在区域的第一特征和第二特征进行特征融合和分类，得到分类结果。例如，疼痛表情图像201输入到第一特征提取网络202，该第一特征提取网络202对疼痛表情图像201中人脸的面部表情所在区域的重要特征信息进行提取(即局部特征提取过程)，得到人脸疼痛表情所在区域的第一特征；同时，将疼痛表情图像201输入到第二特征提取网络203中，该第二特征提取网络203对疼痛表情图像201进行人脸疼痛表情的全局特征信息提取(即全局特征提取过程)，得到第二特征；随后，通过融合分类模块204对人脸疼痛表情所在区域的第一特征和第二特征进行特征融合以及对特征融合结果进行疼痛程度分类，得到疼痛表情图像201对应的疼痛程度(即分类结果)。

示例性地，第一特征提取网络为VGG16，该VGG16的输入层包括：局部注意力层，局部注意力层用于对目标图像中面部表情所在区域以外的区域进行信息衰减操作。比如，局部注意力层对疼痛表情图像201中人脸疼痛表情所在区域以外的不相关信息进行衰减操作，可以将疼痛表情图像201中与人脸疼痛表情无关的非重要信息去除，从而反向增强了疼痛表情图像201(即目标图像)中人脸疼痛表情所在区域的重要相关信息。

示例性地，上述VGG16的输入层包括依次连接的第一卷积层、第一批归一化层、第一激活层、上述局部注意力层和第一最大池化层；该局部注意力层对目标图像中面部表情所在区域以外的区域进行信息衰减操作的方式为：局部注意力层接收到第一激活层的输出信息后，根据第一激活层的输出信息确定二维图像掩码，并将二维图像掩码和第一激活层的输出信息相乘，得到局部注意力层的输出信息；其中，局部注意力层的输出信息用于输入至连接在局部注意力层之后的网络层进行局部特征提取。上述第一卷积层的卷积核大小为3×3，第一批归一化层的核心大小为64，第一最大池化层的核心大小为2×2。

比如，向第一卷积层输入尺寸大小为200×200且通道数为3(即200×200×3)的疼痛表情图像201，当然也可以输入其他尺寸大小的疼痛表情图像201，用户可以根据实际情况选择，本申请对此不作限定；第一卷积层输出尺寸大小为200×200且通道数为64(即200×200×64)的第一卷积结果；第一批归一化层对200×200×64的第一卷积结果进行归一化操作，并输出200× 200×64的第一批归一化结果；第一激活层对200×200×64的第一批归一化结果进行归一化操作，并输出200×200×64的第一激活结果；局部注意力层接收到200×200×64的第一激活结果(即第一激活层的输出信息)后，并根据200×200×64的第一激活结果生成二维图像掩码，再将二维图像掩码和200×200×64的第一激活结果相乘，得到局部注意力层的输出信息，即局部注意力层利用二维图像掩码对200×200×64的第一激活结果中疼痛表情所在区域以外的区域进行衰减操作。局部注意力层的输出信息用于输入至连接在局部注意力层之后的网络层进行局部特征提取。第一最大池化层对局部注意力层的输出信息进行最大池化操作，并输出维度为100×100×64的特征图。

示例性地，根据第一激活层的输出信息确定二维图像掩码，包括：对第一激活层的输出信息中每个通道的特征图进行平均激活值计算，得到N个平均激活值；根据N个平均激活值确定第一通道，第一通道为所述N个平均激活值中最大的平均激活值对应的通道；对第一通道中的每个像素进行掩码设置，其中，当第一通道中的第一像素大于或者等于最大的平均激活值时，将与第一像素值对应位置的掩码值设置为1；当第一通道中的第一像素小于最大的平均激活值时，将与第一像素值对应位置的掩码值设置为0；第一像素为第一通道中的任意一个像素，N为正整数。

例如，局部注意力层对200×200×64的第一激活结果(即第一激活层的输出信息)中每个通道的特征图进行平均激活值计算，得到N＝64个平均激活值；局部注意力层从64个平均激活值中选取最大的平均激活值以及该最大的平均激活值对应的通道(即第一通道)；每个通道都有200×200个像素值；现以最大的平均激活值为0.6，第一像素为A或B或C或D为例，来说明掩码生成模块对第一通道中的每个像素进行掩码设置的过程；比如，第一通道中的A像素为0.71，B像素为0.52，C像素为0.64，D像素为0.42，由于第一通道中的A像素0.71(大于0.6)，因此，将与A像素对应位置的掩码值设置为1；第一通道中的B像素为0.52(小于0.6)，因此，将与B像素对应位置的掩码值设置为0；第一通道中的C像素为0.64(大于0.6)，因此，将与C像素对应位置的掩码值设置为1；第一通道中的D像素为0.42(小于0.6)，因此，将与D像素对应位置的掩码值设置为0；以此类推，将第一通道中的每个像素都按照该方式进行掩码设置，从而生成200×200的二维图像掩码；该200×200的二维图像掩码包括200×200个掩码值；该200×200的二维图像掩码作为后续局部注意力层根据该200×200的二维图像掩码对200×200×64的第一激活结果进行像素值衰减操作的参考模板(即参考依据)。

示例性地，局部注意力层根据200×200的二维图像掩码对200×200×64的第一激活结果进行像素值衰减操作，得到200×200×64的第一特征图。随机像素值衰减因子r通过随机取数机制在(0，1)之间设置具体取值。若作为参考依据的二维图像掩码中某一位置的当前掩码值为0时，则将200×200×64的第一激活结果中对应位置的像素值与r相乘(即对对应位置的像素值进行衰减操作)，得到衰减后的200×200×64的第一激活结果(即200×200×64的第二特征图)；若作为参考依据的二维图像掩码中某一位置的当前掩码值为1时，则200×200×64的第一激活结果中对应位置的像素值保持不变。具体地，局部注意力层根据二维图像掩码遍历200×200×64的第一激活结果中的每个像素值，即分别对64层中每一层(每层共有200×200个像素值)的每个像素值进行衰减操作(即对64层中每一层(每层共有200×200个像素值)的每个像素值进行非重要特征信息的衰减操作)，从而提取到64*200*200的人脸疼痛表情所在区域的重要特征信息。由此可见，局部注意力层根据200×200的二维图像掩码对200×200×64的第一激活结果进行像素值衰减操作，不仅能够减弱与疼痛特征相关度较低的特征信息，而且能够逆向增强与疼痛特征相关度较高的特征信息(即提取到人脸疼痛表情所在区域的重要特征信息)。

上述VGG16还包括：卷积处理模块，该卷积处理模块包括：两个卷积激活层和多个双卷积激活层，其中，两个卷积激活层中第一卷积激活层连接多个双卷积激活层中的第一双卷积激活层，而双卷积激活层中的最后一个双卷积激活层连接两个卷积激活层中第二卷积激活层。上述两个卷积激活层中每个卷积激活层包括依次连接的第二卷积层、第二批归一化层、第二ReLU激活层和第二最大池化层，其中，第二卷积层的卷积核大小为3×3，第二最大池化层的核心大小为2×2；多个双卷积激活层中每个双卷积激活层包括依次连接的第三卷积层、第三批归一化层、第三ReLU激活层、第四卷积层、第四批归一化层、第四ReLU激活层和第三最大池化层，其中，第三卷积层和第四卷积层的卷积核大小均为3×3，第三最大池化层的核心大小为2×2。

例如，第一卷积激活层对上述第一最大池化层输出的100×100×64的特征图依次经过第一卷积激活层中的第二卷积层、第一卷积激活层中的第二批归一化层(核心大小为128)、第一卷积激活层中的第二ReLU激活层和第一卷积激活层中的第二最大池化层卷积进行卷积处理，最终输出维度为50×50×128的特征图。

例如，卷积处理模块包括3个双卷积激活层，该3个双卷积激活层包括依次连接的第一双卷积激活层、第二双卷积激活层和第三双卷积激活层，其中，第一双卷积激活层中的第三卷积层对第二最大池化层输出的50×50×128的特征图进行卷积处理，得到50×50×256的特征图；第一双卷积激活层中的第三批归一化层(核心大小为256)对第三卷积层输出的50×50×256的特征图进行批量归一化处理，得到50×50×256的第三批归一化结果；第一双卷积激活层中的第三ReLU激活层对输入50×50×256的第三批归一化结果进行激活处理，得到50×50×256的第三激活结果；第一双卷积激活层中的第四卷积层对50×50×256的第三激活结果进行卷积处理，得到50×50×256的第四卷积层输出结果；第一双卷积激活层中的第四批归一化层(核心大小为256)对输入50×50×256的第四卷积层输出结果进行批量归一化处理，得到50×50×256的第四批归一化结果；第一双卷积激活层中的第四ReLU激活层对输入50×50×256的第四批归一化结果进行激活处理，得到50×50×256的第四激活结果；第一双卷积激活层中的第三最大池化层对输入50×50×256的第四激活结果进行最大池化处理，并输出维度为25×25×256的特征图。

第一双卷积激活层中第四最大池化层输出25×25×256的特征图依次经过第二双卷积激活层中的第三卷积层、第二双卷积激活层中的第三批归一化层(核心大小为512)、第二双卷积激活层中的第三ReLU激活层、第二双卷积激活层中的第四卷积层、第二双卷积激活层中的第四批归一化层(核心大小为512)、第二双卷积激活层中的第四ReLU激活层和第二双卷积激活层中的第三最大池化层，最终输出维度为12×12×512的特征图。

第二双卷积激活层中第四最大池化层输出12×12×512的特征图依次经过第三双卷积激活层中的第三卷积层、第三双卷积激活层中的第三批归一化层(核心大小为512)、第三双卷积激活层中的第三ReLU激活层、第三双卷积激活层中的第四卷积层、第三双卷积激活层中的第四批归一化层(核心大小为512)、第三双卷积激活层中的第四ReLU激活层和第三双卷积激活层中的第三最大池化层，最终输出维度为6×6×512的特征图。

上述第三双卷积激活层中第四最大池化层输出的6×6×512的特征图依次经过上述第二卷积激活层中的第二卷积层、第二卷积激活层中的第二批归一化层(核心大小为512)、第二卷积激活层中的第二ReLU激活层和第二卷积激活层中的第二最大池化层，最终输出维度为1×2048的特征向量(即疼痛表情所在区域的第一特征)。

示例性地，如图2所示，上述第二特征提取网络203包括：ResNet18，ResNet50等。以第二特征提取网络203为ResNet18为例，上述ResNet18包括：输入模块、残差网络和输出模块，其中，输入模块对输入200×200×3的疼痛表情图像201进行卷积处理和激活处理，得到第一输出信息；残差网络对第一输出信息进行全局特征提取(全局特征的补充提取)，得到第二输出信息；输出模块对第二输出信息进行平均池化处理，得到第二特征。

上述输入模块包括依次连接的第五卷积层、第五批归一化层、第五ReLU激活层和第四最大池化层，其中，第五卷积层的卷积核大小为7×7，第五批归一化层的核心大小为64，第四最大池化层的核心大小为3×3。上述200×200×3的疼痛表情图像201依次经过第五卷积层(输出维度为100×100×64)、第五批归一化层(输出维度为100×100×64)、第五ReLU激活层(输出维度为100×100×64)和第四最大池化层，最终输出维度为50×50×64的特征图。

上述残差网络包括：直接映射子网络和多个残差子网络，其中，直接映射子网络连接多个残差子网络中的第一残差子网络，而多个残差子网络中的最后一个残差子网络连接输出模块。比如，直接映射子网络对第四最大池化层输出的50×50×64的特征图进行卷积处理，得到直接映射子网络的输出信息，该直接映射子网络的输出信息的维度为50×50×64。

如图3(a)所示，上述直接映射子网络包括：两个级联的残差模块301(即权重层301)和残差模块302(即权重层302)，以及一个第一直接映射分支303，其中，残差模块301包括依次连接的第六卷积层、第六批归一化层、第六ReLU激活层、第七卷积层和第七批归一化层，该第六卷积层和第七卷积层的卷积核大小均为3×3，第六批归一化层和第七批归一化层的核心大小均为64；残差模块302包括依次连接的第八卷积层、第八批归一化层、第七ReLU激活层、第九卷积层和第九批归一化层，该第八卷积层和第九卷积层的卷积核大小均为3×3，第八批归一化层和第九批归一化层的核心大小均为64。

比如，残差模块301对第四最大池化层输出的50×50×64的特征图依次经过第六卷积层、第六批归一化层、第六ReLU激活层、第七卷积层和第七批归一化层进行卷积处理和归一化处理，得到残差模块301的输出信息，该残差模块301的输出信息维度为50×50×64；残差模块302对残差模块301输出的维度为50×50×64的输出信息依次经过第八卷积层、第八批归一化层、第七ReLU激活层、第九卷积层和第九批归一化层进行卷积处理和归一化处理，得到残差模块302的输出信息，该残差模块302的输出信息维度为50×50×64。第一直接映射分支303对第四最大池化层输出的50×50×64的特征图进行直接映射，得到第一映射结果，该第一映射结果仍为第四最大池化层输出的50×50×64的特征图。残差模块302的输出信息与该第一映射结果进行拼接处理，得到维度为50×50×64的第一拼接结果。

如图3(b)所示，上述多个残差子网络中的每个残差子网路包括依次连接的残差模块304(即权重层304)、残差模块305(即权重层305)、残差分支306，其中，残差模块304包括依次连接的第十卷积层、第十批归一化层、第七ReLU激活层、第十一卷积层和第十一批归一化层，该第十卷积层和第十一卷积层的卷积核大小均为3×3，第十批归一化层和第十一批归一化层的核心大小均为64；残差模块305包括依次连接的第十二卷积层、第十二批归一化层、第八ReLU激活层、第十三卷积层和第十三批归一化层，该第十二卷积层和第十三卷积层的卷积核大小均为3×3，第十二批归一化层和第十三批归一化层的核心大小均为64；残差分支306包括依次连接的第十四卷积层(卷积核大小为1×1)和第十四批归一化层。

现以上述残差网络包括3个残差子网络为例，3个残差子网络中第一残差子网络对50×50×64的第一拼接结果进行处理的方式为：50×50×64的第一拼接结果依次经过第一残差子网络中的残差模块304和第一残差子网络中的残差模块305，得到25×25×128的第一残差信息；同时，50×50×64的第一拼接结果经过第一残差子网络中的残差分支306(残差分支306中第十四批归一化层的核心大小为128)进行采样处理(即升维操作)，得到25×25×128的第一采样信息，该采样处理包括：上采样和下采样中的至少一种，根据实际情况选择；25×25×128的第一残差信息和25×25×128的第一采样信息进行拼接处理，得到25×25×128的第二拼接结果。

上述第一残差子网络中的残差模块304对50×50×64的第一拼接结果依次经过第十卷积层、第十批归一化层(核心大小为128)、第七ReLU激活层、第十一卷积层和第十一批归一化层(核心大小为128)进行卷积处理和归一化处理，得到残差模块304的输出信息，该残差模块304的输出信息的维度为 25×25×128；上述第一残差子网络中的残差模块305对残差模块304的输出信息依次经过第十二卷积层、第十二批归一化层(核心大小为128)、第八ReLU激活层、第十三卷积层和第十三批归一化层(核心大小为128)进行卷积处理和归一化处理，得到残差模块305的输出信息(即25×25×128的第一残差信息)，该残差模块305的输出信息的维度为25×25×128。

3个残差子网络中第二残差子网络对25×25×128的第二拼接结果进行处理的方式为：25×25×128的第二拼接结果依次经过第二残差子网络中的残差模块304和第二残差子网络中的残差模块305，得到13×13×256的第二残差信息；同时，25×25×128的第二拼接结果经过第二残差子网络中的残差分支306(残差分支306中第十四批归一化层的核心大小为256)进行采样处理(即升维操作)，得到13×13×256的第二采样信息，该采样处理包括：上采样和下采样中的至少一种，根据实际情况选择；13×13×256的第二残差信息和13×13×256的第二采样信息进行拼接处理，得到13×13×256的第三拼接结果。

上述第二残差子网络中的残差模块304对25×25×128的第二拼接结果依次经过第十卷积层、第十批归一化层(核心大小为256)、第七ReLU激活层、第十一卷积层和第十一批归一化层(核心大小为256)进行卷积处理和归一化处理，得到残差模块304的输出信息，该残差模块304的输出信息的维度为13×13×256；上述第二残差子网络中的残差模块305对残差模块304的输出信息依次经过第十二卷积层、第十二批归一化层(核心大小为256)、第八ReLU激活层、第十三卷积层和第十三批归一化层(核心大小为256)进行卷积处理和归一化处理，得到残差模块305的输出信息(即13×13×256的第二残差信息)，该残差模块305的输出信息的维度为13×13×256。

3个残差子网络中第三残差子网络对13×13×256的第三拼接结果进行处理的方式为：13×13×256的第三拼接结果依次经过第三残差子网络中的残差模块304和第三残差子网络中的残差模块305，得到7×7×512的第三残差信息；同时，13×13×256的第三拼接结果经过第三残差子网络中的残差分支306(残差分支306中第十四批归一化层的核心大小为512)进行采样处理(即升维操作)，得到7×7×512的第三采样信息，该采样处理包括：上采样和下采样中的至少一种，根据实际情况选择；7×7×512的第三残差信息和7×7×512的第三采样信息进行拼接处理，得到7×7×7的第四拼接结果。

上述第三残差子网络中的残差模块304对13×13×256的第三拼接结果依次经过第十卷积层、第十批归一化层(核心大小为512)、第七ReLU激活层、第十一卷积层和第十一批归一化层(核心大小为512)进行卷积处理和归一化处理，得到残差模块304的输出信息，该残差模块304的输出信息的维度为7×7×512；上述第三残差子网络中的残差模块305对残差模块304的输出信息依次经过第十二卷积层、第十二批归一化层(核心大小为512)、第八ReLU激活层、第十三卷积层和第十三批归一化层(核心大小为512)进行卷积处理和归一化处理，得到残差模块305的输出信息(即7×7×512的第三残差信息)，该残差模块305的输出信息的维度为7×7×512。

上述输出模块包括平均池化层，该平均池化层大小为3×3，平均池化层对7×7×7的第四拼接结果进行平均池化操作，得到维度为1×1×512的特征向量(即第二特征)。

示例性地，融合分类模块204包括正交模块2041和分类模块2042，正交模块2041用于利用预设的正交函数对面部表情所在区域的第一特征和第二特征进行正交操作，得到正交结果；分类模块2042用于利用预设的分类函数对正交结果进行特征汇聚以及分类，得到分类结果。上述正交模块2041包括：Pytorch深度学习库中提供的Bilinear函数；上述分类模块2042包括：依次连接的Pytorch深度学习库中提供的Linear函数和Softmax分类函数。例如，Bilinear函数对输出维度为1×2048的特征向量(即疼痛表情所在区域的第一特征)和维度为1×1×512的特征向量(即第二特征)进行正交操作，得到正交结果；从而实现了疼痛表情所在区域的第一特征和第二特征的融合操作。 Linear函数对正交结果进行特征汇聚(即降维操作)，得到输出维度为6的汇聚结果；Softmax分类函数对该汇聚结果进行分类，最终得到分类结果(比如，200×200×3的疼痛表情图像201对应的疼痛程度为3级)。

示例性地，对上述表情分类模型进行训练时，可以选取Pytorch深度学习库中提供的交叉熵函数作为损失函数进行训练，并且，选取随机梯度下降法作为训练优化器。通过前向传播逐步计算Softmax分类后的损失，并根据计算出的loss值反向传播，对表情分类模型的权值进行更新，直至表情分类模型趋向于收敛，即可停止表情分类模型的训练，并保存表情分类模型的权值。

示例性地，可以采用如下几种评价指标对表情分类模型的分类结果的准确率进行评估：准确率(Accuracy，Acc)、均方根误差(Root Mean Square Error，RMSE)和皮尔逊相关系数(Pearson Correlation Coefficient，PCC)，当然，也可以采用其他评估指标，本申请对此不作限定；其中，Acc为表情分类模型的预测准确率，即表情图像的预测标签值中符合实际真实标签值的占比。RMSE被计算为预测值和真实值之间的误差，即表情图像的预测标签值与真实标签值之间的误差。PCC系数用于反映表情分类模型对不同时间维度的表情图像进行结果预测的情况。比如，Acc可以用于指示疼痛表情图像的预测标签值中符合实际真实标签值的占比。RMSE可以用于指示疼痛表情图像的预测值和真实值之间的误差。PCC系数用于反映表情分类模型对不同时间维度的疼痛表情图像进行结果预测的情况。

比如，选取的一段连续且时序相邻的80帧的人脸疼痛表情图像，将该80帧的人脸疼痛表情图像依次输入表情分类模型中进行分类测试；分类测试结果如图4所示，其中，实际曲线401表示真实值，预测值分布402用黑色加号表示，横坐标表示图像帧，纵坐标表示疼痛等级；由图4可知，表情分类模型对80帧的人脸疼痛表情图像进行疼痛程度分类后，对人脸疼痛表情图像的疼痛程度分类错误的仅有6帧(如图4中不在黑色实线上的黑色‘+’)。由此可见，本发明提出的双并联式的表情分类模型能够对疼痛表情图像进行有效的疼痛程度分类。

上述Acc、RMSE和PCC的计算公式分别如下：

其中，M _i为经过表情分类模型进行实验的每一分类结果中被正确分类的样本数。N表示实验中所有表情图像的数量，y _i和

分别表示表情图像(比如，疼痛表情图像)的真实标签值与预测标签值。

和

分别表示序列

和{y ₁,y ₂,...,y _N}的平均值。

例如，将本申请提供的表情分类模型在公开可获取的数据集上进行训练和验证，并根据准确率(Acc)、均方根误差(RMSE)和皮尔逊相关系数(PCC)这三个评价指标对表情分类模型的性能(即分类的准确率)进行量化评估；其中，准确率(Acc)为92.11％，均方根误差(RMSE)为0.48，皮尔逊相关系数(PCC)为0.95。本申请提供的表情分类模型的性能评估结果与现有较为先进的试验方法(比如，一种新的3D深度网络模型SCN，通过使用不同时间深度的多个卷积层，来获取人脸面部表情的广泛时空变化，最终得到的均方根误差(RMSE)为0.57，皮尔逊相关系数(PCC)为0.92)的结果非常接近，这也说明了本申请提供的表情分类模型的有效性。

为了便于理解，下面结合图5对本申请提供的面部表情的分类方法的整体流程进行示例性说明。以对面部疼痛表情进行疼痛程度分类为例来说明面部表情的分类方法的流程步骤：

准备阶段501：准备含有疼痛等级标签的人脸疼痛表情图像数据集，比如，疼痛表情图像已经根据疼痛程度划分为6个疼痛等级。

建模阶段502：基于结合局部注意力机制的双并联式表情分类模型构建用于疼痛表情分类的模型，比如，VGG16的输入层融合局部注意力层与ResNet18形成双并联式表情分类模型，该双并联式表情分类模型可以用于对疼痛表情图像进行疼痛程度分类。

训练阶段503：基于准备的疼痛表情图像数据制作训练数据集，并利用训练数据集对构建的表情分类模型进行迭代训练，比如，将疼痛表情图像数据集划分为训练数据集和测试数据集，其中，训练数据集用于对构建的表情分类模型进行迭代训练，已得到符合要求的表情分类模型。

分类阶段504：利用训练好的表情分类模型对测试集中的人脸疼痛表情进行疼痛级的分类，比如，利用训练好的表情分类模型对测试数集中的疼痛表情图像进行疼痛程度分类，得到最终的分类结果(即疼痛表情图像对应的具体的疼痛等级)。

相比现有卷积神经网络对目标对象的面部表情仅进行局部特征提取的方法，本申请采用并联式的第一特征提取网络和第二特征提取网络形成的表情分类模型对目标对象的面部表情进行局部特征提取和全局特征提取，其中，第二特征提取网络对面部表情的情绪特征进行全局特征提取可以弥补第一特征提取网络在对面部表情的局部特征进行提取时遗漏的重要特征信息，从而提高了面部表情的情绪特征的提取率，进而提高了根据面部表情的特征提取结果进行情绪表达程度分类的准确率。

本申请的局部注意力层对目标图像中面部表情所在区域以外的区域进行不相关信息衰减操作，同时反向增强了目标图像中面部表情所在区域的重要相关信息，从而有利于提高表情分类模型根据面部表情的情绪特征提取结果进行分类的准确率。

图6是本申请提供的一种面部表情的分类装置的结构示意图。该分类装置600包括获取模块601和处理模块602。

获取模块601用于：获取目标图像，该目标图像包括目标对象的面部表情；

处理模块602用于：将目标图像输入到表情分类模型中，得到分类结果，分类结果用于指示面部表情的情绪表达程度；

表情分类模型包括：第一特征提取网络、第二特征提取网络和融合分类模块；通过第一特征提取网络对目标图像进行局部特征提取，得到面部表情所在区域的第一特征；通过第二特征提取网络对目标图像进行全局特征提取，得到第二特征；通过融合分类模块对第一特征和第二特征进行特征融合和分类，得到分类结果。

分类装置600执行面部表情的分类方法的具体方式以及产生的有益效果可以参见方法实施例中的相关描述。

图7示出了本申请提供了一种电子设备的结构示意图。图7中的虚线表示该单元或该模块为可选的。电子设备700可用于实现上述方法实施例中描述的方法。电子设备700可以是终端设备或服务器或芯片。

电子设备700包括一个或多个处理器701，该一个或多个处理器701可支持电子设备700实现图1所对应方法实施例中的方法。处理器701可以是通用处理器或者专用处理器。例如，处理器701可以是中央处理器(central processing unit，CPU)。CPU可以用于对电子设备700进行控制，执行软件程序，处理软件程序的数据。电子设备700还可以包括通信单元705，用以实现信号的输入(接收)和输出(发送)。

例如，电子设备700可以是芯片，通信单元705可以是该芯片的输入和/或输出电路，或者，通信单元705可以是该芯片的通信接口，该芯片可以作为终端设备的组成部分。

又例如，电子设备700可以是终端设备，通信单元705可以是该终端设备的收发器，或者，通信单元705可以是该终端设备的收发电路。

电子设备700中可以包括一个或多个存储器702，其上存有程序704，程序704可被处理器701运行，生成指令703，使得处理器701根据指令703执行上述方法实施例中描述的方法。可选地，存储器702中还可以存储有数据。可选地，处理器701还可以读取存储器702中存储的数据，该数据可以与程序704存储在相同的存储地址，该数据也可以与程序704存储在不同的存储地址。

处理器701和存储器702可以单独设置，也可以集成在一起，例如，集成在终端设备的系统级芯片(system on chip，SOC)上。

处理器701执行面部表情的分类方法的具体方式可以参见方法实施例中的相关描述。

应理解，上述方法实施例的各步骤可以通过处理器701中的硬件形式的逻辑电路或者软件形式的指令完成。处理器701可以是CPU、数字信号处理器(digital signal processor,DSP)、现场可编程门阵列(field programmable gate array，FPGA)或者其它可编程逻辑器件，例如，分立门、晶体管逻辑器件或分立硬件组件。

本申请还提供了一种计算机程序产品，该计算机程序产品被处理器701执行时实现本申请中任一方法实施例所述的方法。

该计算机程序产品可以存储在存储器702中，例如是程序704，程序704经过预处理、编译、汇编和链接等处理过程最终被转换为能够被处理器701执行的可执行目标文件。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被计算机执行时实现本申请中任一方法实施例所述的方法。该计算机程序可以是高级语言程序，也可以是可执行目标程序。

该计算机可读存储介质例如是存储器702。存储器702可以是易失性存储器或非易失性存储器，或者，存储器702可以同时包括易失性存储器和非易失性存储器。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器 (Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。

本领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和设备的具体工作过程以及产生的技术效果，可以参考前述方法实施例中对应的过程和技术效果，在此不再赘述。

在本申请所提供的几个实施例中，所揭露的系统、装置和方法，可以通过其它方式实现。例如，以上描述的方法实施例的一些特征可以忽略，或不执行。以上所描述的装置实施例仅仅是示意性的，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，多个单元或组件可以结合或者可以集成到另一个系统。另外，各单元之间的耦合或各个组件之间的耦合可以是直接耦合，也可以是间接耦合，上述耦合包括电的、机械的或其它形式的连接。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制。尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种面部表情的分类方法，其特征在于，所述方法包括：

获取目标图像，所述目标图像包括目标对象的面部表情；

将所述目标图像输入到表情分类模型中，得到分类结果，所述分类结果用于指示所述面部表情的情绪表达程度；

所述表情分类模型包括：第一特征提取网络、第二特征提取网络和融合分类模块；通过所述第一特征提取网络对所述目标图像进行局部特征提取，得到所述面部表情所在区域的第一特征；通过第二特征提取网络对所述目标图像进行全局特征提取，得到第二特征；通过所述融合分类模块对所述第一特征和所述第二特征进行特征融合和分类，得到所述分类结果。
根据权利要求1所述的分类方法，其特征在于，所述第一特征提取网络为VGG16，所述VGG16的输入层包括：局部注意力层，

所述局部注意力层用于对所述目标图像中所述面部表情所在区域以外的区域进行信息衰减操作。
根据权利要求2所述的分类方法，其特征在于，所述VGG16的输入层包括依次连接的第一卷积层、第一批归一化层、第一激活层、所述局部注意力层和第一最大池化层；

所述局部注意力层对所述目标图像中所述面部表情所在区域以外的区域进行信息衰减操作的方式为：所述局部注意力层接收到所述第一激活层的输出信息后，根据所述第一激活层的输出信息确定二维图像掩码，并将所述二维图像掩码和所述第一激活层的输出信息相乘，得到所述局部注意力层的输出信息；其中，所述局部注意力层的输出信息用于输入至连接在所述局部注意力层之后的网络层进行局部特征提取。
根据权利要求3所述的分类方法，其特征在于，所述根据所述第一激活层的输出信息确定二维图像掩码，包括：

对所述第一激活层的输出信息中每个通道的特征图进行平均激活值计算，得到N个平均激活值；

根据所述N个平均激活值确定第一通道，所述第一通道为所述N个平均激活值中最大的平均激活值对应的通道；

对所述第一通道中的每个像素进行掩码设置，其中，当所述第一通道中的第一像素大于或者等于所述最大的平均激活值时，将与所述第一像素值对应位置的掩码值设置为1；当所述第一通道中的第一像素小于所述最大的平均激活值时，将与所述第一像素值对应位置的掩码值设置为0；所述第一像素为所述第一通道中的任意一个像素，所述N为正整数。
根据权利要求1至4任一项所述的分类方法，其特征在于，所述第二特征提取网络为ResNet18。
根据权利要求1至4任一项所述的分类方法，其特征在于，所述融合分类模块包括正交模块和分类模块，

所述正交模块用于利用预设的正交函数对所述面部表情所在区域的第一特征和所述第二特征进行正交操作，得到正交结果；

所述分类模块用于利用预设的分类函数对所述正交结果进行特征汇聚以及分类，得到所述分类结果。
根据权利要求1至4中任一项所述的分类方法，其特征在于，所述分类结果为疼痛程度。
一种面部表情的分类装置，其特征在于，包括获取模块和处理模块，

所述获取模块用于：获取目标图像，所述目标图像包括目标对象的面部表情；

所述处理模块用于：将所述目标图像输入到表情分类模型中，得到分类结果，所述分类结果用于指示所述面部表情的情绪表达程度；

所述表情分类模型包括：第一特征提取网络、第二特征提取网络和融合分类模块；通过所述第一特征提取网络对所述目标图像进行局部特征提取，得到所述面部表情所在区域的第一特征；通过第二特征提取网络对所述目标图像进行全局特征提取，得到第二特征；通过所述融合分类模块对所述第一特征和所述第二特征进行特征融合和分类，得到所述分类结果。
一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于从所述存储器中调用并运行所述计算机程序，使得所述电子设备执行权利要求1至7中任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储了计算机程序，当所述计算机程序被处理器执行时，使得处理器执行权利要求1至7中任一项所述的方法。