WO2020244434A1

WO2020244434A1 - 面部表情的识别方法、装置、电子设备及存储介质

Info

Publication number: WO2020244434A1
Application number: PCT/CN2020/092593
Authority: WO
Inventors: 樊艳波; 张勇; 李乐; 吴保元; 李志锋; 刘威
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2019-06-03
Filing date: 2020-05-27
Publication date: 2020-12-10
Also published as: CN110263681A; US20210406525A1; CN110263681B

Abstract

本申请公开了一种面部表情的识别方法、装置、电子设备及存储介质。其中，该方法包括：从第一图像中像素点的颜色信息中提取第一特征；从第一图像中提取面部关键点的第二特征；将第一特征和第二特征进行融合处理，得到融合特征，通过融合特征确定第一图像中对象面部的第一表情类型。

Description

面部表情的识别方法、装置、电子设备及存储介质

相关申请的交叉引用

本申请基于申请号为201910478195.3、申请日为2019年06月03日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本申请涉及人工智能领域，尤其涉及一种面部表情的识别方法、装置、电子设备及计算机可读存储介质。

背景技术

人工智能(Artificial Intelligence，AI)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

人的情感的产生是一个很复杂的心理过程，情感的表达也伴随多种表现方式，常被计算机学家用于研究的表达方式主要有三种：表情、语音、动作。在这三种情感表达方式中，表情所贡献的情感比例高达55％，随着人机交互技术的应用日益广泛，在人机交互、自动驾驶和医疗健康等领域中，人脸表情识别技术具有非常重要的意义。

将人工智能技术应用于人脸表情识别技术，在人脸表情识别技术中，可以识别出人脸表情。但是人脸表情识别的准确性比较低。

发明内容

本申请实施例提供了一种面部表情的识别方法、装置、电子设备及计算机可读存储介质，能够提高识别人脸表情类型的准确度。

本申请实施例提供了一种面部表情的识别方法，所述方法由电子设备执行，所述方法包括：

从第一图像中像素点的颜色信息中提取第一特征；

从所述第一图像中提取面部关键点的第二特征；

将所述第一特征和所述第二特征进行融合处理，得到融合特征；

通过所述融合特征确定所述第一图像中对象面部的第一表情类型。

本申请实施例提供了一种面部表情的识别装置，包括：识别单元，配置为从第一图像中像素点的颜色信息中提取第一特征；

从所述第一图像中提取面部关键点的第二特征；

本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，程序运行时执行上述的面部表情的识别方法。

本申请实施例提供了一种电子设备，包括存储器以及处理器；其中，所述存储器用于存储计算机程序；所述处理器用于运行存储器中的计算机程序，通过计算机程序执行上述的面部表情的识别方法。

在本申请实施例中，根据第一图像中像素点的颜色信息提取第一特征、从第一图像中提取面部关键点的第二特征以及利用第一特征和第二特征确定第一图像中对象面部的第一表情类型，通过融合图像像素点特征和面部关键点特征，可以提高识别人脸表情类型的准确度，进而达到准确识别面部表情的技术效果。

附图说明

图1是本申请实施例的面部表情的识别方法的硬件环境的示意图；

图2A-2C是本申请实施例的面部表情的识别方法的流程图；

图3是本申请实施例的面部表情的识别方法的应用场景的示意图；

图4是本申请实施例的面部表情的识别方法的应用场景的示意图；

图5是本申请实施例的面部表情的识别方法的应用场景的示意图；

图6A是本申请实施例的神经网络模型的结构示意图；

图6B是本申请实施例的人脸表情识别框架的示意图；

图7是本申请实施例的面部关键点的示意图；

图8是本申请实施例的面部图网络结构的示意图；

图9是本申请实施例的面部表情的识别装置的示意图；

图10是本申请实施例的一种终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或者术语适用于如下解释：

1)RGB色彩模式，工业界的一种颜色标准，是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的，RGB即是代表红、绿、蓝三个通道的颜色。

2)YUV，一种颜色编码方法，适用于各个视频处理组件中，YUV在对照片或视频编码时，考虑到人类的感知能力，允许降低色度的带宽。“Y”表示明亮度(Luminance，Luma)，“U”和“V”则表示色度、浓度(Chrominance，Chroma)。

3)印刷四色模式CMYK，彩色印刷时采用的一种套色模式，利用色料的三原色混色原理，加上黑色油墨，共计四种颜色混合叠加，形成“全彩印刷”，四种标准颜色分别是：C：Cyan＝青色，又称为“天蓝色”或“湛蓝”；M：Magenta＝品红色，又称为“洋红色”；Y：Yellow＝黄色；K：blacK＝黑色。

在本申请实施例的实施过程中发现，由于以下原因的存在，从而影响到人脸表情识别的准确性：其一是不同的人表情变化不同，人脸表情会根据不同的人的表现方式的区别而产生差异性；其二是同一个人的表情在现实生活中具有实时性，同一人在不同的时间段、不同的场景等条件下产生的表情也不同；其三是受外界的条件的影响，如背景、光照、角度、距离等对表情识别影响较大。

为了解决上述问题，本申请实施例提供一种面部表情的识别方法的实施例。

下面说明本申请实施例提供的用于面部表情识别的电子设备的示例性应用。本申请实施例提供的用于面部表情识别的电子设备可以是各种类型的终端设备或服务器，以服务器为例，例如可以是部署在云端的服务器集群，向用户开放云服务，其中封装有面部表情识别的程序。用户在开放的云服务中输入第一图像后，部署在云端的服务器调用封装的面部表情识别的程序，从第一图像中准确地识别出面部图像的表情(本申请实施例并不局限于人的脸部表情，也可以是动物、卡通人物等的脸部表情)，并将识别出的脸部图像的表情应用于人机交互、自动驾驶、公共安全监控和医疗健康等领域中，以优化人们的生活品质，例如，在人机交互领域中，机器在识别出人的面部图像的表情后，可以根据该表情进行相应的应答，实现人与机器的无障碍沟通。

为了便于理解本申请实施例提供的技术方案，下面结合用于面部表情识别的电子设备，对本申请实施例提供的面部表情的识别方法的应用场景进行介绍。例如，上述面部表情的识别方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示，服务器103通过网络与终端101进行连接，可用于为终端或终端上安装的客户端提供服务(如游戏服务、应用服务等)，可在服务器上或独立于服务器设置数据库105，用于为服务器103提供数据存储服务，上述网络包括但不限于：广域网、城域网或局域网，终端101并不限定于PC、手机、平板电脑等。本申请实施例的面部表情的识别方法可以由服务器103来执行，也可以由终端101来执行，还可以是由服务器103和终端101共同执行，即用于面部表情识别的电子设备可以为终端101或者服务器103。其中，终端101执行本申请实施例的面部表情的识别方法也可以是由安装在其上的客户端来执行。

在一些实施例中，用于面部表情识别的电子设备执行本申请实施例提供的面部表情的识别方法，作为终端101(用于面部表情识别的电子设备)识别面部表情的应用场景示例。终端101本地执行本申请实施例提供的面部表情的识别方法，来完成识别第一图像的面部表情，例如，在终端101 上安装表情识别应用(Application，APP)，用户在表情识别APP中输入第一图像后，终端101通过神经网络模型从第一图像中像素点的颜色信息提取第一特征、从第一图像中提取面部关键点的第二特征，根据第一特征和第二特征的融合特征确定第一图像中对象面部的表情类型，并将第一图像的表情类型显示在终端101的显示界面上。

在一些实施例中，终端101也可以通过网络向云端的服务器103发送用户在终端101上输入的第一图像，并调用服务器103提供的面部表情识别功能(封装的面部表情识别的程序)，服务器103通过本申请实施例提供的面部表情的识别方法，识别第一图像的面部表情，例如，在终端101上安装表情识别应用，用户在表情识别应用中，输入第一图像，终端101通过网络向服务器103发送该第一图像，服务器103接收到该第一图像后，调用封装的面部表情识别的程序，通过神经网络模型从第一图像中像素点的颜色信息提取第一特征、从第一图像中提取面部关键点的第二特征，根据第一特征和第二特征的融合特征确定第一图像中对象面部的表情类型，并将第一图像的表情类型反馈至终端101的表情识别应用中，或者，服务器103直接给出第一图像的表情类型。

图2A是根据本申请实施例的一种面部表情的识别方法的流程图。举例来说，是以服务器为执行主体为例进行描述。如图2A所示，该方法可以包括以下步骤(其中，步骤S202和步骤S206为适应性的选用步骤)：

步骤S202，服务器获取终端的识别请求，识别请求用于请求识别第一图像中对象面部的表情类型。

此处的对象为具备表情展现的对象，如人类、猩猩等，为了描述的统一，后续统一以人类为例进行描述。

人脸表情识别在人机交互、自动驾驶和医疗健康等领域都得到了越来越多的发展和应用，为了实现人脸表情识，用于实现人机交互、自动驾驶、医疗健康检测的终端可以采集目标对象(如用户、驾驶员、路人、病人等)的第一图像，并发起识别表情类型的识别请求，此处的表情类型可以为生气、悲伤、厌恶、害怕、吃惊、高兴、正常等表情。

步骤S204，服务器从第一图像中像素点的颜色信息提取第一特征、从第一图像中提取面部关键点的第二特征，将第一特征和第二特征进行融合处理，得到融合特征，通过融合特征确定第一图像中对象面部的第一表情类型。

其中，本申请实施例并不局限于神经网络模型，其他机器学习模型也适用于本申请实施例。

上述第一图像中像素点的颜色的编码可以为RGB、YUV、CMYK等颜色编码模式中的一种，为了描述统一，后续以RGB为例进行说明，其余颜色编码模式与此类似，不再赘述。

上述第一特征为提取的与表情相关的纹理特征，第二特征为面部组成部分(如人脸五官中的至少之一)、面部轮廓的特征，面部关键点即为描述面部组成部分和/或面部轮廓的特征点。

例如，通过调用神经网络模型的学习，可以学习到不同对象和相同对象在面部表情表达时的共性，通过第一特征(可以准确表示对象的面部纹理)和第二特征(可用来表示面部各个部位的联动、轮廓的变化等)可以利用事先学习到的第一特征和第二特征与面部表情分类之间的关系，准确识别出当前对象的面部表情，同时，即使存在光照变化、遮挡等不理因素，也可以通过第二特征与第一特征的融合避免单独使用第一特征(前述不利因素会导致第一特征的提取不准确)造成的识别不正确。

其中，为了根据第一特征和第二特征的融合特征，识别第一图像的表情类型，可以将第一特征和第二特征进行融合处理，得到融合特征，并通过融合特征确定第一图像中对象面部的第一表情类型。其中，融合过程可以是基于第一特征和第二特征的权重，对第一特征和第二特征进行加权求和，并将加权求和的结果作为融合特征，以实现第一特征和第二特征的特征融合；或者，将第一特征和第二特征进行线性/非线性映射，对线性/非线性映射后的第一特征和第二特征进行拼接，以实现第一特征和第二特征的特征融合。

通过上述步骤S204，利用神经网络模型从第一图像中识别出第一表情类型，神经网络模型用于根据第一图像中像素点的颜色信息提取第一特征、从第一图像中提取面部关键点的第二特征以及利用第一特征和第二特征确定第一图像中对象面部的第一表情类型，通过融合图像特征和面部关键点特征，考虑了更多的特征以及特征之间的关联，可以提高识别人脸表情类型的准确度，进而达到准确识别面部表情的技术效果。

步骤S206，响应于识别请求，服务器向终端返回识别出的第一表情类型。

通过上述步骤S202至步骤S206，已说明服务器通过神经网络模型可以准确地从第一图像中识别出面部表情，并将面部表情返回至终端的方案。下面对神经网络模型的训练进行说明，具体如下：

本申请实施例提供了一种基于编码图像(如RGB图像)和面部关键点Landmark(如人脸关键点)的多模态人脸表情识别方案，如图6A所示，该方案中的神经网络模型包括依次连接的用于进行图像的第一特征(纹理特征)提取的卷积神经网络(Convolution Neural Networks、CNN)、用于进行面部关键点的第二特征提取的图神经网络(Graph Neural Networks、GNN)、融合层和分类网络(可包括全连接层和分类层)，该方案利用卷积神经网络对RGB图像进行建模学习，利用图神经网络对人脸关键点进行建模学习，并通过融合层融合两个模态(RGB图像和人脸关键点)的特征，以得到融合特征，并通过分类网络根据融合特征进行表情识别，得到人脸表情，该方案通过对RGB图像和人脸关键点之间的相关性和互补性进行建模，可以实现更加鲁棒的人脸表情识别，通过图神经网络可更为灵活而高效的刻画人脸关键点之间的关联，能够提取判别能力更强的人脸关键点特征。其中，本申请实施例并不局限于卷积神经网络和图神经网络，也可以采用其他模型以实现RGB图像和人脸关键点的特征提取。下面结合图2A所示的步骤详述本申请的技术方案。

参见图2B，图2B示出图2A在执行步骤S202之前，可以按照如下方式预先训练好神经网络模型，即将训练集输入到神经网络模型，神经网络模型输出预计结果，由于神经网络模型的预计结果与实际结果有误差，则计算预计结果与实际结果之间的误差，并将该误差在神经网络模型中进行反向传播，以调整神经网络模型中所有层的参数的值，该所有层包括卷积神经网络、图神经网络、融合层和分类网络；不断迭代上述过程，直至收敛，以完成神经网络模型的训练：

步骤S11，获取训练集，其中，训练集中的训练图像标识有表情类型且训练图像的颜色编码类型与第一图像相同。

例如，可以预先获取一个数据集(如AffectNet人脸表情数据集)，将该数据集中的图像划分为训练集和测试集，所划分的方式可以为随机划分，以便于训练集和测试集中的图像的特征保持相同或者基本相同的分布，在图片所占比例上，一般训练集的图片数量大于测试集的图片，例如训练集中图片占了数据集的80％，测试集占了其中20％。

步骤S12，将训练集中的训练图像作为神经网络模型的输入，对神经网络模型进行训练得到初始神经网络模型，初始神经网络模型是以训练集中的训练图像为输入，并以训练图像标识的表情类型为预计输出时，初始化神经网络模型的网络层中的权重后得到的。

在神经网络模型中，每个神经元有输入连接和输出连接，这些连接模拟了大脑中突触的行为，与大脑中突触传递信号的方式类似，信号从一个神经元传递到另一个神经元，每一个连接都有权重，即发送到每个连接的值要乘以这个权重，权重实际上相当于生物神经元之间传递的神经递质的数量，如果某个连接重要，那么它将具有比那些不重要的连接更大的权重值。而训练过程就是赋予这些权重的过程。该技术方案中，可以采用监督学习实现，训练集包括输入(如图像的RGB编码和采用图数据结构的面部图)和期望的输出(即面部表情类型)，通过这种方式，网络可以检查它的计算结果和期望输出的差异，并据此采取适当的处理。

训练集中的每个训练图像包括输入值和期望的输出，一旦网络计算出其中一个输入的输出(初始时可随机赋予权重数值)，根据误差函数便可计算出对应的误差，这个误差表明模型的实际输出与期望的输出有多接近。此处使用的误差函数是均方误差函数，如公式(1)所示：

其中，x表示训练集中的输入，y(x)表示神经网络模型产生的输出，a表示期望的输出，可以看到这个均方误差函数是关于w和b的函数，w表示权重，b表示偏差(biases)，在每次得到输出后，对应的误差被返回神经网络模型，并且相应地调整权重，从而使得神经网络模型通过该算法完成一次对所有权重的调整，循环往复，直至训练的图像量达到一定的值。

步骤S13，获取以测试集中的测试图像为初始神经网络模型的输入时，初始神经网络模型输出的第二表情类型，测试集中的测试图像标识有表情类型且颜色编码类型与第一图像相同。

步骤S14，当初始神经网络模型输出的第二表情类型、与测试集中的测试图像标识的表情类型之间的匹配正确率达到目标阈值时，将初始神经网络模型作为训练好的神经网络模型。

上述的匹配正确率是通过计算初始神经网络模型对多个测试图像的输出得到的，如对100张测试图像，能够正确识别其中的95张，则匹配正确率为95％，若目标阈值是98％，由于实际正确匹配率小于目标阈值，说明该模型欠拟合，那么还需继续对初始神经网络模型进行训练，若能够正确识别100张测试图像中的99张，那么说明模型已经比较成熟，可以投入实际应用中了。

步骤S15，当初始神经网络模型输出的第二表情类型、与测试集中的测试图像标识的表情类型之间的匹配正确率小于目标阈值时，将训练集中的训练图像作为初始神经网络模型的输入，继续对初始神经网络模型进行训练，直至初始神经网络模型输出的第二表情类型、与测试集中的测试图像标识的表情类型之间的匹配正确率达到目标阈值。

在使用上述方法训练好神经网络模型之后，即可使用该模型进行面部表情类型的识别，在步骤S202提供的技术方案中，服务器获取终端的识别请求，识别请求用于指示识别第一图像中对象面部的表情类型。该识别请求可以直接为第一图像，或者携带有第一图像的指示信息(如第一图像的图像标志、存储地址等)的请求消息。

在步骤S204提供的技术方案中，服务器从第一图像中确定出第一图像中对象面部的第一表情类型。见图2C，图2C示出图2A中的步骤204包括步骤S2042-步骤S2044：

步骤S2042，在卷积神经网络中，利用第一图像中像素点的颜色信息提取用于表示第一图像中纹理的第一特征，并在图神经网络中，提取用于表示面部关键点之间关联的第二特征，其中，面部关键点用于表示对象面部的组成部分和/或面部轮廓。

例如，利用第一图像中像素点的颜色信息提取用于表示第一图像中纹理的第一特征包括：将第一图像中像素点的颜色编码数据(如第一图像的RGB编码数据)作为卷积神经网络的输入，卷积神经网络用于对第一图像中像素点的颜色编码执行卷积操作，得到第一特征，如描述笑容时眼角上扬的特征；获取卷积神经网络输出的第一特征。

在一些实施例中，为了提高识别的准确率，可以对第一图像进行预处理，以使其分辨率、长宽、参考点符合要求，在将第一图像中像素点的颜色编码作为卷积神经网络的输入时，当第一图像中的参考点在第一图像中的位置、与图片模板中的参考点在图片模板中的位置不同时，执行对第一图像的裁剪操作和/或缩放操作，如执行以下操作：移动第一图像以使其参考点与模板的参考点在位置上重合，然后以参考点为原点进行缩放以使其分辨率与模板相同，再对其进行裁剪以使其长宽与模板相同，从而得到第二图像，第二图像中的参考点在第二图像中的位置与图片模板中的参考点在图片模板中的位置相同；将第二图像中像素点的颜色编码作为卷积神经网络的输入。

例如，在根据第一面部图确定第二面部图之前，可利用多张第三图像确定面部关键点、关键点之间的关联关系以及关键点之间的关联权重，其中，第三图像为标识有表情类型的图像，可以对多张第三图像(均为具有明显面部表情的图像)进行分析，以确定五官周围、面部轮廓上与表情直接最相关关键点(即受表情影响时有运动幅度或者能体现该表情的点)，而具备关联关系的关键点是指在同一表情下能够产生联动的点，而关联权重是对两个关键点之间的关联程度(例如，可以根据对不同人群的研究后取经验值)进行处理(如归一化)后得到的；以面部关键点为节点、连接位于节点之间的用于表示面部关键点之间存在关联关系的边，并将存在关联关系的关键点之间的关联权重作为边的权重，以得到第一面部图。

在提取用于表示面部关键点之间关联的第二特征时，可根据第一面部图确定第二面部图，其中，第一面部图包括表示面部关键点的节点、位于节点之间的表示面部关键点之间存在关联关系的边以及边的关联权重，第二面部图为在第一面部图中增加节点对应的面部关键点在第一图像中的位置之后得到的；对第二面部图进行特征提取得到第二特征。

步骤S2044，在分类网络中，通过预先的训练学习到了不同的第一特征、第二特征二者与不同的表情类型之间的对应关系，从多个表情类型中识别出与第一特征和第二特征对应的第一表情类型。

在一些实施例中，使用了基于RGB图像的人脸表情识别方案和基于人脸关键点的表情识别方案，其中基于RGB图像的表情识别方案主要是从人脸图像中提取与表情相关的特征(即第一特征)并进行分类，但由于RGB图像受光照变化和遮挡等因素的影响很大，仅仅依靠RGB图像数据的人脸表情识别系统的鲁棒性较差；基于人脸关键点的表情识别方案中，人脸关键点主要指人脸的五官和轮廓所在的点，这些点的位置信息与人脸表情密切相关，随着人脸关键点预测越来越准确，基于关键点的人脸表情识别也越来越准确，在基于人脸关键点的表情识别中可利用手工设计(hand-craft)的特征，并利用浅层模型进行分类，如利用支持向量机(Support Vector Machine，SVM)模型进行表情分类，由于人脸关键点具有丰富的结构信息，并且不同关键点之间具有密切的关联，所以采用该方案能够准确识别人脸面部表情，但是若采用手工设计的特征则无法灵活而有效地对不同关键点之间的丰富而复杂的关联进行建模，导致基于关键点的人脸表情识别性能较差。

考虑到基于RGB图像的表情识别可以获取更加丰富的人脸纹理信息，但其对光照变化等不具备很好的鲁棒性，而基于人脸关键点的表情识别对光照等变化更加鲁棒，但其丢失了大部分的纹理信息，融合RGB图像和人脸关键点对人脸表情识别很有帮助。本申请实施例提供了一种基于RGB图像和人脸关键点的多模态人脸表情识别方案，该方案利用RGB图像和人脸关键点的互补性，实现更加鲁棒的人脸表情识别，针对手工设计特征无法高效刻画人脸关键点的关联，该方案利用图神经网络灵活而高效的对人脸关键点进行建模，图神经网络能够自适应的学习关键点之间的关联，显著提升基于关键点的人脸表情识别性能。

在步骤S206提供的技术方案中，响应于识别请求，服务器向终端返回识别出的第一表情类型。

例如，在向终端返回识别出的第一表情类型之后，可获取终端的反馈信息，反馈信息用于指示识别出的第一表情类型是否正确；在反馈信息指示识别出的第一表情类型不正确的情况下，使用与第一图像具备相同的图像特征的第四图像对神经网络模型进行训练，第四图像可以为与第一图像的面部表情类型相同的图像、或者背景类型与之相同的图像。采用该技术方案，相当于可以针对神经网络模型的识别薄弱环节进行针对性的提高。

人脸表情识别在人机交互、自动驾驶和医疗健康等领域都得到了越来越多的发展和应用，例如，本申请实施例可以用于辅助机器人识别人的情绪和心理，提升人机交互产品中的用户体验，如图3所示，如识别到人做出生气的表情时，机器人301可以通过讲笑话等缓解人的情绪，提升用户体验；本申请实施例也可以用于商场、银行等客户满意度分析，如图4所示，如通过银行服务窗口401中的监控器拍摄顾客在交易过程中人脸表情，并分析监控视频中的人脸表情判断顾客在银行中的交易满意度等；本申请实施例还可以用于动画表情模拟和生成，如识别真实人脸的表情并将其自然的迁移到动画形象上，如图5所示，当识别到人做出忧伤的表情时，动画形象501也将呈现相应的忧伤表情。下面结合实施方式详述本申请的技术方案。

本申请实施例提供了一种基于RGB图像和人脸关键点的多模态人脸表情识别系统，图6B所示为多模态人脸表情识别框架，可给定一张待识别的图像，首先进行人脸检测和人脸对齐，并提取人脸关键点信息；然后利用卷积神经网络自适应的对RGB图像进行特征学习，利用图神经网络自适应的建模人脸关键点之间的关联并进行关键点特征学习，所得到的RGB特征和关键点特征融合起来用于最后的分类；整个识别系统可以实现端到端的训练和预测。

在人脸关键点特征学习中，可给定对齐后的人脸图像，模型先从图像中提取人脸关键点信息，如图7所示，例如关键点701-702为表示脸部轮廓的点。人脸关键点(如编号1-68所示的点)定位人脸面部的关键区域位置，如脸部轮廓、眉毛、眼睛、鼻子和嘴巴等；同一个人做不同表情时，人脸关键点位置通常不同，因而可以利用人脸关键点信息辅助人脸表情识别，人脸关键点之间通常存在复杂的关联，如做“惊讶”表情时，眉毛和眼睛附近的关键点位置通常会一起变化等。考虑到采用基于关键点信息的人脸表情识别时若使用手工设计的特征，如关键点位置信息的堆叠或不同关键点之间的距离等，这些手工设计的特征无法有效的建模关键点之间的关联，所得到的关键点特征判别能力较差，在大规模人脸表情识别数据集上的识别准确率很差。

为更好的建模和利用人脸关键点之间的关联，本申请实施例采用图神经网络对人脸关键点进行高效的建模，将人脸图像作为一个高度结构化的数据，根据人脸五官分布将人脸关键点组成一个图网络结构，如图8所示，图中每一个顶点表示一个人脸关键点，每一条边表示人脸关键点之间的关联，例如边801表示轮廓关键点701和轮廓关键点702之间的关联。令X _landmark表示输入的人脸关键点信息，A表示图邻接矩阵，A _ij＝1表示第i个关键点和第j个关键点之间存在边，A _ij＝0表示第i个关键点和第j个关键点之间不存在边。基于图神经网络的人脸关键点特征学习表示如公式(2)所示：

其中，f _gcn表示图神经网络，由于图邻接矩阵A是0-1矩阵，其只能表示关键点之间有无关联，而无法衡量不同边的权重，不同关键点之间的相关关系的强弱互不相同，为更好的衡量不同关键点之间的相关关系，本申请实施例引入可学习参数W，基于图神经网络的人脸关键点特征学习表示如公式(3)所示：

其中，

为修正的带权重的邻接矩阵，并且权重W是自适应学习，Y _landmark表示从人脸关键点得到的特征。

在进行RGB图像特征学习时，RGB图像特征由RGB图像提取得到，RGB图像是经过人脸检测和对齐处理后的人脸图像直接得到的，由于卷积神经网络在图像特征学习和图像识别等领域取得显著的效果，本申请实施例采用卷积神经网络提取RGB图像特征，令X _rgb表示图像的原始RGB输入，本申请实施例得到的RGB图像特征表示如公式(4)所示：

Y _rgb＝f _cnn(X _rgb) (4)

其中，f _cnn为基于RGB图像的卷积神经网络，Y _rgb表示学习到的RGB图像特征。

在通过融合层进行多模态特征融合时，RGB图像信息和人脸关键点信息相互补充，本方法将学习到的人脸关键点特征Y _landmark和RGB图像特征Y _rgb融合起来，得到整体特征Y如公式(5)所示：

Y＝g(X _landmark,X _rgb) (5)

其中，g表示特征融合，基于融合后的特征Y利用全连接网络进行表情分类。整个网络结构包括人脸关键点特征提取分支f _gcn、RGB图像特征提取分支f _cnn以及全连接分类网络可以实现端到端的训练，在网络训练过程中采取加权损失函数最小化，缓解人脸表情识别中严重的类别不均衡现象。

其中，对人脸关键点特征Y _landmark和RGB图像特征Y _rgb进行加权求和，将加权求和的结果作为融合后的特征Y，以实现特征融合，并通过全连接网络对融合后的特征Y进行预测，以获得人脸图像的表情。其中，当人脸关键点特征相对于表情识别的贡献比较大时，相对于RGB图像特征Y _rgb的权重，人脸关键点特征的权重比较大。通过全连接网络学习到的人脸关键点特征、RGB图像特征的融合后的特征与面部表情分类之间的关系，准确识别出当前对象的面部表情，同时，即使存在光照变化、遮挡等不理因素，也可以通过融合后的特征避免单独使用RGB图像特征(前述不利因素会导致RGB图像特征的提取不准确)造成的识别不正确。或者，将人脸关键点特征Y _landmark和RGB图像特征Y _rgb进行线性/非线性映射，并对线性/非线性映射后的人脸关键点特征Y _landmark和RGB图像特征Y _rgb进行拼接，将拼接后的结果作为融合后的特征Y，以实现特征融合，并通过全连接网络对融合后的特征Y进行预测，以获得人脸图像的表情，其中，线性/非线性映射为各种变形的计算方法，并不限定于一种计算方法。

为验证本申请的方法的有效性，本方法采用AffectNet人脸表情数据集，其包含七类基本人脸表情：愤怒，厌恶，恐惧，高兴，自然，悲伤，惊讶等。其数据(包括训练集和验证集，验证集也称测试集)分布如下表1所示：

表1

	愤怒	厌恶	恐惧	高兴	自然	悲伤	惊讶
训练集	25382	4303	6878	134915	75374	25959	14590
验证集	500	500	500	500	500	500	500

其中，AffectNet数据集中7种基本表情的数据分布如表2所示。

表2

	愤怒	厌恶	恐惧	高兴	自然	悲伤	惊讶	平均
Landmark-Linear	11.4	28.4	9.6	67.6	10.2	35.6	39.3	28.9
Landmark-SVM	20.7	0.0	0.0	100.0	3.3	2.9	9.8	19.5
Landmark-GCN	46.1	47.2	47.4	80.3	47.5	43.0	47.5	51.3

其中，不同人脸关键点模型在七种表情下的识别准确率和平均识别准确率如表3所示。

表3

由于采用了基于图神经网络的表情识别，为验证本申请提出的基于图神经网络的人脸关键点特征提取的有效性，表2给出了基于图神经网络的关键点特征的表情识别模型(Landmark-GCN)在AffectNet七种表情下的识别准确率，最后一列为平均识别准确率，表2中同时给出了基于手工设计特征的关键点人脸表情识别模型：线性分类模型(Landmark-Linear)和SVM分类模型(Landmark-SVM)的分类准确率，可以看出，表3中本方法提出的图神经网络所提取的人脸关键点特征具备很好的判别性，其识别效果显著优于基于手工设计特征的模型。

在采用基于多模特信息融合的人脸表情识别方案时，表3给出了基于RGB图像特征的表情识别，基于图神经网络的人脸关键点的表情识别和基于多模态融合的表情识别在AffectNet七种表情下的识别准确率和平均识别准确率。可以看出，本申请实施例提出的基于RGB图像和人脸关键点的多模态表情识别方法取得了最高的平均识别准确率。

本申请提出了一种多模态信息融合的人脸表情识别方法。该方法同时考虑了RGB图像和人脸关键点的互补信息，可以显著提升人脸表情识别的准确率。该申请适用于提升人机交互产品中的用户体验，辅助商场、银行等分析顾客的满意度以及辅助动画表情模拟和生成等。

本申请实施例依据人脸结构信息构建人脸关键点图网络结构，人脸关键点的个数和位置不限于图7所示，人脸关键点的图网络结构不限于图8所示，可以是任意个数的关键点和任意的图网络结构。本申请实施例采取卷积神经网络和图神经网络分别对RGB图像和人脸关键点进行建模，不限定某一种卷积神经网络或图神经网络。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

本申请实施例提供了一种用于实施上述面部表情的识别方法的面部表情的识别装置。图9是本申请实施例的一种面部表情的识别装置的示意图，如图9所示，该装置可以包括：第一获取单元901、识别单元903以及响应单元905(其中，本申请实施例可对第一获取单元901和响应单元905进行适应的选用)。

第一获取单元901，配置为获取终端的识别请求，其中，识别请求用于请求识别第一图像中对象面部的表情类型。

识别单元903，配置为从第一图像中像素点的颜色信息中提取第一特征；从第一图像中提取面部关键点的第二特征；将第一特征和第二特征进行融合处理，得到融合特征，通过融合特征确定第一图像中对象面部的第一表情类型。

响应单元905，配置为响应于识别请求，向终端返回识别出的第一表情类型。

需要说明的是，该实施例中的第一获取单元901可以配置为执行本申请实施例中的步骤S202，该实施例中的识别单元903可以配置为执行本申请实施例中的步骤S204，该实施例中的响应单元905可以配置为执行本申请实施例中的步骤S206。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现。

通过上述模块，利用神经网络模型从第一图像中识别出第一表情类型，神经网络模型用于根据第一图像中像素点的颜色信息提取第一特征、从第一图像中提取面部关键点的第二特征以及利用第一特征和第二特征确定第一图像中对象面部的第一表情类型；通过融合图像特征和面部关键点特征，可以提高识别人脸表情类型的准确度，进而达到准确识别面部表情的技术效果。

在一些实施例中，识别单元可包括：处理模块，配置为通过卷积神经网络，从第一图像中像素点的颜色信息提取用于表示第一图像中纹理的第一特征，并通过图神经网络，提取用于表示面部关键点之间关联的第二特征，其中，面部关键点用于表示对象面部的组成部分和/或面部轮廓；通过融合层，对第一特征和第二特征进行特征融合处理，以得到融合特征；识别模块，配置为通过分类网络，从多个表情类型中识别出与融合特征对应的第一表情类型。

在一些实施例中，处理模块还可配置为：基于第一特征和第二特征的权重，对第一特征和第二特征进行加权求和，并将加权求和的结果作为融合特征；或者，对第一特征和第二特征进行拼接处理，以得到融合特征。

在一些实施例中，处理模块还可配置为：将第一图像中像素点的颜色编码作为卷积神经网络的输入，其中，卷积神经网络用于对第一图像中像素点的颜色编码执行卷积操作，得到第一特征；获取卷积神经网络输出的第一特征。

在一些实施例中，处理模块在将第一图像中像素点的颜色编码作为卷积神经网络的输入时，还可配置为：当第一图像中的参考点在第一图像中的位置、与图片模板中的参考点在图片模板中的位置不同时，对第一图像进行裁剪操作和/或缩放操作，得到第二图像，以使第二图像中的参考点在第二图像中的位置、与图片模板中的参考点在图片模板中的位置相同；将第二图像中像素点的颜色编码作为卷积神经网络的输入。

在一些实施例中，处理模块还可配置为：在第一面部图中增加第一图像中节点对应的面部关键点的位置，以得到第二面部图，其中，第一面部图包括表示面部关键点的节点、位于节点之间的表示面部关键点之间存在关联关系的边以及边的关联权重；对第二面部图进行特征提取得到第二特征。

在一些实施例中，处理模块还可配置为根据多张第三图像确定面部关键点、关键点之间的关联关系以及关键点之间的关联权重，其中，第三图像为标识有表情类型的图像；以面部关键点为节点，连接位于节点之间的用于表示面部关键点之间存在关联关系的边，并将存在关联关系的关键点之间的关联权重作为边的权重，以得到第一面部图。

在一些实施例中，上述装置还可包括：第二获取单元，配置为获取训练集，其中，训练集中的训练图像标识有表情类型且颜色编码类型与第一图像相同；训练单元，配置为将训练集中的训练图像作为神经网络模型的输入，对神经网络模型进行训练得到初始神经网络模型，其中，初始神经网络模型是以训练集中的训练图像为输入，并以训练图像标识的表情类型为预计输出时，初始化神经网络模型的网络层中的权重后得到的；第三获取单元，配置为获取以测试集中的测试图像为初始神经网络模型的输入时初始神经网络模型输出的第二表情类型，其中，测试集中的测试图像标识有表情类型且颜色编码类型与第一图像相同；确定单元，配置为配置为当初始神经网络模型输出的第二表情类型、与测试集中的测试图像标识的表情类型之间的匹配正确率达到目标阈值时，将初始神经网络模型作为训练好的神经网络模型；其中，训练单元还配置为当初始神经网络模型输出的第二表情类型、与测试集中的测试图像标识的表情类型之间的匹配正确率小于目标阈值时，将训练集中的训练图像作为初始神经网络模型的输入，继续对初始神经网络模型进行训练，直至初始神经网络模型输出的第二表情类型、与测试集中的测试图像标识的表情类型之间的匹配正确率达到目标阈值。

在一些实施例中，上述装置还可包括：反馈单元，配置为获取反馈信息，其中，反馈信息用于指示识别出的第一表情类型是否正确；当反馈信息指示识别出的第一表情类型不正确时，使用与第一图像具备相同的图像特征的第四图像对神经网络模型进行训练。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现，其中，硬件环境包括网络环境。

本申请实施例提供了一种用于实施上述面部表情的识别方法的服务器或终端。

图10是本申请实施例的一种终端的结构框图，如图10所示，该终端可以包括：一个或多个(图10中仅示出一个)处理器1001、存储器1003、以及传输装置1005，如图10所示，该终端还可以包括输入输出设备1007。

其中，存储器1003可用于存储软件程序以及模块，如本申请实施例中的面部表情的识别方法和装置对应的程序指令/模块，处理器1001通过运行存储在存储器1003内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的面部表情的识别方法。存储器1003可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1003可包括相对于处理器1001远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置1005用于经由一个网络接收或者发送数据，还可以用于处理器与存储器之间的数据传输。上述的网络实例可包括有线网络及无线网络。在一个实例中，传输装置1005包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1005为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，存储器1003用于存储应用程序。

处理器1001可以通过传输装置1005调用存储器1003存储的应用程序，以执行下述步骤：

获取终端的识别请求，其中，识别请求用于请求识别第一图像中对象面部的表情类型；

从第一图像中像素点的颜色信息中提取第一特征；

从第一图像中提取面部关键点的第二特征；

将第一特征和第二特征进行融合处理，得到融合特征；

通过融合特征确定第一图像中对象面部的第一表情类型；

响应于识别请求，向终端返回识别出的第一表情类型。

处理器1001还用于执行下述步骤：

获取训练集，其中，训练集中的训练图像标识有表情类型且颜色编码类型与第一图像相同；

将训练集中的训练图像作为神经网络模型的输入，对神经网络模型进行训练得到初始神经网络模型，其中，初始神经网络模型是以训练集中的训练图像为输入并以训练图像标识的表情类型为预计输出时，初始化神经网络模型的网络层中的权重后得到的；

获取以测试集中的测试图像为初始神经网络模型的输入时初始神经网络模型输出的第二表情类型，其中，测试集中的测试图像标识有表情类型且颜色编码类型与第一图像相同；

当初始神经网络模型输出的第二表情类型与测试集中的测试图像标识的表情类型之间的匹配正确率达到目标阈值时，将初始神经网络模型作为训练好的神经网络模型；

当初始神经网络模型输出的第二表情类型与测试集中的测试图像标识的表情类型之间的匹配正确率小于目标阈值时，将训练集中的训练图像作为初始神经网络模型的输入，继续对初始神经网络模型进行训练，直至初始神经网络模型输出的第二表情类型与测试集中的测试图像标识的表情类型之间的匹配正确率达到目标阈值。

采用本申请实施例，获取终端的识别请求，识别请求用于请求识别第一图像中对象面部的表情类型；利用神经网络模型从第一图像中识别出第一表情类型，神经网络模型用于根据第一图像中像素点的颜色信息提取第一特征、从第一图像中提取面部关键点的第二特征以及利用第一特征和第二特征确定第一图像中对象面部的第一表情类型；响应于识别请求，向终端返回识别出的第一表情类型，通过融合图像特征和面部关键点特征，可以提高识别人脸表情类型的准确度，进而达到准确识别面部表情的技术效果。

例如，本实施例中的示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图10所示的结构仅为示意，终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图10其并不对上述电子设备的结构造成限定。例如，终端还可包括比图10中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图10所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，计算机可读存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

本申请实施例还提供了一种计算机可读存储介质。例如，上述计算机可读存储介质可以用于执行面部表情的识别方法的程序代码。

例如，在本实施例中，上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

例如，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：

从第一图像中像素点的颜色信息中提取第一特征；

从第一图像中提取面部关键点的第二特征；

将第一特征和第二特征进行融合处理，得到融合特征；

通过融合特征确定第一图像中对象面部的第一表情类型；

响应于识别请求，向终端返回识别出的第一表情类型。

例如，计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码：

在初始神经网络模型输出的第二表情类型与测试集中的测试图像标识的表情类型之间的匹配正确率达到目标阈值的情况下，将初始神经网络模型作为训练好的神经网络模型；

在初始神经网络模型输出的第二表情类型与测试集中的测试图像标识的表情类型之间的匹配正确率小于目标阈值的情况下，将训练集中的训练图像作为初始神经网络模型的输入，继续对初始神经网络模型进行训练，直至初始神经网络模型输出的第二表情类型与测试集中的测试图像标识的表情类型之间的匹配正确率达到目标阈值。

例如，本申请实施例中的示例可以参考上述实施例中所描述的示例，本申请实施例在此不再赘述。

例如，在一些实施例中，上述计算机可读存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

工业实用性

本申请实施例中通过电子设备从第一图像中像素点的颜色信息中提取第一特征，从第一图像中提取面部关键点的第二特征，并根据第一特征和第二特征进行融合所得到的融合特征，确定出第一图像中对象面部的第一表情类型。如此，提高识别人脸表情类型的准确度，进而达到准确识别面部表情的目的。

Claims

一种面部表情的识别方法，所述方法由电子设备执行，所述方法包括：

从第一图像中像素点的颜色信息中提取第一特征；

从所述第一图像中提取面部关键点的第二特征；

将所述第一特征和所述第二特征进行融合处理，得到融合特征；

通过所述融合特征确定所述第一图像中对象面部的第一表情类型。
根据权利要求1所述的方法，其中，

所述从第一图像中像素点的颜色信息中提取第一特征，包括：

通过卷积神经网络执行以下处理：

从所述第一图像中像素点的颜色信息中提取用于表示所述第一图像中纹理的所述第一特征；

所述从所述第一图像中提取面部关键点的第二特征，包括：

通过图神经网络执行以下处理：

提取用于表示所述面部关键点之间关联的所述第二特征，其中，所述面部关键点用于表示对象面部的组成部分和/或面部轮廓；

所述将所述第一特征和所述第二特征进行融合处理，得到融合特征，包括：

通过融合层执行以下处理：

对所述第一特征和所述第二特征进行特征融合处理，以得到融合特征；

所述通过所述融合特征确定所述第一图像中对象面部的第一表情类型，包括：

通过分类网络执行以下处理：

从多个表情类型中识别出与所述融合特征对应的所述第一表情类型。
根据权利要求2所述的方法，其中，所述从所述第一图像中像素点的颜色信息提取用于表示所述第一图像中纹理的所述第一特征，包括：

将所述第一图像中像素点的颜色编码作为所述卷积神经网络的输入，其中，所述卷积神经网络用于对所述第一图像中像素点的颜色编码执行卷积操作，得到所述第一特征；

获取所述卷积神经网络输出的所述第一特征。
根据权利要求3所述的方法，其中，所述将所述第一图像中像素点的颜色编码作为所述卷积神经网络的输入，包括：

当所述第一图像中的参考点在所述第一图像中的位置、与图片模板中的参考点在所述图片模板中的位置不同时，对所述第一图像进行裁剪操作和/或缩放操作，得到第二图像，以使所述第二图像中的参考点在所述第二图像中的位置、与所述图片模板中的参考点在所述图片模板中的位置相同；

将所述第二图像中像素点的颜色编码作为所述卷积神经网络的输入。
根据权利要求2所述的方法，其中，所述提取用于表示所述面部关键点之间关联的所述第二特征，包括：

在第一面部图中增加所述第一图像中节点对应的所述面部关键点的位置，以得到第二面部图，其中，所述第一面部图包括表示所述面部关键点的节点、位于节点之间的表示所述面部关键点之间存在关联关系的边以及边的关联权重；

对所述第二面部图进行特征提取得到所述第二特征。
根据权利要求5所述的方法，其中，所述在得到第二面部图之前，所述方法包括：

根据多张第三图像确定所述面部关键点、所述关键点之间的关联关系以及所述关键点之间的关联权重，其中，所述第三图像为标识有表情类型的图像；

以所述面部关键点为节点，连接位于节点之间的用于表示所述面部关键点之间存在关联关系的边，并将存在关联关系的所述关键点之间的关联权重作为边的权重，以得到所述第一面部图。
根据权利要求1所述的方法，其中，所述将所述第一特征和所述第二特征进行融合处理，得到融合特征，包括：

基于所述第一特征和所述第二特征的权重，对所述第一特征和所述第二特征进行加权求和，并将加权求和的结果作为所述融合特征；或者，

对所述第一特征和所述第二特征进行拼接处理，以得到所述融合特征。
根据权利要求1所述的方法，其中，所述在确定所述第一图像中对象面部的第一表情类型之前，所述方法包括：

获取训练集，其中，所述训练集中的训练图像标识有表情类型且颜色编码类型与所述第一图像相同；

将所述训练集中的训练图像作为神经网络模型的输入，对所述神经网络模型进行训练得到初始神经网络模型，其中，所述初始神经网络模型是以所述训练集中的训练图像为输入，并以所述训练图像标识的表情类型为预计输出时，初始化所述神经网络模型的网络层中的权重后得到的；

获取以测试集中的测试图像为所述初始神经网络模型的输入时，所述初始神经网络模型输出的第二表情类型，其中，所述测试集中的测试图像标识有表情类型且颜色编码类型与所述第一图像相同；

当所述初始神经网络模型输出的第二表情类型、与所述测试集中的测试图像标识的表情类型之间的匹配正确率达到目标阈值时，将所述初始神经网络模型作为所述训练好的神经网络模型；

当所述初始神经网络模型输出的第二表情类型、与所述测试集中的测试图像标识的表情类型之间的匹配正确率小于所述目标阈值时，将所述训练集中的训练图像作为所述初始神经网络模型的输入，继续对所述初始神经网络模型进行训练，直至所述初始神经网络模型输出的第二表情类型、与所述测试集中的测试图像标识的表情类型之间的匹配正确率达到所述目标阈值。
根据权利要求1至8中任意一项所述的方法，其中，所述方法还包括：

向终端返回识别出的所述第一表情类型；

获取所述终端的反馈信息，其中，所述反馈信息用于指示识别出的所述第一表情类型是否正确；

当所述反馈信息指示识别出的所述第一表情类型不正确时，使用与所述第一图像具备相同的图像特征的第四图像对所述神经网络模型进行训练。
一种面部表情的识别装置，包括：

识别单元，配置为从第一图像中像素点的颜色信息中提取第一特征；

从所述第一图像中提取面部关键点的第二特征；

将所述第一特征和所述第二特征进行融合处理，得到融合特征，通过所述融合特征确定所述第一图像中对象面部的第一表情类型。
根据权利要求10所述的装置，其中，

所述识别单元包括：

处理模块，配置为通过卷积神经网络，从所述第一图像中像素点的颜色信息提取用于表示所述第一图像中纹理的所述第一特征，并通过图神经网络，提取用于表示所述面部关键点之间关联的所述第二特征，其中，所述面部关键点用于表示对象面部的组成部分和/或面部轮廓；通过融合层，对所述第一特征和所述第二特征进行特征融合处理，以得到融合特征；

识别模块，配置为通过分类网络，从多个表情类型中识别出与所述第一特征和所述第二特征对应的所述第一表情类型。
根据权利要求11所述的装置，其中，所述处理模块还配置为：

将所述第一图像中像素点的颜色编码作为所述卷积神经网络的输入，其中，所述卷积神经网络用于对所述第一图像中像素点的颜色编码执行卷积操作，得到所述第一特征；

获取所述卷积神经网络输出的所述第一特征。
根据权利要求11所述的装置，其中，所述处理模块还配置为：

在第一面部图中增加所述第一图像中节点对应的所述面部关键点的位置，以得到第二面部图，其中，所述第一面部图包括表示所述面部关键点的节点、位于节点之间的表示所述面部关键点之间存在关联关系的边以及边的关联权重；

对所述第二面部图进行特征提取得到所述第二特征。
根据权利要求10所述的装置，其中，所述装置包括：

第二获取单元，配置为获取训练集，其中，所述训练集中的训练图像标识有表情类型且颜色编码类型与所述第一图像相同；

训练单元，配置为将所述训练集中的训练图像作为神经网络模型的输入，对所述神经网络模型进行训练得到初始神经网络模型，其中，所述初始神经网络模型是以所述训练集中的训练图像为输入，并以所述训练图像标识的表情类型为预计输出时，初始化所述神经网络模型的网络层中的权重后得到的；

第三获取单元，配置为获取以测试集中的测试图像为所述初始神经网络模型的输入时所述初始神经网络模型输出的第二表情类型，其中，所述测试集中的测试图像标识有表情类型且颜色编码类型与所述第一图像相同；

确定单元，配置为当所述初始神经网络模型输出的第二表情类型、与所述测试集中的测试图像标识的表情类型之间的匹配正确率达到目标阈值时，将所述初始神经网络模型作为所述神经网络模型；

其中，所述训练单元还配置为当所述初始神经网络模型输出的第二表情类型、与所述测试集中的测试图像标识的表情类型之间的匹配正确率小于所述目标阈值时，将所述训练集中的训练图像作为所述初始神经网络模型的输入，继续对所述初始神经网络模型进行训练，直至所述初始神经网络模型输出的第二表情类型、与所述测试集中的测试图像标识的表情类型之间的匹配正确率达到所述目标阈值。
一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，所述程序运行时执行上述权利要求1至9任一项中所述的方法。
一种电子设备，包括存储器以及处理器；

其中，所述存储器用于存储计算机程序；

所述处理器用于运行所述存储器中的计算机程序，通过所述计算机程序执行上述权利要求1至9任一项中所述的方法。