WO2020108041A1

WO2020108041A1 - 耳部关键点检测方法、装置及存储介质

Info

Publication number: WO2020108041A1
Application number: PCT/CN2019/107104
Authority: WO
Inventors: 李宣平; 李岩; 张国鑫
Original assignee: 北京达佳互联信息技术有限公司
Priority date: 2018-11-28
Filing date: 2019-09-20
Publication date: 2020-06-04
Also published as: CN109522863B; CN109522863A

Abstract

本申请是关于一种耳部关键点检测方法、装置及存储介质，属于图像处理领域。方法包括：获取人脸图像，所述人脸图像包括人脸轮廓关键点，所述人脸轮廓关键点用于确定所述人脸图像中的耳部区域；获取耳部关键点检测模型，所述耳部关键点检测模型用于检测任一耳部区域中的耳部关键点；基于所述耳部关键点检测模型和所述人脸轮廓关键点在所述人脸图像中的位置，检测所述人脸图像中的耳部关键点。通过采用人脸轮廓关键点确定耳部区域，并采用耳部关键点检测模型检测人脸图像中的耳部关键点，考虑到了耳部区域与人脸轮廓之间的位置关系，还通过耳部关键点检测模型学习到在耳部区域中检测耳部关键点的方式，提高了耳部关键点的准确性，降低了误差。

Description

耳部关键点检测方法、装置及存储介质

本申请要求在2018年11月28日提交中国专利局、申请号为201811437331.6、发明名称为“耳部关键点检测方法、装置及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请属于图像处理领域，尤其涉及一种耳部关键点检测方法、装置及存储介质。

背景技术

近年来，随着图像处理技术的快速发展和广泛应用，在虚拟现实、短视频等多种领域，通常需要检测人脸图像中的耳部关键点，根据检测到的耳部关键点对人脸图像中的耳部区域进行操作，如添加装饰品的操作等。

在包含耳部区域的人脸图像中移动一定大小的圆形区域，对位于该圆形区域内的人脸图像进行扫描，根据耳部区域不同部位像素点的灰度不同的特点，将灰度突出的像素点确定为外耳廓边缘点，从而通过多次移动该圆形区域确定多个外耳廓边缘点，根据该多个外耳廓边缘点确定人脸图像的耳部区域，根据该耳部区域中各个像素点的灰度确定耳部关键点。

发明人发现，上述方案仅是根据耳部区域中各个像素点的灰度确定耳部关键点，导致检测到的耳部关键点不够准确，误差较大。

发明内容

为克服相关技术中存在的问题，本申请公开一种耳部关键点检测方法、装置及存储介质。

根据本申请实施例的第一方面，提供一种耳部关键点检测方法，所述方法包括：

获取人脸图像，所述人脸图像包括人脸轮廓关键点，所述人脸轮廓关键点用于确定所述人脸图像中的耳部区域；

获取耳部关键点检测模型，所述耳部关键点检测模型用于检测任一耳部区域中的耳部关键点；

基于所述耳部关键点检测模型和所述人脸轮廓关键点在所述人脸图像中的位置，检测所述人脸图像中的耳部关键点。

根据本申请实施例的第二方面，提供一种耳部关键点检测装置，所述装置包括：

图像获取单元，被配置为获取人脸图像，所述人脸图像包括人脸轮廓关键点，所述人脸轮廓关键点用于确定所述人脸图像中的耳部区域；

模型获取单元，被配置为获取耳部关键点检测模型，所述耳部关键点检测模型用于检测任一耳部区域中的耳部关键点；

确定单元，被配置为基于所述耳部关键点检测模型和所述人脸轮廓关键点在所述人脸图像中的位置，检测所述人脸图像中的耳部关键点。

根据本申请实施例的第三方面，提供一种耳部关键点检测装置，所述装置包括：

处理器；

用于存储处理器可执行命令的存储器；

其中，所述处理器被配置为：

根据本申请实施例提供的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由检测装置的处理器执行时，使得检测装置能够执行一种耳部关键点检测方法，所述方法包括：

根据本申请实施例的第五方面，提供一种应用程序/计算机程序产品，当所述应用程序/计算机程序产品中的指令由检测装置的处理器执行时，使得检测装置能够执行一种耳部关键点检测方法，所述方法包括：

本申请的实施例提供的技术方案可以包括以下有益效果：

通过获取包括人脸轮廓关键点的人脸图像，获取耳部关键点检测模型，人脸轮廓关键点用于确定人脸图像中的耳部区域，耳部关键点检测模型用于检测耳部区域中的耳部关键点，则基于耳部关键点检测模型和人脸轮廓关键点，检测人脸图像中的耳部关键点。通过采用人脸轮廓关键点确定耳部区域，并采用耳部关键点检测模型检测人脸图像中的耳部关键点，考虑到了耳部区域与人脸轮廓之间的位置关系，还通过耳部关键点检测模型学习到在耳部区域中检测耳部关键点的方式，提高了耳部关键点的准确性，降低了误差。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种耳部关键点检测方法的流程图；

图2是根据一示例性实施例示出的一种耳部关键点检测方法的流程图；

图3是根据一示例性实施例示出的一种人脸图像的示意图；

图4是根据一示例性实施例示出的一种耳部关键点检测方法的流程图；

图5是根据一示例性实施例示出的一种耳部关键点检测装置的框图；

图6是根据一示例性实施例示出的一种用于耳部关键点检测的终端的框图；

图7是根据一示例性实施例示出的一种服务器的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种耳部关键点检测方法的流程图，如图1所示，该耳部关键点检测方法用于检测装置中，包括以下步骤：

在步骤101中，获取人脸图像，人脸图像包括人脸轮廓关键点，人脸轮廓关键点用于确定人脸图像中的耳部区域。

在步骤102中，获取耳部关键点检测模型，耳部关键点检测模型用于检测任一耳部区域中的耳部关键点。

在步骤103中，基于耳部关键点检测模型和人脸轮廓关键点在人脸图像中的位置，检测人脸图像中的耳部关键点。

本申请实施例提供的方法，通过获取包括人脸轮廓关键点的人脸图像，获取耳部关键点检测模型，人脸轮廓关键点用于确定人脸图像中的耳部区域，耳部关键点检测模型用于检测耳部区域中的耳部关键点，则基于耳部关键点检测模型和人脸轮廓关键点，检测人脸图像中的耳部关键点。通过采用人脸轮廓关键点确定耳部区域，并采用耳部关键点检测模型检测人脸图像中的耳部关键点，考虑到了耳部区域与人脸轮廓之间的位置关系，还通过耳部关键点检测模型学习到在耳部区域中检测耳部关键点的方式，提高了耳部关键点的准确性，降低了误差。

在一种可能实现的方式中，基于耳部关键点检测模型和人脸轮廓关键点在人脸图像中的位置，检测人脸图像中的耳部关键点，包括：

根据人脸轮廓关键点在人脸图像中的位置，确定人脸图像中的第一耳部区域和第二耳部区域；

基于耳部关键点检测模型、第一耳部区域和第二耳部区域，检测第一耳部区域中的耳部关键点和第二耳部区域中的耳部关键点；

根据确定的每个耳部关键点在所处耳部区域中的位置以及第一耳部区域和第二耳部区域在人脸图像中的位置，确定每个耳部关键点在人脸图像中的位置。

在另一种可能实现的方式中，根据人脸轮廓关键点在人脸图像中的位置，确定人脸图像中的第一耳部区域和第二耳部区域，包括：

获取人脸轮廓关键点中的第一指定关键点和第二指定关键点；

确定包括第一指定关键点的第一耳部区域，以及包括第二指定关键点的第二耳部区域。

在另一种可能实现的方式中，第一耳部区域属于第一类耳部区域，第二耳部区域属于第二类耳部区域，第一类耳部区域为位于人脸第一侧的耳部区域，第二类耳部区域为位于人脸第二侧的耳部区域；

基于耳部关键点检测模型、第一耳部区域和第二耳部区域，检测第一耳部区域中的耳部关键点和第二耳部区域中的耳部关键点，包括：

将第一耳部区域进行水平翻转，得到第三耳部区域，第三耳部区域属于第二类耳部区域；

基于耳部关键点检测模型、第二耳部区域和第三耳部区域，确定第二耳部区域中的耳部关键点和第三耳部区域中的耳部关键点；

将包含耳部关键点的第三耳部区域进行水平翻转，得到包含耳部关键点的第一耳部区域。

在另一种可能实现的方式中，方法还包括：

获取多个样本图像，每个样本图像包括耳部区域以及耳部区域中的耳部关键点；

分别从多个样本图像中提取耳部区域；

根据提取的耳部区域和耳部区域中的耳部关键点进行模型训练，得到耳部关键点检测模型。

在另一种可能实现的方式中，根据提取的耳部区域和耳部区域中的耳部关键点进行模型训练，得到耳部关键点检测模型，包括：

将提取的耳部区域中的第一类耳部区域进行水平翻转，得到翻转后的耳部区域，第一类耳部区域为位于人脸第一侧的耳部区域；

将提取的耳部区域中的第二类耳部区域和翻转后的耳部区域确定为样本耳部区域，第二类耳部区域为位于人脸第二侧的耳部区域；

根据样本耳部区域以及样本耳部区域中的耳部关键点进行模型训练，得到耳部关键点检测模型。

图2是根据一示例性实施例示出的一种耳部关键点检测方法的流程图，如图2所示，该耳部关键点检测方法用于检测装置中，检测装置可以为手机、计算机、服务器、摄像头、监控设备等具有图像处理功能的装置，该方法包括以下步骤：

在步骤201中，获取人脸图像，人脸图像包括人脸轮廓关键点。

其中，该人脸图像可以由检测装置拍摄得到，或者从检测装置拍摄到的视频图像中提取得到，或者由检测装置从互联网中下载得到，或者由其他设备发送给检测装置。或者，在检测装置进行视频直播的过程中，可以获取视频流中的每张图像，将每张图片分别作为待检测的人脸图像，以便对视频流中的每张图像进行耳部关键点的检测。

人脸图像中包括多个人脸轮廓关键点，即人脸图像中的人脸轮廓上的关键点，该多个人脸轮廓关键点连接构成人脸轮廓。例如，人脸图像中包括19个人脸轮廓关键点，该19个人脸轮廓关键点均匀分布在人脸图像中的人脸轮廓上。

该多个人脸轮廓关键点通过对人脸图像进行人脸检测得到，该人脸检测过程中所采用的人脸检测算法可以基于人脸特征点的识别算法、基于模板的识别算法以及基于神经网络的识别算法等。当检测装置获取到原始的人脸图像时，对该人脸图像进行人脸检测，得到人脸图像中的多个人脸轮廓关键点。或者，其他设备对该人脸图像进行人脸检测，得到人脸图像中的多个人脸轮廓关键点后，将包括多个人脸轮廓关键点的人脸图像发送给检测装置。

在步骤202中，获取耳部关键点检测模型，耳部关键点检测模型用于检测任一耳部区域中的耳部关键点。

本申请实施例中，基于耳部关键点检测模型可以对任一耳部区域中的耳部关键点进行检测，从而确定该人脸图像中的耳部关键点。

该耳部关键点检测模型可以由检测装置训练得到，并由该检测装置存储，或者，该耳部关键点检测模型可以由其他设备训练后发送给检测装置，并由该检测装置存储。

在一种可能实现的方式中，在训练耳部关键点检测模型时，先构建初始的耳部关键点检测模型，获取多个样本图像，每个样本图像包括耳部区域以及耳部区域中的耳部关键点，分别从多个样本图像中提取耳部区域，根据提取的耳部区域和耳部区域中的耳部关键点进行模型训练，得到耳部关键点检测模型。

其中，在训练过程中，将多个耳部区域以及对应的耳部关键点划分为训练数据集和测试数据集，将训练数据集中的多个耳部区域作为耳部关键点检测模型的输入，将耳部关键点在对应耳部区域中的位置作为耳部关键点检测模型的输出，对耳部关键点检测模型进行训练，使耳部关键点检测模型对耳部关键点的检测方式进行学习，具备检测耳部关键点的能力。之后，将测试数据集中的每个耳部区域输入到耳部关键点检测模型中，基于耳部关键点检测模型确定测试耳部关键点在所处耳部区域中的位置，将测试耳部关键点在所处耳部区域中的位置与标注的实际耳部关键点在所处耳部区域中的位置进行对比，根据对比结果对耳部关键点检测模型进行修正，以提高耳部关键点检测模型的准确性。

在一种可能实现的方式中，在训练耳部关键点检测模型时可以采用预设训练算法，该预设训练算法可以为卷积神经网络算法、决策树算法、人工神经网络算法等。相应地，训练出的耳部关键点检测模型可以为卷积神经网络模型、决策树模型或人工神经网络模型等。

在步骤203中，根据人脸轮廓关键点在人脸图像中的位置，确定人脸图像中的第一耳部区域和第二耳部区域。

本申请实施例中，检测装置基于耳部关键点检测模型和人脸轮廓关键点在人脸图像中的位置，检测人脸图像中的耳部关键点。

人脸轮廓关键点用于确定包括人脸图像中整个耳部的耳部区域，由于人脸轮廓与耳部区域之间存在着固定的相对位置关系，因此根据该相对位置关系以及人脸轮廓关键点在人脸图像中的位置，可以确定人脸图像中的耳部区域，以便进行耳部关键点的检测。

其中，由于人脸图像中通常会包括左耳部区域和右耳部区域，因此在确定人脸图像中的耳部区域时，会确定第一耳部区域和第二耳部区域，其中第一耳部区域为左耳部区域，第二耳部区域为右耳部区域，或者，第一耳部区域为右耳部区域，第二耳部区域为左耳部区域。

人脸图像中通常包括人脸区域、耳部区域和其他区域，根据人脸轮廓关键点来提取耳部区域，能够利用耳部与人脸轮廓相邻的先验知识，排除耳部区域以外的其他区域，仅根据耳部区域进行检测，既减小了计算量，还能够排除无关区域的干扰，提高准确性。

人脸图像中的多个人脸轮廓关键点位于人脸图像中的不同位置，该多个人脸轮廓关键点与耳部区域的相对位置关系也有所不同，因此为了提取到准确的耳部区域，可以先基于该多个人脸轮廓关键点在人脸轮廓中所处的位置，确定与耳部区域距离最近的人脸轮廓关键点，作为指定关键点，根据指定关键点确定人脸图像中的耳部区域。

在一种可能实现的方式中，获取人脸轮廓关键点中的第一指定关键点和第二指定关键点，该第一指定关键点和第二指定关键点为距离耳部区域最近的人脸轮廓关键点，确定包括第一指定关键点的第一耳部区域，以及包括第二指定关键点的第二耳部区域。

其中，该第一指定关键点和第二指定关键点预先根据多个人脸轮廓关键点与耳部之间的距离确定，如当采用人脸检测算法得到在人脸轮廓中依次排列且数量固定的多个人脸轮廓关键点时，可以预先确定与耳部之间的距离最近的两个关键点的序号。则当采用上述人脸检测算法，获取到包括多个人脸轮廓关键点的人脸图像时，根据确定的两个序号即可从人脸图像中确定第一指定关键点和第二指定关键点。

可选地，确定第一指定关键点和第二指定关键点后，根据第一指定关键点和第二指定关键点在人脸图像中的位置，按照固定的尺寸和形状，确定包括第一指定关键点的第一耳部区域和包括第二指定关键点的第二耳部区域。其中，该尺寸根据一般人脸的尺寸设定，以使确定的耳部区域能够包括整个耳部，该形状可以为矩形、圆形、与人耳类似的形状或者其他形状。

另外，在确定耳部区域的位置时，可以根据第一指定关键点和第二指定关键点与对应耳部区域之间的相对位置关系确定。如图3所示，第一指定关键点和第二指定关键点为人脸轮廓中距离耳垂最近的人脸轮廓关键点，则可以将第一指定关键点和第二指定关键点分别作为待提取耳部区域的中心，或者分别作为待提取耳部区域的下边缘的中心，提取第一耳部区域和第二耳部区域。

当第一指定关键点为距离人脸图像中左耳部区域最近的人脸轮廓关键点，第二指定关键点为距离人脸图像中右耳部区域最近的人脸轮廓关键点时，第一耳部区域为左耳部区域，第二耳部区域为右耳部区域。当第一指定关键点为距离人脸图像中右耳部区域最近的人脸轮廓关键点，第二指定关键点为距离人脸图像中左耳部区域最近的人脸轮廓关键点时，第一耳部区域为右耳部区域，第二耳部区域为左耳部区域。

在步骤204中，基于耳部关键点检测模型、第一耳部区域和第二耳部区域，检测第一耳部区域中的耳部关键点和第二耳部区域中的耳部关键点。

在一种可能实现的方式中，检测装置将第一耳部区域和第二耳部区域分别输入至耳部关键点检测模型中，基于耳部关键点检测模型，对第一耳部区域的耳部关键点和第二耳部区域的耳部关键点分别进行检测，从而确定第一耳部区域中的耳部关键点和第二耳部区域中的耳部关键点。

在步骤205中，根据确定的每个耳部关键点在所处耳部区域中的位置以及第一耳部区域和第二耳部区域在人脸图像中的位置，确定每个耳部关键点在人脸图像中的位置。

上述步骤204中检测第一耳部区域和第二耳部区域中的耳部关键点，实际上是确定了耳部关键点在所处耳部区域中的位置。因此，根据耳部关键点在所处耳部区域中的位置以及耳部区域在人脸图像中的位置，确定耳部关键点在人脸图像中的位置。

在一种可能实现的方式中，将人脸图像中的某一点(如指定关键点)确定为耳部区域的原点，创建坐标系，则确定耳部关键点在所处耳部区域中的坐标后，将耳部关键点在所处耳部区域中的坐标与该原点在人脸图像中的坐标进行叠加，得到耳部关键点在人脸图像中的坐标，从而确定耳部关键点在人脸图像中的位置。

通过上述步骤201-205实现耳部关键点的检测之后，即可基于人脸图像中的耳部关键点进行多种操作。如，在进行视频直播的过程中，可以获取视频流中的每张图像，检测出每张图像的耳部关键点后，在某一耳部关键点所在的位置添加虚拟装饰品、贴纸、发光特效等，提升直播效果。

另外，人脸图像中通常包括人脸区域、耳部区域和其他区域，根据人脸轮廓关键点来提取耳部区域，能够利用耳部与人脸轮廓相邻的先验知识，排除耳部区域以外的其他区域，仅根据耳部区域进行检测，既减小了计算量，还能够排除无关区域的干扰，提高准确性。

另外，实现耳部关键点的检测之后，可将耳部关键点作为操作目标，基于人脸图像中的耳部关键点进行多种操作，扩展了应用功能，提高了灵活性，提升了人脸图像的趣味性。

图4是根据一示例性实施例示出的一种耳部关键点检测方法的流程图，如图4所示，该耳部关键点检测方法用于检测装置中，检测装置可以为手机、计算机、服务器、摄像头、监控设备等具有图像处理功能的装置，该方法包括以下步骤：

在步骤401中，获取人脸图像，人脸图像包括人脸轮廓关键点，人脸轮廓关键点用于确定人脸图像中的耳部区域。

该步骤401与上述步骤201类似，详细描述可参见上述步骤201，在此不再赘述。

在步骤402中，获取耳部关键点检测模型。

本申请实施例中，由于图2所示实施例采用的耳部关键点检测模型需要对左耳部区域和右耳部区域分别进行检测，这就需要训练耳部关键点检测模型时，根据左耳部区域和右耳部区域进行训练，以使对耳部关键点的检测方式进行学习，造成耳部关键点检测模型的复杂度高。

为了解决上述问题，本申请实施例中将耳部区域分为第一类耳部区域和第二类耳部区域，第一类耳部区域为位于人脸第一侧的耳部区域，第二类耳部区域为位于人脸第二侧的耳部区域，而耳部关键点检测模型用于检测第二类耳部区域中的耳部关键点，而不再检测第一类耳部区域中的耳部关键点。

其中，第一类耳部区域为左耳部区域，第二类耳部区域为右耳部区域，或者，第一类耳部区域为右耳部区域，第二类耳部区域为左耳部区域。

相应地，训练耳部关键点检测模型的过程中，确定提取的耳部区域所属的类型，将提取的耳部区域中的第一类耳部区域进行水平翻转，得到翻转后的耳部区域，以使翻转后的耳部区域属于第二类耳部区域，将提取的耳部区域中的第二类耳部区域和翻转后的耳部区域确定为样本耳部区域，根据样本耳部区域以及样本耳部区域中的耳部关键点进行模型训练，得到耳部关键点检测模型，以使耳部关键点检测模型能够学习到对第二类耳部区域中的耳部关键点的检测方式。由于耳部关键点检测模型无需学习人脸两侧的耳部关键点的检测方式，只需学习人脸一侧的耳部关键点检测方式即可，因此降低了耳部关键点检测模型的复杂度，提高了训练速度。

其中，在训练过程中，将多个样本耳部区域以及对应的耳部关键点划分为训练数据集和测试数据集，将训练数据集中的多个样本耳部区域作为耳部关键点的输入，将耳部关键点在对应耳部区域中的位置作为耳部关键点检测模型的输出，对耳部关键点检测模型进行训练，使耳部关键点检测模型对第二类耳部区域中的耳部关键点的检测方式进行学习，使耳部关键点检测模型具备检测第二类耳部区域中的耳部关键点的能力。之后，将测试数据集中的每个样本耳部区域输入到耳部关键点检测模型中，基于耳部关键点检测模型确定测试耳部关键点在所处耳部区域中的位置。如果该样本耳部区域为原始的第二类耳部区域，则将检测出的测试耳部关键点与该样本耳部区域中的实际耳部关键点进行对比，根据对比结果对耳部关键点检测模型进行修正，如果该样本耳部区域为第一类耳部区域经过翻转后得到的耳部区域，则将检测出的测试耳部关键点与第一类耳部区域经过翻转后实际的耳部关键点进行对比，根据对比结果对耳部关键点检测模型进行修正。

其中，对任一耳部区域进行水平翻转包括：确定耳部区域中每个像素点在耳部区域中的位置，以及耳部区域的中轴线，根据每个像素点的位置和该中轴线的位置，确定每个像素点关于该中轴线对称的目标位置，将每个像素点的像素信息与对应目标位置上的像素点的像素信息进行交换，实现水平翻转。

在步骤403中，根据人脸轮廓关键点在人脸图像中的位置，确定人脸图像中的第一耳部区域和第二耳部区域。

步骤403与上述步骤203类似，详细描述可参见上述步骤201，在此不再赘述。

在步骤404中，将第一耳部区域进行水平翻转，得到第三耳部区域，第三耳部区域属于第二类耳部区域。

在步骤405中，基于耳部关键点检测模型、第二耳部区域和第三耳部区域，确定第二耳部区域中的耳部关键点和第三耳部区域中的耳部关键点。

在步骤406中，将包含耳部关键点的第三耳部区域进行水平翻转，得到包含耳部关键点的第一耳部区域。

上述图2所示实施例中，基于耳部关键点检测模型对第一类耳部区域和第二类耳部区域均可进行检测，而本申请实施例中，基于耳部关键点检测模型只能对第二类耳部区域进行检测。

因此，在进行检测之前，将属于第一类耳部区域的第一耳部区域进行水平翻转，得到第三耳部区域，以使第三耳部区域属于第二类耳部区域，基于耳部关键点检测模型，对第三耳部区域进行检测。在检测出第三耳部区域中的耳部关键点之后，再将包含耳部关键点的第三耳部区域进行水平翻转，从而确定第一耳部区域中的耳部关键点，实现了对第一类耳部区域的检测。

在步骤407中，根据确定的每个耳部关键点在所处耳部区域中的位置以及第一耳部区域和第二耳部区域在人脸图像中的位置，确定每个耳部关键点在人脸图像中的位置。

步骤407与上述步骤205类似，详细描述可参见上述步骤205，在此不再赘述。

本申请实施例提供的方法，通过获取人脸图像，获取耳部关键点检测模型，根据人脸轮廓关键点确定人脸图像中的第一耳部区域和第二耳部区域，将第一耳部区域进行水平翻转，得到属于第二类耳部区域的第三耳部区域，基于耳部关键点检测模型，检测耳部区域中的耳部关键点，将包含耳部关键点的第三耳部区域进行水平翻转，得到包含耳部关键点的第一耳部区域，确定每个耳部关键点在人脸图像中的位置。通过采用人脸轮廓关键点确定耳部区域，并采用耳部关键点检测模型检测人脸图像中的耳部关键点，考虑到了耳部区域与人脸轮廓之间的位置关系，还通过耳部关键点检测模型学习到在耳部区域中检测耳部关键点的方式，提高了耳部关键点的准确性，降低了误差。

并且，通过将耳部区域分为第一类耳部区域和第二类耳部区域，耳部关键点检测模型用于检测第二类耳部区域中的耳部关键点，而不检测第一类耳部区域中的耳部关键点，当训练耳部关键点检测模型时，无需学习人脸两侧的耳部关键点检测方式，只需学习人脸一侧的耳部关键点检测方式即可，因此降低了耳部关键点检测模型的复杂度，提高了训练速度。

图5是根据一示例性实施例示出的一种耳部关键点检测装置的框图。参见图5，该装置包括图像获取单元501、模型获取单元502以及确定单元503。

图像获取单元501，被配置为获取人脸图像，人脸图像包括人脸轮廓关键点，人脸轮廓关键点用于确定人脸图像中的耳部区域；

模型获取单元502，被配置为获取耳部关键点检测模型，耳部关键点检测模型用于检测任一耳部区域中的耳部关键点；

确定单元503，被配置为基于耳部关键点检测模型和人脸轮廓关键点在人脸图像中的位置，检测人脸图像中的耳部关键点。

本申请实施例提供的装置，通过获取包括人脸轮廓关键点的人脸图像，获取耳部关键点检测模型，人脸轮廓关键点用于确定人脸图像中的耳部区域，耳部关键点检测模型用于检测耳部区域中的耳部关键点，则基于耳部关键点检测模型和人脸轮廓关键点，检测人脸图像中的耳部关键点。通过采用人脸轮廓关键点确定耳部区域，并采用耳部关键点检测模型检测人脸图像中的耳部关键点，考虑到了耳部区域与人脸轮廓之间的位置关系，还通过耳部关键点检测模型学习到在耳部区域中检测耳部关键点的方式，提高了耳部关键点的准确性，降低了误差。

在一种可能实现的方式中，确定单元503包括：

区域确定子单元，被配置为根据人脸轮廓关键点在人脸图像中的位置，确定人脸图像中的第一耳部区域和第二耳部区域；

关键点确定子单元，被配置为基于耳部关键点检测模型、第一耳部区域和第二耳部区域，检测第一耳部区域中的耳部关键点和第二耳部区域中的耳部关键点；

位置确定子单元，被配置为根据确定的每个耳部关键点在所处耳部区域中的位置以及第一耳部区域和第二耳部区域在人脸图像中的位置，确定每个耳部关键点在人脸图像中的位置。

在另一种可能实现的方式中，区域确定子单元，还被配置为获取人脸轮廓关键点中的第一指定关键点和第二指定关键点；确定包括第一指定关键点的第一耳部区域，以及包括第二指定关键点的第二耳部区域。

关键点确定子单元，还被配置为将第一耳部区域进行水平翻转，得到第三耳部区域，第三耳部区域属于第二类耳部区域；基于耳部关键点检测模型、第二耳部区域和第三耳部区域，确定第二耳部区域中的耳部关键点和第三耳部区域中的耳部关键点；将包含耳部关键点的第三耳部区域进行水平翻转，得到包含耳部关键点的第一耳部区域。

在另一种可能实现的方式中，装置还包括：

获取单元，被配置为获取多个样本图像，每个样本图像包括耳部区域以及耳部区域中的耳部关键点；

提取单元，被配置为分别从多个样本图像中提取耳部区域；

训练单元，被配置为根据提取的耳部区域和耳部区域中的耳部关键点进行模型训练，得到耳部关键点检测模型。

在另一种可能实现的方式中，训练单元，包括：

翻转子单元，被配置为将提取的耳部区域中的第一类耳部区域进行水平翻转，得到翻转后的耳部区域，第一类耳部区域为位于人脸第一侧的耳部区域；

样本确定子单元，被配置为将提取的耳部区域中的第二类耳部区域和翻转后的耳部区域确定为样本耳部区域，第二类耳部区域为位于人脸第二侧的耳部区域；

训练单元，还被配置为根据样本耳部区域以及样本耳部区域中的耳部关键点进行模型训练，得到耳部关键点检测模型。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种用于耳部关键点检测的终端600的框图。该终端600用于执行上述耳部关键点检测方法中检测装置所执行的步骤，可以是便携式移动终端，比如：智能手机、平板电脑、动态影像专家压缩标准音频层面3播放器(Moving Picture Experts Group Audio Layer III，MP3)、动态影像专家压缩标准音频层面4(Moving Picture Experts Group Audio Layer IV，MP4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端600包括有：处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称中央处理器(Central Processing Unit，CPU)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以在集成有图像处理器(Graphics Processing Unit，GPU)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括人工智能(Artificial Intelligence，AI)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器601所具有以实现本申请中方法实施例提供的耳部关键点检测方法。

在一些实施例中，终端600还可选包括有：外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地，外围设备包括：射频电路604、触摸显示屏605、摄像头606、音频电路607、定位组件608和电源609中的至少一种。

外围设备接口603可被用于将输入/输出(Input/Output，I/O)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射射频(Radio Frequency，RF)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及13G)、无线局域网和/或无线保真(Wireless Fidelity，WiFi)网络。在一些实施例中，射频电路604还可以包括近场通信(Near Field Communication，NFC)有关的电路，本申请对此不加以限定。

显示屏605用于显示用户界面(User Interface，UI)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置终端600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在终端600的不同表面或呈折叠设计；在再一些实施例中，显示屏605可以是柔性显示屏，设置在终端600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用液晶显示屏(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED) 等材质制备。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及虚拟现实(Virtual Reality，VR)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。

定位组件608用于定位终端600的当前地理位置，以实现导航或基于位置的服务(Location Based Service，LBS)。定位组件608可以是基于美国的全球定位系统(Global Positioning System，GPS)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。

加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制触摸显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器612可以检测终端600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613可以设置在终端600的侧边框和/或触摸显示屏605的下层。当压力传感器613设置在终端600的侧边框时，可以检测用户对终端600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在触摸显示屏605的下层时，由处理器601根据用户对触摸显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器614用于采集用户的指纹，由处理器601根据指纹传感器614采集到的指纹识别用户的身份，或者，由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器601授权该用户具有相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商Logo时，指纹传感器614可以与物理按键或厂商标志集成在一起。

光学传感器615用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器615采集的环境光强度，控制触摸显示屏605的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏605的显示亮度；当环境光强度较低时，调低触摸显示屏605的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器615采集的环境光强度，动态调整摄像头组件606的拍摄参数。

接近传感器616，也称距离传感器，通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中，当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时，由处理器601控制触摸显示屏605从亮屏状态切换为息屏状态；当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时，由处理器601控制触摸显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图6中示出的结构并不构成对终端600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图7是根据一示例性实施例示出的一种服务器的结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)701和一个或一个以上的存储器702，其中，所述存储器702中存储有至少一条指令，所述至少一条指令由所述处理器701加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

服务器700可以用于执行上述耳部关键点检测方法中耳部关键点检测装置所执行的步骤。

在示例性实施例中，还提供了一种非临时性计算机可读存储介质，当存储介质中的指令由检测装置的处理器执行时，使得检测装置能够执行一种耳部关键点检测方法，方法包括：

获取人脸图像，人脸图像包括人脸轮廓关键点，人脸轮廓关键点用于确定人脸图像中的耳部区域；

获取耳部关键点检测模型，耳部关键点检测模型用于检测任一耳部区域中的耳部关键点；

基于耳部关键点检测模型和人脸轮廓关键点在人脸图像中的位置，检测人脸图像中的耳部关键点。

在示例性实施例中，还提供了一种应用程序/计算机程序产品，当应用程序/计算机程序产品中的指令由检测装置的处理器执行时，使得检测装置能够执行一种耳部关键点检测方法，方法包括：

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

一种耳部关键点检测方法，所述方法包括：

获取人脸图像，所述人脸图像包括人脸轮廓关键点，所述人脸轮廓关键点用于确定所述人脸图像中的耳部区域；

获取耳部关键点检测模型，所述耳部关键点检测模型用于检测任一耳部区域中的耳部关键点；

基于所述耳部关键点检测模型和所述人脸轮廓关键点在所述人脸图像中的位置，检测所述人脸图像中的耳部关键点。
根据权利要求1所述的方法，所述基于所述耳部关键点检测模型和所述人脸轮廓关键点在所述人脸图像中的位置，检测所述人脸图像中的耳部关键点，包括：

根据所述人脸轮廓关键点在所述人脸图像中的位置，确定所述人脸图像中的第一耳部区域和第二耳部区域；

基于所述耳部关键点检测模型、所述第一耳部区域和所述第二耳部区域，检测所述第一耳部区域中的耳部关键点和所述第二耳部区域中的耳部关键点；

根据确定的每个耳部关键点在所处耳部区域中的位置以及所述第一耳部区域和所述第二耳部区域在所述人脸图像中的位置，确定所述每个耳部关键点在所述人脸图像中的位置。
根据权利要求2所述的方法，所述根据所述人脸轮廓关键点在所述人脸图像中的位置，确定所述人脸图像中的第一耳部区域和第二耳部区域，包括：

获取所述人脸轮廓关键点中的第一指定关键点和第二指定关键点；

确定包括所述第一指定关键点的所述第一耳部区域，以及包括所述第二指定关键点的所述第二耳部区域。
根据权利要求2所述的方法，所述第一耳部区域属于第一类耳部区域，所述第二耳部区域属于第二类耳部区域，所述第一类耳部区域为位于人脸第一侧的耳部区域，所述第二类耳部区域为位于人脸第二侧的耳部区域；

所述基于所述耳部关键点检测模型、所述第一耳部区域和所述第二耳部区域，检测所述第一耳部区域中的耳部关键点和所述第二耳部区域中的耳部关键点，包括：

将所述第一耳部区域进行水平翻转，得到第三耳部区域，所述第三耳部区域属于所述第二类耳部区域；

基于所述耳部关键点检测模型、所述第二耳部区域和所述第三耳部区域，确定所述第二耳部区域中的耳部关键点和所述第三耳部区域中的耳部关键点；

将包含所述耳部关键点的所述第三耳部区域进行水平翻转，得到包含所述耳部关键点的所述第一耳部区域。
根据权利要求1-4任一项所述的方法，所述方法还包括：

获取多个样本图像，每个样本图像包括耳部区域以及所述耳部区域中的耳部关键点；

分别从所述多个样本图像中提取耳部区域；

根据提取的耳部区域和所述耳部区域中的耳部关键点进行模型训练，得到所述耳部关键点检测模型。
根据权利要求5所述的方法，所述根据提取的耳部区域和所述耳部区域中的耳部关键点进行模型训练，得到所述耳部关键点检测模型，包括：

将提取的耳部区域中的第一类耳部区域进行水平翻转，得到翻转后的耳部区域，所述第一类耳部区域为位于人脸第一侧的耳部区域；

将提取的耳部区域中的第二类耳部区域和所述翻转后的耳部区域确定为样本耳部区域，所述第二类耳部区域为位于人脸第二侧的耳部区域；

根据所述样本耳部区域以及所述样本耳部区域中的耳部关键点进行模型训练，得到所述耳部关键点检测模型。
一种耳部关键点检测装置，所述装置包括：

图像获取单元，被配置为获取人脸图像，所述人脸图像包括人脸轮廓关键点，所述人脸轮廓关键点用于确定所述人脸图像中的耳部区域；

模型获取单元，被配置为获取耳部关键点检测模型，所述耳部关键点检测模型用于检测任一耳部区域中的耳部关键点；

确定单元，被配置为基于所述耳部关键点检测模型和所述人脸轮廓关键点在所述人脸图像中的位置，检测所述人脸图像中的耳部关键点。
根据权利要求7所述的装置，所述确定单元包括：

区域确定子单元，被配置为根据所述人脸轮廓关键点在所述人脸图像中的位置，确定所述人脸图像中的第一耳部区域和第二耳部区域；

关键点确定子单元，被配置为基于所述耳部关键点检测模型、所述第一耳部区域和所述第二耳部区域，检测所述第一耳部区域中的耳部关键点和所述第二耳部区域中的耳部关键点；

位置确定子单元，被配置为根据确定的每个耳部关键点在所处耳部区域中的位置以及所述第一耳部区域和所述第二耳部区域在所述人脸图像中的位置，确定所述每个耳部关键点在所述人脸图像中的位置。
根据权利要求8所述的装置，所述区域确定子单元，还被配置为获取所述人脸轮廓关键点中的第一指定关键点和第二指定关键点；确定包括所述第一指定关键点的所述第一耳部区域，以及包括所述第二指定关键点的所述第二耳部区域。
根据权利要求8所述的装置，所述第一耳部区域属于第一类耳部区域，所述第二耳部区域属于第二类耳部区域，所述第一类耳部区域为位于人脸第一侧的耳部区域，所述第二类耳部区域为位于人脸第二侧的耳部区域；

所述关键点确定子单元，还被配置为将所述第一耳部区域进行水平翻转，得到第三耳部区域，所述第三耳部区域属于所述第二类耳部区域；基于所述耳部关键点检测模型、所述第二耳部区域和所述第三耳部区域，确定所述第二耳部区域中的耳部关键点和所述第三耳部区域中的耳部关键点；将包含所述耳部关键点的所述第三耳部区域进行水平翻转，得到包含所述耳部关键点的所述第一耳部区域。
根据权利要求7-10任一项所述的装置，所述装置还包括：

获取单元，被配置为获取多个样本图像，每个样本图像包括耳部区域以及所述耳部区域中的耳部关键点；

提取单元，被配置为分别从所述多个样本图像中提取耳部区域；

训练单元，被配置为根据提取的耳部区域和所述耳部区域中的耳部关键点进行模型训练，得到所述耳部关键点检测模型。
根据权利要求11所述的装置，所述训练单元，包括：

翻转子单元，被配置为将提取的耳部区域中的第一类耳部区域进行水平翻转，得到翻转后的耳部区域，所述第一类耳部区域为位于人脸第一侧的耳部区域；

样本确定子单元，被配置为将提取的耳部区域中的第二类耳部区域和所述翻转后的耳部区域确定为样本耳部区域，所述第二类耳部区域为位于人脸第二侧的耳部区域；

所述训练单元，还被配置为根据所述样本耳部区域以及所述样本耳部区域中的耳部关键点进行模型训练，得到所述耳部关键点检测模型。
一种耳部关键点检测装置，所述装置包括：

处理器；

用于存储处理器可执行命令的存储器；

其中，所述处理器被配置为可执行如权利要求1-6任一项所述的一种耳部关键点检测方法。
一种非临时性计算机可读存储介质，当所述存储介质中的指令由检测装置的处理器执行时，使得检测装置能够执行如权利要求1-6任一项所述的一种耳部关键点检测方法。