WO2019100888A1

WO2019100888A1 - 目标对象识别方法、装置、存储介质和电子设备

Info

Publication number: WO2019100888A1
Application number: PCT/CN2018/111513
Authority: WO
Inventors: 李七星; 余锋伟; 闫俊杰
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2017-11-23
Filing date: 2018-10-23
Publication date: 2019-05-31
Also published as: US20200143146A1; US11182592B2; KR20200015728A; JP2020527792A; JP6994101B2; CN108229308A; SG11202000076WA

Abstract

本申请实施例提供一种目标对象识别方法、装置、存储介质和电子设备。目标对象识别方法包括：对待检图像的对象进行目标对象检测，获得所述对象的目标对象预测信息，目标对象预测信息为检测到的对象为目标对象的置信信息；对待检图像的所述对象进行关键点检测，获得所述对象的关键点预测信息；关键点预测信息为检测到对象的关键点为目标对象的关键点的置信信息；将目标对象预测信息以及关键点预测信息进行融合，获得所述对象的综合预测信息；根据综合预测信息对目标对象进行识别。

Description

目标对象识别方法、装置、存储介质和电子设备

相关申请的交叉引用

本申请基于申请号为201711181299.5、申请日为2017年11月23日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本申请实施例涉及计算机视觉技术但不限于计算机视觉技术，尤其涉及一种目标对象识别方法、装置、存储介质和电子设备。

背景技术

对对象的识别过程通常分为检测跟踪、关键点检测和对齐以及特征提取的处理。在此过程中，期望尽可能准确地识别到目标对象，而同时降低误判，也就是说，追求最高的识别率和最低的误报率。但是目前相关技术对目标对象(例如，人脸的识别)的识别依然存在较高的误报率，即达不到预期的识别率。

发明内容

本申请实施例提供一种目标对象识别方法，包括：对待检图像的对象进行目标对象检测，获得所述对象的目标对象预测信息，所述目标对象预测信息为检测到的对象为目标对象的置信信息；对所述待检图像的所述对象进行关键点检测，获得所述对象的关键点预测信息；所述关键点预测信息为检测到对象的关键点为目标对象的关键点的置信信息；将所述目标对象预测信息以及所述关键点预测信息进行融合，获得所述对象的综合预测信息；根据所述综合预测信息对所述目标对象进行识别。

本申请实施例提供一种目标对象识别装置，包括：对象检测模块，配置为对待检图像的对象进行目标对象检测，获得所述对象的目标对象预测信息，所述目标对象预测信息为检测到的对象为目标对象的置信信息；关键点检测模块，配置为对所述待检图像的所述对象进行关键点检测，获得所述对象的关键点预测信息；所述关键点预测信息为检测到对象的关键点为目标对象的关键点的置信信息；预测信息融合模块，配置为将所述对象检测模块获得的目标对象预测信息以及所述关键点检测模块获得的关键点预测信息进行融合，获得所述对象的综合预测信息；对象识别模块，配置为根据所述预测信息融合模块获得的综合预测信息对所述目标对象进行识别。

本申请实施例提供一种电子设备，包括：处理器、存储器、通信元件和通信总线，所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行任一如前所述的目标对象识别方法相应的操作。

本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述程序指令被处理器执行时实现任一如前所述的目标对象识别方法的步骤。

本申请实施例提供一种计算机程序，其包括有计算机程序指令，其中，所述程序指令被处理器执行时实现任一如前所述的目标对象识别方法的步骤。

根据本申请实施例提供的目标对象识别方案，可通过在对待检图像的对象进行目标对象检测的过程中，获得所述对象的目标对象预测信息，在对所述待检图像进行关键点检测的过程中，获得所述对象的关键点预测信息，以及将所述目标对象预测信息以及所述关键点预测信息进行融合，对待检图像的对象进行目标对象的综合预测评估，获得指示待检图像用于目标对象识别的综合图像质量的综合预测信息，再进一步根据所述综合预测评估结果对所述目标对象进行识别。通过前述综合预测评估，能够过滤掉综合质量相对低的待检图像，从而降低对目标对象进行处理时产生的误报率；此外，通过对待检图像的对象进行综合评估，还可确保得到较高的识别率。

附图说明

图1是示出根据本申请实施例提供的目标对象识别方法的流程图；

图2是示出根据本申请实施例提供的目标对象识别方法的流程图；

图3是示出根据本申请实施例提供的目标对象识别方法的流程图；

图4是示出根据本申请实施例提供的目标对象识别方法的流程图；

图5是示出根据本申请实施例提供的目标对象识别装置的逻辑框图；

图6是示出根据本申请实施例提供的目标对象识别装置的逻辑框图；

图7是示出根据本申请实施例提供的目标对象识别装置的逻辑框图；

图8是示出根据本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面结合附图详细描述本申请实施例的示例性实施例。

在本申请中，“多个”指两个或两个以上，“至少一个”指一个、两个或两个以上。对于本申请中提及的任一部件、数据或结构，在没有明确限定一个的情况下，可理解为一个或多个。

图1是示出根据本申请实施例的目标对象识别方法的流程图。

参照图1，在步骤S110，对待检图像的对象进行目标对象检测，获得所述对象的目标对象预测信息，所述目标对象预测信息为检测到的对象为目标对象的置信信息。

这里的待检图像是拍摄有一个或多个物体对象的照片或视频帧图像。该图像应满足一定的分辨率要求，至少通过肉眼能够辨别出拍摄到的物体对象。这里的目标对象即为意图要识别的物体对象，包括但不限于人脸、行人、车辆、狗、猫、身份证等。

可通过任何适用的图像分析、处理方法，对待检图像的对象进行目标对象检测，以从待检图像检测出可能存在目标对象的图像区域，该图像区域为可能含有目标对象的矩形框图像区域，或者，基于初步检测的目标对象的外轮廓图像区域。

在待检图像中，可能存在多个对象，并且在对每个目标对象进行检测时，还可能检测到多个矩形框图像区域。因此，在进行目标对象检测的过程中，还对检测到的每个矩形框图像区域进行预测准确性的评估，获得目标对象预测信息，该目标对象预测信息表征检测到的对象为目标对象的预测准确信息；例如，该目标对象信息表征检测到的图像区域为目标对象的预测准确信息。

该目标对象预测信息包括但不限于评估打分、预测概率或检测置信度等。

在步骤S120，对所述待检图像的所述对象进行关键点检测，获得所述对象的关键点预测信息，所述关键点预测信息为检测到的对象的关键点为目标对象的关键点的置信信息。

对于任一意图检测的目标对象，预先设定目标对象的关键点定位。此处的关键点定位包括：检测出目标对象的关键点在图像的图像坐标。例如，针对人脸，通常可设定5个关键点，分别为嘴部、鼻部、左眼、右眼、头顶；针对人体/行人，可在人体各个关键部位设定14个关键点。

可通过任何适用的针对图像的关键点定位方法，从待检图像检测得到目标对象的关键点的信息。此外，在对待检图像的对象进行检测的过程中，还对检测得到对象的关键点进行定位准确性的评估，即为关键点预测信息，关键点预测信息表征检测到的对象的关键点为目标对象的关键点的置信信息。

该关键点预测信息包括但不限于评估打分、预测概率或检测置信度等。针对多个关键点的检测，可根据对多个关键点的评估打分求平均，获得该关键点预测信息。

这里，需要指出，由于根据现有的计算机视觉技术，步骤S120的执行无需依赖步骤S110的检测结果，即，可在未检测目标对象的情况下，直接对待检图像的对象进行关键点检测，因此，可顺序地执行步骤S110和步骤S120，顺序地执行步骤S120和步骤S110，或者并行地执行步骤S110和步骤S120。

在步骤S130，将所述目标对象预测信息以及所述关键点预测信息进行融合，获得所述对象的综合预测信息。

基于用于指示目标对象检测的目标对象预测信息和用于指示关键点对齐的关键点预测信息，可通过将两者求平均、求和或相乘的方式进行融合，获得检测到对象的综合预测信息。

由于通过至少融合表征目标对象检测准确性的目标对象预测信息和表征关键点定位准确性的关键点预测信息两个预测准确性指标获得该综合预测信息，这两个预测准确性都将影响目标对象识别的结果，因此，该综合预测信息可用于指示待检图像用于目标对象识别的综合图像质量。

在步骤S140，根据所述综合预测信息，对所述目标对象进行识别。

例如，如果获得的综合预测信息符合预定的预测质量阈值，则继续对待检图像的对象进行目标对象识别；反之，可推定针对目标对象检测的综合预测质量不高，不对待检图像的对象进行目标对象识别处理，或者在对该待检图像进行滤波、剪裁、放大、调亮处理后，再进行目标识别处理。

再例如，假设该待检图像为相机拍摄得到的预览图像，如果确定的综合预测信息符合预定的预测质量阈值，则根据任何适用的目标对象识别方法，从待检图像识别目标对象。

根据本申请实施例的目标对象识别方法，可通过在对待检图像的对象进行目标对象检测的过程中，获得所述对象的目标对象预测信息，在对所述待检图像进行关键点检测的过程中，获得所述对象的关键点预测信息，以及将所述目标对象预测信息以及所述关键点预测信息进行融合，对待检图像的对象进行目标对象的综合预测评估，获得指示待检图像用于目标对象识别的综合图像质量的综合预测信息，再进一步根据所述综合预测评估结果对所述目标对象进行识别。通过前述综合预测评估，能够过滤掉综合质量相对低的待检图像，从而降低对目标对象进行处理时产生的误报率；此外，通过对待检图像的对象进行综合评估，还可确保得到较高的识别率。

图2是示出根据本申请实施例的目标对象识别方法的流程图。

参照图2，在步骤S210，获取所述待检图像的对象对应的图像区域。

可通过使用的图像分析方法，检测到可能包含目标对象的图像区域，如可能含有对象的外接矩形的图像区域。

在步骤S220，对待检图像的对象对应的图像区域进行目标对象检测，获得所述对象的目标对象预测信息。

在获取到可能含有目标对象的图像区域后，可通过适用的图像分析方法对该图像区域进行目标对象检测的处理，并获得对象的目标对象预测信息。

此外，在一些实施例中，可通过预先训练的用于物体检测的神经网络，神经网络包括但不限于如区域候选网络、卷积神经网络等，从该图像区域检测目标对象，并且获取指示目标对象检测准确性的目标对象预测信息，以提高对象检测的识别率。

在步骤S230，对待检图像的对象对应的图像区域进行关键点检测，获得所述对象的关键点预测信息。

同理，在获取到可能含有目标对象的图像区域后，可针对该图像区域进行关键点检测，来获得对象的关键点预测信息。

在步骤S240，将所述目标对象预测信息以及所述关键点预测信息相乘，得到所述对象的综合预测信息。

这里，通过将所述目标对象预测信息以及所述关键点预测信息相乘，能够突显目标对象预测准确性高和关键点预测准确性高的待检图像，从而在目标对象识别任务中，优先召回综合质量好的待检图像。同时，通过调整用于综合质量评估的拣选门限，可确保较高的识别率。

在步骤S250，根据所述综合预测信息对所述目标对象进行识别。该步骤的处理与前述步骤S140的处理类似，在此不予赘述。

在步骤S260，可执行以下操作中的任一个。

操作一、前述待检图像是视频帧序列中的视频帧图像，根据从多个所述视频帧图像对目标对象进行识别的结果，对所述目标对象进行跟踪，由此执行对象跟踪的任务。

操作二、根据为多个待检图像各自获得的综合预测信息，从多个所述待检图像选择综合预测质量最高的待检图像作为抓拍图像。例如，在拍摄过程中，可从在2秒钟内抓取的多个图像(预览图像)当中，选择综合预测质量最高的图像作为抓拍图像，存储在存储器中并显示给用户。

操作三、根据为多个所述待检图像各自获得的综合预测信息，从多个所述待检图像选择预定个数的待检图像，对选择的待检图像进行特征融合，融合的图像特征数据可进一步用于检测或处理的任务。

以上仅描述了几种对待检图像的对象进行用于目标对象的示例性处理，需要理解，可用于任何图像处理任务。

根据本申请实施例的目标对象识别方法，先获取所述待检图像的对象对应的图像区域，再针对该图像区域进行目标对象检测和关键点检测，获得对象的目标对象预测信息和关键点预测信息，再将所述目标对象预测信息以及所述关键点预测信息相乘，得到所述对象的综合预测信息。此外，在根据综合预测信息对目标对象进行识别之后，进一步进行例如目标对象跟踪、抓拍图像选定以及图像特征融合等处理，从而可基于综合图像质量评估，更好地执行其他与目标对象相关的图像处理任务。

图3是示出根据本申请实施例的目标对象识别方法的流程图。

参照图3，在步骤S310，获取所述待检图像的对象对应的图像区域。

在步骤S320，对待检图像的对象对应的图像区域进行目标对象检测，获得所述对象的目标对象预测信息。

在步骤S330，利用定位关键点的第一神经网络模型，对所述待检图像的对象进行关键点检测，获得所述对象的关键点预测信息。

在一些实施例中，使用预先训练的用于对物体候选框进行关键点定位的第一神经网络模型，直接对获取到的图像区域进行关键点检测，获取对象的关键点以及相应的关键点预测信息。

根据本申请的另一种实施方式，利用对待检图像定位关键点的第一神经网络模型，从所述待检图像获取所述对象的关键点以及相应的关键点预测信息。也就是说，可将待检图像而不是对象对应的图像区域作为该第一神经网络模型的输入，先行从待检图像检测关键点。

此后，在步骤S340，从待检图像的对象对应的图像区域，检测所述对象的偏转角度信息。

通常，在目标对象检测过程中，也同时检测对象的偏转角度，因此，通过步骤S340的处理，可检测到对象的偏转角度信息。

该偏转角度可包括水平方向的偏转角度(侧转角度)，也可包括垂直方向的偏转角度(俯仰角度)，或者水平方向的偏转角度(侧转角度)和垂直方向的偏转角度(俯仰角度)。

例如，可利用对象分类的第二神经网络模型，从待检图像的对象对应的图像区域，检测对象并获取对象的偏转角度信息。可预先训练用于检测对象的偏转角度信息的第二神经网络模型。也可通过其他图像分析方法来获取偏转角度信息。

在步骤S350，将所述目标对象预测信息、所述关键点预测信息和所述偏转角度信息进行融合，获得所述对象的综合预测信息。

由于非正面的对象的偏转角度通常会影响对目标对象的识别效果，因此将对象的偏转角度信息也作为图像质量评估的指标之一。

与前述步骤S130的处理类似地，对可表征目标对象检测准确性的目标对象预测信息、表征关键点定位准确性的关键点预测信息以及对象的偏转角度信息进行例如求平均、求和或相乘等方式进行融合，获得对象的综合预测信息。

在步骤S360，根据所述综合预测信息对所述目标对象进行识别。

在此基础上，在一些实施例中，可继续执行前述步骤S260的处理。

根据本申请任意实施例的目标对象识别方法，将从待检图像的对象对应的图像区域检测到的对象的偏转角度信息也作为评估指标之一，将偏转角度信息与前述目标对象预测信息和关键点预测信息进行融合，来对待检图像的对象进行用于目标对象识别相关的综合质量评估，再进一步根据所述综合预测评估结果对所述目标对象进行识别。通过这种方法，有助于针对影响目标对象识别来评估综合图像质量，过滤掉综合质量相对低的待检图像，从而降低对目标对象进行识别时产生的误报率，还可确保得到较高的识别率，从而更准确地执行目标对象识别任务。

图4是示出根据本申请实施例的目标对象识别方法的流程图。

在本实施例中，以目标对象为人脸作为示例来描述目标对象识别方法的处理。

参照图4，在步骤S410，对待检图像的对象进行人脸检测，获得人脸的目标对象预测信息。

可通过适用的任何人脸检测方法对待检图像的对象进行人脸检测，并获得人脸的目标对象预测信息。

在步骤S420，利用定位关键点的第一神经网络模型，对所述待检图像的所述对象进行关键点检测，获得所述人脸的关键点预测信息。

在步骤S430，获取所述待检图像中的人脸俯仰角度和/或人脸侧转角度。

人脸俯仰角度是指以水平方向为轴，人脸的偏转角度；人脸侧转角度是指以竖直方向为轴，人脸的偏转角度。

通常，人脸俯仰角度和人脸侧转角度的取值范围均为-90度～+90度。

在一些实施例中，通过前述第二神经网络模型，从检测到的人脸图像区域，检测人脸并获取人脸俯仰角度和/或人脸侧转角度。

在该步骤，可获取人脸俯仰角度和人脸侧转角度当中的任一个或两者，以用于后续处理。

在步骤S440，根据适用指数函数将所述人脸俯仰角度和/或人脸侧转角度进行归一化处理。

例如，通过指数函数exp(-10×人脸俯仰角度×人脸俯仰角度/8100) 对人脸俯仰角度进行归一化处理；类似地，通过指数函数exp(-10×人脸侧转角度×人脸侧转角度/8100)对人脸侧转角度进行归一化处理。或者，可简单地使用公式|人脸俯仰角度/90|和|人脸侧转角度值/90|分别对人脸俯仰角度和人脸侧转角度进行归一化处理。此后，再将经过归一化处理的人脸俯仰角度和人脸侧转角度进行融合，如将两者相乘，生成目标对象的角度评估信息。

在步骤S450，通过以下操作之一获得所述对象的综合预测信息：

将所述目标对象预测信息、所述关键点预测信息和归一化的人脸俯仰角度相乘，获得所述对象的综合预测信息；

或，

将所述目标对象预测信息、所述关键点预测信息和归一化的人脸侧转角度相乘，获得所述对象的综合预测信息；

或，

将所述目标对象预测信息、所述关键点预测信息、归一化的人脸俯仰角度和归一化的人脸侧转角度相乘，获得所述对象的综合预测信息。

也就是说，可根据人脸识别任务的需要，将归一化的人脸俯仰角度和归一化的人脸侧转角度当中的任一个或两者与目标对象预测信息和关键点预测信息进行融合，来获得对象的综合预测信息。

例如，如果获得的综合预测信息符合预定的预测质量阈值，则继续通过适用的人脸识别方法对待检图像的对象进行人脸识别。

此外，可采用任何现有的网络训练方法预先训练用于物体检测的神经网络、用于定位关键点的第一神经网络模型以及/或者用于对象分类的第二神经网络模型。可根据要实现的功能、特性和训练要求，使用基于监督学习方法、无监督方法、强化学习方法或半监督方法等预先训练前述神经网络模型。

根据本申请实施例的目标对象识别方法，在前述实施例的基础上，可通过预先训练的模型来进行人脸的关键点定位以及偏转角度检测等，以确保人脸检测的准确性，并且对获得的目标对象预测信息、关键点预测信息以及归一化的人脸俯仰角度和/或归一化的人脸侧转角度进行融合，来获得用于人脸识别相关的综合质量数据，再进一步根据所述综合预测评估结果对人脸进行识别。通过这种方法，有助于针对影响人脸识别来评估综合图像质量，过滤掉综合质量相对低的待检图像，从而降低对人脸进行识别时产生的误报率，还可确保得到较高的识别率，从而更准确地执行人脸识别任务。

参照图5，一种目标对象识别装置包括：

对象检测模块510，配置为对待检图像的对象进行目标对象检测，获得所述对象的目标对象预测信息，所述目标对象预测信息为检测到的对象为目标对象的置信信息；

关键点检测模块520，配置为对所述待检图像的所述对象进行关键点检测，获得所述对象的关键点预测信息；所述关键点预测信息为检测到对象的关键点为目标对象的关键点的置信信息；

预测信息融合模块530，配置为将对象检测模块510获得的目标对象预测信息以及关键点检测模块520获得的关键点预测信息进行融合，获得所述对象的综合预测信息；

对象识别模块540，配置为根据所述预测信息融合模块获得的综合预测信息对所述目标对象进行识别。

本实施例的目标对象识别装置用于实现前述方法实施例中相应的目标对象识别方法，并具有相应的方法实施例的有益效果，在此不再赘述。

参照图6，本实施例提供的目标对象识别装置除包括前述对象检测模块510、关键点检测模块520、预测信息融合模块530和对象识别模块540以外，还包括图像区域获取模块550。

图像区域获取模块550配置为获取所述待检图像的对象对应的图像区域。相应地，对象检测模块510配置为对图像区域获取模块550获取的待检图像的对象对应的图像区域进行目标对象检测；关键点检测模块520用于对图像区域获取模块550获取的待检图像的对象对应的图像区域进行关键点检测。

在一些实施例中，预测信息融合模块530配置为将所述目标对象预测信息以及所述关键点预测信息相乘，得到所述对象的综合预测信息。

在一些实施例中，关键点检测模块520配置为利用定位关键点的神经网络模型，对所述待检图像的对象进行关键点检测，获得所述对象的关键点预测信息。

在一些实施例中，所述获取所述待检图像的对象对应的图像区域之后，所述将所述目标对象预测信息以及所述关键点预测信息进行融合，获得所述对象的综合预测信息之前，所述装置还包括：偏转角度检测模块560A，配置为从图像区域获取模块550获取的图像区域，检测所述对象的偏转角度信息。相应地，预测信息融合模块530用于根据所述目标对象预测信息、所述关键点预测信息和所述偏转角度信息进行融合，获得所述对象的综合预测信息。

在一些实施例中，偏转角度检测模块560A配置为利用对象分类的神经网络模型，从所述图像区域检测所述对象的偏转角度信息。

在一些实施例中，所述待检图像为视频帧图像；在根据所述综合预测信息对所述目标对象进行识别之后，所述装置还包括：

对象跟踪模块570，配置为根据从多个所述视频帧图像对目标对象进行识别的结果，对所述目标对象进行跟踪；

或者，

抓拍图像选取模块580，配置为根据为多个所述视频帧图像各自获得的综合预测信息，从多个所述视频帧图像选择综合预测质量最高的视频帧图像作为抓拍图像；

或者，

特征融合模块590，配置为根据为多个所述视频帧图像各自获得的综合预测信息，从多个所述视频帧图像选择预定个数的视频帧图像，对选择的视频帧图像进行特征融合。

根据本申请实施例，所述目标对象可为：人脸。

参照图7，目标对象识别装置除包括前述对象检测模块510、关键点检测模块520、预测信息融合模块530、对象识别模块540和图像区域获取模块550以外，还包括人脸偏转角度检测模块560B。

在预测信息融合模块530将所述目标对象预测信息以及所述关键点预测信息进行融合，获得所述对象的综合预测信息之前，人脸偏转角度检测模块560B配置为从图像区域获取模块550获取的图像区域，检测人脸俯仰角度和/或人脸侧转角度。

相应地，预测信息融合模块530配置为

根据适用指数函数将所述人脸俯仰角度和/或人脸侧转角度进行归一化处理；将所述目标对象预测信息、所述关键点预测信息和归一化的人脸俯仰角度相乘，获得所述对象的综合预测信息；

或，

在一些实施例中，该目标对象识别装置还包括对象跟踪模块570、抓拍图像选取模块580或特征融合模块590。

本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述程序指令被处理器执行时实现前述任意实施例所述的目标对象识别方法的步骤，并具有相应的实施例的有益效果，在此不再赘述。

本申请实施例提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图8，图8示出了适于用来实现本申请实施例的终端设备或服务器的电子设备800的结构示意图。

如图8所示，电子设备800包括一个或多个处理器、通信元件等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)801，和/或一个或多个图像处理器(GPU)813等，处理器可以根据存储在只读存储器(ROM)802中的可执行指令或者从存储部分808加载到随机访问存储器(RAM)803中的可执行指令而执行各种适当的动作和处理。通信元件包括通信组件812和通信接口809。其中，通信组件812可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，通信接口809包括诸如LAN卡、调制解调器等的网络接口卡的通信接口，通信接口809经由诸如因特网的网络执行通信处理。

处理器可与只读存储器802和/或随机访问存储器803中通信以执行可执行指令，通过总线804与通信组件812相连、并经通信组件812与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，对待检图像的对象进行目标对象检测，获得所述对象的目标对象预测信息，所述目标对象预测信息为检测到的对象为目标对象的置信信息；对所述待检图像的所述对象进行关键点检测，获得所述对象的关键点预测信息；所述关键点预测信息为检测到对象的关键点为目标对象的关键点的置信信息；将所述目标对象预测信息以及所述关键点预测信息进行融合，获得所述对象的综合预测信息；根据所述综合预测信息对所述目标对象进行识别。

此外，在RAM 803中，还可存储有装置操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。在有RAM 803的情况下，ROM 802为可选模块。RAM 803存储可执行指令，或在运行时向ROM 802中写入可执行指令，可执行指令使处理器801执行上述通信方法对应的操作。输入/输出(I/O)接口805也连接至总线804。通信组件812可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信接口809。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

需要说明的是，如图8所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图8的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信组件812可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本申请的保护范围。

特别地，根据本申请实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，用于对待检图像的对象进行目标对象检测，获得所述对象的目标对象预测信息的可执行代码，所述目标对象预测信息为检测到的对象为目标对象的置信信息；用于对所述待检图像的所述对象进行关键点检测，获得所述对象的关键点预测信息的可执行代码；所述关键点预测信息为检测到对象的关键点为目标对象的关键点的置信信息；用于将所述目标对象预测信息以及所述关键点预测信息进行融合，获得所述对象的综合预测信息的可执行代码；用于根据所述综合预测信息对所述目标对象进行识别的可执行代码。在这样的实施例中，该计算机程序可以通过通信元件从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本申请实施例的方法中限定的上述功能。

本申请实施例还提供的电子设备，可通过在对待检图像的对象进行目标对象检测的过程中，获得所述对象的目标对象预测信息，在对所述待检图像进行关键点检测的过程中，获得所述对象的关键点预测信息，以及将所述目标对象预测信息以及所述关键点预测信息进行融合，对待检图像的对象进行目标对象的综合预测评估，获得指示待检图像用于目标对象识别的综合图像质量的综合预测信息，再进一步根据所述综合预测评估结果对所述目标对象进行识别。通过前述综合预测评估，能够过滤掉综合质量相对低的待检图像，从而降低对目标对象进行处理时产生的误报率；此外，通过对待检图像的对象进行综合评估，还可确保得到较高的识别率。

需要指出，根据实施的需要，可将本申请中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

可能以许多方式来实现本申请的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请实施例的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本申请实施例的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本申请实施为记录在记录介质中的程序，这些程序包括用于实现根据本申请实施例的方法的机器可读指令。因而，本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。

本申请实施例的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本申请限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本申请的原理和实际应用，并且使本领域的普通技术人员能够理解本申请从而设计适于特定用途的带有各种修改的各种实施例。

Claims

一种目标对象识别方法，包括：

对待检图像的对象进行目标对象检测，获得所述对象的目标对象预测信息，所述目标对象预测信息为检测到的对象为目标对象的置信信息；

对所述待检图像的所述对象进行关键点检测，获得所述对象的关键点预测信息；所述关键点预测信息为检测到对象的关键点为目标对象的关键点的置信信息；

将所述目标对象预测信息以及所述关键点预测信息进行融合，获得所述对象的综合预测信息；

根据所述综合预测信息对所述目标对象进行识别。
根据权利要求1所述的方法，其中，所述对待检图像的对象进行目标对象检测，和对所述待检图像的所述对象进行关键点检测之前，包括：

获取所述待检图像的对象对应的图像区域；

所述对待检图像的对象进行目标对象检测，包括：

对待检图像的对象对应的图像区域进行目标对象检测；

对所述待检图像的对象进行关键点检测，包括：

对待检图像的对象对应的图像区域进行关键点检测。
根据权利要求1或2所述的方法，其中，所述将所述目标对象预测信息以及所述关键点预测信息进行融合，获得所述对象的综合预测信息，包括：

将所述目标对象预测信息以及所述关键点预测信息相乘，得到所述对象的综合预测信息。
根据权利要求1～3中任一项所述的方法，其中，所述对所述待检图像的所述对象进行关键点检测，获得所述对象的关键点预测信息，包括：

利用定位关键点的神经网络模型，对所述待检图像的对象进行关键点检测，获得所述对象的关键点预测信息。
根据权利要求2至4中任一项所述的方法，其中，所述获取所述待检图像的对象对应的图像区域之后，所述将所述目标对象预测信息以及所述关键点预测信息进行融合，获得所述对象的综合预测信息之前，还包括：

从所述图像区域，检测所述对象的偏转角度信息；

所述将所述目标对象预测信息以及所述关键点预测信息进行融合，获得所述对象的综合预测信息，包括：

根据所述目标对象预测信息、所述关键点预测信息和所述偏转角度信息进行融合，获得所述对象的综合预测信息。
根据权利要求5所述的方法，其中，所述从所述图像区域，检测所述对象的偏转角度信息，包括：

利用对象分类的神经网络模型，从所述图像区域检测所述对象的偏转角度信息。
根据权利要求1至6中任一项所述的方法，其中，

所述目标对象为：人脸；

所述将所述目标对象预测信息以及所述关键点预测信息进行融合，获得所述对象的综合预测信息之前，还包括：

从所述图像区域，检测人脸俯仰角度和/或人脸侧转角度；

所述将所述目标对象预测信息以及所述关键点预测信息进行融合，获得所述对象的综合预测信息，包括：

根据适用指数函数将所述人脸俯仰角度和/或人脸侧转角度进行归一化处理；将所述目标对象预测信息、所述关键点预测信息和归一化的人脸俯仰角度相乘，获得所述对象的综合预测信息；

或，

将所述目标对象预测信息、所述关键点预测信息和归一化的人脸侧转角度相乘，获得所述对象的综合预测信息；

或，

将所述目标对象预测信息、所述关键点预测信息、归一化的人脸俯仰角度和归一化的人脸侧转角度相乘，获得所述对象的综合预测信息。
根据权利要求1至7中任一项所述的方法，其中，所述待检图像为视频帧图像；

在根据所述综合预测信息对所述目标对象进行识别之后，还包括：

根据从多个所述视频帧图像对目标对象进行识别的结果，对所述目标对象进行跟踪；

或者，

根据为多个所述视频帧图像各自获得的综合预测信息，从多个所述视频帧图像选择综合预测质量最高的视频帧图像作为抓拍图像；

或者，

根据为多个所述视频帧图像各自获得的综合预测信息，从多个所述视频帧图像选择预定个数的视频帧图像，对选择的视频帧图像进行特征融合。
一种目标对象识别装置，包括：

对象检测模块，配置为对待检图像的对象进行目标对象检测，获得所述对象的目标对象预测信息，所述目标对象预测信息为检测到的对象为目标对象的置信信息；

关键点检测模块，配置为对所述待检图像的所述对象进行关键点检测，获得所述对象的关键点预测信息；所述关键点预测信息为检测到对象的关键点为目标对象的关键点的置信信息；

预测信息融合模块，配置为将所述对象检测模块获得的目标对象预测信息以及所述关键点检测模块获得的关键点预测信息进行融合，获得所述对象的综合预测信息；

对象识别模块，配置为根据所述预测信息融合模块获得的综合预测信息对所述目标对象进行识别。
根据权利要求9所述的装置，其中，所述装置还包括：

图像区域获取模块，配置为获取所述待检图像的对象对应的图像区域；

所述对象检测模块，配置为对所述图像区域获取模块获取的待检图像的对象对应的图像区域进行目标对象检测；

所述关键点检测模块，配置为对所述图像区域获取模块获取的待检图像的对象对应的图像区域进行关键点检测。
根据权利要求9或10所述的装置，其中，所述预测信息融合模块，配置为将所述目标对象预测信息以及所述关键点预测信息相乘，得到所述对象的综合预测信息。
根据权利要求9至11中任一项所述的装置，其中，所述关键点检测模块，配置为利用定位关键点的神经网络模型，对所述待检图像的对象进行关键点检测，获得所述对象的关键点预测信息。
根据权利要求10至12中任一项所述的装置，其中，所述获取所述待检图像的对象对应的图像区域之后，所述将所述目标对象预测信息以及所述关键点预测信息进行融合，获得所述对象的综合预测信息之前，所述装置还包括：

偏转角度检测模块，配置为从所述图像区域获取模块获取的图像区域，检测所述对象的偏转角度信息；

所述预测信息融合模块，配置为根据所述目标对象预测信息、所述关键点预测信息和所述偏转角度信息进行融合，获得所述对象的综合预测信息。
根据权利要求13所述的装置，其中，所述偏转角度检测模块配置为利用对象分类的神经网络模型，从所述图像区域检测所述对象的偏转角度信息。
根据权利要求9至14中任一项所述的装置，其中，

所述目标对象为：人脸；

所述将所述目标对象预测信息以及所述关键点预测信息进行融合，获得所述对象的综合预测信息之前，所述装置还包括：

人脸偏转角度检测模块，配置为从所述图像区域，检测人脸俯仰角度和/或人脸侧转角度；

所述预测信息融合模块，配置为根据适用指数函数将所述人脸俯仰角度和/或人脸侧转角度进行归一化处理；将所述目标对象预测信息、所述关键点预测信息和归一化的人脸俯仰角度相乘，获得所述对象的综合预测信息；

或，

将所述目标对象预测信息、所述关键点预测信息和归一化的人脸侧转角度相乘，获得所述对象的综合预测信息；

或，

将所述目标对象预测信息、所述关键点预测信息、归一化的人脸俯仰角度和归一化的人脸侧转角度相乘，获得所述对象的综合预测信息。
根据权利要求9至15中任一项所述的装置，其中，所述待检图像为视频帧图像；

在根据所述综合预测信息对所述目标对象进行识别之后，所述装置还包括：

对象跟踪模块，配置为根据从多个所述视频帧图像对目标对象进行识别的结果，对所述目标对象进行跟踪；

或者，

抓拍图像选取模块，配置为根据为多个所述视频帧图像各自获得的综合预测信息，从多个所述视频帧图像选择综合预测质量最高的视频帧图像作为抓拍图像；

或者，

特征融合模块，配置为根据为多个所述视频帧图像各自获得的综合预测信息，从多个所述视频帧图像选择预定个数的视频帧图像，对选择的视频帧图像进行特征融合。
一种电子设备，包括：处理器、存储器、通信元件和通信总线，所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信；

所述存储器配置为存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1至8中任一项所述的目标对象识别方法相应的操作。
一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述程序指令被处理器执行时实现权利要求1至8中任一项所述的目标对象识别方法的步骤。
一种计算机程序，其包括有计算机程序指令，其中，所述程序指令被处理器执行时实现权利要求1至8中任一项所述的目标对象识别方法的步骤。