WO2022205937A1

WO2022205937A1 - 特征信息提取方法、模型训练方法、装置及电子设备

Info

Publication number: WO2022205937A1
Application number: PCT/CN2021/131681
Authority: WO
Inventors: 刘业鹏; 程骏; 谢琨; 庞建新
Original assignee: 深圳市优必选科技股份有限公司
Priority date: 2021-04-01
Filing date: 2021-11-19
Publication date: 2022-10-06
Also published as: CN112926531B; CN112926531A

Abstract

本申请提供了一种特征信息提取方法、模型训练方法、装置及电子设备，所述特征信息提取方法包括：获取待处理图像；对待处理图像进行特征提取，获得待处理图像的整体特征信息；将整体特征信息分别输入候选框位置识别模块、候选框分类模块及候选框特征提取模块进行处理，获得根据整体特征信息识别出的各候选框对应的候选框位置特征信息、候选框分类特征信息以及候选框内图像特征信息。如此，在将根据这些特征信息进行后续跟踪识别时，即使出现人脸重叠或未识别到人脸的图像帧，还可以依据候选框内的图像特征信息进行行人Reid，可以减少多目标跟踪时的ID丢失问题。

Description

特征信息提取方法、模型训练方法、装置及电子设备

相关申请的交叉引用

本申请要求于2021年04月01日提交中国专利局的申请号为2021103573240、名称为“特征信息提取方法、模型训练方法、装置及电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及图像处理技术领域，具体而言，涉及一种特征信息提取方法、模型训练方法、装置及电子设备。

背景技术

在动态人脸识别系统中，通常需要先对人脸进行初步识别，然后跟踪人脸的移动，在同一人脸的移动轨迹中找到一张最优的人脸图像来进行后续的人脸识别或者人脸属性分析。

但是传统的基于Sort的多目标跟踪框架在计算框和轨迹距离的时候并没有引入行人重识别(Re-identification，Reid)信息，仅仅是对人脸进行移动跟踪。这会导致，在出现两个人脸重叠时出现ID丢失的问题。另外，由于人脸活动角度比较大，当人脸出现左右晃动的时候，由于有些帧没检测到人脸，也会导致后面的帧出现ID丢失。

申请内容

为了克服现有技术中的上述不足，本申请的目的在于提供一种特征信息提取方法，所述方法包括：

获取待处理图像；

对所述待处理图像进行特征提取，获得所述待处理图像的整体特征信息；

将所述整体特征信息分别输入候选框位置识别模块、候选框分类模块及候选框特征提取模块进行处理，获得根据所述整体特征信息识别出的各候选框对应的候选框位置特征信息、候选框分类特征信息以及候选框内图像特征信息。

在一些可能的实现方式中，所述方法还包括：

根据各候选框的所述候选框位置特征信息、候选框分类特征信息以及候选框内图像特征信息，对所述待处理图像中的人脸进行识别和跟踪。

在一些可能的实现方式中，所述对所述待处理图像进行特征提取，获得所述待处理图像的整体特征信息的步骤，包括：

通过骨干网络对所述待处理图像进行特征提取，获得第一特征信息；

将所述第一特征信息输入跨阶段连接的多层特征金字塔网络进行处理，获得各层级的所述特征金字塔网络输出的第二特征信息作为所述待处理图像的整体特征信息。

在一些可能的实现方式中，所述将所述第一特征信息输入跨阶段连接的多层特征金字塔网络进行处理的步骤，包括：

将所述第一特征信息分别输入具有层级关系的多层特征金字塔网络；

针对多层所述特征金字塔网络中的首层特征金字塔网络，通过该首层特征金字塔网络的自底向上模块和自顶向下模块对输入的数据进行处理，获得该首层特征金字塔网络的自顶向下模块输出的数据作为该层输出的第二特征信息；

针对多层所述特征金字塔网络中的每个非首层特征金字塔网络，通过该非首层特征金字塔网络的自底向上模块和自顶向下模块对输入的数据进行处理，将该非首层特征金字塔网络自底向上模块的输出的数据和上一层特征金字塔网络自底向上模块输出的数据融合后，作为该层输出的第二特征信息。

在一些可能的实现方式中，所述将所述整体特征信息分别输入候选框位置识别模块、候选框分类模块及候选框特征提取模块进行处理的步骤，包括：

分别将各层的所述第二特征信息输入至与各层对应的候选框位置识别模块、候选框分类模块及候选框特征提取模块，获得与各层的候选框位置特征信息、候选框分类特征信息以及候选框内图像特征信息；

对各层输出的候选框位置特征信息进行拼接，获得拼接后的候选框位置特征信息；

对各层输出的候选框分类特征信息进行拼接，获得拼接后的候选框分类特征信息；

对各层输出的候选框内图像特征信息进行拼接，获得拼接后的候选框内图像特征信息。

在一些可能的实现方式中，所述通过骨干网络对所述待处理图像进行特征提取，获得第一特征信息的步骤，包括：

通过残差网络对待处理图像进行特征提取，获得第一特征信息。

本申请的另一目的在于提供一种模型训练方法，所述方法包括：

获取训练样本，所述训练样本包括被标注为相同目标的两张人脸图像和被标注为不同目标的一张人脸图像，所述训练样本中携带有人脸框的位置尺寸信息；

通过本申请提供的所述特征信息提取方法对所述人脸图像进行特征提取；

根据所述人脸图像中人脸框的位置尺寸信息，采用回归函数作为损失函数对提取所述候选框位置特征信息的部分进行网络参数调整；

根据所述人脸图像中人脸框的位置尺寸信息，采用分类函数作为损失函数对提取所述候选框分类特征信息的部分进行网络参数调整；

结合所述训练样本中标注信息，利用孪生网路采用三元损失函数对提取所述候选框内图像特征信息的部分进行网络参数调整。

本申请的另一目的在于提供一种特征信息提取装置，所述装置包括：

数据获取模块，用于获取待处理图像；

整体特征提取模块，用于对所述待处理图像进行特征提取，获得所述待处理图像的第一特征信息；

候选框特征提取模块，用于将所述第一特征信息分别输入候选框位置识别模块、候选框分类模块及候选框特征提取模块进行处理，获得根据所述第一特征信息识别出的各候选框对应的候选框位置特征信息、候选框分类特征信息以及候选框内图像特征信息。

本申请的另一目的在于提供一种电子设备，包括处理器及机器可读存储介质，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被所述处理器执行时，实现本申请提供的所述特征信息提取或模型训练方法。

本申请的另一目的在于提供一种机器可读存储介质，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被一个或多个处理器执行时，实现本申请提供的所述特征信息提取或模型训练方法。

相对于现有技术而言，本申请具有以下有益效果：

本申请实施例提供的特征信息提取方法、模型训练方法、装置及电子设备，在对待处理图像进行整体图像特征提取的基础上，进行了进一步的特征提取，获得各候选框对应的候选框位置特征信息、候选框分类特征信息以及候选框内图像特征信息。如此，在将根据特征信息进行后续跟踪识别时，即使出现人脸重叠或未识别到人脸的图像帧，还可以依据候选框内的图像特征信息进行行人Reid，可以减少多目标跟踪时的ID丢失问题。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的电子设备的示意图；

图2为本申请实施例提供的特征信息提取方法的步骤流程示意图之一；

图3为本申请实施例提供的特征信息提取方法的步骤流程示意图之二；

图4为步骤S120的子步骤流程示意图；

图5为本申请实施例提供的骨干网络的结构示意图；

图6为本申请实施例提供的多层特征金字塔网络的结构示意图；

图7为本申请实施例提供的多层特征金字塔网络输出结果传递示意图；

图8为本申请实施例提供的模型训练方法的步骤流程示意图；

图9为本申请实施例提供的模型训练方法的数据流向示意图；

图10为本申请实施例提供的特征信息提取装置的功能模块示意图；

图11为本申请实施例提供的模型训练装置的功能模块示意图。

图标：100-电子设备；120-机器可读存储介质；130-处理器；140-特征信息提取装置；141-数据获取模块；142-整体特征提取模块；143-候选框特征提取模块；150-模型训练装置；151-样本获取模块；152-特征获取模块；153-训练模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，需要理解的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他30性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

发明人经过研究发现，传统的基于Sort的多目标跟踪框架在计算框和轨迹距离的时候并没有引入人脸Reid信息，仅仅是对人脸进行移动跟踪。这会导致在图像中出现两个人脸重叠时出现ID丢失的问题。例如，人脸重叠后，跟踪轨迹会交叉，由于没有Reid信息，导致后续跟踪轨迹而分离后无法与之前的跟踪轨迹对应上。

另外，由于人脸活动角度比较大，当人脸出现左右晃动的时候，可能存在有的画面帧中没检测到人脸，也会导致后面的帧出现ID丢失。例如，当某几帧图像没有会出现人脸时，会导致踪轨迹中断，后续出现的跟踪轨迹无法和之前原有的跟踪轨迹对应上。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互结合。

本申请实施例提供的一种电子设备，所述电子设备可以是具有图像处理能力的设备，例如，服务器、智能手机、个人电脑(personal computer，PC)、智能机器人等。

请参照图1，图1是所述电子设备100的硬件结构示意图。该电子设备100可包括处理器130及机器可读存储介质120。处理器130与机器可读存储介质120可经由系统总线通信。并且，机器可读存储介质120存储有机器可执行指令，通过读取并执行机器可读存储介质120中与特征信息提取逻辑或模型训练逻辑对应的机器可执行指令，处理器130可执行本实施例提供的特征信息提取方法或模型训练方法。

其中，所述机器可读存储介质120可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。其中，机器可读存储介质120用于存储程序，所述处理器130在接收到执行指令后，执行所述程序。

所述处理器130可能是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

可以理解的是，图1所示的框图仅为所述电子设备100的一种组成示意图，所述电子设备100还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

请参照图2，图2为应用于图1所示的电子设备100的一种特征信息提取方法的流程图，该特征信息提取方法的各个步骤可以由所述电子设备100中配置的特征提取模型实现，以下将对所述方法包括各个步骤进行详细阐述。

步骤S110，获取待处理图像。

在本实施例中，所述待处理图像可以为需要进行人脸识别或人脸的跟踪图像，例如，该待处理图像可以为通过图像采集设备采集到的视频数据中的某一帧图像。

步骤S120，对所述待处理图像进行特征提取，获得所述待处理图像的整体特征信息。

在本实施例中，所述特征提取模型可以包括整体特征提取部分和候选框特征提取部分。所述整体特征信息可以为通过所述整体特征提取部分进行特征提取后获得的特征信息。

步骤S130，将所述整体特征信息分别输入候选框位置识别模块、候选框分类模块及候选框特征提取模块进行处理，获得根据所述整体特征信息识别出的各候选框对应的候选框位置特征信息、候选框分类特征信息以及候选框内图像特征信息。

在本实施例中，所述特征提取模型的候选框特征提取部分可以包括候选框位置识别模块、候选框分类模块及候选框特征提取模块。所述整体特征提取部分获得的整体特征信息可以被分别输入至所述候选框位置识别模块、候选框分类模块及候选框特征提取模块进行进一步的特征提取。

其中，所述候选框位置识别模块用于根据所述整体特征信息，进一步识别出所述待处理图像上可能存在待跟踪目标的候选框，并获得这些候选框的位置坐标及尺寸大小信息作为所述候选框位置特征信息。例如，获取表征候选框中心坐标和矩形候选框长宽尺寸的特征信息。

所述候选框分类模块用于根据所述整体特征信息，进一步识别出各个所述候选框为前景图像(人脸)或背景图像的概率作为候选框分类特征信息。

所述候选框特征提取模块用于在所述整体特征信息的基础上，对各个候选框中和人脸识别相关的图像特征信息进行进一步特征提取，获得所述候选框内图像特征信息。

在本实施例中，在对待处理图像进行整体图像特征提取的基础上，进行了进一步的特征提取，获得各候选框对应的候选框位置特征信息、候选框分类特征信息以及候选框内图像特征信息。

例如，请参见图2，在步骤S130之后还可以包括步骤S140。

步骤S140，根据各候选框的所述候选框位置特征信息、候选框分类特征信息以及候选框内图像特征信息，对所述待处理图像中的人脸进行识别和跟踪。

如此，在根据本实施例提供的方法对视频中的各图像帧进行特征并用于进行后续跟踪识别时，即使出现人脸重叠或未识别到人脸的图像帧，后续还可以依据候选框内的图像特征信息进行人脸Reid，可以减少执行多目标跟踪时的ID丢失问题。

在一些可能的实现方式中，请参照图3，所述特征提取模型的整体特征提取部分可以包括骨干网络和跨阶段连接(Corss Stage Connect，CSC)的多层特征金字塔网络。请参照图4，步骤S120可以包括以下子步骤。

步骤S121，通过骨干网络对所述待处理图像进行特征提取，获得第一特征信息。

在本实施例中，所述骨干网络可以为残差网络，即所述通过残差网络对待处理图像进行特征提取，获得第一特征信息。例如，请参照图5，所述骨干网络可以为轻量级的Resnet18网络，其由多个不同大小的卷积层根据预设配置进行残差连接(skip connect)，最后输入平均池化进行处理，如此保证整个所述骨干网络的具有较好的特征提取能力。

步骤S122，将所述第一特征信息输入跨阶段连接的多层特征金字塔网络进行处理，获得各层级的所述特征金字塔网络输出的第二特征信息作为所述待处理图像的整体特征信息。

具体地，多层所述特征金字塔网络中每一层可以包括自底向上(bottom-up)模块和自顶向下(top-down)模块。在通过多层所述特征金字塔网络进行特征提取时，将所述第一特征信息分别输入具有层级关系的多层特征金字塔网络；针对多层所述特征金字塔网络中的首层特征金字塔网络，通过该首层特征金字塔网络的自底向上模块和自顶向下模块对输入的数据进行处理，获得该首层特征金字塔网络的自顶向下模块输出的数据作为该层输出的第二特征信息；针对多层所述特征金字塔网络中的每个非首层特征金字塔网络，通过该非首层特征金字塔网络的自底向上模块和自顶向下模块对输入的数据进行处理，将该非首层特征金字塔网络自底向上模块的输出的数据和上一层特征金字塔网络自底向上模块输出的数据融合后，作为该层输出的第二特征信息。

例如，请再次参照图6，以三层特征金字塔网络为例，第一层特征金字塔网络(FPN1)为首层特征金字塔网络。FPN1从骨干网络(backbone)获得所述第一特征信息，经过FPN1的自底向上模块和自顶向下模块处理后，自顶向下模块输出的数据则作为该层输出的第二特征信息。

第二层特征金字塔网络(FPN2)为非首层特征金字塔网络。FPN2也从骨干网络(backbone)获得所述第一特征信息经过FPN2的自底向上模块和自顶向下模块处理后，再与FPN1自底向上模块输出的数据进行融合，融合后的数据作为该层输出的第二特征信息。其中，融合的方式可以采用element-wise操作，即两个将特征图中对应像素点的数据值相加后取平均值。

第二层特征金字塔网络(FPN3)为非首层特征金字塔网络。FPN3也从骨干网络(backbone)获得所述第一特征信息经过FPN3的自底向上模块和自顶向下模块处理后，再与FPN2自底向上模块输出的数据进行融合，融合后的数据作为该层输出的第二特征信息。

因为实际采集的图像中人脸大小变化的区间很大，采用特征金字塔网络可以提升对多尺度人脸检测的能力。并且在所述多层特征金字塔网络中，采用跨阶段连接进行特征融合，使得每层输出的数据中融合上一层的特征信息，从而增强了输出数据的表达能力。

在一些可能的实现方式中，请参照图7，所述特征提取模型包括与每层所述特征金字塔网络对应的候选框位置识别模块、候选框分类模块及候选框特征提取模块。

在步骤S130中，将从步骤S122获得的各层第二特征信息输入至与各层对应的候选框位置识别模块、候选框分类模块及候选框特征提取模块，获得与各层的候选框位置特征信息、候选框分类特征信息以及候选框内图像特征信息。

针对各层输出的候选框位置特征信息进行拼接，获得拼接后的候选框位置特征信息；针对各层输出的候选框分类特征信息进行拼接，获得拼接后的候选框分类特征信息；针对各层输出的候选框内图像特征信息进行拼接，获得拼接后的候选框内图像特征信息。

最后输出拼接后的候选框位置特征信息、候选框分类特征信息以及候选框内图像特征信息。

例如，再次请参照图7，FPN1层对应一个候选框位置识别模块、候选框分类模块及候选框特征提取模块，FPN1层输出的数据分别输入至该层对应的候选框位置识别模块、候选框分类模块及候选框特征提取模块。候选框位置识别模块可以为1*1*4的卷积模块，候选框分类特征信息可以为1*1*2的卷积模块，候选框特征提取模块可以为1*1*128的卷积模块。经该层的候选框位置识别模块、候选框分类模块及候选框特征提取模块处理后，获得该层对应的候选框位置特征信息bbox1、候选框分类特征信息cls1以及候选框内图像特征信息feature1。

相应的，FPN2和FPN3对应有各自的选框位置识别模块、候选框分类模块及候选框特征提取模块，能够输出第二层对应的候选框位置特征信息bbox2、候选框分类特征信息cls2以及候选框内图像特征信息feature2，以及第三层对应的候选框位置特征信息bbox3、候选框分类特征信息cls3以及候选框内图像特征信息feature3。

以图7所示候选框位置特征信息为例，对各层输出的候选框位置特征信息bbox1、bbox2、bbox3进行拼接融合后，作为最后输出的候选框位置特征信息。同理，对最后输出的所述候选框分类特征信息和候选框内图像特征信息也是各种拼接同融合后的结果。

在本实施例中，每层输出的候选框位置特征信息可以是4维的特征向量(x,y,w,h)，分别代表候选框的中心坐标和矩形框的长和宽。例如，FPN1输出的第二特征信息为100*100的特征图，经过该层对应的候选框位置识别模块中1*1*4的卷积处理后，输出得是100*100*4的特征图，4是代表位置坐标有4个。

每层输出的候选框分类特征信息可以是2维的特征向量，分别代表行人框的归属于(前景/背景)的概率。

每层输出的候选框内图像特征信息可以是128维的特征向量，分别代表该人脸框提取到的128维图像特征信息。

如此，本实施例提供了一种轻量级的多任务框架，可以同时提取包含人脸的候选框在待处理图像中的位置并提取候选框中的图像特征信息，将这些信息输入至后续识别跟踪模块进行进一步处理时，可以减少目标跟踪ID丢失的问题。由于上述采用的网络架构为轻量级的，可以配置于处理能力有限的终端设备，例如，移动端机器人。

请参照图8，本实施例还提供一种用于对所述特征提取模型进行训练的模型训练方法，下面对该方法的各个步骤进行详细解释。

步骤S210，获取训练样本，所述训练样本包括被标注为相同目标的两张人脸图像和被标注为不同目标的一张人脸图像，所述训练样本中携带有人脸框的位置尺寸信息。

请参照图9，在本实施例中，所述训练样本中可以包括3个人脸图像Face1、Face2、Face3。其中，Face1、Face2被标注为相同目标，Face3被标注为不同目标，并且，3个人脸图像中还标注有人脸框的位置和尺寸信息。

步骤S220，通过图2所示步骤S110-步骤S130对所述人脸图像进行特征提取。

在本实施例中，可以通过上述特征信息提取方法分别对3个人脸图像进行特征提取，获得各人脸图像对应的候选框位置特征信息、候选框分类特征信息以及候选框内图像特征信息。

步骤S230，根据所述人脸图像中人脸框的位置尺寸信息，采用回归函数作为损失函数对提取所述候选框位置特征信息的部分进行网络参数调整；根据所述人脸图像中人脸框的位置尺寸信息，采用分类函数作为损失函数对提取所述候选框分类特征信息的部分进行网络参数调整；结合所述训练样本中标注信息，利用孪生网络采用三元损失函数对提取所述候选框内图像特征信息的部分进行网络参数调整。

具体地，在本实施例中，针对提取所述候选框位置特征信息的部分，可以根据训练样本中所述人脸图像中人脸框的位置尺寸信息，采用回归函数作为损失函数进行网络参数调整。例如，可以采用Smooth L1 Loss作为损失函数。

针对提取所述候选框分类特征信息的部分，可以根据训练样本中所述人脸图像中人脸框的位置尺寸信息，采用分类函数作为损失函数进行网络参数调整。例如，可以采用Softmax作为损失函数。

其中，Softmax函数的表达形式可以如下：

针对提取所述候选框内图像特征信息的部分，可以结合所述训练样本中3个人脸图像是否为相同目标的标注信息，利用孪生网络采用三元损失函数进行网络参数调整。利用孪生网络采用Triplet loss函数作为损失函数。

其中，Triplet loss函数的表达形式可以如下：

每次会分别将训练样本中的3张人脸图像分别输入所述特征提取模型得到三组特征向量。每一批数据计算32组数据的loss函数进行反向梯度求导。

需要说明的是，在本实施例中，所述特征信息提取方法和所述模型训练方法，可以由不同的电子设备执行，也可以由相同的电子设备在不同阶段执行，在本实施例中不做限定。

请参照图10，本实施例还提供一种特征信息提取装置140，所述特征信息提取装置140包括至少一个可以软件形式存储于机器可读存储介质120中的功能模块。从功能上划分，所述特征信息提取装置140可以包括数据获取模块141、整体特征提取模块142及候选框特征提取模块143。

所述数据获取模块141用于获取待处理图像。

本实施例中，所述数据获取模块141可用于执行图2所示的步骤S110，关于所述数据获取模块141的具体描述可参对所述步骤S110的描述。

所述整体特征提取模块142用于对所述待处理图像进行特征提取，获得所述待处理图像的第一特征信息。

本实施例中，所述整体特征提取模块142可用于执行图2所示的步骤S120，关于所述整体特征提取模块142的具体描述可参对所述步骤S120的描述。

所述候选框特征提取模块143用于将所述第一特征信息分别输入候选框位置识别模块、候选框分类模块及候选框特征提取模块143进行处理，获得根据所述第一特征信息识别出的各候选框对应的候选框位置特征信息、候选框分类特征信息以及候选框内图像特征信息。

本实施例中，所述候选框特征提取模块143可用于执行图2所示的步骤S130，关于所述候选框特征提取模块143的具体描述可参对所述步骤S130的描述。

请参照图11，本实施例还提供一种模型训练装置150，所述模型训练装置150包括至少一个可以软件形式存储于机器可读存储介质120中的功能模块。从功能上划分，所述模型训练装置150可以包括样本获取模块151、特征获取模块152及训练模块153。

所述样本获取模块151用于获取训练样本，所述训练样本包括被标注为相同目标的两张人脸图像和被标注为不同目标的一张人脸图像，所述训练样本中携带有人脸框的位置尺寸信息。

本实施例中，所述样本获取模块151可用于执行图8所示的步骤S210，关于所述样本获取模块151的具体描述可参对所述步骤S210的描述。

所述特征获取模块152用于通过所述特征信息提取方法对所述人脸图像进行特征提取。

本实施例中，所述特征获取模块152可用于执行图8所示的步骤S220，关于所述特征获取模块152的具体描述可参对所述步骤S220的描述。

所述训练模块153用于根据所述人脸图像中人脸框的位置尺寸信息，采用回归函数作为损失函数对提取所述候选框位置特征信息的部分进行网络参数调整；根据所述人脸图像中人脸框的位置尺寸信息，采用分类函数作为损失函数对提取所述候选框分类特征信息的部分进行网络参数调整；结合所述训练样本中标注信息，利用孪生网路采用三元损失函数对提取所述候选框内图像特征信息的部分进行网络参数调整。

本实施例中，所述训练模块153可用于执行图8所示的步骤S230，关于所述训练模块153的具体描述可参对所述步骤S230的描述。

综上所述，本申请实施例提供的特征信息提取方法、模型训练方法、装置及电子设备，在对待处理图像进行整体图像特征提取的基础上，进行了进一步的特征提取，获得各候选框对应的候选框位置特征信息、候选框分类特征信息以及候选框内图像特征信息。如此，在将根据特征信息进行后续跟踪识别时，即使出现人脸重叠或未识别到人脸的图像帧，还可以依据候选框内的图像特征信息进行行人Reid，可以减少多目标跟踪时的ID丢失问题。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述，仅为本申请的各种实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

一种特征信息提取方法，其特征在于，所述方法包括：

获取待处理图像；

对所述待处理图像进行特征提取，获得所述待处理图像的整体特征信息；

将所述整体特征信息分别输入候选框位置识别模块、候选框分类模块及候选框特征提取模块进行处理，获得根据所述整体特征信息识别出的各候选框对应的候选框位置特征信息、候选框分类特征信息以及候选框内图像特征信息。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据各候选框的所述候选框位置特征信息、候选框分类特征信息以及候选框内图像特征信息，对所述待处理图像中的人脸进行识别和跟踪。
根据权利要求1所述的方法，其特征在于，所述对所述待处理图像进行特征提取，获得所述待处理图像的整体特征信息的步骤，包括：

通过骨干网络对所述待处理图像进行特征提取，获得第一特征信息；

将所述第一特征信息输入跨阶段连接的多层特征金字塔网络进行处理，获得各层级的所述特征金字塔网络输出的第二特征信息作为所述待处理图像的整体特征信息。
根据权利要求3所述的方法，其特征在于，所述将所述第一特征信息输入跨阶段连接的多层特征金字塔网络进行处理的步骤，包括：

将所述第一特征信息分别输入具有层级关系的多层特征金字塔网络；

针对多层所述特征金字塔网络中的首层特征金字塔网络，通过该首层特征金字塔网络的自底向上模块和自顶向下模块对输入的数据进行处理，获得该首层特征金字塔网络的自顶向下模块输出的数据作为该层输出的第二特征信息；

针对多层所述特征金字塔网络中的每个非首层特征金字塔网络，通过该非首层特征金字塔网络的自底向上模块和自顶向下模块对输入的数据进行处理，将该非首层特征金字塔网络自底向上模块的输出的数据和上一层特征金字塔网络自底向上模块输出的数据融合后，作为该层输出的第二特征信息。
根据权利要求4所述的方法，其特征在于，所述将所述整体特征信息分别输入候选框位置识别模块、候选框分类模块及候选框特征提取模块进行处理的步骤，包括：

分别将各层的所述第二特征信息输入至与各层对应的候选框位置识别模块、候选框分类模块及候选框特征提取模块，获得与各层的候选框位置特征信息、候选框分类特征信息以及候选框内图像特征信息；

对各层输出的候选框位置特征信息进行拼接，获得拼接后的候选框位置特征信息；

对各层输出的候选框分类特征信息进行拼接，获得拼接后的候选框分类特征信息；

对各层输出的候选框内图像特征信息进行拼接，获得拼接后的候选框内图像特征信息。
根据权利要求3所述的方法，其特征在于，所述通过骨干网络对所述待处理图像进行特征提取，获得第一特征信息的步骤，包括：

通过残差网络对待处理图像进行特征提取，获得第一特征信息。
一种模型训练方法，其特征在于，所述方法包括：

获取训练样本，所述训练样本包括被标注为相同目标的两张人脸图像和被标注为不同目标的一张人脸图像，所述训练样本中携带有人脸框的位置尺寸信息；

通过权利要求1-6任意一项所述的特征信息提取方法对所述人脸图像进行特征提取；

根据所述人脸图像中人脸框的位置尺寸信息，采用回归函数作为损失函数对提取所述候选框位置特征信息的部分进行网络参数调整；

根据所述人脸图像中人脸框的位置尺寸信息，采用分类函数作为损失函数对提取所述候选框分类特征信息的部分进行网络参数调整；

结合所述训练样本中标注信息，利用孪生网路采用三元损失函数对提取所述候选框内图像特征信息的部分进行网络参数调整。
一种特征信息提取装置，其特征在于，所述装置包括：

数据获取模块，用于获取待处理图像；

整体特征提取模块，用于对所述待处理图像进行特征提取，获得所述待处理图像的第一特征信息；

候选框特征提取模块，用于将所述第一特征信息分别输入候选框位置识别模块、候选框分类模块及候选框特征提取模块进行处理，获得根据所述第一特征信息识别出的各候选框对应的候选框位置特征信息、候选框分类特征信息以及候选框内图像特征信息。
一种电子设备，其特征在于，包括处理器及机器可读存储介质，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被所述处理器执行时，实现权利要求1-7任意一项所述的方法。
一种机器可读存储介质，其特征在于，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被一个或多个处理器执行时，实现权利要求1-7任意一项所述的方法。