WO2020186739A1

WO2020186739A1 - 一种基于面部识别优化数据的方法

Info

Publication number: WO2020186739A1
Application number: PCT/CN2019/111237
Authority: WO
Inventors: 刘若鹏; 栾琳; 季春霖; 刘康
Original assignee: 杭州光启人工智能研究院
Priority date: 2019-03-19
Filing date: 2019-10-15
Publication date: 2020-09-24
Also published as: CN111723081A

Abstract

本发明提供了一种基于面部识别优化数据的方法，包括：在集合中设置原始数据，所述原始数据来源于面部识别；判断相邻的原始数据是否属于同一类；如果相邻的原始数据属于同一类，则标识这一类的数据计数器加1，否则标识这一类的数据计数器保持不变；保留集合下同一类原始数据最多的原始数据，删除集合下其他数据。通过面部识别来提高数据的质量，数据质量的提升即可提升模型识别效果，二者相辅相成，最终达到最佳的训练效果，最大限度提升数据的使用率。

Description

一种基于面部识别优化数据的方法

技术领域

本发明涉及面部识别技术领域，尤其涉及一种基于面部识别优化数据的方法。

背景技术

面部识别，是基于人的脸部特征信息进行身份识别的一种生物识别技术。人脸数据是面部识别模型训练的前提，没有某场景下的数据做支撑，该面部识别模型就不具备对该场景的较精准识别。数据的数量和质量都直接影响面部识别模型效果的好坏。

技术问题

但是在实际场景为满足数据数量的要求，面部数据多数从视屏中截取或者从网页上爬取，数据的质量往往都比较差。多出现如下一些问题：数据建立集合进行归类时，单集合下混杂了多类；单类数据多次建集合等情况。

技术解决方案

本发明所要解决的技术问题是提供一种基于面部识别优化数据的方法，能够通过面部识别来提高数据的质量，数据质量的提升即可提升模型识别效果，二者相辅相成，最终达到最佳的训练效果，最大限度提升数据的使用率。

为解决上述技术问题，本发明一实施例提供了一种基于面部识别优化数据的方法，包括：在集合中设置原始数据，所述原始数据来源于面部识别；判断相邻的原始数据是否属于同一类；如果相邻的原始数据属于同一类，则标识这一类的数据计数器加1，否则标识这一类的数据计数器保持不变；保留集合下同一类原始数据最多的原始数据，删除集合下其他数据。

优选地，在集合中设置原始数据包括：通过网络数据建立集合或者通过工具建立集合。

优选地，所述的集合为多个。

优选地，所述的集合名称具有唯一性。

优选地，判断相邻的原始数据是否属于同一类包括：基于Facenet/Openface/insightface网络结构进行面部识别，获取原始特征值；提取类的的特征向量计算欧氏距离；当欧氏距离小于欧氏距离阈值时，即判断两个原始数据属于同一类。

优选地，所述欧氏距离阈值设置为0.9～1.2。

优选地，在保留集合下同一类原始数据最多的原始数据，删除集合下其他数据之后，还包括：删除空集合。

优选地，将处于不同集合下的原始数据进行比较，如果为同一类，则将处于不同集合下原始数据进行合并。

优选地，所述的类为活体。

优选地，所述的集合为文件夹或者txt分类文件。

有益效果

与现有技术相比，上述技术方案具有以下优点：通过面部识别来提高数据的质量，数据质量的提升即可提升模型识别效果，二者相辅相成，最终达到最佳的训练效果，最大限度提升数据的使用率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本发明基于面部识别优化数据的方法的输入数据样例。

图2是对图1进行清洗数据的样例。

图3是对图2进行合并的样例。

图4是本发明基于面部识别优化数据的方法一实施例流程图。

本发明的实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例一

图1是本发明基于面部识别优化数据的方法的输入数据样例。如图1所示，集合1包含了5张图：图片1、图片2、图片3、图片4、图片5，含有2个类：A类、B类；集合2包含了5张图：图片6、图片7、图片8、图片9、图片10，含有3个类：A类、B类、C类；集合3包含了5张图：图片11、图片12、图片13、图片14、图片15，3个类：A类、B类、D类。

先依次处理每集合下的多类问题，取集合1为例。这里集合可以设为文件夹或者txt分类文件。集合的来源可以是通过网络数据建立集合或者通过工具建立集合。

计数器count初始值为1。取出图1与图2做人脸识别比对，图1和图2判断为同一人，计数器count计数为2。

取出图2与图3做人脸识别比对，图2和图3判断为同一人，计数器count计数为3。

取出图3与图4做人脸识别比对，图3和图4判断为非同一人，计数器count重新初始为1。

取出图4与图5做人脸识别比对，图4和图5判断为同一人，计数器count计数为2。

最终得出集合1下A类数量计数为3，B类数量计数为2。保留集合1下图片数量最多的类，即保留集合1下图片1、图片2、图片3，删除图片4、图片5。

得到图2结果，图2是对图1进行清洗数据的样例。可见该实施例是对单集合多类面部识别数据进行清洗处理的样例。由此可见，通过面部识别来提高数据的质量，数据质量的提升即可提升模型识别效果，二者相辅相成，最终达到最佳的训练效果，从而能最大限度提升数据的使用率。

实施例二

以图1中集合1、集合2、集合3为例。取出集合1、集合2、集合3中的第一张图，即图片1、图片6和图片12。依次对比图1和图6、图1和图12、图6和图12，判断图1和图6为同一个人，则将集合2所有图片移动到集合1中，并删除集合2；图1和图12判断为非同一个人，不做处理；图6和图12判断为非同一个人，不做处理；

最终得到图3的结果，图3是对图2进行合并的样例。图3是一人一集合的对原始数据进行清洗后的数据结构。可见该实施例是对解决单类多集合数据进行清洗处理的样例。由此可见，通过面部识别来提高数据的质量，数据质量的提升即可提升模型识别效果，二者相辅相成，最终达到最佳的训练效果，从而能最大限度提升数据的使用率。

实施例三

图4是本发明基于面部识别优化数据的方法一实施例流程图。如图4所示，一种基于面部识别优化数据的方法，包括：

步骤1：以基于Facenet网络结构的对人进行面部识别为基础，初次清理数据使用Facenet官方提供的最新128维模型。也可以通过Openface/insightface网络模型来进行面部识别。通过模型提取图片的特征向量计算欧氏距离，欧氏距离阈值设置为0.9～1.2。当欧氏距离小于欧氏距离阈值时，即判断两张图片为同一人。

步骤2：解决单集合下混杂了多类问题。根据步骤1的面部识别依次判定相邻两张图是否为同一个人，如果为相同的一个人计数器开始计数，如果相邻两人非同一个人则计数器停止计算并归零，并标记为同一人的图片个数。依次即可得到每个人的图片数量，只保留单人图片数量最多的图片，其余图片删除。

步骤3：解决单类数据多次建集合问题。执行步骤2后（保证了每一个集合中只含有一个人的数据），获取两个集合中的各第一张（或者任意一张）图片，根据步骤1的面部识别方法，依次判定各两个集合中的两张图是否为同一个人，如果是同一个人则将数据合并，清理空集合；如果非同一个人，则不做任何处理。

工业实用性

由上述说明可知，使用根据本发明的基于面部识别优化数据的方法，通过面部识别来提高数据的质量，数据质量的提升即可提升模型识别效果，二者相辅相成，最终达到最佳的训练效果，最大限度提升数据的使用率。

以上对本发明实施例进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

一种基于面部识别优化数据的方法，其特征在于，包括：

在集合中设置原始数据，所述原始数据来源于面部识别；

判断相邻的原始数据是否属于同一类；

如果相邻的原始数据属于同一类，则标识这一类的数据计数器加1，否则标识这一类的数据计数器保持不变；

保留集合下同一类原始数据最多的原始数据，删除集合下其他数据。
根据权利要求1所述的基于面部识别优化数据的方法，其特征在于，在集合中设置原始数据包括：通过网络数据建立集合或者通过工具建立集合。
根据权利要求1所述的基于面部识别优化数据的方法，其特征在于，所述的集合为多个。
根据权利要求1所述的基于面部识别优化数据的方法，其特征在于，所述的集合名称具有唯一性。
根据权利要求1所述的基于面部识别优化数据的方法，其特征在于，判断相邻的原始数据是否属于同一类包括：

基于Facenet/Openface/insightface网络结构进行面部识别，获取原始特征值；

提取类的的特征向量计算欧氏距离；

当欧氏距离小于欧氏距离阈值时，即判断两个原始数据属于同一类。
根据权利要求5所述的基于面部识别优化数据的方法，其特征在于，所述欧氏距离阈值设置为0.9～1.2。
根据权利要求1所述的基于面部识别优化数据的方法，其特征在于，保留集合下同一类原始数据最多的原始数据，删除集合下其他数据之后，还包括：删除空集合。
根据权利要求3所述的基于面部识别优化数据的方法，其特征在于，将处于不同集合下的原始数据进行比较，如果为同一类，则将处于不同集合下原始数据进行合并。
根据权利要求1至8任意一项所述的基于面部识别优化数据的方法，其特征在于，所述的类为活体。
根据权利要求9所述的基于面部识别优化数据的方法，其特征在于，所述的集合为文件夹或者txt分类文件。