WO2020186739A1 - 一种基于面部识别优化数据的方法 - Google Patents

一种基于面部识别优化数据的方法 Download PDF

Info

Publication number
WO2020186739A1
WO2020186739A1 PCT/CN2019/111237 CN2019111237W WO2020186739A1 WO 2020186739 A1 WO2020186739 A1 WO 2020186739A1 CN 2019111237 W CN2019111237 W CN 2019111237W WO 2020186739 A1 WO2020186739 A1 WO 2020186739A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
facial recognition
original data
collection
optimizing
Prior art date
Application number
PCT/CN2019/111237
Other languages
English (en)
French (fr)
Inventor
刘若鹏
栾琳
季春霖
刘康
Original Assignee
杭州光启人工智能研究院
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 杭州光启人工智能研究院 filed Critical 杭州光启人工智能研究院
Publication of WO2020186739A1 publication Critical patent/WO2020186739A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions

Definitions

  • the present invention relates to the technical field of facial recognition, in particular to a method for optimizing data based on facial recognition.
  • Facial recognition is a kind of biometric recognition technology based on human facial feature information. Face data is a prerequisite for the training of a facial recognition model. Without the support of data in a certain scene, the facial recognition model does not have more accurate recognition of the scene. The quantity and quality of data directly affect the effectiveness of the facial recognition model.
  • the technical problem to be solved by the present invention is to provide a method for optimizing data based on facial recognition, which can improve the quality of data through facial recognition, and the improvement of data quality can improve the model recognition effect.
  • the two complement each other and finally achieve the best training. Effect, maximize the utilization rate of data.
  • an embodiment of the present invention provides a method for optimizing data based on facial recognition, including: setting original data in a set, the original data is derived from facial recognition; judging whether adjacent original data belong to the same Class; if the adjacent original data belong to the same class, the data counter that identifies this class is increased by 1, otherwise the data counter that identifies this class remains unchanged; the original data with the most original data of the same class in the collection is retained, and the collection is deleted Other data.
  • setting the original data in the collection includes: establishing a collection through network data or establishing a collection through a tool.
  • the set is multiple.
  • the set name is unique.
  • judging whether adjacent original data belong to the same category includes: performing face recognition based on the Facenet/Openface/insightface network structure to obtain the original feature value; extracting the feature vector of the category to calculate the Euclidean distance; when the Euclidean distance is less than the Euclidean distance When the distance threshold is used, it is judged that the two original data belong to the same category.
  • the Euclidean distance threshold is set to 0.9-1.2.
  • the method further includes: deleting the empty collection.
  • the original data in different sets are compared, and if they are of the same type, the original data in different sets are merged.
  • the species is a living body.
  • the collection is a folder or a txt file.
  • the above technical solution has the following advantages: the data quality is improved through facial recognition, and the improvement of the data quality can improve the model recognition effect.
  • Fig. 1 is an example of input data of the method for optimizing data based on facial recognition of the present invention.
  • Figure 2 is an example of cleaning data for Figure 1.
  • Fig. 3 is an example of combining Fig. 2.
  • Fig. 4 is a flowchart of an embodiment of a method for optimizing data based on facial recognition of the present invention.
  • Fig. 1 is an example of input data of the method for optimizing data based on facial recognition of the present invention.
  • set 1 contains 5 pictures: Picture 1, Picture 2, Picture 3, Picture 4, Picture 5, and contains 2 categories: Type A and Type B;
  • Set 2 contains 5 pictures: Picture 6 , Picture 7, Picture 8, Picture 9, Picture 10, contains 3 categories: A, B, C;
  • Set 3 contains 5 pictures: Picture 11, Picture 12, Picture 13, Picture 14, Picture 15, Three categories: A, B, D.
  • the collection here can be set as a folder or txt file.
  • the source of the collection can be to build a collection through network data or to build a collection through tools.
  • the initial value of the counter count is 1. Take out Figure 1 and Figure 2 for face recognition comparison. Figure 1 and Figure 2 are judged to be the same person, and the counter count is 2.
  • Fig. 3 and Fig. 4 judge that they are not the same person, and the counter count is reset to 1.
  • Fig. 4 and Fig. 5 are judged to be the same person, and the counter count is 2.
  • the number count of category A under set 1 is 3, and the number count of category B is 2.
  • Figure 2 is an example of cleaning data of Figure 1. It can be seen that this embodiment is an example of cleaning a single set of multiple types of facial recognition data. It can be seen that by improving the quality of data through facial recognition, the improvement of data quality can improve the model recognition effect. The two complement each other to achieve the best training effect, which can maximize the utilization rate of data.
  • FIG. 3 shows the data structure after cleaning the original data for one person and one collection. It can be seen that this embodiment is an example of cleaning processing for solving a single type of multiple sets of data. It can be seen that by improving the quality of data through facial recognition, the improvement of data quality can improve the model recognition effect. The two complement each other to achieve the best training effect, which can maximize the utilization rate of data.
  • Fig. 4 is a flowchart of an embodiment of a method for optimizing data based on facial recognition of the present invention. As shown in Figure 4, a method for optimizing data based on facial recognition includes:
  • Step 1 Based on the facial recognition of people based on the Facenet network structure, the first clean data uses the latest 128-dimensional model officially provided by Facenet. Face recognition can also be performed through the Openface/insightface network model.
  • the Euclidean distance is calculated by extracting the feature vector of the picture through the model, and the Euclidean distance threshold is set to 0.9-1.2. When the Euclidean distance is less than the Euclidean distance threshold, it is judged that the two pictures are the same person.
  • Step 2 Solve the mixed problems of multiple types under a single set.
  • the facial recognition in step 1 it is determined whether the two adjacent pictures are the same person in turn. If they are the same person, the counter starts counting. If the two adjacent people are not the same person, the counter stops counting and returns to zero, and marks the same person. The number of pictures. You can get the number of pictures for each person in turn, only keep the pictures with the largest number of single-person pictures, and delete the rest.
  • Step 3 Solve the problem of building multiple sets of single-type data. After performing step 2 (ensure that each set contains only one person's data), obtain the first (or any one) picture of each of the two sets, and determine two in turn according to the facial recognition method in step 1. Whether the two pictures in the set are the same person, if they are the same person, merge the data and clean up the empty set; if they are not the same person, do nothing.
  • the quality of data can be improved through facial recognition, and the improvement of data quality can improve the model recognition effect.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于面部识别优化数据的方法,包括:在集合中设置原始数据,所述原始数据来源于面部识别;判断相邻的原始数据是否属于同一类;如果相邻的原始数据属于同一类,则标识这一类的数据计数器加1,否则标识这一类的数据计数器保持不变;保留集合下同一类原始数据最多的原始数据,删除集合下其他数据。通过面部识别来提高数据的质量,数据质量的提升即可提升模型识别效果,二者相辅相成,最终达到最佳的训练效果,最大限度提升数据的使用率。

Description

一种基于面部识别优化数据的方法 技术领域
本发明涉及面部识别技术领域,尤其涉及一种基于面部识别优化数据的方法。
背景技术
面部识别,是基于人的脸部特征信息进行身份识别的一种生物识别技术。人脸数据是面部识别模型训练的前提,没有某场景下的数据做支撑,该面部识别模型就不具备对该场景的较精准识别。数据的数量和质量都直接影响面部识别模型效果的好坏。
技术问题
但是在实际场景为满足数据数量的要求,面部数据多数从视屏中截取或者从网页上爬取,数据的质量往往都比较差。多出现如下一些问题:数据建立集合进行归类时,单集合下混杂了多类;单类数据多次建集合等情况。
技术解决方案
本发明所要解决的技术问题是提供一种基于面部识别优化数据的方法,能够通过面部识别来提高数据的质量,数据质量的提升即可提升模型识别效果,二者相辅相成,最终达到最佳的训练效果,最大限度提升数据的使用率。
为解决上述技术问题,本发明一实施例提供了一种基于面部识别优化数据的方法,包括:在集合中设置原始数据,所述原始数据来源于面部识别;判断相邻的原始数据是否属于同一类;如果相邻的原始数据属于同一类,则标识这一类的数据计数器加1,否则标识这一类的数据计数器保持不变;保留集合下同一类原始数据最多的原始数据,删除集合下其他数据。
优选地,在集合中设置原始数据包括:通过网络数据建立集合或者通过工具建立集合。
优选地,所述的集合为多个。
优选地,所述的集合名称具有唯一性。
优选地,判断相邻的原始数据是否属于同一类包括:基于Facenet/Openface/insightface网络结构进行面部识别,获取原始特征值;提取类的的特征向量计算欧氏距离;当欧氏距离小于欧氏距离阈值时,即判断两个原始数据属于同一类。
优选地,所述欧氏距离阈值设置为0.9~1.2。
优选地,在保留集合下同一类原始数据最多的原始数据,删除集合下其他数据之后,还包括:删除空集合。
优选地,将处于不同集合下的原始数据进行比较,如果为同一类,则将处于不同集合下原始数据进行合并。
优选地,所述的类为活体。
优选地,所述的集合为文件夹或者txt分类文件。
有益效果
与现有技术相比,上述技术方案具有以下优点:通过面部识别来提高数据的质量,数据质量的提升即可提升模型识别效果,二者相辅相成,最终达到最佳的训练效果,最大限度提升数据的使用率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明基于面部识别优化数据的方法的输入数据样例。
图2是对图1进行清洗数据的样例。
图3是对图2进行合并的样例。
图4是本发明基于面部识别优化数据的方法一实施例流程图。
本发明的实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例一
图1是本发明基于面部识别优化数据的方法的输入数据样例。如图1所示,集合1包含了5张图:图片1、图片2、图片3、图片4、图片5,含有2个类:A类、B类;集合2包含了5张图:图片6、图片7、图片8、图片9、图片10,含有3个类:A类、B类、C类;集合3包含了5张图:图片11、图片12、图片13、图片14、图片15,3个类:A类、B类、D类。
先依次处理每集合下的多类问题,取集合1为例。这里集合可以设为文件夹或者txt分类文件。集合的来源可以是通过网络数据建立集合或者通过工具建立集合。
计数器count初始值为1。取出图1与图2做人脸识别比对,图1和图2判断为同一人,计数器count计数为2。
取出图2与图3做人脸识别比对,图2和图3判断为同一人,计数器count计数为3。
取出图3与图4做人脸识别比对,图3和图4判断为非同一人,计数器count重新初始为1。
取出图4与图5做人脸识别比对,图4和图5判断为同一人,计数器count计数为2。
最终得出集合1下A类数量计数为3,B类数量计数为2。保留集合1下图片数量最多的类,即保留集合1下图片1、图片2、图片3,删除图片4、图片5。
得到图2结果,图2是对图1进行清洗数据的样例。可见该实施例是对单集合多类面部识别数据进行清洗处理的样例。由此可见,通过面部识别来提高数据的质量,数据质量的提升即可提升模型识别效果,二者相辅相成,最终达到最佳的训练效果,从而能最大限度提升数据的使用率。
实施例二
以图1中集合1、集合2、集合3为例。取出集合1、集合2、集合3中的第一张图,即图片1、图片6和图片12。依次对比图1和图6、图1和图12、图6和图12,判断图1和图6为同一个人,则将集合2所有图片移动到集合1中,并删除集合2;图1和图12判断为非同一个人,不做处理;图6和图12判断为非同一个人,不做处理;
最终得到图3的结果,图3是对图2进行合并的样例。图3是一人一集合的对原始数据进行清洗后的数据结构。可见该实施例是对解决单类多集合数据进行清洗处理的样例。由此可见,通过面部识别来提高数据的质量,数据质量的提升即可提升模型识别效果,二者相辅相成,最终达到最佳的训练效果,从而能最大限度提升数据的使用率。
实施例三
图4是本发明基于面部识别优化数据的方法一实施例流程图。如图4所示,一种基于面部识别优化数据的方法,包括:
步骤1:以基于Facenet网络结构的对人进行面部识别为基础,初次清理数据使用Facenet官方提供的最新128维模型。也可以通过Openface/insightface网络模型来进行面部识别。通过模型提取图片的特征向量计算欧氏距离,欧氏距离阈值设置为0.9~1.2。当欧氏距离小于欧氏距离阈值时,即判断两张图片为同一人。
步骤2:解决单集合下混杂了多类问题。根据步骤1的面部识别依次判定相邻两张图是否为同一个人,如果为相同的一个人计数器开始计数,如果相邻两人非同一个人则计数器停止计算并归零,并标记为同一人的图片个数。依次即可得到每个人的图片数量,只保留单人图片数量最多的图片,其余图片删除。
步骤3:解决单类数据多次建集合问题。执行步骤2后(保证了每一个集合中只含有一个人的数据),获取两个集合中的各第一张(或者任意一张)图片,根据步骤1的面部识别方法,依次判定各两个集合中的两张图是否为同一个人,如果是同一个人则将数据合并,清理空集合;如果非同一个人,则不做任何处理。
工业实用性
由上述说明可知,使用根据本发明的基于面部识别优化数据的方法,通过面部识别来提高数据的质量,数据质量的提升即可提升模型识别效果,二者相辅相成,最终达到最佳的训练效果,最大限度提升数据的使用率。
以上对本发明实施例进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

  1. 一种基于面部识别优化数据的方法,其特征在于,包括:
    在集合中设置原始数据,所述原始数据来源于面部识别;
    判断相邻的原始数据是否属于同一类;
    如果相邻的原始数据属于同一类,则标识这一类的数据计数器加1,否则标识这一类的数据计数器保持不变;
    保留集合下同一类原始数据最多的原始数据,删除集合下其他数据。
  2. 根据权利要求1所述的基于面部识别优化数据的方法,其特征在于,在集合中设置原始数据包括:通过网络数据建立集合或者通过工具建立集合。
  3. 根据权利要求1所述的基于面部识别优化数据的方法,其特征在于,所述的集合为多个。
  4. 根据权利要求1所述的基于面部识别优化数据的方法,其特征在于,所述的集合名称具有唯一性。
  5. 根据权利要求1所述的基于面部识别优化数据的方法,其特征在于,判断相邻的原始数据是否属于同一类包括:
    基于Facenet/Openface/insightface网络结构进行面部识别,获取原始特征值;
    提取类的的特征向量计算欧氏距离;
    当欧氏距离小于欧氏距离阈值时,即判断两个原始数据属于同一类。
  6. 根据权利要求5所述的基于面部识别优化数据的方法,其特征在于,所述欧氏距离阈值设置为0.9~1.2。
  7. 根据权利要求1所述的基于面部识别优化数据的方法,其特征在于,保留集合下同一类原始数据最多的原始数据,删除集合下其他数据之后,还包括:删除空集合。
  8. 根据权利要求3所述的基于面部识别优化数据的方法,其特征在于,将处于不同集合下的原始数据进行比较,如果为同一类,则将处于不同集合下原始数据进行合并。
  9. 根据权利要求1至8任意一项所述的基于面部识别优化数据的方法,其特征在于,所述的类为活体。
  10. 根据权利要求9所述的基于面部识别优化数据的方法,其特征在于,所述的集合为文件夹或者txt分类文件。
PCT/CN2019/111237 2019-03-19 2019-10-15 一种基于面部识别优化数据的方法 WO2020186739A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910206769.1 2019-03-19
CN201910206769.1A CN111723081A (zh) 2019-03-19 2019-03-19 一种基于面部识别优化数据的方法

Publications (1)

Publication Number Publication Date
WO2020186739A1 true WO2020186739A1 (zh) 2020-09-24

Family

ID=72519599

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/111237 WO2020186739A1 (zh) 2019-03-19 2019-10-15 一种基于面部识别优化数据的方法

Country Status (2)

Country Link
CN (1) CN111723081A (zh)
WO (1) WO2020186739A1 (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160171727A1 (en) * 2014-12-16 2016-06-16 The Regents Of The University Of California Feature-preserving noise removal
CN107563439A (zh) * 2017-08-31 2018-01-09 湖南麓川信息科技有限公司 一种识别清洗食材图片的模型及识别食材类别的方法
CN109002767A (zh) * 2018-06-22 2018-12-14 恒安嘉新(北京)科技股份公司 一种基于深度学习的人脸验证方法及系统
CN110059557A (zh) * 2019-03-15 2019-07-26 杭州电子科技大学 一种基于低照度自适应的人脸识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160171727A1 (en) * 2014-12-16 2016-06-16 The Regents Of The University Of California Feature-preserving noise removal
CN107563439A (zh) * 2017-08-31 2018-01-09 湖南麓川信息科技有限公司 一种识别清洗食材图片的模型及识别食材类别的方法
CN109002767A (zh) * 2018-06-22 2018-12-14 恒安嘉新(北京)科技股份公司 一种基于深度学习的人脸验证方法及系统
CN110059557A (zh) * 2019-03-15 2019-07-26 杭州电子科技大学 一种基于低照度自适应的人脸识别方法

Also Published As

Publication number Publication date
CN111723081A (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
WO2018028546A1 (zh) 一种关键点的定位方法及终端、计算机存储介质
TWI309026B (en) Method for auto-cropping image objects and method for detecting image object contour
CN102567716B (zh) 一种人脸合成系统及实现方法
CN102436668A (zh) 京剧脸谱自动化妆方法
CN110287688A (zh) 关联账号分析方法、装置和计算机可读存储介质
CN106777334A (zh) 一种照片分类存储方法、装置及移动终端
TWI375893B (zh)
WO2022148378A1 (zh) 违规用户处理方法、装置及电子设备
CN101655981A (zh) 证件图像倒置检测校正的方法
WO2016149985A1 (zh) 方向控制方法、方向控制系统和终端
CN107067105A (zh) 一种基于最优数据分组的众包策略分配方法
CN110377977A (zh) 敏感信息泄露的检测方法、装置及存储介质
WO2023169318A1 (zh) 图像质量确定方法、装置、设备和存储介质
CN110222627A (zh) 一种人脸补录方法
WO2023019927A1 (zh) 一种人脸识别方法、装置、存储介质及电子设备
CN105975675B (zh) 一种导入本地文件在线编辑生成户型的方法
WO2020186739A1 (zh) 一种基于面部识别优化数据的方法
CN108229124A (zh) 一种自助查询打印人证比对设备系统及其工作方法
CN208335207U (zh) 基于人脸识别的展会服务系统
CN103093467A (zh) 一种基于双重检测模型的镜头边界检测方法
CN108932703A (zh) 图片处理方法、图片处理装置及终端设备
CN107203771A (zh) 数据库建立方法
WO2023213095A1 (zh) 数据归档方法及装置
Hu et al. Image recognition of Chinese herbal pieces based on multi-task learning model
CN205983572U (zh) 一种基于单目的实时虚拟试衣镜

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19920528

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19920528

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 19920528

Country of ref document: EP

Kind code of ref document: A1