WO2021072998A1 - 一种亚洲人脸数据自动收集及清理的方法和系统 - Google Patents

一种亚洲人脸数据自动收集及清理的方法和系统 Download PDF

Info

Publication number
WO2021072998A1
WO2021072998A1 PCT/CN2020/070658 CN2020070658W WO2021072998A1 WO 2021072998 A1 WO2021072998 A1 WO 2021072998A1 CN 2020070658 W CN2020070658 W CN 2020070658W WO 2021072998 A1 WO2021072998 A1 WO 2021072998A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
asian
face
person
target
Prior art date
Application number
PCT/CN2020/070658
Other languages
English (en)
French (fr)
Inventor
丁长兴
黄英杰
Original Assignee
华南理工大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华南理工大学 filed Critical 华南理工大学
Publication of WO2021072998A1 publication Critical patent/WO2021072998A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/54Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Definitions

  • the invention relates to the technical field of image processing and recognition, in particular to a method and system for automatic collection and cleaning of Asian face data.
  • the source of face photos is mainly It is downloaded and collected from the Internet through crawlers, and then it is necessary to mark and clean up the photos through complicated manual operations. This series of tasks not only requires very high computing and storage equipment, but also requires a lot of manpower and time costs. Due to their unique picture resources and operating capital advantages, Internet giants have private large-scale face data sets, but so far, there are very few large-scale public face data sets that ordinary users can obtain for free.
  • the face data sets mainly include Youtube Face, CASIA-WebFace and MS-1M-Celeb.
  • the present invention provides a method and system for automatically collecting and cleaning Asian face data, which automatically cleans the collected Asian face photo data, achieving low time cost and per capita workload. It has fewer effects and can build an Asian face database with a higher recall rate.
  • the present invention provides a method for automatically collecting and cleaning Asian face data, which includes the following steps:
  • Preset multiple Asian target person identifications obtain official photo links of Asian target persons, and construct a data list, the data list including key information of multiple Asian target person identifications;
  • search for the Asian target person identification and the person identification after adding keywords to obtain reference person data search for the Asian target person identification and the person identification after adding keywords to obtain reference person data.
  • the specific steps include:
  • the Asian target person identification adopts the names of different Asian target persons or digital numbers for distinguishing different Asian target persons
  • the official photo link of the Asian target person adopts a URL link
  • each row of the data list corresponds to An Asian target person logo and the corresponding official photo URL link.
  • the searched reference person data is associated and stored with the corresponding Asian target person identification and keywords, and the specific steps are as follows:
  • main folder is named using the Asian target person logo, and multiple sub-folders are created in the main folder, each named using keywords;
  • the reference character data obtained through different search methods are associated and saved in the corresponding subfolders.
  • Preliminary cleaning use face detection algorithm to perform face detection on reference person data, and obtain reference face data after face detection processing;
  • In-depth cleaning use face recognition algorithm to detect the reference face data processed by face detection, update the official photo list of Asian target person identification, check whether it matches the official photo list of Asian target person identification, and delete the official photo if it does not match
  • the reference face data processed by the face detection process if it matches, the reference face data processed by the face detection process is retained as the target face data associated with the target person in Asia.
  • the specific steps for deleting the obtained repeated downloading reference character data are:
  • the repeated download adopts whether the file naming of the reference person data is the same as the standard. If there is a repeated download, keep the data in the repeated download reference person data One of them, and the rest of the duplicate reference character data for deletion processing.
  • the specific steps of using a face detection algorithm to perform face detection on reference person data are as follows:
  • each reference face data in the multiple face frames cut out each reference face data in the multiple face frames, while keeping the reference person data, extract the official photos corresponding to the Asian target person and the face features of each reference face data, and calculate them separately
  • the degree of matching between the facial features of each reference face data and the facial features of the official photos of the corresponding Asian target person, and the reference person data corresponding to the reference face data with the highest matching degree is used as the reference person after face detection processing Face data is retained.
  • the specific steps of the deep cleaning are:
  • the first preset threshold is greater than the second preset threshold.
  • the present invention also provides a system for automatically collecting and cleaning Asian face data, including: a data list building module, a reference person data acquisition module, an associated storage module, and a reference person data cleaning module;
  • the data list building module is used to obtain the official photo link of the Asian target person by presetting a plurality of Asian target person identifications to construct a data list;
  • the reference person data obtaining module is configured to obtain reference person data associated with the Asian target person identification and the person identification keywords according to the content of the data list;
  • the associative storage module is used for associative storage of reference character data with corresponding Asian target character identifiers and keywords;
  • the reference person data cleaning module is used to clean up the stored reference person data to obtain target face data associated with the target person in Asia.
  • the reference person data cleaning module includes a preliminary cleaning submodule and a deep cleaning submodule.
  • the preliminary cleaning submodule is used to perform face detection on the reference person data using a face detection algorithm to obtain a The processed reference face data is detected, and the deep cleaning sub-module is used to detect the reference face data processed by face detection using a face recognition algorithm, update the official photo list of the Asian target person identification, and check whether it matches the Asian target person Identify the official photo list matching, and use the matched reference face data as the target face data associated with the target person in Asia.
  • the present invention has the following advantages and beneficial effects:
  • the present invention uses a picture processing tool to check the readability and unify the format of all reference character data, and delete the repeatedly downloaded reference character data, so as to improve the fluency and processing efficiency of the subsequent cleaning process.
  • the present invention uses multiple search methods to obtain reference person data, which increases the diversity and accuracy of obtaining reference person data.
  • the present invention uses preliminary cleaning and in-depth cleaning for data cleaning to obtain the target face data associated with the target person identification, and in the deep cleaning, the official photo list of the Asian target person identification is updated, that is, the reference database is updated to improve the person Accuracy of facial feature comparison.
  • FIG. 1 is a schematic flowchart of the method for automatically collecting and cleaning Asian face data according to this embodiment
  • FIG. 2 is a schematic diagram of a data list of the method for automatically collecting and cleaning Asian face data according to this embodiment
  • FIG. 3 is a schematic diagram of the effect when the cleaning work is not performed in the method for automatically collecting and cleaning Asian face data according to this embodiment
  • FIG. 4 is a schematic diagram of the preliminary cleaning effect in the method for automatic collection and cleaning of Asian face data according to this embodiment
  • FIG. 5 is a schematic diagram of the effect of Asian face data collection in the method for automatically collecting and cleaning Asian face data according to this embodiment.
  • a method for automatically collecting and cleaning Asian face data includes the following steps:
  • the multiple Asian target person identifications in step S1 are the names of different Asian target persons or preset numerical numbers used to distinguish different Asian target persons; for example, Baidu Company provides a "Baidu Baike Star Popularity List”
  • the list contains sub-modules such as "venue China Male Celebrities List”, “venue China Female Celebrities List”, “Hong Kong and Taiwan Southeast Asia Male Celebrities List”, “Hong Kong and Taiwan Southeast Asia Female Celebrities List” and other sub-modules, which can be automatically Obtain the selected list, record the names of the stars in the Asian stars sub-module on the list in a data list, and optionally use 0 as the starting and gradually increasing integer as the number label to distinguish the Asian stars; this
  • the embodiment uses a public figure as an Asian target person identification has two advantages. In addition to easily obtaining a large number of photos of a specified target person through the identification on the search engine, it can also avoid any privacy and infringement issues caused by the use of these photos;
  • the official photo link in step S1 is the URL link of the official photo of the target person in Asia that is provided by Baidu Baike for download in this embodiment.
  • "Baidu Encyclopedia Star Popularity List” will display the celebrity’s official photo and name in turn according to the star’s real-time popularity. Clicking on the celebrity’s official photo or name will enter the corresponding Baidu Encyclopedia introduction page.
  • the star can be obtained through crawler technology. Display the URL link of the official photo on the page and record the link on the data list.
  • the reference person data contains multiple key information of Asian target person identification, and each row corresponds to an Asian target person identification and its corresponding official photo URL link, from the left To the right are the number label, name, and URL link, with a tab character' ⁇ t' as the interval;
  • step S2 The specific steps of step S2 are:
  • the computer technology is optional but not limited to web crawlers, downloader tools, etc.;
  • the Asian target person ID Search for the Asian target person ID, and obtain at least one reference person data associated with a single ID; specifically, if the Asian target person ID is the name of the target person, then the reference person data is related photos of the Asian target person, for example
  • a Python script can be used to simulate the process of manually searching and downloading pictures, and a large amount of reference character data can be easily obtained by searching for the Asian target person identification on the Baidu picture search engine;
  • This embodiment also performs a search on the target person’s identity plus keywords, and respectively obtains at least one associated reference character data corresponding to different keywords on a single identity combination.
  • the keywords are selectable but not limited to glasses, hats, actors, Singer (professional), etc., can obtain various reference data such as "target person name + glasses”, “target person name + hat”, “target person name + occupation”, which can increase the diversity and accuracy of obtaining reference person data Sex
  • At least one reference person data is associated and stored with the corresponding Asian target person identifier, and the data with keywords added, until all the reference person data are associated and stored;
  • the photos are collected and stored for each Asian target person identification in the data list, for example:
  • step S4 The specific steps of step S4 include:
  • the image processing tool uses the image processing tool to check the readability and unify the format of all reference character data, and remove the small part of the reference character data that cannot be read and written due to download errors, format errors, etc., among which, the image processing tool is optional but It is not limited to image processing software or programming languages such as MATLAB, Python, OpenCV, Photoshop, etc.; for example, when downloading images in batches from the Internet through crawler methods, they are often affected by network fluctuations and anti-crawler mechanisms, resulting in incomplete image content, Download errors and other problems. Such pictures cannot be read and written normally by the software, which will seriously affect the fluency of data cleaning. They should be removed to improve the efficiency of data processing. In addition, for the convenience of subsequent processing and data management, the data cleaning work Before starting, you can choose MATLAB to unify all reference character data into the common JEPG format;
  • repeated downloading is based on the same standard as the file name of the reference character data; for example, to search for a public figure, first create a home folder, and the search methods are "someone's name, somebody's name+hat, somebody's name+glasses, some Person name + singer" etc., so several subfolders name, hat, glass, job, etc. are created in the main folder. The official photos are saved in the standard subfolder.
  • the reference character data can be obtained in the search engine through different combinations. The engine will inevitably return part of the reference character data with the same naming and content.
  • This repeated data can easily lead to over-fitting of the neural network and seriously affect the face recognition performance of the network, so the purpose of this step is to target the sub-folders For all the files with the same name, delete the duplicate and keep only one; the official photos in the standard subfolder of this embodiment are retained, and the official photos downloaded from the URL can be named standard.jpg, and other batch search downloads can be used.
  • the photo retains the image naming of the source network, so that the official photo naming in the standard subfolder does not repeat with other pictures; or it is not necessary to change the official photo naming in the standard subfolder, adding a judgment link. If one of the pictures is repeated If the picture is located in the standard sub-folder, the pictures in the standard sub-file are retained.
  • step S42 The specific steps of step S42 include:
  • the program uses the program to record the file naming of the reference character data in the subfolder associated with the Asian target character in turn.
  • the program is optional but not limited to MATLAB, Python and other languages;
  • step S43 The specific steps of step S43 include:
  • the face detection algorithm can use, but is not limited to, deep learning methods such as MTCNN, and deep learning methods such as MTCNN. Including a series of steps such as face detection, face correction, and face alignment. Among them, face detection can eliminate some non-face data, such as only glasses, hats and other pictures. Face correction and face alignment can The lateral face is corrected and aligned to improve the processing efficiency of subsequent face feature matching.
  • the reference person data when no cleaning work is performed, the reference person data includes reference face data and reference non-face data.
  • the preliminary cleaning work performed in this embodiment is to remove the reference non-face data in the reference person data.
  • the methods include the MTCNN deep learning method and the face detection toolkit that comes with the OpenCV software.
  • the specific principle is to detect and locate the five key points (eyes, nose, and mouth corners) of the face in the photo through the algorithm and return to the face Frame, you can judge whether the reference person data is reference face data according to whether the face frame is returned; if the face frame is not returned, the photo is deleted; if a face frame is returned, a face frame is cropped out
  • the reference face data of the image is retained, and the photo is retained; if more than one face frame is returned, the reference face data in more than one face frame are respectively cropped, and the reference person data processed by face detection is retained at the same time, and then based on
  • the face recognition algorithm selects the reference face data with the highest matching degree with the official photo of the target person in Asia, and deletes the rest of the reference face data;
  • step S44 The specific steps of step S44 include:
  • the official photo list of the target person is not only the official photo, but also includes the target person’s photo with high matching degree obtained by the target person’s keyword search, because the person of the target person in Asia obtained through different search methods
  • the face data of the Asian target person obtained through keyword search is compared with the official photo of the target person obtained only through the URL link of the official photo of the Asian target person in step S2. It is easy to have a low matching degree.
  • the official photo is a frontal face photo, it is not decorated with hats, glasses and other accessories, and the photos searched by adding keywords (such as hats, glasses) (after face recognition screening) are not decorated with hats, Comparing official photos of accessories such as glasses, it is prone to matching deviations. Therefore, it is necessary to add the highly matched photos of the target person to the target person's official photo list by adding the keyword search to the target person, and update the target person's official photo list. List of photos to increase the accuracy of facial feature comparison;
  • the remaining preliminary cleaned reference face data is matched with the data in the updated official photo list of the target person one by one, and the remaining preliminary cleaned reference face data whose matching degree is greater than or equal to the second preset threshold is retained , And the remaining remaining reference face data after preliminary cleaning is deleted.
  • a face recognition algorithm is used to sequentially extract the feature vector of the Asian target person corresponding to the reference face data after preliminary cleaning, and at the same time set the first preset threshold to 0.9, and then the feature vector of the reference face data is compared with The feature vectors of official photos are matched one by one.
  • the reference face data whose matching degree is greater than or equal to 0.9 can be filtered out, and these photos can be considered as official photos of the target person; then, the second preset threshold Set it to 0.7, and then match the feature vector of the remaining reference face data with the feature vector of the photo in the official photo queue selected in the first round, and match the feature vector of any photo in the official photo queue.
  • the first preset threshold and the second preset threshold used in the embodiment can be adjusted according to actual conditions.
  • This embodiment also provides a system for automatically collecting and cleaning Asian face data, including: a data list building module, a reference person data acquisition module, an associated storage module, and a reference person data cleaning module;
  • a data list construction module a reference character data acquisition module, an associated storage module, and a reference character data cleaning module;
  • the data list building module is used to obtain the official photo link of the Asian target person by presetting multiple Asian target person identifications, and build a data list;
  • the reference person data acquisition module is used to obtain the data list and the Asian target person Identification and reference person data associated with person identification keywords;
  • the associated storage module is used to associate the reference person data with the corresponding Asian target person identification and keywords;
  • the reference person data cleaning module is used to clean up the stored references Person data, to obtain target face data associated with the target person in Asia.
  • the reference person data cleaning module includes a preliminary cleaning submodule and a deep cleaning submodule.
  • the preliminary cleaning submodule is used to perform face detection on the reference person data using a face detection algorithm to obtain the face detection processed
  • the deep cleaning sub-module is used to use face recognition algorithms to detect the reference face data processed by face detection, update the official photo list of the Asian target person identification, and check whether it matches the official photo list of the Asian target person identification.
  • the matched reference face data is used as the target face data associated with the target person in Asia.
  • the entire process from the collection of Asian face data to the cleaning up replaces the traditional manual labeling, classification and other heavy procedures through automatic processing, which greatly reduces the time cost of establishing an Asian face database and also solves the problem. Issues such as imbalance of categories in the face database promote the development and progress of corresponding technologies.

Abstract

一种亚洲人脸数据自动收集及清理的方法和系统,该方法包括下述步骤:预设多个亚洲目标人物标识,获取亚洲目标人物官方照片链接,构建包括多个亚洲目标人物标识关键信息的数据列表;根据数据列表内容搜索获取与亚洲目标人物标识以及关键词相关联的参考人物数据;将参考人物数据与对应的亚洲目标人物标识及关键词进行关联存储;清理存储完毕的参考人物数据,得到与亚洲目标人物关联的目标人脸数据。实现亚洲人脸数据自动收集及清理,代替了传统的手工标注、分类等繁重工序,大幅度地降低了建立亚洲人脸数据库的人力和时间成本,也解决了现有人脸数据库中类别不平衡的问题。

Description

一种亚洲人脸数据自动收集及清理的方法和系统 技术领域
本发明涉及图像处理与识别技术领域,具体涉及一种亚洲人脸数据自动收集及清理的方法和系统。
背景技术
现有的大多数人脸识别技术是采用基于深度学习方法训练的人脸识别模型,为了提高识别的准确率,模型需要使用包含大量已标记的人脸照片数据库进行训练,人脸照片的来源主要是通过爬虫手段从互联网下载收集,之后需要通过繁杂的人工操作对照片进行标记和清理,这一系列的工作不仅对计算和存储设备要求非常高,而且需要投入大量的人力和时间成本。互联网巨头公司由于其拥有独特的图片资源和运营资金优势,均设有私有的大型人脸数据集,但到目前为止普通用户能够免费获取的大型公开的人脸数据集非常少,主流的公开人脸数据集主要有Youtube Face、CASIA-WebFace和MS-1M-Celeb等。
更多的是,现存的大多数人脸数据集均以欧美人脸数据作为主导,其中仅包含极少量的亚洲人脸数据,使用这种类别不平衡的人脸数据集训练神经网络,容易导致网络潜在地存在“种族歧视”的问题。另外,目前为止能够在网上获取的亚洲人脸数据集非常少,且往往存在人物数量少、人脸数据量少等问题。因此,在有限的人力和时间成本前提下,建立一个大型的亚洲人脸数据集,具有十分重要的科研和商业价值。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供一种亚洲人脸数据自动收集及清理的方法和系统,对收集到的亚洲人脸照片数据自动进行清理,达到时间成本低、人均工作量少的效果,且能够建立召回率较高的亚洲人脸数据库。
为了达到上述目的,本发明采用以下技术方案:
本发明提供一种亚洲人脸数据自动收集及清理的方法,包括下述步骤:
预设多个亚洲目标人物标识,获取亚洲目标人物官方照片链接,构建数据列表,所述数据列表包括多个亚洲目标人物标识关键信息;
根据数据列表内容,对所述亚洲目标人物标识、以及人物标识增加关键词后进行搜索,获取参考人物数据,具体步骤包括:
根据所述亚洲目标人物官方照片链接,获得亚洲目标人物的官方照片;
对所述亚洲目标人物标识进行搜索,获取单一标识情况下的相关联参考人物数据;
对所述亚洲目标人物标识加上多种关键词进行搜索,分别获取单一标识组合上不同关键词对应的相关联参考人物数据;
将搜索后的参考人物数据与对应的亚洲目标人物标识、以及关键词进行关联存储,直到所有参考人物数据均关联存储完毕;
清理存储完毕的参考人物数据,得到与亚洲目标人物关联的目标人脸数据。
作为优选的技术方案,所述亚洲目标人物标识采用不同亚洲目标人物的名字或者用于区分不同亚洲目标人物的数字编号,所述亚洲目标人物官方照片链接采用URL链接,所述数据列表每一行对应一个亚洲目标人物标识及对应的官方照片URL链接。
作为优选的技术方案,所述将搜索后的参考人物数据与对应的亚洲目标人物标识、以及关键词进行关联存储,具体步骤为:
创建主文件夹,所述主文件夹采用亚洲目标人物标识进行命名,在主文件夹内创建多个子文件夹,分别采用关键词进行命名;
将通过不同搜索方式获取的参考人物数据关联地保存在相应的子文件夹中。
作为优选的技术方案,所述清理存储完毕的参考人物数据,具体步骤为:
采用图片处理工具对所有参考人物数据进行可读性检验和格式统一,剔除无法正常读写的参考人物数据;
删除获取到的重复下载参考人物数据,所述亚洲目标人物的官方照片保留;
初步清理:采用人脸检测算法对参考人物数据进行人脸检测,得到经人脸检测处理后的参考人脸数据;
深度清理:采用人脸识别算法检测经人脸检测处理后的参考人脸数据,更新亚洲目标人物标识官方照片列表,检验是否与亚洲目标人物标识官方照片列表匹配,若不匹配,则删除经人脸检测处理后的参考人脸数据,若匹配,则保留经人脸检测处理后的参考人脸数据,作为与亚洲目标人物关联的目标人脸数据。
作为优选的技术方案,所述删除获取到的重复下载参考人物数据,具体步骤为:
参考人物数据与对应的亚洲目标人物标识、以及关键词关联存储到文件夹后,所述重复下载采用参考人物数据的文件命名是否相同为标准,若存在重复下载,保留重复下载参考人物数据中的其中一个,其余重复参考人物数据作删除处理。
作为优选的技术方案,所述采用人脸检测算法对参考人物数据进行人脸检测,具体步骤为:
通过人脸检测算法定位参考人物数据中人脸关键点的位置并检测人脸框,
若不存在人脸框,则删除参考人物数据;
若存在一个人脸框,则裁剪出人脸框内的参考人脸数据,保留参考人物数据;
若存在多个人脸框,则分别裁剪出多个人脸框内的各个参考人脸数据,同时保留参考人物数据,提取对应亚洲目标人物的官方照片和各个参考人脸数据 的人脸特征,分别计算各个参考人脸数据的人脸特征与对应亚洲目标人物的官方照片的人脸特征的匹配度,将匹配度最高的参考人脸数据所对应的参考人物数据作为经人脸检测处理后的参考人脸数据保留。
作为优选的技术方案,所述深度清理的具体步骤为:
基于人脸识别算法提取亚洲目标人物官方照片和对应初步清理后的参考人脸数据的人脸特征;
分别计算出亚洲目标人物官方照片的人脸特征与对应初步清理后的参考人脸数据的人脸特征的匹配度,将匹配度大于或等于第一预设阈值的参考人脸数据归入目标人物官方照片列表,更新目标人物官方照片列表;
将剩余初步清理后参考人脸数据的人脸特征与更新后的亚洲目标人物官方照片列表中的人脸特征进行逐一匹配,保留匹配度大于或等于第二预设阈值的参考人脸数据,删除其余的参考人脸数据;
所述第一预设阈值大于第二预设阈值。
本发明还提供一种亚洲人脸数据自动收集及清理的系统,包括:数据列表构建模块、参考人物数据获取模块、关联存储模块和参考人物数据清理模块;
所述数据列表构建模块用于通过预设多个亚洲目标人物标识,获取亚洲目标人物官方照片链接,构建数据列表;
所述参考人物数据获取模块用于根据数据列表内容获取与亚洲目标人物标识、以及人物标识关键词相关联的参考人物数据;
所述关联存储模块用于将参考人物数据与对应的亚洲目标人物标识、以及关键词进行关联存储;
所述参考人物数据清理模块用于清理存储完毕的参考人物数据,得到与亚洲目标人物关联的目标人脸数据。
作为优选的技术方案,所述参考人物数据清理模块包括初步清理子模块和 深度清理子模块,所述初步清理子模块用于采用人脸检测算法对参考人物数据进行人脸检测,得到经人脸检测处理后的参考人脸数据,所述深度清理子模块用于采用人脸识别算法检测经人脸检测处理后的参考人脸数据,更新亚洲目标人物标识官方照片列表,检验是否与亚洲目标人物标识官方照片列表匹配,将匹配的参考人脸数据作为与亚洲目标人物关联的目标人脸数据。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明采用图片处理工具对所有参考人物数据进行可读性检验和格式统一,并删除重复下载的参考人物数据,提高后续清理过程的流畅性和处理效率。
(2)本发明采用多种搜索方式进行参考人物数据获取,增加获取参考人物数据的多样性和准确性。
(3)本发明采用初步清理和深度清理进行数据清理,得到与目标人物标识关联的目标人脸数据,并在深度清理中更新亚洲目标人物标识官方照片列表,即更新参照的基准数据库,提高人脸特征比对的准确性。
(4)本发明从亚洲人脸数据的收集到清理的整个过程均进行自动处理,代替了传统的手工标注、分类等繁重工序,大幅度地降低了建立亚洲人脸数据库的时间成本,也解决了现有人脸数据库中类别不平衡等问题。
附图说明
图1为本实施例的亚洲人脸数据自动收集及清理方法流程示意图;
图2为本实施例的亚洲人脸数据自动收集及清理方法的数据列表示意图;
图3为本实施例的亚洲人脸数据自动收集及清理方法中未进行清理工作时的效果示意图;
图4为本实施例亚洲人脸数据自动收集及清理方法中初步清理的效果示意图;
图5为本实施例亚洲人脸数据自动收集及清理方法中亚洲人脸数据收集的效果示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
如图1所示,一种亚洲人脸数据自动收集及清理的方法,包括下述步骤:
S1、预设多个亚洲目标人物标识,获取对应的官方照片链接,构建包括多个亚洲目标人物标识关键信息的数据列表;
步骤S1中的多个亚洲目标人物标识,为不同亚洲目标人物的名字或预先设定的用于区分不同亚洲目标人物的数字编号;例如,百度公司提供了一个名为“百度百科明星人气榜”的榜单,该榜单包含“中国内地男明星榜”、“中国内地女明星榜”、“港台东南亚男明星榜”、“港台东南亚女明星榜”等子模块,可以通过爬虫技术自动获取选取的榜单名单,把榜单上属于亚洲明星子模块中的明星名字依次记录在一个数据列表上,可选地将以0为开始且逐渐递增的整数作为区分亚洲明星的数字标签;本实施例使用公众人物作为亚洲目标人物标识有两个好处,除了可以方便地在搜索引擎上通过标识获取大量指定目标人物的照片,同时还可以避免使用这些照片带来的任何隐私、侵权问题;
步骤S1中的官方照片链接,在本实施例中采用百度百科提供下载的亚洲目标人物官方照片的URL链接。例如,“百度百科明星人气榜”会根据明星实时的 人气量依次显示出明星的官方照片及名字,点击明星的官方照片或名字将会进入对应的百度百科介绍页面,通过爬虫技术可以获取该明星在页面中展示官方照片的URL链接,并将该链接记录在数据列表上。
如图2所示,在获取参考人物数据的列表示意图中,其中,参考人物数据包含多个亚洲目标人物标识关键信息,每一行对应一个亚洲目标人物标识及其对应的官方照片URL链接,从左往右依次是数字标签、姓名、URL链接,用制表符‘\t’作为间隔;
S2、按照数据列表的内容,对所述亚洲目标人物标识、以及人物标识增加关键词后进行搜索,获取参考人物数据;
步骤S2具体步骤为:
根据亚洲目标人物官方照片的URL链接,使用计算机技术获得亚洲目标人物的官方照片,其中,计算机技术可选但不限于网络爬虫、下载器工具等;
对亚洲目标人物标识进行搜索,并获取单一标识情况下相关联的至少一个参考人物数据;具体地,若亚洲目标人物标识是目标人物的姓名,那么参考人物数据是亚洲目标人物的相关照片,例如,本实施例可以采用使用Python脚本模拟人工搜索并下载图片的过程,通过在百度图片搜索引擎上进行亚洲目标人物标识搜索,可以轻易地获得大量参考人物数据;
本实施例还对目标人物标识加上关键词进行搜索,分别获取单一标识组合上不同关键词对应的相关联的至少一个参考人物数据,其中,关键词可选但不限于眼镜、帽子、演员、歌手(职业类)等,可以得到“目标人物姓名+眼镜”、“目标人物姓名+帽子”、“目标人物姓名+职业”等多种参考人物数据,可以增加获取参考人物数据的多样性和准确性;
S3、依次将至少一个参考人物数据与对应的亚洲目标人物标识,以及加上 关键词的数据进行关联存储,直到所有参考人物数据均关联存储完毕;
具体地,分别对数据列表中每个亚洲目标人物标识进行照片收集及存储,例如:
创建主文件夹并以亚洲目标人物标识(比如亚洲目标人物对应的数字标签)进行命名,然后在主文件夹内创建多个子文件夹,并分别以关键词(比如关键词的英文拼写)进行命名;
将通过不同搜索方式获取的亚洲目标人物的至少一个参考人物数据关联地保存在相应的子文件夹中;
S4、依次自动清理存储完毕的参考人物数据,得到与亚洲目标人物关联的目标人脸数据;
步骤S4具体步骤包括:
S41、使用图片处理工具对所有参考人物数据进行可读性检验和格式统一,剔除由于下载错误、格式错误等原因导致的无法正常读写的小部分参考人物数据,其中,图片处理工具可选但不限于MATLAB、Python、OpenCV、Photoshop等图像处理软件或编程语言;例如,在通过爬虫方法从互联网批量下载图片时,往往会受到网络波动、反爬虫机制的影响,导致下载的图片内容不完全、下载错误等问题,这类图片一般不能够被软件正常读写,会严重影响清理数据的流畅性,应予以剔除,提升数据处理效率;另外,为了后续处理、管理数据的方便,在数据清理工作开始之前,可选用MATLAB将所有参考人物数据统一成常见的JEPG格式;
S42、删除亚洲目标人物在使用不同搜索方式下获取的重复下载的参考人物数据,亚洲目标人物的官方照片保留;
其中,重复下载是以参考人物数据的文件命名相同为标准;例如,搜索某 公众人物,先创建主文件夹,搜索方式可选的有“某人名、某人名+帽子、某人名+眼镜、某人名+歌手”等,因此在主文件夹内分别创建若干子文件夹name、hat、glass、job等,官方照片保存在standard子文件夹内,通过不同的组合方式在搜索引擎获取参考人物数据,该引擎不可避免的返回部分命名和内容均一致的参考人物数据,这种重复数据容易导致神经网络的过拟合,严重影响网络的人脸识别性能,所以这一步的目的是针对子文件夹内的所有命名相同的文件,删除重复的仅保留一个即可;本实施例的standard子文件夹内官方照片保留,可以采用将URL下载下来的官方照片命名为standard.jpg,其他批量搜索下载得到的照片保留源网络的图片命名,这样可以使得standard子文件夹内官方照片命名不与其他图片重复;或者也可以不更改standard子文件夹内官方照片命名,增加一个判断环节,若重复图片的其中一张位于standard子文件夹,则保留standard子文件里面的图片。
步骤S42的具体步骤包括:
运用程序依次记录与亚洲目标人物关联的子文件夹中的参考人物数据的文件命名,其中,程序可选但不限于使用MATLAB、Python等语言编写;
若存在重复下载的情况,仅保留其中一个参考人物数据,其余重复的参考人物数据作删除处理;
S43、基于人脸检测算法对参考人物数据进行人脸检测工作,以使清理后的参考人物数据仅包括参考人脸数据,其中,人脸检测工作包含人脸检测、人脸校正、人脸对齐等系列步骤,清理前的参考人物数据包括参考人脸数据和参考非人脸数据;
步骤S43的具体步骤包括:
基于人脸检测算法对参考人物数据进行人脸检测工作,得到经人脸检测处 理后的参考人脸数据,其中,人脸检测算法可以采用但不限于MTCNN等深度学习方法,MTCNN等深度学习方法包括人脸检测、人脸校正、人脸对齐等系列步骤,其中,人脸检测可以剔除掉一些非人脸数据,如仅仅是眼镜、帽子之类的图片,人脸矫正和人脸对齐能够将侧偏的人脸纠正并对齐,提高后续人脸特征匹配的处理效率。
如图3所示,在没进行清理工作时,参考人物数据包括参考人脸数据和参考非人脸数据,本实施例进行的初步清理工作是剔除参考人物数据中的参考非人脸数据,常用的方法有MTCNN深度学习方法及OpenCV软件中自带的人脸检测工具包,具体原理是,通过算法检测并定位照片中人脸五个关键点(双眼、鼻子、嘴角)的位置并返回人脸框,可根据是否返回了人脸框来判断该参考人物数据是否是参考人脸数据;如果没有返回人脸框,则删除该照片;如果返回一个人脸框,则裁剪出一个人脸框内的参考人脸数据,保留该照片;如果返回多于一个人脸框,则分别裁剪出多于一个人脸框内的参考人脸数据,同时保留经人脸检测处理的参考人物数据,再基于人脸识别算法挑选出与亚洲目标人物官方照片匹配度最高的一个参考人脸数据,其余的参考人脸数据作删除处理;
进一步地,针对上述人脸检测算法返回多于一个人脸框的情况,需要首先创建以照片名称为命名的文件夹,再分别将照片中各人脸框中的人脸裁剪出来,并以可区分方式依次保存到文件夹当中,然后,基于人脸识别算法提取该照片对应亚洲目标人物的官方照片和文件夹中各人脸框照片的人脸特征,分别计算各人脸框照片的人脸特征与对应亚洲目标人物官方照片的人脸特征的匹配度,保留匹配度最高的一张人脸框照片,其余的人脸框照片作删除处理,将保留的照片移出文件夹并替代原参考人物数据,同时删除文件夹,如图4所示,可以看出经过初步清理后极大部分参考非人脸数据已被剔除;
S44、基于人脸识别算法检测初步清理后的参考人脸数据是否与亚洲目标人物标识官方照片匹配,若不匹配则删除初步清理后的参考人脸数据,若匹配则保留初步清理后的参考人脸数据,以得到与目标人物关联的目标人脸数据;具体地,对参考人物数据进行初步清理工作后,并不能保证获得的参考人脸数据均属于目标人物,因此需要对获得的参考人脸数据进行深度清理工作,即保留与亚洲目标人物标识相同的目标人脸数据,删除与亚洲目标人物标识不同的目标人脸数据,从而完成最终的数据清理工作;
步骤S44的具体步骤包括:
基于人脸识别算法提取亚洲目标人物官方照片和其对应清理后的参考人脸数据的人脸特征;
分别计算出亚洲目标人物官方照片的人脸特征与初步清理后的参考人脸数据的人脸特征的匹配度,将匹配度大于或等于第一预设阈值的清理后的参考人脸数据归入目标人物官方照片列表,此时目标人物官方照片列表不仅仅是官方照片,还包括目标人物添加关键词搜索得到的匹配度高的目标人物照片,因为在通过不同搜索方式获取的亚洲目标人物的人脸数据中,通过关键词搜索得到的亚洲目标人物的人脸数据,与仅通过步骤S2亚洲目标人物官方照片的URL链接得到的目标人物官方照片进行人脸特征比对,容易出现匹配度低的情况,比如官方照片为正面人脸照片,未装饰有帽子、眼镜之类的饰品,通过添加关键词(如帽子、眼镜)搜索到的照片(进行人脸识别筛选后)与未装饰有帽子、眼镜之类的饰品的官方照片进行比对,容易出现匹配偏差的情况,因此,需要将目标人物添加关键词搜索得到的匹配度高的目标人物照片添加到目标人物官方照片列表,更新目标人物官方照片列表,以增加人脸特征比对的准确性;
将剩余初步清理后的参考人脸数据与更新后的目标人物官方照片列表中数 据的进行人脸特征逐一匹配,保留匹配度大于或等于第二预设阈值的剩余初步清理后的参考人脸数据,其余的剩余初步清理后的参考人脸数据作删除处理。
在本实施例中,用人脸识别算法依次提取亚洲目标人物对应初步清理后的参考人脸数据的特征向量,同时把第一预设阈值设定为0.9,然后将参考人脸数据的特征向量与官方照片的特征向量进行一一匹配,首轮可将匹配度大于或等于0.9的参考人脸数据筛选出来,且可认为这些照片均为该目标人物的官方照片;然后,把第二预设阈值设定为0.7,再将剩余的参考人脸数据的特征向量与第一轮筛选出的官方照片队列中照片的特征向量进行一一匹配,与任何一张官方照片队列中照片的特征向量匹配度只要大于或等于0.7,则保留该剩余参考人脸数据,否则作删除处理;实施例中使用的第一预设阈值和第二预设阈值可根据实际情况进行调整。
如图5所示,经过两轮的清理工作后,可以获得纯度较高的亚洲人脸数据库,每个亚洲目标人物标识的文件夹中的极大部分照片均属于目标人物,噪声照片极少。
本实施例还提供一种亚洲人脸数据自动收集及清理的系统,包括:数据列表构建模块、参考人物数据获取模块、关联存储模块和参考人物数据清理模块;
在本实施例中,包括:数据列表构建模块、参考人物数据获取模块、关联存储模块和参考人物数据清理模块;
在本实施例中,数据列表构建模块用于通过预设多个亚洲目标人物标识,获取亚洲目标人物官方照片链接,构建数据列表;参考人物数据获取模块用于根据数据列表内容获取与亚洲目标人物标识、以及人物标识关键词相关联的参考人物数据;关联存储模块用于将参考人物数据与对应的亚洲目标人物标识、以及关键词进行关联存储;参考人物数据清理模块用于清理存储完毕的参考人 物数据,得到与亚洲目标人物关联的目标人脸数据。
在本实施例中,参考人物数据清理模块包括初步清理子模块和深度清理子模块,初步清理子模块用于采用人脸检测算法对参考人物数据进行人脸检测,得到经人脸检测处理后的参考人脸数据,深度清理子模块用于采用人脸识别算法检测经人脸检测处理后的参考人脸数据,更新亚洲目标人物标识官方照片列表,检验是否与亚洲目标人物标识官方照片列表匹配,将匹配的参考人脸数据作为与亚洲目标人物关联的目标人脸数据。
本实施例从亚洲人脸数据的收集到清理的整个过程,均通过自动处理代替了传统的手工标注、分类等繁重工序,大幅度地降低了建立亚洲人脸数据库的时间成本,也解决了现有人脸数据库中类别不平衡等问题,促进相应技术的发展进步。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

  1. 一种亚洲人脸数据自动收集及清理的方法,其特征在于,包括下述步骤:
    预设多个亚洲目标人物标识,获取亚洲目标人物官方照片链接,构建数据列表,所述数据列表包括多个亚洲目标人物标识关键信息;
    根据数据列表内容,对所述亚洲目标人物标识、以及人物标识增加关键词后进行搜索,获取参考人物数据,具体步骤包括:
    根据所述亚洲目标人物官方照片链接,获得亚洲目标人物的官方照片;
    对所述亚洲目标人物标识进行搜索,获取单一标识情况下的相关联参考人物数据;
    对所述亚洲目标人物标识加上多种关键词进行搜索,分别获取单一标识组合上不同关键词对应的相关联参考人物数据;
    将搜索后的参考人物数据与对应的亚洲目标人物标识、以及关键词进行关联存储,直到所有参考人物数据均关联存储完毕;
    清理存储完毕的参考人物数据,得到与亚洲目标人物关联的目标人脸数据。
  2. 根据权利要求1所述的亚洲人脸数据自动收集及清理的方法,其特征在于,所述亚洲目标人物标识采用不同亚洲目标人物的名字或者用于区分不同亚洲目标人物的数字编号,所述亚洲目标人物官方照片链接采用URL链接,所述数据列表每一行对应一个亚洲目标人物标识及对应的官方照片URL链接。
  3. 根据权利要求1所述的亚洲人脸数据自动收集及清理的方法,其特征在于,所述将搜索后的参考人物数据与对应的亚洲目标人物标识、以及关键词进行关联存储,具体步骤为:
    创建主文件夹,所述主文件夹采用亚洲目标人物标识进行命名,在主文件夹内创建多个子文件夹,分别采用关键词进行命名;
    将通过不同搜索方式获取的参考人物数据关联地保存在相应的子文件夹中。
  4. 根据权利要求1所述的亚洲人脸数据自动收集及清理的方法,其特征在 于,所述清理存储完毕的参考人物数据,具体步骤为:
    采用图片处理工具对所有参考人物数据进行可读性检验和格式统一,剔除无法正常读写的参考人物数据;
    删除获取到的重复下载参考人物数据,所述亚洲目标人物的官方照片保留;
    初步清理:采用人脸检测算法对参考人物数据进行人脸检测,得到经人脸检测处理后的参考人脸数据;
    深度清理:采用人脸识别算法检测经人脸检测处理后的参考人脸数据,更新亚洲目标人物标识官方照片列表,检验是否与亚洲目标人物标识官方照片列表匹配,若不匹配,则删除经人脸检测处理后的参考人脸数据,若匹配,则保留经人脸检测处理后的参考人脸数据,作为与亚洲目标人物关联的目标人脸数据。
  5. 根据权利要求4所述的亚洲人脸数据自动收集及清理的方法,其特征在于,所述删除获取到的重复下载参考人物数据,具体步骤为:
    参考人物数据与对应的亚洲目标人物标识、以及关键词关联存储到文件夹后,所述重复下载采用参考人物数据的文件命名是否相同为标准,若存在重复下载,保留重复下载参考人物数据中的其中一个,其余重复参考人物数据作删除处理。
  6. 根据权利要求4所述的亚洲人脸数据自动收集及清理的方法,其特征在于,所述采用人脸检测算法对参考人物数据进行人脸检测,具体步骤为:
    通过人脸检测算法定位参考人物数据中人脸关键点的位置并检测人脸框;
    若不存在人脸框,则删除参考人物数据;
    若存在一个人脸框,则裁剪出人脸框内的参考人脸数据,保留参考人物数据;
    若存在多个人脸框,则分别裁剪出多个人脸框内的各个参考人脸数据,同 时保留参考人物数据,提取对应亚洲目标人物的官方照片和各个参考人脸数据的人脸特征,分别计算各个参考人脸数据的人脸特征与对应亚洲目标人物的官方照片的人脸特征的匹配度,将匹配度最高的参考人脸数据所对应的参考人物数据作为经人脸检测处理后的参考人脸数据保留。
  7. 根据权利要求4所述的亚洲人脸数据自动收集及清理的方法,其特征在于,所述深度清理的具体步骤为:
    基于人脸识别算法提取亚洲目标人物官方照片和对应初步清理后的参考人脸数据的人脸特征;
    分别计算出亚洲目标人物官方照片的人脸特征与对应初步清理后的参考人脸数据的人脸特征的匹配度,将匹配度大于或等于第一预设阈值的参考人脸数据归入目标人物官方照片列表,更新目标人物官方照片列表;
    将剩余初步清理后参考人脸数据的人脸特征与更新后的亚洲目标人物官方照片列表中的人脸特征进行逐一匹配,保留匹配度大于或等于第二预设阈值的参考人脸数据,删除其余的参考人脸数据;
    所述第一预设阈值大于第二预设阈值。
  8. 一种亚洲人脸数据自动收集及清理的系统,其特征在于,包括:数据列表构建模块、参考人物数据获取模块、关联存储模块和参考人物数据清理模块;
    所述数据列表构建模块用于通过预设多个亚洲目标人物标识,获取亚洲目标人物官方照片链接,构建数据列表;
    所述参考人物数据获取模块用于根据数据列表内容获取与亚洲目标人物标识、以及人物标识关键词相关联的参考人物数据;
    所述关联存储模块用于将参考人物数据与对应的亚洲目标人物标识、以及关键词进行关联存储;
    所述参考人物数据清理模块用于清理存储完毕的参考人物数据,得到与亚 洲目标人物关联的目标人脸数据。
  9. 根据权利要求8所述的亚洲人脸数据自动收集及清理的系统,其特征在于,所述参考人物数据清理模块包括初步清理子模块和深度清理子模块,所述初步清理子模块用于采用人脸检测算法对参考人物数据进行人脸检测,得到经人脸检测处理后的参考人脸数据,所述深度清理子模块用于采用人脸识别算法检测经人脸检测处理后的参考人脸数据,更新亚洲目标人物标识官方照片列表,检验是否与亚洲目标人物标识官方照片列表匹配,将匹配的参考人脸数据作为与亚洲目标人物关联的目标人脸数据。
PCT/CN2020/070658 2019-10-15 2020-01-07 一种亚洲人脸数据自动收集及清理的方法和系统 WO2021072998A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910977959.3 2019-10-15
CN201910977959.3A CN110807108A (zh) 2019-10-15 2019-10-15 一种亚洲人脸数据自动收集及清洗的方法和系统

Publications (1)

Publication Number Publication Date
WO2021072998A1 true WO2021072998A1 (zh) 2021-04-22

Family

ID=69488429

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/070658 WO2021072998A1 (zh) 2019-10-15 2020-01-07 一种亚洲人脸数据自动收集及清理的方法和系统

Country Status (2)

Country Link
CN (1) CN110807108A (zh)
WO (1) WO2021072998A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115083572A (zh) * 2022-07-25 2022-09-20 广州思德医疗科技有限公司 图片存储和提取方法、系统、设备及介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111680202B (zh) * 2020-04-24 2022-04-26 烽火通信科技股份有限公司 一种基于本体的人脸图像数据收集方法和装置
CN112418169A (zh) * 2020-12-10 2021-02-26 上海芯翌智能科技有限公司 一种对人体属性数据进行处理的方法及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102938065A (zh) * 2012-11-28 2013-02-20 北京旷视科技有限公司 基于大规模图像数据的人脸特征提取方法及人脸识别方法
CN106844412A (zh) * 2016-11-02 2017-06-13 厦门中控生物识别信息技术有限公司 一种人脸数据收集方法及装置
CN106874898A (zh) * 2017-04-08 2017-06-20 复旦大学 基于深度卷积神经网络模型的大规模人脸识别方法
CN109034106A (zh) * 2018-08-15 2018-12-18 北京小米移动软件有限公司 人脸数据清洗方法及装置
CN109241310A (zh) * 2018-07-25 2019-01-18 南京甄视智能科技有限公司 人脸图像数据库的数据去重方法与系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984738B (zh) * 2014-05-22 2017-05-24 中国科学院自动化研究所 一种基于搜索匹配的角色标注方法
JP6345276B2 (ja) * 2014-06-16 2018-06-20 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド 顔認証方法およびシステム
US10943096B2 (en) * 2017-12-31 2021-03-09 Altumview Systems Inc. High-quality training data preparation for high-performance face recognition systems
CN109063784B (zh) * 2018-08-23 2021-03-05 深圳码隆科技有限公司 一种人物服饰图像数据筛选方法及其装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102938065A (zh) * 2012-11-28 2013-02-20 北京旷视科技有限公司 基于大规模图像数据的人脸特征提取方法及人脸识别方法
CN106844412A (zh) * 2016-11-02 2017-06-13 厦门中控生物识别信息技术有限公司 一种人脸数据收集方法及装置
CN106874898A (zh) * 2017-04-08 2017-06-20 复旦大学 基于深度卷积神经网络模型的大规模人脸识别方法
CN109241310A (zh) * 2018-07-25 2019-01-18 南京甄视智能科技有限公司 人脸图像数据库的数据去重方法与系统
CN109034106A (zh) * 2018-08-15 2018-12-18 北京小米移动软件有限公司 人脸数据清洗方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115083572A (zh) * 2022-07-25 2022-09-20 广州思德医疗科技有限公司 图片存储和提取方法、系统、设备及介质

Also Published As

Publication number Publication date
CN110807108A (zh) 2020-02-18

Similar Documents

Publication Publication Date Title
WO2021072998A1 (zh) 一种亚洲人脸数据自动收集及清理的方法和系统
US9430719B2 (en) System and method for providing objectified image renderings using recognition information from images
US8649572B2 (en) System and method for enabling the use of captured images through recognition
US9069795B2 (en) System and process for building a catalog using visual objects
US7809722B2 (en) System and method for enabling search and retrieval from image files based on recognized information
WO2015101289A1 (zh) 图片管理方法、装置及系统
US20170024384A1 (en) System and method for analyzing and searching imagery
US20060251292A1 (en) System and method for recognizing objects from images and identifying relevancy amongst images and information
CN103793697A (zh) 一种人脸图像的身份标注方法及人脸身份识别方法
CN103824053A (zh) 一种人脸图像的性别标注方法及人脸性别检测方法
Bharati et al. Beyond pixels: Image provenance analysis leveraging metadata
WO2021012793A1 (zh) 基于大数据分析的律师推荐方法及相关设备
CN105183950B (zh) 一种基于移动终端查阅工程图纸的方法及系统
CN106713859A (zh) 一种图片视觉监控搜索系统及其搜索方法
WO2013034050A1 (zh) 一种社区网站页面的图片检索方法和系统
CN113761242A (zh) 一种基于人工智能的大数据图像识别系统及方法
CN109359090A (zh) 基于卷积神经网络的文件碎片分类方法及系统
US10198664B2 (en) Auxiliary observing method and auxiliary observing apparatus
CN103093213B (zh) 视频文件分类方法及终端
US10824811B2 (en) Machine learning data extraction algorithms
CN114611618A (zh) 一种面向跨模态检索的数据采集处理方法及系统
CN113361395A (zh) 一种基于多任务学习模型的ai换脸视频检测方法
WO2020191706A1 (zh) 主动学习自动图像标注系统及方法
Hu et al. Semi-automatic annotation of distorted image based on neighborhood rough set
Rúnarsson A face recognition plug-in for the PhotoCube browser

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20876846

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20876846

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205 DATED 10/10/2022

122 Ep: pct application non-entry in european phase

Ref document number: 20876846

Country of ref document: EP

Kind code of ref document: A1