WO2021031566A1 - 一种基于多任务学习的人脸美丽预测方法 - Google Patents

一种基于多任务学习的人脸美丽预测方法 Download PDF

Info

Publication number
WO2021031566A1
WO2021031566A1 PCT/CN2020/081905 CN2020081905W WO2021031566A1 WO 2021031566 A1 WO2021031566 A1 WO 2021031566A1 CN 2020081905 W CN2020081905 W CN 2020081905W WO 2021031566 A1 WO2021031566 A1 WO 2021031566A1
Authority
WO
WIPO (PCT)
Prior art keywords
face
task
learning
beauty
age
Prior art date
Application number
PCT/CN2020/081905
Other languages
English (en)
French (fr)
Inventor
甘俊英
项俐
麦超云
Original Assignee
五邑大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 五邑大学 filed Critical 五邑大学
Publication of WO2021031566A1 publication Critical patent/WO2021031566A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/175Static expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/178Human faces, e.g. facial parts, sketches or expressions estimating age from face image; using age information for improving recognition

Definitions

  • the invention relates to the technical field of face beauty evaluation using image processing and machine learning technology, in particular to a face beauty prediction method based on multi-task learning.
  • the existing database for face beauty prediction research is generally small, which makes it not only difficult to directly train a deep network model but also prone to overfitting problems.
  • the existing facial beauty evaluation can only be predicted based on a single task, but the evaluation of the facial beauty is not affected by many factors, resulting in inaccurate facial beauty evaluation and little reference significance.
  • the present invention provides a face beauty prediction method based on multi-task learning.
  • the present invention can make full use of the relevance of related tasks, make up for the lack of face beauty data samples, and use multi-task Use additional information to improve the accuracy of the system.
  • the technical solution of the present invention is: a face beauty prediction method based on multi-task migration learning, where multi-task refers to face beauty prediction, facial expression recognition, and age recognition, which specifically includes the following steps:
  • S1 Construct a multi-task learning face database for different tasks, and perform face beauty, facial expression, age labeling, and corresponding preprocessing on each face image in the multi-task learning face database;
  • F CNN [F task1 ,F task2 ,F task3 ]
  • F task1 , F task2 , and F task3 are respectively represented as the feature vector expressions of face beauty, facial expression, and age in the last layer of the deep learning network; by mining the relationship between tasks, additional useful information can be obtained to overcome The current shortcomings of fewer samples, and better use of model generalization capabilities, thereby improving the accuracy of the network for a single task;
  • the expression score is divided into 0: no smile, 1: smile;
  • Age is an integer between 0-101.
  • the normative manual scoring label includes:
  • group the IMDB-WIKI face database, and the age range of the face images contained in each group is normally distributed between 0-101 years old;
  • the correlation test includes the consistency test of the scorer itself, the score variance of the individual scorer, the consistency test between the scorer and all the scorers, and the correlation test of random grouping, using Pearson coefficient p xy reflects the consistency of the scorer, that is
  • x represents the score vector of the original image
  • y represents the score vector of the repeated image
  • ⁇ x and ⁇ y represent the variance of x and y, respectively.
  • the loss function is Soft-max cross entropy, multi-class SVM loss.
  • the Soft-max cross entropy of the t-th task is defined as L t :
  • the multi-class SVM loss of the t-th task is defined as L t :
  • the present invention implements multi-task training by constructing a large multi-task face database. Only under the precondition of sufficient training data, combined with learning strategies such as Dropout, can a deep network be trained with a deep learning method to prevent over Fitting; In order to fully explore the relationship between the beauty of a face and other face attributes, the multi-task face database constructed by the present invention contains attribute tags for age, expression, and face beauty.
  • the present invention enhances the accuracy of facial beauty prediction by adding facial expression recognition and age recognition.
  • multi-task learning can obtain additional useful information by mining the relationship between tasks and overcome the current lack of samples.
  • the shortcomings but also has better model generalization ability.
  • the shared presentation layer can better combine related information with common tasks, and the task-specific layer can model task-specific information separately, thereby effectively realizing the sharing of information and task-specific information Unify, realize auxiliary tasks and improve the performance of main tasks.
  • Figure 1 is a schematic flow diagram of the present invention
  • Figure 2 is a flow chart of the construction of the multi-task learning face database of the present invention.
  • Fig. 3 is a schematic diagram of the construction process of the multi-task learning face beauty prediction model of the present invention.
  • the present invention provides a method for predicting the beauty of a face based on multi-task learning.
  • the present invention enhances the accuracy of the prediction of the beauty of a face by adding facial expression recognition and age recognition.
  • the constructed database image contains three labels of facial expression attributes, age attributes and face beauty attributes for subsequent multi-task training and prediction; each task in the multi-task training process Share network parameters and learn shared features between them, thereby improving the accuracy of the network for single-task learning.
  • the shared presentation layer can better combine related tasks with common tasks, and the task-specific layer can model task-specific information separately, and can use samples from different tasks to optimize Network parameters, while improving multi-tasking performance. Specifically include the following steps:
  • IMDB-WIKI is a database containing 100,000 celebrity face images.
  • the database contains the labels of the celebrity’s birthday, name and gender.
  • the information is obtained from IMDB and Wiki website crawled, a total of 524,230 celebrity face images and corresponding age and gender. Among them, 460,723 were obtained from IMDB, and 62,328 were obtained from WIKI;
  • the beauty of the face is divided into 5 levels, namely 0: extremely unattractive, 1: not attractive, 2: average, 3: more attractive, and 4: extremely attractive;
  • the expression score is divided into 0: no smile, 1: smile;
  • Age is an integer between 0-101.
  • the normative manual scoring label includes:
  • the IMDB-WIKI face database is grouped.
  • the age range of the face images contained in each group is normally distributed between 0-101 years old.
  • the age distribution of the selected images from the 500,000 images in the IMDB database is Normally distributed, and all images are divided into 51 groups, numbered from 1 to 51, of which the first 50 groups contain 9990 images, and the 51st group is a public image group containing 1500 images.
  • the repeated images of each group plus the public images and the original group images form a new group;
  • the scoring data is collected through a web scoring tool.
  • This embodiment adopts an online web scoring form to unify the scoring environment while providing a convenient and intuitive scoring experience, excluding the influence of external factors; presenting 5 images to the rater for scoring at a time, both It allows the scorer to have a relatively clear contrast without affecting the scoring effect due to visual or aesthetic fatigue caused by too many images;
  • the correlation test includes the consistency test of the scorer itself, the score variance of the individual scorer, the consistency test between the scorer and all the scorers, and the correlation test of random grouping, using Pearson coefficient p xy To reflect the consistency of the scorers, that is
  • x represents the score vector of the original image
  • y represents the score vector of the repeated image
  • ⁇ x and ⁇ y represent the variance of x and y, respectively.
  • F CNN [F task1 ,F task2 ,F task3 ]
  • F task1 , F task2 , and F task3 are respectively represented as the feature vector expressions of face beauty, facial expression, and age in the last layer of the deep learning network; by mining the relationship between tasks, additional useful information can be obtained to overcome The current shortcomings of fewer samples, and better use of model generalization capabilities, thereby improving the accuracy of the network for a single task;
  • the Soft-max cross entropy of the t-th task is defined as L t :
  • the multi-class SVM loss of the t-th task is defined as L t :

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供一种基于多任务学习的人脸美丽预测方法,包括构建多任务人脸数据库及多任务人脸美丽预测模型的构建。本发明通过增加表情识别和年龄识别来增强人脸美丽预测的准确率。在多任务人脸数据库构建过程中,构建的数据库图像包含人脸表情属性、年龄属性和人脸美丽程度属性三个标签,以便后续进行多任务训练和预测;在多任务训练过程中每个任务之间共享网络参数,学习共享特征,从而提高网络对单任务学习的准确率。通过使用深度学习网络进行多任务学习,共享表示层可使具有共性的任务更好地结合相关性信息,任务特定层则可单独建模任务特定的信息,则可运用来自不同任务的样本来优化网络参数,同时提升多任务性能。

Description

一种基于多任务学习的人脸美丽预测方法 技术领域
本发明涉及利用图像处理和机器学习技术进行人脸美丽评价技术领域,尤其是一种基于多任务学习的人脸美丽预测方法。
背景技术
爱美是人类的天性,爱美之心,人皆有之。亚里士多德说:“美丽的面孔是更好的推荐书”。美丽给人留下的好感在日常生活中切实存在,且给人们日常生活带来重大影响。人脸美丽研究是近年来兴起的关于人类认知本质与规律研究的前沿课题,探索如何更好地测美,将有助于人脸美丽密码这一人类永恒的主题得到科学、客观及可量化的描述,使人脸美丽研究这一跨学科领域得到长足的发展。
现实生活中,人们对美丽的评价标准各自不同,这也导致在很长一段时间内,人们都认为美是一种主观的感知活动。然而,研究者们发现人们对于人脸美丽的评判有着高度的一致性,这种一致性与审美个体所处的民族、文化、年龄和性别等无关,这个结论也证明了人脸美的客观性。
人脸美的客观性为人脸美的自动预测和分析奠定了理论基础。自上个世纪80年代以来,计算机科学的迅猛发展使得建立人脸美丽的计算预测模型变得可行。人们倾向于手工提取人脸图像的几何特征或者表观特征,再结合线性回归、高斯回归或支持向量机等传统的机器学习方法去最大限度地拟合数据,从而对人脸图像的美丽程度进行预测。然而,这种传统方法下所提取的特征是低层次的,表征能力十分有限,预测效果大打折扣。
目前,国内外学者大多采用几何特征或表观特征,进而通过机器学习对人脸美丽进行预测。其中基于几何特征的人脸美丽预测方法是人脸美丽研究的热点,研究者在人脸图像上提取许多有意义的特征点,计算感兴趣特征点之间的几何距离以及由这些距离所构成的比率矢量,然后将几何距离和比率矢量作为特征进行机器学习。几何特征体现了人脸图像各部位一种和谐的数量或比例关系。近年来,随着深度学习技术的发展,研究者们逐渐认识到深度学习对人脸美丽预测的重要性。但是,深度学习方法用于人脸美丽研究需要大量训练样本,人脸美丽预测研究的现有数据库规模一般不大,从而使直接训练一个深层网络模型不仅困难而且易出现过拟合的问题,同时现有的人脸美丽评价只能基于单任务进行预测,但是人脸美丽的评价缺受到很多因素的影响,导致现有的人脸美丽评估不准确,参考意义不大。
发明内容
针对现有技术的不足,本发明提供一种基于多任务学习的人脸美丽预测方法,本发明能够充分利用相关任务的关联性,弥补由于人脸美丽数据样本较少的缺陷,同时利用多任务之间有用的额外信息来提高系统的准确率。
本发明的技术方案为:一种基于多任务迁移学习的人脸美丽预测方法,其中,多任务是指人脸美丽预测、人脸表情识别、以及年龄识别,具体包括以下步骤:
S1)、针对不同任务构建多任务学习人脸数据库,并对多任务学习人脸数据库中的每张人脸图像进行人脸美丽、人脸表情、年龄标注、以及相应的预处理;
S2)、构建多任务学习人脸美丽预测模型的共享特征学习结构,此结构需要构建合理的深度共享网络提取深度共享特征,网络由不同数量的卷积层、池化层、Batch Normalization及一些正则化策略构成,通过网路结构提取深度共享特征:
F CNN=[F task1,F task2,F task3];
其中,F task1、F task2、F task3分别表示为深度学习网络最后一层中人脸美丽、人脸表情、年龄的特征向量表达;通过挖掘任务之间的关系,能够得到额外的有用信息,克服当前样本少的缺点,同时还具有更好的模型泛化能力利用,从而提高网路对单个任务的准确率;
S3)、构建多任务学习人脸美丽预测模型的独立特征学习结构,将共享特征学习结构的共享特征作为输入,基于3个不同的任务对模型设置3类不同的全连接层,并设置相应的损失函数,将提取的融合特征输入模型中进行训练,通过优化损失函数直至损失最小,得到训练好的多任务学习人脸美丽预测模型;学习人脸美丽预测模型,实现多任务的人脸美丽预测、表情识别、年龄识别。
进一步的,步骤S1)中,所述的多任务学习人脸数据库中每张图片均有人脸美丽、人脸表情、年龄标注;构建多任务学习人脸数据库包括以下步骤:
S101)、基于IMDB-WIKI年龄数据库获取每张人脸图像的年龄标签;
S102)、然后通过规范性人工评分标注对人脸图像进行规范的人工标注,得到人脸美丽标注和表情标注;
S103)、对每张人脸图像进行人脸及关键点检测、人脸对齐、归一化剪裁处理,将每张图像剪裁成只保留人脸区域的大小,最终得到规范且包含人脸美丽、表情、年龄标签的多任务学习人脸数据库。
进一步的,所述的人脸美丽分为5个等级,分别为0:极不具有吸引力、1:不具有吸引力、2:一般、3:较有吸引力,和4:极有吸引力;
表情评分分为0:不微笑、1:微笑;
年龄为0-101之间的整数。
进一步的,步骤S102)中,所述的规范性人工评分标注包括:
首先,对IMDB-WIKI人脸数据库分组,每组包含的人脸图像年龄段在0-101岁之间呈正态分布;
其次,通过网页评分工具收集评分数据;
最后,对评分数据进行有效性分析,即在美丽一致性的条件下对数据进行相关性检验以及方差分析,保证数据客观有效。
进一步的,所述的相关性检验包括评分者自身的一致性检验、评分者个体的评分方差、评分者和所有评分者之间的一致性检验以及随机分组的相关性检验,用皮尔逊系数p xy来反应评分者自身的一致性,即
Figure PCTCN2020081905-appb-000001
其中,x表示原始图像的评分向量,y表示重复图像的评分向量,σ x和σ y分别表示x和y的方差。
进一步的,步骤S3)中,所述的损失函数为Soft-max cross entropy、multi-class SVM loss。
进一步的,对于损失函数Soft-max cross entropy,将第t个任务的Soft-max cross entropy定义为L t
Figure PCTCN2020081905-appb-000002
其中,
Figure PCTCN2020081905-appb-000003
表示为j是否为第i个样本的真实标签;
Figure PCTCN2020081905-appb-000004
表示j是第i个样本真实标签的概率;
Figure PCTCN2020081905-appb-000005
表示样本类型,即若
Figure PCTCN2020081905-appb-000006
则第i个样本和第t个任务相关。
进一步的,对于损失函数multi-class SVM loss,将第t个任务的multi-class SVM loss定义为L t
Figure PCTCN2020081905-appb-000007
其中,
Figure PCTCN2020081905-appb-000008
表示第i个样本的类别j;
Figure PCTCN2020081905-appb-000009
表示第i个样本真实标签l i的类别。
本发明的有益效果为:
1、本发明通过构建大型的多任务人脸数据库来实现多任务的训练,只有在足够的训练数 据的前提条件下,并结合Dropout等学习策略,用深度学习的方法训练一个深度网络才能防止过拟合;为了充分挖掘人脸美丽和其他人脸属性之间的关系,本发明构建的多任务人脸数据库包含年龄、表情和人脸美丽程度的属性标签。
2、本发明通过增加表情识别和年龄识别来增强人脸美丽预测的准确率,与单任务学习相比,多任务学习通过挖掘任务之间的关系,能够得到额外的有用信息,克服当前样本少的缺点,同时还具有更好的模型泛化能力。通过使用深度学习网络进行多任务学习,共享表示层可使具有共性的任务更好地结合相关性信息,任务特定层则可单独建模任务特定的信息,从而有效实现共享信息和任务特定信息的统一,实现辅任务提高主任务的性能。
附图说明
图1为本发明的流程示意图;
图2为本发明多任务学习人脸数据库的构建流程图;
图3为本发明多任务学习人脸美丽预测模型的构建流程示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明:
如图1所示,本发明提供一种基于多任务学习的人脸美丽预测方法,本发明通过增加表情识别和年龄识别来增强人脸美丽预测的准确率。在多任务人脸数据库构建过程中,构建的数据库图像包含人脸表情属性、年龄属性和人脸美丽程度属性三个标签,以便后续进行多任务训练和预测;在多任务训练过程中每个任务之间共享网络参数,学习共享特征,从而提高网络对单任务学习的准确率。通过使用深度学习网络进行多任务学习,共享表示层可使具有共性的任务更好地结合相关性信息,任务特定层则可单独建模任务特定的信息,则可运用来自不同任务的样本来优化网络参数,同时提升多任务性能。具体包括以下步骤:
S1)、S1)、针对不同任务构建多任务学习人脸数据库,并对多任务学习人脸数据库中的每张人脸图像进行人脸美丽、人脸表情、年龄标注、以及相应的预处理;如图2所示,其具体包括以下步骤:
S101)、基于IMDB-WIKI年龄数据库获取每张人脸图像的年龄标签,IMDB-WIKI为包含100000个名人人脸图像的数据库,该数据库包含名人的生日、姓名和性别的标签,信息从IMDB和WIKI网站抓取,总计524230张名人人脸图像及对应的年龄和性别。其中,获取自IMDB的460723张,获取自WIKI的62328张;
S102)、然后通过规范性人工评分标注对人脸图像进行规范的人工标注,得到人脸美丽标注和表情标注;
S103)、对每张人脸图像进行人脸及关键点检测、人脸对齐、归一化剪裁处理,将每张图像剪裁成只保留人脸区域的大小,最终得到规范且包含人脸美丽、表情、年龄标签的多任务学习人脸数据库。
其中,所述的人脸美丽分为5个等级,分别为0:极不具有吸引力、1:不具有吸引力、2:一般、3:较有吸引力,和4:极有吸引力;
表情评分分为0:不微笑、1:微笑;
年龄为0-101之间的整数。
优选的,步骤S102)中,所述的规范性人工评分标注包括:
首先,对IMDB-WIKI人脸数据库分组,每组包含的人脸图像年龄段在0-101岁之间呈正态分布,本实施例从IMDB数据库中的500000张图像,选取的图像年龄分布呈正态分布,并且将所有图像分为51组,编号为1至51,其中,前50小组含有9990张图像,第51组为公共图像组,包含1500张图像。然后,在第1至50小组中随机抽取并复制1500张图像分别作为各个小组的重复图像。最后,将各组的重复图像加上公共图像以及原有小组图像组成新的分组;
其次,通过网页评分工具收集评分数据,本实施例采用在线网页评分形式,在提供方便直观的评分体验的同时统一评分环境,排除外部因素的影响;一次呈现给评分者5张图像进行评分,既能让评分者有相对清晰的对比,又不会因为太多图像产生视觉或审美疲劳而影响评分效果;
最后,对评分数据进行有效性分析,即在美丽一致性的条件下对数据进行相关性检验以及方差分析,保证数据客观有效。其中,所述的相关性检验包括评分者自身的一致性检验、评分者个体的评分方差、评分者和所有评分者之间的一致性检验以及随机分组的相关性检验,用皮尔逊系数p xy来反应评分者自身的一致性,即
Figure PCTCN2020081905-appb-000010
其中,x表示原始图像的评分向量,y表示重复图像的评分向量,σ x和σ y分别表示x和y的方差。
S2)、构建多任务学习人脸美丽预测模型的共享特征学习结构,如图3所示。此结构需要构建合理的深度共享网络提取深度共享特征,网络由不同数量的卷积层、池化层、Batch Normalization及一些正则化策略构成,组成的网络结构可以是VGG、GoogleNet、ResNet等经典的神经网络结构前半部分并进行改进,通过使用GAP代替全连接,能够降低模型的参数,加快收敛。最后,提取深度共享特征:
F CNN=[F task1,F task2,F task3];
其中,F task1、F task2、F task3分别表示为深度学习网络最后一层中人脸美丽、人脸表情、年龄的特征向量表达;通过挖掘任务之间的关系,能够得到额外的有用信息,克服当前样本少的缺点,同时还具有更好的模型泛化能力利用,从而提高网路对单个任务的准确率;
S3)、构建多任务学习人脸美丽预测模型的独立特征学习结构,由于对人脸美丽的评价受到表情、年龄的影响,基于3个不同的任务人脸美丽预测训练准确率;表情识别训练准确率;年龄识别训练准确率对模型设置3类不同的全连接层,并设置相应的损失函数,如Soft-max cross entropy、multi-class SVM loss。将提取的融合特征输入模型中进行训练,通过优化损失函数直至损失最小,降低真实值与预测期望误差,提高模型有效性和判别性,得到训练好的多任务学习人脸美丽预测模型;
优选的,对于损失函数Soft-max cross entropy,将第t个任务的Soft-max cross entropy定义为L t
Figure PCTCN2020081905-appb-000011
其中,
Figure PCTCN2020081905-appb-000012
表示为j是否为第i个样本的真实标签;
Figure PCTCN2020081905-appb-000013
表示j是第i个样本真实标签的概率;
Figure PCTCN2020081905-appb-000014
表示样本类型,即若
Figure PCTCN2020081905-appb-000015
则第i个样本和第t个任务相关。
优选的,对于损失函数multi-class SVM loss,将第t个任务的multi-class SVM loss定义为L t
Figure PCTCN2020081905-appb-000016
其中,
Figure PCTCN2020081905-appb-000017
表示第i个样本的类别j;
Figure PCTCN2020081905-appb-000018
表示第i个样本真实标签l i的类别。
S4)、将待测试的人脸图像输入训练好的多任务学习人脸美丽预测模型,实现多任务的人脸美丽预测、表情识别、年龄识别。
上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

Claims (8)

  1. 一种基于多任务学习的人脸美丽预测方法,其特征在于:多任务是指人脸美丽预测、人脸表情识别、以及年龄识别,具体包括以下步骤:
    S1)、针对不同任务构建多任务学习人脸数据库,并对多任务学习人脸数据库中的每张人脸图像进行人脸美丽、人脸表情、年龄标注、以及相应的预处理;
    S2)、构建多任务学习人脸美丽预测模型的共享特征学习结构,此结构需要构建合理的深度共享网络提取深度共享特征,网络由不同数量的卷积层、池化层、Batch Normalization及正则化策略构成,提取的深度共享特征为:
    F CNN=[F task1,F task2,F task3];
    其中,F task1、F task2、F task3分别表示为深度学习网络最后一层中人脸美丽、人脸表情、年龄的特征向量表达;
    S3)、构建多任务学习人脸美丽预测模型的独立特征学习结构,将共享特征学习结构的共享特征作为输入,基于3个不同的任务对模型设置3类不同的全连接层,并设置相应的损失函数,将提取的融合特征输入模型中进行训练,通过优化损失函数直至损失最小,得到训练好的多任务学习人脸美丽预测模型;
    S4)、将待测试的人脸图像输入训练好的多任务学习人脸美丽预测模型,实现多任务的人脸美丽预测、表情识别、年龄识别。
  2. 根据权利要求1所述的多任务学习的人脸美丽预测方法,其特征在于:步骤S1)中,所述的多任务学习人脸数据库中每张图片均有人脸美丽、人脸表情、年龄标注;构建多任务学习人脸数据库包括以下步骤:
    S101)、基于IMDB-WIKI年龄数据库获取每张人脸图像的年龄标签;
    S102)、然后通过规范性人工评分标注对人脸图像进行规范的人工标注,得到人脸美丽标注和表情标注;
    S103)、对每张人脸图像进行人脸及关键点检测、人脸对齐、归一化剪裁处理,将每张图像剪裁成只保留人脸区域的大小,最终得到规范且包含人脸美丽、表情、年龄标签的多任务学习人脸数据库。
  3. 根据权利要求2所述的多任务迁移学习的人脸美丽预测方法,其特征在于:所述的人脸美丽分为5个等级,分别为0:极不具有吸引力、1:不具有吸引力、2:一般、3:较有吸引力,和4:极有吸引力;
    表情评分分为0:不微笑、1:微笑;
    年龄为0-101之间的整数。
  4. 根据权利要求2所述的多任务学习的人脸美丽预测方法,其特征在于:步骤S102)中,所述的规范性人工评分标注包括:
    首先,对IMDB-WIKI人脸数据库分组,每组包含的人脸图像年龄段在0-101岁之间呈正态分布;
    其次,通过网页评分工具收集评分数据;
    最后,对评分数据进行有效性分析,即在美丽一致性的条件下对数据进行相关性检验以及方差分析。
  5. 根据权利要求4所述的多任务学习的人脸美丽预测方法,其特征在于:所述的相关性检验包括评分者自身的一致性检验、评分者个体的评分方差、评分者和所有评分者之间的一致性检验以及随机分组的相关性检验,用皮尔逊系数p xy来反应评分者自身的一致性,即
    Figure PCTCN2020081905-appb-100001
    其中,x表示原始图像的评分向量,y表示重复图像的评分向量,σ x和σ y分别表示x和y的方差。
  6. 根据权利要求1所述的多任务学习的人脸美丽预测方法,其特征在于:步骤S3)中,所述的损失函数为Soft-max cross entropy或multi-class SVM loss。
  7. 根据权利要求6所述的多任务学习的人脸美丽预测方法,其特征在于:对于损失函数Soft-max cross entropy,将第t个任务的Soft-max cross entropy定义为L t
    Figure PCTCN2020081905-appb-100002
    其中,
    Figure PCTCN2020081905-appb-100003
    表示为j是否为第i个样本的真实标签;
    Figure PCTCN2020081905-appb-100004
    表示j是第i个样本真实标签的概率;
    Figure PCTCN2020081905-appb-100005
    表示样本类型,即若
    Figure PCTCN2020081905-appb-100006
    则第i个样本和第t个任务相关。
  8. 根据权利要求6所述的多任务学习的人脸美丽预测方法,其特征在于:对于损失函数multi-class SVM loss,将第t个任务的multi-class SVM loss定义为L t
    Figure PCTCN2020081905-appb-100007
    其中,
    Figure PCTCN2020081905-appb-100008
    表示第i个样本的类别j;
    Figure PCTCN2020081905-appb-100009
    表示第i个样本真实标签l i的类别。
PCT/CN2020/081905 2019-08-21 2020-03-28 一种基于多任务学习的人脸美丽预测方法 WO2021031566A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910774741.8 2019-08-21
CN201910774741.8A CN110414489A (zh) 2019-08-21 2019-08-21 一种基于多任务学习的人脸美丽预测方法

Publications (1)

Publication Number Publication Date
WO2021031566A1 true WO2021031566A1 (zh) 2021-02-25

Family

ID=68368346

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/081905 WO2021031566A1 (zh) 2019-08-21 2020-03-28 一种基于多任务学习的人脸美丽预测方法

Country Status (2)

Country Link
CN (1) CN110414489A (zh)
WO (1) WO2021031566A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113077382A (zh) * 2021-04-27 2021-07-06 东南大学 基于bemd和深度学习的美颜图像还原方法
CN113536991A (zh) * 2021-06-29 2021-10-22 北京百度网讯科技有限公司 训练集生成、人脸图像处理方法、装置及电子设备
CN114168684A (zh) * 2021-12-10 2022-03-11 南威软件股份有限公司 一种基于异步机制的人脸建模入库服务实现方法及装置
CN117789184A (zh) * 2024-02-26 2024-03-29 沈阳派得林科技有限责任公司 一种统一的焊缝射线图像智能识别方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414489A (zh) * 2019-08-21 2019-11-05 五邑大学 一种基于多任务学习的人脸美丽预测方法
CN111598107B (zh) * 2020-04-17 2022-06-14 南开大学 一种基于特征动态选择的多任务联合检测方法
CN113627419A (zh) * 2020-05-08 2021-11-09 百度在线网络技术(北京)有限公司 兴趣区域评估方法、装置、设备和介质
CN111695602B (zh) * 2020-05-18 2021-06-08 五邑大学 多维度任务人脸美丽预测方法、系统及存储介质
CN111832436B (zh) 2020-06-24 2023-06-16 五邑大学 基于多任务与弱监督的美丽预测方法、装置及存储介质
CN111832435A (zh) 2020-06-24 2020-10-27 五邑大学 基于迁移与弱监督的美丽预测方法、装置及存储介质
CN113076850A (zh) * 2021-03-29 2021-07-06 Oppo广东移动通信有限公司 多任务预测方法、多任务预测装置及电子设备
CN113642467B (zh) * 2021-08-16 2023-12-01 江苏师范大学 一种基于改进vgg网络模型的人脸表情识别方法
CN114898424B (zh) * 2022-04-01 2024-04-26 中南大学 一种基于双重标签分布的轻量化人脸美学预测方法
CN114511918B (zh) * 2022-04-20 2022-07-05 中国传媒大学 一种基于多任务学习的人脸状态判断方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529402A (zh) * 2016-09-27 2017-03-22 中国科学院自动化研究所 基于多任务学习的卷积神经网络的人脸属性分析方法
CN106815566A (zh) * 2016-12-29 2017-06-09 天津中科智能识别产业技术研究院有限公司 一种基于多任务卷积神经网络的人脸检索方法
CN110084152A (zh) * 2019-04-10 2019-08-02 武汉大学 一种基于微表情识别的伪装人脸检测方法
CN110119689A (zh) * 2019-04-18 2019-08-13 五邑大学 一种基于多任务迁移学习的人脸美丽预测方法
CN110414489A (zh) * 2019-08-21 2019-11-05 五邑大学 一种基于多任务学习的人脸美丽预测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6750854B2 (ja) * 2016-05-25 2020-09-02 キヤノン株式会社 情報処理装置および情報処理方法
CN106203395B (zh) * 2016-07-26 2020-01-14 厦门大学 基于多任务深度学习的人脸属性识别方法
CN107392110A (zh) * 2017-06-27 2017-11-24 五邑大学 基于互联网的人脸美化系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529402A (zh) * 2016-09-27 2017-03-22 中国科学院自动化研究所 基于多任务学习的卷积神经网络的人脸属性分析方法
CN106815566A (zh) * 2016-12-29 2017-06-09 天津中科智能识别产业技术研究院有限公司 一种基于多任务卷积神经网络的人脸检索方法
CN110084152A (zh) * 2019-04-10 2019-08-02 武汉大学 一种基于微表情识别的伪装人脸检测方法
CN110119689A (zh) * 2019-04-18 2019-08-13 五邑大学 一种基于多任务迁移学习的人脸美丽预测方法
CN110414489A (zh) * 2019-08-21 2019-11-05 五邑大学 一种基于多任务学习的人脸美丽预测方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113077382A (zh) * 2021-04-27 2021-07-06 东南大学 基于bemd和深度学习的美颜图像还原方法
CN113077382B (zh) * 2021-04-27 2024-01-12 东南大学 基于bemd和深度学习的美颜图像还原方法
CN113536991A (zh) * 2021-06-29 2021-10-22 北京百度网讯科技有限公司 训练集生成、人脸图像处理方法、装置及电子设备
CN113536991B (zh) * 2021-06-29 2023-06-23 北京百度网讯科技有限公司 训练集生成、人脸图像处理方法、装置及电子设备
CN114168684A (zh) * 2021-12-10 2022-03-11 南威软件股份有限公司 一种基于异步机制的人脸建模入库服务实现方法及装置
CN114168684B (zh) * 2021-12-10 2023-08-08 清华大学 一种基于异步机制的人脸建模入库服务实现方法及装置
CN117789184A (zh) * 2024-02-26 2024-03-29 沈阳派得林科技有限责任公司 一种统一的焊缝射线图像智能识别方法
CN117789184B (zh) * 2024-02-26 2024-05-17 沈阳派得林科技有限责任公司 一种统一的焊缝射线图像智能识别方法

Also Published As

Publication number Publication date
CN110414489A (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
WO2021031566A1 (zh) 一种基于多任务学习的人脸美丽预测方法
Xiao et al. A framework for quantitative analysis and differentiated marketing of tourism destination image based on visual content of photos
CN110119689A (zh) 一种基于多任务迁移学习的人脸美丽预测方法
US20190197485A1 (en) Suggesting positions for hiring searches
Alonso et al. Crowdsourcing 101: putting the WSDM of crowds to work for you.
CN109902912B (zh) 一种基于性格特征的个性化图像美学评价方法
Gao [Retracted] Research and Implementation of Intelligent Evaluation System of Teaching Quality in Universities Based on Artificial Intelligence Neural Network Model
Duan et al. How do perceptions of non-mega sport events impact quality of life and support for the event among local residents?
Huang et al. A personalized English learning material recommendation system based on knowledge graph
Duan et al. How do perceptions of non-mega sport events impact quality of life and support for the event among local residents?
Jing et al. Learning query-specific distance functions for large-scale web image search
CN117454217A (zh) 一种基于深度集成学习的抑郁情绪识别方法、装置及系统
Dubin et al. Human-computer system design of entrepreneurship education based on artificial intelligence and image feature retrieval
Jiang et al. [Retracted] Stable Parallel Algorithms for Interdisciplinary Computer‐Based Online Education with Real Problem Scenarios for STEM Education
Xia et al. Semantic similarity metric learning for sketch-based 3D shape retrieval
Tung et al. Ehnicity and health disparities among the elderly in Taiwan
CN112257517A (zh) 一种基于景点聚类和群体情感识别的旅游景点推荐系统
Yuhao et al. Economic simulation of sports industry based on deep learning algorithm and data mining
CN111291829A (zh) 一种精选图片的自动确定方法和系统
Wan et al. Personalized professional recommendation system based on undergraduate questionnaires
Pradani et al. A Proposed Crowdsourcing Engine for Indonesian Cultural Heritage
Kang et al. Thematic trends and changes in Human Service Organizations: Management, leadership, and governance
KR102656136B1 (ko) 인공지능 기반 포스팅 시스템
Jianyun Big data assisted online teaching platform for ideological and political theory course in universities
WO2021134944A1 (zh) 一种基于移动新闻客户端的评估方法及其系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20855580

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20855580

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 20855580

Country of ref document: EP

Kind code of ref document: A1