WO2019233226A1 - 人脸识别方法、分类模型训练方法、装置、存储介质和计算机设备 - Google Patents
人脸识别方法、分类模型训练方法、装置、存储介质和计算机设备 Download PDFInfo
- Publication number
- WO2019233226A1 WO2019233226A1 PCT/CN2019/085462 CN2019085462W WO2019233226A1 WO 2019233226 A1 WO2019233226 A1 WO 2019233226A1 CN 2019085462 W CN2019085462 W CN 2019085462W WO 2019233226 A1 WO2019233226 A1 WO 2019233226A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- loss
- classification model
- training
- hypersphere
- feature
- Prior art date
Links
- 238000012549 training Methods 0.000 title claims abstract description 291
- 238000013145 classification model Methods 0.000 title claims abstract description 277
- 238000000034 method Methods 0.000 title claims abstract description 110
- 238000005457 optimization Methods 0.000 claims abstract description 19
- 239000013598 vector Substances 0.000 claims description 63
- 230000008859 change Effects 0.000 claims description 35
- 230000008569 process Effects 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 18
- 238000010606 normalization Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000003247 decreasing effect Effects 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 21
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000003044 adaptive effect Effects 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- 230000007423 decrease Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 244000166124 Eucalyptus globulus Species 0.000 description 1
- 101150041570 TOP1 gene Proteins 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Definitions
- An input module configured to input the face image into a classification model, and obtain the recognition result of the face image to be identified through the classification model;
- An input module for inputting training samples marked with category information into a classification model, and outputting output results of the training samples
- FIG. 1 is a schematic diagram of an application environment of a classification model training method in an embodiment
- FIG. 6 is a schematic diagram of a classification accuracy variation curve on a model evaluation data set in three modes
- the loss of the hypersphere radius is a part of the loss of the classification model.
- this application constrains the learned hypersphere radius R, which can guide the hypersphere radius R not to be learned too large or too small.
- the calculation method for the loss of the hypersphere radius R loss is:
- the model parameter further includes a boundary value
- the boundary value is a boundary value between the training sample and the corresponding category, that is, the boundary value is obtained according to each category provided in the classification model.
- the boundary value is the distance between classes. When the boundary value is small, it means that the two adjacent categories are similar, which is not conducive to feature classification.
- ⁇ i is with The angle between the two vectors indicates the cosine similarity between the i-th sample and the i-th category in the output result, Is the projection feature of the i-th sample, and yi is an i-th category, Is the parameter in the yi-th column of the parameter matrix of the fully connected layer.
- the above classification model training method calculates the change amount based on the loss of the classification model trained last time, and obtains the hypersphere radius of the current training based on the change amount and the radius of the last trained supersphere, that is, the supersphere radius of this training is learning Obtained, and use the hypersphere radius loss constraint on the learned hypersphere radius to prevent the hypersphere radius from being learned too large or too small.
- This method effectively solves the problem of manual setting of the hypersphere radius, reduces the difficulty of adjusting parameters, enhances the versatility of training, and also improves the training effect.
- a multi-dimensional feature vector of the training sample is extracted by a convolutional neural network (CNN).
- CNN convolutional neural network
- a 1 ⁇ n d -dimensional feature vector is obtained after the training sample is subjected to feature extraction.
- n d represents the feature dimension.
- the training of the classification model is to input enough samples to the network, and adjust the structure of the classification model through a certain algorithm, so that the output of the classification model is consistent with the expected value.
- the training samples in this implementation are sample data required for training of a classification model, and may be images, sounds, or text with labels, and the like.
- the spatial radius of the hypersphere is learned by the network itself, and the learned hypersphere radius is constrained to prevent the R value from being learned too large or too small, which effectively solves the manual setting of the hypersphere radius and reduces Adjusting the difficulty of the parameters enhances the generality of training and improves the training effect; when adding margin to softmax loss, the boundary value is automatically adjusted according to the classification effect of the current sample to ensure that when the classification effect is not good, a small boundary value is added This adaptive boundary selection not only ensures that the network learns better mapped features later in the training, but also greatly reduces the training difficulty at the beginning of training.
- the training module 730 is further configured to determine a cosine similarity between the training sample and a category corresponding to the category information according to an output result of the training sample, and calculate the training sample and the cosine similarity based on the cosine similarity.
- the training module 730 is further configured to determine a first product of the hypersphere radius loss and a first weight and a second product of the boundary loss and a second weight; The sum of the first product and the second product is determined as the loss of the classification model.
- the classification model includes a fully connected layer
- the loss includes the boundary loss
- the calculating the loss of the classification model in the training process includes:
- the normalized multi-dimensional feature vector is projected onto the hypersphere feature projection space to obtain the projected feature.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种人脸识别方法及分类模型训练方法、装置、计算机可读存储介质和计算机设备,分类模型训练方法包括:将标注有类别信息的训练样本输入至分类模型,输出得到训练样本的输出结果;结合输出结果、类别信息以及分类模型的模型参数计算分类模型在训练过程中的损失;结合损失对分类模型进行反向传播优化,得到优化后的分类模型。根据所述训练样本的输出结果,样本类别信息以及分类模型本身的模型参数计算分类模型的损失,通过计算得到的损失对分类模型进行反向传播优化,从而降低分类模型在下一次识别中的损失,因而本申请的方法得到的分类模型的损失在训练过程中不断下降,从而提高了分类模型的训练效率。
Description
本申请要求于2018年06月05日提交的申请号为201810566938.8、发明名称为“人脸识别方法、装置及分类模型训练方法、装置、存储介质和计算机设备”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
本申请涉及计算机技术领域,特别涉及一种人脸识别方法、分类模型训练方法、装置、计算机可读存储介质和计算机设备。
随着人工智能技术的发展,人脸识别的应用范围越来越广,例如考勤,解锁等。人脸识别可以认为是分类问题,可基于分类模型实现。其中,分类模型用于对事物进行识别后得到该事物对应的类别,例如:判断一幅图片上的动物的类别对应动物猫还是对应动物狗。分类模型的作用是将输入数据,例如图像或语音等,提取特征,并将该特征与类别特征进行比较,达到分类的目的。
分类模型通过大量标记的训练样本,训练神经网络结构的参数得到。分类模型训练过程中,若分类模型的损失符合预期时,则停止训练。分类模型的损失反应了预测结果的准确度,当预测结果的准确率高时,分类模型的损失小。
然而在实际应用过程中,由于分类模型的损失是通过训练样本的分类结果和训练样本的实际类别确定的,在训练过程中对分类模型进行调整时,分类模型的分类效果在开始阶段表现较差,导致分类模型的训练效率整体较低。
发明内容
本申请实施例提供了一种人脸识别方法、分类模型训练方法、装置、计算机可读存储介质和计算机设备,可以解决在训练过程中对分类模型进行调整时,分类模型的训练效率整体较低的问题。
一方面,提供了一种人脸识别方法,应用于服务器中,所述方法包括:
获取待识别的人脸图像;
将所述人脸图像输入分类模型,通过所述分类模型得到所述待识别人脸图 像的识别结果;
其中,所述分类模型是通过将标注有类别信息的训练样本输入至所述分类模型,输出得到所述训练样本的输出结果后,结合所述输出结果、所述类别信息以及所述分类模型的模型参数计算所述分类模型在训练过程中的损失,并结合所述损失对所述分类模型进行反向传播优化后得到的。
另一方面,提供了一种分类模型训练方法,应用于服务器中,所述方法包括:
将标注有类别信息的训练样本输入至分类模型,输出得到所述训练样本的输出结果;
结合所述输出结果、所述类别信息以及所述分类模型的模型参数计算所述分类模型在训练过程中的损失;
结合所述损失对所述分类模型进行反向传播优化,得到优化后的所述分类模型。
另一方面,提供了一种人脸识别装置,应用于服务器中,所述装置包括:
获取模块,用于获取待识别的人脸图像;
输入模块,用于将所述人脸图像输入分类模型,通过所述分类模型得到所述待识别人脸图像的识别结果;
训练模块,用于通过将标注有类别信息的训练样本输入至所述分类模型,输出得到所述训练样本的输出结果后,结合所述输出结果、所述类别信息以及所述分类模型的模型参数计算所述分类模型在训练过程中的损失,并结合所述损失对所述分类模型进行反向传播优化后得到的。
另一方面,提供了一种分类模型训练装置,应用于服务器中,所述装置包括:
输入模块,用于将标注有类别信息的训练样本输入至分类模型,输出得到所述训练样本的输出结果;
损失模块,用于结合所述输出结果、所述类别信息以及所述分类模型的模型参数计算所述分类模型在训练过程中的损失;
迭代模块,用于结合所述损失对所述分类模型进行反向传播优化,得到优化后的所述分类模型。
另一方面,提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述方法的步骤。
另一方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述方法的步骤。
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一个实施例中分类模型训练方法的应用环境示意图;
图2为一个实施例中分类模型训练方法的流程图;
图3为另一个实施例中分类模型训练方法的流程图;
图4为与图3所示的流程图对应的时序图;
图5为另一个实施例中分类模型训练方法的流程图;
图6为三种方式下模型评估数据集上的分类精度变化曲线示意图;
图7为一个实施例的人脸识别装置的结构框图;
图8为一个实施例的分类模型训练装置的结构框图;
图9为一个实施例中计算机设备的结构框图。
本申请的分类模型训练方法,基于神经网络深度学习海量数据,学习有用的特征,达到准确分类的目的。分类模型用于解决机器学习中的分类问题,分类问题是用于将事物打上一个标签,通常结果为离散值。例如判断一幅图片上的动物是一只猫还是一只狗。分类模型的作用是将输入数据,例如图像或语音等,提取特征,并将该特征与各类别特征进行比较,达到分类的目的。分类模型的应用场景可以为图像识别、语音识别或人脸识别等。一个实施例的分类模型训练方法的应用场景示意图如图1所示,包括服务器101和终端设备102。服务器101和终端设备102网络连接。
其中服务器101包括分类模型训练模块和预测模块。其中分类模型训练模块执行一种分类模型训练方法,得到分类模型。预测模块接收终端设备102输入的待分类数据,得到分类结果。基于分类模型的具体应用场景,终端设备可 以为电子设备,例如智能家居设备、移动终端或考勤设备等。终端设备102基于终端设备具体的应用,采集语音信号或图像信息发送至服务器101,由服务器101进行分类,得到分类结果。服务器101将分类结果发送至终端设备102。终端设备102基于具体应用场景,根据分类结果可执行家居设备唤醒、考勤等相关指令。
在一个实施例中,提供一种分类模型训练方法,如图2所示,包括以下步骤:
S202,将标注有类别信息的训练样本输入至分类模型,输出得到训练样本的输出结果。
本实施例中的分类模型基于神经网络建立,可选地,可采用卷积神经网络(CNN),例如,谷歌公司的Inception-Resnet卷积神经网络框架,又例如densenet和dual-path networks等卷积神经网络框架。分类模型包括卷积层,池化层和激活函数层,通过卷积、池化和激活等操作,提取输入数据的多维特征向量。其中,每个参与训练的样本经过上述处理后会抽象为一个1×n
d维的特征向量
n
d表示特征维数,可选地,该特征维数n
d与类别总数对应,可选地,特征维数的数值与类别总数的数值一致。
分类模型的训练,具体是向网络输入足够多的样本,通过一定算法调整分类模型的结构,使分类模型的输出与预期值相符。本实施中的训练样本是分类模型训练所需样本数据,可以为标注有类别信息的图像、声音或文本等等。
可选地,根据分类模型得到输出结果的过程中,首先获取该训练样本的多为特征向量,将多维特征向量投影至超球体特征投影空间,得到投影特征,通过在超球体特征投影空间进行分类。超球体特征投影空间相对于传统的高维特征空间,具有更好的特征映射和特征分类的效果。本实施例中,超球体半径R可以为固定经验值,也可以为一个在训练过程中,根据训练数据确定的调优值,则投影特征为超球体半径与多维特征向量的乘积。
可选地,将投影特征输入分类模型的全连接层,得到分类模型对训练样本的输出结果,其中,全连接层的作用是将投影特征进行整合,根据全连接层的输入(即投影特征向量)和全连接层的参数,获取样本的高层含义,即全局特征向量,之后用于分类。全连接层(fully connected layers,FC)在整个卷积神经网络中起到“分类器”的作用。
分类器即分类模型的softmax层,softmax的输入是T*1的向量,输出也是 T*1的向量,这个向量的每个值表示这个样本属于每个类的概率。即softmax层的输出结果为该样本属于各个类的概率。
S204,结合输出结果、类别信息以及分类模型的模型参数计算分类模型在训练过程中的损失。
可选地,传统的分类模型的损失根据输出结果和训练样本的实际类别计算得到,即softmax loss。分类模型的softmax loss与预测的分类结果是否正确有关,预测结果的准确度超高,则损失越小,预测结果的准确度越低,则损失越大。通常,基于神经网络建立的分类模型的训练目标,就是使分类模型的损失下降。
可选地,本申请在传统的softmaxt loss的基础上,考虑了分类模型的本身模型参数,并结合softmaxs loss和分类模型的模型参数,计算分类模型的损失。由于结合了分类模型的模型参数,从而本申请的方法得到的分类模型的损失在训练过程中不断下降,提高了分类模型的训练效率。
S206,结合损失对分类模型进行反向传播优化,得到优化后的分类模型。
反向传播的过程即根据损失调节分类模型的神经网络的参数的过程。
可选地,本申请的根据损失进行反向传播优化分类模型的方法可采用传统的反向传播方法进行,即在更新分类模型的相关参数后,基于优化的分类模型继续进行训练,直到达到训练停止条件,得到最终的分类模型的相关参数。训练停止条件可以是损失稳定且达到设定值,也可以是训练迭代次数到达设定的迭代次数等等。
上述的分类模型训练方法,根据训练样本的输出结果,调整分类模型的模型参数,在传统的softmaxloss的基础上,考虑了模型参数,并结合softmaxs loss和模型参数,计算分类模型的损失。由于结合了分类模型的模型参数,因而本申请的方法得到的分类模型的损失在训练过程中不断下降,避免出现训练过程中,损失长时间不下降的问题,从而提高了分类模型的训练效率。
在一个可选的实施例中,上述损失包括超球体半径损失和边界损失中的至少一种;其中,分类模型中包括超球体特征投影空间,该模型桉树中包括超球体特征投影空间对应的空间半径,该超球体半径损失用于表示超球体特征投影控件对应的空间半径的损失;边界损失用于表示分类模型在识别过程中的附带损失,模型参数中包括样本图像与分类模型中的类别的边界值。针对上述两种损失分别进行说明。
当损失中包括超球体半径损失时,该分类模型的训练方法还包括超球体半径调整的步骤。具体的,该步骤包括:获取上次训练分类模型的损失计算得到的分类模型的变化量;根据变化量和上次训练所采用的超球体特征投影空间的空间半径,计算本次训练的超球体特征投影空间的空间半径,并根据本次训练的超球体特征投影空间的空间半径计算超球体半径损失。
传统的方法,将多维特征向量投影至一个固定半径的超球体投影空间,而超球体半径R的大小选择没有给出合理的方法,都是根据经验固定一个值。在实际中,超球体半径R的大小依赖于训练数据,在不同的训练数据上超球体半径R的取值波动较大,且不同的超球体半径R对训练结果影响也很大。因此手动选择一个固定值,给调参带来很大不便,也很难调出一个最优超球体半径R值,这直接影响到训练效果。
本申请中,根据上次分类模型的损失,自适应学习本次超球体半径R,并计算超球体半径损失。可选地,分类模型的变化量根据上一次分类模型的损失计算得到。上次分类模型的输出结果中,将概率最大的类别作为预测类别,根据预测类别与实际类别可确定预测结果的准确度,预测结果越准确,则分类模型的损失越小,分类模型的变化量越小,预测结果越偏离,则分类模型的损失越大,分类模型的变化量越大。其中,变化量具体为上一次训练反向传播时,根据损失计算得到各参数的变化量,即△量。
根据变化量和上一次训练所采用的超球体特征投影空间的空间半径,计算本次训练的超球体特征投影空间的空间半径。变化量能够表示参数变化量,当变化量变大时,表示参数的调节幅度变大,此时将特征向量投影至固定半径的超球体特征投影空间,各特征之间的距离密集,不利于特征分类。本申请通过根据变化量自适应学习超球体半径,调节了特征空间的大小,使得特征在超球体特征投影空间投影的更分散,促进特征更好的分类,降低本次训练的分类模型的损失。
进一步地,将训练样本的多维特征向量投影至超球体特征投影空间,得到投影特征,包括:根据本次训练的超球体特征投影空间的空间半径,将多维特征向量投影至超球体特征投影空间,得到投影特征。
可选地,根据超球体特征投影空间的半径进行投影的方式,包括:
进一步地,超球体半径损失为分类模型的损失的一部分,本申请通过引入超球体半径损失,对学习到的超球体半径R进行约束,能够引导超球体半径R不要学得过大或过小。可选地,超球体半径损失R loss的计算方法为:
L
R=(R-R
min)
2
其中,R为本次训练学习到的超球体半径,R
min为经验值,具体表示希望学到的R值不要小于经验值。可选地,该经验值R
min为预设值。
在另一个实施例中,模型参数中还包括边界值,该边界值为训练样本与对应类别的边界值,也即,该边界值为根据分类模型中提供的各个类别得到的。其中,边界值即类间距离。当边界值较小时,说明相邻两个类别相似,不利于特征分类。
传统的在计算样本softmax loss时,强行加入一个固定边界(margin)值,希望通过该值来增加训练难度,使训练得到的特征映射更好,但是实际中,在训练刚开始,模型的分类效果非常不好,如果直接加入一个固定边界值会使训练loss非常大,会导致训练不收敛,给开始时的训练增加了难度。
本实施例中,根据训练样本的输出结果所确定的训练样本与各类别的余弦相似度,根据余弦相似度计算得到与训练样本对应的边界值,并根据该边界值计算得到边界损失。
如前面的,训练样本的输出结果中包括该样本属于各个类的概率。概率具体可通过训练样本的投影特征向量与全连接层各类的参数的夹角确定,即,概率为训练样本的投影特征与全连接层各类的参数的余弦相似度。训练样本的投影特征向量与全连接层各类的参数的夹角越小,训练样本与该类别的特征的余弦相似度越大,训练样本属于该类别的概率越大;训练样本的投影特征向量与全连接层各类的参数的夹角越大,训练样本属于该类别的概率越小。
一般在训练刚开始期间,通过加入较小的边界值,而当分类效果较好时,一般在训练后期,通过加入较大的边界值,这种在不同时期自适应调节边界值保证了网络在训练后期学到更好映射的特征,同时又大大降低了训练开始时的训练难度。
以人脸识别为例,理想的人脸识别希望达到类内距离缩小,边界值扩大的效果,以实现精确的人脸识别。
softmax损失学习到的特征呈角度分布,说明欧式距离损失和softmax损失相容度不好,本申请中提出了角度距离。可选地,m
i为第i个样本与某一类别的边界值。根据训练样本的输出结果所确定的训练样本与各类别的余弦相似度,调整训练样本的边界值,具体为,当训练样本与各类别的全连接层参数的余弦相似度大于或等于0时,根据所述训练样本与对应类别的全连接层参数的余弦相似度确定训练样本与该类别的边界值。
其计算方式如下:
通过上式,当投影特征与各类别矩阵参数的余弦相似度小于0时,表示特征分类效果好,此时m
i取值为0。当投影特征与各类别矩阵参数的余弦相似度大于或等于0时,表示特征分类效果不佳,根据余弦相似度调整边界值。
即本申请中的根据当前样本的分类效果自动调节边界值,保证在分类效果不好时,加入小的边界值,这种自适应边界值的选取既保证了网络在训练后期学到更好映射的特征,同时又大大降低了训练开始时的训练难度。
在另一个实施例中,输出结果中还包括训练样本在超球体特征投影空间中的投影特征,根据投影特征、训练样本的对应类别边界值以及余弦相似度,计算便边界损失。
可选地,边界损失的计算方式如下:
其中,n为本次训练的样本个数,
为第i个样本的投影特征,
为全连接层参数矩阵第y
i列的参数,R为超球体半径,θ
i为
和
两向量间的夹角,表示输出结果中第i个样本与第i个类别的余弦相似度,m
i为第i个样本的边界值。
可选地,该投影特征为根据本次训练所应用的超球体特征投影空间的空间 半径,将训练样本的多维特征向量投影至超球体特征投影空间,从而得到该投影特征。
可选地,当上述损失中既包括超球体半径损失,又包括边界损失时,计算分类模型在训练过程中的损失时,根据超球体半径损失和边界损失,得到分类模型的损失。可选地,确定超球体半径损失与第一权重的第一乘积,和边界损失与第二权重的第二乘积,将第一乘积与第二乘积之和确定为分类模型的损失。
可选地,上述第二权重可以默认取值为1,并对该第一权重取值为λ。
示意性的,计算分类模型的损失的方式为:
L=L
s+λL
R
其中,L为分类模型的损失,L
s为边界损失值,L
R为超球体半径损失R loss,λ为控制超球体半径损失在分类模型中占的比重的第一权重。
上述的分类模型训练方法,根据上次训练的分类模型的损失计算变化量,根据变化量和上次训练的超球体半径得到本次训练的超球体半径,即本次训练的超球体半径是学习得到的,并对学习到的超球体半径采用超球体半径损失约束,防止超球体半径学得过大或过小。该方法有效解决了超球体半径的手动设置的问题,减少了调参难度,增强了训练的通用性,并且也提升了训练效果。
上述的分类模型训练方法,根据当前样本的分类效果自动调节边界值,保证在分类效果不好时,加入小的边界值,这种自适应边界值的选取既保证了网络在训练后期学到更好映射的特征,同时又大大降低了训练开始时的训练难度。
传统的方法对网络最后层的输出特征进行L2规范化,然后将规范化的特征再投影到一个半径为R的超球体投影空间上,但是这个超球体半径R的大小选择没有给出合理的方法,都是根据经验固定一个值,但是实际中,超球体半径的大小依赖于训练数据,在不同的训练数据上超球体半径的取值波动较大,且不同的超球体半径对训练结果影响也很大,因此手动选择一个固定值,给调参带来很大不便,也很难调出一个最优超球体半径,这直接影响到训练效果。同时,在计算样本softmax loss时,强行加入一个固定边界值,希望通过该值来增加训练难度,使训练得到的特征映射更好,但是实际中,在训练刚开始,模型的分类效果非常不好,如果直接加入一个固定边界(margin)值会使训练loss非常大,会导致训练不收敛,给开始时的训练增加了难度。
本实施例中,针对上面两个问题,提出模型参数包括超球体半径损失和边界值。其中边界值为训练样本与对应类别的边界值。
如图3和图4所示,分类模型训练方法包括以下步骤:
S302,提取训练样本的多维特征向量。
分类模型的训练,具体是向网络输入足够多的样本,通过一定算法调整分类模型的结构,使分类模型的输出与预期值相符。本实施中的训练样本是分类模型训练所需样本数据,可以为带标注的图像、声音或文本等等。
S304,将多维特征向量进行L2规范化,得到规范化的多维特征向量。
可选地,基于L2范数对多维特征向量约束,得到规范化的多维特征向量。L2规范化的目的在于使样本的多维特征单位化。可选地,计算规范化的多给特征向量的方式包括:
S306,获取根据上次训练分类模型的损失计算得到的分类模型的变化量,根据变化量和上次训练所采用的超球体特征投影空间的空间半径,计算本次训练的超球体特征投影空间的空间半径。
可选地,在每次进行投影前,根据上次训练时分类模型的损失自适应学习超球体半径。
可选地,分类模型的变化量根据上次分类模型的损失计算得到。上次分类模型的输出结果中,将概率最大的类别作为预测类别,根据预测类别与实际类别可确定预测结果的准确度,预测结果越准确,则分类模型的损失越小,分类模型的变化量越小,预测结果越偏离,则分类模型的损失越大,分类模型的变化量越大。其中,变化量具体为上一次训练反向传播时,根据损失计算得到各参数的变化量,即△量。
根据变化量和上一次训练所采用的超球体特征投影空间的空间半径,计算本次训练的超球体特征投影空间的空间半径。变化量能够表示参数变化量,当变化量变大时,表示参数的调节幅度变大,此时将特征向量投影至固定半径的 超球体特征投影空间,各特征之间的距离密集,不利于特征分类。本申请通过根据变化量自适应学习超球体半径,调节了特征空间的大小,使得特征在超球体特征投影空间投影的更分散,促进特征更好的分类,降低本次训练的分类模型的损失。
S308,根据本次训练的超球体特征投影空间的空间半径,将多维特征向量投影至超球体特征投影空间,得到投影特征。
可选地,根据超球体特征投影空间的半径进行投影的方式,包括:
S310,对分类模型的全连接层参数进行L2规范化,得到规范化后的全连接层参数。
为了保证训练优化集中于对向量角度的优化,本发明中对特征输入下一层的全连接层参数也进行了L2规范化,规范化公式如下:
S312,将投影特征输入分类模型的全连接层,得到分类模型对训练样本的输出结果。
全连接层的作用是将投影特征进行整合,根据全连接层的输入(即投影特征向量)和全连接层的参数,获取样本的高层含义,即全局特征向量,之后用于分类。全连接层(fully connected layers,FC)在整个卷积神经网络中起到“分类器”的作用。
分类器即分类模型的softmax层,softmax的输入是T*1的向量,输出也是T*1的向量,这个向量的每个值表示这个样本属于每个类的概率。即softmax层的输出结果为该样本属于各个类的概率。
投影后的特征与规范化后的全连接层参数相乘得到样本的分类结果响应,具体实现公式如下:
S314,结合输出结果、类别信息以及分类模型的模型参数计算分类模型在训练过程中的损失。
可选地,该模型参数中包括超球体半径损失和边界值。
可选地,超球体半径损失为分类模型损失的一部分,本申请通过引入超球体半径损失,对学习到的超球体半径R值进行约束,能够引导超球体半径R值不要学得过大或过小。
S316,结合损失对分类模型进行反向传播优化,得到优化后的分类模型。
本实施例中,超球体的空间半径由网络自身学习得到,并对学习到的超球体半径进行约束,防止R值学得过大或过小,有效解决了超球体半径的手动设置,减少了调参难度,增强了训练的通用性,并且也提升了训练效果;在对softmax loss加入margin时,根据当前样本的分类效果自动调节边界值,保证在分类效果不好时,加入小的边界值,这种自适应边界的选取既保证了网络在训练后期学到更好映射的特征,同时又大大降低了训练开始时的训练难度。
在一个实施例中,利用分类模型的训练方法训练用于人脸识别的分类模型,请参考图5,训练的过程包括以下步骤:
S1,将带标记的人脸图像输入至基于神经网络建立的分类模型,得到人脸图像的多维特征向量。
S2,将多维特征向量投影至超球体特征投影空间,得到投影特征。
S3,将投影特征输入分类模型的全连接层,得到分类模型对训练样本的输出结果。
S4,根据输出结果、训练样本的实际类别及模型参数,计算分类模型的损失。
S5,根据损失进行反向传播优化分类模型,并基于优化的分类模型进行训练直到达到训练停止条件,得到用于人脸识别的分类模型。
基于得到的分类模型,进行人脸识别,可选地,获取待识别的人脸图像,将待识别的人脸图像输入分类模型,通过分类模型得到待识别人脸图像的识别结果。
下面,以分类模型应用于人脸识别为例,分别采用三种方式对人脸识别模型进行训练,以对本申请的分类模型训练方法的效果进行说明。第一种方式为: 固定超球体半径R为30和不加入自适应边界值(margin)的方法,第二种方式为学习超球体半径R和不加入自适应(margin)的方法;第三种方式为学习超球体半径R和加入自适应(margin)的方法。
图6为在三种方式下模型评估数据集上的分类精度变化曲线,通过图6,可以看出,第三种方式的效果最好。
表1为实际业务数据中测试结果,实际业务数据集中包含了1:1实验数据和1:N实验数据,这两种实验分别对应人脸核身业务和人脸识别业务。
表1.实际业务评估集信息
表2. 1:1人脸对比实验结果
表3. 1:N人脸识别实验结果
表中far(false acceptance rate)代表错误接受率,Top1代表首次命中率。从表中的对比结果可以看出,无论是1:1人脸对比试验还是1:N人脸识别实验,方法3在相同的far值下正确通过率最高。
以上实验结果充分证明了本申请中所提的分类模型训练方法在人脸识别领域非常大的效果,有效提高人脸识别效果,能广泛用于公共安全、金融、电子政务等很多与人脸识别技术相关的产品中。
在另一个实施例中,提供一种人脸识别训练装置,如图7所示,包括:
获取模块710,用于获取待识别的人脸图像;
输入模块720,用于将所述人脸图像输入分类模型,通过所述分类模型得到所述待识别人脸图像的识别结果;
训练模块730,用于通过将标注有类别信息的训练样本输入至所述分类模型,输出得到所述训练样本的输出结果后,结合所述输出结果、所述类别信息以及所述分类模型的模型参数计算所述分类模型在训练过程中的损失,并结合所述损失对所述分类模型进行反向传播优化后得到的。
在一个可选的实施例中,所述损失中包括超球体半径损失和边界损失中的至少一种;
其中,所述分类模型中包括超球体特征投影空间,所述超球体特征投影空间对应有空间半径,所述超球体半径损失用于表示所述超球体特征投影空间对应的所述空间半径的损失;
所述边界损失用于表示所述分类模型在识别过程中的附带损失。
在一个可选的实施例中,所述损失中包括所述超球体半径损失;
所述训练模块730,还用于获取上次训练所述分类模型时计算得到的损失计算所述分类模型的变化量;根据所述变化量和上次训练所采用的所述空间半径,计算本次训练所应用的所述超球体特征投影空间的所述空间半径;根据本次训练所应用的所述超球体特征的所述空间半径计算所述超球体半径损失。
在一个可选的实施例中,所述损失中包括所述边界损失;
所述训练模块730,还用于根据所述训练样本的输出结果,确定的所述训练样本与所述类别信息对应类别的余弦相似度;根据所述余弦相似度计算所述训练样本与所述对应类别的边界值;根据所述边界值和所述输出结果计算所述边界损失。
在一个可选的实施例中,所述输出结果中包括所述训练样本在所述超球体特征投影空间中的投影特征;
所述训练模块730,还用于根据所述投影特征、所述训练样本的所述对应类别、所述边界值以及所述余弦相似度,计算所述边界损失。
在一个可选的实施例中,所述训练模块730,还用于根据本次训练所应用的所述超球体特征投影空间的所述空间半径,将所述训练样本的多维特征向量投影至所述超球体特征投影空间,得到所述投影特征。
在一个可选的实施例中,当所述损失中包括所述超球体半径损失和所述边界损失时,所述训练模块730,还用于根据所述超球体半径损失和所述边界损失, 得到所述分类模型的损失。
在一个可选的实施例中,所述训练模块730,还用于确定所述超球体半径损失与第一权重的第一乘积和所述边界损失与第二权重的第二乘积;将所述第一乘积与所述第二乘积之和确定为所述分类模型的损失。
在一个可选的实施例中,所述训练模块730,还用于将所述多维特征向量进行L2规范化,得到规范化的多维特征向量;将所述规范化的多维特征向量投影至所述超球体特征投影空间,得到所述投影特征。
在一个可选的实施例中,所述分类模型中包括全连接层;
所述训练模块730,还用于对所述全连接层的参数进行L2规范化,得到规范化后的全连接层参数;将所述规范化后的所述全连接层参数应用于所述全连接层。
可选地,本申请实施例还提供了一种分类模型训练装置,如图8所示,该装置包括:
输入模块810,用于将标注有类别信息的训练样本输入至分类模型,输出得到所述训练样本的输出结果;
损失模块820,用于结合所述输出结果、所述类别信息以及所述分类模型的模型参数计算所述分类模型在训练过程中的损失;
迭代模块830,用于结合所述损失对所述分类模型进行反向传播优化,得到优化后的所述分类模型。
图9示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是服务器。如图9所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现分类模型训练方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行分类模型训练方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件, 或者具有不同的部件布置。
在一个实施例中,本申请提供的分类模型训练装置可以实现为一种计算机程序的形式,计算机程序可在如图9所示的计算机设备上运行。计算机设备的存储器中可存储组成该分类模型训练装置的各个程序模块,比如,图7所示的获取模块、输入模块和训练模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的分类模型训练方法中的步骤。
例如,图9所示的计算机设备可以通过如图8所示的分类模型训练装置中的输入模块执行将训练样本输入至基于神经网络建立的分类模型,得到所述训练样本的多维特征向量的步骤。计算机设备可通过投影模块执行将所述多维特征向量投影至超球体特征投影空间,得到投影特征的步骤。计算机设备可通过输出模块执行将所述投影特征输入所述分类模型的全连接层,得到所述分类模型对所述训练样本的输出结果的步骤。
一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下的步骤:
获取待识别的人脸图像;
将所述人脸图像输入分类模型,通过所述分类模型得到所述待识别人脸图像的识别结果;
其中,所述分类模型是通过将标注有类别信息的训练样本输入至所述分类模型,输出得到所述训练样本的输出结果后,结合所述输出结果、所述类别信息以及所述分类模型的模型参数计算所述分类模型在训练过程中的损失,并结合所述损失对所述分类模型进行反向传播优化后得到的。
在一个可选的实施例中,所述损失中包括超球体半径损失和边界损失中的至少一种;
其中,所述分类模型中包括超球体特征投影空间,所述模型参数中包括所述超球体特征投影空间对应的空间半径,所述超球体半径损失用于表示所述超球体特征投影空间对应的所述空间半径的损失;
所述边界损失用于表示所述分类模型在识别过程中的附带损失,所述模型参数中包括所述样本图像与所述分类模型中的类别的边界值。
在一个可选的实施例中,所述损失中包括所述超球体半径损失;
所述将标注有类别信息的训练样本输入至所述分类模型之前,包括:
获取上次训练所述分类模型时计算得到的损失计算所述分类模型的变化量;
根据所述变化量和上次训练所采用的所述空间半径,计算本次训练所应用的所述超球体特征投影空间的所述空间半径;
所述计算所述分类模型在训练过程中的损失,包括:
根据本次训练所应用的所述超球体特征的所述空间半径计算所述超球体半径损失。
在一个可选的实施例中,所述损失中包括所述边界损失;
所述计算所述分类模型在训练过程中的损失,包括:
根据所述训练样本的输出结果,确定的所述训练样本与所述类别信息对应类别的余弦相似度;
根据所述余弦相似度计算所述训练样本与所述对应类别的边界值;
根据所述边界值和所述输出结果计算所述边界损失。
在一个可选的实施例中,所述输出结果中包括所述训练样本在所述超球体特征投影空间中的投影特征;
所述根据所述边界值和所述输出结果计算所述边界损失,包括:
根据所述投影特征、所述训练样本的所述对应类别、所述边界值以及所述余弦相似度,计算所述边界损失。
在一个可选的实施例中,所述投影特征的确定方法,包括:
根据本次训练所应用的所述超球体特征投影空间的所述空间半径,将所述训练样本的多维特征向量投影至所述超球体特征投影空间,得到所述投影特征。
在一个可选的实施例中,当所述损失中包括所述超球体半径损失和所述边界损失时,所述计算所述分类模型在训练过程中的损失,包括:
根据所述超球体半径损失和所述边界损失,得到所述分类模型的损失。
在一个可选的实施例中,所述根据所述超球体半径损失和所述边界损失,得到所述分类模型的损失,包括:
确定所述超球体半径损失与第一权重的第一乘积和所述边界损失与第二权重的第二乘积;
将所述第一乘积与所述第二乘积之和确定为所述分类模型的损失。
在一个可选的实施例中,所述将所述训练样本的多维特征向量投影至所述 超球体特征投影空间,得到所述投影特征,还包括:
将所述多维特征向量进行L2规范化,得到规范化的多维特征向量;
将所述规范化的多维特征向量投影至所述超球体特征投影空间,得到所述投影特征。
在一个可选的实施例中,所述分类模型中包括全连接层;
所述将标注有类别信息的训练样本输入至所述分类模型,输出得到所述训练样本的输出结果之前,还包括:
对所述全连接层的参数进行L2规范化,得到规范化后的全连接层参数;
将所述规范化后的所述全连接层参数应用于所述全连接层。
上述的计算机可读存储介质,根据训练样本的输出结果,调整分类模型的模型参数,在传统的softmax loss的基础上,考虑了其它的模型参数,并结合softmaxs loss和模型参数,计算分类模型的损失,因而本申请的方法得到的分类模型的损失在训练过程中是不断下降的,避免出现训练过程中,损失长时间不下降的问题,从而提高了分类模型的训练效率。
本申请实施例还提供一种计算机设备,该计算机设备包括存储器和处理器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并实现上述人脸识别方法及分类模型训练方法。
本申请实施例还提供一种计算机可读存储介质,该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述人脸识别方法及分类模型训练方法。
本申请还提供了一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行上述各个方法实施例提供的上述人脸识别方法及分类模型训练方法。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,该计算机可读存储介质可以是上述实施例中的存储器中所包含的计 算机可读存储介质;也可以是单独存在,未装配入终端中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述人脸识别方法及分类模型训练方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance Random Access Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (24)
- 一种人脸识别方法,其特征在于,应用于服务器中,所述方法包括:获取待识别的人脸图像;将所述人脸图像输入分类模型,通过所述分类模型得到所述待识别人脸图像的识别结果;其中,所述分类模型是通过将标注有类别信息的训练样本输入至所述分类模型,输出得到所述训练样本的输出结果后,结合所述输出结果、所述类别信息以及所述分类模型的模型参数计算所述分类模型在训练过程中的损失,并结合所述损失对所述分类模型进行反向传播优化后得到的。
- 根据权利要求1所述的方法,其特征在于,所述损失中包括超球体半径损失和边界损失中的至少一种;其中,所述分类模型中包括超球体特征投影空间,所述模型参数中包括所述超球体特征投影空间对应的空间半径,所述超球体半径损失用于表示所述超球体特征投影空间对应的所述空间半径的损失;所述边界损失用于表示所述分类模型在识别过程中的附带损失,所述模型参数中包括所述样本图像与所述分类模型中的类别的边界值。
- 根据权利要求2所述的方法,其特征在于,所述损失中包括所述超球体半径损失;所述将标注有类别信息的训练样本输入至所述分类模型之前,包括:获取上次训练所述分类模型时计算得到的损失计算所述分类模型的变化量;根据所述变化量和上次训练所采用的所述空间半径,计算本次训练所应用的所述超球体特征投影空间的所述空间半径;所述计算所述分类模型在训练过程中的损失,包括:根据本次训练所应用的所述超球体特征的所述空间半径计算所述超球体半径损失。
- 根据权利要求2所述的方法,其特征在于,所述损失中包括所述边界损 失;所述计算所述分类模型在训练过程中的损失,包括:根据所述训练样本的输出结果,确定的所述训练样本与所述类别信息对应类别的余弦相似度;根据所述余弦相似度计算所述训练样本与所述对应类别的边界值;根据所述边界值和所述输出结果计算所述边界损失。
- 根据权利要求4所述的方法,其特征在于,所述输出结果中包括所述训练样本在所述超球体特征投影空间中的投影特征;所述根据所述边界值和所述输出结果计算所述边界损失,包括:根据所述投影特征、所述训练样本的所述对应类别、所述边界值以及所述余弦相似度,计算所述边界损失。
- 根据权利要求5所述的方法,其特征在于,所述投影特征的确定方法,包括:根据本次训练所应用的所述超球体特征投影空间的所述空间半径,将所述训练样本的多维特征向量投影至所述超球体特征投影空间,得到所述投影特征。
- 根据所述权利要求2至6任一所述的方法,其特征在于,当所述损失中包括所述超球体半径损失和所述边界损失时,所述计算所述分类模型在训练过程中的损失,包括:根据所述超球体半径损失和所述边界损失,得到所述分类模型的损失。
- 根据权利要求7所述的方法,其特征在于,所述根据所述超球体半径损失和所述边界损失,得到所述分类模型的损失,包括:确定所述超球体半径损失与第一权重的第一乘积和所述边界损失与第二权重的第二乘积;将所述第一乘积与所述第二乘积之和确定为所述分类模型的损失。
- 根据权利要求6所述的方法,其特征在于,所述将所述训练样本的多维 特征向量投影至所述超球体特征投影空间,得到所述投影特征,还包括:将所述多维特征向量进行L2规范化,得到规范化的多维特征向量;将所述规范化的多维特征向量投影至所述超球体特征投影空间,得到所述投影特征。
- 根据权利要求1至6任一所述的方法,其特征在于,所述分类模型中包括全连接层;所述将标注有类别信息的训练样本输入至所述分类模型,输出得到所述训练样本的输出结果之前,还包括:对所述全连接层的参数进行L2规范化,得到规范化后的全连接层参数;将所述规范化后的所述全连接层参数应用于所述全连接层。
- 一种分类模型训练方法,其特征在于,应用于服务器中,所述方法包括:将标注有类别信息的训练样本输入至分类模型,输出得到所述训练样本的输出结果;结合所述输出结果、所述类别信息以及所述分类模型的模型参数计算所述分类模型在训练过程中的损失;结合所述损失对所述分类模型进行反向传播优化,得到优化后的所述分类模型。
- 一种人脸识别装置,其特征在于,应用于服务器中,所述装置包括:获取模块,用于获取待识别的人脸图像;输入模块,用于将所述人脸图像输入分类模型,通过所述分类模型得到所述待识别人脸图像的识别结果;训练模块,用于通过将标注有类别信息的训练样本输入至所述分类模型,输出得到所述训练样本的输出结果后,结合所述输出结果、所述类别信息以及所述分类模型的模型参数计算所述分类模型在训练过程中的损失,并结合所述损失对所述分类模型进行反向传播优化后得到的。
- 根据权利要求12所述的装置,其特征在于,所述损失中包括超球体半径损失和边界损失中的至少一种;其中,所述分类模型中包括超球体特征投影空间,所述模型参数中包括所述超球体特征投影空间对应的空间半径,所述超球体半径损失用于表示所述超球体特征投影空间对应的所述空间半径的损失;所述边界损失用于表示所述分类模型在识别过程中的附带损失,所述模型参数中包括所述样本图像与所述分类模型中的类别的边界值。
- 根据权利要求13所述的装置,其特征在于,所述损失中包括所述超球体半径损失;所述训练模块,还用于获取上次训练所述分类模型时计算得到的损失计算所述分类模型的变化量;根据所述变化量和上次训练所采用的所述空间半径,计算本次训练所应用的所述超球体特征投影空间的所述空间半径;根据本次训练所应用的所述超球体特征的所述空间半径计算所述超球体半径损失。
- 根据权利要求13所述的装置,其特征在于,所述损失中包括所述边界损失;所述训练模块,还用于根据所述训练样本的输出结果,确定的所述训练样本与所述类别信息对应类别的余弦相似度;根据所述余弦相似度计算所述训练样本与所述对应类别的边界值;根据所述边界值和所述输出结果计算所述边界损失。
- 根据权利要求15所述的装置,其特征在于,所述输出结果中包括所述训练样本在所述超球体特征投影空间中的投影特征;所述训练模块,还用于根据所述投影特征、所述训练样本的所述对应类别、所述边界值以及所述余弦相似度,计算所述边界损失。
- 根据权利要求16所述的装置,其特征在于,所述训练模块,还用于根据本次训练所应用的所述超球体特征投影空间的所述空间半径,将所述训练样本的多维特征向量投影至所述超球体特征投影空间,得到所述投影特征。
- 根据所述权利要求13至17任一所述的装置,其特征在于,当所述损失中包括所述超球体半径损失和所述边界损失时,所述训练模块,还用于根据所述超球体半径损失和所述边界损失,得到所述分类模型的损失。
- 根据权利要求18所述的装置,其特征在于,所述训练模块,还用于确定所述超球体半径损失与第一权重的第一乘积和所述边界损失与第二权重的第二乘积;将所述第一乘积与所述第二乘积之和确定为所述分类模型的损失。
- 根据权利要求17所述的装置,其特征在于,所述训练模块,还用于将所述多维特征向量进行L2规范化,得到规范化的多维特征向量;将所述规范化的多维特征向量投影至所述超球体特征投影空间,得到所述投影特征。
- 根据权利要求12至17任一所述的装置,其特征在于,所述分类模型中包括全连接层;所述训练模块,还用于对所述全连接层的参数进行L2规范化,得到规范化后的全连接层参数;将所述规范化后的所述全连接层参数应用于所述全连接层。
- 一种分类模型训练装置,其特征在于,应用于服务器中,所述装置包括:输入模块,用于将标注有类别信息的训练样本输入至分类模型,输出得到所述训练样本的输出结果;损失模块,用于结合所述输出结果、所述类别信息以及所述分类模型的模型参数计算所述分类模型在训练过程中的损失;迭代模块,用于结合所述损失对所述分类模型进行反向传播优化,得到优化后的所述分类模型。
- 一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。
- 一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/927,812 US11335124B2 (en) | 2018-06-05 | 2020-07-13 | Face recognition method and apparatus, classification model training method and apparatus, storage medium and computer device |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810566938.8 | 2018-06-05 | ||
CN201810566938.8A CN108846340B (zh) | 2018-06-05 | 2018-06-05 | 人脸识别方法、装置及分类模型训练方法、装置、存储介质和计算机设备 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US16/927,812 Continuation US11335124B2 (en) | 2018-06-05 | 2020-07-13 | Face recognition method and apparatus, classification model training method and apparatus, storage medium and computer device |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2019233226A1 true WO2019233226A1 (zh) | 2019-12-12 |
Family
ID=64210632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2019/085462 WO2019233226A1 (zh) | 2018-06-05 | 2019-05-05 | 人脸识别方法、分类模型训练方法、装置、存储介质和计算机设备 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11335124B2 (zh) |
CN (1) | CN108846340B (zh) |
WO (1) | WO2019233226A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428552A (zh) * | 2019-12-31 | 2020-07-17 | 深圳数联天下智能科技有限公司 | 黑眼圈识别方法、装置、计算机设备和存储介质 |
CN111428553A (zh) * | 2019-12-31 | 2020-07-17 | 深圳数联天下智能科技有限公司 | 人脸色素斑识别方法、装置、计算机设备和存储介质 |
CN112101542A (zh) * | 2020-07-24 | 2020-12-18 | 北京沃东天骏信息技术有限公司 | 机器学习模型的训练方法、装置、人脸的识别方法和装置 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108846340B (zh) | 2018-06-05 | 2023-07-25 | 腾讯科技(深圳)有限公司 | 人脸识别方法、装置及分类模型训练方法、装置、存储介质和计算机设备 |
CN111507467A (zh) * | 2019-01-31 | 2020-08-07 | 北京奇虎科技有限公司 | 神经网络模型的训练方法、装置、计算机设备及存储介质 |
KR20210069467A (ko) * | 2019-12-03 | 2021-06-11 | 삼성전자주식회사 | 뉴럴 네트워크의 학습 방법 및 장치와 뉴럴 네트워크를 이용한 인증 방법 및 장치 |
CN111242222B (zh) * | 2020-01-14 | 2023-12-19 | 北京迈格威科技有限公司 | 分类模型的训练方法、图像处理方法及装置 |
CN111428874B (zh) * | 2020-02-29 | 2024-07-12 | 平安科技(深圳)有限公司 | 风控方法、电子装置及计算机可读存储介质 |
CN111126577A (zh) * | 2020-03-30 | 2020-05-08 | 北京精诊医疗科技有限公司 | 一种针对不均衡样本的损失函数设计方法 |
CN112446305A (zh) * | 2020-11-10 | 2021-03-05 | 云南联合视觉科技有限公司 | 一种基于分类权重等距分布损失模型的行人重识别方法 |
CN112597823A (zh) * | 2020-12-07 | 2021-04-02 | 深延科技(北京)有限公司 | 注意力识别方法、装置、电子设备及存储介质 |
CN113111953B (zh) * | 2021-04-20 | 2022-08-26 | 深圳吉祥星科技股份有限公司 | 一种投影画质处理装置 |
CN113191489B (zh) * | 2021-04-30 | 2023-04-18 | 华为技术有限公司 | 二值神经网络模型的训练方法、图像处理方法和装置 |
CN113553577B (zh) * | 2021-06-01 | 2023-03-24 | 中国人民解放军战略支援部队信息工程大学 | 基于超球面变分自动编码器的未知用户恶意行为检测方法及系统 |
CN117391646B (zh) * | 2023-12-11 | 2024-03-22 | 深圳市伊登软件有限公司 | 一种协同创新管理系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140023269A1 (en) * | 2012-07-17 | 2014-01-23 | Samsung Electronics Co., Ltd. | Feature descriptor for robust facial expression recognition |
CN106203331A (zh) * | 2016-07-08 | 2016-12-07 | 苏州平江历史街区保护整治有限责任公司 | 一种基于卷积神经网络的人群密度估算方法 |
CN106548210A (zh) * | 2016-10-31 | 2017-03-29 | 腾讯科技(深圳)有限公司 | 机器学习模型训练方法及装置 |
CN107563279A (zh) * | 2017-07-22 | 2018-01-09 | 复旦大学 | 针对人体属性分类的自适应权重调整的模型训练方法 |
CN108846340A (zh) * | 2018-06-05 | 2018-11-20 | 腾讯科技(深圳)有限公司 | 人脸识别方法、装置及分类模型训练方法、装置、存储介质和计算机设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120314916A1 (en) * | 2011-06-13 | 2012-12-13 | Reagan Inventions, Llc | Identifying and tagging objects within a digital image |
CN103679160B (zh) * | 2014-01-03 | 2017-03-22 | 苏州大学 | 一种人脸识别方法和装置 |
CN104463211A (zh) * | 2014-12-08 | 2015-03-25 | 天津大学 | 基于最大球心距的支持向量描述方法 |
CN107871100B (zh) * | 2016-09-23 | 2021-07-06 | 北京眼神科技有限公司 | 人脸模型的训练方法和装置、人脸认证方法和装置 |
-
2018
- 2018-06-05 CN CN201810566938.8A patent/CN108846340B/zh active Active
-
2019
- 2019-05-05 WO PCT/CN2019/085462 patent/WO2019233226A1/zh active Application Filing
-
2020
- 2020-07-13 US US16/927,812 patent/US11335124B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140023269A1 (en) * | 2012-07-17 | 2014-01-23 | Samsung Electronics Co., Ltd. | Feature descriptor for robust facial expression recognition |
CN106203331A (zh) * | 2016-07-08 | 2016-12-07 | 苏州平江历史街区保护整治有限责任公司 | 一种基于卷积神经网络的人群密度估算方法 |
CN106548210A (zh) * | 2016-10-31 | 2017-03-29 | 腾讯科技(深圳)有限公司 | 机器学习模型训练方法及装置 |
CN107563279A (zh) * | 2017-07-22 | 2018-01-09 | 复旦大学 | 针对人体属性分类的自适应权重调整的模型训练方法 |
CN108846340A (zh) * | 2018-06-05 | 2018-11-20 | 腾讯科技(深圳)有限公司 | 人脸识别方法、装置及分类模型训练方法、装置、存储介质和计算机设备 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428552A (zh) * | 2019-12-31 | 2020-07-17 | 深圳数联天下智能科技有限公司 | 黑眼圈识别方法、装置、计算机设备和存储介质 |
CN111428553A (zh) * | 2019-12-31 | 2020-07-17 | 深圳数联天下智能科技有限公司 | 人脸色素斑识别方法、装置、计算机设备和存储介质 |
CN111428552B (zh) * | 2019-12-31 | 2022-07-15 | 深圳数联天下智能科技有限公司 | 黑眼圈识别方法、装置、计算机设备和存储介质 |
CN112101542A (zh) * | 2020-07-24 | 2020-12-18 | 北京沃东天骏信息技术有限公司 | 机器学习模型的训练方法、装置、人脸的识别方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108846340A (zh) | 2018-11-20 |
US20200342214A1 (en) | 2020-10-29 |
CN108846340B (zh) | 2023-07-25 |
US11335124B2 (en) | 2022-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019233226A1 (zh) | 人脸识别方法、分类模型训练方法、装置、存储介质和计算机设备 | |
US11893781B2 (en) | Dual deep learning architecture for machine-learning systems | |
WO2019100724A1 (zh) | 训练多标签分类模型的方法和装置 | |
US20190279089A1 (en) | Method and apparatus for neural network pruning | |
US11429860B2 (en) | Learning student DNN via output distribution | |
US11436497B2 (en) | System and method for optimization of deep learning model | |
WO2020232877A1 (zh) | 一种问题答案选取方法、装置、计算机设备及存储介质 | |
US20190258925A1 (en) | Performing attribute-aware based tasks via an attention-controlled neural network | |
WO2022042123A1 (zh) | 图像识别模型生成方法、装置、计算机设备和存储介质 | |
WO2021184902A1 (zh) | 图像分类方法、装置、及其训练方法、装置、设备、介质 | |
CN111507419A (zh) | 图像分类模型的训练方法及装置 | |
US20230021551A1 (en) | Using training images and scaled training images to train an image segmentation model | |
WO2024022082A1 (zh) | 信息分类的方法、装置、设备和介质 | |
WO2020195940A1 (ja) | ニューラルネットワークのモデル縮約装置 | |
CN113011532A (zh) | 分类模型训练方法、装置、计算设备及存储介质 | |
CN112749737A (zh) | 图像分类方法及装置、电子设备、存储介质 | |
CN111340245A (zh) | 一种模型训练方法及系统 | |
CN114241234A (zh) | 细粒度图像分类方法、装置、设备及介质 | |
CN114187465A (zh) | 分类模型的训练方法、装置、电子设备及存储介质 | |
CN117056721A (zh) | 模型参数的调整方法、装置、模型预测方法、设备及介质 | |
US7933449B2 (en) | Pattern recognition method | |
US20220292812A1 (en) | Zero-shot dynamic embeddings for photo search | |
CN111857697A (zh) | 一种基于认知ai的图形化编程实现方法及装置 | |
US20240161245A1 (en) | Image optimization | |
CN117669738B (zh) | 引擎更新方法、处理方法、装置、设备、介质及机器人 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19814077 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19814077 Country of ref document: EP Kind code of ref document: A1 |