WO2020037898A1 - 人脸特征点检测方法、装置、计算机设备及存储介质 - Google Patents

人脸特征点检测方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
WO2020037898A1
WO2020037898A1 PCT/CN2018/120857 CN2018120857W WO2020037898A1 WO 2020037898 A1 WO2020037898 A1 WO 2020037898A1 CN 2018120857 W CN2018120857 W CN 2018120857W WO 2020037898 A1 WO2020037898 A1 WO 2020037898A1
Authority
WO
WIPO (PCT)
Prior art keywords
picture
face
feature point
preset
convolution
Prior art date
Application number
PCT/CN2018/120857
Other languages
English (en)
French (fr)
Inventor
戴磊
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2020037898A1 publication Critical patent/WO2020037898A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Definitions

  • the present application relates to the field of computers, and in particular, to a method, a device, a computer device, and a storage medium for detecting facial feature points.
  • face recognition has been widely used in various practical applications. Identity verification through face recognition has gradually become a commonly used authentication method.
  • face recognition process the detection of facial feature points is face recognition and Prerequisites and foundations for related applications.
  • the depth model of the small model design method has poor prediction ability and low prediction accuracy, which makes the model unable to accurately locate the feature points of faces such as fuzzy faces, high-angle faces, exaggerated expression faces, and the like.
  • Embodiments of the present application provide a method, a device, a computer device, and a storage medium for detecting facial feature points, so as to solve the problem that the current deep model has a low accuracy rate for predicting facial feature points.
  • a face feature point detection method includes:
  • sample data set includes a face sample picture and face feature point labeling information of each of the face sample pictures
  • the initial face detection model is a set of K parallel convolutional layers, stitching layers, and global pooling layers.
  • a convolutional neural network each of the parallel convolutional layers has a visual perception range of a different preset scale, and K is a positive integer greater than or equal to 3;
  • the face sample pictures in the sample data set are re-divided to obtain a new training data set and a new test data set, and use the new Training the trained face detection model to update the trained face detection model, and using the new test data set to test the trained face detection model, Until the positioning accuracy is greater than or equal to the preset accuracy threshold;
  • the face picture to be detected into the trained face detection model for calculation, and obtaining a feature point prediction result of the face picture, wherein the feature point prediction result includes attribute information of a target feature point and location information.
  • a face feature point detection device includes:
  • a first obtaining module configured to obtain a sample data set, wherein the sample data set includes a face sample picture and face feature point labeling information of each of the face sample pictures;
  • a sample division module configured to divide the sample data set into a training data set and a test data set according to a preset division ratio
  • a model training module is configured to use the training data set to train an initial face detection model to obtain a trained face detection model.
  • the initial face detection model includes K parallel convolutional layers and stitching layers.
  • a convolutional neural network with a global pooling layer, each of the parallel convolutional layers has a visual perception range of a different preset scale, and K is a positive integer greater than or equal to 3;
  • a model test module configured to test the trained face detection model using the test data set, and calculate the accuracy of positioning the face feature points of the trained face detection model according to the test results;
  • a model optimization module configured to re-divide the face sample pictures in the sample data set if the positioning accuracy rate is less than a preset accuracy rate threshold to obtain a new training data set and a new test data set And training the trained face detection model using the new training data set to update the trained face detection model and using the new test data set to train the trained person Testing the face detection model until the positioning accuracy is greater than or equal to the preset accuracy threshold;
  • a training result module configured to, if the positioning accuracy is greater than or equal to the preset accuracy threshold, the trained face detection model having a positioning accuracy greater than or equal to the preset accuracy threshold It is determined as a trained face detection model; a second acquisition module is used to obtain a face picture to be detected;
  • a model prediction module configured to input the face picture to be detected into the trained face detection model for calculation, and obtain a feature point prediction result of the face picture, wherein the feature point prediction result includes a target Attribute information and position information of feature points.
  • a computer device includes a memory, a processor, and computer-readable instructions stored in the memory and executable on the processor, and the processor implements the computer-readable instructions to implement the facial feature points described above. Steps of the detection method.
  • One or more non-volatile readable storage media storing computer-readable instructions, which when executed by one or more processors, cause the one or more processors to execute the above-mentioned facial features Steps of the point detection method.
  • FIG. 1 is a schematic diagram of an application environment of a method for detecting facial feature points in an embodiment of the present application
  • FIG. 2 is a flowchart of a method for detecting a facial feature point in an embodiment of the present application
  • FIG. 3 is a schematic diagram of a network structure of a face detection model including three parallel convolutional layers in a method for detecting facial feature points in an embodiment of the present application;
  • step S8 is a flowchart of step S8 of a method for detecting a facial feature point in an embodiment of the present application
  • FIG. 5 is a flowchart of calculating a facial feature point positioning accuracy rate of a face detection model according to a test result in step S4 of a method for detecting a facial feature point in an embodiment of the present application;
  • step S1 is a flowchart of step S1 in a method for detecting a facial feature point in an embodiment of the present application
  • step S14 is a flowchart of step S14 in a method for detecting a facial feature point in an embodiment of the present application
  • FIG. 8 is a schematic diagram of a facial feature point detection device according to an embodiment of the present application.
  • FIG. 9 is a schematic diagram of a computer device according to an embodiment of the present application.
  • the facial feature point detection method provided in this application can be applied in an application environment as shown in FIG. 1, the application environment includes a server and a client, where the server and the client are connected through a network, the network It can be a wired network or a wireless network.
  • Clients include, but are not limited to, various personal computers, laptops, smartphones, tablets, and portable wearable devices.
  • the server can use an independent server or a server cluster composed of multiple servers. achieve.
  • the client sends the collected sample data set and face pictures to be detected to the server.
  • the server performs model training based on the received sample data set, and uses the trained face detection model to characterize the face pictures to be detected. Point detection.
  • a method for detecting facial feature points is provided.
  • the method is applied to the server in FIG. 1 as an example for description, and the details are as follows:
  • S1 Obtain a sample data set, where the sample data set includes face sample pictures and face feature point annotation information of each face sample picture.
  • the sample data set may be collected in advance and stored in a sample database, and the sample data set includes several face sample pictures and face feature point labeling information of each face sample picture.
  • the face sample picture and the face feature point label information of the face sample picture are associated and stored in the sample data set.
  • the face feature point labeling information may include attribute information and position information of the face feature points.
  • the attribute information is specifically the facial features to which the facial feature points belong, and the position information is specifically the pixel coordinate of the facial feature points in the face sample picture.
  • a specific face feature point labeling information is "eyes, (200, 150)", where "eye” is the feature information to which the face feature points belong, that is, attribute information, and "(200, 150)” is The pixel coordinates of the face feature point in the face sample picture, that is, the position information.
  • S2 Divide the sample data set into a training data set and a test data set according to a preset division ratio.
  • the face sample pictures in the sample data set obtained in step S1 are randomly divided to obtain a training data set and a test data set.
  • the preset division ratio is 3: 2. Assuming that the sample data set contains 1 million face sample pictures, 600,000 face sample pictures are randomly selected from the sample data set as the training data set, and the remaining 400,000 people Face sample pictures are used as the test data set.
  • preset division ratio can be set according to actual application requirements, and there is no limitation here.
  • the initial face detection model is a volume containing K parallel convolutional layers, stitching layers, and global pooling layers. Convolutional neural network, each parallel convolutional layer has a visual perception range of different preset scales, and K is a positive integer greater than or equal to 3.
  • the initial face detection model and the trained face detection model, and the trained face detection model mentioned below all refer to a face detection model including a layered convolutional neural network structure.
  • the convolutional neural network of the face detection model includes K parallel convolutional layers, stitching layers, and global pooling layers, and in each parallel convolutional layer, a convolution kernel with a visual perception range of different preset scales is set, where K The parallel convolution layers are arranged in a preset order.
  • the output data of each parallel convolution layer is used as the input data of the next parallel convolution layer, and the output data of each parallel convolution layer is used as the input data of the stitching layer.
  • the output data of the stitching layer is used as the input data of the global pooling layer.
  • the output data of the global pooling layer is the output result of the face detection model.
  • the output result includes the facial features in the face sample picture predicted by the face detection model. Point attribute information and location information.
  • FIG. 3 is a schematic diagram of a network structure of a face detection model including three parallel convolutional layers.
  • the three parallel convolutional layers are convolutional layer A, convolutional layer B, and convolutional layer C, and the visual perception range of the preset scale corresponding to each parallel convolutional layer is 3 ⁇ 3, 5 ⁇ 5, respectively.
  • a 7 ⁇ 7 convolution kernel is pixels.
  • the face detection model can simultaneously capture The detailed features can improve the expression ability of the face detection model. Furthermore, the pooling calculation of the global pooling layer can make the output result of the face detection model invariant with respect to the position, while avoiding overfitting.
  • This layered convolutional neural network structure can improve the ability of the face detection model to locate the feature points of the face, especially the feature points of faces such as blurred faces, high-angle faces, exaggerated expression faces, etc. Effectively improve the prediction accuracy of face detection models.
  • the initial face detection model when the initial face detection model is trained using the training data set, the face sample pictures in the training data set are input into the initial face detection model, and the initial convolutional neural network structure of the initial face detection model is used. Calculate layer by layer, get the output of the initial face detection model as the test result, and compare the test result with the face feature point annotation information of the face sample picture, and adjust the layered volume based on the result of the comparison learning. The parameters of each layer of the product neural network structure are repeatedly trained and adjusted to obtain a trained face detection model.
  • the input data of the parallel convolutional layer may also be standardized, and the normalization processing may specifically include global normalization (BN) processing and single order Side suppression processing.
  • Global normalization can prevent the gradient from disappearing or exploding, and speed up the training speed.
  • Unilateral suppression processing uses a modified linear unit (ReLU) as the activation function to unilaterally suppress the output after global normalization processing, so that the sparse face detection model can more accurately mine facial feature points. And fit the training data.
  • ReLU modified linear unit
  • the face sample pictures in the test data set are input to the trained face detection model obtained in step S3 for testing, and a test result output by the face feature model is obtained.
  • the test result includes each person in the face sample picture. Predicted position information of face feature points.
  • test result of the face sample picture For each face sample picture, compare the test result of the face sample picture with the actual position information of each face feature point in the face feature point label information of the face sample picture to determine whether the test result is accurate. Obtain the judgment results, and calculate the accuracy rate of the facial feature points of the trained face detection model based on the judgment results of each face sample picture in the test data set.
  • the judgment result may include two values of correct and error.
  • the judgment result is correct, otherwise the judgment result
  • the number of face sample pictures that are judged to be correct in the test data set is counted, and the ratio of this number to the total number of face sample pictures contained in the test data set is used as the positioning accuracy rate.
  • NME normalized mean error
  • step S4 the positioning accuracy obtained in step S4 is compared with a preset accuracy threshold, and if the positioning accuracy is less than the accuracy threshold, it is confirmed that the training of the trained face detection model is not completed, and the training needs to be continued. Face detection model for network parameter tuning.
  • a trained face detection model whose positioning accuracy is greater than or equal to a preset accuracy threshold is a trained face detection model, and the trained face detection model can be used to detect facial feature points.
  • the face picture to be detected may be a face picture input by the user to be identified through the client, and the server obtains the face picture to be detected from the client.
  • the face picture to be detected is input into a trained face detection model and calculated to obtain a feature point prediction result of the face picture, wherein the feature point prediction result includes attribute information and position information of the target feature point.
  • the face picture obtained in step S7 is input into the trained face detection model obtained in step S6, and calculation is performed according to the layered convolutional neural network structure in the trained face detection model to obtain the trained good
  • the output includes the attribute information and position information of the target feature points in the identified face picture to be detected. That is the prediction result of the feature points of the face picture to be detected.
  • a convolutional neural network including a plurality of parallel convolutional layers, a stitching layer, and a global pooling layer is constructed as a face detection model, wherein the parallel convolutional layers have different preset scales of vision Perceptual range, by using parallel visual convolution calculations of different scales in each parallel convolutional layer, and stitching the calculation results of each parallel convolutional layer together through stitching layers, so that the face detection model can simultaneously capture Detail features at different scales, thereby improving the expression ability of the face detection model.
  • the pooling calculation of the global pooling layer can make the output result of the face detection model invariant with respect to the position, while avoiding over-simulation Therefore, using the network structure of the convolutional neural network described above can improve the ability of the face detection model to locate facial feature points, especially for features such as blurred faces, high-angle faces, and exaggerated expression faces.
  • the points can be accurately located, thereby effectively improving the prediction accuracy of the face detection model; on the other hand, by obtaining accurate faces
  • a sample data set consisting of face sample pictures with label annotation information.
  • the sample data set is divided into a training data set and a test data set according to a preset ratio.
  • the face detection model is trained using the training data set, and the test is used.
  • the data set tests the trained face detection model, and then calculates the positioning accuracy of the face detection model according to the test results.
  • the positioning accuracy is used to determine the prediction ability of the trained face detection model.
  • the test data set was adjusted, and the training of the face detection model was continuously optimized until a satisfactory positioning accuracy was achieved. The training optimization of the face detection model was achieved, and the prediction ability of the face detection model was further enhanced.
  • K is equal to 3
  • K parallel convolutional layers include a first convolutional layer, a second convolutional layer, and a third convolutional layer.
  • S81 Standardize the face image to be detected to obtain the first face data.
  • Standardization processing includes global normalization processing and one-sided suppression processing.
  • Global normalization processing is BN processing.
  • Global normalization processing can effectively prevent gradients from disappearing or exploding.
  • One-sided suppression processing uses ReLU as the activation function for global normalization The output image after normalization is unilaterally suppressed to avoid overfitting.
  • first face data is obtained.
  • the first face data obtained in step S81 is input to the first convolution layer for convolution calculation, and the convolution calculation performs convolution transformation on the image matrix of the first face data, and passes the volume of the first convolution layer.
  • the convolution kernel extracts the features of the image matrix and outputs a feature map, which is the first convolution result.
  • step S82 the first convolution result obtained in step S82 is further subjected to normalization processing to obtain second face data.
  • the normalization processing procedure for the first convolution result may adopt the same global normalization processing and one-sided suppression processing as those in step S81, and details are not described herein again.
  • the second face data obtained in step S83 is input to a second convolution layer for convolution calculation, and the convolution calculation performs convolution transformation on the image matrix of the second face data, and passes the volume of the second convolution layer.
  • the convolution kernel extracts the features of the image matrix and outputs a second convolution result.
  • step S84 the second convolution result obtained in step S84 is further subjected to normalization processing to obtain third face data.
  • the normalization processing procedure for the second convolution result may adopt the same global normalization processing and one-sided suppression processing procedure as those in step S81, which will not be repeated here.
  • the third face data obtained in step S85 is input to a third convolution layer for convolution calculation, and the convolution calculation performs convolution transformation on the image matrix of the third face data, and passes the volume of the third convolution layer.
  • the convolution kernel extracts the features of the image matrix and outputs a third convolution result.
  • the size of the convolution kernel of the first convolution layer, the size of the convolution kernel of the second convolution layer, and the size of the convolution kernel of the third convolution layer can be set in advance according to the needs of the actual application. They may be the same or different from each other, and there is no limitation here.
  • the first convolution result obtained in step S82, the second convolution result obtained in step S84, and the third convolution result obtained in step S86 are simultaneously input to a stitching layer for splicing calculation to obtain a convolution output result.
  • S88 Input the convolution output result into the global pooling layer for pooling calculation, and obtain the feature point prediction result of the face image to be detected.
  • the convolution output result obtained in step S87 is input to a global pooling layer for pooling calculation, and a prediction result of a feature point of a face picture to be detected is obtained.
  • the pooling calculation of the global pooling layer can filter out the redundant features and reduce unnecessary parameters. To avoid overfitting.
  • the maximum pooling (Max Pooling) method or the average pooling method is used for pooling calculation.
  • the maximum pooling method is to use the maximum value of the feature map region as the value after the region is pooled.
  • the average pooling method is to calculate the average value of the feature map area as the pooling result of the area.
  • the face detection model when the face detection model includes three parallel convolutional layers, the face images to be detected are standardized, and after obtaining the first face data, the first face data is input into the first convolution layer for Convolution calculation to obtain the first convolution result, and then continue to normalize the first convolution result to obtain the second face data, and then enter the second face data into the second convolution layer for convolution calculation to obtain the first
  • the second convolution result, and then the second convolution result is further subjected to normalization processing to obtain the third face data, and then the third face data is input into the third convolution layer for convolution calculation to obtain the third convolution result.
  • the outputs of the three parallel convolutional layers are input to the stitching layer for stitching calculation to obtain the convolution output result.
  • the convolution output result is input to the global pooling layer for pooling calculation to obtain the feature points of the face image to be detected.
  • the face image to be detected can accurately locate the feature points of the face through the calculation of the network structure of the convolutional neural network described above, especially for blurred faces and high-angle faces Feature points of faces such as exaggerated expression faces can be accurately located, thereby effectively improving the prediction accuracy of the face detection model.
  • step S4 calculating the accuracy of locating the facial feature points of the trained face detection model according to the test results specifically includes the following steps:
  • the test result includes predicted position information of each face feature point in a test sample of a test data set corresponding to the test result, and a normalized mean error (NME) of each test sample is calculated according to the following formula:
  • P is the normalized average error of each test sample
  • N is the actual number of face feature points of the test sample
  • x k is the actual position information of the k-th face feature point of the test sample
  • y k is the The predicted position information of the k -th face feature point in the test result of the test sample
  • is the distance between the actual position and the predicted position of the k-th face feature point
  • d is the face of the test sample Image size.
  • the actual position information and the predicted position information may specifically be coordinate information
  • the face image size may specifically be a pixel area of a face picture.
  • the preset error threshold is averagely divided according to a preset interval value to obtain P sub-thresholds, where P is a positive integer.
  • values from 0 to a preset error threshold are averagely divided according to a preset interval value to obtain P sub-thresholds.
  • the preset error threshold is 0.07 and the preset interval value is 0.001
  • the value between 0 and 0.07 is divided equally at the interval of 0.001 to obtain 70 sub-thresholds.
  • step S41 and step S42 there is no necessary sequential execution order between step S41 and step S42, and it may also be a parallel execution relationship, which is not limited here.
  • S43 Statistically normalize the statistical quantity of the test samples whose average error is less than each sub-threshold, and calculate the percentage of the statistical quantity to the total number of test samples in the test data set corresponding to the test result, to obtain P percentage values.
  • the normalized average error of each test sample obtained in step S41 is compared with each sub-threshold, and the normalized average error is statistically smaller than each sub-threshold according to the comparison result.
  • the statistical number of the test samples is calculated, and the quotient between the statistical number and the total number of test samples in the test data set corresponding to the test result is calculated to obtain P quotients, that is, P percentage values.
  • the preset error threshold is 0.2 and the preset interval value is 0.05
  • P is 4, and the four sub-thresholds are 0.05, 0.1, 0.15, and 0.2, respectively.
  • the test data set corresponding to the test results contains a total of 10 test samples, and the normalized average errors of each test sample are 0.003, 0.12, 0.06, 0.07, 0.23, 0.18, 0.11, 0.04, 0.09, and 0.215.
  • the statistics can be obtained:
  • Normalized average errors less than 0.05 are 0.003 and 0.04, that is, the statistical number of test samples with normalized average errors less than 0.05 is 2;
  • Normalized average errors less than 0.1 are 0.003, 0.075, 0.04, 0.06, 0.07, and 0.09, that is, the statistical number of test samples with normalized average errors less than 0.1 is 6;
  • Normalized average errors less than 0.15 are 0.003, 0.075, 0.04, 0.06, 0.07, 0.09, and 0.11, that is, the statistical number of test samples with normalized average errors less than 0.15 is 7;
  • Normalized average errors less than 0.2 are 0.003, 0.075, 0.04, 0.06, 0.07, 0.09, 0.11, and 0.18, that is, the statistical number of test samples with normalized average errors less than 0.2 is 8;
  • an arithmetic average value of the P percentage values is calculated, and the arithmetic average value is the positioning accuracy rate.
  • the normalized average error of the test samples is calculated, and the preset error threshold is averagely divided according to a preset interval value, and then the statistical number of test samples whose normalized average error is less than each sub-threshold is counted. , And calculate the percentage of the statistical amount to the total number of test samples in the test data set corresponding to the test result, to obtain P percentage values, and use the arithmetic average of the P percentage values as the positioning accuracy rate.
  • the positioning obtained by the calculation method of this embodiment The accuracy rate can objectively and accurately reflect the accuracy of the feature points predicted by the trained face detection model, and then provide an accurate judgment basis for further model training parameter optimization.
  • step S1 obtaining the sample data set specifically includes the following steps:
  • video data is obtained from a preset video source channel, where the video source channel may be video data recorded in a monitoring device, video data stored in a server-side database, video data collected in a video application, and the like.
  • the video source channel may be video data recorded in a monitoring device, video data stored in a server-side database, video data collected in a video application, and the like.
  • the obtained video data and pictures are multiple.
  • S12 Extract the target video frame image from the video data according to a preset frame extraction frequency and a preset maximum number of frames.
  • each video data obtained in step S11 is processed, a frame image is extracted from a preset position of the video data according to a preset frame extraction frequency and a preset maximum frame number, and a target video frame image is obtained.
  • the preset position may be the first frame position of the video data, or may be another position, which is not limited herein.
  • the preset frame extraction frequency can usually be set to randomly extract 1 frame image from every 2 consecutive frames.
  • the preset maximum frame number is usually an empirical value, and its value range can be between 1700 and 1800. But it is not limited to this, the preset frame extraction frequency and the preset maximum number of frames can both be set according to the needs of the actual application, which is not limited here.
  • the preset frame extraction frequency is to randomly extract 1 frame image from every 5 consecutive frames, and the preset maximum number of frames is 1800. If the total number of frames of video data is 2500 frames, Frame extraction starts, and the number of target video frame images is 500 frames.
  • S13 Perform face feature point labeling on the target video frame image and picture, respectively, to obtain face feature point label information and picture face feature point label information of the target video frame image, respectively.
  • Face feature point labeling is performed on each target video frame image obtained in step S12 to obtain face feature point labeling information of each target video frame image, and at the same time, face feature point labeling is performed on the picture obtained in step S11 to obtain each The face feature point label information of each picture, wherein the face feature point label information includes attribute information and position information of the face feature point.
  • the attribute information is specifically the facial features to which the facial feature points belong
  • the position information is specifically the pixel coordinate of the facial feature points in the face sample picture.
  • the combination of a preset facial feature point labeling tool and manual correction is used to realize the facial feature point labeling of the target video frame image and picture, as follows:
  • the preset facial feature point labeling tool may specifically be an existing neural network tool capable of implementing the facial feature point labeling function.
  • the facial feature points include facial features such as ears, eyebrows, eyes, nose, lips, and face shape. .
  • S14 Process the picture according to a preset processing method to obtain the new picture and the face feature point annotation information of the new picture.
  • the preset processing methods include, but are not limited to, horizontal flip, random clockwise rotation, random counterclockwise rotation, panning, zooming, and brightness increase and decrease.
  • a new picture and corresponding facial feature point label information are obtained, which can quickly enrich the sample data set, and does not need to repeat the person in step S13.
  • the process of labeling face feature point labeling information provides rich and diverse face sample pictures for the training and testing of face detection models, ensuring the diversity and balance of samples, and thus better supporting the training and testing of face detection models.
  • S15 Use the target video frame image, picture and new picture as the face sample picture.
  • the target video frame image obtained in step S12, the picture obtained in step S11, and the new picture obtained in step S14 are all taken as the face sample pictures of the sample data set, and the facial feature points of the target video frame image, picture, and new picture
  • the labeling information is the facial feature point labeling information of the face sample picture.
  • the face posture changes in the continuous frame images of the video data are small, so
  • a combination of a preset facial feature point labeling tool and manual correction to mark target feature points on a target video frame image low-cost and accurate labeling can be achieved, and a large amount of accurate sample data can be obtained.
  • the frame extraction frequency When setting the target video frame image, set the frame extraction frequency to avoid insufficient data diversity caused by small changes in the pose and expression of the face in successive multi-frames in the video data, and set a maximum number of frames to avoid long videos dominating the face Detect overfitting of the model; on the other hand, by processing the pictures, the picture data is augmented to the same order of magnitude as the video data.
  • This embodiment realizes that while reducing the labeling cost of a face sample picture, a sample data set containing rich face sample pictures is obtained, which can effectively support the training and testing of the face detection model, thereby improving the accuracy of the face detection model training. Rate and predictive power.
  • step S14 the picture is processed according to a preset processing method, and obtaining the new picture and the face feature point labeling information of the new picture specifically includes the following steps:
  • S141 Perform horizontal flip processing on the picture to obtain the first picture and the face feature point annotation information of the first picture.
  • the picture is horizontally flipped, and the position information of each face feature point in the face feature point annotation information of the picture is adjusted synchronously and correspondingly according to the horizontal flip correspondence relationship to obtain the first picture and the face of the first picture.
  • Feature point annotation information is adjusted synchronously and correspondingly according to the horizontal flip correspondence relationship to obtain the first picture and the face of the first picture.
  • the number of pictures and the first picture are the same. At this time, the sum of the number of pictures and the number of the first pictures is taken as the first number, and the first number is twice the number of pictures.
  • S142 Perform rotation processing on the picture and the first picture respectively according to a preset rotation method to obtain face feature point annotation information of the second picture and the second picture.
  • the picture and the first picture obtained in step S141 are respectively rotated to obtain a second picture, and each face feature point in the face feature point information of the picture and the first picture is labeled.
  • the position information of the second image is adjusted synchronously and correspondingly according to the corresponding relationship of the preset rotation mode, so as to obtain face feature point label information of the second picture.
  • the preset rotation method may specifically be a random rotation clockwise or a random rotation counterclockwise, etc., but it is not limited thereto, and it can be set according to actual application requirements, and is not limited here.
  • the preset rotation modes are clockwise random rotation and counterclockwise random rotation
  • the number of second pictures obtained is 4 times the number of pictures.
  • the number of second pictures and The sum of the first number is used as the second number, and the second number is 6 times the number of pictures.
  • the face rectangles in the picture, the first picture, and the second picture are respectively pan-processed, and then the pan-processed picture, the first picture are processed according to a preset zoom ratio.
  • the face rectangles in the picture and the second picture are scaled to obtain a third picture.
  • each of the facial feature point annotation information is adjusted correspondingly.
  • the preset offset and the preset scaling ratio may be random values within a preset range.
  • S144 According to a preset extraction ratio, randomly select a target picture from the pictures, the first picture, the second picture, and the third picture, and perform random brightness change processing on the target picture to obtain the faces of the fourth picture and the fourth picture.
  • Feature point annotation information According to a preset extraction ratio, randomly select a target picture from the pictures, the first picture, the second picture, and the third picture, and perform random brightness change processing on the target picture to obtain the faces of the fourth picture and the fourth picture.
  • the target picture is randomly selected according to a preset extraction ratio.
  • the selected target picture is subjected to random brightness change processing to obtain a fourth picture, and the face feature point labeling information of the target picture is the face feature point labeling information of the fourth picture.
  • the random brightness change processing includes performing brightness increase or brightness reduction processing on randomly selected pixels, and the increase and decrease amplitudes may be randomly generated or determined by a preset amplitude threshold.
  • the preset extraction ratio can usually be set to 30%, but is not limited to this, and can be specifically set according to the needs of actual applications.
  • S145 Use the first picture, the second picture, the third picture, and the fourth picture as new pictures.
  • the first picture obtained in step S141, the second picture obtained in step S142, the third picture obtained in step S143, and the fourth picture obtained in step S144 are all used as new pictures.
  • the face feature point annotation information of the third and fourth pictures is the face feature point annotation information of the new picture.
  • the number of obtained pictures is 3300
  • the number of new pictures obtained after augmentation by this embodiment is about 50,000, which effectively expands the sample data set.
  • the sample data set can be quickly expanded to improve the acquisition efficiency of the sample data set, and a sample data set containing rich face sample pictures can be effectively supported to train and test the face detection model, thereby Improve the training accuracy and prediction ability of face detection models.
  • a facial feature point detection device corresponds to the facial feature point detection method in the above embodiment in a one-to-one correspondence.
  • the facial feature point detection device includes a first acquisition module 81, a sample division module 82, a model training module 83, a model test module 84, a model optimization module 85, a training result module 86, and a second acquisition module 87.
  • model prediction module 88 The detailed description of each function module is as follows:
  • a first obtaining module 81 configured to obtain a sample data set, where the sample data set includes a face sample picture and face feature point label information of each face sample picture;
  • a sample division module 82 configured to divide the sample data set into a training data set and a test data set according to a preset division ratio
  • a model training module 83 is used to train an initial face detection model using a training data set to obtain a trained face detection model, where the initial face detection model includes K parallel convolutional layers, stitching layers, and global Convolutional neural network of the pooling layer, each parallel convolutional layer has a visual perception range of different preset scales, and K is a positive integer greater than or equal to 3;
  • a model testing module 84 configured to test a trained face detection model using a test data set, and calculate a location accuracy rate of the face feature points of the trained face detection model according to the test results;
  • a model optimization module 85 is configured to re-divide the face sample pictures in the sample data set if the positioning accuracy is less than a preset accuracy threshold, to obtain a new training data set and a new test data set, and use the new
  • the training data set trains the trained face detection model to update the trained face detection model, and uses the new test data set to test the trained face detection model until the positioning accuracy is greater than or equal to a preset Up to the threshold of accuracy;
  • a training result module 86 configured to determine a trained face detection model with a positioning accuracy greater than or equal to a preset accuracy threshold, if the positioning accuracy is greater than or equal to a preset accuracy threshold, as a trained face Detection model
  • a second acquisition module 87 configured to acquire a face picture to be detected
  • a model prediction module 88 is configured to input a face picture to be detected into a trained face detection model for calculation, and obtain a feature point prediction result of the face picture, wherein the feature point prediction result includes attribute information of a target feature point and location information.
  • K is equal to 3
  • K parallel convolution layers include a first convolution layer, a second convolution layer, and a third convolution layer.
  • the model prediction module 88 includes:
  • a first normalization sub-module 881 configured to perform normalization processing on a face picture to be detected to obtain first face data
  • a first convolution calculation submodule 882 configured to input first face data into a first convolution layer and perform convolution calculation to obtain a first convolution result
  • a second normalization submodule 883 configured to perform normalization processing on the first convolution result to obtain second face data
  • a second convolution calculation sub-module 884 configured to input second face data into a second convolution layer and perform convolution calculation to obtain a second convolution result
  • a third normalization submodule 885 configured to perform normalization processing on the second convolution result to obtain third face data
  • a third convolution calculation sub-module 886 configured to input third face data into a third convolution layer and perform convolution calculation to obtain a third convolution result
  • a stitching sub-module 887 configured to input a first convolution result, a second convolution result, and a third convolution result into a stitching layer to perform a stitching calculation to obtain a convolution output result;
  • a pooling sub-module 888 is configured to input a convolution output result into a global pooling layer for pooling calculation, and obtain a feature point prediction result of a face picture to be detected.
  • model test module 84 includes:
  • An error calculation sub-module 841 configured to calculate a normalized average error of each test sample in a test data set corresponding to the test result according to the test result;
  • Threshold segmentation sub-module 842 configured to averagely divide a preset error threshold according to a preset interval value to obtain P sub-thresholds, where P is a positive integer;
  • the proportion calculation sub-module 843 is configured to count the statistics of the test samples whose normalized average error is less than each sub-threshold, and calculate the percentage of the statistics to the total number of test samples in the test data set corresponding to the test results, to obtain P percentage values ;
  • the accuracy rate calculation sub-module 844 is configured to calculate an average value of the P percentage values, and use the average value as the positioning accuracy rate.
  • the first obtaining module 81 includes:
  • a data acquisition submodule 811 configured to acquire video data and pictures
  • a video frame extraction submodule 812 configured to extract a target video frame image from the video data according to a preset frame extraction frequency and a preset maximum number of frames;
  • the labeling sub-module 813 is used for labeling the facial feature points of the target video frame image and the picture, respectively, to obtain the facial feature point labeling information of the target video frame image and the face feature point labeling information of the picture;
  • a picture processing sub-module 814 configured to process pictures according to a preset processing method to obtain new picture and face feature point annotation information of the new picture
  • the sample augmentation sub-module 815 is configured to use the target video frame image, picture, and new picture as the face sample picture.
  • picture processing sub-module 814 includes:
  • a flip sub-module 8141 configured to perform horizontal flip processing on the picture to obtain the first picture and the face feature point label information of the first picture
  • a rotation sub-module 8142 configured to perform rotation processing on the picture and the first picture respectively according to a preset rotation mode, to obtain face feature point annotation information of the second picture and the second picture;
  • a panning and zooming sub-module 8143 is configured to sequentially perform panning and zooming processing on a rectangular frame of a face in a picture, a first picture, and a second picture according to a preset offset and a preset zoom ratio to obtain a third Face feature point annotation information of the picture and the third picture;
  • the brightness processing sub-module 8144 is configured to randomly select a target picture from a picture, a first picture, a second picture, and a third picture according to a preset extraction ratio, and perform random brightness change processing on the target picture to obtain a fourth picture and Face feature point annotation information of the fourth picture;
  • a new sample sub-module 8145 is added to use the first picture, the second picture, the third picture, and the fourth picture as new pictures.
  • Each module in the above-mentioned facial feature point detection device may be implemented in whole or in part by software, hardware, and a combination thereof.
  • the above-mentioned modules may be embedded in the hardware form or independent of the processor in the computer device, or may be stored in the memory of the computer device in the form of software, so that the processor calls and performs the operations corresponding to the above modules.
  • a computer device is provided.
  • the computer device may be a server, and the internal structure diagram may be as shown in FIG. 9.
  • the computer device includes a processor, a memory, a network interface, and a database connected through a system bus.
  • the processor of the computer device is used to provide computing and control capabilities.
  • the memory of the computer device includes a non-volatile storage medium and an internal memory.
  • the non-volatile storage medium stores an operating system, computer-readable instructions, and a database.
  • the internal memory provides an environment for operating the operating system and computer-readable instructions in a non-volatile storage medium.
  • the computer equipment database is used to store the sample data set.
  • the network interface of the computer device is used to communicate with an external terminal through a network connection.
  • the computer-readable instructions are executed by a processor to implement a method for detecting facial feature points.
  • a computer device including a memory, a processor, and computer-readable instructions stored on the memory and executable on the processor.
  • the processor implements the computer-readable instructions to implement the human face in the foregoing embodiment.
  • the steps of the feature point detection method are, for example, steps S1 to S8 shown in FIG. 2.
  • the processor executes the computer-readable instructions, the functions of the modules / units of the facial feature point detection device in the foregoing embodiment are implemented, for example, the functions of modules 81 to 88 shown in FIG. 8. To avoid repetition, we will not repeat them here.
  • one or more non-volatile readable storage media are provided, and computer-readable instructions are stored thereon.
  • the computer-readable instructions are executed by one or more processors, the person in the foregoing method embodiment is implemented.
  • Non-volatile memory may include read-only memory (ROM), programmable ROM (PROM), electrically programmable ROM (EPROM), electrically erasable programmable ROM (EEPROM), or flash memory.
  • Volatile memory can include random access memory (RAM) or external cache memory.
  • RAM is available in various forms, such as static RAM (SRAM), dynamic RAM (DRAM), synchronous DRAM (SDRAM), dual data rate SDRAM (DDRSDRAM), enhanced SDRAM (ESDRAM), synchronous chain Synchlink DRAM (SLDRAM), memory bus (Rambus) direct RAM (RDRAM), direct memory bus dynamic RAM (DRDRAM), and memory bus dynamic RAM (RDRAM).
  • SRAM static RAM
  • DRAM dynamic RAM
  • SDRAM synchronous DRAM
  • DDRSDRAM dual data rate SDRAM
  • ESDRAM enhanced SDRAM
  • SLDRAM synchronous chain Synchlink DRAM
  • Rambus direct RAM
  • DRAM direct memory bus dynamic RAM
  • RDRAM memory bus dynamic RAM

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

一种人脸特征点检测方法、装置、计算机设备及存储介质。所述方法包括:按照预设的划分比例,将样本数据集划分为训练数据集和测试数据集;使用训练数据集对包含K个并行卷积层、拼接层和全局池化层的人脸检测模型进行训练;使用测试数据集对人脸检测模型进行测试,并根据测试结果计算人脸检测模型对人脸特征点的定位准确率;若定位准确率小于预设的准确率阈值,则重新对样本数据集进行划分,并重新训练和测试,直到定位准确率大于或者等于预设的准确率阈值为止;将待检测的人脸图片输入训练好的人脸检测模型进行计算,得到人脸图片的特征点预测结果。该方法能有效提高人脸检测模型对人脸特征点的定位能力和预测准确率。

Description

人脸特征点检测方法、装置、计算机设备及存储介质
本申请以2018年8月23日提交的申请号为201810963841.0,名称为“人脸特征点检测方法、装置、计算机设备及存储介质”的中国发明专利申请为基础,并要求其优先权。
技术领域
本申请涉及计算机领域,尤其涉及一种人脸特征点检测方法、装置、计算机设备及存储介质。
背景技术
目前,人脸识别已经被广泛应用在各种实际应用中,通过人脸识别进行身份验证也逐渐成为常用的身份验证方式,在人脸识别过程中,人脸特征点的检测是人脸识别及相关应用的前提和基础。
在现有的对人脸特征点进行检测的深度模型设计过程中,为了适用于实际应用场景,耗费较少的执行时间,通常需要将深度模型设计成小模型,但是,现有的采用这种小模型设计方式的深度模型预测能力差,预测准确率不高,使模型无法准确定位模糊人脸、大角度人脸、夸张表情人脸等人脸的特征点。
发明内容
本申请实施例提供一种人脸特征点检测方法、装置、计算机设备及存储介质,以解决目前深度模型对人脸特征点的预测准确率较低的问题。
一种人脸特征点检测方法,包括:
获取样本数据集,其中,所述样本数据集包含人脸样本图片和每个所述人脸样本图片的人脸特征点标注信息;
按照预设的划分比例,将所述样本数据集划分为训练数据集和测试数据集;
使用所述训练数据集对初始人脸检测模型进行训练,得到训练过的人脸检测模型,其中,所述初始人脸检测模型为包含K个并行卷积层、拼接层和全局池化层的卷积神经网络,每个所述并行卷积层具有不同预设尺度的视觉感知范围,K为大于等于3的正整数;
使用所述测试数据集对所述训练过的人脸检测模型进行测试,并根据测试结果计算所述训练过的人脸检测模型对人脸特征点的定位准确率;
若所述定位准确率小于预设的准确率阈值,则重新对所述样本数据集中的所述人脸样本图片进行划分,得到新的训练数据集和新的测试数据集,并使用所述新的训练数据集对所述训练过的人脸检测模型进行训练,以更新所述训练过的人脸检测模型,使用所述新的测试数据集对所述训练过的人脸检测模型进行测试,直到所述定位准确率大于或者等于所述预设的准确率阈值为止;
若所述定位准确率大于或等于所述预设的准确率阈值,则将定位准确率大于或等于所述预设的准确率阈值的所述训练过的人脸检测模型确定为训练好的人脸检测模型;
获取待检测的人脸图片;
将所述待检测的人脸图片输入所述训练好的人脸检测模型进行计算,得到所述人脸图片的特征点预测结果,其中,所述特征点预测结果包括目标特征点的属性信息和位置信息。
一种人脸特征点检测装置,包括:
第一获取模块,用于获取样本数据集,其中,所述样本数据集包含人脸样本图片和每个所述人脸样本图片的人脸特征点标注信息;
样本划分模块,用于按照预设的划分比例,将所述样本数据集划分为训练数据集和测试数据集;
模型训练模块,用于使用所述训练数据集对初始人脸检测模型进行训练,得到训练过的人脸检测模型,其中,所述初始人脸检测模型为包含K个并行卷积层、拼接层和全局池化层的卷积神经网络,每个所述并行卷积层具有不同预设尺度的视觉感知范围,K为大于等于3的正整数;
模型测试模块,用于使用所述测试数据集对所述训练过的人脸检测模型进行测试,并根据测试结果计算所述训练过的人脸检测模型对人脸特征点的定位准确率;
模型优化模块,用于若所述定位准确率小于预设的准确率阈值,则重新对所述样本数据集中的所述人脸样本图片进行划分,得到新的训练数据集和新的测试数据集,并使用所述新的训练数据集对所述训练过的人脸检测模型进行训练,以更新所述训练过的人脸检测模型,使用所述新的测试数据集对所述训练过的人脸检测模型进行测试,直到所述定位准确率大于或者等于所述预设的准确率阈值为止;
训练结果模块,用于若所述定位准确率大于或等于所述预设的准确率阈值,则将定位准确率大于或等于所述预设的准确率阈值的所述训练过的人脸检测模型确定为训练好的人脸检测模型;第二获取模块,用于获取待检测的人脸图片;
模型预测模块,用于将所述待检测的人脸图片输入所述训练好的人脸检测模型进行计算,得到所述人脸图片的特征点预测结果,其中,所述特征点预测结果包括目标特征点的属性信息和位置信息。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述人脸特征点检测方法的步骤。
一个或多个存储有计算机可读指令的非易失性可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行上述人脸特征点检测方法的步骤。
本申请的一个或多个实施例的细节在下面的附图和描述中提出,本申请的其他特征和优点将从说明书、附图以及权利要求变得明显。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例中人脸特征点检测方法的一应用环境示意图;
图2是本申请一实施例中人脸特征点检测方法的一流程图;
图3是本申请一实施例中人脸特征点检测方法中包含三个并行卷积层的人脸检测模型的网络结构示意图;
图4是本申请一实施例中人脸特征点检测方法的步骤S8的一流程图;
图5是本申请一实施例中人脸特征点检测方法的步骤S4中根据测试结果计算人脸检测模型对人脸特征点的定位准确率的一流程图;
图6是本申请一实施例中人脸特征点检测方法中步骤S1的一流程图;
图7是本申请一实施例中人脸特征点检测方法中步骤S14的一流程图;
图8是本申请一实施例中人脸特征点检测装置的一示意图;
图9是本申请一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供的人脸特征点检测方法,可应用在如图1所示的应用环境中,该应用环境包括服务端和客户端,其中,服务端和客户端之间通过网络进行连接,该网络可以是有线网络或者无线网络,客户端具体包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务端具体可以用独立的服务器或者多个服务器组成的服务器集群实现。客户端将采集到的样本数据集和待检测的人脸图片发送给服务端,服务端根据接收到样本数据集进行模型训练,并使用训练好的人脸检测模型对待检测的人脸图片进行特征点检测。
在一实施例中,如图2所示,提供一种人脸特征点检测方法,以该方法应用在图1中的服务端为例进行说明,详述如下:
S1:获取样本数据集,其中,该样本数据集包含人脸样本图片和每个人脸样本图片的人脸特征点标注信息。
具体地,样本数据集可以是预先采集并保存在样本数据库中,样本数据集中包含若干人脸样本图片以及每个人脸样本图片的人脸特征点标注信息。
可以理解的,人脸样本图片和该人脸样本图片的人脸特征点标注信息关联存储在样本数据集中。
其中,人脸特征点标注信息可以包括人脸特征点的属性信息和位置信息。属性信息具体为人脸特征点所属的五官信息,位置信息具体为人脸特征点在人脸样本图片中的像素点坐标。
例如,一个具体的人脸特征点标注信息为“眼睛,(200,150)”,其中,“眼睛”为该人脸特征点所属的五官信息,即属性信息,“(200,150)”为该人脸特征点在人脸样本图片中的像素点坐标,即位置信息。
S2:按照预设的划分比例,将样本数据集划分为训练数据集和测试数据集。
具体地,按照预设的划分比例,对步骤S1获取到的样本数据集中的人脸样本图片进行随机划分,得到训练数据集和测试数据集。
例如,预设的划分比例为3:2,假设样本数据集中包含100万张人脸样本图片,则从样本数据集中随机选择60万张人脸样本图片作为训练数据集,剩余的40万张人脸样本图片作为测试数据集。
需要说明的是,预设的划分比例可以根据实际应用的需要进行设置,此处不做限制。
S3:使用训练数据集对初始人脸检测模型进行训练,得到训练过的人脸检测模型,其中,该初始人脸检测模型为包含K个并行卷积层、拼接层和全局池化层的卷积神经网络,每个并行卷积层具有不同预设尺度的视觉感知范围,K为大于等于3的正整数。
在本实施例中,初始人脸检测模型和训练过的人脸检测模型,以及下文中提到的训练好的人脸检测模型,均指包含层叠卷积神经网络结构的人脸检测模型,该人脸检测模型的卷积神经网络包含K个并行卷积层、拼接层和全局池化层,并且在每个并行卷积层设置不同预设尺度的视觉感知范围的卷积核,其中,K个并行卷积层按照预设的顺序排列,每个并行卷积层的输出数据均作为下一个并行卷积层的输入数据,并且每个并行卷积层的输出数据均作为拼接层的输入数据,拼接层的输出数据作为全局池化层的输入数据,全局池化层的输出数据即为人脸检测模型的输出结果,该输出结果包括人脸检测模型预测出的人脸样本图片中人脸特征点的属性信息和位置信息。
如图3所示,图3为一个包含三个并行卷积层的人脸检测模型的网络结构示意图。其 中,该三个并行卷积层分别为卷积层A、卷积层B和卷积层C,每个并行卷积层对应的预设尺度的视觉感知范围分别为3×3、5×5和7×7的卷积核,卷积核的单位为像素点。
通过在每个并行卷积层使用不同尺度的视觉感知范围进行并行卷积计算,并通过拼接层将每个并行卷积层的计算结果拼接在一起,使得人脸检测模型能够同时捕捉不同尺度的细节特征,从而提高人脸检测模型的表达能力,并且,通过全局池化层的池化计算,能够使人脸检测模型的输出结果相对于位置具有不变性的特点,同时避免过拟合。这种层叠卷积神经网络结构能够提高人脸检测模型对人脸特征点的定位能力,尤其是对模糊人脸、大角度人脸、夸张表情人脸等人脸的特征点能够准确定位,从而有效提高人脸检测模型的预测准确率。
具体地,在使用训练数据集对初始人脸检测模型进行训练时,将训练数据集中的人脸样本图片输入该初始人脸检测模型,按照该初始人脸检测模型的层叠卷积神经网络结构进行逐层计算,得到的初始人脸检测模型的输出结果作为测试结果,并通过对测试结果和人脸样本图片的人脸特征点标注信息之间进行对比学习,根据对比学习的结果调整该层叠卷积神经网络结构中每层网络的参数,经过反复地训练和参数调整,得到训练过的人脸检测模型。
进一步地,在每一个并行卷积层进行卷积计算之前,还可以对该并行卷积层的输入数据进行标准化处理,该标准化处理具体可以包括全局归一化(Batch Normalization,BN)处理和单侧抑制处理。通过全局归一化处理能够防止梯度消失或爆炸,加快训练速度。单侧抑制处理使用修正线性单元(Rectified linear unit,ReLU)作为激活函数对全局归一化处理后的输出进行单侧抑制,使得稀疏后的人脸检测模型能够实现更准确地挖掘人脸特征点和拟合训练数据。同时,对标准化处理后的输入数据进行卷积计算,能够有效减少计算量,提高计算效率。
S4:使用测试数据集对训练过的人脸检测模型进行测试,并根据测试结果计算训练过的人脸检测模型对人脸特征点的定位准确率。
具体地,将测试数据集中的人脸样本图片输入到步骤S3得到的训练过的人脸检测模型中进行测试,得到人脸特征模型输出的测试结果,该测试结果包括人脸样本图片中每个人脸特征点的预测位置信息。
针对每个人脸样本图片,将该将人脸样本图片的测试结果与该人脸样本图片的人脸特征点标注信息中的每个人脸特征点的实际位置信息进行比较,判断测试结果是否准确,得到判断结果,并根据测试数据集中每个人脸样本图片的判断结果,计算训练过的人脸检测模型对人脸特征点的定位准确率。
在一具体实施例中,判断结果可以包括正确和错误两个值,当人脸样本图片的测试结果与该人脸样本图片的人脸特征点标注信息一致,则判断结果为正确,否则判断结果为错误,在测试数据集中统计判断结果为正确的人脸样本图片的数量,并将该数量与测试数据集包含的人脸样本图片的总数的比值作为定位准确率。
进一步地,还可以使用计算测试数据集的归一化平均误差(normalized mean error,NME)的方式得到定位准确率。
S5:若定位准确率小于预设的准确率阈值,则重新对样本数据集中的人脸样本图片进行划分,得到新的训练数据集和新的测试数据集,并使用新的训练数据集对训练过的人脸检测模型进行训练,以更新训练过的人脸检测模型,使用新的测试数据集对训练过的人脸检测模型进行测试,直到定位准确率大于或者等于预设的准确率阈值为止。
具体地,将步骤S4得到的定位准确率与预设的准确率阈值进行比较,若定位准确率小于准确率阈值,则确认训练过的人脸检测模型的训练未完成,需继续对该训练过的人脸检测模型进行网络参数调优。
按照预设的划分比例重新对样本数据集中的人脸样本图片进行随机选择,得到新的训 练数据集和新的测试数据集,并使用该新的训练数据集,采用与步骤S3相同的训练过程对训练过的人脸检测模型进行训练,以更新训练过的人脸检测模型,并在训练完成后,使用新的测试数据集,采用与步骤S4相同的测试过程对训练过的人脸检测模型进行测试,并根据测试结果计算定位准确率。
若定位准确率仍然小于准确率阈值,则继续重复本步骤,反复训练和测试,直到定位准确率大于或者等于准确率阈值时结束训练和测试。
S6:若定位准确率大于或等于预设的准确率阈值,则将定位准确率大于或等于预设的准确率阈值的训练过的人脸检测模型确定为训练好的人脸检测模型。
具体地,若步骤S4得到的定位准确率大于或等于预设的准确率阈值,或者经过步骤S5反复训练和测试后得到的定位准确率大于或等于预设的准确率阈值,则此时得到的定位准确率大于或等于预设的准确率阈值的训练过的人脸检测模型即为训练好的人脸检测模型,可以使用该训练好的人脸检测模型进行人脸特征点的检测。
S7:获取待检测的人脸图片。
具体地,待检测的人脸图片具体可以为待进行身份识别的用户通过客户端输入的人脸图片,服务端从客户端获取该待检测的人脸图片。
S8:将待检测的人脸图片输入训练好的人脸检测模型进行计算,得到该人脸图片的特征点预测结果,其中,特征点预测结果包括目标特征点的属性信息和位置信息。
具体地,将步骤S7得到的人脸图片输入步骤S6得到的训练好的人脸检测模型中,并按照该训练好的人脸检测模型中的层叠卷积神经网络结构进行计算,得到该训练好的人脸检测模型的输出,该输出包括识别出的待检测的人脸图片中的目标特征点的属性信息和位置信息。即为待检测的人脸图片的特征点预测结果。
在本实施例中,一方面,构建包含多个并行卷积层、拼接层和全局池化层的卷积神经网络,作为人脸检测模型,其中,并行卷积层具有不同预设尺度的视觉感知范围,通过在每个并行卷积层使用不同尺度的视觉感知范围进行并行卷积计算,并通过拼接层将每个并行卷积层的计算结果拼接在一起,使得人脸检测模型能够同时捕捉不同尺度的细节特征,从而提高人脸检测模型的表达能力,并且,通过全局池化层的池化计算,能够使人脸检测模型的输出结果相对于位置具有不变性的特点,同时避免过拟合,采用上述这种卷积神经网络的网络结构,能够提高人脸检测模型对人脸特征点的定位能力,尤其是对模糊人脸、大角度人脸、夸张表情人脸等人脸的特征点能够准确定位,从而有效提高人脸检测模型的预测准确率;另一方面,通过获取由包含准确的人脸特征点标注信息的人脸样本图片组成的样本数据集,按照预设的比例将样本数据集划分为训练数据集和测试数据集,使用训练数据集对该人脸检测模型进行训练,并使用测试数据集对训练过的人脸检测模型进行测试,然后根据测试结果计算人脸检测模型的定位准确率,通过定位准确率判断训练过的人脸检测模型的预测能力,并通过对训练数据集和测试数据集的调整,不断优化对人脸检测模型的训练,直到达到满意的定位准确率,实现了对人脸检测模型的训练调优,进一步增强人脸检测模型的预测能力。
在一实施例中,如图4所示,K等于3,并且K个并行卷积层包括第一卷积层、第二卷积层和第三卷积层,在步骤S8中,将待检测的人脸图片输入训练好的人脸检测模型进行计算,得到该人脸图片的特征点预测结果具体包括如下步骤:
S81:对待检测的人脸图片进行标准化处理,得到第一人脸数据。
标准化处理包括全局归一化处理和单侧抑制处理,全局归一化处理即BN处理,通过全局归一化处理能够有效防止梯度消失或爆炸;单侧抑制处理即使用ReLU作为激活函数对全局归一化处理后的输出图像进行单侧抑制,避免过拟合。
具体地,对待检测的人脸图片进行全局归一化处理和单侧抑制处理后,得到第一人脸数据。
S82:将第一人脸数据输入第一卷积层进行卷积计算,得到第一卷积结果。
具体地,将步骤S81得到的第一人脸数据输入第一卷积层进行卷积计算,该卷积计算对第一人脸数据的图像矩阵进行卷积变换,通过第一卷积层的卷积核提取该图像矩阵的特征,输出特征图(Feature Map),即第一卷积结果。
S83:对第一卷积结果进行标准化处理,得到第二人脸数据。
具体地,将步骤S82得到的第一卷积结果继续进行标准化处理,得到第二人脸数据。
其中,对第一卷积结果的标准化处理过程可采用与步骤S81相同的全局归一化处理和单侧抑制处理过程,此处不再赘述。
S84:将第二人脸数据输入第二卷积层进行卷积计算,得到第二卷积结果。
具体地,将步骤S83得到的第二人脸数据输入第二卷积层进行卷积计算,该卷积计算对第二人脸数据的图像矩阵进行卷积变换,通过第二卷积层的卷积核提取该图像矩阵的特征,输出第二卷积结果。
S85:对第二卷积结果进行标准化处理,得到第三人脸数据。
具体地,将步骤S84得到的第二卷积结果继续进行标准化处理,得到第三人脸数据。
其中,对第二卷积结果的标准化处理过程可采用与步骤S81相同的全局归一化处理和单侧抑制处理过程,此处不再赘述。
S86:将第三人脸数据输入第三卷积层进行卷积计算,得到第三卷积结果。
具体地,将步骤S85得到的第三人脸数据输入第三卷积层进行卷积计算,该卷积计算对第三人脸数据的图像矩阵进行卷积变换,通过第三卷积层的卷积核提取该图像矩阵的特征,输出第三卷积结果。
需要说明的是,第一卷积层的卷积核大小、第二卷积层的卷积核大小,以及第三卷积层的卷积核大小均可以预先根据实际应用的需要进行设置,其互相之间可以相同也可以不相同,此处不做限制。
S87:将第一卷积结果、第二卷积结果和第三卷积结果输入拼接层进行拼接计算,得到卷积输出结果。
具体地,将步骤S82得到的第一卷积结果、步骤S84得到第二卷积结果和步骤S86得到的第三卷积结果同时输入到拼接层进行拼接计算,得到卷积输出结果。
S88:将卷积输出结果输入全局池化层进行池化计算,得到待检测的人脸图片的特征点预测结果。
具体地,将步骤S87得到的卷积输出结果输入全局池化层进行池化计算,得到待检测的人脸图片特征点预测结果。
由于卷积输出结果中包含的特征参数个数较多,同时还可能存在没有实际意义或者重复等冗杂特征,因此通过全局池化层的池化计算,能够筛选掉冗杂特征,减少不必要的参数,避免过拟合。
进一步地,采用最大池化(Max Pooling)方法或平均池化(mean pooling)方法进行池化计算。其中,最大池化方法是将特征图区域的最大值作为该区域池化后的值。平均池化方法是计算特征图区域的平均值作为该区域的池化结果。
本实施例中,当人脸检测模型包含三个并行卷积层时,对待检测的人脸图片进行标准化处理,得到第一人脸数据后,将第一人脸数据输入第一卷积层进行卷积计算,得到第一卷积结果,然后对第一卷积结果继续进行标准化处理,得到第二人脸数据,再将第二人脸数据输入第二卷积层进行卷积计算,得到第二卷积结果,然后对第二卷积结果继续进行标准化处理,得到第三人脸数据,再将第三人脸数据输入第三卷积层进行卷积计算,得到第三卷积结果,之后将三个平行卷积层的输出均输入到拼接层进行拼接计算,得到卷积输出结果,最后将卷积输出结果输入全局池化层进行池化计算,得到待检测的人脸图片的特征点预测结果,待检测的人脸图片经过上述这种卷积神经网络的网络结构的计算,能够准确 定位出人脸特征点,尤其是对模糊人脸、大角度人脸、夸张表情人脸等人脸的特征点能够准确定位,从而有效提高人脸检测模型的预测准确率。
在一实施例中,如图5所示,在步骤S4中,根据测试结果计算训练过的人脸检测模型对人脸特征点的定位准确率具体包括如下步骤:
S41:根据测试结果,计算该测试结果对应的测试数据集中每个测试样本的归一化平均误差。
具体地,测试结果包括该测试结果对应的测试数据集的测试样本中每个人脸特征点的预测位置信息,按照如下公式计算每个测试样本的归一化平均误差(normalized mean error,NME):
Figure PCTCN2018120857-appb-000001
其中,P为每个测试样本的归一化平均误差,N为该测试样本的人脸特征点的实际数量,x k为该测试样本第k个人脸特征点的实际位置信息,y k为该测试样本的测试结果中第k个人脸特征点的预测位置信息,|x k-y k|为第k个人脸特征点的实际位置和预测位置之间的距离,d为该测试样本的人脸图像尺寸。实际位置信息和预测位置信息具体可以是坐标信息,人脸图像尺寸具体可以是人脸图片的像素面积。
S42:将预设的误差阈值按照预设的间隔数值进行平均分割,得到P个子阈值,其中,P为正整数。
具体地,将从0到预设的误差阈值之间的数值,按照预设的间隔数值进行平均分割,得到P个子阈值。
需要说明的是,预设的误差阈值和预设的间隔数值均可以根据实际应用的需要进行设置,此处不做限制。
例如,预设的误差阈值为0.07,预设的间隔数值为0.001,则将0到0.07之间的数值按照0.001的间隔进行平均分割,得到70个子阈值。
需要说明的是,步骤S41和步骤S42之间没有必然的先后执行顺序,其也可以是并列执行的关系,此处不做限制。
S43:统计归一化平均误差小于每个子阈值的测试样本的统计数量,并计算该统计数量占测试结果对应的测试数据集中测试样本总数的百分比,得到P个百分比数值。
具体地,针对步骤S41得到的每个测试样本的归一化平均误差,将该测试样本的归一化平均误差与每个子阈值进行比较,并根据比较结果统计归一化平均误差小于每个子阈值的测试样本的统计数量,计算该统计数量与测试结果对应的测试数据集中测试样本总数之间的商,得到P个商,即P个百分比数值。
例如,若预设的误差阈值为0.2,预设的间隔数值为0.05,则P为4,4个子阈值分别为0.05、0.1、0.15和0.2。假设测试结果对应的测试数据集包含的测试样本总数为10个,每个测试样本的归一化平均误差分别为0.003、0.12、0.06、0.07、0.23、0.18、0.11、0.04、0.09和0.215。则统计可得:
小于0.05的归一化平均误差为0.003和0.04,即归一化平均误差小于0.05的测试样本的统计数量为2;
小于0.1的归一化平均误差为0.003、0.075、0.04、0.06、0.07和0.09,即归一化平均误差小于0.1的测试样本的统计数量为6;
小于0.15的归一化平均误差为0.003、0.075、0.04、0.06、0.07、0.09和0.11,即归一化平均误差小于0.15的测试样本的统计数量为7;
小于0.2的归一化平均误差为0.003、0.075、0.04、0.06、0.07、0.09、0.11和0.18,即归一化平均误差小于0.2的测试样本的统计数量为8;
按照本步骤的计算方式得到的4个百分比数值分别为:2/10=20%、6/10=60%、7/10=70%和8/10=80%。
S44:计算P个百分比数值的平均值,并将该平均值作为定位准确率。
具体地,根据步骤S43得到的P个百分比数值,计算该P个百分比数值的算术平均值,该算数平均值即为定位准确率。
继续以步骤S43的例子进行说明,4个百分比数值的平均值为(20%+60%+70%+80%)/4=57.8%。
本实施例中,通过计算测试样本的归一化平均误差,并将预设的误差阈值按照预设的间隔数值进行平均分割,然后统计归一化平均误差小于每个子阈值的测试样本的统计数量,并计算该统计数量占测试结果对应的测试数据集中测试样本总数的百分比,得到P个百分比数值,将P个百分比数值的算术平均值作为定位准确率,通过本实施例的计算方法得到的定位准确率能够客观准确的反映训练过的人脸检测模型对特征点的预测准确程度,进而为进一步模型训练参数优化提供准确的判断依据。
在一实施例中,如图6所示,在步骤S1中,获取样本数据集具体包括如下步骤:
S11:获取视频数据和图片。
具体地,从预设的视频源渠道获取视频数据,其中,视频源渠道可以是监控设备中录制的视频数据、服务端数据库中保存的视频数据、视频应用中收集的视频数据等。从预设的图片源渠道获取图片,其中,图片源渠道可以是互联网公开的图片、服务端数据库中预存的图片等。
可以理解的,获取到的视频数据和图片均为多个。
S12:按照预设的帧提取频率和预设的最大帧数,从视频数据中提取目标视频帧图像。
具体地,对步骤S11获取到的每个视频数据进行处理,按照预设的帧提取频率和预设的最大帧数,从该视频数据的预设位置开始提取帧图像,得到目标视频帧图像。其中,预设位置可以是视频数据的第一帧位置,也可以是其他位置,此处不做限制。
需要说明的是,预设的帧提取频率通常可以设置为每连续2帧图像中随机提取1帧图像,预设的最大帧数通常为经验值,其取值范围可以在1700至1800之间,但并不限于此,预设的帧提取频率和预设的最大帧数均可以根据实际应用的需要进行设置,此处不做限制。
例如,假设预设的帧提取频率为每连续5帧图像中随机提取1帧图像,预设的最大帧数为1800,若视频数据的总帧数为2500帧,并从该视频数据的第一帧开始提取,则目标视频帧图像的数量为500帧。
S13:分别对目标视频帧图像和图片进行人脸特征点标注,分别得到目标视频帧图像的人脸特征点标注信息和图片的人脸特征点标注信息。
具体地,
对步骤S12得到的每个目标视频帧图像进行人脸特征点标注,得到每个目标视频帧图像的人脸特征点标注信息,同时,对步骤S11获取的图片进行人脸特征点标注,得到每个图片的人脸特征点标注信息,其中,人脸特征点标注信息包括人脸特征点的属性信息和位置信息。属性信息具体为人脸特征点所属的五官信息,位置信息具体为人脸特征点在人脸样本图片中的像素点坐标。进一步地,利用预设的人脸特征点标注工具和人工校正相结合的方式实现对目标视频帧图像和图片的人脸特征点标注,详述如下:
(1)分别将目标视频帧图像和图片输入预设的人脸特征点标注工具,通过该人脸特征点标注工具分别对目标视频帧图像和图片中的人脸进行人脸特征点标注,得到第一标注结果。
其中,预设的人脸特征点标注工具具体可以是现有的能够实现人脸特征点标注功能的神经网络工具,人脸特征点包括耳朵、眉毛、眼睛、鼻子、嘴唇以及脸型等脸部特征。
由于现有的能够实现人脸特征点标注功能的神经网络工具的标注准确性较低,因此,需要进一步进行人工校正。
(2)将第一标注结果发送给目标用户进行确认和调整,并接收目标用户返回的校正信息,根据该校正信息对第一标注结果中标注错误的信息进行更新,得到准确的人脸特征点标注信息。
S14:按照预设的加工方式,对图片进行加工处理,得到新图片和新图片的人脸特征点标注信息。
具体地,预设的加工方式包括但不限于水平翻转、顺时针随机旋转、逆时针随机旋转、平移、缩放和亮度增减等,按照预设的加工方式对步骤S11获取的图片进行加工处理后,得到新图片,并根据加工方式对应地同步更新图片的人脸特征点标注信息中的位置信息,得到新图片的人脸特征点标注信息。
需要说明的是,通过对图片按照预设的加工方式进行加工处理,得到新图片及其对应的人脸特征点标注信息,能够快速地丰富样本数据集,并且不需要重复进行步骤S13中的人脸特征点标注信息的标注过程,为人脸检测模型的训练和测试提供丰富多样的人脸样本图片,确保样本的多样性和均衡性,从而能够更好的支撑人脸检测模型的训练和测试。
S15:将目标视频帧图像、图片和新图片均作为人脸样本图片。
具体地,将步骤S12得到的目标视频帧图像、步骤S11得到的图片和步骤S14得到的新图片均作为样本数据集的人脸样本图片,目标视频帧图像、图片和新图片的人脸特征点标注信息即为人脸样本图片的人脸特征点标注信息。
在本实施例中,一方面,通过对视频数据进行视频帧提取,并对得到的目标视频帧图像进行人脸特征点标注,由于视频数据的连续帧图像中人脸姿态的变化较小,因此利用预设的人脸特征点标注工具和人工校正相结合的方式对目标视频帧图像进行人脸特征点标注时,能够实现低成本且准确的标注,得到大量准确的样本数据,同时,在提取目标视频帧图像时通过设定帧提取频率,避免视频数据中连续多帧人脸的姿态和表情变化不大导致的数据多样性不足,通过设定最大帧数避免长视频占主导而导致人脸检测模型的过拟合;另一方面,通过对图片进行加工处理,将图片数据增广扩充到跟视频数据同等数量级。本实施例实现了在降低人脸样本图片的标注成本的同时,得到包含丰富人脸样本图片的样本数据集,能够有效支撑人脸检测模型的训练和测试,从而提高人脸检测模型的训练准确率和预测能力。
在一实施例中,如图7所示,在步骤S14中,按照预设的加工方式,对图片进行加工处理,得到新图片和新图片的人脸特征点标注信息具体包括如下步骤:
S141:对图片进行水平翻转处理,得到第一图片和第一图片的人脸特征点标注信息。
具体地,对图片进行水平翻转处理,并对图片的人脸特征点标注信息中每个人脸特征点的位置信息按照水平翻转的对应关系同步对应调整,得到第一图片和第一图片的人脸特征点标注信息。
可以理解的是,图片和第一图片的数量相同,此时将图片的数量和第一图片的数量的总和作为第一数量,则第一数量为图片的数量的2倍。
S142:按照预设的旋转方式,分别对图片和第一图片进行旋转处理,得到第二图片和第二图片的人脸特征点标注信息。
具体地,按照预设的旋转方式,分别对图片和步骤S141得到的第一图片进行旋转处理,得到第二图片,并对图片和第一图片的人脸特征点标注信息中每个人脸特征点的位置信息,按照该预设的旋转方式的对应关系同步对应调整,得到第二图片的人脸特征点标注信息。
需要说明的是,预设的旋转方式具体可以是顺时针随机旋转或逆时针随机旋转等,但并不限于此,其可以根据实际应用的需要进行设置,此处不做限制。
可以理解的是,若预设的旋转方式为顺时针随机旋转和逆时针随机旋转两种方式,则得到的第二图片的数量为图片的数量的4倍,此时将第二图片的数量和第一数量的总和作为第二数量,则第二数量为图片的数量的6倍。
S143:按照预设的偏移量和预设的缩放比例,分别对图片、第一图片和第二图片中的人脸矩形框依次进行平移处理和缩放处理,得到第三图片和第三图片的人脸特征点标注信息。
具体地,按照预设的偏移量,分别对图片、第一图片和第二图片中的人脸矩形框进行平移处理,然后再按照预设的缩放比例,对平移处理后的图片、第一图片和第二图片中的人脸矩形框进行缩放处理,得到第三图片,同时,按照预设的偏移量和预设的缩放比例的对应关系,同步对应调整人脸特征点标注信息中每个人脸特征点的位置信息,得到第三图片的人脸特征点标注信息。
其中,预设的偏移量和预设的缩放比例可以是一个预设范围内的随机值。
可以理解的是,第三图片的数量为图片的数量的2×3×2=12倍。
S144:按照预设的提取比例,从图片、第一图片、第二图片和第三图片中随机选取目标图片,并对目标图片进行随机亮度变化处理,得到第四图片和第四图片的人脸特征点标注信息。
具体地,从步骤S141得到的第一图片、步骤S142得到的第二图片、步骤S143得到的第三图片,以及图片中,按照预设的提取比例,随机选取目标图片。对选出的目标图片进行随机亮度变化处理,得到第四图片,并且目标图片的人脸特征点标注信息即为第四图片的人脸特征点标注信息。
其中,随机亮度变化处理包括对随机选择的像素点进行亮度增加或者亮度降低处理,增加幅度和降低幅度可随机产生,也可以由预设的幅度阈值确定。预设的提取比例通常可以设置为30%,但并不限于此,具体可以根据实际应用的需要进行设置。
可以理解的是,当预设的提取比例为30%时,第四图片的数量为图片的数量的12×1.3=15.6倍。
S145:将第一图片、第二图片、第三图片和第四图片均作为新图片。
具体地,将步骤S141得到的第一图片、步骤S142得到的第二图片、步骤S143得到的第三图片,以及步骤S144得到的第四图片均作为新图片,第一图片、第二图片、第三图片和第四图片的人脸特征点标注信息即为新图片的人脸特征点标注信息。
例如,假设获取到的图片的数量为3300张,那么,通过本实施例进行增广后得到的新图片的数量约为5万张,有效扩充了样本数据集。
在本实施例中,通过对图片进行一系列的水平翻转处理、旋转处理、平移处理、缩放处理和随机亮度变化处理等,使得得到的新图片的数量呈级数增长,在不增加人脸特征点标注信息的标注成本的基础上,快速扩充样本数据集,提高样本数据集的获取效率,并得到包含丰富人脸样本图片的样本数据集,能够有效支撑人脸检测模型的训练和测试,从而提高人脸检测模型的训练准确率和预测能力。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
在一实施例中,提供一种人脸特征点检测装置,该人脸特征点检测装置与上述实施例中人脸特征点检测方法一一对应。如图8所示,该人脸特征点检测装置包括第一获取模块81、样本划分模块82、模型训练模块83、模型测试模块84、模型优化模块85、训练结果模块86、第二获取模块87和模型预测模块88。各功能模块详细说明如下:
第一获取模块81,用于获取样本数据集,其中,该样本数据集包含人脸样本图片和每 个人脸样本图片的人脸特征点标注信息;
样本划分模块82,用于按照预设的划分比例,将样本数据集划分为训练数据集和测试数据集;
模型训练模块83,用于使用训练数据集对初始人脸检测模型进行训练,得到训练过的人脸检测模型,其中,该初始人脸检测模型为包含K个并行卷积层、拼接层和全局池化层的卷积神经网络,每个并行卷积层具有不同预设尺度的视觉感知范围,K为大于等于3的正整数;
模型测试模块84,用于使用测试数据集对训练过的人脸检测模型进行测试,并根据测试结果计算训练过的人脸检测模型对人脸特征点的定位准确率;
模型优化模块85,用于若定位准确率小于预设的准确率阈值,则重新对样本数据集中的人脸样本图片进行划分,得到新的训练数据集和新的测试数据集,并使用新的训练数据集对训练过的人脸检测模型进行训练,以更新训练过的人脸检测模型,使用新的测试数据集对训练过的人脸检测模型进行测试,直到定位准确率大于或者等于预设的准确率阈值为止;
训练结果模块86,用于若定位准确率大于或等于预设的准确率阈值,则将定位准确率大于或等于预设的准确率阈值的训练过的人脸检测模型确定为训练好的人脸检测模型;
第二获取模块87,用于获取待检测的人脸图片;
模型预测模块88,用于将待检测的人脸图片输入训练好的人脸检测模型进行计算,得到该人脸图片的特征点预测结果,其中,特征点预测结果包括目标特征点的属性信息和位置信息。
进一步地,K等于3,并且K个并行卷积层包括第一卷积层、第二卷积层和第三卷积层,模型预测模块88包括:
第一标准化子模块881,用于对待检测的人脸图片进行标准化处理,得到第一人脸数据;
第一卷积计算子模块882,用于将第一人脸数据输入第一卷积层进行卷积计算,得到第一卷积结果;
第二标准化子模块883,用于对第一卷积结果进行标准化处理,得到第二人脸数据;
第二卷积计算子模块884,用于将第二人脸数据输入第二卷积层进行卷积计算,得到第二卷积结果;
第三标准化子模块885,用于对第二卷积结果进行标准化处理,得到第三人脸数据;
第三卷积计算子模块886,用于将第三人脸数据输入第三卷积层进行卷积计算,得到第三卷积结果;
拼接子模块887,用于将第一卷积结果、第二卷积结果和第三卷积结果输入拼接层进行拼接计算,得到卷积输出结果;
池化子模块888,用于将卷积输出结果输入全局池化层进行池化计算,得到待检测的人脸图片的特征点预测结果。
进一步地,模型测试模块84包括:
误差计算子模块841,用于根据测试结果,计算该测试结果对应的测试数据集中每个测试样本的归一化平均误差;
阈值分割子模块842,用于将预设的误差阈值按照预设的间隔数值进行平均分割,得到P个子阈值,其中,P为正整数;
占比计算子模块843,用于统计归一化平均误差小于每个子阈值的测试样本的统计数量,并计算该统计数量占测试结果对应的测试数据集中测试样本总数的百分比,得到P个百分比数值;
准确率计算子模块844,用于计算P个百分比数值的平均值,并将该平均值作为定位 准确率。
进一步地,第一获取模块81包括:
数据获取子模块811,用于获取视频数据和图片;
视频帧提取子模块812,用于按照预设的帧提取频率和预设的最大帧数,从视频数据中提取目标视频帧图像;
标注子模块813,用于分别对目标视频帧图像和图片进行人脸特征点标注,分别得到目标视频帧图像的人脸特征点标注信息和图片的人脸特征点标注信息;
图片加工子模块814,用于按照预设的加工方式,对图片进行加工处理,得到新图片和新图片的人脸特征点标注信息;
样本增广子模块815,用于将目标视频帧图像、图片和新图片均作为人脸样本图片。
进一步地,图片加工子模块814包括:
翻转子模块8141,用于对图片进行水平翻转处理,得到第一图片和第一图片的人脸特征点标注信息;
旋转子模块8142,用于按照预设的旋转方式,分别对图片和第一图片进行旋转处理,得到第二图片和第二图片的人脸特征点标注信息;
平移缩放子模块8143,用于按照预设的偏移量和预设的缩放比例,分别对图片、第一图片和第二图片中的人脸矩形框依次进行平移处理和缩放处理,得到第三图片和第三图片的人脸特征点标注信息;
亮度处理子模块8144,用于按照预设的提取比例,从图片、第一图片、第二图片和第三图片中随机选取目标图片,并对目标图片进行随机亮度变化处理,得到第四图片和第四图片的人脸特征点标注信息;
新增样本子模块8145,用于将第一图片、第二图片、第三图片和第四图片均作为新图片。
关于人脸特征点检测装置的具体限定可以参见上文中对于人脸特征点检测方法的限定,在此不再赘述。上述人脸特征点检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储样本数据集。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种人脸特征点检测方法。
在一实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,处理器执行计算机可读指令时实现上述实施例人脸特征点检测方法的步骤,例如图2所示的步骤S1至步骤S8。或者,处理器执行计算机可读指令时实现上述实施例中人脸特征点检测装置的各模块/单元的功能,例如图8所示模块81至模块88的功能。为避免重复,此处不再赘述。
在一实施例中,提供了一个或多个非易失性可读存储介质,其上存储有计算机可读指令,计算机可读指令被一个或多个处理器执行时实现上述方法实施例中人脸特征点检测方法,或者,该计算机可读指令被一个或多个处理器执行时实现上述装置实施例中人脸特征点检测装置中各模块/单元的功能。为避免重复,此处不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (20)

  1. 一种人脸特征点检测方法,其特征在于,所述人脸特征点检测方法包括:
    获取样本数据集,其中,所述样本数据集包含人脸样本图片和每个所述人脸样本图片的人脸特征点标注信息;
    按照预设的划分比例,将所述样本数据集划分为训练数据集和测试数据集;
    使用所述训练数据集对初始人脸检测模型进行训练,得到训练过的人脸检测模型,其中,所述初始人脸检测模型为包含K个并行卷积层、拼接层和全局池化层的卷积神经网络,每个所述并行卷积层具有不同预设尺度的视觉感知范围,K为大于等于3的正整数;
    使用所述测试数据集对所述训练过的人脸检测模型进行测试,并根据测试结果计算所述训练过的人脸检测模型对人脸特征点的定位准确率;
    若所述定位准确率小于预设的准确率阈值,则重新对所述样本数据集中的所述人脸样本图片进行划分,得到新的训练数据集和新的测试数据集,并使用所述新的训练数据集对所述训练过的人脸检测模型进行训练,以更新所述训练过的人脸检测模型,使用所述新的测试数据集对所述训练过的人脸检测模型进行测试,直到所述定位准确率大于或者等于所述预设的准确率阈值为止;
    若所述定位准确率大于或等于所述预设的准确率阈值,则将定位准确率大于或等于所述预设的准确率阈值的所述训练过的人脸检测模型确定为训练好的人脸检测模型;
    获取待检测的人脸图片;
    将所述待检测的人脸图片输入所述训练好的人脸检测模型进行计算,得到所述人脸图片的特征点预测结果,其中,所述特征点预测结果包括目标特征点的属性信息和位置信息。
  2. 如权利要求1所述的人脸特征点检测方法,其特征在于,K等于3,并且所述K个并行卷积层包括第一卷积层、第二卷积层和第三卷积层,所述将所述待检测的人脸图片输入所述训练好的人脸检测模型进行计算,得到所述人脸图片的特征点预测结果包括:
    对所述待检测的人脸图片进行标准化处理,得到第一人脸数据;
    将所述第一人脸数据输入所述第一卷积层进行卷积计算,得到第一卷积结果;
    对所述第一卷积结果进行所述标准化处理,得到第二人脸数据;
    将所述第二人脸数据输入所述第二卷积层进行卷积计算,得到第二卷积结果;
    对所述第二卷积结果进行所述标准化处理,得到第三人脸数据;
    将所述第三人脸数据输入所述第三卷积层进行卷积计算,得到第三卷积结果;
    将所述第一卷积结果、所述第二卷积结果和所述第三卷积结果输入所述拼接层进行拼接计算,得到卷积输出结果;
    将所述卷积输出结果输入所述全局池化层进行池化计算,得到所述特征点预测结果。
  3. 如权利要求1所述的人脸特征点检测方法,其特征在于,所述根据测试结果计算所述训练过的人脸检测模型对人脸特征点的定位准确率包括:
    根据所述测试结果,计算所述测试结果对应的测试数据集中每个测试样本的归一化平均误差;
    将预设的误差阈值按照预设的间隔数值进行平均分割,得到P个子阈值,其中,P为正整数;
    统计所述归一化平均误差小于每个所述子阈值的测试样本的统计数量,并计算所述统计数量占所述测试结果对应的测试数据集中测试样本总数的百分比,得到P个百分比数值;
    计算P个百分比数值的平均值,并将所述平均值作为所述定位准确率。
  4. 如权利要求1至3任一项所述的人脸特征点检测方法,其特征在于,所述获取样本数据集包括:
    获取视频数据和图片;
    按照预设的帧提取频率和预设的最大帧数,从所述视频数据中提取目标视频帧图像;
    分别对所述目标视频帧图像和所述图片进行人脸特征点标注,分别得到所述目标视频帧图像的人脸特征点标注信息和所述图片的人脸特征点标注信息;
    按照预设的加工方式,对所述图片进行加工处理,得到新图片和所述新图片的人脸特征点标注信息;
    将所述目标视频帧图像、所述图片和所述新图片均作为所述人脸样本图片。
  5. 如权利要求4所述的人脸特征点检测方法,其特征在于,所述按照预设的加工方式,对所述图片进行加工处理,得到新图片和所述新图片的人脸特征点标注信息包括:
    对所述图片进行水平翻转处理,得到第一图片和所述第一图片的人脸特征点标注信息;
    按照预设的旋转方式,分别对所述图片和所述第一图片进行旋转处理,得到第二图片和所述第二图片的人脸特征点标注信息;
    按照预设的偏移量和预设的缩放比例,分别对所述图片、所述第一图片和所述第二图片中的人脸矩形框依次进行平移处理和缩放处理,得到第三图片和所述第三图片的人脸特征点标注信息;
    按照预设的提取比例,从所述图片、所述第一图片、所述第二图片和所述第三图片中随机选取目标图片,并对所述目标图片进行随机亮度变化处理,得到第四图片和所述第四图片的人脸特征点标注信息;
    将所述第一图片、所述第二图片、所述第三图片和所述第四图片均作为所述新图片。
  6. 一种人脸特征点检测装置,其特征在于,所述人脸特征点检测装置包括:
    第一获取模块,用于获取样本数据集,其中,所述样本数据集包含人脸样本图片和每个所述人脸样本图片的人脸特征点标注信息;
    样本划分模块,用于按照预设的划分比例,将所述样本数据集划分为训练数据集和测试数据集;
    模型训练模块,用于使用所述训练数据集对初始人脸检测模型进行训练,得到训练过的人脸检测模型,其中,所述初始人脸检测模型为包含K个并行卷积层、拼接层和全局池化层的卷积神经网络,每个所述并行卷积层具有不同预设尺度的视觉感知范围,K为大于等于3的正整数;
    模型测试模块,用于使用所述测试数据集对所述训练过的人脸检测模型进行测试,并根据测试结果计算所述训练过的人脸检测模型对人脸特征点的定位准确率;
    模型优化模块,用于若所述定位准确率小于预设的准确率阈值,则重新对所述样本数据集中的所述人脸样本图片进行划分,得到新的训练数据集和新的测试数据集,并使用所述新的训练数据集对所述训练过的人脸检测模型进行训练,以更新所述训练过的人脸检测模型,使用所述新的测试数据集对所述训练过的人脸检测模型进行测试,直到所述定位准确率大于或者等于所述预设的准确率阈值为止;
    训练结果模块,用于若所述定位准确率大于或等于所述预设的准确率阈值,则将定位准确率大于或等于所述预设的准确率阈值的所述训练过的人脸检测模型确定为训练好的人脸检测模型;
    第二获取模块,用于获取待检测的人脸图片;
    模型预测模块,用于将所述待检测的人脸图片输入所述训练好的人脸检测模型进行计算,得到所述人脸图片的特征点预测结果,其中,所述特征点预测结果包括目标特征点的属性信息和位置信息。
  7. 如权利要求6所述的人脸特征点检测装置,其特征在于,K等于3,并且所述K个并行卷积层包括第一卷积层、第二卷积层和第三卷积层,所述模型预测模块包括:
    第一标准化子模块,用于对所述待检测的人脸图片进行标准化处理,得到第一人脸数据;
    第一卷积计算子模块,用于将所述第一人脸数据输入所述第一卷积层进行卷积计算,得到第一卷积结果;
    第二标准化子模块,用于对所述第一卷积结果进行所述标准化处理,得到第二人脸数据;
    第二卷积计算子模块,用于将所述第二人脸数据输入所述第二卷积层进行卷积计算,得到第二卷积结果;
    第三标准化子模块,用于对所述第二卷积结果进行所述标准化处理,得到第三人脸数据;
    第三卷积计算子模块,用于将所述第三人脸数据输入所述第三卷积层进行卷积计算,得到第三卷积结果;
    拼接子模块,用于将所述第一卷积结果、所述第二卷积结果和所述第三卷积结果输入所述拼接层进行拼接计算,得到卷积输出结果;
    池化子模块,用于将所述卷积输出结果输入所述全局池化层进行池化计算,得到所述特征点预测结果。
  8. 如权利要求6所述的人脸特征点检测装置,其特征在于,所述模型测试模块包括:
    误差计算子模块,用于根据所述测试结果,计算所述测试结果对应的测试数据集中每个测试样本的归一化平均误差;
    阈值分割子模块,用于将预设的误差阈值按照预设的间隔数值进行平均分割,得到P个子阈值,其中,P为正整数;
    占比计算子模块,用于统计所述归一化平均误差小于每个所述子阈值的测试样本的统计数量,并计算所述统计数量占所述测试结果对应的测试数据集中测试样本总数的百分比,得到P个百分比数值;
    准确率计算子模块,用于计算P个百分比数值的平均值,并将所述平均值作为所述定位准确率。
  9. 如权利要求6至8任一项所述的人脸特征点检测装置,其特征在于,所述第一获取模块包括:
    数据获取子模块,用于获取视频数据和图片;
    视频帧提取子模块,用于按照预设的帧提取频率和预设的最大帧数,从所述视频数据中提取目标视频帧图像;
    标注子模块,用于分别对所述目标视频帧图像和所述图片进行人脸特征点标注,分别得到所述目标视频帧图像的人脸特征点标注信息和所述图片的人脸特征点标注信息;
    图片加工子模块,用于按照预设的加工方式,对所述图片进行加工处理,得到新图片和所述新图片的人脸特征点标注信息;
    样本增广子模块,用于将所述目标视频帧图像、所述图片和所述新图片均作为所述人脸样本图片。
  10. 如权利要求9所述的人脸特征点检测装置,其特征在于,所述图片加工子模块包括:
    翻转子模块,用于对所述图片进行水平翻转处理,得到第一图片和所述第一图片的人脸特征点标注信息;
    旋转子模块,用于按照预设的旋转方式,分别对所述图片和所述第一图片进行旋转处理,得到第二图片和所述第二图片的人脸特征点标注信息;
    平移缩放子模块,用于按照预设的偏移量和预设的缩放比例,分别对所述图片、所述第一图片和所述第二图片中的人脸矩形框依次进行平移处理和缩放处理,得到第三图片和 所述第三图片的人脸特征点标注信息;
    亮度处理子模块,用于按照预设的提取比例,从所述图片、所述第一图片、所述第二图片和所述第三图片中随机选取目标图片,并对所述目标图片进行随机亮度变化处理,得到第四图片和所述第四图片的人脸特征点标注信息;
    新增样本子模块,用于将所述第一图片、所述第二图片、所述第三图片和所述第四图片均作为所述新图片。
  11. 一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如下步骤:
    获取样本数据集,其中,所述样本数据集包含人脸样本图片和每个所述人脸样本图片的人脸特征点标注信息;
    按照预设的划分比例,将所述样本数据集划分为训练数据集和测试数据集;
    使用所述训练数据集对初始人脸检测模型进行训练,得到训练过的人脸检测模型,其中,所述初始人脸检测模型为包含K个并行卷积层、拼接层和全局池化层的卷积神经网络,每个所述并行卷积层具有不同预设尺度的视觉感知范围,K为大于等于3的正整数;
    使用所述测试数据集对所述训练过的人脸检测模型进行测试,并根据测试结果计算所述训练过的人脸检测模型对人脸特征点的定位准确率;
    若所述定位准确率小于预设的准确率阈值,则重新对所述样本数据集中的所述人脸样本图片进行划分,得到新的训练数据集和新的测试数据集,并使用所述新的训练数据集对所述训练过的人脸检测模型进行训练,以更新所述训练过的人脸检测模型,使用所述新的测试数据集对所述训练过的人脸检测模型进行测试,直到所述定位准确率大于或者等于所述预设的准确率阈值为止;
    若所述定位准确率大于或等于所述预设的准确率阈值,则将定位准确率大于或等于所述预设的准确率阈值的所述训练过的人脸检测模型确定为训练好的人脸检测模型;
    获取待检测的人脸图片;
    将所述待检测的人脸图片输入所述训练好的人脸检测模型进行计算,得到所述人脸图片的特征点预测结果,其中,所述特征点预测结果包括目标特征点的属性信息和位置信息。
  12. 如权利要求11所述的计算机设备,其特征在于,K等于3,并且所述K个并行卷积层包括第一卷积层、第二卷积层和第三卷积层,所述将所述待检测的人脸图片输入所述训练好的人脸检测模型进行计算,得到所述人脸图片的特征点预测结果包括:
    对所述待检测的人脸图片进行标准化处理,得到第一人脸数据;
    将所述第一人脸数据输入所述第一卷积层进行卷积计算,得到第一卷积结果;
    对所述第一卷积结果进行所述标准化处理,得到第二人脸数据;
    将所述第二人脸数据输入所述第二卷积层进行卷积计算,得到第二卷积结果;
    对所述第二卷积结果进行所述标准化处理,得到第三人脸数据;
    将所述第三人脸数据输入所述第三卷积层进行卷积计算,得到第三卷积结果;
    将所述第一卷积结果、所述第二卷积结果和所述第三卷积结果输入所述拼接层进行拼接计算,得到卷积输出结果;
    将所述卷积输出结果输入所述全局池化层进行池化计算,得到所述特征点预测结果。
  13. 如权利要求11所述的计算机设备,其特征在于,所述根据测试结果计算所述训练过的人脸检测模型对人脸特征点的定位准确率包括:
    根据所述测试结果,计算所述测试结果对应的测试数据集中每个测试样本的归一化平均误差;
    将预设的误差阈值按照预设的间隔数值进行平均分割,得到P个子阈值,其中,P为正整数;
    统计所述归一化平均误差小于每个所述子阈值的测试样本的统计数量,并计算所述统计数量占所述测试结果对应的测试数据集中测试样本总数的百分比,得到P个百分比数值;
    计算P个百分比数值的平均值,并将所述平均值作为所述定位准确率。
  14. 如权利要求11至13任一项所述的计算机设备,其特征在于,所述获取样本数据集包括:
    获取视频数据和图片;
    按照预设的帧提取频率和预设的最大帧数,从所述视频数据中提取目标视频帧图像;
    分别对所述目标视频帧图像和所述图片进行人脸特征点标注,分别得到所述目标视频帧图像的人脸特征点标注信息和所述图片的人脸特征点标注信息;
    按照预设的加工方式,对所述图片进行加工处理,得到新图片和所述新图片的人脸特征点标注信息;
    将所述目标视频帧图像、所述图片和所述新图片均作为所述人脸样本图片。
  15. 如权利要求14所述的计算机设备,其特征在于,所述按照预设的加工方式,对所述图片进行加工处理,得到新图片和所述新图片的人脸特征点标注信息包括:
    对所述图片进行水平翻转处理,得到第一图片和所述第一图片的人脸特征点标注信息;
    按照预设的旋转方式,分别对所述图片和所述第一图片进行旋转处理,得到第二图片和所述第二图片的人脸特征点标注信息;
    按照预设的偏移量和预设的缩放比例,分别对所述图片、所述第一图片和所述第二图片中的人脸矩形框依次进行平移处理和缩放处理,得到第三图片和所述第三图片的人脸特征点标注信息;
    按照预设的提取比例,从所述图片、所述第一图片、所述第二图片和所述第三图片中随机选取目标图片,并对所述目标图片进行随机亮度变化处理,得到第四图片和所述第四图片的人脸特征点标注信息;
    将所述第一图片、所述第二图片、所述第三图片和所述第四图片均作为所述新图片。
  16. 一个或多个存储有计算机可读指令的非易失性可读存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如下步骤:
    获取样本数据集,其中,所述样本数据集包含人脸样本图片和每个所述人脸样本图片的人脸特征点标注信息;
    按照预设的划分比例,将所述样本数据集划分为训练数据集和测试数据集;
    使用所述训练数据集对初始人脸检测模型进行训练,得到训练过的人脸检测模型,其中,所述初始人脸检测模型为包含K个并行卷积层、拼接层和全局池化层的卷积神经网络,每个所述并行卷积层具有不同预设尺度的视觉感知范围,K为大于等于3的正整数;
    使用所述测试数据集对所述训练过的人脸检测模型进行测试,并根据测试结果计算所述训练过的人脸检测模型对人脸特征点的定位准确率;
    若所述定位准确率小于预设的准确率阈值,则重新对所述样本数据集中的所述人脸样本图片进行划分,得到新的训练数据集和新的测试数据集,并使用所述新的训练数据集对所述训练过的人脸检测模型进行训练,以更新所述训练过的人脸检测模型,使用所述新的测试数据集对所述训练过的人脸检测模型进行测试,直到所述定位准确率大于或者等于所述预设的准确率阈值为止;
    若所述定位准确率大于或等于所述预设的准确率阈值,则将定位准确率大于或等于所述预设的准确率阈值的所述训练过的人脸检测模型确定为训练好的人脸检测模型;
    获取待检测的人脸图片;
    将所述待检测的人脸图片输入所述训练好的人脸检测模型进行计算,得到所述人脸图片的特征点预测结果,其中,所述特征点预测结果包括目标特征点的属性信息和位置信息。
  17. 如权利要求16所述的非易失性可读存储介质,其特征在于,K等于3,并且所述K个并行卷积层包括第一卷积层、第二卷积层和第三卷积层,所述将所述待检测的人脸图片输入所述训练好的人脸检测模型进行计算,得到所述人脸图片的特征点预测结果包括:
    对所述待检测的人脸图片进行标准化处理,得到第一人脸数据;
    将所述第一人脸数据输入所述第一卷积层进行卷积计算,得到第一卷积结果;
    对所述第一卷积结果进行所述标准化处理,得到第二人脸数据;
    将所述第二人脸数据输入所述第二卷积层进行卷积计算,得到第二卷积结果;
    对所述第二卷积结果进行所述标准化处理,得到第三人脸数据;
    将所述第三人脸数据输入所述第三卷积层进行卷积计算,得到第三卷积结果;
    将所述第一卷积结果、所述第二卷积结果和所述第三卷积结果输入所述拼接层进行拼接计算,得到卷积输出结果;
    将所述卷积输出结果输入所述全局池化层进行池化计算,得到所述特征点预测结果。
  18. 如权利要求16所述的非易失性可读存储介质,其特征在于,所述根据测试结果计算所述训练过的人脸检测模型对人脸特征点的定位准确率包括:
    根据所述测试结果,计算所述测试结果对应的测试数据集中每个测试样本的归一化平均误差;
    将预设的误差阈值按照预设的间隔数值进行平均分割,得到P个子阈值,其中,P为正整数;
    统计所述归一化平均误差小于每个所述子阈值的测试样本的统计数量,并计算所述统计数量占所述测试结果对应的测试数据集中测试样本总数的百分比,得到P个百分比数值;
    计算P个百分比数值的平均值,并将所述平均值作为所述定位准确率。
  19. 如权利要求16至18任一项所述的非易失性可读存储介质,其特征在于,所述获取样本数据集包括:
    获取视频数据和图片;
    按照预设的帧提取频率和预设的最大帧数,从所述视频数据中提取目标视频帧图像;
    分别对所述目标视频帧图像和所述图片进行人脸特征点标注,分别得到所述目标视频帧图像的人脸特征点标注信息和所述图片的人脸特征点标注信息;
    按照预设的加工方式,对所述图片进行加工处理,得到新图片和所述新图片的人脸特征点标注信息;
    将所述目标视频帧图像、所述图片和所述新图片均作为所述人脸样本图片。
  20. 如权利要求19所述的非易失性可读存储介质,其特征在于,所述按照预设的加工方式,对所述图片进行加工处理,得到新图片和所述新图片的人脸特征点标注信息包括:
    对所述图片进行水平翻转处理,得到第一图片和所述第一图片的人脸特征点标注信息;
    按照预设的旋转方式,分别对所述图片和所述第一图片进行旋转处理,得到第二图片和所述第二图片的人脸特征点标注信息;
    按照预设的偏移量和预设的缩放比例,分别对所述图片、所述第一图片和所述第二图片中的人脸矩形框依次进行平移处理和缩放处理,得到第三图片和所述第三图片的人脸特征点标注信息;
    按照预设的提取比例,从所述图片、所述第一图片、所述第二图片和所述第三图片中随机选取目标图片,并对所述目标图片进行随机亮度变化处理,得到第四图片和所述第四图片的人脸特征点标注信息;
    将所述第一图片、所述第二图片、所述第三图片和所述第四图片均作为所述新图片。
PCT/CN2018/120857 2018-08-23 2018-12-13 人脸特征点检测方法、装置、计算机设备及存储介质 WO2020037898A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810963841.0A CN109389030B (zh) 2018-08-23 2018-08-23 人脸特征点检测方法、装置、计算机设备及存储介质
CN201810963841.0 2018-08-23

Publications (1)

Publication Number Publication Date
WO2020037898A1 true WO2020037898A1 (zh) 2020-02-27

Family

ID=65418558

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/120857 WO2020037898A1 (zh) 2018-08-23 2018-12-13 人脸特征点检测方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN109389030B (zh)
WO (1) WO2020037898A1 (zh)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368758A (zh) * 2020-03-09 2020-07-03 苏宁云计算有限公司 一种人脸模糊度检测方法、装置、计算机设备及存储介质
CN111368731A (zh) * 2020-03-04 2020-07-03 上海东普信息科技有限公司 静默活体检测方法、装置、设备及存储介质
CN111368792A (zh) * 2020-03-18 2020-07-03 北京奇艺世纪科技有限公司 特征点标注模型训练方法、装置、电子设备及存储介质
CN111401314A (zh) * 2020-04-10 2020-07-10 上海东普信息科技有限公司 着装信息检测方法、装置、设备及存储介质
CN111462108A (zh) * 2020-04-13 2020-07-28 山西新华化工有限责任公司 一种基于机器学习的头面部产品设计工效学评估操作方法
CN111539248A (zh) * 2020-03-10 2020-08-14 西安电子科技大学 一种红外线人脸检测方法、装置及其电子设备
CN111539600A (zh) * 2020-04-07 2020-08-14 北京航天自动控制研究所 一种基于测试的神经网络目标检测稳定性评价方法
CN111783535A (zh) * 2020-05-28 2020-10-16 北京沃东天骏信息技术有限公司 关键点数据增强方法和装置、以及关键点检测方法和装置
CN111832522A (zh) * 2020-07-21 2020-10-27 深圳力维智联技术有限公司 人脸数据集的构建方法、系统及计算机可读存储介质
CN111860195A (zh) * 2020-06-25 2020-10-30 郭艺斌 一种基于大数据的安保检测方法及安保检测装置
CN111862040A (zh) * 2020-07-20 2020-10-30 中移(杭州)信息技术有限公司 人像图片质量评价方法、装置、设备及存储介质
CN111881746A (zh) * 2020-06-23 2020-11-03 安徽清新互联信息科技有限公司 一种基于信息融合的人脸特征点定位方法及系统
CN111917740A (zh) * 2020-07-15 2020-11-10 杭州安恒信息技术股份有限公司 一种异常流量告警日志检测方法、装置、设备及介质
CN112101121A (zh) * 2020-08-19 2020-12-18 深圳数联天下智能科技有限公司 人脸敏感识别方法及装置、存储介质及计算机设备
CN112101105A (zh) * 2020-08-07 2020-12-18 深圳数联天下智能科技有限公司 人脸关键点检测模型的训练方法、装置以及存储介质
CN112200236A (zh) * 2020-09-30 2021-01-08 网易(杭州)网络有限公司 人脸参数识别模型的训练方法、人脸参数的识别方法
CN112232236A (zh) * 2020-10-20 2021-01-15 城云科技(中国)有限公司 行人流量的监测方法、系统、计算机设备和存储介质
CN112348791A (zh) * 2020-11-04 2021-02-09 中冶赛迪重庆信息技术有限公司 基于机器视觉的废钢智能检判方法、系统、介质及终端
CN112613480A (zh) * 2021-01-04 2021-04-06 上海明略人工智能(集团)有限公司 一种人脸识别方法、系统、电子设备及存储介质
CN112686178A (zh) * 2020-12-30 2021-04-20 中国电子科技集团公司信息科学研究院 一种多视角目标轨迹生成方法、装置和电子设备
CN112767303A (zh) * 2020-08-12 2021-05-07 腾讯科技(深圳)有限公司 一种图像检测方法、装置、设备及计算机可读存储介质
CN112884705A (zh) * 2021-01-06 2021-06-01 西北工业大学 一种二维材料样品位置可视化方法
CN113496173A (zh) * 2020-04-07 2021-10-12 北京君正集成电路股份有限公司 一种级联的人脸检测最后一级的检测方法
CN113609900A (zh) * 2021-06-25 2021-11-05 南京信息工程大学 局部生成人脸定位方法、装置、计算机设备和存储介质
CN113761983A (zh) * 2020-06-05 2021-12-07 杭州海康威视数字技术股份有限公司 更新人脸活体检测模型的方法、装置及图像采集设备
CN113780145A (zh) * 2021-09-06 2021-12-10 苏州贝康智能制造有限公司 精子形态检测方法、装置、计算机设备和存储介质
CN114267069A (zh) * 2021-12-25 2022-04-01 福州大学 基于数据泛化与特征增强的人脸检测方法
CN115937958A (zh) * 2022-12-01 2023-04-07 北京惠朗时代科技有限公司 一种眨眼检测方法、装置、设备及存储介质

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188627B (zh) * 2019-05-13 2021-11-23 睿视智觉(厦门)科技有限公司 一种人脸图像过滤方法及装置
CN110222726A (zh) * 2019-05-15 2019-09-10 北京字节跳动网络技术有限公司 图像处理方法、装置及电子设备
CN110363077A (zh) * 2019-06-05 2019-10-22 平安科技(深圳)有限公司 手语识别方法、装置、计算机装置及存储介质
CN110321807A (zh) * 2019-06-13 2019-10-11 南京行者易智能交通科技有限公司 一种基于多层特征融合的卷积神经网络打哈欠行为识别方法及装置
CN110502432B (zh) * 2019-07-23 2023-11-28 平安科技(深圳)有限公司 智能测试方法、装置、设备及可读存储介质
CN110363768B (zh) * 2019-08-30 2021-08-17 重庆大学附属肿瘤医院 一种基于深度学习的早期癌病灶范围预测辅助系统
CN110705598B (zh) * 2019-09-06 2024-05-28 中国平安财产保险股份有限公司 智能模型管理方法、装置、计算机设备及存储介质
WO2021057062A1 (zh) * 2019-09-23 2021-04-01 平安科技(深圳)有限公司 颜值判定模型优化方法、装置、电子设备及存储介质
CN110728968A (zh) * 2019-10-14 2020-01-24 腾讯音乐娱乐科技(深圳)有限公司 一种音频伴奏信息的评估方法、装置及存储介质
CN110955590A (zh) * 2019-10-15 2020-04-03 北京海益同展信息科技有限公司 界面检测方法、图像处理方法、装置、电子设备及存储介质
CN110929635B (zh) * 2019-11-20 2023-02-10 华南理工大学 基于信任机制下面部交并比的假脸视频检测方法及系统
CN111209812B (zh) * 2019-12-27 2023-09-12 深圳市优必选科技股份有限公司 目标人脸图片提取方法、装置及终端设备
CN113496174B (zh) * 2020-04-07 2024-01-23 北京君正集成电路股份有限公司 一种提升三级级联检测召回率和正确率的方法
CN111695462A (zh) * 2020-05-29 2020-09-22 平安科技(深圳)有限公司 一种人脸识别方法、装置、存储介质和服务器
CN111680595A (zh) * 2020-05-29 2020-09-18 新疆爱华盈通信息技术有限公司 一种人脸识别方法、装置及电子设备
CN111783623B (zh) * 2020-06-29 2024-04-12 北京百度网讯科技有限公司 用于识别定位元素的算法调整方法、装置、设备和介质
CN111932593B (zh) * 2020-07-21 2024-04-09 湖南中联重科智能技术有限公司 基于触摸屏手势校正的图像配准方法、系统及设备
CN112183336A (zh) * 2020-09-28 2021-01-05 平安科技(深圳)有限公司 表情识别模型训练方法、装置、终端设备及存储介质
CN112733531B (zh) * 2020-12-15 2023-08-18 平安银行股份有限公司 虚拟资源分配方法、装置、电子设备及计算机存储介质
CN112528929A (zh) * 2020-12-22 2021-03-19 北京百度网讯科技有限公司 数据标注方法及装置、电子设备、介质和产品
CN112668573B (zh) * 2020-12-25 2022-05-10 平安科技(深圳)有限公司 目标检测定位置信度确定方法、装置、电子设备及存储介质
CN112870665A (zh) * 2021-02-04 2021-06-01 太原理工大学 一种篮球控球训练仪及其控制方法
CN113065422A (zh) * 2021-03-19 2021-07-02 北京达佳互联信息技术有限公司 视频目标检测模型的训练、视频目标检测方法及装置
CN113946703B (zh) * 2021-10-20 2024-04-19 天翼视联科技有限公司 一种图片漏检处理方法及其相关装置
CN116844646B (zh) * 2023-09-04 2023-11-24 鲁东大学 一种基于深度对比学习的酶功能预测方法
CN117333928B (zh) * 2023-12-01 2024-03-22 深圳市宗匠科技有限公司 一种人脸特征点检测方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389573A (zh) * 2015-12-23 2016-03-09 山东大学 一种基于局部三值模式分层重构的人脸识别方法
CN106951840A (zh) * 2017-03-09 2017-07-14 北京工业大学 一种人脸特征点检测方法
CN107423690A (zh) * 2017-06-26 2017-12-01 广东工业大学 一种人脸识别方法及装置
CN107871099A (zh) * 2016-09-23 2018-04-03 北京眼神科技有限公司 人脸定位方法和装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7050933B2 (en) * 2001-08-24 2006-05-23 Bio-Rad Laboratories, Inc. Biometric quality control process
US9053354B2 (en) * 2011-05-23 2015-06-09 Intel Corporation Fast face detection technique
US10096132B2 (en) * 2016-01-27 2018-10-09 Samsung Electronics Co., Ltd. Method and apparatus for positioning feature point
CN108229268A (zh) * 2016-12-31 2018-06-29 商汤集团有限公司 表情识别及卷积神经网络模型训练方法、装置和电子设备
CN107403141B (zh) * 2017-07-05 2020-01-10 中国科学院自动化研究所 人脸检测方法及装置、计算机可读存储介质、设备
CN107633265B (zh) * 2017-09-04 2021-03-30 深圳市华傲数据技术有限公司 用于优化信用评估模型的数据处理方法及装置
CN108319908A (zh) * 2018-01-26 2018-07-24 华中科技大学 一种基于像素级差分特征的非受限环境人脸检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389573A (zh) * 2015-12-23 2016-03-09 山东大学 一种基于局部三值模式分层重构的人脸识别方法
CN107871099A (zh) * 2016-09-23 2018-04-03 北京眼神科技有限公司 人脸定位方法和装置
CN106951840A (zh) * 2017-03-09 2017-07-14 北京工业大学 一种人脸特征点检测方法
CN107423690A (zh) * 2017-06-26 2017-12-01 广东工业大学 一种人脸识别方法及装置

Cited By (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368731A (zh) * 2020-03-04 2020-07-03 上海东普信息科技有限公司 静默活体检测方法、装置、设备及存储介质
CN111368731B (zh) * 2020-03-04 2023-06-09 上海东普信息科技有限公司 静默活体检测方法、装置、设备及存储介质
CN111368758B (zh) * 2020-03-09 2023-05-23 苏宁云计算有限公司 一种人脸模糊度检测方法、装置、计算机设备及存储介质
CN111368758A (zh) * 2020-03-09 2020-07-03 苏宁云计算有限公司 一种人脸模糊度检测方法、装置、计算机设备及存储介质
CN111539248A (zh) * 2020-03-10 2020-08-14 西安电子科技大学 一种红外线人脸检测方法、装置及其电子设备
CN111368792B (zh) * 2020-03-18 2024-05-14 北京奇艺世纪科技有限公司 特征点标注模型训练方法、装置、电子设备及存储介质
CN111368792A (zh) * 2020-03-18 2020-07-03 北京奇艺世纪科技有限公司 特征点标注模型训练方法、装置、电子设备及存储介质
CN111539600B (zh) * 2020-04-07 2023-09-01 北京航天自动控制研究所 一种基于测试的神经网络目标检测稳定性评价方法
CN111539600A (zh) * 2020-04-07 2020-08-14 北京航天自动控制研究所 一种基于测试的神经网络目标检测稳定性评价方法
CN113496173A (zh) * 2020-04-07 2021-10-12 北京君正集成电路股份有限公司 一种级联的人脸检测最后一级的检测方法
CN113496173B (zh) * 2020-04-07 2023-09-26 北京君正集成电路股份有限公司 一种级联的人脸检测最后一级的检测方法
CN111401314B (zh) * 2020-04-10 2023-06-13 上海东普信息科技有限公司 着装信息检测方法、装置、设备及存储介质
CN111401314A (zh) * 2020-04-10 2020-07-10 上海东普信息科技有限公司 着装信息检测方法、装置、设备及存储介质
CN111462108A (zh) * 2020-04-13 2020-07-28 山西新华化工有限责任公司 一种基于机器学习的头面部产品设计工效学评估操作方法
CN111462108B (zh) * 2020-04-13 2023-05-02 山西新华防化装备研究院有限公司 一种基于机器学习的头面部产品设计工效学评估操作方法
CN111783535A (zh) * 2020-05-28 2020-10-16 北京沃东天骏信息技术有限公司 关键点数据增强方法和装置、以及关键点检测方法和装置
CN113761983B (zh) * 2020-06-05 2023-08-22 杭州海康威视数字技术股份有限公司 更新人脸活体检测模型的方法、装置及图像采集设备
CN113761983A (zh) * 2020-06-05 2021-12-07 杭州海康威视数字技术股份有限公司 更新人脸活体检测模型的方法、装置及图像采集设备
CN111881746A (zh) * 2020-06-23 2020-11-03 安徽清新互联信息科技有限公司 一种基于信息融合的人脸特征点定位方法及系统
CN111881746B (zh) * 2020-06-23 2024-04-02 安徽清新互联信息科技有限公司 一种基于信息融合的人脸特征点定位方法及系统
CN111860195B (zh) * 2020-06-25 2024-03-01 广州珠江商业经营管理有限公司 一种基于大数据的安保检测方法及安保检测装置
CN111860195A (zh) * 2020-06-25 2020-10-30 郭艺斌 一种基于大数据的安保检测方法及安保检测装置
CN111917740A (zh) * 2020-07-15 2020-11-10 杭州安恒信息技术股份有限公司 一种异常流量告警日志检测方法、装置、设备及介质
CN111862040A (zh) * 2020-07-20 2020-10-30 中移(杭州)信息技术有限公司 人像图片质量评价方法、装置、设备及存储介质
CN111862040B (zh) * 2020-07-20 2023-10-31 中移(杭州)信息技术有限公司 人像图片质量评价方法、装置、设备及存储介质
CN111832522A (zh) * 2020-07-21 2020-10-27 深圳力维智联技术有限公司 人脸数据集的构建方法、系统及计算机可读存储介质
CN111832522B (zh) * 2020-07-21 2024-02-27 深圳力维智联技术有限公司 人脸数据集的构建方法、系统及计算机可读存储介质
CN112101105A (zh) * 2020-08-07 2020-12-18 深圳数联天下智能科技有限公司 人脸关键点检测模型的训练方法、装置以及存储介质
CN112101105B (zh) * 2020-08-07 2024-04-09 深圳数联天下智能科技有限公司 人脸关键点检测模型的训练方法、装置以及存储介质
CN112767303A (zh) * 2020-08-12 2021-05-07 腾讯科技(深圳)有限公司 一种图像检测方法、装置、设备及计算机可读存储介质
CN112767303B (zh) * 2020-08-12 2023-11-28 腾讯科技(深圳)有限公司 一种图像检测方法、装置、设备及计算机可读存储介质
CN112101121B (zh) * 2020-08-19 2024-04-30 深圳数联天下智能科技有限公司 人脸敏感识别方法及装置、存储介质及计算机设备
CN112101121A (zh) * 2020-08-19 2020-12-18 深圳数联天下智能科技有限公司 人脸敏感识别方法及装置、存储介质及计算机设备
CN112200236A (zh) * 2020-09-30 2021-01-08 网易(杭州)网络有限公司 人脸参数识别模型的训练方法、人脸参数的识别方法
CN112200236B (zh) * 2020-09-30 2023-08-11 网易(杭州)网络有限公司 人脸参数识别模型的训练方法、人脸参数的识别方法
CN112232236B (zh) * 2020-10-20 2024-02-06 城云科技(中国)有限公司 行人流量的监测方法、系统、计算机设备和存储介质
CN112232236A (zh) * 2020-10-20 2021-01-15 城云科技(中国)有限公司 行人流量的监测方法、系统、计算机设备和存储介质
CN112348791B (zh) * 2020-11-04 2023-03-14 中冶赛迪信息技术(重庆)有限公司 基于机器视觉的废钢智能检判方法、系统、介质及终端
CN112348791A (zh) * 2020-11-04 2021-02-09 中冶赛迪重庆信息技术有限公司 基于机器视觉的废钢智能检判方法、系统、介质及终端
CN112686178A (zh) * 2020-12-30 2021-04-20 中国电子科技集团公司信息科学研究院 一种多视角目标轨迹生成方法、装置和电子设备
CN112686178B (zh) * 2020-12-30 2024-04-16 中国电子科技集团公司信息科学研究院 一种多视角目标轨迹生成方法、装置和电子设备
CN112613480A (zh) * 2021-01-04 2021-04-06 上海明略人工智能(集团)有限公司 一种人脸识别方法、系统、电子设备及存储介质
CN112884705A (zh) * 2021-01-06 2021-06-01 西北工业大学 一种二维材料样品位置可视化方法
CN112884705B (zh) * 2021-01-06 2024-05-14 西北工业大学 一种二维材料样品位置可视化方法
CN113609900B (zh) * 2021-06-25 2023-09-12 南京信息工程大学 局部生成人脸定位方法、装置、计算机设备和存储介质
CN113609900A (zh) * 2021-06-25 2021-11-05 南京信息工程大学 局部生成人脸定位方法、装置、计算机设备和存储介质
CN113780145A (zh) * 2021-09-06 2021-12-10 苏州贝康智能制造有限公司 精子形态检测方法、装置、计算机设备和存储介质
CN114267069A (zh) * 2021-12-25 2022-04-01 福州大学 基于数据泛化与特征增强的人脸检测方法
CN115937958B (zh) * 2022-12-01 2023-12-15 北京惠朗时代科技有限公司 一种眨眼检测方法、装置、设备及存储介质
CN115937958A (zh) * 2022-12-01 2023-04-07 北京惠朗时代科技有限公司 一种眨眼检测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN109389030B (zh) 2022-11-29
CN109389030A (zh) 2019-02-26

Similar Documents

Publication Publication Date Title
WO2020037898A1 (zh) 人脸特征点检测方法、装置、计算机设备及存储介质
US11348249B2 (en) Training method for image semantic segmentation model and server
US11403876B2 (en) Image processing method and apparatus, facial recognition method and apparatus, and computer device
US11200404B2 (en) Feature point positioning method, storage medium, and computer device
WO2021004112A1 (zh) 异常人脸检测方法、异常识别方法、装置、设备及介质
US11238272B2 (en) Method and apparatus for detecting face image
CN113239874B (zh) 基于视频图像的行为姿态检测方法、装置、设备及介质
CN111046959A (zh) 模型训练方法、装置、设备和存储介质
CN109448007B (zh) 图像处理方法、图像处理装置及存储介质
CN109840524B (zh) 文字的类型识别方法、装置、设备及存储介质
CN107679475B (zh) 门店监控评价方法、装置及存储介质
US11017296B2 (en) Classifying time series image data
CN108960081B (zh) 一种手掌图像识别方法、装置及计算机可读存储介质
WO2020155485A1 (zh) 图片差异性判断方法、装置、计算机设备和存储介质
CN110889457B (zh) 样本图像分类训练方法、装置、计算机设备和存储介质
CN111144285B (zh) 胖瘦程度识别方法、装置、设备及介质
US20240169518A1 (en) Method and apparatus for identifying body constitution in traditional chinese medicine, electronic device, storage medium and program
WO2019033567A1 (zh) 眼球动作捕捉方法、装置及存储介质
CN111144398A (zh) 目标检测方法、装置、计算机设备和存储介质
WO2022206729A1 (zh) 视频封面选择方法、装置、计算机设备和存储介质
CN111832561B (zh) 基于计算机视觉的字符序列识别方法、装置、设备和介质
WO2021169625A1 (zh) 网络翻拍照片的检测方法、装置、计算机设备及存储介质
CN111291627B (zh) 人脸识别方法、装置及计算机设备
TWI803243B (zh) 圖像擴增方法、電腦設備及儲存介質
CN113516697B (zh) 图像配准的方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18931238

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18931238

Country of ref document: EP

Kind code of ref document: A1