WO2019208869A1 - 학습을 이용한 얼굴 특징점 검출 방법 및 장치 - Google Patents

학습을 이용한 얼굴 특징점 검출 방법 및 장치 Download PDF

Info

Publication number
WO2019208869A1
WO2019208869A1 PCT/KR2018/006079 KR2018006079W WO2019208869A1 WO 2019208869 A1 WO2019208869 A1 WO 2019208869A1 KR 2018006079 W KR2018006079 W KR 2018006079W WO 2019208869 A1 WO2019208869 A1 WO 2019208869A1
Authority
WO
WIPO (PCT)
Prior art keywords
correction vector
feature point
face
output
feature
Prior art date
Application number
PCT/KR2018/006079
Other languages
English (en)
French (fr)
Inventor
이상윤
박성주
전태재
배한별
도진경
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Publication of WO2019208869A1 publication Critical patent/WO2019208869A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Definitions

  • the present invention relates to a method and apparatus for detecting facial feature points, and more particularly, to a method and apparatus for detecting facial feature points using learning.
  • the feature point detection of the face is performed for various applications for face recognition and face image.
  • the feature point is detected by selecting a point capable of expressing the shape of the face, and is mainly assigned to an area such as the contour of the face, eyes, nose, and mouth. Accurate feature point detection is very important for accurate face recognition.
  • the detection of a feature point is mainly performed by an algorithm, and the most common algorithm is a hand-craft algorithm.
  • the feature point detection by the algorithm has a problem in that a big failure in which the feature point is detected in a region unrelated to the face often occurs in a specific pose of the face image.
  • the face image is input using the neural network learning model as input data, and the learning is performed by back-propagating the difference between the known true feature and the characteristic point output from the neural network.
  • Feature detection using neural networks has the advantage of reducing the occurrence of big failures compared to feature detection by conventional algorithms, but sufficient learning has to be made for stable feature detection.
  • neural network learning had to be performed after securing sufficient learning data.
  • the true value of the feature point of the face has a problem that it is difficult to secure sufficient learning data to be specified manually by hand.
  • the feature point detection method using the existing learning has a problem that it is difficult to detect the feature point stably using the learning data known to date.
  • the present invention proposes a feature point detection apparatus and method using learning that can effectively detect feature points even with relatively adaptive amounts of learning data.
  • a face detection unit for detecting a face region from the target image to generate a face detection image
  • a feature point output unit to output a plurality of feature points using a preset algorithm for the face detection image
  • a correction vector output network trained to correct coordinates of a plurality of feature points output from the feature point output unit, and outputting a correction vector for correcting the coordinates of the feature points by receiving the face detection image
  • a feature point determiner configured to determine a final feature point by reflecting the correction vector for each of the feature points.
  • the preset algorithm includes a handcraft algorithm.
  • the correction vector includes a ⁇ x component for moving each of the feature point coordinates on the x-axis and a ⁇ y component for moving on the y-axis.
  • the correction vector output network includes a convolutional neural network and is trained to update the coefficients of the filter applying the convolution operation.
  • the correction vector output network receives the cost function corresponding to the difference between the true value of the reference point of the reference image and the feature point coordinates reflecting the correction vector, which is the output of the correction vector output network, on the feature point detected by the preset algorithm. Update the filter coefficients.
  • the face detector detects a face region by a histogram of gradient (HOG) + support vector machine (SVM) method.
  • HOG histogram of gradient
  • SVM support vector machine
  • the feature point can be effectively detected even with a relatively adaptive amount of learning data.
  • FIG. 1 is a block diagram illustrating a schematic structure of an apparatus for detecting facial feature points using learning according to an embodiment of the present invention.
  • FIG. 2 illustrates an example of a big failure that occurs when detecting feature points by a hand-craft algorithm.
  • FIG. 3 illustrates a learning structure of a correction vector output network according to an embodiment of the present invention.
  • FIG. 4 illustrates a detailed structure of a correction vector network according to an embodiment of the present invention.
  • FIG. 5 is a flow chart showing the overall flow of the facial feature point detection method according to an embodiment of the present invention.
  • FIG. 1 is a block diagram illustrating a schematic structure of an apparatus for detecting facial feature points using learning according to an embodiment of the present invention.
  • the apparatus for detecting facial feature points using learning may include an image input unit 100, a face detector 110, a hand-craft feature point output unit 120, and a correction vector output network 130. ) And the feature point determiner 140.
  • the feature point detection device of the present invention is a device for detecting feature points by receiving a face image.
  • the feature points are points for identifying the shape of the face, and a plurality of feature points are detected in the main area of the face.
  • a feature point is assigned to an important part of the shape of the face such as a contour area of the face, an eye area, a nose area, and a mouth area.
  • the number of feature points detected is preset. For example, 68 feature points may be detected from an input image.
  • the facial feature point detection apparatus proposed in the present invention uses a feature point detection using a conventional hand-craft algorithm and a feature point detection using learning.
  • the learning target is a feature vector, not a feature point, and a detailed meaning of the correction vector. This will be described later.
  • the image input unit 100 receives a target image to detect a feature point.
  • the target image is an image in which a face is photographed, and the image includes a face and a background.
  • the face detector 102 detects a face region from the target image input to the image input unit.
  • the background area is removed from the target image and only the face area is detected.
  • Various techniques are known for removing a background from an image and detecting only a face region, and the face region may be detected by any method.
  • a face region may be detected using a histogram of gradient (HOG) + support vector machine (SVM) method.
  • HOG calculates the gradient and orientation of all pixel values inside a cell of a certain size and generates histograms using these values, and uses this as the feature vector of SVM to detect the face region. .
  • the face detector 110 outputs a face detection image in which only the detected face region exists and the background is removed.
  • the hand-craft feature point output unit 120 outputs the feature point of the face image by using a hand-craft algorithm on the face image output from the face detector 110.
  • the hand-craft algorithm detects a feature point through a variable for feature point extraction and a calculation of the variable. For example, there is a TREE algorithm.
  • the TREE algorithm speeds up the convergence rate by using a regression tree classifier on the features extracted by random ferm.
  • the TREE algorithm is an algorithm that can be calibrated several times in a cascade manner. Of course, it will be readily understood by those skilled in the art that various feature extraction algorithms may be used in addition to the TREE algorithm.
  • the hand-craft algorithm is a high performance algorithm, but it can cause big failures depending on the pose of the user.
  • FIG. 2 is a diagram illustrating an example of a big failure that occurs when the feature point is detected by the hand-craft algorithm.
  • feature points are assigned to areas that are not related to the contour of the face and eyes / nose / mouth.
  • the present invention includes a correction vector output network, which is a network formed by learning to minimize the occurrence of such big failures and to detect more precise feature points.
  • the correction vector is a vector for correcting the coordinates of the feature point output from the hand-craft feature point output unit 120.
  • the feature point output from the hand-craft feature point output unit 120 is output in the form of pixel coordinates such as (x, y), and the correction vector has a form of a value for correcting the coordinates of the feature point.
  • the correction vector may have the form [ ⁇ x, ⁇ y].
  • ⁇ x is a value for correcting the x-axis value of the feature point
  • ⁇ y is a value for correcting the y-axis value of the feature point
  • the handcraft feature point output unit 120 may output 68 feature points, and the correction vector output network 130 outputs a correction vector for correcting feature point coordinates for each of the 68 feature points. That is, the correction vector output network 130 outputs a correction vector for each feature point.
  • the correction vector output network 130 is a network determined by learning, input data of the correction vector output network 130 is an output image of the face detector 110, and output data is correction vector data.
  • the learning structure of the correction vector output network will be described with reference to a separate drawing.
  • the feature point information (feature point coordinate information) output from the handcraft feature point output unit 120 and the correction vector information output from the correction vector output network 130 are input to the feature point determiner 140.
  • the feature point determiner 140 determines the feature point by reflecting the correction vector output from the correction vector output network 130 to the feature point coordinates output from the handcraft feature point output unit 120.
  • the feature point determiner 140 removes (x1 + ⁇ x1, y1 + ⁇ y1). 1 Determine the final coordinates for the feature point. This feature point determination is done for all feature points.
  • the present invention having the structure as described above, it is possible to detect the feature points with a small amount of learning data, compared to the feature point determination device based on the conventional learning.
  • the feature data for learning is very difficult to secure. Therefore, in the case of detecting the existing feature points by learning, there is a problem that it is difficult to accurately detect the feature points due to insufficient learning.
  • the present invention learns a correction vector for correcting a feature point rather than learning the feature point detection itself, it enables accurate feature point detection with a smaller amount of learning data than the conventional method.
  • FIG. 3 is a diagram illustrating a learning structure of a correction vector output network according to an embodiment of the present invention.
  • a reference image for learning is selected and input (300).
  • the reference image for learning refers to an image having a feature true (Tround Truth) of the face image.
  • One of the prepared learning images may be randomly selected and input.
  • a face region is detected from the reference image (302).
  • the face detection is performed in the same manner as the operation of the face detector 102 of FIG. 1.
  • the face detection in the learning stage may also detect a face by using the SVM + HOG scheme.
  • the face detection method may be performed in the same manner as the face detection method in a device to which the correction vector output network is applied. There is no particular limitation on the face detection method, and any known face detection method may be used.
  • the feature point is detected using the hand-craft algorithm on the face detection image of the reference image (304).
  • the hand-craft algorithm also detects the feature points using the same algorithm as the face detection apparatus to which the correction vector output network is applied.
  • the TREE algorithm may be used.
  • the detected face image is input to the correction vector output network, and the correction vector output network performs learning using the face detection image (306).
  • a feature point is determined by applying a correction vector output from a correction vector output network to a feature point output by using a hand-craft algorithm, and a cost function is calculated by using a feature true of the input reference image. (308).
  • the cost function is a value corresponding to the difference between the feature point true value of the input reference image and the feature point reflecting the correction vector.
  • the cost function may be calculated as Equation 1 below.
  • the computed cost function is back propagated back to the correction vector output network.
  • the correction vector output network is in the form of a convolutional neural network, and the correction vector output network updates filter coefficients to apply convolution based on the backpropagated cost function value.
  • the update of the filter coefficient is performed in a direction in which the difference between the true value of the reference image and the feature point coordinate reflecting the correction vector is minimized.
  • the filter coefficient updating operation of the correction vector output network is repeatedly performed based on the cost function value propagated back until the preset repetition learning number N is reached.
  • FIG. 4 is a diagram illustrating a detailed structure of a correction vector network according to an embodiment of the present invention.
  • convolution filtering is performed in the first convolution layer 410 on the input image 400.
  • convolution filtering may be performed on the 56 ⁇ 56 size image. 4 illustrates a case where convolutional filtering is performed by applying 20 filters in the first convolutional layer 410.
  • max pulling is performed to reduce the size in the first max pulling layer 420.
  • 20 filters for max pooling may also be used.
  • convolution filtering is performed in the second convolution layer 430.
  • Convolutional filtering may be performed on a 24 ⁇ 24 sized image.
  • the number of filters may be set to 48, for example.
  • max pooling is performed in the second max pooling layer 440 to reduce the size.
  • This convolution and max pooling are the same in the third convolutional layer 450 and the fourth max pooling layer 460.
  • convolution filtering is performed by applying 80 filters to 3 ⁇ 3 size data.
  • the output of the fifth convolutional layer is output as one-dimensional data 480. 1 shows 512 one-dimensional data.
  • the 512 one-dimensional data is again reduced to 136 one-dimensional data 490 through filtering, and this data corresponds to a correction vector.
  • this data corresponds to a correction vector. For example, when 68 feature points are used, since the correction vector requires two data, ⁇ x and ⁇ y, for each feature point, a total of 136 data is output.
  • the filter coefficients of the multiple filters applied to each convolutional layer and the max pooling layer are updated based on the backpropagated cost function.
  • FIG. 5 is a flowchart illustrating the overall flow of a method for detecting facial feature points according to an embodiment of the present invention.
  • a target image for detecting feature points is input (step 500).
  • the input image is an image including a face and a background.
  • the face detection image is an image from which the background is removed by applying a null value to the background region of the target image.
  • the feature point is detected using the handcraft algorithm on the face detection image of the target image (step 504).
  • a handcraft algorithm such as the TREE algorithm may be used, and a predetermined number of feature points (for example, 68) are detected.
  • the face detection image of the target image is also input to the correction vector output network, and the correction vector output network generates a correction vector using the learned convolution filter (step 506).
  • a correction vector is generated for each feature point.
  • the coordinates of each feature point detected in step 504 are corrected using the correction vector output in step 506, and the corrected feature point is determined as the final feature point (step 508).
  • the present invention is not necessarily limited to these embodiments. In other words, within the scope of the present invention, all of the components may be selectively operated in combination with one or more.
  • all of the components may be implemented in one independent hardware, each or some of the components of the components are selectively combined to perform some or all of the functions combined in one or a plurality of hardware It may be implemented as a computer program having a.
  • such a computer program is stored in a computer readable medium such as a USB memory, a CD disk, a flash memory, and the like, and is read and executed by a computer, thereby implementing embodiments of the present invention.
  • the recording medium of the computer program may include a magnetic recording medium, an optical recording medium and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

학습을 이용한 얼굴 특징점 검출 방법 및 장치가 개시된다. 개시된 장치는, 대상 영상으로부터 얼굴 영역을 검출하여 얼굴 검출 영상을 생성하는 얼굴 검출부; 상기 얼굴 검출 영상에 대해 미리 설정된 알고리즘을 이용하여 복수의 특징점을 출력하는 특징점 출력부; 상기 특징점 출력부에서 출력하는 복수의 특징점의 좌표를 보정하도록 학습되어 있으며 상기 얼굴 검출 영상을 입력받아 상기 복수의 특징점의 좌표를 보정하기 위한 보정 벡터를 출력하는 보정 벡터 출력 네트워크; 및 상기 보정 벡터를 상기 복수의 특징점별로 반영하여 최종적인 특징점을 결정하는 특징점 결정부를 포함한다. 개시된 장치 및 방법에 의하면, 비교적 적응 양의 학습 데이터로도 효과적으로 특징점을 검출할 수 있는 장점이 있다.

Description

학습을 이용한 얼굴 특징점 검출 방법 및 장치
본 발명은 얼굴의 특징점 검출 방법 및 장치에 관한 것으로서, 더욱 상세하게는 학습을 이용한 얼굴 특징점 검출 방법 및 장치에 관한 것이다.
얼굴 인식 및 얼굴 영상을 위한 다양한 응용을 위해 얼굴의 특징점 검출이 이루어진다. 특징점은 얼굴의 형상을 표현할 수 있는 지점을 선택하여 검출되며, 얼굴의 윤곽선, 눈, 코, 입과 같은 영역에 주로 지정된다. 정확한 얼굴 인식을 위해서 정확한 특징점의 검출은 매우 중요한 사항이다.
종래에 있어서 특징점의 검출은 주로 알고리즘에 의해 이루어졌으며 가장 일반적인 알고리즘으로는 핸드 크래프트(Hand-craft) 알고리즘이 있다. 그런데, 알고리즘에 의한 특징점 검출은 얼굴 영상의 특정 포즈에서는 얼굴과 전혀 관련 없는 영역에 특징점이 검출되는 big failure가 종종 발생하는 문제점이 있었다.
이와 같은 big failure의 발생을 방지하기 위해 신경망을 이용하여 학습에 의해 특징점을 검출하는 방법이 연구되었다.
이러한 신경망 학습 모델을 입력 데이터로 얼굴 영상이 입력되고, 미리 알고 있는 특징점 참값(Ground Truth)과 신경망이 출력하는 특징점의 차이를 역전파하는 방식으로 학습이 이루어졌다.
신경망을 이용한 특징점 검출은 기존의 알고리즘에 의한 특징점 검출에 비해 big failure의 발생은 저하시킬 수 있는 장점이 있으나 안정적인 특징점 검출이 이루어지려면 충분한 학습이 이루어져야 했다. 결국, 신경망 학습 모델을 이용하여 특징점을 검출하려면 충분한 학습 데이터를 확보한 후 신경망 학습을 수행하여야 했다.
그런데, 얼굴의 특징점의 참값은 일일이 수작업에 의해 지정되어야 하기에 충분한 학습 데이터를 확보하기 어려운 문제점이 있다.
따라서, 기존의 학습을 이용한 특징점 검출 방식은 현재까지 알려진 학습 데이터를 이용하여 안정적으로 특징점을 검출하기 어려운 문제점이 있었다.
본 발명은 비교적 적응 양의 학습 데이터로도 효과적으로 특징점을 검출할 수 있는 학습을 이용한 특징점 검출 장치 및 방법을 제안한다.
상기와 같은 목적을 달성하기 위해, 본 발명의 일 측면에 따르면, 대상 영상으로부터 얼굴 영역을 검출하여 얼굴 검출 영상을 생성하는 얼굴 검출부; 상기 얼굴 검출 영상에 대해 미리 설정된 알고리즘을 이용하여 복수의 특징점을 출력하는 특징점 출력부; 상기 특징점 출력부에서 출력하는 복수의 특징점의 좌표를 보정하도록 학습되어 있으며 상기 얼굴 검출 영상을 입력받아 상기 복수의 특징점의 좌표를 보정하기 위한 보정 벡터를 출력하는 보정 벡터 출력 네트워크; 및 상기 보정 벡터를 상기 복수의 특징점별로 반영하여 최종적인 특징점을 결정하는 특징점 결정부를 포함하는 학습을 이용한 특징점 검출 장치가 제공된다.
상기 미리 설정된 알고리즘은 핸드 크래프트 알고리즘을 포함한다
상기 보정 벡터는 상기 복수의 특징점 좌표 각각을 x축으로 이동시키기 위한 Δx 성분 및 y축으로 이동시키기 위한 Δy 성분을 포함한다.
상기 보정 벡터 출력 네트워크는 합성곱 신경망(Convolutional Neural Network)를 포함하며, 컨볼루션 연산을 적용하는 필터의 계수를 갱신하도록 학습된다.
상기 보정 벡터 출력 네트워크는 학습 단계에서 레퍼런스 영상의 특징점 참값과 미리 설정된 알고리즘에 의해 검출되는 특징점에 상기 보정 벡터 출력 네트워크의 출력인 보정 벡터를 반영한 특징점 좌표의 차에 상응하는 비용 함수를 역전파받아 상기 필터의 계수를 갱신한다.
상기 얼굴 검출부는 HOG(Histogram of Gradient)+SVM(Support Vector Machine) 방식에 의해 얼굴 영역을 검출한다.
본 발명의 다른 측면에 따르면, 대상 영상으로부터 얼굴 영역을 검출하여 얼굴 검출 영상을 생성하는 단계(a); 상기 얼굴 검출 영상에 대해 미리 설정된 알고리즘을 이용하여 복수의 특징점을 출력하는 단계(b); 상기 단계(b)에서 출력하는 복수의 특징점의 좌표를 보정하도록 학습되어 있는 보정 벡터 출력 네트워크를 이용하여 상기 얼굴 검출 영상을 입력받아 상기 복수의 특징점의 좌표를 보정하기 위한 보정 벡터를 출력하는 단계(c); 및 상기 보정 벡터를 상기 복수의 특징점별로 반영하여 최종적인 특징점을 결정하는 단계(d)를 포함하는 학습을 이용한 특징점 검출 방법이 제공된다.
본 발명에 의하면, 비교적 적응 양의 학습 데이터로도 효과적으로 특징점을 검출할 수 있는 장점이 있다.
도 1은 본 발명의 일 실시예에 따른 학습을 이용한 얼굴 특징점 검출 장치의 개략적인 구조를 도시한 블록도.
도 2는 핸드-크래프트 알고리즘에 의한 특징점 검출 시 발생하는 big failure의 일례를 나타낸 도면.
도 3은 본 발명의 일 실시예에 따른 보정 벡터 출력 네트워크의 학습 구조를 나타낸 도면.
도 4는 본 발명의 일 실시에에 따른 보정 벡터 네트워크의 상세 구조를 나타낸 도면.
도 5는 본 발명의 일 실시예에 따른 얼굴 특징점 검출 방법의 전체적인 흐름을 도시한 순서도.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태로 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
이하에서, 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 학습을 이용한 얼굴 특징점 검출 장치의 개략적인 구조를 도시한 블록도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 학습을 이용한 얼굴 특징점 검출 장치는 영상 입력부(100), 얼굴 검출부(110), 핸드-크래프트 특징점 출력부(120), 보정 벡터 출력 네트워크(130) 및 특징점 결정부(140)를 포함한다.
본 발명의 특징점 검출 장치는 얼굴 영상을 입력 받아 특징점을 검출하는 장치이다. 특징점은 얼굴의 형태를 파악하기 위한 점들로서 복수의 특징점이 얼굴의 주요 영역에 검출된다. 예를 들어, 얼굴의 윤곽선 영역, 눈 영역, 코 영역, 입 영역 등과 같이 얼굴의 형상을 파악할 수 있는 중요한 부분에 특징점이 지정된다.
검출되는 특징점의 개수는 미리 설정되며, 예를 들어 68개의 특징점이 입력 영상으로부터 검출될 수 있다.
본 발명에서 제안되는 얼굴 특징점 검출 장치는 기존의 핸드-크래프트 알고리즘을 이용한 특징점 검출과 학습을 이용한 특징점 검출이 함께 이용된다 다만, 본 발명에서 학습 대상은 특징점이 아니라 보정 벡터이며, 보정 벡터의 상세한 의미에 대해서는 추후 설명하기로 한다.
영상 입력부(100)는 특징점을 검출할 대상 영상을 입력받는다. 대상 영상은 얼굴이 촬영된 영상으로서, 얼굴과 배경이 함께 존재하는 영상이다.
얼굴 검출부(102)는 영상 입력부로 입력된 대상 영상으로부터 얼굴 영역을 검출하는 기능을 한다. 대상 영상으로부터 배경 영역을 제거하고 얼굴 영역만을 검출하는 것이다. 영상으로부터 배경을 제거하고 얼굴 영역만을 검출하는 기술로 다양한 기술들이 알려져 있으며 어떠한 방법에 의해 얼굴 영역을 검출하여도 무방하다.
본 발명의 일 실시예에 따르면, HOG(Histogram of Gradient)+SVM(Support Vector Machine) 방법을 이용하여 얼굴 영역을 검출할 수 있다. HOG는 일정 크기의 셀 내부에서 모든 픽셀 값의 그래디언트(Gradient)와 방향(Orientation)을 계산한뒤 이 값들을 사용하여 히스토그램을 생성하며, 이를 SVM의 특징 벡터로 이용하여 얼굴 영역을 검출하는 방법이다.
물론, 전술한 바와 같이, HOG+SVM 방법 이외에도 다양한 얼굴 검출 방법이 사용될 수 있을 것이다.
얼굴 검출부(110)는 검출된 얼굴 영역만이 존재하고 배경이 제거된 얼굴 검출 영상을 출력한다.
핸드-크래프트 특징점 출력부(120)는 얼굴 검출부(110)에서 출력되는 얼굴 영상에 대해 핸드-크래프트 알고리즘을 이용하여 해당 얼굴 영상의 특징점을 출력한다. 핸드-크래프트 알고리즘은 특징점 추출을 위한 변수와 해당 변수의 연산을 통해 특징점을 검출하는 방식이며 예를 들어, TREE 알고리즘이 있다. TREE 알고리즘은 random ferm에 의해 추출된 특징을 regression tree 분류기를 사용하여 수렴 속도를 빠르게 하는 알고리즘이다. TREE 알고리즘은 캐스케이드(Cascade) 방식으로 여러 번 보정이 가능한 장점이 있는 알고리즘이다. 물론, TREE 알고리즘 이외에도 다양한 방식의 특징점 추출 알고리즘이 사용될 수 있다는 점은 당업자라면 용이하게 이해할 수 있을 것이다.
핸드-크래프트 알고리즘은 우수한 성능을 가지는 알고리즘이기는 하나 사용자의 포즈에 따라 big failure를 유발하기도 한다.
도 2는 핸드-크래프트 알고리즘에 의한 특징점 검출 시 발생하는 big failure의 일례를 나타낸 도면이다.
도 2를 참조하면, 얼굴의 윤곽선 및 눈/코/입과 관련이 없는 영역에 특징점이 지정되어 있는 것을 확인할 수 있다.
본 발명은 이와 같은 big failure의 발생을 최소화하고 보다 정확한 특징점 검출을 위해 학습에 의해 형성되는 네트워크인 보정 벡터 출력 네트워크를 포함한다.
여기서, 보정 벡터는 핸드-크래프트 특징점 출력부(120)에서 출력되는 특징점의 좌표를 보정하기 위한 벡터이다. 핸드-크래프트 특징점 출력부(120)에서 출력되는 특징점은 (x, y)와 같이 픽셀 좌표의 형태로 출력되며, 보정 벡터는 특징점의 좌표를 보정하기 위한 값의 형태를 가진다. 예를 들어, 보정 벡터는 [Δx, Δy]의 형태를 가질 수 있다.
여기서, Δx 는 특징점의 x축 값을 보정하기 위한 값이며, Δy 는 특징점의 y축 값을 보정하기 위한 값이다.
일례로, 핸드 크래프트 특징점 출력부(120)는 68개의 특징점을 출력할 수 있으며, 보정 벡터 출력 네트워크(130)는 각 68개의 특징점별로 특징점 좌표를 보정하기 위한 보정 벡터를 출력한다. 즉, 보정 벡터 출력 네트워크(130)는 각 특징점 별 보정 벡터를 출력하는 것이다.
보정 벡터 출력 네트워크(130)는 학습에 의해 결정되는 네트워크이며, 보정 벡터 출력 네트워크(130)의 입력 데이터는 얼굴 검출부(110)의 출력 영상이며, 출력 데이터는 보정 벡터 데이터이다. 보정 벡터 출력 네트워크의 학습 구조는 별도의 도면을 참조하여 설명하기로 한다.
핸드 크래프트 특징점 출력부(120)에서 출력되는 특징점 정보(특징점 좌표 정보)와 보정 벡터 출력 네트워크(130)에서 출력되는 보정 벡터 정보는 특징점 결정부(140)로 입력된다.
특징점 결정부(140)는 핸드 래프트 특징점 출력부(120)에서 출력되는 특징점 좌표에 보정 벡터 출력 네트워크(130)에서 출력되는 보정 벡터를 반영하여 최종적으로 특징점을 결정한다.
예를 들어, 제1 특징점의 픽셀 좌표가 (x1, y1)이고, 제1 특징점에 대한 보정 벡터가 [Δx1, Δy1]일 경우, 특징점 결정부(140)는 (x1+ Δx1, y1+ Δy1)을 제1 특징점에 대한 최종 좌표로 결정한다. 이러한 특징점 결정 작업은 모든 특징점에 대해 이루어진다.
이상과 같은 구조를 가지는 본 발명은 기존의 학습에 의한 특징점 결정 장치에 비해 작은 양의 학습 데이터로 효율적인 특징점 검출이 가능하다. 학습을 위한 특징점 데이터는 확보가 매우 어려운 측면이 있다. 따라서, 기존의 특징점을 학습에 의해 검출하는 방법의 경우 충분한 학습이 이루어지지 않아 정확한 특징점 검출이 어려운 문제점이 있었다.
그러나, 본 발명은 특징점 검출 자체를 학습하는 것이 아니라 특징점을 보정하기 위한 보정 벡터를 학습하는 것이므로 기존의 방법에 비해 작은 양의 학습 데이터로 정확한 특징점 검출을 가능하게 한다.
한편, 위에서는 1차적인 특징점 검출이 핸드 크래프트 알고리즘에 의해 이루어지는 경우에 대해 설명하였으나 알고리즘에 의한 특징점 검출이 핸드 크래프트 알고리즘에 한정되지 않는다는 점을 당업자라면 용이하게 이해할 수 있을 것이다.
도 3은 본 발명의 일 실시예에 따른 보정 벡터 출력 네트워크의 학습 구조를 나타낸 도면이다.
도 3을 참조하면, 학습을 위한 레퍼런스 영상이 선택되어 입력된다(300). 여기서, 학습을 위한 레퍼런스 영상은 얼굴 영상의 특징점 참값(Ground Truth)을 가지고 있는 영상을 의미한다. 준비된 학습 영상 중 하나를 랜덤으로 선택하여 입력할 수 있다.
학습을 위한 레퍼런스 영상이 선택되어 입력되면, 레퍼런스 영상으로부터 얼굴 영역을 검출한다(302). 여기서 얼굴 검출은 도 1의 얼굴 검출부(102)의 동작과 동일하게 이루어진다. 예를 들어, 얼굴 검출부(102)가 SVM+HOG 방식에 의해 얼굴 영역을 검출할 경우, 학습 단계에서의 얼굴 검출 역시 동일하게 SVM+HOG 방식을 이용하여 얼굴을 검출한다. 보정 벡터 출력 네트워크가 적용되는 장치에서의 얼굴 검출 방식과 동일한 방식으로 얼굴을 검출하면 되며, 얼굴 검출 방식에는 특별한 제한이 없으며, 알려진 어떠한 얼굴 검출 방식을 사용하여도 무방하다.
레퍼런스 영상에 대한 얼굴 검출 영상에 대해 핸드-크래프트 알고리즘을 이용하여 특징점을 검출한다(304). 핸드-크래프트 알고리즘 역시 보정 벡터 출력 네트워크가 적용되는 얼굴 검출 장치와 동일한 알고리즘을 이용하여 특징점을 검출한다. 앞서 설명한 바와 같이, 일례로 TREE 알고리즘이 사용될 수 있을 것이다.
검출된 얼굴 영상은 보정 벡터 출력 네트워크로 입력되며, 보정벡터 출력 네트워크는 얼굴 검출 영상을 이용하여 학습을 수행한다(306).
핸드-크래프트 알고리즘을 이용하여 출력되는 특징점에 보정 벡터 출력 네트워크에서 출력되는 보정 벡터를 반영하여 특징점을 결정하며, 결정된 특징점은 입력된 레퍼런스 영상의 특징점 참값(Ground Truth)을 이용하여 비용 함수가 연산된다(308).
여기서, 비용 함수는 입력된 레퍼런스 영상의 특징점 참값과 보정 벡터가 반영된 특징점과의 차에 상응하는 값이다.
예를 들어, 비용함수는 다음이 수학식 1과 같이 연산될 수 있다.
Figure PCTKR2018006079-appb-M000001
연산된 비용 함수는 다시 보정 벡터 출력 네트워크로 역전파(Back Propagation)된다.
보정 벡터 출력 네트워크는 합성곱 신경망(Convolutional Neural Network)의 형태를 가지며 보정 벡터 출력 네트워크는 역전파되는 비용함수 값에 기초하여 컨볼루션을 적용할 필터 계수를 갱신한다. 필터 계수의 갱신은 레퍼런스 영상의 참값과 보정 벡터를 반영한 특징점 좌표와의 차이가 최소화되는 방향으로 이루어진다.
이러한 보정 벡터 출력 네트워크의 필터 계수 갱신 작업은 미리 설정된 반복 학습 횟수(N)에 도달할 때까지 역전파되는 비용함수 값에 기초하여 반복적으로 이루어진다.
도 4는 본 발명의 일 실시에에 따른 보정 벡터 네트워크의 상세 구조를 나타낸 도면이다.
도 4를 참조하면, 입력 영상(400)에 대해 제1 컨볼루션 레이어(410)에서의 컨볼루션 필터링이 이루어진다. 일례로, 입력 영상의 사이즈가 60 X 60일 경우, 56 X 56 사이즈의 영상에 대해 컨볼루션 필터링이 이루어질 수 있다. 도 4에는 제1 컨볼루션 레이어(410)에서 20개의 필터를 적용하여 컨볼루련 필터링을 수행하는 경우가 도시되어 있다.
제1 컨볼루션 레이어에서 필터링이 이루어지면 제1 맥스 풀링 레이어(420)에서 사이즈를 축소하는 맥스 풀링이 이루어진다. 맥스 풀링을 위한 필터 역시 20개가 이용될 수 있다.
제1 맥스 플링 레이어(420)에서 맥스 풀링이 이루어지면, 제2 컨볼루션 레이어(430)에서 컨볼루션 필터링이 이루어진다. 24 X 24 사이즈의 영상에 대해 컨볼루션 필터링이 이루어질 수 있다. 필터의 수는 일례로 48개로 설정될 수 있다.
제2 컨볼루션 레이어(430)에서의 필터링 이후, 제2 맥스 풀링 레이어(440)에서의 맥스 풀링이 이루어져 사이즈가 축소된다.
이러한 컨볼루션 및 맥스 풀링은 제3 컨볼루션 레이어(450) 및 제4 맥스 풀링 레이어(460)에서도 동일하게 이루어진다.
제5 컨볼루션 레이어(470)에서는 3 X 3 사이즈의 데이터에 대해 80개의 필터를 적용하여 컨볼루션 필터링이 이루어진다. 제5 컨불루션 레이어의 출력은 1차원 데이터(480)로 출력된다. 도 1에는 512개로 이루어진 1차원 데이터가 도시되어 있다.
512개의 1차원 데이터는 다시 136개의 1차원 데이터(490)로 필터링을 통해 축소되며, 이 데이터가 보정 벡터에 해당된다. 예를 들어, 68개의 특징점이 사용되는 경우, 보정 벡터는 각 특징점별로 두 개의 데이터인 Δx와 Δy를 필요로 하므로 총 136개의 데이터가 출력되는 것이다.
각 컨볼루션 레이어 및 맥스 풀링 레이어에 적용되는 다수의 필터의 필터 계수는 역전파되는 비용 함수에 기초하여 갱신된다.
도 5는 본 발명의 일 실시예에 따른 얼굴 특징점 검출 방법의 전체적인 흐름을 도시한 순서도이다.
도 5를 참조하면, 특징점을 검출할 대상 영상이 입력된다(단계 500). 입력 영상은 얼굴와 배경을 포함하는 영상이다.
대상 영상이 입력되면, 대상 영상으로부터 얼굴 영역을 검출하여 얼굴 검출 영상을 생성한다(단계 502). 얼굴 검출 영상은 대상 영상의 배경 영역에 널(Null) 값을 적용하여 배경이 제거된 영상이다.
대상 영상의 얼굴 검출 영상에 대해 핸드 크래프트 알고리즘을 이용하여 특징점을 검출한다(단계 504). 앞서 설명한 바와 같이, TREE 알고리즘과 같은 핸드 크래프트 알고리즘이 이용될 수 있으며, 미리 설정된 개수(예를 들어, 68개)의 특징점이 검출된다.
한편, 대상 영상의 얼굴 검출 영상은 보정 벡터 출력 네트워크로도 입력되며, 보정 벡터 출력 네트워크는 학습된 컨볼루션 필터를 이용하여 보정 벡터를 생성한다(단계 506). 보정 벡터는 각 특징점별로 생성된다.
단계 504에서 검출되는 각 특징점의 좌표는 단계 506에서 출력되는 보정 벡터를 이용하여 보정되며, 보정된 특징점을 최종적인 특징점으로 결정한다(단계 508).
이상에서 설명한 본 발명의 실시예를 구성하는 모든 구성요소들이 하나로 결합하거나 결합하여 동작하는 것으로 기재되어 있다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 또한, 이와 같은 컴퓨터 프로그램은 USB 메모리, CD 디스크, 플래쉬 메모리 등과 같은 컴퓨터가 읽을 수 있는 기록매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 기록매체로서는 자기 기록매체, 광 기록매체 등이 포함될 수 있다.
또한, 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 상세한 설명에서 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (13)

  1. 대상 영상으로부터 얼굴 영역을 검출하여 얼굴 검출 영상을 생성하는 얼굴 검출부;
    상기 얼굴 검출 영상에 대해 미리 설정된 알고리즘을 이용하여 복수의 특징점을 출력하는 특징점 출력부;
    상기 특징점 출력부에서 출력하는 복수의 특징점의 좌표를 보정하도록 학습되어 있으며 상기 얼굴 검출 영상을 입력받아 상기 복수의 특징점의 좌표를 보정하기 위한 보정 벡터를 출력하는 보정 벡터 출력 네트워크; 및
    상기 보정 벡터를 상기 복수의 특징점별로 반영하여 최종적인 특징점을 결정하는 특징점 결정부를 포함하는 것을 특징으로 하는 학습을 이용한 특징점 검출 장치.
  2. 제1 항에 있어서,
    상기 미리 설정된 알고리즘은 핸드 크래프트 알고리즘을 포함하는 것을 특징으로 하는 특징점 검출 장치.
  3. 제1 항에 있어서,
    상기 보정 벡터는 상기 복수의 특징점 좌표 각각을 x축으로 이동시키기 위한 Δx 성분 및 y축으로 이동시키기 위한 Δy 성분을 포함하는 것을 특징으로 하는 학습을 이용한 특징점 검출 장치.
  4. 제3 항에 있어서,
    상기 보정 벡터 출력 네트워크는 합성곱 신경망(Convolutional Neural Network)를 포함하며, 컨볼루션 연산을 적용하는 필터의 계수를 갱신하도록 학습되는 것을 특징으로 하는 학습을 이용한 특징점 검출 장치.
  5. 제4항에 있어서,
    상기 보정 벡터 출력 네트워크는 학습 단계에서 레퍼런스 영상의 특징점 참값과 미리 설정된 알고리즘에 의해 검출되는 특징점에 상기 보정 벡터 출력 네트워크의 출력인 보정 벡터를 반영한 특징점 좌표의 차에 상응하는 비용 함수를 역전파받아 상기 필터의 계수를 갱신하는 것을 특징으로 하는 학습을 이용한 특징점 검출 장치.
  6. 제1항에 있어서,
    상기 얼굴 검출부는 HOG(Histogram of Gradient)+SVM(Support Vector Machine) 방식에 의해 얼굴 영역을 검출하는 것을 특징으로 하는 학습을 이용한 특징점 검출 장치.
  7. 대상 영상으로부터 얼굴 영역을 검출하여 얼굴 검출 영상을 생성하는 단계(a);
    상기 얼굴 검출 영상에 대해 미리 설정된 알고리즘을 이용하여 복수의 특징점을 출력하는 단계(b);
    상기 단계(b)에서 출력하는 복수의 특징점의 좌표를 보정하도록 학습되어 있는 보정 벡터 출력 네트워크를 이용하여 상기 얼굴 검출 영상을 입력받아 상기 복수의 특징점의 좌표를 보정하기 위한 보정 벡터를 출력하는 단계(c); 및
    상기 보정 벡터를 상기 복수의 특징점별로 반영하여 최종적인 특징점을 결정하는 단계(d)를 포함하는 것을 특징으로 하는 학습을 이용한 특징점 검출 방법.
  8. 제7 항에 있어서,
    상기 미리 설정된 알고리즘은 핸드 크래프트 알고리즘을 포함하는 것을 특징으로 하는 특징점 검출 방법.
  9. 제7 항에 있어서,
    상기 보정 벡터는 상기 복수의 특징점 좌표 각각을 x축으로 이동시키기 위한 Δx 성분 및 y축으로 이동시키기 위한 Δy 성분을 포함하는 것을 특징으로 하는 학습을 이용한 특징점 검출 방법.
  10. 제9 항에 있어서,
    상기 보정 벡터 출력 네트워크는 합성곱 신경망(Convolutional Neural Network)를 포함하며, 컨볼루션 연산을 적용하는 필터의 계수를 갱신하도록 학습되는 것을 특징으로 하는 학습을 이용한 특징점 검출 방법.
  11. 제10항에 있어서,
    상기 보정 벡터 출력 네트워크는 학습 단계에서 레퍼런스 영상의 특징점 참값과 미리 설정된 알고리즘에 의해 검출되는 특징점에 상기 보정 벡터 출력 네트워크의 출력인 보정 벡터를 반영한 특징점 좌표의 차에 상응하는 비용 함수를 역전파받아 상기 필터의 계수를 갱신하는 것을 특징으로 하는 학습을 이용한 특징점 검출 방법.
  12. 제7항에 있어서,
    상기 단계(a)는 HOG(Histogram of Gradient)+SVM(Support Vector Machine) 방식에 의해 얼굴 영역을 검출하는 것을 학습을 이용한 특징점 검출 방법
  13. 제7항 내지 제12항 중 한 항의 방법을 실행하기 위한 프로그램이 유형적으로 기록되어 있으며 컴퓨터에 의해 판독 가능한 프로그램이 기록된 기록 매체.
PCT/KR2018/006079 2018-04-27 2018-05-29 학습을 이용한 얼굴 특징점 검출 방법 및 장치 WO2019208869A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2018-0049414 2018-04-27
KR1020180049414A KR102186767B1 (ko) 2018-04-27 2018-04-27 학습을 이용한 얼굴 특징점 검출 방법 및 장치

Publications (1)

Publication Number Publication Date
WO2019208869A1 true WO2019208869A1 (ko) 2019-10-31

Family

ID=68295617

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/006079 WO2019208869A1 (ko) 2018-04-27 2018-05-29 학습을 이용한 얼굴 특징점 검출 방법 및 장치

Country Status (2)

Country Link
KR (1) KR102186767B1 (ko)
WO (1) WO2019208869A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102297575B1 (ko) * 2021-02-19 2021-09-07 유비트론(주) 지능형 영상 감시 시스템 및 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110091115A1 (en) * 2009-10-19 2011-04-21 Canon Kabushiki Kaisha Feature point positioning apparatus, image recognition apparatus, processing method thereof and computer-readable storage medium
KR101449744B1 (ko) * 2013-09-06 2014-10-15 한국과학기술원 영역 기반 특징을 이용한 얼굴 검출 장치 및 방법
KR101793510B1 (ko) * 2017-03-27 2017-11-06 한밭대학교 산학협력단 얼굴 학습 및 인식 시스템과 그 방법
KR20170140519A (ko) * 2016-06-13 2017-12-21 한국전자통신연구원 포즈 변화에 강인한 얼굴 인식 시스템 및 방법
KR20180025093A (ko) * 2016-08-30 2018-03-08 주식회사 루닛 약한 지도 학습 기반의 기계 학습 방법 및 그 장치

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015078018A1 (en) * 2013-11-30 2015-06-04 Xiaoou Tang Method and system for face image recognition

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110091115A1 (en) * 2009-10-19 2011-04-21 Canon Kabushiki Kaisha Feature point positioning apparatus, image recognition apparatus, processing method thereof and computer-readable storage medium
KR101449744B1 (ko) * 2013-09-06 2014-10-15 한국과학기술원 영역 기반 특징을 이용한 얼굴 검출 장치 및 방법
KR20170140519A (ko) * 2016-06-13 2017-12-21 한국전자통신연구원 포즈 변화에 강인한 얼굴 인식 시스템 및 방법
KR20180025093A (ko) * 2016-08-30 2018-03-08 주식회사 루닛 약한 지도 학습 기반의 기계 학습 방법 및 그 장치
KR101793510B1 (ko) * 2017-03-27 2017-11-06 한밭대학교 산학협력단 얼굴 학습 및 인식 시스템과 그 방법

Also Published As

Publication number Publication date
KR102186767B1 (ko) 2020-12-04
KR20190134865A (ko) 2019-12-05

Similar Documents

Publication Publication Date Title
WO2018217019A1 (ko) 신경망 학습 기반의 변종 악성 코드를 탐지하기 위한 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
WO2020246834A1 (ko) 이미지 객체 인식 장치 및 방법
WO2021095991A1 (ko) 불량 이미지 생성 장치 및 방법
WO2021054706A1 (en) Teaching gan (generative adversarial networks) to generate per-pixel annotation
WO2014051246A1 (en) Method and apparatus for inferring facial composite
WO2022131497A1 (ko) 이미지 생성을 위한 학습 장치 및 방법과 이미지 생성 장치 및 방법
WO2021071288A1 (ko) 골절 진단모델의 학습 방법 및 장치
WO2021133001A1 (ko) 시멘틱 이미지 추론 방법 및 장치
WO2013048159A1 (ko) 아다부스트 학습 알고리즘을 이용하여 얼굴 특징점 위치를 검출하기 위한 방법, 장치, 및 컴퓨터 판독 가능한 기록 매체
WO2021071286A1 (ko) 생성적 적대 신경망 기반의 의료영상 학습 방법 및 장치
WO2022260386A1 (ko) 딥러닝 네트워크를 이용한 배경 및 얼굴 합성 방법 및 장치
WO2019039757A1 (ko) 훈련 데이터를 생성하는 방법, 장치 및 컴퓨터-판독가능 저장 매체에 저장된 컴퓨터 프로그램
WO2020246655A1 (ko) 상황 인지 방법 및 이를 수행하는 장치
WO2019035544A1 (ko) 학습을 이용한 얼굴 인식 장치 및 방법
WO2019208869A1 (ko) 학습을 이용한 얼굴 특징점 검출 방법 및 장치
WO2021101052A1 (ko) 배경 프레임 억제를 통한 약한 지도 학습 기반의 행동 프레임 검출 방법 및 장치
WO2017222228A1 (ko) 영상 컨텐츠의 화면전환 인식 방법 및 이를 운용하는 서버
WO2021071258A1 (ko) 인공지능 기반의 휴대용 보안영상 학습장치 및 방법
WO2016190698A1 (ko) 잡음 제거를 위한 가중 미디언 필터링 방법 및 장치
WO2019225799A1 (ko) 딥러닝 생성 모델을 이용한 사용자 정보 삭제 방법 및 장치
WO2016098943A1 (ko) 얼굴 검출 능력 향상을 위한 이미지 처리 방법 및 시스템
WO2020175729A1 (ko) 가우시안 특징점맵과 회귀 기법을 이용한 얼굴 특징점 검출 장치 및 방법
WO2023063693A1 (ko) 이미지 적대적 공격에 강인한 이미지 학습 장치 및 방법
WO2017007047A1 (ko) 불규칙 비교를 이용하는 공간적 깊이 불균일성 보상 방법 및 장치
WO2016006901A1 (ko) 이미지로부터 깊이 정보를 추출하는 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18916059

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18916059

Country of ref document: EP

Kind code of ref document: A1