KR102054058B1 - Analysis method of relations of face movements and the system thereof - Google Patents
Analysis method of relations of face movements and the system thereof Download PDFInfo
- Publication number
- KR102054058B1 KR102054058B1 KR1020180004155A KR20180004155A KR102054058B1 KR 102054058 B1 KR102054058 B1 KR 102054058B1 KR 1020180004155 A KR1020180004155 A KR 1020180004155A KR 20180004155 A KR20180004155 A KR 20180004155A KR 102054058 B1 KR102054058 B1 KR 102054058B1
- Authority
- KR
- South Korea
- Prior art keywords
- facial
- face
- feature
- relationship
- dynamic
- Prior art date
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 77
- 230000001815 facial Effects 0.000 claims abstract description 154
- 230000014509 gene expression Effects 0.000 claims abstract description 22
- 230000001537 neural Effects 0.000 claims description 19
- 230000006403 short-term memory Effects 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 4
- 238000000034 method Methods 0.000 description 11
- 230000000875 corresponding Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 3
- 230000001149 cognitive Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000036881 Clu Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006011 modification reaction Methods 0.000 description 1
- 230000003287 optical Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
-
- G06K9/00315—
-
- G06K9/00268—
-
- G06K9/00288—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Abstract
본 발명은 얼굴 영역에서의 움직임간 관계에 기반하여 얼굴분석을 수행하는 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법 및 그 시스템에 관한 것으로, 관계 분석 딥 네트워크(Deep Network)를 기반으로 얼굴 미세 영역의 다이나믹 특징간 관계를 분석하여 성별인식, 연령추정, 생체인증, 표정인식 등의 얼굴 다이나믹 분석을 해석할 수 있다.The present invention relates to a facial characteristic analysis method and a system using a facial motion relation that performs face analysis based on the relation between movements in a facial region. The present invention relates to a dynamic analysis of a facial microregion based on a relationship analysis deep network. By analyzing the relationship between features, face dynamic analysis such as gender recognition, age estimation, biometric authentication and facial expression recognition can be analyzed.
Description
본 발명은 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법 및 그 시스템에 관한 것으로, 보다 상세하게는 얼굴 영역에서의 움직임간 관계에 기반하여 얼굴분석을 수행하는 기술에 관한 것이다. The present invention relates to a method and system for analyzing facial characteristics using a facial motion relationship, and more particularly, to a technique for performing facial analysis based on a relationship between motions in a facial region.
얼굴 분석기술은 아이덴티티 정보 추출을 통한 본인인증, 표정인식을 통한 인간컴퓨터 상호작용(Humancomputer interaction), 성별 및 연령 추정 기반의 고객 맞춤 서비스 등을 위해 중요한 기술로 대두되고 있다. 얼굴움직임은 인지심리학적 연구에서 얼굴 분석에 중요한 단서를 제공한다고 알려져 있으며, 표정기반 얼굴 움직임 분석 연구에서도 생체인증, 연령추정 등에서 유용하다는 연구가 발표되고 있다.Face analysis technology has emerged as an important technology for self-identification through identity information extraction, human-computer interaction through facial expression recognition, and personalized service based on gender and age estimation. Facial movements are known to provide important clues for face analysis in cognitive and psychological studies, and research has been reported to be useful in facial authentication-based facial motion analysis studies for biometric authentication and age estimation.
최근 컨볼루션 신경망(Convolutional Neural Network; CNN)이 영상인식, 행동분석, 의료영상 등의 다양한 분야에서 성공적으로 적용됨에 따라 딥러닝 기반의 다양한 연구 및 기술 결과들이 발표되고 있다. 얼굴 다이나믹 분석과 관련해서도 다양한 연구 결과가 발표되었는데 주로 CNN을 3차원으로 확장하여 사용하거나, CNN과 순화신경망의 일종인 LSTM(Long ShortTerm Memory)를 이용한 방법이었다. 하지만 얼굴 미세 영역의 움직임간 관계에 관한 연구 및 기술은 미비하였다.Recently, as the convolutional neural network (CNN) has been successfully applied in various fields such as image recognition, behavior analysis, and medical imaging, various research and technology results based on deep learning have been published. Various research results were also published regarding facial dynamic analysis, mainly using CNN in three dimensions or using LTM (Long Short Term Memory), a kind of CNN and purified neural network. However, researches and techniques on the relationship between the movements of the facial microregions are insufficient.
특정 표정을 지을 때, 발생하는 다이나믹 정보는 성별인식에서도 유용하다는 최근 연구 결과가 발표되었다. 이는 남성과 여성이 표정을 지을 때, 남성은 여성 보다 표정을 감추려하는 경향이 있고, 여성이 표정을 통한 인터랙션에 비교적 익숙하다는 인지심리학적 연구에 근거한다. 다만, 기존 연구 또는 방법은 얼굴의 부분 영역에서의 움직임에 따른 다이나믹 특징을 추출하여 성별 인식하는 기술을 발표하였으나, 각 영역의 움직임간 관계에 대해서는 고려하지 않는 한계가 있었다. Recent research has shown that the dynamic information that occurs when a particular face is made is also useful in gender recognition. This is based on the cognitive and psychological studies that when men and women make expressions, men tend to hide expressions than women, and women are relatively accustomed to interactions through expressions. However, the existing research or method has disclosed a technique for extracting a dynamic feature according to the movement in the partial region of the face and gender recognition, but there is a limit not to consider the relationship between the movement of each region.
따라서, 아래의 실시예들은 사람이 표정을 지었을 때, 각 얼굴 영역에서의 움직임간에 관계가 있다는 관찰에 근거하여 관계 기반 새로운 딥 네트워크 기술을 제안한다. Accordingly, the following embodiments propose a relationship-based new deep network technology based on the observation that there is a relationship between movements in each face area when a person makes an expression.
아래의 실시예들은 얼굴 움직임의 관계 특징을 이용하는 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법 및 그 시스템을 제공한다.The following embodiments provide a method and system for analyzing facial characteristics using facial motion relations using the facial feature relations.
구체적으로, 아래의 실시예들은 관계 분석 딥 네트워크(Deep Network)를 기반으로 얼굴 미세 영역의 다이나믹 특징간 관계를 분석하여 성별인식, 연령추정, 생체인증, 표정인식 등의 얼굴 다이나믹 분석을 해석하는 방법 및 시스템을 제공하고자 한다.Specifically, the following embodiments are a method for analyzing facial dynamic analysis such as gender recognition, age estimation, biometric authentication, facial expression recognition, etc. by analyzing the relationship between the dynamic features of the facial microregions based on the relationship analysis deep network. And to provide a system.
본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법은 사용자의 얼굴 제스처 영상을 획득하는 단계, 상기 얼굴 제스처 영상으로부터 얼굴 움직임에 따른 얼굴의 부분 영역에서의 영역별 다이나믹 특징을 인코딩하는 단계 및 얼굴의 각 영역별 상기 다이나믹 특징을 포함하는 객체 특징간 관계를 딥 네트워크(Deep Network)를 이용해 분석하여 얼굴 다이나믹 분석을 해석하는 단계를 포함한다.According to an aspect of the present invention, there is provided a method of analyzing facial characteristics using a facial motion relationship. And analyzing the relationship between the object features including the dynamic features of each region of the face by using a deep network to interpret the face dynamic analysis.
상기 영역별 다이나믹 특징을 인코딩하는 단계는 상기 얼굴 제스처 영상의 시퀀스(sequence)에 대해 각 프레임마다 컨볼루션 신경망(Convolutional Neural Network; CNN)을 이용하여 얼굴 특징맵을 추출하는 단계, 상기 얼굴 특징맵을 상기 부분 영역으로 분류하여 LSTM(Long ShortTerm Memory) 네트워크를 기반으로 두 객체들 간의 상기 다이나믹 특징을 추출하는 단계 및 상기 다이나믹 특징을 이용하여 상기 두 객체들 간의 관계 중요성을 적응적으로 인코딩하는 단계를 포함할 수 있다.The encoding of the dynamic feature for each region may include extracting a facial feature map using a convolutional neural network (CNN) for each frame of the sequence of the face gesture image, and extracting the facial feature map. Classifying the partial region to extract the dynamic feature between two objects based on a long short term memory (LSTM) network, and adaptively encoding the importance of the relationship between the two objects using the dynamic feature. can do.
상기 얼굴 특징맵을 추출하는 단계는 대용량의 얼굴 데이터로 학습한 이미지 모델에 따른 복수 개의 컨볼루션 레이어의 파라미터(parameter)를 전이 학습하여 상기 컨볼루션 신경망으로 이용할 수 있다.The extracting of the facial feature map may be used as the convolutional neural network by transfer-learning parameters of a plurality of convolutional layers according to an image model trained with a large amount of face data.
상기 다이나믹 특징을 추출하는 단계는 상기 추출된 얼굴 특징맵을 복수 개의 상기 얼굴의 부분 영역으로 분류하여 상기 LSTM 네트워크의 인풋(input)으로 사용하며, 상기 LSTM 네트워크로부터 상기 다이나믹 특징을 추출할 수 있다.The extracting of the dynamic feature may classify the extracted facial feature map into a plurality of partial regions of the face and use the input as the input of the LSTM network, and extract the dynamic feature from the LSTM network.
상기 객체 특징은 상기 다이나믹 특징과 해당 객체의 위치 특징을 융합한 것일 수 있다.The object feature may be a fusion of the dynamic feature and a location feature of the corresponding object.
상기 얼굴 다이나믹 분석을 해석하는 단계는 상기 딥 네트워크(Deep Network)를 기반으로 상기 얼굴 제스처 영상에 대한 상기 객체 특징간 관계를 분석하여 성별인식, 연령추정, 생체인증, 표정인식 등의 상기 얼굴 다이나믹 분석을 해석할 수 있다.The analyzing of the face dynamic analysis may include analyzing the relationship between the object features of the face gesture image based on the deep network and analyzing the face dynamics such as gender recognition, age estimation, biometric authentication, facial expression recognition, and the like. Can be interpreted.
본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 시스템은 사용자의 얼굴 제스처 영상을 획득하는 영상 획득부, 상기 얼굴 제스처 영상으로부터 얼굴 움직임에 따른 얼굴의 부분 영역에서의 영역별 다이나믹 특징을 인코딩하는 특징 인코딩부 및 얼굴의 각 영역별 상기 다이나믹 특징을 포함하는 객체 특징간 관계를 딥 네트워크(Deep Network)를 이용해 분석하여 얼굴 다이나믹 분석을 해석하는 관계 분석부를 포함한다.According to an embodiment of the present invention, a facial characteristic analysis system using a facial motion relationship may include an image acquirer for acquiring a face gesture image of a user, and encoding dynamic characteristics for each region in a partial region of a face according to face movement from the face gesture image. The feature encoding unit and the relationship analysis unit for analyzing the face dynamic analysis by analyzing the relationship between the object features including the dynamic feature for each region of the face using a deep network.
상기 특징 인코딩부는 상기 얼굴 제스처 영상의 시퀀스(sequence)에 대해 각 프레임마다 컨볼루션 신경망(Convolutional Neural Network; CNN)을 이용하여 얼굴 특징맵을 추출하고, 상기 얼굴 특징맵을 상기 부분 영역으로 분류하여 LSTM(Long ShortTerm Memory) 네트워크를 기반으로 두 객체들 간의 상기 다이나믹 특징을 추출하며, 상기 다이나믹 특징을 이용하여 상기 두 객체들 간의 관계 중요성을 적응적으로 인코딩할 수 있다.The feature encoding unit extracts a facial feature map using a convolutional neural network (CNN) for each frame of the sequence of the face gesture image, classifies the face feature map into the partial region, and performs LSTM. (Long ShortTerm Memory) The dynamic feature may be extracted between two objects based on a network, and the dynamic feature may be used to adaptively encode the importance of the relationship between the two objects.
상기 특징 인코딩부는 대용량의 얼굴 데이터로 학습한 이미지 모델에 따른 복수 개의 컨볼루션 레이어의 파라미터(parameter)를 전이 학습하여 상기 컨볼루션 신경망으로 이용할 수 있다.The feature encoder may transfer the parameters of a plurality of convolution layers according to an image model learned with a large amount of face data and use the convolution neural network.
상기 객체 특징은 상기 다이나믹 특징과 해당 객체의 위치 특징을 융합한 것일 수 있다.The object feature may be a fusion of the dynamic feature and a location feature of the corresponding object.
상기 관계 분석부는 상기 딥 네트워크(Deep Network)를 기반으로 상기 얼굴 제스처 영상에 대한 상기 객체 특징간 관계를 분석하여 성별인식, 연령추정, 생체인증, 표정인식 등의 상기 얼굴 다이나믹 분석을 해석할 수 있다. The relationship analyzer may analyze the facial dynamic analysis such as gender recognition, age estimation, biometric authentication, facial expression recognition, etc. by analyzing the relationship between the object features of the face gesture image based on the deep network. .
아래의 실시예들은 얼굴 움직임의 관계 특징을 이용하는 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법 및 그 시스템을 제공할 수 있다. The following embodiments may provide a method and system for analyzing facial features using a facial motion relationship using the facial feature's relationship feature.
구체적으로, 아래의 실시예들은 관계 분석 딥 네트워크(Deep Network)를 기반으로 얼굴 미세 영역의 다이나믹 특징간 관계를 분석하여 성별인식, 연령추정, 생체인증, 표정인식 등의 얼굴 다이나믹 분석을 해석할 수 있다.In detail, the following embodiments may analyze facial dynamic analysis such as gender recognition, age estimation, biometric authentication, facial expression recognition, etc. by analyzing the relationship between the dynamic features of the facial microregions based on the relationship analysis deep network. have.
따라서, 아래의 실시예들은 얼굴인증, 표정인식 등의 일반적인 얼굴 분석 기술에 적용 가능할 수 있다. Therefore, the following embodiments may be applicable to general face analysis techniques such as face authentication and facial expression recognition.
도 1은 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법의 흐름도를 도시한 것이다.
도 2는 본 발명의 실시예에 따른 관계 분석 딥 네트워크를 이용한 얼굴 분석 과정의 예를 도시한 것이다.
도 3은 얼굴 움직임에 관한 관계 중요성을 설명하기 위해 도시한 것이다.
도 4는 본 발명의 실시예에 따른 성별인식 정확도를 측정한 측정 결과를 도시한 것이다.
도 5는 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 시스템의 세부 구성에 대한 블록도를 도시한 것이다.1 is a flowchart illustrating a facial characteristic analysis method using facial motion relations according to an exemplary embodiment of the present invention.
2 illustrates an example of a face analysis process using a relationship analysis deep network according to an exemplary embodiment of the present invention.
3 is a diagram for explaining the importance of relations regarding facial movements.
4 illustrates measurement results of measuring gender recognition accuracy according to an embodiment of the present invention.
5 is a block diagram illustrating a detailed configuration of a system for analyzing facial characteristics using facial motion relations according to an embodiment of the present invention.
이하, 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 또한, 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. However, the present invention is not limited or limited by the embodiments. Also, like reference numerals in the drawings denote like elements.
또한, 본 명세서에서 사용되는 용어(terminology)들은 본 발명의 바람직한 실시예를 적절히 표현하기 위해 사용된 용어들로서, 이는 시청자, 운용자의 의도 또는 본 발명이 속하는 분야의 관례 등에 따라 달라질 수 있다. 따라서, 본 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. In addition, terms used in the present specification (terminology) are terms used to properly express preferred embodiments of the present invention, which may vary depending on the intention of the viewer, the operator, or customs in the field to which the present invention belongs. Therefore, the definitions of the terms should be made based on the contents throughout the specification.
본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법 및 그 시스템은 얼굴 움직임 관계를 이용한 딥 네트워크(Deep Network)를 구성하며, 얼굴 영역별 다이나믹 특징을 인코딩하여 각 영역별 관계 간의 차이를 최소화하는 기술에 관한 것이다. 보다 구체적으로, 본 발명에서 제안하는 딥 네트워크는 얼굴의 영역별로 CNN(Convolutional Neural Network; 컨볼루션 신경망)과 LSTM(Long ShortTerm Memory)을 이용해 다이나믹 특징을 인코딩하고, 각 영역에서의 다이나믹 특징간 관계를 딥 네트워크를 이용해 분석하여 최종적으로 성별인식, 연령추정, 생체인증, 표정인식 등의 얼굴 다이나믹 분석을 진행함으로써, 관계를 고려하지 않았던 기존 방법보다 인식 정확도 및 인식률을 향상시키는 것을 그 요지로 한다. The facial characteristic analysis method and system using the facial motion relation according to an embodiment of the present invention constitute a deep network using the facial motion relation, and encode a dynamic feature for each facial region to determine a difference between the relations of each region. It is about techniques to minimize. More specifically, the deep network proposed by the present invention encodes a dynamic feature by using a convolutional neural network (CNN) and a long short term memory (LSTM) for each face region, and calculates a relationship between dynamic features in each region. By analyzing the deep network and finally performing facial dynamic analysis such as gender recognition, age estimation, biometric authentication, facial expression recognition, etc., the main point is to improve the recognition accuracy and recognition rate compared to the conventional methods that did not consider the relationship.
이하, 본 발명의 상세한 설명에서는 성별인식, 연령추정, 생체인증, 표정인식 등의 얼굴 다이나믹 분석에 한정하여 설명하지만, 본 발명은 얼굴인증, 표정인식 등의 일반적인 얼굴 분석 기술에 광범위하게 적용할 수 있다는 것은 이 기술 분야에 종사하는 당업자에게 있어서 자명하다. Hereinafter, in the detailed description of the present invention, the present invention is limited to face dynamic analysis such as gender recognition, age estimation, biometric authentication, facial expression recognition, etc., but the present invention can be widely applied to general face analysis techniques such as facial authentication and facial expression recognition. It is apparent to those skilled in the art that there is.
이하에서는, 도 1 내지 도 5를 참조하여 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법 및 그 시스템에 대해 설명한다. Hereinafter, with reference to FIGS. 1 to 5, a method and a system for analyzing facial characteristics using a facial motion relationship according to an exemplary embodiment of the present invention will be described.
도 1은 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법의 흐름도를 도시한 것이다.1 is a flowchart illustrating a facial characteristic analysis method using facial motion relations according to an exemplary embodiment of the present invention.
도 1의 동작 방법은 도 5에 도시된 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 시스템에 의해 수행된다.The operation method of FIG. 1 is performed by the facial characteristic analysis system using the face motion relationship according to the embodiment of the present invention shown in FIG. 5.
단계 110에서, 사용자의 얼굴 제스처 영상을 획득한다. 이 때, 얼굴 제스처 영상은 사용자의 특정 제스처(표정)를 취하는 얼굴 영상을 의미한다. In
단계 110에서 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 시스템은 카메라 장치가 구비되어 사용자들 각각의 얼굴 제스처 영상을 직접 획득하는 구성부, 복수의 사용자들 각각의 단말과 연동되어 복수의 사용자들 각각의 단말로부터 복수의 사용자들 각각의 얼굴 제스처 영상을 전달받는 구성부, 및 내부 또는 외부의 서버(또는 데이터베이스)에 실시간으로 업데이트되어 저장되는 복수의 사용자들 각각의 얼굴 제스처 영상을 수신하는 구성부 중 적어도 어느 하나 이상을 포함할 수 있다.In
단계 120에서, 얼굴 제스처 영상으로부터 얼굴 움직임에 따른 얼굴의 부분 영역에서의 영역별 다이나믹 특징을 인코딩한다. In
예를 들면, 단계 120은 얼굴 제스처 영상의 시퀀스(sequence)에 대해 각 프레임마다 컨볼루션 신경망(Convolutional Neural Network; CNN)을 이용하여 얼굴 특징맵을 추출하는 제1 단계, 얼굴 특징맵을 부분 영역으로 분류하여 LSTM(Long ShortTerm Memory) 네트워크를 기반으로 두 객체들 간의 다이나믹 특징을 추출하는 제2 단계, 및 다이나믹 특징을 이용하여 두 객체들 간의 관계 중요성을 적응적으로 인코딩(encoding)하는 제3 단계를 포함할 수 있다. For example,
이 때, 상기 제1 단계는 상기 컨볼루션 신경망으로는 대용량의 얼굴 데이터로 학습한 이미지 모델 예를 들면, VGGface 모델에 따른 복수 개의 컨볼루션 레이어의 파라미터(parameter)를 전이 학습한 것을 이용하여 얼굴 특징맵을 추출할 수 있다. 또한, 상기 제2 단계는 추출된 얼굴 특징맵을 복수 개의 부분 영역으로 분류하여 LSTM 네트워크의 인풋(input)으로 사용하며, LSTM 네트워크를 통해 복수 개의 부분 영역 각각에 대한 다이나믹 특징을 추출할 수 있다. 여기서, 추출된 다이나믹 특징은 본 발명의 실시예에 따른 관계 분석 딥 네트워크의 입력(input)으로 사용될 수 있다. 또한, 상기 제3 단계는 얼굴 움직임에 따른 얼굴의 부분 영역에서 두 객체들 간의 차이를 반영하기 위해 두 객체들 간의 관계 중요성(relational importance)를 적응적으로 인코딩할 수 있다. In this case, the first step is a facial feature using the image model trained with a large amount of face data as the convolutional neural network, for example, the transfer of parameters of a plurality of convolutional layers according to a VGGface model. You can extract the map. In the second step, the extracted facial feature map may be classified into a plurality of partial regions and used as an input of the LSTM network, and dynamic features of each of the plurality of partial regions may be extracted through the LSTM network. Here, the extracted dynamic feature may be used as an input of a relationship analysis deep network according to an embodiment of the present invention. In addition, the third step may adaptively encode the relational importance between the two objects in order to reflect the difference between the two objects in the partial region of the face according to the face movement.
단계 130에서, 얼굴의 각 영역별 다이나믹 특징을 포함하는 객체 특징간 관계를 딥 네트워크(Deep Network)를 이용해 분석하여 얼굴 다이나믹 분석을 해석한다. In
예를 들면, 단계 130은 추출한 다이나믹 특징과 해당 객체의 위치 특징을 융합한 객체 특징을 이용하여 하기의 [수식 1]을 통해 얼굴 다이나믹 분석을 수행할 수 있다.For example, in
[수식 1][Equation 1]
여기서, 및 는 각각 i번째 및 j번째 객체 특징을 나타내고, O는 모든 객체 특징의 집합을 의미한다. 또한, 및 는 각각 파라미터 와 의 함수로 다층 퍼셉트론(MultiLayer Perceptron; MLP)에 의해 구현된 것일 수 있다. here, And Represents the i th and j th object features, respectively, and O represents the set of all object features. In addition, And Are each parameter Wow It may be implemented by a MultiLayer Perceptron (MLP) as a function of.
즉, 단계 130에서, 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 시스템은 딥 네트워크(Deep Network)를 기반으로 얼굴 제스처 영상에 대한 객체 특징간 관계를 분석하여 성별인식, 연령추정, 생체인증 및 표정인식 중 적어도 어느 하나 이상의 얼굴 다이나믹 분석을 해석할 수 있다. That is, in
도 2는 본 발명의 실시예에 따른 관계 분석 딥 네트워크를 이용한 얼굴 분석 과정의 예를 도시한 것이다.2 illustrates an example of a face analysis process using a relationship analysis deep network according to an exemplary embodiment of the present invention.
도 2를 참조하면, 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법(200)은 사용자의 얼굴 제스처 영상(210)인 웃는 표정 시퀀스(sequence)에 대해 각 프레임마다 컨볼루션 신경망(Convolutional Neural Network; CNN)을 이용하여 얼굴 특징맵을 추출할 수 있다. 이 때, 컨볼루션 신경망으로는 대용량의 얼굴 데이터로 학습한 VGGface 모델의 10개 컨볼루션 레이어의 파라미터(parameter)를 전이 학습하여 사용할 수 있다.Referring to FIG. 2, in the facial
이후, 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법(200)은 추출된 얼굴 특징맵을 9개의 얼굴 영역으로 분류하여 LSTM(Long ShortTerm Memory) 네트워크의 인풋(input)으로 입력하고, 다이나믹 특징을 추출하여 인코딩(220)할 수 있다. Subsequently, the facial
이후, 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법(200)은 9개 얼굴 영역으로부터 각각 추출된 다이나믹 특징과 해당 객체의 위치 특징을 융합한 객체 특징(230)을 관계 분석 딥 네트워크(240)에 입력으로 사용하여 성별인식, 연령추정, 생체인증, 표정인식 등의 얼굴 다이나믹 분석을 해석할 수 있다.Subsequently, in the facial
이에 따라서, 도 2에 도시된 바와 같이, 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법(200)은 획득된 사용자의 얼굴 제스처 영상(210)에 대한 성별인식의 얼굴 다이나믹 분석 결과(Gender: Female)를 도출할 수 있다.Accordingly, as shown in FIG. 2, in the facial
도 3은 얼굴 움직임에 관한 관계 중요성을 설명하기 위해 도시한 것이다.3 is a diagram for explaining the importance of relations regarding facial movements.
도 3(a)는 사용자의 얼굴 제스처 영상에 대한 얼굴의 부분 영역을 나타내며, 도 3(b)는 부분 영역에서의 객체 특징을 나타낸다. FIG. 3A illustrates a partial region of a face with respect to a face gesture image of the user, and FIG. 3B illustrates an object feature in the partial region.
도 3에 도시된 바와 같이, 사용자의 얼굴 제스처 영상에 대한 얼굴의 부분 영역에서의 객체 특징을 추출할 수 있다. 이 때, 객체 특징은 얼굴 영역별 중심 위치로 정의되는 위치 특징과 위치 특징의 다이나믹 특징을 포함할 수 있다.As illustrated in FIG. 3, an object feature in a partial region of a face with respect to a face gesture image of a user may be extracted. In this case, the object feature may include a location feature defined as a center location for each face region and a dynamic feature of the location feature.
본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법 및 그 시스템은 상기 객체 특징을 이용하여 얼굴 다이나믹 분석을 수행하기 위한 딥 네트워크 기반의 얼굴 관계형 네트워크(facial relational network)를 구축할 수 있다. 얼굴 관계형 네트워크는 얼굴 특정 추정을 위한 핵심 관계를 추출하는 신경망의 기능적 형태를 제공하며, 얼굴 특성 추정에서의 관계 중요성을 고려할 수 있다. The facial characteristic analysis method and system using the facial motion relation according to an embodiment of the present invention can build a facial relational network based on a deep network for performing facial dynamic analysis using the object feature. . Face-relational networks provide a functional form of neural networks that extract key relationships for face-specific estimation, and consider the importance of relationships in face feature estimation.
도 3에 도시된 바와 같이, 얼굴 분석을 위해 추출된 임의의 두 객체의 잠재 관계(latent relation)를 나타내는 관계형 특징(relational feature)은 하기의 [수식 2]로 산출된다.As shown in FIG. 3, a relational feature representing a latent relation of any two objects extracted for face analysis is calculated by Equation 2 below.
[수식 2][Formula 2]
여기서, 은 학습 가능한 파라미터 를 갖는 함수를 나타내며, 는 i번째 내지 j번째 얼굴의 부분 영역에 대한 관계 쌍을 나타낸다. 또한, 두 객체 특징 의 관계에 대한 관계 중요성 는 하기의 [수식 3]과 같이 인코드(encode)된다.here, Is a learnable parameter Represents a function with Denotes a relationship pair for the partial region of the i th to j th face. Also, two object features Relationship importance for the relationship of Is encoded as shown in Equation 3 below.
[수식 3][Equation 3]
여기서, 는 학습 가능한 파라미터 를 갖는 함수를 나타낸다.here, Is a learnable parameter Represents a function with
본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법 및 그 시스템은 주어진 객체 특징 을 이용하여 두 개의 객체들 간의 관계 중요성 을 적응적으로 인코딩할 수 있으며, 이로 인해 얼굴 제스처 영상에 대한 얼굴 다이나믹 분석을 수행할 수 있다. 이 때, 얼굴 다이나믹 분석에 중요한 관계는 관계 중요성을 기반으로 획득될 수 있으며, 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법 및 그 시스템은 객체 특징과 얼굴 특성 추정의 관계 중요성을 결합할 수 있다. According to an embodiment of the present invention, there is provided a method and system for analyzing facial features using facial motion relations. Importance of Relationship Between Two Objects Using Can be adaptively encoded, which enables face dynamic analysis of facial gesture images. In this case, a relationship important for facial dynamic analysis may be obtained based on the relationship importance, and a method and system for analyzing facial features using facial motion relations according to an embodiment of the present invention may be based on the importance of the relationship between object characteristics and facial feature estimation. Can be combined.
예를 들면, 높은 관계 중요성 값은 얼굴 움직임에 따른 얼굴의 부분 영역에서의 얼굴 특성을 평가하는데 중요한 의미이다. 기본적으로 관계의 중요성은 두 객체의 관계에 대한 중요성을 나타내므로, 두 객체의 관계 중요성을 결합하여 객체의 관계에 대한 중요성을 해석할 수 있다. For example, a high relationship importance value is important for evaluating facial features in partial regions of the face following facial movements. Basically, the importance of the relationship represents the importance of the relationship between two objects, so that the importance of the relationship between objects can be interpreted by combining the importance of the relationship between two objects.
도 4는 본 발명의 실시예에 따른 성별인식 정확도를 측정한 측정 결과를 도시한 것이다. 4 illustrates measurement results of measuring gender recognition accuracy according to an embodiment of the present invention.
도 4를 참조하면, howold.net+dynamics 방법 및 COTS+dynamics 방법은 연령이 20세 미만인 사람들에 대해서 60.80%의 정확도와 76.92%의 정확도를 나타내는 것을 확인할 수 있으며, 제안하는 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법 및 그 시스템(Proposed relational network)은 78.10%의 정확도를 나타내는 것을 확인할 수 있다. 이에 따라서, 제안하는 본 발명은 기존 방법에 비해 우수한 성능을 보임을 확인할 수 있다.Referring to Figure 4, howold.net + dynamics method and COTS + dynamics method can be seen that shows the accuracy of 60.80% and 76.92% for people under 20 years of age, the proposed embodiment of the present invention It can be seen that the facial characteristic analysis method using the facial motion relation and the proposed relational network show 78.10% accuracy. Accordingly, it can be seen that the proposed present invention shows superior performance compared to the existing method.
나아가, 20세 이상의 사람들에 대해서도 howold.net+dynamics 방법은 93.46%를 나타내고, COTS+dynamics 방법은 93.00%인 반면, 제안하는 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법 및 그 시스템(Proposed relational network)은 94.37%의 성능으로 더 정확하게 성별을 인식하는 것을 확인할 수 있다. 3가지 방법에서 모두 20세 미만인 사람들에 대한 성별 인식 정확도가 20세 이상인 사람들에서의 정확도보다 낮게 도출되었는데, 이는 아동들의 경우, 남성과 여성의 차이가 성인 남성과 여성에 비해 뚜렷하지 않은 영향인 것으로 생각해볼 수 있다. Furthermore, the howold.net + dynamics method is 93.46% and the COTS + dynamics method is 93.00% for people over 20 years old, while the facial characteristic analysis method using the facial motion relationship according to the embodiment of the present invention and its The proposed relational network can be seen to recognize gender more accurately with 94.37% performance. In all three methods, the gender recognition accuracy for people under 20 years of age was lower than that for people over 20 years of age, indicating that for children, the differences between men and women are insignificant compared to adults men and women. You can think about it.
즉, 제안하는 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법 및 그 시스템(Proposed relational network)은 효과적인 미세 얼굴 영역에서의 움직임간 관계 분석을 위한 딥 네트워크 구조를 제안하며, 비교 실험 결과를 통해 관계를 고려하지 않았던 기존 방법(howold.net+dynamics 방법, COTS+dynamics 방법)보다 더 정확한 성능을 획득하는 것을 검증하였다. That is, the proposed method for analyzing facial features using a facial motion relationship and a proposed relational network according to an embodiment of the present invention propose a deep network structure for analyzing the relationship between movements in an effective fine face region, and comparing the experiments. The results verify that the performance is more accurate than the existing methods (howold.net + dynamics method, COTS + dynamics method) that did not consider the relationship.
도 5는 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 시스템의 세부 구성에 대한 블록도를 도시한 것이다.5 is a block diagram illustrating a detailed configuration of a system for analyzing facial characteristics using facial motion relations according to an exemplary embodiment of the present invention.
도 5를 참조하면, 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 시스템은 각 얼굴 영역에서의 움직임간 관계에 기반하여 얼굴분석을 수행한다.Referring to FIG. 5, the facial characteristic analysis system using the facial motion relation according to the embodiment of the present invention performs face analysis based on the relation between the movements in each facial region.
이를 위해, 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 시스템(500)은 영상 획득부(510), 특징 인코딩부(520) 및 관계 분석부(530)를 포함한다.To this end, the facial
영상 획득부(510)는 사용자의 얼굴 제스처 영상을 획득한다. 이 때, 얼굴 제스처 영상은 사용자의 특정 제스처(표정)를 취하는 얼굴 영상을 의미한다. The
본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 시스템(500)은 카메라 장치가 구비되어 사용자들 각각의 얼굴 제스처 영상을 직접 획득하는 구성부, 복수의 사용자들 각각의 단말과 연동되어 복수의 사용자들 각각의 단말로부터 복수의 사용자들 각각의 얼굴 제스처 영상을 전달받는 구성부, 및 내부 또는 외부의 서버(또는 데이터베이스)에 실시간으로 업데이트되어 저장되는 복수의 사용자들 각각의 얼굴 제스처 영상을 수신하는 구성부 중 적어도 어느 하나 이상을 포함할 수 있다. The facial
특징 인코딩부(520)는 얼굴 제스처 영상으로부터 얼굴 움직임에 따른 얼굴의 부분 영역에서의 영역별 다이나믹 특징을 인코딩한다. The
예를 들면, 특징 인코딩부(520)는 얼굴 제스처 영상의 시퀀스(sequence)에 대해 각 프레임마다 컨볼루션 신경망(Convolutional Neural Network; CNN)을 이용하여 얼굴 특징맵을 추출하고, 얼굴 특징맵을 부분 영역으로 분류하여 LSTM(Long ShortTerm Memory) 네트워크를 기반으로 두 객체들 간의 다이나믹 특징을 추출하며, 두 객체들 간의 관계 중요성을 적응적으로 인코딩(encoding)할 수 있다. For example, the
이 때, 특징 인코딩부(520)는 상기 컨볼루션 신경망으로는 대용량의 얼굴 데이터로 학습한 이미지 모델 예를 들면, VGGface 모델에 따른 복수 개의 컨볼루션 레이어의 파라미터(parameter)를 전이 학습한 것을 이용하여 얼굴 특징맵을 추출할 수 있다. 또한, 특징 인코딩부(520)는 추출된 얼굴 특징맵을 복수 개의 부분 영역으로 분류하여 LSTM 네트워크의 인풋(input)으로 사용하며, LSTM 네트워크를 통해 복수 개의 부분 영역 각각에 대한 다이나믹 특징을 추출할 수 있다. 여기서, 추출된 다이나믹 특징은 본 발명의 실시예에 따른 관계 분석 딥 네트워크의 입력(input)으로 사용될 수 있다. At this time, the
관계 분석부(530)는 얼굴의 각 영역별 다이나믹 특징을 포함하는 객체 특징간 관계를 딥 네트워크(Deep Network)를 이용해 분석하여 얼굴 다이나믹 분석을 해석한다. The
예를 들면, 관계 분석부(530)는 추출한 다이나믹 특징과 해당 객체의 위치 특징을 융합한 객체 특징을 이용하여 [수식 1]을 통해 얼굴 다이나믹 분석을 수행할 수 있다. 이에 따라서, 관계 분석부(530)는 딥 네트워크(Deep Network)를 기반으로 얼굴 제스처 영상에 대한 객체 특징간 관계를 분석하여 성별인식, 연령추정, 생체인증 및 표정인식 중 적어도 어느 하나 이상의 얼굴 다이나믹 분석을 해석할 수 있다. For example, the
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The apparatus described above may be implemented as a hardware component, a software component, and / or a combination of hardware components and software components. For example, the devices and components described in the embodiments include, for example, processors, controllers, arithmetic logic units (ALUs), digital signal processors, microcomputers, field programmable arrays (FPAs), It may be implemented using one or more general purpose or special purpose computers, such as a programmable logic unit (PLU), microprocessor, or any other device capable of executing and responding to instructions. The processing device may execute an operating system (OS) and one or more software applications running on the operating system. The processing device may also access, store, manipulate, process, and generate data in response to the execution of the software. For convenience of explanation, one processing device may be described as being used, but one of ordinary skill in the art will appreciate that the processing device includes a plurality of processing elements and / or a plurality of types of processing elements. It can be seen that it may include. For example, the processing device may include a plurality of processors or one processor and one controller. In addition, other processing configurations are possible, such as parallel processors.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may include a computer program, code, instructions, or a combination of one or more of the above, and configure the processing device to operate as desired, or process it independently or collectively. You can command the device. Software and / or data may be any type of machine, component, physical device, virtual equipment, computer storage medium or device in order to be interpreted by or to provide instructions or data to the processing device. Or may be permanently or temporarily embodied in a signal wave to be transmitted. The software may be distributed over networked computer systems so that they may be stored or executed in a distributed manner. Software and data may be stored on one or more computer readable recording media.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CDROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기광 매체(magnetooptical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to the embodiment may be embodied in the form of program instructions that can be executed by various computer means and recorded in a computer readable medium. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination. The program instructions recorded on the media may be those specially designed and constructed for the purposes of the embodiments, or they may be of the kind well-known and available to those having skill in the computer software arts. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CDROMs, DVDs, and magneto-optical media such as floppy disks. (magnetooptical media), and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like. The hardware device described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.Although the embodiments have been described by the limited embodiments and the drawings as described above, various modifications and variations are possible to those skilled in the art from the above description. For example, the described techniques may be performed in a different order than the described method, and / or components of the described systems, structures, devices, circuits, etc. may be combined or combined in a different manner than the described method, or other components. Or even if replaced or replaced by equivalents, an appropriate result can be achieved.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents to the claims are within the scope of the claims that follow.
200, 500: 관계 분석 방법 및 시스템
210: 얼굴 제스처 영상
230: 객체 특징200, 500: Relationship analysis method and system
210: facial gesture image
230: object features
Claims (12)
상기 얼굴 제스처 영상으로부터 얼굴 움직임에 따른 얼굴의 부분 영역에서의 영역별 다이나믹 특징을 인코딩하는 단계; 및
얼굴의 각 영역별 상기 다이나믹 특징을 포함하는 객체 특징간 관계를 딥 네트워크(Deep Network)를 이용해 분석하여 얼굴 다이나믹 분석을 해석하는 단계를 포함하되,
상기 영역별 다이나믹 특징을 인코딩하는 단계는
상기 얼굴 제스처 영상의 시퀀스(sequence)에 대해 각 프레임마다 컨볼루션 신경망(Convolutional Neural Network; CNN)을 이용하여 얼굴 특징맵을 추출하는 단계;
상기 얼굴 특징맵을 9개의 상기 부분 영역으로 분류하여 LSTM(Long Short-Term Memory) 네트워크를 기반으로 두 객체들 간의 상기 다이나믹 특징을 추출하는 단계; 및
상기 다이나믹 특징을 이용하여 상기 두 객체들 간의 관계 중요성을 적응적으로 인코딩하는 단계를 포함하며,
상기 두 객체들 간의 관계 중요성을 적응적으로 인코딩하는 단계는
얼굴 움직임에 따른 얼굴의 부분 영역에서 상기 두 객체들 간의 차이를 반영하기 위해 상기 두 객체들 간의 관계 중요성(relational importance)을 적응적으로 인코딩하고,
상기 얼굴 다이나믹 분석을 해석하는 단계는
상기 딥 네트워크(Deep Network)를 기반으로 상기 얼굴 제스처 영상에 대한 얼굴 움직임의 상기 객체 특징간 관계를 분석하여 성별인식, 연령추정, 생체인증 및 표정인식의 상기 얼굴 다이나믹 분석을 해석하는 것을 특징으로 하는, 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법. Obtaining a face gesture image of a user;
Encoding dynamic features for respective regions in the partial region of the face according to facial movement from the face gesture image; And
Analyzing a facial dynamic analysis by analyzing a relationship between object features including the dynamic features of each region of the face by using a deep network,
Encoding the dynamic feature for each region is
Extracting a facial feature map using a convolutional neural network (CNN) for each frame of the face gesture image;
Classifying the facial feature map into nine sub-regions and extracting the dynamic feature between two objects based on a long short-term memory (LSTM) network; And
Adaptively encoding the importance of the relationship between the two objects using the dynamic feature,
Adaptively encoding the importance of the relationship between the two objects
Adaptively encode the relational importance between the two objects in order to reflect the difference between the two objects in the partial region of the face according to the movement of the face,
Interpreting the facial dynamic analysis
Analyzing the facial dynamic analysis of gender recognition, age estimation, biometric authentication and facial expression recognition by analyzing the relationship between the object features of facial movements on the face gesture image based on the deep network. , Facial feature analysis using face motion relationship.
상기 얼굴 특징맵을 추출하는 단계는
대용량의 얼굴 데이터로 학습한 이미지 모델에 따른 복수 개의 컨볼루션 레이어의 파라미터(parameter)를 전이 학습하여 상기 컨볼루션 신경망으로 이용하는 것을 특징으로 하는 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법. The method of claim 1,
Extracting the facial feature map
A facial characteristic analysis method using a facial motion relationship, characterized in that the transfer of a plurality of parameters (convolution) of the convolutional layer according to the image model learned with a large amount of face data to use as the convolutional neural network.
상기 다이나믹 특징을 추출하는 단계는
상기 추출된 얼굴 특징맵을 복수 개의 상기 얼굴의 부분 영역으로 분류하여 상기 LSTM 네트워크의 인풋(input)으로 사용하며, 상기 LSTM 네트워크로부터 상기 다이나믹 특징을 추출하는 것을 특징으로 하는 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법.The method of claim 1,
Extracting the dynamic feature
The extracted facial feature map is classified into a plurality of partial regions of the face and used as an input of the LSTM network, and the dynamic feature is extracted from the LSTM network. Analytical Method.
상기 객체 특징은
상기 다이나믹 특징과 해당 객체의 위치 특징을 융합한 것을 특징으로 하는 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법.The method of claim 1,
The object feature is
Facial characteristic analysis method using the facial motion relationship characterized in that the fusion of the dynamic feature and the location feature of the object.
상기 얼굴 제스처 영상으로부터 얼굴 움직임에 따른 얼굴의 부분 영역에서의 영역별 다이나믹 특징을 인코딩하는 특징 인코딩부; 및
얼굴의 각 영역별 상기 다이나믹 특징을 포함하는 객체 특징간 관계를 딥 네트워크(Deep Network)를 이용해 분석하여 얼굴 다이나믹 분석을 해석하는 관계 분석부를 포함하되,
상기 특징 인코딩부는
상기 얼굴 제스처 영상의 시퀀스(sequence)에 대해 각 프레임마다 컨볼루션 신경망(Convolutional Neural Network; CNN)을 이용하여 얼굴 특징맵을 추출하고, 상기 얼굴 특징맵을 9개의 상기 부분 영역으로 분류하여 LSTM(Long Short-Term Memory) 네트워크를 기반으로 두 객체들 간의 상기 다이나믹 특징을 추출하며, 상기 다이나믹 특징을 이용하여 얼굴 움직임에 따른 얼굴의 부분 영역에서 상기 두 객체들 간의 차이를 반영하기 위해 상기 두 객체들 간의 관계 중요성(relational importance)을 적응적으로 인코딩하고,
상기 관계 분석부는
상기 딥 네트워크(Deep Network)를 기반으로 상기 얼굴 제스처 영상에 대한 얼굴 움직임의 상기 객체 특징간 관계를 분석하여 성별인식, 연령추정, 생체인증, 표정인식 등의 상기 얼굴 다이나믹 분석을 해석하는 것을 특징으로 하는, 얼굴 움직임 관계를 이용한 얼굴 특성 분석 시스템.An image obtaining unit obtaining a face gesture image of the user;
A feature encoding unit for encoding a dynamic feature for each region in a partial region of a face according to face movement from the face gesture image; And
It includes a relationship analysis unit for analyzing the relationship between the object features including the dynamic feature of each region of the face using a deep network to analyze the face dynamic analysis,
The feature encoding unit
For each frame of the face gesture image, a facial feature map is extracted using a convolutional neural network (CNN) for each frame, and the face feature map is classified into nine sub-regions to form an LSTM (Long). Short-Term Memory) extracts the dynamic feature between two objects based on a network, and uses the dynamic feature to reflect the difference between the two objects in the partial region of the face according to the movement of the face. Adaptively encodes relational importance,
The relationship analysis unit
Analyzing the facial dynamic analysis such as gender recognition, age estimation, biometric authentication, facial expression recognition, etc. by analyzing the relationship between the object features of the facial motion on the face gesture image based on the deep network. A facial characteristic analysis system using a facial motion relationship.
상기 특징 인코딩부는
대용량의 얼굴 데이터로 학습한 이미지 모델에 따른 복수 개의 컨볼루션 레이어의 파라미터(parameter)를 전이 학습하여 상기 컨볼루션 신경망으로 이용하는 것을 특징으로 하는 얼굴 움직임 관계를 이용한 얼굴 특성 분석 시스템.The method of claim 8,
The feature encoding unit
A facial characteristic analysis system using a facial motion relationship, characterized in that the transfer of the parameters of the plurality of convolution layers according to the image model learned with a large amount of face data to use as the convolutional neural network.
상기 객체 특징은
상기 다이나믹 특징과 해당 객체의 위치 특징을 융합한 것을 특징으로 하는 얼굴 움직임 관계를 이용한 얼굴 특성 분석 시스템.The method of claim 8,
The object feature is
Facial characteristic analysis system using the facial motion relationship characterized in that the fusion of the dynamic feature and the location feature of the object.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180004155A KR102054058B1 (en) | 2018-01-12 | 2018-01-12 | Analysis method of relations of face movements and the system thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180004155A KR102054058B1 (en) | 2018-01-12 | 2018-01-12 | Analysis method of relations of face movements and the system thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190093759A KR20190093759A (en) | 2019-08-12 |
KR102054058B1 true KR102054058B1 (en) | 2019-12-09 |
Family
ID=67624863
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180004155A KR102054058B1 (en) | 2018-01-12 | 2018-01-12 | Analysis method of relations of face movements and the system thereof |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102054058B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021119029A1 (en) * | 2019-12-12 | 2021-06-17 | Realnetworks, Inc. | Methods and systems for facial recognition using motion vector trained model |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102380333B1 (en) * | 2020-02-25 | 2022-04-01 | 주식회사 하이퍼커넥트 | Image Reenactment Apparatus, Method and Computer Readable Recording Medium Thereof |
KR102297049B1 (en) * | 2020-03-12 | 2021-09-02 | 주식회사 머니박스 | Exchange kiosk apparatus linked with payment service |
KR102373608B1 (en) * | 2021-06-21 | 2022-03-14 | 주식회사 쓰리디팩토리 | Electronic apparatus and method for digital human image formation, and program stored in computer readable medium performing the same |
-
2018
- 2018-01-12 KR KR1020180004155A patent/KR102054058B1/en active IP Right Grant
Non-Patent Citations (3)
Title |
---|
Jixu Chen et. al,, Learning person-specific models for facial expression and action unit recognition, Pattern Recognition Letters Volume 34, Issue 15 pp. 1964-1970, (2013.11.01) 1부* |
Jun He et. al,, Multi View Facial Action Unit Detection based on CNN and BLSTM-RNN, 2017 IEEE 12th International Conference on Automatic Face & Gesture Recognition, (2017.06.21) 1부* |
Pooya Khorrami et. al, Do Deep Neural Networks Learn Facial Action Units When Doing Expression Recognition, ICCV 2015 CV4AC Workshop Computer Vision and Pattern Recognition, pp19-27, (2017.03.16.) 1부* |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021119029A1 (en) * | 2019-12-12 | 2021-06-17 | Realnetworks, Inc. | Methods and systems for facial recognition using motion vector trained model |
US11275928B2 (en) | 2019-12-12 | 2022-03-15 | Realnetworks, Inc. | Methods and systems for facial recognition using motion vector trained model |
Also Published As
Publication number | Publication date |
---|---|
KR20190093759A (en) | 2019-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102054058B1 (en) | Analysis method of relations of face movements and the system thereof | |
CN107784282B (en) | Object attribute identification method, device and system | |
Hoang Ngan Le et al. | Robust hand detection and classification in vehicles and in the wild | |
US11200424B2 (en) | Space-time memory network for locating target object in video content | |
Luo et al. | ARBEE: Towards automated recognition of bodily expression of emotion in the wild | |
US20220172518A1 (en) | Image recognition method and apparatus, computer-readable storage medium, and electronic device | |
CN111222500B (en) | Label extraction method and device | |
Mygdalis et al. | Graph embedded one-class classifiers for media data classification | |
Ullah et al. | Multi-feature-based crowd video modeling for visual event detection | |
US20210319062A1 (en) | Method and apparatus for searching video segment, device, and medium | |
Sheng et al. | Siamese denoising autoencoders for joints trajectories reconstruction and robust gait recognition | |
Wang et al. | Abnormal behavior detection in videos using deep learning | |
CN112580616B (en) | Crowd quantity determination method, device, equipment and storage medium | |
Khelalef et al. | An efficient human activity recognition technique based on deep learning | |
dos S Silva et al. | A novel feature extractor for human action recognition in visual question answering | |
Van Gemeren et al. | Hands-on: deformable pose and motion models for spatiotemporal localization of fine-grained dyadic interactions | |
Gao et al. | Occluded person re-identification based on feature fusion and sparse reconstruction | |
Li et al. | Multi-Sensor integration for key-frame extraction from first-person videos | |
Mery | Face analysis: state of the art and ethical challenges | |
GG | Skeleton-based STIP feature and discriminant sparse coding for human action recognition | |
Huang et al. | Research on motion recognition algorithm based on bag-of-words model | |
Das et al. | A pixel based segmentation scheme for fingerprint images | |
Wan et al. | MSLANet: multi-scale long attention network for skin lesion classification | |
Chang et al. | Fast Online Upper Body Pose Estimation from Video. | |
Grouver et al. | A spatial density and phase angle based correlation for multi-type family photo identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |