KR102054058B1 - Analysis method of relations of face movements and the system thereof - Google Patents

Analysis method of relations of face movements and the system thereof Download PDF

Info

Publication number
KR102054058B1
KR102054058B1 KR1020180004155A KR20180004155A KR102054058B1 KR 102054058 B1 KR102054058 B1 KR 102054058B1 KR 1020180004155 A KR1020180004155 A KR 1020180004155A KR 20180004155 A KR20180004155 A KR 20180004155A KR 102054058 B1 KR102054058 B1 KR 102054058B1
Authority
KR
South Korea
Prior art keywords
facial
face
feature
relationship
dynamic
Prior art date
Application number
KR1020180004155A
Other languages
Korean (ko)
Other versions
KR20190093759A (en
Inventor
노용만
김성태
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020180004155A priority Critical patent/KR102054058B1/en
Publication of KR20190093759A publication Critical patent/KR20190093759A/en
Application granted granted Critical
Publication of KR102054058B1 publication Critical patent/KR102054058B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • G06K9/00315
    • G06K9/00268
    • G06K9/00288
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Abstract

본 발명은 얼굴 영역에서의 움직임간 관계에 기반하여 얼굴분석을 수행하는 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법 및 그 시스템에 관한 것으로, 관계 분석 딥 네트워크(Deep Network)를 기반으로 얼굴 미세 영역의 다이나믹 특징간 관계를 분석하여 성별인식, 연령추정, 생체인증, 표정인식 등의 얼굴 다이나믹 분석을 해석할 수 있다.The present invention relates to a facial characteristic analysis method and a system using a facial motion relation that performs face analysis based on the relation between movements in a facial region. The present invention relates to a dynamic analysis of a facial microregion based on a relationship analysis deep network. By analyzing the relationship between features, face dynamic analysis such as gender recognition, age estimation, biometric authentication and facial expression recognition can be analyzed.

Description

얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법 및 그 시스템{ANALYSIS METHOD OF RELATIONS OF FACE MOVEMENTS AND THE SYSTEM THEREOF}Facial Characteristic Analysis Method Using Facial Motion Relationship and Its System {ANALYSIS METHOD OF RELATIONS OF FACE MOVEMENTS AND THE SYSTEM THEREOF}

본 발명은 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법 및 그 시스템에 관한 것으로, 보다 상세하게는 얼굴 영역에서의 움직임간 관계에 기반하여 얼굴분석을 수행하는 기술에 관한 것이다. The present invention relates to a method and system for analyzing facial characteristics using a facial motion relationship, and more particularly, to a technique for performing facial analysis based on a relationship between motions in a facial region.

얼굴 분석기술은 아이덴티티 정보 추출을 통한 본인인증, 표정인식을 통한 인간­컴퓨터 상호작용(Human­computer interaction), 성별 및 연령 추정 기반의 고객 맞춤 서비스 등을 위해 중요한 기술로 대두되고 있다. 얼굴움직임은 인지­심리학적 연구에서 얼굴 분석에 중요한 단서를 제공한다고 알려져 있으며, 표정기반 얼굴 움직임 분석 연구에서도 생체인증, 연령추정 등에서 유용하다는 연구가 발표되고 있다.Face analysis technology has emerged as an important technology for self-identification through identity information extraction, human-computer interaction through facial expression recognition, and personalized service based on gender and age estimation. Facial movements are known to provide important clues for face analysis in cognitive and psychological studies, and research has been reported to be useful in facial authentication-based facial motion analysis studies for biometric authentication and age estimation.

최근 컨볼루션 신경망(Convolutional Neural Network; CNN)이 영상인식, 행동분석, 의료영상 등의 다양한 분야에서 성공적으로 적용됨에 따라 딥러닝 기반의 다양한 연구 및 기술 결과들이 발표되고 있다. 얼굴 다이나믹 분석과 관련해서도 다양한 연구 결과가 발표되었는데 주로 CNN을 3차원으로 확장하여 사용하거나, CNN과 순화신경망의 일종인 LSTM(Long Short­Term Memory)를 이용한 방법이었다. 하지만 얼굴 미세 영역의 움직임간 관계에 관한 연구 및 기술은 미비하였다.Recently, as the convolutional neural network (CNN) has been successfully applied in various fields such as image recognition, behavior analysis, and medical imaging, various research and technology results based on deep learning have been published. Various research results were also published regarding facial dynamic analysis, mainly using CNN in three dimensions or using LTM (Long Short Term Memory), a kind of CNN and purified neural network. However, researches and techniques on the relationship between the movements of the facial microregions are insufficient.

특정 표정을 지을 때, 발생하는 다이나믹 정보는 성별인식에서도 유용하다는 최근 연구 결과가 발표되었다. 이는 남성과 여성이 표정을 지을 때, 남성은 여성 보다 표정을 감추려하는 경향이 있고, 여성이 표정을 통한 인터랙션에 비교적 익숙하다는 인지­심리학적 연구에 근거한다. 다만, 기존 연구 또는 방법은 얼굴의 부분 영역에서의 움직임에 따른 다이나믹 특징을 추출하여 성별 인식하는 기술을 발표하였으나, 각 영역의 움직임간 관계에 대해서는 고려하지 않는 한계가 있었다. Recent research has shown that the dynamic information that occurs when a particular face is made is also useful in gender recognition. This is based on the cognitive and psychological studies that when men and women make expressions, men tend to hide expressions than women, and women are relatively accustomed to interactions through expressions. However, the existing research or method has disclosed a technique for extracting a dynamic feature according to the movement in the partial region of the face and gender recognition, but there is a limit not to consider the relationship between the movement of each region.

따라서, 아래의 실시예들은 사람이 표정을 지었을 때, 각 얼굴 영역에서의 움직임간에 관계가 있다는 관찰에 근거하여 관계 기반 새로운 딥 네트워크 기술을 제안한다. Accordingly, the following embodiments propose a relationship-based new deep network technology based on the observation that there is a relationship between movements in each face area when a person makes an expression.

아래의 실시예들은 얼굴 움직임의 관계 특징을 이용하는 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법 및 그 시스템을 제공한다.The following embodiments provide a method and system for analyzing facial characteristics using facial motion relations using the facial feature relations.

구체적으로, 아래의 실시예들은 관계 분석 딥 네트워크(Deep Network)를 기반으로 얼굴 미세 영역의 다이나믹 특징간 관계를 분석하여 성별인식, 연령추정, 생체인증, 표정인식 등의 얼굴 다이나믹 분석을 해석하는 방법 및 시스템을 제공하고자 한다.Specifically, the following embodiments are a method for analyzing facial dynamic analysis such as gender recognition, age estimation, biometric authentication, facial expression recognition, etc. by analyzing the relationship between the dynamic features of the facial microregions based on the relationship analysis deep network. And to provide a system.

본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법은 사용자의 얼굴 제스처 영상을 획득하는 단계, 상기 얼굴 제스처 영상으로부터 얼굴 움직임에 따른 얼굴의 부분 영역에서의 영역별 다이나믹 특징을 인코딩하는 단계 및 얼굴의 각 영역별 상기 다이나믹 특징을 포함하는 객체 특징간 관계를 딥 네트워크(Deep Network)를 이용해 분석하여 얼굴 다이나믹 분석을 해석하는 단계를 포함한다.According to an aspect of the present invention, there is provided a method of analyzing facial characteristics using a facial motion relationship. And analyzing the relationship between the object features including the dynamic features of each region of the face by using a deep network to interpret the face dynamic analysis.

상기 영역별 다이나믹 특징을 인코딩하는 단계는 상기 얼굴 제스처 영상의 시퀀스(sequence)에 대해 각 프레임마다 컨볼루션 신경망(Convolutional Neural Network; CNN)을 이용하여 얼굴 특징맵을 추출하는 단계, 상기 얼굴 특징맵을 상기 부분 영역으로 분류하여 LSTM(Long Short­Term Memory) 네트워크를 기반으로 두 객체들 간의 상기 다이나믹 특징을 추출하는 단계 및 상기 다이나믹 특징을 이용하여 상기 두 객체들 간의 관계 중요성을 적응적으로 인코딩하는 단계를 포함할 수 있다.The encoding of the dynamic feature for each region may include extracting a facial feature map using a convolutional neural network (CNN) for each frame of the sequence of the face gesture image, and extracting the facial feature map. Classifying the partial region to extract the dynamic feature between two objects based on a long short term memory (LSTM) network, and adaptively encoding the importance of the relationship between the two objects using the dynamic feature. can do.

상기 얼굴 특징맵을 추출하는 단계는 대용량의 얼굴 데이터로 학습한 이미지 모델에 따른 복수 개의 컨볼루션 레이어의 파라미터(parameter)를 전이 학습하여 상기 컨볼루션 신경망으로 이용할 수 있다.The extracting of the facial feature map may be used as the convolutional neural network by transfer-learning parameters of a plurality of convolutional layers according to an image model trained with a large amount of face data.

상기 다이나믹 특징을 추출하는 단계는 상기 추출된 얼굴 특징맵을 복수 개의 상기 얼굴의 부분 영역으로 분류하여 상기 LSTM 네트워크의 인풋(input)으로 사용하며, 상기 LSTM 네트워크로부터 상기 다이나믹 특징을 추출할 수 있다.The extracting of the dynamic feature may classify the extracted facial feature map into a plurality of partial regions of the face and use the input as the input of the LSTM network, and extract the dynamic feature from the LSTM network.

상기 객체 특징은 상기 다이나믹 특징과 해당 객체의 위치 특징을 융합한 것일 수 있다.The object feature may be a fusion of the dynamic feature and a location feature of the corresponding object.

상기 얼굴 다이나믹 분석을 해석하는 단계는 상기 딥 네트워크(Deep Network)를 기반으로 상기 얼굴 제스처 영상에 대한 상기 객체 특징간 관계를 분석하여 성별인식, 연령추정, 생체인증, 표정인식 등의 상기 얼굴 다이나믹 분석을 해석할 수 있다.The analyzing of the face dynamic analysis may include analyzing the relationship between the object features of the face gesture image based on the deep network and analyzing the face dynamics such as gender recognition, age estimation, biometric authentication, facial expression recognition, and the like. Can be interpreted.

본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 시스템은 사용자의 얼굴 제스처 영상을 획득하는 영상 획득부, 상기 얼굴 제스처 영상으로부터 얼굴 움직임에 따른 얼굴의 부분 영역에서의 영역별 다이나믹 특징을 인코딩하는 특징 인코딩부 및 얼굴의 각 영역별 상기 다이나믹 특징을 포함하는 객체 특징간 관계를 딥 네트워크(Deep Network)를 이용해 분석하여 얼굴 다이나믹 분석을 해석하는 관계 분석부를 포함한다.According to an embodiment of the present invention, a facial characteristic analysis system using a facial motion relationship may include an image acquirer for acquiring a face gesture image of a user, and encoding dynamic characteristics for each region in a partial region of a face according to face movement from the face gesture image. The feature encoding unit and the relationship analysis unit for analyzing the face dynamic analysis by analyzing the relationship between the object features including the dynamic feature for each region of the face using a deep network.

상기 특징 인코딩부는 상기 얼굴 제스처 영상의 시퀀스(sequence)에 대해 각 프레임마다 컨볼루션 신경망(Convolutional Neural Network; CNN)을 이용하여 얼굴 특징맵을 추출하고, 상기 얼굴 특징맵을 상기 부분 영역으로 분류하여 LSTM(Long Short­Term Memory) 네트워크를 기반으로 두 객체들 간의 상기 다이나믹 특징을 추출하며, 상기 다이나믹 특징을 이용하여 상기 두 객체들 간의 관계 중요성을 적응적으로 인코딩할 수 있다.The feature encoding unit extracts a facial feature map using a convolutional neural network (CNN) for each frame of the sequence of the face gesture image, classifies the face feature map into the partial region, and performs LSTM. (Long ShortTerm Memory) The dynamic feature may be extracted between two objects based on a network, and the dynamic feature may be used to adaptively encode the importance of the relationship between the two objects.

상기 특징 인코딩부는 대용량의 얼굴 데이터로 학습한 이미지 모델에 따른 복수 개의 컨볼루션 레이어의 파라미터(parameter)를 전이 학습하여 상기 컨볼루션 신경망으로 이용할 수 있다.The feature encoder may transfer the parameters of a plurality of convolution layers according to an image model learned with a large amount of face data and use the convolution neural network.

상기 객체 특징은 상기 다이나믹 특징과 해당 객체의 위치 특징을 융합한 것일 수 있다.The object feature may be a fusion of the dynamic feature and a location feature of the corresponding object.

상기 관계 분석부는 상기 딥 네트워크(Deep Network)를 기반으로 상기 얼굴 제스처 영상에 대한 상기 객체 특징간 관계를 분석하여 성별인식, 연령추정, 생체인증, 표정인식 등의 상기 얼굴 다이나믹 분석을 해석할 수 있다. The relationship analyzer may analyze the facial dynamic analysis such as gender recognition, age estimation, biometric authentication, facial expression recognition, etc. by analyzing the relationship between the object features of the face gesture image based on the deep network. .

아래의 실시예들은 얼굴 움직임의 관계 특징을 이용하는 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법 및 그 시스템을 제공할 수 있다. The following embodiments may provide a method and system for analyzing facial features using a facial motion relationship using the facial feature's relationship feature.

구체적으로, 아래의 실시예들은 관계 분석 딥 네트워크(Deep Network)를 기반으로 얼굴 미세 영역의 다이나믹 특징간 관계를 분석하여 성별인식, 연령추정, 생체인증, 표정인식 등의 얼굴 다이나믹 분석을 해석할 수 있다.In detail, the following embodiments may analyze facial dynamic analysis such as gender recognition, age estimation, biometric authentication, facial expression recognition, etc. by analyzing the relationship between the dynamic features of the facial microregions based on the relationship analysis deep network. have.

따라서, 아래의 실시예들은 얼굴인증, 표정인식 등의 일반적인 얼굴 분석 기술에 적용 가능할 수 있다. Therefore, the following embodiments may be applicable to general face analysis techniques such as face authentication and facial expression recognition.

도 1은 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법의 흐름도를 도시한 것이다.
도 2는 본 발명의 실시예에 따른 관계 분석 딥 네트워크를 이용한 얼굴 분석 과정의 예를 도시한 것이다.
도 3은 얼굴 움직임에 관한 관계 중요성을 설명하기 위해 도시한 것이다.
도 4는 본 발명의 실시예에 따른 성별인식 정확도를 측정한 측정 결과를 도시한 것이다.
도 5는 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 시스템의 세부 구성에 대한 블록도를 도시한 것이다.
1 is a flowchart illustrating a facial characteristic analysis method using facial motion relations according to an exemplary embodiment of the present invention.
2 illustrates an example of a face analysis process using a relationship analysis deep network according to an exemplary embodiment of the present invention.
3 is a diagram for explaining the importance of relations regarding facial movements.
4 illustrates measurement results of measuring gender recognition accuracy according to an embodiment of the present invention.
5 is a block diagram illustrating a detailed configuration of a system for analyzing facial characteristics using facial motion relations according to an embodiment of the present invention.

이하, 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 또한, 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. However, the present invention is not limited or limited by the embodiments. Also, like reference numerals in the drawings denote like elements.

또한, 본 명세서에서 사용되는 용어(terminology)들은 본 발명의 바람직한 실시예를 적절히 표현하기 위해 사용된 용어들로서, 이는 시청자, 운용자의 의도 또는 본 발명이 속하는 분야의 관례 등에 따라 달라질 수 있다. 따라서, 본 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. In addition, terms used in the present specification (terminology) are terms used to properly express preferred embodiments of the present invention, which may vary depending on the intention of the viewer, the operator, or customs in the field to which the present invention belongs. Therefore, the definitions of the terms should be made based on the contents throughout the specification.

본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법 및 그 시스템은 얼굴 움직임 관계를 이용한 딥 네트워크(Deep Network)를 구성하며, 얼굴 영역별 다이나믹 특징을 인코딩하여 각 영역별 관계 간의 차이를 최소화하는 기술에 관한 것이다. 보다 구체적으로, 본 발명에서 제안하는 딥 네트워크는 얼굴의 영역별로 CNN(Convolutional Neural Network; 컨볼루션 신경망)과 LSTM(Long Short­Term Memory)을 이용해 다이나믹 특징을 인코딩하고, 각 영역에서의 다이나믹 특징간 관계를 딥 네트워크를 이용해 분석하여 최종적으로 성별인식, 연령추정, 생체인증, 표정인식 등의 얼굴 다이나믹 분석을 진행함으로써, 관계를 고려하지 않았던 기존 방법보다 인식 정확도 및 인식률을 향상시키는 것을 그 요지로 한다. The facial characteristic analysis method and system using the facial motion relation according to an embodiment of the present invention constitute a deep network using the facial motion relation, and encode a dynamic feature for each facial region to determine a difference between the relations of each region. It is about techniques to minimize. More specifically, the deep network proposed by the present invention encodes a dynamic feature by using a convolutional neural network (CNN) and a long short term memory (LSTM) for each face region, and calculates a relationship between dynamic features in each region. By analyzing the deep network and finally performing facial dynamic analysis such as gender recognition, age estimation, biometric authentication, facial expression recognition, etc., the main point is to improve the recognition accuracy and recognition rate compared to the conventional methods that did not consider the relationship.

이하, 본 발명의 상세한 설명에서는 성별인식, 연령추정, 생체인증, 표정인식 등의 얼굴 다이나믹 분석에 한정하여 설명하지만, 본 발명은 얼굴인증, 표정인식 등의 일반적인 얼굴 분석 기술에 광범위하게 적용할 수 있다는 것은 이 기술 분야에 종사하는 당업자에게 있어서 자명하다. Hereinafter, in the detailed description of the present invention, the present invention is limited to face dynamic analysis such as gender recognition, age estimation, biometric authentication, facial expression recognition, etc., but the present invention can be widely applied to general face analysis techniques such as facial authentication and facial expression recognition. It is apparent to those skilled in the art that there is.

이하에서는, 도 1 내지 도 5를 참조하여 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법 및 그 시스템에 대해 설명한다. Hereinafter, with reference to FIGS. 1 to 5, a method and a system for analyzing facial characteristics using a facial motion relationship according to an exemplary embodiment of the present invention will be described.

도 1은 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법의 흐름도를 도시한 것이다.1 is a flowchart illustrating a facial characteristic analysis method using facial motion relations according to an exemplary embodiment of the present invention.

도 1의 동작 방법은 도 5에 도시된 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 시스템에 의해 수행된다.The operation method of FIG. 1 is performed by the facial characteristic analysis system using the face motion relationship according to the embodiment of the present invention shown in FIG. 5.

단계 110에서, 사용자의 얼굴 제스처 영상을 획득한다. 이 때, 얼굴 제스처 영상은 사용자의 특정 제스처(표정)를 취하는 얼굴 영상을 의미한다. In operation 110, a face gesture image of the user is acquired. In this case, the face gesture image refers to a face image in which a user makes a specific gesture (expression).

단계 110에서 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 시스템은 카메라 장치가 구비되어 사용자들 각각의 얼굴 제스처 영상을 직접 획득하는 구성부, 복수의 사용자들 각각의 단말과 연동되어 복수의 사용자들 각각의 단말로부터 복수의 사용자들 각각의 얼굴 제스처 영상을 전달받는 구성부, 및 내부 또는 외부의 서버(또는 데이터베이스)에 실시간으로 업데이트되어 저장되는 복수의 사용자들 각각의 얼굴 제스처 영상을 수신하는 구성부 중 적어도 어느 하나 이상을 포함할 수 있다.In step 110, the facial characteristic analysis system using the facial motion relationship according to an embodiment of the present invention is a component that is provided with a camera device to directly obtain a face gesture image of each of the users, a plurality of users in conjunction with a plurality of terminals Receiving a face gesture image of each of the plurality of users from the terminal of each of the user, and receives the face gesture image of each of the plurality of users that is updated and stored in real time in the internal (or external) server (or database) It may include at least one or more of the components.

단계 120에서, 얼굴 제스처 영상으로부터 얼굴 움직임에 따른 얼굴의 부분 영역에서의 영역별 다이나믹 특징을 인코딩한다. In operation 120, the dynamic feature of each region in the partial region of the face according to the facial movement is encoded from the facial gesture image.

예를 들면, 단계 120은 얼굴 제스처 영상의 시퀀스(sequence)에 대해 각 프레임마다 컨볼루션 신경망(Convolutional Neural Network; CNN)을 이용하여 얼굴 특징맵을 추출하는 제1 단계, 얼굴 특징맵을 부분 영역으로 분류하여 LSTM(Long Short­Term Memory) 네트워크를 기반으로 두 객체들 간의 다이나믹 특징을 추출하는 제2 단계, 및 다이나믹 특징을 이용하여 두 객체들 간의 관계 중요성을 적응적으로 인코딩(encoding)하는 제3 단계를 포함할 수 있다. For example, step 120 is a first step of extracting a facial feature map using a convolutional neural network (CNN) for each frame for a sequence of facial gesture images, and using the facial feature map as a partial region. Classifying and extracting a dynamic feature between two objects based on a Long Short Term Memory (LSTM) network; and a third step of adaptively encoding the importance of the relationship between the two objects by using the dynamic feature. It may include.

이 때, 상기 제1 단계는 상기 컨볼루션 신경망으로는 대용량의 얼굴 데이터로 학습한 이미지 모델 예를 들면, VGG­face 모델에 따른 복수 개의 컨볼루션 레이어의 파라미터(parameter)를 전이 학습한 것을 이용하여 얼굴 특징맵을 추출할 수 있다. 또한, 상기 제2 단계는 추출된 얼굴 특징맵을 복수 개의 부분 영역으로 분류하여 LSTM 네트워크의 인풋(input)으로 사용하며, LSTM 네트워크를 통해 복수 개의 부분 영역 각각에 대한 다이나믹 특징을 추출할 수 있다. 여기서, 추출된 다이나믹 특징은 본 발명의 실시예에 따른 관계 분석 딥 네트워크의 입력(input)으로 사용될 수 있다. 또한, 상기 제3 단계는 얼굴 움직임에 따른 얼굴의 부분 영역에서 두 객체들 간의 차이를 반영하기 위해 두 객체들 간의 관계 중요성(relational importance)를 적응적으로 인코딩할 수 있다. In this case, the first step is a facial feature using the image model trained with a large amount of face data as the convolutional neural network, for example, the transfer of parameters of a plurality of convolutional layers according to a VGGface model. You can extract the map. In the second step, the extracted facial feature map may be classified into a plurality of partial regions and used as an input of the LSTM network, and dynamic features of each of the plurality of partial regions may be extracted through the LSTM network. Here, the extracted dynamic feature may be used as an input of a relationship analysis deep network according to an embodiment of the present invention. In addition, the third step may adaptively encode the relational importance between the two objects in order to reflect the difference between the two objects in the partial region of the face according to the face movement.

단계 130에서, 얼굴의 각 영역별 다이나믹 특징을 포함하는 객체 특징간 관계를 딥 네트워크(Deep Network)를 이용해 분석하여 얼굴 다이나믹 분석을 해석한다. In operation 130, the facial dynamic analysis may be analyzed by analyzing a relationship between object features including dynamic features of each region of the face using a deep network.

예를 들면, 단계 130은 추출한 다이나믹 특징과 해당 객체의 위치 특징을 융합한 객체 특징을 이용하여 하기의 [수식 1]을 통해 얼굴 다이나믹 분석을 수행할 수 있다.For example, in step 130, face dynamic analysis may be performed using Equation 1 below by using an object feature in which the extracted dynamic feature and the location feature of the corresponding object are fused.

[수식 1][Equation 1]

Figure 112018003751100-pat00001
Figure 112018003751100-pat00001

여기서,

Figure 112018003751100-pat00002
Figure 112018003751100-pat00003
는 각각 i번째 및 j번째 객체 특징을 나타내고, O는 모든 객체 특징의 집합을 의미한다. 또한,
Figure 112018003751100-pat00004
Figure 112018003751100-pat00005
는 각각 파라미터
Figure 112018003751100-pat00006
Figure 112018003751100-pat00007
의 함수로 다층 퍼셉트론(Multi­Layer Perceptron; MLP)에 의해 구현된 것일 수 있다. here,
Figure 112018003751100-pat00002
And
Figure 112018003751100-pat00003
Represents the i th and j th object features, respectively, and O represents the set of all object features. In addition,
Figure 112018003751100-pat00004
And
Figure 112018003751100-pat00005
Are each parameter
Figure 112018003751100-pat00006
Wow
Figure 112018003751100-pat00007
It may be implemented by a MultiLayer Perceptron (MLP) as a function of.

즉, 단계 130에서, 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 시스템은 딥 네트워크(Deep Network)를 기반으로 얼굴 제스처 영상에 대한 객체 특징간 관계를 분석하여 성별인식, 연령추정, 생체인증 및 표정인식 중 적어도 어느 하나 이상의 얼굴 다이나믹 분석을 해석할 수 있다. That is, in step 130, the facial characteristic analysis system using the facial motion relation according to an embodiment of the present invention analyzes the relationship between the object features of the facial gesture image based on the deep network, such as gender recognition, age estimation, At least one or more facial dynamic analysis of biometric authentication and facial expression recognition may be interpreted.

도 2는 본 발명의 실시예에 따른 관계 분석 딥 네트워크를 이용한 얼굴 분석 과정의 예를 도시한 것이다.2 illustrates an example of a face analysis process using a relationship analysis deep network according to an exemplary embodiment of the present invention.

도 2를 참조하면, 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법(200)은 사용자의 얼굴 제스처 영상(210)인 웃는 표정 시퀀스(sequence)에 대해 각 프레임마다 컨볼루션 신경망(Convolutional Neural Network; CNN)을 이용하여 얼굴 특징맵을 추출할 수 있다. 이 때, 컨볼루션 신경망으로는 대용량의 얼굴 데이터로 학습한 VGG­face 모델의 10개 컨볼루션 레이어의 파라미터(parameter)를 전이 학습하여 사용할 수 있다.Referring to FIG. 2, in the facial characteristic analysis method 200 using the facial motion relationship according to an exemplary embodiment of the present invention, a convolutional neural network may be performed for each frame with respect to a smiling facial expression image, which is a facial gesture image 210 of a user. Facial feature maps can be extracted using Convolutional Neural Network (CNN). In this case, as a convolutional neural network, parameters of 10 convolutional layers of the VGG­face model trained with a large amount of face data may be transferred and used.

이후, 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법(200)은 추출된 얼굴 특징맵을 9개의 얼굴 영역으로 분류하여 LSTM(Long Short­Term Memory) 네트워크의 인풋(input)으로 입력하고, 다이나믹 특징을 추출하여 인코딩(220)할 수 있다. Subsequently, the facial characteristic analysis method 200 using the facial motion relation according to an embodiment of the present invention classifies the extracted facial feature map into nine facial regions and inputs them as inputs of a long short term memory (LSTM) network. In operation 220, the dynamic feature may be extracted and encoded.

이후, 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법(200)은 9개 얼굴 영역으로부터 각각 추출된 다이나믹 특징과 해당 객체의 위치 특징을 융합한 객체 특징(230)을 관계 분석 딥 네트워크(240)에 입력으로 사용하여 성별인식, 연령추정, 생체인증, 표정인식 등의 얼굴 다이나믹 분석을 해석할 수 있다.Subsequently, in the facial feature analysis method 200 using the facial motion relation according to an embodiment of the present invention, the relationship analysis deeps an object feature 230 that fuses dynamic features extracted from nine face regions and location features of the corresponding object. The input to the network 240 may be used to interpret facial dynamic analysis such as gender recognition, age estimation, biometric authentication, facial expression recognition, and the like.

이에 따라서, 도 2에 도시된 바와 같이, 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법(200)은 획득된 사용자의 얼굴 제스처 영상(210)에 대한 성별인식의 얼굴 다이나믹 분석 결과(Gender: Female)를 도출할 수 있다.Accordingly, as shown in FIG. 2, in the facial characteristic analysis method 200 using the facial motion relation according to the embodiment of the present invention, the facial dynamic analysis result of gender recognition for the acquired facial gesture image 210 is performed. Derive (Gender: Female).

도 3은 얼굴 움직임에 관한 관계 중요성을 설명하기 위해 도시한 것이다.3 is a diagram for explaining the importance of relations regarding facial movements.

도 3(a)는 사용자의 얼굴 제스처 영상에 대한 얼굴의 부분 영역을 나타내며, 도 3(b)는 부분 영역에서의 객체 특징을 나타낸다. FIG. 3A illustrates a partial region of a face with respect to a face gesture image of the user, and FIG. 3B illustrates an object feature in the partial region.

도 3에 도시된 바와 같이, 사용자의 얼굴 제스처 영상에 대한 얼굴의 부분 영역에서의 객체 특징을 추출할 수 있다. 이 때, 객체 특징은 얼굴 영역별 중심 위치로 정의되는 위치 특징과 위치 특징의 다이나믹 특징을 포함할 수 있다.As illustrated in FIG. 3, an object feature in a partial region of a face with respect to a face gesture image of a user may be extracted. In this case, the object feature may include a location feature defined as a center location for each face region and a dynamic feature of the location feature.

본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법 및 그 시스템은 상기 객체 특징을 이용하여 얼굴 다이나믹 분석을 수행하기 위한 딥 네트워크 기반의 얼굴 관계형 네트워크(facial relational network)를 구축할 수 있다. 얼굴 관계형 네트워크는 얼굴 특정 추정을 위한 핵심 관계를 추출하는 신경망의 기능적 형태를 제공하며, 얼굴 특성 추정에서의 관계 중요성을 고려할 수 있다. The facial characteristic analysis method and system using the facial motion relation according to an embodiment of the present invention can build a facial relational network based on a deep network for performing facial dynamic analysis using the object feature. . Face-relational networks provide a functional form of neural networks that extract key relationships for face-specific estimation, and consider the importance of relationships in face feature estimation.

도 3에 도시된 바와 같이, 얼굴 분석을 위해 추출된 임의의 두 객체의 잠재 관계(latent relation)를 나타내는 관계형 특징(relational feature)은 하기의 [수식 2]로 산출된다.As shown in FIG. 3, a relational feature representing a latent relation of any two objects extracted for face analysis is calculated by Equation 2 below.

[수식 2][Formula 2]

Figure 112018003751100-pat00008
Figure 112018003751100-pat00008

여기서,

Figure 112018003751100-pat00009
은 학습 가능한 파라미터
Figure 112018003751100-pat00010
를 갖는 함수를 나타내며,
Figure 112018003751100-pat00011
는 i번째 내지 j번째 얼굴의 부분 영역에 대한 관계 쌍을 나타낸다. 또한, 두 객체 특징
Figure 112018003751100-pat00012
의 관계에 대한 관계 중요성
Figure 112018003751100-pat00013
는 하기의 [수식 3]과 같이 인코드(encode)된다.here,
Figure 112018003751100-pat00009
Is a learnable parameter
Figure 112018003751100-pat00010
Represents a function with
Figure 112018003751100-pat00011
Denotes a relationship pair for the partial region of the i th to j th face. Also, two object features
Figure 112018003751100-pat00012
Relationship importance for the relationship of
Figure 112018003751100-pat00013
Is encoded as shown in Equation 3 below.

[수식 3][Equation 3]

Figure 112018003751100-pat00014
Figure 112018003751100-pat00014

여기서,

Figure 112018003751100-pat00015
는 학습 가능한 파라미터
Figure 112018003751100-pat00016
Figure 112018003751100-pat00017
를 갖는 함수를 나타낸다.here,
Figure 112018003751100-pat00015
Is a learnable parameter
Figure 112018003751100-pat00016
Figure 112018003751100-pat00017
Represents a function with

본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법 및 그 시스템은 주어진 객체 특징

Figure 112018003751100-pat00018
을 이용하여 두 개의 객체들 간의 관계 중요성
Figure 112018003751100-pat00019
을 적응적으로 인코딩할 수 있으며, 이로 인해 얼굴 제스처 영상에 대한 얼굴 다이나믹 분석을 수행할 수 있다. 이 때, 얼굴 다이나믹 분석에 중요한 관계는 관계 중요성을 기반으로 획득될 수 있으며, 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법 및 그 시스템은 객체 특징과 얼굴 특성 추정의 관계 중요성을 결합할 수 있다. According to an embodiment of the present invention, there is provided a method and system for analyzing facial features using facial motion relations.
Figure 112018003751100-pat00018
Importance of Relationship Between Two Objects Using
Figure 112018003751100-pat00019
Can be adaptively encoded, which enables face dynamic analysis of facial gesture images. In this case, a relationship important for facial dynamic analysis may be obtained based on the relationship importance, and a method and system for analyzing facial features using facial motion relations according to an embodiment of the present invention may be based on the importance of the relationship between object characteristics and facial feature estimation. Can be combined.

예를 들면, 높은 관계 중요성 값은 얼굴 움직임에 따른 얼굴의 부분 영역에서의 얼굴 특성을 평가하는데 중요한 의미이다. 기본적으로 관계의 중요성은 두 객체의 관계에 대한 중요성을 나타내므로, 두 객체의 관계 중요성을 결합하여 객체의 관계에 대한 중요성을 해석할 수 있다. For example, a high relationship importance value is important for evaluating facial features in partial regions of the face following facial movements. Basically, the importance of the relationship represents the importance of the relationship between two objects, so that the importance of the relationship between objects can be interpreted by combining the importance of the relationship between two objects.

도 4는 본 발명의 실시예에 따른 성별인식 정확도를 측정한 측정 결과를 도시한 것이다. 4 illustrates measurement results of measuring gender recognition accuracy according to an embodiment of the present invention.

도 4를 참조하면, how­old.net+dynamics 방법 및 COTS+dynamics 방법은 연령이 20세 미만인 사람들에 대해서 60.80%의 정확도와 76.92%의 정확도를 나타내는 것을 확인할 수 있으며, 제안하는 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법 및 그 시스템(Proposed relational network)은 78.10%의 정확도를 나타내는 것을 확인할 수 있다. 이에 따라서, 제안하는 본 발명은 기존 방법에 비해 우수한 성능을 보임을 확인할 수 있다.Referring to Figure 4, howold.net + dynamics method and COTS + dynamics method can be seen that shows the accuracy of 60.80% and 76.92% for people under 20 years of age, the proposed embodiment of the present invention It can be seen that the facial characteristic analysis method using the facial motion relation and the proposed relational network show 78.10% accuracy. Accordingly, it can be seen that the proposed present invention shows superior performance compared to the existing method.

나아가, 20세 이상의 사람들에 대해서도 how­old.net+dynamics 방법은 93.46%를 나타내고, COTS+dynamics 방법은 93.00%인 반면, 제안하는 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법 및 그 시스템(Proposed relational network)은 94.37%의 성능으로 더 정확하게 성별을 인식하는 것을 확인할 수 있다. 3가지 방법에서 모두 20세 미만인 사람들에 대한 성별 인식 정확도가 20세 이상인 사람들에서의 정확도보다 낮게 도출되었는데, 이는 아동들의 경우, 남성과 여성의 차이가 성인 남성과 여성에 비해 뚜렷하지 않은 영향인 것으로 생각해볼 수 있다. Furthermore, the howold.net + dynamics method is 93.46% and the COTS + dynamics method is 93.00% for people over 20 years old, while the facial characteristic analysis method using the facial motion relationship according to the embodiment of the present invention and its The proposed relational network can be seen to recognize gender more accurately with 94.37% performance. In all three methods, the gender recognition accuracy for people under 20 years of age was lower than that for people over 20 years of age, indicating that for children, the differences between men and women are insignificant compared to adults men and women. You can think about it.

즉, 제안하는 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법 및 그 시스템(Proposed relational network)은 효과적인 미세 얼굴 영역에서의 움직임간 관계 분석을 위한 딥 네트워크 구조를 제안하며, 비교 실험 결과를 통해 관계를 고려하지 않았던 기존 방법(how­old.net+dynamics 방법, COTS+dynamics 방법)보다 더 정확한 성능을 획득하는 것을 검증하였다. That is, the proposed method for analyzing facial features using a facial motion relationship and a proposed relational network according to an embodiment of the present invention propose a deep network structure for analyzing the relationship between movements in an effective fine face region, and comparing the experiments. The results verify that the performance is more accurate than the existing methods (howold.net + dynamics method, COTS + dynamics method) that did not consider the relationship.

도 5는 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 시스템의 세부 구성에 대한 블록도를 도시한 것이다.5 is a block diagram illustrating a detailed configuration of a system for analyzing facial characteristics using facial motion relations according to an exemplary embodiment of the present invention.

도 5를 참조하면, 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 시스템은 각 얼굴 영역에서의 움직임간 관계에 기반하여 얼굴분석을 수행한다.Referring to FIG. 5, the facial characteristic analysis system using the facial motion relation according to the embodiment of the present invention performs face analysis based on the relation between the movements in each facial region.

이를 위해, 본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 시스템(500)은 영상 획득부(510), 특징 인코딩부(520) 및 관계 분석부(530)를 포함한다.To this end, the facial characteristic analysis system 500 using the facial motion relationship according to the embodiment of the present invention includes an image acquisition unit 510, a feature encoding unit 520, and a relationship analysis unit 530.

영상 획득부(510)는 사용자의 얼굴 제스처 영상을 획득한다. 이 때, 얼굴 제스처 영상은 사용자의 특정 제스처(표정)를 취하는 얼굴 영상을 의미한다. The image acquisition unit 510 acquires a face gesture image of the user. In this case, the face gesture image refers to a face image in which a user makes a specific gesture (expression).

본 발명의 실시예에 따른 얼굴 움직임 관계를 이용한 얼굴 특성 분석 시스템(500)은 카메라 장치가 구비되어 사용자들 각각의 얼굴 제스처 영상을 직접 획득하는 구성부, 복수의 사용자들 각각의 단말과 연동되어 복수의 사용자들 각각의 단말로부터 복수의 사용자들 각각의 얼굴 제스처 영상을 전달받는 구성부, 및 내부 또는 외부의 서버(또는 데이터베이스)에 실시간으로 업데이트되어 저장되는 복수의 사용자들 각각의 얼굴 제스처 영상을 수신하는 구성부 중 적어도 어느 하나 이상을 포함할 수 있다. The facial characteristic analysis system 500 using the facial motion relationship according to an embodiment of the present invention includes a component that is provided with a camera device to directly obtain a facial gesture image of each of the users, and is linked with a plurality of terminals of each of the users. Receiving a face gesture image of each of the plurality of users from the terminal of each of the user, and receives the face gesture image of each of the plurality of users that is updated and stored in real time in the internal (or external) server (or database) It may include at least one or more of the components.

특징 인코딩부(520)는 얼굴 제스처 영상으로부터 얼굴 움직임에 따른 얼굴의 부분 영역에서의 영역별 다이나믹 특징을 인코딩한다. The feature encoder 520 encodes dynamic features for respective regions in the partial region of the face according to the face movement from the face gesture image.

예를 들면, 특징 인코딩부(520)는 얼굴 제스처 영상의 시퀀스(sequence)에 대해 각 프레임마다 컨볼루션 신경망(Convolutional Neural Network; CNN)을 이용하여 얼굴 특징맵을 추출하고, 얼굴 특징맵을 부분 영역으로 분류하여 LSTM(Long Short­Term Memory) 네트워크를 기반으로 두 객체들 간의 다이나믹 특징을 추출하며, 두 객체들 간의 관계 중요성을 적응적으로 인코딩(encoding)할 수 있다. For example, the feature encoder 520 extracts a facial feature map using a convolutional neural network (CNN) for each frame of a sequence of facial gesture images, and extracts a facial feature map from a partial region. By classifying as, it is possible to extract dynamic features between two objects based on long short term memory (LSTM) network, and to adaptively encode the importance of the relationship between two objects.

이 때, 특징 인코딩부(520)는 상기 컨볼루션 신경망으로는 대용량의 얼굴 데이터로 학습한 이미지 모델 예를 들면, VGG­face 모델에 따른 복수 개의 컨볼루션 레이어의 파라미터(parameter)를 전이 학습한 것을 이용하여 얼굴 특징맵을 추출할 수 있다. 또한, 특징 인코딩부(520)는 추출된 얼굴 특징맵을 복수 개의 부분 영역으로 분류하여 LSTM 네트워크의 인풋(input)으로 사용하며, LSTM 네트워크를 통해 복수 개의 부분 영역 각각에 대한 다이나믹 특징을 추출할 수 있다. 여기서, 추출된 다이나믹 특징은 본 발명의 실시예에 따른 관계 분석 딥 네트워크의 입력(input)으로 사용될 수 있다. At this time, the feature encoding unit 520 is a convolutional neural network using an image model trained with a large amount of face data, for example, using a transition train of parameters of a plurality of convolution layers according to a VGGface model. The facial feature map can be extracted. In addition, the feature encoding unit 520 classifies the extracted facial feature map into a plurality of partial regions and uses them as inputs to the LSTM network, and extracts dynamic features for each of the plurality of partial regions through the LSTM network. have. Here, the extracted dynamic feature may be used as an input of a relationship analysis deep network according to an embodiment of the present invention.

관계 분석부(530)는 얼굴의 각 영역별 다이나믹 특징을 포함하는 객체 특징간 관계를 딥 네트워크(Deep Network)를 이용해 분석하여 얼굴 다이나믹 분석을 해석한다. The relationship analyzer 530 analyzes the relationship between the object features including the dynamic features of each region of the face by using a deep network to analyze the face dynamic analysis.

예를 들면, 관계 분석부(530)는 추출한 다이나믹 특징과 해당 객체의 위치 특징을 융합한 객체 특징을 이용하여 [수식 1]을 통해 얼굴 다이나믹 분석을 수행할 수 있다. 이에 따라서, 관계 분석부(530)는 딥 네트워크(Deep Network)를 기반으로 얼굴 제스처 영상에 대한 객체 특징간 관계를 분석하여 성별인식, 연령추정, 생체인증 및 표정인식 중 적어도 어느 하나 이상의 얼굴 다이나믹 분석을 해석할 수 있다. For example, the relationship analyzer 530 may perform facial dynamic analysis through [Equation 1] using an object feature in which the extracted dynamic feature and the location feature of the corresponding object are fused. Accordingly, the relationship analyzer 530 analyzes a relationship between object features of a face gesture image based on a deep network and analyzes at least one or more face dynamics among gender recognition, age estimation, biometric authentication, and facial expression recognition. Can be interpreted.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The apparatus described above may be implemented as a hardware component, a software component, and / or a combination of hardware components and software components. For example, the devices and components described in the embodiments include, for example, processors, controllers, arithmetic logic units (ALUs), digital signal processors, microcomputers, field programmable arrays (FPAs), It may be implemented using one or more general purpose or special purpose computers, such as a programmable logic unit (PLU), microprocessor, or any other device capable of executing and responding to instructions. The processing device may execute an operating system (OS) and one or more software applications running on the operating system. The processing device may also access, store, manipulate, process, and generate data in response to the execution of the software. For convenience of explanation, one processing device may be described as being used, but one of ordinary skill in the art will appreciate that the processing device includes a plurality of processing elements and / or a plurality of types of processing elements. It can be seen that it may include. For example, the processing device may include a plurality of processors or one processor and one controller. In addition, other processing configurations are possible, such as parallel processors.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may include a computer program, code, instructions, or a combination of one or more of the above, and configure the processing device to operate as desired, or process it independently or collectively. You can command the device. Software and / or data may be any type of machine, component, physical device, virtual equipment, computer storage medium or device in order to be interpreted by or to provide instructions or data to the processing device. Or may be permanently or temporarily embodied in a signal wave to be transmitted. The software may be distributed over networked computer systems so that they may be stored or executed in a distributed manner. Software and data may be stored on one or more computer readable recording media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD­ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기­광 매체(magneto­optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to the embodiment may be embodied in the form of program instructions that can be executed by various computer means and recorded in a computer readable medium. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination. The program instructions recorded on the media may be those specially designed and constructed for the purposes of the embodiments, or they may be of the kind well-known and available to those having skill in the computer software arts. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CDROMs, DVDs, and magneto-optical media such as floppy disks. (magnetooptical media), and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like. The hardware device described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.Although the embodiments have been described by the limited embodiments and the drawings as described above, various modifications and variations are possible to those skilled in the art from the above description. For example, the described techniques may be performed in a different order than the described method, and / or components of the described systems, structures, devices, circuits, etc. may be combined or combined in a different manner than the described method, or other components. Or even if replaced or replaced by equivalents, an appropriate result can be achieved.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents to the claims are within the scope of the claims that follow.

200, 500: 관계 분석 방법 및 시스템
210: 얼굴 제스처 영상
230: 객체 특징
200, 500: Relationship analysis method and system
210: facial gesture image
230: object features

Claims (12)

사용자의 얼굴 제스처 영상을 획득하는 단계;
상기 얼굴 제스처 영상으로부터 얼굴 움직임에 따른 얼굴의 부분 영역에서의 영역별 다이나믹 특징을 인코딩하는 단계; 및
얼굴의 각 영역별 상기 다이나믹 특징을 포함하는 객체 특징간 관계를 딥 네트워크(Deep Network)를 이용해 분석하여 얼굴 다이나믹 분석을 해석하는 단계를 포함하되,
상기 영역별 다이나믹 특징을 인코딩하는 단계는
상기 얼굴 제스처 영상의 시퀀스(sequence)에 대해 각 프레임마다 컨볼루션 신경망(Convolutional Neural Network; CNN)을 이용하여 얼굴 특징맵을 추출하는 단계;
상기 얼굴 특징맵을 9개의 상기 부분 영역으로 분류하여 LSTM(Long Short-Term Memory) 네트워크를 기반으로 두 객체들 간의 상기 다이나믹 특징을 추출하는 단계; 및
상기 다이나믹 특징을 이용하여 상기 두 객체들 간의 관계 중요성을 적응적으로 인코딩하는 단계를 포함하며,
상기 두 객체들 간의 관계 중요성을 적응적으로 인코딩하는 단계는
얼굴 움직임에 따른 얼굴의 부분 영역에서 상기 두 객체들 간의 차이를 반영하기 위해 상기 두 객체들 간의 관계 중요성(relational importance)을 적응적으로 인코딩하고,
상기 얼굴 다이나믹 분석을 해석하는 단계는
상기 딥 네트워크(Deep Network)를 기반으로 상기 얼굴 제스처 영상에 대한 얼굴 움직임의 상기 객체 특징간 관계를 분석하여 성별인식, 연령추정, 생체인증 및 표정인식의 상기 얼굴 다이나믹 분석을 해석하는 것을 특징으로 하는, 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법.
Obtaining a face gesture image of a user;
Encoding dynamic features for respective regions in the partial region of the face according to facial movement from the face gesture image; And
Analyzing a facial dynamic analysis by analyzing a relationship between object features including the dynamic features of each region of the face by using a deep network,
Encoding the dynamic feature for each region is
Extracting a facial feature map using a convolutional neural network (CNN) for each frame of the face gesture image;
Classifying the facial feature map into nine sub-regions and extracting the dynamic feature between two objects based on a long short-term memory (LSTM) network; And
Adaptively encoding the importance of the relationship between the two objects using the dynamic feature,
Adaptively encoding the importance of the relationship between the two objects
Adaptively encode the relational importance between the two objects in order to reflect the difference between the two objects in the partial region of the face according to the movement of the face,
Interpreting the facial dynamic analysis
Analyzing the facial dynamic analysis of gender recognition, age estimation, biometric authentication and facial expression recognition by analyzing the relationship between the object features of facial movements on the face gesture image based on the deep network. , Facial feature analysis using face motion relationship.
삭제delete 제1항에 있어서,
상기 얼굴 특징맵을 추출하는 단계는
대용량의 얼굴 데이터로 학습한 이미지 모델에 따른 복수 개의 컨볼루션 레이어의 파라미터(parameter)를 전이 학습하여 상기 컨볼루션 신경망으로 이용하는 것을 특징으로 하는 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법.
The method of claim 1,
Extracting the facial feature map
A facial characteristic analysis method using a facial motion relationship, characterized in that the transfer of a plurality of parameters (convolution) of the convolutional layer according to the image model learned with a large amount of face data to use as the convolutional neural network.
제1항에 있어서,
상기 다이나믹 특징을 추출하는 단계는
상기 추출된 얼굴 특징맵을 복수 개의 상기 얼굴의 부분 영역으로 분류하여 상기 LSTM 네트워크의 인풋(input)으로 사용하며, 상기 LSTM 네트워크로부터 상기 다이나믹 특징을 추출하는 것을 특징으로 하는 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법.
The method of claim 1,
Extracting the dynamic feature
The extracted facial feature map is classified into a plurality of partial regions of the face and used as an input of the LSTM network, and the dynamic feature is extracted from the LSTM network. Analytical Method.
제1항에 있어서,
상기 객체 특징은
상기 다이나믹 특징과 해당 객체의 위치 특징을 융합한 것을 특징으로 하는 얼굴 움직임 관계를 이용한 얼굴 특성 분석 방법.
The method of claim 1,
The object feature is
Facial characteristic analysis method using the facial motion relationship characterized in that the fusion of the dynamic feature and the location feature of the object.
삭제delete 삭제delete 사용자의 얼굴 제스처 영상을 획득하는 영상 획득부;
상기 얼굴 제스처 영상으로부터 얼굴 움직임에 따른 얼굴의 부분 영역에서의 영역별 다이나믹 특징을 인코딩하는 특징 인코딩부; 및
얼굴의 각 영역별 상기 다이나믹 특징을 포함하는 객체 특징간 관계를 딥 네트워크(Deep Network)를 이용해 분석하여 얼굴 다이나믹 분석을 해석하는 관계 분석부를 포함하되,
상기 특징 인코딩부는
상기 얼굴 제스처 영상의 시퀀스(sequence)에 대해 각 프레임마다 컨볼루션 신경망(Convolutional Neural Network; CNN)을 이용하여 얼굴 특징맵을 추출하고, 상기 얼굴 특징맵을 9개의 상기 부분 영역으로 분류하여 LSTM(Long Short-Term Memory) 네트워크를 기반으로 두 객체들 간의 상기 다이나믹 특징을 추출하며, 상기 다이나믹 특징을 이용하여 얼굴 움직임에 따른 얼굴의 부분 영역에서 상기 두 객체들 간의 차이를 반영하기 위해 상기 두 객체들 간의 관계 중요성(relational importance)을 적응적으로 인코딩하고,
상기 관계 분석부는
상기 딥 네트워크(Deep Network)를 기반으로 상기 얼굴 제스처 영상에 대한 얼굴 움직임의 상기 객체 특징간 관계를 분석하여 성별인식, 연령추정, 생체인증, 표정인식 등의 상기 얼굴 다이나믹 분석을 해석하는 것을 특징으로 하는, 얼굴 움직임 관계를 이용한 얼굴 특성 분석 시스템.
An image obtaining unit obtaining a face gesture image of the user;
A feature encoding unit for encoding a dynamic feature for each region in a partial region of a face according to face movement from the face gesture image; And
It includes a relationship analysis unit for analyzing the relationship between the object features including the dynamic feature of each region of the face using a deep network to analyze the face dynamic analysis,
The feature encoding unit
For each frame of the face gesture image, a facial feature map is extracted using a convolutional neural network (CNN) for each frame, and the face feature map is classified into nine sub-regions to form an LSTM (Long). Short-Term Memory) extracts the dynamic feature between two objects based on a network, and uses the dynamic feature to reflect the difference between the two objects in the partial region of the face according to the movement of the face. Adaptively encodes relational importance,
The relationship analysis unit
Analyzing the facial dynamic analysis such as gender recognition, age estimation, biometric authentication, facial expression recognition, etc. by analyzing the relationship between the object features of the facial motion on the face gesture image based on the deep network. A facial characteristic analysis system using a facial motion relationship.
삭제delete 제8항에 있어서,
상기 특징 인코딩부는
대용량의 얼굴 데이터로 학습한 이미지 모델에 따른 복수 개의 컨볼루션 레이어의 파라미터(parameter)를 전이 학습하여 상기 컨볼루션 신경망으로 이용하는 것을 특징으로 하는 얼굴 움직임 관계를 이용한 얼굴 특성 분석 시스템.
The method of claim 8,
The feature encoding unit
A facial characteristic analysis system using a facial motion relationship, characterized in that the transfer of the parameters of the plurality of convolution layers according to the image model learned with a large amount of face data to use as the convolutional neural network.
제8항에 있어서,
상기 객체 특징은
상기 다이나믹 특징과 해당 객체의 위치 특징을 융합한 것을 특징으로 하는 얼굴 움직임 관계를 이용한 얼굴 특성 분석 시스템.
The method of claim 8,
The object feature is
Facial characteristic analysis system using the facial motion relationship characterized in that the fusion of the dynamic feature and the location feature of the object.
삭제delete
KR1020180004155A 2018-01-12 2018-01-12 Analysis method of relations of face movements and the system thereof KR102054058B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180004155A KR102054058B1 (en) 2018-01-12 2018-01-12 Analysis method of relations of face movements and the system thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180004155A KR102054058B1 (en) 2018-01-12 2018-01-12 Analysis method of relations of face movements and the system thereof

Publications (2)

Publication Number Publication Date
KR20190093759A KR20190093759A (en) 2019-08-12
KR102054058B1 true KR102054058B1 (en) 2019-12-09

Family

ID=67624863

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180004155A KR102054058B1 (en) 2018-01-12 2018-01-12 Analysis method of relations of face movements and the system thereof

Country Status (1)

Country Link
KR (1) KR102054058B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021119029A1 (en) * 2019-12-12 2021-06-17 Realnetworks, Inc. Methods and systems for facial recognition using motion vector trained model

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102380333B1 (en) * 2020-02-25 2022-04-01 주식회사 하이퍼커넥트 Image Reenactment Apparatus, Method and Computer Readable Recording Medium Thereof
KR102297049B1 (en) * 2020-03-12 2021-09-02 주식회사 머니박스 Exchange kiosk apparatus linked with payment service
KR102373608B1 (en) * 2021-06-21 2022-03-14 주식회사 쓰리디팩토리 Electronic apparatus and method for digital human image formation, and program stored in computer readable medium performing the same

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Jixu Chen et. al,, Learning person-specific models for facial expression and action unit recognition, Pattern Recognition Letters Volume 34, Issue 15 pp. 1964-1970, (2013.11.01) 1부*
Jun He et. al,, Multi View Facial Action Unit Detection based on CNN and BLSTM-RNN, 2017 IEEE 12th International Conference on Automatic Face & Gesture Recognition, (2017.06.21) 1부*
Pooya Khorrami et. al, Do Deep Neural Networks Learn Facial Action Units When Doing Expression Recognition, ICCV 2015 CV4AC Workshop Computer Vision and Pattern Recognition, pp19-27, (2017.03.16.) 1부*

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021119029A1 (en) * 2019-12-12 2021-06-17 Realnetworks, Inc. Methods and systems for facial recognition using motion vector trained model
US11275928B2 (en) 2019-12-12 2022-03-15 Realnetworks, Inc. Methods and systems for facial recognition using motion vector trained model

Also Published As

Publication number Publication date
KR20190093759A (en) 2019-08-12

Similar Documents

Publication Publication Date Title
KR102054058B1 (en) Analysis method of relations of face movements and the system thereof
CN107784282B (en) Object attribute identification method, device and system
Hoang Ngan Le et al. Robust hand detection and classification in vehicles and in the wild
US11200424B2 (en) Space-time memory network for locating target object in video content
Luo et al. ARBEE: Towards automated recognition of bodily expression of emotion in the wild
US20220172518A1 (en) Image recognition method and apparatus, computer-readable storage medium, and electronic device
CN111222500B (en) Label extraction method and device
Mygdalis et al. Graph embedded one-class classifiers for media data classification
Ullah et al. Multi-feature-based crowd video modeling for visual event detection
US20210319062A1 (en) Method and apparatus for searching video segment, device, and medium
Sheng et al. Siamese denoising autoencoders for joints trajectories reconstruction and robust gait recognition
Wang et al. Abnormal behavior detection in videos using deep learning
CN112580616B (en) Crowd quantity determination method, device, equipment and storage medium
Khelalef et al. An efficient human activity recognition technique based on deep learning
dos S Silva et al. A novel feature extractor for human action recognition in visual question answering
Van Gemeren et al. Hands-on: deformable pose and motion models for spatiotemporal localization of fine-grained dyadic interactions
Gao et al. Occluded person re-identification based on feature fusion and sparse reconstruction
Li et al. Multi-Sensor integration for key-frame extraction from first-person videos
Mery Face analysis: state of the art and ethical challenges
GG Skeleton-based STIP feature and discriminant sparse coding for human action recognition
Huang et al. Research on motion recognition algorithm based on bag-of-words model
Das et al. A pixel based segmentation scheme for fingerprint images
Wan et al. MSLANet: multi-scale long attention network for skin lesion classification
Chang et al. Fast Online Upper Body Pose Estimation from Video.
Grouver et al. A spatial density and phase angle based correlation for multi-type family photo identification

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant