KR20220043905A - Face recognition system for training face recognition model using frequency components - Google Patents
Face recognition system for training face recognition model using frequency components Download PDFInfo
- Publication number
- KR20220043905A KR20220043905A KR1020210128737A KR20210128737A KR20220043905A KR 20220043905 A KR20220043905 A KR 20220043905A KR 1020210128737 A KR1020210128737 A KR 1020210128737A KR 20210128737 A KR20210128737 A KR 20210128737A KR 20220043905 A KR20220043905 A KR 20220043905A
- Authority
- KR
- South Korea
- Prior art keywords
- face
- face recognition
- error
- feature map
- convolution
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
Description
본 발명은 얼굴을 인식할 수 있는 얼굴인식 시스템에 관한 것이다.The present invention relates to a face recognition system capable of recognizing a face.
얼굴인증(face authentication) 기술이란 생체인식(Biometrics) 분야 중의 하나로써 사람마다 얼굴에 담겨있는 고유한 특징 정보를 이용하여 기계가 자동으로 사람을 식별하고 인증하는 기술을 의미하는 것으로서, 비밀번호 등에 의한 기존의 인증방식에 비해 보안성이 뛰어나 최근 다양한 분야에서 널리 이용되고 있다. Face authentication technology is one of the fields of biometrics, which means a technology in which a machine automatically identifies and authenticates a person using the unique feature information contained in each person's face. It has superior security compared to the authentication method, and has been widely used in various fields recently.
일반적인 얼굴인식 시스템은 출입 게이트 등에 설치된 디바이스에서 촬영된 얼굴이미지를 서버로 전송하고, 서버가 얼굴인식 및 얼굴인식에 따른 사용자 인증을 수행하고 인증결과를 디바이스로 전송함으로써 출입 게이트의 개방여부를 결정한다.A general face recognition system transmits a face image taken from a device installed in an access gate, etc. to a server, and the server performs face recognition and user authentication according to face recognition, and transmits the authentication result to the device to determine whether to open the access gate. .
일반적인 안면인식시스템은 실제 얼굴이 아닌 출력된 사진이나 모바일, 태블릿 등 화면의 사진으로 인증을 수행하는 경우, 이를 식별할 수 없어 부정한 사용자를 정당 사용자로 승인할 수 있다는 문제점이 있다.A general facial recognition system has a problem in that when authentication is performed with a picture of a screen such as a mobile or tablet, rather than an actual face, it cannot be identified, so that an illegal user can be approved as a legitimate user.
본 발명은 상술한 문제점을 해결하기 위한 것으로서, 별도의 특수 장비없이 얼굴 이미지가 실물이미지인지 여부를 판단할 수 있는 얼굴인식 시스템을 제공하는 것을 기술적 과제로 한다.The present invention is to solve the above problems, and it is a technical task to provide a face recognition system capable of determining whether a face image is a real image without additional special equipment.
또한, 본 발명은 얼굴탐지 및 위변조 판별에 대한 연산 속도를 향상시킬 수 있는 얼굴인식 시스템을 제공하는 것을 다른 기술적 과제로 한다.Another technical object of the present invention is to provide a face recognition system capable of improving the calculation speed for face detection and forgery detection.
본 발명의 일 측면에 따른 얼굴인식 시스템은, 사용자의 입력 이미지로부터 얼굴을 인식하고 입력 이미지의 위변조 여부를 판별하는 얼굴인식 모델, 및 학습 이미지로부터 특징맵을 추출하고, 추출된 특징맵을 기초로 학습 이미지에 대한 얼굴 정보, 위변조 정보 및 주파수 정보를 획득하며, 상기 획득된 얼굴 정보, 상기 위변조 정보 및 상기 주파수 정보를 실제값과 비교하여 오차를 산출하고, 상기 산출된 오차가 기준값 보다 작은 값을 가지도록 얼굴인식 모델을 학습시키는 얼굴인식 학습 모델을 포함한다.A face recognition system according to an aspect of the present invention extracts a feature map from a face recognition model that recognizes a face from a user's input image and determines whether the input image is forged or falsified, and a learning image, and based on the extracted feature map Acquire face information, forgery information, and frequency information for the learning image, calculate an error by comparing the obtained face information, the forgery information, and the frequency information with an actual value, and the calculated error is smaller than a reference value It includes a face recognition learning model that trains the face recognition model to have it.
본 발명에 따르면, 얼굴인식모델을 얼굴에 대한 특징뿐만 아니라 주파수 성분도 고려하여 학습시킴으로써, 일반 카메라로 촬영된 RGB 이미지가 얼굴인식모델에 입력되더라도 주파수 성분이 반영된 특징맵이 생성될 수 있다. 이에 따라, 본 발명은 적외선 센서와 같은 별도의 장치 없이 위변조 여부를 판별할 수 있으므로, 환경적 제약을 최소화하고 비용을 절감할 수 있다.According to the present invention, by learning the face recognition model in consideration of not only facial features but also frequency components, a feature map in which frequency components are reflected can be generated even when RGB images photographed with a general camera are input to the face recognition model. Accordingly, the present invention can determine whether forgery or not without a separate device such as an infrared sensor, it is possible to minimize environmental restrictions and reduce costs.
또한, 본 발명은 하나의 통합 얼굴인식모델을 통해 얼굴탐지 및 위변조 판별을 동시에 수행함으로써, 연산량을 감소시킬 수 있고, 이에 따라, 연산속도를 효과적으로 향상시킬 수 있다.In addition, the present invention can reduce the amount of computation by simultaneously performing face detection and forgery detection through a single integrated face recognition model, thereby effectively improving the computation speed.
도 1은 본 발명의 일 실시예에 따른 얼굴인식 시스템의 구성을 개략적으로 보여주는 블록도이다.
도 2는 본 발명의 일 실시예에 따른 얼굴인식 서버의 구성을 개략적으로 보여주는 블록도이다.
도 3은 도 2의 얼굴인식 학습 모델의 구성의 일 예를 보여주는 블록도이다.
도 4는 도 3의 제1, 제2 및 제3 컨벌루션 유닛의 구성을 보여주는 블록도이다.
도 5는 도 3의 제4 및 제5 컨벌루션 유닛의 구성을 보여주는 블록도이다.
도 6은 도 3의 단일 스테이지 네트워크의 구성을 보여주는 블록도이다.
도 7은 도 6의 제6, 제8 및 제10 컨벌루션 유닛의 구성을 보여주는 블록도이다.
도 8은 도 6의 제7 및 제9 컨벌루션 유닛의 구성을 보여주는 블록도이다.
도 9는 도 3은 도 2의 얼굴인식 모델의 구성의 일 예를 보여주는 블록도이다.
도 10은 본 발명의 일 실시예에 따른 에지 디바이스의 구성을 개략적으로 보여주는 블록도이다.1 is a block diagram schematically showing the configuration of a face recognition system according to an embodiment of the present invention.
2 is a block diagram schematically showing the configuration of a face recognition server according to an embodiment of the present invention.
3 is a block diagram illustrating an example of the configuration of the face recognition learning model of FIG. 2 .
FIG. 4 is a block diagram showing the configuration of the first, second, and third convolutional units of FIG. 3 .
FIG. 5 is a block diagram showing the configuration of fourth and fifth convolutional units of FIG. 3 .
FIG. 6 is a block diagram showing the configuration of the single-stage network of FIG. 3 .
FIG. 7 is a block diagram showing the configuration of a sixth, eighth, and tenth convolution unit of FIG. 6 .
FIG. 8 is a block diagram showing the configuration of seventh and ninth convolution units of FIG. 6 .
9 is a block diagram showing an example of the configuration of the face recognition model of FIG. 3 .
10 is a block diagram schematically showing the configuration of an edge device according to an embodiment of the present invention.
이하, 첨부되는 도면을 참고하여 본 발명의 실시예들에 대해 상세히 설명한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.
본 명세서에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.The meaning of the terms described in this specification should be understood as follows.
단수의 표현은 문맥상 명백하게 다르게 정의하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다.The singular expression is to be understood as including the plural expression unless the context clearly defines otherwise, and the terms "first", "second", etc. are used to distinguish one element from another, The scope of rights should not be limited by these terms.
"포함하다" 또는 "가지다" 등의 용어는 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.It should be understood that terms such as “comprise” or “have” do not preclude the possibility of addition or existence of one or more other features or numbers, steps, operations, components, parts, or combinations thereof.
"적어도 하나"의 용어는 하나 이상의 관련 항목으로부터 제시 가능한 모든 조합을 포함하는 것으로 이해되어야 한다. 예를 들어, "제1 항목, 제2 항목 및 제3 항목 중에서 적어도 하나"의 의미는 제1 항목, 제2 항목 또는 제3 항목 각각 뿐만 아니라 제1 항목, 제2 항목 및 제3 항목 중에서 2개 이상으로부터 제시될 수 있는 모든 항목의 조합을 의미한다.The term “at least one” should be understood to include all possible combinations from one or more related items. For example, the meaning of "at least one of the first, second, and third items" means 2 of the first, second, and third items, as well as each of the first, second, or third items. It means a combination of all items that can be presented from more than one.
이하, 첨부되는 도면을 참고하여 본 발명의 실시예들에 대해 상세히 설명하도록 한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 일 실시예에 따른 얼굴인식 시스템의 구성을 개략적으로 보여주는 블록도이고, 도 2는 본 발명의 일 실시예에 따른 얼굴인식 서버의 구성을 개략적으로 보여주는 블록도이다.1 is a block diagram schematically showing the configuration of a face recognition system according to an embodiment of the present invention, and FIG. 2 is a block diagram schematically showing the configuration of a face recognition server according to an embodiment of the present invention.
도 1 및 도 2를 참조하면, 본 발명의 일 실시예에 따른 얼굴인식 시스템(100)은 얼굴인식 서버(110) 및 복수개의 에지 디바이스(120)들을 포함한다.1 and 2 , the
얼굴인식 서버(110)는 얼굴인식모델을 생성하고, 생성된 얼굴인식모델을 이용하여 사용자 단말기(130)로부터 입력되는 사용자의 이미지로부터 특징벡터를 추출한다. 얼굴인식 서버(110)는 특징벡터를 이용하여 타겟 사용자의 인증을 위한 어레이 파일(Array File)을 생성한다. 그리고, 얼굴인식 서버(110)는 생성된 어레이 파일을 에지 디바이스(120)로 전송함으로써 에지 디바이스(120)가 타겟 사용자를 인증할 수 있도록 한다.The
이를 위해, 얼굴인식 서버(110)는 도 2에 도시된 바와 같이 사용자 등록부(210), 사용자 얼굴인식부(220), 얼굴인식모델(240), 얼굴인식 학습 모델(230), 어레이 파일 생성부(250), 에지 디바이스 관리부(260) 및 인터페이스부(270)를 포함할 수 있다.To this end, the
사용자 등록부(210)는 등록을 희망하는 사용자의 사용자 단말기(130)로부터 하나 이상의 사용자 이미지를 수신한다. 사용자 등록부(210)는 사용자 이미지가 수신되면 해당 사용자가 사용자 이미지와 동일인인지 여부를 확인하고, 동일인인 것으로 판단되면 해당 사용자에게 부여되어 있는 출입권한정보를 획득하여 사용자 이미지와 함께 사용자 데이터베이스(212)에 등록한다.The
일 실시예에 있어서, 사용자 등록부(210)는 사용자 단말기(130)로부터 해당 사용자의 식별정보를 사용자 이미지와 함께 수신할 수 있다. 예컨대, 사용자 등록부(210)는 사용자의 아이디, 성명, 전화번호, 또는 사용자의 직원번호 등과 같은 사용자의 식별정보를 해당 사용자 이미지와 함께 수신할 수 있다. 이러한 실시예에 따르는 경우 사용자 등록부(210)는 사용자의 식별정보 및 사용자의 출입원한정보를 해당 사용자 이미지와 함께 사용자 데이터베이스(212)에 등록할 수 있다.In an embodiment, the
한편, 사용자 등록부(210)는 사용자 단말기(130)로부터 복수개의 사용자 이미지를 입력 받는 경우 서로 다른 사용자 이미지가 입력되도록 유도할 수 있다. 예컨대, 사용자 등록부(210)는 사용자가 사용자 단말기(130)를 통해 다른 환경에서 촬영된 사용자 이미지, 다른 조도에서 촬영된 사용자 이미지 또는 마스크를 착용한 사용자 이미지를 입력하도록 유도할 수 있다. 이와 같이, 사용자 등록부(210)가 한 명의 사용자로부터 서로 다른 환경, 서로 다른 조도 또는 마스크 착용 여부에 따라 촬영된 복수개의 사용자 이미지를 수신함으로써 얼굴인식의 정확도를 향상시킬 수 있게 된다.Meanwhile, when receiving a plurality of user images from the
사용자 얼굴인식부(220)는 얼굴인식 학습 모델(240)에 의해 학습된 얼굴인식모델(240)에 복수개의 사용자 입력 이미지를 입력한다.The user
사용자 얼굴인식부(220)는 얼굴인식 모델(240)을 통해 사용자 입력 이미지의 위변조 여부를 판별할 수 있다. 그리고, 사용자 얼굴인식부(220)는 위변조되지 않은 실물이미지인 경우, 얼굴영역이 포함된 얼굴 이미지를 획득하고, 획득된 얼굴 이미지로부터 특징벡터를 추출할 수 있다. 얼굴인식 모델(240)과 얼굴인식 학습 모델(230)에 대한 구체적인 설명은 후술하도록 한다.The user
어레이 파일 생성부(250)는 사용자 얼굴인식부(220)에 의하여 복수의 사용자들 각각의 얼굴 이미지로부터 추출된 특징벡터들을 이용하여 각 사용자 별로 어레이(Array)를 생성하고, 생성된 어레이들을 하나의 파일로 머지하여 어레이 파일을 생성한다. The array
어레이 파일 생성부(250)는 생성된 어레이 파일을 어레이 파일 데이터베이스(미도시)에 저장할 수 있다. The
일 실시예에 있어서, 어레이 파일 생성부(250)에 의해 생성되는 어레이는 각 사용자의 얼굴 이미지로부터 추출된 특징벡터들과 각 사용자의 키(Key)값으로 구성될 수 있다. 이때, 사용자의 키 값은 각 사용자의 식별정보 및 각 사용자의 출입권한정보를 포함한다. 각 사용자의 식별정보는 상술한 바와 같이 각 사용자의 아이다, 성명, 전화번호, 또는 직원번호 등으로 정의될 수 있고, 각 사용자의 출입권한정보는 각 사용자가 출입할 수 있는 각 층에 대한 정보를 포함할 수 있다.In one embodiment, the array generated by the
일 실시예에 있어서, 어레이 파일 생성부(250)는 에지 디바이스(120)가 설치되어 있는 각 장소 별로 어레이 파일을 생성할 수 있다. 예컨대, 제1 어레이 파일은 제1 층에 대한 출입권한이 부여된 사용자들의 어레이들로 구성될 수 있고, 제2 어레이 파일은 제2 층에 대한 출입원한이 부여된 사용자들의 어레이들로 구성될 수 있다. 이를 위해, 어레이 파일 생성부(250)는 각 사용자의 어레이들 또한 각 사용자가 출입할 수 있는 지역 별로 구분하여 생성할 수 있다. 예컨대, 제1 사용자가 제1 층과 제3 층에 출입 가능한 권한을 가진 경우, 어레이 파일 생성부(230)는 제1 사용자에 대해 제1 층에 대한 출입권한정보가 포함된 제1 어레이와 제3 층에 대한 출입권한정보가 포함된 제2 어레이를 별도로 생성할 수 있다.In an embodiment, the
본 발명에 따른 어레이 파일 생성부(250)가 에지 디바이스(120)가 설치된 각 장소 별로 어레이 파일을 생성하는 이유는 사용자의 얼굴을 인증하는 에지 디바이스(120)가 각 장소 별로 설치되는 경우, 특정 장소에 설치된 에지 디바이스(120)로 해당 장소에 대한 출입권한정보가 포함된 어레이 파일만을 전송하면 되므로 어레이 파일의 전송 및 에지 디바이스(120)에서의 어레이 파일 관리가 용이해지기 때문이다.The reason that the array
상술한 실시예에 있어서는 어레이 파일 생성부(250)가 각 장소 별로 어레이 파일을 생성하는 것으로 기재하였지만, 변형된 실시예에 있어서 어레이 파일 생성부(250)는 에지 디바이스(120)가 설치된 모든 장소에 대한 권한정보가 포함된 하나의 어레이 파일을 생성하고, 생성된 어레이 파일을 모든 에지 디바이스(120)로 전송할 수도 있다.In the above-described embodiment, it has been described that the array
에지 디바이스 관리부(260)는 각 장소에 설치되어 있는 복수개의 에지 디바이스(120)들의 정보를 에지 디바이스 데이터베이스(262)에 등록한다. 일 실시예에 있어서, 에지 디바이스 등록부(260)는 각 에지 디바이스(120)의 식별정보를 각 에지 디바이스가 설치된 장소와 매핑시켜 에지 디바이스 데이터베이스(262)에 저장할 수 있다. 여기서, 에지 디바이스(120)의 식별정보는 에지 디바이스(120)의 제조사 및 시리얼 번호 등을 포함할 수 있다.The
한편, 에지 디바이스 관리부(260)는 인터페이스부(270)를 통해 미리 정해진 기간 마다 에지 디바이스(120)로부터 인증기록을 수신하고, 수신된 출입기록을 에지 디바이스 데이터베이스(262)에 저장할 수 있다.On the other hand, the
출입권한정보 관리부(255)는 각 사용자 별로 부여되어 있는 출입권한정보를 변경하거나 새로운 출입권한정보를 추가한다. 일 실시예에 있어서, 출입권한 정보 관리부(255)는 각 사용자 별로 출입권한정보를 별개로 부여하거나 각 사용자가 속한 조직 단위로 출입권한정보를 부여할 수 있다.The access authority
인터페이스부(270)는 얼굴인식 학습 모델(230)에 의해 학습된 얼굴인식모델 및 어레이 파일을 미리 정해진 방식으로 암호화하여 각 에지 디바이스(120)로 전송한다. 일 실시예에 있어서, 인터페이스부(270)는 공개키 기반의 암호화 알고리즘을 이용하여 얼굴인식모델 및 어레이 파일을 암호화하여 각 에지 디바이스(120)로 전송할 수 있다.The
한편, 인터페이스부(270)는 암호화된 어레이 파일을 에지 디바이스(120)와 약속된 프로토콜에 따라 에지 디바이스(120)로 전송할 수 있다. 또한, 인터페이스부(270)는 각 에지 디바이스(120)로부터 미리 정해진 기간 마다 인증기록을 수신하여 에지 디바이스(120)로 제공할 수 있다.Meanwhile, the
본 발명의 일 실시예에 따른 얼굴인식 시스템(100)은 얼굴인식 모델(240)을 통해 입력 이미지의 얼굴탐지 및 위변조 판별을 동시에 수행한다. 이러한 얼굴인식 모델(240)은 얼굴인식 학습 모델(230)에 의하여 학습된다. The
구체적으로, 얼굴인식 학습 모델(230)은 학습 이미지를 이용하여 얼굴인식 모델(240)을 학습시킨다. 얼굴인식 학습 모델(230)는 얼굴인식 모델(240)을 구성하는 컨벌루션 신경망을 지속적으로 학습시킴으로써 최적의 얼굴인식모델(240)을 생성할 수 있다.Specifically, the face
이하에서는 도 3 내지 도 9를 참조하여 얼굴인식 학습 모델(230)에 대하여 구체적으로 설명하도록 한다.Hereinafter, the face
도 3은 도 2의 얼굴인식 학습 모델의 구성의 일 예를 보여주는 블록도이고, 도 4는 도 3의 제1, 제2 및 제3 컨벌루션 유닛의 구성을 보여주는 블록도이며, 도 5는 도 3의 제4 및 제5 컨벌루션 유닛의 구성을 보여주는 블록도이다. 도 6은 도 3의 단일 스테이지 네트워크의 구성을 보여주는 블록도이며, 도 7은 도 6의 제6, 제8 및 제10 컨벌루션 유닛의 구성을 보여주는 블록도이고, 도 8은 도 6의 제7 및 제9 컨벌루션 유닛의 구성을 보여주는 블록도이다. 도 9는 도 3은 도 2의 얼굴인식 모델의 구성의 일 예를 보여주는 블록도이다.3 is a block diagram showing an example of the configuration of the face recognition learning model of FIG. 2 , FIG. 4 is a block diagram showing the configuration of the first, second and third convolution units of FIG. 3 , and FIG. 5 is FIG. It is a block diagram showing the configuration of the fourth and fifth convolution units of 6 is a block diagram showing the configuration of the single-stage network of FIG. 3 , FIG. 7 is a block diagram showing the configuration of the 6th, 8th and 10th convolutional units of FIG. 6 , and FIG. 8 is the 7th and 10th convolutional units of FIG. It is a block diagram showing the configuration of a ninth convolution unit. 9 is a block diagram showing an example of the configuration of the face recognition model of FIG. 3 .
도 3 내지 도 9를 참조하면, 얼굴인식 학습 모델(230)은 컨벌루션 신경망(Convolutional Neural Network: CNN)을 기반으로 구성되어, 입력 이미지, 예컨대, 얼굴 이미지의 특징맵을 생성하고, 생성된 특징맵을 기초로 얼굴인식 모델(240)을 학습시킬 수 있다. 얼굴인식 학습 모델(230)은 입력 이미지를 미리 정해진 단계까지 다운샘플링하거나 업샘플링함으로써 하나의 입력 이미지로부터 서로 다른 해상도를 가지는 복수개의 특징맵들을 생성할 수 있다.3 to 9 , the face
이러한 얼굴인식 학습 모델(230)은 백본 네트워크(310), 제1 네트워크(320), 제2 학습 네트워크(350) 및 오차감소부(360)을 포함한다.The face
백본 네트워크(310)는 학습 이미지로부터 스케일이 서로 다른 복수개의 학습 입력 이미지들을 생성한다. 이때, 학습 이미지는 학습 이미지 데이터베이스(305)에 저장되어 있으며, 실물이미지 및 위변조 이미지를 포함할 수 있다.The
구체적으로, 백본 네트워크(310)는 입력되는 하나의 학습 이미지를 미리 정해진 단계까지 다운샘플링하면서 해상도와 차원이 서로 다른 복수개의 학습 입력 이미지들을 생성할 수 있다. 이하에서는 설명의 편의를 위하여 3단계까지 다운샘플링하는 것으로 설명하고 있으나, 반드시 이에 한정되지는 않는다. Specifically, the
백본 네트워크(310)는 학습 이미지에 컨벌루션 연산을 수행하여 제1 해상도와 제1 차원을 가지는 제1 학습 입력 이미지를 생성할 수 있다. 이때, 제1 학습 입력 이미지의 제1 해상도는 학습 이미지의 해상도 보다 작으며, 제1 차원은 학습 이미지의 차원 보다 클 수 있다.The
또한, 백본 네트워크(310)는 제1 학습 입력 이미지에 컨벌루션 연산을 수행하여 제2 해상도와 제2 차원을 가지는 제2 학습 입력 이미지를 생성할 수 있다. 이때, 제2 학습 입력 이미지의 제2 해상도는 제1 학습 입력 이미지의 제1 해상도 보다 작으며, 제2 차원은 제1 학습 입력 이미지의 제1 차원 보다 클 수 있다. 일 예로, 제2 학습 입력 이미지의 제2 해상도는 제1 학습 입력 이미지의 제1 해상도의 1/2일 수 있다.Also, the
또한, 백본 네트워크(310)는 제2 학습 입력 이미지에 컨벌루션 연산을 수행하여 제3 해상도와 제3 차원을 가지는 제3 학습 입력 이미지를 생성할 수 있다. 이때, 제3 학습 입력 이미지의 제3 해상도는 제2 학습 입력 이미지의 제2 해상도 보다 작으며, 제3 차원은 제2 학습 입력 이미지의 제2 차원 보다 클 수 있다. 일 예로, 제3 학습 입력 이미지의 제3 해상도는 제2 학습 입력 이미지의 제2 해상도의 1/2일 수 있다.Also, the
백본 네트워크(310)는 스케일이 서로 다른 복수개의 학습 입력 이미지들을 제1 네트워크(320)로 출력시킨다.The
제1 네트워크(320)는 스케일이 서로 다른 복수개의 학습 입력 이미지들 각각에 대하여 특징맵을 추출한다. 제1 네트워크(320)는 제1 특징맵 생성부(322), 제2 특징맵 생성부(324) 및 제3 특징맵 생성부(326)을 포함할 수 있다.The
제1 특징맵 생성부(322)는 제3 학습 입력 이미지로부터 제1 특징맵을 생성한다. 제1 특징맵 생성부(322)는 제3 학습 입력 이미지에 제1 컨벌루션 필터를 적용하여 제1 특징맵을 생성하는 제1 컨벌루션 유닛(331)을 포함할 수 있다. The first
제1 컨벌루션 유닛(331)은 도 4에 도시된 바와 같이 제1 컨벌루션 연산부(410), 제1 정규화부(420) 및 제1 비선형화부(430)를 포함할 수 있다. As shown in FIG. 4 , the
제1 컨벌루션 유닛(331)에 포함된 제1 컨벌루션 연산부(410)는 제3 학습 입력 이미지가 입력되면, 제3 학습 입력 이미지에 대하여 제1 컨벌루션 필터를 이용하여 컨벌루션 연산을 수행하고, 제1 특징맵이 생성될 수 있다.When the third learning input image is input, the first
일 실시예에 있어서, 제1 컨벌루션 필터는 1*1 크기를 갖고 스트라이드(Stride)의 값이 1일 수 있다. 제1 컨벌루션 필터는 제3 학습 입력 이미지의 해상도는 변경시키지 않으면서 제3 학습 입력 이미지의 차원만 특정 차원으로 변경시키는 필터일 수 있다. 예컨대, 제1 컨벌루션 필터가 1*1 크기를 가지고 K개인 경우, 제1 컨벌루션 연산부(410)는 제3 학습 입력 이미지에 제1 컨벌루션 필터를 적용하여 제3 학습 입력 이미지의 차원을 K차원으로 변경시킬 수 있다. 제3 학습 입력 이미지로부터 추출된 제1 특징맵과 다른 학습 입력 이미지로부터 추출된 특징맵의 차원을 특정 차원으로 동일하게 변경함으로써, 이들 간의 연산이 간단해질 수 있다.In an embodiment, the first convolutional filter may have a size of 1*1 and a value of a stride may be 1. The first convolution filter may be a filter that changes only the dimension of the third learning input image to a specific dimension without changing the resolution of the third learning input image. For example, if the first convolution filter has a size of 1*1 and has K, the first
제1 컨벌루션 유닛(331)에 포함된 제1 정규화부(420)는 제1 컨벌루션 연산부(410)에 의해 생성된 제1 특징맵을 배치(Batch) 단위로 정규화한다. 배치란 한 번에 처리할 이미지들의 개수단위를 의미한다. 본 발명에 따른 제1 정규화부(420)가 배치단위로 정규화를 수행하는 이유는 배치 단위로 정규화를 수행하게 되면 각 이미지에 대한 평균 및 분산이 배치 전체에 대한 평균 및 분산과 다를 수 있는데 이러한 특징이 일종의 노이즈로 작용하게 되어 전체적인 성능이 향상될 수 있기 때문이다. The
또한, 배치 정규화를 통해 네트워크의 각 층마다 입력의 분포(Distribution)가 일관성 없이 바뀌는 내부 공분산 이동(Internal Covariance Shift) 현상에 의해 학습의 복잡성이 증가하고 그라디언트 소멸 또는 폭발(Gradient Vanishing or Exploding)이 일어나는 것을 방지할 수 있게 되기 때문이다.In addition, through batch normalization, the learning complexity increases and gradient vanishing or exploding occurs due to the internal covariance shift phenomenon, in which the distribution of inputs for each layer of the network changes inconsistently. because it can be prevented.
제1 컨벌루션 유닛(331)에 포함된 제1 비선형화부(430)는 정규화된 제1 특징맵에 활성화함수를 적용함으로써 제1 특징맵에 비선형적 특성을 부여한다. 일 실시예에 있어서, 제1 비선형화부(430)는 제1 특징맵의 값들 중 양의 값을 동일하게 출력하고 음의 값은 그 크기를 감소시켜, 예컨대, 0을 출력하는 활성화함수를 제1 특징맵에 적용시킬 수 있다.The
제1 특징맵 생성부(322)에 의해 생성된 제1 특징맵은 제2 학습 네트워크(350)에서 얼굴인식 모델(240)을 학습하는데 이용될 수 있다. 제1 특징맵은 제1 특징맵 생성부(322)에 의해 생성된 형태로 제2 학습 네트워크(350)에서 이용될 수 있으나, 반드시 이에 한정되지는 않는다. The first feature map generated by the first
제1 특징맵은 컨벌루션 연산이 수행되는 별도의 네트워크에 의하여 변경될 수도 있다. 일 실시예에 있어서, 제1 특징맵은 단일 스테이지 네트워크(340)에 의하여 변경될 수 있고, 변경된 제1 특징맵이 제2 학습 네트워크(350)에서 얼굴인식 모델(240)을 학습하는데 이용될 수 있다. The first feature map may be changed by a separate network on which a convolution operation is performed. In an embodiment, the first feature map may be changed by the single-
또한, 제1 특징맵 생성부(322)에 의해 생성된 제1 특징맵은 제2 특징맵 생성부(324)에서 제2 특징맵이 생성되는데 이용될 수 있다.Also, the first feature map generated by the first
제2 특징맵 생성부(324)는 제1 특징맵 생성부(322)에 의해 생성된 제1 특징맵 및 제2 학습 입력 이미지를 이용하여 제2 특징맵을 생성한다. 제2 특징맵 생성부(324)는 제1 업샘플링부(332), 제2 컨벌루션 유닛(333), 제3 컨벌루션 유닛(334) 및 제1 연산부(338)를 포함할 수 있다.The second
제2 컨벌루션 유닛(333)은 제2 학습 입력 이미지에 제1 컨벌루션 필터를 적용하여 제2 특징맵을 생성할 수 있다. 제2 컨벌루션 유닛(333)은 제1 컨벌루션 유닛(331)과 동일하게 제1 컨벌루션 연산부(410), 제1 정규화부(420) 및 제1 비선형화부(430)를 포함할 수 있다. The
제2 컨벌루션 유닛(333)에 포함된 제1 컨벌루션 연산부(410)는 제2 학습 입력 이미지가 입력되면, 제2 학습 입력 이미지에 대하여 제1 컨벌루션 필터를 이용하여 컨벌루션 연산을 수행할 수 하고, 제2 특징맵이 생성될 수 있다.When the second learning input image is input, the first
일 실시예에 있어서, 제1 컨벌루션 필터는 1*1 크기를 갖고 스트라이드(Stride)의 값이 1일 수 있다. 제1 컨벌루션 필터는 제2 학습 입력 이미지의 해상도는 변경시키지 않으면서 제2 학습 입력 이미지의 차원만 특정 차원으로 변경시키는 필터일 수 있다. 예컨대, 제1 컨벌루션 필터가 1*1 크기를 가지고 K개인 경우, 제1 컨벌루션 연산부(410)는 제2 학습 입력 이미지에 제1 컨벌루션 필터를 적용하여 제2 학습 입력 이미지의 차원을 K차원으로 변경시킬 수 있다. 이를 통해, 제2 학습 입력 이미지로부터 추출된 제2 특징맵과 제1 특징맵의 차원이 특정 차원으로 동일하게 변경될 수 있으며, 제2 특징맵과 제1 특징맵 간의 연산이 간단해질 수 있다. 여기서, 제2 특징맵은 차원이 변경된 제2 학습 입력 이미지에 상응한다.In an embodiment, the first convolutional filter may have a size of 1*1 and a value of a stride may be 1. The first convolution filter may be a filter that changes only the dimension of the second learning input image to a specific dimension without changing the resolution of the second learning input image. For example, when the first convolution filter has a size of 1*1 and has K, the first
제2 컨벌루션 유닛(333)에 포함된 제1 정규화부(420)는 제1 컨벌루션 연산부(410)에 의해 생성된 제2 특징맵을 배치(Batch) 단위로 정규화한다. The
제2 컨벌루션 유닛(333)에 포함된 제1 비선형화부(430)는 정규화된 제2 특징맵에 활성화함수를 적용함으로써 제2 특징맵에 비선형적 특성을 부여한다. 일 실시예에 있어서, 제1 비선형화부(430)는 제2 특징맵의 값들 중 양의 값을 동일하게 출력하고 음의 값은 그 크기를 감소시켜, 예컨대, 0을 출력하는 활성화함수를 제2 특징맵에 적용시킬 수 있다.The
제1 업샘플링부(332)는 제1 특징맵 생성부(322)에 의해 생성된 제1 특징맵이 제2 학습 입력 이미지와 동일한 해상도를 가지도록 업샘플링한다. 제3 학습 입력 이미지를 기초로 생성된 제1 특징맵은 제3 학습 입력 이미지와 동일한 제3 해상도를 가지며, 제2 학습 입력 이미지를 기초로 생성된 제2 특징맵은 제3 해상도 보다 큰 제2 해상도를 가질 수 있다. 예컨대, 제1 특징맵은 해상도가 20*20일 수 있으며, 제2 특징맵은 해상도가 40*40일 수 있다. The
제1 업샘플링부(332)는 제1 특징맵이 제2 컨벌루션 유닛(333)에 의해 생성된 제2 특징맵과 동일한 제2 해상도를 가지도록 업샘플링할 수 있다. 예컨대, 제1 업샘플링부(332)는 제1 특징맵의 해상도가 20*20에서 40*40이 되도록 업샘플링을 수행할 수 있다.The
제1 연산부(338)는 업샘플링된 제1 특징맵을 제2 특징맵에 합산한다. 본 발명에 일 실시예에 따른 얼굴인식 시스템(100)은 제1 연산부(338)를 통해 업샘플링된 제1 특징맵을 제2 특징맵에 합산함으로써, 제1 특징맵의 시멘틱(sementic) 정보가 제2 특징맵에 반영될 수 있도록 할 수 있다. 이를 통해, 제2 특징맵이 더 많은 시멘틱(sementic) 정보를 가질 수 있도록 할 수 있다.The
제3 컨벌루션 유닛(334)은 제1 연산부(338)에서 출력되는 제2 특징맵에 제2 컨벌루션 필터를 적용하여 제2 특징맵을 최종적으로 생성할 수 있다. 이때, 제1 연산부(338)에서 출력되는 제2 특징맵은 제1 특징맵이 반영된 제2 학습 입력 이미지에 상응할 수 있다.The
제3 컨벌루션 유닛(334)은 도 5에 도시된 바와 같이 제2 컨벌루션 연산부(510), 제2 정규화부(520) 및 제2 비선형화부(530)를 포함할 수 있다. As shown in FIG. 5 , the
제3 컨벌루션 유닛(334)에 포함된 제2 컨벌루션 연산부(510)는 제2 특징맵이 입력되면, 제2 특징맵에 대하여 제2 컨벌루션 필터를 이용하여 컨벌루션 연산을 수행할 수 있다. 제2 컨벌루션 필터는 제1 컨벌루션 연산부(410)의 제1 컨벌루션 필터와 필터의 개수가 동일할 수 있으나, 크기는 상이할 수 있다. 일 실시예에 있어서, 제2 컨벌루션 필터는 3*3 크기를 갖고 스트라이드(Stride)의 값이 1일 수 있다. When the second feature map is input, the second
제3 컨벌루션 유닛(334)에 포함된 제2 정규화부(520)는 제2 컨벌루션 연산부(510)로부터 출력된 제2 특징맵을 배치(Batch) 단위로 정규화한다. The
제3 컨벌루션 유닛(334)에 포함된 제2 비선형화부(530)는 정규화된 제2 특징맵에 활성화함수를 적용함으로써 제2 특징맵에 비선형적 특성을 부여한다. 일 실시예에 있어서, 제2 비선형화부(530)는 제2 특징맵의 값들 중 양의 값을 동일하게 출력하고 음의 값은 그 크기를 감소시켜, 예컨대, 0을 출력하는 활성화함수를 제2 특징맵에 적용시킬 수 있다.The
제2 특징맵 생성부(324)에 의해 생성된 제2 특징맵은 제2 학습 네트워크(350)에서 얼굴인식 모델(240)을 학습하는데 이용될 수 있다. 제2 특징맵은 제2 특징맵 생성부(324)에 의해 생성된 형태로 제2 학습 네트워크(350)에서 이용될 수 있으나, 반드시 이에 한정되지는 않는다. The second feature map generated by the second
제2 특징맵은 컨벌루션 연산이 수행되는 별도의 네트워크에 의하여 변경될 수도 있다. 일 실시예에 있어서, 제2 특징맵은 단일 스테이지 네트워크(340)에 의하여 변경될 수 있고, 변경된 제2 특징맵이 제2 학습 네트워크(350)에서 얼굴인식 모델(240)을 학습하는데 이용될 수 있다. The second feature map may be changed by a separate network on which a convolution operation is performed. In an embodiment, the second feature map may be changed by the single-
또한, 제2 특징맵 생성부(324)에 의해 생성된 제2 특징맵은 제3 특징맵 생성부(326)에서 제3 특징맵이 생성되는데 이용될 수 있다.Also, the second feature map generated by the second
제3 특징맵 생성부(326)는 제2 특징맵 생성부(324)에 의해 생성된 제2 특징맵 및 제1 학습 입력 이미지를 이용하여 제3 특징맵을 생성한다. 제3 특징맵 생성부(326)는 제2 업샘플링부(335), 제4 컨벌루션 유닛(336), 제5 컨벌루션 유닛(337) 및 제2 연산부(339)를 포함할 수 있다.The third
제4 컨벌루션 유닛(336)은 제1 학습 입력 이미지에 제1 컨벌루션 필터를 적용하여 제3 특징맵을 생성할 수 있다. 제4 컨벌루션 유닛(336)은 제1 컨벌루션 유닛(331) 및 제2 컨벌루션 유닛(333)과 동일하게 제1 컨벌루션 연산부(410), 제1 정규화부(420) 및 제1 비선형화부(430)를 포함할 수 있다. The
제4 컨벌루션 유닛(336)에 포함된 제1 컨벌루션 연산부(410)는 제1 학습 입력 이미지가 입력되면, 제1 학습 입력 이미지에 대하여 제1 컨벌루션 필터를 이용하여 컨벌루션 연산을 수행하고, 제3 특징맵이 생성될 수 있다.When the first learning input image is input, the first
일 실시예에 있어서, 제1 컨벌루션 필터는 1*1 크기를 갖고 스트라이드(Stride)의 값이 1일 수 있다. 제1 컨벌루션 필터는 제1 학습 입력 이미지의 해상도는 변경시키지 않으면서 제1 학습 입력 이미지의 차원만 특정 차원으로 변경시키는 필터일 수 있다. 예컨대, 제1 컨벌루션 필터가 1*1 크기를 가지고 K개인 경우, 제1 컨벌루션 연산부(410)는 제1 학습 입력 이미지에 제1 컨벌루션 필터를 적용하여 제1 학습 입력 이미지의 차원을 K차원으로 변경시킬 수 있다. 이를 통해, 제1 학습 입력 이미지로부터 추출된 제3 특징맵과 제2 특징맵 생성부(324)로부터 출력된 제2 특징맵의 차원이 특정 차원으로 동일하게 변경될 수 있으며, 제3 특징맵과 제2 특징맵 간의 연산이 간단해질 수 있다. 여기서, 제3 특징맵은 차원이 변경된 제1 학습 입력 이미지에 상응한다.In an embodiment, the first convolutional filter may have a size of 1*1 and a value of a stride may be 1. The first convolution filter may be a filter that changes only the dimension of the first training input image to a specific dimension without changing the resolution of the first training input image. For example, if the first convolution filter has a size of 1*1 and has K, the first
제4 컨벌루션 유닛(336)에 포함된 제1 정규화부(420)는 제1 컨벌루션 연산부(410)에 의해 생성된 제3 특징맵을 배치(Batch) 단위로 정규화한다. The
제4 컨벌루션 유닛(336)에 포함된 제1 비선형화부(430)는 정규화된 제3 특징맵에 활성화함수를 적용함으로써 제3 특징맵에 비선형적 특성을 부여한다. 일 실시예에 있어서, 제1 비선형화부(430)는 제3 특징맵의 값들 중 양의 값을 동일하게 출력하고 음의 값은 그 크기를 감소시켜, 예컨대, 0을 출력하는 활성화함수를 제3 특징맵에 적용시킬 수 있다.The
제2 업샘플링부(335)는 제2 특징맵 생성부(324)에 의해 생성된 제2 특징맵이 제1 학습 입력 이미지와 동일한 해상도를 가지도록 업샘플링한다. 제2 학습 입력 이미지를 기초로 생성된 제2 특징맵은 제2 학습 입력 이미지와 동일한 제2 해상도를 가지며, 제1 학습 입력 이미지를 기초로 생성된 제3 특징맵은 제2 해상도 보다 큰 제1 해상도를 가질 수 있다. 예컨대, 제2 특징맵은 해상도가 40*40일 수 있으며, 제3 특징맵은 해상도가 80*80일 수 있다. The
제2 업샘플링부(335)는 제2 특징맵이 제3 컨벌루션 유닛(336)에 의해 생성된 제3 특징맵과 동일한 제1 해상도를 가지도록 업샘플링할 수 있다. 예컨대, 제2 업샘플링부(335)는 제2 특징맵의 해상도가 40*40에서 80*80이 되도록 업샘플링을 수행할 수 있다.The
제2 연산부(339)는 업샘플링된 제2 특징맵을 제3 특징맵에 합산한다. 본 발명에 일 실시예에 따른 얼굴인식 시스템(100)은 제2 연산부(339)를 통해 업샘플링된 제2 특징맵을 제3 특징맵에 합산함으로써, 제1 특징맵 및 제2 특징맵의 시멘틱(sementic) 정보가 제3 특징맵에 반영될 수 있도록 할 수 있다. 이를 통해, 제3 특징맵이 많은 시멘틱(sementic) 정보를 가질 수 있도록 할 수 있다.The
제5 컨벌루션 유닛(337)은 제2 연산부(339)에서 출력되는 제3 특징맵에 제2 컨벌루션 필터를 적용하여 제3 특징맵을 최종적으로 생성할 수 있다. 이때, 제2 연산부(339)에서 출력되는 제3 특징맵은 제2 특징맵이 반영된 제1 학습 입력 이미지에 상응할 수 있다.The
제5 컨벌루션 유닛(337)은 제4 컨벌루션 유닛(334)과 동일하게 제2 컨벌루션 연산부(510), 제2 정규화부(520) 및 제2 비선형화부(530)를 포함할 수 있다. The
제5 컨벌루션 유닛(337)에 포함된 제2 컨벌루션 연산부(510)는 제3 특징맵이 입력되면, 제3 특징맵에 대하여 제2 컨벌루션 필터를 이용하여 컨벌루션 연산을 수행할 수 있다. 제2 컨벌루션 필터는 제1 컨벌루션 연산부(410)의 제1 컨벌루션 필터와 크기가 상이할 수 있다. 일 실시예에 있어서, 제2 컨벌루션 필터는 3*3 크기를 갖고 스트라이드(Stride)의 값이 1일 수 있다. When the third feature map is input, the second
제5 컨벌루션 유닛(337)에 포함된 제2 정규화부(520)는 제2 컨벌루션 연산부(510)로부터 출력된 제3 특징맵을 배치(Batch) 단위로 정규화한다. The
제5 컨벌루션 유닛(337)에 포함된 제2 비선형화부(530)는 정규화된 제3 특징맵에 활성화함수를 적용함으로써 제3 특징맵에 비선형적 특성을 부여한다. 일 실시예에 있어서, 제2 비선형화부(530)는 제3 특징맵의 값들 중 양의 값을 동일하게 출력하고 음의 값은 그 크기를 감소시켜, 예컨대, 0을 출력하는 활성화함수를 제3 특징맵에 적용시킬 수 있다.The
제3 특징맵 생성부(326)에 의해 생성된 제3 특징맵은 제2 학습 네트워크(350)에서 얼굴인식 모델(240)을 학습하는데 이용될 수 있다. 제3 특징맵은 제3 특징맵 생성부(326)에 의해 생성된 형태로 제2 학습 네트워크(350)에서 이용될 수 있으나, 반드시 이에 한정되지는 않는다. The third feature map generated by the third
제3 특징맵은 컨벌루션 연산이 수행되는 별도의 네트워크에 의하여 변경될 수도 있다. 일 실시예에 있어서, 제3 특징맵은 단일 스테이지 네트워크(340)에 의하여 변경될 수 있고, 변경된 제3 특징맵이 제2 학습 네트워크(350)에서 얼굴인식 모델(240)을 학습하는데 이용될 수 있다. The third feature map may be changed by a separate network on which a convolution operation is performed. In one embodiment, the third feature map may be changed by the single-
단일 스테이지 네트워크(340)는 제1 내지 제3 특징맵 중 하나가 입력되면, 입력된 특징맵을 기초로 리셉티브 필드(receptive field)가 서로 다른 복수의 중간 특징맵들을 생성하고, 중간 특징맵들을 통합하여 출력할 수 있다. 이를 위하여, 단일 스테이지 네트워크(340)는 복수의 컨벌루션 유닛들과 복수의 컨벌루션 유닛들 각각에 의해 생성된 중간 특징맵들을 결합하는 결합부가 포함될 수 있다.When one of the first to third feature maps is input, the single-
일 실시예에 있어서, 단일 스테이지 네트워크(340)는 제1 내지 제3 단일 스테이지 네트워크들(340a, 340b, 340c)을 포함할 수 있다. 제1 단일 스테이지 네트워크(340a)에는 제1 특징맵 생성부(322)로부터 제1 특징맵이 입력되고, 제2 단일 스테이지 네트워크(340b)에는 제2 특징맵 생성부(324)로부터 제2 특징맵이 입력되며, 제3 단일 스테이지 네트워크(340c)에는 제3 특징맵 생성부(326)로부터 제3 특징맵이 입력될 수 있다. In one embodiment, the single-
이하에서는 제1 단일 스테이지 네트워크(340a)를 중점적으로 설명하고 있으나, 제2 단일 스테이지 네트워크(340b) 및 제3 단일 스테이지 네트워크(340c)도 제1 단일 스테이지 네트워크(340a)와 동일하게 동작할 수 있다.Hereinafter, the first single-
제1 내지 제3 단일 스테이지 네트워크들(340a, 340b, 340c) 각각은 도 6에 도시된 바와 같이 복수의 컨벌루션 유닛들(610, 620, 630, 640, 650), 결합부(660) 및 제3 비선형화부(670)를 포함할 수 있다. 복수의 컨벌루션 유닛들(610, 620, 630, 640, 650)들 중 일부(610, 630, 650)는 도 7에 도시된 바와 같이 제3 컨벌루션 연산부(710) 및 제3 정규화부(720)를 포함하고, 복수의 컨벌루션 유닛들(610, 620, 630, 640, 650)들 중 나머지(620, 640)는 제4 컨벌루션 연산부(810), 제4 정규화부(820) 및 제4 비선형화부(830)를 포함할 수 있다.Each of the first to third single-
제1 단일 스테이지 네트워크(340a)는 제1 특징맵이 제6 컨벌루션 유닛(610)에 의해 제1 중간 특징맵이 생성되고, 제7 컨벌루션 유닛(620) 및 제8 컨벌루션 유닛(630)에 의해 제2 중간 특징맵이 생성되며, 제7 컨벌루션 유닛(620), 제9 컨벌루션 유닛(640) 및 제10 컨벌루션 유닛(650)에 의해 제3 중간 특징맵이 생성될 수 있다.In the first single-
구체적을, 제6 컨벌루션 유닛(610)에 포함된 제3 컨벌루션 연산부(710)는 제1 특징맵 생성부(322)로부터 제1 특징맵이 입력되면, 제1 특징맵에 대하여 제3 컨벌루션 필터를 이용하여 컨벌루션 연산을 수행하고, 제1 중간 특징맵이 생성될 수 있다. 일 실시예에 있어서, 제3 컨벌루션 필터는 3*3 크기를 갖고 스트라이드(Stride)의 값이 1일 수 있다. 일 실시예에 있어서, 제3 컨벌루션 필터는 개수(채널의 수)가 제1 특징맵의 차원의 1/2에 상응할 수 있다. 예컨대, 제3 컨벌루션 필터는 3*3*C/2 크기를 가질 수 있다. 여기서, 상기 C는 제1 특징맵의 차원 수에 상응할 수 있다. 제3 컨벌루션 연산부(710)는 제1 특징맵의 차원의 1/2차원을 가지는 제1 중간 특징맵을 생성할 수 있다.Specifically, when the first feature map is input from the first
제6 컨벌루션 유닛(610)에 포함된 제3 정규화부(720)는 제3 컨벌루션 연산부(710)에 의해 생성된 제1 중간 특징맵을 배치 단위로 정규화한다.The
제7 컨벌루션 유닛(620)에 포함된 제4 컨벌루션 연산부(810)는 제1 특징맵 생성부(322)로부터 제1 특징맵이 입력되면, 제1 특징맵에 대하여 제4 컨벌루션 필터를 이용하여 컨벌루션 연산을 수행하고, 제2 중간 특징맵이 생성될 수 있다. 일 실시예에 있어서, 제4 컨벌루션 필터는 3*3 크기를 갖고 스트라이드(Stride)의 값이 1일 수 있다. 일 실시예에 있어서, 제4 컨벌루션 필터는 개수(채널의 수)가 제1 특징맵의 차원의 1/4에 상응할 수 있다. 예컨대, 제4 컨벌루션 필터는 3*3*C/4 크기를 가질 수 있다. 여기서, 상기 C는 제1 특징맵의 차원 수에 상응할 수 있다. 제4 컨벌루션 연산부(810)는 제1 특징맵의 차원의 1/4차원을 가지는 제2 중간 특징맵을 생성할 수 있다.When the first feature map is input from the first
제7 컨벌루션 유닛(620)에 포함된 제4 정규화부(820)는 제4 컨벌루션 연산부(810)에 의해 제2 중간 특징맵을 배치 단위로 정규화한다. 그리고, 제7 컨벌루션 유닛(620)에 포함된 제4 비선형화부(830)는 정규화된 제2 중간 특징맵에 활성화함수를 적용함으로써 제2 중간 특징맵에 비선형적 특성을 부여한다.The
제8 컨벌루션 유닛(630)에 포함된 제3 컨벌루션 연산부(710)는 제7 컨벌루션 유닛(620)로부터 제2 중간 특징맵이 입력되면, 제2 중간 특징맵에 대하여 제3 컨벌루션 필터를 이용하여 컨벌루션 연산을 수행할 수 있다. 일 실시예에 있어서, 제3 컨벌루션 필터는 3*3 크기를 갖고 스트라이드(Stride)의 값이 1일 수 있다. 일 실시예에 있어서, 제3 컨벌루션 필터는 개수(채널의 수)가 제2 중간 특징맵의 차원의 1/4에 상응할 수 있다. 예컨대, 제3 컨벌루션 필터는 3*3*C/4 크기를 가질 수 있다. 여기서, 상기 C는 제7 컨벌루션 유닛(620)에서 출력된 제2 중간 특징맵의 차원 수에 상응할 수 있다. 제3 컨벌루션 연산부(710)는 제2 중간 특징맵에 제3 컨벌루션 필터를 적용하여 제2 중간 특징맵의 차원을 감소시킬 수 있다.When the second intermediate feature map is input from the
제8 컨벌루션 유닛(630)에 포함된 제3 정규화부(720)는 제3 컨벌루션 연산부(710)에 의해 생성된 제2 중간 특징맵을 배치 단위로 정규화한다.The
제9 컨벌루션 유닛(640)에 포함된 제4 컨벌루션 연산부(810)는 제7 컨벌루션 유닛(620)으로부터 제2 중간 특징맵이 입력되면, 제2 중간 특징맵에 대하여 제4 컨벌루션 필터를 이용하여 컨벌루션 연산을 수행하고, 제3 중간 특징맵이 생성될 수 있다. 일 실시예에 있어서, 제4 컨벌루션 필터는 3*3 크기를 갖고 스트라이드(Stride)의 값이 1일 수 있다. 일 실시예에 있어서, 제4 컨벌루션 필터는 개수(채널의 수)가 제2 중간 특징맵의 차원의 1/4에 상응할 수 있다. 예컨대, 제4 컨벌루션 필터는 3*3*C/4 크기를 가질 수 있다. 여기서, 상기 C는 제2 중간 특징맵의 차원 수에 상응할 수 있다. 제4 컨벌루션 연산부(810)는 제2 중간 특징맵에 제4 컨벌루션 필터를 적용하여 제2 중간 특징맵의 차원의 1/4차원을 가지는 제3 중간 특징맵을 생성할 수 있다.When the second intermediate feature map is input from the
제9 컨벌루션 유닛(640)에 포함된 제4 정규화부(820)는 제4 컨벌루션 연산부(810)에 의해 생성된 제3 중간 특징맵을 배치 단위로 정규화한다. 그리고, 제9 컨벌루션 유닛(640)에 포함된 제4 비선형화부(830)는 정규화된 제3 중간 특징맵에 활성화함수를 적용함으로써 제3 중간 특징맵에 비선형적 특성을 부여한다.The
제10 컨벌루션 유닛(650)에 포함된 제3 컨벌루션 연산부(710)는 제9 컨벌루션 유닛(640)로부터 제3 중간 특징맵이 입력되면, 제3 중간 특징맵에 대하여 제3 컨벌루션 필터를 이용하여 컨벌루션 연산을 수행할 수 있다. 일 실시예에 있어서, 제3 컨벌루션 필터는 3*3 크기를 갖고 스트라이드(Stride)의 값이 1일 수 있다. 일 실시예에 있어서, 제3 컨벌루션 필터는 개수(채널의 수)가 제3 중간 특징맵의 차원의 1/4에 상응할 수 있다. 예컨대, 제3 컨벌루션 필터는 3*3*C/4 크기를 가질 수 있다. 여기서, 상기 C는 제9 컨벌루션 유닛(640)에서 출력된 제3 중간 특징맵의 차원 수에 상응할 수 있다. 제3 컨벌루션 연산부(710)는 제3 중간 특징맵에 제3 컨벌루션 필터를 적용하여 제3 중간 특징맵의 차원을 감소시킬 수 있다.When a third intermediate feature map is input from the
제10 컨벌루션 유닛(650)에 포함된 제3 정규화부(720)는 제3 컨벌루션 연산부(710)에 의해 생성된 제3 중간 특징맵을 배치 단위로 정규화한다.The
결과적으로, 제6 컨벌루션 유닛(610), 제8 컨벌루션 유닛(630) 및 제10 컨벌루션 유닛(650) 각각은 리셉티브 필드(receptive field)가 서로 다른 제1, 제2 및 제3 중간 특징맵을 출력할 수 있다. 예컨대, 제3 중간 특징맵은 3번의 컨벌루션 연산을 통해 제1 중간 특징맵 보다 넓은 리셉티브 필드를 가질 수 있다.As a result, each of the sixth
결합부(660)는 리셉티브 필드가 서로 다른 제1, 제2 및 제3 중간 특징맵들을 결합하여 하나의 제1 특징맵을 출력할 수 있다. 일 실시예에 있어서, 결합부(660)는 제1, 제2 및 제3 중간 특징맵에 대하여 결합(concat) 연산을 수행할 수 있다.The
제3 비선형화부(670)는 결합부(660)에서 출력된 제1 특징맵에 활성화함수를 적용함으로써 제1 특징맵에 비선형적 특성을 부여한다.The third
단일 스테이지 네트워크(340)는 리셉티브 필드가 서로 다른 제1, 제2 및 제3 중간 특징맵들을 결합한 특징맵을 출력하므로, 출력된 특징맵을 기초로 다양한 크기의 얼굴을 동시에 탐지할 수 있도록 할 수 있다. 또한, 단일 스테이지 네트워크(340)는 특징맵 추출이 단일 경로 상에서 이루어지므로, 알고리즘이 간단하고, 처리 속도가 빠르다. Since the single-
본 발명의 일 실시예에 따른 얼굴인식 시스템(100)은 제1 특징맵 생성부(322)에 의해 생성된 제1 특징맵, 제2 특징맵 생성부(324)에 의해 생성된 제2 특징맵 및 제3 특징맵 생성부(326)에 의해 생성된 제3 특징맵 각각을 단일 스테이지 네트워크(340)을 통해 제2 학습 네트워크(350)에 입력시킴으로써, 특징맵이 보다 견고한 함축적 정보를 가질 수 있도록 할 수 있다.The
제2 학습 네트워크(350)는 제1 내지 제3 특징맵들 각각을 기초로 학습 입력 이미지에 대한 위변조 정보 및 주파수 정보를 획득한다. 이를 위하여, 제2 학습 네트워크(350)는 위변조 판별 서브 네트워크(358) 및 주파수 서브 네트워크(359)를 포함한다.The
위변조 판별 서브 네트워크(358)는 제1 내지 제3 특징맵들 각각에 대하여 위변조 판별 컨벌루션 필터를 적용하여 위변조 확률값을 획득할 수 있다. 구체적으로, 위변조 판별 서브 네트워크(358)는 제1 내지 제3 특징맵들 각각에 대하여 위변조 판별 컨벌루션 필터를 이용하여 컨벌루션 연산을 수행하고, 위변조 판별 특징맵이 생성될 수 있다. The
일 실시예에 있어서, 위변조 판별 컨벌루션 필터는 1*1 크기를 갖고 스트라이드(Stride)의 값이 1일 수 있다. 이때, 위변조 판별 컨벌루션 필터는 채널의 수가 2개일 수 있다. In one embodiment, the forgery discrimination convolution filter may have a size of 1*1 and a value of a stride may be 1. In this case, the number of channels of the forgery detection convolution filter may be two.
위변조 판별 서브 네트워크(358)는 위변조 판별 특징맵에 미리 정해진 분류함수를 적용함으로써, 해당 학습 입력 이미지가 위변조 이미지인지에 대한 제1 확률값을 산출할 수 있다. 일 예로, 분류함수는 소프트맥스(Softmax)함수일 수 있다.The
주파수 서브 네트워크(359)는 제1 내지 제3 특징맵들 각각에 대하여 주파수 컨벌루션 필터를 적용하여 주파수 성분값을 획득할 수 있다. 구체적으로, 주파수 서브 네트워크(359)는 제1 내지 제3 특징맵들 각각에 대하여 주파수 컨벌루션 필터를 이용하여 컨벌루션 연산을 수행하고, 주파수 특징맵이 생성될 수 있다. The
일 실시예에 있어서, 주파수 컨벌루션 필터는 퓨리에 변환 필터일 수 있다. 일 예로, 주파수 컨벌루션 필터는 3*3 크기를 갖고 스트라이드(Stride)의 값이 1인 퓨리에 변환 필터일 수 있다.In one embodiment, the frequency convolution filter may be a Fourier transform filter. For example, the frequency convolution filter may be a Fourier transform filter having a size of 3*3 and a stride value of 1.
일 실시예에 있어서, 주파수 컨벌루션 필터의 차원수는 고속 퓨리에 변환 스펙트럼의 차원수로서, 제1 내지 제3 특징맵들의 해상도에 따라 달라질 수 있다. 주파수 컨벌루션 필터는 해상도가 작을수록 차원수가 커질 수 있다. 특징맵은 더 많은 네트워크 레이어를 거칠수록 해상도가 작아질 수 있습니다. 특징맵은 해상도가 작을수록 픽셀당 리셉티브 필드, 즉, 픽셀당 원본 이미지에서 수용하는 영역의 크기가 커지므로, 고속 퓨리에 변환 스펙트럼의 차원수를 크게 설정할 수 있다.In an embodiment, the dimensionality of the frequency convolution filter is the dimensionality of the fast Fourier transform spectrum, and may vary according to resolutions of the first to third feature maps. In the frequency convolution filter, the smaller the resolution, the larger the dimensionality. The feature map can have a lower resolution as it goes through more network layers. As the resolution of the feature map decreases, the size of the receptive field per pixel, that is, the region accommodated in the original image per pixel, increases, so that the number of dimensions of the fast Fourier transform spectrum can be set large.
일 예로, 제1 특징맵의 해상도가 20*20일 수 있고, 제2 특징맵의 해상도가 40*40일 수 있으며, 제3 특징맵의 해상도가 80*80일 수 있다. 주파수 서브 네트워크(359)는 제1 특징맵에 9*9에 상응하는 81차원의 주파수 컨벌루션 필터를 적용하여 20*20*81 크기의 고속 퓨리에 변환 스펙트럼에 상응하는 제1 주파수 특징맵이 생성될 수 있다. 이때, 주파수 컨벌루션 필터의 차원수는 제1 특징맵의 한 픽셀이 원본 이미지에서 9*9 크기의 영역을 수용함을 전제로 한 것으로, 제1 특징맵의 리셉티드 필드의 크기에 따라 달라질 수 있다. 주파수 서브 네트워크(359)는 제2 특징맵에 7*7에 상응하는 49차원의 주파수 컨벌루션 필터를 적용하여 40*40*49 크기의 고속 퓨리에 변환 스펙트럼에 상응하는 제2 주파수 특징맵이 생성될 수 있다. 이때, 주파수 컨벌루션 필터의 차원수는 제2 특징맵의 한 픽셀이 원본 이미지에서 7*7 크기의 영역을 수용함을 전제로 한 것으로, 제2 특징맵의 리셉티드 필드의 크기에 따라 달라질 수 있다. 또한, 주파수 서브 네트워크(359)는 제3 특징맵에 5*5에 상응하는 25차원의 주파수 컨벌루션 필터를 적용하여 80*80*25 크기의 고속 퓨리에 변환 스펙트럼에 상응하는 제3 주파수 특징맵이 생성될 수 있다. 이때, 주파수 컨벌루션 필터의 차원수는 제3 특징맵의 한 픽셀이 원본 이미지에서 5*5 크기의 영역을 수용함을 전제로 한 것으로, 제3 특징맵의 리셉티드 필드의 크기에 따라 달라질 수 있다.For example, the resolution of the first feature map may be 20*20, the resolution of the second feature map may be 40*40, and the resolution of the third feature map may be 80*80. The
한편, 주파수 서브 네트워크(359)는 주파수 특징맵에 활성화함수를 적용함으로써 주파수 특징맵에 비선형적 특성을 부여한다. 일 실시예에 있어서, 주파수 서브 네트워크(359)는 주파수 특징맵의 값들 중 양의 값을 동일하게 출력하고 음의 값은 그 크기를 감소시켜, 예컨대, 0을 출력하는 활성화함수를 주파수 특징맵에 적용시킬 수 있다.On the other hand, the
일 실시예에 있어서, 제2 학습 네트워크(350)는 제1 내지 제3 특징맵들 각각을 기초로 학습 입력 이미지에 대한 얼굴 정보를 더 획득할 수 있다. 이러한 경우, 제2 학습 네트워크(350)는 얼굴판별 서브 네트워크(352) 및 얼굴위치 서브 네트워크(354)를 포함할 수 있으며, 랜드마크 서브 네트워크(356)을 더 포함할 수도 있다.In an embodiment, the
얼굴판별 서브 네트워크(352)는 제1 내지 제3 특징맵들 각각에 대하여 얼굴판별 컨벌루션 필터를 적용하여 얼굴영역이 포함될 확률값을 획득할 수 있다. 구체적으로, 얼굴판별 서브 네트워크(352)는 제1 내지 제3 특징맵들 각각에 대하여 얼굴판별 컨벌루션 필터를 이용하여 컨벌루션 연산을 수행하고, 얼굴판별 특징맵이 생성될 수 있다. The
일 실시예에 있어서, 얼굴판별 컨벌루션 필터는 1*1 크기를 갖고 스트라이드(Stride)의 값이 1일 수 있다. 이때, 얼굴판별 컨벌루션 필터는 채널의 수가 2개일 수 있다. In an embodiment, the face recognition convolution filter may have a size of 1*1 and a value of a stride may be 1. In this case, the number of channels of the convolutional filter for each face may be two.
얼굴판별 서브 네트워크(352)는 얼굴판별 특징맵에 미리 정해진 분류함수를 적용함으로써, 해당 학습 입력 이미지에 얼굴영역이 포함되어 있는지 여부에 대한 제2 확률값을 산출할 수 있다. 일 예로, 분류함수는 소프트맥스(Softmax)함수일 수 있다.The
얼굴위치 서브 네트워크(352)는 제1 내지 제3 특징맵들 각각에 대하여 얼굴위치 컨벌루션 필터를 적용하여 얼굴영역의 좌표값을 획득할 수 있다. 구체적으로, 얼굴위치 서브 네트워크(352)는 제1 내지 제3 특징맵들 각각에 대하여 얼굴위치 컨벌루션 필터를 이용하여 컨벌루션 연산을 수행하고, 얼굴위치 특징맵이 생성될 수 있다. The
일 실시예에 있어서, 얼굴위치 컨벌루션 필터는 1*1 크기를 갖고 스트라이드(Stride)의 값이 1일 수 있다. 이때, 얼굴위치 컨벌루션 필터는 채널의 수가 4개일 수 있다. 이를 통해, 얼굴위치 서브 네트워크(352)는 4차원으로 출력되는 4개의 값을 해당 학습 입력 이미지 상에 얼굴영역의 좌표값으로 결정할 수 있다. 이때, 얼굴영역의 좌표값은 얼굴이 포함된 영역을 사각형 형태의 바운딩 박스(Bounding Box)로 표시하였을 때 좌측 상단 꼭지점의 좌표와 우측 하단 꼭지점의 좌표로 정의되거나, 우측 상단 꼭지점의 좌표와 좌측 하단 꼭지점의 좌표로 정의될 수 있다.In an embodiment, the face position convolution filter may have a size of 1*1 and a value of a stride may be 1. In this case, the face position convolution filter may have four channels. Through this, the
랜드마크 서브 네트워크(356)는 제1 내지 제3 특징맵들 각각에 대하여 랜드마크 컨벌루션 필터를 적용하여 얼굴영역 내의 얼굴에 대한 랜드마크 좌표값을 획득할 수 있다. 구체적으로, 랜드마크 서브 네트워크(356)는 제1 내지 제3 특징맵들 각각에 대하여 랜드마크 컨벌루션 필터를 이용하여 컨벌루션 연산을 수행하고, 랜드마크 특징맵이 생성될 수 있다.The
일 실시예에 있어서, 랜드마크 컨벌루션 필터는 1*1 크기를 갖고 스트라이드(Stride)의 값이 1일 수 있다. 이때, 랜드마크 컨벌루션 필터는 채널의 수가 10개일 수 있다. 이를 통해, 랜드마크 서브 네트워크(356)는 10차원으로 출력되는 10개의 값을 해당 학습 입력 이미지 상에 랜드마크 좌표값으로 결정할 수 있다. 이때, 랜드마크 좌표값은 학습 입력 이미지 상에서 2개의 눈의 좌표, 코의 좌표, 2개의 입의 좌표를 포함할 수 있다. 2개의 입의 좌표는 입의 좌측 꼬리에 대한 좌표 및 입의 우측 꼬리에 대한 좌표를 의미할 수 있다.In an embodiment, the landmark convolution filter may have a size of 1*1 and a value of a stride may be 1. In this case, the landmark convolution filter may have 10 channels. Through this, the
오차감소부(360)는 획득된 정보를 실제값과 비교하여 오차를 산출하고, 산출된 오차가 기준값 보다 작은 값을 가지도록 얼굴인식 모델(240)을 학습시킨다. 이를 위하여, 오차감소부(360)는 위변조 판별 오차감소부(368) 및 주파수 오차감소부(369)를 포함한다.The
위변조 판별 오차감소부(368)는 위변조 판별 서브 네트워크(358)에 의해 획득된 위변조 확률값(이하, '제1 예측값'이라 함)과 제1 실제값 간의 제1 오차를 제1 오차함수를 이용하여 산출한다. 일 실시예에 있어서, 제1 오차함수는 CEE(Cross Entropy Error)함수일 수 있다. 일 예로, 제1 오차함수는 아래 수학식 1와 같을 수 있다.The forgery detection
상기 는 제1 오차함수를 나타내고, 상기 s*는 제1 예측값을 나타내고, 상기 s는 제1 실제값을 나타낸다.remind denotes a first error function, s * denotes a first predicted value, and s denotes a first actual value.
일 실시예에 있어서, 위변조 판별 오차감소부(368)는 제1 오차가 제1 기준값 보다 작은 값을 가질 때까지 위변조 판별 서브 네트워크(358)를 학습시킬 수 있다. 위변조 판별 오차감소부(368)는 제1 오차가 제1 기준값 보다 작아지도록 위변조 판별 컨벌루션 필터를 갱신할 수 있다. 예컨대, 위변조 판별 오차감소부(368)는 위변조 판별 컨벌루션 필터의 필터계수, 편향 및 가중치 중 적어도 하나를 갱신할 수 있다.In an embodiment, the forgery detection
주파수 오차감소부(369)는 주파수 서브 네트워크(359)에 의해 획득된 주파수 성분값(이하, '제2 예측값'이라 함)과 제2 실제값 간의 제2 오차를 제2 오차함수를 이용하여 산출한다. 일 실시예에 있어서, 제2 오차함수는 MSE(Mean Squared Error)함수일 수 있다. 일 예로, 제2 오차함수는 아래 수학식 2와 같을 수 있다.The frequency
상기 는 제2 오차함수를 나타내고, 상기 f*는 제2 예측값을 나타내고, 상기 f는 제2 실제값을 나타낸다.remind denotes a second error function, f * denotes a second predicted value, and f denotes a second actual value.
일 실시예에 있어서, 주파수 오차감소부(369)는 제2 오차가 제2 기준값 보다 작은 값을 가질 때까지 주파수 서브 네트워크(359)를 학습시킬 수 있다. 주파수 오차감소부(369)는 제2 오차가 제2 기준값 보다 작아지도록 주파수 컨벌루션 필터를 갱신할 수 있다. 예컨대, 주파수 오차감소부(369)는 주파수 컨벌루션 필터의 필터계수, 편향 및 가중치 중 적어도 하나를 갱신할 수 있다.In an embodiment, the frequency
일 실시예에 있어서, 제2 학습 네트워크(350)가 얼굴판별 서브 네트워크(352), 얼굴위치 서브 네트워크(354) 및 랜드마크 서브 네트워크(356)를 포함하는 경우, 오차감소부(360)는 얼굴판별 오차감소부(362), 얼굴위치 오차감소부(364) 및 랜드마크 오차감소부(366)를 더 포함할 수 있다.In one embodiment, when the
얼굴판별 오차감소부(362)는 얼굴판별 서브 네트워크(352)에 의해 획득된 얼굴영역이 포함될 확률값(이하, '제3 예측값'이라 함)과 제3 실제값 간의 제3 오차를 제3 오차함수를 이용하여 산출할 수 있다. 일 실시예에 있어서, 제3 오차함수는 CEE(Cross Entropy Error)함수일 수 있다. 일 예로, 제3 오차함수는 아래 수학식 3과 같을 수 있다.The face recognition
상기 는 제3 오차함수를 나타내고, 상기 p*는 제3 예측값을 나타내고, 상기 p는 제3 실제값을 나타낸다.remind denotes a third error function, p * denotes a third predicted value, and p denotes a third actual value.
일 실시예에 있어서, 얼굴판별 오차감소부(362)는 제3 오차가 제3 기준값 보다 작은 값을 가질 때까지 얼굴판별 서브 네트워크(352)를 학습시킬 수 있다. 얼굴판별 오차감소부(362)는 제3 오차가 제3 기준값 보다 작아지도록 얼굴판별 컨벌루션 필터를 갱신할 수 있다. 예컨대, 얼굴판별 오차감소부(362)는 얼굴판별 컨벌루션 필터의 필터계수, 편향 및 가중치 중 적어도 하나를 갱신할 수 있다.In an embodiment, the face recognition
얼굴위치 오차감소부(364)는 얼굴위치 서브 네트워크(354)에 의해 획득된 얼굴영역의 좌표값(이하, '제4 예측값'이라 함)과 제4 실제값 간의 제4 오차를 제4 오차함수를 이용하여 산출할 수 있다. 일 실시예에 있어서, 제4 오차함수는 아래 수학식 4과 같을 수 있다.The face position
상기 는 제4 오차함수를 나타내고, 상기 t*는 제4 예측값을 나타내고, 상기 4는 제2 실제값을 나타낸다.remind denotes a fourth error function, t * denotes a fourth predicted value, and 4 denotes a second actual value.
한편, 상기 smooth함수는 아래 수학식 5과 같이 정의될 수 있다.Meanwhile, the smooth function may be defined as in Equation 5 below.
일 실시예에 있어서, 얼굴위치 오차감소부(364)는 제4 오차가 제4 기준값 보다 작은 값을 가질 때까지 얼굴위치 서브 네트워크(354)를 학습시킬 수 있다. 얼굴위치 오차감소부(364)는 제4 오차가 제4 기준값 보다 작아지도록 얼굴위치 컨벌루션 필터를 갱신할 수 있다. 예컨대, 얼굴위치 오차감소부(364)는 얼굴위치 컨벌루션 필터의 필터계수, 편향 및 가중치 중 적어도 하나를 갱신할 수 있다.In an embodiment, the face position
랜드마크 오차감소부(366)는 랜드마크 서브 네트워크(356)에 의해 획득된 랜드마크 좌표값(이하, '제5 예측값'이라 함)과 제5 실제값 간의 제5 오차를 제5 오차함수를 이용하여 산출할 수 있다. 일 실시예에 있어서, 제5 오차함수는 아래 수학식 6과 같을 수 있다.The landmark
상기 는 제5 오차함수를 나타내고, 상기 l*는 제5 예측값을 나타내고, 상기 l는 제5 실제값을 나타낸다.remind denotes a fifth error function, l * denotes a fifth predicted value, and l denotes a fifth actual value.
일 실시예에 있어서, 랜드마크 오차감소부(366)는 제5 오차가 제5 기준값 보다 작은 값을 가질 때까지 랜드마크 서브 네트워크(356)를 학습시킬 수 있다. 랜드마크 오차감소부(366)는 제5 오차가 제5 기준값 보다 작아지도록 랜드마크 컨벌루션 필터를 갱신할 수 있다. 예컨대, 랜드마크 오차감소부(366)는 랜드마크 컨벌루션 필터의 필터계수, 편향 및 가중치 중 적어도 하나를 갱신할 수 있다.In an embodiment, the landmark
일 실시예에 있어서, 오차감소부(360)는 오차를 통합하여 관리하는 통합 오차감소부(370)를 더 포함할 수 있다. In an embodiment, the
통합 오차감소부(370)는 얼굴판별 오차감소부(362), 얼굴위치 오차감소부(364), 랜드마크 오차감소부(366), 위변조 판별 오차감소부(368) 및 주파수 오차감소부(369) 각각으로부터 산출된 제1 내지 제5 오차들을 이용하여 최종 오차를 산출할 수 있다. 이때, 통합 오차감소부(370)는 제1 내지 제5 오차들 각각에 가중치를 부여하고, 가중치가 부여된 제1 내지 제4 오차들을 합산하여 최종 오차를 산출할 수 있다.The integrated
일 실시예에 있어서, 통합 오차감소부(370)는 아래 수학식 7을 이용하여 최종 오차를 산출할 수 있다.In an embodiment, the integrated
상기 L은 최종 오차를 나타내며, 상기 λ1은 제4 오차함수에 대한 가중치를 나타내고, 상기 λ2은 제5 오차함수에 대한 가중치를 나타내고, 상기 λ3은 제1 오차함수에 대한 가중치를 나타내고, 상기 λ4은 제2 오차함수에 대한 가중치를 나타낸다.L denotes the final error, λ 1 denotes a weight for the fourth error function, λ 2 denotes a weight for the fifth error function, and λ 3 denotes a weight for the first error function, The λ 4 represents a weight for the second error function.
일 실시예에 있어서, 오차감소부(360)는 최종 오차가 제6 기준값 보다 작은 값을 가질 때까지 얼굴판별 서브 네트워크(352), 얼굴위치 서브 네트워크(354), 랜드마크 서브 네트워크(356), 위변조 판별 서브 네트워크(358) 및 주파수 서브 네트워크(359)를 학습시킬 수 있다. 오차감소부(360)는 최종 오차가 제6 기준값 보다 작아지도록 얼굴판별 컨벌루션 필터, 얼굴위치 컨벌루션 필터, 랜드마크 컨벌루션 필터, 위변조 판별 컨벌루션 필터 및 주파수 컨벌루션 필터 중 적어도 하나를 갱신할 수 있다.In one embodiment, the
상술한 실시예에 있어서, 얼굴인식 학습 모델(230)은 알고리즘 형태의 소프트웨어로 구현되어 얼굴인식서버(110)에 탑재될 수 있다.In the above-described embodiment, the face
상술한 바와 같은 얼굴인식 학습 모델(230)에 의하여 학습된 얼굴인식모델(240)은 얼굴탐지 및 위변조를 통합적으로 판별할 수 있다. 즉, 얼굴인식 모델(240)은 입력 이미지에 얼굴영역이 포함되어 있는지 판별하고, 입력 이미지가 위변조되었는지, 실물이미지인지를 판별할 수 있다.The
이를 위하여, 얼굴인식 모델(240)은 도 9에 도시된 바와 같이 백본 네트워크(910), 제1 네트워크(920) 및 제2 네트워크(950)를 포함할 수 있다. 얼굴인식 모델(240)에 포함된 백본 네트워크(910) 및 제1 네트워크(920)는 얼굴인식 학습 모델(230)에서 설명한 백본 네트워크(310) 및 제1 네트워크(320)과 실질적으로 동일하므로, 이에 대한 구체적인 설명은 생략하도록 한다.To this end, the
얼굴인식 모델(240)에 포함된 제2 네트워크(950)는 얼굴판별 네트워크(952), 얼굴위치 네트워크(954), 랜드마크 네트워크(956) 및 위변조 판별 네트워크(958)를 포함할 수 있다. 얼굴인식 모델(240)의 제2 네트워크(950)는 얼굴인식 학습 모델(230)의 제2 학습 네트워크(350)과 달리 주파수 서브 네트워크(359)를 포함하지 않는다. 즉, 주파수 성분은 학습에 보조적인 역할로만 사용되고, 학습 이후 추론시에는 사용되지 않는다. 그러나, 본 발명의 일 실시예에 따른 얼굴인식 시스템(100)은 얼굴인식 학습 모델(230)에서 얼굴영역 유무, 얼굴영역 좌표, 위변조 여부 및 랜드마크 좌표 이외에 주파수 성분을 더 이용하여 얼굴인식모델(230)을 학습시킴으로써, 입력 이미지에 대한 위변조 판별시 주파수 성분이 반영될 수 있다. The
구체적으로, 얼굴인식 모델(240)은 사용자의 입력 이미지가 입력되면, 얼굴판별 네트워크(952)을 통해 얼굴영역이 포함될 확률값을 획득하고, 얼굴위치 네트워크(954)을 통해 얼굴영역의 좌표값을 획득할 수 있다. 또한, 얼굴인식 모델(240)은 랜드마크 네트워크(956)을 통해 랜드마크 좌표값을 획득하고, 위변조 판별 네트워크(958)을 통해 위변조 확률값을 획득할 수 있다. Specifically, when a user's input image is input, the
얼굴판별 네트워크(952)은 얼굴판별 컨벌루션 필터를 이용하여 얼굴영역이 포함될 확률값이 추출되고, 얼굴위치 네트워크(954)는 얼굴위치 컨벌루션 필터를 이용하여 얼굴영역의 좌표값이 추출되며, 랜드마크 네트워크(956)는 랜드마크 컨벌루션 필터를 이용하여 랜드마크 좌표값이 추출되고, 위변조 판별 네트워크(958)는 위변조 판별 컨벌루션 필터를 이용하여 위변조 확률값이 추출될 수 있다. The
이때, 얼굴판별 컨벌루션 필터, 얼굴위치 컨벌루션 필터, 랜드마크 컨벌루션 필터 및 위변조 판별 컨벌루션 필터 각각의 필터 계수, 편향 및 가중치는 얼굴인식 학습 모델(230)에서 주파수 성분을 반영하여 학습한 결과값을 가질 수 있다. 따라서, 얼굴인식 모델(240)에서 얼굴판별 컨벌루션 필터, 얼굴위치 컨벌루션 필터, 랜드마크 컨벌루션 필터 및 위변조 판별 컨벌루션 필터 각각을 이용하여 추출된 얼굴영역이 포함될 확률값, 얼굴영역의 좌표값, 랜드마크 좌표값 및 위변조 확률값은 주파수 성분이 반영되어 획득된 값에 해당할 수 있다.At this time, the filter coefficients, biases, and weights of each of the face recognition convolution filter, face position convolution filter, landmark convolution filter, and forgery discrimination convolution filter can have the result value learned by reflecting the frequency component in the face
얼굴인식 모델(240)은 얼굴영역이 포함될 확률값이 제1 문턱값 이상이면, 사용자의 입력 이미지에 얼굴이 포함된 것으로 판단하고, 위변조 확률값이 제2 문턱값 이상이면, 사용자의 입력 이미지가 위변조된 것으로 판단할 수 있다.The
얼굴인식 모델(240)은 얼굴영역의 좌표값을 이용하여 사용자의 얼굴 이미지를 추출할 수 있다. 일 실시예에 있어서, 얼굴인식 모델(240)은 랜드마크 좌표값을 이용하여 얼굴 이미지를 정렬할 수 있다. 구체적으로, 얼굴인식 모델(240)은 랜드마크 좌표값을 이용하여 얼굴 이미지에 대해 회전, 평행이동, 확대 및 축소 중 적어도 하나를 수행하여 얼굴 이미지를 정렬할 수 있다. 얼굴이미지를 정렬하는 이유는 특징벡터 추출시 제공될 얼굴이미지에 일관성을 부여함으로써 얼굴인식 성능을 향상시키기 위함이다.The
얼굴인식 모델(240)은 추출된 사용자의 얼굴 이미지로부터 사용자를 특정할 수 있는 복수의 특징벡터들을 추출할 수 있다. 일 실시예에 있어서, 얼굴인식 모델(240)은 128개 이상의 특징벡터들을 출력할 수 있다. 예컨대, 얼굴인식 모델(240)은 512개의 특징벡터들을 출력할 수 있다.The
다시 도 1을 참조하면, 에지 디바이스(120)는 특정 장소 마다 배치되어 얼굴인식서버(110)에 의해 배포되는 얼굴인식 모델(240)을 이용하여 해당 장소로의 출입을 희망하는 타겟 사용자의 얼굴을 인식하고, 인식결과를 기초로 타겟 사용자의 출입을 인증하는 기능을 수행한다.Referring back to FIG. 1 , the
본 발명에서, 얼굴인식서버(110)가 타겟 사용자의 얼굴인식 및 인증을 수행하지 않고 에지 디바이스(120)가 타겟 사용자의 얼굴인식 및 인증을 수행하도록 한 이유는 타겟 사용자의 얼굴인식 및 인증을 얼굴인식서버(110)에서 수행하는 경우 얼굴인식서버(110) 또는 네트워크에서 장애가 발생되면 얼굴인식 및 인증이 수행될 수 없을 뿐만 아니라 사용자의 수가 증가함에 따라 고가의 얼굴인식서버(110)의 증설이 요구되기 때문이다.In the present invention, the reason that the
이에 따라 본 발명은 에지 컴퓨팅(Edge Computing) 방식을 적용하여 에지 디바이스(120)에서 타겟 사용자의 얼굴인식 및 인증을 수행하도록 함으로써 안면인식서버(110) 또는 네트워크에 장애가 발생하더라도 정상적으로 얼굴인식 서비스를 제공할 수 있어 서비스 제공 신뢰도를 향상시킬 수 있고, 사용자의 수가 증가하더라도 고가의 얼굴인식서버(110)를 증설할 필요가 없어 얼굴인식시스템(100) 구축비용을 절감할 수 있게 된다.Accordingly, the present invention applies an edge computing method to perform face recognition and authentication of a target user in the
이하, 본 발명에 따른 에지 디바이스(120)의 구성을 도 10을 참조하여 보다 구체적으로 설명한다.Hereinafter, the configuration of the
도 10은 본 발명의 일 실시예에 따른 에지 디바이스의 구성을 개략적으로 보여주는 블록도이다. 10 is a block diagram schematically showing the configuration of an edge device according to an embodiment of the present invention.
도 10을 참조하면, 본 발명의 일 실시예에 따른 에지 디바이스(120)는 촬영부(1010), 타겟 얼굴인식 및 위변조 판별부(1020), 얼굴인식모델(1030), 인증부(1040), 인터페이스부(1050) 및 메모리(1060)를 포함한다.10, the
촬영부(1010)는 인증대상이 되는 타겟 사용자가 접근하면, 타겟 사용자를 촬영하여 촬영 이미지를 생성한다. 촬영부(1010)는 생성된 촬영이미지를 타겟 얼굴인식 및 위변조 판별부(1020)에 전달한다.The photographing
타겟 얼굴인식 및 위변조 판별부(1020)는 촬영부(1010)로부터 타겟 사용자의 입력 이미지가 수신되면 수신된 타겟 사용자의 입력 이미지를 얼굴인식서버(110)로부터 배포된 얼굴인식모델(1030)를 이용하여 타겟 사용자의 입력 이미지로부터 얼굴을 인식하고, 입력 이미지의 위변조 여부를 판별한다. When the target face recognition and
타겟 얼굴인식 및 위변조 판별부(1020)는 입력 이미지를 얼굴인식모델(1030)에 입력하고, 얼굴인식모델(1030)로부터 얼굴 정보 및 위변조 정보를 획득한다. 일 예로, 타겟 얼굴인식 및 위변조 판별부(1020)는 얼굴인식모델(1030)로부터 얼굴영역이 포함될 확률값, 얼굴영역의 좌표값, 랜드마크 좌표값 및 위변조 확률값을 획득한다. The target face recognition and
이때, 타겟 얼굴인식 및 위변조 판별부(1020)는 얼굴영역이 포함될 확률값이 제1 문턱값 이상이면, 타겟 사용자의 입력 이미지에 얼굴이 포함된 것으로 판단할 수 있다. In this case, the target face recognition and
또한, 타겟 얼굴인식 및 위변조 판별부(1020)는 위변조 확률값이 제2 문턱값 이상이면, 타겟 사용자의 입력 이미지가 위변조된 것으로 판단할 수 있다. 위변조 확률값은 0부터 1 사이의 실수 값으로써, 1에 가까울수록 해당 입력 이미지가 위변조된 이미지일 확률이 크다. 반면, 타겟 얼굴인식 및 위변조 판별부(1020)는 위변조 확률값이 제2 문턱값 미만이면, 타겟 사용자의 입력 이미지가 위변조되지 않은 실물이미지인 것으로 판단할 수 있다. In addition, the target face recognition and
상기 제2 문턱값은 0부터 1사이의 구간을 균등하게 나눈 후 각 기준값을 기반으로 얼굴인식모델(240)의 성능을 재현율(recall)과 정밀도(precision)을 결합한 F1-Score로 평가하고, F1-Score가 가장 클 때 기준값을 제2 문턱값으로 결정할 수 있다.The second threshold value is evaluated as F1-Score, which combines recall and precision, for the performance of the
한편, 타겟 얼굴인식 및 위변조 판별부(1020)는 타겟 사용자의 입력 이미지에 얼굴영역이 포함되고, 입력 이미지가 실물이미지로 판별되면, 얼굴인식모델(1030)을 통해 획득된 얼굴영역의 좌표값을 이용하여 타겟 사용자의 얼굴이미지를 추출할 수 있다. 그리고, 타겟 얼굴인식 및 위변조 판별부(1020)는 추출된 얼굴이미지로부터 타겟 특징벡터를 생성할 수 있다.On the other hand, the target face recognition and
인증부(1040)는 타겟 얼굴인식 및 위변조 판별부(1020)에 의해 획득된 타겟 특징벡터를 얼굴인식서버(110)로부터 수신된 어레이 파일와 비교하여 타겟 사용자를 인증한다. 구체적으로, 인증부(1040)는 타겟 특징벡터를 복수의 사용자들 각각의 사용자 특징벡터들 및 각 사용자의 식별정보를 갖는 복수개의 어레이로 구성된 어레이 파일과 비교하여 타겟 사용자를 인증할 수 있다.The
얼굴인식모델(1030)은 얼굴인식서버(110)에 의해 생성되어 배포된 것으로서, 미리 정해진 주기마다 업데이트될 수 있다. 일 예로, 에지 디바이스(120)는 얼굴인식서버(110)에 의해 얼굴인식모델(1030)이 업데이트될 때마다 얼굴인식서버(110)로부터 새로운 얼굴인식모델(1030)을 배포받음으로써 기 배포된 얼굴인식모델(540)을 새로운 얼굴인식모델(1030)로 업데이트할 수 있다.The
제1 메모리(1062)는 인터페이스부(1050)를 통해 얼굴인식서버(110)로부터 어레이 파일이 수신되면 이를 업로드하여 인증부(1040)가 이를 이용하여 타겟 사용자를 인증할 수 있도록 한다. 특히, 본 발명에 따른 메모리(1060)는 어레이 파일이 동적으로 로딩될 수 있다.When the array file is received from the
구체적으로, 제1 메모리(1062)에 어레이 파일이 로딩되어 있을 때, 얼굴인식서버(110)로부터 신규 어레이 파일이 수신되는 경우 신규 어레이 파일은 제2 메모리(1064)에 로딩될 수 있다. 제2 메모리(1064)에 신규 레이 파일의 로딩이 완료되면, 제1 메모리(1062)에 로딩되어 있는 어레이 파일을 제2 메모리(1064)에 로딩되어 있는 신규 어레이 파일로 대체할 수 있다.Specifically, when a new array file is received from the
제1 메모리(572)에는 인증부(550)에 의해 이용되는 어레이 파일이 로딩되고, 제2 메모리(574)에는 새롭게 수신된 신규 어레이 파일이 로딩된다. 제2 메모리(574)에 신규 어레이 파일의 로딩이 완료되면 제1 메모리(572)에 기록된 어레이 파일이 신규 어레이 파일로 대체되게 된다.An array file used by the authenticator 550 is loaded into the first memory 572 , and a newly received new array file is loaded into the second memory 574 . When the loading of the new array file into the second memory 574 is completed, the array file written in the first memory 572 is replaced with the new array file.
인터페이스부(1050)는 에지 디바이스(120)와 얼굴인식서버(110)간의 데이터 송수신을 매개한다. 구체적으로, 인터페이스부(1050)는 얼굴인식서버(110)로부터 얼굴인식모델(1030)을 수신한다. 인터페이스부(1050)는 얼굴인식서버(110)로부터 어레이 파일을 수신하여 제1 메모리(1062) 또는 제2 메모리(1064)에 로딩한다. 또한, 인터페이스부(1050)는 인증부(1040)에 의한 인증기록을 얼굴인식서버(110)로 주기적으로 전송한다. The
상술한 바와 같이, 본 발명에 따르면 에지 디바이스(120)에는 얼굴인식을 위한 얼굴인식모델(1030) 및 어레이 파일만 저장될 뿐 사용자의 얼굴이미지나 개인정보가 저장되지 않기 때문에 에지 디바이스(120)가 해킹되더라도 사용자의 개인정보가 유출될 염려가 없어 보안이 강화된다.As described above, according to the present invention, the
다시 도 1을 참조하면, 사용자 단말기(130)는 사용자를 신규 등록하기 위한 사용자 이미지를 사용자의 식별정보와 함께 얼굴인식서버(110)로 전송한다. 일 실시예에 있어서, 사용자 단말기(130)에는 얼굴인식서버(110)와 연동할 수 있는 얼굴등록 에이전트(미도시)가 탑재되어 있고, 사용자는 사용자 단말기(130) 상에서 얼굴등록 에이전트를 실행시킴으로써 사용자의 얼굴을 촬영한 이미지나 기 촬영된 이미지를 사용자 식별정보와 함께 얼굴인식서버(110)로 전송할 수 있다.Referring back to FIG. 1 , the
일 실시예에 있어서, 사용자 단말기(130)는 각 사용자 별로 복수개의 사용자 이미지를 등록하도록 요청할 수 있다. 이때, 각 사용자 별로 등록 요청되는 복수개의 이미지는 서로 다른 환경에서 촬영된 사진이거나 서로 다른 조명하에서 촬영된 사진일 수 있다.In an embodiment, the
사용자 단말기(130)는 얼굴인식서버(110)로 사용자 이미지를 전송하여 사용자 등록을 요청할 수 있는 것이라면 그 종류에 제한 없이 어떤 것이든 이용 가능하다. 예컨대, 사용자 단말기(130)는 스마트폰, 노트북, 데스크탑 또는 테플릿 PC등으로 구현될 수 있다.The
본 발명의 일 실시예에 따른 얼굴인식 시스템(100)은 얼굴인식 학습 모델(230)이 얼굴인식모델(240)을 얼굴에 대한 특징뿐만 아니라 주파수 성분도 고려하여 학습시킴으로써, 일반 카메라로 촬영된 RGB 이미지가 얼굴인식모델(240)에 입력되더라도 주파수 성분이 반영되어 위변조 확률값이 획득될 수 있다. 이에 따라, 본 발명의 일 실시예에 따른 얼굴인식 시스템(100)은 적외선 센서와 같은 별도의 장치 없이 위변조 여부를 판별할 수 있으므로, 환경적 제약을 최소화하고 비용을 절감할 수 있다.In the
또한, 본 발명의 일 실시예에 따른 얼굴인식 시스템(100)은 하나의 통합 얼굴인식모델(240)을 통해 얼굴탐지 및 위변조 판별을 동시에 수행할 수 있다. 이에 따라, 본 발명의 일 실시예에 따른 얼굴인식 시스템(100)은 연산량을 감소시키고, 연산속도를 효과적으로 향상시킬 수 있다.In addition, the
본 발명이 속하는 기술분야의 당업자는 상술한 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다.Those skilled in the art to which the present invention pertains will understand that the above-described present invention may be embodied in other specific forms without changing the technical spirit or essential characteristics thereof.
본 명이 속하는 기술분야의 당업자는 상술한 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다.Those skilled in the art to which the present invention pertains will be able to understand that the above-described present invention may be embodied in other specific forms without changing the technical spirit or essential characteristics thereof.
그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.Therefore, it should be understood that the embodiments described above are illustrative in all respects and not restrictive. The scope of the present invention is indicated by the following claims rather than the above detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalent concepts should be interpreted as being included in the scope of the present invention. do.
100: 얼굴인식 시스템
110: 얼굴인식서버
120: 에지 디바이스
130: 사용자 단말기
210: 사용자 등록부
220: 사용자 얼굴인식부
230: 얼굴인식 학습 모델
240: 얼굴인식모델
250: 어레이 파일 생성부
260: 에지 디바이스 관리부
270: 인터페이스부100: face recognition system 110: face recognition server
120: edge device 130: user terminal
210: user registration unit 220: user face recognition unit
230: face recognition learning model 240: face recognition model
250: array file generation unit 260: edge device management unit
270: interface unit
Claims (14)
학습 이미지로부터 특징맵을 추출하고, 상기 추출된 특징맵을 기초로 상기 학습 이미지에 대한 얼굴 정보, 위변조 정보 및 주파수 정보를 획득하며, 상기 획득된 얼굴 정보, 상기 위변조 정보 및 상기 주파수 정보를 실제값과 비교하여 오차를 산출하고, 상기 산출된 오차가 기준값 보다 작은 값을 가지도록 상기 얼굴인식 모델을 학습시키는 얼굴인식 학습 모델을 포함하는 얼굴인식 시스템.a face recognition model that determines whether a user image is forged or not, and recognizes a face from the user image; and
Extracting a feature map from a training image, acquiring face information, forgery information and frequency information for the training image based on the extracted feature map, and setting the acquired face information, the forgery information and the frequency information as an actual value A face recognition system comprising a face recognition learning model that calculates an error by comparing with , and trains the face recognition model so that the calculated error has a value smaller than a reference value.
상기 학습 이미지를 기초로 생성된 복수개의 학습 입력 이미지들 각각에 대하여 특징맵들을 추출하는 제1 네트워크;
상기 특징맵들 각각을 기초로 상기 학습 입력 이미지에 대한 얼굴 정보, 위변조 정보 및 주파수 정보를 획득하는 제2 학습 네트워크; 및
상기 획득된 얼굴 정보, 상기 위변조 정보 및 상기 주파수 정보를 실제값과 비교하여 오차를 산출하고, 상기 산출된 오차가 기준값 보다 작은 값을 가지도록 상기 얼굴인식 모델을 학습시키는 오차감소부를 포함하는 것을 특징으로 하는 얼굴인식 시스템.According to claim 1, wherein the face recognition learning model,
a first network for extracting feature maps for each of a plurality of training input images generated based on the training image;
a second learning network for obtaining face information, forgery information, and frequency information for the learning input image based on each of the feature maps; and
Comprising an error reduction unit for calculating an error by comparing the obtained face information, the forgery information and the frequency information with an actual value, and learning the face recognition model so that the calculated error has a value smaller than a reference value face recognition system.
상기 학습 이미지로부터 제1 해상도와 제1 차원을 가지는 제1 학습 입력 이미지, 상기 제1 해상도 보다 작은 제2 해상도와 상기 제1 차원 보다 큰 제2 차원을 가지는 제2 학습 입력 이미지, 및 상기 제2 해상도 보다 작은 제3 해상도와 상기 제2 차원 보다 큰 제3 차원을 가지는 제3 학습 입력 이미지를 생성하는 백본 네트워크; 및
상기 제3 학습 입력 이미지로부터 제1 특징맵을 생성하고, 상기 제1 특징맵 및 상기 제2 학습 입력 이미지를 이용하여 제2 특징맵을 생성하고, 상기 제2 특징맵 및 상기 제1 학습 입력 이미지를 이용하여 제3 특징맵을 생성하는 제1 네트워크를 포함하는 얼굴인식 시스템.According to claim 1, wherein the face recognition learning model,
a first training input image having a first resolution and a first dimension from the training image, a second training input image having a second resolution smaller than the first resolution and a second dimension larger than the first dimension, and the second a backbone network for generating a third training input image having a third resolution smaller than the resolution and a third dimension larger than the second dimension; and
generating a first feature map from the third learning input image, generating a second feature map using the first feature map and the second learning input image, and generating the second feature map and the first learning input image A face recognition system comprising a first network for generating a third feature map using
상기 제3 학습 입력 이미지에 제1 컨벌루션 필터를 적용하여 상기 제1 특징맵을 생성하는 제1 컨벌루션 유닛을 포함하고,
상기 제1 컨벌루션 필터는 상기 제3 학습 입력 이미지의 차원을 특정 차원으로 변경시키는 것을 특징으로 하는 얼굴인식 시스템.According to claim 3, wherein the first network,
a first convolution unit configured to generate the first feature map by applying a first convolution filter to the third learning input image,
The first convolutional filter is a face recognition system, characterized in that it changes the dimension of the third learning input image to a specific dimension.
제2 컨벌루션 필터를 적용하여 상기 제2 학습 입력 이미지의 차원을 특정 차원으로 변경시키는 제2 컨벌루션 유닛;
상기 제1 특징맵이 상기 제2 학습 입력 이미지와 동일한 해상도를 가지도록 업샘플링하는 제1 업샘플링부;
상기 업샘플링된 제1 특징맵을 상기 차원이 변경된 제2 학습 입력 이미지에 합산하는 제1 연산부; 및
상기 제1 연산부에서 출력되는 제2 학습 입력 이미지에 제3 컨벌루션 필터를 적용하여 제2 특징맵을 생성하는 제3 컨벌루션 유닛을 포함하는 것을 특징으로 하는 얼굴인식 시스템.According to claim 3, wherein the first network,
a second convolution unit for changing a dimension of the second learning input image to a specific dimension by applying a second convolution filter;
a first upsampling unit for upsampling the first feature map to have the same resolution as the second learning input image;
a first operation unit for adding the up-sampled first feature map to the second learning input image of which the dimension has been changed; and
and a third convolution unit configured to generate a second feature map by applying a third convolution filter to the second learning input image output from the first operation unit.
상기 제2 컨벌루션 필터와 상기 제3 컨벌루션 필터는 필터의 개수가 동일하나 크기가 서로 상이한 것을 특징으로 하는 얼굴인식 시스템.6. The method of claim 5,
The second convolutional filter and the third convolutional filter have the same number of filters but different sizes.
상기 특징맵들 각각에 대하여 위변조 판별 컨벌루션 필터를 적용하여 위변조 확률값을 획득하는 위변조 판별 서브 네트워크; 및
상기 특징맵들 각각에 대하여 주파수 컨벌루션 필터를 적용하여 주파수 성분값을 획득하는 주파수 서브 네트워크를 포함하고,
상기 주파수 컨벌루션 필터는 퓨리에 변환 필터인 것을 특징으로 하는 얼굴인식 시스템.The method of claim 2, wherein the second learning network comprises:
a forgery detection sub-network for obtaining a forgery probability value by applying a forgery detection convolution filter to each of the feature maps; and
and a frequency subnetwork for obtaining frequency component values by applying a frequency convolution filter to each of the feature maps,
The face recognition system, characterized in that the frequency convolution filter is a Fourier transform filter.
상기 주파수 서브 네트워크는 상기 특징맵들 각각에 대하여 차원수가 다른 주파수 컨벌루션 필터들을 적용하는 것을 특징으로 하는 얼굴인식 시스템.8. The method of claim 7,
The face recognition system, characterized in that the frequency subnetwork applies frequency convolution filters having different dimensions to each of the feature maps.
상기 특징맵들 각각에 대하여 얼굴 판별 컨벌루션 필터를 적용하여 얼굴영역이 포함될 확률값을 획득하는 얼굴 판별 서브 네트워크;
상기 특징맵들 각각에 대하여 얼굴위치 컨벌루션 필터를 적용하여 바운딩박스로 표시되는 상기 얼굴영역의 좌표값을 획득하는 얼굴위치 서브 네트워크; 및
상기 특징맵들 각각에 대하여 랜드마크 컨벌루션 필터를 적용하여 상기 얼굴영역 내의 얼굴에 대한 랜드마크 좌표값을 획득하는 랜드마크 서브 네트워크를 더 포함하는 것을 특징으로 하는 얼굴인식 시스템.The method of claim 7, wherein the second network,
a face discrimination sub-network for obtaining a probability value to include a face region by applying a face discrimination convolution filter to each of the feature maps;
a face position sub-network for obtaining coordinate values of the face region displayed in a bounding box by applying a face position convolution filter to each of the feature maps; and
The face recognition system according to claim 1, further comprising a landmark sub-network for obtaining landmark coordinate values for a face in the face region by applying a landmark convolution filter to each of the feature maps.
제1 오차함수를 이용하여 상기 위변조 확률값과 제1 실제값 간의 제1 오차를 산출하고, 상기 산출된 제1 오차가 제1 기준값 보다 작아지도록 위변조 판별 컨벌루션 필터를 갱신하는 위변조 판별 오차감소부; 및
제2 오차함수를 이용하여 상기 주파수 성분값과 제2 실제값 간의 제2 오차를 산출하고, 상기 산출된 제2 오차가 제2 기준값 보다 작아지도록 주파수 컨벌루션 필터를 갱신하는 주파수 오차감소부를 포함하는 것을 특징으로 하는 얼굴인식 시스템.According to claim 1, wherein the face recognition learning model,
a forgery detection error reducing unit for calculating a first error between the forgery probability value and a first actual value using a first error function and updating the forgery detection convolution filter so that the calculated first error is smaller than a first reference value; and
Comprising a frequency error reducing unit for calculating a second error between the frequency component value and a second actual value using a second error function and updating the frequency convolution filter so that the calculated second error is smaller than a second reference value Features a face recognition system.
제3 오차함수를 이용하여 상기 얼굴영역이 포함될 확률값과 제3 실제값 간의 제3 오차를 산출하고, 상기 산출된 제3 오차가 제3 기준값 보다 작아지도록 얼굴 판별 컨벌루션 필터를 갱신하는 얼굴 판별 오차 감소부;
제4 오차함수를 이용하여 상기 얼굴영역의 좌표값과 제4 실제값 간의 제4 오차를 산출하고, 상기 산출된 제4 오차가 제4 기준값 보다 작아지도록 얼굴위치 컨벌루션 필터를 갱신하는 얼굴위치 오차 감소부;
제5 오차함수를 이용하여 상기 랜드마크 좌표값과 제5 실제값 간의 제5 오차를 산출하고, 상기 산출된 제5 오차가 제5 기준값 보다 작아지도록 랜드마크 컨벌루션 필터를 갱신하는 랜드마크 오차 감소부; 및
상기 제1 내지 제5 오차들 각각에 가중치를 부여하고, 가중치가 부여된 제1 내지 제5 오차들을 합산하여 최종 오차를 산출하고, 상기 최종 오차가 제6 기준값 보다 작아지도록 상기 얼굴 판별 컨벌루션 필터, 상기 얼굴위치 컨벌루션 필터, 상기 랜드마크 컨벌루션 필터, 상기 위변조 판별 컨벌루션 필터 및 상기 주파수 컨벌루션 필터 중 적어도 하나를 갱신하는 통합 오차 감소부를 더 포함하는 것을 특징으로 하는 얼굴인식 시스템.The method of claim 10, wherein the face recognition learning model,
Reducing face discrimination error by calculating a third error between the probability value to include the face region and a third actual value using a third error function, and updating the face discrimination convolution filter so that the calculated third error is smaller than the third reference value wealth;
Reducing face position error by calculating a fourth error between the coordinate value of the face region and the fourth actual value using a fourth error function, and updating the face position convolution filter so that the calculated fourth error is smaller than the fourth reference value wealth;
A landmark error reduction unit that calculates a fifth error between the landmark coordinate value and a fifth actual value using a fifth error function, and updates the landmark convolution filter so that the calculated fifth error is smaller than the fifth reference value ; and
The first to fifth errors are weighted, and the weighted first to fifth errors are summed to calculate a final error, and the face discrimination convolution filter so that the final error is smaller than a sixth reference value; The face recognition system, characterized in that it further comprises an integrated error reduction unit that updates at least one of the face position convolution filter, the landmark convolution filter, the forgery discrimination convolution filter, and the frequency convolution filter.
상기 제1 오차함수 및 상기 제3 오차함수 각각은 CEE(Cross Entropy Error)함수이고, 상기 제2 오차함수는 MSE(Mean Squared Error)함수인 것을 특징으로 하는 얼굴인식 시스템.12. The method of claim 11,
Each of the first error function and the third error function is a cross entropy error (CEE) function, and the second error function is a mean squared error (MSE) function.
상기 사용자 이미지를 기초로 생성된 복수개의 사용자 입력 이미지들 각각에 대하여 특징맵들을 추출하는 제1 네트워크; 및
상기 특징맵들 각각을 기초로 상기 사용자 입력 이미지에 대한 얼굴 정보 및 위변조 정보를 획득하는 제2 네트워크를 포함하고,
상기 얼굴 정보는 상기 특징맵들 각각에 대하여 상기 얼굴인식 학습 모델에 의하여 학습된 얼굴판별 컨벌루션 필터를 적용하여 획득된 얼굴영역이 포함될 확률값을 포함하고,
상기 위변조 정보는 상기 특징맵들 각각에 대하여 상기 얼굴인식 학습 모델에 의하여 학습된 위변조 컨벌루션 필터를 적용하여 획득된 위변조 확률값을 포함하는 것을 특징으로 하는 얼굴인식 시스템.According to claim 1, wherein the face recognition model,
a first network for extracting feature maps for each of a plurality of user input images generated based on the user image; and
A second network for acquiring face information and forgery information for the user input image based on each of the feature maps,
The face information includes a probability value to include a face region obtained by applying a face discrimination convolution filter learned by the face recognition learning model to each of the feature maps,
The forgery information is a face recognition system, characterized in that it includes a forgery probability value obtained by applying a forgery and modulation convolution filter learned by the face recognition learning model to each of the feature maps.
상기 산출된 얼굴영역이 포함될 확률값이 미리 설정한 제1 문턱값 이상이면, 상기 사용자의 입력 이미지에 얼굴이 포함된 것으로 판단하고, 상기 산출된 위변조 확률값이 미리 설정한 제2 문턱값 미만이면, 실물이미지인 것으로 판단하는 얼굴인식 및 위변조 판별부를 더 포함하는 것을 특징으로 하는 얼굴인식 시스템.14. The method of claim 13,
If the calculated probability value of including the face region is greater than or equal to a preset first threshold, it is determined that the user's input image includes a face, and if the calculated forgery and falsification probability value is less than a preset second threshold, the real thing Face recognition system, characterized in that it further comprises a face recognition and forgery discrimination unit that determines that it is an image.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20200127353 | 2020-09-29 | ||
KR1020200127353 | 2020-09-29 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20220043905A true KR20220043905A (en) | 2022-04-05 |
Family
ID=81181977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210128737A KR20220043905A (en) | 2020-09-29 | 2021-09-29 | Face recognition system for training face recognition model using frequency components |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20220043905A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102598080B1 (en) * | 2023-03-21 | 2023-11-06 | (주)노웨어소프트 | Method and apparatus for filtering harmful content using artificial intelligence-based sentiment analysis |
-
2021
- 2021-09-29 KR KR1020210128737A patent/KR20220043905A/en not_active Application Discontinuation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102598080B1 (en) * | 2023-03-21 | 2023-11-06 | (주)노웨어소프트 | Method and apparatus for filtering harmful content using artificial intelligence-based sentiment analysis |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020207189A1 (en) | Method and device for identity authentication, storage medium, and computer device | |
KR102137329B1 (en) | Face Recognition System for Extracting Feature Vector Using Face Recognition Model Based on Deep Learning | |
US11539525B2 (en) | Systems and methods for secure tokenized credentials | |
KR102294574B1 (en) | Face Recognition System For Real Image Judgment Using Face Recognition Model Based on Deep Learning | |
KR102161359B1 (en) | Apparatus for Extracting Face Image Based on Deep Learning | |
US20190065847A1 (en) | Enhanced user authentication | |
CN106030654A (en) | Face authentication system | |
KR102184490B1 (en) | Edge Device for Face Recognition | |
KR102308122B1 (en) | Server And System for Face Recognition Using The Certification Result | |
KR102404763B1 (en) | Method and system for personal identification using homomorphic encryption | |
US11537750B2 (en) | Image access management device, image access management method, and image access management system | |
KR102184493B1 (en) | System for Face Recognition Based On AI | |
CN107395369A (en) | Towards mobile Internet from the authentication method of carrying device, access method and system | |
KR20220043905A (en) | Face recognition system for training face recognition model using frequency components | |
AU2020344601A1 (en) | Enhanced biometric authentication | |
CN114730371A (en) | Detecting hostile instances in a biometric-based authentication system using registered biometric datasets | |
JP6222692B2 (en) | Confidential biometric server authentication | |
KR102546327B1 (en) | Edge device comparing face images using clustering technique and face authentication system having the same | |
US20230259592A1 (en) | Smart glass and blockchain digital signature implementation | |
KR102312152B1 (en) | Face Recognition Server For Reflecting Space-Time Environment and Face Recognition System Having The Same | |
Hamdan et al. | A self-immune to 3D masks attacks face recognition system | |
AU2021313620A1 (en) | Facial recognition tokenization | |
KR102137328B1 (en) | Face Recognition Service Providing System for Training Face Recognition Model Using Error Reduction Algorithm | |
KR20220043842A (en) | Edge device for recognizing a face wearing a mask and system for recognizing a face wearing a mask | |
SUNITHA | SECURE IMAGE DATA SHARING BASED ON BLOCKCHAIN AND CLOUD SECURITY |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal |