KR102538209B1 - 얼굴 인식을 위한 심층 소프트맥스 협업 표현 분류 장치 및 그 방법 - Google Patents
얼굴 인식을 위한 심층 소프트맥스 협업 표현 분류 장치 및 그 방법 Download PDFInfo
- Publication number
- KR102538209B1 KR102538209B1 KR1020210086793A KR20210086793A KR102538209B1 KR 102538209 B1 KR102538209 B1 KR 102538209B1 KR 1020210086793 A KR1020210086793 A KR 1020210086793A KR 20210086793 A KR20210086793 A KR 20210086793A KR 102538209 B1 KR102538209 B1 KR 102538209B1
- Authority
- KR
- South Korea
- Prior art keywords
- face image
- scrc
- face
- deep
- softmax
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 89
- 230000014509 gene expression Effects 0.000 claims abstract description 54
- 238000013135 deep learning Methods 0.000 claims abstract description 24
- 230000006835 compression Effects 0.000 claims abstract description 9
- 238000007906 compression Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 44
- 238000013136 deep learning model Methods 0.000 claims description 33
- 238000010606 normalization Methods 0.000 claims description 21
- 230000001815 facial effect Effects 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 20
- 230000004913 activation Effects 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 4
- 230000015556 catabolic process Effects 0.000 abstract description 9
- 238000006731 degradation reaction Methods 0.000 abstract description 9
- 238000013527 convolutional neural network Methods 0.000 abstract description 4
- 238000012360 testing method Methods 0.000 description 35
- 239000013598 vector Substances 0.000 description 28
- 238000010586 diagram Methods 0.000 description 27
- 230000003044 adaptive effect Effects 0.000 description 17
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 10
- 238000002474 experimental method Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 8
- 238000013459 approach Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 230000006735 deficit Effects 0.000 description 5
- 235000002566 Capsicum Nutrition 0.000 description 4
- 239000006002 Pepper Substances 0.000 description 4
- 241000722363 Piper Species 0.000 description 4
- 235000016761 Piper aduncum Nutrition 0.000 description 4
- 235000017804 Piper guineense Nutrition 0.000 description 4
- 235000008184 Piper nigrum Nutrition 0.000 description 4
- 230000007423 decrease Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 150000003839 salts Chemical class 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000013526 transfer learning Methods 0.000 description 3
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/40—Analysis of texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
- G06V10/811—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
본 발명은 얼굴 인식을 위한 심층 소프트맥스 협업 표현 분류 장치 및 그 방법에 관한 것으로, DCNN(Deep Convolutional Neural Network)과 같은 딥 러닝 네트워크와 SCRC(softmax collaborative representation based classification) 기반 분류기의 결합을 통해서, 랜덤 노이즈, 모션 블러, 압축 아티팩트, 제어되지 않은 조명, 폐색 등으로 인한 다양한 유형의 저하가 포함된 얼굴 이미지로부터 얼굴을 정확하게 인식하고 분류할 수 있도록 하는 심층 소프트맥스 협업 표현 분류 장치 및 그 방법에 관한 것이다.
Description
본 발명은 얼굴 인식을 위한 심층 소프트맥스 협업 표현 분류 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 DCNN(Deep Convolutional Neural Network)과 같은 딥 러닝 네트워크와 SCRC(softmax collaborative representation based classification) 기반 분류기의 결합을 통해서, 랜덤 노이즈, 모션 블러, 압축 아티팩트, 제어되지 않은 조명, 폐색 등으로 인한 다양한 유형의 저하가 포함된 얼굴 이미지로부터 얼굴을 정확하게 인식하고 분류할 수 있도록 하는 심층 소프트맥스 협업 표현 분류 장치 및 그 방법에 관한 것이다.
일반적으로 DCNN 및 희소 표현 기반 분류기(sparse representation based classifiers)는 얼굴 인식, 초 고해상도, 이미지 노이즈 제거와 같은 까다로운 작업에서 상당한 개선이 이루어지고 있다.
특히, 상기 DCNN은 까다로운 데이터 세트에 대한 실험에서 거의 완벽한 성능을 달성한 얼굴 인식 분야에서 성공적이었다.
그러나, 저해상도 얼굴, 제한된 수의 트레이닝 얼굴, 랜덤 노이즈, 불충분하거나 과도한 조명과 같이 얼굴 이미지가 제어되지 않은 상태에 있는 많은 실제 응용 프로그램에서 대부분의 접근 방식의 인식 정확도가 크게 떨어졌다.
실제로, 랜덤 노이즈가 증가하면 심층 네트워크가 급격히 떨어진다. 이는 DCNN이 실제로 트레이닝 ID를 학습하지는 않지만 각 트레이닝 데이터와 트레이닝 데이터 세트의 임의 노이즈를 기억하기 때문이다.
이런 이유로, 이전에 볼 수 없었던 새로운 테스트 얼굴(예: 새로운 랜덤 노이즈가 있는 동일한 얼굴)을 다룰 때, 대체할 일반적인 개념이 없는 상황이다. 더 많은 노이즈가 있는 트레이닝 이미지를 데이터 세트에 추가하면 과적합 문제가 발생하고, 분류 성능이 향상되지 않는다. 또한 불충분하거나 과도한 조명은 실제 환경에서 학습 모델의 효율성을 상당히 떨어뜨리는 심각한 문제로 간주된다.
더욱이, DCNN의 약점은 과적합 문제이기 때문에 현대 DCNN 아키텍처는 특정 분포에서 각 유형의 얼굴 손상에 대한 특정 모델만 효과적으로 학습할 수 있다. 또한 객체 재구성을 위한 최첨단 딥 러닝 방법은 여전히 유연성이나 효율성이 제한적이다.
제한된 수의 트레이닝 얼굴도 DCNN을 사용하는 얼굴 인식의 주요 과제 중 하나이다. 그러므로, 희소 표현 기반 분류는 최근 기계 학습 연구자들의 관심을 끌었으며, 제한된 수의 사용 가능한 트레이닝 얼굴을 사용하여 얼굴 이미지를 선형 조합으로 표현하는데 적용할 수 있다. 또한 이미지 노이즈 제거, 유전자 발현 분류, 객체 분류 등 다양한 응용 분야에 적용할 수 있다. 예를 들어, 종래에는 l1-평균 희소 정규화가 아닌 비 희소 l2 정규화를 이용하여 협업 표현 기반 분류(CRC)를 수행하는 기술, 트레이닝 데이터를 고차원 특성 공간으로 변환하기 위해 커널 기술(KCRC)을 탐색한 다음 CRC를 사용하는 기술, 많은 수의 트레이닝 얼굴을 수집하는 것은 현실적인 응용 프로그램에서 쉬운 작업이 아니기 때문에 작은 샘플 크기로 인한 까다로운 문제를 해결하기 위한 다중 스케일 패치 기반 CRC 방법(MSPCRC)에 대한 기술, 제어되지 않는 조명과 작은 노이즈에 대한 내성이 높은 국부 삼원 패턴(Local Ternary Pattern)의 고차원적 특징을 개발한 기술, 고유 분류 메커니즘을 탐색할 수 있는 확률적 협업 표현 기반 분류기(ProCRC)를 제시하고 테스트 얼굴이 각 교육 클래스에 속할 가능성을 최대화한 기술, 트레이닝된 사전(dictionary)에 희소하고 중복된 표현을 사용하여 저하된 이미지를 재구성하는 기술, 학습 생성 분류 방법을 사용하여 각 주제의 여러 이미지 간의 관계를 기반으로 갤러리 세트의 클래스 내 분산을 추정하는 기술 등이 있었으며, 이러한 각 최첨단 방법은 현실적인 응용 프로그램에서 얼굴 인식의 까다로운 문제를 해결할 수 있다.
본 발명은, 상기 언급한 기술들과 달리, 품질이 저하된 얼굴 이미지를 재구성하는 복수의 이미지 재구성 모듈, 상기 재구성한 얼굴 이미지에서 가장 구별되는 특징을 추출하는 딥 러닝 모델, 상기 추출한 특징을 통해 얼굴을 정확하게 분류하기 위한 SCRC 기반 분류기의 조합을 토대로, 약하고 제어되지 않은 조명이나 심한 노이즈를 포함한 환경에서 촬영된 얼굴 이미지로부터 얼굴을 정확하게 인식하고 분류할 수 있는 방안을 제시하고자 한다.
특히, 본 발명은 SCRC 및 특징 추출 모델의 조합을 기반으로 심층 소프트맥스 협업 표현 분류기의 적응형 앙상블(AdaDeep-SCRC)을 구축하고, 소프트맥스 함수를 사용하여 단일 딥 러닝 기반 분류기의 출력값을 공통 확률 공간의 출력 확룔로 변화하고, 결과적으로 모든 딥 러닝 기반 분류기의 출력을 공정하여 비교하여 최상의 값을 선택할 수 있도록 함으로써, 노이즈를 포함한 각종 손상 조건에서 얼굴 인식의 정확도를 향상시킬 수 있다.
이때 SCRC는 CRC 및 SRC보다 인식 작업에 대해 더 나은 희소 솔루션을 생성할 수 있는데, 이는 재구성된 이미지에서 동일한 클래스의 트레이닝 이미지까지의 거리를 최소화하는 상보성 제약을 사용하여 재구성된 이미지가 해당 클래스의 트레이닝 얼굴의 얼굴 특징으로 주로 표현될 수 있기 때문이다.
다음으로 본 발명의 기술분야에 존재하는 선행발명에 대하여 간단하게 설명하고, 이어서 본 발명이 상기 선행발명에 비해서 차별적으로 이루고자 하는 기술적 사항에 대해서 기술하고자 한다.
먼저 한국등록특허 제0608595호(2006.08.03.)는 얼굴 인식 방법 및 장치에 관한 것으로, 입력 영상에서 추출된 얼굴 영역에서 소정 개수의 특징점을 추출하는 얼굴 로컬라이저와, 추출된 얼굴의 특징점들 각각에 대해 복수의 방향성과 복수의 주파수를 갖는 가버 필터들의 집합을 적용시켜 반응값을 구하고 구해진 반응값들로 이루어진 1차원 벡터를 생성하는 가버 필터부와, 생성된 1차원 벡터가 학습 영상에 관한 값인 경우에 1차원 벡터들을 저장하는 학습 데이터 저장부와, 저장된 1차원 벡터들을 이용하여 이진 판별 기준을 생성하고 생성된 1차원 벡터가 인식 대상 영상에 대한 값인 경우에는 생성된 1차원 벡터를 이진 판별기준에 적용하여 동일인 여부를 판별하는 이진 분류기로 이루어진 얼굴 인식에 관한 선행발명이다.
즉, 상기 선행발명은 얼굴 이미지로부터 추출한 각 특징점에 대한 복수의 방향성과 주파수에 대한 1차원 벡터를 학습하여 실제 얼굴 영상과 데이터베이스에 저장된 얼굴 영상에 대한 동일성 여부를 판단하는 얼굴 인식 방법 및 장치에 대해 기재하고 있다.
하지만, 상기 선행발명은 다양한 노이즈로 인해 품질이 저하된 얼굴 이미지로부터 얼굴을 분류하는 것에는 그 한계가 있으며, 구성에 있어서도 품질이 저하된 얼굴 이미지를 재구성하는 복수의 이미지 재구성 모듈, 상기 재구성한 얼굴 이미지에서 가장 구별되는 특징을 추출하는 딥 러닝 모델, 상기 추출한 특징을 통해 얼굴을 정확하게 분류하기 위한 SCRC 기반 분류기를 통합한 적응형 심층 SCRC 분류기에 대한 본 발명의 기술적 특징을 전혀 기재하고 있지 않으므로, 상기 선행발명과 본 발명은 현저한 구성상 차이점이 있다.
또한 한국등록특허 제0944247호(2010.02.24.)는 얼굴 인식 방법 및 시스템에 관한 것으로, 특정 감시 목록의 특성에 따라 인식 방법을 적응적으로 조절하는 방식으로서, 악조건에서 인식 효과를 향상시키는 얼굴 인식 방법 및 시스템에 관한 선행발명이다.
즉, 상기 선행발명은 클래스별 얼굴 이미지와 입력 얼굴 이미지간의 유사성을 측정하는 것으로 품질이 좋은 이미지에 대해서는 분류 결과가 좋을 수는 있으나 실제 입력 얼굴 이미지가 노이즈로 인해 품질이 조악하거나 저하된 경우에는 정확하게 분류할 수 없는 문제점이 있으며, 구성에 있어서도 품질이 저하된 얼굴 이미지를 재구성하는 복수의 이미지 재구성 모듈, 상기 재구성한 얼굴 이미지에서 가장 구별되는 특징을 추출하는 딥 러닝 모델, 상기 추출한 특징을 통해 얼굴을 정확하게 분류하기 위한 SCRC 기반 분류기를 통합한 적응형 심층 SCRC 분류기에 대한 본 발명의 기술적 특징을 전혀 기재하고 있지 않으므로, 상기 선행발명과 본 발명은 기술적 구성의 차이점이 분명하다.
본 발명은 상기와 같은 문제점을 해결하기 위해 창작된 것으로서, 딥 러닝 모델과 SCRC 기반 분류기를 결합하여, 얼굴 인식 정확도를 크게 향상시킬 수 있도록 하는 심층 소프트맥스 협업 표현 분류 장치 및 그 방법을 제공하는 것을 목적으로 한다.
또한 본 발명은 품질이 저하된 얼굴 이미지를 재구성하는 복수의 이미지 재구성 모듈, 상기 재구성한 얼굴 이미지에서 가장 구별되는 특징을 추출하는 딥 러닝 모델, 상기 추출한 특징을 통해 얼굴을 정확하게 분류하기 위한 SCRC 기반 분류기를 통합한 심층 소프트맥스 협업 표현 분류기의 적응형 앙상블(AdaDeep-SCRC)의 구축을 통해서, 약하고 제어되지 않은 조명이나 심한 노이즈가 존재하는 환경에서 촬영된 얼굴 이미지로부터 얼굴을 정확하게 인식할 수 있도록 하는 심층 소프트맥스 협업 표현 분류 장치 및 그 방법을 제공하는 것을 다른 목적으로 한다.
또한 본 발명은 소프트맥스 함수를 사용하여 단일 SCRC 기반 분류기의 출력값을 공통 확률 공간의 출력 확률로 변환하고, 상기 공통 확률 공간에서 각 SCRC 기반 분류기의 출력을 평가하여 최상의 값을 선택함으로써, 다양한 종류의 저하가 포함된 얼굴 이미지로부터 얼굴 인식 성능을 높일 수 있도록 하는 심층 소프트맥스 협업 표현 분류 장치 및 그 방법을 제공하는 것을 또 다른 목적으로 한다.
본 발명의 일 실시예에 따른 얼굴 인식을 위한 심층 소프트맥스 협업 표현 분류 장치는, 서로 다른 유형의 품질이 저하된 얼굴 이미지를 각각 학습하여 얼굴 이미지를 재구성하는 적어도 하나 이상의 얼굴 이미지 재구성 모듈; 상기 재구성한 얼굴 이미지에 대한 특징을 추출하는 적어도 하나 이상의 딥 러닝 모델; 및 상기 추출한 특징을 통해 상기 재구성한 얼굴 이미지에 포함된 얼굴을 인식하여 분류하는 SCRC 기반 분류기;를 포함하는 것을 특징으로 한다.
또한 상기 SCRC 기반 분류기는, 소프트맥스 함수를 사용하여 단일 SCRC 기반 분류기의 출력값을 공통 확률 공간의 출력 확률로 변환하며, 상기 공통 확률 공간에서 각 SCRC 기반 분류기의 출력을 평가하여 최상의 값을 선택함으로써, 서로 다른 유형의 품질이 저하된 얼굴 이미지로부터 얼굴 인식의 정확도를 높이는 것을 더 포함하는 것을 특징으로 한다.
또한 상기 얼굴 이미지 재구성 모듈에서 재구성하는 얼굴 이미지는, 랜덤 노이즈, 모션 블러, 압축 아티팩트, 제어되지 않은 조명 및 폐색으로 인해 품질이 저하된 얼굴 이미지이며, 상기 얼굴 이미지 재구성 모듈은, 희소 3D 변환 도메인 협업 필터를 사용하여 상기 얼굴 이미지를 재구성하며, 상기 딥 러닝 모델은, LTP(Local ternary patterns)를 사용하여 상기 재구성한 얼굴 이미지로부터 모양과 질감에 대한 특징을 추출하는 것을 특징으로 한다.
또한 상기 얼굴 이미지 재구성 모듈은, 적어도 2개의 컨볼루션 레이어; 및 적어도 5개의 잔여 블록;을 포함하여 구성되며, 의 재구성 손실(여기서, N은 트레이닝 패치의 수, xi는 i번째 클린 패치이며, 는 i번째 재구성된 패치)을 사용하여, 서로 다른 유형의 이미지 손상으로부터 상기 얼굴 이미지를 재구성할 수 있는 것을 특징으로 한다.
이때 상기 잔여 블록은, 입력되는 데이터 세트에 대해서 컨볼루션을 수행하는 컨볼루션 블록, 상기 수행한 컨볼루션 결과에 대해서 정규화를 수행하는 배치 정규화 블록 및 상기 수행한 정규화 결과에 대해서 렐루(Relu) 함수를 적용하는 액티베이션 블록을 포함하는 4개의 서브 블록; 및 입력되는 데이터 세트에 대해서 컨볼루션을 수행하는 컨볼루션 블록 및 상기 수행한 컨볼루션 결과에 대해서 렐루(Relu) 함수를 적용하는 액티베이션 블록을 포함하는 1개의 서브 블록;을 포함하는 것을 특징으로 한다.
아울러, 본 발명의 일 실시예에 따른 얼굴 인식을 위한 심층 소프트맥스 협업 표현 분류 방법은, 심층 소프트맥스 협업 표현 분류 장치에서, 서로 다른 유형의 품질이 저하된 얼굴 이미지를 각각 학습하여 얼굴 이미지를 재구성하는 얼굴 이미지 재구성 단계; 상기 재구성한 얼굴 이미지에 대한 특징을 추출하는 딥 러닝 수행 단계; 및 상기 추출한 특징을 통해 상기 재구성한 얼굴 이미지에 포함된 얼굴을 인식하여 분류하는 SCRC 기반 분류 단계;를 포함하는 것을 특징으로 한다.
또한 상기 SCRC 기반 분류 단계는, 상기 심층 소프트맥스 협업 표현 분류 장치에서, 소프트맥스 함수를 사용하여 단일 SCRC 기반 분류기의 출력값을 공통 확률 공간의 출력 확률로 변환하며, 상기 공통 확률 공간에서 각 SCRC 기반 분류기의 출력을 평가하여 최상의 값을 선택함으로써, 서로 다른 유형의 품질이 저하된 얼굴 이미지로부터 얼굴 인식의 정확도를 높이는 것을 더 포함하는 것을 특징으로 한다.
또한 상기 얼굴 이미지 재구성 단계에서 재구성하는 얼굴 이미지는, 랜덤 노이즈, 모션 블러, 압축 아티팩트, 제어되지 않은 조명 및 폐색으로 인해 품질이 저하된 얼굴 이미지이며, 상기 얼굴 이미지 재구성 단계는, 희소 3D 변환 도메인 협업 필터를 사용하여 상기 얼굴 이미지를 재구성하는 단계이며, 상기 딥 러닝 수행 단계는, LTP(Local ternary patterns)를 사용하여 상기 재구성한 얼굴 이미지로부터 모양과 질감에 대한 특징을 추출하는 단계인 것을 특징으로 한다.
이상에서와 같이 본 발명의 얼굴 인식을 위한 심층 소프트맥스 협업 표현 분류 장치 및 그 방법에 따르면, 딥 러닝 네트워크와 SCRC 기반 분류기를 통합한 심층 소프트맥스 협업 표현 분류기의 적응형 앙상블을 통해서, 랜덤 노이즈, 모션 블러, 압축 아티팩트, 제어되지 않은 조명, 폐색 등으로 인한 다양한 유형의 저하가 포함된 얼굴 이미지로부터 얼굴을 정확하게 인식할 수 있는 효과가 있다.
또한 본 발명은 로봇, 장거리 감시 카메라, 공항 등과 같이 사람의 얼굴을 캡처하는 경우가 많은 산업분야나 장소에 적용할 경우, 캡처된 얼굴의 해상도가 훨씬 낮거나, 열악한 조명 조건으로 인한 노이즈로 인해 성능이 저하되거나, 마스크 및 알 수 없는 물체로 인해 가려지더라도 얼굴 인식 성능을 개선할 수 있는 효과가 있다.
도 1은 사전 X에 대한 y의 코딩을 기하학적으로 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 얼굴 인식을 위한 심층 소프트맥스 협업 표현 분류 장치의 전체 구성을 개략적으로 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따른 얼굴 이미지 재구성 모듈의 구조를 개략적으로 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 얼굴 인식을 위한 심층 소프트맥스 협업 표현 분류 방법의 동작과정을 상세하게 나타낸 순서도이다.
도 5는 AR 데이터 세트에 대한 심층 소프트맥스 협업 표현 분류기의 적응형 앙상블(AdaDeep-SCRC) 및 주요 구성 요소 분류기의 성능을 나타낸 도면이다.
도 6은 AR 데이터 세트에서 랜덤 노이즈가 있는 이미지 테스트의 예를 나타낸 도면이다.
도 7은 AR 데이터베이스에서 본 발명에서 제안된 방법과 기타 최첨단 방법을 비교한 도면이다.
도 8은 확장된 Yale B 데이터 세트에 대한 심층 소프트맥스 협업 표현 분류기의 적응형 앙상블(AdaDeep-SCRC) 및 주요 구성 요소 분류기의 성능을 나타낸 도면이다.
도 9는 확장된 Yale B 데이터 세트에서 랜덤 노이즈가 있는 이미지 테스트의 예를 나타낸 도면이다.
도 10은 확장된 Yale B 데이터베이스에서 본 발명에서 제안된 방법과 기타 최첨단 방법을 비교한 도면이다.
도 11은 LFW-a 데이터 세트에 대한 심층 소프트맥스 협업 표현 분류기의 적응형 앙상블(AdaDeep-SCRC) 및 주요 구성 요소 분류기의 성능을 나타낸 도면이다.
도 12는 LFW-a 데이터 세트에서 랜덤 노이즈가 있는 이미지 테스트의 예를 나타낸 도면이다.
도 13은 LFW-a 데이터베이스에서 본 발명에서 제안된 방법과 기타 최첨단 방법을 비교한 도면이다.
도 14는 본 발명에 적용되는 이미지 저하의 다양한 예를 나타낸 도면이다.
도 15는 IJB-C 데이터베이스에서 본 발명에서 제안된 방법과 기타 최첨단 방법을 비교한 도면이다.
도 2는 본 발명의 일 실시예에 따른 얼굴 인식을 위한 심층 소프트맥스 협업 표현 분류 장치의 전체 구성을 개략적으로 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따른 얼굴 이미지 재구성 모듈의 구조를 개략적으로 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 얼굴 인식을 위한 심층 소프트맥스 협업 표현 분류 방법의 동작과정을 상세하게 나타낸 순서도이다.
도 5는 AR 데이터 세트에 대한 심층 소프트맥스 협업 표현 분류기의 적응형 앙상블(AdaDeep-SCRC) 및 주요 구성 요소 분류기의 성능을 나타낸 도면이다.
도 6은 AR 데이터 세트에서 랜덤 노이즈가 있는 이미지 테스트의 예를 나타낸 도면이다.
도 7은 AR 데이터베이스에서 본 발명에서 제안된 방법과 기타 최첨단 방법을 비교한 도면이다.
도 8은 확장된 Yale B 데이터 세트에 대한 심층 소프트맥스 협업 표현 분류기의 적응형 앙상블(AdaDeep-SCRC) 및 주요 구성 요소 분류기의 성능을 나타낸 도면이다.
도 9는 확장된 Yale B 데이터 세트에서 랜덤 노이즈가 있는 이미지 테스트의 예를 나타낸 도면이다.
도 10은 확장된 Yale B 데이터베이스에서 본 발명에서 제안된 방법과 기타 최첨단 방법을 비교한 도면이다.
도 11은 LFW-a 데이터 세트에 대한 심층 소프트맥스 협업 표현 분류기의 적응형 앙상블(AdaDeep-SCRC) 및 주요 구성 요소 분류기의 성능을 나타낸 도면이다.
도 12는 LFW-a 데이터 세트에서 랜덤 노이즈가 있는 이미지 테스트의 예를 나타낸 도면이다.
도 13은 LFW-a 데이터베이스에서 본 발명에서 제안된 방법과 기타 최첨단 방법을 비교한 도면이다.
도 14는 본 발명에 적용되는 이미지 저하의 다양한 예를 나타낸 도면이다.
도 15는 IJB-C 데이터베이스에서 본 발명에서 제안된 방법과 기타 최첨단 방법을 비교한 도면이다.
이하, 첨부한 도면을 참조하여 본 발명의 얼굴 인식을 위한 심층 소프트맥스 협업 표현 분류 장치 및 그 방법에 대한 바람직한 실시 예를 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다. 또한 본 발명의 실시 예들에 대해서 특정한 구조적 내지 기능적 설명들은 단지 본 발명에 따른 실시 예를 설명하기 위한 목적으로 예시된 것으로, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는 것이 바람직하다.
우선, 본 발명에 적용되는 소프트맥스 협업 표현 분류(SCRC)에 대하여 설명하면 다음과 같다.
SCRC는 개선된 CRC이며, 노이즈 또는 폐색에 의해 부분적으로 손상된 얼굴 이미지를 재구성하기 위해 몇 가지 추가 제약이 주어진다. 또한 SCRC는 소프트 맥스 함수를 사용하여 협업 공간의 출력값을 공통 확률 공간의 출력 분류 확률로 변환하며, 공통 확률 공간에서 각 SCRC에 대한 분류 성능을 평가함으로써, SCRC의 적응 형 앙상블을 구축할 수 있다. 각 SCRC는 특정 수준의 노이즈 또는 손상을 처리하는데 있어 다른 모든 분류기보다 낫다. 또한 출력 분류 확률이 있는 각 SCRC는 얼굴 인식에서 더 정확할 수 있다.
예를 들어, K 클래스 집합을 X = [X1, X2, X3, ..., Xk] ∈ RDㅧN으로 나타낸다. 여기서, Xi는 i번째 클래스의 부분 집합이고, 데이터 행렬 Xi의 열(column) 개수는 i번째 클래스의 트레이닝 벡터의 개수와 동일하다.
트레이닝 과정에서, 데이터 행렬 X에 있는 이미지 라벨 세트 lX도 필요하다. 여기에서의 임무는 CRC보다 더 나은 임의의 얼굴 특징 벡터 y ∈ RD에 대한 새로운 표현을 찾는 것이므로 다음의 수학식 1과 같이 전체 데이터 세트의 모든 트레이닝 벡터로 효과적으로 표현할 수 있다.
[수학식 1]
y = Xα
여기서, α는 표현 벡터이다. 불충분한 트레이닝 샘플 문제를 해결하기 위해 얼굴 이미지 y는 다음의 수학식 2와 같이 단순화된 l2-표준 최소화 알고리즘을 사용하여 모든 트레이닝 이미지 X의 사전(dictionary) 위에 인코딩될 수 있다.
[수학식 2]
도 1은 사전 X에 대한 y의 코딩을 기하학적으로 나타낸 도면이다.
[수학식 3]
이상적으로, 요소는 상수이고, 요소만 테스트 얼굴 이미지 y의 분류의 주요 역할을 한다. 그러나, 대부분의 경우 y는 가산성 잡음 u, 예를 들어, 특정 표준편차 σu를 갖는 제로 평균 백색 가우시안 잡음에 의해 오염된다. 이 상황에서, 수학식 1의 테스트 얼굴 y는 다음의 수학식 4와 같이 표현되는 벡터 z로 대체된다.
[수학식 4]
z = y + u
따라서 수학식 2는 다음의 수학식 5와 같이 다시 쓸 수 있다.
[수학식 5]
본 발명에서는 저하된 얼굴 이미지 z를 인코딩하기 위해 수학식 5에서 제시한 l2-평균 최소화 알고리즘을 사용한다. 도 1에서 y를 z로 바꾸면 수학식 5는 피타고라스 방정식이다. 동일한 오류 ei로 보완 제약 조건을 사용하지 않고 벡터 는 z의 잘못된 표현이다. 투영 벡터 는 클래스 Xi의 중심에서 멀리 떨어지고, 요소는 수학식 5에서 증가한다. 피타고라스 정리에 따르면, 요소는 감소하고 투영 벡터 는 y 대신 z쪽으로 수렴한다. 이것은 투영 벡터 가 z에 가까워질 때 여전히 노이즈를 포함한다는 것을 의미한다. 대조적으로, 보완적 제약 조건을 사용하면 벡터 는 z의 더 나은 표현이다. 이는 로 표현되는 재구성 성능과 z의 인식률이 동시에 향상됨을 의미한다. 위의 모든 이유 때문에 이미지 복원의 잘못된 특성을 접하기 위해 이미지 사전 지식을 사용하여 수학식 1로 표현되는 l2-평균 최소화 알고리즘에 대한 솔루션을 정규화할 수 있다. 따라서 수학식 2는 다음의 수학식 6과 같이 다시 작성할 수 있다.
[수학식 6]
여기서, 는 얼굴 이미지 노이즈 제거에 중요한 역할을 하는 이미지 사전을 나타내는 정규화 용어라고 하며, 는 데이터 충실도 용어이다. 위에서 언급했듯이, 수학식 5에서 요소를 최소화하면 안면 재건의 더 나은 결과를 얻을 수 있다. 따라서 이러한 요소를 기반으로 정규화 항을 추정할 수 있다. 정규화 항은 다음의 수학식 7과 같이 계산된다.
[수학식 7]
여기서, i = 1, ..., K를 갖는 wi는 정규화 가중치이다. Xα는 z의 코딩 벡터를 나타내고, Xiα는 각 클래스 Xi에서 트레이닝 얼굴의 코딩 벡터를 나타낸다. 얼굴 세부 사항을 보존하고 손상된 영역을 복구하는 효과를 개선하는데 사용할 수 있는 정규화 가중치를 업데이트하는 새로운 전략을 채택한다. 수학식 6은 다음의 수학식 8과 같이 다시 작성할 수 있다.
[수학식 8]
특히, SCRC는 정규화 가중치 wi가 첫 번째 단계에서 0으로 설정되고 다음 단계에서 업데이트되는 두 단계의 인식으로 구성된다. 정규화 가중치 wi가 첫 번째 단계에서 0으로 설정되었으므로 첫 번째 단계 분류기는 원래 CRC이다. 테스트 얼굴 이미지 z는 다음의 수학식 9와 같이 정규화된 최소 제곱법을 사용하여 사전 X에 코딩된다.
[수학식 9]
λ는 정규화 파라미터이다. 수학식 9는 다음과 같이 분석적으로 파생된다.
[수학식 10]
특히, i 클래스의 정규화 잔차를 다음의 수학식 11과 같이 계산한다.
[수학식 11]
여기서, 는 i 클래스의 계수 벡터(coefficient vector)이다. 정규화 잔차 ri는 클래스 Xi의 표준편차에 비례하므로, 수학식 8은 다음의 수학식 12와 같이 수정될 수 있다.
[수학식 12]
여기서, r0은 최소 정규화 잔차이며, 수학식 12에서 파라미터 균형을 맞추는 것으로 추정된다. 실제로, 두 번째 단계에서는 수학식 12를 사용하여 학습 세트 X에 테스트 벡터 z를 인코딩하기 위해 개선된 협업 표현 기반 분류기를 적용한다. CRC에서와 마찬가지로 수학식 12에 대한 솔루션은 다음의 수학식 13과 같이 분석적으로 파생된다.
[수학식 13]
또한, 클래스의 정규화 잔차를 다음의 수학식 14와 같이 계산한다.
[수학식 14]
여기서, 는 i 클래스의 계수 벡터입니다. 본 발명에서는 SCRC의 적응형 앙상블을 사용하여 더 나은 얼굴 인식 알고리즘을 효과적으로 구성하는데 중점을 둔다. 이는 제어되지 않은 조명, 폐색의 효과를 크게 줄일 수 있을 뿐만 아니라 임의의 노이즈에 민감하지 않다. 따라서 심층 구성 신경망의 출력 벡터와 유사하게 K 클래스의 정규화 잔차를 점수 벡터로 사용할 수 있다. 소프트맥스 함수를 사용하여 값을 분류 확률로 변환하면, 단일 SCRC 분류기를 각 K 클래스의 개별 확률을 출력할 수 있는 소프트맥스 회귀 분류기로 변환할 수 있다. 결과적으로, 각 SCRC 모델의 신뢰도는 출력 개별 확률을 기반으로 보다 정확하게 평가될 수 있다. 이 평가는 프로젝션 벡터 z의 가장 짧은 유클리드 거리를 찾는 것을 목표로 하는 원래 CRC의 출력 평가보다 더 신뢰할 수 있으며, 분류 결과에 부정적인 영향을 미칠 수 있는 다른 클래스는 고려하지 않는다. 이상적으로, CRC는 테스트 얼굴이 과도하게 완료된 트레이닝 부분 공간으로 표시되고 해당 부분 공간에 완전히 빠지면 얼굴 식별의 높은 정확도를 얻는다, 그러나, 많은 경우 테스트 얼굴이 저하되고, 트레이닝 부분 공간이 불완전하다. 따라서, 벡터 z는 협업 부분 공간에서 쉽게 벗어날 수 있으며, 투영 벡터 는 그것이 속한 클래스의 불완전 부분 공간 경계 근처에 위치한다. 결과적으로 이러한 경우 CRC의 정확도가 감소한다. CRC의 성능은 클래스가 겹치면 더 나빠진다. AdaDeep-SCRC가 i = 1,.., M인 Fi로 표시되는 M 단일 SCRC의 앙상블이라고 가정한다. 또한 각 Fi는 K 선형 분류기로 구성된다. k번째 선형 분류기는 투영 벡터 z가 k클래스에 속할 확률을 출력한다. 소프트맥스 함수를 사용하면 다음의 수학식 15와 같이 확률을 계산할 수 있다.
[수학식 15]
소프트맥스 회귀 분류기의 출력은 공통 확률적 공간에서 계산될 수 있으므로, 본 발명은 랜덤 노이즈에 민감하지 않고 제어되지 않은 조명의 영향을 크게 줄일 수 있는 SCRC의 적응형 앙상블을 구축하는 것을 목표로 한다.(도 2 참조)
다음에는, 본 발명의 일 실시예에 따른 심층 소프트맥스 협업 표현 분류에 대하여 보다 상세하게 설명한다.
도 2는 본 발명의 일 실시예에 따른 얼굴 인식을 위한 심층 소프트맥스 협업 표현 분류 장치의 전체 구성을 개략적으로 나타낸 도면이다.
도 2에 도시된 바와 같이, 본 발명은 얼굴 이미지 재구성 모듈(100), 딥 러닝 모델(200), SCRC 기반 분류기(300) 등을 포함하여 구성된다.
상기 얼굴 이미지 재구성 모듈(100)은 적어도 하나 이상 구성되며, 서로 다른 유형의 품질이 저하된 얼굴 이미지를 각각 학습하여 얼굴 이미지를 재구성한다.
이때 상기 얼굴 이미지 재구성 모듈(100)에서 재구성하는 얼굴 이미지는 랜덤 노이즈, 모션 블러, 압축 아티팩트, 제어되지 않은 조명 및 폐색으로 인해 품질이 저하된 얼굴 이미지이다.
상기 딥 러닝 모델(200)은 상기 각 얼굴 이미지 재구성 모듈(100)에서 재구성한 얼굴 이미지에 대한 특징을 추출하고, 상기 추출한 특징을 상기 SCRC 기반 분류기(300)로 출력한다.
상기 SCRC 기반 분류기(300)는 상기 딥 러닝 모델(200)에서 추출한 특징을 통해 상기 재구성한 얼굴 이미지에 포함된 얼굴을 인식하여 분류한다.
즉 상기 SCRC 기반 분류기(300)는 소프트맥스 함수를 사용하여 단일 SCRC 기반 분류기의 출력값을 공통 확률 공간의 출력 확률로 변환하며, 상기 공통 확률 공간에서 각 SCRC 기반 분류기의 출력을 평가하여 최상의 값을 선택함으로써, 서로 다른 유형의 품질이 저하된 얼굴 이미지로부터 얼굴 인식의 정확도를 높일 수 있도록 하는 것이다.
이처럼, 본 발명의 일 실시예에 따른 심층 소프트맥스 협업 표현 분류 장치는 얼굴 인식 정확도를 더욱 향상시키기 위해서 SCRC와 딥 러닝 모델을 결합한 것이다. 하지만, 딥 러닝 모델을 SCRC와 직접 통합하는 것은 다음과 같은 이유로 여전히 문제가 있다.
첫 번째, 많은 양의 학습 데이터를 사용할 수 없는 경우 딥 러닝을 적용하는 것이 문제이다. 제한된 수의 사용 가능한 트레이닝 얼굴로 인해 발생하는 문제를 해결하여 딥 러닝 모델을 활용하기 위해, 본 발명에서는 전이 학습 방법(transfer learning method)을 사용하여 출력 계층을 제외한 소스 도메인 데이터에서 트레이닝된 매개 변수를 재사용한다. 상기 전이 학습 방법을 사용하면, 시간이 많이 걸리는 딥 러닝 모델을 다시 트레이닝할 필요가 없으며, 새로운 트레이닝 얼굴과 새로운 ID를 빠르게 업데이트할 수 있다. 이 방법은 인간 로봇 상호 작용 및 보안 시스템과 같은 많은 생체 인식 시스템에 유용하다.
두 번째, DCNN 모델을 사용하는 최첨단 얼굴 인식 알고리즘의 정확도는 테스트 이미지에서 랜덤 노이즈가 증가할 때 급격히 떨어진다. 실제로 얼굴 인식을 위한 딥 러닝 모델은 가우시안 노이즈, 임펄스 노이즈 및 솔트 앤 페퍼(salt and pepper) 노이즈에 민감하다. 이는 최첨단 딥 러닝 모델이 과적합 문제를 피할 수 없기 때문이다. 이는 이러한 모델이 얼굴 특징을 학습하고 트레이닝 데이터 세트에서 랜덤 노이즈를 학습함을 의미한다. 결과적으로, 랜덤 노이즈를 학습하면 새로운 테스트 얼굴을 인식하는데 적용될 때 이러한 모델의 성능에 부정적인 영향을 미친다. 따라서, 얼굴 이미지 재구성은 딥 러닝을 사용하여 얼굴 인식 방법을 개선하는데 중요하다. 이러한 이유로, 전이 학습 프로세스의 효율성을 높이기 위해 이미지 재구성 모듈을 딥 러닝 모델에 통합한다. 결과적으로, 딥 러닝 모델에서 전송된 데이터는 SCRC에 의해 정확하게 분류될 수 있다.
상기 언급한 이유로 인하여, 본 발명에서는 얼굴 이미지 재구성 모듈(100), 딥 러닝 모델(200), SCRC 기반 분류기(300)의 세 가지 구성 요소를 포함하는 심층 소프트맥스 협업 표현 기반 분류기를 구성한다. 여기서 상기 얼굴 이미지 재구성 모듈(100)은 희소 3D 변환 도메인 협업 필터(BM3D) 또는 딥 러닝 기반 재구성 모델을 기반으로 한다. 또한, 가장 차별적인 특징을 추출하기 위해서, VGG(Very Deep Convolutional Network)를 채택한다. 이 네트워크는 ILSVRC 분류 및 현지화 작업에 대한 최첨단 접근 방식이다. 본 발명에서 각 트레이닝 얼굴 이미지는 네트워크의 입력에 맞게 크기가 조정되며 128x128x1 크기로 고정된다. 또한 실험에서 LTP 기반 디스크립터 모델을 사용하여 본 발명의 딥 러닝 모델과 비교한다.
한편, 딥 러닝 기반 재구성 모듈인 상기 얼굴 이미지 재구성 모듈(100)에 대해서 보다 구체적으로 설명하면 다음과 같다.
본 발명에서는 블러링, 추가 랜덤 노이즈, 콘트라스트 또는 제어되지 않는 조명과 같은 다양한 방식으로 원본 이미지를 손상시킬 수 있는 다양한 유형의 이미지 손상을 처리하기 위해 딥 레지듀얼 컨볼루션 신경망(Res-Net)을 개발하였다.
DCNN은 다양한 이미지 손상에 매우 민감하므로 다른 손상으로부터 분류 모듈을 보호하는 재구성 모듈을 채택한다. 본 발명에서 제안한 모듈은 서로 경쟁하고 SCRC 분류기에 의해 판단되는 여러 생성기를 사용한다. 경쟁 및 사전 정보를 바탕으로 다양한 손상으로부터 얼굴 이미지를 효과적으로 방어할 수 있다. 이 모델의 효과를 입증하기 위해 M 생성기를 사용하였다. i 번째 생성기는 Fi로 표시한다. 모든 Fi는 도 3에서 볼 수 있듯이 공통 DCNN 아키텍처를 기반으로 구축된다. 이 네트워크는 수정된 딥 레지듀얼 네트워크(ResBlock)이다.
도 3은 본 발명의 일 실시예에 따른 얼굴 이미지 재구성 모듈의 구조를 개략적으로 나타낸 도면이다.
도 3에 도시된 바와 같이, 상기 얼굴 이미지 재구성 모듈(100)은 적어도 2개의 컨볼루션 레이어(110) 및 적어도 5개의 잔여 블록(120)을 포함하여 구성된다.
상기 잔여 블록(120)은 입력되는 데이터 세트에 대해서 컨볼루션을 수행하는 컨볼루션 블록, 상기 수행한 컨볼루션 결과에 대해서 정규화를 수행하는 배치 정규화 블록 및 상기 수행한 정규화 결과에 대해서 렐루(Relu) 함수를 적용하는 액티베이션 블록을 포함하는 4개의 제1 서브 블록(121), 및 입력되는 데이터 세트에 대해서 컨볼루션을 수행하는 컨볼루션 블록 및 상기 수행한 컨볼루션 결과에 대해서 렐루(Relu) 함수를 적용하는 액티베이션 블록을 포함하는 1개의 제2 서브 블록(122)을 포함하여 구성된다.
즉 각 잔여 블록(ResBlock)에는 랜덤 손상을 효과적으로 처리하기 위해 컨볼루션 레이어(Conv)와 배치 정규화 레이어(BN)가 포함되어 있으며, 각 Fi에는 5개의 기본 잔여 블록(ResBlock)과 2개의 다른 컨볼루션 레이어(Conv)가 포함되어 다양한 종류의 이미지 손상을 해결할 수 있다.
이러한 네트워크를 트레이닝 하기 위해 다음의 수학식 16과 같이 계한할 수 있는 재구성 손실을 사용한다.
[수학식 16]
또한, SCRC의 효과를 입증하기 위해, 본 발명에서는 희소 3D 변환 도메인 협업 필터(BM3D)를 사용하여 알 수 없는 노이즈 수준에서 노이즈가 있는 이미지를 재구성하였다. 상기 희소 3D 변환 도메인 협업 필터(BM3D)는 노이즈를 제거하고 디테일과 텍스처를 보존하기 위해 이미지의 비 로컬 모델을 사용하는 2단계 디블러링 알고리즘인 최첨단 노이즈 제거 방법 중 하나이다.
또한, 얼굴 특징을 추출하기 위해, 본 발명에 적용되는 LTP(Local ternary patterns)를 사용하는 설명자 기반 알고리즘은 얼굴 인식 정확도를 향상시키기 위해 모양과 질감의 특징을 추출하는 유망한 접근 방식이다. 이는 LTP 모델이 제어되지 않은 조명과 작은 노이즈에 대한 내성이 높기 때문이다. 얼굴 이미지 노이즈 제거를 위한 BM3D 모델과 유사하게, 본 발명에서는 제어되지 않은 심각한 조명 문제를 처리하기 위한 LTP 모델도 구축한다. 고차원 LTP 디스크립터를 사용하여 소프트 맥스 협업 표현 기반 분류기의 성능을 향상시키는 것을 목표로 한다. 실제로 제어되지 않은 조명 및 노이즈의 영향을 크게 줄일 수 있다.
다음에는, 본 발명의 일 실시예에 따른 심층 소프트맥스 협업 표현 분류기의 적응형 앙상블에 대하여 설명한다.
딥 러닝을 사용하는 최첨단 얼굴 인식 방법은 대규모 랜덤 노이즈에 민감하지 않거나 제어되지 않은 조명에 강하지 않다. 그러므로 본 발명에서는 심층 소프트맥스 협업 표현 분류기의 적응형 앙상블(AdaDeep-SCRC)을 제시하며, 각각은 동일한 노이즈 유형 및 분포를 가진 트레이닝 이미지를 포함하여 별도의 데이터 세트에서 트레이닝된다. 특정 노이즈 수준에서 모델이 유사한 노이즈 수준의 학습 데이터 세트에서 학습된 경우 하나의 단일 Deep-SCRC가 이 노이즈 수준에 견고하다는 것이 분명하다. 그러나 다른 Deep-SCRC는 이 노이즈에 상당히 민감하다. 이러한 Deep-SCRC에서, 필터링된 이미지에는 여전히 상당한 양의 노이즈 및 저하된 픽셀이 포함되어 있다.
이러한 이유로, Deep-SCRC의 출력 확률은 빠르게 감소하고 훨씬 덜 신뢰할 수 있다. 따라서 상기 도 2에서와 같이, 단일 Deep-SCRC의 모든 최고 확률 출력값을 확률 맵에 통합하여, 다양한 노이즈 유형 및 분포에서 모든 단일 Deep-SCRC의 장점을 상속하는 아키텍처를 찾는 것을 목표로 한다. 이 확률 맵은 안면 노이즈 레벨 및 기타 손상에 대한 확장된 사전에 대해 제공된다.
확률 맵의 차원 수는 손상 유형의 수와 같다. 예를 들어, 노이즈와 폐색을 포함한 두 종류의 손상을 처리해야 한다면 확률 맵은 2차원이다. 노이즈 수준이 다른 가우시안 노이즈만 처리해야 하는 경우 확률 맵은 1차원이다. 이 확률 맵 프레임워크는 향후 작업에 유용하다. 본 발명에서는 이 맵을 노이즈와 폐색과 같은 두 가지 손상으로 동시에 저하된 얼굴을 인식하는 또 다른 딥 러닝 네트워크에 주입되는 사전 정보로 사용할 수 있다. 이론적으로 각 단일 Deep-SCRC는 해당 협력 부분 공간에서 트레이닝 얼굴의 선형 조합으로 각 테스트 이미지를 표현할 수 있는 사전 학습 방법을 제공한다. 사실, 하나의 사전만으로는 서로 다른 노이즈, 외모 및 기타 손상을 가진 트레이닝 얼굴의 전체 협업 공간을 제시하기에 충분하지 않다. 그러나, 모든 단일 사전을 공통 확률 공간으로 표현되는 확장 사전인 AdaDeep-SCRC로 효과적으로 결합할 수 있다.
AdaDeep-SCRC의 효과를 입증하기 위해, 본 발명에서는 A = [A1, A2, A3,.., AM]에 의한 M 가우시안 노이즈 레벨 세트를 채택한다. 본 발명은 i = 1,.., M인 Fi로 표시된 M 단일 Deep-SCRC를 트레이닝하는 것이다. 각 Fi에서 SCRC는 동일한 학습 얼굴 데이터 세트에서 학습되지만, 해당 재구성 모델은 상기 도 2에 표시된 것처럼 레벨 Ai에서 노이즈로 학습된다. SCRC를 사용하면, 각 Fi는 가장 높은 확률값 를 출력한다. 이 확률은 테스트 얼굴 이미지 z가 Fi로 분류되고 k클래스에 속함을 의미한다. 이 값을 항목 qi에 저장하기 위해 M 항목 크기의 추상 맵을 사용한다. 특히, 추상 맵에서 가장 높은 확률은 다음의 수학식 17과 같이 계산된다.
[수학식 17]
여기서, k = 1,.., K 및 i = 1,.., M이며, i = 1,.., M인 P(Fi)는 prior라 하며, 이는 Fi가 추가 prior 정보없이 z를 해당 클래스로 분류할 확률이다.
i = 1,..., M인 Fi는 본 발명에서 동일한 트레이닝 매개 변수와 조건을 갖기 때문에, 이 일반성을 잃지 않는다고 가정한다. 실제로, Fi는 트레이닝 네트워크의 속성에 따라 수동으로 설정할 수 있다. 따라서 수학식 15 및 수학식 17을 사용하면 다음의 수학식 18과 같이 된다.
[수학식 18]
다음에는, 이와 같이 구성된 본 발명에 따른 얼굴 인식을 위한 심층 소프트맥스 협업 표현 분류 방법의 일 실시예를 도 4를 참조하여 상세하게 설명한다. 이때 본 발명의 방법에 따른 각 단계는 사용 환경이나 당업자에 의해 순서가 변경될 수 있다.
도 4는 본 발명의 일 실시예에 따른 얼굴 인식을 위한 심층 소프트맥스 협업 표현 분류 방법의 동작과정을 상세하게 나타낸 순서도이다.
도 4에 도시된 바와 같이, 본 발명은 서로 다른 유형의 품질이 저하된 얼굴 이미지를 각각 학습하여 얼굴 이미지를 재구성하는 얼굴 이미지 재구성 단계(S100), 상기 재구성한 얼굴 이미지에 대한 특징을 추출하는 딥 러닝 수행 단계(S200), 상기 추출한 특징을 통해 상기 재구성한 얼굴 이미지에 포함된 얼굴을 인식하여 분류하는 SCRC 기반 분류 단계(S300)를 수행한다.
이때 상기 SCRC 기반 분류 단계(S100)는 소프트맥스 함수를 사용하여 단일 SCRC 기반 분류기의 출력값을 공통 확률 공간의 출력 확률로 변환한 다음, 상기 공통 확률 공간에서 각 SCRC 기반 분류기의 출력을 평가하여 최상의 값을 선택하여, 서로 다른 유형의 품질이 저하된 얼굴 이미지로부터 얼굴 인식의 정확도를 높일 수 있다.
또한 상기 S100 단계에서 재구성하는 얼굴 이미지는 랜덤 노이즈, 모션 블러, 압축 아티팩트, 제어되지 않은 조명 및 폐색으로 인해 품질이 저하된 얼굴 이미지이며, 상기 S100 단계는 희소 3D 변환 도메인 협업 필터를 사용하여 상기 얼굴 이미지를 재구성한다.
또한 상기 S200 단계는 LTP(Local ternary patterns)를 사용하여 상기 S100 단계에서 재구성한 얼굴 이미지로부터 모양과 질감에 대한 특징을 추출할 수 있다.
이때 상기 얼굴 이미지 재구성 단계는 적어도 2개의 컨볼루션 레이어와 적어도 5개의 잔여 블록을 포함하여 수행되며, 상기 잔여 블록은 컨볼루션 블록, 배치 정규화 블록 및 액티베이션 블록을 포함하는 4개의 제1 서브 블록과 컨볼루션 블록 및 액티베이션 블록을 포함하는 1개의 제2 서브 블록을 포함하는 것임은 상기 설명한 바와 같다.
다음에는, 이와 같이 구성된 본 발명의 일 실시예에 따른 얼굴 인식을 위한 심층 소프트맥스 협업 표현 분류의 실험결과를 도 5 내지 도 15를 참조하여 상세하게 설명한다.
본 발명은 확장된 Yale B 데이터 세트, AR 데이터 세트 및 LFW-a 데이터베이스의 까다로운 데이터베이스를 사용하여, 희소 표현 기반 분류 방법 및 최첨단 딥 러닝 방법의 성능을 평가한다. 본 발명에 제안된 방법을 VGG 딥 러닝 네트워크, 희소 표현 기반 분류기(SRC), 협력 표현 기반 분류기, 커널 협력 표현 기반 분류기, 확률적 협력 표현 기반 분류기(ProCRC), 멀티스케일 패치 기반 협력 분류기(MSPCRC)를 포함한 최첨단 방법과 비교한다. 또한, 까다로운 조명 조건에서 얼굴 식별을 개선할 수 있는 능력 때문에 LTP 모델을 사용하여 SCRC 분류기를 평가한다. 이 방법은 fLTP로 표시된다.
MSPCRC 방법에서는 최상의 성능을 얻기 위해 7개의 스케일을 사용했으며, 패치 크기는 1010, 15x15, 20x20, 25x25, 30x30, 35x35 및 40x40이었다. CRC 및 ProCRC 방법에서는 정규화 매개 변수 λ=10-3을 설정한다. SCRC 방법에서는 정규화 매개 변수 λ=τ= 10-3도 설정한다. 경쟁하는 분류기의 경우 각 실험에서 최고의 분류 정확도를 선택하였다. 다양한 시끄러운 환경에서 얼굴 인식 방법의 정확성을 평가하기 위해, AdaDeep-SCRC는 6개의 Deep-SCRC로 구성되며, 각각은 해당 표준편차 σi와 함께 제로 평균 가우시안 노이즈에 의해 추가된 얼굴 이미지에 가장 잘 작동하는 BM3D 노이즈 제거 필터를 사용하였다. 각 Deep-SCRC는 f(σi) 함수로 표현되었으며, 이는 해당 표준편차 σi로 특정 제로 평균 가우시안 잡음을 처리하는데 사용할 수 있다. 실험에서, f(σi)를 AdaDeep-SCRC에 통합했을 뿐만 아니라 SCRC를 통합했으며, fLTP를 이 앙상블에 통합하였다. 목표는 AdaDeep-SCRC가 다양한 환경 조건에서 분류 성능을 향상시킬 수 있는 기능 추출 모델을 업데이트하고 통합할 수 있음을 증명하는 것이다. AdaDeep-SCRC는 이러한 모델의 모든 장점을 단점없이 결합할 수 있다.
도 5는 AR 데이터 세트에 대한 심층 소프트맥스 협업 표현 분류기의 적응형 앙상블(AdaDeep-SCRC) 및 주요 구성 요소 분류기의 성능을 나타낸 도면이고, 도 6은 AR 데이터 세트에서 랜덤 노이즈가 있는 이미지 테스트의 예를 나타낸 도면이며, 도 7은 AR 데이터베이스에서 본 발명에서 제안된 방법과 기타 최첨단 방법을 비교한 도면이다.
우선, AR 데이터베이스에는 다양한 조명 조건과 표정으로 인해 까다로운 50명의 남성과 50명의 여성 얼굴이 포함되어 있으며, 원본 이미지는 60x43 픽셀로 잘랐다. 각 피사체에 대해 조명과 표현이 다른 7개의 이미지를 학습용으로 수집하고 다른 7개의 이미지를 테스트에 적용하였다. 다양한 노이즈 조건에서 분류기와 경쟁사의 인식 성능을 테스트하고 평가하는 것이었기 때문에, 원본 테스트 이미지에서 새로운 6개의 테스트 데이터 세트를 구축하였다. 사실, 각각의 새로운 테스트 데이터 세트는 도 5와 같이 원본 테스트 이미지에 i = 0, 20, 40, 60, 80, 100인 표준 편차 σi를 갖는 제로 평균 가우시안 노이즈를 추가하여 구축되었다. SCRC의 효과를 확인하기 위해, CRC, KCRC, SRC, ProCRC 및 MSPCRC와 비교하였다. 이러한 알고리즘의 직접 비교는 도 7에 나타내었다.
상기 도 7은 모든 노이즈 레벨에서 SCRC가 경쟁하는 분류기인 SRC, CRC, ProCRC 및 KCRC보다 더 나은 분류 정확도를 가지고 있음을 보여준다. 이 결과는 보완적 제약을 사용하는 SCRC가 이러한 경쟁사보다 노이즈를 처리하는데 더 효과적이라는 것을 증명한다. ProCRC는 트레이닝 샘플의 분포를 고려하지 않기 때문에 SCRC가 ProCRC보다 낫다. 또한 상기 도 7은 테스트 얼굴이 노이즈 노출(σ=σ0=0)에 의해 저하되지 않는 경우, MSPCRC 및 fLTP가 여전히 딥 러닝 모델을 사용하지 않는 것 중에서 가장 좋은 접근 방식임을 나타낸다. 이 경우 SCRC는 MSPCRC보다 약간 덜 정확하다. 그러나, 노이즈 레벨이 증가하면, MSPCRC 및 fLTP의 정확도도 크게 감소하고, SCRC가 그보다 훨씬 좋다. 이는 입력 이미지에서 추출한 중첩 패치에서 노이즈 손상에 취약한 로컬 특징을 탐색했기 때문이다.
또한, 상기 도 7은 Deep-SCRC의 비교를 보여줍니다. 특히, f(σi)는 σ≤σi인 경우 높은 인식 성능을 달성한다. 그러나, σ>σi인 경우 f(σi)의 정확도는 완전히 제거되지 않은 노이즈로 인해 테스트 이미지가 여전히 크게 저하되기 때문에 빠르게 감소한다. 다행히, 모든 f(σi), SCRC 및 fLTP에 의해 통합된 AdaDeep-SCRC는 모든 노이즈 수준에서 얼굴을 인식하는 가장 높은 정확도를 달성한다. 이 결과는 AdaDeep-SCRC가 최상의 분류기를 효과적으로 평가하고 선택할 수 있음을 증명한다. 이러한 이유로 AdaDeep-SCRC는 도 5에 표시된 것처럼, 이 실험의 모든 최신 분류기보다 훨씬 우수한 성능을 보인다.
도 8은 확장된 Yale B 데이터 세트에 대한 심층 소프트맥스 협업 표현 분류기의 적응형 앙상블(AdaDeep-SCRC) 및 주요 구성 요소 분류기의 성능을 나타낸 도면이고, 도 9는 확장된 Yale B 데이터 세트에서 랜덤 노이즈가 있는 이미지 테스트의 예를 나타낸 도면이며, 도 10은 확장된 Yale B 데이터베이스에서 본 발명에서 제안된 방법과 기타 최첨단 방법을 비교한 도면이다.
확장된 Yale B 얼굴 데이터베이스는 다양한 조명 조건으로 인해 까다로워서 얼굴 인식 결과에 가장 중요한 영향을 미쳤다. 데이터베이스는 38명의 정면 얼굴 이미지 2414개, 개인당 약 68개 이미지로 구성된다. 얼굴 이미지가 잘리고 32x32 픽셀로 크기가 조정되었다. 이미지의 절반은 트레이닝용으로, 나머지는 테스트용으로 무작위로 선택하였다. 원본 테스트 이미지에서 새로운 6개의 테스트 데이터 세트를 구축하였다. 각각의 새로운 테스트 데이터 세트는 도 9와 같이 원본 테스트 이미지에 i = 0, 20, 40, 60, 80, 100인 표준 편차 σi를 갖는 제로 평균 가우시안 노이즈를 추가하여 구축되었다.
도 10은 도전적인 방법의 실험 결과를 나열한다. 상기 도 10에서 테스트 얼굴이 노이즈(σ=σ0=0)에 의해 손상되지 않은 경우 fLTP가 MSPCRC, SCRC 및 기타 희소 표현 기반 분류 자보다 현저하게 우수하다는 것이 분명하다. LTP 모델은 제어되지 않은 조명과 작은 노이즈에 대한 저항성이 높기 때문에 인식 성능 향상에 여전히 기여하기 때문이다. 따라서 fLTP는 99.5%의 정확도를 달성하고 i = 0, 20, 40, 60, 80, 100인 f(σi)보다 성능이 뛰어나다. 그러나, AR 데이터 세트의 이전 결과와 유사하게 fLTP의 정확도는 노이즈 수준이 증가하면 급격히 떨어진다. 또한 MSPCRC는 높은 노이즈 수준에서 유사한 저하율을 보인다. 대조적으로, SCRC는 노이즈가 존재하고 심한 조명 변화와 그림자에서 매우 효과적으로 수행된다. SCRC는 딥 학습 모델 f(σi)를 사용하는 경쟁 분류기보다 더 넓은 범위의 노이즈 및 조명에서 더 나은 성능을 달성한다. AR 데이터 세트에 대한 이전 실험의 결과와 유사하게, σ>σi인 경우 f(σi)의 성능은 노이즈 노출과 극도로 열악한 조명 조건으로 인해 크게 떨어진다. 그러나 이전 결과와 달리 딥 러닝 모델을 사용했음에도 불구하고 f(σi)의 정확도는 σ≤σi일 때 SCRC보다 훨씬 더 나쁘다. 이는 딥 러닝 모델이 노이즈에 매우 민감할 뿐만 아니라 열악한 조명 조건에도 견고하지 않기 때문이다. 마지막으로, SCRC, fLTP, f(σi)를 포함한 모든 강력한 분류기를 통합함으로써, AdaDeep-SCRC는 도 8과 같이 전체 노이즈 수준에서 다른 모든 최신 분류기보다 우수하다.
도 11은 LFW-a 데이터 세트에 대한 심층 소프트맥스 협업 표현 분류기의 적응형 앙상블(AdaDeep-SCRC) 및 주요 구성 요소 분류기의 성능을 나타낸 도면이고, 도 12는 LFW-a 데이터 세트에서 랜덤 노이즈가 있는 이미지 테스트의 예를 나타낸 도면이며, 도 13은 LFW-a 데이터베이스에서 본 발명에서 제안된 방법과 기타 최첨단 방법을 비교한 도면이다.
LFW-a 데이터 세트는 인종, 연령, 성별이 다른 158명의 개인으로 구성된다. 이들 각각에 대해 8개의 트레이닝 이미지와 2개의 테스트 이미지를 수집하였다. 이 이미지의 모든 얼굴은 32x32 픽셀로 잘렸고 동일한 인물의 얼굴은 포즈, 표현, 조명 및 노이즈 수준이 달랐다. 본 발명에서는 도 12에서와 같이 각각 i = 0, 20, 40, 60, 80, 100인 표준 편차 σi를 갖는 제로 평균 가우시안 노이즈를 원본 테스트 이미지에 추가하여 6개의 다른 테스트 데이터 세트를 구축하였다.
도 13은 그 결과를 표시한다. SRC, CRC, KCRC, MSPCRC, ProCRC, SCRC 및 fLTP를 포함한 모든 희소 표현 기반 분류기는 좋은 특징 추출 모델이 없기 때문에 제한되지 않은 얼굴을 인식할 만큼 정확하지 않다. 반대로, 딥 러닝 모델을 사용하는 접근 방식은 딥 러닝 모델을 사용하지 않는 접근 방식보다 훨씬 더 높은 정확도를 달성한다. 또한 각 f(σi)는 해당 노이즈 수준 σi에서 다른 Deep-SCRC보다 더 높은 분류 성능을 달성하지만, 노이즈 수준 σ>σi에서 훨씬 더 나쁘다. 이러한 결과는 까다로운 실제 데이터 세트에서 높은 정확도를 달성했음에도 불구하고 알려지지 않은 노이즈 또는 예측할 수 없는 손상으로 인해 성능이 빠르게 저하된다는 것을 보여준다. 상기 도 13에서 볼 수 있듯이, AdaDeep-SCRC는 도 11에서와 같이, 모든 주요 구성요소 분류자인 f(σi)보다 성능이 훨씬 뛰어나다.
도 14는 본 발명에 적용되는 이미지 저하의 다양한 예를 나타낸 도면이며, 도 15는 IJB-C 데이터베이스에서 본 발명에서 제안된 방법과 기타 최첨단 방법을 비교한 도면이다.
한편, 여러 유형의 이미지 저하 실험에서, 목표는 여러 유형의 손상을 처리할 때, SCRC 기반 앙상블 방법의 효과를 평가하는 것이다. 본 발명의 실험에서는 이미지를 손상시키고 오분류 사례가 자주 발생하는 세 가지의 일반적인 섭동(perturbation)을 선택하였다. 이러한 섭동은 솔트 앤 페퍼 노이즈, 가우시안 블러 및 다양한 조명이다. 31,300개의 이미지가 있는 3531명의 피험자가 포함된 IJB-C 데이터 세트를 사용하였다.
이 데이터 세트에서 손상된 얼굴 이미지의 몇 가지 일반적인 예를 도 14에 나타내었다. 여기서 첫 번째 열은 가산성 백색 가우시안 노이즈(AWGN)가 있는 이미지, 블러 이미지(Blur), 솔트 앤 페퍼 노이즈(SP)에 의해 손상된 이미지, 극도로 낮은 조명(Illumi) 아래의 이미지를 포함하는 섭동으로 인해 저하된 이미지를 각각 나타내고 있으며, 두 번째 열은 각각의 원본 이미지이다.
이 데이터 세트에는 많은 수의 클래스가 포함되어 있지만, 대부분은 6개 미만의 스틸 이미지를 포함한다. 또한, 이 데이터 세트는 정확한 근거 레이블이 부족하기 때문에 매우 어렵다. 이러한 이유로 본 발명의 실험에서는 각각 5개의 트레이닝 이미지와 1개의 테스트 이미지를 포함하는 100개의 서브젝트만 수집하였다.
도 15는 특징 추출 및 재구성 모델의 다양한 딥 러닝 모델과 함께 SCRC를 사용하는 모든 방법의 성능을 보여준다. 실제로, Facenet, SphereFace, ArcFace 및 VGG의 4개의 최첨단 딥 러닝 모델을 테스트하였다. 이러한 재구성 모델의 중요한 역할을 보여주기 위해 재구성 모델을 포함하거나 포함하지 않는 특징 추출 모델을 테스트하였다. 이전 실험과 달리, 이 데이터 세트의 재구성 모듈에는 3개의 생성기 Fi가 포함되어 있습니다. ResBlocks를 사용하여 블러 이미지(Blur), 극도의 고조도 이미지(Illumi), 솔트 앤 페퍼 노이즈(SP)에 의해 손상된 이미지를 포함한 세 가지 다른 종류의 심각한 섭동을 제거한다.
도 14는 이러한 섭동의 몇 가지 전형적인 예를 보여준다. 또한 도 15에서 알 수 있듯이, AdaDeep-SCRC-ArcFace, AdaDeep-SCRC-Sphere, AdaDeep-SCRC-Facenet, AdaDeep-SCRC-VGG를 포함한 SCRC 기반 분류기의 적응형 앙상블의 정확도는, 얼굴 이미지가 심각하게 알려지지 않은 섭동을 받았을 때 약간 줄어든 것을 보여준다.
이상에서와 같이, 본 발명에서는 딥 러닝 네트워크와 전통적인 분류 방법을 결합하는 정교한 아키텍처를 개발하려는 기존의 노력을 넘어서 다양한 유형의 저하로 인한 얼굴 인식의 주요 문제를 다루었다. 특히, 최첨단 딥 러닝 네트워크와 희소 표현 기반 방법에 대한 랜덤 노이즈 및 기타 손상의 결과에 대하여 이해하였으며, 딥 러닝 모델과 기존 방법의 분류 성능을 높이는 효과적이고 정확한 방법을 확인하였다. 또한 얼굴 인식을 위한 SCRC 기반 분류기를 제안하였는데, 이는 랜덤 노이즈 및 제어되지 않은 조명을 처리하는데 있어 최첨단 희소 표현 기반 분류기를 능가한다.
이 분류기는 상보성 제약 조건을 사용하여, 재구성된 이미지에서 동일한 클래스의 트레이닝 이미지까지의 유클리드 거리를 최소화한다. 또한, 기존의 딥 러닝 네트워크는 다양한 종류의 손상에 취약하기 때문에, SCRC가 섭동으로 인한 이상값에 강하기 때문에 딥 러닝 네트워크와 SCRC 기반 분류기를 결합하면 인식률이 향상될 수 있다. 이러한 이유로, 본 발명에서는 다양한 저하에서 얼굴을 인식하기 위한 콤팩트한 프레임워크를 제시하였으며, 이 프레임워크에는 일종의 섭동을 효과적으로 재구성하기 위한 재구성 모델, 얼굴 특징을 추출하기 위한 딥 러닝 모델, 심각하게 저하된 이미지에서 얼굴을 정확하게 분류하기 위한 새로운 SCRC 분류기의 세 가지 주요 구성 요소가 포함된다.
이 프레임워크는 다른 희소 표현 기반 분류기 및 기존 딥 러닝 네트워크에 비해 더 나은 인식 성능을 제공한다. 마지막으로, SCRC는 다양한 손상을 동시에 처리하기 위해 딥 러닝 네트워크와 기타 강력한 분류기를 결합할 수 있는 SCRC 기반 앙상블 분류기를 개발할 수 있는 좋은 기회를 제공한다. 상기 설명한 바와 같은 실험 결과는 이 앙상블 방법이 시끄러운 환경과 다양한 종류의 저하에서 얼굴을 인식하는 다른 최첨단 분류기보다 우수하다는 것을 보여준다.
실험 결과는 AdaDeep-SCRC가 실제 환경에서 얼굴을 인식하는 다른 최첨단 분류기보다 우수하다는 것을 보여준다. 본 발명에서 제안된 방법은 고객의 정보를 자주 업데이트할 수 있는 슈퍼마켓에서 도둑을 식별하는데 적용할 수 있으며, 이 알고리즘을 적용하여 마스킹된 용의자 식별과 같은 비디오 감시에서 얼굴 인식 성능을 향상시킬 수 있다. 또한 의사와 간호사가 고객에게 더 나은 맞춤형 치료를 제공할 수 있는 접객업의 얼굴 인식 시스템과 연결될 수 있으며, 모바일 로봇 및 인간 로봇 상호 작용 분야에 적용될 수 있다. 본 발명은 알 수 없는 노이즈, 마스크 또는 특정 오브젝트에 의한 폐색, 극도로 통제되지 않은 조명으로 인해 손상된 사람의 얼굴을 기록할 수 있다.
이처럼, 본 발명은 딥 러닝 네트워크와 SCRC 기반 분류기를 통합한 심층 소프트맥스 협업 표현 분류기의 적응형 앙상블을 통해서, 랜덤 노이즈, 모션 블러, 압축 아티팩트, 제어되지 않은 조명, 폐색 등으로 인한 다양한 유형의 저하가 포함된 얼굴 이미지로부터 얼굴을 정확하게 인식할 수 있다.
또한 본 발명은 로봇, 장거리 감시 카메라, 공항 등과 같이 사람의 얼굴을 캡처하는 경우가 많은 산업분야나 장소에 적용할 경우, 캡처된 얼굴의 해상도가 훨씬 낮거나, 열악한 조명 조건으로 인한 노이즈로 인해 성능이 저하되거나, 마스크 및 알 수 없는 물체로 인해 가려지더라도 얼굴 인식 성능을 개선할 수 있다.
이상에서와 같이 본 발명은 도면에 도시된 실시예를 참고로 하여 설명되었으나, 이는 예시적인 것에 불과하며, 당해 기술이 속하는 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 기술적 보호범위는 아래의 특허청구범위에 의해서 판단되어야 할 것이다.
100 : 얼굴 이미지 재구성 모듈
200 : 딥 러닝 모델
300 : SCRC 기반 분류기
200 : 딥 러닝 모델
300 : SCRC 기반 분류기
Claims (10)
- 서로 다른 유형의 품질이 저하된 얼굴 이미지를 각각 학습하여 얼굴 이미지를 재구성하는 적어도 하나 이상의 얼굴 이미지 재구성 모듈;
상기 재구성한 얼굴 이미지에 대한 특징을 추출하는 적어도 하나 이상의 딥 러닝 모델; 및
상기 추출한 특징을 통해 상기 재구성한 얼굴 이미지에 포함된 얼굴을 인식하여 분류하는 SCRC 기반 분류기;를 포함하는 것을 특징으로 하는 심층 소프트맥스 협업 표현 분류 장치. - 청구항 1에 있어서,
상기 SCRC 기반 분류기는,
소프트맥스 함수를 사용하여 단일 SCRC 기반 분류기의 출력값을 공통 확률 공간의 출력 확률로 변환하며, 상기 공통 확률 공간에서 각 SCRC 기반 분류기의 출력을 평가하여 최상의 값을 선택함으로써, 서로 다른 유형의 품질이 저하된 얼굴 이미지로부터 얼굴 인식의 정확도를 높이는 것을 더 포함하는 것을 특징으로 하는 심층 소프트맥스 협업 표현 분류 장치. - 청구항 1에 있어서,
상기 얼굴 이미지 재구성 모듈에서 재구성하는 얼굴 이미지는,
랜덤 노이즈, 모션 블러, 압축 아티팩트, 제어되지 않은 조명 및 폐색으로 인해 품질이 저하된 얼굴 이미지이며,
상기 얼굴 이미지 재구성 모듈은,
희소 3D 변환 도메인 협업 필터를 사용하여 상기 얼굴 이미지를 재구성하며,
상기 딥 러닝 모델은,
LTP(Local ternary patterns)를 사용하여 상기 재구성한 얼굴 이미지로부터 모양과 질감에 대한 특징을 추출하는 것을 특징으로 하는 심층 소프트맥스 협업 표현 분류 장치. - 청구항 4에 있어서,
상기 잔여 블록은,
입력되는 데이터 세트에 대해서 컨볼루션을 수행하는 컨볼루션 블록, 상기 수행한 컨볼루션 결과에 대해서 정규화를 수행하는 배치 정규화 블록 및 상기 수행한 정규화 결과에 대해서 렐루(Relu) 함수를 적용하는 액티베이션 블록을 포함하는 4개의 서브 블록; 및
입력되는 데이터 세트에 대해서 컨볼루션을 수행하는 컨볼루션 블록 및 상기 수행한 컨볼루션 결과에 대해서 렐루(Relu) 함수를 적용하는 액티베이션 블록을 포함하는 1개의 서브 블록;을 포함하는 것을 특징으로 하는 심층 소프트맥스 협업 표현 분류 장치. - 심층 소프트맥스 협업 표현 분류 장치에서, 서로 다른 유형의 품질이 저하된 얼굴 이미지를 각각 학습하여 얼굴 이미지를 재구성하는 얼굴 이미지 재구성 단계;
상기 재구성한 얼굴 이미지에 대한 특징을 추출하는 딥 러닝 수행 단계; 및
상기 추출한 특징을 통해 상기 재구성한 얼굴 이미지에 포함된 얼굴을 인식하여 분류하는 SCRC 기반 분류 단계;를 포함하는 것을 특징으로 하는 심층 소프트맥스 협업 표현 분류 방법. - 청구항 6에 있어서,
상기 SCRC 기반 분류 단계는,
상기 심층 소프트맥스 협업 표현 분류 장치에서, 소프트맥스 함수를 사용하여 단일 SCRC 기반 분류기의 출력값을 공통 확률 공간의 출력 확률로 변환하며, 상기 공통 확률 공간에서 각 SCRC 기반 분류기의 출력을 평가하여 최상의 값을 선택함으로써, 서로 다른 유형의 품질이 저하된 얼굴 이미지로부터 얼굴 인식의 정확도를 높이는 것을 더 포함하는 것을 특징으로 하는 심층 소프트맥스 협업 표현 분류 방법. - 청구항 6에 있어서,
상기 얼굴 이미지 재구성 단계에서 재구성하는 얼굴 이미지는,
랜덤 노이즈, 모션 블러, 압축 아티팩트, 제어되지 않은 조명 및 폐색으로 인해 품질이 저하된 얼굴 이미지이며,
상기 얼굴 이미지 재구성 단계는,
희소 3D 변환 도메인 협업 필터를 사용하여 상기 얼굴 이미지를 재구성하는 단계이며,
상기 딥 러닝 수행 단계는,
LTP(Local ternary patterns)를 사용하여 상기 재구성한 얼굴 이미지로부터 모양과 질감에 대한 특징을 추출하는 단계인 것을 특징으로 하는 심층 소프트맥스 협업 표현 분류 방법. - 청구항 9에 있어서,
상기 잔여 블록은,
입력단에 컨볼루션을 수행하는 컨볼루션 블록, 상기 수행한 컨볼루션 결과에 대해서 정규화를 수행하는 배치 정규화 블록 및 상기 수행한 정규화 결과에 대해서 렐루(Relu) 함수를 적용하는 액티베이션 블록을 포함하는 4개의 서브 블록; 및
입력되는 데이터 세트에 대해서 컨볼루션을 수행하는 컨볼루션 블록 및 상기 수행한 컨볼루션 결과에 대해서 렐루(Relu) 함수를 적용하는 액티베이션 블록을 포함하는 1개의 서브 블록;을 포함하는 것을 특징으로 하는 심층 소프트맥스 협업 표현 분류 방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210086793A KR102538209B1 (ko) | 2021-07-02 | 2021-07-02 | 얼굴 인식을 위한 심층 소프트맥스 협업 표현 분류 장치 및 그 방법 |
PCT/KR2022/005571 WO2023277319A1 (ko) | 2021-07-02 | 2022-04-19 | 인공지능 기반 분류 장치 및 그 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210086793A KR102538209B1 (ko) | 2021-07-02 | 2021-07-02 | 얼굴 인식을 위한 심층 소프트맥스 협업 표현 분류 장치 및 그 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20230006071A KR20230006071A (ko) | 2023-01-10 |
KR102538209B1 true KR102538209B1 (ko) | 2023-05-30 |
Family
ID=84893530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210086793A KR102538209B1 (ko) | 2021-07-02 | 2021-07-02 | 얼굴 인식을 위한 심층 소프트맥스 협업 표현 분류 장치 및 그 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102538209B1 (ko) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20240105527A (ko) | 2022-12-27 | 2024-07-05 | 주식회사 호원 | 배터리팩케이스 운송 및 적재를 위한 파레트 |
CN117095468B (zh) * | 2023-07-07 | 2024-08-20 | 重庆理工大学 | 基于领域不变特征学习的低质量伪造人脸图像检测方法 |
CN116597427B (zh) * | 2023-07-18 | 2023-10-20 | 山东科技大学 | 一种基于深度学习的舰船驾驶台身份识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101089504B1 (ko) | 2010-06-22 | 2011-12-05 | 한국과학기술원 | 이미지 군집화 방법과 장치 및 이를 이용한 이미지 인식 방법과 장치 |
US20130215228A1 (en) | 2012-02-22 | 2013-08-22 | David Stoker | Method and apparatus for robustly collecting facial, ocular, and iris images using a single sensor |
US20160132717A1 (en) | 2014-11-06 | 2016-05-12 | TCL Research America Inc. | Face recognition system and method |
US20160189006A1 (en) | 2014-12-31 | 2016-06-30 | TCL Research America Inc. | Robust error correction with multi-model representation for face recognition |
CN105809107A (zh) | 2016-02-23 | 2016-07-27 | 深圳大学 | 基于面部特征点的单样本人脸识别方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102138657B1 (ko) * | 2018-04-12 | 2020-07-28 | 가천대학교 산학협력단 | 계층적 협업 표현 기반 분류를 통한 강인한 얼굴인식 장치 및 그 방법 |
-
2021
- 2021-07-02 KR KR1020210086793A patent/KR102538209B1/ko active IP Right Grant
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101089504B1 (ko) | 2010-06-22 | 2011-12-05 | 한국과학기술원 | 이미지 군집화 방법과 장치 및 이를 이용한 이미지 인식 방법과 장치 |
US20130215228A1 (en) | 2012-02-22 | 2013-08-22 | David Stoker | Method and apparatus for robustly collecting facial, ocular, and iris images using a single sensor |
US20160132717A1 (en) | 2014-11-06 | 2016-05-12 | TCL Research America Inc. | Face recognition system and method |
US20160189006A1 (en) | 2014-12-31 | 2016-06-30 | TCL Research America Inc. | Robust error correction with multi-model representation for face recognition |
CN105809107A (zh) | 2016-02-23 | 2016-07-27 | 深圳大学 | 基于面部特征点的单样本人脸识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
비특허(DEEP CNN DENOISER AND MULTI-LAYER NEIGHBOR COMPONENT EMBEDDING FOR FACE HALLUCINATION) |
Also Published As
Publication number | Publication date |
---|---|
KR20230006071A (ko) | 2023-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102538209B1 (ko) | 얼굴 인식을 위한 심층 소프트맥스 협업 표현 분류 장치 및 그 방법 | |
Goswami et al. | Detecting and mitigating adversarial perturbations for robust face recognition | |
US11625805B2 (en) | Learning systems and methods | |
Goswami et al. | Unravelling robustness of deep learning based face recognition against adversarial attacks | |
Umer et al. | Person identification using fusion of iris and periocular deep features | |
Taigman et al. | Deepface: Closing the gap to human-level performance in face verification | |
Zeiler et al. | Stochastic pooling for regularization of deep convolutional neural networks | |
Nogueira et al. | Evaluating software-based fingerprint liveness detection using convolutional networks and local binary patterns | |
Mallouh et al. | Utilizing CNNs and transfer learning of pre-trained models for age range classification from unconstrained face images | |
Shi et al. | Image manipulation detection and localization based on the dual-domain convolutional neural networks | |
Mohamed et al. | An improved LBP algorithm for avatar face recognition | |
Vo et al. | Deep softmax collaborative representation for robust degraded face recognition | |
Sharma et al. | Deepfakes Classification of Faces Using Convolutional Neural Networks. | |
Rifai et al. | Learning invariant features through local space contraction | |
Li et al. | Image operation chain detection with machine translation framework | |
CN113869234B (zh) | 人脸表情识别方法、装置、设备及存储介质 | |
CN1858773A (zh) | 一种基于Gabor相位模式的图像识别方法 | |
CN110728238A (zh) | 一种融合型神经网络的人员再检测方法 | |
Roy et al. | Classification of massive noisy image using auto-encoders and convolutional neural network | |
US20230281762A1 (en) | Fingerphoto deblurring using deep learning gan architectures | |
Chawla et al. | Classification of computer generated images from photographic images using convolutional neural networks | |
Liu et al. | Palm-dorsa vein recognition based on independent principle component analysis | |
Rohrer et al. | GAN pretraining for deep convolutional autoencoders applied to software-based fingerprint presentation attack detection | |
Gautam et al. | Deep supervised class encoding for iris presentation attack detection | |
Al-Otaiby et al. | Effects of face image degradation on recognition with vision transformers: Review and case study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |