KR20230021043A

KR20230021043A - 객체 인식 방법 및 장치, 및 인식기 학습 방법 및 장치

Info

Publication number: KR20230021043A
Application number: KR1020230009732A
Authority: KR
Inventors: 유병인; 김남준; 이창교; 최창규; 한재준
Original assignee: 삼성전자주식회사
Priority date: 2014-11-24
Filing date: 2023-01-25
Publication date: 2023-02-13
Also published as: US20160148080A1; EP3023911A1; US20180181799A1; CN105631398A; EP3023911B1; US9928410B2; CN105631398B

Abstract

객체 인식 방법 및 장치, 및 인식기 학습 방법 및 장치가 개시된다. 실시예들은 학습 단계에서 얼굴 인식과 속성 분류를 동시에 학습하여, 인식 단계에서 다양한 인식 결과를 동시에 도출하는 기술을 제공한다.

Description

객체 인식 방법 및 장치, 및 인식기 학습 방법 및 장치{METHOD AND APPARATUS FOR RECOGNIZING OBJECT, AND METHOD AND APPARATUS FOR LEARNING RECOGNIZER}

아래 실시예들은 객체 인식 방법 및 장치, 및 인식기 학습 방법 및 장치에 관한 것이다.

얼굴 영상에 주성분 분석법(Principal Component Analysis: 이하, PCA라 약칭함)을 적용하여 얼굴을 인식하는 기술이 있다. 주성분 분석법은 영상 데이터를 영상 자체의 고유정보의 손실을 최소화하면서 저 차원 고유벡터 공간으로 투영시켜 정보를 축소시키는 기법이다. 주성분 분석법을 이용한 얼굴 인식 방법으로는 얼굴의 주요 특징 벡터를 추출한 후, 미리 등록된 영상으로부터 추출된 주성분 벡터로 학습된 패턴 분류기를 이용하여 얼굴을 인식하는 방법이 많이 사용된다.

일 측에 따른 인식 방법은 입력 영상을 수신하는 단계; 및 복수의 원소들을 함께 인식하도록 기 학습된 단일 인식기를 이용하여, 상기 입력 영상과 관련된 복수의 원소들을 인식하는 단계를 포함한다.

상기 복수의 원소들은 상기 입력 영상을 식별하는 아이디; 및 상기 입력 영상과 관련된 속성을 포함할 수 있다. 상기 속성은 상기 입력 영상에 포함된 얼굴 영역에 대응하는 성별; 상기 얼굴 영역에 대응하는 나이; 상기 얼굴 영역에 대응하는 인종; 및 상기 얼굴 영역에 대응하는 매력도, 및 상기 얼굴 영역에 대응하는 표정 중 어느 하나를 포함할 수 있다. 또는, 상기 속성은 상기 성별, 상기 나이, 상기 인종, 상기 매력도, 및 상기 표정 중 적어도 둘을 포함할 수 있다.

상기 인식하는 단계는 상기 입력 영상에 기초하여 복수의 특성 영상들을 생성하는 단계를 포함할 수 있다. 상기 복수의 특성 영상들은 조명에 의한 노이즈가 제거된 색상(color) 채널 영상; 기울기 방향성 매그니튜드(oriented-gradient magnitude) 채널 영상; 피부색 확률(skin probability) 채널 영상; 및 로컬 바이너리 패턴(local binary pattern) 채널 영상 중 적어도 하나를 포함할 수 있다.

상기 인식하는 단계는 상기 트레이닝 영상에 포함된 얼굴의 부위에 따른 복수의 부분 영상들을 획득하는 단계; 및 상기 복수의 부분 영상들 각각에 대응하는 복수의 특성 영상들을 생성하는 단계를 포함할 수 있다.

일 측에 따른 인식기 학습 방법은 트레이닝 영상을 수신하는 단계; 및 상기 트레이닝 영상, 및 상기 트레이닝 영상에 레이블 된 복수의 원소들에 기초하여, 입력 영상으로부터 복수의 원소들을 인식하는 인식기를 학습시키는 단계를 포함한다.

상기 인식기를 학습시키는 단계는 상기 복수의 원소들에 대응하는 손실(loss)들을 계산하는 단계를 포함할 수 있다. 상기 인식기는 뉴럴 네트워크를 포함하고, 상기 뉴럴 네트워크에 포함된 노드들은 확률 구분적 선형(stochastic piecewise linear) 모델에 따라 활성화(activation) 될 수 있다.

일 측에 따른 인식 장치는 입력 영상을 수신하는 수신부; 및 기 학습된 단일 인식기를 이용하여, 상기 입력 영상과 관련된 복수의 원소들을 인식하는 인식부를 포함한다.

일 측에 따른 인식기 학습 장치는 트레이닝 영상을 수신하는 수신부; 및 상기 트레이닝 영상, 및 상기 트레이닝 영상에 레이블 된 복수의 원소들에 기초하여, 상기 복수의 원소들을 인식하는 인식기를 학습시키는 학습부를 포함한다.

도 1은 일 실시예에 따른 학습 장치를 설명하는 블록도.
도 2는 일 실시예에 따른 멀티 태스크 학습을 설명하는 도면.
도 3은 일 실시예에 따른 원소들을 조인트 학습함으로써 인식기의 정확도가 향상되는 원리를 설명하는 도면.
도 4는 일 실시예에 따른 멀티 태스크 학습의 원리를 설명하는 도면.
도 5는 일 실시예에 따른 딥 콘볼루셔널 신경망 (Deep Convolutional Neural Network, DCNN)의 일 예시를 설명하는 도면.
도 6은 일 실시예에 따른 멀티 채널 학습을 설명하는 도면.
도 7은 일 실시예에 따른 멀티 채널 학습의 원리를 설명하는 도면.
도 8 및 도 9는 실시예들에 따른 멀티 채널 학습을 위한 DCNN을 설명하는 도면들.
도 10은 일 실시예에 따른 멀티 파트 학습을 설명하는 도면.
도 11은 일 실시예에 따른 멀티 파트 학습을 위한 DCNN을 설명하는 도면.
도 12는 일 실시예에 따른 멀티 파트 학습 및 멀티 채널 학습의 조합을 설명하는 도면.
도 13은 일 실시예에 따른 확률 구분적 선형 활성화 모델과 일반적인 확정구분형 선형 활성화 모델을 비교하는 도면.
도 14는 일 실시예에 따른 인식 장치를 설명하는 블록도.
도 15는 실시예들에 따른 인식부의 동작들을 설명하는 도면.
도 16은 일 실시예에 따른 사용자 인터페이스를 설명하는 도면.
도 17 내지 도 24는 일 실시예에 따른 얼굴 인식 장치를 설명하는 도면들.
도 25 내지 도 30은 실시예들에 따른 속성들을 설명하는 도면들.

이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다. 아래에서 설명할 실시예들은 얼굴 등 객체를 인식하는 기술에 사용될 수 있다. 실시예들은 사용자 인식, 사용자 인증, 사진 등의 멀티미디어 검색 및 관리 등에 적용될 수 있다.

도 1은 일 실시예에 따른 학습 장치를 설명하는 블록도이다. 도 1을 참조하면, 일 실시예에 따른 학습 장치(100)는 수신부(110) 및 학습부(120)를 포함한다. 수신부(110)는 트레이닝 영상을 수신한다. 학습부(120)는 수신된 트레이닝 영상을 이용하여 인식기를 학습시킨다. 예를 들어, 학습 장치(100)는 얼굴 인식을 위한 인식기를 학습시킬 수 있다. 학습 장치(100)는 얼굴이 포함된 트레이닝 영상을 수신하고, 수신된 트레이닝 영상을 이용하여 얼굴을 인식하는 인식기를 학습시킬 수 있다.

수신부(110) 및 학습부(120)는 소프트웨어 모듈, 하드웨어 모듈, 또는 이들의 조합으로 구현될 수 있다. 학습 장치(100)는 스마트 폰, 테블릿 컴퓨터, 랩톱 컴퓨터, 데스크톱 컴퓨터, 텔레비전, 웨어러블 장치, 보안 시스템, 스마트 홈 시스템 등 다양한 컴퓨팅 장치 및/또는 시스템에 탑재될 수 있다.

트레이닝 영상에는 복수의 원소들이 레이블 될 수 있다. 복수의 원소들은 트레이닝 영상을 식별하는 아이디 및 트레이닝 영상과 관련된 속성들을 포함할 수 있다. 아이디는 트레이닝 영상에 포함된 객체를 식별하는 정보로, 예를 들어 트레이닝 영상에 포함된 사용자를 식별하는 정보일 수 있다. 속성들은 트레이닝 영상에 포함된 객체를 표현하는 정보로, 예를 들어 트레이닝 영상에 포함된 사용자의 얼굴 영역에 대응하는 성별, 나이, 인종, 매력도, 표정, 감정 등을 포함할 수 있다.

학습부(120)는 트레이닝 영상에 레이블 된 복수의 원소들에 기초하여, 트레이닝 영상으로부터 복수의 원소들을 인식하도록 인식기를 학습시킬 수 있다. 일반적인 얼굴 인식 기법들에 의하여 학습된 인식기와는 달리, 학습부(120)에 의하여 학습된 인식기는 입력 영상으로부터 복수의 원소들을 인식할 수 있다. 예를 들어, 일반적인 얼굴 인식 기법들에 의하여 학습된 인식기는 입력 영상으로부터 아이디만을 인식할 수 있는 반면, 학습부(120)에 의하여 학습된 인식기는 입력 영상으로부터 아이디뿐 아니라 성별, 나이, 인종, 매력도, 표정, 감정 등도 함께 인식할 수 있다. 학습부(120)에 의하여 학습된 인식기는 복수의 원소들을 다중 인식하는 단일 인식기일 수 있다.

도 2는 일 실시예에 따른 멀티 태스크 학습을 설명하는 도면이다. 도 2를 참조하면, 학습부(120)는 얼굴 영상으로부터 아이디 및 속성들을 인식하도록 인식기(130)를 학습시킬 수 있다. 얼굴 영상은 트레이닝 영상으로부터 추출된 얼굴 영역의 영상일 수 있다. 학습부(120)는 복수의 원소들을 함께 인식하도록 인식기(130)를 학습시키므로, 도 2에 따른 학습부(120)의 동작은 멀티 태스크(multi task) 학습이라고 지칭될 수 있다.

동일한 사람의 얼굴이더라도 상이한 조명, 자세, 표정, 가림 등에 따라 다르게 보일 수 있다. 이 경우, 동일한 사람의 얼굴들로부터 추출된 특징들 사이에서 상이한 분포(distribution)가 형성될 수 있다. 반대로, 다른 사람의 얼굴이더라도 유사한 조명, 자세, 표정, 가림 등에 따라 유사하게 보일 수 있다. 이 경우, 다른 사람의 얼굴들로부터 추출된 특징들 사이에서 유사한 분포가 형성될 수 있다.

학습부(120)에 의하여 학습된 인식기는 복수의 원소들을 함께 인식함으로써, 인식의 정확도를 향상시킬 수 있다. 예를 들어, 복수의 원소들은 눈 색깔, 코 모양 등 중간 레벨 속성들(mid-level attributes)을 포함할 수 있다. 중간 레벨 속성들은 조명, 자세, 표정, 가림 등의 변화에 강인(robust)하므로, 아이디와 중간 레벨 속성들을 조인트 학습(jointly learning)시킴으로써 인식의 정확도가 향상될 수 있다. 또는, 성별이나 헤어 스타일 등 서로 다른 사람을 명확하게 구별 가능한 속성들을 아이디와 함께 조인트 학습시킴으로써 인식의 정확도가 향상될 수 있다.

도 3은 일 실시예에 따른 원소들을 조인트 학습함으로써 인식기의 정확도가 향상되는 원리를 설명하는 도면이다. 도 3을 참조하면, 다양한 얼굴들이 존재하는 분포는 가우스 모델들의 혼합(310)으로 표현될 수 있다. 가우스 모델들의 혼합(310)은 중간 레벨 속성들에 의하여 분할될 수 있다. 중간 레벨 속성들 각각에 대응하는 얼굴들의 분포는 복수의 가우스 모델들(320)로 표현될 수 있다. 예를 들어, 가우스 모델들의 혼합(310)은 성별이 남자인 경우(h=1)의 가우스 모델, 성별이 여자인 경우(h=2)의 가우스 모델, 인종이 흑인인 경우(h=3)의 가우스 모델, 인종이 아시안인 경우(h=4)의 가우스 모델, 및 인종이 백인인 경우(h=5)의 가우스 모델로 분할될 수 있다.

중간 레벨 속성들은 픽셀 값 등 저 레벨 특징(low-level feature)에 비하여 강인하므로, 중간 레벨 속성들마다 인텐시브 학습(intensive learning)을 수행함으로써 인식의 정확도가 향상될 수 있다.

도 4는 일 실시예에 따른 멀티 태스크 학습의 원리를 설명하는 도면이다. 도 4를 참조하면, 학습부(120)는 얼굴 영상(410)을 현재까지 학습된 인식기(420)에 입력할 수 있다. 예를 들어, 학습부(120)는 얼굴 영상(410)으로부터 특징 벡터들을 추출하고, 추출된 특징 벡터들을 인식기(420)에 입력할 수 있다.

인식기(420)는 입력 값들에 기초하여 복수의 원소들에 대응하는 출력 값들을 생성할 수 있다. 인식기(420)는 인공 신경망 (artificial neural network)으로 구성될 수 있으며, 예를 들어 딥 콘볼루셔널 신경망 (Deep Convolutional Neural Network, DCNN)으로 구성될 수 있다. DCNN에 대한 보다 상세한 사항들은 도 5를 참조하여 후술한다.

인공 신경망은 입력 레이어, 히든 레이어, 및 출력 레이어를 포함할 수 있다. 각 레이어는 복수의 노드들을 포함하고, 인접한 레이어 사이의 노드들은 연결 가중치를 가지고 서로 연결될 수 있다. 각 노드들은 활성화 모델에 기초하여 동작할 수 있다. 활성화 모델에 따라 입력 값에 대응하는 출력 값이 결정될 수 있다. 임의의 노드의 출력 값은 해당 노드와 연결된 다음 레이어의 노드로 입력될 수 있다. 다음 레이어의 노드는 복수의 노드들로부터 출력되는 값들을 입력 받을 수 있다. 임의의 노드의 출력 값이 다음 레이어의 노드로 입력되는 과정에서, 연결 가중치가 적용될 수 있다. 다음 레이어의 노드는 활성화 모델에 기초하여 입력 값에 대응하는 출력 값을 해당 노드와 연결된 그 다음 레이어의 노드로 출력할 수 있다.

출력 레이어는 복수의 원소들에 대응하는 노드들을 포함할 수 있다. 출력 레이어의 노드들은 복수의 원소들에 대응하는 특징 값들을 출력할 수 있다. 아래에서 상세하게 설명하겠으나, 인공 신경망에서 출력되는 특징 값들은 복수의 원소들을 위한 선형 분류기들을 통하여 원소들로 변환될 수 있다. 학습부(120)는 얼굴 영상(410)에 레이블 된 실제 원소들을 알고 있으므로, 인식기(420)를 통하여 예측된 원소들과 실제 원소들 사이의 손실(loss)들(430)을 계산할 수 있다.

학습부(120)는 역 전파(back propagation) 기법을 이용하여 손실들이 감소되도록 인식기(420)를 업데이트할 수 있다. 예를 들어, 학습부(120)는 인식기(420) 내 인공 신경망의 출력 레이어로부터 히든 레이어를 거쳐 입력 레이어로 향하는 역 방향으로 손실들을 전파시킬 수 있다. 손실들이 역 방향으로 전파되는 과정에서, 손실들이 감소되도록 노드들 사이의 연결 가중치들이 업데이트될 수 있다. 이처럼, 학습부(120)는 복수의 원소들에 대응하는 손실들을 함께 고려하여 인식기(420)를 학습시킬 수 있다. 업데이트가 완료된 인식기(440)는 다음 번 학습 에폭(epoch)에 이용되며, 전술한 멀티 태스크 학습 동작은 손실들이 미리 정해진 임계 값 미만이 될 때까지 반복적으로 수행될 수 있다.

도 5는 일 실시예에 따른 딥 콘볼루셔널 신경망 (Deep Convolutional Neural Network, DCNN)의 일 예시를 설명하는 도면이다. 도 5를 참조하면, 일 실시예에 따른 DCNN은 콘볼루션 레이어들 (Convolution Layers) (510), 완전 연결 레이어들 (Fully Connected Layers) (520), 및 로스 레이어 (Loss Layer) (530)를 포함한다. 콘볼루션 레이어들(510)은 입력 영상을 필터링 하는 인식기의 필터링 모듈에 대응할 수 있다. 콘볼루션 레이어들(510)은 콘볼루션 필터링 레이어, 풀링 레이어, 또는 이들의 조합으로 구성될 수 있다. 예를 들어, 콘볼루션 레이어들(510)은 제1 콘볼루션 필터링 레이어, 제1 풀링 레이어, 제2 콘볼루션 필터링 레이어, 제2 풀링 레이어, 제3 콘볼루션 필터링 레이어, 및 제3 풀링 레이어를 포함할 수 있다.

제1 콘볼루션 필터링 레이어에서 8 x 8 크기의 64개 필터들을 이용하여 콘볼루션 필터링이 수행할 수 있다. 64개 필터들 각각은 미리 정해진 에지를 필터링 할 수 있다. 콘볼루션 필터링 결과 필터들에 대응하는 64개의 필터링 영상들이 생성될 수 있다. 제1 콘볼루션 필터링 레이어는 64개의 필터링 영상들에 포함된 노드들로 구성될 수 있다. 제1 콘볼루션 필터링 레이어에 포함된 각 노드들은 입력 영상의 8 x 8 크기의 영역으로부터 필터링 된 값을 수신할 수 있다. 제1 콘볼루션 필터링 레이어에 포함된 각 노드들의 활성화 모델로 ReLU (Rectifier Linear Unit)가 이용될 수 있다. ReLU는 0 이하의 입력에 대하여 0을 출력하고, 0을 초과하는 입력에 대하여 선형으로 비례하는 값을 출력하는 모델이다.

제1 풀링 레이어에서 풀링을 통하여, 64개의 필터링 영상들로부터 대표 값들이 추출될 수 있다. 예를 들어, 제1 풀링 레이어에서 각 필터링 영상들에 대하여 3 x 3 크기의 윈도우를 2칸씩 슬라이드 하면서, 윈도우 내 최대 값이 추출될 수 있다. 풀링 결과 필터링 영상들에 대응하는 64개의 풀링 영상들이 생성될 수 있다. 제1 풀링 레이어는 64개의 풀링 영상들에 포함된 노드들로 구성될 수 있다. 제1 풀링 레이어에 포함된 각 노드들은 대응하는 필터링 영상의 3 x 3 크기의 영역으로부터 풀링 된 값을 수신할 수 있다. 이상과 같이, 제1 콘볼루션 필터링 레이어와 제1 풀링 레이어에서 입력 영상의 가장 기본적인 특징들이 추출될 수 있다.

제2 콘볼루션 필터링 레이어에서 4 x 4 크기의 128개 필터들을 이용하여 콘볼루션 필터링이 수행할 수 있다. 128개 필터들 각각은 미리 정해진 에지를 필터링 할 수 있다. 제2 콘볼루션 필터링 레이어의 필터들은 제1 콘볼루션 필터링 레이어의 필터들에 비하여 복잡한 에지를 필터링 할 수 있다. 콘볼루션 필터링 결과 풀링 영상으로부터 128개의 필터링 영상들이 생성될 수 있다. 제2 콘볼루션 필터링 레이어는 128개의 필터링 영상들에 포함된 노드들로 구성될 수 있다. 제2 콘볼루션 필터링 레이어에 포함된 각 노드들은 대응하는 풀링 영상의 4 x 4 크기의 영역으로부터 필터링 된 값을 수신할 수 있다.

제2 풀링 레이어에서 풀링을 통하여, 128개의 필터링 영상들로부터 대표 값들이 추출될 수 있다. 예를 들어, 제2 풀링 레이어에서 각 필터링 영상들에 대하여 3 x 3 크기의 윈도우를 2칸씩 슬라이드 하면서, 윈도우 내 최대 값이 추출될 수 있다. 풀링 결과 필터링 영상들에 대응하는 128개의 풀링 영상들이 생성될 수 있다. 제2 풀링 레이어는 128개의 풀링 영상들에 포함된 노드들로 구성될 수 있다. 제2 풀링 레이어에 포함된 각 노드들은 대응하는 필터링 영상의 3 x 3 크기의 영역으로부터 풀링 된 값을 수신할 수 있다. 이상과 같이, 제2 콘볼루션 필터링 레이어와 제2 풀링 레이어에서 입력 영상의 중간 복잡도의 특징들이 추출될 수 있다.

제3 콘볼루션 필터링 레이어에서 3 x 3 크기의 196개 필터들을 이용하여 콘볼루션 필터링이 수행할 수 있다. 196개 필터들 각각은 미리 정해진 에지를 필터링 할 수 있다. 제3 콘볼루션 필터링 레이어의 필터들은 제2 콘볼루션 필터링 레이어의 필터들에 비하여 더 복잡한 에지를 필터링 할 수 있다. 콘볼루션 필터링 결과 풀링 영상으로부터 196개의 필터링 영상들이 생성될 수 있다. 제3 콘볼루션 필터링 레이어는 196개의 필터링 영상들에 포함된 노드들로 구성될 수 있다. 제3 콘볼루션 필터링 레이어에 포함된 각 노드들은 대응하는 풀링 영상의 3 x 3 크기의 영역으로부터 필터링 된 값을 수신할 수 있다.

제3 풀링 레이어에서 풀링을 통하여, 196개의 필터링 영상들로부터 대표 값들이 추출될 수 있다. 예를 들어, 제3 풀링 레이어에서 각 필터링 영상들에 대하여 3 x 3 크기의 윈도우를 2칸씩 슬라이드 하면서, 윈도우 내 평균 값이 추출될 수 있다. 풀링 결과 필터링 영상들에 대응하는 196개의 풀링 영상들이 생성될 수 있다. 제3 풀링 레이어는 196개의 풀링 영상들에 포함된 노드들로 구성될 수 있다. 제3 풀링 레이어에 포함된 각 노드들은 대응하는 필터링 영상의 3 x 3 크기의 영역으로부터 풀링 된 값을 수신할 수 있다. 이상과 같이, 제3 콘볼루션 필터링 레이어와 제3 풀링 레이어에서 입력 영상의 복잡한 특징들이 추출될 수 있다.

콘볼루션 레이어들(510)에서 인접한 레이어들 사이의 노드들은 부분적으로 연결되고, 연결 가중치가 공유될 수 있다. 반면, 완전 연결 레이어들(520)에서 인접한 레이어들 사이의 노드들은 완전 연결되고, 연결 가중치가 개별적으로 설정될 수 있다. 완전 연결 레이어들(520)은 인식기의 필터링 모듈의 출력에 기초하여 복수의 원소들에 대응하는 특징 값들을 출력하는 인식기의 원소 특징 출력 모듈에 대응할 수 있다.

완전 연결 레이어들(520)은 복수의 레이어들을 포함하고, 각 레이어들은 2048개의 노드들로 구성될 수 있다. 또한, 완전 연결 레이어들(520)에는 모델 정규화 알고리즘(Model regularization Algorithm)인 드랍아웃(Dropout)이 적용될 수 있다. 드랍아웃은 미리 정해진 비율의 노드(예를 들어, 50%의 노드)가 현재 학습 에폭(epoch)에서 랜덤하게 학습에 참여하지 않는 알고리즘이다.

로스 레이어(530)는 복수의 원소들에 대응하는 손실들을 계산할 수 있다. 로스 레이어(530)는 인식기의 원소 특징 출력 모듈의 출력에 기초하여 복수의 원소들을 인식하는 인식기의 선형 분류 모듈에 대응할 수 있다. 로스 레이어(530)는 복수의 원소들에 대응하는 복수의 선형 분류기들을 포함할 수 있다. 로스 레이어(530)는 선형 분류기들을 이용하여 완전 연결 레이어들(520)의 출력들로부터 복수의 원소들을 예측할 수 있고, 예측된 원소들과 실제 원소들을 비교함으로써 손실들을 계산할 수 있다.

손실들은 역 전파 기법을 통하여 완전 연결 레이어들(520) 및 콘볼루션 레이어들(510)로 역 전파될 수 있다. 역 전파된 손실들에 기초하여, 콘볼루션 레이어들(510) 및 완전 연결 레이어들(520) 내 연결 가중치들이 업데이트될 수 있다. 도 5를 참조하여 전술한 레이어의 구성, 노드의 수, 필터의 크기, 활성화 모델, 및 관련 알고리즘 등은 이해를 돕기 위한 예시에 불과하며, 데이터의 종류 및 실시 목적에 따라 다양하게 변경될 수 있다.

도 6은 일 실시예에 따른 멀티 채널 학습을 설명하는 도면이다. 도 6을 참조하면, 학습부(120)는 얼굴 영상으로부터 특성 영상들을 생성할 수 있다. 얼굴 영상은 트레이닝 영상으로부터 추출된 얼굴 영역의 영상일 수 있다. 특성 영상들은 얼굴 영상의 개별 특징들을 표현하는 영상들로, 예를 들어 색상(color)과 관련된 RGB 영상, 피부 확률(skin probability)과 관련된 스킨(skin) 영상, 및 외형선과 관련된 에지(edge) 영상을 포함할 수 있다. 일 예로, 학습부(120)는 얼굴 영상으로부터 색상에 영향을 미치는 조명 성분 등 노이즈(noise)를 제거함으로써 RGB 영상을 생성할 수 있다. 학습부(120)는 얼굴 영상에 포함된 픽셀들이 피부에 해당할 확률을 계산함으로써 스킨 영상을 생성할 수 있다. 학습부(120)는 얼굴 영상에서 방향성 그레디언트 매그니튜드(Oriented-Gradient Magnitude)를 계산함으로써 에지 영상을 생성할 수 있다.

학습부(120)는 특성 영상들로부터 아이디 및 속성들을 인식하도록 인식기(130)를 학습시킬 수 있다. 학습부(120)는 복수의 특성 영상들을 이용하여 인식기(130)를 학습시키므로, 도 6에 따른 학습부(120)의 동작은 멀티 채널(multi-channel) 학습이라고 지칭될 수 있다. 물론, 도 6에 따른 학습부(120)는 복수의 원소들을 함께 인식하도록 인식기(130)를 학습시키므로, 멀티 태스크 학습에도 해당한다.

도 7은 일 실시예에 따른 멀티 채널 학습의 원리를 설명하는 도면이다. 도 7을 참조하면, 학습부(120)는 얼굴 영상(710)으로부터 복수의 특성 영상들(720)을 생성할 수 있다. 학습부(120)는 복수의 특성 영상들(720)로부터 영상 별 특징들(730)을 추출할 수 있다. 학습부(120)는 영상 별 특징들(730)을 현재까지 학습된 인식기(740)에 입력할 수 있다.

인식기(740)는 입력 값들에 기초하여 복수의 원소들을 예측할 수 있다. 일 예로, 인식기(740)는 DCNN으로 구성될 수 있다. DCNN는 콘볼루션 레이어들, 완전 연결 레이어들, 및 로스 레이어를 이용하여 복수의 원소들을 예측할 수 있다. 학습부(120)는 얼굴 영상(710)에 레이블 된 실제 원소들을 알고 있으므로, 인식기(740)를 통하여 예측된 원소들과 실제 원소들 사이의 손실들(750)을 계산할 수 있다.

학습부(120)는 역 전파 기법을 이용하여 손실들이 감소되도록 인식기(420)를 업데이트할 수 있다. 예를 들어, 학습부(120)는 손실들이 역 방향으로 전파되는 과정에서, 손실들이 감소되도록 DCNN 내 노드들 사이의 연결 가중치들을 업데이트할 수 있다. 이처럼, 학습부(120)는 복수의 원소들에 대응하는 손실들을 함께 고려하여 인식기(740)를 학습시킬 수 있다. 업데이트가 완료된 인식기(760)는 다음 번 학습 에폭에 이용되며, 전술한 멀티 채널 학습 동작은 손실들이 미리 정해진 임계 값 미만이 될 때까지 반복적으로 수행될 수 있다.

도 8은 일 실시예에 따른 멀티 채널 학습을 위한 DCNN을 설명하는 도면이다. 도 8을 참조하면, 일 실시예에 따른 DCNN은 멀티 채널을 하나의 통합된 구조(Unified Framework)로 학습할 수 있다. 예를 들어, 각 채널의 특성 영상은 콘볼루션 레이어들(810)까지는 개별적으로 학습되고, 완전 연결 레이어들(820)에서 함께 연결되어서 학습될 수 있다. 이를 통해 특성이 다른 채널 별 콘볼루션 필터들은 콘볼루션 레이어들(810)에서 따로 학습되고, 매니폴드 특징 공간(Manifold Feature Space)이 충분히 언폴드(unfold) 된 완전 연결 레이어들(820)에서는 별도로 학습된 특징들이 서로 연결되어 함께 학습될 수 있다.

도 8의 구조는 예시적인 사항에 불과하며, 복수의 채널들이 서로 연결되는 시점은 DCNN의 구조와 인식의 목적 등에 따라 한정되지 않고 다양하게 변화될 수 있다. 예를 들어, 도 9를 참조하면, 멀티 채널은 각각 개별 DCNN에서 학습되고, 수학식 1에 의하여 늦은 퓨전(late fusion) 될 수 있다.

여기서, M은 DCNN의 수이고, K는 각 DCNN의 클래스의 수에 해당하는 출력 노드 수이며, x는 입력 데이터이고, x^T는 입력 데이터 x가 트랜스포즈(transpose) 된 데이터이며, y는 출력 데이터이다. P(y = k | x)는 입력 데이터 x가 입력될 때 출력 데이터 y가 k일 확률이다. m은 개별 DCNN의 인덱스이고, k는 해당 DNCC의 클래스의 인덱스이며, w_k는 현재까지 학습된 DCNN의 k번째 클래스를 위한 가중치일 수 있다.

도 10은 일 실시예에 따른 멀티 파트 학습을 설명하는 도면이다. 도 10을 참조하면, 학습부(120)는 얼굴 영상으로부터 복수의 부분 영상들을 추출할 수 있다. 얼굴 영상은 트레이닝 영상으로부터 추출된 얼굴 영역의 영상일 수 있다. 부분 영상들은 얼굴 영상 내 개별 구성요소들을 표현하는 영상들로, 예를 들어 눈 부분 영상, 코 부분 영상, 입 부분 영상 등을 포함할 수 있다.

학습부(120)는 얼굴 영상 및 부분 영상들로부터 얼굴 아이디, 얼굴 속성들, 및 각 부분 영상들의 속성들을 인식하도록 인식기(130)를 학습시킬 수 있다. 얼굴 아이디는 사용자를 식별하는 정보일 수 있다. 얼굴 속성들 및 각 부분 영상들의 속성들은 서로 다를 수 있다. 예를 들어, 얼굴 속성들은 성별, 나이, 인종, 매력도, 표정 등을 포함할 수 있다. 또한, 눈 속성은 눈 모양, 눈썹 모양, 눈 색상 등을 포함할 수 있다. 코 속성은 코 모양 등을 포함하고, 턱 속성은 턱 모양 등을 포함하며, 입 속성은 입 모양 등을 포함할 수 있다. 머리 속성은 머리 색상, 머리 스타일 등을 포함할 수 있다. 트레이닝 영상에는 얼굴 속성들뿐 아니라 각 부분 영상들의 속성들도 함께 레이블 될 수 있다.

학습부(120)는 복수의 부분 영상들을 이용하여 인식기(130)를 학습시키므로, 도 10에 따른 학습부(120)의 동작은 멀티 파트(multi-part) 학습이라고 지칭될 수 있다. 물론, 도 10에 따른 학습부(120)는 복수의 원소들을 함께 인식하도록 인식기(130)를 학습시키므로, 멀티 태스크 학습에도 해당한다. 멀티 파트 학습은 부분 영상들을 이용하여 채널을 증강하는 것이므로, 넓은 의미의 멀티 채널 학습이라고 볼 수도 있다.

도 11은 일 실시예에 따른 멀티 파트 학습을 위한 DCNN을 설명하는 도면이다. 도 11을 참조하면, 멀티 파트는 각각 개별 DCNN에서 학습될 수 있다. 또는, 멀티 파트의 출력들은 수학식 1에 의하여 늦은 퓨전 될 수 있다. 개별 DCNN에서 각각 180 디멘션의 특징들이 생성되는 경우, 이들이 결합된 1440 디멘션의 특징이 인식에 이용될 수 있다.

도 12는 일 실시예에 따른 멀티 파트 학습 및 멀티 채널 학습의 조합을 설명하는 도면이다. 도 12를 참조하면, 학습부(120)는 얼굴 영상으로부터 복수의 부분 영상들을 추출할 수 있다. 학습부(120)는 얼굴 영상 및 부분 영상들 각각으로부터 특성 영상들을 생성할 수 있다. 학습부(120)는 얼굴 영상 및 부분 영상들 각각으로부터 생성된 특성 영상들로부터 얼굴 아이디, 얼굴 속성들, 및 각 부분 영상들의 속성들을 인식하도록 인식기(130)를 학습시킬 수 있다. 학습부(120)는 여러 파트들을 학습함으로써, 눈이나 코 등 일부 파트만 보고도 얼굴 아이디를 인식하는 기술을 제공할 수 있다.

일 실시예에 따르면, 학습부(120)는 DCNN의 각 레이어들에 포함된 노드들의 활성화 모델을 확률적으로 제어함으로써, 인식기(130)가 더 다양한 환경에서 학습되도록 할 수 있다. 특정 노드의 활성화 모델은 해당 노드로 입력되는 값들에 기초하여 해당 노드로부터 출력되는 값을 결정하는 모델일 수 있다. 학습부(120)는 DCNN 내 노드들의 활성화 모델을 확률적으로 제어하기 위하여, 확률 구분적 선형 활성화 모델을 이용할 수 있다. 도 13은 일 실시예에 따른 확률 구분적 선형 활성화 모델과 일반적인 확정 구분적 선형 활성화 모델을 비교하는 도면이다.

도 13을 참조하면, 일반적인 확정 구분적 선형 활성화 (Deterministic Piecewise Linear Activation) 모델(1310)은 수학식 2와 같이 표현될 수 있다. 확정 구분적 선형 활성화 모델(1310)에서 x축은 입력 값이고, y축은 출력 값이다. x축의 구분된 영역들에 대하여 서로 다른 선형 함수들로 출력 값이 표현될 수 있다.

여기서, h_i(x)는 i번째 영역에서의 출력 함수이고, k는 개별 DCNN의 인덱스이고, W_...ij와 b_ij는 구분적 선형 함수(piecewise linear function) z_ij를 위한 파라미터들로써, W_...ij는 i번째 뉴런의 j번째 구분적 선형 함수의 학습된 가중치이고, b_ij는 바이어스 텀(bias term)이다.

일 실시예에 따른 확률 구분적 선형 활성화 (Stochastic Piecewise Linear Activation) 모델(1320)은 수학식 3과 같이 표현될 수 있다. 확률 구분적 선형 활성화 모델(1320)에서도 x축은 입력 값이고, y축은 출력 값이다.

여기서, N(0, σ(x))는 확률 노이즈이고, σ(x)는 x의 표준편차일 수 있다.

W'_...ij는 i번째 뉴런의 j번째 구분적 선형 함수의 학습된 가중치이고, b_ij는 바이어스 텀이다.

확정 구분적 선형 활성화 모델(1310)과 달리, 확률 구분적 선형 활성화 모델(1320)은 확률 노이즈(Stochastic noise) N를 구분적 선형 함수(piecewise linear function)에 추가한다. 확률 노이즈 N으로 인하여, 확률 구분적 선형 활성화 모델(1320)을 사용하는 경우, 확정 구분적 선형 활성화 모델(1310)을 사용하는 경우에 비하여 더 다양한 환경에서 인식기(130)가 학습될 수 있다. 이로 인하여, 향후 인식 단계에서 인식기(130)가 새로운 데이터를 인식하는 성능이 향상될 수 있다.

도 14는 일 실시예에 따른 인식 장치를 설명하는 블록도이다. 도 14를 참조하면, 일 실시예에 따른 인식 장치(1400)는 수신부(1410) 및 인식부(1420)를 포함한다. 수신부(1410)는 입력 영상을 수신한다. 트레이닝 영상과 달리, 입력 영상은 레이블 된 정보를 포함하지 않는다. 인식부(1420)는 기 학습된 인식기를 이용하여, 수신된 입력 영상과 관련된 복수의 원소들을 인식한다. 기 학습된 인식기는 도 1의 학습 장치(100)에 의하여 학습된 인식기일 수 있다.

인식 장치(1400)는 얼굴을 인식하는 장치일 수 있다. 예를 들어, 인식 장치(1400)는 얼굴이 포함된 입력 영상을 수신하고, 기 학습된 인식기를 이용하여 수신된 입력 영상으로부터 얼굴 아이디 및 얼굴 속성들을 인식할 수 있다.

수신부(1410) 및 인식부(1420)는 소프트웨어 모듈, 하드웨어 모듈, 또는 이들의 조합으로 구현될 수 있다. 인식 장치(1400)는 스마트 폰, 테블릿 컴퓨터, 랩톱 컴퓨터, 데스크톱 컴퓨터, 텔레비전, 웨어러블 장치, 보안 시스템, 스마트 홈 시스템 등 다양한 컴퓨팅 장치 및/또는 시스템에 탑재될 수 있다.

도 15는 실시예들에 따른 인식부의 동작들을 설명하는 도면이다. 도 15(a)를 참조하면, 인식부(1420)는 얼굴 영상으로부터 아이디 및 속성들을 인식할 수 있다. 얼굴 영상은 입력 영상으로부터 추출된 얼굴 영역의 영상일 수 있다. 인식부(1420)는 도 2를 통하여 전술한 멀티 태스크 학습에 의하여 학습된 인식기를 이용할 수 있다.

도 15(b)를 참조하면, 인식부(1420)는 얼굴 영상으로부터 복수의 특성 영상들을 생성할 수 있다. 예를 들어, 인식부(1420)는 얼굴 영상으로부터 RGB 영상, 스킨 영상, 및 에지 영상을 생성할 수 있다. 인식부(1420)는 복수의 특성 영상들로부터 아이디 및 속성들을 인식할 수 있다. 인식부(1420)는 도 6을 통하여 전술한 멀티 채널 학습에 의하여 학습된 인식기를 이용할 수 있다.

도 15(c)를 참조하면, 인식부(1420)는 얼굴 영상으로부터 복수의 부분 영상들을 추출할 수 있다. 예를 들어, 인식부(1420)는 얼굴 영상으로부터 눈 부분 영상, 코 부분 영상, 입 부분 영상 등을 추출할 수 있다. 인식부(1420)는 얼굴 영상 및 복수의 부분 영상들로부터 아이디 및 속성들을 인식할 수 있다. 경우에 따라, 인식부(1420)는 부분 영상의 아이디와 속성들을 더 인식할 수 있다. 인식부(1420)는 도 10을 통하여 전술한 멀티 파트 학습에 의하여 학습된 인식기를 이용할 수 있다.

도 15(d)를 참조하면, 인식부(1420)는 얼굴 영상으로부터 복수의 부분 영상들을 추출할 수 있다. 인식부(1420)는 얼굴 영상 및 부분 영상들 각각으로부터 특성 영상들을 생성할 수 있다. 인식부(1420)는 얼굴 영상 및 부분 영상들 각각으로부터 생성된 특성 영상들로부터 아이디 및 속성들을 인식할 수 있다. 경우에 따라, 인식부(1420)는 부분 영상의 아이디와 속성들을 더 인식할 수 있다. 인식부(1420)는 도 12를 통하여 전술한 멀티 파트 학습 및 멀티 채널 학습의 조합에 의하여 학습된 인식기를 이용할 수 있다.

도 16은 일 실시예에 따른 사용자 인터페이스를 설명하는 도면이다. 도 16을 참조하면, 인식 장치(1400)는 입력 영상(1610)으로부터 얼굴 영역(1620)을 추출할 수 있다. 인식 장치(1400)는 기 학습된 인식기를 이용하여 얼굴 영역(1620)으로부터 복수의 원소들을 인식할 수 있다. 사용자 인터페이스(1630)는 인식된 복수의 원소들을 표시할 수 있다. 예를 들어, 복수의 원소들은 나이, 성별, 인종, 매력도, 표정, 감정 등을 포함할 수 있다. 사용자 인터페이스(1630)는 각 원소들이 가질 수 있는 후보 값들을 표시하고, 후보 값들 각각에 대한 인식 신뢰도를 표시할 수 있다. 사용자 인터페이스(1630)는 각 원소들에 대하여 가장 높은 인식 신뢰도를 가지는 후보 값을 강조하여 표현할 수 있다. 도 16의 사용자 인터페이스(1630)는 예시적인 사항에 불과하며, 사용자 인터페이스(1630)는 다양하게 변형될 수 있다.

도 17 내지 도 24는 일 실시예에 따른 얼굴 인식 장치를 설명하는 도면들이다. 도 17을 참조하면, 일 실시예에 따른 얼굴 인식 장치는 인상 속성들(Physiognomy Attributes)과 아이디를 다중 인식한다. 얼굴 인식 장치는 얼굴 추출부(1720), 얼굴 부위 분할부(1730), 멀티 채널 생성부(1740), 및 멀티 태스크 인식부(1760)를 포함한다. 얼굴 추출부(1720)는 입력 영상(1710)으로부터 얼굴 영상을 추출할 수 있다. 얼굴 부위 분할부(1730)는 얼굴 영상을 여러 부분 영상으로 분할할 수 있다. 멀티 채널 생성부(1740)는 각 부분 영상을 다중 채널 영상으로 증강할 수 있다. 멀티 태스크 인식부(1760)는 다중 학습된 인식기를 이용하여 다중 채널 영상으로부터 인상 속성들 및 아이디를 다중 인식할 수 있다.

얼굴 인식 장치는 인상 속성들과 아이디를 다중 학습하기 위한 멀티 태스크 학습부(1750)를 더 포함할 수 있다. 멀티 태스크 학습부(1750)는 다중 채널 영상으로부터 인상 속성들 및 아이디를 다중 인식 하도록 인식기를 학습시킬 수 있다.

도 18을 참조하면, 얼굴 추출부(1720)는 얼굴 검출부(1721), 랜드마크 검출부(1722), 및 자세 정규화부(1723)를 포함할 수 있다. 얼굴 검출부(1721)는 입력 영상(1710)에서 얼굴 영역을 검출할 수 있다. 랜드마크 검출부(1722)는 검출된 얼굴 영역에서 랜드마크를 검출할 수 있다. 랜드마크는 눈썹, 눈, 코, 입 등 두드러지는 외형선 상에 존재하는 특징점들일 수 있다. 자세 정규화부(1723)는 랜드마크를 이용하여 영상의 자세를 미리 정해진 방향(예를 들어, 정면)으로 정규화할 수 있다.

도 19를 참조하면, 얼굴 부위 분할부(1730)는 내부 얼굴 영역 분할부(1731), 얼굴 구성 분할부(1732), 및 외부 얼굴 영역 분할부(1733)를 포함할 수 있다. 내부 얼굴 영역 분할부(1731)는 얼굴 영상으로부터 눈, 코, 입 등 주요 부위들을 포함하는 내부 영역을 분할할 수 있다. 예를 들어, 도 25를 참조하면, 내부 얼굴 영역 분할부(1731)는 얼굴 영상으로부터 얼굴 전면(holistic face)에 해당하는 영역을 분할하여 추출할 수 있다. 얼굴 구성 분할부(1732)는 내부 영역을 주요 부위들로 분할할 수 있다. 예를 들어, 도 25를 참조하면, 얼굴 구성 분할부(1732)는 얼굴 전면에 해당하는 영역으로부터 눈(eyes), 코(nose), 입(mouth), 턱(chin/jaw), 광대뼈(cheekbone), 인중(nose-mouth) 등 주요 부위들에 해당하는 영역들을 분할하여 추출할 수 있다. 외부 얼굴 영역 분할부(1733)는 얼굴 영상으로부터 헤어 등 외부 영역을 분할할 수 있다. 예를 들어, 도 25를 참조하면, 외부 얼굴 분할부(1731)는 얼굴 영상으로부터 머리(hairs)에 해당하는 영역을 분할하여 추출할 수 있다.

도 20을 참조하면, 멀티 채널 생성부(1740)는 조명 향상 색상 채널부(1741), 방향성 그레디언트 매그니튜드 채널부(1742), 피부 확률 채널부(1743), 및 로컬 바이너리 패턴 채널부(1744)를 포함할 수 있다. 조명 향상 색상 채널부(1741)는 얼굴 영상 또는 부분 영상에서 조명에 의한 노이즈를 제거함으로써 색상 채널을 생성할 수 있다. 방향성 그레디언트 매그니튜드 채널부(1742)는 얼굴 영상 또는 부분 영상에서 방향성 그레디언트 매그니튜드를 계산함으로써 에지 채널을 생성할 수 있다. 피부 확률 채널부(1743)는 얼굴 영상 또는 부분 영상에서 피부색 확률을 계산함으로써 스킨 채널을 생성할 수 있다. 로컬 바이너리 패턴 채널부(1744)는 얼굴 영상 또는 부분 영상에 포함된 텍스쳐 패턴 또는 모양 패턴을 추출함으로써 패턴 채널을 생성할 수 있다.

도 21을 참조하면, 멀티 태스크 학습부(1750)는 모델 파라미터 초기화부(1751), 트레이닝 배치 선택부(1752), 전파부(1753), 손실 계산부(1754), 및 역 전파부(1755)를 포함할 수 있다. 초기화부(1751)는 DCNN의 학습을 위하여 초기 연결 가중치들, 바이어스(bias) 등 모델 파라미터를 초기화할 수 있다. 바이어스는 DCNN에 포함된 노드들의 활성화 여부를 결정하는 임계 정보일 수 있다. 트레이닝 배치 선택부(1752)는 학습을 위한 트레이닝 데이터를 선택할 수 있다. 트레이닝 데이터는 멀티 채널 생성부(1740)에 의하여 생성된 멀티 채널 데이터 및 레이블 된 정보(예를 들어, 아이디, 속성들)로 구성될 수 있다. 전파부(1753)는 트레이닝 데이터를 DCNN에 입력하고, DCNN은 현재 설정된 모델 파라미터에 기초하여 계산된 결과 값을 출력할 수 있다. 손실 계산부(1754)는 수학식 4를 이용하여 손실을 계산할 수 있다.

여기서, x는 입력이고, f _DCNN (x)는 DCNN의 출력이며, l _attr 은 실제 속성이고, l _ID 는 실제 아이디이며, L _attr ()은 속성 손실을 구하는 함수이고, L _ID ()는 아이디 손실을 구하는 함수이며, λ는 속성 손실 대비 아이디 손실의 기여도를 제어하는 계수이고, L()은 총 손실을 계산하는 함수이다. 손실을 계산하는 방법은 수학식 4에 국한되지 않고, 인상 속성들과 아이디를 함께 이용하여 손실을 계산하는 기술적 사상이 유지되는 한 다양하게 변형될 수 있다. 예를 들어, 힌지 손실(Hinge Loss), 스퀘어 손실(Square Loss), 소프트맥스 손실(Softmax Loss), 크로스-엔트로피 손실(Cross-entropy Loss), 절대 손실(Absolute Loss), 인센시티브 손실(Insensitive Loss) 등이 목적에 따라 사용될 수 있다.

역 전파부(1755)는 손실을 역 전파함으로써 DCNN의 모델 파라미터를 업데이트할 수 있다. DCNN의 모델 파라미터를 업데이트한 이후, 트레이닝 배치 선택부(1752), 전파부(1753), 손실 계산부(1754), 및 역 전파부(1755)의 동작은 학습이 완료될 때까지 반복적으로 수행될 수 있다.

도 22를 참조하면, DCNN은 콘볼루션 필터링 레이어(2210), 풀링 레이어(2220), 완전 연결 레이어(2230), 및 확률 구분적 선형 활성화 레이어(2240)로 구성될 수 있다. 각각의 레이어는 목적에 따라 반복 구성될 수 있다. 일 예로, 콘볼루션 필터링 레이어(2210)의 출력은 풀링 레이어(2220)로 전달되고, 풀링 레이어(2220)의 출력은 연결 레이어(2230)로 전달될 수 있다. 다른 예로, 콘볼루션 필터링 레이어(2210)의 출력은 확률 구분적 선형 활성화 레이어(2240)를 거쳐 풀링 레이어(2220)로 전달되고, 풀링 레이어(2220)의 출력은 확률 구분적 선형 활성화 레이어(2240)를 거쳐 완전 연결 레이어(2230)로 전달될 수 있다. 전술한 레이어들의 구성은 단지 예시적인 사항에 불과하며, 실시예들에 따른 레이어들의 구성은 다양하게 변경될 수 있다.

도 23을 참조하면, 멀티 태스크 인식부(1760)는 전파부(1761), 아이디 분류부(1762), 및 속성 분류부(1763)를 포함할 수 있다. 전파부(1761)는 학습된 인식기에 멀티 채널 데이터를 포워드 전파(forward propagation) 시킬 수 있다. 아이디 분류부(1762) 및 속성 분류부(1763)는 인식기에서 출력되는 특징 값들을 이용하여 아이디 및 속성들을 분류(classification)할 수 있다.

도 24를 참조하면, 멀티 태스크 인식부(1760)는 전파부(2410), 아이디 분류부(2420), 속성 분류부(2430), 특징 생성부(2440), 및 인증부(2450)를 포함할 수 있다. 멀티 태스크 인식부(1760)는 학습된 인식기를 이용하여 두 입력 영상들이 서로 같은지 여부를 인증할 수 있다. 전파부(2410)는 학습된 인식기에 두 입력 영상들의 멀티 채널 데이터들을 각각 포워드 전파시키고, 아이디 분류부(2420) 및 속성 분류부(2430)는 인식기에서 출력되는 특징 값들을 이용하여 두 입력 영상들 각각의 아이디 및 속성들을 분류할 수 있다.

특징 생성부(2440)는 아이디 분류부(2420) 및 속성 분류부(2430)의 출력을 조합하여 두 입력 영상들 각각을 위한 특징 벡터를 생성할 수 있다. 인증부(2450)는 생성된 특징 벡터들 사이의 유사도 거리(Similarity Distance)를 계산하고, 유사도 거리가 가까우면 참으로, 유사도 거리가 멀면 거짓으로 인증할 수 있다.

경우에 따라, 특징 생성부(2440)의 출력을 이용하여 별도의 인식기(예를 들어, SVM, Random Forest, Joint Bayesian 등)가 학습될 수 있다. 이 경우, 인증부(2450)는 기 학습된 별도의 인식기에 특징 생성부(2440)의 출력을 인가함으로써, 인증을 수행할 수도 있다.

도 25 내지 도 30은 실시예들에 따른 속성들을 설명하는 도면들이다. 도 25를 참조하면, 얼굴의 부위별로 속성들이 상이하게 설정될 수 있다. 도 26 내지 도 30을 참조하면, 각 속성들은 적어도 하나의 디멘션으로 표현될 수 있으며 전술한 DCNN을 학습시키는 데 이용될 수 있다.

실시예들은 인상학(Physiognomy)에 기반하여 얼굴을 얼굴 내부, 눈, 코, 귀, 입, 얼굴외부로 나누고, 각 부분의 속성들을 인식함으로써, 얼굴 인증에 유리한 기술을 제공할 수 있다. 실시예들은 핸드 크레프트(Hand-craft) 특징이 아닌 학습 기반의 특징을 사용하여 학습 데이터가 아닌 실제 영상에도 최적화된 인식을 하는 기술을 제공할 수 있다. 실시예들은 중간 레벨 특징인 인상학 기반의 얼굴 속성들 및 얼굴 인증을 하나의 인식기로 다중 인식(Multi-task recognition)하는 기술을 제공할 수 있다.

실시예들은 얼굴 인식기를 학습할 때 얼굴 속성 및 인증의 정확성을 함께 고려함으로써 인증 성능을 향상 시킬 수 있다. 실시예들은 여러 개의 확률 선형(Stochastic Linear) 함수를 조합하여 활성화 함수로 사용함으로써, 실제 데이터에서도 인식 성능을 향상 시킬 수 있다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 비록 한정된 도면에 의해 실시예들이 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

트레이닝 영상을 수신하는 단계; 및
상기 트레이닝 영상, 및 상기 트레이닝 영상에 레이블 된 복수의 원소들에 기초하여, 상기 트레이닝 영상에 포함된 얼굴 영역으로부터 상기 얼굴 영역과 관련된 복수의 원소들을 인식하는 인식기를 학습시키는 단계
를 포함하고,
상기 인식기를 학습시키는 단계는
상기 트레이닝 영상으로부터 복수의 특성 영상들을 생성하는 단계;
상기 특성 영상들 별로 상기 복수의 원소들에 대응하는 손실(loss)들을 계산하는 단계;
상기 손실들이 하나로 통합된 손실에 기초하여, 상기 인식기의 뉴럴 네트워크에 포함된 노드들 사이의 가중치(weight)들을 동시에 학습시키는 단계
를 포함하고,
상기 트레이닝 영상은, 상기 얼굴 영역으로부터 분할되는 복수의 얼굴 부위를 나타내는 복수의 영상을 포함하고,
상기 복수의 원소들은
상기 입력 영상을 식별하는 아이디; 및
상기 입력 영상에 포함된 둘 이상의 속성을 포함하고,
상기 속성은
상기 트레이닝 영상에 포함된 얼굴 영역에 대응하는 성별;
상기 얼굴 영역에 대응하는 나이;
상기 얼굴 영역에 대응하는 인종
상기 얼굴 영역에 대응하는 매력도; 및
상기 얼굴 영역에 대응하는 표정
중 하나이고.
상기 복수의 특성 영상들은
조명에 의한 노이즈가 제거된 색상(color) 채널 영상;
기울기 방향성 매그니튜드(oriented-gradient magnitude) 채널 영상
피부색 확률(skin probability) 채널 영상; 및
로컬 바이너리 패턴(local binary pattern) 채널 영상
중 둘 이상을 포함하는,
를 포함하는, 인식기 학습 방법.
얼굴 영역을 포함하는 입력 영상을 수신하는 단계;
상기 입력 영상의 얼굴 부위에 따라 복수의 부분 영상들로 분할하는 단계;
상기 복수의 부분 영상들 각각에 대해 복수의 특성 영상들을 생성하는 단계; 및
복수의 원소들을 인식하도록 기 학습된 단일 인식기를 이용하여, 상기 복수의 부분 영상들 각각에 대한 복수의 특성 영상들로부터 상기 입력 영상에 포함된 얼굴 영역과 관련된 복수의 원소들을 동시에 인식하는 단계
를 포함하고,
상기 복수의 원소들은
상기 입력 영상을 식별하는 아이디; 및
상기 입력 영상에 포함된 적어도 하나의 속성을 포함하는 인식 방법.