KR20230021043A - 객체 인식 방법 및 장치, 및 인식기 학습 방법 및 장치 - Google Patents

객체 인식 방법 및 장치, 및 인식기 학습 방법 및 장치 Download PDF

Info

Publication number
KR20230021043A
KR20230021043A KR1020230009732A KR20230009732A KR20230021043A KR 20230021043 A KR20230021043 A KR 20230021043A KR 1020230009732 A KR1020230009732 A KR 1020230009732A KR 20230009732 A KR20230009732 A KR 20230009732A KR 20230021043 A KR20230021043 A KR 20230021043A
Authority
KR
South Korea
Prior art keywords
image
recognizer
face
learning
elements
Prior art date
Application number
KR1020230009732A
Other languages
English (en)
Inventor
유병인
김남준
이창교
최창규
한재준
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020150086658A external-priority patent/KR20160061856A/ko
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of KR20230021043A publication Critical patent/KR20230021043A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2111Selection of the most significant subset of features by using evolutionary computational techniques, e.g. genetic algorithms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/178Human faces, e.g. facial parts, sketches or expressions estimating age from face image; using age information for improving recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Physiology (AREA)
  • Image Analysis (AREA)

Abstract

객체 인식 방법 및 장치, 및 인식기 학습 방법 및 장치가 개시된다. 실시예들은 학습 단계에서 얼굴 인식과 속성 분류를 동시에 학습하여, 인식 단계에서 다양한 인식 결과를 동시에 도출하는 기술을 제공한다.

Description

객체 인식 방법 및 장치, 및 인식기 학습 방법 및 장치{METHOD AND APPARATUS FOR RECOGNIZING OBJECT, AND METHOD AND APPARATUS FOR LEARNING RECOGNIZER}
아래 실시예들은 객체 인식 방법 및 장치, 및 인식기 학습 방법 및 장치에 관한 것이다.
얼굴 영상에 주성분 분석법(Principal Component Analysis: 이하, PCA라 약칭함)을 적용하여 얼굴을 인식하는 기술이 있다. 주성분 분석법은 영상 데이터를 영상 자체의 고유정보의 손실을 최소화하면서 저 차원 고유벡터 공간으로 투영시켜 정보를 축소시키는 기법이다. 주성분 분석법을 이용한 얼굴 인식 방법으로는 얼굴의 주요 특징 벡터를 추출한 후, 미리 등록된 영상으로부터 추출된 주성분 벡터로 학습된 패턴 분류기를 이용하여 얼굴을 인식하는 방법이 많이 사용된다.
일 측에 따른 인식 방법은 입력 영상을 수신하는 단계; 및 복수의 원소들을 함께 인식하도록 기 학습된 단일 인식기를 이용하여, 상기 입력 영상과 관련된 복수의 원소들을 인식하는 단계를 포함한다.
상기 복수의 원소들은 상기 입력 영상을 식별하는 아이디; 및 상기 입력 영상과 관련된 속성을 포함할 수 있다. 상기 속성은 상기 입력 영상에 포함된 얼굴 영역에 대응하는 성별; 상기 얼굴 영역에 대응하는 나이; 상기 얼굴 영역에 대응하는 인종; 및 상기 얼굴 영역에 대응하는 매력도, 및 상기 얼굴 영역에 대응하는 표정 중 어느 하나를 포함할 수 있다. 또는, 상기 속성은 상기 성별, 상기 나이, 상기 인종, 상기 매력도, 및 상기 표정 중 적어도 둘을 포함할 수 있다.
상기 인식하는 단계는 상기 입력 영상에 기초하여 복수의 특성 영상들을 생성하는 단계를 포함할 수 있다. 상기 복수의 특성 영상들은 조명에 의한 노이즈가 제거된 색상(color) 채널 영상; 기울기 방향성 매그니튜드(oriented-gradient magnitude) 채널 영상; 피부색 확률(skin probability) 채널 영상; 및 로컬 바이너리 패턴(local binary pattern) 채널 영상 중 적어도 하나를 포함할 수 있다.
상기 인식하는 단계는 상기 트레이닝 영상에 포함된 얼굴의 부위에 따른 복수의 부분 영상들을 획득하는 단계; 및 상기 복수의 부분 영상들 각각에 대응하는 복수의 특성 영상들을 생성하는 단계를 포함할 수 있다.
일 측에 따른 인식기 학습 방법은 트레이닝 영상을 수신하는 단계; 및 상기 트레이닝 영상, 및 상기 트레이닝 영상에 레이블 된 복수의 원소들에 기초하여, 입력 영상으로부터 복수의 원소들을 인식하는 인식기를 학습시키는 단계를 포함한다.
상기 인식기를 학습시키는 단계는 상기 복수의 원소들에 대응하는 손실(loss)들을 계산하는 단계를 포함할 수 있다. 상기 인식기는 뉴럴 네트워크를 포함하고, 상기 뉴럴 네트워크에 포함된 노드들은 확률 구분적 선형(stochastic piecewise linear) 모델에 따라 활성화(activation) 될 수 있다.
일 측에 따른 인식 장치는 입력 영상을 수신하는 수신부; 및 기 학습된 단일 인식기를 이용하여, 상기 입력 영상과 관련된 복수의 원소들을 인식하는 인식부를 포함한다.
일 측에 따른 인식기 학습 장치는 트레이닝 영상을 수신하는 수신부; 및 상기 트레이닝 영상, 및 상기 트레이닝 영상에 레이블 된 복수의 원소들에 기초하여, 상기 복수의 원소들을 인식하는 인식기를 학습시키는 학습부를 포함한다.
도 1은 일 실시예에 따른 학습 장치를 설명하는 블록도.
도 2는 일 실시예에 따른 멀티 태스크 학습을 설명하는 도면.
도 3은 일 실시예에 따른 원소들을 조인트 학습함으로써 인식기의 정확도가 향상되는 원리를 설명하는 도면.
도 4는 일 실시예에 따른 멀티 태스크 학습의 원리를 설명하는 도면.
도 5는 일 실시예에 따른 딥 콘볼루셔널 신경망 (Deep Convolutional Neural Network, DCNN)의 일 예시를 설명하는 도면.
도 6은 일 실시예에 따른 멀티 채널 학습을 설명하는 도면.
도 7은 일 실시예에 따른 멀티 채널 학습의 원리를 설명하는 도면.
도 8 및 도 9는 실시예들에 따른 멀티 채널 학습을 위한 DCNN을 설명하는 도면들.
도 10은 일 실시예에 따른 멀티 파트 학습을 설명하는 도면.
도 11은 일 실시예에 따른 멀티 파트 학습을 위한 DCNN을 설명하는 도면.
도 12는 일 실시예에 따른 멀티 파트 학습 및 멀티 채널 학습의 조합을 설명하는 도면.
도 13은 일 실시예에 따른 확률 구분적 선형 활성화 모델과 일반적인 확정구분형 선형 활성화 모델을 비교하는 도면.
도 14는 일 실시예에 따른 인식 장치를 설명하는 블록도.
도 15는 실시예들에 따른 인식부의 동작들을 설명하는 도면.
도 16은 일 실시예에 따른 사용자 인터페이스를 설명하는 도면.
도 17 내지 도 24는 일 실시예에 따른 얼굴 인식 장치를 설명하는 도면들.
도 25 내지 도 30은 실시예들에 따른 속성들을 설명하는 도면들.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다. 아래에서 설명할 실시예들은 얼굴 등 객체를 인식하는 기술에 사용될 수 있다. 실시예들은 사용자 인식, 사용자 인증, 사진 등의 멀티미디어 검색 및 관리 등에 적용될 수 있다.
도 1은 일 실시예에 따른 학습 장치를 설명하는 블록도이다. 도 1을 참조하면, 일 실시예에 따른 학습 장치(100)는 수신부(110) 및 학습부(120)를 포함한다. 수신부(110)는 트레이닝 영상을 수신한다. 학습부(120)는 수신된 트레이닝 영상을 이용하여 인식기를 학습시킨다. 예를 들어, 학습 장치(100)는 얼굴 인식을 위한 인식기를 학습시킬 수 있다. 학습 장치(100)는 얼굴이 포함된 트레이닝 영상을 수신하고, 수신된 트레이닝 영상을 이용하여 얼굴을 인식하는 인식기를 학습시킬 수 있다.
수신부(110) 및 학습부(120)는 소프트웨어 모듈, 하드웨어 모듈, 또는 이들의 조합으로 구현될 수 있다. 학습 장치(100)는 스마트 폰, 테블릿 컴퓨터, 랩톱 컴퓨터, 데스크톱 컴퓨터, 텔레비전, 웨어러블 장치, 보안 시스템, 스마트 홈 시스템 등 다양한 컴퓨팅 장치 및/또는 시스템에 탑재될 수 있다.
트레이닝 영상에는 복수의 원소들이 레이블 될 수 있다. 복수의 원소들은 트레이닝 영상을 식별하는 아이디 및 트레이닝 영상과 관련된 속성들을 포함할 수 있다. 아이디는 트레이닝 영상에 포함된 객체를 식별하는 정보로, 예를 들어 트레이닝 영상에 포함된 사용자를 식별하는 정보일 수 있다. 속성들은 트레이닝 영상에 포함된 객체를 표현하는 정보로, 예를 들어 트레이닝 영상에 포함된 사용자의 얼굴 영역에 대응하는 성별, 나이, 인종, 매력도, 표정, 감정 등을 포함할 수 있다.
학습부(120)는 트레이닝 영상에 레이블 된 복수의 원소들에 기초하여, 트레이닝 영상으로부터 복수의 원소들을 인식하도록 인식기를 학습시킬 수 있다. 일반적인 얼굴 인식 기법들에 의하여 학습된 인식기와는 달리, 학습부(120)에 의하여 학습된 인식기는 입력 영상으로부터 복수의 원소들을 인식할 수 있다. 예를 들어, 일반적인 얼굴 인식 기법들에 의하여 학습된 인식기는 입력 영상으로부터 아이디만을 인식할 수 있는 반면, 학습부(120)에 의하여 학습된 인식기는 입력 영상으로부터 아이디뿐 아니라 성별, 나이, 인종, 매력도, 표정, 감정 등도 함께 인식할 수 있다. 학습부(120)에 의하여 학습된 인식기는 복수의 원소들을 다중 인식하는 단일 인식기일 수 있다.
도 2는 일 실시예에 따른 멀티 태스크 학습을 설명하는 도면이다. 도 2를 참조하면, 학습부(120)는 얼굴 영상으로부터 아이디 및 속성들을 인식하도록 인식기(130)를 학습시킬 수 있다. 얼굴 영상은 트레이닝 영상으로부터 추출된 얼굴 영역의 영상일 수 있다. 학습부(120)는 복수의 원소들을 함께 인식하도록 인식기(130)를 학습시키므로, 도 2에 따른 학습부(120)의 동작은 멀티 태스크(multi task) 학습이라고 지칭될 수 있다.
동일한 사람의 얼굴이더라도 상이한 조명, 자세, 표정, 가림 등에 따라 다르게 보일 수 있다. 이 경우, 동일한 사람의 얼굴들로부터 추출된 특징들 사이에서 상이한 분포(distribution)가 형성될 수 있다. 반대로, 다른 사람의 얼굴이더라도 유사한 조명, 자세, 표정, 가림 등에 따라 유사하게 보일 수 있다. 이 경우, 다른 사람의 얼굴들로부터 추출된 특징들 사이에서 유사한 분포가 형성될 수 있다.
학습부(120)에 의하여 학습된 인식기는 복수의 원소들을 함께 인식함으로써, 인식의 정확도를 향상시킬 수 있다. 예를 들어, 복수의 원소들은 눈 색깔, 코 모양 등 중간 레벨 속성들(mid-level attributes)을 포함할 수 있다. 중간 레벨 속성들은 조명, 자세, 표정, 가림 등의 변화에 강인(robust)하므로, 아이디와 중간 레벨 속성들을 조인트 학습(jointly learning)시킴으로써 인식의 정확도가 향상될 수 있다. 또는, 성별이나 헤어 스타일 등 서로 다른 사람을 명확하게 구별 가능한 속성들을 아이디와 함께 조인트 학습시킴으로써 인식의 정확도가 향상될 수 있다.
도 3은 일 실시예에 따른 원소들을 조인트 학습함으로써 인식기의 정확도가 향상되는 원리를 설명하는 도면이다. 도 3을 참조하면, 다양한 얼굴들이 존재하는 분포는 가우스 모델들의 혼합(310)으로 표현될 수 있다. 가우스 모델들의 혼합(310)은 중간 레벨 속성들에 의하여 분할될 수 있다. 중간 레벨 속성들 각각에 대응하는 얼굴들의 분포는 복수의 가우스 모델들(320)로 표현될 수 있다. 예를 들어, 가우스 모델들의 혼합(310)은 성별이 남자인 경우(h=1)의 가우스 모델, 성별이 여자인 경우(h=2)의 가우스 모델, 인종이 흑인인 경우(h=3)의 가우스 모델, 인종이 아시안인 경우(h=4)의 가우스 모델, 및 인종이 백인인 경우(h=5)의 가우스 모델로 분할될 수 있다.
중간 레벨 속성들은 픽셀 값 등 저 레벨 특징(low-level feature)에 비하여 강인하므로, 중간 레벨 속성들마다 인텐시브 학습(intensive learning)을 수행함으로써 인식의 정확도가 향상될 수 있다.
도 4는 일 실시예에 따른 멀티 태스크 학습의 원리를 설명하는 도면이다. 도 4를 참조하면, 학습부(120)는 얼굴 영상(410)을 현재까지 학습된 인식기(420)에 입력할 수 있다. 예를 들어, 학습부(120)는 얼굴 영상(410)으로부터 특징 벡터들을 추출하고, 추출된 특징 벡터들을 인식기(420)에 입력할 수 있다.
인식기(420)는 입력 값들에 기초하여 복수의 원소들에 대응하는 출력 값들을 생성할 수 있다. 인식기(420)는 인공 신경망 (artificial neural network)으로 구성될 수 있으며, 예를 들어 딥 콘볼루셔널 신경망 (Deep Convolutional Neural Network, DCNN)으로 구성될 수 있다. DCNN에 대한 보다 상세한 사항들은 도 5를 참조하여 후술한다.
인공 신경망은 입력 레이어, 히든 레이어, 및 출력 레이어를 포함할 수 있다. 각 레이어는 복수의 노드들을 포함하고, 인접한 레이어 사이의 노드들은 연결 가중치를 가지고 서로 연결될 수 있다. 각 노드들은 활성화 모델에 기초하여 동작할 수 있다. 활성화 모델에 따라 입력 값에 대응하는 출력 값이 결정될 수 있다. 임의의 노드의 출력 값은 해당 노드와 연결된 다음 레이어의 노드로 입력될 수 있다. 다음 레이어의 노드는 복수의 노드들로부터 출력되는 값들을 입력 받을 수 있다. 임의의 노드의 출력 값이 다음 레이어의 노드로 입력되는 과정에서, 연결 가중치가 적용될 수 있다. 다음 레이어의 노드는 활성화 모델에 기초하여 입력 값에 대응하는 출력 값을 해당 노드와 연결된 그 다음 레이어의 노드로 출력할 수 있다.
출력 레이어는 복수의 원소들에 대응하는 노드들을 포함할 수 있다. 출력 레이어의 노드들은 복수의 원소들에 대응하는 특징 값들을 출력할 수 있다. 아래에서 상세하게 설명하겠으나, 인공 신경망에서 출력되는 특징 값들은 복수의 원소들을 위한 선형 분류기들을 통하여 원소들로 변환될 수 있다. 학습부(120)는 얼굴 영상(410)에 레이블 된 실제 원소들을 알고 있으므로, 인식기(420)를 통하여 예측된 원소들과 실제 원소들 사이의 손실(loss)들(430)을 계산할 수 있다.
학습부(120)는 역 전파(back propagation) 기법을 이용하여 손실들이 감소되도록 인식기(420)를 업데이트할 수 있다. 예를 들어, 학습부(120)는 인식기(420) 내 인공 신경망의 출력 레이어로부터 히든 레이어를 거쳐 입력 레이어로 향하는 역 방향으로 손실들을 전파시킬 수 있다. 손실들이 역 방향으로 전파되는 과정에서, 손실들이 감소되도록 노드들 사이의 연결 가중치들이 업데이트될 수 있다. 이처럼, 학습부(120)는 복수의 원소들에 대응하는 손실들을 함께 고려하여 인식기(420)를 학습시킬 수 있다. 업데이트가 완료된 인식기(440)는 다음 번 학습 에폭(epoch)에 이용되며, 전술한 멀티 태스크 학습 동작은 손실들이 미리 정해진 임계 값 미만이 될 때까지 반복적으로 수행될 수 있다.
도 5는 일 실시예에 따른 딥 콘볼루셔널 신경망 (Deep Convolutional Neural Network, DCNN)의 일 예시를 설명하는 도면이다. 도 5를 참조하면, 일 실시예에 따른 DCNN은 콘볼루션 레이어들 (Convolution Layers) (510), 완전 연결 레이어들 (Fully Connected Layers) (520), 및 로스 레이어 (Loss Layer) (530)를 포함한다. 콘볼루션 레이어들(510)은 입력 영상을 필터링 하는 인식기의 필터링 모듈에 대응할 수 있다. 콘볼루션 레이어들(510)은 콘볼루션 필터링 레이어, 풀링 레이어, 또는 이들의 조합으로 구성될 수 있다. 예를 들어, 콘볼루션 레이어들(510)은 제1 콘볼루션 필터링 레이어, 제1 풀링 레이어, 제2 콘볼루션 필터링 레이어, 제2 풀링 레이어, 제3 콘볼루션 필터링 레이어, 및 제3 풀링 레이어를 포함할 수 있다.
제1 콘볼루션 필터링 레이어에서 8 x 8 크기의 64개 필터들을 이용하여 콘볼루션 필터링이 수행할 수 있다. 64개 필터들 각각은 미리 정해진 에지를 필터링 할 수 있다. 콘볼루션 필터링 결과 필터들에 대응하는 64개의 필터링 영상들이 생성될 수 있다. 제1 콘볼루션 필터링 레이어는 64개의 필터링 영상들에 포함된 노드들로 구성될 수 있다. 제1 콘볼루션 필터링 레이어에 포함된 각 노드들은 입력 영상의 8 x 8 크기의 영역으로부터 필터링 된 값을 수신할 수 있다. 제1 콘볼루션 필터링 레이어에 포함된 각 노드들의 활성화 모델로 ReLU (Rectifier Linear Unit)가 이용될 수 있다. ReLU는 0 이하의 입력에 대하여 0을 출력하고, 0을 초과하는 입력에 대하여 선형으로 비례하는 값을 출력하는 모델이다.
제1 풀링 레이어에서 풀링을 통하여, 64개의 필터링 영상들로부터 대표 값들이 추출될 수 있다. 예를 들어, 제1 풀링 레이어에서 각 필터링 영상들에 대하여 3 x 3 크기의 윈도우를 2칸씩 슬라이드 하면서, 윈도우 내 최대 값이 추출될 수 있다. 풀링 결과 필터링 영상들에 대응하는 64개의 풀링 영상들이 생성될 수 있다. 제1 풀링 레이어는 64개의 풀링 영상들에 포함된 노드들로 구성될 수 있다. 제1 풀링 레이어에 포함된 각 노드들은 대응하는 필터링 영상의 3 x 3 크기의 영역으로부터 풀링 된 값을 수신할 수 있다. 이상과 같이, 제1 콘볼루션 필터링 레이어와 제1 풀링 레이어에서 입력 영상의 가장 기본적인 특징들이 추출될 수 있다.
제2 콘볼루션 필터링 레이어에서 4 x 4 크기의 128개 필터들을 이용하여 콘볼루션 필터링이 수행할 수 있다. 128개 필터들 각각은 미리 정해진 에지를 필터링 할 수 있다. 제2 콘볼루션 필터링 레이어의 필터들은 제1 콘볼루션 필터링 레이어의 필터들에 비하여 복잡한 에지를 필터링 할 수 있다. 콘볼루션 필터링 결과 풀링 영상으로부터 128개의 필터링 영상들이 생성될 수 있다. 제2 콘볼루션 필터링 레이어는 128개의 필터링 영상들에 포함된 노드들로 구성될 수 있다. 제2 콘볼루션 필터링 레이어에 포함된 각 노드들은 대응하는 풀링 영상의 4 x 4 크기의 영역으로부터 필터링 된 값을 수신할 수 있다.
제2 풀링 레이어에서 풀링을 통하여, 128개의 필터링 영상들로부터 대표 값들이 추출될 수 있다. 예를 들어, 제2 풀링 레이어에서 각 필터링 영상들에 대하여 3 x 3 크기의 윈도우를 2칸씩 슬라이드 하면서, 윈도우 내 최대 값이 추출될 수 있다. 풀링 결과 필터링 영상들에 대응하는 128개의 풀링 영상들이 생성될 수 있다. 제2 풀링 레이어는 128개의 풀링 영상들에 포함된 노드들로 구성될 수 있다. 제2 풀링 레이어에 포함된 각 노드들은 대응하는 필터링 영상의 3 x 3 크기의 영역으로부터 풀링 된 값을 수신할 수 있다. 이상과 같이, 제2 콘볼루션 필터링 레이어와 제2 풀링 레이어에서 입력 영상의 중간 복잡도의 특징들이 추출될 수 있다.
제3 콘볼루션 필터링 레이어에서 3 x 3 크기의 196개 필터들을 이용하여 콘볼루션 필터링이 수행할 수 있다. 196개 필터들 각각은 미리 정해진 에지를 필터링 할 수 있다. 제3 콘볼루션 필터링 레이어의 필터들은 제2 콘볼루션 필터링 레이어의 필터들에 비하여 더 복잡한 에지를 필터링 할 수 있다. 콘볼루션 필터링 결과 풀링 영상으로부터 196개의 필터링 영상들이 생성될 수 있다. 제3 콘볼루션 필터링 레이어는 196개의 필터링 영상들에 포함된 노드들로 구성될 수 있다. 제3 콘볼루션 필터링 레이어에 포함된 각 노드들은 대응하는 풀링 영상의 3 x 3 크기의 영역으로부터 필터링 된 값을 수신할 수 있다.
제3 풀링 레이어에서 풀링을 통하여, 196개의 필터링 영상들로부터 대표 값들이 추출될 수 있다. 예를 들어, 제3 풀링 레이어에서 각 필터링 영상들에 대하여 3 x 3 크기의 윈도우를 2칸씩 슬라이드 하면서, 윈도우 내 평균 값이 추출될 수 있다. 풀링 결과 필터링 영상들에 대응하는 196개의 풀링 영상들이 생성될 수 있다. 제3 풀링 레이어는 196개의 풀링 영상들에 포함된 노드들로 구성될 수 있다. 제3 풀링 레이어에 포함된 각 노드들은 대응하는 필터링 영상의 3 x 3 크기의 영역으로부터 풀링 된 값을 수신할 수 있다. 이상과 같이, 제3 콘볼루션 필터링 레이어와 제3 풀링 레이어에서 입력 영상의 복잡한 특징들이 추출될 수 있다.
콘볼루션 레이어들(510)에서 인접한 레이어들 사이의 노드들은 부분적으로 연결되고, 연결 가중치가 공유될 수 있다. 반면, 완전 연결 레이어들(520)에서 인접한 레이어들 사이의 노드들은 완전 연결되고, 연결 가중치가 개별적으로 설정될 수 있다. 완전 연결 레이어들(520)은 인식기의 필터링 모듈의 출력에 기초하여 복수의 원소들에 대응하는 특징 값들을 출력하는 인식기의 원소 특징 출력 모듈에 대응할 수 있다.
완전 연결 레이어들(520)은 복수의 레이어들을 포함하고, 각 레이어들은 2048개의 노드들로 구성될 수 있다. 또한, 완전 연결 레이어들(520)에는 모델 정규화 알고리즘(Model regularization Algorithm)인 드랍아웃(Dropout)이 적용될 수 있다. 드랍아웃은 미리 정해진 비율의 노드(예를 들어, 50%의 노드)가 현재 학습 에폭(epoch)에서 랜덤하게 학습에 참여하지 않는 알고리즘이다.
로스 레이어(530)는 복수의 원소들에 대응하는 손실들을 계산할 수 있다. 로스 레이어(530)는 인식기의 원소 특징 출력 모듈의 출력에 기초하여 복수의 원소들을 인식하는 인식기의 선형 분류 모듈에 대응할 수 있다. 로스 레이어(530)는 복수의 원소들에 대응하는 복수의 선형 분류기들을 포함할 수 있다. 로스 레이어(530)는 선형 분류기들을 이용하여 완전 연결 레이어들(520)의 출력들로부터 복수의 원소들을 예측할 수 있고, 예측된 원소들과 실제 원소들을 비교함으로써 손실들을 계산할 수 있다.
손실들은 역 전파 기법을 통하여 완전 연결 레이어들(520) 및 콘볼루션 레이어들(510)로 역 전파될 수 있다. 역 전파된 손실들에 기초하여, 콘볼루션 레이어들(510) 및 완전 연결 레이어들(520) 내 연결 가중치들이 업데이트될 수 있다. 도 5를 참조하여 전술한 레이어의 구성, 노드의 수, 필터의 크기, 활성화 모델, 및 관련 알고리즘 등은 이해를 돕기 위한 예시에 불과하며, 데이터의 종류 및 실시 목적에 따라 다양하게 변경될 수 있다.
도 6은 일 실시예에 따른 멀티 채널 학습을 설명하는 도면이다. 도 6을 참조하면, 학습부(120)는 얼굴 영상으로부터 특성 영상들을 생성할 수 있다. 얼굴 영상은 트레이닝 영상으로부터 추출된 얼굴 영역의 영상일 수 있다. 특성 영상들은 얼굴 영상의 개별 특징들을 표현하는 영상들로, 예를 들어 색상(color)과 관련된 RGB 영상, 피부 확률(skin probability)과 관련된 스킨(skin) 영상, 및 외형선과 관련된 에지(edge) 영상을 포함할 수 있다. 일 예로, 학습부(120)는 얼굴 영상으로부터 색상에 영향을 미치는 조명 성분 등 노이즈(noise)를 제거함으로써 RGB 영상을 생성할 수 있다. 학습부(120)는 얼굴 영상에 포함된 픽셀들이 피부에 해당할 확률을 계산함으로써 스킨 영상을 생성할 수 있다. 학습부(120)는 얼굴 영상에서 방향성 그레디언트 매그니튜드(Oriented-Gradient Magnitude)를 계산함으로써 에지 영상을 생성할 수 있다.
학습부(120)는 특성 영상들로부터 아이디 및 속성들을 인식하도록 인식기(130)를 학습시킬 수 있다. 학습부(120)는 복수의 특성 영상들을 이용하여 인식기(130)를 학습시키므로, 도 6에 따른 학습부(120)의 동작은 멀티 채널(multi-channel) 학습이라고 지칭될 수 있다. 물론, 도 6에 따른 학습부(120)는 복수의 원소들을 함께 인식하도록 인식기(130)를 학습시키므로, 멀티 태스크 학습에도 해당한다.
도 7은 일 실시예에 따른 멀티 채널 학습의 원리를 설명하는 도면이다. 도 7을 참조하면, 학습부(120)는 얼굴 영상(710)으로부터 복수의 특성 영상들(720)을 생성할 수 있다. 학습부(120)는 복수의 특성 영상들(720)로부터 영상 별 특징들(730)을 추출할 수 있다. 학습부(120)는 영상 별 특징들(730)을 현재까지 학습된 인식기(740)에 입력할 수 있다.
인식기(740)는 입력 값들에 기초하여 복수의 원소들을 예측할 수 있다. 일 예로, 인식기(740)는 DCNN으로 구성될 수 있다. DCNN는 콘볼루션 레이어들, 완전 연결 레이어들, 및 로스 레이어를 이용하여 복수의 원소들을 예측할 수 있다. 학습부(120)는 얼굴 영상(710)에 레이블 된 실제 원소들을 알고 있으므로, 인식기(740)를 통하여 예측된 원소들과 실제 원소들 사이의 손실들(750)을 계산할 수 있다.
학습부(120)는 역 전파 기법을 이용하여 손실들이 감소되도록 인식기(420)를 업데이트할 수 있다. 예를 들어, 학습부(120)는 손실들이 역 방향으로 전파되는 과정에서, 손실들이 감소되도록 DCNN 내 노드들 사이의 연결 가중치들을 업데이트할 수 있다. 이처럼, 학습부(120)는 복수의 원소들에 대응하는 손실들을 함께 고려하여 인식기(740)를 학습시킬 수 있다. 업데이트가 완료된 인식기(760)는 다음 번 학습 에폭에 이용되며, 전술한 멀티 채널 학습 동작은 손실들이 미리 정해진 임계 값 미만이 될 때까지 반복적으로 수행될 수 있다.
도 8은 일 실시예에 따른 멀티 채널 학습을 위한 DCNN을 설명하는 도면이다. 도 8을 참조하면, 일 실시예에 따른 DCNN은 멀티 채널을 하나의 통합된 구조(Unified Framework)로 학습할 수 있다. 예를 들어, 각 채널의 특성 영상은 콘볼루션 레이어들(810)까지는 개별적으로 학습되고, 완전 연결 레이어들(820)에서 함께 연결되어서 학습될 수 있다. 이를 통해 특성이 다른 채널 별 콘볼루션 필터들은 콘볼루션 레이어들(810)에서 따로 학습되고, 매니폴드 특징 공간(Manifold Feature Space)이 충분히 언폴드(unfold) 된 완전 연결 레이어들(820)에서는 별도로 학습된 특징들이 서로 연결되어 함께 학습될 수 있다.
도 8의 구조는 예시적인 사항에 불과하며, 복수의 채널들이 서로 연결되는 시점은 DCNN의 구조와 인식의 목적 등에 따라 한정되지 않고 다양하게 변화될 수 있다. 예를 들어, 도 9를 참조하면, 멀티 채널은 각각 개별 DCNN에서 학습되고, 수학식 1에 의하여 늦은 퓨전(late fusion) 될 수 있다.
Figure pat00001
여기서, M은 DCNN의 수이고, K는 각 DCNN의 클래스의 수에 해당하는 출력 노드 수이며, x는 입력 데이터이고, xT는 입력 데이터 x가 트랜스포즈(transpose) 된 데이터이며, y는 출력 데이터이다. P(y = k | x)는 입력 데이터 x가 입력될 때 출력 데이터 y가 k일 확률이다. m은 개별 DCNN의 인덱스이고, k는 해당 DNCC의 클래스의 인덱스이며, wk는 현재까지 학습된 DCNN의 k번째 클래스를 위한 가중치일 수 있다.
도 10은 일 실시예에 따른 멀티 파트 학습을 설명하는 도면이다. 도 10을 참조하면, 학습부(120)는 얼굴 영상으로부터 복수의 부분 영상들을 추출할 수 있다. 얼굴 영상은 트레이닝 영상으로부터 추출된 얼굴 영역의 영상일 수 있다. 부분 영상들은 얼굴 영상 내 개별 구성요소들을 표현하는 영상들로, 예를 들어 눈 부분 영상, 코 부분 영상, 입 부분 영상 등을 포함할 수 있다.
학습부(120)는 얼굴 영상 및 부분 영상들로부터 얼굴 아이디, 얼굴 속성들, 및 각 부분 영상들의 속성들을 인식하도록 인식기(130)를 학습시킬 수 있다. 얼굴 아이디는 사용자를 식별하는 정보일 수 있다. 얼굴 속성들 및 각 부분 영상들의 속성들은 서로 다를 수 있다. 예를 들어, 얼굴 속성들은 성별, 나이, 인종, 매력도, 표정 등을 포함할 수 있다. 또한, 눈 속성은 눈 모양, 눈썹 모양, 눈 색상 등을 포함할 수 있다. 코 속성은 코 모양 등을 포함하고, 턱 속성은 턱 모양 등을 포함하며, 입 속성은 입 모양 등을 포함할 수 있다. 머리 속성은 머리 색상, 머리 스타일 등을 포함할 수 있다. 트레이닝 영상에는 얼굴 속성들뿐 아니라 각 부분 영상들의 속성들도 함께 레이블 될 수 있다.
학습부(120)는 복수의 부분 영상들을 이용하여 인식기(130)를 학습시키므로, 도 10에 따른 학습부(120)의 동작은 멀티 파트(multi-part) 학습이라고 지칭될 수 있다. 물론, 도 10에 따른 학습부(120)는 복수의 원소들을 함께 인식하도록 인식기(130)를 학습시키므로, 멀티 태스크 학습에도 해당한다. 멀티 파트 학습은 부분 영상들을 이용하여 채널을 증강하는 것이므로, 넓은 의미의 멀티 채널 학습이라고 볼 수도 있다.
도 11은 일 실시예에 따른 멀티 파트 학습을 위한 DCNN을 설명하는 도면이다. 도 11을 참조하면, 멀티 파트는 각각 개별 DCNN에서 학습될 수 있다. 또는, 멀티 파트의 출력들은 수학식 1에 의하여 늦은 퓨전 될 수 있다. 개별 DCNN에서 각각 180 디멘션의 특징들이 생성되는 경우, 이들이 결합된 1440 디멘션의 특징이 인식에 이용될 수 있다.
도 12는 일 실시예에 따른 멀티 파트 학습 및 멀티 채널 학습의 조합을 설명하는 도면이다. 도 12를 참조하면, 학습부(120)는 얼굴 영상으로부터 복수의 부분 영상들을 추출할 수 있다. 학습부(120)는 얼굴 영상 및 부분 영상들 각각으로부터 특성 영상들을 생성할 수 있다. 학습부(120)는 얼굴 영상 및 부분 영상들 각각으로부터 생성된 특성 영상들로부터 얼굴 아이디, 얼굴 속성들, 및 각 부분 영상들의 속성들을 인식하도록 인식기(130)를 학습시킬 수 있다. 학습부(120)는 여러 파트들을 학습함으로써, 눈이나 코 등 일부 파트만 보고도 얼굴 아이디를 인식하는 기술을 제공할 수 있다.
일 실시예에 따르면, 학습부(120)는 DCNN의 각 레이어들에 포함된 노드들의 활성화 모델을 확률적으로 제어함으로써, 인식기(130)가 더 다양한 환경에서 학습되도록 할 수 있다. 특정 노드의 활성화 모델은 해당 노드로 입력되는 값들에 기초하여 해당 노드로부터 출력되는 값을 결정하는 모델일 수 있다. 학습부(120)는 DCNN 내 노드들의 활성화 모델을 확률적으로 제어하기 위하여, 확률 구분적 선형 활성화 모델을 이용할 수 있다. 도 13은 일 실시예에 따른 확률 구분적 선형 활성화 모델과 일반적인 확정 구분적 선형 활성화 모델을 비교하는 도면이다.
도 13을 참조하면, 일반적인 확정 구분적 선형 활성화 (Deterministic Piecewise Linear Activation) 모델(1310)은 수학식 2와 같이 표현될 수 있다. 확정 구분적 선형 활성화 모델(1310)에서 x축은 입력 값이고, y축은 출력 값이다. x축의 구분된 영역들에 대하여 서로 다른 선형 함수들로 출력 값이 표현될 수 있다.
Figure pat00002
여기서, hi(x)는 i번째 영역에서의 출력 함수이고, k는 개별 DCNN의 인덱스이고, W...ij와 bij는 구분적 선형 함수(piecewise linear function) zij를 위한 파라미터들로써, W...ij는 i번째 뉴런의 j번째 구분적 선형 함수의 학습된 가중치이고, bij는 바이어스 텀(bias term)이다.
일 실시예에 따른 확률 구분적 선형 활성화 (Stochastic Piecewise Linear Activation) 모델(1320)은 수학식 3과 같이 표현될 수 있다. 확률 구분적 선형 활성화 모델(1320)에서도 x축은 입력 값이고, y축은 출력 값이다.
Figure pat00003
여기서, N(0, σ(x))는 확률 노이즈이고, σ(x)는 x의 표준편차일 수 있다.
W'...ij는 i번째 뉴런의 j번째 구분적 선형 함수의 학습된 가중치이고, bij는 바이어스 텀이다.
확정 구분적 선형 활성화 모델(1310)과 달리, 확률 구분적 선형 활성화 모델(1320)은 확률 노이즈(Stochastic noise) N를 구분적 선형 함수(piecewise linear function)에 추가한다. 확률 노이즈 N으로 인하여, 확률 구분적 선형 활성화 모델(1320)을 사용하는 경우, 확정 구분적 선형 활성화 모델(1310)을 사용하는 경우에 비하여 더 다양한 환경에서 인식기(130)가 학습될 수 있다. 이로 인하여, 향후 인식 단계에서 인식기(130)가 새로운 데이터를 인식하는 성능이 향상될 수 있다.
도 14는 일 실시예에 따른 인식 장치를 설명하는 블록도이다. 도 14를 참조하면, 일 실시예에 따른 인식 장치(1400)는 수신부(1410) 및 인식부(1420)를 포함한다. 수신부(1410)는 입력 영상을 수신한다. 트레이닝 영상과 달리, 입력 영상은 레이블 된 정보를 포함하지 않는다. 인식부(1420)는 기 학습된 인식기를 이용하여, 수신된 입력 영상과 관련된 복수의 원소들을 인식한다. 기 학습된 인식기는 도 1의 학습 장치(100)에 의하여 학습된 인식기일 수 있다.
인식 장치(1400)는 얼굴을 인식하는 장치일 수 있다. 예를 들어, 인식 장치(1400)는 얼굴이 포함된 입력 영상을 수신하고, 기 학습된 인식기를 이용하여 수신된 입력 영상으로부터 얼굴 아이디 및 얼굴 속성들을 인식할 수 있다.
수신부(1410) 및 인식부(1420)는 소프트웨어 모듈, 하드웨어 모듈, 또는 이들의 조합으로 구현될 수 있다. 인식 장치(1400)는 스마트 폰, 테블릿 컴퓨터, 랩톱 컴퓨터, 데스크톱 컴퓨터, 텔레비전, 웨어러블 장치, 보안 시스템, 스마트 홈 시스템 등 다양한 컴퓨팅 장치 및/또는 시스템에 탑재될 수 있다.
도 15는 실시예들에 따른 인식부의 동작들을 설명하는 도면이다. 도 15(a)를 참조하면, 인식부(1420)는 얼굴 영상으로부터 아이디 및 속성들을 인식할 수 있다. 얼굴 영상은 입력 영상으로부터 추출된 얼굴 영역의 영상일 수 있다. 인식부(1420)는 도 2를 통하여 전술한 멀티 태스크 학습에 의하여 학습된 인식기를 이용할 수 있다.
도 15(b)를 참조하면, 인식부(1420)는 얼굴 영상으로부터 복수의 특성 영상들을 생성할 수 있다. 예를 들어, 인식부(1420)는 얼굴 영상으로부터 RGB 영상, 스킨 영상, 및 에지 영상을 생성할 수 있다. 인식부(1420)는 복수의 특성 영상들로부터 아이디 및 속성들을 인식할 수 있다. 인식부(1420)는 도 6을 통하여 전술한 멀티 채널 학습에 의하여 학습된 인식기를 이용할 수 있다.
도 15(c)를 참조하면, 인식부(1420)는 얼굴 영상으로부터 복수의 부분 영상들을 추출할 수 있다. 예를 들어, 인식부(1420)는 얼굴 영상으로부터 눈 부분 영상, 코 부분 영상, 입 부분 영상 등을 추출할 수 있다. 인식부(1420)는 얼굴 영상 및 복수의 부분 영상들로부터 아이디 및 속성들을 인식할 수 있다. 경우에 따라, 인식부(1420)는 부분 영상의 아이디와 속성들을 더 인식할 수 있다. 인식부(1420)는 도 10을 통하여 전술한 멀티 파트 학습에 의하여 학습된 인식기를 이용할 수 있다.
도 15(d)를 참조하면, 인식부(1420)는 얼굴 영상으로부터 복수의 부분 영상들을 추출할 수 있다. 인식부(1420)는 얼굴 영상 및 부분 영상들 각각으로부터 특성 영상들을 생성할 수 있다. 인식부(1420)는 얼굴 영상 및 부분 영상들 각각으로부터 생성된 특성 영상들로부터 아이디 및 속성들을 인식할 수 있다. 경우에 따라, 인식부(1420)는 부분 영상의 아이디와 속성들을 더 인식할 수 있다. 인식부(1420)는 도 12를 통하여 전술한 멀티 파트 학습 및 멀티 채널 학습의 조합에 의하여 학습된 인식기를 이용할 수 있다.
도 16은 일 실시예에 따른 사용자 인터페이스를 설명하는 도면이다. 도 16을 참조하면, 인식 장치(1400)는 입력 영상(1610)으로부터 얼굴 영역(1620)을 추출할 수 있다. 인식 장치(1400)는 기 학습된 인식기를 이용하여 얼굴 영역(1620)으로부터 복수의 원소들을 인식할 수 있다. 사용자 인터페이스(1630)는 인식된 복수의 원소들을 표시할 수 있다. 예를 들어, 복수의 원소들은 나이, 성별, 인종, 매력도, 표정, 감정 등을 포함할 수 있다. 사용자 인터페이스(1630)는 각 원소들이 가질 수 있는 후보 값들을 표시하고, 후보 값들 각각에 대한 인식 신뢰도를 표시할 수 있다. 사용자 인터페이스(1630)는 각 원소들에 대하여 가장 높은 인식 신뢰도를 가지는 후보 값을 강조하여 표현할 수 있다. 도 16의 사용자 인터페이스(1630)는 예시적인 사항에 불과하며, 사용자 인터페이스(1630)는 다양하게 변형될 수 있다.
도 17 내지 도 24는 일 실시예에 따른 얼굴 인식 장치를 설명하는 도면들이다. 도 17을 참조하면, 일 실시예에 따른 얼굴 인식 장치는 인상 속성들(Physiognomy Attributes)과 아이디를 다중 인식한다. 얼굴 인식 장치는 얼굴 추출부(1720), 얼굴 부위 분할부(1730), 멀티 채널 생성부(1740), 및 멀티 태스크 인식부(1760)를 포함한다. 얼굴 추출부(1720)는 입력 영상(1710)으로부터 얼굴 영상을 추출할 수 있다. 얼굴 부위 분할부(1730)는 얼굴 영상을 여러 부분 영상으로 분할할 수 있다. 멀티 채널 생성부(1740)는 각 부분 영상을 다중 채널 영상으로 증강할 수 있다. 멀티 태스크 인식부(1760)는 다중 학습된 인식기를 이용하여 다중 채널 영상으로부터 인상 속성들 및 아이디를 다중 인식할 수 있다.
얼굴 인식 장치는 인상 속성들과 아이디를 다중 학습하기 위한 멀티 태스크 학습부(1750)를 더 포함할 수 있다. 멀티 태스크 학습부(1750)는 다중 채널 영상으로부터 인상 속성들 및 아이디를 다중 인식 하도록 인식기를 학습시킬 수 있다.
도 18을 참조하면, 얼굴 추출부(1720)는 얼굴 검출부(1721), 랜드마크 검출부(1722), 및 자세 정규화부(1723)를 포함할 수 있다. 얼굴 검출부(1721)는 입력 영상(1710)에서 얼굴 영역을 검출할 수 있다. 랜드마크 검출부(1722)는 검출된 얼굴 영역에서 랜드마크를 검출할 수 있다. 랜드마크는 눈썹, 눈, 코, 입 등 두드러지는 외형선 상에 존재하는 특징점들일 수 있다. 자세 정규화부(1723)는 랜드마크를 이용하여 영상의 자세를 미리 정해진 방향(예를 들어, 정면)으로 정규화할 수 있다.
도 19를 참조하면, 얼굴 부위 분할부(1730)는 내부 얼굴 영역 분할부(1731), 얼굴 구성 분할부(1732), 및 외부 얼굴 영역 분할부(1733)를 포함할 수 있다. 내부 얼굴 영역 분할부(1731)는 얼굴 영상으로부터 눈, 코, 입 등 주요 부위들을 포함하는 내부 영역을 분할할 수 있다. 예를 들어, 도 25를 참조하면, 내부 얼굴 영역 분할부(1731)는 얼굴 영상으로부터 얼굴 전면(holistic face)에 해당하는 영역을 분할하여 추출할 수 있다. 얼굴 구성 분할부(1732)는 내부 영역을 주요 부위들로 분할할 수 있다. 예를 들어, 도 25를 참조하면, 얼굴 구성 분할부(1732)는 얼굴 전면에 해당하는 영역으로부터 눈(eyes), 코(nose), 입(mouth), 턱(chin/jaw), 광대뼈(cheekbone), 인중(nose-mouth) 등 주요 부위들에 해당하는 영역들을 분할하여 추출할 수 있다. 외부 얼굴 영역 분할부(1733)는 얼굴 영상으로부터 헤어 등 외부 영역을 분할할 수 있다. 예를 들어, 도 25를 참조하면, 외부 얼굴 분할부(1731)는 얼굴 영상으로부터 머리(hairs)에 해당하는 영역을 분할하여 추출할 수 있다.
도 20을 참조하면, 멀티 채널 생성부(1740)는 조명 향상 색상 채널부(1741), 방향성 그레디언트 매그니튜드 채널부(1742), 피부 확률 채널부(1743), 및 로컬 바이너리 패턴 채널부(1744)를 포함할 수 있다. 조명 향상 색상 채널부(1741)는 얼굴 영상 또는 부분 영상에서 조명에 의한 노이즈를 제거함으로써 색상 채널을 생성할 수 있다. 방향성 그레디언트 매그니튜드 채널부(1742)는 얼굴 영상 또는 부분 영상에서 방향성 그레디언트 매그니튜드를 계산함으로써 에지 채널을 생성할 수 있다. 피부 확률 채널부(1743)는 얼굴 영상 또는 부분 영상에서 피부색 확률을 계산함으로써 스킨 채널을 생성할 수 있다. 로컬 바이너리 패턴 채널부(1744)는 얼굴 영상 또는 부분 영상에 포함된 텍스쳐 패턴 또는 모양 패턴을 추출함으로써 패턴 채널을 생성할 수 있다.
도 21을 참조하면, 멀티 태스크 학습부(1750)는 모델 파라미터 초기화부(1751), 트레이닝 배치 선택부(1752), 전파부(1753), 손실 계산부(1754), 및 역 전파부(1755)를 포함할 수 있다. 초기화부(1751)는 DCNN의 학습을 위하여 초기 연결 가중치들, 바이어스(bias) 등 모델 파라미터를 초기화할 수 있다. 바이어스는 DCNN에 포함된 노드들의 활성화 여부를 결정하는 임계 정보일 수 있다. 트레이닝 배치 선택부(1752)는 학습을 위한 트레이닝 데이터를 선택할 수 있다. 트레이닝 데이터는 멀티 채널 생성부(1740)에 의하여 생성된 멀티 채널 데이터 및 레이블 된 정보(예를 들어, 아이디, 속성들)로 구성될 수 있다. 전파부(1753)는 트레이닝 데이터를 DCNN에 입력하고, DCNN은 현재 설정된 모델 파라미터에 기초하여 계산된 결과 값을 출력할 수 있다. 손실 계산부(1754)는 수학식 4를 이용하여 손실을 계산할 수 있다.
Figure pat00004
여기서, x는 입력이고, f DCNN (x)는 DCNN의 출력이며, l attr 은 실제 속성이고, l ID 는 실제 아이디이며, L attr ()은 속성 손실을 구하는 함수이고, L ID ()는 아이디 손실을 구하는 함수이며, λ는 속성 손실 대비 아이디 손실의 기여도를 제어하는 계수이고, L()은 총 손실을 계산하는 함수이다. 손실을 계산하는 방법은 수학식 4에 국한되지 않고, 인상 속성들과 아이디를 함께 이용하여 손실을 계산하는 기술적 사상이 유지되는 한 다양하게 변형될 수 있다. 예를 들어, 힌지 손실(Hinge Loss), 스퀘어 손실(Square Loss), 소프트맥스 손실(Softmax Loss), 크로스-엔트로피 손실(Cross-entropy Loss), 절대 손실(Absolute Loss), 인센시티브 손실(Insensitive Loss) 등이 목적에 따라 사용될 수 있다.
역 전파부(1755)는 손실을 역 전파함으로써 DCNN의 모델 파라미터를 업데이트할 수 있다. DCNN의 모델 파라미터를 업데이트한 이후, 트레이닝 배치 선택부(1752), 전파부(1753), 손실 계산부(1754), 및 역 전파부(1755)의 동작은 학습이 완료될 때까지 반복적으로 수행될 수 있다.
도 22를 참조하면, DCNN은 콘볼루션 필터링 레이어(2210), 풀링 레이어(2220), 완전 연결 레이어(2230), 및 확률 구분적 선형 활성화 레이어(2240)로 구성될 수 있다. 각각의 레이어는 목적에 따라 반복 구성될 수 있다. 일 예로, 콘볼루션 필터링 레이어(2210)의 출력은 풀링 레이어(2220)로 전달되고, 풀링 레이어(2220)의 출력은 연결 레이어(2230)로 전달될 수 있다. 다른 예로, 콘볼루션 필터링 레이어(2210)의 출력은 확률 구분적 선형 활성화 레이어(2240)를 거쳐 풀링 레이어(2220)로 전달되고, 풀링 레이어(2220)의 출력은 확률 구분적 선형 활성화 레이어(2240)를 거쳐 완전 연결 레이어(2230)로 전달될 수 있다. 전술한 레이어들의 구성은 단지 예시적인 사항에 불과하며, 실시예들에 따른 레이어들의 구성은 다양하게 변경될 수 있다.
도 23을 참조하면, 멀티 태스크 인식부(1760)는 전파부(1761), 아이디 분류부(1762), 및 속성 분류부(1763)를 포함할 수 있다. 전파부(1761)는 학습된 인식기에 멀티 채널 데이터를 포워드 전파(forward propagation) 시킬 수 있다. 아이디 분류부(1762) 및 속성 분류부(1763)는 인식기에서 출력되는 특징 값들을 이용하여 아이디 및 속성들을 분류(classification)할 수 있다.
도 24를 참조하면, 멀티 태스크 인식부(1760)는 전파부(2410), 아이디 분류부(2420), 속성 분류부(2430), 특징 생성부(2440), 및 인증부(2450)를 포함할 수 있다. 멀티 태스크 인식부(1760)는 학습된 인식기를 이용하여 두 입력 영상들이 서로 같은지 여부를 인증할 수 있다. 전파부(2410)는 학습된 인식기에 두 입력 영상들의 멀티 채널 데이터들을 각각 포워드 전파시키고, 아이디 분류부(2420) 및 속성 분류부(2430)는 인식기에서 출력되는 특징 값들을 이용하여 두 입력 영상들 각각의 아이디 및 속성들을 분류할 수 있다.
특징 생성부(2440)는 아이디 분류부(2420) 및 속성 분류부(2430)의 출력을 조합하여 두 입력 영상들 각각을 위한 특징 벡터를 생성할 수 있다. 인증부(2450)는 생성된 특징 벡터들 사이의 유사도 거리(Similarity Distance)를 계산하고, 유사도 거리가 가까우면 참으로, 유사도 거리가 멀면 거짓으로 인증할 수 있다.
경우에 따라, 특징 생성부(2440)의 출력을 이용하여 별도의 인식기(예를 들어, SVM, Random Forest, Joint Bayesian 등)가 학습될 수 있다. 이 경우, 인증부(2450)는 기 학습된 별도의 인식기에 특징 생성부(2440)의 출력을 인가함으로써, 인증을 수행할 수도 있다.
도 25 내지 도 30은 실시예들에 따른 속성들을 설명하는 도면들이다. 도 25를 참조하면, 얼굴의 부위별로 속성들이 상이하게 설정될 수 있다. 도 26 내지 도 30을 참조하면, 각 속성들은 적어도 하나의 디멘션으로 표현될 수 있으며 전술한 DCNN을 학습시키는 데 이용될 수 있다.
실시예들은 인상학(Physiognomy)에 기반하여 얼굴을 얼굴 내부, 눈, 코, 귀, 입, 얼굴외부로 나누고, 각 부분의 속성들을 인식함으로써, 얼굴 인증에 유리한 기술을 제공할 수 있다. 실시예들은 핸드 크레프트(Hand-craft) 특징이 아닌 학습 기반의 특징을 사용하여 학습 데이터가 아닌 실제 영상에도 최적화된 인식을 하는 기술을 제공할 수 있다. 실시예들은 중간 레벨 특징인 인상학 기반의 얼굴 속성들 및 얼굴 인증을 하나의 인식기로 다중 인식(Multi-task recognition)하는 기술을 제공할 수 있다.
실시예들은 얼굴 인식기를 학습할 때 얼굴 속성 및 인증의 정확성을 함께 고려함으로써 인증 성능을 향상 시킬 수 있다. 실시예들은 여러 개의 확률 선형(Stochastic Linear) 함수를 조합하여 활성화 함수로 사용함으로써, 실제 데이터에서도 인식 성능을 향상 시킬 수 있다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 비록 한정된 도면에 의해 실시예들이 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (2)

  1. 트레이닝 영상을 수신하는 단계; 및
    상기 트레이닝 영상, 및 상기 트레이닝 영상에 레이블 된 복수의 원소들에 기초하여, 상기 트레이닝 영상에 포함된 얼굴 영역으로부터 상기 얼굴 영역과 관련된 복수의 원소들을 인식하는 인식기를 학습시키는 단계
    를 포함하고,
    상기 인식기를 학습시키는 단계는
    상기 트레이닝 영상으로부터 복수의 특성 영상들을 생성하는 단계;
    상기 특성 영상들 별로 상기 복수의 원소들에 대응하는 손실(loss)들을 계산하는 단계;
    상기 손실들이 하나로 통합된 손실에 기초하여, 상기 인식기의 뉴럴 네트워크에 포함된 노드들 사이의 가중치(weight)들을 동시에 학습시키는 단계
    를 포함하고,
    상기 트레이닝 영상은, 상기 얼굴 영역으로부터 분할되는 복수의 얼굴 부위를 나타내는 복수의 영상을 포함하고,
    상기 복수의 원소들은
    상기 입력 영상을 식별하는 아이디; 및
    상기 입력 영상에 포함된 둘 이상의 속성을 포함하고,
    상기 속성은
    상기 트레이닝 영상에 포함된 얼굴 영역에 대응하는 성별;
    상기 얼굴 영역에 대응하는 나이;
    상기 얼굴 영역에 대응하는 인종
    상기 얼굴 영역에 대응하는 매력도; 및
    상기 얼굴 영역에 대응하는 표정
    중 하나이고.
    상기 복수의 특성 영상들은
    조명에 의한 노이즈가 제거된 색상(color) 채널 영상;
    기울기 방향성 매그니튜드(oriented-gradient magnitude) 채널 영상
    피부색 확률(skin probability) 채널 영상; 및
    로컬 바이너리 패턴(local binary pattern) 채널 영상
    중 둘 이상을 포함하는,
    를 포함하는, 인식기 학습 방법.
  2. 얼굴 영역을 포함하는 입력 영상을 수신하는 단계;
    상기 입력 영상의 얼굴 부위에 따라 복수의 부분 영상들로 분할하는 단계;
    상기 복수의 부분 영상들 각각에 대해 복수의 특성 영상들을 생성하는 단계; 및
    복수의 원소들을 인식하도록 기 학습된 단일 인식기를 이용하여, 상기 복수의 부분 영상들 각각에 대한 복수의 특성 영상들로부터 상기 입력 영상에 포함된 얼굴 영역과 관련된 복수의 원소들을 동시에 인식하는 단계
    를 포함하고,
    상기 복수의 원소들은
    상기 입력 영상을 식별하는 아이디; 및
    상기 입력 영상에 포함된 적어도 하나의 속성을 포함하는 인식 방법.

KR1020230009732A 2014-11-24 2023-01-25 객체 인식 방법 및 장치, 및 인식기 학습 방법 및 장치 KR20230021043A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020140164232 2014-11-24
KR20140164232 2014-11-24
KR1020150086658A KR20160061856A (ko) 2014-11-24 2015-06-18 객체 인식 방법 및 장치, 및 인식기 학습 방법 및 장치

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020150086658A Division KR20160061856A (ko) 2014-11-24 2015-06-18 객체 인식 방법 및 장치, 및 인식기 학습 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20230021043A true KR20230021043A (ko) 2023-02-13

Family

ID=54782435

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230009732A KR20230021043A (ko) 2014-11-24 2023-01-25 객체 인식 방법 및 장치, 및 인식기 학습 방법 및 장치

Country Status (4)

Country Link
US (2) US9928410B2 (ko)
EP (1) EP3023911B1 (ko)
KR (1) KR20230021043A (ko)
CN (1) CN105631398B (ko)

Families Citing this family (83)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015176305A1 (zh) * 2014-05-23 2015-11-26 中国科学院自动化研究所 人形图像分割方法
US9953425B2 (en) 2014-07-30 2018-04-24 Adobe Systems Incorporated Learning image categorization using related attributes
US9536293B2 (en) * 2014-07-30 2017-01-03 Adobe Systems Incorporated Image assessment using deep convolutional neural networks
CN104573652B (zh) * 2015-01-04 2017-12-22 华为技术有限公司 确定人脸图像中人脸的身份标识的方法、装置和终端
US20160283864A1 (en) * 2015-03-27 2016-09-29 Qualcomm Incorporated Sequential image sampling and storage of fine-tuned features
US10796480B2 (en) * 2015-08-14 2020-10-06 Metail Limited Methods of generating personalized 3D head models or 3D body models
US9852492B2 (en) * 2015-09-18 2017-12-26 Yahoo Holdings, Inc. Face detection
US20170092150A1 (en) * 2015-09-30 2017-03-30 Sultan Hamadi Aljahdali System and method for intelligently interacting with users by identifying their gender and age details
US10275684B2 (en) * 2015-11-04 2019-04-30 Samsung Electronics Co., Ltd. Authentication method and apparatus, and method and apparatus for training a recognizer
US10783431B2 (en) * 2015-11-11 2020-09-22 Adobe Inc. Image search using emotions
US10860887B2 (en) * 2015-11-16 2020-12-08 Samsung Electronics Co., Ltd. Method and apparatus for recognizing object, and method and apparatus for training recognition model
US9892344B1 (en) * 2015-11-30 2018-02-13 A9.Com, Inc. Activation layers for deep learning networks
US9784497B2 (en) * 2016-02-03 2017-10-10 Multimedia Image Solution Limited Smart refrigerator
US20170236057A1 (en) * 2016-02-16 2017-08-17 Carnegie Mellon University, A Pennsylvania Non-Profit Corporation System and Method for Face Detection and Landmark Localization
JP6730443B2 (ja) * 2016-03-21 2020-07-29 ザ プロクター アンド ギャンブル カンパニーThe Procter & Gamble Company カスタマイズされた製品の推奨を提供するためのシステム及び方法
JP6727543B2 (ja) * 2016-04-01 2020-07-22 富士ゼロックス株式会社 画像パターン認識装置及びプログラム
JP6750854B2 (ja) * 2016-05-25 2020-09-02 キヤノン株式会社 情報処理装置および情報処理方法
US10579860B2 (en) * 2016-06-06 2020-03-03 Samsung Electronics Co., Ltd. Learning model for salient facial region detection
US10181073B2 (en) * 2016-06-29 2019-01-15 Intel Corporation Technologies for efficient identity recognition based on skin features
US11222263B2 (en) * 2016-07-28 2022-01-11 Samsung Electronics Co., Ltd. Neural network method and apparatus
US20180075317A1 (en) * 2016-09-09 2018-03-15 Microsoft Technology Licensing, Llc Person centric trait specific photo match ranking engine
KR102252298B1 (ko) * 2016-10-21 2021-05-14 삼성전자주식회사 표정 인식 방법 및 장치
US11308350B2 (en) * 2016-11-07 2022-04-19 Qualcomm Incorporated Deep cross-correlation learning for object tracking
CN106780658B (zh) 2016-11-16 2021-03-09 北京旷视科技有限公司 人脸特征添加方法、装置及设备
CN106780662B (zh) * 2016-11-16 2020-09-18 北京旷视科技有限公司 人脸图像生成方法、装置及设备
CN108229263B (zh) * 2016-12-22 2021-03-02 杭州光启人工智能研究院 目标对象的识别方法和装置、机器人
CN106845408B (zh) * 2017-01-21 2023-09-01 浙江联运知慧科技有限公司 一种复杂环境下的街道垃圾识别方法
CN106709532B (zh) 2017-01-25 2020-03-10 京东方科技集团股份有限公司 图像处理方法和装置
KR102061408B1 (ko) 2017-03-24 2019-12-31 (주)제이엘케이인스펙션 가상 3차원 심층 신경망을 이용하는 영상 분석 장치 및 방법
US11842280B2 (en) * 2017-05-05 2023-12-12 Nvidia Corporation Loss-scaling for deep neural network training with reduced precision
KR102400017B1 (ko) 2017-05-17 2022-05-19 삼성전자주식회사 객체를 식별하는 방법 및 디바이스
CN108932459B (zh) * 2017-05-26 2021-12-10 富士通株式会社 脸部识别模型训练方法和装置及脸部识别方法
US10460470B2 (en) * 2017-07-06 2019-10-29 Futurewei Technologies, Inc. Recognition and reconstruction of objects with partial appearance
CN109389015A (zh) * 2017-08-10 2019-02-26 丽宝大数据股份有限公司 脸部相似度评估方法与电子装置
CN107644208A (zh) * 2017-09-21 2018-01-30 百度在线网络技术(北京)有限公司 人脸检测方法和装置
CN107644209A (zh) * 2017-09-21 2018-01-30 百度在线网络技术(北京)有限公司 人脸检测方法和装置
CN107622240B (zh) * 2017-09-21 2023-10-13 百度在线网络技术(北京)有限公司 人脸检测方法和装置
CN107679490B (zh) * 2017-09-29 2019-06-28 百度在线网络技术(北京)有限公司 用于检测图像质量的方法和装置
CN107609536A (zh) * 2017-09-29 2018-01-19 百度在线网络技术(北京)有限公司 信息生成方法和装置
CN109598176A (zh) * 2017-09-30 2019-04-09 佳能株式会社 识别装置和识别方法
US10423850B2 (en) * 2017-10-05 2019-09-24 The Climate Corporation Disease recognition from images having a large field of view
WO2019100436A1 (en) * 2017-11-22 2019-05-31 Zhejiang Dahua Technology Co., Ltd. Methods and systems for face recognition
CN107844782A (zh) * 2017-11-29 2018-03-27 济南浪潮高新科技投资发展有限公司 一种基于多任务串行深度网络的人脸识别方法
CN109919166B (zh) * 2017-12-12 2021-04-09 杭州海康威视数字技术股份有限公司 获取属性的分类信息的方法和装置
TWI625680B (zh) 2017-12-15 2018-06-01 財團法人工業技術研究院 臉部表情辨識的方法及裝置
CN108288023B (zh) * 2017-12-20 2020-10-16 深圳和而泰数据资源与云技术有限公司 人脸识别的方法和装置
WO2019127108A1 (en) * 2017-12-27 2019-07-04 Intel Corporation Key-point guided human attribute recognition using statistic correlation models
CN108596011A (zh) * 2017-12-29 2018-09-28 中国电子科技集团公司信息科学研究院 一种基于组合深度网络的人脸属性识别方法和装置
KR102564855B1 (ko) * 2018-01-08 2023-08-08 삼성전자주식회사 표정 변화에 강인한 객체 및 표정 인식 장치 및 방법, 객체 및 표정 트레이닝 장치 및 방법
US10706267B2 (en) * 2018-01-12 2020-07-07 Qualcomm Incorporated Compact models for object recognition
CN107992864A (zh) * 2018-01-15 2018-05-04 武汉神目信息技术有限公司 一种基于图像纹理的活体识别方法及装置
CN108388544A (zh) * 2018-02-10 2018-08-10 桂林电子科技大学 一种基于深度学习的图文融合微博情感分析方法
CN108428238B (zh) * 2018-03-02 2022-02-15 南开大学 一种基于深度网络的多类型任务通用的检测方法
CN108509920B (zh) * 2018-04-04 2022-04-26 南京信息工程大学 基于CNN的多patch多通道联合特征选择学习的人脸识别方法
US20220284324A1 (en) * 2018-04-24 2022-09-08 Igor Khalatian Methods and systems for identifying and generating images of faces attractive to many people
US11113507B2 (en) 2018-05-22 2021-09-07 Samsung Electronics Co., Ltd. System and method for fast object detection
CN108985377B (zh) * 2018-07-18 2019-06-11 太原理工大学 一种基于深层网络的多特征融合的图像高级语义识别方法
US10936914B2 (en) * 2018-07-31 2021-03-02 International Business Machines Corporation Convolutional neural network with augmentation features
CN109190514B (zh) * 2018-08-14 2021-10-01 电子科技大学 基于双向长短期记忆网络的人脸属性识别方法及系统
US11954881B2 (en) * 2018-08-28 2024-04-09 Apple Inc. Semi-supervised learning using clustering as an additional constraint
CN109276243A (zh) * 2018-08-31 2019-01-29 易念科技(深圳)有限公司 脑电心理测试方法及终端设备
EP3627444A1 (en) * 2018-09-20 2020-03-25 L'oreal Method and system for determining a characteristic of a keratinous surface and method and system for treating said keratinous surface
US11544524B2 (en) 2018-09-28 2023-01-03 Samsung Electronics Co., Ltd. Electronic device and method of obtaining emotion information
US10504027B1 (en) * 2018-10-26 2019-12-10 StradVision, Inc. CNN-based learning method, learning device for selecting useful training data and test method, test device using the same
CN111260548B (zh) * 2018-11-30 2023-07-21 浙江宇视科技有限公司 基于深度学习的贴图方法及装置
US10395140B1 (en) * 2019-01-23 2019-08-27 StradVision, Inc. Learning method and learning device for object detector based on CNN using 1×1 convolution to be used for hardware optimization, and testing method and testing device using the same
US10387753B1 (en) * 2019-01-23 2019-08-20 StradVision, Inc. Learning method and learning device for convolutional neural network using 1×1 convolution for image recognition to be used for hardware optimization, and testing method and testing device using the same
US10496899B1 (en) * 2019-01-25 2019-12-03 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN in which residual networks are provided for meta learning, and testing method and testing device using the same
CN109829415A (zh) * 2019-01-25 2019-05-31 平安科技(深圳)有限公司 基于深度残差网络的性别识别方法、装置、介质和设备
JP7231464B2 (ja) * 2019-04-09 2023-03-01 株式会社日立製作所 物体認識システム及び物体認識方法
CN110009059B (zh) * 2019-04-16 2022-03-29 北京字节跳动网络技术有限公司 用于生成模型的方法和装置
CN111860053B (zh) * 2019-04-28 2023-11-24 北京灵汐科技有限公司 一种多媒体数据识别方法及装置
CN110084216B (zh) * 2019-05-06 2021-11-09 苏州科达科技股份有限公司 人脸识别模型训练和人脸识别方法、系统、设备及介质
CN110543833B (zh) * 2019-08-15 2020-09-22 平安国际智慧城市科技股份有限公司 基于数据降维的人脸识别方法、装置、设备及存储介质
CN110704153B (zh) * 2019-10-10 2021-11-19 深圳前海微众银行股份有限公司 界面逻辑解析方法、装置、设备及可读存储介质
CN112783890B (zh) * 2019-11-08 2024-05-07 珠海金山办公软件有限公司 一种生成数据透视表行的方法及装置
CN110879993B (zh) * 2019-11-29 2023-03-14 北京市商汤科技开发有限公司 神经网络训练方法、人脸识别任务的执行方法及装置
KR20210109327A (ko) 2020-02-27 2021-09-06 삼성전자주식회사 인공신경망의 학습 방법 및 장치
TWI739401B (zh) * 2020-04-22 2021-09-11 國立中央大學 物件分類方法及物件分類裝置
CN111368815B (zh) * 2020-05-28 2020-09-04 之江实验室 一种基于多部件自注意力机制的行人重识别方法
CN111951267A (zh) * 2020-09-08 2020-11-17 南方科技大学 基于神经网络的性别判断方法、装置、服务器和存储介质
CN113420797B (zh) * 2021-06-08 2023-05-30 杭州知衣科技有限公司 一种可在线学习的图像属性识别方法及系统
AU2021204563A1 (en) * 2021-06-17 2023-01-19 Sensetime International Pte. Ltd. Target detection methods, apparatuses, electronic devices and computer-readable storage media

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5185815A (en) * 1991-11-04 1993-02-09 Grumman Aerospace Corporation Multiple target correlator system
US5359673A (en) * 1991-12-27 1994-10-25 Xerox Corporation Method and apparatus for converting bitmap image documents to editable coded data using a standard notation to record document recognition ambiguities
US6928425B2 (en) * 2001-08-13 2005-08-09 Xerox Corporation System for propagating enrichment between documents
US7133862B2 (en) * 2001-08-13 2006-11-07 Xerox Corporation System with user directed enrichment and import/export control
US6732090B2 (en) * 2001-08-13 2004-05-04 Xerox Corporation Meta-document management system with user definable personalities
KR100438841B1 (ko) 2002-04-23 2004-07-05 삼성전자주식회사 이용자 검증 및 데이터 베이스 자동 갱신 방법, 및 이를이용한 얼굴 인식 시스템
KR100714112B1 (ko) 2005-12-09 2007-05-02 한국전자통신연구원 얼굴 인식 인증 방법 및 장치
WO2009117607A1 (en) 2008-03-19 2009-09-24 The Trustees Of Columbia University In The City Of New York Methods, systems, and media for automatically classifying face images
CN100557624C (zh) * 2008-05-23 2009-11-04 清华大学 基于多部件多特征融合的人脸识别方法
KR101214732B1 (ko) * 2010-03-09 2012-12-21 삼성전자주식회사 복수의 얼굴 영상을 이용한 얼굴 인식 장치 및 방법
JP4893855B1 (ja) 2010-12-21 2012-03-07 オムロン株式会社 画像認証装置、画像処理システム、画像認証装置制御プログラム、コンピュータ読み取り可能な記録媒体、および画像認証方法
US9305240B2 (en) 2011-12-07 2016-04-05 Google Technology Holdings LLC Motion aligned distance calculations for image comparisons
JP5795979B2 (ja) 2012-03-15 2015-10-14 株式会社東芝 人物画像処理装置、及び人物画像処理方法
US20140204013A1 (en) * 2013-01-18 2014-07-24 Microsoft Corporation Part and state detection for gesture recognition
CN104143079B (zh) * 2013-05-10 2016-08-17 腾讯科技(深圳)有限公司 人脸属性识别的方法和系统

Also Published As

Publication number Publication date
US20160148080A1 (en) 2016-05-26
EP3023911A1 (en) 2016-05-25
US20180181799A1 (en) 2018-06-28
CN105631398A (zh) 2016-06-01
EP3023911B1 (en) 2022-06-22
US9928410B2 (en) 2018-03-27
CN105631398B (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
KR20230021043A (ko) 객체 인식 방법 및 장치, 및 인식기 학습 방법 및 장치
KR20160061856A (ko) 객체 인식 방법 및 장치, 및 인식기 학습 방법 및 장치
KR102564854B1 (ko) 정규화된 표현력에 기초한 표정 인식 방법, 표정 인식 장치 및 표정 인식을 위한 학습 방법
JP6754619B2 (ja) 顔認識方法及び装置
US10776470B2 (en) Verifying identity based on facial dynamics
KR102486699B1 (ko) 영상 인식 방법, 영상 검증 방법, 장치, 및 영상 인식 및 검증에 대한 학습 방법 및 장치
US11093734B2 (en) Method and apparatus with emotion recognition
EP3147827A1 (en) Face recognition method and apparatus
Zheng et al. Attention-based spatial-temporal multi-scale network for face anti-spoofing
Gupta et al. Nose, eyes and ears: Head pose estimation by locating facial keypoints
EP3674974A1 (en) Apparatus and method with user verification
KR102483650B1 (ko) 사용자 인증 장치 및 방법
CN112200176B (zh) 人脸图像的质量检测方法、系统和计算机设备
CN115050064A (zh) 人脸活体检测方法、装置、设备及介质
CN115862120B (zh) 可分离变分自编码器解耦的面部动作单元识别方法及设备
US20240037186A1 (en) Video domain adaptation via contrastive learning
Li et al. Facial expression classification using salient pattern driven integrated geometric and textual features
Zhang et al. Facial component-landmark detection with weakly-supervised lr-cnn
Wang et al. Pedestrian recognition in multi-camera networks using multilevel important salient feature and multicategory incremental learning
Okokpujie et al. Development of an adaptive trait-aging invariant face recognition system using convolutional neural networks
EP3832542A1 (en) Device and method with sensor-specific image recognition
Travieso et al. Using a Discrete Hidden Markov Model Kernel for lip-based biometric identification
Jang et al. User oriented language model for face detection
Kartbayev et al. Development of a computer system for identity authentication using artificial neural networks
Kar et al. Disguised Face Verification Using Inverse Disguise Quality

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal