KR20190109710A - 얼굴 이미지들로부터의 질적인 특성의 평가를 위한 컴퓨터-구현된 도구를 구축하기 위한 방법 - Google Patents

얼굴 이미지들로부터의 질적인 특성의 평가를 위한 컴퓨터-구현된 도구를 구축하기 위한 방법 Download PDF

Info

Publication number
KR20190109710A
KR20190109710A KR1020190012153A KR20190012153A KR20190109710A KR 20190109710 A KR20190109710 A KR 20190109710A KR 1020190012153 A KR1020190012153 A KR 1020190012153A KR 20190012153 A KR20190012153 A KR 20190012153A KR 20190109710 A KR20190109710 A KR 20190109710A
Authority
KR
South Korea
Prior art keywords
neural network
database
tool
face
qualitative
Prior art date
Application number
KR1020190012153A
Other languages
English (en)
Other versions
KR102190325B1 (ko
Inventor
빅토르 마르탱
르노와 세귀에르
오렐리 포쉐홍
Original Assignee
샤넬 파르퓜 보트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 샤넬 파르퓜 보트 filed Critical 샤넬 파르퓜 보트
Publication of KR20190109710A publication Critical patent/KR20190109710A/ko
Application granted granted Critical
Publication of KR102190325B1 publication Critical patent/KR102190325B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • G06K9/00221
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 사람 얼굴의 사진의 처리를 통해, 얼굴의 질적인 특징의 스코어 대표를 결정하도록 구성된 신경망(N)을 구비하는 도구를 구축하기 위한 방법에 관한 것이다. 이러한 방법은 컴퓨터에 의해 수행되고,
- 사람의 얼굴의 사진으로부터, 사람의 추정된 연령을 평가하도록 구성된 초기 신경망의 적어도 하나의 훈련 세션을 수행하는 단계로서, 초기 신경망은 얼굴의 사진으로부터 특성들을 추출하도록 구성된 특성 추출부(FP), 및 추출된 특성들로부터 추정된 연령을 출력하도록 구성된 연령 평가부(EP)를 포함하고,
초기 신경망은 뉴런(neuron)들의 계층들과 연관된 웨이트들을 포함하고, 각각의 훈련 세션은 각각의 얼굴 이미지가 이미지 상의 사람의 생물학적 연령과 연관되어 있는 얼굴 이미지들의 제1 데이터베이스 상에서 수행되고, 각각의 훈련 세션은 웨이트들이 변화되는 신경망의 업데이트된 버전을 출력하고;
- 훈련 세션에 상응하는 초기 신경망의 각각의 업데이트된 버전을 위하여, 각각의 얼굴 이미지가 질적인 특성의 참조 스코어 대표와 연관되어 있는 얼굴 이미지들의 제2 데이터베이스 상의 초기 신경망의 특성 추출부(FP)의 오차를 평가하는 단계로서, 제2 데이터베이스는 제1 데이터베이스보다 열등한 사이즈를 구비하고;
- 모든 업데이트된 버전들로부터 추출된 오차들에 대한 최소 평가된 오차에 상응하는 업데이트된 버전 내의 초기 신경망의 특성 추출부(FP)를, 도구의 신경망(N)으로서 선택하는 단계를 포함한다.

Description

얼굴 이미지들로부터의 질적인 특성의 평가를 위한 컴퓨터-구현된 도구를 구축하기 위한 방법{A METHOD FOR BUILDING A COMPUTER-IMPLEMENTED TOOL FOR ASSESSMENT OF QUALITATIVE FEATURES FROM FACE IMAGES}
본 발명은 사람의 얼굴 사진으로부터, 인식된(perceived) 건강과 같이, 질적인 특성의 평가를 위한 컴퓨터-구현된 도구를 구축하기 위한 방법, 및 이 방법으로 얻어진 도구에 관한 것이다.
건강의 인식과 같이, 질적인 특성의 인식을 변경시키는 얼굴 신호(cue)의 이해에 많은 연구들이 주력한다. 이러한 연구를 수행하기 위하여, 연구자들은 건강 인식 등급들 내의 차이를 설명할 수 있는 얼굴 신호 내의 객관적인 차이를 지적하기 전에, 얼굴들로부터 건강 인식 등급을 수집한다.
그러나, 사람들로부터 얼굴의 건강 등급을 얻는 작업은 비용과 시간이 많이 든다. 실제로, 그것은 각각의 얼굴 이미지를 유의미한 사이즈의 평가자들의 패널에게 제출하고, 각각의 평가자는 건강 등급을 나타낸 후, 각각의 얼굴을 위한 주어진 모든 등급들의 평균 건강 등급을 계산한다.
결과적으로, 건강 등급들과 관련된 얼굴 이미지들의 데이타베이스(database)는 매우 작다. 이것은 많은 쟁점들을 초래한다. 첫째, 데이터베이스의 작은 사이즈는 연구자들이 유의미하고 신뢰할만한 통계적 결과물을 획득하는 것을 어렵게 만든다.
둘째, 현존하는 데이터베이스의 질을 높이기 위해서는, 새로운 이미지들로부터 건강 등급들을 출력하기 위한, 신경망과 같은 인공지능 도구를 훈련시킬 필요가 있다. 그러나, 현존하는 데이터베이스는 너무 작아서 이러한 도구를 훈련시킬 수 없다. 실제로, 신경망의 학습을 수행하기 위한 데이터베이스의 최소 사이즈는 일반적으로 최소 수 천 개의 이미지들로부터 최대 수 십만 개의 이미지들인 반면, 이미지들과 건강 등급들의 입수가능한 데이터베이스의 사이즈는 기껏해야 대략 수 백 개의 사진들에 불과하다.
그러므로, 건강 인식의 현상을 더 잘 이해하고, 연구자들에 의해 사용되는 데이터베이스의 질을 향상시키기 위하여, 얼굴 이미지들로부터 건강 인식과 같은 질적인 특성들의 자동적인 평가를 가능하게 하는 도구의 필요성이 있다.
본 발명은 전술한 문제점을 해결하기 위해 안출된 것으로서, 현재 입수할 수 있는 데이터베이스의 매우 작은 사이즈에도 불구하고, 얼굴 이미지들로부터 질적인 특성들의 자동적 평가를 가능하게 하는 도구를 구축하기 위한 방법을 제공하는 것을 목적으로 한다.
본 발명의 다른 목적은 제한된 시간과 자원으로 현재 입수가능한 데이터베이스의 질을 높일 수 있는 것이다.
본 발명은, 사람 얼굴의 사진의 처리를 통해, 얼굴의 질적인 특성의 스코어 대표를 결정하도록 구성되고 신경망을 구비하는 도구를 구축하기 위한 방법을 개시한다.
상기 방법은 컴퓨터에 의해 수행되고,
- 사람의 얼굴의 사진으로부터, 사람의 추정 연령을 평가하도록 구성된 초기 신경망의 적어도 하나의 훈련 세션을 수행하는 단계로서, 초기 신경망은 뉴런들의 계층들을 구비하고 웨이트들과 연관되며, 각각의 훈련 세션은 각각의 얼굴 이미지가 이미지 상의 사람의 생물학적 연령과 연관된 얼굴 이미지들의 제1 데이터베이스 상에서 수행되고, 각각의 훈련 세션은 웨이트들이 변화되는 신경망의 업데이트된 버전을 출력하고;
- 훈련 세션에 상응하는 초기 신경망의 각각의 업데이트된 버전을 위하여, 각각의 얼굴 이미지가 질적인 특성의 참조 스코어 대표와 연관되어 있는 얼굴 이미지들의 제2 데이터베이스 상의 초기 신경망의 부분의 오차를 평가하는 단계로서, 제2 데이터베이스는 제1 데이터베이스보다 열등한 사이즈를 가지고;
- 모든 업데이트된 버전들로부터 평가된 오차들에 대한 최소 평가된 오차에 상응하는 업데이트된 버전 내의 초기 신경망의 부분을 도구의 신경망으로서 선택하는 단계를 포함한다.
바람직하게, 초기 신경망은 얼굴의 사진으로부터 특성들을 추출하도록 구성된 특성 추출부, 및 추출된 특성들로부터 추정 연령을 출력하도록 구성된 연령 평가부를 구비하고, 오차가 평가되고 도구를 위한 신경망으로서 선택된 초기 신경망의 부분은 특성 추출부이다.
실시예들에서, 오차 평가 단계는 얼굴 이미지를 위한 초기 신경망의 부분의 출력과 이미지와 연관된 스코어 사이의 선형 회귀를 훈련시키는 단계를 포함한다.
바람직한 실시예에서, 선형 회귀의 훈련은 k-폴드 교차 검증(cross-validation)에 의해 수행된다. 파라미터 k는 2와 N 사이에 구성되고, N은 제2 데이터베이스 내의 이미지들의 갯수이다.
바람직하게, 방법은, 도구의 신경망이 선택된 후, 추정기(estimator)에 의해 추정된 스코어와 제2 데이터베이스의 각각의 이미지를 위한 상응하는 참조 스코어 사이에서 평균 오차를 최소화시키는 하나의 추정기를 다수의 추정기 후보들 중에서 선택하는 단계를 더 포함한다.
일 실시예에서, 각각의 추정기 후보는 k'-폴드 구성으로 훈련된다.
추정기 후보들은 선형 회귀, 리지(Ridge) 회귀, 라소(lasso) 회귀, 또는 신경망의 적어도 하나를 포함할 수 있다.
질적인 특성은 건강 추정, 매력도 추정, 성(gender) 추정, 자존심 추정, 및 여성성(famininity) 추정 중에서 어느 하나일 수 있다.
본 발명의 다른 목적에 따르면, 프로세서에 의해 실행될 때, 전술한 방법을 수행하기 위한 일련의 명령들을 포함하는, 컴퓨터 프로그램 제품이 개시된다.
본 발명의 또 다른 목적에 따르면, 사람 얼굴의 사진으로부터 질적인 특성의 평가를 위한 도구가 개시되고, 이러한 도구는 특성들을 추출하기 위해 사진을 처리하도록 구성된 신경망, 및 추출된 특성들로부터 질적인 특성의 스코어 대표를 추론하도록 구성된 추정기를 구비하고, 전술한 방법에 따라 구축된다.
본 발명의 또 다른 목적에 따르면, 사람 얼굴의 사진으로부터 질적인 특성을 평가하기 위한 컴퓨터-구현 방법이 개시되는 바, 질적인 특성의 스코어 대표를 사진에 출력하기 위하여, 사진에 상기 도구의 적용을 포함한다.
실시예들에서, 사진은 제2 데이터베이스의 이미지들의 부분들로부터 구축된 얼굴 이미지이고, 방법은 사진과 상응하는 스코어를 제2 데이터베이스에 부가하는 단계를 더 포함한다.
본 발명에 따른 방법은 사람 얼굴로부터 건강 인식과 같은 질적인 특성을 평가하기 위한 도구의 구축을 가능하게 한다. 본 발명의 방법은, 더 큰 사이즈의 제1 데이터베이스 상의 연령 추정 전용의 초기 신경망의 훈련에 의해, 입수가능한 데이터베이스들의 제한된 사이즈의 쟁점을 회피하고, 제1 데이터베이스는 사진 상에 보이는 사람의 연령과 연관된 얼굴들의 사진들을 포함한다. 연령을 할당하기 위해 데이터베이스의 각각의 사진을 검토하게 할 필요가 없기 때문에, 이러한 종류의 데이터베이스는 확보가 훨씬 용이하고 훨씬 더 거대하다.
그리고, 본 발명의 방법은 얼굴 이미지로부터의 특성 추출에 전용인 훈련된 망의 부분을 추출한다. 이러한 부분은 질적인 특성을 평가하기 위한 도구의 신경망을 형성한다. 실제로, 얼굴 이미지로부터의 특성 추출은 건강 또는 임의의 다른 질적인 특성을 평가하기 전에 수행될 필요가 있다.
추출된 신경망이 질적인 특성의 평가를 위해 유의미하도록 하기 위해, 선택된 훈련된 망의 버전은, 질적인 특성의 스코어 대표와 연관된 얼굴 이미지의 보다 제한된 데이터베이스 상의 k-폴드 교차 검증에 의해 질적인 특성의 평가와 관련된 최고의 결정을 제공하는 것이다.
그러므로, 본 발명의 방법은 더 큰 다른 데이터베이스 상에서 훈련된 다른 망을 사용함으로써 신경망을 훈련하기 위해 입수할 수 있는 데이터의 부족을 보상한다.
본 발명의 다른 특징들과 장점들은 첨부된 도면들을 참조하여 비-제한적인 예에 의해 주어진 아래의 상세한 설명으로부터 명백해 질 것이다.
도 1은 일 실시예에 따른 방법의 주요 단계들을 개략적으로 도시하는 블록도이다.
도 2는 얼굴 이미지로부터 추정된 연령을 출력하도록 구성된 초기 신경망의 개략도이다.
도 3은 훈련 동안 훈련 세트와 검증 세트의 초기 망의 평균 절대값 오차(Mean Absolute Error)의 감소를 나타낸는 그래프이다.
도 4는 초기 망의 훈련된 버전들을 이용하여 초기 망의 추출된 부분의 건강 인식을 위한 평균 절대값 오차의 진전을 도시하는 그래프이다.
도 5는 본 발명의 방법으로 획득된 도구를 개략적으로 나타낸 구성도이다.
도 6a 및 도 6b는 실시예에 따른 도구에 의해 그리고 검토자들에 의해 각각 수행된 건강 인식의 성과를 나타내는 도면이다.
도 1을 참조하면, 사람 얼굴의 사진으로부터의 질적인 특성(qualitative feature)의 자동적 평가를 위한 도구를 구축하기 위한 방법이 설명된다.
본 방법은, 프로세서, 마이크로프로세서, 컨트롤러, 또는 임의의 다른 동등한 디바이스일 수 있는 계산기, 및 방법을 수행하기 위해 계산기에 의해 실행될 명령들을 저장하는 메모리를 적어도 구비하는 컴퓨터에 의해 구현된다. 또한, 메모리는 아래에서 상세히 설명될 제1 데이터베이스와 제2 데이터베이스를 저장할 수 있다. 대안적으로, 제1 데이터베이스와 제2 데이터베이스는 예를 들어, 인터넷과 같은 통신망 및 컴퓨터 상의 상응하는 네트워크 인터페이스를 통해, 컴퓨터에 의해 접속될 수 있는 별개의 메모리(예, 원격 서버) 내에 저장될 수 있다.
바람직하게, 질적인 특성은 건강 인식(perception)이다. 다른 실시예들에서, 질적인 특성은 여성성, 성, 매력도 또는 그 밖의 자신감 추정(estimation)일 수 있다.
본 방법에 따라 구축되는 도구는 컴퓨터에 의해서도 구현될 수 있다. 도구는 사람 얼굴의 사진을 입력으로서 수신하고 평가될 질적인 특성의 스코어 대표를 출력한다.
도 5에 도시된 바와 같이, 본 방법에 따라 구축되는 도구는 특성들을 추출하기 위해 사람 얼굴의 사진을 처리하도록 구성된 신경망, 및 요구되는 스코어를 출력하기 위해 추출된 특성들을 처리하도록 구성된 추정기를 구비한다.
전술한 바와 같이, 신경망은 인식된 건강 스코어들과 연관된 얼굴 이미지들을 포함하는 데이터 베이스와 같이, 수 백개의 이미지들과 각각의 스코어들을 포함하는 너무 작은 데이터베이스 상에서 훈련될 수 없다.
이러한 문제를 회피하기 위하여, 도 1을 다시 참조하면, 본 방법은 제1 데이터베이스의 초기 신경망을 훈련시키는 제1 단계(100)를 포함하고, 제1 데이터베이스는 사람 얼굴들의 이미지들을 구비하고, 각각의 이미지는 이미지 상에 보이는 사람의 연령과 연관되어 있다. 이러한 데이터베이스는 바람직하게 적어도 10,000개의 이미지들 및 연관된 연령들, 더 바람직하게 대략 적어도 100,000개의 이미지들 및 연관된 연령들을 포함한다.
초기 신경망은 사람 얼굴의 이미지로부터, 이미지 상에 보이는 사람의 추정 연령을 출력하도록 구성된 망이다. 이를 위하여, 도 2에 개략적으로 도시된 바와 같이, 초기 신경망은 사진으로부터 일련의 특성들을 추출하도록 구성된 특성 추출부(FP), 및 추출된 특성들을 입력으로서 수신하고 추정된 연령을 출력하는 연령 평가부(EP)를 구비한다.
당업자에 의해 잘 알려진 바와 같이, 초기 신경망은 뉴런(neuron)들의 계층들을 구비하고, 각각의 뉴런은 다른 계층들로부터의 다른 뉴런들에 연결되어 있고 그 입력들을 처리하기 위해 웨이트들을 사용한다.
도 2에 개략적으로 도시된 바와 같이, 초기 신경망의 특성 추출부(FP)는 다수의 블록들을 구비할 수 있고, 각각의 블록은 입력 이미지 상의 필터를 수행하도록 구성된 적어도 하나의 컨블루션 계층 및 풀링(pooling) 계층을 포함한다.
바람직한 비-제한적인 실시예에 따르면, 초기 신경망은 VGG-16 신경망일 수 있다. 이러한 신경망은 객체 분류를 위해 사용되는 용이하게 입수가능한 망이다. 보다 바람직하게, 초기 신경망은 VGG-16 신경망의 수정된 버전일 수 있고, 이러한 수정은 연령 평가부 내의 뉴런들의 감소를 포함한다. 그러므로, 학습 노력은 연령 평가부보다는 특성 추출부에 초점이 맞춰짐으로써, 초기 신경망은 평가부(EP)를 너무 많이 사용하는 것이 방지되고, 이러한 부분은 다음 단계에서 제거될 것이다.
훈련 단계(100)는 제1 데이터베이스 상의 초기 신경망의 다수의 훈련 세션들 또는 훈련 에폭(epoch)들을 수행하는 단계를 포함하고, 각각의 훈련 세션은 망의 뉴런들의 웨이트들의 수정 및 초기 신경망의 업데이트된 버전의 출력을 포함한다.
위에서 주어진 예에서, 수정된 VGG-16 망은, 에폭당 스텝이 10인 600 개의 에폭들 상에서 학습율이 10-4인(즉, 각각의 학습 반복 횟수가 신경 웨이트들의 수정들을 의미하는 학습 반복 회수(iteration)가 10인), 확률적 기울기 강하(Stochastic Gradient Descent)를 이용하여 훈련될 수 있다.
도 3에는 훈련 세션들(또는 에폭들)의 수에 따른, 초기 신경망의 훈련 세트와 검증 세트 상의 평균 절대값 오차들을 각각 나타낸다. 도 3의 곡선들은 매끈하게 처리되었다.
이 도면에서, 평균 절대값 오차들은 훈련 세션의 수가 많아지면 감소하는 것을 볼 수 있다. 그러나, 초기 신경망이 연령 추정을 위해 훈련되었기 때문에, 너무 중요한 학습은, 질적인 특성의 스코어 대표를 출력시키는 요구되는 애플리케이션을 위해서 이러한 망을 너무 구체적이고 의미가 덜하게 만들 수 있다.
그러므로, 도 1을 다시 참조하면, 본 방법은 초기 신경망의 각각의 업데이트된 버전을 위해 즉, 훈련 세션 후 가중(weighting) 계수들이 업데이트된 초기 신경망의 각각의 버전을 위해, 질적인 특성의 추정에 근거하여 업데이트된 초기 신경망의 부분의 오차를 평가하는 단계(200)를 포함한다.
일 실시예에서, 이러한 단계는 각각의 훈련 세션 후에 수행될 수 있으므로, 단계들(100,200)은 교대로 반복적으로 수행된다. 다른 실시예에서, 각각의 훈련 세션 후의 가중 계수들은 모든 훈련 세션들을 위해 저장된 후, 각각의 오차 평가를 위해 로딩된다. 이 경우, 단계(100)는 모든 훈련 세션들을 위해 한 번 수행되고, 단계(200) 역시 단계(100) 후에 한 번 수행된다.
업데이트된 초기 신경망의 상기 부분은 바람직하게 전술한 특성 추출부이다.
평가 단계는, 평가될 신경망의 부분의 출력에서, 신경망의 부분에 의해 추출된 특성들로부터 평가될 질적인 특성의 스코어 대표를 출력하는 추정기를 부가함으로써 수행된다. 바람직한 실시예에서, 추정기는 선형 회귀이다.
선형 회귀는 평가될 질적인 특성의 스코어 대표와 연관된 얼굴 이미지들을 포함하는 제2 데이터베이스 상에서 훈련된다. 이러한 데이터베이스에서, 스코어는 일반적으로 평가자들의 그룹에 의해 제공되었다. 그러므로, 이러한 제2 데이터베이스는 제1 데이터베이스보다 더 작은 사이즈이고, 최대 백 개 또는 수 백 개의 이미지들 및 연관된 스코어들 만을 포함할 수 있다. 이러한 매우 작은 사이즈의 제2 데이터베이스가 주어지면, 선형 회귀는 k-폴드 교차 검증에 의해 훈련되고, 여기서 k는 2와 N 사이에서 선택되고, N은 데이터베이스 내의 이미지들의 갯수이다. 예를 들어, 130개의 이미지들의 데이터베이스의 경우, k는 20일 수 있다.
그러므로, 단계(200)는, 제2 데이터베이스를 대략 동일한 사이즈의 k개의 하위세트들로 구분하는 단계, 및 이어서, 훈련 세션 후에 얻어진 초기 신경망의 각각의 업데이트된 버전을 위해, 각각의 k 하위세트를 위해:
- 하위세트를 선택하는 단계,
- 하위세트 내에 포함되지 않은 제2 데이터베이스의 각각의 이미지를 위해, 초기 신경망의 부분의 적용에 의해 특성들의 대표 세트를 추출하는 단계,
- 이미지 및 이미지에 연관된 스코어로부터 추출된 특성들의 각각의 세트 사이의 회귀 함수를 결정하는 단계,
- 하위세트의 각각의 이미지를 위해, 특성들의 세트를 추출하기 위해 초기 신경망의 부분을 적용하는 단계,
- 추정된 스코어를 추론하기 위해 특성들의 각각의 세트에 회귀 함수를 적용하는 단계, 및
- 각각의 추정된 스코어와 이미지에 연관된 상응하는 스코어 사이의 전체 오차를 계산하는 단계를 포함한다.
초기 신경망의 업데이트된 버전을 위해 단계(200)에서 출력된 오차는 k 하위세트들의 각각을 위해 계산된 오차들에 기반하여 계산된다. 예를 들어, 그것은 k 하위세트들의 각각을 위해 계산된 모든 오차들의 평균 절대값 오차이다.
도 4에는 평균 절대값 오차가 각각의 훈련 세션을 위해 대표되고, 다른 곡선은 매끄럽게 처리된 평균 절대값 오차인 예가 도시된다.
매끄럽게 처리된 평균 절대값 오차 곡선은 초기 신경망의 훈련 100에서 감소하기 시작하고, 이어서, 훈련 세션들의 중요한 숫자 후에 다시 증가하고, 초기 신경망은 연령 추정의 작업에 과도하게 특수해 진다.
이어서, 방법은 질적인 특성을 평가하기 위한 도구의 신경망으로서, 단계(200)의 최소 오차를 나타내는 업데이트된 버전 내의 초기 신경망의 부분(예, 특성 추출부)을 선택하는 단계(300)를 포함한다. 다시 말해서, 단계(300)는 질적인 특성의 평가에 최소 오차를 제공하는 가중 계수를 이용하여 초기 신경망의 부분을 선택하는 단계를 포함한다.
도 4에 도시된 예에서, 선택된 버전은 410번째 훈련 세션 또는 에폭 근처이다.
도구의 신경망(N)이 결정되면, 방법은, 신경망(N)에 의해 추출된 특성들로부터, 평가될 질적인 특성의 스코어 대표를 추론하기 위해 최고의 추정기를 결정하는 단계(400)를 포함한다.
이러한 단계(400)는, 추정기에 의해 출력된 스코어와 데이터베이스의 각각의 사진에 할당된 스코어 사이의 평균 절대값 오차를 각각의 추정기를 위해 추론하기 위하여, 제2 데이터베이스 상에서, k'-폴드 교차 검증에 의해, 다수의 후보 추정기들의 훈련(410)에 의해 수행된다. 이러한 단계 동안, k'는 바람직하게 단계(200)에서 사용된 k와 동일하다. 그러므로, k'는 예를 들어, k와 동일할 수 있다. 단계9400)는 최소 평균 절대값 오차를 나타내는 후보 추정기를 선정하는 단계(420)를 포함한다.
후보 추정기들은 선형 회귀, 리지 회귀, 라소 회귀 등을 포함할 수 있다. 또한, 그들은 상이한 파라미터들을 가진 동일한 형태의 회귀의 다양한 버전들을 포함할 수 있다. 또한, 그들은 추출된 특성들로부터 스코어를 출력하도록 구성된 다른 신경망을 포함할 수 있다.
하나의 예는 아래의 [표 1]에 상세히 열거되는 바, 3개의 후보 추정기들은 건강 스코어들의 주해가 붙은 130개의 이미지들을 포함하는 제2 데이터베이스 상에서 실험되었다. 최고의 추정기는 리지 회귀(α=10-3, α는 L2 정규화를 위한 패널티 계수 임)라는 사실을 알 수 있다.
추정기 평균 절대값 오차
선형 회귀 4.230
α=10 -3 을 이용한 리지 회귀 4.221
α=10-1 을 이용한 리지 회귀 4.257
α=100 을 이용한 리지 회귀 5.879
α=101 을 이용한 리지 회귀 10.913
α=106 을 이용한 라소 회귀 15.031
α=105 을 이용한 라소 회귀 8.321
α=103 을 이용한 라소 회귀 10.096
α=102 을 이용한 라소 회귀 13.022
[후보 추정기들과 연관된 평균 절대값 오차들]
제2 데이터베이스 내의 매우 드문 수의 이미지들(예, 130)은 신경망들과 같은 보다 복잡한 추정기들을 능가하기 위해 리지 회귀의 선형 회귀와 같은 간단한 추정기들을 낳는다는 사실이 강조되어야 한다.
도 5를 참조하면, 본 방법에 의해 얻어진 도구는 신경망(N)이 얼굴 이미지로부터 특성들을 추출하도록 구성된 제1 블록, 및 추정기(E)가 신경망에 의해 추출된 특성들로부터 질적인 특성의 스코어 대표를 출력하도록 구성된 제2 블록을 구비한다.
이러한 도구를 사용하면, 인식된 건강의 스코어 또는 다른 질적인 특성을 얻기 위해 사진이 수 천 개의 평가자들에 의해 검토될 필요가 더 이상 없게 된다. 대신에, 도구를 이용하여 사진을 처리하고 스코어를 출력하기만 하면 된다.
비교 결과들은 도 6a 및 도 6b에 도시되어 있다. 도 6a는 일련의 코카시안(Caucasian) 평가자들에 의한 코카시안 여성들의 사진들로부터의 건강 평가 결과들을 도시한다. 가로 좌표에는 사진들의 결과로 보는 평균 스코어들이 도시되고, 세로 좌표에는 각각의 평가자에 의해 주어진 개별 스코어들이 도시된다. 따라서, 이러한 도면은 평가자들의 평균에 대한 단일 평가자의 성과를 예시한다. 이 경우 결정 계수(R2)는 -0.387이고 피어슨 상관 계수는 64.7%이다.
도 6b는 평가자들에 의한 결과로 보는 평균 건강 스코어들과 비교되는 도구의 예측들(세로 좌표)을 도시한다. 그러면, 결정 계수(R2)는 0.722이고, 피어슨 상관 계수는 85.1%이다. 그러므로, 위에서 주어진 방법에 따라 개발된 도구는 인간 평가자에 대해 보다 나은 정밀도를 나타내는 것을 알 수 있다.
부가적으로, 이러한 도구를 사용하면, 얼굴 이미지들과 상응하는 스코어들의 데이터베이스가 풍부해 질 수 있다.
데이터베이스 내에 이미 존재하는 얼굴 이미지들은, 예를 들어, 하나의 사진으로부터 눈들을 추출하고 다른 사진으로부터 코를 추출하는 등에 의해, 새로운 얼굴 이미지들을 구축하는데 사용될 수 있다. 그러면, 도구는 인식된 건강의 상응하는 스코어 또는 다른 질적인 특성을 추론하기 위해 새롭게 생성된 사진 상에서 운용될 수 있고, 사진과 상응하는 스코어는 데이터베이스에 부가될 수 있다. 그러므로, 다른 연구를 위해 더 큰 데이터베이스가 활용될 수 있다.
FP...특성 추출부
EP...연령 평가부

Claims (12)

  1. 사람 얼굴의 사진의 처리를 통해, 얼굴의 질적인 특징의 스코어 대표를 결정하도록 구성되고, 신경망(N)을 구비하는 도구를 구축하기 위한 방법으로서, 상기 방법은 컴퓨터에 의해 수행되고,
    - 사람의 얼굴의 사진으로부터, 사람의 추정된 연령을 평가하도록 구성된 초기 신경망의 적어도 하나의 훈련 세션을 수행하는 단계(100)로서, 상기 초기 신경망은 얼굴의 사진으로부터 특성들을 추출하도록 구성된 특성 추출부(FP), 및 추출된 특성들로부터 추정된 연령을 출력하도록 구성된 연령 평가부(EP)를 포함하고,
    상기 초기 신경망은 뉴런(neuron)들의 계층들과 연관된 웨이트들을 포함하고, 각각의 훈련 세션은 각각의 얼굴 이미지가 이미지 상의 사람의 생물학적 연령과 연관되어 있는 얼굴 이미지들의 제1 데이터베이스 상에서 수행되고, 각각의 훈련 세션은 웨이트들이 변화되는 신경망의 업데이트된 버전을 출력하고;
    - 훈련 세션에 상응하는 초기 신경망의 각각의 업데이트된 버전을 위하여, 각각의 얼굴 이미지가 질적인 특성의 참조 스코어 대표와 연관되어 있는 얼굴 이미지들의 제2 데이터베이스 상의 초기 신경망의 특성 추출부(FP)의 오차를 평가하는 단계(200)로서, 상기 제2 데이터베이스는 제1 데이터베이스보다 열등한 사이즈를 구비하고;
    - 모든 업데이트된 버전들로부터 추출된 오차들에 대한 최소 평가된 오차에 상응하는 업데이트된 버전 내의 초기 신경망의 상기 특성 추출부(FP)를, 상기 도구의 신경망(N)으로서 선택하는 단계(300)를 포함하는, 도구 구축 방법.
  2. 청구항 1에서,
    오차 평가 방법(200)은, 얼굴 이미지의 초기 신경망의 부분의 출력과 이미지에 연관된 스코어 사이의 선형 회귀의 훈련을 포함하는, 도구 구축 방법.
  3. 청구항 2에서,
    상기 선형 회귀의 훈련은 k-폴드 교차-검증에 의해 수행되는, 도구 구축 방법.
  4. 청구항 3에서,
    상기 k는 2와 N 사이에서 구성되고, 상기 N은 상기 제2 데이터베이스 내의 이미지들의 갯수인, 도구 구축 방법.
  5. 청구항 1에서,
    상기 도구의 신경망이 선택되면, 추정기에 의해 추정된 스코어와 제2 데이터베이스의 각각의 이미지를 위한 상응하는 참조 스코어 사이의 평균 오차를 최소화시키는 다수의 추정기 후보들 사이에서 하나의 추정기를 선택하는 단계(420)를 더 포함하는, 도구 구축 방법.
  6. 청구항 5에서,
    각각의 추정기 후보는 k'-폴드 구성을 이용하여 훈련되는(410), 도구 구축 방법.
  7. 청구항 5에서,
    상기 추정기 후보들은 선형 회귀, 리지(Ridge) 회귀, 라소(Lasso) 회귀, 또는 신경망의 적어도 하나를 구비하는, 도구 구축 방법.
  8. 청구항 1에서,
    상기 질적인 특성은 건강 추정, 매력도 추정, 성(gender) 추정, 자신감 추정, 및 여성성(femininity) 추정 중에서 어느 하나인, 도구 구축 방법.
  9. 프로세서에 의해 실행될 때, 청구항 1에 따른 방법을 수행하기 위한 일련의 명령들을 포함하는 컴퓨터 프로그램 제품.
  10. 사람 얼굴의 사진으로부터 질적인 특성의 평가를 위한 도구로서,
    특성들을 추출하기 위해 사진을 처리하도록 구성된 신경망(N), 및 추출된 특성들로부터 질적인 특성의 스코어 대표를 추론하도록 구성된 추정기(E)를 구비하고, 청구항 1에 따라 구축된, 도구.
  11. 사람 얼굴의 사진으로부터 질적인 특성을 평가하기 위한 컴퓨터-구현 방법으로서,
    질적인 특성의 스코어 대표를 출력하기 위하여 청구항 10에 따른 도구를 상기 사진에 적용시키는 단계를 포함하는, 컴퓨터-구현 방법.
  12. 청구항 11에서,
    상기 사진은 제2 데이터베이스의 이미지들의 부분들로부터 구축된 얼굴 이미지이고,
    상기 방법은 상기 사진과 상응하는 스코어를 상기 제2 데이터베이스에 부가하는 단계를 더 포함하는, 컴퓨터-구현 방법.
KR1020190012153A 2018-02-28 2019-01-30 얼굴 이미지들로부터의 질적인 특성의 평가를 위한 컴퓨터-구현된 연산 디바이스를 구축하기 위한 방법 KR102190325B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP18305211.7A EP3534296A1 (en) 2018-02-28 2018-02-28 A method for building a computer-implemented tool for assessment of qualitative features from face images
EP18305211.7 2018-02-28

Publications (2)

Publication Number Publication Date
KR20190109710A true KR20190109710A (ko) 2019-09-26
KR102190325B1 KR102190325B1 (ko) 2020-12-11

Family

ID=61683726

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190012153A KR102190325B1 (ko) 2018-02-28 2019-01-30 얼굴 이미지들로부터의 질적인 특성의 평가를 위한 컴퓨터-구현된 연산 디바이스를 구축하기 위한 방법

Country Status (4)

Country Link
US (1) US10956716B2 (ko)
EP (1) EP3534296A1 (ko)
JP (1) JP6750055B2 (ko)
KR (1) KR102190325B1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7332037B2 (ja) * 2020-03-31 2023-08-23 日本電気株式会社 表示制御装置、方法及びプログラム
CN111401339B (zh) * 2020-06-01 2020-09-29 北京金山云网络技术有限公司 识别人脸图像中的人的年龄的方法、装置及电子设备
US20210390414A1 (en) * 2020-06-10 2021-12-16 Nvidia Corporation Accelerated training for neural network models
CN111898543B (zh) * 2020-07-31 2022-06-07 武汉大学 一种融合几何感知与图像理解的建筑物自动提取方法
CN112086198B (zh) * 2020-09-17 2023-09-26 西安交通大学口腔医院 一种基于深度学习技术建立年龄评估模型的系统及方法
EP4343628A1 (en) * 2022-09-22 2024-03-27 Siemens Aktiengesellschaft Method and system for validating cleanliness of machine parts in an industrial plant

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005250712A (ja) * 2004-03-03 2005-09-15 Univ Waseda 人物属性識別方法およびそのシステム
KR20100113651A (ko) * 2009-04-14 2010-10-22 경북대학교 산학협력단 생물학 기반의 돌출맵을 이용한 점진적 시각 환경 인지를 통한 얼굴 검출과 점진적 얼굴 인지 방법
KR20130031712A (ko) * 2011-09-21 2013-03-29 현대모비스 주식회사 얼굴인식형 운전자 인증 장치 및 방법
US20180293429A1 (en) * 2017-03-30 2018-10-11 George Mason University Age invariant face recognition using convolutional neural networks and set distances

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009172181A (ja) 2008-01-25 2009-08-06 Seiko Epson Corp 健康診断方法、および健康診断装置
JP2010033474A (ja) * 2008-07-31 2010-02-12 Omron Corp 属性別人数集計装置、属性別人数集計方法、および属性別人数集計システム
US8582807B2 (en) * 2010-03-15 2013-11-12 Nec Laboratories America, Inc. Systems and methods for determining personal characteristics
US10482333B1 (en) * 2017-01-04 2019-11-19 Affectiva, Inc. Mental state analysis using blink rate within vehicles
US10869626B2 (en) * 2010-06-07 2020-12-22 Affectiva, Inc. Image analysis for emotional metric evaluation
JP5571633B2 (ja) 2011-08-31 2014-08-13 東芝テック株式会社 健康度報知装置、プログラム及び健康度報知方法
US11195057B2 (en) * 2014-03-18 2021-12-07 Z Advanced Computing, Inc. System and method for extremely efficient image and pattern recognition and artificial intelligence platform
KR20150072463A (ko) 2013-12-11 2015-06-30 한국 한의학 연구원 안면 영상을 이용하는 건강 상태 판단 장치 및 건강 상태 판단 방법
EP2919142B1 (en) 2014-03-14 2023-02-22 Samsung Electronics Co., Ltd. Electronic apparatus and method for providing health status information
US10198626B2 (en) * 2016-10-19 2019-02-05 Snap Inc. Neural networks for facial modeling
KR102339915B1 (ko) * 2017-05-31 2021-12-17 더 프록터 앤드 갬블 캄파니 셀피를 촬영하도록 사용자를 안내하기 위한 시스템 및 방법
US20190172458A1 (en) * 2017-12-01 2019-06-06 Affectiva, Inc. Speech analysis for cross-language mental state identification

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005250712A (ja) * 2004-03-03 2005-09-15 Univ Waseda 人物属性識別方法およびそのシステム
KR20100113651A (ko) * 2009-04-14 2010-10-22 경북대학교 산학협력단 생물학 기반의 돌출맵을 이용한 점진적 시각 환경 인지를 통한 얼굴 검출과 점진적 얼굴 인지 방법
KR20130031712A (ko) * 2011-09-21 2013-03-29 현대모비스 주식회사 얼굴인식형 운전자 인증 장치 및 방법
US20180293429A1 (en) * 2017-03-30 2018-10-11 George Mason University Age invariant face recognition using convolutional neural networks and set distances

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Z. Qawaqneh, A. A. Mallouh, and B. D. Barkana, "Deep convolutional neural network for age estimation based on VGG-face model,," 2017, https://arxiv.org/abs/1709.01664. (2017.09.06.) 국외논문 사본 1부* *

Also Published As

Publication number Publication date
JP2019169139A (ja) 2019-10-03
JP6750055B2 (ja) 2020-09-02
US20190266386A1 (en) 2019-08-29
EP3534296A1 (en) 2019-09-04
KR102190325B1 (ko) 2020-12-11
US10956716B2 (en) 2021-03-23

Similar Documents

Publication Publication Date Title
KR102190325B1 (ko) 얼굴 이미지들로부터의 질적인 특성의 평가를 위한 컴퓨터-구현된 연산 디바이스를 구축하기 위한 방법
US9721221B2 (en) Skill estimation method in machine-human hybrid crowdsourcing
CN110334843B (zh) 一种时变注意力改进Bi-LSTM的住院就医行为预测方法及装置
CN111291266A (zh) 基于人工智能的推荐方法、装置、电子设备及存储介质
CN110889450B (zh) 超参数调优、模型构建方法和装置
CN111784121B (zh) 基于不确定性分数分布学习的动作质量评价方法
Zhong et al. Large group decision-making incorporating decision risk and risk attitude: A statistical approach
KR102285665B1 (ko) 학습 커리큘럼 제공 방법, 시스템 및 장치
US9104905B2 (en) Automatic analysis of individual preferences for attractiveness
CN116807447B (zh) 动态脑网络的脑龄预测建模方法、认知提升方法及系统
CN111477328B (zh) 一种非接触式的心理状态预测方法
Walker et al. Beyond percent correct: Measuring change in individual picture naming ability
KR101729283B1 (ko) 목표 달성 진단 장치 및 진단 방법
CN112836750A (zh) 一种系统资源分配方法、装置及设备
WO2016166598A1 (en) Requirements determination
CN113689514B (zh) 一种面向主题的图像场景图生成方法
Barrios Optimal stratification in randomized experiments
CN115968478A (zh) 机器学习特征推荐
Kuznietsova et al. Business Intelligence Techniques for Missing Data Imputations
Lizama et al. Model for automatic detection of the big five personality traits through facial images
KR101656024B1 (ko) 배우자 후보에 대한 매칭 장치 및 방법
JP7435821B2 (ja) 学習装置、心理状態系列予測装置、学習方法、心理状態系列予測方法、及びプログラム
CN117271905B (zh) 基于人群画像的侧向需求分析方法及系统
US20230259820A1 (en) Smart selection to prioritize data collection and annotation based on clinical metrics
CN117936035A (zh) 一种基于大数据的心理咨询对比分析方法及系统

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant