KR102441171B1 - 다시점 얼굴 영상 기반 사용자 모니터링 장치 및 방법 - Google Patents

다시점 얼굴 영상 기반 사용자 모니터링 장치 및 방법 Download PDF

Info

Publication number
KR102441171B1
KR102441171B1 KR1020200062912A KR20200062912A KR102441171B1 KR 102441171 B1 KR102441171 B1 KR 102441171B1 KR 1020200062912 A KR1020200062912 A KR 1020200062912A KR 20200062912 A KR20200062912 A KR 20200062912A KR 102441171 B1 KR102441171 B1 KR 102441171B1
Authority
KR
South Korea
Prior art keywords
image
user
attribute
face
images
Prior art date
Application number
KR1020200062912A
Other languages
English (en)
Other versions
KR20210145984A (ko
Inventor
김호원
유장희
한병옥
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020200062912A priority Critical patent/KR102441171B1/ko
Priority to US17/085,941 priority patent/US11749023B2/en
Publication of KR20210145984A publication Critical patent/KR20210145984A/ko
Application granted granted Critical
Publication of KR102441171B1 publication Critical patent/KR102441171B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/19Sensors therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/366Image reproducers using viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0117Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving conversion of the spatial resolution of the incoming video signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Social Psychology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Medical Informatics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Ophthalmology & Optometry (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)
  • Computer Graphics (AREA)
  • Image Processing (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

다시점 얼굴 영상 기반 사용자 모니터링장치 및 방법이 개시된다. 본 발명의 실시예에 따른 다시점 얼굴 영상 기반 사용자 모니터링 장치는, 적어도 하나의 프로그램이 기록된 메모리 및 프로그램을 실행하는 프로세서를 포함하며, 프로그램은, 적어도 둘 이상의 상이한 시점들 각각에서 촬영된 사용자 영상들 각각으로부터 얼굴 영역 영상들을 추출하는 얼굴 검출부와, 얼굴 영역 영상들의 3차원 공간에서의 적어도 하나의 속성 정보를 2차원 UV 공간으로 매핑한 적어도 하나의 속성별 2차원 영상을 생성하는 축소 변환부와, 적어도 하나의 속성별 2차원 영상을 분석하여 사용자 모니터링 정보를 생성하는 분석부를 포함할 수 있다.

Description

다시점 얼굴 영상 기반 사용자 모니터링 장치 및 방법{Apparatus and Method for Monitoring User based on Multi-View Face Image}
기재된 실시예는 사용자와의 인터랙션을 위해 사용자를 모니터링하는 기술에 관한 것이다.
다시점 얼굴 영상분석을 통해 실시간 수집되는 사용자 정보는 AI 비서 혹은 AI 학습 튜터, AI 출입 시스템, AI 사이니지 시스템, AI 서비스 로봇, AI 컨시어지/큐레이션 시스템/로봇, CCTV 모니터링 시스템 등 인공지능을 기반으로 대면 서비스 혹은 사용자 모니터링 서비스를 수행하는 다양한 분야에서 사용자의 상황에 맞는 지능형 인터랙티브 서비스를 제공하는 곳에 활용될 수 있다.
종래의 방법들은 컴퓨터가 사용자와의 인터랙션을 위해 음성이나 영상으로부터 사용자의 의도나 상태, 목적 등을 자동으로 분석 또는 인식하기 위해 마이크나 카메라 등의 센서를 이용한다.
이 중 사용자의 외형적 피부색 등의 색상정보를 얻을 수 있는 RGB 카메라(예: 웹캠)나 사용자의 형상(shape or geometry)정보를 얻을 수 있는 Depth 카메라(예: 키넥트) 등의 카메라 정보를 이용하여 사용자의 신원이나 시선방향, 표정, 자세 등을 얻을 수 있는 다양한 접근방법이 있다. 이러한 목적을 위한 종래의 얼굴인식이나 시선추적 등의 상용 시스템들을 보면 사용자로부터 얻을 수 있는 정보량을 극대화하기 위해 주로 사용자가 카메라를 정면으로 바라보도록 제약하는 경우가 대부분이다. 사용자가 이러한 제약조건을 따르지 않을 경우 제대로 동작하지 않거나 성능이 떨어지는 경우가 대부분이다. 즉, 사용자가 카메라를 45도 이상의 측면으로 바라보고 있는 상태에서는 카메라 반대편에서 발생하는 눈동자의 움직임이나 얼굴의 표정변화, 얼굴의 특징 등을 카메라 영상으로부터 획득할 수 없게 되고, 결과적으로는 정보 부재로 제대로 된 사용자 정보 수집이 어려워지게 된다.
이러한 카메라가 직접 수집하지 못하는 가려진 영역의 정보를 컴퓨터가 획득하기 위해서는 사용자를 중심으로 여러 위치에 사용자를 다양한 시점에서 바라볼 수 있는 카메라를 다수 배치하고 이들 카메라로부터 다시점 영상을 획득하여 영상분석을 수행하는 방법들이 있다. 이 경우에는 반대로 정보량의 과잉으로 인해 필요한 정보를 가지고 있는 카메라의 시점에서 얻은 영상정보를 효율적으로 선별 수집하는 방법론이 필요하게 된다. 즉, 극단적인 경우에 2대의 카메라가 사용자를 보고 있는 상황에서 한 대의 카메라는 얼굴의 좌측이 가려져서 우측의 정보만이 제공 가능하고 나머지 한 대의 카메라는 얼굴의 우측이 가려져서 좌측의 정보만이 제공 가능한 상태일 수 있으며, 이 경우 두 카메라의 정보를 어떻게 결합하여 사용자의 정보를 효율적으로 획득할 것인가에 대한 문제가 발생한다.
종래의 연산기반(Computational Photography) 접근 방법에서는 사용자와 각 카메라 간의 기하학적 변환관계 보정(Camera Calibration)을 기반으로 다시점 영상으로부터 3D 복원(Reconstruction)을 통해 정보를 3차원 공간에서 취합하고 분석하는 방법이 주로 활용된다. 이 경우 과도한 연산량과 다시점 영상 간의 중첩 영역 부재시의 동작 불안정성, 중첩 영역의 데이터 신뢰도 저하 등의 문제가 존재한다. 이를 해결하기 위해서는 또다른 연산이 요구된다. 이러한 문제는 모바일, 로봇 등의 임베디드 환경에서 더욱 부각될 수 있다.
또 다른 종래의 접근방법은 딥러닝 등의 학습을 통한 방법이 있으며, 다시점 영상에 대한 처리보다는 단일 시점 영상에 대한 접근이 대부분이다. 단일 시점 영상 접근은 전술한 바와 같이 사용자가 정면을 바라보도록 제한함으로써 자연스러운 인터랙션이 어렵게 하는 단점이 있다.
기재된 실시예는 사용자가 카메라를 정면으로 바라보거나 45도 이내의 각도에서 바라보고 있는 통상적인 정면 뷰의 상태가 아닌 45도 이상의 측면 각도를 포함하는 자유로운 자세를 취하더라도 사용자를 모니터링할 수 있는 데 목적이 있다.
기재된 실시예는 복수의 다시점 영상들을 기반으로 사용자를 모니터링함에 따른 정보량 과잉을 해결하는 데 목적이 있다.
기재된 실시예는 3차원 공간 연산으로 사용자를 모니터링함에 따른 연산 과도성을 해결하는 데 목적이 있다.
기재된 실시예는 딥러닝 연산을 사용자가 카메라를 정면으로 바라보거나 45도 이내의 각도에서 바라보고 있는 통상적인 정면 뷰의 상태가 아닌 45도 이상의 측면 각도를 포함하는 자유로운 자세를 취하더라도 적용 가능하도록 하는데 목적이 있다.
실시예에 따른 다시점 얼굴 영상 기반 사용자 모니터링 장치는, 적어도 하나의 프로그램이 기록된 메모리 및 프로그램을 실행하는 프로세서를 포함하며, 프로그램은, 적어도 둘 이상의 상이한 시점들 각각에서 촬영된 사용자 영상들 각각으로부터 얼굴 영역 영상들을 추출하는 얼굴 검출부와, 얼굴 영역 영상들의 3차원 공간에서의 적어도 하나의 속성 정보를 2차원 UV 공간으로 매핑한 적어도 하나의 속성별 2차원 영상을 생성하는 축소 변환부와, 적어도 하나의 속성별 2차원 영상을 분석하여 사용자 모니터링 정보를 생성하는 분석부를 포함할 수 있다.
이때, 프로그램은, 얼굴 영역 영상들을 추출하는 단계 및 사용자 모니터링 정보를 생성하는 단계 사이에, 추출된 얼굴 영역 영상들에서 모니터링 대상자를 선별하는 타겟 사용자 선별부를 더 포함할 수 있다.
이때, 프로그램은, 적어도 둘 이상의 상이한 시점들 각각에서 촬영된 사용자 영상들에 포함된 사용자들 간의 동일 여부를 콘볼루션 신경망 기반으로 판별할 수 있다.
이때, 축소 변환부는, 콘볼루션 신경망 알고리즘에 의해 생성되되, 얼굴 영역 영상에서 추출된 특징을 파라미터화하는 인코더 및 특징 파라미터를 기반으로 적어도 하나의 속성별 2차원 영상을 생성하는 디코더를 포함할 수 있다.
이때, 속성별 2차원 영상은, 얼굴 영역 영상의 3차원 공간 상의 형상 정보를 색상 코드 포맷으로 저장한 형상 2차원 영상(uv_shape) 및 얼굴 영역 영상의 색상 정보를 저장한 색상 2차원 영상(uv_tex)을 포함할 수 있다.
이때, 축소 변환부는, 특징 파라미터를 개별 특징별로 추가 변환 또는 가공하여 형태 특징 파라미터, 표정 특징 파라미터, 조명 특징 파라미터 및 헤드포즈 특징 파라미터를 포함하는 특징 파라미터들 중 적어도 하나를 추출하는 레이턴트 레이어를 더 포함할 수 있다.
이때, 분석부는, 속성별 2차원 영상의 사용자 별로 미리 등록된 속성별 2차원 영상과의 유사도를 기반으로 사용자를 식별하는 신원 인식부와, 속성별 2차원 영상을 표준 얼굴형의 속성별 2차원 영상과의 비교를 기반으로 얼굴 특징을 검출하는 얼굴 특징 검출부와, 헤드포즈 특징 파라미터를 기반으로 헤드 제스처를 검출하는 헤드 제스처 분류부와, 헤드포즈 특징 파라미터 및 uv_tex의 눈영역의 색상값을 기반으로 3D 시선 방향을 검출하는 시선 검출부 및 속성별 2차원 영상의 시간에 따른 변화량을 기반으로 사용자의 감성 상태를 인식하는 감성 상태 인식부 중 적어도 하나를 포함할 수 있다.
실시예에 따른 콘볼루션 신경망 학습 장치는, 적어도 하나의 프로그램이 기록된 메모리 및 프로그램을 실행하는 프로세서를 포함하며, 프로그램은, 얼굴 영역 영상들을 입력받은 콘볼루션 신경망이 3차원 공간에서의 적어도 하나의 속성 정보를 2차원 UV 공간으로 매핑한 적어도 하나의 속성별 2차원 영상을 출력하도록 지도 학습하는 단계 및 지도 학습된 콘볼루션 신경망에 다시점 얼굴 색상 영상들을 입력으로 하여 출력된 속성별 2차원 영상을 렌더링한 다시점 합성 색상 영상들이 다시점 얼굴 색상 영상들과의 오차가 최소가 되도록 비지도 학습하는 단계를 수행할 수 있다.
이때, 지도 학습하는 단계는, 콘볼루션 신경망이 얼굴 영역 영상에서 추출된 특징 파라미터를 개별 특징별로 추가 변환 또는 가공하여 조명 특징 파라미터 및 헤드포즈 특징 파라미터를 포함하는 특징 파라미터들 중 적어도 하나를 출력하도록 학습시키되, 비지도 학습하는 단계는, 렌더링함에 있어, 다시점 얼굴 색상 영상과 함께 조명 특징 파라미터 및 헤드포즈 특징 파라미터를 입력으로 하여 렌더링할 수 있다.
이때, 비지도학습 단계는, GAN(Generative Adversarial Network) 알고리즘으로 수행될 수 있다.
실시예에 따른 다시점 얼굴 영상 기반 사용자 모니터링 방법은, 적어도 둘 이상의 상이한 시점들 각각에서 촬영된 사용자 영상들 각각으로부터 얼굴 영역 영상들을 추출하는 단계와, 얼굴 영역 영상들의 3차원 공간에서의 적어도 하나의 속성 정보를 2차원 UV 공간으로 매핑한 적어도 하나의 속성별 2차원 영상으로 축소 변환하는 단계와, 적어도 하나의 속성별 2차원 영상을 분석하여 사용자 모니터링 정보를 생성하는 단계를 포함할 수 있다.
이때, 얼굴 영역 영상들을 추출하는 단계 및 사용자 모니터링 정보를 생성하는 단계 사이에, 추출된 얼굴 영역 영상들에서 모니터링 대상자를 선별하는 단계를 더 포함할 수 있다.
이때, 적어도 둘 이상의 상이한 시점들 각각에서 촬영된 사용자 영상들에 포함된 사용자들 간의 동일 여부를 콘볼루션 신경망 기반으로 판별하는 단계를 더 포함할 수 있다.
이때, 속성별 2차원 영상으로 축소 변환하는 단계는, 콘볼루션 신경망 알고리즘에 의해 생성되되, 얼굴 영역 영상에서 추출된 특징을 파라미터화하는 단계 및 특징 파라미터를 기반으로 적어도 하나의 속성별 2차원 영상을 생성하는 단계를 포함할 수 있다.
이때, 속성별 2차원 영상은, 얼굴 영역 영상의 3차원 공간 상의 형상 정보를 색상 코드 포맷으로 저장한 형상 2차원 영상(uv_shape) 및 얼굴 영역 영상의 색상 정보를 저장한 색상 2차원 영상(uv_tex)을 포함할 수 있다.
이때, 속성별 2차원 영상으로 축소 변환하는 단계는, 특징 파라미터를 개별 특징별로 추가 변환 또는 가공하여 형태 특징 파라미터, 표정 특징 파라미터, 조명 특징 파라미터 및 헤드포즈 특징 파라미터를 포함하는 특징 파라미터들 중 적어도 하나를 추출하는 단계를 더 포함할 수 있다.
이때, 사용자 모니터링 정보를 생성하는 단계는, 속성별 2차원 영상의 사용자 별로 미리 등록된 속성별 2차원 영상과의 유사도를 기반으로 사용자를 식별하는 단계와, 속성별 2차원 영상을 표준 얼굴형의 속성별 2차원 영상과의 비교를 기반으로 얼굴 특징을 검출하는 단계와, 헤드포즈 특징 파라미터를 기반으로 헤드 제스처를 검출하는 단계와, 헤드포즈 특징 파라미터 및 uv_tex의 눈영역의 색상값을 기반으로 3D 시선 방향을 검출하는 단계와, 속성별 2차원 영상의 시간에 따른 변화량을 기반으로 사용자의 감성 상태를 인식하는 단계 중 적어도 하나를 포함할 수 있다.
이때, 콘볼루션 신경망은, 얼굴 영역 영상들을 입력받은 콘볼루션 신경망이 3차원 공간에서의 적어도 하나의 속성 정보를 2차원 UV 공간으로 매핑한 적어도 하나의 속성별 2차원 영상을 출력하도록 지도 학습하는 단계 및 지도 학습된 콘볼루션 신경망에 다시점 얼굴 색상 영상들을 입력으로 하여 출력된 속성별 2차원 영상을 렌더링한 다시점 합성 색상 영상들이 다시점 얼굴 색상 영상들과의 오차가 최소가 되도록 비지도 학습하는 단계에 의해 생성될 수 있다.
이때, 지도 학습하는 단계는, 콘볼루션 신경망이 얼굴 영역 영상에서 추출된 특징 파라미터를 개별 특징별로 추가 변환 또는 가공하여 조명 특징 파라미터 및 헤드포즈 특징 파라미터를 포함하는 특징 파라미터들 중 적어도 하나를 출력하도록 학습시키되, 비지도 학습하는 단계는, 렌더링함에 있어, 다시점 얼굴 색상 영상과 함께 조명 특징 파라미터 및 헤드포즈 특징 파라미터를 입력으로 하여 렌더링할 수 있다.
이때, 비지도학습 단계는, GAN(Generative Adversarial Network) 알고리즘으로 수행될 수 있다.
기재된 실시예에 따라, 사용자가 카메라를 정면으로 바라보거나 45도 이내의 각도에서 바라보고 있는 통상적인 정면 뷰의 상태가 아닌 45도 이상의 측면 각도를 포함하는 자유로운 자세를 취하더라도 사용자를 모니터링할 수 있다.
기재된 실시예에 따라, 복수의 다시점 영상들을 기반으로 사용자를 모니터링함에 따른 정보량 과잉을 해결할 수 있다.
또한, 기재된 실시예는 3차원 공간 연산으로 사용자를 모니터링함에 따른 연산 과도성을 해결할 수 있다.
기재된 실시예는 딥러닝 연산을 사용자가 카메라를 정면으로 바라보거나 45도 이내의 각도에서 바라보고 있는 통상적인 정면 뷰의 상태가 아닌 45도 이상의 측면 각도를 포함하는 자유로운 자세를 취하더라도 적용 가능하도록 할 수 있다.
이로써, 실시예는 임베디드 환경에서도 실시간 다시점 얼굴 영상 기반으로 사용자를 모니터링할 수 있도록 하여, 컴퓨터가 사용자와 지능형 인터랙션을 할 수 있도록 한다.
도 1은 실시예에 따른 다시점 얼굴 영상 기반 사용자 모니터링 장치가 설치되는 환경을 설명하기 위한 예시도이다.
도 2는 실시예에 따른 다시점 얼굴 영상 기반 사용자 모니터링 장치의 개략적인 블록 구성도이고,
도 3은 실시예에 따른 다시점 얼굴 영상 기반 사용자 모니터링 장치에서 처리되는 다시점 영상들의 예시도이다.
도 4는 실시예에 따른 축소 변환부의 상세 구성도이다.
도 5는 실시예에 따른 축소 변환부 구현을 위한 비지도 학습에 대해 설명하기 위한 도면이다.
도 6은 실시예에 따른 분석부의 상세 블록 구성도이다.
도 7은 실시예에 따른 다시점 얼굴 영상 기반 사용자 모니터링 방법을 설명하기 위한 순서도이다.
도 8은 실시예에 따른 콘볼루션 신경망 학습 방법을 설명하기 위한 순서도이다.
도 9는 실시예에 따른 컴퓨터 시스템 구성을 나타낸 도면이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
비록 "제1" 또는 "제2" 등이 다양한 구성요소를 서술하기 위해서 사용되나, 이러한 구성요소는 상기와 같은 용어에 의해 제한되지 않는다. 상기와 같은 용어는 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용될 수 있다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있다.
본 명세서에서 사용된 용어는 실시예를 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 또는 "포함하는(comprising)"은 언급된 구성요소 또는 단계가 하나 이상의 다른 구성요소 또는 단계의 존재 또는 추가를 배제하지 않는다는 의미를 내포한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 해석될 수 있다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
이하에서는, 도 1 내지 도 9를 참조하여 실시예에 따른 다시점 얼굴 영상 기반 사용자 모니터링 장치 및 방법이 상세히 설명된다.
실시 예는 컴퓨터, 태블릿, 핸드폰, 로봇 등에 장착된 영상센서나 공간 내에 배치된 영상센서들을 통해 획득한 사용자의 다시점(Multi-view or Multi-viewpoint) 얼굴 영상을 수집, 분석한 결과 획득될 수 있는 정보, 예컨대, 사용자의 신원, 얼굴형/안경착용 등의 특징, 표정을 통한 감성상태, 시선방향/제스처를 통한 의도 등을 토대로 대면형 인공지능(Artificial Intelligence, 이하 AI) 서비스에서 사용자와의 지능형 인터랙션을 수행하기 위한 다시점 얼굴 영상 기반 사용자 모니터링 기술에 관한 것이다.
구체적으로, 실시예는 학습 기반 영상분석 기술을 이용하여 적어도 둘 이상의 상이한 시점들 각각에서 촬영된 사용자 영상들을 카메라와 사용자 간의 상대시점에 따른 자가가림(Self-occlusion) 등을 딥러닝 기법으로 자동 분석하여 다시점 영상이 가지고 있는 사용자의 3차원(Three Dimension) 정보, 예컨대 얼굴 형상(face shape), 헤드 포즈(head pose), 시선 방향(gaze direction), 표정expression) 등을 2차원 공간으로 정보 손실없이 차원축소변환 후 2차원 영상분석을 통해 실시간 추론함으로써 사용자의 상황에 맞는 지능형 인터랙션을 위한 사용자 정보를 획득하는 기술에 관한 발명이다.
도 1은 실시예에 따른 다시점 얼굴 영상 기반 사용자 모니터링 장치가 설치되는 환경을 설명하기 위한 예시도이다.
도 1을 참조하면, AI 비서 등의 인공지능을 기반으로 사용자(1)와 지능형 인터랙션을 수행하는 컴퓨터(10)가 컴퓨터의 제어에 의해 사용자(1)를 다양한 시점에서 관찰할 수 있도록 컴퓨터에 내장되거나 공간에 배치된 카메라(21~27)에서 입력되는 다시점 영상정보를 획득하여 사용자의 신원, 특징, 시선방향, 제스처 및 표정 등을 포함하는 정보를 자동으로 실시간 분석하고 수집함으로써 사용자의 감성상태나 의도에 따라 지능적으로 인터랙션을 수행할 수 있다.
최근 스마트폰이나 모바일 단말뿐만 아니라 자동차, 로봇 등 연산능력을 기반으로 사용자 인터랙션 서비스를 제공하는 다양한 컴퓨터 단말에서 웹캠이나 키넥트 등의 카메라를 통해 사용자를 촬영하여 얻은 영상정보의 분석을 통해 사용자 맞춤형 지능 서비스를 제공하는 사례들이 급증하고 있으며, 이에 따라 카메라도 기존의 1대에서 여러 대의 카메라가 동시에 설치되어 운영되는 사례가 증가하고 시스템적으로도 이러한 여러 대의 카메라 운용을 플랫폼 단에서부터 지원하는 추세이다.
다시점 영상은 도 1에 도시된 바와 같은 공간상에 배치된 다수의 카메라(21~27)로부터 동시에 입력될 수도 있으며, CCTV처럼 공간상에 분포된 다수의 카메라에서 시간차를 두고 촬영된 영상에서 입력되거나, 1대의 카메라가 사용자가 여러 자세를 취하는 영상을 순차적으로 촬영함으로써 카메라와 사용자 간의 상대시점을 이용하여 다시점 영상을 획득할 수도 있다. 즉, 현재 상용서비스 중인 다양한 스마트 단말과 로봇 등의 시스템에서 다시점 영상을 획득할 수 있으며, 다수의 카메라가 동시에 사용될 경우 자기가림이나 데이터 획득 시간차에 의한 정보손실 없는 상태에서 사용자를 모니터링할 수 있게 된다.
다시점 카메라의 운용은 컴퓨터가 사용자의 움직임이 지속적으로 발생하더라도 카메라와 사용자 간의 상대적 시점에 따라 발생하는 자기가림(self-occlusion)에 의해 발생하는 손실정보를 다른 시점의 카메라로부터 획득할 수 있으므로 다양한 상황의 사용자 움직임 하에서도 손실없이 사용자 영상정보를 획득할 수 있다. 하지만, 다시점 영상정보로부터 필요한 정보를 추출하는 과정에서 사용자에 의한 자기가림을 구분하고 두개의 시점 이상에서 획득되는 영상정보를 어떻게 처리할 것인가에 대한 고려가 필요하며, 대부분의 경우 이러한 처리를 위해서는 컴퓨터 비전(Computer Vision) 분야에서 주로 연구하는 영상기반 3D 복원(three dimensional reconstruction) 등의 사용자와 다시점 카메라 간의 3차원 정보 분석이 요구되며 상당한 연산량을 요구하기 때문에 모바일 플랫폼 등에서 실시간 서비스에 적용되기에는 한계를 가지고 있다.
따라서, 실시예에서는 다시점 얼굴 영상입력에 대해 기존의 다시점 영상(Multi-view Image)의 3차원 공간분석 요구를 CNN(Convolutional Neural Network)기반의 딥러닝 기법을 이용해 3차원 공간을 변형된 2차원 형태로 표현할 수 있는 UV 공간으로 차원축소변환 학습을 통해 2차원 영상 분석으로 대치함으로써 임베디드 환경에서도 실시간 사용자 모니터링이 가능한 기술을 제안한다.
도 2는 실시예에 따른 다시점 얼굴 영상 기반 사용자 모니터링 장치의 개략적인 블록 구성도이고, 도 3은 실시예에 따른 다시점 얼굴 영상 기반 사용자 모니터링 장치에서 처리되는 다시점 영상들의 예시도이다.
도 2를 참조하면, 다시점 얼굴 영상 기반 사용자 모니터링 장치(100)는 얼굴 검출부(110), 축소 변환부(130) 및 분석부(140)을 포함한다. 부가적으로, 타겟 사용자 선별부(120)를 더 포함할 수 있다.
얼굴 검출부(110)는 적어도 둘 이상의 상이한 시점들 각각에서 촬영된 사용자 영상들 각각으로부터 얼굴 영역 영상들을 추출한다.
이때, 사용자 영상들은 각각 상이한 위치 설치된 복수의 카메라들에 의해 획득된 것일 수 있다. 또는, 사용자 영상들은 1 대의 카메라에서 사용자 움직임에 따라 획득된 것일 수 있다.
이때, 얼굴 검출부(110)은 SSD(Single Shot Detector) 등의 다양한 얼굴 검출기를 통해 통상적 기술 범위내에서 구현될 수 있다.
선택적으로, 타겟 사용자 선별부(120)가 추출된 얼굴 영역 영상들에서 모니터링 대상자를 선별할 수 있다.
예컨대, 도 3을 참조하면, 복수의 사용자 영상들(200) 각각에는 복수의 상이한 사용자들, A, B 및 C가 포함되어 있을 수 있다. 이럴 경우, 얼굴 검출부(110)는 사용자 영상들(200)에서 A, B 및 C 모두의 얼굴 영역 영상들(210)을 검출하게 된다. 따라서, 타겟 사용자 선별부(120)는 얼굴 검출부(110)가 검출한 얼굴 영역 영상 들 중에서 모니터링 대상이 되는 사용자, 예컨대 A의 얼굴 영역 영상(230)만을 선별하는 것이다.
이때, 타겟 사용자 선별부(120)는 얼굴 영역 영상의 색상 정보를 이용하여 모니터링 대상인 A의 얼굴 영역 영상만을 선별할 수 있다.
이때, 타겟 사용자 선별부(120)는 개별 시점 영상별로 획득된 얼굴영역 영상들을 입력으로 하여 동일인 유무를 판별하는 CNN 기반의 Discriminator를 구성하여 다시점 영상의 동일인인지 유무의 판단을 학습할 수 있다. 즉, 모니터링 대상자의 다시점 영상과 타인의 다시점 영상을 입력으로 한 후 추론된 속성별 2차원 영상과 학습 참값인 속성별 2차원 영상에 대한 CNN Discriminator 학습을 통해 해당 다시점 입력의 유효성에 대한 판단을 수행할 수 있다.
또한, 타겟 사용자 선별부(120)는 시스템이 서비스되는 방식에 따라 다양한 구현이 가능하다. 시스템 관점에서는 1명을 대상으로 시스템이 구성되며, 다수 사용자의 모니터링은 타겟 사용자 선별부에서 도 3의 예와 같이 A, B, C에 대해 병렬적으로 축소 변환부(130)를 포함한 이후 단계의 절차를 수행하여 화면상의 모두에 대한 모니터링 수행이 가능하다. 본 발명에서는 구현의 설명을 용이하게 하기 위해 한 명의 모니터링에 대해 설명하고 있다.
축소 변환부(130)는 얼굴 영역 영상들(230)의 3차원 공간에서의 적어도 하나의 속성 정보를 2차원 UV 공간으로 매핑한 적어도 하나의 속성별 2차원 영상(240)을 생성한다.
이때, UV 공간은 실제 3차원 공간 상의 사용자 얼굴의 공간 정보를 2차원인 평면 정보로 매핑한 공간이며, UV 매핑 과정을 통해 생성된다. 여기서, UV 매핑은 공지된 기술로, 본 발명의 요지를 흐릴 수 있으므로 그 상세한 설명은 생략하기로 한다.
이때, 얼굴은 구형, 타원형, 실린더형 및 큐브형을 포함하는 다양한 형태들 중 하나로 매핑될 수 있다.
일 예로, 얼굴의 3차원 형상을 삼각형 구조의 메쉬(mesh)로 표현한다면, 메쉬 구조의 개별 삼각형 메쉬(Triangular mesh)를 꼭지점에 해당하는 버텍스(vertex)와 3개의 버텍스를 통해 삼각형 메쉬의 형태를 정의하는 얼굴(face)로 표현되도록 할 수 있다. 이때, 얼굴의 3차원 버텍스들이 UV 매핑을 위한 구형 등의 형태와 1차적 3차원 광선교차(ray intersection) 등을 통해 매핑 관계를 정의하고, 구형(UV 매핑 중 한 예)과 UV의 2차원 공간의 매핑 관계를 정의하는 방식으로 3차원 공간 정보가 2차원 공간 정보로 표현될 수 있다. 이때, 버텍스 이외의 얼굴의 표면상 3D 공간 정보는 삼각형 메쉬의 버텍스 간 보간 방법인 Barycentric 좌표계 시스템 등으로 표현되어 UV 공간의 특정 픽셀과 대응관계를 가진다.
이때, 적어도 하나의 속성별 2차원 영상은, 얼굴 영역 영상의 3차원 공간 상의 형상 정보를 색상 코드 포맷으로 저장한 형상 2차원 영상(uv_shape) 및 얼굴 영역 영상의 색상 정보를 저장한 색상 2차원 영상(uv_tex)을 포함할 수 있다.
예컨대, 시스템에서 표현하고자 하는 얼굴의 3D 템플릿 모델이 정의되고, 전술한 UV 매핑을 통해 UV 공간으로 매핑되면, 사용자 얼굴의 외형을 구성하는 형상 정보 및 색상 정보를 2차원 UV 공간에서 다시점 입력 영상의 개수에 관계없이 취합하여 형상 및 색상 별로 각각 한장의 2차원 영상으로 표현할 수 있다.
도 3을 참조하면, uv_shape(241)은 사용자의 3차원 공간 상의 형상(shape or geometry) 정보를 색상코드 형식으로 저장한 2차원 영상일 수 있다. 또한, uv_tex(242)는 사용자의 얼굴 표면의 색상(color) 정보를 저장한 2차원 영상일 수 있다.
또한, 선택적으로, 속성별 2차원 영상은, 디테일한 형상 정보를 표현하기 위해 2차원 노멀(Normal) 영상 및 조명이 색상에 미치는 영향을 표현하기 위해 2차원 재질(Material) 영상 중 적어도 하나가 더 포함될 수 있다.
또한, 본 발명의 이해를 돕기 위해, 속성별 2차원 영상을 카메라로 식별가능한 사용자의 외형(appearance)를 대표할 수 있는 형상 정보과 색상 정보로 단순화하여 설명하나, 본 발명은 이에 한정되지 않는다. 즉, 속성별 2차원 영상은 얼굴 영역 영상을 보다 정교하게 인식 및 검출하기 위해 다른 속성을 가지는 추가적인 2차원 영상들이 사용될 수도 있다.
한편, 전술한 바와 같은 UV 매핑 과정이 수행되면, UV 공간상의 영상 픽셀들은 3차원 공간에 위치한 얼굴 표면의 특정 점에 대응되는 매핑 관계를 가지게 된다.
예컨대, 도 3을 참조하면, 다시점 얼굴 영역 영상들(231, 232, 233) 각각의 코의 위치는 카메라와 사용자 간의 상대 시점 때문에 픽셀의 매핑 관계가 상이하다. 그런데, UV 매핑된 uv_shape(241) 및 uv_tex(242)에서는 3장의 다시점 영상에서 획득된 형상이나 색상 정보가 하나의 특정 픽셀에 매핑되어 표현된다. 카메라와 사용자의 상대 시점이 바뀌더라도 이러한 대응관계를 유지된다. 또한, uv_shape(241)의 코를 나타내는 픽셀과 uv_tex(242)의 코를 나타내는 픽셀은 동일한 픽셀이다. 즉, UV 공간의 사전 정의된 특정 픽셀의 값을 모니터링하는 것만으로도 다시점 영상내 탐색없이 얼굴의 형상적 특징이나 움직임 정보, 피부색의 변화를 바로 획득할 수 있게 된다.
이때, uv_shape(241)의 각 픽셀 값은 3차원 공간상에 위치한 얼굴 표면 위 특정점의 3차원 공간 좌표가 [0, 1] 혹은 [-1, 1]의 형태로 정규화되어 표현되거나 정규화 된 값의 양자화를 통해 색상코드 형식의 영상으로 표현될 수 있다.
이때, uv_tex(242)의 각 픽셀에는 얼굴 표면의 피부색 등의 색상 값이 UV 공간의 매핑에 따라 대응되는 각 픽셀에 [0, 1] 혹은 [-1, 1]의 형태로 정규화 되어 표현되거나, [0, 255]의 센서에서 출력되는 색상 값으로 표현될 수 있다.
따라서, 예컨대, 마른 얼굴형과 통통한 얼굴형의 경우, uv_shape의 색상코드 분포 특성을 비교하는 것만으로 식별될 수 있다.
또한, 개인 식별의 경우, uv_shape과 uv_tex의 두 장의 영상 내 색상분포를 이용하여 얼굴의 형태적 특징과 피부색, 눈/코/입 등의 특징적 색상 등을 모두 고려하여 식별될 수 있다. 즉, 기존의 얼굴 식별이 정면(frontal-view) 또는 측면(profile-view), 45도 각 등에 대해 개별적으로 식별하는 부분을 uv 공간에서는 이들 모두가 취합된 2차원 공간의 형상과 색상 정보의 식별을 통해 쉽고 빠르게 처리가 가능하다.
더 나아가, 최근 Liveness 또는 anti-spoofing 관점에서 보완적으로 사용되는 다시점 영상분석이나 표정변화 식별 등도 다시점 영상 입력에 대해 UV 공간상의 uv_shape과 uv_tex의 각 픽셀 값들에서 표정의 변화에 따라 나타나는 특징적 색상색상의 변화나 3D 위치의 변화에 따른 색상코드의 변화를 탐지하는 것만으로 빠르게 식별이 가능하다.
한편, 다시 도 2를 참조하면, 분석부(140)는 적어도 하나의 속성별 2차원 영상을 분석하여 사용자 모니터링 정보를 생성한다.
이때, 사용자 모니터링 정보는, 2차원 축소변환된 정보를 토대로 공간 분석, 시계열 분석을 통해 다양한 사용자 정보를 획득하는 신원 정보, 얼굴 특징, 헤드 제스처, 3차원 시선 및 감성 상태 중 적어도 하나 이상일 수 있다. 분석부(140)의 상세한 설명은 도 6을 참조하여 후술하기로 한다.
AI 인터랙션 서비스(30)는 분석부(140)에서 생성한 사용자 모니터링 정보, 즉, 사용자의 신원, 특징, 상태 및 의도 중 적어도 하나에 기반한 사용자 맞춤 지능형 인터랙션 서비스를 제공할 수 있다.
이때, AI 인터랙션 서비스(30)는 서비스의 요구나 상황에 따라 입력되는 카메라의 수와 배치, 다시점 얼굴 영상 기반 사용자 모니터링 장치(100)에서 추론된 사용자 모니터링 정보를 선별적으로 사용할 수 있다.
도 4는 실시예에 따른 축소 변환부의 상세 구성도이고, 도 5는 실시예에 따른 축소 변환부 구현을 위한 비지도 학습에 대해 설명하기 위한 도면이다.
도 4를 참조하면, 축소 변환부(130)는, 콘볼루션 신경망(Convolutional Neural Network, CNN) 알고리즘에 의해 생성되되, 인코더(131) 및 디코더(132)를 포함할 수 있다.
인코더(131)는, 얼굴 영역 영상들(231, 232, 233)에서 추출된 특징을 파라미터화할 수 있다.
예컨대, 얼굴의 형태 특징, 표정 특징, 얼굴의 자세 정보, 색상 특징 및 조명 특징 중 적어도 하나를 포함하는, 다시점 얼굴 영역 영상들(231, 232, 233)로부터 추론할 수 있는 얼굴의 특징들이 파라미터화될 수 있다.
디코더(132)는, 인코더(131)가 출력한 특징 파라미터를 기반으로 적어도 하나의 속성별 2차원 영상(241, 242)을 생성할 수 있다. 예컨대, 도 4를 참조하면, 디코더(133)는, 인코더(131)가 출력하는 파라미터화된 1차원 정보를 이용하여 목표 영상인 uv_shape(241)와 uv_tex(242)의 2차원 영상을 생성할 수 있다.
이때, 디코더(132)는, 속성별 2차원 영상들 각각에 상응하도록 별도로 분리되어 구성될 수도 있고, 속성별 2차원 영상들에 대해 단일 신경망으로 구성될 수도 있다.
예컨대, 도 4를 참조하면, 디코더(132)는, uv_shape(241)과 uv_tex(242) 각각에 상응하는 별도로 분리된 형태로 구성될 수 있다. 그러나, uv_shape(241)과 uv_tex(242)는 3차원 공간상의 얼굴의 형태와 색상인 외형정보가 1:1 대응 관계를 가지므로, 분리되기보다는 단일 신경망으로 구성되는 것이 바람직할 수 있다.
이를 통해, 형태 특성과 색상 특성이 상보적으로 작용하면서 학습될 수 있도록 구성하여, 신경망 학습의 효율성과 신경망 구성 비용을 절감하고 추론속도 또한 향상시킬 수 있다. 또한, 이를 통해, 기존의 3DMM(3D Morphable Model)과 같은 선형보간 방법에 의한 정형화되고 제한된 범주의 얼굴 형태/색상 표현의 한계를 CNN의 비선형 특성을 이용해 학습 데이터의 형태적 색상적 특성이 충분히 반영될 수 있도록 비선형 학습과 추론이 가능하다는 것이다. 또한, 형태와 색상 디코딩을 단일 신경망에서 수행함으로써, 형태적 특성과 색상적 특성이 일관되게 UV 영상에 표출되도록 하여 사용자 정보 수집의 신뢰도를 향상할 수 있다.
이는 종래의 컴퓨터비전 분야의 photo-realistic 3D reconstruction 분야에서 영상기반 3D 복원의 ill-pose problem에서 확인할 수 있다. 즉, 얼굴과 같은 유사한 색상의 표면에 대한 3D 복원 시 복원된 3D 형상은 실제 얼굴의 3D 형상보다 더 많은 수의 복수 해(solution)를 가지게 되며, 이러한 복수 해는 다시점 영상에 재투영 되었을 때 동일한 색상 재현이 가능하다는 것이다. 즉, 동일한 다시점 영상을 생성할 수 있는 3D 형상은 단수 해가 아닌 복수 해를 가질 수 있으므로, 개별 네트웍으로 학습하여 3D 형상과 표면 색상을 학습 시 결과물이 위의 예와 같이 그 결과물이 상이할 수 있게 된다. 반면 본 발명의 동일 신경망으로 학습시 이러한 특성이 학습목표로 주어지는 uv_shape과 uv_tex의 참값을 상호 참조하며 학습이 진행되기 때문에 단일 해로 수렴되는 시간이 단축된다.
인코더(131) 및 디코더(132)의 CNN 구성은 목적과 용도, 요구되는 정밀도 등에 따라 신경망을 구성하는 레이어의 수나, 채널의 깊이, 형태 등이 가변될 수 있다.
다시 도 4를 참조하면, 선택적으로, 축소 변환부(130)는, 인코더(131)에서 출력된 특징 파라미터를 개별 특징별로 추가 변환 또는 가공하여 형태 특징 파라미터, 표정 특징 파라미터, 조명 특징 파라미터 및 헤드포즈 특징 파라미터를 포함하는 특징 파라미터들 중 적어도 하나를 추출하는 레이턴트 레이어(Latent Layer)(133)를 더 포함할 수 있다.
한편, 전술한 바와 같이, 축소 변환부(130)는 콘볼루션 신경망을 기반으로 학습에 의해 생성된다. 실시예에 따라, 축소 변환부(130)는 지도 학습(supervised learning) 단계 및 비지도 학습(unsupervised learning) 단계로 학습되어 생성될 수 있다.
이때, 지도 학습(supervised learning) 단계에서는, 얼굴 영역 영상들을 입력받은 콘볼루션 신경망이 3차원 공간에서의 적어도 하나의 속성 정보를 2차원 UV 공간으로 매핑한 적어도 하나의 속성별 2차원 영상을 출력하도록 학습된다.
즉, CNN이 시스템 설계자의 의도에 따라 어떤 특성과 출력을 해야 할지에 대한 학습이 진행된다. 이를 위해 다시점 영상을 이용해 종래의 컴퓨터 비전 분야의 3D 복원 기술을 통해 얼굴의 형태와 색상을 포함하는 3차원 외형을 복원하고 이를 uv_shape과 uv_tex의 형태로 변환하여 네트웍이 이를 참값으로 하여 다시점 영상으로부터 동일한 uv_shape과 uv_tex, headpose와 같은 파라미터들를 추론할 수 있도록 지도학습을 수행한다.
그런데, 이러한 지도학습은 학습데이터 생성과정이 복잡하고 비용과 시간이 많이 소요되는 단점이 있다.
따라서, 실시예에 따라, 지도 학습된 CNN은 비지도 학습(unsupervised learning)을 통해 보다 많은 데이터를 통해 저비용으로 2차적으로 학습하여 시스템의 성능을 높일 수 있다.
이때, 비지도 학습(unsupervised learning) 단계에서, 지도 학습된 콘볼루션 신경망에 다시점 얼굴 색상 영상들을 입력으로 하여 출력된 속성별 2차원 영상을 렌더링한 다시점 합성 색상 영상들이 다시점 얼굴 색상 영상들과의 오차가 최소가 되도록 학습될 수 있다.
이때, 비지도 학습하는 단계는, 콘볼루션 신경망이 얼굴 영역 영상에서 추출된 특징 파라미터를 개별 특징별로 추가 변환 또는 가공하여 조명 특징 파라미터 및 헤드포즈 특징 파라미터를 포함하는 특징 파라미터들 중 적어도 하나를 출력하도록 학습시키되, 비지도 학습하는 단계는, 렌더링함에 있어, 다시점 얼굴 색상 영상과 함께 조명 특징 파라미터 및 헤드포즈 특징 파라미터를 입력으로 하여 렌더링할 수 있다.
즉, 도 5를 참조하면, 비지도 학습은, 다시점 색상 영상(250)과 각 시점 카메라에서의 얼굴의 깊이 영상(260)을 이용하되, 사용자의 수작업 태깅이나 지도 학습에서의 3D 복원 과정이 요구되지 않는다.
이때, 깊이 영상(260)은, 마이크로소프트사의 키넥트나 인텔사의 리얼센스 등의 RGB 색상과 깊이(Depth)를 동시에 제공하는 RGBD 카메라를 통해 생성된 것일 경우, 별도의 가공없이 학습에 이용될 수 있다.
그러나, 깊이 영상(260)은, RGB만 제공하는 카메라에 의해 생성된 것일 경우, 종래의 다시점 스테레오 복원 기법 등을 통해 각 시점의 Depth 영상을 계산기반으로 생성될 수 있다.
또한, 2차 학습은 다시점 깊이영상(260)의 입력없이 다시점 색상영상(250)만을 통해 진행될 수도 있다. 이 경우에는 상기의 깊이영상을 함께 사용한 경우에 비해 앞에서 설명한 photorealistic 3D reconstruction의 ill-posed problem에 의해 성능이 한정될 수 있지만, 카메라 입력의 제약이 완화되는 장점이 있을 수 있다.
실시예에서는, 비지도 학습에서 인코더-디코더에는 다시점 색상 영상을 입력하는 것으로 가정한다. 그러나, 신경망을 구동할 시스템의 메모리 용량이 허용될 경우, 깊이 영상도 추가로 사용될 수 있으며, 학습은 동일한 방식으로 수행될 수 있다.
도 5를 참조하면, 인코더(131)-디코더(132)를 통해 추론된 uv_shape, uv_tex, head_pose, illumination_param은 미분가능한 렌더러(134)에 입력되어 입력과 동일한 시점의 합성 색상영상(270)과 합성 깊이영상(280)을 학습으로 추론된 정보를 이용한 렌더링으로 생성한다.
비지도 학습은 입력-출력의 색상 오차(Color loss)와 형상오차(Shape loss)가 최소가 되도록 학습을 하는 방식으로 인코더(131)-디코더(132)가 다시점 영상에 입력되는 다양한 사용자의 3차원 외형을 비선형 추론할 수 있게 된다.
이때, 비지도학습 단계는, 통상적인 색상 오차와 형상오차가 최소가 되도록 학습하는 전형적인 CNN 딥러닝 알고리즘이나 250-270, 260-280 조합에 대한 real/fake를 구분하는 Discriminator 네트웍이 추가로 활용하는 GAN(Generative Adversarial Network) 알고리즘으로 수행될 수 있다.
이는, 학습기가 생성하는 색상영상(270)과 깊이영상(280)이 입력되는 색상영상(250)과 깊이영상(260)과의 차이를 구분하지 못하는 방향으로 학습이 진행되며, 학습오차가 렌더러(134)를 통해 차원 축소 변환 CNN 네트웍으로 역전파되며, 네트웍의 파라미터를 오차가 최소화되는 방향으로 변경하도록 학습된다.
한편, 지도 학습 또는 비지도 학습에서 모든 학습데이터가 다시점 영상으로 구성될 필요는 없다. 즉, 1개 시점, 2개 시점, N개 시점 영상이 랜덤하게 입력 가능하며 이러한 입력 제어를 통해 콘볼루션 신경망이 입력되는 다시점 영상의 개수에 관계없이 일관된 결과물을 추론하도록 학습할 수 있다.
예컨대, 3장의 다시점 영상에서 생성된 uv_shape과 uv_tex에 대해 개별 시점 영상만을 입력으로 주고, uv_shape과 uv_tex가 신경망 학습을 수행할 수 있으며, 이러한 학습을 통해 시스템이 실제 서비스되는 환경에서 1개의 카메라에서 입력되더라도 카메라 시점에서 자기가림으로 획득할 수 없는 가림영역의 영상정보를 학습시의 데이터간 상관관계를 학습함으로써 추론할 수 있게 된다.
이러한 실제 입력없이 추론된 결과들은 uv_shape과 uv_tex와 동일한 해상도를 가지는 UV 확률맵의 형태(각 픽셀별로 추론된 데이터의 신뢰도를 [0, 1]의 확률 값으로 표현)로 제공함으로써 후단의 사용자 정보 모니터링 모듈에서 uv_shape과 uv_tex의 정보를 활용 시 추론된 값의 신뢰도를 참조할 수 있다.
도 6은 실시예에 따른 분석부의 상세 블록 구성도이다.
도 6을 참조하면, 분석부(140)는 신원 인식부(141), 얼굴특징 검출부(142), 헤드 제스쳐 검출부(143), 3차원 시선 검출부(144) 및 감성 상태 인식부(145) 중 적어도 하나를 포함할 수 있다.
신원 인식부(141)는, 속성별 2차원 영상의 사용자 별로 미리 등록된 속성별 2차원 영상과의 유사도를 기반으로 사용자를 식별한다.
예컨대, 사용자 맞춤형 인터랙션을 위한 신원식별이 가능하도록 하는 신원식별부(140)는 프레임별로 추론되는 사용자의 uv_shape과 uv_tex를 포함하는 적어도 하나의 UV 공간에서의 속성별 2차원 영상을 이용해 신원 식별을 수행할 수 있다. 이 경우, 새로운 사용자의 등록시에 사용자의 적어도 하나의 UV 공간에서의 속성별 2차원 영상을 등록하고 다른 사용자의 정보와의 비교를 통해 사용자를 식별할 수 있다.
기본적으로 종래의 카메라로부터 입력되는 정면 혹은 측면 영상과 등록된 정면 혹은 측면 영상 간의 유사도 추론을 통해 신원식별을 수행하던 방법이 UV 공간의 속성별 2차원 영상을 이용해 연산적인 측면에서는 종래의 카메라 영상을 사용하던 방법과 유사하게 유지하면서 다시점 영상의 표면 색상정보를 모두 활용하고 사용자의 3차원 형태적 정보까지도 활용한 신원식별이 가능하게 된다.
이때, 본 발명의 디코더 네트웍은 종래의 3DMM 등의 선형방식에 비해 사용자의 고유한 3차원 외형에 대한 비선형 특성을 학습할 수 있어 신원식별을 용이하게 할 수 있다.
또한, 보다 강화된 신원 식별이 필요한 경우, 사용자 등록 시 다양한 표정을 요구하거나 이름 등 사용자가 원하는 특정 단어를 발음하도록 하고 속성별 2차원 영상에서의 특징적인 변화가 있는 프레임의 속성별 2차원 영상 정보를 특징으로 저장한 후, 서비스 시에 사용자에게 해당 표정이나 이름과 같은 발음을 요청한 후 속성별 2차원 영상에서의 변화를 비교하는 방식으로 시계열 상의 소수의 프레임 간의 영상변화를 단독으로 혹은 상단의 식원식별에 추가하여 분석하는 것만으로도 강화된 사용자 식별이 가능하다.
이러한 식별은 spatio-temporal 다시점 영상 정보를 속성별 2차원 영상 상에서의 영상내 픽셀 간의 값 변화에 대한 단순 모니터링으로 단순화할 수 있어 실시간 처리가 가능하게 한다. 또한, 표정이나 발음 등 다수의 상황에 대한 등록을 하고 랜덤하게 사용자에게 요구함으로써 위조식별 인식(Liveness or Anti-spoofing)에 대한 대응이 가능하다.
그 외에도, 차원축소변환 학습시에 서비스에서 활용가능한 다시점 카메라의 수와 시점의 특성(예: 측면 입력 등)에 따라 입력되는 다시점 영상을 한장에서 복수장까지 서비스 상황과 유사하게 변경하며 학습하는 방식으로 제한된 영상정보에서도 일정한 수준의 속성별 2차원 영상 추론이 가능하도록 학습함으로써 서비스 시에 측면 뷰와 같이 전체 얼굴 중 상당부분의 정보가 소실된 상태의 단일 영상입력에 대해서도 안정적인 속성별 2차원 영상 추론을 통해 신원식별 성능을 향상시킬 수 있다.
또한, 서비스의 필요에 따라 도 5의 학습 개념도의 렌더링 방법을 이용해 사전에 등록된 사용자의 uv_shape과 uv_tex 정보를 이용해 입력되는 시점에 해당하는 합성 영상(270 혹은 270~280)을 즉석에서 생성한 후 입력되는 영상과 대조를 통해 신원을 추가로 식별할 수도 있다. 이러한 렌더링 기반 신원식별의 경우, 차원축소과정에서 평준화 효과에 의해 소실될 수 있는 학습 특성을 보완하고 입력과의 데이터 일치성을 기반으로 한 식별을 추가로 수행할 수 있으며 도 5의 학습기가 GAN(Generative Adversarial Network) 학습법에 따라 다시점 입력 영상을 모방되도록 하는 학습특성이 그대로 신원식별에 활용될 수 있도록 한다. 특히 이러한 방법은 차량, 휴대 스마트기기 등 개인 특화된 서비스의 정밀한 신원식별에 더 강점을 가질 수 있다.
한편, 신원식별의 민감도 향상을 위해, 다시점 입력에 신원식별 대상자의 다시점 영상과 타인의 다시점 영상을 입력으로 한 후 추론된 속성별 2차원 영상와 학습 참값인 속성별 2차원 영상에 대한 CNN Discriminator 학습을 통해 해당 다시점 입력의 유효성에 대한 판단을 수행할 수 있다. 이를 통해 신원식별의 민감도를 향상시킬 수 있으며, 타겟 사용자 선별부(120)의 대상자 식별에도 활용할 수 있다.
이러한 신원식별은 컴퓨터가 사용자 맞춤형 서비스를 수행하기 위해 여러 사용자가 혼재할 수 있는 서비스 상황에서도 사용자 별 정보를 별도 수집할 수 있도록 한다.
얼굴 특징 검출부(142)는 속성별 2차원 영상을 표준 얼굴형의 속성별 2차원 영상과의 비교를 기반으로 얼굴 특징을 검출한다.
얼굴 특징 검출부(142)은 다시점 영상을 통해 추론된 속성별 2차원 영상에 대해 표준 얼굴형의 속성별 2차원 영상와의 비교를 통해 타원형, 계란형 등의 얼굴형이나, 입술의 상대적 색상, 눈썹이나 눈, 코 등의 상대적 크기/위치 식별이 다시점 영상의 개별 시점 영상의 얼굴 특징에 대응되는 픽셀에 대한 검사없이 도 3의 1304, 1035의 예와 같이 해당 특징이 저장된 속성별 2차원 영상의 특정 픽셀과 인접 픽셀들의 색상코딩된 3차원 위치값이나 색상값을 비교하여 가능하다.
또한, 안경 착용 유무에 대한 검사는 CNN 학습의 평균화 특성을 이용하여 쉽게 검출할 수 있다.
이때, 학습데이터가 모두 동일한 안경을 착용하지 않을 경우 CNN 학습기는 안경을 제외한 uv_tex를 추론하는 특성을 이용하여 추론된 uv_tex를 도 5의 렌더링 방법을 이용해 입력된 다시점에 대해 렌더링한 합성영상과 입력영상간의 차분의 특성을 식별하여 안경 착용유무를 식별할 수 있다.
또한, 남성의 경우 수염 유무에 대한 식별도 유사한 방식으로 수행이 가능하다. 여성의 경우 눈/입술/눈썹/볼 등에 해당하는 uv_tex 상의 픽셀 색상값을 식별함으로써 부위별 화장품의 색상을 다시점 영상에서의 탐색없이 uv_tex의 단일 영상내에서 사전에 정의된 픽셀값들을 탐색하여 식별할 수 있다.
헤드 제스처 검출부(143)는 헤드포즈 특징 파라미터를 기반으로 헤드 제스처를 검출한다.
헤드 제스처 검출부(143)은 축소 변환부(130)의 인코더(131)-디코더(132) 구조의 latent layer(133)에서 각 다시점 영상의 얼굴의 헤드포즈 정보를 획득할 수 있다.
이는 인코더(131)의 출력이므로 정면 포즈(예: 입에서 눈방향 y축, 정면방향 z축, x축은 오른손 법칙을 따라 정의) 기준으로 한 헤드 방향이 추론된다. 헤드포즈의 시계열 모니터링을 통해 헤드의 끄덕임, 좌우 젓기 등의 다양한 동작의 인식을 통해 사용자가 얼굴의 움직임으로 통해 나타내는 제스처를 인식할 수 있다.
이때, 헤드포즈는 학습을 통해 디코딩된 사용자의 정면을 기준으로 한 3D 형상에 추론된 헤드포즈를 이용한 3D 변환(Transformation)을 거쳐 촬영된 영상의 회전이 반영된 사용자 3D 형상과 일치하도록 학습이 되므로 종래의 단순 인코더 단의 헤드포즈에 비해 제한된 다시점 혹은 단일시점 영상입력 상황에서도 안정적인 헤드포즈 추정이 가능하다. 이 과정에서 사용자의 3D 형상은 말을 하거나 웃거나 얼굴을 찡그리는 등의 형태변화 중인 영상들을 학습대상으로 함으로써 헤드포즈는 다양한 시점변화 외에도 이러한 다양한 얼굴 형태 변화에도 강인하게 검출될 수 있다.
3차원 시선 검출부(144)는 헤드포즈 특징 파라미터 및 uv_tex의 눈영역의 색상값을 기반으로 3D 시선 방향을 검출한다.
3차원 시선검출부(144)은 헤드포즈 정보와 uv_tex(242)에서 추론된 눈영역의 색상값을 이용하여 사용자의 시선이 사용자가 정면포즈를 취할 때의 기준 좌표계를 기준으로 어디를 보고 있는지에 대한 3D 시선방향 정보를 제공한다. 즉, 종래의 시선추적 방법이 입력되는 영상에서 눈영역의 RGB 값들의 분포를 이용한 어피어런스(Appearance) 기반의 시선추적이 주로 사용되고 있다. 하지만, 이러한 어피어런스 기반의 접근의 경우 카메라와 사용자간의 상대시점이 45도 이상이 될 경우 자기가림에 의해 눈의 어피어런스 정보의 소실히 급격히 발생하게 되고 정보소실로 시선추적의 정밀도 또한 급격하게 저하되는 현상이 발생한다.
반면, 본 발명의 인코더-디코더 구조에서 추론되는 uv_tex는 이러한 자기가림에 의한 정보 손실을 학습단계에서 자기가림이 발생하지 않는 다른 시점 영상에서 획득하여 자기가림이 해소된 정면뷰의 uv_tex로 사용자의 어피어런스가 추론되도록 학습하기 때문에 한 시점의 영상입력 상황에서도 자기가림에 의해 소실된 눈 영역의 RGB 값의 추론이 가능해져 사용자와 카메라 간의 상대시점이 45도 이상 발생하더라도 높은 시선추적 정밀도를 유지할 수 있게 된다. 다시점 영상입력이 동시에 주어질 경우 uv_tex는 자기가림이 없는 시점 영상의 RGB 값을 이용해 uv_tex를 추론하기 때문에 한 시점의 영상 입력대비 보다 높은 시선추적 정밀도를 제공할 수 있다. 상기의 두 경우 인코더-디코더 구성은 동일하며 서비스 상황에 따라 다시점 영상 입력채널의 채널 수를 조정하면 된다.
감성 상태 인식부(145)는 속성별 2차원 영상의 시간에 따른 변화량을 기반으로 사용자의 감성 상태를 인식할 수 있다.
이때, 감성 상태 인식부(145)는 얼굴 표정이나 제스처 등에서 나타나는 사용자의 감성(sensitivity) 상태를 인식하여 인터랙션 상황에서의 사용자의 감성상태에 적합한 인터랙션을 진행하기 위해 다시점 입력영상으로부터 추론된 속성별 2차원 영상의 시간에 따른 변화량을 모니터링한다.
이때, 표정의 변화량은 uv_shape 상에서는 입을 벌리거나, 웃거나 하는 등의 표정에 대해 얼굴의 각 파트에 해당하는 픽셀의 색상코드 값이 표정의 변화에 따라 색상코드의 형태로 가변된다. uv_tex 상에서는 얼굴의 표정에 따라 나타나는 주름 등이 uv 공간상의 얼굴 각 파트에 해당하는 픽셀에서 색상변화로 나타난다.
예컨대, 미소를 지을 때 입과 볼 사이의 주름이 해당 파트의 uv_tex 픽셀에서 색상 변화로 나타난다. 즉, 다시점 영상입력을 통해 사용자의 자기가림에 의해 손실되는 영상정보를 최소화하고 영상분석은 입력되는 다시점 영상의 수에 관계없이 시계열 상의 각 프레임별로 차원 축소변환된 두장의 영상(uv_shape, uv_tex)내 색상코드(uv_shape)와 색상(uv_tex)의 변화에 대한 분석만으로 사용자의 시간적-공간적(spatio-temporal) 변화들을 쉽고 빠르게 모니터링할 수 있게 된다. 이로써, 다시점 영상의 가시성을 가지는 정보에 대한 탐색과 중복적 가시성을 가지는 얼굴정보들에 대한 별도의 처리없이 차원 축소된 UV 공간에서의 영상분석만으로 사용자의 움직임에 따라 수시로 가려지는 정보들의 손실없이 감정상태의 모니터링이 가능해진다.
다시 도 2를 참조하면, 얼굴검출부(110)에서 개별 시점 영상별로 획득된 얼굴영역 영상들을 입력으로 하여 동일인 유무를 판별하는 CNN 기반의 Discriminator를 구성하여 다시점 영상의 동일인인지 유무의 판단을 학습할 수 있다.
또한, 3차원정보의 2차원 축소변환부(130)의 결과인 uv_shape과 uv_tex를 입력으로 하는 CNN기반의 Discriminator를 구성하여 동일인 유무를 판단하도록 학습할 수 있다. 두 경우 모두에 대해 학습 시 다시점 입력의 조합(동일인, 다수인)에 따라 real/fake의 레이블을 주어 학습을 수행할 수 있다. 동일인에 대한 선별이 완료된 이후에 입력되는 프레임에 대해서는 프레임간 이동이 최소화될 만큼 충분히 짧은 시간에 영상을 획득한다는 가정하에 다음 프레임의 다시점 영상에 대해 얼굴 검출부에서 추론한 영상영역과 현재 프레임의 영상영역간의 인접성과 색상 특성 유사성을 기반으로 한 통상적인 영상 추적기술을 통해 영상영역을 업데이트할 수도 있다.
도 7은 실시예에 따른 다시점 얼굴 영상 기반 사용자 모니터링 방법을 설명하기 위한 순서도이다. 여기서, 다시점 얼굴 영상 기반 사용자 모니터링 방법은 전술한 다시점 얼굴 영상 기반 사용자 모니터링 장치에 의해 수행되는 것으로, 중복되는 설명은 생략하기로 한다.
도 7을 참조하면, 적어도 둘 이상의 상이한 시점들 각각에서 촬영된 사용자 영상들 각각으로부터 얼굴 영역 영상들을 추출하는 단계(S410)와, 얼굴 영역 영상들의 3차원 공간에서의 적어도 하나의 속성 정보를 2차원 UV 공간으로 매핑한 적어도 하나의 속성별 2차원 영상으로 축소 변환하는 단계(S430)와, 적어도 하나의 속성별 2차원 영상을 분석하여 사용자 모니터링 정보를 생성하는 단계(S440)를 포함할 수 있다.
이때, 얼굴 영역 영상들을 추출하는 단계(S410) 및 사용자 모니터링 정보를 생성하는 단계(S430) 사이에, 추출된 얼굴 영역 영상들에서 모니터링 대상자를 선별하는 단계(S420)를 더 포함할 수 있다.
이때, 적어도 둘 이상의 상이한 시점들 각각에서 촬영된 사용자 영상들에 포함된 사용자들 간의 동일 여부를 콘볼루션 신경망 기반으로 판별하는 단계를 더 포함할 수 있다.
이때, 속성별 2차원 영상으로 축소 변환하는 단계(S430)는, 콘볼루션 신경망 알고리즘에 의해 생성되되, 얼굴 영역 영상에서 추출된 특징을 파라미터화하는 단계 및 특징 파라미터를 기반으로 적어도 하나의 속성별 2차원 영상을 생성하는 단계를 포함할 수 있다.
이때, 속성별 2차원 영상은, 얼굴 영역 영상의 3차원 공간 상의 형상 정보를 색상 코드 포맷으로 저장한 형상 2차원 영상(uv_shape) 및 얼굴 영역 영상의 색상 정보를 저장한 색상 2차원 영상(uv_tex)을 포함할 수 있다.
이때, 속성별 2차원 영상으로 축소 변환하는 단계(S430)는, 특징 파라미터를 개별 특징별로 추가 변환 또는 가공하여 형태 특징 파라미터, 표정 특징 파라미터, 조명 특징 파라미터 및 헤드포즈 특징 파라미터를 포함하는 특징 파라미터들 중 적어도 하나를 추출하는 단계를 더 포함할 수 있다.
이때, 사용자 모니터링 정보를 생성하는 단계(S440)는, 속성별 2차원 영상의 사용자 별로 미리 등록된 속성별 2차원 영상과의 유사도를 기반으로 사용자를 식별하는 단계와, 속성별 2차원 영상을 표준 얼굴형의 속성별 2차원 영상과의 비교를 기반으로 얼굴 특징을 검출하는 단계와, 헤드포즈 특징 파라미터를 기반으로 헤드 제스처를 검출하는 단계와, 헤드포즈 특징 파라미터 및 uv_tex의 눈영역의 색상값을 기반으로 3D 시선 방향을 검출하는 단계와, 속성별 2차원 영상의 시간에 따른 변화량을 기반으로 사용자의 감성 상태를 인식하는 단계 중 적어도 하나를 포함할 수 있다.
도 8은 실시예에 따른 콘볼루션 신경망 학습 방법을 설명하기 위한 순서도이다. 여기서 콘볼루션 신경망 학습 방법은 도 5를 참조하여 설명한 내용과 중복되는 설명은 생략하기로 한다.
도 8을 참조하면, 이때, 콘볼루션 신경망은, 얼굴 영역 영상들을 입력받은 콘볼루션 신경망이 3차원 공간에서의 적어도 하나의 속성 정보를 2차원 UV 공간으로 매핑한 적어도 하나의 속성별 2차원 영상을 출력하도록 지도 학습하는 단계(S510) 및 지도 학습된 콘볼루션 신경망에 다시점 얼굴 색상 영상들을 입력으로 하여 출력된 속성별 2차원 영상을 렌더링한 다시점 합성 색상 영상들이 다시점 얼굴 색상 영상들과의 오차가 최소가 되도록 비지도 학습하는 단계(S520)에 의해 생성될 수 있다.
이때, 지도 학습하는 단계(S510)는, 콘볼루션 신경망이 얼굴 영역 영상에서 추출된 특징 파라미터를 개별 특징별로 추가 변환 또는 가공하여 조명 특징 파라미터 및 헤드포즈 특징 파라미터를 포함하는 특징 파라미터들 중 적어도 하나를 출력하도록 학습시키되, 비지도 학습하는 단계(S520)는, 렌더링함에 있어, 다시점 얼굴 색상 영상과 함께 조명 특징 파라미터 및 헤드포즈 특징 파라미터를 입력으로 하여 렌더링할 수 있다.
이때, 비지도학습 단계(S520)는, 통상적인 CNN 네트웍의 loss를 최소화하는 알고리즘과 GAN(Generative Adversarial Network) 알고리즘으로 수행될 수 있다.
도 9는 실시예에 따른 컴퓨터 시스템 구성을 나타낸 도면이다.
실시예에 따른 다시점 얼굴 영상 기반 사용자 모니터링 장치 및 학습 장치는 각각 컴퓨터로 읽을 수 있는 기록매체와 같은 컴퓨터 시스템(1000)에서 구현될 수 있다.
컴퓨터 시스템(1000)은 버스(1020)를 통하여 서로 통신하는 하나 이상의 프로세서(1010), 메모리(1030), 사용자 인터페이스 입력 장치(1040), 사용자 인터페이스 출력 장치(1050) 및 스토리지(1060)를 포함할 수 있다. 또한, 컴퓨터 시스템(1000)은 네트워크(1080)에 연결되는 네트워크 인터페이스(1070)를 더 포함할 수 있다. 프로세서(1010)는 중앙 처리 장치 또는 메모리(1030)나 스토리지(1060)에 저장된 프로그램 또는 프로세싱 인스트럭션들을 실행하는 반도체 장치일 수 있다. 메모리(1030) 및 스토리지(1060)는 휘발성 매체, 비휘발성 매체, 분리형 매체, 비분리형 매체, 통신 매체, 또는 정보 전달 매체 중에서 적어도 하나 이상을 포함하는 저장 매체일 수 있다. 예를 들어, 메모리(1030)는 ROM(1031이나 RAM(1032을 포함할 수 있다.
이상의 구체적인 방법론과 실시예를 통해 본 발명의 구성을 설명하였다.
본 발명을 통해 컴퓨터가 다수의 카메라를 통해 입력되는 다시점 영상을 실시간 분석하여 사용자 움직임의 제약없이 사용자의 신원이나 특성, 상태, 의도 등의 정보를 현장에서 실시간 수집하여 사용자의 상황과 의도에 맞게 다양한 산업분야에서 차량 운전보조, 학습보조, 컨시어지 등의 지능형 인터랙션을 제공할 수 있다.
본 발명은 컴퓨터가 컴퓨터 내에 장착된 영상센서나 공간 내에 배치된 영상센서들을 통해 얻은 사용자의 다시점(Multi-view or Multi-viewpoint) 얼굴 영상을 실시간 수집, 분석하여 사용자 얼굴을 통해 얻을 수 있는 정보(사용자의 신원, 특징, 표정, 시선방향, 제스처 등)를 토대로 대면형 AI 서비스에서 사용자와의 지능형 인터랙션을 수행하기 위한 영상분석 기반 사용자 모니터링 방법에 관한 것이다.
종래의 유사 발명 들과의 차이는 인터랙션 과정에서의 사용자가 정면을 봐야 하는 등의 사용자 제약없이 사용자의 자유로운 움직임이 허용되는 상황에서도 다수의 카메라로부터 획득되는 다시점 영상을 차원축소변환 방법을 통해 카메라 수에 관계없이 UV 공간이라는 3차원 공간의 2차원 축소 공간으로 학습기반으로 변환함으로써 얼굴의 3차원 공간상에서의 색상와 형상적 변화를 적은 연산량으로도 실시간으로 분석하여 사용자의 신원, 특징, 상태, 의도 등을 실시간 모니터링하여 보다 지능적인 서비스 제공을 가능하게 해준다. 종래의 컴퓨터 비전 분야의 computational photography 방법에서는 다시점 영상 입력에 대해 3D 복원이라는 과정을 통해 각 시점 영상별로 자기가림을 식별하고 가시성을 가지는 정보들을 선별 수집한 후, 여러 시점에서 가시성을 가지는 정보들을 취합하는 과정을 통해 다시점 영상의 정보를 분석하기 때문에, 많은 연산량이 요구된다. 반대로 신원인식, 시선추적 등의 학습기반 방법들은 사용자에게 사전 학습된 상황(예: 정면얼굴과 움직임 없음)을 요구하여 사용자 UX 관점에서 한계를 보이고 있다.
자동차 분야 대해서는 최근 무인주행 등의 기술 발전으로 운전자의 차량내 역할과 차량에서의 행동들에 많은 변화가 예상된다. 현재 운행관련해서는 핸드 제스처 인식을 통한 차량 기능 제어나 시선추적을 통해 운전자 졸음 등의 모니터링 기술들이 적용되고 있다. 이는 전방주시의 운전상황에서 컴퓨터가 사용자와 인터랙션하고 사용자를 모니터링 하는 방법들이다. 무인주행 기술이 발전함에 따라 운전자의 개념보다는 탑승자의 개념으로 바뀌고 차량내에서 콘텐츠를 관람하는 등 차량내 행동패턴의 변화가 예고되고 있으며 이러한 상황에서는 종래의 정면주시의 운전자와의 인터랙션 방법들은 더 이상 제대로 된 사용자 모니터링이 어려울 수 있어 다시점 영상입력의 분석이 요구될 것이다. 본 발명은 이러한 차량내 탑승자의 자유로운 움직임 내에서도 차량 내부에 장착된 다수의 카메라에서 수집된 다시점 영상정보의 실시간 분석을 통해 탑승자의 신원 별 의도와 상태 모니터링 방법을 제공할 수 있다.
학습관련 분야에 대해서는 최근 네트웍 전송 기술과 디스플레이 디바이스의 발전, 비대면 문화 형성 등으로 온라인으로 진행되는 학습들이 증가하고 있다. 종래의 일률적 진행방식이나 사용자가 학습용 모니터 앞에서 정면을 응시하는 상태에서의 집중도 분석, 디지털 학습 입력 패턴 분석 등으로 사용자를 모니터링하는 단계에서 본 발명을 활용할 경우, 태블릿 등에 장착된 단일 카메라 만으로도 학습 중 사용자의 움직임에 제약을 완화한 상태에서 사용자의 신원이나 학습 집중도, 학습 이해도 등을 실시간 모니터링하여 AI 튜터가 사용자에 맞는 맞춤형 학습과 강화된 학습 모니터링을 할 수 있게 된다.
호텔, 전시관, 공항, 쇼핑몰 등의 서비스 분야에서 안내 혹은 컨시어지, 큐레이션 등의 사용자 맞춤형 대면 서비스의 경우에도 본 발명은 종래의 방법들과 달리 다시점 영상을 통한 넓은 영역과 다수의 방향에서의 효율적 정보수집을 통해 사용자의 의도와 상태를 빠르게 수집하여 사용자가 원하는 맞춤형 서비스의 제공이 가능하다.
오프라인 매장의 경우, 매장에 설치된 다수의 카메라를 통해 매장을 방문한 사용자가 관심을 가지는 대상에 대한 정보 수집을 토대로 사용자 기호에 맞는 맞춤형 제품을 추천하거나 향후 온라인 서비스에 사용자 별 특징에 따른 기호를 반영할 수 있다.
출입통제 관련한 경우, 종래의 정면을 응시하는 안면인식이나 근접 홍채인식 등 사용자의 움직임 제약을 요구하는 방식이 아닌 원격에서 사용자가 걸어오는 상황이나 측면을 바라보는 등의 자연스러운 사용자 상태에서 사용자의 표정이나 시선의 움직임 등에 대한 인터랙티브 요구와 분석을 통해 위조식별과 강화된 신원인식이 동시에 가능한 방법의 제공이 가능하다.
그 외에도 자폐, 발달장애 등의 선별, 진단 시에도 검사장에 설치된 다수의 카메라에서 입력되는 다시점 영상 분석을 통해 검사자의 요구에 대한 피검사자의 상태나 상호작용 유무에 대한 정보 수집 및 선별에 활용될 수 있다.
상기의 응용분야 외에도 인공지능을 기반으로 대면 서비스 혹은 사용자 관찰 서비스를 수행하는 다양한 분야에서 본 발명은 컴퓨터가 사용자의 움직임에 의한 정보손실 없는 사용자의 신원이나 상태, 의도 파악 등의 실시간 사용자 모니터링을 통해, 사용자의 상황에 맞는 지능형 인터랙티브 서비스를 제공하는 곳에 활용될 수 있다.
이상에서 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
100 : 다시점 얼굴 영상 기반 사용자 모니터링 장치
110 : 얼굴 검출부 120 : 타겟 사용자 선별부
130 : 축소 변환부 131 : 인코더
132 : 디코더 133 : 레이턴트 레이어
140 : 분석부 141 : 신원 인식부
142 : 얼굴 특징 검출부 143 : 헤드 제스쳐 인식부
144 : 시선 검출부 145 : 감성 상태 인식부

Claims (20)

  1. 적어도 하나의 프로그램이 기록된 메모리; 및
    프로그램을 실행하는 프로세서를 포함하며,
    프로그램은,
    적어도 둘 이상의 상이한 시점들 각각에서 촬영된 사용자 영상들 각각으로부터 얼굴 영역 영상들을 추출하는 얼굴 검출부;
    얼굴 영역 영상들의 3차원 공간에서의 적어도 하나의 속성 정보를 2차원 UV 공간으로 매핑한 적어도 하나의 속성별 2차원 영상을 생성하는 축소 변환부; 및
    적어도 하나의 속성별 2차원 영상을 분석하여 사용자 모니터링 정보를 생성하는 분석부를 포함하는, 다시점 얼굴 영상 기반 사용자 모니터링 장치.
  2. 제1 항에 있어서, 프로그램은,
    얼굴 영역 영상들을 추출하는 단계 및 사용자 모니터링 정보를 생성하는 단계 사이에, 추출된 얼굴 영역 영상들에서 모니터링 대상자를 선별하는 타겟 사용자 선별부를 더 포함하는, 다시점 얼굴 영상 기반 사용자 모니터링 장치.
  3. 제1 항에 있어서, 프로그램은,
    적어도 둘 이상의 상이한 시점들 각각에서 촬영된 사용자 영상들에 포함된 사용자들 간의 동일 여부를 콘볼루션 신경망 기반으로 판별하는, 다시점 얼굴 영상 기반 사용자 모니터링 장치.
  4. 제1 항에 있어서, 축소 변환부는,
    콘볼루션 신경망 알고리즘에 의해 생성되되,
    얼굴 영역 영상에서 추출된 특징을 파라미터화하는 인코더; 및
    특징 파라미터를 기반으로 적어도 하나의 속성별 2차원 영상을 생성하는 디코더를 포함하는, 다시점 얼굴 영상 기반 사용자 모니터링 장치.
  5. 제4 항에 있어서, 속성별 2차원 영상은,
    얼굴 영역 영상의 3차원 공간 상의 형상 정보를 색상 코드 포맷으로 저장한 형상 2차원 영상(uv_shape) 및 얼굴 영역 영상의 색상 정보를 저장한 색상 2차원 영상(uv_tex)을 포함하는, 다시점 얼굴 영상 기반 사용자 모니터링 장치.
  6. 제5 항에 있어서, 축소 변환부는,
    특징 파라미터를 개별 특징별로 추가 변환 또는 가공하여 형태 특징 파라미터, 표정 특징 파라미터, 조명 특징 파라미터 및 헤드포즈 특징 파라미터를 포함하는 특징 파라미터들 중 적어도 하나를 추출하는 레이턴트 레이어를 더 포함하는, 다시점 얼굴 영상 기반 사용자 모니터링 장치.
  7. 제6 항에 있어서, 분석부는,
    속성별 2차원 영상의 사용자 별로 미리 등록된 속성별 2차원 영상과의 유사도를 기반으로 사용자를 식별하는 신원 인식부;
    속성별 2차원 영상을 표준 얼굴형의 속성별 2차원 영상과의 비교를 기반으로 얼굴 특징을 검출하는 얼굴 특징 검출부;
    헤드포즈 특징 파라미터를 기반으로 헤드 제스처를 검출하는 헤드 제스처 검출부;
    헤드포즈 특징 파라미터 및 uv_tex의 눈영역의 색상값을 기반으로 3D 시선 방향을 검출하는 3D 시선 검출부; 및
    속성별 2차원 영상의 시간에 따른 변화량을 기반으로 사용자의 감성 상태를 인식하는 감성 상태 인식부 중 적어도 하나를 포함하는, 다시점 얼굴 영상 기반 사용자 모니터링 장치.
  8. 적어도 하나의 프로그램이 기록된 메모리; 및
    프로그램을 실행하는 프로세서를 포함하며,
    프로그램은,
    얼굴 영역 영상들의 3차원 공간에서의 적어도 하나의 속성 정보를 2차원 UV 공간으로 매핑한 적어도 하나의 속성별 2차원 영상을 생성하는 축소 변환부를 콘볼루션 신경망으로 생성하되,
    얼굴 영역 영상들을 입력받은 콘볼루션 신경망이 3차원 공간에서의 적어도 하나의 속성 정보를 2차원 UV 공간으로 매핑한 적어도 하나의 속성별 2차원 영상을 출력하도록 지도 학습하는 단계; 및
    지도 학습된 콘볼루션 신경망에 다시점 얼굴 색상 영상들을 입력으로 하여 출력된 속성별 2차원 영상을 렌더링한 다시점 합성 색상 영상들이 다시점 얼굴 색상 영상들과의 오차가 최소가 되도록 비지도 학습하는 단계를 수행하는, 다시점 얼굴 영상 기반 사용자 모니터링을 위한 콘볼루션 신경망 학습 장치.
  9. 제8 항에 있어서, 지도 학습하는 단계는,
    콘볼루션 신경망이 얼굴 영역 영상에서 추출된 특징 파라미터를 개별 특징별로 추가 변환 또는 가공하여 조명 특징 파라미터 및 헤드포즈 특징 파라미터를 포함하는 특징 파라미터들 중 적어도 하나를 출력하도록 학습시키되,
    비지도 학습하는 단계는,
    렌더링함에 있어, 다시점 얼굴 색상 영상과 함께 조명 특징 파라미터 및 헤드포즈 특징 파라미터를 입력으로 하여 렌더링하는, 다시점 얼굴 영상 기반 사용자 모니터링을 위한 콘볼루션 신경망 학습 장치.
  10. 제 8항에 있어서, 비지도학습 단계는,
    GAN(Generative Adversarial Network) 알고리즘으로 수행되는, 다시점 얼굴 영상 기반 사용자 모니터링을 위한 콘볼루션 신경망 학습 장치.
  11. 적어도 둘 이상의 상이한 시점들 각각에서 촬영된 사용자 영상들 각각으로부터 얼굴 영역 영상들을 추출하는 단계;
    얼굴 영역 영상들의 3차원 공간에서의 적어도 하나의 속성 정보를 2차원 UV 공간으로 매핑한 적어도 하나의 속성별 2차원 영상으로 축소 변환하는 단계; 및
    적어도 하나의 속성별 2차원 영상을 분석하여 사용자 모니터링 정보를 생성하는 단계를 포함하는, 다시점 얼굴 영상 기반 사용자 모니터링 방법.
  12. 제11 항에 있어서,
    얼굴 영역 영상들을 추출하는 단계 및 사용자 모니터링 정보를 생성하는 단계 사이에, 추출된 얼굴 영역 영상들에서 모니터링 대상자를 선별하는 단계를 더 포함하는, 다시점 얼굴 영상 기반 사용자 모니터링 방법.
  13. 제11 항에 있어서,
    적어도 둘 이상의 상이한 시점들 각각에서 촬영된 사용자 영상들에 포함된 사용자들 간의 동일 여부를 콘볼루션 신경망 기반으로 판별하는 단계를 더 포함하는, 다시점 얼굴 영상 기반 사용자 모니터링 방법.
  14. 제11 항에 있어서, 속성별 2차원 영상으로 축소 변환하는 단계는,
    콘볼루션 신경망 알고리즘에 의해 생성되되,
    얼굴 영역 영상에서 추출된 특징을 파라미터화하는 단계; 및
    특징 파라미터를 기반으로 적어도 하나의 속성별 2차원 영상을 생성하는 단계를 포함하는, 다시점 얼굴 영상 기반 사용자 모니터링 방법.
  15. 제14 항에 있어서, 속성별 2차원 영상은,
    얼굴 영역 영상의 3차원 공간 상의 형상 정보를 색상 코드 포맷으로 저장한 형상 2차원 영상(uv_shape) 및 얼굴 영역 영상의 색상 정보를 저장한 색상 2차원 영상(uv_tex)을 포함하는, 다시점 얼굴 영상 기반 사용자 모니터링 방법.
  16. 제15 항에 있어서, 속성별 2차원 영상으로 축소 변환하는 단계는,
    특징 파라미터를 개별 특징별로 추가 변환 또는 가공하여 형태 특징 파라미터, 표정 특징 파라미터, 조명 특징 파라미터 및 헤드포즈 특징 파라미터를 포함하는 특징 파라미터들 중 적어도 하나를 추출하는 단계를 더 포함하는, 다시점 얼굴 영상 기반 사용자 모니터링 방법.
  17. 제16 항에 있어서, 사용자 모니터링 정보를 생성하는 단계는,
    속성별 2차원 영상의 사용자 별로 미리 등록된 속성별 2차원 영상과의 유사도를 기반으로 사용자를 식별하는 단계;
    속성별 2차원 영상을 표준 얼굴형의 속성별 2차원 영상과의 비교를 기반으로 얼굴 특징을 검출하는 단계;
    헤드포즈 특징 파라미터를 기반으로 헤드 제스처를 검출하는 단계;
    헤드포즈 특징 파라미터 및 uv_tex의 눈영역의 색상값을 기반으로 3D 시선 방향을 검출하는 단계; 및
    속성별 2차원 영상의 시간에 따른 변화량을 기반으로 사용자의 감성 상태를 인식하는 단계 중 적어도 하나를 포함하는, 다시점 얼굴 영상 기반 사용자 모니터링 방법.
  18. 제14항에 있어서, 콘볼루션 신경망은,
    얼굴 영역 영상들을 입력받은 콘볼루션 신경망이 3차원 공간에서의 적어도 하나의 속성 정보를 2차원 UV 공간으로 매핑한 적어도 하나의 속성별 2차원 영상을 출력하도록 지도 학습하는 단계; 및
    지도 학습된 콘볼루션 신경망에 다시점 얼굴 색상 영상들을 입력으로 하여 출력된 속성별 2차원 영상을 렌더링한 다시점 합성 색상 영상들이 다시점 얼굴 색상 영상들과의 오차가 최소가 되도록 비지도 학습하는 단계에 의해 생성되는, 다시점 얼굴 영상 기반 사용자 모니터링 방법.
  19. 제18 항에 있어서, 지도 학습하는 단계는,
    콘볼루션 신경망이 얼굴 영역 영상에서 추출된 특징 파라미터를 개별 특징별로 추가 변환 또는 가공하여 조명 특징 파라미터 및 헤드포즈 특징 파라미터를 포함하는 특징 파라미터들 중 적어도 하나를 출력하도록 학습시키되,
    비지도 학습하는 단계는,
    렌더링함에 있어, 다시점 얼굴 색상 영상과 함께 조명 특징 파라미터 및 헤드포즈 특징 파라미터를 입력으로 하여 렌더링하는, 다시점 얼굴 영상 기반 사용자 모니터링 방법.
  20. 제18 항에 있어서, 비지도학습 단계는,
    GAN(Generative Adversarial Network) 알고리즘으로 수행되는, 다시점 얼굴 영상 기반 사용자 모니터링 방법.
KR1020200062912A 2020-05-26 2020-05-26 다시점 얼굴 영상 기반 사용자 모니터링 장치 및 방법 KR102441171B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200062912A KR102441171B1 (ko) 2020-05-26 2020-05-26 다시점 얼굴 영상 기반 사용자 모니터링 장치 및 방법
US17/085,941 US11749023B2 (en) 2020-05-26 2020-10-30 Apparatus and method for monitoring user based on multi-view face image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200062912A KR102441171B1 (ko) 2020-05-26 2020-05-26 다시점 얼굴 영상 기반 사용자 모니터링 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20210145984A KR20210145984A (ko) 2021-12-03
KR102441171B1 true KR102441171B1 (ko) 2022-09-08

Family

ID=78706363

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200062912A KR102441171B1 (ko) 2020-05-26 2020-05-26 다시점 얼굴 영상 기반 사용자 모니터링 장치 및 방법

Country Status (2)

Country Link
US (1) US11749023B2 (ko)
KR (1) KR102441171B1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021236175A1 (en) * 2020-05-20 2021-11-25 Google Llc Learning illumination from diverse portraits
US11880766B2 (en) 2020-10-16 2024-01-23 Adobe Inc. Techniques for domain to domain projection using a generative model
US11630510B2 (en) * 2021-06-23 2023-04-18 Huawei Technologies Co., Ltd. System, method and storage medium for 2D on-screen user gaze estimation
US11651554B2 (en) * 2021-07-30 2023-05-16 The Boeing Company Systems and methods for synthetic image generation
US11900534B2 (en) * 2021-07-30 2024-02-13 The Boeing Company Systems and methods for synthetic image generation
US20240051568A1 (en) * 2022-08-09 2024-02-15 Motional Ad Llc Discriminator network for detecting out of operational design domain scenarios
CN115512426B (zh) * 2022-11-04 2023-03-24 安徽五域安全技术有限公司 一种智能人脸识别方法以及系统
KR102547421B1 (ko) * 2022-11-04 2023-06-23 국방과학연구소 사용자 접근 제어 방법 및 상기 방법에 의해 사용자 접근이 제어되는 단말

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101793510B1 (ko) 2017-03-27 2017-11-06 한밭대학교 산학협력단 얼굴 학습 및 인식 시스템과 그 방법

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100737808B1 (ko) * 2005-10-07 2007-07-10 전자부품연구원 2차원 구조의 다시점 영상 압축 방법
US8831273B2 (en) * 2010-09-10 2014-09-09 Reald Inc. Methods and systems for pre-processing two-dimensional image files to be converted to three-dimensional image files
EP3084682B1 (en) * 2013-12-19 2019-07-24 Avigilon Fortress Corporation System and method for identifying faces in unconstrained media
KR101801898B1 (ko) * 2016-02-19 2017-11-27 한국과학기술원 다시점 영상 기반의 단일 영상 처리 방법 및 장치
KR102558806B1 (ko) * 2016-05-16 2023-07-24 대신네트웍스춘천(주) 멀티카메라를 이용한 대상 추적 장치
US10546211B2 (en) * 2016-07-01 2020-01-28 Google Llc Convolutional neural network on programmable two dimensional image processor
US10282530B2 (en) * 2016-10-03 2019-05-07 Microsoft Technology Licensing, Llc Verifying identity based on facial dynamics
KR102634166B1 (ko) * 2016-10-04 2024-02-08 한화비전 주식회사 다중 크기 컨볼루션 블록 층을 이용한 얼굴 인식 장치
EP3349182A1 (en) * 2017-01-13 2018-07-18 Thomson Licensing Method, apparatus and stream for immersive video format
US10733755B2 (en) * 2017-07-18 2020-08-04 Qualcomm Incorporated Learning geometric differentials for matching 3D models to objects in a 2D image

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101793510B1 (ko) 2017-03-27 2017-11-06 한밭대학교 산학협력단 얼굴 학습 및 인식 시스템과 그 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
비특허문헌1(Kang Il Bae 외 2명, The Korean Journal of Applied Statistics (2019), 2019.01.03.)

Also Published As

Publication number Publication date
US11749023B2 (en) 2023-09-05
US20210374402A1 (en) 2021-12-02
KR20210145984A (ko) 2021-12-03

Similar Documents

Publication Publication Date Title
KR102441171B1 (ko) 다시점 얼굴 영상 기반 사용자 모니터링 장치 및 방법
CN111325823B (zh) 人脸纹理图像的获取方法、装置、设备及存储介质
CN111710036B (zh) 三维人脸模型的构建方法、装置、设备及存储介质
Pantic et al. Automatic analysis of facial expressions: The state of the art
Cohen et al. Inference of human postures by classification of 3D human body shape
Wechsler Reliable Face Recognition Methods: System Design, Impementation and Evaluation
EP3488382A1 (en) Method and system for monitoring the status of the driver of a vehicle
US12008686B2 (en) Augmented reality map curation
JP6207210B2 (ja) 情報処理装置およびその方法
CN110853073A (zh) 确定关注点的方法、装置、设备、系统及信息处理方法
EP3154407B1 (en) A gaze estimation method and apparatus
JP2023545200A (ja) パラメータ推定モデルの訓練方法、パラメータ推定モデルの訓練装置、デバイスおよび記憶媒体
CN108846343B (zh) 基于三维视频的多任务协同分析方法
CN110751097A (zh) 一种半监督的三维点云手势关键点检测方法
RU2370817C2 (ru) Система и способ отслеживания объекта
CN115482574A (zh) 基于深度学习的屏幕注视点估计方法、装置、介质及设备
WO2023279799A1 (zh) 对象识别方法、装置和电子系统
EP1667049A2 (en) Facial feature analysis system
CN113093907B (zh) 人机交互方法、系统、设备及存储介质
CN116109974A (zh) 体积视频展示方法以及相关设备
Kostov et al. Method for simple extraction of paralinguistic features in human face
Afroze et al. Detection of human’s focus of attention using head pose
CN111802787A (zh) 一种智能化妆镜
Dornaika et al. Three-dimensional face pose detection and tracking using monocular videos: Tool and application
Yang et al. Ego-downward and ambient video based person location association

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant