KR20100131060A - 인체 동작 및 얼굴 표정 모델링 및 인식을 위한 비디오 센서 기반의 장치 및 방법 - Google Patents

인체 동작 및 얼굴 표정 모델링 및 인식을 위한 비디오 센서 기반의 장치 및 방법 Download PDF

Info

Publication number
KR20100131060A
KR20100131060A KR1020090049744A KR20090049744A KR20100131060A KR 20100131060 A KR20100131060 A KR 20100131060A KR 1020090049744 A KR1020090049744 A KR 1020090049744A KR 20090049744 A KR20090049744 A KR 20090049744A KR 20100131060 A KR20100131060 A KR 20100131060A
Authority
KR
South Korea
Prior art keywords
video clip
facial expression
hmm
ica
depth
Prior art date
Application number
KR1020090049744A
Other languages
English (en)
Other versions
KR101640077B1 (ko
Inventor
김현수
이종창
심대현
김태성
Original Assignee
삼성전자주식회사
경희대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사, 경희대학교 산학협력단 filed Critical 삼성전자주식회사
Priority to KR1020090049744A priority Critical patent/KR101640077B1/ko
Priority to US12/802,381 priority patent/US8755593B2/en
Publication of KR20100131060A publication Critical patent/KR20100131060A/ko
Priority to US14/307,342 priority patent/US9489568B2/en
Application granted granted Critical
Publication of KR101640077B1 publication Critical patent/KR101640077B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • G06V10/85Markov-related models; Markov random fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Psychiatry (AREA)
  • Databases & Information Systems (AREA)
  • Social Psychology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 인체 동작 및 얼굴 표정의 모델링 및 인식에 관한 것으로, 인체 동작 모델링 방법에 있어서 비디오 클립에서 추출한 인체 동작의 깊이 및/또는 이진 형상 이미지의 원칙 요소를 획득하는 과정과 상기 원칙 요소를 기반으로 ICA 표현을 획득하는 과정과 상기 ICA 표현을 기반으로 LDA를 통해 피쳐를 결정하는 과정과 벡터 양자화를 이용하여 코드북을 획득하는 과정과 상기 비디오 클립에서 관측 심볼 시퀀스를 결정하는 과정과 상태 천이 및 관측 행렬을 기반으로 HMM을 이용하여 인체 동작을 학습하는 과정을 포함하는 것으로 인체 동작 또는 표정을 인체 또는 얼굴을 부분으로 나누지(segmenting) 않고서도 인식하는 것이 가능한 이점이 있다.
human activity recognition, facial expression, HMM, LDA.

Description

인체 동작 및 얼굴 표정 모델링 및 인식을 위한 비디오 센서 기반의 장치 및 방법{APPARATUS AND METHOD FOR VIDEO SENSOR-BASED HUMAN ACTIVITY AND FACIAL EXPRESSION MODELING AND RECOGNITION}
본 발명은 인체의 깊이(depth) 및/또는 이진 형상 정보(binary shape information)를 통해 인체 동작을 인식하고, 연속적인 비디오 프레임으로부터의 인체 얼굴의 깊이 및/또는 RGB 정보를 통해 얼굴 표정을 인식하는 장치 및 방법에 관한 것이다.
또한, 본 발명은 시간 연속적인 이미지로부터 피쳐 추출 기술(feature extraction techniques)을 기반으로 한 모델링 장치 및 방법에 관한 것이다.
최근 들어, 인체 동작 및 얼굴 표정 인식에 대한 연구는 프로액티브 컴퓨팅(proactive computing)으로 인해 발전되어 왔다. 프로액티브 컴퓨팅은 미리 대책을 강구하여 사람들의 건강 관련 필요에 집중하고, 그들의 입장에서 필요한 조치를 취하는 방향으로 이용하는 것을 나타낸다.
얼굴 표정과 인체 동작 인식은 HCI(human computer interaction)에 있어서 기반적인 기술로 간주되어 왔다. 상기 HCI는 컴퓨터가 사람과 사람 사이의 인터액션과 같이 상호관계를 가지게 하는 것을 나타낸다.
따라서, 얼굴 표정과 인체 동작 인식은 사람 및 사람의 행동의 표현 상태에 응답하는 HCI 시스템을 설계하는데 도움이 될 수 있다.
전형적으로, 일반적인 형상 기반의 인체 동작 인식 기술(shape-based human activity recognition)에서 이진 형상은 다른 인체 행동을 나타내기 위해 흔히 사용되어 왔다.
이진 표현으로 인해, 몇몇의 인체 요소(예를 들어, 팔)는 공통적으로 다른 동작(예를 들어, 박수)의 이진 형상에서는 감춰진다. 이는 같은 이진 형상을 다른 동작으로 결정함으로써 모호함을 야기한다. 따라서, 다른 동작에서의 인체의 효율적인 표현이 중요하다.
일반적으로, PCA(Principal Component Analysis)는, 2 차(Second Order)의 통계적 접근이고, 인체 동작 이미지를 포함하는 데이터베이스의 차원 감소를 위해 사용된다. 기본적으로, PCA 베이시스 이미지(basis images)는 서로 직교하고, 동작에서 자주 사용되는 인체 요소에 집중하는 전역적인 피쳐를 나타낸다.
일반적인 접근방식에서, PCA 피쳐는 전형적으로 다른 인체 동작을 인식하기 위해서 HMM 과 병합하여 사용된다. 그러나, 인체 동작의 이진 형상의 PCA 표현은 낮은 인식률을 보이므로 효율적이지 않은 것으로 밝혀졌다.
일반적인 FER(Facial Expression Recognition)에서, 얼굴 표정을 인식하기 위한 몇가지 방법이 있다. 그 중 하나의 방법은 FAU(facial action units)를 표정 변화에 따라 얼굴 근육 움직임을 이해하는 것을 명시하는 것이다.
그리고 또 하나의 방법은 PCA(principal component analysis)를 통해 기쁨, 분노, 역거움, 공포, 슬픔 등과 같은 전역적인 표정에 해당하는 얼굴 표정 전체를 분리하는 것이다.
최근에는, 각각의 타입의 얼굴 표정을 구분하기 위해서, 부분 피쳐를 추출하는 기능을 이용하는 ICA(independent component analysis) 방식이 FER 작업을 위해 과도하게 사용되어 왔다.
ICA 는 통계적으로 독립 베이시스 및 계수를 생성하기 위해 입력 랜덤 변수(input random variables)의 집합의 통계적인 의존성을 감소시키고 얼굴 표정 인식에 주로 사용되어 왔다.
그러나, 시도된 많은 기술은 한계와 어려움을 가지고 있는 것으로 밝혀졌다. 일반적인 ICA를 사용하는 FAU 기반의 FER은 표정에 대한 거대한 포텐셜(potential)을 포함한다. 상기 표정은 FAU의 다른 종류의 병합으로부터 다르게 결정된다. 그리고 이는 아주 복잡한 FER 문제를 발생시킨다.
더우기, 전체 얼굴 표정을 수용하는 일반적인 ICA는 얼굴의 일시적인 변화가 특정 표정으로 나타나기 때문에, 적절하지 않은 공간 정보를 추출하기 위한 정점(apex) 표정의 정적인 이미지에 대해서만 적용되어온 문제점이 있다.
하지만, 일시적인 정보는 FER 문제 때문에 신중히 고려해야한다(deliberated).
본 발명의 목적은 인체 동작 및 얼굴 표정 모델링 및 인식을 위한 비디오 센서 기반의 장치 및 방법을 제공함에 있다.
본 발명의 다른 목적은 인체 동작 인식에 대한 인체의 이진 형상 정보 외에 깊이 이미지(depth images)를 제공하기 위한 장치 및 방법을 제공함에 있다.
본 발명의 또 다른 목적은 다른 동작 또는 표정의 비디오에 존재하는 얼굴 표정 인식을 위한 인체 얼굴의 RGB 정보 외에 깊이 이미지를 제공하기 위한 장치 및 방법을 제공함에 있다.
본 발명의 목적을 달성하기 위한 본 발명의 제 1 견지에 따르면, 인체 동작 모델링 방법에 있어서 비디오 클립에서 추출한 인체 동작의 깊이 및/또는 이진 형상 이미지의 원칙 요소를 획득하는 과정과 상기 원칙 요소를 기반으로 ICA 표현을 획득하는 과정과 상기 ICA 표현을 기반으로 LDA를 통해 피쳐를 결정하는 과정과 벡터 양자화를 이용하여 코드북을 획득하는 과정과 상기 비디오 클립에서 관측 심볼 시퀀스를 결정하는 과정과 상태 천이 및 관측 행렬을 기반으로 HMM을 이용하여 인체 동작을 학습하는 과정을 포함하는 것을 특징으로 한다.
본 발명의 목적을 달성하기 위한 본 발명의 제 2 견지에 따르면, 인체 동작 인식 방법에 있어서 비디오 클립의 인체 동작의 깊이 및/또는 이진 형상 이미지에서 피쳐 벡터를 획득하는 과정과 상기 비디오 클립에서 관측 심볼 시퀀스를 획득하는 과정과 사전에 존재하는 모든 동작 모델 중에서 우도 확률을 최대화하는 인체 동작 모델을 결정하는 과정을 포함하는 것을 특징으로 한다.
본 발명의 목적을 달성하기 위한 본 발명의 제 3 견지에 따르면, 얼굴 표정 모델링 방법에 있어서 비디오 클립에서 추출한 얼굴 표정의 깊이 및/또는 RGB 얼굴 이미지의 원칙 요소를 획득하는 과정과 상기 원칙 요소를 기반으로 ICA 표현을 획득하는 과정과 상기 ICA 표현을 기반으로 LDA를 통해 피쳐를 결정하는 과정과 벡터 양자화를 이용하여 코드북을 획득하는 과정과 상기 비디오 클립에서 관측 심볼 시퀀스를 결정하는 과정과 상태 천이 및 관측 행렬을 기반으로 HMM을 이용하여 얼굴 표정을 학습하는 과정을 포함하는 것을 특징으로 한다.
본 발명의 목적을 달성하기 위한 본 발명의 제 4 견지에 따르면, 얼굴 표정 인식 방법에 있어서 비디오 클립의 얼굴 표정의 깊이 및/또는 RGB 얼굴 이미지에서 피쳐 벡터를 획득하는 과정과 상기 비디오 클립에서 관측 심볼 시퀀스를 획득하는 과정과 사전에 존재하는 모든 얼굴 표정 모델 중에서 우도 확률을 최대화하는 얼굴 표정 모델을 결정하는 과정을 포함하는 것을 특징으로 한다.
본 발명의 목적을 달성하기 위한 본 발명의 제 5 견지에 따르면, 인체 동작 모델링 장치에 있어서 비디오 클립을 입력받는 입력부와 상기 비디오 클립에서 추출한 인체 동작의 깊이 및/또는 이진 형상 이미지의 원칙 요소를 획득하고, 상기 원칙 요소를 기반으로 ICA 표현을 획득하고 상기 ICA 표현을 기반으로 LDA를 통해 피쳐를 결정하고, 벡터 양자화를 이용하여 코드북을 획득하고, 상기 비디오 클립에서 관측 심볼 시퀀스를 결정하고, 상태 천이 및 관측 행렬을 기반으로 HMM을 이용하여 인체 동작을 학습하는 제어부와 학습 결과를 출력하는 출력부를 포함하는 것을 특징으로 한다.
본 발명의 목적을 달성하기 위한 본 발명의 제 6 견지에 따르면, 인체 동작 인식 장치에 있어서 비디오 클립을 입력받는 입력부와 상기 비디오 클립에서 인체 동작의 깊이 및/또는 이진 형상 이미지에서 피쳐 벡터를 획득하고, 상기 비디오 클립에서 관측 심볼 시퀀스를 획득하고, 사전에 존재하는 모든 동작 모델 중에서 우도 확률을 최대화하는 인체 동작 모델을 결정하는 제어부와 결정 결과를 출력하는 출력부를 포함하는 것을 특징으로 한다.
본 발명의 목적을 달성하기 위한 본 발명의 제 7 견지에 따르면, 얼굴 표정 모델링 장치에 있어서 비디오 클립을 입력받는 입력부와 상기 비디오 클립에서 추출한 얼굴 표정의 깊이 및/또는 RGB 얼굴 이미지의 원칙 요소를 획득하고 상기 원칙 요소를 기반으로 ICA 표현을 획득하고 상기 ICA 표현을 기반으로 LDA를 통해 피쳐를 결정하고, 벡터 양자화를 이용하여 코드북을 획득하고, 상기 비디오 클립에서 관측 심볼 시퀀스를 결정하고 상태 천이 및 관측 행렬을 기반으로 HMM을 이용하여 얼굴 표정을 학습하는 제어부와 학습 결과를 출력하는 출력부를 포함하는 것을 특징으로 한다.
본 발명의 목적을 달성하기 위한 본 발명의 제 8 견지에 따르면, 얼굴 표정 인식 장치에 있어서 비디오 클립을 입력받는 입력부와 상기 비디오 클립에서 얼굴 표정의 깊이 및/또는 RGB 얼굴 이미지에서 피쳐 벡터를 획득하고 상기 비디오 클립에서 관측 심볼 시퀀스를 획득하고 사전에 존재하는 모든 동작 모델 중에서 우도 확률을 최대화하는 인체 동작 모델을 결정하는 제어부와 결정 내용을 출력하는 출력부를 포함하는 것을 특징으로 한다.
본 발명은 인체 동작 또는 표정을 인체 또는 얼굴을 부분으로 나누지(segmenting) 않고서도 인식하는 것이 가능한 이점이 있다.
또한, 본 발명은 깊이 이미지를 사용하므로 깊이 이미지를 이용하지 않은 경우와 비교하여 인식률이 더 높은 이점이 있다.
이하 본 발명의 바람직한 실시 예를 첨부된 도면의 참조와 함께 상세히 설명한다. 그리고, 본 발명을 설명함에 있어서, 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단된 경우 그 상세한 설명은 생략한다.
이하, 본 발명은 인체 동작 및 얼굴 표정 모델링 및 인식을 위한 비디오 센서 기반의 장치 및 방법에 대해 설명할 것이다.
본 발명에서는 인체 동작 또는 얼굴 표정의 독립적인 요소 피쳐(independent component features) 상에서 피쳐 추출을 위해 LDA(Linear Discriminant Analysis) 가 사용된다.
상기 인체 동작은 이진 형상 및/또는 인체의 깊이 이미지를 포함하고, 얼굴 표정은 깊이 이미지(depth image) 및/또는 RGB 얼굴 이미지로 구성된다.
인체 행동 또는 얼굴 표정의 모델링과 인식은 벡터 양자화(vector quantization) 와 HMM(Hidden Markov Model)을 통해 수행된다.
인체 동작과 얼굴 표정에 대한 모델링과 인식에 관해서 probabilistic 접근 방식인 HMM이 시간 연속적인 정보를 인코딩하기 위해 사용된다. 시간 연속적인 이미지로부터 인체 동작과 얼굴 표정을 모델링하고 인식하기 위해서, HMM은 수용할만한 유력한 접근방식이다.
본 발명은 효율적인 피쳐 추출(feature extraction)을 위해, ICA(Independent Component Analysis)를 제안한다. 본 발명에서는 독립 요소 피쳐(Independent component features)가 PCA와 같은 전역 장소(place of global)에서의 인체 또는 표정의 로컬 상태 상에서 높은 차수의 동계를 사용하여 추출된다.
추가적으로, 본 발명의 이미지의 ICA 표현(representations)은 강건한 피쳐 공간(robust feature space)을 생성하기 위해 LDA(Linear Discriminant Analysis)를 적용함으로써 분류된다.
도 1은 본 발명의 실시 예에 따른 인체 동작 또는 표정 모델링 방법의 주요 단계를 도시한 흐름도이다.
상기 도 1을 참조하면, 최근 연구로부터 3D 깊이 정보(depth information)가 다른 동작에 대한 비디오에서의 인체 동작을 나타내기 매우 유용하기 때문에, 본 발명은 다른 동작에서의 인체의 깊이 및/또는 이진 형상 이미지를 통해 다양한 피쳐 추출 분석을 수행한다.
인체 동작 인식에 있어서, 전형적으로, 이진 형상이 다른 인체 행동의 인체 형상 표현에 대해 널리 사용된다. 하지만, 이는 인체 형상 표현에 몇 가지 제약을 가진다. 상기 제약은 일부 인체 요소가 숨겨진 채로 남겨져 있을 수 있다는 것으로, 이는 형상의 잘못된 표현으로 인해 인식에 오류가 발생할 수 있다. 이러한 문제점은 인체의 깊이 정보에서는 보이지 않는다. 왜냐하면 깊이 정보는 인체 전부를 잘 표현하기 때문이다. 따라서, 본 발명에서는 인체 동작 모델링에 비디오 프레임에서의 인체의 깊이 이미지를 이진 형상 정보보다 우선할 것이다.
상기 도 1을 참고하면, 본 발명의 실시 예에 따른 인체 동작 모델링 방법은, 첫 번째로, 입력 비디오 프레임들을 획득한다.(102 단계).
두 번째로, ROI (예를 들어, 인체의 깊이 및/또는 이진 형상 이미지)가 각각의 비디오 프레임에서 획득된다(104 단게). 모든 깊이 및/또는 이진 형상 이미지의 집합은 모델링을 위하고 및 동작을 인식하기 위한 피쳐 스페이스(feature space)를 생성하기 위해 사용된다.
이후, 다른 동작의 깊이 및/또는 이진 형상 이미지의 집합을 통한 PCA를 이용하여 원칙 요소(Principal components)를 획득한다(106 단계). PCA 는 비디오 프레임들에서 인체의 전역 피처를 발견하기 위한 2차 통계 접근 방식(second order statistical approach)이다. PCA 를 적용하기 전에, 모든 깊이 및/또는 이진 형상 이미지 벡터가 행(in row)으로 표현된다. 그리고, 하기 수식에 따라 제로 평균(zero mean) 깊이 및/또는 이진 형상 이미지 벡터로 변환된다.
Figure 112009034062716-PAT00001
여기서,
Figure 112009034062716-PAT00002
은 깊이 및/또는 이진 형상 이미지 벡터의 평균을 나타낸다. 그리고 Xi, ith 는 깊이 및/또는 이진 형상 이미지 벡터를 나타낸다. PCA 는 원 데이터를 낮은 차원의 피쳐 스페이스로 만드는데 사용된다.
기본적인 접근 방식은 코베리언스 데이터 행렬(Q)의 아이겐 벡터를 계산하는 것이고, 이후, 탑 아이겐벡터(top eigenvectors)의 선형 조합(linear combination)을 이용하여 근사값(approximation)을 구한다.
샘플 깊이 및/또는 이진 형상 이미지 벡터의 코베리언스 행렬과 코베리언스 행렬의 원칙 요소들은 하기 수식과 같이 나타내진다.
Figure 112009034062716-PAT00003
Figure 112009034062716-PAT00004
여기서, T 는 깊이 및/도는 이진 형상 이미지 벡터의 수이다. 그리고, E 의 컬럼과, Λ의 대각선 값은 각각 오쏘노멀 아이겐벡터(orthonormal eigenvectors)와 코베리언스 행렬(Q)의 해당 아이겐 값을 나타낸다. 아이겐 벡터는 전역 피처를 나타내는 원칙 요소이다.
하지만, 패던 인식에 있어서 최근의 연구는 ICA가 사용된다. 상기 ICA는 더 PCA 보다 더 높은 우선 순위의 더 높은 차수의 통계 접근 방식(higher order statistical approach)이다. ICA 알고리즘은 통계적으로 독립적인 베이시스 이미지를 발견한다. 만약, S 가 베이시스 이미지의 집합이고, X 가 입력 이미지의 집합인 경우, 이후, X 와 S 사이의 관계가 하기 수식을 통해 모델링된다.
Figure 112009034062716-PAT00005
여기서, R은 풀 랭크(Full Rank)의 알려지지 않은 선형 믹싱 행렬을 나타낸다. 그리고 소스는 서로 각각 독립적이고 믹싱 행렬은 역행렬화될 수 있다(invertible).
ICA 알고리즘은 가중치 행렬(W)과 믹싱 행렬(R)의 역행렬을 학습하고, 독립적인 베이시스 이미지(S)의 집합을 복구하기 위해 사용된다. 깊이 및/또는 이진 형상 이미지들은 변수들로 나타내지고, 연관된 깊이 및/또는 이진 형상 이미지들의 픽셀 값들은 변수들의 관측값(observations)이다
ICA를 적용하기 전에, PCA는 토탈 훈련 이미지 데이터의 차원을 줄이기 위해 사용된다. PCA와는 다르게, ICA 베이시스 이미지는 전역보다 지역적인 피쳐 정보에 집중한다. ICA 알고리즘은 탑 m 원칙 요소(top m principal components), ET m 상에서 수행되고(108 단계), 따라서, S의 행에 있는 m 독립 베이시스 이미지는 하기 수식들과 같다.
Figure 112009034062716-PAT00006
Figure 112009034062716-PAT00007
Figure 112009034062716-PAT00008
여기서, V = XEm 은 Em 과 재건설 이미지인 Xr 상에서의 이미지 X의 프로젝션(projection)이다. 따라서, 동작 이미지 시퀀스로부터의 ith 깊이 및/또는 이진 형상 이미지 벡터(
Figure 112009034062716-PAT00009
)의 독립 요소 표현 (Ii) 는 하기 수식과 같다.
Figure 112009034062716-PAT00010
여기서, Ii 는 ith 이미지 벡터를 구성하는 베이시스 이미지들 선형적으로 병합하는 계수들을 포함한다.
추가적으로, ICA 접근방식은 LDA에 의해 확장된다(110 단계). LDA는 2차 통계 접근방식이고, 감독된 분류 방식(supervised classification)이고, 클래스 특정 정보를 사용하여 클래스 스캐터 정보 사이 또는 이내의 비율을 최대화하는 방법이다. 다른 클래스 중에서 가장 좋은 구별점(discrimination)을 생성하기 위한 근원적인 스페이스에서의 벡터를 찾는다. 이는 피쳐 추출 및 차원 감소에 있어서 잘 알려져 있다. 최대 구별점을 획득하기 위해서, 클래스 사이의 거리와 클래스 내부의 거리의 비율이 최대가 되기 위한 더 낮은 차원의 스페이스로 데이터를 프로젝션한다.
클래스 내 SW, 클래스 사이 SB 에 대해, 하기 <수학식 9>와 <수학식 10>을 이용하여 클래스 스캐터링 비교가 수행된다.
Figure 112009034062716-PAT00011
Figure 112009034062716-PAT00012
여기서, Ji는 ith 클래스 Ci 에서의 벡터의 수이고 클래스의 수이다 그리고, 동작의 수를 나타낸다.
Figure 112009034062716-PAT00013
는 모든 백터의 평균을 나타내고
Figure 112009034062716-PAT00014
는 클래스 Ci의 평 균값이다. 그리고, mk 는 특정 클래스의 백터이다.
최적의 구별 행렬 Dopt 는 클래스 스캐터 행렬의 내 및 클래스 스캐터 행렬 사이의 디터미넌트(determinant)의 비율의 최대화로부터 선택되고 하기 수식과 같다.
Figure 112009034062716-PAT00015
여기서, SW, SB 는 각각 클래스 스캐터링 행렬 내 및 클래스 스캐터링 행렬 사이를 나타낸다. Dopt 는 (c-1) 가장 큰 일반화된 아이겐밸류 λ에 해당하는 SW, SB 디스크리미넌트 벡터의 집합이다.
따라서, 추출된 다른 동작의 깊이 및/또는 형상 이미지의 추출된 ICA 표현은 LDA에 의해 확장될 수 있다. ICA의 LDA를 사용하는 피쳐 백터는 하기 수식에 따라 표현될 수 있다.
Figure 112009034062716-PAT00016
다음으로, 백터 양자화 알고리즘을 사용하는 코드북이 생성된다(112 단계). 코드북은 인체 동작 비디오 클립의 프레엄에서 디스크리트한 심볼들을 생성하는데 유용하다. 여기에 관해서는, LBG(Linde, Buzo, and Gray) 클러스터링 알고리즘을 사용하는 것이 선호된다.
첫 번째로, LBG에서 전체 데이터 집합의 센트로이드(centroid)를 스플리팅(splitting)함으로써 초기화가 수행된다. 이는 하나의 코드북으로부터 시작하여 재귀적으로 2개의 코드워드로 스플리팅한다. 스플리팅 후에, 센트로이드의 최적화가 왜곡을 줄이기 위해 수행된다. 왜냐하면, 이는 이진 스플리팅 방법들을 따르기 때문이다. 코드북 크기는 2 승이(power of two) 된다.
별개의(distinct) HMM의 훈련을 기반으로, 각각의 인체 동작이 표현된다(114 단계). 인체 동작 모델링에 대해 HMM을 사용하는 것이 선호된다. 상기 HMM은 인식을 위한 probabilistic 학습 능력을 가진 연속적 이미지 데이터를 다룰 수 있다. HMM은 확률적인 프로세스(stochastic process)이다. 근원적인 확률적인 프로세스는 일반적으로 관측 불가능(not observable)하지만, 관측 심볼을 생성하는 다른 확률적인 프로세서의 집합을 통해 관측가능하다. HMM은 음성 인식 또는 필기 인식에서의 많은 문제를 해결하기 위해 많이 사용되어 왔다. 본 발명은 인체 동작을 위해 HMM을 사용한다.
HMM은 천이(transitions)에 의해 연결된 유한 상태의 모음(collection)이다. HMM의 모든 상태는 2가지 타입의 확률에 의해 설명될 수 있다. 상기 2가지 타입의 확률은 천이 확률 및 심볼 관측 확률이다. 일반적인 HMM은 하기 수식과 같이 표현된다.
Figure 112009034062716-PAT00017
여기서,
Figure 112009034062716-PAT00018
는 가능한 상태를 나타내고
Figure 112009034062716-PAT00019
이다. q는 가능한 상태를 나타내고, π는 초기 상태의 확률이고, A 는 숨겨진 상태 사이의 천이 확률 행렬이다. 여기서 천이 확률 aij 는 i부터 j까지 상태가 변화하는 확률을 나타낸다.
그리고, B는 모든 상태로부터의 관측 심볼 확률이고, Bj(O)는 상태 j로부터 관측 심볼 O 의 확률을 나타낸다. 만약, 동작의 수가 N 이면, N 훈련 모델 중 사전(H1, H2, ..., HN)이 존재하고, A 및 B는 Baum-Welch 훈련 추정 알고리즘에 의해 반복적으로 훈련될 수 있다. 상태의 수는 경험적으로 결정될 수 있고, 상태의 수가 증가하는 것은 전체적인 인체 동작 인식률에 큰 영향을 미치지 않는다.
도 2는 본 발명의 실시 예에 따른 인체 동작 또는 표정 모델링 방법의 주요 단계를 도시한 흐름도이다. 상기 도 2는 상기 도 1에 얼굴 표정의 경우를 추가적으로 고려한 것이다.
상기 도 2를 참조하면, 최근 연구로부터 깊이 정보(depth information)가 다른 동작에 대한 비디오에서의 인체 동작 또는 얼굴을 나타내기 매우 유용하기 때문에, 본 발명은 다른 동작에서의 인체의 깊이 및/또는 이진 형상 이미지 또는 다른 표정의 비디오에서 깊이 및/또는 RGB 얼굴 이미지를 통해 다양한 피쳐 추출 분석을 적용한다.
인체 동작 인식에 있어서, 전형적으로, 이진 형상 이미지가 다른 인체 행동의 인체 형상 표현에 대해 널리 사용된다. 하지만, 이는 인체 형상 표현에 몇 가지 제약을 가진다. 상기 제약은 일부 인체 요소가 숨겨진 채로 남겨져 있을 수 있다는 것으로 이는 형상 이미지의 잘못된 표현으로 인해 인식에 오류가 발생할 수 있다는 것을 나타낸다.
이러한 문제점은 인체의 깊이 정보에서는 보이지 않는다. 왜냐하면 깊이 정보는 인체 전부를 잘 표현하기 때문이다. 얼굴 표정 인식의 경우, FICA 는 얼굴 표정의 RGB 및 깊이 피쳐에 대한 더 나은 표현을 추출하기 위한 개션된 기능을 제공하기 때문에, 본 발명은 표정 이미지 기반의 RGB 및/또는 깊이 정보를 통해 FICA를 적용한다.
추가적으로, 얼굴의 시공상의(spatiotemporal)의 변화는 특정 표정으로 조합된다. 따라서, 본 발명에서 연속적인 프레임이 각각의 표정 이미지의 정점(apex) 프레임을 사용하는 것보다 더 사용된다.
따라서, 본 발명에서는, 비디오 프레임들에서의 인체 또는 얼굴의 깊이 이미지가 인체 동작 또는 얼굴 표정 모델링에, 인체에 대한 이진 형상 이미지 및 얼굴 표정 정보에 대한 RGB 이미지 보다 우선적으로 사용된다.
상기 도 2를 참조하면, 본 발명의 실시 예에 따른 인체 동작 또는 얼굴 표정 모델링 방법은, 첫 번째로, 입력 비디오 프레임들(인체 행동에 대한 깊이 및/또는 이진 형상 이미지, 또는 얼굴 표정에 대한 깊이 및/또는 RGB 이미지)을 획득한 다(202 단계), 모든 이미지의 집합은 모델링 및 동작 또는 표현을 인식하기 위한 피쳐 스페이스(feature space)를 생성하기 위해 사용된다. 먼저, 피쳐 추줄 과정(204)이 먼저 수행된다. 이후, 인식 과정(206)이 수행된다.
다른 동작 또는 표현의 이미지의 집합을 통한 PCA를 이용하여 원칙 요소(Principal components)를 획득한다(104a 단계). PCA 는 비디오 프레임들에서 인체 또는 얼굴의 전역 피처를 발견하기 위한 2차 통계 접근 방식(second order statistical approach)이다.
PCA 를 적용하기 전에, 모든 이미지 벡터가 행(in row)으로 표현된다. 그리고, 상기 <수학식 1>에 따라 제로 평균 벡터(zero mean vectors)로 변환된다.
PCA 는 원 데이터를 낮은 차원의 피쳐 스페이스로 만드는데 흔히 쓰이는 방식이다.
기본적인 접근 방식은 코베리언스 데이터 행렬(Q)의 아이겐 벡터를 계산하는 것이고, 이후, 탑 아이겐벡터(top eigenvectors)의 선형 조합(linear combination)을 이용하여 근사값(approximation)이 구해진다.
샘플 깊이 및/또는 이진 형상 이미지 및 깊이 및/또는 RGB 얼굴 이미지의 코베리언스 행렬과 코베리언스 행렬의 원칙 요소들은 상기 <수학식 2> 및 <수학식 3>과 같다. 여기에서 아이겐벡터는 전역 피처를 나타내는 원칙 요소이다.
패던 인식에 있어서 최근의 연구는 ICA를 보여준다. 상기 ICA는 더 PCA 보다 더 높은 우선 순위의 더 높은 차수의 통계 접근 방식(higher order statistical approach)이다.
만약, S가 베이시스 이미지의 집합이고, X가 입력 이미지의 집합인 경우, ICA 알고리즘은 통계적으로 독립적인 베이시스 이미지를 발견한다. 이후, X 와 S 사이의 관계가 상기 <수학식 4>를 통해 모델링된다.
ICA 알고리즘은 가중치 행렬(W)과 믹싱 행렬(R)의 역행렬을 학습하고, 독립적인 베이시스 이미지(S)의 집합을 복구하기 위해 사용된다. 이미지들은 변수들로 나타내지고, 연관 이미지들의 픽셀 값들은 변수들의 관측값(observations)이다.
ICA 를 적용하기 전에, PCA는 토탈 훈련 이미지 데이터의 차원을 줄이기 위해 사용된다. PCA와는 다르게, ICA 베이시스 이미지는 전역보다 지역적인 피쳐 정보에 집중한다. ICA 알고리즘은 탑 m 원칙 요소(top m principal components) ET m 상에서 수앵되고(204b 단계), 따라서, S의 행에 있는 m 독립 베이시스 이미지는 상기 <수학식 5>, <수학식 6>, <수학식 7>과 같다.
추가적으로, ICA 접근방식은 LDA에 의해 확장된다(204c 단계). LDA는 2차 통계 접근방식이고, 감독된 분류 방식(supervised classification)이고, 클래스 특정 정보를 사용하여 클래스 스캐터 정보 사이 또는 이내의 비율을 최대화하는 방법이다.
다른 클래스 중에서 가장 좋은 구별점(discrimination)을 생성하기 위한 근원적인 스페이스에서의 벡터를 찾는다. 이는 피쳐 추출 및 차원 감소에 있어서 잘 알려져 있다.
최대 구별점을 획득하기 위해서, 클래스 사이의 거리와 클래스 내부의 거리 의 비율이 최대가 되기 위한 더 낮은 차원의 스페이스로 데이터를 프로젝션한다. 클래스 내 SW, 클래스 사이 SB 에 대해, 상기 <수학식 9>와 <수학식 10>을 이용하여 클래스 스캐터링 비교가 수행된다.
최적의 구별 행렬 Dopt 는 클래스 스캐터 행렬의 내 및 클래스 스캐터 행렬 사이의 디터미넌트(determinant)의 비율의 최대화로부터 선택되고 상기 <수학식 11>과 같다.
따라서, 추출된 다른 동작의 깊이 및/또는 형상 이미지 또는 다른 얼굴 표정의 깊이 및/또는 RGB 이미지의 추출된 ICA 표현은 LDA에 의해 확장될 수 있다. ICA의 LDA를 사용하는 피쳐 백터는 상기 <수학식 12>에 따라 표현될 수 있다.
백터 양자화 알고리즘을 사용하는 코드북이 생성된다(206a 단계). 코드북은 인체 동작 또는 얼굴 표정 비디오 클립의 프레엄에서 디스크리트한 심볼들을 생성하는데 유용하다.
여기에 관해서, LBG(Linde, Buzo, and Gray) 클러스터링 알고리즘을 사용하는 것이 선호된다. 첫 번째로, LBG에서 전체 데이터 집합의 센트로이드(centroid)을 스플리팅(splitting)함으로써 초기화가 수행된다. 이는 하나의 코드북으로부터 시작하여 재귀적으로 2개의 코드워드로 스플리팅하는 것을 나타낸다.
스플리팅 후에, 센트로이드의 최적화가 왜곡을 줄이기 위해 수행된다. 왜냐하면, 이는 이진 스플리팅 방법들을 따르기 때문이다. 코드북 크기는 2 승이(power of two) 된다.
별개의(distinct) HMM의 훈련을 기반으로, 각각의 인체 동작 또는 얼굴 표정이 표현된다(206b 단계). 인체 동작 또는 얼굴 표정 모델링에 대해, HMM을 사용하는 것이 선호된다. 상기 HMM은 인식을 위한 probabilistic 학습 능력을 가진 연속적 이미지 데이터를 다룰 수 있다.
HMM은 확률적인 프로세스(stochastic process)이다. 근원적인 확률적인 프로세스는 일반적으로 관측 불가능(not observable)하지만, 관측 심볼을 생성하는 다른 확률적인 프로세서의 집합을 통해 관측가능하다. 본 발명은 인체 동작 및 얼굴 표정 인식을 위해 HMM을 사용한다.
HMM은 천이(transitions)에 의해 연결된 유한 상태의 모음(collection)이다. HMM의 모든 상태는 2가지 타입의 확률에 의해 설명될 수 있다. 상기 2가지 타입의 확률은 천이 확률 및 심볼 관측 확률이다. 일반적인 HMM은 상기 <수학식 13>과 같이 표현된다.
만약, 동작 또는 얼굴 표현의 수가 N 이면, N 훈련 모델 중 사전(H1, H2, ..., HN)이 존재하고, A 및 B는 Baum-Welch 훈련 추정 알고리즘에 의해 반복적으로 훈련될 수 있다.
상태의 수는 경험적으로 결정될 수 있고, 상태의 수가 증가하는 것은 전체적인 인체 동작 또는 얼굴 표정 인식률에 큰 영향을 미치지 않는다.
본 발명의 실시 예에서, 동작 또는 얼굴 표정을 모델링하기 위해 선택된 4가지 상태의 HMM의 예가 설명될 것이다. 또한, HMM의 각 상태로부터의 천이 확률과 동일한 값이 본 발명의 실시 예에서 설명될 것이다.
도 3a와 도 3b 및 도 3c는 본 발명의 실시 예에 따른 걷기, 뛰기, 줄넘기, 복싱, 앉기/서기 등의 서로 다른 동작의 깊이 이미지의 5가지 클래스에 대한 샘플 피쳐 추출 출력을 도시한 것이다.
도 3a는 걷기 동작의 깊이 이미지 시권스를 나타내고, 도 3b는 깊이 이미지에 대한 걷기, 뛰기, 줄넘기, 복싱, 앉기/서기 등의 서로 다른 동작의 원칙 요소를 나타낸 것으로, 전역적인 피쳐 특징을 나타낸다.
도 3c는 깊이 이미지에 대한 걷기, 뛰기, 줄넘기, 복싱, 앉기/서기 등의 서로 다른 동작의 독립 요소를 나타낸 것으로 팔, 다리 등과 같은 인체의 로컬 파트를 나타낸다. 상기 도 3c는 깊이 이미지의 예를 나타낸다.
도 4a, 도 4b 및 도 4c는 본 발명의 실시 예에 따른 분노, 즐거운, 슬픔, 놀람 등의 서로 다른 얼굴 표정 깊이 이미지의 4가지 클래스에 대한 샘플 피쳐 추출 출력을 도시한 것이다.
도 4a는 얼굴 표정의 깊이 이미지 시퀀스를 나타낸다. 도 4b는 깊이 얼굴 이미지의 원칙 요소 피쳐(전역적인 피쳐)를 나타내고, 도 4c는 깊이 얼굴 이미지의 독립 요소 피쳐를 나타낸 것으로, 입, 눈썹 등과 같은 인체의 로컬 파트를 나타낸다
도 5a는 본 발명의 실시 예에 따른 걷는 인체 동작에 대한 HMM의 훈련전 상태 사이의 기본 구조 및 천이 확률을 도시한 도면이고, 도 5b는 본 발명의 실시 예에 따른 걷는 인체 동작에 대한 HMM의 훈련후 상태 사이의 기본 구조 및 천이 확률을 도시한 도면이다. 도 5a 와 도 5b 는 왼쪽에서 오른쪽으로, 4가지 상태 걷기 HMM 구조를 나타내고, 상태 사이의 천이 확률을 단게별로(as a instance)로 나타낸 것이다.
상기 도 5a 를 참조하면, 훈련 전의 걷기 동작에 대한 HMM의 예를 도시한 것이다, 여기에서는 어떠한 상태에서라도 총 천이 확률은 1이다. 그리고, 확률들은 훈련 전에 균일하게 분포되어 있다(uniformly distributed).
상태 1로부터의 상태 1로의 천이 확률, 상태 2 및 상태 3로의 천이 확률은 모두 균일하게 0.333이다. 그리고 상태 2로부터 상태 3으로의 확률과 상태 2로부터 상태 4로의 확률도 0.333으로 설정된다. 상태 3으로부터는 단지 2개의 천이만이 있기 때문에, 각각의 확률은 0.5가 된다.그리고, 상태 4부터 상태 4로의 천이 확률은 1이다.
결과적으로, 다른 동작의 HMM의 천이 확률은 같은 방법에 따라 초기화된다. 추가적으로 관측 심볼 확률이 훈련 전에 균일하게 분포된다는 것을 알 수 있다.
상기 도 5b 를 참조하면 훈련 후의 걷기 모델을 각각 나타낸 것으로, 상태 사이의 천이 확률은 이미지 벡터의 ICA 피처의 LDA의 벡터 양자화 후에 획득한 디스크리트 관측 훈련 심볼 시퀀스를 기반으로 한 훈련에 의존한다.
마지박 상태로서, 예를 들면, 상태 4는 어떠한 상황에서도 상태 4로의 하나 의 천이만이 가능하다. 따라서, 마지막 상태로부터 천이 확률만이 훈련 후에 항상 1이 된다. 전술한 설명들은 얼굴 표정 HMM에도 적용 가능하다.
상태들로부터의 관측 심볼의 확률은 동작 또는 표정 HMM의 훈련 프로세스 하에서 훈련 심볼 시퀀스를 기반으로 파라미터 추정 후에 획득된다. 전술한 인식 방법에 따라서 복잡한 인체 동작 또는 표정들은 인식을 위해 효율적으로 모델링된다.
이제, 인체 동작 또는 얼굴 표정 인식 방법이 설명될 것이다.
도 6은 본 발명의 실시 예에 따른 인체 동작을 인식하기 위한 원칙 스텝(principal steps)을 도시한 것이다.
상기 도 6을 참조하면, 첫 번째로, 인식할 동작이 포함된 비디오 프레임이 입력된다(602 단계). 이후, 상기 동작이 포함된 비디오 프레임에서 깊이 및/또는 이진 형상 정보 ROI(Region of Interest)를 획득한다(604 단계).
깊이 및/또는 이진 형상 이미지의 테스팅 시퀀스가 가용하다면, 상기 테스팅 시퀀스는 이후의 과정을 위해서 행 벡터로 변환된다. 이후, LDA, ICA 그리고 PCA 피쳐 스페이스를 이용하여 피쳐 백터를 획득한다(606 단계).
이후, 심볼 시퀀스가 각각의 동작을 인식하기 위해 비디오 클립에서 깊이 및/또는 형상 이미지의 피쳐로부터 획득된다(608 단계). 여기에서, 피쳐 벡터가 획득된다면, 각각의 피쳐 벡터와 코드북 벡터 사이의 거리 측정의 도움과 함께 양자화된다. 코드북은 모든 동작 또는 표정의 이미지 벡터 상에서 벡터 양자화 알고리즘의 도움에 의해 설계될 수 있다.
피쳐 벡터에 있어서, 코드북에서 코드워드 벡터의 인덱스 번호는 심볼로서 선택되어 진다. 상기 심볼은 해당 피쳐 벡터로부터 최소 거리에 있다. 심볼 시퀀스를 획득한 후에는, 비디오 클립에서의 동작이 수행된다(610 단계). 즉, 적합한 모델을 선택한다.
만약, 클립에서 T 번호의 프레임이 존재한다면, T 번호의 깊이 및/또는 형상 이미지가 존재할것이다. 그리고 T 번호의 피쳐(F1, F2,...,FT)도 존재할 것이다.
벡터 양자와 이후에, T 디스크리트 심볼(각각의 프레임당 하나의 심볼)이 O={o1, o2, ..., oT}와 같이 획득된다. 심볼 시퀀스 O 는 모든 HMM 상에서, N 동작에서의 N 훈련 심볼의 사전(H1, H2, ...HN)에 있는 P(O|H)에 따라 모델의 우도 확률(likelihood probabilitiy)을 계산하기 위해서 적용된다. 최대 우도(maximum likelihood)를 가지는 모델은 동작 비디오 클립을 테스트하기 위한 하나의 대표가 된다. 이를 이용하여 테스팅 비디오 클립 내의 동작이 인식될 수 있다.
HMM이 주어진 심볼 시퀀스의 우도는 포워드 알고리즘(forward algorithm)에 의해 계산된다. 따라서, 시간 t에서 관측 시퀀스(O)의 우도는 포워드 변수α를 이용하여 획득된다. 모델 H는 하기 수식과 같다.
Figure 112009034062716-PAT00020
이와 같이, 비디오 클립에서 복잡한 인체 동작을 인식하는 것이 가능하다.
도 7은 본 발명의 실시 예에 따른 인체 동작 또는 얼굴 표정을 인식하기 위한 원칙 스텝(principal steps)을 도시한 것이다. 상기 도 7은 상기 도 6에 얼굴 표정의 경우를 추가적으로 고려한 것이다.
상기 도 7을 참조하면, 첫 번째로, 테스팅 비디오 클립의 각각의 프레임으로부터, 인체의 깊이 및/또는 이진 형상 정보를 포함하는 이미지 또는 얼굴의 깊이 및/또는 RGB 이미지가 획득된다(702 단계). 이미지 시퀀스는 연속적인 이미지들을 나타낸다.
테스팅 이미지 시퀀스가 가용하다면, 상기 테스팅 시퀀스는 이후의 과정을 위해서 행 벡터로 변환된다. 이후, LDA, ICA 그리고 PCA 피쳐 스페이스를 이용하여 피쳐 백터를 획득한다(704 단계). 즉, 표현(또는 표정) 프로젝션을 구한다.
이후, 심볼 시퀀스(또는 Symbolized temporal signature)가 각각의 동작을 인식하기 위해 비디오 클립에서 깊이 및/또는 형상 이미지의 피쳐로부터 획득된다(706 단계).
여기에서, 피쳐 벡터가 획득된다면, 각각의 피쳐 벡터와 코드북 벡터 사이의 거리 측정의 도움과 함께 양자화된다. 코드북은 모든 동작의 이미지 벡터 상에서 벡터 양자화 알고리즘에 의해 설계될 수 있다. 피쳐 벡터에 있어서, 코드북에서 코드워드 벡터의 인덱스 번호는 심볼로서 선택되어 진다. 상기 심볼은 해당 피쳐 벡터로부터 최소 거리에 있다.
심볼 시퀀스를 획득한 후에는, 비디오 클립에서의 동작이 수행된다(708 단 계). 즉, 적합한 모델을 선택한다.
만약, 클립에서 T 번호의 프레임이 존재한다면, T 번호의 이미지가 존재할것이다. 그리고 T 번호의 피쳐(F1, F2,...,FT)도 존재할 것이다.
벡터 양자와 이후에, T 디스크리트 심볼(각각의 프레임당 하나의 심볼)이 O={o1, o2, ..., oT}와 같이 획득된다. 심볼 시퀀스 O 는 모든 HMM 상에서, N 동작에서의 N 훈련 심볼의 사전에 있는 P(O|λ)에 따라 모델의 우도 확률(likelihood probabilitiy)을 계산하기 위해서 적용된다.
최대 우도(maximum likelihood)를 가지는 모델은 동작 비디오 클립을 테스트하기 위한 하나의 대표가 된다. 이를 이용하여 테스팅 비디오 클립 내의 동작 또는 얼굴 표정이 인식될 수 있다.
HMM이 주어진 심볼 시퀀스의 우도는 포워드 알고리즘(forward algorithm)에 의해 계산된다. 따라서, 시간 t에서 관측 시퀀스(O)의 우도는 포워드 변수α를 이용하여 획득된다. 모델 H는 상기 <수학식 14>와 같다.
이와 같이, 비디오 클립에서 복잡한 인체 동작 또는 얼굴 표정을 인식하는 것이 가능하다. 특히, 본 발명은 인체 동작 또는 표정을 인체 또는 얼굴을 부분으로 나누지(segmenting) 않고서도 인식하는 것이 가능하다.
본 발명을 정리하면 하기와 같다. 먼저, 본 발명의 인체 동작 또는 표정 인식 모델링 방법은 하기와 같이 구성된다.
비디오 클립에서 추출한 인체 동작 또는 얼굴 표정의 깊이 및/또는 이진 형상 이미지 또는 RGB 얼굴 이미지의 원칙 요소를 획득하는 과정, 상기 원칙 요소를 기반으로 ICA 표현을 획득하는 과정, 상기 ICA 표현을 기반으로 LDA를 통해 피쳐를 결정하는 과정, 벡터 양자화를 이용하여 코드북을 획득하는 과정, 상기 비디오 클립에서 관측 심볼 시퀀스를 결정하는 과정, 그리고 상태 천이 및 관측 행렬을 기반으로 HMM을 이용하여 인체 동작 또는 얼굴 표정을 학습하는 과정으로 구성된다.
여기에서, 비디오 클립에서 추출된 인체 동작 또는 얼굴 표정의 깊이 및/또는 이진 형상 이미지 또는 RGB 얼굴 이미지의 원칙 요소를 획득하는 과정은 인체 동작 또는 얼굴 표정의 깊이 및/또는 이진 형상 이미지 또는 RGB 얼굴 이미지의 인체 표현 또는 얼굴 표정 표현을 기반으로 전체 이미지를 대표할 수 있는 적어도 하나의 원칙 요소를 획득하는 과정을 나타낸다.
여기에서, 원칙 요소를 기반으로 ICA 표현을 획득하는 과정은 상기 원칙 요소에서 서로 독립적인 ICA 표현을 획득하는 과정으로써, ICA 표현은 팔, 다리, 코, 눈 등에 집중한다.
ICA 표현을 기반으로 LDA를 통해 피쳐를 결정하는 과정은 인체 동작의 깊이 및/또는 이진 형상 이미지 또는 RGB 얼굴 이미지에서 ICA 표현을 서로 구분하기 위해 상기 ICA 표현의 특징을 강조하는 과정으로써. LDA 기법은 fisherface 방법이라고도 불리운다.
여기에서, 벡터 양자화를 이용하여 코드북을 획득하는 과정은 상기 LDA를 통해 결정한 피쳐들을 벡터 양자화를 이용하여 적어도 하나의 그룹으로 분류하는 과 정과 분류한 그룹에 코드를 부여하는 과정을 나타낸다.
여기에서, 비디오 클립에서 관측 심볼 시퀀스를 결정하는 과정은, 상기 코드북에 있는 코드를 이용하여 상기 비디오 클립이 어떠한 코드로 구성되고, 어떠한 코드 순서로 배열되는 지를 결정하는 과정으로써 예를 들어, 걷는 동작은 어느 그룹의 특성들이 어떠한 순서(observation symbol sequence)로 진행이 되는 지로 나타내다. 즉, 걷는 동작의 동영상 정보는 1, 6, 10, 25 특징그룹으로 이루어 지고, 이 들 그룹이 시간상 6 -> 10 ->1 -> 25의 순서로 나타내게 된다.
여기에서, 상태 천이 및 관측 행렬을 기반으로 HMM을 이용하여 인체 동작또는 얼굴 표정을 학습하는 과정은 각각의 인체 동작 또는 얼굴 표정마다 HMM을 생성하고, 상기 관측 심볼 시퀀스를 이용하여 각각의 HMM을 학습하는 과정을 나타낸다.
그리고, 본 발명의 인체 동작 또는 얼굴 표정 인식 방법은 하기와 같이 구성된다.
즉, 비디오 클립의 인체 동작 또는 얼굴 표정의 깊이 및/또는 이진 형상 이미지 또는 RRGB 얼굴 이미지에서 피쳐 벡터를 획득하는 과정, 상기 비디오 클립에서 관측 심볼 시퀀스를 획득하는 과정, 사전에 존재하는 모든 동작 또는 얼굴 표정 모델 중에서 우도 확률을 최대화하는 인체 동작 또는 얼굴 표정 모델을 결정하는 과정으로 구성된다.
여기서, 상기 사전에 존재하는 모든 동작 모델 중에서 우도 확률을 최대화하는 인체 동작 또는 얼굴 표정 모델을 결정하는 과정은, 인체 동작 또는 얼굴 표정 HMM 사전으로부터 우도 확률을 최대화하는 인체 동작 또는 얼굴 표정 모델을 결정 하는 과정을 나타낸다.
추가적으로, 본 발명에 따라, 인체 동작 또는 인체 얼굴 표정 모델링과 인식 방식은 컴퓨터상에서 프로그래밍 언어의 도움을 받아 코딩되고 실행가능하다. 추가적으로, 프로그램은 컴퓨터에서 판독가능한 미디어에 저장될 수 있다.
도 8은 본 발명의 실시 예에 따른 인체 동작 또는 얼굴 표정을 인식하기 위한 장치의 블록 구성을 도시한 도면이다.
상기 도 8을 참조하면, 상기 장치는 입력부(810), 출력부(815), 제어부(820), 저장부(830), 및 인식부(840)를 포함하여 구성된다.
상기 입력부(810)은 데이터를 제공받기 위한 입력 포트이고, 특히 본 발명에 따라 입력되는 데이터는 비디오 데이터가 될 수 있다.
상기 출력부(815)는 상기 장치가 판단한 동작 또는 얼굴 표정 등을 출력할 수 있다. 상기 출력부(815)는 문서로 출력할 수도 있고, 화면상에 출력될 수도 있다.
상기 제어부(820)는 상기 장치의 전반적인 동작을 제어한다. 특히, 본 발명에 따라 상기 인식부(840)를 제어한다.
상기 저장부(830)는 상기 장치의 전반적인 동작을 제어하기 위한 프로그램 및 프로그램 수행 중 발생하는 일시적인 데이터를 저장하는 기능을 수행한다. 특히 본 발명에 따라, 비디오 클립을 저장하거나 출력 데이터를 저장할 수 있다.
상기 인식부(840)는 전술한 인체 동작 또는 표정 인식을 수행한다. 즉, 상기 인식부(840)은 전술한 바와 같이 입력된 RGB 이미지 또는 깊이 이미지 또는 이진 형상 이미지로부터 펴쳐 추출과정 및 인식 과정을 수행한다.
상기 인식부(840)는 상기 피쳐 추출 과정에서, 해당 이미지 시퀀스로부터 원칙 요소, 독립 요소를 획득하고, 독립 요소의 가장 좋은 디스크리미넌트 피쳐를 획득한다.
상기 인식부(840)는 상기 인식 과정에서, 벡터 양자화 과정과, 훈련 HMM을 이용하여 인체 동작 또는 얼굴 표정을 인식한다.
상술한 블록 구성에서, 상기 제어부(820)는 상기 인식부(840)의 기능을 수행할 수 있다. 본 발명에서 이를 별도로 구성하여 도시한 것은 각 기능들을 구별하여 설명하기 위함이다.
따라서, 실제로 제품을 구현하는 경우에 상기 인식부(840)의 기능 모두를 상기 제어부(820)에서 처리하도록 구성할 수도 있으며, 상기 기능 중 일부만을 상기 제어부(820)에서 처리하도록 구성할 수도 있다.
도 9a는 본 발명의 실시 예에 따른 깊이 및 이진 형상 이미지 기반의 인체 동작 인식의 결과를 도시한 도면이고, 도 9b는 본 발명의 실시 예에 따른 본 발명의 접근 방식을 사용한 깊이 및 RGB 얼굴 이미지 기반의 얼굴 표정 인식의 결과를 도시한 도면이다.
상기 도 9a 및 도 9b를 참조하면, 본 발명에 따라, 깊이 이미지를 사용할 경우에 인식률이 더 높음을 알 수 있다.
전술한 설명에서, 벡터 양자화 및 HMM과 같은 시간 연속적인 정보 기반의 인식 엔진의 병합에서의 깊이 및/또는 이진 형상 정보 기반의 인체 표현 또는 깊이 및/또는 RGB 정보 기반의 인체 얼굴 표현 및 피쳐 추출은 효율적인 인체 동작 또는 얼굴 표정 모델링 및 인식 시스템을 생성할 수 있음은 명확하다.
전술한 본 발명에 따라, 서로 다른 인체 동작 또는 표정은 용이하게 모델링될 수 있고, 인체 동작 또는 표정을 인체 또는 얼굴을 부분으로 나누지(segmenting) 않고서도 용이하게 모델링하고 인식하는 것이 가능하다.
한편 본 발명의 상세한 설명에서는 구체적인 실시 예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시 예에 국한되어 정해져서는 아니 되며 후술하는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.
도 1은 본 발명의 실시 예에 따른 인체 동작 또는 표정 모델링 방법의 주요 단계를 도시한 흐름도,
도 2는 본 발명의 실시 예에 따른 인체 동작 또는 표정 모델링 방법의 주요 단계를 도시한 흐름도,
도 3a는 본 발명의 실시 예에 따른 걷기 동작의 깊이 이미지 시권스를 나타낸 도면,
도 3b는 본 발명의 실시 예에 따른 걷기, 뛰기, 줄넘기, 복싱, 앉기/서기와 같은 5가지의 동작 클래스의 깊이 이미지에 대한 원칙 요소 피처를 나타낸 도면,
도 3c는 본 발명의 실시 예에 따른 걷기, 뛰기, 줄넘기, 복싱, 앉기/서기와 같은 5가지의 동작 클래스의 깊이 이미지에 대한 독립 요소 피처를 나타낸ㄷ도면,
도 4a는 본 발명의 실시 예에 따른 분노, 즐거운, 슬픔, 놀람 등의 서로 다른 얼굴 표정 깊이 이미지 시퀀스를 도시한 도면,
도 4b는 본 발명의 실시 예에 따른 분노, 즐거운, 슬픔, 놀람 등의 서로 다른 얼굴 표정 깊이 이미지의 원칙 요소 피쳐를 도시한 도면,
도 4c는 본 발명의 실시 예에 따른 분노, 즐거운, 슬픔, 놀람 등의 서로 다른 얼굴 표정 깊이 이미지 시퀀스의 독립 요소를 도시한 도면,
도 5a는 본 발명의 실시 예에 따른 걷는 인체 동작에 대한 HMM의 훈련전 상태 사이의 기본 구조 및 천이 확률을 도시한 도면,
도 5b는 본 발명의 실시 예에 따른 걷는 인체 동작에 대한 HMM의 훈련후 상 태 사이의 기본 구조 및 천이 확률을 도시한 도면,
도 6은 본 발명의 실시 예에 따른 인체 동작을 인식하기 위한 원칙 스텝(principal steps)을 도시한 도면,
도 7은 본 발명의 실시 예에 따른 인체 동작 또는 얼굴 표정을 인식하기 위한 원칙 스텝(principal steps)을 도시한 도면,
도 8은 본 발명의 실시 예에 따른 인체 동작 또는 얼굴 표정을 인식하기 위한 장치의 블록 구성을 도시한 도면,
도 9a는 본 발명의 실시 예에 따른 깊이 및 이진 형상 이미지 기반의 인체 동작 인식의 결과를 도시한 도면, 및,
도 9b는 본 발명의 실시 예에 따른 본 발명의 접근 방식을 사용한 깊이 및 RGB 얼굴 이미지 기반의 얼굴 표정 인식의 결과를 도시한 도면.

Claims (40)

  1. 인체 동작 모델링 방법에 있어서,
    비디오 클립에서 추출한 인체 동작의 깊이 및/또는 이진 형상 이미지의 원칙 요소를 획득하는 과정과,
    상기 원칙 요소를 기반으로 ICA 표현을 획득하는 과정과,
    상기 ICA 표현을 기반으로 LDA를 통해 피쳐를 결정하는 과정과,
    벡터 양자화를 이용하여 코드북을 획득하는 과정과,
    상기 비디오 클립에서 관측 심볼 시퀀스를 결정하는 과정과,
    상태 천이 및 관측 행렬을 기반으로 HMM을 이용하여 인체 동작을 학습하는 과정을 포함하는 것을 특징으로 하는 방법.
  2. 제 1항에 있어서,
    상기 비디오 클립에서 추출된 인체 동작의 깊이 및/또는 이진 형상 이미지의 원칙 요소를 획득하는 과정은,
    깊이 및/또는 이진 형상 이미지의 인체 표현을 기반으로 전체 이미지를 대표할 수 있는 적어도 하나의 원칙 요소를 획득하는 과정을 포함하는 것을 특징으로 하는 방법.
  3. 제 1항에 있어서,
    상기 원칙 요소를 기반으로 ICA 표현을 획득하는 과정은,
    상기 원칙 요소에서 서로 독립적인 ICA 표현을 획득하는 과정을 포함하는 것을 특징으로 하는 방법.
  4. 제 1항에 있어서,
    상기 ICA 표현을 기반으로 LDA를 통해 피쳐를 결정하는 과정은,
    깊이 및/또는 이진 형상 이미지에서 ICA 표현을 서로 구분하기 위해 상기 ICA 표현의 특징을 강조하는 과정을 포함하는 것을 특징으로 하는 방법.
  5. 제 1항에 있어서,
    상기 벡터 양자화를 이용하여 코드북을 획득하는 과정은,
    상기 LDA를 통해 결정한 피쳐들을 벡터 양자화를 이용하여 적어도 하나의 그룹으로 분류하는 과정과,
    분류한 그룹에 코드를 부여하는 과정을 포함하는 것을 특징으로 하는 방법.
  6. 제 1항에 있어서,
    상기 비디오 클립에서 관측 심볼 시퀀스를 결정하는 과정은,
    상기 코드북에 있는 코드를 이용하여 상기 비디오 클립이 어떠한 코드로 구성되고, 어떠한 코드 순서로 배열되는 지를 결정하는 과정을 포함하는 것을 특징으로 하는 방법.
  7. 제 1항에 있어서,
    상기 상태 천이 및 관측 행렬을 기반으로 HMM을 이용하여 인체 동작을 학습하는 과정은,
    각각의 인체 동작마다 HMM을 생성하는 과정과,
    상기 관측 심볼 시퀀스를 이용하여 각각의 HMM을 학습하는 과정을 포함하는 것을 특징으로 하는 방법.
  8. 제 1항에 있어서,
    상기 비디오 클립은,
    상태 천이와 심볼 관측 행렬을 기반으로한 HMM을 이용하여 표현되는 것을 특징으로 하는 방법.
  9. 인체 동작 인식 방법에 있어서,
    비디오 클립의 인체 동작의 깊이 및/또는 이진 형상 이미지에서 피쳐 벡터를 획득하는 과정과,
    상기 비디오 클립에서 관측 심볼 시퀀스를 획득하는 과정과,
    사전에 존재하는 모든 동작 모델 중에서 우도 확률을 최대화하는 인체 동작 모델을 결정하는 과정을 포함하는 것을 특징으로하는 방법.
  10. 제 9항에 있어서,
    상기 사전에 존재하는 모든 동작모델 중에서 우도 확률을 최대화하는 인체 동작 모델을 결정하는 과정은,
    인체 동작 HMM 사전으로부터 우도 확률을 최대화하는 인체 동작 모델을 결정하는 과정을 포함하는 것을 특징으로 하는 방법.
  11. 얼굴 표정 모델링 방법에 있어서,
    비디오 클립에서 추출한 얼굴 표정의 깊이 및/또는 RGB 얼굴 이미지의 원칙 요소를 획득하는 과정과,
    상기 원칙 요소를 기반으로 ICA 표현을 획득하는 과정과,
    상기 ICA 표현을 기반으로 LDA를 통해 피쳐를 결정하는 과정과,
    벡터 양자화를 이용하여 코드북을 획득하는 과정과,
    상기 비디오 클립에서 관측 심볼 시퀀스를 결정하는 과정과,
    상태 천이 및 관측 행렬을 기반으로 HMM을 이용하여 얼굴 표정을 학습하는 과정을 포함하는 것을 특징으로 하는 방법.
  12. 제 11항에 있어서,
    상기 비디오 클립에서 추출된 얼굴 표정의 깊이 및/또는 RGB 얼굴 이미지의 원칙 요소를 획득하는 과정은,
    깊이 및/또는 RGB 얼굴 이미지 기반의 얼굴 표현을 기반으로 전체 이미지를 대표할 수 있는 적어도 하나의 원칙 요소를 획득하는 과정을 포함하는 것을 특징으로 하는 방법.
  13. 제 11항에 있어서,
    상기 원칙 요소를 기반으로 ICA 표현을 획득하는 과정은,
    상기 원칙 요소에서 서로 독립적인 ICA 표현을 획득하는 과정을 포함하는 것을 특징으로 하는 방법.
  14. 제 11항에 있어서,
    상기 ICA 표현을 기반으로 LDA를 통해 피쳐를 결정하는 과정은,
    깊이 및/또는 RGB 얼굴 이미지에서 ICA 표현을 서로 구분하기 위해 상기 ICA 표현의 특징을 강조하는 과정을 포함하는 것을 특징으로 하는 방법.
  15. 제 11항에 있어서,
    상기 벡터 양자화를 이용하여 코드북을 획득하는 과정은,
    상기 LDA를 통해 결정한 피쳐들을 벡터 양자화를 이용하여 적어도 하나의 그룹으로 분류하는 과정과,
    분류한 그룹에 코드를 부여하는 과정을 포함하는 것을 특징으로 하는 방법.
  16. 제 11항에 있어서,
    상기 비디오 클립에서 관측 심볼 시퀀스를 결정하는 과정은,
    상기 코드북에 있는 코드를 이용하여 상기 비디오 클립이 어떠한 코드로 구성되고, 어떠한 코드 순서로 배열되는 지를 결정하는 과정을 포함하는 것을 특징으로 하는 방법.
  17. 제 11항에 있어서,
    상기 상태 천이 및 관측 행렬을 기반으로 HMM을 이용하여 얼굴 표정을 학습하는 과정은,
    각각의 얼굴 표정마다 HMM을 생성하는 과정과,
    상기 관측 심볼 시퀀스를 이용하여 각각의 HMM을 학습하는 과정을 포함하는 것을 특징으로 하는 방법.
  18. 제 11항에 있어서,
    상기 비디오 클립은,
    상태 천이와 심볼 관측 행렬을 기반으로한 HMM을 이용하여 표현되는 것을 특징으로 하는 방법.
  19. 얼굴 표정 인식 방법에 있어서,
    비디오 클립의 얼굴 표정의 깊이 및/또는 RGB 얼굴 이미지에서 피쳐 벡터를 획득하는 과정과,
    상기 비디오 클립에서 관측 심볼 시퀀스를 획득하는 과정과,
    사전에 존재하는 모든 얼굴 표정 모델 중에서 우도 확률을 최대화하는 얼굴 표정 모델을 결정하는 과정을 포함하는 것을 특징으로 하는 방법.
  20. 제 19항에 있어서,
    상기 사전에 존재하는 모든 얼굴 표정 모델 중에서 우도 확률을 최대화하는 얼굴 표정 모델을 결정하는 과정은,
    얼굴 표정 HMM 사전으로부터 우도 확률을 최대화하는 얼굴 표정 모델을 결정하는 과정을 포함하는 것을 특징으로 하는 방법.
  21. 인체 동작 모델링 장치에 있어서,
    비디오 클립을 입력받는 입력부와,
    상기 비디오 클립에서 추출한 인체 동작의 깊이 및/또는 이진 형상 이미지의 원칙 요소를 획득하고, 상기 원칙 요소를 기반으로 ICA 표현을 획득하고, 상기 ICA 표현을 기반으로 LDA를 통해 피쳐를 결정하고, 벡터 양자화를 이용하여 코드북을 획득하고, 상기 비디오 클립에서 관측 심볼 시퀀스를 결정하고, 상태 천이 및 관측 행렬을 기반으로 HMM을 이용하여 인체 동작을 학습하는 제어부와,
    학습 결과를 출력하는 출력부를 포함하는 것을 특징으로 하는 장치.
  22. 제 21항에 있어서,
    상기 제어부는,
    깊이 및/또는 이진 형상 이미지의 인체 표현을 기반으로 전체 이미지를 대표할 수 있는 적어도 하나의 원칙 요소를 획득함으로써,
    상기 비디오 클립에서 추출된 인체 동작의 깊이 및/또는 이진 형상 이미지의 원칙 요소를 획득하는 것을 특징으로 하는 장치.
  23. 제 21항에 있어서,
    상기 제어부는,
    상기 원칙 요소에서 서로 독립적인 ICA 표현을 획득함으로써,
    상기 원칙 요소를 기반으로 ICA 표현을 획득하는 것을 특징으로 하는 장치.
  24. 제 21항에 있어서,
    상기 제어부는,
    깊이 및/또는 이진 형상 이미지에서 ICA 표현을 서로 구분하기 위해 상기 ICA 표현의 특징을 강조함으로써,
    상기 ICA 표현을 기반으로 LDA를 통해 피쳐를 결정하는 것을 특징으로 하는 장치.
  25. 제 21항에 있어서,
    상기 제어부는,
    상기 LDA를 통해 결정한 피쳐들을 벡터 양자화를 이용하여 적어도 하나의 그룹으로 분류하고 분류한 그룹에 코드를 부여함으로써,
    상기 벡터 양자화를 이용하여 코드북을 획득하는 것을 특징으로 하는 장치.
  26. 제 21항에 있어서,
    상기 제어부는,
    상기 코드북에 있는 코드를 이용하여 상기 비디오 클립이 어떠한 코드로 구성되고, 어떠한 코드 순서로 배열되는 지를 결정함으로써 상기 비디오 클립에서 관측 심볼 시퀀스를 결정하는 것을 특징으로 하는 장치.
  27. 제 21항에 있어서,
    상기 제어부는,
    각각의 인체 동작마다 HMM을 생성하고, 상기 관측 심볼 시퀀스를 이용하여 각각의 HMM을 학습함으로써 상기 상태 천이 및 관측 행렬을 기반으로 HMM을 이용하 여 인체 동작을 학습하는 것을 특징으로 하는 장치.
  28. 제 21항에 있어서,
    상기 비디오 클립은,
    상태 천이와 심볼 관측 행렬을 기반으로한 HMM을 이용하여 표현되는 것을 특징으로 하는 장치.
  29. 인체 동작 인식 장치에 있어서,
    비디오 클립을 입력받는 입력부와,
    상기 비디오 클립에서 인체 동작의 깊이 및/또는 이진 형상 이미지에서 피쳐 벡터를 획득하고, 상기 비디오 클립에서 관측 심볼 시퀀스를 획득하고, 사전에 존재하는 모든 동작 모델 중에서 우도 확률을 최대화하는 인체 동작 모델을 결정하는 제어부와,
    결정 결과를 출력하는 출력부를 포함하는 것을 특징으로 하는 장치.
  30. 제 29항에 있어서,
    상기 제어부는,
    인체 동작 HMM 사전으로부터 우도 확률을 최대화하는 인체 동작 모델을 결정함으로써 상기 사전에 존재하는 모든 동작모델 중에서 우도 확률을 최대화하는 인체 동작 모델을 결정하는 것을 특징으로 하는 장치.
  31. 얼굴 표정 모델링 장치에 있어서,
    비디오 클립을 입력받는 입력부와,
    상기 비디오 클립에서 추출한 얼굴 표정의 깊이 및/또는 RGB 얼굴 이미지의 원칙 요소를 획득하고, 상기 원칙 요소를 기반으로 ICA 표현을 획득하고, 상기 ICA 표현을 기반으로 LDA를 통해 피쳐를 결정하고, 벡터 양자화를 이용하여 코드북을 획득하고, 상기 비디오 클립에서 관측 심볼 시퀀스를 결정하고, 상태 천이 및 관측 행렬을 기반으로 HMM을 이용하여 얼굴 표정을 학습하는 제어부와,
    학습 결과를 출력하는 출력부를 포함하는 것을 특징으로 하는 장치.
  32. 제 31항에 있어서,
    상기 제어부는,
    깊이 및/또는 RGB 얼굴 이미지 기반의 얼굴 표현을 기반으로 전체 이미지를 대표할 수 있는 적어도 하나의 원칙 요소를 획득함으로써 상기 비디오 클립에서 추출된 얼굴 표정의 깊이 및/또는 RGB 얼굴 이미지의 원칙 요소를 획득하는 것을 특 징으로 하는 장치.
  33. 제 31항에 있어서,
    상기 제어부는,
    상기 원칙 요소에서 서로 독립적인 ICA 표현을 획득함으로써 상기 원칙 요소를 기반으로 ICA 표현을 획득하는 것을 특징으로 하는 장치.
  34. 제 31항에 있어서,
    상기 제어부는,
    깊이 및/또는 RGB 얼굴 이미지에서 ICA 표현을 서로 구분하기 위해 상기 ICA 표현의 특징을 강조함으로써 상기 ICA 표현을 기반으로 LDA를 통해 피쳐를 결정하는 것을 특징으로 하는 장치.
  35. 제 31항에 있어서,
    상기 제어부는,
    상기 LDA를 통해 결정한 피쳐들을 벡터 양자화를 이용하여 적어도 하나의 그룹으로 분류하고, 분류한 그룹에 코드를 부여함으로써 상기 벡터 양자화를 이용하 여 코드북을 획득하는 것을 특징으로 하는 장치.
  36. 제 31항에 있어서,
    상기 제어부는,
    상기 코드북에 있는 코드를 이용하여 상기 비디오 클립이 어떠한 코드로 구성되고, 어떠한 코드 순서로 배열되는 지를 결정함으로써 상기 비디오 클립에서 관측 심볼 시퀀스를 결정하는 것을 특징으로 하는 장치.
  37. 제 31항에 있어서,
    상기 제어부는,
    각각의 얼굴 표정마다 HMM을 생성하고, 상기 관측 심볼 시퀀스를 이용하여 각각의 HMM을 학습함으로써 상기 상태 천이 및 관측 행렬을 기반으로 HMM을 이용하여 얼굴 표정을 학습하는 것을 특징으로 하는 장치.
  38. 제 31항에 있어서,
    상기 비디오 클립은,
    상태 천이와 심볼 관측 행렬을 기반으로한 HMM을 이용하여 표현되는 것을 특 징으로 하는 장치.
  39. 얼굴 표정 인식 장치에 있어서,
    비디오 클립을 입력받는 입력부와,
    상기 비디오 클립에서 얼굴 표정의 깊이 및/또는 RGB 얼굴 이미지에서 피쳐 벡터를 획득하고, 상기 비디오 클립에서 관측 심볼 시퀀스를 획득하고, 사전에 존재하는 모든 동작 모델 중에서 우도 확률을 최대화하는 인체 동작 모델을 결정하는 제어부와,
    결정 내용을 출력하는 출력부를 포함하는 것을 특징으로 하는 장치.
  40. 제 39항에 있어서,
    상기 제어부는,
    인체 동작 HMM 사전으로부터 우도 확률을 최대화하는 얼굴 표정 모델을 결정함으로써, 상기 사전에 존재하는 모든 동작모델 중에서 우도 확률을 최대화하는 인체 동작 모델을 결정하는 것을 특징으로 하는 장치.
KR1020090049744A 2009-06-05 2009-06-05 인체 동작 및 얼굴 표정 모델링 및 인식을 위한 비디오 센서 기반의 장치 및 방법 KR101640077B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020090049744A KR101640077B1 (ko) 2009-06-05 2009-06-05 인체 동작 및 얼굴 표정 모델링 및 인식을 위한 비디오 센서 기반의 장치 및 방법
US12/802,381 US8755593B2 (en) 2009-06-05 2010-06-04 Apparatus and method for video sensor-based human activity and facial expression modeling and recognition
US14/307,342 US9489568B2 (en) 2009-06-05 2014-06-17 Apparatus and method for video sensor-based human activity and facial expression modeling and recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090049744A KR101640077B1 (ko) 2009-06-05 2009-06-05 인체 동작 및 얼굴 표정 모델링 및 인식을 위한 비디오 센서 기반의 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20100131060A true KR20100131060A (ko) 2010-12-15
KR101640077B1 KR101640077B1 (ko) 2016-07-15

Family

ID=43300793

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090049744A KR101640077B1 (ko) 2009-06-05 2009-06-05 인체 동작 및 얼굴 표정 모델링 및 인식을 위한 비디오 센서 기반의 장치 및 방법

Country Status (2)

Country Link
US (2) US8755593B2 (ko)
KR (1) KR101640077B1 (ko)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013067063A1 (en) * 2011-11-01 2013-05-10 Microsoft Corporation Depth image compression
CN103390174A (zh) * 2012-05-07 2013-11-13 深圳泰山在线科技有限公司 基于人体姿态识别的体育教学辅助系统和方法
CN103745472A (zh) * 2014-01-15 2014-04-23 西安电子科技大学 基于条件三重马尔可夫场的sar图像分割方法
KR20140104091A (ko) * 2013-02-20 2014-08-28 삼성전자주식회사 깊이 영상을 이용하는 객체 인식 장치 및 그 장치를 이용한 방법
US8942917B2 (en) 2011-02-14 2015-01-27 Microsoft Corporation Change invariant scene recognition by an agent
CN108009134A (zh) * 2017-12-26 2018-05-08 武汉大学 一种人类活动信息挖掘方法
US11215711B2 (en) 2012-12-28 2022-01-04 Microsoft Technology Licensing, Llc Using photometric stereo for 3D environment modeling
US11710309B2 (en) 2013-02-22 2023-07-25 Microsoft Technology Licensing, Llc Camera/object pose from predicted coordinates

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8892391B2 (en) * 2011-06-03 2014-11-18 Apple Inc. Activity detection
US20130114900A1 (en) * 2011-11-07 2013-05-09 Stanford University Methods and apparatuses for mobile visual search
US9355366B1 (en) * 2011-12-19 2016-05-31 Hello-Hello, Inc. Automated systems for improving communication at the human-machine interface
US9087260B1 (en) * 2012-01-03 2015-07-21 Google Inc. Hierarchical randomized quantization of multi-dimensional features
CN103034847B (zh) * 2012-12-13 2016-02-10 河海大学 一种基于隐马尔可夫模型的人脸识别方法
KR20140136303A (ko) 2013-05-20 2014-11-28 삼성전자주식회사 하이브리드 신체 인식을 위한 장치 및 방법
SG11201510254VA (en) 2013-06-12 2016-01-28 Agency Science Tech & Res Method and system for human motion recognition
WO2015013163A1 (en) * 2013-07-22 2015-01-29 Misfit Wearables Corporation Methods and systems for displaying representations of facial expressions and activity indicators on devices
CN103530603B (zh) * 2013-09-24 2017-01-04 杭州电子科技大学 基于环路图模型的视频异常检测方法
CN103489004A (zh) * 2013-09-30 2014-01-01 华南理工大学 一种深度学习网络实现大类别图像识别的方法
CN103810473B (zh) * 2014-01-23 2016-09-07 宁波大学 一种基于隐马尔科夫模型的人体对象的目标识别方法
US10022071B2 (en) 2014-02-12 2018-07-17 Khaylo Inc. Automatic recognition, learning, monitoring, and management of human physical activities
CN104361316B (zh) * 2014-10-30 2017-04-19 中国科学院自动化研究所 一种基于多尺度时序建模的维度情感识别方法
TWI547816B (zh) * 2014-12-31 2016-09-01 富智康(香港)有限公司 照片分群系統及方法
CN104598878A (zh) * 2015-01-07 2015-05-06 深圳市唯特视科技有限公司 基于灰度和深度信息的多层融合的多模态人脸识别装置及方法
US10163000B2 (en) * 2015-01-14 2018-12-25 Samsung Electronics Co., Ltd. Method and apparatus for determining type of movement of object in video
US10368104B1 (en) * 2015-04-01 2019-07-30 Rockwell Collins, Inc. Systems and methods for transmission of synchronized physical and visible images for three dimensional display
CN106203484B (zh) * 2016-06-29 2019-06-21 北京工业大学 一种基于类别分层机制的人体运动状态分类方法
CN106570482B (zh) * 2016-11-03 2019-12-03 深圳先进技术研究院 人体动作识别方法及装置
US10489589B2 (en) * 2016-11-21 2019-11-26 Cylance Inc. Anomaly based malware detection
CN107273804A (zh) * 2017-05-18 2017-10-20 东北大学 基于支持向量机和深度特征的行人识别方法
CN107808113B (zh) * 2017-09-13 2020-08-04 华中师范大学 一种基于差分深度特征的人脸表情识别方法及系统
US10628667B2 (en) * 2018-01-11 2020-04-21 Futurewei Technologies, Inc. Activity recognition method using videotubes
US10489639B2 (en) 2018-02-12 2019-11-26 Avodah Labs, Inc. Automated sign language translation and communication using multiple input and output modalities
WO2019157344A1 (en) 2018-02-12 2019-08-15 Avodah Labs, Inc. Real-time gesture recognition method and apparatus
CN108600864B (zh) * 2018-04-25 2020-08-28 中影数字巨幕(北京)有限公司 一种电影预告生成方法及装置
CN109344813B (zh) * 2018-11-28 2023-11-28 北醒(北京)光子科技有限公司 一种基于rgbd的目标识别和场景建模方法
USD912139S1 (en) 2019-01-28 2021-03-02 Avodah, Inc. Integrated dual display sensor
CN110287790B (zh) * 2019-05-23 2021-04-02 华中师范大学 一种面向静态多人场景的学习状态混合分析方法
CN110689480B (zh) * 2019-09-27 2021-08-10 腾讯科技(深圳)有限公司 一种图像变换方法及装置
CN110689087B (zh) * 2019-10-10 2023-04-18 西南石油大学 一种基于概率似然的图像样本生成方法
KR102242155B1 (ko) * 2019-11-08 2021-04-19 이상훈 이미지를 이용한 사과 당도 측정 방법
CN111145344B (zh) * 2019-12-30 2023-03-28 哈尔滨工业大学 一种用于雪雕3d重建的结构光测量方法
CN112163510B (zh) * 2020-09-25 2022-04-22 电子科技大学 一种基于多观测变量hmm模型的人体动作分类识别方法
CN112270215B (zh) * 2020-10-13 2024-03-26 杭州电子科技大学 一种基于序列特征梯度向量结构人脸识别方法
CN113269173B (zh) * 2021-07-20 2021-10-22 佛山市墨纳森智能科技有限公司 一种建立情感识别模型和识别人物情感的方法和装置
CN113723546B (zh) * 2021-09-03 2023-12-22 江苏理工学院 基于离散隐马尔可夫模型的轴承故障检测方法和系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004005456A (ja) * 2002-03-04 2004-01-08 Samsung Electronics Co Ltd 構成成分基盤pca/icaを利用した顔認識方法及びその装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6751354B2 (en) * 1999-03-11 2004-06-15 Fuji Xerox Co., Ltd Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models
US7970718B2 (en) * 2001-05-18 2011-06-28 Health Discovery Corporation Method for feature selection and for evaluating features identified as significant for classifying data
US7203356B2 (en) * 2002-04-11 2007-04-10 Canesta, Inc. Subject segmentation and tracking using 3D sensing technology for video compression in multimedia applications
US7715597B2 (en) * 2004-12-29 2010-05-11 Fotonation Ireland Limited Method and component for image recognition
US7853041B2 (en) * 2005-01-07 2010-12-14 Gesturetek, Inc. Detecting and tracking objects in images
US8630965B2 (en) * 2006-04-06 2014-01-14 Yale University Framework of hierarchical sensory grammars for inferring behaviors using distributed sensors
JP2009049979A (ja) * 2007-07-20 2009-03-05 Fujifilm Corp 画像処理装置、画像処理方法、画像処理システム、及びプログラム
EP2327061A4 (en) * 2008-08-15 2016-11-16 Univ Brown METHOD AND DEVICE FOR ESTIMATING BODY SHAPES
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
US10033979B2 (en) * 2012-03-23 2018-07-24 Avigilon Fortress Corporation Video surveillance systems, devices and methods with improved 3D human pose and shape modeling

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004005456A (ja) * 2002-03-04 2004-01-08 Samsung Electronics Co Ltd 構成成分基盤pca/icaを利用した顔認識方法及びその装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Independent component feature-based human activity recognition via Linear Discriminant Analysis and Hidden Markov Model, 30th Annual International IEEE EMBS Conference(2008)* *
Shape-based human activity recognition using independent component analysis and hidden Markov model, New Frontiers in Applied Artificial Intelligence. Springer Springer Berlin Heidelberg (2008) *
표정 HMM과 사후 확률을 이용한 얼굴 표정 인식 프레임워크, 정보과학회논문지 컴퓨팅의 실제 제11권 제3호(2005.06)* *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8942917B2 (en) 2011-02-14 2015-01-27 Microsoft Corporation Change invariant scene recognition by an agent
WO2013067063A1 (en) * 2011-11-01 2013-05-10 Microsoft Corporation Depth image compression
CN103390174A (zh) * 2012-05-07 2013-11-13 深圳泰山在线科技有限公司 基于人体姿态识别的体育教学辅助系统和方法
US11215711B2 (en) 2012-12-28 2022-01-04 Microsoft Technology Licensing, Llc Using photometric stereo for 3D environment modeling
KR20140104091A (ko) * 2013-02-20 2014-08-28 삼성전자주식회사 깊이 영상을 이용하는 객체 인식 장치 및 그 장치를 이용한 방법
US11710309B2 (en) 2013-02-22 2023-07-25 Microsoft Technology Licensing, Llc Camera/object pose from predicted coordinates
CN103745472A (zh) * 2014-01-15 2014-04-23 西安电子科技大学 基于条件三重马尔可夫场的sar图像分割方法
CN103745472B (zh) * 2014-01-15 2016-11-23 西安电子科技大学 基于条件三重马尔可夫场的sar图像分割方法
CN108009134A (zh) * 2017-12-26 2018-05-08 武汉大学 一种人类活动信息挖掘方法

Also Published As

Publication number Publication date
US20140294295A1 (en) 2014-10-02
US20100310157A1 (en) 2010-12-09
US9489568B2 (en) 2016-11-08
KR101640077B1 (ko) 2016-07-15
US8755593B2 (en) 2014-06-17

Similar Documents

Publication Publication Date Title
KR101640077B1 (ko) 인체 동작 및 얼굴 표정 모델링 및 인식을 위한 비디오 센서 기반의 장치 및 방법
KR102221118B1 (ko) 영상의 특징을 추출하여 객체를 인식하는 방법
Linh Tran et al. Deepcoder: Semi-parametric variational autoencoders for automatic facial action coding
US8917907B2 (en) Continuous linear dynamic systems
Fenghour et al. Lip reading sentences using deep learning with only visual cues
JP2021073627A (ja) 次元データ低減を有するマシンビジョン
CN104361316B (zh) 一种基于多尺度时序建模的维度情感识别方法
JP2011013732A (ja) 情報処理装置、情報処理方法、およびプログラム
Mavroudi et al. End-to-end fine-grained action segmentation and recognition using conditional random field models and discriminative sparse coding
Bakry et al. Mkpls: Manifold kernel partial least squares for lipreading and speaker identification
WO2019204146A1 (en) Context embedding for capturing image dynamics
Elakkiya et al. Extricating manual and non-manual features for subunit level medical sign modelling in automatic sign language classification and recognition
Wilson et al. An information bottleneck approach to optimize the dictionary of visual data
Taylor Composable, distributed-state models for high-dimensional time series
Goh et al. Audio-visual speech recognition system using recurrent neural network
Gomathi Indian Sign Language Recognition through Hybrid ConvNet-LSTM Networks
Uddin et al. Shape-based human activity recognition using independent component analysis and hidden Markov model
US20240013357A1 (en) Recognition system, recognition method, program, learning method, trained model, distillation model and training data set generation method
CN114943990A (zh) 基于ResNet34网络-注意力机制的连续手语识别方法及装置
Morade et al. Lip reading by using 3-D discrete wavelet transform with dmey wavelet
Tierney et al. Segmentation of subspaces in sequential data
Senanayaka et al. Continuous American Sign Language Recognition Using Computer Vision And Deep Learning Technologies
CN108921911B (zh) 结构化图片自动转换为源代码的方法
CN112651363A (zh) 基于多特征点的微表情拟合方法和系统
Garg Converting American sign language to voice using RBFNN

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190627

Year of fee payment: 4