KR20100131060A

KR20100131060A - 인체 동작 및 얼굴 표정 모델링 및 인식을 위한 비디오 센서 기반의 장치 및 방법

Info

Publication number: KR20100131060A
Application number: KR1020090049744A
Authority: KR
Inventors: 김현수; 이종창; 심대현; 김태성
Original assignee: 삼성전자주식회사; 경희대학교 산학협력단
Priority date: 2009-06-05
Filing date: 2009-06-05
Publication date: 2010-12-15
Also published as: US8755593B2; US20140294295A1; US20100310157A1; US9489568B2; KR101640077B1

Abstract

본 발명은 인체 동작 및 얼굴 표정의 모델링 및 인식에 관한 것으로, 인체 동작 모델링 방법에 있어서 비디오 클립에서 추출한 인체 동작의 깊이 및/또는 이진 형상 이미지의 원칙 요소를 획득하는 과정과 상기 원칙 요소를 기반으로 ICA 표현을 획득하는 과정과 상기 ICA 표현을 기반으로 LDA를 통해 피쳐를 결정하는 과정과 벡터 양자화를 이용하여 코드북을 획득하는 과정과 상기 비디오 클립에서 관측 심볼 시퀀스를 결정하는 과정과 상태 천이 및 관측 행렬을 기반으로 HMM을 이용하여 인체 동작을 학습하는 과정을 포함하는 것으로 인체 동작 또는 표정을 인체 또는 얼굴을 부분으로 나누지(segmenting) 않고서도 인식하는 것이 가능한 이점이 있다.

human activity recognition, facial expression, HMM, LDA.

Description

인체 동작 및 얼굴 표정 모델링 및 인식을 위한 비디오 센서 기반의 장치 및 방법{APPARATUS AND METHOD FOR VIDEO SENSOR-BASED HUMAN ACTIVITY AND FACIAL EXPRESSION MODELING AND RECOGNITION}

본 발명은 인체의 깊이(depth) 및/또는 이진 형상 정보(binary shape information)를 통해 인체 동작을 인식하고, 연속적인 비디오 프레임으로부터의 인체 얼굴의 깊이 및/또는 RGB 정보를 통해 얼굴 표정을 인식하는 장치 및 방법에 관한 것이다.

또한, 본 발명은 시간 연속적인 이미지로부터 피쳐 추출 기술(feature extraction techniques)을 기반으로 한 모델링 장치 및 방법에 관한 것이다.

최근 들어, 인체 동작 및 얼굴 표정 인식에 대한 연구는 프로액티브 컴퓨팅(proactive computing)으로 인해 발전되어 왔다. 프로액티브 컴퓨팅은 미리 대책을 강구하여 사람들의 건강 관련 필요에 집중하고, 그들의 입장에서 필요한 조치를 취하는 방향으로 이용하는 것을 나타낸다.

얼굴 표정과 인체 동작 인식은 HCI(human computer interaction)에 있어서 기반적인 기술로 간주되어 왔다. 상기 HCI는 컴퓨터가 사람과 사람 사이의 인터액션과 같이 상호관계를 가지게 하는 것을 나타낸다.

따라서, 얼굴 표정과 인체 동작 인식은 사람 및 사람의 행동의 표현 상태에 응답하는 HCI 시스템을 설계하는데 도움이 될 수 있다.

전형적으로, 일반적인 형상 기반의 인체 동작 인식 기술(shape-based human activity recognition)에서 이진 형상은 다른 인체 행동을 나타내기 위해 흔히 사용되어 왔다.

이진 표현으로 인해, 몇몇의 인체 요소(예를 들어, 팔)는 공통적으로 다른 동작(예를 들어, 박수)의 이진 형상에서는 감춰진다. 이는 같은 이진 형상을 다른 동작으로 결정함으로써 모호함을 야기한다. 따라서, 다른 동작에서의 인체의 효율적인 표현이 중요하다.

일반적으로, PCA(Principal Component Analysis)는, 2 차(Second Order)의 통계적 접근이고, 인체 동작 이미지를 포함하는 데이터베이스의 차원 감소를 위해 사용된다. 기본적으로, PCA 베이시스 이미지(basis images)는 서로 직교하고, 동작에서 자주 사용되는 인체 요소에 집중하는 전역적인 피쳐를 나타낸다.

일반적인 접근방식에서, PCA 피쳐는 전형적으로 다른 인체 동작을 인식하기 위해서 HMM 과 병합하여 사용된다. 그러나, 인체 동작의 이진 형상의 PCA 표현은 낮은 인식률을 보이므로 효율적이지 않은 것으로 밝혀졌다.

일반적인 FER(Facial Expression Recognition)에서, 얼굴 표정을 인식하기 위한 몇가지 방법이 있다. 그 중 하나의 방법은 FAU(facial action units)를 표정 변화에 따라 얼굴 근육 움직임을 이해하는 것을 명시하는 것이다.

그리고 또 하나의 방법은 PCA(principal component analysis)를 통해 기쁨, 분노, 역거움, 공포, 슬픔 등과 같은 전역적인 표정에 해당하는 얼굴 표정 전체를 분리하는 것이다.

최근에는, 각각의 타입의 얼굴 표정을 구분하기 위해서, 부분 피쳐를 추출하는 기능을 이용하는 ICA(independent component analysis) 방식이 FER 작업을 위해 과도하게 사용되어 왔다.

ICA 는 통계적으로 독립 베이시스 및 계수를 생성하기 위해 입력 랜덤 변수(input random variables)의 집합의 통계적인 의존성을 감소시키고 얼굴 표정 인식에 주로 사용되어 왔다.

그러나, 시도된 많은 기술은 한계와 어려움을 가지고 있는 것으로 밝혀졌다. 일반적인 ICA를 사용하는 FAU 기반의 FER은 표정에 대한 거대한 포텐셜(potential)을 포함한다. 상기 표정은 FAU의 다른 종류의 병합으로부터 다르게 결정된다. 그리고 이는 아주 복잡한 FER 문제를 발생시킨다.

더우기, 전체 얼굴 표정을 수용하는 일반적인 ICA는 얼굴의 일시적인 변화가 특정 표정으로 나타나기 때문에, 적절하지 않은 공간 정보를 추출하기 위한 정점(apex) 표정의 정적인 이미지에 대해서만 적용되어온 문제점이 있다.

하지만, 일시적인 정보는 FER 문제 때문에 신중히 고려해야한다(deliberated).

본 발명의 목적은 인체 동작 및 얼굴 표정 모델링 및 인식을 위한 비디오 센서 기반의 장치 및 방법을 제공함에 있다.

본 발명의 다른 목적은 인체 동작 인식에 대한 인체의 이진 형상 정보 외에 깊이 이미지(depth images)를 제공하기 위한 장치 및 방법을 제공함에 있다.

본 발명의 또 다른 목적은 다른 동작 또는 표정의 비디오에 존재하는 얼굴 표정 인식을 위한 인체 얼굴의 RGB 정보 외에 깊이 이미지를 제공하기 위한 장치 및 방법을 제공함에 있다.

본 발명의 목적을 달성하기 위한 본 발명의 제 1 견지에 따르면, 인체 동작 모델링 방법에 있어서 비디오 클립에서 추출한 인체 동작의 깊이 및/또는 이진 형상 이미지의 원칙 요소를 획득하는 과정과 상기 원칙 요소를 기반으로 ICA 표현을 획득하는 과정과 상기 ICA 표현을 기반으로 LDA를 통해 피쳐를 결정하는 과정과 벡터 양자화를 이용하여 코드북을 획득하는 과정과 상기 비디오 클립에서 관측 심볼 시퀀스를 결정하는 과정과 상태 천이 및 관측 행렬을 기반으로 HMM을 이용하여 인체 동작을 학습하는 과정을 포함하는 것을 특징으로 한다.

본 발명의 목적을 달성하기 위한 본 발명의 제 2 견지에 따르면, 인체 동작 인식 방법에 있어서 비디오 클립의 인체 동작의 깊이 및/또는 이진 형상 이미지에서 피쳐 벡터를 획득하는 과정과 상기 비디오 클립에서 관측 심볼 시퀀스를 획득하는 과정과 사전에 존재하는 모든 동작 모델 중에서 우도 확률을 최대화하는 인체 동작 모델을 결정하는 과정을 포함하는 것을 특징으로 한다.

본 발명의 목적을 달성하기 위한 본 발명의 제 3 견지에 따르면, 얼굴 표정 모델링 방법에 있어서 비디오 클립에서 추출한 얼굴 표정의 깊이 및/또는 RGB 얼굴 이미지의 원칙 요소를 획득하는 과정과 상기 원칙 요소를 기반으로 ICA 표현을 획득하는 과정과 상기 ICA 표현을 기반으로 LDA를 통해 피쳐를 결정하는 과정과 벡터 양자화를 이용하여 코드북을 획득하는 과정과 상기 비디오 클립에서 관측 심볼 시퀀스를 결정하는 과정과 상태 천이 및 관측 행렬을 기반으로 HMM을 이용하여 얼굴 표정을 학습하는 과정을 포함하는 것을 특징으로 한다.

본 발명의 목적을 달성하기 위한 본 발명의 제 4 견지에 따르면, 얼굴 표정 인식 방법에 있어서 비디오 클립의 얼굴 표정의 깊이 및/또는 RGB 얼굴 이미지에서 피쳐 벡터를 획득하는 과정과 상기 비디오 클립에서 관측 심볼 시퀀스를 획득하는 과정과 사전에 존재하는 모든 얼굴 표정 모델 중에서 우도 확률을 최대화하는 얼굴 표정 모델을 결정하는 과정을 포함하는 것을 특징으로 한다.

본 발명의 목적을 달성하기 위한 본 발명의 제 5 견지에 따르면, 인체 동작 모델링 장치에 있어서 비디오 클립을 입력받는 입력부와 상기 비디오 클립에서 추출한 인체 동작의 깊이 및/또는 이진 형상 이미지의 원칙 요소를 획득하고, 상기 원칙 요소를 기반으로 ICA 표현을 획득하고 상기 ICA 표현을 기반으로 LDA를 통해 피쳐를 결정하고, 벡터 양자화를 이용하여 코드북을 획득하고, 상기 비디오 클립에서 관측 심볼 시퀀스를 결정하고, 상태 천이 및 관측 행렬을 기반으로 HMM을 이용하여 인체 동작을 학습하는 제어부와 학습 결과를 출력하는 출력부를 포함하는 것을 특징으로 한다.

본 발명의 목적을 달성하기 위한 본 발명의 제 6 견지에 따르면, 인체 동작 인식 장치에 있어서 비디오 클립을 입력받는 입력부와 상기 비디오 클립에서 인체 동작의 깊이 및/또는 이진 형상 이미지에서 피쳐 벡터를 획득하고, 상기 비디오 클립에서 관측 심볼 시퀀스를 획득하고, 사전에 존재하는 모든 동작 모델 중에서 우도 확률을 최대화하는 인체 동작 모델을 결정하는 제어부와 결정 결과를 출력하는 출력부를 포함하는 것을 특징으로 한다.

본 발명의 목적을 달성하기 위한 본 발명의 제 7 견지에 따르면, 얼굴 표정 모델링 장치에 있어서 비디오 클립을 입력받는 입력부와 상기 비디오 클립에서 추출한 얼굴 표정의 깊이 및/또는 RGB 얼굴 이미지의 원칙 요소를 획득하고 상기 원칙 요소를 기반으로 ICA 표현을 획득하고 상기 ICA 표현을 기반으로 LDA를 통해 피쳐를 결정하고, 벡터 양자화를 이용하여 코드북을 획득하고, 상기 비디오 클립에서 관측 심볼 시퀀스를 결정하고 상태 천이 및 관측 행렬을 기반으로 HMM을 이용하여 얼굴 표정을 학습하는 제어부와 학습 결과를 출력하는 출력부를 포함하는 것을 특징으로 한다.

본 발명의 목적을 달성하기 위한 본 발명의 제 8 견지에 따르면, 얼굴 표정 인식 장치에 있어서 비디오 클립을 입력받는 입력부와 상기 비디오 클립에서 얼굴 표정의 깊이 및/또는 RGB 얼굴 이미지에서 피쳐 벡터를 획득하고 상기 비디오 클립에서 관측 심볼 시퀀스를 획득하고 사전에 존재하는 모든 동작 모델 중에서 우도 확률을 최대화하는 인체 동작 모델을 결정하는 제어부와 결정 내용을 출력하는 출력부를 포함하는 것을 특징으로 한다.

본 발명은 인체 동작 또는 표정을 인체 또는 얼굴을 부분으로 나누지(segmenting) 않고서도 인식하는 것이 가능한 이점이 있다.

또한, 본 발명은 깊이 이미지를 사용하므로 깊이 이미지를 이용하지 않은 경우와 비교하여 인식률이 더 높은 이점이 있다.

이하 본 발명의 바람직한 실시 예를 첨부된 도면의 참조와 함께 상세히 설명한다. 그리고, 본 발명을 설명함에 있어서, 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단된 경우 그 상세한 설명은 생략한다.

이하, 본 발명은 인체 동작 및 얼굴 표정 모델링 및 인식을 위한 비디오 센서 기반의 장치 및 방법에 대해 설명할 것이다.

본 발명에서는 인체 동작 또는 얼굴 표정의 독립적인 요소 피쳐(independent component features) 상에서 피쳐 추출을 위해 LDA(Linear Discriminant Analysis) 가 사용된다.

상기 인체 동작은 이진 형상 및/또는 인체의 깊이 이미지를 포함하고, 얼굴 표정은 깊이 이미지(depth image) 및/또는 RGB 얼굴 이미지로 구성된다.

인체 행동 또는 얼굴 표정의 모델링과 인식은 벡터 양자화(vector quantization) 와 HMM(Hidden Markov Model)을 통해 수행된다.

인체 동작과 얼굴 표정에 대한 모델링과 인식에 관해서 probabilistic 접근 방식인 HMM이 시간 연속적인 정보를 인코딩하기 위해 사용된다. 시간 연속적인 이미지로부터 인체 동작과 얼굴 표정을 모델링하고 인식하기 위해서, HMM은 수용할만한 유력한 접근방식이다.

본 발명은 효율적인 피쳐 추출(feature extraction)을 위해, ICA(Independent Component Analysis)를 제안한다. 본 발명에서는 독립 요소 피쳐(Independent component features)가 PCA와 같은 전역 장소(place of global)에서의 인체 또는 표정의 로컬 상태 상에서 높은 차수의 동계를 사용하여 추출된다.

추가적으로, 본 발명의 이미지의 ICA 표현(representations)은 강건한 피쳐 공간(robust feature space)을 생성하기 위해 LDA(Linear Discriminant Analysis)를 적용함으로써 분류된다.

도 1은 본 발명의 실시 예에 따른 인체 동작 또는 표정 모델링 방법의 주요 단계를 도시한 흐름도이다.

상기 도 1을 참조하면, 최근 연구로부터 3D 깊이 정보(depth information)가 다른 동작에 대한 비디오에서의 인체 동작을 나타내기 매우 유용하기 때문에, 본 발명은 다른 동작에서의 인체의 깊이 및/또는 이진 형상 이미지를 통해 다양한 피쳐 추출 분석을 수행한다.

인체 동작 인식에 있어서, 전형적으로, 이진 형상이 다른 인체 행동의 인체 형상 표현에 대해 널리 사용된다. 하지만, 이는 인체 형상 표현에 몇 가지 제약을 가진다. 상기 제약은 일부 인체 요소가 숨겨진 채로 남겨져 있을 수 있다는 것으로, 이는 형상의 잘못된 표현으로 인해 인식에 오류가 발생할 수 있다. 이러한 문제점은 인체의 깊이 정보에서는 보이지 않는다. 왜냐하면 깊이 정보는 인체 전부를 잘 표현하기 때문이다. 따라서, 본 발명에서는 인체 동작 모델링에 비디오 프레임에서의 인체의 깊이 이미지를 이진 형상 정보보다 우선할 것이다.

상기 도 1을 참고하면, 본 발명의 실시 예에 따른 인체 동작 모델링 방법은, 첫 번째로, 입력 비디오 프레임들을 획득한다.(102 단계).

두 번째로, ROI (예를 들어, 인체의 깊이 및/또는 이진 형상 이미지)가 각각의 비디오 프레임에서 획득된다(104 단게). 모든 깊이 및/또는 이진 형상 이미지의 집합은 모델링을 위하고 및 동작을 인식하기 위한 피쳐 스페이스(feature space)를 생성하기 위해 사용된다.

이후, 다른 동작의 깊이 및/또는 이진 형상 이미지의 집합을 통한 PCA를 이용하여 원칙 요소(Principal components)를 획득한다(106 단계). PCA 는 비디오 프레임들에서 인체의 전역 피처를 발견하기 위한 2차 통계 접근 방식(second order statistical approach)이다. PCA 를 적용하기 전에, 모든 깊이 및/또는 이진 형상 이미지 벡터가 행(in row)으로 표현된다. 그리고, 하기 수식에 따라 제로 평균(zero mean) 깊이 및/또는 이진 형상 이미지 벡터로 변환된다.

여기서,

은 깊이 및/또는 이진 형상 이미지 벡터의 평균을 나타낸다. 그리고 X_i, i^th 는 깊이 및/또는 이진 형상 이미지 벡터를 나타낸다. PCA 는 원 데이터를 낮은 차원의 피쳐 스페이스로 만드는데 사용된다.

기본적인 접근 방식은 코베리언스 데이터 행렬(Q)의 아이겐 벡터를 계산하는 것이고, 이후, 탑 아이겐벡터(top eigenvectors)의 선형 조합(linear combination)을 이용하여 근사값(approximation)을 구한다.

샘플 깊이 및/또는 이진 형상 이미지 벡터의 코베리언스 행렬과 코베리언스 행렬의 원칙 요소들은 하기 수식과 같이 나타내진다.

여기서, T 는 깊이 및/도는 이진 형상 이미지 벡터의 수이다. 그리고, E 의 컬럼과, Λ의 대각선 값은 각각 오쏘노멀 아이겐벡터(orthonormal eigenvectors)와 코베리언스 행렬(Q)의 해당 아이겐 값을 나타낸다. 아이겐 벡터는 전역 피처를 나타내는 원칙 요소이다.

하지만, 패던 인식에 있어서 최근의 연구는 ICA가 사용된다. 상기 ICA는 더 PCA 보다 더 높은 우선 순위의 더 높은 차수의 통계 접근 방식(higher order statistical approach)이다. ICA 알고리즘은 통계적으로 독립적인 베이시스 이미지를 발견한다. 만약, S 가 베이시스 이미지의 집합이고, X 가 입력 이미지의 집합인 경우, 이후, X 와 S 사이의 관계가 하기 수식을 통해 모델링된다.

여기서, R은 풀 랭크(Full Rank)의 알려지지 않은 선형 믹싱 행렬을 나타낸다. 그리고 소스는 서로 각각 독립적이고 믹싱 행렬은 역행렬화될 수 있다(invertible).

ICA 알고리즘은 가중치 행렬(W)과 믹싱 행렬(R)의 역행렬을 학습하고, 독립적인 베이시스 이미지(S)의 집합을 복구하기 위해 사용된다. 깊이 및/또는 이진 형상 이미지들은 변수들로 나타내지고, 연관된 깊이 및/또는 이진 형상 이미지들의 픽셀 값들은 변수들의 관측값(observations)이다

ICA를 적용하기 전에, PCA는 토탈 훈련 이미지 데이터의 차원을 줄이기 위해 사용된다. PCA와는 다르게, ICA 베이시스 이미지는 전역보다 지역적인 피쳐 정보에 집중한다. ICA 알고리즘은 탑 m 원칙 요소(top m principal components), E^T _m 상에서 수행되고(108 단계), 따라서, S의 행에 있는 m 독립 베이시스 이미지는 하기 수식들과 같다.

여기서, V = XE_m 은 E_m 과 재건설 이미지인 X_r 상에서의 이미지 X의 프로젝션(projection)이다. 따라서, 동작 이미지 시퀀스로부터의 i^th 깊이 및/또는 이진 형상 이미지 벡터(

)의 독립 요소 표현 (I_i) 는 하기 수식과 같다.

여기서, I_i 는 i^th 이미지 벡터를 구성하는 베이시스 이미지들 선형적으로 병합하는 계수들을 포함한다.

추가적으로, ICA 접근방식은 LDA에 의해 확장된다(110 단계). LDA는 2차 통계 접근방식이고, 감독된 분류 방식(supervised classification)이고, 클래스 특정 정보를 사용하여 클래스 스캐터 정보 사이 또는 이내의 비율을 최대화하는 방법이다. 다른 클래스 중에서 가장 좋은 구별점(discrimination)을 생성하기 위한 근원적인 스페이스에서의 벡터를 찾는다. 이는 피쳐 추출 및 차원 감소에 있어서 잘 알려져 있다. 최대 구별점을 획득하기 위해서, 클래스 사이의 거리와 클래스 내부의 거리의 비율이 최대가 되기 위한 더 낮은 차원의 스페이스로 데이터를 프로젝션한다.

클래스 내 S_W, 클래스 사이 S_B에 대해, 하기 <수학식 9>와 <수학식 10>을 이용하여 클래스 스캐터링 비교가 수행된다.

여기서, J_i는 i^th 클래스 C_i에서의 벡터의 수이고 클래스의 수이다 그리고, 동작의 수를 나타낸다.

는 모든 백터의 평균을 나타내고

는 클래스 C_i의 평 균값이다. 그리고, m_k 는 특정 클래스의 백터이다.

최적의 구별 행렬 D_opt 는 클래스 스캐터 행렬의 내 및 클래스 스캐터 행렬 사이의 디터미넌트(determinant)의 비율의 최대화로부터 선택되고 하기 수식과 같다.

여기서, S_W, S_B 는 각각 클래스 스캐터링 행렬 내 및 클래스 스캐터링 행렬 사이를 나타낸다. D_opt는 (c-1) 가장 큰 일반화된 아이겐밸류 λ에 해당하는S_W, S_B의디스크리미넌트 벡터의 집합이다.

따라서, 추출된 다른 동작의 깊이 및/또는 형상 이미지의 추출된 ICA 표현은 LDA에 의해 확장될 수 있다. ICA의 LDA를 사용하는 피쳐 백터는 하기 수식에 따라 표현될 수 있다.

다음으로, 백터 양자화 알고리즘을 사용하는 코드북이 생성된다(112 단계). 코드북은 인체 동작 비디오 클립의 프레엄에서 디스크리트한 심볼들을 생성하는데 유용하다. 여기에 관해서는, LBG(Linde, Buzo, and Gray) 클러스터링 알고리즘을 사용하는 것이 선호된다.

첫 번째로, LBG에서 전체 데이터 집합의 센트로이드(centroid)를 스플리팅(splitting)함으로써 초기화가 수행된다. 이는 하나의 코드북으로부터 시작하여 재귀적으로 2개의 코드워드로 스플리팅한다. 스플리팅 후에, 센트로이드의 최적화가 왜곡을 줄이기 위해 수행된다. 왜냐하면, 이는 이진 스플리팅 방법들을 따르기 때문이다. 코드북 크기는 2 승이(power of two) 된다.

별개의(distinct) HMM의 훈련을 기반으로, 각각의 인체 동작이 표현된다(114 단계). 인체 동작 모델링에 대해 HMM을 사용하는 것이 선호된다. 상기 HMM은 인식을 위한 probabilistic 학습 능력을 가진 연속적 이미지 데이터를 다룰 수 있다. HMM은 확률적인 프로세스(stochastic process)이다. 근원적인 확률적인 프로세스는 일반적으로 관측 불가능(not observable)하지만, 관측 심볼을 생성하는 다른 확률적인 프로세서의 집합을 통해 관측가능하다. HMM은 음성 인식 또는 필기 인식에서의 많은 문제를 해결하기 위해 많이 사용되어 왔다. 본 발명은 인체 동작을 위해 HMM을 사용한다.

HMM은 천이(transitions)에 의해 연결된 유한 상태의 모음(collection)이다. HMM의 모든 상태는 2가지 타입의 확률에 의해 설명될 수 있다. 상기 2가지 타입의 확률은 천이 확률 및 심볼 관측 확률이다. 일반적인 HMM은 하기 수식과 같이 표현된다.

여기서,

는 가능한 상태를 나타내고

이다. q는 가능한 상태를 나타내고, π는 초기 상태의 확률이고, A 는 숨겨진 상태 사이의 천이 확률 행렬이다. 여기서 천이 확률 a_ij는 i부터 j까지 상태가 변화하는 확률을 나타낸다.

그리고, B는 모든 상태로부터의 관측 심볼 확률이고, B_j(O)는 상태 j로부터 관측 심볼 O 의 확률을 나타낸다. 만약, 동작의 수가 N 이면, N 훈련 모델 중 사전(H₁, H₂, ..., H_N)이 존재하고, A 및 B는 Baum-Welch 훈련 추정 알고리즘에 의해 반복적으로 훈련될 수 있다. 상태의 수는 경험적으로 결정될 수 있고, 상태의 수가 증가하는 것은 전체적인 인체 동작 인식률에 큰 영향을 미치지 않는다.

도 2는 본 발명의 실시 예에 따른 인체 동작 또는 표정 모델링 방법의 주요 단계를 도시한 흐름도이다. 상기 도 2는 상기 도 1에 얼굴 표정의 경우를 추가적으로 고려한 것이다.

상기 도 2를 참조하면, 최근 연구로부터 깊이 정보(depth information)가 다른 동작에 대한 비디오에서의 인체 동작 또는 얼굴을 나타내기 매우 유용하기 때문에, 본 발명은 다른 동작에서의 인체의 깊이 및/또는 이진 형상 이미지 또는 다른 표정의 비디오에서 깊이 및/또는 RGB 얼굴 이미지를 통해 다양한 피쳐 추출 분석을 적용한다.

인체 동작 인식에 있어서, 전형적으로, 이진 형상 이미지가 다른 인체 행동의 인체 형상 표현에 대해 널리 사용된다. 하지만, 이는 인체 형상 표현에 몇 가지 제약을 가진다. 상기 제약은 일부 인체 요소가 숨겨진 채로 남겨져 있을 수 있다는 것으로 이는 형상 이미지의 잘못된 표현으로 인해 인식에 오류가 발생할 수 있다는 것을 나타낸다.

이러한 문제점은 인체의 깊이 정보에서는 보이지 않는다. 왜냐하면 깊이 정보는 인체 전부를 잘 표현하기 때문이다. 얼굴 표정 인식의 경우, FICA 는 얼굴 표정의 RGB 및 깊이 피쳐에 대한 더 나은 표현을 추출하기 위한 개션된 기능을 제공하기 때문에, 본 발명은 표정 이미지 기반의 RGB 및/또는 깊이 정보를 통해 FICA를 적용한다.

추가적으로, 얼굴의 시공상의(spatiotemporal)의 변화는 특정 표정으로 조합된다. 따라서, 본 발명에서 연속적인 프레임이 각각의 표정 이미지의 정점(apex) 프레임을 사용하는 것보다 더 사용된다.

따라서, 본 발명에서는, 비디오 프레임들에서의 인체 또는 얼굴의 깊이 이미지가 인체 동작 또는 얼굴 표정 모델링에, 인체에 대한 이진 형상 이미지 및 얼굴 표정 정보에 대한 RGB 이미지 보다 우선적으로 사용된다.

상기 도 2를 참조하면, 본 발명의 실시 예에 따른 인체 동작 또는 얼굴 표정 모델링 방법은, 첫 번째로, 입력 비디오 프레임들(인체 행동에 대한 깊이 및/또는 이진 형상 이미지, 또는 얼굴 표정에 대한 깊이 및/또는 RGB 이미지)을 획득한 다(202 단계), 모든 이미지의 집합은 모델링 및 동작 또는 표현을 인식하기 위한 피쳐 스페이스(feature space)를 생성하기 위해 사용된다. 먼저, 피쳐 추줄 과정(204)이 먼저 수행된다. 이후, 인식 과정(206)이 수행된다.

다른 동작 또는 표현의 이미지의 집합을 통한 PCA를 이용하여 원칙 요소(Principal components)를 획득한다(104a 단계). PCA 는 비디오 프레임들에서 인체 또는 얼굴의 전역 피처를 발견하기 위한 2차 통계 접근 방식(second order statistical approach)이다.

PCA 를 적용하기 전에, 모든 이미지 벡터가 행(in row)으로 표현된다. 그리고, 상기 <수학식 1>에 따라 제로 평균 벡터(zero mean vectors)로 변환된다.

PCA 는 원 데이터를 낮은 차원의 피쳐 스페이스로 만드는데 흔히 쓰이는 방식이다.

기본적인 접근 방식은 코베리언스 데이터 행렬(Q)의 아이겐 벡터를 계산하는 것이고, 이후, 탑 아이겐벡터(top eigenvectors)의 선형 조합(linear combination)을 이용하여 근사값(approximation)이 구해진다.

샘플 깊이 및/또는 이진 형상 이미지 및 깊이 및/또는 RGB 얼굴 이미지의 코베리언스 행렬과 코베리언스 행렬의 원칙 요소들은 상기 <수학식 2> 및 <수학식 3>과 같다. 여기에서 아이겐벡터는 전역 피처를 나타내는 원칙 요소이다.

패던 인식에 있어서 최근의 연구는 ICA를 보여준다. 상기 ICA는 더 PCA 보다 더 높은 우선 순위의 더 높은 차수의 통계 접근 방식(higher order statistical approach)이다.

만약, S가 베이시스 이미지의 집합이고, X가 입력 이미지의 집합인 경우, ICA 알고리즘은 통계적으로 독립적인 베이시스 이미지를 발견한다. 이후, X 와 S 사이의 관계가 상기 <수학식 4>를 통해 모델링된다.

ICA 알고리즘은 가중치 행렬(W)과 믹싱 행렬(R)의 역행렬을 학습하고, 독립적인 베이시스 이미지(S)의 집합을 복구하기 위해 사용된다. 이미지들은 변수들로 나타내지고, 연관 이미지들의 픽셀 값들은 변수들의 관측값(observations)이다.

ICA 를 적용하기 전에, PCA는 토탈 훈련 이미지 데이터의 차원을 줄이기 위해 사용된다. PCA와는 다르게, ICA 베이시스 이미지는 전역보다 지역적인 피쳐 정보에 집중한다. ICA 알고리즘은 탑 m 원칙 요소(top m principal components) E^T _m 상에서 수앵되고(204b 단계), 따라서, S의 행에 있는 m 독립 베이시스 이미지는 상기 <수학식 5>, <수학식 6>, <수학식 7>과 같다.

추가적으로, ICA 접근방식은 LDA에 의해 확장된다(204c 단계). LDA는 2차 통계 접근방식이고, 감독된 분류 방식(supervised classification)이고, 클래스 특정 정보를 사용하여 클래스 스캐터 정보 사이 또는 이내의 비율을 최대화하는 방법이다.

다른 클래스 중에서 가장 좋은 구별점(discrimination)을 생성하기 위한 근원적인 스페이스에서의 벡터를 찾는다. 이는 피쳐 추출 및 차원 감소에 있어서 잘 알려져 있다.

최대 구별점을 획득하기 위해서, 클래스 사이의 거리와 클래스 내부의 거리 의 비율이 최대가 되기 위한 더 낮은 차원의 스페이스로 데이터를 프로젝션한다. 클래스 내 S_W, 클래스 사이 S_B에 대해, 상기 <수학식 9>와 <수학식 10>을 이용하여 클래스 스캐터링 비교가 수행된다.

최적의 구별 행렬 D_opt 는 클래스 스캐터 행렬의 내 및 클래스 스캐터 행렬 사이의 디터미넌트(determinant)의 비율의 최대화로부터 선택되고 상기 <수학식 11>과 같다.

따라서, 추출된 다른 동작의 깊이 및/또는 형상 이미지 또는 다른 얼굴 표정의 깊이 및/또는 RGB 이미지의 추출된 ICA 표현은 LDA에 의해 확장될 수 있다. ICA의 LDA를 사용하는 피쳐 백터는 상기 <수학식 12>에 따라 표현될 수 있다.

백터 양자화 알고리즘을 사용하는 코드북이 생성된다(206a 단계). 코드북은 인체 동작 또는 얼굴 표정 비디오 클립의 프레엄에서 디스크리트한 심볼들을 생성하는데 유용하다.

여기에 관해서, LBG(Linde, Buzo, and Gray) 클러스터링 알고리즘을 사용하는 것이 선호된다. 첫 번째로, LBG에서 전체 데이터 집합의 센트로이드(centroid)을 스플리팅(splitting)함으로써 초기화가 수행된다. 이는 하나의 코드북으로부터 시작하여 재귀적으로 2개의 코드워드로 스플리팅하는 것을 나타낸다.

스플리팅 후에, 센트로이드의 최적화가 왜곡을 줄이기 위해 수행된다. 왜냐하면, 이는 이진 스플리팅 방법들을 따르기 때문이다. 코드북 크기는 2 승이(power of two) 된다.

별개의(distinct) HMM의 훈련을 기반으로, 각각의 인체 동작 또는 얼굴 표정이 표현된다(206b 단계). 인체 동작 또는 얼굴 표정 모델링에 대해, HMM을 사용하는 것이 선호된다. 상기 HMM은 인식을 위한 probabilistic 학습 능력을 가진 연속적 이미지 데이터를 다룰 수 있다.

HMM은 확률적인 프로세스(stochastic process)이다. 근원적인 확률적인 프로세스는 일반적으로 관측 불가능(not observable)하지만, 관측 심볼을 생성하는 다른 확률적인 프로세서의 집합을 통해 관측가능하다. 본 발명은 인체 동작 및 얼굴 표정 인식을 위해 HMM을 사용한다.

HMM은 천이(transitions)에 의해 연결된 유한 상태의 모음(collection)이다. HMM의 모든 상태는 2가지 타입의 확률에 의해 설명될 수 있다. 상기 2가지 타입의 확률은 천이 확률 및 심볼 관측 확률이다. 일반적인 HMM은 상기 <수학식 13>과 같이 표현된다.

만약, 동작 또는 얼굴 표현의 수가 N 이면, N 훈련 모델 중 사전(H₁, H₂, ..., H_N)이 존재하고, A 및 B는 Baum-Welch 훈련 추정 알고리즘에 의해 반복적으로 훈련될 수 있다.

상태의 수는 경험적으로 결정될 수 있고, 상태의 수가 증가하는 것은 전체적인 인체 동작 또는 얼굴 표정 인식률에 큰 영향을 미치지 않는다.

본 발명의 실시 예에서, 동작 또는 얼굴 표정을 모델링하기 위해 선택된 4가지 상태의 HMM의 예가 설명될 것이다. 또한, HMM의 각 상태로부터의 천이 확률과 동일한 값이 본 발명의 실시 예에서 설명될 것이다.

도 3a와 도 3b 및 도 3c는 본 발명의 실시 예에 따른 걷기, 뛰기, 줄넘기, 복싱, 앉기/서기 등의 서로 다른 동작의 깊이 이미지의 5가지 클래스에 대한 샘플 피쳐 추출 출력을 도시한 것이다.

도 3a는 걷기 동작의 깊이 이미지 시권스를 나타내고, 도 3b는 깊이 이미지에 대한 걷기, 뛰기, 줄넘기, 복싱, 앉기/서기 등의 서로 다른 동작의 원칙 요소를 나타낸 것으로, 전역적인 피쳐 특징을 나타낸다.

도 3c는 깊이 이미지에 대한 걷기, 뛰기, 줄넘기, 복싱, 앉기/서기 등의 서로 다른 동작의 독립 요소를 나타낸 것으로 팔, 다리 등과 같은 인체의 로컬 파트를 나타낸다. 상기 도 3c는 깊이 이미지의 예를 나타낸다.

도 4a, 도 4b 및 도 4c는 본 발명의 실시 예에 따른 분노, 즐거운, 슬픔, 놀람 등의 서로 다른 얼굴 표정 깊이 이미지의 4가지 클래스에 대한 샘플 피쳐 추출 출력을 도시한 것이다.

도 4a는 얼굴 표정의 깊이 이미지 시퀀스를 나타낸다. 도 4b는 깊이 얼굴 이미지의 원칙 요소 피쳐(전역적인 피쳐)를 나타내고, 도 4c는 깊이 얼굴 이미지의 독립 요소 피쳐를 나타낸 것으로, 입, 눈썹 등과 같은 인체의 로컬 파트를 나타낸다

도 5a는 본 발명의 실시 예에 따른 걷는 인체 동작에 대한 HMM의 훈련전 상태 사이의 기본 구조 및 천이 확률을 도시한 도면이고, 도 5b는 본 발명의 실시 예에 따른 걷는 인체 동작에 대한 HMM의 훈련후 상태 사이의 기본 구조 및 천이 확률을 도시한 도면이다. 도 5a 와 도 5b 는 왼쪽에서 오른쪽으로, 4가지 상태 걷기 HMM 구조를 나타내고, 상태 사이의 천이 확률을 단게별로(as a instance)로 나타낸 것이다.

상기 도 5a 를 참조하면, 훈련 전의 걷기 동작에 대한 HMM의 예를 도시한 것이다, 여기에서는 어떠한 상태에서라도 총 천이 확률은 1이다. 그리고, 확률들은 훈련 전에 균일하게 분포되어 있다(uniformly distributed).

상태 1로부터의 상태 1로의 천이 확률, 상태 2 및 상태 3로의 천이 확률은 모두 균일하게 0.333이다. 그리고 상태 2로부터 상태 3으로의 확률과 상태 2로부터 상태 4로의 확률도 0.333으로 설정된다. 상태 3으로부터는 단지 2개의 천이만이 있기 때문에, 각각의 확률은 0.5가 된다.그리고, 상태 4부터 상태 4로의 천이 확률은 1이다.

결과적으로, 다른 동작의 HMM의 천이 확률은 같은 방법에 따라 초기화된다. 추가적으로 관측 심볼 확률이 훈련 전에 균일하게 분포된다는 것을 알 수 있다.

상기 도 5b 를 참조하면 훈련 후의 걷기 모델을 각각 나타낸 것으로, 상태 사이의 천이 확률은 이미지 벡터의 ICA 피처의 LDA의 벡터 양자화 후에 획득한 디스크리트 관측 훈련 심볼 시퀀스를 기반으로 한 훈련에 의존한다.

마지박 상태로서, 예를 들면, 상태 4는 어떠한 상황에서도 상태 4로의 하나 의 천이만이 가능하다. 따라서, 마지막 상태로부터 천이 확률만이 훈련 후에 항상 1이 된다. 전술한 설명들은 얼굴 표정 HMM에도 적용 가능하다.

상태들로부터의 관측 심볼의 확률은 동작 또는 표정 HMM의 훈련 프로세스 하에서 훈련 심볼 시퀀스를 기반으로 파라미터 추정 후에 획득된다. 전술한 인식 방법에 따라서 복잡한 인체 동작 또는 표정들은 인식을 위해 효율적으로 모델링된다.

이제, 인체 동작 또는 얼굴 표정 인식 방법이 설명될 것이다.

도 6은 본 발명의 실시 예에 따른 인체 동작을 인식하기 위한 원칙 스텝(principal steps)을 도시한 것이다.

상기 도 6을 참조하면, 첫 번째로, 인식할 동작이 포함된 비디오 프레임이 입력된다(602 단계). 이후, 상기 동작이 포함된 비디오 프레임에서 깊이 및/또는 이진 형상 정보 ROI(Region of Interest)를 획득한다(604 단계).

깊이 및/또는 이진 형상 이미지의 테스팅 시퀀스가 가용하다면, 상기 테스팅 시퀀스는 이후의 과정을 위해서 행 벡터로 변환된다. 이후, LDA, ICA 그리고 PCA 피쳐 스페이스를 이용하여 피쳐 백터를 획득한다(606 단계).

이후, 심볼 시퀀스가 각각의 동작을 인식하기 위해 비디오 클립에서 깊이 및/또는 형상 이미지의 피쳐로부터 획득된다(608 단계). 여기에서, 피쳐 벡터가 획득된다면, 각각의 피쳐 벡터와 코드북 벡터 사이의 거리 측정의 도움과 함께 양자화된다. 코드북은 모든 동작 또는 표정의 이미지 벡터 상에서 벡터 양자화 알고리즘의 도움에 의해 설계될 수 있다.

피쳐 벡터에 있어서, 코드북에서 코드워드 벡터의 인덱스 번호는 심볼로서 선택되어 진다. 상기 심볼은 해당 피쳐 벡터로부터 최소 거리에 있다. 심볼 시퀀스를 획득한 후에는, 비디오 클립에서의 동작이 수행된다(610 단계). 즉, 적합한 모델을 선택한다.

만약, 클립에서 T 번호의 프레임이 존재한다면, T 번호의 깊이 및/또는 형상 이미지가 존재할것이다. 그리고 T 번호의 피쳐(F₁, F₂,...,F_T)도 존재할 것이다.

벡터 양자와 이후에, T 디스크리트 심볼(각각의 프레임당 하나의 심볼)이 O={o₁, o₂, ..., o_T}와 같이 획득된다. 심볼 시퀀스 O 는 모든 HMM 상에서, N 동작에서의 N 훈련 심볼의 사전(H₁, H₂, ...H_N)에 있는 P(O|H)에 따라 모델의 우도 확률(likelihood probabilitiy)을 계산하기 위해서 적용된다. 최대 우도(maximum likelihood)를 가지는 모델은 동작 비디오 클립을 테스트하기 위한 하나의 대표가 된다. 이를 이용하여 테스팅 비디오 클립 내의 동작이 인식될 수 있다.

HMM이 주어진 심볼 시퀀스의 우도는 포워드 알고리즘(forward algorithm)에 의해 계산된다. 따라서, 시간 t에서 관측 시퀀스(O)의 우도는 포워드 변수α를 이용하여 획득된다. 모델 H는 하기 수식과 같다.

이와 같이, 비디오 클립에서 복잡한 인체 동작을 인식하는 것이 가능하다.

도 7은 본 발명의 실시 예에 따른 인체 동작 또는 얼굴 표정을 인식하기 위한 원칙 스텝(principal steps)을 도시한 것이다. 상기 도 7은 상기 도 6에 얼굴 표정의 경우를 추가적으로 고려한 것이다.

상기 도 7을 참조하면, 첫 번째로, 테스팅 비디오 클립의 각각의 프레임으로부터, 인체의 깊이 및/또는 이진 형상 정보를 포함하는 이미지 또는 얼굴의 깊이 및/또는 RGB 이미지가 획득된다(702 단계). 이미지 시퀀스는 연속적인 이미지들을 나타낸다.

테스팅 이미지 시퀀스가 가용하다면, 상기 테스팅 시퀀스는 이후의 과정을 위해서 행 벡터로 변환된다. 이후, LDA, ICA 그리고 PCA 피쳐 스페이스를 이용하여 피쳐 백터를 획득한다(704 단계). 즉, 표현(또는 표정) 프로젝션을 구한다.

이후, 심볼 시퀀스(또는 Symbolized temporal signature)가 각각의 동작을 인식하기 위해 비디오 클립에서 깊이 및/또는 형상 이미지의 피쳐로부터 획득된다(706 단계).

여기에서, 피쳐 벡터가 획득된다면, 각각의 피쳐 벡터와 코드북 벡터 사이의 거리 측정의 도움과 함께 양자화된다. 코드북은 모든 동작의 이미지 벡터 상에서 벡터 양자화 알고리즘에 의해 설계될 수 있다. 피쳐 벡터에 있어서, 코드북에서 코드워드 벡터의 인덱스 번호는 심볼로서 선택되어 진다. 상기 심볼은 해당 피쳐 벡터로부터 최소 거리에 있다.

심볼 시퀀스를 획득한 후에는, 비디오 클립에서의 동작이 수행된다(708 단 계). 즉, 적합한 모델을 선택한다.

만약, 클립에서 T 번호의 프레임이 존재한다면, T 번호의 이미지가 존재할것이다. 그리고 T 번호의 피쳐(F₁, F₂,...,F_T)도 존재할 것이다.

벡터 양자와 이후에, T 디스크리트 심볼(각각의 프레임당 하나의 심볼)이 O={o₁, o₂, ..., o_T}와 같이 획득된다. 심볼 시퀀스 O 는 모든 HMM 상에서, N 동작에서의 N 훈련 심볼의 사전에 있는 P(O|λ)에 따라 모델의 우도 확률(likelihood probabilitiy)을 계산하기 위해서 적용된다.

최대 우도(maximum likelihood)를 가지는 모델은 동작 비디오 클립을 테스트하기 위한 하나의 대표가 된다. 이를 이용하여 테스팅 비디오 클립 내의 동작 또는 얼굴 표정이 인식될 수 있다.

HMM이 주어진 심볼 시퀀스의 우도는 포워드 알고리즘(forward algorithm)에 의해 계산된다. 따라서, 시간 t에서 관측 시퀀스(O)의 우도는 포워드 변수α를 이용하여 획득된다. 모델 H는 상기 <수학식 14>와 같다.

이와 같이, 비디오 클립에서 복잡한 인체 동작 또는 얼굴 표정을 인식하는 것이 가능하다. 특히, 본 발명은 인체 동작 또는 표정을 인체 또는 얼굴을 부분으로 나누지(segmenting) 않고서도 인식하는 것이 가능하다.

본 발명을 정리하면 하기와 같다. 먼저, 본 발명의 인체 동작 또는 표정 인식 모델링 방법은 하기와 같이 구성된다.

비디오 클립에서 추출한 인체 동작 또는 얼굴 표정의 깊이 및/또는 이진 형상 이미지 또는 RGB 얼굴 이미지의 원칙 요소를 획득하는 과정, 상기 원칙 요소를 기반으로 ICA 표현을 획득하는 과정, 상기 ICA 표현을 기반으로 LDA를 통해 피쳐를 결정하는 과정, 벡터 양자화를 이용하여 코드북을 획득하는 과정, 상기 비디오 클립에서 관측 심볼 시퀀스를 결정하는 과정, 그리고 상태 천이 및 관측 행렬을 기반으로 HMM을 이용하여 인체 동작 또는 얼굴 표정을 학습하는 과정으로 구성된다.

여기에서, 비디오 클립에서 추출된 인체 동작 또는 얼굴 표정의 깊이 및/또는 이진 형상 이미지 또는 RGB 얼굴 이미지의 원칙 요소를 획득하는 과정은 인체 동작 또는 얼굴 표정의 깊이 및/또는 이진 형상 이미지 또는 RGB 얼굴 이미지의 인체 표현 또는 얼굴 표정 표현을 기반으로 전체 이미지를 대표할 수 있는 적어도 하나의 원칙 요소를 획득하는 과정을 나타낸다.

여기에서, 원칙 요소를 기반으로 ICA 표현을 획득하는 과정은 상기 원칙 요소에서 서로 독립적인 ICA 표현을 획득하는 과정으로써, ICA 표현은 팔, 다리, 코, 눈 등에 집중한다.

ICA 표현을 기반으로 LDA를 통해 피쳐를 결정하는 과정은 인체 동작의 깊이 및/또는 이진 형상 이미지 또는 RGB 얼굴 이미지에서 ICA 표현을 서로 구분하기 위해 상기 ICA 표현의 특징을 강조하는 과정으로써. LDA 기법은 fisherface 방법이라고도 불리운다.

여기에서, 벡터 양자화를 이용하여 코드북을 획득하는 과정은 상기 LDA를 통해 결정한 피쳐들을 벡터 양자화를 이용하여 적어도 하나의 그룹으로 분류하는 과 정과 분류한 그룹에 코드를 부여하는 과정을 나타낸다.

여기에서, 비디오 클립에서 관측 심볼 시퀀스를 결정하는 과정은, 상기 코드북에 있는 코드를 이용하여 상기 비디오 클립이 어떠한 코드로 구성되고, 어떠한 코드 순서로 배열되는 지를 결정하는 과정으로써 예를 들어, 걷는 동작은 어느 그룹의 특성들이 어떠한 순서(observation symbol sequence)로 진행이 되는 지로 나타내다. 즉, 걷는 동작의 동영상 정보는 1, 6, 10, 25 특징그룹으로 이루어 지고, 이 들 그룹이 시간상 6 -> 10 ->1 -> 25의 순서로 나타내게 된다.

여기에서, 상태 천이 및 관측 행렬을 기반으로 HMM을 이용하여 인체 동작또는 얼굴 표정을 학습하는 과정은 각각의 인체 동작 또는 얼굴 표정마다 HMM을 생성하고, 상기 관측 심볼 시퀀스를 이용하여 각각의 HMM을 학습하는 과정을 나타낸다.

그리고, 본 발명의 인체 동작 또는 얼굴 표정 인식 방법은 하기와 같이 구성된다.

즉, 비디오 클립의 인체 동작 또는 얼굴 표정의 깊이 및/또는 이진 형상 이미지 또는 RRGB 얼굴 이미지에서 피쳐 벡터를 획득하는 과정, 상기 비디오 클립에서 관측 심볼 시퀀스를 획득하는 과정, 사전에 존재하는 모든 동작 또는 얼굴 표정 모델 중에서 우도 확률을 최대화하는 인체 동작 또는 얼굴 표정 모델을 결정하는 과정으로 구성된다.

여기서, 상기 사전에 존재하는 모든 동작 모델 중에서 우도 확률을 최대화하는 인체 동작 또는 얼굴 표정 모델을 결정하는 과정은, 인체 동작 또는 얼굴 표정 HMM 사전으로부터 우도 확률을 최대화하는 인체 동작 또는 얼굴 표정 모델을 결정 하는 과정을 나타낸다.

추가적으로, 본 발명에 따라, 인체 동작 또는 인체 얼굴 표정 모델링과 인식 방식은 컴퓨터상에서 프로그래밍 언어의 도움을 받아 코딩되고 실행가능하다. 추가적으로, 프로그램은 컴퓨터에서 판독가능한 미디어에 저장될 수 있다.

도 8은 본 발명의 실시 예에 따른 인체 동작 또는 얼굴 표정을 인식하기 위한 장치의 블록 구성을 도시한 도면이다.

상기 도 8을 참조하면, 상기 장치는 입력부(810), 출력부(815), 제어부(820), 저장부(830), 및 인식부(840)를 포함하여 구성된다.

상기 입력부(810)은 데이터를 제공받기 위한 입력 포트이고, 특히 본 발명에 따라 입력되는 데이터는 비디오 데이터가 될 수 있다.

상기 출력부(815)는 상기 장치가 판단한 동작 또는 얼굴 표정 등을 출력할 수 있다. 상기 출력부(815)는 문서로 출력할 수도 있고, 화면상에 출력될 수도 있다.

상기 제어부(820)는 상기 장치의 전반적인 동작을 제어한다. 특히, 본 발명에 따라 상기 인식부(840)를 제어한다.

상기 저장부(830)는 상기 장치의 전반적인 동작을 제어하기 위한 프로그램 및 프로그램 수행 중 발생하는 일시적인 데이터를 저장하는 기능을 수행한다. 특히 본 발명에 따라, 비디오 클립을 저장하거나 출력 데이터를 저장할 수 있다.

상기 인식부(840)는 전술한 인체 동작 또는 표정 인식을 수행한다. 즉, 상기 인식부(840)은 전술한 바와 같이 입력된 RGB 이미지 또는 깊이 이미지 또는 이진 형상 이미지로부터 펴쳐 추출과정 및 인식 과정을 수행한다.

상기 인식부(840)는 상기 피쳐 추출 과정에서, 해당 이미지 시퀀스로부터 원칙 요소, 독립 요소를 획득하고, 독립 요소의 가장 좋은 디스크리미넌트 피쳐를 획득한다.

상기 인식부(840)는 상기 인식 과정에서, 벡터 양자화 과정과, 훈련 HMM을 이용하여 인체 동작 또는 얼굴 표정을 인식한다.

상술한 블록 구성에서, 상기 제어부(820)는 상기 인식부(840)의 기능을 수행할 수 있다. 본 발명에서 이를 별도로 구성하여 도시한 것은 각 기능들을 구별하여 설명하기 위함이다.

따라서, 실제로 제품을 구현하는 경우에 상기 인식부(840)의 기능 모두를 상기 제어부(820)에서 처리하도록 구성할 수도 있으며, 상기 기능 중 일부만을 상기 제어부(820)에서 처리하도록 구성할 수도 있다.

도 9a는 본 발명의 실시 예에 따른 깊이 및 이진 형상 이미지 기반의 인체 동작 인식의 결과를 도시한 도면이고, 도 9b는 본 발명의 실시 예에 따른 본 발명의 접근 방식을 사용한 깊이 및 RGB 얼굴 이미지 기반의 얼굴 표정 인식의 결과를 도시한 도면이다.

상기 도 9a 및 도 9b를 참조하면, 본 발명에 따라, 깊이 이미지를 사용할 경우에 인식률이 더 높음을 알 수 있다.

전술한 설명에서, 벡터 양자화 및 HMM과 같은 시간 연속적인 정보 기반의 인식 엔진의 병합에서의 깊이 및/또는 이진 형상 정보 기반의 인체 표현 또는 깊이 및/또는 RGB 정보 기반의 인체 얼굴 표현 및 피쳐 추출은 효율적인 인체 동작 또는 얼굴 표정 모델링 및 인식 시스템을 생성할 수 있음은 명확하다.

전술한 본 발명에 따라, 서로 다른 인체 동작 또는 표정은 용이하게 모델링될 수 있고, 인체 동작 또는 표정을 인체 또는 얼굴을 부분으로 나누지(segmenting) 않고서도 용이하게 모델링하고 인식하는 것이 가능하다.

한편 본 발명의 상세한 설명에서는 구체적인 실시 예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시 예에 국한되어 정해져서는 아니 되며 후술하는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.

도 1은 본 발명의 실시 예에 따른 인체 동작 또는 표정 모델링 방법의 주요 단계를 도시한 흐름도,

도 2는 본 발명의 실시 예에 따른 인체 동작 또는 표정 모델링 방법의 주요 단계를 도시한 흐름도,

도 3a는 본 발명의 실시 예에 따른 걷기 동작의 깊이 이미지 시권스를 나타낸 도면,

도 3b는 본 발명의 실시 예에 따른 걷기, 뛰기, 줄넘기, 복싱, 앉기/서기와 같은 5가지의 동작 클래스의 깊이 이미지에 대한 원칙 요소 피처를 나타낸 도면,

도 3c는 본 발명의 실시 예에 따른 걷기, 뛰기, 줄넘기, 복싱, 앉기/서기와 같은 5가지의 동작 클래스의 깊이 이미지에 대한 독립 요소 피처를 나타낸ㄷ도면,

도 4a는 본 발명의 실시 예에 따른 분노, 즐거운, 슬픔, 놀람 등의 서로 다른 얼굴 표정 깊이 이미지 시퀀스를 도시한 도면,

도 4b는 본 발명의 실시 예에 따른 분노, 즐거운, 슬픔, 놀람 등의 서로 다른 얼굴 표정 깊이 이미지의 원칙 요소 피쳐를 도시한 도면,

도 4c는 본 발명의 실시 예에 따른 분노, 즐거운, 슬픔, 놀람 등의 서로 다른 얼굴 표정 깊이 이미지 시퀀스의 독립 요소를 도시한 도면,

도 5a는 본 발명의 실시 예에 따른 걷는 인체 동작에 대한 HMM의 훈련전 상태 사이의 기본 구조 및 천이 확률을 도시한 도면,

도 5b는 본 발명의 실시 예에 따른 걷는 인체 동작에 대한 HMM의 훈련후 상 태 사이의 기본 구조 및 천이 확률을 도시한 도면,

도 6은 본 발명의 실시 예에 따른 인체 동작을 인식하기 위한 원칙 스텝(principal steps)을 도시한 도면,

도 7은 본 발명의 실시 예에 따른 인체 동작 또는 얼굴 표정을 인식하기 위한 원칙 스텝(principal steps)을 도시한 도면,

도 8은 본 발명의 실시 예에 따른 인체 동작 또는 얼굴 표정을 인식하기 위한 장치의 블록 구성을 도시한 도면,

도 9a는 본 발명의 실시 예에 따른 깊이 및 이진 형상 이미지 기반의 인체 동작 인식의 결과를 도시한 도면, 및,

도 9b는 본 발명의 실시 예에 따른 본 발명의 접근 방식을 사용한 깊이 및 RGB 얼굴 이미지 기반의 얼굴 표정 인식의 결과를 도시한 도면.

Claims

인체 동작 모델링 방법에 있어서,

비디오 클립에서 추출한 인체 동작의 깊이 및/또는 이진 형상 이미지의 원칙 요소를 획득하는 과정과,

상기 원칙 요소를 기반으로 ICA 표현을 획득하는 과정과,

상기 ICA 표현을 기반으로 LDA를 통해 피쳐를 결정하는 과정과,

벡터 양자화를 이용하여 코드북을 획득하는 과정과,

상기 비디오 클립에서 관측 심볼 시퀀스를 결정하는 과정과,

상태 천이 및 관측 행렬을 기반으로 HMM을 이용하여 인체 동작을 학습하는 과정을 포함하는 것을 특징으로 하는 방법.
제 1항에 있어서,

상기 비디오 클립에서 추출된 인체 동작의 깊이 및/또는 이진 형상 이미지의 원칙 요소를 획득하는 과정은,

깊이 및/또는 이진 형상 이미지의 인체 표현을 기반으로 전체 이미지를 대표할 수 있는 적어도 하나의 원칙 요소를 획득하는 과정을 포함하는 것을 특징으로 하는 방법.
제 1항에 있어서,

상기 원칙 요소를 기반으로 ICA 표현을 획득하는 과정은,

상기 원칙 요소에서 서로 독립적인 ICA 표현을 획득하는 과정을 포함하는 것을 특징으로 하는 방법.
제 1항에 있어서,

상기 ICA 표현을 기반으로 LDA를 통해 피쳐를 결정하는 과정은,

깊이 및/또는 이진 형상 이미지에서 ICA 표현을 서로 구분하기 위해 상기 ICA 표현의 특징을 강조하는 과정을 포함하는 것을 특징으로 하는 방법.
제 1항에 있어서,

상기 벡터 양자화를 이용하여 코드북을 획득하는 과정은,

상기 LDA를 통해 결정한 피쳐들을 벡터 양자화를 이용하여 적어도 하나의 그룹으로 분류하는 과정과,

분류한 그룹에 코드를 부여하는 과정을 포함하는 것을 특징으로 하는 방법.
제 1항에 있어서,

상기 비디오 클립에서 관측 심볼 시퀀스를 결정하는 과정은,

상기 코드북에 있는 코드를 이용하여 상기 비디오 클립이 어떠한 코드로 구성되고, 어떠한 코드 순서로 배열되는 지를 결정하는 과정을 포함하는 것을 특징으로 하는 방법.
제 1항에 있어서,

상기 상태 천이 및 관측 행렬을 기반으로 HMM을 이용하여 인체 동작을 학습하는 과정은,

각각의 인체 동작마다 HMM을 생성하는 과정과,

상기 관측 심볼 시퀀스를 이용하여 각각의 HMM을 학습하는 과정을 포함하는 것을 특징으로 하는 방법.
제 1항에 있어서,

상기 비디오 클립은,

상태 천이와 심볼 관측 행렬을 기반으로한 HMM을 이용하여 표현되는 것을 특징으로 하는 방법.
인체 동작 인식 방법에 있어서,

비디오 클립의 인체 동작의 깊이 및/또는 이진 형상 이미지에서 피쳐 벡터를 획득하는 과정과,

상기 비디오 클립에서 관측 심볼 시퀀스를 획득하는 과정과,

사전에 존재하는 모든 동작 모델 중에서 우도 확률을 최대화하는 인체 동작 모델을 결정하는 과정을 포함하는 것을 특징으로하는 방법.
제 9항에 있어서,

상기 사전에 존재하는 모든 동작모델 중에서 우도 확률을 최대화하는 인체 동작 모델을 결정하는 과정은,

인체 동작 HMM 사전으로부터 우도 확률을 최대화하는 인체 동작 모델을 결정하는 과정을 포함하는 것을 특징으로 하는 방법.
얼굴 표정 모델링 방법에 있어서,

비디오 클립에서 추출한 얼굴 표정의 깊이 및/또는 RGB 얼굴 이미지의 원칙 요소를 획득하는 과정과,

상기 원칙 요소를 기반으로 ICA 표현을 획득하는 과정과,

상기 ICA 표현을 기반으로 LDA를 통해 피쳐를 결정하는 과정과,

벡터 양자화를 이용하여 코드북을 획득하는 과정과,

상기 비디오 클립에서 관측 심볼 시퀀스를 결정하는 과정과,

상태 천이 및 관측 행렬을 기반으로 HMM을 이용하여 얼굴 표정을 학습하는 과정을 포함하는 것을 특징으로 하는 방법.
제 11항에 있어서,

상기 비디오 클립에서 추출된 얼굴 표정의 깊이 및/또는 RGB 얼굴 이미지의 원칙 요소를 획득하는 과정은,

깊이 및/또는 RGB 얼굴 이미지 기반의 얼굴 표현을 기반으로 전체 이미지를 대표할 수 있는 적어도 하나의 원칙 요소를 획득하는 과정을 포함하는 것을 특징으로 하는 방법.
제 11항에 있어서,

상기 원칙 요소를 기반으로 ICA 표현을 획득하는 과정은,

상기 원칙 요소에서 서로 독립적인 ICA 표현을 획득하는 과정을 포함하는 것을 특징으로 하는 방법.
제 11항에 있어서,

상기 ICA 표현을 기반으로 LDA를 통해 피쳐를 결정하는 과정은,

깊이 및/또는 RGB 얼굴 이미지에서 ICA 표현을 서로 구분하기 위해 상기 ICA 표현의 특징을 강조하는 과정을 포함하는 것을 특징으로 하는 방법.
제 11항에 있어서,

상기 벡터 양자화를 이용하여 코드북을 획득하는 과정은,

상기 LDA를 통해 결정한 피쳐들을 벡터 양자화를 이용하여 적어도 하나의 그룹으로 분류하는 과정과,

분류한 그룹에 코드를 부여하는 과정을 포함하는 것을 특징으로 하는 방법.
제 11항에 있어서,

상기 비디오 클립에서 관측 심볼 시퀀스를 결정하는 과정은,

상기 코드북에 있는 코드를 이용하여 상기 비디오 클립이 어떠한 코드로 구성되고, 어떠한 코드 순서로 배열되는 지를 결정하는 과정을 포함하는 것을 특징으로 하는 방법.
제 11항에 있어서,

상기 상태 천이 및 관측 행렬을 기반으로 HMM을 이용하여 얼굴 표정을 학습하는 과정은,

각각의 얼굴 표정마다 HMM을 생성하는 과정과,

상기 관측 심볼 시퀀스를 이용하여 각각의 HMM을 학습하는 과정을 포함하는 것을 특징으로 하는 방법.
제 11항에 있어서,

상기 비디오 클립은,

상태 천이와 심볼 관측 행렬을 기반으로한 HMM을 이용하여 표현되는 것을 특징으로 하는 방법.
얼굴 표정 인식 방법에 있어서,

비디오 클립의 얼굴 표정의 깊이 및/또는 RGB 얼굴 이미지에서 피쳐 벡터를 획득하는 과정과,

상기 비디오 클립에서 관측 심볼 시퀀스를 획득하는 과정과,

사전에 존재하는 모든 얼굴 표정 모델 중에서 우도 확률을 최대화하는 얼굴 표정 모델을 결정하는 과정을 포함하는 것을 특징으로 하는 방법.
제 19항에 있어서,

상기 사전에 존재하는 모든 얼굴 표정 모델 중에서 우도 확률을 최대화하는 얼굴 표정 모델을 결정하는 과정은,

얼굴 표정 HMM 사전으로부터 우도 확률을 최대화하는 얼굴 표정 모델을 결정하는 과정을 포함하는 것을 특징으로 하는 방법.
인체 동작 모델링 장치에 있어서,

비디오 클립을 입력받는 입력부와,

상기 비디오 클립에서 추출한 인체 동작의 깊이 및/또는 이진 형상 이미지의 원칙 요소를 획득하고, 상기 원칙 요소를 기반으로 ICA 표현을 획득하고, 상기 ICA 표현을 기반으로 LDA를 통해 피쳐를 결정하고, 벡터 양자화를 이용하여 코드북을 획득하고, 상기 비디오 클립에서 관측 심볼 시퀀스를 결정하고, 상태 천이 및 관측 행렬을 기반으로 HMM을 이용하여 인체 동작을 학습하는 제어부와,

학습 결과를 출력하는 출력부를 포함하는 것을 특징으로 하는 장치.
제 21항에 있어서,

상기 제어부는,

깊이 및/또는 이진 형상 이미지의 인체 표현을 기반으로 전체 이미지를 대표할 수 있는 적어도 하나의 원칙 요소를 획득함으로써,

상기 비디오 클립에서 추출된 인체 동작의 깊이 및/또는 이진 형상 이미지의 원칙 요소를 획득하는 것을 특징으로 하는 장치.
제 21항에 있어서,

상기 제어부는,

상기 원칙 요소에서 서로 독립적인 ICA 표현을 획득함으로써,

상기 원칙 요소를 기반으로 ICA 표현을 획득하는 것을 특징으로 하는 장치.
제 21항에 있어서,

상기 제어부는,

깊이 및/또는 이진 형상 이미지에서 ICA 표현을 서로 구분하기 위해 상기 ICA 표현의 특징을 강조함으로써,

상기 ICA 표현을 기반으로 LDA를 통해 피쳐를 결정하는 것을 특징으로 하는 장치.
제 21항에 있어서,

상기 제어부는,

상기 LDA를 통해 결정한 피쳐들을 벡터 양자화를 이용하여 적어도 하나의 그룹으로 분류하고 분류한 그룹에 코드를 부여함으로써,

상기 벡터 양자화를 이용하여 코드북을 획득하는 것을 특징으로 하는 장치.
제 21항에 있어서,

상기 제어부는,

상기 코드북에 있는 코드를 이용하여 상기 비디오 클립이 어떠한 코드로 구성되고, 어떠한 코드 순서로 배열되는 지를 결정함으로써 상기 비디오 클립에서 관측 심볼 시퀀스를 결정하는 것을 특징으로 하는 장치.
제 21항에 있어서,

상기 제어부는,

각각의 인체 동작마다 HMM을 생성하고, 상기 관측 심볼 시퀀스를 이용하여 각각의 HMM을 학습함으로써 상기 상태 천이 및 관측 행렬을 기반으로 HMM을 이용하 여 인체 동작을 학습하는 것을 특징으로 하는 장치.
제 21항에 있어서,

상기 비디오 클립은,

상태 천이와 심볼 관측 행렬을 기반으로한 HMM을 이용하여 표현되는 것을 특징으로 하는 장치.
인체 동작 인식 장치에 있어서,

비디오 클립을 입력받는 입력부와,

상기 비디오 클립에서 인체 동작의 깊이 및/또는 이진 형상 이미지에서 피쳐 벡터를 획득하고, 상기 비디오 클립에서 관측 심볼 시퀀스를 획득하고, 사전에 존재하는 모든 동작 모델 중에서 우도 확률을 최대화하는 인체 동작 모델을 결정하는 제어부와,

결정 결과를 출력하는 출력부를 포함하는 것을 특징으로 하는 장치.
제 29항에 있어서,

상기 제어부는,

인체 동작 HMM 사전으로부터 우도 확률을 최대화하는 인체 동작 모델을 결정함으로써 상기 사전에 존재하는 모든 동작모델 중에서 우도 확률을 최대화하는 인체 동작 모델을 결정하는 것을 특징으로 하는 장치.
얼굴 표정 모델링 장치에 있어서,

비디오 클립을 입력받는 입력부와,

상기 비디오 클립에서 추출한 얼굴 표정의 깊이 및/또는 RGB 얼굴 이미지의 원칙 요소를 획득하고, 상기 원칙 요소를 기반으로 ICA 표현을 획득하고, 상기 ICA 표현을 기반으로 LDA를 통해 피쳐를 결정하고, 벡터 양자화를 이용하여 코드북을 획득하고, 상기 비디오 클립에서 관측 심볼 시퀀스를 결정하고, 상태 천이 및 관측 행렬을 기반으로 HMM을 이용하여 얼굴 표정을 학습하는 제어부와,

학습 결과를 출력하는 출력부를 포함하는 것을 특징으로 하는 장치.
제 31항에 있어서,

상기 제어부는,

깊이 및/또는 RGB 얼굴 이미지 기반의 얼굴 표현을 기반으로 전체 이미지를 대표할 수 있는 적어도 하나의 원칙 요소를 획득함으로써 상기 비디오 클립에서 추출된 얼굴 표정의 깊이 및/또는 RGB 얼굴 이미지의 원칙 요소를 획득하는 것을 특 징으로 하는 장치.
제 31항에 있어서,

상기 제어부는,

상기 원칙 요소에서 서로 독립적인 ICA 표현을 획득함으로써 상기 원칙 요소를 기반으로 ICA 표현을 획득하는 것을 특징으로 하는 장치.
제 31항에 있어서,

상기 제어부는,

깊이 및/또는 RGB 얼굴 이미지에서 ICA 표현을 서로 구분하기 위해 상기 ICA 표현의 특징을 강조함으로써 상기 ICA 표현을 기반으로 LDA를 통해 피쳐를 결정하는 것을 특징으로 하는 장치.
제 31항에 있어서,

상기 제어부는,

상기 LDA를 통해 결정한 피쳐들을 벡터 양자화를 이용하여 적어도 하나의 그룹으로 분류하고, 분류한 그룹에 코드를 부여함으로써 상기 벡터 양자화를 이용하 여 코드북을 획득하는 것을 특징으로 하는 장치.
제 31항에 있어서,

상기 제어부는,

상기 코드북에 있는 코드를 이용하여 상기 비디오 클립이 어떠한 코드로 구성되고, 어떠한 코드 순서로 배열되는 지를 결정함으로써 상기 비디오 클립에서 관측 심볼 시퀀스를 결정하는 것을 특징으로 하는 장치.
제 31항에 있어서,

상기 제어부는,

각각의 얼굴 표정마다 HMM을 생성하고, 상기 관측 심볼 시퀀스를 이용하여 각각의 HMM을 학습함으로써 상기 상태 천이 및 관측 행렬을 기반으로 HMM을 이용하여 얼굴 표정을 학습하는 것을 특징으로 하는 장치.
제 31항에 있어서,

상기 비디오 클립은,

상태 천이와 심볼 관측 행렬을 기반으로한 HMM을 이용하여 표현되는 것을 특 징으로 하는 장치.
얼굴 표정 인식 장치에 있어서,

비디오 클립을 입력받는 입력부와,

상기 비디오 클립에서 얼굴 표정의 깊이 및/또는 RGB 얼굴 이미지에서 피쳐 벡터를 획득하고, 상기 비디오 클립에서 관측 심볼 시퀀스를 획득하고, 사전에 존재하는 모든 동작 모델 중에서 우도 확률을 최대화하는 인체 동작 모델을 결정하는 제어부와,

결정 내용을 출력하는 출력부를 포함하는 것을 특징으로 하는 장치.
제 39항에 있어서,

상기 제어부는,

인체 동작 HMM 사전으로부터 우도 확률을 최대화하는 얼굴 표정 모델을 결정함으로써, 상기 사전에 존재하는 모든 동작모델 중에서 우도 확률을 최대화하는 인체 동작 모델을 결정하는 것을 특징으로 하는 장치.