KR20060097400A - 가상의 격자형 평면을 이용한 동작 인식 방법 - Google Patents

가상의 격자형 평면을 이용한 동작 인식 방법 Download PDF

Info

Publication number
KR20060097400A
KR20060097400A KR1020050019711A KR20050019711A KR20060097400A KR 20060097400 A KR20060097400 A KR 20060097400A KR 1020050019711 A KR1020050019711 A KR 1020050019711A KR 20050019711 A KR20050019711 A KR 20050019711A KR 20060097400 A KR20060097400 A KR 20060097400A
Authority
KR
South Korea
Prior art keywords
motion
image
lattice plane
virtual lattice
recognition
Prior art date
Application number
KR1020050019711A
Other languages
English (en)
Other versions
KR100679645B1 (ko
Inventor
이칠우
오재용
배기태
김만진
송철수
Original Assignee
전남대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전남대학교산학협력단 filed Critical 전남대학교산학협력단
Priority to KR1020050019711A priority Critical patent/KR100679645B1/ko
Publication of KR20060097400A publication Critical patent/KR20060097400A/ko
Application granted granted Critical
Publication of KR100679645B1 publication Critical patent/KR100679645B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • G06T7/41Analysis of texture based on statistical description of texture

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명은 영상내에 존재하는 인식대상(행위자)의 동작을 최적의 수치화된 모델을 통하여 표현함으로써 인식대상의 동작을 명확하게 구별할 수 있도록 한 가상의 격자형 평면을 이용한 동작 인식 방법에 관한 것으로, 스테레오 영상 획득 장치가 인식대상의 영상을 획득하는 제 1과정; 특징 추출 장치가, 입력되는 상기 영상의 정보를 기반으로 가상의 격자형 평면을 구성시키고, 그 구성시킨 가상의 격자형 평면을 이용하여 상기 입력영상의 동작에 대한 매 프레임마다의 특징벡터를 추출하는 제 2과정; 자세코드 시퀀스 생성기가, 입력되는 상기 매 프레임마다의 특징벡터를, 모델 동작 학습기를 통해 얻어진 동작공간에서 가장 가까운 거리를 갖는 자세코드로 변환하여 자세코드 시퀀스를 생성하는 제 3과정; 및 동작 인식기가, 입력되는 상기 매 프레임의 자세코드 시퀀스를, 학습에 의해 미리 형성된 모델 동작과 비교하여 상기 입력영상의 동작을 최종적으로 인식하는 제 4과정을 구비한다.
영상, 가상, 격자형 평면, 은닉마르코프 모델, 특징벡터, 동작인식

Description

가상의 격자형 평면을 이용한 동작 인식 방법{Gesture recognition method using a virtual trellis plane}
도 1은 본 발명이 채용되는 장치의 개략적인 구성도,
도 2는 도 1에 도시된 특징 추출 장치의 내부 구성도,
도 3은 도 2에 도시된 전경 추출기에 대한 설명에 채용되는 화면예,
도 4 내지 도 6은 도 2에 도시된 가상 평면 변형기에 대한 설명에 채용되는 화면예,
도 7은 도 1에 도시된 모델 동작 학습기에 대한 설명에 채용되는 동작공간의 일예,
도 8은 본 발명의 실시예에 따른 가상의 격자형 평면을 이용한 동작 인식 방법을 설명하는 플로우차트이다.
< 도면의 주요부분에 대한 부호의 설명 >
10 : 동작 학습 장치 12 : 동작 영상 데이터베이스
14, 24 : 특징 추출 장치 16 : 모델 동작 학습기
20 : 동작 인식 장치 22 : 스테레오 영상 획득 장치
26 : 자세코드 시퀀스 생성기 28 : 동작 인식기
30 : 시차 영상 생성기 32 : 얼굴 영역 탐색기
34 : 전경 추출기 36 : 가상 평면 변형기
38 : 특징 추출기
본 발명은 가상의 격자형 평면을 이용한 동작 인식 방법에 관한 것으로, 보다 상세하게는 3차원 공간에서 변형가능한 가상의 격자형 평면을 이용하여 최적의 동작 인식을 행하도록 한 방법에 관한 것이다.
동작 인식(Gesture Recognition) 기술은 인간의 동작을 분석하여 그 의미를 자동으로 파악하는 기술을 일컫는다. 일반적인 동작 인식 기술은 특징 추출, 분석, 학습, 인식의 단계로 구성된다. 카메라 혹은 센서로부터 움직임 정보를 취득하고, 이로부터 동작을 구별할 수 있는 특징정보를 추출한 뒤, 추출된 특징정보와 미리 학습된 동작 모델을 비교하여 행위자가 어떤 동작을 행했는지를 인식하게 된다.
그러나, 인간의 동작은 3차원 공간에서 매우 복잡한 구조를 가지고 있기 때문에 그 움직임을 수치적으로 정량화하는 일은 매우 어렵다. 인간의 동작을 분석하고 인식하기 위하여 사용되는 방법은 특징 추출과 인식 방법에 따라 몇 가지로 분류될 수 있다.
첫째, 동작을 정량화하는 가장 기초적인 방법으로 물리적인 센서를 이용하는 방법이 있다. 이 방법은 동작 인식의 대상 즉, 인체에 광학식 센서 또는 자기식 센서를 부착하고 이로부터 획득되는 데이터를 분석하는 방법으로 초기에 많이 사용되었다. 그러나, 이 방법은 물리적인 장치를 부착해야 하며, 장비가 고가라는 단점 때문에 현재는 정확한 모션 데이터 측정을 필요로 하는 모션 캡쳐 분야 이외에는 많이 사용되지 않고 있다.
앞서 언급한대로 신체에 장비를 부착하는 방법은 사용이 번거롭고, 행동의 제약을 받기 쉽다. 이러한 이유에서 센서의 부착이 없이 카메라를 통해 입력되는 영상을 이용한 동작 인식 방법이 사용되며, 다양한 영상처리 기술이 응용된다. 먼저, 손과 발, 몸통 등과 같이 동작을 분석하는데 특징이 되는 신체 부위의 시공간적 궤적을 분석함으로써 동작을 인식하는 특징 기반의 인식 방법이 있다.
또, 영상의 기하학적 특징을 이용하지 않고 영상 자체가 가지는 음영정보를 그대로 이용하는 MHI(Motion History Image), MEI(Motion Energy Image)의 방법이 있다. 이 방법들은 인식 환경이 인식 대상으로부터 독립적이라는 장점이 있지만, 조명 조건 등 주위 환경에 많은 영향을 받으며, 정밀한 인식이 불가능하다는 단점을 가지고 있다. 이러한 불안정한 요인을 제거하기 위하여 영상으로부터 3차원 정보를 추출하여 이를 동작 인식에 사용하기도 한다. 2차원 영상이 갖는 동작의 모호성을 극복할 수 있는 방법이기는 하지만, 계산량이 많고, 오류에 민감하기 때문에 실제 시스템에 적용하기에는 더 많은 연구가 필요하다.
종래의 동작 인식 기술은 상술한 바와 같이 많은 문제점을 가지고 있기 때문에 실생활에 적용되는데 무리가 따른다.
본 발명은 상기한 종래의 문제점을 해결하기 위해 제안된 것으로, 영상내에 존재하는 인식대상(행위자)의 동작을 최적의 수치화된 모델을 통하여 표현함으로써 인식대상의 동작을 명확하게 구별할 수 있도록 한 가상의 격자형 평면을 이용한 동작 인식 방법을 제공함에 그 목적이 있다.
상기와 같은 목적을 달성하기 위하여 본 발명의 바람직한 실시예에 따른 가상의 격자형 평면을 이용한 동작 인식 방법은, 스테레오 영상 획득 장치가 인식대상의 영상을 획득하는 제 1과정; 특징 추출 장치가, 입력되는 상기 영상의 정보를 기반으로 가상의 격자형 평면을 구성시키고, 그 구성시킨 가상의 격자형 평면을 이용하여 상기 입력영상의 동작에 대한 매 프레임마다의 특징벡터를 추출하는 제 2과정; 자세코드 시퀀스 생성기가, 입력되는 상기 매 프레임마다의 특징벡터를, 모델 동작 학습기를 통해 얻어진 동작공간에서 가장 가까운 거리를 갖는 자세코드로 변환하여 자세코드 시퀀스를 생성하는 제 3과정; 및 동작 인식기가, 입력되는 상기 매 프레임의 자세코드 시퀀스를, 학습에 의해 미리 형성된 모델 동작과 비교하여 상기 입력영상의 동작을 최종적으로 인식하는 제 4과정을 구비한다.
바람직하게, 상기 제 2과정은, 상기 입력되는 영상으로부터 시차 영상 및 얼굴 영역을 추출하는 제 1단계; 상기 추출된 얼굴 영역을 기준으로 인식대상의 신체 영역(전경 영역)을 추출하는 제 2단계; 상기 추출된 얼굴 영역의 위치를 기준으로 가상의 격자형 평면을 구성시킨 후에 인식대상의 동작에 따라 상기 가상의 격자형 평면을 변형시키는 제 3단계; 및 상기 변형된 가상의 격자형 평면이 가지는 위치 정보를 이용하여 매 프레임마다의 특징 벡터를 추출하는 제 4단계로 구성된다.
그리고, 상기 제 1단계에서 추출되는 시차 영상은, 상기 촬상수단으로부터 동시에 입력되는 인식대상의 왼쪽과 오른쪽의 영상의 거리 정보를 포함하고, 상기 제 2단계는 상기 추출된 얼굴 영역에 대한 시차 영상에서의 평균 밝기값으로 계산하되, 상기 얼굴 영역의 밝기값보다 어두운 화소값을 가지는 시차 영상의 영역을 제거함에 의해 행해진다.
또, 상기 제 3단계는, 상기 인식대상의 신체 영역을 포함하는 최소의 사각형 면적을 구하고, 상기 구한 최소의 사각형 면적의 가장자리에서부터 중심 방향으로 탐색을 시작하되 제로(zero)가 아닌 화소를 만날 때까지 반복하여 상기 최소의 사각형 면적의 외곽선 정보를 얻은 후에, 상기 외곽선 정보에 의해 구축한 외곽선 영역의 내부에 각 노드를 배치시키고서 각 노드의 거리 정보를 이용하여 촬상수단과 상기 인식대상을 잇는 축으로 상기 가상의 격자형 평면을 변형시킨다.
그리고, 상기 제 4과정의 모델 동작은 은닉 마르코프 모델 이론에 의해 형성된 것이고, 상기 제 4과정은 상기 매 프레임마다 얻어진 자세코드 시퀀스와 상기 모델 동작에 따라 학습된 은닉 마르코프 모델과의 확률값을 비교하여 가장 높은 확률값을 가지는 동작으로 최종 인식한다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예에 따른 가상의 격자형 평면을 이용한 동작 인식 방법에 대하여 설명하면 다음과 같다.
도 1은 본 발명이 채용되는 장치의 개략적인 구성도이고, 도 2는 도 1에 도시된 특징 추출 장치의 내부 구성도이다.
도 1의 장치는 동작 학습 장치(10)와 동작 인식 장치(20)로 구성된다. 동작 학습 장치(10)는 인식대상(행위자)의 동작을 오프라인에서 학습시키고 학습된 결과(동작 학습 데이터)를 출력하는데, 미리 촬영된 동작 영상 정보가 저장된 동작 영상 데이터베이스를 바탕으로 각 동작의 특징벡터를 분석하여 동작을 구별하는 저차원의 기준벡터를 생성한다. 동작 인식 장치(20)는 스테레오 카메라를 통하여 입력된 영상을 특징벡터로 변환시키고 그 특징벡터를 상기 동작 학습 장치(10)로부터의 정보(예컨대, 동작 학습 데이터(동작공간 정보))와의 비교를 통해 자세코드 시퀀스로 변환시킨 후 최종 동작 결과는 각 모델 동작(은닉 마르코프 모델(Hidden Markov Models; 이하 HMM이라 함) 이론에 의해 형성된 동작)과 비교하여 가장 높은 확률값을 가지는 동작으로 결정하는 동작 인식 장치(20)로 구성된다.
상기 동작 학습 장치(10)는 미리 촬영된 다수의 동작 영상 정보가 저장되어 있는 동작 영상 데이터베이스(12); 입력된 스테레오 영상으로부터 동작의 특징벡터를 추출하는 특징 추출 장치(14); 및 다양한 자세(모델 동작)의 시간상의 변화를 학습시키고 그 학습 결과를 상기 동작 인식 장치(20)에게로 제공하는 모델 동작 학습기(16)로 구성된다.
상기 동작 영상 데이터베이스(12)내의 동작 영상 정보는 스테레오 카메라로부터 입력받은 좌/우 영상을 포함한다. 상기 동작 영상 정보는 그 두 장의 영상으로부터 시차 영상을 생성할 수 있어야 하며, 얼굴 영역의 탐색에도 문제가 없도록 화질과 해상도가 보장되면 된다.
상기 특징 추출 장치(14)는 동작 학습 장치(10) 뿐만 아니라 동작 인식 장치(20)내에도 갖추어지는 것으로서, 그 특징 추출 장치(14)는 동작 인식 장치(20)의 특징 추출 장치(24)와 내부 구성이 동일하므로 이하에서는 동작 학습 장치(10)내의 특징 추출 장치(14)에 대해서 설명하고 동작 인식 장치(20)내의 특징 추출 장치(24)의 내부 구성 설명은 하기의 설명으로 갈음한다. 상기 특징 추출 장치(14)의 내부 구성을 도 2를 참조하여 살펴보면, 시차 영상 생성기(30); 얼굴 영역 탐색기(32); 전경 추출기(34); 가상 평면 변형기(36); 및 특징 추출기(38)로 구성된다.
상기 시차 영상 생성기(30)는 입력된 스테레오 영상으로부터 시차(disparity) 영상을 계산한다. 이 시차 영상 생성기(30)는 왼쪽과 오른쪽에서 동시에 입력되는 두 장의 영상을 이용하여 카메라로부터의 거리 정보를 포함하는 시차 영상을 생성한다. 상기 시차 영상 생성기(30)에는 시차 영상을 생성하는 통상적인 알고리즘이 적용되고, 명확한 시차 영상을 얻을수록 인식률은 향상된다.
상기 얼굴 영역 탐색기(32)는 입력된 스테레오 영상(기준 영상(컬러))에서 얼굴 영역을 탐색한다. 이 얼굴 영역 탐색기(32)에 의해 탐색된 얼굴 영역은 추후 전경 추출 및 가상의 격자형 평면의 위치를 결정하는 기준으로 사용된다. 그리고, 상기 얼굴 영역은 인식대상(행위자)의 눈, 코, 입을 포함하는 사각 영역이다.
상기 전경 추출기(34)는 탐색된 인식대상(행위자)의 얼굴 영역을 기준으로 전경 영역(foreground region; 행위자의 신체 영역을 의미함)을 추출한다. 도 3에 예시한 바와 같은 입력 영상에 대해 시차 영상 생성기(30)에 의해 시차 영상이 생성되고, 전경 추출기(34)에 의해 전경 영역이 추출된다. 상기 전경 추출기(34)는 거리 정보 기반의 전경 추출 방법을 사용한다. 즉, 탐색된 얼굴 영역에 대한 시차 영상에서의 평균 밝기값을 계산한다. 스테레오 카메라로부터 먼 거리의 시차 영상은 상대적으로 어두운 화소 값을 가진다는 시차 영상의 특징에 따라 얼굴 영역의 밝기 값보다 어두운 화소 값을 가지는 시차 영상의 영역을 제거한다(식 1 참조).
(식 1)
Figure 112005012552420-PAT00001
여기서,
Figure 112005012552420-PAT00002
: 시차 영상
Figure 112005012552420-PAT00003
의 화소 값,
Figure 112005012552420-PAT00004
: 얼굴 영역의 거리,
Figure 112005012552420-PAT00005
: 상수를 의미한다.
그리고, 상기 가상 평면 변형기(36)는 추출된 전경 영역(시차 영상 및 얼굴 영역을 이용하여 생성)을 바탕으로 동작의 특징벡터를 추정한다. 즉, 탐색된 얼굴 영역(도 4의 좌측 화면)의 위치를 기준으로 가상의 격자형 평면(도 4의 우측 화면)을 구성시킨 후에 인식대상(행위자; 도 4의 좌측 화면)의 동작에 따라 그 가상의 격자형 평면(도 4의 우측 화면)을 변형시킨다. 상기 변형된 가상의 격자형 평면의 형태 정보는 추후에 특징 추출기(38)에 의해 동작의 특징으로 결정된다.
상기 가상의 격자형 평면은 도 4의 우측 화면과 같은 초기 형태를 가지며, 행위자의 동작에 따라 도 5의 화면과 같이 2차원 혹은 3차원으로 변형된다. 상기 가상의 격자형 평면은 다음과 같은 순서에 의해 변형된다.
1) 전경 영역을 포함하는 최소의 사각형 면적을 구한다.
2) 이 사각형 면적의 가장 자리에서부터 사각형 면적의 중심 방향으로 탐색을 시작하며, 제로(zero)가 아닌 화소를 만날 때까지 이를 반복한다(사각형 면적의 아래 노드는 탐색하지 않는다).
3) 2) 단계의 결과 도 6의 좌측 화면과 같은 외곽선 정보를 얻을 수 있다.
4) 다음 단계로 도 6의 우측 화면과 같이 외곽선 영역의 내부에 각 노드를 골고루 배치시킨다.
5) 각 노드의 3차원 거리 정보를 이용하여 z축(스테레오 카메라와 행위자를 잇는 축)으로 가상의 격자형 평면을 변형시킨다.
상기 변형된 가상의 격자형 평면은 각 노드마다 3차원 공간에서의 위치 정보를 가지고 있다. 따라서, 상기 변형된 가상의 격자형 평면의 가로/세로 해상도에 따라 하기의 식 2와 같이 특징벡터의 차원이 결정된다.
(식 2)
Figure 112005012552420-PAT00006
여기서,
Figure 112005012552420-PAT00007
는 특징벡터,
Figure 112005012552420-PAT00008
는 평면의 각 노드(각 노드는 x축, y축, z축 위 치 정보를 가짐),
Figure 112005012552420-PAT00009
은 가상의 격자형 평면의 가로
Figure 112005012552420-PAT00010
세로 해상도를 의미한다.
예를 들어, 15
Figure 112005012552420-PAT00011
10의 해상도를 갖는 가상의 격자형 평면을 사용하는 경우, 상기 특징 추출기(38)에서는 매 프레임마다 15 ×10 ×3 = 450 차원의 특징벡터를 얻을 수 있다.
그리고, 도 1의 모델 동작 학습기(16)는 상기 특징 추출 장치(14)에 의해 얻어진 고차원의 특징벡터를 저차원의 특징벡터(기준벡터)로 축약시킨다. 즉, 특징 추출 장치(14)에 의해 얻어진 특징 벡터는 고차원의 특성을 가지며 직관적이지 못하기 때문에, 특징벡터의 분석을 위하여 주성분 분석법(principle component analysis)을 사용한다. 본 발명에서 사용하는 주성분 분석법은 이미 공지의 내용이고, 그 공지의 주성분 분석법은 김기영, 전명석, "다변량 통계 자료 분석", 자유 아카데미 2002 등에 설명되어 있다.
그 결과 학습영상으로부터 저차원의 특징벡터(기준벡터)를 얻을 수 있다. 이 저차원의 특징벡터(기준벡터)로 구성된 공간을 동작공간이라고 하며, 그 동작공간은 도 7과 같다. 또한, 동작은 자세의 시간적인 변화로 표현될 수 있다. 예를 들어, "손 흔들기" 동작의 경우, 팔이 바깥에 있는 자세와 안쪽에 있는 자세로 구분되며, 이들 자세의 변화에 의해서 동작이 정의된다. 따라서, 모델 동작 학습기(16)에서는 이러한 자세의 시간상의 변화를 학습시키며, 학습을 위하여 HMM을 이용한다.
그리고, 도 1에서 동작 인식 장치(20)는 스테레오 영상 획득 장치(22); 특징 추출 장치(24); 자세코드 시퀀스 생성기(26); 및 동작 인식기(28)로 구성된다.
상기 스테레오 영상 획득 장치(22)는 스테레오 카메라를 포함하고, 매 초 10프레임 이상의 영상 획득이 가능하며, 입력된 영상은 로오(raw) 포맷(RGB) 형태의 접근이 가능하다.
상기 자세코드 시퀀스 생성기(26)는 상기 모델 동작 학습기(16)를 통해 얻어진 동작공간을 입력동작을 비교하는 기준으로 사용한다. 각 모델 자세는 자세코드(숫자 혹은 문자)로 표현되며, 입력 영상은 동작공간에서 가장 가까운 거리를 갖는 자세코드로 표현된다. 또한, 동작은 자세의 시간상의 변화로 표현할 수 있으며, 일정 시간 동안의 자세코드를 분석함으로서 행위자의 동작을 인식하게 된다. 상기 자세코드 시퀀스 생성기(26)는 자세코드를 큐 형태의 버퍼에 계속 입력시키게 되는데, 큐에 들어 있는 자세코드의 집합을 자세코드 시퀀스라고 한다.
상기 동작 인식기(28)는 상기 자세코드 시퀀스 생성기(26)로부터 제공되는 자세 코드 시퀀스를 HMM이론을 통하여 최종 인식한다. 즉, 상기 동작 인식기(28)에서는 HMM이론에 의하여, 매 프레임 얻어지는 자세코드 시퀀스와 모델 동작에 따라 학습된 HMM과의 확률값을 비교하고 가장 높은 확률값을 가지는 동작으로 최종 인식 한다. 그 HMM이론은 이미 공지의 내용이며, 그 공지의 HMM이론에 대해서는 L. R. Rabiner and B. H. Juang, "introduction to Hidden Markov Models", IEEE ASP Mag. pp. 4-16, Jun. 1986 등에 이미 설명되어 있다.
또한, 상기 동작 인식기(28)는 가상의 격자형 평면 정보를 이용하여 행위자의 지시 방향을 쉽게 추정할 수 있다. 가상의 격자형 평면의 노드들 중에서 가장 변형이 많은 점을 첨점(peak point)으로 결정하고, 얼굴 영역과 이 점을 지나는 벡터를 지시 방향 벡터로 결정할 수 있다. 이 지시 방향 벡터는 정확한 지시 위치보다는 개략적인 방향 정보를 쉽고 빠르게 추정할 수 있다는 장점이 있다.
이어, 본 발명의 실시예에 따른 가상의 격자형 평면을 이용한 동작 인식 방법에 대하여 도 8의 플로우차트를 참조하여 설명하면 다음과 같다.
동작 인식 장치(20)내의 스테레오 영상 획득 장치(22)에서는 스테레오 카메라를 통해 인식대상(행위자)에 대한 스테레오 영상을 획득하고(S10), 그 획득한 스테레오 영상을 특징 추출 장치(24)에게로 전송한다.
그 특징 추출 장치(24)에게로 입력된 스테레오 영상은 해당 특징 추출 장치(24)내의 시차 영상 생성기(30) 및 얼굴 영역 탐색기(32)에게로 입력된다. 그에 따라, 그 시차 영상 생성기(30)는 입력된 스테레오 영상으로부터 시차 영상을 계산해 내고, 얼굴 영역 탐색기(32)는 입력된 스테레오 영상으로부터 얼굴 영역을 탐색해 낸다(S12).
이 후, 그 계산된 시차 영상과 탐색된 얼굴 영역은 전경 추출기(34)에게로 전송되고, 그 전경 추출기(34)에서는 거리 정보 기반의 전경 추출방법을 사용하여 전경 영역(행위자의 신체 영역) 추출을 행한다(S14). 즉, 전경 추출기(34)는 상기 탐색된 얼굴 영역에 대한 시차 영상에서의 평균 밝기값을 계산하되, 얼굴 영역의 밝기값보다 어두운 화소값을 가지는 시차 영상의 영역을 제거하는 방식으로 전경 영역을 추출한다.
그 전경 추출기(34)에 의해 추출된 전경 영역(도 3 참조)은 가상 평면 변형기(36)에게로 전송된다. 그 가상 평면 변형기(36)에서는 얼굴 영역의 위치를 기준으로 도 4에서와 같이 가상의 격자형 평면을 구성시킨 뒤에 행위자의 동작에 따라 가상의 격자형 평면을 변형시킨다(S16). 상기 변형되는 가상의 격자형 평면은 행위자의 동작에 따라 2차원 또는 3차원으로 변형되는데, 변형되는 순서는 이미 상술하였다.
상기 행위자의 동작에 따라 변형된 가상의 격자형 평면은 각 노드마다 3차원 공간에서의 위치 정보를 가지고 있으며, 그러한 위치 정보가 포함된 변형된 가상의 격자형 평면은 특징 추출기(38)에게로 전송되고, 그 특징 추출기(38)에 의해 인식대상(행위자)의 동작에 상응하는 매 프레임마다의 소정 차원의 특징벡터가 추출된다(S18).
그 특징 추출기(38)에서 출력되는 특징벡터는 자세코드 시퀀스 생성기(26)에게로 전송된다. 그 자세코드 시퀀스 생성기(26)는 동작 학습 장치(10)내의 모델 동작 학습기(16)에서 제공되는 동작 학습 데이터(즉, 동작공간)를 상기 입력된 입력동작(즉, 특징 추출기(38)로부터의 특징벡터)을 비교하는 기준으로 사용한다. 그 자세코드 시퀀스 생성기(26)에서는 입력되는 특징벡터를 동작공간과 비교하여 가장 가까운 거리를 갖는 자세코드로 표현한다. 동작은 자세의 시간상의 변화로 표현할 수 있으므로 입력동작의 변화에 상응하는 자세코드를 생성하고, 그 생성되는 자세코드들을 큐 형태의 버퍼에 계속 입력시킨다. 그 큐에 들어 있는 자세코드의 집합을 자세코드 시퀀스라고 하고, 그 자세코드 시퀀스 생성기(26)에서 생성된 자세코드 시퀀스는 동작 인식기(28)에게로 전송된다(S20).
그 동작 인식기(28)에서는 HMM이론에 의하여, 매 프레임마다 얻어지는 자세코드 시퀀스와 모델 동작에 따라 학습된 HMM과의 확률값을 비교한다. 그 비교결과, 매 프레임마다 얻어지는 각각의 자세코드들에 대하여 가장 높은 확률값을 가지는 동작으로 최종 결정한다(S22).
이상 상세히 설명한 바와 같이 본 발명에 따르면, 스테레오 카메라를 기반으로 하는 동작 인식 시스템에 가상의 격자형 평면 알고리즘을 적용함으로써, 효과적인 동작 인식 시스템을 구성할 수 있게 된다.
그리고, 본 발명에서는 3차원 공간에서 변형가능한 가상의 격자형 평면을 이용하여 동자의 특징을 표현하기 때문에 2차원적 특징벡터 사용시 발생할 수 있는 모호성을 줄이는 효과가 있다. 예를 들어 양손을 몸통 앞쪽으로 뻗는 동작의 경우, 대상의 외곽정보(실루엣)만을 이용하여 표현하면 손을 뻗지 않은 동작과의 구별이 모호한 경우가 발생하며, 정확한 동작 인식을 위하여 추가적인 정보가 필요하다. 본 방법은 거리정보를 이용한 3차원 정보를 가상의 격자형 평면 알고리즘을 이용하 여 표현함으로써, 3차원적 특징을 효율적으로 나타낼 수 있다.
또한, 평면의 최소 변형 형태를 일반화함으로써 인식 대상에 독립적이며, 영상의 노이즈에 덜 민감한 동작 인식기를 구성할 수 있다. 또한, 가상의 격자형 평면을 이용하여 개략적인 행위자의 지시 방향을 쉽고 빠르게 추정할 수 있는 효과가 있다.
이와 같이 가상의 격자형 평면 알고리즘을 이용하면 보다 빠르고 효과적인 동작 인식 알고리즘의 구현이 가능하며, 실생활에 적용 가능한 동작 인식 시스템을 구성할 수 있는 효과가 있다.
한편, 본 발명은 상술한 실시예로만 한정되는 것이 아니라 본 발명의 요지를 벗어나지 않는 범위내에서 수정 및 변형하여 실시할 수 있고, 그러한 수정 및 변형이 가해진 기술사상 역시 이하의 특허청구범위에 속하는 것으로 보아야 한다.

Claims (8)

  1. 스테레오 영상 획득 장치가 인식대상의 영상을 획득하는 제 1과정;
    특징 추출 장치가, 입력되는 상기 영상의 정보를 기반으로 가상의 격자형 평면을 구성시키고, 그 구성시킨 가상의 격자형 평면을 이용하여 상기 입력영상의 동작에 대한 매 프레임마다의 특징벡터를 추출하는 제 2과정;
    자세코드 시퀀스 생성기가, 입력되는 상기 매 프레임마다의 특징벡터를, 모델 동작 학습기를 통해 얻어진 동작공간에서 가장 가까운 거리를 갖는 자세코드로 변환하여 자세코드 시퀀스를 생성하는 제 3과정; 및
    동작 인식기가, 입력되는 상기 매 프레임의 자세코드 시퀀스를, 학습에 의해 미리 형성된 모델 동작과 비교하여 상기 입력영상의 동작을 최종적으로 인식하는 제 4과정을 구비하는 것을 특징으로 하는 가상의 격자형 평면을 이용한 동작 인식 방법.
  2. 제 1항에 있어서,
    상기 제 2과정은, 상기 입력되는 영상으로부터 시차 영상 및 얼굴 영역을 추출하는 제 1단계; 상기 추출된 얼굴 영역을 기준으로 인식대상의 신체 영역(전경 영역)을 추출하는 제 2단계; 상기 추출된 얼굴 영역의 위치를 기준으로 가상의 격자형 평면을 구성시킨 후에 인식대상의 동작에 따라 상기 가상의 격자형 평면을 변형시키는 제 3단계; 및 상기 변형된 가상의 격자형 평면이 가지는 위치 정보를 이 용하여 매 프레임마다의 특징벡터를 추출하는 제 4단계로 구성되는 것을 특징으로 하는 가상의 격자형 평면을 이용한 동작 인식 방법.
  3. 제 2항에 있어서,
    상기 제 1단계에서 추출되는 시차 영상은, 상기 촬상수단으로부터 동시에 입력되는 인식대상의 왼쪽과 오른쪽의 영상의 거리 정보를 포함하는 것을 특징으로 하는 가상의 격자형 평면을 이용한 동작 인식 방법.
  4. 제 2항에 있어서,
    상기 제 2단계는, 상기 추출된 얼굴 영역에 대한 시차 영상에서의 평균 밝기값으로 계산하되, 상기 얼굴 영역의 밝기값보다 어두운 화소값을 가지는 시차 영상의 영역을 제거함에 의해 행해지는 것을 특징으로 하는 가상의 격자형 평면을 이용한 동작 인식 방법.
  5. 제 4항에 있어서,
    상기 시차 영상의 화소값은 다음의 식
    Figure 112005012552420-PAT00012
    에 의해 얻어지고,
    상기 식에서 F(x,y)는 시차 영역(x, y)의 화소값이고, Df는 얼굴 영역의 거 리이며, c는 상수인 것을 특징으로 하는 가상의 격자형 평면을 이용한 동작 인식 방법.
  6. 제 2항에 있어서,
    상기 제 3단계는, 상기 인식대상의 신체 영역을 포함하는 최소의 사각형 면적을 구하고, 상기 구한 최소의 사각형 면적의 가장자리에서부터 중심 방향으로 탐색을 시작하되 제로(zero)가 아닌 화소를 만날 때까지 반복하여 상기 최소의 사각형 면적의 외곽선 정보를 얻은 후에, 상기 외곽선 정보에 의해 구축한 외곽선 영역의 내부에 각 노드를 배치시키고서 각 노드의 거리 정보를 이용하여 촬상수단과 상기 인식대상을 잇는 축으로 상기 가상의 격자형 평면을 변형시키는 것을 특징으로 하는 가상의 격자형 평면을 이용한 동작 인식 방법.
  7. 제 2항 또는 제 6항에 있어서,
    상기 제 4단계에서 얻어지는 특징벡터는 가상의 격자형 평면의 가로/세로 해상도에 따라 다음의 식
    Figure 112005012552420-PAT00013
    과 같은 차원이 결정되고,
    상기 식에서
    Figure 112005012552420-PAT00014
    는 특징벡터,
    Figure 112005012552420-PAT00015
    는 평면의 각 노드(각 노드는
    Figure 112005012552420-PAT00016
    축,
    Figure 112005012552420-PAT00017
    축,
    Figure 112005012552420-PAT00018
    축 위치 정보를 가짐),
    Figure 112005012552420-PAT00019
    은 가상의 격자형 평면의 가로
    Figure 112005012552420-PAT00020
    세로 해상도인 것을 특징으로 하는 가상의 격자형 평면을 이용한 동작 인식 방법.
  8. 제 1항에 있어서,
    상기 제 4과정의 모델 동작은 은닉 마르코프 모델 이론에 의해 형성된 것이고, 상기 제 4과정은 상기 매 프레임마다 얻어진 자세코드 시퀀스와 상기 모델 동작에 따라 학습된 은닉 마르코프 모델과의 확률값을 비교하여 가장 높은 확률값을 가지는 동작으로 최종 인식하는 것을 특징으로 하는 가상의 격자형 평면을 이용한 동작 인식 방법.
KR1020050019711A 2005-03-09 2005-03-09 가상의 격자형 평면을 이용한 동작 인식 방법 KR100679645B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020050019711A KR100679645B1 (ko) 2005-03-09 2005-03-09 가상의 격자형 평면을 이용한 동작 인식 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050019711A KR100679645B1 (ko) 2005-03-09 2005-03-09 가상의 격자형 평면을 이용한 동작 인식 방법

Publications (2)

Publication Number Publication Date
KR20060097400A true KR20060097400A (ko) 2006-09-14
KR100679645B1 KR100679645B1 (ko) 2007-02-06

Family

ID=37629182

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050019711A KR100679645B1 (ko) 2005-03-09 2005-03-09 가상의 격자형 평면을 이용한 동작 인식 방법

Country Status (1)

Country Link
KR (1) KR100679645B1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100910754B1 (ko) * 2007-10-24 2009-08-04 아주대학교산학협력단 인체를 포함하는 실시간 입력 영상에서 격자기반 접근을 통한 피부 영역 검출 방법
KR100921821B1 (ko) * 2007-12-07 2009-10-16 영남대학교 산학협력단 특성 공간 궤적 데이터베이스 구축 방법 및 이를 이용한다중 각도 표적 식별 방법
KR101514731B1 (ko) * 2014-09-05 2015-04-28 동국대학교 산학협력단 인간 모델의 3차원 공간 데이터를 이용한 포즈 인식 시스템 및 그 방법
US9773164B2 (en) 2013-05-20 2017-09-26 Samsung Electronics Co., Ltd Apparatus and method for recognizing human body in hybrid manner
KR20200028550A (ko) * 2018-09-06 2020-03-17 동국대학교 산학협력단 객체 인식을 통해 위급 상황을 판단하는 장치 및 방법
WO2023013809A1 (ko) * 2021-08-06 2023-02-09 숭실대학교 산학협력단 스포츠 활동분류 학습장치의 제어방법, 이를 수행하기 위한 기록매체 및 장치

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11174948A (ja) * 1997-09-26 1999-07-02 Matsushita Electric Ind Co Ltd 手動作認識装置
WO2003009218A1 (en) * 2001-07-18 2003-01-30 Intel Zao Dynamic gesture recognition from stereo sequences

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100910754B1 (ko) * 2007-10-24 2009-08-04 아주대학교산학협력단 인체를 포함하는 실시간 입력 영상에서 격자기반 접근을 통한 피부 영역 검출 방법
KR100921821B1 (ko) * 2007-12-07 2009-10-16 영남대학교 산학협력단 특성 공간 궤적 데이터베이스 구축 방법 및 이를 이용한다중 각도 표적 식별 방법
US9773164B2 (en) 2013-05-20 2017-09-26 Samsung Electronics Co., Ltd Apparatus and method for recognizing human body in hybrid manner
KR101514731B1 (ko) * 2014-09-05 2015-04-28 동국대학교 산학협력단 인간 모델의 3차원 공간 데이터를 이용한 포즈 인식 시스템 및 그 방법
WO2016035941A1 (ko) * 2014-09-05 2016-03-10 동국대학교 산학협력단 인간 모델의 3차원 공간 데이터를 이용한 포즈 인식 시스템 및 그 방법
KR20200028550A (ko) * 2018-09-06 2020-03-17 동국대학교 산학협력단 객체 인식을 통해 위급 상황을 판단하는 장치 및 방법
WO2023013809A1 (ko) * 2021-08-06 2023-02-09 숭실대학교 산학협력단 스포츠 활동분류 학습장치의 제어방법, 이를 수행하기 위한 기록매체 및 장치

Also Published As

Publication number Publication date
KR100679645B1 (ko) 2007-02-06

Similar Documents

Publication Publication Date Title
US11703951B1 (en) Gesture recognition systems
Nguyen et al. Object-based affordances detection with convolutional neural networks and dense conditional random fields
KR100421740B1 (ko) 객체 활동 모델링 방법
US20200143138A1 (en) Machine vision with dimensional data reduction
US8620024B2 (en) System and method for dynamic gesture recognition using geometric classification
CN110390249A (zh) 利用卷积神经网络提取关于场景的动态信息的装置和方法
CN107203745B (zh) 一种基于跨域学习的跨视角动作识别方法
CN109685037B (zh) 一种实时动作识别方法、装置及电子设备
JP7311640B2 (ja) 行動予測方法及び装置、歩容認識方法及び装置、電子機器並びにコンピュータ可読記憶媒体
KR100679645B1 (ko) 가상의 격자형 평면을 이용한 동작 인식 방법
US20160078287A1 (en) Method and system of temporal segmentation for gesture analysis
CN110688965A (zh) 基于双目视觉的ipt模拟训练手势识别方法
WO2008139399A2 (en) Method of determining motion-related features and method of performing motion classification
EP3613017A1 (en) Learning-based matching for active stereo systems
CN113312973A (zh) 一种手势识别关键点特征提取方法及系统
CN112200056A (zh) 人脸活体检测方法、装置、电子设备及存储介质
Itkarkar et al. A survey of 2D and 3D imaging used in hand gesture recognition for human-computer interaction (HCI)
Shi et al. Fuzzy dynamic obstacle avoidance algorithm for basketball robot based on multi-sensor data fusion technology
CN113052091A (zh) 一种基于卷积神经网络的动作识别方法
Macesanu et al. A time-delay control approach for a stereo vision based human-machine interaction system
Musallam et al. Temporal 3d human pose estimation for action recognition from arbitrary viewpoints
CN110888536A (zh) 基于mems激光扫描的手指交互识别系统
Nagayasu et al. Improvement of an intelligent room that detects hand waving motion for operation of home appliances
CN116959121B (zh) 一种基于图像识别的3d立体拍摄的计算机智能控制系统
Chen et al. Event Data Association via Robust Model Fitting for Event-based Object Tracking

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130801

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20131218

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee