WO2013157685A1

WO2013157685A1 - 스테레오 카메라를 이용한 3차원 동작 인식장치 및 인식방법

Info

Publication number: WO2013157685A1
Application number: PCT/KR2012/003182
Authority: WO
Inventors: 강인배
Original assignee: (주)아이티엑스시큐리티
Priority date: 2012-04-20
Filing date: 2012-04-25
Publication date: 2013-10-24
Also published as: KR101203121B1

Abstract

스테레오 카메라를 이용한 3차원 동작 인식장치 및 인식방법이 개시된다. 본 발명에 의한 3차원 동작 인식장치는 스테레오 카메라를 이용하여 추적하고자 하는 인체의 특정 부분인 포인터의 실제 위치와 이동방향, 이동거리 및 속도를 계산하는 방법으로 포인터의 움직임에 대한 정보를 계산할 수 있다. 나아가, 본 발명은 모션 인식을 위한 기본위치를 설정하고, 그 기본위치에 근거한 인식범위를 한정함으로써 카메라 전방의 특정 사용자의 모션 만을 인식할 수 있도록 한다.

Description

스테레오 카메라를 이용한 3차원 동작 인식장치 및 인식방법

본 발명은, 스테레오 카메라를 이용하여 사용자의 3차원 몸짓을 인식하여 정보화할 수 있는 3차원 동작 인식장치 및 인식방법에 관한 것으로, 더욱 상세하게는 모션인식을 위한 기본 위치를 설정하여 모션 인식과정의 오류를 줄일 수 있는 인식장치 및 인식방법에 관한 것이다.

컴퓨터를 포함하는 기계장치가 인간의 동작을 단순히 기록하는 것을 넘어 그 동작의 패턴을 인식할 수 있다는 것은 정보 기술의 새로운 혁신이 될 수 있을 것이다. 예컨대, 최근의 일부 게임기기가 사용자의 동작을 감지하여 그 동작에 반응하는 형태로 게임을 진행하는 것은 그 단편적인 예가 될 것이다.

이처럼, 사용자의 3차원 몸짓을 인식하는 기술은 일반적인 정보기기를 위한 사용자 인터페이스 영역뿐만 아니라 각종 로봇 등을 포함하여 그 활용범위의 한계를 미루어 짐작하기 힘든 정도이다.

이 분야에 대하여 종래에 이미 연구가 있었으나, 아직까지는 사용자가 별도의 착용 가능한 인터페이스 수단(Wearable Interface)을 사용하는 정도의 솔루션이 대부분이며, 카메라를 이용하여 사용자의 몸짓을 직접 해석하는 형태의 솔루션은 아직 제시되지 못한 상태이다. 그러나, 모니터나 홀로그램의 형태로 표시되는 3차원 입체 영상을 보면서 그 입체 영상으로 표시된 기기를 가상으로 조작하는 것과 같은 공상과학 영화 등에서나 나오던 것이 실제로 실현될 날도 멀지 않은 것만은 분명하다.

본 발명의 목적은 스테레오 카메라를 이용하여 사용자의 3차원 몸짓을 인식하여 정보화할 수 있는 3차원 동작 인식장치 및 인식방법을 제공함에 있다.

상기 목적을 달성하기 위한 스테레오 카메라를 이용한 3차원 동작 인식방법은, 스테레오 카메라 전방의 일정한 거리에 기본위치를 설정하는 단계; 움직이는 객체를 상기 스테레오 카메라로 촬영하여 스테레오 영상을 생성하는 단계; 상기 스테레오 영상에서의 각 픽셀에 대한 심도 맵 데이터를 계산하는 단계; 상기 스테레오 영상에서 상기 움직이는 객체의 영역을 추출하는 단계; 상기 추출한 객체 영역이 상기 설정된 기본위치의 픽셀 영역에 속하고, 상기 객치까지의 심도가 상기 기본위치의 심도 범위에 속하는지 판단하여 상기 객체가 상기 기본 위치에 있는지 판단하는 단계; 상기 객체가 기본위치에 있는 경우에, 상기 영상에 대한 영상처리를 통해 상기 영상의 객체 영역 중에서 모션인식 대상이 되는 포인터를 인식하는 단계; 상기 생성하는 단계에서 연속적으로 생성되는 영상 프레임 각각에 대해, 상기 심도 맵 데이터를 계산하는 단계 내지 포인터를 인식하는 단계를 수행하여 상기 포인터의 3차원 공간상의 위치 변화를 추적하는 단계; 및 상기 추적된 포인터의 변화된 3차원 공간상 위치 정보를 이용하여, 상기 포인터의 3차원상 이동방향에 대한 정보를 계산하고 출력하는 단계를 포함한다.

실시 예에 따라, 상기 포인터를 인식하는 단계는 상기 기본위치로부터 기 설정된 인식 범위 내에서 수행하여 상기 포인터를 인식할 수 있다.

여기서, 상기 기본위치를 설정하는 단계는, 사용자로부터 기본위치설정명령을 입력받고, 기본 위치 설정용 객체를 상기 스테레오 카메라로 촬영하여 스테레오 영상을 생성하고 심도 맵 데이터를 계산하는 단계; 상기 스테레오 영상에서 상기 설정용 객체를 추출하는 단계; 및 상기 추출한 설정용 객체의 영역을 포함하는 픽셀 영역을 상기 기본위치의 픽셀 영역으로 설정하고, 상기 추출한 설정용 객체 영역의 심도 값을 기준으로 상기 기본위치의 심도 범위를 설정함으로써 상기 기본위치를 설정하는 단계를 포함하여 수행되는 것이 바람직하다.

한편, 상기 기본위치의 픽셀 영역은, 예컨대 사각형 또는 타원이면서, 상기 기본위치의 심도 범위는 상기 추출한 설정용 객체의 영역의 심도의 평균값에 기 설정된 오차 범위를 더한 것일 수 있다.

본 발명의 다른 실시 예에 따른 스테레오 카메라를 이용한 3차원 동작 인식장치는, 스테레오 카메라 전방의 일정한 거리에 기본위치를 설정하는 기본위치설정부; 움직이는 객체를 스테레오 카메라로 촬영하여 스테레오 영상을 생성하는 스테레오카메라부; 상기 스테레오카메라부로부터 연속적으로 입력되는 상기 스테레오 영상의 각 프레임에서의 각 픽셀에 대한 심도 맵 데이터를 계산하여 상기 객치까지의 심도가 상기 기본위치의 심도 범위에 속하는지 판단하는 거리정보계산부; 상기 영상 프레임 각각에서 상기 움직이는 객체를 추출하여, 상기 추출한 객체 영역이 상기 설정된 기본위치의 픽셀 영역에 속하는지 판단하는 객체추출부; 상기 객체가 상기 기본 위치의 심도 범위에 있고 상기 설정된 기본위치의 픽셀 영역에 속하는 경우에, 상기 객체추출부가 추출한 객체 영역 중에서 모션인식 대상이 되는 포인터를 인식하는 과정을 상기 영상 프레임 각각에 대해 수행하여 상기 포인터의 3차원 공간상의 위치 변화를 추적하는 모션추적부; 및 상기 추적된 포인터의 변화된 3차원 공간상 위치 정보를 이용하여, 상기 포인터의 3차원상 이동방향에 대한 정보를 계산하고 출력하는 모션정보출력부를 포함한다.

본 발명의 동작 인식장치는 3차원 공간 내에서 임의적으로 발생할 수 있는 인간의 3차원 몸짓을 인식하여, 특정 인체 부분이 움직이는 방향 및 그 속도에 관한 정보를 생성할 수 있다.

본 발명은 모션 인식을 위한 기본위치를 설정하고, 그 기본 위치에 근거한 인식 범위를 한정함으로써 카메라 전방의 특정 사용자의 모션 만을 구분하여 인식할 수 있고, 그 사용자 이외의 모션이나 그 인식범위를 벗어난 모션에 대하여는 영상처리를 수행하지 않으므로 모션 인식의 오류를 줄이고 상대적으로 작은 용량의 시스템으로도 원하는 목적을 달성할 수 있다.

도 1은 본 발명의 일 실시 예에 따른 동작 인식 시스템의 블록도,

도 2는 본 발명의 3차원 동작 인식방법의 설명에 제공되는 흐름도,

도 3은 객체의 중심축 추출에 제공되는 도면,

도 4는 본 발명의 인식 시스템의 실제 동작상태를 예시적으로 도시한 도면,

도 5는 도 4에서 촬영한 영상들에 대한 영상처리 결과를 예시적으로 도시한 도면,

도 6은 객체의 면적 및 대표 길이의 계산에 제공되는 도면,

도 7은 본 발명의 모션인식 기본위치 설정방법의 설명에 제공되는 흐름도,

도 8은 본 발명의 모션인식 기본위치 설정방법의 설명에 제공되는 도면, 그리고

도 9에는 기본위치(P)를 면으로 설정한 경우의 인식범위(PZ)를 개념적으로 도시한 도면이다.

이하 도면을 참조하여 본 발명을 더욱 상세히 설명한다.

도 1을 참조하면, 동작인식장치(100)는 스테레오카메라부(110) 및 영상처리부(130)를 포함하여 3차원 공간상에서의 사용자의 3차원 모션을 인식하게 된다.

본 발명의 동작인식장치(100)는 도 4에서처럼 스테레오 카메라를 이용하여 사용자를 촬영하게 되고, 그 촬영한 영상에 대한 영상처리를 통해 사용자의 3 차원 몸짓(Motion)을 인식한다. 여기서, 3차원 몸짓의 인식이라 함은, 사용자 인체 중에서 추적 대상이 된 인체 부분(이하 '포인터(Pointer)'라 함)의 움직이는 방향, 움직이는 거리 및 그 속도에 관한 정보(이하, '모션 정보'라 함)를 생성함을 의미한다. 또한, 포인터(Pointer)는 예컨대, 손, 팔, 발, 다리, 머리, 손가락과 같은 신체 일부분을 의미하며 '두 손'과 같이 복수의 부분이 될 수도 있다. 움직이는 방향은 카메라 뷰(View)를 기준으로 한 3차원 가상공간에서의 상/하/좌/우/전방/후방을 포함하는 임의의 방향뿐만 아니라 회전을 포함한다.

도 4에서의 사용자는 팔을 움직여 손을 상하로 움직이고 있다. 만약 동작인식장치(100)에 사용자 손이 포인터로 설정되어 있다면, 동작인식장치(100)는 사용자 손이 Y 방향으로 얼마의 거리만큼 얼마의 속도로 이동하였음을 인식하고 그 정보를 생성하게 된다.

이러한 동작을 위해, 동작인식장치(100)는 스테레오 카메라를 구비하여 사용자에 대한 스테레오 영상을 생성하고 영상 처리를 수행한다.

도 1을 참조하면, 동작인식장치(100)는 스테레오카메라부(110) 및 영상처리부(130)를 포함하여 3차원 공간상에서의 사용자의 인체 포인터의 3차원 모션을 인식하게 된다.

스테레오카메라부(110)는 제1 카메라(111), 제2 카메라(113) 및 영상수신부(115)를 포함한다.

제1 카메라(111) 및 제2 카메라(113)는 동일한 영역을 촬영하도록 상호 이격되어 설치된 한 쌍의 카메라들로서, 소위 스테레오 카메라라고 한다. 제1 카메라(111) 및 제2 카메라(113)는 영역을 촬영한 아날로그 영상신호를 영상수신부(115)로 출력한다. 이러한 스테레오 카메라를 이용하여 피사체까지의 실제 거리를 추출할 수 있다.

영상수신부(115)는 제1 카메라(111) 및 제2 카메라(113)에서 입력되는 연속적인 프레임의 영상신호(또는 이미지)를 디지털 영상으로 변환하고, 그 프레임 동기를 맞추어 영상처리부(130)에게 제공한다.

실시 예에 따라, 스테레오카메라부(110)의 제1 카메라(111)와 제2 카메라(113)는 아날로그 영상이 아닌 디지털 영상신호를 생성하는 카메라일 수 있으며, 이 경우 영상수신부(115)는 다른 변환처리없이 영상처리부(130)와의 인터페이스를 제공하며 한 쌍의 영상의 프레임 동기를 맞추는 역할을 한다.

영상처리부(130)는 스테레오카메라부(110)로부터 연속적으로 출력되는 디지털 스테레오 영상을 이용하여 사용자의 포인터를 인식하고 그 포인터의 움직임을 추적함으로써 사용자의 3차원 모션을 인식한다.

이상의 처리를 위해, 영상처리부(130)는 거리정보계산부(131), 객체추출부(133), 객체인식부(135), 모션추적부(137), 모션정보출력부(139) 및 기본위치 설정부(141)를 포함한다. 먼저, 도 2를 참조하여 거리정보계산부(131), 객체추출부(133), 객체인식부(135), 모션추적부(137) 및 모션정보출력부(139)의 동작을 설명한다.

먼저, 제1 카메라(111) 및 제2 카메라(113)는 특정 공간을 촬영하도록 배치된다. 제1 카메라(111) 및 제2 카메라(113)가 아날로그 영상신호를 생성하면, 영상수신부(115)가 해당 아날로그 영상신호를 디지털 영상신호로 변환한 다음 프레임 동기를 맞추어 영상처리부(130)에게 제공한다(S201).

<심도 맵 데이터 생성: S203 단계>

모션 인식은 (1) 움직이는 객체 추출, (2) 객체가 인체인지 판단, (3) 인체인 경우, 기 설정된 포인터 부분 추적 (4) 포인터에 대한 모션 정보 생성의 순서로 이루어진다. 여기서, 위 (2) 내지 (4)의 과정에는 제1 및 제2 카메라(111, 113)로부터 해당 객체까지의 실측 거리정보가 필요하다.

이를 위해, 거리정보계산부(131)는, 영상수신부(115)로부터 실시간으로 입력받는 한 쌍의 디지털 영상을 이용하여 각 픽셀에 포착된 파사체까지의 거리정보를 픽셀 단위로 구하여, 3차원 심도 맵(3D Depth Map) 데이터를 계산한다. 따라서 심도 맵 데이터는 각 픽셀마다의 피사체 또는 배경까지의 거리정보를 포함하게 된다.

여기서, 각 픽셀의 거리 정보는 종래에 알려진 스테레오 정합방법에 의해 구해지는 양안차 정보로서, 대한민국 등록특허 제0517876호의 "복수 영상 라인을 이용한 영상 정합 방법"이나 대한민국 등록특허 제0601958호의 "3차원 객체 인식을 위한 양안차 추정방법에 제시된 그래프 컷(Graph Cut) 알고리즘 등을 이용하여 계산할 수 있다. 따라서, 거리정보계산부(131)에서 계산한 심도 맵 데이터에는 각 픽셀에는 각 픽셀에 포착된 피사체까지의 실제 거리에 대한 정보가 포함된다.

<움직이는 객체의 추출 단계: S205 단계>

객체추출부(133)는 영상수신부(115)를 통해 입력되는 한 쌍의 디지털 이미지 중 어느 하나 이미지(또는 두 개 이미지 모두)에 대한 영상처리를 수행하여 움직이는 객체의 영역을 추출한다.

출원인은 이미 스테레오 카메라를 이용하여 움직이는 객체, 그 중에서도 특히 사람을 인식하는 방법에 관한 특허출원 제10-2010-0039302호 및 제10-2010-0039366호를 출원한 바 있다.

이에 의하면, 움직이는 객체의 추출은 새롭게 입력되는 영상에서 배경 영상을 뺀 차 영상(Different Image)를 구하는 방법으로 이루어진다. 다만, 본 발명에서 배경 영상은 고정 설정된 값일 수도 있으나, 움직이는 객체로 판단된 영역이 포함된 영상이더라도 포인터가 인식되지 않는 영상이라면 여기서의 배경 영상이 될 수 있다. 다만, 심도 맵 데이터를 구하거나, 심도 맵 데이터를 이용하여 아래에서 설명할 객체의 면적 또는 대표 길이를 구하기 위해 사용되는 기본 배경 영상은 기 설정된 영상이어야 한다.

<추출된 객체가 인체인지 판단: S207 단계>

객체가 추출되면, 객체추출부(133)와 객체인식부(135)는 추출된 객체가 인체인지 여부를 우선 판단한다. 예컨대, 해당 객체가 사람인지 동물인지 아니면 사물인지를 판단한다.

객체인식을 위해, 객체추출부(133)는 차 영상으로부터 객체의 외곽선을 검출하고, 객체인식부(135)는 객체추출부(133)가 추출한 객체의 외곽선과 거리정보계산부(131)가 계산한 심도 맵 데이터를 이용하여 객체의 면적 또는 객체의 대표 길이를 구한다.

객체인식부(135)는 계산된 객체의 면적 또는 대표 길이가 기 설정된 인체의 면적 또는 길이 범위 내에 속하는지를 판단하는 방법으로 추출된 객체가 인체인지를 판단할 수 있다.

객체의 외곽선 /면적 /대표 길이의 검출 및 계산에 대하여, 앞서 언급한 출원인의 특허출원 발명 제10-2010-0039302호 및 제10-2010-0039366호에는 외곽선 검출, 스테레오 카메라를 이용한 객체(특히, 사람)를 인식하는 방법에 관하여 제시하고 있으며, 그 방법에 대하여 아래에서 다시 설명한다.

<객체의 중심선을 이용한 포인터 인식: S209 단계>

모션추적부(137)는 객체추출부(133)가 추출한 객체에 대해 골격화 또는 세선화 알고리즘을 적용하여 1 픽셀의 폭을 가지는 객체의 중심축(Medial Axis)을 추출한다. 골격화 알고리즘에는 외곽선을 이용하는 중심축변환(MAT: Medial Axis Transform)알고리즘 또는 Zhang Suen 알고리즘과 같이 기 알려진 다양한 방식을 적용할 수 있다.

예컨대, 중심축 변환에 의할 경우, 객체의 중심축(a)은 도 3에서처럼 객체(R) 내의 각 점(또는 픽셀)들 중에서 복수 개의 경계점을 가지는 점들의 집합이다. 여기서, 경계점은 외곽선(B) 상의 점들 중에서 객체 내의 해당 점과의 거리가 가장 가까운 점을 말하는 것으로, 외곽선상의 점 b1, b2는 객체(R) 내의 점 P1의 경계점이 된다. 따라서, 중심축 알고리즘은 경계점이 복수 개인 점들을 추출하는 과정이 되며 다음의 수학식 1과 같이 표현될 수 있다.

수학식 1

여기서, P_ma는 x의 집합으로 표시되는 중심축이고, x는 객체(R)내에 존재하는 점, b_min(x)는 점 x의 경계점의 수이다. 따라서, 중심축은 경계점의 수가 1보다 큰 점 x들의 집합이 된다. 여기서, 경계점을 계산하기 위해, 내부의 점 x에서 외곽선상의 임의의 픽셀까지의 거리를 구하는 방법(예컨대, 4-Distance, 8-Distance, Euclidean Distance 등)에 따라, 골격의 구조가 다소 바뀔 수 있다.

그 밖에도, 객체가 비교적 간단한 형태의 것인 경우, 객체에 대한 가우시안 값의 피크값을 추출하는 방법으로 중심선을 추출할 수 있으며, 이러한 알고리즘에 의할 경우 S207 단계의 외곽선 검출은 생략될 수도 있다.

모션추적부(137)는 객체의 중심축이 추출되면, 그 중심축 정보를 이용하여 포인터를 인식하게 된다. 포인터는 머리, 손, 발과 같이 인체의 중심선의 단부에 위치하는 것이 바람직하므로, 모션추적부(137)의 포인터 인식은 추출된 객체의 중심선의 단부를 인식하는 것에 해당할 수 있다.

<포인터의 움직임 추적: S211, S213 단계>

모션 인식은 움직임이 전제되므로, 모션추적부(137)가 인식한 포인터가 움직이지 않으면 해당 모션의 정보화도 없다. 따라서 일단 포인터가 인식된 후부터 추적이 종료될 때까지, 모션추적부(137)는 S201 단계에서 생성되어 연속적으로 입력되는 모든 영상 프레임에 대해, S203 내지 S209 단계의 영상처리를 반복 수행하면서 해당 포인터가 움직이는지를 판단한다(S211).

앞서 언급한 바와 같이, 포인터가 머리, 손, 발 중 적어도 하나에 지정된 경우, 모션추적부(137)의 포인터 추적은 도 5에 도시된 것처럼 연석적으로 입력되어 연속적으로 입력되어 영상처리된 각 프레임의 영상에서 중심선의 단부의 움직임을 추적하는 것에 해당한다.

도 5는 도 4의 사용자를 촬영한 영상들에 대한 영상처리 결과를 예시적으로 도시한 것이다. 도 5에는 순차적으로 영상처리되어 중심선(M1, M2, M3)이 추출된 영상(M1, M2, M3)이 도시되어 있으며, 사용자의 두 손이 포인터(m11, m12, m21, m22, m31, m32)로 설정된 경우이다. 따라서 모션추적부(137)는 각 영상(M1, M2, M3)에서 중심선의 두 단부(m11, m12, m21, m22, m31, m32)의 움직임을 추적한다.

도 5에서는 각 중심선(M1, M2, M3)에서 왼손에 해당하는 단부(m11, m21, m31)만이 움직이고 있으므로, 결국은 해당 포인터(m11, m21, m31)에 대한 모션 정보만이 생성될 것이다.

모션추적부(137)는 연속적으로 입력되어 영상처리된 각 프레임의 영상에서 포인터(m11, m12, m21, m22, m31, m32) 각각의 위치 정보를 추출하여 모션정보출력부(139)에게 제공한다. 여기서, 위치 정보는 영상에서의 포인터(또는 그 픽셀)의 좌표와, 해당 좌표 픽셀에서의 심도를 포함한다. 여기서, 심도는 해당 영상 프레임에 대하여 거리정보계산부(131)가 계산한 심도 맵 데이터로부터 추출한다. 이러한 모션추적부(137)의 포인터 추적은 포인터(m11, m12, m21, m22, m31, m32)가 움직이는 동안 계속된다.

<포인터의 모션정보 생성: S215 단계>

모션정보출력부(139)는 모션추적부(137)가 제공하는 각 프레임의 영상에서의 포인터(m11, m12, m21, m22, m31, m32) 각각의 위치정보를 기초로, 해당 포인터의 이동방향, 실제 이동거리를 포함하는 포인터의 모션 정보를 계산한다. 또한, 모션정보출력부(139)는 영상 프레임 주기에 기초하여 이동 속도를 계산한다.

이동 방향은 포인터의 좌표와 그 좌표의 심도 정보로 3차원 가상공간 상의 포인터의 이동 벡터를 그림으로써 당연히 추출할 수 있다.

포인터의 실제 이동 거리는 포인터 좌표 픽셀의 단위 픽셀당 가로방향 거리와 세로방향 거리, 그리고 심도 맵 데이터를 이용할 수 있다. 여기서, 단위 픽셀당 거리는 아래의 수학식 6 등을 이용할 수 있다. 수학식 6은 각 픽셀의 세로 길이이지만, 동일한 방법으로 가로 길이를 구할 수 있을 것이다.

앞서 설명한 바와 같이, 왼손 포인터(m11, m21, m31)만 움직이므로, 왼손 포인터(m11, m21, m31)에 대한 모션 정보만이 생성될 것이다.

이상의 방법으로 본 발명의 3차원 동작 인식장치(100)의 스테레오 카메라를 이용한 모션 인식방법이 수행된다.

이하에서는, S207 단계의 외곽선 검출, 객체의 면적 및 대표 길이 계산에 대하여 먼저 한 특허출원 제10-2010-0039302호 및 제10-2010-0039366호를 기초로 간단히 설명한다.

먼저, 추출된 객체의 외곽선 검출을 위해, 객체추출부(133)는 S205 단계의 뺄셈 연산의 결과 영상에서 외곽선 검출을 수행하여 움직이는 객체의 외곽선을 검출한다. 외곽선 검출은 객체의 경계선 넓이와 형태에 따라 여러 종류의 형태의 에지를 사용하여 처리된다.

객체추출부(133)는 외곽선 검출을 위해, 뺄셈 영상에 모폴로지(Morphology) 연산을 적용하여 잡음을 제거하고, 외각선이나 골격선을 간단하게 할 수 있다. 모폴로지 연산에는 기본적으로 잡음을 제거하는 침식(Erosion) 연산과 객체 내의 작은 구멍을 메우는 팽창(Dilation) 연산이 사용될 수 있다.

객체의 면적 계산은, S203 단계에서 추출된 객체가 위치한 거리(do)에서의 픽셀 당 실제 면적(이하, 픽셀의 '단위 면적'이라 함)을 구한 다음, 해당 객체의 외곽선 내부에 포함된 픽셀의 수를 곱하는 방법으로 이루어진다.

도 6을 참조하면, 기본 배경영상을 기준으로 최대 심도(D)에서의 전체 프레임에 대응하는 실제면적(Nmax)과, 추출된 객체의 위치(do)에서의 전체 프레임에 대응하는 실제면적 N(do)이 표시되어 있다. 먼저 해당 객체가 위치하는 거리(do)에서의 프레임 전체에 대응되는 실제면적 N(do)은 다음의 수학식 2와 같이 구할 수 있다.

수학식 2

여기서, Nmax은 기존 배경 영상을 기준으로 최대 거리(do)에서의 전체 프레임(예컨대, 720×640 픽셀)에 대응되는 실제 면적이다.

다음으로, 객체가 위치하는 거리(do)에서의 전체 프레임에 대응되는 실제 면적 N(do)을 프레임 전체의 픽셀 수(Q, 예컨대, 460,800=720×640)로 나눔으로써, 객체 영역에 포함된 픽셀의 단위 면적 N_p(do)을 다음의 수학식 3과 같이 구한다.

수학식 3

여기서, Q는 전체 픽셀의 수이다. 수학식 3에 의하면, N_p(do)은 3차원 심도 맵 데이터의 거리 정보로부터 확인한 해당 객체까지의 거리(do)에 따라 달라짐을 알 수 있다.

마지막으로, 객체의 면적은 앞에서 설명한 것처럼 픽셀의 단위 면적 N_p(do)에 해당 외곽선 내부에 포함되는 픽셀의 수(qc)를 곱함으로써 다음의 수학식 4와 같이 구할 수 있다.

수학식 4

여기서, qc는 객체에 포함된 픽셀의 수이다.

이하에서는 객체의 대표 길이를 계산하는 과정에 대하여 간단히 설명한다.

수학식 1을 중심으로 설명한 바와 같이 중심선이 추출되면, 심도 맵 데이터를 이용하여 객체의 대표 길이를 구한다. 객체의 대표 길이는 객체를 대표하는 것으로 설정된 객체의 실제 길이로서 영상으로부터 계산된 값이며, 중심축의 실제 길이, 객체의 실제 폭 또는 객체의 실제높이 등이 해당할 수 있다. 다만, 객체의 대표 길이는 카메라의 위치, 촬영각도 및 촬영영역의 특성 등에 따라 영향을 받게 된다.

나아가, 객체의 실제길이의 계산은, 객체가 위치한 거리(do)에서의 픽셀 당 실제 길이(이하, 픽셀의 '단위 길이'라 함)를 구한 다음, 해당 객체를 대표하는 픽셀의 수를 곱하는 방법으로 이루어진다. 여기서, 객체를 대표하는 픽셀의 수는 앞서 중심축을 형성하는 픽셀의 수, 해당 객체의 폭이나 높이가 되는 픽셀의 수 등이 해당할 수 있다.

객체를 대표하는 픽셀의 수로서의, 객체의 폭이나 높이는 객체 영역의 x축좌표의 범위 또는 y축좌표의 범위를 통해 구해질 수 있으며, 중심축의 길이는 예컨대 중심축에 포함된 픽셀의 수를 모두 더함으로써 구할 수 있다.

특정 픽셀의 단위 길이는 픽셀마다(정확하게는 픽셀의 심도에 따라) 달라지며, 도 6를 참조하여 다음과 같이 구할 수 있다. 여기서, 설명의 편리를 위해, 영상 프레임의 크기를 720×640 픽셀이라 가정한다.

도 6에서, 기본 배경영상을 기준으로 최대 심도(D)에서의 전체 프레임의 세로축(또는 가로축)에 대응하는 실제길이 Lmax와, 추출된 객체의 위치 l에서의 전체 프레임의 세로축(또는 가로축)에 대응하는 실제길이 L(do)가 표시되어 있다. 먼저 해당 객체가 위치하는 심도 do에서의 프레임 전체의 세로축(또는 가로축)에 대응되는 실제길이 L(do)는 다음의 수학식 5와 같이 구할 수 있다.

수학식 5

여기서, L(do)는 심도 do에서의 프레임 전체의 세로축(또는 가로축)에 대응되는 실제 길이이고, Lmax는 기존 배경영상을 기준으로 최대 심도(D)에서의 전체 프레임의 세로축(또는 가로축)에 대응되는 실제 길이다.

다음으로, 객체가 위치하는 거리(do)에서의 전체 프레임의 세로축(또는 가로축)에 대응되는 실제 길이 L(do)을 프레임 전체의 세로축(또는 가로축)의 픽셀 수(Qx, Qy, 예에서 Qx=720, Qy=640)로 나눔으로써, 객체 영역에 포함된 픽셀의 단위 길이 L_p(do)을 다음의 수학식 6과 같이 구할 수 있다.

수학식 6

여기서, L_p(do)는 심도 do에 위치한 객체 영역에 포함된 픽셀의 단위 길이, Qy는 프레임 전체의 세로축의 픽셀 수이다. 수학식 6에 의하면, L_p(do)은 3차원 심도 맵 데이터의 거리 정보로부터 확인한 해당 객체까지의 심도(do)와 맵 데이터 상의 최대 심도에 따라 달라짐을 알 수 있다.

앞서, S215 단계에서 구하는 포인터의 이동 거리를 계산하기 위해 사용되는 단위 픽셀의 세로축은 수학식 6을 그대로 이용하면 되고, 가로축 길이는 수학식 6에서 Qy를 대신하여 프레임 전체의 가로축 Qx를 입력함으로써 구해질 수 있을 것이다.

픽셀의 단위 길이가 구해지면, 객체인식부(135)는 객체의 대표 길이를 구한다. 객체의 대표 길이는 픽셀의 단위 길이 L_p(do)에 해당 객체를 대표하는 픽셀의 수 qo를 곱함으로써 다음의 수학식 7과 같이 구할 수 있다.

수학식 7

여기서, qo는 해당 객체를 대표하는 픽셀의 수이다.

<다른 실시 예>

이하에서는, 도 7을 참조하여, 본 발명의 기본위치 설정부(141)의 동작을 중심으로 3차원 동작 인식장치 및 인식방법의 다른 실시 예에 대하여 설명한다.

이번 실시 예에서도 상기 도 1 내지 도 6에 기초한 인식방법이 그대로 적용된다. 다만, 실시 예는, 특정한 위치에서의 움직임만을 인식하고, 해당 위치가 아닌 곳에서의 움직임은 잡음으로 처리하여 인식하지 않을 필요가 있는 경우에 적용된다. 이러한 방법에 의하면, 사용자는 자신의 모션을 본 발명의 인식장치(100)에 입력시키기 위하여 기 설정된 위치('모션 인식 기본위치')에 있어야 한다. 사용자가 기본 위치에 정 위치하는 행위는, '모션 인식 개시명령'이 입력되지 않는 한 모션 인식 동작을 수행하지 않는 인식장치(100)에게 '모션 인식 개시명령'을 입력하는 것과 동일하다. 이러한 방법에 의하면, 기본위치가 아닌 곳에 서 있는 사용자의 모션은 인식되지 않고 배제된다.

<기본위치 설정명령 입력: S701>

이를 위해, 기본위치 설정부(141)는 사용자로부터 기본 위치를 입력받는다. 기본위치 설정부(141)의 동작은 별도의 '기본위치설정명령'에 의해 개시될 수 있다. 기본위치설정명령은, 예컨대, 인식장치(100)에 별도로 마련된 입력장치(미도시)를 통해 특정 명령어, 비밀번호를 입력하거나 특정 버튼을 누르는 방법으로 기본위치 설정부(141)에게 입력될 수 있다.

기본위치설정명령에 따라 기본위치 설정부(141)가 '모션 인식 기본위치'를 설정하기 전에는 거리정보 계산부(131), 객체추출부(133) 및 객체인식부(135)는 어떠한 모션 인식도 수행하지 않는다.

여기서, '모션 인식 기본위치'는 모션 인식을 위한 사용자의 위치로서, 기본위치를 설정한 후에는 사용자가 기본 위치에 위치해야만 인식장치(100)가 도 2의 모션 인식 동작을 수행한다. '모션 인식 기본위치'는 스테레오 카메라부(110)의 시야범위에 속하는 위치이면 어디여도 무방하나, 스테레오 카메라부(110)의 주시점에 위치하는 것이 바람직하다.

사용자는 기본위치설정명령을 입력한 후 '모션 인식 기본위치'를 설정하기 위해, 스테레오 카메라부(110)의 전방 임의의 위치에 위치하면 된다.

<기본위치설정명령 후에 입력되는 영상의 처리:S703 내지 S707>

기본위치설정명령이 입력된 후에 스테레오 카메라부(110)을 통해 입력되는 영상은, 거리정보 계산부(131)와 객체추출부(133)가 상기에서 설명한 S201 내지 S205 단계를 수행함으로써, 심도 맵 데이터와 객체 영역을 추출한다.

도 8의 (a)는 스테레오 카메라부(110)가 생성한 한 쌍의 영상 중 어느 하나를 도시한 도면이고, (b)는 (a) 영상을 기초로 배경 영상을 제거하고 객체 영역(X)을 추출한 도면이다. 여기서, 기본위치설정명령에 따른 기본 위치 설정과정 중의 객체를 상기 도 2에서의 모션 인식 중의 객체와 구별하기 위하여 '설정용 객체'라 한다.

<기본 위치 설정: S709>

'모션 인식 기본 위치'는 사용자가 지정한 3차원 공간상의 위치를 기초로 설정하게 되며, 그 3차원 공간을 설정하기 위해 객체추출부(133)가 추출한 설정용 객체 영역(픽셀 범위)과 거리정보 계산부(131)가 생성한 기본위치까지의 거리를 기초로 설정된다. 여기서, 픽셀 범위는 영상에서 기본 위치에 대응되는 영역으로서 기본위치의 방향과 설정용 객체의 크기 정보를 포함하게 되는 것이다.

우선, 기본위치 설정부(141)는 3차원 공간을 그대로 인식할 수도 있으나, 3차원 공간을 대신하는 면(또는 공간)으로 간략히 설정하는 것이 바람직하다.

도 8의 (a)를 참조하면, 사용자는 설정을 원하는 모션인식 기본위치에 서 있다. 기본위치를 '면'으로 인식하는 방법에 의하면, 기본위치 설정부(141)는 객체추출부(133)가 추출한 설정용 객체 영역(X)에 기 설정된 여유분 픽셀을 더한 면적을 기본 위치(P)로 설정한다. 한편, 기본위치(P)는 객체추출부(133) 추출한 설정용 객체의 형태에 관계없이 사각형 또는 타원과 같이 정형화된 형태가 바람직하다. 만약, 객체추출부(133)에서 추출한 설정용 객체 영역(X)을 그대로 이용하게 되면, 사용자가 매번 동일한 형태를 갖추기가 힘들 것이므로 적당하지 않다.

또한, 기본위치의 심도(거리)를 구하기 위해, 기본위치 설정부(141)는 설정용 객체 영역에 포함된 픽셀의 심도 값의 평균을 구하고 그 평균값을 기본위치(P)의 심도(거리)로 설정할 수 있다. 당연히, 기본위치(P)의 심도에 일정한 정도의 오차 범위를 더한 심도 범위로 기본위치(P)의 심도를 설정하는 것이 바람직하다.

한편, 기본위치를 공간으로 설정할 경우, 기본위치 설정부(141)는 거리정보 계산부(131)가 생성한 심도 맵 데이터 중에서 설정용 객체 영역에 포함된 픽셀의 심도 값 중 최소값과 최대값으로 기본위치의 심도 범위를 정할 수 있다.

<모션 인식범위 설정: S711>

기본위치 설정부(141)는 S709 단계에서 설정한 기본위치로부터 일정한 거리 범위에 속하는 공간을 '모션 인식 범위'로 설정한다.

도 9에는 기본위치(P)를 직사각형의 면으로 설정한 경우의 인식범위(PZ)를 개념적으로 도시한 도면이다. 인식범위는 기본위치(P)의 전면, 좌우측면, 전방 상부, 측후면 등을 모두 포함할 수 있으며, 기본위치(P)의 후면은 인식범위에 포함되지 않는다.

인식범위(PZ)는 기본위치로부터 설정한 범위 내이면 족한 것으로 어떠한 형태를 가지더라도 무방하며, 반드시 도 9의 형태에 한정되지 않는다.

<모션 인식 수행: S713>

기본위치를 설정한 후에 모션 인식은 도 2의 방법을 따라 수행된다. 다만, 사용자는 기본위치(P)에 있어야 한다.

S207 단계에서, 거리정보 계산부(131)는 생성한 심도 맵 데이터를 이용하여 그 설정용 객체영역의 평균 심도값이 기 설정된 기본위치의 심도값으로부터 기 설정된 오차 범위에 포함되는지를 1차 판단하고, 객체인식부(135)는 객체추출부(133)가 추출한 설정용 객체 영역이 앞서 설정한 기본위치(P)의 픽셀 영역에 포함되는 것인지 2차 판단하는 방법으로 사용자가 기본위치에 있는지를 판단한다.

1차 판단에서, 모션 인식을 위해 추출한 설정용 객체 영역이 기 설정된 기본위(P)의 픽셀 영역에 기 설정된 비율(예컨대, 70%) 이상으로 포함된 경우에 설정용 객체가 기본위치(P)에 위치한 것으로 판단할 수 있다.

사용자가 기본위치에 있는 것으로 판단되면, S209 및 S211 단계의 모션추적부(137)는 인식범위(PZ) 내에서의 포인터의 움직임만을 인식하여 추적한다.

만약, 영상처리 결과 1차 판단 또는 2차 판단 중 어느 하나를 통과하지 못하여 사용자가 기본위치에 있는 것으로 판단되지 않는 경우에는, S209 단계로 진행하지 아니한다.

이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안 될 것이다.

본 발명은 모션 인식의 오류를 줄이고 상대적으로 시스템의 용량을 적게 할 수 있는 것으로, 이러한 구성은 3차원 공간 인식장치로 구현되어서 게임 등의 사용자 인터페이스로 적용될 수 있는 바와 같이, 산업상 이용가능함은 자명하다고 할 것이다.

Claims

스테레오 카메라 전방의 일정한 거리에 기본위치를 설정하는 단계;

움직이는 객체를 상기 스테레오 카메라로 촬영하여 스테레오 영상을 생성하는 단계;

상기 스테레오 영상에서의 각 픽셀에 대한 심도 맵 데이터를 계산하는 단계;

상기 스테레오 영상에서 상기 움직이는 객체의 영역을 추출하는 단계;

상기 추출한 객체 영역이 상기 설정된 기본위치의 픽셀 영역에 속하고, 상기 객치까지의 심도가 상기 기본위치의 심도 범위에 속하는지 판단하여 상기 객체가 상기 기본 위치에 있는지 판단하는 단계;

상기 객체가 기본위치에 있는 경우에, 상기 영상에 대한 영상처리를 통해 상기 영상의 객체 영역 중에서 모션인식 대상이 되는 포인터를 인식하는 단계;

상기 생성하는 단계에서 연속적으로 생성되는 영상 프레임 각각에 대해, 상기 심도 맵 데이터를 계산하는 단계 내지 포인터를 인식하는 단계를 수행하여 상기 포인터의 3차원 공간상의 위치 변화를 추적하는 단계; 및

상기 추적된 포인터의 변화된 3차원 공간상 위치 정보를 이용하여, 상기 포인터의 3차원상 이동방향에 대한 정보를 계산하고 출력하는 단계를 포함하는 것을 특징으로 하는 스테레오 카메라를 이용한 3차원 동작 인식방법.
제1항에 있어서,

상기 포인터를 인식하는 단계는,

상기 기본위치로부터 기 설정된 인식 범위 내에서 수행하여 상기 포인터를 인식하는 것을 특징으로 하는 스테레오 카메라를 이용한 3차원 동작 인식방법.
제1항 또는 제2항에 있어서,

상기 기본위치를 설정하는 단계는,

사용자로부터 기본위치설정명령을 입력받고, 기본 위치 설정용 객체를 상기 스테레오 카메라로 촬영하여 스테레오 영상을 생성하고 심도 맵 데이터를 계산하는 단계;

상기 스테레오 영상에서 상기 설정용 객체를 추출하는 단계; 및

상기 추출한 설정용 객체의 영역을 포함하는 픽셀 영역을 상기 기본위치의 픽셀 영역으로 설정하고, 상기 추출한 설정용 객체 영역의 심도 값을 기준으로 상기 기본위치의 심도 범위를 설정함으로써 상기 기본위치를 설정하는 단계를 포함하여 수행되는 것을 특징으로 하는 스테레오 카메라를 이용한 3차원 동작 인식방법.
제3항에 있어서,

상기 기본위치의 픽셀 영역은, 사각형 또는 타원이고,

상기 기본위치의 심도 범위는 상기 추출한 설정용 객체의 영역의 심도의 평균값에 기 설정된 오차 범위를 더한 것임을 특징으로 하는 스테레오 카메라를 이용한 3차원 동작 인식방법.
스테레오 카메라 전방의 일정한 거리에 기본위치를 설정하는 기본위치설정부;

움직이는 객체를 스테레오 카메라로 촬영하여 스테레오 영상을 생성하는 스테레오카메라부;

상기 스테레오카메라부로부터 연속적으로 입력되는 상기 스테레오 영상의 각 프레임에서의 각 픽셀에 대한 심도 맵 데이터를 계산하여 상기 객치까지의 심도가 상기 기본위치의 심도 범위에 속하는지 판단하는 거리정보계산부;

상기 영상 프레임 각각에서 상기 움직이는 객체를 추출하여, 상기 추출한 객체 영역이 상기 설정된 기본위치의 픽셀 영역에 속하는지 판단하는 객체추출부;

상기 객체가 상기 기본 위치의 심도 범위에 있고 상기 설정된 기본위치의 픽셀 영역에 속하는 경우에, 상기 객체추출부가 추출한 객체 영역 중에서 모션인식 대상이 되는 포인터를 인식하는 과정을 상기 영상 프레임 각각에 대해 수행하여 상기 포인터의 3차원 공간상의 위치 변화를 추적하는 모션추적부; 및

상기 추적된 포인터의 변화된 3차원 공간상 위치 정보를 이용하여, 상기 포인터의 3차원상 이동방향에 대한 정보를 계산하고 출력하는 모션정보출력부를 포함하는 것을 특징으로 하는 스테레오 카메라를 이용한 3차원 동작 인식장치.