KR20120014925A

KR20120014925A - 가변 자세를 포함하는 이미지를 컴퓨터를 사용하여 실시간으로 분석하는 방법

Info

Publication number: KR20120014925A
Application number: KR1020117029455A
Authority: KR
Inventors: 마틴 하커; 에어하르트 바스; 토마스 마르티네츠
Original assignee: 우니베지태트 주 뤼벡
Priority date: 2009-05-11
Filing date: 2010-05-06
Publication date: 2012-02-20
Also published as: US20140098093A2; EP2430614B1; US9058661B2; KR101650799B1; EP2430614A1; JP2012526334A; WO2010130245A1; JP5422735B2; US20120120073A1

Abstract

본 발명은 서로 관련해서 이동가능하게 되고 상호연결된 요소로 이루어진 대상의 가변 자세를 포함하는 이미지 시퀀스를 실시간으로 컴퓨터를 사용하여 분석하는 방법에 관한 것이다. 이미지 시퀀스의 프레임은 이동 시간(TOF) 카메라에 의해 기록되어, 이들 프레임이 컴퓨터에 의해 처리되도록 하여, 프레임이 휘도 및 거리 데이터를 시퀀스의 각 프레임에 대한 TOF 카메라의 화소 좌표의 함수로서 갖도록 한다. 본 방법은 a.대상을 매핑하는 프레임의 화소를 검출하는 단계; b.가상 공간 내에서 카메라에 대해 가시적인 대상의 표면을 나타내는 포인트의 3차원(3D) 집계를, 대상으로부터의 거리의 취득한 데이터를 고려하여, 이러한 공간으로의 대상 매핑 화소의 계산된 투영에 의해 계산하는 단계; c.대상의 요소의 선택을 나타내는 노드와 이들 요소의 상호연결을 나타내는 에지로 이루어진 대상의 모델을, 프레임에 대한 컴퓨터로 생성된 포인트의 3D 집계에 피팅하는 단계; d.자기 구조화 맵을 포인트의 집계 중의 미리 정해진 개수의 랜덤하게 샘플링된 포인트로 훈련하기 위한 학습 규칙을 사용하여 모든 노드 위치를 반복해서 갱신하는 단계; e.이미지 시퀀스의 각각의 시퀀스 프레임에 대하여 단계 a 내지 d를 반복하고, 선행하는 프레임의 단계 e의 결과를 단계 c에서의 피칭 과정에 대해 사용되는 단계; 및 f.이미지 시퀀스의 적어도 대표적인 프레임에서 검출된 모델의 미리 정해진 노드의 위치로부터 변화되는 자세를 판정하는 단계를 포함한다.

Description

가변 자세를 포함하는 이미지를 컴퓨터를 사용하여 실시간으로 분석하는 방법 {METHOD FOR THE REAL-TIME-CAPABLE, COMPUTER-ASSISTED ANALYSIS OF AN IMAGE SEQUENCE CONTAINING A VARIABLE POSE}

본 발명은 서로에 대해 이동가능한 상호연결된 요소로 이루어진 대상의 가변 자세(variable pose)를 포함하는 이미지 시퀀스(image sequence)를 컴퓨터를 사용하여 실시간으로 연속해서 분석하기 위한 방법에 관한 것이다. 더 구체적으로 말하면, 본 발명은 이미지 시퀀즈 중에 움직이는 사람의 몸통과 사지의 위치 및 방향을 추정하는 것, 즉 인체의 자세를 추정하는 것에 관한 것이다.

인체 자세를 3차원(3D)으로 추정하는 것은 많은 과학 논문에서 연구되어 왔다. 이들 논문 중 일부는 종래의 카메라에 의해 촬영된 2D 데이터로부터 인체 자세의 재구성에 초점을 맞추고 있다.

Agarwal A 및 Triggs B의 "Recovering 3D Human Pose from Monocular Images", IEEE Transactions on Pattern Analysis and Machine Intelligence, 28(1) (2006) pp 44-58에서는, 자세를 인체의 실루엣의 형상 디스크립터(shape descriptor)로부터 얻고 있다.

Rosales R 및 Sclaroff S의 "Inferring Body Pose without Tracking Body Parts", Proceedings of Computer Vision and Pattern Recognition (2000) pp 721-727에서는, 세분화한 인체의 단순한 가시적 특징을 인체의 일련의 가능한 배치 구성에 매핑하고, 특정의 가시적 특징의 관점에서 가장 개연성이 있는 배치 구성에 의해 자세를 식별한다.

또한, Shakhnarovich G, Viola P 및 Darrel T의 "Fast Pose Estimation with Parameter-Sensitive Hashing", Proceedings of the International Conference on Computer Vision (2003) pp 750-757에서는, 인간 자세의 이미지의 대규모 데이터베이스를 사용하며, 파라미터 감응 해싱 함수(parameter-sensitive hashing function)에 의해 특정의 자세와 가장 유사한 자세를 데이터베이스 내에서 검색한다.

2D 데이터에 기초한 방법들의 주요 단점들 중 하나는 추정해야 할 자세를 취하는 인간을, 특히 배경이 복잡한 장면에서 세분화(segmentation)하는 것이다. 마지막으로, 앞서 설명한 것과 마찬가지로 중요한 것으로서, 세분화는 처리 파워와 속도가 떨어지게 된다.

2D 이미지의 다른 문제점은 2D 투영에서 카메라를 향하고 있지만 신체의 상부 중 보이지 않는 부분의 검출이다. 이러한 상황에서, 사지는 실루엣으로 검출될 수 없으며 이러한 검출에는 시간이 많이 소요된다.

3D 데이터에 기초한 자세 추정은, 예를 들어 Weik S 및 Liedtke CE의 "Hierarchical 3D Pose Estimation for Articulated Human Body Models from a Sequence of Volume Data", Proc. of the International Workshop on Robot vision (2001) pp 27-34에 개시되어 있다. 이 문헌에는, 인간의 3D 볼륨을, 실루엣 기반 형상화 방법(shape-from-silhouette method)을 사용하여 다중 카메라 배치 구성에 의해 취득한다. 이후, 볼륨의 2D 투영을 가상 카메라에 의해 계산하고, 인간 골격의 모형을 이 투영에 적용시킨다. 3D 자세를 추정하기 위하여, 골격의 모형을 2D 투영을 반전시켜서 3D 공간으로 재전달한다.

Weik 및 Liedtke의 문헌에 개시된 방법의 단점은 3D 볼륨은 균일하게 녹색으로 된 배경 앞에서 다수의 카메라를 구비하는 특별한 장치를 사용하여야만 취득할 수 있으며, 3D 볼륨의 계산은 시간을 많이 필요로 한다는 것이다.

3D 골격 모형의 계산을 위한 다른 방안은, 3차원 공간 내에서 볼륨 데이터를 직접 솎아내는 것이다[Palagyi K 및 Kuba A의 "A Parallel 3D 12-Subiteration Thinning Algorithm", Graphical Models and Image Processing, 61(4) (1999), pp 199-221]. 이후, 골격 모형을 사용하여 인간 자세를 추정할 수 있다.

스테레오스코피(stereoscopy)에 기초한 자세 추정 방법은 Yang H-D 및 Lee S의 "Reconstructing 3D Human Body Pose from Stereo Image Sequences Using Hierarchical Human Body Model Learning", ICPR '06: Proceedings of the 18th International Conference on Pattern Recognition" (2006) pp 1004-1007에 개시되어 있다. 본 문헌에는, 인체의 계층 모델을 소개하고 있다. 실루엣 및 깊이 정보를 특정의 사진에 사용하여 데이터베이스 내에서 최적으로 부합하는 자세를 찾는다.

이 방안의 단점은 처리 시간이 긴 스테레오스코피 기술이라는 점이다. 또한, 스테레오스코피는 각각의 장면이 충분한 텍스처를 갖는 경우에만 신뢰할만한 깊이 데이터를 제공한다.

자기 조직화 맵(SOM: self-organizing map)에 의한 자세 추정이, Winkler S, Wunsch P 및 Hirzinger G의 "A Feature Map Approach to Real-Time 3D Object Pose Estimation from Single 2D Perspective Views", Mustererkennung 1997 (Proc. DAGM)(1997), pp 129-136에 개시되어 있다.

자기 조직화 맵(SOM)은 작업에 대해 훈련이 가능한 특별한 신경망이다. SOM은 64차원의 특징 공간을, 고정된 대상(rigid object)의 회전가능한 3차원 공간으로 매핑하는 것을 학습하는 데에 사용된다. 고정된 대상의 인공적으로 생성된 뷰(view)는 트레이닝 데이터로서 사용된다. 이 방법의 적용에 기초하여 대상의 2D 컬러 사진을 형성한다. 컬러 정보에 기초하여, 대상이 이미지 내에 국소화되고 컷아웃된다. 이어서, 이미지 내의 콘트라스트의 급격한 차(sudden difference), 소위 에지(edge)에 반응하는 소벨 연산자(Sobel operator)에 의해 이미지를 처리하고, 높은 화소 값을 각각의 구역에 할당한다. 이에 대하여, 0의 값에 가까운 화소 값을 할당하여 구역을 균일하게 컬러화할 수 있다. 마지막으로, 이러한 에지 이미지로부터 해상도를 감소시킴으로써, 64개의 값이 특징 벡터(feature vector)에 대응하는 8×8 화소의 이미지를 생성한다. SOM은 그 결과로서 생성된 특징 벡터를 360개의 가능한 방향 중 하나에 3차원으로 매핑한다.

Winkler 등의 문헌에 기재된 방법의 단점은, 이 방법이 고정된 대상을 배타적으로 처리하기 때문에, 인간 자세의 3D 추정에 사용될 수 없다는 것이다. 또한, 이 방법은 본질적으로 소벨 연산자에 의해 에지 정보의 추출에 기초한다. 사람이 여러 개의 옷을 입고 있으며 조명의 가변 조건하에서 복잡한 자연 장면에서 사진을 찍는 경우, 에지 정보에 기초한 고유의 표현이 가능하지 않다고 가정할 수 있다.

자세 추정을 위한 다른 대안은 이동 시간(TOF: time-of-flight) 카메라에 기초하는 것이다. 3D TOF 카메라는 일반적인 카메라와 동일한 휘도의 이미지를 제공할 뿐만 아니라, 추가로 대상으로부터의 거리를 측정할 수 있다. 이 카메라는 사인 곡선으로 변조되는 적외선 광을 방출한다. 각각의 화소에서, 방출된 광과 대상으로부터 반사된 광 사이의 위상 시프트(phase shift)를 측정한다. 이러한 위상 시프트로부터, 광의 이동 시간과 대상 포인트로부터 카메라의 거리를 계산할 수 있다. TOF 카메라는 휘도 이미지와 완벽하게 정합하는 깊이 에지(depth edge)[TOF 용어로는 "진폭 표현"(amplitude presentation)이라고도 함]를 제공한다. 따라서, 이것은 이미지 처리 분야에서의 많은 응용을 위한 매력적인 센서이다. TOF 카메라는 해당 장면의 2와 1/2 차원의 이미지만을 생성하지만, 연산 시간을 추가로 필요로 하지 않고도, 높은 이미지 레이트에서 수행될 수 있다.

Zhu Y, Dariush B 및 Fujimura K의 "Controlled Human Pose Estimation from Depth Image Streams", CVPRW '08 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (2008), pp 108에는, 다수의 해부학적 지표(anatomical landmark)를 시간에 따라 3차원적으로 추적한다. 움직임이 가능한 인간 모델의 자세를, 이러한 지표의 3차원 위치로부터 추정한다. 이어서, 이 모델을 사용하여, 지표의 검출에서의 불명료를 해소하고 검출되지 않은 지표의 위치의 추정을 산출한다. Zhu의 문헌에 기재된 방법은 관절의 최대 구부러짐 각도 및 신체의 여러 부분의 상입(mutual penetration)의 방지와 같은 기본적인 조건을 시뮬레이트한다. 모델의 복잡도에 불구하고, 상기 방법은 적어도 초당 10 프레임의 프레임 속도로 실행된다.

그러나, 종래의 비디오 시퀀스는 25 헤르츠(Hz)의 프레임 레이트를 갖기 때문에, 적절한 프레임 레이트에서의 실시간 자세 추정이 바람직할 것이다. 그러나, 본 발명의 일반적인 목적은 이미지 정보(화소의 컬러 값)가 전자적으로 기록되거나 변환된 이후에, 기계에서 해석될 수 있도록 하는 것이다. 인간 자세의 추정은 기본적으로 다음의 2가지 문제점을 갖는 컴퓨터 비전의 하위 분야이다:

(1) 자세는 변화가 있을 때에 신속하게 판정되어야 하며 신속하게 갱신되어야 한다. 여기서, 25Hz의 비디오 레이트가 바람직하다.

(2) 자세를 판정해야 할 사람은 일반적으로 이상적인 환경에 있는 것이 아니라, 미지의 또는 거의 제어가 불가능한 배경의 앞에 있게 된다.

또한, 작업의 해결을 위한 기기 비용이 너무 커지면 안 된다. 일반적인 PC와 상대적으로 단순한 카메라 배치 구성이면 충분해야 한다.

특히 간단한 방식으로 전경과 배경을 구분하는 문제를 해결할 수 있는 TOF 카메라가 주지되어 있다. TOF 카메라는 2.5 차원의 이미지(2차원에 카메라로부터의 거리를 더함)를 만든다. 카메라의 시선을 따라 다른 대상 포인트에 의해 가려지는 대상 포인트(object point)는 검출할 수 없다. 대상 중에서, 전방의 가시 표면만을 3D 대상의 자세를 추정하기 위한 3D 공간에서의 포인트들의 집계(aggregate)로서 이용할 수 있다.

상기 언급한 Weik S 및 Liedtke C-E의 "Hierarchical 3D Pose Estimation for Articulated Human Body Models from a Sequence of Volume Data", Proc. of the International Workshop on Robot vision (2001) pp 27-34에서는, TOF 카메라를 사용하고 있지 않지만, 16개 이상의 전자 카메라를 사용하고, 차이 방향으로부터 대상의 실루엣에 의해 사람을 3차원적으로 모델링하기 위해 단색 배경을 필요로 한다.

독일 벨레펠트 대학의 ZiF(Center for Interdisciplinar Research)에서, 2009년 2월 25일-27일에 열린 The 8th International Gesture Workshop에서의 Haker M, Bohme M, Martinetz T 및 Barth E의 "Deicitc gestures with a time-of-flight camera"에서는, TOF 카메라를 사용하여 임의의 배경의 앞에 있는 사람을 신속하게 검출한다. 그러나, "자세"의 해석은 거의 기초적인 것이며, "We find the head and hand using a simple but effective heuristic: The initial guess for the hand is the topmost pixel in the leftmost pixel column of the silhouette; the head is the topmost pixel in the tallest pixel column"(우리는 간단하지만 효과적인 추단법을 사용하여 머리와 손을 발견한다: 손에 대한 처음 추정은 실루엣의 가장 좌측의 화소 열에 있는 가장 위쪽 화소이며; 머리는 가장 긴 화소 열의 가장 위쪽 화소이다)라고 썼다.

다시 말하면, 신체의 어느 부분이 이미지 내에서 오른쪽으로 가장 먼 쪽에 있는지에 상관없이, 기계는 그 부분이 오른손이라고 간주한다. 실제로, 이러한 매우 간단한 자세 추정의 사용은, 예를 들어 사람이 자신의 손을 움직임으로써 기계에 명령하고자 하는 경우, 사람이 항상 자신의 오른손을 몸통으로부터 확실하게 멀리 둘 것을 요구한다. 이러한 방안은 몸 앞쪽에 팔을 포갠 경우와 같은 제스처를 사용할 수 없다.

마지막으로, Breuer P, Eckes C 및 Muller S의 "Hand Gesture Recognition with a Novel IR Time-of-Flight Range Camera - A Pilot Study", Proceedings of the Mirage 2007, Computer Vision/Computer Graphics Collaboration Techniques and Applications, Rocquencourt, 프랑스, 2007년 3월 28-30일, pp 247-260에는, TOF 카메라에 의해 검출되는 포인트들의 집계로부터 가능한 신속하고 정확하게 인간의 손의 자세를 판정하는 것이 개시되어 있다. 이것은 손의 해부학적 모델을 사용하는 것이며, 손의 해부학적 모델을 미리 손을 표현하는 것으로 분리시켜 놓은 포인트들의 집계의 일부에 맞춘다.

상기 문헌에서는 최적의 적합을 얻기 위해 7의 자유도(degree of freedom)[3개의 좌표, 3개의 회전각, 1개의 스케일 인자]를 판정한다. 여기서, 손 모델은 고정적이며, 항상 변화하지 않는다. 예를 들어, 회전은 모델 노드가 서로에 대해 변이되지 않는 것과 동시에 손 모델의 모든 노드에 영향을 미친다.

개시한 방법은 사람과 사람의 손의 비틀림의 양호한 추정을 3D 공간 내에서 산출할 수 있다. 추정할 사람이 자신의 손가락을 명백하게 움직이게 되면, 본 방법은 어떠한 문제가 없어도 더 이상 제대로 작동하지 않을 것이다.

바로 이러한 점 때문에, 본 발명은 종래 기술을 극복한다. 본 발명은 사람을 표현하는 포인트의 집계에 피팅하는 모델을 사용한다. 그러나, 골격 모델은 단순하며 동시에 유연하다. 모델 노드 위치는, 전역적 시프트 뿐만 아니라, D1에서와 같은 포인트의 집계에 관하여 전역적 이동 및 뒤틀림이 있고, 적합 과정의 주제이다. 이 경우, 골격 모델의 노드의 이웃 구조는 적합 프로세스를 통해 유지되기 때문에, 모델의 특정 노드는 몸통, 머리 및 팔을 각각 나타내어야 한다. 놀라운 결과는, 신체의 앞에 있는 팔을 움직여도, 특히 팔을 포갠 경우에도, 명확하며 실시간으로 검출할 수 있다는 것이다(비디오 주파수; 도 4의 설명을 참조). 이전 이미지로부터 노드 위치의 연속하는 갱신에 의해 이러한 복잡한 움직임을 기계에 대해 검출할 수 있게 된다. 이 경우, 갱신 규칙은, 기계에 의해 처리될 수 있는 레코드 상의 예측할 수 없는 움직임을 매핑하기 위해 자체로 고정된 대상이 아닌 대상의 자세의 추정의 작업에 통합되는 자기 조직화 맵(SOM, 신경망 이론의 표준 알고리즘으로서, 본 응용에서 상세하게 설명하고 있음)에 대응한다.

따라서, 본 발명의 과제는 초당 적어도 25 프레임의 속도로 연속하는 이미지 해석과 자세 계산이 가능한, TOF 카메라에 의한 자세 추정을 위한 방법을 제공하는 것이다.

본 과제는 청구범위의 특징을 갖는 방법에 의해 해결된다. 청구범위는 바람직한 실시예에 관련되어 있다. 서로 관련해서 이동가능하게 되고 상호연결된 요소로 이루어진 대상(object)의 가변 자세(variable pose)를 포함하는 이미지 시퀀스(image sequence)를 컴퓨터를 사용하여 실시간으로 분석하는 방법을 제공한다. 본 방법은, 이미지 시퀀스의 프레임(frame)이 이동 시간(TOF: time-of-flight) 카메라에 의해 기록되어, 이들 프레임이 컴퓨터에 의해 처리되도록 하여, 프레임이 휘도 및 거리 데이터를 시퀀스의 각 프레임에 대한 TOF 카메라의 화소 좌표(pixel coordinate)의 함수로서 갖도록 하며, (a) 대상을 매핑하는 프레임의 화소를 검출하는 단계; (b) 가상 공간 내에서 카메라에 대해 가시적인 대상의 표면을 나타내는 포인트의 3차원(3D) 집계(aggregate)를, 대상으로부터 취득한 거리 데이터를 고려하여, 이러한 공간으로의 대상 매핑 화소(object-mapping pixel)의 계산된 투영(projection)에 의해 계산하는 단계; (c) 대상의 요소의 선택을 나타내는 노드와 이들 요소의 상호연결을 나타내는 에지로 이루어진 대상의 모델을, 프레임에 대한 컴퓨터로 생성된 포인트의 3D 집계에 피팅(fitting)하는 단계; (d) 자기 구조화 맵(self-organizing map)을 포인트의 집계 중의 미리 정해진 개수의 랜덤하게 샘플링된 포인트로 훈련하기 위한 학습 규칙(learning rule)을 사용하여 모든 노드 위치를 반복해서 갱신하는 단계; (e) 이미지 시퀀스의 각각의 시퀀스 프레임에 대하여 상기 단계 (a) 내지 단계 (d)를 반복하고, 선행하는 프레임의 단계 (e)의 결과를 단계 (c)에서의 피팅 과정에 대해 사용되는 단계; 및 (f) 이미지 시퀀스의 적어도 대표적인 프레임에서 검출된, 모델의 미리 정해진 노드의 위치로부터 변화되는 자세를 판정하는 단계를 포함한다. 더 구체적으로, 본 방법은 단순화한 골격 모델을 추정할 사람의 정면을 나타내는 3D 포인트 집계로 피팅하는 처리 과정을 TOF 카메라의 사용과 조합한다. 이러한 피팅 과정은 실시간으로 갱신될 수 있는데, SOM에 대한 학습 알고리즘에 의해 구현되기 때문이다.

TOF 카메라에 의한 고속 이미지 세분화와 신속하게 계산가능한 SOM-갱신 규칙에 의해, 최소의 프로그래밍 및 연산 비용만으로, 2.0GHz PC에서 최대 초당 25 프레임으로 신뢰성 있는 자세 추정이 가능한 장점을 가진다.

바람직하게는, 대상이 매핑되는 카메라 화소는 TOF 카메라의 이미지 시퀀스의 이미지 세분화에 의해 정해진다. 또한 바람직하게, TOF 카메라의 휘도 및 깊이 데이터에 대한 2개의 임계값이 각각의 프레임에 대해 정해지며, 측정 데이터가 휘도 임계값보다 더 크고 깊이 임계값보다 작은 카메라 화소의 연속하는 영역이 식별된다. 휘도 데이터는 히스토그램의 형태로 채널에서 평가되는 것이 바람직하기 때문에, 2개의 누적 포인트가 식별되고, 휘도 임계값은 2개의 누적 포인트 사이의 값이 되도록 하는 방식으로 설정된다.

깊이 데이터는 깊이 임계값이 최소 깊이와 다른 깊이의 누적 포인트 사이의 값이 되도록 하는 방식으로 깊이 임계값을 사용하여 선택될 수 있다. 바람직하게는, 모델의 노드 위치는 반복 단계에서 갱신되며, 하나의 포인트(x)는 각각의 반복 단계에서 포인트의 3D 집계의 미리 정해진 수의 포인트에 대해 랜덤하게 샘플링되고, 모든 노드는 포인트(x)를 향해 시프트되며, 시프트의 정도는 반복 단계에 앞서 x로부터 가장 짧은 거리를 갖는 노드에 대해 가장 크게 된다. 이를 위하여, 모든 노드에서의 시프트의 정도는 필요에 따라 반복 단계의 수에 따라 감소하도록 정해질 수 있다. 랜덤하게 샘플링된 포인트(x)의 수 또는 반복 단계의 수는 포인트의 집계 내의 포인트의 총수의 대략 10%가 될 수 있다.

각각의 반복 단계 이전에, 샘플링된 포인트(x)로부터 가장 짧은 거리를 가진 제1 노드에 대하여, 제1 노드의 이웃(neighbor)이며 제1 노드로부터의 거리가 노드의 시프트 동안 미리 정해진 값을 초과하지 않는 제2 노드가 선택되는 것이 바람직하다.

본 발명에 대하여 도면을 참조하여 상세하게 설명한다.
도 1은 TOF 카메라에 의해 행해진 테스트용 사람의 사진의 예를 나타낸다. 상부 이미지는 진폭 데이터를 나타내며, 중앙의 이미지는 깊이 맵을 나타내고, 하부 이미지는 세분화한 이미지를 나타낸다.
도 2는 인체의 단순 모델로서 작용하는 그래프 구조를 나타낸다. 에지는 SOM의 이웃(neighborhood)을 규정한다.
도 3은 카메라의 앞에 있는 사람의 가시 면의 스캔 포인트들의 집계를 나타낸다. 그래프 구조는 SOM 학습 규칙(learning rule)에 의해 데이터로 포함되는, 자세의 추정을 위한 모델을 나타낸다.
도 4는 비디오 시퀀스로부터 프레임의 선택으로서, 제스처의 시퀀스를 나타낸다. 자세가 추정되는 모델을 2D 투영으로서 각 프레임으로 묘사한다. 신체의 머리와 상부에 속하는 모델의 에지를 백색으로 묘사하고, 팔의 에지를 검은색으로 나타낸다.

본 발명에 따른 방법의 제1 단계는 프레임의 배경으로부터 인체를 분리(또는 세분화)하는 것이다. 이를 위하여, 단순 임계 방법을 사용하는데, 이 방법은 깊이 맵(depth map)과 진폭 표현(amplitude presentation)을 사용한다. TOF 카메라에 의해 기록된 휘도 값 및 깊이 값을 히스토그램에 입력한다. 2개의 프레임에 대한 임계값을, 이하에 설명하는 바와 같이, 각각의 프레임에 대한 히스토그램에 의해 적응적으로 판정한다.

진폭 표현의 경우(도 1의 상부 참조)에, 화소 값은 장면으로부터 카메라로 다시 들어가는, TOF 카메라의 액티브 IR 조명의 광 세기에 대응한다. 진폭 표현은 측정의 신호대 잡음 비와 직접 연관되기 때문에 깊이 맵의 측정값에서의 신뢰 측정으로 간주될 수도 있다. 진폭의 감쇄는 카메라로부터 대상의 제곱 거리(squared distance)에 비례한다. 따라서, 카메라에 근접한 대상은 배경의 대상보다 항상 더 밝게 보인다.

전경으로부터 배경을 분리시키는 적응적 임계값(adaptive threshold value)을 찾기 위해, 휘도 값의 히스토그램은 정확히 2개의 필수 최대값을 가지며, 이 부근에서 휘도 값의 각각이 가우스 분포를 개략적으로 따른다는 가정하에서 동일하게 정해진다. 이러한 환경하에서, 양봉 분포(bimodal distribution)의 하나의 스피크(speaks)와 임계값이, 2개의 분포를 가능한 양호하게 서로에 대해 분리시키는 방식으로 선택된다. 진폭 표현에 대한 임계값에 기초한 더 정확한 세분화만으로는 일반적으로 어렵다. 여러 대상은 적외선 광에 대해 상이한 반사 특성을 갖기 때문이다.

깊이 맵의 경우(도 1의 중간 부분)에는, 다수의 대상이 카메라의 앞에서 상이한 거리에 위치한 경우에, 양봉 모델의 가정이 깊이 값의 히스토그램에서 분리된다. 따라서, 히스토그램 내의 각각의 최대값이, 대상이 카메라의 앞에서 상이한 거리에 실제로 존재하는 경우에 대상에 대응한다. 세분화에 사용되는 임계값은 잔여 최대값으로부터 카메라에 가장 근접한 대상의 최대값을 분리시키는 것으로 정해진다.

세분화된 진폭 표현이 최종 세분화를 위한 세분화된 깊이 맵과 결합되면, 이들 화소만이 진폭 표현과 깊이 맵에서 전경에 할당되는 전경의 화소로 간주된다. 즉, 2개의 임계값 초과값 중 하나에 의해 배제되는 않는, 이들 모든 화소의 교차가 사용된다.

바람직하게는, 전경 화소의 가장 큰 연속 세그먼트를, 주지의 방법에 의해 검색하고, 이러한 세그먼트의 화소만이 최종적으로 전경에 할당된다. 다른 모든 화소는 배경에 속하는 것으로 간주된다. 이러한 세분화의 결과를 도 1의 하부에 나타낸다. 이 처리 과정은 다른 대상이나 사람이, 추정할 사람의 상대적으로 바로 뒤에 존재하는 경우의 세분화에 유용하다. 목표로 하는 사람이 명백하게 구분되어 있으며 이러한 사실을 알고 있으면, 연속 세그먼트에 대한 검색을 건너뛰어도 된다.

식별된 전경 화소는 카메라 앞의 사람의 정면의 가시 면(visible surface)의 스캔 포인트를 표현하는 것으로 간주될 수 있다.

초점 거리와 화소 크기와 같은 카메라의 고유 파라미터는 알려져 있으므로, 이미지 처리 과정을 TOF 카메라에 의해 측정된 깊이 값에 의해 역으로 할 수 있다. 이에 의하면, 각각의 화소에 대하여 해당 화소 상에 매핑된 장면 내의 해당 포인트의 3D 장면 좌표의 판정이 가능하다. 화소 좌표 (x, y)와 관련 깊이 값(r)을 갖는 화소에 대하여, 관련 3D 공간 포인트(x)를 다음의 식으로부터 구할 수 있다.

상기 식에서 (c_x, x_y)는 카메라의 광학 축이 이미지 센서에 부합하는 포인트의 화소 좌표를 나타낸다. 파라미터 s_x 및 s_y는 화소의 높이와 깊이를 각각 나타내고, f는 렌즈의 초점 거리이다. 연산자 (.,.,.)^T는 라인 벡터를 달리 나타낸 것이며,

는 유클리드 놈(Euclidian norm)을 나타낸다.

상기 식을 세분화된 이미지의 모든 전경 화소에 적용하는 경우, 카메라 앞의 사람의 3차원 형상을 나타내는 포인트의 3D 집계(aggregate)를 얻는다.

이러한 방안은 다음과 같은 2가지 주요 장점을 갖는다.

(i) 카메라로부터의 거리에 관계없이, 3차원 공간에서의 사람이 항상 동일한 크기를 갖기 때문에 표현은 스케일 불변(scale-invariant)이다.

(ii) 깊이 값의 변화에 불구하고, 카메라를 향하는 신체의 상부 앞으로 연장되는 신체의 일부와 일부 숨겨진 부분을 용이하게 찾을 수 있다. 그러나, 이러한 정보 부분은 표준 카메라의 2D 투영에서는 누락될 수 있어서 훨씬 더 복잡한 문제를 일으킬 수 있다.

본 발명에 따른 방법의 두 번째 단계에서, 단순화한 골격 모델을 추정할 사람의 정면을 나타내는 3D 포인트 집계에 맞춘다. 이 경우, 골격 모델은 단순한 설계를 갖는 것이 바람직하며, 자세 추정과 관련하여 신체의 해부학적 좌표만을 표현하는 것이 좋다.

도 2는 예시적으로 사용되는 모델을 나타낸다. 이 모델은 신체, 머리 및 팔로 이루어진 상부에 대한 44개의 노드로 이루어진 그래프로 나타낸다. 이 경우, 신체의 해부학적 구성은 그래프의 에지로 표현한다. 예를 들어, 팔은 에지에 의해 쌍으로 연결된 일련의 노드로 표현하고, 신체의 상부는 2차원의 그리드로 표현한다. 당업자라면, 골격 모델의 상세한 구성이 평가할 프레임에 따라 선택될 수 있음을 알 수 있을 것이며, 따라서 이것은 본 발명을 제한하는 것으로 간주해서는 안 된다. 예를 들어, 이 모델은 하단에서 쌍으로 연결된 다른 2개의 노드 체인을 추가함으로써, 어떠한 문제도 없이 다리의 표현까지 확장될 수 있다.

본 발명에 의하면, 골격 모델은 자기 구조화 맵(SOM)으로 간주할 수 있으며 이에 따라 사용될 수 있다.

기본적으로, SOM은 신경망에 의해 구현되는 데이터 포인트

의 코드북 벡터

에의 할당을 나타낸다. 벡터 양자화의 경우와 같이, 가장 작은 가능한 평균 제곱근 오차(root mean square error: RMSE)에 의해, 입력 데이터를 나타내는 할당을 찾는 것이 목표이다. 이를 위하여, SOM은 적절한 학습 규칙에 의해 훈련되고, 오차를 최소로 하는 방식으로 입력 공간 내의 코드북 벡터를 시프트시킨다.

벡터 양자화의 확장으로서, 코드북 벡터의 이웃 구조를 망에 제공한다. 이러한 이웃 구조는 망이 진행하는 각각의 학습 단계가 성과를 갖게 된다. 훈련 데이터 포인트

는 랜덤하게 샘플링되고 이에 가장 근접한 코드북 벡터

가 정해진다. 학습 규칙을 코드북 벡터

에 적용하는데, 이러한 벡터를 훈련 데이터 포인트

의 방향으로 시프트시킨다. 또한, 이웃 구조에서 정의된

의 이웃도 또한 훈련 데이터 포인트

의 방향으로 시프트시킨다. 이에 의하면, 이웃 구조에 기인하여 서로에 근접하는 코드북 벡터가, 망이 훈련된 이후에 내부 공간 안에서 서로에 대해 공간적으로 근접하게 된다. 이하, 코드북 벡터(codebook vector)를 노드(node)라고 한다.

노드와 이웃 구조를 가지며 본 발명에 따라 사용되는 SOM을 도 2에 나타낸다. 이 노드는 포인트로서 도시되어 있으며, 에지는 이웃을 규정한다. 따라서, 노드는 에지에 의해 직접 연결되는 모든 노드의 이웃을 갖는다.

SOM은 미리 전경에 할당되었던 이들 화소에 대해 비디오 시퀀스의 각각의 세분화된 프레임에 대한 반복적인 학습 규칙에 의해 훈련된다. 시퀀스의 제1 프레임에 대해, 예를 들어 도 2로부터의 자세는 모델의 초기화로서 작용한다. 초기화 동안, 모델은 3D 포인트 집계의 중심으로 시프트된다. 시작할 때에, 모델의 크기는 카메라 앞의 사람의 크기에 한번 적용된다. 정확하게 선택되면, 현재의 처리 과정에서는 다시 적용할 필요는 없다. 왜냐하면, 본 발명에 따른 방법은 스케일 불변이기 때문이다. 이 경우, 모델의 개시 크기의 선택은 특히 중요한 파라미터는 아니며, 본 방법은 초기화 동안 상대적으로 큰 변동에 대해 영향을 받지 않는다.

시퀀스의 모든 후속하는 프레임의 각각의 훈련이 선행하는 프레임에서 학습되었던 모델에 의해 시작한다.

모델의 새로운 프레임에의 각각의 적용은 SOM의 완전한 훈련을 포함한다. 즉, 모델은 학습 규칙이 데이터 포인트를 훈련함으로써 반복적으로 적용된 훈련 데이터 포인트가 되는 패턴별 학습 규칙에 의해 3D 포인트 집계의 구조를 학습한다. 이러한 반복적 방법에서, 데이터 포인트

는 모든 훈련 데이터의 집합으로부터 랜덤하게 샘플링되며, 모델은 이하의 학습 규칙에 의해 적용된다.

는 거리 차원

과 관련해서, 훈련 데이터 포인트

에 가장 근접한 노드를 나타낸다. 거리 차원으로서, 유클리드 표준

이 사용될 수 있다. 노드

은 도 2의 모델에 의해 미리 정의된 바와 같이 노드

의 이웃을 나타낸다. 이웃

및

는 다음 노드와 그 이웃에 대한 학습 레이트를 각각 나타낸다. 이 경우, 학습 레이트

는 다음과 같이 선택된다.

는 프레임에 대한 현재의 학습 단계를 나타내며, t_max는 이러한 프레임에서 수행되는 학습 단계의 최대 수를 나타낸다. 초기의 학습 레이트

와 최종 학습 레이트

는 전형적으로 값 0.1 및 값 0.05로 각각 설정된다. 아웃에 대한 학습 레이트는

로 설정된다.

이러한 학습 레이트의 사용은 말단, 이 경우에는 팔에 관련된 모델의 이웃 구조가 유지되는 것을 항상 보장하는 것은 아니다. 이하의 예를 명확히 나타내기 위한 것이다. 사람의 손을 자신의 신체의 상부 앞에서 서로 닿도록 한다. 손을 멀리 떼게 되면, 모델은 오른손에 실제로 속하는 데이터 포인트를 표현하기 위해 왼팔의 마지막 노드를 사용하게 될 수 있다. 이것은 손이 이미 서로에 대해 멀리 떨어졌음에도, 왼쪽 모델 팔의 마지막 노드가 계속해서 오른손의 포인트에 의해 이끌린다는 사실의 결과가 될 수 있다. 왼팔은 데이터 포인트가 더 이상 존재하지 않는 공간의 일부를 통해 연장된 것으로 본다.

기본적으로, SOM의 학습 규칙은 시간의 경과에 따라 이 문제를 해결할 수 있다. 그러나, 일시적으로 자세의 잘못된 추정 결과를 낼 수 있는, 양호한 실행 시간을 보장하기 위해 프레임마다 매우 적은 수의 학습 단계만이 실행된다.

이러한 문제를 피하기 위해, 상기 언급한 규칙을 단순한 방식으로 확장하여, 기술된 시나리오에서의 학습 과정을 더 신속하게 성공적으로 할 수 있다. 이러한 확장은 인접한 노드가 미리 정해진 거리보다 서로에 대해 더 멀리 떨어지는 것을 방지한다. 이것은 다음의 규칙에 의해 달성되는데, 거리

가 미리 정해진 임계값

를 초과하는 경우, 식 2와 식 3으로부터 실제의 학습 규칙 이후에 적용된다.

는 노드

의 유한 이웃(definite neighbor)을 나타내며, 앵커(anchor)라고도 한다. 이 규칙은 노드

와 앵커 사이의 거리가 임계값

를 절대로 초과하지 않는다는 것을 보장한다. 이 경우, 임계값

는 모델의 스케일링에 좌우된다. 노드의 앵커는 모델의 그래프 구조와 관련해서, 모델에서 신체의 상부의 중심을 향하는 가장 짧은 경로에 있는, 즉 최소 수의 에지에 의해 신체의 상부의 중심에 연결되는 이웃 노드인 이웃 노드로서 정의되는 각각의 시간이다.

자세의 예시적인 추정을 도 3에 나타낸다. 도 3은 도 1의 바닥에 있는 세분화된 이미지의 전경 화소에 대한 포인트의 집계(aggregate)를 나타낸다. 이 데이터에 적용된 모델은 포인트의 집계로 묘사한다. 이 모델은 사람의 해부를 정확하게 반영한다는 것을 알 수 있다. 예를 들어, 신체의 상부는 2차원 그리드에 의해 잘 덮여져 있으며, 일부 뼈는 머리로 연장되고 노드의 2개의 1차원 체인은 팔을 따라간다. 따라서, 손과 같은 신체의 중요한 부분의 위치를 3D 모델의 대응하는 노드로부터 직접 얻을 수 있다.

마지막으로, 도 4는 비디오 시퀀스의 다수의 제스처(gesture)를 나타낸다. 이들 프레임은 세분화된 진폭 표현을 나타내며, 이 모델의 2D 투영이 이러한 표현으로 묘사된 것이다. 이 모델은 신체의 상부의 앞에서 팔을 밀착해서 포개고 있는 여러 상황에서도 팔을 추적할 수 있다. 이 모델은 또한, 머리의 대부분이 일부 프레임 내의 팔 뒤로 숨겨져 있는 경우에도, 머리의 위치를 신뢰성 있게 추정할 수 있다.

본 발명에 따른 방법의 중요한 장점은 새로운 프레임에 대한 모델의 훈련을 매우 신속하게 완료할 수 있다는 것이다. 카메라 앞에 있는 사람이 매우 빨리 움직이고 있는 경우에도, 훈련 동안 사용되어야 하는 3D 포인트 집계로부터 매우 적은 양의 데이터만으로 경험적으로 정할 수 있다. 도 3은 대략 6500개의 전경 화소를 포함한다. 그러나, 대략 t_max = 650개의 데이터 포인트만이 랜덤하게 샘플링되며, 패턴별 학습 규칙에 의해 SOM의 훈련을 위해 랜덤한 순서로 사용된다. 따라서, 본 방법의 연산에 사용되는 비용은 매우 작으며, 자세는 2.0GHz PC에서 초당 최대 25 프레임의 프레임 레이트로 추정될 수 있다.

기본적으로, 본 발명에 따른 방법은 자세가 3차원적으로 추정되는 임의의 종류의 이동가능한 대상까지 확장될 수 있다. TOF 카메라와 SOM의 사용의 조합에 의해, 노드와 이웃 구조를 갖는 SOM에 의해 시뮬레이트될 수 있는 대상 요소에 대한 제한된 이동 기회가 존재하는 경우, 단순하고 효율적인 구현이 가능하다. 이것은 특히 추정할 대상이, 이들이 서로에 대해 이동이 가능한 방식으로 설계되는 고정된 대상로 상호연결된 요소를 갖는 것으로 알려져 있는 경우에 적용된다. 신체는 본 발명의 관점에서 이러한 대상의 하나의 예이다.

인간 자세의 추정의 경우에, 본 방법은 인간 제스처의 실시간 검출이 가능하다. 먼저, 시스템은 공간 내의 머리와 손의 위치를 알 수 있으므로, 제스처의 포인팅의 해석이 직접적으로 가능하다. 이에 의하면, 포인팅이 이루어지는 방향을, 머리에서부터 시작되는, 손에 따른 빔을 규정함으로써 식별할 수 있다. 이 빔은 포인팅의 방향에 직감적으로 대응한다. 포인팅이 이루어지는 대상의 공간 좌표를 추가로 알게 되면, 포인팅이 이루어지는 영역을 정확하게 판정하는 데에 사용될 수 있다. 파워포인트(PowerPoint) 슬라이드를 사용하는 표현을 사용할 수 있으며, 레이저 포인터를 가상의 레이저 포인트로 대체해서 사용할 수 있다. 즉 빨간색 포인트는 스피커가 포인트하는 투영된 슬라이드 상의 지점에 도시되어 있다.

두 번째로, 본 발명에 따른 방법은 가상의 공간-시간 특징에 기초하여 더 복잡한 제스처의 검출을 위한 시스템을 개발하는 데에 사용될 수 있다. 이러한 공간-시간 특정의 평가는 시스템의 높은 처리 파워를 요구한다. 손과 같은 일부 랜드마크의 위치를 알고 있으면, 공간-시간 특징의 평가는 손이 존재하는 이들 영역에만 한정될 수 있다. 또한, 랜드마크의 상대적인 위치를 알고 있으면, 검출된 공간-시간 특징을 서로 관련시켜서 더 큰 콘텍스트에 넣을 수 있으며, 이에 의해 제스처의 검출을 더 유일하게 할 수 있어서 신뢰성이 있다. 이러한 방식으로 이루어진 방법은 컴퓨터 지원 시스템에 포함하여 사용될 수 있는 복잡한 제스처를 검출할 수 있다. 이러한 시스템은 의료 및 산업 분야의 기술적 제어 시스템, 정보 단말 및 가정에서 컴퓨터 게임을 사용하기 위한 멀티미디어 시스템에 사용할 수 있다.

Claims

서로 관련해서 이동가능하고 상호연결된 요소로 이루어진 대상(object)의 가변 자세(variable pose)를 포함하는 이미지 시퀀스(image sequence)를 컴퓨터를 사용하여 실시간으로 분석하는 방법으로서,
상기 이미지 시퀀스의 프레임(frame)은 이동 시간(TOF: time-of-flight) 카메라에 의해 기록되어, 이들 프레임이 컴퓨터에 의해 처리되도록 하여, 상기 프레임이 휘도 및 거리 데이터를 상기 시퀀스의 각 프레임에 대한 TOF 카메라의 화소 좌표(pixel coordinate)의 함수로서 갖도록 하며,
(a) 상기 대상을 매핑하는 프레임의 화소를 검출하는 단계;
(b) 가상 공간 내에서 상기 카메라에 대해 가시적인 상기 대상의 표면을 나타내는 포인트의 3차원(3D) 집계(aggregate)를, 상기 대상으로부터 취득한 거리 데이터를 고려하여, 이러한 공간으로의 대상 매핑 화소(object-mapping pixel)의 계산된 투영(projection)에 의해 계산하는 단계;
(c) 상기 대상의 요소의 선택을 나타내는 노드와 이들 요소의 상호연결을 나타내는 에지로 이루어진 상기 대상의 모델을, 상기 프레임에 대한 컴퓨터로 생성된 포인트의 3D 집계에 피팅(fitting)하는 단계;
(d) 자기 구조화 맵(self-organizing map)을 상기 포인트의 집계 중의 미리 정해진 개수의 랜덤하게 샘플링된 포인트로 훈련하기 위한 학습 규칙(learning rule)을 사용하여 모든 노드 위치를 반복해서 갱신하는 단계;
(e) 상기 이미지 시퀀스의 각각의 시퀀스 프레임에 대하여 상기 단계 (a) 내지 단계 (d)를 반복하고, 선행하는 프레임의 단계 (e)의 결과를 상기 단계 (c)에서의 피칭 과정에 대해 사용되는 단계; 및
(f) 상기 이미지 시퀀스의 적어도 대표적인 프레임에서 검출된, 상기 모델의 미리 정해진 노드의 위치로부터 변화되는 자세를 판정하는 단계
를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 대상이 매핑되는 카메라 화소가 상기 TOF 카메라의 이미지 시퀀스의 이미지 세분화(image segmentation)에 의해 정해지는, 방법.
제2항에 있어서,
상기 TOF 카메라의 휘도 및 깊이 데이터에 대한 2개의 임계값이 각각의 프레임에 대해 판정되고, 측정 데이터가 휘도 임계값보다 더 크고 깊이 임계값보다 작은, 카메라 화소의 연속하는 영역이 식별되는, 방법.
제3항에 있어서,
상기 휘도 데이터는 히스토그램으로 구성되며, 2개의 누적 포인트가 식별되고, 휘도 임계값은 상기 2개의 누적 포인트 사이의 값이 되도록 하는 방식으로 선택되는, 방법.
제3항에 있어서,
상기 깊이 데이터는 히스토그램으로 구성되며, 적어도 2개의 누적 포인트가 식별되고, 상기 깊이 임계값은 최소 깊이와 다른 깊이의 누적 포인트 사이의 값이 되도록 하는 방식으로 선택되는, 방법.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 모델의 노드 위치는 반복 단계에서 갱신되며, 하나의 포인트(x)는 각각의 반복 단계에서 포인트의 3D 집계의 미리 정해진 수의 포인트에 대해 랜덤하게 샘플링되고, 모든 노드는 상기 포인트(x)를 향해 시프트되며, 상기 시프트의 정도는 상기 반복 단계에 앞서 x로부터 가장 짧은 거리를 갖는 노드에 대해 가장 크게 되는, 방법.
제6항에 있어서,
모든 노드에서의 상기 시프트의 정도는 반복 단계의 수에 따라 감소하도록 설정되는, 방법.
제6항 또는 제7항에 있어서,
랜덤하게 샘플링된 포인트(x)의 수 또는 반복 단계의 수는 상기 포인트의 집계 내의 포인트의 총수의 대략 10%가 되는, 방법.
제6항 내지 제8항 중 어느 한 항에 있어서,
각각의 반복 단계 이전에, 상기 샘플링된 포인트(x)로부터 가장 짧은 거리를 가진 제1 노드에 대하여, 상기 제1 노드의 이웃(neighbor)이며 상기 제1 노드로부터의 거리가 상기 노드의 시프트 동안 미리 정해진 값을 초과하지 않는 제2 노드가 선택되는, 방법.
제2항 내지 제9항 중 어느 한 항에 있어서,
추정된 자세는 컴퓨터 지원 시스템(computer-assisted system)을 제어하기 위한 사용자 입력으로서 기능하는, 방법.
제10항에 있어서,
상기 컴퓨터 지원 시스템은 의료 분야 또는 산업 분야에서 기술적인 제어 시스템에 해당하는 것인, 방법.
제10항에 있어서,
상기 컴퓨터 지원 시스템은 정보 단말(information terminal)에 해당하는 것인, 방법.
제10항에 있어서,
상기 컴퓨터 지원 시스템은 가정용의 멀티미디어 시스템에 해당하는 것인, 방법.
제10항에 있어서,
상기 컴퓨터 지원 시스템은 컴퓨터 게임에 해당하는 것인, 방법.