KR101415479B1

KR101415479B1 - 트랙킹 방법

Info

Publication number: KR101415479B1
Application number: KR1020127019660A
Authority: KR
Inventors: 자비에르 벨레; 로랑 기그; 곤잘레즈 하비에르 마르티네즈
Original assignee: 소프트키네틱 소프트웨어
Priority date: 2009-12-28
Filing date: 2010-12-28
Publication date: 2014-07-04
Also published as: MX2012007595A; CN102812491A; EP2357608A1; CA2784558C; SG181596A1; CN102812491B; BR112012015971A2; US8891825B2; EP2357608B1; JP2013516014A; JP5462956B2; ZA201204260B; AU2010338192A2; TWI520102B; US20130016879A1; WO2011080282A1; AU2010338192A1; KR20130000374A; CA2784558A1; AU2010338192B2

Abstract

본원 발명은 프레임의 시퀀스 내에서 하나 이상의 객체를 트랙킹하기 위한 방법에 관한 것으로서, 각각의 상기 프레임은 픽셀 어레이를 포함하며, 상기 각 픽셀에 대해서 심도 값이 연관된다. 상기 방법은 각 프레임의 상기 픽셀들의 적어도 일부를 몇개의 영역으로 그룹핑하는 단계; 상기 영역들을 상호연결된 영역들의 클러스터들(B₁, ..., B₅)로 그룹핑하는 단계; 및 만약 하나 이상의 클러스터(B₂, ..., B₅)가 다른 클러스터(B₁)의 심도 값 보다 더 높은 심도 값을 가진다면, 2차원 프로젝션의 다른 클러스터(B₁)에 인접한 하나 이상의 클러스터(B₂, ..., B₅)가 상기 다른 클러스터(B₁)에 의해서 부분적으로 은폐된 객체에 속하는 것으로 결정하는 단계를 포함한다.

Description

트랙킹 방법{TRACKING METHOD}

본원 발명은 적어도 하나의 객체를 프레임 시퀀스(frame sequence)로 트랙킹하기 위한 방법에 관한 것이며, 각각의 프레임은 픽셀 어레이를 포함하며, 심도 값이 각각의 픽셀에 연관된다.

실세계(real-world) 객체를 트랙킹하기 위해, 이미징 장치에 연결되고 그리고 이미징 장치에 의해 생성되고 연속 프레임들의 시퀀스를 포함하는 비디오 시퀀스로 객체를 트랙킹하도록 프로그램된 데이터 프로세싱 장치가 오래 전부터 제시되어 있으며, 각각의 프레임들은 픽셀 어레이를 포함한다.

예를 들어, 객체를 비디오 시퀀스에서 트랙킹하기 위한 방법을 개시하고 있는, Wei Du 및 Justus Piater가 저술한 "Tracking by Cluster Analysis of Feature Points using a Mixture Particle Filter"라는 논문(article)에서는, 해리스 코너 검출기(Harris corner detector) 및 루카스-카나데(Lucas-Kanade) 트랙커(tracker)를 이용한다. 그러나, 이러한 방법은 픽셀 심도 정보 없이 이차원적인(bidimentional) 비디오 시퀀스에 적용되기 때문에, 상당한 데이터 프로세싱 요건에도 불구하고 그 성능은 제한적이다.

이차원적인 픽셀 어레이를 이용하여 하나 또는 몇 개의 객체를 비디오 시퀀스에서 트랙킹하기 위한 일부 다른 관련 간행물들(papers)은 다음과 같다:

S. McKenna, S. Jabri, Z. Duric 및 H. Wechsler, "Tracking Groups of People", Computer Vision and Image Understanding, 2000.

F. Bremond 및 M. Thonnat, "Tracking multiple nonrigid objects in video sequences", IEEE Trans. On Circuits and Systems for Video Techniques, 1998.

I Haritaoglu, "A Real Time System for Detection and Tracking of People and Recognizing Their Activities", University of Maryland, 1998.

G. Pingali, Y. Jean 및 A. Opalach, "Ball Tracking and Virtual Replays for Innovative Tennis Broadcasts", 15th Int. Conference on Pattern Recognition.

그러나, 이들 트랙킹 방법은 어떠한 직접적인 픽셀 심도 정보도 없이 2D 비디오 시퀀스에 대해서 실행되기 때문에, 그들의 성능은 필연적으로 제한되는데, 이는 이미지 단편화(segmentation)가 색채, 형상 또는 텍스쳐(texture)와 같은 다른 객체 속성(attributes)만을 기초로 할 수 있기 때문이다.

비디오 시퀀스를 제공하는 3D 이미징 시스템을 이용하는 것으로서, 심도 값이 각 프레임의 각 픽셀과 연관되는 것이, 예를 들어, 국제특허출원 공보 제 WO2008/128568 호에서 이미 제안되어 있다. 그러한 트랙킹 방법은 순수하게 2차원 이미지를 기반으로 하는 것 보다 트랙킹되는 객체에 관한 보다 훨씬 더 유용한 위치 정보를 생성한다. 특히, 3D 이미징 시스템의 이용은 전경(foreground) 및 배경 사이의 구분을 보다 더 용이하게 한다. 그러나, 이러한 개시된 방법은 하나 이상의 객체를 트랙킹하는데 있어서의 문제점을 해결하지 못하며, 특히 3D 이미징 시스템의 시계(field of view) 내의 다른 객체에 의해서 적어도 부분적으로 은폐된 객체를 트랙킹하는데 있어서의 문제점을 해결하지 못한다. WO 2008/128568에서, 3차원 공간 내의 부피를 인식하기 위한 방법이 개시되어 있으며, 여기에서 3차원 이미지 데이터는 3차원 공간 내의 복수의 지점들을 포함한다. 이러한 지점들은 클러스터링되고(clustered) 그리고 하나의 클러스터가 관심 대상 지점으로서 선택된다. 선택된 클러스터 내의 지점들은 하위(sub)-클러스터로 재-그룹핑되며, 각각의 하위-클러스터는 중심 및 중심과 연관된 부피를 가진다. 중심들이 연결되어 객체를 나타내는 네트워크를 형성하고 그리고 극단부들(extremities)이 단지 하나의 다른 중심과 연결된 중심이 되는 것으로 식별된다.

3D 비디오 시퀀스를 이용하고 있으나, 은폐 문제점을 해결하지 못한 다른 트랙킹 방법이 A. Azerbayerjani 및 C. Wren의 "Real-Time 3D Tracking of the Human Body", Proc. of Image'com, 1996; 그리고 T. Olson 및 F. Brill의 "Moving Object Detection and Event Recognition Algorithms For Smart Cameras", Proc. Image Understanding Workshop, 1997에 기재되어 있다.

많은 수의 개시물들이 이러한 은폐 문제를 해결하였다. 많은 수의 여러 가지 방법이 Department of Electrical Engineering and Computer Science of the University of Liege의 Pierre F. Gabriel, Jacques G. Verly, Justus H. Piater, 및 Andre Genon가 작성한 논평(review) "The State of the Art in Multiple Object Tracking Under Occlusion in Video Sequences"에서 제시되었다.

A. Elgammal 및 L.S. Davis의 "Probabilistic framework for segmenting people under occlusion", Proc. of IEEE 8th International Conference on Computer Vision, 2001 ; I. Haritaoglu, D. Harwood 및 L. Davis의 "Hydra: Multiple People Detection and Tracking", Workshop of Video Surveillance, 1999; S. Khan 및 M. Shah의 "Tracking People in Presence of Occlusion", Asian Conference on Computer Vision", 2000; H.K. Roh 및 S.W. Lee의 "Multiple People Tracking Using an Appearance Model Based on Temporal Color", International Conference on Pattern Recognition, 2000; 그리고 A.W. Senior, A. Hampapur, L.M. Brown, Y. Tian, S. Pankanti 및 R. M. Bolle의 "Appearance Models for Occlusion Handling", 2nd International Workshop on Preformance Evaluation of Tracking and Surveillance Systems", 2001에는 이러한 은폐 문제를 해결하는 트랙킹 방법들이 개시되어 있다. 그러나, 이들 모든 방법들이 어떠한 심도 데이터도 없는 이차원적인 픽셀 어레이만을 포함하는 2D 또는 스테레오 비디오 시퀀스를 기초로 하기 때문에, 그들이 성능이 제한적이다.

A. F. Bobick 등의 "The KidsRoom: A perceptually based interactive and immersive story environment", Teleoperators and Virtual Environrment, 1999; R.T. Collins, A.J. Lipton, 및 T. Kanade의 "A System for Video Surveillance and Monitoring", Proc. 8th International Topical Meeting on Robotics and Remote Systems, 1999; W.E.L. Grimson, C. Stauffer, R. Romano, 및 L. Lee의 "Using adaptive tracking to classify and monitor activities in a site", Computer Society Conference on Computer Vision and Pattern Recognition; 그리고 A. Bevilacqua, L. Di Stefano 및 P. Tazzari in ≪ People tracking using a time-of-flight depth sensor ≫, IEEE International Conference on Video and Signal Based Surveillance, 2006 에는 탑-다운(top-down) 장면 뷰(scene view)를 기초로하는 객체 트랙킹 방법이 개시되어 있다. 그러나, 결과적으로, 특히 객체가 인간 사용자(human user)일 때, 트랙킹되는 객체 상에서 이용가능한 정보가 제한된다.

Dan Witzner Hansen, Mads Syska Hansen, Martin Kirschmeyer, Rasmus Larsen, 및 Davide Silvestre의 "Cluster tracking with time-of-flight cameras", 2008 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops에는, 객체들이 또한 호모그래픽(homographic) 평면에서 즉, "탑-다운" 뷰에서 트랙킹되는 객체 트랙킹 방법이 개시되어 있다. 이러한 방법은 최대기망산법 알고리즘(Expectation Maximisation algorithm)을 이용한다. 그러나, 이러한 것은 또한 트랙킹되는 객체가 인간 사용자일 때 제스쳐(gesture) 인지(recongnition)에 대해서는 충분하게 맞춰 구성되지 못한다.

Leila Sabeti, Ehsan Parvizi 및 Q.M. Jonathan Wu 는 또한 "Visual Tracking Using Colour Cameras and Time-of-Flight Range Imaging Sensors", Journal of Multimedia, Vol. 3, No. 2, June 2008에서, 픽셀 심도 데이터를 가지는 3D 비디오 시퀀스를 이용하는 객체 트랙킹 방법을 제시하였다. 그러나, 몬테-카를로-기초형(Monte-Carlo-based) "입자 필터(particle filter)" 트랙킹 방법을 이용하는 이러한 방법은 또한 상당한 데이터 프로세싱 자원(resources)을 필요로 한다.

US 2006/239558 에는 장면의 이미지를 생성하는 3차원 이미징 시스템이 개시되어 있다. 장면의 이미지 내의 픽셀들이 라벨링되고(labelled), 장면 내의 객체에 따라서 그 픽셀들은 소정 값과 관련되고 그리고 그 값으로 할당된다. 동일한 라벨을 가지는 픽셀들의 그룹이 그룹화되어 "블롭(blob)"을 형성하고, 각 블롭은 다른 객체에 상응한다. 블롭이 일단 규정되면, 그 블롭들은 원 또는 직사각형 등과 같은 여러 가지 형상의 초기체(primitives) 또는 사람, 동물 또는 차량과 같은 미리 규정된 다른 객체로 모델링되거나 양자화된다(quantised). 장면 내의 픽셀의 클러스터링 및 그들의 연관된 심도 값을 이용하여 픽셀이 심도 값에 따라 특별한 클러스터에 속하는 지를 결정한다. 만약 픽셀이 이웃 픽셀과 동일한 심도에 있다면, 그들은 이웃 픽셀이 속하는 클러스터와 동일한 라벨로 할당된다.

US 6771818에는, 장면 내의 구분되는(distinct) 3차원 영역 또는 "블롭"을 선택적으로 클러스터링하고 그리고 "블롭" 클러스터를 객체 인식을 위한 모델과 비교함으로써, 장면 내의 관심 대상이 되는 사람 및 객체들을 식별 및 위치결정(locating)하기 위한 방법이 개시되어 있다. 관심 대상 장면의 초기의 3차원 심도 이미지가 생성된다(generated). 3차원 부피 내의 3차원 이미지 픽셀의 공간적 좌표가 이미지에 의해서 대표된다. 사람 또는 객체의 식별 및 위치결정은, 초기의 3차원 심도 이미지와 상당히 다른 라이브 심도 이미지 내의 임의 픽셀이 수많은 구분되는 3차원 영역 또는 "블롭"을 포함하는 작업 이미지의 일부가 되도록, 초기 3차원 심도 이미지 및 라이브(live) 심도 이미지를 이용한 배경 제거(subtraction) 프로세스로부터 획득된 작업(working) 이미지를 프로세싱함으로써 결정된다. 각각의 블롭이 속하는 사람 또는 객체를 식별하기 위해서, "블롭"이 프로세싱된다.

본원 발명의 목적은, 부분적으로 은폐된 객체도 신뢰할 수 있게 트랙킹하는 동시에 제스쳐 인지를 위해 적용될 수 있는 3차원 공간에서 트랙킹된 객체의 형상에 관한 정보를 제공하는, 픽셀 심도 정보를 이용하여 객체를 프레임 시퀀스로 트랙킹하는 방법을 제공하는 것이다.

실시예에서, 본원 발명에 따른 컴퓨터 실행가능 방법은 이하의 단계들을 포함한다:

- 픽셀 심도 정보를 포함하는 프레임 시퀀스(frame sequence)의 각 프레임의 픽셀들의 적어도 일부를 몇개의 영역으로 그룹핑하는 단계;

- 상호연결된 영역들의 클러스터들로 영역들을 그룹핑하는 단계;

- 만약 하나 이상의 클러스터가 다른 클러스터의 심도 값 보다 더 높은 심도 값을 가진다면, 2차원 프로젝션(projection)의 다른 클러스터에 인접한 하나 이상의 클러스터가 다른 클러스터에 의해서 부분적으로 은폐된 객체에 속하는 것으로 결정하는 단계.

"심도 값(depth value)"은, 상기 비디오 시퀀스를 캡쳐링한 이미징 장치의 위치와 무관하게, 2차원 프로젝션의 평면에 수직한 심도 값으로 이해되어야 한다. 심도 값은 이미징 장치로부터의 픽셀의 거리이다. 그에 따라, 하나의 클러스터(또는 해당 클러스터 내의 픽셀)의 심도 값이 다른 클러스터(또는 다른 클러스터 내의 픽셀)의 심도 값 보다 더 높은 값을 가질 수 있는데, 이는 그러한 클러스터가 이미징 장치로부터 보다 더 멀리 떨어져 있기 때문이다.

본원 발명의 추가적인 목적은 단일의 부분적으로 은폐된 객체에 속하는 클러스터들을 결합(join)시키는 것이다.

이러한 목적을 위해서, 보다 더 높은 심도 값들이 서로의 미리 정해진 범위(Δd₁) 내에 있는지의 여부에 따라서, 상기 2차원 프로젝션에서 다른 클러스터에 대한 인접성(adjacency)을 공유하고 그리고 다른 클러스터 보다 더 높은 심도 값을 가지는 2개의 클러스터가 상기 다른 클러스터에 의해서 부분적으로 은폐된 단일 객체에 속하는지의 여부를 결정할 수 있을 것이다.

또한, 2차원 프로젝션의 하나 이상의 축선에서, 2개의 클러스터들 중의 각각의 클러스터가 이들 2개의 클러스터들 중 다른 하나의 클러스터와 적어도 최소 길이에 걸쳐 중첩되는지의 여부에 따라서, 상기 2차원 프로젝션에서 다른 클러스터에 대한 인접성(adjacency)을 공유하고 그리고 다른 클러스터 보다 더 높은 심도 값을 가지는 2개의 클러스터가 상기 다른 클러스터에 의해서 부분적으로 은폐된 단일 객체에 속하는지의 여부를 결정할 수 있을 것이다.

이들 2개의 조건은 개별적으로 또는 동시에 적용될 수 있을 것이다. 이들 2개의 조건들의 각각은 산입(inclusive) 조건으로 적용될 수 있으며, 그에 따라 조건이 충족된다면 2개의 클러스터가 단일 객체에 속하는 것으로 간주되나, 조건이 충족되지 않는다면 이는 여전히 배제(exclude)되지 않는다. 그러나, 각각은 또한 배제(exclusive) 조건으로 적용될 수 있으며, 이는 클러스터들이 해당 조건을 충족시키지 못한다면 클러스터들이 단일 객체에 속한다는 것이 배제될 수 있다는 것을 의미한다. 특별한 실시예에서, 산입 및 배제에 대한 다른 한계 값(threshold values)을 이용하여, 각 조건이 포괄적으로 그리고 배타적으로 분리되어 적용될 수도 있을 것이다.

그에 따라, 이러한 트랙킹 방법을 이용할 때, 객체가 다른 객체에 의해서 부분적으로 은폐된 경우에도 객체를 계속적으로 트랙킹할 수 있을 것이다. 상대적인 위치를 통해서 서로 신뢰가능하게 링크될 수 있는 은폐 클러스터 뒤쪽으로부터 삐져나온(poking out) 영역들 부분적으로 은폐된 객체에 속하는 것으로서 식별된다. 또한, 이러한 것는, 상호연결된 영역들의 클러스터를 통해서, 트랙킹된 객체의 3차원 형상과 관련한 정보를 제공하면서도, 제한된 컴퓨팅 자원 소모로 달성될 수 있다.

대조적으로, US 2006/239558은 픽셀들의 심도 값에 따라서 장면 내의 픽셀들에 대해서 동일한 라벨을 할당한다. 이는, 해당 장면 내의 다른 구분되는 객체들에 속하는 픽셀들이 하나의 또는 동일한 객체에 속하는 것으로 잘못 식별될 수 있다는 것을 의미한다.

US 6771818에서, 픽셀이 은폐된 것일 수 있는 객체에 속하는지의 여부를 결정하기 위해서, 식별된 클러스터들이 모델과 비교된다.

유리하게, 벡터 양자화 알고리즘을 이용하여 픽셀들이 영역들로 그룹화될 수 있을 것이다. 특히, 상기 벡터 양자화 알고리즘에서:

- 제 1 프레임 내에서, 리더-팔로워(leader-follower; 선도체-종동체) 알고리즘을 이용하여 픽셀들이 K 영역들로 그룹화될 수 있을 것이다;

- 시퀀스 프레임에서:

□ 픽셀들을 이전 프레임의 영역들로 그룹핑하기 위해서 제약된 K-평균 알고리즘(constrained K-means algorithm)이 이용되고, 이때 임의의 이들 영역의 중심의 미리 결정된 거리(Q)를 넘어서는 픽셀들을 배제하기 위해서 거리 제약(distance constraint)을 이용하며;

□ 리더-팔로워 알고리즘을 이용하여 임의의 잔류 픽셀들을 새로운 영역들로 그룹핑하며;

□ 만약 최종적으로, 이전 프레임의 영역이 이러한 시퀀스 프레임 내의 임의 픽셀로 할당되지 않았다면, 이러한 영역이 삭제될 수 있을 것이며, 그에 따라 K 수를 일(one) 만큼 줄일 수 있을 것이다.

특히, 상기 리더-팔로워 알고리즘에서:

■ 만약 픽셀이 영역 중심의 상기 거리(Q)를 넘어선다면(beyond), 새로운 영역이 생성되고, K 수를 1만큼 증가시키며; 그리고

■ 만약 픽셀이 영역 중심의 상기 거리(Q) 내에 있다면, 그 픽셀은 대응 영역으로 할당되고, 그리고 그에 따라 중심의 위치가 업데이트된다.

그러한 리더-팔로워 알고리즘은 영역들 내로의 픽셀의 일관된(consistent) 분포를 제공하는 한편, 동시에 영역들의 실질적으로 일정한 과립성(granularity)을 유지하여, 영역들의 연속적인 리프레시(refresh)를 보장하고, 그리고 컴퓨팅 자원 소모를 제한한다.

바람직하게, 다음과 같은 경우에, 두 영역들이 3차원 공간에서 연결되는 것으로 결정될 수 있을 것이다:

- 그들 두 영역 중 하나의 영역 내의 하나 이상의 픽셀, 및 그들 두 영역 중 다른 하나 내의 다른 픽셀이 2차원 프로젝션에서 인접하는 경우; 및

- 이들 두 영역들의 인접한 픽셀들의 쌍의 심도의 평균 차이가 상기 미리 결정된 거리(Δd₁) 미만인 경우.

두 픽셀이 상기 2차원 프로젝션 내에서 적어도 한 방향을 따라 미리 결정된 거리 내에 있다면, 그러한 두 픽셀은 2차원 프로젝션 내에서 인접하는 것으로 간주될 수 있을 것이다.

이러한 기준(criteria)으로, 공간 내의 하나의 바디(bodies) 또는 몇 개의 연결된 바디의 포인트들을 나타내는 픽셀들을 그룹핑하는 몇 개의 영역들이 단일 클러스터로 그룹핑될 수 있다.

보다 더 바람직하게, 시퀀스 프레임에서, 이전 프레임에 존재하지 않는 새로운 영역이, 상기 3차원 공간 내에서 상기 기존 클러스터의 영역에 직접적으로 또는 하나 이상의 다른 영역을 통해서 연결된다면, 이전의 프레임에 이미 존재하였던 상호연결된 영역들의 기존 클러스터에 속한다는 것이 결정될 수 있을 것이다. 그에 따라, 각각의 후속 프레임 내에 새롭게 존재하는 임의의 후보(candidate) 영역을 고려하여, 각 클러스터의 컨텐츠(content)가 연속적으로 업데이트될 수 있을 것이다.

유리하게, 본원 발명에 따른 방법의 바람직한 실시예는, 상기 픽셀들을 영역들로 그룹핑하기 이전에, 심도 값이 참조(reference) 프레임 내의 대응 픽셀의 심도 값과 적어도 미리 결정된 양(Δd₂) 만큼 차이가 나지 않는 각 픽셀을 상기 시퀀스 내의 각 프레임으로부터 삭제하는 다른 단계를 포함할 수 있을 것이다. 그에 따라, 전경(foreground)의 객체는 기준 프레임 내에 이미 존재하였던 배경으로부터 격리되고, 이는 컴퓨터 실행형 트랙킹 방법의 컴퓨팅 요건을 추가적으로 경감시킨다.

바람직하게, 상기 프레임 시퀀스가 실세계 장면을 캡쳐링하는 3D 이미징 장치로부터의 비디오 시퀀스일 수 있다. 그에 따라, 본원 발명의 이러한 실시예에 따른 컴퓨터 실행형 트랙킹 방법은, 예를 들어, 비디오 게임, 시뮬레이션, 가상 환경(virtual environment), 원격 제어 등과 같은 애플리케이션에서, 컴퓨터 시스템과의 실시간 상호작용을 위해서, 예를 들어 지시 또는 데이터를 입력하기 위해서 이용될 수 있을 것이다.

보다 더 바람직하게, 본원 발명의 이러한 실시예에서, 픽셀들을 영역들로 그룹핑하는 단계 이전에, 이미징 장치에 링크된 좌표 시스템으로부터 상기 실세계 장면내의 포인트에 링크된 다른 좌표 시스템으로의 좌표 변환이 이루어질 수 있을 것이다. 이러한 단계로, 픽셀 좌표가 다른 좌표 시스템으로 변환될 수 있을 것이며, 그에 따라 본원 발명에 따른 트랙킹 방법의 후속 단계들을 단순화시킬 수 있을 것이다.

본원 발명의 추가적인 목적은 픽셀 어레이를 각각 포함하는 연속적인 프레임들의 시퀀스를 포함하는 3차원 비디오 시퀀스에서 하나 이상의 객체를 트랙킹하기 위한 방법을 이용하여 애플리케이션에서 객체 활성화 및/또는 객체 비활성화(deactivation)를 관리(manage)하기 위한 것이며, 이때 심도 값이 각 픽셀과 연관된다.

그에 따라, 본원 발명의 바람직한 실시예에 따른 방법은, 상기 시퀀스의 적어도 하나의 프레임에 대해서, 제 1 세트의 활성화 기준이 충족되는 경우에 상기 프레임에서 객체를 전활성화(pre-activate)시키는 단계, 및 미리 결정된 활성화 규칙(rule) 하에서 제 2 세트의 활성화 기준이 충족되는 경우에 전활성화된 객체를 활성화시키는 단계를 더 포함할 수 있을 것이다. 그에 따라, 제 1 세트의 활성화 기준은 제 1 절대 필터로서 작용한다. 전활성화된 객체의 후속 활성화는 각각의 전활성화된 객체가 제 2 세트의 활성화 기준을 충족하는지의 여부에 의존할 뿐만 아니라, 활성화 규칙에도 의존한다.

바람직하게, 상기 제 1 세트의 활성화 기준 및/또는 제 2 세트의 활성화 기준은 이하의 기준들 중 하나 이상을 포함할 수 있을 것이다:

- 활성화 또는 비활성화하고자 하는 객체의 최대 수;

- 객체 위치;

- 객체 크기;

- 객체 운동(motion);

- 객체 형상

- 객체 색채;

- 객체가 비활성화되고 있는 동안의 연속적인 이전 프레임들의 최대 수; 또는

- 사용자 선택.

바람직하게, 상기 활성화 규칙은 이하의 활성화 규칙의 세트 중 하나일 수 있을 것이다:

- 제 2 세트의 활성화 기준을 충족시키는 모든 전활성화된 객체를 활성화시키는 강제(forced) 활성화 규칙;

- 활성화 객체가 비활성화되는 경우에만 상기 제 2 세트의 활성화 기준을 충족시키는 객체를 활성화시키는 랭크(ranked) 활성화 규칙;

- 상기 제 2 세트의 활성화 기준을 최적으로 충족시키는 객체를 활성화시키는 단순(simple) 활성화 규칙;

- 해당 객체와 연관된 다른 활성화 객체가 비활성화되는 경우에, 해당 객체를 활성화시키는 단순 스왑(swap) 활성화 규칙;

- 해당 객체가 다른 객체에 의해서 은폐되어 있거나 계속 은폐된(has been occluded) 경우에 객체를 활성화시키는 은폐 활성화 규칙; 또는

- 객체가 다른 활성 개체와 접촉하는 경우에 해당 객체를 활성화시키는 접촉 스왑 활성화 규칙.

이들 활성화 기준 및 규칙은 본원 발명의 객체 트랙킹 방법을 기초로 넓은 범위의 상호작용 가능성을 연다(open).

보다 더 바람직하게, 본원 발명에 따른 방법의 실시예는 또한, 상기 시퀀스의 하나 이상의 후속 프레임에 대해서, 미리 결정된 비활성화 규칙하의 비활성화 기준의 세트를 충족시키는 경우에 이전에 활성화된 객체를 비활성화시키는 단계를 포함할 수 있다.

상기 비활성화 기준의 세트는 이하의 기준 중 하나 이상을 포함할 수 있을 것이다:

- 활성화 또는 비활성화하고자 하는 객체의 최대 수;

- 객체 위치;

- 객체 형상

- 객체 색채;

- 객체 랭킹;

- 객체가 활성인 동안의 연속적인 이전 프레임들의 최대 수 및/또는 최소 수; 또는

- 사용자 선택.

상기 비활성화 규칙은 이하의 중에서 선택될 수 있을 것이다:

- 상기 비활성화 기준의 세트를 충족시키는 모든 활성 객체를 비활성화시키는 강제 비활성화 규칙;

- 비활성 객체가 활성화되는 경우에만 상기 세트의 비활성화 기준을 충족시키는 객체를 비활성화시키는 랭크 비활성화 규칙;

- 상기 비활성화 기준의 세트를 최적으로 충족시키는 객체를 비활성화시키는 단순 비활성화 규칙;

- 해당 객체와 연관된 다른 비활성 객체가 활성화되는 경우에, 해당 객체를 비활성화시키는 단순 스왑 비활성화 규칙;

- 객체가 다른 비활성인 그러나 전활성화된 객체와 접촉하는 경우에 해당 객체를 비활성화시키는 접촉 스왑 비활성화 규칙.

본원 발명은 또한 컴퓨터 판독가능 데이터 저장 매체에 관한 것으로서, 그러한 저장 매체는 본원 발명의 실시예들 중 임의의 하나에 따른 방법을 실시하기 위한 컴퓨터 실행가능 지시들에 관한 것이고, 또한 본원 발명은 픽셀 어레이를 각각 포함하는 연속적인 프레임의 시퀀스를 포함하는 3차원 비디오 시퀀스를 위한 입력부를 구비하는 컴퓨터 시스템에 관한 것으로서, 여기에서 심도 값이 각 픽셀에 연관되고, 그리고 본원 발명의 실시예들 중 임의의 하나에 따른 컴퓨터 실행형 방법을 실시하도록 프로그램된다.

"컴퓨터 판독가능 데이터 저장 매체"는, 랜덤 액세스 메모리, 플래시 메모리, 또는 리드-온리 메모리와 같은 솔리드 스테이트 메모리 뿐만 아니라, 하드 디스크 드라이브나 자기 테입과 같은 자기 데이터 저장 매체, 광학 디스크와 같은 광학적 데이터 저장 매체 등(이러한 것으로 제한되는 것은 아니다)을 포함하는, 디지털 데이터를 저장하는 임의의 컴퓨터 판독가능 지원체(support)를 의미할 수 있을 것이다.

도 1은 3D 이미지 장치의 전방에 서있는 사람 사용자와 함께 실내를 도시한 도면이다.
도 2는 3D 이미징 시스템에 의해서 캡쳐된 것으로서, 3차원 공간 내에 분포된 픽셀들의 형태를 도시한 도면으로서, 동일한 실내의 3차원 이미지 데이터를 도시한 도면이다.
도 3은 상기 이미지 데이터 내의 클립핑된(clipped) 부피의 이차원적인 프로젝션을 도시한 것으로서, 배경 제거 후에 인간 사용자에 대응하는 픽셀들을 그룹핑하는 상호연결된 영역들의 클러스터를 포함하는 도면이다.
도 4a, 4b, 및 4c는 상호연결된 영역들의 클러스터들이 3D 비디오 시퀀스의 연속적인 프레임들에서 어떻게 업데이트되는지를 도시한 도면이다.
도 5는 한 명의 인간 사용자 및 부분적으로 은폐된 다른 인간 사용자를 나타내는 상호연결된 영역들의 클러스터를 도시한 도면이다.
도 6a, 6b, 및 6c는 위치 기준 그리고 단순 활성화 및 비활성화 규칙을 이용하여 객체가 어떻게 활성화 및 비활성화될 수 있는지를 도시한 도면이다.
도 7a 및 7b는 위치 기준 및 접촉 스왑 규칙을 이용하여 제 1 객체가 어떻게 활성화되는지, 그리고 제 2 객체가 어떻게 비활성화되는지를 도시한 도면이다.
도 8a, 8b 및 8c는 위치 기준과 단순 활성화 및 비활성화 규칙을 이용하여 제 1 객체가 어떻게 비활성화되는지, 그리고 위치 기준 및 랭크 활성화 규칙을 이용하여 제 2 객체가 어떻게 활성화되는지를 도시한 도면이다.

본원 발명의 이러한 목적 및 기타 목적은 첨부 도면을 참조할 때 그리고 이하의 구체적인 설명을 참조할 때 보다 더 명확해질 것이다.

본원 발명 여러 가지 변형 및 대안적인 형태로 구현될 수 있는 한편, 본원 발명의 특정 실시예가 도면에 예로서 도시되어 있고 그리고 본원에서 구체적으로 설명되어 있다. 그러나, 본원 발명을 개시된 특별한 형태로 제한하고자 하는 의도가 없으며, 반대로, 특허청구범위에 기재된 바와 같은 본원 발명의 범위 내의 모든 변경, 균등물 및 대안들을 포함할 것이다.

컴퓨터 실행형 객체 트랙킹 방법의 실시예 및 본원 발명의 실시예에 따른 컴퓨터 시스템의 가능한 이용 형태들 중 하나를 도 1에 도시하였다. 이러한 애플리케이션에서, 인간 사용자(1)에게 디스플레이되는 가상 환경을 생성하는 컴퓨터 시스템(2)과 상호작용하기 위해서, 관심 대상 객체의, 이 경우에는 인간 사용자(1)의 제스쳐의 인지를 위해서 이러한 시스템 및 방법이 이용된다.

부피 인지 시스템은 3D 이미징 시스템을, 특히 이러한 실시예에서 비행 시간(time-of-flight; TOF; 시간차 측정방법) 3D 카메라(3)를 포함한다. 이러한 TOF 카메라(3)는 인간 사용자(1)와 상호작용하는데 이용되는 컴퓨터 시스템(2)에 연결된다. 이러한 실시예에서, 이러한 컴퓨터 시스템(2) 자체는, TOF 3D 카메라(3)와 협력하여, 본원 발명의 부피 인지 방법을 실행하도록 프로그램된다. 그 대신에, 상기 방법을 실행하도록 프로그램된 독립적인 데이터 프로세싱 장치가 TOF 3D 카메라(3)와 컴퓨터 시스템(2) 사이에 연결되어, 인간 사용자가 상기 컴퓨터 시스템(2)과 상효작용하게 할 수 있을 것이다.

TOF 3D 카메라(3)는 인간 사용자(1)가 서 있는 실내(4)의 3D 이미지 데이터를 포함하는 연속적인 프레임들을 캡쳐하고, 상기 프레임들은 2D 픽셀 어레이 및 해당 픽셀에 의해서 이미지화된 포인트의 TOF 3D 카메라(3)에 대한 거리에 대응하는 각 픽셀에 대한 심도 값을 포함한다. 2D 픽셀 어레이 자체 내의 픽셀들의 수직 및 수평 위치들이 TOF 3D 카메라(3)에 대해서 표시된 포인트들의 천정각(zenith angle)과 방위각(azimuth angle)에 대응하기 때문에, 각 프레임은 도 2에 도시된 바와 같이 TOF 3D 카메라(3)의 영역 내의 객체들의 가시적인 포인트들에 대응하는 픽셀(5)의 3차원 클라우드(cloud)에 의해서 묘사될(illustrated) 수 있을 것이다.

이들 연속적인 프레임들은 컴퓨터 시스템(2)으로 전송되는 3차원 비디오 시퀀스를 형성한다. 제 1 단계에서, 상기 컴퓨터 시스템(2) 내의 데이터 프로세서는 비디오 시퀀스 내의 각 프레임의 픽셀(5)의 3차원 클라우드의 카메라에 대한 픽셀 위치를 장면에 고정된(anchored) 좌표 시스템(6)의 좌표로 변환한다. 이러한 좌표 시스템(6)은 3개의 직교하는 축선: 즉, 측방향 축선(X), 심도 축선(Y), 및 높이 축선(Z)을 포함한다. 이후에, 필터를 이용하여 충분한 정보를 이용할 수 없는 픽셀들 또는 센서 노이즈로부터 기인할 수 있는 픽셀들을 프레임으로부터 제거할 수 있을 것이다.

후속 단계에서, 배경만을 이용하여 해당 프레임을 이전에 캡쳐된 참조 프레임과 비교함으로써, 장면 배경에 대응하는 각 프레임 내의 픽셀(5)이 또한 제거될 수 있을 것이다. 상기 심도 축선(Y)에서 상기 참조 프레임 내의 대응 픽셀로부터 한계 거리(Δd₂)를 넘어서지 않는 모든 픽셀(5)들이 이미지로부터 제거된다(subtracted). 그러나, 그 대신에, 실시간으로 참조 배경을 업데이팅함으로써, 이러한 배경 제거가 동적으로 실시될 수도 있을 것이다.

후속하여, 데이터 프로세싱 요건을 저감시키기 위해서, 결과적인 이미지가 잔류 픽셀(5)을 포함하는 보다 작은 부피(7)에 클립핑될 수 있을 것이다.

이어서, 그러한 잔류 픽셀(5)은 데이터 프로세서에 의해서 컴퓨터 메모리 내에서 복수의 영역(R_i)으로 그룹핑되고, 이때 i = 1, ..., K이다. 픽셀들은 이하와 같이 벡터 양자화 알고리즘을 이용하여 바람직하게 그룹핑된다.

비디오 시퀀스의 제 1 프레임에서, 픽셀들은 리더-팔로워 알고리즘을 이용하여 K 영역으로 그룹핑된다. 이러한 알고리즘에서, 만약 픽셀이 영역 중심의 상기 거리(Q)를 너머에 있다면, 새로운 영역이 생성되고, K 수가 1만큼 증대되며; 그리고 만약 픽셀이 영역 중심의 거리(Q) 내에 있다면, 그 픽셀은 대응 영역으로 할당되며, 그에 따라 중심의 위치가 업데이트된다. 그에 따라, 상기 제 1 프레임 내의 제 1 픽셀로부터 시작할 때, 아직 영역이 생성되지 않았기 때문에(K=0), 제 1 영역이 생성되고, K는 1로 셋팅되며, 이러한 제 1 영역의 중심의 위치가 제 1 픽셀의 위치가 될 것이다. 다음 픽셀에 대해서, 그 픽셀이 제 1 픽셀의 상기 거리(Q) 내에 있다면, 그 픽셀은 제 1 영역으로 통합될 것이고 그리고 제 1 영역의 중심의 위치가 변화될 것이다. 그러나, 만약 그 픽셀이 상기 거리(Q)를 넘어서 있다면, 새로운 영역이 생성될 것이고 그리고 K가 2로 셋팅될 것이다.

각각의 시퀀스 프레임에서, 픽셀들의 적어도 일부를 그룹핑하기 위해서, 제약된 K-평균 알고리즘이 첫 번째로 사용된다. K-평균 알고리즘은 반복적인 알고리즘이며, 그러한 알고리즘에서는, 본 경우에 이전 프레임에 대해서 결정되었던 K 영역들의 중심의 초기 위치(C_i)를 결정한 후에, 시간 일관성(temporal coherency)의 정도(degree)를 도입하기 위해서, N 픽셀의 세트의 각각의 픽셀(j)이 첫 번째로 다음 방정식에 의해서 지정되는 상기 K 영역들의 영역(R_s)에 연관되며, 상기 방정식은 다음과 같다:

이때, P_j 는 전술한 좌표 시스템(6) 내의 픽셀(j)의 위치이다. 이러한 특별한 제약된 K-평균 알고리즘에서, 중심으로부터 미리 결정된 거리(Q)를 넘어서는 그러한 픽셀들이 할당되지 않고 남는다.

각 픽셀 j=1, ..., N을 상기 K 영역들 중 하나에 할당한 후에, 그러한 K 영역들의 중심의 위치(C_j)는 각 영역에 대해서 할당된 픽셀들의 군집(mass)의 중심의 위치를 계산함으로써 업데이트된다:

이때, n은 영역(Ri)에 할당된 픽셀의 수이다.

이어서, 이들 두 단계는 K 영역들로의 픽셀들의 안정적인 할당으로 수렴될 때까지 반복적으로 실행될 것이다.

■ 이어서, 전술한 동일한 리더-팔로워 알고리즘을 이용하여, 할당되지 않고 남은 픽셀들이 새로운 영역들로 그룹핑될 수 있고, 그러한 알고리즘에서는 만약 픽셀이 영역 중심의 상기 거리(Q)를 넘어선다면, 새로운 영역이 생성되고, K 수를 1만큼 증가시키며; 그리고 만약 픽셀이 영역 중심의 상기 거리(Q) 내에 있다면, 그 픽셀은 대응 영역으로 할당되고, 그리고 그에 따라 중심의 위치가 업데이트된다.

마지막으로, 만약 K 영역들 중의 한 영역이 빈 상태로 남으면, 해당 프레임 내의 영역으로 어떠한 픽셀도 할당되지 않은 상태가 되고, 이러한 영역(R_i)은 삭제되고, 그에 따라 K 수를 1 만큼 감소시킨다.

프레임 내의 결과적인 영역(R_i)의 세트가 도 3에 도시되어 있다.

각 프레임에 대한 다음 단계는 영역 인접성 그래프(RAG)의 생성, 그리고 컴퓨터 메모리에서의 상호연결된 영역들의 클러스터(B) 내로의 영역(R_i)들의 그룹핑을 포함한다. 데이터 프로세스는, 다음과 같은 경우에, 2개의 영역(R_a, R_b)(여기에서 a 및 b는 0과 K 사이의 2개의 다른 수이다)이 3차원 공간 내에서 연결되는 것으로 결정한다: 즉,

- 영역(R_a) 내의 하나 이상의 픽셀과 영역(R_b) 내의 다른 픽셀이 XZ 평면 상의 2차원 프로젝션 내에서 인접하는 경우; 그리고

- 이들 두 영역(R_a, R_b)의 인접한 픽셀들의 쌍에서 Y 축선을 따른 심도의 평균 차이가 미리 결정된 거리(Δd₁) 미만인 경우.

만약 이들 두 픽셀 중 하나가 적어도 X 축선 또는 Z 축선 내의 다른 하나의 다음 픽셀, 두 번째 다음 픽셀, 또는 세 번째 다음 픽셀이라면, 두 픽셀은 2차원 프로젝션에서 인접한 것으로 간주된다.

두 영역(R_a, R_b)이 X-Z 평면 상의 프로젝션 내에서 인접한 픽셀들을 가지나, 이들 인접한 픽셀들의 쌍의 심도의 평균 편차가 상기 미리 결정된 거리(Δd₁)를 넘어설 때, 영역(R_a 및 R_b)이 연결될 가능성이 있는 것으로 프래그(flagged)될 수 있을 것이다. 이러한 경우에, 그들을 상호연결된 영역들로서 단일 클러스터(B₀)로 그룹핑하는지의 여부가 부가적인 기준의 세트에 따라서 결정될 것이다.

많은 수의 클러스터(B₀)가 제 1 프레임 내에서 생성되고, 각 클러스터는 상호연결된 영역들의 세트를 포함한다. 후속 프레임들의 경우에, 새로운 영역(R_c)이 기존 클러스터(B₀)의 영역으로 직접적으로 또는 하나 이상의 다른 영역(R_d)을 통해서 연결된다면, 그러한 새로운 영역이 기존 클러스터(B₀)로 통합될 것이다. 이는 이하의 알고리즘을 실행하는 데이터 프로세서에 의해서 결정된다: 즉,

각 영역(R_i)에 대해서:

- 만약 이전 프레임에 이미 존재하였다면, 그에 따라 기존 클러스터(B₀)에 연관되었다면, 시간 일관성을 고려하여, 속하게 되는 클러스터까지의 영역(R_i)의 거리의 지표(indicator) "거리(R_i)"가 제로로 셋팅되고, 지표 "객체(R_i)"가 "B₀"로 셋팅되고, 그리고 R_i 가 "거리(R_i)"의 증가되는 값에 의해서 저장된 리스트(H) 내에 저장된다.

- 만약 그렇지 않다면, "거리(R_i)"가 "INFINITE"로 셋팅되고, 그리고 객체(R_i)"가 "NULL"로 셋팅된다.

이어서, 리스트(H)가 비어 있지 않는 한, 다음을 반복한다:

- 지표 "거리(R_h)"의 가장 낮은 값을 이용하여 리스트(H)로부터 영역(R_h)을 추출.

- 영역(R_h)에 인접하는 각 영역(R_v)에 대해서:

■ 계산된 거리(d) = 거리(R_h) + 거리RAG(R_h, R_v), 이때 R_h 및 R_v 가 연결된다면, 거리RAG(R_h, R_v) = 0 이되고, 그리고 만약 R_h 및 R_v가 연결되지 않는다면, 거리RAG(R_h, R_v) = INFINITE 이며; 그리고

● 만약 d < 거리(R_v) 라면:

○ "거리(R_v)"의 값을 d의 값으로 셋팅;

○ "객체(R_v)"의 값을 "객체(R_h)"의 값으로 셋팅; 그리고

○ 만약 영역(R_v)가 리스트(H) 내에 없다면, 그 영역을 리스트(H) 내로 삽입;

○ 만약 영역(R_v)가 리스트(H) 내에 이미 있다면, 그 영역을 리스트(H)로부터 추출.

기존 클러스터들로 연결될 수 있는 모든 영역들이 그러한 클러스터들 내로 통합된 후에, 임의의 잔류 영역들이 연결에 대해서 체크되고, 그리고 필요한 경우에 그러한 영역들을 통합하는 부가적인 클러스터들이 생성된다. 도 4a, 4b, 및 4c는 2개의 연속적인 프레임들 사이의 전이(transition)를 도시한다.

도 4a에 도시된 제 1 프레임에서, 2개의 클러스터(B₁ 및 B₂)가 존재한다. B₁ 은 상호연결된 영역들(R₁, R₂, R₃, R₄, R₅, 및 R₆)을 포함하는 반면, B₂ 는 상호연결된 영역 (R₇, R₈, R₉, R₁₀, 및 R₁₁)을 포함한다. 다음 프레임에서, 도 4b에 도시된 바와 같이, B₁ 및 B₂ 가 여전히 존재하나, R₇ 은 보이지 않는다. 다른 한편으로, 새로운 영역(R₁₂, R₁₃, R₁₄, R₁₅, R₁₆, 및 R₁₇)이 보여졌다. R₁₂는 클러스터(B₁)의 영역(R₆)에 연결되고, R₁₃은 클러스터(B₂)의 영역(R₁₁)에 연결되고, 그리고 R₁₄는 (R₁₃) 연결된다. R₁₅, R₁₆, 및 R₁₇은 상호연결되나, 임의의 다른 영역 또는 클러스터에 연결되지는 않는다. 그에 따라, 도 4c에 도시된 바와 같이, R₁₂ 는 클러스터(B₁) 내로 통합될 것이고, R₁₃ 및 R₁₄ 는 클러스터(B₂) 내로 통합될 것이고, 그리고 R₁₅, R₁₆, 및 R₁₇ 이 새로운 클러스터(B₃)를 형성할 것이다.

다음 단계에서, 클러스터 관계 그래프(CRG)가 구축된다. 이러한 CRG에서, X-Z 평면 상의 2차원 프로젝션 내에서 다른 클러스터의 영역 내의 하나 이상의 픽셀에 인접한 하나 이상의 픽셀을 가지는 영역을 각각 포함하는, X-Z 평면 상의 2차원 프로젝션 내에서 인접하는 클러스터들의 쌍이 제 1 타입의 링크 태그된(tagged) "2D 연결"과 링크된다. 이어서, 양 클러스터가 공통되는 이웃하는 클러스터에 대해서 "2D' 연결" 링크를 가지나, 공통 이웃의 심도 값 보다 더 높은 심도 값을 가지고, 그리고 심도 축선에서 서로의 미리 결정된 거리(Δd₁) 이내에 있는 클러스터들의 쌍이 제 2 타입의 링크 태그된 "3D 연결가능(connectable)"과 링크된다.

"3D 연결가능" 링크에 의해서 링크된 클러스터들은 그들의 공통 이웃에 의해서 표현되는(represented) 다른 객체에 의해서 부분적으로 은폐된 객체에 속할 수 있다. 그들이 단일 객체에 속하는 것으로 서로 실질적으로 연관되어야 하는지의 여부를 결정하기 위해서, 그들이 상기 2차원 프로젝션 내에서 "스택이 가능한(stackable)" 지의 여부, 즉, 그들이 적어도 최소 정규화된(normalized) 길이(O_min) 만큼 상기 2차원 프로젝션의 하나 이상의 축선에서 서로 중첩되는지의 여부를 체크한다. 정규화된 중첩 길이의 값 o=O/L이며, 이때 O 는 해당 축선에서의 절대 중첩 길이이고, L은 해당 축선에서의 2개의 "3D 연결가능" 클러스터의 보다 더 짧은 길이이다.

도 5는, 프레임이 2개의 객체 즉, 제 1 인간 사용자(U₁) 및 상기 제 1 인간 사용자(U₁)에 의해서 부분적으로 은폐된 제 2 인간 사용자(U₂)를 나타내는 한 세트의 클러스터(B₁, B₂, B₃, B₄, 및 B₅)를 보여주는 예를 도시한다. 제 2 인간 사용자(U₂) 앞의 제 1 인간 사용자(U₁)의 존재는 제 2 인간 사용자(U₂)를 클러스터(B₂, B₃, B₄, 및 B₅)로 유효하게 분할한다는 것을 용이하게 이해할 것이다. 클러스터(B₂, B₃, B₄, 및 B₅) 모두가 X-Z 평면 내의 2차원 프로젝션 내의 클러스터(B₁)에 인접하기 때문에, 그리고 Y-축선에서의 그들의 평균 심도가 최소 거리 초가 만큼 클러스터(B₁)의 심도 보다 더 상위(superior)에 있기 때문에, 그 클러스터들은 "2D 연결" 링크(7)에 의해서 B₁과 링크될 수 있을 것이다. 또한, 그들이 심도 축선(Y)에서 서로로부터 미리 결정된 범위 내에 있기 때문에, 그들은 "3D 연결가능" 링크(8)에 의해서 서로 링크될 수 있을 것이다.

다음 단계에서, "3D 연결가능" 타입의 링크(8)에 의해서 링크된 그러한 클러스터(B₂, B₃, B₄, 및 B₅)가 또한 하나 이상의 최소 정규화 길이(O_min) 만큼 상기 2차원 프로젝션의 하나 이상의 축선을 따라 서로 중첩되는지의 여부를 체크한다. 도시된 예에서, B₃ 는 X 축선에서 충분한 정규화된 길이 o_X(3,2)> O_min 만큼 B₂와 중첩되고, 그리고 B₄ 및 B₅ 는 Z 축선으로 충분한 정규화된 길이 o_Z(4,2)>o_min 및 o_Z _(5,3)> o_min 만틈 각각 B₂ 및 B₃와 중첩된다.

정규화된 중첩 길이 o_X _(3,2)=0_X(3,2)/L_x3 이고, 이때 Ο_X(3,2)는 X 축선 방향을 따른 B₃의 B₂와의 중첩이고, 그리고 L_x3 는 X 축선을 따른 B₃의 길이이다. 정규화된 중첩 길이 o_Z _(4,2)=0_Z(4,2)/L_z4 이고, 이때 O_z _(4,2)는 Z 축선을 따른 B₄와 B₂ 의 중첩이고, 그리고 L_z4 는 z 축선을 따른 B₄ 의 길이이다. 마지막으로 정규화된 중첩 길이 o_z(5,3) = O_z _(5,3)/L_Z5 이고, 이때 O_z _(5,3)은 Z 축선을 따른 B₅와 B₃의 중첩이고, L_z5 는 Z 축선을 따른 B₅ 의 길이이다.

그에 따라, 클러스터(B₂, B₃, B₄, 및 B₅)는 클러스터(B₁)를 포함하는 다른 객체(U₁)에 의해서 부분적으로 은폐된 단일 객체(U₂)로 컴퓨터 메모리에서 할당될 수 있다.

예시된 실시예에서, "3D 연결가능" 및 "스택가능" 테스트들이 조합되어 이용되었고 그러한 조합에서는 클러스터들이 양 조건들을 충족시키지 않는 경우에 클러스터들이 단일 객체에 속한다는 것을 배제하였지만, 다른 실시예에서, 그러한 클러스터들은 서로 독립적으로 이용될 수 있고, 또는 서로 병렬로 이용될 수 있다. 이들 두 조건들의 각각의 하나는 산입 조건으로서 적용될 수 있을 것이고, 그에 따라 상기 조건이 충족되는 경우에 2개의 클러스터가 단일 객체에 속하는 것으로 간주되나, 조건이 충족되지 않는 경우에 이는 여전히 배제되지 않는다. 산입 및 배제에 대한 다른 한계 값을 이용하여, 각 조건을 산입방식으로 또는 배제방식으로 독립적으로 적용할 수도 있을 것이다.

후속 프레임에 대해서, 데이터 프로세서는 새로운 CRG를 생성할 것이고 그리고, 전술한 테스트를 이용하여, 임의의 새로운 클러스터들이 기존 객체에 할당될 수 있는지의 여부를 먼저 체크할 것이다. 이어서, 동일한 테스트를 이용하여, 임의의 잔류 클러스터들이 새로운 객체로 그룹핑될 수 있는지의 여부를 체크할 것이다.

그에 따라, 복수의 객체가, 객체들 중 하나가 다른 하나에 의해서 부분적으로 은폐되는 경우에도, 프레임 시퀀스를 통해서 트랙킹될 수 있다. 그러한 객체들은 고정된 것일 수 있고 또는 이동하는 것이 수 있다. 비디오 게임, 시뮬레이션, 또는 가상 현실 애플리케이션과 같은 컴퓨터 애플리케이션과의 상호작용을 위해서 이러한 객체-트랙킹 방법이 이용될 때, 트래킹되는 객체들 중 각각의 하나가 활성화/비활성화 기준 및 활성화/비활성화 규칙의 여러 가지 세트에 따라서 활성화 및/또는 비활성화될 수 있을 것이다.

본원 발명의 특별한 실시예에서, 픽셀 어레이를 각각 포함하는 프레임들의 시퀀스에서 하나 이상의 객체를 트랙킹하기 위한 방법으로서, 심도 값이 각 픽셀에 대해서 연관되는 방법은, 또한, 하나 이상의 프레임에 대해서, 제 1 세트의 활성화 기준이 충족되는 경우에 상기 프레임 내의 객체를 전활성화시키는 단계 및 미리 결정된 활성화 규칙 하에서 제 2 세트의 활성화 기준을 충족시키는 경우에 전활성화된 객체를 활성화시키는 단계를 포함한다.

바람직하게, 이러한 방법은 또한, 상기 시퀀스의 하나 이상의 후속 프레임에 대해서, 미리 결정된 비활성화 규칙 하에서 비활성화 기준의 세트를 충족시키는 경우에 이전에 활성화된 객체를 비활성화시키는 단계를 포함한다.

제 세트의 1 활성화 기준은 이하 중 하나 이상을 포함할 수 있을 것이다:

객체 위치: 이러한 요건으로, 예를 들어 다른 트랙킹된 객체와 같은 이동형 참조기준 및/또는 고정형 참조기준에 대해서(또는 심지어 접촉하는) 특정의 상대적인 위치 내에 있는 경우에, 트랙킹된 객체가 전활성화될 것이다.

객체 크기: 이러한 요건으로, 1, 2 또는 3 차원에서 미리 결정된 최소 크기 이상 및/또는 미리 결정된 최대 크기 이하(at most)를 가지는 경우에, 트랙킹된 객체가 전활성화될 것이다.

객체 운동: 이러한 요건으로, 시퀀스 내의 하나 이상의 이전의 프레임에 대해서 미리 결정된 최소 운동 이상 및/또는 미리 결정된 최대 운동 이하를 나타내는 경우에, 트랙킹된 객체가 전활성화될 것이다.

객체 형상: 이러한 요건으로, 예를 들어, 인간 신체를 나타내는 패턴과 같은 미리 결정된 패턴에 형상이 매칭될 수 있다면, 트랙킹된 객체가 전활성화될 것이다.

객체 색채: 이러한 요건으로, 미리 결정된 색체 범위 내의 색채 값을 가지는 하나 또는 몇 개의 픽셀을 포함하는 경우에, 트랙킹된 객체가 전활성화될 것이다.

객체 지속성: 이러한 요건으로, 연속적인 이전 프레임들의 최소 수 이상 및/또는 최대 수 이하에 대해서 활성인 또는 비활성인 것으로 트랙킹된 경우에, 트랙킹된 객체가 전활성화될 것이다.

사용자 선택: 이러한 요건으로, 예를 들어, "객체 가시화" 명령과 같은 명백한 사용자 선택에 의해서 이전에 프래그된 경우에, 트랙킹된 객체가 전활성화될 것이다.

활성 객체의 최대 수: 이러한 요건으로, 활성 객체의 수가 미리 결정된 최대치를 초과하지 않는 경우에, 트랙킹된 객체가 활성화될 것이다.

이러한 제 2 세트의 활성화 기준이 활성화 규칙과 함께 이용된다. 이러한 활성화 규칙은, 예를 들어, 제 2 세트의 활성화 기준을 충족시키는 모든 전활성화된 객체를 활성화시키는 강제 활성화 규칙, 활성화 객체가 비활성화되는 경우에만 상기 제 2 세트의 활성화 기준을 충족시키는 객체를 활성화시키는 랭크 활성화 규칙, 상기 제 2 세트의 활성화 기준을 최적으로 충족시키는 객체를 활성화시키는 단순 활성화 규칙, 해당 객체와 연관된 다른 활성화 객체가 비활성화되는 경우에 해당 객체를 활성화시키는 단순 스왑 활성화 규칙, 해당 객체가 다른 객체에 의해서 은폐되어 있거나 계속 은폐된 경우에 객체를 활성화시키는 은폐 활성화 규칙, 또는 객체가 다른 활성 개체와 접촉하는 경우에 해당 객체를 활성화시키는 접촉 스왑 활성화 규칙일 수 있다.

비활성화 기준의 세트는 제 2 세트의 활성화 기준과 유사한 기준을 포함할 수 있을 것이다. 또한, 비활성화 기준의 세트는 객체의 랭킹이 최소치 미만인 경우에 활성 객체의 비활성화를 허용할 객체 랭킹 기준을 포함할 수 있을 것이다. 객체 랭킹 기준은, 예를 들어, 활성 객체들의 세트가 활성화되는 순서에 의해서 결정될 수 있을 것이다.

비활성화 규칙은, 예를 들어, 상기 비활성화 기준의 세트를 충족시키는 모든 활성 객체를 비활성화시키는 강제 비활성화 규칙, 비활성 객체가 활성화되는 경우에만 상기 세트의 비활성화 기준을 충족시키는 객체를 비활성화시키는 랭크 비활성화 규칙, 상기 비활성화 기준의 세트를 최적으로 충족시키는 객체를 비활성화시키는 단순 비활성화 규칙, 해당 객체와 연관된 다른 비활성 객체가 활성화되는 경우에 해당 객체를 비활성화시키는 단순 스왑 비활성화 규칙, 또는 객체가 다른 비활성인 그러나 전활성화된 객체와 접촉하는 경우에 해당 객체를 비활성화시키는 접촉 스왑 비활성화 규칙일 수 있을 것이다.

그에 따라, 활성화 및 비활성화 기준 및 규칙의 조합에 따라서, 여러 가지 시나리오가 이용될 수 있을 것이다.

예를 들어, 도 6a에서, 객체(U₁)가 도시되어 있으며, 그러한 객체는, 전활성화된 상태에서, 고정형 참조기준(11) 주위의 원(10) 중심에 들어가 있으며, 이는 활성화에 대한 위치 기준을 충족시킨다. 결과적으로, 객체(U₁)는 단순 활성화 규칙에 따라서 활성화된다. 도 6b에서, 객체(U₁)는 원(10)을 빠져나갔으나, 비활성화에 대한 이러한 위치 기준이 보다 큰 원(12)을 넘어서는 위치이기 때문에, 그 객체는 활성으로 유지된다. 도 6c에 도시된 바와 같이, 객체(U₁)가 보다 큰 원(12)을 빠져나가는 경우에만, 다른 단순 활성화 규칙하에서 그 객체가 비활성화될 것이다.

도 7a에서, 2개의 객체(U₁) 및 객체(U₂)가 접촉하지 않은 상태로 도시되어 있다. 이러한 경우에, 2개의 객체(U₁) 및 객체(U₂)는 각각의 사용자 즉, 사용자 1과 사용자 2에 대응한다. 제 1 객체(U₁)는 활성이고, 그리고 제 2 객체(U₂)는 전활성화된 상태이다. 제 1 객체(U₁)가 비활성이나 전활성화된 객체와 접촉하는 비활성화를 위한 위치 기준을 충족시키기 때문에, 이는 접촉 스왑 비활성화 규칙 하에서 비활성화될 것이다. 한편, 제 2 객체(U₂)가 활성 객체와 접촉하는 활성화를 위한 위치 기준을 충족시키기 때문에, 이는 접촉 스왑 활성화 규칙 하에서 활성화될 것이다. 결과적인 상태 스왑이 도 7b에 도시되어 있다.

도 7b에서, 접촉 스왑 활성화 규칙하에서, 객체(U₂)가 객체(U₁)와 접촉하게 될 때, 객체(U₂)는 (비활성이나 전활성화되었었기 때문에) 활성화되고 그리고 객체(U₁)는, 활성화된 객체(U₂)와 이제 접촉하기 때문에, 비활성화되기 시작한다.

도 8a에서, 제 1 객체(U₁)가 도시되어 있으며, 그러한 객체는, 전활성화된 상태에서, 고정형 참조기준(11) 주위의 원(10) 중심에 들어가 있으며, 이는 활성화에 대한 위치 기준을 충족시킨다. 결과적으로, 객체(U₁)는 단순 활성화 규칙에 따라서 활성화된다. 원(10) 내에 있지 않는 제 2 객체(U₂)가 비활성으로 유지된다. 도 8b에서, 제 1 객체(U₁)가 이제 원(10)의 외부에 있다. 그러나, 비활성화에 대한 위치 기준이 보다 큰 원(12)을 넘어서는 위치이기 때문에, 그 객체는 활성으로 유지된다. 비록 제 2 객체(U₂)가 이제 전활성화되고 원(10) 내에 있지만, 랭크 활성화 규칙하에서, 제 1 객체(U₁)가 활성으로 유지되는 동안에 제 2 객체는 활성화될 수 없을 것이다. 도 8c에 도시된 바와 같이, 제 1 객체(U₁)가 보다 큰 원(12)을 빠져나간 후에 비활성화될 때에만, 제 2 객체(U₂)가 이러한 랭크 활성화 규칙하에서 활성화될 수 있을 것이다.

만약 활성화/비활성화 규칙이 허용한다면, 하나 초과의 객체가 임의의 한 시점에 활성화될 수 있을 것이다. 이는, 본원 발명에 따라서 3차원 이미징 시스템에 의해서 보여지는 동일한 3차원 공간 내에서 둘 또는 그 초과의 사용자들이 상호작용할 수 있게 할 것이다.

특정의 예시적인 실시예들을 참조하여 본원 발명을 설명하였지만, 특허청구범위에 기재된 본원 발명의 보다 더 넓은 범위로부터 벗어나지 않고도 이들 실시예들에 대한 다양한 변경 및 변화가 이루어질 수 있다는 것이 명확할 것이다. 예를 들어, 객체를 전활성화, 활성화 및/또는 비활성화시키는 단계들은 몇 개의 클러스터들이 하나의 부분적으로 은폐된 객체에 속하는지의 여부 또는 그러 여부가 어떻게 결정되는지와는 무관하게 실행될 수 있을 것이다. 따라서, 설명 및 도면들은 제한적인 개념 보다는 예시적인 개념으로 간주될 것이다.

Claims

하나 이상의 객체(U₁, U₂)를 프레임의 시퀀스로 트랙킹하기 위한 컴퓨터 구현 방법으로서,
각각의 프레임은 픽셀 어레이를 포함하고, 심도 측정값이 각각의 픽셀(5)에 연관되며,
a) 각각의 프레임의 상기 픽셀(5)의 적어도 일부를 복수의 영역(R₁, ..., R₁₇)으로 그룹핑하는 단계와,
b) 상기 영역(R₁, ..., R₁₇)을 상호연결된 영역의 클러스터(B₁, ..., B₅)로 그룹핑하는 단계로서, 상기 상호연결된 영역의 클러스터(B₁, ..., B₅)는 상기 하나 이상의 객체(U₁, U₂)에 대응하는, 그룹핑하는 단계를 포함하는, 트랙킹하기 위한 컴퓨터 구현 방법에 있어서,
c) 적어도 제1 심도 값을 갖고 그리고 2차원 프로젝션의 다른 심도 값을 갖는 다른 클러스터(B₁)에 인접하는 하나 이상의 클러스터(B₂, ..., B₅)가, 상기 하나 이상의 클러스터(B₂, ..., B₅)의 상기 적어도 제1 심도 값이 상기 다른 클러스터(B₁)의 심도 값보다 더 높은 경우, 다른 객체(U₁)에 대응하는 상기 다른 클러스터(B₁)에 의해 부분적으로 은폐된 객체(U₂)에 속하는지를 결정하는 단계와,
d) 상기 2차원 프로젝션의 상기 다른 클러스터(B1)에 대한 인접성을 공유하는 2개의 클러스터(B2, ..., B5)가 상기 객체(U2)에 속하는지를, 상기 2개의 클러스터(B2, ..., B5)의 제1 심도 값-하나의 클러스터의 미리 결정된 거리(Δd1) 내에 있는-에 따라 결정하는 단계를 더 포함하는 것을 특징으로 하는, 트랙킹하기 위한 컴퓨터 구현 방법.
제1항에 있어서, 상기 단계 d)는,
상기 2차원 프로젝션의 하나 이상의 축선에서, 상기 2개의 클러스터(B₂, ..., B₅) 중의 각각의 클러스터가 상기 2개의 클러스터(B₂, ..., B₅) 중의 다른 하나의 클러스터와 중첩되는지 여부를 결정하는 단계를 더 포함하는 것을 특징으로 하는, 트랙킹하기 위한 컴퓨터 구현 방법.
제1항 또는 제2항에 있어서, 상기 픽셀(5) 중 적어도 일부는 벡터 양자화 알고리즘을 이용하는 데이터 프로세서에 의해 영역(R₁, ... R₁₇)으로 그룹핑되는 것을 특징으로 하는, 트랙킹하기 위한 컴퓨터 구현 방법.
제3항에 있어서, 상기 벡터 양자화 알고리즘에서:
- 제 1 프레임에서, 상기 픽셀(5)이 리더-팔로워 알고리즘을 이용하여 K 영역(R₁...R₁₁)으로 그룹화되고,
- 시퀀스 프레임에서:
■ 제약된 K-평균 알고리즘이 픽셀(5)을 이전 프레임의 영역(R1, ..., R11)으로 그룹핑하는데 이용되고, 거리 제약이 임의의 영역 중심(C1, ..., C11)으로부터 미리 결정된 거리(Q)를 넘어서 위치한 픽셀(5)을 배제시키는데 이용되며,
■ 리더-팔로워 알고리즘이 임의의 잔류 픽셀(5)을 새로운 영역(R₁₂, ..., R₁₇)으로 그룹핑하는데 이용되며,
■ 최종적으로, 이전 프레임의 영역(R₇)이 상기 시퀀스 프레임의 임의의 픽셀(5)로 할당되지 않은 경우, 상기 영역(R₇)이 삭제되고, K 수를 1 만큼 감소키는 것을 특징으로 하는, 트랙킹하기 위한 컴퓨터 구현 방법.
제4항에 있어서, 상기 리더-팔로워 알고리즘에서:
■ 픽셀(5)이 영역 중심(C₁, ..., C₁₁)의 상기 거리(Q)를 넘어서는 경우, 새로운 영역(R₁₂, ..., R₁₇)이 생성되고, K 수를 1만큼 증가시키며,
■ 픽셀(5)이 영역 중심의 상기 거리(Q) 내에 있는 경우, 상기 픽셀은 대응 영역(R₁, ..., R₁₁)으로 할당되고, 할당에 따라 중심(C₁, ..., C₁₁)의 위치가 업데이트되는 것을 특징으로 하는, 트랙킹하기 위한 컴퓨터 구현 방법.
제1항 또는 제2항에 있어서,
- 두 영역(R₁, ..., R₁₇) 중 하나의 영역 내의 하나 이상의 픽셀(5), 및 상기 두 영역(R₁, ..., R₁₇) 중 다른 하나의 영역 내의 다른 픽셀(5)이 2차원 프로젝션에서 인접하고,
- 상기 두 영역(R₁, ..., R₁₇)의 인접한 픽셀(5)의 쌍의 심도의 평균 차이가 상기 미리 결정된 거리(Δd₁) 미만인 경우,
상기 두 영역(R₁, ..., R₁₇)이 3차원 공간에서 연결되는 것으로 결정되는 것을 특징으로 하는, 트랙킹하기 위한 컴퓨터 구현 방법.
제3항에 있어서, 시퀀스 프레임에서, 이전 프레임에 존재하지 않는 새로운 영역(R₁₂; R₁₃, R₁₄)이, 3차원 공간에서 기존 클러스터의 영역(R₆; R₁₁)에 직접 또는 적어도 다른 영역(R₁₃)을 통해 연결되는 경우, 상기 이전 프레임에 이미 존재했던 상호연결된 영역의 기존 클러스터에 속한다는 것이 결정되는 것을 특징으로 하는, 트랙킹하기 위한 컴퓨터 구현 방법.
제1항 또는 제2항에 있어서, 상기 픽셀(5)을 영역(R₁, ..., R₁₇)으로 그룹핑하기 전에, 심도 값이 참조 프레임의 대응 픽셀(5)의 심도 값과 적어도 미리 결정된 양(Δd₂) 만큼 차이가 나지 않는 각각의 픽셀(5)을 연속적인 각각의 프레임으로부터 삭제하는 단계를 더 포함하는 것을 특징으로 하는, 트랙킹하기 위한 컴퓨터 구현 방법.
제1항 또는 제2항에 있어서, 상기 프레임 시퀀스는 실세계 장면을 캡쳐링하는 3D 이미징 장치로부터의 비디오 시퀀스인 것을 특징으로 하는, 트랙킹하기 위한 컴퓨터 구현 방법.
제9항에 있어서, 상기 픽셀을 영역(R₁, ..., R₁₇)으로 그룹핑하는 단계 전에, 상기 3D 이미징 장치에 링크된 좌표 시스템에서 상기 실세계 장면의 포인트에 링크된 다른 좌표 시스템으로 좌표 변환이 실행되는 것을 특징으로 하는, 트랙킹하기 위한 컴퓨터 구현 방법.
제1항 또는 제2항에 있어서, 상기 시퀀스의 하나 이상의 프레임에 대해:
- 제 1 세트의 활성화 기준이 충족되는 경우 상기 프레임에서 객체(U₁, U₂)를 전활성화(pre-activate)시키는 단계와,
- 미리 결정된 활성화 규칙하에서 제 2 세트의 활성화 기준이 충족되는 경우 전활성화된 객체(U₁, U₂)를 활성화시키는 단계를 더 포함하는 것을 특징으로 하는, 트랙킹하기 위한 컴퓨터 구현 방법.
제11항에 있어서, 상기 제 1 세트의 활성화 기준과 상기 제 2 세트의 활성화 기준 중 하나 이상은,
- 활성화될 객체의 최대 수,
- 객체 위치,
- 객체 크기,
- 객체 운동,
- 객체 형상,
- 객체 색채,
- 객체가 활성화되거나 비활성화되어 있는 동안의 연속적인 이전 프레임의 최소 수와 연속적인 이전 프레임의 최대 수 중 하나 이상, 또는
- 사용자 선택
중 하나 이상을 포함하는 것을 특징으로 하는, 트랙킹하기 위한 컴퓨터 구현 방법.
제11항에 있어서, 상기 활성화 규칙은,
- 상기 제 2 세트의 활성화 기준을 충족시키는 모든 전활성화된 객체를 활성화시키는 강제 활성화 규칙,
- 활성화 객체가 비활성화된 경우에만 상기 제 2 세트의 활성화 기준을 충족시키는 객체를 활성화시키는 랭크 활성화 규칙,
- 상기 제 2 세트의 활성화 기준을 충족시키는 하나 또는 복수의 객체를 활성화시키는 단순 활성화 규칙,
- 어느 한 객체와 연관된 다른 활성 객체가 비활성화되는 경우 상기 어느 한 객체를 활성화시키는 단순 스왑 활성화 규칙,
- 어느 한 객체가 다른 객체에 의해 은폐되거나 은폐되어 있는 경우 상기 어느 한 객체를 활성화시키는 은폐 활성화 규칙, 또는
- 어느 한 객체가 다른 활성 개체와 접촉하는 경우 상기 어느 한 객체를 활성화시키는 접촉 스왑 활성화 규칙
중 하나인 것을 특징으로 하는, 트랙킹하기 위한 컴퓨터 구현 방법.
제11항에 있어서, 상기 시퀀스의 하나 이상의 후속 프레임에 대해, 미리 결정된 비활성화 규칙하에서 비활성화 기준의 세트를 충족시키는 경우 전활성화된 객체를 비활성화시키는 단계를 더 포함하는 것을 특징으로 하는, 트랙킹하기 위한 컴퓨터 구현 방법.
제14항에 있어서, 상기 비활성화 기준의 세트는,
- 활성화되거나 비활성화될 객체의 최대 수,
- 객체 위치,
- 객체 크기,
- 객체 형상,
- 객체 색채,
- 객체 랭킹,
- 객체가 활성인 동안의 연속적인 이전 프레임의 최대 수와 연속적인 이전 프레임의 최소 수 중 하나 이상, 또는
- 사용자 선택
중 하나 이상을 포함하는 것을 특징으로 하는, 트랙킹하기 위한 컴퓨터 구현 방법.
제15항에 있어서, 상기 비활성화 규칙은,
- 상기 비활성화 기준의 세트를 충족시키는 모든 활성 객체를 비활성화시키는 강제 비활성화 규칙,
- 비활성 객체가 활성화된 경우에만 상기 비활성화 기준의 세트를 충족시키는 객체를 비활성화시키는 랭크 비활성화 규칙,
- 상기 비활성화 기준의 세트를 충족시키는 객체를 비활성화시키는 단순 비활성화 규칙,
- 어느 한 객체와 연관된 다른 비활성 객체가 활성화되는 경우 상기 어느 한 객체를 비활성화시키는 단순 스왑 비활성화 규칙,
- 어느 한 객체가 다른 비활성이지만 전활성화된 객체와 접촉하는 경우 상기 어느 한 객체를 비활성화시키는 접촉 스왑 비활성화 규칙
중 하나인 것을 특징으로 하는, 트랙킹하기 위한 컴퓨터 구현 방법.
제1항 또는 제2항에 따른 트랙킹하기 위한 컴퓨터 구현 방법을 실행하기 위한 컴퓨터 실행가능 지시들을 포함하는, 컴퓨터 판독가능 데이터 저장 매체.
삭제
삭제