KR101619562B1

KR101619562B1 - 시각적 타깃 추적

Info

Publication number: KR101619562B1
Application number: KR1020117017473A
Authority: KR
Inventors: 리안 엠. 게이스
Original assignee: 마이크로소프트 테크놀로지 라이센싱, 엘엘씨
Priority date: 2009-01-30
Filing date: 2010-01-12
Publication date: 2016-05-10
Also published as: RU2530334C2; EP2391988A2; US20100197399A1; CA2748557C; CN102301313B; US9039528B2; US20120077591A1; RU2011132029A; EP2391988A4; KR20110117114A; EP2391988B1; WO2010088032A3; US8267781B2; WO2010088032A2; BRPI1006111A2; JP2012516504A; JP5227463B2; CN102301313A; CA2748557A1

Abstract

타깃을 추적하는 방법은 소스로부터 타깃의 관찰된 깊이 이미지를 수신하는 단계 및 상기 타깃의 포즈가 취해진 모델을 획득하는 단계를 포함한다. 상기 모델은 합성된 깊이 이미지로 래스터화되고, 상기 관찰된 깊이 이미지와 상기 합성된 깊이 이미지 간의 차이에 적어도 부분적으로 기초하여 상기 모델의 포즈가 조정된다.

Description

시각적 타깃 추적{VISUAL TARGET TRACKING}

많은 컴퓨터 게임들 및 기타 컴퓨터 비전 애플리케이션들은 사용자들이 애플리케이션의 게임 캐릭터들 및 다른 양태들(aspects)을 조작할 수 있게 하기 위해 복잡한 컨트롤들을 이용한다. 그러한 컨트롤들은 익히기가 어려울 수 있고, 따라서 많은 게임들 또는 기타 애플리케이션들에 참가하는 데 장벽을 생성한다. 또한, 그러한 컨트롤들은 그것들이 사용되는 실제 게임 액션들 또는 기타 애플리케이션 액션들과 매우 다를 수 있다. 예를 들면, 게임 캐릭터가 야구 배트를 스윙하게 하는 게임 컨트롤은 야구 배트를 스윙하는 것의 실제 동작과 전혀 닮지 않을 수 있다.

이 개요는 아래 상세한 설명에서 더 설명되는 개념들 중 선택된 것을 단순화된 형태로 소개하기 위해 제공된다. 이 개요는 청구된 내용의 중요한 특징들 또는 본질적을 특징들을 식별하고자 의도하는 것이 아니고, 청구된 내용의 범위를 제한하기 위해 사용될 것을 의도하는 것도 아니다. 또한, 청구된 내용은 이 명세서의 임의의 부분에서 지적된 임의의 또는 모든 불리점들을 해결하는 구현들에 제한되지 않는다.

시각적 타깃 추적에 관한 다양한 실시예들이 여기에 개시된다. 개시된 일 실시예는 소스로부터 타깃의 관찰된 깊이 이미지(observed depth image)를 수신하고 타깃의 포즈가 취해진 모델(posed model)을 획득하는 것에 의해 타깃을 추적하는 것을 포함한다. 포즈가 취해진 모델은 합성된 깊이 이미지(synthesized depth image)로 래스터화된다(rasterized). 그 후 상기 관찰된 깊이 이미지와 상기 합성된 깊이 이미지 간의 차이에 적어도 부분적으로 기초하여 모델의 포즈가 조정된다.

도 1a는 복싱 게임을 하는 게임 플레이어를 추적하는 예시적인 타깃 인식, 분석, 및 추적 시스템의 실시예를 보여준다.
도 1b는 도 1a의 게임 플레이어가 플레이어 아바타로 하여금 게임 공간에서 펀치를 날리게 하는 게임 컨트롤로서 추적되고 해석되는 펀치를 날리고 있는 것을 보여준다.
도 2는 본 명세서의 실시예에 따른 컴퓨팅 시스템을 개략적으로 보여준다.
도 3은 인간 타깃을 나타내기 위해 사용되는 예시적인 신체 모델을 보여준다.
도 4는 인간 타깃을 나타내기 위해 사용되는 예시적인 골격 모델의 실질적으로 정면 뷰(frontal view)를 보여준다.
도 5는 인간 타깃을 나타내기 위해 사용되는 예시적인 골격 모델의 비스듬한 뷰(skewed view)를 보여준다.
도 6은 인간 타깃을 나타내기 위해 사용되는 예시적인 메쉬 모델(mesh model)을 보여준다.
도 7은 타깃을 시각적으로 추적하는 예시적인 방법의 흐름도를 보여준다.
도 8은 예시적인 관찰된 깊이 이미지를 보여준다.
도 9는 예시적인 합성된 깊이 이미지를 보여준다.
도 10은 합성된 깊이 이미지를 구성하는 픽셀들 중 일부를 개략적으로 보여준다.
도 11a는 모델의 힘-수용 위치(force-receiving location)에 힘을 가하는 것을 개략적으로 보여준다.
도 11b는 도 11a의 모델의 힘-수용 위치에 힘을 가한 결과를 개략적으로 보여준다.
도 12a는 도 11a의 모델로부터 렌더링된 플레이어 아바타를 보여준다.
도 12b는 도 11b의 모델로부터 렌더링된 플레이어 아바타를 보여준다.

본 명세서는 타깃 인식, 분석, 및 추적에 관한 것이다. 특히, 하나 이상의 타깃에 대한 깊이 정보를 획득하기 위해 깊이 카메라 또는 기타 소스를 사용하는 것이 개시된다. 그러한 깊이 정보는, 아래에 상세히 설명된 바와 같이, 하나 이상의 타깃을 효율적이고 정확하게 모델링하고 추적하는 데 사용될 수 있다. 여기에 설명된 타깃 인식, 분석, 및 추적은 하나 이상의 타깃이 다른 접근법들을 이용하여 분석하기 어렵다고 생각된 포즈들로 움직이는 경우(예를 들면, 둘 이상의 타깃이 부분적으로 겹치고 및/또는 서로를 가리는(occlude) 경우; 타깃의 일부가 동일한 타깃의 다른 부분을 자신이 가리는(self-occlude) 경우; 타깃이 그것의 국소적 외관(topographical appearance)을 변경하는 경우(예를 들면, 그의 머리를 만지는 인간) 등)에도, 그 타깃(들)이 비교적 빠른 프레임 레이트로 일관성 있게 추적될 수 있는 강건한 플랫폼을 제공한다.

도 1a는 타깃 인식, 분석, 및 추적 시스템(10)의 비제한적인 예를 보여준다. 특히, 도 1a는 각종 상이한 게임들을 플레이하고, 하나 이상의 상이한 미디어 유형들을 플레이하고, 및/또는 비게임(non-game) 애플리케이션들을 제어 또는 조작하기 위해 사용될 수 있는 컴퓨터 게임 시스템(12)을 보여준다. 도 1a는 또한 게임 플레이어(18)와 같은 게임 플레이어들에게 게임 영상(game visuals)을 제공하기 위해 사용될 수 있는 고화질 텔레비전, 즉 HDTV(16) 형태의 디스플레이(14)를 보여준다. 또한, 도 1a는 게임 플레이어(18)와 같은 하나 이상의 게임 플레이어들을 시각적으로 모니터하기 위해 사용될 수 있는 깊이 카메라(20) 형태의 캡처 장치를 보여준다. 도 1a에 도시된 예는 비제한적이다. 도 2에 관련하여 아래에 설명되는 바와 같이, 이 명세서의 범위에서 벗어나지 않고 각종 상이한 타깃 인식, 분석, 및 추적 시스템들이 사용될 수 있다.

타깃 인식, 분석 및 추적 시스템은 게임 플레이어(18)와 같은 하나 이상의 타깃들을 인식, 분석, 및/또는 추적하기 위해 사용될 수 있다. 도 1a는 게임 플레이어(18)의 움직임들이 게임 시스템(12)에 의해 실행되는 게임에 영향을 주기 위해 사용될 수 있는 컨트롤들로서 게임 시스템(12)에 의해 해석될 수 있도록 깊이 카메라(20)를 이용하여 게임 플레이어(18)가 추적되는 시나리오를 보여준다. 즉, 게임 플레이어(18)는 그의 움직임을 이용하여 게임을 제어할 수 있다. 게임 플레이어(18)의 움직임은 사실상 임의의 유형의 게임 컨트롤로서 해석될 수 있다.

도 1a에 예시된 예시적인 시나리오는 게임 시스템(12)에 의해 실행되고 있는 복싱 게임을 플레이하고 있는 게임 플레이어(18)를 보여준다. 게임 시스템은 HDTV(16)를 이용하여 게임 플레이어(18)에게 복싱 상대(22)를 시각적으로 제공한다. 또한, 게임 시스템은 HDTV(16)를 이용하여 게임 플레이어(18)가 그의 움직임으로 제어하는 플레이어 아바타(24)를 시각적으로 제공한다. 도 1b에 도시된 바와 같이, 게임 플레이어(18)는 플레이어 아바타(24)가 게임 공간에서 펀치를 날리기 위한 명령으로서 물리적 공간에서 펀치를 날릴 수 있다. 게임 시스템(12) 및 깊이 카메라(20)는 물리적 공간에서의 게임 플레이어(18)의 펀치가 플레이어 아바타(24)가 게임 공간에서 펀치를 날리게 하는 게임 컨트롤로서 해석될 수 있도록, 그 펀치를 인식하고 분석하기 위해 사용될 수 있다. 예를 들면, 도 1b는 게임 플레이어(18)가 물리적 공간에서 펀치를 날리는 것에 응답하여 복싱 상대(22)를 때리는 펀치를 날리고 있는 플레이어 아바타(24)를 시각적으로 제공하는 HDTV(16)를 보여준다.

게임 플레이어(18)에 의한 다른 움직임들은 위아래로 움직이거나(bob), 위빙하거나(weave), 발을 질질 끌거나(shuffle), 블로킹하거나(block), 잽을 날리거나(jab), 각종 상이한 파워의 펀치들을 날리는 컨트롤들과 같은 다른 컨트롤들로서 해석될 수 있다. 또한, 일부 움직임들은 플레이어 아바타(24)를 제어하는 것 이외의 목적에 소용되는 컨트롤들로 해석될 수 있다. 예를 들면, 플레이어는 게임을 종료하거나, 잠시 멈추거나, 저장하고, 레벨을 선택하고, 높은 점수들을 보고, 친구와 통신하고, 등등을 위해 움직임을 이용할 수 있다.

일부 실시예들에서, 타깃은 인간 및 물체를 포함할 수 있다. 그러한 실시예들에서, 예를 들면, 전자 게임의 플레이어는 물체를 쥐고 있을 수 있고, 플레이어 및 물체의 움직임들은 전자 게임의 파라미터들을 조정 및/또는 제어하기 위해 이용된다. 예를 들면, 라켓을 쥐고 있는 플레이어의 움직임은 전자 스포츠 게임에서 스크린상의 라켓을 제어하기 위해 추적되고 이용될 수 있다. 다른 예에서, 물체를 쥐고 있는 플레이어의 움직임은 전자 전투 게임에서 스크린상의 무기를 제어하기 위해 추적되고 이용될 수 있다.

타깃 인식, 분석, 및 추적 시스템들은 타깃 움직임들을 게임 영역(realm of gaming)의 밖에 있는 운영 체제 및/또는 애플리케이션 컨트롤들로서 해석하기 위해 이용될 수 있다. 도 1a 및 1b에 도시된 복싱 게임과 같은, 운영 체제 및/또는 애플리케이션의 사실상 임의의 제어 가능한 양태는 게임 플레이어(18)와 같은 타깃의 움직임에 의해 제어될 수 있다. 예시된 복싱 시나리오는 예로서 제공되고, 결코 제한적인 것으로 의도되어 있지 않다. 그와 반대로, 예시된 시나리오는 이 명세서의 범위에서 벗어나지 않고 각종 상이한 애플리케이션들에 적용될 수 있는 일반적인 개념을 증명하도록 의도되어 있다.

여기에 설명된 방법들 및 프로세스들은 각종 상이한 유형의 컴퓨팅 시스템들에 관련될 수 있다. 도 1a 및 1b는 게임 시스템(12), HDTV(16), 및 깊이 카메라(20) 형태의 비제한적인 예를 보여준다. 다른 더 일반적인 예로서, 도 2는 여기에 설명된 타깃 인식, 추적, 및 분석 방법들 및 프로세스들 중 하나 이상을 수행할 수 있는 컴퓨팅 시스템(40)을 개략적으로 보여준다. 컴퓨팅 시스템(40)은, 특히, 그린-스크린 또는 모션-캡처 기능을 제공하는 게임 콘솔, 퍼스널 컴퓨팅 게임 시스템, 군용 추적 및/또는 타깃팅 시스템을 포함하지만, 이에 제한되지 않는 각종 상이한 형태들을 취할 수 있다.

컴퓨팅 시스템(40)은 로직 서브시스템(42), 데이터 보유 서브시스템(44), 디스플레이 서브시스템(46), 및/또는 캡처 장치(48)를 포함할 수 있다. 컴퓨팅 시스템은 옵션으로 도 2에 도시되지 않은 컴포넌트들을 포함할 수 있고, 및/또는 도 2에 도시된 일부 컴포넌트들은 컴퓨팅 시스템에 통합되지 않은 주변 컴포넌트들일 수 있다.

로직 서브시스템(42)은 하나 이상의 명령어들을 실행하도록 구성된 하나 이상의 물리적 장치들을 포함할 수 있다. 예를 들면, 로직 서브시스템은 하나 이상의 프로그램, 루틴, 개체, 컴포넌트, 데이터 구조, 또는 기타 논리적 구성의 이룹인 하나 이상의 명령어들을 실행하도록 구성될 수 있다. 그러한 명령어들은 작업을 수행하거나, 데이터 유형을 구현하거나, 하나 이상의 장치들의 상태를 변환하거나, 다른 방법으로 원하는 결과에 도달하도록 구현될 수 있다. 로직 서브시스템은 소프트웨어 명령어들을 실행하도록 구성되는 하나 이상의 프로세서들을 포함할 수 있다. 추가적으로 또는 대안적으로, 로직 서브시스템은 하드웨어 또는 펌웨어 명령어들을 실행하도록 구성된 하나 이상의 하드웨어 또는 펌웨어 로직 머신들을 포함할 수 있다. 로직 서브시스템은 옵션으로, 일부 실시예들에서 원격으로 배치될 수 있는, 둘 이상의 장치들에 걸쳐서 분산되는 개별 컴포넌트들을 포함할 수 있다.

데이터 보유 서브시스템(44)은 여기에 설명된 방법들 및 프로세서들을 구현하기 위해 로직 서브시스템에 의해 실행 가능한 데이터 및/또는 명령어들을 보유하도록 구성된 하나 이상의 물리적 장치들을 포함할 수 있다. 그러한 방법들 및 프로세스들이 구현될 때, 데이터 보유 서브시스템(44)의 상태는 변환될 수 있다(예를 들면, 상이한 데이터를 보유하기 위해). 데이터 보유 서브시스템(44)은 이동식 매체 및/또는 빌트인(built-in) 장치들을 포함할 수 있다. 데이터 보유 서브시스템(44)은, 특히, 광학 메모리 장치, 반도체 메모리 장치(예를 들면, RAM, EEPROM, 플래시 등), 및/또는 자기 메모리 장치를 포함할 수 있다. 데이터 보유 서브시스템(44)은 다음의 특징들 중 하나 이상을 갖는 장치들을 포함할 수 있다: 휘발성, 비휘발성, 동적, 정적, 판독/기입, 판독 전용, 랜덤 액세스, 순차적 액세스, 위치 어드레싱 가능(location addressable), 파일 어드레싱 가능, 및 콘텐트 어드레싱 가능. 일부 실시예들에서, 로직 서브시스템(42) 및 데이터 보유 서브시스템(44)은 ASIC(application specific integrated circuit) 또는 SOC(system on a chip)과 같은, 하나 이상의 공통의 장치들에 통합될 수 있다.

도 2는 또한 여기에 설명된 방법들 및 프로세스들을 구현하기 위해 실행 가능한 데이터 및/또는 명령어들을 저장 및/또는 전송하기 위해 사용될 수 있는 컴퓨터 판독 가능한 이동식 매체(50)의 형태로 데이터 보유 서브시스템의 양태를 보여준다.

디스플레이 서브시스템(46)은 데이터 보유 서브시스템(44)에 의해 보유된 데이터의 시각적 표현을 제공하기 위해 사용될 수 있다. 여기에 설명된 방법들 및 프로세스들이 데이터 보유 서브시스템에 의해 보유된 데이터를 변경하고, 따라서 데이터 보유 서브시스템의 상태를 변환할 때, 디스플레이 서브시스템(46)의 상태도 마찬가지로 기초 데이터의 변화를 시각적으로 나타내도록 변환될 수 있다. 비제한적인 예로서, 여기에 설명된 타깃 인식, 추적, 및 분석은 물리적 공간에서의 게임 플레이어의 움직임에 응답하여 게임 공간에서 포즈를 변경하는 게임 캐릭터의 형태로 디스플레이 서브시스템(46)을 통해 반영될 수 있다. 디스플레이 서브시스템(46)은 사실상 임의의 유형의 기술을 이용하는 하나 이상의 디스플레이 장치들을 포함할 수 있다. 그러한 디스플레이 장치들은 공유된 인클로저에서 로직 서브시스템(42) 및/또는 데이터 보유 서브시스템(44)과 조합될 수 있고, 또는 그러한 디스플레이 장치들은 도 1a 및 1b에 도시된 바와 같이 주변 디스플레이 장치들일 수 있다.

컴퓨팅 시스템(40)은 하나 이상의 타깃들의 깊이 이미지들을 획득하도록 구성된 캡처 장치(48)를 더 포함한다. 캡처 장치(48)는 임의의 적합한 기법(예를 들면, TOF(time-of-flight), 구조광(structured light), 스테레오 이미지 등)을 통해 깊이 정보를 갖는 비디오를 캡처하도록 구성될 수 있다. 따라서, 캡처 장치(48)는 깊이 카메라, 비디오 카메라, 스테레오 카메라, 및/또는 다른 적합한 캡처 장치들을 포함할 수 있다.

예를 들면, TOF 분석에서, 캡처 장치(48)는 타깃에 적외선 광을 방출할 수 있고 그 후 센서들을 이용하여 타깃의 표면으로부터 후방 산란된 광을 검출할 수 있다. 일부 경우에, 펄스 적외선 광(pulsed infrared light)이 사용될 수 있고, 출사 광 펄스와 대응하는 입사 광 사이의 시간이 측정되어 캡처 장치로부터 타깃 상의 특정한 위치까지의 물리적 거리를 결정하는 데 이용될 수 있다. 일부 경우에, 위상 시프트를 결정하기 위해 출사 광파의 위상이 입사 광파의 위상과 비교될 수 있고, 위상 시프트는 캡처 장치로부터 타깃 상의 특정한 위치까지의 물리적 거리를 결정하는 데 이용될 수 있다.

다른 예에서는, 셔터 광 펄스 이미징(shuttered light pulse imaging)과 같은 기법을 통해, 시간에 걸쳐 반사된 광 빔의 강도를 분석함으로써 캡처 장치로부터 타깃 상의 특정한 위치까지의 물리적 거리를 간접적으로 결정하기 위해 TOF 분석이 이용될 수 있다.

다른 예에서는, 깊이 정보를 캡처하기 위해 캡처 장치(48)에 의해 구조광 분석이 이용될 수 있다. 그러한 분석에서는, 패턴 광(즉, 격자 패턴 또는 줄무늬 패턴과 같은 알려진 패턴으로서 디스플레이된 광)이 타깃에 투사될 수 있다. 타깃의 표면에 충돌할 때, 그 패턴은 그에 응하여 변형될 수 있고, 이러한 패턴의 변형은 캡처 장치로부터 타깃 상의 특정한 위치까지의 물리적 거리를 결정하기 위해 연구될 수 있다.

다른 예에서, 캡처 장치는 시각적 스테레오 데이터를 획득하기 위해, 상이한 각도들로부터 타깃을 보는 둘 이상의 물리적으로 분리된 카메라들을 포함할 수 있다. 그러한 경우에, 시각적 스테레오 데이터는 깊이 이미지를 생성하기 위해 분석(resolve)될 수 있다.

다른 실시예들에서, 캡처 장치(48)는 깊이 값들을 측정 및/또는 계산하기 위해 다른 기술들을 이용할 수 있다. 또한, 캡처 장치(48)는 계산된 깊이 정보를 "Z 층들", 즉, 깊이 카메라로부터 그것의 시선(line of sight)을 따라서 관찰자까지 연장하는 Z 축에 수직인 층들로 조직할 수 있다.

일부 실시예들에서, 둘 이상의 카메라들이 통합된 캡처 장치로 통합될 수 있다. 예를 들면, 깊이 카메라 및 비디오 카메라(예를 들면, RGB 비디오 카메라)가 공통의 캡처 장치에 통합될 수 있다. 일부 실시예들에서, 둘 이상의 개별 캡처 장치들이 협력적으로 이용될 수 있다. 예를 들면, 깊이 카메라 및 별도의 비디오 카메라가 이용될 수 있다. 비디오 카메라가 이용될 때, 그것은 타깃 추적, 이미지 캡처, 얼굴 인식, 손가락들(또는 다른 작은 특징들)의 고정밀 추적, 광 감지, 및/또는 기타 기능들의 오류 정정을 위한 확인 데이터, 타깃 추적 데이터를 제공하기 위해 이용될 수 있다.

적어도 일부 타깃 분석 및 추적 동작들은 하나 이상의 캡처 장치들의 로직 머신에 의해 실행될 수 있다는 것을 이해해야 한다. 캡처 장치는 하나 이상의 타깃 분석 및/또는 추적 기능들을 수행하도록 구성된 하나 이상의 온보드 처리 장치들을 포함할 수 있다. 캡처 장치는 그러한 온보드 처리 로직의 업데이트를 용이하게 하는 펌웨어를 포함할 수 있다.

컴퓨팅 시스템(40)은 옵션으로 컨트롤러(52) 및 컨트롤러(54)와 같은 하나 이상의 입력 장치들을 포함할 수 있다. 입력 장치들은 컴퓨팅 시스템의 동작을 제어하기 위해 이용될 수 있다. 게임의 컨텍스트에서, 컨트롤러(52) 및/또는 컨트롤러(54)와 같은 입력 장치들은 여기에 설명된 타깃 인식, 추적, 및 분석 방법들 및 절차들을 통해 제어되지 않는 게임의 양태들을 제어하기 위해 이용될 수 있다. 일부 실시예들에서, 컨트롤러(52) 및/또는 컨트롤러(54)와 같은 입력 장치들은, 물리적 공간에서의 컨트롤러들의 움직임을 측정하기 위해 이용될 수 있는, 가속도계, 자이로스코프, 적외선 타깃/센서 시스템 등 중의 하나 이상을 포함할 수 있다. 일부 실시예들에서, 컴퓨팅 시스템은 옵션으로 글러브, 키보드, 마우스, 트랙 패드, 트랙볼, 터치 스크린, 버튼, 스위치, 다이얼, 및/또는 기타 입력 장치들을 포함하고 및/또는 이용할 수 있다. 알 수 있는 바와 같이, 타깃 인식, 추적, 및 분석은 게임 컨트롤러와 같은 입력 장치에 의해 통상적으로 제어되는 게임, 또는 다른 애플리케이션의 양태들을 제어하거나 보강하기 위해 이용될 수 있다. 일부 실시예들에서, 여기에 설명된 타깃 추적은 다른 사용자 입력 형태들에 대한 완전한 대체로서 이용될 수 있는 반면, 다른 실시예들에서 그러한 타깃 추적은 하나 이상의 다른 사용자 입력 형태들을 보완하기 위해 이용될 수 있다.

컴퓨팅 시스템(40)은 여기에 설명된 타깃 추적 방법들을 수행하도록 구성될 수 있다. 그러나, 컴퓨팅 시스템(40)은 그러한 타깃 추적을 수행할 수 있는 장치의 비제한적인 예로서 제공된다. 다른 장치들은 이 명세서의 범위 안에 있다.

컴퓨팅 시스템(40), 또는 다른 적합한 장치는 모델로 각 타깃을 표현하도록 구성될 수 있다. 아래에 더 상세히 설명되는 바와 같이, 그러한 모델로부터 도출된 정보는 깊이 카메라와 같은 캡처 장치로부터 획득된 정보와 비교될 수 있고, 그에 따라 모델의 기본 비율들(fundamental proportions) 또는 형상뿐만 아니라, 그것의 현재 포즈는 모델링된 타깃을 더 정확히 표현하도록 조정될 수 있다. 모델은 하나 이상의 다각형 메쉬들에 의해, 수학적 프리미티브들의 세트에 의해, 및/또는 모델링된 타깃의 다른 적합한 기계 표현들을 통해 표현될 수 있다.

도 3은 예시적인 신체 모델(70)의 비제한적인 시각적 표현을 보여준다. 신체 모델(70)은 모델링된 타깃(예를 들면, 도 1a 및 1b로부터의 게임 플레이어(18))의 기계 표현이다. 신체 모델은 게임 또는 다른 애플리케이션/운영 체제의 언어로 모델링된 타깃을 집합적으로 정의하는 변수들의 세트를 포함하는 하나 이상의 데이터 구조들을 포함할 수 있다.

타깃의 모델은 이 명세서의 범위에서 벗어나지 않고 다양하게 구성될 수 있다. 일부 예들에서, 모델은 단단한 및/또는 변형 가능한 형상들, 또는 신체 부분들을 포함하는 3차원 모델로서 타깃을 표현하는 하나 이상의 데이터 구조들을 포함할 수 있다. 각 신체 부분은 수학적 프리미티브로서 특징지어질 수 있고, 수학적 프리미티브의 예들은, 구, 이방성으로 크기 조정된 구(anisotropically-scaled spheres), 원통, 이방성 원통, 매끄러운 원통, 박스, 비스듬한 박스(beveled boxes), 프리즘 등을 포함하지만, 이에 제한되는 것은 아니다.

예를 들면, 도 3의 신체 모델(70)은 신체 부분들 bp1 내지 bp14를 포함하고, 그 각각은 모델링된 타깃의 상이한 부분을 나타낸다. 각 신체 부분은 3차원 형상이다. 예를 들면, bp3는 모델링된 타깃의 왼쪽 손을 나타내는 직사각형 프리즘이고, bp5는 모델링된 타깃의 왼쪽 위쪽 팔(upper arm)을 나타내는 팔각 프리즘이다. 신체 모델(70)은 신체 모델이 임의의 수의 신체 부분들을 포함한다는 점에서 예시적이고, 신체 부분들 각각은 모델링된 타깃의 대응하는 부분의 임의의 기계 이해 가능한 표현(machine-understandable representation)일 수 있다.

둘 이상의 신체 부분들을 포함하는 모델은 또한 하나 이상의 관절들(joints)을 포함할 수 있다. 각 관절은 하나 이상의 신체 부분들이 하나 이상의 다른 신체 부분들에 관하여 움직일 수 있게 할 수 있다. 예를 들면, 인간 타깃을 표현하는 모델은 복수의 단단한 및/또는 변형 가능한 신체 부분들을 포함할 수 있고, 일부 신체 부분들은 인간 타깃의 대응하는 해부상 신체 부분을 표현할 수 있다. 또한, 모델의 각 신체 부분은 하나 이상의 구조 부재들(structural members)(즉, "뼈들")을 포함할 수 있고, 인접한 뼈들의 교차점에 관절들이 위치한다. 일부 뼈들은 인간 타깃의 해부상 뼈들에 대응할 수 있고 및/또는 일부 뼈들은 인간 타깃의 대응하는 해부상 뼈들을 갖지 않을 수 있다는 것을 이해해야 한다.

뼈들 및 관절들은 집합적으로 골격 모델을 구성할 수 있고, 골격 모델은 모델의 구성 요소일 수 있다. 골격 모델은 각 신체 부분에 대한 하나 이상의 골격 부재들 및 인접한 골격 부재들 사이의 관절을 포함할 수 있다. 도 4 및 도 5에 각각 예시적인 골격 모델(80) 및 예시적인 골격 모델(82)이 도시되어 있다. 도 4는 관절들 j1 내지 j33를 갖는, 정면으로부터 관찰된 골격 모델(80)을 보여준다. 도 5는 관절들 j1 내지 j33를 또한 갖는, 비스듬한 뷰로부터 관찰된 골격 모델(82)을 보여준다. 골격 모델(82)은 롤 관절들(roll joints) j34 내지 j47을 더 포함하고, 각 롤 관절은 축 롤 각도들(axial roll angles)을 추적하기 위해 이용될 수 있다. 예를 들면, 축 롤 각도는 사지(limb)의 그것의 부모 사지 및/또는 몸통(torso)에 관한 회전 방위를 정의하기 위해 사용될 수 있다. 예를 들면, 만일 골격 모델이 팔의 축 회전을 예시하고 있다면, 관련된 손목이 가리키는 방향을 지시하기 위해 롤 관절 j40이 사용될 수 있다(예를 들면, 손바닥이 위를 향함). 따라서, 관절들은 힘을 받고 골격 모델을 조정할 수 있는 반면, 후술되는 바와 같이, 롤 관절들은 대신에 축 롤 각도들을 추적하기 위해 구성되고 이용될 수 있다. 더 일반적으로, 사지의 그것의 부모 사지 및/또는 몸통에 관한 방위를 검사하는 것에 의해, 축 회전 각도가 결정될 수 있다. 예를 들면, 만일 아래쪽 다리를 검사하고 있다면, 축 롤 각도를 결정하기 위하여 아래쪽 다리의 관련된 위쪽 다리 및 히프에 관한 방위가 검사될 수 있다.

전술한 바와 같이, 일부 모델들은 모델링된 타깃의 기계 표현으로서 기능하는 골격 및/또는 신체 부분들을 포함할 수 있다. 일부 실시예들에서, 모델은 대안적으로 또는 추가적으로 와이어프레임 메쉬(wireframe mesh)를 포함할 수 있고, 그것은 단단한 다각형 메쉬들, 하나 이상의 변형 가능한 메쉬들, 또는 이 둘의 임의의 조합의 계층 구조들을 포함할 수 있다. 비제한적인 예로서, 도 6은 신체 모델의 형상을 정의하는 메쉬로 배열된 복수의 삼각형들(예를 들면, 삼각형(92))을 포함하는 모델(90)을 보여준다. 그러한 메쉬는 각각의 다각형 에지에서 굽힘 한계(bending limits)를 포함할 수 있다. 메쉬가 사용될 때, 메쉬를 집합적으로 구성하는 삼각형들, 및/또는 다른 다각형들의 수는 품질과 계산상 비용 사이의 원하는 균형을 달성하도록 선택될 수 있다. 더 많은 삼각형들은 더 높은 품질 및/또는 더 정확한 모델들을 제공할 수 있는 반면, 더 적은 삼각형들은 계산상 요구하는 것이 더 적을 수 있다. 다각형 메쉬를 포함하는 신체 모델은 골격을 포함할 필요가 없지만, 일부 실시예들에서는 그것을 포함할 수 있다.

전술한 신체 부분 모델들, 골격 모델들, 및 다각형 메쉬들은 모델링된 타깃의 기계 표현들로서 사용될 수 있는 비제한적인 예시의 모델 유형들이다. 다른 모델들도 이 명세서의 범위 안에 있다. 예를 들면, 일부 모델들은 패치(patches), NURBS(non-uniform rational B-splines), 분할 표면(subdivision surfaces), 또는 다른 고차 표면(high-order surfaces)을 포함할 수 있다. 모델은 또한 모델링된 타깃의 의류, 머리털, 및/또는 다른 양태들을 더 정확히 표현하기 위한 표면 텍스처 및/또는 다른 정보를 포함할 수 있다. 모델은 옵션으로 현재의 포즈, 하나 이상의 과거 포즈, 및/또는 모델 물리학에 관한 정보를 포함할 수 있다. 포즈가 취해질 수 있고 그 후 합성된 깊이 이미지로 래스터화될 수 있는(또는 다른 방법으로 합성된 깊이 이미지로 렌더링되거나 합성된 깊이 이미지에 의해 표현될 수 있는) 어떤 모델이라도 여기에 설명된 타깃 인식, 분석, 및 추적과 호환된다는 것을 이해해야 한다.

전술한 바와 같이, 모델은 도 1a 및 1b의 게임 플레이어(18)와 같은 타깃의 표현으로서 기능한다. 타깃이 물리적 공간에서 움직일 때, 도 1a 및 1b의 깊이 카메라(20)와 같은 캡처 장치로부터의 정보는 모델이 타깃을 더 정확히 표현하도록 모델의 포즈 및/또는 기본적인 사이즈/형상을 조정하기 위해 이용될 수 있다. 특히, 모델을 물리적 공간에서의 타깃의 포즈에 더 흡사하게 대응하는 포즈로 조정하기 위해 모델의 하나 이상의 힘 받는 양태들에 하나 이상의 힘이 가해질 수 있다. 사용되고 있는 모델의 유형에 따라서, 힘은 관절, 신체 부분의 중심(centroid), 삼각형의 정점, 또는 모델의 임의의 다른 적합한 힘 받는 양태에 가해질 수 있다. 또한, 일부 실시예들에서, 힘의 방향 및/또는 크기를 결정할 때 둘 이상의 상이한 계산들이 이용될 수 있다. 아래에 더 상세히 설명된 바와 같이, 신체를 상이한 포즈로 조정하기 위하여 모델에 가해지는 힘들을 결정하기 위해 캡처 장치에 의해 검색된, 타깃의 관찰된 이미지와, 모델의 래스터화된(즉, 합성된) 이미지 간의 차이들이 이용될 수 있다.

도 7은 모델(예를 들면, 도 3의 신체 모델(70))을 이용하여 타깃을 추적하는 예시적인 방법(100)의 흐름도를 보여준다. 일부 실시예들에서, 타깃은 인간일 수 있고, 인간은 추적되고 있는 둘 이상의 타깃들 중 하나일 수 있다. 그에 따라, 일부 실시예들에서, 방법(100)은 컴퓨팅 시스템(예를 들면, 도 1에 도시된 게임 시스템(12) 및/또는 도 2에 도시된 컴퓨팅 시스템(40)) 상에서 플레이되고 있는 전자 게임과 상호 작용하는 하나 이상의 플레이어들을 추적하기 위해 컴퓨팅 시스템에 의해 실행될 수 있다. 전술한 바와 같이, 플레이어들의 추적은 그 플레이어들의 움직임들이 전자 게임의 파라미터들을 조정 및/또는 제어하는 실시간 사용자 인터페이스로서 작용할 수 있게 한다. 예를 들면, 플레이어의 추적된 움직임들은 전자 롤플레잉 게임(role-playing game)에서 스크린상의 캐릭터 또는 아바타를 움직이기 위해 사용될 수 있다. 다른 예로, 플레이어의 추적된 움직임들은 전자 레이싱 게임에서 스크린상의 자동차를 제어하기 위해 사용될 수 있다. 또 다른 예로, 플레이어의 추적된 움직임들은 가상 환경에서 개체들의 구축 및 조직을 제어하기 위해 사용될 수 있다.

단계(102)에서, 방법(100)은 소스로부터 타깃의 관찰된 깊이 이미지를 수신하는 것을 포함한다. 일부 실시예들에서, 소스는 TOF(time-of-flight) 분석, 구조광(structured light) 분석, 스테레오 비전 분석, 또는 다른 적합한 기법들과 같은 적합한 기법들을 통해 타깃에 관한 깊이 정보를 획득하도록 구성된 깊이 카메라일 수 있다. 관찰된 깊이 이미지는 복수의 관찰된 픽셀들을 포함할 수 있고, 각각의 관찰된 픽셀은 관찰된 깊이 값을 갖는다. 관찰된 깊이 값은 소스로부터 관찰된 타깃의 깊이 정보를 포함한다. 도 8은 예시적인 관찰된 깊이 이미지(140)의 시각적 표현을 보여준다. 도시된 바와 같이, 관찰된 깊이 이미지(140)는 그의 팔을 올린 채로 서 있는 사람(예를 들면, 게임 플레이어(18))의 예시적인 관찰된 포즈를 캡처한다.

도 7의 단계(104)에 나타내어진 바와 같이, 관찰된 깊이 이미지를 수신하면, 방법(100)은 옵션으로 관찰된 깊이 이미지를 더 낮은 처리 해상도로 다운샘플링하는 것을 포함할 수 있다. 더 낮은 해상도로 다운샘플링하는 것은 관찰된 깊이 이미지가 더 적은 컴퓨팅 오버헤드(computing overhead)로 더 쉽게 이용되고 및/또는 더 빠르게 처리되게 할 수 있다.

단계(106)에 나타내어진 바와 같이, 관찰된 깊이 이미지를 수신하면, 방법(100)은 옵션으로 관찰된 깊이 이미지로부터 플레이어가 아닌 배경 요소들을 제거하는 것을 포함할 수 있다. 그러한 배경 요소들을 제거하는 것은 관찰된 깊이 이미지의 다양한 영역들을 배경 영역들과 타깃의 이미지가 차지하는 영역들로 분리하는 것을 포함할 수 있다. 배경 영역들은 이미지로부터 제거되거나 또는 하나 이상의 후속의 처리 단계들 동안에 그것들이 무시될 수 있도록 식별될 수 있다. 사실상 임의의 배경 제거 기법이 사용될 수 있고, 배경 제거의 품질을 돕고 개선하기 위해 추적으로부터(및 이전의 프레임으로부터)의 정보가 옵션으로 이용될 수 있다.

단계(108)에 나타내어진 바와 같이, 관찰된 깊이 이미지를 수신하면, 방법(100)은 옵션으로 관찰된 깊이 이미지로부터 하나 이상의 고변환(high-variance) 및/또는 잡음(noisy) 깊이 값들을 제거 및/또는 스무딩(smoothing)하는 것을 포함할 수 있다. 관찰된 깊이 이미지 내의 그러한 고변화 및/또는 잡음 깊이 값들은 이미지 챕처 프로세스 동안에 발생하는 무작위의 및/또는 규칙적인 오류들, 캡처 장치로부터 유래하는 결함 및/또는 수차(aberrations) 등과 같은 다수의 상이한 소스들로부터 유래할 수 있다. 그러한 고변화 및/또는 잡음 깊이 값들은 이미지 캡처 프로세스의 아티팩트들일 수 있기 때문에, 이미지의 임의의 미래의 분석에서 이들 값을 포함하는 것은 결과들을 왜곡하고(skew) 및/또는 계산을 느리게 할 수 있다. 따라서, 그러한 값들의 제거는 미래의 계산에 대한 보다 나은 데이터 무결성(data integrity)을 제공할 수 있다.

다른 깊이 값들이 또한 필터링될 수 있다. 예를 들면, 하나 이상의 제거 조건을 만족시키는 픽셀들을 선택적으로 제거하는 것에 의해 단계(118)에 관하여 후술되는 성장 동작들의 정확성이 향상될 수 있다. 예를 들면, 깊이 값이 손과 몸통 사이의 중간에 있어 손이 가려지고 있다면, 이 픽셀을 제거하는 것은 후속의 처리 단계들 동안에 성장 동작들이 한 신체 부분으로부터 다른 신체 부분으로 넘치는(spilling) 것을 방지할 수 있다.

단계(110)에 나타내어진 바와 같이, 방법(100)은 옵션으로 분실한(missing) 및/또는 제거된 깊이 정보의 부분들을 메우고(filling in) 및/또는 재구성하는 것을 포함할 수 있다. 그러한 도로 메우는 것(backfilling)은 가장 가까운 이웃들을 평균하는 것, 필터링하는 것, 및/또는 임의의 다른 적합한 방법에 의해 달성될 수 있다.

도 7의 단계(112)에 나타내어진 바와 같이, 방법(100)은 모델(예를 들면, 도 3의 신체 모델(70))을 획득하는 것을 포함할 수 있다. 전술한 바와 같이, 모델은 하나 이상의 다각형 메쉬들, 하나 이상의 수학적 프리미티브들, 하나 이상의 고차 표면들, 및/또는 타깃의 기계 표현을 제공하기 위해 사용되는 다른 특징들을 포함할 수 있다. 또한, 모델은 컴퓨팅 시스템 상에 존재하는 하나 이상의 데이터 구조의 인스턴스로서 존재할 수 있다.

방법(100)의 일부 실시예들에서, 모델은 이전 시간 단계로부터 획득된 포즈가 취해진 모델(posed model)일 수 있다. 예를 들면, 만일 방법(100)이 연속적으로 수행된다면, 이전 시간 단계에 대응하는, 방법(100)의 이전 반복으로부터 유래하는 포즈가 취해진 모델이 획득될 수 있다.

일부 실시예들에서, 포즈는 이미지를 분석하고, 코어스 레벨(coarse level)에서, 관심 타깃(들)(예를 들면, 인간(들))이 어디에 위치하는지 및/또는 그러한 타깃(들)의 포즈를 식별할 수 있는, 하나 이상의 알고리즘에 의해 결정될 수 있다. 알고리즘은 최초 반복 동안에 또는 알고리즘이 이전 시간 단계 동안에 계산된 포즈보다 더 정확한 포즈를 선택할 수 있다고 생각될 때마다 포즈를 선택하기 위해 이될 수 있다.

일부 실시예들에서, 모델은 데이터베이스 및/또는 다른 프로그램으로부터 획득될 수 있다. 예를 들면, 모델은 방법(100)의 제1 반복 동안에 이용 가능하지 않을 수 있고, 그 경우 모델은 하나 이상의 모델을 포함하는 데이터베이스로부터 획득될 수 있다. 그러한 경우, 데이터베이스로부터의 모델은 타깃의 포즈와 유사한 포즈를 나타내는 모델을 선택하도록 설계된 검색 알고리즘을 이용하여 선택될 수 있다. 이전 시간 단계로부터의 모델이 이용 가능할지라도, 데이터베이스로부터의 모델이 이용될 수 있다. 예를 들면, 특정 수의 프레임 후에, 타깃이 미리 정해진 임계치 이상으로 포즈를 변경한 경우, 및/또는 다른 조건에 따라, 데이터베이스로부터의 모델이 이용될 수 있다.

다른 실시예들에서, 모델, 또는 그의 부분들은 합성될 수 있다. 예를 들면, 타깃의 신체 코어(body core)(몸통, 중간부, 및 히프)가 변형 가능한 다각형 모델에 의해 표현된다면, 그 모델은 최초에 관찰된 깊이 이미지의 콘텐츠를 이용하여 구성될 수 있고, 여기서 이미지 내의 타깃의 윤곽(즉, 실루엣)은 X 및 Y 디멘전들에서 메쉬를 셰이핑(shape)하기 위해 사용될 수 있다. 또한, 그러한 접근법에서, 관찰된 깊이 이미지의 그 영역 내의 관찰된 깊이 값(들)은 타깃의 신체 형상을 더 유리하게 표현하기 위해 모델의 XY 방향으로뿐만 아니라, Z 방향으로도 메쉬를 "몰딩(mold)"하기 위해 이용될 수 있다.

방법(100)은 적합한 접근법을 이용하여 타깃에 나타나는 임의의 의류를 표현하는 것을 더 포함할 수 있다. 그러한 적합한 접근법은 프리미티브들 또는 다각형 메쉬들의 형태로 보조 기하(auxiliary geometry)를 모델에 추가하는 것, 및 옵션으로 중력, 클로스 시뮬레이션(cloth simulation) 등을 반영하도록 포즈에 기초하여 보조 기하를 조정하는 것을 포함할 수 있다. 그러한 접근법은 모델들을 타깃들의 보다 현실적인 표현들로 몰딩하는 것을 용이하게 할 수 있다.

단계(114)에 나타내어진 바와 같이, 방법(100)은 옵션으로 모델에 운동량(momentum) 알고리즘을 적용하는 것을 더 포함할 수 있다. 타깃의 다양한 부분들의 운동량은 이미지 시퀀스의 변화를 예측할 수 있기 때문에, 그러한 알고리즘은 모델의 포즈를 획득하는 것을 도울 수 있다. 운동량 알고리즘은 모델을 획득하는 것을 돕기 위해 고정된 수의 복수의 이전 프레임들에 걸쳐서 모델의 관절들 또는 정점들 각각의 궤도(trajectory)를 이용할 수 있다.

일부 실시예들에서, 타깃의 상이한 부분들은 시간 프레임(예를 들면, 1초의 1/30번째 또는 1/60번째)에서 제한된 거리를 움직일 수 있다는 지식은 모델을 획득하는 데 제한(constraint)으로서 이용될 수 있다. 그러한 제한은 이전 프레임이 알려져 있을 때 특정 포즈들을 배제(rule out)하는 데 이용될 수 있다.

도 7의 단계(116)에서, 방법(100)은 또한 모델을 합성된 깊이 이미지로 래스터화하는 것을 포함할 수 있다. 래스터화는 수학적 프리미티브들, 다각형 메쉬들, 또는 다른 개체들에 의해 기술된 모델이 복수의 픽셀들에 의해 기술된 합성된 깊이 이미지로 변환될 수 있게 한다.

래스터화는 하나 이상의 상이한 기법들 및/또는 알고리즘들을 이용하여 수행될 수 있다. 예를 들면, 모델을 래스터화하는 것은 모델의 표현을 2차원 평면 상에 투영하는 것을 포함할 수 있다. 복수의 신체 부분 형상들을 포함하는 모델(예를 들면, 도 3의 신체 모델(70))의 경우에, 래스터화는 신체 부분 형상들의 컬렉션을 2차원 평면 상에 투영하고 래스터화하는 것을 포함할 수 있다. 모델이 투영되는 2차원 평면 내의 각 픽셀마다, 다양한 상이한 유형의 정보가 저장될 수 있다.

도 9는 도 3의 신체 모델(70)에 대응하는 예시적인 합성된 깊이 이미지의 시각적 표현(150)을 보여준다. 도 10은 동일한 합성된 깊이 이미지의 일부의 픽셀 매트릭스(160)를 보여준다. 170에 나타내어진 바와 같이, 합성된 깊이 이미지 내의 각각의 합성된 픽셀은 합성된 깊이 값을 포함할 수 있다. 주어진 합성된 픽셀에 대한 합성된 깊이 값은 래스터화 동안에 결정된, 그 합성된 픽셀에 의해 표현되는 모델의 대응하는 부분으로부터의 깊이 값일 수 있다. 즉, 팔뚝(forearm) 신체 부분(예를 들면, 도 3의 팔뚝 신체 부분 bp4)의 일부가 2차원 평면 상에 투영되면, 대응하는 합성된 픽셀(예를 들면, 도 10의 합성된 픽셀(162))에 팔뚝 신체 부분의 그 부분의 깊이 값과 같은 합성된 깊이 값(예를 들면, 도 10의 합성된 깊이 값(164))이 주어질 수 있다. 예시된 예에서, 합성된 픽셀(162)은 382cm의 합성된 깊이 값을 갖는다. 마찬가지로, 인접한 손 신체 부분(예를 들면, 도 3의 손 신체 부분 bp3)이 2차원 평면 상에 투영되면, 대응하는 합성된 픽셀(예를 들면, 도 10의 합성된 픽셀(166))에 손 신체 부분의 그 부분의 깊이 값과 같은 합성된 깊이 값(예를 들면, 도 10의 합성된 깊이 값(168))이 주어질 수 있다. 예시된 예에서, 합성된 픽셀(166)은 383cm의 합성된 깊이 값을 갖는다. 상기는 예로서 제공된다는 것을 이해해야 한다. 합성된 깊이 값들은 임의의 측정 단위로 또는 크기가 없는 수(dimensionless number)로서 저장될 수 있다.

170에 나타내어진 바와 같이, 합성된 깊이 이미지 내의 각각의 합성된 픽셀은 래스터화 동안에 결정된 최초 신체 부분 인덱스(original body-part index)를 포함할 수 있다. 그러한 최초 신체 부분 인덱스는 픽셀이 모델의 신체 부분들 중 어느 것에 대응하는지를 나타낼 수 있다. 도 10의 예시된 예에서, 합성된 픽셀(162)은 bp4의 최초 신체 부분 인덱스를 갖고, 합성된 픽셀(166)은 bp3의 최초 신체 부분 인덱스를 갖는다. 일부 실시예들에서, 합성된 픽셀의 최초 신체 부분 인덱스는 그 합성된 픽셀이 타깃의 신체 부분에 대응하지 않는다면(예를 들면, 그 합성된 픽셀이 배경 픽셀이라면) 닐(nil)일 수 있다. 일부 실시예들에서, 신체 부분에 대응하지 않는 합성된 픽셀들에는 상이한 유형의 인덱스가 주어질 수 있다.

170에 나타내어진 바와 같이, 합성된 깊이 이미지 내의 각각의 합성된 픽셀은 래스터화 동안에 결정된 최초 플레이어 인덱스(original player index)를 포함할 수 있고, 그 최초 플레이어 인덱스는 타깃에 대응한다. 예를 들면, 만일 2개의 타깃이 있다면, 제1 타깃에 대응하는 합성된 픽셀들은 제1 플레이어 인덱스를 가질 것이고 제2 타깃에 대응하는 합성된 픽셀들은 제2 플레이어 인덱스를 가질 것이다. 예시된 예에서, 픽셀 매트릭스(160)는 하나의 타깃에만 대응하고, 따라서 합성된 픽셀(162)은 P1의 최초 플레이어 인덱스를 갖고, 합성된 픽셀(166)은 P1의 최초 플레이어 인덱스를 갖는다. 이 명세서의 범위에서 벗어나지 않고 다른 유형의 인덱싱 시스템들이 사용될 수 있다.

170에 나타내어진 바와 같이, 합성된 깊이 이미지 내의 각각의 합성된 픽셀은 픽셀 어드레스를 포함할 수 있다. 픽셀 어드레스는 한 픽셀의 다른 픽셀들에 관한 위치를 정의할 수 있다. 예시된 예에서, 합성된 픽셀(162)은 [5,7]의 픽셀 어드레스를 갖고, 합성된 픽셀(166)은 [4,8]의 픽셀 어드레스를 갖는다. 이 명세서의 범위에서 벗어나지 않고 다른 어드레싱 방식들이 이용될 수 있다는 것을 이해해야 한다.

170에 나타내어진 바와 같이, 각각의 합성된 픽셀은 옵션으로 다른 유형의 정보를 포함할 수 있고, 그 중 일부는 래스터화 후에 획득될 수 있다. 예를 들면, 각각의 합성된 픽셀은, 후술되는 래스터화 동안에 수행된 스냅 동작(snap operation)의 일부로서 결정될 수 있는, 업데이트된 신체 부분 인덱스를 포함할 수 있으며, 각각의 합성된 픽셀은, 래스터화 동안에 수행된 스냅 동작의 일부로서 결정될 수 있는, 업데이트된 플레이어 인덱스를 포함할 수 있다. 각각의 합성된 픽셀은, 후술되는 성장/고정 동작(grow/fix operation)의 일부로서 획득될 수 있는, 업데이트된 신체 부분 인덱스를 포함할 수 있다. 각각의 합성된 픽셀은, 전술한 성장/고정 동작의 일부로서 획득될 수 있는, 업데이트된 플레이어 인덱스를 포함할 수 있다.

위에 제공된 픽셀 정보의 예시적인 유형들은 제한적인 것이 아니다. 다양한 상이한 유형의 정보가 각 픽셀의 일부로서 저장될 수 있다. 그러한 정보는 공통 데이터 구조의 일부로서 저장될 수 있고, 또는 상이한 유형의 정보는 (예를 들면, 픽셀 어드레스를 통해) 특정한 픽셀 위치들에 매핑될 수 있는 상이한 데이터 구조들에 저장될 수 있다. 예로서, 래스터화 동안에 스냅 동작의 일부로서 획득된 플레이어 인덱스들 및/또는 신체 부분 인덱스들은 래스터화 맵 및/또는 스냅 맵에 저장될 수 있는 반면, 성장/고정 동작의 일부로서 획득된 플레이어 인덱스들 및/또는 신체 부분 인덱스들은 후술되는 바와 같이 성장 맵에 저장될 수 있다. 각 픽셀에 할당될 수 있는 다른 유형의 픽셀 정보의 비제한적인 예들은, 관절 인덱스, 뼈 인덱스, 정점 인덱스, 삼각형 인덱스, 중심 인덱스 등을 포함하지만, 이에 제한되지 않는다.

단계(118)에서, 도 7의 방법(100)은 옵션으로 신체 부분 인덱스들 및/또는 플레이어 인덱스들을 스냅 및/또는 성장시키는 것을 포함할 수 있다. 즉, 합성된 깊이 이미지는 모델링된 타깃에 더 흡사하게 대응하기 위한 시도로 일부 픽셀들의 신체 부분 인덱스 및/또는 플레이어 인덱스가 변경되도록 보강(augment)될 수 있다.

전술한 래스터화를 수행할 때, 하나 이상의 Z-버퍼들 및/또는 신체 부분/플레이어 인덱스 맵들이 구성될 수 있다. 비제한적인 예로서, 그러한 버퍼/맵의 제1 버전은 뷰어(예를 들면, 깊이 카메라)에 가장 가까운 표면이 선택되고 그 표면과 관련된 신체 부분 인덱스 및/또는 플레이어 인덱스가 대응하는 픽셀에 기입되는 Z-테스트를 수행하는 것에 의해 구성될 수 있다. 이 맵은 래스터화 맵 또는 최초 합성된 깊이 맵으로 지칭될 수 있다. 그러한 버퍼/맵의 제2 버전은 그 픽셀에서의 관찰된 깊이 값에 가장 가까운 표면이 선택되고 그 표면과 관련된 신체 부분 인덱스 및/또는 플레이어 인덱스가 대응하는 픽셀에 기입되는 Z-테스트를 수행하는 것에 의해 구성될 수 있다. 이 맵은 스냅 맵으로 지칭될 수 있다. 그러한 테스트들은 미리 정해진 임계치를 넘은 합성된 깊이 값과 관찰된 깊이 값 사이의 Z-거리를 거절하도록 제한될 수 있다. 일부 실시예들에서, 둘 이상의 Z-버퍼들 및/또는 둘 이상의 신체 부분/플레이어 인덱스 맵들이 유지될 수 있고, 따라서 둘 이상의 전술한 테스트들이 수행될 수 있게 한다.

버퍼/맵의 제3 버전은 신체 부분/플레이어 인덱스 맵을 성장 및/또는 정정하는 것에 의해 구성될 수 있다. 이것은 성장 맵으로 지칭될 수 있다. 전술한 스냅 맵의 사본에서 시작하여, 값들은 미리 정해진 Z-거리 내의 임의의 "알려지지 않은" 값들 위로 성장될 수 있고, 그에 따라 타깃은 차지하고 있지만, 아직 신체 모델은 차지하고 있지 않은 공간이 적당한 신체 부분/플레이어 인덱스들로 채워질 수 있다. 그러한 접근법은 만일 더 유리한 일치(match)가 식별된다면 알려진 값을 오버테이크하는(overtaking) 것을 더 포함할 수 있다.

성장 맵은 상이한 신체 부분/플레이어 인덱스를 갖는 인접한 픽셀들을 갖는 픽셀들을 검출하기 위해 스냅 맵의 합성된 픽셀들 위로 패스하는(pass over) 것으로 시작될 수 있다. 이것들은 "에지" 필셀들로 간주될 수 있고, 즉, 그 값들을 따른 경계(frontiers)가 옵션으로 전파될 수 있다. 전술한 바와 같이, 픽셀 값들을 성장시키는 것은 "알려지 않은" 또는 "알려진" 픽셀들로 성장하는 것을 포함할 수 있다. "알려지지 않은" 픽셀들에 경우에, 예를 들면, 하나의 시나리오에서, 신체 부분/플레이어 인덱스 값은 전에는 제로이었을 수 있지만, 지금은 제로가 아닌 인접한 픽셀을 가질 수 있다. 그러한 경우에, 4개의 직접 인접한 픽셀들이 검사될 수 있고, 관심 픽셀의 관찰된 깊이 값과 더 흡사한 관찰된 깊이 값을 갖는 인접한 픽셀이 선택되어 관심 픽셀에 할당될 수 있다. "알려진" 픽셀의 경우에, 만일 알려진 제로가 아닌 신체 부분/플레이어 인덱스 값을 갖는 픽셀의 인접한 픽셀들 중 하나가 그 픽셀에 대한 합성된 깊이 값보다 관심 픽셀의 관찰된 깊이 값과 더 흡사하게 일치하는 래스터화 동안에 기입된 값을 갖는다면, 알려진 제로가 아닌 신체 부분/플레이어 인덱스 값을 갖는 픽셀이 오버테이크될 수 있는 것이 가능할 수 있다.

또한, 효율을 위해, 합성된 픽셀의 신체 부분/플레이어 인덱스 값을 업데이트하는 것은 그것의 인접한 4개의 픽셀들을 후속의 패스에서 재방문될 픽셀들의 큐(queue)에 추가하는 것을 포함할 수 있다. 그에 따라, 모든 픽셀들 위로 전체 패스를 행하지 않고 경계를 따라서 값들이 계속해서 전파될 수 있다. 다른 최적화로서, 관심 타깃이 차지하는 상이한 NxN 픽셀 블록들(예를 들면, 16x16 픽셀 블록들)이 추적될 수 있고 그에 따라 관심 타깃이 차지하지 않는 다른 블록들은 무시될 수 있다. 그러한 최적화는 다양한 형태로 래스터화 후에 타깃 분석 동안의 임의의 시점에 적용될 수 있다.

그러나, 성장 동작들은 각종의 상이한 형태들을 취할 수 있다는 것에 유의해야 한다. 예를 들면, 같은 값의 영역들을 식별하기 위해 다양한 플러드 필들(flood-fills)이 먼저 수행될 수 있고, 그 후 어느 영역들이 어느 신체 부분들에 속하는지가 결정될 수 있다. 또한, 임의의 신체 부분/플레이어 인덱스 개체(예를 들면, 도 3의 왼쪽 팔뚝 신체 부분 bp4)가 성장시킬 수 있는 픽셀들의 수는 그러한 개체가 몇 개의 픽셀들을 차지할 것으로 기대되는지(예를 들면, 그것의 형상, 거리 및 각도가 주어지면) 대(vs.) 스냅 맵 내의 몇 개의 픽셀들에 그 신체 부분/플레이어 인덱스가 할당되었는지에 기초하여 제한될 수 있다. 또한, 전술한 접근법들은, 특정 포즈들에 대하여, 성장이 정확할 수 있도록 특정 신체 부분들에 대한 성장을 바이어싱하기 위해, 이점들 또는 불리점들을 추가하는 것을 포함할 수 있다.

만일 신체 부분으로부터의 픽셀들의 분포가 하나의 깊이에서 그룹화되고, 동일한 신체 부분으로부터의 픽셀들의 다른 분포가 다른 깊이에서 그룹화되어, 이들 2개의 분포들 사이에 갭이 존재한다면, 스냅 맵에 점진적인 스냅 조정(progressive snap adjustment)이 행해질 수 있다. 예를 들면, 몸통의 앞에서 그 몸통 가까이에서 흔드는 팔은 몸통 "안으로 넘칠 수 있다(spill into)". 그러한 경우는 사실은 그것들이 몸통 픽셀들이어야 하는 경우, 그것들이 팔 픽셀들인 것을 나타내는 신체 부분 인덱스를 갖는 몸통 픽셀들의 그룹을 생성할 수 있다. 아래쪽 팔의 합성된 깊이 값들의 분포를 검사하는 것에 의해, 그 팔 픽셀들 중 일부가 하나의 깊이에서 그룹화될 수 있고, 나머지는 다른 깊이에서 그룹화될 수 있는 것으로 결정될 수 있다. 이들 2개의 깊이 값들의 그룹들 사이의 갭은 팔 픽셀들과 몸통 픽셀이어야 하는 것 사이의 점프를 나타낸다. 따라서, 그러한 갭을 식별하는 것에 응답하여, 그 넘치는 픽셀들(spillover pixels)에 몸통 신체 부분 인덱스들을 할당하는 것에 의해 넘치는 것이 구제(remedy)될 수 있다. 다른 예로서, 점진적인 스냅 조정은 팔이 배경 개체 위에 있는 경우(arm-over-background-object case)에 도움이 될 수 있다. 이 경우, 관심 픽셀들(즉, 팔에 속한다고 생각되는 픽셀들)의 관찰된 깊이에서 갭을 식별하기 위해 히스토그램이 사용될 수 있다. 그러한 갭에 기초하여, 하나 이상의 픽셀 그룹들이 적당히 팔에 속하는 것으로 식별될 수 있고 및/또는 다른 그룹(들)은 배경 픽셀들로서 거절될 수 있다. 히스토그램은 절대 깊이; 깊이 오차(합성된 깊이 ― 관찰된 깊이) 등과 같은 각종 메트릭들에 기초할 수 있다. 점진적인 스냅 조정은 임의의 성장 동작 전에, 래스터화 동안에 인라인으로(in-line) 수행될 수 있다.

단계(120)에서, 도 7의 방법(100)은 옵션으로 전술한 3개의 처리 단계들에서 관찰된 깊이 이미지, 합성된 깊이 이미지, 및 신체 부분/플레이어 인덱스 맵들로부터 높이 맵을 생성하는 것을 포함할 수 있다. 그러한 높이 맵의 그레이디언트(gradient), 및/또는 그러한 높이 맵의 블러링된 버전(blurred version)은 후술되는 바와 같이 모델에 행해져야 할 조정 방향들을 결정할 때 이용될 수 있다. 높이 맵은 단지 최적화이지만, 대안적으로 또는 추가적으로, 조정들이 적용될 수 있는 가장 가까운 관절들 및/또는 그러한 조정들이 행해져야 할 방향을 식별하기 위해 모든 방향에서의 검색이 수행될 수 있다. 높이 맵이 사용될 때, 그것은 후술된 픽셀 클래스(pixel class) 결정 전에, 후에, 또는 그와 병행하여 생성될 수 있다. 높이 맵은, 사용될 때, 플레이어의 실제 신체를 낮은 높이(elevation)에 설정하고, 배경 요소들을 높은 높이에 설정하도록 설계된다. 그 후 배경으로부터 플레이어 상의 가장 가까운 포인트를 찾기 위해, 높이 맵에서 "내리막(downhill)"을 추적(trace)하기 위해, 또는 그 반대로 행하기 위해(즉, 주어진 플레이어 픽셀까지의 가장 가까운 배경 픽셀을 찾기 위해 높이 맵에서 "오르막(uphill)"을 찾기 위해) 분수 스타일(watershed-style) 기법이 사용될 수 있다.

합성된 깊이 이미지 및 관찰된 깊이 이미지는 동일하지 않을 수 있고, 따라서 합성된 깊이 이미지는 그것이 관찰된 깊이 이미지와 더 흡사하지 일치하고 따라서 타깃을 더 정확히 표현할 수 있도록 조정들 및/또는 수정들을 이용할 수 있다. 먼저 모델에 조정을 행하고(예를 들면, 모델의 포즈를 변경하고), 그 후 조정된 모델은 합성된 깊이 이미지의 새로운 버전으로 합성하는 것에 의해 합성된 깊이 이미지에 조정들이 행해질 수 있다는 것을 이해해야 한다.

합성된 깊이 이미지를 수정하기 위해 다수의 상이한 접근법들이 취해질 수 있다. 하나의 접근법에서는, 둘 이상의 상이한 모델들이 획득되고 래스터화되어 둘 이상의 합성된 깊이 이미지들을 생성할 수 있다. 각각의 합성된 깊이 이미지는 그 후 미리 정해진 비교 메트릭들의 세트에 의해 관찰된 깊이 이미지와 비교될 수 있다. 관찰된 깊이 이미지와 가장 흡사한 일치를 증명하는 합성된 깊이 이미지가 선택될 수 있고, 이 프로세스는 옵션으로 모델을 개선하기 위해 반복될 수 있다. 이 프로세스는, 사용될 때, 특히 플레이어의 신체 유형 및/또는 치수와 일치하도록 신체 모델을 리파인(refine)하는 데 유익할 수 있다.

다른 접근법에서, 둘 이상의 합성된 깊이 이미지들은 내삽(interpolation) 또는 외삽(extrapolation)을 통해 혼합되어 혼합된 합성된 깊이 이미지를 생성할 수 있다. 또 다른 접근법에서, 둘 이상의 합성된 깊이 이미지들은 혼합 기법들 및 파라미터들이 혼합된 합성된 깊이 이미지에 걸쳐서 변하도록 혼합될 수 있다. 예를 들면, 만일 제1 합성된 깊이 이미지가 한 영역에서 관찰된 깊이 이미지와 유리하게 일치되고, 제2 합성된 깊이 이미지가 제2 영역에서 유리하게 일치된다면, 혼합된 합성된 이미지에서 선택된 포즈는 제1 영역에서 제1 합성된 깊이 이미지를 생성하기 위해 사용된 포즈, 및 제2 영역에서 제2 합성된 깊이 이미지를 생성하기 위해 사용된 포즈와 흡사한 혼합일 수 있다.

또 다른 접근법에서, 및 도 7의 단계(122)에서 나타내어진 바와 같이, 합성된 깊이 이미지는 관찰된 깊이 이미지와 비교될 수 있다. 합성된 깊이 이미지의 각각의 합성된 픽셀은 비교의 결과에 기초하여 분류될 수 있다. 그러한 분류는 각각의 픽셀에 대한 픽셀 케이스를 결정하는 것으로 지칭될 수 있다. 합성된 깊이 이미지를 생성하기 위해 사용된 모델(예를 들면, 도 3의 신체 모델(70))은 결정된 픽셀 케이스에 따라서 체계적으로 조정될 수 있다. 특히, 결정된 픽셀 케이스에 기초하여 각 픽셀에서 힘 벡터(크기 및 방향)가 계산될 수 있고, 모델의 유형에 따라서, 계산된 힘 벡터는 가장 가까운 관절, 신체 부분의 중심, 신체 부분 상의 한 포인트, 삼각형의 관절, 또는 합성된 깊이 이미지를 생성하기 위해 사용된 모델의 다른 미리 정해진 힘-수용 위치에 적용될 수 있다. 일부 실시예들에서, 주어진 픽셀에 귀속된 힘은 모델 상의 둘 이상의 힘을 받은 위치들 사이에 분포될 수 있다.

각각의 합성된 픽셀에 대하여, 그 합성된 픽셀에 대한 합성된 깊이 값과 관찰된 깊이 값 간의 차이; 그 합성된 픽셀에 대한 최초 신체 부분 인덱스, (스냅) 신체 부분 인덱스, 및/또는 (성장) 신체 부분 인덱스 간의 차이; 및/또는 그 합성된 픽셀에 대한 최초 플레이어 인덱스, (스냅) 플레이어 인덱스, 및/또는 (성장) 플레이어 인덱스 간의 차이를 포함하지만, 이에 제한되지 않는, 하나 이상의 요인들에 기초하여 하나 이상의 픽셀 케이스들이 선택될 수 있다.

도 7의 124에 나타내어진 바와 같이, 픽셀 케이스를 결정하는 것은 리파인-z 픽셀 케이스를 선택하는 것을 포함할 수 있다. 리파인-z 픽셀 케이스는 관찰된 깊이 이미지의 관찰된 픽셀의(또는 관찰된 픽셀들의 영역 내의) 관찰된 깊이 값이 합성된 깊이 이미지 내의 합성된 깊이 값(들)과 일치하지 않지만, 양쪽 이미지들 내의 동일한 개체에 속할 정도로 충분히 흡사하고, 신체 부분 인덱스들이 일치할 때(또는, 일부 경우에, 인접한 신체 부분들 또는 영역들에 대응할 때) 선택될 수 있다. 리파인-z 픽셀 케이스는 합성된 픽셀에 대하여 그 합성된 케이스에 대한 합성된 깊이 값과 관찰된 깊이 값 간의 차이가 미리 정해진 범위 안에 있는 경우와, 옵션으로, 그 합성된 픽셀의 (성장) 신체 부분 인덱스가 자기력을 받도록 설계되지 않은 신체 부분에 대응하는 경우 선택될 수 있다. 리파인-z 픽셀 케이스는 모델을 정확한 위치로 움직이기 위해 모델에 힘을 가할 수 있는 계산된 힘 벡터에 대응할 수 있다. 계산된 힘 벡터는 이미지 평면에 수직인 Z 축을 따라서, 모델의 양태(예를 들면, 대응하는 신체 부분의 면(face))에 수직인 벡터를 따라서, 및/또는 근처의 관찰된 픽셀들에 수직인 벡터를 따라서 적용될 수 있다. 힘 벡터의 크기는 관찰된 깊이 값과 합성된 깊이 값의 차이에 기초하고, 더 큰 차이는 더 큰 힘에 대응한다. 힘이 가해지는 힘-수용 위치는 관심 픽셀에 가장 가까운 자격 있는 힘-수용 위치(예를 들면, 가장 가까운 몸통 관절)인 것으로 선택될 수 있고, 또는 힘은 가장 가까운 힘-수용 위치들의 가중된 혼합 사이에 분포될 수 있다. 가장 가까운 힘-수용 위치가 선택될 수 있지만, 일부 경우에, 바이어스들의 적용이 도움이 될 수 있다. 예를 들면, 픽셀이 위쪽 다리를 중간에 위치하고, 히프 관절(hip joint)이 무릎보다 이동성(또는 민첩성)이 작은 것이 확증된 경우, 중간 다리 픽셀들이 히프보다는 무릎에 작용하도록 관절 힘들을 바이어싱하는 것이 도움이 될 수 있다.

어느 힘-수용 위치가 관심 픽셀에 가장 가까운지의 결정은, 전술한 바이어스와 함께 또는 바이어스 없이, 맹목적 검색(brute-force search)에 의해 발견될 수 있다. 검색을 가속시키기 위해, 검색되는 힘-수용 위치들의 세트는 이 픽셀의 신체 부분 인덱스와 관련된 신체 부분 상의 또는 그 근처의 것들에만 제한될 수 있다. 포즈가 변경될 때마다, 이들 검색들을 가속시키는 것을 돕기 위해, BSP(binary space partitioning)가 또한 설정될 수 있다. 신체, 또는 신체 부분 인덱스에 대응하는 각 신체 부분 상의 각 영역에는 그 자신의 BSP 트리가 주어질 수 있다. 만일 그렇다면, 바이어스들은 각 신체 부분에 대하여 상이하게 적용될 수 있고, 이는 적당한 힘-수용 위치들의 현명한 선택을 더 가능하게 한다.

도 7의 126에 나타내어진 바와 같이, 픽셀 케이스를 결정하는 것은 자기 픽셀 케이스(magnetism pixel case)를 선택하는 것을 포함할 수 있다. 자기 픽셀 케이스는 (성장/) 맵 내의, 검사되고 있는 합성된 픽셀들이 미리 정해진 신체 부분들의 서브세트(예를 들면, 도 3의 팔들, 즉 bp3, bp4, pb5, bp7, bp8, 및 bp9)에 대응할 때 이용될 수 있다. 팔들이 예로서 제공되지만, 다리들 또는 신체 전체와 같은, 다른 신체 부분들이 옵션으로 일부 시나리오들에서 자기 픽셀 케이스와 관련될 수 있다. 마찬가지로, 일부 시나리오들에서, 팔들은 자기 픽셀 케이스와 관련되지 않을 수 있다.

자기 케이스에 대하여 마킹된 픽셀들은 영역들로 그룹화될 수 있고, 각각의 영역은 특정한 신체 부분(이 예에서, 위쪽 왼쪽 팔, 아래쪽 왼쪽 팔, 왼쪽 손 등과 같은)과 관련된다. 픽셀이 어느 영역에 속하는지는 그것의 신체 부분 인덱스로부터 결정될 수 있고, 또는, (성장 동작에서 잠재적으로 도입되는 오류를 줄이기 위해) 픽셀의 위치를 신체 모델 내의 또는 신체 모델 상의 (그러나 픽셀의 신체 부분 인덱스에 의해 지시된 신체 부분에 제한되지 않는) 다양한 포인트들과 비교하는 것에 의해 더 정확한 테스트가 수행될 수 있다. 예를 들면, 왼쪽 팔 상의 어딘가에 있는 픽셀에 대하여, 그 픽셀이 어느 뼈 세그먼트(어깨에서 팔꿈치, 팔꿈치에서 손목, 또는 손목에서 손끝)에 속할 것 같은지를 결정하기 위해 다양한 메트릭들이 사용될 수 있다. 이들 뼈 세그먼트들 각각은 "영역"으로 간주될 수 있다.

이들 자기 영역들 각각에 대하여, 영역에 속하는 픽셀들의 중심들이 계산될 수 있다. 이들 중심들은 오소독스(orthodox)(모든 기여 픽셀들이 동등하게 가중됨)이거나, 또는 일부 픽셀들이 다른 것들보다 더 많은 가중치를 지니는, 바이어싱된 것일 수 있다. 예를 들면, 위쪽 팔에 대하여, 3개의 중심들이 추적될 수 있다: 1) 바이어싱되지 않은 중심, 2) 그의 기여 픽셀들이 어깨에 더 가까울 때 더 많이 가중되는, "가까운" 중심, 및 3) 그의 기여 픽셀들이 팔꿈치에 더 가까울 때 더 많이 가중되는, "먼" 중심. 이들 가중치들은 선형(예를 들면, 2X) 또는 비선형(예를 들면, x²)일 수 있고 또는 임의의 곡선을 따를 수 있다.

일단 이들 중심들이 계산되면, 관심 신체 부분의 일부가 부분적으로 가려지더라도, 관심 신체 부분의 위치 및 방위를 계산하기 위한 다양한 옵션들이 이용 가능하다(및 동적으로 선택될 수 있다). 예를 들면, 팔꿈치에 대한 새로운 위치를 결정하려고 할 때, 만일 그 영역 내의 중심이 충분히 보인다면(만일 기여 픽셀들의 가중치들의 합계가 미리 정해진 임계치를 초과한다면), 중심 자체가 팔꿈치를 마킹한다(추정 #1). 그러나, 만일 팔꿈치 영역이 보이지 않는다면(어쩌면 그것이 어떤 다른 개체 또는 신체 부분에 의해 가려져 있기 때문에), 그럼에도 팔꿈치 위치는, 다음의 비제한적인 예에서 설명된 바와 같이, 종종 결정될 수 있다. 만일 위쪽 팔의 먼 중심이 보인다면, 팔꿈치에 대한 매우 있음직한 위치를 획득하기 위해, 위쪽 팔의 길이만큼, 이 중심을 통하여, 어깨로부터 투영이 이루어질 수 있다(추정 #2). 만약 아래쪽 팔의 가까운 중심이 보인다면, 팔꿈치에 대한 매우 있음직한 위치를 획득하기 위해, 아래쪽 팔의 길이만큼, 이 중심을 통하여, 손목으로부터 투영이 이루어질 수 있다(추정 #3).

이 3개의 잠재적인 추정들 중 하나의 선택이 이루어질 수 있고, 또는 3개의 잠재적인 추정들 사이의 혼합이 이루어질 수 있고, 더 높은 가시성(visibility), 확실성(confidence), 픽셀 카운트, 또는 임의의 수의 다른 메트릭들을 갖는 추정들에 우선순위(또는 더 높은 가중치)를 부여한다. 마지막으로, 이 예에서는, 단일 힘 벡터가 팔꿈치의 위치에서 모델에 적용될 수 있지만, 그것을 구성하기 위해 많은 픽셀들이 사용된 사실을 나타내기 위해, 그것은 더 많이 가중될 수 있다(다른 픽셀 케이스들로부터 유래하지만, 이 동일한 힘-수용 위치에 작용하는 픽셀 힘 벡터들과 함께 누적될 때). 계산된 힘 벡터는, 적용될 때, 대응하는 모델이 관찰된 이미지에서 보이는 타깃과 더 유리하게 일치하도록 모델을 움직일 수 있다. 자기 픽셀 케이스의 이점은 그것이 팔들과 같은 매우 민첩한 신체 부분들에 대하여 매우 효과적으로 작용할 수 있다는 점이다.

일부 실시예들에서, 정의된 관절들 또는 신체 부분들이 없는 모델은 자기 픽셀 케이스만을 이용하여 조정될 수 있다.

도 7의 128에 및 130에 나타내어진 바와 같이, 픽셀 케이스를 결정하는 것은 풀(pull) 픽셀 케이스 및/또는 푸시(push) 픽셀 케이스를 선택하는 것을 포함할 수 있다. 이들 픽셀 케이스들은, 합성된 깊이 값과 관찰된 깊이 값이 동일한 픽셀 어드레스에서 심하게 불일치될 수 있는, 실루엣에서 호출될 수 있다. 풀 픽셀 케이스 및 푸시 픽셀 케이스는 또한 최초 플레이어 인덱스가 (성장) 플레이어 인덱스와 일치하지 않는 경우에 사용될 수 있다는 것에 유의한다. 푸시 대 풀의 결정은 다음과 같다. 만일 합성된 깊이 이미지가 그 동일한 픽셀 어드레스에서의 관찰된 깊이 이미지 내의 깊이 값보다 더 크다면(더 멀다면), 모델은 성장된 이미지에서 보이는 진짜 실루엣 쪽으로 당겨질 수 있다(pulled). 반대로, 만일 최초 합성된 이미지가 관찰된 깊이 이미지 내의 깊이 값보다 작다면(더 가깝다면), 모델은 플레이어가 더 이상 차지하지 않는 공간 밖으로(및 성장된 이미지 내의 진짜 실루엣 쪽으로) 밀쳐질 수 있다(pushed). 어느 쪽의 경우이든, 이들 픽셀들 또는 픽셀 영역들 각각에 대하여, 2차원 또는 3차원의 계산된 힘 벡터가 실루엣 불일치를 정정하기 위해 모델에 가해져서, 신체 모델의 부분들을 관찰된 깊이 이미지 내의 타깃의 위치와 더 정확히 일치하는 위치로 밀거나 당긴다. 그러한 밀기 및/또는 당기기의 방향은 종종 주로 XY 평면에 있지만, 일부 시나리오들에서는 힘에 Z 성분이 추가될 수 있다.

풀 또는 푸시 케이스에 대한 적당한 힘 벡터를 생성하기 위하여, (풀 케이스의 경우) 합성된 깊이 이미지 내의 플레이어 실루엣 상의, 또는 (푸시 케이스의 경우) 관찰된 깊이 이미지 내의 플레이어 실루엣 상의 가장 가까운 포인트가 먼저 발견될 수 있다. 이 포인트는, 각각의 소스 픽셀에 대하여(또는 소스 픽셀들의 각 그룹에 대하여), 다음의 조건들을 만족시키는 (원하는 실루엣 상의) 가장 가까운 포인트에 대한 맹목적이고 철저한 2D 검색(brute-force, exhaustive 2D search)을 수행하는 것에 의해 발견될 수 있다. 풀 픽셀 케이스에서는, (소스 픽셀 또는 영역에서의) 성장 맵 내의 플레이어 인덱스와 일치하는 (탐색 위치에서의) 최초 맵 내의 플레이어 인덱스를 갖는 가장 가까운 픽셀이 발견된다. 푸시 픽셀 케이스에서는, (소스 픽셀 또는 영역에서의) 최초 맵 내의 플레이어 인덱스와 일치하는 (탐색 위치에서의) 성장 맵 내의 플레이어 인덱스를 갖는 가장 가까운 픽셀이 발견된다.

그러나, 맹목적 검색은 계산상 매우 비용이 많이 들 수 있고, 계산상 비용을 줄이기 위해 최적화가 사용될 수 있다. 이 포인트를 더 효과적으로 찾기 위한 비제한적인 최적화의 일례는 전술한 높이 맵의 그레이디언트, 또는 그것의 블러링된 버전을 따르는 것이고, 그레이디언트의 방향으로, 직선 내의 픽셀들만을 검사하는 것이다. 이 높이 맵에서, 높이 값들은 최초 및 성장된 플레이어 인덱스 맵들 모두에서 플레이어 인덱스가 동일한 곳에서는 낮고, 높이 값들은 (양쪽 맵들에서의) 플레이어 인덱스가 제로인 곳에서는 높다. 그레이디언트는, 임의의 주어진 픽셀에서, 이 높이 맵에서 "내리막"을 가리키는 벡터로서 정의될 수 있다. 풀 및 푸시 픽셀들 양쪽 모두는 전술한 바와 같이 그것들이 그들 각각의 중지 조건(stopping condition)에 도달할 때까지 이 그레이디언트(내리막)를 따라서 탐색할 수 있다. 이 탐색 동작을 위한 다른 기본적인 최적화들은, 픽셀들을 스킵하는 것, 간격 이등분(interval halving)을 이용하는 것, 또는 경사 기반 접근법(slope-based approach)을 이용하는 것; 탐색이 진행될 때, 띄엄띄엄 그레이디언트를 다시 샘플링하는 것뿐만 아니라; 일단 중지 조건이 만족되면 (그레이디언트를 직접 따르지 않고) 더 나은/더 흡사한 일치에 대하여 근처를 체크하는 것을 포함한다.

관심 실루엣 상의 가장 가까운 포인트를 찾기 위해 어떤 기법이 사용되든지 간에, 이동된 거리(소스 픽셀과 실루엣 픽셀 사이의 거리) D1은 모델을 밀거나 당길 힘 벡터의 크기(길이) D2를 계산하기 위해 이용될 수 있다. 일부 실시예들에서, D2는 선형적으로 또는 비선형적으로 D1에 관련될 수 있다(예를 들면, D2 = 2*D1 또는 D2 = D1²). 비제한적인 일례로서, 다음의 공식이 사용될 수 있다: D2 = (D1 ― 0.5 픽셀)*2. 예를 들면, 만일 2개의 깊이 이미지들 내의 실루엣 사이에 5-픽셀 갭이 있다면, 이 갭 내의 각 픽셀은 작은 "탐색"을 수행하여 힘 벡터를 생성할 수 있다. 진짜 실루엣 근처의 픽셀들은 실루엣에 도달하기 위해 1 픽셀만큼만 탐색할 수 있고, 따라서 그 픽셀들에서의 힘 크기는 (1 ― 0.5)*2 = 1일 것이다. 진짜 실루엣으로부터 먼 픽셀들은 5 픽셀만큼 탐색할 수 있고, 따라서 힘 크기는 (5 ― 0.5)*2 = 9일 것이다. 일반적으로, 진짜 실루엣에 가장 가까운 픽셀들로부터 가장 먼 것들로 진행하면서, 탐색 거리들은 D1 = {1, 2, 3, 4, 5}일 것이고 생성된 힘 크기들은 D2 = {1, 3, 5, 7, 9}일 것이다. 이 경우 D2의 평균은, 원하는 대로, 5이다 ― 결과의 힘 벡터들의 평균 크기들은 모델을 적당한 곳에 두기 위해 모델이 이동될 수 있는 거리인, (각각의 힘-수용 위치 근처의) 실루엣들 사이의 거리와 같다.

그 후, 방향 및 크기(즉, 길이)를 이용하여, 각각의 소스 픽셀에 대한, 최종 힘 벡터가 구성될 수 있다. 풀 픽셀들의 경우, 방향은 실루엣 픽셀로부터 소스 픽셀로의 벡터에 의해 결정되고; 푸시 픽셀의 경우, 그것은 정반대 벡터이다. 이 힘 벡터의 길이는 D2이다. 그 후, 각 픽셀에서, 힘은 가장 자격 있는(예를 들면, 가장 가까운) 힘-수용 위치에 가해질 수 있고(또는 몇 개의 사이에 분포될 수 있고), 이들 힘들은, 각각의 힘-수용 위치에서, 평균되어, 신체 모델의 적당한 국부적인 움직임들을 생성할 수 있다.

도 7의 132에 및 134에 나타내어진 바와 같이, 픽셀 케이스를 결정하는 것은 자기 가림 푸시 및/또는 풀 픽셀 케이스(self-occluding push and/or pull pixel case)를 선택하는 것을 포함할 수 있다. 전술한 푸시 및 풀 픽셀 케이스들에서는 신체 부분이 배경 또는 다른 타깃에 관하여 전경에서 움직이고 있을 수 있는 반면, 자기 가림 푸시 및 풀 픽셀 케이스들은 신체 부분이 동일한 타깃의 다른 신체 부분의 앞에 있는 시나리오(예를 들면, 한 다리가 다른 다리의 앞에 있는 것, 팔이 몸통의 앞에 있는 것 등)를 고려한다. 이들 케이스들은 픽셀의 (스냅) 플레이어 인덱스가 그것의 대응하는 (성장) 플레이어 인덱스와 일치하는 경우, 그러나 (스냅) 신체 부분 인덱스는 그것의 대응하는 (성장) 신체 부분 인덱스와 일치하지 않는 경우에 식별될 수 있다. 그러한 케이스들에서, (실루엣을 찾기 위한) 탐색 방향은 몇 가지 방법으로 도출될 수 있다. 비제한적인 예들로서, 맹목적 2D 검색이 수행될 수 있고; 그레이디언트가 1D 검색을 가이드할 수 있도록 이 케이스에 대하여 "가림(occlusion)" 높이 맵들의 제2 세트가 맞추어질 수 있고; 또는 방향이 가장 가까운 골격 부재(skeletal member) 상의 가장 가까운 포인트를 향하여 설정될 수 있다. 이들 2개의 케이스들에 대한 상세는 다른 점에서 표준 푸시 및 풀 케이스들과 유사하다.

푸시, 풀, 자기 가림 푸시, 및/또는 자기 가림 풀 픽셀 케이스들은 합성된 픽셀에 대하여 그 합성된 픽셀의 (성장) 신체 부분 인덱스가 자기력들을 받도록 설계되지 않은 신체 부분에 대응하는 경우 선택될 수 있다.

일부 시나리오들에서는 단일 픽셀이 하나 이상의 픽셀 케이스들을 초래할 수 있다는 것을 이해해야 한다. 비제한적인 예로서, 자기 가림 푸시 픽셀 힘이 가리고 있는 신체 부분 상의 힘-수용 위치에 가해지고 리파인-z 픽셀 힘이 가려지고 있는 신체 부분 상의 힘-수용 위치에 가해지는 경우, 픽셀은 자기 가림 푸시 픽셀 힘 및 리파인-z 픽셀 힘 양쪽 모두를 초래할 수 있다.

도 7의 136에 나타내어진 바와 같이, 픽셀 케이스를 결정하는 것은 합성된 픽셀에 대하여 어떤 픽셀 케이스도 선택하지 않는 것을 포함할 수 있다. 종종 힘 벡터는 합성된 깊이 이미지의 모든 합성된 픽셀들에 대하여 계산될 필요가 없을 것이다. 예를 들면, 합성된 깊이 이미지에서 보이는 신체 모델로부터 더 멀리 떨어져 있는 합성된 픽셀들, 및 관찰된 깊이 이미지에서 보이는 타깃으로부터 더 멀리 떨어져 있는 관찰된 픽셀들(즉, 배경 픽셀들)은, 어떠한 힘-수용 위치들 또는 신체 부분들에도 영향을 주지 않을 수 있다. 그러한 픽셀들에 대해서는 픽셀 케이스가 결정될 필요가 없지만, 일부 시나리오들에서는 결정될 수 있다. 다른 예로서, 그 합성된 픽셀에 대한 합성된 깊이 값과 관찰된 깊이 값 간의 차이가 미리 정해진 임계치보다 아래일 수 있다(예를 들면, 모델은 이미 관찰된 이미지와 일치한다). 그에 따라, 그러한 픽셀들에 대해서는 픽셀 케이스가 결정될 필요가 없지만, 일부 시나리오들에서는 결정될 수 있다.

아래 제공된 표는 전술한 픽셀 케이스들과 도 5의 골격 모델(82)에서 예시된 관절들 사이의 예시적인 관계를 상술한다. 픽셀 케이스들 1-7은 표에서 다음과 같이 간략화된다: 1-풀(표준), 2-풀(가림), 3-푸시(표준), 4-푸시(가림), 5-리파인-Z, 6-자기 풀(Magnetic Pull), 및 7-가림(액션 없음). "힘을 받는가?"라는 열(column) 내의 "예" 항목은 그 행(row)의 관절이 힘 벡터로부터의 힘을 받을 수 있다는 것을 나타낸다. 픽셀 케이스 열 내의 "X" 항목은 그 행의 관절이 그 열의 픽셀 케이스에 대응하는 힘 벡터로부터의 힘을 받을 수 있다는 것을 나타낸다. 다음의 표는 예로서 제공된다는 것을 이해해야 한다. 그것은 제한적인 것으로 간주되지 않아야 한다. 이 명세서의 범위에서 벗어나지 않고 모델들과 픽셀 케이스들 사이의 다른 관계들이 확립될 수도 있다.

단계(140)에서, 도 7의 방법(100)은, 픽셀 케이스가 결정된 각각의 합성된 픽셀에 대하여, 그 합성된 픽셀에 대하여 선택된 픽셀 케이스에 기초하여 힘 벡터를 계산하는 것을 포함한다. 전술한 바와 같이, 각 픽셀 케이스는 힘 벡터의 크기, 방향, 및/또는 힘-수용 위치를 선택하기 위한 상이한 알고리즘 및/또는 방법에 대응한다. 힘 벡터들은, 월드 공간(world space), 스크린 공간(Z-분할 전), 투영 공간(Z-분할 후), 모델 공간 등과 같은, 임의의 좌표 공간에서 계산 및/또는 누적될 수 있다.

단계(142)에서, 방법(100)은 각각의 계산된 힘 벡터를 모델의 하나 이상의 힘-수용 위치들에 매핑하는 것을 포함한다. 매핑은 계산된 힘 벡터를 "가장 잘 일치하는(best-matching)" 힘-수용 위치에 매핑하는 것을 포함할 수 있다. 모델의 가장 잘 일치하는 힘-수용 위치의 선택은 대응하는 픽셀에 대하여 선택된 픽셀 케이스에 의존한다. 가장 잘 일치하는 힘-수용 위치는, 예를 들면, 가장 가까운 관절, 정점, 또는 중심일 수 있다. 일부 실시예들에서는, 모멘트(즉, 회전력)가 모델에 적용될 수 있다.

일반적으로, 병진(translations)은 모델의 힘-수용 위치들에 작용하는 유사한 방향들을 갖는 힘들로부터 생길 수 있고, 회전은 모델의 힘 받은 위치들에 작용하는 상이한 방향들의 힘들로부터 생길 수 있다. 변형 가능한 개체들의 경우, 힘 벡터들의 성분들 중 일부는 모델을 그것의 변형 한계 안에서 변형시키기 위해 사용될 수 있고, 힘 벡터들의 나머지 성분들은 모델을 병진 및/또는 회전시키기 위해 사용될 수 있다.

일부 실시예들에서, 힘 벡터들은 가장 잘 일치하는 단단한 또는 변경 가능한 개체, 부분 개체(sub-object), 및/또는 개체의 다각형들의 세트에 매핑될 수 있다. 따라서, 힘 벡터들 중 일부는 모델을 변형시키기 위해 사용될 수 있고, 힘 벡터들의 나머지 성분들은 모델의 단단한 병진을 수행하기 위해 사용될 수 있다. 그러한 기법은 "부서진(broken)" 모델로 귀결될 수 있다(예를 들면, 팔이 신체로부터 절단될 수 있다). 아래에 더 상세히 논의되는 바와 같이, 신체 부분들을 낮은 에너지 경로를 따라 도로 함께 연결하기 위하여 병진을 회전으로 변환하고 및/또는 제한을 적용하기 위해 수정 단계(rectification step)가 이용될 수 있다.

도 11a 및 11b는 모델 ― 예시된 예에서, 골격 모델(180)에 힘 벡터들을 적용하는 매우 단순화된 예를 보여준다. 간소화를 위하여, 예시된 예에서는 2개의 힘 벡터들만이 도시되어 있다. 각각의 그러한 힘 벡터는 둘 이상의 상이한 픽셀들의 픽셀 케이스 결정들 및 힘 벡터 계산들의 결과로 생기는 둘 이상의 상이한 힘 벡터들의 합계의 결과일 수 있다. 종종, 모델은 다수의 상이한 힘 벡터들에 의해 조정될 것이고, 그 각각은 다수의 상이한 픽셀들의 픽셀 케이스 결정들 및 힘 벡터 계산들의 결과로 생기는 다수의 상이한 힘 벡터들의 합계이다.

도 11a는 골격 모델(180)을 보여주는 것으로, 관찰된 깊이 이미지와 더 흡사하게 일치하도록 골격 모델(180)의 한 팔을 곧게 하기 위하여, 관절 j18(즉, 팔꿈치)에 힘 벡터(182)가 적용되고, 관절 j20(즉, 손목)에 힘 벡터(184)가 적용될 것이다. 도 11b는 힘들이 가해진 후의 골격 모델(180)을 보여준다. 도 11b는 가해진 힘이 어떻게 모델의 포즈를 조정하는지를 예시한다. 도 11b에 도시된 바와 같이, 골격 부재들의 길이들은 유지될 수 있다. 더 도시된 바와 같이, 관절 j2의 위치는, 인간이 그의 팔을 곧게 하는 경우에 대하여 예상되는 바와 같이, 골격 모델의 어깨에 남아 있다. 즉, 골격 모델은 힘들이 가해진 후에 그대로 남아 있다. 힘들 가할 때 골격 모델의 무결성(integrity)을 유지하는 것은, 아래 더 상세히 논의되는 바와 같이, 하나 이상의 제한이 적용되는 것의 결과로 생긴다. 상이한 가능한 모델 유형들의 무결성을 유지하기 위해 각종의 상이한 제한들이 시행될 수 있다.

단계(144)에서, 도 7의 방법(100)은 옵션으로 모델을 하나 이상의 제한을 만족시키는 포즈로 수정하는(rectifying) 것을 포함한다. 전술한 바와 같이, 계산된 힘 벡터들을 수집하고 모델의 힘-수용 위치들에 매핑한 후에, 계산된 힘 벡터들은 모델에 적용될 수 있다. 만일 제한 없이 수행된다면, 이것은 모델을 "부수어(break)", 그것을 균형이 안 잡히게(out of proportion) 잡아 늘이고 및/또는 신체 부분들을 타깃의 실제 신체에 대한 무효한 구성들로 이동시킬 수 있다. 그 후 새로운 모델 위치를 "근처의" 합법적인 구성으로 "릴렉스(relax)"하기 위해 다양한 기능들의 반복들이 사용될 수 있다. 모델을 수정하는 각각의 반복 동안에, 포즈들의 세트를 하나 이상의 타깃의 하나 이상의 실제 신체에 의해 물리적으로 표현 가능한 것들로 제한하기 위하여, 제한들은 포즈에 서서히 및/또는 점차로 적용될 수 있다. 다른 실시예들에서, 그러한 수정 단계는 비반복적인 방식으로 행해질 수 있다.

일부 실시예들에서, 제한들은, 후술된 바와 같이, 골격 부재 길이 제한, 관절 각도 제한, 다각형 에지 각도 제한, 및 충돌 테스트 중 하나 이상을 포함할 수 있다.

골격 모델이 사용되는 예로서, 골격 부재(즉, 뼈) 길이 제한이 적용될 수 있다. 검출될 수 있는 힘 벡터들(즉, 관절들 및/또는 신체 부분들이 보이고 가려지지 않는 위치들에서의 힘 벡터들은 골격 모델의 골격 부재들의 망(network)을 따라서 전파될 수 있다. 골격 모델 길이 제한을 적용하는 것에 의해, 전파된 힘들은 일단 모든 골격 부재들이 허용 가능한 길이들을 가지면 "자리를 잡을 수 있다(settle in)". 일부 실시예들에서, 골격 부재 길이들 중 하나 이상은 미리 정해진 범위 내에서 변동 가능하도록 허용된다. 예를 들면, 몸통의 옆구리들(sides)을 구성하는 골격 부재들의 길이는 변형 가능한 중간부를 흉내내도록 변동 가능할 수 있다. 다른 예로서, 위쪽 팔을 구성하는 골격 모델들의 길이는 복잡한 어깨 관절 와(shoulder socket)를 흉내내도록 변동 가능할 수 있다.

골격 모델은 추가적으로 또는 대안적으로, 골격 부재들의 길이들이 수정 동안에 제한으로서 이용될 수 있도록, 타깃에 기초하여 각각의 골격 부재의 길이를 계산하는 것에 의해 제한될 수 있다. 예를 들면, 원하는 뼈 길이들은 골격 모델로부터 알려져 있고; 현재의 뼈 길이들과 원하는 뼈 길이들 간의 차이(즉, 새로운 관절 위치들 사이의 거리)가 평가될 수 있다. 모델은 원하는 길이들과 현재의 길이들 사이의 임의의 오차를 감소시키도록 조정될 수 있다. 더 중요하다고 생각되는 특정 관절들 및/또는 뼈들뿐만 아니라, 다른 것들보다 현재 더 많이 보이는 관절들 또는 신체 부분들에 우선순위가 주어질 수 있다. 또한, 높은 크기 변화들에는 낮은 크기 변화들보다 우선순위가 주어질 수 있다.

뼈 길이 제한들의 보다 정확한 적용을 가능케 하기 위해 X, Y, 및 Z 디멘전들에서 개별적으로 관절 가시성 및/또는 확실성이 추적될 수 있다. 예를 들면, 만일 뼈가 가슴을 왼쪽 어깨에 연결하고, 어깨 관절의 Z 위치가 높은 확실성이고(즉 다수의 리파인-z 픽셀들이 그 관절에 대응하고) 어깨의 Y 위치가 높은 확실성이면(다수의 푸시/풀 픽셀들이 그 관절에 대응하면), Y 방향에서 어깨 또는 Z 방향에서 가슴의 움직임을 부분적으로 또는 완전히 제한하면서 뼈 길이의 어떠한 오차도 정정될 수 있다.

일부 실시예들에서, 수정 전의 관절 위치들은 수정 후의 관절 위치들과 비교될 수 있다. 만일 모든 프레임마다 골격 모델에 일관된 세트의 조정들이 이루어지고 있다고 결정되면, 방법(100)은 이 정보를 이용하여 골격 및/또는 신체 모델에 대하여 "점진적 리파인(progressive refinement)"을 수행할 수 있다. 예를 들면, 수정 전과 후의 관절 위치들을 비교하는 것에 의해 어깨들이 수정 동안에 더 넓게 떨어져서 밀쳐지고 있는 것이 결정될 수 있다. 그러한 일관된 조정은 골격 모델의 어깨들이 표현되고 있는 타깃보다 더 작고, 따라서, 이것을 정정하기 위해 수정 동안에 각 프레임에서 어깨 폭이 조정되고 있다는 것을 암시한다. 그러한 경우, 골격 및/또는 신체 모델을 타깃과 더 잘 일치하도록 정정하기 위해 골격 모델의 어깨 폭을 증가시키는 것과 같은 점진적 리파인이 행해질 수 있다.

관절 각도 제한과 관련하여, 특정 사지들 및 신체 부분들은 인체 부분에 관하여 그들의 움직임의 범위에서 제한될 수 있다. 또한, 이 움직임의 범위는 인접한 신체 부분들의 방위에 기초하여 변할 수 있다. 따라서, 부모 사지들 및/또는 신체 부분들의 방위가 주어지면, 관절 각도 제한의 적용은 사지 세그먼트들이 가능한 구성들로 제한되게 할 수 있다. 예를 들면, 아래쪽 다리는 (무릎에서) 뒤쪽으로 구부러지고, 앞쪽으로는 구부러지지 않도록 구성될 수 있다. 만일 비합법적인 각도가 검출된다면, 위반하고 있는 신체 부분(들) 및/또는 그들의 부모들(또는, 메쉬 모델의 경우에, 위반하고 있는 삼각형들 및 그들의 이웃들)은 미리 정해진 가능성의 범위 안에서 포즈를 유지하도록 조정되고, 따라서 모델이 받아들이기 어려운 것으로 간주되는 포즈로 무너지는 경우를 피하는데 도움이 될 수 있다. 극단적인 각도 위반의 특정한 경우에, 포즈는 거꾸로 인식될 수 있다, 즉, 가슴으로 추적되고 있는 것은 실제로는 플레이어의 등이고; 왼쪽 손은 실제로는 오른 손인 것 등이다. 그러한 불가능한 각도가 분명히 보이는(그리고 충분히 터무니없는) 경우, 이것은 포즈가 플레이어의 신체에 거꾸로 매핑되었다는 것을 의미하는 것으로 해석될 수 있고, 포즈는 타깃을 정확히 모델링하기 위해 플립될 수 있다(flipped).

모델이 자신을 상호 관통하는 것을 막기 위해 충돌 테스트가 적용될 수 있다. 예를 들면, 충돌 테스트는 팔뚝/손이 몸통을 관통하는 것을 막거나, 팔뚝/손이 서로를 관통하는 것을 막을 수 있다. 다른 예들에서, 충돌 테스트는 다리가 다른 다리를 관통하는 것을 막을 수 있다. 일부 실시예들에서, 충돌 테스트는 모델들 사이에 유사한 시나리오들이 일어나는 것을 막기 위해 둘 이상의 플레이어들의 모델들에 적용될 수 있다. 일부 실시예들에서, 충돌 테스트는 신체 모델 및/또는 골격 모델에 적용될 수 있다. 일부 실시예들에서, 충돌 테스트는 메쉬 모델의 특정 다각형들에 적용될 수 있다.

충돌 테스트는 임의의 적합한 방식으로 적용될 수 있다. 하나의 접근법은 하나의 "체적 측정 라인 세그먼트(volumetric line segment)" 대 또 하나의 체적 측정 라인 세그먼트의 충돌을 검사하고, 여기서 체적 측정 라인 세그먼트는 3-D에서 밖으로 연장하는 반경을 갖는 라인 세그먼트일 수 있다. 그러한 충돌 테스트의 예는 팔뚝 대 또 하나의 팔뚝을 검사하는 것일 수 있다. 일부 실시예들에서, 체적 측정 라인 세그먼트는 그 세그먼트의 각 단부에서 상이한 반경을 가질 수 있다.

또 다른 접근법은 체적 측정 라인 세그먼트 대 포즈가 취해진 다각형 개체의 충돌을 검사한다. 그러한 충돌 테스트의 예는 팔뚝 대 몸통을 검사하는 것일 수 있다. 일부 실시예들에서, 포즈가 취해진 다각형 개체는 변형된 다각형 개체일 수 있다.

일부 실시예들에서, 타깃의 상이한 부분들이 시간 프레임(예를 들면, 1초의 1/30번째 또는 1/60번째)에서 제한된 거리를 움직일 수 있다는 지식은 제한으로서 이용될 수 있다. 그러한 제한은 모델의 힘-수용 위치들에 힘을 가한 결과로 생기는 특정 특정 포즈들을 배제하는 데 이용될 수 있다.

단계(145)에 나타내어진 바와 같이, 모델이 조정되고 옵션으로 제한된 후에, 프로세스는 새로운 합성된 깊이 이미지로의 모델의 새로운 래스터화를 시작하기 위해 귀환(loop back)할 수 있고, 새로운 합성된 깊이 이미지는 모델에 추가적인 조정이 이루어질 수 있도록 관찰된 깊이 이미지와 비교될 수 있다. 이런 식으로, 모델은 모델링된 타깃을 더 흡사하게 표현하도록 점진적으로 조정될 수 있다. 각 프레임에서 사실상 임의의 수의 반복들이 완료될 수 있다. 더 많은 반복은 더 정확한 결과를 달성할 수 있지만, 더 많은 반복은 또한 더 많은 컴퓨팅 오버헤드를 요구할 수 있다. 많은 시나리오들에서 프레임마다 2회 또는 3회의 반복이 적당하다고 생각되지만, 일부 실시예들에서는 1회의 반복으로 충분할 수 있다.

단계(146)에서, 도 7의 방법(100)은 옵션으로 도 11b에 도시된 변화들과 같은 모델의 변화들에 응답하여 스크린상의 캐릭터(예를 들면, 도 12a의 플레이어 아바타(190))의 시각적 외관을 변경하는 것을 포함한다. 예를 들면, 게임 콘솔(예를 들면, 도 1a 및 1b의 게임 시스템(12))에서 전자 게임을 플레이하고 있는 사용자는 여기에 설명된 바와 같이 게임 콘솔에 의해 추적될 수 있다. 특히, 골격 모델(예를 들면, 도 11a의 골격 모델(180))을 포함하는 신체 모델(예를 들면, 도 3의 신체 모델(70))이 타깃 게임 플레이어를 모델링하기 위해 사용될 수 있고, 신체 모델은 스크린상의 플레이어 아바타를 렌더링하기 위해 사용될 수 있다. 게임 플레이어가 한 팔을 곧게 할 때, 게임 콘솔은 이 움직임을 추적할 수 있고, 그 후 추적된 움직임에 응답하여, 도 11b에 도시된 바와 같이 모델(180)을 조정할 수 있다. 게임 콘솔은 또한 전술한 바와 같이 하나 이상의 제한을 적용할 수 있다. 그러한 조정들을 행하고 그러한 제한들을 적용하면, 게임 콘솔은 도 12b에 도시된 바와 같이 조정된 플레이어 아바타(192)를 디스플레이할 수 있다. 이것은 또한 도 1a의 예로서 도시되어 있는데, 도면에서 플레이어 아바타(24)는 게임 플레이어(18)가 실제 공간에서 펀치를 날리는 것에 응답하여 복싱 상대(22)를 때리는 것으로 도시되어 있다.

전술한 바와 같이, 스크린상의 캐릭터 또는 아바타의 시각적 외관을 변경하는 것 이외의 목적으로 시각적 타깃 인식이 수행될 수 있다. 그에 따라, 스크린상의 캐릭터 또는 아바타의 시각적 외관은 모든 실시예들에서 변경될 필요가 없다. 전술한 바와 같이, 타깃 추적은 사실상 제한 없는 상이한 목적들에 사용될 수 있고, 그 목적들 중 다수는 스크린상의 캐릭터의 변경으로 귀결되지 않는다. 타깃 추적 및/또는 조정된 모델의 포즈는 게임과 같은 애플리케이션의 사실상 임의의 요소에 영향을 미치는 파라미터로서 사용될 수 있다.

단계(147)에 나타내어진 바와 같이, 전술한 프로세스는 후속 프레임들에 대하여 반복될 수 있다.

여기에 설명된 구성들 및/또는 접근법들은 본질적으로 예시적인 것이고, 이들 특정한 실시예들 또는 예들은, 다수의 변형들이 가능하기 때문에, 제한적으로 간주되어서는 안 된다는 것을 이해해야 한다. 여기에 설명된 특정한 루틴들 또는 방법들은 임의의 수의 프로세싱 전략들 중 하나 이상을 나타낼 수 있다. 그에 따라, 예시된 다양한 단계들은 예시된 순서대로, 다른 순서들로, 동시에 수행되거나, 또는 일부 경우에 생략될 수 있다. 마찬가지로, 전술한 프로세스들의 순서는 변경될 수 있다.

본 명세서의 내용은 여기에 개시된 다양한 프로세스들, 시스템들 및 구성들, 및 다른 특징들, 기능들, 단계들, 및/또는 특성들의 모든 새로운 및 비자명한(non-obvious) 조합들 및 부분 조합들뿐만 아니라, 그것들의 임의의 및 모든 균등물들을 포함한다.

Claims

전자 게이밍 방법에 있어서,
복수의 상이한 포즈(pose)들로의 조정을 위해 구성된 머신-판독가능 모델로 인간 게임 플레이어를 나타내는 단계;
소스로부터 상기 인간 게임 플레이어의 관찰된 깊이 이미지를 수신하는 단계;
상기 인간 게임 플레이어의 머신-판독가능 모델을 합성된 깊이 이미지로 래스터화하는(rasterizing) 단계;
상기 머신-판독가능 모델의 힘-수용 위치들(force-receiving locations)에 하나 이상의 힘들을 가하고, 그러한 힘들에 응답하여 상기 머신-판독가능 모델을 움직이게 허용함으로써, 상기 합성된 깊이 이미지와 상기 관찰된 깊이 이미지 간의 차이들에 적어도 부분적으로 기초하여 상기 머신-판독가능 모델의 포즈를 조정하는 단계; 및
조정된 상기 머신-판독가능 모델의 포즈를 게임 플레이의 요소에 영향을 미치기 위한 파라미터로서 사용하는 단계
를 포함하는, 전자 게이밍 방법.
제1항에 있어서,
상기 관찰된 깊이 이미지는 복수의 관찰된 픽셀들을 포함하고, 하나 이상의 관찰된 픽셀들은 상기 소스와 그 관찰된 픽셀에 대응하는 상기 인간 게임 플레이어의 일부 사이의 거리를 표시하는 관찰된 깊이 값을 포함하는 것인, 전자 게이밍 방법.
제1항에 있어서,
상기 합성된 깊이 이미지는 복수의 합성된 픽셀들을 포함하고, 하나 이상의 합성된 픽셀들은 상기 소스와 그 합성된 픽셀에 의해 표현된 상기 인간 게임 플레이어의 일부 사이의 거리를 표시하는 합성된 깊이 값을 포함하는 것인, 전자 게이밍 방법.
제1항에 있어서,
상기 합성된 깊이 이미지는 복수의 합성된 픽셀들을 포함하고, 하나 이상의 합성된 픽셀들은 그 합성된 픽셀이 대응하는 상기 인간 게임 플레이어의 일부를 표시하는 신체 부분 인덱스(body-part index)를 포함하는 것인, 전자 게이밍 방법.
제1항에 있어서,
상기 머신-판독가능 모델의 포즈를 조정하는 단계는 관찰된 픽셀의 관찰된 깊이 값과 대응하는 합성된 픽셀의 합성된 깊이 값 간의 차이에 기초하는 것인, 전자 게이밍 방법.
타깃을 추적하는 방법에 있어서,
소스로부터 상기 타깃의 관찰된 깊이 이미지를 수신하는 단계;
상기 타깃의 모델 ― 상기 모델은 포즈를 가짐 ― 을 획득하는 단계;
상기 모델을 합성된 깊이 이미지로 래스터화하는 단계;
상기 모델의 힘-수용 위치들에 하나 이상의 힘들을 가하고, 그러한 힘들에 응답하여 상기 모델을 움직이게 허용함으로써, 상기 관찰된 깊이 이미지와 상기 합성된 깊이 이미지 간의 차이들에 적어도 부분적으로 기초하여 상기 모델의 포즈를 조정하는 단계
를 포함하는, 타깃을 추적하는 방법.
제6항에 있어서,
상기 관찰된 깊이 이미지는 복수의 관찰된 픽셀들을 포함하고, 하나 이상의 관찰된 픽셀들은 상기 소스와 그 관찰된 픽셀에 대응하는 상기 타깃의 일부 사이의 거리를 나타내는 관찰된 깊이 값을 포함하는 것인, 타깃을 추적하는 방법.
제6항에 있어서,
상기 소스는 깊이 카메라(depth camera)를 포함하는 것인, 타깃을 추적하는 방법.
제6항에 있어서,
상기 소스는 스테레오 카메라를 포함하는 것인, 타깃을 추적하는 방법.
제6항에 있어서,
상기 모델은 복수의 관절들(joints)에 의해 조정 가능하게 연결된 복수의 신체 부분들을 포함하는 것인, 타깃을 추적하는 방법.
제6항에 있어서,
상기 모델은 복수의 관절들에 의해 조정 가능하게 연결된 복수의 골격 부재들(skeletal members)을 포함하는 것인, 타깃을 추적하는 방법.
제6항에 있어서,
상기 모델은 다각형 에지들에서 조정 가능하게 연결된 복수의 다각형들을 포함하는 와이어프레임 메쉬(wireframe mesh)를 포함하는 것인, 타깃을 추적하는 방법.
제6항에 있어서,
상기 합성된 깊이 이미지는 복수의 합성된 픽셀들을 포함하고, 하나 이상의 합성된 픽셀들은 상기 소스와 그 합성된 픽셀에 의해 표현된 상기 타깃의 일부 사이의 거리를 표시하는 합성된 깊이 값을 포함하는 것인, 타깃을 추적하는 방법.
제6항에 있어서,
상기 합성된 깊이 이미지는 복수의 합성된 픽셀들을 포함하고, 하나 이상의 합성된 픽셀들은 그 합성된 픽셀이 대응하는 상기 타깃의 일부를 표시하는 신체 부분 인덱스를 포함하는 것인, 타깃을 추적하는 방법.
제6항에 있어서,
상기 합성된 깊이 이미지는 복수의 합성된 픽셀들을 포함하고, 각각의 합성된 픽셀은 그 합성된 픽셀이 대응하는 타깃을 나타내는 타깃 인덱스를 포함하는 것인, 타깃을 추적하는 방법.
제6항에 있어서,
상기 모델의 포즈를 조정하는 단계는 관찰된 픽셀의 관찰된 깊이 값과 대응하는 합성된 픽셀의 합성된 깊이 값 간의 차이에 기초하는 것인, 타깃을 추적하는 방법.
제6항에 있어서,
상기 모델의 포즈를 조정하는 단계는 대응하는 합성된 픽셀과 상이한 관찰된 픽셀의 신체 부분 인덱스에 더 기초하는 것인, 타깃을 추적하는 방법.
제6항에 있어서,
상기 모델의 포즈를 조정하는 단계는 하나 이상의 제한들(constraints)에 따라서 상기 모델을 수정하는(rectifying) 단계를 포함하는 것인, 타깃을 추적하는 방법.
컴퓨팅 시스템에 있어서,
깊이 정보를 캡처하도록 구성된 소스;
상기 소스에 동작가능하게 연결된 로직 서브시스템; 및
상기 로직 서브시스템에 의해 실행 가능한 명령어들을 저장하는 데이터 보유 서브시스템
을 포함하고, 상기 명령어들은,
상기 소스로부터 타깃의 관찰된 깊이 이미지를 수신하고;
상기 타깃의 모델 ― 상기 모델은 포즈를 가짐 ― 을 획득하고;
상기 모델을 합성된 깊이 이미지로 래스터화하고;
상기 모델의 힘-수용 위치들에 하나 이상의 힘들을 가하고, 그러한 힘들에 응답하여 상기 모델을 움직이게 허용함으로써, 상기 관찰된 깊이 이미지와 상기 합성된 깊이 이미지 간의 차이들에 적어도 부분적으로 기초하여 상기 모델의 포즈를 조정하도록
상기 로직 서브시스템에 의해 실행 가능한 것인, 컴퓨팅 시스템.