KR20080066671A

KR20080066671A - 궤적 구간 분석을 사용한 양방향 추적

Info

Publication number: KR20080066671A
Application number: KR1020087008343A
Authority: KR
Inventors: 지안 선; 웨이웨이 장; 시아우 탕; 형-영 섬
Original assignee: 마이크로소프트 코포레이션
Priority date: 2005-10-14
Filing date: 2006-10-13
Publication date: 2008-07-16
Also published as: US20070086622A1; CN101283376A; CN101283376B; EP1934941A4; WO2007047461A9; EP1934941A2; WO2007047461A1; EP1934941B1; US7817822B2

Abstract

본 비디오 추적 기술은 전체 상태 시퀀스의 시작 및 끝 프레임으로부터 얻은 2개의 개체 템플릿에 기초하여 대상 개체에 대한 MAP(Maximum A Posterior) 해를 출력한다. 이 기술은 시퀀스의 각 프레임에서 희박한 로컬 2차원 모드들 집합을 생성함으로써 시퀀스의 전체 상태 공간을 먼저 최소화한다. 2차원 모드들은 3차원 부피 내의 3차원 점들로 변환된다. 3차원 점들은 각 클러스터가 대상 개체의 가능한 궤적 구간에 대응하는 스펙트럼 클러스터링 기술을 사용하여 클러스터링된다. 시퀀스 내에 폐색이 있으면, 대상 개체의 최적 궤적이 얻어질 수 있도록 폐색 구간이 생성된다.

비디오 시퀀스, 키프레임, 궤적 구간, 폐색 구간, 궤적 최적화

Description

궤적 구간 분석을 사용한 양방향 추적{BI-DIRECTIONAL TRACKING USING TRAJECTORY SEGMENT ANALYSIS}

지정된 개체(즉, 대상 개체)의 시각적 추적은 다수의 유용한 애플리케이션을 갖는 컴퓨터 비전의 영역이다. 예를 들어, 시각적 추적은 비디오 감시, 인간-컴퓨터 인터페이스, 디지털 비디오 편집 등에서 사용될 수 있다. 일반적으로, 시각적 추적은 비디오 시퀀스와 같은 주어진 관측 동안에 대상 개체를 추적한다. 불행히도, 시각적 추적 기술은 몇몇 상황에서 대상 개체를 추적하기 어렵다.

예를 들어, 시각적 추적 기술이 대상 개체를 추적하는데 어려움을 갖는 한 가지 상황은 대상 개체가 대상 개체 자신의 예기치않은 동적 변화로부터 또는 카메라의 갑작스런 움직임으로부터와 같은 불시의 움직임을 경험할 때 발생한다. 시각적 추적 기술이 어려움을 갖는 또 다른 상황은 유사하게 보이는 개체가 대상 개체 가까이에 있을 때 발생한다. 이 상황에서, 추적 기술은 2개의 개체 중 어느 것이 대상 개체인지 구별하는데 어려움을 갖는다. 시각적 추적은 폐색(occlusion)이 발생하여, 대상 개체가 또 다른 개체에 의해 부분적으로 또는 완전히 가려질 때도 또한 어렵다.

개략적으로, 대부분의 추적 기술은 현재시간 t까지의 관측에 기초하여 현재시간 t에서의 대상 개체의 위치를 추정하기 위해 반복(recursive) 추정을 사용한 다. 베이지안(Bayesian) 프레임워크에서, 추적 문제점은 다음 식과 같이 되도록, 모든 관측 y₁ _:t가 주어지면 상태 x_t의 시간-전개 후의 분포 P(x_t｜y₁ _:t)의 반복 추정으로서 보통 공식화된다는 것이다:

반복 추정은 2가지 주요 장점: 1) 효율적인 계산; 및 2) 실시간 또는 온라인 추적 애플리케이션과의 자연스런 적합성을 갖는다.

그러나, 다수의 현실 세계 애플리케이션은 비디오 감시, 개체 기반의 비디오 압축, 홈 비디오 편집, 비디오 주석, 시각적 움직임 캡처 등에서의 이벤트 통계와 같은 오프라인 추적의 범주에 알맞다. 그러므로, 반복 방법은 또한 오프라인 시각적 추적에도 적용되었다. 이것이 행해질 때, 긴 입력 비디오 시퀀스는 통상적으로, 하나 이상의 키프레임을 지정함으로써 짧은 시퀀스들로 먼저 분해된다. 지정된 키프레임은 비디오 시퀀스 내의 프레임들 중의 어느 것일 수 있다. 각각의 키프레임은 추적될 개체(즉, 대상 개체)를 지정하는 개체 템플릿을 포함한다. 이들 분해된 짧은 시퀀스들을 사용하는 시각적 추적은 일반적으로 키프레임 기반 추적이라 칭해진다. 반복 방법은 이때 순방향 또는 역방향으로 짧은 시퀀스들의 각각에 적용된다. 그러나, 이 방법은 통상적으로 시퀀스 중간의 어딘가에서 실패한다. 이러한 일이 발생할 때, 다른 키프레임이 실패한 위치에서 추가된다.

새로운 키프레임의 추가가 시각적 추적의 결과를 개선하지만, 시행착오 방식 으로 새로운 키 프레임을 추가하는 것은 상당히 시간 소모적이다. 그러므로, 오프라인 애플리케이션에서 사용된 추적 기술을 개선하는 것이 계속 필요하다.

[요약]

본 비디오 추적 기술은 전체 상태 시퀀스의 시작 및 끝 프레임으로부터 얻은 2개의 개체 템플릿에 기초하여 대상 개체에 대한 MAP(Maximum A Posterior: 최대 사후 확률) 해를 출력한다. 이 기술은 시퀀스의 각 프레임에서 희박한 로컬 2차원 모드들 집합을 생성함으로써 시퀀스의 전체 상태 공간을 먼저 최소화한다. 2차원 모드들은 3차원 부피 내의 3차원 점들로 변환된다. 3차원 점들은 각 클러스터가 대상 개체의 가능한 궤적 구간에 대응하는 스펙트럼 클러스터링 기술을 사용하여 클러스터링된다. 시퀀스 내에 폐색(occlusion)이 있으면, 대상 개체의 최적 궤적이 얻어질 수 있도록 폐색 구간이 생성된다.

이 요약은 아래의 상세한 설명에서 더욱 설명되는 개념들의 선택을 단순화된 형태로 소개하기 위해 제공된다. 이 요약은 청구된 주제의 중요한 특징 또는 본질적인 특징을 식별하고자 하는 것도 아니고, 청구된 주제의 범위의 결정을 돕는 것으로 사용되고자 하는 것도 아니다.

제한적인 것이 아니고, 총망라한 것이 아닌 실시예가 다음 도면과 관련하여 설명되는데, 유사한 참조번호는 달리 지정되지 않는 한 여러 도면의 전반에 걸쳐 유사한 부분을 나타낸다. 편의상, 참조 번호의 가장 좌측 자리 숫자는 그 참조 번 호가 처음으로 나오는 특정 도면을 밝혀준다.

도 1은 한 실시예에 따른, 여기에서 설명된 비디오 추적 기술을 구현하기 위해 사용될 수 있는 예시적인 시스템을 도시한 도면.

도 2는 한 실시예에 따라 MAP 해가 효과적으로 얻어질 수 있도록 상태 공간을 효과적으로 감소시키는 예시적인 비디오 추적 프로세스를 도시한 흐름도.

도 3은 한 실시예에 따른 도 2의 비디오 추적 프로세스에서 사용하기 적합한 예시적인 궤적 구간 분석 프로세스를 도시한 흐름도.

도 4는 한 실시예에 따라 독립적으로 각 프레임마다 실행되는 2차원 추출 프로세스를 도시한 흐름도. 이 프로세스는 도 3의 궤적 구간 분석 프로세스에서 사용하기 적합하다.

도 5는 윗줄이 비디오 시퀀스로부터의 단순화된 프레임을 보여주고, 아랫줄이 도 4의 예시적인 2차원 추출 프로세스로부터의 결과를 보여주는 예시적인 도면 세트.

도 6은 한 실시예에 따라 스펙트럼 클러스터링을 사용하는 예시적인 3차원 궤적 구간 추출 프로세스를 도시한 흐름도. 이 프로세스는 도 3의 예시적인 궤적 구간 분석 프로세스에서 사용하기 적합하다.

도 7은 한 실시예에 따른 예시적인 폐색 분석 프로세스를 도시한 흐름도. 이 프로세스는 도 2의 예시적인 비디오 추적 프로세스에서 사용하기 적합하다.

도 8은 한 실시예에 따른 예시적인 양방향 트리 성장 프로세스를 도시한 흐름도. 이 프로세스는 도 7의 예시적인 폐색 분석 프로세스에서 사용하기 적합하 다.

도 9는 도 7에 도시된 폐색 분석 프로세스 동안에 생성된 예시적인 폐색 궤적을 도시한 그래프.

도 10-13은 본 추적 기술의 한 실시예에 따른 처리의 여러 단계에서의 결과를 도시한 예시적인 그래픽 세트.

도 14는 본 추적 기술의 한 실시예에 따른 처리의 여러 단계에서 입력으로서 사용되는 비디오 시퀀스로부터의 몇 개의 단순화된 예시적인 프레임을 도시한 도면. 이 예에서, 처리의 여러 단계는 도 10-13의 그래픽 세트를 생성한다.

다음 설명은 전체 상태 시퀀스의 시작 및 끝 프레임으로부터 얻어진 2개의 개체 템플릿에 기초하여 대상 개체에 대한 MAP 해를 출력하는 비디오 추적 기술에 관한 것이다. 이 기술은 시퀀스의 각 프레임에서 희박한 로컬 2차원 모드들 집합을 생성함으로써 시퀀스의 전체 상태 공간을 먼저 최소화한다. 2차원 모드들은 3차원 부피 내의 3차원 점들로 변환된다. 3차원 점들은 각 클러스터가 대상 개체의 가능한 궤적 구간에 대응하는 스펙트럼 클러스터링 기술을 사용하여 클러스터링된다. 시퀀스 내에 폐색이 있으면, 대상 개체의 최적 궤적이 얻어질 수 있도록 폐색 구간이 생성된다. 본 비디오 추적 기술은 갑작스런 움직임, 모호성(ambiguity), 및 짧은/긴 폐색 기간을 다룬다. 본 비디오 추적 기술의 이들 및 다른 실시양상이 이제 상세하게 설명된다.

도 1은 한 실시예에 따른, 여기에서 설명된 비디오 추적 기술을 구현하기 위 해 사용될 수 있는 예시적인 시스템이다. 이 시스템은 컴퓨팅 장치(100)와 같은 컴퓨팅 장치를 포함한다. 컴퓨팅 장치(100)는 퍼스널 컴퓨터, 랩톱, 서버, 게임 콘솔, 핸드헬드 또는 이동 장치(예를 들어, 셀룰러 폰, 휴대 정보 단말기) 등과 같은 임의의 유형의 컴퓨팅 장치를 나타낸다. 매우 기본적인 구성에서, 컴퓨팅 장치(100)는 통상적으로 최소한 하나의 처리 장치(102) 및 시스템 메모리(104)를 포함한다. 컴퓨팅 장치의 정확한 구성 및 유형에 의존하여, 시스템 메모리(104)는 (RAM과 같은) 휘발성, (ROM, 플래시 메모리 등과 같은) 비휘발성 또는 이 둘의 어떤 조합일 수 있다. 시스템 메모리(104)는 통상적으로 운영 체제(106), 하나 이상의 프로그램 모듈(108)을 포함하고, 프로그램 데이터(110)를 포함할 수 있다. 본 비디오 추적 기술의 경우에, 프로그램 모듈(108)은 비디오 추적 기술을 구현하는 하나 이상의 컴포넌트(140)를 포함할 수 있다. 또한, 프로그램 모듈(108)은 컴포넌트(140) 내에 구현된 비디오 추적 기술을 이용하는 그래픽 애플리케이션(142)을 포함할 수 있다. 대안적으로, 운영 체제(106)는 비디오 추적 기술을 구현하는 하나 이상의 컴포넌트를 포함할 수 있다. 프로그램 데이터(110)는 비디오 시퀀스(150)를 포함할 수 있다. 이 기본 구성은 점선(112) 내에 그러한 컴포넌트들에 의해 도 1에 도시된다.

컴퓨팅 장치(100)는 추가 특징 또는 기능을 가질 수 있다. 예를 들어, 컴퓨팅 장치(100)는 예를 들어, 자기 디스크, 광 디스크 또는 테이프와 같은 추가 데이터 저장 장치(이동식 및/또는 비이동식)을 포함할 수도 있다. 그러한 추가 저장장치는 이동식 저장장치(120) 및 비이동식 저장장치(122)로 도 1에 도시된다. 컴퓨 터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 이동식 및 비이동식 매체를 포함할 수 있다. 시스템 메모리(104), 이동식 저장장치(120) 및 비이동식 저장장치(122)는 모두 컴퓨터 저장 매체의 예이다. 그러므로, 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital versatile disks) 또는 기타 광 저장장치, 자기 카세트, 자기 테이프, 자기 디스크 저장장치 또는 기타 자기 저장 장치, 또는 컴퓨팅 장치(100)에 의해 액세스될 수 있고 원하는 정보를 저장하기 위해 사용될 수 있는 기타 임의의 매체를 포함하지만 이에 제한되는 것은 아니다. 임의의 그러한 컴퓨터 저장 매체는 장치(100)의 일부일 수 있다.

컴퓨팅 장치(100)는 또한 키보드, 마우스, 펜, 음성 입력 장치, 터치 입력 장치 등과 같은 입력 장치(들)(124)를 가질 수 있다. 컴퓨팅 장치(100)는 또한 장치가 이를테면 네트워크를 통해 다른 컴퓨팅 장치(130)와 통신할 수 있게 하는 통신 접속부(128)를 포함할 수 있다. 통신 접속부(들)(128)는 통신 매체의 한 예이다. 통신 매체는 통상적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터에 의해 구현될 수 있다. 예로서, 통신 매체는 유선 네트워크 또는 직접 배선 접속(direct-wired connection)과 같은 유선 매체, 그리고 음향, RF, 적외선 및 기타 무선 매체와 같은 무선 매체를 포함하지만 이에 제한되는 것은 아니다. 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 이용가능 매체일 수 있다. 예로서, 컴퓨터 판독가능 매체는 "컴퓨터 저장 매체" 및 "통 신 매체"를 포함할 수 있지만 이에 제한되는 것은 아니다.

다양한 모듈 및 기술은 일반적으로 하나 이상의 컴퓨터 또는 기타 장치에 의해 실행되는 프로그램 모듈과 같은 컴퓨터 실행가능 명령어와 관련하여 기술될 것이다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 개체, 컴포넌트, 데이터 구조 등을 포함한다. 이들 프로그램 모듈 등은 원시 코드로서 실행될 수 있고, 또는, 이를테면 가상 기계 또는 기타 JIT(just-in-time) 컴파일 실행 환경에서 다운로드되어 실행될 수 있다. 통상적으로, 프로그램 모듈의 기능은 각종 실시예에서 원하는 대로 결합되거나 분산될 수 있다. 이들 모듈 및 기술의 구현은 소정 유형의 컴퓨터 판독가능 매체 상에 저장되거나 그러한 매체를 통해 전송될 수 있다.

본 추적 기술의 상세를 설명하기 전에, 본 추적 기술을 위한 상태 모델 및 관측 모델이 설명될 것이다. 상태 모델 및 관측 모델은 키프레임 기반의 프레임워크를 적용한다. 상태 모델의 경우에, 대상 개체는 직사각형

로서 표현되는데, p는 중심 직사각형이고, s는 크기조정 계수이며,

및

는 각각 개체 템플릿의 고정된 폭 및 높이이다. 개체의 상태는 x={p,s}∈χ로 표시되는데, χ는 상태 공간이다. 상태 x₁은 제1 키프레임 I₁에서의 상태를 나타내고, 상태 x_T는 최종 프레임 I_T에서의 상태를 나타낸다. 본 추적 기술의 경우에는 이들 두 개의 상태 x₁ 및 x_T가 알려져 있다.

관측 모델은 대상 개체의 색 통계이다. 개체의 색 모델은 RGB 색 공간 내에 H(통상적으로, H=8x8x8)개의 빈(bin)을 갖는 히스토그램 h={h₁,h_H}으로 표현된다. 상태 x₀의 관련 히스토그램 h(x₀)과 상태 x₁의 관련 히스토그램 h(x₁) 사이의 바타차리야(Bhattacharyya) 거리는 다음과 같이 정의된다:

이 모델은 전체적인 색 통계를 획득한다. 다른 실시예에서, 더욱 정교한 다중-부분 색 모델은 대상 개체의 소정의 공간 구성이 있는 경우에 사용될 수 있다. 예를 들어, 한 구현예에서, Patrick Perez, C. Hue, J. Vermaak 및 M. Gangnet 저의 Proc. European Conf. on Computer Vision, volume 1, 611-675 페이지(2002년)에서 설명된 색 모델과 같은 다중-부분 색 모델이 이용된다.

궤적 최적화를 위해, 주어진 비디오 시퀀스 또는 관측 Y={y₁,...,y_T} 및 공지된 2개의 상태{x₁,x_T}에 대한 전체 상태 시퀀스 X={x₂,...,x_T _-1}의 사후확률은 1차 마르코프(Markov) 독립 가정 하에 다음과 같이 표현될 수 있다:

여기에서, 로컬 흔적 ψ(y_i｜x_i,x₁,x_T)는 다음과 같이 바타차리야 거리를 사용하여 정의된다:

ψ(y_i｜x_i,x₁,x_T)∼exp(-min{B²[h(x_i),h(x₁)],B²[(x_i),h(x_T)]}/2σ² _h)

여기에서, σ² _h 는 분산 파라미터이다. 분산 파라미터는 키프레임 I₁ 내의 h(x₁) 또는 키프레임 I_T 내의 h(x_T) 사이의 가장 가까운 색 히스토그램에 대한 상태 x_i의 색 히스토그램 h(x_i) 사이의 유사도를 측정한다. 2개의 인접한 상태들 사이의 퍼텐셜(potential) 함수 ψ(x_i,x_i ₊₁)는 다음과 같이 정의된다:

여기에서, D[x_i,x_i ₊₁]=∥p_i+p_i ₊₁∥²+ β∥s_i+s_i ₊₁∥²은 상태 x_i와 x_j 사이의 유사도이다. 파라미터 σ_p는 평활도의 강도를 제어하는 분산 파라미터이고, β는 위치 차와 척도 차 사이의 가중치이다. 그러므로, β는 대상 개체의 전체 궤적 X'={x₀,...,x_T}에 관한 평활도 제약조건이다.

키프레임 기반 추적의 목적은 다음과 같이 수학식 3의 MAP 해를 얻기 위한 것이다:

그러나, MAP 해를 결정하는 복잡도 Ο는 Ο(N²T)인데, 여기에서 N은 한 프레임 내의 이산 상태의 수이고, T는 입력 비디오의 프레임 수이다. 그러므로, 320 x 240 비디오의 경우에, 양자화된 상태 공간은 심지어 현상태 표현에서도 여전히 매우 크다. 그러므로, 본 양방향 추적 기술은 효과적이고 효율적인 방식으로 상태 공간을 감소시키는데 중점을 둔다.

도 2는 MAP 해가 효율적으로 얻어질 수 있도록 상태 공간을 효과적으로 감소시키는 예시적인 비디오 추적 프로세스(200)를 도시한 흐름도이다. 비디오 추적 프로세스는 블록(202)에서 시작하는데, 블록(202)에서, 시작 및 끝 프레임이 비디오 시퀀스 내에서 지정된다. 시작 및 끝 프레임은 키프레임이라 칭해진다. 처리는 블록(204)으로 계속된다.

블록(204)에서, 대상 개체의 초기 상태는 시작 프레임 내에서 얻어지고, 대상 개체의 최종 상태는 끝 프레임 내에서 얻어진다. 초기 상태 및 최종 상태는 사용자에 의해 선택될 수 있다. 예를 들어, 사용자는 대상 개체 주위에 직사각형을 놓아둘 수 있다. 그 다음, 초기 상태 및 최종 상태는 프레임 내의 직사각형 위치에 기초하여 결정된다. 처리는 블록(206)으로 계속된다.

블록(206)에서, 궤적 구간 분석이 실행된다. 간단히 말하자면, 도 3과 관련하여 나중에 상세하게 설명되는 궤적 구간 분석은 대상 개체가 존재할 가능성이 가 장 큰 비디오 시퀀스 내의 위치(즉, 모드)들을 식별하고자 시도한다. 효율성을 위해, 궤적 구간 분석은 대상 개체에 대한 가장 가능한 위치를 찾기 위해 2차원 모드 추출을 먼저 결합하고, 그 다음에 이들 식별된 위치에서 3차원 궤적 추출을 적용한다. 처리는 블록(208)으로 계속된다.

블록(208)에서, 폐색 분석이 실행된다. 간단히 말하자면, 도 7과 관련하여 나중에 상세하게 설명되는 폐색 분석은 폐색에 의해 야기된 불연속성을 제거하고자 시도한다. 이것은 대상 개체의 완전한 궤적이 추적될 수 있게 한다. 처리는 블록(210)으로 계속된다.

블록(210)에서, 궤적 최적화가 실행된다. 궤적 구간(블록(206)과 폐색 구간(블록(208))의 집합을 얻은 후, 2개의 키프레임들 사이의 단일 최적 궤적이 궤적 최적화에 의해 계산된다. 간단히 말하자면, 나중에 상세하게 설명되는 궤적 최적화는 더욱 정확한 추적 결과를 얻기 위해 거친 최적화에서 미세한 최적화로의 방식으로 실행된다. 거친 궤적 최적화 프로세스의 한 실시예에서, 계산된 구간 주위의 상태는 최적 궤적을 결정하기 위해 각 프레임 내에서 3개의 이산 크기조정 계수를 사용하여 균일하게 샘플링된다. 미세한 궤적 최적화 프로세스의 한 실시예에서, 최적 궤적 주위의 상태는 각 프레임 내에서 5개의 이산 크기조정 계수를 사용하여 샘플링된다. 이들 블록의 각각은 이제 더욱 상세하게 설명될 것이다.

도 3은 도 2의 비디오 추적 기술에서 사용하기 적합한 예시적인 궤적 구간 분석 프로세스(300)를 도시한 흐름도이다. 궤적 구간 분석 프로세스(300)는 블록(302)에서 시작되는데, 블록(302)에서, 2차원 추출이 각 프레임 내에서 실행된 다. 간단히 말하자면, 도 4와 관련하여 나중에 상세하게 설명되는 2차원 추출 프로세스는 더욱 희박한 상태 집합에서 추적이 실행될 수 있도록 전체 상태 공간을 상당히 감소시키고자 시도한다. 처리는 블록(304)으로 계속된다.

블록(304)에서, 상태 공간이 감소된 후, 적은 수의 3차원 궤적 구간들이 결정된다. 개략적으로, 2차원 모드는 대상 개체에 대한 참 궤적을 얻기 위해 3차원 공간으로 변환될 필요가 있다. 간단히 말하자면, 도 6과 관련하여 나중에 상세하게 설명되는 3차원 궤적 구간 추출 프로세스는 구간이 의미있는 궤적의 일부를 나타내는 모든 점으로부터 다수의 궤적 구간을 추출하고자 시도한다. 궤적 구간 추출 프로세스는 각 구간에 대한 최장 가능 길이 및/또는 최소 수의 가능한 세그먼트를 얻고자 시도한다. 본 비디오 추적 기술은 이들 3차원 궤적 구간을 얻기 위해 스펙트럼 클러스터링 기술을 적용한다. 일단 이들 궤적 구간이 추출되면, 프로세스(300)는 완료된다. 이들 두 개의 블록(302 및 304)은 이제 더욱 상세하게 설명될 것이다.

도 4는 도 3에 도시된 프로세스(300)의 블록(302)에서 사용하기 적합한 2차원 추출 프로세스(400)의 흐름도를 도시한 것이다. 프로세스(400)는 독립적으로 각 프레임마다 실행된다. 2차원 추출 프로세스(400)는 블록(402)에서 시작되는데, 블록(402)에서, 프레임들은 더 적은 수의 샘플이 사용되도록 키프레임 내의 개체의 색 히스토그램을 사용하여 미리 필터링된다. 처리는 블록(404)으로 계속된다.

블록(404)에서, 본 추적 기술의 한 실시예는 각 프레임 내에서 시작 위치들의 집합을 얻는다. 시작 위치는 프레임 내의 위치를 균일하게 샘플링함으로써 결 정된다. 크기조정은 3-5개의 이산 레벨을 사용하여 실행될 수 있다. 더욱 세밀한 미세화(블록(406))에서, 공간 샘플링 간격은 대상 개체 크기에 기초하여 설정된다. 예를 들어, 공간 샘플링 간격은 대상 개체 크기의 절반 크기보다 약간 작게 설정될 수 있다. 처리는 블록(408)으로 계속된다.

블록(408)에서, 흔적 표면이 계산된다. 한 실시예에서, 로컬 흔적 ψ(y_i｜x_i,x₁,x_T)는 바타차리야 거리를 사용하여 정의된다. 그 다음, 흔적 표면은 다음 수학식을 사용하여 계산된다.

파라미터 σ² _h 는 분산 파라미터이다. 바타차리야 거리는 키프레임 I₁ 내의 h(x₁) 또는 키프레임 I_T 내의 h(x_T) 사이의 가장 가까운 색 히스토그램에 대한 상태 x_i의 색 히스토그램 h(x_i) 사이의 유사도를 측정한다. 처리는 블록(410)으로 계속된다.

블록(410)에서, 모드는 흔적 표면에 기초하여 식별된다. 개략적으로, 가장 가능성있는 위치(즉, 모드)는 흔적 표면상의 피크(즉, 로컬 최대)이다. 각각의 "가장 가능성있는" 2D 모드는 관측이 키프레임 내의 개체 템플릿과 유사한 상태 x'를 나타낸다. 바꿔 말하면, 로컬 흔적 ψ(y｜x',x₁,x_T)는 하이 상태이다. 이들 모드를 효율적으로 찾기 위해, 한 실시예(블록(412))는 점 샘플 분포의 가장 가까운 모드를 찾는 비모수(nonparametric) 통계 방법인 평균 이동 알고리즘을 이용한다. 개략적으로, 초기 위치가 주어지면, 평균 이동 알고리즘은 다음 수학식을 사용하여 커널 G에 의한 콘볼루션된 흔적 표면의 기울기 방향을 계산한다:

그러므로, 이미지 내의 초기 위치 p가 주어지면, 평균 이동은 상기 수학식에 따라 새로운 위치 p'=p+Δp를 계산하는데, G는 커널 함수이고, 개체의 직사각형 내의 픽셀들 q의 전체에 걸쳐 합이 실행된다. 평균 이동 벡터 Δp는 커널 G의 섀도우(shadow)로 계산된 콘볼루션 표면의 기울기 방향과 반대이다. 이 속성으로 인해, 평균 이동 알고리즘은 대상 개체의 로컬 모드를 결정하는 효율적인 반복법을 제공한다는 것이 판정되었다. 그러므로, 평균 이동 알고리즘은 각각의 시작 위치로부터 독립적으로 실행된다. 수렴 후, 평균 이동 알고리즘으로부터의 결과는 다수의 로컬 모드이다. 처리는 블록(408)으로 계속된다.

블록(414)에서, 희박한 로컬 2D 모드들 집합이 생성된다. 한 실시예(블록(416))에서, 대응하는 상태 모드 x'가 로컬 흔적 p(y_i｜x')≤5를 가지면 모드는 거부된다. 더욱 세밀한 미세화(블록(418))에서, 매우 가까운 모드들이 병합될 수 있다. 결과는 도 5에 도시된 바와 같은 각 프레임 내의 희박한 로컬 모드들 집합이다.

이제, 도 5를 참조하면, 도면들 세트가 도시되어 있다. 윗줄은 비디오 시퀀스로부터의 단순화된 프레임(예를 들어, 프레임(502, 504, 506))를 보여주고, 아랫줄은 앞의 도 4에서 설명된 2차원 추출 프로세스로부터의 결과(예를 들어, 희박한 로컬 2D 모드들 집합(512, 514, 516))를 보여준다. 단순화된 프레임은 대상 개체와 동일한(예를 들어, 동일한 색, 동일한 크기) 다른 개체(508)와 관련하여 대상 개체(510)를 표시한다. 배경 상세가 단순화 프레임에서 제거되긴 했지만, 본 비디오 추적 기술은 그 처리 동안에 배경 상세를 고려한다. 개략적으로, 비디오 시퀀스는 각 프레임의 좌측에 있는 사람(도시 생략)이 잡고 있는 녹색 컵(510)을 나타내고 있다. 녹색 컵(510)은 대상 개체이고, 추적되고 있다. 각 프레임의 우측에 있는 다른 사람(도시 생략)은 동일한 컵(508)을 잡고 있다. 프레임(502)에서, 두 사람은 컵들이 닿아있고 동일한 높이에 있도록 그들의 컵을 잡고 있다. 프레임(504)에서, 우측의 사람은 컵(508)을 아래로 낮췄다. 프레임(506)에서, 우측의 사람은 컵(508)을 움직여서 컵(510)의 앞을 가로질러, 컵(510)의 하부 좌측 코너를 부분적으로 폐색했다. 본 추적 기술은 프레임(502, 504 및 506)의 각각에 대한 로컬 2D 모드들 집합(512, 514, 516)을 각각 결정했다. 로컬 2D 모드(512, 514 및 516) 내의 그룹(522, 524, 526)은 각각 이미지 내의 2개의 녹색 컵(컵(508 및 510))에 대응한다. 로컬 2D 모드(512, 514 및 516) 내의 그룹(532, 534, 536)은 각각 키프레임 내의 개체 템플릿(즉, 녹색 컵(510))과 유사한 색 통계를 갖는 대응하는 프레임 내의 배경 영역(도시 생략)에 대응한다.

그 다음, 각 프레임 내의 로컬 2D 모드 집합은 본 추적 기술의 한 실시예에 따라 더욱 추적하기 위해 사용되는 상태 공간을 나타낸다. 로컬 2D 모드 집합(512-516)으로 도시된 바와 같이, 상태 공간은 상당히 감소되었다. 이 상태 공간 감소는 추적을 위한 또 다른 분석이 더욱 효율적으로 실행될 수 있게 한다. 이와 달리, 그외 다른 추적 기술은 비선형 역학 및 비가우스 관측으로 인해 엄청난 수의 로컬 최소치를 갖는 전체 연속 상태 시퀀스 공간을 사용한다. 예를 들어, 기울기 기반의 기술은 종종 로컬 최소치로 고정된다. 이산 히든 마로코프 모델(hidden markov model: HDD) 표현을 사용하는 비터비 알고리즘을 사용하여 MAP 해를 계산하는 기술은 320 x 240 비디오가 주어지면 큰 양자화된 상태 공간을 다루어야 한다. 그러므로, 본 추적 기술에서의 2차원 추출 프로세스는 상태 공간을 상당히 감소시키는 효율적인 기술을 제공하여 더욱 효율적으로 추적 분석을 하게 한다.

도 6은 도 3에 도시된 프로세스(300)의 블록(304)에서 사용하기 적합한 예시적인 3차원 궤적 구간 추출 프로세스를 도시한 흐름도이다. 개략적으로, 궤적 구간 분석 프로세스(600)는 스펙트럼 클러스터링을 사용한다. 프로세스(600)는 블록(602)에서 시작하는데, 블록(602)에서, 도 4에 도시된 2차원 추출 프로세스 동안에 결정된 2차원 모드 점들이 3차원 부피로 변환된다. 대상 개체의 참 궤적을 얻기 위해, 특히 대상 개체가 곡선 궤적을 따르는 경우에, 점들은 3차원 부피로 변환된다. 각각의 2D 모드에 대해, 3D 비디오 부피 내의 3D 점 m_n=[p_n,t_n]이 얻어지는데, p_n 및 t_n은 각각 공간 위치 및 시간 위치(프레임 번호)이다. 처리는 블록(604) 으로 계속된다.

블록(604)에서, R³ 내의 점들의 집합 M={m_n}^N _n ₌₁이 주어지면, 유사성 행렬(affinity matrix)이 구성되는데, R³은 3D 유클리드 공간이다. 한 실시예에서, 기본적인 유사성 행렬 A∈R^N ^×N은 다음과 같이 정의된다:

여기에서, 크기조정 파라미터 σ_p 및 σ _l 은 유사성 행렬 A_ij가 각각 공간 및 시간의 2개의 점들 m_i 및 m_j 사이의 거리에 따라 얼마나 빨리 벗어날지 제어한다. 본 추적 기술의 다른 실시예에서, 더욱 정교하지만 비싼 유사성 행렬 A_ij'는 더욱 압축된 궤적 구간을 조성하기 위해 사용될 수 있다. 이 유사성 행렬 A_ij'는 다음과 같이 정의될 수 있다:

마지막 항은 2개의 모드(m_i, m_j)의 겉모양(예를 들어, 색 히스토그램) 사이의 유사도를 고려한다. 변수 α는 가중 계수이다. 적합한 가중 계수는 0.5의 값일 수 있다. 처리는 블록(606)으로 계속된다.

블록(606)에서, 3D 점들은 클러스터들로 분할된다. 다양한 스펙트럼 클러스터링 기술은 3D 점들을 클러스터들로 분할하기 위해 사용될 수 있다. 이들 다양한 스펙트럼 클러스터링 기술은 약간 상이한 방식으로 고유벡터를 각각 분석한다. 본 비디오 추적 기술의 한 실시예에서, K-클래스 클러스터링을 위해 동시에 K개의 고유벡터를 사용하는 Ng의 알고리즘이 사용된다. 이 기술에서, 행렬 L=D^-1/2AD^-1/2가 구성되는데, D는 대각 행렬

이다. 가장 큰 고유벡터 L에 기초하여, 행렬

이 계산되는데, e_k는 행렬 L의 정규화된 K개의 가장 큰 고유벡터들의 집합이다. 이때, 행렬 E의 각각의 행은 R^N 내의 점으로서 처리된다. 그 다음, 종래의 K-평균 알고리즘은 점들을 K개의 클러스터로 클러스터링한다. 행렬 E의 행 i가 클러스터 k에 할당되면, 원래의 점이 클러스터 k에 할당된다. 처리는 블록(608)으로 계속된다.

블록(608)에서, 궤적 구간은 클러스터에 기초하여 얻어진다. 예를 들어, 클러스터 k 내의 모든 3D 점은 궤적 구간 Tr_k로서 처리된다. 이것은 K개의 궤적 구간 Tr={Tr₁,...,Tr_k}를 얻기 위해 모든 클러스터에 대해 행해진다. 본 비디오 추적 기술을 위해 설명된 스펙트럼 클러스터링을 사용하여, 다수의 "의미있는" 궤적 구간이 생성된다. 그러므로, 3D 궤적 추출 프로세스는 2D 로컬 모드 M에 기초하여 다수의 3D 개체 궤적 Tr_k를 성공적으로 추출한다. 각각의 개체 궤적은 3D 부피 내의 추적된 개체의 가능한 구간을 나타낸다.

다른 클러스터링 기술과 비교하면, 스펙트럼 클러스터링의 이 실시예는 행렬 L의 K개의 가장 큰 고유벡터에 의해 결정된 K 차원 공간 내에 단위 구 표면상의 3D 데이터 점들을 끼워넣는다. 이것은 원래의 3D 공간 내의 곡선 궤적들 또는 집합체들이 분리될 수 있게 하여, 더욱 의미있는 궤적 구간들이 생기게 한다. 이와 달리, 표준 k-평균 클러스터링을 사용하여 결정된 모든 클러스터는 볼록 영역일 필요가 있다. 그러므로, 궤적이 매우 구부러지고 및/또는 궤적의 어떤 분할부분이 볼록 영역이 아니면 "참" 궤적은 얻어질 수 없다.

일단 궤적 구간이 추출되었으면, 비디오 시퀀스의 부분(들) 동안에 대상 개체가 폐색되어 있을 수 있는 가능성을 결정하기 위해 분석이 실행된다. 도 2에 블록(208)으로서 도시된 이 분석은 이제 도 7과 관련하여 더욱 상세하게 설명된다. 대상 개체의 폐색이 없으면, 추출된 궤적 구간은 궤적 최적화를 위한 상태 공간 샘플링을 결정하기 위해 사용될 수 있다. 그러나, 통상적으로, 입력 비디오의 어떤 부분 동안에 대상 개체의 부분적인 또는 완전한 폐색이 있을 것이고, 처리는 폐색 추론으로 진행된다.

도 7은 도 2의 비디오 추적 프로세스에서 사용하기 적합한 예시적인 폐색 분석 프로세스를 도시한 흐름도이다. 입력 비디오에서 발생하는 부분적인 또는 완전한 폐색이 이미 추출된 구간 내에 포함되지 않기 때문에, 추가 폐색 궤적 구간이 얻어질 필요가 있다. 이때, 이들 폐색 궤적 구간은 폐색 단계 동안의 상태에 대응할 것이다. 폐색 분석은 다수의 비디오 시퀀스에 대한 궤적 구간을 분석하는 동안 에 인식된 몇몇 관측에 기초한다. 이들 관측은 폐색 분석을 위한 양방향, 트리-성장 알고리즘으로 이끌었다. 폐색 분석을 설명하기 전에, 그 폐색 분석이 기초로 하고 있는 관측이 먼저 설명된다. 폐색 구간은 개체 궤적 구간들 사이에서 추론되어 샘플링된다. 키프레임(들) 내의 개체 템플릿(들)을 포함하는 궤적 구간은 "참" 개체 궤적 내에 있다. 개체 템플릿을 포함하는 구간에 평행한 임의의 궤적 구간은 제외되어야 한다. 2개의 구간들 사이의 최단 거리 및 중첩 시간이 소정의 실험 임계치보다 크지 않으면, 2개의 구간은 평행한 것으로 고려될 수 있다. 시간 축을 따라 2개의 중첩하는 궤적 구간들 사이에는 폐색 구간이 없다. 각 폐색 구간에 관한 소정의 속도 및 시간 제한이 있다.

이들 관측에 기초하여, 폐색 분석을 위한 본 양방향의 트리-성장 프로세스는 공식화되었다. 도 7은 도 2에 도시된 비디오 추적 프로세스(200)의 블록(208)에서 사용하기 적합한 예시적인 폐색 분석 프로세스를 도시한 흐름도이다. 프로세스(700)는 블록(702)에서 시작되는데, 블록(702)에서, 트리가 구성된다. 프로세스(700)의 한 실시예에서, 프로세스(700)는 대응하는 상태에서의 개체 템플릿으로부터 얻은 2개의 상태들 중의 한 상태(예를 들어, 초기 상태 또는 최종 상태)로부터 성장하는 하나의 트리를 사용하여 실행될 수 있다. 다른 실시예에서, 프로세스(700)는 다수의 트리를 사용하여 실행될 수 있다. 예를 들어, 2개의 트리가 구성되면, 하나의 트리는 초기 상태로부터 성장하고, 다른 트리는 최종 상태로부터 성장한다. 이때, 트리들은 대상 개체를 위한 완전한 궤적을 형성하기 위해 만날 것이다. 다음 설명은 2개의 트리를 사용하는 프로세스(700)를 기술한다. 설명되 는 바와 같이, 이 실시예에서, 2개의 트리로부터의 정보는 완전한 궤적을 위한 더 양호한 결정을 얻기 위해 공유될 수 있다. 그 다음, 블록(702)에서, 2개의 트리 T_A 및 T_B가 구성된다. 2개의 트리는 빈 루트 노드를 갖는다. 개략적으로, 트리들은 이전에 식별된 궤적 구간에 기초하여 폐색 구간을 결정하기 위해 사용된다. 그 다음, 폐색 구간은 분리된 궤적 구간 쌍들을 연결한다. 이것은 아래에 설명되는 바와 같이, 트리로부터 다수의 개체 궤적을 제외하고, 다수의 폐색 궤적을 트리에 추가함으로써 달성된다. 처리는 블록(704)으로 계속된다.

블록(704)에서, 키프레임 내의 개체 템플릿을 포함하는 궤적 구간(들)이 위치한다. 다수의 트리 실시예에서, 2개의 그러한 궤적 구간이 위치할 수 있고, 궤적 구간들 중의 하나는 활성 노드로서 각 트리 T_A 및 T_B에 추가된다. 처리는 블록(706)으로 계속된다.

블록(706)에서, 나머지 궤적 구간은 활성 후보 목록으로 분류된다. 개략적으로, 활성 후보 목록 내의 구간들은 이때 폐색 구간을 결정하기 위해 제외되거나 사용된다. 처리는 블록(708)으로 계속된다.

블록(708)에서, 활성 노드와 평행한 활성 후보 목록 내의 궤적 구간들은 활성 후보 목록에서 제거된다. 2개의 구간은 그들 사이의 중첩 시간 및 최단 거리가 소정의 실험 임계치보다 크지 않으면 평행하다. 한 예시적인 구현예에서, 시간 임계치는 30 프레임이고, 거리 임계치는 50 픽셀이다. 처리는 블록(710)으로 계속된다.

블록(710)에서, 양방향 트리-성장 프로세스가 실행된다. 개략적으로, 도 8과 관련하여 나중에 설명되는 양방향 트리-성장 프로세스는 트리(들) 내에 활성 리프(leaf)-노드들이 하나도 없을 때까지 한 번에 한 단계씩 트리(들)을 성장시킨다. 트리-성장 프로세스는 가능한 폐색 구간을 결정한다. 일단 블록(710)이 완료되면, 폐색 분석 프로세스(700)도 완료된다.

도 8은 도 7에 도시된 폐색 분석 프로세스에서 사용하기 적합한 예시적인 양방향 트리-성장 프로세스(800)를 도시한 흐름도이다. 프로세스(800)는 자식 노드가 없는 각각의 활성 리프 노드에서 실행된다. 프로세스(800)는 각 트리마다 실행될 수 있다. 처리는 블록(802)에서 시작된다.

블록(802)에서, 활성 후보 목록으로부터의 궤적 구간은 현재의 활성 노드(즉, 이전 활성 노드의 활성 리프 노드)로서 선택된다. 선택된 활성 리프 노드는 이때 자식 노드를 갖지 않는다. 처리는 블록(804)으로 계속된다.

블록(804)에서, 현재의 활성 노드에 대한 Q-최상 폐색 구간이 결정된다. 순방향 검색은 시간 축을 따라 다른 궤적 구간과 겹치는 궤적 구간 Tr*을 식별하기 위해 활성 후보 목록에서 실행될 수 있다. 그 다음, Q-최상 폐색 구간은 활성 리프 노드의 궤적 구간 Tr^a과 이들 식별된 궤적 구간의 각 구간 Tr* 사이에서 생성될 수 있다. 한 실시예에서, Q-최상 폐색 구간은 L_O + γS_O에 기초하여 결정되는데, γ=10은 가중 계수이다. L_O 및 S_O는 2개의 연결된 궤적 구간들 사이의 가정된 B-스 플라인(spline)의 길이(픽셀) 및 최대 속도(픽셀×프레임^-1)이다. 개략적으로, B-스플라인은 시간적으로 2개의 분리된 궤적 T_r1 및 T_r2와 관련하여 손실 폐색 구간 Ο를 생성하기 위해 사용된다. T_r1 및 T_r2 내의 모든 점 {m_j=[p_j,t_j]}^N' _j ₌₁이 주어지면, B-스플라인이 맞춰지는데, B-스플라인

은 다음과 같은 가중된 최소 제곱을 사용한다:

여기에서, s_j'=(t_j-t₁)/N'는 프레임 t_j 내의 B-스플라인의 시간적 파라미터로 나타낸 것이다. B-스플라인의 파라미터화가 근사치일지라도, 그것은 양호한 결과를 산출하는 것으로 알려졌다.

가중 계수 ω(m_j)는 다음과 같이 정의된다:

여기에서, t^e _A 및 t^s _B는 Tr₁ 내의 최종 프레임 번호 및 Tr₂ 내의 최초 프레임 번호이다. 크기조정 파라미터 σ_ω는 2.0으로 설정된다. 가중 함수를 사용하면, 더 큰 가중치가 t^end _A 및 t^start _B 근처의 점에 주어질 수 있다. 마지막으로, Tr₁과 Tr₂ 사이의 맞춰진 B-스플라인 곡선은 폐색 구간 Ο로서 샘플링된다. 처리는 블록(806)으로 계속된다.

판정 블록(806)에서, Q-최상 폐색 구간들 중의 어느 한 구간이 다른 끝에 도달하는 지에 관해 판정이 이루어진다. 바꿔 말하면, 폐색 구간들 중의 한 구간이 다른 트리 내의 현재의 활성 노드로서 설정된 궤적 구간과 마주치는 지의 여부가 판정된다. 다른 트리 내의 현재의 활성 노드는 개체 템플릿을 포함하는 궤적 구간, 또는 다른 트리의 처리 동안에 활성 노드로서 설정된 다른 궤적 구간들 중의 한 구간일 수 있다. Q-최상 폐색 구간들 중의 한 구간이 다른 끝에 도달하면, 처리는 블록(814)으로 계속된다. 그렇지 않으면, 처리는 판정 블록(808)으로 계속된다.

판정 블록(808)에서, Q-최상 폐색 구간들 중의 한 구간이 유력한 폐색 구간인 지에 관해 판정이 이루어진다. 이 선택적인 판정은 궤적 구간들 중의 한 구간이 다른 궤적 구간에 대한 값보다 상당히 작은 L_O + γS_O에 대한 값을 갖는 지의 여부에 기초한다. 유력한 폐색 구간이 있으면, 처리는 블록(810)으로 계속된다. 그렇지 않으면, 처리는 블록(812)으로 계속된다.

블록(810)에서, 유력한 Q-최상 폐색 구간은 자식 노드로서 추가되고, 현재의 활성 노드로서 설정된다. 이전의 활성 노드는 이제 자식 노드를 갖기 때문에 비활성으로 설정된다. 그 다음, 처리는 이 현재의 활성 노드를 갖고 블록(804)으로 계속된다.

블록(812)에서, 유력한 Q-최상 폐색 구간이 없으면, Q-최상 폐색 구간의 각각은 활성 후보 목록에 추가된다. 그렇게 함으로써, 다수의 폐색 구간은 하나가 궤적 구간과 연결될 때까지 연결될 수 있다. 그 다음, 처리는 블록(802)으로 다시 돌아가서, 활성 후보 목록으로부터 한 "구간"(예를 들어, 폐색 구간 또는 궤적 구간)을 선택하고, 앞에서 설명된 바와 같이 진행된다.

블록(814)에서, Q-최상 폐색 구간들 중의 하나가 다른 끝에 도달하면, 폐색 구간은 트리 내의 다른 끝에 추가된다. 2개의 트리를 갖는 실시예에서, 폐색 구간은 2개의 트리에 추가되고, 비활성으로 설정된다. 이때, 폐색 구간은 2개의 트리들 사이의 브리지(bridge)이다. 처리는 블록(816)으로 계속된다.

블록(816)에서, 시간 축을 따른 불연속성은 트리 내의 B-스플라인 보간을 사용하여 연결된다. 그 결과는 궤적 구간과 폐색 구간을 포함하는 초기 상태에서 최종 상태까지의 가능한 궤적 경로이다. 그 다음, 처리는 완료된다.

프로세스(800)는 어떤 자식도 갖지 않는 각 자식 노드에 대해 실행된다. 일단 자식 노드가 자식(예를 들어, 최소한 하나의 Q-최상 폐색 구간)을 가지면, 그 노드에 대한 처리가 완료된다. 초기 상태를 최종 상태에 연결하는 식별된 트리 또는 궤적 내에 더 이상의 어떤 활성 노드도 없으면, 프로세스(800)는 완료된다. 궤 적 구간 분석 프로세스(300) 동안에, 가장 긴 가능한 궤적 구간이 얻어졌기 때문에, 궤적 구간이 폐색 구간과 연결된다는 것을 알 수 있을 것이다. 그러므로, 통상적으로, 궤적 구간은 그외 다른 궤적 구간과 연결되지 않는다.

도 9는 도 7에 도시된 폐색 분석 프로세스 동안에 생성된 폐색 궤적 구간을 도시한 그래픽이다. 도시된 바와 같이, 2개의 궤적 구간 Tr₁ 및 Tr₂가 있다. 점 m_j는 2D 로컬 모드이고, Tr₁ 및 Tr₂는 3D 비디오 부피 내의 3D 궤적 구간이다. Ο는 궤적 구간 Tr₁과 Tr₂ 사이의 추론된 폐색 궤적 구간이다.

개체 궤적 및 폐색 궤적의 집합을 얻은 후, 2개의 키프레임들 사이의 단일 최적 궤적은 궤적 최적화(도 2의 블록(210))를 사용하는 본 비디오 추적 기술에 따라 이들 궤적을 샘플링함으로써 계산된다. 본 비디오 추적 기술은 더욱 정확한 추적 결과를 얻기 위해 궤적 최적화를 실행한다. 궤적 최적화는 거친 최적화에서 미세한 최적화로의 방식으로 상기 수학식(3)을 실행한다. 한 실시예에서, 2개의 레벨은 거친 최적화에서 미세한 최적화로의 방식을 위해 선택될 수 있다. 샘플이 공간적으로 다운-샘플링되는 제1 레벨(즉, 거친 레벨)에서, 계산된 구간들 주위의 M개(예를 들어, 500-1000)의 상태는 각 프레임 내에서 3개의 이산 크기조정 계수를 사용하여 균일하게 샘플링될 수 있다. 이들 상태는 5개 픽셀의 반경과 같은 구간으로부터의 작은 반경 내에서 선택될 수 있다. 최적 궤적은 종래의 이산 HMM을 사용하여 거친 레벨에서 계산된다. 이 거친 레벨에서 계산된 최적 궤적을 사용하여, 다음 레벨(즉, 미세한 레벨)은 미세한 최적 궤적을 결정하기 위해 사용된다. 다음 레벨은 각 프레임 내에서 5개의 이산 크기조정 계수를 사용하여 최적 해 주위의 M개의 상태를 샘플링할 수 있다. 미세한 레벨이 각 프레임 내에서 5개의 이산 크기조정 계수를 사용할지라도, 상태들의 수가 극적으로 감소되었기 때문에 계산은 지장을 줄만큼은 아니다. 예를 들어, 10초 비디오 동안에, 궤적 최적화는 대략 8초 걸린다.

도 10-13은 본 추적 기술에 따른 처리의 여러 단계에서의 결과를 도시한 그래픽(1000, 1100, 1200 및 1300) 세트이다. 그래픽(1000, 1100, 1200 및 1300)을 생기게 한 비디오 시퀀스(1400)로부터의 단순화된 프레임은 도 14에 도시된다. 시작 프레임(#000)은 대상 개체(1404)에 대한 초기 상태(1402)를 지정하고, 끝 프레임(#179)은 대상 개체에 대한 최종 상태(1406)를 지정한다. 개략적으로, 비디오 시퀀스(1400)는 2개의 동일한 컵의 움직임을 나타내고 있다. 단순화된 프레임은 배경을 나타내지 않고, 오히려 서로 관련 있는 동일한 컵들의 움직임에 중점을 둔다. 프레임 #000에서, 개인(도시 생략)은 컵(1404)이 컵(1414)보다 대략 컵 길이의 절반만큼 높게 있도록 2개의 동일한 컵(1404 및 1414)을 잡고 있다. 컵(1414)은 하부 우측 코너에서 부분적으로 폐색되고, 비디오 시퀀스(1400) 내의 모든 프레임에 대해 대략 동일한 위치에 그대로 있다. 이와 달리, 컵(1404)은 각 프레임에서 움직인다. 프레임 내에서의 컵(1404)의 움직임이 이제 설명된다. 각 프레임은 본 추적 기술에 따라 결정된 대상 개체의 예측 위치를 직사각형 박스(1410)로 나타낸다는 것을 알 수 있을 것이다. 각 프레임은 또한 프레임 내의 대상 개체의 실제 위치를 나타내는 어두운 영역(1412)도 도시하고 있다. 대상 개체의 폐색으로 인 해, 어두운 영역(1412)의 크기는 대상 개체의 폐색의 정도에 따라 변한다.

프레임 #016에서, 컵(1404)은 수직으로 아래로 이동되어, 컵(1414)보다 아래에 있다. 프레임 #027에서, 컵(1404)은 우측으로 이동되어, 컵(1414)의 아래에 우측에 있다. 프레임 #028-035 동안, 컵(1404)은 컵(1414)을 잡고 있는 사람의 팔 아래에서 이동되고, 컵(1414)의 우측에 컵(1414)보다 약간 높은 위치에 있게 된다. 컵(1404)이 사람의 왼팔 뒤에 있기 때문에, 프레임 #035에 도시된 바와 같이, 상당한 폐색이 있다. 프레임 #052에서, 컵(1404)은 위로 이동되어, 대략 컵(1414)의 바로 위에 있게 된다. 프레임 #065에서, 컵(1404)은 컵(1414)과 동일한 높이에서, 약간의 폐색이 있게 컵(1414)의 좌측에 놓인다. 프레임 #086에서, 컵(1404)은 아래로 내려가서 프레임 내의 약간 우측으로 이동된다. 프레임 #098에서, 컵(1404)은 컵(1414)의 아래에 놓이고, 컵(1404) 앞에 있는 사람의 손(도시 생략)으로 인해 부분적으로 폐색된다. 프레임 #105에서, 컵(1404)은 컵(1414)을 잡고 있는 사람의 왼팔 뒤로 이동된다. 그러므로, 컵(1404)은 거의 완전히 폐색된다. 그러나, 흥미롭게, 예측 위치(1410)는 컵(1404)이 위치할 위치를 정확하게 예측한다. 프레임 #132에서, 컵(1404)은 약간 위로 올려져서, 약간의 부분이 사람의 왼팔(도시 생략) 위로 보일 수 있다. 프레임 #147에서, 컵(1404)은 프레임의 위로 이동되어, 컵(1404)을 잡고 있는 사람의 손가락에 의해 거의 완전히 폐색된다. 그러므로, 비디오 시퀀스(1400)에 의해 도시된 바와 같이, 본 추적 기술은 대상 개체가 완전히 폐색된 경우라도 대상 개체의 위치를 정확하게 예측했다. 처리 중의 여러 단계에서의 본 추적 기술의 결과는 도 10에 도시된다.

그래픽(1000 및 1100)은 2D 모드의 2개의 뷰를 3D로 나타내고 있는데, 2D 모드 점들은 본 추적 기술의 2차원 추출 프로세스 동안에 생성되었다. 수직 축은 시퀀스 내의 프레임 번호이다. 다른 축은 각 프레임 내의 대상 개체의 x,y 위치이다. 중심에서 아래로 상당히 곧은 직선은 비디오 시퀀스(1400)에서의 동일한 컵(1414)에 대응한다. 그래픽(1200)은 스펙트럼 클러스터링으로 3차원 궤적 구간 분석을 실행한 후에 얻은 의미있는 궤적 구간을 도시하고 있다. 대상 개체가 비디오 시퀀스의 부분들 동안에 완전히 폐색되었기 때문에, 초기 상태에서 최종 상태까지의 하나의 궤적이 없다. 그래픽(1300)은 폐색 분석이 실행된 후의 대상 개체에 대한 최적 궤적을 도시하고 있다. 점선 직사각형 내의 원은 채워진 폐색 구간들을 나타낸다.

그러므로, 설명된 바와 같이, 본 추적 기술은 부분적인 또는 완전한 폐색을 성공적으로 다룬다. 추적 기술은 3D 비디오 부피 내의 가능한 개체 궤적들 중에서 적은 수의 궤적 구간들을 얻기 위해 혁신적인 궤적 구간 표현을 이용한다. 궤적 구간은 공간 클러스터링 방법을 사용하여 입력 비디오로부터 추출된다. 이 표현으로, MAP 해는 궤적 구간을 사용하는 거친 최적화에서 미세한 최적화로의 방식으로 이산 HMM을 이용함으로써 얻어진다. 또한, 본 추적 기술은 대상 개체의 가능한 폐색 궤적 구간을 확실하게 추론하기 위해 폐색 분석 프로세스를 이용한다.

본 추적 기술을 위해 사용될 수 있는 통상적인 파라미터 설정은 이제 설명된다. 클러스터 수 K의 선택은 클러스터링에 있어서 공공연한 문제이다. 본 추적 기술의 폐색 분석에는 그룹화 메커니즘이 있기 때문에, "최상의" 것보다 약간 큰 K 가 받아들여질 수 있다는 것이 판정되었다. 그러므로, 클러스터링 수 K는 K=7 또는 K=10이 되도록 설정될 수 있다. 2D 모드 추출에서, G는 표준 편차가 키프레임 내의 대상 개체 크기의 약 1/6 크기일 수 있는 가우스 커널이다. 3D 궤적 추출에서, 크기조정 파라미터 σ_p 및 σ_l은 각각 10 및 20으로 설정될 수 있다. 궤적 최적화에서, 분산 파라미터 σ_h 및 σ_p는 각각 10 및 1로 설정될 수 있다.

앞에서 설명된 바와 같이, 궤적 분석을 사용하는 본 양방향 추적은 베이지안 프레임워크에서 대상 개체의 전체 상태 시퀀스의 MAP 해를 입력하고 출력할 때 2개의 키프레임 내의 정보와 전체 비디오 시퀀스를 사용한다. 양방향 추적은 입력 비디오로부터 개체 추적을 위한 압축된 표현인 다수의 3D 궤적을 추출하는 궤적 분석에 기초한다. 그 다음, 폐색 궤적은 궤적 레벨에서 추론된다. 마지막으로, MAP 해는 거친 최적화에서 미세한 최적화로의 방식으로 궤적 최적에 의해 얻어진다. 실험 결과는 갑작스런 움직임, 모호성, 단시간 및 장시간 폐색과 관련하여 본 기술의 견고성을 보여준다.

본 양방향 추적 기술은 다수의 오프라인 애플리케이션에서 적용될 수 있다. 그것이 적용될 수 있는 한 가지 새로운 영역은 온라인 광고이다. 이 애플리케이션의 경우에, 움직이는 대상은 관련 웹사이트로 자동으로 연결하도록 "클릭"될 수 있다. 본 양방향 추적 기술이 대상 개체를 정확하게 추적하기 때문에, 움직이는 대상 개체의 위치는 그 자체의 사용을 위해 잠재적인 애플리케이션에 제공될 수 있다. 이것 및 다수의 다른 애플리케이션은 본 추적 기술을 위해 고려된다.

예시적인 실시예 및 애플리케이션이 도시되고 설명되었지만, 본 발명은 앞에서 설명된 그대로의 구성 및 자원에 제한되지 않는다는 것을 이해할 것이다. 본 분야에 숙련된 기술자들에게 명백한 변경, 변화 및 변형은 청구된 발명의 범위를 벗어나지 않고서 여기에서 개시된 본 발명의 방법 및 시스템의 배열, 동작 및 상세에서 이루어질 수 있다.

Claims

방법을 실행하는 컴퓨터 실행가능 명령어들을 저장하는 최소한 하나의 컴퓨터 판독가능 매체에 있어서, 상기 방법은,

비디오 시퀀스(1400)의 2개의 키프레임들(#000 및 #179)을 결정하는 단계;

상기 2개의 키프레임들 중의 한 개의 키프레임 내에서의 대상 개체(target object)(1404)의 제1 상태(1402) 및 다른 한 개의 키프레임 내에서의 대상 개체의 제2 상태(1406)를 얻는 단계(204); 및

상기 제1 및 제2 상태에 기초하여 상기 한 개의 키프레임에서 상기 다른 한 개의 키프레임까지 프레임들 내의 대상 개체를 추적하는 단계(200)

를 포함하는 컴퓨터 판독가능 매체.
제1항에 있어서, 상기 대상 개체를 추적하는 단계는,

상기 대상 개체에 대한 다수의 로컬 2차원(2D) 모드들을 얻기 위해 상기 프레임들 상에서 2차원 추출을 실행하는 단계;

상기 대상 개체에 대한 다수의 3차원 궤적 구간들(trajectory segments)을 얻기 위해 희박한(sparse) 로컬 2D 모드들 집합에 기초하여 3차원 궤적 구간 추출을 실행하는 단계;

상기 다수의 궤적 구간들의 2개의 분리된 궤적 구간들을 연결하는 최소한 하나의 폐색(occlusion) 구간을 얻기 위해 상기 다수의 궤적 구간들에 기초하여 폐색 분석을 실행하는 단계; 및

상기 궤적 구간들 및 상기 폐색 구간에 기초하여 상기 대상 개체의 최적 궤적을 얻기 위해 거친 최적화에서 미세한 최적화로의 방식으로 궤적 최적화를 실행하는 단계

를 포함하는 컴퓨터 판독가능 매체.
제2항에 있어서, 상기 2차원 추출을 실행하는 단계는,

흔적 표면(evidence surface)을 계산하는 단계; 및

상기 대상 개체에 대한 로컬 2D 모드들을 생기게 하는 상기 계산된 흔적 표면의 기울기 방향을 계산하기 위해 평균 이동 알고리즘(mean shift algorithm)을 적용하는 단계

를 포함하는 컴퓨터 판독가능 매체.
제3항에 있어서, 상기 3차원 궤적 구간 추출은,

상기 2차원 모드들을 3차원 부피 내의 3차원 점들로 변환하는 단계;

K-클래스 클러스터링을 위해 동시에 K개의 고유벡터들을 사용하는 스펙트럼 클러스터링 기술을 사용하여 상기 3차원 점들을 클러스터들로 분할하는 단계; 및

상기 클러스터들에 기초하여 의미있는 궤적 구간들을 얻는 단계

를 포함하는 컴퓨터 판독가능 매체.
컴퓨터 구현 방법에 있어서,

비디오 시퀀스(1400) 내에서 시작 프레임(#000) 및 끝 프레임(#179)을 지정하는 단계(202);

상기 시작 프레임 내에서의 대상 개체(1404)의 초기 상태(1402) 및 상기 끝 프레임 내에서의 상기 대상 개체의 최종 상태(1406)를 얻는 단계(204);

상기 초기 상태 및 최종 상태에 기초하여 프레임들 내의 대상 개체에 대한 희박한 로컬 2차원 모드들 집합(512)을 얻기 위해 시작 프레임에서 시작하여 끝 프레임에서 끝나는 상기 프레임들 상에서의 2차원 추출을 실행하는 단계(302); 및

상기 대상 개체에 대한 다수의 3차원 궤적 구간들(Tr₁)을 얻기 위해 상기 희박한 로컬 2차원(2D) 모드들 집합에 기초하여 3차원 궤적 구간 추출을 실행하는 단계(304)

를 포함하는 컴퓨터 구현 방법.
제5항에 있어서, 상기 2차원 추출을 실행하는 단계는,

흔적 표면을 계산하는 단계; 및

상기 대상 개체에 대한 로컬 2D 모드들을 생기게 하는 상기 계산된 흔적 표면의 기울기 방향을 계산하기 위해 평균 이동 알고리즘을 적용하는 단계

를 포함하는 컴퓨터 구현 방법.
제6항에 있어서, 상기 평균 이동 알고리즘을 적용하기 전에 상기 대상 개체의 색 히스토그램(color histogram)을 사용하여 상기 프레임들을 미리 필터링하는 단계를 더 포함하는 컴퓨터 구현 방법.
제6항에 있어서, 상기 프레임 내의 위치들을 균일하게 샘플링함으로써 다수의 시작 위치를 결정하고, 각각의 시작 위치로부터 독립적으로 평균 이동 알고리즘을 실행하는 단계를 더 포함하는 컴퓨터 구현 방법.
제8항에 있어서, 상기 균일하게 샘플링하는 단계는 상기 대상 개체 크기의 절반 크기보다 약간 작게 공간 샘플링 간격을 설정하는 단계를 포함하는 컴퓨터 구현 방법.
제6항에 있어서, 대응하는 흔적이 미리 결정된 값보다 작으면 상기 로컬 2D 모드들 중의 하나를 거부하는 단계를 더 포함하는 컴퓨터 구현 방법.
제6항에 있어서, 2개의 로컬 2D 모드들이 서로의 소정 거리 내에 있을 때 로컬 2D 모드들을 하나의 로컬 2D 모드로 합치는 단계를 더 포함하는 컴퓨터 구현 방법.
제5항에 있어서, 상기 3차원 궤적 구간 추출을 실행하는 단계는,

상기 2차원 모드들을 3차원 부피 내의 3차원 점들로 변환하는 단계;

K-클래스 클러스터링을 위해 동시에 K개의 고유벡터들을 사용하는 스펙트럼 클러스터링 기술을 사용하여 상기 3차원 점들을 클러스터들로 분할하는 단계; 및

상기 클러스터들에 기초하여 의미있는 궤적 구간들을 얻는 단계

를 포함하는 컴퓨터 구현 방법.
제12항에 있어서, 상기 다수의 궤적 구간들의 2개의 분리된 궤적 구간들을 연결하는 최소한 하나의 폐색 궤적 구간을 얻기 위해 상기 다수의 궤적 구간들에 기초하여 폐색 분석을 실행하는 단계를 더 포함하는 컴퓨터 구현 방법.
제13항에 있어서, 상기 폐색 분석을 실행하는 단계는,

a) 트리(tree)의 빈 루트 노드(empty root node)를 갖는 트리를 구성하는 단계;

b) 상기 키 프레임 내의 개체 템플릿을 포함하는 하나의 궤적을 활성 노드로서 상기 트리에 추가하는 단계;

c) 나머지 궤적들을 후보 목록에 추가하는 단계;

d) 상기 궤적들이 상기 활성 노드에 대응하는 궤적과 평행한지의 여부에 기초하여 상기 후보 목록 내의 궤적들을 제외하는 단계;

e) 상기 트리 내에 활성 노드가 있는 동안, 상기 궤적들 중의 하나를 현재의 활성 노드로서 상기 후보 목록에서 선택하는 단계;

f) 최소한 하나의 Q-최상 폐색 구간을 결정하는 단계;

g) 상기 Q-최상 구간이 원하는 궤적 구간에 도달하지 않으면 상기 최소한 하나의 Q-최상 폐색 구간을 상기 후보 목록에 추가하는 단계;

h) 상기 Q-최상 구간이 상기 원하는 궤적 구간에 도달할 때까지 상기 e-g 단계를 반복하는 단계; 및

i) 상기 대상 개체의 완전한 궤적을 만들기 위해 상기 궤적들과 상기 Q-최상 폐색 구간을 연결하는 단계

를 포함하는 컴퓨터 구현 방법.
제13항에 있어서, 상기 의미있는 궤적 구간들 및 상기 폐색 궤적 구간에 기초하여 상기 대상 개체의 최적 궤적을 얻기 위해 거친 최적화에서 미세한 최적화로의 방식으로 궤적 최적화를 실행하는 단계를 더 포함하는 컴퓨터 구현 방법.
제15항에 있어서, 상기 거친 방식으로 궤적 최적화를 실행하는 단계는 최적 궤적을 얻기 위해, 상기 프레임들을 공간적으로 다운-샘플링하고, 3개의 이산 크기조정 계수들을 사용하여 각 프레임 내의 궤적 구간들 주위의 위치들을 균일하게 샘플링하는 단계를 포함하는 컴퓨터 구현 방법.
제5항에 있어서, 상기 미세한 방식으로 궤적 최적화를 실행하는 단계는 최종 최적 궤적을 얻기 위해 각 프레임 내에서 5개의 이산 레벨의 크기조정 계수들을 사 용하여 상기 최적 궤적 주위의 위치들을 균일하게 샘플링하는 단계를 포함하는 컴퓨터 구현 방법.
컴퓨팅 장치에 있어서,

프로세서(102); 및

다수의 명령어(140)가 로드되는 메모리(104)

를 포함하고, 상기 다수의 명령어는 상기 프로세서에 의해 실행될 때 비디오 시퀀스(1400) 내에서 대상 개체(1404)를 추적하는 방법(200)을 실행하고, 상기 비디오 시퀀스는 몇 개의 짧은 시퀀스들로 분해되며, 상기 짧은 시퀀스들은 시작 프레임(#000) 및 끝 프레임(#179)을 갖는데,

상기 방법이,

a) 하나의 짧은 시퀀스의 각 프레임에 대해 로컬 2차원 모드들 집합(512)을 생성하는 단계(406) - 각각의 로컬 2D 모드는 상기 시작 프레임에서 식별된 대상 개체와 유사한 시각적 통계를 갖는 프레임 내의 위치(m₁)를 식별함-;

b) 상기 로컬 2차원 모드들 집합에 기초하여 상기 대상 개체에 대한 다수의 3차원 궤적 구간들(Tr₁ 및 Tr₂)을 얻는 단계(608);

c) 상기 다수의 3차원 궤적 구간들의 2개의 분리된 궤적 구간들((Tr₁ 및 Tr₂)을 연결하는 최소한 하나의 폐색 구간(Ο)을 얻는 단계(208); 및

d) 상기 다수의 3차원 궤적 구간들 및 상기 최소한 하나의 폐색 구간에 기초 하여 최적 궤적(1300)을 결정하는 단계(210)

를 포함하는 컴퓨팅 장치.
제18항에 있어서, 상기 다수의 3차원 궤적 구간들을 얻는 단계는 상기 로컬 2차원 모드들 집합을 3차원 부피 내의 3차원 점들로 변환하는 단계, 스펙트럼 클러스터링을 사용하여 상기 3차원 점들을 클러스터들로 분할하는 단계, 및 상기 클러스터들에 기초하여 3차원 궤적 구간들을 얻는 단계를 포함하는 컴퓨팅 장치.
제19항에 있어서, 상기 최소한 하나의 폐색 구간을 얻는 단계는 양방향 트리-성장 프로세스를 실행하는 단계를 포함하는 컴퓨팅 장치.