KR100901904B1

KR100901904B1 - 카메라 움직임 추정 방법 및 비디오 움직임 식별 장치

Info

Publication number: KR100901904B1
Application number: KR1020077009282A
Authority: KR
Inventors: 통 장; 용 왕; 다니엘 알 트레터
Original assignee: 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘.피.
Priority date: 2004-10-25
Filing date: 2005-10-25
Publication date: 2009-06-10
Also published as: KR20070068408A; US20060088191A1; JP2008518331A; EP1805716A1; CN101048799A; CN100538743C; WO2006047769A1; US7447337B2

Abstract

카메라 움직임 분석 및 이동 물체 분석을 위한 방법 및 통합 시스템과 샷 변경 없이도 비디오 및 비디오 세그먼트 내의 카메라 움직임 파라미터들로부터 주로 시멘틱을 추출하는 방법이 개시된다. 그러한 비디오의 전형적인 예는 디지털 카메라 및 세그먼트에 의해 혹은 전문가 비디오 혹은 필름의 클립에 의해 촬영된 홈 비디오이다. 추출된 시멘틱은 바로 다수의 비디오/이미지 식별 및 관리 애플리케이션, 가령 애노테이션, 브라우징, 편집, 프레임 향상, 키 프레임 추출, 파노라마 생성, 프린팅, 검색, 요약에서 사용될 수 있다. 물체의 종래 지식에 의존하지 않는 이동 물체의 검출 및 트랙킹을 위한 자동화 방법이 또한 개시된다. 이러한 방법들은 실시간으로 실행될 수 있다.

Description

카메라 움직임 추정 방법 및 비디오 움직임 식별 장치{VIDEO CONTENT UNDERSTANDING THROUGH REAL TIME VIDEO MOTION ANALYSIS}

본원 발명은 카메라 움직임 추정 방법 및 비디오 움직임 식별 장치에 관한 것이다.

카메라 움직임 분석 및 물체 움직임 분석을 포함한 비디오 움직임 분석은 비디오 컨텐츠를 식별하는 중요한 부분이며, 컨텐츠 식별은 퍼스널 컴퓨터(PC), 디지털 엔터테인먼트 시스템, 카메라 및 프린터를 포함한 다양한 멀티미디어 시스템에서의 브라우징, 검색, 편집, 프린팅 등에서 중요한 역할을 한다.

현재, 프린터는 문서 및 이미지와 같이, 평면(2차원) 매체 컨텐츠를 표현하는데 우수하지만, 비디오 프린팅은 여전히 노동 집약적인 문제를 가지는데 그 이유는 비디오가 3차원(3-D) 신호(가령, 2개의 공간 차수와 하나의 시간 차수)로서 대용량의 리던던시를 갖는 대량의 정보를 포함하여 페이퍼와 같은 정적 매체에 의해서는 용이하게 표현될 수 없기 때문이다.

비디오 프린팅을 위한 한 가지 방식은 비디오 클립으로부터 키 프레임(key frame)을 선택하여 선택된 프레임을 프린트하는 것이다. 불행히도, 키 프레임 추출 작업은 자동화하기에는 사소한 일이 아닌데, 그 이유는 키 프레임을 선택하여 의미를 극대화하는 것은 컴퓨터 시각의 곤란성과 인공 지능의 문제를 가지기 때문이다. 통상적으로 합리적인 개수의 키 프레임만을 프린트하는 것이 허용되기 때문에 그 솔루션에는 제약이 가해진다. 키 프레임은 컬러, 텍스쳐, 움직임 등과 같이, 저레벨 컨텐츠 특징을 분석함으로써 추출될 수가 있다.

움직임 분석과 컨텐츠 식별을 위한 기존의 접근법은 모든 타입의 비디오(가령, 홈 비디오 및 전문가 비디오, 쇼트 비디오 클립 및 롱 비디오 레코딩 등)에는 일반적으로 충분하지 못하거나, PC와 같은 공통의 처리 시스템과 카메라와 같은 내장 시스템에 대해서는 너무 느리다. 기존의 접근법은 전형적으로 특정의 태스크, 가령 (알고 있는) 개인 혹은 (소정의 자동차 모델을 갖는) 자동차의 이동을 추적하기 위해 설계되며 상응하는 간이화 및 제한된 응용성을 갖는다.

일 측면에서, 본 발명은 연속하는 이미지들의 쌍 간의 카메라 움직임을 추정하는 방법을 제공하며, 이 방법은 연속하는 이미지들의 쌍으로부터 움직임 벡터를 결정하는 단계와 그 움직임 벡터에 기반하여 카메라 움직임의 아핀 모델(affine model)을 추정하는 단계를 포함한다. 움직임 벡터 결정 단계는 연속하는 이미지들 쌍 중의 하나를 다수의 픽셀 블럭으로 분할하는 단계와, 그 이미지에서의 적어도 하나의 특징에 대응하는 블럭을 선택하는 단계와, 선택된 각각의 블럭에 대응하는 휘도값을 결정하는 단계와, 상기 휘도값에 기반하여 상기 선택된 블럭을 상기 연속하는 이미지들 쌍 중의 나머지 이미지 내의 픽셀 블럭과 정합시키는 단계와, 연속하는 이미지들 쌍의 정합된 블럭과 관련되는 움직임 벡터를 결정하는 단계를 포함한다. 추정된 아핀 모델은 카메라 움직임 파라미터의 세트를 결정한다.

본 발명의 다른 측면에서, 카메라 움직임 파라미터를 시멘틱 의미(semantic meanings)로 변환하는 방법을 제공하며, 이 방법은 카메라에 의해 포착되는 연속하는 이미지들의 쌍으로부터 움직임 벡터를 결정하는 단계와, 상기 움직임 벡터에 기반하여 아핀 모델을 추정함으로써 카메라 움직임 파라미터 세트를 결정하는 단계와, 카메라 움직임 파라미터 세트로부터 시멘틱 의미를 생성하는 단계를 포함한다. 시멘틱 의미는, 카메라 움직임 파라미터 세트를 다수의 크기 및 방향으로 양자화하고 그리고 실질적으로 동일한 크기 및 방향으로 양자화되는 연속하는 카메라 움직임 파라미터들의 세트를 식별하여 상기 양자화된 세트로부터 적어도 하나의 센텐스(sentence)를 생성함으로써 생성된다.

본 발명의 다른 측면에서, 카메라에 의해 포착되는 이미지들 내의 물체를 검출하는 방법이 제공되며, 이 방법은 연속하는 이미지들의 쌍으로부터 움직임 벡터를 결정하는 단계와, 상기 움직임 벡터에 기반하여 아핀 모델을 추정하는 단계와, 상기 움직임 벡터 및 아핀 모델 추정치로부터 상기 연속하는 이미지들의 쌍 내의 각각의 픽셀 블럭에 대한 잉여 오차를 계산하는 단계와, 상기 잉여 오차에 기반하여 물체를 검출하는 단계를 포함한다.

본 발명의 다른 측면에서, 비디오 움직임 식별 장치가 제공되는데, 이 장치는 연속하는 이미지들의 쌍 내의 픽셀 블럭으로부터 움직임 벡터를 생성하도록 광학 흐름 분석을 위한 휘도 이미지를 사용하는 광학 흐름 분석기 및 움직임 벡터에 기반하여 아핀 모델 추정치를 생성하는 아핀 모델 추정기를 포함한 카메라 움직임 추정기와, 상기 아핀 모델 추정치에 기반하여 블럭의 잉여 오차를 결정하며 상기 잉여 오차에 기반하여 영역 외의 블럭을 제거하며 잔여 블럭을 필터링하는 물체 검출기를 포함하되, 상기 물체 검출기는 물체의 사이즈 및 위치를 식별하는 경계 박스를 생성한다.

본 발명의 상세한 설명 내에 포함되며 그 일부를 형성하는 간단한 설명을 갖는 첨부 도면은 본 발명의 실시예를 도시하며 본 발명을 설명한다.

도 1은 움직임 추정을 위한 블럭 정합의 실시예를 나타낸다.

도 2는 3개의 스텝의 검색 알고리즘의 실시예를 나타낸다.

도 3은 카메라 움직임의 모델을 나타낸다.

도 4는 본 발명의 실시예에 따른 카메라 움직임을 추정하는 방법의 플로우챠트를 나타낸다.

도 5는 비디오 프레임 시퀀스에 대한 아핀 모델 파라미터를 나타낸다.

도 6(a), 6(b), 6(c)는 히스테리시스 임계치를 갖는 크기 레벨 및 방향으로 카메라 움직임 양자화를 나타낸다.

도 7은 센텐스 및 단락 생성의 실시예를 나타낸다.

도 8은 본 발명의 실시예에 따른 시멘틱 의미로 카메라 움직임 파라미터를 변환하는 방법의 플로우챠트를 나타낸다.

도 9는 물체를 검출하는 장치의 실시예의 블럭도를 나타낸다.

도 10(a)는 고속 플로딩 알고리즘(fast flooding algorithm)의 실시예를 나타낸다.

도 10(b)는 경계 박스를 나타낸다.

도 11은 본 발명의 실시예에 따른 물체 검출의 방법의 플로우챠트이다.

도 12는 마진 부분(marginal part) 및 중앙 부분으로 물체 영역을 분할한 것을 나타낸다.

도 13은 본 발명의 실시예에 따른 비디오 움직임 식별 장치의 블럭도를 나타낸다.

아래의 본 발명의 실시예는 첨부 도면을 참조한다. 상이한 도면에서의 동일한 참조 부호는 동일하거나 유사한 부분을 나타낸다. 아래의 상세한 설명은 본 발명을 제한하는 것이 아니다. 대신, 본 발명의 영역은 첨부되는 특허청구범위에 의해 제한된다.

카메라 움직임 분석 및 이동 물체 분석을 위한 통합 시스템과 비디오 및 샷 변경(shat change) 비디오 세그먼트 내의 카메라 움직임 파라미터로부터 주로 시멘틱을 추출하는 방법이 개시된다. 이러한 비디오의 전형적인 예는 디지털 카메라에 의해 촬영된 홈 비디오 및 전문가 비디오 혹은 필름의 세그먼트 혹은 클립이다. 추출된 시멘틱은 다양한 비디오/이미지 식별 및 관리 애플리케이션, 가령 주해(annotation), 브라우징, 편집, 프레임 향상, 키 프레임 추출, 파노라마 생성, 프린팅, 검색, 요약에 직접 사용될 수 있다. 또한 물체의 종래 지식에 의존하지 않는 이동 물체를 검출하기 위한 완전 자동화 방법이 또한 개시된다. 또한, 방법들이 실시간으로 추출될 수 있도록 처리 속도를 향상시키기 위한 수단들이 개시된다.

본 발명의 실시예에 따른 실시간 비디오 시멘틱 분석은 컴퓨터 시각과 통계적인 패턴 인식의 지식에 기반하여 비디오 컨텐츠를 식별하는 움직임 정보를 사용한다. 일반적으로, 한 분석 종류는 적어도 두개의 부분을 포함하는데, 그것은 글로벌/카메라 움직임 추정과, 선행 배경(foreground)/물체 움직임 분석을 포함한다. 카메라 움직임 추정은 광학 흐름 분석, 카메라 움직임 추정, 및 시멘틱 의미 추출을 포함하며, 시멘틱 의미 추출은 카메라 움직임 양자화, 센텐스 생성 및 단락 생성을 구현한다. 카메라 움직임 추정은 카메라 움직임의 아핀 모델 표현을 시멘틱 표현으로 변환한다. 물체 움직임 분석은 물체에 대한 종래의 지식없이도 물체의 검출 및 트랙킹을 포함한다. 고속의 강건한 구현을 위해, 카메라 움직임 추정은 가속화된 블럭 선택 및 블럭 정합을 포함할 수 있으며, 물체 트랙킹은 공간 정보 향상 컬러 히스토그램(spatial information enhanced color histogram)을 사용할 수도 있다.

따라서, 프레임 혹은 이미지들의 입력 시퀀스는 카메라 움직임 분석에 기반 하여 청크(chunks)로 효과적으로 분할되며, 이 청크들은 종래의 방식으로, 가령 0.1초에서 2초까지 인덱싱될 수 있으며, 카메라는 2초에서 5초까지 고속의 움직임 줌잉(fast zooming-in motion)을 가지며, 카메라 포커스는 고정된다. 따라서, 청크 내의 물체들이 검출되고, 물체의 움직임이 트랙킹되어, 각각의 비디오 프레임이 파라미터, 가령 이동 물체의 위치 및 사이즈에 의해 또한 인덱싱된다. 종래의 시스템 및 방법에 대조적으로, 본 발명에 따른 시스템 및 방법은 쉽게 이용가능한 프로세서를 사용하여 실시간으로 동작될 수 있다.

(카메라 움직임 추정)

카메라(글로벌) 움직임은 가령, 줌잉(zooming), 패닝(panning), 및 로테이션(rotation)과 같은 카메라 동작에 의해 야기되는 움직임을 참조한다. 물리적 카메라 움직임은 통상 두개의 연속 프레임들 간의 적절한 시간 연속 변경이 된다. 그 효과는 카메라 움직임에 의해 정의되는 아핀 변환에 이어서 프레임 범위의 잘 조절된 광학 흐름 변경으로서 관측될 수 있다. 실시간 비디오에서, 이러한 상황은 선행 배경 움직임 및 다른 신호 노이즈에 의해 약간 손상된다. 카메라 움직임 추정은 상기 관측된 노이즈의 광학 흐름 동작에 기반하여 카메라 움직임의 아핀 모델을 발견한다. 일반적으로, 이는 광학 흐름 분석 및 아핀 모델 추정을 포함한다.

(광학 흐름 분석)

광학 흐름 분석은 프레임 간 움직임 벡터의 결정이나 움직임 추정을 포함한 다. 기본적인 움직임 추정을 위한 방법은 블럭 정합 방법이다. 도 1에 도시된 바와 같이, k번째 프레임으 픽셀 차수를 갖는 위치(m, n)에서의 블럭과 (k-1)번째 프레임의 움직임 벡터(i, j)에 의해 시프팅되는 블럭 간의 강도 차(intensity difference)는 다음과 같이 표현될 수 있다.

여기서, I는 통상적으로 픽셀의 휘도이다. 오차 메트릭 E(i, j)는 제곱 오차들 e(I_k, I_k _-1)의 합이거나 절대 오차들 e(I_k, I_k _-1)의 합일 수 있으며, 후자는 계산 비용이 덜 소요된다. 블럭과 관련된 움직임 벡터는 다음과 같은 표현, 즉

에 따른 검색 범위(M, N) 내의 최소 왜곡 V를 산출하는 벡터로서 간주된다.

편리한 검색 범위는 M=N=8이지만, 다른 검색 범위, 가령, M=N=16이 사용될 수 있다. 8×8 픽셀 블럭 혹은 어레이에 기반한 움직임 벡터 결정은 MPEG-2, MPEG-4 및 Windows Media를 포함한 여러 공통의 비디오 인코딩 알고리즘의 특징이 된다. 실제로, 전술한 것 및 기타 인코딩 알고리즘에 의해 생성된 움직임 벡터가 후술될 카메라 움직임 추정 및 물체 움직임 분석의 다른 특징들과 함께 사용될 수 있다. 그럼에도 불구하고, MPEG-2와 같은 압축 알고리즘에서의 움직임 벡터 결정은 카메라 움직임을 결정하기보다는 주목할 만한 왜곡을 갖지 않는 압축을 최적화할 것이라는 것을 알 수가 있을 것이다.

일 실시예에서, 식 2로 표현되는 움직임 벡터를 탐색하기 위해, 검색 범위 내에서 철저한 검색이 수행될 수 있으며, 글로벌 최적화를 제공할 수 있다. 그러한 검색은 프로세서에 따라, 실시간으로 수행되기에는 너무 계산 집약적일 수 있다. 그러므로, 다른 실시예에서, 철저한 검색 대신에 고속의 검색 알고리즘, 가령 J.R.Jain et al.,"Displacement Measurement and Its Application in Interframe Image Coding",IEEE Trans. on Communications vol.COM-29,pp.1799-1808(Dec.1981)에 개시된 2차원(2-D) 로그 검색 방법과, J.Y.Tham et al.,"A Novel Unrestricted Center-Biased Diamond Search Algorithm For Block Motion Estimation", IEEE Trans.on Circuits and Systems for Video Technology vol.8,pp 369-377(Aug.1998)에 개시된 다이아몬드 검색 방법 및 다른 기존의 검색 방법이 사용될 수 있다. 여러 고속의 검색 알고리즘은 검색 범위 내에서의 왜곡 V은 소형의 국소 최저점(small local minima)을 갖는 단조 볼록면이라는 가정에 토대를 두고 있다.

다른 실시예에서, T.Koga et al.,"Motion-Compensated Interframe Coding for Video Conferencing",Proc.Nat'l Telecommunications Conf.pp.G5.3.1-G5.3.5,New Orleans,LA(Dec.1981)에 기재된 바와 같은 고속의 3 스텝 검색 알고리즘이 사용될 수 있는데, 이는 속도 및 시멘틱 정확도에 대해 균형을 이룰 수 있다. 3 스텝 검색 알고리즘은 도 2에 도시된다. 검색 범위는 -8에서 +8까지라고 하자. 스텝1에서, (스텝1에 대해 숫자 1로 표시되는) 9개의 정점을 갖는 16×16 픽셀 윈도우가 연속하는 프레임들의 쌍 중의 하나에서 검색된다. 도 2에 도시된 바와 같이, 상기 제 1 윈도우는 연속하는 프레임들의 쌍의 나머지 프레임의 원래의 지점에서 중심이 맞추어진다고 가정하자. 식 2에 따른 9개의 왜곡값이 9개의 정점에서 계산된다. 예에서, 9개의 정점 중 우상향 정점은 스텝1에서 계산된 9개의 왜곡값 중 최소값을 산출한다. 스텝2에서, 최소 비용 함수를 제공하는 것과 같이 스텝1에 의해 식별되는 정점에서 중심이 맞추어진 5×5 윈도우가 체킹된다. 따라서, 5×5 윈도우의 9개 정점(숫자 2로 표시됨)에서 9개의 왜곡값이 계산된다. 이 예에서, 9개의 정점 중 우하향 정점은 스텝2에서 계산된 9개의 왜곡값 중 최소값을 산출한다. 스텝3에서, 최소 비용 함수를 제공하는 것과 같이 스텝2에 의해 식별되는 지점에서 중심이 맞추어진 3×3 윈도우가 체킹된다. 따라서, 9개의 왜곡값이 3×3 윈도우의 9개의 정점(숫자 3으로 표시됨)에서 계산된다. 3×3 윈도우와 관련된 9개의 왜곡값 중의 최소값(이 예에서 우하향 지점)은 최종 움직임 벡터를 산출한다.

식 2의 최소 왜곡값에 기반한 움직임 벡터 결정은 비디오 코딩을 위해 잘 동작한다. 그러나, 이 움직임 벡터 결정 기법은 랜덤 노이즈로 인해 오류의 결과를 제공할 수 있으며, 이는 검색 범위에 걸쳐 왜곡 분포의 매우 작은 변동을 일으킬 수 있다. 그러한 작은 변동은 프레임들의 균일한 부분들, 가령 구름없는 하늘에서의 블럭에 대해서 발생할 수도 있다. 그러므로, 본 발명의 일 실시예에서, 움직임 벡터들은 하나의 이미지에 걸쳐 다수의 블럭에 대한 움직임 벡터를 결정하고 영역외의 블럭을 제거함으로써 필터링된다. 이러한 애플리케이션에서, 영역외의 블럭은 그 프레임 내의 다수의 블럭 세트 혹은 나머지의 움직임 벡터들의 합치점과 실질적으로 상이한 움직임 벡터를 갖는 블럭이다. 이 합치점은 아핀 모델 추정치로부터 효과적으로 결정되며, 이는 이후에 보다 상세히 설명되며, 아핀 모델과 실제 움직임 벡터를 사용하여 예측 움직임 벡터들 간의 오차들 간의 변동에 기반하여 획 득된다. 영역외의 블럭들은 하나의 표준 편차와 같은 값으로 세트될 수 있는 임계치보다 더 큰 움직임 벡터 예측 오차를 갖는 블럭들이다.

일반적으로, 영역외의 블럭은 두개의 범주, 즉 물체 움직임으로 인한 영역외의 블럭과 오정합 블럭으로 인한 영역외의 블럭으로 나누어진다. 물체 움직임으로 인한 영역외의 블럭은 물체 검출을 위해 유용한 정보를 전달한다. 가령, 선행 배경(foreground)에서의 강의 흐름선(shoreline)과, 강에서의 보트와, 후행 배경에서의 강의 다른 흐름선을 포함하는 장면에서, 상기 보트(즉, 물체)는 카메라 움직임과는 다른 자신의 움직임을 갖는다. 영역외의 블럭이 오정합 블럭들로 인한 다른 예에서, 선행 배경에서 모자를 쓰고 있는 남자와 후행 배경에서 대각선 사이딩을 갖는 빌딩과 빌딩의 벽에 배치된 블럭들을 갖는 장면은 간단한 영역 텍스쳐를 가지며, 결과적으로 그들은 소형의 검색 범위에서의 왜곡 분포 변동을 일으키며 이는 노이즈가 발생하기 쉬운 움직임 벡터를 산출한다. 영역외의 블럭에 대한 다른 이유는 급작스러운 휘도 변동, 카메라 움직임 크기와 비교할 때 제한된 검색 범위, 고속 검색 방안으로부터의 국소 최소점을 포함한다.

영역외의 블럭은 아핀 모델 추정에 영향을 끼칠 수 있으며, 그에 따라 전술한 바와 같이 필터링함으로써 영역외의 블럭과 움직임 벡터의 수를 감소시키는 것이 효과적이다. 영역외의 블럭의 수를 감소시키는 다른 방법은 하나의 이미지로부터 임의로 분할될 수 있는 모든 블럭을 사용하는 것보다 정합 계산을 위한 블럭을 선택하는 방법이다. 정합 계산을 위한 블럭을 선택하는 하나의 방법은 특징 선택(feature selection) 방법으로서, 영역외의 블럭의 수와 블럭 정합 계산(움직임 벡터 결정)의 양을 효과적으로 감소시킬 수 있다. 하나의 이미지에서 선택된 특징 혹은 특징들과 관련되거나 그에 대응하는 블럭들만이 블럭 정합을 위해 사용될 필요가 있으며, 이는 물론, 실시간 애플리케이션에 대해 효과적일 수 있다.

이미지 혹은 비디오 프레임은 하늘, 보트, 빌딩, 사람 등과 같은 물체의 세트를 포함한다. 물체는 정지 물체이거나 이동 물체일 수 있으며, 물체는 상이한 컬러, 텍스쳐, 모양, 등을 가질 수 있다. 신호의 특징 혹은 이미지 혹은 비디오 프레임은 전형적으로 신호/이미지/프레임으로부터 계산된 것이며, 데이터의 특징적인 측면을 나타낸다. 가령, 컬러 히스토그램 및 컬러 레이아웃은 이미지 혹은 비디오 프레임에 대한 두 종류의 컬러 특징인데, 이들은 이미지의 컬러로부터 유도되기 때문이다. 움직임 추정을 위해 한 프레임 내의 모든 블럭을 사용하는 대신에, 특징 기반 선택 방법을 사용하여 이미지의 하나 이상의 특징에 기반한 블럭을 선택한다. 이러한 특징은 컬러 특징, 텍스쳐 특징, 에지 특징 등일 수 있다.

특징 선택은 일반적으로 픽셀 기반이거나 블럭 기반일 수 있다. 픽셀 기반의 특징 선택 방식은 픽셀 방식의 추정에 기반한 특징을 선택하며, 이는 KLT 변환이나 모라벡 연산자(Moravec operator)를 포함할 수 있다. 블럭 기반 특징 선택 방식은 전체 블럭의 특징에 기반한 특징을 선택하며, 이는 시간적 분석이나 이산 코사인 변환(DCT) 에너지 통계를 포함할 수 있다.

블럭 기반의 특징 선택 방법의 한 가지 종류는 하나의 이미지에서 블럭을 선택하기 위한 에지 검출 방법을 사용한다. 이러한 에지 검출 방법에는 가령 소벨(Sobel), 라플라스(Laplace) 및 캐니(Canny) 알고리즘 등이 존재하며, 이러한 방 법들은 상이한 복소수 및 에지 품질을 갖는다. 일반적으로 에지 검출 방법은 입력 이미지의 에지 맵(이는 이미지의 한 특징이 됨)을 계산함으로써 수행되며, 에지 맵은 블럭을 선택하기 위한 특징으로서 사용된다. 즉 충분한 에지를 포함하는 블럭들만이 선택된다.

에지 기반의 특징 선택 방법의 특정 예는 아래의 두 개의 3×3 1-D 소벨 방향성 연산자를 사용한다.

상기 연산자는 픽셀 휘도값의 블럭에 제공되며, 그 결과들의 절대값의 합은 에지 정보를 추출하는 데 사용될 수 있다. 일 실시예에서, 소정의 개수의 에지 픽셀들을 노출하는 블럭들만이 움직임 보상 동안 선택된다.

선택된 블럭들을 위한 결정 임계치는 이미지의 그래디언트 크기의 통계 분포에 따라 효과적으로 그리고 동적으로 조정될 수 있다. 가령, 캐니 에지 검출은 검출된 에지의 최종 결과에 영향을 끼칠 수 있는 두개의 임계치(하나는 더 높고 하나는 더 낮음)를 포함한다. 이러한 임계치는 그래디언트 크기의 통계 데이터를 사용하여 결정될 수 있다.

영역외의 블럭을 식별하여 제거하는 것외에도, 추가의 조치를 취하여 계산 비용을 더 감소시키고 속도를 더 향상시키는 것이 효과적이어서 기능이 보다 낮은 프로세서에 의해 실시간 수행을 가능하게 한다. 이러한 추가의 조치는 이미지 해상도 다운 샘플링, 블럭 선택 다운 샘플링, 및 전반 종료(halfway termination)를 포함하며, 영역외의 블럭 제거가 효과적인 필터링인 것 같이, 상기 추가의 조치 또한 필터링으로 간주될 수도 있다.

이미지 해상도 다운 샘플링에서, 움직임 벡터 결정 프로세스는 낮아진 해상도 이미지 상에서 실행된다. 가령, 입력 비디오는 320×240 픽셀/프레임(1/4 VGA)까지 다운 샘플링되거나 혹은 160×120 픽셀/프레임까지 다운 샘플링된다. 1/4 VGA로의 다운 샘플링 혹은 보다 더 낮은 해상도로의 다운 샘플링은 시멘틱 의미 추출 및 이동 물체 검출의 측면에서는 만족스러운 결과를 달성할 수 있지만 계산 비용을 크게 감소시킨다.

블럭 선택 다운 샘플링에서, 처리를 위한 블럭이 선택되고 그 후 선택된 모든 블럭의 바로 인접한 블럭들은 유사한 움직임 동작을 가진다는 가정하에서 처리되지 않는다.

전반 종료 방법은 블럭의 보상 잉여 오차를 계산하는 것을 포함한다. 만약 블럭의 픽셀 차이들을 가산함으로써 생성된 블럭의 누적 왜곡 V가 이미 처리된 블럭들의 현재 관측된 최소 왜곡보다 더 크다면, 그 계산은 종료되고 블럭은 스킵된다. 이는 또한 불필요한 계산을 회피함으로써 비용을 감소시킨다.

(아핀 모델 추정)

카메라 움직임 C는 4개의 파라미터의 함수로서 모델링될 수 있는데, 그 파라미터는 카메라의 초점 길이 F와, 공간 직교 좌표축 X,Y,Z 주위의 로테이션 각 α,β,γ이다. 이러한 것은 C=C(F,α,β,γ)로 표현될 수 있으며, 도 3에 도시된다. 공간 내의 임의의 지점 P(x,y,z)는 아래의 벡터 변환에 따른 카메라의 뷰 면(view plane)에서의 지점 Q(u,v) 내로 투사될 수 있다.

여기서, zoom,rotation,pan_x,pan_y는 카메라 움직임 C에 의해 결정되는 네 개의 파라미터이다. 이러한 파라미터들 간의 관계는 J.Park et al.,"Estimation of Camera Parameters from Image Sequence for Model-Based Video Coding",IEEE Trans.on Circuits and Systems for Video Technology vol.4,pp.288-295(June 1994)에 기재된다. 넌 스테레오스코픽(non-stereoscopic) 비디오 신호에 대한 깊이 매핑 정보(depth mapping information)가 존재하지 않기 때문에, z=1이 된다.

식 3은 컬럼 벡터(x,y,z)의 아핀 변환으로서 인식될 것이다. 일반적으로, 아핀 변환은 선형 변환이며, 그 후에 변환, 가령 A(x)=Mx+v이 후속되는데, A(x)는 벡터 x의 변환이며, M은 매트릭스이며, v는 벡터이다. 매트릭스 M 내의 6개의 파라미터를 가지는 전형적인 아핀 모델과 비교할 때, 4개의 파라미터를 갖는 식 3의 모델은 광범위의 비디오에 대한 실시간 시멘틱 의미 분석을 위해 적응되는 것이 더 나을 수 있는데, 그 이유는 그것은 더 고속으로 처리될 수 있기 때문이다. 물론 4개의 파라미터에 대한 단순화는 필요하지 않다.

아핀 모델은 다음의 매트릭스 표현에 따른 최소 제곱 오차(LSE) 회귀를 사용함으로써 추정된다.

여기서, N은 샘플의 개수, 즉 선택된 특징 블럭의 수이다. 각각의 샘플은 움직임 벡터에 의해 연관된 현재 프레임 및 이전 프레임에서의 좌표값이 되는 관측(x_i,y_i,1) 및 출력(u_i,v_i)를 포함한다. 작업을 위해 단일 값 분해(singular value decomposition)가 사용될 수 있다. LSE 회귀에 의한 아핀 모델 추정의 측면은 S.Boyd and L.Vandenberghe,Convex Optimization,Section 1.2,Cambridge University Press(2004)에서 기술되고 있다.

아핀 모델을 반복함으로써, 즉 선행 계산의 결과를 사용하여 식 4를 계산함으로써, 임계치보다 더 큰 잉여 오차를 갖는 블럭은 영역외 블럭으로서 배제될 수 있다. 이러한 것은 또한 마치 에지 기반 특징 검출 방식이 필터링이 되는 것과 마찬가지로, 움직임 벡터의 필터링으로 간주될 수도 있다. 임계치는 사전 정의되며 표준 오차 미분치의 함수에 기반을 둘 수 있다. 잉여 오차 R은 다음과 같이 제공될 수 있다.

여기서, P_k,

은 움직임 벡터(v_x,v_y)에 의해 관련되는 블럭이다. 고정된 임계치를 갖는 경우에도, 새로운 영역외의 블럭이 반복적으로 식별되어 배제될 수 있다. 모델의 반복은 소정의 반복 회수 이후에 혹은 아핀 파라미터 세트가 원하는 정도로 안정화될 때 종료된다. 이용가능한 발산을 회피하기 위해, 최대 회수의 반복이 정의될 수 있다. 일 실시예에서, 대부분의 프레임들의 아핀 모델 추정은 모델의 3 내지 4회의 반복이 수행된 이후에 적절할 수 있다.

도 4는 전술한 바와 같이 두개의 이미지들간의 카메라 움직임을 추정하는 방법의 플로우챠트이다. 단계 702에서, 이미지들 중의 하나는 하나 이상의 블럭으로 분할되며, 단계 704, 다른 처리를 위해 복수의 블럭들이 선택된다. 이러한 선택은 바람직하게는 이미지들 내의 물체의 하나 이상의 에지에 대응하는 블럭을 탐색함으로써 수행된다. 선택된 블럭에 대응하는 휘도값은 단계 706에서 결정되며, 선택된 블럭들은 두개의 이미지들 중의 나머지 중의 대응하는 블럭에 정합된다(단계 708). 다음, 움직임 벡터는 정합된 블럭을 위해 결정되고(단계 710), 카메라 움직임 파라미터의 세트가 이미지들 간의 카메라 움직임의 추정된 아핀 모델로부터 결정된다(단계 712).

(시멘틱 의미 추출)

아핀 모델 추정에 의해, 각각의 프레임에 대한 움직임 파라미터의 세트가 결정된다. 각각의 세트는 특정의 프레임이 포착되는 순간에 카메라의 움직임을 나타낸다. 카메라의 관심 자유도에 따라 카메라 아핀 모델을 정의하는 다른 방식이 존재한다는 것을 이해할 수 있을 것이다. 일부의 경우, 가령, 디지털 캠코더 혹은 서베일런스 비디오(surveillance video)의 경우, 카메라 움직임 파라미터들은 기록되고 공지될 수 있으며, 따라서 카메라 모델을 추정할 필요는 없다. 여하튼, 고레 벨 시멘틱 의미를 검색하도록 세트들이 요약된다.

도 5는 몇몇 프레임들의 시퀀스에 대한 아핀 모델 파라미터 zoom,rotation,pan_x,pan_y를 도시한다. 본 발명의 일 실시예에 의하면, 시멘틱 의미는 모델 파라미터들로부터 요약된다. 가령, 도 5에 도시된 프레임에 대해, 카메라 움직임은 바람직하게도 "포커스", 가령 장면 혹은 물체 상으로의 집중으로 지칭될 수도 있다. 시멘틱 의미 요약을 위한 세 개의 기법은 카메라 움직임 양자화, "센텐스" 생성 및 "단락" 생성으로서 이하에서 보다 상세히 기술된다. 원하는 요약의 레벨에 따라, 하나 이상의 센텐스 및 단락 생성이 사용될 수도 있다.

카메라 움직임 양자화에서, 카메라의 움직임, 즉 아핀 모델 파라미터들은 먼저 수개의 크기 레벨 및 방향으로 양자화된다. 도 6(a)는 카메라 팬 파라미터를 양자화하기 위한 일예의 방안을 나타낸다. zoom과 rotation과 같은 다른 파라미터들은 유사하게 양자화될 수 있다. 이러한 방안에서, 가령 X축 및 Y축과 같은 직교축에 따른 팬 크기는 4개의 영역, 포커스, 저속, 중간, 고속으로 분류된다. 움직임 방향은 도 6(b)에 도시된 바와 같이 양자화된다. 카메라의 진동 및 노이즈 간섭에 대해 강건해지도록, 도 6(c)에 도시된 바와 같이 전이를 결정하는 히스테리시스 임계치를 사용하는 것이 바람직하다. 도 6(a), 6(b), 6(c)에 도시된 것 대신에 다른 양자화가 사용될 수도 있다.

"센텐스(sentence)" 생성에 있어서, 적은 시간 범위, 가령 수 초에 걸쳐 이미지들의 시퀀스는 본래 그의 아핀 모델 유사성에 기반하여 함께 클러스터링되어(cluster), 합리적인 개수의 시멘틱 영역을 생성한다. 다시 말해서, 동일한 양자화된 카메라 움직임 파라미터들을 공유하는 인접한 프레임들은 하나의 보다 긴 시간 범위로 합체되는데, 이는 본 출원에서 "센텐스"로 지칭된다. 이러한 합체는 다음에 하나의 비디오 클립을 카메라 움직임이 불변하는 수 개의 센텐스로 요약화한다. 즉, 아핀 모델 파라미터들이 동일하거나 유사한 레벨로 양자화된다. 동시에, 평균 아핀 모델이 각각의 센텐스을 위해 계산된다.

"단락" 생성은 센텐스 생성 상에서 구축되며, 따라서 단락은 보다 긴 시퀀스, 가령 수 십 초의 이미지들의 요약서가 된다. 아래에서 보다 상세히 설명되는 바와 같이, 인접한(연속하는) 센텐스의 히스토그램 지속 기간이 추정된다. 다른 합체 단계가 수행되어 비디오를 감도 임계치(sensitivity threshold)에 의해 결정되는 다수의 시멘틱 단락으로 요약화한다. 센텐스들은 아핀 모델 파라미터들 간의 거리 메트릭스(distance metrics)에 따라 측정될 수 있는 그들의 유사도에 기반하여 하나 이상의 단락으로 합체된다. 적당한 거리 메트릭스는 파라미터들 간의 유클리드 거리(Euclidean distance)이다. 각각의 단락의 시멘틱 의미는 가중화된 아핀 모델을 사용하여 재평가된다.

아핀 모델 추정, 파라미터 양자화, 센텐스 생성, 단락 생성의 프로세스는 도 7에 도시되는데, 이는 비디오 타임라인 상의 틱 마크(tick mark)에 의해 하나의 비디오 클립의 연속 프레임들을 나타낸다. 그 클립에는 N_f개의 프레임이 존재하며, 각각의 프레임 i(여기서, i=1,2,..,N_f-1,N_f)가 지속시간 t_fi, 추정된 아핀 모델 A_fi, 및 양자화된 카메라 움직임 S_fi를 갖는다고 가정한다. 센텐스 생성 프로세스는 N_s개의 센텐스을 생성하며, 도 7에서, 각각의 센텐스 j는 각각의 양자화된 카메라 움직임 S_sj, 아핀 모델 A_sj, 지속기간 t_sj에 의해 식별된다.

센텐스들이 생성된 이후, 지속기간 t_sj의 히스토그램이 생성되며, 지속기간 t_sj의 분포가 평가된다. 지속기간 허용 임계치 T_d는 센텐스들을 N_p개의 단락으로 합체하는데 사용된다. 임계치 T_d보다 큰 지속기간을 갖는 센텐스는 앵커 센텐스 S_A으로 기능하며, 다른 센텐스들은 거리 측정치에 기반하여 이러한 앵커로 합체되는데, 이 거리들은 아핀 모델들 간의 유클리드 거리일 수 있다.

각각의 단락의 카메라 움직임의 시멘틱 의미는 다음과 같은 수식에 의해 평가된다.

여기서, Q(A)는 시멘틱 카메라 움직임에 대한 아핀 모델 파라미터로부터의 양자화 매핑이며, D는 선택된 거리이다. 이러한 프로세스에서, 임계치 T_d는 시멘틱 카메라 움직임의 변동을 검출하는 감도를 설정한다.

도 8은 전술한 바와 같은 시멘틱 의미로 카메라 움직임 파라미터를 변환하는 방법의 플로우챠트이다. 단계 102에서, 움직임 벡터들이 결정되거나 제공되고, 단계 104에서, 상기 움직임 벡터들로부터 카메라 움직임 파라미터들이 결정된다. 움직임 파라미터들의 세트는 양자화되고(단계 106), 유사하게 양자화된 세트들은 센텐스들 그리고 선택적으로 단락들로서 식별된다(단계 108).

(물체 검출 및 트랙킹)

본 애플리케이션에서, 하나의 비디오 시퀀스 내의 이동 물체는 일반적으로 관심이 있는 움직임의 정도 및 시멘틱 의미를 갖는 영역으로서 정의된다. 이동 물체의 움직임은 비디오 시퀀스의 연속 프레임의 각각에서 그 위치 및 사이즈를 탐색함으로써 효과적으로 트랙킹된다. 트랙킹 면 혹은 소정의 모델(가령, 자동차와 같은 관심 물체의 3차원 모델)에 대한 제한과 같은, 약간의 간이성을 포함하는 이동 물체 검출 및 트랙킹에 대한 종래의 접근법과 비교할 때, 본 발명의 이동 물체 검출은 단지 움직임 정보에만 토대를 두고 있으며 사전 지식을 불필요하다.

(물체 검출)

본 발명에 의하면, 이동 물체 검출은, 움직임 보상 잉여 오차가 아래의 식에 따라 추정될 때 선행 배경 움직임 동작이 후행 배경 움직임 동작과 상이하다는 가정과 이동 물체의 영역(즉, 선행 배경 혹은 후행 배경)이 영역외 블럭으로서 노출 된다고 하는 가정에 기반을 두고 있다.

여기서, R_k(m,n)은 k번째 프레임 내의 위치(m,n)으로부터 시작하는 블럭의 잉여 오차이며, B_k, B_k _-1은 움직임 벡터(v_x,v_y)에 의해 관련된 블럭들이며, A는 아핀 모델이다. 주목할 것은 잉여 오차 R_k의 실시간 추정이 추정의 계산 비용 감소를 필요로 할 수 있다는 것이다. 비용을 감소시키는 한 가지 방법은 아핀 모델 추정 동안 영역외의 블럭으로서 식별되는 영역상에서만 식 8의 추정을 실행한다는 것이다. 다른 영역들은 반복 동안 LSE 기준을 이미 충족했기 때문에, 즉 아핀 모델에 의해 정의되는 움직임 파라미터들을 따르는 블럭들에 대해 잉여 오차가 작기 때문에 비용이 감소된다.

이동 물체의 영역이 영역외의 블럭으로서 노출된다는 가정은 실제 비디오 시퀀스의 경우에는 유효하지 않을 수 있는데, 그 이유는 영역외 블럭이 후행 배경 움직임 추정에서의 노이즈로부터 발생할 수 있기 때문이다. 따라서, 움직임 기반의 물체 검출을 위한 중요 태스크는 영역외 블럭에서 실제 물체와 후행 배경 노이즈를 구별하는 것이다. 그러므로, 본 발명에 의하면, 실제 물체는, 관심 물체가 적절한 사이즈를 가지며 이미지들의 중앙에 위치한다는 경향을 갖는다고 가정하면 후행 배경 노이즈와 구별된다. 적절한 사이즈를 가정하면 충분한 잉여 오차의 노출이 발생하며 상당한 시멘틱 의미가 전달된다. 중앙 바이어스 가정(central-biassed assumption)은, 물체에 대한 우리의 관심이 물체의 위치가 중앙에서 멀어짐에 따라 쇠퇴한다고 하는 이해를 반영하고 있다. 이러한 가정은 공통으로 이용가능한 프로세서들과 함께 실시간 동작을 용이하게 하는 정도까지는 바람직하지만 필수는 아니라는 것이다. 이러한 가정에 기반하여, 아래에서 상세히 설명될 가중치 파라미터들의 세트를 적용함으로써 잉여 오차들이 필터링된다.

도 9는 입력 비디오 시퀀스에서 물체들을 검출하기 위한 장치(200)의 블럭도이다. 이 장치는 기술된 동작을 수행하도록 구성되는 로직으로서, 혹은 하나 이상의 프로그램가능한 프로세서로서, 혹은 이들의 조합으로서 구현될 수 있다.

장치(200)는 카메라 움직임을 추정하는 장치(202)를 포함하여 입력 시퀀스의 연속하는 이미지들의 쌍으로부터 전술한 바와 같은 움직임 벡터 및 아핀 모델 추정치를 생성한다. 모델 파라미터들은 식 8에 따른 잉여 오차 R_k를 결정하는 장치(204)에 제공된다. 잉여 오차, 즉 오차 이미지들은 필터(206)에 제공되어 필터링된 잉여 오차 프로세스에서 검출되는 물체의 표지를 생성한다. 필터(206)는 바람직하게는 하나 이상의 공간 위치 필터(2061), 움직임 크기 필터(2063), 블럭 영역 사이즈 및 크기 필터(2065), 시간 프레임 필터(2067)를 포함하는데, 이들은 아래에서 상세히 기술된다.

공간 위치 필터(2061)은 하나의 프레임의 중앙 영역에 인접하게 위치한 블럭들에 대해 보다 높은 가중치를 할당한다. 일예의 필터 함수는 다음과 같은 익스포넨셜 함수이다.

여기서, f_s(P)는 필터의 출력이며, P는 필터링된 블럭이며, ∥P∥는 블럭 P와 이미지의 중앙 사이의 거리이며, M은 가중치가 제로인 사전결정된 값이며, ε 및 λ는, 필터 함수를 정규화하며 전형적인 확률 함수와 보다 더 유사하게 하는 데 사용되는 파라미터이다.

움직임 크기 필터(2063)는, 카메라의 움직임의 크기가 크면 클수록 영역외 블럭은 후행 배경 노이즈에 더욱 더 많은 영향을 받기 때문에 유용하다. 가령, 패닝 크기(panning magnitude)를 고려하자. 일예의 움직임 크기 필터 함수는 다음과 같은 가우스 기반(Gaussian-based) 함수이다.

여기서, f_m(∥P_M∥)은 필터의 출력이며, P는 필터링된 블럭이며, ∥P_M∥은 패닝 크기이며, 편차 σ는 검색 범위의 경계상에 존재하도록 설정된다.

이러한 공간 위치와 움직임 크기 필터 간의 차이는 프레임 경계 상에서의 그 동작에 있다. 공간 위치 필터는 프레임 경계 상에 제로 가중치를 부여하며, 움직임 크기 필터는 검색 경계 상에 넌제로(non-zero) 가중치를 제공한다. 이러한 두 개의 필터는 가중치를 계산하는 계산 비용을 감소시키기 위해 룩업 테이블(look-up table)에 의해 구현될 수 있다.

공간 위치 및 움직임 크기 필터링 이후, 조정된 잉여 오차

은 다음과 같이 제공된다.

아래의 두 개의 필터는 이러한 조정된 잉여 오차를 사용한다.

블럭 사이즈 및 크기 필터(2065)를 구현하기 위해, 영역외 블럭은 먼저 그 접속성에 기반하여 영역들 내로 클러스터링된다. 이러한 것은 도 10(a)에 도시된 바와 같은 고속 플러딩 알고리즘(fast flooding algorithm)과 함께 수행될 수 있다. 도 10(a)에서, 별표가 표시된 블럭이 접속성 검색의 시작 시드(seed)라고 하면, 바로 인접한 모든 블럭들은 도면에서 0 내지 7로 표시된 사전정의된 순서로 체킹된다. 체킹된 각각의 블럭은 그에 따라 적절히 표시되며, 그에 따라 나중의 검색시에는 체킹되지 않는다. 영역외의 블럭이 인접하는 블럭들 사이에서 검출되면, 그것은 플래그되며(도면에서, 블럭4에서 다이아몬드 표시는 영역외 블럭을 나타냄), 시드는 플래그된 블럭 내로 이동되며, 검색은 사전정의된 동일한 검색 순서로 바로 인접한 블럭에서 지속된다. 주목할 것은 사전에 체킹된 모든 블럭들은 스킵되며 그에 따라 이 예에서는 2 내지 6으로 넘버링된 블럭이 체킹된다는 것이다.

필터(2065)는 이러한 과정을 복귀가능하게 되풀이하며, 이는 영역외의 모든 블럭들을 모두 접속하기 위한 효율적인 방법이다. 이러한 과정은 샘플 거리에 기반하여 본래의 클러스터링 알고리즘의 간이화된 이산 버전으로서 간주될 수 있는데, 이는 P.O.Duda,P.E.Hart,and D.G.Stork,Pattern Classification,Wily,New York(2001)에 기술되고 있다.

영역외의 블럭들 모두가 특정 영역들 내로 클러스터링되면, 각각의 영역은 경계 박스(도 10(b)에 도시됨) 및 대표적인 잉여 크기에 의해 효율적으로 표시되 며, 대표적인 잉여 크기는 영역 내의 모든 블럭들 중 최대 잉여 오차로서 정의될 수 있다. 경계 박스는 검출된 물체를 나타낸다. 일 실시예에서, 제 1 임계치보다 작은 사이즈와 제 2 임계치보다 작은 크기를 갖는 임의의 영역은 필터링되어 제거된다. 제 3 임계치보다 큰 사이즈를 갖는 적어도 하나의 영역이 존재한다면, 이동 물체 검출을 위해 그 프레임은 스킵되는데, 그 이유는 그 프레임 내의 아핀 모델이 신뢰성이 없다고 가정될 수 있기 때문이다.

시간 프레임 필터(2067)는 이동 물체를 검출하는데 모든 프레임이 적절한 것이 아니기 때문에 유용할 수 있다. 가령, 이동 물체의 블럭들의 잉여 오차는 후행 배경 노이즈에 의해 압도되어 물체의 검출을 곤란하게 할 수 있다. 후행 배경 블럭으로부터의 잉여 오차는 무엇보다도 복잡한 텍스쳐와 고속 카메라 움직임으로 인해 클 수 있다. 이러한 목적을 위해, 서로 접속된 모든 혹은 대다수의 블럭들은 먼저 대형 영역(a large region)으로 조합된다. 시간 프레임 필터(2067)는 물체를 검출하기 위한 후보자로서 하나의 현저한 블럭 영역을 갖는 프레임을 선택하도록 동작한다. 따라서, 현저한 잉여 오차 및 적절한 사이즈의 블럭 영역을 갖는 프레임들만이 유지된다. 그러한 프레임들은 검출된 물체들을 포함한다. 다른 프레임들은 다른 처리를 위해 생략될 수 있다.

도 11은 전술한 바와 같은 본 발명에 따른 물체 검출 방법의 플로우챠트이다. 단계 402에서, 연속하는 이미지들 쌍으로부터 움직임 벡터들이 결정되며, 이러한 움직임 벡터들은 단계 404에서 아핀 모델을 추정하기 위해 사용된다. 단계 406에서, 움직임 벡터들 및 아핀 모델에 기반하여 이미지들 쌍 내의 각각의 픽셀 블럭에 대해 잉여 오차가 계산된다. 단계 408에서, 상기 잉여 오차에 기반하여 물체가 검출된다.

(물체 트랙킹)

일단 이동 물체가 검출되면, 그 위치 및 사이즈(도 10(b)에 도시된 바와 같은 픽셀들의 경계 박스로 표시됨)는 아래에서 상세히 기술되는 이동 물체 트랙커(a moving-object tracker)로 전달될 수 있다. 본 발명의 이동 물체 트랙킹 프로세스에 따라 경계 박스는 이동 물체의 보다 정확한 컨투어(contour) 대신에 고려될 필요가 있다. 경계 박스는 충분한 시멘틱 의미를 전달하며, 물체의 정확한 컨투어 작업은 널리 이용되는 현재의 프로세서에 의해 실시간으로는 용이하게 수행될 수 없는 보다 복잡한 계산을 필요로 한다.

가령, 이동 물체는 비디오 클립의 시작 프레임에서 검출될 수 있으며, 물체들은 비디오 클립 내의 후속 프레임들을 통해 트랙킹될 수 있다. 다른 예의 경우, 이동 물체는 주기적으로(가령, 매 100프레임당 한번, 혹은 매 2초마다 한번 등) 검출될 수 있으며, 이동 물체의 타겟 모델은 갱신될 수 있거나 현재의 타겟을 대체하는 보다 현저한 이동 물체가 발견될 수도 있다. 또다른 예의 경우, 소정의 기준이 충족되는 경우, 가령 현재의 이동 물체가 프레임으로부터 외부로 이동할 경우 이동 물체가 검출될 수 있다.

검출된 이동 물체는 그 양자화된 컬러 히스토그램에 의해 효과적으로 표현될 수 있는데, 양자화된 컬러 히스토그램은 R-G-B 공간과 같은 편리한 컬러 공간으로 형성될 수 있으며, N_R×N_G×N_B 빈(bins)을 가지되, N_R, N_G, N_B은 R,G,B 컬러 채널의 각각에 대한 빈의 개수이다. YUV 공간과 마젠타-옐로우-시안 공간과 같은 다른 컬러 공간은 R-G-B 공간 대신에 사용될 수 있다. 컬러 히스토그램의 이점은 물체가 로테이션, 스케일링 및 균형잡힌 비강건 비틀림(even non-rigid warping)과 같은 복잡한 움직임을 경험하고 있을 경우에 그 강건성에 있다.

본 발명의 다른 실시예에서, 공간 향상 컬러 히스토그램은 검출된 이동 물체를 나타내는 데 사용될 수도 있다. 경계 박스(500)는 도 12에 도시된 바와 같이, 마진 부분(502) 및 중앙 부분(504)으로 분할된다. 도면에서, 중앙부분(504)의 (픽셀의)높이 및 폭은 마진 부분(502)의 높이 H 및 폭 W의 절반이다. 각각의 부분은 그 자신의 히스토그램 통계를 가지며, 전체 히스토그램은 이러한 두 개의 영역 히스토그램의 연쇄 연결이다. 공간 정보를 갖는 컬러 히스토그램을 분할하는 다른 방식이 사용될 수 있다.

컬러 히스토그램은 바람직하게 다음과 같은 확률 형태로 정규화된다.

δ은 크로넥커 델타 함수(Kronecker delta function)이며, u는 히스토그램 인덱스이며, q는 히스토그램 확률이며, b(x_i)는 이동 물체 영역 내에 위치한 픽셀 x_i를 히스토그램 빈(histogram bins)의 하나의 엔트런스(entrance)로 매핑하는 함수이며, N은 물체 영역 내의 픽셀들의 개수이다. 여기서, "엔트런스(entrance)"는 빈(bin)의 인덱스를 의미한다. 가령, 100개의 히스토그램 빈이 존재한다면, 번호 1 내지 100은 특정의 컬러 빈을 탐색하는 엔트런스(인덱스)이다.

일 실시예에서, 컬러 히스토그램을 직접 사용하는 대신, 커널 함수(kernal function)가 제공되며, 중앙으로부터 더 멀리 위치한 픽셀에 대해서는 보다 작은 가중치가 부여된다. 그러한 커널 기반의 트랙킹(KBT)는 D.Comaniciu,V.Ramesh,P.Meer,"Real-Time Tracking of Non-Rigid Objects Using Mean Shift",IEEE Conf.Computer Vision and Pattern Recognition(CVPR'00),Vol.2,pp.142-149,Hilton Heat Island,SC(2000);and D.Comaniciu,V.Ramesh,P.Meer,"Kernal-Based Object Tracking",IEEE Trans.Pattern Analysis Machine Intell.,Vol.25,No.5(2003)에 기술되고 있다. 커널 선택의 원리는 볼록 및 단조 감소 커널 프로파일을 갖는 것을 선택하는 것이다. Comaniciu 등에 의해 위에서 언급된 논문에서 기술된 Epanechnikov 커널 함수에 의해 계산이 크게 단순화된다.

커널 함수로 인해, 타겟 모델 및 타겟 후보자는 가중치 컬러 히스토그램 확률 밀도 함수(PDF)로서 표현된다. 다음에, 타겟 모델로부터 최소의 거리를 갖는 타겟 후보자가 발견된다. 특히, 타겟 모델과 타겟 후보자가 제공되면, 일 실시예에서 유사성 메트릭(similarity metric)은 바타차리야 계수(Bhattacharyya coefficient)가 되며, 이는 직접적인 기하학적 해석을 갖는 발산형 측정값이 된다. 즉, 그것은 m차원의 단위 벡터들 간의 각도의 코사인이 된다. 타겟 모델과 후보자 간의 거리는 바타차리야 계수에 기반을 두고 있으며, 그 거리를 최소화하는 타겟 후보자를 탐색하기 위한 물체 트랙킹 태스크는 바타차리야 계수를 최소화하는 후보자를 탐색하는 것과 동일하다.

거리 최소화를 위해, 위에서 언급한 Comaniciu에 의한 논문에 기술된 그래디언트 기반 평균 시프트 반복(a gradient-based mean shift iteration)이 사용될 수 있다. 위에서 언급한 다이아몬드 탐색(DS) 및 3스텝 탐색(TSS) 알고리즘의 조합이 사용될 수 있다. 일반적으로, 제 1 스텝에서, DS 및 DSS 알고리즘 모두가 제공되며, 하나는 (거리 최소화와 관련하여) 프로세싱 유지를 지속하며, 나머지는 중지된다. 제 2 스텝에서, 나머지 알고리즘은 최소 거리가 발견될 때까지 자신의 룰(rule)을 사용하여 탐색을 지속한다.

이동 물체의 트랙킹에서, 타겟 모델은 물체 검출 스테이지, 즉 필터(206)의 출력에서 검출되는 물체로부터 획득된다. 타겟 모델은 선택적으로 물체 트랙킹 스테이지에서 트랙킹된 물체로 갱신된다. 이는 주기적으로 수행될 수 있거나 타겟 모델과 선택된 후보자 간의 커다란 차이가 있다고 결정될 때마다 수행될 수 있다. 모델은 또한 메모리와 함께 갱신되거나 메모리 없이 갱신될 수 있다.

(일예의 아키텍처)

실시간 비디오 움직임 식별을 위한 전체 시스템 아키텍쳐의 일예가 도 13에 도시된다. 시스템(600)은 데이터 마련 장치(610)와, 카메라 움직임 추정기(620)와, 이동 물체 검출기(630)와, 이동 물체 트랙커(640)를 포함한다. 도 9와 관련하여 위에서 주목되는 바와 같이, 시스템(600)은 무엇보다도 적절히 구성된 로직 및/ 또는 적절히 프로그램된 프로세서에 의해 구현될 수 있다.

데이터 마련 장치(610)는 필요하다면 입력 비디오 신호를 디코딩하는 디코더(612)를 포함하며 이미지 시퀀스를 생성할 수 있다. 다운 샘플러(614)는 상기 이미지 시퀀스를 수신하여 저해상도의 이미지의 시퀀스를 생성할 수 있는데, 그 저해상도 이미지 시퀀스는 적절한 지연 장치(652)를 통해 물체 트랙커(640)로 제공될 수 있다. 데이터 마련 장치는 다운 샘플링된 이미지 시퀀스로부터 휘도 정보를 추출하는 장치(616)를 더 포함할 수 있다. 디코딩, 다운 샘플링, 및 휘도 추출은 위에서 논의된 이유를 위해 항상 필요한 것은 아니다.

카메라 움직임 추정기(620)는 광학 흐름 분석을 위해, 데이터 마련 장치(610) 혹은 다른 소스로부터 휘도 이미지를 사용하는 광학 흐름 분석기(622)를 포함할 수 있다. 이 분석기(622)는 바람직하게도 적절한 메모리 버퍼를 포함하며, 그에 따라 현재의 이미지 및 전술한 바와 같은 이미지 시퀀스로부터의 버퍼링된 이전 이미지에 대한 분석이 수행될 수 있다. 또한, 분석기(622)는 감산기(654) 및 적절한 지연 장치(656)에 대해 연속하는 이미지들의 쌍으로부터 생성될 수 있는 차분 이미지에 대해 효과적으로 동작한다. 분석기(622)는 이미지 시퀀스 혹은 차분 이미지 시퀀스로부터 움직임 벡터를 생성하며, 이 움직임 벡터는 아핀 모델 추정기(624)에 제공된다. 아핀 모델은 바람직하게는 전술한 LSE를 사용함으로써 상기 움직임 벡터들에 기반하여 추정된다. 추정된 아핀 모델은 다음에 원한다면 시멘틱 의미 분석기(626)에 제공되며, 이 분석기(626)는 전술한 바와 같은 아핀 모델 추정치의 조합에 기반하여 센텐스 및 선택적으로 단락을 생성한다.

아핀 모델 추정치는 지연 장치(656)에 의해 적절히 지연된 이미지들을 수신하는 물체 검출기(630) 내의 잉여 오차 계산기(632)에 제공된다. 물체들이 검출되는지의 여부는 스위치 혹은 다른 적절한 판정 장치(658)에 의해 제어될 수 있다. 영역외 블럭의 잉여 오차는 아핀 모델 추정치를 사용하여 결정되며 영역외 블럭은 전술한 바와 같은 이동 물체를 검출하기 위해 선택된다. 선택된 픽셀 또는 블럭은 물체의 영역을 탐색하기 위해 전술한 필터(106)로서 동작하는 필터(634)에 의해 처리된다. 이러한 정보는 물체 탐색기(object locator)(636)로 전달되며, 이 물체 탐색기는 경계 박스 혹은 동등한 정보로서 물체의 위치 및 사이즈를 효과적으로 전달한다. 물체의 위치 및 사이즈를 식별하는 경계 박스 혹은 등가물은 물체 트랙커(640)로 전달된다.

물체 트랙커(640)는 타겟 모델 및 타겟 후보자 PDFs를 결정하는 타겟 모델 및 확률 계산기(642) 및 계수 최대화기(644)를 포함하며, 바타차리야 계수는 거리를 최소화하기 위해 전술한 바와 같이 최대화된다. 최종적으로, 트랙킹된 이동 물체의 표시가 출력되어 현재의 프레임의 처리를 종료시킨다. 트랙킹된 이동 물체의 표시의 특성은 효과적으로 물체 경계 영역의 로케이션(가령, 도 10(b)에 도시된 경계 박스에 대해, 좌측, 상부측, 및 하부측)일 수 있다.

시스템(600)은 1.0 GHz 프로세서와 256M바이트의 랜덤 액세스 메모리를 갖는 랩탑 컴퓨터로 구현되었다. 이러한 시스템의 일예의 사용에서, 입력 비디오 신호는 초당 30개 프레임의 10초 길이 비디오 시퀀스이며, 각각의 프레임은 MPEG-1 포맷에 따라 인코딩되는 352×240 픽셀을 포함한다. 비디오 프레임들은 1/4 사이즈, 즉 176×120으로 다운 샘플링되었다. 따라서, 시스템(600)은 10초 길이 입력 시퀀스(이는 테니스 시합 동안 한 선수의 샷(shot)이 됨)를 디코딩하기 위해 2.016초를 사용한 MPEG-1 디코더(612)를 포함한다. 모든 카메라 움직임 추정치는 1.089초에 종료되며, 전체 시퀀스 동안 물체 검출 및 트랙킹은 1.151초에 종료되었다. 따라서, 비디오 움직임 분석을 위한 전체 시간 혹은 비용(2.24초)은 이 예에서 디코딩 비용(2.016초)에 필적할만하며, 디코딩, 카메라 움직임 분석 및 물체 움직임 분석(검출 및 트랙킹)을 포함하는 모든 처리는 실시간(10초)보다 더 고속으로 마무리되었다. 주목되는 바와 같이, 인코딩된 비디오 클립 대신 이미지 시퀀스를 사용하는 것은 디코딩 비용을 절감시킬 수 있으며, 이 예에서 전체 처리의 속도를 배가시킬 수 있다. 또한, 이미지 시퀀스가 Y-U-V 포맷으로 제공된다면, 컬러 공간 변환의 비용 또한 절감될 수 있다.

전술한 랩탑 컴퓨터 상에서 구현되는 시스템(600)의 다른 사용 예에서, 샌프란시스코의 부두의 26초 비디오가 입력 비디오 신호로서 사용되었다. 이 비디오는 MJPEG 포맷으로 인코딩되었으며, 초당 15개 프레임이 포함되며, 각각의 프레임은 640×480 픽셀을 포함한다. 주목되는 바와 같이, 입력 프레임은 폭이 200 픽셀이하로 될 때까지 절반×절반으로 다운 샘플링되었으며, 이 예에서는 사용된 최종 이미지 사이즈는 160×120이었다. 따라서, 시스템(600)은 26초 입력 시퀀스를 디코딩하기 위해 9.263초를 필요로 한 MJPEG 디코더(612)를 포함했다. 모든 카메라 움직임 추정치는 2.373초에 종료되며, 전체 시퀀스 동안 물체 검출 및 트랙킹은 1.323초에 종료되었다. 따라서, 비디오 움직임 분석을 위한 전체 비용(3.696초)은 이 예에서의 디코딩 비용(9.263초)보다 훨씬 적으며, 디코딩, 카메라 움직임 분석, 물체 움직임 분석(검출 및 트랙킹)을 포함한 모든 처리는 실시간(26초)보다 더 고속으로 마무리되었다.

이러한 예로부터, 시스템(600)의 사용은 액션 비디오, 상업적 비디오 등을 포함하여 전형적인 타입의 비디오에 대해 실용적이어야만 한다는 것을 알 수가 있다. 이미지 사이즈가 보다 더 클 경우, 디코딩 및 다운 샘플링의 비용은 전체 계산 비용에서 현저할 수 있지만, 이러한 비용은 만약 휘도 이미지 시퀀스가 입력 신호로서 제공된다면 절감될 수 있다.

본 발명은 가령, 비디오 프린팅을 위한 특정 프레임의 비디오 시퀀스를 탐색하기 위해 사용될 수 있다. 또한, 본 발명은 자동화된 비디오 편집 및 지능형 비디오 브라우징에 제공될 수 있어서 보다 나은 비디오 컨텐츠 식별과 보다 정확한 비디오 하이라이트의 포착을 가능하게 한다. 본 발명의 이동 물체 검출 및 트랙킹에 의하면, 적절한 사이즈 및 위치의 이동 물체를 갖는 비디오 프레임들이 검출될 수 있으며 원하지 않는 프레임들은 무시되거나 제거될 수 있다.

전술한 절차들은 필요한 경우 반복적으로 수행된다는 것이 이해될 것이다. 이해를 용이하게 하기 위해, 본 발명의 여러 측면들은 가령 프로그램가능한 컴퓨터 시스템의 구성요소들에 의해 수행될 수 있는 동작의 시퀀스들의 측면에서 기술된다. 다양한 동작은 특정의 회로(가령, 특정 기능을 수행하도록 상호 접속된 이산 로직 게이트들 혹은 주문형 집적 회로)에 의해, 하나 이상의 프로세서에 의해 실행되는 프로그램 인스트럭션에 의해, 또는 그들의 조합에 의해 수행될 수 있다는 것 이 이해될 것이다.

또한, 본 발명은 추가적으로 인스트럭션으로 실행되는 시스템, 장치 또는 디바이스(가령, 컴퓨터 기반 시스템, 프로세서를 포함하는 시스템 또는 매체로부터 인스트럭션을 인출하여 그 인스트럭션을 실행하는 기타의 시스템)와 관련하여 그들 시스템, 장치 또는 디바이스에 의해 사용될 적절한 인스트럭션 세트를 저장하고 있는 임의의 형태의 컴퓨터 판독가능한 저장 매체 내에 내장되는 것으로 간주될 수 있다. 본 명세서에 사용되는 바와 같이, "컴퓨터 판독가능한 매체"는 인스트럭션을 실행하는 시스템, 장치, 또는 디바이스와 관련하여 혹은 그에 의해 사용될 프로그램을 포함하고, 저장하고, 통신하며, 전달하는 임의의 수단일 수 있다. 가령, 컴퓨터 판독가능한 매체는 전자, 자기, 광학, 전자기, 적외선의 반도체 시스템, 장치 디바이스 또는 전달 매체일 수 있지만 이에 국한되는 것은 아니다. 특정 예의 컴퓨터 판독가능 매체(비소모성 리스트)는 하나 이상의 배선을 갖는 전기 커넥션, 휴대용 컴퓨터 디스켓, 랜덤 액세스 메모리(RAM), 판독전용 메모리(ROM), 소거가능한 프로그램 판독전용 메모리(EPROM 또는 플래시 메모리), 및 광파이버를 포함한다.

따라서, 본 발명은 모든 것이 위에서 기술되지는 않았지만 여러 다양한 형태로 구현될 수 있으며 그러한 모든 형태는 본 발명의 영역 내에 존재하는 것으로 간주된다. 본 발명의 모든 측면에 있어서 그러한 형태는 기술된 동작을 수행하도록 "구성된 로직"으로서 혹은 기술된 동작을 수행하는 "로직"으로서 지칭될 수도 있다.

용어 "포함"은 언급된 특징들, 정수들, 단계들 또는 구성요소들의 존재를 규정하며 하나 이상의 다른 특징들, 정수들, 스텝들, 구성요소들 또는 그 그룹의 존재 혹은 추가를 배제하는 것은 아니다.

본 발명의 일 실시예들의 상세한 설명이 예시 및 기술되지만 본 발명이 개시된 그 형태에 국한되지는 않는다. 위에서 개시된 것에 비추어 변경 및 변형이 가능하거나 본 발명의 실시로부터 변형 및 변경이 행해질 수 있다. 아래의 특허청구범위 및 그 등가물은 본원 발명의 범위를 규정한다.

Claims

연속하는 이미지들의 쌍 간의 카메라 움직임을 추정하는 방법으로서,

연속하는 이미지들의 쌍으로부터 움직임 벡터들을 결정하는 단계―상기 움직임 벡터들을 결정하는 단계는, 연속하는 이미지들의 쌍 중의 하나를 다수의 픽셀 블럭으로 분할하는 단계(702)와, 그 이미지에서의 적어도 하나의 특징(feature)에 대응하는 블럭을 선택하는 단계(704)와, 선택된 각각의 블럭에 대응하는 휘도값들을 결정하는 단계(706)와, 상기 휘도값들에 기반하여 상기 선택된 블럭을 상기 연속하는 이미지들의 쌍 중의 다른 것의 픽셀 블럭들과 정합시키는 단계(708)와, 연속하는 이미지들의 쌍 내의 정합된 블럭과 관련되는 움직임 벡터들을 결정하는 단계(710)에 의해 수행됨―와,

상기 움직임 벡터들에 기반하여 카메라 움직임의 아핀 모델(affine model)을 추정하는 단계(712)를 포함하되,

상기 추정된 아핀 모델은 카메라 움직임 파라미터들의 세트를 결정하는

카메라 움직임 추정 방법.
제 1 항에 있어서,

각각의 블럭은 8×8의 픽셀 어레이인 카메라 움직임 추정 방법.
제 1 항에 있어서,

상기 움직임 벡터들은 검색 범위 내의 왜곡값을 최소화함으로써 결정되는 카메라 움직임 추정 방법.
제 1 항에 있어서,

영역외 블럭(outliers)을 제거하기 위해 상기 움직임 벡터들을 필터링하는 단계를 더 포함하는 카메라 움직임 추정 방법.
제 1 항에 있어서,

연속하는 이미지들의 쌍을 다운 샘플링하는 단계를 더 포함하되, 상기 움직임 벡터들은 다운 샘플링 이미지들로부터 결정되는 카메라 움직임 추정 방법.
제 1 항에 있어서,

상기 아핀 모델은 세 개의 직교축 주위의 카메라의 초점 길이 및 로테이션 각도에 기반을 두고 있는 카메라 움직임 추정 방법.
제 1 항에 있어서,

영역외 블럭을 제거하기 위해 상기 추정된 아핀 모델을 반복시키는(iterating) 단계를 더 포함하는 카메라 움직임 추정 방법.
비디오 움직임 식별 장치(620)로서,

연속하는 이미지들의 쌍 내의 픽셀 블럭으로부터 움직임 벡터들을 생성하도록 광학 흐름 분석을 위한 휘도 이미지들을 사용하는 광학 흐름 분석기(622) 및 상기 움직임 벡터들에 기반하여 아핀 모델 추정치를 생성하는 아핀 모델 추정기(624)를 포함하는 카메라 움직임 추정기(620)와,

상기 아핀 모델 추정치에 기반하여 잉여 블럭 오차(632)를 결정하며 상기 잉여 블럭 오차에 기반하여 블럭들을 선택하며, 선택된 블럭들을 필터링하는 물체 검출기(630)를 포함하되,

상기 물체 검출기는 물체의 사이즈 및 위치를 식별하는 경계 박스를 생성하는

비디오 움직임 식별 장치.
제 8 항에 있어서,

데이터 마련 장치를 더 포함하되,

상기 데이터 마련 장치는

입력 비디오 신호를 디코딩하여 이미지 시퀀스를 생성하는 디코더와,

상기 이미지 시퀀스를 수신하여 저해상도 이미지의 시퀀스를 생성하는 다운 샘플러와,

상기 다운 샘플링된 이미지 시퀀스로부터 휘도 정보를 추출하는 장치를 포함하는

비디오 움직임 식별 장치.
제 8 항에 있어서,

상기 아핀 모델 추정치들의 조합에 기반하여 적어도 하나의 센텐스(sentence)를 생성하는 시멘틱 의미 분석기(a semantic meaning parser)와,

상기 경계 박스에 기반하여 타겟 모델들 및 타겟 후보자 확률 밀도 함수를 결정하고, 트랙킹된 이동 물체의 표시를 생성하는, 타겟 모델 및 확률 계산기와 계수 최대화기를 포함하는, 이동 물체 트랙커를 더 포함하는

비디오 움직임 식별 장치.