KR100563552B1

KR100563552B1 - 비선형 피라미드를 사용하여 계층적인 움직임 추정을 실행하기 위한 장치 및 방법

Info

Publication number: KR100563552B1
Application number: KR1019997011184A
Authority: KR
Inventors: 슈동 송; 야-퀸 쟝; 티하오 쉬앙
Original assignee: 미디어텍 인크.
Priority date: 1997-05-30
Filing date: 1998-05-29
Publication date: 2006-03-27
Also published as: WO1998054888A3; EP1138152B1; DE69836696D1; US6148027A; JP2002507339A; EP1138152B8; DE69836696T2; EP1138152A2; KR20010013198A; EP1138152A4; WO1998054888A2

Abstract

본 발명은 이미지 시퀀스를 인코딩하기 위한 장치 및 방법에 관한 것으로 특히, 블록 기반의 움직임을 추정하기 위해 움직임 벡터를 결정하는 계산 복잡도를 감소시키며 개시된 비선형 피라미드를 사용하여 움직임을 추정하는 정확도를 높이기 위한 방법에 관한 것이다.

Description

비선형 피라미드를 사용하여 계층적인 움직임 추정을 실행하기 위한 장치 및 방법 {METHOD AND APPARATUS FOR PERFORMING HIERARCHICAL MOTION ESTIMATION USING NONLINEAR PYRAMID}

본 출원은 1997년 5월 30일에 제출된 미국 임시출원 60/048,181의 우선권을 청구한다.
본 발명은 이미지 시퀀스를 인코딩하기 위한 장치 및 방법에 관한 것으로 특히, 블록 기반의 움직임을 추정하기 위해 움직임 벡터를 결정하여 계산 복잡도를 감소시키며 움직임을 추정하는 정확도를 높이기 위한 방법에 관한 것이다.

비디오 이미지 시퀀스와 같은 이미지 시퀀스는 전형적으로 이미지 프레임 또는 영상의 시퀀스를 포함한다. 필요한 전송 대역폭 또는 저장 용량을 감소시키기 위해, 프레임 시퀀스는 시퀀스내의 중복성 정보가 저장되거나 전송되지 않도록 압축된다.

일반적으로, 이미지 시퀀스를 인코딩하기 위해, 한 프레임에서 다음 프레임으로의 장면의 대상의 움직임에 관계되는 정보는 인코딩 프로세스에서 중요한 역할을 한다. 대부분의 이미지 시퀀스내에서 연속적인 프레임 사이에 존재하는 높은 중복성(redundancy) 때문에, 실질적인 데이타 압축은 공지된 움직임 추정/보정 기술(또한, 움직임 보정된 프레임간 예측 비디오 코딩으로 공지됨)을 사용하여 달성될 수 있고, 이는 ITU H.263, ISO MPEG-1 및 MPEG-2와 같은 다양한 국제 표준에 의해 적용된다.

통상적인 움직임 보정 방법은 블록 매칭 알고리즘(BMA)이며, 이는 블록-바이-블록에 기초한 변위(displacement)를 추정한다. 각각의 상기 현재 블록에 대해, 선행 프레임의 선택된 검색 영역에서 현재 블록에 가장 정합되는 블록의 픽셀에 대한 검색이 실행된다. 즉, 각각의 현재 블록을 선택된 전체 검색 영역과 비교하는 접근 방식은 전체 검색 접근 방식 또는 과도 검색 접근 방식으로서 공지되어 있다. 과도 검색 접근 방식에 의한 움직임 벡터의 결정은 특히 검색 영역이 큰 곳에서 집중적으로 계산된다.

다른 움직임 추정 방법은 계층적 움직임 추정(HME)의 개념에서 상호 참조되며, 이미지는 다중 해상도 프레임 구조 즉, 피라미드로 분해된다. 이 후, 계층적인 움직임 벡터 검색이 실행되고, 상기 검색은 피라미드의 최저 해상도에서 최고 해상도까지 계속된다. HME는 빠르고 효과적인 움직임 추정 방법으로 설명되지만, 파라미드의 생성은 여전히 상당한 계산 사이클량을 초래한다.

그러므로, 움직임 벡터를 결정하는 계산 복잡도를 줄이기 위한 장치 및 방법이 필요하다.

본 발명의 실시예는 움직임 벡터를 결정하는 계산 복잡도를 줄이고 움직임 추정 방법의 정확도를 개선하기 위한 장치 및 방법이다. 특히, 본 발명은 이미지 시퀀스의 각각의 이미지 프레임을 비선형 피라미드로 분해한다. 이 후, 계층적 움직임 벡터 검색이 비선형 피라미드에서 실행된다.

본 발명은 도면을 참조로 하여 이하에서 상세히 설명된다.

도 1은 움직임 벡터를 결정하는 계산 복잡도를 줄이기 위한 본 발명의 인코더의 블록 다이아그램이다.

도 2는 블록 기반의 움직임을 추정하기 위해 움직임 벡터를 결정하는데 있어 계산 복잡도를 감소시키기 위한 방법의 플로우챠트이다.

도 3은 비선형 피라미드를 구성하기 위한 방법의 플로우챠트이다.

도 4는 3×3 중간값 커널을 사용하여 이미지에 필터링 동작을 적용한 블록다이아그램이다.

도 5는 저해상도 이미지를 생성하기 위해 이미지를 데시메이션하는 프로세스의 블록다이아그램이다.

도 6은 본 발명의 인코딩 시스템의 블록다이아그램이다.

도 7은 5×5 중간값 커널을 사용하여 이미지에 필터링 동작을 적용한 블록다이아그램이다.

이해를 돕기 위해, 동일 인자를 나타내도록 동일 참조 번호가 사용되었다.

도 1은 예를 들면, 블록 기반의 계층적 움직임을 추정하는데 사용된 움직임 벡터를 결정하는 데 있어서의 계산 복잡도를 감소시키기 위한 본 발명의 장치(100)의 블록다이아그램을 도시한다. 본 발명의 바람직한 실시예는 하기에서 인코더를 사용하여 설명되지만, 본 발명은 일반적으로 이미지 프로세싱 시스템에 사용되는 것으로 이해할 수 있다. 게다가, 본 발명은 다양한 코딩 표준에 따르는 인코더에 적용될 수 있다. 이 표준은 동영상 전문가 그룹 표준(예를 들면, MPEG-1(11172-*) 및 MPEG-2(13818-*), H.261 및 H.263)을 포함하며 이에 제한되지 않는다.

장치(100)는 인코더이거나 보다 복잡한 블록 기반의 움직임을 보정한 코딩 시스템의 일부분이다. 장치(100)는 움직임 추정 모듈(140), 움직임 보정 모듈(150), 선택적인 세그먼테이션 모듈(151), 전처리 모듈(120), 비율 제어 모듈(130), 변환 모듈(예를 들면 DCT 모듈:160), 양자화 모듈(170), 코더(예를 들면 가변 길이 코딩 모듈:180), 버퍼(190), 역 양자화 모듈(175), 역 변환 모듈(예를 들면 역 DCT 모듈:165), 감산기(115) 및 합산기(155)를 포함한다. 인코더(100)는 다수의 모듈을 포함하지만, 당업자는 다양한 모듈로 실행된 기능이 도 1에 도시된 바와 같은 개별 모듈로 분리될 필요가 없다는 것을 알 수 있다. 예를 들면, 움직임 보정 모듈(150), 역 양자화 모듈(175) 및 역 DCT 모듈(165)을 포함하는 모듈 세트는 일반적으로 "내장 디코더"로 공지되어 있다.

도 1은 MPEG 표준에 따라 디지털화되고 휘도 및 두개의 색차 신호(Y, C_r, C_b)로 표현되는 경로(110)의 입력 이미지(이미지 시퀀스)를 도시한다. 이 신호는 또한 각각의 영상(프레임)이 다수의 매크로 블록으로 나타나도록 다수의 층으로 분할된다. 각각의 매크로 블록은 하나의 블록이 8행 × 8열의 샘플 어레이로 정의된 4개 휘도 블록, 한개의 C_r 블록 및 한개의 C_b 블록을 포함한다. 영상을 블록 유니트로 분할하면 두개의 연속적인 영상 사이의 변화에 대한 식별력이 개선되며 저 진폭 변환 계수(하기에 기술됨)의 제거에 의한 이미지 압축이 향상된다. 이하의 설명은 MPEG 표준 용어를 사용한다; 그러나, 매크로 블록 또는 블록의 용어는 인코딩에 기초한 임의의 크기 또는 형태의 픽셀 블록으로 기술되는 것을 유의해야 한다. 대체적으로, "매크로 블록"은 단일 픽셀 만큼 작거나 또는 전체 비디오 프레임과 같이 클 수 있다.

바람직한 실시예에서, 디지털화된 입력 이미지 신호는 전처리 모듈(120)의 하나 이상의 전처리 단계를 거친다. 특히, 전처리 모듈(120)은 비선형 피라미드 발생기(122)를 포함한다. 비선형 피라미드 발생기(122)는 "비선형 피라미드"를 발생시키기 위해 비선형 피라미드 구성 방법을 사용하여 각각의 프레임을 다수의 다른 해상도로 분해 또는 필터링하는 비선형 필터(123)를 사용하며, 상기 비선형 피라미드의 다양한 해상도는 이하 기술된 바와 같이 계층적 방식으로 서로 상관된다. 바람직한 실시예에서, 비선형 피라미드는 계층적 움직임 추정 프로세스를 실행하기 위해 사용된다.

본 발명은 움직임 추정 프로세스와 결합하여 직접 실행되지만, 다른 이미지 프로세싱 방법에 적용될 수 있다. 예를 들면, 선택적인 블록 분류기 모듈(124)은 비선형 피라미드의 해상도내에서 영역(블록)들을 고 활동률 또는 저 활동률의 영역으로 분류하기 위해 제공된 정보를 이용할 수 있으며, 이에 따라 각각의 프레임내에서의 특징을 검출할 수 있다. 다음으로, 특징 검출 정보(feature detection information)는 각각의 프레임의 영역을 세그먼테이션하기 위해(또는 단순히 확인하기 위해) 선택적인 세그먼테이션 모듈(151)의 세그먼테이션 프로세스를 돕는데 사용될 수 있다. 상기 각각의 프레임은 예를 들면 전경에서 배경 또는 얼굴과 같은 다양한 특징을 가진 대상에서 하나의 대상과 같다.

도 1을 참조하면, 경로(110)를 통해 입력 이미지는 또한 움직임 벡터를 추정하기 위해 움직임 추정 모듈(140)로 수신된다. 움직임 벡터는 현 영상에서의 블록의 좌표 위치로부터 참조 프레임내의 좌표들로의 오프셋을 제공하기 위해 움직임 보정에 의해 사용되는 2차원 벡터이다. 움직임 벡터의 사용은 현재 프레임에서의 변화가 코딩되어 전송되기 때문에 채널을 통해 전송된 정보량을 줄임으로써 이미지 압축을 크게 높힌다. 바람직한 실시예에서, 움직임 추정 모듈(140)은 또한 움직임 추정 프로세스의 성능을 향상시키기 위해 전처리 모듈(120)로부터 정보를 수신한다.

움직임 추정 모듈(140)로부터의 움직임 벡터는 샘플값의 예측 효율을 향상시키기 위해 움직임 보정 모듈(150)에서 수신된다. 움직임 보정은 이전 디코딩된 샘플값을 포함하는 과거 및/또는 미래 참조 프레임으로 오프셋을 제공하기 위해 움직임 벡터를 사용하는 예측을 포함하며, 예측 에러를 형성하는데 사용된다. 즉, 움직임 보정 모듈(150)은 경로(152)에서 현재 프레임을 추정(움직임 보정된 예측 또는 예측된 이미지)하기 위해 이전에 디코딩된 프레임 및 움직임 벡터를 사용한다. 이 움직임 보정 예측은 경로(153)에 에러 신호(e) 또는 예측 중복성(predictive residual)를 형성하기 위해 현재 매크로 블록의 경로(110)에서 입력 이미지로부터 감산기(115)를 거쳐 감산된다.

예측 중복성 신호는 예를 들면 DCT 모듈(160)과 같은 변환 모듈로 통과된다. 이 후, DCT 모듈은 8행×8열의 DCT 계수 블록 세트를 생성하기 위해 각 블록의 예측 중복성 신호에 순방향 이산 코사인 변환 프로세스를 적용한다. 이산 코사인 변환은 DCT 계수가 코사인 함수 세트의 진폭을 나타내는 반전 가능한 이산 직교 변환이다.

최종 8×8 DCT 계수 블록은 양자화(Q) 모듈(170)에 의해 수신되고 DCT 계수는 양자화된다. 양자화 프로세스는 양자화 값 세트에 의해 DCT 계수를 분할하여 표현된 DCT 계수의 정확도를 감소시키거나 정수값을 형성하기 위해 적당한 라운딩으로 스케일한다. 양자화 값은 기초 함수(시각적 가중 양자화:visually weighted quantization)의 가시도를 기초로 한 기준을 사용하여, 각각의 DCT 계수에 대해 각각 세팅될 수 있다. 이 값으로 DCT 계수를 양자화함으로써, 많은 DCT 계수는 0으로 전환되고 이에 따라 이미지 압축 효율이 개선된다.

다음으로, 최종 양자화된 8×8 DCT 계수 블록은 신호 접속(171)을 통해 가변 길이 코딩 모듈(180)과 같은 코더에 의해 수신되며, 양자화된 계수의 2차 블록은 자신을 양자화된 DCT 계수의 일차 스트링으로 전환하기 위해 "지그-재그" 순서로 스캔된다. 이 후, 가변 길이 코딩(VLC) 모듈(180)은 양자화된 DCT 계수의 스트링 및 매크로 블록 타입과 움직임 벡터와 같은 매크로 블록에 대한 모든 부가 정보를 인코딩한다. 그러므로, VCL 모듈(180)은 입력 이미지를 유효 데이타 스트림으로 전환하는 최종 단계를 수행한다.

데이타 스트림은 예를 들면 "선입-선출"(FIFO) 버퍼(190)와 같은 버퍼로 수신된다. 다양한 영상 타입 및 가변 길이 코딩 사용의 결과 전체 비트율은 가변적이다. 즉, 각각의 프레임을 코딩하기 위해 사용된 비트 개수는 다를 수 있다. 그러므로, 고정-비율 채널을 포함하는 애플리케이션에서, FIFO 버퍼는 비트율을 평활화하기 위해 채널에 인코더 출력을 정합하는데 사용된다. 그러므로, FIFO 버퍼(190)로부터의 경로(195)에 대한 출력 신호는 입력 이미지(110)의 압축된 표현이며, 저장 매체 또는 원격 통신 채널로 보내진다.

비율 제어 모듈(130)은 데이타 스트림을 전송 한 후, 디코더부(수신기 또는 목적 저장 장치 내부, 도시되지 않음)에서의 오버플로우 및 언더플로우를 방지하기 위해 FIFO 버퍼(190)로 입력되는 데이타 스트림의 비트율을 모니터링 및 조절하는 역할을 한다. 고정 비율 채널은 디코더(도시되지 않음)에서 일정 비율로 입력 버퍼에 비트를 운반하는 역할을 한다. 영상 비율에 의해 결정된 규칙적인 간격에서, 디코더는 입력 버퍼로부터 다음 영상에 대한 모든 비트를 즉시 제거한다. 만일 입력 버퍼에 대단히 적은 비트가 존재한다면, 즉, 다음 영상에 대한 비트가 수신되지 않았다면, 입력 버퍼는 언더플로우되어 에러를 발생한다. 유사하게, 만일 입력 버퍼에 대단히 많은 비트가 존재한다면, 즉, 입력 버퍼의 용량이 영상 스타트 사이에서 초과된다면, 이 후, 입력 버퍼는 오버플로우되어 오버플로우 에러를 발생한다. 그러므로, 상기 작업은 인코더에 의해 생성된 비트 개수를 제어하기 위해 버퍼(190)의 상태를 모니터링하는 비율 제어 모듈(130)의 작업이며, 이에 따라 오버플로우 및 언더플로우 상태를 방지한다. 비율 제어 방법은 양자화 스케일을 조정함으로써 코딩 비트의 개수를 제어할 수 있다.

게다가, 양자화 모듈(170)로부터의 양자화된 DCT 계수의 최종 8×8 블록은 신호 접속(172)을 통하여 역 DCT 모듈(165) 및 역 양자화 모듈(175)에 의해 수신된다. 간단히, 이 단계에서, 인코더는 다음의 인코딩에 대한 참조 프레임으로서 사용되도록 데이타를 디코딩함으로써 이미지 시퀀스의 P 프레임 및 I 프레임을 재생 성한다.

도 2는 블록 기반의 움직임 추정에 대한 움직임 벡터를 결정하는데 있어 계산 복잡도를 감소시키기 위한 방법(200)의 플로우 챠트를 도시한다. 즉, 이 방법(200)은 정합이 발생될 만한 초기 탐색 영역을 빠르게 규정함으로써 블록 기반의 움직임 추정 방법을 개선한다.

특히, 이 방법(200)은 단계(205)에서 시작하고 비선형 피라미드가 이미지 시퀀스의 각각의 이미지 프레임에 대하여 생성되는 단계(210)로 진행된다. 비선형 피라미드 생성 방법은 도 3-5 및 7을 참조하여 이하 설명된다. 비선형 피라미드는 계층적 피라미드의 특정 타입이다.

비선형 피라미드가 생성되면, 단계(220)에서 비선형 피라미드에 움직임 추정이 수행되며, 검색은 비선형 피라미드의 최저 해상도 레벨에서 실행된다. 상기 검색으로부터 획득된 정보는 이 후 비선형 피라미드의 다음으로 높은 해상도 레벨에서 검색을 정밀하게 수행하는데 사용되며 마찬가지로 최고 해상도 레벨까지 이용된다. 검색 정보의 전달은 움직임 추정을 실행하는 효율적이고 빠른 방법을 제공한다.

특히, 계층적 움직임 벡터 추정은 비선형 피라미드의 더 높은 레벨(낮은 해상도층)에서 더 낮은 레벨(높은 해상도층)로 순환적으로 이루어진다. 그러므로, 계산 복잡도는 높은 층에서 이미지 크기를 감소시키기 때문에 상당히 감소된다. 바람직한 실시예에서, 계층적 블록 기반의 움직임 벡터 추정에 사용된 정합 기준은 다음과 같다.

여기에서 I_lk(i,j)는 첫번째 레벨의 k번째 프레임의 블록내에서의 위치(i,j)의 픽셀 강도이며 변위는 (x,y)이다. 그러므로 I_3,k(i,j)는 풀(full) 해상도 이미지의 픽셀 강도이다.

및

은 각각 레벨 1에서의 서브 블록의 높이 및 폭이다. M 및 N은 각각 레벨 3에서의 높이 및 폭이다.

이 됨을 유의하라.

의 블록 크기는 레벨 1에서의 서브 이미지에 사용된다. 이 구조에 의해, 모든 서브 이미지에 대한 움직임 블록의 개수는 임의의 해상도에서의 블록이 다른 해상도에서의 동일 위치와 동일 대상에 일치되기 때문에 일정하다. 게다가, 블록의 크기는 해상도에 따라 다양하다. 더 작은 움직임 블록은 더 낮은 해상도와 일치한다. 다양한 블록 사이즈 방법의 이점은 다른 층의 중요성을 적당히 가중시키고 다른 해상도에서의 다른 주파수와 인간의 시각 개념을 정합시키며 고 레벨의 피라미드에서 작은 대상에 대한 움직임을 검출할 수 있다. 비선형 피라미드가 구성된 후, 레벨 0 에서의 움직임 벡터는 방정식(1) 및

의 블록 크기로 풀 검색을 사용하여 추정된다. 최소 MAD₁(x,y)를 제공하는 움직임 벡터는 상기 레벨에서 대략적인(coarse) 움직임 벡터로서 선택되며, 더 낮은 레벨로 전달되어 그 레벨에서의 움직임 추정에 대한 초기 벡터로서 사용되도록 한다. 즉, 더 높은 레벨에서 검출된 움직임 벡터는 더 낮은 레벨로 전송되며 그 레벨에서 정밀한 수행 단계를 유도한다. 이 움직임 추정 프로세스는 레벨 3 미만에서 반복된다.

초기 벡터로서 레벨 l 에 대한 레벨 l-1 에서의 움직임 벡터를 두번 사용함으로써, 레벨 1 에 대한 움직임 벡터는 풀 검색을 사용하지만 상대적으로 작은 검색 범위를 사용하여 개선된다. 만일 레벨 1-1에서의 움직임 벡터가 V_1-1(x,y)에 의해 표현된다면, 레벨 1 에서 검출된 움직임 벡터는 다음과 같이 기술된다.

(2)

여기에서 ΔV(δx,δy)는 레벨 1 에서의 움직임 벡터의 업데이트된 증가이며 다음과 같다.

최초의 이미지와 움직임 보정된 이미지 사이에서 예측 에러를 감소시키기 위해, 제공된 계층적 움직임 벡터 추정 알고리즘에서 반 픽셀(half pixel) 검색이 실행된다. 반 픽셀 해상도를 가진 이미지는 풀 픽셀 해상도를 가진 이미지로부터 보간을 사용하여 생성된다. 공간 보간된 픽셀값은 MPEG TM4에 의해 추천된 보간 방정식을 사용하여 계산된다. 보간 방정식은 다음과 같다.

여기에서, x,y는 정수-픽셀 수직 및 수평 좌표이며, S는 픽셀값이다. 본 발명은 방정식(1)-(4)로 기술된 움직임 추정 프로세스를 사용하지만, 본 발명은 다른 움직임 추정 방법으로 실행될 수 있다. 즉, 비선형 피라미드의 사용은 임의의 다른 움직임 추정 방법으로 사용될 수 있다.

도 3은 비선형 피라미드를 구성하는 방법(300)의 플로우챠트를 도시한다. 특히, 방법(300)은 단계(305)에서 시작하고 초기화가 발생하는 단계(310)로 진행된다. 즉, 최초 이미지 X_n(n = 최초 이미지의 해상도 레벨)은 이미지 X_k(k = 비선형 이미지 피라미드의 해상도 레벨)와 동일하게 세팅되며, 비선형 이미지 피라미드의 최고 해상도 레벨(레벨 0 즉, k = 0)로서의 역할을 한다.

단계 320 에서, 방법(300)은 이미지 X_k에 비선형 필터(H)를 적용하며, 비선형 필터(H)의 출력은 H(X_k)로 표현된다. 비선형 필터는 3×3 중간값 함수, 5×5 중간값 함수, 가중된 중간값 1 함수 및 가중된 중간값 2 함수와 같은 비선형 함수(또는 커널)을 적용한다. 이 함수는 도 4 및 7을 참조하여 기술된다.

특히, 도 4는 필터링된 이미지(420)를 만들기 위해 3×3 중간값 커널을 사용하여 이미지(410)에 비선형 필터링 연산을 적용하는 블록 다이아그램을 도시한다. 본 발명에서, 3×3 중간값 커널은 세개(3)의 다른 실시예로 표현될 수 있다.

상기 연산에서, 이미지(410)의 각각의 픽셀값(411)은 필터링된 이미지(420)에서 일치하는 픽셀값(422)을 만들기 위해 상기 3×3 중간값 커널중 하나에 의해 필터링된다. 이미지(410)는 직교성 입력 이미지이거나 이전에 필터링되고 데시메이션된 비선형 피라미드 이미지일 수 있다.

방정식(5)은 비가중 3×3 중간값 커널, 즉, 커널내의 각 값은 동일하게 가중된다. 필터링된 이미지(420)에서 필터링된 픽셀 X_(1,1)(422a:최상좌 픽셀)을 생성하기 위해, 3×3 커널(412a로 라벨된 박스)은 이미지(410)의 대응 픽셀(X_(1,1))에 적용되며, 3×3 커널은 필터링된 픽셀의 중앙에 위치한다. 즉, 필터링된 픽셀(X_(1,1);422a)값은 3×3 중간값 커널에 의해 커버링된 9 개의 중간값을 선택하여 결정된다. 그러나, 이미지의 코너에 위치한 픽셀(X_(1,1))을 중심으로 하는 3×3 커널을 사용하면 3×3 커널에 필요한 9 개의 값을 제공하는 픽셀값이 불충분하다. 상기 "경계" 픽셀에서, 이미지는 커널로 필요한 픽셀값을 제공하기 위해 근접 "에지" 픽셀값을 복사하여 조작한다. 에지 패딩(padding)은 필터링 프로세스에 의해 에러를 발생시키지 않고 이미지의 모서리에 위치한 정보를 유지하는 이점을 제공한다.

예를 들면, 박스(412a)에서, 픽셀값(X_(1,1))은 세번 복사되고 값 X_(2,1)및 값 X_(1,2)은 한번 복사된다. 만일 X_(1,1)는 0, X_(1,2)는 100, X_(2,1)는 200 및 X_(2,2)는 255를 가지며, 이 후, 필터링된 픽셀 X_(1,1)(422a)이 픽셀값(0,0,0,0,100,100,200,200,255)의 그룹으로부터 중간값을 선택하여 결정된다면, 픽셀값은 100이 될 것이다. 필터링된 픽셀(422b)은 유사하게 3×3 커널(412b)을 사용하여 생성되며, 필터링된 픽셀(422c)은 전 필터링된 이미지(420)를 형성하기 위해 3×3 커널(412c)등등을 사용하여 생성된다.

선택적으로, 3×3 중간값 커널은 방정식(2) 및 (3)에 도시된 바와 같이 가중될 수 있다. 즉, 커널내의 다양한 픽셀값은 다른 픽셀값보다 더욱더 가중되거나 카운트된다. 예를 들면, 방정식(6)은 커널 중앙의 픽셀값이 주변 픽셀값보다 3회 더 가중되는 것을 증명한다. 상기 가중값 "x"는 대응 픽셀값이 가중값 x에 의해 복사되는 가중값으로 간주할 수 있다. 상술한 동일 예를 사용하여, 만일 가중된 3×3 중간값 방정식(6)이 사용되면, 필터링된 픽셀(X_(1,1)(422a))이 픽셀값 그룹(0,0,0,0,0,0,100,100,200,200,255)으로부터 중간값을 선택하여 결정되고, 픽셀값은 이 경우 "0"이 될 것이다. 즉, 커널은 중앙 픽셀값(X_(1,1))을 세번 가중하거나 계산하며, 이에 따라 픽셀값의 그룹에 두개의 추가 "0"값을 더한다.

유사하게, 방정식(7)은 커널내의 다른 픽셀값이 가중될 수 있다는 것을 증명한다. 즉, 중앙 픽셀값이 세번 가중되는 것 외에, 중앙 픽셀값의 상,하,좌,우 픽셀값은 나머지 주변 픽셀값보다 두번 더 가중된다. 또한, 상술한 동일 예를 사용하여, 만일 가중된 3×3 중간값의 방정식(7)이 사용되면, 필터링된 픽셀(X_(1,1)(422a))이 픽셀값(0,0,0,0,0,0,0,0,100,100,100,200,200,200,255)의 그룹으로부터 중간값을 선택하여 결정되며, 픽셀값은 또한 이 경우 0 이 될 것이다.

다른 가중된 3×3 중간값 커널이 본 발명에서 사용될 수 있다는 것을 유의하라. 그러나, 특정 가중된 중간값 커널의 선택은 종종 이미지내의 애플리케이션 및/또는 컨텐트에 의해 규정된다.

선택적으로, 도 7은 필터링된 이미지(720)를 생성하기 위해 5×5 중간값 커널을 사용하여 이미지(710)에 비선형 필터링 연산을 적용시키는 블록다이아그램을 도시한다. 본 발명에서, 5×5 중간값 커널은 다음과 같다.

연산에서, 이미지(710)의 각각의 픽셀값(711)은 필터링된 이미지(720)의 대응 픽셀값(722)을 생성하기 위해 상술한 5×5 중간값 커널중 하나에 의해 필터링된다. 이미지(710)는 최초의 입력 이미지이거나 또는 비선형 피라미드의 이전에 필터링되고 데시메이션된 이미지이다.

설명을 위해, 방정식(8)은 비가중 5×5 중간값 커널을 표현하고, 즉, 커널의 각각의 값이 동일하게 가중된다. 필터링된 이미지(720)의 필터링 픽셀(X_(1,1)(422a): 최상좌 픽셀)을 생성하기 위해, 5×5 커널(712a로 라벨된 박스)은 이미지(710)의 대응 픽셀(X_(1,1))에 적용되며, 5×5 커널은 필터링된 픽셀의 중앙에 위치한다. 즉, 필터링된 픽셀값(X_(1,1)(422a))은 5×5 중간값 커널에 의해 커버된 25 값의 중간값을 선택하여 결정된다. 또한, 이미지의 모서리에서 픽셀(X_(1,1))의 중앙에 위치한 5×5 커널을 사용하면, 5×5 커널에 필요한 25 값을 제공하기 위한 픽셀값이 불충분하다. 상기 "경계" 픽셀에서 이미지는 도 7에 도시된 바와 같이 커널에 필요한 픽셀값을 제공하기 위해 근접 "에지" 픽셀값을 복사하여 패딩된다.

예를 들면, 박스(712a)내에서, 픽셀값(X_(1,1))은 8번 복사되고 픽셀값(X_(2,1),X_(3,1),X_(1,2),X_(1,3))은 각각 두번 복사된다. 만일 X_(1,1)가 0, X_(1,2)가 50, X_(1,3)가 100, X_(2,1)가 75, X_(3,1)가 125, X_(2,2)가 200, X _(3,2)가 255, X_(2,3)가 255, X_(3,3)가 255를 가진후, 필터링된 픽셀(X_(2,1)722a)이 픽셀값(0,0,0,0,0,0,0,0,0,50,50,50,75,

75,75,100,100,100,125,125,125,200,255,255,255)의 그룹으로부터 중간값을 선택하여 결정되면, 픽셀값은 75가 될 것이다. 필터링된 픽셀(722b)은 유사하게 5×5 커널(712b)을 사용하여 생성되며, 필터링된 픽셀(722c)은 유사하게 풀 필터링된 이미지(720)를 형성하기 위해 5×5 커널(712c)등등을 사용한다.

3×3 가중된 중간값 커널과 유사하게, 5×5 커널은 또한 가중치로 실행된다.

도 3의 단계(330)에서, 방법 300은 비선형 피라미드의 더 낮은 해상도 이미지(X_k-1)를 생성하기 위해, 미리 정의된 인자에 의해 양 방향(수직 및 수평)으로 필터링된 이미지를 데시메이션한다. 도 5는 저해상도 이미지를 생성하기 위한 이미지로의 상기 데시메이션 프로세스의 블록다이아그램을 도시한다. 즉, 이미지, 예를 들면 필터링된 이미지(510)는 필터링된 이미지로부터 픽셀을 선택적으로 제거하여 저해상도 이미지(520)로 변형된다. 바람직한 실시예에서, 데시메이션 인자는 양방향의 2의 값으로 세트되고, 다른 모든 픽셀(수평 및 수직)은 저해상도 이미지(X_k-1:520)를 형성하기 위해 제거된다. 특히, 픽셀(512a,512d,512e)은 저해상도 이미지(520)에서 각각 대응 픽셀(522a,522c,522b)을 형성하도록 유지된다. 픽셀(512b,512c)은 데시메이션 프로세스에서 제거되며, 저해상도 이미지(520)가 완전히 형성될 때까지 계속된다. 본 발명은 두개의 데시메이션 인자를 사용하지만, 다른 데시메이션 인자값이 본 발명에 사용될 수 있다.

단계(340)에서, 방법 300은 비선형 피라미드의 추가 레벨을 생성하는 여부를 물어본다. 만일 질문에 대하여 긍정이면, 방법 300은 단계 320으로 복귀하며, 필터링 및 데시메이션 단계는 다음의 저해상도 이미지(X_k-2)등등을 생성하기 위해 반복된다. 만일 질문에 대하여 부정이면, 방법 300은 단계 350으로 진행되고 종료한다. 바람직한 실시예에서, 비선형 피라미드는 각각의 입력 이미지를 위해 생성되며, 비선형 피라미드는 4 레벨 해상도(레벨 0-3)를 가진다. 그러나, 비선형 피라미드는 어떠한 레벨의 해상도로 생성될 수 있으며 및/또는 "2"와 다른 데시메이션 인자를 사용하여 생성될 수 있다. 일반적으로, 비선형 피라미드는 특정 애플리케이션 또는 입력 이미지의 특성, 예를 들면, 이미지의 크기, 이미지의 컨텐트 등등에 일치하여 발생될 수 있다. 예를 들면, 큰 입력 이미지는 큰 비선형 피라미드를 필요로 한다.

도 6은 본 발명의 인코딩 시스템(600)의 블록다이아그램을 도시한다. 인코딩 시스템은 범용 컴퓨터(610) 및 다양한 입/출력 장치(620)를 포함한다. 범용 컴퓨터는 중앙 처리 유니트(CPU:612), 메모리(614) 및 일련의 이미지를 수신 및 인코딩하기 위한 인코더(616)를 포함한다.

바람직한 실시예에서, 인코더(616)는 단순히 상술한 바와 같은 인코더(100)이다. 인코더(616)는 물리적인 장치일 수 있고 통신 채널을 통하여 CPU(612)에 결합되어 있다. 선택적으로, 인코더(616)는 소프트웨어 애플리케이션(또는 예를 들면, 응용 주문형 집적 회로(ASIC)에 의한 소프트웨어 및 하드웨어의 결합)으로 표현되고 소프트웨어 애플리케이션은 저장 장치, 예를 들면, 마그네틱 또는 광학 디스크로부터 로드되고 컴퓨터의 메모리(612)에서 상주한다. CPU(612)는 메모리(614)에 상주하는 소프트웨어 애플리케이션을 실행하는 역할을 한다. 이와 같이, 본 발명의 인코더(100)는 컴퓨터 판독 가능 매체에 저장될 수 있다.

컴퓨터(610)는 키보드, 마우스, 카메라, 캠코더, 비디오 모니터, 다수의 이미징 장치 또는 테이프 드라이브, 플로피 드라이브, 하드 디스크 드라이브 또는 컴팩트 디스크 드라이브를 포함하지만 제한하지 않는 저장 장치와 같은 다수의 입력 및 출력 장치(620)에 결합될 수 있다. 입력 장치는 인코딩된 비디오 비트 스트림을 만들기 위해 컴퓨터에 입력을 제공하거나 또는 저장 장치 또는 이미징 장치로부터 비디오 이미지의 시퀀스를 수신하는 역할을 한다. 인코딩 시스템으로부터의 인코딩 신호가 디코딩 시스템(도시되지 않음)으로 향하는 통신 채널(630)이 도시되어 있다.

본 발명의 다양한 실시예가 자세히 도시되고 기술되어 있지만, 당업자는 본 발명의 사상을 유지하는 범위에서 개량할 수 있다.

Claims

적어도 하나의 블록으로 분할된 이미지의 움직임 추정을 실행하는 방법에 있어서,

(a) 상기 이미지를 비선형 피라미드로 분해하는 단계; 및

(b) 상기 비선형 피라미드에 대한 계층적인 움직임 추정을 실행하는 단계를 포함하는 것을 특징으로 하는 방법.
제 1 항에 있어서, 상기 분해 단계(a)는

(a') 필터링된 이미지를 생성하기 위해 상기 이미지에 비선형 필터를 적용하는 단계: 및

(a") 상기 비선형 피라미드의 저해상도 이미지를 생성하기 위해 상기 필터링된 이미지를 데시메이션(decimation)하는 단계를 포함하는 것을 특징으로 하는 방법.
제 2 항에 있어서, 상기 적용 단계(a')는 상기 이미지에 중간값 필터를 적용하는 단계를 포함하는 것을 특징으로 하는 방법.
제 3 항에 있어서, 상기 중간값 필터는 3×3 중간값 필터인것을 특징으로 하는 방법.
제 3 항에 있어서, 상기 3×3 중간값 필터는 가중값 필터인 것을 특징으로 하는 방법.
이미지를 비선형 피라미드 이미지로 분해하는 방법에 있어서,

(a) 상기 이미지를 상기 비선형 피라미드의 최고 해상도 이미지로 세팅하는 단계;

(b) 필터링된 이미지를 생성하기 위해 상기 이미지에 비선형 필터를 적용하는 단계; 및

(c) 상기 비선형 피라미드의 저해상도 이미지를 생성하기 위해 상기 필터링된 이미지를 데시메이션하는 단계를 포함하는 것을 특징으로 하는 방법.
제 6 항에 있어서, 상기 적용 단계(b)는 상기 이미지에 중간값 필터를 적용하는 단계를 포함하는 것을 특징으로 하는 방법.
제 7 항에 있어서, 상기 중간값 필터는 3×3 중간값 필터인 것을 특징으로 하는 방법.
제 7 항에 있어서, 상기 중간값 필터는 5×5 중간값 필터인 것을 특징으로 하는 방법.
적어도 하나의 블록으로 분할된 이미지에 대하여 움직임 추정을 실행하는 장치에 있어서,

상기 이미지를 비선형 피라미드로 분해하는 수단; 및

상기 비선형 피라미드에 계층적인 움직임 추정을 실행하는 수단을 포함하는 것을 특징으로 하는 장치.