KR20050050673A

KR20050050673A - 비디오 인코딩 방법

Info

Publication number: KR20050050673A
Application number: KR1020057006442A
Authority: KR
Inventors: 마르크 드리에우; 프랑소와즈 그롤리에르; 대니얼 스누크
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2002-10-16
Filing date: 2003-10-13
Publication date: 2005-05-31
Also published as: JP2006503478A; US20050259732A1; WO2004036920A1; EP1554888A1; AU2003267755A1; CN1706199A; US7149250B2

Abstract

본 발명은 I, P, 또는 B 타입의 비디오 객체 평면(VOP)을 프로세싱하며 상기 VOP의 동적인 할당을 포함하는 인코딩 방법에 관한 것이다. 상기 방법에 따라, 각각의 입력 프레임에 대하여, 현재 프레임과 이전 프레임 사이에 예비적인 순방향 움직임 수정이 수행된다. 그후 현재 움직임 필드와 이전 움직임 필드는 현재 및 이전 움직임 필드 내의 국부적인 차이의 함께와 연관하여 표현되는 코히런스 인자를 계산하는 데 사용된다. 실험적으로 결정된 문턱값에 대한 이 코히런스 인자의 값에 따라서, 코딩될 프레임의 타입에 대한 최종 결정이 이루어진다.

Description

비디오 인코딩 방법{VIDEO ENCODING METHOD}

본 발명은 일반적으로 객체-기반 비디오 코딩 분야에 관한 것으로서, 더 상세하게는, 자체로부터 나온 정보만을 사용하여 코딩된 인트라 코딩형 VOP(I-VOP), 또는 과거의 기준 VOP로부터 움직임 보상 예측을 사용하여 코딩된 예측 코딩형 VOP(P-VOP), 또는 과거와 미래의 기준 VOP로부터 움직임-보상된 예측을 사용하여 코딩된 양방향 예측형 VOP(B-VOP) 중 어느 하나인, 소위 VOP(Video Object Plane)로 구성되는 몇가지 타입의 데이터가 식별되는 프로세스에 따라 비디오 데이터의 시퀀스를 인코딩하는 방법에 관한 것이다.

MPEG-4 비주얼 표준은, 예컨대 디지털 텔레비전, 스트리밍 비디오, 모바일 멀티미디어, 게임 등과 같은 수많은 응용 영역에서, 큰 범위의 비트율로 객체(이전 MPEG 표준의 경우의 픽셀이 아니라)를 보고, 액세스하고 및 조작하는 기술을 제공한다. 상기 표준은 해당 비트스트림 내에서 별도로 코딩된 형태, 움직임, 및 텍스터 정보의 형태로 시간 및 공간 정보에 의해 정의되는 비디오 객체(VO: video object)에 대해 작용한다(이들 VO는 사용자가 액세스하고 조작할 수 있는 엔터티이다).

MPEG-4 접근법은 임의의 시퀀스의 연속적인 장면들을 표현하는 컨텐츠-기반 비주얼 데이터에 의존하는데, 각각의 장면은 각자의 고유 성질들, 즉 형태(shape), 움직임(motion), 텍스처(texture)를 가진 VO들의 조합이다. VO 개념에 덧붙여서, MPEG-4 표준은, 비디오 객체 계층(VOL: Video Object Layer)(각각의 VO는 응용 분야에 따라, 비디오 객체 계층 즉 VOL에 의해 표현되는 스케일러블하거나 스케일러블하지 않은 형태 중 어느 하나로 인코딩될 수 있다) 및 비디오 객체 평면(VOP: Video Object Plane)(= 시간적인 VO의 인스턴스)과 같은 다른 것들을 도입한다. 입력 비디오 시퀀스의 각각의 프레임은 다수의 임의 형태의 이미지 영역(VO)로 분할되고, 동일한 VO에 소속된 VOP들의 형태, 움직임, 및 텍스처 정보는 인코딩되어 특정한 시간적 또는 공간적 해법에 대응하는 개별적인 VOL로 전송된다(이는 이후에 각각의 VOP가 개별적으로 디코딩될 수 있게 함으로써 해당 비디오 시퀀스가 요구되는 바와 같이 유연하게 조작될 수 있게 한다).

이러한 코딩 구조에 의해 프로세싱되는 3가지 타입의 프레임은, I-VOP, P-VOP 및 B-VOP이다. I-VOP는 인트라 코딩형 VOP인데, 이 코딩 동작은 그 자체로부터 나온 정보만을 사용한다(가장 큰 비트 수를 필요로 하는 것은 해당 VOP이다). P-VOP는 예측 코딩형 VOP이며, 이 경우 코딩 동작은, I-VOP거나 또는 또 다른 P-VOP 중 어느 하나일 수 있는 과거 기준 VOP로부터 나온 움직임 보상된 예측을 사용한다(I-VOP와는 반대로, 현재 움직임-보상된 P-VOP와 그 기준 사이의 차이만이 코딩되며, 따라서 P-VOP는 보통 I-VOP보다 더 적은 비트가 필요하다). B-VOP는, 소위 순방향 및 역방향 움직임 추정에 각각 기초하는, 과거 및 미래 기준 VOP들(I-VOP 또는 P-VOP)로부터 나온 움직임-보상된 예측을 사용하여 코딩된다. B-VOP는 기준 VOP일 수 없으며, P-VOP처럼 단지 현재 움직임 보상된 B-VOP와 그 기준 VOP 사이의 차이만이 코딩된다.

공교롭게도, 상기 B-VOP 예측(또한 보간 모드 또는 양방향 모드라고도 함)을 사용하는 것은 압축의 면에서 항상 이득은 아니다. 비록 종종 약 20%의 비율만큼 압축이 향상되기는 하지만, 또한 그 외의 경우에는 엄청난 비율로 감소될 수도 있다.

도 1은 본 발명에 따른 인코딩 방법을 주요 단계들을 보여주는 흐름도.

따라서 본 발명의 목적은 이러한 B-VOP 예측을 오직 이것이 효율적인 경우에만 사용하는 인코딩 방법을 제안하려는 것이다.

이를 위하여, 본 발명은 본 상세한 설명의 도입부분에서 정의된 바와 같은 인코딩 방법에 관한 것으로서, 상기 인코딩 방법은 각각의 VOP의 코딩 단계와, 상기 코딩 단계 이전에, 현재 VOP와 이전 VOP 사이에 수행되는 움직임 추정 단계를 포함하며, 상기 움직임 추정 단계 자체는 코딩될 VOP 타입에 관한 결정 프로세스를 포함하며, 또한:

- VOP 제N번(VOP N)과 이전 VOP(VOP N-1) 사이의 움직임 추정을 수행하는 서브-단계와;

- 상기 움직임 추정에 기초하여, 상기 시퀀스 움직임을 수량화하도록 제공되는, 소위 코히런스 인자(coherence factor)를 계산하는 서브-단계와;

- 상기 코히런스 인자와 미리결정된 문턱값의 비교에 기초하여, 현재 VOP의 타입에 대한 최종 결정을 내리는 서브-단계로서, 상기 현재 VOP는 상기 문턱값에 대한 상기 코히런스 인자의 값에 따라 B-VOP이거나 아니거나 하는, 최종 결정 서브-단계에 기초한다.

이제 본 발명은 첨부된 도면을 참조하여, 예시를 통해, 자세히 설명될 것이다.

MPEG-4 인코더는 표준에 의해 요구되는 전송 순서로 VOP들을 출력하기 위하여 몇개의 기능 블록들, 그 중에서도 특히 하나 또는 몇개의 메모리를 포함한다. 예컨대, 만약 입력 시퀀스가 I B B P B B P ...라면, 출력 즉 전송 순서는 I P B B P B B ...일 것이다(역방향 예측을 가능하게 하기 위하여, 인코더는 B-VOP가 그 기준인 과거 및 미래 VOP들 이후에 전송되도록 자연스런 순서에서 상기 전송 순서로 화상들을 재-순서화하여야만 한다). 상기 인코더는 또한, 현재 VOP와 이전 VOP(즉 기준 VOP)를 수신하고 어떤 종류의 예측, 즉 I-VOP에 대해서는 예측 없음, P-VOP에 대해서는 순방향 예측, B-VOP에 대해서는 양방향 예측 중 무엇이 현재 VOP에 대하여 구현될 것인가에 대한 결정을 하기 위한, 움직임 추정기를 포함한다.

움직임 추정기 내에서 예측에 대한 결정 단계들을 보여주는 도 1에 도시된 바와 같이, 본 발명에 따라 상기 결정은 다음의 단계들을 구현하는 것에 기초한다. 먼저, 현재 VOP(제N번)가 캡처된다{단계(CAP-VN)}. 그 다음에, VOP N과 이전 VOP(제N-1번) 사이에 움직임 추정이 수행{단계(M-EST)}되고, 시퀀스 움직임을 수량화하기 위하여, "코히런스 인자"라는 명칭의 인자가 계산{단계(CF-CPT)}되고. 미리 결정된 문터값에 비교{단계(CF-TEST)}된다. 이 비교 결과에 따라(Y=더 낮음, N=더 낮지 않음), VOP N은 B-VOP로 되는 것이 허용되거나(N-AL) 허용되지 않는다(N-NAL). 그 다음에, 예측 모드와 관련된 최종 결정이 이루어지고{단계(V-DEC)}, 현재 VOP(= I-VOP, 또는 P-VOP, 또는 B-VOP)의 코딩 단계가 이루어질 수 있다{단계(COD)}.

본 발명의 범위를 제한하지 않으면서, 비교 테스트에서 사용되는 코히런스 인자에 대해 몇가지 표현식이 제안될 수 있다. 그러나, 바람직한 코히런스 인자는 예컨대, 매크로블록의 움직임 벡터(16×16 픽셀 모드 또는 8×8 픽셀 모드에서 추정된)와 동일한 VOP내의 그 선행자 사이의 절대 차의 합계(SAD: sum of absolute difference)와 이전 VOP에 대한 유사한 합계의 비율로서 표현될 수 있다(여기서는, k×k 크기의 매크로블록에 있어서, SAD의 표현식이:

이며, 여기서 B(i)와 A(i)는 각각 고려되는 현재 매크로블록과 기준 VOP내에서 상기 기준 VOP 내에 정의되는 검색 구역에서 가장 부합하는 매크로블록을 지칭한다는 것을 참작하고 있다).

상술한 바와 같이 본 발명은 일반적으로 객체-기반 비디오 코딩 분야, 더 상세하게는, 자체로부터 나온 정보만을 사용하여 코딩된 인트라 코딩형 VOP(I-VOP), 또는 과거의 기준 VOP로부터 움직임 보상 예측을 사용하여 코딩된 예측 코딩형 VOP(P-VOP), 또는 과거와 미래의 기준 VOP로부터 움직임-보상된 예측을 사용하여 코딩된 양방향 예측형 VOP(B-VOP) 중 어느 하나인, 소위 VOP(Video Object Plane)로 구성되는 몇가지 타입의 데이터가 식별되는 프로세스에 따라 비디오 데이터의 시퀀스를 인코딩하는 방법 등에 이용가능하다.

Claims

자체로부터 나온 정보만을 사용하여 코딩된 인트라 코딩형 VOP(I-VOP), 또는 과거의 기준 VOP로부터 움직임 보상 예측을 사용하여 코딩된 예측 코딩형 VOP(P-VOP), 또는 과거와 미래의 기준 VOP로부터 움직임-보상된 예측을 사용하여 코딩된 양방향 예측형 VOP(B-VOP) 중 어느 하나인, 소위 VOP(Video Object Plane)로 구성되는 몇가지 타입의 데이터가 식별되는 프로세스에 따라 비디오 데이터의 시퀀스를 인코딩하는 방법으로서, 상기 인코딩 방법은 각각의 VOP의 코딩 단계와, 상기 코딩 단계 이전에, 현재 VOP와 이전 VOP 사이에 수행되는 움직임 예측 단계를 포함하며, 상기 움직임 추정 단계 자체는 코딩될 VOP 타입에 관한 결정 프로세스를 포함하며, 또한:

- VOP 제N번(VOP N)과 이전 VOP(VOP N-1) 사이의 움직임 추정을 수행하는 서브-단계와;

- 상기 움직임 추정에 기초하여, 상기 시퀀스 움직임을 수량화하도록 제공되는, 소위 코히런스 인자(coherence factor)를 계산하는 서브-단계와;

- 상기 코히런스 인자와 미리결정된 문턱값의 비교에 기초하여, 현재 VOP의 타입에 대한 최종 결정을 내리는 서브-단계로서, 상기 현재 VOP는 상기 문턱값에 대한 상기 코히런스 인자의 값에 따라 B-VOP이거나 아니거나 하는, 최종 결정 서브-단계에 기초하는, 비디오 데이터 시퀀스 인코딩 방법.
제 1 항에 있어서, 상기 코히런스 인자는 예컨대, 임의의 매크로블록과 동일한 VOP내의 그 선행자에 대한, 상기 움직임 추정에서 나온 움직임 벡터들 사이의 절대 차의 합계(SAD: sum of absolute difference)와 이전 VOP에 대한 유사한 합계의 비율로서 표현되는, 비디오 데이터 시퀀스 인코딩 방법.