KR20110042363A

KR20110042363A - 계수들의 블럭에서 유효 계수들의 위치들의 코딩을 갖는 비디오 코딩

Info

Publication number: KR20110042363A
Application number: KR1020117005953A
Authority: KR
Inventors: 지쳉 안; 추칭 첸; 쯔보 첸; 준 텡
Original assignee: 톰슨 라이센싱
Priority date: 2008-08-15
Filing date: 2009-08-07
Publication date: 2011-04-26
Also published as: CN102124740B; KR101730639B1; CN102124740A; WO2010018138A1; EP2154894A1; US20110134995A1; JP2012500508A; EP2311266B1; EP2311266A1; JP5270757B2

Abstract

공지된 영상 압축에서, 양자화 후, 변환된 영상 신호의 유효(즉, 비-제로) 진폭 계수들의 매우 희소한 분포가 대부분 양자화된 계수들이 제로인 동안에 얻어질 수 있다. 비록 제로들에 대한 실행-길이 코딩이 이용될 수 있지만은 결과적인 전체 데이터 레이트 측면에서의 변환-기반 영상 압축을 위한 비용이 드는 태스크는 코딩 블럭 또는 매크로블럭 내의 그러한 유효 계수의 위치를 기록하는 것이다. 블럭내의 유효 계수의 위치를 인코딩하는 것은 유효 계수들의 희소 분포 때문에 그의 크기 및 부호를 인코딩하는 것보다 더 비용이 든다. 결과적인 전체적인 데이터 레이트의 측면에서 변환-기반 영상 압축을 위한 값 비싼 태스크는 코딩 블럭들내의 그러한 유효 계수들의 위치를 기록하는 것이다. 사분법 프로세싱에서, "유효 스퀘어"(계수 블럭에서 적어도 하나의 비-제로 진폭 계수를 포함함)가 단일의 유효 계수들이 도달할 때까지 4개의 작은 스퀘어들로 반복적으로 분할되며, 생성된 모든 스퀘어들의 유효 상태들이 인코딩된다. 그러나, 일부 분포 패턴들에 있어서, 유효 계수들의 x-y 좌표들을 2진수로서 인코딩하면 코딩 비용을 적게 할 수 있다. 본 발명에 따르면 적어도 4개의 서로 다른 패턴 결정 또는 인코딩 모드들이 체크되며, 인코딩 사이드는 이들 모드들 중 비용이 저렴한 모드를 선택하여 대응하는 모드 정보를 대응하는 디코딩을 위해 디코딩 사이드에 전달한다.

Description

계수들의 블럭에서 유효 계수들의 위치들의 코딩을 갖는 비디오 코딩{VIDEO CODING WITH CODING OF THE LOCATIONS OF SIGNIFICANT COEFFICIENTS IN A BLOCK OF COEFFICIENTS}

본 발명은 계수들의 블럭에서 유효 계수들(significant coefficients)의 분포를 비디오 인코딩을 위해 인코딩함과 아울러 비디오 디코딩을 위해 디코딩하기 위한 방법 및 장치에 관한 것으로서, 모든 비-제로(non-zero)계수는 유효 계수로 표기된다.

공지된 영상 압축 프로세싱에서, 양자화 후, 예컨대 MPEG2 및 MPEG4 AVC에서, 변환된 (예컨대, DCT 변환된) 영상 신호의 유효 (즉,비-제로) 진폭 계수의 매우 희소한 분포가 대부분의 양자화된 계수들이 제로인 동안에 얻어질 수 있다. 비록 제로들에 대한 실행-길이 코딩(run-length coding)이 이용될 수 있지만은 결과적인 전체 데이터 레이트 측면에서의 변환-기반 영상 압축을 위한 가장 비용이 드는 태스크는 코딩 블럭 또는 매크로블럭 내의 그러한 유효 계수의 위치를 기록하는 것이다. 블럭내의 유효 계수의 위치를 인코딩하는 것은 유효 계수들의 희소 분포 때문에 그 크기 및 부호를 인코딩하는 것보다 더 비용이 든다.

기존의 코덱들, 예컨대 D.Taubman이 IEEE Transactions on Image Processing, Vol.9, No.7, July 2000, pp.1158-1170에 기고한 논문 제목 "High Performance Scalable Image Compression with EBCOT"에 기술된 JTEG 2000에서, 비트 평면 인코딩 프로세스에서 계수들이 1차원의 샘플-바이-샘플(sample-by-sample)패턴으로 반복적으로 스캔 및 인코딩된다. 그러므로, 유효 계수들의 위치들을 기록하기 위해 많은 수의 제로들이 인코딩된다. 비록 제로들에 대한 실행-길이 코딩이 일부 조건들 하에서 크린-업 패스(clean-up pass)로 활용될 수도 있지만은 리던던트(redundant)한 코딩 데이터 정보를 줄이기 위한 기회는 상대적으로 적다.

이 문제에 대처하기 위해, 미국 특허공개 번호 US2007/0071331A1에서, 본질적으로 유효 계수들에 효율적으로 도달하기 위한 사분법인 사변수(quaternary) 도달 방법이 제안되고 있다, 이 사분법에서, 픽셀 사이즈 2N*2N을 갖는 '유효 스퀘어' (즉, 적어도 하나의 비-제로 진폭 계수를 포함하는 유효 스퀘어)는 단일의 유효 계수들이 도달할 때까지 그 높이 및 폭을 반복적으로 분할함으로써 4개의 작은 스퀘어로 분할된다. 그 후, 생성된 모든 스퀘어들의 유효 상태들이 인코딩된다. 결과적인 전체 정보량은 기록 및 인코딩될 필요가 있으나, 유효 계수들에 도달하기 위한 코딩 연산들의 수는 감소된다.

그러나, 희소 영상 신호의 유효 분포는 다양하다. 비록 사분법 프로세싱은 희소 매트릭스로 유효 계수들의 위치들을 기록하기 위한 좋은 선택이지만 모든 경우들에서 최적인 것은 아니다.

예컨대, 도 1에 보인 16*16 스퀘어의 경우, 인코딩될 비트들의 수는 상기 사분법 프로세싱이 활용될 때 52인데 반해, 만일 다른 프로세싱이 인코딩될 비트들의 수 및 4개의 유효 계수의 좌표들을 인코딩하는데 이용되는 경우에는 하기에 보인 바와 같이 단지 40이다. '1’의 값들은 비-제로 계수의 진폭 및 위치들뿐만 아니라 비-제로 계수의 위치를 나타낸다.

사분법 프로세싱(52비트)

제1레벨 : 1 1 1 1

제2레벨 : 1 0 0 0 1 0 0 0 0 0 1 0 1 0 0 0

제3레벨 : 1000 0001 0100 0001

제4레벨 : 1000 0010 0100 0100

상기 수 및 상기 좌표(40비트 이하)를 인코딩:

고정된 길이의 코딩에 의해 2진수 00000100으로서 유효 계수들의 정수를 인코딩한다. 만일 Exp-Golomb 코드가 사용되는 경우, 보다 소수의 비트가 요구된다. 예컨대, 제로 차수의 Exp-Golomb 코드를 사용할 때, 정수 '4'는 00101로서 인코딩되며, 8비트가 아닌 단지 5비트만이 요구된다. x-y 좌표들을 2진수들로 인코딩하면 (0000 0000) (1010 0011) (0011 1100) (1011 1010)이 된다.

본 발명에 의해 해결될 문제는 다양한 계수 유효 분포들을 기록 및 인코딩하는 개선된 방법을 제공하는 것이다. 이 문제는 청구항 1항 및 3항에 기재된 방법들에 의해 해결된다. 이들 방법을 활용하는 장치들이 청구항 2항과 4항에 각각 기재되어 있다.

본 발명은 영상/비디오 신호 데이터의 그룹의 엔트로피 인코딩/디코딩에 관한 것이다. 패턴 정보 인코딩의 단일 모드는 서로 다른 유효 분포들에 대해서는 최적이 될 수 없기 때문에, 본 발명은 상기 측면에서 스퀘어를 인코딩하기 위한 여러 가지 패턴 결정 또는 인코딩 모드들을 사용하며, 인코딩 사이드는 이들 모드들 중 한 모드를 선택해서 대응하는 모드 정보를 정확한 디코딩을 위해 디코딩 사이드에 전달한다. 장점적으로, 상기 사이드 정보는 만일 스퀘어 사이즈가 충분히 큰 경우에 무시할만하다.

원리적으로, 본 발명의 인코딩 방법은 계수들의 블럭에 있는 유효 계수들의 분포를 비디오 인코딩을 위해 인코딩하는데 적합하고, 여기서 비-제로 진폭 계수는 유효 계수로 표시되며, 상기 방법은:

- 현재의 계수 블럭에 대해서, 상기 현재의 계수 블럭에 있는 유효 계수들의 분포를 인코딩하는데 요구되는 결과적인 비트들의 수에 관하여 적어도 다음의 분포 인코딩 후보 모드들 즉, 상기 계수들의 유효 상태들을 상기 현재의 블럭들의 라인 또는 컬럼을 통하여 순차적인 순서로 스캔하는 샘플-바이-샘플 모드와; 상기 현재의 블럭에 있는 유효 계수들의 량 및 이들의 좌표들 또는 위치들을 고정된 길이의 2진수들로서 인코딩하는 지점 좌표 모드와; 모두가 아닌 일부 계수들이 진폭 제로를 갖는 유효 스퀘어로 표시되는 스퀘어를 단일의 유효 계수가 도달할 때까지 4개의 균등한 사이즈의 스퀘어들로 반복적으로(recursively) 분할하고 생성된 모든 스퀘어들의 결과적인 유효 상태들을 인코딩하는 사분법 모드와; 그리고 유효 스퀘어를 단일의 유효 계수가 도달할 때까지 16개의 균등한 사이즈의 스퀘어들로 반복적으로 분할하고 생성된 모든 스퀘어들를 상기 사분법 모드에서의 인코딩에 대응하여 인코딩하는 16 분할 모드를 체크하는 단계와;

- 상기 현재의 블럭에 대해서, 상기 유효 계수들의 분포를 인코딩하는데 요구되는 비트들의 수가 최소로 되게 하는 상기 후보 모드들 중 한 모드를 선택하는 단계와; 그리고

- 상기 비디오 인코딩시에, 상기 현재의 블럭에 대해서 상기 선택된 모드를 사용하는 단계를 포함하며, 여기서 상기 선택된 모드에 대응하는 키 워드 또는 수가 상기 현재의 블럭에 대해서 상기 비디오 인코딩으로부터 출력되는 비트 스트림에 포함된다.

원리적으로, 본 발명의 인코딩 장치는 계수들의 블럭에 있는 유효 계수들의 분포를 비디오 인코딩을 위해 인코딩하는데 적합하고, 여기서 비-제로 진폭 계수는 유효 계수로 표시되며, 상기 장치는:

- 현재의 계수 블럭에 대해서, 상기 현재의 계수 블럭에 있는 유효 계수들의 분포를 인코딩하는데 요구되는 결과적인 비트들의 수에 관하여 적어도 다음의 분포 인코딩 후보 모드들 즉, 상기 계수들의 유효 상태들을 상기 현재의 블럭들의 라인 또는 컬럼을 통하여 순차적인 순서로 스캔하는 샘플-바이-샘플 모드와; 상기 현재의 블럭에 있는 유효 계수들의 량 및 이들의 좌표들 또는 위치들을 고정된 길이의 2진수들로서 인코딩하는 지점 좌표 모드와; 모두가 아닌 일부 계수들이 진폭 제로를 갖는 유효 스퀘어로 표시되는 스퀘어를 단일의 유효 계수가 도달할 때까지 4개의 균등한 사이즈의 스퀘어들로 반복적으로 분할하고 생성된 모든 스퀘어들의 결과적인 유효 상태들을 인코딩하는 사분법 모드와; 그리고 유효 스퀘어를 단일의 유효 계수가 도달할 때까지 16개의 균등한 사이즈의 스퀘어들로 반복적으로 분할하고 생성된 모든 스퀘어들를 상기 사분법 모드에서의 인코딩에 대응하여 인코딩하는 16-분할 모드를 체크함과 아울러 상기 현재의 블럭에 대해서, 상기 유효 계수들의 분포를 인코딩하는데 요구되는 비트들의 수가 최소로 되게 하는 상기 후보 모드들 중 한 모드를 선택하는 수단과; 그리고

- 상기 현재의 블럭의 인코딩을 위해 상기 선택된 모드를 사용하는 비디오 인코딩 수단을 포함하며, 여기서 상기 선택된 모드에 대응하는 키 워드 또는 수가 상기 현재의 블럭에 대해서 상기 비디오 인코딩 수단으로부터 출력된 비트 스트림에 포함된다.

원리적으로, 본 발명의 디코딩 방법은 계수들의 블럭에 있는 유효 계수들의 분포를 비디오 디코딩을 위해 디코딩하는데 적합하고, 여기서 비-제로 진폭 계수는 유효 계수로 표시되며, 상기 방법은:

- 현재의 계수 블럭에 대해서, 수신된 인코딩된 비디오 비트 스트림에 있는 키워드 또는 수를 평가하는 단계와, 여기서 상기 키 워드 또는 수는 상기 현재의 계수 블럭에 있는 상기 유효 계수들의 분포가 어떻게 비디오 인코딩으로 인코딩되었는지의 선택 모드를 나타내며;

- 상기 현재의 블럭에 대해서, 상기 선택된 모드에 따라 상기 유효 계수들의 위치들을 설정하는 단계와;

- 샘플 바이 샘플 모드에서, 상기 현재 블럭의 라인들 또는 컬럼들을 통해서 순차적인 순서를 나타내는 수신된 스캔 데이터를 결정하는 단계와;

- 지점 좌표 모드에서, 인코딩된 수신된 블럭 좌표들을 고정된 길이의 2진수들로서 평가함으로써 상기 유효 계수들의 위치들을 결정하는 단계와;

- 사분법 모드에서, 스퀘어들의 수신된 유효 상태들을 평가함으로써 상기 유효 계수들의 위치들을 결정하는 단계와, 여기서 모두가 아닌 일부 오리지날 계수들이 유효 스퀘어로 표시된 진폭 제로를 가졌던 스퀘어가 단일의 유효 계수들이 도달되었을 때까지 4개의 동일 사이즈의 스퀘어들로 반복적으로 분할되었으며,

- 16-분할 모드에서, 스퀘어들의 수신된 유효 상태들을 평가함으로써 상기 유효 계수들의 위치들을 결정하는 단계와, 여기서 모두가 아닌 일부의 오리지날 계수들이 유효 스퀘어로 표시된 진폭 제로를 가졌던 스퀘어가 단일의 유효 계수들이 도달되었을 때까지 16개의 균등한 사이즈의 스퀘어들로 반복적으로 분할되었으며,

- 상기 비디오 디코딩에 대해서, 상기 현재의 블럭을 그 어떤 유효 계수도 존재하지 않는 위치들에서 제로 진폭 계수들로 채우는 단계를 포함한다.

원리적으로, 본 발명의 디코딩 장치는 계수들의 블럭에 있는 유효 계수들의 분포를 비디오 디코딩을 위해 디코딩하는데 적합하고, 여기서 비-제로 진폭 계수는 유효 계수로 표시되며, 상기 장치는:

- 현재의 계수 블럭에 대해서, 수신된 인코딩된 비디오 비트 스트림에 있는 키워드 또는 수를 평가 - 여기서 상기 키 워드 또는 수는 상기 현재의 계수 블럭에 있는 상기 유효 계수들의 분포가 어떻게 비디오 인코딩으로 인코딩되었는지의 선택 모드를 나타내며 - 함과 아울러 현재의 블럭에 대해서, 상기 현재 블럭의 라인들 또는 컬럼들을 통해서 순차적인 순서를 나타내는 수신된 스캔 데이터를 결정하는 샘플 바이 샘플 모드와, 인코딩된 수신된 블럭 좌표들을 고정된 길이의 2진수들로서 평가함으로써 상기 유효 계수들의 위치들을 결정하는 지점 좌표 모드와, 스퀘어들의 수신된 유효 상태들을 평가함으로써 상기 유효 계수들의 위치들을 결정하는 사분법 모드 - 여기서 모두가 아닌 일부의 오리지날 계수들이 유효 스퀘어로 표시된 진폭 제로를 가졌던 스퀘어가 단일의 유효 계수들이 도달되었을 때까지 4개의 동일 사이즈의 스퀘어들로 반복적으로 분할되었으며 - 와, 스퀘어들의 수신된 유효 상태들을 평가함으로써 상기 유효 계수들의 위치들을 결정하는 16-분할 모드 - 여기서 모두가 아닌 일부 오리지날 계수들이 유효 스퀘어로 표시된 진폭 제로를 가졌던 스퀘어가 단일의 유효 계수들이 도달되었을 때까지 16개의 균등한 사이즈의 스퀘어들로 반복적으로 분할되었으며 - 중에서 선택된 모드에 따라 상기 유효 계수들의 위치들을 설정하는 수단과; 그리고

- 상기 비디오 디코딩에 대해서, 상기 현재의 블럭을 그 어떤 유효 계수도 존재하지 않는 위치들에서 제로 진폭 계수들로 채우도록 된 수단을 포함한다.

본 발명의 추가적인 장점들이 각각의 종속 청구항들에 기재되어 있다.

본 발명은 종래 문제점을 해결할 수 있다.

도 1은 16*16 블럭에서, 소수의 '유효' 변환 및 양자화된 계수들의 분포의 예를 보인 도면이다.
도 2는 소수의 유효 계수들만을 갖는 16*16 계수 블럭에서, 인코딩될 비트들의 수 대 유효 계수들의 수를 보인 도면이다.
도 3은 유효 수의 유효 계수들을 갖는 16*16 계수 블럭에서, 인코딩될 비트들의 수 대 유효 계수들의 수를 보인 도면이다.
도 4는 16*16 계수 블럭에서, '유효' 변환 및 양자화된 계수들의 유효 수의 분포의 예를 보인 도면이다.
도 5는 본 발명의 인코더의 예를 보인 도면이다.
도 6은 본 발명의 디코더의 예를 보인 도면이다.
본 발명의 예시적인 실시예들을 첨부도면을 참조로 하여 설명하기로 한다.

본 발명에 따르면, 유효 계수들의 위치를 결정/기록/인코딩하기 위한 복수의 모드들이 다양한 계수 분포 패턴들에 적합하게 하기 위해 사용된다. 적어도 다음의 4개의 모드들이 체크 및 분석된다. 블럭 사이즈는 2^N*2^N, N=4이고 하나의 블럭에 m(m>0)개의 유효 계수들이 존재하는 것으로 가정한다.

모드 1: 샘플 바이 샘플(sample-by-sample)

이는 덜 진보된 모드이다. 계수들의 유효 상태들이 한 블럭의 라인들(또는 컬럼, 이 선택은 디코더에 알려져 있다)을 통해 고정된 1차원의 순차적인 순서 이후에 스캔된다. 이 블럭에 대해 인코딩될 비트들의 수(NoB로 표시됨)은 2^2N 즉, 16*16블럭에 대해 256개이다.

모드 2: 지점 좌표(point coordinates)

블럭내에서 유효 계수들 및 이들의 좌표 혹은 위치들의 수가 상기 주어진 40비트 예와 비교하여 고정된 길이의 2진수들로 인코딩된다. NoB 는 m 즉, NoB = m*2N + 2N을 갖는 선형 함수이다. 이 합의 두번째 항 2N은 그 블럭내의 유효 계수들의 수를 나타내는데 요구되는 최대 수를 의미한다. 이 모드의 선택은 상기 블럭내의 유효 계수들의 수가 작을 때 최적이 된다.

모드 3: 사분법(quartation)

이 모드는 전술한 사분법 프로세싱에 대응한다. 유효 스퀘어(즉, 모두가 아닌 일부 계수들이 진폭 제로를 가짐)가 단일 유효 계수들이 도달할 때까지 그의 높이 및 폭을 고르게 분할함으로써 4개의 균등한 사이즈의 스퀘어들로 반복적으로 분할된다. 그 후, 생성된 모든 스퀘어들의 결과적인 유효 상태들이 인코딩된다. 이 모드의 선택은 상기 블럭내의 유효 계수들의 분포가 비교적 집중될 때 최적이 된다.

모드 4: 16-분할(sixteen-partition)

유효 스퀘어가, 단일 유효 계수들이 도달할 때까지 그의 높이 및 폭을 고르게 분할함으로써 16개의 균등한 사이즈의 스퀘어들로 반복적으로 분할된다. 그 후, 생성된 모든 스퀘어들의 결과적인 유효 상태들이 전술한 사분법 프로세싱의 인코딩 원리에 따라 인코딩된다. 이 모드는 모드 3과 유사하며, 유효 계수들의 분포가 비교적 분산될 때 선택된다.

도 2는 16*16 블럭의 경우에서 m의 작은 수에 대한 모드들 1 내지 4에서의 NoB 대 값 m (m은 한 블럭에서의 유효 양자화된 계수들의 수이다)을 도시한 것이다. 도 2는 도 3의 아래 좌측 에지의 확대도이다. 모드 3 및 4의 경우에서, 최대로 가능한 NoB 및 최소로 가능한 NoB가 도시되어 있다. 도 2는 모드 2(지점 좌표 모드) 및 모드 3(사분법 모드)가 만일 유효 계수들의 수가 매우 작은 경우 우수한 성능을 갖는 반면에, 모드 1 및 4가 도 3에 보인 바와 같이 블럭 당 증가하는 수의 유효 계수들로 점차적으로 좋아지는 성능을 가짐을 보여준다.

계수 블럭에 대해 어떤 모드를 사용할지를 결정하는 것은 인코딩의 문제이다. 가장 높은 압축 효율을 달성하기 위하여, 이들 모드들 중 최상의 모드가 선택되는데, 이는 비디오 신호의 각 계수 블럭이 인코딩될 인코딩 측에서 후보 모드 당 대응하는 인코딩 비용(즉, 결과적인 비트 레이트)을 결정함과 아울러, (2-패스 인코딩을 수행하여) 현재의 블럭에 대해 최소의 비용을 산출하는 후보 모드를 선택함으로써 이루어진다.

대안적으로, 1-패스 인코딩의 경우, 상기 최상의 모드는 현재의 블럭의 계수 유효 분포의 특성에 따라 예컨대 유효 계수들의 수를 제 1의 드레쉬홀드 값과 비교하고 그리고 상기 블럭 내에 유효 계수들을 갖지 않거나 혹은 제 2의 드레쉬홀드 값보다 작은 계수들의 수를 갖는 스퀘어들이 있는지 여부를 체크함으로써 선택된다. 정확한 디코딩을 위해, 현재의 블럭에 대해서 사용될 모드를 표시하기 위해 (4개의 후보 모드들 보다 많지 않은 경우) 2개의 비트가 비트 스트림으로 전송되며, 그럼으로써 상기 사이드 정보의 비용은 만일 블럭 사이즈가 충분히 큰 경우 무시할만하게 된다.

추가적인 예로서, 도 4는 52개의 유효 계수들을 포함하고 있는 16*16 블럭을 보인 것이다. 이들 중 대부분은 블럭의 좌측 절반에 위치된다. 상기 4개의 모드들에 필요한 NoB는:

256 (모드 1, 샘플 바이 샘플 모드),

424 (모드 2, 지점 좌표 모드),

228 (모드 3, 사분법 모드),

208 (모드 4, 16 분할 모드)이다.

그러므로, 인코더는 이 블럭을 인코딩하기 위한 최적 모드로서 모드 4의 16 -분할 모드를 선택해야만 한다. 전술한 바와 같이, 이 모드를 디코딩 측에 신호하는 2개 이상의 비트가 필요로 된다.

도 5에서의 인코더의 비디오 데이터 입력 신호(IE)는 예컨대 매크로 블럭들을 위한 픽셀 데이터를 포함한다. 픽쳐들이 예컨대 MPEG2 비디오 또는 MPEG4 AVC 표준에 대응하는 방식으로 그러나 추가적으로 본 발명의 모드 특징의 이용과 함께 프로세싱된다. 인코딩될 인트라(즉, 인트라-프레임 또는 인트라-필드)비디오 데이터의 경우에, 감산기(SUB)가 간단히, 이들이 변환 수단(T) 및 양자화 수단(Q)과 그리고 인코더 출력 신호(OE)를 출력하는 엔트로피 인코더 스텝 또는 스테이지(ECOD)에서의 프로세싱를 위해 패스할 수 있게 한다. 예컨대, 엔트로피 인코더 스텝/스테이지(ECOD)는 변환 및 양자화된 계수들에 대해 호프만 코딩을 수행하고 그의 출력 비트 스트림(OE)에 대해 헤더 정보 및 모션 벡터를 추가한다. 엔트로피 인코더 스텝/스테이지(ECOD)는 모드 결정 스텝/스테이지(MDET)에 현재의 계수 블럭 데이터 즉, 유효 계수들의 패턴(즉, 위치들)을 제공한다. 모드 결정 스텝/스테이지(MDET)가 '오리지날' 계수 블럭 데이터를 수신하는 경우, 이는 이 데이터로부터 유효 계수들의 패턴(즉 위치들)을 계산한다. 모드 결정 스텝/스테이지(MDET)는 전술한 바와 같이, 엔트로피 인코더에 있는 현재의 블럭의 인코딩에 적용될 모드 1 내지 4중 하나를 결정한다. 대응하는 모드 정보(MI) 및 대응하는 유효 계수 위치 정보가 출력 신호 인코딩을 위해 엔트로피 인코더 스텝/스테이지(ECOD)에서 사용되고, 출력 비트 스트림(OE)에 부착된다. 양자화 수단(Q) 및 역 양자화 수단(Q_E ^-1)가 인버더 버퍼(ENCB)DML 점유 레벨에 의해 제어될 수 있다.

비-인트라(non-intra) 비디오 데이터의 경우에, 예측 블럭 또는 매크로 블럭 데이터 (PMD)가 감산기(SUB)에서 입력신호(IE)로부터 감산 되며, 차이 데이터(RES)가 변환 수단/스텝/스테이지(T) 및 양자화 수단/스텝/스테이지(Q)를 통해 엔트로피 인코더 스텝/스테이지(ECOD)에 입력된다. Q의 출력신호가 또한 역 양자화 수단/스텝/스테이지(Q_E ^-1)에서 프로세싱되며, 이의 출력신호는 역 변환 수단/스텝/스테이지(T_E ^-1)를 통해 복원된(reconstructed) 블럭 혹은 매크로 블럭 차이 데이터(RMDD)의 형태로 결합기/스텝/스테이지(ADDE)에 입력된다. 결합기/스텝/스테이지(ADDE)의 출력 신호는 모션 산정 및 보상 수단/스텝/스테이지(FS_MC_E)에 있는 프레임 스토어(frame store)에 버퍼-저장되며, FS_MC_E는 복원된 블럭 또는 매크로블럭 데이터 및 출력 블럭 또는 예측 매크로블럭 데이터(PMD)에 대한 모션 보상을 수행하여 SUB의 감산 입력 및 결합기(ADDE)의 다른 출력에 제공한다.

도 6에서, 인코딩된 비디오데이터 입력신호(ID)의 인코딩된 픽셀 데이터가 엔트로피 디코더 수단/스테이지/스텝(EDEC), 역 양자화 수단 Q_D ^-1 및 역 변환 수단 (T_D ^-1) (잔류 프레임 데이터(RS)의 경우)를 결합기 스텝/스테이지(ADDD)에 입력되며, 결합기 스텝/스테이지(ADDD)는 복원된 데이터 출력신호(OD)를 출력한다. 인트라 블록 또는 매크로블록 데이터의 경우, T_D ^-1의 출력은 단순히 ADDD 즉,T_D ^-1출력(OD)를 출력한다. 픽쳐들이 예컨데 각각 MPEG2 비디오 또는 MPEG4 AVC 표준에 대응하는 방식으로 그러나 추가적으로 본 발명의 모드 특징의 사용과 함께 처리된다. EDEC는 헤더 정보 및 모션 벡터 데이터를 디코딩 및/또는 평가하며, 계수들에 대해 호프만 디코딩을 수행한다. 엔트로피 디코더 스텝 또는 스테이지(EDEC)는 모드 정보(MI)를 수신된 비트 스트림(ID)로부터 추출(즉, 대응하는 키워드 또는 수를 평가)하여, 이를 모드 평가기 스텝 또는 스테이지(MEV)에 입력하는바, MEV는 스텝/스테이지 EDEC에(또는 직접 양자화 수단/스테이지/스텝(Q_D ^-1) 또는 역 변환 수단/스테이지/스텝(T_D ^-1)에 제공한다. 현재의 블록에 대해서, 유효 계수들의 위치들이 선택된 모드에 따라 설정된다:

- 샘플 바이 샘플 모드에서, 유효 계수들의 위치들은 현재의 블록의 라인들 또는 컬럼들을 통해 순차적인 순서를 나타내는 수신된 스캔 데이터를 평가함으로써 결정된다.

- 지점 좌표 모드에서, 유효 계수들의 위치들은, 고정된 길이의 2진수들로서 인코딩된 수신된 블록 좌표들을 평가함으로써 결정된다.

- 사분법 모드에서, 유효 계수들의 위치들은 스퀘어들의 수신된 유효 상태들을 평가함으로써 결정되며, 여기서 모두가 아닌 일부 오리지날 계수들이 유효 스퀘어로 표시되는 진폭 제로를 갖는 스퀘어는 단일의 유효 계수들이 도달할 때까지 4개의 균등한 사이즈의 스퀘어들로 반복적으로 분할되었다.

- 16-분할 모드에서, 유효 계수들의 위치들은 스퀘어들의 수신된 유효 스퀘어로 표시된 진폭 제로를 가진 스퀘어가 단일의 유효 계수들이 도달할 때까지 16개의 균등한 사이즈의 스퀘어들로 반복적으로 분할되었다.

비디오 디코딩의 경우, 현재의 블록은 유효 계수가 존재하지 않은 위치들에서 제로의 진폭 계수들로 채워진다. 그러한 채움은 MEV, EDEC, Q_D ^-1또는 T_D ^-1에서 수행된다. 인코딩 사이드에서 양자화기 스텝/스테이지(Q)로부터 출력되는 대응하는 계수 블럭은 역 변환 수단/스테이지/스텝(T_D ^-1)에 들어가기 전에 복원된다.

비-인트라 블럭 또는 매크로블럭 데이터의 경우에, ADDD의 출력신호가 모션 보상 수단/스테이지/스텝(FS_MC_D)에서 프레임 스토어에 버퍼-저장되며, FS_MC_D는 복원된 블록 또는 매크로블록 데이터에 대한 모션 보상을 행한다. FS_MC_D에서 예측된 블록 또는 매트로블록 데이터(PMD)는 결합기(ADDD)의 제 2 입력으로 패스된다. 도 5 및 도 6에서, Q_E ^-1, Q_D ^-1,T_E ^-1 T_D ^-1 및 EDEC는 각각 Q, T 및 ECOD의 함수의 대응하는 역함수를 갖는다.

실제로, 유효 신호들의 위치들에 대한 본 발명의 코딩 프로세싱은 16*16보다 매우 큰 블록 사이즈들에 적용될 수 있다. 예컨대, 웨이브렛기반코딩/디코딩에서, 512*512 영상의 LH, HL 및 HH 서브 대역들의 제 1 레벨의 사이즈는 256*256 만큼 크다. 모드 표시를 위한 오버헤드는 단지 2비트로서 이는 무시할 만하다.

DCT 기반 코딩/디코딩에서 본 발명을 이용하는 또 하나의 예는 전체적으로 한 개의 프레임에서 (또는 프레임의 일부분 예컨대 슬라이스 혹은 64*64 블록에서)모든 양자화된 변환된 계수들을 프로세싱하는 것, 및 전술한 프로세싱에 의해 전체적인 맵에서 유효 계수들의 위치들을 인코딩하는 것이다. 이러한 프로세싱은 정지영상 뿐만 아니라 비디오 시퀀스의 I 프레임, P 프레임 및 B 프레임에 대해 사용될 수 있다. 대응하는 사이드 정보는 한 프레임에 대해(비록 더 많은 모드들이 포함되지만은) 단지 두개 또는 단지 소수의 비트들이다.

본 발명의 처리는 스퀘어 블록들에만 국한되지 않는다. 그 어떠한 신호 포멧 (1차원, 2차원 또는 멀티 차원의 신호들)도 올바른 포멧으로 성형(shape)될 수 있고, 그 후 본 발명의 처리를 이용하여 적응적으로 인코딩된다.

비-스퀘어 블럭들의 경우, 즉 폭 W 또는 높이 H가 '2'의 곱(product)이 아닌 경우, 본 발명을 이용하는데 여러 가지 방법이 있다. 예컨대, 720*576 픽셀의 액티브 픽쳐 사이즈의 경우, 사분법 방법이 이용될 때, 다음의 계산이 분할시 수행될 수 있다:

W'= floor (W/2), 및 H'=floor (H/2)

이는 블록이 그의 폭에 있어서 [1, ..., W'] [W'+1, ..., W]로 분할되고,그 높이에 있어서 [1, ...,h] [H'+1, ..., H]로 분할됨을 의미한다. 따라서, 양자화 처리는 반복적으로 계속될 수 있으며, 이 반복은 W==2 또는 H==2 일 때 정지된다. 이는 가장 작은 단위가 2*N 또는 N*2임을 의미한다. 가장 작은 단위의 경우, 샘플 바이 샘플 처리가 사용된다. 유사한 절차가 16-분할 모드에서 적용될 수 있다.

720*576 픽셀 픽쳐 사이즈의 경우의 또 하나의 실시예에서, 영상들의 부분, 예컨대 16*16 또는 256*256에 대해 정규 사분법 또는 16-분할 처리들이 사용될 수 있으며, 모든 영상이 이러한 토대의 단위의 여러 개의 것으로 분리된다. 영상의 나머지 부분. 즉, 영상의 에지에 위치된 픽셀들 또는 매크로블록들에 대해서 샘플 바이 샘플이 사용될 수 있다.

더욱이, 사분법 방법과 16-분할 방법을 통합한 방법이 또한 사용될 수 있다. 예컨대, 제1의 여러 개의 반복 레벨들이 사분법 방법을 사용하는데 반해, 마지막 레벨은 16-분할 방법을 이용한다.

본 발명은 전술한 4개의 모드들에만 국한되지 않는다. 전술한 16-분할의 원리에 따라 9-분할 또는 N²분할(N은 '4' 보다 큰 정수이다.) 뿐만 아니라 실행-길이 코딩을 갖는 지그재그 스캔이 최적의 모드들로서 이용될 수 있다.

희소 신호들의 유효 값들의 위치들에 대한 전술한 적응성(엔트로피) 인코딩이 또한 오디오 코딩 또는 메시 데이터 코딩에 사용될 수 있고, 예측, DCT/웨이브렛 변환 및/또는 양자화 후의 신호들에도 적용될 수 있다.

Claims

계수들의 블럭에 있는 유효 계수들(significant coefficients, 1)의 분포를 비디오 인코딩(SUB, T, Q, Q_E ^-1, T_E ^-1, ADDE, FS_MC_E, ECOD)을 위해 인코딩하는 방법으로서,
비-제로 진폭 계수(amplitude coefficient)는 유효 계수로 표시되며,
상기 방법은:
- 현재의 계수 블럭에 대해서, 상기 현재의 계수 블럭에 있는 유효 계수들의 분포를 인코딩(ECOD)하는데 요구되는 결과적인 비트들의 수에 관하여 적어도 다음의 분포 인코딩 후보 모드들 즉, 상기 계수들의 유효 상태들이 상기 현재의 블럭들의 라인 또는 컬럼을 통하여 순차적인 순서로 스캔되는 샘플-바이-샘플 모드(sample-by-sample mode)와; 상기 현재의 블럭에 있는 유효 계수들의 양 및 이들의 좌표들 또는 위치들이 고정된 길이의 2진수들로서 인코딩되는 지점 좌표 모드와; 모두가 아닌 일부 계수들이 진폭 제로를 갖는 유효 스퀘어로 표시되는 스퀘어를 단일의 유효 계수가 도달될 때까지 4개의 균등한 사이즈의 스퀘어들로 반복적으로(recursively) 분할하고, 생성된 모든 스퀘어들의 결과적인 유효 상태들을 인코딩하는 사분법 모드(quartation mode)와; 단일의 유효 계수가 도달될 때까지 유효 스퀘어를 16개의 균등한 사이즈의 스퀘어들로 반복적으로 분할하고, 생성된 모든 스퀘어들의 결과적인 유효 상태들을 상기 사분법 모드에서의 인코딩에 대응하여 인코딩하는 16 분할 모드를 체크(MDET)하는 단계;
- 상기 현재의 블럭에 대해서, 상기 유효 계수들의 분포를 인코딩하는데 요구되는 비트들의 수가 최소로 되게 하는 상기 후보 모드들 중 한 모드를 선택(MDET)하는 단계; 및
- 상기 비디오 인코딩시에 상기 현재의 블럭에 대해서 상기 선택된 모드를 사용하는 단계로서, 상기 선택된 모드에 대응하는 키 워드 또는 수(MI)가 상기 현재의 블럭에 대해서 상기 비디오 인코딩으로부터 출력되는 비트 스트림(OE)에 포함되는, 단계를
포함하는 것을 특징으로 하는 인코딩하는 방법.
계수들의 블럭에 있는 유효 계수들(1)의 분포를 비디오 인코딩을 위해 인코딩하는 장치로서,
비-제로 진폭 계수는 유효 계수로 표시되고,
상기 장치는:
- 현재의 계수 블럭에 대해서, 상기 현재의 계수 블럭에 있는 유효 계수들의 분포를 인코딩(ECOD)하는데 요구되는 결과적인 비트들의 수에 관하여 적어도 다음의 분포 인코딩 후보 모드들 즉, 상기 계수들의 유효 상태들이 상기 현재의 블럭들의 라인 또는 컬럼을 통하여 순차적인 순서로 스캔되는 샘플-바이-샘플 모드와; 상기 현재의 블럭에 있는 유효 계수들의 양 및 이들의 좌표들 또는 위치들이 고정된 길이의 2진수들로서 인코딩되는 지점 좌표 모드와; 모두가 아닌 일부 계수들이 진폭 제로를 갖는 유효 스퀘어로 표시되는 스퀘어를 단일의 유효 계수가 도달될 때까지 4개의 균등한 사이즈의 스퀘어들로 반복적으로(recursively) 분할하고, 생성된 모든 스퀘어들의 결과적인 유효 상태들을 인코딩하는 사분법 모드(quartation mode)와; 단일의 유효 계수가 도달될 때까지 유효 스퀘어를 16개의 균등한 사이즈의 스퀘어들로 반복적으로 분할하고, 생성된 모든 스퀘어들의 결과적인 유효 상태들을 상기 사분법 모드에서의 인코딩에 대응하여 인코딩하는 16 분할 모드를 체크(MDET)함과 아울러,
상기 현재의 블럭에 대해서, 상기 유효 계수들의 분포를 인코딩하는데 요구되는 비트들의 수가 최소로 되게 하는 상기 후보 모드들 중 한 모드를 선택하도록된 수단(MDET); 및
- 상기 현재의 블럭의 인코딩을 위해 상기 선택된 모드를 사용하는 비디오 인코딩 수단(SUB, T, Q, Q_E ^-1, T_E ^-1, ADDE, FS_MC_E, ECOD)을 포함하며,
상기 선택된 모드에 대응하는 키 워드 또는 수(MI)가 상기 현재의 블럭에 대해서 상기 비디오 인코딩 수단으로부터 출력된 비트 스트림(OE)에 포함되는 것을 특징으로 하는, 인코딩 장치.
계수들의 블럭에 있는 유효 계수들(1)의 분포를 비디오 디코딩(SUB, T, Q, Q_E ^-1, T_E ^-1, ADDE, FS_MC_E, ECOD)을 위해 디코딩하는 방법으로서,
비-제로 진폭 계수는 유효 계수로 표시되고,
상기 방법은:
- 현재의 계수 블럭에 대해서, 수신된 인코딩된 비디오 비트 스트림(IE)에 있는 키워드 또는 수(MI)를 평가(MEV)하는 단계로서, 상기 키 워드 또는 수는 상기 현재의 계수 블럭에 있는 상기 유효 계수들의 분포가 어떻게 비디오 인코딩에서 인코딩되었는지의 선택된 모드를 나타내는, 단계;
- 상기 현재의 블럭에 대해서, 상기 선택된 모드에 따라 상기 유효 계수들의 위치들을 설정하는 단계:
샘플 바이 샘플 모드(sample-by-sample mode)에서, 상기 현재 블럭의 라인들 또는 컬럼들을 통해서 순차적인 순서를 나타내는 수신된 스캔 데이터를 평가함으로써, 상기 유효 계수들의 위치를 결정하는 단계;
지점 좌표 모드(point coordinates mode)에서, 인코딩된 수신된 블럭 좌표들을 고정된 길이의 2진수들로서 평가함으로써 상기 유효 계수들의 위치들을 결정하는 단계;
사분법 모드에서, 스퀘어들의 수신된 유효 상태들을 평가함으로써 상기 유효 계수들의 위치들을 결정하는 단계로서, 모두가 아닌 일부 오리지날 계수들이 진폭 제로를 가진, 유효 스퀘어로 표시된, 스퀘어가 단일의 유효 계수들이 도달되었을 때까지 4개의 동일 사이즈의 스퀘어들로 반복적으로 분할된, 단계;
16-분할 모드에서, 스퀘어들의 수신된 유효 상태들을 평가함으로써 상기 유효 계수들의 위치들을 결정하는 단계로서, 모두가 아닌 일부의 오리지날 계수들이 진폭 제로를 가진, 유효 스퀘어로 표시된, 스퀘어가 단일의 유효 계수들이 도달되었을 때까지 16개의 균등한 사이즈의 스퀘어들로 반복적으로 분할된, 단계;
및
- 상기 비디오 디코딩에 대해서, 상기 현재의 블럭을 그 어떤 유효 계수도 존재하지 않는 위치들에서 제로 진폭 계수들로 채우는 단계를
포함하는 것을 특징으로 하는 디코딩 방법.
계수들의 블럭에 있는 유효 계수들(1)의 분포를 비디오 디코딩(SUB, T, Q, Q_E ^-1, T_E ^-1, ADDE, FS_MC_E, ECOD)을 위해 디코딩하는 장치로서,
비-제로 진폭 계수는 유효 계수로 표시되고,
상기 장치는:
- 현재의 계수 블럭에 대하여 수신된 인코딩된 비디오 비트 스트림(IE)에 있는 키워드 또는 수(MI)를 평가하기 위하여 적용되고, 선택된 모드에 따라 상기 현재의 블럭에 대하여 상기 유효 계수들의 위치를 설정하기 위해 적용되는 수단(MEV)으로서, 상기 키 워드 또는 수는 상기 현재의 계수 블럭에 있는 상기 유효 계수들의 분포가 어떻게 비디오 인코딩에서 인코딩되었는지에 관한 상기 선택된 모드를 나타내는, 수단; 및
- 상기 비디오 디코딩에 대해서, 상기 현재의 블럭을 그 어떤 유효 계수도 존재하지 않는 위치들에서 제로 진폭 계수들로 채우도록 적용된 수단을 포함하며,
상기 선택된 모드에서:
샘플 바이 샘플 모드에서는, 상기 현재 블럭의 라인들 또는 컬럼들을 통해서 순차적인 순서를 나타내는 수신된 스캔 데이터를 평가함으로써 상기 유효 계수들의 위치를 결정하고;
지점 좌표 모드에서는, 인코딩된 수신된 블럭 좌표들을 고정된 길이의 2진수들로서 평가함으로써 상기 유효 계수들의 위치들을 결정하며;
사분법 모드에서는, 스퀘어들의 수신된 유효 상태들을 평가함으로써 상기 유효 계수들의 위치들을 결정하되, 모두가 아닌 일부의 오리지날 계수들이 진폭 제로를 가진, 유효 스퀘어로 표시된, 스퀘어가 단일의 유효 계수들이 도달되었을 때까지 4개의 동일 사이즈의 스퀘어들로 반복적으로 분할되었으며;
16-분할 모드에서는, 스퀘어들의 수신된 유효 상태들을 평가함으로써 상기 유효 계수들의 위치들을 결정하되, 모두가 아닌 일부 오리지날 계수들이 진폭 제로를 가졌던, 유효 스퀘어로 표시된, 스퀘어가 단일의 유효 계수들이 도달되었을 때까지 16개의 균등한 사이즈의 스퀘어들로 반복적으로 분할된,
것을 특징으로 하는 디코딩 장치.
상기 계수들의 블럭은 16*16의 사이즈를 갖는 것을 특징으로 하는 청구항 제 1항 또는 3항에 따른 방법 혹은 청구항 제 2항 또는 제 4항에 따른 장치.
상기 4분법 모드에서, 생성된 모든 스퀘어들의 상기 결과적인 유효 상태들은 Exp-Golomb 코드를 이용하여 각각 인코딩 또는 디코딩되는 것을 특징으로 하는 청구항 제 1항, 3항 또는 5항 중 어느 한 항에 따른 방법 혹은 청구항 제 2항, 4항 또는 5항 중 어느 한 항에 따른 장치.
9-분할 모드, N²-분할 모드 및/또는 지그재그-스캔 모드 중 적어도 하나가 각각 체킹 또는 디코딩을 하는 상기 모드에서 더 사용되는 것을 특징으로 하는 청구항 제 1항, 3항, 5항 및 6항 중 어느 한 항에 따른 방법 혹은 청구항 제 2항, 4항 내지 6항 중 어느 한 항에 따른 장치.
상기 지점 좌표 모드 혹은 상기 사분법 모드는 상기 현재의 블럭에 있는 유효 계수들의 수가 적은 경우에 선택되는 것을 특징으로 하는 청구항 제 1항, 3항, 5항 내지 7항 중 어느 한 항에 따른 방법 혹은 청구항 제 2항 및 4항 내지 7항 중 어느 한 항에 따른 장치.
청구항 제 1항 및 5항 내지 8항 중 어느 한 항의 방법에 따라 인코딩되는 디지탈 비디오 신호.
청구항 9항에 따른 디지탈 비디오 신호를 수록 또는 저장하거나 혹은 기록하고 있는 예컨대 광학 디스크와 같은 저장 매체.