KR20040075348A

KR20040075348A - 동적 필터 부호화

Info

Publication number: KR20040075348A
Application number: KR10-2004-7010878A
Authority: KR
Inventors: 라이네마자니
Original assignee: 노키아 코포레이션
Priority date: 2002-01-14
Filing date: 2003-01-14
Publication date: 2004-08-27
Also published as: RU2302707C2; BR0304545A; CN100553321C; AU2003201069B2; AU2003201069A1; KR100945546B1; WO2003058945A3; SG149694A1; EP1466477B1; WO2003058945A2; BRPI0304545B1; US20030169931A1; RU2004124831A; EP1466477A2; AU2003201069C1; HU228615B1; JP2005514872A; US7379501B2; JP4494789B2; MXPA04006814A

Abstract

각각 화소값들의 배열을 구비하는 일련의 비디오 프레임들을 포함하는 비디오 시퀀스를 부호화하기 위한 비디오 부호화 시스템이 제공되는데, 복호화 프로세스에서 화소값들을 재구성하기 위하여 보간 필터가 정의된다. 상기 시스템은 일 집합의 차분값들을 제공하기 위하여 보간 필터의 계수들을 사전 정의된 베이스 필터에 대해 차분적으로 부호화한다. 상기 베이스 필터 계수들은 부호기 및 복호기 양자에 알려져 있고 비디오 시퀀스에서 사용되는 실제 필터들에 통계적으로 상당히 근접할 수 있기 때문에, 상기 복호기는 상기 차분값들의 집합에 근거하여 화소값들을 재구성할 수 있다.

Description

동적 필터 부호화{Coding dynamic filters}

본 출원은 2002년 1월 14일에 출원된 미국 가특허 출원 번호 60/348,811에 근거하고 상기 출원의 이점을 청구한다.

오늘날 현존하는 다양한 비디오 부호화 표준들이 존재한다. 이들은 국제 전기통신 연맹 통신 표준화 부문(ITU-T: International Telecommunications Union Telecommunications Standardization Sector) 권고 H.263과 국제 표준 기구(ISO: International Standards Organization) 엠페그(MPEG: Motion Pictures Expert Group) 표준들 엠페그-1(MPEG-1), 엠페그-2(MPEG-2) 및 엠페그-4(MPEG-4)를 포함한다. 이들 비디오 부호화 표준들은 움직임 보상 예측 및 예측 오차 부호화의 사용에 기반한다. 움직임 보상 예측은 비디오 시퀀스내의 연속적인 프레임들간의 움직임을 분석하고 부호화하고 상기 움직임 정보를 사용하여 이미지 블록들을 재구성함으로써 수행된다. 상기 이미지 블록들의 재구성은 필요한 화소 및 서브-화소 위치들에 대해 이미지(화소) 값들을 생성할 수 있는 움직임 보간 필터를 사용하여 이루어진다. 움직임 보상 예측 및 보간 필터들을 사용하는 이미지 재구성의 기본적인 원리들은 하기 문단들에서 더 상세히 설명된다.

필름상에 기록된 보통의 동화상들과 같은, 디지털 비디오 시퀀스들은 종종 "프레임들"로서 지칭되는 일련의 정지 이미지들을 포함한다. 움직임의 환영은 전형적으로 초당 15 내지 30 프레임들의 비교적 빠른 속도로 프레임들을 순차적으로 표시함으로써 생성된다. 비교적 빠른 프레임률 때문에, 연속적인 프레임들의 이미지 내용은 아주 유사한 경향이 있어서, 연속적인 프레임들은 상당한 양의 중복 정보를 포함한다.

디지털 비디오 시퀀스의 각 프레임은 이미지 화소들의 배열을 포함한다. 1/4 공통 교환 포맷(QCIF: Quarter Common Interchange Format)으로 알려져 있는, 일반적으로 사용되는 디지털 비디오 포맷에 있어서, 한 프레임은 176×144 화소들의 배열을 포함하므로, 각 프레임은 25,344 화소들을 갖는다. 상기 프레임의 각 화소는 상기 화소에 대응하는 이미지 영역의 휘도 및/또는 색 내용(색(chrominance))에 대한 정보를 운반하는 어떤 수의 비트들로 표시된다. 일반적으로, 소위 YUV 색 모델은 이미지의 휘도 및 색 내용을 표시하는데 사용된다. 상기 휘도 또는 Y 성분은 상기 이미지의 세기(밝기)를 나타내는 반면에, 상기 이미지의 색 내용은 U 및 V라고 표시된 두개의 색 성분들에 의해 표시된다.

이미지 내용의 휘도/색 표현에 기반한 색 모델들은 기본 색들(즉 빨강, 노랑및 파랑, RGB)을 포함하는 표현에 기반한 색 모델들에 비해 어떤 이점들을 제공한다. 인간의 시각 시스템은 색 변화에 대한 것보다 세기 변화에 더 민감하기 때문에, YUV 색 모델들은 휘도 성분(Y)에 대한 공간 해상도보다 색 성분들(U, V)에 대해 더 낮은 공간 해상도를 사용함으로써 이러한 특성을 이용한다. 이러한 방식으로, 이미지내의 색 정보를 부호화할 필요가 있는 정보의 양은 이미지 품질의 사소한 감소로 감소될 수 있다.

색 성분들의 낮은 공간 해상도는 보통 공간 서브-샘플링에 의해 달성된다. 전형적으로, 16×16 이미지 화소들의 블록은 휘도 정보를 나타내는 16×16 값들의 하나의 블록에 의해 부호화되고, 두개의 색 성분들은 휘도 값들의 16×16 배열의 영역과 동일한 이미지의 영역을 나타내는 8×8 값들의 한 블록으로 표시된다. 따라서 상기 색 성분들은 수평 및 수직 방향으로 2의 인자만큼 공간적으로 서브-샘플링된다. 결과로서 생긴 하나의 16×16 휘도 블록 및 두개의 8×8 색 블록들의 집합은 일반적으로 YUV 매크로블록 또는 축약하여 매크로블록으로 지칭된다.

하나의 QCIF 이미지는 11×9 매크로블록들을 포함한다. 휘도 블록들 및 색 블록들이 8 비트 해상도로(즉 0에서 255까지 범위의 수들로) 표시되는 경우, 매크로블록당 필요한 전체 비트 수는 (16×16×8)+2×(8×8×8)=3072 비트이다. 따라서, 성분당 8 비트 수 해상도를 사용하여, QCIF 포맷의 한 비디오 프레임을 표시하는데 필요한 비트들의 수는 99×3072=304,128 비트이다. 그러므로, 일련의 이러한 QCIF 포맷 프레임들을 포함하는 비디오 시퀀스를 초당 30 프레임의 속도로 전송, 기록 또는 표시하는데 필요한 데이터의 양은 9 Mbps(초당 백만비트)보다 더 크다.이 데이터 전송률은 매우 큰 저장 용량, 전송 채널 용량 및 요구되는 하드웨어 성능 때문에 비디오 기록, 전송 및 디스플레이 애플리케이션들에서 실제로 사용될 수 없다. 이러한 이유로 수용가능한 이미지 품질을 유지하면서 비디오 데이터를 표시하고 전송하는데 필요한 정보의 양을 감소시키기 위하여 상기에 언급된 바와 같은 비디오 부호화 표준들이 개발되었다.

이전에 언급된 비디오 부호화 표준들 각각은 상이한 특성들을 갖는 비디오 기록 또는 전송 시스템들에서의 애플리케이션에 맞추어 졌다. 예를 들어, 상기 ISO 엠페그-1 표준은 특히 이용가능한 대역폭이 약 1.5Mbits/s까지인 경우 사용되도록 설계된다. 상기 엠페그-2 비디오 부호화 표준은 주로 약 10Mbits/s까지의 이용가능한 대역폭들을 갖는 디지털 저장 매체와 비디오 방송 및 통신에 적용가능하다. ITU-T 권고 H.263은 이용가능한 대역폭이 일반적으로 훨씬 더 낮은 시스템들에서 사용하도록 의도된다. 그것은 특히 이용가능한 데이터 전송 대역폭이 전형적으로 대략 64kbits/s인, 종합 정보 통신망(ISDN: Integrated Services Digital Network) 또는 종래의 공중 서비스 전화망(PSTN: Public Service Telephone Network)과 같은 고정 라인 네트워크를 통해 비디오 데이터가 실시간으로 전송되는 경우 사용하기에 적합하다. 전송이 적어도 부분적으로 무선 통신 링크를 통해 일어나는 이동 영상 전화에서 이용가능한 대역폭은 20kbits/s만큼 낮을 수 있다.

현존하는 다양한 비디오 부호화 표준들이 상이한 상황에서 사용하도록 맞추어져 있을지라도, 전송될 정보의 양을 감소시키기 위하여 그들이 채용하는 메커니즘들은 공통적으로 많은 특징들을 갖는다. 특히, 그들은 모두 전송될 비디오 시퀀스에서 중복되고 지각적으로 관계없는 정보의 양을 감소시키는 방식으로 동작한다. 비디오 시퀀스들에는 기본적으로 3가지 유형의 중복성이 존재한다: 공간, 시간 및 스펙트럼 중복성. 공간 중복성은 한 시퀀스의 개별 프레임내의 이웃하는 화소들간의 상관을 설명하는데 사용되는 용어이다. 시간 중복성은 한 시퀀스의 하나의 프레임에 나타나는 객체들은 다음 프레임들에 나타날 가능성이 있다는 사실을 나타낸다. 스펙트럼 중복성은 동일한 이미지의 상이한 색 성분들간의 상관을 지칭한다.

충분하게 유효한 압축은 보통 주어진 이미지들의 시퀀스에서 다양한 형태의 중복성을 단순히 감소시킴으로써 달성될 수는 없다. 따라서, 최신의 비디오 부호기들은 또한 주관적으로 가장 중요하지 않은 비디오 시퀀스의 부분들의 품질을 감소시킨다. 더욱이, 압축된 비디오 비트-스트림의 중복성은 자체적으로 효과적인 손실이 적은 부호화에 의해 감소된다. 전형적으로, 이것은 엔트로피 부호화를 사용하여 달성된다.

움직임 보상 예측은 시간 중복성 감소의 한 형태로서, 비디오 시퀀스내의 몇몇 (종종 많은) 프레임들의 내용이 프레임들 사이의 한 이미지의 객체들 또는 영역들의 움직임을 추적함으로써 상기 시퀀스내의 다른 프레임들로부터 "예측"된다. 움직임 보상 예측을 사용하여 압축된 프레임들은 전형적으로 인터(INTER)-부호화 또는 P-프레임들로서 지칭되는 반면에, 움직임 보상 예측을 사용하지 않고 압축된 프레임들은 인트라(INTRA)-부호화 또는 I-프레임들로 불리운다. 예측된(움직임-보상, 인터-부호화) 이미지는 충분한 품질의 이미지 내용을 표시할만큼 좀처럼 정확하지 않으므로, 공간적으로 압축된 예측 오차(PE: Prediction Error) 프레임이 또한 각인터 프레임과 연관된다. 많은 비디오 압축 방식들은 또한 일반적으로 B-화상들 또는 B-프레임들로 지칭되는, 양방향으로 예측된 프레임들을 사용할 수 있다. B-화상들은 참조 또는 소위 "앵커(anchor)" 화상 쌍들(I 또는 P 프레임들) 사이에 삽입되고 상기 앵커 화상들 중 하나 또는 양자로부터 예측된다.

전형적인 압축된 비디오 시퀀스에서 발생하는 상이한 유형의 프레임이 첨부한 도면들 중 도 3에 도시된다. 상기 도면에서 보여질 수 있는 바와 같이, 상기 시퀀스는 인트라 또는 I 프레임(30)부터 시작한다. 도 3에서, 화살표들(33)은 P-프레임들(34)이 형성되는 "순방향" 예측 프로세스를 나타낸다. B-프레임들(36)이 형성되는 양방향 예측 프로세스는 각각 화살표들(31a 및 31b)로 표시된다.

움직임 보상 예측을 사용하는 일반적인 비디오 부호화 시스템의 개략도가 도 1 및 도 2에 도시된다. 도 1은 움직임 보상 예측을 채용하는 부호기(10)를 도시한 것이고 도 2는 대응하는 복호기(20)를 도시한 것이다. 도 1에 도시된 부호기(10)는 움직임 필드 추정 블록(11), 움직임 필드 부호화 블록(12), 움직임 보상 예측 블록(13), 움직임 오차 부호화 블록(14), 움직임 오차 복호화 블록(15), 다중화 블록(16), 프레임 메모리(17) 및 가산기(19)를 포함한다. 상기 복호기(20)는 움직임 보상 예측 블록(21), 예측 오차 복호화 블록(22), 역다중화 블록(23) 및 프레임 메모리(24)를 포함한다.

움직임 보상 예측을 채용하는 비디오 부호기들의 동작 원리는 부호화되는 현재 프레임() 및 예측 프레임()간의 차분인 예측 오차 프레임()에서 정보의 양을 최소화하는 것이다. 따라서, 상기 예측 오차 프레임은 다음과 같이 정의된다:

상기 예측 프레임()은 일반적으로 이전에 부호화되고 전송된 프레임들 중 한 프레임, 예를 들어 현재 프레임 바로 이전의 프레임인 참조 프레임()의 화소값들을 사용하여 만들어지고, 상기 부호기(10)의 프레임 메모리(17)로부터 이용가능하다. 특히, 상기 예측 프레임()은 실질적으로 현재 프레임내의 화소들과 대응하는 상기 참조 프레임()에서 "예측 화소들"을 찾음으로써 구성된다. 현재 프레임내의 화소들과 상기 참조 프레임내의 대응하는 예측 화소들간의 관계(예를 들어, 상대적인 위치, 회전, 스케일 등)를 기술하는 움직임 정보가 획득되고 상기 예측 프레임은 상기 움직임 정보에 따라 상기 예측 화소들을 이동시킴으로써 구성된다. 이러한 방식으로, 상기 예측 프레임은 상기 참조 프레임내의 화소값들을 사용하여, 현재 프레임의 근사 표시로서 구성된다. 그러므로 상기에 참조된 상기 예측 오차 프레임은 상기 예측 프레임에 의해 제공되는 현재 프레임의 근사 표시와 상기 현재의 프레임 자체간의 차분을 나타낸다. 움직임 보상 예측을 사용하는 비디오 부호기들에 의해 제공되는 기본적인 이점은 현재 프레임의 비교적 컴팩트한 기술이, 상기 예측 오차 프레임내의 관련된 예측 오차 정보와 함께, 그것의 예측을 형성하는데 필요한 움직임 정보에 의해 획득될 수 있다는 사실에 기인한다.

한 프레임내의 많은 수의 화소들로 인하여, 각 화소에 대한 개별적인 움직임정보를 상기 복호기로 전송하는 것은 일반적으로 효과적이지 않다. 그대신, 대부분의 비디오 부호화 방식들에서, 현재 프레임은 더 큰 이미지 세그먼트들(S_k)로 분할되고, 상기 세그먼트들과 관련된 움직임 정보가 상기 복호기로 전송된다. 예를 들어, 움직임 정보는 전형적으로 한 프레임의 각 매크로블록에 제공되고 그다음 동일한 움직임 정보는 상기 매크로블록내의 모든 화소들에 대해 사용된다. 현재 개발중인, ITU-T 권고 H.26L과 같은 몇몇 비디오 부호화 표준들에서, 하나의 매크로블록은 더 작은 블록들로 분할될 수 있는데, 각각의 더 작은 블록에는 그 자신의 움직임 정보가 제공된다.

상기 움직임 정보는 보통 움직임 벡터들()의 형태를 취한다. 숫자들및의 쌍은 상기 참조 프레임()내의 한 화소에 관해 현재 프레임()내의 한 화소()의 수평 및 수직 변위들을 나타낸다. 움직임 벡터들()은 상기 움직임 필드 추정 블록(11)에서 계산되고 현재 프레임()의 움직임 벡터들의 집합은 움직임 벡터 필드로서 지칭된다.

전형적으로, 현재 비디오 프레임내의 매크로블록의 위치는 그것의 상부 좌측 모서리의좌표에 의해 지정된다. 따라서, 움직임 정보가 한 프레임의 각 매크로블록과 관련되는 비디오 부호화 방식에서, 각 움직임 벡터는 상기 참조 프레임()내의 예측 화소들의 실질적으로 대응하는 블록의 상부 좌측 모서리에 있는 화소에 대해 현재 프레임()내의 매크로블록의 상부 좌측 모서리를 나타내는화소의 수평 및 수직 변위(및)를 기술한다(도 4b에 도시된 바와 같이).

움직임 보상은 계산 집중적인 태스크이다. (도 4a에 도시된 바와 같이) 참조 프레임() 및 예를 들어 현재 프레임내의 N×N 화소들을 포함하는 정방형 매크로블록이 주어지는 경우, 움직임 추정의 목표는 어떤 기준에 따라 현재 화상에서 상기 매크로블록의 특성과 일치하는 상기 참조 프레임내의 N×N 화소 블록을 발견하는 것이다. 상기 기준은 예를 들어, 현재 프레임내의 상기 매크로블록의 화소들 및 비교되는 참조 프레임내의 화소들의 블록간의 절대 차분들의 합(SAD)일 수 있다. 이러한 프로세스는 일반적으로 "블록 매칭"으로서 알려져 있다. 실제 세상의 객체들은 회전 및 래핑(wraping) 뿐만 아니라, 스케일 변경을 겪을 수 있기 때문에,일반적으로 매칭될 블록과 참조 프레임내의 블록의 지오메트리(geometry)가 동일할 필요가 없다는 것은 주목되어야 한다. 하지만, 상기에 언급된 것들과 같은, 현재의 국제 비디오 부호화 표준들에서, 변환 움직임 모델만이 사용되어서 (하기 참조) 고정 직사각형 지오메트리는 충분하다.

이상적으로, 매치(match)를 찾을 최선의 가능성을 달성하기 위하여, 상기 참조 프레임 전체가 탐색되어야 한다. 하지만, 그것은 비디오 부호기에 너무 높은 계산 부담을 주기 때문에 이것은 비실용적이다. 그대신, 탐색 영역은 도 4c에 도시된 바와 같이, 현재 프레임내의 매크로블록의 원래의 위치 주위의 영역 [-p,p]으로 제한된다.

상기 부호기(10)로부터 상기 복호기(20)로 전송될 움직임 정보의 양을 추가로 감소시키기 위하여, 상기 움직임 벡터 필드는 그것을 움직임 모델로 표현함으로써, 상기 부호기(10)의 움직임 필드 부호화 블록(12)에서 부호화된다. 상기 프로세스에서, 이미지 세그먼트들의 움직임 벡터들은 어떤 소정의 기능들을 사용하여 다시 표현되거나 즉 상기 움직임 벡터 필드는 모델로 표현된다. 대부분의 모든 현재 사용되는 움직임 벡터 필드는 다음 일반적인 공식을 따르는 가산 움직임 모델들이다.

상기 식에서및는 움직임 계수들이다. 상기 움직임 계수들은 상기 복호기(20)로 전송된다(도 1 및 도 2에서 정보 스트림(2)). 함수들및는 움직임 필드 베이시스 함수들이다. 그들은 상기 부호기 및 상기 복호기 양자에 알려져 있다. 근사 움직임 벡터 필드는 상기 계수들 및 상기 베이시스 함수들을 사용하여 구성될 수 있다. 상기 베이시스 함수들은 상기 부호기(10) 및 상기 복호기(20) 양자에 알려져 있기 때문에(즉, 저장되어 있기 때문에), 상기 움직임 계수들만이 상기 부호기로 전송될 필요가 있어서, 상기 프레임의 움직임 정보를 표현하는데 요구되는 정보의 양은 감소된다.

가장 단순한 움직임 모델은 각 세그먼트의 움직임 벡터들을 기술하는데 단지 두개의 계수들만을 필요로 하는 변환 움직임 모델이다. 움직임 벡터들의 값들은 수학식 4에 의해 주어진다.

이것은 16×16 및 8×8 화소 블록들의 움직임을 기술하기 위하여 ITU-T 권고 H.263 및 ISO 표준들 엠페그-1, 엠페그-2, 엠페그-4에서 사용되는 모델이다. 변환 움직임 모델을 사용하는 시스템들은 전형적으로 전 화소 해상도 또는 전 화소 해상도의 어떤 정수분의 1, 예를 들어 절반 또는 4분의 1 화소 해상도로 움직임 추정을 수행한다.

예측 프레임()은 상기 부호기(10)의 움직임 보상 예측 블록(13)에서 구성되고 수학식 5에 의해 주어진다.

상기 예측 오차 부호화 블록(14)에서, 상기 예측 오차 프레임()은 그것을 어떤 2차원 함수들의 유한 급수(변환)로서 표현함으로써 전형적으로 압축된다. 예를 들어, 2차원 이산 코사인 변환(DCT: Discrete Cosine Transform)이 사용될 수 있다. 상기 변환 계수들은 그들이 상기 복호기로 전송되기 전에 양자화되고엔트로피(예를 들어 호프만) 부호화된다(도 1 및 도 2에서 정보 스트림(1)). 양자화에 의해 야기되는 오차 때문에, 상기 동작은 보통 예측 오차 프레임()에서 어떤 저하(정보의 손실)를 일으킨다. 이러한 저하를 보상하기 위하여, 상기 부호기(10)는 또한 예측 오차 복호화 블록(15)을 포함하는데, 복호화된 예측 오차 프레임()이 변환 계수들을 사용하여 구성된다. 상기 국부적으로 복호화된 예측 오차 프레임은 상기 가산기(19)에 의해 상기 예측 프레임()에 가산되고 결과로서 생기는 복호화된 현재 프레임()은 다음 참조 프레임()으로서 추가로 사용하기 위하여 프레임 메모리(17)에 저장된다.

상기 움직임 벡터들에 대한 정보를 운반하는 정보 스트림(2)은 다중화기(16)에서 상기 예측 오차에 대한 정보와 결합되고 전형적으로 적어도 두가지 유형의 정보를 포함하는 정보 스트림(3)이 상기 복호기(20)로 송신된다.

이제 대응하는 비디오 복호기(20)의 동작이 설명될 것이다.

상기 복호기(20)의 프레임 메모리(24)는 이전에 재구성된 참조 프레임()을 저장한다. 상기 예측 프레임()은 수신된 움직임 계수 정보 및 이전에 재구성된 참조 프레임()의 화소값들을 사용하여, 수학식 5에 따라 상기 복호기(20)의 움직임 보상 예측 블록(21)에서 구성된다. 상기 예측 오차 프레임()의 전송된 변환 계수들은 복호화된 예측 오차 프레임()을 구성하기 위하여 상기 예측 오차 복호화 블록(22)에서 사용된다. 그다음 상기 복호화된 현재프레임()의 화소들은 상기 예측 프레임()과 상기 복호화된 예측 오차 프레임()을 가산함으로써 재구성된다:

상기 복호화된 현재 프레임은 다음 참조 프레임()으로서 상기 프레임 메모리(24)에 저장될 수 있다.

상기에 제공된 디지털 비디오의 움직임 보상 부호화 및 복호화의 설명에서, 상기 참조 프레임()에 대해 현재 프레임내의 매크로블록의 움직임을 기술하는 움직임 벡터()는 상기 참조 프레임내의 화소들 중 어떤 화소도 가리킬 수 있다. 이것은 디지털 비디오 시퀀스의 프레임들간의 움직임이 상기 프레임내의 이미지 화소들에 의해 결정되는 해상도(소위 전 화소 해상도)에 의해서만 표현될 수 있다는 것을 의미한다. 하지만, 실제 움직임은 임의의 정밀도를 가지고 있어서, 상기에 설명된 시스템은 디지털 비디오 시퀀스의 연속적인 프레임들간의 움직임의 근사 모델링만을 제공할 수 있다. 전형적으로, 전 화소 해상도를 갖는 비디오 프레임들간의 움직임의 모델링은 각 매크로블록 또는 프레임과 관련된 예측 오차(PE) 정보의 효과적인 최소화를 허용할만큼 충분히 정확하지 않다. 그러므로, 실제 움직임의 더 정확한 모델링을 가능하게 하기 위하여 그리고 부호기로부터 복호기로 전송되어야 하는 PE 정보의 양을 감소시키는데 도움을 주기 위하여, 많은 비디오 부호화 표준들은 움직임 벡터들이 "중간의(in between)" 이미지 화소들을 가리키도록 허용한다. 즉, 상기 움직임 벡터들은 "서브-화소" 해상도를 가질 수 있다. 움직임 벡터들이 서브-화소 해상도를 갖도록 허용하는 것은 수행되어야 하는 부호화 및 복호화 동작들의 복잡성을 부가하여서, 움직임 벡터가 가질 수 있는 공간 해상도를 제한하는 것이 여전히 유리하다. 따라서, 이전에 언급된 것들과 같은, 비디오 부호화 표준들은 전형적으로 움직임 벡터들이 단지 전-, 절반- 또는 1/4-화소 해상도를 갖도록 허용한다.

서브-화소 해상도를 갖는 움직임 추정은 움직임 벡터들이 전- 또는 절반-화소 해상도를 가질 수 있는 일반적인 비디오 부호화 방식에 대해, 도 5에 예시적인 방식으로 도해된 바와 같이, 2단계 프로세스로서 구현될 수 있다. 제1 단계에서, 전-화소 해상도를 갖는 움직임 벡터가 상술된 블록-매칭 프로세스와 같은, 적합한 움직임 추정 방식을 사용하여 결정된다. 전-화소 해상도를 갖는 결과로서 생긴 움직임 벡터가 도 5에 도시된다.

제2 단계에 있어서, 상기 제1 단계에서 결정된 움직임 벡터가 요망되는 절반-화소 해상도를 획득하기 위하여 정제된다. 도 5에 도시된 예에서, 이것은 각 블록의 상단-좌측 모서리의 위치가 도 5에서 X로 표시되어 있는, 16×16 화소들의 8개의 새로운 탐색 블록들을 형성함으로써 행해진다. 이들 위치들은로서 표시되는데, 여기에서 m과 n은 -1, 0 및 +1의 값들을 취할 수 있지만, 동시에 0이 될 수는 없다. 원래 이미지 화소들의 화소값들만이 알려져 있기 때문에, 절반-화소 위치들에 있는 서브-화소들의 값들(예를 들어, 휘도 및/또는 색 값들)은 어떤 형태의 보간 방식을 사용하여, 상기 8개의 새로운 탐색 블록들 각각에 대해 추정된다.

절반-화소 해상도에서 상기 서브-화소들의 값들을 보간한 후, 상기 8개의 탐색 블록들 각각은 움직임 벡터가 탐색되고 있는 매크로블록과 비교된다. 전 화소 해상도를 갖는 움직임 벡터를 결정하기 위하여 수행된 블록 매칭 프로세스에서와 같이, 상기 매크로블록은 어떤 기준, 예를 들어 SAD에 따라 상기 8개의 탐색 블록들 각각과 비교된다. 비교의 결과로서, 일반적으로 최소 SAD 값이 획득될 것이다. 비디오 시퀀스에서의 움직임의 특성에 따라, 상기 최소값은 (전-화소 해상도를 갖는) 원래의 움직임 벡터에 의해 지정된 위치에 대응할 수 있거나 절반-화소 해상도를 갖는 위치에 대응할 수 있다. 따라서, 움직임 벡터가 전-화소 또는 서브-화소 위치를 가리켜야 하는지를 결정하는 것이 가능하고, 서브-화소 해상도가 적합한 경우, 정확한 서브-화소 해상도 움직임 벡터를 결정하는 것이 가능하다.

실제로, 참조 프레임내의 서브-화소값의 추정은 주위 화소값들로부터 상기 서브-화소의 값을 보간함으로써 수행된다. 일반적으로, 정수가 아닌 위치()에 있는 서브-화소값()의 보간은 수학적으로 다음과 같이 표현되는 2차원 연산으로서 공식화될 수 있다:

여기에서은 필터 계수들이고 n 및 m은및를 각각 정수값들로 절삭함으로써 획득된다. 전형적으로, 상기 필터 계수들은 상기및값들에 의존하고 상기 보간 필터들은 보통 소위 "분리가능 필터들"인데, 이 경우 서브-화소 값()은 다음과 같이 계산될 수 있다:

상기 움직임 벡터들은 상기 부호기에서 계산된다. 일단 대응하는 움직임 계수들이 상기 복호기로 전송되면, 상기 부호기에서 사용된 것과 동일한 보간 방법을 사용하여 요구되는 서브-화소들을 보간하는 것은 수월하다. 이러한 방식으로, 프레임 메모리(24)에서 참조 프레임 다음의 프레임은 상기 참조 프레임과 상기 전송된 움직임 벡터들로부터 재구성될 수 있다.

관용적으로, 비디오 부호기들 및 복호기들에서 사용되는 보간 필터들은 고정 필터 계수값들을 채용하고 동일한 필터(즉, 동일한 필터 계수값들을 갖는 동일한 유형의 필터)가 부호화되는 비디오 시퀀스의 모든 프레임들에 대해 사용된다. 동일한 필터는 추가로 그들의 특성 및 그들이 획득된(캡처된) 방법에 상관없이 모든 비디오 시퀀스들에 대해 사용된다. 웨디(Wedi)(2001년 4월, 대한민국, 서울, 화상 부호화 심포지움(PCS 2001), 움직임 보상 하이브리드 비디오 부호화용 적응 보간 필터)는 비디오 부호화 프로세스에서 어떤 결점을 보상하기 위하여, 적응 필터 계수값들을 갖는 보간 필터들의 사용을 제안한다. 특히, 웨디는 이미지 획득 프로세스에서의 에일리어싱, 허용된 움직임 벡터들의 유한 해상도 및 변환 움직임 모델의 한정된 유효성이 부가적인 예측 오차들을 어떻게 야기하는지에 대해 기술한다. 비디오 이미지에서의 에일리어싱은 이미지 획득 프로세스에서 이상적이지 않은 저역 통과 필터들의 사용(및 나이키스트 샘플링 이론의 결과적인 비-이행)으로 인하여 야기된다. 에일리어싱은 비디오 시퀀스내에서 움직임 보상 예측을 방해하고 부가적인 예측 오차 성분을 야기한다. 허용된 움직임 벡터들의 유한 정밀도(예를 들어, 전-화소, 절반-화소 또는 1/4 화소) 및 연속적인 비디오 프레임들간의 단지 수평과 수직 변환 움직임을 나타내기 위한 변환 움직임 벡터의 능력은 또한 부가적인 예측 오차 기여를 야기한다. 웨디(Wedi)는 에일리어싱, 유한 움직임 벡터 정밀도 및 변환 움직임 모델의 한정된 유효성에 의해 야기되는 부가적인 예측 오차를 보상하기 위하여 보간 필터의 필터 계수값들을 적응시킴으로써 부호화 효율의 개선이 달성될 수 있다는 것을 추가로 제안한다.

더 일반적으로, 움직임 벡터의 특질 및 특성은 비디오 시퀀스에서 변하기 때문에, 최적 보간 필터가 시간 및 이미지 위치의 함수에 따라 변한다는 것은 이해되어야 한다. 웨디는 동적 적응 필터 계수값들을 가진 보간 필터가 H.26L 비디오 코덱, 특히 1/4-화소 움직임 벡터 해상도 및 6개의 대칭 필터 계수들을 갖는 워너형 보간 필터(6-탭 필터)에서 사용되는 H.26L의 테스트 모델(TML)4. TML-4에 의해 정의된 코덱의 버전에 통합된 예를 제시한다. 웨디에서 제시된 예는 프레임별로 상기 보간 필터의 필터 계수들을 적응시키고, 상기 필터 계수들을 차분적으로 부호화하며 그들을 주 비디오 데이터에 대한 부가적인 정보로서 복호기로 전송하는 것을 제안한다. 이러한 접근에 기반한 제안은 상기 H.26L 비디오 코덱의 테스트 모델 8에서 동적 적응 필터 계수값들을 가진 보간 필터들의 사용을 포함하도록 행해졌다.이것은 2001년 9월 문서 VCEG-N28, 비디오 부호화 전문 그룹(VCEG), 스터디 그룹 16, 의제 6, "H.26L용 적응 보간 필터" 및 2001년 11월 문서 VCEG-O16rl, 비디오 부호화 전문 그룹(VCEG), 스터디 그룹 16, 의제 6, "H.26L용 적응 보간 필터에 관한 추가 결과"라는 명칭의 ITU-통신 표준화 부문에 제시되어 있다.

동적 적응 보간 필터들의 사용은 부호화된 비디오 데이터 스트림의 부호화 효율에 관한 중대한 이슈를 일으키고 또한 부호화된 비디오 데이터의 오류 허용성에 대한 효과를 갖는다. 부호화 효율의 이슈는 직접적인 방식으로 이해될 수 있다. 고정 필터 계수값들을 갖는 보간 필터를 채용하는 비디오 부호화 시스템에서, 부호화된 비디오 데이터 비트-스트림에 필터 계수값들과 관련된 어떤 정보도 포함시킬 필요는 없다. 상기 필터 계수값들은 단순히 비디오 부호기 및 비디오 복호기에 기록될 수 있다. 즉, 고정된 보간 필터들을 채용하는 특정 비디오 부호화 표준에 따라 구현된 비디오 부호화 시스템에서, 상기 계수값들은 상기 표준의 명세에 따라 부호기 및 복호기 양자에 미리 프로그램된다. 하지만, 동적 적응 필터 계수들이 허용되는 경우, 상기 계수값들과 관련된 정보를 전송할 필요가 있다. 상기 필터 계수들은 주기적으로 갱신되기 때문에(예를 들어, 프레임별로), 이것은 상기 비디오 부호기로부터 상기 복호기로 송신될 정보의 양에 반드시 부가되고 부호화 효율에 해로운 영향을 끼친다. 저 비트-율 비디오 부호화 애플리케이션들에 있어서, 전송될 정보의 양의 어떤 증가도 일반적으로 바람직하기 않다.

따라서, 최적으로 움직임을 모델링하고 보상하기 위하여, 동적 보간 필터들의 효율적인 표현이 필요하다.

오류 허용성에 관해, 동적 가변 보간 필터의 계수들에 대한 정보가 부호기로부터 복호기로 전송되는 방법이 전송 오류들에 대한 상기 비디오 데이터의 민감성에 영향을 끼칠 수 있다는 것은 이해되어야 한다. 특히 동적 적응 보간 필터들을 채용하는 비디오 부호화 시스템에 있어서, 복호기에서 비디오 시퀀스의 프레임의 정확한 재구성은 필터 계수값들의 정확한 수신 및 복호화에 의존한다. 상기 계수값들에 관한 정보가 부호기로부터 복호기로의 전송동안 오류에 영향을 받기 쉬운 경우, 재구성된 비디오 데이터의 손상이 있을 가능성이 있다. 종래 기술로부터 알려져 있는 3가지의 필터 계수 부호화 방법들이 존재한다. 첫번째 방법은 상기 필터 계수값들을 개별적으로 엔트로피 부호화하는 것이다. 두번째 방법은 (웨디에 의해 제안된 바와 같이) 이미 복호화된 필터들의 필터 계수들에 대해 차분적으로 필터 계수값들을 엔트로피 부호화하는 것이고 세번째 방법은 일 집합의 필터들을 정의하고 선택된 필터의 인덱스를 부호화하는 것이다.

상기에 언급된 바와 같이, 보간 필터 계수들을 부호화하는데 사용될 수 있는 종래 기술의 해법들 모두는 상이한 사용 시나리오에서 그들과 관련된 문제들을 갖는다. 상기 보간 필터 계수들이 개별적으로 부호화되는 상기 첫번째 방법은 그것이 어떤 이전 정보(즉, 이전에 부호화된 보간 필터 계수값들에 대한 정보)도 사용하지 않기 때문에 열등한 부호화 성능을 제공한다. 그러므로 이러한 접근은 보간 필터 계수값들을 기술하기 위하여 부호화된 비디오 비트-스트림에 부가될 과도하게 많은 양의 정보를 필요로 한다. 웨디에서 제안된 바와 같은, 계수들의 차분 부호화는 효과적이지만, 필터 계수들이 이전의 필터 계수들의 정확한 복호화에 의존하기 때문에 가능한 전송 오류들을 갖는 환경에서 사용될 수 없다. 이전에 설명된 바와 같이, 부호화된 비디오 비트-스트림이 부호기로부터 복호기로의 전송 동안 오류에 영향을 받기 쉬운 경우, 복호기에서 재구성된 비디오 데이터의 손상이 발생할 가능성이 있다. 사전 정의된 집합의 필터들을 갖는 세번째 종래 기술의 해법은 단지 한정된 대안들을 제공하여서 부호하 성능을 저하시킨다. 즉, 상기 옵션은 웨디에서 설명된 바와 같이, 동적 적응 필터 계수값들을 갖는 보간 필터들을 사용하는 완전한 이점들을 달성할 수 없다.

따라서, 효율적이고 부호화된 비디오 비트-스트림의 오류 허용성에서 열화를 초래하지 않는 적응 보간 필터들의 계수값들을 부호화하는 방법에 대한 필요가 존재한다는 것은 이해되어야 한다.

본 출원은 비디오 부호화에서의 움직임 보상에 관한 것이다. 특히, 본 발명은 움직임 보상 비디오 부호기들 및 복호기들에서 이미지 화소값들을 재구성하는데 사용되는 보간 필터들의 계수들을 부호화하기 위한 방법에 관한 것이다. 본 발명은 또한 본 발명의 방법을 구현하는 대응하는 비디오 부호기, 비디오 복호기 및 비디오 전송 시스템에 관한 것이다.

도 1은 종래 기술에 의한 일반적인 비디오 부호기를 도시한 블록도이다.

도 2는 종래 기술에 의한 일반적인 비디오 복호기를 도시한 블록도이다.

도 3은 비디오 부호화에서 사용되는 프레임들의 유형들을 도시한 개략적인 표시이다.

도 4a는 현재 프레임내의 매크로블록을 도시한 개략적인 표시이다.

도 4b는 블록-매칭을 위한 참조 프레임을 도시한 개략적인 표시이다.

도 4c는 현재 프레임내의 매크로블록의 원래 위치 주위의 탐색 영역을 도시한 개략적인 표시이다.

도 5는 종래 기술에 의한 서브-화소 해상도에 대한 움직임 추정의 프로세스를 도시한 개략적인 표시이다.

도 6a는 최적 보간 필터를 도시한 개략적인 표시이다.

도 6b는 베이스 필터 및 차분 계수들로 분해되는 최적 보간을 도시한 개략적인 표시이다.

도 6c는 부호화되고 복호기로 송신될 차분 계수들을 도시한 개략적인 표시이다.

도 7은 본 발명을 수행할 수 있는 비디오 부호화 및 복호화 장치를 포함하는 단말기 장치를 도시한 블록도이다.

도 8a는 본 발명의 바람직한 실시예에 의한 비디오 부호기를 도시한 블록도이다.

도 8b는 본 발명의 다른 실시예에 의한 비디오 부호기를 도시한 블록도이다.

도 8c는 본 발명의 또 다른 실시예에 의한 비디오 부호기를 도시한 블록도이다.

도 9a는 본 발명의 바람직한 실시예에 의한 비디오 복호기를 도시한 블록도이다.

도 9b는 본 발명의 다른 실시예에 의한 비디오 복호기를 도시한 블록도이다.

도 9c는 본 발명의 또 다른 실시예에 의한 비디오 복호기를 도시한 블록도이다.

본 발명은 차분 부호화의 양호한 부호화 효율을 오류 허용 특징과 결합하여 그것이 모든 환경에서 사용되도록 허용한다. 그러므로, 그것은 오류의 경향이 있는 환경, 예를 들어 부호화된 비디오 비트-스트림이 간섭에 영향을 받기 쉬운 무선 통신 링크를 통해 전송되는 환경에서 사용하기 위한 비디오 부호화 시스템에서의 구현에 적합하다.

따라서, 본 발명의 제1 태양에 의하면, 부호화된 비디오 데이터를 제공하기 위하여 디지털 비디오 시퀀스내의 이미지들을 부호화하는 방법으로서, 상기 디지털 비디오 시퀀스는 일련의 비디오 프레임들을 포함하고, 상기 프레임들 각각은 복수의 화소값들을 가지며, 복수의 계수값들에 의해 표시되는 복수의 계수들을 갖는 보간 필터가 상기 부호화된 비디오 데이터로부터 상기 디지털 비디오 시퀀스의 프레임내의 화소값들을 재구성하는 데 사용되는 이미지 부호화 방법이 제공된다. 상기 방법은,

일 집합의 차분값들을 형성하기 위하여 사전 정의된 베이스 필터에 대해 차분적으로 상기 보간 필터의 계수값들을 부호화하는 단계; 및

상기 화소값들의 재구성이 상기 차분값들의 집합에 기반하도록 상기 부호화된 비디오 데이터에 상기 차분값들의 집합을 적합화시키는 단계를 포함하는 것을 특징으로 한다.

유리하게는, 상기 부호화된 비디오 데이터는 상기 차분값들의 집합을 나타내는 부호화된 값들을 포함하며, 상기 차분값들의 집합은 상기 비디오 부호기로부터 상기 비디오 복호기로 전송되기 전에 엔트로피 부호화된다.

유리하게는, 상기 사전 정의된 베이스 필터는 상기 보간 필터의 계수값들과 통계적으로 유사한 값들을 갖는 복수의 추가 계수들을 갖는다.

유리하게는, 상기 보간 필터의 계수들은 선택된 이미지 세그먼트내의 화소 값들의 보간을 위해 선택된다.

유리하게는, 상기 사전 정의된 베이스 필터는 고정된 계수값들을 갖는다.

유리하게는, 상기 사전 정의된 베이스 필터는 상기 비디오 시퀀스의 통계에 적합화된 복수의 계수들을 갖는다.

바람직하기로는, 상기 보간 필터는 상기 필터 계수들의 절반만이 부호화되도록 대칭이다.

바람직하기로는, 상기 보간 필터의 계수값들은 첫번째 계수값으로부터 마지막 계수값까지, 어떤 순서로 부호화되고, 상기 순서는 상기 계수들의 공간적인 순서와 다르다.

유리하게는, 상기 보간 필터의 계수값들의 합은 고정된다.

유리하게는, 상기 사전 정의된 베이스 필터는 복수의 계수값들을 가지며, 상기 보간 필터의 계수값들과 상기 사전 정의된 베이스 필터의 계수값들간의 차분들의 크기를 감소시키기 위하여 상수값이 상기 사전 정의된 베이스 필터의 계수값들에 가산된다.

본 발명의 제2 태양에 의하면, 디지털 비디오 시퀀스를 나타내는 부호화된 비디오 데이터를 제공하기 위하여 일련의 비디오 프레임들을 갖는 상기 디지털 비디오 시퀀스내의 이미지들을 부호화하기 위한 수단으로서, 상기 비디오 시퀀스의 각 프레임은 복수의 화소값들을 포함하는 수단, 및

복호화 프로세스에서 상기 디지털 비디오 시퀀스의 프레임내의 화소값들을 재구성하기 위하여 보간 필터를 정의하기 위한 수단으로서, 상기 보간 필터는 복수의 계수값들에 의해 표시되는 다수의 계수들을 갖는 수단을 포함하는 비디오 부호기가 제공된다. 상기 비디오 부호기는,

상기 보간 필터에 응답하여, 일 집합의 차분값들을 제공하기 위하여 상기 보간 필터 및 사전 정의된 베이스 필터의 계수값들 간의 차분을 계산하기 위한 수단, 및

상기 복호화 프로세스에서 상기 화소값들의 재구성이 상기 차분값들의 집합에 기반하도록 상기 부호화된 비디오 데이터에 상기 차분값들의 집합을 적합화시키기 위한 수단을 포함하는 것을 특징으로 한다.

유리하게는, 상기 부호기는 상기 부호화된 비디오 데이터에 상기 차분값들의 집합을 적합화시키기 전에 상기 차분값들의 집합을 엔트로피 부호화하기 위한 수단을 포함한다.

본 발명의 제3 태양에 의하면, 일련의 비디오 프레임들을 포함하는 디지털 비디오 시퀀스를 나타내는 비디오 데이터를 복호화하는 방법으로서, 상기 비디오 시퀀스의 각 프레임은 복수의 화소값들을 포함하고, 복수의 계수값들에 의해 표시되는 복수의 계수들을 갖는 보간 필터는 상기 디지털 비디오 시퀀스의 프레임내의 화소값들을 재구성하는 데 사용되는 방법이 제공된다. 상기 방법은,

상기 비디오 데이터로부터 일 집합의 차분값들을 회수하는 단계로서, 상기 차분값들의 집합은 상기 보간 필터와 사전 정의된 베이스 필터의 계수값들간의 차분을 나타내는 단계;

상기 차분값들의 집합 및 상기 사전 정의된 베이스 필터에 기초하여 추가 필터를 구성하는 단계; 및

상기 추가 필터에 기초하여 상기 화소값들을 재구성하는 단계를 포함하는 것을 특징으로 한다.

유리하게는, 상기 사전 정의된 베이스 필터는 복수의 계수값들에 의해 표시된 복수의 계수들을 가지며, 상기 추가 필터의 구성 방법은 상기 차분값들의 집합을 상기 사전 정의된 베이스 필터의 계수값들과 가산함으로써 수행된다.

유리하게는, 상기 차분 값들의 집합은 엔트로피 부호화에 의해 상기 비디오 데이터로부터 회수된다.

본 발명의 제4 태양에 의하면, 비트-스트림의 비디오 데이터를 수신하기 위한 수단을 포함하는 비디오 복호기로서, 상기 수신된 비디오 데이터는 일련의 비디오 프레임들을 포함하는 디지털 비디오 시퀀스를 나타내고, 상기 비디오 시퀀스의 각 프레임은 복수의 화소값들을 포함하는 비디오 복호기가 제공된다. 상기 비디오 복호기는,

상기 비트-스트림으로부터 일 집합의 차분값들을 회수하기 위한 수단;

사전 정의된 베이스 필터와 상기 차분값들의 집합에 근거하여 보간 필터를 구성하기 위한 수단; 및

상기 보간 필터와 상기 수신된 비디오 데이터에 근거하여 상기 비디오 시퀀스의 프레임의 화소값들을 재구성하기 위한 수단을 포함하는 것을 특징으로 한다.

유리하게는, 상기 비디오 복호기는 또한 상기 보간 필터를 구성하기 위하여 상기 차분값들의 집합과 상기 사전 정의된 베이스 필터의 추가 계수값들을 가산하기 위한 수단 및 상기 비트-스트림으로부터 상기 차분값들의 집합을 엔트로피 복호화하기 위한 수단을 구비한다.

본 발명의 제5 태양에 의하면, 디지털 비디오 시퀀스를 나타내는 비트-스트림의 부호화된 비디오 데이터를 제공하기 위하여 일련의 비디오 프레임들을 갖는 상기 디지털 비디오 시퀀스내의 이미지들을 부호화하기 위한 부호기로서, 상기 비디오 시퀀스의 각 프레임은 복수의 화소값들을 포함하고, 상기 부호기는 복호화 프로세스에서 상기 디지털 비디오 시퀀스의 프레임의 화소값들을 재구성하기 위하여 보간 필터를 정의하기 위한 수단을 구비하며, 상기 보간 필터는 복수의 계수값들에 의해 표시되는 복수의 필터 계수들을 갖는 부호기, 및

상기 복호화 프로세스에서 상기 비디오 시퀀스의 프레임내의 화소값들을 재구성하기 위하여 상기 비트-스트림의 상기 부호화된 비디오 데이터를 수신하기 위한 복호기를 포함하는 비디오 부호화 시스템이 제공된다. 상기 비디오 부호화 시스템에서,

상기 부호기는,

일 집합의 차분값들을 제공하기 위하여 상기 보간 필터와 사전 정의된 베이스 필터간의 차분을 계산하기 위한 수단, 및

상기 차분값들의 집합을 상기 비트-스트림에 적합화시키기 위한 수단을 포함하고,

상기 복호기는,

상기 비트-스트림으로부터 상기 차분값들의 집합을 회수하기 위한 수단, 및

상기 복호화 프로세스에서의 상기 화소값들의 재구성이 추가 필터에 기반하도록 상기 사전 정의된 베이스 필터 및 상기 회수된 차분값들의 집합에 근거하여 상기 추가 필터를 구성하기 위한 수단을 포함한다.

본 발명의 이들 특징들 및 다른 특징들은 첨부한 도면들과 함께 다음 설명을 참조하여 명백해질 것이다. 하지만, 도면들은 단지 도해의 목적으로 설계되었으며 본 발명의 범위를 한정하는 것은 아니라는 것은 이해될 것이다.

본 발명에 의한 부호기는 사전 정의된 베이스 필터 계수들에 대해 차분적으로 필터 계수들을 부호화한다. 도 6a 내지 도 6c는 본 발명에 의한 방법을 도시한 것이다. 도 6a에 도시된 막대 그래프들은 보간 필터 계수값들을 나타내는 것으로, 각 막대는 필터 계수들 중 하나의 필터 계수에 대응한다. 막대의 높이는 각각의 계수값을 나타내는데, 수평축 위로 신장하는 막대들은 양의 계수값들을 나타내고, 수평축 아래로 신장하는 막대들은 음의 계수값들을 나타낸다. 도 6a 및 도 6b를 참조하면, 막대 그래프(110)는 선택된 이미지 세그먼트의 움직임 보간에 가장 적합할 상기 부호기가 탐지한 필터이고, 반면에 막대 그래프(140)는 베이스 필터를 나타낸다. 도 6a에 도시된 예에서, 상기 필터는 6개의 필터 계수들을 갖는 6-탭 대칭 필터이다. 자체로 필터 계수들을 송신하는 것 대신에, 선택된 필터(110)와 베이스 필터(140)간의 차분들(130)만이 부호화되고 송신된다. 송신된 계수들(120)은 도 6c에도시된다.

본 발명을 가지고, 작은 크기 차분들이 엔트로피 부호기로 효과적으로 부호화될 수 있기 때문에 부호화 이득이 획득된다. 이러한 차분값들이 비디오 부호기에 의해 생성된 부호화된 비디오 비트-스트림에 포함되고, 상기 비디오 비트-스트림이 상기 부호기로부터 대응하는 복호기로 전송될 때, 보간 필터의 계수들은 상기 부호화된 비트-스트림으로부터 차분값들을 회수하고 그들을 상기 복호기에 저장된 사전 정의된 베이스 필터의 각각의 계수값들에 가산함으로써 상기 복호기에서 재구성될 수 있다.

상기 베이스 필터는 또한 부호화 효율을 추가로 개선시키기 위하여 상기 비디오 시퀀스의 통계 및 수신된 필터 계수들에 적합화될 수 있다는 것은 주목되어야 한다. 또한 상기 베이스 필터는 전체 코덱에 대해 사전에 정의될 수 있다. 즉, 동일한 사전 정의된 베이스 필터는 그들의 특성들 또는 그들이 획득되는 방법에 상관없이, 부호화될 모든 비디오 시퀀스들에 대해 사용된다. 대안적으로, 상기 베이스 필터는 비디오 데이터에 적합화된다. 즉 상이한 베이스 필터들은 상이한 비디오 시퀀스들을 위해 사용되거나, 상기 베이스 필터는 어떤 사전 정의된 규칙들에 따라 특정 비디오 시퀀스의 부호화동안 적합화될 수 있다.

도 6a 내지 도 6c에 도시된 바와 같이, 상기 필터가 대칭인 경우, 상기 필터 계수들 중 절반만이 부호화될 필요가 있다. 다른 필터 계수들은 복사함으로써 획득될 수 있다. 도 6c에 도시된 예에서, 부호화된 비디오 비트-스트림에서 적응 보간 필터의 계수값들을 나타내는데 필요한 정보의 양은 4번째, 5번째 및 6번째 필터 계수들이 각각 3번째, 2번째, 첫번째 필터 계수들과 동일하다는 것을 이해함으로써 추가로 감소될 수 있다. 따라서, 이 경우 상기 보간 필터의 6개의 계수들은 실제로 3개의 값들에 의해서 부호화될 수 있는데, 첫번째 값은 첫번째 제1 보간 필터 계수 와 상기 사전 정의된 베이스 필터의 첫번째 계수간의 차분을 나타내고, 두번째 값은 두번째 보간 필터 계수와 사전 정의된 베이스 필터의 두번째 계수간의 차분을 나타내며, 세번째 값은 세번째 보간 필터 계수와 사전 정의된 베이스 필터의 세번째 계수간의 차분을 나타낸다. 그래서 부호기로부터 복호기로 전송된 부호화된 비디오 비트-스트림에 이들 3개의 차분값들을 포함시키는 것만이 필요한데, 이것은 상기 복호기가 첫번째 3개의 재구성된 필터 계수값들을 적합하게 복사함으로써 나머지 3개의 보간 필터 계수들을 획득할 수 있기 때문이다. 상기 베이스 필터와 보간 필터가 짝수개의 계수들보다 홀수개의 계수들을 가지는 경우 유사한 접근이 적용될 수 있지만, 그럼에도 불구하고 그들은 대칭이다. 이 경우, n을 베이스 필터/보간 필터에서의 계수들의 수라 할 때 부호화될 차분값들의 수는 (n/2)+1 이라는 것은 이해되어야 한다.

본 발명에 의한 방법은 또한 다른 계수 부호화 방법들과 결합될 수 있다. 예를 들어, 일 집합의 가장 자주 사용되는 필터들이 그들의 인덱스들에 의해 정의될 수 있고 부호화될 수 있다. 덜 자주 사용되는 필터들은 설명된 발명으로 부호화될 수 있는데 이것은 이용가능한 필터들에 최대 변화를 허용하여서 계수값들을 부호화하기 위한 이전에 언급된 세번째 종래 기술의 단점을 극복한다.

상기 필터 계수들의 부호화 순서는 공간적인 순서를 따를 필요는 없다. 예를들어, 상기 보간 필터 계수값들을 나타내는 상기 차분값들은 상기 계수들이 상기 필터에서 발생하는 것과 동일한 순서로 상기 부호화된 비트-스트림에 포함될 필요가 없다. 이 경우, 상기 차분값들이 상기 비트-스트림에 나타나는 순서를 명시하는 사전 정의된 규칙이 정해져야 하고 부호기 및 복호기 양자에 알려져야 한다.

상기 베이스 필터가 동일한 필터의 수신된 필터 계수들에 적합화되는 것이 가능하다. 예를 들어, 첫번째 전송된 필터 계수가 상기 베이스 필터 계수보다 더 큰 경우, 두번째 베이스 필터 계수는 감소될 수 있다. 이것은 상기 필터 계수들에 대한 합이 알려져 있는 경우 특히 사실이다.

전형적으로, 상기 필터 계수들의 합은 고정된다. 이러한 경우, 마지막 필터 계수를 부호화할 필요가 없지만, 그것은 총 합에서 상기 첫번째 계수들의 합을 감산함으로써 계산될 수 있다. 상기 필터 계수들의 합이 고정되지 않은 경우, 상기 계수 차분들의 크기를 감소시키기 위하여 개별적으로 전송된 상수 또는 상수들이 상기 베이스 필터 계수들 또는 상기 필터 출력에 가산될 수 있다.

도 7은 본 발명에 따라 동작하도록 적합화될 수 있는 비디오 부호화 및 복호화 장치를 포함하는 단말기 장치를 나타낸 것이다. 더 정확하게 말하자면, 도 7은 ITU-T 권고 H.324에 따라 구현된 멀티미디어 단말기(60)를 도시한 것이다. 상기 단말기는 멀티미디어 송수신기 장치로서 간주될 수 있다. 그것은 수신된 멀티미디어 콘텐츠를 수신하고, 역다중화하며, 복호화하고 표시하는 요소들 뿐만 아니라, 통신 네트워크를 통해 전송하기 위한 멀티미디어 데이터 스트림들을 캡처하고, 부호화하며 다중화하는 요소들을 포함한다. ITU-T 권고 H.324는 상기 단말기의 전체 동작을정의하고 그것의 다양한 구성 부분들의 동작을 관장하는 다른 권고들을 언급한다. 이러한 유형의 멀티미디어 단말기는 대화형 화상 전화와 같은 실시간 애플리케이션들에서 사용될 수 있거나 예를 들어 인터넷에서 멀티미디어 콘텐츠 서버로부터 비디오 클립들의 검색 또는 스트리밍과 같은 비 실시간 애플리케이션들에서 사용될 수 있다.

본 발명과 관련하여, 도 7에 도시된 H.324 단말기가 단지 창의적인 방법의 적용에 적합한 다수의 대안적인 멀티미디어 단말기 구현들 중 하나라는 것은 이해되어야 한다. 또한 다수의 대안들이 상기 단말기 장치의 위치 및 구현과 관련하여 존재한다는 것이 또한 주목되어야 한다. 도 7에 도시된 바와 같이, 상기 멀티미디어 단말기는 아날로그 공중 교환 전화망(PSTN: Public Switched Telephone Network)과 같은 고정 라인 전화망에 접속된 통신 장치에 위치할 수 있다. 이 경우, 상기 멀티미디어 단말기에는 ITU-T 권고 V.8, V.34 및 선택적으로 V.8bis를 따르는, 모뎀(71)이 구비된다. 대안적으로, 상기 멀티미디어 단말기는 외부 모뎀과 접속될 수 있다. 상기 모뎀은 상기 멀티미디어 단말기에 의해 생성된 다중화된 디지털 데이터와 제어 신호들을 상기 PSTN을 통해 전송하기에 적합한 아날로그 형태로 변환할 수 있다. 그것은 추가로 상기 멀티미디어 단말기가 상기 PSTN으로부터 아날로그 형태의 데이터 및 제어 신호들을 수신할 수 있게 하고 그들을 상기 단말기에 의해 적합한 방법으로 역다중화되고 처리될 수 있는 디지털 데이터 스트림으로 변환할 수 있게 한다.

H.324 멀티미디어 단말기는 또한 그것이 종합 정보 통신망(ISDN: IntegratedServices Digital Network)과 같은, 디지털 고정 라인 네트워크에 직접 접속될 수 있는 방식으로 구현될 수 있다. 이 경우, 상기 모뎀(71)은 ISDN 사용자-네트워크 인터페이스로 대체된다. 도 7에서, 상기 ISDN 사용자-네트워크 인터페이스는 대안적인 블록(72)으로 표시된다.

H.324 멀티미디어 단말기들은 또한 이동 통신 애플리케이션들에서 사용하도록 적합화될 수 있다. 무선 통신 링크와 사용되는 경우, 상기 모뎀(71)은 도 7에서 대안적인 블록(73)으로 표시되는 바와 같이, 어떤 적합한 무선 인터페이스로 대체될 수 있다. 예를 들어, H.324/M 멀티미디어 단말기는 현재의 2세대 GSM 이동 전화 네트워크 또는 제안된 3세대 범용 이동 전화 시스템(UMTS: Universal Mobile Telephone System)으로의 접속을 가능하게 하는 무선 송수신기를 포함할 수 있다.

양방향 통신, 즉 비디오 데이터의 전송 및 수신을 위해 설계된 멀티미디어 단말기들에서, 본 발명에 따라 구현된 비디오 부호기와 비디오 복호기 양자를 제공하는 것이 유리하다는 것은 주목되어야 한다. 이러한 부호기와 복호기 쌍은 종종 '코덱'으로 지칭되는, 단일 결합 기능 유닛으로 구현된다.

이제 전형적인 H.324 멀티미디어 단말기가 도 7을 참조하여 더 상세히 설명될 것이다. 멀티미디어 단말기(60)는 "단말기 장치"로 지칭되는 다양한 요소들을 포함한다. 상기 단말기 장치는 일반적으로 각각 참조 번호들 61, 62 및 63으로 표시된, 비디오, 오디오 및 텔레마틱 장치들을 포함한다. 상기 비디오 장치(61)는 예를 들어 비디오 이미지들을 캡처하기 위한 비디오 카메라, 수신된 비디오 내용을 표시하기 위한 모니터 및 선택적인 비디오 처리 장치를 포함할 수 있다. 상기 오디오 장치(62)는 전형적으로 예를 들어 말하여진 메시지들을 캡처하기 위한 마이크로폰 및 수신된 오디오 내용을 재생하기 위한 라우드스피커를 포함한다. 상기 오디오 장치는 또한 부가적인 오디오 처리 유닛들을 포함할 수 있다. 상기 텔레마틱 장치(63)는 데이터 단말기, 키보드, 전자 화이트보드 또는 팩스 유닛과 같은 정지 화상 송수신기를 포함할 수 있다.

상기 비디오 장치(61)는 비디오 코덱(65)에 연결된다. 상기 비디오 코덱(65)은 둘다 본 발명에 따라 구현된 비디오 부호기 및 대응하는 비디오 복호기를 포함한다. 이러한 부호기 및 복호기는 하기에 설명될 것이다. 상기 비디오 코덱(65)은 통신 링크를 통한 추가 전송을 위해 적합한 형태로 캡처된 비디오 데이터를 부호화하는 것과 상기 통신 네트워크로부터 수신된 압축된 비디오 내용을 복호화하는 것을 담당한다. 도 7에 도시된 예에서, 상기 비디오 코덱은 동적 적응 보간 필터들의 사용을 포함하는 방식으로 구현된다고 가정된다. 또한 상기 비디오 코덱의 부호기 섹션은 이전에 설명된 바와 같이, 본 창의적인 방법의 실시예에 따라 보간 필터 계수값들을 부호화하고 대응하는 복호기로 전송하도록 적합화되는 것으로 가정된다. 유사하게, 상기 비디오 코덱의 복호기 섹션은 본 창의적인 방법의 동일한 실시예에 따라 부호화된 필터 계수값들을 수신하고 복호화하도록 적합화된다.

상기 단말기의 오디오 장치는 도 7에서 참조번호 66으로 표시된, 오디오 코덱에 연결된다. 상기 비디오 코덱과 마찬가지로, 상기 오디오 코덱은 부호기/복호기 쌍을 포함한다. 그것은 상기 단말기의 오디오 장치에 의해 캡처된 오디오 데이터를 통신 링크를 통한 전송에 적합한 형태로 변환하고 상기 네트워크로부터 수신된 부호화된 오디오 데이터를 예를 들어 상기 단말기의 라우드스피커에서 재생하기에 적합한 형태로 변환한다. 상기 오디오 코덱의 출력은 지연 블록(67)으로 전달된다. 이것은 상기 비디오 부호화 프로세스에 의해 야기된 지연을 보상하여 오디오 및 비디오 내용의 동기를 보장한다.

상기 멀티미디어 단말기의 시스템 제어 블록(64)은 전송하는 단말기와 수신하는 단말기간에 공통 동작 모드를 설정하기 위하여 적합한 제어 프로토콜을 사용하여 종단 대 네트워크 시그널링(시그널링 블록(68))을 제어한다. 상기 시그널링 블록(68)은 상기 전송하는 단말기와 상기 수신하는 단말기의 부호화 능력 및 복호화 능력에 대한 정보를 교환하고 상기 비디오 부호기의 다양한 부호화 모드들을 가능하게 하는데 사용될 수 있다. 상기 시스템 제어 블록(64)은 또한 데이터 암호화의 사용을 제어한다. 데이터 전송에서 사용될 암호화의 유형에 관한 정보는 암호화 블록(69)으로부터 다중화기/역다중화기(MUX/DMUX 유닛)(70)로 전달된다.

상기 멀티미디어 단말기로부터의 데이터 전송동안, 상기 MUX/DMUX 유닛(70)은 단일 비트-스트림을 형성하기 위하여, 부호화되고 동기화된 비디오 및 오디오 스트림들을 상기 텔레마틱 장치(63)로부터 입력된 데이터 및 가능한 제어 데이터와 결합한다. 암호화 블록(69)에 의해 제공되는, 상기 비트-스트림에 적용될 (만약 있다면) 데이터 암호화의 유형에 관한 정보는 암호화 모드를 선택하는데 사용된다. 유사하게, 다중화되고 아마도 암호화된 멀티미디어 비트-스트림이 수신되고 있는 경우, MUX/DMUX 유닛(70)은 상기 비트-스트림을 해독하고, 그것을 그것의 구성 매체 성분들로 분할하며 상기 성분들을 복호화 및 재생을 위하여 적합한 코덱(들) 및/또는 단말기 장치로 전달하는 것을 담당한다.

도 8a는 본 발명의 바람직한 실시예에 따라 구현된 비디오 부호기(700)의 개략적인 블록도이다. 도 8a에 도시된 비디오 부호기의 구조는 서브-화소값 보간 및 상기 부호화된 비디오 비트-스트림의 형성과 관련된 동작들을 수행하는 상기 부호기의 부분들에 적합한 변경을 하면, 도 1에 도시된 종래 기술의 비디오 부호기와 많은 점에서 유사하다. 상기 비디오 부호기(700)의 대부분의 요소들은 이전에 설명된 종래 기술의 비디오 부호기(10)(도 1 참조)의 대응하는 요소들과 유사한 방식으로 기능하고 동작한다. 이러한 요소들의 설명은 간명화를 위해 생략된다. 특히 비디오 부호기(700)는 움직임 필드 추정 블록(711), 움직임 필드 부호화 블록(712), 움직임 보상 예측 블록(713), 예측 오차 부호화 블록(714), 예측 오차 복호화 블록(715), 다중화 블록(716), 프레임 메모리(717) 및 가산기(719)를 포함한다. 도 8a 에 도시된 바와 같이, 상기 움직임 필드 추정 블록(711)은 또한 선택된 필터와 베이스 필터(709)간의 차분을 계산하는데 사용되는 차분 계수 계산 블록(710)을 포함한다.

이제 상기 비디오 부호기(700)의 동작이 상세히 고려될 것이다. 종래 기술에서 알려진 비디오 부호기들과 공통적으로, 본 발명의 실시예에 의한 비디오 부호기(700)는 인터(INTER) 포맷으로 부호화되는 비디오 프레임을 나타내는 비트-스트림을 생성하기 위하여 참조 프레임()에 대해 움직임 보상 예측을 채용한다. 그것은 서브-화소 해상도에 대한 움직임 보상 예측을 수행하고 움직임 추정 프로세스동안 요구되는 서브-화소값들을 형성하기 위하여 동적 가변 필터 계수값들을 갖는보간 필터를 더 채용한다.

비디오 부호기(700)는 블록별로 움직임 보상 예측을 수행하고 각 블록에 대해 2단계 프로세스로서 서브-화소 해상도에 대한 움직임 보상을 구현한다. 제1 단계에서, 전-화소 해상도를 갖는 움직임 벡터는 블록-매칭, 즉 부호화될 현재 이미지 블록의 화소값들과 최상으로 매칭하는 참조 프레임()내의 화소값들의 블록을 탐색하는 것에 의해 결정된다. 상기 블록 매칭 동작은 프레임 메모리(717)와 공동으로 동작하는 움직임 필드 추정 블록(711)에 의해 수행되는데, 상기 프레임 메모리(717)로부터 상기 참조 프레임()의 화소값들이 검색된다. 움직임 보상 예측의 제2 단계에서, 상기 제1 단계에서 결정된 움직임 벡터는 요망되는 서브-화소 해상도로 정제된다. 이것을 행하기 위하여, 상기 움직임 필드 추정 블록(711)은 현재 부호화되고 있는 이미지 블록에 대한 최상의 매치(match)로서 이전에 식별된 영역에서 상기 참조 프레임()의 화소값들을 보간함으로써 서브-화소 해상도를 갖는 새로운 탐색 블록들을 형성한다(도 5 참조). 상기 프로세스의 일부로서, 상기 움직임 필드 추정 블록(711)은 상기 서브-화소값들의 보간을 위한 최적 보간 필터를 결정한다. 유리하게는 상기 보간 필터의 계수값들은 각 이미지 블록의 부호화와 관련되어 적합화된다. 대안적인 실시예들에서, 상기 보간 필터의 계수들은 예를 들어 매 프레임에 한번 또는 부호화될 새로운 비디오 시퀀스의 시작 부분에서 덜 자주 적합화될 수 있다.

필요한 서브-화소값들을 보간하고 새로운 탐색 블록들을 형성한 후, 움직임필드 추정 블록(711)은 상기 새로운 탐색 블록들 중 어느 탐색 블록이 전-화소 해상도에서 원래 식별된 최상의 매칭하는 블록보다 현재 이미지 블록에 대한 더 나은 매치를 나타내는지를 결정하기 위하여 추가 탐색을 수행한다. 이러한 방법으로 움직임 필드 추정 블록(711)은 현재 부호화되고 있는 이미지 블록을 나타내는 움직임 벡터가 전-화소 또는 서브-화소 위치를 가리켜야 하는지를 결정한다.

상기 움직임 필드 추정 블록(711)은 이전에 설명된 바와 같이, 움직임 모델을 사용하여 움직임 벡터를 근사화하는 움직임 필드 부호화 블록(712)으로 식별된 움직임 벡터를 출력한다. 그다음 움직임 보상 예측 블록(713)은 상기 근사화된 움직임 벡터와 예측 오차 정보를 사용하여 현재의 이미지 블록에 대한 예측값을 형성한다. 상기 예측값은 예측 오차 부호화 블록(714)에서 후속적으로 부호화된다. 그다음 현재의 이미지 블록에 대한 부호화된 예측 오차 정보는 예측 오차 부호화 블록(714)으로부터 다중화기 블록(716)으로 전송된다. 다중화기 블록(716)은 또한 움직임 필드 추정 블록(711)으로부터 현재의 이미지 블록의 움직임 보상 예측동안 사용된 최적 보간 필터에 대한 정보 뿐만 아니라, 움직임 필드 부호화 블록(712)으로부터 (움직임 계수들의 형태인) 근사화된 움직임 벡터에 대한 정보를 수신한다. 본 발명의 실시예에 의하면, 차분 계수 계산 블록(710)에 의해 계산된 계산 결과에 근거하여, 움직임 필드 추정 블록(711)은 현재 블록에 대한 최적 보간 필터의 필터 계수들과 상기 부호기(700)에 저장된 사전 정의된 베이스 필터(709)의 계수들간의 차분을 나타내는 일 집합의 차분값들(705)을 전송한다. 그후 다중화기 블록(716)은 움직임 정보(움직임 계수들), 예측 오차 데이터, 필터 계수 차분값들 및 가능한 제어 정보를 결합함으로써 현재의 이미지 블록을 나타내는 부호화된 비트-스트림(703)을 형성한다. 상이한 유형의 정보 각각은 상기 비트-스트림내의 포함 및 대응하는 복호기로의 후속 전송 이전에 엔트로피 부호기로 부호화될 수 있다.

본 발명의 대안적인 실시예에서, 상기 움직임 필드 추정 블록(711)은 도 8b에 도시된 바와 같이, 상기 움직임 필드 추정 블록(711)과 상기 다중화기 블록(716) 사이에 위치한 차분 계수 계산 블록(710)으로 최적 보간 필터의 필터 계수들을 나타내는 일 집합의 값들(704)을 송신한다. 상기 베이스 필터(709)에 기초하여, 상기 차분 계수 계산 블록(710)은 차분값들(705)을 계산하고 그들을 다중화기 블록(716)으로 전송한다.

다른 대안적인 실시예에서, 상기 차분 계수 계산 블록(710)은 상기 다중화기 블록(716)내에 존재한다. 이 경우, 최적 보간 필터의 필터 계수들(704)은 도 8c에 도시된 바와 같이, 상기 움직임 필드 추정 블록(711)에 의해 상기 다중화기 블록(716)으로 직접 송신될 수 있다.

도 9a는 본 발명의 바람직한 실시예에 따라 구현된 비디오 복호기(800)의 블록도로서 도 8a에 도시된 비디오 부호기(700)에 대응한다. 상기 복호기(800)는 움직임 보상 예측 블록(721), 예측 오차 복호화 블록(722), 역다중화 블록(723) 및 프레임 메모리(824)를 포함한다. 상기 복호기(800)내의 대부분의 요소들은 종래 기술(20)내의 대응하는 요소들(도 2 참조)과 유사한 방식으로 기능하고 동작한다. 하지만, 본 발명의 상기 복호기(800)는 도 9a에 도시된 바와 같이, 차분값들(130)(도 6b 및 도 6c) 및 사전 정의된 베이스 필터(809)에 기초하여 최적 보간 필터(110)(도 6a 참조)를 재구성하는 필터 재구성 블록(810)을 포함한다. 바람직하기로는, 상기 사전 정의된 베이스 필터(809)는 베이스 필터(709)(도 8a 내지 도 8c)와 동일하다.

이제 상기 비디오 복호기(800)의 동작이 상세히 고려될 것이다. 역다중화기(823)는 부호화된 비트-스트림(703)을 수신하고, 상기 비트-스트림을 그것의 구성 부분들(움직임 계수들, 예측 오차 데이터, 필터 계수 차분값들 및 가능한 제어 정보)로 분할하며 다양한 데이터 유형들의 어떤 필요한 엔트로피 복호화를 수행한다. 상기 역다중화기(823)는 수신된 비트-스트림(703)으로부터 회수된 예측 오차 정보를 예측 오차 복호화 블록(822)으로 전송한다. 그것은 또한 수신된 움직임 정보를 움직임 보상 예측 블록(821)으로 전송한다. 상기한 본 발명의 바람직한 실시예에서, 상기 역다중화기(823)는, 상기 필터 재구성 블록(810)이 수신된 차분값들을 상기 복호기에 저장된 사전 정의된 베이스 필터(809)의 계수들에 가산함으로써 최적 보간 필터(110)(도 6a 참조)를 재구성할 수 있도록, 신호(802)를 통해 수신된 (그리고 엔트로피 복호화된) 차분값들을 상기 움직임 보상 예측 블록(821)으로 전송한다. 그후 움직임 보상 예측 블록(821)은 현재 복호화되고 있는 이미지 블록에 대한 예측을 구성하기 위하여 상기 재구성된 계수값들에 의해 정의된 바와 같은 최적 보간 필터를 사용한다. 특히, 움직임 보상 예측 블록(821)은 프레임 메모리(824)에 저장된 참조 프레임()의 화소값들을 회수하고 어떤 요구되는 서브-화소값들을 형성하기 위하여 상기 수신된 움직임 정보에 따라 필요한 바와 같이 그들을 보간함으로써 현재의 이미지 블록에 대한 예측값을 형성한다. 그다음 상기 현재의 이미지 블록에 대한 예측값은 당해 이미지 블록의 재구성을 행하기 위하여 대응하는 예측 오차 데이터와 결합된다.

대안적으로, 상기 필터 재구성 블록(810)은 도 9b에 도시된 바와 같이 움직임 보상 예측 블록(821)의 외부에 존재한다. 상기 역다중화기(823)로부터 수신된 신호(802)에 포함된 차분값들로부터, 상기 필터 재구성 블록(810)은 최적 보간 필터들을 재구성하고 상기 재구성된 필터 계수들(805)을 상기 움직임 보상 예측 블록(821)으로 송신한다. 또 다른 대안적인 실시예에서, 상기 필터 재구성 블록(810)은 상기 역다중화기 블록(823)에 존재한다. 상기 역다중화기 블록(823)은 상기 최적 보간 필터의 재구성된 계수들을 움직임 보상 예측 블록(821)으로 전송한다.

본 발명에 의한 부호기는 상기 복호기가 상기 차분값들에 기초하여 상기 최적 보간 필터를 재구성할 수 있도록 허용하기 위하여 사전 정의된 베이스 필터 계수들에 대해 차분적으로 필터 계수들을 부호화한다. 상기 베이스 필터 계수들은 부호기 및 복호기 양자에 알려져 있어야 하고 양호한 부호화 성능을 야기하기 위하여 비디오 시퀀스에서 사용되는 실제 필터들과 통계적으로 상당히 근접해야 한다. 즉, 본 발명의 방법에 의하면, 특정 집합의 계수값들을 갖는 베이스 필터가 정의된 후 상기 베이스 필터 계수들과 실제로 사용되는 상기 보간 필터의 계수들간의 차분들이 부호화되고 상기 비디오 비트-스트림에 포함된다. 이러한 방식으로, 부호화된 비디오 비트-스트림에서 적응 보간 필터 계수들을 나타내는데 필요한 정보의 양은 상기 적응 필터 계수들 각각이 개별적으로 부호화되는 방법에 비해 감소된다. 상기 베이스 필터의 계수들이 실제로 사용되는 보간 필터의 계수들과 충분히 유사한 경우, 부호화될 차분값들은 작다. 따라서, 사전 정의된 베이스 필터가 실제로 사용되는 보간 필터와 통계적으로 유사한 것이 유리한데, 이것은 이 경우 차분값들이 감소되고 부호화 효율의 추가 개선이 달성되기 때문이다.

웨디(Wedi)에서 제안된 바와 같은 차분 부호화 방법과 달리, 본 발명에 의한 방법은 상당히 양호한 오류 허용성을 유지한다. 부호기로부터 복호기로의 부호화된 비디오 비트-스트림의 전송중 오류가 발생하는 경우, 베이스 필터와 실제로 사용되는 보간 필터간의 차분만이 상기 오류에 영향을 받는다.

본 발명에 의한 상기 멀티미디어 단말기의 기능적인 요소들, 비디오 부호기, 복호기 및 비디오 코덱은 소프트웨어 또는 전용 하드웨어 또는 그둘의 결합으로서 구현될 수 있다는 것은 주목되어야 한다. 본 발명에 의한 비디오 부호화 및 복호화 방법들은 특히 본 발명의 기능적인 단계들을 수행하기 위한 기계-판독가능 명령어들을 포함하는 컴퓨터 프로그램의 형태로 구현하는데 적합하다. 그 자체로, 본 발명에 의한 상기 부호기, 복호기 및 비디오 코덱은 비디오 부호화 및/또는 복호화 기능을 갖는 컴퓨터를 제공하기 위하여, 개인용 데스크톱 컴퓨터와 같은 컴퓨터에서 실행되고 저장 매체에 저장된 소프트웨어 코드로서 구현될 수 있다.

특정 실시예들에 관해 설명되었을지라도, 상기 교시들에 대한 다수의 수정 및 다양한 변경들이 행해질 수 있다는 것은 당업자에게 명백할 것이다. 따라서, 본 발명이 본 발명의 하나 이상의 바람직한 실시예들에 관해 특히 도시되고 설명되었을지라도, 어떤 수정 및 변경이 상기에 설명된 바와 같이 본 발명의 범위 및 정신을 벗어남없이 본 발명안에서 행해질 수 있다는 것은 당업자에 의해 이해될 것이다.

Claims

부호화된 비디오 데이터를 제공하기 위하여 디지털 비디오 시퀀스내의 이미지들을 부호화하는 방법으로서, 상기 디지털 비디오 시퀀스는 일련의 비디오 프레임들을 포함하고, 상기 프레임들 각각은 복수의 화소값들을 가지며, 복수의 계수값들에 의해 표시되는 복수의 계수들을 갖는 보간 필터가 상기 부호화된 비디오 데이터로부터 상기 디지털 비디오 시퀀스의 프레임내의 화소값들을 재구성하는 데 사용되는 방법에 있어서,

일 집합의 차분값들을 형성하기 위하여 사전 정의된 베이스 필터에 대해 차분적으로 상기 보간 필터의 계수값들을 부호화하는 단계; 및

상기 화소값들의 재구성이 상기 차분값들의 집합에 기반하도록 상기 부호화된 비디오 데이터에 상기 차분값들의 집합을 적합화시키는 단계를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 부호화된 비디오 데이터는 비디오 부호기로부터 비디오 복호기로 전송되고,

상기 부호화된 비디오 데이터는 상기 차분값들의 집합을 나타내는 부호화된 값들을 포함하며, 상기 차분값들의 집합은 상기 비디오 부호기로부터 상기 비디오 복호기로 전송되기 전에 엔트로피 부호화되는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 사전 정의된 베이스 필터는 상기 보간 필터의 계수 값들과 통계적으로 유사한 값들을 갖는 복수의 추가 계수들을 갖는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 보간 필터의 계수들은 선택된 이미지 세그먼트내의 화소 값들의 보간을 위해 선택되는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 사전 정의된 베이스 필터는 고정된 계수값들을 갖는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 사전 정의된 베이스 필터는 상기 비디오 시퀀스의 통계에 적합화된 복수의 계수들을 갖는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 보간 필터는 상기 필터 계수들의 절반만이 부호화되도록 대칭인 것을 특징으로 하는 방법.
제1항에 있어서, 상기 보간 필터의 계수값들은 첫번째 계수값으로부터 마지막 계수값까지, 어떤 순서로 부호화되는 것을 특징으로 하는 방법.
제8항에 있어서, 상기 계수값들이 부호화되는 어떤 순서는 상기 계수들의 공간적인 순서와 다른 것을 특징으로 하는 방법.
제8항에 있어서, 상기 보간 필터의 계수값들의 합은 고정되는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 사전 정의된 베이스 필터는 복수의 추가 계수값들을 가지며, 상기 보간 필터의 계수값들과 상기 사전 정의된 베이스 필터의 추가 계수값들간의 차분들의 크기를 감소시키기 위하여 상수값이 상기 사전 정의된 베이스 필터의 추가 계수값들에 가산되는 것을 특징으로 하는 방법.
디지털 비디오 시퀀스를 나타내는 부호화된 비디오 데이터를 제공하기 위하여 일련의 비디오 프레임들을 갖는 상기 디지털 비디오 시퀀스내의 이미지들을 부호화하기 위한 수단으로서, 상기 비디오 시퀀스의 각 프레임은 복수의 화소값들을 포함하는 수단, 및

복호화 프로세스에서 상기 디지털 비디오 시퀀스의 프레임내의 화소값들을 재구성하기 위하여 보간 필터를 정의하기 위한 수단으로서, 상기 보간 필터는 복수의 계수값들에 의해 표시되는 다수의 계수들을 갖는 수단을 포함하는 비디오 부호기에 있어서,

상기 보간 필터에 응답하여, 일 집합의 차분값들을 제공하기 위하여 상기 보간 필터 및 사전 정의된 베이스 필터의 계수값들 간의 차분을 계산하기 위한 수단,및

상기 복호화 프로세스에서 상기 화소값들의 재구성이 상기 차분값들의 집합에 기반하도록 상기 부호화된 비디오 데이터에 상기 차분값들의 집합을 적합화시키기 위한 수단을 포함하는 것을 특징으로 하는 비디오 부호기.
제12항에 있어서, 상기 부호화된 비디오 데이터에 상기 차분값들의 집합을 적합화시키기 전에 상기 차분값들의 집합을 엔트로피 부호화하기 위한 수단을 더 포함하는 것을 특징으로 하는 비디오 부호기.
제13항에 있어서, 상기 보간 필터는 대칭적이고 상기 엔트로피 부호화 수단은 상기 차분값들의 절반만을 부호화하도록 되어 있는 것을 특징으로 하는 비디오 부호기.
일련의 비디오 프레임들을 포함하는 디지털 비디오 시퀀스를 나타내는 비디오 데이터를 복호화하는 방법으로서, 상기 비디오 시퀀스의 각 프레임은 복수의 화소값들을 포함하고, 복수의 계수값들에 의해 표시되는 복수의 계수들을 갖는 보간 필터는 상기 디지털 비디오 시퀀스의 프레임내의 화소값들을 재구성하는 데 사용되는 방법에 있어서,

상기 비디오 데이터로부터 일 집합의 차분값들을 회수하는 단계로서, 상기 차분값들의 집합은 상기 보간 필터와 사전 정의된 베이스 필터의 계수값들 간의 차분을 나타내는 단계;

상기 차분값들의 집합 및 상기 사전 정의된 베이스 필터에 기초하여 추가 필터를 구성하는 단계; 및

상기 추가 필터에 기초하여 상기 화소값들을 재구성하는 단계를 포함하는 것을 특징으로 하는 방법.
제15항에 있어서, 상기 사전 정의된 베이스 필터는 복수의 추가 계수값들에 의해 표시된 복수의 추가 계수들을 가지며, 상기 방법은, 상기 추가 필터를 구성하기 위하여 상기 차분 값들의 집합을 상기 사전 정의된 베이스 필터의 추가 계수값들과 가산하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제16항에 있어서, 상기 차분값들의 집합은 엔트로피 복호화에 의해 상기 비디오 데이터로부터 회수되는 것을 특징으로 하는 방법.
비트-스트림의 비디오 데이터를 수신하기 위한 수단을 포함하는 비디오 복호기로서, 상기 수신된 비디오 데이터는 일련의 비디오 프레임들을 포함하는 디지털 비디오 시퀀스를 나타내고, 상기 비디오 시퀀스의 각 프레임은 복수의 화소값들을 포함하는 비디오 복호기에 있어서,

상기 비트-스트림으로부터 일 집합의 차분값들을 회수하기 위한 수단;

사전 정의된 베이스 필터와 상기 차분값들의 집합에 근거하여 보간 필터를구성하기 위한 수단; 및

상기 보간 필터와 상기 수신된 비디오 데이터에 근거하여 상기 비디오 시퀀스의 프레임내의 화소값들을 재구성하기 위한 수단을 포함하는 것을 특징으로 하는 비디오 복호기.
제18항에 있어서, 상기 사전 정의된 베이스 필터는 추가 계수값들에 의해 표시되는 복수의 추가 계수들을 가지며, 상기 비디오 복호기는,

상기 보간 필터를 구성하기 위하여 상기 차분값들의 집합과 상기 사전 정의된 베이스 필터의 상기 추가 계수값들을 가산하기 위한 수단을 더 포함하는 것을 특징으로 하는 비디오 복호기.
제18항에 있어서, 상기 비트-스트림으로부터 상기 차분값들의 집합을 엔트로피 복호화하기 위한 수단을 더 포함하는 것을 특징으로 하는 비디오 복호기.
비디오 시퀀스를 나타내는 비트-스트림의 부호화된 비디오 데이터를 제공하기 위하여 일련의 비디오 프레임들을 갖는 디지털 비디오 시퀀스내의 이미지들을 부호화하기 위한 부호기로서, 상기 비디오 시퀀스의 각 프레임은 복수의 화소값들을 포함하고, 상기 부호기는 복호화 프로세스에서 상기 디지털 비디오 시퀀스의 프레임내의 화소값들을 재구성하기 위하여 보간 필터를 정의하기 위한 수단을 구비하며, 상기 보간 필터는 복수의 계수값들에 의해 표시되는 복수의 필터 계수들을 갖는 부호기, 및

상기 복호화 프로세스에서 상기 비디오 시퀀스의 프레임내의 화소값들을 재구성하기 위하여 상기 비트-스트림의 상기 부호화된 비디오 데이터를 수신하기 위한 복호기를 포함하는 비디오 부호화 시스템에 있어서,

상기 부호기는,

일 집합의 차분값들을 제공하기 위하여 상기 보간 필터와 사전 정의된 베이스 필터간의 차분을 계산하기 위한 수단, 및

상기 차분값들의 집합을 상기 비트-스트림에 적합화시키기 위한 수단을 포함하고,

상기 복호기는,

상기 비트-스트림으로부터 상기 차분값들의 집합을 회수하기 위한 수단, 및

상기 복호화 프로세스에서의 상기 화소값들의 재구성이 추가 필터에 기반하도록 상기 사전 정의된 베이스 필터와 상기 회수된 차분값들의 집합에 근거하여 상기 추가 필터를 구성하기 위한 수단을 포함하는 것을 특징으로 하는 비디오 부호화 시스템.