KR20130070638A

KR20130070638A - Ｈｅｖｃ의 공간 스케일러빌리티 방법 및 장치

Info

Publication number: KR20130070638A
Application number: KR1020137008845A
Authority: KR
Inventors: 데이비드 엠. 바이론; 웨이-잉 쿵; 아제이 케이. 루스라; 쿠흐야 미누; 크리트 파누소포네
Original assignee: 제너럴 인스트루먼트 코포레이션
Priority date: 2011-03-11
Filing date: 2012-03-12
Publication date: 2013-06-27
Also published as: CA2810905A1; MX2013003871A; US9532059B2; EP2606650A1; WO2012125532A1; CN103155561A; CA2810905C; US20120170646A1

Abstract

비디오 분배 시스템에서, 비디오 스트림의 복수의 채널들 각각마다 입력 비디오 스트림(302)을 파티션들로 파티션하는 분배기(105)가 제공된다. 채널 분석기(306)는 상기 분배기에 연결되며, 상기 채널 분석기는 상기 파티션들을 분해한다. 인코더(106)는 상기 채널 분석기에 연결되어 분해된 파티션들을 인코딩된 비트스트림(208, 210)으로 인코드하고, 여기서 상기 인코더는 상기 분해된 파티션들을 상기 인코딩된 비트스트림으로 인코드할 때 사용되는 코딩 정보를 상기 복수의 채널 중 적어도 하나로부터 수신한다. 디코더(124)는 상기 코딩된 비트스트림을 수신하여 상기 수신된 비트스트림을 디코딩하고 상기 입력 비디오 스트림을 재구성한다. 상기 디코더는 상기 코딩 정보를 이용하여 상기 비트스트림을 디코드한다.

Description

ＨＥＶＣ의 공간 스케일러빌리티 방법 및 장치{METHOD AND APPARATUS FOR SPATIAL SCALABILITY FOR HEVC}

관련 출원에 대한 상호 참조

본 출원은 2010년 10월 5일 "Feature Based Video Coding"이라는 명칭으로 출원되어 현재 포기된 미국 임시 특허 출원 제61/389,930호의 이익을 주장하는 2011년 10월 5일 출원된 미국 출원 제13/253,793호의 일부 계속 출원이며, 본 출원은 또한 2011년 3월 11일 출원된 미국 임시 특허 출원 제61/451,824호의 우선권을 주장하며, 그 개시 내용은 본 특허 출원에서 그 전체가 참조 문헌으로 통합된다.

본 출원은 비디오 스트림의 코딩에 관한 것으로, 특히, 비디오 스트림에 존재하는 특징에 따라 비디오 스트림을 나눈 다음 적절한 코딩 방법을 이용하여 나누어진 비디오 스트림을 인코드하는 것에 관한 것이다.

많은 비디오 압축 기술, 예를 들면, MPEG-2 및 MPEG-4 파트 10/AVC는 블록 기반 움직임 보상 변환 코딩을 이용한다. 이러한 접근법은 공간적 및 시간적 예측을 위해 잔여분(residual)의 DCT 변환 코딩응 이용하여, 블록 크기(block size)를 콘텐츠에 적응시키려고 시도한다. 비록 효율적인 코딩이 성취될 수 있지만, 블록 크기에 대한 제한 및 블록킹 아티팩트(blocking artifacts)가 종종 성능에 영향을 미칠 수 있다. 코딩을 효율적으로 하고 시각적 인지(visual perception)를 개선하기 위해 국부적인 이미지 콘텐츠에 더 잘 적응될 수 있는 비디오 코딩이 가능한 프레임워크가 필요하다.

별개의 도면에서 유사한 참조 부호가 동일하거나 기능적으로 유사한 요소를 나타내고, 아래의 상세한 설명과 함께 본 명세서에 포함되고 본 명세서의 일부를 구성하는 첨부의 도면은 여러 실시예를 더욱 예시하고 본 발명에 따른 다양한 원리 및 이점을 모두 설명하는데 사용된다.
도 1은 본 발명의 일부 실시예에 사용되는 네트워크 구조의 일례이다.
도 2는 본 발명의 일부 실시예에 따라 사용되는 인코더/디코더의 도면이다.
도 3은 본 발명의 일부 실시예에 따라 사용되는 인코더/디코더의 도면이다.
도 4는 본 발명의 일부 원리를 포함하는 인코더의 예시이다.
도 5는 도 4에 도시된 인코더에 대응하는 디코더의 예시이다.
도 6은 본 발명의 일부 실시예에 따른 비디오 스트림으로부터 파티션된 픽쳐의 예시이다.
도 7은 본 발명의 일부 원리를 포함하는 인코더의 예시이다.
도 8은 도 7에 도시된 인코더에 대응하는 디코더의 예시이다.
도 9(a) 및 도 9(b)는 본 발명의 일부 원리를 포함하는 보간 모듈의 예시이다.
도 10은 본 발명의 일부 원리를 포함하는 인코더의 예시이다.
도 11은 도 10에 도시된 인코더에 대응하는 디코더의 예시이다.
도 12는 3D 인코드의 예시이다.
도 13은 3D 인코드의 다른 예시이다.
도 14는 3D 인코드의 또 다른 예시이다.
도 15는 본 발명의 일부 원리를 포함하는 인코더의 예시이다.
도 16은 도 15에 도시된 인코더에 대응하는 디코더의 예시이다.
도 17은 본 발명의 일부 실시예에 따른 입력 비디오 스트림을 인코드하는 동작을 도시하는 흐름도이다.
도 18은 본 발명의 일부 실시예에 따른 인코딩된 스트림을 디코드하는 동작을 도시하는 흐름도이다.
도 19는 분석 필터링을 통해 입력 x를 두 개의 계층으로 분해하는 것을 예시한다.
숙련자는 도면의 요소가 간략함과 명료성을 위해 예시되고 반드시 축척대로 그려지지 않았다는 것을 인식할 것이다. 예를 들면, 도면의 일부 요소의 치수는 본 발명의 실시예의 이해 증진에 도움을 주기 위해 다른 요소에 비해 과장될 수 있다.

본 발명에 따른 실시예를 상세히 설명하기 전에, 이러한 실시예는 주로 비디오 스트림의 특징 기반 코딩 방법 및 장치와 관련된 방법 단계 및 장치 구성요소의 조합으로 존재한다는 것을 알아야 한다. 따라서, 이러한 장치 구성요소 및 방법 단계는 본 명세서에서의 설명의 이익을 받는 당업자에게 쉽게 명백해질 세부 내용으로 본 발명을 불명확하게 하지 않도록 하기 위해 단지 본 발명의 실시예를 이해하는 것과 관련된 특정 세부 내용만을 도시한 도면의 적절한 위치에 통상의 부호로 제시되었다.

본 명세서에서, 제1 및 제2, 및 상부 및 저부 등과 같은 관계적 용어는 단지 하나의 개체 또는 액션을 다른 개체 또는 액션과 구별하는데 사용될 수 있으며, 그러한 개체 또는 액션 간의 임의의 그러한 실제 관계 또는 순서를 반드시 필요로 하거나 암시하지 않는다. "포함한다", "포함하는", 또는 이들의 임의의 다른 변경은 일련의 요소를 포함하는 공정, 방법, 물품, 또는 장치가 단지 그러한 요소만을 포함하지 않고 명백히 열거되거나 그러한 공정, 방법, 물품, 또는 장치에 내재하지 않는 다른 요소도 포함할 수 있도록 비배타적인(non-exclusive) 포함도 망라하는 것으로 의도된다. "를 포함하는" 앞에 나오는 구성 요소는 더 제한하지 않고 그러한 요소를 포함하는 공정, 방법, 물품, 또는 장치에 동일한 요소가 추가로 존재하는 것을 배재하지 않는다. 본 명세서에서 기술된 본 발명의 실시예는 하나 이상의 프로세서가 특정한 비프로세서(non-processor) 회로, 본 명세서에서 기술된 바와 같은 비디오 스트림의 특징 기반 코딩의 기능의 일부, 대부분, 또는 모두와 함께 구현하도록 제어하는 하나 이상의 통상의 프로세서 및 저장된 고유 프로그램 명령어로 이루어질 수 있다는 것이 이해될 것이다. 비프로세서 회로는 다음으로 제한되지 않지만 무선 수신기, 무선 송신기, 신호 구동기, 클럭 회로, 전원 회로, 및 사용자 입력 장치를 포함할 수 있다. 그와 같이, 이러한 기능은 비디오 스트림의 특징 기반 코딩을 수행하는 방법 단계로 해석될 수 있다. 대안으로, 일부 기능 또는 모든 기능은 프로그램 명령어를 저장하지 않은 상태 머신으로, 또는 각 기능 및 특정 기능들의 어떤 조합이 커스텀 로직으로 구현되는 하나 이상의 주문형 반도체(ASICs)로 구현될 수 있다. 물론, 이러한 두 접근법의 조합도 사용될 수 있다. 따라서, 본 명세서에는 이러한 기능을 위한 방법 및 수단이 기술되었다. 또한, 예를 들어, 가용 시간, 현재 기술, 및 경제적 고려사항에 의해 동기부여된 아마도 상당한 노력과 많은 디자인 선택에도 불구하고, 당업자는 본 명세서에서 개시된 개념 및 원리를 지침으로 삼을 때 최소한의 실험으로 그러한 소프트웨어 명령어 및 프로그램 및 IC를 쉽게 만들어 낼 수 있다.

본 설명에 따르면, 기술된 원리는 비디오 분배 시스템 및 복수의 비디오 채널 각각마다 입력 비디오 스트림을 파티션들(partitions)로 분할하는 분배기의 헤드엔드(head end)에서 동작하는 장치와 관련된다. 이 장치는 또한 분배기에 결합되어 파티션들을 분해(decompose)하는 채널 분석기, 및 채널 분석기에 결합되어 분해된 파티션들을 인코딩된 비트스트림으로 인코드하는 인코더를 포함하며, 여기서 인코더는 분해된 파티션들을 인코딩된 비트스트림으로 인코드할 때 사용되는 코딩 정보(coding information)를 복수의 채널 중 적어도 하나로부터 수신한다. 일 실시예에서, 이 장치는 인코딩된 비트스트림을 디코딩하고 디코드된 비트스트림을 재구성된 비디오 스트림으로 재결합하는 재구성 루프 및 재구성된 비디오 스트림을 저장하는 버퍼를 포함한다. 다른 실시예에서, 버퍼는 또한 비디오 스트림의 다른 채널로부터의 다른 코딩 정보를 저장할 수 있다. 또한, 코딩 정보는 재구성된 비디오 스트림 및 인코더에 사용되는 코딩 정보 중 적어도 하나를 포함하며 코딩 정보는 참조 픽쳐(reference picture) 정보 및 비디오 스트림의 코딩 정보 중 적어도 하나이다. 더욱이, 분배기는 복수의 특징 집합(feature sets) 중 적어도 하나를 사용하여 파티션들을 형성한다. 일 실시예에서, 참조 픽쳐 정보는 비트스트림으로부터 생성된 재구성된 비디오 스트림으로부터 결정된다.

다른 실시예에서, 인코딩된 비트스트림을 수신하고 그 비트스트림을 인코딩된 비트스트림의 채널에 관한 수신된 코딩 정보에 따라 디코드하는 디코더를 포함하는 장치가 개시된다. 이 장치는 또한 디코더에 결합되어 디코드된 비트스트림을 비디오 스트림의 파티션들로 합성하는 채널 합성기, 및 채널 합성기에 결합되어 디코드된 비트스트림으로부터 재구성된 비디오 스트림을 생성하는 결합기를 포함한다. 코딩 정보는 재구성된 비디오 스트림 및 재구성된 비디오 스트림의 코딩 정보 중 적어도 하나를 포함할 수 있다. 추가로, 이 장치는 결합기에 결합되어 재구성된 비디오 스트림을 저장하는 버퍼를 포함한다. 버퍼와 디코더 사이에 필터가 결합되어 재구성된 비디오 스트림의 적어도 일부를 코딩 정보로서 디코더로 피드백할 수 있다. 파티션은 또한 복수의 특징 집합 중 적어도 하나 및 재구성된 비디오 스트림에 기반하여 결정될 수 있다.

또한, 기술된 원리에는 입력 비디오 스트림을 수신하여 입력 비디오 스트림을 복수의 파티션들로 분할하는 단계를 포함하는 방법이 개시된다. 이 방법은 또한 복수의 파티션들을 분해하는 단계, 및 분해된 파티션들을 인코딩된 비트스트림으로 인코드하는 단계를 포함하며, 여기서 인코드 단계는 입력 비디오 스트림의 채널로부터의 코딩 정보를 이용한다. 일 실시예에서, 이 방법은 인코딩된 비트스트림으로부터 도출된 재구성된 비디오 스트림을 파티션들을 비트스트림으로 인코드하는데 사용되는 입력으로서 수신하는 단계를 더 포함한다. 더욱이, 이 방법은 인코딩된 비트스트림으로부터 재구성된, 재구성된 비디오 스트림을 입력 비디오 스트림의 다른 채널의 코딩 정보로서 사용되도록 버퍼링하는 단계를 포함할 수 있다. 코딩 정보는 참조 픽쳐 정보 및 비디오 스트림의 코딩 정보 중 적어도 하나일 수 있다.

또 다른 방법도 또한 개시된다. 이 방법은 적어도 하나의 인코딩된 비트스트림을 수신하여 수신된 비트스트림을 디코드하는 단계를 포함하여, 여기서 디코드 단계는 입력 비디오 스트림의 채널로부터의 코딩 정보를 이용한다. 또한, 이 방법은 디코드된 비트스트림을 입력 비디오 스트림의 일련의 파티션들로 합성하고, 그 파티션들을 재구성된 비디오 스트림으로 결합한다. 일 실시예에서, 코딩 정보는 참조 픽쳐 정보 및 입력 비디오 스트림의 코딩 정보 중 적어도 하나이다. 더욱이, 이 방법은 재구성된 비디오 스트림을, 비트스트림을 디코드하기 위한 입력으로서 사용하고 재구성된 비디오 스트림을 합성하여 비트스트림을 디코드하는 단계를 포함할 수 있다.

본 설명은 비디오 스트림의 픽쳐의 각 영역이 특정한 특징 집합으로 가장 효율적으로 묘사된다는 전제를 기반으로 전개된다. 예를 들면, 주어진 얼굴 모델(face model)에서 얼굴을 효율적으로 묘사하는 파라미터에 대한 특징 집합이 결정될 수 있다. 또한, 이미지의 일부를 묘사하는 특징 집합의 효율성은 그러한 특징의 묘사 길이의 최소화를 위해 인코드할 때 사용되는 압축 알고리즘의 적용(예컨대, 인간이 최종 사용자인 경우 그러한 적용에 대한 인지 관련성(perceptual relevance) 및 효율성에 좌우된다.

제안된 비디오 코덱은 {FS₁ ... FS_N}이라고 하는 N개의 특징 집합을 이용하며, 여기서 각 FS_i는 {f_i(1) ... f_i(n_i)}이라고 하는 n_i개의 특징으로 이루어진다. 제안된 비디오 코덱은 (예컨대, 어떤 율-왜곡 인식 방식(Rate-Distortion aware scheme)에 따라) 각 픽쳐를 중첩되거나 해체될 수 있는 P개의 적절한 파티션으로 효율적으로 나눈다. 다음에, 각 파티션 j에는 그 파티션, 예컨대, FS_i를 최적으로 묘사하는 하나의 특징 집합이 할당된다. 마지막으로, 파티션 j에서 데이터를 묘사하는 FS_i특징 집합에서 n_i개의 특징 각각과 연관된 값은 인코드되어/압축되어 디코더로 송신될 것이다. 디코더는 각 특징값을 재구성한 다음 파티션을 재구성한다. 복수의 파티션은 재구성된 픽쳐를 형성할 것이다.

일 실시예에서, 인코드되고 전송되거나 또는 적절한 매체에 저장될 비디오 스트림을 수신하는 방법이 수행된다. 비디오 스트림은 연속 배열된 복수의 픽쳐로 구성된다. 복수의 픽쳐 각각마다, 이 방법은 그 픽쳐에 대한 특징 집합을 결정하고 각 픽쳐를 복수의 파티션으로 나눈다. 각 파티션은 그 파티션을 묘사하는 특징들 중 적어도 하나에 대응한다. 이 방법은 각 파티션을 묘사하는 특징에 적응된 인코드 방식에 따라 그 파티션을 인코드한다. 다음에, 인코딩된 파티션은 전송되거나 저장될 수 있다.

특징 기반 인코드를 이용하여 수신되는 비디오 스트림에 적합한 디코드 방법이 수행됨을 인식할 수 있다. 이 방법은 수신된 비디오 스트림으로부터 인코딩된 파티션을 결정한다. 각각의 수신된 파티션으로부터, 사용되는 인코드 방법에 의거하여 각 파티션을 인코드하는데 사용되는 특징이 결정된다. 결정된 특징에 기반하여, 이 방법은 인코딩된 비디오 스트림의 복수의 픽쳐 각각을 생성하는데 사용되는 복수의 파티션을 재구성한다.

일 실시예에서, 각 특징 코딩 방식은 그러한 특정 특징에 고유할 수 있다. 다른 실시예에서, 각 특징 코딩 방식은 다수의 상이한 특징의 코딩을 위해 공유될 수 있다. 코딩 방식은 동일한 파티션의 특징 공간에 걸친 공간 정보, 시간 정보 또는 코딩 정보를 이용하여 어떤 주어진 특징을 최적으로 코딩할 수 있다. 만일 디코더가 그러한 공간 정보, 시간 정보 또는 교차(cross) 특징 정보에 의존한다면, 그러한 정보는 이미 전송되고 디코드된 데이터로부터 얻을 수 있다.

도 1을 참조하면, 비디오 스트림의 픽쳐에 존재하는 특징에 따라 비디오 스트림을 인코드하고 디코드하는 네트워크 구조(100)가 예시되어 있다. 이러한 인코드 및 디코드에 대한 실시예는 아래에서 더욱 상세히 기술된다. 도 1에 도시된 바와 같이, 네트워크 구조(100)는 케이블 헤드엔드 유닛(110) 및 케이블 네트워크(111)를 포함하는 케이블 텔레비전(CATV) 네트워크 구조(100)로 예시된다. 그러나, 본 명세서에서 기술된 개념은 다른 유선 및 무선 형태의 전송을 포함하여 다른 비디오 스트리밍 실시예에도 적용가능함은 물론이다. 어떤 식으로든 다음으로 제한되지 않지만, 복수의 서버(101), 인터넷(102), 무선 신호, 또는 콘텐츠 제공자(103)를 통해 수신된 텔레비전 신호를 포함하여 많은 데이터 소스(101, 102, 103)가 케이블 헤드엔드 유닛(110)에 통신가능하게 결합될 수 있다. 케이블 헤드엔드(110)는 또한 케이블 네트워크(111)를 통해 하나 이상의 가입자(150a-n)에 통신가능하게 결합되어 있다.

케이블 해드 엔드(110)는 아래에 기술된 여러 실시예에 따라 데이터 소스(101, 102, 103)로부터 수신한 비디오 스트림을 인코드하는데 필요한 장비를 포함한다. 케이블 헤드엔드(110)는 특징 집합 장치(104)를 포함한다. 특징 집합 장치(104)는 비디오 스트림을 파티션하는데 사용되는 아래에 기술된 다양한 특징을 저장한다. 특징이 결정되면, 이러한 특징의 품질이 특징 집합 장치(104)의 메모리에 저장된다. 케이블 헤드엔드(110)는 또한 특징 집합 장치(104)에 의해 결정된 비디오 스트림의 다양한 특징에 따라 비디오 스트림을 복수의 파티션으로 나누는 분배기(105)를 포함한다.

인코더(106)는 그러한 파티션을 묘사하는 특징에 적응된 각종 인코드 방식 중 임의의 방식을 이용하여 파티션을 인코드한다. 일 실시예에서, 인코더는 각종 다른 인코드 방식 중 임의의 방식에 따라 비디오 스트림을 인코드할 수 있다. 비디오 스트림의 인코딩된 파티션은 케이블 네트워크(111)로 제공되고 송수신기(107)를 이용하여 여러 가입자 유닛(150a-n)으로 전송된다. 추가로, 케이블 헤드엔드(110)의 동작의 일부인 특징 집합 장치(104), 분배기(105), 인코더(106) 및 송수신기(107)와 함께 프로세서(108) 및 메모리(109)가 사용된다.

가입자 유닛(150a-n)은 2D 준비가 된 TV(150n) 또는 3D 준비가 된 TV(150d)일 수 있다. 일 실시예에서, 케이블 네트워크(111)는, 예를 들어, 고정 광학 섬유 또는 동축 케이블을 이용하여 3D 및 2D 비디오 콘텐츠 스트림을 각각의 가입자 유닛(150a-n)으로 제공한다. 가입자 유닛(150a-n)은 각각 기술된 특징 기반 원리를 이용한 비디오 콘텐츠 스트림을 수신하는 셋탑 박스(STB)(120, 120d)를 포함한다. 이해되는 바와 같이, 가입자 유닛(150a-n)은 헤드엔드(110)로부터 비디오 스트림 및 제어 데이터를 전송하고 수신할 수 있는 STB(120, 120d)로부터의 다른 형태의 무선 또는 유선 송수신기를 포함할 수 있다. 가입자 유닛(150d)은 3D 입체 뷰(stereoscopic views)를 디스플레이할 수 있는 3D 준비가 된 TV 컴포넌트(122d)를 구비할 수 있다. 가입자 유닛(150n)은 2D 뷰를 디스플레이할 수 있는 2D TV 컴포넌트(122)를 구비한다. 가입자 유닛(150a-n) 각각은 디코드된 파티션을 수신하고 비디오 스트림을 재생성하는 결합기(121)를 포함한다. 추가로, 프로세서(126) 및 메모리(128)뿐만 아니라, 도시되지 않은 다른 컴포넌트도 가입자 유닛(150a-n)의 동작의 일부인 STB 및 TV 컴포넌트(122, 122d)와 함께 사용된다.

설명된 바와 같이, 비디오 스트림의 각 픽쳐는 그 픽쳐에 존재하는 다양한 특징에 따라 분할된다. 일 실시예에서, 인코드를 위해 파티션을 분해하거나 분석하고 디코드를 위해 재구성하거나 합성하는 규칙은 인코더 및 디코더 둘 다가 알고 있는 고정된 특징 집합을 기반으로 한다. 이러한 일정한 규칙은 각각 헤드엔드 장치(110) 및 가입자 유닛(150a-n)의 메모리(109, 128)에 저장되어 있다. 이 실시예에서, 이러한 부류의 고정된 특징 기반 비디오 코덱에서는 파티션을 재구성하는 방법에 대한 어떤 정보도 인코더에서 디코더로 송신할 필요가 없다. 이 실시예에서, 인코더(106) 및 디코더(124)는 비디오 스트림의 여러 파티션을 인코드하고/디코드하는데 사용되는 특징 집합들로 구성된다.

다른 실시예에서, 인코드를 위해 파티션을 분해하거나 분석하고 디코드를 위해 재구성하거나 합성하는 규칙은 주어진 파티션의 좀 더 효율적인 코딩을 수용하도록 인코더(106)에 의해 설정된 특징 집합을 기반으로 한다. 인코더(106)에 의해 설정된 이러한 규칙은 적응적인 재구성 규칙이다. 이러한 규칙은 헤드엔드(110)로부터 가입자 유닛(150a-n)의 디코더(124)로 송신될 필요가 있다.

도 2는 특징 집합 장치(104)에 의해 입력 비디오 신호 x(202)를 두 개의 특집 집합으로 분해한 하이레벨 도면(200)을 도시한다. 입력 비디오 x(202)로부터의 픽셀은 입력 비디오 x(202)의 콘텐츠, 품질 또는 컨텍스트(context)에 기반하여 움직임(예컨대, 적고, 많고), 세기(밝고, 어둡고), 텍스처(texture), 패턴, 방위(orientation), 형상, 및 다른 카테고리와 같은 특징으로 분류될 수 있다. 입력 비디오 신호 x(202)는 또한 시공간 주파수, 신호대 잡음에 의해, 또는 어떤 이미지 모델을 이용하여 분해될 수 있다. 또한, 입력 비디오 신호 x(202)는 임의의 다른 카테고리의 조합을 이용하여 분해될 수 있다. 각 특징의 인지 중요도가 다를 수 있기 때문에, 각 특징은 서로 다른 인코더 파라미터를 이용하는 상이한 인코더 E_i(204, 206)중 하나 이상을 갖는 인코더(106)에 의해 더 적절히 인코드되어 비트스트림 b_i(208, 210)이 생성될 수 있다. 인코더 E(106)는 또한 개별 특징 인코더 E_i(204, 206)를 공동으로 이용할 수 있다.

디코더(212, 214)를 포함한 디코더 D(124)는 헤드엔드(110)와 가입자 유닛(150a-n) 간에 송신되는 모든 비트스트림으로부터의 정보를 가능한 공동으로 이용하여 비트스트림 b_i(208, 210)로부터 특징을 재구성하며, 이러한 특징은 결합기(121)에 의해 결합되어 재구성된 출력 비디오 신호 x'(216)이 생성된다. 이해될 수 있는 바와 같이, 출력 비디오 신호 x'(216)는 입력 비디오 신호 x(202)에 대응한다.

더욱 상세히 설명하면, 도 3은 제안된 고효율 비디오 코딩(HVC) 접근법의 도면을 도시한다. 예를 들면, HVC의 일부로 사용된 특징은 공간 주파수 분해를 기반으로 한다. 그러나, HVC에 대해 기술된 원리는 공간 주파수 분해 이외의 특징에도 적용될 수 있음이 이해된다. 도시된 바와 같이, 입력 비디오 신호 x(302)는 파티션 모듈(304) 및 채널 분석 모듈(306)을 포함하는 분배기(105)로 제공된다. 파티션 모듈(304)은 주어진 특징 집합, 예를 들어, 공간 주파수에 따라 입력 비디오 신호 x(302)를 분석하고, 그 특징 집합에 기반하여 입력 비디오 신호 x(302)를 복수의 파티션으로 나누거나 분할하도록 구성된다. 입력 비디오 신호 x(302)의 파티션은 주어진 특징 집합에 대응하는 규칙을 기반으로 한다. 예를 들면, 공간 주파수 콘텐츠는 픽쳐 내에서 변화하기 때문에, 각 입력 픽쳐는 각 파티션이 서로 다른 공간 주파수 분해를 가질 수 있어 각 파티션이 서로 다른 특징 집합을 갖도록 파티션 모듈(304)에 의해 분할된다.

예를 들면, 채널 분석 모듈(306)에서, 입력 비디오 파티션은 공간 주파수, 예를 들어, 총 네 개의 특징 집합에 대한 로우-로우, 로우-하이, 하이-로우, 및 하이-하이에 따라 2x2 대역으로, 또는 두 개의 특징 집합에 대해 이러한 두 개의 특징(H&L 주파수 성분)을 필요로 하는 2x1(수직) 또는 1x2(수평) 주파수 대역으로 분해될 수 있다. 이러한 서브 대역(sub-band) 또는 "채널(channels)"은 적절한 서브 대역에 특정한 객관적 또는 인지 품질 메트릭(metric)(예컨대, 평균 제곱 오차(MSE) 가중치)를 이용하여 공간적 예측, 시간적 예측, 및 교차 대역 예측을 이용해 코딩될 수 있다. 기존의 코덱 기술은 채널 인코더(106)를 이용하여 대역을 코딩하는데 사용되거나 적합할 수 있다. 인코딩된 비디오 신호 파티션의 결과적인 비트스트림은 디코드를 위해 가입자 유닛(150a-n)으로 전송된다. 디코더(124)에 의해 디코드된 채널은 모듈(308)에 의한 채널 합성을 위해 사용되어 모듈(310)에 의해 파티션을 재구성하고 그럼으로써 출력 비디오 신호(312)를 생성한다.

도 4에는 2채널 HVC 인코더(400)의 일례가 도시되어 있다. 입력 비디오 신호 x(402)는 분배기(105)로부터의 이미지 전체 또는 단일 이미지 파티션일 수 있다. 입력 비디오 신호 x(402)는 필터(404, 406)에 의해 함수 h_i에 따라 필터링된다. 특징 집합에 따라 임의의 수의 필터가 사용될 수 있음이 이해된다. 일 실시예에서, 필터링된 신호는 이어서 모든 채널의 총 샘플 개수가 입력 샘플의 개수와 같도록 샘플러(408)에 의해 필터(404, 408)의 개수, 예컨대, 2에 해당하는 인수(factor)로 샘플링된다. 입력 이미지 또는 파티션은 각 채널의 적절한 샘플 개수를 획득하기 위해 (예컨대, 대칭 확장을 이용하여) 적절히 패딩(padded)될 수 있다. 다음에, 결과적인 채널 데이터는 인코더 E₀(410) 및 E₁(412)에 의해 인코드되어 각각 채널 비트스트림 b₀(414) 및 b₁(416)이 생성된다.

만일 인코더 E_i로의 입력 데이터의 비트 깊이 해상도(bit depth resolution)가 인코더에서 처리할 수 있는 것보다 크면, 입력 데이터는 인코드 전에 적절히 재스케일링(re-scaled)될 수 있다. 이러한 재스케일링은 데이터의 스케일링(scaling), 오프셋, 라운딩(rounding) 및 클리핑(clipping)을 포함할 수 있는 데이터의 제한적 양자화(균일 또는 비균일)를 통해 수행될 수 있다. (스케일링 및 오프셋과 같은) 인코드 전에 수행되는 임의의 동작은 디코드 후에 역으로 해야된다. 변환에 사용된 특정 파라미터는 디코더로 전송되거나 또는 인코더와 디코더 간에서 선험적으로(a priori) 협의될 수 있다.

채널 인코더는 다른 채널(i_jk의 경우 채널 j에 대한 채널 k)로부터의 코딩 정보 i₀₁(418)를 이용하여 코딩 효율 및 성능을 개선할 수 있다. 만일 i₀₁가 이미 디코더에서 이용가능하다면, 이 정보를 비트스트림에 포함시킬 필요가 없으며, 그렇지 않다면, i₀₁는 또한 후술하는 바와 같이 비트스트림과 함께 디코더에 이용가능하게 된다. 일 실시예에서, 코딩 정보 i_ik는 인코더 또는 디코더에 의해 필요한 정보일 수 있거나 또는 이것은 그 정보의 분석 및 채널 상태에 기반한 예측 정보일 수 있다. 공간적 또는 시간적 예측 정보는 HVC 코딩 접근법에 의해 결정된 복수의 서브 대역 전체에 걸쳐 재사용될 수 있다. 채널로부터의 움직임 벡터는 하나의 서브 대역의 코딩이 다른 서브 대역에 사용될 수 있도록 인코더 및 디코더에 이용가능해질 수 있다. 이러한 움직임 벡터는 서브 대역의 정확한 움직임 벡터 또는 예측 움직임 벡터일 수 있다. 현재 코딩된 임의의 코딩 유닛은 인코더 및 디코더에 이용가능한 하나 이상의 서브 대역으로부터의 코딩 모드 정보를 인계받을 수 있다. 또한, 인코더 및 디코더는 코딩 모드 정보를 이용하여 현재의 코딩 유닛에 대한 코딩 모드를 예측할 수 있다. 따라서, 하나의 서브 대역의 모드는 다른 서브 대역에 의해서도 사용될 수 있다.

디코드된 출력을 매칭시키기 위해, 비트스트림 디코더 D_i(422, 424)로 예시된 바와 같이 디코더 재구성 루프(420) 또한 인코더에 포함된다. 디코더 재구성 루프(420)의 일부로서, 디코드된 비트스트림(414, 416)은 샘플러(423)에 의해 비트스트림의 개수에 해당하는 2의 인수로 업 샘플링된 다음, 필터(428, 430)에 의해 g_i 함수로 후처리 필터링된다. 필터 h_i(404, 406) 및 필터 g_i(428, 430)는 후처리 필터링된 출력이 결합기(431)에 의해 더해질 경우, 코딩 왜곡이 없을 때 원래의(original) 입력 신호 x가 재구성된 신호 x'로서 복구될 수 있도록 선택될 수 있다. 대안으로, 필터 h_i(404, 406) 및 필터 g_i(428, 430)는 코딩 왜곡이 존재하는 경우 전체 왜곡을 최소화하도록 설계될 수 있다.

도 4는 또한 재구성된 출력 x'가 어떻게 다른 채널 k(미도시)의 코딩 정보 i를 위해서뿐 아니라, 미래의 픽쳐를 코딩하는데 참조로 사용될 수 있는지를 예시한다. 버퍼(431)는 이러한 출력을 저장하고, 이는 이어서 필터링(h_i)되고 데시메이트되어(decimated) 픽쳐 r_i가 생성될 수 있으며, 이는 인코더 E_i 및 디코더 D_i 둘 다에 대해 수행된다. 도시된 바와 같이, 픽쳐 r_i는 재구성 루프(420)의 일부인 인코더(410)뿐만 아니라 디코더(422) 둘 다에 사용되도록 피드백될 수 있다. 추가로, 최적화는 필터 함수 h(436, 438) 및 샘플러(440)를 이용하여 디코더 재구성 루프(420)의 출력을 필터링하고 샘플링하는 필터 R_i(432, 434)를 이용하여 성취될 수 있다. 일 실시예에서, 필터 R_i(432, 434)는 각 이미지 또는 파티션마다 (분해하지 않는 디폴트를 포함하여) 여러 채널 분석 중 하나를 선택한다. 그러나, 일단 이미지 또는 파티션이 재구성되면, 버퍼링된 출력은 이어서 모든 가능한 채널 분석을 이용하여 필터링되어 적절한 참조 픽쳐가 생성될 수 있다. 이해되는 바와 같이, 이러한 참조 픽쳐는 인코더(410, 412)의 일부로서, 그리고 다른 채널의 코딩 정보로서 사용될 수 있다. 추가로, 비록 도 4에는 필터링 후 참조 채널이 데시메이트되는 것이 도시되어 있지만, 참조 채널이 데시메이트되지 않는 것도 또한 가능하다. 도 4에는 2채널 분석의 경우가 도시되어 있지만, 더 많은 채널로 확장하는 것도 기술된 원리로부터 쉽게 이해된다.

비디오 스트림이 무엇인지에 대한 정보를 제공하기 위해 서브 대역 참조 픽쳐 보간(interpolation)이 이용될 수 있다. 재구성된 이미지는 적절히 분해되어 참조 서브 대역 정보가 생성될 수 있다. 서브 샘플링된 서브 대역 참조 데이터는 적절히 합성될 수 있었던 데시메이트되지 않은 참조 픽쳐를 이용하여 생성될 수 있다. 고정 보간 필터의 설계는 각 서브 대역의 스펙트럼 특성에 기반하여 사용될 수 있다. 예를 들면, 고주파 데이터에는 평탄(flat) 보간이 적합하다. 반면에, 적응적 보간 필터는 데시메이트되지 않은 합성된 참조 프레임에 적용되는 위너(Wiener) 필터 계수를 포함할 수 있는 MSE 최소화에 기반할 수 있다.

도 5는 도 4에 예시된 인코더에 대응하는 디코더(500)를 도시한다. 디코더(500)는 수신된 비트스트림 b_i(414, 416) 및 공동 채널 코딩 정보 i(418)에 대해 동작한다. 이러한 정보는 인코더 및 디코더 둘 다에서 채널 사이의 코딩 정보를 도출하거나 재사용하는데 사용될 수 있다. 수신된 비트스트림(414, 416)은 인코더(410, 412)에 매칭하도록 구성된 디코더(502, 504)에 의해 디코드된다. 인코드/디코드 파라미터가 선험적으로 협의된 경우, 디코더(502, 504)는 유사한 파라미터로 구성된다. 대안으로, 디코더(502, 504)는 인코더(410, 412)에 대응하게 구성되도록 비트스트림(414, 416)의 일부로서 파라미터 데이터를 수신한다. 샘플러(506)는 디코드된 신호를 리샘플링(resample)하는데 사용된다. 필터 함수 g_i를 이용하는 필터(508, 510)는 재구성된 입력 비디오 신호 x'를 획득하는데 사용된다. 필터(508, 510)로부터의 출력 신호

(512) 및

(514)는 가산기(516)에 의해 합해져서 재구성된 입력 비디오 신호 x'(518)이 생성된다.

볼 수 있는 바와 같이, 재구성된 비디오 신호 x'(518)는 또한 버퍼(520)에도 제공된다. 버퍼링된 신호는 필터(522, 524)에 공급되고, 이 필터는 재구성된 입력 신호를 h_i 함수(526, 528)로 필터링한 다음 이 신호를 샘플러(530)를 이용하여 리샘플링한다. 도시된 바와 같이, 필터링된 재구성 입력 신호는 디코더(502, 504)로 피드백된다.

전술한 바와 같이, 입력 비디오 스트림 x는 분배기(105)에 의해 파티션들로 나누어질 수 있다. 일 실시예에서, 입력 비디오 스트림 x의 픽쳐는 파티션들로 나누어지며, 이 경우 각 파티션은 (각 주어진 파티션마다 국부적인 픽쳐 콘텐츠에 기반하여) 분석, 서브 샘플링, 합성 필터들의 가장 적절한 집합을 이용해 분해되고, 파티션은 특징 집합과 유사한 특징을 갖도록 구성된다. 도 6은 픽쳐(600)를 적응적으로 분할하고, 분해하고 인코드하는데 사용되는 특징 집합의 일례인 공간 주파수 분해를 이용한 총 네 개의 다른 분해 선택을 이용하는 코딩 시나리오의 일례를 도시한다. 비디오 스트림의 픽쳐의 적응적 분할은 최소 특징 묘사 길이 기준에 기반한 하나의 특징 집합 FS로 묘사될 수 있다. 이해되는 바와 같이, 다른 특징 집합도 사용될 수 있다. 공간 주파수 분해에서는, 픽쳐(600)를 검토하여 유사한 특성이 발견될 수 있는 상이한 파티션을 결정한다. 픽쳐(600)를 검토하는 것에 기반하여, 파티션(602-614)이 생성된다. 도시된 바와 같이, 파티션(602-614)은 서로 겹치지 않지만, 파티션(602-614)의 가장자리(edges)가 겹칠 수 있다고 이해된다.

공간 주파수 분해의 예에서, 특징 집합 옵션은 수직 또는 수평 필터링 및 서브 샘플링에 기반한다. 예를 들어, 파티션(604, 610)에서 사용된 V₁H₁로 지정된 일례에서, 파티션의 픽셀값이 코딩된다. 이러한 특징 집합은 파티션의 픽셀값인 단지 한 특징만을 갖는다. 이는 인코더 및 디코더가 픽셀값에 대해 동작하는 전통적인 픽쳐 코딩에 상당한다. 도시된 바와 같이, V₁H₂로 지정된 파티션(606, 612)은 두 개의 서브 대역 각각에 대해 수평으로 필터링되고 2의 인수로 서브 샘플링된다. 이러한 특징 집합은 두 개의 특징을 갖는다. 하나는 저주파 서브 대역의 값(들)이고 다른 하나는 고주파 서브 대역의 값(들)이다. 다음에, 각 서브 대역은 적절한 인코더로 코딩된다. 추가로, V₂H₁로 지정된 파티션(602)은 두 개의 서브 대역 각각에 대해 수직 필터를 이용하여 필터링되고 2의 인수로 서브 샘플링된다. V₁H₂를 이용한 파티션(606, 612)과 마찬가지로, 파티션(602)의 특징 집합은 두 개의 특징을 갖는다. 하나는 저주파 서브 대역의 값(들)이고 다른 하나는 고주파 서브 대역의 값(들)이다. 각 서브 대역은 적절한 인코더로 코딩될 수 있다.

V₂H₂로 지정된 파티션(608, 614)은 수평 및 수직 방향 각각에서 분리가능 또는 분리불가능 필터링 및 2의 인수의 서브 샘플링을 이용한다. 필터링 및 서브 샘플링이 2차원에서 이루어지기 때문에, 그 동작은 특징 집합이 네 가지 특징을 갖도록 네 개의 서브 대역 각각에 대해서 수행된다. 예를 들면, 분리가능 분해(separable decomposition)의 경우, 제1 특징은 저 주파수(LL) 서브 대역의 값(들)을 캡쳐하고, 제2 및 제3 특징은 각각 저주파 및 고주파의 조합, 즉 LH 및 HL 서브 대역 값(들)을 캡쳐하며, 제4 특징은 고주파(HH) 서브 대역의 값(들)을 캡쳐한다. 다음에, 각 서브 대역은 적절한 인코더로 코딩된다.

분배기(105)는 입력 비디오 스트림 x의 각 픽쳐의 파티션(602-614)을 생성하는 것에 접근하는 다수의 다른 적응적 분할 방식을 이용할 수 있다. 한가지 카테고리는 율 왜곡(RD)에 기반한다. RD 기반 분할의 한 예는 트리(Tree)-구조 접근법이다. 이 접근법에서, 분할 맵은 트리 구조, 예컨대, 쿼드트리(quadtree)를 이용하여 코딩될 수 있다. 트리 분기(branching)는 트리 노드 및 가지(leaves)의 묘사에 필요한 비트뿐만 아니라 최적의 분해 방식의 성능을 모두 포함하는 비용 최소화에 기반하여 결정된다. 대안으로, RD 기반 파티션은 2 패스(pass) 접근법을 이용할 수 있다. 제1 패스에서, 주어진 크기를 갖는 모든 파티션은 적응적 분해를 거쳐 각 분해 선택의 비용을 구하고, 다음에 제1 패스로부터의 파티션을 최적으로 합병하여 픽쳐를 코딩하는 전체 비용을 최소화할 것이다. 이 계산에서, 파티션 정보를 전송하는 비용도 고려될 수 있다. 제2 패스에서, 픽쳐는 최적의 파티션 맵에 따라 파티션되고 분해될 수 있다.

파티션의 다른 카테고리는 비-RD에 기반한다. 이러한 접근법에서, 놈-p 최소화(Norm-p Minimization)가 사용된다: 이 방법에서, 각각의 가능한 분해 선택에 대해 동일한 공간 국부성(locality)의 모든 채널에 대한 서브 대역 데이터의 놈-p가 산출될 것이다. 최적의 분할은 최적의 픽쳐 분할에 의해 실현되어 모든 파티션(602-614)의 과잉 놈-p를 최소화한다. 이 방법에서도, (실제의 또는 추정된) 적절히 가중화된 비트 레이트를 추가하여 분할 정보를 데이터의 전체 놈-p로 송신함으로써 분할 정보를 송신하는 비용이 고려된다. 자연 콘텐츠를 갖는 픽쳐의 경우, 놈-1이 종종 사용된다.

앞에서는 비디오 코딩에서 픽쳐 또는 파티션의 적응적 서브 대역 분해에 대해 기술되었다. 수평 및 수직 방향 각각의 서브 샘플링의 레벨에 의해 각 분해 선택이 기술되고, 다시 서브 대역, 예컨대, V₁H₁, V₁H₂의 개수 및 크기 등이 정의되었다. 이해되는 바와 같이, 미래의 픽쳐 또는 파티션의 잔여 증분(residual increment)을 송신함으로써 픽쳐 또는 파티션의 분해 정보가 재사용되거나 예측될 수 있다. 각 서브 대역은 압축 전에 분석 필터, 예컨대, 필터 h_i(404, 406)를 적용하여 도출되고, 적절한 업 샘플링 후에 합성 필터, 예컨대, 필터 g_i(428, 430)를 적용하여 재구성된다. 분해를 캐스케이딩(cascading)하는 경우, 각 대역을 분석하거나 합성하는데 하나보다 많은 필터가 수반될 수 있다.

도 4 및 도 5을 참조하면, 필터(404, 406, 428, 430, 436, 438, 508, 510, 524, 522)는 전체 왜곡을 최소화하도록 그리고 적응적 합성 필터(ASF)로 구성되고 설계될 수 있다. ASF에서, 필터는 각 채널의 코딩에 의해 야기되는 왜곡을 최소화하려고 시도한다. 합성 필터의 계수는 재구성된 채널에 기반하여 설정될 수 있다. ASF의 일례는 공동(joint) 서브 대역 최적화에 기반한다. g_i 함수의 크기가 주어진 경우, 최종 재구성된 파티션 x'와 그 파티션에서 원래의 신호 x의 원래의 픽셀 사이의 평균 제곱 추정치 오차가 최소화되도록 g_i의 계수를 산출하는데 선형 평균 제곱 추정(Linear Mean Square Estimation) 기술이 사용될 수 있다. 대안의 실시예에서, 독립적인 채널 최적화가 이용된다. 이 예에서, 공동 서브 대역 최적화는 업 샘플링 후에 원래의 신호 x와 재구성된 서브 대역 신호 간의 자기 및 상호 상관을 필요로 한다. 더욱이, 매트릭스 방정식계도 풀 수 있다. 이와 같은 공동 서브 대역 최적화와 연관된 계산은 많은 응용에서 과중할 수 있다.

인코더(700)의 독립 채널 최적화 해법의 일례는 도 7에서 볼 수 있으며, 이는 ASF에 초점이 맞추어지므로 도 3에 도시된 필터(432 및 434)를 이용하는 참조 픽쳐 처리는 생략된다. ASF에서는, 대체로 잡음이 있는 디코드된 재구성된 채널

과, 잡음이 없는 인코드되지 않은 재구성된 채널

사이에서 필터 추정을 수행하기 위해 필터 추정 모듈(FE_i)(702, 704)이 제공된다. 도시된 바와 같이, 입력 비디오 신호 x(701)는 분열되어 그 신호 x를 알려진 함수 h_i에 따라 필터링하는 필터(706, 708)로 제공되고, 그런 다음 샘플러(710)를 이용하여 파티션의 개수에 의해 결정된 레이트로 샘플링된다. 2채널 분해에 대한 실시예에서, 필터(706, 708) 중 하나는 로우 패스 필터일 수 있고 다른 하나는 하이 패스 필터일 수 있다. 2채널 분해에서 데이터를 분할하는 것은 데이터를 두 배로 한다는 것이 이해된다. 따라서, 샘플러(710)는 디코더에서 입력 신호를 재구성하는데 동일한 수의 샘플들이 이용가능하도록 입력 신호를 데이터 양의 절반으로 임계적으로 샘플링할 수 있다. 다음에, 필터링되고 샘플링된 신호는 인코더 E_i(712, 714)에 의해 인코드되어 비트스트림 b_i(716, 718)이 생성된다. 인코딩된 비트스트림 b_i(716, 718)은 디코더(720, 722)로 제공된다.

인코더(700)는 신호 및 인코더(712, 714)에 제공되고 디코더(720, 722)로부터 제공된 필터링되고 샘플링된 신호를 수신하는 보간 모듈(724, 726)을 구비한다. 데시메이트되고 샘플링된 신호 및 디코드된 신호는 샘플러(728, 730)에 의해 샘플링된다. 리샘플링된 신호는 필터(732, 734)에 의해 처리되어 신호

가 생성되며 이와 동시에 디코드된 신호는 또한 필터(736, 738)에 의해 처리되어 신호

가 생성된다. 신호

및

는 모두 전술한 필터 추정 모듈(702, 704)로 제공된다. 필터 추정 모듈(702, 704)의 출력은 보간 모듈(724, 726)의 필터 정보 info_i에 대응한다. 필터 정보 info_i는 다른 인코더뿐만 아니라 대응하는 디코더에도 제공될 수 있다.

보간 모듈은 또한 필터 함수 f_i를 이용하는 필터(740, 742)로 구성될 수 있다. 필터(740, 742)는 신호

및

간의 오차 메트릭을 최소화하도록 유도될 수 있고 이 필터는 c"_i에 적용되어

가 생성된다. 다음에, 결과적인 필터링된 채널 출력

은 결합되어 전체 출력이 생성된다. 일 실시예에서, ASF 출력

은 도 4에서

를 대체하는데 사용될 수 있다. ASF는 결합 전에 각 채널에 적용되기 때문에, ASF 필터링된 출력 c_i는 최종 출력 비트 깊이 해상도에 비해 더 높은 비트 깊이 해상도로 유지될 수 있다. 즉, 결합된 ASF 출력은 참조 픽쳐 처리 목적으로 내부적으로 더 높은 비트 깊이 해상도로 유지될 수 있으며, 반면에 최종 출력 비트 깊이 해상도는 예를 들어 클리핑 및 라운딩에 의해 감소될 수 있다. 보간 모듈(740, 742)에 의해 수행되는 필터링은 샘플러(710)에 의해 수행되는 샘플링에 의해 폐기될 수 있는 정보를 채울 수 있다. 일 실시예에서, 인코더(712, 714)는 입력 비디오 신호를 분할한 다음 신호를 인코드하는데 사용되는 특징 집합에 기반하여 서로 다른 파라미터를 이용할 수 있다.

필터 정보 i_i는 도 8에 도시된 디코더(800)로 전송될 수 있다. 수정된 합성 필터(802, 804)(g_i')는 인코더(700) 및 디코더(800) 둘 다가 동일한 필터링을 수행하도록 필터(706, 708, 732-738)의 함수 g_i 및 f_i로부터 도출될 수 있다. ASF에서, 합성 필터(732-738)(g_i)는 코딩에 의해 발생되는 왜곡을 감안하여 필터(802, 804)에서 g_i'로 수정된다. 또한, 적응적 분석 필터링(AAF)에서, 코딩 왜곡을 감안하여 분석 필터 함수 h_i를 필터(706, 708)로부터 필터(806, 808)에서 h_i'로 변형하는 것도 가능하다. AAF 및 ASF의 동시 사용도 가능하다. ASF/AAF는 전체 픽쳐 또는 픽쳐 파티션에 적용될 수 있으며, 서로 다른 파티션에는 서로 다른 필터가 적용될 수 있다. AAF의 일례에서, 분석 필터, 예를 들어, 9/7, 3/5 등이 필터 뱅크 집합으로부터 선택될 수 있다. 사용되는 필터는 필터에 들어오는 신호의 품질에 기반한다. AAF 필터의 계수는 각 파티션의 콘텐츠 및 코딩 조건에 기반하여 설정될 수 있다. 추가로, 필터는 인코더와 디코더 간의 드리프트(drift)를 방지하기 위해 필터 지수 또는 계수가 디코더에 전송될 수 있는 경우 서브 대역 참조 데이터의 생성을 위해 사용될 수 있다.

도 8에서 볼 수 있는 바와 같이, 비트스트림 b_i(716, 718)는 디코더(810, 812)로 공급되며, 이 디코더는 인코더(712, 714)와 상호 보완적인 파라미터를 갖는다. 디코더(810, 812)는 또한 인코더(700)뿐만 아니라 시스템 내의 다른 인코더 및 디코더로부터 코딩 정보 i_i를 입력으로서 수신한다. 디코더(810, 812)의 출력은 샘플러(814)에 의해 리샘플링되어 전술한 필터(802, 804)로 공급된다. 필터링된 디코드된 비트스트림 c"_i은 결합기(816)에 의해 결합되어 재구성된 비디오 신호 x'가 생성된다. 재구성된 비디오 신호 x'는 또한 버퍼(818)에 버퍼링되고 필터(806, 808)에 의해 처리되고 샘플러(820)에 의해 샘플링되어 피드백 입력으로서 디코더(810, 812)로 공급된다.

도 4 및 도 5와 도 7 및 도 8에 도시된 코덱은 HVC에 대해 향상될 수 있다. 일 실시예에서, 교차 서브 대역 예측이 사용될 수 있다. 파티션을 다수의 서브 대역 특징 집합으로 코딩하기 위해, 인코더 및 디코더는 어떤 추가의 정보를 송신할 필요없이 디코더에서 이미 디코드되고 이용가능한 모든 서브 대역으로부터의 코딩 정보를 이용할 수 있다. 이는 인코더 및 디코더에 제공된 코딩 정보 i_i의 입력으로 도시된다. 이에 대한 일례는 디코더에서 이미 디코드된 공동 배치된 서브 대역의 시간적 및 공간적 예측 정보를 재사용하는 것이다. 교차 대역 예측의 문제는 인코더 및 디코더와 관련된 문제이다. 이제 동시적 비디오 인코더 및 디코더의 문맥에서 이러한 작업을 수행하는데 사용될 수 있는 몇 가지 방식에 대해 기술된다.

그러한 한가지 방식은 교차 서브 대역 움직임 벡터 예측을 이용한다. 서브 대역 각각의 대응 위치에서 움직임 벡터는 입력 비디오 신호 x의 픽셀 도메인에서 동일한 영역을 가리키기 때문에 x의 여러 파티션에 대해 대응 위치에서 이미 코딩된 서브 대역 블록으로부터의 움직임 벡터를 이용하여 현재 블록의 움직임 벡터를 도출하는 것이 유익하다. 이러한 특징을 지원하는 두 가지 추가 모드가 코덱에 부가될 수 있다. 한 가지 모드는 움직임 벡터를 재사용하는 것이다. 이 모드에서 각 블록에 사용되는 움직임 벡터는 이미 전송된 서브 대역의 대응 블록의 모든 움직임 벡터로부터 직접 도출된다. 다른 모드는 움직임 벡터 예측을 이용한다. 이 모드에서, 각 블록에 사용되는 움직임 벡터는 델타 움직임 벡터를 이미 전송된 서브 대역의 대응 블록의 모든 움직임 벡터로부터 예측된 움직임 벡터에 더함으로써 직접 도출된다.

다른 방식은 교차 서브 대역 코딩 모드 예측을 이용한다. 비디오 스트림의 픽쳐로부터 또는 픽쳐의 파티션으로부터 취한 각 이미지 위치의 가장자리와 같은 구조적 경사(gradients)가 서브 대역 각각의 대응 위치로 치우칠 수 있기 때문에, 임의의 주어진 블록의 코딩을 위해 대응 위치에서 이미 코딩된 서브 대역 블록으로부터의 코딩 모드 정보를 재사용하는 것이 유익하다. 예를 들면, 이 모드에서 각 매크로블록의 예측 모드는 저주파 서브 대역의 대응 매크로블록으로부터 도출될 수 있다.

코덱 향상에 대한 또 다른 실시예는 참조 픽쳐 보간을 이용한다. 참조 픽쳐 처리 목적으로, 재구성된 픽쳐는 도 4 및 도 5에서 볼 수 있듯이 버퍼링되고 미래의 픽쳐의 코딩을 위한 참조로 사용된다. 인코더 E_i는 필터링된/데시메이트된 채널에 대해 동작하기 때문에, 참조 픽쳐도 마찬가지로 필터(432, 434)에 의해 수행된 참조 픽쳐 프로세스 R_i에 의해 필터링되고 데시메이트된다. 그러나, 일부 인코더는 더 높은 서브픽셀 정밀도를 이용하고 1/4 픽셀 해상도의 경우 함수 R_i는 전형적으로 도 9(a) 및 도 9(b)에 도시된 바와 같이 보간된다.

도 9(a) 및 도 9(b)에서, 재구성된 입력 신호 x'는 필터 Q_i(902) 및 Q'_i(904)에 제공된다. 도 9(a)에서 볼 수 있는 바와 같이, 필터 R_i(432)에 의한 참조 픽쳐 처리 동작은 필터 h_i(436)을 이용하고 샘플러(440)를 이용하여 신호를 데이시메이트한다. 전형적으로 인코더에서 수행되는 보간 동작은 1/4 픽셀 보간 모듈(910)을 이용하여 필터 Q_i(902) 동작에서 결합될 수 있다. 이와 같은 전체 동작은 인코더 채널 입력의 1/4 픽셀 해상도 참조 샘플 q_i(906)을 생성한다. 대안으로, 보간된 참조 픽쳐 q_i'를 생성하는 다른 방식이 도 9(b)에 도시되어 있다. 이러한 "데시메이트되지 않은 보간" Q_i'에서, 재구성된 출력은 단지 R_i'에서 필터 h_i(436)를 이용하여 필터링되고 데시메이트되지 않는다. 다음에, 필터링된 출력은 1/2 픽셀 보간 모듈(912)을 이용하여 1/2 픽셀로 보간되어 1/4 픽셀 참조 픽쳐 q_i'(908)가 생성된다. Q_i에 대한 Q_i'의 이점은 Q_i'가 "원래의"(데시메이트되지 않은) 1/2 픽셀 샘플에 액세스하여, 1/2 픽셀 및 1/4 픽셀 샘플값을 더 좋게 한다는 것이다. Q_i' 보간은 각 채널 i의 특정 특성에 적응될 수 있고 또한 임의의 원하는 서브 픽셀 해상도로 확장될 수 있다.

전술한 바로부터 이해되는 바와 같이, 입력 비디오 스트림 x를 연속 구성하는 각 픽쳐는 전체 픽쳐로 처리되거나, 또는 도 5에서 볼 수 있는 바와 같이 더 작은 인접하거나 겹치는 서브 픽쳐로 분할될 수 있다. 파티션은 일정하거나 적응적인 크기 및 형상을 가질 수 있다. 파티션은 픽쳐 레벨로 또는 적응적으로 이루어질 수 있다. 적응적인 실시예에서, 픽쳐는 트리 구조 또는 제1 경로가 고정 블록을 이용하고 제2 패스가 합병(merging) 블록에서 동작하는 2 패스 구조를 포함하여 많은 다른 방법들 중 어떤 방법을 이용하여 파티션들로 분할될 수 있다.

분해시, 픽쳐 및 비디오 스트림의 콘텐츠에 따라 채널 분석 및 합성이 선택될 수 있다. 필터 기반 분석 및 합성의 예에서, 분해는 임의 개수의 수평 및/또는 수직 대역뿐만 아니라, 다수 레벨의 분해를 취할 수 있다. 분석/합성 필터는 분리가능하나 분리불가능할 수 있으며, 이러한 필터는 손실이 없는 코딩의 경우에 완벽한 재구성을 이루도록 설계될 수 있다. 대안으로, 손실이 있는 코딩의 경우, 이러한 필터는 전체 단-대-단(end-to-end) 오류 또는 인지 오류를 최소화하도록 공동으로 설계될 수 있다. 분할에서처럼, 각 픽쳐 또는 서브 픽쳐는 서로 다른 분해를 가질 수 있다. 픽쳐 또는 비디오 스트림에 대한 그러한 분해의 예는 필터 기반 방법, 특징 기반 방법, 수직, 수평, 대각선, 특징, 다중 레벨, 분리가능 및 분리불가능, 완벽한 재구성(PR) 또는 PR이 아닌 것과 같은 콘텐츠 기반 방법, 및 픽쳐 및 서브 픽쳐 적응적 방법이다.

채널의 인코더 E_i에 의한 코딩을 위해, 기존의 비디오 코딩 기술이 이용되거나 적응될 수 있다. 주파수에 의한 분해의 경우, 저주파 대역은 원래의 비디오 콘텐츠의 많은 특성을 유지하기 때문에 일반적인 비디오 시퀀스로 직접 코딩될 수 있다. 이 때문에, 프레임워크는 하위 대역이 현재의 코덱 기술을 이용하여 독립적으로 디코드되는 "역 호환성(backward compatibility)"을 유지하기 위해 이용될 수 있다. 상위 대역은 미래에 개발되는 기술을 이용하여 디코드되고 하위 대역과 함께 이용되어 더 높은 품질로 재구성할 수 있다. 각 채널 또는 대역은 서로 다른 특성을 보일 수 있기 때문에, 특정 채널 코딩 방법이 적용될 수 있다. 코딩 효율을 개선하기 위해 채널간 중복성이 공간적으로 그리고 시간적으로 이용될 수 있다. 예를 들면, 하나 이상의 다른 채널에 기반하여 움직임 벡터, 예측된 움직임 벡터, 계수 스캔 순서(coefficient scan order), 코딩 모드 결정, 및 다른 방법도 도출될 수 있다. 이 경우, 도출된 값은 채널들 사이에서 적절히 조정되거나 매핑될 필요가 있을 수 있다. 이러한 원리는 모든 비디오 코덱에 적용될 수 있고, 역호환성(예컨대, 하위 대역)이 있을 수 있고, 특정 채널 코딩 방법(예컨대, 상위 대역)에 적합할 수 있고, 채널간 중복성을 이용할 수 있다.

참조 픽쳐 보간에서는, 데시메이트되지 않은 1/2 픽셀 샘플, 보간된 값, 및 보간된 위치에 대한 적응적 보간 필터(AIF) 샘플이 이용될 수 있다. 예를 들면, 일부 실험에서는 상위 대역 1/2 픽셀 위치를 제외하고 AIF 샘플을 이용하는 것이 유리할 수 있고, 이 경우 데시메이트되지 않은 웨이브렛(wavelet) 샘플을 이용하는 것이 유리하였음을 보였다. 비록 Q'에서 1/2 픽셀 보간이 각 채널의 신호 및 잡음 특성에 적응될 수 있지만, 로우패스 필터는 모든 채널에 사용되어 1/4 픽셀값을 생성할 수 있다.

일부 특징은 채널 코딩에 적응될 수 있음이 이해된다. 일 실시예에서, 각 파티션/채널마다 RD-비용에 기반하여 최적의 양자화 파라미터가 선택된다. 비디오 시퀀스의 각 픽쳐는 여러 채널로 분할되고 분해될 수 있다. 각 파티션 또는 채널마다 양자화 파라미터를 다르게 함으로써, 전체 성능이 향상될 수 있다.

동일한 파티션의 또는 다른 파티션 전체에 걸친 다른 서브 대역 사이에서 최적의 비트 할당을 수행하기 위해, RD 최소화 기술이 이용될 수 있다. 만일 충실도(fidelity)의 척도가 피크 신호대 잡음비(PSNR) 이면, 개별 채널 및 파티션의 최적 코딩을 성취하기 위해 동일한 라그랑지안(Lagrangian) 곱셈기(λ)가 이용된 경우 각 서브 대역마다 라그랑지안 비용(D+λ.R)을 독립적으로 최소화하는 것이 가능하다.

대부분의 자연 이미지 콘텐츠를 유지하는 저주파 대역의 경우, 전통적인 비디오 코덱에 의해 생성된 RD 곡선은 컨벡스(convex) 특성을 유지하고, 양자화 파라미터(qp)는 반복(recursive) RD 비용 검색에 의해 얻어진다. 예를 들면, 첫 번째 단계에서,

에서 RD 비용이 산출된다. 가장 적은 비용을 갖는 qp_i(i=1, 2, 또는 3)의 값은 새로운 qp가 qp_i로 설정되는 프로세스를 반복하는데 사용된다. 다음에,

에서 RD 비용이 산출되고, 이는 qp 증분 △가 1이 될 때까지 반복된다.

고주파 대역의 경우, 컨벡스 특성은 더 이상 유지되지 않는다. 반복 방법 대신, 완전(exhaustive) 검색을 적용하여 RD 비용이 가장 적은 최적의 qp를 찾는다. 다음에, qp-△에서 qp+△까지 양자화 파라미터를 다르게 하여 인코드 프로세스가 실행된다.

예를 들면, 저주파 채널 검색에서 △는 2로 설정되고, 이는 채널 레벨에서 RD 최적화를 하지 않은 경우에 비해 시간적 코딩 복잡도를 5x 증가시킨다. 고주파 채널 검색의 경우, △는 3으로 설정되며, 이는 코딩 복잡도가 7x 증가하는 것에 해당한다.

전술한 방법에 의해, 멀티-패스 인코드과 인코드 복잡도를 증가시키는 희생으로 각 채널의 최적의 qp가 결정된다. 멀티-패스 인코드를 거치지 않고 각 채널마다 qp를 직접 할당하여 복잡도를 감소시키는 방법이 개발될 수 있다.

다른 실시예에서, 각 채널마다 람다(lambda) 조정이 이용될 수 있다. 전술한 바와 같이, 서로 다른 서브 대역에 동일한 라그랑지안 곱셈기를 선택하면 소정의 조건 하에서 최적의 코딩을 수행할 것이다. 그러한 한가지 조건은 모든 서브 대역의 왜곡을 최종 재구성된 픽쳐의 형성시 동일한 가중치(weight)를 갖고 더한다는 것이다. 서로 다른 서브 대역의 압축 잡음은 주파수 의존적 이득이 다른 서로 다른 (합성) 필터를 거친다는 사실에 따른 관측에서는 압축 잡음의 스펙트럼 형상 및 필터의 특성에 따라 서로 다른 서브 대역에 서로 다른 라그랑지안 함수를 부여함으로써 코딩 효율을 개선할 수 있음을 암시한다. 예를 들면, 이는 채널 람다에 스케일링 인수(scaling factor)를 할당함으로써 수행되며, 여기서 스케일링 인수는 구성 파일로부터의 입력 파라미터일 수 있다.

또 다른 실시예에서, 픽쳐 유형 결정이 이용될 수 있다. 진보된 비디오 코딩(AVC) 인코더는 고주파 서브 대역을 코딩할 때 매우 효율적이지 않을 수 있다. HVC에서 많은 매크로블록(MB)은 P 및 B 슬라이스를 포함하여 예측 슬라이스로 인트라 코딩된다. 어떤 극단적인 경우, 예측 슬라이스에서 모든 MB가 인트라 코딩된다. 인트라 MB 모드의 상황(context) 모델은 다른 슬라이스 유형에 대해 다르기 때문에, 생성된 비트 레이트는 서브 대역이 I 슬라이스, P 슬라이스 또는 B 슬라이스로 코딩되는 경우 상당히 다르다. 다시 말하면, 자연 이미지에서, 인트라 MB는 예측 슬라이스에 발생할 가능성이 적다. 따라서, 인트라 MB 확률이 낮은 상황 모델이 부여된다. I 슬라이스에 대해, 훨씬 높은 인트라 MB 확률을 갖는 상황 모델이 부여된다. 이 경우, 모든 MB가 인트라 코딩된 예측 슬라이스는 모든 MB가 동일 모드에서 코딩되는 경우에도 I 슬라이스보다 더 많은 비트를 소모한다. 결과적으로, 고주파 채널들에는 서로 다른 엔트로피 코더가 이용될 수 있다. 더욱이, 각 서브 대역에는 각 서브 대역의 통계 특성에 기반하여 서로 다른 엔트로피 코딩 기술 또는 코더가 이용될 수 있다. 대안으로, 다른 해결책은 서로 다른 슬라이스 유형을 갖는 채널에서 각 픽쳐를 코딩한 다음, RD 비용이 최저인 슬라이스 유형을 선택하는 것이다.

또 다른 실시예에서는, 각 기본 코딩 유닛마다 새로운 인트라 스킵(skip) 모드가 이용된다. 인트라 스킵 모드는 이미 재구성된 이웃 픽셀로부터의 예측을 이용하여 콘텐츠를 재구성하는 블록 기반 알고리즘에서 스파스(sparse) 데이터 코딩의 이익을 얻는다. 고 서브 대역 신호는 일반적으로 많은 평탄(flat) 영역을 포함하고, 고주파 성분은 드물게 위치된다. 하나의 비트를 이용하여 영역이 평탄한지 여부를 구별하는 것이 유리할 수 있다. 특히, 인트라 스킵 모드는 평탄한 콘텐츠를 갖는 MB를 표시하도록 정의되었다. 인트라 스킵 모드가 결정될 때마다, 해당 영역은 코딩되지 않고, 추가의 잔여분도 송신되지 않고, 그 영역의 DC 값은 이웃 MB의 픽셀값을 이용하여 예측된다.

구체적으로, 인트라 스킵 모드는 추가적인 MB 레벨 플래그이다. MB는 임의의 크기를 가질 수 있다. AVC에서, MB 크기는 16x16이다. 일부 비디오 코덱의 경우, 고선명 비디오 시퀀스를 위해 더 큰 MB 크기(32x32, 64x64 등)가 제안되었다. 인트라 스킵 모드는 평탄 영역에서 잠재적으로 더 적은 비트가 발생하기 때문에 더 큰 MB 크기에서 이익을 얻는다. 인트라 스킵 모드는 단지 고대역 신호의 코딩 시에만 가능하고 저대역 신호의 코딩 시에는 가능하지 않다. 저주파 채널의 평탄 영역은 고주파 채널의 평탄 영역만큼 많지 않기 때문에, 일반적으로 말하면, 인트라 스킵 모드는 저주파 채널의 경우 비트 레이트를 증가시키는 반면에 고주파 채널의 경우 비트 레이트를 감소시킨다. 이러한 스킵 모드는 또한 전체 채널 또는 대역에 적용될 수 있다.

도 다른 실시예에서, 인루프 디블록킹(inloop deblocking) 필터가 이용된다. 인루프 디블록킹 필터는 AVC 코덱에서 RD 성능 및 시각 품질에 도움을 준다. 인루프 디블록팅 필터를 HVC 인코더에 배치할 수 있는 장소가 두 곳 있다. 이에 대해서는 인코더의 경우 도 10에, 그리고 대응하는 디코더의 경우 도 11에 예시되어 있다. 도 10 및 도 11은 도 4의 인코더(400) 및 도 5의 디코더(500)로 구성되며, 이들 도면에서 유사 구성 요소는 유사하게 부호가 부여되고 전술한 바와 동일한 기능을 수행한다. 하나의 인루프 디블록킹 필터는 디코더 D_i(1002)의 일부이고, 1004는 각 개별 채널 재구성의 끝에 있다. 다른 하나의 인루프 디블록킹 필터(1006)는 채널 합성 및 결합기(431)에 의한 전체 픽쳐의 재구성 다음에 있다. 첫 번째 인루프 디블록킹 필터(1002, 1004)는 채널 재구성을 위해 사용되고 중간 신호이다. MB 경계에서의 그의 평활도(smoothness)는 RD 의미에서 최종 픽쳐 재구성을 향상시킬 수 있다. 또한 그것은 중간 신호를 실제값에서 더 멀어지도록 변화시킬 수 있어 성능 열화가 가능하다. 이를 극복하기 위해, 인루프 디블록킹 필터(1002, 1004)는 각 채널마다 그 채널을 어떻게 합성할지에 대한 특성에 기반하여 구성될 수 있다. 예를 들면, 필터(1002, 1004)는 합성 필터 유형뿐만 아니라 업 샘플링 방향을 기반으로 할 수 있다.

반면에, 인루프 디블록킹 필터(1006)는 픽쳐 재구성 후에 도움이 되어야 한다. 서브 대역/채널 코딩의 특성상, 최종 재구성된 픽쳐는 링잉 효과(ringing effects)와 같은 블록 현상(blockiness) 이외의 아티팩트(artifacts)를 유지한다. 따라서, 그러한 아티팩트를 효과적으로 처리하도록 인루프 필터를 재설계하는 것이 더 좋다.

인루프 디블록킹 필터(1002-1006)에 대해 기술된 원리는 도 11의 디코더(1100)에서 볼 수 있는 인루프 디블록킹 필터(1102, 1104 및 1106)에도 적용됨이 이해된다.

또 다른 실시예에서, 서브 대역 의존적 엔트로피(entropy) 코딩이 이용될 수 있다. 통상적인 코덱(AVC, MPEG 등)에서 VLC 테이블 및 CABAC와 같은 레거시(legacy) 엔트로피 코더는 어떤 변환 도메인(예컨대, 라플라시안(Laplacian) 및 가우시안(Gaussian) 분포의 어떤 조합을 따르는 경향이 있는 AVC의 경우 DCT)에서 자연 이미지로부터의 통계적 특성에 기반하여 설계된다. 서브 대역 엔트로피 코딩의 성능은 각 서브 대역의 통계적 특성에 기반한 엔트로피 코더를 이용함으로써 향상될 수 있다.

또 다른 실시예에서, 분해 의존적 계수 스캔 순서가 이용될 수 있다. 각 파티션의 최적의 분해 선택은 그 파티션의 특징의 방위(orientation)를 의미할 수 있다. 따라서, 코딩 변환 계수의 엔트로피 코딩 전에 적절한 스캔 순서를 이용하는 것이 바람직할 것이다. 예를 들면, 이용가능한 분해 방식 각각에 대해 각 서브 대역에 특정한 스캔 순서를 부여하는 것이 가능하다. 따라서, 스캔 순서의 선택을 전달하기 위해 부가 정보를 송신할 필요가 없다. 대안으로, AVC의 경우 양자화된 DCT 계수와 같은 코딩된 계수의 스캐닝 패턴을 가능한 스캔 순서 선택 목록에서 선택적으로 선정하여 전달하고 이와 같은 각 파티션의 각 코딩된 서브 대역마다의 스캔 순서 선택을 송신하는 것이 가능하다. 이는 주어진 파티션의 주어진 분해의 각 서브 대역마다 선택적 선정을 송신할 필요가 있다. 또한, 이러한 스캔 순서는 방향성 성능이 동일한 이미 코딩된 서브 대역으로부터 예측될 수 있다. 또한, 서브 대역마다 그리고 분해 선택마다 고정된 스캔 순서가 수행될 수 있다. 대안으로, 파티션의 서브 대역마다 선택적 스캐닝 패턴이 이용될 수 있다.

일 실시예에서, 서브 대역 왜곡 조정이 이용될 수 있다. 서브 대역 왜곡은 다른 서브 대역에 대해서 어떤 정보도 생성하지 않지만 일부 서브 대역으로부터 더 많은 정보를 생성하는 것에 근거를 둘 수 있다. 그러한 왜곡 조정은 왜곡 합성을 통해 또는 서브 대역에서 픽셀 도메인으로 왜곡을 매핑함으로써 수행될 수 있다. 일반적인 경우, 서브 대역 왜곡은 먼저 어떤 주파수 도메인에 매핑되고 그 다음에 서브 대역 합성 프로세스의 주파수 응답에 따라 가중화될 수 있다. 통상적인 비디오 코딩 방식에서, 대부분의 코딩 결정은 율-왜곡 비용의 최소화에 의해 수행된다. 각 서브 대역에서 측정된 왜곡은 반드시 그 서브 대역에서 최종 재구성된 픽쳐 또는 픽쳐 파티션으로의 왜곡의 최종 영향을 반영하지 않는다. 인지 품질 메트릭의 경우, 이는 서로 다른 서브 대역의 동일한 양의 왜곡보다, 동일한 양의 왜곡, 예컨대 주파수 서브 대역 중 하나의 MSE가 최종 재구성된 이미지에 다른 인지 영향을 미칠 경우 더 명백하다. MSE와 같은 비주관적(non-subjective) 품질 척도의 경우, 왜곡의 스펙트럼 밀도가 합성된 파티션의 품질의 왜곡에 영향을 미칠 수 있다.

이를 다루기 위해, 잡음이 있는 블록을 그렇지 않고 잡음이 없는 이미지 파티션에 삽입하는 것이 가능하다. 추가로, 그러한 주어진 블록의 왜곡을 산출하기 전에 서브 대역 업 샘플링 및 합성 필터링이 필요할 수 있다. 대안으로, 서브 대역 데이터의 왜곡에서 최종 합성된 파티션의 왜곡으로 일정한 매핑을 이용하는 것이 가능하다. 인지 품질 메트릭의 경우, 이는 주관적인 테스트 결과를 수집하여 매핑 함수를 생성하는 것을 수반할 수 있다. 더 일반적인 경우, 서브 대역 왜곡은 총 왜곡이 업 샘플링 및 합성 필터링으로부터 결합된 주파수 응답에 따라 각 서브 대역 왜곡의 가중된 합이 되는 어떤 더 미세한 주파수 서브 대역에 매핑될 수 있다.

또 다른 실시예에서, 범위 조정이 제공된다. 서브 대역 데이터는 소정의 동적 범위를 갖는 정수점(integer point)으로 변환될 필요가 있는 부동 소수점(floating point)일 수 있다. 인코더는 부동 소수점 입력을 처리하지 못할 수 있으므로 입력은 수신되는 것을 보상하도록 변경된다. 이는 리프팅(lifting) 방식을 통해 서브 대역 분해의 정수 구현을 이용하여 성취될 수 있다. 대안으로, 연속적 비감소(non-decreasing) 매핑 곡선(예컨대, 시그모이드(sigmoid))에 이어서 균일 양자화기를 이용하여 구성된 일반적인 제한적 양자화기가 이용될 수 있다. 이러한 매핑 곡선의 파라미터는 업 샘플링 및 합성 전에 서브 대역 신호를 재구성하기 위해 디코더에서 알고 있거나 디코더로 전달되어야 한다.

기술된 HVC는 여러 가지 이점을 제공한다. 주파수 서브 대역 분해는 더 좋은 시공간 예측 및 코딩 효율을 위해 더 좋은 대역 분해를 제공할 수 있다. 전형적인 비디오 콘텐츠에서 대부분의 에너지는 소수의 서브 대역에 집중되기 때문에, 저 에너지 대역에 대해 더 효율적인 코딩 또는 대역 스키핑(skipping)이 수행될 수 있다. 서브 대역 의존적 양자화, 엔트로피 코딩, 및 주관적/객관적 최적화도 또한 수행될 수 있다. 이는 각 서브 대역의 인지 중요도에 따라 코딩을 수행하는데 이용될 수 있다. 또한, 다른 전처리 필터링(prefiltering)만의 접근법과 비교하여, 임계적으로 샘플링된 분해는 샘플 수를 증가시키지 않고 완벽한 재구성이 가능하다.

예측 코딩 관점에서, HVC는 공간적 및 시간적 예측 외에 교차 서브 대역 예측을 추가한다. 각 서브 대역은 픽쳐/파티션 유형을 고수하는 한 다른 서브 대역과는 다른 픽쳐 유형(예컨대, I/P/B 슬라이스)을 이용하여 코딩될 수 있다(예를 들어, 인트라 유형 파티션은 오직 그의 모든 서브 대역에 대해 인트라 유형 코딩만을 수행할 수 있다). 이러한 분해 때문에, 가상 코딩 유닛 및 변환 유닛은 새로운 예측 모드, 서브 파티션 방식, 변환, 계수 스캔, 엔트로피 코딩 등을 명백히 설계할 필요 없이 확장된다.

데시메이트된 저주파 서브 대역에 대해, 예를 들어, 움직임 추정(ME)과 같은 시간 소모적인 동작이 수행되는 HVC에서 더 낮은 계산 복잡도가 가능하다. 서브 대역 및 분해에 대한 병렬 처리도 또한 가능하다.

HVC 프레임워크는 사용되는 특정 채널 또는 서브 대역 코딩과는 독립적이므로, 이는 여러 대역에 대해 서로 다른 압축 방식을 이용할 수 있다. HVC 프레임워크는 다른 제안된 코딩 도구(예컨대, KTA 및 제안된 JCT-VC)와 충돌하지 않으면서 다른 코딩 도구 외에 추가 코딩 이득을 제공할 수 있다.

2D 비디오 스트리밍에 대해 전술한 HVC의 원리는 또한 3DTV와 같은 3D 비디오 출력에도 적용될 수 있다. HVC는 또한 3DTV 압축 기술을 대부분 이용할 수 있고, 새로운 인코드 및 디코드 하드웨어가 필요하다. 이 때문에, 최근에 기존의 2D 코덱 기술을 이용하여 3D 호환 신호를 제공하는 시스템에 관심이 있어 왔다. 그러한 "기본 계층"(BL) 신호는 기준의 2D 하드웨어와 역 호환될 것이며, 반면에 3D 하드웨어를 구비한 새로운 시스템은 추가적인 "향상 계층"(EL) 신호를 이용하여 고품질 3D 신호를 전달할 수 있다.

그러한 3D로의 마이그레이션(migration) 경로 코딩을 성취하기 위한 한가지 방식은 BL에 대해 사이드 바이 사이드(side-by-side) 또는 상부/저부 3D 패널 포맷을 이용하고, EL에 대해 두 개의 최대 해상도 뷰(full resolution views)를 이용하는 것이다. BL은 3D 포맷의 적절한 시그널링(signaling)(예컨대, 프레임 패킹(packing) SEI 메시지 및 HDMI 1.4 시그널링)을 처리하기 위해 단지 적은 추가 변경을 갖는 AVC와 같은 기존의 2D 압축을 이용하여 인코드되고 디코드될 수 있다. 새로운 3D 시스템은 BL 및 EL 둘 다를 디코딩하고 이들을 이용하여 최대 해상도 3D 신호를 재구성할 수 있다.

3D 비디오 코딩을 위해, BL 및 EL은 연결 뷰(concatenating views)를 가질 수 있다. BL의 경우, 처음 두 개의 뷰, 예를 들면, 좌측 및 우측 뷰가 연결될 수 있고 그런 다음 연결된 2x 픽쳐가 분해되어 BL을 만들 수 있다. 대안으로, 뷰가 분해된 다음 각 뷰로부터의 저주파 서브 대역이 연결되어 BL을 만들 수 있다. 이러한 접근법에서, 분해 프로세스는 어느 하나의 뷰로부터의 정보를 혼합하지 않는다. EL의 경우, 처음 두 개의 뷰가 연결될 수 있고 그런 다음 연결된 2x 픽쳐가 분해되어 향상 계층을 만들 것이다. 각 뷰는 분해된 다음 하나의 향상 계층 또는 두 개의 향상 계층으로 코딩될 수 있다. 향상 계층이 하나인 실시예에서, 각 뷰의 고주파 서브 대역이 연결되어 기본 계층만큼 큰 EL을 만들 것이다. 계층이 두 개인 실시예에서, 하나의 뷰에 대한 고주파 서브 대역이 먼저 제1 향상 계층으로 코딩되고, 그런 다음 다른 뷰에 대한 고주파 서브 대역이 제2 향상 계층으로 코딩될 것이다. 이러한 접근법에서, EL_1은 이미 코딩된 EL_0를 코딩 예측을 위한 참조로서 이용할 수 있다.

도 12는 사이드 바이 사이드 경우의 스케일러블 비디오 코딩(SVC) 압축(1200)을 이용한 마이그레이션 경로 코딩에 대한 접근법을 도시한다. 이해될 수 있는 바와 같이, 다른 3D 포맷으로의 확장(예컨대, 상부/저부, 체커보드 등)은 간단하다. 따라서, 사이드 바이 사이드 경우에 초점을 맞추어 설명된다. EL(1202)은 두 개의 최대 해상도 뷰(1204)를 연결한 광폭 버전(concatenated double-width version)이며, 반면에 BL(1206)은 일반적으로 EL(1204)을 필터링하고 수평으로 서브 샘플링한 버전이다. 다음에, SVC 공간 스케일러빌리티 도구를 이용하여 BL(1206) 및 EL(1204)을 인코드할 수 있으며, 여기서 BL은 AVC 인코딩된다. 두 개의 최대 해상도 뷰가 디코드된 EL로부터 추출될 수 있다.

마이그레이션 경로 코딩의 다른 가능성은 멀티뷰 비디오 코딩(MVC) 압축을 이용하는 것이다. MVC 접근법에서, 두 개의 최대 해상도 뷰는 전형적으로 필터링하지 않고 샘플링되어 두 개의 패널이 생성된다. 도 13에서, BL 패널(1302)은 최대 해상도(1304)의 좌측 및 우측 뷰 둘 다의 짝수 컬럼(even columns)을 포함한다. EL 패널(1306)은 두 뷰(1304)의 홀수 컬럼(odd columns)을 포함한다. 또한, BL(1302)이 하나의 뷰의 짝수 컬럼과 다른 하나의 뷰의 홀수 컬럼, 또는 그 반대의 경우를 포함하며, 반면에 EL(1306)은 다른 패리티(parity)를 포함하는 것이 가능하다. 다음에, BL 패널(1302) 및 EL 패널(1306)은 MVC를 이용하여 두 개의 뷰로 코딩될 수 있으며, 이 경우 BL이 독립적인 AVC 인코딩된 뷰이고, 반면에 EL이 의존적 뷰로 코딩되도록 GOP 코딩 구조가 선택된다. BL 및 EL 둘 다를 디코드한 후, BL 및 EL 컬럼을 적절히 재인터리빙(re-interleaving)함으로써 두 개의 최대 해상도 뷰가 생성될 수 있다. 전처리 필터링은 전형적으로 코딩 왜곡이 없는 경우 원래의 최대 해상도 뷰가 복구될 수 있도록 BL 및 EL 뷰를 생성할 때 수행되지 않는다.

도 14를 참조하면, 전형적인 비디오 콘텐츠는 특성상 저주파인 경향이 있기 때문에 마이그레이션 경로의 3DTV 코딩시 HVC를 적용하는 것이 가능하다. HVC에 대한 입력이 두 개의 최대 해상도 뷰를 연결한 광폭 버전인 경우, BL(1402)은 최대 해상도 뷰(1406)의 (사이드 바이 사이드 경우) 2대역 수평 분해에서 저주파 대역이고, EL(1404)은 고주파 대역일 수 있다.

일반적인 HVC 접근법의 응용 및 특별한 경우인 인코더(1500)에 의한 3DTV 마이그레이션 경로 코딩에 대한 이와 같은 HVC 접근법이 도 15에 도시되어 있다. 볼 수 있는 바와 같이, 전술한 대부분의 원리는 이러한 3DTV 접근법의 마이그레이션 경로에 포함된다. 입력 비디오 코딩 스트림 x(1502)를 이용한 저주파 인코드 경로는 도 4와 관련하여 기술된 원리 중 일부를 이용하여 도시된다. BL이 AVC에 따르는 것이 바람직하기 때문에, 도 15에서 상부 저주파 채널은 인코드를 위해 AVC 도구를 이용한다. 스트림 x(1502)의 경로는 필터 h₀(1504)를 이용하여 필터링되고 샘플러(1506)에 의해 데시메이트된다. 범위 조정 모듈(1508)은 아래에서 더욱 상세히 기술된 바와 같이 기본 계층의 범위를 제한시킨다. 정보 info_RA는 도시된 인코더, 전술한 바와 같은 다른 인코더 등뿐만 아니라 대응하는 디코더(도 16 참조)에 의해 사용될 수 있다. 다음에, 제한된 입력 신호는 인코더 E_o(1510)로 제공되어 비트스트림 b_o(1512)이 생성된다. 인코더, 디코더 또는 다른 채널로부터의 고대역 및 저대역 신호에 관한 정보를 포함하는 코딩 정보 i₀₁는 성능 향상을 위해 인코더(1526)로 제공된다. 이해되는 바와 같이, 비트스트림 b_o은 재구성 루프를 이용하여 재구성될 수 있다. 재구성 루프는 보완(complementary) 디코더 D₀(1514), 범위 조정 모듈 RA^-1(1516), 샘플러(1518) 및 필터 g₀(1520)를 포함한다.

도 7과 관련하여 기술된 고주파 인코드 경로도 또한 제공된다. 전술한 저주파 채널과 달리, 고주파 채널은 데시메이트되지 않은 보간, ASF, 교차 서브 대역 모드 및 움직임 벡터 예측, 인트라 스킵 모드 등과 같은 추가 코딩 도구를 이용할 수 있다. 고주파 채널은 하나의 뷰가 독립적으로 인코드되고 다른 하나의 뷰가 의존적으로 인코드되는 경우에도 의존적으로 코딩될 수 있다. 도 7과 관련하여 기술된 바와 같이, 고주파 대역은 고주파 입력 스트림 x를 필터링하는 필터 h₁(1522)를 포함하며, 그 고주파 입력 스트림은 이어서 샘플러(1524)에 의해 데시메이트된다. 인코더 E₁(1526)는 필터링되고 데시메이트된 신호를 인코딩하여 비트스트림 b₁(1528)을 형성한다.

저주파 채널과 달리, 고주파 채널은 디코드된 신호를 보간 모듈(1530)로 공급하는 디코더 D₁(1529)를 포함한다. 보간 모듈(1530)은 고주파 채널용으로 제공되어 정보 info₁(1532)를 생성한다. 보간 모듈(1530)은 도 7에 도시된 보간 모듈(726)에 해당하고 샘플러(728, 730), 필터 g₁(734, 738), FE₁ 필터(704), 및 필터 f₁(742)를 포함하여 정보 info₁를 생성한다. 디코드된 저주파 입력 스트림(1521)으로부터의 그리고 보간 모듈(1532)로부터의 출력은 결합기(1534)에 의해 결합되어 재구성된 신호 x'(1536)가 생성된다.

재구성된 신호 x'(1536)는 또한 전술한 버퍼와 유사한 버퍼(1538)에도 제공된다. 버퍼링된 신호는 도 9(b)와 관련하여 기술된 바와 같은 참조 픽쳐 처리 모듈 Q'₁(1540)에 공급될 수 있다. 참조 픽쳐 처리 모듈의 출력은 고주파 인코더 E₁(1526)에 공급된다. 도시된 바와 같이, 저주파 채널을 코딩하는 것을 포함하는 참조 픽쳐 처리 모듈로부터의 정보 i₀₁은 고주파 채널을 코딩할 때 사용될 수 있으며, 반드시는 아니지만 그 반대의 경우도 가능하다.

BL은 3DTV에서 대개 컬러 성분마다 8비트로 제한되기 때문에, 필터 h₀(및 데시메이션)의 출력은 비트 깊이가 8비트로 제한되는 것이 중요하다. 기본 계층의 제한된 동적 범위에 따르는 한가지 방식은 RA 모듈(1508)에 의해 수행되는 어떤 범위 조정(RA) 동작을 이용하는 것이다. RA 모듈(1508)은 입력값을 원하는 비트 깊이로 매핑하도록 의도된다. 일반적으로, RA 프로세스는 입력값의 제한적 양자화(균일 또는 비균일)에 의해 성취될 수 있다. 예를 들면, 한가지 가능한 RA 동작은 다음과 같이 정의될 수 있다.

여기서 라운드(round)()는 가장 가까운 정수로 근사화되고, 클립(clip)()은 값의 범위를 [최소, 최대](예컨대, 8비트의 경우 [0, 255])로 제한하고, 스케일은 0이 아니다. 입력 및 출력값 그룹에 대해 동시에 동작하는 것들을 포함하여 다른 RA 동작도 정의될 수 있다. RA 파라미터 정보는 이러한 파라미터가 일정하지 않거나 어떻게든 디코더에게 알려지지 않은 경우 (info_RA로서) 디코더로 송신되어야 한다. "역(inverse)" RA^-1 모듈(1516)은 그 값들을 다시 원래의 범위로 재조정하지만, 물론 다음과 같은 순방향 RA 동작시 라운딩 및 클리핑으로 인해 약간의 가능한 손실이 존재한다.

BL의 범위 조정은 서브 대역 데이터를 스케일링(scaling)하고 시프팅(shifting)하거나, 또는 더 일반적인 비선형 변환을 이용함으로써 수용가능한 시각 품질을 제공한다. 고정 스케일링에 대한 일 실시예에서, 고정 스케일링은 합성 필터 및 스케일링의 dc 이득이 1이 되도록 설정된다. 적응적 스케일링 및 시프팅에서, 각 뷰의 스케일 및 시프트라는 두 파라미터는 BL에서 그 뷰의 정규화된 히스토그램이 대응하는 원래의 뷰의 정규화된 히스토그램과 동일한 평균 및 분산을 갖도록 선택된다.

도 16에 도시된 대응 디코더(1600)는 또한 단지 광폭의 연결된 최대 해상도 뷰를 재구성할 목적으로만 RA^-1 동작을 수행하는데, 이는 BL이 단지 AVC 디코드되고 출력되는 것으로 가정하기 때문이다. 디코더(1600)는 기본 계층에 대해 디코드된 비디오 신호

를 생성할 수 있는 저주파 채널 디코더 D₀(1602)를 포함한다. 디코드된 신호는 역 범위 조정 모듈 RA^-1(1604)로 공급되며, 이 디코드된 신호는 샘플러(1606)에 의해 리샘플링되고 필터 g₀(1608)에 의해 필터링되어 저주파 재구성된 신호

(1610)가 생성된다. 고주파 경로의 경우, 디코더 D₁(1612)는 신호를 디코딩하고 그런 다음 이 신호는 샘플러(1614)에 의해 리샘플링되고 필터 g'₁(1616)에 의해 필터링된다. 정보 infor_i는 필터(1616)로 제공될 수 있다. 필터(1616)의 출력은 재구성된 신호

(1617)를 생성한다. 재구성된 저주파 및 고주파 신호는 결합기(1618)에 의해 결합되어 재구성된 비디오 신호

(1620)가 생성된다. 재구성된 비디오 신호

(1620)는 다른 인코더 및 디코더에 의해 이용되도록 버퍼(1621)로 공급된다. 버퍼링된 신호는 또한 참조 픽쳐 처리 모듈(1624)에도 제공될 수 있으며, 이 버퍼링된 신호는 고주파 디코더 D₁로 피드백된다.

RA 모듈의 특정 선택은 인지 및/또는 코딩 효율 고려사항 및 상충관계(tradeoffs)에 따라 결정될 수 있다. 코딩 효율 관점에서, 종종 비트 깊이에 의해 지정된 전체 출력 동적 범위를 이용하는 것이 바람직하다. RA에 대한 입력 동적 범위는 일반적으로 각 픽쳐 또는 파티션마다 다르기 때문에, 출력 동적 범위를 최대화하는 파라미터는 픽쳐마다 다를 것이다. 비록 이는 코딩 관점에서 문제가 되지 않을 수 있지만, 관측되기 전에 RA^-1동작이 수행되지 않아, 밝기(brightness) 및 대비(contrast)의 변화를 초래할 수 있기 때문에 BL이 디코드되고 바로 관측될 때 문제를 야기할 수 있다. 이는 개별 채널의 관측이 내부적이지만 의도되지 않는 더 일반적인 HVC와 대조를 이룬다. RA 프로세스와 연관된 정보 유실을 해결하는 대안의 해결책은 기저대역 계층을 원하는 동적 범위로 되게 하는 리프팅 방식을 이용하여 서브 대역 코딩의 정수 구현을 이용하는 것이다.

만일 AVC 인코딩된 BL이 (SEI 메시징을 통하는 것과 같이) 픽쳐 또는 파티션 RA^-1마다 적응적 범위 스케일링을 지원하는 경우, RA 및 RA^-1동작은 인지 품질 및 코딩 효율 둘 다를 최적화하도록 선택될 수 있다. BL에 대한 그러한 디코더 처리 및/또는 입력 동적 범위에 대한 정보가 없는 경우, 한가지 가능성은 어떤 원하는 시각 특성을 유지하는 고정 RA를 선택하는 것이다. 예를 들면, 만일 분석 필터 h₀(1504)가 α가 0이 아닌 DC 이득을 갖는 경우, 모듈(1508)에서 RA의 합리적인 선택은 이득을 1/α그리고 오프셋을 0로 설정하는 것이다.

비록 도 15 및 도 16에는 도시되지 않았지만, EL은 또한 유사한 RA 및 RA ^-1 동작을 거칠수 있다는 것을 주목할 가치가 있다. 그러나, EL 비트깊이는 전형적으로 BL에서 요구하는 것보다 크다. 또한, 도 15 및 도 16에서 h_i 및 g_i에 의해 연결된 광폭 픽쳐의 분석, 합성, 및 참조 픽쳐 필터링은 (SVC 필터링과 대조적으로) 뷰 경계 주위에서 혼합이 일어나지 않도록 수행될 수 있다. 이는, 예를 들면, 다른 픽쳐의 가장자리에서 사용된 것과 유사하게 경계에서 주어진 뷰의 대칭적 패딩 및 확장에 의해 성취될 수 있다.

전술한 바에 비추어, 설명된 HVC 비디오 코딩은 전통적인 픽셀 도메인 비디오 코딩으로부터 많은 이점 및 융통성을 제공하는 프레임워크를 제공한다. HVC 코딩 접근법의 응용은 스케일러블 마이그레이션 경로를 3DTV 코딩에 제공하는데 이용될 수 있다. 그 성능은 SVC 및 MVC와 같은 다른 스케일러블 접근법과 비교하여 약간의 유망한 이익을 제공하는 것으로 보인다. 이것은 저해상도 3DTV BL용의 기존의 AVC 기술을 이용하고, EL 및 최대 해상도 뷰의 코딩 효율을 개선하는 추가 도구를 가능하게 한다.

전술한 장치를 참조하면, 이러한 장치는 입력 비디오 스트림을 인코드하는 방법(1700)을 수행한다. 입력 비디오 스트림은 기술된 비디오 분배 시스템의 헤드엔드에서 수신(1702)되고 입력 비디오 스트림의 적어도 하나의 특징 집합에 따라 일련의 파티션으로 나누어진다(1704). 특징 집합은 비디오 스트림의 콘텐츠, 컨텍스트, 품질 및 코딩 함수의 특징을 포함하여 비디오 스트림의 어떤 형태의 특징일 수 있다. 또한, 입력 비디오 스트림은 각 채널이 동일하거나 다른 특징 집합에 따라 별개로 나누어지도록 비디오 스트림의 여러 채널에 따라 분할될 수 있다. 나눈 후, 입력 비디오 스트림의 파티션은 처리되고 분석되어 파티션의 데시메이션 및 샘플링과 같은 동작에 의해 인코드를 위해 파티션이 분해(1706)된다. 다음에, 분해된 파티션은 인코드(1708)되어 인코딩된 비트스트림이 생성된다. 인코드 프로세스의 일부로서, 코딩 정보는 인코더로 제공될 수 있다. 코딩 정보는 재구성된 비디오 스트림에 기반한 코딩 정보뿐만 아니라 입력 비디오 스트림의 다른 채널로부터의 입력 정보를 포함할 수 있다. 코딩 정보는 또한 특징 집합에 관한 정보뿐만 아니라 비디오 스트림에 관한 제어 및 품질 정보에 관한 정보를 포함할 수 있다. 일 실시예에서, 인코딩된 비트스트림은 재구성된 비디오 스트림으로 재구성(1710)되고 이는 버퍼링되고 저장(1712)될 수 있다. 재구성된 비디오 스트림은 인코더로 피드백(1714)되고 코딩 정보로서 이용될 뿐 아니라 입력 비디오 스트림의 다른 채널용 인코더에 제공(1716)될 수 있다. 전술한 설명으로부터 이해되는 바와 같이, 비디오 스트림을 재구성할 뿐만 아니라 재구성된 비디오 스트림을 코딩 정보로서 제공하는 프로세스는 인코딩된 비트스트림 및 재구성된 비디오 스트림을 분석하고 합성하는 프로세스를 포함할 수 있다.

도 18은 도 17에 도시된 방법의 결과로서 형성된 인코딩된 비트스트림을 디코드하는 방법(1800)을 예시하는 흐름도이다. 인코딩된 비트스트림은 비디오 분배 시스템의 일부인 가입자 유닛(150a-n)에 의해 수신(1802)된다. 비트스트림은 디코더에 수신된 코딩 정보를 이용하여 디코드(1804)된다. 디코드 정보는 비트스트림의 일부로 수신될 수 있거나 또는 이는 디코더에 의해 저장될 수 있다. 또한, 코딩 정보는 비디오 스트림의 다른 채널로부터 수신될 수 있다. 다음에, 디코드된 비트스트림은 일련의 파티션들로 합성(1806)된 다음 결합(1808)되어 도 17과 관련하여 기술된 입력 비디오 스트림에 대응하는 재구성된 비디오 스트림이 생성된다.

또 다른 구현예는 입력 비디오를 효율적으로 표현될 수 있고 비디오 인지에 더 잘 매칭될 수 있는 특징으로 분해하는 것을 이용한다. 비록 가장 적절한 분해는 비디오의 특성에 의존할 수 있지만, 이러한 기여는 전형적인 자연(natural) 비디오를 포함하는 광범위한 콘텐츠를 분해하는데 초점을 맞춘다. 도 19는 분석 필터링을 통해 입력 x를 두 개의 계층으로 분해하는 것을 예시한다. 이 예에서, 필터링을 통해 x를 여러 공간 주파수 대역으로 분리한다. 비록 입력 x는 픽쳐의 일부 또는 픽쳐 전체에 대응할 수 있지만, 이 기여에서는 픽쳐 전체에 초점을 맞춘다. 전형적인 비디오의 경우, 대부분의 에너지는 고주파 계층(11)에 비해 저주파 계층(10)에 집중될 수 있다. 또한, l_o는 국부적인 세기 특징(local intensity feature)을 캡쳐하는 경향이 있는 반면 l₁은 가장자리(edges)와 같은 변화 상세 정보(variation detail)를 캡쳐한다.

각 계층 l_i은 다음에 E_i로 인코드되어 비트스트림 b_i가 생성될 수 있다. 공간 스케일러빌리티(spatial scalability)를 위해, 분석 프로세스는 b0가 적절한 기본 계층 비트스트림에 대응할 수 있도록 필터링한 다음에 서브 샘플링하는 것을 포함할 수 있다. 향상(enhancement) 비트스트림으로서, E0에서 E1로의 방향의 화살표로 표시된 바와 같이 기본 계층 l0로부터의 정보를 이용하여 b1이 생성될 수 있다. E0 및 E1의 조합은 전체 스케일러블 인코더 Es라고 지칭된다.

스케일러블 디코더 Ds는 기본 계층 디코더 D0 및 향상 계층 디코더 D1으로 구성될 수 있다. 기본 계층 비트스트림 b0는 D0에 의해 디코드되어 계층 1'0가 재구성될 수 있다. 향상 계층 비트스트림 b1은 b0로부터의 가능한 정보와 함께 D1에 의해 디코드되어 계층 1'1이 재구성될 수 있다. 다음에, 두 개의 디코드된 계층 d'0 및 d'1은 합성 동작을 이용하여 x'를 재구성하는데 사용될 수 있다.

공간 스케일러빌리티를 위해 제안된 실시예를 예시하기 위하여, 픽쳐 레벨에서의 2 대역 분해에서 임계 샘플링이 이용되었다. 수평 및 수직 방향 모두 2의 인수로 서브 샘플링되어, 4계층 스케일러블 시스템을 얻는다. 인코더 Ei 및 디코더 Di에 대해 HM 2.0을 이용하여 시뮬레이션이 수행되었다. 비록 계층들 간의 상관을 이용함으로써 코딩 효율을 개선하는 것이 가능하지만, 이러한 시뮬레이션은 어떠한 계층간 예측도 이용하지 않는다.

제안된 구현의 성능은 단일 계층 및 동시 송출(simulcast) 경우와 비교되었다. 단일 계층의 경우, x는 HM 2.0을 이용하여 직접 인코딩된다. 동시 송출의 경우, 비트레이트는 x를 직접 인코드하기 위한 비트와 I₀를 직접 인코드하기 위한 비트를 함께 더함으로써 결정되고, 반면에 PSNR은 x를 직접 인코드한 것에 대응한다. 제안된 구현예에서, 비트레이트는 모든 계층의 비트에 대응하고, PSNR은 x'에 대한 것이다.

효율적인 표현: 임계적으로 샘플링된 계층을 이용하여, 이 예에서 인코더 E_i는 입력 x와 동일한 총 픽셀 수에 대해 동작한다. 이는 공간 스케일러빌리티를 위해 인코드될 총 픽셀 수가 증가되고 메모리 요건 또한 증가되는 SVC와 대조된다.

일반적인 공간 스케일러빌리티: 이 구현예는 다른 공간 스케일러빌리티 인수, 예를 들면, 1:n으로 확장될 수 있다. 계층들은 동일한 크기를 가질 수 있기 때문에, 계층들 간에 공동 배치된(collocated) 정보(예컨대, 픽셀, CU/PU/TU, 움직임 벡터, 코딩 모드 등)에 간단한 상응관계(correspondence)가 있을 수 있다. 이는 계층들의 크기(및 아마도 형상)가 동일하지 않고, 계층들 간에 공동 배치된 정보의 상응관계가 간단하지 않을 수 있는 SVC와 대조된다.

선명도(Sharpness) 향상: 본 명세서에서의 구현예는 추가 계층이 가장자리와 같은 특징에 더 많은 상세 정보를 제공하기 때문에 선명도 향상을 성취하는데 사용될 수 있다. 이러한 형태의 선명도 향상은 양자화량의 변화로만 품질을 개선하는 다른 품질의 스케일러블 구현과 대조를 이룬다.

독립적 계층 코딩: 공간 스케일러빌리티에 대한 시뮬레이션 결과는 여전히 양호한 코딩 효율 성능을 유지하면서 독립적 계층 코딩을 수행하는 것이 가능하다는 것을 보여준다. 이로써 계층들을 동시에 처리할 수 있는 병렬의 계층 처리가 가능하다. SVC를 이용한 2계층 공간 스케일러빌티의 경우, (계층간 예측이 아닌) 독립적 계층 코딩은 동시 송출 경우에 해당할 것이다. 독립적 계층 코딩을 이용하면, 한 계층의 오류는 다른 계층에 영향을 미치지 않는다는 점에 주목하자. 추가적으로, 다른 인코더 E_i를 이용하여 각 l_i를 인코드함으로써 해당 계층의 특성을 더 잘 매칭시킬 수 있다.

의존적 계층 코딩: 본 명세서에서 개시된 구현예에서, 의존적 계층 코딩은 코딩 효율을 개선할 수 있다. 계층들이 동일한 크기를 가질 경우, 계층들 간에 공동 배치된 정보를 공유하는 것은 간단하다. 또한, 계층들을 의존적으로 또는 독립적으로 적응적으로 인코딩하여 코딩 효율 성능과 오류 강인성(resiliency) 성능 사이의 균형을 유지하는 것도 가능하다.

전술한 명세서에서, 본 발명의 특정 실시예가 기술되었다. 그러나, 당업자는 아래의 특허청구범위에 기술된 바와 같은 본 발명의 범주를 벗어남이 없이 다양한 수정 및 변경이 이루어질 수 있음을 인식한다. 따라서, 명세서 및 도면은 제한적인 의미라기보다 예시적으로 간주되어야 하며, 그러한 모든 수정은 본 발명의 범주 내에 속하는 것으로 의도된다. 임의의 이익, 이점, 또는 해결책의 발생을 유발할 수 있거나 또는 더 두드러질 수 있는 이익, 이점, 문제 해결책, 및 임의의 요소(들)는 임의의 또는 모든 청구항의 중요하고, 필요하고, 또는 필수적인 특징 또는 요소로 해석되지 않아야 한다. 본 발명은 본 출원의 계류 중에 이루어진 모든 보정사항과 등록된 청구항의 모든 등가물을 포함하여 오직 첨부의 청구항에 의해서만 정의된다.

Claims

입력 비디오 스트림을 비디오 스트림의 복수의 파티션의 각각에 대해 파티션들로 분할하는 분배기;
상기 분배기에 결합되어 상기 파티션들을 분해(decompose)하는 채널 분석기; 및
상기 채널 분석기에 결합되어 각 분해된 파티션을 인코딩된 비트스트림으로 인코딩하여 복수의 인코딩된 비트스트림을 생성하는 인코더
를 포함하며,
상기 인코더는 상기 분해된 파티션들 중 적어도 하나로부터의 코딩 정보를 이용하여 상기 분해된 파티션들을 상기 복수의 인코딩된 비트스트림들로 인코드하는 데 사용되게 하며,
상기 분해된 파티션들의 각각은 크기가 동일한 장치.
제1항에 있어서, 상기 인코딩된 비트스트림을 디코딩하고 상기 디코드된 비트스트림들을 재구성된 비디오 스트림으로 재결합하는 재구성 루프를 더 포함하는 장치.
제2항에 있어서, 상기 재구성된 비디오 스트림을 저장하는 버퍼를 더 포함하는 장치.
제1항에 있어서, 상기 재구성된 비디오 스트림 및 코딩 정보 중 적어도 하나는 상기 인코더의 코딩 정보로서 사용되는 장치.
제1항에 있어서, 상기 분배기는 복수의 특징 집합(feature sets) 중 적어도 하나를 이용하여 상기 파티션들을 형성하는 장치.
제1항에 있어서, 상기 코딩 정보는 비디오 스트림의 코딩 정보 및 참조 픽쳐(reference picture) 정보 중 적어도 하나인 장치.
제6항에 있어서, 상기 참조 픽쳐 정보는 상기 비트스트림들로부터 생성된 재구성된 비디오 스트림으로부터 결정되는 장치.
인코딩된 비디오 스트림을 수신하는 디코더 - 상기 디코더는 상기 인코딩된 비트스트림의 채널들에 관한 수신된 코딩 정보에 따라 상기 비트스트림의 모두 또는 일부를 디코드함 -;
상기 디코더에 결합되어 상기 디코드된 비트스트림을 비디오 스트림의 하나 이상의 파티션으로 합성하는 채널 합성기; 및
상기 채널 합성기에 결합되어 상기 디코드된 비트스트림들의 모두 또는 일부로부터 재구성된 비디오 스트림을 생성하는 결합기
를 포함하는 장치.
제8항에 있어서, 상기 코딩 정보는 상기 재구성된 비디오 스트림 및 상기 재구성된 비디오 스트림의 코딩 정보 중 적어도 하나를 포함하는 장치.
제8항에 있어서, 상기 결합기에 결합되어 상기 재구성된 비디오 스트림을 저장하는 버퍼를 더 포함하는 장치.
제10항에 있어서, 상기 버퍼와 디코더 사이에 결합되어 상기 재구성된 비디오 스트림의 적어도 일부를 코딩 정보로서 상기 디코더에 피드백하는 필터를 더 포함하는 장치.
제8항에 있어서, 상기 파티션들은 상기 재구성된 비디오 스트림에 대응하는 입력 비디오 스트림의 복수의 특징 집합 중 적어도 하나에 기반하여 결정되는 장치.
입력 비디오 스트림을 수신하는 단계;
상기 입력 비디오 스트림을 복수의 파티션들로 분할하는 단계;
상기 복수의 파티션들을 분해하는 단계; 및
상기 분해된 파티션들을 인코딩된 비트스트림으로 인코드하는 단계 - 상기 인코드하는 단계는 상기 입력 비디오 스트림의 채널들로부터의 코딩 정보를 이용함 -
를 포함하고,
상기 분해된 파티션들의 각각은 크기가 동일한 방법.
제13항에 있어서, 상기 인코드하는 단계는 상기 인코딩된 비트스트림들로부터 도출된 재구성된 비디오 스트림을, 상기 파티션들을 상기 비트스트림으로 인코드하는데 사용되는 입력으로서 수신하는 단계를 더 포함하는 방법.
제13항에 있어서, 상기 인코딩된 비트스트림으로부터 재구성된 재구성 비디오 스트림을 상기 입력 비디오 스트림의 다른 채널에 대한 코딩 정보로서 사용되도록 버퍼링하는 단계를 더 포함하는 방법.
제13항에 있어서, 상기 코딩 정보는 비디오 스트림의 코딩 정보 및 참조 픽쳐 정보 중 적어도 하나인 방법.
적어도 하나의 인코딩된 비트스트림을 수신하는 단계;
상기 수신된 비트스트림의 모두 또는 일부를 디코드하는 단계 - 상기 디코드하는 단계는 입력 비디오 스트림의 채널들로부터의 코딩 정보를 이용함 -;
상기 디코드된 비트스트림을 상기 입력 비디오 스트림의 하나 이상의 파티션들로 합성하는 단계; 및
상기 파티션들의 하나 이상을 재구성된 비디오 스트림으로 결합하는 단계
를 포함하는 방법.
제17항에 있어서, 상기 코딩 정보는 상기 입력 비디오 스트림의 코딩 정보 및 참조 픽쳐 정보 중 적어도 하나인 방법.
제17항에 있어서, 상기 재구성된 비디오 스트림을 상기 비트스트림들을 디코드하기 위한 입력으로서 이용하는 단계를 더 포함하는 방법.
제19항에 있어서, 상기 비트스트림을 디코딩하기 위해 상기 재구성된 비디오 스트림을 합성하는 단계를 더 포함하는 방법.