KR20170078874A

KR20170078874A - 하나 이상의 코딩 유닛의 인코딩 및 디코딩하기 위한 방법, 장치 및 컴퓨터 판독가능한 저장 매체

Info

Publication number: KR20170078874A
Application number: KR1020177017825A
Authority: KR
Inventors: 크리스토퍼 제임스 로즈원
Original assignee: 캐논 가부시끼가이샤
Priority date: 2012-01-20
Filing date: 2013-01-18
Publication date: 2017-07-07
Also published as: KR20180077325A; BR112014012893A2; CN108810540B; US9736495B2; US11405641B2; CN108810539B; EP3737095A1; KR20180124159A; BR122020002110B1; CN108989809A; KR101920607B1; EP3288264A1; HUE060413T2; EP3288264B1; US20140355679A1; RU2577471C1; CN108810541B; BR112014012893B1; HUE060412T2; CN104067624A

Abstract

비디오 데이터의 비트스트림으로부터 복수의 코딩 유닛을 디코딩하는 방법이 개시된다. 이 방법은, 비트스트림의 제1 데이터 블록으로부터 복수의 코딩 유닛의 코딩 유닛 구조를 결정한다. 코딩 유닛 구조는 복수의 코딩 유닛으로의 코딩 유닛의 분할을 기술한다. 이 방법은, 결정된 코딩 유닛 구조에 따라, 비트스트림의 제2 데이터 블록으로부터 복수의 코딩 유닛에 대한 바이패스 인코딩된 데이터를 디코딩한다. 이 방법은, 결정된 코딩 유닛 구조에 따라, 비트스트림의 제3 데이터 블록으로부터 복수의 코딩 유닛에 대한 잔차 데이터를 디코딩한다. 그 다음, 이 방법은, 잔차 데이터와 바이패스 인코딩된 데이터를 이용하여 비트스트림으로부터 복수의 코딩 유닛을 형성한다. 인코딩 방법도 개시된다.

Description

하나 이상의 코딩 유닛의 인코딩 및 디코딩하기 위한 방법, 장치 및 컴퓨터 판독가능한 저장 매체{METHOD, APPARATUS AND COMPUTER READABLE STORAGE MEDIUM FOR ENCODING AND DECODING AT LEAST ONE CODING UNIT}

본 발명은 대체로 디지털 비디오 신호 처리에 관한 것으로, 특히, 변환 유닛(TU)의 잔차 계수(residual coefficient)를 인코딩 및 디코딩하기 위한 방법, 장치 및 시스템에 관한 것으로, 변환 유닛(TU)은 정사각형 또는 비-정사각형을 가질 수 있다.

비디오 데이터의 전송과 저장을 위한 애플리케이션을 포함한, 비디오 코딩을 위한 많은 애플리케이션이 현재 존재하고 있다. 많은 비디오 코딩 표준도 역시 개발되었고 다른 것들도 현재 개발중에 있다. 비디오 코딩 표준화에서의 현재의 발전은 비디오 코딩에 관한 공동 협력팀(JCT-VC; Joint Collaborative Team on Video Coding)이라 불리는 그룹을 형성하였다. 비디오 코딩에 관한 공동 협력팀(JCT-VC)은, 비디오 코딩 전문가 그룹(VCEG; Video Coding Experts Group)이라 알려진, 국제 통신 연맹(ITU; International Telecommunication Union)의 통신 표준화 섹터(ITU-T)의 스터디 그룹 16, 퀘스쳔 6 (SG16/Q6)의 멤버들과, 동영상 전문가 그룹(MPEG; Moving Picture Experts Group)이라고도 알려진, 국제 표준화 기구/국제 전자기술 위임 공통 기술 위원회 1/부위원회 29/실무 그룹 11(ISO/IEC JTC1/SC29/WG11)의 멤버들을 포함한다.

비디오 코딩에 관한 공동 협력팀(JCT-VC)은 "H.264/MPEG-4 AVC"라 알려진 현존하는 비디오 코딩 표준을 상당히 능가하는 새로운 비디오 코딩 표준을 생성하는 목표를 가진다. H.264/MPEG-4 AVC 자체는, MPEG-4 및 ITU-T H.263 등의, 이전의 비디오 코딩 표준에 관한 상당한 향상이다. 개발중인 새로운 비디오 코딩 표준은 "고효율 비디오 코딩(HEVC; high efficiency video coding)"이라 명명되었다. 비디오 코딩에 관한 공동 협력팀(JCT-VC)은 또한, 표준의 구현을 고해상도 또는 높은 프레임 레이트에서 동작하도록 스케일링할 때 어려움을 야기하는 고효율 비디오 코딩(HEVC)을 위해 제안된 기술로부터 발생하는 구현 해결과제도 역시 고려하고 있다.

높은 압축 효율의 달성에 대해 어려움을 보이고 있는 H.264/MPEG-4 AVC 비디오 코딩 표준의 한 영역은 비디오 데이터를 나타내는데 이용되는 잔차 계수의 코딩이다. 비디오 데이터는 프레임들의 시퀀스에 의해 형성되고, 각 프레임은 샘플들의 2차원 배열을 갖는다. 통상적으로, 프레임은 하나의 휘도(luminance)와 2개의 색도(chrominance) 채널을 포함한다. 각 프레임은 하나 이상의 슬라이스들로 분해된다. 각 슬라이스는 하나 이상의 최대 코딩 유닛(LCU; largest coding unit)을 포함한다. 최대 코딩 유닛(LCU)은 고정된 크기를 가지며, 엣지 치수가 2의 거듭제곱이고, 64 루마 샘플(luma sample) 등의, 동일한 폭과 높이를 가진다. 개발중인 고효율 비디오 코딩(HEVC) 표준의 한 특징은 "미세 입도 슬라이스(fine granularity slice)"이다. 미세 입도 슬라이스 특징이 인에이블되면, 슬라이스 경계는 최대 코딩 유닛(LCU) 경계로 제한되지 않는다. 미세 입도 슬라이스는 비트스트림 레벨에서 인에이블될 수도 있다.

코딩 트리는, 각각의 최대 코딩 유닛(LCU)의 4개의 동등한-크기의 영역들로의 세분을 가능케하고, 각 영역은 부모 최대 코딩 유닛(LCU)의 절반의 폭과 높이를 가진다. 영역들 각각은 4개의 동등한-크기의 영역들로 더 세분될 수도 있다. 영역이 더 세분되지 않는 경우, 영역의 전체를 점유하는 코딩 유닛이 존재한다. 이러한 세분 프로세스는, 영역의 크기가 최소 코딩 유닛(SCU; smallest coding unit) 크기에 도달하고 최소 코딩 유닛(SCU)의 코딩 유닛(CU) 크기가 추론될 때까지 재귀적으로 적용될 수 있다. 코딩 유닛들의 계층구조로의 최대 코딩 유닛의 재귀적 세분은 쿼드트리(quadtree) 구조를 가지며 코딩 트리라고 한다. 코딩 유닛(CU)들 또는 영역들은, 세분 계층구조내 레벨의 관점에서 코딩 트리 내의 그들의 위치를 말하는, 그들의 '깊이'라 알려진 속성을 가진다. 이러한 세분 프로세스는 비트스트림 내에 산술적으로 코딩된 플래그들의 시퀀스로서 인코딩된다. 미세 입도 슬라이스가 인에이블되면, 슬라이스 경계가 존재할 수 있는 코딩 유닛의 최소 크기를 결정하는 임계치가 명시된다.

코딩 트리에는, 더 이상 세분되지 않는 한 세트의 코딩 유닛들이 존재하고, 이들 코딩 유닛들은 코딩 트리의 리프 노드(leaf node)들을 점유한다. 변환 트리는 이들 코딩 유닛들에 존재한다. 변환 트리는 코딩 트리에 이용될 때 쿼드트리 구조를 이용하여 코딩 유닛을 더 분해할 수 있다. 변환 트리의 리프 노드들에서, 잔차 데이터는 변환 유닛(TU)을 이용하여 인코딩된다. 코딩 트리와는 대조적으로, 변환 트리는 코딩 유닛들을 비-정사각형을 갖는 변환 유닛들로 세분할 수 있다. 또한, 변환 트리 구조는 변환 유닛(TU)들이 부모 코딩 유닛에 의해 제공되는 면역 모두를 점유할 것을 요구하지 않는다.

코딩 트리의 리프 노드에 있는 각 코딩 유닛은, 각각 예측 유닛(PU; prediction unit)이라 알려진, 예측된 데이터 샘플들의 하나 이상의 배열로 세분된다. 각 예측 유닛(PU)은, 인트라-예측 프로세스(intra-prediction process) 또는 인터-예측 프로세스(inter-prediction process)를 적용함으로써 유도되는, 입력 프레임 데이터의 일부의 예측을 포함한다. 코딩 유닛(CU) 내의 예측 유닛(PU)들을 코딩하기 위해 수 개의 방법들이 이용될 수 있다. 단일 예측 유닛(PU)은 코딩 유닛(CU)의 전체 면적을 점유하거나, 코딩 유닛(CU)은, 수평으로 또는 수직으로, 2개의 동등한-크기의 직사각형 예측 유닛(PU)으로 분할될 수도 있다. 추가적으로, 코딩 유닛은 4개의 동등한-크기의 정사각형 예측 유닛(PU)으로 분할될 수 있다.

비디오 인코더는, 비디오 데이터를 신택스 요소들의 시퀀스로 변환함으로써 비디오 데이터를 비트스트림으로 압축한다. MPEG4-AVC/H.264 비디오 압축 표준에서 정의된 것과 똑같은 산술 코딩 방식을 이용하여, 개발중인 고효율 비디오 코딩(HEVC) 표준 내에서 컨텍스트 적응성 2진 산술 코딩(CABAC; context adaptive binary arithmetic coding) 방식이 정의된다. 개발 중인 고효율 비디오 코딩(HEVC) 표준에서, 컨텍스트 적응성 2진 산술 코딩(CABAC)이 이용될 때, 각각의 신택스 요소는 빈들의 시퀀스(sequence of bins)로서 표현되고, 여기서, 빈들은 한 세트의 가용 빈들로부터 선택된다. 가용 빈들의 세트는 컨텍스트 모델로부터 얻어지고, 하나의 컨텍스트는 빈마다 존재한다. 각 컨텍스트는, 산술 인코딩 또는 산술 디코딩 동작에 대한 예상 빈 값(likely bin value)('valMPS') 및 확률 상태를 보유한다. 빈들은 바이패스 코딩될 수도 있고, 여기서, 컨텍스트와의 어떠한 연관도 없다는 점에 유의한다. 바이패스 코딩된 빈들은 비트스트림 내의 한 비트를 소비하므로, 1값 또는 0값과 동등한 확률을 갖는 빈들에 적합하다. 신택스 요소로부터 이러한 빈들의 시퀀스를 생성하는 것은 신택스 요소의 "2진화(binarising)"라 알려져 있다.

비디오 인코더 또는 비디오 디코더에서, 각 빈에 대해 별개의 컨텍스트 정보가 이용가능하므로, 빈에 대한 컨텍스트 선택은 코딩 효율을 개선시키는 수단을 제공한다. 특히, 코딩 효율은 특정한 빈을 선택하되, 연관된 컨텍스트 정보가 이용되었던 빈의 이전 인스턴스들로부터의 통계적 속성이 빈의 현재 인스턴스의 통계적 속성과 상관되도록 선택함으로써 개선될 수 있다. 이러한 컨텍스트 선택은 종종, 최적의 컨텍스트를 결정하기 위해 공간적으로 국지적인 정보를 이용한다.

개발중인 고효율 비디오 코딩(HEVC) 표준에서 및 H.264/MPEG-4 AVC에서, 현재의 블록에 대한 예측은, 다른 프레임들로부터, 또는 이전에 디코딩되었던 현재 블록 내의 이웃 영역들로부터의 기준 샘플 데이터에 기초하여 유도된다. 예측과 원하는 샘플 데이터 사이의 차이가 잔차(residual)라고 알려져 있다. 잔차의 주파수 영역 표현은 잔차 계수의 2차원 배열이다. 관례상, 2차원 배열의 좌상귀는 저주파 정보를 나타내는 잔차 계수를 포함한다.

개발중인 고효율 비디오 코딩(HEVC) 표준의 처리량의 한 양태는 비디오 데이터를 높은 비트-레이트에서 인코딩 또는 디코딩하는 능력에 관한 것이다. 개발중인 고효율 비디오 코딩(HEVC) 표준에서 채용되는 컨텍스트 적응성 2진 산술 코딩(CABAC) 방식은 '바이패스 코딩"이라 불리는 '동등 확률' 동작 모드를 지원한다. 이 모드에서, 빈은 컨텍스트 모델로부터의 소정 컨텍스트와 연관되지 않으므로, 컨텍스트 모델 업데이트 단계는 없다. 이 모드에서, 각각의 빈이 처리량을 증가시키는 바이패스 코딩된다고 가정하면, 비트스트림으로부터 복수의 인접한 비트들을 병렬로 판독할 수 있다. 예를 들어, 하드웨어 구현은, 비트스트림의 인코딩/디코딩의 처리량을 증가시키기 위해 인접한 바이패스 코딩된 데이터의 그룹들을 병렬로 기입/판독할 수 있다.

본 발명의 목적은 기존 구조의 하나 이상의 단점을 상당히 극복하거나, 적어도 완화하는 것이다.

본 개시의 한 양태에 따르면, 비디오 데이터의 비트스트림으로부터 복수의 코딩 유닛을 디코딩하는 방법이 제공되며, 이 방법은:

비트스트림의 제1 데이터 블록으로부터 복수의 코딩 유닛의 코딩 유닛 구조 ―코딩 유닛 구조는 복수의 코딩 유닛으로의 코딩 유닛의 분할을 기술함― 를 결정하는 단계;

결정된 코딩 유닛 구조에 따라, 비트스트림의 제2 데이터 블록으로부터 복수의 코딩 유닛에 대한 바이패스 인코딩된 데이터를 디코딩하는 단계;

결정된 코딩 유닛 구조에 따라, 비트스트림의 제3 데이터 블록으로부터 복수의 코딩 유닛에 대한 잔차 데이터를 디코딩하는 단계; 및 잔차 데이터와 바이패스 인코딩된 데이터를 이용하여 비트스트림으로부터 복수의 코딩 유닛을 형성하는 단계를 포함한다.

바람직하게도 이 방법은 결정된 코딩 유닛 구조에 따라 제2 데이터 블록의 크기를 결정하는 단계를 더 포함한다.

바람직하게는, 이 방법은, 분할 플래그값을 결정하되, 현재의 코딩 유닛이 비트스트림으로부터 분할값 플래그가 디코딩되는 더 작은 코딩 유닛보다 크고 현재의 코딩 유닛이 최소 코딩 유닛과 동등한 크기인 경우, 분할값 플래그가 제로인 것으로 유추되도록 결정하는 단계를 더 포함한다. 이 구현은 코딩 유닛 구조가 리프 노드인지를 결정하기 위해 상기 결정된 분할 플래그값을 이용하는 단계를 더 포함한다.

또 다른 구현에서, 비트스트림은 각각의 최대 코딩 유닛의 시작부에서 미세 입도 슬라이스 인에이블 플래그(fine granularity slice enable flag)를 인코딩하되, 미세 입도 슬라이스들이 최대 코딩 유닛에 대해 인에이블되지 않을 때에는, 이 방법이 그 최대 코딩 유닛(LCU)에 적용되고, 미세 입도 슬라이스들이 최대 코딩 유닛에 대해 인에이블될 때에는, 이 방법이 미세 입도 슬라이스 임계치와 크기가 동일한 각각의 세분된 코딩 유닛에 적용되도록 인코딩한다.

바람직하게는, 복수의 코딩 유닛들 중의 코딩 유닛의 잔여 모드가 가변 길이 코드를 이용하여 코딩되고, 상기 방법은 코딩 유닛과 연관된 최고 확률 모드 플래그 값 및 예측 유닛 크기에 기초하여 최소 길이를 계산하는 단계를 더 포함한다.

바람직하게는, 복수의 코딩 유닛들의 잔여 모드들이 가변 길이 코드를 이용하여 코딩되고, 상기 방법은 복수의 코딩 유닛과 연관된 코딩 유닛 구조, 최고 확률 모드 플래그 값, 및 예측 유닛 크기에 기초하여 최소 길이를 계산하는 단계를 더 포함한다.

유리하게는, 바이패스 코딩된 데이터가 미지의 길이일 때, 이 방법은, 적어도 일부의 바이패스 코딩된 데이터를 포함하는 데이터의 세그먼트를 결정하기 위해 비트스트림에 액세스하는 단계, 데이터의 상기 세그먼트로부터 최고 확률 모드 인덱스와 잔여 모드를 디코딩하는 단계, 및 디코딩된 데이터의 누계 길이를 설정하되, 모든 바이패스 인코딩된 데이터가 데이터의 상기 세그먼트로부터 디코딩될 때 누계 길이가 비트스트림으로부터 소비되도록 설정하는 단계를 더 포함한다.

본 개시의 또 다른 양태에 따르면, 복수의 코딩 유닛을 비디오 데이터의 비트스트림으로 인코딩하는 방법이 제공되며, 이 방법은:

비트스트림의 제1 데이터 블록을 형성하도록 복수의 코딩 유닛의 코딩 유닛 구조 ―코딩 유닛 구조는 복수의 코딩 유닛으로의 코딩 유닛의 분할을 기술함― 를 인코딩하는 단계;

코딩 유닛 구조에 따라, 비트스트림의 제2 데이터 블록을 형성하도록 복수의 코딩 유닛에 대한 바이패스 인코딩된 데이터를 인코딩하는 단계;

코딩 유닛 구조에 따라, 비트스트림의 제3 데이터 블록을 형성하도록 복수의 코딩 유닛에 대한 잔차 데이터를 인코딩하는 단계; 및

복수의 코딩 유닛을 비디오 데이터의 비트스트림으로 인코딩하기 위해 제1, 제2, 및 제3 데이터 블록을 저장하는 단계를 포함한다.

바람직하게는, 이 방법은 코딩 유닛 구조를 인코딩하기 위해 제1 데이터 블록에 분할 플래그를 저장하는 단계를 더 포함한다.

바람직하게는 이 방법은 제1 블록을 산술적으로 인코딩하는 단계를 더 포함한다.

유리하게는 이 방법은 제2 블록을 바이패스 인코딩하는 단계를 더 포함한다.

또 다른 양태에 따르면, 비디오 데이터의 비트스트림으로부터 하나 이상의 코딩 유닛을 디코딩하는 방법이 제공되며, 이 방법은:

비트스트림으로부터 하나 이상의 코딩 유닛의 코딩 유닛 구조 ―코딩 유닛 구조는 하나 이상의 코딩 유닛으로의 코딩 유닛의 분할과 복수의 예측 유닛으로의 하나 이상의 코딩 유닛의 분할을 기술함― 를 결정하는 단계;

결정된 코딩 유닛 구조에 따라, 비트스트림 내의 인접하게 코딩된 데이터의 제1 블록으로부터 하나 이상의 코딩 유닛 내의 복수의 예측 유닛들 각각에 대한 산술적으로 인코딩된 최고 확률 모드 플래그를 디코딩하는 단계;

결정된 코딩 유닛 구조에 따라, 비트스트림 내의 인접하게 코딩된 데이터의 제2 데이터 블록으로부터 하나 이상의 코딩 유닛 내의 복수의 예측 유닛들 각각에 대한 바이패스 인코딩된 데이터를 디코딩하는 단계;

최고 확률 모드 플래그와 바이패스 인코딩된 데이터 각각에 따라 복수의 예측 유닛들 각각에 대한 인트라-예측 모드를 결정하는 단계; 및

결정된 인트라-예측 모드를 이용하여 비트스트림으로부터 하나 이상의 코딩 유닛을 디코딩하는 단계를 포함한다.

바람직하게는 바이패스 코딩된 데이터는 최고 확률 모드 인덱스를 포함한다. 바이패스 코딩된 데이터는 대안으로서 또는 추가적으로 잔여 모드값을 포함한다.

다른 양태들도 역시 개시된다.

본 발명의 하나 이상의 실시예들이 이제 첨부된 도면들을 참조하여 설명될 것이다:
도 1은 비디오 인코더의 기능 모듈들을 도시하는 개략적 블록도이다;
도 2는 비디오 디코더의 기능 모듈들을 도시하는 개략적 블록도이다;
도 3a 및 도 3b는, 각각 도 1 및 도 2의 인코더 및 디코더가 실시될 수 있는 범용 컴퓨터 시스템의 개략적 블록도를 형성한다;
도 4는 엔트로피 인코더의 기능 모듈들을 도시하는 개략적 블록도이다;
도 5는 엔트로피 디코더의 기능 모듈들을 도시하는 개략적 블록도이다;
도 6은 예시적인 최대 코딩 유닛(LCU)을 도시하는 개략적 블록도이다;
도 7은 예시적인 최대 코딩 유닛(LCU)을 나타내는 종래의 비트스트림을 도시하는 개략적 블록도이다;
도 8은 예시적인 최대 코딩 유닛(LCU)을 나타내는 본 개시에 따른 비트스트림을 도시하는 개략적 블록도이다;
도 9는 도 8과 유사한 비트스트림의 최대 코딩 유닛(LCU)의 신택스 요소를 디코딩하기 위한 본 개시에 따른 방법을 도시하는 개략적 흐름도이다;
도 10은 비트스트림의 최대 코딩 유닛(LCU)의 신택스 요소를 디코딩하기 위한 본 개시에 따른 요약된 방법을 도시하는 개략적 흐름도이다;
도 11은 최대 코딩 유닛(LCU)의 신택스 요소를 인코딩하기 위한 본 개시에 따른 방법을 도시하는 개략적 흐름도이다;
도 12는 비트스트림의 최대 코딩 유닛(LCU)의 신택스 요소를 인코딩하기 위한 본 개시에 따른 요약된 방법을 도시하는 개략적 흐름도이다;
도 13은 파싱하기 위한 본 개시에 따른 대안적 방법에 의해 생성된 예시적인 최대 코딩 유닛(LCU)을 나타내는 비트스트림을 도시하는 개략적 블록도이다;
도 14는 최대 코딩 유닛(LCU)의 신택스 요소를 디코딩하기 위한 본 개시에 따른 대안적 방법을 도시하는 개략적 흐름도이다;
도 15는 최대 코딩 유닛(LCU) 내의 슬라이스 경계를 갖는 예시적인 최대 코딩 유닛(LCU)을 도시하는 개략적 블록도이다;
도 16은 미세 입도 슬라이스(FGS; fine granularity slice)가 인에이블된 파싱하기 위한 방법에 의해 생성된 예시적인 최대 코딩 유닛(LCU)을 나타내는 비트스트림을 도시하는 개략적 블록도이다;
도 17은 최대 코딩 유닛(LCU)의 신택스 요소를 디코딩하기 위한 본 개시에 따른 추가의 대안적 방법을 도시하는 개략적 흐름도이다.

첨부된 도면들 중 임의의 하나 이상에서 동일한 참조 번호를 갖는 단계들 및/또는 피쳐들에 대한 참조가 이루어지는 경우, 이들 단계들 및/또는 피쳐들은, 본 설명의 목적을 위해, 반대되는 의도가 나타나지 않는 한, 동일한 기능(들) 또는 동작(들)을 갖는다.

도 1은 비디오 인코더(100)의 기능 모듈들을 도시하는 개략적 블록도이다. 도 2는 대응하는 비디오 디코더(200)의 기능 모듈들을 도시하는 개략적 블록도이다. 비디오 인코더(100) 및 비디오 디코더(200)는, 컴퓨터 시스템(300) 내의 전용 하드웨어에 의해, 컴퓨터 시스템(300) 내에서 실행가능한 소프트웨어에 의해, 또는 대안으로서 컴퓨터 시스템(300) 내의 전용 하드웨어와 실행가능한 소프트웨어의 조합에 의해 다양한 기능 모듈들이 구현될 수 있는 도 3a 및 도 3b에 도시된 바와 같은, 범용 컴퓨터 시스템(300)을 이용하여 구현될 수 있다.

도 3a에서 볼 수 있는 바와 같이, 컴퓨터 시스템(300)은, 컴퓨터 모듈(301); 키보드(302), 마우스 포인터 장치(303), 스캐너(326), 카메라(327), 및 마이크로폰(380) 등의 입력 장치; 및 프린터(315), 디스플레이 장치(314) 및 확성기(317)를 포함하는 출력 장치를 포함한다. 외부 변조기-복조기(Modem) 트랜시버 장치(316)는, 접속(321)을 통해 통신 네트워크(320)와 통신하기 위해 컴퓨터 모듈(301)에 의해 이용될 수 있다. 통신 네트워크(320)는, 인터넷, 셀룰러 통신 네트워크, 또는 사설 WAN 등의 광역 네트워크(WAN)일 수 있다. 접속(321)이 전화선인 경우, 모뎀(316)은 전통적인 "다이얼-업" 모뎀일 수 있다. 대안으로서, 접속(321)이 고용량(예를 들어, 케이블) 접속인 경우, 모뎀(316)은 광대역 모뎀일 수 있다. 통신 네트워크(320)로의 무선 접속을 위해 무선 모뎀도 사용될 수 있다.

컴퓨터 모듈(301)은 통상적으로, 하나 이상의 프로세서 유닛(305)과 메모리 유닛(306)을 포함한다. 예를 들어, 메모리 유닛(306)은 반도체 랜덤 액세스 메모리(RAM)와 반도체 판독 전용 메모리(ROM)를 가질 수 있다. 컴퓨터 모듈(301)은, 비디오 디스플레이(314), 확성기(317), 및 마이크로폰(380)에 결합하는 오디오-비디오 인터페이스(307); 키보드(302), 마우스(303), 스캐너(326), 카메라(327) 및 선택사항으로서 조이스틱 또는 기타의 인간 인터페이스 장치(미도시)와 결합하는 I/O 인터페이스(313); 및 외부 모뎀(316) 및 프린터(315)를 위한 인터페이스(308)를 포함한 다수의 입력/출력(I/O) 인터페이스를 포함한다. 일부 구현에서, 모뎀(316)은, 컴퓨터 모듈(301) 내에, 예를 들어, 인터페이스(308) 내에 포함될 수 있다. 컴퓨터 모듈(301)은 또한, 접속(323)을 통해, 근거리 통신망(LAN)이라 알려진, 근거리 통신 네트워크(322)로의 컴퓨터 시스템(300)의 결합을 허용하는 근거리 네트워크 인터페이스(311)를 가진다. 도 3a에 나타낸 바와 같이, 근거리 통신 네트워크(322)는 또한, 통상적으로 소위 "방화벽" 장치 또는 유사한 기능의 장치를 포함하는 접속(324)을 통해 광역 네트워크(320)에 결합될 수 있다. 근거리 네트워크 인터페이스(311)는, 이더넷 회로 카드, 블루투스 무선 기구 또는 IEEE 802.11 무선 기구를 포함할 수 있다; 그러나, 인터페이스(311)를 위해 수 많은 다른 유형의 인터페이스들이 실시될 수 있다.

I/O 인터페이스(308 및 313)는 직렬 및 병렬 접속 중 하나 또는 양쪽 모두를 제공할 수 있고, 전자는 통상적으로 유니버설 직렬 버스(USB) 표준에 따라 구현되고 대응하는 USB 단자(미도시)를 가진다. 저장 장치(309)가 제공되고 통상적으로 하드 디스크 드라이브(HDD)(310)를 포함한다. 플로피 디스크 드라이브 및 자기 테이프 드라이브(미도시)와 같은 다른 저장 장치도 이용될 수 있다. 광 디스크 드라이브(312)는 통상적으로 비휘발성 데이터 소스를 제공하기 위해 제공된다. 광 디스크(예를 들어, CD-ROM, DVD, 블루레이 디스크), USB-RAM, 휴대형 외장 하드 드라이브, 및 플로피 디스크 등의 휴대형 메모리 장치는, 예를 들어, 시스템(300)에 대한 적절한 데이터 소스로서 이용될 수 있다. 통상적으로, HDD(310), 광 드라이브(312), 네트워크(320 및 322), 또는 카메라(327) 중 임의의 것은, 인코딩될 비디오 데이터에 대한 소스가 될 수 있고, 디스플레이(314)는 저장되거나 재생될 디코딩된 비디오 데이터의 목적지가 될 수 있다.

컴퓨터 모듈(301)의 컴포넌트(305 내지 313)는 통상적으로 상호접속된 버스(304)를 통해 당업자에게 공지된 컴퓨터 시스템(300)의 종래의 동작 모드를 야기하는 방식으로 통신한다. 예를 들어, 프로세서(305)는 접속(318)을 통해 시스템 버스(304)에 결합된다. 마찬가지로, 메모리(306) 및 광 디스크 드라이브(312)는 접속(319)을 통해 시스템 버스(304)에 결합된다. 설명된 구조가 실시될 수 있는 컴퓨터의 예로서는, IBM-PC 및 그 호환형, Sun Sparcstations, Apple Mac™ 또는 그 유사한 컴퓨터 시스템이 포함된다.

적절하거나 원하는 경우, 인코더(100) 및 디코더(200) 뿐만 아니라, 이하에서 설명되는 방법은, 컴퓨터 시스템(300)을 이용하여 구현될 수 있고, 여기서, 설명될 인코더(100), 디코더(200), 및 도 10 및 도 11의 프로세스들은, 컴퓨터 시스템(300) 내에서 실행가능한 하나 이상의 소프트웨어 애플리케이션 프로그램(333)으로서 구현될 수 있다. 특히, 인코더(100), 디코더(200) 및 설명되는 방법들의 단계들은, 컴퓨터 시스템(300) 내에서 실행되는 소프트웨어(333) 내의 명령어(331))(도 3b 참조)에 의해 시행된다. 소프트웨어 명령어(331)는 하나 이상의 모듈로서 형성될 수 있고, 각 모듈은 하나 이상의 특정한 태스크를 수행하기 위한 것이다. 소프트웨어는 또한, 2개의 별개의 부분들로 분할될 수 있으며, 제1 부분 및 대응하는 코드 모듈은 설명된 방법을 수행하고, 제2 부분 및 대응하는 코드 모듈은 제1 파트와 사용자 사이의 사용자 인터페이스를 관리한다.

소프트웨어는, 예를 들어, 후술되는 저장 장치를 포함한 컴퓨터 판독가능한 매체에 저장될 수 있다. 소프트웨어는 컴퓨터 판독가능한 매체로부터 컴퓨터 시스템(300) 내에 로딩된 다음, 컴퓨터 시스템(300)에 의해 실행된다. 이러한 소프트웨어 또는 컴퓨터 프로그램을 기록한 컴퓨터 판독가능한 매체는 컴퓨터 프로그램 제품이다. 컴퓨터 시스템(300) 내의 컴퓨터 프로그램 제품의 이용은 바람직하게는 인코더(100), 디코더(200), 및 설명되는 방법들을 구현하기 위한 유익한 장치를 달성한다.

소프트웨어(333)는 통상적으로 HDD(310) 또는 메모리(306)에 저장된다. 소프트웨어는 컴퓨터 판독가능한 매체로부터 컴퓨터 시스템(300) 내에 로딩되어, 컴퓨터 시스템(300)에 의해 실행된다. 따라서, 예를 들어, 소프트웨어(333)는 광 디스크 드라이브(312)에 의해 판독되는 광학적으로 판독가능한 저장 매체(예를 들어, CD-ROM)(325) 상에 저장될 수 있다.

일부 예에서, 애플리케이션 프로그램(333)은 하나 이상의 CD-ROM(325) 상에서 인코딩되고 대응하는 드라이브(312)를 통해 판독되어 사용자에게 공급되거나, 대안으로서, 네트워크(320 또는 322)로부터 사용자에 의해 판독될 수도 있다. 역시 또한, 소프트웨어는 다른 컴퓨터 판독가능한 매체로부터 컴퓨터 시스템(300)에 로딩될 수도 있다. 컴퓨터 판독가능한 저장 매체란, 실행 및/또는 처리를 위해, 기록된 명령어 및/또는 데이터를 컴퓨터 시스템(300)에 제공하는 임의의 비일시적 유형물의 저장 매체를 말한다. 이러한 저장 매체의 예로서는, 플로피 디스크, 자기 테이프, CD-ROM, DVD, 블루레이 디스크, 하드 디스크 드라이브, ROM 또는 집적 회로, USB 메모리, 광자기 디스크, 또는 PCMCIA 카드 등과 같은 컴퓨터 판독가능한 카드가, 컴퓨터 모듈(301)의 내부이든 외부이든지 상관없이 포함된다. 소프트웨어, 애플리케이션 프로그램, 명령어 및/또는 비디오 데이터 또는 인코딩된 비디오 데이터의 컴퓨터 모듈(301)로의 제공에 참여할 수 있는 일시적 또는 비-유형물 컴퓨터 판독가능한 전송 매체의 예로서는, 무선 또는 적외선 전송 채널 뿐만 아니라 또 다른 컴퓨터나 네트워킹된 장치로의 네트워크 접속, 및 e메일 전송 및 웹사이트 등에 기록된 정보를 포함한 인터넷이나 인트라넷이 포함된다.

앞서 언급된 애플리케이션 프로그램(333)의 제2 부분 및 대응하는 코드 모듈은, 디스플레이(314) 상에 렌더링되거나 기타의 방식으로 표현될 하나 이상의 그래픽 사용자 인터페이스(GUI)를 구현하기 위해 실행될 수 있다. 통상적으로 키보드(302) 및 마우스(303)의 조작을 통해, 컴퓨터 시스템(300)의 사용자와 애플리케이션은 GUI(들)과 연관된 애플리케이션으로의 제어 명령어 및/또는 입력을 제공하기 위해 기능적으로 조정가능한 방식으로 인터페이스를 조작할 수 있다. 확성기(317)를 통한 음성 프롬프트 출력 및 마이크로폰(380)을 통한 사용자 음성 명령 입력을 이용하는 오디오 인터페이스 등의, 다른 형태의 기능적으로 조정가능한 사용자 인터페이스도 구현될 수 있다.

도 3b는 프로세서(305) 및 "메모리"(334)의 상세한 모식 블록도이다. 메모리(334)는 도 3a의 컴퓨터 모듈(301)에 의해 엑세스될 수 있는 (HDD(309) 및 반도체 메모리(306)를 포함한) 모든 메모리 모듈들의 논리적 집합체를 나타낸다.

컴퓨터 모듈(301)이 처음 전원투입될 때, 시동시-자체-테스트(POST; power-on self-test) 프로그램(350)이 실행된다. POST 프로그램(350)은 통상적으로 도 3a의 반도체 메모리(306)의 ROM(349)에 저장된다. 소프트웨어를 저장하는 ROM(349) 등의 하드웨어 장치는 때때로 펌웨어라고 한다. POST 프로그램(350)은 컴퓨터 모듈(301) 내의 하드웨어를 검사하여 적절한 기능을 보장하고, 통상적으로는, 프로세서(305), 메모리(334)(309, 306), 및 기본 입력-출력 시스템 소프트웨어(BIOS) 모듈(351)을 검사하고, 또한 통상적으로는 정확한 동작을 위해 ROM(349)에 저장된다. 일단 POST 프로그램(350)이 성공적으로 실행되고 나면, BIOS(351)는 도 3a의 하드 디스크 드라이브(310)를 작동시킨다. 하드 디스크 드라이브(310)의 작동은 하드 디스크 드라이브(310) 상에 존재하는 부트스트랩 로더 프로그램(352)이 프로세서(305)를 통해 실행되게 한다. 이것은 운영 체제(353)를 RAM 메모리(306) 내에 로딩하고, 이 때 운영 체제(353)는 동작을 개시한다. 운영 체제(353)는, 프로세서 관리, 메모리 관리, 장치 관리, 저장장치 관리, 소프트웨어 애플리케이션 인터페이스, 및 일반 사용자 인터페이스를 포함한 다양한 하이 레벨 기능을 수행하기 위해, 프로세서(305)에 의해 실행가능한 시스템 레벨 애플리케이션이다.

운영 체제(353)는 컴퓨터 모듈(301) 상에서 실행중인 각각의 프로세스 또는 애플리케이션이 또 다른 프로세스에 할당된 메모리와 충돌하지 않고 실행되기에 충분한 메모리를 갖도록 보장하기 위해 메모리(334)(309, 306)를 관리한다. 또한, 도 3a의 시스템(300)에서 이용가능한 상이한 유형의 메모리는 각각의 프로세스가 효과적으로 실행될 수 있도록 반드시 적절하게 이용되어야 한다. 따라서, 집성된 메모리(334)는, (달리 언급되지 않는 한) 메모리의 특정 세그먼트가 어떻게 할당되는지를 나타내기 위한 것이 아니라, 컴퓨터 시스템(300)에 의해 액세스가능한 메모리와 이러한 것이 어떻게 이용되는지의 일반 뷰를 제공하기 위한 것이다.

도 3b에 도시된 바와 같이, 프로세서(305)는, 제어 유닛(339), 산술 논리 유닛(ALU)(340), 및 때때로 캐쉬 메모리라 불리는 국지 또는 내부 메모리(348)를 포함한 다수의 기능 모듈들을 포함한다. 캐쉬 메모리(348)는 통상적으로 레지스터 섹션에 다수의 저장 레지스터(344-346)를 포함한다. 하나 이상의 내부 버스(341)는 이들 기능 모듈들을 기능적으로 상호접속한다. 프로세서(305)는 또한 통상적으로, 접속(318)을 이용하여 시스템 버스(304)를 통해 외부 장치와 통신하기 위한 하나 이상의 인터페이스(342)를 가진다. 메모리(334)는 접속(319)을 이용하여 버스(304)에 결합된다.

애플리케이션 프로그램(333)은, 조건 분기 및 루프 명령어를 포함할 수 있는 명령어 시퀀스(331)를 포함한다. 프로그램(333)은 또한, 프로그램(333)의 실행에 이용되는 데이터(332)를 포함할 수 있다. 명령어(331) 및 데이터(332)는, 각각, 메모리 위치(328, 329, 330, 및 335, 336, 337)에 저장된다. 명령어(331)와 메모리 위치(328-330)의 상대적 크기에 의존하여, 특정한 명령어는 메모리 위치(330)에 도시된 명령어로 도시된 바와 같이 단일 메모리 위치에 저장될 수 있다. 대안으로서, 명령어는 다수의 부분(part)들로 세그먼트화될 수 있고, 부분들 각각은, 메모리 위치(328 및 329)에 도시된 명령어 세그먼트들에 의해 도시된 바와 같이, 별개의 메모리 위치에 저장된다.

일반적으로, 프로세서(305)에는 그 내부에서 실행되는 한 세트의 명령어가 주어진다. 프로세서(305)는 후속 입력을 기다리고, 후속 입력에 응답하여 프로세서(305)는 또 다른 세트의 명령어를 실행함으로써 응답한다. 모두가 도 3a에 도시되어 있는, 하나 이상의 입력 장치(302, 303)에 의해 생성된 데이터, 네트워크(320, 302) 중 하나를 통해 외부 소스로부터 수신된 데이터, 저장 장치(306, 309) 중 하나로부터 회수된 데이터 또는 대응하는 판독기(312) 내에 삽입된 저장 매체(325)로부터 회수된 데이터를 포함한 다수의 소스들 중 하나 이상으로부터, 각각의 입력이 제공될 수 있다. 한 세트의 명령어의 실행은 일부 경우에 데이터의 출력을 야기할 수 있다. 실행은 또한, 메모리(334)에 데이터 또는 변수를 저장하는 단계를 수반할 수 있다.

인코더(100), 디코더(200), 및 설명된 방법들은, 메모리(334) 내의 대응하는 메모리 위치(355, 356, 357)에 저장된 입력 변수(354)를 이용한다. 인코더(100), 디코더(200), 및 설명된 방법들은, 메모리(334) 내의 대응하는 메모리 위치(362, 363, 364)에 저장된 출력 변수(361)를 생성한다. 중간 변수(358)는 메모리 위치(359, 360, 366 및 367)에 저장될 수 있다.

도 3b의 프로세서(305)를 참조하면, 레지스터(344, 345, 346), 산술 논리 유닛(ALU)(340), 및 제어 유닛(339)은 함께 작업하여 프로그램(333)을 형성하는 명령어 세트 내의 모든 명령어에 대한 "인출, 디코드, 및 실행" 사이클을 수행하는데 필요한 마이크로-동작의 시퀀스를 수행한다. 각각의 인출, 디코드, 및 실행 사이클은:

(a) 메모리 위치(328, 329, 330)로부터 명령어(331)를 인출 또는 판독하는, 인출 동작;

(b) 제어 유닛(339)이 어느 명령어가 인출되었는지를 판정하는 디코드 동작; 및

(c) 제어 유닛(339) 및/또는 ALU(340)가 명령어를 실행하는 실행 동작.

그 후, 다음 명령어에 대한 추가의 인출, 디코드, 및 실행 사이클이 실행될 수 있다. 유사하게, 저장 사이클이 수행되고, 이에 의해 제어 유닛(339)은 메모리 위치(332)에 값을 저장 또는 기입한다.

설명될 도 1 내지 도 17의 프로세스들 내의 각각의 단계 또는 서브-프로세스는 프로그램(333)의 하나 이상의 세그먼트와 연관되고, 프로그램(333)의 표기된 세그먼트에 대한 명령어 세트 내의 모든 명령어에 대한 인출, 디코드, 및 실행 사이클을 수행하기 위해 함께 작업하는 통상적으로 프로세서(305) 내의 레지스터 섹션(344, 345, 347), ALU(340), 및 제어 유닛(339)에 의해 수행된다.

인코더(100), 디코더(200) 및 설명된 방법들은, 대안으로서, 설명된 방법들의 기능 또는 부기능을 수행하는 하나 이상의 집적 회로 등의 전용 하드웨어로 구현될 수 있다. 이러한 전용 하드웨어는, 그래픽 프로세서, 디지털 신호 프로세서, 주문형 집적 회로(ASIC), 필드 프로그래머블 게이트 어레이(FPGA) 또는 하나 이상의 마이크로프로세서 및 연관된 메모리들을 포함할 수 있다. 설명된 시스템의 순 효과는, 비디오 데이터의 비트스트림과 연관된 코딩 유닛을 처리하도록 구성된 컴퓨터화된 장치이다.

전술된 바와 같이, 비디오 인코더(100)는, 하드 디스크 드라이브(305) 상에 상주하고 그 실행이 프로세서(305)에 의해 제어되는 소프트웨어 애플리케이션 프로그램(333)의 하나 이상의 소프트웨어 코드 모듈로서 구현될 수 있다. 특히, 비디오 인코더(100)는 모듈들(102 내지 112, 114 및 115)을 포함하고, 모듈들 각각은 소프트웨어 애플리케이션 프로그램(333)의 하나 이상의 소프트웨어 코드 모듈로서 구현될 수 있다.

도 1의 비디오 인코더(100)는 고효율 비디오 코딩(HEVC) 비디오 디코딩 파이프라인의 예이지만, 모듈들(102 내지 112, 114, 및 115)에 의해 수행되는 처리 스테이지들은 VC-1 또는 H.264/MPEG-4 AVC 등의 다른 비디오 코덱과 공통된다. 비디오 인코더(100)는 인코딩되지 않은 프레임 데이터(101)를 휘도 및 색도 샘플들을 포함하는 일련의 프레임들로서 수신한다. 비디오 인코더(100)는, 프레임 데이터(101)의 각 프레임을, 예를 들어 코딩 유닛(CU) 트리로서 표현될 수 있는, 코딩 유닛(CU)들의 계층구조적 세트들로 분할한다.

비디오 인코더(100)는, 멀티플렉서 모듈(110)로부터 예측 유닛(PU)(120)이라 알려진 예측된 데이터 샘플들의 배열을 출력함으로써 동작한다. 차분 모듈(115)은, 예측 유닛(PU)(120)과, 프레임 데이터(101)로부터 수신된 데이터 샘플들의 대응하는 배열 사이의 차이를 출력하고, 그 차이는 잔차 데이터 샘플(122)이라고 알려져 있다.

차분 모듈(115)로부터의 잔차 데이터 샘플(122)은 변환 모듈(102)에 의해 수신되고, 변환 모듈(102)은 그 차이를 공간 표현으로부터 주파수 영역 표현으로 변환하여 변환 트리 내의 각 변환 유닛(TU)에 대한 변환 계수(124)를 생성한다. 개발중인 고효율 비디오 코딩(HEVC) 표준의 경우, 주파수 영역 표현으로의 변환은, 전통적인 이산 코사인 변환(DCT)이 쉬프트와 가산을 이용하여 구현되도록 수정된, 수정된 이산 코사인 변환(DCT)을 이용하여 구현된다. 그 다음, 변환 계수(124)는 스케일 및 양자화 모듈(103)에 입력되고, 스케일링 및 양자화되어 잔차 계수(126)를 생성한다. 스케일 및 양자화 프로세스는 정확도의 손실을 야기한다. 잔차 계수(126)는, 스케일 및 양자화 모듈(103)에 의해 수행된 스케일링을 역전시켜 잔차 계수(126)의 리스케일링된 버전인 리스케일링된 변환 계수(128)를 생성하는 역 스케일링 모듈(105)에 대한 입력으로서 취해진다. 잔차 계수(126)는 또한, 인코딩된 비트스트림(113)의 잔차 계수를 인코딩하는 엔트로피 인코더 모듈(104)에 대한 입력으로서 취해진다. 스케일 및 양자화 모듈(103)로부터 발생하는 정확도의 손실로 인해, 리스케일링된 변환 계수(128)는 원래의 변환 계수(124)와 동일하지 않다. 그 다음, 역 스케일링 모듈(105)로부터의 리스케일링된 변환 계수(128)는 역 변환 모듈(106)에 출력된다. 역 변환 모듈(106)은 주파수 영역으로부터 공간 영역으로의 역 변환을 수행하여 디코더에서 생성되는 공간 영역 표현과 동일한 리스케일링된 변환 계수(128)의 공간-영역 표현(130)을 생성한다.

움직임 추정 모듈(107)은, 프레임 데이터(101)를 메모리(306) 내에 구성된 프레임 버퍼 모듈(112)에 저장된 이전 프레임 데이터와 비교함으로써 움직임 벡터(132)를 생성한다. 그 다음, 움직임 벡터(132)는, 움직임 벡터(132)로부터 유도된 공간 오프셋을 고려하여, 프레임 버퍼 모듈(112)에 저장된 샘플들을 필터링함으로써 인터-예측된(inter-predicted) 기준 샘플(134)을 생성하는 움직임 보상 모듈(108)에 입력된다. 도 1에 나타내지는 않았지만, 움직임 벡터(132)도 역시, 신택스 요소로서, 인코딩된 비트스트림(113)으로의 코딩을 위한 엔트로피 인코더 모듈(104)에 전달된다. 인트라-프레임 예측 모듈(109)은, 멀티플렉서 모듈(110)의 출력(120)과 역변환 모듈(106)로부터의 출력(130)을 합산하는 합산 모듈(114)로부터 얻어진 샘플(138)을 이용하여 인트라-예측된 기준 샘플(136)을 생성한다.

예측 유닛(PU)은 인트라-예측 또는 인터-예측 방법을 이용하여 코딩될 수 있다. 인트라-예측을 이용할지 또는 인터-예측을 이용할지에 대한 결정은 결과적 인코딩된 비트스트림(113)의 원하는 비트레이트와 인트라-예측 또는 인터-예측 방법에 의해 도입된 화질 왜곡량 사이의 레이트-왜곡 트레이드-오프에 따라 이루어진다. 인트라-예측이 이용된다면, 한 세트의 가능한 모드로부터, 역시 레이트-왜곡 트레이드오프에 따라, 하나의 인트라-예측 모드가 선택된다. 각각의 예측 유닛에 대하여 하나의 인트라-예측 모드가 선택된다. 고효율 비디오 코딩(HEVC) 테스트 모델 5.0(HM-5.0)은 35개의 인트라-예측 모드를 지원하지만, 모든 인트라-예측 모드들이 모든 예측 유닛 크기에 대해 이용될 수 있는 것은 아니다. 예를 들어, 8x8 예측 유닛은 선택에 이용가능한 35개의 인트라-예측 모드를 가질 수 있고 4x4 예측 유닛은 일부 실시예에서는 선택에 이용가능한 18개의 인트라-예측 모드를 가질 수 있으며 다른 실시예에서는 선택에 이용가능한 19개의 모드를 가질 수 있다. 멀티플렉서 모듈(110)은, 예시되어 있지는 않지만 널리 알려진 제어 로직에 의해 결정된 현재 예측 모드(142)에 따라, 인트라-프레임 예측 모듈(109)로부터의 인트라-예측된 기준 샘플(136) 또는 움직임 보상 블록(108)으로부터의 인터-예측된 기준 샘플(134)을 선택한다. 예측 모드(142)는 엔트로피 인코더(104)에도 제공되므로, 설명되는 바와 같이 변환 유닛의 스캔 순서를 결정하거나 기타의 방식으로 설정하는데 이용된다. 인터-프레임 예측은 대각 스캔 순서만을 이용하는 반면, 인트라-프레임 예측은 대각 스캔, 수평 스캔 또는 수직 스캔 순서를 이용할 수 있다.

합산 모듈(114)은 디블록킹 필터 모듈(111)에 입력된 합(138)을 생성한다. 디블록킹 필터 모듈(111)은 블록 경계를 따라 필터링을 수행하고, 메모리(306) 내에 구성된 프레임 버퍼 모듈(112)에 기입된 디블록킹된 샘플(140)을 생성한다. 프레임 버퍼 모듈(112)은 향후의 참조를 위해 복수의 과거 프레임으로부터의 데이터를 보유하기에 충분한 능력을 갖춘 버퍼이다.

비디오 인코더(100)에서, 하나의 변환 유닛(TU) 내의 잔차 데이터 샘플(122)은, 입력 프레임 데이터(101)의 데이터 샘플과 입력 프레임 데이터(101)의 데이터 샘플의 예측(120) 사이의 차이를 발견함으로써 결정된다. 이 차이는 변환 유닛(TU)의 잔차 계수의 공간적 표현을 제공한다.

변환 유닛(TU)의 잔차 계수는 2차원 유효도 맵(significance map)으로 변환된다.

변환 유닛(TU)에서의 잔차 계수의 유효도 맵은, 유효 계수 플래그(significant coefficient flag)의 리스트라 불리는, 플래그 값들의 1차원 리스트를 형성하도록, 스캔 순서라고 알려진 특정한 순서로 스캔될 수 있다. 스캔 순서는, 인트라-예측 모듈(109)로부터 예측 모드(142)와 함께 수신된 것과 같은, 스캔 패턴에 의해 기술되거나 기타의 방식으로 명시된다. 스캔 패턴은 수평, 수직, 대각 또는 지그재그일 수 있다. 고효율 비디오 코딩(HEVC) 테스트 모델의 버전 5는 역방향으로 스캔을 수행하지만, 순방향으로의 스캔도 역시 가능하다. 16x16, 32x32,4x16,16x4, 8x32 및 32x8 변환 유닛(TU)의 경우, 변환 유닛(TU)이 한 세트의 서브블록들로 분할되고 각각의 서브블록은 정사각형을 갖는 2-레벨 스캔이 정의된다. 상위 레벨에서, 스캐닝은 역방향 대각 하방-좌측 스캔 등의 스캔을 이용하여 각각의 더 낮은 레벨을 스캔함으로써 수행된다. 서브블록 레벨이라고도 알려진 더 낮은 레벨에서, 스캔은 또한, 역방향 대각 하방-좌측 스캔 등의 스캔을 이용하여 수행된다. HEVC 기준 모델 버전 5.0에서, 스캔 동작은 마지막 유효 계수 이후에(여기서, '이후'는 잔차 계수의 역방향 스캔의 방향이다) 하나의 잔차 계수를 개시하고 유효도 맵의 상위-좌측 위치에 도달할 때까지 진행한다. 이러한 속성을 갖고 HEVC 기준 모델 버전 5.0에 따르는 스캔 동작은 '역방향 스캔'이라고 알려져 있다. HEVC 기준 소프트웨어 버전 5.0에서, 마지막 유효 계수(last significant coefficient)의 위치는 변환 유닛(TU)에서의 계수의 좌표를 인코딩함으로써 시그널링된다. 당업자라면, 이 맥락에서 형용사 "마지막"의 사용은 스캔의 특정한 순서에 의존한다는 것을 이해할 것이다. 하나의 스캔 패턴에 따른 "마지막" 비제로 잔차 계수 또는 대응하는 1값 유효 계수 플래그가 될 수 있는 것은, 또 다른 스캔 패턴에 따른 "마지막"이 아닐 수 있다. 마지막 유효 계수 이전의 각각의 잔차 계수의 유효도를 나타내는 유효 계수 플래그의 리스트는 비트스트림 내로 코딩된다. 마지막 유효 계수 플래그 값은 비트스트림 내로 명시적으로 인코딩될 것이 요구되지 않는데, 이것은 마지막 유효 계수 플래그의 위치의 선행 코딩이 이 잔차 계수가 유효한 것이라는 것을 묵시적으로 표시했기 때문이다.

변환 유닛(TU)의 상방-좌측을 향한 더 큰 값의 잔차 계수의 클러스터링의 결과, 리스트의 초기에 최상위 플래그들이 유효한 반면, 리스트의 나중에 최하위 플래그들이 발견된다.

전술된 바와 같이, 비디오 인코더(100)는 엔트로피 인코딩 방법을 구현하는 엔트로피 인코더 모듈(104)도 역시 포함한다. 엔트로피 인코더 모듈(104)은 스케일 및 양자화 모듈(103)로부터 수신된 인입 잔차 계수 데이터(또는 잔차 계수)(126)로부터 신택스 요소를 생성한다. 엔트로피 인코더 모듈(104)은 인코딩된 비트스트림(113)을 출력하고 이하에서 더 상세히 설명될 것이다. 개발중인 고효율 비디오 코딩(HEVC) 표준의 경우, 인코딩된 비트스트림(113)은 네트워크 추상 계층(NAL; network abstraction layer) 유닛들로 구분된다. 프레임의 각각의 슬라이스는 하나의 NAL 유닛에 포함된다.

엔트로피 인코더 모듈(104)에 구현된 엔트로피 인코딩 방법에 대한 수 개의 대안이 있다. 개발중인 고효율 비디오 코딩(HEVC) 표준은, H.264/MPEG-4 AVC에서 발견되는 컨텍스트 적응성 2진 산술 코딩(CABAC)의 한 변형인, 컨텍스트 적응성 2진 산술 코딩(CABAC)을 지원한다. 대안적 엔트로피 코딩 방식은, 본 분야에 공지된 확률 구간 분할 엔트로피(PIPE; probability interval partitioning entropy)이다.

복수의 비디오 코딩 방법을 지원하는 비디오 인코더(100)의 경우, 지원되는 엔트로피 코딩 방법들 중 하나가 인코더(100)의 구성에 따라 선택된다. 또한, 각 프레임으로부터의 코딩 유닛들의 인코딩시에, 엔트로피 인코더 모듈(104)은 인코딩된 비트스트림(113)을 기입하되, 각 프레임이 프레임당 하나 이상의 슬라이스를 갖도록 기입하고, 각 슬라이스는 프레임의 일부에 대한 영상 데이터를 포함한다. 프레임당 하나의 슬라이스를 생성하는 것은 각각의 슬라이스 경계의 구분과 연관된 오버헤드를 감소시킨다. 그러나, 프레임을 복수의 슬라이스로 분할하는 것도 역시 가능하다.

도 2의 비디오 디코더(200)는, 하드 디스크 드라이브(305) 상에 상주하고 그 실행이 프로세서(305)에 의해 제어되는 소프트웨어 애플리케이션 프로그램(333)의 하나 이상의 소프트웨어 코드 모듈로서 구현될 수 있다. 특히, 비디오 디코더(200)는 모듈들(202 내지 208, 및 210)을 포함하고, 모듈들 각각은 소프트웨어 애플리케이션 프로그램(333)의 하나 이상의 소프트웨어 코드 모듈로서 구현될 수 있다. 비디오 디코더(200)가 고효율 비디오 코딩(HEVC) 비디오 디코딩 파이프라인을 참조하여 설명되지만, 모듈들(202 내지 208, 및 209)에 의해 수행되는 처리 스테이지들은, H.264/MPEG-4 AVC, MPEG-2 및 VC-1 등의, 엔트로피 코딩을 채용하는 다른 비디오 코덱과 공통된다.

인코딩된 비트스트림(113) 등의 인코딩된 비트스트림은 비디오 디코더(200)에 의해 수신된다. 인코딩된 비트스트림(113)은, 메모리(306), 하드 디스크 드라이브(310), CD-ROM, 블루레이 디스크 또는 기타의 컴퓨터 판독가능한 저장 매체로부터 판독될 수 있다. 대안으로서, 인코딩된 비트스트림(113)은 통신 네트워크(320)에 접속된 서버 또는 무선-주파수 수신기 등의 외부 소스로부터 수신될 수 있다. 인코딩된 비트스트림(113)은 디코딩될 프레임 데이터를 나타내는 인코딩된 신택스 요소를 포함한다.

인코딩된 비트스트림(113)은 엔트로피 디코더 모듈(202)에 입력되고, 엔트로피 디코더 모듈(202)은 인코딩된 비트스트림(113)으로부터 신택스 요소를 추출하여 신택스 요소의 값을 비디오 디코더(200) 내의 다른 블록들에 전달한다. 엔트로피 인코더 모듈(104)을 참조하여 기술된 바와 같은, 복수의 엔트로피 디코딩 방법들이 엔트로피 디코더 모듈(202)에 구현될 수 있다. 잔차 계수 데이터를 나타내는 신택스 요소 데이터(220)는 역 스케일 및 변환 모듈(203)에 전달되고 움직임 벡터 정보를 나타내는 신택스 요소 데이터(222)는 움직임 보상 모듈(204)에 전달된다. 역 스케일 및 변환 모듈(203)은 잔차 계수 데이터에 관한 역 스케일링을 수행하여 재구성된 변환 계수를 생성한다. 그 다음, 모듈(203)은 재구성된 변환 계수들을 주파수 영역 표현으로부터 공간 영역 표현으로 변환하기 위해 역 변환을 수행하고, 역 변환 모듈(106)을 참조하여 설명된 역 변환 등의, 잔차 샘플(224)을 생성한다.

움직임 보상 모듈(204)은, 메모리(306) 내에 구성된 프레임 버퍼 블록(208)으로부터의 이전의 프레임 데이터(226)와 결합된, 엔트로피 디코더 모듈(202)로부터의 움직임 벡터 데이터(222)를 이용하여, 출력된 디코딩된 프레임 데이터의 예측이 되는, 예측 유닛(PU)에 대한 인터-예측된 기준 샘플(228)을 생성한다. 신택스 요소가 현재의 코딩 유닛이 인트라예측을 이용하여 코딩되었음을 나타낼 때, 인트라-프레임 예측 모듈(205)은, 예측 유닛(PU)과 공간적으로 이웃하는 샘플들을 이용하여, 예측 유닛(PU)에 대한 인트라-예측된 기준 샘플(230)을 생성한다. 공간적으로 이웃하는 샘플들은 합산 모듈(210)로부터 출력된 합(232)으로부터 얻어진다. 멀티플렉서 모듈(206)은, 인코딩된 비트스트림(113) 내의 신택스 요소에 의해 표시되는 현재 예측 모드에 따라, 예측 유닛(PU)에 대한 인트라-예측된 기준 샘플 또는 인터-예측된 기준 샘플을 선택한다. 멀티플렉서 모듈(206)로부터 출력된 샘플(234)들의 배열은 합산 모듈(210)에 의해 역 스케일 및 변환 모듈(203)로부터의 잔차 샘플(224)에 가산되어 합(232)을 생성하고, 이 합은 디블록킹 필터 모듈(207) 및 인트라-프레임 예측 모듈(205) 각각에 입력된다. 인코더(100)와는 대조적으로, 인트라-프레임 예측 모듈(205)은 엔트로피 디코더(202)로부터 예측 모드(236)를 수신한다. 멀티플렉서(206)는 엔트로피 디코더(202)로부터 인트라-프레임 예측/인터프레임 예측 선택 신호를 수신한다. 디블록킹 필터 모듈(207)은 데이터 블록 경계를 따라 필터링을 수행하여 데이터 블록 경계를 따른 가시적인 아티팩트를 평활화한다. 디블록킹 필터 모듈(207)의 출력은 메모리(306) 내에 구성된 프레임 버퍼 모듈(208)에 기입된다. 프레임 버퍼 모듈(208)은 향후의 참조를 위해 복수의 디코딩된 프레임들을 보유하기에 충분한 저장을 제공한다. 디코딩된 프레임(209)은 또한 프레임 버퍼 모듈(208)로부터 출력된다.

엔트로피 인코더(104)가 도 4를 참조하여 설명될 것이다. 잔차 계수(401) 등의 신택스 요소는 2진화기 모듈(404)에 입력된다. 변환 유닛(TU) 크기(402)는 2진화기 모듈(404)에 입력된다. 변환 유닛(TU) 크기는 인코딩되는 변환 유닛(TU)의 크기를 나타낸다. 스캔 패턴(403)은 2진화기 모듈(404)에 입력된다. 2진화기 모듈(404)은 각각의 신택스 요소를 빈들의 시퀀스로 2진화한다. 각각의 빈은 빈 값(406)과 컨텍스트 인덱스(405)를 포함한다. 빈 값(406)과 컨텍스트 인덱스(405)는 컨텍스트 모델(407)에 의해 수신되고, 컨텍스트 모델(407)은 컨텍스트 인덱스(405)에 따라 선택된 컨텍스트(408)를 출력한다. 컨텍스트(408)는 빈 값(405)에 따라 업데이트된다. 컨텍스트(408)를 업데이트하기 위한 방법은 H.264/MPEG-4 AVC에서 컨텍스트 적응성 2진 산술 코딩(CABAC)에 의해 이용되는 것과 일치한다. 2진 산술 인코더(409)는 빈을 인코딩된 비트스트림(113)으로 인코딩하기 위해 컨텍스트(408)와 빈 값(406)을 이용한다.

엔트로피 디코더(202)가 도 5를 참조하여 설명될 것이다. 변환 유닛(TU) 크기(502)와 스캔 패턴(501)이 역 2진화기 모듈(503)에 의해 수신된다. 역 2진화기 모듈(503)은 2진화기 모듈(404)의 역 동작을 수행함으로써 잔차 계수(509)를 출력한다. 컨텍스트 인덱스(504)는 디코딩될 각 빈에 대해 역 2진화기 모듈(503)로부터 출력된다. 컨텍스트 모델(505)은 컨텍스트 인덱스(504)에 의해 선택된 컨텍스트(506)를 출력한다. 2진 산술 디코더(507)는 컨텍스트(506)를 이용하여 인코딩된 비트스트림(113)으로부터 빈 값(508)을 디코딩해 낸다. 빈 값(508)은 컨텍스트 모델(505)에 의해 수신되고 컨텍스트(506)를 업데이트하는데 이용된다. 빈 값(508)은 또한 역 2진화기 모듈(503)에 의해 수신된다.

예시적인 최대 코딩 유닛(LCU)(600)이 도 6a를 참조하여 설명될 것이다. 최대 코딩 유닛(LCU)(600)는 정사각형의 64x64 루마 샘플(luma sample)들을 가진다. 최대 코딩 유닛(600)은 코딩 유닛1(601) 내지 코딩 유닛10(608)으로 재귀적으로 세분된다. 최대 코딩 유닛(LCU)(600)의 분할은 계층구조 레벨들을 이용하여, 4개의 동등한-크기의, 비중복되는 영역들로의 최대 코딩 유닛(LCU)을 포함하는 영역의 재귀적 분할을 가능케하고, 각 영역은 부모 영역의 수평 및 수직 치수의 절반을 갖고 부모 영역의 면적을 완전히 점유한다. 일단 영역이 더 작은 영역들로 더 이상 세분되지 않으면, 영역을 완전히 점유하는 코딩 유닛이 존재한다. 특정한 레벨의 세분에서, 영역 크기는 최소 코딩 유닛(SCU)이라 알려진 크기와 같아지고, 이 지점에서 추가의 세분은 가능하지 않거나 관례상 또는 실용상 기타의 방식으로 금지될 수 있다. 개발중인 고효율 비디오 코딩(HEVC) 표준의 경우, 최소 코딩 유닛(SCU) 크기는 8x8 루마 샘플로서 구성된다. 각각의 코딩 유닛은, 크기 32x32를 갖는 코딩 유닛1(601), 크기 16x16을 갖는 코딩 유닛2(602), 및 크기 8x8을 갖는 코딩 유닛4(603) 등의, 수 개의 가능한 크기들 중 하나를 가진다. 개발중인 고효율 비디오 코딩(HEVC) 표준에서 이용되는 선택된 최대 코딩 유닛(LCU) 크기와 최소 코딩 유닛(SCU) 크기에 따라, 다른 코딩 유닛 크기도 역시 가능하다.

최대 코딩 유닛(LCU)(600)의 세분이 도 6b를 참조하여 더 설명될 것이다. 여기서, 최대 코딩 유닛(LCU)(604)의 영역에서, 분할이 발생하여, 최대 코딩 유닛(LCU)의 영역을, 영역(605) 등의 4개의 동등한 크기의 영역으로 분할한다. 다음 분할은, 영역(607) 등의 4개의 추가의 더 작은 영역들을 주기 위해 이용된다. 일단 영역 크기가, 영역(606) 등의 최소 코딩 유닛(SCU)의 치수에 도달하면, 더 이상의 분할은 가능하지 않다. 더 이상의 분할이 발생하지 않는 각 영역에서, 코딩 유닛은 그 영역을 완전히 점유한다.

도 6b의 대 코딩 유닛(LCU)(604)은 또한, 도 6c에 도시된 바와 같은 계층구조 코딩 트리(630)로서 표현될 수 있다. 최대 코딩 유닛(LCU)을 표현하기 위해 계층구조 트리를 이용할 때, 코딩 유닛들 각각은 리프 노드를 형성하는 반면, 추가로 세분된 영역들을 포함하는 영역들은 비-리프 노드를 형성할 것이다. 트리(630)의 루트 노드(632)는 도 6b의 영역(604)에 기초하고 64x64 샘플들을 나타내는 레벨에 있다. 루트 노드 아래에는, 영역(605) 등의 32x32 샘플의 영역을 나타내는 제2 층이 있다. 도 6a의 코딩 유닛1은 리프 노드(634)로서 표현되는 반면 코딩 유닛2 내지 코딩 유닛8을 포함하는 영역은 비-리프 노드(640)로 표현된다. 크기 16x16의 영역들은 코딩 유닛2를 나타내는 리프 노드(636)를 갖는 트리(630)의 제3 레벨 상에 도시되어 있고, 도 6b의 영역(607)은 비-리프 노드(642)로서 표현된다. 트리(630)의 제4 및 최종층은, 코딩 유닛4(603)를 포함하고 리프 노드(638)로 표현된 영역(606) 등의, 크기 8x8의 영역을 나타낸다. 트리의 깊이가 증가함에 따라 트리 내의 코딩 유닛의 크기는 감소한다는 것이 상기로부터 명확하다.

이하에서 더 상세히 설명되는 바와 같이, 분할 플래그는 소정 영역이 최대 코딩 유닛(LCU) 내의 리프 노드라는 것을 나타내는데 이용된다. 코딩 트리(630)는 최대 코딩 유닛(LCU)의 코딩 구조를 나타내는 한 방식으로서 간주될 수 있다.

종래 방식에서 최대 코딩 유닛(LCU)(600)을 인코딩하는 비트스트림(700)이 도 6 및 도 7을 참조하여 설명될 것이다. 비디오 화상 프레임은 슬라이스당 많은 최대 코딩 유닛(LCU)을 가질 수 있으므로, 인코딩된 비트스트림(113) 등의 인코딩된 비트스트림은 도 7에 도시된 비트스트림(700)의 많은 인스턴스를 포함할 수 있다. 도 7은, 'S'로 마킹된 세그먼트는 산술적으로 인코딩된 분할 플래그를 포함하고, 'A"로 마킹된 세그먼트는 하나 이상의 산술적으로 인코딩된 2진화된 신택스 요소 또는 그 일부(들)을 포함하고, 'B'로 마킹된 세그먼트는 하나 이상의 바이패스 인코딩된 2진화된 신택스 요소 또는 그 일부(들)을 포함하고, 'A, B'로 마킹된 세그먼트는 산술 코딩 및 바이패스 코딩의 혼합을 이용하여 인코딩된 하나 이상의 2진화된 신택스 요소를 포함하도록, 인코딩된 2진화된 신택스 요소들을 표현하기 위한 규약을 채택하고 있다. 슬라이스는 통상적으로 함께 연결된 복수의 최대 코딩 유닛(LCU)으로 구성되기 때문에, 비트스트림(700)은 인코딩된 비트스트림(113)의 일부를 나타낸다. LCU 치수의 정수배가 아닌 프레임 크기의 경우, 분할 플래그의 추론은 코딩 유닛을 통과하는 프레임 경계를 방지한다. 프레임 경계 외부에 해당하는 코딩 유닛은 비트스트림으로 인코딩되지 않는다. 코딩 유닛1(601)은 비트스트림(700)에서 비트스트림 컴포넌트1(701)로 인코딩된다. 코딩 유닛2 내지 코딩 유닛10은 마찬가지로 비트스트림(700)에서 비트스트림 컴포넌트2 내지 비트스트림 컴포넌트10으로 인코딩된다.

분할 플래그는 영역이 분할된다는 것을 나타내는데 이용되며, 1의 플래그값은 영역이 분할됨을 나타내는 반면 0의 플래그값은 영역이 분할되지 않음을 나타낸다. 분할되는 영역은 4개의 동등한 크기의 비중복되는 더 작은 영역으로 세분되고, 이것은 집합적으로 부모 영역의 전체를 점유한다. 미리결정된 최소 코딩 유닛(SCU)과 크기가 동등한 임의의 영역은, 그 영역이 세분되지 않는다는 것을 나타내는 분할 플래그를 추론하는 0값을 가질 것이다. 최소 코딩 유닛의 크기보다 큰 임의의 영역은 분할 플래그가 인코딩될 것을 요구한다.

분할 플래그(709)는, 최대 코딩 유닛(LCU)(600)의 영역(604)이, 영역(605) 등의, 4개의 32x32 영역으로 분할된다는 것을 나타낸다. 분할 플래그(710)는 영역(605)이 더 분할되지 않는다는 것을 나타낸다. 코딩 유닛4(603)는 최소 코딩 유닛(SCU)이므로 추가의 분할은 가능하지 않다. 따라서, 분할 플래그는 코딩 유닛4 내지 코딩 유닛7 각각에 대해 인코딩되지 않는다. 그러나, 영역(607)이 세분된다는 것을 나타내는 1값의 분할 플래그가 있다. 영역(607)에 대한 분할 플래그(711)는 코딩 유닛4(603) 이전에 위치한다.

비트스트림 컴포넌트1(701)은 산술 코딩 및 바이패스 코딩의 혼합을 이용한 2진화된 신택스 요소를 포함한다. 산술적으로 코딩된 예측 모드(703)는 코딩 유닛1(601)이 인터-예측 또는 인트라-예측을 이용하는지를 결정한다. 코딩 유닛이 인트라-예측을 이용한다면, 산술적으로 코딩된 최고 확률 모드 플래그(704)는 인트라-예측에 대한 최고 확률 모드가 이용되는지 또는 인트라-예측 모드를 인코딩하기 위한 대안적 방식이 이용되는지를 인코딩된다. 최고 확률 모드가 이용된다면, 인트라-예측 모드 코드(705)는 1비트의 길이를 갖는 최고 확률 모드 인덱스를 바이패스 인코딩한다. 최고 확률 모드 인덱스는 인트라-예측의 2개의 미리결정된 최고 확률 모드 중 어느 것이 코딩 유닛에 이용되는지를 결정한다. 최고 확률 모드가 이용되지 않는다면, 인트라-예측 모드 코드(705)는 코딩 유닛에 대한 인트라-예측 모드를 명시하는 잔여 모드(remaining mode)를 인코딩한다. 인트라-예측 모드 코드(705)는 잔여 모드에 대해 5 또는 6비트의 길이를 가질 수 있다. 데이터 블록(706)은 코딩 유닛(601) 내의 하나 이상의 변환 유닛에 대해 산술 및 바이패스 인코딩을 이용한다. 비트스트림 컴포넌트1(701)은 코딩 유닛1을 디코딩하는데 요구되는 모든 신택스 요소를 포함한다. 유사한 방식으로, 비트스트림 컴포넌트2 내지 10은 코딩 유닛2 내지 10을 각각 디코딩하기 위해 요구되는 신택스 요소를 포함한다.

최대 코딩 유닛(LCU)(600)을 인코딩하는 본 개시에 따른 비트스트림(800)이 도 6 및 도 8을 참조하여 설명될 것이다. 도 8은 인코딩된 2진화된 신택스 요소를 표현하기 위한 도 7의 규약을 채용한다. 비트스트림(800)은 최대 코딩 유닛(LCU)(600)을 인코딩하는 인코딩된 비트스트림(113)의 일부를 나타낸다. 비트스트림(800)은 제1 상세 레벨(820)에서 볼 수 있는 3개 부분들, 즉, 코딩 유닛 1 내지 10의 코딩 유닛 구조에 대한 정보를 그룹화하는 산술적으로 인코딩된 제1 데이터 블록(801), 코딩 유닛1 내지 10에 대한 인트라-예측 모드에 관한 정보를 그룹화하는 바이패스 인코딩된 제2 데이터 블록(802), 및 코딩 유닛1 내지 10에 대한 잔차 데이터에 대한 정보를 그룹화하고 산술적 및 바이패스 인코딩된 데이터 양쪽 모두를 포함하는 제3 데이터 블록(803)을 가진다. 비트스트림(700)과는 달리, 비트스트림(800)의 3개 부분들 각각은 코딩 유닛1 내지 10에 관한 정보를 포함할 수 있다.

산술적으로 인코딩된 제1 데이터 블록은, 바람직하게는, 분할 플래그, 예측 모드, 및 인트라-예측이 이용되는 때와, 요구된다면 코딩 유닛1 내지 10에 대한 최고 확률 모드 정보를 저장하는데 이용된다. 제1 데이터 블록이 도 8의 비트스트림(800)의 제2 상세 레벨(830)에서 더 상세히 예시되어 있다. 제2 상세 레벨(830)에서 도시된 바와 같이, 제1 분할 플래그(813)는, 최대 코딩 유닛(LCU)(600)의 영역(604)이 영역(605) 등의 4개의 32x32 영역으로 분할된다는 것을 나타내기 위해 1의 값을 가진다. 분할 플래그(807)는 영역(605)이 추가의 분할을 갖지 않는다는 것을 나타내기 위해 0의 값을 가진다. 예측 모드(808)는 코딩 유닛1이 인터예측을 이용하는지 인트라-예측을 이용하는지를 나타내는 값을 인코딩한다. 코딩 유닛1이 인트라-예측을 이용할 때, 최고 확률 모드 플래그(809)는, 최고 확률 모드 또는 잔여 모드 중 어느 하나가 코딩 유닛의 인트라-예측에 이용되었는지를 나타낸다. 분할 플래그, 예측 모드값 및 최고 확률 모드 플래그들의 추가 인스턴스들이 비트스트림 부분(804)에서 인코딩되어 최대 코딩 유닛(LCU)(600)의 코딩 유닛2 내지 10을 나타낸다. 먼저, 분할 플래그(813), 분할 플래그(807), 예측 모드(808), 최고 확률 모드 플래그(809), 및 비트스트림 부분(804) 모두는, 오로지 산술적으로 코딩된 신택스 요소만으로 구성될 수 있는 비트스트림 부분(801)의 부분을 형성한다.

데이터(802)의 제2 블록은, 코딩 유닛1(601)이 인트라-예측을 이용할 때 비트스트림(800)에 존재하는 바이패스 데이터(810)를 포함한다. 인트라-예측이 이용되고 최고 확률 모드 플래그(809)가 최고 확률 모드가 이용되고 있다는 것을 나타낼 때, 바이패스 데이터(810)는 2개의 최고 확률 모드 중 하나의 이용을 인코딩하는 인덱스이다. 인덱스는 1비트의 고정된 길이를 점유한다. 대안으로서, 인트라-예측이 이용되고 최고 확률 모드 플래그(809)에 의해 잔여 모드가 이용된다는 것이 표시될 때, 바이패스 데이터(810)는 33개의 상이한 잔여 인트라-예측 모드들(35개의 가능한 인트라-예측 모드들 중에서, 2개의 최고 확률 모드가 배제되어, 33개의 잔여 모드를 남긴다) 중 하나의 이용을 인코딩하는 인덱스이다. 이 경우 바이패스 데이터(810)는 인코딩된 인트라-예측 모드에 따라 5 또는 6 비트의 길이를 가진다. 바이패스 데이터(810)의 길이 또는 크기는, 코딩 유닛 구조에 의해 설정된 바이패스 데이터(810)의 처음 5비트로부터 결정될 수 있다. 이 처음 5비트를 검사한 후에 비트스트림으로부터 제6 비트가 요구되는지를 결정하는 것이 가능하다. 인터-예측이 코딩 유닛1(601)에 대해 이용될 때, 비트스트림(800)으로부터 바이패스 데이터(810)는 생략된다. 코딩 유닛2 내지 10중 하나 이상이 인트라-예측을 이용한다면 바이패스 데이터 블록(805) 내의 코딩 유닛2 내지 10에 대해 바이패스 데이터(810)의 추가의 인스턴스들이 존재한다. 바이패스 데이터 블록(802)은 요구시에 바이패스 데이터(810)와 바이패스 데이터 블록(805)을 인코딩한다.

제3 데이터 블록(803)이 산술 및 바이패스 코딩된 데이터 블록(811)으로서 더 상세히 도시되어 있다. 데이터 블록(811)은, 비디오 데이터를 생성하기 위해 예측 모드 정보와 함께 이용될 수 있는 변환 유닛에 대한 잔차 계수를 포함하는 코딩 유닛1(601) 내의 하나 이상의 변환 유닛을 인코딩한다. 슬라이스 플래그(812)의 산술적으로 코딩된 끝(end)이 도 7을 참조하여 설명된 바와 동일한 조건에서 존재한다.

비트스트림(800)을 디코딩하기 위한 방법(900)이 도 6, 도 8 및 도 9를 참조하여 설명될 것이다. 방법(900)은 비트스트림(800)을 수신하고 3개의 데이터 블록을 처리하여 비트스트림(800) 내의 코딩 유닛들의 디코딩을 가능케한다. 방법(900)은 분할 플래그값 결정 단계(901)에서 시작하고, 여기서, 분할 플래그(807) 등의 분할 플래그의 값이 결정된다. 코딩 유닛이 최소 코딩 유닛(SCU)보다 클 때, 분할 플래그값은 비트스트림(800)으로부터 분할 플래그를 디코딩함으로써 결정된다. 코딩 유닛이, 코딩 유닛4(606) 등의, 최소 코딩 유닛(SCU)과 크기가 같을 때, 분할 플래그값은 제로인 것으로 추론된다.

그러면, 분할 플래그의 값은 코딩 유닛 구조가 현재 리프 노드에 있는지를 결정하는데 이용된다. 분할 플래그값이 제로이면, 리프 노드 테스트 단계(902)는 제어를 코딩 유닛 예측 모드 단계(903)에 전달한다. 그렇지 않다면, 리프 노드 테스트 단계(902)는 제어를 다시 분할 플래그값 결정 단계(901)에 전달하고, 코딩 트리의 깊이는 증가되어 도 6b와 관련하여 전술된 트리(630) 등의, 코딩 트리에서의 현재 레벨의 한 레벨 아래에 있는 영역을 나타낸다. 영역들은, 깊이 우선 방식(depth first manner)으로 코딩 트리를 처리함으로써 래스터 스캔 순서(raster scan order)로 처리된다. 래스터 스캔 순서의 이용은 도 6a의 코딩 유닛1 내지 10이 순서대로 처리되는 것을 보장한다.

코딩 유닛 예측 모드 단계(903)는 예측 모드값을 결정한다. 예측 모드값은, 예측 모드(808) 등의, 예측 모드를 디코딩함으로써 결정된다. 예측 모드는, 코딩 유닛에 이용되는 예측 모드와, 코딩 유닛을 하나 이상의 예측 유닛으로 분할하는데 이용되는 파티션 모드 양쪽 모두를 명시한다. 가능한 파티션 모드는 NxN 또는 2Nx2N이다. 파티션 모드가 NxN이면, 코딩 유닛은 4개의 예측 유닛으로 분할되고, 각각의 예측 유닛은 예측 모드를 가진다. 파티션 모드가 2Nx2N이면, 코딩 유닛은 단 하나의 예측 유닛만을 포함한다. NxN 및 2Nx2N 파티션 모드들은 예측 유닛들이 정사각형을 갖게 한다. 직사각형 예측 유닛으로 이어지는 예를 들어 2NxN 및 Nx2N 등의, 다른 파티션 모드들도 역시 가능하다. 인트라-예측 또는 인터-예측이 코딩 유닛 레벨에서 명시되므로, NxN의 경우, 4개 모두의 예측 유닛들은 인트라-예측일 것이지만, 각각의 예측 유닛은 상이한 인트라-예측 모드를 가질 수 있으므로, 각각의 예측 유닛은 별개의 최고 확률 모드(MPM) 플래그와 예측 모드를 가진다는 점에 유의한다. 방법(900)이 일반적으로 단일의 예측 유닛을 갖는 각각의 코딩 유닛과 관련하여 설명되지만, 방법(900)은 복수의 예측 유닛을 포함하는 코딩 유닛을 포괄하도록 확장될 수 있다.

분할 플래그값이 제로이고 코딩 유닛에 대한 예측 모드값이 인트라-예측을 명시할 때, MPM 플래그 단계(904)는 최고 확률 모드 플래그값을 결정한다. 최고 확률 모드 플래그값은, 도 8의 최고 확률 모드 플래그(804) 등의 최고 확률 모드 플래그를 디코딩함으로써 결정된다. 추가 노드 테스트 단계(905)는 최대 코딩 유닛(LCU) 내의 마지막 코딩 유닛을 만났는지를 결정한다. 만일 그렇다면, 제어는 인트라-예측 모드 결정 단계(906)로 전달된다. 만일 그렇지 않다면, 제어는 분할 플래그값 결정 단계(901)로 복귀된다.

도 6의 코딩 유닛1(601) 등의 32x32 인트라-예측 코딩 유닛의 경우, 코딩 유닛은, 코딩 유닛의 파티션 모드에 따라 1, 2, 또는 4개의 예측 유닛을 포함할 수 있다. 단계(906 및 907)는 단계들(901 내지 905)에서 결정되었던 코딩 유닛 구조에 관해 반복된다. 인트라-예측 모드 결정 단계(906)는 예측 유닛에 대한 인트라-예측 모드를 다음과 같이 결정한다. 예측 유닛에 대한 최고 확률 모드 플래그값이 최고 확률 모드가 이용되었음을 나타내면, 바이패스 디코딩을 이용하여 비트스트림(800)으로부터 1-비트 최고 확률 모드 인덱스값이 디코딩된다. 1-비트 최고 확률 모드 인덱스 값은 2개의 가능한 최고 확률 모드 중 어느 것이 이용되는지를 나타낸다. 그렇지 않다면, 최고 확률 모드 플래그 값은 잔여 모드의 이용을 나타내고 바이패스 디코딩을 이용하여 비트스트림(800)으로부터 잔여 모드값이 디코딩된다. 유효한 인트라-예측 모드 값들의 개수와 가변 길이 코드의 범위는 예측 유닛의 크기에 의존한다. 주어진 예측 유닛 크기에 대한 이용가능한 인트라-예측 모드들 중에서, 잔여 모드수는 이용가능한 모드수로부터 최고 확률 모드수를 감산한 것과 같다. 잔여 모드수가 2의 거듭제곱이면, 잔여 모드는 고정 길이 코드를 이용할 수 있고, 그렇지 않다면, 가변 길이 코드가 이용된다. 예를 들어, 18개의 이용가능한 인트라-예측 모드와 2개의 최고 확률 모드를 갖는 인트라예측된 4x4 예측 유닛은 16개의 잔여 모드를 갖기 때문에 잔여 모드를 인코딩하기 위해 4-비트 코드를 이용할 수 있다. 대안으로서, 19개의 이용가능한 인트라-예측 모드와 2개의 최고 확률 모드를 갖는 인트라예측된 4x4 예측 유닛은 17개의 잔여 모드를 갖기 때문에 잔여 모드를 인코딩하기 위해 4 또는 5비트 코드를 이용할 수 있다. 2개의 최고 확률 모드를 갖는 인트라-예측된 8x8 예측 유닛은 33개의 잔여 모드를 갖기 때문에 5 또는 6 비트의 가변 길이 코드를 이용할 수 있다. 한 구현에서 가변 길이 코드는 잔여 모드에 이용되는 가변 길이 코드의 길이를 결정하기에 최소한의 충분한 빈수(number of bins)를 판독함으로써 디코딩된다. 이러한 예측 유닛의 경우, 제6 비트가 디코딩될 필요가 있는지를 결정하기 위해 5개의 비트를 디코딩하는 것이 가능하다. 그 결과, 두 번째 판독이 수행되어 디코딩된 충분한 비트에 기초하여 잔여 모드의 후속 부분을 디코딩한다. 대안적 구현은 최고 확률 모드 플래그 이후에 인코딩된 산술적으로 코딩된 잔여 모드 플래그를 도입하여, 예측 유닛이 미리결정된 잔여 모드를 이용한다는 것을 나타낸다. 미리결정된 잔여 모드, 예를 들어, '평면 인트라-예측'이 이용되지 않는다면, 다른 잔여 모드들 중 하나는 바이패스-코딩된 잔여 모드 신택스 요소를 이용하여 인코딩된다. 예를 들어, 인트라-예측된 4x4 예측 유닛이, 2개의 최고 확률 모드 및 하나의 미리결정된 잔여 모드와 함께, 19개의 가용 모드를 갖는다면, 고정 길이 4비트 잔여 모드 신택스 요소를 이용하여 코딩될 수 있는 16개의 기타의 잔여 모드들이 존재한다. 또한, 인트라-예측된 8x8 예측 유닛이, 2개의 최고 확률 모드 및 하나의 미리결정된 잔여 모드와 함께, 35개의 가용 모드를 갖는다면, 고정 길이 5비트 잔여 모드 신택스 요소를 이용하여 코딩될 수 있는 32개의 기타의 잔여 모드들이 존재한다. 잔여 모드 또는 기타의 잔여 모드수가 2의 거듭제곱인 경우, 고정 길이 코드는 이용된 잔여 모드 또는 기타의 잔여 모드를 인코딩하기에 충분하다. 그러면, 예측 유닛에 대한 인트라-예측 모드는, 최고 확률 모드 플래그 값과, 최고 확률 모드 인덱스 값 또는 잔여 모드값 중 하나를 이용하여 결정된다. 대안으로서, 미리결정된 잔여 모드 플래그와 선택사항으로서 기타의 잔여 모드가 예측 유닛에 대한 인트라-예측 모드를 결정하는데 이용된다. 복수의 가변-길이 코드가 결합되는 경우, 코드의 디코딩을 완료하기 위해 추가의 판독이 필요한지를 결정하기 위해 최소 길이의 결합된 코드의 판독을 수행하는 것이 가능하다. 비트스트림(800)은 제2 데이터 블록(802)에서 가변-길이 잔여 모드의 최소-길이 부분들 각각을 인접하게 인코딩한 다음 제2 데이터 블록(802)에서 가변-길이의 임의의 잔여 데이터를 인코딩할 수 있다. 이 인코딩을 이용하여, 한 번의 판독으로 모든 최소-길이 부분을 판독하고 가변-길이 잔여 모드들의 판독을 완료하기 위한 잔여 데이터의 길이를 결정하는 것이 구현가능하다.

추가 노드 테스트 단계(907)는 그들의 인트라-예측 모드를 결정할 것을 필요로 하는 코딩 트리의 임의의 추가 노드가 있는지를 결정한다. 실행 단계(907)의 결과는, 인트라-예측 모드 결정 단계(906)가 최대 코딩 유닛(LCU)의 전체 노드에 걸쳐 반복되는 것이다.

잔차 데이터 디코드 단계(908)는 제3 데이터 블록(803)을 디코딩한다. 잔차 데이터 디코드 단계(908)는 최대 코딩 유닛(LCU)(600) 내의 코딩 유닛1 내지 10에 대한 변환 유닛들 각각을 디코딩한다. 각각의 변환 유닛이 디코딩될 때, 역 스케일 및 변환 모듈(203)은 잔차 데이터를 주파수 영역으로부터 공간 영역으로 변환하여 잔차 샘플(224)을 생성한다. 인트라-예측 모드를 이용하여, 인트라-프레임 예측 모듈(205)은 각각의 예측 유닛에 대한 예측(234)을 결정한다. 최대 코딩 유닛(LCU)(600)을 디코딩하기 위한 추가의 단계들은 도 2에서 설명된 동작과 일치한다.

비트스트림(800)을 디코딩하기 위한 방법(1000)이 도 10을 참조하여 설명될 것이다. 방법(1000)은 코딩 유닛 구조 결정 단계(1001)에서 시작하여, 산술적으로 인코딩된 제1 데이터 블록(801) 내의 분할 플래그 정보에 기초하여 복수의 코딩 유닛들로의 최대 코딩 유닛(LCU)의 분할을 표현하는 코딩 유닛 구조를 구성한다. 코딩 유닛에 관한 기타의 정보도 역시 제1 데이터 블록(801)으로부터 결정된다. 이 정보는 코딩 유닛에 대한 예측 모드 값과 코딩 유닛의 임의의 예측 유닛에 대한 MPM 플래그를 포함한다. 이것이 어떻게 이루어지는지에 대한 추가의 상세사항은 상기 도 9에서 분할 플래그값 결정 단계(901), 리프 노드 단계(902), 코딩 유닛 예측 모드값 결정 단계(903), 예측 유닛 MPM 플래그값 결정 단계(905), 및 추가 노드 단계(906)에서 설명되었다.

그 다음, 바이패스 인코딩된 데이터 디코드 단계(1002)는 바이패스 인코딩된 제2 데이터 블록(802)을 디코딩한다. 바이패스 인코딩된 제2 데이터 블록(802)은 최대 코딩 유닛(LCU)의 인트라-예측된 코딩 유닛들 각각에 이용되는 인트라-예측 모드들에 관한 정보를 제공한다. 바이패스 인코딩된 데이터 디코드 단계(1002)는 전술된 도 9의 인트라-예측 모드 결정 단계(906) 및 추가 노드 단계(907)에서 더 상세히 설명된다.

그 다음 방법(1000)은 제3 데이터 블록(803)으로부터 잔차 데이터가 디코드되는 잔차 데이터 디코드 단계(1003)로 진행한다. 전술된 바와 같이, 제3 데이터 블록(803)은 산술적으로 및 바이패스 인코딩된 데이터 양쪽 모두를 포함한다. 잔차 데이터 디코드 단계(1003)는 상기 도 9의 잔차 데이터 디코드 단계(908)에서 더 상세히 설명된다.

마지막으로, 코딩 유닛 형성 단계(1004)는 바이패스 인코딩된 데이터 디코드 단계(1002)로부터의 인트라-예측 모드와 잔차 데이터 디코드 단계(1003)로부터의 잔차 데이터를 결합하여, 도 2와 관련하여 설명된 바와 같은, 디코딩된 코딩 유닛을 형성한다. 일단 디코딩된 코딩 유닛이 형성되고 나면, 인트라-예측 모드와 잔체 데이터가 결합되어 디코딩된 비디오 프레임의 부분을 형성할 수 있다.

방법(1000)이 도 9의 방법(900)과 관련하여 설명되었지만, 이 방법은 후술되는 도 14의 방법(1400) 및 도 17의 방법(1700) 등의 다른 방법들도 역시 포괄할 수 있다.

비트스트림(800)을 인코딩하기 위한 방법(1100)이 이제 도 11을 참조하여 설명될 것이다. 방법(1100)은 비트스트림(800)을 인코딩하고 3개의 데이터 블록을 생성하여 비트스트림(800) 내의 코딩 유닛들의 디코딩을 가능케한다. 방법(1100)은, 분할 플래그(807) 등의 분할 플래그의 값이 인코딩되는 분할 플래그값 인코드 단계(1101)에서 시작된다. 분할 플래그의 위치를 지배하는 규칙이 도 6a 및 도 6b와 관련하여 상기에서 더 상세히 논의된다. 코딩 유닛이 최소 코딩 유닛(SCU)보다 클 때, 분할 플래그는 적절한 분할 플래그값을 비트스트림(800) 내에 인코딩한다. 그러나, 코딩 유닛이 도 6b의 코딩 유닛4(606) 등의 최소 코딩 유닛(SCU)과 크기가 동일할 때 분할 플래그는 인코딩되지 않는다.

분할 플래그값이 제로이면, 분할 플래그의 제로는 현재의 코딩 유닛이 코딩 트리의 리프 노드임을 나타내기 때문에 리프 노드 테스트 단계(1102)는 제어를 코딩 유닛 예측 모드값 인코드 단계(1103)에 전달한다. 코딩 트리의 현재 노드가 비-리프 노드이면, 리프 노드 테스트 단계(1102)는 제어를 다시 분할 플래그값 인코드 단계(1101)에 전달하고, 코딩 트리의 깊이는, 도 6c와 관련하여 전술된 트리(630) 등의 코딩 트리에서의 현재 레벨의 한 레벨 아래의 영역으로 증가된다. 도 9의 방법(900)에서와 같이, 영역들은 깊이 우선 방식으로 코딩 트리를 처리함으로써 래스터 스캔 순서로 처리된다. 래스터 스캔 순서의 이용은 도 6a의 코딩 유닛1 내지 10이 순서대로 처리되는 것을 보장한다.

유닛 예측 모드 인코드 단계(1103)는 예측 모드값을 인코드한다. 인터-예측된 예측 유닛과 인트라-예측된 예측 유닛 양쪽 모두를 포함하는 슬라이스의 경우, 예측 모드는 이용된 예측의 유형을 명시한다. 인트라-예측된 예측 유닛만을 포함하는 슬라이스의 경우, 예측 모드는 인코딩된 비트스트림(113)에서 인코딩되지 않는다. 도 9의 방법(900)과 유사한 방식으로, 예측 모드는 코딩 유닛에 이용되는 예측 모드와 파티션 모드 양쪽 모두를 명시한다. 방법(1100)이 단일의 예측 유닛을 갖는 코딩 유닛과 관련하여 설명되지만, 이 방법은 복수의 예측 유닛을 포함하는 코딩 유닛을 포괄하도록 확장될 수 있다.

분할 플래그값이 제로이고 코딩 유닛에 대한 예측 모드값이 인트라-예측을 명시할 때, MPM 플래그 인코드 단계(1104)는 최고 확률 모드 플래그값을 결정한다. 도 1의 인트라-프레임 예측 모듈(109)은 예측 유닛에 대한 인트라예측 모드를 결정한다. 인트라-예측 예측 모듈(109)은 또한 인트라-예측에 대한 2개의 최고 확률 모드를 결정한다. 결정된 인트라예측 모드가 최고 확률 모드들 중 하나와 같다면, 최고 확률 모드 플래그값이 1로 설정되어, 최고 확률 모드의 이용을 나타낸다. 그렇지 않다면, 최고 확률 모드 플래그값이 0으로 설정되어 잔여 모드의 이용을 나타낸다. 도 8의 최고 확률 모드 플래그(804) 등의 최고 확률 모드 플래그는 최고 확률 모드 플래그값으로서 인코딩된다. 추가 노드 테스트 단계(1105)는 최대 코딩 유닛(LCU) 내의 마지막 코딩 유닛을 만났는지를 결정한다. 만일 그렇다면, 제어는 바이패스 데이터 인코드 단계(1106)로 전달된다. 만일 그렇지 않다면, 제어는 분할 플래그값 인코드 단계(1101)를 실행하기 위해 복귀된다.

도 6의 코딩 유닛1(601) 등의 32x32 인트라-예측 코딩 유닛의 경우, 코딩 유닛은, 코딩 유닛의 파티션 모드에 따라 1, 2, 또는 4개의 예측 유닛을 포함할 수 있다. 바이패스 데이터 인코드 단계(1106)는 예측 유닛에 대한 인트라예측 모드를 다음과 같이 결정한다. 예측 유닛에 대한 최고 확률 모드 플래그값이 최고 확률 모드가 이용되었음을 나타내면, 2개의 이용가능한 최고 확률 모드들 중 어느 것이 선택되었는지를 나타내는 1-비트 최고 확률 모드 인덱스 값이 바이패스 인코딩을 이용하여 비트스트림(800) 내에 인코딩된다. 그렇지 않다면, 최고 확률 모드 플래그 값은 잔여 모드의 이용을 나타내고 잔여 모드값은 바이패스 인코딩을 이용하여 비트스트림(800) 내에 인코딩된다. 복수의 최고 확률 모드 인덱스값 또는 잔여 모드값이 결합되는 경우, 각각의 예측 유닛에 대한 코드를 별개로 기입하는 것 대신에 결합된 코드 기입을 단일의 동작으로 수행하는 것이 가능하다.

추가 노드 테스트 단계(1107)는 그들의 인트라-예측 모드를 결정할 것을 필요로 하는 코딩 트리의 임의의 추가 노드가 있는지를 결정한다. 결과는, 바이패스 데이터 인코드 단계(1106)가 최대 코딩 유닛(LCU)의 모든 노드들에 관해 반복되는 것이다. 바이패스 데이터 인코드 단계(1106)와 추가 노드 단계(1107)에 관한 반복은 기입될 데이터의 길이를 결정하기 위하여 인코딩된 비트스트림(113)에 바이패스 데이터를 기입하기 이전에 발생할 수 있다.

잔차 데이터 인코드 단계(1108)는 제3 데이터 블록(803)을 인코딩한다. 잔차 데이터 인코드 단계(1108)는 최대 코딩 유닛(LCU)(600)에서의 코딩 유닛1 내지 10에 대한 변환 유닛들 각각을 인코딩된 비트스트림(113) 내로 인코딩한다. 각각의 변환 유닛을 인코드하기 위하여, 잔차 샘플(122)은 변환 블록(102)에 의해 변환 계수(124)로 변환된다. 그 다음, 스케일 및 양자화 블록(103)은 변환 계수(124)를 잔차 계수(126)로 변환한다. 잔차 계수(126)는 엔트로피 인코더(104)에 의해 인코딩된 비트스트림(113)으로 인코딩된다. 최대 코딩 유닛(LCU)(600)을 인코딩하기 위한 추가의 단계들은 도 1의 비디오 인코더(100)에서 설명된 동작과 일치한다.

비트스트림(800)을 인코딩하기 위한 방법(1200)이 도 12를 참조하여 설명될 것이다. 방법(1200)은 코딩 유닛 구조 인코드 단계(1201)에서 시작하여, 산술적으로 인코딩된 제1 데이터 블록(801)에서 분할 플래그 정보를 인코딩함으로써 복수의 코딩 유닛들로의 최대 코딩 유닛(LCU)의 분할을 표현하는 코딩 유닛 구조를 인코딩한다. 코딩 유닛에 관한 기타의 정보도 역시 제1 데이터 블록(801) 내에 인코딩된다. 이 정보는 코딩 유닛에 대한 예측 모드 값과 코딩 유닛의 임의의 예측 유닛에 대한 MPM 플래그를 포함한다. 이것이 어떻게 이루어지는지에 대한 추가의 상세사항은 상기 도 11에서 분할 플래그값 인코드 단계(1101), 리프 노드 단계(1102), 코딩 유닛 예측 모드값 인코드 단계(1103), 예측 유닛 MPM 플래그값 인코드 단계(1105), 및 추가 노드 단계(1106)에서 설명되었다.

그 다음, 바이패스 인코딩된 데이터 인코드 단계(1202)는 바이패스 인코딩된 제2 데이터 블록(802)을 인코딩한다. 바이패스 인코딩된 제2 데이터 블록(802)은 최대 코딩 유닛(LCU)의 인트라-예측된 코딩 유닛들 각각에 이용되는 인트라-예측 모드들에 관한 정보를 인코딩한다. 바이패스 인코딩된 데이터 인코드 단계(1202)는 전술된 도 11의 바이패스 데이터 인코드 단계(1106) 및 추가 노드 단계(1107)에서 더 상세히 설명된다.

그 다음 방법(1200)은 잔체 데이터가 제3 데이터 블록(803) 내에 인코딩되는 잔차 데이터 인코드 단계(1203)로 진행한다. 전술된 바와 같이, 제3 데이터 블록(803)은 산술적으로 및 바이패스 인코딩된 데이터를 포함한다. 잔차 데이터 인코드 단계(1203)는 상기 도 11의 잔차 데이터 인코드 단계(1108)에서 더 상세히 설명된다.

데이터 블록 저장 단계(1204)는, 데이터 블록(801) 내의 산술적으로 코딩된 데이터, 데이터 블록(802) 내의 바이패스 코딩된 데이터, 및 데이터 블록(803) 내의 산술적으로 코딩된 및 바이패스 코딩된 데이터의 혼합을 인코딩된 비트스트림(113) 내에 저장한다. 데이터 블록 저장 단계(1204)는 데이터 블록을 저장하는 단일 단계로서 구현되거나, 데이터 블록들이 방법(1200)에서 그들 각각의 단계들에 의해 생성되기 때문에 인코딩된 데이터의 중간 버퍼링으로서 구현될 수도 있다.

방법(1200)이 도 11의 방법(1100)과 관련하여 설명되었지만, 이 방법은 후술되는 도 14의 방법(1400) 및 도 17의 방법(1700) 등의 디코딩에 관련된 다른 인코딩 방법들도 역시 포괄할 수 있다.

최대 코딩 유닛(LCU)(600)을 인코딩하기 위한 대안적 비트스트림(1300)이 도 13을 참조하여 설명될 것이다. 도 13은 인코딩된 2진화된 신택스 요소를 표현하기 위한 도 7의 규약을 채용한다. 비트스트림(1300)은 최대 코딩 유닛(LCU)(600)을 인코딩하는 인코딩된 비트스트림(113)의 일부를 나타낸다. 제1 데이터 블록(1301)은 제1 데이터 블록(801)과 유사한 구조를 가지며 전적으로 산술 코딩만을 이용하여 신택스 요소를 인코딩한다. 제1 데이터 블록(1301)은, 제1 데이터 블록(1301)이 예측 모드(1308) 등의 예측 모드를 이용하여 코딩 유닛에 대한 예측 모드값을 산술적으로 인코딩하기 때문에, 제1 데이터 블록(801)과 유사하다. 제1 데이터 블록(801)과는 대조적으로, 제1 데이터 블록(1301)은, 제1 데이터 블록(801)의 최고 확률 모드 플래그(809) 등의, 최고 확률 모드 플래그를 인코딩하지 않는다. 대신에, 최고 확률 모드 플래그(1309)는 바이패스 코딩을 이용하여 제2 데이터 블록(1302)에서 인코딩된다. 제2 데이터 블록(1302)은 제2 데이터 블록(802)에 대해 설명된 바와 같이 신택스 요소를 인코딩하기 위해 전적으로 바이패스 인코딩만을 이용한다. 바이패스 인코딩을 이용한 최고 확률 모드의 인코딩은, 바이패스 빈들의 더 큰 그룹을 단일의 판독 동작으로 판독함으로써 더 높은 처리량을 갖는 디코딩을 허용할 수 있다. 바이패스 데이터(810)와 유사한 방식으로, 예측 모드(1308)가 인트라-예측의 이용을 나타낼 때, 비트스트림(1300)은 최고 확률 모드 인덱스 또는 잔여 모드를 나타내는 바이패스 데이터(1310)를 포함한다.

대안적 구현이 이제, 대안적 비트스트림(1300)을 디코딩하기 위한 도 14의 방법(1400)과 관련하여 설명될 것이다. 분할 플래그값 결정 단계(1401), 리프 노드 단계(1402), 코딩 유닛 예측 모드값 결정 단계(1403), 및 추가 노드 단계(1404)는, 도 9의 분할 플래그값 결정 단계(901), 리프 노드 단계(902), 코딩 유닛 예측 모드값 결정 단계(903), 및 추가 노드 단계(905)와 유사하게 동작한다. 방법(900)과는 대조적으로, 도 9의 예측 유닛 MPM 플래그 값 결정 단계(904)에 대응하는 단계는 도 14의 상기 세트의 단계들에 포함되지 않는다. 대신에 대응하는 단계, 즉 단계(1405)는 방법(1400)에서 나중에 발생한다. 예측 유닛 MPM 플래그값 결정 단계(1405)는, 바이패스-코딩된 최고 확률 모드 플래그(1309)가 비트스트림(1300)으로부터 디코딩된다는 것을 제외하고는, 도 9의 대응하는 단계(904)와 유사하게 예측 유닛 MPM 플래그값을 결정한다. 인트라-예측 모드 결정 단계(1406), 추가 노드 단계(1407), 및 잔차 데이터 디코드 단계(1408)는, 도9의 인트라-예측 모드 결정 단계(906), 추가 노드 단계(907), 및 잔차 데이터 디코드 단계(908)을 참조하여 설명된 것처럼 동작한다.

도 15의 예시적인 최대 코딩 유닛(LCU)(1500)이 이제 설명될 것이다. 최대 코딩 유닛(LCU)(1500)은 도 6의 최대 코딩 유닛(LCU)(600)과 동일한 코딩 유닛1 내지 10의 구성을 가진다. 그러나, 최대 코딩 유닛(LCU)(600)과는 대조적으로, 최대 코딩 유닛(LCU)(1500)은 미세 입도 슬라이스가 인에이블되었을 때 코딩 유닛9(1503)과 코딩 유닛10(1505) 사이에 슬라이스 경계를 포함한다. 따라서, 도 15의 코딩 유닛1 내지 9는 제1 슬라이스에 있는 반면 코딩 유닛10(1505)은 제2 슬라이스에 있다.

최대 코딩 유닛(LCU)(1500)을 인코딩하는 도 16에 도시된 비트스트림(1600)이 이제 설명될 것이다. 비트스트림(1600)은 미세 입도 슬라이스가 인에이블된 채 인코딩되고, 미세 입도 슬라이스 임계치는 슬라이스 경계를 32x32 코딩 유닛 경계로 제한하도록 구성된다. 미세 입도 슬라이스가 인에이블되면, 최대 코딩 유닛(LCU)(1500)은 미세 입도 슬라이스 임계치와 같거나 이를 초과하는 크기의 임의의 영역에서 별개의 슬라이스들로 분할될 수 있다. 슬라이스 종료 신택스 요소는 슬라이스의 종료를 나타낸다. 슬라이스 종료 신택스 요소는, 그 크기가 미세 입도 슬라이스 임계치와 동일한 각 영역에서 마지막 코딩 유닛 이후에 코딩된다. 도 16에는, 64x64 최대 코딩 유닛(LCU)이 32x32의 경계 크기를 갖기 때문에 4개의 슬라이스 종료 신택스 요소가 있다. 슬라이스 종료 신택스 요소는 코딩 유닛1, 8, 9, 및 10 이후에 위치할 것이다. 하나의 슬라이스 내의 신택스 요소들은 그 슬라이스 내의 코딩 유닛들을 완전히 기술해야 하는 것이 요건이다. 미세 입도 슬라이스가 인에이블되면, 2개 슬라이스로의 최대 코딩 유닛(LCU)(1500)의 분할 결정은 비트스트림(1600)의 인코딩을 통해 다중방식으로 이루어질 수 있다. 따라서, 복수의 코딩 유닛으로부터의 정보가 제1, 제2, 및 제3 데이터 블록에서 함께 그룹화될 때, 그룹의 코딩 유닛들은 종료 플래그를 넘어 확장되지 못할 것이다. 비트스트림 컴포넌트(1601)는 코딩 유닛1에 대한 신택스 요소를 포함한다. 비트스트림 컴포넌트(1602)는, 영역(607)에 포함된 도 15의 코딩 유닛2 내지 8을 인코딩하는 제1 데이터 블록(1615), 제2 데이터 블록(1616), 및 제3 데이터 블록(1607)을 포함한다. 도 15의 코딩 유닛2 내지 8을 인코딩하는 제1 데이터 블록(1615), 제2 데이터 블록(1616), 및 제3 데이터 블록(1607)은, 도 8의 제1 데이터 블록(801), 제2 데이터 블록(802) 및 제3 데이터 블록(803)과 유사하다. 비트스트림(800)과는 대조적으로, 비트스트림(1600) 내의 제1, 제2, 및 제3 데이터 블록으로의 신택스 요소들의 그룹화는 미세 입도 슬라이스 임계치로 제약된다. 미세 입도 슬라이스 임계치는 32x32로 설정되므로, 코딩 유닛1, 9, 및 10은 다른 코딩 유닛들과 함께 그룹화되지 않는 반면, 코딩 유닛 2 내지 8은 함께 그룹화된다. 슬라이스 종료 플래그(1614)는, 제1 슬라이스가 코딩 유닛9(1503)에 이어 종료하고, 제2 슬라이스는 도 15의 코딩 유닛10(1505)에서 시작한다는 것을 나타낸다.

한 구현에서, 비트스트림(1600)은, 최대 코딩 유닛(LCU)(1500) 등의 각각의 최대 코딩 유닛(LCU)의 시작시에 미세 입도 슬라이스 인에이블 플래그를 인코딩한다. 최대 코딩 유닛(LCU)에 대해 미세 입도 슬라이스가 인에이블되지 않으면, 방법(900)은 그 최대 코딩 유닛(LCU)에 적용된다. 최대 코딩 유닛(LCU)에 대해 미세 입도 슬라이스가 인에이블되면, 방법(900)은 미세 입도 슬라이스 임계치와 크기가 같은 각각의 세분된 코딩 유닛에 적용된다.

추가의 대안적 구현이 이제, 비트스트림(800)을 디코딩하기 위한 도 17의 방법(1700)과 관련하여 설명될 것이다. 분할 플래그값 결정 단계(1701), 리프 노드 단계(1702), 코딩 유닛 예측 모드값 결정 단계(1703), 예측 유닛 MPM 플래그값 결정 단계(1704), 및 추가 노드 단계(1705)는, 도 9의 대응하는 단계들, 즉, 분할 플래그값 결정 단계(901), 리프 노드 단계(902), 코딩 유닛 예측 모드값 결정 단계(903), 예측 유닛 MPM 플래그값 결정 단계(904), 및 추가 노드 단계(905)와 유사하게 동작한다. 결과의 코딩 유닛 구조와 최고 확률 모드 정보는 바이패스 데이터 블록(802)을 판독하기 위해 바이패스 데이터 판독 단계(1706)에 의해 이용된다. 바이패스 데이터 블록(802)의 길이는 최고 확률 모드 인덱스와 잔여 모드의 길이를 결정함으로써 코딩 유닛 구조와 최고 확률 모드 정보에 의해 결정된다. 바이패스 데이터 판독 단계(1706)는 바이패스 데이터 블록(802)을 한 번의 동작 또는 복수의 동작으로 판독할 수 있지만, 한 번에 하나의 예측 유닛에 대한 정보를 판독하는 것으로 제약되지 않는다. 판독될 데이터량은 이미 결정된 바이패스 데이터 블록(802)의 길이이다.

그 다음, 예측 유닛으로의 인트라예측 모드 할당 단계(1707)는 바이패스 데이터 판독 단계(1706)로부터의 바이패스 데이터를 분할하고 각 예측 유닛에 대한 인트라예측 모드를 결정한다. 잔차 데이터 디코드 단계(1708)는 도 9의 잔차 데이터 디코드 단계(908)를 참조하여 설명된 바와 같이 동작한다.

잔여 모드가, 도 9를 참조하여 설명된 5 또는 6 비트 코드 등의 가변 길이 코드를 이용하여 코딩될 때, 바이패스 코딩된 데이터(802)의 길이는 바이패스 데이터 판독 단계(1706) 이전에 결정될 수 없다. 대신에, 최소 길이는, 코딩 유닛 구조와 최고 확률 모드 플래그값과 예측 유닛 크기에 대한 지식에 기초하여 계산될 수 있다. 최소 길이는 인코딩된 비트스트림(113)으로부터 판독되고 파싱(parse)되어 예측 유닛들 중 하나 이상의 인트라-예측 모드를 결정할 수 있다. 파싱은 바이패스 데이터의 길이가 알려질 때까지 반복적으로 적용될 수 있다. 하나 이상의 후속 바이패스 데이터 판독이 수행되어 인코딩된 비트스트림(113)으로부터 바이패스 코딩된 데이터(802) 전체를 판독할 수 있다. 전술된 대안적 구현의 바이패스 데이터 기술에 대한 가변 길이 코드가 도 17의 방법(1700)과 관련하여 설명되었지만, 이 기술은 도 9의 방법(900) 등의, 전술된 다른 디코딩 방법들 동안에 적용될 수도 있다.

최고 확률 모드 플래그가 바이패스 코딩될 때, 방법(1700)의 한 변형은 예측 유닛 MPM 플래그값 결정 단계(1704)를 제거하도록 동작할 수 있고, 예측 유닛 MPM 플래그값 결정 단계(1704)의 기능을 바이패스 데이터 판독 단계(1706) 내에 병합한다.

알려지지 않은 길이의 바이패스 코딩된 데이터를 소비하기 위한 대안적 구현은, 인코딩된 비트스트림(113)에 액세스하여 적어도 일부의 바이패스 코딩된 데이터를 포함하는 데이터의 세그먼트를 결정하도록 동작한다. 그러나, 앞서 설명된 접근법들과는 달리, 데이터는 비트스트림으로부터 소비되지 않는다. 최고 확률 모드 인덱스와 잔여 모드들은 데이터의 상기 세그먼트로부터 디코딩되고, 디코딩된 데이터의 길이에 대해 누계가 유지된다. 일단 모든 바이패스 인코딩된 데이터가 데이터 상기 세그먼트로부터 디코딩되고 나면, 누계 길이가 비트스트림으로부터 소비된다. 결과는, 데이터의 상기 세그먼트는 바이패스 코딩된 제2 데이터 블록(802)을 넘어 비트스트림 데이터에 액세스하지만, 그 데이터는 소비되지 않고, 따라서, 잔차 데이터 디코드 단계에 의한 디코딩에 대해 산술 및 바이패스 제3 데이터 블록(803)이 이용가능하다는 것이다. 전술된 대안적 구현의 가변 길이 코드 디코딩 기술이 도 17의 방법(1700)과 관련하여 설명되었지만, 이 기술은 도 9의 방법(900) 등의, 전술된 다른 디코딩 방법들 동안에 적용될 수도 있다.

방법들(900, 1000, 1400 및 1700)은, 비디오 디코더(200)에 적용될 때, 인코딩된 비트스트림(113) 등의 인코딩된 비트스트림의 파싱 처리량 증가를 실현하는 구현을 가능케 한다. 이것은, 바이패스 코딩된 데이터의 연결로 인해, 한 번의 동작에 의한 더 큰 양의 바이패스 코딩된 데이터의 판독을 통해 이루어진다. 증가된 처리량은, 바이패스 인코딩된 데이터의 판독 또는 기입이 시스템의 처리량을 증가시키도록 병렬로 수행될 수 있는 하드웨어 구현의 경우 가장 주목할만하다. 인코딩을 수행하도록 그에 따라 변경된 방법들(1100, 1200)과 방법들(1400 및 1700)이 인코딩된 비트스트림을 생성하기 위해 적용될 때 비디오 인코더(100)에 대해 유사한 혜택이 실현된다.

본 상세한 설명에 후속되는 부록 A는, 전술된 도 9의 방법(900)에 의해 디코딩될 수 있는 도 8의 비트스트림(800)을 명시하도록 고효율 비디오 코딩(HEVC) 테스트 모델 5.0(HM-5.0)에 가해질 수 있는 변형을 나타낸다.

산업상 이용가능성

설명된 구조는 컴퓨터 및 데이터 처리 산업과 특히 비디오 신호 등의 신호들의 디코딩을 인코딩하기 위한 디지털 신호 처리에 적용가능하다.

전술된 내용은 본 발명의 일부 실시예만을 설명하고 있고, 본 발명의 범위와 사상으로부터 벗어나지 않고 이에 대한 변형 및/또는 변경이 이루어질 수 있으며, 실시예들은 제약이 아닌 예시이다.

부록 A

하기는 전술된 도 9의 방법(900)에 의해 디코딩될 수 있는 도 8의 비트스트림(800)을 명시하기 위해 고효율 비디오 코딩(HEVC) 테스트 모델 5.0(HM-5.0)에 대해 이루어질 수 있는 수정을 나타낸다.

코딩 트리 신택스

분할 및 MPM 플래그에 대한 코딩 트리 신택스

루마 인트라 모드에 대한 코딩 트리 신택스

코딩 유닛 신택스

파티셔닝 모드와 MPM 플래그에 대한 코딩 유닛 신택스

루마 인트라 모드에 대한 코딩 유닛 신택스

예측 유닛 신택스

MPM 플래그에 대한 예측 유닛 신택스

루마 인트라 모드에 대한 예측 유닛 신택스

이하의 코딩 트리 신택스는 1, 2, 및 3으로 라벨링된 3개의 카테고리에 따른 데이터 블록들로의 신택스 요소들의 할당을 나타낸다.

코딩 트리 신택스

코딩 유닛 신택스

예측 유닛 신택스

(부록 A 끝)

Claims

비디오 데이터의 비트스트림의 디코딩 방법으로서,
복수의 제1 정보를 상기 비트스트림으로부터 디코딩하는 단계로서, 상기 복수의 제1 정보 각각은 코딩 유닛(coding unit) 내의 복수의 예측 유닛(prediction unit) 중 상이한 각각에 관한 것이고, 상기 복수의 제1 정보는 상기 비트스트림에 산술적으로 코딩되어 있고, 상기 복수의 제1 정보 각각은 상기 예측 유닛에 관한 복수의 특정 인트라 예측 모드 중 어떤 것이 사용되는지를 나타내는, 상기 복수의 제1 정보를 디코딩하는 단계;
상기 복수의 제1 정보를 디코딩한 후에, 복수의 제2 정보를 상기 비트스트림으로부터 디코딩하는 단계로서, 상기 복수의 제2 정보 각각은 상기 코딩 유닛 내의 상기 복수의 예측 유닛 중 상이한 각각에 관한 것이고, 상기 복수의 제2 정보는 상기 비트스트림에 바이패스 코딩되어 있고, 상기 복수의 제2 정보 각각은 인트라 예측 모드 중 하나를 지정하는, 상기 복수의 제2 정보를 디코딩하는 단계;
상기 코딩 유닛 내의 상기 복수의 예측 유닛에 관한 인트라 예측 모드를 결정하는 단계로서, 상기 인트라 예측 모드 각각은, 대응하는 상기 복수의 제1 정보 각각과 대응하는 상기 복수의 제2 정보 각각에 따라서, 상기 코딩 유닛 내의 상기 복수의 예측 유닛 중 상이한 각각에 대해서 상기 인트라 예측 모드를 결정하는 단계; 및
상기 결정된 인트라 예측 모드를 사용해서 상기 복수의 예측 유닛을 디코딩하는 단계
를 포함하는, 디코딩 방법.
제1항에 있어서,
상기 제2 정보는 최고 확률 모드 인덱스(most probable mode index) 또는 잔여 인트라 예측 모드 중 하나를 지정하기 위한 정보인, 디코딩 방법.
제2항에 있어서,
상기 잔여 인트라 예측 모드는 상기 복수의 특정 인트라 예측 모드 이외의 인트라 예측 모드인, 디코딩 방법.
제2항에 있어서,
상기 최고 확률 모드 인덱스는 상기 복수의 특정 인트라 예측 모드 중 하나를 지정하는, 디코딩 방법.
제1항에 있어서,
상기 제1 정보는 플래그인, 디코딩 방법.
제1항에 있어서,
상기 복수의 특정 인트라 예측 모드는 상기 예측 유닛에 관한 최고 확률 모드인, 디코딩 방법.
코딩 방법으로서,
코딩 유닛 내의 복수의 예측 유닛에 관한 인트라 예측 모드를 결정하는 단계로서, 상기 인트라 예측 모드 각각은 상기 복수의 예측 유닛의 상이한 각각에 관해서 상기 인트라 예측 모드를 결정하는 단계;
상기 결정된 인트라 예측 모드를 사용해서 상기 복수의 예측 유닛에 대응하는 데이터를 비디오 데이터의 비트스트림으로 코딩하는 단계;
복수의 제1 정보를 상기 비트스트림으로 코딩하는 단계로서, 상기 복수의 제1 정보 각각은 상기 코딩 유닛 내의 상기 복수의 예측 유닛 중 상이한 각각에 관한 것이고, 상기 복수의 제1 정보는 산술적으로 코딩되어 있고, 상기 복수의 제1 정보 각각은 상기 예측 유닛에 관해 복수의 특정 인트라 예측 모드 중 어떤 것이 사용되는지를 나타내는, 상기 복수의 제1 정보를 코딩하는 단계; 및
상기 복수의 제1 정보를 코딩한 후에, 복수의 제2 정보를 상기 비트스트림으로 코딩하는 단계로서, 상기 복수의 제2 정보 각각은 상기 코딩 유닛 내의 상기 복수의 예측 유닛 중 상이한 각각에 관한 것이고, 상기 복수의 제2 정보는 바이패스 코딩되어 있고, 상기 복수의 제2 정보 각각은 인트라 예측 모드 중 하나를 지정하는, 상기 복수의 제2 정보를 코딩하는 단계
를 포함하는, 코딩 방법.
제7항에 있어서,
상기 제2 정보는 최고 확률 모드 인덱스 또는 잔여 인트라 예측 모드 중 하나를 지정하기 위한 정보인, 코딩 방법.
제8항에 있어서,
상기 잔여 인트라 예측 모드는 상기 복수의 특정 인트라 예측 모드 이외의 인트라 예측 모드인, 코딩 방법.
제8항에 있어서,
상기 최고 확률 모드 인덱스는 상기 복수의 특정 인트라 예측 모드 중 하나를 지정하는, 코딩 방법.
제7항에 있어서,
상기 제1 정보는 플래그인, 코딩 방법.
제7항에 있어서,
상기 복수의 특정 인트라 예측 모드는 상기 예측 유닛에 관한 최고 확률 모드인, 코딩 방법.
컴퓨터화된 장치로서,
제1항의 방법에 따라서 비디오 데이터의 비트스트림의 디코딩 처리를 행하도록 구성된, 컴퓨터화된 장치.
컴퓨터화된 장치로서,
제7항의 방법에 따라서 비디오 데이터의 비트스트림의 코딩 처리를 행하도록 구성된, 컴퓨터화된 장치.
프로그램을 기록하고 있는 컴퓨터 판독가능한 저장 매체로서, 상기 프로그램은 제1항에 따른 방법을 수행하도록 컴퓨터화된 장치에 의해 실행가능한 것인, 컴퓨터 판독가능한 저장 매체.
프로그램을 기록하고 있는 컴퓨터 판독가능한 저장 매체로서, 상기 프로그램은 제7항에 따른 방법을 수행하도록 컴퓨터화된 장치에 의해 실행가능한 것인, 컴퓨터 판독가능한 저장 매체.