KR102413529B1

KR102413529B1 - 통합된 인트라 블록 카피 및 인터 예측 모드

Info

Publication number: KR102413529B1
Application number: KR1020217032017A
Authority: KR
Inventors: 빈 리; 지-젱 수
Original assignee: 마이크로소프트 테크놀로지 라이센싱, 엘엘씨
Priority date: 2014-06-19
Filing date: 2014-06-19
Publication date: 2022-06-24
Also published as: KR20230130178A; US20230209068A1; KR20210124534A; CN105493505B; US10785486B2; EP3158734A4; US20200404289A1; US20170142418A1; KR20220092636A; EP4354856A2; WO2015192353A1; EP3158734A1; US20220030251A1; US11172207B2; CN105493505A; KR102576562B1; KR20170021302A; US11632558B2; KR102311815B1

Abstract

통합된 인트라 블록 카피("BC") 및 인터 예측 모드에서의 혁신안이 제시된다. 몇몇 예시적인 구현예에서, 비트스트림 신택스, 신택스 엘리먼트의 의미론 및 인터 예측 모드에 대한 많은 코딩/디코딩 프로세스는 프레임의 블록에 대한 인트라 BC 예측을 가능하게 하기 위해 재사용되거나 또는 약간 수정된다. 예를 들면, 현재 화상의 현재 블록에 대한 인트라 BC 예측을 제공하기 위해, 모션 보상 프로세스는, 현재 화상 내에서의 변위를 나타내는 모션 벡터("MV")를 적용하는데, 현재 화상은 모션 보상 프로세스에 대한 참조 화상으로서 사용된다. 신택스, 의미론 및 코딩/디코딩 프로세스의 이 통합을 통해, 인터 예측 모드를 위해 설계되는 다양한 코딩/디코딩 툴, 예컨대 고급 모션 벡터 예측, 병합 모드 및 스킵 모드는, 인트라 BC 예측이 사용될 때 또한 적용될 수 있는데, 이것은 인트라 BC 예측의 구현을 단순화시킨다.

Description

통합된 인트라 블록 카피 및 인터 예측 모드{UNIFIED INTRA BLOCK COPY AND INTER PREDICTION MODES}

엔지니어는 디지털 비디오의 비트 레이트를 감소시키기 위해 압축(소스 코딩 또는 소스 인코딩으로도 또한 칭해짐)을 사용한다. 압축은 정보를 더 낮은 비트 레이트 형태로 변환하는 것에 의해 비디오 정보를 저장 및 송신하는 비용을 감소시킨다. 압축해제(decompression)(디코딩으로도 또한 칭해짐)는 압축된 형태로부터 원래의 정보의 버전을 재구성한다. "코덱"은 인코더/디코더 시스템이다.

지난 이십 여년에 걸쳐, ITU-T H.261, H.262(MPEG-2 또는 ISO/IEC 13818-2), H.263 및 H.264 (MPEG-4 AVC 또는 ISO/IEC 14496-10) 표준, MPEG-1(ISO/IEC 11172-2) 및 MPEG-4 비주얼(ISO/IEC 14496-2) 표준, 및 SMPTE 421M(VC-1) 표준을 비롯한 다양한 비디오 코덱 표준이 채택되었다. 보다 최근에는, HEVC 표준(ITU-T H.265 또는 ISO/IEC 23008-2)이 승인되었다. (예를 들면, 스케일러블 비디오 코딩/디코딩을 위한, 샘플 비트 깊이 또는 크로마 샘플링 레이트의 관점에서 충실도(fidelity)가 더 높은 비디오의 코딩/디코딩을 위한, 또는 멀티뷰 코딩/디코딩을 위한) HEVC 표준에 대한 확장안이 현재 개발 중에 있다. 비디오 코덱 표준은 통상적으로, 인코딩된 비디오 비트스트림의 신택스(syntax)에 대한 옵션을 정의하고, 인코딩 및 디코딩에서 특정 피쳐가 사용될 때의 비트스트림의 파라미터를 상술한다. 많은 경우에서, 비디오 코덱 표준은 또한, 디코딩에서의 적합한 결과를 달성하기 위해 디코더가 수행해야 하는 디코딩 동작에 관한 상세를 제공한다. 코덱 표준 외에, 다양한 사유 코덱 포맷은 인코딩된 비디오 비트스트림의 신택스에 대한 다른 옵션 및 대응하는 디코딩 동작을 정의한다.

일반적으로, 비디오 압축 기술은 "인트라 화상" 압축 및 "인터 화상" 압축을 포함한다. 인트라 화상 압축 기술은 개개의 화상을 압축하고, 인터 화상 압축 기술은 선행하는 및/또는 후행하는 화상(종종 참조 또는 앵커 화상으로 칭해짐) 또는 화상들을 참조로 화상을 압축한다.

인터 화상 압축 기술은, 종종, 비디오 시퀀스에서의 시간적 중복성을 활용하는 것에 의해, 비트 레이트를 감소시키기 위해 모션 추정 및 모션 보상을 사용한다. 모션 추정은 화상 사이의 모션을 추정하기 위한 프로세스이다. 하나의 일반적인 기술에서, 모션 추정을 사용하는 인코더는 현재 화상의 샘플 값의 현재 블록을, 다른 화상, 즉 참조 화상의 검색 영역에서의 동일한 사이즈의 후보 블록과 매치시키려고 시도한다. 인코더가 참조 화상의 검색 영역에서 정확한 또는 "충분히 근접한" 매치를 발견하면, 인코더는, 현재 블록과 후보 블록 사이의 포지션(position)에서의 변화를 모션 데이터(예컨대 모션 벡터(motion vector; "MV"))로서 파라미터화한다. MV는, 전통적으로는, 왼쪽으로의 또는 오른쪽으로의 공간적 변위를 나타내는 수평 MV 성분 및 위쪽으로의 또는 아래쪽으로의 공간적 변위를 나타내는 수직 MV 성분을 갖는 2차원 값이다. MV는 정수 픽셀(integer-pixel) 변위, 또는 몇몇 코덱 포맷에서는, 분수적 픽셀(fractional-pixel) 변위를 나타낼 수 있다. 일반적으로, 모션 보상은 모션 데이터를 사용하여 참조 화상(들)으로부터 화상을 재구성하는 프로세스이다.

인트라 블록 카피(block copy; "BC")는 HEVC 확장안에 대해 개발 중에 있는 예측 모드이다. 인트라 BC 예측 모드의 경우, 현재 화상의 현재 블록의 샘플 값은, 동일 화상에서 이전에 재구성된 샘플 값을 사용하여 예측된다. 블록 벡터(block vector; "BV")는, 현재 블록으로부터, 예측을 위해 사용되는 이전에 재구성된 샘플 값을 포함하는 현재 화상의 영역까지의 변위를 나타낸다. 통상적으로, BV는 정수 픽셀 변위를 나타낸다. BV는 비트스트림으로 시그널링된다. 인트라 BC 예측은 인트라 화상 예측의 형태이다 - 화상의 블록에 대한 인트라 BC 예측은 동일 화상에서의 샘플 값 외에는 어떠한 샘플 값도 사용하지 않는다.

HEVC 표준의 확장안 초안(draft extension)에서 현재 명시되고 HEVC 표준에 대한 몇몇 참조 소프트웨어(reference software)에서 구현되는 바와 같이, 인트라 BC 예측 모드는 여러 문제점을 갖는다. 특히, (정규(regular) 인트라 예측 모드 및 인터 예측 모드 외에) 인코딩 및 디코딩 동안 인트라 BC 예측 모드를 구현하는 추가된 복잡성은, 코딩/디코딩 툴로서 인트라 BC 예측을 포함하는 것을 정당화할 수 없을 수도 있다.

요약하면, 상세한 설명은 통합된 인트라 블록 카피("BC") 및 인터 예측 모드에서의 혁신안(innovation)을 제공한다. 몇몇 예시적인 구현예에서, 비트스트림 신택스, 신택스 엘리먼트의 의미론(semantics) 및 인터 예측 모드에 대한 많은 코딩/디코딩 프로세스는 프레임의 블록에 대한 인트라 BC 예측을 가능하게 하기 위해 재사용되거나 또는 약간 수정된다. 예를 들면, 현재 화상의 현재 블록에 대한 인트라 BC 예측을 제공하기 위해, 모션 보상 프로세스는, 현재 화상 내에서의 변위를 나타내는 모션 벡터("MV")를 적용하는데, 현재 화상은 모션 보상 프로세스에 대한 참조 화상으로서 사용된다. 신택스, 의미론 및 코딩/디코딩 프로세스의 이 통합을 통해, 인트라 BC 예측이 사용될 때 인터 예측 모드에 대해 설계되는 다양한 코딩/디코딩 툴이 또한 적용될 수 있고, 이것은 인트라 BC 예측의 구현을 단순화시킨다.

본원에서 설명되는 혁신안의 하나의 양태에 따르면, 비디오 인코더는 인코딩된 데이터를 생성하기 위해 현재 화상을 인코딩한다. 인코딩의 일부로서, 인코더는 현재 화상의 현재 블록에 대한 인트라 BC 예측을 수행하는데, 이 경우, 인트라 BC 예측은 현재 화상을 참조 화상으로 하여 인터 예측 모드를 사용한다. 인코더는 인코딩된 데이터를 비트스트림으로 출력한다. 인트라 BC 예측 모드 및 인터 예측 모드의 통합의 일부로서, 인코더는 다음의 방식 중 임의의 하나 이상에서 적응될 수 있다.

첫째, 인코더는, 인트라 BC 예측 모드를 인에이블할지 또는 디스에이블할지의 여부를 결정할 수 있고, 그 다음, 인트라 BC 예측이 인에이블되는지 또는 디스에이블되는지의 여부를 나타내기 위한 플래그의 값을 비트스트림 내에 설정할 수 있다. 예를 들면, 인코더는 시퀀스에 대해 인트라 BC 예측 모드를 인에이블할지 또는 디스에이블할지의 여부를 결정하고, 플래그는 시퀀스 파라미터 세트(sequence parameter set; "SPS")의 일부이다. 대안적으로, 인코더는, 화상 단위 기반으로, 슬라이스 단위 기반으로, 또는 몇몇 다른 기반으로 BC 예측 모드를 인에이블할지 또는 디스에이블할지의 여부를 결정할 수 있다.

둘째, 인코딩의 일부로서, 인코더는, 현재 화상을 인코딩하는 동안 신택스 엘리먼트의 어느 것도 현재 화상의 재구성되지 않은 부분을 참조하는 것으로 이어지지 않도록, 비트스트림의 신택스 엘리먼트의 값을 설정할 수 있다. 즉, 인터 예측 모드 신택스, 의미론, 프로세싱, 등등이 인트라 BC 예측 기능성을 구현하기 위해 사용되는 경우에도, 인코더는, 인트라 BC 예측이 현재 화상의 이전에 재구성된 부분만을 참조하도록 신택스 엘리먼트의 값을 설정할 수 있다.

셋째, 인코딩의 일부로서, 인코더는 인트라 BC 예측에 대한 모션 벡터("MV") 정보를 시그널링하기 위한 여러 상이한 접근방식(approach) 중 임의의 것을 사용할 수 있다(이 경우, MV는 인코딩 동안 블록 벡터(block vector; "BV")로서 사용됨). 예를 들면, 인코더는 현재 블록의 MV를 식별할 수 있는데, 이 경우 MV는 정수 픽셀 오프셋을 나타낸다. 인코더는 비트스트림으로 정수 픽셀 정밀도(integer-pixel precision)로 MV를 시그널링한다. 또는, 다른 예로서, 인코더는 현재 블록의 MV를 식별할 수 있는데, 이 경우, MV는 정수 픽셀 오프셋을 나타내지만, 비트스트림으로 분수적 픽셀 정밀도(fractional-pixel precision)(예를 들면, 1/4 픽셀 정밀도)로 MV를 시그널링한다. 루마 MV가 정수 픽셀 정밀도를 갖는 경우에도, 대응하는 크로마 MV는 분수적 픽셀 정밀도를 가질 수 있다. 인코더가 정수 픽셀 오프셋을 나타내는 루마 MV로부터 크로마 MV를 유도한 이후, 인코더는 정수 픽셀 오프셋을 나타내기 위해 크로마 MV를 반올림 처리할(round) 수 있거나 또는 버림 처리할(truncate) 수 있다.

넷째, 현재 화상의 인코딩을 위해, 인코더는 처음에는 현재 화상을 장기간 참조 화상(long-term reference picture)으로서 마킹할 수 있고, 그 다음, 현재 화상의 인코딩이 완료된 이후 현재 화상을 단기간 참조 화상(short-term reference picture)으로 마킹할 수 있다. 몇몇 예시적인 구현예에서, 이것은, 현재 화상이 MV 예측 및 MV 스케일링과 같은 다른 프로세스에 어떻게 영향을 끼치는지를 제한하면서, 인터 예측 모드에서 현재 화상을 참조 화상으로서 사용하는 인트라 BC 예측을 가능하게 한다.

다섯째, 인코딩의 일부로서, 인코더는, 다수의 이용가능한 코딩 모드 중에서 선택하는, 현재 블록에 대해 적용되는 코딩 모드를 설정할 수 있는데, 이 경우, 코딩 모드는 인트라 예측 모드, 인터 예측 모드 및 인트라 BC 예측 모드를 포함한다. 예를 들면, 인코더는 현재 코딩 단위에 대한 코딩 모드를 설정한다. 비트스트림은, 현재 블록에 대해 적용되는 코딩 모드를 나타내는 신택스 엘리먼트를 포함한다. 현재 블록에 대해 적용되는 코딩 모드가 인트라 BC 예측 모드이면, 현재 블록에 대한 신택스 엘리먼트는, 인터 예측 방향 및 참조 화상 인덱스가 추론되는 것을 제외하면, 인터 예측 모드에 대한 신택스를 따른다. 이 경우(현재 블록에 대해 적용되는 코딩 모드가 인트라 BC 예측 모드인 경우), 예측 방향은 필요로 되지 않으며, 참조 화상은 현재 화상에게 알려져 있다.

여섯째, 인코딩의 일부로서, 현재 블록이, I 슬라이스인 현재 슬라이스의 일부인 경우, 인코더는, 현재 슬라이스에 대해 활성인 참조 화상의 수를 나타내는 카운터를 설정할 수 있다. 특히, 이 상황에서(현재 슬라이스가 I 슬라이스인 상황에서), 카운터는 인트라 BC 예측 모드가 인에이블될 때 단일의 참조 화상이 활성이다는 것을 나타낸다. 비트스트림 내의 신택스 엘리먼트의 값은, 현재 슬라이스에 대해 활성인 참조 화상의 수를 나타낼 수 있다.

일곱째, 인코딩의 일부로서, 인코더는 현재 화상을 참조 화상 리스트(reference picture list; "RPL")에 추가할 수 있다. 예를 들면, 인코더는 RPL의 최종 포지션에 현재 화상을 추가하고, 현재 블록을 포함하는 현재 슬라이스에 대해 활성인 참조 화상의 수를 나타내는 카운터를 증분시킨다. 현재 슬라이스가 P 슬라이스 또는 B 슬라이스이면, 인코더는, 하나 이상의 다른 참조 화상이 RPL에 추가되게 되는 리스트 구성 프로세스의 호출 이후에, 현재 화상을 RPL에 추가할 수 있다. 대안적으로, 현재 슬라이스가 P 슬라이스 또는 B 슬라이스이면, 인코더는, 하나 이상의 다른 참조 화상이 RPL에 추가되게 되는 리스트 구성 프로세스 동안에, 현재 화상을 RPL에 추가할 수 있다.

여덟째, 인코딩의 일부로서, 현재 블록이, B 슬라이스인 현재 슬라이스의 일부인 경우, 인코더는, 현재 블록에 대한 인트라 BC 예측의 결과 및 현재 블록에 대한 모션 보상된 예측의 결과를, 두 개의 상이한 참조 화상으로부터의 예측 결과로서, 결합할 수 있다. 이것은, 인코더가 현재 블록에 대한 모션 보상된 예측의 결과 및 인트라 BC 예측의 결과를 혼합하는 것을 허용한다. 대안적으로, 인트라 BC 예측의 결과 및 모션 보상된 예측의 결과의 결합은 허용되지 않는다.

아홉째, 현재 블록에 대한 인터 예측 모드 프로세싱의 일부로서, 인코더는 4×4 블록에 대해 인트라 BC 예측을 수행할 수 있다. 예를 들면, 만약 (a) 참조 화상이 현재 화상이고 (b) 예측 방향이 (현재 화상을 포함하는 RPL로부터의) 단일 예측이면(uni-predictive), 인코더는 (인트라 BC 예측을 위해) 4×4 블록 사이즈를 사용할 수 있다. 몇몇 예시적인 구현예에서, 이것은, 공간 인트라 예측에 대해 허용되는 최소 블록 사이즈까지의 인트라 BC 예측을 허용한다. 인터 예측 모드에 대한 블록 사이즈가 참조 화상 표시기(indicator) 이전에 시그널링되는 경우(예를 들면, 블록 사이즈(구획 모드)가 CU에 대해 시그널링되지만, 그러나 예측 방향 및 참조 화상 인덱스가 CU의 PU에 대해 시그널링되는 경우), 인코더는, 다른 인자(factor) 중에서도, 블록에 대해 사용되는 참조 화상 및 예측 방향을 고려하여 블록 사이즈에 관한 결정을 행할 수 있다. 그 다음, 현재 블록에 대해 적용되는 블록 사이즈가 4×4인 경우, 예측 방향이 단지 (현재 화상을 포함하는 RPL로부터의) 단일 예측일 수 있고 참조 화상이 단지 현재 화상일 수 있기 때문에, 인코더는 현재 블록에 대한 예측 방향 및 참조 화상 인덱스에 대한 신택스 엘리먼트의 시그널링을 스킵할 수 있다. 대안적으로, 이 상황에서, 인코더는 인트라 BC 예측을 위해 4×4 블록 사이즈를 디스에이블한다.

열째, 인코딩의 일부로서, 인코더는 고급(advanced) MV 예측 모드, 병합 모드, 스킵 모드 및/또는 인터 예측 모드의 일부인 다른 코딩 툴을 사용할 수 있다. 이러한 코딩 툴을 재사용하는 것에 의해, 인트라 BC 예측의 구현은 단순화된다.

열한째, 현재 블록에 대한 인터 예측 모드 프로세싱의 일부로서, 인코더는 현재 블록에 대해 병합 모드 프로세싱을 수행할 수 있다. 예를 들면, 하나 이상의 병합 모드 후보의 각각에 대해, 인코더는 병합 모드 후보를 획득하고 병합 모드 후보가 현재 화상을 참조하는지의 여부를 체크한다. 만약 그렇다면, 인코더는 병합 모드 후보를 유지한다. 그렇지 않다면, 인코더는 병합 모드 후보를 배제한다. 나중에, 유지된 병합 모드 후보의 수가 허용된 병합 모드 후보의 수보다 작으면, 인코더는 하나 이상의 미리 정의된 병합 모드 후보를 추가할 수 있다.

열둘째, 현재 블록이, I 슬라이스인 현재 슬라이스의 일부인 경우, 인코더는 신택스 엘리먼트의 값을 설정할 수 있고, 인트라 BC 예측 모드가 인에이블되는지의 여부에 따라 신택스 엘리먼트를 상이한 방식으로 출력할 수 있다. 예를 들면, 인트라 BC 예측 모드가 인에이블되면, 현재 I 슬라이스에 대한 신택스 엘리먼트는 P 슬라이스 또는 B 슬라이스에 대한 신택스를 따르지만, 그러나 인트라 BC 예측 모드가 인에이블되지 않으면, 현재 I 슬라이스에 대한 신택스 엘리먼트는 I 슬라이스에 대한 디폴트 신택스를 따른다. 이 방식에서, 인터 예측 모드에 대한 신택스는 인트라 BC 예측을 위해 재사용될 수 있고, 이것은 구현을 단순화시킨다.

열셋째, 현재 블록이, I 슬라이스인 현재 슬라이스의 일부인 경우, 인트라 BC 예측 모드가 인에이블되면, 인코더는 현재 I 슬라이스에 대한 시간적 MV 예측을 디스에이블할 수 있다. 이것은, MV 예측을 단순화하고 MV 스케일링을 방지하는 것에 의해, 그리고 현재 I 슬라이스를 인코딩할 때 다른 화상/슬라이스의 정보를 사용하는 것을 방지하는 것에 의해, 인코딩을 간소화할 수 있다.

열넷째, 현재 블록이, B 슬라이스인 현재 슬라이스의 일부이고, 현재 화상이 제1 RPL 및 제2 RPL 중 하나에 추가되는 경우, 인코더는, 현재 화상은 제외하고, (a) 제1 RPL에서의 참조 화상의 수가 제2 RPL에서의 참조 화상의 수와 매치하는지의 여부, 및 (b) 제1 RPL에서의 참조 화상의 각각이 제2 RPL에서의 대응하는 포지션에서 또한 나타내어지는지의 여부를 평가할 수 있다. 평가의 결과에 따라, 인코더는, B 슬라이스의 블록에 대한 양방향 인터 예측에서 제2 RPL이 사용될 때 단지 제로 값의 MV 차분만이 허용되는지의 여부를 나타내는 신택스 엘리먼트의 값을 비트스트림 내에 설정할 수 있다.

본원에서 설명되는 혁신안의 다른 양태에 따르면, 비디오 디코더는 인코딩된 데이터를 비트스트림으로 수신한다. 비디오 디코더는 인코딩된 데이터를 사용하여 현재 화상을 디코딩한다. 디코딩의 일부로서, 비디오 디코더는 현재 화상의 현재 블록에 대한 인트라 BC 예측을 수행하는데, 이 경우, 인트라 BC 예측은 현재 화상을 참조 화상으로 하여 인터 예측 모드를 사용한다. 인트라 BC 예측 모드 및 인터 예측 모드의 통합의 일부로서, 디코더는 다음의 방식 중 임의의 하나 이상에서 적응될 수 있다.

먼저, 디코더는, 인트라 BC 예측 모드가 인에이블되는지 또는 디스에이블되는지의 여부를 나타내는 플래그를 비트스트림으로 수신할 수 있고, 그 다음, 인트라 BC 예측 모드를 상응하게 인에이블하거나 또는 디스에이블할 수 있다. 예를 들면, 플래그는 SPS의 일부이고, 디코더는 시퀀스에 대한 인트라 예측 모드를 인에이블하거나 또는 디스에이블한다. 대안적으로, 디코더는, 화상 단위 기반으로, 슬라이스 단위 기반으로, 또는 몇몇 다른 기반으로 BC 예측 모드를 인에이블할 수 있거나 또는 디스에이블할 수 있다.

둘째, 비트스트림은, 현재 화상을 디코딩하는 동안 현재 화상의 재구성되지 않은 부분의 참조로 이어지는 어떠한 신택스 엘리먼트도 포함하지 않도록 제한될 수 있다. 즉, 인터 예측 모드 신택스, 의미론, 프로세싱, 등등이 인트라 BC 예측 기능성을 구현하기 위해 사용되는 경우에도, 신택스 엘리먼트의 값은, 인트라 BC 예측이 현재 화상의 이전에 재구성된 부분만을 참조하도록 설정된다.

셋째, 디코딩의 일부로서, 디코더는, 인트라 BC 예측에 대한 MV 정보를 재구성하는 여러 상이한 접근방식 중 임의의 것을 사용할 수 있다(이 경우, MV는 디코딩 동안 BV로서 사용된다). 예를 들면, 디코더는 현재 블록의 MV를 재구성할 수 있는데, 이 경우, MV는 정수 픽셀 오프셋을 나타내고, 비트스트림으로 정수 픽셀 정밀도로 시그널링된다. 재구성의 일부로서, 디코더는, 모션 보상 프로세스에서의 MV의 사용 이전에, MV를 분수 픽셀 정밀도로 스케일링한다. 또는, 다른 예로서, 디코더는 현재 블록의 MV를 식별할 수 있는데, 이 경우, MV는 정수 픽셀 오프셋을 나타내지만, 비트스트림으로 분수적 픽셀 정밀도(예를 들면, 1/4 픽셀 정밀도)로 시그널링된다. 루마 MV가 정수 픽셀 정밀도를 갖는 경우에도, 대응하는 크로마 MV는 분수적 픽셀 정밀도를 가질 수 있다. 디코더가 정수 픽셀 오프셋을 나타내는 루마 MV로부터 크로마 MV를 유도한 이후, 디코더는 정수 픽셀 오프셋을 나타내기 위해 크로마 MV를 반올림 처리할 수 있거나 또는 버림 처리할 수 있다.

넷째, 현재 화상의 디코딩을 위해, 디코더는 처음에는 현재 화상을 장기간 참조 화상으로서 마킹할 수 있고, 그 다음, 현재 화상의 디코딩이 완료된 이후 현재 화상을 단기간 참조 화상으로 마킹할 수 있다. 몇몇 예시적인 구현예에서, 이것은, 현재 화상이 MV 예측 및 MV 스케일링과 같은 다른 프로세스에 어떻게 영향을 끼치는지를 제한하면서, 인터 예측 모드에서 현재 화상을 참조 화상으로서 사용하는 인트라 BC 예측을 가능하게 한다.

다섯째, 디코딩의 일부로서, 디코더는, 비트스트림으로부터의, 현재 블록에 대해 적용되는 코딩 모드를 나타내는 신택스 엘리먼트를 파싱할 수 있고, 그 다음 코딩 모드를 설정할 수 있다. 코딩 모드는, 인트라 예측 모드, 인터 예측 모드 및 인트라 BC 예측 모드를 비롯한 다수의 이용가능한 코딩 모드 중에서 선택될 수 있다. 예를 들면, 디코더는 현재 코딩 단위에 대한 코딩 모드를 설정한다. 현재 블록에 대해 적용되는 코딩 모드가 인트라 BC 예측 모드이면, 현재 블록에 대한 신택스 엘리먼트는, 인터 예측 방향 및 참조 화상 인덱스가 추론되는 것을 제외하면, 인터 예측 모드에 대한 신택스를 따른다. 이 경우(현재 블록에 대해 적용되는 코딩 모드가 인트라 BC 예측 모드인 경우), 예측 방향은 필요로 되지 않으며, 참조 화상은 현재 화상에게 알려져 있다.

여섯째, 디코딩의 일부로서, 현재 블록이, I 슬라이스인 현재 슬라이스의 일부인 경우, 디코더는, 현재 슬라이스에 대해 활성인 참조 화상의 수를 나타내는 카운터를 설정할 수 있다. 특히, 이 상황에서(현재 슬라이스가 I 슬라이스인 상황에서), 카운터는 인트라 BC 예측 모드가 인에이블될 때 단일의 참조 화상이 활성이다는 것을 나타낸다. 비트스트림 내의 신택스 엘리먼트의 값은, 현재 슬라이스에 대해 활성인 참조 화상의 수를 나타낼 수 있다.

일곱째, 디코딩의 일부로서, 디코더는 현재 화상을 RPL에 추가할 수 있다. 예를 들면, 디코더는 RPL의 최종 포지션에 현재 화상을 추가하고, 현재 블록을 포함하는 현재 슬라이스에 대해 활성인 참조 화상의 수를 나타내는 카운터를 증분시킨다. 현재 슬라이스가 P 슬라이스 또는 B 슬라이스이면, 디코더는, 하나 이상의 다른 참조 화상이 RPL에 추가되는 리스트 구성 프로세스의 호출 이후에, 현재 화상을 RPL에 추가할 수 있다. 대안적으로, 현재 슬라이스가 P 슬라이스 또는 B 슬라이스이면, 디코더는, 하나 이상의 다른 참조 화상이 RPL에 추가되는 리스트 구성 프로세스 동안에, 현재 화상을 RPL에 추가할 수 있다.

여덟째, 디코딩의 일부로서, 현재 블록이, B 슬라이스인 현재 슬라이스의 일부인 경우, 디코더는, 현재 블록에 대한 인트라 BC 예측의 결과 및 현재 블록에 대한 모션 보상된 예측의 결과를, 두 개의 상이한 참조 화상으로부터의 예측 결과로서, 결합할 수 있다. 이것은, 디코더가 현재 블록에 대한 모션 보상된 예측에 대한 결과 및 인트라 BC 예측의 결과를 혼합하는 것을 허용한다. 대안적으로, 인트라 BC 예측의 결과 및 모션 보상된 예측의 결과의 결합은 허용되지 않는다.

아홉째, 현재 블록에 대한 인터 예측 모드 프로세싱의 일부로서, 디코더는 4×4 블록에 대해 인트라 BC 예측을 수행할 수 있다. 예를 들면, 만약 (a) 참조 화상이 현재 화상이고 (b) 예측 방향이 (현재 화상을 포함하는 RPL로부터의) 단일 예측이면, 디코더는 (인트라 BC 예측을 위해) 4×4 블록 사이즈를 사용할 수 있다. 몇몇 예시적인 구현예에서, 이것은, 공간 인트라 예측에 대해 허용되는 최소 블록 사이즈까지의 인트라 BC 예측을 허용한다. 참조 화상 표시기 이전에 인터 예측 모드에 대한 블록 사이즈가 시그널링되는 경우(예를 들면, 블록 사이즈(구획 모드)가 CU에 대해 시그널링되지만, 그러나 예측 방향 및 참조 화상 인덱스가 CU의 PU에 대해 시그널링되는 경우), 디코더는 현재 블록에 대한 예측 방향 또는 참조 화상 인덱스를 알지 못하는 상태에서 그러므로 블록이 인트라 BC 예측을 사용하는지 또는 인터 화상 예측을 사용하는지의 여부를 모르는 상태에서, 블록 사이즈에 대한 신택스 엘리먼트를 파싱한다. 그러나, 블록 사이즈가 4×4이면, 디코더는 현재 블록에 대한 참조 화상 인덱스 및 예측 방향에 대한 신택스 엘리먼트의 파싱을 스킵할 수 있다. 현재 블록에 대해 적용되는 블록 사이즈가 4×4인 경우, 현재 블록에 대한 예측 방향은 단지 (현재 화상을 포함하는 RPL로부터의) 단일 예측일 수 있고, 현재 블록에 대한 참조 화상은 단지 현재 화상일 수 있고, 따라서 현재 블록에 대한 예측 방향 및 참조 화상 인덱스에 대한 신택스 엘리먼트는 비트스트림으로부터 생략된다. 대안적으로, 이 상황에서, 디코더는 인트라 BC 예측을 위해 4×4 블록 사이즈를 디스에이블한다.

열째, 디코딩의 일부로서, 디코더는 고급 MV 예측 모드, 병합 모드, 스킵 모드 및/또는 인터 예측 모드의 일부인 다른 코딩/디코딩 툴을 사용할 수 있다. 이러한 코딩/디코딩 툴을 재사용하는 것에 의해, 인트라 BC 예측의 구현은 단순화된다.

열한째, 현재 블록에 대한 인터 예측 모드 프로세싱의 일부로서, 디코더는 현재 블록에 대해 병합 모드 프로세싱을 수행할 수 있다. 예를 들면, 하나 이상의 병합 모드 후보의 각각에 대해, 디코더는 병합 모드 후보를 획득하고 병합 모드 후보가 현재 화상을 참조하는지의 여부를 체크한다. 만약 그렇다면, 디코더는 병합 모드 후보를 유지한다. 그렇지 않다면, 디코더는 병합 모드 후보를 배제한다. 나중에, 유지된 병합 모드 후보의 수가 허용된 병합 모드 후보의 수보다 작으면, 디코더는 하나 이상의 미리 정의된 병합 모드 후보를 추가할 수 있다.

열둘째, 현재 블록이, I 슬라이스인 현재 슬라이스의 일부인 경우, 디코더는, 인트라 BC 예측 모드가 인에이블되는지의 여부에 따라 신택스 엘리먼트를 상이한 방식으로 파싱할 수 있다. 예를 들면, 인트라 BC 예측 모드가 인에이블되면, 현재 I 슬라이스에 대한 신택스 엘리먼트는 P 슬라이스 또는 B 슬라이스에 대한 신택스를 따르지만, 그러나 인트라 BC 예측 모드가 인에이블되지 않으면, 현재 I 슬라이스에 대한 신택스 엘리먼트는 I 슬라이스에 대한 디폴트 신택스를 따른다. 이 방식에서, 인터 예측 모드에 대한 신택스는 인트라 BC 예측을 위해 재사용될 수 있고, 이것은 구현을 단순화시킨다.

열셋째, 현재 블록이, I 슬라이스인 현재 슬라이스의 일부인 경우, 인트라 BC 예측 모드가 인에이블되면, 디코더는 현재 I 슬라이스에 대한 시간적 MV 예측을 디스에이블할 수 있다. 이것은, MV 예측을 단순화하고 MV 스케일링을 방지하는 것에 의해, 그리고 현재 I 슬라이스를 디코딩할 때 다른 화상/슬라이스의 정보를 사용하는 것을 방지하는 것에 의해, 디코딩을 간소화할 수 있다.

열넷째, 디코딩의 일부로서, 현재 블록이, I 슬라이스인 현재 슬라이스의 일부인 경우, 인트라 BC 예측 모드가 인에이블되면, 디코더는 P 슬라이스 또는 B 슬라이스와 마찬가지로 현재 슬라이스를 디코딩한다. 코딩/디코딩 툴을 재사용하는 것에 의해, 인트라 BC 예측의 구현은 단순화된다.

통합된 인트라 BC 및 인터 예측 모드에 대한 혁신안은, 한 방법의 일부로서, 그 방법을 수행하도록 적응되는 컴퓨팅 디바이스의 일부로서 또는 컴퓨팅 디바이스로 하여금 그 방법을 수행하게 하기 위한 컴퓨터 실행가능 명령어를 저장하는 유형의(tangible) 컴퓨터 판독가능 매체의 일부로서 구현될 수 있다. 다양한 혁신안은 조합하여 또는 개별적으로 사용될 수 있다. 예를 들면, 인트라 BC 예측 모드를 선택적으로 인에이블하는 것/디스에이블하는 것은, (RPL 구성 및/또는 참조 화상 마킹을 위해) 본원에서 설명되는 참조 화상 관리 접근방식 중 임의의 것과 조합하여 사용될 수 있거나, 또는 인트라 BC 예측 모드의 선택적 인에이블/디스에이블 또는 참조 화상 관리 접근방식은 별개로 사용될 수 있다. MV 정보를 시그널링하기 위한 또는 재구성하기 위한 본원에서 설명되는 접근방식 중 임의의 것은, 별개로 또는 앞선 툴 또는 조합과 조합하여 사용될 수 있다. 복합 예측을 위한 본원에서 설명되는 접근방식 중 임의의 것은, 별개로 또는 앞선 툴 또는 조합과 조합하여 사용될 수 있다. 4×4 블록을 이용한 인트라 BC 예측을 위한 본원에서 설명되는 접근방식 중 임의의 것은, 별개로 또는 앞선 툴 또는 조합과 조합하여 사용될 수 있다. 시간적 MV 예측을 인에이블한 상태에서 또는 디스에이블한 상태에서, 고급 MV 예측 모드, 병합 모드, 스킵 모드 또는 인터 예측 모드의 다른 코딩/디코딩 툴을 사용하는 인트라 BC 예측을 위한 본원에서 설명되는 접근방식 중 임의의 것은, 별개로 또는 앞선 툴 또는 조합과 조합하여 사용될 수 있다. 인터 예측 모드 신택스, 의미론, 또는 코딩/디코딩 프로세스를 사용하는 인트라 BC 예측을 위한 본원에서 설명되는 접근방식 중 임의의 것은, 별개로 또는 앞선 툴 또는 조합과 조합하여 사용될 수 있다.

본 발명의 상기 및 다른 목적, 피쳐, 및 이점은, 첨부의 도면을 참조로 진행하는 하기의 상세한 설명으로부터 더욱 명확하게 될 것이다.

도 1은 몇몇 설명된 실시형태가 구현될 수 있는 예시적인 컴퓨팅 시스템의 도면이다.
도 2a 및 도 2b는 몇몇 설명된 실시형태가 구현될 수 있는 예시적인 네트워크 환경의 도면이다.
도 3은 몇몇 설명된 실시형태가 연계하여 구현될 수 있는 예시적인 인코더 시스템의 도면이다.
도 4는 몇몇 설명된 실시형태가 연계하여 구현될 수 있는 예시적인 디코더 시스템의 도면이다.
도 5a 및 도 5b는 몇몇 설명된 실시형태가 연계하여 구현될 수 있는 예시적인 비디오 인코더를 예시하는 도면이다.
도 6은 몇몇 설명된 실시형태가 연계하여 구현될 수 있는 예시적인 비디오 디코더를 예시하는 도면이다.
도 7은, 통합된 인트라 BC 및 인터 예측 모드를 포함하는 인코딩을 위한 일반화된 기술을 예시하는 플로우차트이다.
도 8은, 통합된 인트라 BC 및 인터 예측 모드를 포함하는 인코딩을 위한 예시적인 기술을 예시하는 플로우차트이다.
도 9는, 통합된 인트라 BC 및 인터 예측 모드를 포함하는 디코딩을 위한 일반화된 기술을 예시하는 플로우차트이다.
도 10은, 통합된 인트라 BC 및 인터 예측 모드를 포함하는 디코딩을 위한 예시적인 기술을 예시하는 플로우차트이다.
도 11a 내지 도 11c는, 몇몇 예시적인 구현예에서의 통합된 인트라 BC 및 인터 예측 모드에 대한 예시적인 신택스 구조를 예시하는 도면이다.
도 12는, 시퀀스에 대한 인트라 BC 예측을 선택적으로 인에이블하는 것을 포함하는 인코딩 또는 디코딩을 위한 일반화된 기술을 예시하는 플로우차트이다.
도 13은, 현재 화상을 포함하는 RPL을 구성하기 위한 예시적인 기술을 예시하는 플로우차트이다.
도 14a 내지 도 14c는, RPL을 구성하는 프로세스 동안 현재 화상을 추가하는 예시적인 방식을 열거하는 의사코드(pseudocode)이다.

상세한 설명은, 비디오 인코딩 또는 비디오 디코딩 동안 통합된 인트라 블록 카피("BC") 및 인터 예측 모드에서의 혁신안을 제시한다.

본원에서 설명되는 혁신안 중 몇몇은 HEVC 표준에 고유한 신택스 엘리먼트 및 동작을 참조로 예시된다. 본원에서 설명되는 혁신안은 또한, 다른 표준 또는 포맷에 대해 구현될 수 있다. 본원에서 설명되는 동작이 비디오 인코더 또는 비디오 디코더에 의해 수행되는 것으로 여기저기에서 설명되지만, 많은 경우에서, 동작은 다른 타입의 미디어 프로세싱 툴에 의해 수행될 수 있다.

보다 일반적으로는, 본원에서 설명되는 예에 대한 다양한 대안예도 가능하다. 예를 들면, 본원에서 설명되는 방법 중 몇몇은, 설명되는 방법 액트(act)의 순서를 변경하는 것에 의해, 소정의 방법 액트를 분할, 반복, 또는 생략하는 것에 의해, 등등에 의해 변경될 수 있다. 개시된 기술의 다양한 양태는 조합하여 또는 개별적으로 사용될 수 있다. 상이한 실시형태는 설명된 혁신안 중 하나 이상을 사용한다. 본원에서 설명되는 혁신안 중 몇몇은 배경에서 언급된 문제점 중 하나 이상을 해결한다. 통상적으로는, 주어진 기술/툴은 이러한 문제점 모두를 해결하지는 않는다.

I. 예시적인 컴퓨팅 시스템.

도 1은, 설명된 혁신안 중 몇몇이 구현될 수도 있는 적절한 컴퓨팅 시스템(100)의 일반화된 예를 예시한다. 컴퓨팅 시스템(100)은, 혁신안이 다양한 범용의 또는 특수 목적의 컴퓨팅 시스템에서 구현될 수도 있기 때문에, 사용 또는 기능성의 범위에 관해 어떠한 제한도 제시하도록 의도되지는 않는다.

도 1을 참조하면, 컴퓨팅 시스템(100)은 하나 이상의 프로세싱 유닛(110, 115) 및 메모리(120, 125)를 포함한다. 프로세싱 유닛(110, 115)은 컴퓨터 실행가능 명령어를 실행한다. 프로세싱 유닛은 범용 중앙 프로세싱 유닛(central processing unit; "CPU"), 주문형 반도체(application-specific integrated circuit; "ASIC")에서의 프로세서, 또는 임의의 다른 타입의 프로세서일 수 있다. 다중 프로세싱 시스템에서, 프로세싱 파워를 증가시키기 위해 다수의 프로세싱 유닛이 컴퓨터 실행가능 명령어를 실행한다. 예를 들면, 도 1은 중앙 프로세싱 유닛(110)뿐만 아니라 그래픽 프로세싱 유닛 또는 코프로세싱 유닛(co-processing unit)(115)을 도시한다. 유형의(tangible) 메모리(120, 125)는, 프로세싱 유닛(들)에 의해 액세스될 수 있는, 휘발성 메모리(예를 들면, 레지스터, 캐시, RAM), 불휘발성 메모리(예를 들면, ROM, EEPROM, 플래시 메모리 등등), 또는 이 둘의 어떤 조합일 수도 있다. 메모리(120, 125)는, 통합된 인트라 BC 및 인터 예측 모드에 대한 하나 이상의 혁신안을 구현하는 소프트웨어(180)를, 프로세싱 유닛(들)에 의한 실행에 적합한 컴퓨터 실행가능 명령어의 형태로 저장한다.

컴퓨팅 시스템은 추가적인 피쳐를 구비할 수도 있다. 예를 들면, 컴퓨팅 시스템(100)은 스토리지(140), 하나 이상의 입력 디바이스(150), 하나 이상의 출력 디바이스(160), 및 하나 이상의 통신 연결부(170)를 포함한다. 상호 접속 메커니즘(interconnection mechanism)(도시되지 않음), 예컨대 버스, 컨트롤러, 또는 네트워크는 컴퓨팅 시스템(100)의 컴포넌트를 상호 접속한다. 통상적으로, 오퍼레이팅 시스템 소프트웨어(도시되지 않음)는 컴퓨팅 시스템(100)에서 실행하는 다른 소프트웨어에 대한 동작 환경을 제공하고, 컴퓨팅 시스템(100)의 컴포넌트의 활동을 조화시킨다(coordinate).

유형의 스토리지(140)는 착탈식 또는 비착탈식일 수도 있고, 자기 디스크, 자기 테이프 또는 카세트, CD-ROM, DVD, 또는 정보를 저장하기 위해 사용될 수 있고 컴퓨팅 시스템(100) 내에서 액세스될 수 있는 임의의 다른 매체를 포함한다. 스토리지(140)는 통합된 인트라 BC 및 인터 예측 모드에 대한 하나 이상의 혁신안을 구현하는 소프트웨어(180)에 대한 명령어를 저장한다.

입력 디바이스(들)(150)는 터치 입력 디바이스 예컨대 키보드, 마우스, 펜, 또는 트랙볼, 음성 입력 디바이스, 스캐닝 디바이스, 또는 컴퓨팅 시스템(100)으로 입력을 제공하는 다른 디바이스일 수도 있다. 비디오의 경우, 입력 디바이스(들)(150)는 카메라, 비디오 카드, TV 튜너 카드, 스크린 캡쳐 모듈, 또는 비디오 입력을 아날로그 또는 디지털 형태로 받아들이는 유사한 디바이스, 또는 비디오 입력을 컴퓨팅 시스템(100) 안으로 읽어들이는 CD-ROM 또는 CD-RW일 수도 있다. 출력 디바이스(들)(160)는 디스플레이, 프린터, 스피커, CD-라이터, 또는 컴퓨팅 시스템(100)으로부터의 출력을 제공하는 다른 디바이스일 수도 있다.

통신 연결부(들)(170)는 통신 매체를 통한 다른 통신 엔티티로의 통신을 가능하게 한다. 통신 매체는 컴퓨터 실행가능 명령어, 오디오 또는 비디오 입력 또는 출력, 또는 변조된 데이터 신호에서의 다른 데이터와 같은 정보를 전달한다. 변조된 데이터 신호는, 자신의 특성 중 하나 이상을, 신호에서 정보를 인코딩하는 것과 같은 방식으로 설정하거나 변경한 신호이다. 비제한적인 예로서, 통신 매체는 전기적 캐리어, 광학적 캐리어, RF 캐리어, 또는 다른 캐리어를 사용할 수 있다.

혁신안은 컴퓨터 판독가능 매체의 일반적 맥락에서 설명될 수 있다. 컴퓨터 판독가능 매체는, 컴퓨팅 환경 내에서 액세스될 수 있는 임의의 이용가능한 유형의 매체이다. 비제한적인 예로서, 컴퓨팅 시스템(100)과 관련하여, 컴퓨터 판독가능 매체는 메모리(120, 125), 스토리지(140), 및 상기 중 임의의 것의 조합을 포함한다.

혁신안은, 컴퓨팅 시스템에서 타겟인 실제 또는 가상의 프로세서 상에서 실행되고 있는, 프로그램 모듈에 포함되는 것과 같은 컴퓨터 실행가능 명령어의 일반적 맥락에서 설명될 수 있다. 일반적으로, 프로그램 모듈은, 특정한 태스크를 수행하거나 또는 특정한 추상 데이터 타입을 구현하는 루틴, 프로그램, 라이브러리, 오브젝트, 클래스, 컴포넌트, 데이터 구조 등등을 포함한다. 프로그램 모듈의 기능성은 다양한 실시형태에서 소망되는 바와 같이 프로그램 모듈 사이에서 분할되거나 또는 결합될 수도 있다. 프로그램 모듈에 대한 컴퓨터 실행가능 명령어는 로컬 컴퓨팅 시스템 또는 분산형 컴퓨팅 시스템 내에서 실행될 수도 있다.

용어 "시스템" 및 "디바이스"는 본원에서 상호교환적으로 사용된다. 문맥상 그렇지 않다고 명확하게 나타내지 않는 한, 어떠한 용어도 컴퓨팅 디바이스 또는 컴퓨팅 시스템의 타입에 대해 아무런 제한도 내포하지 않는다. 일반적으로, 컴퓨팅 시스템 또는 컴퓨팅 디바이스는 로컬이거나 또는 분산될 수도 있으며, 본원에서 설명되는 기능성을 구현하는 소프트웨어와의 특수 목적의 하드웨어 및/또는 범용 하드웨어의 임의의 조합을 포함할 수 있다.

개시된 방법은 또한, 개시된 방법 중 임의의 것을 수행하도록 구성되는 특수한 컴퓨팅 하드웨어를 사용하여 구현될 수 있다. 예를 들면, 개시된 방법은, 개시된 방법 중 임의의 것을 구현하도록 특별히 설계되거나 구성되는 집적 회로(예를 들면, ASIC(예컨대 ASIC 디지털 신호 프로세서(digital signal processor; "DSP"), 그래픽 프로세싱 유닛(graphics processing unit; "GPU"), 또는 프로그래머블 로직 디바이스(programmable logic device; "PLD"), 예컨대 필드 프로그래머블 게이트 어레이(field programmable gate array; "FPGA"))에 의해 구현될 수 있다.

표현 때문에, 상세한 설명은, 컴퓨팅 시스템에서의 컴퓨터 동작을 설명하기 위해, "결정한다" 및 "사용한다"와 같은 용어를 사용한다. 이들 용어는 컴퓨터에 의해 수행되는 동작에 대한 하이 레벨의 추상개념이며, 사람에 의해 수행되는 행위와 혼돈되어선 안된다. 이들 용어에 대응하는 실제 컴퓨터 동작은 구현예에 따라 달라진다.

II. 예시적인 네트워크 환경.

도 2a 및 도 2b는 비디오 인코더(220) 및 비디오 디코더(270)를 포함하는 예시적인 네트워크 환경(201, 202)을 도시한다. 인코더(220) 및 디코더(270)는 적절한 통신 프로토콜을 사용하여 네트워크(250)를 통해 연결된다. 네트워크(250)는 인터넷 또는 다른 컴퓨터 네트워크를 포함할 수 있다.

도 2a에서 도시되는 네트워크 환경(201)에서, 각각의 실시간 통신(real-time communication; "RTC") 툴(210)은 양방향 통신을 위해 인코더(220) 및 디코더(270) 둘 다를 포함한다. 주어진 인코더(220)는, HEVC 표준(H.265로 또한 알려짐), SMPTE 421M 표준, ISO-IEC 14496-10 표준(H.264 또는 AVC로 또한 알려짐), 다른 표준, 또는 사유 포맷을 생성할 수 있는데, 대응하는 디코더(270)는 인코더(220)로부터 인코딩된 데이터를 받아들일 수 있다. 양방향 통신은 영상 회의, 영상 전화, 또는 다른 양자간 또는 다자간 통신 시나리오의 일부일 수 있다. 도 2a의 네트워크 환경(201)이 두 개의 실시간 통신 툴(210)을 포함하지만, 네트워크 환경(201)은, 대신, 다자간 통신(multiparty communication)에 참여하는 세 개 이상의 실시간 통신 툴(210)을 포함할 수 있다.

실시간 통신 툴(210)은 인코더(220)에 의한 인코딩을 관리한다. 도 3은 실시간 통신 툴(210)에 포함될 수 있는 예시적인 인코더 시스템(300)을 도시한다. 대안적으로, 실시간 통신 툴(210)은 다른 인코더 시스템을 사용한다. 실시간 통신 툴(210)은 또한 디코더(270)에 의한 디코딩을 관리한다. 도 4는 실시간 통신 툴(210)에 포함될 수 있는 예시적인 디코더 시스템(400)을 도시한다. 대안적으로, 실시간 통신 툴(210)은 다른 디코더 시스템을 사용한다.

도 2b에서 도시되는 네트워크 환경(202)에서, 인코딩 툴(212)은, 디코더(270)를 포함하는 다수의 재생 툴(214)로 전달하기 위해 비디오를 인코딩하는 인코더(220)를 포함한다. 단방향 통신은, 비디오 감시 시스템, 웹 카메라 모니터링 시스템, 스크린 캡쳐 모듈, 원격 데스크탑 회의 프리젠테이션 또는 비디오가 인코딩되어 한 위치(location)에서 하나 이상의 다른 위치로 전송되는 다른 시나리오에 대해 제공될 수 있다. 도 2b의 네트워크 환경(202)이 두 개의 재생 툴(214)을 포함하지만, 네트워크 환경(202)은 더 많은 또는 더 적은 재생 툴(214)을 포함할 수 있다. 일반적으로, 재생 툴(214)은, 재생 툴(214)이 수신할 비디오의 스트림을 결정하기 위해 인코딩 툴(212)과 통신한다. 재생 툴(214)은 스트림을 수신하고, 수신된 인코딩된 데이터를 적절한 기간 동안 버퍼링하고, 디코딩 및 재생을 시작한다.

도 3은 인코딩 툴(212)에 포함될 수 있는 예시적인 인코더 시스템(300)을 도시한다. 대안적으로, 인코딩 툴(212)은 다른 인코더 시스템을 사용한다. 인코딩 툴(212)은 또한, 하나 이상의 재생 툴(214)과의 연결을 관리하기 위한 서버측 컨트롤러 로직을 포함할 수 있다. 도 4는, 재생 툴(214)에 포함될 수 있는 예시적인 디코더 시스템(400)을 도시한다. 대안적으로, 재생 툴(214)은 다른 디코더 시스템을 사용한다. 재생 툴(214)은 또한, 인코딩 툴(212)과의 연결을 관리하기 위한 클라이언트측 컨트롤러 로직을 포함할 수 있다.

III. 예시적인 인코더 시스템.

도 3은 몇몇 설명된 실시형태가 연계하여 구현될 수도 있는 예시적인 인코더 시스템(300)의 블록도이다. 인코더 시스템(300)은, 다수의 인코딩 모드 예컨대 실시간 통신을 위한 로우 레이턴시(low-latency) 인코딩 모드, 트랜스코딩 모드, 및 파일 또는 스트림으로부터 재생용 미디어를 생성하기 위한 더 높은 레이턴시의 인코딩 모드 중 임의의 것에서 동작할 수 있는 범용 인코딩 툴일 수 있거나, 또는 인코더 시스템(300)은 하나의 이러한 인코딩 모드에 대해 적응되는 특수 목적의 인코딩 툴일 수 있다. 인코더 시스템(300)은 오퍼레이팅 시스템 모듈로서, 애플리케이션 라이브러리의 일부로서 또는 독립형 애플리케이션으로서 구현될 수 있다. 종합하면, 인코더 시스템(300)은 비디오 소스(310)로부터 소스 비디오 프레임(311)의 시퀀스를 수신하고 인코딩된 데이터를 채널(390)로의 출력으로서 생성한다. 채널로 출력되는 인코딩된 데이터는, 통합된 인트라 BC 및 인터 예측 모드를 사용하여 인코딩된 컨텐츠를 포함할 수 있다.

비디오 소스(310)는 카메라, 튜너 카드, 저장 매체, 스크린 캡쳐 모듈, 또는 다른 디지털 비디오 소스일 수 있다. 비디오 소스(310)는, 예를 들면, 초당 30프레임의 프레임 레이트에서 비디오 프레임의 시퀀스를 생성한다. 본원에서 사용되는 바와 같이, 용어 "프레임"은, 일반적으로, 소스, 코딩된 또는 재구성된 이미지 데이터를 지칭한다. 순차 주사 비디오(progressive-scan video)의 경우, 프레임은 순차 주사 비디오 프레임이다. 인터레이스 방식의 비디오(interlaced video)의 경우, 예시적인 실시형태에서, 인터레이스 방식의 비디오 프레임은 인코딩 이전에 디인터레이스된다(de-interlaced). 대안적으로, 두 개의 상보적 인터레이스 방식의 비디오 필드가 단일의 비디오 프레임으로서 함께 인코딩되거나 또는 두 개의 별개로 인코딩된 필드로서 인코딩된다. 순차 주사 비디오 프레임 또는 인터레이스 방식의 주사 비디오 프레임을 나타내는 것 외에, 용어 "프레임" 또는 "화상"은 단일의 짝을 이루지 않는 비디오 필드(single non-paired video field), 비디오 필드의 상보적 쌍, 주어진 시간에 비디오 오브젝트를 나타내는 비디오 오브젝트 플레인, 또는 더 큰 이미지에서의 주목(of interest) 영역을 나타낼 수 있다. 비디오 오브젝트 플레인 또는 영역은, 한 장면의 다수의 오브젝트 또는 영역을 포함하는 더 큰 이미지의 일부일 수 있다.

도달하는 소스 프레임(311)은, 다수의 프레임 버퍼 저장 영역(321, 322, …, 32n)을 포함하는 소스 프레임 임시 메모리 저장 영역(320)에 저장된다. 프레임 버퍼(321, 322 등등)는 소스 프레임 저장 영역(320)에 하나의 소스 프레임을 유지한다. 소스 프레임(311) 중 하나 이상이 프레임 버퍼(321, 322, 등등)에 저장된 이후, 프레임 선택기(330)는 소스 프레임 저장 영역(320)으로부터 개개의 소스 프레임을 선택한다. 인코더(340)로의 입력을 위해 프레임 선택기(330)에 의해 프레임이 선택되는 순서는, 비디오 소스(310)에 의해 프레임이 생성되는 순서와는 상이할 수도 있다, 예를 들면, 몇몇 나중의 프레임이 먼저 인코딩되는 것을 허용하기 위해 따라서 시간적으로 역방향의 예측(temporally backward prediction)을 용이하게 하기 위해, 몇몇 프레임의 인코딩은 순서에서 지연될 수도 있다. 인코더(340) 앞에, 인코더 시스템(300)은, 인코딩 전에, 선택된 프레임(331)의 전처리(pre-processing)(예를 들면, 필터링)를 수행하는 전처리기(pre-processor)(도시되지 않음)를 포함할 수 있다. 전처리는 주 성분(예를 들면, 루마)과 부성분(예를 들면, 레드쪽으로의 그리고 블루쪽으로의 크로마 차이)으로의 컬러 공간 변환 및 인코딩을 위한 (예를 들면, 크로마 성분의 공간 해상도를 감소시키는) 재샘플링 프로세싱을 포함할 수 있다. 통상적으로는, 인코딩 이전에, 비디오는 YUV와 같은 컬러 공간으로 변환되었는데, 여기서 루마(Y) 성분의 샘플 값은 휘도 또는 강도(intensity) 값을 나타내고, 크로마(U, V) 성분의 샘플 값은 컬러 차이 값을 나타낸다. 크로마 샘플 값은 (예를 들면, YUV 4:2:0 포맷 또는 YUV 4:2:2의 경우) 더 낮은 크로마 샘플링 레이트로 서브샘플링될 수도 있거나, 또는 크로마 샘플 값은 (예를 들면, YUV 4:4:4 포맷의 경우) 루마 샘플 값과 동일한 해상도를 가질 수도 있다. YUV 4:2:0 포맷에서, 크로마 성분은 수평에서 2배만큼 그리고 수직에서 2배만큼 다운샘플링된다. YUV 4:2:0 포맷에서, 크로마 성분은 수평에서 2배만큼 다운샘플링된다. 또는, 비디오는 다른 포맷(예를 들면, RGB 4:4:4 포맷)으로 인코딩될 수 있다.

인코더(340)는, 코딩된 프레임(341)을 생성하기 위해, 선택된 프레임(331)을 인코딩하고 또한 메모리 관리 제어 동작(memory management control operation; "MMCO") 신호(342) 또는 참조 화상 세트(reference picture set; "RPS") 정보를 생성한다. 현재 프레임이 인코딩된 첫 번째 프레임이 아니면, 자신의 인코딩 프로세스를 수행하고 있는 경우, 인코더(340)는, 디코딩된 프레임 임시 메모리 저장 영역(360)에 저장되어 있는 하나 이상의 이전에 인코딩된/디코딩된 프레임(369)을 사용할 수도 있다. 이렇게 저장된 디코딩된 프레임(369)은 현재 소스 프레임(331)의 컨텐츠의 인터 프레임 예측(inter-frame prediction)을 위한 참조 프레임으로서 사용된다. MMCO/RPS 정보(342)는 디코더에게, 어떤 재구성된 프레임이 참조 프레임으로서 사용될 수도 있는지, 따라서 프레임 저장 영역에 저장되어야 하는지를 나타낸다.

일반적으로, 인코더(340)는, 타일로의 구획화, 인트라 예측 추정 및 예측, 모션 추정 및 보상, 주파수 변환, 양자화 및 엔트로피 코딩과 같은 인코딩 태스크를 수행하는 다수의 인코딩 모듈을 포함한다. 인코더(340)에 의해 수행되는 정확한 동작은 압축 포맷에 따라 변할 수 있다. 출력된 인코딩된 데이터의 포맷은, HEVC 포맷(H.265), 윈도우 미디어 비디오(Windows Media Video) 포맷, VC-1 포맷, MPEG-x 포맷(예를 들면, MPEG-1, MPEG-2, 또는 MPEG-4), H.26x 포맷(예를 들면, H.261, H.262, H.263, H.264), 또는 다른 포맷의 변형안 또는 확장안일 수 있다.

인코더(340)는 프레임을 동일한 사이즈의 또는 상이한 사이즈의 다수의 타일로 구획할 수 있다. 예를 들면, 인코더(340)는, 프레임 경계와 함께, 프레임 내에서의 타일의 수평 및 수직 경계를 정의하는 타일 행(row) 및 타일 열(column)을 따라 프레임을 분할하는데, 이 경우 각각의 타일은 직사각형 영역이다. 타일은 종종 병렬 프로세싱을 위한 옵션을 제공하기 위해 사용된다. 프레임은 또한 하나 이상의 슬라이스로서 편제될(organized) 수 있는데, 이 경우 슬라이스는 전체 프레임 또는 프레임의 영역일 수 있다. 슬라이스는 프레임의 다른 슬라이스와는 무관하게 디코딩될 수 있는데, 슬라이스가 프레임의 다른 슬라이스와는 무관하게 디코딩되는 것은 에러 복원성(error resilience)을 향상시킨다. 슬라이스 또는 타일의 컨텐츠는 인코딩 및 디코딩의 목적을 위해 블록 또는 샘플 값의 다른 세트로 더 구획된다.

HEVC 표준에 따른 신택스의 경우, 인코더는 프레임(또는 슬라이스 또는 타일)의 컨텐츠를 코딩 트리 단위로 분할한다. 코딩 트리 단위(coding tree unit; "CTU")는 루마 코딩 트리 블록(luma coding tree block; "CTB")으로 편제되는 루마 샘플 값 및 두 개의 크로마 CTB로 편제되는 대응하는 크로마 샘플 값을 포함한다. CTU(및 그것의 CTB)의 사이즈는 인코더에 의해 선택되며, 예를 들면, 64×64, 32×32 또는 16×16 샘플 값일 수 있다. CTU는 하나 이상의 코딩 단위를 포함한다. 코딩 단위(coding unit; "CU")는 루마 코딩 블록(coding block; "CB") 및 두 개의 대응하는 크로마 CB를 구비한다. 예를 들면, 64×64 루마 CTB 및 두 개의 64×64 크로마 CTB를 갖는 CTU(YUV 4:4:4 포맷)는 네 개의 CU로 분할될 수 있는데, 각각의 CU는 32×32 루마 CB 및 두 개의 32×32 크로마 CB를 포함하고, 그리고 각각의 CU는 어쩌면 더 작은 CU로 더 분할된다. 또는, 다른 예로서, 64×64 루마 CTB 및 두 개의 32×32 크로마 CTB를 갖는 CTU(YUV 4:2:0 포맷)는 네 개의 CU로 분할될 수 있는데, 각각의 CU는 32×32 루마 CB 및 두 개의 16×16 크로마 CB를 포함하고, 그리고 각각의 CU는 어쩌면 더 작은 CU로 더 분할된다. CU의 가장 작은 허용가능한 사이즈(예를 들면, 8×8, 16×16)는 비트스트림으로 시그널링될 수 있다.

일반적으로, CU는 인터 또는 인트라와 같은 예측 모드를 가질 수 있다. CU는 예측 정보(예컨대 예측 모드 상세, 변위 값 등등) 및/또는 예측 프로세싱을 시그널링하는 목적을 위한 하나 이상의 예측 단위를 포함한다. 예측 단위(prediction unit; "PU")는 루마 예측 블록(prediction block; "PB") 및 두 개의 크로마 PB를 구비한다. 인트라 예측된 CU의 경우, CU가 최소 사이즈(예를 들면, 8×8)를 갖지 않는 한, PU는 CU와 동일한 사이즈를 갖는다. 그 경우, CU는 네 개의 더 작은 PU(예를 들면, 최소 CU 사이즈가 8×8이면 각각 4×4)로 분할될 수 있거나 또는 PU는, CU에 대한 신택스 엘리먼트에 의해 나타내어지는 바와 같이, 최소 CU 사이즈를 가질 수 있다. CU는 또한 잔차 코딩/디코딩의 목적을 위해 하나 이상의 변환 단위를 갖는데, 이 경우 변환 단위(transform unit; "TU")는 변환 블록(transform block; "TB") 및 두 개의 크로마 TB를 갖는다. 인트라 예측된 CU에서의 PU는 단일의 TU(사이즈에서 PU와 동일) 또는 다수의 TU를 포함할 수도 있다. 본원에서 사용되는 바와 같이, 용어 "블록"은, 상황에 따라, CB, PB, TB 또는 샘플 값의 다른 세트를 나타낼 수 있다. 인코더는 비디오를 CTU, CU, PU, TU 등등으로 구획하는 방법을 결정한다.

도 3을 참조하면, 인코더는 소스 프레임(331)의 인트라 코딩된 블록을, 프레임(331)에서의 다른 이전에 재구성된 샘플 값으로부터의 예측의 관점에서 나타낸다. 인트라 BC 예측의 경우, 모션 추정기(motion estimator)(현재 프레임을 참조 프레임으로서 사용함)는, 다른 이전에 재구성된 샘플 값에 대한, 블록의 변위를 추정한다. 인트라 프레임 예측 참조 영역(또는, 간략히, 인트라 예측 영역)은, 블록에 대한 BC 예측 값을 생성하기 위해 사용되는 프레임에서의 샘플의 영역이다. 인트라 프레임 예측 영역은, 블록 벡터("BV") 값(이것은 모션 벡터("MV") 정보로서 시그널링되고 적용된다)으로 나타내어질 수 있다. 블록에 대한 인트라 공간 예측의 경우, 인트라 화상 추정기는, 이웃하는 재구성된 샘플 값의 블록으로의 외삽(extrapolation)을 추정한다. 인트라 화상 추정기(또는 모션 추정기)는 예측 정보(예컨대 인트라 BC 예측을 위한 MV 정보 또는 인트라 공간 예측을 위한 예측 모드(방향))를 출력할 수 있는데, 예측 정보는 엔트로피 코딩된다. 인트라 화상 예측 예측기(intra-picture prediction predictor)는 인트라 예측 값을 결정하기 위해 공간 예측 정보를 적용한다. 인트라 BC 예측 값을 결정하기 위해, 모션 보상기(참조 프레임으로서 현재 프레임을 사용함)는 MV 정보를 적용한다.

인코더(340)는, 소스 프레임(331)의 인터 프레임 코딩되고 예측된 블록을, 참조 프레임으로부터의 예측의 관점에서 나타낸다. 모션 추정기는 하나 이상의 참조 프레임(369)에 대한 블록의 모션을 추정한다. 다수의 참조 프레임이 사용되는 경우, 다수의 참조 프레임은 상이한 시간적 방향 또는 동일한 시간적 방향으로부터 유래할 수 있다. 모션 보상된 예측 참조 영역은, 현재 프레임의 샘플의 블록에 대한 모션 보상된 예측 값을 생성하기 위해 사용되는, 참조 프레임(들)에서의 샘플의 영역이다. 모션 추정기는 모션 벡터("MV") 정보와 같은 모션 정보를 출력하는데, 모션 정보는 엔트로피 코딩된다. 모션 보상기는 참조 프레임(369)에 MV 값을 적용하여 인터 프레임 예측에 대한 모션 보상된 예측 값을 결정한다.

인코더는 블록의 예측 값(인트라 또는 인터)과 대응하는 원래의 값 사이의 차이를 (만약 존재한다면) 결정할 수 있다. 이들 예측 잔차 값은 또한, 주파수 변환, 양자화 및 엔트로피 인코딩을 사용하여 인코딩된다. 예를 들면, 인코더(340)는, 비디오의 화상, 타일, 슬라이스 및/또는 다른 부분에 대한 양자화 파라미터(quantization parameter; "QP")에 대한 값을 설정하고, 상응하게 변환 계수를 양자화한다. 인코더(340)의 엔트로피 코더는 양자화된 변환 계수 값뿐만 아니라, 소정의 부가 정보(예를 들면, MV 정보, 선택된 MV 정밀도, QP 값, 모드 정밀도, 파라미터 선택)를 압축한다. 통상적인 엔트로피 코딩 기술은, 지수 골룸 코딩(Exponential-Golomb coding), 골룸 라이스 코딩(Golomb-Rice coding), 산술 코딩(arithmetic coding), 차분 코딩(differential coding), 허프만 코딩(Huffman coding), 런 길이 코딩(run length coding), 가변 길이 대 가변 길이(variable-length-to-variable-length; "V2V") 코딩, 가변 길이 대 고정 길이(variable-length-to-fixed-length; "V2F") 코딩, 렘펠 지브(Lempel-Ziv; "LZ") 코딩, 딕셔너리 코딩(dictionary coding), 확률 구간 구획화 엔트로피 코딩(probability interval partitioning entropy coding; "PIPE"), 및 상기의 조합을 포함한다. 엔트로피 코더는 상이한 종류의 정보에 대해 상이한 코딩 기술을 사용할 수 있고, 다수의 기술을 (예를 들면, 골룸 라이스 코딩 및 후속하여 산술 코딩을 적용하는 것에 의해) 조합하여 적용할 수 있고, 특정한 코딩 기술 내에서의 다수의 코드 테이블 중에서 선택할 수 있다.

디코딩된 프레임에서 블록 경계 행 및/또는 열에 걸친 불연속부를 평활화하기 위해, 인코더(340)의 모션 보상 루프 내에 적응적 디블록화 필터(adaptive deblocking filter)가 포함된다. 루프 내 필터링 동작(in-loop filtering operation)으로서, 다른 필터링(예컨대 디링잉 필터링(de-ringing filtering), 적응적 루프 필터링(adaptive loop filtering; "ALF"), 또는 샘플 적응 오프셋(sample-adaptive offset; "SAO") 필터링; 도시되지 않음)이 대안적으로 또는 추가적으로 적용될 수 있다.

코딩된 프레임(341) 및 MMCO/RPS 정보(342)(또는, 프레임에 대한 종속성(dependency) 및 순서 구조(ordering structure)가 인코더(340)에서 이미 알려져 있기 때문에, MMCO/RPS 정보(342) 정보와 등가의 정보)는 디코딩 프로세스 에뮬레이터(350)에 의해 프로세싱된다. 디코딩 프로세스 에뮬레이터(350)는 디코더의 기능성 중 몇몇, 예를 들면, 참조 프레임을 재구성하는 디코딩 태스크를 구현한다. MMCO/RPS 정보(342)와 부합하는 방식에서, 디코딩 프로세스 에뮬레이터(350)는, 인코딩될 후속 프레임의 인터 프레임 예측에서의 참조 프레임으로서의 사용을 위해, 주어진 코딩된 프레임(341)이 재구성되고 저장될 필요가 있는지의 여부를 결정한다. 코딩된 프레임(341)이 저장될 필요가 있다면, 디코딩 프로세스 에뮬레이터(350)는, 코딩된 프레임(341)을 수신하는 그리고 대응하는 디코딩된 프레임(351)을 생성하는 디코더에 의해 행해질 디코딩 프로세스를 모델링한다. 이렇게 함에 있어서, 디코딩된 프레임 저장 영역(360)에 저장되어 있던 디코딩된 프레임(들)(369)을 인코더(340)가 사용한 경우, 디코딩 프로세스 에뮬레이터(350)는 또한, 디코딩 프로세스의 일부로서, 저장 영역(360)으로부터의 디코딩된 프레임(들)(369)을 사용한다.

디코딩된 프레임 임시 메모리 저장 영역(360)은 다수의 프레임 버퍼 저장 영역(361, 362, …, 36n)을 포함한다. MMCO/RPS 정보(342)와 부합하는 방식에서, 디코딩 프로세스 에뮬레이터(350)는, 참조 프레임으로서의 사용을 위해 인코더(340)에 의해 더 이상 필요로 되지 않는 프레임을 갖는 임의의 프레임 버퍼(361, 362, 등등)를 식별하기 위해, 저장 영역(360)의 컨텐츠를 관리한다. 디코딩 프로세스를 모델링한 이후, 디코딩 프로세스 에뮬레이터(350)는 이 방식으로 식별된 프레임 버퍼(361, 362 등등)에 신규로 디코딩된 프레임(351)을 저장한다.

코딩된 프레임(341) 및 MMCO/RPS 정보(342)는 임시 코딩된 데이터 영역(temporary coded data area; 370)에 버퍼링된다. 코딩된 데이터 영역(370)에 집성되는 코딩된 데이터는, 기본 코딩된 비디오 비트스트림의 신택스의 일부로서, 하나 이상의 화상에 대한 인코딩된 데이터를 포함한다. 코딩된 데이터 영역(370)에 집성되는 코딩된 데이터는 또한, 코딩된 비디오 데이터에 관련이 있는 미디어 메타데이터를 (예를 들면, 하나 이상의 보충적인 향상 정보(supplemental enhancement information; "SEI") 메시지 또는 비디오 사용가능성 정보(video usability information; "VUI") 메시지에서의 하나 이상의 파라미터로서) 포함할 수 있다.

임시 코딩된 데이터 영역(370)으로부터의 집성된 데이터(371)는 채널 인코더(380)에 의해 프로세싱된다. 채널 인코더(380)는, 미디어 스트림으로서의 송신 또는 저장을 위해 집성된 데이터를 (예를 들면, ITU-T H.222.0 | ISO/IEC 13818-1와 같은 미디어 프로그램 스트림 또는 전송 스트림 포맷 또는 IETF RFC 3550과 같은 인터넷 실시간 전송 프로토콜 포맷에 따라) 패킷화할 수 있고/있거나 멀티플렉싱할 수 있는데, 이 경우, 채널 인코더(380)는 신택스 엘리먼트를 미디어 송신 스트림의 신택스의 일부로서 추가할 수 있다. 또는, 채널 인코더(380)는, 파일로서의 저장을 위해, 집성된 데이터를 (예를 들면, ISO/IEC 14496-12와 같은 미디어 컨테이너 포맷에 따라) 편제할 수 있는데, 이 경우, 채널 인코더(380)는 신택스 엘리먼트를 미디어 저장 파일의 신택스의 일부로서 추가할 수 있다. 또는, 보다 일반적으로는, 채널 인코더(380)는 하나 이상의 미디어 시스템 멀티플렉싱 프로토콜 또는 전송 프로토콜을 구현할 수 있는데, 이 경우, 채널 인코더(380)는 신택스 엘리먼트를 프로토콜(들)의 신택스의 일부로서 추가할 수 있다. 채널 인코더(380)는 채널(390)로 출력을 제공하는데, 채널(390)은 출력에 대한 저장, 통신 연결, 또는 다른 채널을 나타낸다. 채널 인코더(380) 또는 채널(390)은 또한, 예를 들면, 순방향 에러 정정(forward-error correction; "FEC") 인코딩 및 아날로그 신호 변조를 위한 다른 엘리먼트(도시되지 않음)를 포함할 수도 있다.

IV. 예시적인 디코더 시스템.

도 4는 몇몇 설명된 실시형태가 연계하여 구현될 수도 있는 예시적인 디코더 시스템(400)의 블록도이다. 디코더 시스템(400)은, 다수의 디코딩 모드 예컨대 실시간 통신을 위한 로우 레이턴시 디코딩 모드 및 파일 또는 스트림으로부터의 미디어 재생을 위한 더 높은 레이턴시의 디코딩 모드 중 임의의 것에서 동작할 수 있는 범용 디코딩 툴일 수 있거나, 또는 그것은 하나의 이러한 디코딩 모드에 대해 적응되는 특수 목적의 디코딩 툴일 수 있다. 디코더 시스템(400)은 오퍼레이팅 시스템 모듈로서, 애플리케이션 라이브러리의 일부로서 또는 독립형 애플리케이션으로서 구현될 수 있다. 종합하면, 디코더 시스템(400)은 채널(410)로부터 코딩된 데이터를 수신하고 출력 목적지(490)에 대한 출력으로서 재구성된 프레임을 생성한다. 코딩된 데이터는 통합된 인트라 BC 및 인터 예측 모드를 사용하여 인코딩된 컨텐츠를 포함할 수 있다.

디코더 시스템(400)은 채널(410)을 포함하는데, 채널(410)은 코딩된 데이터에 대한 저장, 통신 연결, 또는 다른 채널을 입력으로서 나타낼 수 있다. 채널(410)은 채널 코딩된(channel coded) 코딩된 데이터(coded data)를 생성한다. 채널 디코더(420)는 코딩된 데이터를 프로세싱할 수 있다. 예를 들면, 채널 디코더(420)는, 미디어 스트림으로서의 송신 또는 저장을 위해 집성된 데이터를 (예를 들면, ITU-T H.222.0 | ISO/IEC 13818-1와 같은 미디어 프로그램 스트림 또는 전송 스트림 포맷 또는 IETF RFC 3550과 같은 인터넷 실시간 전송 프로토콜 포맷에 따라) 패킷화해제하고 및/또는 디멀티플렉싱하는데, 이 경우, 채널 디코더(420)는 미디어 송신 스트림의 신택스의 일부로서 추가된 신택스 엘리먼트를 파싱할 수 있다. 또는, 채널 디코더(420)는, 파일로서의 저장을 위해 집성되었던 코딩된 비디오 데이터를 (예를 들면, ISO/IEC 14496-12와 같은 미디어 컨테이너 포맷에 따라) 분리하는데, 이 경우, 채널 디코더(420)는 미디어 저장 파일의 신택스의 일부로서 추가된 신택스 엘리먼트를 파싱할 수 있다. 또는, 보다 일반적으로는, 채널 디코더(420)는 하나 이상의 미디어 시스템 디멀티플렉싱 프로토콜 또는 전송 프로토콜을 구현할 수 있는데, 이 경우, 채널 디코더(420)는 프로토콜(들)의 신택스의 일부로서 추가된 신택스 엘리먼트를 파싱할 수 있다. 채널(410) 또는 채널 디코더(420)는 또한, 예를 들면, FEC 디코딩 및 아날로그 신호 변조를 위한 다른 엘리먼트(도시되지 않음)를 포함할 수도 있다.

채널 디코더(420)로부터 출력되는 코딩된 데이터(421)는, 충분한 양의 이러한 데이터가 수신될 때까지 임시 코딩된 데이터 영역(430)에 저장된다. 코딩된 데이터(421)는 코딩된 프레임(431) 및 MMCO/RPS 정보(432)를 포함한다. 코딩된 데이터 영역(430)의 코딩된 데이터(421)는, 기본 코딩된 비디오 비트스트림의 신택스의 일부로서, 하나 이상의 화상에 대한 코딩된 데이터를 포함한다. 코딩된 데이터 영역(430)의 코딩된 데이터(421)는 또한, 인코딩된 비디오 데이터에 관련이 있는 미디어 메타데이터를 (예를 들면, 하나 이상의 SEI 메시지 또는 VUI 메시지에서의 하나 이상의 파라미터로서) 포함할 수 있다.

일반적으로, 코딩된 데이터 영역(430)은, 이러한 코딩된 데이터(421)가 디코더(450)에 의해 사용될 때까지, 코딩된 데이터(421)를 일시적으로 저장한다. 그때, MMCO/RPS 정보(432) 및 코딩된 프레임(431)에 대한 코딩된 데이터는 코딩된 데이터 영역(430)으로부터 디코더(450)로 전송된다. 디코딩이 진행함에 따라, 신규의 코딩된 데이터가 코딩된 데이터 영역(430)에 추가되고 코딩된 데이터 영역(430)에 남아 있는 가장 오래된 코딩된 데이터는 디코더(450)로 전송된다.

디코더(450)는 대응하는 디코딩된 프레임(451)을 생성하기 위해 코딩된 프레임(431)을 디코딩한다. 적절하다면, 자신의 디코딩 프로세스를 수행하고 있을 때, 디코더(450)는 하나 이상의 이전에 디코딩된 프레임(469)을, 인터 프레임 예측을 위한 참조 프레임으로서 사용할 수도 있다. 디코더(450)는 이러한 이전에 디코딩된 프레임(469)을 디코딩된 프레임 임시 메모리 저장 영역(460)으로부터 판독한다. 일반적으로, 디코더(450)는, 타일의 엔트로피 디코딩, 인트라 프레임 예측, 모션 보상된 인터 프레임 예측, 역 양자화, 역 주파수 변환, 및 병합과 같은 디코딩 태스크를 수행하는 다수의 디코딩 모듈을 포함한다. 디코더(450)에 의해 수행되는 정확한 동작은 압축 포맷에 따라 변할 수 있다.

예를 들면, 디코더(450)는 압축된 프레임 또는 프레임의 시퀀스에 대한 인코딩된 데이터를 수신하고 디코딩된 프레임(451)을 포함하는 출력을 생성한다. 디코더(450)에서, 버퍼는 압축된 프레임에 대한 인코딩된 데이터를 수신하고, 적절한 시간에, 수신된 인코딩된 데이터를 엔트로피 디코더가 이용가능하게 만든다. 엔트로피 디코더는, 엔트로피 코딩된 양자화된 데이터뿐만 아니라 엔트로피 코딩된 부가 정보를 엔트로피 디코딩하는데, 통상적으로는, 인코더에서 수행된 엔트로피 인코딩의 역을 적용한다. 모션 보상기는, 재구성되고 있는 프레임의 임의의 인터 코딩된 블록에 대한 모션 보상된 예측 값을 형성하기 위해, 하나 이상의 참조 프레임에 대해 모션 정보를 적용한다. 부가 정보에 기초하여, 모션 보상기는 선택된 MV 정밀도(예를 들면, 정수 픽셀 MV 정밀도, 1/2 픽셀 MV 정밀도, 또는 1/4 픽셀 MV 정밀도)를 결정할 수 있다. 그 다음, 모션 보상기는 선택된 MV 정밀도를 갖는 MV를 적용할 수 있다. 인트라 예측 모듈은, 이웃하는 이전에 재구성된 샘플 값으로부터 현재 블록의 샘플 값을 공간적으로 예측할 수 있다. 또는, 인트라 BC 예측의 경우, 모션 보상기는, 참조 프레임으로서, 현재 프레임에서의 인트라 프레임 예측 영역의 이전에 재구성된 샘플 값을 사용하여 현재 블록의 샘플 값을 예측할 수 있다. 인트라 프레임 예측 영역은 MV 값으로 나타내어질 수 있다. 디코더(450)는 또한 예측 잔차 값을 재구성한다. 역 양자화기는 엔트로피 디코딩된 데이터를 역 양자화한다. 예를 들면, 디코더(450)는, 비트스트림의 신택스 엘리먼트에 기초하여 비디오의 화상, 타일, 슬라이스 및/또는 다른 부분에 대한 QP에 대한 값을 설정하고, 그에 따라 변환 계수를 역 양자화한다. 역 주파수 변환기는 양자화된 주파수 도메인 데이터를 공간 도메인 데이터로 변환한다. 인터 프레임 예측된 블록의 경우, 디코더(450)는 재구성된 예측 잔차 값을 모션 보상된 예측 값과 결합한다. 마찬가지로, 디코더(450)는 예측 잔차 값을 인트라 프레임 예측으로부터의 예측 값과 결합할 수 있다. 디코딩된 프레임(451)에서 블록 경계 행 및/또는 열에 걸친 불연속부를 평활화하기 위해, 비디오 디코더(450)의 모션 보상 루프 내에 적응적 디블로킹 필터가 포함된다. 루프 내 필터링 동작으로서, 다른 필터링(예컨대 디링잉 필터링, ALF, 또는 SAO 필터링; 도시되지 않음)이 대안적으로 또는 추가적으로 적용될 수 있다.

디코딩된 프레임 임시 메모리 저장 영역(460)은 다수의 프레임 버퍼 저장 영역(461, 462, …, 46n)을 포함한다. 디코딩된 프레임 저장 영역(460)은 디코딩된 화상 버퍼의 예이다. 디코더(450)는, 디코딩된 프레임(451)을 내부에 저장할 수 있는 프레임 버퍼(461, 462 등등)를 식별하기 위해 MMCO/RPS 정보(432)를 사용한다. 디코더(450)는 그 프레임 버퍼에 디코딩된 프레임(451)을 저장한다.

출력 시퀀서(output sequencer; 480)는, 출력 순서에서 생성될 다음 번 프레임이 디코딩된 프레임 저장 영역(460)에서 이용가능할 때를 식별한다. 출력 순서에서 생성될 다음 번 프레임(481)이 디코딩된 프레임 저장 영역(460)에서 이용가능할 때, 다음 번 프레임(481)은 출력 시퀀서(480)에 의해 판독되고 출력 목적지(490)(예를 들면, 디스플레이)로 출력된다. 일반적으로, 디코딩된 프레임 저장 영역(460)으로부터 출력 시퀀서(480)에 의해 프레임이 출력되는 순서는, 프레임이 디코더(450)에 의해 디코딩되는 순서와는 상이할 수도 있다.

V. 예시적인 비디오 인코더.

도 5a 및 도 5b는 몇몇 설명된 실시형태가 연계하여 구현될 수도 있는 일반화된 비디오 인코더(500)의 블록도이다. 인코더(500)는 현재 화상을 입력 비디오 신호(505)로서 포함하는 비디오 화상의 시퀀스를 수신하고 인코딩된 데이터를 코딩된 비디오 비트스트림(595)으로 출력으로서 생성한다.

인코더(500)는 블록 기반이며 구현예에 의존하는 블록 포맷을 사용한다. 블록은 상이한 스테이지에서, 예를 들면, 예측, 주파수 변환 및/또는 엔트로피 인코딩 스테이지에서, 더 세분된다(sub-divided). 예를 들면, 화상은 64×64 블록, 32×32 블록 또는 16×16 블록으로 분할될 수 있는데, 이들은 결국에는 코딩 및 디코딩을 위해 샘플 값의 더 작은 블록으로 분할될 수 있다. HEVC 표준에 대한 인코딩의 구현예에서, 인코더는 화상을 CTU(CTB), CU(CB), PU(PB) 및 TU(TB)로 구획한다.

인코더(500)는 인트라 화상 코딩 및/또는 인터 화상 코딩을 사용하여 화상을 압축한다. 인코더(500)의 컴포넌트 중 많은 것은 인트라 화상 코딩 및 인터 화상 코딩 둘 다에 대해 사용된다. 이들 컴포넌트에 의해 수행되는 정확한 동작은, 압축되고 있는 정보의 타입에 따라 변할 수 있다.

타일화 모듈(tiling module; 510)은, 옵션적으로, 화상을, 동일한 사이즈의 또는 상이한 사이즈의 다수의 타일로 구획한다. 예를 들면, 타일화 모듈(510)은, 화상 경계와 함께, 화상 내에서의 타일의 수평 및 수직 경계를 정의하는 타일 행 및 타일 열을 따라 화상을 분할하는데, 이 경우 각각의 타일은 직사각형 영역이다.

일반적인 인코딩 제어부(520)는 입력 비디오 신호(505)에 대한 화상뿐만 아니라 인코더(500)의 다양한 모듈로부터 피드백(도시되지 않음)을 수신한다. 종합하면, 일반적인 인코딩 제어부(520)는, 인코딩 동안 코딩 파라미터를 설정하고 변경하기 위해, 제어 신호(도시되지 않음)를 다른 모듈(예컨대 타일화 모듈(510), 변환기/스케일러/양자화기(530), 스케일러/역변환기(535), 인트라 화상 추정기(540), 모션 추정기(550) 및 인트라/인터 스위치)로 제공한다. 특히, 모션 추정기(550)와 연계하여, 일반적인 인코딩 제어부(520)는 인트라 BC 예측 및 인터 예측을 관리할 수 있다. 일반적인 인코딩 제어부(520)는 또한, 인코딩 동안, 예를 들면, 레이트 왜곡 분석을 수행하는 동안 중간 결과를 평가할 수 있다. 일반적인 인코딩 제어부(520)는, 인코딩 동안 만들어진 결정을 나타내는 일반적인 제어 데이터(522)를 생성하고, 그 결과, 대응하는 디코더는 일관된 결정을 행할 수 있다. 일반적인 제어 데이터(522)는 헤더 포맷터(header formatter)/엔트로피 코더(590)로 제공된다.

현재 화상이 인터 화상 예측 또는 인트라 BC 예측을 사용하여 예측되면, 모션 추정기(550)는, 하나 이상의 참조 화상을 기준으로, 입력 비디오 신호(505)의 현재 화상에서의 샘플 값의 블록의 모션(변위)을 추정한다. 인트라 BC 예측의 경우, 참조 화상은 현재 화상이고, 모션 추정기(550)는 현재 화상 내의 상이한 후보 영역까지의 현재 블록의 샘플 값의 변위를 추정한다. 모션 추정기(550)는 모션 벡터("MV") 정밀도(예를 들면, 정수 픽셀 MV 정밀도, 1/2 픽셀 MV 정밀도, 또는 1/4 픽셀 MV 정밀도)를 선택할 수 있고, 그 다음, 선택된 MV 정밀도를 모션 추정 동안 사용할 수 있다. 디코딩된 화상 버퍼(570)는, 참조 화상으로서의 사용을 위해 하나 이상의 재구성된 이전에 코딩된 화상을 버퍼링한다. 다수의 참조 화상이 사용되는 경우, 다수의 참조 화상은 상이한 시간적 방향 또는 동일한 시간적 방향으로부터 유래할 수 있다. 모션 추정기(550)는, 부가 정보로서 MV 데이터(인트라 BC 예측을 위한 변위를 나타내는 MV 값을 포함함)와 같은 모션 데이터(552), 병합 모드 인덱스 값, 및 참조 화상 선택 데이터뿐만 아니라, 선택된 MV 정밀도를 나타내는 부가 정보를 생성한다. 모션 데이터(552)를 포함하는 부가 정보는, 헤더 포맷터/엔트로피 코더(590)뿐만 아니라 모션 보상기(555)로 제공된다.

모션 보상기(555)는 선택된 MV 정밀도를 갖는 MV 값을, 디코딩된 화상 버퍼(570)로부터의 재구성된 참조 화상(들)에 적용한다. 또는, 인트라 BC 예측의 경우, 모션 보상기(555)는, 현재 화상의 블록에 대한 샘플 값을 예측하기 위해, 현재 화상의 재구성된 일부에 MV 값을 참조 화상으로서 적용한다. 화상에 대한 크로마 데이터가 루마 데이터와 동일한 해상도를 갖는 경우(예를 들면, 포맷이 YUV 4:4:4 포맷이거나 또는 RGB 4:4:4 포맷인 경우), 크로마 블록에 대해 적용되는 MV 값은 루마 블록에 대해 적용되는 MV 값과 동일할 수도 있다. 한편, 화상에 대한 크로마 데이터가 루마 데이터에 비해 감소된 해상도를 갖는 경우(예를 들면, 포맷이 YUV 4:2:0 포맷이거나 또는 YUV 4:2:2 포맷인 경우), (예를 들면, YUV 4:2:0 포맷의 경우, MV 값의 수직 및 수평 성분을 2로 나누고, 2로 나눈 값을 정수 픽셀 오프셋으로 버림처리하거나 또는 반올림 처리하는 것에 의해; YUV 4:2:2 포맷의 경우, MV 값의 수평 성분을 2로 나누고 2로 나눈 값을 정수 픽셀 오프셋으로 버림 처리하거나 또는 반올림 처리하는 것에 의해) 크로마 블록에 대해 적용되는 MV 값은, 크로마 해상도에서의 차이를 조정하도록 다운스케일링되고(scaled down) 어쩌면 반올림 처리된다. 모션 보상기(555)는, 현재 화상에 대한 모션 보상된 예측치를, 그리고 인트라 BC 예측의 경우, 현재 화상에 대한 인트라 BC 예측 값을 생성한다.

인코더(500) 내에서의 별개의 경로에서, 인트라 화상 추정기(540)는, 입력 비디오 신호(505)의 현재 화상의 샘플 값의 블록에 대한 공간 인트라 화상 예측을 수행하는 방법을 결정한다. 현재 화상은 인트라 화상 코딩을 사용하여 전적으로 또는 부분적으로 코딩될 수 있다. 현재 화상의 재구성치(538)의 값을 사용한 인트라 공간 예측의 경우, 인트라 화상 추정기(540)는, 현재 화상의 이웃하는 이전에 재구성된 샘플 값으로부터, 현재 화상의 현재 블록의 샘플 값을 공간적으로 예측하는 방법을 결정한다. 인트라 화상 추정기(540)는 인트라 예측 데이터(542), 예컨대 (인트라 공간 예측을 위한) 예측 모드 방향을 부가 정보로서 생성한다. 인트라 예측 데이터(542)는, 헤더 포맷터/엔트로피 코더(590)뿐만 아니라 인트라 화상 예측기(545)에도 제공된다.

인트라 예측 데이터(542)에 따르면, 인트라 화상 예측기(545)는, 현재 화상의 이웃하는 이전에 재구성된 샘플 값으로부터, 현재 화상의 현재 블록의 샘플 값을 공간적으로 예측한다.

인트라/인터 스위치는, 주어진 블록에 대한 예측(558)으로서의 사용을 위한 모션 보상된 예측 또는 인트라 화상 예측의 값을 선택한다. 예측(558)의 블록과 입력 비디오 신호(505)의 원래의 현재 화상의 대응하는 부분 사이의 차이는 (만약 존재한다면) 잔차(518)의 값을 제공한다. 현재 화상의 재구성 동안, 재구성된 잔차 값은 예측치(558)와 결합되어 비디오 신호(505)로부터의 원래의 컨텐츠의 재구성치(538)를 생성한다. 그러나, 손실성 압축에서, 몇몇 정보는 여전히 비디오 신호(505)로부터 상실된다.

변환기/스케일러/양자화기(530)에서, 주파수 변환기는 공간적 도메인 비디오 데이터를 주파수 도메인(즉, 스펙트럼, 변환) 데이터로 변환한다. 블록 기반의 비디오 코딩의 경우, 주파수 변환기는, 예측 잔차 데이터(또는 예측(558)이 널(null)인 경우 샘플 값 데이터)의 블록에 대해, 이산 코사인 변환(discrete cosine transform; "DCT"), 그 정수 근사, 또는 다른 타입의 순방향 블록 변환(forward block transform)(예를 들면, 이산 사인 변환 또는 그 정수 근사)을 적용하여, 주파수 변환 계수의 블록을 생성하게 된다. 인코더(500)는 또한, 이러한 변환 단계가 스킵되는 것을 나타낼 수 있을 수도 있다. 스케일러/양자화기는 변환 계수를 스케일링하고 양자화한다. 예를 들면, 양자화기는, 프레임 단위 기반으로, 타일 단위 기반으로, 슬라이스 단위 기반으로, 블록 단위 기반으로, 주파수별 기반으로 또는 다른 기반으로 변하는 양자화 스텝 사이즈를 가지고 주파수 도메인 데이터에 데드 존 스칼라 양자화(dead-zone scalar quantization)를 적용할 수 있다. 양자화된 변환 계수 데이터(532)는 헤더 포맷터/엔트로피 코더(590)에 제공된다.

스케일러/역 변환기(535)에서, 스케일러/역 양자화기는, 양자화된 변환 계수에 관해 역 스케일링 및 역 양자화를 수행한다. 역 주파수 변환기는 역 주파수 변환을 수행하여, 재구성된 예측 잔차 값 또는 샘플 값의 블록을 생성한다. 인코더(500)는 재구성된 잔차 값을 예측치(558)의 값(예를 들면, 모션 보상된 예측 값, 인트라 화상 예측 값)과 결합하여 재구성치(538)를 형성한다.

공간 인트라 화상 예측의 경우, 재구성치(538)의 값은 인트라 화상 추정기(540) 및 인트라 화상 예측기(545)로 다시 공급될 수 있다. 또한, 재구성치(538)의 값은, 후속하는 화상의 모션 보상된 예측을 위해, 또는 현재 화상을 참조 화상으로 사용하는 인트라 BC 예측을 위해 사용될 수 있다. 재구성치(538)의 값은 추가로 필터링될 수 있다. 필터링 제어부(560)는, 비디오 신호(505)의 주어진 화상에 대해, 재구성치(538)의 값에 관한 디블록 필터링 및 SAO 필터링을 수행하는 방법을 결정한다. 필터링 제어부(560)는 필터 제어 데이터(562)를 생성하는데, 필터 제어 데이터(562)는 헤더 포맷터/엔트로피 코더(590) 및 병합기/필터(들)(565)로 제공된다.

병합기/필터(들)(565)에서, 인코더(500)는 상이한 타일로부터의 컨텐츠를 화상의 재구성된 버전으로 병합한다. 인코더(500)는, 프레임에서의 경계에 걸친 불연속부를 적응적으로 평활화하기 위해, 필터 제어 데이터(562)에 따라 디블록 필터링 및 SAO 필터링을 선택적으로 수행한다. 다른 필터링(예컨대 디링잉 필터링 또는 ALF; 도시되지 않음)이 대안적으로 또는 추가적으로 적용될 수 있다. 타일 경계는, 인코더(500)의 설정에 따라, 선택적으로 필터링될 수 있거나 또는 전혀 필터링되지 않을 수 있고, 인코더(500)는 이러한 필터링이 적용되었는지 또는 그렇지 않은지의 여부를 나타내기 위해 코딩된 비트스트림 내에 신택스를 제공할 수도 있다. 디코딩된 화상 버퍼(570)는, 후속하는 모션 보상된 예측에서의 사용을 위해 재구성된 현재 화상을 버퍼링한다.

헤더 포맷터/엔트로피 코더(590)는, 일반적인 제어 데이터(522), 양자화된 변환 계수 데이터(532), 인트라 예측 데이터(542), 모션 데이터(552), 및 필터 제어 데이터(562)를 포맷하고 및/또는 엔트로피 코딩한다. MV 값은 예측적으로 코딩될 수 있다. 예를 들면, 헤더 포맷터/엔트로피 코더(590)는, MV 예측 이후에, 차분 MV 값에 대해 신택스 엘리먼트와 같은 다양한 신택스 엘리먼트의 엔트로피 코딩을 위해, 지수 골룸 코딩을 사용한다.

헤더 포맷터/엔트로피 코더(590)는 코딩된 비디오 비트스트림(595)으로 인코딩된 데이터를 제공한다. 코딩된 비디오 비트스트림(595)의 포맷은, HEVC 포맷, 윈도우 미디어 비디오 포맷, VC-1 포맷, MPEG-x 포맷(예를 들면, MPEG-1, MPEG-2, 또는 MPEG-4), H.26x 포맷(예를 들면, H.261, H.262, H.263, H.264), 또는 다른 포맷의 변형안 또는 확장안일 수 있다.

소망되는 압축의 타입 및 구현예에 따라서, 인코더(500)의 모듈은 추가될 수 있고, 생략될 수 있고, 다수의 모듈로 분할될 수 있고, 다른 모듈과 결합될 수 있고 및/또는 유사한 모듈로 대체될 수 있다. 대안적인 실시형태에서, 상이한 모듈 및/또는 모듈의 다른 구성을 갖는 인코더는 설명된 기술 중 하나 이상을 수행한다. 인코더의 특정 실시형태는, 통상적으로, 인코더(500)의 변형예 또는 보충된 버전을 사용한다. 인코더(500) 내에서의 모듈 사이에 도시되는 관계는, 인코더에서의 정보의 일반적인 흐름을 나타내며; 다른 관계는 간략화를 위해 도시되지 않는다.

VI. 예시적인 비디오 디코더.

도 6은 몇몇 설명된 실시형태가 연계하여 구현될 수도 있는 일반화된 디코더(600)의 블록도이다. 디코더(600)는 인코딩된 데이터를 코딩된 비트스트림(605)으로 수신하고 재구성된 비디오(695)에 대한 화상을 포함하는 출력을 생성한다. 코딩된 비디오 비트스트림(605)의 포맷은, HEVC 포맷, 윈도우 미디어 비디오 포맷, VC-1 포맷, MPEG-x 포맷(예를 들면, MPEG-1, MPEG-2, 또는 MPEG-4), H.26x 포맷(예를 들면, H.261, H.262, H.263, H.264), 또는 다른 포맷의 변형안 또는 확장안일 수 있다.

디코더(600)는 블록 기반이며 구현예에 의존하는 블록 포맷을 사용한다. 블록은 상이한 스테이지에서 더 세분될 수도 있다. 예를 들면, 화상은 64×64 블록, 32×32 블록 또는 16×16 블록으로 분할될 수 있는데, 이들은 종국에는 샘플 값의 더 작은 블록으로 분할될 수 있다. HEVC 표준에 대한 디코딩의 구현예에서, 화상은 CTU(CTB), CU(CB), PU(PB) 및 TU(TB)로 구획된다.

디코더(600)는 인트라 화상 디코딩 및/또는 인터 화상 디코딩을 사용하여 화상을 압축해제한다. 디코더(600)의 컴포넌트 중 많은 것은 인트라 화상 디코딩 및 인터 화상 디코딩 둘 다에 대해 사용된다. 이들 컴포넌트에 의해 수행되는 정확한 동작은, 압축해제되고 있는 정보의 타입에 따라 변할 수 있다.

버퍼는 인코딩된 데이터를 코딩된 비디오 비트스트림(605)으로 수신하고 수신된 인코딩된 데이터를 파서/엔트로피 디코더(610)가 이용가능하게 만든다. 파서/엔트로피 디코더(610)는 엔트로피 코딩된 데이터를 엔트로피 디코딩하는데, 통상적으로는 인코더(500)에서 수행된 엔트로피 코딩의 역(예를 들면, 콘텍스트 적응 이진 산술 디코딩)을 적용한다. 파싱 및 엔트로피 디코딩의 결과로서, 파서/엔트로피 디코더(610)는, 일반적인 제어 데이터(622), 양자화된 변환 계수 데이터(632), 인트라 예측 데이터(642), 모션 데이터(652) 및 필터 제어 데이터(662)를 생성한다. 특히, 모션 데이터(652)의 경우, 파서/엔트로피 디코더(610)는, 예를 들면, 콘텍스트 적응 이진 산술 디코딩을 사용하여, 차분 MV 값에 대한 신택스 엘리먼트를 엔트로피 디코딩할 수 있고, 그 다음, 인터 화상 예측 또는 인트라 BC 예측을 위해 사용될 수도 있는 MV 값을 재구성하기 위해, 차분 MV 값을 예측된 MV 값과 결합할 수 있다.

일반적인 디코딩 제어부(620)는 일반적인 제어 데이터(622)를 수신하고, 디코딩 동안 디코딩 파라미터를 설정하고 변경하기 위해, 제어 신호(도시되지 않음)를 다른 모듈(예컨대, 스케일러/역 변환기(635), 인트라 화상 예측기(645), 모션 보상기(655) 및 인트라/인터 스위치)로 제공한다.

현재 화상이 인터 화상 예측 또는 인트라 BC 예측을 사용하여 예측되면, 모션 보상기(655)는 모션 데이터(652), 예컨대 MV 데이터, 참조 화상 선택 데이터 및 병합 모드 인덱스 값을 수신한다. 모션 보상기(655)는 또한 선택된 MV 정밀도의 표시를 수신한다. 인터 화상 예측의 경우, 모션 보상기(655)는 선택된 MV 정밀도를 갖는 MV를, 디코딩된 화상 버퍼(670)로부터의 재구성된 참조 화상(들)에 적용한다. 또는, 인트라 BC 예측의 경우, 모션 보상기(655)는, 현재 화상의 블록의 샘플 값을 예측하기 위해, 참조 화상으로서, 현재 화상의 재구성된 일부에 선택된 MV 정밀도를 갖는 MV를 적용한다. 모션 보상기(655)는, 현재 화상의 인터 코딩된 블록에 대한 모션 보상된 예측치 및/또는 현재 화상의 인트라 BC 예측된 블록에 대한 인트라 BC 예측된 값을 생성한다. 디코딩된 화상 버퍼(670)는 참조 화상으로서의 사용을 위해 하나 이상의 이전에 재구성된 화상을 저장한다.

디코더(600) 내의 별개의 경로에서, 인트라 프레임 예측 추정기(645)는 인트라 예측 데이터(642), 예컨대 (인트라 공간 예측을 위한) 예측 모드 방향을 수신한다. 인트라 공간 예측의 경우, 현재 화상의 재구성치(638)의 값을 사용하여, 예측 모드 데이터에 따라, 인트라 화상 예측기(645)는, 현재 화상의 이웃하는 이전에 재구성된 샘플 값으로부터, 현재 화상의 현재 블록의 샘플 값을 공간적으로 예측한다.

인트라/인터 스위치는, 주어진 블록에 대한 예측치(658)로서 사용하기 위한 모션 보상된 예측치 또는 인트라 화상 예측치의 값을 선택한다. 예를 들면, HEVC 신택스가 후속되면, 인트라/인터 스위치는, 인트라 예측된 CU 및 인터 예측된 CU를 포함할 수 있는 화상의 CU에 대해 인코딩되는 신택스 엘리먼트에 기초하여 제어될 수 있다. 디코더(600)는 예측치(658)를 재구성된 잔차 값과 결합하여, 비디오 신호로부터의 컨텐츠의 재구성치(638)를 생성한다.

잔차를 재구성하기 위해, 스케일러/역 변환기(635)는 양자화된 변환 계수 데이터(632)를 수신하여 프로세싱한다. 스케일러/역 변환기(635)에서, 스케일러/역 양자화기는, 양자화된 변환 계수에 대한 역 스케일링 및 역 양자화를 수행한다. 역 주파수 변환기는 역 주파수 변환을 수행하여, 재구성된 예측 잔차 값 또는 샘플 값의 블록을 생성한다. 예를 들면, 역 주파수 변환기는 주파수 변환 계수에 대해 역 블록 변환을 적용하여, 샘플 값 데이터 또는 예측 잔차 데이터를 생성한다. 역 주파수 변환은 역 DCT, 역 DCT의 정수 근사, 또는 다른 타입의 역 주파수 변환(예를 들면, 역 이산 사인 변환 또는 역 이산 사인 변환의 정수 근사)일 수 있다.

공간 인트라 화상 예측의 경우, 재구성치(638)의 값은 인트라 화상 예측기(645)로 다시 공급될 수 있다. 또한, 재구성치(638)의 값은, 후속하는 화상의 모션 보상된 예측을 위해, 또는 현재 화상을 참조 화상으로서 사용하는 인트라 BC 예측을 위해 사용될 수 있다. 인터 화상 예측의 경우, 재구성치(638)의 값은 추가로 필터링될 수 있다. 병합기/필터(들)(665)에서, 디코더(600)는 상이한 타일로부터의 컨텐츠를 화상의 재구성된 버전으로 병합한다. 디코더(600)는, 프레임에서의 경계에 걸친 불연속부를 적응적으로 평활화하기 위해, 필터 제어 데이터(662) 및 필터 적응을 위한 규칙에 따라 디블록 필터링 및 SAO 필터링을 선택적으로 수행한다. 다른 필터링(예컨대 디링잉 필터링 또는 ALF; 도시되지 않음)이 대안적으로 또는 추가적으로 적용될 수 있다. 타일 경계는, 인코딩된 비트스트림 데이터 내에서의 신택스 표시(syntax indication) 또는 디코더(600)의 설정에 따라, 선택적으로 필터링될 수 있거나 또는 전혀 필터링되지 않을 수 있다. 디코딩된 화상 버퍼(670)는, 후속하는 모션 보상된 예측에서의 사용을 위해 재구성된 현재 화상을 버퍼링한다.

디코더(600)는 또한 후처리 필터(post-processing deblock filter)를 포함할 수 있다. 후처리 필터는, 디링잉 필터링, 적응적 위이너 필터링(adaptive Wiener filtering), 필름 그레인 재현 필터링(film-grain reproduction filtering), SAO 필터링 또는 다른 종류의 필터링을 포함할 수 있다.

소망되는 압축해제의 타입 및 구현예에 따라서, 디코더의 모듈은 추가될 수 있고, 생략될 수 있고, 다수의 모듈로 분할될 수 있고, 다른 모듈과 결합될 수 있고 및/또는 유사한 모듈로 대체될 수 있다. 대안적인 실시형태에서, 상이한 모듈 및/또는 모듈의 다른 구성을 갖는 디코더는 설명된 기술 중 하나 이상을 수행한다. 디코더의 특정 실시형태는, 통상적으로, 디코더(600)의 변형예 또는 보충된 버전을 사용한다. 디코더(600) 내의 모듈 사이에 도시되는 관계는, 디코더에서의 정보의 일반적인 흐름을 나타내며; 다른 관계는 간략화를 위해 도시되지 않는다.

VII. 통합된 인트라 블록 카피 및 인터 예측 모드

인트라 블록 카피("BC") 예측 및 인터 화상 예측 둘 다는, 현재 화상의 현재 블록의 샘플 값을 예측하기 위해, 이전에 재구성된 블록의 샘플 값을 사용한다. 인터 화상 예측은 다른 화상의 이전에 재구성된 블록의 샘플 값을 사용한다. 한편, 인트라 BC 예측은, 현재 화상에서의 이전에 재구성된 블록의 샘플 값을 사용한다.

이 섹션은 통합된 인트라 BC 및 인터 예측 모드에서 다양한 혁신안을 제시한다. 몇몇 예시적인 구현예에서, 비트스트림 신택스, 신택스 엘리먼트의 의미론(semantics) 및 인터 예측 모드에 대한 많은 코딩/디코딩 프로세스는 화상의 블록에 대한 인트라 BC 예측을 가능하게 하기 위해 재사용되거나 또는 약간 수정된다. 신택스, 의미론 및 코딩/디코딩 프로세스의 이 통합을 통해, 인트라 BC 예측이 사용될 때 인터 예측 모드에 대해 설계되는 다양한 코딩/디코딩 툴이 또한 적용될 수 있고, 이것은 인트라 BC 예측의 구현을 단순화시킨다.

A. 통합된 인트라 BC 및 인터 예측 모드를 이용한 인코딩.

도 7은, 통합된 인트라 BC 및 인터 예측 모드를 이용한 인코딩을 위한 일반화된 기술(700)을 예시하는 플로우차트이다. 도 3 또는 도 5를 참조로 상기에서 설명된 것과 같은 비디오 인코더, 또는 다른 비디오 인코더가 기술(700)을 수행할 수 있다.

시작하기 위해, 비디오 인코더는, 현재 화상을 인코딩하여(710) 인코딩된 데이터를 생성한다. 인코딩(710)의 일부로서, 인코더는 현재 화상의 현재 블록에 대한 인트라 BC 예측을 수행하는데, 이 경우, 인트라 BC 예측은 현재 화상을 참조 화상으로 하여 인터 예측 모드를 사용한다. 현재 블록은 예측 블록("PB") 또는 다른 블록일 수 있다. 예를 들면, 현재 블록에 대한 인트라 BC 예측을 제공하기 위해, 인코더는, 현재 화상을 모션 보상을 위한 참조 화상으로서 사용하여 모션 보상을 수행하여, 현재 화상 내에서의 변위를 나타내는 MV를 적용한다. 현재 화상을 인코딩하기(710) 위해, 인코더는 도 8에서 도시되는 기술(800)을 수행할 수 있거나 또는 어떤 다른 방식으로 현재 화상을 인코딩할 수 있다.

인코더는 인코딩된 데이터를 비트스트림으로 출력한다(720). 비트스트림의 포맷은 HEVC 포맷(H.265)의 변형안 또는 확장안이다. 대안적으로, 비트스트림의 포맷은, 윈도우 미디어 비디오 포맷, VC-1 포맷, MPEG-x 포맷(예를 들면, MPEG-1, MPEG-2, 또는 MPEG-4), H.26x 포맷(예를 들면, H.261, H.262, H.263, H.264), 또는 다른 포맷의 변형안 또는 확장안이다.

인코더는 화상 단위 기반으로 기술(700)을 반복할 수 있다. 간략화를 위해, 도 7은, 현재 화상을 인코딩할 때 사용될 수 있는 다른 타입의 예측을 도시하지 않는다.

도 8은, 통합된 인트라 BC 및 인터 예측 모드를 포함하는 인코딩을 위한 예시적인 기술(800)을 도시한다. 도 3 또는 도 5를 참조로 상기에서 설명된 것과 같은 비디오 인코더, 또는 다른 비디오 인코더가 기술(800)을 수행할 수 있다.

시작하기 위해, 인코더는 현재 화상을 참조 화상 리스트("RPL")에 추가한다(810). 예를 들면, 인코더는 "참조 화상 관리"라는 제목이 붙은 하기의 섹션에서 설명되는 접근방식 중 하나를 사용하여 현재 화상을 RPL에 추가한다. 대안적으로, 인코더는 다른 접근방식을 사용하여 현재 화상을 RPL에 추가한다.

그 다음, CU 단위 기반으로, 인코더는 현재 슬라이스의 코딩 단위(coding unit; "CU")를 인코딩한다. 상이한 CU는 상이한 코딩 모드(예측 모드)를 가질 수 있다. 인코더는 현재 CU에 대한 코딩 모드를 설정한다(820). 예를 들면, 인코더는 현재 CU에 대한 코딩 모드로서 공간 인트라 예측 모드 또는 인터 예측 모드를 선택한다. 대안적으로, 인코더는 다른 및/또는 추가적인 코딩 모드 중에서 선택된다.

인코더는 현재 CU에 대한 코딩 모드를 체크한다(830). 코딩 모드가 인터 예측 모드가 아니면, 인코더는 공간 인트라 예측을 사용하여 현재 CU의 예측 단위(prediction unit; "PU")(들)(특별히, PU(들)의 PB)를 인코딩한다(840). 공간 인트라 예측의 경우, 현재 CU는 단일의 PU를 포함할 수 있다. 또는, PU 사이즈가 CU 사이즈보다 더 작으면, 현재 CU는 다수의 PU를 포함할 수 있다.

현재 CU에 대한 코딩 모드가 인터 예측 모드이면, 인코더는, 현재 화상이 현재 CU의 주어진 PU에 대한 참조 화상인지의 여부를 체크한다(850). 이 예에서, 상이한 PU는 예측을 위해 상이한 참조 화상을 사용할 수 있다. 현재 화상이 주어진 PU에 대한 참조 화상이면, 인코더는 인트라 BC 예측을 사용하여 PU(특별히, PU의 PB)를 인코딩한다(860). 그렇지 않다면(현재 화상이 PU에 대한 참조 화상이 아니다), 인코더는 인터 화상 예측을 사용하여 PU(특별히, PU의 PB)를 인코딩한다(870). 인터 예측 모드에서의 인코딩(860, 870)의 일부로서, 인코더는 PU에 대해 향상된 MV 예측을, PU에 대해 병합 모드를, 또는 CU에 대해 스킵 모드를 사용할 수 있다. 인코더는, 동일한 모션 보상 프로세스를 사용하여 인터 화상 예측 및 인트라 BC 예측을 구현할 수 있다. 몇몇 경우(예를 들면, 현재 슬라이스가 I 슬라이스이다)에서, 현재 화상은 현재 슬라이스에 대해 이용가능한 유일한 참조 화상일 수도 있고, 그 결과, 현재 CU의 코딩 모드가 인터 예측 모드이고, 인코더가 현재 CU의 PU(들)에 대한 참조 화상을 체크할(850) 필요가 없으면, 인트라 BC 예측은 항상 사용된다.

인터 예측 모드에서 현재 CU의 PU를 인코딩한 이후, 인코더는 현재 CU의 다음 번 PU로 계속할지의 여부를 체크한다(880). 인터 예측 모드의 경우, 현재 CU는 단일의 PU를 포함할 수 있거나, 또는 PU 사이즈가 CU 사이즈보다 작은 경우, 다수의 PU를 포함할 수 있다. 현재 CU에 다른 PU가 존재하면, 인코더는 인터 예측 모드에서 현재 CU에서의 다음 번 PU를 인코딩하는 것에 의해 계속된다.

그렇지 않다면(현재 CU에서 인코딩할 더 이상의 PU가 없으면), 인코더는 현재 슬라이스에서의 다음 번 CU로 계속할지의 여부를 체크한다(890). 이 방식에서, 인코더는 CU 단위 기반으로 현재 슬라이스의 CU를 인코딩한다.

인코더는 현재 화상의 슬라이스에 대해 슬라이스 단위 기반으로 기술(800)을 반복할 수 있다. 대안적으로, 인코더는 화상 단위 기반으로 기술을 반복할 수 있다.

구현예에 따라서, 인트라 BC 예측 모드 및 인터 예측 모드의 통합의 일부로서, 인코더는 다음의 방식 중 임의의 하나 이상에서 적응될 수 있다.

모드 시그널링. 인트라 BC 예측은, 현재 블록 또는 현재 블록을 포함하는 블록에 대한 인트라 BC 예측 모드의 명시적인 시그널링 없이, 인터 예측 모드의 경우로서 구현될 수 있다. 대신, 인코더는, 현재 블록에 대해 적용되는 모드를 인터 예측 모드인 것으로 시그널링하지만, 그러나 현재 블록에 대한 MV 값은, 참조 화상으로서 사용되는 현재 화상 내에서의 변위를 나타낸다. 현재 블록의 취급은 어떤 참조 화상이 사용되는지에 의존한다. 현재 블록에 대한 참조 화상 인덱스가 현재 화상을 선택하면, 인트라 BC 예측이 인터 예측 모드에서 사용되며; 그렇지 않다면, 인터 화상 예측이 사용된다.

인코더는, 인트라 BC 예측 모드를 인에이블할지 또는 디스에이블할지의 여부를 결정할 수 있고, 그 다음, 인트라 BC 예측이 인에이블되는지 또는 디스에이블되는지의 여부를 나타내기 위한 플래그의 값을 비트스트림 내에 설정할 수 있다. 예를 들면, 인코더는 시퀀스에 대해 인트라 BC 예측 모드를 인에이블할지 또는 디스에이블할지의 여부를 결정하고, 플래그는 SPS의 일부이다. 대안적으로, 인코더는, BC 예측 모드를 인에이블할지 또는 디스에이블할지의 여부를, 화상 단위 기반으로, 슬라이스 단위 기반으로, 또는 어떤 다른 기반으로 결정할 수 있고, 플래그를, 화상 파라미터 세트(picture parameter set; "PPS"), 슬라이스 헤더, 또는 어떤 다른 신택스 구조의 일부로서, 또는 비디오 사용가능성 정보(video usability information; "VUI") 메시지의 일부로서 시그널링할 수 있다. 인트라 BC 예측 모드가 인에이블되면, 현재 화상은 참조 화상일 수 있다. 그렇지 않다면(인트라 BC 예측이 인에이블되지 않으면), 현재 화상은 참조 화상이 될 수 없다.

대안적으로, 인코딩의 일부로서, 인코더는, 인트라 BC 예측 모드를 포함하는 다수의 이용가능한 코딩 모드 중에서 선택하여, 현재 블록에 대해 적용되는 코딩 모드를 설정할 수 있다. 예를 들면, 코딩 모드는, 인트라 예측 모드, 인터 예측 모드 및 인트라 BC 예측 모드를 포함한다. 인코더는 현재 CU 또는 어떤 다른 블록에 대한 코딩 모드를 설정할 수 있다. 비트스트림은, 현재 블록에 대해 적용되는 코딩 모드를 나타내는 신택스 엘리먼트를 포함한다. 현재 블록에 대해 적용되는 코딩 모드가 인트라 BC 예측 모드이면, 신택스 엘리먼트는 인터 예측 모드에 대한 신택스를 일반적으로 따른다. 그러나, 인트라 BC 코딩 모드가 명시적으로 시그널링되는 경우, 인터 예측 방향 및 참조 화상 인덱스는 시그널링될 필요가 없다. 이들 신택스 엘리먼트의 값은 추론될 수 있다 - 현재 블록에 대해 적용되는 코딩 모드가 인트라 BC 예측 모드이면, 예측 방향은 필요로 되지 않고, 참조 화상은 현재 화상인 것으로 알려진다.

참조 화상 관리. 인코딩의 일부로서, 인코더는 현재 화상을 참조 화상 리스트("RPL")에 추가할 수 있다. RPL은 인터 화상 예측, 또는 현재 화상이 리스트에 추가된 상태에서, 인트라 BC 예측을 위해 사용되는 참조 화상의 리스트이다. HEVC에서, 현재 블록을 포함하는 현재 슬라이스를 인코딩할 때, 하나의 RPL 또는 두 개의 RPL 중 어느 하나가 이용가능하다 - 리스트 0 및 리스트 1. 현재 화상이 RPL에 추가되는 방식은 구현예에 의존할 수 있다.

몇몇 접근 방식에서, 인코더는 RPL의 최종 포지션에 현재 화상을 추가한다. 참조 화상 인덱스 값이 어떻게 엔트로피 코딩되는지를 고려할 때, 현재 화상을 RPL의 최종 포지션에 추가하는 것은, 현재 화상이 P 슬라이스 또는 B 슬라이스에 대한 적어도 일반적으로 사용되는 참조 화상일 것이다는 것을 가정한다. 인코더는, (예를 들면, 현재 블록을 포함하는 현재 슬라이스에 대해) 활성인 참조 화상의 수를 나타내는 카운터를 증분시킨다. 예를 들면, 현재 슬라이스가 P 슬라이스 또는 B 슬라이스이면, 인코더는, 하나 이상의 다른 참조 화상이 RPL에 추가되는 RPL 구성 프로세스의 호출 이후에, 현재 화상을 RPL에 추가한다. 현재 슬라이스가 I 슬라이스인 경우, 인트라 BC 예측 모드가 인에이블되면, 인코더는 현재 슬라이스의 인코딩의 시작에서 RPL에 현재 화상을 추가하고, 카운터는, 현재 I 슬라이스에 대해 단일의 참조 화상이 활성이다는 것을 나타낸다.

대안적으로, 현재 화상을 RPL에 추가하는 타이밍은 상이하다. 예를 들면, 현재 슬라이스가 P 슬라이스 또는 B 슬라이스이면, 인코더는, 하나 이상의 다른 참조 화상이 RPL에 추가되는 RPL 구성 프로세스 동안, 현재 화상을 RPL에 추가한다. 현재 슬라이스가 I 슬라이스인 경우, 인트라 BC 예측 모드가 인에이블되면, 인코더는 현재 슬라이스의 인코딩의 시작에서 RPL에 현재 화상을 추가하고, 카운터는, 현재 I 슬라이스에 대해 단일의 참조 화상이 활성이다는 것을 나타낸다.

비트스트림 내의 신택스 엘리먼트의 값은, (예를 들면, 현재 슬라이스에 대해) 활성인 참조 화상의 수를 나타낼 수 있다. 예시적인 HEVC 구현예에서, 신택스 엘리먼트는 num_ref_idx_l0_active_minus1이거나 또는 num_ref_idx_l1_active_minus1이다.

참조 화상이 장기간 참조 화상(long-term reference picture; "LTRP")일 수 있거나 단기간 참조 화상(short-term reference picture; "STRP")일 수 있는데, 이것은 참조 화상 관리 및 MV 예측 및 MV 스케일링과 같은 몇몇 동작에 영향을 끼친다. 현재 화상이 인트라 BC 예측을 지원하기 위해 참조 화상으로서 사용되는 경우, 인코더는, 최초, 현재 화상을 LTRP로서 마킹할 수 있고, 그 다음, 현재 화상의 인코딩이 완료된 이후, 현재 화상을 STRP로서 마킹할 수 있다. 이것은, 현재 화상이 MV 예측 및 MV 스케일링과 같은 다른 프로세스에 어떻게 영향을 끼치는지를 제한하면서, 인터 예측 모드에서 현재 화상을 참조 화상으로서 사용하는 인트라 BC 예측을 가능하게 한다. 대안적으로, 현재 화상은, MV 예측 및 MV 스케일링 동작에 대한 자신의 영향을 제한하기 위해 어떤 다른 방식으로 마킹될 수 있다.

MV 시그널링 및 MV 예측. 구현예에 따라, 인코더는, 현재 블록에 대한 인트라 BC 예측을 수행할 때 적용되는 MV에 대한 MV 시그널링 및 MV 예측에 대한 여러 상이한 접근방식 중 임의의 것을 사용할 수 있다.

예를 들면, 인트라 BC 예측이 현재 블록에 대해 사용되는 경우, 인코더는 현재 블록의 MV를 식별하는데, 이 경우, MV는 정수 픽셀 오프셋을 나타낸다. 인코더는 비트스트림으로 정수 픽셀 정밀도로 MV를 시그널링한다. 인코더는, 분수적 픽셀 MV 값(예를 들면, 1/4 픽셀 정밀도를 갖는 MV)과 동작하는 모션 보상 프로세스에서 MV를 적용하기 이전에, MV를 조정할 수 있다(예를 들면, 네 배만큼 스케일링하는 것, 2만큼의 좌측 시프팅). 대안적으로, 인트라 BC 예측이 현재 블록에 대해 사용되는 경우, 인코더는 현재 블록의 MV를 식별하고, MV는 정수 픽셀 오프셋을 나타내지만, 그러나 인코더는 분수적 픽셀 정밀도(예를 들면, 1/4 픽셀 정밀도)에서 MV를 비트스트림으로 시그널링한다.

루마 MV가 정수 픽셀 정밀도를 갖는 경우에도, 대응하는 크로마 MV는, (예를 들면, YUV 4:2:0 비디오 또는 YUV 4:2:2 비디오에 대한) 스케일링 이후에 분수적 픽셀 정밀도를 가질 수 있다. 인코더가 정수 픽셀 오프셋을 나타내는 루마 MV로부터 크로마 MV를 유도한 이후, 인코더는 정수 픽셀 오프셋을 나타내기 위해 크로마 MV를 반올림 처리할 수 있거나 또는 버림 처리할 수 있다.

인트라 BC 예측을 사용하여 예측되는 현재 블록에 대한 MV를 시그널링할 때, 인코더는, 병합 모드, 스킵 모드, 고급 MV 예측 모드 및/또는 인터 예측 모드에서 MV 시그널링 또는 MV 예측에 대해 이용가능한 다른 코딩 툴을 사용할 수 있다. 일반적으로, 병합 모드의 경우, 인코더는 공간적으로 또는 시간적으로 인접한 블록으로부터 하나 이상의 병합 모드 후보를 유도하고(이 경우, 병합 모드 후보는 인터 예측 방향, 참조 화상 인덱스 및 MV 값을 갖는다), 병합 모드 후보 중 하나를 선택하고, 선택된 병합 모드 후보를 나타내는 병합 모드 인덱스를 시그널링한다. 스킵 모드는, 현재 블록에 대해 어떠한 잔차 정보도 시그널링되지 않는 병합 모드의 특수한 경우로서 구현될 수 있다. 고급 MV 예측 모드의 경우, 일반적으로, 인코더는 공간적으로 또는 시간적으로 인접한 블록으로부터 MV 예측자(MV predictor)를 유도하고, MV 차이를 결정하고 MV 차이 및 MV 예측기 인덱스를 인코딩한다. 인터 예측 모드에서 MV 시그널링 또는 MV 예측에 대해 이용가능한 코딩 툴을 재사용하는 것에 의해, 인트라 BC 예측의 구현이 단순화된다.

몇몇 경우에서, 인코더가 인트라 BC 예측된 블록에 대해 병합 모드를 사용하는 경우, 인코더는, 현재 화상을 참조하지 않는 후보를 제거하기 위해 병합 모드 후보를 걸러낼(screen) 수 있다. 예를 들면, 하나 이상의 병합 모드 후보의 각각에 대해, 인코더는 병합 모드 후보를 획득하고 병합 모드 후보가 현재 화상을 참조하는지의 여부를 체크한다. 병합 모드 후보가 현재 화상을 참조하면, 인코더는 병합 모드 후보를 유지한다. 그렇지 않다면, 인코더는 병합 모드 후보를 배제한다. 이 방식에서, 인코더는, 병합 모드 후보를, 인트라 BC 예측을 위해 이전에 사용된 MV로 효과적으로 제한한다. 나중에, 유지된 병합 모드 후보의 수가 허용된 병합 모드 후보의 수보다 작으면, 인코더는, 인트라 BC 예측이 사용될 때 MV 예측을 위해 합리적인 옵션을 제공할 것으로 예상되는 하나 이상의 미리 정의된 병합 모드 후보를 추가할 수 있다. 예를 들면, 허용된 병합 모드 후보의 수가 도달될 때까지, 참조 화상으로서 현재 화상을 사용하는 그리고 리스트 {(-W, 0), (0, -H), (-W, -H), (-2W, 0), (0, -2H)}의 MV를 갖는 미리 정의된 병합 모드 후보가 추가될 수 있는데, 이 경우 W 및 H는 현재 블록의 폭과 높이이다.

또한, 인코더가 I 슬라이스의 인트라 BC 예측된 블록에 대해 병합 모드 또는 고급 MV 예측 모드를 사용하는 경우, 인코더는 시간적 MV 예측을 디스에이블할 수 있다. 이것은, MV 예측을 단순화하고 MV 스케일링을 방지하는 것에 의해, 그리고 현재 I 슬라이스를 인코딩할 때 다른 화상/슬라이스의 정보를 사용하는 것을 방지하는 것에 의해, 인코딩을 간소화할 수 있다.

신택스. 통합된 인트라 BC 및 인터 예측 모드의 경우, 인트라 BC 예측을 위해 인터 예측 모드의 신택스를 따를 수 있고, 이것은 구현을 단순화한다. 예를 들면, 구현예에 따라, 인트라 BC 예측된 블록에 대한 신택스 엘리먼트는 MV 값, 병합 모드 인덱스, 참조 화상 인덱스, 등등에 대한 신택스 엘리먼트를 포함할 수 있다. 인트라 BC 예측된 블록은, I 슬라이스, P 슬라이스 또는 B 슬라이스의 일부일 수 있다.

현재 블록이, I 슬라이스의 일부인 경우, 인코더는, 인트라 BC 예측 모드가 인에이블되는지의 여부에 따라 신택스 엘리먼트의 값을 상이한 방식으로 설정할 수 있다. 인트라 BC 예측 모드가 인에이블되면, 현재 I 슬라이스에 대한 신택스 엘리먼트는 P 슬라이스 또는 B 슬라이스에 대한 신택스를 따른다(어떤 RPL이 현재 화상을 포함하는지에 따라 - 리스트 0이면 P 슬라이스, 그렇지 않으면 B 슬라이스). 인트라 BC 예측 모드가 인에이블되지 않으면, 현재 I 슬라이스에 대한 신택스 엘리먼트는 I 슬라이스에 대한 디폴트 신택스(즉, 공간 인트라 예측을 사용하여 예측되는 블록에 대한 신택스)를 따른다.

인트라 BC 예측 모드가 인에이블되면, 인코더는, 현재 화상의 인코딩 동안 신택스 엘리먼트의 어느 것도 현재 화상의 재구성되지 않은 부분을 참조하는 것으로 이어지지 않도록, 비트스트림의 신택스 엘리먼트의 값을 설정한다. 즉, 인터 예측 모드 신택스, 의미론, 프로세싱, 등등이 인트라 BC 예측 기능성을 구현하기 위해 사용되는 경우에도, 인코더는, 인트라 BC 예측이 현재 화상의 이전에 재구성된 부분만을 참조하도록 신택스 엘리먼트의 값을 설정한다.

예측 동작. 통합된 인트라 BC 및 인터 예측 모드의 경우, 인터 예측 모드에서의 많은 인코딩 프로세스가 인트라 BC 예측을 위해 사용될 수 있는데, 이것은 구현을 단순화한다. 그러나, 몇몇 측면에서, 인터 예측 모드의 인코딩 프로세스는 인트라 BC 예측을 위해 수정될 수도 있다.

구현예에 따라서, 인코더는, 4×4 블록 사이즈가 인터 예측 모드에 대해 달리 사용되지 않더라도, 인트라 BC 예측을 위해 4×4 블록 사이즈를 사용할 수 있다. 예를 들면, 현재 블록에 대한 인터 예측 모드 프로세싱의 일부로서, 인코더는, 참조 화상이 현재 화상이고 예측 방향이 (현재 화상을 포함하는 RPL로부터의) 단일 예측이면, 4×4 블록 사이즈를 사용할 수 있다. 인터 예측 모드에 대한 블록 사이즈가 참조 화상 표시기 이전에 시그널링되는 경우(예를 들면, 블록 사이즈(구획 모드)가 CU에 대해 시그널링되지만, 그러나 예측 방향 및 참조 화상 인덱스가 CU의 PU에 대해 시그널링되는 경우), 인코더는, 다른 인자 중에서도, 블록에 대해 사용되는 참조 화상 및 예측 방향을 고려하여 블록 사이즈를 결정할 수 있다. 현재 블록에 대해 적용되는 블록 사이즈가 4×4인 경우, 예측 방향이 단지 (현재 화상을 포함하는 RPL로부터의) 단일 예측일 수 있고 참조 화상이 단지 현재 화상일 수 있기 때문에, 인코더는 현재 블록에 대한 예측 방향 및 참조 화상 인덱스에 대한 신택스 엘리먼트의 시그널링을 스킵할 수 있다. 이 상황에서, 현재 블록에 대한 예측 방향 및 참조 화상 인덱스에 대한 신택스 엘리먼트는 비트스트림 내에 생략될 수도 있다. 대안적으로, 이 상황에서, 인트라 BC 예측을 위한 4×4 블록 사이즈는 디스에이블된다. 또는, 인트라 BC 예측을 위한 4×4 블록 사이즈의 사용은, 비트스트림의 신택스 엘리먼트에 의해 나타내어지는 바와 같이, 시퀀스에 대해 또는 시퀀스 내에서 인에이블될 수 있거나 또는 디스에이블될 수 있다.

다른 예로서, 구현예에 따라서, 인코더는 복합 인트라-인터 예측 모드를 인에이블할 수 있다. 예를 들면, 현재 블록이 B 슬라이스의 일부인 경우, 인코더는, 현재 블록에 대한 인트라 BC 예측의 결과 및 현재 블록에 대한 모션 보상된 예측의 결과를, 두 개의 상이한 참조 화상으로부터의 예측 결과로서, 결합할 수 있다. 이것은, 인코더가 현재 블록에 대한 모션 보상된 예측의 결과 및 인트라 BC 예측의 결과를 혼합하는 것을 허용한다. 대안적으로, 인트라 BC 예측의 결과 및 모션 보상된 예측의 결과의 결합은 허용되지 않는다.

다른 인코더 결정. 인트라 BC 예측된 블록이 B 슬라이스의 일부인 경우, 인코더는, B 슬라이스의 블록에 대한 양방향 인터 예측에서 제2 RPL이 사용될 때 제로 값의 MV 차분만이 허용되는지의 여부를 나타내는 신택스 엘리먼트의 값을 설정하는 프로세스를 수정할 수 있다. 인트라 BC 예측의 경우, 현재 화상은 제1 RPL 또는 제2 RPL에 추가된다. 인코더는, 현재 화상은 제외하고, (a) 제1 RPL에서의 참조 화상의 수가 제2 RPL에서의 참조 화상의 수와 매치하는지의 여부, 및 (b) 제1 RPL에서의 참조 화상의 각각이 제2 RPL에서의 대응하는 포지션에서 또한 나타내어지는지의 여부를 평가할 수 있다. 두 조건이 충족되면, 인코더는, B 슬라이스의 블록에 대한 양방향 인터 예측에서 제2 RPL이 사용될 때 제로 값의 MV 차분만이 허용된다는 것을 나타내도록 신택스 엘리먼트의 값을 설정할 수 있다. 예시적인 HEVC 구현예에서, 신택스 엘리먼트는 mvd_l1_zero_flag 신택스 엘리먼트이다.

B. 통합된 인트라 BC 및 인터 예측 모드를 이용한 디코딩.

도 9는, 통합된 인트라 BC 및 인터 예측 모드를 이용한 디코딩을 위한 일반화된 기술(900)을 도시한다. 도 4 또는 도 6을 참조로 상기에서 설명된 것과 같은 비디오 디코더, 또는 다른 비디오 디코더가 기술(900)을 수행할 수 있다.

시작하기 위해, 비디오 디코더는 비트스트림으로 인코딩된 데이터를 수신한다(910). 비트스트림의 포맷은 HEVC 포맷(H.265)의 변형안 또는 확장안이다. 대안적으로, 비트스트림의 포맷은, 윈도우 미디어 비디오 포맷, VC-1 포맷, MPEG-x 포맷(예를 들면, MPEG-1, MPEG-2, 또는 MPEG-4), H.26x 포맷(예를 들면, H.261, H.262, H.263, H.264), 또는 다른 포맷의 변형안 또는 확장안이다.

비디오 디코더는 인코딩된 데이터를 사용하여 현재 화상을 디코딩한다(920). 디코딩(920)의 일부로서, 비디오 디코더는 현재 화상의 현재 블록에 대한 인트라 BC 예측을 수행하는데, 이 경우, 인트라 BC 예측은 현재 화상을 참조 화상으로 하여 인터 예측 모드를 사용한다. 현재 블록은 PB 또는 다른 블록일 수 있다. 예를 들면, 현재 블록에 대한 인트라 BC 예측을 제공하기 위해, 디코더는, 현재 화상을 모션 보상을 위한 참조 화상으로서 사용하여 모션 보상을 수행하여, 현재 화상 내에서의 변위를 나타내는 MV를 적용한다. 현재 화상을 디코딩하기(920) 위해, 디코더는 도 10에서 도시되는 기술(1000)을 수행할 수 있거나 또는 현재 화상을 어떤 다른 방식으로 디코딩할 수 있다.

디코더는 화상 단위 기반으로 기술(900)을 반복할 수 있다. 간략화를 위해, 도 9는, 현재 화상을 디코딩할 때 사용될 수 있는 다른 타입의 예측을 도시하지 않는다.

도 10은, 통합된 인트라 BC 및 인터 예측 모드를 포함하는 디코딩을 위한 예시적인 기술(1000)을 도시한다. 도 4 또는 도 6을 참조로 상기에서 설명된 것과 같은 비디오 디코더는, 또는 다른 비디오 디코더가 기술(1000)을 수행할 수 있다.

시작하기 위해, 디코더는 현재 화상을 RPL에 추가한다(1010). 예를 들면, 디코더는 "참조 화상 관리"라는 제목이 붙은 하기의 섹션에서 설명되는 접근방식 중 하나를 사용하여 현재 화상을 RPL에 추가한다. 대안적으로, 디코더는 다른 접근방식을 사용하여 현재 화상을 RPL에 추가한다.

그 다음, CU 단위 기반으로, 디코더는 현재 슬라이스의 CU를 디코딩한다. 상이한 CU는 상이한 코딩 모드(예측 모드)를 가질 수 있다. 디코더는, 예를 들면, 비트스트림의 신택스 엘리먼트에 기초하여, 현재 CU에 대한 코딩 모드를 설정한다(1020). 예를 들면, 디코더는 현재 CU에 대한 코딩 모드로서 공간 인트라 예측 모드 또는 인터 예측 모드를 선택한다. 대안적으로, 디코더는 다른 및/또는 추가적인 코딩 모드 중에서 선택된다.

디코더는 현재 CU에 대한 코딩 모드를 체크한다(1030). 코딩 모드가 인터 예측 모드가 아니면, 디코더는, 공간 인트라 예측을 사용하여 현재 CU의 PU(들)(특별히, PU(들)의 PB)를 디코딩한다(1040). 공간 인트라 예측의 경우, 현재 CU는 단일의 PU를 포함할 수 있다. 또는, PU 사이즈가 CU 사이즈보다 더 작으면, 현재 CU는 다수의 PU를 포함할 수 있다.

현재 CU에 대한 코딩 모드가 인터 예측 모드이면, 디코더는, 현재 화상이 현재 CU의 주어진 PU에 대한 참조 화상인지의 여부를 체크한다(1050). 이 예에서, 상이한 PU는 예측을 위해 상이한 참조 화상을 사용할 수 있다. 현재 화상이 주어진 PU에 대한 참조 화상이면, 디코더는 인트라 BC 예측을 사용하여 PU(특별히, PU의 PB)를 디코딩한다(1060). 그렇지 않다면(현재 화상이 PU에 대한 참조 화상이 아니다), 디코더는 인터 화상 예측을 사용하여 PU(특별히, PU의 PB)를 디코딩한다(1070). 인터 예측 모드에서의 디코딩(1060, 1070)의 일부로서, 디코더는 PU에 대해 고급 MV 예측을, PU에 대해 병합 모드를, 또는 CU에 대해 스킵 모드를 사용할 수 있다. 디코더는, 동일한 모션 보상 프로세스를 사용하여 인터 화상 예측 및 인트라 BC 예측을 구현할 수 있다. 몇몇 경우(예를 들면, 현재 슬라이스가 I 슬라이스이다)에서, 현재 화상은 현재 슬라이스에 대해 이용가능한 유일한 참조 화상일 수도 있고, 그 결과, 현재 CU의 코딩 모드가 인터 예측 모드이고, 디코더가 현재 CU의 PU(들)에 대한 참조 화상을 체크할(1050) 필요가 없으면, 인트라 BC 예측은 항상 사용된다.

인터 예측 모드에서 현재 CU의 PU를 디코딩한 이후, 디코더는 현재 CU의 다음 번 PU로 계속할지의 여부를 체크한다(1080). 인터 예측 모드의 경우, 현재 CU는 단일의 PU를 포함할 수 있거나, 또는 PU 사이즈가 CU 사이즈보다 작은 경우, 다수의 PU를 포함할 수 있다. 현재 CU에 다른 PU가 존재하면, 디코더는 인터 예측 모드에서 현재 CU에서의 다음 번 PU를 디코딩하는 것에 의해 계속된다.

그렇지 않다며(현재 CU에서 디코딩할 더 이상의 PU가 없으면), 디코더는 현재 슬라이스에서의 다음 번 CU로 계속할지의 여부를 체크한다(1090). 이 방식에서, 디코더는 CU 단위 기반으로 현재 슬라이스의 CU를 디코딩한다.

디코더는 현재 화상의 슬라이스에 대해 슬라이스 단위 기반으로 기술(1000)을 반복할 수 있다. 대안적으로, 디코더는 화상 단위 기반으로 기술을 반복할 수 있다.

구현예에 따라서, 인트라 BC 예측 모드 및 인터 예측 모드의 통합의 일부로서, 디코더는 다음의 방식 중 임의의 하나 이상에서 적응될 수 있다.

모드 시그널링. 인트라 BC 예측은, 현재 블록 또는 현재 블록을 포함하는 블록에 대한 인트라 BC 예측 모드의 명시적인 시그널링 없이, 인터 예측 모드의 경우로서 구현될 수 있다. 대신, 디코더는, 현재 블록에 대해 적용되는 모드가 인터 예측 모드인 것으로 결정한다. 그러나, 현재 블록에 대한 MV 값은, 참조 화상으로서 사용되는 현재 화상 내에서의 변위를 나타낸다. 현재 블록의 취급은 어떤 참조 화상이 사용되는지에 의존한다. 현재 블록에 대한 참조 화상 인덱스가 현재 화상을 선택하면, 인트라 BC 예측이 인터 예측 모드에서 사용되며; 그렇지 않다면, 인터 화상 예측이 사용된다.

디코더는, 비트스트림 신택스의 상위 레이어에서의 신호에 기초하여 인트라 BC 예측 모드를 선택적으로 인에이블 또는 디스에이블할 수 있다. 예를 들면, 디코더는, 인트라 BC 예측 모드가 인에이블되는지 또는 디스에이블되는지의 여부를 나타내는 플래그를 비트스트림으로 수신하고 그 플래그를 파싱한다. 플래그는 SPS의 일부일 수 있는데, 인트라 BC 예측 모드가 시퀀스에 대해 인에이블되는지 또는 디스에이블되는지의 여부를 나타낼 수 있다. 대안적으로, 디코더는, PPS, 슬라이스 헤더, 또는 어떤 다른 신택스 구조의 일부로서, 또는 VUI 메시지의 일부로서 시그널링되는 플래그에 기초하여, 화상 단위 기반으로, 슬라이스 단위 기반으로, 또는 어떤 다른 기반으로 BC 예측 모드를 선택적으로 인에이블 또는 디스에이블할 수 있다. 인트라 BC 예측 모드가 인에이블되면, 현재 화상은 참조 화상일 수 있다. 그렇지 않다면(인트라 BC 예측이 인에이블되지 않으면), 현재 화상은 참조 화상이 될 수 없다.

대안적으로, 디코딩의 일부로서, 디코더는, 비트스트림으로부터의, 현재 블록에 대해 적용되는 코딩 모드(이 경우, 코딩 모드에 대한 하나의 옵션은 인트라 BC 예측 모드이다)를 나타내는 신택스 엘리먼트를 파싱할 수 있고, 그 다음, 코딩 모드를 설정할 수 있다. 예를 들면, 디코더는, 인트라 예측 모드, 인터 예측 모드 및 인트라 BC 예측 모드를 포함하는 다수의 이용가능한 코딩 모드 중에서 선택된다. 디코더는 현재 CU 또는 어떤 다른 블록에 대한 코딩 모드를 설정할 수 있다. 현재 블록에 대해 적용되는 코딩 모드가 인트라 BC 예측 모드이면, 신택스 엘리먼트는 인터 예측 모드에 대한 신택스를 일반적으로 따른다. 그러나, 인트라 BC 코딩 모드가 명시적으로 시그널링되는 경우, 이들 신택스 엘리먼트의 값이 추론될 수 있기 때문에, 인터 예측 방향 및 참조 화상 인덱스는 시그널링될 필요가 없다.

참조 화상 관리. 디코딩의 일부로서, 디코더는 현재 화상을 RPL에 추가할 수 있다. 현재 화상이 RPL에 추가되는 방식은 구현예에 의존할 수 있다.

몇몇 접근 방식에서, 디코더는 RPL의 최종 포지션에 현재 화상을 추가한다. 디코더는, (예를 들면, 현재 블록을 포함하는 현재 슬라이스에 대해) 활성인 참조 화상의 수를 나타내는 카운터를 증분시킨다. 예를 들면, 현재 슬라이스가 P 슬라이스 또는 B 슬라이스이면, 디코더는, 하나 이상의 다른 참조 화상이 RPL에 추가되는 RPL 구성 프로세스의 호출 이후에, 현재 화상을 RPL에 추가한다. 현재 슬라이스가 I 슬라이스인 경우, 인트라 BC 예측 모드가 인에이블되면, 디코더는 현재 슬라이스의 디코딩의 시작에서 RPL에 현재 화상을 추가하고, 카운터는, 현재 I 슬라이스에 대해 단일의 참조 화상이 활성이다는 것을 나타낸다.

대안적으로, 현재 화상을 RPL에 추가하는 타이밍은 상이하다. 예를 들면, 현재 슬라이스가 P 슬라이스 또는 B 슬라이스이면, 디코더는, 하나 이상의 다른 참조 화상이 RPL에 추가되는 RPL 구성 프로세스 동안, 현재 화상을 RPL에 추가한다. 현재 슬라이스가 I 슬라이스인 경우, 인트라 BC 예측 모드가 인에이블되면, 디코더는 현재 슬라이스의 디코딩의 시작에서 RPL에 현재 화상을 추가하고, 카운터는, 현재 I 슬라이스에 대해 단일의 참조 화상이 활성이다는 것을 나타낸다.

참조 화상은 LTRP 또는 STRP일 수 있다. 현재 화상이 인트라 BC 예측을 지원하기 위해 참조 화상으로서 사용되는 경우, 디코더는, 최초, 현재 화상을 LTRP로서 마킹할 수 있고, 그 다음, 현재 화상의 디코딩이 완료된 이후, 현재 화상을 STRP로서 마킹할 수 있다. 이것은, 현재 화상이 MV 예측 및 MV 스케일링과 같은 다른 프로세스에 어떻게 영향을 끼치는지를 제한하면서, 인터 예측 모드에서 현재 화상을 참조 화상으로서 사용하는 인트라 BC 예측을 가능하게 한다. 대안적으로, 현재 화상은, MV 예측 및 MV 스케일링 동작에 대한 자신의 영향을 제한하기 위해 어떤 다른 방식으로 마킹될 수 있다.

MV 예측 및 MV 재구성. 구현예에 따라, 디코더는, 현재 블록에 대한 인트라 BC 예측을 수행할 때 적용되는 MV에 대한 MV 예측 및 MV 구성에 대한 여러 상이한 접근방식 중 임의의 것을 사용할 수 있다.

예를 들면, 인트라 BC 예측이 현재 블록에 대해 사용되는 경우, 디코더는 현재 블록의 MV를 재구성하는데, 이 경우, MV는 정수 픽셀 오프셋을 나타내고 정수 픽셀 정밀도에서 비트스트림으로 시그널링된다. 디코더는, 분수적 픽셀 MV 값(예를 들면, 1/4 픽셀 정밀도를 갖는 MV)과 동작하는 모션 보상 프로세스에서 MV를 적용하기 이전에, MV를 조정한다(예를 들면, 네 배만큼 스케일링하는 것, 2만큼의 좌측 시프팅). 대안적으로, 인트라 BC 예측이 현재 블록에 대해 사용되는 경우, 디코더는 현재 블록의 MV를 재구성하는데, 이 경우 MV는 정수 픽셀 오프셋을 나타내지만, 그러나 MV는 분수적 픽셀 정밀도(예를 들면, 1/4 픽셀 정밀도)에서 비트스트림으로 시그널링된다.

루마 MV가 정수 픽셀 정밀도를 갖는 경우에도, 대응하는 크로마 MV는, (예를 들면, YUV 4:2:0 비디오 또는 YUV 4:2:2 비디오에 대한) 스케일링 이후에 분수적 픽셀 정밀도를 가질 수 있다. 디코더가 정수 픽셀 오프셋을 나타내는 루마 MV로부터 크로마 MV를 유도한 이후, 디코더는 정수 픽셀 오프셋을 나타내기 위해 크로마 MV를 반올림 처리할 수 있거나 또는 버림 처리할 수 있다.

인트라 BC 예측을 사용하여 예측되는 현재 블록에 대한 MV를 재구성할 때, 디코더는, 병합 모드, 스킵 모드, 고급 MV 예측 모드 및/또는 인터 예측 모드에서 MV 재구성에 이용가능한 다른 코딩/디코딩 툴을 사용할 수 있다. 일반적으로, 병합 모드의 경우, 디코더는 공간적으로 또는 시간적으로 인접한 블록으로부터 하나 이상의 병합 모드 후보를 유도하고, 그 다음, 비트스트림으로 시그널링되는 병합 모드 인덱스에 기초하여 병합 모드 후보 중 하나를 선택한다. 고급 MV 예측 모드의 경우, 일반적으로, 디코더는, 공간적으로 또는 시간적으로 인접한 블록으로부터 그리고 MV 예측기 인덱스로부터 MV 예측자를 유도하고, MV 차이를 디코딩하고 MV 차이를 MV 예측자와 결합한다. 인터 예측 모드에서 MV 재구성에 이용가능한 코딩/디코딩 툴을 재사용하는 것에 의해, 인트라 BC 예측의 구현은 단순화된다.

디코더가 인트라 BC 예측된 블록에 대해 병합 모드를 사용하는 경우, 디코더는, 현재 화상을 참조하지 않는 후보를 제거하기 위해, 병합 모드 후보를 걸러낼 수 있다. 예를 들면, 하나 이상의 병합 모드 후보의 각각에 대해, 디코더는 병합 모드 후보를 획득하고 병합 모드 후보가 현재 화상을 참조하는지의 여부를 체크한다. 병합 모드 후보가 현재 화상을 참조하면, 디코더는 병합 모드 후보를 유지한다. 그렇지 않다면, 디코더는 병합 모드 후보를 배제한다. 나중에, 유지된 병합 모드 후보의 수가 허용된 병합 모드 후보의 수보다 작으면, 디코더는, 인트라 BC 예측이 사용될 때 MV 예측을 위해 합리적인 옵션을 제공할 것으로 예상되는 하나 이상의 미리 정의된 병합 모드 후보를 추가할 수 있다. 예를 들면, 허용된 병합 모드 후보의 수가 도달될 때까지, 참조 화상으로서 현재 화상을 사용하는 그리고 리스트 {(-W, 0), (0, -H), (-W, -H), (-2W, 0), (0, -2H)}의 MV를 구비하는 미리 정의된 병합 모드 후보가 추가될 수 있다.

또한, 디코더가 I 슬라이스의 인트라 BC 예측된 블록에 대해 병합 모드 또는 고급 MV 예측 모드를 사용하는 경우, 디코더는 시간적 MV 예측을 디스에이블할 수 있다. 이것은, MV 예측을 단순화하고 MV 스케일링을 방지하는 것에 의해, 그리고 현재 I 슬라이스를 디코딩할 때 다른 화상/슬라이스의 정보를 사용하는 것을 방지하는 것에 의해, 디코딩을 간소화할 수 있다.

현재 블록이 I 슬라이스의 일부인 경우, 디코더는, 인트라 BC 예측 모드가 인에이블되는지의 여부에 따라 신택스 엘리먼트를 상이한 방식으로 파싱할 수 있다. 인트라 BC 예측 모드가 인에이블되면, 현재 I 슬라이스에 대한 신택스 엘리먼트는 P 슬라이스 또는 B 슬라이스에 대한 신택스를 따르고(어떤 RPL이 현재 화상을 포함하는지에 따라 - 리스트 0이면 P 슬라이스, 그렇지 않으면 B 슬라이스), 현재 I 슬라이스는 P 슬라이스 또는 B 슬라이스로서 디코딩된다. 인트라 BC 예측 모드가 인에이블되지 않으면, 현재 I 슬라이스에 대한 신택스 엘리먼트는 I 슬라이스에 대한 디폴트 신택스(즉, 공간 인트라 예측을 사용하여 예측되는 블록에 대한 신택스)를 따른다.

인트라 BC 예측 모드가 인에이블되면, 비트스트림은, 현재 화상 디코딩 동안, 현재 화상의 재구성되지 않은 부분의 참조로 이어지는 어떠한 신택스 엘리먼트도 포함하지 않도록 제약된다. 즉, 인터 예측 모드 신택스, 의미론, 프로세싱, 등등이 인트라 BC 예측 기능성을 구현하기 위해 사용되는 경우에도, 신택스 엘리먼트의 값은, 인트라 BC 예측이 현재 화상의 이전에 재구성된 부분만을 참조하도록 설정된다.

예측 동작. 통합된 인트라 BC 및 인터 예측 모드의 경우, 인터 예측 모드에서의 많은 디코딩 프로세스가 인트라 BC 예측을 위해 사용될 수 있는데, 이것은 구현을 단순화한다. 그러나, 몇몇 측면에서, 인터 예측 모드의 디코딩 프로세스는 인트라 BC 예측을 위해 수정될 수도 있다.

구현예에 따라서, 디코더는, 4×4 블록 사이즈가 인터 예측 모드에 대해 달리 사용되지 않더라도, 인트라 BC 예측을 위해 4×4 블록 사이즈를 사용할 수 있다. 예를 들면, 현재 블록에 대한 인터 예측 모드 프로세싱의 일부로서, (a) 참조 화상이 현재 화상이고 (b) 예측 방향이 (현재 화상을 포함하는 RPL로부터의) 단일 예측이면, 디코더는 인트라 BC 예측을 위해 4×4 블록 사이즈를 사용할 수 있다. 참조 화상 표시기 이전에 인터 예측 모드에 대한 블록 사이즈가 시그널링되는 경우(예를 들면, 블록 사이즈(구획 모드)가 CU에 대해 시그널링되지만, 그러나 예측 방향 및 참조 화상 인덱스가 CU의 PU에 대해 시그널링되는 경우), 디코더는 현재 블록에 대한 예측 방향 또는 참조 화상 인덱스를 알지 못하는 상태에서 그러므로 블록이 인트라 BC 예측을 사용하는지 또는 인터 화상 예측을 사용하는지의 여부를 모르는 상태에서, 블록 사이즈에 대한 신택스 엘리먼트를 파싱한다. 블록 사이즈가 4×4이면, 디코더는 현재 블록에 대한 참조 화상 인덱스 및 예측 방향에 대한 신택스 엘리먼트의 파싱을 스킵할 수 있다. 현재 블록에 대해 적용되는 블록 사이즈가 4×4인 경우, 현재 블록에 대한 예측 방향은 단지 (현재 화상을 포함하는 RPL로부터의) 단일 예측일 수 있고, 현재 블록에 대한 참조 화상은 단지 현재 화상일 수 있고, 따라서 현재 블록에 대한 예측 방향 및 참조 화상 인덱스에 대한 신택스 엘리먼트는 비트스트림으로부터 생략된다. 대안적으로, 이 상황에서, 인트라 BC 예측을 위한 4×4 블록 사이즈는 디스에이블된다. 또는, 인트라 BC 예측을 위한 4×4 블록 사이즈의 사용은, 비트스트림의 신택스 엘리먼트에 의해 나타내어지는 바와 같이, 시퀀스에 대해 또는 시퀀스 내에서 인에이블될 수 있거나 또는 디스에이블될 수 있다.

다른 예로서, 구현예에 따라서, 디코더는 복합 인트라-인터 예측 모드를 인에이블할 수 있다. 예를 들면, 현재 블록이 B 슬라이스의 일부인 경우, 디코더는, 현재 블록에 대한 인트라 BC 예측의 결과 및 현재 블록에 대한 모션 보상된 예측의 결과를, 두 개의 상이한 참조 화상으로부터의 예측 결과로서, 결합할 수 있다. 이것은, 디코더가 현재 블록에 대한 모션 보상된 예측에 대한 결과 및 인트라 BC 예측의 결과를 혼합하는 것을 허용한다. 대안적으로, 인트라 BC 예측의 결과 및 모션 보상된 예측의 결과의 결합은 허용되지 않는다.

C. 예시적인 구현예.

몇몇 예시적인 구현예에서, 인트라 BC 예측 모드 및 인터 예측 모드의 통합의 일부로서, 인코더 및/또는 디코더는 다음의 방식 중 임의의 하나 이상에서 적응될 수 있다. 이 섹션에서, 몇몇 적응예는 HEVC 표준에 대한 차이 또는 수정으로서 예시된다. 다른 적응예는, HEVC 표준에 대한 초안의 확장안(draft extension)인 JCTVC-P 1005_v1에 대한 차이 또는 수정으로서 예시된다.

1. 인트라 BC 예측을 위한 디폴트 신택스, 의미론 및 디코딩

예시적인 구현예에서, 인트라 BC 예측이 인에이블되는 경우, I 슬라이스에 대한 비트스트림 신택스는, 일반적으로, (현재 화상이 추가되는 RPL에 따라) P 또는 B 슬라이스에 대한 비트스트림 신택스를 따른다. 인코딩 및 디코딩의 목적을 위해, 프로세스에 대한 몇몇 수정 또는 제약과 함께, I 슬라이스는 P 또는 B 슬라이스처럼 취급된다.

도 11a 내지 도 11c는, 통합된 인트라 BC 및 인터 예측 모드에 대한 예시적인 신택스 구조를 도시한다. 일반적으로, (조건에 따라) 비트스트림으로 시그널링될 수도 있는 신택스 엘리먼트는 굵은 글씨체로 도시된다.

도 11a는 슬라이스 세그먼트 헤더에 대한 예시적인 신택스 구조(1101)의 일부를 도시한다. JCTVC-P1005_v1에서의 슬라이스 세그먼트 헤더 신택스 구조와 비교하여, 도 11a에서 도시되는 신택스 구조(1101)는 다음의 추가적인 라인을 포함하는데:

추가적인 라인은, five_minus_max_num_merge_cand 신택스 엘리먼트가 시그널링되는 경우를 추가한다. 이 신택스 엘리먼트는, 현재 슬라이스에 대한 병합 모드 프로세싱에서 허용되는 병합 모드 후보의 수를 나타낸다. 변경에 의해, intra_block_copy_enabled_flag의 값이 1이면, five_minus_max_num_merge_cand 신택스 엘리먼트가 시그널링된다. (이전과 마찬가지로, 신택스 엘리먼트는, 현재 슬라이스가 P 슬라이스 또는 B 슬라이스이면 또한 시그널링된다.) 신택스 엘리먼트 intra_block_copy_enabled_flag는, 다음 섹션에서 설명되는 바와 같이 설정될 수 있거나, 또는 인트라 BC 예측이 슬라이스에 대해 인에이블되는 경우 어떤 다른 방식으로 설정될 수 있다.

도 11b 및 도 11c는, 코딩 단위("CU")에 대한 예시적인 신택스 구조(1102)를 도시한다. JCTVC-P1005_v1에서의 CU 신택스 구조와 비교하여, 도 11b 및 도 11c에서 도시되는 신택스 구조(1102)는 여러 가지의 수정된 라인을 포함한다. 다음의 두 라인:

은, cu_skip_flag 신택스 엘리먼트가 시그널링되는 경우를 추가한다. cu_skip_flag 신택스 엘리먼트는, 현재 CU가 스킵되는지(값 1) 또는 스킵되지 않는지(값 0)의 여부를 나타낸다. 변경에 의해, cu_skip_flag 신택스 엘리먼트는, intra_block_copy_enabled_flag가 1이면, 시그널링된다. (이전과 마찬가지로, 신택스 엘리먼트는, 현재 슬라이스가 I 슬라이스가 아니면, 또한 시그널링된다.) 다음의 라인:

은, pred_mode_flag 신택스 엘리먼트가 시그널링되는 경우를 추가한다. pred_mode_flag 신택스 엘리먼트는, 현재 CU의 코딩 모드가 인터 예측 모드인지(값 0), 또는 공간 인트라 예측 모드인지(값 1)의 여부를 나타내는데, 인트라 BC 예측은 현재 CU의 코딩 모드가 인터 예측 모드인 경우이다. 변경에 의해, intra_block_copy_enabled_flag가 1이면, pred_mode_flag 신택스가 시그널링된다. (이전과 마찬가지로, 신택스 엘리먼트는, 현재 슬라이스가 I 슬라이스가 아니면, 또한 시그널링된다.)

CU 신택스 구조(1102)의 그 밖의 곳에서, intra_be_flag 신택스 엘리먼트의 발생 및 intra_be_flag 신택스 엘리먼트에 대한 다양한 참조는 제거되고, 그 결과, 인트라 BC 예측은 더 이상 인트라 예측의 별개의 코딩 모드 또는 타입으로서 취급되지 않는다. 대신, 인트라 BC 예측 모드는 인터 예측 모드의 경우로서 핸들링된다. 변환 트리, 변환 단위 및 잔차 코딩에 대해, intra_be_flag 신택스 엘리먼트에 대한 참조(및 별개의 코딩 모드/타입으로서의 인트라 BC 예측의 관련된 취급)도 또한, 신택스 구조(도시되지 않음)로부터 제거된다. 따라서, 인트라 BC 예측이 CU에 대해 사용되는 경우, 예측 단위, 변환 트리, 변환 단위 및 잔차 코딩에 대한 신택스 구조는, 인터 예측 모드에서 코딩되는 CU에 대한 신택스를 따른다.

JCTVC-P1005_v1과 비교하여, 인트라 화상 디코딩 프로세스(및 대응하는 인코딩 프로세스)는, 인트라 BC 예측을 제거하기 위한 예시적인 구현예에서 별개의 코딩 모드/타입으로서 수정된다. 대신, 인트라 BC 예측은, 참조 화상이 현재 화상인 인터 예측 모드의 경우로서 핸들링된다. 현재 화상이 모션 보상을 위한 참조 화상이다는 것을 시그널링된(또는 유도된) 참조 화상 인덱스가 나타내는 경우, 인트라 BC 예측이 사용된다. 이 경우, 현재 CU의 PU(들)에 대해 시그널링되는 MV(들)는 블록 벡터 값을 나타낸다. 인트라 BC 예측이 사용되는 경우 적용될 수도 있는 다양한 추가적인 수정 및 제약이 하기에서 설명된다.

2. 인트라 BC 예측 모드의 선택적 인에이블/디스에이블.

예시적인 구현예에서, 인트라 BC 예측은 SPS의 플래그에 의해 시퀀스에 대해 인에이블되거나 또는 디스에이블된다. 현재 화상의 CU에 대해 인트라 BC 예측을 사용하기 위해, 인트라 BC 예측은 시퀀스에 대해 인에이블되고, 참조 화상으로서 현재 화상을 이용하여, 인터 예측 모드가 CU에 대해 사용된다.

예를 들면, SPS에서, 신택스 엘리먼트 intra_block_copy_enabled_flag의 값이 1이면, 현재 화상을 RPL(특별히 RPL 0)에 추가하는 프로세스가 호출될 수도 있다. 한편, intra_block_copy_enabled_flag의 값이 0이면, 현재 화상을 RPL 0에 추가하는 프로세스는 호출되지 않는다. 존재하지 않는 경우, intra_block_copy_enabled_flag의 값은 0인 것으로 추론된다.

도 12는, 시퀀스에 대한 인트라 BC 예측을 선택적으로 인에이블하는 것을 포함하는 인코딩 또는 디코딩을 위한 일반화된 기술(1200)을 도시한다. 도 3 또는 도 5를 참조로 상기에서 설명된 것과 같은 비디오 인코더, 또는 다른 비디오 인코더가 기술(1200)을 수행할 수 있다. 또는, 도 4 또는 도 6을 참조로 상기에서 설명된 것과 같은 비디오 디코더, 또는 다른 비디오 디코더가 기술(1200)을 수행할 수 있다.

시작하기 위해, 인코더 또는 디코더는, 비디오 시퀀스에 대해 인트라 BC 예측을 인에이블할지의 여부를 결정한다(1210). 예를 들면, 인코더는, 인코딩 세션 또는 애플리케이션에 대한 설정에 기초하여 결정을 행하고(1210), 그 다음, 인트라 BC 예측이 인에이블되는지의 여부를 나타내기 위해 시퀀스에 대한 SPS에서 신택스 엘리먼트를 시그널링한다. 또는, 디코더는, 시퀀스에 대한 SPS의 신택스 엘리먼트에 기초하여 결정을 행한다(1210).

인트라 BC 예측이 인에이블되면, 인코더/디코더는, 인에이블된 인트라 BC 예측을 이용하여 시퀀스를 인코딩/디코딩한다(1230). 그렇지 않다면, 인코더/디코더는, 인에이블된 인트라 BC 예측 없이 시퀀스를 인코딩/디코딩한다(1220).

인코더/디코더는 시퀀스 단위 기반으로 기술(1200)을 반복할 수 있다.

대안적으로, 인트라 BC 예측이 인에이블되는지 또는 디스에이블되는지의 여부를, 다른 신택스 구조 또는 VUI 메시지의 다른 하이 레벨 플래그가 나타낼 수도 있다. 인트라 BC 예측을 인에이블하는 또는 디스에이블하는 결정은, 시퀀스 단위 기반으로, 화상 단위 기반으로, 슬라이스 단위 기반으로, 또는 어떤 다른 기반으로 행해질 수 있다.

3. RPL 카운터 업데이트.

예시적인 구현예에서, 비트스트림 내의 두 개까지의 신택스 엘리먼트의 값은, 현재 슬라이스에 대한 두 개의 RPL에서 활성인 참조 화상의 수를 나타낸다. 신택스 엘리먼트 num_ref_idx_l0_active_minus1은 현재 슬라이스에 대한 RPL 0에서 활성인 참조 화상의 수를 (그 수 빼기 1)로서 나타내고, 신택스 엘리먼트 num_ref_idx_l1_active_minus1은 현재 슬라이스에 대한 RPL 1에서 활성인 참조 화상의 수를 (그 수 빼기 1로서) 나타낸다. 인트라 BC 예측이 사용되는 경우, 현재 슬라이스가 P 또는 B 슬라이스이면, num_ref_idx_l0_active_minus1의 값 및/또는 num_ref_idx_l1_active_minus1의 값은, 현재 화상을 참조 화상으로서 설명하기 위해, 현재 슬라이스에 대해 1만큼 증가된다. 현재 슬라이스가 I 슬라이스이면, RPL 0 및/또는 RPL 1에 대한 현재 화상의 추가를 설명하기 위해, num_ref_idx_l0_active_minus1 및/또는 num_ref_idx_l1_active_minus1은 인트라 BC 예측이 사용되는 경우 현재 슬라이스에 대해 제로로 설정된다.

예를 들면, P 또는 B 슬라이스의 경우, 신택스 엘리먼트 num_ref_idx_l0_active_minus1은 슬라이스 세그먼트 헤더의 일부로서 시그널링될 수도 있고, 슬라이스를 디코딩하기 위해 사용될 수도 있는 RPL 0에 대한 최대 참조 인덱스를 명시한다. num_ref_idx_l0_active_minus1의 값은 0 이상 14 이하의 범위 안에 있다. num_ref_idx_l0_active_minus1이 P 또는 B 슬라이스에 대한 슬라이스 세그먼트 헤더에 존재하지 않는 경우, num_ref_idx_l0_active_minus1의 값은 num_ref_idx_l0_default_active_minus1과 동일한 것으로 추론된다. 현재 슬라이스가 I 슬라이스이고 인트라 BC 예측이 인에이블되지 않는 경우, num_ref_idx_l0_active_minus1의 값은 I 슬라이스에 대해 -1과 동일한 것으로 추론된다. 인트라 BC 예측이 사용되는 경우, num_ref_idx_l0_active_minus1의 값은 1만큼 증가된다.

다른 예로서, 신택스 엘리먼트 num_ref_idx_l1_active_minus1은 B 슬라이스에 대한 슬라이스 세그먼트 헤더의 일부로서 시그널링될 수도 있고, 슬라이스를 디코딩하기 위해 사용될 수도 있는 RPL 1 인덱스에 대한 최대 참조 인덱스를 명시한다. num_ref_idx_l1_active_minus1의 값은 0 이상 14 이하의 범위 안에 있다. num_ref_idx_l1_active_minus1이 B 슬라이스에 대한 슬라이스 세그먼트 헤더에 존재하지 않는 경우, num_ref_idx_l1_active_minus1의 값은 num_ref_idx_l1_default_active_minus1과 동일한 것으로 추론된다. 현재 슬라이스가 I 슬라이스이고 인트라 BC 예측이 인에이블되지 않는 경우, num_ref_idx_l1_default_active_minus1의 값은 I 슬라이스에 대해 -1과 동일한 것으로 추론된다. 인트라 BC 예측이 사용되는 경우, num_ref_idx_l1_active_minus1의 값은 1만큼 증가된다.

4. 다른 RPL 구성 이후 RPL에 대한 현재 화상의 추가.

예시적인 구현예에서, 인트라 BC 예측이 인에이블되는 경우, 현재 화상은, 임의의 다른 참조 화상이 디폴트 RPL 구성 프로세스에서 RPL에 추가된 이후, RPL에 추가된다. 구체적으로는, 현재 화상은 RefPicList0(RPL 0)의 최종 포지션에서 추가된다. num_ref_idx_l0_active_minus1가 1만큼 증가된 이후:

RefPicList0[num_ref_idx_l0_active_minus1] = 현재 디코딩된 화상

이다.

현재 슬라이스가 P 슬라이스 또는 B 슬라이스이면(그리고 인트라 BC 예측이 인에이블되면), 현재 화상을 RPL 0에 추가하는 프로세스는, 하나 이상의 다른 참조 화상이 RPL 0에 추가되는 RPL 구성 프로세스의 완료 이후에 호출된다. 현재 슬라이스가 I 슬라이스이면(그리고 인트라 BC 예측이 인에이블되면), 현재 화상을 RPL 0에 추가하는 프로세스는, I 슬라이스에 대한 디코딩 프로세스의 시작에서 호출된다. num_ref_idx_l0_active_minus1의 값은 현재 슬라이스에 대해 1만큼 증가된다.

도 13은, 현재 화상을 포함하는 RPL을 구성하기 위한 예시적인 기술(1300)을 도시한다. 도 3 또는 도 5를 참조로 상기에서 설명된 것과 같은 비디오 인코더, 또는 다른 비디오 인코더가 기술(1300)을 수행할 수 있다. 또는, 도 4 또는 도 6을 참조로 상기에서 설명된 것과 같은 비디오 디코더, 또는 다른 비디오 디코더가 기술(1300)을 수행할 수 있다.

시작하기 위해, 인코더 또는 디코더는, 현재 슬라이스가 I 슬라이스인지의 여부를 체크한다(1310). 만약 아니라면(예를 들면, 현재 슬라이스가 P 슬라이스 또는 B 슬라이스이면, 인코더/디코더는 디폴트 RPL 구성 프로세스를 이용하여 RPL을 구성하고(1320), 하나 이상의 다른 참조 화상(현재 화상이 아님)을 RPL에 추가한다.

그 다음, 현재 슬라이스가 I 슬라이스이든 또는 아니든 간에, 인코더/디코더는 RPL의 최종 포지션에 현재 화상을 추가한다(1330). 인코더/디코더는, (예를 들면, num_ref_idx_l0_active_minus1 신택스 엘리먼트에 의해 나타내어지는 바와 같이) 현재 슬라이스에 대한 RPL에서 활성인 참조 화상의 수를 나타내는 카운터를 업데이트한다.

인코더/디코더는 현재 화상의 슬라이스에 대해 슬라이스 기반으로 기술(1300)을 반복할 수 있다. 대안적으로, 인코더/디코더는 화상 단위 기반으로 기술을 반복할 수 있다.

대안적으로, 현재 화상은 RefPicList1(RPL 1)의 최종 포지션에서 추가될 수 있고, num_ref_idx_l1_active_minus1의 값은 현재 슬라이스에 대해 1만큼 증가된다. 현재 화상은, 하나 이상의 다른 참조 화상이 RPL 1에 추가되는 RPL 구성 프로세스의 완료 이후에(P 또는 B 슬라이스의 경우) 또는 현재 슬라이스의 디코딩의 시작에서(I 슬라이스의 경우), RPL 1에 추가된다.

다른 대안예로서, 현재 화상은, (상기에서 설명되는 바와 같이) RPL 0의 최종 포지션에서 추가될 수 있고 (상기에서 설명되는 바와 같이) RPL 1의 최종 포지션에서 추가될 수 있는데, num_ref_idx_l0_active_minus1 및 num_ref_idx_l1_active_minus1의 값 각각은 현재 슬라이스에 대해 1만큼 증가된다.

현재 화상이 RPL에 추가되는 경우, 현재 화상은 또한, 하기에서 설명되는 바와 같이, "장기간 참조를 위해 사용됨"으로 마킹될 수 있다. 현재 화상의 디코딩이 완료된 이후, 현재 화상은, 하기에서 설명되는 바와 같이, "단기간 참조를 위해 사용됨"으로 마킹될 수 있다.

5. RPL 구성 동안의 RPL에 대한 현재 화상의 추가.

임의의 다른 참조 화상이 디폴트 RPL 구성 프로세스에서 RPL에 추가된 이후, 현재 화상을 RPL에 추가하는 것에 대한 대안예로서, 현재 화상은, 하나 이상의 다른 참조 화상이 RPL에 추가되는 RPL 구성 프로세스 동안 RPL에 추가될 수 있다.

도 14a 내지 도 14c는, RPL 구성 프로세스 동안 현재 화상을 추가하는 상이한 접근방식(1401, 1402, 1403)을 도시한다. 이들 접근방식의 각각에서, num_ref_idx_l0_active_minus1의 값은 1만큼 증가되고, 변수 NumRpsCurrTempList0는 Max(num_ref_idx_l0_active_minus1+1, NumPocTotalCurr)로 설정되고, 리스트 RefPicListTemp0가 구성된다.

도 14a는, RPL 구성 프로세스 동안 현재 화상을 추가하는 하나의 접근방식(1401)을 도시한다. 참조 화상의 제1 세트가 추가된 이후, 현재 화상은 RefPicListTemp0에 추가된다("RefPicListTemp0 [rIdx] = 현재 화상" 및 "rIdx ++").

도 14b는, RPL 구성 프로세스 동안 현재 화상을 추가하는 제2 접근방식(1402)을 도시한다. 도 14a에서 도시되는 접근방식(1401)과 비교하여, 타이밍이 상이하다. 현재 화상은, 참조 화상의 제2 세트가 리스트에 추가된 이후, RefPicListTemp0에 추가된다("RefPicListTemp0 [rIdx] = 현재 화상" 및 "rIdx ++").

도 14c는, RPL 구성 프로세스 동안 현재 화상을 추가하는 제3 접근방식(1403)을 도시한다. 참조 화상의 제3 세트가 추가된 이후, 현재 화상은 RefPicListTemp0에 추가된다("RefPicListTemp0 [rIdx] = 현재 화상" 및 "rIdx ++").

대안적으로, 현재 화상은 RefPicListTemp0의 어떤 다른 포지션에 추가될 수 있다.

RefPicListTemp0에 추가되는 외에 또는 대신에, 현재 화상은, num_ref_idx_l0_active_minus1의 값에서의 1만큼의 대응하는 증가와 함께, RefPicListTemp1에 추가될 수 있는데, RefPicListTemp1는 RPL 1에 대한 리스트이다.

6. LTRP 또는 STRP로서의 현재 화상의 마킹.

예시적인 구현예에서, 인트라 BC 예측이 인에이블되기 때문에 현재 화상이 RPL에 추가되는 경우, 현재 화상은 장기간 참조 화상("LTRP")으로서 마킹된다. 즉, 인트라 BC 예측을 위해 현재 화상이 RPL에 추가되는 경우, 현재 화상은 "장기간 참조를 위해 사용됨"으로 마킹된다. 현재 화상의 디코딩이 완료된 이후, 현재 화상은 단기간 참조 화상("STRP")으로 - 즉, "단기간 참조를 위해 사용됨"으로 마킹된다.

7. 비트스트림 제약.

예시적인 구현예에서, 비트스트림은, 인트라 BC 예측을 위해 현재 화상의 임의의 재구성되지 않은 영역의 샘플 값의 사용으로 이어질 어떠한 신택스 엘리먼트도 포함하지 않는다. 비트스트림 내의 신택스 엘리먼트의 값에 대한 이러한 제약은 다음과 같이 표현될 수 있다.

z 스캔 순서 블록 이용가능성 대한 유도 프로세스가, 입력으로서, (1) 현재 화상의 좌상(top-left) 루마 샘플에 대한 현재 블록의 좌상 샘플의 루마 위치(xCurr, yCurr), 및 (2) 현재 화상의 좌상 루마 샘플에 대한 이웃하는 블록에 의해 커버되는 루마 위치(xNbY, yNbY)를 수용한다고 가정한다. 이 이용가능성 프로세스는, 출력으로서, 위치 (xNbY, yNbY)를 커버하는 이웃하는 블록의 이용가능성을 생성한다. 또한, 루마 위치 (xCb, yCb)가, 현재 화상의 좌상 루마 샘플에 대한 현재 루마 코딩 블록("CB")의 좌상 샘플을 명시한다는 것, 및 루마 위치 (xB1, yB1)가, 현재 루마 CB의 좌상 샘플에 대한 현재 루마 예측 블록("PB")의 좌상 샘플을 명시한다는 것을 가정한다.

RPL(예를 들면, RPL 0)의 참조 화상이 현재 화상이면, 적합한(conformant) 비트스트림의 경우, 현재 화상의 임의의 인트라 BC 예측된 블록에 대해 다음의 조건은 참이다.

첫째, 블록 이용가능성 프로세스가 입력 (1) 및 (2)로서 각각 (xCb, yCb) 및 (xB1+mvL0[0], yB1+mvL0[1])을 이용하여 호출되면, 블록 이용가능성 프로세스의 출력은 TRUE(참)일 것이다. 즉, 입력 (2)가 인트라 BC 예측을 위해 MV에 의해 참조되는 블록의 좌상 코너이면, 블록 이용가능성 프로세스의 출력은 참일 것이다.

둘째, 블록 이용가능성 프로세스가 입력 (1) 및 (2)로서 각각 (xCb, yCb) 및 (xB1+mvL0[0]+nPbW-1, yB1+mvL0[1]+nPbH-1)을 이용하여 호출되면, 블록 이용가능성 프로세스의 출력은 TRUE(참)일 것이다. 두 변수 nPbW 및 nPbH는, 각각, 루마 PB의 폭과 높이를 명시한다. 따라서, 입력 (2)가 인트라 BC 예측을 위해 MV에 의해 참조되는 블록의 우하(bottom-right) 코너이면, 블록 이용가능성 프로세스의 출력은 참일 것이다.

이 분석에서, MV 값은, RPL(예를 들면, RPL 0)의 참조 화상이 현재 화상인 경우에 수정된다. 특히, mvL0 <<= 2 및 mvCL0 <<= 2인데, 이 경우, mvL0는 정수 픽셀 정밀도를 가지고 시그널링되는 루마 MV이고, mvCL0는 인터 픽셀 정밀도로 유도되는 크로마 MV이다. 비트스트림 적합성(이것은, 인트라 BC 예측이 인에이블되는지 또는 그렇지 않은지의 여부, 현재 화상이 참조 화상인지 또는 아닌지의 여부, 등등을 적용한다)에 대한 다른 조건도 또한 적용된다.

변수 initType(이것은 세 개의 초기화 타입의 각각에 대해 초기화가 필요로 되는 ctxIdx를 명시한다)은 다음과 같이 설정된다. 현재 슬라이스가 I 슬라이스이고 인트라 BC 예측이 인에이블되지 않으면, initType은 0이다. 그렇지 않고, 현재 슬라이스가 I 슬라이스이고 인트라 BC 예측이 인에이블되면, initType은 1이다. 그렇지 않다면, initType의 값은 JCTVC-P1005_v1에서 설명되는 바와 같이 설정된다. 마지막으로, JCTVC-P1005_v1에 비교하여, intra_be_flag를 참조하는 제약은 제거된다.

8. 복합 예측.

예시적인 구현예에서, 인트라 BC 예측으로부터의 샘플 값 및 다른 예측(예를 들면, 다른 인트라 BC 예측, 모션 보상)으로부터의 샘플 값을 결합하는 복합 예측은 허용되지 않는다. 즉, 참조 화상 중 적어도 하나가 현재 화상인 양방향 예측은 허용되지 않는다. 이 제약은, 비트스트림의 신택스 엘리먼트의 값을 체크하는 것에 의해 강제될 수 있다.

대안적으로, 인트라 BC 예측으로부터의 샘플 값 및 다른 예측으로부터의 샘플 값을 결합하는 복합 예측이 허용된다. 즉, 참조 화상 중 적어도 하나가 현재 화상인 양방향 예측은 허용된다.

9. 4×4 인트라 BC 예측.

예시적인 구현예에서, 현재 화상이 양방향 예측을 위한 참조 화상(단일의 참조 화상)인 경우, PB의 사이즈는 인트라 BC 예측의 경우 4×4일 수 있다. 다른 블록 사이즈(예를 들면, 64×64, 64×32, 32×64, 64×16, 64×48, 16×64, 48×64, 32×32, 32×16, 16×32, 32×8, 32×24, 8×32, 24×32, 16×16, 16×8, 8×16, 16×4, 16×12, 4×16, 12×16, 8×8, 8×4 및 4×8)도 또한 가능하다.

대안적으로, PB의 사이즈가 4×4일 수 있는 인트라 BC 예측은 지원되지 않는다.

10. MV 시그널링 및 재구성.

예시적인 구현예에서, 인트라 BC 예측을 위한 블록 벡터로서 사용되는 MV가 정수 픽셀 정밀도를 가지고 시그널링된다. 대조적으로, 다른 화상에 대한 모션 보상을 위해 사용되는 MV가 분수적 픽셀 정밀도를 가지고 시그널링된다. 현재 화상의 현재 블록에 대한 MV의 정밀도는 참조 화상에 의존한다. 참조 화상이 현재 화상이면, MV는 정수 픽셀 정밀도를 갖는다. 그렇지 않다면(참조 화상이 다른 화상이면), MV는 분수적 픽셀 정밀도를 갖는다. 실제, 이것은, 시그널링된 MV 값의 해석이, 현재 화상이 참조 화상인지의 여부에 따라 달라진다는 것을 의미할 수 있다.

(인트라 BC 예측을 위한) MV가 정수 픽셀 정밀도를 가지고 시그널링되는 경우, MV는, 분수적 픽셀 MV 값을 가지고 동작하는 모션 보상 프로세스에서 MV가 사용되기 이전에, 스케일링된다. 예를 들면, MV의 수평 및 수직 성분은, 1/4 픽셀 MV 값을 수용하는 모션 보상 프로세스로 MV가 입력되기 이전에, (2만큼의 좌측 시프트를 통해, 또는 승산을 통해) 4배만큼 스케일링된다.

예시적인 구현예에서, 현재 화상이 (인트라 BC 예측을 위한) 참조 화상인 경우, 모션 보상은, MV 값이 정수 픽셀 오프셋을 나타내기 때문에, 분수적 픽셀 보간(interpolation)을 포함하지 않는다. 대응하는 루마 MV 성분이 정수 픽셀 오프셋을 나타내더라도 분수적 픽셀 오프셋을 나타낼 수도 있는 크로마 MV 성분은, 정수 픽셀 오프셋을 나타내기 위해 반올림 처리될 수 있거나 버림 처리될 수 있다. 예를 들면, 4:2:0 비디오의 경우, 루마 MV가 (1, 1)인 경우, 반올림 처리 또는 버림 처리 없이, 대응하는 크로마 MV는 (0.5, 0.5)일 것이다. 이것을 방지하기 위해, 크로마 MV는 다음과 같이 수정될 수 있다.

(xVec, yVec)가 정수 픽셀 정밀도의 루마 MV인 것으로 가정한다. 또한, (xScale, yScale)가 루마 MV를 크로마 MV로 변환하는 스케일인 것으로 가정한다. 일반적으로, 크로마 MV는 (xVec>>xScale, yVec>>yScale)로서 계산된다. 4:2:0 비디오의 경우, (xScale, yScale)는 (1, 1)이다. 4:2:2 비디오의 경우, (xScale, yScale)는 (1, 0)이다. 4:4:4 비디오의 경우, (xScale, yScale)는 (0, 0)이다. 비정수의(non-integer) 크로마 MV를 생성하는 것을 방지하기 위해, (xVec, yVec)는, 크로마 샘플 값의 모션 모상을 위한 크로마 MV로서 사용하기 이전에, (xVec>>xScale<<xScale, yVec>>yScale<<yScale)과 같이 수정된다.

대안적으로, 인트라 BC 예측의 경우, MV는, 1/2 픽셀 정밀도 또는 1/4 픽셀 정밀도와 같은 분수적 픽셀 정밀도를 가지고 시그널링된다. 예를 들면, 인트라 BC 예측에서 사용되는 MV는 여전히 정수 픽셀의 오프셋을 나타내지만, 그러나 MV는 분수적 픽셀 정밀도를 가지고 시그널링된다.

11. MV 예측을 위한 코딩/디코딩 툴

예시적인 구현예에서, 인터 예측 모드를 위해 사용되는 다양한 코딩/디코딩 툴은 인트라 BC 예측이 사용될 때 사용될 수도 있다. 예를 들면, 인코더 및 디코더는, 현재 화상이 모션 보상을 위한(즉, 인트라 BC 예측을 위한) 참조 화상으로서 사용되는 경우, 병합 모드, 스킵 모드 및/또는 향상된 MV 예측을 사용할 수 있다.

12. 병합 모드 프로세싱에 대한 조정.

예시적인 구현예에서, 인코더 및 디코더는, 플래그(또는 다른 값)가 인트라 BC 예측을 정규 인터 예측 모드와 구별하는 경우, 병합 모드 프로세싱을 수정할 수 있다. 이 상황에서, 인트라 BC 예측을 사용하여 코딩되는 블록에 대한 병합 모드 후보를 (공간적 또는 시간적 이웃으로부터) 획득할 때, 인코더/디코더는, 주어진 병합 모드 후보가 현재 화상을 참조 화상으로서 사용하는지의 여부를 체크할 수 있다. 만약 그렇다면, 인코더/디코더는 병합 모드 후보의 세트의 병합 모드 후보를 포함한다. 만약 아니라면, 인코더/디코더는 현재 병합 모드 후보를 배제하여, 그것을 이용불가능하게 만들 수 있다.

병합 모드 후보를 이 방식으로 걸러낸 이후, 병합 모드 후보의 수가, (변수 MaxNumMergeCand를 이용하여 나타내어지며, five_minus_max_num_merge_cand 신택스 엘리먼트를 이용하여 시그널링되는 바와 같은) 허용되는 병합 후보의 수보다 작으면, 인코더/디코더는 미리 정의된 리스트로부터의 병합 모드 후보를 병합 후보 세트에 추가할 수 있다. 예를 들면, 미리 정의된 리스트는, 현재 화상을 참조 화상으로서 사용하는 그리고 MV {(-W, 0), (0, -H), (-W, -H), (-2W, 0), (0, -2H)}를 구비하는 병합 모드 후보인데, 이 경우 W는 현재 CU의 폭이고, H는 현재 CU의 높이이다. 리스트로부터의 병합 모드 후보는, 허용된 병합 후보의 수가 도달될 때까지, 주어진 순서로 차례차례 리스트에 추가될 수 있다.

13. 시간적 MV 예측의 디스에이블.

예시적인 구현예에서, 시간적 MV 예측은, 인트라 BC 예측이 인에이블되는 경우, I 슬라이스에 대해 디스에이블된다. 이 상황에서, I 슬라이스가 많은 코딩/디코딩 동작에서 P 슬라이스(또는 B 슬라이스)처럼 취급될 수도 있을지라도, 그리고 I 슬라이스에 대한 비트스트림 신택스가 P 슬라이스(또는 B 슬라이스)에 대한 비트스트림 신택스를 따를 수도 있을지라도, 시간적 MV 예측을 디스에이블하는 것은, 병합 모드 프로세싱, 향상된 MV 예측 및 다른 동작을 단순화하고, 현재 I 슬라이스의 인코딩 또는 디코딩 동안 다른 화상/슬라이스로부터의 정보를 사용하는 것을 방지한다.

예를 들면, 시간적 MV 예측자가 인코딩 또는 디코딩 동안 유도되는 경우, slice_temporal_mvp_enabled_flag가 0과 동일하거나 또는 현재 슬라이스 타입이 I이면, 시간적 MV 예측자의 양 성분은 0과 동일하게 설정되고, 시간적 MV 예측자는 이용가능하지 않은 것으로 마킹된다.

14. 기타 인코더 결정.

신택스 엘리먼트 mvd_l1_zero_flag는 B 슬라이스에 대한 슬라이스 세그먼트 헤더의 일부이다. mvd_l1_zero_flag가 1일 때, 양방향 예측이 사용되는 경우, 단지 제로 값의 MV 차분만이 RPL 1에 대해 허용된다. 예시적인 구현예에서, 인코더는, 인트라 BC 예측이 인에이블되는 경우, mvd_l1_zero_flag 신택스 엘리먼트의 값을 설정하기 위한 자신의 의사결정 프로세스를 적응시킨다.

비교를 위해, 인트라 BC 예측이 인에이블되지 않은 경우, 인코더는 (1) RPL 0의 참조 화상의 수가 RPL 1의 참조 화상의 수와 동일하다는 것, 및 (2) RPL 0의 모든 참조 화상에 대해, (동일한 POC를 갖는) 동일한 참조 화상이 RPL 1의 동일한 포지션에 존재한다는 것을 체크한다. 양 조건이 충족되면, mvd_l1_zero_flag는 1로 설정된다. 그렇지 않다면, mvd_l1_zero_flag는 0으로 설정된다.

인트라 BC 예측이 인에이블되는(그리고 현재 화상이 RPL에 추가되는) 경우, 인코더는 약간 상이한 조건을 체크하는데, 약간 상이한 조건은 현재 화상을 무시한다. 예를 들면, 현재 화상이 RPL 0의 최종 포지션에 추가되면, 인코더는, (1) (현재 화상을 고려하기 위해) 1을 뺀 RPL 0의 참조 화상의 수가 RPL 1의 참조 화상의 수와 동일하다는 것, 및 (2) (RPL 0의 최종 참조 화상을 제외한) RPL 0의 모든 참조 화상에 대해, (동일한 POC)를 갖는 동일한 참조 화상이 RPL 1의 동일한 포지션에 존재한다는 것을 체크한다. 양 조건이 충족되면, mvd_l1_zero_flag는 1로 설정된다. 그렇지 않다면, mvd_l1_zero_flag는 0으로 설정된다.

15. 인트라 BC 예측 모드의 대안적 시그널링.

대안적으로, 인트라 BC 예측은, 인트라 BC 예측 모드, 인트라 예측 모드(공간 예측) 및 인터 예측 모드를 포함하는 이용가능한 코딩 모드 중에서부터 별개의 코딩 모드로서 선택될 수 있다. 예를 들면, 인트라 BC 예측이 CU에 대한 코딩 모드로서 선택될 수 있고, 비트스트림은 현재 CU에 대해 적용되는 코딩 모드를 나타내는 신택스 엘리먼트를 포함한다. 현재 CU에 대해 적용되는 코딩 모드가 인트라 BC 예측 모드이면, 현재 CU(및 CU의 PU, TU, 등등)에 대한 신택스 엘리먼트는, 일반적으로, 인터 예측 모드에 대한 신택스를 따른다. 그러나, 현재 CU에 대해 인트라 BC 코딩 모드가 명시적으로 시그널링되는 경우, 인터 예측 방향 및 참조 화상 인덱스는 PU에 대해 명시적으로 시그널링되지 않는다. 대신, 이들 신택스 엘리먼트의 값이 추론될 수 있다. 현재 CU에 대해 적용되는 코딩 모드가 인트라 BC 예측 모드이면, 예측 방향의 시그널링은 CU의 어떠한 PU에 대해서도 필요로 되지 않으며, 참조 화상은 현재 화상인 것으로 공지된다. 예를 들면, 현재 화상이 RPL 0에만 추가되면, 인터 예측 방향은 0인 것으로 추론되고(RPL 0로부터의 단방향 예측), 참조 화상 인덱스는, 현재 화상을 참조 화상으로 나타내는 것이 되도록 추론된다.

개시된 발명의 원칙이 적용될 수도 있는 많은 가능한 실시형태의 관점에서, 예시된 실시형태는 단지 본 발명의 바람직한 예에 불과하며 본 발명의 범위를 제한하는 것으로 간주되어선 안된다는 것이 인식되어야 한다. 대신, 본 발명의 범위는 하기의 청구범위에 의해 정의된다. 따라서, 이들 특허청구범위의 취지와 범위 내에 있는 모든 것을 본 발명으로서 주장한다.

Claims

비디오 디코더를 구현하는 컴퓨터 시스템에서의 방법에 있어서,
인코딩된 데이터를 비트스트림으로 수신하는 단계 - 상기 인코딩된 데이터는 제1 플래그를 포함하고, 상기 제1 플래그는 인트라 블록 카피(IBC) 예측 모드가 인에이블되어 있는지 또는 디스에이블되어 있는지의 여부를 표시하고, 상기 제1 플래그는 시퀀스 파라미터 세트(sequence parameter set)의 일부임 - ; 및
상기 인코딩된 데이터의 적어도 일부를 사용하여, 복수의 블록들을 포함하는 현재 화상(picture)을 디코딩하는 단계로서,
상기 복수의 블록들 중 현재 블록에 대해 적용되는 제2 플래그를 결정하는 단계 - 상기 제2 플래그는 상기 현재 블록에 대한 예측 모드가 상기 IBC 예측 모드임을 표시함 - ;
상기 현재 블록에 대한 벡터를 결정하는 단계 - 상기 벡터는 상기 현재 화상 내에서의 변위를 표시하고, 상기 현재 블록에 대한 벡터를 결정하는 단계는,
병합 모드 후보들의 세트를 결정하는 단계 - 상기 병합 모드 후보들의 세트를 결정하는 단계는, 복수의 후보들 중의 각 후보에 대해, 상기 후보를 획득하는 단계를 포함하고, 상기 후보가 상기 현재 화상을 참조하면 상기 후보는 상기 병합 모드 후보들의 세트에 유지(retain)되지만, 그렇지 않고 상기 후보가 상기 현재 화상을 참조하지 않으면 상기 후보는 상기 병합 모드 후보들의 세트로부터 배제(exclude)됨 - ; 및
상기 병합 모드 후보들의 세트 중 한 후보를 상기 현재 블록에 대한 벡터로서 선택하는 단계
를 병합 모드 프로세싱의 일부로서 포함함 - ; 및
상기 벡터를 사용하여 상기 현재 블록에 대한 IBC 예측을 수행하는 단계
를 포함하는 것인, 상기 현재 화상을 디코딩하는 단계
를 포함하는, 방법.
제1항에 있어서,
상기 현재 블록에 대한 벡터를 결정하는 단계는, 병합 모드 인덱스를 디코딩하는 단계를 더 포함하고,
상기 병합 모드 후보들의 세트 중 한 후보를 선택하는 단계는, 상기 병합 모드 인덱스를 사용하는 것인, 방법.
제1항에 있어서,
상기 병합 모드 후보들의 세트를 결정하는 단계는,
상기 병합 모드 후보들의 세트 내의 병합 모드 후보들의 수가 허용된 병합 모드 후보 수보다 작음을 결정하는 단계, 및
상기 허용된 병합 모드 후보 수까지 하나 이상의 후보를 상기 병합 모드 후보들의 세트에 추가하는 단계
를 더 포함하는 것인, 방법.
제3항에 있어서,
상기 인코딩된 데이터 내의 신택스 엘리먼트는 상기 허용된 병합 모드 후보 수를 표시하는 것인, 방법.
제1항에 있어서,
상기 현재 블록은 4×4 블록인 것인, 방법.
제1항에 있어서,
상기 제2 플래그를 결정하는 단계는 상기 제2 플래그를 추론하는 단계를 포함하는 것인, 방법.
제1항에 있어서,
상기 제2 플래그를 결정하는 단계는 상기 제2 플래그를 디코딩하는 단계를 포함하고, 상기 비트스트림 내의 상기 인코딩된 데이터는 상기 제2 플래그를 포함하는 것인, 방법.
제1항에 있어서,
상기 비트스트림은, 상기 현재 화상의 디코딩 동안 상기 현재 화상의 재구성되지 않은 부분의 참조로 이어지는 어떠한 신택스 엘리먼트도 포함하지 않도록 제한되는 것인, 방법.
제1항에 있어서,
상기 현재 블록은 현재 슬라이스의 일부이고, 상기 제2 플래그는 상기 현재 블록과 연관된 코딩 단위(coding unit)에 대해 결정되는 것인, 방법.
프로세서 및 메모리를 포함하는 컴퓨터 시스템으로서, 상기 컴퓨터 시스템은 동작들을 수행하도록 구성된 비디오 인코더를 구현하고, 상기 동작들은,
인트라 블록 카피(IBC) 예측 모드를 인에이블할지 또는 디스에이블할지의 여부를 결정하는 동작;
상기 인트라 BC 예측 모드가 인에블되는지 디스에이블되는지 여부를 표시하도록 제1 플래그를 설정(set)하는 동작;
복수의 블록들을 포함하는 현재 화상을 인코딩하는 동작으로서,
상기 복수의 블록들 중 현재 블록에 대한 예측 모드가 상기 IBC 예측 모드임을 결정하는 동작 - 상기 현재 블록에 적용되는 제2 플래그는 상기 현재 블록에 대한 예측 모드가 상기 IBC 예측 모드임을 표시함 - ;
상기 현재 블록에 대한 벡터를 결정하는 동작 - 상기 벡터는 상기 현재 화상 내에서의 변위를 표시하고, 상기 현재 블록에 대한 벡터를 결정하는 동작은,
병합 모드 후보들의 세트를 결정하는 동작 - 상기 병합 모드 후보들의 세트를 결정하는 동작은, 복수의 후보들 중의 각 후보에 대해, 상기 후보를 획득하는 동작을 포함하고, 상기 후보가 상기 현재 화상을 참조하면 상기 후보는 상기 병합 모드 후보들의 세트에 유지되지만, 그렇지 않고 상기 후보가 상기 현재 화상을 참조하지 않으면 상기 후보는 상기 병합 모드 후보들의 세트로부터 배제됨 - ; 및
상기 병합 모드 후보들의 세트 중 한 후보를 상기 현재 블록에 대한 벡터로서 선택하는 동작
을 병합 모드 프로세싱의 일부로서 포함함 - ; 및
상기 벡터를 사용하여 상기 현재 블록에 대한 IBC 예측을 수행하는 동작
을 포함하는 것인, 상기 현재 화상을 인코딩하는 동작; 및
상기 인코딩된 데이터를 비트스트림의 일부로서 출력하는 동작 - 상기 인코딩된 데이터는 상기 제1 플래그를 시퀀스 파라미터 세트의 일부로서 포함함 -
을 포함하는 것인, 컴퓨터 시스템.
제10항에 있어서,
상기 인코딩된 데이터는, 상기 병합 모드 후보들의 세트 중 선택된 상기 한 후보를 표시하는 병합 모드 인덱스를 포함하는 것인, 컴퓨터 시스템.
제10항에 있어서,
상기 병합 모드 후보들의 세트를 결정하는 동작은,
상기 병합 모드 후보들의 세트 내의 병합 모드 후보들의 수가 허용된 병합 모드 후보 수보다 작음을 결정하는 동작, 및
상기 허용된 병합 모드 후보 수까지 하나 이상의 후보를 상기 병합 모드 후보들의 세트에 추가하는 동작
을 포함하는 것인, 컴퓨터 시스템.
제12항에 있어서,
상기 인코딩된 데이터 내의 신택스 엘리먼트는 상기 허용된 병합 모드 후보 수를 표시하는 것인, 컴퓨터 시스템.
제10항에 있어서,
상기 현재 블록은 4×4 블록인 것인, 컴퓨터 시스템.
제10항에 있어서,
상기 인코딩된 데이터는 상기 제2 플래그를 가지지 않는 것인, 컴퓨터 시스템.
제10항에 있어서,
상기 인코딩된 데이터는 상기 제2 플래그를 포함하는 것인, 컴퓨터 시스템.
제10항에 있어서,
상기 현재 화상을 인코딩하는 동작은, 상기 현재 화상의 디코딩 동안 신택스 엘리먼트들 중 어느 것도 상기 현재 화상의 재구성되지 않은 부분을 참조하는 것으로 이어지지 않도록, 상기 비트스트림의 신택스 엘리먼트들의 값들을 설정하는 동작을 포함하는 것인, 컴퓨터 시스템.
제10항에 있어서,
상기 현재 블록은 현재 슬라이스의 일부이고, 상기 제2 플래그는 상기 현재 블록과 연관된 코딩 단위에 대해 시그널링되는 것인, 컴퓨터 시스템.
비트스트림 내의 인코딩된 데이터를 저장하고 있는 하나 이상의 컴퓨터 판독가능 매체로서, 상기 인코딩된 데이터는 제1 플래그를 포함하고, 상기 제1 플래그는 인트라 블록 카피(IBC) 예측 모드가 인에이블되어 있는지 또는 디스에이블되어 있는지의 여부를 표시하고, 상기 제1 플래그는 비디오 시퀀스에 대한 시퀀스 파라미터 세트의 일부이고, 상기 비디오 시퀀스는 복수의 블록들을 포함한 현재 화상을 포함하고, 상기 인코딩된 데이터는 동작들에 의해 비디오 디코더로 상기 현재 화상을 디코딩하기에 용이하도록 편제되어 있으며, 상기 동작들은,
상기 복수의 블록들 중 현재 블록에 대해 적용되는 제2 플래그를 결정하는 동작 - 상기 제2 플래그는 상기 현재 블록에 대한 예측 모드가 상기 IBC 예측 모드임을 표시함 - ;
상기 현재 블록에 대한 벡터를 결정하는 동작 - 상기 벡터는 상기 현재 화상 내에서의 변위를 표시하고, 상기 현재 블록에 대한 벡터를 결정하는 동작은,
병합 모드 후보들의 세트를 결정하는 동작 - 상기 병합 모드 후보들의 세트를 결정하는 동작은, 복수의 후보들 중의 각 후보에 대해, 상기 후보를 획득하는 동작을 포함하고, 상기 후보가 상기 현재 화상을 참조하면 상기 후보는 상기 병합 모드 후보들의 세트에 유지되지만, 그렇지 않고 상기 후보가 상기 현재 화상을 참조하지 않으면 상기 후보는 상기 병합 모드 후보들의 세트로부터 배제됨 - ; 및
상기 병합 모드 후보들의 세트 중 한 후보를 상기 현재 블록에 대한 벡터로서 선택하는 동작
을 병합 모드 프로세싱의 일부로서 포함함 - ; 및
상기 벡터를 사용하여 상기 현재 블록에 대한 IBC 예측을 수행하는 동작
을 포함하는 것인, 하나 이상의 컴퓨터 판독가능 매체.
제19항에 있어서,
상기 제2 플래그를 결정하는 동작은 상기 제2 플래그를 디코딩하는 동작을 포함하고, 상기 비트스트림 내의 상기 인코딩 데이터는 상기 제2 플래그를 포함하는 것인, 하나 이상의 컴퓨터 판독가능 매체.