WO2016153251A1

WO2016153251A1 - 비디오 신호의 처리 방법 및 이를 위한 장치

Info

Publication number: WO2016153251A1
Application number: PCT/KR2016/002852
Authority: WO
Inventors: 손은용; 박승욱; 전용준; 구문모; 허진; 유선미
Original assignee: 엘지전자 주식회사
Priority date: 2015-03-23
Filing date: 2016-03-22
Publication date: 2016-09-29
Also published as: US20180091810A1

Abstract

본 발명은 비디오 신호를 위한 비트스트림을 디코딩하는 방법 및 장치에 관한 것으로서, 복수의 CTB를 위한 타입 개수 정보 및 타입 정보를 상기 비트스트림으로부터 획득하는 단계; 상기 복수의 CTB 중에서 현재 CTB를 위한 타입 지시 정보를 상기 비트스트림으로부터 획득하는 단계; 상기 타입 지시 정보가 지시하는 CTB 타입에 기초하여 상기 현재 CTB의 크기 및 상기 현재 CTB 내에서 코딩 블록의 최소 크기를 결정하는 단계; 상기 결정된 현재 CTB의 크기 및 코딩 블록의 최소 크기에 기초하여 상기 현재 CTB 내에서 적어도 하나의 코딩 블록을 결정하는 단계; 상기 적어도 하나의 코딩 블록 각각에 대하여 예측 모드 정보를 비트스트림으로부터 획득하는 단계; 상기 적어도 하나의 코딩 블록 중에서 현재 코딩 블록에 대한 예측 모드 정보에 기초하여 상기 현재 코딩 블록을 복원하는 단계를 포함하는 방법 및 이를 위한 장치에 관한 것이다.

Description

비디오 신호의 처리 방법 및 이를 위한 장치

본 발명은 비디오 처리 방법에 관한 것으로서, 보다 구체적으로는 가변적/적응적 코딩 트리 블록을 이용한 비디오 신호의 처리 방법 및 이를 위한 장치에 관한 것이다.

디지털 동영상 처리 기술이 급격히 발전함에 따라 고화질 디지털방송, 디지털 멀티미디어 방송, 인터넷 방송 등과 같은 다양한 매체를 이용한 디지털 멀티미디어 서비스가 활성화되고 있으며, 고화질 디지털 방송이 일반화되면서 다양한 서비스 애플리케이션이 개발되고 있고, 고화질, 고해상도의 영상을 위한 고속 동영상 처리 기술들이 요구되고 있다. 이를 위해, H.265/HEVC(High Efficiency Video Coding), H.264/AVC(Advanced Video Coding)와 같은 비디오 신호의 코딩에 관한 표준이 활발히 논의되고 있다.

본 발명의 목적은 비디오 신호를 효율적으로 처리할 수 있는 방법 및 이를 위한 장치를 제공하는 데 있다.

본 발명의 다른 목적은 가변적/적응적 코딩 트리 블록을 이용함으로써 부가 정보를 전송하는 데 필요한 비트 수를 절감하고 코딩 효율을 향상시키는 데 있다.

본 발명의 또 다른 목적은 가변적/적응적 코딩 트리 블록을 적용하기 위한 효율적인 부가 정보의 시그널링 방법 및 이를 위한 장치를 제공하는 데 있다.

본 발명의 또 다른 목적은 매우 큰 고정된 크기의 코딩 트리 블록을 이용하는 경우 부가 정보를 전송하는 데 필요한 비트 수를 절감하고 코딩 효율을 향상시키는 데 있다.

본 발명에서 이루고자 하는 기술적 과제들은 상기 기술적 과제로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 발명의 제1 양상으로서, 디코딩 장치에서 적어도 하나의 픽처를 위한 비트스트림을 디코딩하는 방법이 제공되며, 상기 픽처는 적어도 하나의 슬라이스를 포함하고, 상기 슬라이스는 복수의 코딩 트리 블록(CTB)을 포함하며, 상기 방법은 상기 복수의 CTB를 위한 타입 개수 정보 및 타입 정보를 상기 비트스트림으로부터 획득하는 단계, 상기 타입 개수 정보는 상기 복수의 CTB에 대해 허용되는 CTB 타입의 개수를 지시하고, 상기 타입 정보는 상기 복수의 CTB에 대해 허용되는 CTB 타입을 지시하며; 상기 복수의 CTB 중에서 현재 CTB를 위한 타입 지시 정보를 상기 비트스트림으로부터 획득하는 단계, 상기 타입 지시 정보는 상기 허용되는 CTB 타입 중에서 하나의 CTB 타입을 지시하며; 상기 타입 지시 정보가 지시하는 CTB 타입에 기초하여 상기 현재 CTB의 크기 및 상기 현재 CTB 내에서 코딩 블록의 최소 크기를 결정하는 단계; 상기 결정된 현재 CTB의 크기 및 코딩 블록의 최소 크기에 기초하여 상기 현재 CTB 내에서 적어도 하나의 코딩 블록을 결정하는 단계; 상기 적어도 하나의 코딩 블록 각각에 대하여 예측 모드 정보를 비트스트림으로부터 획득하는 단계, 상기 예측 모드 정보는 해당 코딩 블록이 인트라 예측을 이용하여 코딩되었는지 아니면 인터 예측을 이용하여 코딩되었는지 여부를 지시하며; 상기 적어도 하나의 코딩 블록 중에서 현재 코딩 블록에 대한 예측 모드 정보에 기초하여 상기 현재 코딩 블록을 복원하는 단계를 포함할 수 있다.

본 발명의 제2 양상으로서, 적어도 하나의 픽처를 위한 비트스트림을 디코딩하도록 구성된 디코딩 장치가 제공되며, 상기 픽처는 적어도 하나의 슬라이스를 포함하고, 상기 슬라이스는 복수의 코딩 트리 블록(CTB)을 포함하며, 상기 디코딩 장치는 메모리; 및 상기 메모리에 동작시 연결되는(operatively connected) 프로세서를 포함하며, 상기 프로세서는 상기 복수의 CTB를 위한 타입 개수 정보 및 타입 정보를 상기 비트스트림으로부터 획득하고, 상기 타입 개수 정보는 상기 복수의 CTB에 대해 허용되는 CTB 타입의 개수를 지시하고, 상기 타입 정보는 상기 복수의 CTB에 대해 허용되는 CTB 타입을 지시하며; 상기 복수의 CTB 중에서 현재 CTB를 위한 타입 지시 정보를 상기 비트스트림으로부터 획득하고, 상기 타입 지시 정보는 상기 허용되는 CTB 타입 중에서 하나의 CTB 타입을 지시하며; 상기 타입 지시 정보가 지시하는 CTB 타입에 기초하여 상기 현재 CTB의 크기 및 상기 현재 CTB 내에서 코딩 블록의 최소 크기를 결정하고; 상기 결정된 현재 CTB의 크기 및 코딩 블록의 최소 크기에 기초하여 상기 현재 CTB 내에서 적어도 하나의 코딩 블록을 결정하고; 상기 적어도 하나의 코딩 블록 각각에 대하여 예측 모드 정보를 비트스트림으로부터 획득하고, 상기 예측 모드 정보는 해당 코딩 블록이 인트라 예측을 이용하여 코딩되었는지 아니면 인터 예측을 이용하여 코딩되었는지 여부를 지시하며; 상기 적어도 하나의 코딩 블록 중에서 현재 코딩 블록에 대한 예측 모드 정보에 기초하여 상기 현재 코딩 블록을 복원하도록 구성될 수 있다.

바람직하게는, 상기 현재 CTB의 크기를 결정하는 것은, 상기 타입 개수 정보 및 상기 타입 정보에 기초하여 상기 현재 CTB를 위한 CTB 타입 후보 리스트를 구성하는 것과, 상기 CTB 타입 후보 리스트 중에서 상기 타입 지시 정보가 지시하는 CTB 타입을 상기 현재 CTB에 적용하는 것을 포함할 수 있다.

바람직하게는, 상기 현재 CTB 타입 후보 리스트는 상기 현재 CTB에 인접한 이웃 CTB의 CTB 타입이 낮은 인덱스에 할당되도록 구성될 수 있다.

바람직하게는, 상기 이웃 CTB는 상기 현재 CTB에 인접한 좌측 이웃 CTB와 상측 이웃 CTB를 포함하고, 상기 현재 CTB 타입 후보 리스트는 상기 좌측 이웃 CTB의 CTB 타입이 인덱스 0에 대응되고 상기 상측 이웃 CTB의 CTB 타입이 인덱스 1에 대응되도록 구성될 수 있다.

바람직하게는, 상기 이웃 CTB는 상기 현재 CTB에 인접한 좌측 이웃 CTB와 상측 이웃 CTB를 포함하고, 상기 CTB 타입 후보 리스트는 상기 상측 이웃 CTB의 CTB 타입이 인덱스 0에 대응되고 상기 좌측 이웃 CTB의 CTB 타입이 인덱스 1에 대응되도록 구성될 수 있다.

바람직하게는, 상기 복수의 CTB를 위한 타입 개수 정보 및 타입 정보를 상기 비트스트림으로부터 획득하는 것은 상기 타입 개수 정보가 지시하는 횟수만큼 복수의 타입 정보를 상기 비트스트림으로부터 획득하는 것을 포함하며, 상기 타입 개수 정보가 2보다 큰 수를 지시하는 경우, 상기 복수의 타입 정보가 지시하는 복수의 CTB 타입 중에서 상기 좌측 이웃 CTB의 CTB 타입과 상기 상측 이웃 CTB의 CTB 타입을 제외한 나머지 CTB 타입을 인덱스 2부터 대응되도록 상기 CTB 타입 후보 리스트가 구성될 수 있다.

바람직하게는, 상기 나머지 CTB 타입은 상기 나머지 CTB 타입에 대응되는 타입 정보가 상기 비트스트림으로부터 획득되는 순서에 따라 상기 CTB 타입 후보 리스트의 인덱스 2부터 할당될 수 있다.

바람직하게는, 상기 현재 CTB를 위한 타입 개수 정보 및 타입 정보를 상기 비트스트림으로부터 획득하는 것은 상기 타입 개수 정보가 지시하는 횟수만큼 복수의 타입 정보를 상기 비트스트림으로부터 획득하는 것을 포함하며, 상기 CTB 타입 후보 리스트는 상기 복수의 타입 정보가 상기 비트스트림으로부터 획득되는 순서에 따라 낮은 인덱스부터 할당될 수 있다.

바람직하게는, 상기 타입 정보는 코딩 블록의 최소 크기에 대한 정보와 코딩 블록의 최대 크기에 대한 정보를 포함하며,

상기 현재 CTB 내에서 코딩 블록의 최소 크기는 상기 코딩 블록의 최소 크기에 대한 정보의 값에 특정 오프셋을 더한 값 만큼 1을 좌측 시프트하여 구해지고, 상기 현재 CTB의 크기는 상기 코딩 블록의 최대 크기에 대한 정보의 값에 특정 오프셋을 더한 값 만큼 1을 좌측 시프트하여 구해질 수 있다.

바람직하게는, 상기 타입 정보는 코딩 블록의 최소 크기에 대한 정보와 코딩 블록의 최소 크기와 최대 크기 간의 차이에 대한 정보를 포함하며, 상기 현재 CTB 내에서 코딩 블록의 최소 크기는 상기 코딩 블록의 최소 크기에 대한 정보의 값에 특정 오프셋을 더한 값 만큼 1을 좌측 시프트하여 구해지고, 상기 현재 CTB의 크기는 상기 코딩 블록의 최소 크기에 대한 정보의 값에 특정 오프셋을 더한 값과 상기 코딩 블록의 최소 크기와 최대 크기 간의 차이에 대한 정보의 값을 더하여 구해지는 값만큼 1을 좌측 시프트하여 구해질 수 있다.

바람직하게는, 상기 적어도 하나의 코딩 블록을 결정하는 것은, 상기 현재 CTB에 대한 분할 지시 정보를 상기 비트스트림으로부터 획득하는 것, 상기 분할 지시 정보가 상기 현재 CTB가 분할됨을 지시하는 경우, 상기 현재 CTB를 상기 현재 CTB의 크기의 절반 수평 크기 및 절반 수직 크기를 가지는 4개의 하위 블록으로 분할하는 것, 및 상기 하위 블록의 크기가 상기 코딩 블록의 최소 크기보다 큰 경우, 상기 분할 지시 정보를 획득하는 것과 상기 4개의 하위 블록으로 분할하는 것을 상기 4개의 하위 블록 각각에 대하여 재귀적으로 수행하는 것을 포함할 수 있다.

바람직하게는, 상기 복수의 CTB를 위한 타입 개수 정보 및 타입 정보는 시퀀스 파라미터 세트(SPS), 픽처 파라미터 세트(PPS), 또는 슬라이스 세그먼트 헤더(SSH)를 통해 획득될 수 있다.

바람직하게는, 상기 복수의 CTB는 가변적인 크기를 가지고, 각각의 CTB는 정사각형 블록에 해당할 수 있다.

바람직하게는, 상기 복수의 CTB에 대해 허용되는 CTB 타입은 256×256 블록, 128×128 블록, 64×64 블록, 32×32 블록, 16×16 블록, 또는 8×8 블록 중에서 적어도 하나를 포함할 수 있다.

바람직하게는, 상기 현재 코딩 블록에 대한 예측 모드 정보가 상기 현재 코딩 블록이 인트라 예측을 이용하여 코딩되었음을 지시하는 경우, 상기 현재 코딩 블록을 복원하는 것은, 상기 현재 코딩 블록에 대한 인트라 예측 모드를 유도하는 것, 상기 현재 코딩 블록으로부터 적어도 하나의 변환 블록을 결정하는 것, 상기 변환 블록에 대해 상기 인트라 예측 모드를 적용하여 예측값을 획득하는 것, 상기 예측값에 기초하여 상기 변환 블록을 복원하는 것을 포함할 수 있다.

바람직하게는, 상기 현재 코딩 블록에 대한 예측 모드 정보가 상기 현재 코딩 블록이 인터 예측을 이용하여 코딩되었음을 지시하는 경우, 상기 현재 코딩 블록을 복원하는 것은, 상기 현재 코딩 블록에 대한 파티셔닝 모드 정보를 상기 비트스트림으로부터 획득하는 것, 상기 파티셔닝 모드 정보에 기초하여 상기 현재 코딩 블록으로부터 적어도 하나의 예측 블록을 결정하는 것, 상기 예측 블록에 대한 인터 예측 파라미터 정보를 유도하는 것, 상기 인터 예측 파라미터 정보에 기초하여 상기 예측 블록에 대한 예측값을 획득하는 것, 상기 예측값에 기초하여 상기 예측 블록을 복원하는 것을 포함할 수 있다.

본 발명에 의하면, 비디오 신호를 효율적으로 처리할 수 있다.

또한, 본 발명에 의하면, 가변적/적응적 코딩 트리 블록을 이용함으로써 부가 정보를 전송하는 데 필요한 비트 수를 절감하고 코딩 효율을 향상시킬 수 있다.

또한, 본 발명에 의하면, 가변적/적응적 코딩 트리 블록을 적용하기 위해 효율적으로 부가 정보를 시그널링할 수 있다.

또한, 본 발명에 의하면, 매우 큰 고정된 크기의 코딩 트리 블록을 이용하는 경우 부가 정보를 전송하는 데 필요한 비트 수를 절감하고 코딩 효율을 향상시킬 수 있다.

본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

첨부 도면은 본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되며, 본 발명에 대한 실시예를 제공하고, 상세한 설명과 함께 본 발명의 기술적 사상을 설명한다.

도 1은 인코딩 과정을 예시한다.

도 2는 디코딩 과정을 예시한다.

도 3은 코딩 트리 블록(CTB)을 분할하는 방법의 순서도를 예시한다.

도 4는 CTB를 쿼드 트리 방식으로 분할하는 예를 예시한다.

도 5는 코딩 블록을 위한 신택스 정보 및 동작을 예시한다.

도 6은 변환 트리에 대한 신택스 정보 및 동작을 예시한다.

도 7은 텍스처 특성에 따라 하나의 픽처를 코딩 유닛들로 분할하는 예를 예시한다.

도 8은 기존 방법에 따른 CTB와 본 발명에 따른 CTB를 예시한다.

도 9는 본 발명에 따른 CTB 스캔 순서를 예시한다.

도 10은 본 발명에 따른 방법의 순서도를 예시한다.

도 11은 본 발명에 따른 CTB와 코딩 블록을 예시한다.

도 12는 본 발명이 적용될 수 있는 영상 처리 장치의 블록도를 예시한다.

이하의 기술은 비디오 신호(video signal)를 인코딩(encoding) 및/또는 디코딩하도록 구성된 영상 신호 처리 장치에서 사용될 수 있다. 일반적으로 비디오 신호는 눈으로 인지가능한 영상 신호(image signal) 또는 픽처들의 시퀀스를 지칭하지만, 본 명세서에서 비디오 신호는 코딩된 픽처(picture)를 나타내는 비트들의 시퀀스(sequence) 또는 비트 시퀀스에 해당하는 비트스트림을 지칭하는 데 사용될 수 있다. 픽처(picture)는 샘플들의 배열을 지칭할 수 있으며, 프레임(frame), 영상(image) 등으로 지칭될 수 있다. 보다 구체적으로, 픽처는 샘플들의 이차원 배열 또는 이차원 샘플 배열을 지칭할 수 있다. 샘플은 픽처를 구성하는 최소 단위를 지칭할 수 있고, 픽셀(pixel), 화소(picture element), 펠(pel) 등으로 지칭될 수 있다. 샘플은 휘도(luminance, luma) 성분 및/또는 색차(chrominance, chroma, color difference) 성분을 포함할 수 있다. 본 명세서에서, 코딩은 인코딩을 지칭하는 데 사용될 수도 있고, 혹은 인코딩/디코딩을 통칭할 수 있다.

픽처는 적어도 하나의 슬라이스를 포함할 수 있으며, 슬라이스는 적어도 하나의 블록을 포함할 수 있다. 슬라이스는 병렬 처리 등의 목적, 데이터 손실 등으로 인해 비트스트림이 훼손된 경우 디코딩의 재동기화 등의 목적을 위해 정수 개의 블록을 포함하도록 구성될 수 있으며, 각 슬라이스는 서로 독립적으로 코딩될 수 있다. 블록은 적어도 하나의 샘플을 포함할 수 있으며, 샘플들의 배열을 지칭할 수 있다. 블록은 픽처보다 작거나 같은 크기를 가질 수 있다. 블록은 유닛으로 지칭될 수 있다. 현재 코딩되는 픽처를 현재 픽처라고 지칭하고, 현재 코딩되는 블록을 현재 블록이라고 지칭할 수 있다. 픽처를 구성하는 다양한 블록 단위가 존재할 수 있으며, 예를 들어 ITU-T H.265 표준(또는 HEVC(High Efficiency Video Coding) 표준)의 경우 코딩 트리 블록(CTB)(또는 코딩 트리 유닛(CTU)), 코딩 블록(CB)(또는 코딩 유닛(CU)), 예측 블록(PB)(또는 예측 유닛(PU)), 변환 블록(TB)(또는 변환 유닛(TU)) 등의 블록 단위가 존재할 수 있다.

코딩 트리 블록은 픽처를 구성하는 가장 기본적인 단위를 지칭하며, 픽처의 텍스처(texture)에 따라 코딩 효율을 높이기 위해 쿼드-트리(quad-tree) 형태의 코딩 블록들로 분할될 수 있다. 코딩 블록은 코딩을 수행하는 기본 단위를 지칭할 수 있으며, 코딩 블록 단위로 인트라 코딩 또는 인터 코딩이 수행될 수 있다. 인트라 코딩은 인트라 예측을 이용하여 코딩을 수행하는 것을 지칭할 수 있으며, 인트라 예측은 동일한 픽처 또는 슬라이스 내에 포함된 샘플들을 이용하여 예측을 수행하는 것을 지칭할 수 있다. 인터 코딩은 인터 예측을 이용하여 코딩을 수행하는 것을 지칭할 수 있으며, 인터 예측은 현재 픽처와 서로 다른 픽처에 포함된 샘플들을 이용하여 예측을 수행하는 것을 지칭할 수 있다. 인트라 코딩을 이용하여 코딩되는 블록 또는 인트라 예측 모드로 코딩된 블록을 인트라 블록이라고 지칭할 수 있고, 인터 코딩을 이용하여 코딩되는 블록 또는 인터 예측 모드로 코딩된 블록을 인터 블록이라고 지칭할 수 있다. 또한, 인트라 예측을 이용한 코딩 모드를 인트라 모드라고 지칭할 수 있고, 인터 예측을 이용한 코딩 모드를 인터 모드라고 지칭할 수 있다.

예측 블록은 예측을 수행하기 위한 기본 단위를 지칭할 수 있다. 하나의 예측 블록에 대해서는 동일한 예측이 적용될 수 있다. 예를 들어, 인터 예측의 경우 하나의 예측 블록에 대해서 동일한 움직임 벡터가 적용될 수 있다. 변환 블록은 변환을 수행하기 위한 기본 단위를 지칭할 수 있다. 변환은 픽셀 도메인(또는 공간 도메인 또는 시간 도메인)의 샘플들을 주파수 도메인(또는 변환 계수 도메인)의 변환 계수로 변환하는 동작을 지칭하거나, 그 반대의 동작을 통칭할 수 있다. 특히, 주파수 도메인(또는 변환 계수 도메인)의 변환 계수를 픽셀 도메인(또는 공간 도메인 또는 시간 도메인)의 샘플들로 변환하는 동작을 역변환이라고 지칭할 수 있다. 예를 들어, 변환은 이산 코사인 변환(DCT), 이산 사인 변환(DST), 푸리어 변환 등을 포함할 수 있다.

본 명세서에서, 코딩 트리 블록(CTB)은 코딩 트리 유닛(CTU)과 혼용될 수 있고, 코딩 블록(CB)은 코딩 유닛(CU)과 혼용될 수 있고, 예측 블록(PB)은 예측 유닛(PU)과 혼용될 수 있고, 변환 블록(PB)은 변환 유닛(PU)과 혼용될 수 있다.

도 1은 인코딩 과정을 예시한다.

인코딩 장치(100)는 원영상(original image)(102)을 입력받아 인코딩을 수행한 다음 비트스트림(114)을 출력한다. 원영상(102)은 하나의 픽처에 해당할 수 있지만, 본 예에서 원영상(102)은 픽처를 구성하는 하나의 블록이라고 가정한다. 예를 들어, 원영상(102)은 코딩 블록에 해당할 수 있다. 인코딩 장치(100)는 원영상(102)에 대하여 인트라 모드로 코딩할지 인터 모드로 코딩할지 결정할 수 있다. 원영상(102)이 인트라 픽처 또는 슬라이스에 포함되는 경우, 원영상(102)은 인트라 모드로만 코딩될 수 있다. 하지만, 원영상(102)이 인터 픽처 또는 슬라이스에 포함되는 경우, 예를 들어 원영상(102)에 대하여 인트라 코딩 및 인터 코딩을 수행한 다음 RD(Rate-Distortion) 비용(cost)을 대비하여 효율적인 코딩 방법을 결정할 수 있다.

원영상(102)에 대해 인트라 코딩을 수행하는 경우, 인코딩 장치(100)는 원영상(102)을 포함하는 현재 픽처의 복원 샘플들을 이용하여 RD 최적화를 보여주는 인트라 예측 모드를 결정할 수 있다(104). 예를 들어, 인트라 예측 모드는 DC(Direct Current) 예측 모드, 평면(planar) 예측 모드, 각도(angular) 예측 모드 중에서 하나로 결정될 수 있다. DC 예측 모드는 현재 픽처의 복원 샘플들 중에서 참조 샘플들의 평균값을 이용하여 예측을 수행하는 모드를 지칭하고, 평면 예측 모드는 참조 샘플들의 이중 선형 보간(bilinear interpolation)을 이용하여 예측을 수행하는 모드를 지칭하고, 각도 예측 모드는 원영상(102)에 대해 특정 방향에 위치한 참조 샘플을 이용하여 예측을 수행하는 모드를 지칭한다. 인코딩 장치(100)는 결정된 인트라 예측 모드를 이용하여 예측 샘플(predicted sample) 또는 예측값(prediction value)(또는 predictor)(107)을 출력할 수 있다.

원영상(102)에 대해 인터 코딩을 수행하는 경우, 인코딩 장치(100)는 (디코딩된) 픽처 버퍼(122)에 포함된 복원 픽처(reconstructed picture)를 이용하여 움직임 추정(motion estimation, ME)을 수행하여 움직임 정보를 획득할 수 있다(106). 예를 들어, 움직임 정보는 움직임 벡터, 참조 픽처 인덱스 등을 포함할 수 있다. 움직임 벡터는 현재 픽처 내에서 원영상(102)의 좌표로부터 참조 픽처 내의 좌표까지의 오프셋을 제공하는 이차원 벡터를 지칭할 수 있다. 참조 픽처 인덱스는 (디코딩된) 픽처 버퍼(122)에 저장된 복원 픽처(reconstructed picture) 중에서 인터 예측을 위해 사용되는 참조 픽처들의 리스트(또는 참조 픽처 리스트)에 대한 인덱스를 지칭할 수 있으며, 참조 픽처 리스트에서 해당 참조 픽처를 가리킨다. 인코딩 장치(100)는 획득한 움직임 정보를 이용하여 예측 샘플 또는 예측값(107)을 출력할 수 있다.

그런 다음, 인코딩 장치(100)는 원영상(102)과 예측 샘플(107) 간의 차이로부터 레지듀얼 데이터(108)를 생성할 수 있다. 인코딩 장치(100)는 생성된 레지듀얼 데이터(108)에 대해 변환을 수행할 수 있다(110). 예를 들어, 변환을 위해 이산 코사인 변환 (Discrete Cosine Transform, DCT), 이산 사인 변환 (Discrete Sine Transform, DST) 및/또는 웨이블릿 변환(Wavelet Transform) 등이 적용될 수 있다. 보다 구체적으로, 4×4 내지 32×32 크기의 정수 기반 DCT가 사용될 수 있으며, 4×4, 8×8, 16×16, 32×32 변환이 이용될 수 있다. 인코딩 장치(100)는 변환(110)을 수행하여 변환 계수 정보를 획득할 수 있다.

인코딩 장치(100)는 변환 계수 정보를 양자화하여 양자화된 변환 계수 정보를 생성할 수 있다(112). 양자화는 양자화 파라미터(QP)를 이용하여 변환 계수 정보의 레벨을 스케일링하는 동작을 지칭할 수 있다. 따라서, 양자화된 변환 계수 정보는 스케일링된 변환 계수 정보라고 지칭될 수 있다. 양자화된 변환 계수 정보는 엔트로피 코딩(114)을 통해 비트스트림(116)으로 출력될 수 있다. 예를 들어, 엔트로피 코딩(114)은 고정 길이 코딩(fixed length coding, FLC), 가변 길이 코딩(variable length coding, VLC), 산술 코딩(arithmetic coding)을 기반으로 수행될 수 있다. 보다 구체적으로, 산술 부호화를 기반으로 한 문맥 기반 적응적 이진 산술 코딩(context adaptive binary arithmetic coding, CABAC), 가변 길이 코딩을 기반으로 한 Exp-Golomb 코딩, 및 고정 길이 코딩이 적용될 수 있다.

또한, 인코딩 장치(100)는 양자화된 변환 계수 정보에 대해 역양자화(118) 및 역변환(120)을 수행하여 복원 샘플(121)를 생성할 수 있다. 도 1에 예시되지 않았지만, 하나의 픽처에 대하여 복원 샘플(121)을 획득하여 복원 픽처를 생성한 다음 복원 픽처에 대해 인루프 필터링이 수행될 수 있다. 인루프 필터링을 위해 예를 들어 디블록킹(deblocking) 필터, 샘플 적응적 오프셋(sample adaptive offset, SAO) 필터가 적용될 수 있다. 그런 다음, 복원 픽처(121)는 픽처 버퍼(122)에 저장되어 다음 픽처의 인코딩에 사용될 수 있다.

도 2는 디코딩 과정을 예시한다.

디코딩 장치(200)는 비트스트림(202)을 수신하여 엔트로피 디코딩(204)을 수행할 수 있다. 엔트로피 디코딩(204)은 도 1의 엔트로피 코딩(114)의 역방향 동작을 지칭할 수 있다. 디코딩 장치(200)는 엔트로피 디코딩(204)을 통해 예측 모드 정보, 인트라 예측 모드 정보, 움직임 정보 등을 포함하여 디코딩에 필요한 데이터 및 (양자화된) 변환 계수 정보를 획득할 수 있다. 디코딩 장치(200)는 획득된 변환 계수 정보에 대해 역양자화(206) 및 역변환(208)을 수행하여 레지듀얼 데이터(209)를 생성할 수 있다.

엔트로피 디코딩(204)을 통해 획득되는 예측 모드 정보는 현재 블록이 인트라 모드로 코딩되는지 인터 모드로 코딩되는지 여부를 지시할 수 있다. 예측 모드 정보가 인트라 모드를 지시하는 경우, 디코딩 장치(200)는 엔트로피 디코딩(204)을 통해 획득된 인트라 예측 모드에 기초하여 현재 픽처의 복원 샘플들로부터 예측 샘플(또는 예측값)(213)을 획득할 수 있다(210). 예측 모드 정보가 인터 모드를 지시하는 경우, 디코딩 장치(200)는 엔트로피 디코딩(204)을 통해 획득된 움직임 정보에 기초하여 픽처 버퍼(214)에 저장된 참조 픽처로부터 예측 샘플(또는 예측값)(213)을 획득할 수 있다(212).

디코딩 장치(200)는 레지듀얼 데이터(209)와 예측 샘플(또는 예측값)(213)을 이용하여 현재 블록에 대한 복원 샘플(216)을 획득할 수 있다. 도 2에 예시되지 않았지만, 하나의 픽처에 대하여 복원 샘플(216)을 획득하여 픽처를 복원한 다음 복원 픽처에 대해 인루프 필터링이 수행될 수 있다. 그런 다음, 복원 픽처(216)는 다음 픽처의 디코딩을 위해 픽처 버퍼에 저장되거나 디스플레이를 위해 출력될 수 있다.

비디오 인코딩/디코딩 프로세스는 소프트웨어(SW)/하드웨어(HW) 처리시 매우 높은 복잡도가 요구된다. 따라서, 제한된 자원(resource)을 이용하여 복잡도가 높은 작업을 수행하기 위해 픽처(또는 영상)을 최소의 처리 단위인 기본 처리 단위(processing unit)로 분할하여 처리할 수 있다. 따라서, 하나의 슬라이스는 적어도 하나의 기본 처리 단위를 포함할 수 있다. 이 경우, 하나의 픽처 또는 슬라이스에 포함되는 기본 처리 단위는 동일한 크기를 가질 수 있다.

HEVC(High Efficiency Video Coding) 표준(ISO/IEC 23008-2 또는 ITU-T H.265)의 경우 앞서 설명한 바와 같이 기본 처리 단위는 CTB(Coding Tree Block) 또는 CTU(Coding Tree Unit)로 지칭될 수 있으며, 64×64 픽셀의 크기를 가질 수 있다. 따라서, HEVC 표준의 경우 하나의 픽처는 기본 처리 단위인 CTU로 분할(partitioning)되어 인코딩/디코딩을 수행할 수 있다. 보다 구체적인 예로, 8192×4096 픽처를 인코딩/디코딩하는 경우 픽처는 128×64=8192개의 CTU로 나누어 8192개의 CTU에 대해 도 1에 예시된 인코딩 절차 또는 도 2에 예시된 디코딩 절차를 수행할 수 있다.

비디오 신호 또는 비트스트림은 시퀀스 파라미터 세트(SPS), 픽처 파라미터 세트(PPS), 적어도 하나의 액세스 유닛을 포함할 수 있다. 시퀀스 파라미터 세트는 (픽처들의) 시퀀스 레벨의 파라미터 정보를 포함하며, 시퀀스 파라미터 세트의 파라미터 정보는 픽처들의 시퀀스에 포함된 픽처에 적용될 수 있다. 픽처 파라미터 세트는 픽처 레벨의 파라미터 정보를 포함하며, 픽처 파라미터 세트의 정보는 픽처에 포함되는 각 슬라이스에 적용될 수 있다. 액세스 유닛은 하나의 픽처에 대응되는 유닛을 지칭하며, 적어도 하나의 슬라이스를 포함할 수 있다. 슬라이스는 정수 개의 CTU를 포함할 수 있다. 신택스 정보는 비트스트림에 포함된 데이터를 지칭하고, 신택스 구조는 특정 순서로 비트스트림에 존재하는 신택스 정보의 구조를 지칭한다.

코딩 트리 블록의 크기는 SPS의 파라미터 정보를 이용하여 결정될 수 있다. SPS는 코딩 블록의 최소 크기를 지시하는 제1 정보와 코딩 블록의 최소 크기와 최대 크기 간의 차이를 지시하는 제2 정보를 포함할 수 있다. 본 명세서에서, 상기 제1 정보는 log2_min_luma_coding_block_size_minus3라고 지칭될 수 있고, 상기 제2 정보는 log2_diff_max_min_luma_coding_block_size라고 지칭될 수 있다. 일반적으로 블록의 크기는 2의 거듭제곱으로 표현될 수 있으므로 각 정보는 실제 값의 log2 값으로 표현될 수 있다. 따라서, 코딩 블록의 최소 크기의 log2 값은 제1 정보의 값에 특정 오프셋(예, 3)을 더하여 구할 수 있고, 코딩 트리 블록의 크기의 log2 값은 코딩 블록의 최소 크기의 log2 값에 제2 정보의 값을 더하여 구할 수 있다. 코딩 트리 블록의 크기는 1을 log2 값만큼 좌측 시프트하여 구할 수 있다. 최소 크기와 최대 크기 간의 차이를 지시하는 제2 정보는 코딩 트리 블록 내에서 코딩 블록에 대해 최대 허용되는 분할 횟수를 나타낼 수 있다. 또는, 상기 제2 정보는 코딩 트리 블록 내에서 코딩 트리의 최대 깊이를 나타낼 수 있다.

구체적으로, SPS의 파라미터 정보 중에서 제1 정보(예, log2_min_luma_coding_block_size_minus3)의 값이 n이고, 제2 정보(log2_diff_max_min_luma_coding_block_size)의 값이 m이라고 가정하면, 코딩 블록의 최소 크기 N×N는 N=1<<(n+3)으로 결정되고 코딩 트리 블록의 크기 M×M은 M=1<<(n+m+3) 또는 N<<m으로 결정될 수 있다. 또한, 코딩 트리 블록 내에서 코딩 블록의 최대 허용 분할 횟수 또는 코딩 트리의 최대 깊이는 m으로 결정될 수 있다.

예를 들어, 코딩 트리 블록의 크기가 64×64이고 코딩 트리 블록 내에서 코딩 트리의 최대 깊이가 3인 경우를 가정하면, 코딩 트리 블록이 쿼드 트리 방식으로 최대 3번 분할될 수 있으며 최소 코딩 블록의 크기는 8×8일 수 있다. 따라서, SPS 파라미터 정보 중에서 제1 정보(예, log2_min_luma_coding_block_size_minus3)는 0의 값을 가질 수 있고, 제2 정보(log2_diff_max_min_luma_coding_block_size)는 3의 값을 가질 수 있다.

HEVC 표준에서는 압축효율 제고를 위해 CTB를 쿼드 트리 방식으로 적어도 하나의 코딩 블록(CB)으로 분할한 후 코딩 블록에 대해 인트라 예측 모드 또는 인터 예측 모드를 결정할 수 있다. CTB가 분할되지 않는 경우 CTB는 CB에 해당할 수 있으며, 이 경우 CB는 CTB와 동일한 크기를 가질 수 있으며 해당 CTB에 대해 인트라 예측 모드 또는 인터 예측 모드가 결정될 수 있다.

CTB가 쿼드 트리 방식으로 분할될 때 재귀적으로 분할될 수 있다. CTB는 4개의 블록으로 분할된 다음 각 분할된 블록은 쿼드 트리 방식으로 하위 블록으로 다시 추가적으로 분할될 수 있다. CTB를 쿼드 트리 방식으로 재귀적으로 분할하여 최종적으로 생성되는 각 블록이 코딩 블록이 될 수 있다. 예를 들어, CTB가 제1, 2, 3, 4 블록을 분할된 다음, 제1 블록이 제5, 6, 7, 8 블록으로 분할되고, 제2, 3, 4 블록이 분할되지 않는 경우 제2, 3, 4, 5, 6, 7, 8 블록이 코딩 블록으로 결정될 수 있다. 이 예에서, 제2, 3, 4, 5, 6, 7, 8 블록 각각에 대해 인트라 예측 모드 또는 인터 예측 모드가 결정될 수 있다.

CTB가 코딩 블록으로 분할되는지 여부는 RD(rate distortion) 효율을 고려하여 인코더 측에서 결정될 수 있으며, 분할 여부를 지시하는 정보를 비트스트림에 포함시킬 수 있다. 본 명세서에서, CTB 또는 코딩 블록이 절반의 수평/수직 크기를 가지는 코딩 블록으로 분할되는지 여부를 지시하는 정보는 split_cu_flag라고 지칭될 수 있다. 설명의 편의를 위해, CTB 내에서 블록이 분할되는지 여부를 지시하는 정보는 코딩 블록을 위한 분할 지시 정보라고 지칭될 수 있다. 디코더 측에서는 코딩 쿼드 트리 내에서 각 코딩 블록에 대해서 분할 여부를 지시하는 정보를 비트스트림으로부터 획득하여 코딩 블록의 분할 여부를 결정하고 쿼드 트리 방식으로 코딩 블록을 재귀적으로 분할할 수 있다. CTB가 재귀적으로 분할하여 형성되는 코딩 블록의 트리 구조를 코딩 트리 또는 코딩 쿼드 트리라고 지칭한다. 코딩 트리 내에서 각 코딩 블록이 더 이상 분할되지 않는 경우 해당 블록은 최종적으로 코딩 블록으로 지정될 수 있다.

앞서 설명한 바와 같이, 코딩 블록은 예측을 수행하기 위해 적어도 하나의 예측 블록으로 분할될 수 있다. 또한, 코딩 블록은 변환을 수행하기 위해 적어도 하나의 변환 블록으로 분할될 수 있다. CTB와 유사한 방식으로, 코딩 블록은 쿼드 트리 방식으로 재귀적으로 변환 블록으로 분할될 수 있다. 코딩 블록을 쿼드 트리 방식으로 재귀적으로 분할하여 형성되는 구조를 변환 트리 또는 변환 쿼드 트리라고 지칭할 수 있으며, 분할 지시 정보와 유사하게 변환 트리 내에서 각 블록이 분할되는지 여부를 지시하는 정보가 비트스트림에 포함될 수 있다. 본 명세서에서 변환을 위해 블록이 절반의 수평/수직 크기를 가지는 유닛으로 분할되는지 여부를 지시하는 정보는 split_transform_flag라고 지칭될 수 있다. 설명의 편의를 위해, 변환 트리에서 각 블록이 분할되는지 여부를 지시하는 정보는 변환 블록을 위한 분할 지시 정보라고 지칭될 수 있다.

도 4는 CTB를 쿼드 트리 방식으로 분할하는 예를 예시한다.

도 4를 참조하면, CTB는 블록 1-7을 포함하는 제1 코딩 블록, 블록 8-17을 포함하는 제2 코딩 블록, 블록 18에 해당하는 제3 코딩 블록, 블록 19-28을 포함하는 제4 코딩 블록으로 분할될 수 있다. 제1 코딩 블록은 블록 1에 해당하는 코딩 블록, 블록 2에 해당하는 코딩 블록, 블록 3-6을 포함하는 제5 코딩 블록, 블록 7에 해당하는 코딩 블록으로 분할될 수 있다. 제2 코딩 블록은 코딩 쿼드 트리 내에서는 더 이상 분할되지 않지만, 변환을 위해서는 추가적인 변환 블록으로 분할될 수 있다. 제4 코딩 블록은 블록 19-22를 포함하는 제6 코딩 블록, 블록 23에 해당하는 코딩 블록, 블록 24에 해당하는 코딩 블록, 블록 25-28을 포함하는 제7 코딩 블록으로 분할될 수 있다. 제6 코딩 블록은 블록 19에 해당하는 코딩 블록, 블록 20에 해당하는 코딩 블록, 블록 21에 해당하는 코딩 블록, 블록 22에 해당하는 코딩 블록으로 분할될 수 있다. 제7 코딩 블록은 코딩 쿼드 트리 내에서는 더 이상 분할되지 않지만, 변환을 위해서는 추가적인 변환 블록으로 분할될 수 있다.

앞서 설명된 바와 같이, CTB 또는 코딩 블록 각각에 대해 분할 여부를 지시하는 정보(예, split_cu_flag)가 비트스트림에 포함될 수 있다. 분할 여부를 지시하는 정보가 제1 값(예, 1)을 가지는 경우 CTB 또는 각 코딩 블록이 분할될 수 있고, 분할 여부를 지시하는 정보가 제2 값(예, 0)을 가지는 경우 CTB 또는 각 코딩 블록은 분할되지 않는다. 분할 여부를 지시하는 정보의 값은 달라질 수 있다.

도 4의 예에서, CTB, 제1 코딩 블록, 제4 코딩 블록, 제6 코딩 블록에 대한 분할 지시 정보(예, split_cu_flag)는 제1 값(예, 1)을 가질 수 있으며, 디코더는 비트스트림으로부터 해당 유닛에 대한 분할 지시 정보를 획득하고 이 값에 따라 해당 유닛을 4개의 하위 유닛으로 분할할 수 있다. 반면, 다른 코딩 블록들(블록 1, 2, 7, 18, 19, 20, 21, 22, 23, 24, 및 블록 3-6에 해당하는 코딩 블록, 블록 8-17에 해당하는 코딩 블록, 블록 25-28에 해당하는 코딩 블록)에 대한 분할 지시 정보(예, split_cu_flag)는 제2 값(예, 0)을 가질 수 있으며, 디코더는 비트스트림으로부터 해당 유닛에 대한 분할 지시 정보를 획득하고 이 값에 따라 해당 유닛을 더 이상 분할하지 않는다.

앞서 설명된 바와 같이, 각 코딩 블록은 변환을 위해 변환 블록을 위한 분할 지시 정보에 따라 쿼드 트리 방식으로 적어도 하나의 변환 블록으로 분할될 수 있다. 도 4를 다시 참조하면, 블록 1, 2, 7, 18, 19, 20, 21, 22, 23, 24에 해당하는 코딩 블록은 변환을 위해 분할되지 않으므로 변환 블록은 코딩 블록에 해당할 수 있지만, 다른 코딩 블록(블록 3-4, 8-17, 25-28에 대응되는 코딩 블록)은 변환을 위해 추가적으로 분할될 수 있다. 각 코딩 블록(예, 블록 3-4, 8-17, 25-28에 대응되는 코딩 블록)으로부터 형성되는 변환 트리 내에서 각 유닛에 대한 분할 지시 정보(예, split_transform_flag)를 획득하고 분할 지시 정보의 값에 따라 변환 블록으로 분할할 수 있다. 도 4에 예시된 바와 같이, 블록 3-6에 대응되는 코딩 블록은 깊이(depth) 1의 변환 트리를 형성하도록 변환 블록들로 분할될 수 있고, 블록 8-17에 대응되는 코딩 블록은 깊이 3을 가지는 변환 트리를 형성하도록 변환 블록들로 분할될 수 있으며, 블록 25-28에 대응되는 코딩 블록은 깊이 1을 가지는 변환 트리를 형성하도록 변환 블록들로 분할될 수 있다.

도 5는 코딩 블록을 위한 신택스 정보 및 동작을 예시하고, 도 6은 변환 트리에 대한 신택스 정보 및 동작을 예시한다. 도 5에 예시된 바와 같이, 현재 코딩 블록에 대해 변환 트리 구조가 존재하는지 여부를 지시하는 정보가 비트스트림을 통해 시그널링될 수 있으며, 본 명세서에서 이 정보는 변환 트리 코딩 지시 정보 또는 rqt_root_cbf라고 지칭될 수 있다. 디코더는 변환 트리 코딩 지시 정보를 비트스트림으로부터 획득하고 변환 트리 코딩 지시 정보가 해당 코딩 블록에 대해 변환 트리가 존재함을 지시하는 경우 도 6에 예시된 동작을 수행할 수 있다. 만일 변환 트리 코딩 지시 정보가 해당 코딩 블록에 대해 변환 트리가 존재하지 않음을 지시하는 경우 해당 코딩 블록에 대한 변환 계수 정보는 존재하지 않으며 해당 코딩 블록에 대한 (인트라 또는 인터) 예측값을 이용하여 코딩 블록을 복원할 수 있다.

코딩 블록은 인트라 예측 모드 또는 인터 예측 모드로 코딩되는지 여부를 결정하는 기본 단위이다. 따라서, 각 코딩 블록에 대해 예측 모드 정보가 비트스트림을 통해 시그널링될 수 있다. 예측 모드 정보는 해당 코딩 블록이 인트라 예측 모드를 이용하여 코딩되는지 아니면 인터 예측 모드를 이용하여 코딩되는지를 지시할 수 있다.

예측 모드 정보가 해당 코딩 블록이 인트라 예측 모드로 코딩됨을 지시하는 경우, 인트라 예측 모드를 결정하는 데 사용되는 정보들이 비트스트림을 통해 시그널링될 수 있다. 예를 들어, 인트라 예측 모드를 결정하는 데 사용되는 정보는 인트라 예측 모드 참조 정보를 포함할 수 있다. 인트라 예측 모드 참조 정보는 현재 코딩 블록의 인트라 예측 모드가 이웃 (예측) 유닛으로부터 유도되는지 여부를 지시하며, 예를 들어 prev_intra_luma_pred_flag라고 지칭될 수 있다.

인트라 예측 모드 참조 정보가 현재 코딩 블록의 인트라 예측 모드가 이웃 유닛으로부터 유도됨을 지시하는 경우, 이웃 유닛의 인트라 예측 모드를 이용하여 인트라 예측 모드 후보 리스트를 구성하고 구성된 후보 리스트 중에서 현재 유닛의 인트라 예측 모드를 지시하는 인덱스 정보가 비트스트림을 통해 시그널링될 수 있다. 예를 들어, 인트라 예측 모드 후보 리스트 중에서 현재 유닛의 인트라 예측 모드로 사용되는 후보 인트라 예측 모드를 지시하는 인덱스 정보는 mpm_idx라고 지칭될 수 있다. 디코더는 인트라 예측 모드 참조 정보를 비트스트림으로부터 획득하고 획득된 인트라 예측 모드 참조 정보에 기초하여 인덱스 정보를 비트스트림으로부터 획득할 수 있다. 또한, 디코더는 획득된 인덱스 정보가 지시하는 인트라 예측 모드 후보를 현재 유닛의 인트라 예측 모드로 설정할 수 있다.

인트라 예측 모드 참조 정보가 현재 코딩 블록의 인트라 예측 모드가 이웃 유닛으로 유도됨을 지시하지 않는 경우, 현재 유닛의 인트라 예측 모드를 가리키는 정보가 비트스트림을 통해 시그널링될 수 있다. 비트스트림을 통해 시그널링되는 정보는 예를 들어 rem_intra_luma_pred_mode라고 지칭될 수 있다. 비트스트림으로부터 획득된 정보는 인트라 예측 모드 후보 리스트의 후보들의 값들과 비교하여 크거나 같은 경우 특정값(예, 1) 만큼 증가시키는 과정을 통해 현재 유닛의 인트라 예측 모드를 획득할 수 있다.

픽처가 크로마 성분(또는 색차 성분)을 포함하는 경우 크로마 코딩 블록에 대한 인트라 예측 모드를 지시하는 정보가 비트스트림을 통해 시그널링될 수 있다. 예를 들어, 크로마 인트라 예측 모드를 지시하는 정보는 intra_chroma_pred_mode라고 지칭될 수 있다. 크로마 인트라 예측 모드는 크로마 인트라 예측 모드를 지시하는 정보 및 앞서 설명된 바와 같이 획득된 인트라 예측 모드(또는 루마 인트라 예측 모드)를 이용하여 표 1을 기반으로 획득할 수 있다. 표 1에서 IntraPredModeY는 루마 인트라 예측 모드를 가리킨다.

인트라 예측 모드는 값에 따라 다양한 예측 모드를 나타낸다. 앞에서 설명한 과정을 통해 인트라 예측 모드의 값은 표 2에 예시된 바와 같이 인트라 예측 모드와 대응될 수 있다.

표 2에서 INTRA_PLANAR는 평면 예측 모드(planar prediction mode)를 나타내며, 현재 블록에 인접한 상측(upper) 이웃 블록의 복원 샘플(reconstructed sample), 좌측(left) 이웃 블록의 복원 샘플, 좌하측(lower-left) 이웃 블록의 복원 샘플, 우상측(right-upper) 이웃 블록의 복원 샘플에 대해 보간을 수행하여 현재 블록의 예측값을 획득하는 모드를 나타낸다. INTRA_DC는 DC(Direct Current) 예측 모드를 나타내며, 좌측 이웃 블록의 복원 샘플들과 상측 이웃 블록의 복원 샘플들의 평균을 이용하여 현재 블록의 예측값을 획득하는 모드를 나타낸다. INTRA_ANGULAR2 내지 INTRA_ANGULAR34는 각도 예측 모드(angular prediction mode)를 나타내며, 현재 블록 내의 현재 샘플에 대해 특정 각도의 방향에 위치한 이웃 블록의 복원 샘플을 이용하여 현재 샘플의 예측값을 구하는 모드를 나타낸다. 특정 각도의 방향에 실제 샘플이 존재하지 않는 경우 이웃 복원 샘플들에 대해 보간을 수행하여 해당 방향에 대한 가상 샘플을 생성하여 예측값을 구할 수 있다.

인트라 예측 모드는 코딩 블록 별로 구할 수 있지만, 인트라 예측은 변환 블록 단위로 수행될 수 있다. 따라서, 앞서 설명한 이웃 블록의 복원 샘플은 현재 변환 블록의 이웃 블록 내에 존재하는 복원 샘플을 지칭할 수 있다. 인트라 예측 모드를 이용하여 현재 블록에 대한 예측값을 구한 다음 현재 블록의 샘플값과 예측값 간의 차이를 구할 수 있다. 현재 블록의 샘플값과 예측값 간의 차이를 레지듀얼(또는 레지듀얼 정보 또는 레지듀얼 데이터)이라고 지칭할 수 있다. 디코더 측에서는 현재 블록에 대한 변환 계수 정보를 비트스트림으로부터 획득한 다음, 획득한 변환 계수 정보에 대해 역양자화 및 역변환을 수행하여 레지듀얼을 구할 수 있다. 역양자화는 양자화 파라미터(QP) 정보를 이용하여 변환 계수 정보의 값을 스케일링하는 것을 지칭할 수 있다. 변환 블록은 변환을 수행하는 기본 단위이므로, 변환 블록 단위로 변환 계수 정보가 비트스트림을 통해 시그널링될 수 있다.

인트라 예측을 수행하는 경우 레지듀얼이 0일 수 있다. 예를 들어, 현재 블록의 샘플과 인트라 예측을 위한 참조 샘플이 동일한 경우 레지듀얼의 값이 0일 수 있다. 현재 블록에 대한 레지듀얼 값이 모두 0일 경우 변환 계수 정보의 값도 모두 0이므로 변환 계수 정보를 비트스트림을 통해 시그널링할 필요가 없다. 따라서, 비트스트림을 통해 해당 블록에 대한 변환 계수 정보가 시그널링되는지 여부를 지시하는 정보를 비트스트림을 통해 시그널링할 수 있다. 해당 변환 블록이 0이 아닌 변환 계수 정보를 가지는지 여부를 지시하는 정보는 코딩 블록 지시 정보(coded block indication information) 또는 코딩 블록 플래그 정보(coded block flag information)라고 지칭하며, 본 명세서에서 cbf로 지칭될 수 있다. 루마 성분에 대한 코딩 블록 지시 정보는 cbf_luma로 지칭될 수 있고, 크로마 성분에 대한 코딩 블록 지시 정보는 cbf_cr 또는 cbf_cb로 지칭될 수 있다. 디코더는 해당 변환 블록에 대한 코딩 블록 지시 정보를 비트스트림으로부터 획득하고, 코딩 블록 지시 정보가 해당 블록이 0이 아닌 변환 계수 정보를 포함함을 지시하는 경우 해당 변환 블록에 대한 변환 계수 정보를 비트스트림으로부터 획득하고 역양자화 및 역변환을 거쳐 레지듀얼을 획득할 수 있다.

현재 코딩 블록이 인트라 예측 모드로 코딩되는 경우, 디코더는 변환 블록 단위로 예측값을 구하여 현재 코딩 블록에 대한 예측값을 구하고 및/또는 변환 블록 단위로 레지듀얼을 구하여 현재 코딩 블록에 대한 레지듀얼을 구할 수 있다. 디코더는 현재 코딩 블록에 대한 예측값 및/또는 레지듀얼을 이용하여 현재 코딩 블록을 복원할 수 있다.

변환/역변환 기법으로서 이산 코사인 변환(discrete cosine transform, DCT)이 널리 이용되고 있다. DCT를 위한 변환 기저들은 적은 메모리와 빠른 연산을 위해 정수 형태로 근사화될 수 있다. 정수로 근사화된 변환 기저들은 행렬 형태로 표현될 수 있는데 행렬 형태로 표현된 변환 기저들을 변환 행렬이라고 지칭할 수 있다. H.265/HEVC 표준에서는 4×4 내지 32×32 크기의 정수 변환이 사용되며 4×4 또는 32×32 변환 행렬이 제공된다. 4×4 변환 행렬은 4×4 변환/역변환에 이용되고, 32×32 변환 행렬은 8×8, 16×16, 32×32 변환/역변환에 이용될 수 있다.

한편, 현재 코딩 블록에 대한 예측 모드 정보가 현재 코딩 블록이 인터 예측을 이용하여 코딩됨을 지시하는 경우, 현재 코딩 블록의 파티셔닝 모드(partitioning mode)를 지시하는 정보가 비트스트림을 통해 시그널링될 수 있다. 현재 코딩 블록의 파티셔닝 모드를 지시하는 정보는 예를 들어 part_mode로 나타낼 수 있다. 현재 코딩 블록이 인터 예측을 이용하여 코딩되는 경우, 현재 코딩 블록의 파티셔닝 모드에 따라 현재 코딩 블록을 적어도 하나의 예측 블록을 분할할 수 있다.

예를 들어, 현재 코딩 블록이 2N×2N 블록이라고 가정하면, 파티셔닝 모드는 PART_2Nx2N, PART_2NxN, PART_Nx2N, PART_2NxnU, PART_2NxnD, PART_nLx2N, PART_nRx2N, PART_NxN을 포함할 수 있다. PART_2Nx2N는 현재 코딩 블록과 예측 블록이 동일한 모드를 나타낸다. PART_2NxN는 현재 코딩 블록이 2개의 2N×N 예측 블록으로 분할되는 모드를 나타낸다. PART_Nx2N는 현재 코딩 블록이 2개의 N×2N 예측 블록으로 분할되는 모드를 나타낸다. PART_2NxnU는 현재 코딩 블록이 상측의 2N×n 예측 블록과 하측의 2N×(N-n) 예측 블록으로 분할되는 모드를 나타낸다. PART_2NxnD는 현재 코딩 블록이 상측의 2N×(N-n) 예측 블록과 하측의 2N×n 예측 블록으로 분할되는 모드를 나타낸다. PART_nLx2N는 현재 코딩 블록이 좌측의 n×2N 예측 블록과 우측의 (N-n)×2N 예측 블록으로 분할되는 모드를 나타낸다. PART_nRx2N는 현재 코딩 블록이 좌측의 (N-n)×2N 예측 블록과 우측의 n×2N 예측 블록으로 분할되는 모드를 나타낸다. PART_NxN은 현재 코딩 블록이 4개의 N×N 예측 블록으로 분할되는 모드를 나타낸다. 예를 들어, n은 N/2이다.

현재 코딩 블록이 인트라 코딩 모드인 경우에도 part_mode가 비트스트림을 통해 시그널링될 수 있다. 다만, 현재 코딩 블록이 인트라 코딩 모드이면, 현재 코딩 블록의 크기가 코딩 블록의 최소 크기인 경우에만 part_mode가 시그널링되며 part_mode의 값에 따라 현재 코딩 블록이 4개의 블록으로 추가 분할되는지 여부를 지시할 수 있다.

예측 유닛은 움직임 추정 및 움직임 보상을 수행하는 단위이다. 따라서, 예측 유닛 단위로 인터 예측 파라미터 정보가 비트스트림을 통해 시그널링될 수 있다. 인터 예측 파라미터 정보는 예를 들어 참조 픽처 정보, 움직임 벡터 정보를 포함할 수 있다. 인터 예측 파라미터 정보는 이웃 유닛으로부터 유도되거나 비트스트림을 통해 시그널링될 수 있다. 인터 예측 파라미터 정보를 이웃 유닛으로부터 유도하는 경우를 병합 모드(merge mode)라고 지칭한다. 따라서, 현재 예측 유닛에 대한 인터 예측 파라미터 정보가 이웃 유닛으로부터 유도되는지 여부를 지시하는 정보가 비트스트림을 통해 시그널링될 수 있으며, 해당 정보는 병합 지시(merge indication) 정보 또는 병합 플래그 정보라고 지칭될 수 있다. 병합 지시 정보는 예를 들어 merge_flag로 나타낼 수 있다.

병합 지시 모드가 현재 예측 유닛의 인터 예측 파라미터 정보가 이웃 유닛으로부터 유도됨을 지시하는 경우, 이웃 유닛을 이용하여 병합 후보 리스트를 구성하고 병합 후보 리스트 중에서 현재 유닛의 인터 예측 파라미터 정보를 유도할 병합 후보를 지시하는 정보가 비트스트림을 통해 시그널링될 수 있으며, 해당 정보는 병합 인덱스 정보라고 지칭될 수 있다. 예를 들어, 병합 인덱스 정보는 merge_idx로 나타낼 수 있다. 이웃 블록은 현재 블록을 포함하는 픽처 내에서 현재 블록과 인접한 좌측 이웃 블록, 상측 이웃 블록, 좌상측 이웃 블록, 좌하측 이웃 블록, 우상측 이웃 블록을 포함하는 공간적 이웃 블록과 현재 블록을 포함하는 픽처와 상이한 픽처 내에서 현재 블록에 대응하는 위치에 위치한(또는 co-located) 시간적 이웃 블록을 포함할 수 있다. 디코더는 상기 이웃 블록들을 이용하여 병합 후보 리스트를 구성하고 병합 인덱스 정보를 비트스트림으로부터 획득하고 병합 후보 리스트 중에서 병합 인덱스 정보가 지시하는 이웃 블록의 인터 예측 파라미터 정보를 현재 블록의 인터 예측 파라미터 정보로 설정할 수 있다.

한편, 예측 블록이 코딩 블록에 대응되고 예측 블록에 대해 인터 예측을 수행한 결과 인터 예측 파라미터 정보가 특정 이웃 블록과 동일하고 레지듀얼도 모두 0인 경우, 인터 예측 파라미터 정보 및 변환 계수 정보 등이 비트스트림을 통해 시그널링될 필요가 없다. 이 경우, 코딩 블록에 대한 인터 예측 파라미터 정보는 이웃 블록으로부터 유도하면 되므로 병합 모드가 적용될 수 있다. 따라서, 해당 코딩 블록이 인터 예측을 이용하여 코딩되는 경우 해당 코딩 블록에 대해서는 병합 인덱스 정보만을 비트스트림을 통해 시그널링할 수 있는데, 이러한 모드를 병합 스킵 모드(merge skip mode)라고 지칭한다. 즉, 병합 스킵 모드에서는 병합 인덱스 정보(예, merge_idx)를 제외하고 코딩 블록에 대한 신택스 정보는 시그널링되지 않는다. 다만, 해당 코딩 블록에 대하여 병합 인덱스 정보(예, merge_idx)를 제외하고 더 이상 신택스 정보를 획득할 필요가 없다는 것을 지시하기 위해 스킵 플래그 정보가 비트스트림을 통해 시그널링될 수 있으며, 본 명세서에서 스킵 플래그 정보는 cu_skip_flag라고 지칭될 수 있다. 디코더는 인트라 코딩 모드가 아닌 슬라이스에서는 코딩 블록에 대해 스킵 플래그 정보를 획득하고 스킵 플래그 정보에 따라 병합 스킵 모드에서 코딩 블록을 복원할 수 있다.

병합 지시 모드가 현재 예측 블록의 인터 예측 파라미터 정보가 이웃 블록으로부터 유도됨을 지시하지 않는 경우, 현재 예측 블록의 인터 예측 파라미터는 비트스트림을 통해 시그널링될 수 있다. 현재 예측 블록의 L0 예측인지 및/또는 L1 예측인지에 따라 참조 픽처 리스트 0에 대한 참조 픽처 인덱스 정보 및/또는 참조 픽처 리스트 1에 대한 참조 픽처 인덱스 정보가 비트스트림을 통해 시그널링될 수 있다. 움직임 벡터 정보는 움직임 벡터 차이(motion vector difference)를 나타내는 정보와 움직임 벡터 예측값(motion vector predictor)을 나타내는 정보가 비트스트림을 통해 시그널링될 수 있다. 움직임 벡터 예측값을 나타내는 정보는 이웃 블록들의 움직임 벡터들로 구성되는 움직임 벡터 예측값 후보 리스트 중에서 현재 블록의 움직임 벡터 예측값으로 사용되는 후보를 지시하는 인덱스 정보이며, 움직임 벡터 예측값 지시 정보라고 지칭될 수 있다. 움직임 벡터 예측값 지시 정보는 예를 들어 mvp_l0_flag 또는 mvp_l1_flag으로 나타낼 수 있다. 디코더는 움직임 벡터 예측값 지시 정보에 기초하여 움직임 벡터 예측값을 획득하고 비트스트림으로부터 움직임 벡터 차이에 관련된 정보를 획득하여 움직임 벡터 차이를 구한 다음 움직임 벡터 예측값과 움직임 벡터 차이를 이용하여 현재 블록에 대한 움직임 벡터 정보를 구할 수 있다.

현재 코딩 블록이 인터 예측을 이용하여 코딩되는 경우, 인터 예측이 예측 블록 단위로 수행되는 것을 제외하고 변환 블록에 대해서는 동일/유사한 원리가 적용될 수 있다. 따라서, 현재 코딩 블록이 인터 예측을 이용하여 코딩되는 경우, 현재 코딩 블록을 쿼드 트리 방식으로 적어도 하나의 변환 블록으로 분할하고, 분할된 변환 블록 각각에 대하여 코딩 블록 지시 정보(예, cbf_luma, cbf_cb, cbf_cr)에 기초하여 변환 계수 정보를 획득하고 획득된 변환 계수 정보에 대해 역양자화 및 역변환을 수행하여 레지듀얼을 획득할 수 있다.

현재 코딩 블록이 인트라 예측 모드로 코딩되는 경우, 디코더는 예측 블록 단위로 예측값을 구하여 현재 코딩 블록에 대한 예측값을 구하고 및/또는 변환 블록 단위로 레지듀얼을 구하여 현재 코딩 블록에 대한 레지듀얼을 구할 수 있다. 디코더는 현재 코딩 블록에 대한 예측값 및/또는 레지듀얼을 이용하여 현재 코딩 블록을 복원할 수 있다.

HEVC 표준은 4K 이상의 초고해상도(예, 4096×2160) 영상을 지원한다. 4K 이상의 초고해상도 영상에서는 균일(homogeneous)한 영역이 많아질 수 있다. 특히, 8K(예, 8192×4320) 이상의 해상도를 가지는 영상의 경우 4K 영상에 비해 균일한 영역의 크기는 더욱 커질 수 있다. 또한, 카메라에 입력되는 장면은 그대로인데 해상도를 증가시킬 경우 기존 해상도에서 CTB가 커버하는 영역의 블록 크기는 증가하는 반면 CTB 크기는 그대로이므로 기존 CTB의 크기(예, 64×64)가 상대적으로 작아지는 효과를 가질 수 있다. 따라서, 기존 HEVC 표준에서 지원하는 CTB 크기(예, 64×64)보다 더 큰 CTB 사이즈(예, 128×128 또는 256×256)를 사용하는 것이 코딩 효율을 더욱 높일 수 있다.

도 7은 텍스처 특성에 따라 하나의 픽처를 코딩 블록들로 분할하는 예를 예시한다.

도 7을 참조하면, 하나의 픽처는 고정된 크기(예, 64×64)의 코딩 트리 블록으로 분할될 수 있고, 각 코딩 트리 블록은 적어도 하나의 코딩 블록으로 분할되어 코딩 트리를 형성할 수 있다. 도 7의 예에서, CTB 크기는 동일하지만 CTB 내에서 코딩 블록은 트리 깊이 또는 분할 횟수에 따라 다양한 크기를 가질 수 있다.

도 7에 예시된 바와 같이, 하나의 픽처에 다양한 특성을 가지는 텍스처가 존재할 수 있다. 예를 들어, CTB(710)와 같이 텍스처가 복잡한 부분의 경우, 작은 코딩 블록으로 분할하여 인코딩/디코딩을 수행하는 것이 효율적일 수 있다. 반면, 예를 들어 CTB(720)와 같이 텍스처가 단순하여 비슷한 특성을 가지는 영역에 대해서는 CTB를 복수의 코딩 블록으로 분할하지 않고 인코딩/디코딩을 수행하는 것이 효율적일 수 있다.

특히, 영역(730)과 같이 4개의 CTB에 대응되는 영역이 유사한 특성을 가지는 경우 해당 영역 전체를 4개의 CTB로 분할하지 않고 인코딩/디코딩을 수행하는 것이 더욱 효율적일 수 있다. 만일 기존 방법에 따라 하나의 픽처를 고정된 크기의 CTB로 분할하는 경우 4개의 CTB들 각각에 대한 신택스 정보가 비트스트림을 통해 시그널링될 필요가 있다. 예를 들어, 4개의 CTB 각각에 대해 CTB가 쿼드 트리 방식으로 분할되는지 여부를 지시하는 분할 지시 정보(예, split_cu_flag)가 비트스트림을 통해 시그널링될 수 있다(예, 도 3 참조). 따라서, 해당 영역(730) 내에서 각 CTB가 복수의 코딩 블록로 분할되지 않고(예, 각 CTB에 대한 split_cu_flag의 값이 0인 경우) CTB 단위로 인코딩/디코딩이 수행되더라도 각 CTB에 대한 분할 지시 정보가 시그널링되어야 한다. 예를 들어, 영역(730)은 4개의 CTB에 대응되고 각 CTB는 분할되지 않고 코딩 블록에 대응되므로, 각 CTB에 대해 split_cu_flag가 시그널링되며 영역(730)에 대해 4비트의 분할 지시 정보가 시그널링될 수 있다.

반면, 영역(730)을 하나의 CTB에 할당하고 해당 CTB가 복수의 코딩 블록으로 분할되지 않는 경우 해당 영역(730) 전체에 대해 분할 지시 정보가 한 번만 시그널링될 수 있다. 따라서, 기존 방법에 비해 적어도 3비트를 절감할 수 있다. 만일 더 큰 사이즈의 영역이 유사한 특성을 가져서 하나의 CTB로 처리될 경우 더 많은 개수의 비트를 절감할 수 있다. 예를 들어, 영역(740)은 16개의 CTB에 대응되며 영역(740)이 하나의 CTB로 처리될 경우 기존 방법에 비해 적어도 15개의 비트를 절감할 수 있다.

영상 해상도가 높아지면 텍스처 특성이 유사한 영역이 증가할 수 있기 때문에 하나의 큰 블록으로 묶어서 코딩하는 것이 코딩 효율을 향상시킬 수 있다. 기존 방법에 따라 고정된 크기의 CTB를 사용할 경우에는 텍스처 특성이 유사한 영역(예, smooth한 영역)에서도 여러 개의 CTB로 나누어 코딩을 해야 하기 때문에 불필요한 부가 정보(side information)(예, split_cu_flag)를 보내야 하는 상황이 발생한다.

이러한 문제를 해결하기 위해 CTB의 크기를 키우는 것을 고려할 수 있다(예, 128×128 또는 256×256). 즉, 하나의 픽처를 더 큰 고정 크기(예, 128×128 또는 256×256)의 CTB로 분할하고 더 큰 고정 크기의 CTB 단위로 처리하는 것을 고려할 수 있다. 하지만, 이 경우에도 텍스처 특성이 유사한 단순한 영역에서는 코딩 효율을 높일 수 있지만, 텍스처가 세밀한 영역의 경우 쿼드 트리 방식으로 분할되는 횟수(또는 쿼드 트리 깊이)가 기존 방법에 비해 더욱 증가할 수 있다. 예를 들어, 픽처를 256×256 크기의 CTB 단위로 나누어 처리하는 상황에서, 특정 영역의 텍스처가 복잡하여 8×8 코딩 블록으로 분할될 필요가 있다고 가정하자. 이 경우, 기존 방법에 따르면 64×64 CTB에서 쿼드 트리 방식으로 3번 분할하면 되지만, 256×256 CTB에 대해서는 쿼드 트리 방식으로 5번 분할할 필요가 있다. 따라서, CTB의 크기를 단순히 증가시키는 경우, 부가 정보(예, split_cu_flag) 전송량이 오히려 증가될 수 있고 코딩 효율이 감소될 수 있다.

본 발명에 따른 방법 1

상기 설명한 기술적 문제를 해결하기 위해, 본 발명에서는 텍스처 특성에 따라 적응적으로 CTB 크기를 결정할 것을 제안한다. 구체적으로, 본 발명에서는 하나의 슬라이스 또는 픽처 내에서 CTB 크기를 가변적으로 변경할 수 있는 방법을 제안한다. 본 발명에 따른 CTB는 하나의 픽처 또는 슬라이스 내에서 가변적인 크기를 가지며, 예를 들어 가변적인 크기를 가지는 정사각형 블록에 해당할 수 있다.

하나의 슬라이스 또는 픽처 내에서 CTB 크기를 가변적으로 변경할 경우, 유사한 텍스처 특성을 가지는 영역(예, smooth한 영역)에서는 큰 크기의 CTB를 사용할 수 있고, 복잡한 텍스처 특성을 가지는 영역에서는 작은 크기의 CTB를 사용할 수 있다. 따라서, 본 발명에 따르면 CTB를 위해 시그널링되는 신택스 정보 또는 부가 정보(side information)의 양을 줄일 수 있으므로 코딩 효율을 향상시킬 수 있다.

도 8은 기존 방법에 따른 CTB와 본 발명에 따른 CTB를 예시한다. 도 8(a)는 기존 방법에 따라 하나의 픽처를 고정된 크기의 CTB로 분할하여 처리하는 예를 예시하고, 도 8(b)는 본 발명에 따라 하나의 픽처 또는 슬라이스 내에서 CTB의 크기를 적응적으로 결정하고 하나의 픽처 또는 슬라이스를 적응적 크기의 CTB로 분할하여 처리하는 예를 예시한다.

도 8에서 알 수 있듯이, 텍스처 특성에 따라 CTB의 크기를 가변적/적응적으로 결정할 경우 더 큰 영역을 하나의 CTB로서 처리할 수 있다. 예를 들어, CTB(810)의 경우 기존 방법에 따르면 4개의 CTB로 처리될 수 있지만 본 발명에 따르면 하나의 CTB로 처리될 수 있다. 따라서, CTB(810)의 경우 적어도 3비트의 부가 정보 또는 신택스 정보를 절감할 수 있으며, 코딩 효율을 향상시킬 수 있다. 다른 예로, CTB(820)의 경우 기존 방법에 따르면 16개의 CTB로 처리될 수 있지만 본 발명에 따르면 하나의 CTB로 처리될 수 있다. 따라서, CTB(820)의 경우 적어도 16비트의 부가 정보 또는 신택스 정보를 절감할 수 있으며, 코딩 효율을 향상시킬 수 있다.

본 발명에 따른 CTB 타입 시그널링

본 발명에 따라 가변적/적응적 CTB를 적용하기 위해서 현재 픽처 또는 슬라이스에 대해 적용가능한 CTB 타입에 관한 정보 및/또는 CTB 타입의 개수에 관한 정보를 비트스트림을 통해 시그널링할 수 있다. 본 명세서에서, CTB 타입은 CTB의 크기 및/또는 CTB 내에서 코딩 트리의 최대 깊이를 지칭할 수 있다. 혹은, CTB 타입은 CTB 크기 및/또는 CTB 내에서 코딩 블록의 최소 크기를 지칭할 수 있다. 혹은, CTB 타입은 CTB 크기 및/또는 CTB의 최대 분할 횟수를 지칭할 수 있다. 예를 들어, 본 발명에서 적용가능한 CTB 크기는 256×256 블록, 128×128 블록, 64×64 블록, 32×32 블록, 16×16 블록, 또는 8×8 블록 중에서 적어도 하나를 포함할 수 있다.

본 명세서에서, CTB 타입에 관한 정보는 CTB 타입 정보, 타입 정보, 또는 ctb_type_n(n=0, 1, ...)으로 지칭할 수 있다. 예를 들어, CTB 타입 정보는 코딩 블록의 최소 크기를 지시하는 정보 및/또는 코딩 블록의 최대 크기를 지시하는 정보를 포함할 수 있다. 이 경우, 코딩 블록의 최대 크기는 CTB와 동일하므로 CTB의 크기는 코딩 블록의 최대 크기를 이용하여 결정될 수 있고, CTB 내에서 코딩 트리의 최대 깊이는 코딩 블록의 최대 크기와 코딩 블록의 최소 크기 간의 차이에 해당할 수 있다.

다른 예로, CTB 타입 정보는 코딩 블록의 최소 크기를 지시하는 정보 및/또는 코딩 블록의 최소 크기와 최대 크기 간의 차이를 지시하는 정보를 포함할 수 있다. 이 경우, CTB의 크기는 코딩 블록의 최소 크기와 상기 차이를 더하여 결정될 수 있고, CTB 내에서 코딩 트리의 최대 깊이는 상기 차이에 해당할 수 있다.

코딩 블록의 최소 크기를 지시하는 정보의 값과 코딩 블록의 최대 크기를 지시하는 정보의 값은 log2 값으로 표현될 수 있다. 예를 들어, 코딩 블록의 최소 크기가 N×N인 경우 코딩 블록의 최소 크기를 지시하는 정보는 log2(N)의 값을 가질 수 있고, 코딩 블록의 최대 크기가 M×M인 경우 코딩 블록의 최대 크기를 지시하는 정보는 log2(M)의 값을 가질 수 있다. 혹은, 코딩 블록의 최소 크기를 지시하는 정보의 값과 코딩 블록의 최대 크기를 지시하는 정보의 값은 log2 값에서 특정 오프셋을 뺀 값으로 표현될 수 있다. 예를 들어, 특정 오프셋이 P이고 코딩 블록의 최소 크기가 N×N인 경우 코딩 블록의 최소 크기를 지시하는 정보는 log2(N)-P의 값을 가질 수 있고, 코딩 블록의 최대 크기가 M×M인 경우 코딩 블록의 최대 크기를 지시하는 정보는 log2(M)-P의 값을 가질 수 있다.

본 명세서에서, CTB 타입 개수에 관한 정보는 타입 개수 정보, CTB 타입 개수 정보, 또는 ctb_type_num으로 지칭될 수 있다. CTB 타입 정보는 CTB 타입 개수 정보가 지시하는 횟수만큼 비트스트림을 통해 시그널링될 수 있다. 본 발명에 따른 비트스트림은 CTB 타입 개수 정보가 지시하는 횟수만큼의 CTB 타입 정보를 포함할 수 있다. 예를 들어, CTB 타입 개수 정보가 CTB 타입 개수가 n임을 지시하는 경우, n개의 CTB 타입 정보가 비트스트림을 통해 시그널링될 수 있다.

혹은, 코딩 블록의 최소 크기를 지시하는 정보는 하나만 시그널링되고, 코딩 블록의 최대 크기를 지시하는 정보 또는 코딩 블록의 최소 크기와 최대 크기 간의 차이를 지시하는 정보가 CTB 타입 개수 정보가 지시하는 횟수만큼 시그널링될 수 있다.

혹은, CTB 타입을 미리 정의해 놓고 CTB 타입 정보는 미리 정의된 CTB 타입 중에서 하나를 지시할 수 있다. 이 경우, CTB 타입 정보는 미리 정의된 CTB 타입 중에서 하나를 지시하는 인덱스를 나타낼 수 있다. 예를 들어, 하나의 픽처 내에서 적용가능한 CTB 타입으로서 n1×n1, n2×n2, ... nm×nm CTB 타입이 미리 정의되는 경우, 해당 타입을 지시하는 인덱스를 비트스트림을 통해 시그널링할 수 있다. 이 경우, 제한적이지 않은 예로서, n1×n1은 인덱스 0에 대응될 수 있고, n2×n2는 인덱스 1에 대응될 수 있고, nm×nm은 인덱스 m-1에 대응될 수 있다.

본 발명에 따른 CTB 타입 정보와 CTB 타입 개수 정보는 시퀀스 파라미터 세트(SPS), 픽처 파라미터 세트(PPS), 또는 슬라이스 (세그먼트) 헤더(SSH)를 통해 시그널링될 수 있다. SPS를 통해 시그널링되는 경우 해당 CTB 타입 정보와 CTB 타입 개수 정보는 해당 시퀀스에 포함된 모든 픽처에 적용될 수 있으며, 해당 시퀀스에 포함된 각 픽처 내에서 CTB가 가질 수 있는 CTB 타입과 타입의 개수를 나타낼 수 있다.

PPS를 통해 시그널링되는 경우 해당 픽처에만 적용될 수 있고, 다른 픽처에 대해서는 디폴트 값이 적용될 수 있다. CTB 타입 정보와 CTB 타입 개수 정보에 대한 디폴트 값은 미리 정의될 수 있다. 따라서, PPS를 통해 시그널링된 CTB 타입 정보와 CTB 타입 개수 정보는 해당 픽처 내에서 CTB가 가질 수 있는 CTB 타입과 타입의 개수를 나타낼 수 있다.

CTB 타입 정보와 CTB 타입 개수 정보가 SSH를 통해 시그널링되는 경우 해당 슬라이스에 포함된 CTB에 대해서만 적용될 수 있고, 다른 슬라이스에 대해서는 디폴트 값이 적용될 수 있다. SSH를 통해 시그널링된 CTB 타입 정보와 CTB 타입 개수 정보는 해당 슬라이스 내에서 CTB가 가질 수 있는 CTB 타입과 타입의 개수를 나타낼 수 있다.

CTB 타입 정보 및/또는 CTB 타입 개수 정보는 SPS, PPS, SSH 중에서 적어도 둘이상을 통해 시그널링될 수도 있다. 이 경우, SSH를 통해 시그널링되는 경우 해당 슬라이스 내에서만 적용될 수 있고, 다른 슬라이스에 대해서는 상위 레벨(SPS 또는 PPS)에서 시그널링되는 정보가 적용될 수 있다. 유사하게, PPS를 통해 시그널링되는 경우 해당 픽처 내에서만 적용될 수 있고, 다른 픽처에 대해서는 상위 레벨(SPS)에서 시그널링되는 정보가 적용될 수 있다.

한편, 각 CTB에 대해서도 CTB 타입을 지시하는 정보가 비트스트림을 통해 시그널링될 수 있다. CTB에 대한 정보는 SPS, PPS, SSH를 통해 시그널링되는 지원가능한 CTB 타입 중에서 하나의 CTB 타입을 지시하는 정보를 포함할 수 있다. 본 명세서에서, CTB에 대해 시그널링되는 CTB 타입 정보는 타입 지시 정보, CTB 타입 지시 정보, 또는 ctb_type_idx라고 지칭될 수 있다. 이 경우, SPS, PPS, SSH를 통해 시그널링되는 CTB 타입 정보와 CTB 타입 개수 정보를 이용하여 지원가능한 CTB 타입 후보 리스트를 구성하고, 구성된 리스트 중에서 CTB 타입 지시 정보가 가리키는 CTB 타입을 해당 CTB에 적용할 수 있다.

예를 들어, SPS, PPS, 슬라이스 (세그먼트) 헤더를 통해 n1×n1, n2×n2, ... nm×nm의 CTB 타입이 시그널링되는 경우, n1×n1은 인덱스 0, n2×n2는 인덱스 1, nm×nm은 인덱스 m-1에 대응되도록 리스트를 구성하고, 리스트 중에서 CTB 타입 지시 정보에 대응되는 인덱스의 CTB 타입을 해당 CTB에 적용할 수 있다. 구체적인 예로, 256×256, 128×128, 64×64, 32×32의 CTB 타입이 시그널링되는 경우, {256×256, 128×128, 64×64, 32×32}의 리스트를 구성하고, CTB 타입 지시 정보가 인덱스 0을 나타내는 경우 해당 CTB 타입은 256×256으로 결정되고, CTB 타입 지시 정보가 인덱스 1을 나타내는 경우 해당 CTB 타입은 128×128로 결정되고, CTB 타입 지시 정보가 인덱스 2를 나타내는 경우 해당 CTB 타입은 64×64로 결정되고, CTB 타입 지시 정보가 인덱스 3을 나타내는 경우 해당 CTB 타입은 32×32로 결정될 수 있다.

CTB 타입 후보 리스트 내에서 인덱스는 임의로 지정될 수 있다. 혹은 인덱스는 SPS, PPS, SSH 내에서 각 CTB 타입 정보의 순서에 따라 지정될 수 있다. 이 경우, 인코더는 사용 빈도가 많은 CTB 타입이 낮은 인덱스 값에 대응되도록 비트스트림을 구성할 수 있다. 낮은 인덱스 값의 경우 적은 비트로서 표현될 수 있으므로 비트 개수를 절감할 수 있는 효과가 있다. 디코더의 경우, SPS, PPS, SSH에 대해 비트스트림으로부터 CTB 타입 개수 정보를 획득하고, CTB 타입 개수 정보가 지시하는 횟수만큼 CTB 타입 정보를 비트스트림으로부터 획득한 다음, CTB 타입 정보가 획득되는 순서에 따라 낮은 인덱스 값이 할당되도록 CTB 타입 후보 리스트를 구성할 수 있다. 예를 들어, 디코더가 64×64, 32×32, 128×128, 256×256의 순서로 CTB 타입 정보를 획득하는 경우, CTB 타입 후보 리스트는 {64×64, 32×32, 128×128, 256×256}로 구성하고, 각 CTB에 대한 CTB 타입 지시 정보가 지시하는 (또는 나타내는 인덱스에 대응되는) 타입을 해당 CTB에 적용할 수 있다.

혹은, 각 CTB에 대해 다른 인덱스를 가지도록 CTB 타입 후보 리스트를 구성할 수 있다. 현재 CTB는 인접한 이웃 CTB와 유사한 타입을 가질 가능성이 높기 때문에 후보 CTB 타입 중에서 현재 CTB에 인접한 이웃 CTB를 낮은 인덱스에 할당되도록 CTB 타입 후보 리스트를 구성할 수 있다. 현재 CTB에 인접한 이웃 CTB는 현재 CTB에 인접한 좌측 이웃 CTB 및 상측 이웃 CTB를 포함할 수 있다. 이 경우, 예를 들어, 좌측 이웃 CTB의 CTB 타입을 인덱스 0에 할당하고, 상측 이웃 CTB의 CTB 타입을 인덱스 1에 할당할 수 있다. 현재 슬라이스에 대해 지원가능한 CTB 타입이 둘 이상인 경우 인덱스 2부터 할당할 수 있다. 인덱스 2부터 할당되는 CTB 타입은 크기가 작을수록 낮은 인덱스 값을 가지도록 할당할 수 있다. 혹은, 인덱스 2부터 할당되는 CTB 타입은 크기가 클수록 낮은 인덱스 값을 가지도록 할당할 수 있다. 혹은, 인덱스 2부터 할당되는 CTB 타입은 SPS, PPS, SSH를 통해 시그널링되는 순서에 따라 낮은 인덱스 값을 가지도록 할당할 수 있다. 따라서, CTB 타입 후보 리스트는 CTB 별로 달라질 수 있으며 CTB 타입 지시 정보도 이를 고려하여 결정될 수 있다.

본 발명에 따른 CTB 처리 순서

본 발명에 따라 CTB의 크기 또는 타입이 적응적/가변적으로 결정되는 경우 CTB의 처리 순서 또는 스캔 방식은 래스터 스캔(raster-scan) 순서를 따를 수 있다. 보다 구체적으로, 적응적/가변적 CTB가 적용되는 경우 CTB의 좌상단 모서리(upper-left corner) 샘플의 위치를 기준으로 래스트 스캔 순서를 적용할 수 있다.

도 9는 본 발명에 따른 CTB 스캔 순서를 예시한다. 도 9의 예에서, 각각의 사각형은 CTB를 나타내며, 숫자는 스캔 순서를 나타낸다. 또한, 도 9의 예에서, 하나의 픽처가 가변적인 크기를 가지는 65개의 CTB를 가진다고 가정하지만, 본 발명은 이에 제한되지 않는다.

도 9를 참조하면, CTB의 좌상단 모서리 샘플의 위치를 기준으로 래스트 스캔 순서를 적용하면, CTB 1 다음 CTB 2가 처리될 수 있다. 마찬가지로, CTB 2 다음에는 CTB 3이 처리될 수 있다. CTB 8이 처리된 다음에는 좌상단 모서리 기준으로 CTB 9가 다음 래스터 스캔 순서에 해당하므로 CTB 9이 처리된다. 이와 같이, 65개의 CTB가 순차적으로 처리될 수 있다.

한편, 도 9의 예에서 CTB 3이 64×64 타입에 해당하고, CTB 1이 128×128 타입에 해당하고, CTB 2가 256×256 타입에 해당한다고 가정하고, 도 9를 참조하여 CTB 타입 후보 리스트를 구성하는 방법의 예를 설명한다.

도 9의 예에서 하나의 픽처 내에서 지원가능한 타입은 3개이므로 SPS, PPS, 또는 SSH를 통해 시그널링되는 CTB 타입 개수 정보는 3을 지시할 수 있다. 따라서, SPS, PPS, 또는 SSH를 통해 CTB 타입 정보가 3개만큼 순차적으로 시그널링될 수 있다. 코딩 블록의 최소 크기가 CTB 마다 독립적으로 결정되는 경우, CTB 타입 정보는 코딩 블록의 최소 크기를 지시하는 정보 및 코딩 블록의 최대 크기를 지시하는 정보(또는 코딩 블록의 최소 크기와 최대 크기 간의 차이를 지시하는 정보)를 각각 3개 포함할 수 있다. 코딩 블록의 최소 크기가 고정되는 경우, CTB 타입 정보는 코딩 블록의 최소 크기를 지시하는 정보를 1개 포함하고, 코딩 블록의 최소 크기와 최대 크기 간의 차이를 지시하는 정보(또는 코딩 블록의 최대 크기를 지시하는 정보)를 각각 3개 포함할 수 있다.

이에 기초하여, 지원가능한 CTB의 크기에 따라 CTB 타입 후보 리스트를 구성하는 경우, CTB 타입 후보 리스트는 {256×256, 128×128, 64×64}으로 구성되거나, {64×64, 128×128, 256×256}으로 구성될 수 있다. 혹은, SPS, PPS, 또는 SSH를 통해 시그널링되는 순서에 따라 CTB 타입 후보 리스트를 구성하는 경우, CTB 타입 정보의 획득 순서에 대응되도록 CTB 타입 후보 리스트를 구성할 수 있다.

혹은, CTB 별로 독립적으로 CTB 타입 후보 리스트를 구성하는 경우, 현재 CTB에 인접한 좌측 이웃 CTB와 상측 이웃 CTB를 낮은 인덱스에 대응되도록 구성하고 나머지 CTB 타입을 뒤에 추가하여 CTB 타입 후보 리스트를 구성할 수 있다. 도 9의 예에서, CTB 14의 경우 CTB 타입 후보 리스트는 {64×64, 128×128, 256×256}으로 구성될 수 있고, CTB 31의 경우 CTB 타입 후보 리스트는 {64×64, 256×256, 128×128}으로 구성될 수 있다. 좌측 이웃 CTB와 상측 이웃 CTB가 동일한 CTB 타입을 가지는 경우 인덱스 0에는 동일한 CTB 타입을 할당하고 나머지 인덱스에 대해서는 CTB 크기에 따라 인덱스를 지정하거나 CTB 타입 정보의 획득 순서에 따라 인덱스를 지정할 수 있다.

도 10은 본 발명에 따른 방법의 순서도를 예시한다. 도 10에 예시된 방법은 적어도 하나의 픽처(또는 코딩된 픽처)를 포함하는 비트스트림에 대해 수행될 수 있다. 하나의 픽처는 적어도 하나의 슬라이스를 포함할 수 있고, 각각의 슬라이스는 일련의 CTB들을 포함할 수 있다. 하나의 픽처 또는 슬라이스 내에서 CTB들은 가변적인 크기를 가질 수 있다. 하나의 픽처 또는 슬라이스 내에서 CTB는 정사각형 블록 형태를 가질 수 있다. 따라서, 하나의 픽처는 가변적인 크기의 CTB들로 분할되어 인코딩/디코딩이 수행될 수 있다.

도 10을 참조하면, S1002 단계에서, 디코더는 비트스트림으로부터 CTB 타입 개수 정보 및 CTB 타입 정보를 획득할 수 있다. CTB 개수 정보 및 CTB 타입 정보에 대해서는 본 발명에 따른 CTB 타입 시그널링과 관련된 설명이 적용될 수 있다.

앞서 설명된 바와 같이, CTB 개수 정보 및 CTB 타입 정보는 SPS, PPS, SSH를 통해 시그널링될 수 있다. 따라서, 디코더는 SPS를 비트스트림으로부터 획득하고, 획득된 SPS는 CTB 개수 정보 및 CTB 타입 정보를 포함할 수 있다. 혹은, 디코더는 PPS를 비트스트림으로부터 획득하고, 획득된 PPS는 CTB 개수 정보 및 CTB 타입 정보를 포함할 수 있다. 혹은, 디코더는 SSH를 비트스트림으로부터 획득하고, 획득된 SSH는 CTB 개수 정보 및 CTB 타입 정보를 포함할 수 있다.

S1004 단계에서, 디코더는 비트스트림으로부터 CTB 타입 지시 정보를 획득할 수 있다. CTB 타입 지시 정보에 대해서는 본 발명에 따른 CTB 타입 시그널링과 관련된 설명이 적용될 수 있다.

S1006 단계에서, 디코더는 CTB 개수 정보 및 CTB 타입 정보에 기초하여 CTB 타입 후보 리스트를 구성할 수 있다. CTB 타입 후보 리스트는 앞서 설명된 여러 다양한 방식으로 구성될 수 있다. 디코더는 CTB 타입 후보 리스트 중에서 CTB 타입 지시 정보가 지시하는 CTB 타입을 현재 CTB에 적용할 수 있다. 예를 들어, 디코더는 CTB 타입 후보 리스트 중에서 CTB 타입 지시 정보가 지시하는 CTB 타입의 크기를 현재 CTB의 크기로 결정할 수 있다. 또한, CTB 타입 지시 정보가 지시하는 CTB 타입의 코딩 블록 최소 크기(또는 코딩 트리 최대 깊이 또는 CTB 최대 분할 횟수)를 현재 CTB의 코딩 블록 최소 크기(또는 코딩 트리 최대 깊이 또는 CTB 최대 분할 횟수)로 결정할 수 있다.

S1008 단계에서, 디코더는 결정된 CTB 타입에 기초하여 CTB로부터 적어도 하나의 코딩 블록을 결정할 수 있다. 예를 들어, CTB에 대해서는 도 3 및 도 4를 참조하여 설명된 쿼드 트리 방식이 적용될 수 있다. CTB에 대한 분할 지시 정보(예, split_cu_flag)에 기초하여 CTB는 하나의 코딩 블록에 대응될 수도 있고, 혹은 복수의 코딩 블록으로 쿼드 트리 방식으로 재귀적으로 분할될 수도 있다. CTB가 재귀적으로 분할되는 경우 분할된 블록이 CTB 내에서 최소 코딩 블록 크기에 해당될 때까지 쿼드 트리 방식으로 분할될 수 있다.

S1010 단계에서, 디코더는 CTB로부터 형성된 각 코딩 블록에 대해 예측 모드 정보를 비트스트림으로부터 획득할 수 있다. 예를 들어, 예측 모드 정보는 도 3의 pred_mode_flag에 해당할 수 있다.

S1012 단계에서, 디코더는 획득된 예측 모드 정보에 기초하여 각 코딩 블록을 복원할 수 있다. 예를 들어, 디코더는 도 5 및 도 6을 참조하여 설명된 절차를 수행하여 각 코딩 블록을 복원하여, CTB를 복원할 수 있다.

적어도 하나의 픽처에 대한 모든 CTB를 복원한 경우, 해당 픽처에 대한 디코딩이 완료될 수 있다.

본 발명에 따른 방법 2

본 발명에 따른 방법 1을 적용하여 CTB 타입을 가변적/적응적으로 결정할 경우 CTB 마다 처리 크기 및/또는 코딩 트리 구조가 달라질 수 있으며, 이로 인해 하드웨어 구조(예, 파이프라인 구조)의 비효율성이 발생할 수 있다. 예를 들어, 일부 CTB가 256×256 크기를 가질 경우 256×256 크기를 처리하기 위한 하드웨어 구조가 필요한지만, 다른 CTB의 경우 그보다 훨씬 작은 크기를 가질 수 있으므로 작은 크기의 CTB를 처리할 때에는 해당 하드웨어 구조의 대부분이 사용되지 않을 수 있다.

이러한 비효율성을 보완하기 위해, 본 발명에 따른 방법 2에서는 CTB의 크기를 기존 방법에 따른 크기보다 더 큰 사이즈(예, 128×128, 256×256)로 고정할 것을 제안한다. 구체적으로, 본 발명에 따른 방법 2에서는 CTB마다 코딩 블록의 최소 크기 및 최대 크기를 결정하고 CTB를 코딩 블록의 최대 크기로 일률적으로 분할할 수 있다. 이 경우, 코딩 트리는 코딩 블록의 최대 크기에 대응되는 블록마다 형성될 수 있고, CTB에서 분할된 코딩 블록의 최대 크기에 대응되는 블록마다 도 3, 5, 6에 예시된 절차를 수행될 수 있다.

이를 위해, CTB의 고정 크기는 미리 정의되거나, PPS, SPS, SSH를 통해 시그널링될 수 있다. 예를 들어, CTB의 고정 크기가 PPS, SPS, SSH를 통해 시그널링되는 경우 CTB의 고정 크기는 앞서 설명된 바와 같이 log2_min_luma_coding_block_size_minus3와 log2_diff_max_min_luma_coding_block_size를 이용하여 결정될 수 있다. 또한, CTB 마다 코딩 블록의 최소 크기를 지시하는 정보와 코딩 블록의 최대 크기를 지시한 정보가 비트스트림을 통해 시그널링될 수 있다. 혹은 CTB 마다 코딩 블록의 최소 크기를 지시하는 정보와 코딩 블록의 최소 크기와 최대 크기 간의 차이를 지시하는 정보를 비트스트림을 통해 시그널링할 수 있다.

디코더는 각 CTB 마다 코딩 블록의 최소 크기를 지시하는 정보와 코딩 블록의 최대 크기를 지시하는 정보(또는 코딩 블록의 최소 크기와 최대 크기 간의 차이를 지시하는 정보)를 비트스트림으로부터 획득하고, 코딩 블록의 최소 크기와 최대 크기를 결정할 수 있다. 그런 다음, 고정 크기의 CTB를 코딩 블록의 최대 크기를 갖는 블록들로 동일하게 분할한다. 디코더는 분할된 각 블록에 대해 코딩 트리를 형성할 수 있다. 예를 들어, 디코더는 분할된 각 블록에 대해 도 3 내지 도 6을 참조하여 설명된 절차를 수행할 수 있다.

본 발명에 따른 방법 2의 경우 고정 크기의 CTB를 코딩 블록의 최대 크기에 대응되는 블록으로 일괄적으로 분할하게 되므로 CTB의 일괄적 분할을 위해 부가 정보(예, split_cu_flag)가 사용되지 않는다. 또한, CTB 내에서 코딩 블록이 최소 크기까지 분할되는 경우 최소 크기의 코딩 블록에 대해서는 분할 여부를 지시하는 부가 정보(예, split_cu_flag)가 사용되지 않는다. 따라서, 부가 정보에 해당하는 비트 수를 절감할 수 있으며, 코딩 효율을 향상시킬 수 있다.

본 발명에 따른 방법 2의 변형으로서, 코딩 블록의 최소 크기는 SPS, PPS, SSH를 통해 시그널링하고 코딩 블록의 최소 크기와 최대 크기 간의 차이만을 CTB 마다 시그널링할 수 있다. 이 경우 코딩 블록의 최소 크기는 해당 시퀀스, 픽처, 슬라이스 내의 CTB들에 대해 공통적으로 적용될 수 있다.

도 11은 본 발명에 따른 CTB와 코딩 블록을 예시한다. 도 11의 예에서는 본 발명에 따른 방법 2가 적용될 수 있으며, CTB는 256×256의 크기로 고정된 크기를 가진다고 가정한다. 하지만, 앞서 설명된 바와 같이 CTB의 고정 크기는 SPS, PPS, SSH를 통해 시그널링될 수 있다.

도 11을 참조하면, 예를 들어, CTB 1110에 대한 코딩 블록의 최대 크기는 32×32로 설정되고 코딩 블록의 최소 크기는 8×8로 설정될 수 있다. 이 경우, CTB 1110은 부가 정보(예, split_cu_flag) 없이 코딩 블록의 최대 크기에 대응하는 32×32 블록들로 동일하게 분할되어 인코딩/디코딩(예, 도 3 내지 도 6에 따른 절차)을 수행할 수 있다. 다만, 코딩 블록의 최소 크기가 8×8로 설정되므로 8×8 코딩 블록까지만 분할이 가능하며, 각 32×32 블록에 대한 쿼드 트리는 깊이 2까지만 가질 수 있고 쿼드 트리 방식의 분할은 2번까지만 적용될 수 있다. 256×256 크기의 CTB로부터 32×32 블록으로 분할될 때까지 별도의 부가 정보(예, split_cu_flag)가 시그널링될 필요가 없으므로 적어도 85 비트의 부가 정보를 절감할 수 있다. 또한, 8×8 코딩 블록에 대해서도 별도의 부가 정보(예, split_cu_flag)가 시그널링될 필요가 없다.

다른 예로, CTB 1120에 대한 코딩 블록의 최대 크기는 128×128로 설정되고 코딩 블록의 최소 크기는 16×16으로 설정될 수 있다. 이 경우, CTB 1120은 부가 정보(예, split_cu_flag) 없이 코딩 블록의 최대 크기에 대응하는 128×128 블록들로 동일하게 분할되어 인코딩/디코딩(예, 도 3 내지 도 6에 따른 절차)을 수행할 수 있다. 코딩 블록의 최소 크기가 16×16으로 설정되므로 16×16 코딩 블록까지만 분할이 가능하며, 각 128×128 블록에 대한 쿼드 트리는 깊이 3까지만 가질 수 있고 쿼드 트리 방식의 분할은 3번까지만 적용될 수 있다. 256×256 크기의 CTB로부터 128×128 블록으로 분할될 때까지 별도의 부가 정보(예, split_cu_flag)가 시그널링될 필요가 없으므로 적어도 1 비트의 부가 정보를 절감할 수 있다.

도 12는 본 발명이 적용될 수 있는 영상 처리 장치의 블록도를 예시한다. 영상 처리 장치는 영상 신호의 인코딩 장치 및/또는 디코딩 장치를 포함할 수 있다. 예를 들어, 본 발명이 적용될 수 있는 영상 처리 장치는 스마트폰 등과 같은 이동 단말, 랩톱 컴퓨터 등과 같은 휴대용 기기, 디지털 TV, 디지털 비디오 플레이어 등과 같은 가전 제품 등을 포함할 수 있다.

메모리(12)는 프로세서(11)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 부호화된 비트스트림, 복호화된 영상, 제어 정보 등을 저장할 수 있다. 또한, 메모리(12)는 각종 영상 신호를 위한 버퍼로서 활용될 수 있다. 메모리(12)는 ROM(Read Only Memory), RAM(Random Access Memory), EPROM(Erasable Programmable Read Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), 플래쉬(flash) 메모리, SRAM(Static RAM), HDD(Hard Disk Drive), SSD(Solid State Drive) 등과 같은 저장 장치로서 구현될 수 있다.

프로세서(11)는 영상 처리 장치 내 각 모듈의 동작을 제어한다. 특히, 프로세서(11)는 본 발명에 따른 인코딩/디코딩을 수행하기 위한 각종 제어 기능을 수행할 수 있다. 프로세서(11)는 컨트롤러(controller), 마이크로 컨트롤러(microcontroller), 마이크로 프로세서(microprocessor), 마이크로 컴퓨터(microcomputer) 등으로도 불릴 수 있다. 프로세서(11)는 하드웨어(hardware) 또는 펌웨어(firmware), 소프트웨어, 또는 이들의 결합에 의해 구현될 수 있다. 하드웨어를 이용하여 본 발명을 구현하는 경우에는, 본 발명을 수행하도록 구성된 ASIC(application specific integrated circuit) 또는 DSP(digital signal processor), DSPD(digital signal processing device), PLD(programmable logic device), FPGA(field programmable gate array) 등이 프로세서(11)에 구비될 수 있다. 한편, 펌웨어나 소프트웨어를 이용하여 본 발명을 구현하는 경우에는 본 발명의 기능 또는 동작들을 수행하는 모듈, 절차 또는 함수 등을 포함하도록 펌웨어나 소프트웨어가 구성될 수 있으며, 본 발명을 수행할 수 있도록 구성된 펌웨어 또는 소프트웨어는 프로세서(11) 내에 구비되거나 메모리(12)에 저장되어 프로세서(11)에 의해 구동될 수 있다.

또한, 장치(10)는 네트워크 인터페이스 모듈(network interface module, NIM)(13)을 선택적으로(optionally) 포함할 수 있다. 네트워크 인터페이스 모듈(13)은 프로세서(11)와 동작시 연결(operatively connected)되며, 프로세서(11)는 네트워크 인터페이스 모듈(13)을 제어하여 무선/유선 네트워크를 통해 정보 및/또는 데이터, 신호, 메시지 등을 나르는 무선/유선 신호를 전송 또는 수신할 수 있다. 네트워크 인터페이스 모듈(13)은 예를 들어 IEEE 802 계열, 3GPP LTE(-A), Wi-Fi, ATSC(Advanced Television System Committee), DVB(Digital Video Broadcasting) 등과 같은 다양한 통신 규격을 지원하며, 해당 통신 규격에 따라 제어 정보 및/또는 부호화된 비트스트림과 같은 영상 신호를 송수신할 수 있다. 네트워크 인터페이스 모듈(13)은 필요에 따라 장치에 포함되지 않을 수 있다.

또한, 장치(10)는 입출력 인터페이스(14)를 선택적으로(optionally) 포함할 수 있다. 입출력 인터페이스(14)는 프로세서(11)와 동작시 연결(operatively connected)되며, 프로세서(11)는 입출력 인터페이스(14)를 제어하여 제어 신호 및/또는 데이터 신호를 입력받거나 출력할 수 있다. 입출력 모듈(14)은 예를 들어 키보드, 마우스, 터치패드, 카메라 등과 같은 입력 장치와 디스플레이 등과 같은 출력 장치와 연결될 수 있도록 USB(Universal Serial Bus), Bluetooth, NFC(Near Field Communication), 직렬/병렬 인터페이스, DVI(Digital Visual Interface), HDMI(High Definition Multimedia Interface) 등과 같은 규격을 지원할 수 있다.

이상에서 설명된 방법들 및 실시예들은 본 발명의 구성요소들과 특징들이 소정 형태로 결합된 것들이다. 각 구성요소 또는 특징은 별도의 명시적 언급이 없는 한 선택적인 것으로 고려되어야 한다. 각 구성요소 또는 특징은 다른 구성요소나 특징과 결합되지 않은 형태로 실시될 수 있다. 또한, 일부 구성요소들 및/또는 특징들을 결합하여 본 발명의 실시예를 구성하는 것도 가능하다. 본 발명의 실시예들에서 설명되는 동작들의 순서는 변경될 수 있다. 어느 실시예의 일부 구성이나 특징은 다른 실시예에 포함될 수 있고, 또는 다른 실시예의 대응하는 구성 또는 특징과 교체될 수 있다. 특허청구범위에서 명시적인 인용 관계가 있지 않은 청구항들을 결합하여 실시예를 구성하거나 출원 후의 보정에 의해 새로운 청구항으로 포함시킬 수 있음은 자명하다.

본 발명에 따른 방법 및 실시예는 다양한 수단, 예를 들어, 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 본 발명의 일 실시예는 하나 또는 그 이상의 ASIC(application specific integrated circuit), DSP(digital signal processor), DSPD(digital signal processing device), PLD(programmable logic device), FPGA(field programmable gate array), 프로세서, 콘트롤러, 마이크로 콘트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.

펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명은 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차, 함수 등의 형태를 포함하는 소프트웨어 코드 또는 명령어(instruction)로 구현될 수 있다. 소프트웨어 코드 또는 명령어는 컴퓨터 판독가능한 매체에 저장되어 프로세서에 의해 구동될 수 있으며 프로세서에 의해 구동될 때 본 발명에 따른 동작들을 수행할 수 있다. 상기 컴퓨터 판독가능한 매체는 상기 프로세서 내부 또는 외부에 위치하거나 원격으로 네트워크를 통해 상기 프로세서와 연결될 수 있으며, 상기 프로세서와 데이터를 주고 받을 수 있다.

본 발명은 본 발명의 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있음은 당업자에게 자명하다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

본 발명은 디코딩 장치, 인코딩 장치와 같은 영상 처리 장치에 이용될 수 있다.

Claims

디코딩 장치에서 적어도 하나의 픽처를 위한 비트스트림을 디코딩하는 방법으로서, 상기 픽처는 적어도 하나의 슬라이스를 포함하고, 상기 슬라이스는 복수의 코딩 트리 블록(CTB)을 포함하며,

상기 복수의 CTB를 위한 타입 개수 정보 및 타입 정보를 상기 비트스트림으로부터 획득하는 단계, 상기 타입 개수 정보는 상기 복수의 CTB에 대해 허용되는 CTB 타입의 개수를 지시하고, 상기 타입 정보는 상기 복수의 CTB에 대해 허용되는 CTB 타입을 지시하며;

상기 복수의 CTB 중에서 현재 CTB를 위한 타입 지시 정보를 상기 비트스트림으로부터 획득하는 단계, 상기 타입 지시 정보는 상기 허용되는 CTB 타입 중에서 하나의 CTB 타입을 지시하며;

상기 타입 지시 정보가 지시하는 CTB 타입에 기초하여 상기 현재 CTB의 크기 및 상기 현재 CTB 내에서 코딩 블록의 최소 크기를 결정하는 단계;

상기 결정된 현재 CTB의 크기 및 코딩 블록의 최소 크기에 기초하여 상기 현재 CTB 내에서 적어도 하나의 코딩 블록을 결정하는 단계;

상기 적어도 하나의 코딩 블록 각각에 대하여 예측 모드 정보를 비트스트림으로부터 획득하는 단계, 상기 예측 모드 정보는 해당 코딩 블록이 인트라 예측을 이용하여 코딩되었는지 아니면 인터 예측을 이용하여 코딩되었는지 여부를 지시하며;

상기 적어도 하나의 코딩 블록 중에서 현재 코딩 블록에 대한 예측 모드 정보에 기초하여 상기 현재 코딩 블록을 복원하는 단계를 포함하는, 방법.
제1항에 있어서,

상기 현재 CTB의 크기를 결정하는 단계는,

상기 타입 개수 정보 및 상기 타입 정보에 기초하여 상기 현재 CTB를 위한 CTB 타입 후보 리스트를 구성하는 것과,

상기 CTB 타입 후보 리스트 중에서 상기 타입 지시 정보가 지시하는 CTB 타입을 상기 현재 CTB에 적용하는 것을 포함하는, 방법.
제2항에 있어서,

상기 현재 CTB 타입 후보 리스트는 상기 현재 CTB에 인접한 이웃 CTB의 CTB 타입이 낮은 인덱스에 할당되도록 구성되는, 방법.
제3항에 있어서,

상기 이웃 CTB는 상기 현재 CTB에 인접한 좌측 이웃 CTB와 상측 이웃 CTB를 포함하고, 상기 현재 CTB 타입 후보 리스트는 상기 좌측 이웃 CTB의 CTB 타입이 인덱스 0에 대응되고 상기 상측 이웃 CTB의 CTB 타입이 인덱스 1에 대응되도록 구성되는, 방법.
제3항에 있어서,

상기 이웃 CTB는 상기 현재 CTB에 인접한 좌측 이웃 CTB와 상측 이웃 CTB를 포함하고, 상기 CTB 타입 후보 리스트는 상기 상측 이웃 CTB의 CTB 타입이 인덱스 0에 대응되고 상기 좌측 이웃 CTB의 CTB 타입이 인덱스 1에 대응되도록 구성되는, 방법.
제3항에 있어서,

상기 복수의 CTB를 위한 타입 개수 정보 및 타입 정보를 상기 비트스트림으로부터 획득하는 단계는 상기 타입 개수 정보가 지시하는 횟수만큼 복수의 타입 정보를 상기 비트스트림으로부터 획득하는 것을 포함하며,

상기 타입 개수 정보가 2보다 큰 수를 지시하는 경우, 상기 복수의 타입 정보가 지시하는 복수의 CTB 타입 중에서 상기 좌측 이웃 CTB의 CTB 타입과 상기 상측 이웃 CTB의 CTB 타입을 제외한 나머지 CTB 타입을 인덱스 2부터 대응되도록 상기 CTB 타입 후보 리스트가 구성되는, 방법.
제6항에 있어서,

상기 나머지 CTB 타입은 상기 나머지 CTB 타입에 대응되는 타입 정보가 상기 비트스트림으로부터 획득되는 순서에 따라 상기 CTB 타입 후보 리스트의 인덱스 2부터 할당되는, 방법.
제2항에 있어서,

상기 현재 CTB를 위한 타입 개수 정보 및 타입 정보를 상기 비트스트림으로부터 획득하는 단계는 상기 타입 개수 정보가 지시하는 횟수만큼 복수의 타입 정보를 상기 비트스트림으로부터 획득하는 것을 포함하며,

상기 CTB 타입 후보 리스트는 상기 복수의 타입 정보가 상기 비트스트림으로부터 획득되는 순서에 따라 낮은 인덱스부터 할당되는, 방법.
제1항에 있어서,

상기 타입 정보는 코딩 블록의 최소 크기에 대한 정보와 코딩 블록의 최대 크기에 대한 정보를 포함하며,

상기 현재 CTB 내에서 코딩 블록의 최소 크기는 상기 코딩 블록의 최소 크기에 대한 정보의 값에 특정 오프셋을 더한 값 만큼 1을 좌측 시프트하여 구해지고, 상기 현재 CTB의 크기는 상기 코딩 블록의 최대 크기에 대한 정보의 값에 특정 오프셋을 더한 값 만큼 1을 좌측 시프트하여 구해지는, 방법.
제1항에 있어서,

상기 타입 정보는 코딩 블록의 최소 크기에 대한 정보와 코딩 블록의 최소 크기와 최대 크기 간의 차이에 대한 정보를 포함하며,

상기 현재 CTB 내에서 코딩 블록의 최소 크기는 상기 코딩 블록의 최소 크기에 대한 정보의 값에 특정 오프셋을 더한 값 만큼 1을 좌측 시프트하여 구해지고, 상기 현재 CTB의 크기는 상기 코딩 블록의 최소 크기에 대한 정보의 값에 특정 오프셋을 더한 값과 상기 코딩 블록의 최소 크기와 최대 크기 간의 차이에 대한 정보의 값을 더하여 구해지는 값만큼 1을 좌측 시프트하여 구해지는, 방법.
제1항에 있어서,

상기 적어도 하나의 코딩 블록을 결정하는 단계는,

상기 현재 CTB에 대한 분할 지시 정보를 상기 비트스트림으로부터 획득하는 것,

상기 분할 지시 정보가 상기 현재 CTB가 분할됨을 지시하는 경우, 상기 현재 CTB를 상기 현재 CTB의 크기의 절반 수평 크기 및 절반 수직 크기를 가지는 4개의 하위 블록으로 분할하는 것, 및

상기 하위 블록의 크기가 상기 코딩 블록의 최소 크기보다 큰 경우, 상기 분할 지시 정보를 획득하는 것과 상기 4개의 하위 블록으로 분할하는 것을 상기 4개의 하위 블록 각각에 대하여 재귀적으로 수행하는 것을 포함하는, 방법.
제1항에 있어서,

상기 복수의 CTB를 위한 타입 개수 정보 및 타입 정보는 시퀀스 파라미터 세트(SPS), 픽처 파라미터 세트(PPS), 또는 슬라이스 세그먼트 헤더(SSH)를 통해 획득되는, 방법.
제1항에 있어서,

상기 복수의 CTB는 가변적인 크기를 가지고, 각각의 CTB는 정사각형 블록에 해당하는, 방법.
제1항에 있어서,

상기 복수의 CTB에 대해 허용되는 CTB 타입은 256×256 블록, 128×128 블록, 64×64 블록, 32×32 블록, 16×16 블록, 또는 8×8 블록 중에서 적어도 하나를 포함하는, 방법.
적어도 하나의 픽처를 위한 비트스트림을 디코딩하도록 구성된 디코딩 장치로서, 상기 픽처는 적어도 하나의 슬라이스를 포함하고, 상기 슬라이스는 복수의 코딩 트리 블록(CTB)을 포함하며,

메모리; 및

상기 메모리에 동작시 연결되는(operatively connected) 프로세서를 포함하며, 상기 프로세서는

상기 복수의 CTB를 위한 타입 개수 정보 및 타입 정보를 상기 비트스트림으로부터 획득하고, 상기 타입 개수 정보는 상기 복수의 CTB에 대해 허용되는 CTB 타입의 개수를 지시하고, 상기 타입 정보는 상기 복수의 CTB에 대해 허용되는 CTB 타입을 지시하며;

상기 복수의 CTB 중에서 현재 CTB를 위한 타입 지시 정보를 상기 비트스트림으로부터 획득하고, 상기 타입 지시 정보는 상기 허용되는 CTB 타입 중에서 하나의 CTB 타입을 지시하며;

상기 타입 지시 정보가 지시하는 CTB 타입에 기초하여 상기 현재 CTB의 크기 및 상기 현재 CTB 내에서 코딩 블록의 최소 크기를 결정하고;

상기 결정된 현재 CTB의 크기 및 코딩 블록의 최소 크기에 기초하여 상기 현재 CTB 내에서 적어도 하나의 코딩 블록을 결정하고;

상기 적어도 하나의 코딩 블록 각각에 대하여 예측 모드 정보를 비트스트림으로부터 획득하고, 상기 예측 모드 정보는 해당 코딩 블록이 인트라 예측을 이용하여 코딩되었는지 아니면 인터 예측을 이용하여 코딩되었는지 여부를 지시하며;

상기 적어도 하나의 코딩 블록 중에서 현재 코딩 블록에 대한 예측 모드 정보에 기초하여 상기 현재 코딩 블록을 복원하도록 구성된, 디코딩 장치.