KR20180110064A

KR20180110064A - 영상 인코딩 방법, 영상 디코딩 방법, 영상 인코딩 장치, 영상 디코딩 장치, 및 프로그램

Info

Publication number: KR20180110064A
Application number: KR1020187025696A
Authority: KR
Inventors: 게이이찌 조노
Original assignee: 닛본 덴끼 가부시끼가이샤
Priority date: 2016-12-26
Filing date: 2017-11-15
Publication date: 2018-10-08
Also published as: CN108702507A; EP3562154A4; EP3562154A1; RU2720358C1; WO2018123313A1; US20200296366A1; JPWO2018123313A1; AR110439A1

Abstract

영상 인코딩 장치(10)는: 사분 트리 구조에 기초하여 블록을 분할하는지 여부를 나타내는 플래그를 엔트로피 인코딩하는 사분 트리 분할 플래그 인코딩 유닛(11); 사분 트리 구조의 종단 노드의 스킵 플래그를 엔트로피 인코딩하는 스킵 플래그 인코딩 유닛(12); 사분 트리 구조의 종단 노드의 블록을 이분 트리 구조에 기초하여 분할하는지 여부를 나타내는 플래그 및 분할 방향을 나타내는 수평/수직 분할 방향 플래그를 엔트로피 인코딩하는 이분 트리 정보 인코딩 유닛(13); 및 이분 트리 구조에 기초한 분할의 최소 사이즈를 나타내는 정보를 비트스트림에 다중화하는 사이즈 다중화 유닛(14)을 포함하고, 최소 사이즈와 같은 사이즈의 노드가 이분 트리 구조에 기초하여 더 분할되는 경우에는, 이분 트리 정보 인코딩 유닛(13)은 그 노드에서의 수평/수직 분할 방향 플래그를 엔트로피 인코딩하지 않는다.

Description

영상 인코딩 방법, 영상 디코딩 방법, 영상 인코딩 장치, 영상 디코딩 장치, 및 프로그램

본 발명은 사분 트리(quadtree)와 이분 트리(binary tree)에 기초한 블록 분할 구조를 이용하는 영상 코딩 기술에 관계한다.

비특허문헌 1에 기술된 영상 코딩 방식에서는, 디지털화된 영상의 각 프레임은 코딩 트리 유닛(CTU: Coding Tree Unit)들로 분할되어, 각 CTU가 래스터 스캔 순으로 인코딩된다.

각 CTU는, 사분 트리 구조로, 코딩 유닛(CU: Coding Unit)들로 분할되어 인코딩된다. 각 CU는 예측 유닛(PU: Prediction Unit)들로 분할되어 예측 인코딩된다. 예측 인코딩은 인트라 예측과 프레임 간 예측을 포함한다.

각 CU의 예측 오차는, 사분 트리 구조로, 변환 유닛(TU: Transform Unit)들로 분할되어 주파수 변환에 기초하여 변환 인코딩된다.

가장 큰 사이즈의 CU를 최대 CU(LCU: Largest Coding Unit)라고 지칭하고, 가장 작은 사이즈의 CU를 최소 CU(SCU: Smallest Coding Unit)라고 지칭한다. LCU 사이즈와 CTU 사이즈는 동일하다.

다음으로, 인트라 예측 및 프레임 간 예측, 및 CTU, CU, PU, 및 TU의 시그널링(signaling)을 설명한다.

인트라 예측은 인코딩 대상 프레임과 디스플레이 시간이 동일한 재구축 이미지로부터 예측 이미지를 생성하는 예측이다. 비특허문헌 1에서는, 도 9에 도시된 33 종류의 각도 인트라 예측이 정의되고 있다. 각도 인트라 예측에서는, 인코딩 대상 블록 주변의 재구축 화소를 33개의 방향 중 임의의 방향에서 외삽에 이용하여, 인트라 예측 신호를 생성한다. 33 종류의 각도 인트라 예측에 더하여, 비특허문헌 1에서는, 인코딩 대상 블록 주변의 재구축 화소를 평균하는 DC 인트라 예측, 및 인코딩 대상 블록 주변의 재구축 화소를 선형 보간하는 평면 인트라 예측이 정의되고 있다. 이하, 인트라 예측에 기초하여 인코딩된 CU를 인트라 CU라고 지칭한다.

프레임 간 예측은, 인코딩 대상 프레임과 디스플레이 시간이 상이한 재구축 이미지(참조 픽처)로부터 예측 이미지를 생성하는 예측이다. 이하, 프레임 간 예측을 인터 예측이라고도 지칭한다. 도 10은 프레임 간 예측의 예를 도시하는 설명 도이다. 움직임 벡터 MV = (mv_x, mv_y)는 인코딩 대상 블록에 대한 참조 픽처의 재구축 이미지 블록의 평행 이동의 양을 나타낸다. 인터 예측에서는, 참조 픽처의 재구축 이미지 블록에 기초하여(필요하면 화소 보간을 이용하여) 인터 예측 신호를 생성한다. 이하, 프레임 간 예측에 기초하여 인코딩된 CU를 인터 CU라고 지칭한다.

인트라 CU들만을 포함하여 인코딩된 프레임은 "I 프레임"(또는 "I 픽처")이라고 지칭된다. 인트라 CU들뿐만 아니라 인터 CU들도 포함하여 인코딩된 프레임은 "P 프레임"(또는 "P 픽처")이라고 지칭된다. 블록의 인터 예측에 1개의 참조 픽처뿐만 아니라, 게다가 동시에 2개의 참조 픽처를 각각 이용하는 인터 CU들을 포함하여 인코딩된 프레임은 "B 프레임"(또는 "B 픽처")이라고 지칭된다.

스킵 모드는 처리 대상인 CU가 후술하는 PU 분할 형상의 2N×2N의 형상에 기초한 프레임 예측에 의해 예측 인코딩되고 후술하는 변환 양자화 값이 존재하지 않는 것을 나타낸다. 각 CU가 스킵 모드인지 여부는 비특허문헌 1에 기술된 skip_flag 신택스에 의해 시그널링된다.

스킵 모드가 아닌 각 CU가 인트라 CU인지 인터 CU인지는 비특허문헌 1에 기술된 pred_mode_flag 신택스에 의해 시그널링된다.

도 11은 프레임의 공간 해상도가 CIF(Common Intermediate Format)이고 CTU 사이즈가 64인 경우의 프레임 t의 CTU 분할의 예 및 프레임 t에 포함된 제8 CTU(CTU8)의 CU 분할의 예를 도시하는 설명 도이다.

도 12는 CTU8의 CU 분할의 예에 대응하는 사분 트리 구조를 도시하는 설명 도이다. 각 CTU의 사분 트리 구조, 즉, CU 분할 형상은 비특허문헌 1에 기술된 cu_split_flag 신택스에 의해 시그널링된다.

도 13은 CU의 PU 분할 형상들을 도시하는 설명 도이다. CU가 인트라 CU인 경우, 정방형 PU 분할을 선택할 수 있다. CU가 인터 CU인 경우, 정방형뿐만 아니라 직사각형 PU 분할도 선택할 수 있다. 각 CU의 PU 분할 형상은 비특허문헌 1에 기술된 part_mode 신택스에 의해 시그널링된다.

도 14는 CU의 TU 분할의 예들을 도시하는 설명 도이다. 도면의 상부에는, 2N×2N PU 분할 형상을 갖는 인트라 CU의 TU 분할의 예가 도시되어 있다. CU가 인트라 CU인 경우, 사분 트리의 루트(root)는 PU에 배치되고, 각 PU의 예측 오차가 사분 트리 구조에 의해 표현된다. 도면의 하부에는, 2N×N PU 분할 형상의 인터 CU의 TU 분할의 예가 도시되어 있다. CU가 인터 CU인 경우, 사분 트리의 루트는 CU에 배치되고, 해당 CU의 예측 오차가 사분 트리 구조에 의해 표현된다. 예측 오차의 사분 트리 구조, 즉, 각 CU의 TU 분할 형상은 비특허문헌 1에 기술된 split_tu_flag 신택스에 의해 시그널링된다.

이상으로, 인트라 예측 및 프레임 간 예측, 및 CTU, CU, PU, 및 TU의 시그널링의 설명을 종료한다.

다음으로, 도 15의 블록 도를 참조하여, 디지털화된 영상의 각 프레임의 각 CU를 입력 이미지로서 수신하고 비트스트림을 출력하는, 일반적인 영상 인코딩 장치의 구조와 동작을 설명한다.

도 15에 도시된 영상 인코딩 장치는 변환기/양자화기(101), 엔트로피 인코더(102), 역 양자화기/역 변환기(103), 버퍼(104), 예측기(105), 및 다중화기(106)를 포함한다.

예측기(105)는, 각 CTU에 대해, 코딩 비용을 최소화하는 CU 분할 형상을 결정하는 cu_split_flag 신택스 값을 결정한다.

그 후, 예측기(105)는, 각 CU에 대해, 코딩 비용을 최소화하는, 인트라 예측/인터 예측을 결정하는 pred_mode_flag 신택스 값, PU 분할 형상을 결정하는 part_mode 신택스 값, TU 분할 형상을 결정하는 split_tu_flag 신택스 값, 인트라 예측 방향, 및 움직임 벡터를 결정한다.

게다가, 예측기(105)는, 스킵 모드를 결정하는 skip_flag 신택스 값을 결정한다.

구체적으로는, 처리 대상 CU에 대해, 결정된 pred_mode_flag가 인터 예측을 나타내고, 결정된 part_mode가 2N×2N을 나타내고, 후술하는 변환 양자화 값이 존재하지 않는 경우, 예측기(105)는 skip_flag를 1로 설정한다(즉, 스킵 모드가 설정된다). 그 밖의 경우, 예측기(105)는 skip_flag를 0으로 설정한다(즉, 스킵 모드가 설정되지 않는다).

예측기(105)는 결정된 cu_split_flag 신택스 값, pred_mode_flag 신택스 값, part_mode 신택스 값, split_tu_flag 신택스 값, 인트라 예측 방향, 및 움직임 벡터 등에 기초하여, 각 CU의 입력 이미지 신호에 대응하는 예측 신호를 생성한다. 예측 신호는 상술한 인트라 예측 또는 프레임 간 예측에 기초하여 생성된다.

변환기/양자화기(101)는 예측기(105)에 의해 결정된 TU 분할 형상에 기초하여, 입력 이미지 신호로부터 예측 신호를 감하여 획득된 예측 오차 이미지를 주파수 변환한다.

게다가, 변환기/양자화기(101)는 주파수 변환된 예측 오차 이미지(주파수 변환 계수)를 양자화한다. 이하, 양자화된 주파수 변환 계수를 "변환 양자화 값"이라고 지칭한다.

엔트로피 인코더(102)는 예측기(105)에 의해 결정된 cu_split_flag 신택스 값, skip_flag 신택스 값, pred_mode_flag 신택스 값, part_mode 신택스 값, split_tu_flag 신택스 값, 인트라 예측 방향의 차분 정보, 및 움직임 벡터의 차분 정보(이하, 이들 예측 관련 정보를 예측 파라미터라고도 지칭한다), 및 변환 양자화 값을 엔트로피 인코딩한다.

역 양자화기/역 변환기(103)는 변환 양자화 값을 역 양자화한다. 게다가, 역 양자화기/역 변환기(103)는 역 양자화에 의해 획득된 주파수 변환 계수를 역 주파수 변환한다. 역 주파수 변환에 의해 획득된 재구축 예측 오차 이미지에 예측 신호가 더해지고, 그 결과가 버퍼(104)에 공급된다. 버퍼(104)는 재구축 이미지를 저장한다.

다중화기(106)는 엔트로피 인코더(102)로부터 공급되는 엔트로피 인코딩된 데이터를 비트스트림으로서 다중화하여 출력한다.

상술한 동작에 의해, 일반적인 영상 인코딩 장치는 비트스트림을 생성한다.

다음으로, 도 16을 참조하여, 비트스트림을 입력으로서 수신하고 디코딩된 영상 프레임을 출력하는, 일반적인 영상 디코딩 장치의 구조와 동작을 설명한다.

도 16에 도시된 영상 디코딩 장치는 다중화해제기(201), 엔트로피 디코더(202), 역 양자화기/역 변환기(203), 예측기(204), 및 버퍼(205)를 포함한다.

다중화해제기(201)는 입력되는 비트스트림을 다중화해제하여 엔트로피 인코딩된 영상 비트스트림을 추출한다.

엔트로피 디코더(202)는 영상 비트스트림을 엔트로피 디코딩한다. 엔트로피 디코더(202)는 예측 파라미터 및 변환 양자화 값을 엔트로피 디코딩하고, 이들을 역 양자화기/역 변환기(203) 및 예측기(204)에 공급한다.

역 양자화기/역 변환기(203)는 변환 양자화 값을 역 양자화한다. 게다가, 역 양자화기/역 변환기(203)는 역 양자화에 의해 획득된 주파수 변환 계수를 역 주파수 변환한다.

역 주파수 변환 후, 예측기(204)는 엔트로피 디코딩된 예측 파라미터에 기초하여, 버퍼(205)에 저장된 재구축 이미지를 이용하여 예측 신호를 생성한다.

예측 신호가 생성된 후, 역 양자화기/역 변환기(203)에 의해 역 주파수 변환에 의해 획득된 재구축 예측 오차 이미지에 예측기(204)로부터 공급되는 예측 신호가 더해지고, 그 결과가 재구축 이미지로서 버퍼(205)에 공급된다.

그 후 버퍼(205)에 저장된 재구축 이미지가 디코딩된 이미지(디코딩된 영상)로서 출력된다.

상술한 동작에 의해, 일반적인 영상 디코딩 장치는 디코딩된 이미지를 생성한다.

비특허문헌 2는 상술한 비특허문헌 1에 기술된 방식의 확장인 QTBT(QuadTree plus Binary Tree)라고 불리는, 사분 트리와 이분 트리(BT)에 기초한 블록 분할 구조를 이용하는 영상 코딩 기술을 개시하고 있다.

QTBT 구조에서는, 사분 트리 구조에 기초하여, 코딩 트리 유닛(CTU )이 정방형의 코딩 유닛(CU)들로 재귀적으로 분할된다. 게다가, 이분 트리 구조에 기초하여, 예측 처리나 변환 처리를 위해, 재귀적으로 분할된 각 CU가 직사각형 또는 정방형의 블록으로 재귀적으로 분할된다. QTBT 구조에서는, part_mode 신택스는 이용되지 않는다.

도 17은 비특허문헌 2에 기술된 QTBT 구조를 도시하는 설명 도이다. 도 17의 (a)에는 CTU의 블록 분할의 예가 도시되어 있고, 도 17의 (b)에는 그 트리 구조가 도시되어 있다. 도 17에 있어서, 각 실선은 사분 트리 구조에 기초한 분할을 나타내고, 각 파선은 이분 트리 구조에 기초한 분할을 나타낸다. 이분 트리 구조에 기초한 분할에서는, 직사각형의 블록들이 허용되므로, 분할 방향(분할 선이 연장되는 방향)을 나타내는 정보가 필요하다. 도 17의 (b)에 있어서, 0은 수평 방향으로 분할되는 것을 나타내고, 1은 수직 방향으로 분할되는 것을 나타낸다. QTBT 구조는 직사각형의 분할 형상들을 더 유연하게 표현할 수 있으며, 따라서 비특허문헌 1에 기술된 블록 분할 구조에 기초한 영상 방식의 압축 효율을 높일 수 있다.

High Efficiency Video Coding (HEVC) text specification draft 10 (for FDIS & Last Call) of ITU-T SG16 WP3 and ISO/IEC JTC1/SC29/WG11 12th Meeting: Geneva, CH, 14-23 January 2013 Jicheng An, et al., "Quadtree plus binary tree structure integration with JEM tools", JVET-B0023, Joint Video Exploration Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 2nd Meeting: San Diego, USA, 20-26 February 2016

도 18은 QTBT 구조에 기초한 CTU의 블록 분할과 그 트리 구조의 예를 도시하는 설명 도이다.

우선, 도 18에서 사용되는 cu_split_flag, bt_split_flag, 및 bt_split_vertical_flag의 정의를 설명한다.

cu_split_flag는 사분 트리 구조에 기초한 분할이 수행되는지 여부를 나타낸다. cu_split_flag가 0일 때, 사분 트리 구조에 기초한 분할이 수행되지 않는다(즉, 블록은 사분 트리 구조의 종단 노드의 블록이다). cu_split_flag가 1일 때, 사분 트리 구조에 기초한 분할이 수행된다.

bt_split_flag는 이분 트리 구조에 기초한 분할이 수행되는지 여부를 나타낸다. bt_split_flag가 0일 때, 이분 트리 구조에 기초한 분할이 수행되지 않는다(즉, 블록은 이분 트리 구조의 종단 노드의 블록이다). bt_split_flag가 1일 때, 이분 트리 구조에 기초한 분할이 수행된다.

bt_split_vertical_flag는 bt_split_flag가 1일 때 존재한다. bt_split_vertical_flag는 분할 방향을 나타낸다. bt_split_vertical_flag가 0일 때, 수평 방향으로 분할이 수행된다. bt_split_vertical_flag가 1일 때, 수직 방향으로 분할이 수행된다.

도 18의 (a)에는, 블록 분할의 예가 도시되어 있다. 도 18의 (b)에는, 도 18의 (a)에 도시된 분할에 대응하는 신택스 요소 및 QTBT 구조가 도시되어 있다.

도 18의 (a)에 도시된 예에서는, 64×64(64 화소×64 화소) 블록이 사분 트리 구조에 기초하여 4개의 32×32 블록으로 분할된다. 따라서, QT 0-level(depth 0)에서, cu_split_flag 값은 분할을 나타낸다(이 예에서는 1).

QT 1-level(depth 1)에서는, 우측 하부의 32×32 블록이 수직 방향으로 2개로 분할된다. 그 32×32 블록에 대해, cu_split_flag 값은 비분할을 나타내지만(이 예에서는 0), BT 1-level(depth 1)에서의 bt_split_flag 값은 분할을 나타낸다(이 예에서는 1). 더욱이, bt_split_vertical_flag 값은 수직 방향을 나타낸다(이 예에서는 1). 다른 3개의 32×32 블록에 대해, 이분 트리 구조에 관련되는 bt_split_flag 값은 비분할을 나타낸다(이 예에서는 0).

BT 2-level(depth 2)에서는, 우측 하부의 32×32 블록에 포함되는 좌측의 16×32 블록에 대해서는, 그 블록이 더 이상 분할되지 않으므로, bt_split_flag 값은 비분할을 나타낸다(이 예에서는 0).

우측의 16×32 블록에 대해서는, 그 블록이 더 분할되므로, bt_split_flag 값은 분할을 나타낸다(이 예에서는 1). bt_split_vertical_flag 값은 수직 방향을 나타낸다(이 예에서는 1).

BT 3-level(depth 3)에서는, 우측 하부의 16×32 블록에 포함되는 좌측의 8×32 블록은 분할되지 않으므로, bt_split_flag 값은 비분할을 나타낸다(이 예에서는 0). 우측 하부의 16×32 블록에 포함되는 우측의 8×32 블록은 분할되므로, bt_split_flag 값은 분할을 나타낸다(이 예에서는 1). bt_split_vertical_flag 값은 수평 방향을 나타낸다(이 예에서는 0).

우측 하부의 8×32 블록에 포함되는 상부의 8×16 블록과 하부의 8×16 블록 둘 다 분할되지 않는다. 따라서, 그 블록들 각각에 대해, bt_split_flag 값은 비분할을 나타낸다(이 예에서는 0).

상술한 QTBT 구조를 이용할 때, 사분 트리에 기초한 블록 분할/비분할 정보(이하, "사분 트리 분할 플래그"이라고 지칭)에 더하여, 이분 트리에 기초한 블록 분할/비분할 정보(이하, "이분 트리 분할 플래그"이라고 지칭) 및 수평/수직 분할 방향 정보(이하, "이분 트리 분할 방향 플래그"이라고 지칭)가 전송될 필요가 있다.

이분 트리 분할 플래그 및 이분 트리 분할 방향 플래그는 각 블록에 대해 전송되므로, 특히 낮은 비트레이트 조건 하에 비트의 수가 상당히 증가한다.

따라서, 이들 플래그 정보는 오버헤드 코드 량을 초래하고 압축 효율의 감소를 야기하고, 또한 엔트로피 인코딩/디코딩 처리 량의 증가를 야기한다.

QTBT 구조를 이용할 경우, 최소 블록 사이즈를 설정할 수 있다. 최소 사이즈는 최소 폭과 최소 높이 둘 다를 포함하는 개념이다. 최소 사이즈는 "N"으로 설정되는 것으로 가정한다. 블록의 폭(수평 방향의 화소 수)이 N에 도달하면, 그 블록은 수직 방향으로 더 분할될 수 없다. 이는 그러한 분할로 인해 폭이 N/2가 되기 때문이다. 블록의 높이(수직 방향의 화소 수)가 N에 도달하면, 그 블록은 수평 방향으로 더 분할될 수 없다. 이는 그러한 분할로 인해 높이가 N/2가 되기 때문이다.

따라서, 그 폭 또는 높이가 최소 사이즈인 블록을 이분 트리 분할에 기초하여 분할하는 경우에는, 분할 방향은 일의적으로 결정된다. 그러나, 도 18의 (b)에 도시된 방식에서는, 그러한 경우에도, 불필요한(즉, 장황한) bt_split_vertical_flag가 전송된다.

본 발명은 사분 트리와 이분 트리에 기초한 블록 분할 구조를 이용하는 영상 인코딩 처리 및 영상 디코딩 처리에 있어서 압축 성능을 개선하고, 엔트로피 인코딩 처리 량 및 엔트로피 디코딩 처리 량을 감소시키는 것을 목적으로 한다.

본 발명에 따른 영상 인코딩 방법은 사분 트리와 이분 트리에 기초한 블록 분할 구조를 이용하는 영상 인코딩 방법으로서, 이 영상 인코딩 방법은: 사분 트리 구조에 기초하여 블록을 분할하는지 여부를 나타내는 플래그를 엔트로피 인코딩하는 스텝; 사분 트리 구조의 종단 노드의 스킵 플래그를 엔트로피 인코딩하는 스텝; 사분 트리 구조의 종단 노드의 블록을 이분 트리 구조에 기초하여 분할하는지 여부를 나타내는 플래그 및 분할 방향을 나타내는 수평/수직 분할 방향 플래그를 엔트로피 인코딩하는 스텝; 및 이분 트리 구조에 기초한 분할의 최소 사이즈를 나타내는 정보를 비트스트림에 다중화하는 스텝을 포함하고, 최소 사이즈와 같은 사이즈의 노드가 이분 트리 구조에 기초하여 더 분할되는 경우에는, 그 노드에서의 수평/수직 분할 방향 플래그를 엔트로피 인코딩하지 않는다.

본 발명에 따른 영상 디코딩 방법은 사분 트리와 이분 트리에 기초한 블록 분할 구조를 이용하는 영상 디코딩 방법으로서, 이 영상 디코딩 방법은 사분 트리 구조의 종단 노드의 스킵 플래그를 엔트로피 디코딩하는 스텝; 사분 트리 구조의 종단 노드의 블록을 이분 트리 구조에 기초하여 분할하는지 여부를 나타내는 플래그 및 분할 방향을 나타내는 수평/수직 분할 방향 플래그를 엔트로피 디코딩하는 스텝; 및 비트스트림으로부터, 이분 트리 구조에 기초한 분할의 최소 사이즈를 나타내는 정보를 추출하는 스텝을 포함하고, 최소 사이즈와 같은 사이즈의 노드가 이분 트리 구조에 기초하여 더 분할되는 경우에는, 그 노드에서의 수평/수직 분할 방향 플래그를 엔트로피 디코딩하지 않는다.

본 발명에 따른 영상 인코딩 장치는 사분 트리와 이분 트리에 기초한 블록 분할 구조를 이용하는 영상 인코딩 장치로서, 이 영상 인코딩 장치는: 사분 트리 구조에 기초하여 블록을 분할하는지 여부를 나타내는 플래그를 엔트로피 인코딩하는 사분 트리 분할 플래그 인코딩 수단; 사분 트리 구조의 종단 노드의 스킵 플래그를 엔트로피 인코딩하는 스킵 플래그 인코딩 수단; 사분 트리 구조의 종단 노드의 블록을 이분 트리 구조에 기초하여 분할하는지 여부를 나타내는 플래그 및 분할 방향을 나타내는 수평/수직 분할 방향 플래그를 엔트로피 인코딩하는 이분 트리 정보 인코딩 수단; 및 이분 트리 구조에 기초한 분할의 최소 사이즈를 나타내는 정보를 비트스트림에 다중화하는 사이즈 다중화 수단을 포함하고, 최소 사이즈와 같은 사이즈의 노드가 이분 트리 구조에 기초하여 더 분할되는 경우에는, 이분 트리 정보 인코딩 수단은 그 노드에서의 수평/수직 분할 방향 플래그를 엔트로피 인코딩하지 않는다.

본 발명에 따른 영상 디코딩 장치는 사분 트리와 이분 트리에 기초한 블록 분할 구조를 이용하는 영상 디코딩 장치로서, 이 영상 디코딩 장치는: 사분 트리 구조의 종단 노드의 스킵 플래그를 엔트로피 디코딩하는 스킵 플래그 디코딩 수단; 사분 트리 구조의 종단 노드의 블록을 이분 트리 구조에 기초하여 분할하는지 여부를 나타내는 플래그 및 분할 방향을 나타내는 수평/수직 분할 방향 플래그를 엔트로피 디코딩하는 이분 트리 정보 디코딩 수단; 및 비트스트림으로부터, 이분 트리 구조에 기초한 분할의 최소 사이즈를 나타내는 정보를 추출하는 사이즈 추출 수단을 포함하고, 최소 사이즈와 같은 사이즈의 노드가 이분 트리 구조에 기초하여 더 분할되는 경우에는, 이분 트리 정보 디코딩 수단은 그 노드에서의 수평/수직 분할 방향 플래그를 엔트로피 디코딩하지 않는다.

본 발명에 따른 영상 인코딩 프로그램은 사분 트리와 이분 트리에 기초한 블록 분할 구조를 이용하는 영상 인코딩 방법을 실행하는 영상 인코딩 프로그램으로서, 이 영상 인코딩 프로그램은 컴퓨터로 하여금: 사분 트리 구조에 기초하여 블록을 분할하는지 여부를 나타내는 플래그를 엔트로피 인코딩하는 처리; 사분 트리 구조의 종단 노드의 스킵 플래그를 엔트로피 인코딩하는 처리; 사분 트리 구조의 종단 노드의 블록을 이분 트리 구조에 기초하여 분할하는지 여부를 나타내는 플래그 및 분할 방향을 나타내는 수평/수직 분할 방향 플래그를 엔트로피 인코딩하는 처리; 및 이분 트리 구조에 기초한 분할의 최소 사이즈를 나타내는 정보를 비트스트림에 다중화하는 처리를 실행하게 하고, 최소 사이즈와 같은 사이즈의 노드가 이분 트리 구조에 기초하여 더 분할되는 경우에는, 그 노드에서의 수평/수직 분할 방향 플래그를 엔트로피 인코딩하지 않는다.

본 발명에 따른 영상 디코딩 프로그램은 사분 트리와 이분 트리에 기초한 블록 분할 구조를 이용하는 영상 디코딩 방법을 실행하는 영상 디코딩 프로그램으로서, 이 영상 디코딩 프로그램은 컴퓨터로 하여금: 사분 트리 구조의 종단 노드의 스킵 플래그를 엔트로피 디코딩하는 처리; 사분 트리 구조의 종단 노드의 블록을 이분 트리 구조에 기초하여 분할하는지 여부를 나타내는 플래그 및 분할 방향을 나타내는 수평/수직 분할 방향 플래그를 엔트로피 디코딩하는 처리; 및 비트스트림으로부터, 이분 트리 구조에 기초한 분할의 최소 사이즈를 나타내는 정보를 추출하는 처리를 실행하게 하고, 최소 사이즈와 같은 사이즈의 노드가 이분 트리 구조에 기초하여 더 분할되는 경우에는, 그 노드에서의 수평/수직 분할 방향 플래그를 엔트로피 디코딩하지 않는다.

본 발명에 따르면, 압축 성능이 개선되고, 엔트로피 인코딩 처리 량 및 엔트로피 디코딩 처리 량이 감소된다.

도 1은 예시적인 실시예 1에 따른 영상 인코딩 장치를 도시하는 블록 도이다.
도 2는 엔트로피 인코딩 제어기 및 엔트로피 인코더의 동작을 도시하는 플로우챠트이다.
도 3은 예시적인 실시예 1에 있어서의 QTBT 구조를 도시하는 설명 도이다.
도 4는 예시적인 실시예 2에 따른 영상 디코딩 장치를 도시하는 블록 도이다.
도 5는 엔트로피 디코딩 제어기 및 엔트로피 디코더의 동작을 도시하는 플로우챠트이다.
도 6은 영상 인코딩 장치의 기능을 실현 가능한 정보 처리 시스템의 구조의 예를 도시하는 블록 도이다.
도 7은 영상 인코딩 장치의 주요부를 도시하는 블록 도이다.
도 8은 영상 디코딩 장치의 주요부를 도시하는 블록 도이다.
도 9는 33 종류의 각도 인트라 예측의 예를 도시하는 설명 도이다.
도 10은 프레임 간 예측의 예를 도시하는 설명 도이다.
도 11은 프레임 t의 CTU 분할의 예, 및 프레임 t의 CTU8의 CU 분할의 예를 도시하는 설명 도이다.
도 12는 CTU8의 CU 분할의 예에 대응하는 사분 트리 구조를 도시하는 설명 도이다.
도 13은 CU의 PU 분할의 예를 도시하는 설명 도이다.
도 14는 CU의 TU 분할의 예를 도시하는 설명 도이다.
도 15는 일반적인 영상 인코딩 장치의 구조의 예를 도시하는 블록 도이다.
도 16은 일반적인 영상 디코딩 장치의 구조의 예를 도시하는 블록 도이다.
도 17은 비특허문헌 2에 기술된 CTU의 블록 분할의 예와 그 트리 구조를 도시하는 설명 도이다.
도 18은 QTBT 구조에 기초한 CTU의 블록 분할의 예와 그 트리 구조를 도시하는 설명 도이다.

예시적인 실시예 1

도 1은 영상 인코딩 장치의 예시적인 실시예(예시적인 실시예 1)를 도시하는 블록 도이다. 도 1에 도시된 영상 인코딩 장치는 변환기/양자화기(101), 엔트로피 인코더(102), 역 양자화기/역 변환기(103), 버퍼(104), 예측기(105), 다중화기(106), 및 엔트로피 인코딩 제어기(107)를 포함한다.

이 예시적인 실시예에서 이용되는 cu_split_flag, bt_split_flag, 및 bt_split_vertical_flag의 정의는 상술한 바와 같다. 영상 디코딩 측은, bt_split_flag가 존재하지 않을 경우, 암묵적으로 bt_split_flag를 0으로 해석한다. 이 예시적인 실시예에서는, bt_split_flag가 1인 때에도 bt_split_vertical_flag가 존재하지 않을 수 있다.

예측기(105)는, 각 CTU에 대해, 코딩 비용을 최소화하는 cu_split_flag, bt_split_flag, 및 bt_split_vertical_flag를 결정한다. 그런데, cu_split_flag, bt_split_flag, 및 bt_split_vertical_flag는 QTBT 분할 형상을 결정한다.

이하, 사분 트리 구조 또는 이분 트리 구조에 기초한 분할의 결과로서 생성된 블록을 "서브블록"이라고도 지칭한다.

그 후, 예측기(105)는 결정된 cu_split_flag, bt_split_flag, 및 bt_split_vertical_flag에 기초하여 QTBT 분할에 의해 생성된 각 서브블록에 대해, 인트라 예측/인터 예측을 결정하는 pred_mode_flag, TU 분할 형상을 결정하는 split_tu_flag, 인트라 예측 방향, 및 움직임 벡터를 결정한다. 결정되는 pred_mode_flag, split_tu_flag, 인트라 예측 방향 및 움직임 벡터는 코딩 비용을 최소화한다.

그 후, 예측기(105)는 스킵 모드를 결정하는 skip_flag를 결정한다. 구체적으로는, 처리 대상인 서브블록에 대해, 결정된 pred_mode_flag가 인터 예측을 나타내고 변환 양자화 값이 존재하지 않는 경우, 예측기(105)는 skip_flag를 1로 설정한다(즉, 스킵 모드가 설정된다). 그 밖의 경우, 예측기(105)는 skip_flag를 0으로 설정한다(즉, 스킵 모드가 설정되지 않는다).

예측기(105)는 결정된 cu_split_flag 신택스 값, bt_split_flag 신택스 값, bt_split_vertical_flag 신택스 값, skip_flag 신택스 값, pred_mode_flag 신택스 값, split_tu_flag 신택스 값, 인트라 예측 방향, 및 움직임 벡터에 기초하여, 각 서브블록의 입력 이미지 신호에 대응하는 예측 신호를 생성한다. 예측 신호는 상술한 인트라 예측 또는 프레임 간 예측에 기초하여 생성된다.

변환기/양자화기(101)는 예측기(105)에 의해 결정된 TU 분할 형상에 기초하여, 입력 이미지 신호로부터 예측 신호를 감하여 획득된 예측 오차 이미지를 주파수 변환한다. 게다가, 변환기/양자화기(101)는 주파수 변환된 예측 오차 이미지(주파수 변환 계수)를 양자화하여, 변환 양자화 값을 생성한다.

엔트로피 인코딩 제어기(107)는, 예측기(105)로부터 엔트로피 인코더(102)에 공급되는 이분 트리 구조에 기초한 각 서브블록의 사이즈를 감시하고, bt_split_vertical_flag를 엔트로피 인코딩할지 여부를 판단한다.

구체적으로는, 처리 대상인 서브블록의 폭 또는 높이가 최소 사이즈와 같은 경우, 해당 블록을 더 분할할 때, 엔트로피 인코딩 제어기(107)는 엔트로피 인코더(102)로 하여금 bt_split_vertical_flag의 엔트로피 인코딩 처리를 스킵하게 한다. 이하, 최소 사이즈를 minBTsize에 의해 표현한다. 최소 사이즈는 임의의 사이즈로 설정될 수 있다. 이 예시적인 실시예에서, 최소 사이즈는 예로서 "8"이다. 처리 대상인 서브블록의 폭과 높이를 각각 curPartW와 curPartH에 의해 표현한다.

엔트로피 인코더(102)는 예측기(105)에 의해 결정되는 cu_split_flag 신택스 값, bt_split_flag 신택스 값, bt_split_vertical_flag 신택스 값, skip_flag 신택스 값, pred_mode_flag 신택스 값, split_tu_flag 신택스 값, 인트라 예측 방향의 차분 정보, 움직임 벡터의 차분 정보, 및 변환 양자화 값을 엔트로피 인코딩한다.

여기서, 엔트로피 인코딩 제어기(107)가 bt_split_vertical_flag를 엔트로피 인코딩하는 것을 스킵하기로 결정할 때, 엔트로피 인코더(102)는 bt_split_vertical_flag를 엔트로피 인코딩하는 것을 스킵한다.

상술한 제어에 의해, 장황한 bt_split_vertical_flag의 시그널링이 방지된다.

다중화기(106)는 엔트로피 인코더(102)로부터 공급되는 엔트로피 인코딩된 데이터를 비트스트림으로서 다중화하여 출력한다. 여기서, 다중화기(106)는 또한 이분 트리 구조에 기초한 분할의 최소 사이즈를 나타내는 minBTsize를 비트스트림에 다중화한다.

상술한 동작에 의해, 이 예시적인 실시예에 따른 영상 인코딩 장치는 비트스트림을 생성한다.

다음으로, 도 2의 플로우챠트를 참조하여, bt_split_flag, bt_split_vertical_flag, 및 skip_flag에 대한, 이 예시적인 실시예의 특징부인 엔트로피 인코딩 제어기(107) 및 엔트로피 인코더(102)의 동작을 더 상세히 설명한다.

스텝 S101에서는, 엔트로피 인코딩 제어기(107)는 cu_split_flag가 0인지 여부를 판단한다. cu_split_flag가 0인 경우, 처리는 스텝 S102로 진행한다. cu_split_flag가 1인 경우, 처리는 다음 사분 트리 서브블록(사분 트리 구조에 기초한 분할 후의 블록)의 처리로 진행한다.

스텝 S102에서는, 엔트로피 인코더(102)는 bt_split_flag를 엔트로피 인코딩한다. 스텝 S103에서는, 엔트로피 인코딩 제어기(107)는 bt_split_flag가 0인지 여부를 판단한다. bt_split_flag가 0인 경우, 처리를 종료한다. 처리를 종료하기 전에, 엔트로피 인코더(102)는 skip_flag를 엔트로피 인코딩한다. bt_split_flag가 1인 경우, 처리는 스텝 S104로 진행한다.

스텝 S104에서는, 엔트로피 인코딩 제어기(107)는 curPartW 또는 curPartH가 minBTsize와 같은지 여부를 판단한다. curPartW와 curPartH 중 임의의 것이 minBTsize와 같을 때, 처리는 다음 이분 트리 서브블록(이분 트리 구조에 기초한 분할 후의 블록)의 처리로 진행한다. 다음 이분 트리 서브블록의 처리는 스텝 S102 이후의 처리에 대응한다. curPartW와 curPartH 중 어느 것도 minBTsize와 같지 않을 때, 처리는 스텝 S105로 진행한다.

스텝 S105에서는, 엔트로피 인코더(102)는 bt_split_vertical_flag를 엔트로피 인코딩한다. 그 후, 처리는 다음 이분 트리 서브블록의 처리로 진행한다.

스텝 S103 내지 S105를 통해, 엔트로피 인코딩 제어기(107)는, 처리 대상인 서브블록의 bt_split_flag가 1이고(즉, 처리 대상인 블록이 이분 트리 구조에 기초하여 더 분할되고) curPartW와 curPartH 중 임의의 것이 minBTsize와 같은 경우, bt_split_vertical_flag의 엔트로피 인코딩 처리를 스킵한다.

다음으로, 이 예시적인 실시예의 구체 예를 설명한다. 도 3은 예시적인 실시예 1에 있어서의 QTBT 구조를 도시하는 설명 도이다.

도 3의 (a)에는 블록 분할의 예가 도시되어 있다. 도 3의 (b)에는, 도 3의 (a)에 도시된 분할에 대응하는 신택스 요소 및 QTBT 구조가 도시되어 있다.

도 3의 (a)에 도시된 예에서는, 64×64(64 화소×64 화소) 블록이 사분 트리 구조에 기초하여 4개의 32×32 블록(서브블록)으로 분할된다. 따라서, QT 0-level(depth 0)에서, cu_split_flag 값은 분할을 나타낸다(이 예시적인 실시예에서는 1).

QT 1-level(depth 1)에서는, 우측 하부의 32×32 블록이 수직 방향으로 2개로 분할된다. 그 32×32 블록에 대해, cu_split_flag 값은 비분할을 나타내지만(이 예시적인 실시예에서는 0), BT 1-level(depth 1)에서의 bt_split_flag 값은 분할을 나타낸다(이 예시적인 실시예에서는 1). 더욱이, bt_split_vertical_flag 값은 수직 방향을 나타낸다(이 예시적인 실시예에서는 1).

BT 2-level(depth 2)에서는, 우측 하부의 32×32 블록에 포함되는 좌측의 16×32 블록에 대해서는, 그 블록이 더 이상 분할되지 않으므로, bt_split_flag 값은 비분할을 나타낸다(이 예시적인 실시예에서는 0).

우측의 16×32 블록에 대해서는, 그 블록이 더 분할되므로, bt_split_flag 값은 분할을 나타낸다(이 예시적인 실시예에서는 1). bt_split_vertical_flag 값은 수직 방향을 나타낸다(이 예시적인 실시예에서는 1). 폭(curPartW), 즉 16과, 높이(curPartH), 즉 32 중 어느 것도 minBTsize에 도달하지 않고 있다.

BT 3-level(depth 3)에서는, 우측 하부의 16×32 블록에 포함되는 좌측의 8×32 블록에 대해서는, 그 블록이 더 이상 분할되지 않으므로, bt_split_flag 값은 비분할을 나타낸다(이 예시적인 실시예에서는 0).

우측의 8×32 블록(도 3의 (a)에서 두꺼운 선으로 둘러싸인 블록)에 대해서는, 그 블록이 더 분할되므로, bt_split_flag 값은 분할을 나타낸다(이 예시적인 실시예에서는 1). 한편, curPartW는 minBTsize(= 8)와 같으므로, bt_split_vertical_flag는 엔트로피 인코딩되지 않고 전송되지 않는다.

BT 4-level(depth 4)에서는, 우측 하부의 8×32 블록에 포함되는 상부의 8×16 블록과 하부의 8×16 블록 둘 다 분할되지 않는다. 따라서, 그 블록들 각각에 대해, bt_split_flag 값은 비분할을 나타낸다(이 예시적인 실시예에서는 0).

도 3의 (a)에 도시된 예에서, 두꺼운 선으로 둘러싸인 8×32 블록은 이분 트리 구조에 기초하여 수평 방향으로 더 분할된다. 그러나, 도 18의 (b)에 도시된 방식에서는, 0의 값을 갖는 bt_split_vertical_flag가 엔트로피 인코딩되고 비트스트림에 포함된다. 그러나, 두꺼운 선으로 둘러싸인 8×32의 블록에 대해서는, curPartW는 minBTsize와 같으므로, 그 블록의 분할 방향은 일의적으로 수평 방향으로 결정된다.

따라서, bt_split_vertical_flag 신택스 값이 전송되지 않는 때에도, 영상 디코딩 장치는, 그 curPartW가 minBTsize와 같은 8×32 블록에 관한 정보(예를 들어, bt_split_flag)를 수신하는 것만으로, 8×32 블록의 분할 방향을 인식할 수 있다. 따라서, 이 예시적인 실시예에서는, 미리 결정된 조건(구체적으로는, 처리 대상인 블록의 bt_split_flag가 1이고, curPartW와 curPartH 중 임의의 것이 minBTsize와 같다)이 만족되는 경우 영상 인코딩 장치는 bt_split_vertical_flag 신택스 값을 엔트로피 인코딩하지 않는다.

이 예시적인 실시예에 따른 상술한 엔트로피 인코딩 제어기(107) 및 엔트로피 인코더(102)를 이용한 영상 인코딩 장치에 의하면, 장황한 이분 트리 분할 방향 플래그의 전송이 방지되어 압축 성능이 개선된다. 더욱이, 장황한 이분 트리 분할 방향 플래그의 엔트로피 인코딩 처리가 감소되어, 처리 복잡도가 감소된다.

스텝 S103 및 S104의 처리에 의한 조건은 처리 대상인 서브블록을 이분 트리 구조에 기초하여 더 분할할 때, 분할 후의 블록의 사이즈가 minBTsize 미만이 되는 것이다. 이는

min(curPartW, curPartH)/(1 + bt_split_flag) < minBTsize

로서 공식화될 수 있는데, 여기에서, min(a, b)은 a와 b 중 더 작은 값을 반환하는 함수이다.

예시적인 실시예 2

도 4는 영상 디코딩 장치의 예시적인 실시예(예시적인 실시예 2)를 도시하는 블록 도이다. 도 4에 도시된 영상 디코딩 장치는 다중화해제기(201), 엔트로피 디코더(202), 역 양자화기/역 변환기(203), 예측기(204), 버퍼(205), 및 엔트로피 디코딩 제어기(206)를 포함한다.

다중화해제기(201)는 입력되는 비트스트림을 다중화해제하여 엔트로피 인코딩된 데이터를 추출한다. 여기서, 다중화해제기(201)는 또한 비트스트림으로부터 minBTsize를 추출한다.

엔트로피 디코더(202)는 엔트로피 인코딩된 데이터를 엔트로피 디코딩한다. 엔트로피 디코더(202)는 엔트로피 디코딩된 변환 양자화 값을 역 양자화기/역 변환기(203)에 공급하고, 게다가, cu_split_flag, bt_split_flag, bt_split_vertical_flag, skip_flag, pred_mode_flag, split_tu_flag, 인트라 예측 방향, 및 움직임 벡터를 공급한다.

여기서, 이 예시적인 실시예의 엔트로피 디코더(202)는, bt_split_vertical_flag에 대해 영상 인코딩 장치에 있어서의 미리 결정된 조건과 동일한 조건이 만족되면, 엔트로피 디코딩 처리를 스킵한다.

역 양자화기/역 변환기(203)는 양자화 스텝 사이즈로 변환 양자화 값을 역 양자화한다. 게다가, 역 양자화기/역 변환기(203)는 역 양자화에 의해 획득된 주파수 변환 계수를 역 주파수 변환한다.

예측기(204)는, cu_split_flag, bt_split_flag, bt_split_vertical_flag, skip_flag, pred_mode_flag, split_tu_flag, 인트라 예측 방향, 및 움직임 벡터에 기초하여, 각 서브블록의 예측 신호를 생성한다. 예측 신호는 상술한 인트라 예측 또는 프레임 간 예측에 기초하여 생성된다.

역 양자화기/역 변환기(203)에 의해 역 주파수 변환에 의해 획득된 재구축 예측 오차 이미지에 예측기(204)로부터 공급되는 예측 신호가 더해지고, 그 결과가 재구축 픽처로서 버퍼(205)에 공급된다. 그 후 버퍼(205)에 저장된 재구축 픽처가 디코딩된 이미지로서 출력된다.

상술한 동작에 의해, 이 예시적인 실시예에 따른 영상 디코딩 장치는 디코딩된 이미지를 생성한다.

다음으로, 도 5의 플로우챠트를 참조하여, bt_split_flag 및 bt_split_vertical_flag에 대한, 이 예시적인 실시예의 특징부인 엔트로피 디코딩 제어기(206) 및 엔트로피 디코더(202)의 동작을 더 상세히 설명한다.

스텝 S201에서는, 엔트로피 디코딩 제어기(206)는 엔트로피 디코딩된 cu_split_flag가 0인지 여부를 판단한다. cu_split_flag가 0인 경우, 처리는 스텝 S202로 진행한다. cu_split_flag가 1인 경우, 처리는 다음 사분 트리 서브블록의 처리로 진행한다.

스텝 S202에서는, 엔트로피 디코더(202)는 bt_split_flag를 엔트로피 디코딩한다. 이 다음으로, 스텝 S203에서, 엔트로피 디코딩 제어기(206)는 엔트로피 디코딩된 bt_split_flag가 0인지 여부를 판단한다. bt_split_flag가 0인 경우, 처리를 종료한다. 처리를 종료하기 전에, 엔트로피 디코더(202)는 skip_flag를 엔트로피 인코딩한다. bt_split_flag가 1인 경우, 처리는 스텝 S204로 진행한다.

스텝 S204에서는, 엔트로피 디코딩 제어기(206)는 curPartW 또는 curPartH가 minBTsize와 같은지 여부를 판단한다. curPartW와 curPartH 중 임의의 것이 minBTsize와 같은 경우, 처리는 스텝 S206으로 진행한다. 달리 말해서, 엔트로피 디코딩 제어기(206)는 엔트로피 디코더(202)로 하여금 bt_split_vertical_flag의 엔트로피 디코딩 처리를 스킵하게 한다. curPartW와 curPartH 중 어느 것도 minBTsize와 같지 않은 경우, 처리는 스텝 S205로 진행한다.

스텝 S205에서는, 엔트로피 디코더(202)는 처리 대상인 서브블록의 bt_split_vertical_flag를 엔트로피 디코딩한다. 그 후 처리는 다음 이분 트리 서브블록(이분 트리 구조에 기초한 분할 후의 블록)의 처리로 진행한다. 다음 이분 트리 서브블록의 처리는 스텝 S202 이후의 처리에 대응한다.

스텝 S206 내지 S208에 있어서, 엔트로피 디코딩 제어기(206)는 엔트로피 디코딩 처리가 스킵된 bt_split_vertical_flag 값을 도출한다.

구체적으로는, 스텝 S206에서, 엔트로피 디코딩 제어기(206)는 min(curPartW)/(1 + bt_split_flag) < minBTsize인지 여부를 판단한다. min(curPartW)/(1 + bt_split_flag) < minBTsize인 경우, 처리는 스텝 S207에서, 엔트로피 디코딩 제어기(206)는 bt_split_vertical_flag 값을 0(수평 방향으로 분할되는 것을 나타냄)으로 설정한다. min(curPartW)/(1 + bt_split_flag) ≥ minBTsize인 경우, 처리는 스텝 S208에서, 엔트로피 디코딩 제어기(206)는 bt_split_vertical_flag 값을 1(수직 방향으로 분할되는 것을 나타냄)로 설정한다. 그 후 처리는 다음 이분 트리 서브블록(이분 트리 구조에 기초한 분할 후의 블록)의 처리로 진행한다.

min(curPartW)/(1 + bt_split_flag) < minBTsize는, 처리 대상인 서브블록을 이분 트리 구조에 기초하여 더 분할할 때, 분할 후의 서브블록의 폭이 minBTSize 미만이 되는 조건이다. 따라서, 엔트로피 디코딩 제어기(206)는, 스텝 S206에서, "min(curPartH)/(1 + bt_split_flag) < minBTsize"이라는 조건을 이용하여, min(curPartH)/(1 + bt_split_flag) < minBTsize인 경우에는, bt_split_vertical_flag 값을 1(수직 방향으로 분할되는 것을 나타냄)로 설정하고, min(curPartH)/(1 + bt_split_flag) ≥ minBTsize인 경우에는, bt_split_vertical_flag 값을 0(수평 방향으로 분할되는 것을 나타냄)으로 설정할 수 있다.

다음으로, 이 예시적인 실시예의 유리한 효과를 설명한다. 상술한 엔트로피 디코딩 제어기(206)와 엔트로피 디코더(202)를 이용한 이 예시적인 실시예에 따른 영상 디코딩 장치에 의하면, 장황한 이분 트리 분할 방향 플래그의 엔트로피 디코딩이 방지되어, 처리 복잡도가 감소된다.

장황성을 제거하는 이점은 다음과 같다.

영상 인코딩과 영상 디코딩에 있어서의 장황한 bt_split_vertical_flag의 엔트로피 인코딩 처리 및 엔트로피 디코딩 처리가 감소될 수 있다. 더욱이, 파라미터 값들을 조합하는 데 있어서 임의의 에러를 방지함으로써 영상 인코딩과 영상 디코딩 사이의 상호운용성이 개선될 수 있다.

예시적인 실시예 1 및 2는 minBTsize가 최소 폭과 최소 높이 둘 다를 의미하는 경우를 설명하고 있지만, 최소 폭과 최소 높이는 개별적으로 설정될 수도 있다. 그러한 경우에는, 도 2의 스텝 S104 및 도 5의 스텝 S204에서, curPartW가 최소 폭과 비교되고, curPartH가 최소 높이와 비교된다.

전술한 예시적인 실시예들 각각은 하드웨어나 컴퓨터 프로그램에 의해 실현될 수 도 있다.

도 6에 도시된 정보 처리 시스템은, 프로세서(1001), 프로그램 메모리(1002), 영상 데이터를 저장하기 위한 기억 매체(1003) 및 비트스트림을 저장하기 기억 매체(1004)를 포함한다. 기억 매체(1003) 및 기억 매체(1004)는 별개의 기억 매체들이거나, 동일한 기억 매체에 포함된 기억 영역들일 수 있다. 기억 매체로서 하드 디스크와 같은 자기 기억 매체를 이용할 수 있다.

도 6에 도시된 정보 처리 시스템에 있어서, 프로그램 메모리(1002)에는, 도 1 및 도 4 각각에 도시된 블록들(버퍼 블록을 제외함)의 기능들을 실현하기 위한 프로그램이 저장된다. 프로세서(1001)는 프로그램 메모리(1002)에 저장된 프로그램을 따라 처리를 실행함으로써, 전술한 예시적인 실시예들에 따른 영상 인코딩 장치 및 영상 디코딩 장치의 기능을 실현한다.

도 7은 영상 인코딩 장치의 주요부를 도시하는 블록 도이다. 도 7에 도시된 바와 같이, 영상 인코딩 장치(10)는: 사분 트리 구조에 기초하여 블록을 분할하는지 여부를 나타내는 플래그(예를 들어, cu_split_flag)을 엔트로피 인코딩하는 사분 트리 분할 플래그 인코딩 유닛(11)(예시적인 실시예에서는 엔트로피 인코더(102)에 의해 실현됨); 사분 트리 구조의 종단 노드의 스킵 플래그를 엔트로피 인코딩하는 스킵 플래그 인코딩 유닛(12)(예시적인 실시예에서는 엔트로피 인코더(102)에 의해 실현됨); 사분 트리 구조의 종단 노드의 블록을 이분 트리 구조에 기초하여 분할하는지 여부를 나타내는 플래그(예를 들어, bt_split_flag) 및 분할 방향을 나타내는 수평/수직 분할 방향 플래그(예를 들어, bt_split_vertical_flag)를 엔트로피 인코딩하는 이분 트리 정보 인코딩 유닛(13)(예시적인 실시예에서는 엔트로피 인코더(102)에 의해 실현됨); 및 이분 트리 구조에 기초한 분할의 최소 사이즈를 나타내는 정보(예를 들어, minBTsize)를 비트스트림에 다중화하는 사이즈 다중화 유닛(14)(예시적인 실시예는 다중화기(106)에 의해 실현됨)을 포함하고, 최소 사이즈와 같은 사이즈의 노드가 이분 트리 구조에 기초하여 더 분할되는 경우에는, 이분 트리 정보 인코딩 유닛(13)은 그 노드에서의 수평/수직 분할 방향 플래그를 엔트로피 인코딩하지 않는다.

도 8은 영상 디코딩 장치의 주요부를 도시하는 블록 도이다. 도 8에 도시된 바와 같이, 영상 디코딩 장치(20)는: 사분 트리 구조의 종단 노드의 스킵 플래그를 엔트로피 디코딩하는 스킵 플래그 디코딩 유닛(21)(예시적인 실시예에서는 엔트로피 디코더(202)에 의해 실현됨); 사분 트리 구조의 종단 노드의 블록을 이분 트리 구조에 기초하여 분할하는지 여부를 나타내는 플래그(예를 들어, bt_split_flag) 및 분할 방향을 나타내는 수평/수직 분할 방향 플래그(예를 들어, bt_split_vertical_flag)를 엔트로피 디코딩하는 이분 트리 정보 디코딩 유닛(22)(예시적인 실시예에서는 엔트로피 디코더(202)에 의해 실현됨); 및 비트스트림으로부터, 이분 트리 구조에 기초한 분할의 최소 사이즈를 나타내는 정보(예를 들어, minBTsize)를 추출하는 사이즈 추출 유닛(23)(예시적인 실시예는 다중화해제기(201)에 의해 실현됨)을 포함하고, 최소 사이즈와 같은 사이즈의 노드가 이분 트리 구조에 기초하여 더 분할되는 경우에는, 이분 트리 정보 디코딩 유닛(22)은 그 노드에서의 수평/수직 분할 방향 플래그를 엔트로피 디코딩하지 않는다.

영상 디코딩 장치(20)는 엔트로피 디코딩되지 않는 수평/수직 분할 방향 플래그의 값으로서, 최소 사이즈를 충족시키는 값을 설정하는 사이즈 설정 유닛(예시적인 실시예에서는 엔트로피 디코딩 제어기(206)에 의해 실현됨)을 포함할 수도 있다. 최소 사이즈를 충족시키는 값은 최소 사이즈보다도 작은 서브블록으로의 분할이 수행되지 않는다(구체적으로는, 폭과 높이 둘 다가 최소 값 아래로 떨어 지지 않는다)는 것을 특정하는 값이다.

전술한 예시적인 실시예들 및 예들을 참조하여 본 발명을 설명했지만, 본 발명은 전술한 예시적인 실시예들 및 예들로 한정되는 것이 아니다. 본 발명의 구조들 및 상세들에 대해 본 발명의 범위 내에서 당업자가 이해할 수 있는 다양한 변경이 이루어질 수 있다.

이 출원은 2016년 12월 26일에 출원된 일본 특허 출원 2016-251290을 기초로 하는 우선권을 주장하고, 그 개시내용은 전체가 여기에 포함된다.

10 영상 인코딩 장치
11 사분 트리 분할 플래그 인코딩 유닛
12 스킵 플래그 인코딩 유닛
13 이분 트리 정보 인코딩 유닛
14 사이즈 다중화 유닛
20 영상 디코딩 장치
21 스킵 플래그 디코딩 유닛
22 이분 트리 정보 디코딩 유닛
23 사이즈 추출 유닛
101 변환기/양자화기
102 엔트로피 인코더
103 역 양자화기/역 변환기
104 버퍼
105 예측기
106 다중화기
107 엔트로피 인코딩 제어기
201 다중화해제기
202 엔트로피 디코더
203 역 양자화기/역 변환기
204 예측기
205 버퍼
206 엔트로피 디코딩 제어기
1001 프로세서
1002 프로그램 메모리
1003 기억 매체
1004 기억 매체

Claims

사분 트리와 이분 트리에 기초한 블록 분할 구조를 이용하는 영상 인코딩 방법으로서, 이 영상 인코딩 방법은:
사분 트리 구조에 기초하여 블록을 분할하는지 여부를 나타내는 플래그를 엔트로피 인코딩하는 스텝;
사분 트리 구조의 종단 노드의 스킵 플래그를 엔트로피 인코딩하는 스텝;
사분 트리 구조의 종단 노드의 블록을 이분 트리 구조에 기초하여 분할하는지 여부를 나타내는 플래그 및 분할 방향을 나타내는 수평/수직 분할 방향 플래그를 엔트로피 인코딩하는 스텝; 및
이분 트리 구조에 기초한 분할의 최소 사이즈를 나타내는 정보를 비트스트림에 다중화하는 스텝을 포함하고,
최소 사이즈와 같은 사이즈의 노드가 이분 트리 구조에 기초하여 더 분할되는 경우에는, 그 노드에서의 수평/수직 분할 방향 플래그를 엔트로피 인코딩하지 않는, 영상 인코딩 방법.
사분 트리와 이분 트리에 기초한 블록 분할 구조를 이용하는 영상 디코딩 방법으로서, 이 영상 디코딩 방법은:
사분 트리 구조의 종단 노드의 스킵 플래그를 엔트로피 디코딩하는 스텝;
사분 트리 구조의 종단 노드의 블록을 이분 트리 구조에 기초하여 분할하는지 여부를 나타내는 플래그 및 분할 방향을 나타내는 수평/수직 분할 방향 플래그를 엔트로피 디코딩하는 스텝; 및
비트스트림으로부터, 이분 트리 구조에 기초한 분할의 최소 사이즈를 나타내는 정보를 추출하는 스텝을 포함하고,
최소 사이즈와 같은 사이즈의 노드가 이분 트리 구조에 기초하여 더 분할되는 경우에는, 그 노드에서의 수평/수직 분할 방향 플래그를 엔트로피 디코딩하지 않는, 영상 디코딩 방법.
제2항에 있어서, 엔트로피 디코딩되지 않는 수평/수직 분할 방향 플래그의 값으로서, 최소 사이즈를 충족시키는 값이 설정되는, 영상 디코딩 방법.
사분 트리와 이분 트리에 기초한 블록 분할 구조를 이용하는 영상 인코딩 장치로서, 이 영상 인코딩 장치는:
사분 트리 구조에 기초하여 블록을 분할하는지 여부를 나타내는 플래그를 엔트로피 인코딩하는 사분 트리 분할 플래그 인코딩 수단;
사분 트리 구조의 종단 노드의 스킵 플래그를 엔트로피 인코딩하는 스킵 플래그 인코딩 수단;
사분 트리 구조의 종단 노드의 블록을 이분 트리 구조에 기초하여 분할하는지 여부를 나타내는 플래그 및 분할 방향을 나타내는 수평/수직 분할 방향 플래그를 엔트로피 인코딩하는 이분 트리 정보 인코딩 수단; 및
이분 트리 구조에 기초한 분할의 최소 사이즈를 나타내는 정보를 비트스트림에 다중화하는 사이즈 다중화 수단을 포함하고,
최소 사이즈와 같은 사이즈의 노드가 이분 트리 구조에 기초하여 더 분할되는 경우, 이분 트리 정보 인코딩 수단은 그 노드에서의 수평/수직 분할 방향 플래그를 엔트로피 인코딩하지 않는, 영상 인코딩 장치.
사분 트리와 이분 트리에 기초한 블록 분할 구조를 이용하는 영상 디코딩 장치로서, 이 영상 디코딩 장치는:
사분 트리 구조의 종단 노드의 스킵 플래그를 엔트로피 디코딩하는 스킵 플래그 디코딩 수단;
사분 트리 구조의 종단 노드의 블록을 이분 트리 구조에 기초하여 분할하는지 여부를 나타내는 플래그 및 분할 방향을 나타내는 수평/수직 분할 방향 플래그를 엔트로피 디코딩하는 이분 트리 정보 디코딩 수단; 및
비트스트림으로부터, 이분 트리 구조에 기초한 분할의 최소 사이즈를 나타내는 정보를 추출하는 사이즈 추출 수단을 포함하고,
최소 사이즈와 같은 사이즈의 노드가 이분 트리 구조에 기초하여 더 분할되는 경우, 이분 트리 정보 디코딩 수단은 그 노드에서의 수평/수직 분할 방향 플래그를 엔트로피 디코딩하지 않는, 영상 디코딩 장치.
제5항에 있어서,
엔트로피 디코딩되지 않는 수평/수직 분할 방향 플래그의 값으로서, 최소 사이즈를 충족시키는 값을 설정하는 사이즈 설정 수단을 포함하는, 영상 디코딩 장치.
사분 트리와 이분 트리에 기초한 블록 분할 구조를 이용하는 영상 인코딩 방법을 실행하는 영상 인코딩 프로그램으로서, 이 영상 인코딩 프로그램은 컴퓨터로 하여금:
사분 트리 구조에 기초하여 블록을 분할하는지 여부를 나타내는 플래그를 엔트로피 인코딩하는 처리;
사분 트리 구조의 종단 노드의 스킵 플래그를 엔트로피 인코딩하는 처리;
사분 트리 구조의 종단 노드의 블록을 이분 트리 구조에 기초하여 분할하는지 여부를 나타내는 플래그 및 분할 방향을 나타내는 수평/수직 분할 방향 플래그를 엔트로피 인코딩하는 처리; 및
이분 트리 구조에 기초한 분할의 최소 사이즈를 나타내는 정보를 비트스트림에 다중화하는 처리를 실행하게 하고,
최소 사이즈와 같은 사이즈의 노드가 이분 트리 구조에 기초하여 더 분할되는 경우에는, 그 노드에서의 수평/수직 분할 방향 플래그를 엔트로피 인코딩하지 않는, 영상 인코딩 프로그램.
사분 트리와 이분 트리에 기초한 블록 분할 구조를 이용하는 영상 디코딩 방법을 실행하는 영상 디코딩 프로그램으로서, 이 영상 디코딩 프로그램은 컴퓨터로 하여금:
사분 트리 구조의 종단 노드의 스킵 플래그를 엔트로피 디코딩하는 처리;
사분 트리 구조의 종단 노드의 블록을 이분 트리 구조에 기초하여 분할하는지 여부를 나타내는 플래그 및 분할 방향을 나타내는 수평/수직 분할 방향 플래그를 엔트로피 디코딩하는 처리; 및
비트스트림으로부터, 이분 트리 구조에 기초한 분할의 최소 사이즈를 나타내는 정보를 추출하는 처리를 실행하게 하고,
최소 사이즈와 같은 사이즈의 노드가 이분 트리 구조에 기초하여 더 분할되는 경우에는, 그 노드에서의 수평/수직 분할 방향 플래그를 엔트로피 디코딩하지 않는, 영상 디코딩 프로그램.
제8항에 있어서, 컴퓨터로 하여금 엔트로피 디코딩되지 않는 수평/수직 분할 방향 플래그의 값으로서, 최소 사이즈를 충족시키는 값을 설정하게 하는, 영상 디코딩 프로그램.