KR20210125085A

KR20210125085A - 비디오 코딩을 위한 변환 유닛 파티션 방법

Info

Publication number: KR20210125085A
Application number: KR1020217029776A
Authority: KR
Inventors: 장러 천; 인 자오
Original assignee: 후아웨이 테크놀러지 컴퍼니 리미티드
Priority date: 2019-03-22
Filing date: 2020-03-20
Publication date: 2021-10-15
Also published as: CN117834869A; CN114727105A; CN114727104B; WO2020198061A1; CN117896535A; US20220014796A1; CN114727105B; JP7279189B2; CN117692640A; JP2022526770A; CN113632494A; CN114727104A; JP7477687B2; MX2021011417A; EP3915267A1; JP2023104953A; CN117793345A; EP3915267A4; CN113632494B

Abstract

디코딩하는 방법은, 변환 트리 노드(TTN; transform tree node)에 대한 최대 변환 유닛(TU; transform unit) 크기가 TTN의 어느 한 디멘션보다 작은 경우 정사각형 자식 TTN들을 생성하기 위해, 수직 바이너리 트리 분할 또는 수평 바이너리 트리 분할을 사용하여 직사각형 변환 트리 노드(TTN)를 파티셔닝하는 단계를 포함한다. 방법은, 제1 자식 TTN 디멘션 및 제2 자식 TTN 디멘션이 최대 TU 크기보다 큰 경우 TU들을 생성하기 위해 쿼드 트리 분할을 사용하여 자식 TTN들을 파티셔닝하는 단계, 제1 자식 TTN 디멘션 및 제2 자식 TTN 디멘션이 최대 TU 크기 이하인 경우 자식 TTN들이 TU들인 것으로 결정하는 단계, 잔차들을 생성하기 위해 TU들을 변환 계수들에 적용하는 단계, 및 잔차들에 기반하여 재구성된 블록을 생성하는 단계를 더 포함한다.

Description

비디오 코딩을 위한 변환 유닛 파티션 방법

본 특허 출원은, Jianle Chen 등에 의해 2019년 3월 22일자로 "비디오 코딩을 위한 변환 유닛 파티셔닝"이라는 명칭으로 출원된 미국 가특허 출원 제62/822,533호를 우선권으로 주장하며, 이로써 이 특허 출원이 인용에 의해 포함된다.

일반적으로, 본 개시내용은 비디오 코딩(video coding)에 있어 비디오 압축을 위한 기법들을 설명한다. 더 구체적으로, 본 개시내용은 파이프라인 블록 구조(pipeline block structure)를 위반하지 않으면서 변환 유닛 파티셔닝(transform unit partitioning)을 허용하는 기법들을 설명한다.

비교적 짧은 비디오를 묘사하는 데 필요한 비디오 데이터의 양은 상당할 수 있으며, 이는, 데이터가 제한된 대역폭 용량으로 통신 네트워크에 걸쳐 스트리밍되거나 아니면 통신될 때 어려움들을 초래할 수 있다. 따라서, 비디오 데이터는 일반적으로, 현대의 원격통신 네트워크(telecommunications network)들에 걸쳐 통신되기 전에 압축된다. 메모리 자원들이 제한될 수 있기 때문에 비디오가 저장 디바이스에 저장될 때 비디오의 크기가 또한 문제(issue)가 될 수 있다. 비디오 압축 디바이스들은 종종, 소스에서 소프트웨어 및/또는 하드웨어를 사용하여, 전송 또는 저장 전에 비디오 데이터를 코딩함으로써, 디지털 비디오 이미지들을 표현하는 데 필요한 데이터의 수량을 감소시킨다. 그런 다음, 압축된 데이터는, 비디오 데이터를 디코딩하는 비디오 압축해제(decompression) 디바이스에 의해 목적지에서 수신된다. 제한된 네트워크 자원들 및 더 높은 비디오 품질의 요구들이 계속 증가함에 따라, 이미지 품질의 희생이 거의 또는 전혀 없이 압축 비율을 개선하는 개선된 압축 및 압축해제 기법들이 바람직하다.

제1 측면은 비디오 디코더에 의해 구현되는 코딩된 비디오 비트스트림을 디코딩하는 방법에 관한 것이다. 방법은, 제1 변환 트리 노드(TTN; transform tree node) 디멘션이 변환 트리 노드(TTN)에 대한 최대 변환 유닛(TU; transform unit) 크기보다 큰 경우 그리고 제1 TTN 디멘션이 제2 TTN 디멘션보다 큰 경우, 비디오 디코더에 의해, 수직 바이너리 트리 분할(vertical binary tree split)을 사용하여 TTN을 파티셔닝하는 단계; TTN이 파티셔닝된 후 잔차(residual)들을 생성하기 위해, 비디오 디코더에 의해, 변환 계수들에 변환 유닛(TU)들을 적용하는 단계; 및 비디오 디코더에 의해, 잔차들에 기반하여 재구성된 블록(reconstructed block)을 생성하는 단계를 포함한다.

이 방법은, TTN에 대한 최대 변환 유닛(TU) 크기가 제1 TTN 디멘션보다 작은 경우, 제2 TTN 디멘션과 상이한 제1 TTN 디멘션을 갖는 변환 트리 노드(TTN)(예를 들어, 직사각형 TTN)가 초기에 수직 바이너리 트리 분할 또는 수평 바이너리 트리 분할을 사용하여 파티셔닝되게 하는 기법들을 제공하며, 이는 제2 자식(child) TTN 디멘션과 동일한 제1 자식 TTN 디멘션을 갖는 자식 TTN들(예를 들어, 정사각형 자식 TTN들)을 생성한다. 제1 자식 TTN 디멘션 및 제2 자식 TTN 디멘션이 최대 TU 크기보다 큰 경우, 자식 TTN들은 변환 유닛(TU)들을 생성하기 위해 쿼드 트리 분할(quadtree split)을 사용하여 파티셔닝된다. 그렇지 않으면, 자식 TTN들은 초기에 분할된 TU들이다. 이러한 방식(예를 들어, 임의의 쿼드 트리 분할 이전에 TTN의 수직 또는 수평 바이너리 트리 분할)으로 TTN을 파티셔닝함으로써, 다용도 비디오 코딩(VVC; versatile video coding) 표준에서 사용되는 파이프라인 블록 구조가 위반되지 않는다. 따라서, 비디오 코딩에서의 코더/디코더(일명 "코덱(codec)")는, 현재 코덱들에 비해 개선된다(예를 들어, SxS 파이프라인 구조 또는 프로세스의 무결성(integrity)이 유지됨). 실질적인 문제로서, 개선된 비디오 코딩 프로세스는 코덱에서의 에러들 또는 실패들을 제거할 수 있으며, 이는, 비디오들이 송신되거나, 수신되거나 그리고/또는 보여질 때 사용자에게 더 나은 사용자 경험을 제공한다.

선택적으로, 이전의 측면들 중 임의의 측면에서, 측면의 다른 구현은, TTN의 파티셔닝이 제2 자식 TTN 디멘션과 동일한 제1 자식 TTN 디멘션을 갖는 자식 TTN(generate child TTN)들을 생성하는 것을 제공한다.

선택적으로, 이전의 측면들 중 임의의 측면에서, 측면의 다른 구현은, 제1 자식 TTN 디멘션 및 제2 자식 TTN 디멘션이 최대 TU 크기보다 큰 경우 TU들을 생성하기 위해, 비디오 디코더에 의해, 쿼드 트리 분할을 사용하여 자식 TTN들을 파티셔닝하는 것; 및 제1 자식 TTN 디멘션 및 제2 자식 TTN 디멘션이 최대 TU 크기 이하인 경우, 비디오 디코더에 의해, 자식 TTN들이 TU들인 것으로 결정하는 것을 제공한다.

선택적으로, 이전의 측면들 중 임의의 측면에서, 측면의 다른 구현은, 제1 TTN 디멘션 및 제2 TTN 디멘션이 다수의 루마 샘플(luma sample)들에서 측정되는 것을 제공한다.

선택적으로, 이전의 측면들 중 임의의 측면에서, 측면의 다른 구현은, 제1 자식 TTN 디멘션 및 제2 자식 TTN 디멘션이 다수의 루마 샘플들에서 측정되는 것을 제공한다.

선택적으로, 이전의 측면들 중 임의의 측면에서, 측면의 다른 구현은, TTN 내의 모든 TU들의 TTN 깊이가 1로 설정되는 것을 제공한다.

선택적으로, 이전의 측면들 중 임의의 측면에서, 측면의 다른 구현은, TTN 내의 모든 TU들의 TTN 깊이가 TU들을 획득하는 데 필요한 분할의 수에 따라 설정되는 것을 제공한다.

선택적으로, 이전의 측면들 중 임의의 측면에서, 측면의 다른 구현은, 수직 바이너리 트리 분할이 다음의 신택스:

에 따라 구현되는 것을 제공한다.

선택적으로, 이전의 측면들 중 임의의 측면에서, 측면의 다른 구현은, 제1 TTN 디멘션이 2N개 루마 샘플들이고, 제2 TTN 디멘션이 N개 루마 샘플들이고 그리고 최대 TU 크기가 ½N개 루마 샘플들인 경우, TTN이 수직 바이너리 트리 분할을 사용하여 파티셔닝되는 것을 제공한다.

선택적으로, 이전의 측면들 중 임의의 측면에서, 측면의 다른 구현은, N = 64 루마 샘플들인 것을 제공한다.

제2 측면은 비디오 인코더에 의해 구현되는 인코딩 방법에 관한 것이다. 방법은, 제1 변환 트리 노드(TTN) 디멘션이 변환 트리 노드(TTN)에 대한 최대 변환 유닛(TU) 크기보다 큰 경우 그리고 제1 TTN 디멘션이 제2 TTN 디멘션보다 큰 경우, 비디오 인코더를 의해, 수직 바이너리 트리 분할을 사용하여 TTN를 파티셔닝하는 단계; TTN이 파티셔닝된 후 변환 계수들을 생성하기 위해, 비디오 인코더에 의해, 잔차들에 변환 유닛(TU)들을 적용하는 단계; 비디오 인코더에 의해, 변환 계수들을 비트스트림으로 인코딩하는 단계; 및 비디오 인코더에 의해, 비디오 디코더를 향한 전송을 위해 비트스트림을 저장하는 단계를 포함한다.

이 방법은, TTN에 대한 최대 변환 유닛(TU) 크기가 제1 TTN 디멘션보다 작은 경우, 제2 TTN 디멘션과 상이한 제1 TTN 디멘션을 갖는 변환 트리 노드(TTN)(예를 들어, 직사각형 TTN)가 초기에 수직 바이너리 트리 분할 또는 수평 바이너리 트리 분할을 사용하여 파티셔닝되게 하는 기법들을 제공하며, 이는 제2 자식 TTN 디멘션과 동일한 제1 자식 TTN 디멘션을 갖는 자식 TTN들(예를 들어, 정사각형 자식 TTN들)을 생성한다. 제1 자식 TTN 디멘션 및 제2 자식 TTN 디멘션이 최대 TU 크기보다 큰 경우, 자식 TTN들은 변환 유닛(TU)들을 생성하기 위해 쿼드 트리 분할을 사용하여 파티셔닝된다. 그렇지 않으면, 자식 TTN들은 초기에 분할된 TU들이다. 이러한 방식(예를 들어, 임의의 쿼드 트리 분할 이전에 TTN의 수직 또는 수평 바이너리 트리 분할)으로 TTN을 파티셔닝함으로써, 다용도 비디오 코딩(VVC) 표준에서 사용되는 파이프라인 블록 구조가 위반되지 않는다. 따라서, 비디오 코딩에서의 코더/디코더(일명 "코덱(codec)")는, 현재 코덱들에 비해 개선된다(예를 들어, SxS 파이프라인 구조 또는 프로세스의 무결성이 유지됨). 실질적인 문제로서, 개선된 비디오 코딩 프로세스는 코덱에서의 에러들 또는 실패들을 제거할 수 있으며, 이는, 비디오들이 송신되거나, 수신되거나 그리고/또는 보여질 때 사용자에게 더 나은 사용자 경험을 제공한다.

선택적으로, 이전의 측면들 중 임의의 측면에서, 측면의 다른 구현은, TTN의 파티셔닝이 제2 자식 TTN 디멘션과 동일한 제1 자식 TTN 디멘션을 갖는 자식 TTN들을 생성하는 것을 제공한다.

선택적으로, 이전의 측면들 중 임의의 측면에서, 측면의 다른 구현은, 제1 TTN 디멘션 및 제2 TTN 디멘션이 다수의 루마 샘플들에서 측정되는 것을 제공한다.

에 따라 구현되는 것을 제공한다.

제3 측면은 디코딩 디바이스 관한 것이다. 디코딩 디바이스는, 코딩된 비디오 비트스트림을 수신하도록 구성된 수신기; 수신기에 연결된 메모리 ―메모리는 명령들을 저장함―; 및 메모리에 연결된 프로세서를 포함하며, 프로세서는, 디코딩 디바이스로 하여금, 제1 변환 트리 노드(TTN) 디멘션이 변환 트리 노드(TTN)에 대한 최대 변환 유닛(TU) 크기보다 큰 경우 그리고 제1 TTN 디멘션이 제2 TTN 디멘션보다 큰 경우, 수직 바이너리 트리 분할을 사용하여 TTN을 파티셔닝하게 하고; TTN이 파티셔닝된 후 잔차들을 생성하기 위해 변환 계수들에 변환 유닛(TU)들을 적용하게 하고; 그리고 잔차들에 기반하여 재구성된 블록을 생성하게 하도록, 명령들을 실행하도록 구성된다.

디코딩 디바이스는 TTN에 대한 최대 변환 유닛(TU) 크기가 제1 TTN 디멘션보다 작은 경우, 제2 TTN 디멘션과 상이한 제1 TTN 디멘션을 갖는 변환 트리 노드(TTN)(예를 들어, 직사각형 TTN)가 초기에 수직 바이너리 트리 분할 또는 수평 바이너리 트리 분할을 사용하여 파티셔닝되게 하는 기법들을 제공하며, 이는 제2 자식 TTN 디멘션과 동일한 제1 자식 TTN 디멘션을 갖는 자식 TTN들(예를 들어, 정사각형 자식 TTN들)을 생성한다. 제1 자식 TTN 디멘션 및 제2 자식 TTN 디멘션이 최대 TU 크기보다 큰 경우, 자식 TTN들은 변환 유닛(TU)들을 생성하기 위해 쿼드 트리 분할을 사용하여 파티셔닝된다. 그렇지 않으면, 자식 TTN들은 초기에 분할된 TU들이다. 이러한 방식(예를 들어, 임의의 쿼드 트리 분할 이전에 TTN의 수직 또는 수평 바이너리 트리 분할)으로 TTN을 파티셔닝함으로써, 다용도 비디오 코딩(VVC) 표준에서 사용되는 파이프라인 블록 구조가 위반되지 않는다. 따라서, 비디오 코딩에서의 코더/디코더(일명 "코덱(codec)")는, 현재 코덱들에 비해 개선된다(예를 들어, SxS 파이프라인 구조 또는 프로세스의 무결성이 유지됨). 실질적인 문제로서, 개선된 비디오 코딩 프로세스는 코덱에서의 에러들 또는 실패들을 제거할 수 있으며, 이는, 비디오들이 송신되거나, 수신되거나 그리고/또는 보여질 때 사용자에게 더 나은 사용자 경험을 제공한다.

선택적으로, 이전의 측면들 중 임의의 측면에서, 측면의 다른 구현은, 디코딩 디바이스가 재구성된 블록을 사용하여 생성된 이미지를 디스플레이하도록 구성된 디스플레이를 더 포함하는 것을 제공한다.

제4 측면은 위한 인코딩 디바이스 관한 것이다. 인코딩 디바이스는, 명령들을 보유하는 메모리; 메모리에 연결된 프로세서 ―프로세서는, 인코딩 디바이스로 하여금, 제1 변환 트리 노드(TTN) 디멘션이 변환 트리 노드(TTN)에 대한 최대 변환 유닛(TU) 크기보다 큰 경우 그리고 제1 TTN 디멘션이 제2 TTN 디멘션보다 큰 경우, 수직 바이너리 트리 분할을 사용하여 TTN을 파티셔닝하게 하고; TTN이 파티셔닝된 후 변환 계수들을 생성하기 위해, 비디오 인코더에 의해, 잔차들에 변환 유닛(TU)들을 적용하게 하고; 그리고 변환 계수들을 비트스트림으로 인코딩하게 하도록 명령들을 구현하도록 구성됨―; 및 프로세서에 연결되며, 비디오 디코더를 향해 비트스트림을 전송하도록 구성된 전송기를 포함한다.

인코딩 디바이스는, TTN에 대한 최대 변환 유닛(TU) 크기가 제1 TTN 디멘션보다 작은 경우, 제2 TTN 디멘션과 상이한 제1 TTN 디멘션을 갖는 변환 트리 노드(TTN)(예를 들어, 직사각형 TTN)가 초기에 수직 바이너리 트리 분할 또는 수평 바이너리 트리 분할을 사용하여 파티셔닝되게 하는 기법들을 제공하며, 이는 제2 자식 TTN 디멘션과 동일한 제1 자식 TTN 디멘션을 갖는 자식 TTN들(예를 들어, 정사각형 자식 TTN들)을 생성한다. 제1 자식 TTN 디멘션 및 제2 자식 TTN 디멘션이 최대 TU 크기보다 큰 경우, 자식 TTN들은 변환 유닛(TU)들을 생성하기 위해 쿼드 트리 분할을 사용하여 파티셔닝된다. 그렇지 않으면, 자식 TTN들은 초기에 분할된 TU들이다. 이러한 방식(예를 들어, 임의의 쿼드 트리 분할 이전에 TTN의 수직 또는 수평 바이너리 트리 분할)으로 TTN을 파티셔닝함으로써, 다용도 비디오 코딩(VVC) 표준에서 사용되는 파이프라인 블록 구조가 위반되지 않는다. 따라서, 비디오 코딩에서의 코더/디코더(일명 "코덱(codec)")는, 현재 코덱들에 비해 개선된다(예를 들어, SxS 파이프라인 구조 또는 프로세스의 무결성이 유지됨). 실질적인 문제로서, 개선된 비디오 코딩 프로세스는 코덱에서의 에러들 또는 실패들을 제거할 수 있으며, 이는, 비디오들이 송신되거나, 수신되거나 그리고/또는 보여질 때 사용자에게 더 나은 사용자 경험을 제공한다.

선택적으로, 이전의 측면들 중 임의의 측면에서, 측면의 다른 구현은, 전송기가 비디오 디코더를 향해 비트스트림을 전송하기 전에 메모리가 비트스트림을 저장하는 것을 제공한다.

제5 측면은 코딩 장치에 관한 것이다. 코딩 장치는, 인코딩할 픽처(picture)를 수신하거나 또는 디코딩할 비트스트림을 수신하도록 구성된 수신기; 수신기에 연결된 전송기 ―전송기는 비트스트림을 디코더에 전송하거나 또는 디코딩된 이미지를 디스플레이에 전송하도록 구성됨―; 수신기 또는 전송기 중 적어도 하나에 연결된 메모리 ―메모리는 명령들을 저장하도록 구성됨―; 및 메모리에 연결된 프로세서를 포함하며, 프로세서는, 본원에 개시된 방법들 중 임의의 방법을 수행하도록, 메모리에 저장된 명령들을 실행하도록 구성된다.

코딩 장치는, TTN에 대한 최대 변환 유닛(TU) 크기가 제1 TTN 디멘션보다 작은 경우, 제2 TTN 디멘션과 상이한 제1 TTN 디멘션을 갖는 변환 트리 노드(TTN)(예를 들어, 직사각형 TTN)가 초기에 수직 바이너리 트리 분할 또는 수평 바이너리 트리 분할을 사용하여 파티셔닝되게 하는 기법들을 제공하며, 이는 제2 자식 TTN 디멘션과 동일한 제1 자식 TTN 디멘션을 갖는 자식 TTN들(예를 들어, 정사각형 자식 TTN들)을 생성한다. 제1 자식 TTN 디멘션 및 제2 자식 TTN 디멘션이 최대 TU 크기보다 큰 경우, 자식 TTN들은 변환 유닛(TU)들을 생성하기 위해 쿼드 트리 분할을 사용하여 파티셔닝된다. 그렇지 않으면, 자식 TTN들은 초기에 분할된 TU들이다. 이러한 방식(예를 들어, 임의의 쿼드 트리 분할 이전에 TTN의 수직 또는 수평 바이너리 트리 분할)으로 TTN을 파티셔닝함으로써, 다용도 비디오 코딩(VVC) 표준에서 사용되는 파이프라인 블록 구조가 위반되지 않는다. 따라서, 비디오 코딩에서의 코더/디코더(일명 "코덱(codec)")는, 현재 코덱들에 비해 개선된다(예를 들어, SxS 파이프라인 구조 또는 프로세스의 무결성이 유지됨). 실질적인 문제로서, 개선된 비디오 코딩 프로세스는 코덱에서의 에러들 또는 실패들을 제거할 수 있으며, 이는, 비디오들이 송신되거나, 수신되거나 그리고/또는 보여질 때 사용자에게 더 나은 사용자 경험을 제공한다.

제6 측면은 시스템에 관한 것이다. 시스템은 인코더; 및 인코더와 통신하는 디코더를 포함하며, 인코더 또는 디코더는 본원에 개시된 디코딩 디바이스, 인코딩 디바이스 또는 코딩 장치를 포함한다.

시스템은, TTN에 대한 최대 변환 유닛(TU) 크기가 제1 TTN 디멘션보다 작은 경우, 제2 TTN 디멘션(예를 들어, 직사각형 TTN)과 상이한 제1 TTN 디멘션을 갖는 변환 트리 노드(TTN)가 초기에 수직 바이너리 트리 분할 또는 수평 바이너리 트리 분할을 사용하여 파티셔닝되게 하는 기법들을 제공하며, 이는 제2 자식 TTN 디멘션(예를 들어, 정사각형 자식 TTN들)과 동일한 제1 자식 TTN 디멘션을 갖는 자식 TTN들을 생성한다. 제1 자식 TTN 디멘션 및 제2 자식 TTN 디멘션이 최대 TU 크기보다 큰 경우, 자식 TTN들은 변환 유닛(TU)들을 생성하기 위해 쿼드 트리 분할을 사용하여 파티셔닝된다. 그렇지 않으면, 자식 TTN들은 초기에 분할된 TU들이다. 이러한 방식(예를 들어, 임의의 쿼드 트리 분할 이전에 TTN의 수직 또는 수평 바이너리 트리 분할)으로 TTN을 파티셔닝함으로써, 다용도 비디오 코딩(VVC) 표준에서 사용되는 파이프라인 블록 구조가 위반되지 않는다. 따라서, 비디오 코딩에서의 코더/디코더(일명 "코덱(codec)")는, 현재 코덱들에 비해 개선된다(예를 들어, SxS 파이프라인 구조 또는 프로세스의 무결성이 유지됨). 실질적인 문제로서, 개선된 비디오 코딩 프로세스는 코덱에서의 에러들 또는 실패들을 제거할 수 있으며, 이는, 비디오들이 송신되거나, 수신되거나 그리고/또는 보여질 때 사용자에게 더 나은 사용자 경험을 제공한다.

제7 측면은 코딩하기 위한 수단을 관한 것이다. 코딩하기 위한 수단은, 인코딩할 픽처를 수신하거나 또는 디코딩할 비트스트림을 수신하도록 구성된 수신 수단; 수신 수단에 연결된 전송 수단 ―전송 수단은, 비트스트림을 디코딩 수단에 전송하거나 또는 디코딩된 이미지를 디스플레이 수단에 전송하도록 구성됨―; 수신 수단 또는 전송 수단 중 적어도 하나에 연결된 저장 수단 ―저장 수단은 명령들을 저장하도록 구성됨―; 및 저장 수단에 연결된 프로세싱 수단을 포함하며, 프로세싱 수단은, 본원에 개시된 방법들 중 임의의 방법을 수행하도록, 저장 수단에 저장된 명령들을 실행하도록 구성된다.

코딩하기 위한 수단은, TTN에 대한 최대 변환 유닛(TU) 크기가 제1 TTN 디멘션보다 작은 경우, 제2 TTN 디멘션과 상이한 제1 TTN 디멘션을 갖는 변환 트리 노드(TTN)(예를 들어, 직사각형 TTN)가 초기에 수직 바이너리 트리 분할 또는 수평 바이너리 트리 분할을 사용하여 파티셔닝되게 하는 기법들을 제공하며, 이는 제2 자식 TTN 디멘션과 동일한 제1 자식 TTN 디멘션을 갖는 자식 TTN들(예를 들어, 정사각형 자식 TTN들)을 생성한다. 제1 자식 TTN 디멘션 및 제2 자식 TTN 디멘션이 최대 TU 크기보다 큰 경우, 자식 TTN들은 변환 유닛(TU)들을 생성하기 위해 쿼드 트리 분할을 사용하여 파티셔닝된다. 그렇지 않으면, 자식 TTN들은 초기에 분할된 TU들이다. 이러한 방식(예를 들어, 임의의 쿼드 트리 분할 이전에 TTN의 수직 또는 수평 바이너리 트리 분할)으로 TTN을 파티셔닝함으로써, 다용도 비디오 코딩(VVC) 표준에서 사용되는 파이프라인 블록 구조가 위반되지 않는다. 따라서, 비디오 코딩에서의 코더/디코더(일명 "코덱(codec)")는, 현재 코덱들에 비해 개선된다(예를 들어, SxS 파이프라인 구조 또는 프로세스의 무결성이 유지됨). 실질적인 문제로서, 개선된 비디오 코딩 프로세스는 코덱에서의 에러들 또는 실패들을 제거할 수 있으며, 이는, 비디오들이 송신되거나, 수신되거나 그리고/또는 보여질 때 사용자에게 더 나은 사용자 경험을 제공한다.

본 개시내용의보다 완전한 이해를 위해, 첨부 도면들 및 상세한 설명과 관련하여 취해진 다음의 간단한 설명이 이제 참조되며, 여기서 유사한 참조 번호들은 유사한 부분들을 표현한다.
도 1은 파티셔닝 기법들을 활용할 수 있는 예시적인 코딩 시스템을 예시하는 블록도이다.
도 2는 파티셔닝 기법들을 구현할 수 있는 예시적인 비디오 인코더를 예시하는 블록도이다.
도 3은 파티셔닝 기법들을 구현할 수 있는 비디오 디코더의 예를 예시하는 블록도이다.
도 4a 내지 도 4e는 다양한 파티셔닝 타입들 중 하나의 파티셔닝 타입이 적용되는(subjected) 블록을 집합적으로 예시한다.
도 5는, SxS 파이프라인 구조를 위반하는 변환 유닛 파티셔닝 기법의 예를 예시한다.
도 6은, SxS 파이프라인 구조의 무결성을 유지하는 변환 유닛 파티셔닝 기법의 실시예를 예시한다.
도 7은, SxS 파이프라인 구조의 무결성을 유지하는 변환 유닛 파티셔닝 기법의 실시예를 예시한다.
도 8은 코딩된 비디오 비트스트림을 디코딩하는 방법의 실시예이다.
도 9는 비디오 비트스트림을 인코딩하는 방법의 실시예이다.
도 10은 비디오 코딩 디바이스의 개략도이다.
도 11은 코딩하기 위한 수단의 실시예의 개략도이다.

하나 이상의 실시예들의 예시적인 구현이 아래에서 제공되지만, 개시된 시스템들 및/또는 방법들은, 현재 알려져있든 또는 존재하든, 임의의 수의 기법들을 사용하여 구현될 수 있다는 것이 처음에 이해되어야 한다. 본 개시내용은 본원에서 예시되고 설명된 예시적인 설계들 및 구현들을 포함하여, 아래에서 예시되는 예시적인 구현들, 도면들 및 기법들로 결코 제한되지 않아야 하며, 첨부된 청구항들의 범위 내에서 등가물들의 전체 범위 내에서 수정될 수 있다.

도 1은, 본원에 설명된 바와 같은 비디오 코딩 기법들을 활용할 수 있는 예시적인 코딩 시스템(10)을 예시하는 블록도이다. 도 1에 도시된 바와 같이, 코딩 시스템(10)은, 목적지 디바이스(14)에 의해 추후의 시간에 디코딩될 인코딩된 비디오 데이터를 제공하는 소스 디바이스(12)를 포함한다. 특히, 소스 디바이스(12)는 컴퓨터-판독가능 매체(16)를 통해 목적지 디바이스(14)에 비디오 데이터를 제공할 수 있다. 소스 디바이스(12) 및 목적지 디바이스(14)는, 데스크탑 컴퓨터들, 노트북(예를 들어, 랩탑) 컴퓨터들, 태블릿 컴퓨터들, 셋탑 박스들, 텔레폰 핸드셋들, 이를테면 소위 “스마트” 폰들, 소위 “스마트” 패드들, 텔레비전들, 카메라들, 디스플레이 디바이스들, 디지털 미디어 플레이어들, 비디오 게이밍 콘솔들, 비디오 스트리밍 디바이스 등을 포함하는 임의의 광범위한 디바이스들을 포함할 수 있다. 일부 경우들에서, 소스 디바이스(12) 및 목적지 디바이스(14)는 무선 통신을 위해 구비될 수 있다.

목적지 디바이스(14)는 컴퓨터-판독가능 매체(16)를 통해 디코딩될 인코딩된 비디오 데이터를 수신할 수 있다. 컴퓨터-판독가능 매체(16)는 인코딩된 비디오 데이터를 소스 디바이스(12)로부터 목적지 디바이스(14)로 이동시킬 수 있는 임의의 타입의 매체 또는 디바이스를 포함할 수 있다. 일 예에서, 컴퓨터-판독가능 매체(16)는, 소스 디바이스(12)가 인코딩된 비디오 데이터를 실시간으로 목적지 디바이스(14)로 직접 전송할 수 있게 하는 통신 매체를 포함할 수 있다. 인코딩된 비디오 데이터는, 무선 통신 프로토콜과 같은 통신 표준에 따라 변조되고 목적지 디바이스(14)에 전송될 수 있다. 통신 매체는 임의의 무선 또는 유선 통신 매체, 이를테면, RF(radio frequency) 스펙트럼 또는 하나 이상의 물리적 전송 라인들을 포함할 수 있다. 통신 매체는 패킷-기반 네트워크, 이를테면, 로컬 영역 네트워크, 광역 네트워크 또는 글로벌 네트워크, 이를테면, 인터넷의 일부를 형성할 수 있다. 통신 매체는 라우터들, 스위치들, 기지국들, 또는 소스 디바이스(12)로부터 목적지 디바이스(14)로의 통신을 용이하게 하기에 유용할 수 있는 임의의 다른 장비를 포함할 수 있다.

일부 예들에서, 인코딩된 데이터는 출력 인터페이스(22)로부터 저장 디바이스에 출력될 수 있다. 유사하게, 인코딩된 데이터는 입력 인터페이스에 의해 저장 디바이스로부터 액세스될 수 있다. 저장 디바이스는, 임의의 다양한 분산형 또는 로컬 액세스되는 데이터 저장 매체, 이를테면, 하드 드라이브, 블루레이 디스크들, DVD(digital video disk)들, CD-ROM(Compact Disc Read-Only Memory)들, 플래시 메모리, 휘발성 또는 비휘발성 메모리, 또는 인코딩된 비디오 데이터를 저장하기 위한 임의의 다른 적절한 디지털 저장 매체를 포함할 수 있다. 추가적인 예에서, 저장 디바이스는 소스 디바이스(12)에 의해 생성된 인코딩된 비디오를 저장할 수 있는 파일 서버 또는 다른 중간 저장 디바이스에 대응할 수 있다. 목적지 디바이스(14)는, 스트리밍 또는 다운로드를 통해 저장 디바이스로부터, 저장된 비디오 데이터에 액세스할 수 있다. 파일 서버는, 인코딩된 비디오 데이터를 저장하고 그 인코딩된 비디오 데이터를 목적지 디바이스(14)에 전송할 수 있는 임의의 타입의 서버일 수 있다. 예시적인 파일 서버들은 (예를 들어, 웹사이트에 대한) 웹 서버, FTP(file transfer protocol) 서버, NAS(network attached storage) 디바이스들, 또는 로컬 디스크 드라이브를 포함한다. 목적지 디바이스(14)는 인터넷 접속을 포함하는 임의의 표준 데이터 접속을 통해 인코딩된 비디오 데이터에 액세스할 수 있다. 이는 무선 채널(예를 들어, Wi-Fi 연결), 유선 연결(예를 들어, DSL(digital subscriber line), 케이블 모뎀 등), 또는 파일 서버 상에 저장된 인코딩된 비디오 데이터에 액세스하기에 적합한 이 둘 모두의 조합을 포함할 수 있다. 저장 디바이스로부터의 인코딩된 비디오 데이터의 전송은 스트리밍 전송, 다운로드 전송 또는 이들의 조합일 수 있다.

본 개시내용의 기법들이 반드시 무선 애플리케이션들 또는 세팅들로 제한되는 것은 아니다. 기법들은, 다양한 멀티미디어 애플리케이션들, 이를테면, 오버-디-에어(over-the-air) 텔레비전 브로드캐스트들, 케이블 텔레비전 전송들, 위성 텔레비전 전송들, 인터넷 스트리밍 비디오 전송들, 이를테면, DASH(dynamic adaptive streaming over HTTP), 데이터 저장 매체 상에 인코딩된 디지털 비디오, 데이터 저장 매체 상에 저장된 디지털 비디오의 디코딩, 또는 다른 애플리케이션들 중 임의의 것의 지원으로 비디오 코딩에 적용될 수 있다. 일부 예들에서, 코딩 시스템(10)은, 비디오 스트리밍, 비디오 재생, 비디오 브로드캐스팅 및/또는 비디오 텔레포니(video telephony)와 같은 애플리케이션들을 지원하기 위해 일방향(one-way) 또는 이방향(two-way) 비디오 전송을 지원하도록 구성될 수 있다.

도 1의 예에서, 소스 디바이스(12)는 비디오 소스(18), 비디오 인코더(20) 및 출력 인터페이스(22)를 포함한다. 목적지 디바이스(14)는 입력 인터페이스(28), 비디오 디코더(30) 및 디스플레이 디바이스(32)를 포함한다. 본 개시내용에 따르면, 소스 디바이스(12)의 비디오 인코더(20) 및/또는 목적지 디바이스(14)의 비디오 디코더(30)는 비디오 코딩을 위한 기법들을 적용하도록 구성될 수 있다. 다른 예들에서, 소스 디바이스 및 목적지 디바이스는 다른 컴포넌트들 또는 어레인지먼트(arrangement)들을 포함할 수 있다. 예를 들어, 소스 디바이스(12)는 외부 카메라와 같은 외부 비디오 소스로부터 비디오 데이터를 수신할 수 있다. 마찬가지로, 목적지 디바이스(14)는, 통합형 디스플레이 디바이스를 포함하기 보다는, 외부 디스플레이 디바이스와 인터페이싱할 수 있다.

도 1의 예시된 코딩 시스템(10)은 단지 일 예이다. 비디오 코딩을 위한 기법들은 임의의 디지털 비디오 인코딩 및/또는 디코딩 디바이스에 의해 수행될 수 있다. 일반적으로 본 개시내용의 기법들은 비디오 코딩 디바이스에 의해 수행되지만, 기법들은 또한, 통상적으로 “CODEC”으로 지칭되는, 비디오 인코더/디코더에 의해 수행될 수 있다. 아울러, 본 개시내용의 기법들은 또한 비디오 프리프로세서(preprocessor)에 의해 수행될 수 있다. 비디오 인코더 및/또는 디코더는 그래픽 프로세싱 유닛(GPU; graphics processing unit) 또는 유사한 디바이스일 수 있다.

소스 디바이스(12) 및 목적지 디바이스(14)는 단지 이러한 코딩 디바이스들의 예들이며, 이 코딩 디바이스들에서, 소스 디바이스(12)는 목적지 디바이스(14)로의 전송을 위해, 코딩된 비디오 데이터를 생성한다. 일부 예들에서, 소스 디바이스(12) 및 목적지 디바이스(14)는, 소스 디바이스(12) 및 목적지 디바이스(14) 각각이 비디오 인코딩 및 디코딩 컴포넌트들을 포함하도록 실질적으로 대칭적 방식으로 동작할 수 있다. 따라서, 코딩 시스템(10)은 예를 들어, 비디오 스트리밍, 비디오 재생, 비디오 브로드캐스팅 또는 비디오 텔레포니를 위해 비디오 디바이스들(12, 14) 사이의 일방향 또는 이방향 비디오 전송을 지원할 수 있다.

소스 디바이스(12)의 비디오 소스(18)는 비디오 캡처 디바이스, 이를테면, 비디오 카메라, 이전에 캡처된 비디오를 보유하는 비디오 아카이브(video archive), 및/또는 비디오 콘텐츠 제공자로부터 비디오를 수신하는 비디오 공급 인터페이스를 포함할 수 있다. 추가적인 대안으로서, 비디오 소스(18)는 소스 비디오로서 또는 라이브 비디오, 아카이브된 비디오 및 컴퓨터로 생성된 비디오의 조합으로서 컴퓨터 그래픽-기반 데이터(computer graphics-based data)를 생성할 수 있다.

일부 경우들에서, 비디오 소스(18)가 비디오 카메라인 경우, 소스 디바이스(12) 및 목적지 디바이스(14)는 소위 카메라 폰들 또는 비디오 폰들을 형성할 수 있다. 그러나, 위에서 언급된 바와 같이, 본 개시내용에서 설명된 기법들은 일반적으로 비디오 코딩에 적용가능할 수 있고, 무선 및/또는 유선 애플리케이션들에 적용될 수 있다. 각각의 경우에, 캡처된, 미리캡처된 또는 컴퓨터로 생성된 비디오는 비디오 인코더(20)에 의해 인코딩될 수 있다. 그런 다음, 인코딩된 비디오 정보는 출력 인터페이스(22)에 의해 컴퓨터-판독가능 매체(16) 상에 출력될 수 있다.

컴퓨터-판독가능 매체(16)는 일시적 매체, 이를테면, 무선 브로드캐스트 또는 유선 네트워크 전송 또는 저장 매체(즉, 비-일시적 저장 매체), 이를테면, 하드 디스크(hard disk), 플래시 드라이브, 컴팩트 디스크(compact disc), 디지털 비디오 디스크(digital video disc), 블루-레이 디스크(Blu-ray disc) 또는 다른 컴퓨터-판독가능 매체를 포함할 수 있다. 일부 예들에서, 네트워크 서버(미도시)는 소스 디바이스(12)로부터 인코딩된 비디오 데이터를 수신할 수 있고, 예를 들어, 네트워크 전송을 통해 인코딩된 비디오 데이터를 목적지 디바이스(14)에 제공할 수 있다. 유사하게, 디스크 스탬핑 설비와 같은 매체 생성 설비의 컴퓨팅 디바이스는 소스 디바이스(12)로부터 인코딩된 비디오 데이터를 수신할 수 있고 인코딩된 비디오 데이터를 포함하는 디스크를 생성할 수 있다. 따라서, 컴퓨터-판독가능 매체(16)는 다양한 예들에서 다양한 형태들의 하나 이상의 컴퓨터-판독가능 매체를 포함하는 것으로 이해될 수 있다.

목적지 디바이스(14)의 입력 인터페이스(28)는 컴퓨터-판독가능 매체(16)로부터 정보를 수신한다. 컴퓨터-판독가능 매체(16)의 정보는, 비디오 인코더(20)에 의해 정의되는 신택스 정보(syntax information)(또한 비디오 디코더(30)에 의해 사용됨)를 포함할 수 있고, 이는 블록들 및 다른 코딩된 유닛들, 예를 들어, GOP(group of picture)들의 특성들 및/또는 프로세싱을 설명하는 신택스 엘리먼트들을 포함한다. 디스플레이 디바이스(32)는 디코딩된 비디오 데이터를 사용자에게 디스플레이하며, 임의의 다양한 디스플레이 디바이스들, 이를테면 CRT(cathode ray tube), LCD(liquid crystal display), 플라즈마 디스플레이, OLED(organic light emitting diode) 디스플레이 또는 다른 타입의 디스플레이 디바이스를 포함할 수 있다.

비디오 인코더(20) 및 비디오 디코더(30)는 현재 개발중인 HEVC(High Efficiency Video Coding) 표준과 같은 비디오 코딩 표준에 따라 동작할 수 있고, HEVC 테스트 모델(HM)을 따를 수 있다. 대안적으로, 비디오 인코더(20) 및 비디오 디코더(30)는, 다른 독점 또는 산업 표준들, 이를테면, 대안적으로 MPEG(Moving Picture Expert Group)-4로 지칭되는 ITU-T(International Telecommunications Union Telecommunication Standardization Sector) H.264 표준, Part 10, AVC(Advanced Video Coding), H.265/HEVC 또는 이러한 표준들의 연장들에 따라 동작할 수 있다. 그러나, 본 개시내용의 기법들은 임의의 특정 코딩 표준으로 제한되지 않는다. 비디오 코딩 표준들의 다른 예들은 MPEG-2 및 ITU-T H.263을 포함한다. 도 1에 도시되지 않지만, 일부 측면들에서, 비디오 인코더(20) 및 비디오 디코더(30) 각각은 오디오 인코더 및 디코더와 통합될 수 있고, 그리고 공통 데이터 스트림 또는 별개의 데이터 스트림들에서 오디오 및 비디오 둘 모두의 인코딩을 다루기 위해, 적절한 멀티플렉서/디멀티플렉서(MUX-DEMUX) 유닛들, 또는 다른 하드웨어 및 소프트웨어를 포함할 수 있다. 적용가능하면, MUX-DEMUX 유닛들은 ITU H.223 멀티플렉서 프로토콜, 또는 UDP(user datagram protocol)와 같은 다른 프로토콜들을 준수할 수 있다.

비디오 인코더(20) 및 비디오 디코더(30) 각각은, 하나 이상의 마이크로프로세서들, DSP(digital signal processor)들, ASIC(application specific integrated circuit)들, FPGA(field programmable gate array)들, 이산 로직, 소프트웨어, 하드웨어, 펌웨어 또는 이들의 임의의 조합들과 같은 다양한 적합한 인코더 회로부 중 임의의 것으로서 구현될 수 있다. 기법들이 부분적으로 소프트웨어로 구현되는 경우, 디바이스는, 소프트웨어를 위한 명령들을 적절한 비-일시적 컴퓨터-판독가능 매체에 저장할 수 있고, 본 개시내용의 기법들을 수행하기 위해 하나 이상의 프로세서들을 사용하여 명령들을 하드웨어에서 실행할 수 있다. 비디오 인코더(20) 및 비디오 디코더(30) 각각은 하나 이상의 인코더들 또는 디코더들에 포함될 수 있고, 이들 중 어느 하나는 개개의 디바이스에서 결합된 인코더/디코더(CODEC)의 일부로서 통합될 수 있다. 비디오 인코더(20) 및/또는 비디오 디코더(30)를 포함하는 디바이스는 집적 회로, 마이크로프로세서, 및/또는 무선 통신 디바이스, 이를테면 휴대 전화를 포함할 수 있다.

도 2는, 비디오 코딩 기법들을 구현할 수 있는 비디오 인코더(20)의 일 예를 예시하는 블록도이다. 비디오 인코더(20)는 비디오 슬라이스들 내의 비디오 블록들의 인트라-코딩 및 인터-코딩을 수행할 수 있다. 인트라-코딩은 주어진 비디오 프레임 또는 픽처 내에서 비디오의 공간적 리던던시(spatial redundancy)를 감소 또는 제거하기 위해 공간적 예측에 의존한다. 인터-코딩은 비디오 시퀀스의 인접 프레임들 또는 픽처들 내에서 비디오의 시간적 리던던시(temporal redundancy)를 감소 또는 제거하기 위해 시간적 예측에 의존한다. 인트라-모드(I 모드)는 임의의 몇몇 공간 기반 코딩 모드들을 지칭할 수 있다. 인터-모드들, 이를테면, (일명 uni 예측인) 단방향(uni-directional) 예측(P 모드) 또는 (일명 bi 예측인) 양방향(bi-prediction) 예측(B 모드)은 몇몇 시간 기반 코딩 모드들 중 임의의 것을 지칭할 수 있다.

도 2에 도시된 바와 같이, 비디오 인코더(20)는 인코딩될 비디오 프레임 내의 현재 비디오 블록을 수신한다. 도 2의 예에서, 비디오 인코더(20)는 모드 선택 유닛(40), 참조 프레임 메모리(64), 합산기(50), 변환 프로세싱 유닛(52), 양자화 유닛(54) 및 엔트로피 코딩 유닛(56)을 포함한다. 차례로, 모드 선택 유닛(40)은 모션 보상 유닛(44), 모션 추정 유닛(42), 인트라-예측 유닛(일명, intra prediction) (46) 및 파티션 유닛(48)을 포함한다. 비디오 블록 재구성의 경우, 비디오 인코더(20)는 또한 역양자화(inverse quantization) 유닛(58), 역변환 유닛(inverse transform unit)(60) 및 합산기(62)를 포함한다. 블록 경계들을 필터링하여, 재구성된 비디오로부터 블록키니스 아티팩트(blockiness artifact)들을 제거하기 위해 디블로킹 필터(도 2에는 미도시)가 또한 포함될 수 있다. 원한다면, 디블로킹 필터는 통상적으로 합산기(62)의 출력을 필터링할 것이다. 추가적인 필터들(루프 내 또는 루프 후)이 또한 디블로킹 필터에 추가로 사용될 수 있다. 이러한 필터들은 간략화를 위해 도시되지 않지만, 원한다면 (루프 내 필터로서) 합산기(50)의 출력을 필터링할 수 있다.

인코딩 프로세스 동안, 비디오 인코더(20)는 코딩될 비디오 프레임 또는 슬라이스를 수신한다. 프레임 또는 슬라이스는 다수의 비디오 블록들로 분할될 수 있다. 모션 추정 유닛(42) 및 모션 보상 유닛(44)은 시간적 예측을 제공하기 위해 하나 이상의 참조 프레임들의 하나 이상의 블록들에 대한 수신된 비디오 블록의 인터-예측 코딩을 수행한다. 인트라-예측 유닛(46)은 대안적으로, 공간적 예측을 제공하기 위해 코딩될 블록과 동일한 프레임 또는 슬라이스에서 하나 이상의 이웃 블록들에 대한 수신된 비디오 블록의 인트라-예측 코딩을 수행할 수 있다. 비디오 인코더(20)는, 예를 들어, 비디오 데이터의 각각의 블록에 대한 적절한 코딩 모드를 선택하기 위해 다수의 코딩 패스(pass)들을 수행할 수 있다.

아울러, 파티션 유닛(48)은, 이전의 코딩 패스들에서 이전 파티셔닝 방식들의 평가에 기반하여 비디오 데이터의 블록들을 서브-블록들로 파티셔닝할 수 있다. 예를 들어, 파티션 유닛(48)은 초기에 프레임 또는 슬라이스를 가장큰 코딩 유닛(LCU; largest coding unit)들로 파티셔닝할 수 있고, 레이트-왜곡 분석(예를 들어, 레이트-왜곡 최적화)에 기반하여 LCU들 각각을 서브-코딩 유닛(sub-CU)들로 파티셔닝할 수 있다. 모드 선택 유닛(40)은 추가로, LCU의 서브-CU들로의 파티셔닝을 지시하는 쿼드-트리 데이터 구조를 생성할 수 있다. 쿼드-트리의 리프(leaf)-노드 CU들은 하나 이상의 예측 유닛(PU)들 및 하나 이상의 변환 유닛(TU)들을 포함할 수 있다. TU들은 공간적 블록 변환 및 양자화를 위한 계수들을 포함한다. 즉, TU들은 잔차 값들을 변환 계수들로 컨버팅하거나 변환 계수들을 다시 잔차 값들로 컨버팅하기 위해 적용될 수 있는 공간적 변환이다.

본 개시내용은, HEVC의 맥락에서 CU, PU 또는 TU 중 임의의 것, 또는 다른 표준들의 맥락에서 유사한 데이터 구조들(예를 들어, H.264/AVC의 매크로블록들 및 이의 서브-블록들)을 지칭하기 위해 “블록(block)”이란 용어를 사용한다. CU는 코딩 노드, PU들, 및 코딩 노드와 연관된 TU들을 포함한다. CU의 크기는 코딩 노드의 크기에 대응하고 형상이 정사각형이다. CU의 크기는, 8× 8 픽셀들로부터, 최대 64× 64 픽셀들 이상을 갖는 트리블록(treeblock)의 크기까지의 범위일 수 있다. 각각의 CU는 하나 이상의 PU들 및 하나 이상의 TU들을 보유할 수 있다. CU와 연관된 신택스 데이터는, 예를 들어, CU를 하나 이상의 PU들로 파티셔닝하는 것을 설명할 수 있다. 파티셔닝 모드들은, CU가 스킵(skip)되는지 또는 다이렉트 모드 인코딩되는지, 인트라-예측 모드 인코딩되는지 또는 인터-예측(일명 inter prediction) 모드 인코딩되는지 여부 사이에서 상이할 수 있다. PU들은, 비-정사각형 형상으로 파티셔닝될 수 있다. CU와 연관된 신택스 데이터는 또한, 예를 들어, 쿼드-트리에 따라 CU를 하나 이상의 TU들로 파티셔닝하는 것을 설명할 수 있다. TU는, 형상이 정사각형 또는 비-정사각형(예를 들어, 직사각형)일 수 있다.

모드 선택 유닛(40)은, 예를 들어, 에러 결과들에 기반하여 코딩 모드들, 즉, 인트라-모드 또는 인터-모드 중 하나를 선택할 수 있고, 그리고 결과적인 인트라-코딩된 블록 또는 인터-코딩된 블록을, 잔차 블록 데이터를 생성하기 위해 합산기(50)에 그리고 참조 프레임으로서 사용할 인코딩된 블록을 재구성하기 위해 합산기(62)에 제공한다. 모드 선택 유닛(40)은 또한, 신택스 엘리먼트들, 이를테면 모션 벡터들, 인트라-모드 지시자들, 파티션 정보 및 다른 그러한 신택스 정보를 엔트로피 코딩 유닛(56)에 제공한다.

모션 추정 유닛(42) 및 모션 보상 유닛(44)은 잘 통합될 수 있지만, 개념적 목적들로 별개로 예시된다. 모션 추정 유닛(42)에 의해 수행된 모션 추정은, 비디오 블록들을 위한 모션을 추정하는 모션 벡터들을 생성하는 프로세스이다. 모션 벡터는, 예를 들어, 현재 프레임(또는 다른 코딩된 유닛) 내에 코딩되는 현재 블록에 대해 참조 프레임(또는 다른 코딩된 유닛) 내의 예측 블록에 대한 현재 비디오 프레임 또는 픽처 내의 비디오 블록의 PU의 변위를 지시할 수 있다. 예측 블록은, SAD(sum of absolute difference), SSD(sum of square difference) 또는 다른 차이 메트릭들에 의해 결정될 수 있는 픽셀 차이의 관점에서, 코딩될 블록에 근접하게 매칭하는 것으로 발견된 블록이다. 일부 예들에서, 비디오 인코더(20)는 참조 프레임 메모리(64)에 저장된 참조 픽처들의 서브-정수 픽셀(sub-integer pixel) 포지션들에 대한 값들을 계산할 수 있다. 예를 들어, 비디오 인코더(20)는 1/4 픽셀 포지션들, 1/8 픽셀 포지션들 또는 참조 픽처의 다른 분수(fractional) 픽셀 포지션들의 값들을 보간할 수 있다. 따라서, 모션 추정 유닛(42)은 전체 픽셀 포지션들 및 분수 픽셀 포지션들에 대한 모션 탐색을 수행할 수 있고, 분수 픽셀 정밀도를 갖는 모션 벡터를 출력할 수 있다.

모션 추정 유닛(42)은, PU의 포지션을 참조 픽처의 예측 블록의 포지션과 비교함으로써 인터-코딩된 슬라이스에서 비디오 블록의 PU에 대한 모션 벡터를 계산한다. 참조 픽처는 제1 참조 픽처 리스트(리스트 0) 또는 제2 참조 픽처 리스트(리스트 1)로부터 선택될 수 있고, 이들 각각은 참조 프레임 메모리(64)에 저장된 하나 이상의 참조 픽처들을 식별한다. 모션 추정 유닛(42)은 계산된 모션 벡터를 엔트로피 코딩 유닛(56) 및 모션 보상 유닛(44)에 송신한다.

모션 보상 유닛(44)에 의해 수행되는 모션 보상은, 모션 추정 유닛(42)에 의해 결정된 모션 벡터에 기반하여 예측 블록을 페칭(fetching) 또는 생성하는 것을 수반할 수 있다. 다시, 모션 추정 유닛(42) 및 모션 보상 유닛(44)은 일부 예들에서 기능적으로 통합될 수 있다. 현재 비디오 블록의 PU에 대한 모션 벡터를 수신한 때에는, 모션 보상 유닛(44)은 참조 픽처 리스트들 중 하나에서 모션 벡터가 가리키는 예측 블록을 로케이팅할 수 있다. 합산기(50)는, 아래에서 논의되는 바와 같이, 코딩되는 현재 비디오 블록의 픽셀 값들로부터 예측 블록의 픽셀 값들을 차감함으로써 잔차 비디오 블록을 형성하여, 픽셀 차이 값들을 형성한다. 일반적으로, 모션 추정 유닛(42)은 루마 성분들에 대한 모션 추정을 수행하고, 모션 보상 유닛(44)은 크로마(chroma) 성분들 및 루마 성분들 둘 다에 대한 루마 성분들에 기반하여 계산된 모션 벡터들을 사용한다. 모드 선택 유닛(40)은 또한, 비디오 슬라이스의 비디오 블록들을 디코딩할 시에 비디오 디코더(30)에 의한 사용을 위해 비디오 블록들 및 비디오 슬라이스와 연관된 신택스 엘리먼트들을 생성할 수 있다.

인트라-예측 유닛(46)은, 위에서 설명된 바와 같이, 모션 추정 유닛(42) 및 모션 보상 유닛(44)에 의해 수행된 인터-예측에 대한 대안으로서 현재 블록을 인트라-예측할 수 있다. 특히, 인트라-예측 유닛(46)은 현재 블록을 인코딩하는 데 사용할 인트라-예측 모드를 결정할 수 있다. 일부 예들에서, 인트라-예측 유닛(46)은, 예를 들어, 별개의 인코딩 패스들 동안 다양한 인트라-예측 모드들을 사용하여 현재 블록을 인코딩할 수 있고, 인트라-예측 유닛(46)(또는 일부 예들에서, 모드 선택 유닛(40))은, 테스트된 모드들로부터, 사용할 적절한 인트라-예측 모드를 선택할 수 있다.

예를 들어, 인트라-예측 유닛(46)은, 다양한 테스트된 인트라-예측 모드들에 대한 레이트-왜곡 분석을 사용하여 레이트-왜곡 값들을 계산할 수 있고 그리고 테스트된 모드들 중 최상의 레이트-왜곡 특성들을 갖는 인트라-예측 모드를 선택할 수 있다. 레이트-왜곡 분석은 일반적으로, 인코딩된 블록과 (인코딩된 블록을 생성하기 위해 인코딩되었던) 원래의 인코딩되지 않은 블록 간의 왜곡(또는 에러)의 양뿐만 아니라, 인코딩된 블록을 생성하기 위해 사용된 비트레이트(즉, 비트들의 수)를 결정한다. 인트라-예측 유닛(46)은, 어느 인트라-예측 모드가 블록에 대한 최상의 레이트-왜곡 값을 나타내는지를 결정하기 위해 다양한 인코딩된 블록들에 대한 왜곡들 및 레이트들로부터의 비율들을 계산할 수 있다.

또한, 인트라-예측 유닛(46)은 깊이 모델링 모드(DMM; depth modeling mode)를 사용하여 깊이 맵의 깊이 블록들을 코딩하도록 구성될 수 있다. 모드 선택 유닛(40)은, 예를 들어, 레이트-왜곡 최적화(RDO; rate-distortion optimization)를 사용하여, 이용가능한 DMM 모드가 인트라-예측 모드 및 다른 DMM 모드들보다 더 양호한 코딩 결과들을 산출하는지 여부를 결정할 수 있다. 깊이 맵에 대응하는 텍스처 이미지(texture image)에 대한 데이터는 참조 프레임 메모리(64)에 저장될 수 있다. 모션 추정 유닛(42) 및 모션 보상 유닛(44)은 또한, 깊이 맵의 깊이 블록들을 인터-예측하도록 구성될 수 있다.

블록에 대한 인트라-예측 모드(예를 들어, 기존의 인트라-예측 모드, 또는 DMM 모드들 중 하나)를 선택한 후, 인트라-예측 유닛(46)은 블록에 대한 선택된 인트라-예측 모드를 지시하는 정보를 엔트로피 코딩 유닛(56)에 제공할 수 있다. 엔트로피 코딩 유닛(56)은 선택된 인트라-예측 모드를 지시하는 정보를 인코딩할 수 있다. 비디오 인코더(20)는 전송된 비트스트림에 구성 데이터를 포함할 수 있고, 이는, 복수의 인트라-예측 모드 인덱스 표들 및 복수의 수정된 인트라-예측 모드 인덱스 표들(또한 코드워드 맵핑 표들로 지칭됨), 다양한 블록들에 대한 인코딩 콘텍스트들의 정의들, 및 가장 개연성있는 인트라-예측 모드의 지시들, 인트라-예측 모드 인덱스 표 및 콘텍스트들 각각에 사용할 수정된 인트라-예측 모드 인덱스 표을 포함할 수 있다.

비디오 인코더(20)는 모드 선택 유닛(40)으로부터의 예측 데이터를 코딩되는 원래의 비디오 블록으로부터 차감함으로써 잔여 비디오 블록을 형성한다. 합산기(50)는 이러한 차감 연산을 수행하는 컴포넌트 또는 컴포넌트들을 표현한다.

변환 프로세싱 유닛(52)은 변환, 이를테면, 이산 코사인 변환(DCT; discrete cosine transform) 또는 개념적으로 유사한 변환을 잔차 블록에 적용하여, 잔차 변환 계수 값들을 포함하는 비디오 블록을 생성한다. 변환 프로세싱 유닛(52)은 DCT와 개념적으로 유사한 다른 변환들을 수행할 수 있다. 웨이블릿 변환들, 정수 변환들, 서브-대역 변환들 또는 다른 타입들의 변환들이 또한 사용될 수 있다.

변환 프로세싱 유닛(52)은 잔차 블록에 변환을 적용하여, 잔차 변환 계수들의 블록을 생성한다. 변환은 픽셀 값 도메인으로부터의 잔차 정보를, 주파수 도메인과 같은 변환 도메인으로 컨버팅할 수 있다. 변환 프로세싱 유닛(52)은 결과적인 변환 계수들을 양자화 유닛(54)에 송신할 수 있다. 양자화 유닛(54)은 비트 레이트를 추가로 감소시키기 위해 변환 계수들을 양자화한다. 양자화 프로세스는 계수들의 일부 또는 전부와 연관된 비트 깊이를 감소시킬 수 있다. 양자화 정도는 양자화 파라미터를 조절함으로써 수정될 수 있다. 그런 다음, 일부 예들에서, 양자화 유닛(54)은 양자화된 변환 계수들을 포함하는 행렬의 스캔을 수행할 수 있다. 대안적으로, 엔트로피 코딩 유닛(56)이 스캔을 수행할 수 있다.

양자화에 후속하여, 엔트로피 코딩 유닛(56)은 양자화된 변환 계수들을 엔트로피 코딩한다. 예를 들어, 엔트로피 코딩 유닛(56)은, CAVLC(context adaptive variable length coding), CABAC(context adaptive binary arithmetic coding), SBAC(syntax-based context-adaptive binary arithmetic coding), PIPE(probability interval partitioning entropy) 코딩 또는 다른 엔트로피 코딩 기법을 수행할 수 있다. 상황-기반 엔트로피 코딩의 경우, 상황은 이웃 블록들에 기반할 수 있다. 엔트로피 코딩 유닛(56)에 의한 엔트로피 코딩에 후속하여, 인코딩된 비트스트림은 다른 디바이스(예를 들어, 비디오 디코더(30))에 전송되거나 또는 추후의 전송 또는 리트리벌(retrieval)을 위해 아카이브될 수 있다.

역양자화 유닛(58) 및 역변환 유닛(60)은, 예를 들어, 참조 블록으로서의 추후의 사용을 위해서, 픽셀 도메인의 잔차 블록을 재구성하기 위해 역양자화 및 역변환을 각각 적용한다. 모션 보상 유닛(44)은 참조 프레임 메모리(64)의 프레임들 중 하나의 예측 블록에 잔차 블록을 추가함으로써 참조 블록을 계산할 수 있다. 모션 보상 유닛(44)은 또한, 모션 추정에서 사용할 서브-정수 픽셀 값들을 계산하기 위해, 재구성된 잔차 블록에 하나 이상의 보간 필터들을 적용할 수 있다. 합산기(62)는, 참조 프레임 메모리(64)에의 저장을 위한 재구성된 비디오 블록을 생성하기 위해, 모션 보상 유닛(44)에 의해 생성된 모션 보상된 예측 블록에 재구성된 잔차 블록을 추가한다. 재구성된 비디오 블록은, 후속 비디오 프레임 내의 블록을 인터-코딩하기 위한 참조 블록으로서 모션 추정 유닛(42) 및 모션 보상 유닛(44)에 의해 사용될 수 있다.

도 3은, 비디오 코딩 기법들을 구현할 수 있는 비디오 디코더(30)의 일 예를 예시하는 블록도이다. 도 3의 예에서, 비디오 디코더(30)는 엔트로피 디코딩 유닛(70), 모션 보상 유닛(72), 인트라 예측 유닛(74), 역양자화 유닛(76), 역변환 유닛(78), 참조 프레임 메모리(82) 및 합산기(80)를 포함한다. 비디오 디코더(30)는, 일부 예들에서, 비디오 인코더(20)(도 2)에 대해 설명된 인코딩 패스(pass)에 대해 일반적으로 역(reciprocal)인 디코딩 패스를 수행할 수 있다. 모션 보상 유닛(72)은 엔트로피 디코딩 유닛(70)으로부터 수신된 모션 벡터들에 기반하여 예측 데이터를 생성할 수 있는 반면, 인트라-예측 유닛(74)은 엔트로피 디코딩 유닛(70)으로부터 수신된 인트라-예측 모드 지시자들에 기반하여 예측 데이터를 생성할 수 있다.

디코딩 프로세스 동안, 비디오 디코더(30)는 비디오 인코더(20)로부터 연관된 신택스 엘리먼트들 및 인코딩된 비디오 슬라이스의 비디오 블록들을 표현하는 인코딩된 비디오 비트스트림을 수신한다. 비디오 디코더(30)의 엔트로피 디코딩 유닛(70)은 양자화된 계수들, 모션 벡터들 또는 인트라-예측 모드 지시자들, 및 다른 신택스 엘리먼트들을 생성하기 위해 비트스트림을 엔트로피 디코딩한다. 엔트로피 디코딩 유닛(70)은 모션 벡터들 및 다른 신택스 엘리먼트들을 모션 보상 유닛(72)에 포워딩한다. 비디오 디코더(30)는 비디오 슬라이스 레벨 및/또는 비디오 블록 레벨에서 신택스 엘리먼트들을 수신할 수 있다.

비디오 슬라이스가 인트라-코딩된(I) 슬라이스로서 코딩되는 경우, 인트라-예측 유닛(74)은, 시그널링된 인트라-예측 모드 및 현재 프레임 또는 픽처의 이전 디코딩된 블록들로부터의 데이터에 기반하여, 현재 비디오 슬라이스의 비디오 블록에 대한 예측 데이터를 생성할 수 있다. 비디오 프레임이 인터-코딩된(예를 들어, B, P 또는 GPB) 슬라이스로서 코딩되는 경우, 모션 보상 유닛(72)은, 엔트로피 디코딩 유닛(70)으로부터 수신된 모션 벡터들 및 다른 신택스 엘리먼트들에 기반하여, 현재 비디오 슬라이스의 비디오 블록에 대한 예측 블록들을 생성한다. 예측 블록들은 참조 픽처 리스트들 중 하나 내에서의 참조 픽처들 중 하나로부터 생성될 수 있다. 비디오 디코더(30)는, 참조 프레임 메모리(82)에 저장된 참조 픽처들에 기반하여, 디폴트 구성 기법들을 사용하여 참조 프레임 리스트들, 즉, 리스트 0 및 리스트 1을 구성할 수 있다.

모션 보상 유닛(72)은, 모션 벡터들 및 다른 신택스 엘리먼트들을 파싱함으로써 현재 비디오 슬라이스의 비디오 블록에 대한 예측 정보를 결정하고, 그리고 디코딩되는 현재 비디오 블록에 대한 예측 블록들을 생성하기 위해 예측 정보를 사용한다. 예를 들어, 모션 보상 유닛(72)은, 비디오 슬라이스의 비디오 블록들을 코딩하기 위해 사용되는 예측 모드(예를 들어, 인트라-예측 또는 인터-예측), 인터-예측 슬라이스 타입(예를 들어, B 슬라이스, P 슬라이스, 또는 GPS 슬라이스), 슬라이스에 대한 참조 픽처 리스트들 중 하나 이상에 대한 구성 정보, 슬라이스의 각각의 인터-인코딩된 비디오 블록에 대한 모션 벡터들, 슬라이스의 각각의 인터-코딩된 비디오 블록에 대한 인터-예측 상태, 및 현재 비디오 슬라이스 내의 비디오 블록들을 디코딩하기 위한 다른 정보를 결정하기 위해, 수신된 신택스 엘리먼트들 중 일부를 사용한다.

모션 보상 유닛(72)은 또한 보간 필터들에 기반하여 보간을 수행할 수 있다. 모션 보상 유닛(72)은, 참조 블록들의 서브-정수 픽셀들에 대한 보간된 값들을 계산하기 위해 비디오 블록들의 인코딩 동안 비디오 인코더(20)에 의해 사용되는 바와 같은 보간 필터들을 사용할 수 있다. 이러한 경우, 모션 보상 유닛(72)은, 수신된 신택스 엘리먼트들로부터 비디오 인코더(20)에 의해 사용되는 보간 필터들을 결정할 수 있고 그리고 예측 블록들을 생성하기 위해 보간 필터들을 사용할 수 있다.

깊이 맵에 대응하는 텍스처 이미지에 대한 데이터는 참조 프레임 메모리(82)에 저장될 수 있다. 모션 보상 유닛(72)은 또한, 깊이 맵의 깊이 블록들을 인터-예측하도록 구성될 수 있다.

이미지 및 비디오 압축은 급속한 성장을 경험했으며, 이는 다양한 코딩 표준들로 이어졌다. 이러한 비디오 코딩 표준은, ITU-T H.261, ISO/IEC(International Organization for Standardization/International Electrotechnical Commission) MPEG-1 파트 2, ITU-T H.262 또는 ISO/IEC MPEG-2 파트 2, ITU-T H.263, ISO/IEC MPEG-4 파트 2, AVC(Advanced Video Coding)(또한 ITU-T H.264 또는 ISO/IEC MPEG-4 파트 10으로 알려짐) 및 HEVC(또한, ITU-T H.265 또는 MPEG-H 파트 2로 알려짐)를 포함한다. AVC는 SVC(Scalable Video Coding), MVC(Multiview Video Coding) 및 MVC+D(Multiview Video Coding plus Depth), 및 3D AVC(3D-AVC)와 같은 확장들을 포함한다. HEVC는 확장들, 이를테면, SHVC(Scalable HEVC), MV-HEVC(Multiview HEVC), 및 3D HEVC(3D-HEVC)를 포함한다. ITU-T 및 ISO/IEC의 JVET(joint video experts team)에 의해 개발되고 있는 새로운 비디오 코딩 표준(VVC(Versatile Video Coding)로 명명됨)이 있다. VVC 표준은 여러 규격 초안(WD; Working Draft)들을 갖지만, 특히 VVC의 하나의 WD(즉, B. Bross, J. Chen 및 S. Liu의 "Versatile Video Coding(Draft 4)"(JVET-M1001, 제13차 JVET 회의, 2019년 1월(VVC 초안 4))이 본원에서 참조된다.

비디오 코딩을 수행할 때, 비디오는 프레임들로 분리된다. 프레임들은 픽셀들의 블록들로 파티셔닝된다. 이후, 코딩 트리 유닛(CTU) 또는 이미지 블록으로 지칭될 수 있는 각각의 픽셀 블록은, 인트라-예측 및/또는 인터-예측에 의해 압축된다. 인트라-예측은 각각의 이미지 블록을 프레임 내의 하나 이상의 참조 샘플들에 매칭시킨다. 이후, 이미지 블록과 참조 샘플(들) 사이의 관계를 지시하기 위해 인트라-예측 모드가 인코딩된다. 인코딩된 인트라-예측 모드는 이미지 픽셀들보다 더 적은 공간을 차지한다. 인터-예측은 프레임들 사이에서 매칭되는 이미지 블록들에 대해 유사한 방식으로 동작한다.

파티셔닝 시스템들은 이미지 블록들을 서브-블록들로 분할하도록 구성된다. 예를 들어, 노드(예를 들어, 블록)를 자식 노드들(예를 들어, 서브-블록들)로 분할하기 위해, 다양한 분할 모드들을 이용하는 트리 구조가 이용될 수 있다. 상이한 분할 모드들이 상이한 파티션들을 획득하기 위해 이용될 수 있다. 추가로, 분할 모드들은 또한, 노드들을 추가로 세분화하기 위해 재귀적으로 적용될 수 있다.

도 4a 내지 도 4e는 다양한 파티셔닝 타입들 중 하나의 파티셔닝 타입이 적용되는 블록(400)(예를 들어, CTU)을 집합적으로 예시한다. 도 4a에서 블록(400)은 4개의 서브-블록들(402)로 쿼드-트리(QT) 파티셔닝(일명, 분할)되었다. 도 4b 내지 도 4c에서 블록들(400)은 2개의 서브-블록들(402)로 바이너리-트리(BT) 파티셔닝되었다. 바이너리-트리 분할의 경우, 2개의 분할 타입들이 있다. 도 4b는 수직 바이너리-트리 파티셔닝을 예시하고, 도 4c는 수평 바이너리-트리 파티셔닝을 예시한다. 쿼드-트리 및 바이너리-트리 이외의 트리 타입들이 지원된다. 예를 들어, 수직 센터-측(vertical center-side) 트리플-트리(TT) 파티셔닝이 도 4d에 도시되고, 수평 센터-측(horizontal center-side) TT 파티셔닝이 도 4e에 도시된다. TT 파티셔닝은 또한, 터너리-트리(ternary-tree) 파티셔닝 또는 센터-측 TT 파티셔닝으로 지칭될 수 있다. 도 4d 내지 도 4e에서, 블록들(400)은 3개의 서브-블록들(402)로 분할된다. 파티셔닝 프로세스는, 최소 허용 쿼드-트리 리프 노드 크기에 도달될 때까지 블록들(400)을 분할하도록 반복될 수 있다.

위에서 설명된 QT-BTTT 코딩 구조(일명, QT-MTT(quad tree plus multitree))는 루트 노드를 복수의 리프 노드들로 파티셔닝하는 데 사용될 수 있다. 첫째, 루트 노드는 하나 이상의 쿼드-트리 리프 노드들로 쿼드 트리 파티셔닝만으로 재귀적으로 파티셔닝될 수 있고, 쿼드-트리 리프 노드들은 코딩 트리의 리프 노드들로의 바이너리-트리 파티셔닝 또는 트리플-트리 파티셔닝을 사용하여 추가로 분할될 수 있다. 이 코딩 트리 구조는, X.Li, H.-C. Chuang, J. Chen, M. Karczewicz, L. Zhang, X. Zhao, A의, 상기 언급된, "Multi-Type-Tree"(JVET-D0117, 제4차 JVET 회의(중국, 청두)(2016년 10월))에서 설명된다.

코딩 트리 노드(예를 들어, CTU)는, (도 4a에서와 같이) 쿼드-트리 파티셔닝, (도 4b에서와 같이) 수직 바이너리-트리 파티셔닝, (도 4c에서와 같이) 수평 바이너리-트리 파티셔닝, (도 4d에서와 같이) 수직 트리플 트리 파티셔닝, 및 (도 4e에서와 같이) 수평 트리플 트리 파티셔닝에 의해 분할될 수 있다. 코딩 트리의 리프 노드는 종종 CU(coding unit)로 지칭된다. 코딩 트리 노드는 변환 트리 노드(TTN; transform tree node)와 연관될 수 있다. TTN은 코딩 트리에 의해 CTU로부터 파티셔닝된 영역이다. 변환 트리 노드의 폭 또는 높이가 최대 TU 크기보다 큰 경우, 변환 트리 노드는 더 작은 자식 변환 트리 노드들로 암묵적으로 파티셔닝된다. 최대 TU는, TU가 비디오 시퀀스에서 이용할 수 있는 가장 큰 디멘션들이다. 변환 트리의 리프 노드는 종종 TU(transform unit)로 지칭된다.

VVC 초안 4에서, 최대 코딩 트리 유닛(CTU) 크기는 128x128이고, 최대 TU 크기(maxTrSize로 표시됨)는 64x64로 고정된다. 최대 TU 크기보다 큰 폭(tbWidth) 또는 높이(tbHeight)를 갖는 변환 트리 노드는 min(tbWidth, maxTrSize)과 동일한 폭 및 min(tbHeight, maxTrSize)과 동일한 높이를 갖는 다수의 TU들로 파티셔닝되며, 여기서 min(a, b)은 a와 b 사이의 최소값이다. VVC 초안 4에서의 TU 파티셔닝은 다음과 같다.

변환 트리 노드의 폭 및 높이(tbWidth 및 tbHeight로 표기됨) 둘 다가 maxTrSize보다 큰 경우, 쿼드 트리 분할은, 변환 트리 노드를, 폭이 tbWidth/2와 같고 높이가 tbHeight/2와 같은 동일한 크기의 4개의 자식 변환 트리 노드들로 분할하는 데 사용된다.

변환 노드의 폭은 maxTrSize보다 크지만 변환 트리 노드의 높이는 maxTrSize보다 크지 않은 경우, 수직 바이너리 트리 분할은, 변환 트리 노드를, 폭이 tbWidth/2와 같고 높이가 tbHeight와 같은 동일한 크기의 2개의 자식 트리 노드로 분할하는 데 사용된다.

변환 노드의 높이는 maxTrSize보다 크지만 변환 트리 노드의 폭은 maxTrSize보다 크지 않은 경우, 수평 바이너리 트리 분할은, 변환 트리 노드를, 폭이 tbWidth와 같고 높이가 tbHeight/2와 같은 동일한 크기의 2개의 자식 트리 노드로 분할하는 데 사용된다.

maxTrSize 값은 64의 고정 값이 아닌 SPS(Sequence Parameter Set)에서 시그널링될 수 있다. 예를 들어, HEVC에서, maxTrSize는 2개의 신택스 엘리먼트들, 즉, SPS 내의

및

를 통해 시그널링된다. 가능한 maxTrSize 값들은 64, 32 및 16일 수 있다.

하드웨어 비디오 코덱 파이프라인 설계에서, 블록들은 종종 SxS 블록 기반 파이프라인 구조로 배열되며, 여기서 S = 64이다. 코딩 트리 유닛은 하나 이상의 SxS 비-중첩 구역들에 대응하고, 각각의 구역은 파이프라인 블록으로 명명된다. TU 프로세싱 순서는 SxS 파이프라인 구조를 위반하지 않아야 한다. 즉, 하나의 SxS 파이프라인 블록의 모든 TU들은, 그 다음 SxS 파이프라인 블록의 TU들이 프로세싱되기 전에 프로세싱되어야 한다.

128x64 변환 트리 노드 및 32의 maxTrSize의 경우, 128x64 변환 트리 노드는 2개의 64x64 파이프라인 블록들에 대응한다. VVC 초안 4에서의 TU 파티션 방법을 사용하여, 128x64 변환 트리 노드가 먼저 쿼드-트리 분할에 의해 4개의 64x32 변환 트리 노드들로 분할되고, 각각의 64x32 변환 트리 노드는 수직 바이너리 트리 분할에 의해 32x32 변환 트리 노드들로 추가로 분할된다.

도 5는, SxS 파이프라인 구조를 위반하는 예시적인 변환 유닛 파티셔닝 기법(500)의 예를 예시한다. 도 5의 예는 폭(W = 128) 및 높이(H = 64)를 갖는 TTN(502)을 도시한다. 폭 및 높이는 다수의 루마 샘플들에서 측정된다. TTN(502)은, TTN(502)의 자식 TTN들(508, 510, 512, 514)로 지칭될 수 있는, 제1 64x64 파이프라인 블록(504) 및 제2 64x64 파이프라인 블록(506)으로 파티셔닝 또는 분할되었다. 자식 TTN들(508, 510, 512, 514)은 64x32의 크기를 갖는다. 제1 및 제2 64x64 파이프라인 블록들(504, 506) 각각은 0 내지 7로 라벨링된 32x32 TU들로 파티셔닝되거나 분할되었다. 도 5의 예가 특정 디멘션들을 제공하지만, 당업자들은 실제 애플리케이션들에서 다른 디멘션들에 직면할 수 있다는 것을 인식할 것이다.

도 5에 도시된 바와 같이, 128x64 TTN에서의 TU 프로세싱 순서가 (화살표들로) 예시되며, 여기서 TU_N은 TU_N-1 이후 프로세싱된다(N = 1,…,7). 도 5에서, TU₀, TU₁, TU₄및 TU₅는 제1 64x64 파이프라인 블록(504)에 있고, TU₂, TU₃, TU₆ 및 TU₇은 제2 64x64 파이프라인 블록(506)에 있다. 도시된 바와 같이, 제2 64x64 파이프라인 블록(506)에서 TU₂는 제1 64x64 파이프라인 블록(504)에서의 TU₁ 직후에 프로세싱된다. 그러나, 제2 64x64 파이프라인 블록(506)에서의 TU₂가 프로세싱될 때, 제1 파이프라인 블록(504)에서의 모든 TU들이 프로세싱된 것은 아니다. 즉, 제2 64x64 파이프라인 블록(506)애서의 TU₂가 프로세싱될 때, 제1 64x64 파이프라인 블록(504)에서의 TU₄ 및 TU₅는 아직 프로세싱되지 않았다. 이는, TU₂가 적절하게 프로세싱되기 위해서는 TU₄ 및 TU₅를 참조할 필요가 있을 수 있기 때문에, 문제시된다. 따라서, VVC 초안 4에서의 TU 파티셔닝 기법(500)은 64x64 파이프라인 구조를 위반한다.

SxS 파이프라인 구조의 무결성을 유지하는 개선된 TU 파티셔닝 방법이 본원에서 개시된다. 아래에서 더 자세히 설명될 것이지만, 이 방법은, TTN(transform tree node)에 대한 최대 TU 크기가 제1 TTN 디멘션 및 제2 TTN 디멘션 둘 다보다 작은 경우, 수직 바이너리 트리 분할 또는 수평 바이너리 트리 분할을 사용하여 직사각형 TTN(transform tree node)을 초기에 파티셔닝하는 기법들을 제공한다. 이는, 자식 TTN들(예를 들어, 정사각형 자식 TTN들)을 생성한다. 제1 자식 TTN 디멘션 및 제2 자식 TTN 디멘션이 최대 TU 크기보다 큰 경우, 자식 TTN들은 변환 유닛(TU)들을 생성하기 위해 쿼드 트리 분할을 사용하여 파티셔닝된다. 이와 달리, 제1 자식 TTN 디멘션 및 제2 자식 TTN 디멘션이 최대 TU 크기와 동일한 경우, 자식 TTN들은 초기에 분리된 TU들이다. 이러한 방식(예를 들어, 임의의 쿼드 트리 분할 이전에 TTN의 수직 또는 수평 바이너리 트리 분할)으로 TTN을 파티셔닝함으로써, VVC(versatile video coding) 표준에서 사용되는 파이프라인 블록 구조가 위반되지 않는다. 따라서, 비디오 코딩에서의 코더/디코더(일명 "코덱(codec)")는, 현재 코덱들에 비해 개선된다(예를 들어, SxS 파이프라인 구조 또는 프로세스의 무결성이 유지됨). 실질적인 문제로서, 개선된 비디오 코딩 프로세스는 코덱에서의 에러들 또는 실패들을 제거할 수 있으며, 이는, 비디오들이 송신되거나, 수신되거나 그리고/또는 보여질 때 사용자에게 더 나은 사용자 경험을 제공한다.

도 6은, SxS 파이프라인 구조의 무결성을 유지하는, TTN(602)에 대한 변환 유닛 파티셔닝 기법(600)의 실시예를 예시한다. 도 6의 실시예에서, VVC 초안 4(도 4 참조)에서의 QT-MTT 코딩 트리 구조가 활용되고, CTU 크기는 128x128이고, 최대 TU 크기는 TTN의 폭 및 높이(예를 들어, TTN(602)의 측면들) 둘 다보다 작다. 일 실시예에서, 최대 TU 크기는 비트스트림에서(예를 들어, SPS에서) 시그널링된다.

TTN(602)이 W = 128의 폭 및 H = 64의 높이를 갖고 최대 TU 크기가 64(예를 들어, 32)보다 작을 때, TTN(602)은 초기에 수직 BT 분할을 사용하여 파티셔닝되어, 각각 크기가 64x64인 2개의 자식 TTN들(608, 610)을 생성한다. 이는, TTN(502)가 초기에, VVC 초안 4에 특정된 바와 같이 64x32의 크기를 갖는 4개의 자식 TTN들(508, 510, 512, 514)을 생성하는 QT 분할을 사용하여 파티셔닝되는, 도 5의 변환 유닛 파티셔닝 기법(500)과 대조적이다.

도 6에 도시된 초기 수직 BT 분할 후에, 각각의 자식 TTN(608, 610)은, 자식 TTN(608) 및 자식 TTN(610)이 최대 TU 크기보다 클 때 TU들(예를 들어, 0 내지 7로 라벨링된 TU들)을 생성하기 위해 QT 분할을 사용하여 추가로 파티셔닝된다. 최대 TU 크기에 대한 자식 TTN들(608, 610)의 크기에 따라, 최대 TU 크기에 도달되기 전에 하나 초과의 QT 분할이 수행될 수 있다. 자식 TTN(608) 및 자식 TTN(610)이 최대 TU 크기 이하인 경우, 자식 TTN들(608, 610)은 TU들에 대응한다. 즉, 자식 TTN들(608, 610)은 TU들인 것으로 결정된다. 도 6에서, 32x32 TU들은 0 내지 7로 라벨링된다.

도 6의 변환 유닛 파티셔닝 기법(600)을 사용하여, (화살표들로 도시된 바와 같이) SxS 파이프라인 구조의 무결성이 유지된다. 즉, 제1 64x64 파이프라인 블록(604)의 모든 TU들은 제2 64x64 파이프라인 블록(606)의 TU들 중 임의의 TU 이전에 프로세싱된다.

특히, 도 6의 변환 유닛 파티셔닝 기법(600)은 제2 TTN 디멘션(예를 들어, 64)과 상이한 제1 TTN 디멘션(예를 들어, 128)을 갖는 직사각형 TTN(예를 들어, TTN(602))의 파티셔닝에 매우 적합하다. 도시된 바와 같이, 변환 유닛 파티셔닝 기법(600)은, TU에 대한 최대 TU 크기(예를 들어, 32)가 제1 TTN 디멘션 및 제2 TTN 디멘션보다 작은 경우, 제2 자식 TTN 디멘션(예를 들어, 64)과 동일한 제1 자식 TTN 디멘션(예를 들어, 64)을 갖는 자식 TTN들(예를 들어, 자식 TTN들(608, 610))을 생성할 수 있다.

실제 애플리케이션들에서, TTN(602) 및 자식 TTN들(608, 610)은 도 6에 도시된 것들 이외의 디멘션들을 가질 수 있다. 부가하여, 최대 TU 크기는 실제 애플리케이션들에서 32와 상이할 수 있다. 일 실시예에서, TTN(602), 자식 TTN들(608, 610) 및 최대 TU 크기는 루마 샘플들에서 측정된다.

일 실시예에서, 제1 TTN 디멘션이 2N개 루마 샘플들이고, 제2 TTN 디멘션이 N개 루마 샘플들이고 그리고 최대 TU 크기가 ½N개 루마 샘플들인 경우, TTN(602)은 도 6에 도시된 수직 BT 분할을 사용하여 파티셔닝된다. 일 실시예에서, N = 64이다. 그러나, 다른 디멘션들 또는 크기들이 실제 애플리케이션들에서 사용될 수 있다.

일 실시예에서, TTN(예를 들어, TTN(602)) 내의 모든 TU들(예를 들어, 0-7로 라벨링된 TU들)의 TTN 깊이는 1로 설정된다. 일 실시예에서, TTN 내의 모든 TU들의 TTN 깊이는 TU들을 획득하는 데 필요한 분할의 수에 따라 설정된다.

VVC 초안 4에서의 transform_tree() 신택스 표에 기반한, 수정된 transform_tree() 신택스 표가 아래 표 1에서 제공된다. 표에서, 개선된 TU 파티셔닝 방법은 이탤릭체 부분들(즉, 4째줄 내지 21째줄)에 대응한다. 표 1에서, tbWidth 및 tbHeight는 변환 트리 노드(예를 들어, TTN(602))의 폭 및 높이를 나타내고, MaxTbSizeY는 최대 TU 크기를 나타낸다. VVC 초안 4에서의 암묵적 TU 파티션 방법은 8째줄 내지 20째줄에서 확인된다.

128x64 변환 트리 노드(예를 들어, TTN(602)) 및 maxTbSizeY가 64 미만(예를 들어, 32)인 경우,

조건은 참이다. 따라서, 변환 트리 노드는 수직 바이너리 트리 분할에 의해 2개의 64x64 변환 트리 노드들로 추가로 분할된다. 2개의 64x64 자식 변환 트리 노드들 각각은 쿼드 트리 분할을 이용하여 변환 유닛들로 추가로 분할된다.

조건이 변환 트리 노드에 대해 거짓일 때, VVC 초안 4에서의 TU 파티션 방법이 사용된다.

표 1: 변환 트리 신택스의 예

도 7은, SxS 파이프라인 구조의 무결성을 유지하는, TTN(702)에 대한 변환 유닛 파티셔닝 기법(700)의 실시예를 예시한다. 도 7의 실시예에서, VVC 초안 4(도 4 참조)의 QT-MTT 코딩 트리 구조가 활용되고, CTU 크기는 128x128이고, 최대 TU 크기는 TTN(702)의 양(both) 디멘션들(예를 들어, 측면들)보다 작다. 일 실시예에서, 최대 TU 크기는 비트스트림에서(예를 들어, SPS에서) 시그널링된다.

TTN(702)이 W = 64의 폭 및 H = 128의 높이를 갖고 최대 TU 크기가 64(예를 들어, 32)보다 작을 때, TTN(702)은 초기에 수평 BT 분할을 사용하여 파티셔닝되어, 각각 크기가 64x64인 2개의 자식 TTN들(708, 710)을 생성한다. 이는, TTN(502)가 초기에, VVC 초안 4에 특정된 바와 같이 64x32의 크기를 갖는 4개의 자식 TTN들(508, 510, 512, 514)을 생성하는 QT 분할을 사용하여 파티셔닝되는, 도 5의 변환 유닛 파티셔닝 기법(500)과 대조적이다

도 7에 도시된 초기 수평 BT 분할 후에, 각각의 자식 TTN(708, 710)은, 자식 TTN(708) 및 자식 TTN(710)이 최대 TU 크기보다 클 때 TU들(예를 들어, 0 내지 7로 라벨링된 TU들)을 생성하기 위해 QT 분할을 사용하여 추가로 파티셔닝된다. 최대 TU 크기에 대한 자식 TTN들(708, 710)의 크기에 따라, 최대 TU 크기에 도달되기 전에 하나 초과의 QT 분할이 수행될 수 있다. 자식 TTN(708) 및 자식 TTN(710)이 최대 TU 크기 이하인 경우, 자식 TTN들(708, 710)은 TU들에 대응한다. 즉, 자식 TTN들(708, 710)은 TU들인 것으로 결정된다. 도 7에서, 32x32 TU들은 0 내지 7로 라벨링된다.

도 7의 변환 유닛 파티셔닝 기법(700)을 사용하여, (화살표들로 도시된 바와 같이) SxS 파이프라인 구조의 무결성이 유지된다. 즉, 제1 64x64 파이프라인 블록(704)의 모든 TU들은 제2 64x64 파이프라인 블록(706)의 TU들 중 임의의 TU 이전에 프로세싱된다.

VVC 초안 4에서의 transform_tree() 신택스 표에 기반한, 수정된 transform_tree() 신택스 표가 아래 표 2에서 제공된다. 표에서, 개선된 TU 파티셔닝 방법은 이탤릭체 부분들(즉, 4째줄 내지 24째줄)에 대응한다. 표 2에서, tbWidth 및 tbHeight는 변환 트리 노드(예를 들어, TNN(702))의 폭 및 높이를 나타내고, MaxTbSizeY는 최대 TU 크기를 나타낸다.

64x128 변환 트리 노드(예를 들어, TTN(702)) 및 maxTbSizeY가 64 미만(예를 들어, 32)인 경우,

조건은 참이다. 따라서, 변환 트리 노드는 수평 바이너리 트리 분할에 의해 2개의 64x64 변환 트리 노드들로 추가로 분할된다. 2개의 64x64 자식 변환 트리 노드들 각각은, VVC 초안 4에서와 동일하게, 쿼드 트리 분할을 이용하여 변환 유닛들로 추가로 분할된다.

표 2: 변환 트리 신택스의 예

VVC 초안 4에서의 transform_tree() 신택스 표에 기반한, 수정된 transform_tree() 신택스 표가 표 3에 제공된다. 표는 표 2의 신택스 표를 사용하는 것과 동등한 TU 파티션 결과들을 제공한다. 이는, MaxTrSize가 64일 때, VVC에서의 TU 파티셔닝 방법이 또한 128x64 변환 트리 노드 또는 64x128 변환 트리 노드를 64x64 자식 노드들로 분할하기 때문이다. 따라서, 계산 복잡성을 감소시키기 위해, 표 2에서의 "MaxTbSizeY <64” 조건 체크가 제거된다.

유사하게, 표 1에서의 "MaxTbSizeY <64” 조건 체크가 또한 제거될 수 있으며, 이는 표 1을 사용하는 것과 동일한 TU 결과들을 제공한다.

표 3: 변환 트리 신택스의 예

VVC 초안 4에서의 transform_tree() 신택스 표에 기반하여 수정된 transform_tree() 신택스 표가 표 4에 제공되며, 이는 표 2의 신택스 표를 사용하는 것과 동등한 TU 파티션 결과들을 제공한다.

표 4: 변환 트리 신택스의 예

도 8은 비디오 디코더(예를 들어, 비디오 디코더(30))에 의해 구현되는 코딩된 비디오 비트스트림을 디코딩하는 방법(800)의 실시예이다. 방법(800)은 디코딩된 비트스트림이 비디오 인코더(예를 들어, 비디오 인코더(20))로부터 직접적으로 또는 간접적으로 수신된 후에 수행될 수 있다. 방법(800)은 SxS 파이프라인 구조 또는 프로세스의 무결성이 유지되기 때문에 디코딩 프로세스를 개선한다. 따라서, 실질적인 문제로서, 코덱의 성능이 개선되고, 이는 더 양호한 사용자 경험으로 이어진다.

블록(802)에서, 제1 TTN 디멘션이 변환 트리 노드(TTN)에 대한 최대 변환 유닛(TU) 크기보다 큰 경우 그리고 제1 TTN 디멘션이 제2 TTN 디멘션보다 큰 경우, 변환 트리 노드(예를 들어, TTN(602))가 수직 바이너리 트리 분할을 사용하여 파티셔닝된다. 일 실시예에서, TTN을 파티셔닝하는 것은, 제2 자식 TTN 디멘션과 동일한 제1 자식 TTN 디멘션을 갖는 자식 TTN들을 생성한다. 일 실시예에서, 방법은, 제1 자식 TTN 디멘션 및 제2 자식 TTN 디멘션이 최대 TU 크기보다 큰 경우 TU들을 생성하기 위해, 쿼드 트리 분할을 사용하여 자식 TTN들을 파티셔닝하는 단계, 및 제1 자식 TTN 디멘션 및 제2 자식 TTN 디멘션이 최대 TU 크기 이하인 경우 자식 TTN들이 TU들인 것으로 결정하는 단계를 더 포함한다.

일 실시예에서, 수직 바이너리 트리 분할은 다음의 신택스:

에 따라 구현된다.

일 실시예에서, 제1 TTN 디멘션이 2N개 루마 샘플들이고, 제2 TTN 디멘션이 N개 루마 샘플들이고 그리고 최대 TU 크기가 ½N개 루마 샘플들인 경우, TTN은 수직 바이너리 트리 분할을 사용하여 파티셔닝된다. 일 실시예에서, N= 64 루마 샘플들이다.

일 실시예에서, 제1 TTN 디멘션, 제2 TTN 디멘션, 제1 자식 TTN 디멘션, 및 제2 자식 TTN 디멘션은 다수의 루마 샘플들에서 측정된다.

블록(804)에서, TTN이 파티셔닝된 후 잔차들을 생성하기 위해 변환 계수들에 변환 유닛(TU)들이 적용된다. 일 실시예에서, TTN 내의 모든 TU들의 TTN 깊이는 1로 설정된다. 일 실시예에서, TTN 내의 모든 TU들의 TTN 깊이는 TU들을 획득하는 데 필요한 분할의 수에 따라 설정된다.

블록(806)에서, 잔차들에 기반하여 재구성된 블록이 생성된다.

도 9는 비디오 인코더(예를 들어, 비디오 인코더(20))에 의해 구현된 비디오 비트스트림을 인코딩하는 방법(900)의 실시예이다. 방법(900)은, (예를 들어, 비디오로부터의) 픽처가 비디오 비트스트림으로 인코딩된 다음 비디오 디코더(예를 들어, 비디오 디코더(30))를 향해 전송될 때 수행될 수 있다. 방법(900)은 SxS 파이프라인 구조 또는 프로세스의 무결성이 유지되기 때문에 인코딩 프로세스를 개선한다. 따라서, 실질적인 문제로서, 코덱의 성능이 개선되고, 이는 더 양호한 사용자 경험으로 이어진다.

블록(902)에서, 제1 TTN 디멘션이 변환 트리 노드(TTN)에 대한 최대 변환 유닛(TU) 크기보다 큰 경우 그리고 제1 TTN 디멘션이 제2 TTN 디멘션보다 큰 경우, 변환 트리 노드(예를 들어, TTN(602))가 수직 바이너리 트리 분할을 사용하여 파티셔닝된다. 일 실시예에서, TTN을 파티셔닝하는 것은, 제2 자식 TTN 디멘션과 동일한 제1 자식 TTN 디멘션을 갖는 자식 TTN들을 생성한다. 일 실시예에서, 방법은, 제1 자식 TTN 디멘션 및 제2 자식 TTN 디멘션이 최대 TU 크기보다 큰 경우 TU들을 생성하기 위해, 쿼드 트리 분할을 사용하여 자식 TTN들을 파티셔닝하는 단계, 및 제1 자식 TTN 디멘션 및 제2 자식 TTN 디멘션이 최대 TU 크기 이하인 경우 자식 TTN들이 TU들인 것으로 결정하는 단계를 더 포함한다.

일 실시예에서, 수직 바이너리 트리 분할은 다음의 신택스:

에 따라 구현된다.

일 실시예에서, 제1 TTN 디멘션이 2N개 루마 샘플들이고, 제2 TTN 디멘션이 N개 루마 샘플들이고 그리고 최대 TU 크기가 ½N개 루마 샘플들인 경우, TTN은 수직 바이너리 트리 분할을 사용하여 파티셔닝된다. 일 실시예에서, N = 64 루마 샘플들이다.

블록(904)에서, TTN이 파티셔닝된 후에 변환 계수들을 생성하기 위해 변환 유닛(TU)들이 잔차들에 적용된다. 일 실시예에서, TTN 내의 모든 TU들의 TTN 깊이는 1로 설정된다. 일 실시예에서, TTN 내의 모든 TU들의 TTN 깊이는 TU들을 획득하는 데 필요한 분할의 수에 따라 설정된다.

블록(906)에서, 변환 계수들은 비트스트림으로 인코딩된다. 블록(908)에서, 비트스트림은 비디오 디코더를 향한 전송을 위해 저장된다. 비디오 비트스트림은 또한 코딩된 비디오 비트스트림 또는 인코딩된 비디오 비트스트림으로 지칭될 수 있다. 일단 비디오 디코더에 의해 수신되면, 인코딩된 비디오 비트스트림은 전자 디바이스(예를 들어, 스마트 폰, 테블릿, 랩탑, 퍼스널 컴퓨터 등)의 디스플레이 또는 스크린상에서 사용자에게 디스플레이 하기 위한 이미지를 생성 또는 만들기 위해 (예를 들어, 위에서 설명된 바와 같이) 디코딩될 수 있다.

도 10은 본 개시내용의 일 실시예에 따른 비디오 코딩 디바이스(1000)(예를 들어, 비디오 인코더(20) 또는 비디오 디코더(30))의 개략도이다. 비디오 코딩 디바이스(1000)는 본원에 설명된 바와 같은 개시된 실시예들을 구현하기에 적합하다. 비디오 코딩 디바이스(1000)는 데이터를 수신하기 위한 입구 포트들(1010) 및 수신기 유닛들(Rx)(1020); 데이터를 프로세싱하기 위한 프로세서, 로직 유닛, 또는 중앙 프로세싱 유닛(CPU)(1030); 데이터를 전송하기 위한 전송기 유닛들(Tx)(1040) 및 출구 포트들(1050); 및 데이터를 저장하기 위한 메모리(1060)를 포함한다. 비디오 코딩 디바이스(1000)는 또한, 광학 또는 전기 신호들의 배출 또는 진입을 위한 입구 포트들(1010), 수신기 유닛들(1020), 전송기 유닛들(1040) 및 출구 포트들(1050)에 연결된 광학-전기(OE; optical-to-electrical) 컴포넌트들 및 전기-광학(EO; electrical-to-optical) 컴포넌트들을 포함할 수 있다.

프로세서(1030)는 하드웨어 및 소프트웨어에 의해 구현된다. 프로세서(1030)는 하나 이상의 CPU 칩들, 코어들(예를 들어, 멀티-코어 프로세서), FPGA(field-programmable gate array)들, ASIC(application specific integrated circuit)들, 및 DSP(digital signal processor) 들로서 구현될 수 있다. 프로세서(1030)는 입구 포트들(1010), 수신기 유닛들(1020), 전송기 유닛들(1040), 출구 포트들(1050) 및 메모리(1060)와 통신한다. 프로세서(1030)는 코딩 모듈(1070)을 포함한다. 코딩 모듈(1070)은 위에서 설명된 개시된 실시예들을 구현한다. 예를 들어, 코딩 모듈(1070)은 다양한 코덱 기능들을 구현하거나, 프로세싱하거나, 준비하거나 또는 제공한다. 따라서, 코딩 모듈(1070)의 포함은, 비디오 코딩 디바이스(1000)의 기능성에 상당한 개선을 제공하고, 상이한 상태로의 비디오 코딩 디바이스(1000)의 변환에 영향을 미친다. 대안적으로, 코딩 모듈(1070)은, 메모리(1060)에 저장되고 프로세서(1030)에 의해 실행되는 명령들로서 구현된다.

비디오 코딩 디바이스(1000)는 또한, 사용자에게 그리고 사용자로부터 데이터를 통신하기 위한 입력 및/또는 출력(I/O) 디바이스들(1080)을 포함할 수 있다. I/O 디바이스들(1080)은 비디오 데이터를 디스플레이 하기 위한 디스플레이, 오디오 데이터를 출력하기 위한 스피커들 등과 같은 출력 디바이스들을 포함할 수 있다. I/O 디바이스들(1080)은 또한, 키보드, 마우스, 트랙볼 등과 같은 입력 디바이스들을 포함할 수 있고 그리고/또는 그러한 출력 디바이스들과 상호작용하기 위한 대응하는 인터페이스들을 포함한다.

메모리(1060)는, 하나 이상의 디스크들, 테이프 드라이브들, 및 솔리드-스테이트 드라이브들을 포함하고 그리고 오버-플로우 데이터 저장 디바이스로서 사용되어, 그러한 프로그램들이 실행을 위해 선택될 때 프로그램들을 저장하고, 프로그램 실행 동안 판독되는 명령들 및 데이터를 저장한다. 메모리(1060)는 휘발성 및/또는 비-휘발성일 수 있고, ROM(read-only memory), RAM(random access memory), TCAM(ternary content-addressable memory), 및/또는 SRAM(static random-access memory) 일 수 있다.

도 11은 코딩하기 위한 수단(1100)의 실시예의 개략도이다. 일 실시예에서, 코딩하기 위한 수단(1100)은 비디오 코딩 디바이스(1102)(예를 들어, 비디오 인코더(20) 또는 비디오 디코더(30))에서 구현된다. 비디오 코딩 디바이스(1102)는 수신 수단(1101)을 포함한다. 수신 수단(1101)은, 인코딩할 픽처를 수신하거나 또는 디코딩할 비트스트림을 수신하도록 구성된다. 비디오 코딩 디바이스(1102)는 수신 수단(1101)에 연결된 전송 수단(1107)을 포함한다. 전송 수단(1107)은 비트스트림을 디코더에 송신하도록 또는 디코딩된 이미지를 디스플레이 수단(예를 들어, I/O 디바이스들(1080) 중 하나)에 전송하도록 구성된다.

비디오 코딩 디바이스(1102)는 저장 수단(1103)을 포함한다. 저장 수단(1103)은 수신 수단(1101) 또는 전송 수단(1107) 중 적어도 하나에 연결된다. 저장 수단(1103)은 명령들을 저장하도록 구성된다. 비디오 코딩 디바이스(1102)는 또한 프로세싱 수단(1105)을 포함한다. 프로세싱 수단(1105)은 저장 수단(1103)에 연결된다. 프로세싱 수단(1105)은 본원에 개시된 방법들을 수행하기 위해 저장 수단(1103)에 저장된 명령들을 실행하도록 구성된다.

본원에서 제시된 예시적인 방법들의 단계들이 반드시 설명된 순서로 수행될 필요는 없으며, 그러한 방법들의 단계들의 순서는 단지 예시적인 것으로 이해되어야 한다는 것이 또한 이해되어야 한다. 마찬가지로, 본 개시내용의 다양한 실시예들에 따른 방법들에서, 부가적인 단계들이 그러한 방법들에 포함될 수 있고, 특정 단계들이 생략되거나 조합될 수 있다.

본 개시내용에서 몇몇 실시예들이 제공되었지만, 개시된 시스템들 및 방법들은 본 개시내용의 사상 또는 범위를 벗어나지 않으면서 많은 다른 특정 형태들로 구현될 수 있다는 것이 이해되어야 한다. 본 예들은 제한적이지 않고 예시적인 것으로 간주되어야 하며, 의도는 본원에서 주어진 세부사항들로 제한되지 않아야 한다. 예를 들어, 다양한 엘리먼트들 또는 컴포넌트들은 다른 시스템에서 결합 또는 통합될 수 있거나, 또는 특정 특징들이 생략되거나 구현되지 않을 수 있다.

부가하여, 이산적이거나 별 개인 것으로 다양한 실시예들에서 설명되고 예시된 기법들, 시스템들, 서브시스템들, 및 방법들은 본 개시내용의 범위를 벗어나지 않으면서 다른 시스템들, 모듈들, 기법들 또는 방법들과 결합되거나 통합될 수 있다. 서로 연결되거나 직접 연결되거나 또는 서로 통신하는 것으로 도시되거나 논의되는 다른 아이템들은 전기적으로, 기계적으로 또는 다른 방식으로든 일부 인터페이스, 디바이스 또는 중간 컴포넌트를 통해 간접적으로 연결되거나 통신할 수 있다. 변경들, 대체들 및 변경들의 다른 예들은 당업자에 의해 확인될 수 있으며, 본원에 개시된 사상 및 범위를 벗어나지 않으면서 이루어질 수 있다.

Claims

비디오 디코더에 의해 구현되는, 코딩된 비디오 비트스트림을 디코딩하는 방법으로서,
제1 변환 트리 노드(TTN; transform tree node) 디멘션이 변환 트리 노드(TTN)에 대한 최대 변환 유닛(TU; transform unit) 크기보다 큰 경우 그리고 상기 제1 TTN 디멘션이 제2 TTN 디멘션보다 큰 경우, 상기 비디오 디코더에 의해, 수직 바이너리 트리 분할(vertical binary tree split)을 사용하여 상기 TTN을 파티셔닝하는 단계;
상기 TTN이 파티셔닝된 후 잔차(residual)들을 생성하기 위해, 상기 비디오 디코더에 의해, 변환 계수들에 변환 유닛(TU)들을 적용하는 단계; 및
상기 비디오 디코더에 의해, 상기 잔차들에 기반하여 재구성된 블록(reconstructed block)을 생성하는 단계
를 포함하는 방법.
제1항에 있어서,
상기 TTN을 파티셔닝하는 단계는, 제2 자식(child) TTN 디멘션과 동일한 제1 자식 TTN 디멘션을 갖는 자식 TTN(child TTN)들을 생성하는, 방법.
제1항에 있어서,
제1 자식 TTN 디멘션 및 제2 자식 TTN 디멘션이 상기 최대 TU 크기보다 큰 경우, 상기 TU들을 생성하기 위해, 상기 비디오 디코더에 의해, 쿼드 트리 분할(quadtree split)을 사용하여 자식 TTN들을 파티셔닝하는 단계; 및
상기 제1 자식 TTN 디멘션 및 상기 제2 자식 TTN 디멘션이 상기 최대 TU 크기 이하인 경우, 상기 비디오 디코더에 의해, 상기 자식 TTN들이 상기 TU들인 것으로 결정하는 단계
를 더 포함하는 방법.
제2항 또는 제3항에 있어서,
상기 제1 TTN 디멘션 및 상기 제2 TTN 디멘션은 다수의 루마 샘플(luma sample)들에서 측정되는, 방법.
제2항 또는 제3항에 있어서,
상기 제1 자식 TTN 디멘션 및 상기 제2 자식 TTN 디멘션은 다수의 루마 샘플들에서 측정되는, 방법.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 TTN 내의 모든 TU들의 TTN 깊이는 1로 설정되는, 방법.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 TTN 내의 모든 TU들의 TTN 깊이는 상기 TU들을 획득하는 데 필요한 분할의 수에 따라 설정되는, 방법.
제1항 내지 제7항 중 어느 한 항에 있어서,
상기 수직 바이너리 트리 분할은 다음의 신택스:
에 따라 구현되는, 방법.
제1항에 있어서,
상기 제1 TTN 디멘션이 2N개 루마 샘플들이고, 상기 제2 TTN 디멘션이 N개 루마 샘플들이고 그리고 상기 최대 TU 크기가 ½N개 루마 샘플들인 경우, 상기 TTN은 상기 수직 바이너리 트리 분할을 사용하여 파티셔닝되는, 방법.
제9항에 있어서,
상기 N = 64 루마 샘플들인, 방법.
비디오 인코더에 의해 구현되는 비디오 스트림을 인코딩하는 방법으로서,
제1 변환 트리 노드(TTN) 디멘션이 변환 트리 노드(TTN)에 대한 최대 변환 유닛(TU) 크기보다 큰 경우 그리고 상기 제1 TTN 디멘션이 제2 TTN 디멘션보다 큰 경우, 상기 비디오 인코더를 의해, 수직 바이너리 트리 분할을 사용하여 상기 TTN을 파티셔닝하는 단계;
상기 TTN이 파티셔닝된 후 변환 계수들을 생성하기 위해, 상기 비디오 인코더에 의해, 잔차들에 변환 유닛(TU)들을 적용하는 단계;
상기 비디오 인코더에 의해, 상기 변환 계수들을 비트스트림으로 인코딩하는 단계; 및
상기 비디오 인코더에 의해, 비디오 디코더를 향한 전송을 위해 상기 비트스트림을 저장하는 단계
를 포함하는 방법.
제11항에 있어서,
상기 TTN을 파티셔닝하는 단계는, 제2 자식 TTN 디멘션과 동일한 제1 자식 TTN 디멘션을 갖는 자식 TTN들을 생성하는, 방법.
제11항에 있어서,
제1 자식 TTN 디멘션 및 제2 자식 TTN 디멘션이 상기 최대 TU 크기보다 큰 경우, 상기 TU들을 생성하기 위해, 상기 비디오 디코더에 의해, 쿼드 트리 분할을 사용하여 자식 TTN들을 파티셔닝하는 단계; 및
상기 제1 자식 TTN 디멘션 및 상기 제2 자식 TTN 디멘션이 상기 최대 TU 크기 이하인 경우, 상기 비디오 디코더에 의해, 상기 자식 TTN들이 상기 TU들인 것으로 결정하는 단계
를 더 포함하는 방법.
제11항 내지 제13항 중 어느 한 항에 있어서,
상기 제1 TTN 디멘션 및 상기 제2 TTN 디멘션은 다수의 루마 샘플(luma sample)들에서 측정되는, 방법.
제11항 내지 제13항 중 어느 한 항에 있어서,
상기 제1 자식 TTN 디멘션 및 상기 제2 자식 TTN 디멘션은 다수의 루마 샘플들에서 측정되는, 방법.
제11항 내지 제15항 중 어느 한 항에 있어서,
상기 TTN 내의 모든 TU들의 TTN 깊이는 1로 설정되는, 방법.
제11항 내지 제16항 중 어느 한 항에 있어서,
상기 TTN 내의 모든 TU들의 TTN 깊이는 상기 TU들을 획득하는 데 필요한 분할의 수에 따라 설정되는, 방법.
제11항 내지 제17항 중 어느 한 항에 있어서,
상기 수직 바이너리 트리 분할은 다음의 신택스:
에 따라 구현되는, 방법.
제11항에 있어서,
상기 제1 TTN 디멘션이 2N개 루마 샘플들이고, 상기 제2 TTN 디멘션이 N개 루마 샘플들이고 그리고 상기 최대 TU 크기가 ½N개 루마 샘플들인 경우, 상기 TTN은 상기 수직 바이너리 트리 분할을 사용하여 파티셔닝되는, 방법.
제19항에 있어서,
상기 N = 64 루마 샘플들인, 방법.
디코딩 디바이스로서,
코딩된 비디오 비트스트림을 수신하도록 구성된 수신기;
수신기에 연결된 메모리 ―상기 메모리는 명령들을 저장함―; 및
상기 메모리에 연결된 프로세서를 포함하며,
상기 프로세서는, 상기 디코딩 디바이스로 하여금,
제1 변환 트리 노드(TTN) 디멘션이 변환 트리 노드(TTN)에 대한 최대 변환 유닛(TU) 크기보다 큰 경우 그리고 상기 제1 TTN 디멘션이 제2 TTN 디멘션보다 큰 경우, 수직 바이너리 트리 분할을 사용하여 상기 TTN을 파티셔닝하게 하고;
상기 TTN이 파티셔닝된 후 잔차들을 생성하기 위해 변환 계수들에 변환 유닛(TU)들을 적용하게 하고; 그리고
상기 잔차들에 기반하여 재구성된 블록을 생성하게 하도록, 상기 명령들을 실행하도록 구성된, 디코딩 디바이스.
제21항에 있어서,
상기 재구성된 블록을 사용하여 생성된 이미지를 디스플레이하도록 구성된 디스플레이를 더 포함하는, 디코딩 디바이스.
인코딩 디바이스로서,
명령들을 보유하는 메모리;
상기 메모리에 연결된 프로세서 ―상기 프로세서는, 상기 인코딩 디바이스로 하여금,
제1 변환 트리 노드(TTN) 디멘션이 변환 트리 노드(TTN)에 대한 최대 변환 유닛(TU) 크기보다 큰 경우 그리고 상기 제1 TTN 디멘션이 제2 TTN 디멘션보다 큰 경우, 수직 바이너리 트리 분할을 사용하여 상기 TTN을 파티셔닝하게 하고;
상기 TTN이 파티셔닝된 후 변환 계수들을 생성하기 위해, 비디오 인코더에 의해, 잔차들에 변환 유닛(TU)들을 적용하게 하고; 그리고
상기 변환 계수들을 비트스트림으로 인코딩하게 하도록 상기 명령들을 구현하도록 구성됨―; 및
상기 프로세서에 연결되며, 비디오 디코더를 향해 상기 비트스트림을 전송하도록 구성된 전송기
를 포함하는, 인코딩 디바이스.
제23항에 있어서,
상기 메모리는, 상기 전송기가 상기 비디오 디코더를 향해 상기 비트스트림을 전송하기 전에, 상기 비트스트림을 저장하는, 인코딩 디바이스.
코딩 장치로서,
인코딩할 픽처(picture)를 수신하거나 또는 디코딩할 비트스트림을 수신하도록 구성된 수신기;
상기 수신기에 연결된 전송기 ―상기 전송기는 상기 비트스트림을 디코더에 전송하거나 또는 디코딩된 이미지를 디스플레이에 전송하도록 구성됨―;
상기 수신기 또는 상기 전송기 중 적어도 하나에 연결된 메모리 ―상기 메모리는 명령들을 저장하도록 구성됨―; 및
상기 메모리에 연결된 프로세서
를 포함하며, 상기 프로세서는 제1항 내지 제10항 중 어느 한 항 및 제11항 내지 제20항 중 어느 한 항에 따른 방법을 수행하기 위해 상기 메모리에 저장된 명령들을 실행하도록 구성되는, 코딩 장치.
시스템으로서,
인코더; 및
상기 인코더와 통신하는 디코더를 포함하며,
상기 인코더 또는 상기 디코더는 제21항 내지 제25항 중 어느 한 항에 따른 디코딩 디바이스, 인코딩 디바이스 또는 코딩 장치를 포함하는, 시스템.
코딩하기 위한 수단으로서,
인코딩할 픽처를 수신하거나 또는 디코딩할 비트스트림을 수신하도록 구성된 수신 수단;
상기 수신 수단에 연결된 전송 수단 ―상기 전송 수단은, 상기 비트스트림을 디코딩 수단에 전송하거나 또는 디코딩된 이미지를 디스플레이 수단에 전송하도록 구성됨―;
상기 수신 수단 또는 상기 전송 수단 중 적어도 하나에 연결된 저장 수단 ―상기 저장 수단은 명령들을 저장하도록 구성됨―; 및
상기 저장 수단에 연결된 프로세싱 수단
을 포함하며, 상기 프로세싱 수단은 제1항 내지 제10항 중 어느 한 항 및 제11항 내지 제20항 중 어느 한 항에 따른 방법을 수행하기 위해 상기 저장 수단에 저장된 명령들을 실행하도록 구성되는, 코딩하기 위한 수단.