KR20130136525A

KR20130136525A - 복잡도가 감소된 변환 단위 파티션의 방법 및 장치

Info

Publication number: KR20130136525A
Application number: KR1020137026588A
Authority: KR
Inventors: 샨 리우; 지 저우; 쇼우-민 레이
Original assignee: 미디어텍 싱가폴 피티이. 엘티디.
Priority date: 2011-03-09
Filing date: 2011-08-09
Publication date: 2013-12-12
Also published as: AU2011361445A1; AU2011361445B2; RU2013145079A; CN103348651B; KR101621330B1; US20120230411A1; WO2012119376A1; CN103348651A; US9788019B2

Abstract

HEVC에는 3가지의 블록 개념: 코딩 단위(codiing unit: CU), 예측 단위(prediction unit: PU), 및 변환 단위(Transform unit: TU)이 도입된다. 전체적인 코딩 단위는 회귀 방식(recursive fashion)으로 다양한 크기의 CU, PU, 및 TU를 특징으로 한다. 현재의 HEVC에서의 변환 프로세싱에 있어서, 계층 잔차 쿼드트리(Residual Quad Tree: RQT)가 사용되고, TU 크기는 CU 크기와 관련되어 있지만, PU 크기와는 무관하다. 이로 인해 인코딩 복잡도가 높아지고 또한 잔차 쿼드트리 구문을 처리하는 데 걸리는 프로세싱 시간이 늘어난다. 따라서, 감소된 복잡도를 가지는 수정된 변환 단위 파티션에 대해 설명한다. 실시예에 따르면, TU 크기는, 2Nx2N 파티션 타입을 가지는 2Nx2N 코딩 단위를 제외한, PU 폭 및 높이로 제한될 수 있다. 다른 실시예에 따르면, 최대 TU 크기는, 2Nx2N 파티션 타입을 가지는 2Nx2N 코딩 단위를 제외하여, PU 폭 및 높이의 최댓값과 동일하고, 최소 TU 크기는 PU 폭 및 높이의 최솟값과 동일하다. 또 다른 실시예에 따르면, TU 크기는 2Nx2N, 2NxN, Nx2N, 및 NxN 파티션 타입에 대해 2Nx2N 및 NxN 중에서 선택된다. 구문 요소, split_transform_flag를 사용하여, 필요 시에 TU 크기를 2Nx2N 또는 NxN 중에서 선택하는 것을 나타낸다. 또한, 2Nx2N CU 병합 모드에 대한 최선의 병합 모드를 감소된 복잡도로 선택하는 방법에 대해 개시한다. 이 방법은 병합 후보의 모션 벡터와 연관된 R-D 비용에 의존하여 필요한 계산을 감소한다.

Description

복잡도가 감소된 변환 단위 파티션의 방법 및 장치{METHOD AND APPARATUS OF TRANSFORM UNIT PARTITION WITH REDUCED COMPLEXITY}

본 발명은 2011년 3월 9일 출원되고 발명의 명칭이 "Syntax for transform unit in HEVC"인 미국 가특허출원 No. 61/450,720, 2011년 3월 14일 출원되고 발명의 명칭이 "Optimization for Merge Mode Decision"인 미국 가특허출원 No. 61/452,457, 및 2011년 6월 9일 출원되고 발명의 명칭이 "Method and Apparatus of Transform Unit Partition with Reduced Complexity"인 미국 가특허출원 No. 13/156,552에 대한 우선권을 주장하는 바이다. 이러한 미국 가특허출원의 내용은 본 명세서에 원용되어 포함된다.

본 발명은 비디오 코딩에 관한 것이다. 특히, 본 발명은 변환 단위 파티션 및 병합 모드 결정의 최적화에 관한 코딩 기술에 관한 것이다.

고효율 비디오 코딩(High Efficiency Video Coding: HEVC)은 기존의 H.264/AVC 표준보다 비트 레이트 감소율을 50% 더 달성하는 것을 목표로 개발 중인 비디오 코딩 표준이다. HEVC는 블록 구조가 매우 유연성이 있는 블록 기반의 하이브리드 비디오 코딩이다. 이러한 HEVC에는 3가지의 블록 개념: 코딩 단위(codiing unit: CU), 예측 단위(prediction unit: PU), 및 변환 단위(Transform unit: TU)이 도입되었다. 전체적인 코딩 단위는 회귀 방식(recursive fashion)으로 다양한 크기의 CU, PU, 및 TU를 특징으로 하며, 여기서 각각의 픽처는 64x64 픽셀로 이루어진 최대 CU(LCU)로 분할된다. 그런 다음 각각의 LCU는 리프(leaf) CU 또는 최소 CU에 도달할 때까지 더 작은 CU로 회귀적으로 분할된다. 일단 CU 계층 트리가 수행되면, 각각의 리프 CU는 파티션 타입에 따라 예측 단위(PU)로 추가로 분할된다. 또한, TU에 변환이 적용되어 공간 데이터를 콤팩트 데이터 표시를 위한 변환 계수로 변환한다.

현재의 HEVC에서의 변환 프로세싱에 있어서, 계층 잔차 쿼드트리(Residual Quad Tree: RQT)가 사용된다. TU 크기는 CU 크기와 관련되어 있지만, PU 크기와는 무관하다. TU 파티션은 PU 파티션과는 무관하고 최대 허용 TU 깊이, 즉 max RQT depth는 3이기 때문에, 잔차 쿼드트리에 대한 현재 구문 transform _ tree()는 매우 복잡하다. 이로 인해 인코딩 복잡도가 높아지고 또한 잔차 쿼드트리 구문을 처리하는 걸리는 시간이 늘어난다. 또한, INTER 모드에 대한 max RQT depth, INTRA 모드에 대한 max RQT depth, max TU size 및 min TU size와 같은 변환 트리와 관련된 일부의 구문 요소를 시퀀스-레벨(SPS) 헤더에 송신하여야 한다. 따라서, 복잡도를 감소시킬 수 있는 TU 표현 방식을 개발하는 것이 바람직하다. 또한, 2Nx2N CU 병합 모드에 대한 최선의 병합 후보를 선택하는 것과 관련된 현재의 계산이 상당히 집중된다. 그러므로 2Nx2N CU 병합 모드에 대한 최상의 병합 후보를 선택하기 위해 계산의 복잡도를 감소시키는 것이 바람직하다.

비디오 데이터의 변환 단위를 프로세싱하는 방법 및 장치에 대해 설명한다. 본 발명에 따르면, 비디오 데이터의 변환 단위를 프로세싱하는 방법 및 장치는, 비디오 데이터의 코딩 단위를 수신하는 단계, 상기 코딩 단위를 2Nx2N, 2NxN, Nx2N, 또는 NxN 파티션 타입에 따라 하나 이상의 예측 단위(prediction unit: PU)로 파티셔닝하는 단계, 및 상기 코딩 단위를, 상기 코딩 단위의 크기 및 상기 하나 이상의 예측 단위의 크기에 의존하는 하나 이상의 변환 단위로 파티셔닝하는 단계를 포함한다. 본 발명의 실시예에 따른 일실시예에서는, 상기 변환 단위의 크기는, 2Nx2N 파티션 타입을 가지는 2Nx2N 코딩 단위를 제외한, PU 폭 및 PU 높이의 최솟값과 동일하고; 상기 2Nx2N 파티션 타입에 대한 변환 단위의 크기는 2Nx2N 및 NxN 중에서 선택된다. 본 발명의 실시예에 따른 다른 실시예에서는, 변환 단위의 최대 크기는, 상기 2Nx2N 파티션 타입을 가지는 2Nx2N 코딩 단위를 제외하여, PU 폭 및 PU 높이의 최댓값과 동일하고, 상기 변환 단위의 최소 크기는 PU 폭 및 PU 높이의 최솟값과 동일하며, 상기 2Nx2N 파티션 타입에 대한 변환 단위의 크기는 2Nx2N 및 NxN 중에서 선택된다. 본 발명의 실시예에 따른 또 다른 실시예에서는, 상기 하나 이상의 변환 단위의 크기는, 2Nx2N, 2NxN, Nx2N, 또는 NxN 파티션 타입에 대해 2Nx2N 및 NxN 중에서 선택된다. 일부의 상황에 있어서는 split_transform_flag 구문 요소를 통합하여 변환 단위가 2Nx2N를 사용하는지 또는 NxN를 사용하는지를 나타낸다.

변환 단위 크기가 예측 단위 크기에 의존하는 비디오 비트스트림의 디코딩 방법 및 장치에 대해 개시한다. 본 발명에 따르면, 변환 단위 크기가 예측 단위 크기에 의존하는 비디오 비트스트림의 디코딩 방법 및 장치는, 비디오 비트스트림 내의 코딩 단위와 연관된 코딩된 데이터를 수신하는 단계, 상기 코딩 단위와 연관된 상기 코딩된 데이터로부터 상기 코딩 단위의 크기를 확정하는 단계, 상기 코딩 단위와 연관된 2Nx2N, 2NxN, Nx2N, 및 NxN 파티션 타입 중에서 예측 단위(prediction unit: PU) 파티션을 확정하는 단계, 상기 코딩 단위의 크기 및 상기 파티션 타입에 따라 상기 코딩된 데이터에, split_transform_flag 구문 요소가 존재하는지를 판단하는 단계, 상기 split_transform_flag 구문 요소가 존재하면, 상기 split_transform_flag의 값을 확정하는 단계, 및 상기 코딩 단위의 크기, 상기 파티션 타입, 및 상기 split_transform_flag의 값에 따라, 상기 코딩 단위와 연관된 상기 변환 단위 파티션을 확정하는 단계를 포함한다. 본 발명에 따른 일실시예에서, 상기 코딩 단위의 크기가 2Nx2N이고 상기 2Nx2N 파티션 타입이 사용되면 상기 split_transform_flag가 존재한다. 본 발명에 따른 또 일실시예에서, 상기 코딩 단위의 크기가 2Nx2N이고 상기 2Nx2N, 2NxN 또는 NxN 파티션 타입이 사용되면 상기 split_transform_flag가 존재한다. 본 발명에 따른 또 일실시예에서, 상기 코딩 단위의 크기가 2Nx2N이고 상기 2Nx2N, 2NxN, 본 발명에 따른 또 일실시예에서, 상기 코딩 단위의 크기가 2Nx2N이고 상기 2Nx2N, 2NxN, 2NxN, 또는 NxN이면 상기 split_transform_flag가 존재한다. 상기 split_transform_flag는 상기 변환 단위 파티션이 2Nx2N인지 또는 NxN인지를 나타낸다.

감소된 인코딩 계산 복잡도를 사용해서 2Nx2N 코딩 단위에 대한 병합 후보를 확정하는 방법 및 장치에 대해 개시한다. 본 발명에 따르면, 감소된 인코딩 계산 복잡도를 사용해서 2Nx2N 코딩 단위에 대한 병합 후보를 확정하는 방법 및 장치는, 2Nx2N 코딩 단위와 연관된 각각의 병합 후보에 대한 모션 벡터를 수신하는 단계, 상기 모션 벡터를 사용해서 상기 각각의 병합 후보에 대한 모션 보상을 수행하여 상기 각각의 병합 후보에 대한 잔차 신호(residual signal)를 유도하는 단계, 상기 잔차 신호 및 모션 벡터와 연관된 모션 추정 비용을 계산하는 단계, 및 상기 병합 후보 중에서 최소의 모션 추정 비용을 발생시키는 최선의 병합 후보를 확정하는 단계를 포함한다.

본 발명에 따른 일실시예에서, 상기 방법 및 장치는 상기 최선의 병합 후보를 잔차 쿼드트리를 사용해서 하나 이상의 변환 단위로 파티셔닝하는 단계, 상기 하나 이상의 변환 단위의 계수를 스캔 패턴에 따라 인코딩하는 단계, 상기 최선의 병합 후보에 대해 인코딩된 계수와 연관된 왜곡 및 비트 레이트에 관련된 병합(MERGE) 모드에 대응하는 제1 R-D 비용을 계산하는 단계, 및 상기 제1 R-D 비용 및 다른 모드와 연관된 다른 R-D 비용 중에서 최소의 R-D 비용을 선택함으로써 상기 인코딩 단위에 대한 모드를 확정하는 단계를 더 포함한다.

도 1은 2Nx2N 코딩 단위를 하나 이상의 예측 단위로 파티셔닝하기 위한 다양한 파티션 타입에 대한 도면이다.
도 2a - 도 2b는 고효율 비디오 코딩(High Efficiency Video Coding: HEVC)의 종래 방법에 따라, 잔차 쿼드트리(RQT) 파티셔닝, transform_tree()에 대한 구문을 도시하는 도면이다.
도 3a - 도 3b는 본 발명의 일실시예에 따라, 잔차 쿼드트리(RQT) 파티셔닝, transform_tree()에 대한 구문을 도시하는 도면이다.
도 4는 도 본 발명의 다른 실시예에 따라, 잔차 쿼드트리(RQT) 파티셔닝, transform_tree()에 대한 구문을 도시하는 도면이다.

HEVC 개발 중에, 개발자들은 HEVC 공통 테스트 모델(HM)을 사용하여 어떤 제안된 알고리즘의 성능을 평가한다. HM 버전 1.0까지는, 도 1에 도시된 바와 같이, 2Nx2N CU는 INTRA 코딩된 프레임 또는 슬라이스에 대해 파티션 크기 2Nx2N 및 NxN을 가지는 PU를 가질 수 있고, 2Nx2N CU는 INTRA 코딩된 프레임 또는 슬라이스에 대해 파티션 크기 2Nx2N, Nx2N, 2NxN 및 NxN을 가지는 PU를 가질 수 있다. 대한민국 대구에서 열린 제4회 비디오 코딩에 관한 합동 공동제작 팀 JCT-VC(Joint Collaborative Team on Video Coding)에서, INTER 및 INTRA 코딩된 프레임 및 슬라이스에 있어서 최소 CU보다 큰 모든 CU로부터 NxN 파티션 타입을 제거하기로 결정하였다.

현재의 HEVC에서의 변환 프로세싱에 있어서, 계층 잔차 쿼드트리(Residual Quad Tree: RQT)가 사용되고, TU 크기는 CU 크기, max RQT depth, max TU 및 min TU size와 관련되어 있다. TU 크기는 PU 크기와는 무관하다. 최대 TU 크기는 32x32로 제약되고, 최소 TU 크기는 4x4로 제약된다. 또한, TU는 변환이 적용될 CU보다 클 수 없다. 그렇지만, TU는 PU를 아우를 수 있다. 예를 들어, 32x32 CU에 있어서, TU는 PU 파티션 타입에 관계없이, 32x32, 16x16, 8x8일 수 있다. HEVC에서의 잔차 쿼드트리(Residual Quad Tree: RQT)의 현재의 TU 구문, transform_tree()가 도 2a - 도 2b에 도시되어 있다. HM 버전 2.0에 허용된 max RQT depth가 표 1에 나타나 있다.

(표 1)

TU 파티션은 PU 파티션과는 무관하고, 허용된 최대 깊이, 즉 max RQT depth는 3이기 때문에, 잔차 쿼드트리의 현재 구문, transform_tree()는 너무 복잡하다.

이로 인해 인코딩 복잡도가 높아지고 또한 잔차 쿼드트리의 구문을 처리하는 걸리는 시간이 늘어난다. 또한, INTER 모드에 대한 max RQT depth, INTRA 모드에 대한 max RQT depth, max TU size 및 min TU size와 같은 변환 트리와 관련된 일부의 구문 요소는 표 2에 나타난 바와 같이 시퀀스-레벨(SPS) 헤더에 송신되어야 한다. 따라서, 복잡도를 감소시킬 수 있는 TU 표현 방식을 개발하는 것이 바람직하다.

(표 2)

본 발명에 따른 제1 실시예에서, TU의 최대 폭 및 높이는 2Nx2N 파티션 타입을 가지는 2Nx2N 코딩 단위를 제외한 최솟값 (PU _ width , PU _ height)과 동일하다. TU는 항상 정방형이기 때문에, TU의 최대 폭 및 최대 높이는 동일하다. 이러한 TU 표현 방식에 따르면, 2Nx2N CU 및 Nx2N, 2NxN 또는 NxN의 PU 파티션 타입에 있어서, CU를 변환하는 데 사용되는 TU는 NxN일 것이다. 2Nx2N CU에 있어서, TU 크기는 2Nx2N 또는 NxN이 될 수 있으며, "split _ transform _ flag"에 의해 선택이 나타내어질 수 있다. 본 발명을 통합하기 위해, 변환 트리 구문이 수정되어야 한다. 본 발명을 구현하는 변환 트리 구문의 예가 도 3a - 도 3b에 도시되어 있다. 도 3a에서, 도 2a의 원래의 구문 내의 구문 섹션과 동일하게 남아 있는 구문 섹션(310)은 도 3a에서는 생략되어 있다. resiaualDataPresentFlag가 잔차 데이터의 존재를 나타내면, split _ transform _ flag는 1에 설정된다. 변환 트리 처리는 계속해서, 도 3a의 구문 섹션(320)에 도시된 바와 같이, 변환 깊이 trafoDepth가 0인지 그리고 PU 파티션 모드 PartMode가 PART_2Nx2N인지를 검사한다. 두 조건이 참이면, 구문 요소 split _ transform _ flag가 통합된다. 두 조건 중 하나가 거짓이면, 프로세스는 trafoDepth가 0인지 그리고 split _ transform _ flag가 도 3a의 구문 섹션(330)에 도시된 바와 같이 설정되어 있는지에 관한 제2 세트의 조건을 검사한다.

본 발명에 따른 수정된 TU 표현 방식을 구현하는 시스템의 코딩 성능은 참조 테스트 모델 HM 버전 2.0과 비교된다. YUV 컴포넌트에 대한 BD-레이트와 관련한 성능은, 한 세트의 표준 테스트 데이터에 기초한 시뮬레이션, 즉 INTRA 예측에 있어서는 표3a에, 랜덤 액세스 설정에 있어서는 표 3b에, 낮은 지연 설정에 있어서는 표 3c에 나타난 바와 같은 클래스 A 내지 클래스 E를 사용해서 비교된다. 또한, 성능을 비교하는 데 사용되는 시뮬레이션 시스템은 고효율(HE) 동작에 대해 구성된다. 표에서, 포지티브 R-D 값은 코딩 효율의 손실을 나타낸다.

(표 3a)

(표 3b)

(표 3c)

표 3a - 표 3c에 도시된 RD-레이트는 수정된 TU 표현 방식에 의해 야기되는 코딩 효율의 작은 손실을 나타낸다. 그렇지만, 이러한 수정된 TU 표현 방식에 의해 인코딩 시간이 현저하게 감소될 수 있다. 그러므로 이러한 수정된 TU 표현 방식은 성능-복잡도의 양호한 상쇄를 나타낸다.

본 발명에 따른 제2 실시예에서, 2Nx2N, Nx2N 또는 2NxN 파티션 타입을 가지는 2Nx2N CU를 제외하여, TU의 최대 폭 및 높이는 최댓값 (PU _ width , PU _ height)과 동일하고, TU의 최소 폭 및 높이는 최솟값 (PU _ width , PU _ height)과 동일하다. 2Nx2N, Nx2N 또는 2NxN 파티션 타입을 가지는 2Nx2N CU에 있어서, TU는 2Nx2N 또는 NxN이 될 수 있으며, TU 크기의 선택은 "split _ transform _ flag"에 의해 나타내어질 수 있다. NxN PU 크기가 허용되고 선택되면, split _ transform _ flag가 송신되지 않아도 된다. 본 발명을 통합하기 위해, 변환 트리 구문이 수정되어야 한다. 본 발명을 구현하는 변환 트리 구문의 예가 도 4에 도시되어 있다. 도 2a - 도 2b의 원래의 구문 섹션과 동일하게 남아 있는 구문 섹션은 도 3a에서는 생략되어 있다. 도 4의 구문 섹션(410)에 도시된 바와 같이, resiaualDataPresentFlag가 잔차 데이터의 존재를 나타내면, split _ transform _ flag는 1에 설정된다. 구문 섹션(420)에 도신된 바와 같이, 변환 깊이가 0인지 그리고 PU 파티션 모드가 NxN이 아닌지에 관한 조건이 검사된다.

본 발명에 따른 수정된 TU 표현 방식을 구현하는 시스템의 코딩 성능 역시 참조 테스트 모델 HM 버전 2.0과 비교된다. YUV 컴포넌트에 대한 BD-레이트와 관련한 성능은, 한 세트의 표준 테스트 데이터에 기초한 시뮬레이션, 즉 INTRA 예측에 있어서는 표 4a에, 랜덤 액세스 설정에 있어서는 표 4b에, 낮은 지연 설정에 있어서는 표 4c에 나타난 바와 같은 클래스 A 내지 클래스 E를 사용해서 비교된다. 또한, 성능을 비교하는 데 사용되는 시뮬레이션 시스템은 고효율 동작에 대해 구성된다. 표에서, 포지티브 R-D 값은 코딩 효율의 손실을 나타낸다.

(표 4a)

(표 4b)

(표 4c)

표 4a - 표 4c에 도시된 RD-레이트는 수정된 TU 표현 방식에 의해 야기되는 코딩 효율의 작은 손실을 나타낸다. 그렇지만, 이러한 수정된 TU 표현 방식에 의해 인코딩 시간이 현저하게 감소될 수 있다. 그러므로 이러한 수정된 TU 표현 방식은 성능-복잡도의 양호한 상쇄를 나타낸다.

본 발명에 따른 제3 실시예에서, TU 깊이는 INTER 및 INTRA 예측 모드 모두에 있어서 허용된 최대 깊이보다 낮다. 예를 들어, HM 버전 2.0에서는 허용된 최대 TU 깊이는 3이지만, 본 발명에 따른 실시예에서는 TU 깊이가 2로 제한될 수 있다. TU 깊이가 2로 제한되는 경우에는, 변환 크기는 최대 TU 크기 32x32의 제약을 가지는 2Nx2N 또는 NxN이 될 수 있다.

수정된 TU 표현 방식의 제3 실시예와 통합되는 시스템의 코딩 성능 역시 참조 테스트 모델 HM 버전 2.0과 비교된다. YUV 컴포넌트에 대한 BD-레이트와 관련한 성능은, 한 세트의 표준 테스트 데이터에 기초한 시뮬레이션, 즉 INTRA 예측에 있어서는 표 5a에, 랜덤 액세스 설정에 있어서는 표 5b에, 낮은 지연 설정에 있어서는 표 5c에 나타난 바와 같은 클래스 A 내지 클래스 E를 사용해서 비교된다. 또한, 성능을 비교하는 데 사용되는 시뮬레이션 시스템은 고효율 동작에 대해 구성된다. 표에서, 포지티브 R-D 값은 코딩 효율의 손실을 나타낸다.

(표 5a)

(표 5b)

(표 5c)

표 5a - 표 5c에 도시된 RD-레이트는 수정된 TU 표현 방식에 의해 야기되는 코딩 효율의 작은 손실을 나타낸다. 그렇지만, 이러한 수정된 TU 표현 방식에 의해 인코딩 시간이 현저하게 감소될 수 있다. 그러므로 이러한 수정된 TU 표현 방식은 성능-복잡도의 양호한 상쇄를 나타낸다.

HEVC에 대한 HM 버전 2.0에서, 고 복잡도 레이트-왜곡 최적화(Rate-Distortion Optimization: RDO)를 2Nx2N CU 병합 모드에 대한 모드 결정에 사용한다. RDO 프로세스는 이하의 단계로 이루어져 있다.

1. 병합 후보의 모션 벡터를 사용하여 모션 보상을 수행한다;

2. 잔차 쿼드트리(RQT)를 사용하여 계층 변환을 수행한다;

3. 계수를 스캔 및 인코딩한다;

4. 비트-레이트 및 왜곡을 사용하여 R-D 비용을 계산한다:

J_mode = SSD(MV) + λ_mode*(R(MV)),

단, MV는 병합 후보에 대한 모션 벡터이고,

R은 병합 후보를 사용하여 2Nx2N CU를 코딩하는 비트-레이트이며; 그리고

SSD(Sum of Squared Differnece)는 왜곡 측정이다.

5. 최저 R-D 비용을 가지는 최선의 병합 후보를 선택한다;

6. R-D 비용을 다른 모드(SKIP, INTER 및 INTRA)와 비교하고 최저 R-D 비용을 가지는 최선의 모드를 선택한다.

병합 후보의 수는 현재의 HEVC 소프트웨어, HM 버전 2.0에서는 5까지이다. 2Nx2N CU 병합에 있어서, 모든 병합 후보에 대한 R-D 비용은 완전히 계산되어(즉, 레이트 및 왜곡은 변환, 양자화 및 엔트로피 코딩을 포함하는 인코딩 프로세스를 수행함으로써 계산된다), 최선의 병합 후보(병합 인덱스)를 확정한다. 2Nx2N CU 또는 2NxN CU에 있어서는, 고속 추정법을 사용하여 병합 인덱스를 결정하는데, 여기서 (완전 인코딩으로부터) 실제의 R-D 비용은 그 선택된 병합 후보에 대해 단지 1회만 계산된다.

본 발명에 따른 제4 실시예에서, R-D 최적화를 간소함으로써 인코딩의 계산 상의 복잡도를 감소시키는 방법을 제공한다. 본 발명의 제4 실시예에 따르면, 2Nx2N CU 병합 모드에 대한 최선의 병합 후보를 선택하기 위한 RD-최적화와 연관된 비용 계산은 추정법에 기초를 두고 있다. 간소화된 R-D 최적화 방법을 실행하는 예가 이하의 단계에 나타나 있다:

1. 각각의 병합 후보에 대한 병합 후보의 모션 벡터를 사용하여 모션 보상을 수행한다;

2. 모션 추정 비용을 계산한다;

J_motion = SAD(MV) + λ_motion*(R(MV)),

단, MV는 병합 후보에 대한 모션 벡터이고,

R은 병합 후보를 사용하여 MV를 코딩하는 비트-레이트이며; 그리고

SAD(Sum of Absolute Difference)는 왜곡 측정이다.

3. 최저 모션 추정 비용을 가지는 최선의 병합 후보를 선택한다;

4. 최선의 병합 후보에 대한 RQT를 사용해서 계층 변환을 수행한다;

5. 최선의 병합 후보에 대한 계수를 스캔 및 인코딩한다;

6. 최선의 병합 후보에 대한 비트-레이트 및 왜곡을 계산한다; 그리고

7. R-D 비용을 다른 모드(SKIP, INTER 및 INTRA)와 비교하고 최저 R-D 비용을 가지는 최선의 모드를 선택한다.

전술한 단계에 나타난 바와 같이, 종래의 방법에서와 같은 R-D 비용 대신, 각각의 병합 후보의 모션 벡터와 연관된 모션 추정 비용을 계산한다. 모션 추정 비용을 사용하여 최선의 병합 후보를 선택하고 이 최선의 병합 후보에 대해서만 완전한 R-D 비용을 수행한다. 모션 추정 비용에 대한 계산은 R-D 비용에 대한 계산보다 훨씬 낮다. 결과적으로, 제4 실시예에 따라 최선의 병합 후보를 선택하는 계산 상의 복잡도가 감소한다.

간소화된 R-D 최적화의 실시예를 통합하는 시스템의 코딩 성능은 참조 테스트 모델 HM 2.0과 비교된다.

YUV 컴포넌트에 대한 BD-레이트와 관련한 성능은, 한 세트의 표준 테스트 데이터에 기초한 시뮬레이션, 즉 랜덤 액세스 설정에 있어서는 표 6a에, 그리고 낮은 지연 설정에 있어서는 표 6b에 나타난 바와 같은 클래스 A 내지 클래스 E를 사용해서 비교된다. 또한, 성능을 비교하는 데 사용되는 시뮬레이션 시스템은 고효율 동작에 대해 구성된다. 표에서, 포지티브 R-D 값은 코딩 효율의 손실을 나타낸다. 표 6a - 표 6b에 도시된 바와 같이, 전체적인 인코딩 시간을 절감하는 평균은, 고효율에 대해 구성된 HEVC HM 버전 2.0에 비해 BD-레이트가 0.2-0.3%인 약 6-7% 증가이다.

(표 6a)

(표 6b)

본 발명의 제1, 제2 및 제3 실시예를 실행하기 위해, 코딩된 비디오 비트스트림에 구문 요소, split _ transform _ flag를 통합함으로써, 본 발명을 구현하는 디코더는 비디오 비트스트림을 적절하게 디코딩할 수 있다. 예를 들어, 디코더는 코딩 단위에 대한 코딩된 비디오 데이터로부터 코딩 단위의 크기 및 파티션 타입을 유도할 수 있다. 코딩 단위의 크기 및 파티션 타입에 기초해서, 디코더는 split_transform_flag가 존재하는지를 판단할 수 있다. split _ transform _ flag가 존재하면, split _ transform _ flag를 사용하여 변환 단위 파티션을 확정한다. 그렇지 않으면, 변환 단위 파티션은 다양한 실시예의 각각의 규칙에 따라 확정된다. 또한, 본 발명의 제1, 제2, 및 제3 실시예에서는, 시퀀스-레벨(SPS) 헤더 내의 INTER 모드에 대한 max RQT depth, INTRA 모드에 대한 max RQT depth, max TU size 및 min TU size를 포함하는 구문 요소와 관련된 일부의 변환 트리를 통합하지 않아도 된다. 본 발명에 따른 제4 실시예에 관련해서, 인코더에서 최선의 병합 후보를 선택하는 프로세스에만 영향을 줄 뿐이다.

본 개시에서는, 계산 상의 복잡도가 감소된 수정된 TU 표시 방식에 대한 몇 가지 실시예에 대해 설명하였으며, TU 크기는 2Nx2N 파티션 타입을 가지는 2Nx2N 코딩 단위를 제외한 PU 크기와 관련되어 있다. 본 발명의 제1 실시예에 따르면, 변환 단위의 크기는 2Nx2N 파티션 타입을 가지는 2Nx2N 코딩 단위를 제외한 최솟값 (PU_width, PU _ height)과 동일하다. 본 발명에 따른 제2 실시예에 따르면, 2Nx2N 파티션 타입을 가지는 2Nx2N 코딩 단위를 제외하여, 변환 단위의 최대 크기는 최댓값 (PU _ width , PU _ height)과 동일하고, 변환 단위의 최소 크기는 최솟값 (PU_width, PU _ height)과 동일하다. 본 발명에 따른 제3 실시예에 따르면, 변환 단위의 크기는 2Nx2N, Nx2N, 2NxN 및 NxN 파티션 타입에 대해 2Nx2N 및 NxN 중에서 선택된다. 본 발명의 제4 실시예에 따르면, R-D 최적화를 간소화함으로써 인코딩의 계산 상의 복잡도를 감소시키는 방법에 대해 개시한다. 전술한 바와 같이 본 발명에 따라 계산 상의 복잡도가 감소된 수정된 TU 표현 방법의 인코딩 또는 디코딩을 통합하는 비디오 시스템의 실시예는 다양한 하드웨어, 소프트웨어 코드, 또는 양자의 조합으로 실행될 수 있다. 예를 들어, 본 발명의 실시예는 여기서 설명된 프로세싱을 수행할 수 있도록 비디오 압축 칩에 통합된 회로 또는 비디오 압축 소프트웨어에 통합된 프로그램 코드일 수 있다. 본 발명의 실시예는 또한 여기서 설명된 프로세싱을 수행할 수 있도록 디지털 신호 프로세서(DSP)에서 실행되는 프로그램 코드일 수 있다. 본 발명은 또한 컴퓨터 프로세서, 디지털 신호 프로세서, 마이크로프로세서, 또는 필드 프로그래머블 게이트 어레이(FPGA)에 의해 수행되는 일련의 기능을 포함할 수도 있다. 이러한 프로세서는 본 발명에 의해 구현되는 특정한 방법을 규정하는 기계 판독 가능형 소프트웨어 코드 또는 펌웨어 코드를 실행함으로써, 본 발명에 따른 특정한 작업을 수행하도록 구성될 수 있다. 소프트웨어 코드 또는 펌웨어 코드는 다른 프로그래밍 언어 및 다른 포맷 또는 스타일로 개발될 수도 있다. 소프트웨어 코드는 또한 다른 목표 플랫폼에 컴파일될 수도 있다. 그렇지만, 소프트웨어 코드의 다른 코드 포맷, 스타일 및 언어, 및 본 발명에 따른 작업을 수행하는 코드를 구성하는 다른 수단은 본 발명의 정신 및 범위를 벗어나지 않는다.

본 발명은 그 정신 및 본질적인 특성을 벗어남이 없이 다른 특정한 형태로 구현될 수 있다. 전술한 예는 모든 관점에서 단지 설명을 위한 것이고 제한하는 것이 아닌 것으로 고려되어야 한다. 그러므로 본 발명의 범위는 전술한 설명에 의해서가 아닌 첨부된 청구의 범위에 의해 표시된다. 청구의 범위의 의미 및 등가의 범위에 부합하는 모든 변화는 그 범위 내에서 망라되어야 한다.

Claims

비디오 데이터의 변환 단위를 프로세싱하는 방법에 있어서,
비디오 데이터의 코딩 단위를 수신하는 단계;
상기 코딩 단위를 2Nx2N, 2NxN, Nx2N, 또는 NxN 파티션 타입에 따라 하나 이상의 예측 단위(prediction unit: PU)로 파티셔닝하는 단계; 및
상기 코딩 단위를 하나 이상의 변환 단위로 파티셔닝하는 단계
를 포함하며,
상기 하나 이상의 예측 단위의 예측 프로세싱을 위한 예측 모드는 상기 하나 이상의 예측 단위 각각에 대해 확정되며,
상기 하나 이상의 변환 단위의 크기는 상기 코딩 단위의 크기 및 상기 하나 이상의 예측 단위의 크기와 관련되어 있는, 프로세싱 방법.
제1항에 있어서,
상기 하나 이상의 변환 단위의 폭 및 높이는, 2Nx2N 파티션 타입을 가지는 2Nx2N 코딩 단위를 제외한, PU 폭 및 PU 높이의 최솟값과 동일한, 프로세싱 방법.
제2항에 있어서,
상기 2Nx2N 파티션 타입을 가지는 2Nx2N 코딩 단위에 대해 구문 요소를 사용하여, 상기 하나 이상의 변환 단위의 폭 및 높이에 대해 2Nx2N 및 NxN 중에서의 선택을 나타내는, 프로세싱 방법.
제2항에 있어서,
상기 2NxN, Nx2N, 및 NxN 파티션 타입에 대해 구문 요소를 생략하며, 상기 하나 이상의 변환 단위의 폭 및 높이를 NxN인 것으로 추정하는, 프로세싱 방법.
제1항에 있어서,
상기 2Nx2N 파티션 타입을 가지는 2Nx2N 코딩 단위를 제외하여, 상기 하나 이상의 변환 단위의 최대 폭 및 높이는 PU 폭 및 PU 높이의 최댓값과 동일하고, 상기 하나 이상의 변환 단위의 최소 폭 및 높이는 PU 폭 및 PU 높이의 최솟값과 동일한, 프로세싱 방법.
제5항에 있어서,
상기 2Nx2N, 2NxN 및 Nx2N 파티션 타입에 대해 구문 요소를 사용하여, 상기 하나 이상의 변환 단위의 폭 및 높이에 대해 2Nx2N 및 NxN 중에서의 선택을 나타내는, 프로세싱 방법.
제5항에 있어서,
상기 NxN 파티션 타입에 대해 구문 요소를 생략하며, 상기 하나 이상의 변환 단위의 폭 및 높이를 NxN인 것으로 추정하는, 프로세싱 방법.
제1항에 있어서,
상기 하나 이상의 변환 단위의 크기는, 2Nx2N, 2NxN, Nx2N, 및 NxN 파티션 타입에 대해 2Nx2N 및 NxN 중에서 선택되는, 프로세싱 방법.
제8항에 있어서,
상기 하나 이상의 변환 단위의 선택된 크기를 구문 요소를 사용하여 나타내는, 프로세싱 방법.
변환 단위 크기가 예측 단위 크기에 의존하는 비디오 비트스트림의 디코딩 방법에 있어서,
비디오 비트스트림 내의 코딩 단위와 연관된 코딩된 데이터를 수신하는 단계;
상기 코딩 단위와 연관된 상기 코딩된 데이터로부터 상기 코딩 단위의 크기를 확정하는 단계;
상기 코딩 단위와 연관된 2Nx2N, 2NxN, Nx2N, 및 NxN 파티션 타입 중에서 예측 단위(prediction unit: PU) 파티션을 확정하는 단계;
상기 코딩 단위의 크기 및 상기 파티션 타입에 따라 상기 코딩된 데이터에, 변환 단위 파티션을 선택하는 데 사용되는 구문 요소가 존재하는지를 판단하는 단계;
상기 구문 요소가 존재하면, 상기 구문 요소의 값을 확정하는 단계; 및
상기 코딩 단위의 크기, 상기 파티션 타입, 및 상기 구문 요소의 값에 따라, 상기 코딩 단위와 연관된 상기 변환 단위 파티션을 확정하는 단계
를 포함하는 디코딩 방법.
제10항에 있어서,
상기 코딩 단위의 크기가 2Nx2N이고 2Nx2N 파티션 타입이 사용되면 상기 구문 요소가 존재하며,
상기 구문 요소는 상기 변환 단위 파티션이 2Nx2N인지 또는 NxN인지를 나타내는, 디코딩 방법.
제11항에 있어서,
상기 변환 단위 파티션은, 상기 2Nx2N 파티션 타입을 가지는 2Nx2N 코딩 단위는 제외하여, 하나 이상의 변환 단위가 PU 폭 및 PU 높이의 최솟값과 동일한 폭 및 높이를 가지게 하는, 디코딩 방법.
제10항에 있어서,
상기 코딩 단위의 크기가 2Nx2N이고 2Nx2N, 2NxN 또는 NxN 파티션 타입이 사용되면 상기 구문 요소가 존재하며,
상기 구문 요소는 상기 변환 단위 파티션이 2Nx2N인지 또는 NxN인지를 나타내는, 디코딩 방법.
제13항에 있어서,
상기 변환 단위 파티션은, 상기 2Nx2N 파티션 타입을 가지는 2Nx2N 코딩 단위는 제외하여, 하나 이상의 변환 단위가 PU 폭 및 PU 높이의 최댓값과 동일한 최대 폭 및 높이를 가지게 하고 PU 폭 및 PU 높이의 최솟값과 동일한 최소 폭 및 높이를 가지게 하는, 디코딩 방법.
제10항에 있어서,
상기 코딩 단위의 크기가 2Nx2N이고 상기 파티션 타입이 2Nx2N, 2NxN, Nx2N 또는 NxN이면 상기 구문 요소가 존재하며,
상기 구문 요소는 상기 변환 단위 파티션이 2Nx2N인지 또는 NxN인지를 나타내는, 디코딩 방법.
비디오 데이터의 변환 단위를 프로세싱하는 장치에 있어서,
비디오 데이터의 코딩 단위를 수신하는 수단;
상기 코딩 단위를 2Nx2N, 2NxN, Nx2N, 또는 NxN 파티션 타입에 따라 하나 이상의 예측 단위(PU)로 파티셔닝하는 수단; 및
상기 코딩 단위를 하나 이상의 변환 단위로 파티셔닝하는 수단
을 포함하며,
상기 하나 이상의 예측 단위의 예측 프로세싱을 위한 예측 모드는 상기 하나 이상의 예측 단위 각각에 대해 확정되며,
상기 하나 이상의 변환 단위의 크기는 상기 코딩 단위의 크기 및 상기 하나 이상의 예측 단위의 크기와 관련되어 있는, 프로세싱 장치.
제16항에 있어서,
상기 하나 이상의 변환 단위의 폭 및 높이는, 2Nx2N 파티션 타입을 가지는 2Nx2N 코딩 단위를 제외한, PU 폭 및 PU 높이의 최솟값과 동일한, 프로세싱 장치.
제17항에 있어서,
상기 2Nx2N 파티션 타입을 가지는 2Nx2N 코딩 단위에 대해 구문 요소를 사용하여, 상기 하나 이상의 변환 단위의 폭 및 높이에 대해 2Nx2N 및 NxN 중에서의 선택을 나타내는, 프로세싱 장치.
제16항에 있어서,
상기 2Nx2N 파티션 타입을 가지는 2Nx2N 코딩 단위를 제외하여, 상기 하나 이상의 변환 단위의 최대 폭 및 높이는 PU 폭 및 PU 높이의 최댓값과 동일하고, 상기 하나 이상의 변환 단위의 최소 폭 및 높이는 PU 폭 및 PU 높이의 최솟값과 동일한, 프로세싱 장치.
제19항에 있어서,
상기 2Nx2N, 2NxN 및 Nx2N 파티션 타입에 대해 구문 요소를 사용하여, 상기 하나 이상의 변환 단위의 폭 및 높이에 대해 2Nx2N 및 NxN 중에서의 선택을 나타내는, 프로세싱 장치.
제16항에 있어서,
상기 하나 이상의 변환 단위의 크기는, 2Nx2N, 2NxN, Nx2N, 및 NxN 파티션 타입에 대해 2Nx2N 및 NxN 중에서 선택되는, 프로세싱 장치.
제21항에 있어서,
상기 하나 이상의 변환 단위의 선택된 크기를 구문 요소를 사용하여 나타내는, 프로세싱 장치.
변환 단위 크기가 예측 단위 크기에 의존하는 비디오 비트스트림의 디코딩 장치에 있어서,
비디오 비트스트림 내의 코딩 단위와 연관된 코딩된 데이터를 수신하는 수단;
상기 코딩 단위와 연관된 상기 코딩된 데이터로부터 상기 코딩 단위의 크기를 확정하는 수단;
상기 코딩 단위와 연관된 2Nx2N, 2NxN, Nx2N, 및 NxN 파티션 타입 중에서 예측 단위(PU) 파티션을 확정하는 수단;
상기 코딩 단위의 크기 및 상기 파티션 타입에 따라 상기 코딩된 데이터에, 변환 단위 파티션을 선택하는 데 사용되는 구문 요소가 존재하는지를 판단하는 수단;
상기 구문 요소가 존재하면, 상기 구문 요소의 값을 확정하는 수단; 및
상기 코딩 단위의 크기, 상기 파티션 타입, 및 상기 구문 요소의 값에 따라, 상기 코딩 단위와 연관된 상기 변환 단위 파티션을 확정하는 수단
을 포함하는 디코딩 장치.
제23항에 있어서,
상기 코딩 단위의 크기가 2Nx2N이고 2Nx2N 파티션 타입이 사용되면 상기 구문 요소가 존재하며,
상기 구문 요소는 상기 변환 단위 파티션이 2Nx2N인지 또는 NxN인지를 나타내는, 디코딩 장치.
제24항에 있어서,
상기 변환 단위 파티션은, 상기 2Nx2N 파티션 타입을 가지는 2Nx2N 코딩 단위는 제외하여, 하나 이상의 변환 단위가 PU 폭 및 PU 높이의 최솟값과 동일한 폭 및 높이를 가지게 하는, 디코딩 장치.
제23항에 있어서,
상기 코딩 단위의 크기가 2Nx2N이고 2Nx2N, 2NxN 또는 NxN 파티션 타입이 사용되면 상기 구문 요소가 존재하며,
상기 구문 요소는 상기 변환 단위 파티션이 2Nx2N인지 또는 NxN인지를 나타내는, 디코딩 장치.
제26항에 있어서,
상기 변환 단위 파티션은, 상기 2Nx2N 파티션 타입을 가지는 2Nx2N 코딩 단위는 제외하여, 하나 이상의 변환 단위가 PU 폭 및 PU 높이의 최댓값과 동일한 최대 폭 및 높이를 가지게 하고 PU 폭 및 PU 높이의 최솟값과 동일한 최소 폭 및 높이를 가지게 하는, 디코딩 장치.
제23항에 있어서,
상기 코딩 단위의 크기가 2Nx2N이고 상기 파티션 타입이 2Nx2N, 2NxN, Nx2N 또는 NxN이면 상기 구문 요소가 존재하며,
상기 구문 요소는 상기 변환 단위 파티션이 2Nx2N인지 또는 NxN인지를 나타내는, 디코딩 장치.
감소된 인코딩 계산 복잡도를 사용해서 2Nx2N 코딩 단위에 대한 병합 후보를 확정하는 방법에 있어서,
2Nx2N 코딩 단위와 연관된 각각의 병합 후보에 대한 모션 벡터를 수신하는 단계;
상기 모션 벡터를 사용해서 상기 각각의 병합 후보에 대한 모션 보상을 수행하여 상기 각각의 병합 후보에 대한 잔차 신호(residual signal)를 유도하는 단계;
상기 각각의 병합 후보에 대한 잔차 신호 및 모션 벡터와 연관된 모션 추정 비용을 계산하는 단계; 및
상기 병합 후보 중에서 최소의 모션 추정 비용을 발생시키는 최선의 병합 후보를 확정하는 단계
를 포함하는 병합 후보 확정 방법.
제29항에 있어서,
상기 최선의 병합 후보를 잔차 쿼드트리(residual quad tree)를 사용해서 하나 이상의 변환 단위로 파티셔닝하는 단계;
상기 하나 이상의 변환 단위의 계수를 스캔 패턴에 따라 인코딩하는 단계;
상기 최선의 병합 후보에 대해 인코딩된 계수와 연관된 왜곡 및 비트 레이트에 관련된 병합(MERGE) 모드에 대응하는 제1 R-D 비용을 계산하는 단계; 및
상기 제1 R-D 비용 및 다른 모드와 연관된 다른 R-D 비용 중에서 최소의 R-D 비용을 선택함으로써 상기 코딩 단위에 대한 모드를 확정하는 단계
를 더 포함하는 병합 후보 확정 방법.
감소된 인코딩 계산 복잡도를 사용해서 2Nx2N 코딩 단위에 대한 병합 후보를 확정하는 장치에 있어서,
2Nx2N 코딩 단위와 연관된 각각의 병합 후보에 대한 모션 벡터를 수신하는 수단;
상기 모션 벡터를 사용해서 상기 각각의 병합 후보에 대한 모션 보상을 수행하여 상기 각각의 병합 후보에 대한 잔차 신호를 유도하는 수단;
상기 각각의 병합 후보에 대한 잔차 신호 및 모션 벡터와 연관된 모션 추정 비용을 계산하는 수단; 및
상기 병합 후보 중에서 최소의 모션 추정 비용을 발생시키는 최선의 병합 후보를 확정하는 수단
을 포함하는 병합 후보 확정 장치.
제31항에 있어서,
상기 최선의 병합 후보를 잔차 쿼드트리를 사용해서 하나 이상의 변환 단위로 파티셔닝하는 수단;
상기 하나 이상의 변환 단위의 계수를 스캔 패턴에 따라 인코딩하는 수단;
상기 최선의 병합 후보에 대해 인코딩된 계수와 연관된 왜곡 및 비트 레이트에 관련된 MERGE 모드에 대응하는 제1 R-D 비용을 계산하는 수단; 및
상기 제1 R-D 비용 및 다른 모드와 연관된 다른 R-D 비용 중에서 최소의 R-D 비용을 선택함으로써 상기 코딩 단위에 대한 모드를 확정하는 수단
을 더 포함하는 병합 후보 확정 방법.