KR20150036261A

KR20150036261A - 3차원 비디오를 표현하는 비트 스트림을 코딩하는 장치

Info

Publication number: KR20150036261A
Application number: KR1020157002426A
Authority: KR
Inventors: 파비앙 예거; 마티아스 비엔
Original assignee: 후아웨이 테크놀러지 컴퍼니 리미티드
Priority date: 2012-07-13
Filing date: 2012-07-13
Publication date: 2015-04-07
Also published as: EP2873240A1; US20150124867A1; CN104429062A; WO2014008951A1; US9998761B2; CN104429062B; JP2015523030A

Abstract

3차원 비디오를 표현하는 비트 스트림을 코딩하는 장치
본 발명은 뷰(view)의 시퀀스를 포함하는 3차원 비디오를 표현하는 비트 스트림을 코딩하는 장치(100)에 관한 것이며, 여기서 깊이 맵은 각각의 뷰와 연관되어 있고, 상기 깊이 맵은 뷰를 포착하는 카메라에 대한 위치와 관련하여 뷰의 깊이 정보를 포함하며, 상기 장치는: 상기 깊이 맵을 코딩 유닛으로 분할하는 분할기(101); 상기 코딩 유닛의 깊이 정보에 기초하여 각 코딩 유닛에 대한 모델 함수의 유형을 결정하는 결정기(103); 상기 모델 함수에 의해 생성된 각 세그먼트에 대해 단일의 잔여 값으로 상기 코딩 유닛을 감소시키는 감소기(105); 및 사용된 상기 모델 함수 및 상기 잔여 값을 비트 스트림으로 시그널링하는 신호기(107)를 포함한다.

Description

3차원 비디오를 표현하는 비트 스트림을 코딩하는 장치{APPARATUS FOR CODING A BIT STREAM REPRESENTING A THREE-DIMENSIONAL VIDEO}

본 발명은 3차원 비디오를 표현하는 비트 스트림을 코딩하는 장치에 관한 것이다.

3D 비디오는 신기술이며, 이는 수신기 측에서 더 많은 유연성을 허용하도록 종래의 2D 비디오 데이터와 함께 깊이 데이터를 전송해야 한다. 추가의 깊이 데이터는 임의의 시점들(viewwpoints)을 합성하는 것을 허용하고 이것은 그런 다음 인지된 깊이 감명의 적응 및 다중-관점 자동-입체 디스플레이의 구동이 가능하게 한한다. 깊이 정보를 매번 전송된 뷰(view)에 부가함으로써 코딩될 데이터량이 현저하게 증가한다. 종래기술과 비교하면, 자연스런 비디오 깊이 맵은 깊이 불연속성을 따르는 예리한 가장자리에 의해 경계가 지어진 낱낱의 부드러운 영역들을 특징으로 한다. 종래의 비디오 코딩 방식을 사용하여 깊이 맵을 압축하면 이러한 깊이 불연속성을 따라 강력한 링잉 부작용(ringing artifact)이 생기며, 이는 뷰 합성 프로세스에서 시각적으로 방해가 되는 지형 왜곡을 야기한다. 그러므로 깊이 맵의 서술된 신호 특성을 유지하는 것이 새로운 깊이 코딩 알고리즘에 있어서는 결정적인 요건이다. 자동-입체 디스플레이 또는 스테레오 디스플레이를 위한 3D 디스플레이 기술 분야에서의 최근의 개발은 시청자의 개인적인 선호에 깊이 감명을 적응할 수 있게 하는데, 제한된 수의 이용 가능한 디코딩된 뷰에 기초하여 추가의 임의의 뷰들을 합성하는 것을 필요로 한다. 유연성 깊이 정보의 확장을 허용하는 것은 수신기 측에서 이용할 수 있어야 하며 결과적으로 종래의 2D 비디오 데이터에 더하여 코딩되어야 한다. 이러한 추가적인 깊이 맵은 자연스런 비디오 데이터에 비교하여 상이한 신호 특성을 보인다. 또한, 깊이 맵에서의 왜곡은 동일한 장면의 새로운 뷰를 합성하는 데 사용되고 사용자 자신에게는 보이지 않게 될 때 그 표시된 비디오의 시각 품질에 간접적 충격을 준다. 자연스런 2D 비디오 결과에 최적화된 알고리즘으로 깊이 맵을 압축하면 깊이 불연속을 따라 강한 링잉 부작용이 생기게 되고, 이에 따라 합성된 뷰에서 지형 왜곡을 일으킨다.

깊이 데이터의 압축에 관한 이전의 작업은 깊이 데이터를 회색 비디오로 간주하여 이것을 H.264/AVC, 예를 들어, "P. Merkle, A. Smolic, K. Muller, and T. Wiegand, "Multi-view video plus depth representation and coding," 14차 IEEE International Conference on Image Processing (ICIP). IEEE, 2007, pp. I201-1204"에 개시된 바와 같은 종래의 변환 기반의 비디오 코딩 알고리즘으로 압축하였다. 이러한 종래의 코딩 툴은 PSNR에서 상대적으로 높은 압축 효율을 보이지만 동시에 원래의 깊이 맵에서 예리한 가장자리를 따라 링잉 부작용을 일으키는 것이 나타났다. 이러한 부작용은 뷰 합성 단계에서 지형 왜곡이 되어 버린다. 보다 최근의 깊이 압축 알고리즘은 "M. Sarkis, W. Zia, 및 K. Diepold, "Fast depth map compression and meshing with compressed tritree," Computer Vision-ACCV 2009, pp. 44-05, 2010"에 개시된 바와 같이 삼각형 메시(mesh)를 분할함으로써 또는 "Y. Morvan, P. de With, and D. Farin, "Platelet-based coding of depth maps for the transmission of multiview images," in Proceedings of SPIE, Stereoscopic Displays and Applications, vol. 6055, 2006, pp. 93-100"에 개시된 바와 같이 플레이트릿(platelet)을 분할하고 각각의 세그먼트를 적절한 2D 기능으로 모델화함으로써 맵의 신호 특성을 근사화한다. 이러한 순수한 모델 기반 방식은 또한, "S. Liu, P. Lai, D. Tian, C. Gomila, and C. Chen, "Sparse dyadic mode for depth map compression," in 17th IEEE International Conference on Image Processing (ICIP). IEEE, 2010, pp. 3421-3424."에 개시된 희소-양자관계 모드(sparse-dyadic mode)와 같은 추가의 코딩 모드를 도입함으로써 종래의 변환 기반 툴과도 결합될 수 있다. 여기서, 희소-양자관계-코딩 블록은 2개의 세그먼트로 분할되고, 이것은 2개의 상수 깊이 값에 의해 설명된다. 깊이 맵을 압축할 때 깊이 불연속성의 보존이 가장 중요하기 때문에, "F. Jager, "Contour-based segmentation and coding for depth map compression," in Visual Communications and Image Processing (VCIP), 2011 IEEE. IEEE, 2011, pp. 1-4."에 이전에 제시된 바와 같이, 다른 방식은 이러한 불연속성의 위치를 무손실로 압축하고 낱낱의 부드러운 영역을 근사화해야 한다. 이 방식의 단점은 깊이 윤곽의 무손실 인코딩으로 인해 낮은 비트레이트에 도달할 수 없다는 것이다.

요컨대, 깊이 맵을 텍스처 비디오 데이터에 최적화된 종래의 알고리즘으로 코딩할 때, 변환 및 양자화로 인해 깊이 불연속성을 따르는 링잉 부작용이 생긴다. 강한 가장자리에 의해 경계 지어진 낱낱의 부드러운 영역과 같은 통상적인 깊이 맵 특징은 수신기에서 높은 품질의 뷰 합성이 허용되도록 다르게 코딩되어야 한다. 종래의 코딩 알고리즘은 방향성 인트라 예측 및 편평 모드와 같은 개선된 방법들을 사용한다. 이것들은 깊이 맵의 가장자리 및 기울기를 어느 정도는 근사화할 수 있다. 방향성 예측 모드는 가장자리를 근사화하는 능력이 부족하며, 이는 현재의 코딩 유닛의 우상(top-right)으로부터 연속되지 않는다. 또한, 기존의 알려진 편평 모드는 코딩 유닛을 표현할 수 없으며, 이것은 2개의 상이한 깊이 세그먼트를 포함할 때 깊이 기울기에 의해 부분적으로만 특징지어질 뿐이다.

본 발명의 목적은 깊이 맵의 신호 특성에 적응된 압축을 수행하는 3차원 비디오를 위한 효과적인 코딩의 개념을 제공하는 것이다.

이 목적은 독립 청구항의 특징에 의해 이루어진다. 추가의 실시 형태는 종속항, 상세한 설명 및 도면으로부터 자명하다.

본 발명의 주요 개념은 새로운 깊이 맵 모델-기반 코더(depth map model-based coder: DMC) 방법을 제공하는 것이며, 이 방법은 "T. Wiegand, B. Bross, W.-J. Han, J.-R. Ohm, and G. J. Sullivan, "Working Draft 3 of High-Efficiency Video Coding (HEVC)," Joint Collaborative Team on Video Coding (JCT-VC), Doc. JCTVC-C403, 2011."에 서술된 고효율 비디오 코딩(High-Efficiency Video Coding: HEVC)에 서술된 코딩 모델의 확장이며, 모델-기반 알고리즘에 의해 인트라 코딩 툴을 대체한다. 다른 모델 기반 방식과 비교하면, 선형 깊이 세그먼트를 위한 새로운 모델 함수 및 더 진보한 예측 구조가 도입된다.

새로운 깊이 맵 인트라 코더의 기본은 블록 기반 방식을 형성되며, 여기서 각각의 블록은 3개의 이용 가능한 모드 중 하나에 의해 모델화된다. 일정한 깊이의 블록은 DC 블록에 의해 완전하게 모델화될 수 있다. 깊이 영역을 점차 모델화하는 데 있어서, 특별한 편평 모드가 도입된다. 3번째 모드는 블록으로 직선으로 2개의 세그먼트로 분할한다. 그런 다음 각각의 서브세그먼트는 상이한 DC 값에 의해 모델화될 수 있다. 이 3번째 모드에 의해 깊이 맵에서의 대상 경계를 설명하는 통상적인 예리한 가장자리를 근사화할 수 있다. 이러한 깊이 불연속의 위치를 명시적으로 시그널링함으로써, 종래의 변환 기반 코딩에서와 같은 링잉 부작용은 완전하게 없어진다. 블록 모드 및 이 블록 모드의 정보는 예측 방식으로 코딩된다. 모든 모드에 있어서, 모델 파라미터는 인접 블록들로부터 예측되며 결과에 따른 잔여 신호만이 비트 스트림에서 코딩된다. 예측은 항상 경쟁이며, 이는 상 인접 블록 또는 좌 인접 블록 중 어느 하나로부터 값을 예측할 수 있다는 것을 의미한다. 제시된 코딩 방법의 모든 플래그 및 모델 파라미터의 최종 엔트로피 코딩을 위해 잘 알려진 문맥 적응 이진 산술 코딩(Context Adaptive Binary Arithmetic Coding: CABAC) 알고리즘을 사용한다.

DMC는 종래의 인트라 코딩 툴의 대안으로 HEVC 테스트 모델 소프트웨어로 실행된다. 결론적으로, DMC는 엔트로피 코딩을 위해 위에서 언급한 CABAC 엔진뿐만 아니라 블록(코딩 유닛)으로 분할되는 프레임처럼 많은 HEVC 툴을 재사용할 수 있다. 이하에서는, 모든 설명된 코딩 툴은 2ⁿx2ⁿ 픽셀(n>=2에서 시작)의 임의의 블록 크기에 대해 규정된다. 인접 블록을 말할 때, 인접 블록은 항상 실제 블록의 좌상 모서리 픽셀에 인접하여 위치한다. 인접 블록의 크기는 독립이며 현재 블록의 크기와 일치하지 않아도 된다.

본 발명을 상세히 설명하기 위해, 이하에서는 용어, 약어 및 개념에 대해 설명한다.

CABAC: 문맥 적응 이진 산술 코딩;

DLT: 깊이 룩업 테이블;

DMC: 깊이 모드 기반 코딩;

CU: 코딩 유닛;

LCU: 최대 코딩 유닛.

제1 관점에 따르면, 본 발명은 뷰(view)의 시퀀스를 포함하는 3차원 비디오를 표현하는 비트 스트림을 코딩하는 장치에 관한 것이며, 깊이 맵은 각각의 뷰와 연관되어 있고, 상기 깊이 맵은 뷰를 포착하는 카메라에 대한 위치와 관련하여 뷰의 깊이 정보를 포함하며, 상기 장치는: 상기 깊이 맵을 코딩 유닛으로 분할하는 분할기; 상기 코딩 유닛의 깊이 정보에 기초하여 각 코딩 유닛에 대한 모델 함수의 유형을 결정하는 결정기; 상기 모델 함수에 의해 생성된 각 세그먼트에 대해 단일의 잔여 값으로 상기 코딩 유닛을 감소시키는 감소기; 및 사용된 상기 모델 함수 및 상기 잔여 값을 비트 스트림으로 시그널링하는 신호기를 포함한다.

제1 관점에 따라 그 제시된 모델 기반(또는 유형 기반) 코딩으로 압축된 깊이 맵에 기초하여 합성된 뷰는, 종래의 비디오 코딩 툴로 압축되는, 깊이 맵에 기초하여 합성된 뷰에 비해 향상된 시각 품질을 보인다.

제1 관점에 따라 장치의 제1 가능한 실시 형태에서, 상기 장치는: 상기 깊이 맵의 깊이 정보와 관련된 색인을 획득하는 상기 깊이 맵에 의해 지시되는 깊이 레벨과 관련해서 상기 깊이 맵의 깊이 정보의 색인을 작성하는 색인 작성기; 및 상기 색인에 따라 상기 깊이 맵을 리맵핑함으로써 상기 깊이 정보 크기를 감소시키는 리맵퍼(remapper)를 더 포함한다.

제1 관점의 제1 가능한 실시 형태에 따라 장치의 제2 가능한 실시 형태에서, 상기 색인 작성기는 미리 정해진 수의 뷰에 대해 상기 깊이 맵의 깊이 정보의 색인 작성을 수행하도록 구성되어 있으며, 상기 리맵퍼는 룩업-테이블을 사용하여 상기 깊이 정보의 감소를 수행하도록 구성되어 있다.

제1 관점의 제1 가능한 실시 형태 및 제1 관점의 제2 가능한 실시 형태에 따라 장치의 제3 가능한 실시 형태에서, 상기 장치는: 상기 깊이 맵의 그 대응하는 색인에 상기 깊이 레벨을 맵핑하는 맵퍼를 포함한다.

제1 관점에 따라 또는 제1 관점의 선행의 실시 형태 중 임의의 실시 형태에 따라 장치의 제4 가능한 실시 형태에서, 상기 분할기는, 상기 깊이 맵을 고정된 크기, 특히 64x64 픽셀의 고정된 크기의 고정된 크기 코딩 유닛으로 분할하고; 상기 고정된 크기 코딩 유닛을 가변 크기, 특히 범위가 4x4 픽셀 내지 64x64 픽셀인 코딩 유닛의 가변 크기의 코딩 유닛으로 하위분할함으로써 상기 코딩 유닛을 쿼드트리(quad-tree) 구조로 배열하며; 그리고 상기 쿼드트리 구조를 상기 비트 스트림으로 시그널링하는 것에 의해 상기 깊이 맵을 코딩 유닛으로 분할하도록 구성되어 있다.

제1 관점에 따라 또는 제1 관점의 선행의 실시 형태 중 임의의 실시 형태에 따라 장치의 제5 가능한 실시 형태에서, 상기 결정기는 상기 코딩 유닛에 인접하여 쿼드트리 구조로 배열된 코딩 유닛으로부터 예측함으로써 코딩 유닛에 대한 분할의 유형의 결정을 수행하도록 구성되어 있다.

쿼드트리는 각 내부 노드가 정확하게 4개의 자(children)를 가지는 트리 데이터 구조이다. 쿼드트리는 2차원 공간을 4개의 4분면 또는 영역으로 회귀적으로 하위분할함으로써 2차원 공간을 분할하는 데 가장 흔하게 사용된다. 영역들은 사각형 또는 직사각형일 수도 있고 임의의 형상이 될 수도 있다.

제1 관점에 따라 또는 제1 관점의 선행의 실시 형태 중 임의의 실시 형태에 따라 장치의 제6 가능한 실시 형태에서, 상기 결정기는: 상기 코딩 유닛의 깊이 정보가 일정한 깊이를 나타내면 DC 유형을 결정하고; 상기 코딩 유닛의 깊이 정보가 점진적 깊이 변화를 나타내면 기울기 유형을 결정하고; 상기 코딩 유닛의 깊이 정보가 상이하되 일정한 깊이의 2개의 세그먼트를 나타내면 가장자리 유형을 결정하며; 그리고 모든 다른 경우에는 텍스처 유형을 결정하는 것에 의해 상기 모델 함수의 유형의 결정을 수행하도록 구성되어 있다.

제1 관점의 제6 실시 형태에 따라 장치의 제7 가능한 실시 형태에서, 상기 결정기(103)는: 상기 코딩 유닛의 좌상(top-left) 모서리 픽셀의 좌에 배열된 인접 코딩 유닛과 상기 코딩 유닛의 좌상 모서리 픽셀의 상에 배열된 인접 코딩 유닛 중 하나로부터 상기 깊이 정보를 예측함으로써 DC 값을 결정하는 것에 의해 코딩 유닛에 대한 모델 함수의 DC 유형의 결정을 수행하도록 구성되어 있다.

제1 관점의 제6 실시 형태 또는 제1 관점의 제7 실시 형태에 따라 장치의 제8 가능한 실시 형태에서, 장치의 제8 가능한 실시 형태에서, 상기 결정기(103)는: 상기 코딩 유닛의 하부 행의 제1 픽셀(B)로부터 상기 코딩 유닛의 좌하(lower-right) 모서리의 목표 픽셀로 상기 코딩 유닛의 하부 행(bottom row)의 점진적 깊이 변화를 보간하고; 상기 코딩 유닛의 우 열(right column)의 제2 픽셀(A)로부터 상기 코딩 유닛의 우하(lower-right) 모서리의 목표 픽셀(Z)로 우 열의 점진적 깊이 변화를 보간하며; 그리고 상기 하부 행의 점진적 깊이 변화 및 상기 우 열의 점진적 깊이 변화로부터 상기 점진적 깊이 변화를 양선형으로(bilinearly) 보간하는 것에 의해 코딩 유닛에 대한 분할의 기울기 유형의 결정을 수행하도록 구성되어 있다.

제1 관점의 제6 실시 형태 내지 제8 실시 형태 중 임의의 하나의 실시 형태에 따라 장치의 제9 가능한 실시 형태에서, 상기 결정기(103)는: 상기 코딩 유닛을 직선으로 2개의 세그먼트로 분할하고; 상기 코딩 유닛의 좌상 모서리 픽셀의 좌에 배열된 인접 코딩 유닛과 상기 코딩 유닛의 좌상 모서리 픽셀의 상에 배열된 인접 코딩 유닛 중 하나로부터 깊이 정보를 예측함으로써 상기 2개의 세그먼트 중 제1 세그먼트의 DC 값을 결정하며; 그리고 상기 코딩 유닛의 우상 모서리 픽셀의 우에 배열된 인접 코딩 유닛과 상기 코딩 유닛의 우상 모서리 픽셀의 상에 배열된 인접 코딩 유닛 중 하나로부터 깊이 정보를 예측함으로써 상기 2개의 세그먼트 중 제2 세그먼트의 DC 값을 결정하는 것에 의해 코딩 유닛에 대한 분할의 가장자리 유형의 결정을 수행하도록 구성되어 있다.

제1 관점의 제6 실시 형태 내지 제9 실시 형태 중 임의의 하나의 실시 형태에 따라 장치의 제10 가능한 실시 형태에서, 상기 결정기(103)는: 상기 코딩 유닛을 직선에 의해 적어도 3개의 세그먼트로 분할하고; 그리고 상기 코딩 유닛이 분할되는 세그먼트의 수를 결정하는 것에 의해 코딩 유닛에 대한 분할의 텍스처 유형의 결정을 수행하도록 구성되어 있다.

제1 관점에 따라 또는 제1 관점의 선행의 실시 형태 중 임의의 하나의 실시 형태에 따라 장치의 제11 가능한 실시 형태에서, 상기 장치(100)는 비트 스트림의 이하의 세그먼트: 뷰의 시퀀스, 픽처, 슬라이스, 코딩 유닛, 및 예측 유닛 중 하나와 관련해서 비트 스트림의 코딩 방법을 전환하도록 구성되어 있다.

제1 관점에 따라 또는 제1 관점의 선행의 실시 형태 중 임의의 하나의 실시 형태에 따라 장치의 제12 가능한 실시 형태에서, 상기 장치는: 종래의 비디오 코딩에 따라 코딩된, 특히 HEVC 비디오 코딩에 따라 코딩된 또는 AVC 비디오 코딩에 따라 코딩된 비트 스트림의 코딩 유닛으로 코딩 유닛을 인터리빙하도록 구성되어 있는 인터리버를 포함한다.

제2 관점에 따라, 본 발명은 뷰(view)의 시퀀스를 포함하는 3차원 비디오를 표현하는 비트 스트림을 코딩하는 방법에 관한 것이며, 깊이 맵은 각각의 뷰와 연관되어 있고, 상기 깊이 맵은 뷰를 포착하는 카메라에 대한 위치와 관련하여 뷰의 깊이 정보를 포함하며, 상기 방법은: 상기 깊이 맵을 코딩 유닛으로 분할하는 단계; 상기 코딩 유닛의 깊이 정보에 기초하여 각 코딩 유닛에 대한 모델 함수의 유형을 결정하는 단계; 상기 모델 함수에 의해 생성된 각 세그먼트에 대해 단일의 잔여 값으로 상기 코딩 유닛을 감소시키는 단계; 및 사용된 상기 모델 함수 및 상기 잔여 값을 비트 스트림으로 시그널링하는 단계를 포함한다.

제3 관점에 따라, 본 발명은 제2 관점에 따른 방법을 수행하는 컴퓨터 프로그램에 관한 것이며, 상기 컴퓨터 프로그램은 컴퓨터 상에서 실행된다.

본 발명의 추가의 관점은 종래의 인트라 코딩 알고리즘의 대체로서 깊이(DMC)에 대한 모델 기반 인트라 코딩의 사용에 관한 것이다.

본 발명의 추가의 관점은 뷰의 시퀀스 당, 픽처 당, 슬라이스 당, 코딩 유닛당, 및 예측 유닛당 DMC 전환 가능한 용법에 관한 것이다.

본 발명의 추가의 관점은 종래의 인트라 CU로 DMC 코딩 유닛(CU)을 인터리빙하는 것에 관한 것이다.

본 발명의 추가의 관점은 DMC와 종래의 인트라 CU 간의 모드 파라미터를 예측하는 것에 관한 것이다.

본 발명의 추가의 관점은 대응하는 파라미터 집합 내의 지정된 코딩 레벨에 대한 DMC의 사용을 시그널링하는 것에 관한 것이다.

본 발명의 추가의 관점은 인터-코딩된 프레임 내의 임의 잔여 신호 없이 움직임 보상된 픽셀 데이터를 사용하는 것에 관한 것이다.

본 발명의 추가의 관점은 움직임 보상된 프레임 내의 모델링 파라미터를 갱신하는 것에 관한 것이다.

본 발명의 추가의 관점은 수 개의 깊이 레벨만을 가지는 깊이 맵에 대한 신호 비트 깊이를 감소시키도록 입력 깊이 값에 대한 적응성 룩업 테이블에 관한 것이다.

본 발명의 추가의 관점은 각 코딩 유닛에 대한 깊이 맵 특성을 감소시키도록 모델 함수를 사용하는 것에 관한 것이며, 상기 특성은 일정한 깊이를 가지는 코딩 유닛에 대한 DC 값; 좌하 픽셀 값을 시그널링하고 현재의 CU의 다른 픽셀 값을 보간함으로써 점진적 깊이 영역으로 유닛을 코딩하는 편평 모드; 및 코딩 유닛을 직선(가장자리)으로 2개의 세그먼트로의 분할을 포함한다. 각 세그먼트는 DC 값에 의해 또는 편평 세그먼트 및 DC 값에 의해 모델화될 수 있다.

본 발명의 추가의 관점은 인접 블록들로부터 현재의 코딩 유닛 및 신호 위치 오프셋으로의 가장자리 방향을 예측함으로써 인접 블록들로부터 3개의 모델링 함수에 대한 파라미터를 예측하여 현재의 CU에서의 가장자리를 갱신하며; 인접 블록의 모서리 픽셀의 기울기를 예측하여 편평 모드에 대한 예측 우하 픽셀 값을 예측하는 것에 관한 것이다.

깊이 맵의 통상적인 특성을 설명하기 위해 모델링 함수의 감소된 집합을 도입함으로써, 링잉 부작용 및 종래 알고리즘의 다른 코딩 부작용을 제거할 수 있다. 또한, 본 발명의 관점에 따른 코딩에 의하면 종래의 변환 기반 코딩 방식에 비해 더 나은 뷰 합성 품질이 허용된다. 각 CU에 대한 모드 또는 가능한 모델링 함수의 감소된 집합으로 인해, 시그널링 비트의 양도 감소되고, 결과적으로 비트 레이트가 감소한다.

본 발명의 관점은 3D 비디오에서 깊이 맵 코딩에 대한 수정된 인트라-코딩 방식을 설명한다. 깊이 맵이 깊이 불연속성에서 예리한 가장자리에 의해 경계 지어진 낱낱의 부드러운 영역과 같은 고유한 특성을 보일 때, 이러한 신호 특성을 근사화하기 위해서는 새로운 코딩 툴이 필요하다. 현재의 3DV-HTM 소프트웨어에서, 깊이 맵에 대해 2종류의 인트라 예측 방법 있다: 1) HEVC로부터 알려진 방향성 인트라 예측 및 2) 깊이 모델링 모드(DMM). 후자는 특히 언급된 깊이 불연속성을 모델링할 때 합성된 뷰의 BD-레이트를 향상시킬 수 있다.

본 발명의 관점에 따르면, DMM과 매우 유사한 예측 방식을 사용하여 깊이 맵의 예리한 가장자리를 근사화한다. DMM을 이용하면 결과적인 잔여가 변환되고 종래의 인트라 예측 모드 하에서 양자화된다. 이 단계에서 그 제안된 깊이 모드 기반 코딩(DMC)은 결과적인 잔여 신호를 코딩하기 위해 변환 및 양자화를 사용하지 않는다. DMC 예측 단계는 항상 CPU당 2-3개의 깊이 세그먼트가 생기고 이러한 세그먼트 각각에 대해 단일의 잔여 DC 깊이 값이 코딩된다. 변환 단계를 건너뛰고 픽셀-도메인 정보에 기초하여 잔여 신호를 코딩함으로써, DMC-코딩된 블록에 대해 링잉 부작용이 제거된다. 또한, 각 세그먼트에 대한 잔여 신호를 시그널링하는 비트 수는 깊이 룩업 테이블(DLT)을 통합함으로써 더 감소될 수 있으며, 깊이 값들은 원래의 깊이 맵의 유효 깊이 값에 맵핑된다. DLT는 입력 깊이 맵의 초기 분석에 기초하여 구성되고 그런 다음 SPS에서 코딩된다. 강력하게 양자화된 깊이 맵의 시퀀스에 있어서 DLT는 DMC 단독으로부터 나오는 이득에다가 추가의 이득을 생성한다.

깊이 맵에 대한 제시된 인트라 코딩 방식에서는 평균 BD-레이트가 4.02%(깊이 레이트) 절감되고, 특정한 시퀀스, 예를 들어, 신문, 켄도 및 풍선에서는 8.75%(깊이 레이트)까지 절감된다. 텍스처 및 깊이를 포함하는 전체 코딩 수행과 관련해서 DMC에서는 평균 0.76% BD-레이트가 절감된다.

모든 인트라 테스트 케이스에 있어서, 제시된 코딩 방식에서는 평균 BD-레이트가 24.06%(깊이 레이트) 절감되고, 시퀀스 켄도에서는 42.27%(깊이 레이트)까지 절감된다. 텍스처 및 깊이를 포함하는 전체 인트라 코딩 수행과 관련해서 DMC에서는 평균 1.46% BD-레이트가 절감된다.

제시된 DMC 코딩 방식은 인트라 코딩 모드의 확장이며, 이것은 HEVC 기반 3DV-HTM 기준 소프트웨어에서 이용 가능하다. DMC-코딩된 블록에 있어서, 예측 모드는 여전히 INTRA이다. 추가의 DMC-플래그는 DMC 예측 및 코딩의 사용을 시그널링한다. 블록이 DMC로 코딩되면, 분할 크기는 항상 2Nx2N이고 이에 따라 비트스트림으로 시그널링되지 않는다. 양자화된 변환 계수를 코딩하는 대신, DMC-코딩된 블록은 다음의 유형의 정보: 현재 블록의 분할/예측의 유형을 코딩해야 한다. 가능한 값은 DC(분할 없음), Gradient(분할 없음), Edge(직선에 의해 2개의 세그먼트로 분할) 및 Texture(수집된 텍스처 블록을 임계화함으로써 2 또는 3개의 세그먼트로 분할)이다. Edge-분할 및 Texture-분할에 있어서, 분할에 관한 상세한 일부의 상세는 코딩되어야 한다: Edge-분할에 있어서: 분할의 직선의 Start/End. Texture-분할에 있어서: 블록을 분할하기 위한 세그먼트의 수.

각 세그먼트에 있어서, (픽셀 도메인 내의) 잔여 값은 비트스트림으로 시그널링된다. 코딩 전에, 잔여 값들이 값들에 맵핑되는데, 이것들은 본래 제시된 것들이고, 깊이 룩업 테이블(DLT)을 사용함으로써 비압축된 깊이 맵이다. 결론적으로, 잔여 값들은 이 룩업 테이블에 색인만을 시그널링함으로써 코딩될 수 있으며, 이것은 잔여 크기의 비트 깊이를 감소시킨다.

DMC-코딩된 깊이 맵은 코딩 유닛은 4개의 이용 가능한 예측 모드 중 하나에 의해 예측된다. 최적의 모드는 VSO 기준(VSO criterion)에 기초해서 선택되고 비트스트림으로 코딩된다. 인접 코딩 유닛 중에서 가장 가능성 있는 모드를 예측한다. 플래그는 실제의 블록 모드가 가장 가능성 있는 모드와 일치하는지를 코딩한다.

이것이 그 경우가 아니면, DMC-블록에 대한 실제의 모드를 시그널링하는 데는 2개의 부가적인 플래그까지 필요하다. 모든 언급된 플래그는 CABAC 엔지에 대해 할당된 그 자체의 새로운 문맥 모델을 가진다. HEVC의 방향성 인트라 예측 모드는 DMC-코딩된 블록에 대해 이용 가능하지 않은데, 그 이유는 이것들 대부분은 Edge 분할 모드에 의해 모델화될 수 있기 때문이며, 이에 대해서는 이하의 장에서 더 상세히 설명한다.

본 발명의 추가의 실시예에 대해 이하의 도면을 참조하여 설명한다.
도 1은 실시 형태에 따라 3차원 비디오를 나타내는 비트 스트림을 코딩하는 장치에 대한 블록도이다.
도 2는 실시 형태에 따라 비트 스트림을 코딩하는 장치의 결정자의 가장자리 유형 결정에 대한 개략도이다.
도 3은 실시 형태에 따라 비트 스트림을 코딩하는 장치의 결정자의 경사도 형태 결정에 대한 개략도이다.
도 4는 실시 형태에 따라 장치에 의해 코딩된 3차원 비디오에 대한 재구성도이다.

도 1은 실시 형태에 따라 3차원 비디오를 나타내는 비트 스트림을 코딩하는 장치에 대한 블록도이다.

장치(100)는 뷰의 시퀀스를 포함하는 3차원 비디오를 나타내는 비트 스트림을 코딩하기 위한 것이며, 여기서 깊이 맵은 각각의 뷰와 관련되어 있고, 상기 깊이 맵은 뷰를 포착하는 카메라에 대한 위치와 관련하여 뷰의 깊이 정보를 포함한다.

장치(100)는: 깊이 맵을 코딩 유닛으로 분할하는 분할기(101); 상기 코딩 유닛의 깊이 정보에 기초하여 각 코딩 유닛에 대한 모델 함수의 유형을 결정하는 결정기(103); 상기 모델 함수에 의해 생성된 각 세그먼트에 대해 단일의 잔여 값으로 상기 코딩 유닛을 감소시키는 감소기(105); 및 사용된 상기 모델 함수 유형 및 상기 잔여 값을 비트 스트림으로 시그널링하는 신호기(107)를 포함한다.

실시 형태에서, 장치(100)는 깊이 맵의 깊이 정보와 관련된 색인을 획득하는 상기 깊이 맵에 의해 지시되는 깊이 레벨과 관련해서 상기 깊이 맵의 깊이 정보의 색인을 작성하는 색인 작성기; 및 상기 색인에 따라 상기 깊이 맵을 리맵핑함으로써 상기 깊이 정보 크기를 감소시키는 리맵퍼(remapper)를 더 포함한다.

실시 형태에서, 상기 색인 작성기는 미리 정해진 수의 뷰에 대해 상기 깊이 맵의 깊이 정보의 색인 작성을 수행하도록 구성되어 있으며, 상기 리맵퍼는 룩업-테이블을 사용하여 상기 깊이 정보의 감소를 수행하도록 구성되어 있다.

실시 형태에서, 상기 장치(100)는 깊이 맵의 그 대응하는 색인에 깊이 레벨을 맵핑하는 맵퍼를 포함한다.

실시 형태에서, 분할기(101)는: 상기 깊이 맵을 고정된 크기, 특히 64x64 픽셀의 고정된 크기의 고정된 크기 코딩 유닛으로 분할하고; 상기 고정된 크기 코딩 유닛을 가변 크기, 특히 범위가 4x4 픽셀 내지 64x64 픽셀인 코딩 유닛의 가변 크기의 코딩 유닛으로 하위분할함으로써 상기 코딩 유닛을 쿼드트리(quad-tree) 구조로 배열하며; 그리고 상기 쿼드트리 구조를 상기 비트 스트림으로 시그널링하는 것에 의해 상기 깊이 맵을 코딩 유닛으로 분할하도록 구성되어 있다.

실시 형태에서, 결정기(103)는 코딩 유닛에 인접하여 쿼드트리 구조로 배열된 코딩 유닛으로부터 예측함으로써 코딩 유닛에 대한 분할의 유형의 결정을 수행하도록 구성되어 있다.

실시 형태에서, 결정기(103)는: 코딩 유닛의 깊이 정보가 일정한 깊이를 나타내면 DC 유형을 결정하고; 상기 코딩 유닛의 깊이 정보가 점진적 깊이 변화를 나타내면 기울기 유형을 결정하고; 상기 코딩 유닛의 깊이 정보가 상이하되 일정한 깊이의 2개의 세그먼트를 나타내면 가장자리 유형을 결정하며; 그리고 모든 다른 경우에는 텍스처 유형을 결정하는 것에 의해 상기 모델 함수의 유형의 결정을 수행하도록 구성되어 있다.

실시 형태에서, 결정기(103)는: 코딩 유닛의 좌상(top-left) 모서리 픽셀의 좌에 배열된 인접 코딩 유닛과 상기 코딩 유닛의 좌상 모서리 픽셀의 상에 배열된 인접 코딩 유닛 중 하나로부터 상기 깊이 정보를 예측함으로써 DC 값을 결정하는 것에 의해 코딩 유닛에 대한 모델 함수의 DC 유형의 결정을 수행하도록 구성되어 있다.

실시 형태에서, 결정기(103)는: 코딩 유닛의 하부 행의 제1 픽셀(B)로부터 상기 코딩 유닛의 좌하(lower-right) 모서리의 목표 픽셀로 상기 코딩 유닛의 하부 행(bottom row)의 점진적 깊이 변화를 보간하고; 코딩 유닛의 우 열(right column)의 제2 픽셀(A)로부터 상기 코딩 유닛의 우하(lower-right) 모서리의 목표 픽셀(Z)로 우 열의 점진적 깊이 변화를 보간하며; 그리고 상기 하부 행의 점진적 깊이 변화 및 상기 우 열의 점진적 깊이 변화로부터 상기 점진적 깊이 변화를 양선형으로(bilinearly) 보간하는 것에 의해 코딩 유닛에 대한 분할의 기울기 유형의 결정을 수행하도록 구성되어 있다.

실시 형태에서, 결정기(103)는: 상기 코딩 유닛을 직선으로 2개의 세그먼트로 분할하고; 상기 코딩 유닛의 좌상 모서리 픽셀의 좌에 배열된 인접 코딩 유닛과 상기 코딩 유닛의 좌상 모서리 픽셀의 상에 배열된 인접 코딩 유닛 중 하나로부터 깊이 정보를 예측함으로써 상기 2개의 세그먼트 중 제1 세그먼트의 DC 값을 결정하며; 그리고 상기 코딩 유닛의 우상 모서리 픽셀의 우에 배열된 인접 코딩 유닛과 상기 코딩 유닛의 우상 모서리 픽셀의 상에 배열된 인접 코딩 유닛 중 하나로부터 깊이 정보를 예측함으로써 상기 2개의 세그먼트 중 제2 세그먼트의 DC 값을 결정하는 것에 의해 코딩 유닛에 대한 분할의 가장자리 유형의 결정을 수행하도록 구성되어 있다.

실시 형태에서, 결정기(103)는: 코딩 유닛을 직선에 의해 적어도 3개의 세그먼트로 분할하고; 그리고 코딩 유닛이 분할되는 세그먼트의 수를 결정하는 것에 의해 코딩 유닛에 대한 분할의 텍스처 유형의 결정을 수행하도록 구성되어 있다.

실시 형태에서, 장치(100)는 장치(100)는 비트 스트림의 이하의 세그먼트: 뷰의 시퀀스, 픽처, 슬라이스, 코딩 유닛, 및 예측 유닛 중 하나와 관련해서 비트 스트림의 코딩 방법을 전환하도록 구성되어 있다.

실시 형태에서, 장치는: 종래의 비디오 코딩에 따라 코딩된, 특히 HEVC 비디오 코딩에 따라 코딩된 또는 AVC 비디오 코딩에 따라 코딩된 비트 스트림의 코딩 유닛으로 코딩 유닛을 인터리빙하도록 구성되어 있는 인터리버를 포함한다.

이하에서 DMC는 본 발명의 제1 관점 또는 제1 관점의 실시 형태에 따라 3차원 비디오를 나타내는 비트스트림을 코딩 및/또는 디코딩을 위한 장치를 말한다. DMC 방법은 본 발명의 제2 관점에 따라 3차원 비디오를 나타내는 비트스트림을 코딩 및/또는 디코딩하는 방법을 말한다. 이하에서, 블록 모드는 본 발명의 관점에 따라 분할의 유형을 말한다. 블록은 코딩을 말한다.

"MPEG Video and Requirement Groups, "Call for proposals on 3D video coding technology," MPEG output document N12036, Tech. Rep., March 2011."로부터 3DV 테스트 시퀀스의 분석은, 모든 추정된 깊이 맵은 8 비트의 완전히 이용 가능한 신호 범위를 활용하지 않는다는 것을 보여주었다. 깊이 레벨을 닮은 소량의 상이한 회색 값만이 강력한 양자화로 인해 이들 시퀀스에서 생긴다. 제1 코딩 단계에서, DMC는 그러므로 맵핑 기술을 활용하며, 이러한 색인에 따라 깊이 맵을 리맵핑하기 전에 나타나는 모든 깊이 값의 색인을 작성한다. 이에 의해 다른 DMC 코딩 툴에 의해 사용된 잔여 신호 계수뿐만 아니라 신호 비트-깊이도 감소한다.

전술한 바와 같이, DMC는 블록 기반 코덱이고, HEVC에 의해 도입된 계층 쿼드트리 분할을 재사용한다. 깊이 맵은 디폴트 크기가 64x64 픽셀인 최대 코딩 유닛(LCU)으로 분할된다. 각각의 LCU는 계층 쿼드트리 구조로 하위분할될 수 있다. 분할의 결과는 다양한 크기의 코딩 유닛(CU)이 나오고 상이한 상세 레벨을 고려할 수 있다는 것이다. 디폴트에 의해, CU는 4x4 픽셀보다 작게 될 수 있다. 쿼드트리 분할은 HEVC에서와 같은 방식으로 대응하는 분할-플래그를 가지는 비트스트림에서 시그널링된다.

3가지 이용 가능한 모델 함수 중 하나는 분할의 유형이라고도 하며 각각 CU에 할당된다. 선택된 모드는 예측 방식으로 비트스트림에 코딩된다. DMC는 인접 CU로부터 가장 가능성 있는 블록 모드를 유도한다. 플래그는 실제의 블록 모드가 예측된 모드와 일치하는지를 코딩한다. 이것이 그 경우가 아니면, 부가적인 플래그 필요하다. 양측의 플래그는 CABAC 엔진에 대해 할당된 자체의 새로운 문맥 모델을 가진다.

DC-모드는 DC 유형이라고 하며 단일 색상의 영역을 단일의 DC 계수로 모델화한다. DMC는 2개의 이용 가능한 예측기 사이에서 선택하는, 인접 블록들로부터 대응하는 파라미터를 예측하고, 이 예측기들은 현재 블록의 좌상 모서리 픽셀의 좌 및 상에 위치한다. 플래그는 2개의 예측기 중 어느 것을 사용할지를 시그널링한다. 잔여 신호는 비트스림에 코딩된다.

가장자리-모드(Edge-Mode: EM)는 가장자리 유형이라고도 하며, 도 2a에 도시된 것과 관련해서 이하에 설명된 바와 같이 블록을 2개의 직선에 의해 분할한다. 각각의 세그먼트는 그 후 단일의 DC 계수에 의해 모델화된다. 제1 세그먼트에 있어서, 이 계수의 예측은 DCMode와 동일하다.

세그먼트 2는 다른 예측기 집합을 가지며(도 2b 참조), 이것들은 실제 블록의 좌하 및 우상 모서리에 위치한다. 블록 크기에 따라, 분할 라인을 설명하는 파라미터의 코딩에 대한 2개의 상이한 방법이 있다.

4x4 픽셀 크기의 블록에 있어서, 구별되는 8개의 이용 가능한 가장자리-패널의 집합이 있다. 대응하는 3비트 색인은 엔트로피 코딩 에지를 우회하여 비트스트림에 코딩된다. 이 패턴 기반 방법은 큰 블록에는 적합하지 않으며 결과적으로 다른 가장자리의 설명으로 대체된다: 도 2a에 도시된 바와 같이, 가장자리는 6개의 시작/종료 경계 조합 중 하나 및 2개의 색인에 의해 규정된다. 이 정보는 엔트로피 코더를 우회하여 다시 코딩된다.

복수의 EM-코딩된 블록을 통해 가장자리의 연속성을 향상시키기 위해, DMC는 예측 방식으로 가장자리 파라미터를 코딩할 수 있다. 이것은 인접 블록이 EM-코딩된 것이고 그 가장자리는 현재 블록으로 이끌어질 때마다 적용한다. 이 경우, 현재 블록의 가장자리의 시작점은 인접 블록의 가장자리 종료점으로부터 예측된다. 이것이 그 경우이면, 실제의 경계 및 위치 오프셋은 CABAC 엔트로피 코더를 사용하여 잔여 코딩된다.

DMC의 편평 모드(Planar-Mode: PM) 또는 기울기 모드는 기울기 유형이라고도 하는데, 깊이 맵에서 점진적인 색 변화를 모델화하도록 도입된다. 이 편평 모드에의 입력은 현재 블록의 우하 모서리 내의 목표 값 Z뿐만 아니라 인접 픽셀 값이다. 도 3에 도시된 바와 같이, 하부 행은 값 B 및 Z으로부터 선형으로 보간되고, 우 행(right row)은 A와 Z로부터 각각 보간된다. 제2 단계에서, 모든 남아 있는 픽셀 값은 주위의 경계 값으로부터 양선형으로(bilinearly) 보간된다. Z 파라미터만이 비트스트림에서 코딩되고, 마찬가지로 예측 및 잔여 방식으로 코딩된다. Z-계수 예측 프로세스에 있어서, DMC는 2가지 경우를 구별한다. 인접 블록이 PM-코딩되지 않은 경우, 예측기는 EM-블록 내의 제2 세그먼트에서와 동일한 방식으로 유도된다(도 2b 참조). 그렇지 않으면, 인접 PM-코딩 블록에서의 기울기는 그 모서리 픽셀 위치로부터 계산되어 실제의 Z-계수를 보간한다. 후자의 경우, 양 인접 블록이 편평이면, 예측은 단지 경쟁이다.

편평 모드의 Z 파라미터뿐만 아니라 모든 DC-계수도 인접 파라미터에 의해 예측되며, 잔여 신호만이 비트스트림에서 코딩된다. 제1 플래그는 그 값이 0이면 시그널링한다. 이것이 그 경우이면, 신호 플래그가 먼저 코딩된다. 비트플레인 코딩(bitplane coding)은 잔여의 크기에 사용된다. 각각의 모드 및 세그먼트 내의 각각의 비트-위치는 그 자체의 문맥 모델을 가진다. 논제로 및 기호 플래그도 자체의 문맥을 가진다. 논제로 및 기호 플래그에 대해서도 마찬가지로 유지된다.

DMC 인코더는 라그랑지 방법(Lagrangian method)에 기초하여 코딩 결정한다. 모드 m은 RD 비용 함수 J = D(m) +λR(m)를 최소화함으로써 최상의 모드로 고려된다. 이에 의해 라그랑지 승산기 λ는 제공 평균의 합(sum of squared errors: SSE)으로 측정되어, 레이트 R과 왜곡 D 간의 트레이드오프의 제어를 제공한다. HEVC와는 달리, λ는 양자화 파라미터(QP)에 기초하여 내부적으로 계산되지 않으며, 인코더 구성에서 파라미터로서 직접적으로 설정된다.

DMC의 DC 예측 모드는 깊이가 일정한 영역에 대해 적합하다. 대응하는 DC 예측 값은 트리 블록의 상 및 좌의 모든 직접적으로 인접하는 샘플의 평균에 의해 인접 블록으로부터 예측된다. 결과적인 잔여는 후술하는 코딩 단계에 따라 비트스트림으로 인코딩된다.

3DV 테스트 시퀀스 "MPEG Video and Requirement Groups, "Call for Proposals on 3D Video Coding Technology," MPEG output document N12036, March 2011"의 분석은 추정된 깊이 맵이 2⁸의 완전한 이용 가능한 깊이 범위를 활용하지 않는다는 것을 보여주었다. 소량의 다른 깊이 레벨만이 강력한 양자화로 인해 이러한 시퀀스에서 생긴다. 초기의 분석 단계에서, DMC 그러므로 입력 시퀀스의 소정의 수의 프레임을 분석함으로써 동적 깊이 룩업-테이블을 구성한다. 이 깊이 룩업-테이블은 코딩 프로세스에서 사용되어 유효 신호 비트-깊이를 감소시키고 그 결과 DMC 코딩 툴에 의해 사용되는 잔여 신호 계수의 범위를 감소시킨다.

분석 단계에서 인코더는 코딩될 입력 비디오 시퀀스로부터 미리 정해진 수의 프레임을 판독하고 이용 가능한 깊이 값에 대한 모든 픽셀을 스캔한다. 이 프로세스 동안 맵핑 테이블은 원래의 비압축 깊이 맵에 기초하여 깊이 값을 유효 깊이 값에 맵피하는 것이 작성된다.

상세히 설명하면, 알고리즘은 이하의 단계를 수행한다:

입력: 시간 t에서 NxM 픽셀의 깊이 맵 D_t

출력: 깊이 룩업 테이블 D(.)

색인 룩업 테이블 I(.)

깊이 맵핑 테이블 M(.)

유효 깊이 값의 수 d_valid

알고리즘:

0. 초기화

불 벡터 B(d) = 모든 깊이 값 d에 대해 FALSE

지수 카운터 i=0

1. 복수의 시간 순간 t에 대해 각각의 픽셀 위치를 처리:

집합 B(D_t(p)) = 유효 깊이 값을 나타내는 TRUE

2. B(d) 내의 TRUE 값의 수를 카운트 → d_valid

3. B(d)를 가진 각각의 d에 있어서 == TURE:

집합 D(i) = d

집합 M(i) = d

집합 I(i) = i

i = i+1

4. B(d)를 가진 각각의 d에 있어서 == FALSE:

를 찾아내고

== TURE

집합 M(d) =

집합 I(d) =

코딩 단계는 다음과 같다:

주어진 코딩 유닛에 대한 잔여 깊이 값을 코딩하는 대신, 깊이 값을 유효 깊이 맵의 목록 내의 그 대응하는 색인에 맵핑한다. 이 맵핑 테이블은 색인으로부터 유효 깊이 값으로의 역 검색을 위해 디코더에 전송되어야 한다. 이 룩업 테이블을 사용하는 장점은 깊이 범위가 감소된 시퀀스에 대한 잔여 색인의 감소된 비트 깊이이다(예를 들어, "MPEG Video and Requirement Groups, "Call for Proposals on 3D Video Coding Technology," MPEG output document N12036, March 2011"에 설명된 MPEG 3DV 액티비티 내의 모든 추정된 깊이 맵).

상세한 알고리즘은 다음과 같다:

입력: 원래의 깊이 값 d_orig

예측된 깊이 값 d_pred

색인 룩업 테이블 I(.)

유효 깊이 값 d_valid의 수

출력: 코딩될 잔여 색인 i_resi

알고리즘:

i_resi = I(d_orig) - I(d_pred)

그런 다음 계산된 잔여 색인은 중요도 플래그, 기호 플래그로 코딩되고, 그리고 잔여 색인의 크기에 대한 비트로 코딩된다.

도 2는 실시 형태에 따라 비트 스트림을 코딩하는 장치의 결정자의 가장자리 형태 결정에 대한 개략도이다.

가장자리 예측(Edge Prediction: EP)은 가장자리 유형의 결정이라고도 하며, 도 2에 도시된 바와 같이 블록을 직선에 의해 2개의 세그먼트로 분할한다. 양 세그먼트는 DC 값에 의해 모델화되고, 이는 상 그리고 좌 코딩된 트리 블록의 인접 깊이 값으로부터 예측된다. 2개의 DC 값의 예측은 인접 깊이 값의 평균에 의해 계산되며, 이것은 그 선택된 가장자리 분할에 의해 규정된 동일한 세그먼트에 속할 것이다. 결과적인 잔여는 도 1과 관련해서 설명된 코딩 단계에 따라 코딩된다.

6개의 다른 시작/종료 경계 및 2개의 대응하는 색인은 현재 블록을 2개의 세그먼트로 분할하는 것을 정의한다. 이러한 조합에 대한 2가지 예가 도 2에 도시되어 있다.

복수의 EP-코딩된 블록을 통해 가장자리의 연속성을 향상시키고 가장자리 시그널링에 대한 필요한 비트레이트를 감소시키기 위해, DMC는 인접 블록으로부터 가장자리 정보를 예측한다. 이것은 인접 블록 역시 가장자리 예측을 사용하고 그 가장자리는 현재 블록으로 이끌어질 때마다 적용한다. 이 경우, 현재 블록의 가장자리의 시작점은 그 블록의 가장자리 종료점으로부터 예측되고 현재 블록의 종료점은 인접 가장자리의 경사를 현재 블록으로 계속 진행함으로써 예측된다. 실제의 경계 및 예측에 대한 위치 오프셋은 CABAC 엔트로피 코더를 사용하여 잔여 코딩된다. 매우 유사한 예측 모드가 깊이 모델링 모드(Depth Modeling Modes: DMM)의 일부로서 찾아지고, 이것은 가장자리 정보의 상이한 시그널링을 사용한다. 또한, DMM 예측된 블록의 결과적인 잔여는 계속해서 변환 코딩된다.

소정 블록에 대한 깊이 맵 신호를 예측할 때 동일한 뷰의 텍스처 성분의 이미 코딩된, 병치된 블록(collocated block)을 병합하는 것이 가능하다. 텍스처 블록의 휘도 성분의 간단한 임계화를 적용함으로써, 블록을 2 또는 3개의 세그먼트로 분할하는 것이 계산된다. 결과적인 분할 마스크는 그런 다음 이러한 세그먼트 각각의 평균 깊이 값을 계산하는 데 사용된다. 결과적인 DC 값은 특별한 세그먼트의 직접적인 인접 샘플의 평균 깊이 값에 의해 가장자리 또는 DC 예측과 유사하게 다시 예측된다. 결과적인 잔여는 도 1과 관련해서 설명된 코딩 단계에 따라 코딩된다.

깊이 모델 모드(DMM)는 현재 기준 소프트웨어에 있을 때 깊이 모델 모드(DMM) 역시 텍스처-대-깊이 예측이 허용되지만 DMM은 2개의 세그먼트에 대해서만 허용되고 깊이 값을 직접적으로 코딩하는 대신 후속의 변환 단계가 있기 때문에 더 제한적이다.

도 3은 실시 형태에 따라 비트 스트림을 코딩하는 장치의 결정자의 경사도 형태 결정에 대한 개략도이다.

DMC의 기울기 예측(Gradient Prediction: GP)은 기울기 유형의 결정이라고도 하며 깊이 맵에서의 점진적 깊이 변화를 모델화하는 데 도입된다. 이 모드에의 입력은 현재 블록의, 우하 모서리에서의 목표 값 Z뿐만 아니라 인접 픽셀 값이다. 도 3에 도시된 바와 같이, 하부 행은 값 B 및 Z으로부터 선형으로 보간되고, 우 행은 A와 Z로부터 각각 보간된다. 제2 단계에서, 모든 남아 있는 픽셀 값은 주위의 경계 값으로부터 양선형으로 보간된다.

Z 파라미터는 상 그리고 좌 코딩된 트리 블록의 직접적으로 인접하는 깊이 샘플로부터 다시 예측된다. 현재 블록의 상에서의 수평 기울기 및 좌측에서의 수직 기울기를 계산함으로써, Z 값은 이러한 2개의 기울기를 좌상 위치에서의 깊이 값에 부가함으로써 예측될 수 있다. 결과적인 잔여는 도 1과 관련해서 설명된 코딩 단계에 따라 코딩된다.

도 4는 실시 형태에 따라 장치에 의해 코딩된 3차원 비디오에 대한 재구성도이다.

도 4는 픽셀 당 0:0043 비트에서 (a) 비압축, (b) 종래의 인트라 코딩 및 (c) DMC-기반 코딩 깊이 맵에 기초하여 재구성된 깊이(상) 및 합성 결과(하)를 나타낸다.

DMC는 종래의 인트라-예측 및 변환 기반 알고리즘에 대한 대안의 인트라 코딩 방법으로서 HEVC 테스트 모델(HM3.0)에 통합되었다. 본 실시에서 깊이 맵은 동반하는 텍스처 비디오와는 독립적으로 코딩된다. 그럼에도, 쿼드트리 분해 및 CABAC 엔트로피 코더와 같은 텍스처 코딩 툴은 깊이 맵 코딩에 재사용된다. 실험에서, 깊이 맵은 HM 3.0 소프트웨어로 코딩되는데, 한 번은 디폴트 인트라-코딩 툴로 코딩되고 한 번은 제시된 DMC 방법으로 코딩된다. DMC 경우의 상이한 비트레이트에 도달하기 위해, RD 비용 함수의 라그랑지 승산기 λ가 가변한다. 양측의 방식은 거의 모든 비트 레이트 범위에서 동등하게 잘 수행한다. 측정된 PSNR은 재구성된 깊이 맵에 기초해서 계산된다. 깊이 맵은 통상적으로 스스로 디스플레이되지 않으며 텍스처 비디오에 대한 보조 데이터로서 보일 수 있다. 수신기에서의 임의의 뷰포인트를 합성하는 데 활용되기 때문에, PSNR 곡선은 깊이 맵의 품질에 대한 대강의 개념만을 제공한다. 본 발명의 관점에 따르면, 종래의 변환 기반 코더에 비해 모델 기반 방식의 가장 두드러진 이점은 대상 경계를 따르는 링잉 부작용을 제거하는 것에 의해 깊이 불연속성의 보존이 향상되는 것이다.

이하에서는, 비압축 깊이 맵에 기초하여 합성된 뷰포인트를 제시하여 이러한 가상의 뷰에 대한 시각 품질의 향상을 보인다. 이러한 실험 결과의 생성에 있어서 텍스처 테이터는 깊이 코딩 부작용에 집중하도록 비압축으로 남았다. 뷰 합성에 있어서 MPEG 뷰 합성 기준 소프트웨어(VSRS 3.5)의 수정판이 사용되었다. VSRS에서의 모든 깊이 맵 개선 알고리즘은 다르게 압축된 깊이 맵들에 의해 유도되는 순수한 합성 부작용을 비교할 수 있도록 턴 오프된다.

도 4에서는 2개의 상이한 코딩 방식의 통상적인 재구성 깊이 맵을 상부의 3개의 이미지에서 볼 수 있다. 종래의 HM 인트라 코딩 툴은 깊이 불연속성을 따라 강력한 흐릿함 및 링잉 부작용을 생기게 하지만, 본 발명의 관점에 따라 제시된 DMC 알고리즘은 명시적 표시에 가장자리 위치를 근사화함으로써 이러한 가장자리 위치를 보존한다. 양측의 도시된 깊이 맵은 픽셀 당 0:0043 비트에서 코딩되고 PSNR과 관련해서 이것들은 매우 유사한 품질을 가진다. 더 중요하게, 도 4e는 HM 인트라 코딩 툴의 코딩 부작용으로 인한 지형 왜곡을 도시하고 있다. 사람의 얼굴을 따르는 흐릿한 깊이 맵은 합성된 뷰에서 머리의 강력한 변형으로 되어 버린다. 이와는 대조적으로, DMC 방법은 확실한 합성 품질을 생성하며(도 4f 참조), 이것은 비압축 깊이 맵에 기초한 합성에 상대적으로 가깝다.

본 애플리케이션에서는, 깊이 맵을 코딩하는 새로운 모델 기반 알고리즘이 제시된다. DMC 압축 깊이 맵이 시각적으로 향상된 합성 뷰로 되는 것을 보여주고 있다. 제시된 DMC 방법은 깊이 불연속성의 명시적 시그널링 위치에 의해 변환 기반 코더로부터 알려진 바와 같은 링잉 부작용을 제거한다. 깊이 데이터의 낱낱의 부드러운 영역들은 일정한 깊이 값에 의해 또는 편평 모드에 의해 모델화되며, 이것은 깊이 기울기를 모델화할 수 있다. 종래의 인트라코딩 툴과 비교하여, DMC는 깊이 맵이 되고, 이것은 실험 결과에 기반하여 보여지는 바와 같이 지형 왜곡이 덜 생긴다.

실시 형태에서, 제시된 새로운 인트라-코딩 알고리즘은 움직임 보상 시나리오에 병합된다. 시간적 예측을 사용하는 프레임에 있어서, 모델 파라미터는 재사용되고 시간 변화에 일치하도록 갱신된다. 실시 형태에서, 종래의 인트라-코딩 및 모델 기반 방식은 인접 블록으로부터 모드 파라미터를 예측함으로써 결합된다. 실시 형태에서, 텍스처 및 깊이 데이터의 인코딩은 결합되고 DMC의 모델 파라미터의 유도는 대응하는 텍스처로부터 정보를 병합함으로써 향상된다.

제시된 알고리즘은 3DV-HTM 3.1 기준 소프트웨어로 실시된다. 알고리즘 및 실시는 기준 소프트웨어의 다른 코딩 툴과 간섭하지 않으며 그러므로 모든 이용 가능한 툴에 부가해서 사용될 수 있다. 4개의 DMC 예측 모드 중 3개는 이미 기준 실시에 있는 깊이 모델 모드(DMM)와 매우 유사하고, DMM은 시뮬레이션에 장애가 있다. 기준 시뮬레이션에서, DMM은 장애가 있었다. DMC는 현재의 3DV-HTM 3.1 기준 소프트웨어에 비해 현저한 부가적인 계산 복잡도가 생기지 않는다. 최적의 세그먼트를 찾아내기 위해 모든 가능한 분할을 테스트해야 하기 때문에, 가장자리 예측 모드만이 상대적으로 인코더 측에서 복잡할 뿐이다. 모든 다른 DMC 성분 및 특히 디코더 측 알고리즘은 참여하는 DMC 코딩된 블록에 대해 역양자화도 없고 역변환도 없기 때문에 복잡도가 매우 낮다.

DMC 시뮬레이션은 "MPEG Video and Requirement Groups, "Call for proposals on 3D video coding technology," MPEG output document N12036, Tech. Rep., March 2011"에 설명된 공통의 테스트 조건에 따라 수행되었다. 모든 인트라 코더 구성에 있어서 깊이 맵 인트라 코딩 툴에 대해 핵심 실혐 6.h로부터의 구성 파일이 존재하였다. DMM 예측 모드는 DMC에 사용된 예측과 매우 유사하기 때문에 공통의 테스트 조건과의 편차만이 DMC 시뮬레이션에 대한 DMM에서 안 되었고 비트레이트 절감에 있어서 부가적인 이득이 잠재적으로 작아 복잡도가 많이 증가할 것이다. 계산 복잡도의 측정은 다른 하드웨어 구성을 가지는 이질의 클러스터에 기초하기 때문에 주의 깊게 다루어야 한다.

표 1은 무작위 액세스 구성에 대한 레이트 절감을 나타내고 도 2는 모든 인트라 구성에 대한 레이트 절감을 나타낸다.

무작위 액세스 구성

모든 인트라 구성

제시된 방법의 교차 검사가 행해졌다. 실시에서의 문제는 없었다.

본 애플리케이션에서는, 깊이 맵의 인트라 코딩에 대한 모델 기반 알고리즘이 제시된다. 제시된 DMC 방법은 비트스트림 내의 픽셀-도메인 정보를 직접적으로 시그널링함으로써 변환 기반 코딩으로 알려진 링잉 부작용을 제거한다. 깊이 데이터의 낱낱의 부드러운 영역들은 일정한 깊이 값에 의해서 또는 편평 모드에 의해서 예측되며, 이것은 깊이 기울기를 모델화할 수 있다. 후속의 잔여 코딩 단계에서는, 제시된 깊이 룩업 테이블은 각 세그먼트에 대한 잔여 DC 값을 잔여 색인에 맵핑하고 그런 다음 엔트로피 코딩된다. 본 발명의 관점은 깊이 맵의 인트라 코딩에 대한 중요한 코딩 이득을 보인다.

전술한 바로부터, 다양한 기기, 방법, 시스템, 컴퓨터 프로그램 또는 기록 매체 등이 제공된다는 것은 당업자에게는 자명하다.

본 개시는 또한 실행될 때, 적어도 하나의 컴퓨터가 여기서 설명된 단계들을 수행하고 계산하는 것을 실행하게 하는 컴퓨터 실행 가능형 코드 또는 컴퓨터 실행 가능형 명령을 포함하는 컴퓨터 프로그램 제품을 지원한다.

본 개시는 또한 여기서 설명된 단계들을 수행하고 계산하는 것을 실행하도록 구성된 시스템을 지원한다.

많은 대안, 수정, 및 변형은 전술한 지침과 관련해서 당업자에게는 자명할 것이다. 물론, 당업자는 여기서 설명된 것들을 넘어서는 본 발명의 수많은 애플리케이션이 있다는 것을 쉽게 인식한다. 본 발명을 하나 이상의 특별한 실시예를 참조하여 설명하였으나, 당업자는 본 발명의 범위를 벗어남이 없이 많은 변경이 본 발명에 대해 이루어질 수 있다는 것을 인식할 것이다. 그러므로 첨부된 특허청구범위 및 그 등가물의 범위 내에서 여기서 구체적으로 설명되지 않은 그 밖의 발명들이 실시될 수 있음은 물론이다.

Claims

뷰(view)의 시퀀스를 포함하는 3차원 비디오를 표현하는 비트 스트림을 코딩하는 장치(100)에 있어서,
깊이 맵은 각각의 뷰와 연관되어 있고, 상기 깊이 맵은 뷰를 포착하는 카메라에 대한 위치와 관련하여 뷰의 깊이 정보를 포함하며,
상기 깊이 맵을 코딩 유닛으로 분할하는 분할기(101);
상기 코딩 유닛의 깊이 정보에 기초하여 각 코딩 유닛에 대한 모델 함수의 유형을 결정하는 결정기(103);
상기 모델 함수에 의해 생성된 각 세그먼트에 대해 단일의 잔여 값으로 상기 코딩 유닛을 감소시키는 감소기(105); 및
사용된 상기 모델 함수 및 상기 잔여 값을 비트 스트림으로 시그널링하는 신호기(107)
를 포함하는 장치.
제1항에 있어서,
상기 깊이 맵의 깊이 정보와 관련된 색인을 획득하는 상기 깊이 맵에 의해 지시되는 깊이 레벨과 관련해서 상기 깊이 맵의 깊이 정보의 색인을 작성하는 색인 작성기; 및
상기 색인에 따라 상기 깊이 맵을 리맵핑함으로써 상기 깊이 정보 크기를 감소시키는 리맵퍼(remapper)
를 더 포함하는 장치.
제2항에 있어서,
상기 색인 작성기는 미리 정해진 수의 뷰에 대해 상기 깊이 맵의 깊이 정보의 색인 작성을 수행하도록 구성되어 있으며,
상기 리맵퍼는 룩업-테이블을 사용하여 상기 깊이 정보의 감소를 수행하도록 구성되어 있는, 장치.
제2항 또는 제3항에 있어서,
상기 깊이 맵의 그 대응하는 색인에 상기 깊이 레벨을 맵핑하는 맵퍼
를 포함하는 장치.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 분할기(101)는,
상기 깊이 맵을 고정된 크기, 특히 64x64 픽셀의 고정된 크기의 고정된 크기 코딩 유닛으로 분할하고;
상기 고정된 크기 코딩 유닛을 가변 크기, 특히 범위가 4x4 픽셀 내지 64x64 픽셀인 코딩 유닛의 고정 크기의 코딩 유닛으로 하위분할함으로써 상기 코딩 유닛을 쿼드트리(quad-tree) 구조로 배열하며; 그리고
상기 쿼드트리 구조를 상기 비트 스트림으로 시그널링하는 것
에 의해 상기 깊이 맵을 코딩 유닛으로 분할하도록 구성되어 있는, 장치.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 결정기(103)는 상기 코딩 유닛에 인접하여 쿼드트리 구조로 배열된 코딩 유닛으로부터 예측함으로써 코딩 유닛에 대한 분할의 유형의 결정을 수행하도록 구성되어 있는, 장치.
제1항 내지 제6항 중 어느 한 항에 있어서,
상기 결정기(103)는,
상기 코딩 유닛의 깊이 정보가 일정한 깊이를 나타내면 DC 유형을 결정하고;
상기 코딩 유닛의 깊이 정보가 점진적 깊이 변화를 나타내면 기울기 유형을 결정하고;
상기 코딩 유닛의 깊이 정보가 상이하되 일정한 깊이의 2개의 세그먼트를 나타내면 가장자리 유형을 결정하며; 그리고
모든 다른 경우에는 텍스처 유형을 결정하는 것
에 의해 상기 모델 함수의 유형의 결정을 수행하도록 구성되어 있는, 장치.
제7항에 있어서,
상기 결정기(103)는,
상기 코딩 유닛의 좌상(top-left) 모서리 픽셀의 좌에 배열된 인접 코딩 유닛과 상기 코딩 유닛의 좌상 모서리 픽셀의 상에 배열된 인접 코딩 유닛 중 하나로부터 상기 깊이 정보를 예측함으로써 DC 값을 결정하는 것
에 의해 코딩 유닛에 대한 모델 함수의 DC 유형의 결정을 수행하도록 구성되어 있는, 장치.
제7항 또는 제8항에 있어서,
상기 결정기(103)는,
상기 코딩 유닛의 하부 행(bottom row)의 제1 픽셀(B)로부터 상기 코딩 유닛의 우하(lower-right) 모서리의 목표 픽셀(Z)로 상기 코딩 유닛의 하부 행(bottom row)의 점진적 깊이 변화를 보간하고;
상기 코딩 유닛의 우 열(right column)의 제2 픽셀(A)로부터 상기 코딩 유닛의 우하(lower-right) 모서리의 목표 픽셀(Z)로 우 열의 점진적 깊이 변화를 보간하며; 그리고 상기 하부 행의 점진적 깊이 변화 및 상기 우 열의 점진적 깊이 변화로부터 상기 점진적 깊이 변화를 양선형으로(bilinearly) 보간하는 것
에 의해 코딩 유닛에 대한 분할의 기울기 유형의 결정을 수행하도록 구성되어 있는, 장치.
제7항 내지 제9항 중 어느 한 항에 있어서,
상기 결정기(103)는,
상기 코딩 유닛을 직선으로 2개의 세그먼트로 분할하고;
상기 코딩 유닛의 좌상 모서리 픽셀의 좌에 배열된 인접 코딩 유닛과 상기 코딩 유닛의 좌상 모서리 픽셀의 상에 배열된 인접 코딩 유닛 중 하나로부터 깊이 정보를 예측함으로써 상기 2개의 세그먼트 중 제1 세그먼트의 DC 값을 결정하며; 그리고
상기 코딩 유닛의 우상 모서리 픽셀의 우에 배열된 인접 코딩 유닛과 상기 코딩 유닛의 우상 모서리 픽셀의 상에 배열된 인접 코딩 유닛 중 하나로부터 깊이 정보를 예측함으로써 상기 2개의 세그먼트 중 제2 세그먼트의 DC 값을 결정하는 것
에 의해 코딩 유닛에 대한 분할의 가장자리 유형의 결정을 수행하도록 구성되어 있는, 장치.
제7항 내지 제10항 중 어느 한 항에 있어서,
상기 결정기(103)는,
상기 코딩 유닛을 직선에 의해 적어도 3개의 세그먼트로 분할하고; 그리고
상기 코딩 유닛이 분할되는 세그먼트의 수를 결정하는 것
에 의해 코딩 유닛에 대한 분할의 텍스처 유형의 결정을 수행하도록 구성되어 있는, 장치.
제1항 내지 제11항 중 어느 한 항에 있어서,
상기 장치(100)는 비트 스트림의 이하의 세그먼트:
뷰의 시퀀스,
픽처,
슬라이스,
코딩 유닛, 및
예측 유닛
중 하나와 관련해서 비트 스트림의 코딩 방법을 전환하도록 구성되어 있는 장치.
제1항 내지 제12항 중 어느 한 항에 있어서,
종래의 비디오 코딩에 따라 코딩된, 특히 HEVC 비디오 코딩에 따라 코딩된 또는 AVC 비디오 코딩에 따라 코딩된 비트 스트림의 코딩 유닛으로 상기 코딩 유닛을 인터리빙하도록 구성되어 있는 인터리버
를 포함하는 장치.
뷰(view)의 시퀀스를 포함하는 3차원 비디오를 표현하는 비트 스트림을 코딩하는 방법에 있어서,
깊이 맵은 각각의 뷰와 연관되어 있고, 상기 깊이 맵은 뷰를 포착하는 카메라에 대한 위치와 관련하여 뷰의 깊이 정보를 포함하며,
상기 깊이 맵을 코딩 유닛으로 분할하는 단계;
상기 코딩 유닛의 깊이 정보에 기초하여 각 코딩 유닛에 대한 모델 함수의 유형을 결정하는 단계;
상기 모델 함수에 의해 생성된 각 세그먼트에 대해 단일의 잔여 값으로 상기 코딩 유닛을 감소시키는 단계; 및
사용된 상기 모델 함수 및 상기 잔여 값을 비트 스트림으로 시그널링하는 단계
를 포함하는 방법.
제14항의 방법을 수행하는 컴퓨터 프로그램으로서,
상기 컴퓨터 프로그램은 컴퓨터 상에서 실행되는, 컴퓨터 프로그램.