KR101365329B1

KR101365329B1 - 비디오 시퀀스로의 추가 채널로서의 깊이 코딩

Info

Publication number: KR101365329B1
Application number: KR1020127016136A
Authority: KR
Inventors: 재 훈 김; 리민 왕
Original assignee: 제너럴 인스트루먼트 코포레이션
Priority date: 2009-11-23
Filing date: 2010-11-23
Publication date: 2014-03-14
Also published as: CN102792699A; WO2011063397A1; US20110122225A1; KR20120085326A

Abstract

복수의 비디오 소스로부터의 비디오 데이터를 선택적으로 코딩하여 깊이 정보를 포함시키는 3D 비디오 코딩 장치 및 방법. 코딩은 깊이 정보를 RGB, YCrCb 또는 YUV 등의 뷰 정보와 결합함으로써 수행되고, RGBD, YCrCbD 또는 YUVD처럼 뷰 정보와 함께 코딩된다. 장치는 깊이 정보를 포함하지 않거나(예를 들어, 2D 포맷) 채도 채널처럼 깊이 정보를 포함하는 깊이 포맷 플래그에 기초하여 깊이 정보를 선택적으로 코딩할 수 있다. 깊이 정보는, 비디오 정보를 인코딩하여 가장 높은 품질을 얻는 레이트 왜곡 추정치 또는 코딩 비용에 기초하여 YCrCb와 별도로 또는 함께 코딩될 수 있다.

Description

비디오 시퀀스로의 추가 채널로서의 깊이 코딩{DEPTH CODING AS AN ADDITIONAL CHANNEL TO VIDEO SEQUENCE}

본 출원은 2009년 11월 23일 제출된 미국 가출원 61/263,516의 이득을 청구하며, 그 전체가 참고로 여기에 포함된다.

본 발명은 3D 비디오 이미지 등의 비디오 이미지 내의 깊이 코딩에 관한 것이다.

3D는 다시 매력적인 기술이 되고 있고, 이번에는 콘텐츠 제공자로부터의 지원을 얻고 있다. 새로운 애니메이션 영화 및 많은 영화의 대부분은 또한 3D 능력을 가지고 출시되고 있으며 전국에 널리 퍼진 3D 영화관에서 볼 수 있다. 또한, NBA 또는 NFL 게임 등의 운동 경기의 실시간 방영에 대하여 몇 개의 테스트가 존재하였다. 평판 스크린에서 3D를 인지하기 위하여, 인간의 시각 시스템을 모방하여 좌측 및 우측 눈에 스테레오 카메라에 의해 포착된 좌측 및 우측 뷰를 각각 보여주는 입체 영상이 사용된다. 그러므로, 2D 시퀀스에 필요한 대역폭의 2배를 필요로 한다. 3D TV (3DTV) 또는 3D 비디오(3DV)는 입체 영상을 사용하여 시청자에게 3D 지각을 전달하는 애플리케이션이다. 그러나, 3DTV에서 각 눈에 대하여 2개의 뷰만이 전달되기 때문에, 사용자는 콘텐츠 제공자에 의해 고정된 뷰 포인트(view point)를 변경할 수 없다.

프리 뷰 포인트 TV(FTV)는 사용자가 상이한 뷰 포인트를 통해 내비게이팅하여 보기 원하는 것을 선택하게 하는 또 다른 3D 애플리케이션이다. 다수의 뷰 포인트가 이용 가능하도록 하기 위하여, 멀티뷰 비디오 시퀀스가 사용자에게 전송된다. 실제로, 이웃하는 뷰간의 거리가 입체 영상에 대한 조건을 만족하면 3DTV에 필요한 스테레오 시퀀스는 멀티뷰 비디오 시퀀스의 서브세트로 간주될 수 있다. 뷰의 수에 따라 데이터량이 선형적으로 증가하기 때문에, 멀티뷰 비디오 시퀀스는 광범위한 사용을 위해 효율적으로 압축될 필요가 있다.

멀티뷰 비디오 시퀀스의 비트레이트를 감소시키기 위한 노력으로서, JVT는 멀티뷰 비디오 코딩(MVC)을 착수하였고, H.264/AVC에 대한 보정으로서 완결지었다. MVC에서, 멀티뷰 비디오 시퀀스는 시간 및 뷰에 걸쳐서 프레임 간의 의존성을 증가시키면서 더 높은 코딩 효율을 위해 시간 및 크로스-뷰 상관을 이용하여 인코딩된다. 그러므로, 사용자가 특정한 뷰를 보기를 원할 때, 불필요한 뷰가 의존성에 따라 디코딩되어야 한다. 또한, MVC의 압축 효율은, 카메라 격차(disparity)에 의한 기하학적인 왜곡이 있고 이웃 뷰 간의 상관이 작을 때 불만족스럽다.

발명의 개요

본 발명의 원리에 따르면, 본 발명의 장치는 뷰 데이터 및 깊이 데이터의 결합 세트를 인코딩함으로써 비디오 데이터를 인코딩하도록 구성된 인코더를 포함할 수 있다. 뷰 데이터 및 깊이 데이터의 결합 세트는 RGBD, YUVD 또는 YCbCrD 중의 하나를 포함할 수 있다. 뷰 데이터 및 깊이 데이터의 결합 세트는 픽쳐의 그룹, 픽쳐, 슬라이스, 블록의 그룹, 매크로블록 또는 서브매크로블록 중의 적어도 하나에 포함될 수 있다. 장치는 비디오 데이터의 깊이 포맷을 식별하도록 구성된 깊이 포맷 유닛을 더 포함할 수 있다. 인코더는 깊이 포맷이 0으로 설정될 때 깊이 데이터를 포함하지 않는 복수의 2차원 이미지로서 비디오 데이터를 인코딩하도록 선택하거나 인코더는 깊이 포맷이 소정의 레벨로 설정될 때 뷰 데이터 및 깊이 데이터의 결합 세트로서 비디오 데이터를 인코딩하도록 선택할 수 있다. 인코더는 뷰 데이터 및 깊이 데이터의 결합 세트의 조인트 인코딩 및 뷰 데이터 및 깊이 데이터의 결합 세트의 개별 인코딩의 코딩 비용을 결정하고 코딩 비용에 기초하여 조인트 인코딩 및 개별 인코딩 간의 인코딩 모드를 결정하는 코딩 비용 산출기를 더 포함할 수 있다. 인코더는 인코딩 비용이 뷰 데이터 및 깊이 데이터를 개별적으로 인코딩하는 인코딩 비용보다 적으면 뷰 데이터 및 깊이 데이터의 조인트 인코딩으로서 비디오 데이터를 인코딩할 수 있다. 비디오 데이터는 깊이가 있는 멀티뷰, 깊이가 없는 멀티뷰, 깊이가 있는 단일 뷰, 깊이가 없는 단일 뷰 중의 하나일 수 있다.

본 발명의 원리에 따르면, 비디오 데이터를 인코딩하는 방법은 인코더에서 뷰 데이터 및 깊이 데이터의 결합 세트를 인코딩함으로써 비디오 데이터를 인코딩하는 단계를 포함할 수 있다. 뷰 데이터 및 깊이 데이터의 결합 세트는 RGBD, YUVD 또는 YCbCrD 중의 하나를 포함할 수 있다. 뷰 데이터 및 깊이 데이터의 결합 세트는 픽쳐의 그룹, 픽쳐, 슬라이스, 블록의 그룹, 매크로블록 또는 서브매크로블록 중의 적어도 하나에 포함된다. 방법은 비디오 데이터의 깊이 포맷을 식별하는 단계를 더 포함할 수 있다. 깊이 포맷이 0으로 설정될 때 깊이 데이터를 포함하지 않는 복수의 2차원 이미지로서 비디오 데이터가 인코딩될 수 있다. 깊이 포맷이 소정의 레벨로 설정될 때 뷰 데이터 및 깊이 데이터의 결합 세트로서 비디오 데이터가 인코딩될 수 있다. 방법은 뷰 데이터 및 깊이 데이터의 결합 세트의 조인트 인코딩 및 뷰 데이터 및 깊이 데이터의 결합 세트의 개별 인코딩의 코딩 비용을 결정하고 코딩 비용에 기초하여 조인트 인코딩 및 개별 인코딩 간의 인코딩 모드를 결정하는 단계를 더 포함할 수 있다. 인코딩 비용이 뷰 데이터 및 깊이 데이터를 개별적으로 인코딩하는 인코딩 비용보다 적으면 뷰 데이터 및 깊이 데이터의 조인트 인코딩으로서 비디오 데이터가 인코딩될 수 있다. 비디오 데이터는 깊이가 있는 멀티뷰, 깊이가 없는 멀티뷰, 깊이가 있는 단일 뷰, 깊이가 없는 단일 뷰 중의 하나일 수 있다.

본 발명의 원리에 따르면, 인코더가 비디오 데이터를 인코딩하도록 하는 명령어들을 갖는 비일시적 컴퓨터 판독가능 매체는 뷰 데이터 및 깊이 데이터의 결합 세트를 인코딩함으로써 상기 비디오 데이터를 인코딩하는 단계를 수행하는 명령어들을 포함할 수 있다. 뷰 데이터 및 깊이 데이터의 결합 세트는 RGBD, YUVD 또는 YCbCrD 중의 하나를 포함할 수 있다. 뷰 데이터 및 깊이 데이터의 결합 세트는 픽쳐의 그룹, 픽쳐, 슬라이스, 블록의 그룹, 매크로블록 또는 서브매크로블록 중의 적어도 하나에 포함된다. 명령어들은 비디오 데이터의 깊이 포맷을 식별하는 단계를 더 포함할 수 있다. 깊이 포맷이 0으로 설정될 때 깊이 데이터를 포함하지 않는 복수의 2차원 이미지로서 비디오 데이터가 인코딩될 수 있다. 깊이 포맷이 소정의 레벨로 설정될 때 뷰 데이터 및 깊이 데이터의 결합 세트로서 비디오 데이터가 인코딩될 수 있다. 명령어들은 뷰 데이터 및 깊이 데이터의 결합 세트의 조인트 인코딩 및 뷰 데이터 및 깊이 데이터의 결합 세트의 개별 인코딩의 코딩 비용을 결정하고 코딩 비용에 기초하여 조인트 인코딩 및 개별 인코딩 간의 인코딩 모드를 결정하는 단계를 더 포함할 수 있다. 인코딩 비용이 뷰 데이터 및 깊이 데이터를 개별적으로 인코딩하는 인코딩 비용보다 적으면 뷰 데이터 및 깊이 데이터의 조인트 인코딩으로서 비디오 데이터가 인코딩될 수 있다. 비디오 데이터는 깊이가 있는 멀티뷰, 깊이가 없는 멀티뷰, 깊이가 있는 단일 뷰, 깊이가 없는 단일 뷰 중의 하나일 수 있다.

본 발명의 원리에 따르면, 비디오 데이터를 디코딩하는 장치는 뷰 데이터 및 깊이 데이터의 결합 세트를 디코딩함으로써 비디오 데이터를 디코딩하도록 구성된 디코더를 포함할 수 있다. 뷰 데이터 및 깊이 데이터의 결합 세트는 RGBD, YUVD 또는 YCbCrD 중의 하나를 포함할 수 있다. 뷰 데이터 및 깊이 데이터의 결합 세트는 픽쳐의 그룹, 픽쳐, 슬라이스, 블록의 그룹, 매크로블록 또는 서브매크로블록 중의 적어도 하나에 포함될 수 있다. 장치는 비디오 데이터의 깊이 포맷을 식별하도록 구성된 깊이 포맷 유닛을 더 포함할 수 있다. 디코더는 상기 깊이 포맷이 0으로 설정될 때 깊이 데이터를 포함하지 않는 복수의 2차원 이미지로서 비디오 이미지를 디코딩하도록 선택할 수 있다. 디코더는 깊이 포맷이 소정의 레벨로 설정될 때 뷰 데이터 및 깊이 데이터의 결합 세트로서 비디오 데이터를 디코딩하도록 선택할 수 있다. 디코더는 결합 세트가 조인트 인코딩되었으면 뷰 데이터 및 깊이 데이터의 결합 세트를 선택적으로 조인트 디코딩하거나 또는 결합 세트가 개별 인코딩되었으면 뷰 데이터 및 깊이 데이터의 결합 세트를 디코딩할 수 있다. 비디오 데이터는 깊이가 있는 멀티뷰, 깊이가 없는 멀티뷰, 깊이가 있는 단일 뷰, 깊이가 없는 단일 뷰 중의 하나일 수 있다.

본 발명의 원리에 따르면, 비디오 데이터를 디코딩하는 방법은 디코더에서 뷰 데이터 및 깊이 데이터의 결합 세트를 디코딩함으로써 비디오 데이터를 디코딩하는 단계를 포함할 수 있다. 뷰 데이터 및 깊이 데이터의 결합 세트는 RGBD, YUVD 또는 YCbCrD 중의 하나를 포함할 수 있다. 뷰 데이터 및 깊이 데이터의 결합 세트는 픽쳐의 그룹, 픽쳐, 슬라이스, 블록의 그룹, 매크로블록 또는 서브매크로블록 중의 적어도 하나에 포함된다. 비디오 데이터의 깊이 포맷을 식별하는 단계를 더 포함할 수 있다. 깊이 포맷이 0으로 설정될 때 깊이 데이터를 포함하지 않는 복수의 2차원 이미지로서 비디오 데이터가 디코딩될 수 있다. 깊이 포맷이 소정의 레벨로 설정될 때 뷰 데이터 및 깊이 데이터의 결합 세트로서 비디오 데이터가 디코딩될 수 있다. 방법은 결합 세트가 조인트 인코딩되었으면 상기 뷰 데이터 및 깊이 데이터의 결합 세트를 선택적으로 조인트 디코딩하거나 또는 상기 결합 세트가 개별 인코딩되었으면 상기 뷰 데이터 및 깊이 데이터의 결합 세트를 디코딩하는 단계를 더 포함할 수 있다. 비디오 데이터는 깊이가 있는 멀티뷰, 깊이가 없는 멀티뷰, 깊이가 있는 단일 뷰, 깊이가 없는 단일 뷰 중의 하나일 수 있다.

본 발명의 원리에 따르면, 디코더가 비디오 데이터를 디코딩하도록 하는 명령어들을 갖는 비일시적 컴퓨터 판독가능 매체는 뷰 데이터 및 깊이 데이터의 결합 세트를 디코딩함으로써 비디오 데이터를 디코딩하는 단계를 수행하는 명령어를 포함한다. 뷰 데이터 및 깊이 데이터의 결합 세트는 RGBD, YUVD 또는 YCbCrD 중의 하나를 포함할 수 있다. 뷰 데이터 및 깊이 데이터의 결합 세트는 픽쳐의 그룹, 픽쳐, 슬라이스, 블록의 그룹, 매크로블록 또는 서브매크로블록 중의 적어도 하나에 포함된다. 명령어들은 비디오 데이터의 깊이 포맷을 식별하는 단계를 더 포함할 수 있다. 깊이 포맷이 0으로 설정될 때 깊이 데이터를 포함하지 않는 복수의 2차원 이미지로서 비디오 데이터가 디코딩될 수 있다. 깊이 포맷이 소정의 레벨로 설정될 때 뷰 데이터 및 깊이 데이터의 결합 세트로서 비디오 데이터가 디코딩될 수 있다. 명령어들은 결합 세트가 조인트 인코딩되었으면 뷰 데이터 및 깊이 데이터의 결합 세트를 선택적으로 조인트 디코딩하거나 또는 결합 세트가 개별 인코딩되었으면 뷰 데이터 및 깊이 데이터의 결합 세트를 디코딩하는 단계를 더 포함할 수 있다. 비디오 데이터는 깊이가 있는 멀티뷰, 깊이가 없는 멀티뷰, 깊이가 있는 단일 뷰, 깊이가 없는 단일 뷰 중의 하나일 수 있다.

본 발명은 뷰 정보와 함께 깊이 파라미터의 3D 인코딩을 가능하게 한다. 본 발명은 2D와의 호환성을 허용하며 뷰와 함께 또는 개별적으로 깊이를 인코딩함에 있어서의 RD 비용에 기초하여 최적화된 인코딩을 제공할 수 있다. 또한, 비디오 포맷의 새로운 정의로부터, 3D 비디오 신호의 적응적 코딩 방법을 제공한다. 3D 신호의 적응 코딩에 있어서의 YCbCrD의 결합 코딩 동안, 처음부터 비디오 성분으로서 깊이를 처리하고, 따라서, 인터 예측에서, 움직임 벡터에 더하여 블록 모드 및 기준 인덱스가 뷰 및 깊이 사이에서 공유된다. 인트라 예측에서, 인트라 예측 모드가 또한 공유될 수 있다. 결합된 코딩의 코딩 결과는 뷰와 함께 깊이 정보를 고려함으로써 더 최적화될 수 있음을 유념한다. 뷰 및 깊이의 개별 코딩에서, 깊이는 뷰와 독립적으로 코딩된다. 뷰를 인터 코딩하면서 깊이를 인트라 코딩할 수 있다.

도 1은 엔드-투-엔드 3D/FTV 시스템을 나타내는 도면.
도 2는 깊이 추정을 위한 어프로치를 나타내는 도면.
도 3a 내지 3d는 다양한 형태의 샘플 비디오 이미지를 나타내는 도면.
도 4는 본 발명의 원리에 따른 인코더 및 디코더 배열을 나타내는 도면.
도 5는 본 발명의 원리에 따른 결합 코딩 및 개별 코딩 간의 각 매크로블록에서의 RD 최적화(optimization)(RDO)의 흐름도.
도 6은 본 발명의 원리에 따른 3D 비디오의 적응적 코딩에 대한 흐름도.
도 7a 내지 7d는 뷰 및 깊이의 PSNR의 차트 및 샘플 이미지를 나타내는 도면.
도 8a 및 8b는 시간 0 및 시간 1에서의 연인 1, 뷰 2의 깊이를 나타내는 도면.
도 9a 및 9b는 연인 1 및 판토마임을 위한 합성 뷰의 RD 곡선을 나타내는 도면.
도 10a 및 10b는 도 3으로부터의 연인의 루마(luma) 및 깊이를 나타내는 도면.
도 11a 및 11b는 연인 2 및 판토마임을 포함하는 다른 샘플 이미지를 나타내는 도면.

간략화 및 설명의 목적으로, 본 발명은 주로 예시적인 실시예를 참조하여 설명한다. 다음의 설명에서, 수많은 특정한 세부사항은 본 발명의 완전한 이해를 제공하기 위하여 제공된다. 그러나, 이러한 특정한 세부사항으로의 제한 없이 본 발명이 실행될 수 있다는 것은 당업자에게 자명하다. 다른 예에서, 공지된 방법 및 구조는 본 발명을 불필요하게 모호하게 하는 것을 피하기 위하여 상세히 설명하지 않는다.

도 1은 엔드-투-엔드 3D/FTV 시스템에 대한 예시적인 도면을 나타낸다. 도 1에 도시된 바와 같이, 다수의 카메라(2)에 의해 장면 또는 객체(1)의 멀티뷰가 포착된다. 다수의 카메라(2)에 의해 포착된 뷰는 송신기(3)에 의해 송신되기 전에 정정 또는 교정되어 프로세서 및 저장 시스템(7)으로 전달된다. 프로세서는 이미지 데이터를 특정한 포맷으로 인코딩하는 인코더를 포함할 수 있다. 인코더에서, 깊이를 좀 더 효율적으로 그리고 정확하게 추정하는데 사용될 수 있는 멀티뷰가 이용가능하다.

도 1에 도시된 바와 같이, 사용자 측은 일반적으로 송신기(3)로부터 인코딩되고 송신된 이미지를 수신하는 수신기(6)를 포함한다. 수신된 데이터는 일반적으로 디코더를 포함하는 프로세서/버퍼에 제공된다. 디코딩되고 다르게 처리된 이미지 데이터는 사용자가 볼 수 있도록 디스플레이(5)에 제공된다.

MPEG는 멀티뷰 비디오 시퀀스 코딩을 위한 새로운 표준을 찾기 시작하였다. MPEG 활동에서, 깊이 정보가 이용되어 전체 코딩 효율을 개선한다. 모든 멀티뷰 비디오 시퀀스를 전송하는 대신, 서브 샘플 뷰, 2 또는 3개의 키 뷰가 해당 깊이 정보와 함께 전송되고 중간 뷰들은 키 뷰 및 깊이를 이용하여 합성된다. 깊이는 인코더에서의 압축 전에 (포착되지 않으면) 추정되는 것으로 가정하고, 중간 뷰들은 디코더에서 압축 해제 후에 합성된다. 모든 포착된 뷰가 압축되어 이 방식으로 송신되는 것은 아님을 유념한다.

적절한 기준 기술을 정의하기 위하여, MPEG에서 4개의 탐사 실험(EE1 내지 EE4)이 확립되었다. EE1은 이웃하는 뷰로부터의 깊이 추정을 탐사하고, EE2는 EE1로부터의 추정 깊이를 이용하여 중간 뷰들을 합성하는 뷰 합성 기술을 탐사한다. EE3는 LDV(layered depth video) 표현에 기초하여 중간 뷰들을 생성하는 기술을 탐색하였다. EE4는 깊이 맵 코딩이 합성 뷰의 품질에 어떻게 영향을 주는지를 탐사한다.

도 2에서, 깊이 추정을 위한 EE1 및 뷰 합성을 위한 EE2가 기재된다. 멀티뷰 시퀀스에 대하여, 예를 들어, 도 2의 행 21에 도시된 뷰 1로부터 뷰 5까지, 임의의 2개의 뷰가 선택되어 그들 간의 깊이를 추정할 수 있다. 뷰 1 및 뷰 5가 행(23)에 도시된 깊이 2 및 깊이 4를 추정하는데 사용된다. 그 다음, 뷰 2, 깊이 2, 뷰 4 및 깊이 4는 인코딩되어 사용자에게 송신되고, 뷰 2 및 뷰 4 간의 중간 뷰가 해당 카메라 파라미터와 함께 깊이 2 및 깊이 4를 이용하여 합성될 수 있다. 도 2에서, 행(25)에 도시된 뷰 3이 합성되고 본래의 뷰 3과 비교된다.

2009년 2월, 스위스 로잔 ISO/IEC JTC1/SC29/WG11 MPEG Document M16026의 O. Stankiewicz, K. Wegner 및 K. Klimaszewski의 "Results of 3DV/FTV Exploration Experiments, described in w10173"에서, 합성 뷰의 품질은 인코딩된 깊이의 품질보다 인코딩된 뷰의 품질에 더 의존하는 것을 관찰하였다. 2009년 2월, 스위스 로잔 ISO/IEC JTC1/SC29/WG11 MPEG Document M16050의 S. Tao, Y. Chen, M. Hannuksela 및 H. Li의 "Depth Map Coding Quality Analysis for View Synthesis"에서, 뷰는 상이한 비트 레이트에서 인코딩된 깊이에 의존하여 합성된다. 이들은 레이트는 깊이 코딩에 대하여 Kbps로 나타나고 왜곡은 합성 뷰에 대하여 PSNR로 나타나는 레이트 및 왜곡(R-D) 곡선을 제공하였다. Tao 등에서 알 수 있는 바와 같이, 합성 뷰의 품질은 깊이에 대한 비트 레이트의 대부분 범위에서 크게 변하지 않는다. 2009년 2월, 스위스 로잔 ISO/IEC JTC1/SC29/WG11 MPEG Document M16047의 C. Cheng, Y. Huo 및 Y. Liu의 "3DV EE4 results on Dog sequence"에서, 멀티뷰 비디오 코딩(MVC)은 스테레오 뷰 및 깊이를 인코딩하는데 사용되고 H.264/AVC가 각각의 뷰를 독립적으로 인코딩하는데 사용될 때의 코딩 결과와 비교된다. MVC는 H.264/AVC에 의한 시뮬캐스트(simulcast)와 비교하여 5% 미만의 코딩 이득을 나타내었다. 깊이 비교에 대하여, 2009년 2월, 스위스 로잔 ISO/IEC JTC1/SC29/WG11 MPEG Document M16021의 B. Zhu, G. Jiang, M. Yu, P. An 및 Z. Zhang의 "Depth Map Compression for View Synthesis in FTV"에서, 깊이가 분할되고 상이한 영역이 에지(A), 움직임(B), 이동 객체의 내부(C) 및 배경(D)으로서 정의된다. 영역 타입에 따라, 인코딩 복잡성이 적고 깊이 압축에서 코딩 효율을 개선하는 상이한 블록 모드가 적용된다.

2D 비디오 포착 동안, 3D 공간에서의 장면 또는 객체가 카메라의 이미지 평면으로 투영되고, 여기서, 화소 세기는 객체의 텍스쳐(texture)를 나타낸다. 깊이 맵에서, 화소 세기는 이미지 평면으로/으로부터 해당 3D 객체의 거리를 나타낸다. 그러므로, 뷰 및 깊이 둘 다는 동일한 장면 또는 객체에 대하여 포착(또는 깊이에 대하여 추정)되어 객체의 에지 또는 윤곽(contour)을 공유한다. 도 3a는 본래의 뷰 0를 나타내고, 도 3b 내지 3d는 참고로 여기에 포함된 2005년 7월 폴란드 포즈나니 ISO/IEC JTC1/SC29/WG11 MPEG Document N7327의 ETRI/MPEG 코리아 포럼 "Call for Proposals on Multi-view Video Coding"으로부터 시퀀스 "연인"의 해당 Cb, Cr 및 깊이를 나타낸다. 도 11a 및 11b는 연인 2 뷰 7 및 판토마임 뷰 37을 포함하는 다른 뷰를 나타낸다. 도 3b 내지 3d를 참조하면, 깊이를 갖는 Cb/Cr의 비교로부터, Cb/Cr 및 깊이는 객체 경계를 공유한다는 것을 알 수 있다. 예를 들어, 2008년 1월 터어키 안탈리아 ISO/IEC JTC1/SC29/WG11 MPEG Document M15191의 G. Um, T. Kim, N. Hur, 및 J. Kim의 "Segment-based Disparity Estimation using Foreground Separation"에서 색상 채널은 객체 경계의 정보를 공유하기 때문에 이미지는 격차(깊이) 추정에 대한 색상에 기초하여 분할된다.

O. Stankiewicz 등, Tao 등, Cheng 등, 및 Zhu 등에 따르면, 깊이의 품질은 합성 뷰의 품질을 크게 변경하지 않음이 도출될 수 있다. 그러나, 이들 기고문에서의 모든 결과는 최신식 기술이 아닌 깊이 추정 및 뷰 합성을 위한 MPEG 기준 소프트웨어를 이용하여 얻어진다. 추정된 깊이는 종종 동일한 부드러운 객체에 대해서도 상이하고, 시간 불일치가 쉽게 관찰된다. 그러므로, 합성 뷰의 품질은 깊이의 품질에 의존하지 않는 것으로 결론 내릴 수 없다. 또한, MPEG 활동에서 현재 가정하는 8비트 깊이 품질은 뷰 합성에서의 객체 경계 주변의 1픽셀 에러가 상이한 합성 결과를 초래할 수 있다는 것을 충분히 고려하지 않을 수 있다.

그러나, 이러한 모든 불확실성을 가지고, 깊이는 3D 서비스에 대한 뷰와 함께 인코딩되고 송신되어야 하며, 효율적이고 유연한 코딩 방식이 정의될 필요가 있다. 뷰 및 깊이 간의 상관이 이용될 수 있다는 것에 유의하여, 루마(luma) 및 채도 간의 상관이 모노크롬으로부터 색상으로의 천이 동안 이용됨에 따라, 역호환이 가능하고 새로운 3D 서비스의 상이한 목표에 적합한 새로운 유연한 깊이 포맷 및 코딩 방식을 제공한다. 깊이 데이터의 결정은 상술한 기술 또는 또 다른 적절한 어프로치에 의해 수행될 수 있다.

새로운 3D 비디오 포맷을 형성하는 종래의 2D 비디오 포맷으로의 추가의 성분으로서 깊이를 처리한다. 따라서, 예를 들어, RGB 또는 YCbCr 포맷은 RGBD 또는 YCbCrD로 확장되어 깊이를 포함한다. H.264/AVC에서, 모노크롬 또는 색상에 대한 포맷은 chroma_format_idc 플래그에 의해 선택될 수 있다. 마찬가지로, depth_format_idc 플래그를 이용하여 신호가 2D 또는 3D인지를 특정할 수 있다. 표 1은 chroma_format_idc 및 depth_format_idc를 이용하여 2D/3D 및 모노크롬/색상에서의 비디오 포맷을 시그널링하는 방법을 나타낸다.

확장된 비디오 포맷 정의에서, 예를 들어, 각각의 채널의 해상도 또는 그들 간의 상관에 따라 압축을 위한 채널의 더 나은 그룹화가 존재할 수 있다. 표 2는 비디오 성분이 그룹화되어 그들간의 상관을 이용할 수 있는 방법을 예시한다. 인덱스 0는 YCbCrD가 모두 함께 그룹화되고 동일한 블록 모드에 의해 인코딩된다는 것을 의미한다. 이것은 동일한 움직임 벡터(MV) 또는 동일한 인트라 예측 방향(intra prediction direction)이 모든 채널에 사용되는 경우이다. 인덱스 1에 대하여, 깊이는 개별적으로 뷰로 인코딩된다. 인덱스 5는 각각의 채널이 독립적으로 인코딩되는 것을 특정한다.

각각의 채널 간의 상관에 따라, 채널은 다르게 그룹화될 수 있다. 예를 들어, YUV420가 뷰에 사용되고 깊이가 꽤 부드러운 것으로 가정하면, 채도에 대한 동일한 해상도는 깊이 신호에 대하여 충분하다. 그러면, Cb, Cr 및 D는 그룹으로서 처리될 수 있고 Y는 또 다른 그룹으로서 처리될 수 있다. Cb, Cr 및 D가 전체 압축 효율에 영향을 주지 않고 유사하게 인코딩될 수 있는 것으로 가정하면, 그룹 인덱스 2가 사용될 수 있다. 깊이의 해상도가 YUV420 포맷에서 휘도의 해상도와 동일하고 깊이가 높은 품질로 코딩될 필요가 있으면, 그룹 인덱스 1 또는 그룹 인덱스 4가 이용될 수 있다. Y 및 D 사이에 충분한 상관이 있으면, 그룹 인덱스 3이 추가로 사용될 수 있다. 다음에서, 3D에 대한 2개의 상이한 적용을 가정하고 새로운 비디오 신호 포맷 하에서 뷰 및 깊이 간의 상관을 이용할 수 있는 방법을 나타낸다. 다음에 설명하는 어프로치는 유사하게 상이한 그룹 조합에 적용될 수 있음에 주의해야 한다.

먼저, 추정 깊이 품질이 충분히 정확하지 않거나 정확할 필요가 없고, 따라서, 기본 깊이 정보, 예를 들어, 객체 경계 및 근사 깊이 값이 요구되는 뷰 합성 품질에 대하여 만족하는 것으로 가정한다. 이동 장치에서의 깊이 추정 또는 3D 서비스는 가장 높은 우선순위가 덜 복잡한 깊이 코딩인 경우의 예일 수 있다. 두번째로, HD 품질의 3D 서비스에 대하여, 고품질 깊이 정보가 요구되고 코딩 효율이 가장 높은 우선순위일 것이다.

2D 뷰 압축을 위한 H.264/AVC를 이용한 일 구현예에서, depth_format_idc가 표 3에 정의되어 추가의 픽쳐 포맷 YCbCrD를 특정할 수 있다. 시퀀스가 3D 적용을 위한 깊이를 갖지 않으면, 0으로 설정되고 시퀀스는 표준 H.264/AVC에 의해 인코딩된다. 시퀀스가 깊이 채널을 가지면, 깊이는 깊이 포맷이 "D4"일 때 동일한 사이즈에서 루마(Y)로 인코딩되거나 깊이 포맷이 "D1"일 때 동일한 사이즈에서 색상(Cb/Cr)로 인코딩될 수 있고, 여기서, D1의 폭 및 높이는 각각 SubWidthC 및 SubHeightC에 따라 D4의 절반 또는 D4와 동일할 수 있다. H.264/AVC의 시퀀스 파라미터 세트 내의 관련 신택스 변화는 표 4에 도시된다. 당업자는 인코더가 인코딩 프로세스 동안 표 4의 다양한 신택스 값을 바람직하게 설정하고 디코더가 디코딩 프로세스 동안 그 값을 이용할 수 있다는 것을 인식할 것이다.

깊이 값이 8비트 신호에 의해 맵핑되어 깊이 어레이의 샘플의 비트 깊이 및 깊이 양자화 파라미터 범위 오프셋 QpBdOffset_D의 값을 특정하는 것으로 가정하면, bit_depth_depth_minus8이 표 4에 도시된 바와 같이 시퀀스 파라미터 세트에서 추가된다. BitDepth_D 및 QpBdOffset_D는 다음과 같이 특정된다.

깊이 값이 기본적으로 N 비트에 의해 표현되는 것으로 결정하면, 식은 이에 따라 예를 들어 BitDepth_D = N + bit_depth_depth_minusN으로 변경될 수 있다.

YCbCr 코딩에 독립적인 인코딩된 깊이의 품질을 제어하기 위하여, depth_format_idc>0일 때 depth_qp_offset이 픽쳐 파라미터 세트 신택스 내에 존재한다. 표 5에서, H.264/AVC에서의 관련 신택스 변화가 도시된다. 깊이 성분에 대한 QP_D의 값이 다음과 같이 결정된다.

깊이 성분에 대한 변수 qD_Offset이 다음과 같이 도출된다.

깊이 성분에 대한 QP_D의 값은 다음과 같이 도출된다.

깊이 성분에 대한 QP'_D의 값은 다음과 같이 도출된다.

블록 코딩은 매크로블록 또는 매크로블록의 배수, 예를 들어, MB쌍을 이용하는 것을 포함할 수 있다. YCrCbD MB는 예를 들어 Y 16x16, Cr 8x8, Cb 8X8, 및 D 8x8로 구성될 수 있다. 그러나, 다양한 블록 사이즈가 Y, Cr, Cb 및 D의 각각에 사용될 수 있다. 예를 들어, D는 8x8 또는 16x16의 사이즈를 가질 수 있다.

다음으로, 깊이 포맷 D1 및 D4에 대한 YCbCrD 코딩 방식을 설명한다. 깊이 포맷 D1에 대한 일 구현예에서, Cb/Cr 및 D 간의 상관을 이용하는 H.264/AVC에서 채도가 코딩되는 것과 유사한 방식으로 깊이 맵을 인코딩한다. H.264/AVC에서 처럼, 깊이 코딩의 구현에 대하여, 깊이는 마치 제3 채도 채널, Cb/Cr/D인것처럼 취급된다. 그러므로, 동일한 블록 모드, 인트라 예측 방향, 움직임 벡터(MV) 및 기준 인덱스(refIdx)가 Cb/Cr 및 D에 적용된다. H.264/AVC의 코딩된 블록 패턴(CBP)가 표 6에 재정의되어 깊이의 CBP를 포함한다. 예를 들어, 채도에 대한 인트라 예측 방향을 결정하면, Cb/Cr/D에 대한 총 비용을 산출하는데 깊이 비용이 추가되고, 깊이는 Cb/Cr과 동일한 인트라 예측 방향을 공유한다. 인코더에서의 블록 모드 결정에서, 깊이의 레이트 왜곡(RD) 비용이 YCbCr에 대한 총 RD 비용에 추가되고, 따라서, 모드 결정은 뷰 및 깊이 모두에 대하여 최적화된다. Cb/Cr과 공유되지 않는 유일한 정보는 CBP에 의존하는 Cb/Cr의 잔여 코딩 후에 인코딩되는 깊이의 잔여물이다.

예를 들어, 이동 장치에서 깊이 추정에 대한 계산력이 제한되거나 실시간 깊이 추정이 요구되면, 본래의 프레임 사이즈와 동일한 전체 해상도 깊이 맵을 추정하기 어려울 수 있거나, 추정된 깊이가 객체 경계 주변의 부정확한 정보 또는 잡음이 있는 깊이 값으로 정확하지 않을 수 있다. 추정된 깊이가 정확하지 않으면, 높은 비트 레이트에서 잡음이 있는 깊이를 인코딩할 필요가 없을 수 있다. 2008년 10월 한국 부산, ISO/IEC JTC1/SC29/WG11 MPEG Document M15859의 I. Radulovic 및 P. Frojdh의 "3DTV Exploration Experiments on Pantomime sequence"에서, 깊이 추정 기준 소프트웨어(DERS)에서의 평활화 계수가 증가함에 따라, 덜 자세하고 노이즈가 적은 깊이 맵이 얻어져 합성 뷰의 품질을 향상시켰다. 이 경우, 우리의 목적은 깊이 코딩의 간략화이다. 채도가 Cb/Cr 및 D 간의 상관을 이용하는 H.264/AVC에서 코딩되는 것과 유사한 방식으로 깊이 맵을 인코딩한다. 다음으로, H.264/AVC에서의 구현에서 코딩 정보가 Cb/Cr 및 깊이 사이에서 공유될 수 있는 방법을 나타낸다.

도 4는 본 발명에 따른 깊이 코딩을 추정 또는 시뮬레이션하는 장치를 나타낸다. 주어진 시퀀스에 대하여, 2008년 12월 모토롤라, 홈 및 네트워크 모빌러티, 진보된 기술 내부 메모 DSM2008-072r1의 폴리놈 필터 데이비드 베일런(David Baylon)의 "Polynorm filters for Image Resizing: Additional Considerations"와 같이, 깊이 추정을 위해 DERS 모듈(41)을 이용하고 다운 샘플링 모듈(42)을 이용하여 깊이 맵을 수평 및 수직으로 2만큼 다운샘플링한다. 다운샘플링된 깊이 맵은 YUV 4:2:0 포맷에서의 채도 채널과 동일한 해상도를 갖는다. 베이스라인으로서, 뷰와 깊이는 2개의 H.264/AVC 인코더일 수 있는 인코더(48)에 의해 개별적으로 코딩되어, 2개의 독립적인 비트 스트림이 생성된다. 2개의 인코더가 베이스라인 인코딩을 위해 도시되지만, 당업자는 동일한(단일) 인코더가 베이스라인 인코딩 프로세스에 사용될 수 있음을 인식할 것이다. D1 인코딩 방식으로서, 뷰 및 깊이가 인코더(44)에 의해 조인트 코딩되어 단일 비트 스트림을 생성한다.

인코딩된 이미지는 도 4의 방향 화살표에 일반적으로 도시된 바와 같이 다운스트림 송신기(3)(도 1 참조)에 제공되어 멀리 위치하는 디코더(45)로 송신될 수 있다. 당업자는 인코더가 네트워크 소자, 예를 들어 헤드엔드 유닛 내에 있을 수 있고, 디코더가 사용자 장치 내에, 예를 들어, 셋탑 박스 내에 있을 수 있음을 인식할 것이다. 디코더는 뷰 및 깊이 파라미터를 디코딩하고 재구성한다. 재구성된 깊이는 다시 베일런 어프로치 내의 폴리넘 필터 등의 업샘플러(46)를 이용하여 본래의 사이즈로 업샘플링되고, 추가의 뷰를 합성하기 위하여 재구성된 뷰와 함께 뷰 합성 기준 소프트웨어(VSRS)를 포함할 수 있는 뷰 합성 모듈(47)로 공급된다. 결합된 YCbCrD 코딩은 뷰 및 깊이에 대하여 단일 비트 스트림을 생성하기 때문에 개별 코딩(YCbCr+D) 내의 2 비트 스트림의 비트 레이트가 합산되고 YCbCrD 코딩의 비트 레이트와 비교된다.

인코딩은 Y 및 RD 최적화와 함께 수행될 수 있다. 깊이 포맷 D4에 대한 일 구현예에서, 뷰 및 깊이 간의 상관을 이용하는 모든 YCbCrD 시퀀스의 코딩 효율을 목표로 한다. 깊이 해상도가 Cb/Cr 대신에 루마(Y)와 동일하기 때문에, Y의 코딩 정보는 효율적인 깊이 코딩을 위하여 공유된다. 도 10a 및 10b는 도 3으로부터의 연인의 루마 및 깊이를 나타낸다. 객체 형상 및 경계에서의 유사성이 관찰될 수 있지만, 여전히 Y 및 D에 대하여 왜곡을 최소화하는 최상의 매치가 각각 상이한 위치에서 발견될 수 있다. 예를 들어, 도 10a 및 10b에서, Y에서의 잔디의 최상의 매치는 D에서의 최상의 매치가 아닐 수 있는데, 그 이유는 잔디의 텍스쳐가 Y에서 반복되지만, 잔디의 깊이가 노이즈가 있는 것으로 보이기 때문이다. 그러므로, 전체 픽쳐에 걸쳐 코딩 정보를 공유하는 대신, 뷰 및 깊이의 결합 코딩(공유) 및 개별 코딩(공유하지 않음) 간의 RD 비용에 따라 각각의 매크로블록의 코딩에 있어서 Y의 코딩 정보를 깊이와 공유할지를 선택할 수 있다.

도 5는 결합 코딩 및 개별 코딩 간의 각 매크로블록에서의 레이트 왜곡 최적화(RDO)의 흐름도이다. 단계(S1)에서 매크로블록(MB)이 수신된다. 단계(S3)에서 뷰 및 깊이는 결합 YCbCrD로서 인코딩되고 RD 비용(RDcost(YCbCrD))이 산출된다. 예컨대, 뷰 및 깊이의 조인트 코딩 및 뷰 및 깊이의 독립 코딩에 대하여 인트라 예측 모드, 움직임 벡터 및 기준 인덱스를 포함하는 발견된 최상의 코딩 정보가 저장된다. 단계(S5 및 S7)에서, 뷰 및 깊이는 독립적으로 인코딩되고, 개별 RD 비용(RDcost(YCbCr) 및 RDcost(D))이 산출된다. 단계(S11)에서, RDcost(YCbCrD) 및 "RDcost(YCbCr)+RDcost(D)"를 비교한다. 현재의 매크로블록에 대한 최소 RD 비용을 갖는 것이 선택된다. 즉, 결합 YCbCrD의 RD 비용이 개별 RD(YCbCr)+RD(D)의 RD 비용보다 작으면, 단계(S15)에서 MB가 결합 결과(YCbCrD)로 업데이트된다. 결합 YCbCrD의 RD 비용이 개별 RD(YCbCr)+RD(D)의 RD 비용보다 작지 않으면, 단계(S13)에서, MB가 개별 결과(YCbCr 및 D)로 업데이트된다. 단계(S17)에서 다음의 MB가 처리되도록 취해진다. 미래의 매크로블록을 인코딩하는 기준으로서, YCbCr 및 D에 대한 2개의 개별 코딩 블록 정보가 각각 유지될 수 있다.

결합 YCbCrD 코딩이 적용되면, Y 및 D 내의 객체의 에지 및 윤곽의 유사성이 블록 모드, 인트라 예측 방향, MV 및 refIdx를 공유함으로써 이용(exploit)된다. 그러나, Y 및 D의 텍스쳐가 일반적으로 유사하지 않고, 따라서, 코딩 블록 패턴(CBP) 및 잔여 정보가 결합 코딩에서 공유되지 않는다. 표 7은 YCbCrD 결합 코딩에서 공유 및 비공유 정보를 요약한다.

결합 코딩 또는 개별 코딩이 각각의 매크로 블록에서 사용되는지를 시그널링하기 위하여, mb_YCbCrD_flag가 각각 개별 또는 결합 코딩을 나타내는 0 또는 1일 수 있는 새로운 플래그로서 도입된다. 이 플래그는 CABAC에 의해 인코딩될 수 있고, 3개의 컨텍스트가 이웃하는 좌측 및 상측 블록으로부터의 mb_YCbCrD_flag에 의해 정의된다. 현재의 MB에 대한 컨텍스트 인덱스(c)는 다음과 같이 정의된다.

c=mb_YCbCrD_flag (좌측 MB에서) + mb_YCbCrD_flag (상측 MB에서)

이 어프로치하에서, 종래의 2D 비디오와 호환가능하여 2D 및 3D 비디오 신호에 모두 이용될 수 있는 새로운 비디오 포맷을 제공한다. 3D 비디오 신호, 예를 들어, YCbCrD가 전송되면, 깊이가 비디오 성분으로서 포함된다. 깊이 없는 2D 비디오 신호, 예를 들어, YCbCr만이 전송되면, 깊이 성분이 없다는 것을 특정하는 0과 동일한 depth_format_idc를 갖는 2D 비디오가 전송될 수 있다.

또한, 비디오 포맷의 새로운 정의로부터, 3D 비디오 신호의 적응적 코딩 방법을 제공한다. 3D 신호의 적응적 코딩에서의 YCbCrD의 조인트 코딩 동안, 처음부터 깊이를 비디오 성분으로서 취급하고, 따라서, 인터 예측에서, 움직임 벡터(MV)에 더하여 블록 모드 및 기준 인덱스가 뷰 및 깊이 사이에서 공유된다. 인트라 예측에서, 인트라 예측 모드가 또한 공유될 수 있다. 결합 코딩의 코딩 결과가 뷰와 함께 깊이 정보를 고려함으로써 더 최적화될 수 있다는 것을 주목한다. 뷰 및 깊이의 개별 코딩에서, 깊이는 뷰에 독립적으로 코딩된다. 예를 들어, 깊이는 16x16 인터 블록 모드에 의해 인코딩/디코딩되는 반면에, 뷰는 8x8 인터 블록 모드로서 코딩된다. 뷰가 인터 코딩되는 동안 깊이를 인트라 코딩할 수 있다. RD 최적화된 적응적 코딩은, 뷰에서 깊이까지의 MV를 재사용하지 않고 뷰에 대한 추가적인 채널로서 깊이를 처리함으로써 가능하다.

상기를 결합하여, 도 6은 본 발명에 따른 3D 비디오의 적응적 코딩에 대한 흐름도이다. 프로세스는 단계(S20)에서 시작한다. 단계(S22)에 도시된 바와 같이, depth_format_idc 플래그가 0이면, 단계(S24)에서 비디오 신호는 2D로서 처리되고 종래의 2D 인코딩(예를 들어, H.264/AVC, MPEG 2 또는 H.265/HEVC)이 사용된다. depth_format_idc 플래그가 1이면, 단계(S28)에서, 채도와 동일한 해상도인 깊이는 마치 제3 채도 채널인 것처럼 인코딩된다. depth_format_idc 플래그가 2이면, 깊이는 루마와 동일한 해상도이고, RD 비용에 기초하여 뷰 및 깊이에 적응적 조인트/개별 코딩이 적용된다(단계 S26). 도 6에 도시된 바와 같이, RD 비용은 도 5에 도시된 프로세스에 따라 결정될 수 있다. 표 2에서 적응적 코딩이 그룹 인덱스(0, 1, 3 및 4) 사이에 적용될 수 있는 방법을 나타내었음을 유념한다. 이 어프로치는 애플리케이션, 채널 간의 상관 등에 따라 표 2 내의 임의의 그룹 인덱스로 확장될 수 있다.

뷰 및 깊이 간의 상관의 관찰에 기초하여 깊이 코딩에서 간략화를 제공하는 상술한 D1 어프로치에 대하여, 현재의 YCbCr 시퀀스 포맷을 YCbCrD로 확장하여 깊이가 뷰에 대한 추가의 채널로서 처리되고 인코딩되도록 할 수 있다. 이러한 확장된 포맷으로부터, YCbCrD의 2개의 상이한 압축 방식을 나타내었다. 깊이 포맷 D1에서, 깊이는 Cb/Cr과 코딩 정보를 공유하면서 H.264/AVC에서 인코딩되고, 따라서, 추가의 인코더 복잡성이 무시될 수 있고, 전체 인코더 복잡성은 본래의 H.264/AVC와 유사하다. 깊이 포맷 D4에서, 깊이는 Y와 코딩 정보를 공유하면서 인코딩될 수 있다. Y 및 D에 대한 최상의 예측은 동일한 객체에 대해서도 상이할 수 있고, YCbCr 및 D의 결합 코딩 또는 개별 코딩은 각각의 어프로치의 RD 비용에 의해 결정된다는 것을 유념한다.

깊이 포맷 D1 및 D4의 실험 결과에서, 깊이에 대한 인코딩 방법은 목표, 즉, 깊이 포맷 D1에 대한 덜 복잡한 인코더 및 깊이 포맷(D4)에 대한 더 높은 코딩 효율을 달성한다는 것을 증명하였다.

깊이 포맷 D1에서의 YCbCrD 코딩은 모토롤라 H.264/AVC 인코더(제우스)에서 구현되었고, YCbCr 및 깊이의 독립 코딩과 비교되었다. 연인 1로부터의 뷰 1, 2, 3, 4 및 5 및 다른 이미지, 예를 들어, 도 2에 도시된 MPEG EE1 및 EE2 절차를 따르는 판토마임으로부터의 뷰 36, 37, 38, 39 및 40를 사용하였다. 연인 1의 뷰 3은 합성되고 합성된 뷰의 품질은 본래의 뷰와 비교된다. 본래의 연인 1 시퀀스는 YUV 4:2:0 포맷이고 depth_format_idc가 1로 설정되고, 따라서, 깊이 어레이는 Cb 및 Cr과 동일한 사이즈를 갖는다.

도 7a 내지 7d에서, 뷰 및 깊이의 PSNR(peak signal to noise ratio)는 각각 연인 1 및 판토마임에 대한 총 비트 레이트에 대하여 도시된다. 연인 2 및 판토마임에 대한 이미지는 각각 도 11a 및 11b에 도시된다. 특히, 도 7a 및 7b는 이미지 연인 1에 대한 PSNR 대 총 비트 레이트의 챠트를 나타내고, 도 7c 및 7d는 판토마임에 대한 챠트를 나타낸다. 챠트는, YUVD 깊이 및 삼각형에 의해 도시된 YCbCrD 코딩에 의해 재구성된 깊이의 품질이 IND 깊이 및 "x"에 의해 도시된 독립적인 깊이 코딩에 의한 것보다 나쁘다는 것을 나타낸다. 그러나, YUVD 뷰 및 다이아몬드에 의해 도시된 YCbCrD 코딩에 의해 재구성된 뷰의 품질은 IND 뷰 및 사각형에 의해 도시된 독립적인 코딩에 의한 것과 유사하다. 이것은 도 8a 및 8b에서 알 수 있는 바와 같이 추정된 깊이 맵이 시간에 있어서 일치되지 않기 때문이다. 또한, YCbCrD 코딩에 있어서, 인코더는 YCbCrD 시퀀스에서의 추가의 채널로서만 간주되는 깊이에 대한 시간적 불일치를 처리하기에 충분히 최적화되지 않는다.

도 8a 내지 8b는 시간 0 및 시간 1에서의 연인 1, 뷰 2의 깊이를 나타낸다. 도 8b에서, 추정된 깊이 맵 내의 객체 경계는 잡음이 있고 뷰 내의 객체 경계와 맞추어지지 않는다는 것을 유념한다. 도 8에서, 적색 원형 영역은 뷰 내의 정적 배경에 속하지만, 깊이에 있어서 상이한 세기를 갖는다는 것을 유념한다. 적색 원형 영역 외에서는, 시간적 불일치가 쉽게 발견될 수 있다.

도 9a 및 9b는 연인 1 및 판토마임에 대한 합성 뷰의 RD 곡선을 나타낸다. 중간 뷰는 2개의 이웃하는 뷰에 의해 합성되기 때문에, 2개의 이웃하는 뷰에 대한 비트 레이트가 플롯에 추가되어 사용된다. 왜곡에 대하여, 합성 뷰의 PSNR이 사용된다. YCbCrD 코딩에 의한 합성 뷰의 품질은 RD 감지에 있어서 독립 코딩에 의한 합성 뷰의 품질과 유사하다. 도 7a 내지 7d에서, 디코딩된 좌측 및 우측 뷰는 RD에 있어서 유사한 품질을 갖는 것이 도시되었다. 따라서, 결합 코딩 및 개별 코딩은 키 뷰 및 합성 뷰에 대하여 RD 감지에 있어서 유사한 결과를 갖는다. 깊이 맵은 뷰를 합성하는데 사용되고 보기 위해 디스플레이되지 않는다는 것을 유념한다. 그러나, 결합 YCbCrD 코딩은 구현에 있어서 쉬운 레벨을 제공하고 단일 비트 스트림에서 기존의 코딩 표준에 대한 역호환성을 제공한다. YCbCrD 코딩은 깊이 코딩에 대한 확장 포맷으로서 사용되고 종래의 비디오 코딩 표준에서 용이하게 구현될 수 있다.

인코딩 효율을 제공하는 상술한 D4 어프로치에 대하여, MPEG에 의해 제공되는 3개의 시퀀스, 즉, 연인 1, 연인 2 및 판토마임이 테스트되었고, 이들은 MPEG 시퀀스이며, 깊이는 DERS에 의해 추정된다. 베이스라인으로서, H.264/AVC는 뷰 및 깊이를 개별적으로 코딩하는데 사용되고, 비트 레이트가 추가되어 뷰 및 깊이에 대한 총 비트 레이트를 획득한다. 표 8은 각각 얼마나 많은 비트가 뷰 및 깊이의 독립 코딩에 필요한지를 나타낸다. 깊이 및 뷰에 대한 비트의 비는 4.5% 내지 98%의 범위이다. 연인 1 및 연인 2에 대한 추정된 깊이는 판토마임보다 잡음이 더 많고, 뷰는 시간에 있어서 비교적 정적이다(빠르게 움직이지 않는다). 그러므로, 깊이 코딩을 위하여 비교적 많은 비트가 필요하고, 뷰 코딩을 위하여 적은 비트가 필요하다.

표 9에서, 상이한 QP에 대한 각 시퀀스 내의 결합 YCbCrD 코딩의 퍼센티지가 도시된다. 비트 레이트가 낮을수록(QP가 높을수록), 결합 YCbCrD 코딩이 바람직하다는 것을 유념한다. 표 10에서, IPPP 및 IBBP 코딩 구조를 갖는 각각의 시퀀스에 대한 뷰 및 깊이의 코딩 결과가 도시된다. 비트 레이트 및 왜곡에 대한 이득을 산출하기 위하여, Doc. VCEG-M33 2001년 4월, 미국 텍사스 오스틴, 13번째 VCEG 미팅, ITU-T SC 16/Q6의 Bjontegaard Gisle Bjontegaard의 "Calculation of Average PSNR Differences between RD curves"에 의한 RD 산출 방법이 사용되었다. 우리의 YCbCrD 코딩 방식에 의해 IPPP에 의해 깊이에서 약 6% 이득을 달성하고 IBBP에 의해 뷰에서 약 5% 이득을 달성하였음을 유념한다.

표 11 내지 13에서, 뷰 합성 결과는 IPPP 코딩 결과에 대한 우리의 YCbCrD 코딩 및 개별 코딩(베이스라인)에 대하여 비교된다. 각각의 시퀀스 내의 PSNR에 의해 측정된 왜곡은 YCbCrD 및 베이스라인에 대하여 유사하지만, 총 비트 레이트는 YCbCrD 코딩에 의해 감소된다. 그러나, 합성 뷰 내의 전체 코딩 이득은 표 8로부터의 깊이 코딩에 의해 달성된 것보다 작다. 이것은 DERS에 의한 추정 깊이는 정확하지 않고 합성 뷰의 품질은 아직 확인되지 않은 VSRS의 정확도에 의존하기 때문이다.

도 5 내지 6에 기재된 동작의 일부 또는 전부는 비일시적 매체일 수 있는 임의의 소망의 컴퓨터 판독가능 저장 매체 내에 유틸리티, 프로그램 또는 서브프로그램으로서 포함될 수 있다. 또한, 동작은 활성 및 비활성 모두의 다양한 형태로 존재할 수 있는 컴퓨터 프로그램에 의해 구현될 수 있다. 예를 들어, 이는 소스 코드, 오브젝트 코드, 실행가능한 코드 또는 다른 포맷의 프로그램 명령어들로 구성되는 소프트웨어 프로그램(들)으로서 존재할 수 있다. 상술한 것 중 임의의 것이 저장 장치를 포함하는 컴퓨터 판독가능 저장 매체 상에서 구현될 수 있다.

예시적인 컴퓨터 판독가능 저장 매체는 종래의 컴퓨터 시스템 RAM, ROM, EPROM, EEPROM 및 자기 또는 광 디스크 또는 테이프를 포함한다. 상술한 것의 구체적인 예는 CD ROM 상의 프로그램의 또는 인터넷 다운로드를 통한 프로그램의 분배를 포함한다. 그러므로, 상술한 기능을 실행할 수 있는 임의의 전자 장치는 상술한 기능을 수행할 수 있음을 이해해야 한다.

변형의 일부와 함께 본 발명의 실시예가 여기에 기재되고 도시되었다. 여기에 사용된 용어, 설명 및 도면은 단지 예시적인 것이며 제한적이지 않다. 당업자는 본 발명의 실시예의 사상 및 범위 내에서 많은 변형이 가능함을 인식할 것이다.

본 발명은 뷰 정보와 함께 깊이 파라미터를 조인트 3D 인코딩하도록 허용한다. 본 발명은 2D와 호환가능하고 깊이를 뷰와 조인트 인코딩하거나 개별적으로 인코딩하는데 있어서 RD 비용에 기초하여 최적화된 인코딩을 제공할 수 있다. 또한, 비디오 포맷의 새로운 정의로부터, 3D 비디오 신호의 적응적 코딩 방법을 제공한다. 3D 신호의 적응적 코딩에서 RGB D, YUVD 및 YCbCrD의 결합 코딩 동안, 처음부터 비디오 성분으로서 깊이를 처리하고, 따라서, 인터 예측에서, 움직임 벡터에 더하여, 블록 모드 및 기준 인덱스가 뷰 및 깊이 사이에서 공유된다. 인트라 예측에서, 인트라 예측 모드가 또한 공유될 수 있다. 뷰와 함께 깊이 정보를 고려함으로써 결합 코딩의 코딩 결과가 더 최적화될 수 있다는 것을 유념한다. 뷰 및 깊이의 개별 코딩에서, 깊이는 뷰와 독립적으로 코딩된다. 또한, 뷰가 인터 코딩되는 동안 깊이를 인트라 코딩할 수 있다.

본 개시물의 전체에 걸쳐 특별히 기재하였지만, 본 발명의 대표적인 실시예는 넓은 범위의 적용에 걸친 유용성을 갖고, 상기 설명은 제한적으로 의도되지 않고, 제한적인 것으로 해석되어서도 안되며, 본 발명의 양태의 예시적인 설명으로서 제공된다.

Claims

비디오 데이터를 인코딩하는 장치로서,
뷰 데이터 및 깊이 데이터의 결합 세트를 단일 비트 스트림으로 조인트 인코딩함으로써 상기 비디오 데이터를 인코딩하도록 구성된 인코더
를 포함하는 인코딩 장치.
제1항에 있어서, 상기 뷰 데이터 및 깊이 데이터의 결합 세트는 RGBD, YUVD 또는 YCbCrD 중의 하나를 포함하는 인코딩 장치.
제2항에 있어서, 상기 뷰 데이터 및 깊이 데이터의 결합 세트는 픽쳐들의 그룹, 픽쳐, 슬라이스, 블록들의 그룹, 매크로블록 또는 서브매크로블록 중의 적어도 하나에 포함되는 인코딩 장치.
제1항에 있어서, 상기 비디오 데이터의 깊이 포맷을 식별하도록 구성된 깊이 포맷 유닛을 더 포함하는 인코딩 장치.
제4항에 있어서, 상기 인코더는, 상기 깊이 포맷이 0으로 설정될 때 깊이 데이터를 포함하지 않는 복수의 2차원 이미지로서 상기 비디오 데이터를 인코딩하도록 선택하는 인코딩 장치.
제4항에 있어서, 상기 인코더는, 상기 깊이 포맷이 미리 정해진 레벨로 설정될 때 상기 뷰 데이터 및 깊이 데이터의 결합 세트로서 상기 비디오 데이터를 인코딩하도록 선택하는 인코딩 장치.
제1항에 있어서, 상기 인코더는, 상기 뷰 데이터 및 깊이 데이터의 결합 세트의 조인트 인코딩의 코딩 비용 및 상기 뷰 데이터 및 깊이 데이터의 결합 세트의 개별 인코딩의 코딩 비용을 결정하고 상기 조인트 인코딩의 코딩 비용 및 상기 개별 인코딩의 코딩 비용에 기초하여 조인트 인코딩 및 개별 인코딩 간의 인코딩 모드를 결정하는 코딩 비용 산출기를 더 포함하는 인코딩 장치.
제7항에 있어서, 상기 인코더는, 상기 조인트 인코딩의 코딩 비용이 상기 뷰 데이터 및 깊이 데이터의 결합 세트를 개별적으로 인코딩하는 코딩 비용보다 적으면 뷰 데이터 및 깊이 데이터의 조인트 인코딩으로서 상기 비디오 데이터를 인코딩하는, 인코딩 장치.
제1항에 있어서, 상기 비디오 데이터는, 깊이가 있는 멀티뷰, 깊이가 없는 멀티뷰, 깊이가 있는 단일 뷰, 깊이가 없는 단일 뷰 중의 하나인, 인코딩 장치.
비디오 데이터를 인코딩하는 방법으로서,
인코더에서, 뷰 데이터 및 깊이 데이터의 결합 세트를 단일 비트 스트림으로 조인트 인코딩함으로써 상기 비디오 데이터를 인코딩하는 단계를 포함하는 인코딩 방법.
제10항에 있어서, 상기 뷰 데이터 및 깊이 데이터의 결합 세트는 RGBD, YUVD 또는 YCbCrD 중의 하나를 포함하는 인코딩 방법.
제11항에 있어서, 상기 뷰 데이터 및 깊이 데이터의 결합 세트는, 픽쳐들의 그룹, 픽쳐, 슬라이스, 블록들의 그룹, 매크로블록 또는 서브매크로블록 중의 적어도 하나에 포함되는 인코딩 방법.
제10항에 있어서, 상기 비디오 데이터의 깊이 포맷을 식별하는 단계를 더 포함하는 인코딩 방법.
제13항에 있어서, 상기 깊이 포맷이 0으로 설정될 때 깊이 데이터를 포함하지 않는 복수의 2차원 이미지로서 상기 비디오 데이터가 인코딩되는, 인코딩 방법.
제13항에 있어서, 상기 깊이 포맷이 미리 정해진 레벨로 설정될 때 상기 뷰 데이터 및 깊이 데이터의 결합 세트가 인코딩되는, 인코딩 방법.
제10항에 있어서, 상기 뷰 데이터 및 깊이 데이터의 결합 세트의 조인트 인코딩의 코딩 비용 및 상기 뷰 데이터 및 깊이 데이터의 결합 세트의 개별 인코딩의 코딩 비용을 결정하고 상기 조인트 인코딩의 코딩 비용 및 상기 개별 인코딩의 코딩 비용에 기초하여 조인트 인코딩 및 개별 인코딩 간의 인코딩 모드를 결정하는 단계를 더 포함하는, 인코딩 방법.
제16항에 있어서, 상기 조인트 인코딩의 코딩 비용이 상기 뷰 데이터 및 깊이 데이터의 결합 세트를 개별적으로 인코딩하는 코딩 비용보다 적으면 뷰 데이터 및 깊이 데이터의 조인트 인코딩으로서 상기 비디오 데이터가 인코딩되는, 인코딩 방법.
제10항에 있어서, 상기 비디오 데이터는, 깊이가 있는 멀티뷰, 깊이가 없는 멀티뷰, 깊이가 있는 단일 뷰, 깊이가 없는 단일 뷰 중의 하나인 인코딩 방법.
인코더가 비디오 데이터를 인코딩하도록 하는 명령어들을 저장하고 있는(carrying) 비일시적(non-transitory) 컴퓨터 판독가능 매체로서,
상기 명령어들은,
뷰 데이터 및 깊이 데이터의 결합 세트를 단일 비트 스트림으로 조인트 인코딩함으로써 상기 비디오 데이터를 인코딩하는 단계를 수행하는 명령어를 포함하는 비일시적 컴퓨터 판독가능 매체.
제19항에 있어서, 상기 뷰 데이터 및 깊이 데이터의 결합 세트는 RGBD, YUVD 또는 YCbCrD 중의 하나를 포함하는 비일시적 컴퓨터 판독가능 매체.
제20항에 있어서, 상기 뷰 데이터 및 깊이 데이터의 결합 세트는 픽쳐들의 그룹, 픽쳐, 슬라이스, 블록들의 그룹, 매크로블록 또는 서브매크로블록 중의 적어도 하나에 포함되는 비일시적 컴퓨터 판독가능 매체.
제19항에 있어서, 상기 비디오 데이터의 깊이 포맷을 식별하는 단계를 수행하는 명령어를 더 포함하는 비일시적 컴퓨터 판독가능 매체.
제22항에 있어서, 상기 깊이 포맷이 0으로 설정될 때 깊이 데이터를 포함하지 않는 복수의 2차원 이미지로서 상기 비디오 데이터가 인코딩되는 비일시적 컴퓨터 판독가능 매체.
제22항에 있어서, 상기 깊이 포맷이 미리 정해진 레벨로 설정될 때 상기 뷰 데이터 및 깊이 데이터의 결합 세트가 조인트 인코딩되는(encoded jointly) 비일시적 컴퓨터 판독가능 매체.
제19항에 있어서, 상기 뷰 데이터 및 깊이 데이터의 결합 세트의 조인트 인코딩의 코딩 비용 및 상기 뷰 데이터 및 깊이 데이터의 결합 세트의 개별 인코딩의 코딩 비용을 결정하고 상기 조인트 인코딩의 코딩 비용 및 상기 개별 인코딩의 코딩 비용에 기초하여 조인트 인코딩 및 개별 인코딩 간의 인코딩 모드를 결정하는 단계를 수행하는 명령어를 더 포함하는 비일시적 컴퓨터 판독가능 매체.
제25항에 있어서, 상기 조인트 인코딩의 코딩 비용이 상기 뷰 데이터 및 깊이 데이터의 결합 세트를 개별적으로 인코딩하는 코딩 비용보다 적으면 뷰 데이터 및 깊이 데이터의 조인트 인코딩으로서 상기 비디오 데이터가 인코딩되는 비일시적 컴퓨터 판독가능 매체.
제19항에 있어서, 상기 비디오 데이터는 깊이가 있는 멀티뷰, 깊이가 없는 멀티뷰, 깊이가 있는 단일 뷰, 깊이가 없는 단일 뷰 중의 하나인 비일시적 컴퓨터 판독가능 매체.
비디오 데이터를 디코딩하는 장치로서,
단일 비트 스트림으로 미리 조인트 인코딩된 뷰 데이터 및 깊이 데이터의 결합 세트를 디코딩함으로써 상기 비디오 데이터를 디코딩하도록 구성된 디코더
를 포함하는 디코딩 장치.
제28항에 있어서, 상기 뷰 데이터 및 깊이 데이터의 결합 세트는 RGBD, YUVD 또는 YCbCrD 중의 하나를 포함하는 디코딩 장치.
제29항에 있어서, 상기 뷰 데이터 및 깊이 데이터의 결합 세트는, 픽쳐들의 그룹, 픽쳐, 슬라이스, 블록들의 그룹, 매크로블록 또는 서브매크로블록 중의 적어도 하나에 포함되는 디코딩 장치.
제28항에 있어서, 상기 비디오 데이터의 깊이 포맷을 식별하도록 구성된 깊이 포맷 유닛을 더 포함하는 디코딩 장치.
제31항에 있어서, 상기 디코더는, 상기 깊이 포맷이 0으로 설정될 때 깊이 데이터를 포함하지 않는 복수의 2차원 이미지로서 상기 비디오 데이터를 디코딩하도록 선택하는 디코딩 장치.
제31항에 있어서, 상기 디코더는 상기 깊이 포맷이 미리 정해진 레벨로 설정될 때 상기 뷰 데이터 및 깊이 데이터의 결합 세트로서 상기 비디오 데이터를 디코딩하도록 선택하는 디코딩 장치.
제28항에 있어서, 상기 디코더는, 상기 뷰 데이터 및 깊이 데이터의 결합 세트가 조인트 인코딩되었으면 상기 결합 세트를 선택적으로 조인트 디코딩하거나, 혹은 상기 뷰 데이터 및 깊이 데이터의 결합 세트가 개별 인코딩되었으면 상기 결합 세트를 디코딩하는 디코딩 장치.
제28항에 있어서, 상기 비디오 데이터는 깊이가 있는 멀티뷰, 깊이가 없는 멀티뷰, 깊이가 있는 단일 뷰, 깊이가 없는 단일 뷰 중의 하나인 디코딩 장치.
비디오 데이터를 디코딩하는 방법으로서,
디코더에서, 단일 비트 스트림으로 미리 조인트 인코딩된 뷰 데이터 및 깊이 데이터의 결합 세트를 디코딩함으로써 상기 비디오 데이터를 디코딩하는 단계를 포함하는 디코딩 방법.
제36항에 있어서, 상기 뷰 데이터 및 깊이 데이터의 결합 세트는 RGBD, YUVD 또는 YCbCrD 중의 하나를 포함하는 디코딩 방법.
제37항에 있어서, 상기 뷰 데이터 및 깊이 데이터의 결합 세트는 픽쳐들의 그룹, 픽쳐, 슬라이스, 블록들의 그룹, 매크로블록 또는 서브매크로블록 중의 적어도 하나에 포함되는 디코딩 방법.
제36항에 있어서, 상기 비디오 데이터의 깊이 포맷을 식별하는 단계를 더 포함하는 디코딩 방법.
제39항에 있어서, 상기 깊이 포맷이 0으로 설정될 때 깊이 데이터를 포함하지 않는 복수의 2차원 이미지로서 상기 비디오 데이터가 디코딩되는 디코딩 방법.
제39항에 있어서, 상기 깊이 포맷이 미리 정해진 레벨로 설정될 때 상기 뷰 데이터 및 깊이 데이터의 결합 세트가 조인트 디코딩되는 디코딩 방법.
제36항에 있어서, 상기 뷰 데이터 및 깊이 데이터의 결합 세트가 조인트 인코딩되었으면 상기 결합 세트를 선택적으로 조인트 디코딩하거나, 혹은 상기 뷰 데이터 및 깊이 데이터의 결합 세트가 개별 인코딩되었으면 상기 결합 세트를 디코딩하는 단계를 더 포함하는 디코딩 방법.
제36항에 있어서, 상기 비디오 데이터는 깊이가 있는 멀티뷰, 깊이가 없는 멀티뷰, 깊이가 있는 단일 뷰, 깊이가 없는 단일 뷰 중의 하나인 디코딩 방법.
디코더가 비디오 데이터를 디코딩하도록 하는 명령어들을 저장하고 있는 비일시적 컴퓨터 판독가능 매체로서,
상기 명령어들은,
뷰 데이터 및 깊이 데이터의 결합 세트를 단일 비트 스트림으로 조인트 인코딩함으로써 상기 비디오 데이터를 디코딩하는 단계를 수행하는 명령어를 포함하는 비일시적 컴퓨터 판독가능 매체.
제44항에 있어서, 상기 뷰 데이터 및 깊이 데이터의 결합 세트는 RGBD, YUVD 또는 YCbCrD 중의 하나를 포함하는 비일시적 컴퓨터 판독가능 매체.
제45항에 있어서, 상기 뷰 데이터 및 깊이 데이터의 결합 세트는, 픽쳐들의 그룹, 픽쳐, 슬라이스, 블록들의 그룹, 매크로블록 또는 서브매크로블록 중의 적어도 하나에 포함되는 비일시적 컴퓨터 판독가능 매체.
제44항에 있어서, 상기 비디오 데이터의 깊이 포맷을 식별하는 단계를 수행하는 명령어를 더 포함하는 비일시적 컴퓨터 판독가능 매체.
제47항에 있어서, 상기 깊이 포맷이 0으로 설정될 때 깊이 데이터를 포함하지 않는 복수의 2차원 이미지로서 상기 비디오 데이터가 디코딩되는 비일시적 컴퓨터 판독가능 매체.
제47항에 있어서, 상기 깊이 포맷이 미리 정해진 레벨로 설정될 때 상기 뷰 데이터 및 깊이 데이터의 결합 세트가 조인트 디코딩되는 비일시적 컴퓨터 판독가능 매체.
제44항에 있어서, 상기 뷰 데이터 및 깊이 데이터의 결합 세트가 조인트 인코딩되었으면 상기 결합 세트를 선택적으로 조인트 디코딩하거나, 혹은 상기 뷰 데이터 및 깊이 데이터의 결합 세트가 개별 인코딩되었으면 상기 결합 세트를 디코딩하는 단계를 수행하는 명령어를 더 포함하는 비일시적 컴퓨터 판독가능 매체.
제44항에 있어서, 상기 비디오 데이터는 깊이가 있는 멀티뷰, 깊이가 없는 멀티뷰, 깊이가 있는 단일 뷰, 깊이가 없는 단일 뷰 중의 하나인 비일시적 컴퓨터 판독가능 매체.