KR20120083913A

KR20120083913A - 깊이 맵 처리를 위한 방법 및 디바이스

Info

Publication number: KR20120083913A
Application number: KR1020127012446A
Authority: KR
Inventors: 왕 린 라이; 슈지에 리우; 동 티안
Original assignee: 톰슨 라이센싱
Priority date: 2009-10-14
Filing date: 2010-10-14
Publication date: 2012-07-26
Also published as: CN102714741B; US20180165796A1; WO2011046607A2; JP2013509022A; EP2499829A2; US20120200669A1; BR112012008988A2; US10417748B2; WO2011046607A3; CN102714741A; JP6158384B2; BR112012008988B1; EP2499829B1; JP5909187B2; KR101807886B1; US10198792B2; JP2016146655A

Abstract

여러 구현예들이 예를 들어 3D 비디오(3DV) 코딩 포맷을 위해 깊이 인코딩 및/또는 필터링에 관한 것이다. 깊이 맵에서 에지를 따라 매크로블록(MB)을 분할하기 위한 SD 모드(308)가 비디오 세기의 변화 및/또는 깊이 변화에 민감한 필터들 사이의 적응적 선택을 포함할 수 있는 깊이 맵의 삼방향(또는 양방향) 필터링을 위한 기술 뿐만 아니라 제공된다. 일 구현예는 깊이 화상을 분할하며 이후 대응하는 이미지 화상에 기초하여 이 파티션을 세분화한다. 다른 구현예는 상기 부분에서 픽셀의 범이에 대한 값에 기초하여 깊이 화상의 부분을 필터링한다. 필터링되는 부분에서 주어진 픽셀에서, 필터는 위치 거리, 깊이 차이 및 이미지 차이 중 적어도 하나 이상에 기초한 가중치에 의해 범위 내에 있는 특정 픽셀의 값을 가중한다.

Description

깊이 맵 처리를 위한 방법 및 디바이스{METHOD AND DEVICES FOR DEPTH MAP PROCESSING}

본 출원은 각각의 전체 내용이 각종 목적을 위해 본 명세서에 참조 문헌으로 병합된 이하의 미국 가출원들 각각의 출원일의 이익을 청구한다:

(1) 미국 출원 번호 61/278,989호 (2009년 10월 14일 출원, 발명의 명칭 : "Coding and Decoding Depth Maps"),

(2) 미국 출원 번호 61/278,984호 (2009년 10월 14일 출원, 발명의 명칭 : "Upsampling Depth Maps Using Video Data"),

(3) 미국 출원 번호 61/279,672호 (2009년 10월 23일 출원, 발명의 명칭 : "Joint Filtering For Depth Map Coding"),

(4) 미국 출원 번호 61/284,272호 (2009년 12월 16일 출원, 발명의 명칭 : "Joint Trilateral Filtering for Depth Compression"),

(5) 미국 출원 번호 61/336,380호 (2010년 1월 21일 출원, 발명의 명칭 : "Coding Depth information"),

(6) 미국 출원 번호 61/337,059호 (2010년 1월 29일 출원, 발명의 명칭 : "Adaptive Joint Filters"),

(7) 미국 출원 번호 61/337,375호 (2010년 2월 3일 출원, 발명의 명칭 : "Sparse Dyadic Mode for Depth Compression"), 및

(8) 미국 출원 번호 61/325,017호 (2010년 4월 16일 출원, 발명의 명칭 : "Processing Depth Maps").

본 발명의 구현예들은 3차원 비디오에 관한 것을 기술한다. 여러 특정 구현예들은 깊이 맵 및 에지 인코딩에 관한 것이다.

종래의 2D 비디오, 및 다중 뷰 플러스 깊이(MVD : multiview plus depth)와 계층화된 깊이 비디오(LDV : layered depth video)와 같은 대응하는 깊이 맵을 포함하는 새로운 데이터 포맷은 3D TV 및 자유 뷰 포인트 비디오(FVV : free-viewpoint video)와 같은 새로운 애플리케이션을 가능하게 한다. 3D TV 및 FVV와 같은 비디오 애플리케이션에서는, 일반적으로 캡쳐된 뷰, 인코딩된 뷰 및 디코딩된 뷰와는 다른 가상 뷰(virtual view)를 렌더링하는 것이 필수적이다. 깊이 이미지 기반 렌더링(DIBR : Depth Image Based Rendering)은 수 년에 걸쳐 연구된 가상 뷰를 렌더링하는 기술이다. 렌더링된 뷰에서 충분한 화질을 달성하기 위하여, 깊이 경계(depth boundary)들이 잘 보존되는 것이 바람직하다. 종래의 비디오 코딩 기술은 일반적으로 샤프한 에지들 주위에 큰 결함을 생성한다. 깊이 에지의 충실한 표현은 일반적으로 다른 영역을 코딩하는 것보다 상당히 더 많은 비트를 소비할 수 있다.

본 발명의 일반적인 측면에 따라, 깊이 화상의 일부분이 액세스된다. 깊이 화상은 이미지 화상에서 대응하는 위치들의 깊이를 표시하는 정보를 포함한다. 깊이 화상의 일부분은 복수의 파티션으로 분할된다. 복수의 파티션은 세분화된 파티션(refined partitions)을 제공하기 위해 이미지 화상에 기초하여 세분화된다. 깊이 화상의 일부분은 인코딩 부분을 생성하기 위해 세분화된 파티션에 기초하여 인코딩된다.

본 발명의 다른 일반적인 측면에 따라, 인코딩된 깊이 화상의 일부분이 액세스된다. 깊이 화상은 이미지 화상에서 대응하는 위치들의 깊이를 표시하는 정보를 포함한다. 인코딩은 그 일부분의 복수의 파티션에 대한 세기 값(intensity value)을 나타내는 하나 이상의 값 표시자(value indicator)의 인코딩을 포함한다. 복수의 파티션의 적어도 하나가 식별된다. 적어도 하나의 파티션은 세분화된 파티션을 제공하기 위해 이미지 화상에 기초하여 세분화된다. 하나 이상의 값 표시자의 인코딩이 디코딩된다. 하나 이상의 디코딩된 값 표시자에 기초하여 세분화된 파티션에 있는 픽셀에 대한 값이 결정된다.

본 발명의 또 다른 일반적인 측면에 따라, 깊이 화상의 일부분이 액세스된다. 깊이 화상은 이미지 화상에서 대응하는 위치들의 깊이를 나타내는 정보를 포함한다. 이 일부분은 필터링된 깊이 부분을 생성하기 위해 필터링된다. 필터링된 깊이 부분에 있는 주어진 픽셀은 그 일부분 내에 있는 픽셀의 범위에 대한 값에 기초한다. 주어진 픽셀을 생성하는 것은 적어도 3개의 성분에 기초한 가중치에 의해 그 범위 내에 있는 특정 픽셀의 값을 가중하는 것을 포함한다. 제 1 성분은 특정 픽셀의 위치로부터 주어진 픽셀에 대응하는 부분 내 픽셀의 위치까지의 거리이다. 제 2 성분은 특정 픽셀의 값과 주어진 픽셀에 대응하는 부분 내 픽셀의 값 사이의 깊이 차이이다. 제 3 성분은 특정 픽셀의 위치에 대응하는 이미지 화상 내 픽셀의 값과, 주어진 픽셀의 위치에 대응하는 이미지 화상 내 픽셀의 값 사이의 이미지 차이이다.

본 발명의 또 다른 일반적인 측면에 따라, 인코딩된 다운샘플링된 깊이 이미지가 수신된다. 다운샘플링된 깊이 이미지는 디코딩된다. 디코딩된 다운샘플링된 깊이 이미지의 일부분이 필터링되어 필터링된 깊이 부분을 생성하고 이는 업샘플링된다. 필터링된 깊이 부분 내 주어진 픽셀은 그 부분 내 픽셀의 범위에 대한 값에 기초한다. 주어진 픽셀을 생성하는 것은 적어도 2개의 성분에 기초한 가중치에 의해 그 범위 내에 있는 특정 픽셀의 값을 가중하는 것을 포함한다. 제 1 성분은 특정 픽셀의 위치로부터 주어진 픽셀에 대응하는 부분 내에 있는 픽셀의 위치까지의 거리이다. 제 2 성분은 특정 픽셀의 위치에 대응하는 이미지 픽셀 내에 있는 픽셀의 값과, 주어진 픽셀의 위치에 대응하는 이미지 화상 내에 있는 픽셀 값 사이의 이미지 차이이다.

본 발명의 더 다른 일반적인 측면에 따라, 깊이 화상의 일부분이 액세스된다. 깊이 화상은 이미지 화상 내 대응하는 위치들의 깊이를 표시하는 정보를 포함한다. 이 일부분은 필터링된 깊이 부분을 생성하기 위해 필터링된다. 필터링된 깊이 부분 내 주어진 픽셀은 그 부분 내 픽셀의 범위에 대한 값에 기초한다. 주어진 픽셀을 생성하는 것은 적어도 3개의 성분에 기초한 가중치에 의해 그 범위 내에 있는 특정 픽셀의 값을 가중하는 것을 포함한다. 제 1 성분은 특정 픽셀의 위치로부터 주어진 픽셀에 대응하는 부분 내 픽셀의 위치까지의 거리이다. 제 2 성분은 특정 픽셀의 값과, 주어진 픽셀에 대응하는 부분 내 픽셀의 값 사이의 깊이 차이의 적응적 가중이다. 제 3 성분은 특정 픽셀의 위치에 대응하는 이미지 화상 내 픽셀의 값과, 주어진 픽셀의 위치에 대응하는 이미지 화상 내 픽셀 값 사이의 이미지 차이의 적응적 가중이다.

본 발명의 하나 이상의 구현예의 상세 사항은 첨부 도면과 이하 상세한 설명에 개시된다. 하나의 특정 방식으로 기술되어 있을지라도, 본 구현예는 여러 방식으로 구성되거나 구현될 수 있다는 것은 명백한 것이다. 예를 들어, 구현예는 예를 들어 동작 세트를 수행하도록 구성된 장치 또는 동작 세트를 수행하는 명령을 저장하는 장치와 같은 장치로 구현되거나 방법으로 수행되거나 신호로 구현될 수 있다. 본 발명의 다른 측면과 특징은 첨부 도면과 청구범위와 연계하여 고려되는 이하 상세한 설명으로부터 명백하게 될 것이다.

도 1은 5개의 예시적인 SD(sparse dyadic) 파티션을 예시하는 도면.
도 2는 SD 인코딩을 사용하여 전송 시스템의 프레임워크의 하이 레벨의 블록 다이아그램.
도 3은 깊이 맵 처리를 수행하는 방법의 블록 흐름도.
도 4는 대표 값을 가지는 간소화된 SD 파티션을 도시하는 도면.
도 5는 상세 깊이 맵 복구를 도시하는 블록 흐름도.
도 6은 SD 모드를 구현하는 깊이 인코더를 도시하는 도면.
도 7은 여러 MB(macroblock) 파티션을 가지고 SD 모드를 사용하여 매크로블록(MB)을 예측하는 공정의 블록 흐름도.
도 8은 MB 파티션 내 서브 매크로블록(MB)을 위한 최상의 SD 파티션을 결정하는 블록 흐름도.
도 9는 SD 파티션 세분화를 그래픽으로 도시하는 도면.
도 10은 SD 파티션 세분화를 기술하는 블록 흐름도.
도 11은 깊이 맵으로 SD 예측을 처리하는 디코더를 도시하는 도면.
도 12는 SD 예측을 위한 블록 흐름도.
도 13은 기준에 기초하여 대표 값을 결정하는 방법의 블록 흐름도.
도 14는 공간적으로 인접하는 MB들을 위한 예측자(predictior)를 그래픽으로 도시하는 도면.
도 15는 샘플 기반 예측의 블록 흐름도.
도 16은 4개의 MB 파티션 모드를 도시하는 도면.
도 17은 MB MODE_16x16 및 SD 파티션 MODE_VER을 사용하여 공간적으로 인접하는 MB를 위한 예측자를 도시하는 도면.
도 18은 MB MODE_8x8을 사용하여 경계 기반 예측을 도시하는 도면.
도 19는 MB MODE_8x16을 사용하여 경계 기반 예측을 도시하는 도면.
도 20은 예측자를 형성하는 블록 흐름도.
도 21은 샘플 비디오의 깊이 코딩을 위한 비트율 왜곡(RD : rate distortion)을 도시하는 그래프.
도 22는 샘플 비디오의 깊이 코딩을 위한 비트율 왜곡(RD)을 도시하는 그래프.
도 23은 조인트 양방향 필터링의 프레임워크의 하이 레벨 블록도.
도 24는 조인트 양방향 필터링을 사용하여 풀 해상도의 깊이 맵을 생성하는 블록 흐름도.
도 25는 잔류값(residue)을 포함하는 프레임워크를 도시하는 도면.
도 26은 인핸스먼트 층을 가지고 깊이 맵을 인코딩하는 블록 흐름도.
도 27은 인핸스먼트 층을 가지고 깊이 맵을 디코딩하는 블록 흐름도.
도 28은 깊이 코딩을 위해 인루프 필터로 조인트 양방향 필터를 도시하는 도면.
도 29는 깊이 디코딩을 위해 인루프 필터로 사용되는 조인트 양방향 필터를 도시하는 도면.
도 30은 디블록킹 공정과 조인트 필터링 공정을 결합한 것을 도시하는 블록 흐름도.
도 31은 디블록킹 필터와 조인트 필터 사이의 스위치를 도시하는 도면.
도 32는 샘플 비디오의 깊이 코딩을 위해 RD 커브를 그래프로 도시하는 도면.
도 33은 샘플 비디오의 깊이 코딩을 위해 RF 커브를 그래프로 도시하는 도면.
도 34는 적응적 선택을 가지고 양방향 필터링을 하는 블록 흐름도.
도 35는 ε=0.5인 블렌딩 함수를 그래프로 도시하는 도면.
도 36은 ε=5인 블렌딩 함수를 그래프로 도시하는 도면.
도 37은 2개 스텝의 인루프 필터 공정을 도시하는 블록 흐름도.
도 38은 디블록킹 필터와 적응적 조인트 필터 사이의 적응적 선택을 가지는 인루프 필터링을 하는 블록 흐름도.
도 39는 색상 값과 적응적 감쇠 지수(σ) 사이의 관계를 도시하는 도면.
도 40은 4개의 다른 감쇠 함수를 도시하는 그래프.
도 41은 다방향(ML : multi-lateral) 필터링을 포함하는 인코더와 종래의 인코더를 비교하는 도면.
도 42는 다중 뷰-플러스-깊이 입력과 종래의 입력의 사용을 비교하는 도면.
도 43은 변조기를 구비하는 비디오 전송 시스템을 도시하는 도면.
도 44는 복조기를 구비하는 비디오 수신 시스템을 도시하는 도면.

깊이 맵을 효과적으로 인코딩하기 위해, 깊이 변동과 복잡한 에지의 표현을 간소화 하는 것이 유리하다. 이들 표현은 인코딩하기에 훨씬 더 용이하며 또한 새로운 코딩 모드, 즉 SD 모드(Sparse Dyadic Mode)로 나아가게 한다. 일 실시예에서, 깊이 맵 상세를 복구하기 위해, 2D 비디오로부터 에지 정보는 간소화된 깊이와 함께 이용된다. 그 결과 시스템은 렌더링된 뷰의 품질을 유지하면서 깊이 비트율을 감소시킬 수 있다. 나아가, 압축된 깊이 맵에서 강한 코딩 결함을 억제하기 위해, 새로운 에지 보존 노이즈 제거 필터가 특정 실시예에서 사용된다. 이를 위해, 특정 필터는 대응하는 비디오 프레임에서 그리고 선택적으로 깊이 맵에서 에지 정보를 이용한다. 특정 필터의 필터 가중치는 이하의 인자, 즉 샘플 위치의 근접성(vicinity), 비디오 프레임에서 나란히 배열된(collocated) 픽셀들 중에서의 유사성(similarity) 및 선택적으로 깊이 샘플들 중에서의 유사성에 의해 결정된다. 필터링 공정은 인루프 필터로서 코딩 구조에 포함될 수 있다. 디블록킹 필터와 같은 종래의 인루프 필터와 비교할 때, 본 발명의 원리는 주어진 깊이 코딩 비트율에서 렌더링 품질을 개선시킬 수 있다.

이하의 설명은 많은 실시예에 공통인 일반적인 원리 뿐만 아니라 여러 실시예를 제공한다. 그러나, 달리 언급되지 않는다면, 하나 이상의 실시예에 특정된 제한사항과 한정사항은 이들 실시예에만 특정되고 모든 실시예에 적용가능한 일반적인 제한사항이나 한정사항은 아니다.

SD 모드( Sparse Dyadic Mode )

SD 파티션은 훨씬 더 효율적으로 인코딩될 수 있는 기본적인 상세 깊이의 러프한 근사값으로 기능하므로 깊이 에지를 표현하는데 있어 유리하다. SD 코딩 모드는 깊이 코딩의 효율을 개선시키기 위하여 제공된다. 2D 비디오 프레임으로부터 에지 정보는 깊이 맵에서의 상세를 복구하는데 사용된다. 깊이 맵에서 에지와 같은 상세를 복구하는데 종래의 2D 비디오를 사용하는 것은 깊이 맵이 매우 높은 충실도로 인코딩될 수 없다는 것을 의미한다. 그리하여, 용이하게 인코딩될 수 있는 간소화된 깊이 맵이 제공된다. 비디오와 결합될 때 상세 깊이 맵은 렌더링 목적을 위해 복구된다.

도 1에서, MxN 깊이 블록(L)에 대한 5개의 간소화된 표현(S _i )이 제공되며, 이는 SD(Sparse Dyadic) 파티션이라고 언급된다. 블록 내 샘플 값은 S ₀ 내 단일 값(A)에 의해서만 근사되거나 또는 S ₁ 내지 S ₄ 에서 직선으로 분리된 2개 값(A, B)에 의해서 근사된다. 이러한 수 개의 값과 경계 라인으로서 직선 라인을 가지고, SD 파티션을 인코딩하는 것은 원래의 상세 깊이(L)를 인코딩하는 것보다 상당히 더 적은 수의 비트를 요구한다. 직선 경계에 대해서는 오직 4개의 위치만 가능하기 때문에, 경계를 시그널링하기 위한 측면 정보는 경계가 너무 많이 가능한 방향과 위치를 가질 수 있는 다른 접근법보다 더 작다.

이들 5개의 SD 파티션은 간소화된 표현의 단지 일례라는 것을 주지해야 한다. 다른 간소화된 표현은 또한 제안된 개념, 예를 들어, 상세 깊이를 복구하는데 충분한 정보를 제공하면서 인코딩하기에 용이한 러프한 근사값으로 재구성될 수 있다.

깊이 코딩을 위한 2개의 예시적인 실시예가 아래에 제시된다. 제 1 실시예에서, 원래의 깊이 맵이 먼저 처리되어 SD 파티션을 사용하여 간소화된 표현을 가지는 블록을 야기한다. 이후 간소화된 깊이는 H.264/AVC와 같은 종래의 비디오 코딩 구조로 인코딩된다. 제 2 실시예에서, 새로운 코딩 모드인 "Sparse Dyadic Mode"가 도입된다. 비트율 왜곡의 최적화시에 인코더는 H.264/AVC와 같은 임의의 종래의 코딩 모드 뿐만 아니라 새로운 SD 모드를 평가할 수 있다. 새로운 SD 모드로 인코딩된 블록에 대해 왜곡을 더 잘 추정하기 위하여, "블록 세분화(block refinement)" 공정이 제 2 실시예에 제공되며 이는 코딩 효율을 더 개선시킨다.

코딩 깊이 맵을 위한 SD 파티션 및 조인트 필터링

제 1 실시예에서, 인코더 측에서, 원래의 깊이 맵이 처리되어 SD 파티션으로 간소화된 표현을 얻는다. 이후 그 결과 생성된 깊이 맵 시퀀스가 종래의 비디오 코딩 기술, 예를 들어 H.264/AVC를 사용하여 인코딩된다. 디코더 측에서, 간소화된 깊이 맵과 대응하는 비디오 프레임을 디코딩한 후에, 상세 깊이 맵은 비디오 프레임으로부터 정보를 사용하는 조인트 양방향 필터(joint bi-latral filter)로 복구될 수 있다.

이제 도 2를 참조하면, 이 실시예의 프레임워크의 하이 레벨의 블록 다이아그램이 도시된다. 인코딩 모듈(202)은 입력 비디오 시퀀스 및 대응하는 입력 깊이 시퀀스를 수신한다. 입력 비디오 시퀀스는 종래의 비디오 인코더(206)에 의해 인코딩된다. 깊이 시퀀스는 각 종래의 비디오 인코더(206)에 의해 인코딩되기 전에 필터(204)에서 제 1 깊이 맵이 처리된다. 2개의 인코딩된 신호는 이후 디코딩/렌더링 모듈(208)에 전송된다. 각 신호는 각 종래의 비디오 디코더(210)에 의해 디코딩된다. 두 디코더의 출력은 필터링 제거된 깊이 정보를 복구하기 위해 비디오 정보를 사용하는 깊이 맵 복구 모듈(212)에 의해 사용된다. 뷰 합성 블록(214)은 이후 비디오 및 깊이 정보를 사용하여 합성된 뷰를 생성하며 이는 3D 비디오의 디스플레이를 가능하게 한다.

이제 도 3을 참조하면, 깊이 맵 처리를 수행하는 방법의 블록 흐름도가 도시된다. 입력 깊이 맵은 302에서 비중첩 블록들로 분할된다. 이들 블록은 예를 들어 사이즈 MxN을 가진다. 변수는 304 및 306에서 초기화되며, 블록 지수(index)를 0으로 설정하고, 왜곡에 대한 초기 값(D_max)을 최대 수(MxN 블록에 대해 최대 가능한 왜곡, 즉 255xMxN과 같은)로 설정하고, SD 파티션 지수를 0으로 설정한다. 308에서, SD 파티션은 대응하는 대표 값을 가지는 각 MxN 블록에 대해 획득된다. 대표 값은 대응하는 코너 영역에서 샘플 값을 사용하여 계산될 수 있다. 예를 들어, 도 4를 참조하면, 깊이 블록(L)은 L에서 좌상(top-left) 샘플 값과 우하(bottom-right) 샘플 값에 의해 각각 결정된 A 및 B를 가지고 SD 모드(S₂)를 사용하여 표시된다. 대표 값은 각 SD 모드에 대해 계산된다. 이들 대표 값은 각 파티션에 있는 개별 픽셀의 휘도 또는 색차를 나타낼 수 있거나 복수의 그러한 픽셀의 세기를 나타낼 수 있다.

310에서, SD 모드들 각각과 깊이 블록(L) 사이의 왜곡이 계산된다. 왜곡 메트릭(D)(L, S _i )은 수식 (1)로 절대값의 차의 합(SAD : sum of absolute difference)을 사용하여 계산되거나 또는 수식 (2)로 제곱 에러의 합(SSE : sum of squared error)을 사용하여 계산될 수 있으며, 여기서 m과 n은 샘플 위치의 지수이다:

각 SD 모드의 왜곡은 최대 왜곡에 대하여 블록(312)에서 체크된다. 주어진 SD 모드의 왜곡(D_i)이 최대 왜곡보다 더 작다면, 그 왜곡(D_i)은 블록(314)에서 최대값으로 이루어지고 SD 모드가 선택된다. 만약 그 왜곡이 최대 왜곡보다 더 크거나 또는 SD 모드가 선택되었다면, 블록(316)은 평가할 SD 모드들이 더 있는지 여부를 결정한다. 그렇다면, 처리는 블록(308)로 돌아가며 그 다음 모드를 고려하여 블록(318)에서 i를 증분시킨다.

일단 최상의 SD 모드가 선택되면, 깊이 블록(L)은 320에서 선택된 SD 모드를 사용하여 표시된다. 결정 블록(322)은 처리할 깊이 블록들이 더 있는지 여부를 결정한다. 그렇다면, 블록 지수(b)가 324에서 증분되며 처리는 306으로 돌아간다. 그렇지 않다면, 처리된 깊이 맵은 326에서 출력되며 H.264/AVC와 같은 종래의 비디오 인코더로 송신될 수 있다. 이 실시예에서, 인코더는 재구성된 비디오에 액세스할 필요가 없고 코딩 모드 결정이 사용할 SD 파티션의 선택과 분리된다. 이것은 또한 코딩 효율이 SD 파티션과 코딩 모드의 선택을 공동으로 고려하는 코딩 구조와 비교하여 최적이 아니라는 것을 의미한다. 예를 들어, 먼저, 특정 SD 파티션이 최저 왜곡을 가지게 선택되었으나, H.264/AVC 인코딩 후에, 추가적인 압축 왜곡은 원래의 블록을 나타내는데 최상의 선택을 하지 않을 수 있다.

상세 깊이를 복구하는 것은 도 2에 있는 상세 깊이 맵 복구" 블록(212)에서 수행된다. 디코더 측(208)에서, 간소화된 깊이 맵(S)은 먼저 종래의 비디오 디코더(210)를 사용하여 디코딩될 수 있다. S'라고 표시된 상세 깊이 맵을 복구하기 위해, 대응하는 재구성된 비디오에서 경계 정보가 사용된다. 특히, 비디오 프레임에서 경계에 걸친 샘플 값 차이가 깊이 경계를 식별하기 위해 사용될 수 있다. 이미지는 예를 들어 양방향 필터 또는 가중된 최소 제곱(WLS : weighted least-square) 필터를 사용하여 에지를 보존하면서 필터링될 수 있다. 이 실시예에서, 이러한 필터는 깊이 맵(212)에서 상세를 복구하기 위해 비디오 채널로부터 에지 정보를 가지고 사용될 수 있다.

이 실시예에서, 일례로서, 조인트 양방향 필터는 비디오 경계 정보를 사용하여 상세 깊이를 복구하는데 사용될 수 있다. 깊이 맵에서 주어진 샘플 위치(p)에 대해, 필터링된 출력(S'_p)은 위치(q)에서 인접한 샘플들의 가중된 평균(p에 중심을 둔 범위 Ω 내에 있는)이다. 이 가중치는 2개의 인수에 기초하여 결정되는데, 이 2개의 인수는 도메인 필터(

)에 의해 결정된 p 와 q 사이의 거리와, 비디오 프레임 내 대응하는 샘플 값들 사이의 유사성, 즉 레인지 필터(

)에 의해 결정된 I_p 와 I_q 사이의 유사성이다. "조인트 양방향 필터" 라는 용어는 깊이 맵(S)에 가중치를 적용하는 동안 레인지 필터가 비디오 프레임(I)으로부터 입력을 가진다는 사실을 말한다. 일반적으로, 도메인 필터는 위치(p)에서 먼 샘플에 대해서는 더 작은 가중치를 할당하는데, 즉, 거리(

)가 증가함에 따라 가중치는 감소한다. 한편, 레인지 필터는 I_q와 유사한 값을 가지는 샘플(I_q)에는 더 작은 가중치를 할당하는데, 즉 I_p와 I_q 사이의 차이가 증가함에 따라 가중치가 감소한다. 이 공정은 다음 수식으로 요약할 수 있다:

여기서,

이다. 전술된 바와 같이, p와 q는 샘플 위치이고, S는 SD 파티션을 가지고 간소화된 깊이 맵이며, S'는 필터링된 깊이 맵이며, I_p와 I_q는 위치(p와 q)에서 비디오 프레임에 있는 픽셀이며, K_p는 정규화 인수이다. 세분화된 깊이(S')가 얻어진 후에, 이것은 가상 뷰를 합성하기 위해 디코딩된 비디오 시퀀스와 함께 "뷰 합성" 블록(214)으로 공급된다.

이제 도 5를 참조하면, 상세 깊이 맵 복구의 블록 흐름도가 도시된다. 디코딩된 깊이 맵{예를 들어, 비디오 디코더(210)에 의해 생성된}이 블록(502)에서 입력으로 수신된다. 깊이 샘플 지수(p)가 블록(504)에서 0으로 초기화된다. 506은 예를 들어 조인트 양방향 필터를 사용하는 것에 의해 비디오 프레임으로부터 정보를 사용하는 것에 의해 상세 깊이(S_p')를 복구한다. 블록(508)은 블록 내에 필터링할 픽셀들이 더 남아있는지 여부를 결정한다. 그렇다면, 샘플 지수가 증분되고 처리는 블록(506)으로 돌아간다. 픽셀이 더 남아있지 않으면 처리는 종료한다.

깊이 맵 코딩을 위한 SD 모드

이 실시예에서, 비디오를 위한 새로운 깊이 코딩 모드, 즉 SD 모드(Sparse Dyadic Mode)가 깊이 인코더/디코더에 제공된다. 종래의 비디오 인코더에 신호를 공급하기 전에 SD 파티션이 전처리로 수행되는 상기 실시예와 비교하여, 새로운 SD 모드는 근사된 에지와 깊이 대푯값을 인코딩한다. 실험에 따르면 새로이 도입된 SD 모드는 코딩 효율과 렌더링 품질 면에서 상기 실시예보다 유리하다는 것을 보여주었다.

이제 도 6을 참조하면 SD 모드를 구현하는 깊이 인코더가 도시된다. 깊이 인코더는 도 43을 참조하여 아래에 기술된 바와 같이 비디오 전송 시스템의 일부로서 구현될 수 있다. 입력 깊이 시퀀스가 변위 보상 블록(620)과 변위 추정 블록(618)에 뿐만 아니라 가산기(601)에 도달한다. 가산기(601)의 다른 입력은 스위치(623)을 통해 수신된 여러 가능한 참조 화상 정보들 중 하나이다.

예를 들어, 스위치(623)와 신호 통신가능한 모드 결정 모듈(624)은 인코딩 모드가 현재 인코딩되고 있는 동일한 블록이나 슬라이스를 참조하여 인트라 예측되어야 한다고 결정하면, 가산기는 인트라 예측 모듈(622)로부터 입력을 수신한다. 대안적으로, 모드 결정 모듈(624)이 인코딩 모드가 현재 인코딩되고 있는 블록이나 슬라이스와는 다른 블록이나 슬라이스를 참조하여 변위 보상과 추정이어야 한다고 결정하면, 가산기는 변위 보상 모듈(620)로부터 입력을 수신한다. 나아가, 모드 결정 모듈(624)이 인코딩 모드가 SD 모드이어야 한다고 결정하면, 가산기(601)는 비디오 참조 버퍼(614)와 신호 통신 가능한 SD 예측 모듈(616)로부터 입력을 수신한다.

가산기(601)는 신호를 변환 모듈(602)에 제공하며, 이 변환 모듈은 입력 신호를 변환하고 변환된 신호를 양자화 모듈(604)에 제공하도록 구성된다. 양자화 모듈(624)은 수신된 신호에 대해 양자화를 수행하고 양자화된 정보를 엔트로피 인코더(605)에 출력하도록 구성된다. 엔트로피 인코더(605)는 입력 신호에 대해 엔트로피 인코딩을 수행하고 비트스트림을 생성하도록 구성된다. 역양자화 모듈(606)은 양자화 모듈(604)로부터 양자화된 신호를 수신하고 양자화된 신호에 역양자화를 수행하도록 구성된다. 이어서, 역변환 모듈(608)은 모듈(606)로부터 역양자화된 신호를 수신하고 수신된 신호에 대해 역변환을 수행하도록 구성된다. 모듈(606, 608)은 가산기(601)로부터 출력된 신호를 재생성하거나 재구성한다.

가산기 또는 결합기(609)는 역변환 모듈(608)과 스위치(623)로부터 수신된 신호들을 가산(결합)하고 그 결과 신호를 인트라 예측 모듈(622)과 디블록킹 필터(610)에 출력한다. 나아가, 인트라 예측 모듈(622)은 수신된 신호를 사용하여 전술된 바와 같이 인트라 예측을 수행한다. 이와 유사하게 디블록킹 필터(610)는 가산기(609)로부터 수신된 신호를 필터링하고 필터링된 신호를 깊이 참조 버퍼(612)에 제공하며 이 버퍼(612)는 깊이 정보를 변위 추정 및 보상 모듈(618,620)에 제공한다. SD 예측 모듈(616)은 비디오 참조 버퍼(614)와 가산기(609)로부터 정보 뿐아니라 입력 깊이 시퀀스를 수신하고 SD 모드 정보를 제공한다.

SD 모드에서, 각 SD 파티션에 대해 간소화된 깊이 대표 값(값 A, B)을 가지고 도 1에 도시된 5개의 파티션 유형이 사용된다. SD 분할은 4개의 MB 파티션(macroblock partition) 유형, MODE_16x16, MODE_16x8, MODE_8x16, MODE_8x8에 더 적용된다. 예를 들어, MODE_16x8에서, 16x8 블록(상부와 하부) 각각은 도 1에 있는 5개의 SD 파티션 중 하나로 인코딩될 수 있다. 추가적인 모드로서, SD 모드는 여러 가지 인터 모드와 인트라 모드와 같은 다른 종래의 코딩 모드에 대하여 평가된다. 모드 평가 및 결정 공정은 비트율 왜곡의 최적화에 기초하여 높은 코딩 효율을 달성할 수 있다.

이제 도 7을 참조하면, 다른 MB 파티션을 가지고 SD 모드를 사용하여 매크로블록(MB)을 예측하는 공정을 도시하는 블록 흐름도가 도시된다. 블록(702)에서, 비트율 왜곡(MB)의 비용이 최대 수로 설정되고 MB 파티션 모드 지수(k)가 0으로 설정된다. 블록(704)에서, 현재 MB는 모드(k)를 사용하여 분할되어 복수의 서브 MB를 생성한다. 서브 MB 지수(j)는 블록(706)에서 0으로 설정된다. 각 서브_MBj에 대해 SD 파티션이 블록(708)에서 왜곡(D_kj){상기 수식(1) 및 수식 (2) 참조}에 기초하여 최상의 SD를 결정하기 위해 평가된다. 선택적으로, 추정된 비트율(R_kj)이 왜곡 대신에 사용될 수 있다. 이 단계는 아래에서 보다 상세히 설명된다.

블록(710)이 인코딩할 서브-MB들이 더 있다고 결정하면, j는 블록(712)에서 증분되고 공정은 블록(708)으로 돌아간다. 그렇지 않다면, 블록(714)은 왜곡

을 계산하고 모든 서브-MB의 선택된 SD 파티션에 기초하여 비트율 R_k를 계산한다. MB 파티션(k)의 RD 비용은 블록(718)에 J_k=D_k+λR_k으로 계산된다. RD 비용이 블록(720)에서 최대값(max)보다 작으면, 최대값(max)은 현재 RD 비용으로 설정되고 MB 파티션 모드는 블록(722)에서 현재 모드로 설정된다. 그렇지 않다면, 공정은 블록(724)을 스킵하고 평가할 MB 파티션 모드가 더 있는지 결정한다. 그렇지 않다면 처리는 종료된다. 그렇다면, 그 다음 MB 파티션 모드가 선택되고 처리는 블록(704)로 돌아간다. 도 7은 도 6에서 SD 예측 블록(616)에서 사용될 예시적인 공정을 나타낸다.

이제 도 8을 참조하면, MB 파티션 내에 서브-MBj에 대한 최상의 SD 파티션을 결정하는 블록 흐름도가 블록(708)을 참조하여 전술된 바와 같이 도시된다. 블록(802)에서, 최대 왜곡은 최대 수로 설정되고 SD 파티션 지수는 0으로 설정된다. 블록(804)은 평가할 SD 파티션(S_i)을 얻는다. 블록(806)은 비디오 프레임에서 대응하는 블록을 사용하여 파티션(S_i)을 세분화한다. 파티션을 세분화하는 것은 이하에서 상세히 설명된다. 블록(808)은 2개의 파티션에 대해 대표 값(A, B)을 찾는다. 블록(810)은 세분화된 분할된 블록과 원래의 깊이 블록(L) 사이에 왜곡(D_i)을 계산한다. 왜곡은 SAD(수식 4) 또는 SSE(수식 5)를 사용하여 다음으로 계산될 수 있다:

여기서 m과 n은 샘플 위치 지수이다. 이 왜곡은 원래의 깊이와 세분화된 깊이 사이에 계산된다는 것을 주목해야 한다. 이것은 인코딩될 잔류값(residue)의 양을 감소시킬 수 있다. 나아가, 세분화된 깊이 블록은 다른 블록들의 예측 코딩을 위해 재구성된 블록으로 사용될 수 있다{예를 들어, 동일한 프레임의 인트라(INTRA) 블록을 위한 예측자 또는 다른 프레임의 인터(INTER) 블록을 위한 예측자}.

블록(812)은 SD 모드의 결정을 할 때 RD를 사용해야 하는지 여부를 결정하는 정책 결정을 나타낸다. RD가 사용되지 않는다면, 블록(814)은 현재 왜곡(D_i)이 D_max보다 더 작은지를 결정한다. 그렇다면, 현재 파티션이 선택되고 D_max가 현재 왜곡으로 설정되며 처리는 블록(828)으로 진행해서 평가할 SD 모드가 더 있는지를 결정한다. 그렇지 않다면, 블록(814)은 블록(828)으로 바로 진행한다.

RD가 사용된다면, 블록(812)은 제 2 브랜치로 가고 블록(818)은 대표 값을 위한 예측자를 계산한다. 블록(820)은 예측자와 대표 값 사이의 차이를 먼저 인코딩함으로써 이어서 잔류값(D_i)을 인코딩함으로써 비트율(R_i)을 계산한다. A와 B를 위한 예측자는 공간적으로 인접한 샘플들을 사용하여 생성될 수 있다. 비용(C_i)은 블록(822)에서 D_i+λR_i로서 계산된다. 블록(824)은 이 비용이 최대 비용보다 더 작은지를 결정한다. 그렇다면, 최대 비용은 현재 비용으로 설정되고 SD 파티션은 현재 파티션으로 설정된다. 이후 처리는 블록(828)으로 진행한다.

블록(828)이 평가할 SD 모드가 더 있다고 결정하면, SD 모드 지수는 처리가 블록(804)로 돌아가기 전에 블록(830)에서 증분된다. 모든 SD 모드들이 다 평가되었다면, 블록(832)이 MB 파티션 모드(k) 내 서브-MBj의 왜곡을 D_kj=D_max로 설정한다. 각 서브-MB(j)에 대해 블록(832)에서 찾은 왜곡은 누적되어 MB 파티션(k)의 총 왜곡(D_k)을 얻는다. 각 서브-MB(j)에 대해 선택된 파티션 및 깊이 대표 값은 MB 파티션(k)의 비트율을 계산하는데 사용될 수 있다.

SD 파티션이 기본적인 깊이 블록을 위한 매우 러프한 대표 값을 제공한다. 따라서, 왜곡이 원래의 깊이 블록과 SD 파티션 사이의 차이로 직접 계산된다면, 이것은 다른 종래의 코딩 모드와 비교하여 매우 클 수 있으며 그 결과, 최적 이하의 RD 모드 결정을 초래할 수 있다. 나아가, SD 파티션을 갖는 블록은 인접한 블록(인트라 모드)이나 다른 프레임의 블록(인터 모드)을 위한 예측자로 사용할 만큼 충분한 상세를 포함하지 않을 수 있다.

SD 파티션을 위한 세분화 공정은 이들 문제를 해결할 수 있다. 이 공정은 도 8에 있는 블록(806)에 대응한다. 파티션은 비디오 프레임에 있는 나란히 배열된(collocated) 블록을 사용하여 깊이 경계 상세를 복구하는 것에 의해 세분화될 수 있다. 이 공정의 입력은 다음과 같다: 즉 SD 파티션(i)로 표시되는 MB 파티션(k) 내 서브-MB(j)에 대응하는 깊이 스위치(S_i)와; 재구성된 비디오에 있는 나란히 배열된 블록이다. 이 공정의 출력은 세분화된 블록(

)이다. 도 9는 세분화 공정의 그래픽 표현을 도시한다.

이제 도 10을 참조하면, 세분화 공정을 기술하는 블록 흐름도가 도시된다. 깊이 블록 샘플 지수(p)가 0으로 설정되고 2개의 빈 파티션(Pa' 및 Pb')들이 블록(1002)에서 생성된다. 나란히 배열된 비디오 샘플(I_p)이 블록(1004)에서 얻어진다. 블록(1006)에서 Ip의 임계 범위 내에 있는 모든 샘플이 발견되며 여기서 임계값(T)은 사용자에 의해 선택될 수 있다. 임계 범위 내에 있는 모든 샘플(I_p)의 세트는 깊이 샘플(p)에 대해 "유사성 영역(similarity area)"을 형성한다. 도 9의 예에서, 블랙 도트의 위치에 있는 샘플에 대해 그 유사성 영역은 그레이 영역이다.

블록(1008)은 2개의 파티션들 중 어느 것이 유사성 영역과 보다 중첩하는지를 결정한다. Pa'가 더 중첩한다면, 샘플(p)이 블록(1010)에서 Pa'에 할당된다. Pb'가 더 중첩한다면, 샘플(p)이 블록(1012)에서 Pb'에 할당된다. 블록(1014)은 처리할 샘플이 더 있는지를 결정한다. 그렇다면, 샘플 지수(p)가 증분되고 처리는 블록(1004)으로 돌아간다. 그렇지 않다면, 그 결과적인 Pa'와 Pb'는 블록(1018)에서 SD 모드를 위한 세분화된 파티션을 형성한다. 세분화된 블록(

)을 얻은 후에, 대표 값(A, B)이 계산된다. 이후 원래의 깊이(L,

) 사이의 왜곡이 계산된다.

이제 도 11을 참조하면, 깊이 맵에서 SD 예측을 처리하는 디코더를 도시하는 블록 다이아그램이 도시된다. 이 필터는 아래 도 44를 참조하여 설명된 비디오 수신 시스템(4400)에 도시된 바와 같이 디코더(4406)의 일부로서 구현될 수 있다. 다시 도 11을 참조하면, 디코더는 비트스트림 수신기(1102)를 사용하여 비트스트림을 수신하고 이 비트스트림 수신기(1102)는 비트스트림 파서(1104)와 신호 통신하며 파서(1104)에 비트스트림을 제공하도록 구성될 수 있다. 이 비트 스트림 파서(1104)는 잔류 비트스트림을 엔트로피 디코더(1106)에 전송하며 제어 구문 요소를 모드 선택 모듈(1116)에 전송하며 변위{움직임/디스패리티(disparity)} 벡터 정보를 변위 보상 모듈(1126)에 전달하도록 구성될 수 있다. 역양자화 모듈(1108)은 엔트로피 디코더(1106)로부터 수신된 엔트로피 디코딩된 신호에 역양자화를 수행하도록 구성될 수 있다. 나아가, 역변환 모듈(1110)은 역양자화 모듈(1108)로부터 수신된 역양자화된 신호에 역변환을 수행하고 역변환된 신호를 가산기 또는 결합기(1112)에 출력하도록 구성될 수 있다.

가산기(1112)는 사용되는 디코딩 모드에 따라 여러 다른 신호들 중 하나를 수신할 수 있다. 예를 들어, 모드 결정 모듈(1116)은 SD 예측, 변위 보상 또는 인트라 예측 인코딩이 제어 구문 요소들을 파싱하고 분석하여 인코더에 의해 현재 처리된 블록에 대해 수행되었는지를 결정할 수 있다. 결정된 모드에 따라, 모델 선택 제어 모듈(1116)은 제어 구문 요소들에 기초하여 스위치(1117)를 액세스하고 제어하여 가산기(1112)가 SD 예측 모듈(1124), 변위 보상 모듈(1126) 또는 인트라 예측 모듈(1118)로부터 신호를 수신할 수 있게 한다.

여기서, 인트라 예측 모듈(1118)은 현재 디코딩되고 있는 동일한 블록이나 슬라이스에 대한 참조를 사용하여 블록이나 슬라이스를 디코딩하게 예를 들어 인트라 예측을 수행하도록 구성될 수 있다. 이어서, 변위 보상 모듈(1126)은 예를 들어 변위 보상을 수행하여 현재 처리되고 있는 동일한 프레임이나 현재 디코딩되고 있는 블록이나 슬라이스와는 다른 이전에 처리된 다른 프레임의 블록이나 슬라이스에 대한 참조를 사용하여 블록이나 슬라이스를 디코딩하도록 구성될 수 있다. 나아가, SD 예측 모듈(1124)은 예를 들어, SD 예측을 수행하여 현재 처리되고 있는 동일한 프레임이나 현재 처리되고 있는 깊이 맵과는 다른 이전에 처리된 다른 프레임의 비디오 프레임에 대한 참조를 사용하여 블록을 디코딩하도록 구성될 수 있다.

예측이나 보상 정보 신호를 수신한 후에, 가산기(1112)는 디블록킹 필터(1114)에 전송하기 위해 역변환된 신호에 예측이나 보상 정보 신호를 가산할 수 있다. 디블록킹 필터(1114)는 입력 신호를 필터링하고 디코딩된 화상을 출력하도록 구성될 수 있다. 가산기(1112)는 또한 인트라 예측에 사용하기 위해 인트라 예측 모듈(1118)에 이 가산된 신호를 출력할 수 있다. 나아가, 디블록킹 필터(1114)는 깊이 참조 버퍼(1120)에 필터링된 신호를 전송할 수 있다. 깊이 참조 버퍼(1120)는 수신된 신호를 파싱하고 깊이 참조 버퍼(1120)에 의해 파싱된 신호가 제공되는 요소(1126)에 의해 변위 보상 디코딩을 가능하게 하고 보조하도록 구성될 수 있다. 그러한 파싱된 신호는 예를 들어 여러 깊이 맵의 전부 또는 일부일 수 있다. 비디오 참조 버퍼(1122)는 예를 들어 SD 파티션을 세분화하는데 사용하기 위해 SD 예측 모듈(1124)에 비디오 프레임을 제공한다.

디코더 측에서, 2D 비디오의 프레임이 먼저 디코딩될 것이다. SD 모드로 인코딩된 특정 MB를 디코딩하는 공정이 SD 예측 블록(1124)에서 수행된다. 이제 도 12를 참조하면, SD 예측을 위한 블록 흐름도가 도시된다. 블록(1202)은 비트스트림을 파싱하여 MB 파티션 모드와 SD 파티션 모드를 위한 구문, 깊이 대표 값과 그 예측자 사이의 차이 및 잔류값을 추출한다. 블록(1204)은 예를 들어 전술된 세분화 공정을 사용하여 블록(1202)으로부터 파싱된 정보와 비디오 프레임에서 대응하는 블록을 사용하여 세분화된 파티션을 얻는다. 블록(1206)은 대표 값의 예측자를 유도한다. 예측자는 아래에서 상세히 설명된 바와 같이 공간적으로 인접한 샘플들을 사용하여 유도될 수 있다. 블록(1208)은 블록(1206)에서 계산된 예측자를 블록(1202)에서 디코딩된 차이에 가산하여 깊이 대표 값을 계산한다. 블록(1210)은 세분화된 파티션에 잔류값을 가산한다.

상기 실시예는 파티션로부터 코너 샘플을 대표 값(A, B)으로 사용한다. 예를 들어 도 1 참조. 좌상 및 우하 코너에 있는 샘플들은 예를 들어 코너에 위치된 작은 윈도우에 걸쳐 평균함으로써 또는 간단히 좌상 말단 및 우하 말단 샘플 값을 픽업함으로써 A와 B를 계산하는데 사용된다. 그러나, 일반적으로, 코너에 있는 샘플은 전체 파티션에 대해서는 우수한 대표 값이 아닐 수 있다. 이 선택은 파티션 내에 더 많은 샘플을 고려하고 특정 최적화 기준을 부여함으로써 개선될 수 있다.

도 10을 참조하여 설명된 세분화 공정의 설명에 기초하여, 세분화된 파티션(Pa', Pb')은 실제 값(A, B)을 알지 않고 대응하는 비디오 블록과 SD 파티션(Pa, Pb)을 사용하여 구성될 수 있다. 다시 말해, 세분화된 파티션(Pa', Pb')은 먼저 비디오 정보로부터 얻어질 수 있고 이후 각 파티션에 대해 적절한 대표 샘플 값이 세분화된 파티션 내의 샘플들을 고려하여 결정될 수 있다.

이제 도 13을 참조하면, 기준에 기초하여 대표 값을 결정하는 방법의 블록 흐름도가 도시된다. 블록(1302)은 입력으로 Pa와 Pb로 설명된 SD 분할을 한다. 같은 곳에 배치된(co-located) 비디오 블록을 사용하여, 블록(1304)은 전술된 바와 같이 Pa와 Pb로부터 세분화된 파티션 Pa'와 Pb'를 얻는다. 블록(1306)은 이후 Pa'와 Pb' 내 샘플에 기초하여 대표 값(A, B)을 계산한다. 예를 들어, 대표 값으로 파티션 내 모든 샘플의 평균 값을 취하거나 최상의 외관을 가지는 샘플 값을 취한다. 다른 접근법은 파티션 내에 모든 샘플(i)에 대해 다음과 같이 SAD를 최소화하는 것이다:

이런 방식으로, 최종적인 값(A, B)은 대응하는 파티션 내 샘플에 대해 최소 SAD를 생성할 수 있다. 사실, 수식 (6)을 만족시키는 값(A)(또는 B)은 Pa'(또는 Pb') 내 모든 샘플(i)의 중간값이다. 최상의 SD 모드에서 광범위한 서치에서 상기 공정은 모든 SD 모드에 대해 반복하여 대표 값(A, B)과 함께 세분화된 파티션(Pa', Pb')을 식별할 수 있다.

SD 파티션에서 깊이 대표 값(값 A, B)을 효율적으로 인코딩하기 위해 예측 코딩이 대표 값을 직접 인코딩하는 대신에 사용된다. 예측자는 인접한 블록으로부터 유도될 수 있고 예측자와 깊이 대표 값 사이의 차이만이 코딩된다. 일반적으로, 시간적으로 공간적으로 모두 인접한 블록들이 사용될 수 있다. 전술된 실시예에서, 공간적인 예측이 일례로서 제시된다.

SD 모드로 인코딩될 주어진 MB에서, 예측자는 좌상부(above-left), 상부(above), 우상부(above-right) 또는 좌측부(left)일 수 있는 도 14에 도시된 공간적으로 인접한 MB로부터 유도된다. 도 14에서, 5개의 샘플이 p0, p1, ..., p4 로 하이라이트된다. (x, y)가 (8x8 MB에서) 좌상 코너의 동일한 위치를 나타낸다면, 5개의 샘플의 동일한 위치의 좌표는 p0:(x,y), p1:(x+7, y), p2:(x+15, y), p3:(x,y+7), p4:(x,y+15)로 주어진다.

이제 도 15를 참조하면, 샘플 기반 예측의 블록 흐름도가 도시된다. 5개의 샘플(p0, p1, p2, p3 및 p4)에서의 깊이는 블록(1502)에서 예측된다. 현재 MB가 이용가능한 도 14에 도시된 모두 4개의 공간적으로 인접한 MB를 가지는 경우, 5개의 샘플에 대한 예측 방법이 아래 표 1에 주어진다. 그렇지 않고, 현재 MB가 좌측부나 상부 경계를 따라 있을 때, 즉 4개의 인접한 MB들이 전부 존재하는 것은 아닐 때, 예측 방법은 아래 표 2에 제시된다. Median {a, b, c}는 오퍼레이터가 a, b 및 c 중에서 중간값을 취한다는 것을 나타낸다는 것을 주목해야 한다.

깊이 대표 값을 위한 예측자는 아래 표 3에서 제시된 바와 같이 MB 파티션 및 SD 파티션 모드에 기초하여 블록(1502)에서 5개의 샘플에서 예측된 깊이에 기초하여 블록(1504)에서 유도된다. 전술된 바와 같이, SD 모드는 4개의 MB 파티션 모드, 즉 MODE_16x16, MODE_16x8, MODE_8x16 및 MODE_8x8에서 지지된다. 각 MB 파티션을 위한 블록 파티션 지수는 H.264/AVC 디자인과 일치하는 도 16에 도시된다. 이들 MB 파티션을 가지고 SD 모드는 이후 서브-MB에 적용될 수 있다. 도 17에서, MODE_16x16은 일례로서 사용된다. 블록 파티션 지수 0을 가지는 MB 파티션은 1개이다. SD 파티션 모드가 표 3에 따라 MODE_VER이라면, 값(A)(좌측 SD 파티션)과 값(B)(우측 SD 파티션)을 위한 예측자는 Median (p0, p3, p4) 및 p2로 각각 주어진다.

이 실시예에서 설명된 공정은 샘플 기반 예측의 아이디어를 기술하는 단순한 예시이며 이와 유사한 성능이 일부 변형을 통해 다른 실시예에서 달성될 수 있다는 것을 주목하여야 한다. 예를 들어, p0 내지 p4와는 다른 샘플이 또한 제 1 스탭에서 사용될 수 있다; 이와 유사하게 표 1 내지 표 3이 단순히 예시를 위해 제공된다.

샘플 기반 예측은 일반적으로 깊이 대표 값(값 A, B)이 코너 샘플로부터 유도되는 경우에 더 잘 작동한다. 그러나, 깊이 대표 값이 (예를 들어, SAD를 최소화하기 위해) 중간값에 기초하는 경우, 샘플 기반 예측은 비효율적이게 될 수 있다. 나아가, 샘플 기반 예측만이 예측자를 계산하기 위해 공간적으로 인접한 MB를 고려한다. MB 내 다른 서브-MB들에서 예측은 가능하지 않다. 예를 들어, 도 16에 있는 MODE_16x8에서, 하부 16x8 블록(블록 파티션 지수가 1인)의 SD 대표 값은 상부 16x8 블록(블록 파티션 지수가 0인)으로부터 예측될 수 있다. 상기 문제를 해결하기 위해, 공간적으로 인접한 블록의 경계를 따라 인접한 샘플로부터 예측자를 생성하는 것이 가능하며 이는"경계 기반 예측"이라고 언급한다.

이 공정을 더 잘 예시하기 위하여, 도 18 및 도 19는 경계 기반 예측의 2개의 예로서 제공된다. 도 18에서, 현재 블록이 8x8 블록이며, 도 19에서 현재 블록은 8x16 블록이다. 현재 블록이 서브-MB라면, 그 예측자는 동일한 MB 내 다른 서브-MB(들)로부터 생성될 수 있다. 3개의 라인이 아래에서 설명을 간소화하기 위해 한정된다: L1은 현재 블록의 좌측에 샘플을 가지는 수직 라인에 대응하고, L2는 현재 블록의 상부에 샘플을 가지는 수평 라인에 대응하고, L3은 L2로부터 연장된 샘플을 가지는 다른 수평 라인이며 그 길이는 L1의 길이와 같다.

이제 도 20을 참조하면, 예측자를 형성하는 블록 흐름도가 도시된다. 블록(2002)은 세분화된 블록 파티션(Pa', Pb')을 입력으로 수신하며 2개의 빈 세트(Neighbor_Pa', Neighbor_Pb')을 초기화한다. L1에서 각 샘플(p)에 대해, 블록(2004)은 우측에 대응하는 샘플을 체크한다. 대응하는 샘플이 Pa'에 속하는 경우, p를 Neighbor_Pa' 세트에 넣고, 대응하는 샘플이 Pb'에 속하는 경우, p를 Neighbor_Pb' 세트에 넣는다. L2에서 각 샘플(p)에 대해, 블록(2006)은 p 아래 대응하는 샘플을 체크한다. 대응하는 샘플이 Pa'에 속하는 경우, p를 Neighbor_Pa' 세트에 넣고, 대응하는 샘플이 Pb'에 속하는 경우, p를 Neighbor_Pb' 세트에 넣는다.

블록(2008)은 Neighbor_Pa' 또는 Neighbor_Pb' 이 비어있는지 여부를 결정한다. 그렇다면, L3 상의 각 샘플(p)에 대해 블록(2010)은 현재 블록의 우측 경계 상으로 45도 투영된 각도(도 19 참조)를 사용하여 대응하는 샘플을 체크한다. 대응하는 샘플이 빈 세트에 속하는 경우, p를 그 세트에 추가한다. 두 세트가 모두 비어있는 것은 불가능하다는 것을 주지해야 한다. 블록(2012)은 이후 Neighbor 세트가 비어있는지를 결정한다.

Neighbor 세트가 비어 있다면, 블록(2014)은 비어있지 않은 세트의 중간값으로 두 값(A, B)의 예측자를 설정한다. 그러나, Neighbor 세트의 어느 것도 비어있지 않다면, 블록(2016)은 값(A, B)의 예측자를 각 Neighbor 세트의 중간값으로 설정한다.

도 18의 예에서, L1 상에 모든 샘플과 L2 상의 좌측 3개의 샘플은 Neighbor_Pa' 세트에 추가되는 반면, 우측 5개의 샘플은 Neighbor_Pb' 세트에 추가될 수 있다. 예측자는 이후 Neighbor_Pa'와 Neighbor_Pb'의 중간 값을 각각 취하여 설정될 수 있다. 도 19의 예에 대해, L1 및 L2 상의 모든 샘플은 Neighbor_Pa'에 추가된다. 현재 블록의 상부 경계와 좌측 경계 상에 샘플이 Pb'에 속하지 않으므로, L3 상의 샘플이 더 체크된다. 45도의 투영을 통해, L3 상에 도트로 표시된 샘플은 B의 예측자를 얻기 위해 Neighbor_Pb'에 추가된다.

대안적인 실시예에서, 단일 샘플-폭 라인 대신에 많은 샘플(예를 들어, 다중 샘플-폭 라인)이 고려될 수 있다는 것을 주목해야 한다. 다른 투영이 사용될 수도 있으며, Median(.)이 아닌 연산이 예측자로 제공될 수 있다. 상기 설명된 공정은 경계 기반 예측의 아이디어를 기술하는 단순한 일례이다.

시뮬레이션에서, 전술된 SD 모드는 인터-뷰 예측을 오프하고 MVC(Multiview Video Coding : 다중 뷰 비디오 코딩) 참조 소프트웨어 JMVM(Joint Multiview Video Model : 조인트 다중 뷰 비디오 모델)에 기초하여 H.264/AVC에 병합될 수 있다. 테스트 시퀀스가 1024x768의 해상도를 가지고 사용된다. 각 테스트 시퀀스에 대해 뷰 0과 뷰 1의 깊이 맵과 텍스처 비디오 시퀀스가 인코딩된다. 깊이 맵은 JVT에서 제공되는 일반적인 인코딩 설정 이후에 4개의 다른 양자화 파라미터(QP : quantization parameter), 즉 22, 27, 32 및 37을 가지고 인코딩되는 반면, 대응하는 비디오는 고정된 QP(22)를 가지고 인코딩된다. 모든 시퀀스가 디코딩된 후에 뷰 1의 가상 비디오가 MPEG에 의해 제공되는 VSRS 3.0(View Synthesis Reference Software)에 의해 생성된다.

도 21 및 도 22는 샘플 비디오의 깊이 코딩을 위한 비트율 왜곡(R-D : Rate-Distortion) 커브를 제공하며, 여기서 "H.264"는 H.264/AVC 인코더를 나타내고, "SD 모드를 갖는 H.264"는 H.264/AVC에 새로운 모드로서의 SD 모드를 추가하는 것을 나타낸다. 2개의 R-D 커브에서, 비트율은 뷰 합성(즉, 뷰 1을 렌더링할 때 뷰 0과 뷰 2의 압축된 깊이 맵과 텍스처 비디오 시퀀스)에 사용되는 깊이와 압축된 텍스처 비디오의 총 비트율을 나타낸다. 깊이 맵 시퀀스가 직접 보이는 대신 렌더링에 사용되므로, 압축된 비디오/깊이 시퀀스를 사용하는 렌더링된 뷰와, 압축되지 않은 비디오/깊이 시퀀스를 사용하는 렌더링된 뷰 사이에 PSNR이 계산될 수 있다. 시뮬레이션 결과로부터 제안된 SD 모드를 가지고 동일한 인코딩 비트율을 갖는 렌더링된 비디오에 대해 최대 0.6dB의 이득을 달성할 수 있다는 것을 알 수 있다.

조인트 양방향 필터 업샘플링

조인트 양방향 필터 업샘플링을 갖는 깊이 코딩 방법이 깊이 맵의 특별한 특성을 더 잘 이용하기 위해 사용된다. 평평한 영역에서,다운샘플링된 버전이 변동을 나타내기에 충분하다. 한편, 원래의 풀 해상도의 깊이 맵에서 상세 경계는 대응하는 비디오 프레임에 있는 샘플 정보를 사용하여 북구될 수 있다. 그리하여 제안된 구조만이 깊이 맵의 다운샘플링된 버전을 인코딩하고, 조인트 양방향 필터 기반 업샘플링이 원래의 풀 해상도 깊이 맵을 생성하는데 사용된다. 필터링은 풀 사이즈의 깊이 맵이나 다운샘플링된 깊이 맵으로 동작할 수 있으나, 또한 업샘플링된 깊이 맵과 다운샘플링된 비디오 이미지에도 적용될 수 있다. 필터링은 동일한 해상도를 가지지 않는 대응하는 깊이와 비디오에 수행될 수 있다.

그리하여, 깊이 맵 시퀀스의 다운샘플링된 버전을 인코딩하고 이를 조인트 양방향 필터링을 사용하여 대응하는 원래의 풀 해상도 비디오 프레임으로부터 경계 정보의 도움으로 업샘플링하는 새로운 깊이 맵 코딩 프레임워크가 도시된다. 나아가, 조인트 양방향 깊이 업샘플링이 코딩 프레임워크에 도시되어 낮은 해상도 깊이 맵 시퀀스만이 인코딩되게 한다.

인코더 측에서, 원래의 깊이 맵 시퀀스는 낮은 해상도의 깊이 맵 시퀀스를 얻기 위해 먼저 다운샘플링된다. 이후 낮은 해상도의 깊이 맵 시퀀스는 예를 들어 H.264/AVC를 사용하여 종래의 비디오 코딩 기술을 통해 인코딩된다. 디코더 측에서, 낮은 해상도의 깊이 맵과 그 대응하는 비디오 프레임을 디코딩한 후에, 풀 해상도의 깊이 맵이 비디오 프레임으로부터 경계 정보를 사용하는 조인트 양방향 필터 업샘플링을 사용하여 생성될 수 있다. 이제 도 23을 참조하면 조인트 양방향 필터링의 프레임워크의 하이 레벨의 블록도가 도시된다.

인코더(2302)는 입력 깊이 시퀀스와 입력 비디오 시퀀스를 수신한다. 깊이 맵 다운샘플링 모듈(2304)은 깊이 시퀀스를 수신하고 그 해상도를 감소시킨다. 2개의 시퀀스는 이후 디코더(2308)로 송신되기 전에 각 종래의 비디오 인코더(2306)에 의해 인코딩된다. 그 내에서 신호는 종래의 비디오 디코더(2310)에 의해 디코딩된다. 디코딩된 다운샘플링된 깊이 시퀀스와 디코딩된 비디오 시퀀스는 조인트 양방향 필터에 의해 사용되어 깊이 맵을 업샘플링한다. 업샘플링된 깊이 맵, 다운샘플링된 깊이 시퀀스 및 비디오 시퀀스는 뷰 합성 모듈(2314)에서 사용되어 3차원 뷰를 생성한다. 인코딩(2302)과 디코딩/렌더링(2308)은 도 43과 도 44에 각각 도시된 송신 및 수신 시스템의 일부분으로 구현될 수 있으며, 그리고 각각 요소(4306)와 요소(4404)와 같은 변조기와 복조기의 사용을 수반할 수 있다.

인코더 측(2302)에서, 제안된 프레임워크에는 주로 2개의 단계가 있는데, 이는 깊이 맵 다운샘플링과 최종적인 낮은 해상도의 깊이 맵 시퀀스 인코딩이다. 두 단계는 종래의 방법이 사용될 수 있을 만큼 매우 단순하다. 제 1 단계{즉, 깊이 맵 다운샘플링(2304) 단계}에서, 선택될 파라미터가 2개 있다: 즉 다운샘플 스케일(N)(예를 들어, 2로, 4로 등에 의한 다운샘플링)과 다운샘플 필터. 나아가, 수직 방향과 수평 방향을 따른 다운샘플 스케일이 독립적으로 명시될 수 있으나 이하 설명에서는 사용되지 않는다. 이들 2개의 파라미터의 정확한 선택은 구현예마다 다를 수 있다. 여기서 나열된 방법은 예시를 위한 목적으로만 의도된 것이다.

다운샘플 스케일(N)에 대해, 가장 일반적으로 사용되는 설정은 (수평 방향과 수직 방향에서) 2 또는 4에 의한 다운샘플링과 같이 2의 멱수(power)이다. 다운샘플 스케일은 예를 들어 최대 코딩 효율을 달성하기 위하여 N 및 QP 설정의 다른 조합을 테스트 하는 것에 의해, 비트율 왜곡 최적화 공정을 위한 양자화 파라미터(QP)를 인코딩하는 것과 함께 고려될 수 있다.

다운샘플 필터에 대해, 양선형 웨이브릿 등과 같은 전통적인 필터는 업샘플링 공정과 컬러 비디오의 컨텐츠와는 독립적으로 사용될 수 있다. 한편, 다운샘플 필터는 또한 업샘플링 공정에 기초하여 구성될 수 있다.

제 2 단계에서, 다운샘플링된 깊이 맵 시퀀스는 종래의 비디오 인코더(2306)로 공급된다. 예를 들어, H.264/AVC는 다운샘플링된 깊이 맵 시퀀스를 인코딩하는데 사용될 수 있다.

디코더 측(2308)에서, 낮은 해상도 깊이 맵(S)은 먼저 종래의 비디오 디코더(2310)를 사용하여 디코딩될 수 있다. 디코딩된 낮은 해상도의 깊이 맵(S)을 업샘플링하는데 비디오 프레임으로부터 경계 정보를 이용하는 것이 특히 유리하다. S'로 표시된 풀 해상도의 깊이 맵을 생성하기 위해, 조인트 양방향 필터 업샘플링이 대응하는 재구성된 비디오 프레임에서 경계 정보를 사용하여 수행된다. 이 공정에서 블록 업샘플링 필터 블록(2312)에서 수행된다.

이제 도 24를 참조하면, 조인트 양방향 업샘플링을 사용하여 풀 해상도의 깊이 맵을 생성하는 블록 흐름도가 도시된다. 블록(2402)은 낮은 해상도의 깊이 맵과 그 대응하는 높은 해상도의 비디오 프레임을 입력으로 수신한다. 깊이 샘플 지수(p)는 블록(2402)에서 0으로 설정된다. 블록(2406)은 비디오 프레임으로부터 정보에 기초하여 조인트 양방향 필터를 사용하여 상세 깊이 샘플(S_p')을 생성한다. 생성될 풀 해상도의 깊이 맵(S')에서 깊이 샘플(p)에 대해 그 샘플은 다음과 같이 (조인트 양방향 필터 업샘플링으로) 계산된다:

여기서, N은 다운샘플링 인수이고, p와 q는 샘플 위치이고,

와

은 다운샘플링된 위치이고,

은 플로어 연산(floor operation)을 나타내며, S는 디코딩된 낮은 해상도의 깊이 맵이며, S'는 재구성된 풀 해상도의 깊이 맵이며, I_p와 I_q는 위치 (p, q)에서 비디오 프레임 내 픽셀이며, K_p는 정규화 인수이다.

수식 (7)에서, 주어진 샘플 위치(p)에서, 필터링된 출력(S'_p)은 ,

에 중심을 둔 범위(Ω) 내에 있는 위치(

)에서의 샘플의 가중된 평균이다. 가중치는 2개의 인수에 기초하여 결정되는데, 이 2개의 인수는 도메인 필터(f)에 의해 결정된 ,

와

사이의 거리와, 비디오 프레임에서 대응하는 샘플 값들 사이의 유사성, 즉 도메인 필터(g)에 의해 결정된 I_p와 I_q 사이의 유사성이다. 일반적으로, 도메인 필터는 위치(

)에서 먼 샘플에 대해서는 더 작은 가중치를 할당하는데, 즉 가중치는 거리(

)가 증가함에 따라 감소한다. 한편, 레인지 필터는 I_q와 덜 유사한 값을 갖는 샘플(I_q)에 대해서는 더 작은 가중치를 할당하는데, 즉 가중치는 I_p와 I_q 사이의 차이가 증가함에 따라 감소한다.

블록(2408)은 필터링할 샘플이 더 있는지를 결정한다. 그렇다면 블록(2410)은 샘플 지수(p)를 증분하고 처리를 블록(2406)으로 복귀한다. 그렇지 않다면 처리는 종료한다. 세분화된 깊이(S')가 획득된 후에 이는 가상 뷰를 합성하기 위해 디코딩된 비디오 시퀀스와 함께 도 23에서 뷰 합성 모듈(2314)에 공급된다.

풀 해상도의 깊이 맵은 조인트 양방향 필터 업샘플링을 통해 다운샘플링된 깊이 맵과 그 대응하는 비디오 프레임만을 사용하여 위에서 생성된다. 조인트 양방향 업샘플링이 다른 업샘플링 방법에 비해 개선된 기술이라 하더라도 업샘플링된 결과는 여전히 눈에 띄는 에러를 포함할 수 있다. 깊이 품질을 더 개선하기 위해, 원래의 깊이 맵과 업샘플링된 맵 사이 잔류값을 인코딩하는 깊이 맵 코딩에 인핸스먼트 층을 도입할 수 있다. 이 잔류값은 업샘플링된 깊이 맵에서 에러를 보상한다.

이제 도 25를 참조하면 잔류값을 포함하는 프레임워크를 도시하는 다이아그램이 도시된다. 도 25는 도 23으로부터 여러 성분을 포함하지만 또한 인핸스먼트 층을 가능하게 하는 성분을 더 포함한다. 감산기(2506)는 블록(2504)으로부터 업샘플링된 깊이 맵과 입력 신호 사이의 차이를 찾는다. 인핸스먼트 층 인코더(2508)는 이 정보를 사용하여 잔류값 정보를 인코딩하고 인핸스먼트 층을 디코더(2510)에 전송한다. 디코더(2510)에서 인햄스먼트 층 디코더(2512)는 인핸스먼트 층을 수신하며 이를 가산기/결합기(2514)에 제공한다. 가산기(2514)는 인핸스먼트 층과 조인트 양방향 필터 업샘플링 블록(2312)의 출력을 결합하여 개선된 업샘플링된 깊이 맵을 뷰 합성 모듈(2314)에 제공한다.

이제 도 26을 참조하면 인핸스먼트 층을 가지고 깊이 맵을 인코딩하는 블록 흐름도가 도시된다. 블록(2602)은 깊이 맵을 다운샘플링하고 블록(2604)은 다운샘플링된 깊이 맵을 인코딩한다. 이후 블록(2606)은 전술된 바와 같이 조인트 양방향 필터 업샘플링을 사용하여 풀 해상도의 깊이 맵을 생성한다. 이 업샘플링은 디코더에서 최종 업샘플링과 동일한 공정을 따르며 디코딩에서 생성된 깊이 맵과 동일할 수 있는 깊이 맵을 생성한다. 블록(2608)은 원래의 깊이 맵과 업샘플링된 깊이 맵 사이의 잔류값을 계산한다. 이 잔류값은 인핸스먼트 층 코딩을 갖는 블록(2610)에서 인코딩되어 예를 들어 스케일러블한 비디오 코딩을 사용하여 디코딩 품질을 개선할 수 있는 인핸스먼트 층을 생성한다. 인코딩된 다운샘플링된 깊이 맵과 깊이 맵 잔류값은 비트스트림에 포함될 수 있고 디코더로 송신될 수 있다.

이제 도 27을 참조하면 인핸스먼트 층을 가지고 깊이 맵을 디코딩하는 블록 흐름도가 도시된다. 블록(2702)은 다운샘플링된 깊이 맵을 디코딩한다. 블록(2704)은 조인트 양방향 필터 업샘플링을 사용하여 풀 해상도의 깊이 맵을 생성한다. 블록(2706)은 예를 들어 인핸스먼트 층으로부터 깊이 맵 잔류값을 디코딩한다. 블록(2708)은 이 잔류값을 블록(2704)에 의해 생성된 풀 해상도의 깊이 맵에 가산한다. 이 개선된 깊이 맵은 가상 뷰를 생성하기 위해 디코딩된 비디오 시퀀스와 함께 도 25에서 뷰 합성 블록(2314)에서 사용된다.

조인트 양방향 필터가 깊이 맵을 업샘플링하기 위해 여기에 제공되지만, 가중된 최소 제곱(WLS) 필터와 같은 다른 에지 보존 필터도 또한 업샘플링을 위해 사용될 수 있다는 것을 주지해야 할 것이다. 사용되는 필터에 상관없이, 이러한 실시예는 업샘플링을 위해 비디오 프레임으로부터 정보를 사용하여 인코딩 비트율이 단지 낮은 해상도의 깊이로만 감소되면서도 깊이 품질은 보존될 수 있게 한다.

조인트 삼방향 필터 업샘플링

에지를 보존하면서 코딩 결함을 억제하기 위해 본 발명의 원리에 따른 추가적인 필터링 기술이 이용가능하다. 아래서 기술된 특징들 중 하나는 필터 가중치를 계산하기 위해 대응하는 프레임에 있는 비디오 샘플들 중에서 유사성을 이용하는 것이다. 종래의 디블록킹 필터는 제안된 조인트 필터로 대체될 수 있다. 추가적으로, 인루프 필터는 디블록킹 필터와 조인트 필터를 사용하는 2단계 공정일 수 있다. 디블록킹 필터와 조인트 필터 사이의 적응적 선택이 또한 기술된다. 전술된 SD 모드가 에지 경계에서 여전히 에러를 가질 수 있지만, 삼방향 필터링(trilateral filtering)은 이 에러를 보정하는데 특히 유리하다.

깊이 맵은 종종 윤곽(contour)이라고 언급되는 잘못된 에지를 종종 가지고 있다. 이들 결함과 잘못된 에지는 예를 들어 코딩의 일부인 양자화로 인한 것일 수 있다. 이를 해결하기 위해 재구성된 깊이 맵이 깊이 맵에 대응하는 비디오로부터 정보를 고려하는 방식으로 필터링될 수 있다. 이 대응하는 비디오는 종종 동일한 잘못된 에지 또는 결함을 가는 것이 아닐 수 있으며 이것은 잘못된 에지 및/또는 결함의 일부를 감소시키기 위하여 재구성된 깊이 맵을 적절히 필터링하는데 사용될 수 있다. 이것은 일반적으로 원래의 깊이 맵에 보다 밀접하게 닮은 재구성된 깊이 맵의 필터링된 버전을 제공할 수 있다. 이 보다 밀접한 닮음은 일반적으로 재구성된 깊이 맵의필터링된 버전을 예를 들어 깊이 이미지 기반 렌더링(DIBR)에서와 같은 처리에 사용하기에 (필터링되지 않은 재구성된 깊이 맵보다) 더 적합하게 한다. 이 밀접한 닮음은 또한 일반적으로 재구성된 깊이 맵의 필터링된 버전을 깊이 맵으로부터 (또는 다른 깊이 맵으로부터) 다른 블록을 예측하는데 사용하기에 보다 적합하게 한다. 즉, 더 밀접한 닮음은 일반적으로 더 작은 잔류값을 제공하고 더 높은 코딩 효율을 제공한다. 재구성된 깊이 맵의 필터링된 버전을 예측자로 사용하는 이러한 마지막 특징이 이 필터링을 예를 들어 외부 후 처리 알고리즘이라고 하지 않고 "인루프(in-loop)"라고 언급하는 이유이다.

이제 도 28을 참조하면, 깊이 코딩을 위한 인루프 필터로서 조인트 양방향 필터를 도시하는 다이아그램이 도시된다. 이 필터는 아래 도 43에 대하여 설명된 비디오 전송 시스템(4300)에 도시된 바와 같이 인코더(4302)의 일부로 구현될 수 있다. 도 28은 도 6을 반영하는 것이지만 디블록킹 필터 대신에 인루프 필터(2802)를 가지고 SD 예측 모듈을 가지고 있지 않다. 비디오 참조 버퍼(614)는 정보를 인루프 필터(2802)에 제공하며 이 인루프 필터는 깊이 시퀀스와 함께 사용하여 깊이 맵을 필터링하고 업샘플링한다. 인루프 필터(2802)는 이후 업샘플링된 깊이 맵을 깊이 참조 버터(612)에 제공한다.

깊이 시퀀스는 입력되고 예측자는 감산기(601)에서 감산되어 잔류값을 형성한다. 이 잔류값은 이후 블록(602, 604)에서 변환되고 양자화된다. 양자화된 요소는 이후 블록(605)에서 엔트로피 코딩되어 비트스트림을 형성하며 나아가 역양자화되고 역변환되어 블록(606, 608)에서 디코딩된 잔류값을 형성한다. 디코딩된 잔류값은 적절한 예측자를 가지고 결합기(609)에서 가산되어 파티션이나 블록(예를 들어)에 대한 재구성된 깊이를 형성한다.

잔류값을 형성하기 위해 깊이로부터 감산되는 예측자는 블록(624)에서 결정된 코딩 모드에 따라 인트라 예측이나 변위 보상으로부터 오는 것으로 도시된다. 인트라 예측 블록은 생성된 재구성된 깊이를 저장하며 인트라 예측 모드에서 이들 재구성을 사용하여 코딩되고 있는 현재 영역(블록, 파티션 등)에 대한 예측자를 계산한다. 재구성은 필터링되고 필터링된 버전은 깊이 참조 버퍼(612)에 저장된다. 변위 모드에서 변위 추정 블록(618)은 (예를 들어) 현재 영역에 대한 움직임 벡터를 결정하는데 필요한 저장된 재구성을 액세스한다. 변위 보상 블록(620)은 또한 (예를 들어) 필요한 저장된 재구성을 액세스하며 결정된 움직임 벡터(예를 들어)를 적용하여 현재 영역에 대한 예측자를 찾는다.

(H.264/AVC에 있는 디블록킹 필터와 같은) 종래의 비디오 코덱에서 인루프 필터는 비디오 참조 버퍼(614)를 사용하는 인루프 필터(2802)로 교체된다. 인루프 필터(2802)는 인루프 필터가 깊이 및 비디오 정보를 사용하기 때문에 조인트 필터(joint filter)라고 한다. 비디오 참조 버퍼(614)는 비디오 프레임 내 샘플이 필터 가중치를 계산하는데 사용될 수 있도록 다이아그램에 추가된다.

이제 도 29를 참조하면, 깊이 디코딩을 위해 인루프 필터로서 사용되는 조인트 양방향 필터의 다이아그램이 도시된다. 이 필터는 아래 도 44에 대하여 설명된 비디오 수신 시스템(4400)에 도시된 바와 같이 디코더(4406)의 일부로 구현될 수 있다. 도 29는 도 11을 반영하는 것이나 디블록킹 필터 대신에 인루프 필터(2902)를 가지고 있고 SD 예측을 가지고 있지 않다. 비디오 참조 버퍼(1122)는 비디오 프레임을 인루프 필터(2902)에 제공하여 이로 하여금 디코딩된 깊이 맵을 생성할 수 있게 한다.

제안된 인루프 필터(2902)는 필터 가중치가 깊이 맵(S) 내 깊이 샘플들 중에서 근접성과 비디오 프레임(I)에 있는 나란히 배열된 샘플들 중에서 유사성에 의해 결정되는 "조인트 양방향 필터" 형태이다. "조인트 양방향 필터"라는 용어는 가중치가 깊이 맵(S)에 적용되는 동안 필터가 비디오 프레임(I)으로부터 입력을 가진다는 것을 말한다. 이 공정은 블록 인루프 필터(2902)에서 수행된다.

일반적으로, 필터는 p 주위 특정된 영역(종종 윈도우라고 언급됨)에 있는 인접 위치(q)에 대한 값을 고려하고 각 위치(q)에 대한 값에 가변 가중치를 적용하는 것에 의해 위치(p)에 대한 값을 대체하도록 동작한다. 필터 수식(equation)의 일반적인 형태는 각 위치(q)에 대한 가중된 값을 합산하고 이 합을 정규화하여 위치(p)에 대한 대체 값을 생성한다. 가중치는 첫째로 p와 q의 근접성에 기초하여 그리고 둘째로 위치(p, q)에 대응하는 비디오 샘플들 사이의 유사성에 기초하여 2개의 인수로 구성되어 제공된다. 이런 방식으로 가중치는 깊이 맵에서 잘못된 에지에 의한 영향을 받지 않는다. 나아가, 가중치는 종종 p와 다른 깊이를 가지는 샘플(q)을 나타내는 대응하는 비디오 값에 있는 에지에 의해 영향을 받는다. 예를 들어, 위치(q)가 p의 것과 큰 비디오 차이를 가지는 경우, q는 또한 큰 깊이 차이를 가질 수 있어 이에 따라 일반적으로 p의 깊이를 위한 대체로서 사용하기 위한 우수한 후보일 수 있다. 따라서 q에 대한 필터 가중치는 비디오 차이가 증가함에 따라 더 작아진다.

양방향의 일반적인 개관이 도 24에서 위에 도시된다. 공정은 디코더와 인코더 모두에서 수행될 수 있다. 수식 (7)에서, 주어진 샘플 위치(p)에 대해 필터링된 출력(S'_p)은 p에 중심을 둔 범위(Ω) 내 위치(q)에 있는 깊이 샘플의 가중된 평균이다. 범위(Ω)는 일반적으로 필터의 사이즈라고 언급되며 예를 들어, 3x3 또는 10x10 윈도우일 수 있다. 가중치는 2개의 인수에 기초하여 계산되는데, 이 2개의 인수는 도메인 필터(

)에 의해 결정된 p와 q 사이의 거리와, 비디오 프레임에서 대응하는 샘플 값들 사이의 유사성, 즉 레인지 필터(

)에 의해 결정된 I_p와 I_q 사이의 유사성이다. 일반적으로, 도메인 필터는 위치(p)로부터 먼 샘플에 더 작은 가중치를 할당하며, 즉 가중치는 거리(

)가 증가함에 따라 감소한다. 그리고 일반적으로 레인지 필터의 가중치는 I_p와 I_q 사이의 차이가 증가함에 따라 감소한다. 도메인 필터(f)와 레인지 필터(g)는 예를 들어 동일하거나 상이한 특성을 가지는 가우시안 필터일 수 있다. 그러한 경우에, 가우시안 필터는 p-q의 더 큰 (절대) 값에 대해 그리고 I_p-I_q의 더 큰 (절대) 값에 대해 더 작은 값을 제공할 것이다.

수식 (7)에서 수식 (1)에 있는 레인지 필터의 입력은 예를 들어 깊이 샘플들 사이의 차이, 즉

와는 반대로

라는 것이 주의해야 하며 다만 다른 실시예에서는 고려될 수 있다. 필터는 전체 길이 맵에 적용될 수 있다. 대안적으로, 필터는 국부적으로 적용될 수 있으며 예를 들어 에지 영역에만 적용될 수 있다.

필터링된 깊이 맵(S')이 얻어진 후에, 이것은 다른 깊이 맵에 대한 예측자로 사용하기 위해 인코더와 디코더에서 깊이 참조 버퍼 블록(612, 1120)에 각각 저장된다. 그리하여, 이것은 인루프 필터로 기술된다.

양방향 필터 이외에, 전술된 도메인 필터와 레인지 필터에 추가하여, 또 하나의 레인지 필터 인루프 필터링 공정을 포함하는 조인트 삼방향 필터를 사용하는 것도 가능하다. 이 추가적인 레인지 필터는 S에서 깊이 샘플 중에서 유사성을 고려한다. 이것은 또한 필터 가중치가 위치(p, q)들 사이의 깊이 차이에 따라 좌우되게 한다. 이것은 예를 들어 흑색 및 백색 스트라이프 벽과 같은 가변적인 비디오 값 그러나 공통적인 깊이 값을 가지는 영역에서 유리할 수 있다. 이러한 상황에서 비디오 차이에 기초한 필터 가중치 성분은 q에서의 깊이가 p에서의 깊이를 우수하게 대체할 수 있다 하더라도 작을 수 있다. 이 실시에에서, 깊이 차이에 기초한 필터 가중치 성분은 클 수 있으며 이것은 위치(q)에서의 깊이에 대해 전체 가중치를 증가시킬 수 있다.

인코더와 디코더 블록 다이아그램은 블록 "인루프 필터"에서 수행되는 조인트 삼방향 필터링 공정을 가지는 도 28 및 도 29에서와 같다. 필터링 공정의 흐름도도 또한 변치 않으나 다만 필터링 수식만이 다르다. 수식 (3)을 사용하는 대신에, 필터링된 깊이 샘플은 다음과 같이 계산된다:

부호는 달리 언급이 없으면 수식 (3)에서 전술된 바와 같다. 주어진 샘플 위치(p)의 필터링된 출력(S'_p)은 p에 중심을 둔 범위(Ω) 내 위치(q)에서의 깊이 샘플의 가중된 평균이다. 이제 조인트 삼방향 필터에 대해, 가중치는 3개의 인수에 기초하여 계산되며, 이 3개의 인수는 도메인 필터(

)에 의해 결정된 p와 q 사이의 거리와, 레인지 필터(

)에 의해 결정된 대응하는 샘플 값(I_p, I_q)들 사이의 유사성과, 다른 레인지 필터(

)에 의해 결정된 깊이 샘플 값(S_p, S_q)들 사이의 유사성이다. 일반적으로, 도메인 필터는 위치(p)에서 먼 샘플에 대해서는 더 작은 가중치를 할당한다. 레인지 필터(g^I)의 가중치는 I_p와 I_q 사이의 차이가 증가함에 따라 감소하며, 이와 유사하게 레인지 필터(g^s)의 가중치는 S_p와 S_q 사이의 차이가 증가함에 따라 감소한다.

상기 구현예와 다른 구현예의 필터는 업샘플링 및/또는 다운샘플링으로 동작하도록 적응될 수 있다. 하나의 이러한 적응은 입력으로 낮은 해상도의 깊이 맵과 높은 해상도의 비디오 프레임을 사용하는 수식 (7)과 도 24에 대하여 설명된 구현예와 유사하다. 이 적응은 깊이 샘플 값들 사이의 유사성에 대해 다른 레인지 필터를 포함하는 것이다. 이 구현에에서, 도메인 필터(함수 "f")와 제 2 도메인 필터(함수 "g^s") 모두가 p와 q가 아니라 p/N과 q/N에 의해 결정된 변수를 사용할 수 있다. 하나의 이러한 수식은 다음과 같다:

용어는 달리 언급되지 않으면 상기 수식 7과 수식 9에 대하여 설명된 것과 같다. 다른 구현예는 예를 들어 높은 해상도의 깊이 맵과 낮은 해상도의 비디오 프레임을 입력으로 사용할 수 있다.

수 개의 다른 도메인 필터와 레인지 필터 디자인이 양방향 필터링, 예를 들어 가우시안 필터링을 위해 강제 사용될 수 있으며, 이 필터는 특정 문제의 최적화에 기초하여 디자인될 수 있다. 모든 도메인 필터와 레인지 필터가 깊이 신호에 적합한 것은 아니다. 예를 들어, 가장 일반적인 가우시안 필터는 잘 작동하지 않는데 그 이유는 이것이 에지를 따라 일정 정도의 블러(blurring)를 유발할 수 있기 때문이며, 이것은 텍스처 이미지 노이즈 제거에서는 허용가능하나 깊이 코딩에서 이 블러는 렌더링된 뷰에 눈에 띄는 왜곡을 초래할 수 있다. 나아가, 이것이 인루프 필터로 깊이 디코더에 포함되므로 삼방향 필터링 복잡도를 고려하는 것이 중요하다. 하나의 구현예에서, 도메인 필터와 레인지 필터는 이진 필터로 선택되는데 이는 그 차이가 주어진 임계보다 더 클 때 필터 결과는 0이고 그렇지 않으면 필터 결과는 1이라는 것을 의미한다. 따라서, 필터링될 위치(p) 주위에, 도메인 필터는 픽셀에 동일한 가중치를 가지고 가능하게 평균화 공정에서 인접한 픽셀의 윈도우를 한정한다. 이 윈도우 내에서 2개의 레인지 필터는 S_p와 유사한 깊이 값(S_q)을 가지고 I_p와 유사한 이미지 픽셀 값(I_q)을 가지는 픽셀을 식별할 수 있다. 양방향 필터링에 비해, 삼방향 필터링은 대응하는 텍스처 비디오를 고려하여 더 나은 경계를 취할 수 있다.

상기 인코더와 디코더에서, 종래의 디블록킹 필터는 전체적으로 인루프 필터로서 조인트 필터로 대체된다. 디블록킹 필터, 예를 들어 H.264/AVC에서 인루프 필터는 특히 평평한 영역 내 MB 또는 서브-MB 경계를 따라 결함을 제거하게 예정된다. 한편, 조인트 필터는 깊이 경계를 보존/복원하도록 디자인되어 있다. 이들 충돌을 해결하기 위해, 2단계 인루프 필터, 즉 종래의 디블록킹 필터가 조인트 필터와 함께 수행되는 2단계 인루프 필터가 사용될 수 있다. 그러한 조합은 일반적으로 특정 시퀀스에 더 우수하지만 인루프 필터에 적용하는 다른 시퀀스가 더 우수할 수 있다.

도 28과 도 29의 인코더와 디코더는 변치 않게 유지되며 인루프 필터는 이제 디블록킹 필터링과 조인트 필터링을 모두 수행한다. 이제 도 30을 참조하면, 결합된 디블록킹 필터와 조인트 필터링 공정의 블록 흐름도가 도시된다. 블록(3002)은 재구성된 깊이 맵(S)과 그 대응하는 비디오 프레임(I)을 입력으로 수신한다. 블록(3004)은 깊이 맵(S)에 디블록킹 필터를 적용한다. 블록(3006)은 깊이 맵(p)에 루프를 시작하여 깊이 맵에서 모든 그러한 샘플을 체크한다. 블록(3008)은 비디오 프레임으로부터 정보를 사용하는 조인트 필터를 사용하여 필터링된 샘플 값(S'_p)을 계산한다. 블록(3010)은 깊이 샘플이 더 있는지를 결정한다. 그렇다면, 처리는 블록(3006)으로 돌아간다. 그렇지 않다면, 블록(3012)은 필터링된 깊이 맵(S')을 깊이 참조 버퍼에 송신하여 다른 깊이 맵을 위한 예측자로 사용한다.

디블록 필터링과 조인트 필터링의 순서는 교환될 수 있다는 것을 주지해야 할 것이다. 또한 종래의 디블록킹 필터와 제안된 조인트 필터 사이에 스위치를 구현하여 인루프 필터가 이를 적응적으로 선택할 수 있게 하는 것도 가능하다. 스위치는 도 28과 도 29에 각각 도시된 인코더와 디코더에 있는 "인루프 필터"에 포함된다. 이제 도 31을 참조하면, 디블록킹 필터와 조인트 필터 사이에 스위치가 도시된다. 재구성된 깊이 맵(S)과 그 대응하는 비디오 프레임(I)이 입력으로 블록(3102)에서 수신된다. 블록(3104)은 깊이 맵(S)에서 및/또는 비디오 프레임(I)에서 에지를 검출하며 에지를 가지거나 에지가 없는 것으로 각 MB를 표시한다. 깊이 맵(S)에서 각 MB에 대해 블록(3106)은 비디오 프레임에서 대응하는 MB와 그 공간적으로 인접한 MB들이 에지를 가지는지를 결정한다. 공간적으로 인접한 MB는 바로 상부와 좌측에 MB를 포함할 수 있다. 다른 실시예는 또한 상부와 우측에 있는 MB를 고려할 수 있다. 일반적으로, 이들 3개의 MB는 디블록킹 필터가 현재 MB에 적용될 때 처리되는 MB일 수 있다. 이것은 디블록킹 필터가 일반적으로 현재 MB의 좌측과 상부 경계의 주변 (양측에) 위치를 처리하기 때문이다. 만약 에지가 있다면, 블록(3106)이 조인트 필터를 MB에 적용한다. 만약 없다면, 블록(3106)이 종래의 디블록킹을 MB에 적용한다. 하나의 대안으로서, 예를 들어, 인루프 필터가 인접한 블록이 에지를 가지는 지에 상관없이 현재 MB가 에지를 가지는 경우에만 사용될 수 있다.

양방향 필터와 삼방향 필터들이 예시적인 실시예로 제시되었으나, 비디오 프레임으로부터 샘플 정보를 사용하는 개념은 가중된 최소 제곱(WLS) 필터와 결함 제거 필터와 같은 다른 에지 보존 노이즈 제거 필터에 적용될 수 있다는 것을 주지해야 할 것이다. 이제까지, 가중치들이 비디오 프레임에서 샘플 값들에 기초하여 계산된 깊이 코딩을 위한 인루프 필터가 설명된다. 다른 데이터 소스로부터 정보를 사용하여 필터 가중치를 결정하는 동일한 개념이 또한 일부 다른 유형의 컨텐츠를 인코딩하는 것으로까지 확장될 수 있다. 예를 들어, 그레이 스케일 노출 맵이 종래의 이미지와 함께 코딩될 수 있는 하이 다이나믹 레인지(HDR : high dynamic range) 이미지에서, 조인트 필터는 종래의 이미지의 이미지 샘플 값들에 기초하여 계산된 필터 가중치를 가지고 압축된 노출 맵에 적용될 수 있다.

도 32와 도 33은 "H.264/AVC"가 디블록킹 필터를 가지는 H.264/AVC 인코더를 나타내고 "제안된 알고리즘"은 H.264/AVC에 인루프 필터로 디블록킹 필터를 대체하기 위해 제안된 삼방향 필터를 사용하는 것을 나타내는 각 테스트 비디오의 깊이 코딩을 위한 R-D(비트율 왜곡) 커브를 도시한다. 2개의 R-D 커브에서, 비트율은 뷰 합성(즉, 뷰 1을 렌더링할 때 뷰 0과 뷰 2의 압축된 깊이 맵 및 텍스처 비디오 시퀀스)을 위해 사용되는 압축된 텍스처 비디오 및 깊이의 총 비트율을 나타낸다. 깊이 맵 시퀀스가 직접 보는 대신에 렌더링하는데 사용되므로, 피크 신호대 잡음 비율이 압축된 비디오/깊이 시퀀스를 사용하는 렌더링된 뷰와, 압축되지 않은 비디오/깊이 시퀀스를 사용하는 렌더링된 뷰 사이에 계산된다. 시뮬레이션 결과를 보면 제안된 삼방향 필터는 동일한 인코딩 비트율에서 렌더링된 비디오에 대해 약 0.8dB의 이득을 달성하고 동일한 렌더링된 품질에 대해 약 10% 비트율 절감을 달성한다는 것을 알 수 있다.

조인트 필터링에서 적응적 선택

전술된 방법에 대한 하나의 대안으로서, 비디오 프레임과 깊이 맵에 2개의 레인지 필터의 적응적 선택/조합이 구현될 수 있다. 이러한 하나의 대안은 이하 상황에서 특히 유리할 수 있다: 가변적인 휘도/색차(따라서 비디오 프레임에서 에지를 나타내는)를 가지는 대상에 대해, 비디오 프레임의 레인지 필터는 대응하는 깊이 맵에는 실제 에지가 없는 동안 작은 가중치를 생성하는 것으로 예상된다. 그 결과, 최종 가중된 평균 공정에서 일부 유리한 깊이 샘플에 대한 기여가 감소할 수 있다. 그러나, 아래에 설명된 인루프 필터링 방법은 유리한 방식으로 이 상황을 해결할 수 있다.

인루프 필터링 방법은 에지를 보존하면서 코딩 결함을 억제하는 깊이 코딩을 위해 사용된다. 조인트 필터링 공정의 일 측면은 깊이 맵에서의 샘플들 사이의 유사성과 그 대응하는 비디오 샘플들 중에서 유사성의 적응적 선택/조합이다.

하나의 인루프 필터는 필터 가중치가 깊이 맵(S)에서 깊이 샘플 중에서의 근접성과, 깊이 맵(S)에서 깊이 샘플들 중에서의 유사성 및 비디오 프레임(I)에서 나란히 배열된 샘플들 중에서의 유사성 사이의 적응적 선택에 의해 결정되는 "양방향 필터"의 형태이다. 적응적 선택은 필터링될 위치 주위 깊이 샘플들의 변동을 측정하는 것에 의해 결정된다. 그 상세한 사항은 단계들로 기술될 것이다. 이 공정은 도 28과 도 29에 있는 블록 "인루프 필터"에서 수행된다.

이제 도 34를 참조하면, 적응적 선택을 가지는 양방향 필터링이 도시된다. 블록(3402)은 재구성된 깊이 맵(S)과 그 대응하는 비디오 프레임(I)을 입력으로 수신한다. 블록(3404)은 깊이 맵(S)에 있는 깊이 샘플(p)의 전부에 걸쳐 루프를 시작한다. 블록(3406)은 깊이 샘플(p) 주위에서의 변동 측정(V)을 얻는다. 블록(3408)은 그 변동 측정을 사용하여 적응적 조인트 필터를 사용하여 필터링된 샘플 값(S'_p)을 계산한다. 필터링된 샘플 값은 다음과 같이 계산된다:

여기서 p와 q는 샘플 위치이며, S는 인루프 필터링 전에 재구성된 깊이 맵이며, S'는 필터링된 깊이 맵이며, I_p와 I_q는 위치(p, q)에서 비디오 프레임에 있는 픽셀이며, K_p는 정규화 인수이며,

는 Ω 내 깊이 샘플을 위한 변동 측정이다.

수식 (10)에서, 주어진 샘플 위치(p)에 대해, 필터링된 출력(S'_p)은 p에 중심을 둔 레인지(Ω) 내 위치(q)에서의 깊이 샘플의 가중된 평균이다. 가중치는 2개의 인수에 기초하여 계산된다. 첫 번째 항은 p와 q 사이의 거리에 기초하여 가중치를 계산하는 도메인 필터(

)이다. 일반적으로, 도메인 필터는 위치(p)에서 먼 샘플에 대해서 더 작은 가중치를 할당하는데, 즉 가중치는 거리(

)가 증가함에 따라 감소한다. 두 번째 항은 2개의 레인지 필터(

,

) 사이에 적응적 선택이다. 일반적으로, 레인지 필터(g^I)의 가중치는 I_p 와 I_q 사이의 차이가 증가함에 따라 감소하며, 이와 유사하게 레인지 필터(g^s)의 가중치는 S_p와 S_q 사이의 차이가 증가함에 따라 감소한다.

적응적 선택은 Ω 내 깊이 샘플에 대해 변동 측정(V)에 의해 결정된다. 변동이 클 때에는 Ω에 에지(들)이 있을 가능성이 있으므로, 양방향 필터는 대응하는 비디오 프레임에서 에지 정보를 사용하게 필터 가중치를 계산하도록 g^I를 선택할 수 있다(조인트 양방향 필터링). 한편, 변동이 작은 경우에는 Ω에 에지가 없을 가능성이 더 높으므로, 양방향 필터는 대응하는 비디오 프레임 내 휘도/색차의 변화가 필터링 결과에 영향이 없게 필터 가중치(종래의 양방향 필터링)를 계산하도록 g^s을 선택할 수 있다. 수식 (10)에 대해 고려될 수 있는 변동 측정(V)들은 여러 개 있다. 이하는 이러한 변동 측정들의 예들이다:

여기서,

는 S_q의 저역통과 필터링된 버전이다.

블록(3410)은 깊이 샘플들 모두가 필터링되었다면 루프를 종료한다. 그렇지 않다면, 처리는 그 다음 깊이 샘플(p)에서 블록(3404)으로 돌아간다. 만약 모든 깊이 샘플이 필터링되었다면, 필터링된 깊이 맵(S')은 블록(3412)에서 깊이 참조 버퍼에 추가된다. 필터링된 깊이 맵(S')이 얻어진 후에 이는 다른 깊이 맵을 위한 예측자로 사용하기 위해 도 28과 도 29에서 "깊이 참조 버퍼" 블록에 저장될 수 있다 (따라서 이것은 인루프 필터이다).

전술된 적응적 선택 대신에, 2개의 레인지 필터(g^I, g^s)는 블렌딩 함수(α)와 적응적으로 조합될 수 있다. 상기 수식 (10)을 사용하는 대신에, 블록(3208)은 다음 식을 사용한다:

부호는 전술된 바와 같다. 3개의 필터(f, g^I 및 g^s)의 특성은 또한 전술된 바와 같다.

블렌딩 함수(α)는 영역(Ω) 내 깊이 맵에 대해 변동 측정에 의해 결정될 수 있다. 상기 적응적 선택과 유사하게, 결합된 가중치들이 변동이 더 큰 때에는 더 큰 α를 사용하여 대응하는 비디오 프레임에 있는 에지에 더 많이 의존하도록 하는 것이 바람직하다. 이와 유사하게 변동이 더 작은 때에는 더 작은 α를 사용하여 결합된 가중치들에서 비디오 프레임의 효과가 감소하도록 하는 것이 바람직하다. 다른 α는 이들 특성을 가지게 구성될 수 있다. 일부 예시적인 α 함수는 다음과 같다:

수식 (15) 및 수식 (16)에 있는 ε은 변동 측정에 대한 α의 민감도를 제어한다.

도 35 및 도 36은 도 33(a)에서는 ε=0.5인 경우 그리고 도 33(b)에서는 ε=5인 경우에 대해 α의 변화를

으로 도시한 것이다. x 가 증가할 때, 블렌딩 함수(α)는 1에 접근하는 것을 볼 수 있다. 따라서 수식 (14)에서 결합된 가중치는 레인지 필터(g^I)에 의해 보다 더 지배될 수 있다. 나아가, 더 큰 ε는 블렌딩 함수를 변동 측정에 더 민감하게 할 수 있다.

이제 도 37을 참조하면, 2단계 인루프 필터 공정이 디블록킹 필터를 가지고 적응적 필터링을 수행하는 것으로 도시된다. 블록(37)은 재구성된 깊이 맵(S)과 그 대응하는 비디오 프레임(I)을 입력으로 수신한다. 블록(3704)은 S에 디블록킹 필터를 적용한다. 이후 블록(3706)은 깊이 맵(S)에 있는 깊이 샘플(p)들 전부에 걸쳐 루프를 시작한다. 블록(3708)은 깊이 샘플(p) 주위의 일부 범위에서 변동 측정(V)을 얻는다. 이 변동 측정을 사용하여 블록(3710)은 적응적 조인트 필터를 사용하여 필터링된 샘플 값(S_p')을 계산한다. 적응적 조인트 필터는 전술된 바와 같이 적응적 선택 또는 조합을 사용할 수 있다. 블록(3712)은 이후 필터링할 깊이 샘플이 더 있는지 결정한다. 그렇다면, 처리는 블록(3406)으로 돌아간다. 그렇지 않다면, 블록(3714)은 필터링된 깊이 맵을 깊이 참조 버퍼에 넣어둔다.

이제 도 38을 참조하면, 디블록킹 필터와 적응적 조인트 필터 사이의 적응적 선택을 하는 인루프 필터링이 도시된다. 블록(3802)은 재구성된 깊이 맵(S)과 그 대응하는 비디오 프레임(I)을 입력으로 수신한다. 블록(3804)은 깊이 맵(S) 및/또는 비디오 프레임(I)에서 에지를 검출한다. 블록(3804)은 에지를 가지거나 에지가 없는 것으로 각 MB를 표시한다. 깊이 맵의 각 MB에 대해 비디오 프레임에서 대응하는 MB와 공간적으로 인접한 MB가 에지를 가진다면, 블록(3806)은 전술된 바와 같이 적응적 선택이거나 적응적 조합일 수 있는 적응적 조인트 필터를 적용한다. 에지가 없다면 블록(3806)은 종래의 디블록킹 필터를 적용한다.

필터 상세

도메인 필터는 필터링 공정에서 사용될 샘플(Sⁿ _q)이 있는 위치(p)에 중심을 둔 공간적으로 인접한 영역을 한정한다. 이 도메인 필터는 또한 p와의 거리에 기초하여 그 가중치를 결정한다. 일반적으로, 가중치는 p로부터 먼 위치에 대해서는 더 작아진다. 예시를 위해 사이즈 5x5의 윈도우를 가지는 도메인 필터 예가 도시되며, p와 q 사이의 2D 유클리드 거리에서 지수적으로 감쇠하는 필터 가중치를 가지고 있다. 예를 들어, 가중치는

로 감쇠할 수 있다. 가중치는 (2,2)에서 포인트(p)에 대해 아래에 제공된다:

추정된 깊이 맵의 깊이 값은 일반적으로 성기므로(즉, 이들은 특정 깊이 레벨로 클러스터링 되는 경향이 있다), 단순한 하드 임계치를 갖는 레인지 필터(

)가 사용될 수 있다: 깊이 값(S_q)이 S_p에서 특정 범위 내에 있다면, 깊이 값은 가중치 1이 할당되고; 그렇지 않으면 가중치는 0이다.

제 2 레인지 필터(

)는 단지 휘도 채널 대신에 색상(RGB) 도메인에서 픽셀 값 차이를 고려한다. 그 색상이 매우 다르지만 매우 유사한 휘도를 가지는 2개의 영역을 가지는 것이 가능하다. 단지 휘도 거리만이 고려된다면 레인지 필터는 2개의 측면에 다른 색상을 가지게 그러한 에지에 걸쳐 처리할 수 있다. 레인지 필터(g^I)는 R, G 및 B 채널에서 각각 동작하는 최대 3개의 커널(kernel)의 조합이다. 각 커널에 대해 가중치는 그 차이에 따라 지수적으로 감쇠하며 이는 다음과 같이 요약될 수 있다:

여기서 R_p 및 R_q는 특정 픽셀과 주어진 픽셀의 적색 값을 각각 나타내고, G_p 및 G_q는 녹색 값을 나타내고, B_p 및 B_q는 청색 값을 나타내며, σ^R, σ^G, 및 σ^B 는 적색, 청색 및 녹색에 대한 적응적 감쇠 인수를 각각 나타낸다.

레인지 필터 디자인에서 색상 정보를 사용하는 외에, 조명에 반사 모델을 고려하는 것도 가능하다: 밝은 색상을 갖는 영역에 대해 휘도는 흑색을 갖는 영역에 비해 다른 조명 하에서 상당히 더 달라질 수 있다. 더 검은 영역에서 동일한 절대값 차이라도 더 밝은 영역에서보다 다른 대상을 나타내는 것으로 더 잘 보인다. 따라서, 필터 가중치는 더 검은 영역에 대해 더 빠르게 감쇠하여야 한다. 이 예에서, 별도의 적응적 감쇠 인수(σ)는 대응하는 채널의 p에서의 색상 값에 기초하여 상기 수식에서 사용된다. 색상 값(0?255)과 σ 사이의 관계는 도 39에 도시된다. 예를 들어, 픽셀(p)이 적색 채널 값(R_p 70)을 가지는 경우, 대응하는 σ^R 은 3일 수 있다.

4개의 다른 감쇠 함수는 도 40에 제공된다. 더 작은 샘플 값을 가지는 픽셀에 대해 감쇠 함수는 더 빠르게 떨어지며 이에 따라 매우 유사한 값을 가지는 샘플만이 필터링 공정에 기여할 수 있다.

예시를 위하여, 이하 2개의 기준이 레인지 필터(g^I)가 유리하지 않게 결정되지 않고 상기 다중 필터링 공정에 수반되지 않도록 설정된다:

1. 비디오 프레임에서 (도메인 필터에 의해 한정된 바와 같이) 5x5 윈도우 내에서, 모두 3개의 색상의 변동이 주어진 임계값보다 더 작으면, 이의 인접한 영역은 균일한 것으로 결정된다. 레인지 필터(g^I)는 사용되지 않는다.

2. 또는 이 5x5 윈도우 내에서 모두 3개의 채널의 최대 값이 주어진 임계값보다 더 작다면, 이의 인접한 영역은 에지를 검출하기 위해 너무 어두운 것으로 결정된다. 레인지 필터(g^I)가 사용되지 않는다.

위에서 나열된 필터 커널 디자인은 제안된 필터링 접근법의 일반적인 특성을 설명하기 위한 단지 일부 예일 뿐이라는 것이 주목되어야 한다. 동일한 일반적인 아이디어에 기초하여, 가우시안 형상, 라플라시안 형상을 통한 필터링, 다른 색상 도메인(HSV, YUV, YCbCr 등)에 대한 필터링, 및 적응적인 감쇠 함수를 달성하는 대안적인 방법과 같은 다른 필터 디자인이 용이하게 확장될 수 있다.

깊이 에지와 비디오 에지들 사이에 오정렬이 종종 너무 크기 때문에, 반복적인 필터링을 사용하는 것이 가능하다: 각 반복시에 인접한 샘플들이 가중된 평균 결과를 얻기 위해 사용된다. 더 큰 에러에 대해서는 더 많은 반복이 이를 보정하기 위해 요구된다. 도메인 필터 윈도우 사이즈와 반복의 횟수 사이에는 트레이드오프 관계가 존재하며: 즉 더 큰 윈도우 사이즈에서 더 많은 샘플들이 각 반복시에 고려되어, 에러 보정의 능력을 잠재적으로 증가시키고 이에 따라 필요한 반복의 횟수를 감소시킨다. 그러나, 증가된 윈도우 사이즈에서는 멀리있어 현재 샘플과 상관성이 적을 것 같은 픽셀들이 포함될 수 있다. 이것은 덜 신뢰할만한 필터링 결과를 초래할 수 있다. 이 충돌을 해결하는 하나의 방법은 사용자로 하여금 컨텐츠와 응용에 따라 윈도우 사이즈와 반복 횟수를 설정할 수 있게 하는 것이다.

상기 필터링 공정에 대해 적어도 2개의 가능한 사용 케이스가 존재한다: 즉 더 용이하게 인코딩될 수 있는 깊이 맵을 생성하기 위해 인코더의 일부로서 필터링을 사용하는 것 또는 깊이 맵을 사용하여 임의의 응용을 위해 더 좋은 깊이 품질을 달성하기 위해 깊이 추정 방법의 일부로서 필터링을 사용하는 것이다. 추가적인 뷰의 렌더링/합성을 수행하기 전에 이들 깊이 맵을 개선하기 위해 예를 들어 수신되고 디코딩된 깊이 맵에 필터링된 공정을 사용하는 것과 같은 다른 사용 케이스가 존재한다는 것도 주지해야 한다.

인코더의 일부로서 필터링을 할 때, 입력 추정된 깊이가 필터링되고 이후 인코딩된다. 더 적은 잘못 윤곽과 더 좋은 정렬된 잘못 에지를 가지는 것에 의해, 필터링 후 깊이 맵은 렌더링 품질을 보존하면서 보다 용이하게 인코딩될 수 있다. 도 41은 다방향(ML) 필터링(4106)을 포함하는 새로운 인코더(4102)와 원래의 인코더(4114)의 비교 구조를 도시한다. 피크 신호 대 잡음 비(PSNR)를 위한 벤치마크(benchmark)는 압축되지 않은 깊이 맵을 사용하여 합성된 비디오이다.

원래의 인코더(4114)는 비디오 인코딩(4104)에서 캡쳐된 비디오를 인코딩하며 깊이 인코딩 모듈(4108)에서 추정된 깊이를 인코딩한다. 이들은 이후 블록(4110)에서 디코딩되고 1D 모드에서 동작하는 뷰 합성 참조 소프트웨어(VSRS : View Systhesis Reference Software) 블록(4112)에서 처리된다. 이것은 합성된 비디오를 생성하며, 이 합성된 비디오는 다른 합성된 비디오와 비교하여 PSNR를 계산하는데 사용된다. ML 인코더(4102)는 동일한 공정을 따르나, 깊이 인코딩 전에 ML 필터링 모듈(4106)을 추가한다. 별도의 브랜치가 예측을 위하여 인코딩된 비디오 신호를 제공하기 위해 사용된다.

다른 대안은 추정된 깊이 맵을 대체하기 위해 필터링된 깊이 맵을 사용하는 것이다. 다시 말해, 깊이 축정을 위한 스테레오 매칭 후에 추정된 깊이 맵은 상기에서 제안된 필터링 방법들 중 하나 이상의 방법으로 처리되어 더 좋은 품질을 생성할 수 있다. 이 시나리오에서, 이들 필터링된 깊이 맵은 코딩과 렌더링을 위한 입력으로 취해진다. 도 42는 코딩을 위해 다중 뷰 플러스 깊이(MVD) 입력의 다른 세트를 사용하는 비교 구조를 도시한다.

블록(4200)은 ML 필터링 없는 입력을 나타낸다. 캡쳐된 비디오는 비디오 인코딩 블록(4206)에서 인코딩되는 반면, 추정된 깊이는 비디오 인코딩(4206)의 결과를 사용하여 깊이 인코딩(4208)에서 인코딩된다. 이들 인코딩된 신호는 원래의 깊이의 코딩 율로 블록(4210)에서 디코딩된다. VSRS_1D 블록(4212)은 디코딩된 신호를 사용하여 합성된 비디오를 생성한다. 상부 트랙은 하부 트랙을 반영하는 것이나, 블록(4202)은 ML 필터링을 사용하여 추정된 깊이를 처리한다. 깊이 인코딩(4208)은 필터링된 깊이를 인코딩하며, 이 인코딩된 필터링된 깊이는 후속적으로 ML 필터링된 깊이의 코딩 율로 블록(4210)에 의해 디코딩된다.

이제 도 43을 참조하면, 전술된 특징과 원리를 적용할 수 있는 비디오 전송 시스템/장치(4300)가 도시된다. 비디오 전송 시스템(4300)은 예를 들어 위성, 케이블, 전화선 또는 지상파 방송과 같은 여러 매체들 중 어느 하나를 사용하여 신호를 송신하기 위한 예를 들어 헤드엔드 또는 전송 시스템일 수 있다. 이 전송은 인터넷이나 일부 다른 네트워크 상에서 제공될 수 있다. 비디오 전송 시스템(700)은 예를 들어 비디오 컨텐츠 및 깊이를 생성하여 전달할 수 있다.

비디오 전송 시스템(4300)은 인코더(4302)와 인코딩된 신호를 전송할 수 있는 전송기(4304)를 포함한다. 인코더(4302)는 이미지와 깊이 정보를 모두 포함할 수 있는 비디오 정보를 수신하며 이 비디오 정보에 기초하여 인코딩 신호(들)를 생성한다. 인코더(4302)는 예를 들어 전술된 인코더들 중 하나일 수 있다. 인코더(4302)는 예를 들어 저장이나 전송을 위해 구조화된 포맷으로 여러 정보를 수신하고 조립하는 조립 유닛을 구비하는 서브 모듈을 포함할 수 있다. 여러 정보는 예를 들어 움직임 벡터, 코딩 모드 표시기 및 구문 요소들과 같은 예를 들어 코딩되거나 코딩되지 않은 비디오, 코딩되거나 코딩되지 않은 깊이 정보 및 코딩되거나 코딩되지 않은 요소들을 포함할 수 있다.

전송기(4304)는 예를 들어 인코딩된 화상 및/또는 이와 관련된 정보를 나타내는 하나 이상의 비트 스트림을 가지는 프로그램 신호를 전송하도록 적응될 수 있다. 일반적인 전송기는 예를 들어 에러 정정 코딩을 제공하는 것, 신호에 데이터를 인터리빙하는 것, 신호에서 에너지를 랜덤화하는 것 및 변조기(4306)를 사용하여 신호를 하나 이상의 반송파에 변조하는 것 중 하나 이상과 같은 기능을 수행한다. 전송기(4304)는 안테나(미도시)를 포함하거나 안테나와 인터페이스할 수 있다. 나아가, 전송기(4304)의 구현은 변조기를 포함하거나 이로 제한될 수 있다.

이제 도 44를 참조하면, 전술된 특징과 원리를 적용할 수 있는 비디오 수신 시스템/장치(4400)가 도시된다. 비디오 수신 시스템(4400)은 예를 들어, 위성, 케이블, 전화선 또는 지상파 방송과 같은 여러 매체를 통해 신호를 수신하도록 구성될 수 있다. 이 신호는 인터넷이나 일부 다른 네트워크를 통해 수신될 수 있다.

비디오 수신 시스템(4400)은 예를 들어, 셀폰(cell-phone), 컴퓨터, 셋탑 박스, 텔레비전 또는 인코딩된 비디오를 수신하고 예를 들어 디코딩된 비디오를 제공하여 사용자에 디스플레이하거나 저장할 수 있는 다른 디바이스일 수 있다. 따라서, 비디오 수신 시스템(4400)은 그 출력을 예를 들어 텔레비전, 컴퓨터 모니터, 컴퓨터(저장, 처리 또는 디스플레이용) 또는 일부 다른 저장, 처리 또는 디스플레이 디바이스에 제공할 수 있다.

비디오 수신 시스템(4400)은 비디오 정보를 포함하는 비디오 컨텐츠를 수신하고 처리할 수 있다. 비디오 수신 시스템(4400)은 예를 들어 이 애플리케이션의 구현에서 설명된 신호와 같은 인코딩된 신호를 수신할 수 있는 수신기(4402)와 수신된 신호를 디코딩할 수 있는 디코더(4406)를 포함한다.

수신기(4402)는 예를 들어 인코딩된 화상을 나타내는 복수의 비트스트림을 가지는 프로그램 신호를 수신하도록 적응될 수 있다. 일반적인 수신기는 예를 들어 변조된 및 인코딩된 데이터 신호를 수신하는 것, 복조기(4404)를 사용하여 하나 이상의 반송파로부터 데이터 신호를 복조하는 것, 신호에서 에너지를 역랜덤화하는 것, 신호에 데이터를 디인터리빙하는 것 및 신호를 에러 보정 디코딩하는 것 중 하나 이상과 같은 기능을 수행한다. 수신기(4402)는 안테나(미도시)를 포함하거나 안테나와 인터페이스할 수 있다. 수신기(4402)의 구현은 복조기를 포함하거나 이로 제한될 수 있다.

디코더(4406)는 비디오 정보와 깊이 정보를 포함하는 비디오 신호를 출력한다. 디코더(4406)는 예를 들어 앞서 상술된 디코더들 중 하나일 수 있다.

시스템(4300)에의 입력은 도 43에서 "입력 비디오"로 리스트 되어 있고 시스템(4400)으로부터의 출력은 도 44에서 "출력 비디오"로 리스트 되어 있다. 적어도 이들 구현예에서, 이들은 3차원 뷰를 생성하는데 사용하기 위한 깊이 정보를 포함하는 비디오를 말한다는 것은 자명한 것이다.

본 발명의 원리는 주어진 위치에 대한 "비디오"를 사용한다. "비디오"라는 말은 여러 비디오 성분이나 그 조합들 중 임의의 것을 포함할 수 있다. 그러한 성분이나 그 조합은 예를 들어, 휘도, 색차, Y(YUV 또는 YCbCr 또는 YPbPr에서), U(YUV에서), V(YUV에서), Cb(YCbCr에서), Cr(YCbCr에서), Pb(YPbPr에서), Pr(YPbPr에서), 적색(RGB에서), 녹색(RGB에서), 청색(RGB에서), S-비디오 및 이들 성분들 중 어느 하나의 네거티브나 포지티브를 포함한다.

색차 신호는 종종 서브샘플링되는데 이는 색차 데이터의 배열로 적절히 지수화(index)하기 위해 p와 q를 분할할 것을 요구할 수 있다. 예를 들어, 색차 신호가 4에 의해 서브 샘플링되어 4개의 픽셀 2x2 영역에 대해 하나의 값을 제공하면, p와 q는 각각 색차 배열로 적절히 지수화하기 위해 2에 의해 분할될 필요가 있을 수 있다.

이들 여러 성분들 각각은 주어진 위치의 깊이 값을 가중하는데 유리한 정보를 제공할 수 있다. 예를 들어, p와 q의 색상 및/또는 휘도는 유사한 값을 가질 수 있고, 참된 깊이는 깊이 맵에서 p와 q 사이에 잘못된 윤곽이 존재하더라도 p와 q에서 동일할 수 있다. 일부 상황에서, 색상은 예를 들어 색이 일정할 때(그리고 참된 깊이일 때)와 같은 상황에서 보다 유리할 수 있으나 휘도는 변한다. 일부 상황에서 휘도는 예를 들어 휘도가 일정할 때(그리고 참된 깊이일 때)와 같은 상황에서 보다 유리할 수 있으나 색상은 변한다. 추가적으로, 여러 상황에서, 특정 색상이 보다 가중되게 주어진다. 예를 들어, 일 구현예에서, 청색 성분이 하늘 영역에 사용되고 녹색 성분이 잔디 영역에 사용된다.

다른 구현예들은 주어진 픽셀 위치에 대해 복수의 비디오 성분을 고려하여 여러 방식으로 복수의 비디오 성분을 결합한다. 예를 들어, 하나의 구현예는 3개의 비디오 성분을 고려하여 3개의 잠재 가중 인수를 생성하며 최종 가중 인수로 3개의 가중 인수의 평균을 사용한다. 다른 구현예는 3개의 비디오 성분을 고려하며 이는 3개의 잠재 가중 인수를 생성하여 최종 가중 인수로 3개의 가중 인수의 평균을 사용한다. 다른 구현예는 3개의 비디오 성분을 고려하여 3개의 잠재 가중 인수를 생성하여 최종 가중 인수로서 서로 가장 근접한 2개의 잠재 가중 인수의 평균을 사용한다. 이 마지막 구현예는 외진 잠재 가중 인수가 잘못된 정보를 생성하면 이를 무시할 것을 고려한다.

특정 특징과 측면을 가지는 하나 이상의 구현예들이 본 원리에 의해 제공된다. 특히 가중치가 깊이 맵에서의 에지 정보와 그 대응하는 비디오 프레임의 적응적 선택/조합에 의해 결정되는 것인 깊이 코딩을 위한 인루프 필터가 제시된다. 다른 데이터 소스로부터 정보를 적응적으로 사용하여 필터 가중치를 결정하는 동일한 하이 레벨의 아이디어는 또한 다른 유형의 컨텐츠를 인코딩하는 것으로 확장될 수도 있다. 예를 들어, 그레이 스케일 노출 맵이 종래의 이미지와 함께 코딩될 수 있는 하이 다이나믹 레인지(HDR) 이미지에서, 적응적 조인트 필터가 이미지 샘플 값에 기초하여 계산된 필터 가중치를 가지고 압축된 노출 맵에 적용될수 있다. 나아가, 대응하는 비디오 이미지에서 에지와 에지를 더 잘 정렬하기 위해 깊이 맵을 필터링하는 것과 관련된 여러 구현예들이 제공된다. 그러나, 이들 구현예들과 추가적인 애플리케이션의 변형이 본 개시 내용 내에서 고려되고 기술된 구현예들의 특징과 측면이 다른 구현예들에 적용될 수 있다.

예를 들어, 본 출원에 기술된 개념과 구현예는 깊이 맵 뿐만 아니라 디스패리티(disparity) 맵에도 적용될 수 있다. 디스패리티 맵에서, 전경 대상(foreground object)이 일반적으로 배경 대상과는 다른 디스패리티 값을 가질 수 있고 이에 에지는 또한 디스패리티 맵에서 명백히 보일 수 있다. 본 발명의 원리는 또한 다른 유형의 데이터의 코딩 및/또는 코딩 비디오의 문맥에서도 사용될 수 있다. 추가적으로, 이들 구현예와 특징은 표준 문맥에 사용되거나 표준 문맥에서 사용하기 위해 적응될 수도 있다. 수 개의 이러한 표준은 H.264/MPEG-R AVC(AVC), 다중 뷰 코딩(MVC)을 위한 AVC의 확장, 스케일러블한 비디오 코딩(SVC : scalable video coding)을 AVC의 확장, 및 3D 비디오 코딩(3DV) 및 고성능 비디오 코딩(HVC : High-Performance Video Coding)을 위한 제안된 MPEG/JVT 표준이 있으나, 다른 표준(종래 또는 차후)이 사용될 수도 있다. 물론, 구현예들과 특징이 반드시 표준으로 사용될 필요는 없다.

본 발명의 원리 뿐만 아니라 다른 변형예에서 "하나의 실시예" 또는 "일 실시예" 또는 "하나의 구현예" 또는 "일 구현예"라는 말은 이 실시예와 관련하여 기술된 특정 특징, 구조, 특성 등이 본 발명의 원리의 적어도 하나의 실시예에 포함된다는 것을 의미한다. 따라서, 본 명세서 전체에 걸쳐 여러 곳에 나오는 어구 "하나의 실시예에서" 또는 "일 실시예에서" 또는 "하나의 구현예에서" 또는 "일 구현예에서" 라는 표현과 임의의 다른 변형 어구는 모두 동일한 실시예를 언급하는 것은 아니다.

추가적으로, 본 출원 또는 그 청구범위는 여러 정보를 "결정하는" 것을 언급할 수 있다. 정보를 결정하는 것은 예를 들어, 정보를 추정하는 것, 정보를 계산하는 것, 정보를 예측하는 것 또는 메모리로부터 정보를 검색하는 것 중 하나 이상을 포함할 수 있다.

예를 들어 "A/B", "A 및/또는 B" 그리고 "A 및 B 중 적어도 하나"에 있는 "/", " 및/또는" 그리고 "? 중 적어도 하나" 중 어느 하나의 사용은 처음 나열된 옵션(A)만을 선택하거나 두 번째 나열된 옵션(B)만을 선택하거나 두 개의 옵션(A와 B)을 모두 선택하는 것을 포함하는 것으로 의도된 것이라는 것을 이해하여야 한다. 다른 예로서, "A, B 및/또는 C" 그리고 "A, B 및 C 중 적어도 하나" 그리고 "A, B 또는 C 중 적어도 하나"의 경우에서 이 어구는 처음 나열된 옵션(A)만을 선택하거나, 두 번째 나열된 옵션(B)만을 선택하거나 세 번째 나열된 옵션(C)만을 선택하거나 처음 및 두 번째 나열된 옵션(A 와 B)만을 선택하거나, 처음과 세 번째 나열된 옵션(A와 C)만을 선택하거나 두 번째와 세 번째 나열된 옵션(B와 C)만을 선택하거나 3개의 옵션(A와 B와 C)을 모두 선택하는 것을 포함하는 것으로 의도된 것이다. 이것은 이 기술 분야 및 관련 기술 분야의 통상의 지식을 가진 자에게는 명백한 바와 같이 나열된 항목이 많은 경우에 대해서 확장될 수 있다.

추가적으로, 많은 구현예들이 예를 들어, 인코더, 디코더, 인코더에 입력을 제공하는 프리 프로세서 또는 디코더로부터 출력을 처리하는 포스트 프로세서 중 하나 이상에 구현될 수 있다. 나아가, 다른 구현예들이 본 기술 내용에 의해 고려된다.

본 명세서에 기술된 구현예들이 예를 들어 방법이나 공정, 장치, 소프트웨어 프로그램, 데이터 스트림 또는 신호로 구현될 수 있다. (예를 들어, 방법으로만 설명된) 단일 형태의 구현예의 문맥에서만 설명된 것이라 하더라도, 설명된 특징의 구현예는 다른 형태(예를 들어, 장치 또는 프로그램)로도 구현될 수 있다. 장치는 예를 들어, 적절한 하드웨어, 소프트웨어 및 펌웨어로 구현될 수 있다. 방법은 예를 들어, 컴퓨터, 마이크로프로세서, 집적 회로 또는 프로그램 가능한 논리 디바이스를 일반적으로 포함하는 처리 디바이스를 말하는 예를 들어 프로세서와 같은 예를 들어 장치로 구현될 수 있다. 프로세서는 또한 예를 들어, 컴퓨터, 셀폰, 휴대용/개인 디지털 정보처리 단말기("PDA") 및 최종 사용자들 사이에 정보 통신을 가능하게 하는 다른 디바이스와 같은 통신 디바이스를 포함한다.

본 명세서에 설명된 여러 공정과 특징의 구현예는 여러 가지 다른 장비나 애플리케이션, 특히 예를 들어, 데이터 인코딩, 데이터 디코딩, 뷰 생성, 깊이 처리 및 이미지 및 관련된 깊이 및/또는 디스패리티 맵의 다른 처리와 연관된 장비나 애플리케이션으로 구현될 수 있다. 이러한 장비의 예들은 인코더, 디코더, 디코더로부터 출력을 처리하는 포스트 프로세서, 인코더에 입력을 제공하는 프리 프로세서, 비디오 코더, 비디오 디코더, 비디오 코덱, 웹서버, 셋탑 박스, 랩탑, 퍼스널 컴퓨터, 셀폰, PDA 및 다른 통신 디바이스를 포함한다. 자명한 바와 같이, 이 장비는 이동가능할 수 있고 심지어 이동 차량에 설치될 수도 있다.

추가적으로, 본 방법은 프로세서에 의해 수행되는 명령에 의해 구현될 수 있으며 이러한 명령( 및/또는 구현예에 의해 생성되는 데이터 값들)은 예를 들어 집적 회로, 소프트웨어 반송파와 같은 프로세서로 판독가능한 매체에 또는 예를 들어, 하드 디스크, 콤팩트 디스켓, 랜덤 액세스 메모리("RAM") 또는 판독 전용 메모리("ROM")와 같은 다른 저장 디바이스에 저장될 수 있다. 명령은 프로세서로 판독가능한 매체에 유형적으로 구현된 애플리케이션 프로그램을 형성할 수 있다. 명령은 예를 들어 하드웨어, 펌웨어, 소프트웨어 또는 그 조합으로 될 수 있다. 명령은 예를 들어, 운영 시스템, 별도의 애플리케이션 또는 그 2개의 조합으로 찾아볼 수 있다. 그리하여 프로세서는 예를 들어 공정을 수행하도록 구성된 디바이스와, 공정을 수행하기 위한 명령을 가지는 (저장 디바이스와 같은) 프로세서로 판독가능한 매체를 포함하는 디바이스를 특징으로 할 수 있다. 나아가, 프로세서로 판독가능한 매체는 명령에 추가하여 또는 명령 대신에 일 구현예에 의해 생성된 데이터 값을 저장할 수 있다.

이 기술 분야에 통상의 지식을 가진 자에게 자명한 바와 같이 구현예는 예를 들어 저장되거나 전송될 수 있는 정보를 운반하도록 포맷된 여러 신호를 생성할 수 있다. 이 정보는 예를 들어 방법을 수행하는 명령이나 설명된 구현예들 중 하나에 의해 생성된 데이터를 포함할 수 있다. 예를 들어, 신호는 코딩 표준의 구문을 기록하거나 판독하는 규칙을 데이터로 운반하거나 또는 일 실시예에서 기록된 실제 구문 값을 데이터로 운반하도록 포맷될 수 있다. 그러한 신호는 예를 들어 (예를 들어 스펙트럼의 무선 주파수 부분을 사용하는) 전자기파로 또는 기저대역 신호로 포맷될 수 있다. 이 포맷은 예를 들어 데이터 스트림을 인코딩하는 것과 인코딩된 데이터 스트림을 반송파로 변조하는 것을 포함할 수 있다. 신호가 운반하는 정보는 예를 들어 아날로그이거나 디지털 정보일 수 있다. 이 신호는 알려진 바와 같이 여러 다른 유선이나 무선 링크를 통해 전송될 수 있다. 이 신호는 프로세서로 판독가능한 매체에 저장될 수 있다.

다수의 구현예들이 기술되었다. 그럼에도 불구하고, 여러 변형들이 이루어질 수 있다는 것이 이해될 수 있을 것이다. 예를 들어, 상이한 구현예들의 요소들이 다른 구현예를 생성하기 위해 조합되고 보충되고 수정되고 제거될 수 있다. 추가적으로, 이 기술 분야에 통상의 지식을 가진 자라면 다른 구조와 공정이 개시된 것을 대체할 수 있다는 것과 그 결과 구현예들이 적어도 실질적으로 동일한 방법(들)으로 적어도 실질적으로 동일한 기능(들)을 수행하여 개시된 구현예와 적어도 실질적으로 동일한 결과(들)를 달성하게 할 수 있다는 것을 이해할 수 있을 것이다. 따라서, 이들 및 다른 구현예들이 본 출원에 의해 고려된다.

Claims

이미지 화상에서 대응하는 위치들의 깊이를 나타내는 정보를 포함하는 깊이 화상의 일부분에 액세스하는 단계와;
상기 깊이 화상의 일부분을 복수의 파티션으로 분할하는 단계와;
세분화된 파티션을 제공하기 위해 상기 이미지 화상에 기초하여 상기 복수의 파티션을 세분화(refining)하는 단계와;
상기 인코딩된 부분을 생성하기 위해 상기 세분화된 파티션에 기초하여 상기 깊이 화상의 일부분을 인코딩하는 단계를 포함하는 방법.
제 1 항에 있어서, 상기 세분화하는 단계는 상기 이미지 화상의 세기 값에 기초하여 상기 복수의 파티션을 세분화하는 것인 방법.
제 2 항에 있어서, 세기 값에 기초하여 세분화하는 단계는 상기 이미지 화상에 있는 세기 값들 사이의 차이에 기초하여 세분화하는 단계를 포함하는 것인 방법.
제 3 항에 있어서, 차이에 기초하여 세분화하는 단계는 파티션 내 주어진 픽셀 위치에 대해,
상기 주어진 픽셀에 대해 유사성 영역을 형성하는 단계로서, 상기 유사성 영역은 (ⅰ) 특정 픽셀 위치에 있는 이미지 내 픽셀의 세기와, (ⅱ) 상기 주어진 픽셀 위치에 대응하는 이미지 내 픽셀의 세기 사이의 차이가 임계값 미만이면 특정 픽셀 위치를 포함하는, 유사성 영역을 형성하는 단계와;
상기 유사성 영역이 가장 많이 중첩하는 파티션을 결정하는 단계와;
상기 주어진 픽셀 위치를 상기 결정된 파티션에 할당하는 단계를 포함하는 것인 방법.
제 1 항에 있어서, 단일 별도의 값을 상기 세분화된 파티션 내 픽셀의 세기에 대한 대표 값으로 상기 세분화된 파티션들 각각에 할당하는 단계를 더 포함하며, 상기 인코딩하는 단계는 상기 단일 별도의 값을 인코딩하는 단계를 포함하는 것인 방법.
제 5 항에 있어서, 상기 단일 별도의 값을 할당하는 단계는,
상기 세분화된 파티션들 중 제 1 파티션에 대한 단일 값으로 상기 세분화된 파티션들 중 제 1 파티션의 좌상(upper left) 값을 사용하는 단계와;
상기 세분화된 파티션들 중 제 2 파티션에 대한 단일 값으로 상기 세분화된 파티션들 중 제 2 파티션의 우하(lower right) 값을 사용하는 단계
를 포함하는 것인 방법.
제 5 항에 있어서,
분할하는 단계는 복수의 파티션 옵션들 중 하나의 옵션에 따라 상기 깊이 화상의 일부분을 복수의 파티션으로 분할하는 단계를 포함하고,
인코딩하는 단계는 상기 복수의 분할 옵션들 중 하나의 옵션의 표시자를 인코딩하는 단계를 포함하는 것인 방법.
제 1 항에 있어서,
상기 분할하는 단계는 복수의 분할 옵션들 중 하나의 옵션에 따라 상기 깊이 화상의 일부분을 복수의 파티션으로 분할하는 단계를 포함하고,
상기 인코딩하는 단계는 상기 복수의 분할 옵션들 중 하나의 옵션의 표시자를 인코딩하는 단계를 포함하는 것인 방법.
제 8 항에 있어서, 분할하는 단계는 이하 분할 옵션들, 즉 (1) 동일한 사이즈의 우측 절반과 좌측 절반, (2) 동일한 사이즈의 상부 절반과 하부 절반, (3) 상기 일부분의 2개의 코너들 사이에 연장하는 전방방향의 대각선으로 나눈 동일한 사이즈의 세그먼트들과, (4) 상기 일부분의 2개의 코너들 사이에 연장하는 후방방향의 대각선으로 나눈 동일한 사이즈의 세그먼트들 중 중 하나의 옵션을 선택하는 단계를 포함하는 것인 방법.
제 8 항에 있어서, 분할하는 단계는 왜곡 함수를 최소화하는 분할 옵션을 선택하는 단계를 포함하는 것인 방법.
제 1 항에 있어서, 깊이 화상의 일부분에 액세스하는 단계는 화상 영역들 사이의 에지를 나타내는 깊이 화상의 일부분에 액세스하는 단계를 포함하는 것인 방법.
이미지 화상에서 대응하는 위치들의 깊이를 나타내는 정보를 포함하는 깊이 화상의 일부분에 액세스하는 수단과;
상기 깊이 화상의 일부분을 복수의 파티션으로 분할하는 수단과;
세분화된 파티션을 제공하기 위해 상기 이미지 화상에 기초하여 상기 복수의 파티션을 세분화하는 수단과;
인코딩된 부분을 생성하기 위해 상기 세분화된 파티션에 기초하여 상기 깊이 화상의 부분을 인코딩하는 수단
을 포함하는 장치.
명령을 저장한 프로세서로 판독가능한 매체로서,
상기 명령은 프로세서로 하여금 적어도 다음 동작, 즉
이미지 화상에서 대응하는 위치들의 깊이를 나타내는 정보를 포함하는 깊이 화상의 일부분에 액세스하는 동작과;
상기 깊이 화상의 일부분을 복수의 파티션으로 분할하는 동작과;
세분화된 파티션을 제공하기 위해 상기 이미지 화상에 기초하여 상기 복수의 파티션을 세분화하는 동작과;
인코딩된 부분을 생성하기 위해 상기 세분화된 파티션에 기초하여 상기 깊이 화상의 일부분을 인코딩하는 동작을 수행하게 하는 것인 프로세서로 판독가능한 매체.
적어도 다음 동작, 즉
이미지 화상에서 대응하는 위치들의 깊이를 나타내는 정보를 포함하는 깊이 화상의 일부분에 액세스하는 동작과;
상기 깊이 화상의 일부분을 복수의 파티션으로 분할하는 동작과;
세분화된 파티션을 제공하기 위해 상기 이미지 화상에 기초하여 상기 복수의 파티션을 세분화하는 동작과;
인코딩된 부분을 생성하기 위해 상기 세분화된 파티션에 기초하여 상기 깊이 화상의 부분을 인코딩하는 동작을 수행하도록 구성된 프로세서를 포함하는 장치.
적어도 다음 동작, 즉
이미지 화상에서 대응하는 위치들의 깊이를 나타내는 정보를 포함하는 깊이 화상의 일부분에 액세스하는 동작과;
상기 깊이 화상의 일부분을 복수의 파티션으로 분할하는 동작과;
세분화된 파티션을 제공하기 위해 상기 이미지 화상에 기초하여 상기 복수의 파티션을 세분화하는 동작과;
인코딩된 부분을 생성하기 위해 상기 세분화된 파티션에 기초하여 상기 깊이 화상의 일부분을 인코딩하는 동작을 수행하도록 구성된 하나 이상의 인코더를 포함하는 장치.
하나 이상의 인코더로서, 적어도 다음 동작, 즉
이미지 화상에서 대응하는 위치들의 깊이를 나타내는 정보를 포함하는 깊이 화상의 일부분에 액세스하는 동작과;
상기 깊이 화상의 일부분을 복수의 파티션으로 분할하는 동작과;
세분화된 파티션을 제공하기 위해 상기 이미지 화상에 기초하여 상기 복수의 파티션을 세분화하는 동작과;
인코딩된 부분을 생성하기 위해 상기 세분화된 파티션에 기초하여 상기 깊이 화상의 일부분을 인코딩하는 동작
을 수행하도록 구성된 하나 이상의 인코더와;
상기 인코딩된 부분을 포함하는 신호를 변조하도록 구성된 변조기를 포함하는 장치.
이미지 화상에서 대응하는 위치들의 깊이를 나타내는 정보를 포함하는 인코딩된 깊이 화상의 일부분에 액세스하는 단계로서, 상기 인코딩은 상기 일부분의 복수의 파티션에 대한 세기 값을 나타내는 하나 이상의 값 표시자의 인코딩을 포함하는, 액세스하는 단계와;
상기 복수의 파티션들 중 적어도 하나를 식별하는 단계와;
세분화된 파티션을 제공하기 위해 상기 이미지 화상에 기초하여 상기 적어도 하나의 파티션을 세분화하는 단계와;
상기 하나 이상의 값 표시자의 인코딩을 디코딩하는 단계와;
상기 하나 이상의 디코딩된 값 표시자에 기초하여 상기 세분화된 파티션에 있는 픽셀에 대한 값을 결정하는 단계를 포함하는 방법.
제 17 항에 있어서, 상기 하나 이상의 값 표시자는 세분화된 파티션에 대해 상기 세분화된 파티션에 있는 픽셀의 세기에 대한 대표 값을 제공하는 단일 값의 표시자를 포함하며,
상기 세분화된 파티션에 있는 픽셀에 대한 값을 결정하는 단계는 상기 대표 값에 기초하여 값을 결정하는 단계를 포함하는 것인 방법.
제 17 항에 있어서, 상기 하나 이상의 값 표시자는 세분화된 파티션에 대해 상기 세분화된 파티션에 있는 픽셀의 세기의 복수의 표시자를 포함하고,
상기 세분화된 파티션에 있는 픽셀에 대한 값을 결정하는 단계는 상기 대표 값에 기초하여 값을 결정하는 단계를 포함하는 것인 방법.
제 17 항에 있어서, 상기 복수의 파티션들 중 적어도 하나를 식별하는 단계는 디폴트 분할에 기초하는 것인 방법.
제 17 항에 있어서, 상기 액세스된 인코딩은 상기 부분을 복수의 파티션으로 분할하는데 사용되는 복수의 분할 옵션들 중 하나의 옵션을 나타내는 분할 표시자의 인코딩을 더 포함하고,
상기 방법은 상기 분할 표시자의 인코딩을 디코딩하는 단계를 더 포함하고,
상기 복수의 파티션들 중 적어도 하나의 파티션을 식별하는 단계는 디코딩된 분할 표시자에 기초하는 것인 방법.
이미지 화상에서 대응하는 위치들의 깊이를 나타내는 정보를 포함하는 인코딩된 깊이 화상의 일부분에 액세스하는 수단으로서, 상기 인코딩은 상기 일부분의 복수의 파티션에 대한 세기 값을 나타내는 하나 이상의 값 표시자의 인코딩을 포함하는, 액세스하는 수단과;
상기 복수의 파티션들 중 적어도 하나의 파티션을 식별하는 수단과;
세분화된 파티션을 제공하기 위해 상기 이미지 화상에 기초하여 적어도 하나의 파티션을 세분화하는 수단과;
상기 하나 이상의 값 표시자의 인코딩을 디코딩하는 수단과;
상기 하나 이상의 디코딩된 값 표시자에 기초하여 세분화된 파티션에 있는 픽셀에 대한 값을 결정하는 수단을 포함하는 장치.
명령을 저장한 프로세서로 판독가능한 매체로서,
상기 명령은 프로세서로 하여금 적어도 다음의 동작, 즉
이미지 화상에서 대응하는 위치들의 깊이를 나타내는 정보를 포함하는 인코딩된 깊이 화상의 부분에 액세스하는 동작으로서, 상기 인코딩은 상기 부분의 복수의 파티션에 대한 세기 값을 나타내는 하나 이상의 값 표시자의 인코딩을 포함하는, 액세스하는 동작과;
상기 복수의 파티션들 중 적어도 하나의 동작을 식별하는 동작과;
세분화된 파티션을 제공하기 위해 상기 이미지 화상에 기초하여 적어도 하나의 파티션을 세분화하는 동작과;
상기 하나 이상의 값 표시자의 인코딩을 디코딩하는 동작과;
상기 하나 이상의 디코딩된 값 표시자에 기초하여 세분화된 파티션에 있는 픽셀에 대한 값을 결정하는 동작을 수행하도록 하는 것인 프로세서로 판독가능한 매체.
적어도 다음의 동작, 즉
이미지 화상에서 대응하는 위치들의 깊이를 나타내는 정보를 포함하는 인코딩된 깊이 화상의 부분에 액세스하는 동작으로서, 상기 인코딩은 상기 부분의 복수의 파티션들에 대한 세기 값을 나타내는 하나 이상의 값 표시자의 인코딩을 포함하는, 액세스하는 동작과;
상기 복수의 파티션들 중 적어도 하나의 파티션을 식별하는 동작과;
세분화된 파티션을 제공하기 위해 상기 이미지 화상에 기초하여 적어도 하나의 파티션을 세분화하는 동작과;
상기 하나 이상의 값 표시자의 인코딩을 디코딩하는 동작과;
상기 하나 이상의 디코딩된 값 표시자에 기초하여 세분화된 파티션에 있는 픽셀에 대한 값을 결정하는 동작을 수행하도록 구성된 프로세서를 포함하는 장치.
적어도 다음의 동작, 즉
이미지 화상에서 대응하는 위치들의 깊이를 나타내는 정보를 포함하는 인코딩된 깊이 화상의 부분에 액세스하는 동작으로서, 상기 인코딩은 상기 부분의 복수의 파티션들에 대한 세기 값을 나타내는 하나 이상의 값 표시자의 인코딩을 포함하는, 액세스하는 동작과;
상기 복수의 파티션들 중 적어도 하나의 파티션을 식별하는 동작과;
세분화된 파티션을 제공하기 위해 상기 이미지 화상에 기초하여 상기 적어도 하나의 파티션을 세분화하는 동작과;
상기 하나 이상의 값 표시자의 인코딩을 디코딩하는 동작과;
상기 하나 이상의 디코딩된 값 표시자에 기초하여 세분화된 파티션에 있는 픽셀에 대한 값을 결정하는 동작을 수행하도록 구성된 디코더를 포함하는 장치.
이미지 화상에서 대응하는 위치들의 깊이를 나타내는 정보를 포함하는 인코딩된 깊이 화상의 일부분을 포함하는 신호를 복조하도록 구성된 복조기로서, 상기 인코딩은 상기 일부분의 복수의 파티션들에 대한 세기 값을 나타내는 하나 이상의 값 표시자의 인코딩을 포함하는, 복조기와;
디코더로서, 적어도 다음 동작, 즉
상기 깊이 화상의 일부분의 인코딩에 액세스하는 동작과;
상기 복수의 파티션들 중 적어도 하나의 파티션을 식별하는 동작과;
세분화된 파티션을 제공하기 위해 상기 이미지 화상에 기초하여 상기 적어도 하나의 파티션을 세분화하는 동작과;
상기 하나 이상의 값 표시자의 인코딩을 디코딩하는 동작과;
상기 하나 이상의 디코딩된 값 표시자에 기초하여 세분화된 파티션에 있는 픽셀에 대한 값을 결정하는 동작
을 수행하도록 구성된 디코더를 포함하는 장치.
이미지 화상에서 대응하는 위치들의 깊이를 나타내는 정보를 포함하는 깊이 화상의 일부분에 액세스하는 단계와;
필터링된 깊이 부분을 생성하기 위해 상기 부분을 필터링하는 단계
를 포함하며,
상기 필터링된 깊이 부분에 있는 주어진 픽셀은 상기 부분에 있는 픽셀의 범위에 대한 값에 기초하고,
상기 주어진 픽셀을 생성하는 단계는,
(ⅰ) 특정 픽셀의 위치로부터 상기 주어진 픽셀에 대응하는 상기 부분에 있는 픽셀의 위치까지의 거리와,
(ⅱ) 상기 특정 픽셀의 값과, 상기 주어진 픽셀에 대응하는 상기 부분에 있는 픽셀의 값 사이의 깊이 차이와,
(ⅲ) 상기 특정 픽셀의 위치에 대응하는 이미지 화상에 있는 픽셀의 값과, 상기 주어진 픽셀의 위치에 대응하는 이미지 화상에 있는 픽셀의 값 사이의 이미지 차이
에 기초한 가중치에 의해 상기 범위 내에 있는 특정 픽셀의 값을 가중하는 단계를 포함하는 것인 방법.
제 27 항에 있어서, 상기 부분에 액세스하는 단계는,
(ⅰ) 상기 부분의 원래의 버전을 복수의 파티션으로 분할하는데 사용되는 복수의 파티션 옵션들 중 하나의 옵션을 나타내는 분할 표시자와, (ⅱ) 상기 복수의 파티션들의 세기 값을 나타내는 하는 이상의 값 표시자의 인코딩에 액세스하는 단계와;
상기 부분의 원래의 버전의 재구성인 상기 부분을 생성하기 위해 상기 인코딩을 디코딩하는 단계를 포함하는 것인 방법.
제 28 항에 있어서, 디코딩하는 단계는,
상기 분할 표시자의 인코딩을 디코딩하는 단계와;
상기 디코딩된 분할 표시자에 기초하여 상기 복수의 파티션들 중 적어도 하나를 식별하는 단계와;
세분화된 파티션을 제공하기 위해 상기 이미지 화상에 기초하여 적어도 하나의 파티션을 세분화하는 단계와;
상기 하나 이상의 값 표시자의 인코딩을 디코딩하는 단계와;
상기 하나 이상의 디코딩된 값 표시자에 기초하여 상기 세분화된 파티션에 있는 픽셀에 대한 값을 결정하는 단계를 포함하는 것인 방법.
제 28 항에 있어서, 값을 결정하는 단계는 상기 세분화된 파티션에 있는 모든 픽셀에 단일 값을 할당하는 단계를 포함하는 것인 방법.
제 27 항에 있어서, 상기 거리, 상기 깊이 차이 및 상기 이미지 차이는 상기 가중치의 적어도 일부분을 형성하기 위해 곱해지며,
상기 가중치는 결과의 적어도 일부분을 형성하기 위해 상기 특정 픽셀에 대한 값과 곱해지며,
상기 범위 내에 있는 모든 픽셀에 대해 유사한 결과들이 형성되고 합산되어 상기 주어진 픽셀에 대해 필터링된 깊이 부분의 적어도 일부를 형성하는 것인 방법.
제 27 항에 있어서, 필터링하는 단계는 상기 부분이 없는, 이미지 화상의 대응하는 부분으로부터, 에지 상세를 필터링된 깊이 부분에 제공하는 것인 방법.
제 27 항에 있어서, 필터링하는 단계는 인수 (ⅰ)와, 및 인수 (ⅱ)와 인수 (ⅲ) 중 적응적으로 선택된 하나를 포함하는 것인 방법.
제 33 항에 있어서, 적응적으로 선택하는 단계는 주어진 범위 내에 있는 깊이 샘플들의 변동 측정이 임계값 아래에 있다면 인수 (ⅱ)를 선택하고, 상기 주어진 범위 내에 있는 변동 측정이 상기 임계값 위에 있다면 인수 (ⅲ)을 선택하는 단계를 포함하는 것인 방법.
제 33 항에 있어서, 상기 변동 측정은 (1) 상기 주어진 범위 내 최대 깊이와 상기 주어진 범위 내 최소 깊이 사이의 차이, (2) 상기 주어진 범위 내 최대 저역통과 필터링된 깊이와, 상기 주어진 범위 내 최소 저역통과 필터링된 깊이 사이의 차이, 및 (3) 상기 주어진 범위 내에 있는 깊이의 변동 중 하나인 것인 방법.
제 27 항에 있어서, 필터링하는 단계는 인수 (ⅰ)과, 및 인수 (ⅱ)와 인수 (ⅲ) 중 적응적으로 가중된 조합을 포함하는 것인 방법.
제 36 항에 있어서, 상기 깊이 차이와 이미지 차이 모두의 적응적 가중은 깊이 화상의 부분으로부터 변동 측정에 따라 블렌딩 함수에 의해 결정되는 것인 방법.
제 37 항에 있어서, 상기 블렌딩 함수는 0과 1 사이의 값을 생성하고 변동 측정이 증가함에 따라 증가하는 것인 방법.
제 27 항에 있어서, 인수 (ⅰ)은 상기 특정 픽셀과 주어진 픽셀 사이의 거리가 증가함에 따라 지수적으로 감쇠하는 함수에 기초하는 것인 방법.
제 39 항에 있어서, 상기 함수는
이고, 여기서 p는 특정 픽셀의 위치이고 q는 주어진 픽셀의 위치인 것인 방법.
제 27 항에 있어서, 인수 (ⅲ)는 특정 픽셀의 색상 값과 주어진 픽셀의 색상 값 사이의 차이가 증가함에 따라 지수적으로 감쇠하는 함수에 기초하는 것인 방법.
제 39 항에 있어서, 상기 함수는

이고,
여기서 R_p와 R_q는 특정 픽셀과 주어진 픽셀의 적색 값을 각각 나타내고, G_p와 G_q는 녹색 값을 나타내고, B_p와 B_q는 청색 값을 나타내며 σ^R, σ^G 및 σ^B는 적색, 청색 및 녹색에 대한 적응적 감쇠 인수를 각각 나타내는 것인 방법.
제 27 항에 있어서, 필터링하는 단계는 각 반복에서 인접한 샘플들을 사용하여 가중된 평균 결과를 얻기 위해 반복적으로 수행되는 것인 방법.
제 43 항에 있어서, 사용자가 얼마나 많은 인접한 샘플들이 고려되는지를 결정하는 윈도우의 사이즈와 반복의 수를 선택할 수 있는 것인 방법.
제 27 항에 있어서, 상기 깊이 화상은 다운샘플링된 깊이 맵이고 필터링하는 단계는 업샘플링된 깊이 맵을 생성하는 것인 방법.
제 27 항에 있어서, 상기 깊이 화상은 해상도를 가지는 깊이 맵이고, 필터링하는 단계는 상기 깊이 맵의 해상도와 동일한 해상도를 가지는 필터링된 깊이 맵을 생성하는 것인 방법.
이미지 화상에서 대응하는 위치들의 깊이를 나타내는 정보를 포함하는 깊이 화상의 부분에 액세스하는 수단과;
필터링된 깊이 부분을 생성하기 위해 상기 부분을 필터링하는 수단
을 포함하며,
상기 필터링된 깊이 부분에 있는 주어진 픽셀은 상기 부분에 있는 픽셀의 범위에 대한 값에 기초하고,
상기 주어진 픽셀을 생성하는 것은,
(ⅰ) 특정 픽셀의 위치로부터 상기 주어진 픽셀에 대응하는 상기 부분에 있는 픽셀의 위치까지의 거리와,
(ⅱ) 상기 특정 픽셀의 값과, 상기 주어진 픽셀에 대응하는 상기 부분에 있는 픽셀의 값 사이의 깊이 차이와,
(ⅲ) 상기 특정 픽셀의 위치에 대응하는 이미지 화상에 있는 픽셀의 값과, 상기 주어진 픽셀의 위치에 대응하는 이미지 화상에 있는 픽셀의 값 사이의 이미지 차이에 기초한 가중치에 의해 상기 범위 내에 있는 특정 픽셀의 값을 가중하는 동작을 포함하는 것인 장치.
명령을 저장한 프로세서로 판독가능한 매체로서,
상기 명령은 프로세서로 하여금 적어도 다음 동작, 즉
이미지 화상에서 대응하는 위치들의 깊이를 나타내는 정보를 포함하는 깊이 화상의 부분에 액세스하는 동작과;
필터링된 깊이 부분을 생성하기 위해 상기 부분을 필터링하는 동작
을 수행하도록 하며,
상기 필터링된 깊이 부분에 있는 주어진 픽셀은 상기 부분에 있는 픽셀의 범위에 대한 값에 기초하고, 상기 주어진 픽셀을 생성하는 동작은,
(ⅰ) 특정 픽셀의 위치로부터 상기 주어진 픽셀에 대응하는 상기 부분에 있는 픽셀의 위치까지의 거리와,
(ⅱ) 상기 특정 픽셀의 값과, 상기 주어진 픽셀에 대응하는 상기 부분에 있는 픽셀의 값 사이의 깊이 차이와,
(ⅲ) 상기 특정 픽셀의 위치에 대응하는 이미지 화상에 있는 픽셀의 값과, 상기 주어진 픽셀의 위치에 대응하는 이미지 화상에 있는 픽셀의 값 사이의 이미지 차이
에 기초한 가중치에 의해 상기 범위 내에 있는 특정 픽셀의 값을 가중하는 동작을 포함하는 것인 프로세서로 판독가능한 매체.
적어도 다음의 동작, 즉
이미지 화상에서 대응하는 위치들의 깊이를 나타내는 정보를 포함하는 깊이 화상의 부분에 액세스하는 동작과;
필터링된 깊이 부분을 생성하기 위해 상기 부분을 필터링하는 동작
를 수행하도록 구성된 필터를 포함하며,
상기 필터링된 깊이 부분에 있는 주어진 픽셀은 상기 부분에 있는 픽셀의 범위에 대한 값에 기초하고, 상기 주어진 픽셀을 생성하는 동작은
(ⅰ) 특정 픽셀의 위치로부터 상기 주어진 픽셀에 대응하는 상기 부분에 있는 픽셀의 위치까지의 거리와,
(ⅱ) 상기 특정 픽셀의 값과, 상기 주어진 픽셀에 대응하는 상기 부분에 있는 픽셀의 값 사이의 깊이 차이와,
(ⅲ) 상기 특정 픽셀의 위치에 대응하는 이미지 화상에 있는 픽셀의 값과, 상기 주어진 픽셀의 위치에 대응하는 이미지 화상에 있는 픽셀의 값 사이의 이미지 차이에 기초한 가중치에 의해 상기 범위 내에 있는 특정 픽셀의 값을 가중하는 동작을 포함하는 것인 장치.
제 49 항에 있어서, 상기 장치는 인코더나 디코더 중 하나인 것인 장치.
제 49 항에 있어서, 상기 필터링된 깊이 부분을 포함하는 신호를 변조하도록 구성된 변조기를 더 포함하는 장치.
제 49 항에 있어서, 필터링된 깊이 부분을 포함하는 신호를 복조하도록 구성된 복조기를 더 포함하는 장치.
제 49 항에 있어서, 상기 필터는 참조 이미지를 제공하기 위해 재구성된 깊이 맵을 필터링하기 위해 인루프 필터로서 사용되는 것인 장치.
적어도 다음의 동작, 즉
이미지 화상에서 대응하는 위치들의 깊이를 나타내는 정보를 포함하는 깊이 화상의 부분에 액세스 하는 동작과;
필터링된 깊이 부분을 생성하기 위해 상기 부분을 필터링하는 동작
을 수행하도록 구성된 프로세서를 포함하며,
상기 필터링된 깊이 부분에 있는 주어진 픽셀은 상기 부분에 있는 픽셀의 범위에 대한 값에 기초하고, 상기 주어진 픽셀을 생성하는 동작은,
(ⅰ) 특정 픽셀의 위치로부터 상기 주어진 픽셀에 대응하는 상기 부분에 있는 픽셀의 위치까지의 거리와,
(ⅱ) 상기 특정 픽셀의 값과, 상기 주어진 픽셀에 대응하는 상기 부분에 있는 픽셀의 값 사이의 깊이 차이와,
(ⅲ) 상기 특정 픽셀의 위치에 대응하는 이미지 화상에 있는 픽셀의 값과, 상기 주어진 픽셀의 위치에 대응하는 이미지 화상에 있는 픽셀의 값 사이의 이미지 차이에 기초한 가중치에 의해 상기 범위 내에 있는 특정 픽셀의 값을 가중하는 동작을 포함하고, 상기 인수 (ⅱ)와 (ⅲ)는 선택 함수에 따라 적용되는 것인 장치.
제 54 항에 있어서, 상기 선택 함수는 주어진 범위 내에 있는 깊이 샘플의 변동 측정이 임계값 아래에 있으면 인수 (ⅱ)를 적용하고, 상기 주어진 범위 내에 있는 변동 측정이 임계값 위에 있으면 인수 (ⅲ)를 적용하는 것인 장치.
제 54 항에 있어서, 상기 선택 함수는 적응적 가중 함수에 기초하여 인수 (ⅱ)와 인수 (ⅲ)의 조합을 적용하는 것인 장치.
적어도 다음 동작, 즉
이미지 화상에서 대응하는 위치들의 깊이를 나타내는 정보를 포함하는 깊이 화상의 부분에 액세스하는 동작과,
필터링된 깊이 부분을 생성하기 위해 상기 부분을 필터링하는 동작
을 수행하도록 구성된 필터와;
상기 필터링된 깊이 부분을 포함하는 신호를 복조하도록 구성된 복조기
를 포함하며,
상기 필터링된 깊이 부분에 있는 주어진 픽셀은 상기 부분에 있는 픽셀의 범위에 대한 값에 기초하고, 상기 주어진 픽셀을 생성하는 동작은,
(ⅰ) 특정 픽셀의 위치로부터 상기 주어진 픽셀에 대응하는 상기 부분에 있는 픽셀의 위치까지의 거리와,
(ⅱ) 상기 특정 픽셀의 값과, 상기 주어진 픽셀에 대응하는 상기 부분에 있는 픽셀의 값 사이의 깊이 차이와,
(ⅲ) 상기 특정 픽셀의 위치에 대응하는 이미지 화상에 있는 픽셀의 값과, 상기 주어진 픽셀의 위치에 대응하는 이미지 화상에 있는 픽셀의 값 사이의 이미지 차이
에 기초한 가중치에 의해 상기 범위 내에 있는 특정 픽셀의 값을 가중하는 동작을 포함하는 것인 장치.
인코딩된 다운샘플링된 깊이 이미지를 수신하는 단계와;
상기 다운샘플링된 깊이 이미지를 디코딩하는 단계와;
업샘플링되는 필터링된 깊이 부분을 생성하기 위해 상기 디코딩된 다운샘플링된 깊이 이미지의 부분을 필터링하는 단계를 포함하며,
상기 필터링된 깊이 부분에 있는 주어진 픽셀은 상기 부분에 있는 픽셀의 범위에 대한 값에 기초하고,
상기 주어진 픽셀을 생성하는 단계는,
(ⅰ) 특정 픽셀의 위치로부터 상기 주어진 픽셀에 대응하는 상기 부분에 있는 픽셀의 위치까지의 거리와,
(ⅱ) 상기 특정 픽셀의 위치에 대응하는 이미지 화상에 있는 픽셀의 값과, 상기 주어진 픽셀의 위치에 대응하는 이미지 화상에 있는 픽셀의 값 사이의 이미지 차이에 기초한 가중치에 의해 상기 범위 내에 있는 특정 픽셀의 값을 가중하는 단계를 포함하는 것인 방법.
이미지 화상에서 대응하는 위치들의 깊이를 나타내는 정보를 포함하는 깊이 화상의 부분에 액세스하는 단계와;
필터링된 깊이 부분을 생성하기 위해 상기 부분을 필터링하는 단계를 포함하며,
상기 필터링된 깊이 부분에 있는 주어진 픽셀은 상기 부분에 있는 픽셀의 범위에 대한 값에 기초하고,
상기 주어진 픽셀을 생성하는 단계는,
(ⅰ) 특정 픽셀의 위치로부터 상기 주어진 픽셀에 대응하는 상기 부분에 있는 픽셀의 위치까지의 거리와,
(ⅱ) 상기 특정 픽셀의 값과, 상기 주어진 픽셀에 대응하는 상기 부분에 있는 상기 픽셀의 값 사이의 깊이 차이의 적응적 가중과,
(ⅲ) 상기 특정 픽셀의 위치에 대응하는 이미지 화상에 있는 픽셀의 값과, 상기 주어진 픽셀의 위치에 대응하는 이미지 화상에 있는 픽셀의 값 사이의 이미지 차이의 적응적 가중에 기초한 가중치에 의해 상기 범위 내에 있는 특정 픽셀의 값을 가중하는 단계를 포함하는 것인 방법.
제 59 항에 있어서, 상기 깊이 차이와 상기 이미지 차이 중 하나 이상의 적응적 가중은 상기 가중이 상기 깊이 차이와 상기 이미지 차이 중 하나 이상과는 독립적으로 결정되도록 0의 적응적 가중을 형성하는 것인 방법.
제 59 항에 있어서, 상기 깊이 차이와 상기 이미지 차이 둘 모두의 적응적 가중은 상기 가중이 상기 깊이 차이와 상기 이미지 차이 둘 모두에 기초하여 결정되도록 0보다 큰 것인 방법.
제 61 항에 있어서, 상기 깊이 차이와 상기 이미지 차이 둘 모두의 적응적 가중은 상기 깊이 화상의 상기 부분으로부터 변동 측정에 따라 좌우되는 블렌딩 함수에 의해 결정되는 것인 방법.
제 62 항에 있어서, 상기 블렌딩 함수는 0과 1 사이의 값을 생성하고 상기 변동 측정이 증가함에 따라 증가하는 것인 방법.