KR20180053699A

KR20180053699A - 라이트 필드 기반 이미지를 인코딩 및 디코딩하는 방법 및 장치, 및 대응하는 컴퓨터 프로그램 제품

Info

Publication number: KR20180053699A
Application number: KR1020187010267A
Authority: KR
Inventors: 도미니끄 또로; 미까엘 르 뻥뒤; 마르틴 알랭; 메흐멧 투르칸
Original assignee: 톰슨 라이센싱
Priority date: 2015-09-14
Filing date: 2016-09-14
Publication date: 2018-05-23
Also published as: CN108353189A; EP3142365A1; US20180255319A1; US10652577B2; JP6837056B2; WO2017046175A1; EP3350999A1; JP2018530963A

Abstract

본 개시는 일반적으로 장면에 속하는 라이트 필드 데이터로부터 획득되는 뷰들의 매트릭스(17)에 속하는 뷰(170)의 적어도 하나의 픽셀들의 블록을 예측하는 방법에 관한 것이다. 본 개시에 따르면, 방법은 프로세서에 의해 구현되고, 상기 픽셀들의 블록 중 예측할 적어도 하나의 픽셀에 대해; 상기 뷰들의 매트릭스(17)로부터, 예측할 상기 적어도 하나의 픽셀이 속하는 적어도 하나의 에피폴라 평면 이미지(EPI)를 획득하는 단계(51)와, 양방향 예측 모드들의 세트 중에서, 상기 적어도 하나의 에피폴라 평면 이미지에서 예측할 상기 적어도 하나의 픽셀에 이웃하는 이전의 재구축된 픽셀들의 세트로부터 적어도 하나의 최적 양방향 예측 모드를 결정하는 단계(52)와, 상기 적어도 하나의 최적 양방향 예측 모드를 사용하여 예측할 상기 적어도 하나의 픽셀의 예측 값을 외삽하는 단계(53)를 포함한다.

Description

라이트 필드 기반 이미지를 인코딩 및 디코딩하는 방법 및 장치, 및 대응하는 컴퓨터 프로그램 제품

본 개시는 라이트 필드 이미징, 및 라이트 필드 데이터를 획득하고 처리하는 기술에 관한 것이다. 보다 상세하게는, 본 개시는 일반적으로 라이트 필드 기반 이미지를 인코딩 및 디코딩하는 방법 및 장치에 관한 것이며, 이미지 또는 비디오 인코딩/디코딩 영역에서 응용 분야를 찾을 수 있다.

이 섹션은 이하에 기술되고 및/또는 청구되는 본 개시의 다양한 양태와 관련될 수 있는 기술의 다양한 양태를 독자에게 소개하기 위한 것이다. 이 논의는 독자에게 본 발명의 다양한 양태의 더 나은 이해를 돕기 위한 배경 정보를 제공하는데 도움이 될 것으로 생각된다. 따라서, 이러한 진술들은 이런 관점에서 읽어 보아야 하고 종래 기술로 인정하는 것이 아님을 이해해야 한다.

기존의 이미지 캡처 디바이스는 2차원 센서상으로 3차원 장면을 렌더링한다. 작동 동안, 종래의 캡처 디바이스는 디바이스 내의 광 센서(또는 광 검출기)에 도달하는 광량을 나타내는 2차원(2-D) 이미지를 캡처한다. 그러나 이 2-D 이미지는 광 센서에 도달하는 광선들의 방향 분포(이는 라이트 필드(light field)라고도 함)에 관한 정보를 포함하지 않는다. 예를 들어 깊이는 획득 동안에 손실된다. 따라서, 종래의 캡처 디바이스는 장면으로부터의 광 분포에 관한 정보 중 대부분을 저장하지 않는다.

라이트 필드 캡처 디바이스("라이트 필드 데이터 획득 디바이스"라고도 함)는 해당 장면의 상이한 시점들에서 광을 캡처함으로써 장면의 4차원(4D) 라이트 필드를 측정하도록 설계되었다. 따라서, 광 센서와 교차하는 각각의 광 빔을 따라 이동하는 광량을 측정함으로써, 이러한 디바이스는 사후 처리를 통해 새로운 이미징 응용을 제공하기 위해 추가 광학 정보(광선 다발의 방향 분포에 대한 정보)를 캡처할 수 있다. 라이트 필드 캡처 디바이스에 의해 획득/취득되는 정보는 라이트 필드 데이터로서 지칭된다. 라이트 필드 캡처 디바이스는 명세서에서 라이트 필드 데이터를 캡처할 수 있는 임의의 디바이스로서 정의된다. 라이트 필드 캡처 디바이스에는 여러 유형이 있는데, 그 중에는 다음과 같은 유형이 있다:

US 2013/0222633 문서에 설명된 바와 같이, 이미지 센서와 메인 렌즈 사이에 배치된 마이크로렌즈 어레이를 사용하는 플렌옵틱 디바이스;

모든 카메라가 단일 공유 이미지 센서상으로 이미지를 맺는 카메라 어레이.

라이트 필드 데이터는 또한 종래의 핸드 헬드 카메라의 사용에 의해 각각이 상이한 시점에서 취해진 장면의 2-D 이미지들의 시리즈로부터 CGI(Computer Generated Imagery)로 시뮬레이션될 수 있다.

라이트 필드 데이터 처리는 특히, 장면의 리포커싱된 이미지들을 생성하고, 장면의 사시도들을 생성하고, 장면의 깊이 맵들을 생성하고, EDOF(extended depth of field) 이미지들을 생성하고, 입체 이미지들을 생성하며, 및/또는 이들의 임의의 조합을 포함하는데, 이것들에만 제한되지는 않는다.

본 개시는 보다 정확하게는, 「"핸드 헬드 플렌옵틱 카메라에 의한 라이트 필드 사진술" 스탠포드 대학 컴퓨터 과학 기술 리포트 CSTR 2005-02, no. 11 (April 2005)("Light field photography with a hand-held plenoptic camera" Standford University Computer Science Technical Report CSTR 2005-02, no. 11 (April 2005))」에서 R.Ng 등에 의해 개시되고, 도 1에 예시된 바와 같은 플렌옵틱 디바이스에 의해 캡처되는 라이트 필드 기반 이미지에 집중한다.

이러한 플렌옵틱 디바이스는 메인 렌즈(11), 마이크로렌즈 어레이(12) 및 광 센서(13)로 구성된다. 보다 정확하게는, 메인 렌즈는 피사체를 마이크로렌즈 어레이 상으로 (또는 그 근방으로) 포커싱한다. 마이크로렌즈 어레이(12)는 수렴 광선들을 그 배후에 있는 광 센서(13)상의 이미지로 분리한다.

마이크로 이미지(14)는 http://www.tgeorgiev.net/에 개시되고 도 2에 예시된 바와 같이 마이크로렌즈 어레이(12) 중 고려된 마이크로렌즈 배후의 광 센서상에 형성되는 이미지이고, 여기서 좌측상의 이미지는 미가공 데이터에 해당하고 우측상의 이미지는 특히 갈매기의 머리를 나타내는 마이크로 이미지들의 상세 부분들에 해당한다. 마이크로 이미지들의 해상도 및 개수는 센서에 대한 마이크로렌즈 크기에 의존한다. 보다 정확하게는, 마이크로 이미지 해상도는 디바이스 및 응용에 상당한 정도로 의존하여 변한다(2x2 픽셀에서 대략 100x100 픽셀에 이르기까지).

그런 다음, 모든 마이크로 이미지마다로부터 서브 애퍼처 이미지들이 재구축되는데, 이러한 재구축은 모든 마이크로 이미지마다로부터 병치된 픽셀들(collocated pixels)을 수집하는 것으로 구성된다. 마이크로렌즈가 더 많아질수록 서브 애퍼처 이미지의 해상도가 높아진다. 보다 정확하게는, 도 3에 예시된 바와 같이, 하나의 마이크로렌즈가 광 센서(15)의 N×N 픽셀과 중첩하는 것을 고려하면, N×N 뷰들의 매트릭스(17)는 i번째 뷰가 LxL 마이크로렌즈를 포함하는 마이크로렌즈 어레이(16)의 각각의 마이크로렌즈에 의해 중첩되는 모든 LxL i번째 픽셀을 포함한다는 것을 고려함으로써 취득되는데, 여기서 "x"는 곱셈 연산자이다.

보다 정확하게는, 도 3에서 L=8 및 N = 4이므로, 따라서 제1 뷰(300)는 고려된 마이크로렌즈 어레이의 64개의 마이크로렌즈의 각각의 마이크로렌즈에 의해 커버되는 16개의 픽셀 중 첫번째 픽셀을 포함할 것이다.

서브 애퍼처 이미지 재구축은 디모자이싱(de-mozaicing)을 필요로 한다. 미가공 플렌옵틱 재료로부터 뷰들의 매트릭스를 회수하는 기술은 「"라이트 필드 디멀티플렉싱 및 디스패리티 추정" 보완 문제들에 대한 국제회의 ICCP 2014("Light field demultiplexing and disparity estimation" International Conference on Complementary Problems ICCP 2014)」에서 N. Sabater 등에 의해 개시된 것처럼 현재 개발되고 있다.

플렌옵틱 디바이스와는 반대로, 펠리컨 이미징(Pelican Imaging®) 카메라와 같은 카메라 어레이 디바이스는 뷰들의 매트릭스를 직접 전달한다(즉, 디모자이싱이 없음).

이러한 라이트 필드 기반 이미지를 인코딩하기 위한 최신의 방법은 표준 이미지 또는 비디오 코덱(예: JPEG, JPEG-2000, MPEG4 Part 10 AVC, HEVC)을 사용하는 것으로 구성된다. 그러나 이러한 표준 코덱은 모든 방향마다에서 공간의 모든 지점마다에서의 광량("방사 휘도(radiance)")을 기록하는 라이트 필드 이미징(일명 플렌옵틱 데이터)의 특수성을 고려할 수 없다. 실제로, 기존 표준 이미지 또는 비디오 코덱(예: JPEG, JPEG-2000, MPEG4 Part 10 AVC, HEVC)을 적용하면 기존 이미징 포맷이 전달된다.

그러나, 이러한 더 풍부한 데이터 소스에 의해 제공되는 많은 새로운 라이트 필드 이미징 기능성들 중에서, 콘텐츠가 캡처된 후에 콘텐츠를 조작하는 능력이 있으며; 이러한 조작은 다른 목적, 특히 예술적, 태스크 기반 및 법의학적 목적을 가질 수 있다. 예를 들어, 사용자가 실시간으로 초점, 깊이 필드 및 입체 베이스 라인뿐만 아니라 뷰어 시점을 변경하는 것이 가능할 수 있다. 이러한 미디어 상호 작용 및 경험은 라이트 필드 기반 이미지를 인코딩/디코딩하기 위해 기존의 표준 이미지 또는 비디오 코덱을 사용하여 얻을 수 있는 기존 이미징 포맷으로는 활용 가능하지 않다.

따라서, 종래 기술의 이러한 단점을 나타내지 않는 라이트 필드 기반 이미지를 인코딩/디코딩하는 기술을 제공하는 것이 바람직할 것이다. 특히, 라이트 필드 기반 이미지로부터 취득되는 디코딩된 이미지들 중 관심 대상의 더욱 세밀한 렌더링을 허용할 수 있는 기술을 제공하는 것이 바람직할 것이다.

다음은 본 개시의 일부 양태의 기본적인 이해를 제공하기 위해 본 개시의 단순화된 요약을 제공한다. 이 요약은 개시에 대한 광범위한 개요는 아니다. 이는 개시의 핵심 요소 또는 중요 요소를 식별하기 위해 의도된 것이 아니다. 이하의 요약은 아래에 제공된 보다 상세한 설명의 서문으로서 간략한 형태로 본 개시의 일부 양태를 단순히 제공한다.

본 개시는 장면과 관련된 라이트 필드 데이터로부터 얻어진 뷰들의 매트릭스에 속하는 뷰의 적어도 하나의 픽셀들의 블록을 예측하는 방법으로 종래 기술의 결점 중 적어도 하나를 개선하고자 착수한다.

이러한 방법은 프로세서에 의해 구현되며 상기 픽셀들의 블록 중 예측할 적어도 하나의 픽셀에 대해:

상기 뷰들의 매트릭스로부터, 예측할 상기 적어도 하나의 픽셀이 속하는 적어도 하나의 에피폴라 평면 이미지(EPI: epipolar plane image)를 획득하는 단계와,

양방향 예측 모드들의 세트 중에서, 상기 적어도 하나의 에피폴라 평면 이미지에서 예측할 상기 적어도 하나의 픽셀에 이웃하는 이전의 재구축된 픽셀들의 세트로부터 적어도 하나의 최적 양방향 예측 모드를 결정하는 단계와,

상기 적어도 하나의 최적 양방향 예측 모드를 사용하여 보간을 수행함으로써 예측할 상기 적어도 하나의 픽셀의 예측 값을 획득하는 단계를 포함한다.

따라서, 본 개시는 장면과 관련된 라이트 필드 데이터로부터 얻어진 뷰들의 매트릭스에 속하는 뷰의 적어도 하나의 픽셀들의 블록을 예측하기 위한 신규하고 독창적인 접근법에 의존한다. 실제로, 본 개시는 에피폴라 평면 이미지 내부의 선형 구조들의 특정 특성들로부터 이익을 얻는다.

보다 정확하게는, 「"4D 라이트 필드들의 디스패리티 및 정규화의 변분 구조" pp 1003-1010 2013 IEEE 컴퓨터 비전 및 패턴 인식에 대한 회의("The Variational Structure of Disparity and Regularization of 4D Light Fields" pp 1003-1010 2013 IEEE Conference on Computer Vision and Pattern Recognition)」에서 B. Goldluecke 등에 의해 개시된 바와 같이, 수평(제각기 수직) 에피폴라 평면 이미지는 서로의 위에 상기 뷰의 매트릭스의 뷰들의 라인(제각기 열)을 따라 뷰들의 매트릭스의 모든 이미지를 스태킹(stacking)함으로서 구축된 2D 이미지이고, 각각의 스태킹된 뷰의 동일한 라인을 따라 (제각기 각각의 스태킹된 뷰의 동일한 열을 따라) 획득된 스택을 통과하는 컷(cut)에 대응한다.

수평 또는 수직과는 다른 또 다른 배향이 대응하는 EPI를 획득하기 위해 사용될 수 있다는 것을 유의해야 한다.

환언하면, 본 개시에 따르면, 상기 적어도 하나의 에피폴라 평면 이미지(EPI)는 수평 에피폴라 평면 이미지(EPI), 수직 에피폴라 평면 이미지(EPI) 또는 수평 또는 수직 에피폴라 평면 이미지에 대한 각도 배향을 나타내는 에피폴라 평면 이미지(EPI)(상기 각도 배향은 미리 결정되거나 또는 결정되지 않음)이다.

상기 적어도 하나의 에피폴라 평면 이미지에서 예측할 상기 적어도 하나의 픽셀에 이웃하는 이전의 재구축된 픽셀들의 세트로부터 양방향 예측 모드들(미리 결정되거나 또는 결정되지 않음)의 세트 중에서, (두 개의 예측 방향에 따라) 적어도 하나의 최적 양방향 예측 모드를 결정하는 단계는, 정확하게, 즉 H.264 표준 중 하나와 같은 종래 기술의 예측 방법에 따라서는 가능하지 않은 픽셀(또는 픽셀들의 블록보다 작은 픽셀들의 그룹) 해상도로 뷰들 간 상관들을 이용하는 것을 허용한다.

결과적으로, 에피폴라 평면 이미지들에 기초한 본 개시의 예측 모드 덕분에, 뷰들의 매트릭스를 제공하는 플렌옵틱 이미징의 특수성에 관하여 보다 최적인 예측 모드를 제공하는 것이 가능하다.

「"4D 라이트 필드들의 디스패리티 및 정규화의 변분 구조"」에서 B. Goldluecke는 인코딩/디코딩 과정 동안 픽셀들의 예측을 최적화하기 위해 에피폴라 평면 이미지를 사용하는 것을 목표로 삼거나 제안하지 않으며, 다만 라이트 필드의 4D 광선 공간상에서 더 일반적인 벡터 값 함수들의 정규화와 관련된 일관된 디스패리티 필드를 이루기 위해 에피폴라 평면 이미지 공간상의 벡터 필드에 대한 미분 제약 조건들을 유도하기 위해 에피폴라 평면 이미지를 사용한다는 것을 유의해야 한다.

에피폴라 평면 이미지들을 사용하면 장면의 4차원(4D) 라이트 필드의 속성들을 활용하는 것이 허용되는데, 그 이유는 이들의 구축이 해당 장면의 상이한 시점들, 즉 수평 에피폴라 평면 이미지에 대한 뷰들의 매트릭스의 동일 라인의, 수직 에피폴라 평면 이미지에 대한 뷰들의 매트릭스의 동일 열의, 또는 상기 뷰들의 매트릭스의 라인 또는 열에 대한 각도 배향을 나타내는 상기 뷰들의 매트릭스의 뷰들의 동일 세트의 시점들로부터 광을 나타내는 뷰들의 스태킹에 기초하기 때문이다.

본 개시의 제1 실시예에 따르면, 상기 최적 양방향 예측 모드를 결정하는 상기 단계는, 상기 픽셀들의 블록 중 예측할 적어도 하나의 픽셀에 대해:

상기 양방향 예측 모드들의 세트의 각각의 양방향 예측 모드를, 상기 적어도 하나의 에피폴라 평면 이미지에서 예측할 상기 적어도 하나의 픽셀에 이웃한 상기 이전의 재구축된 픽셀들의 세트에 적용하여 각각의 양방향 예측 모드에 대한 에너지 레벨을 획득하는 단계와,

그 에너지 레벨이 각각의 양방향 예측 모드에 대해 획득된 에너지 레벨들 중 최소치의 인수(argument)인 양방향 예측 모드에 대응하는 상기 최적 양방향 예측 모드를 선택하는 단계를 포함한다.

환언하면, 각각의 양방향 예측 모드는 상기 적어도 하나의 에피폴라 평면 이미지에서 예측할 상기 적어도 하나의 픽셀에 이웃하는 이전의 재구축된 픽셀들의 세트로부터 예측하도록 상기 적어도 하나의 픽셀의 예측 값을 보간하기 위한 두 개의 반대 방향과 연관된다.

사실상, 라이트 필드는 광선 공간상에서 정의되며 또한 풍부한 구조의 장면 기하 데이터를 암시적으로 나타내며, 이 구조는 그 에피폴라 평면 이미지상에서 볼 수 있게 된다. 따라서, 에피폴라 평면 이미지들은 특정한 방향성 구조들을 나타낸다. 본 개시에 따르면, 선택된 최적 양방향 예측 모드는 고려된 픽셀들의 블록을 예측하기 위해 픽셀에 대해 사용되는 고려된 에피폴라 평면 이미지의 방향성 구조에 대해 가장 적합화된 양방향 예측 모드에 대응한다.

제2 실시예에 따르면, 본 개시의 예측 방법은, 상기 픽셀들의 블록 내에서 예측할 픽셀들의 적어도 하나의 그룹을 제공하는 단계를 추가로 포함하고 - 상기 픽셀들의 그룹은 동일 라인의, 동일 열의 또는 상기 픽셀들의 블록의 라인 또는 열에 대해 각도 배향을 나타내는 적어도 2개의 픽셀의 세트의 적어도 2개의 픽셀을 포함함 -,

상기 최적 양방향 예측 모드를 결정하는 단계는:

상기 픽셀들의 그룹 중 예측할 적어도 하나의 픽셀에 대해, 상기 양방향 예측 모드들의 세트의 각각의 양방향 예측 모드를, 상기 적어도 하나의 에피폴라 평면 이미지에서 예측할 상기 적어도 하나의 픽셀에 이웃하는 상기 이전의 재구축된 픽셀들의 세트에 적용하여 각각의 양방향 예측 모드에 대한 에너지 레벨을 획득하는 단계와,

상기 픽셀들의 그룹에 속하는 예측할 모든 픽셀에 대해 동일한 최적 양방향 예측 모드를 선택하는 단계 -상기 최적 양방향 예측 모드는 그 에너지 레벨이 상기 픽셀들의 그룹 중 예측할 적어도 하나의 픽셀에 대해 획득되는 에너지 레벨들 중 최소치의 인수인 양방향 예측 모드에 대응함 -를 포함한다.

그러한 실시예에 따르면, 단일의 최적 양방향 예측 모드가 상기 그룹에 속하는 예측할 모든 픽셀에 대해 획득되기 때문에 구현된 선택은 강건하고, 이러한 최적 양방향 예측 모드는 각각의 양방향 예측 모드에 대해 그리고 상기 픽셀들의 그룹 중 예측할 적어도 하나의 픽셀에 대해 획득되는 에너지 레벨의 최소치의 인수인 에너지 레벨을 제시한다.

환언하면, 이전 실시예에서 고려한 것들보다 더 많은 획득된 에너지 레벨들을 고려함으로써 선택이 이뤄지고, 여기서 최적 양방향 예측 모드의 선택이 수행되어서 최적 양방향 예측 모드가 예측할 픽셀마다 획득되는데, 상기 픽셀들의 그룹에 속하는 예측할 모든 픽셀에 대해 획득되는 것은 아니다.

상기 제2 실시예의 특정 양태에 따르면, 상기 양방향 예측 모드들의 세트는 "DC" 양방향 예측 모드를 포함하며,

여기서 상기 "DC" 양방향 예측 모드의 제1 예측 방향과 연관된 제1 예측 값은 상기 적어도 하나의 에피폴라 평면 이미지에서 예측할 상기 픽셀들의 그룹에 이웃하는 상기 이전의 재구축된 픽셀들의 세트의 제1 부분에 속하는 픽셀들의 평균값이고,

여기서 상기 "DC" 양방향 예측 모드의 제2 예측 방향과 연관된 제2 예측 값은 상기 적어도 하나의 에피폴라 평면 이미지에서 예측할 상기 픽셀들의 그룹에 이웃하는 상기 이전의 재구축된 픽셀들의 세트의 제2 부분에 속하는 픽셀들의 평균값이고, 상기 제2 부분은 상기 제1 부분의 상보적 부분이다.

2개의 선행 실시예의 특정 양태에 따르면, 상기 에너지 레벨은 다음에 해당된다:

상기 양방향 예측 모드들의 세트의 각각의 양방향 예측 모드의 각각의 예측 방향과 연관된 각각의 예측 값 사이의 절대 차, 또는

상기 양방향 예측 모드들의 세트의 각각의 양방향 예측 모드의 각각의 예측 방향과 연관된 각각의 예측 값 사이의 제곱 절대 차.

2개의 선행 실시예의 제1 변형 예에 따르면, 예측할 하나의 픽셀이 속하는 적어도 2개의 에피폴라 평면 이미지(EPI: epipolar plane image)가 수평 에피폴라 평면 이미지(EPI) 및 수직 에피폴라 평면 이미지(EPI)에, 또는 상이한 각도 배향 에피폴라 평면 이미지들(EPI)의 세트에 대응할 때,

상기 수평 에피폴라 평면 이미지(EPI)에 대해 및 상기 수직 에피폴라 평면 이미지(EPI)에 대해, 또는 상기 상이한 각도 배향 에피폴라 평면 이미지들(EPI)의 세트에 대해 상기 최적 양방향 예측 모드를 결정하는 단계가 수행되고, 상기 최적 양방향 예측 모드는 그 에너지 레벨이 각각의 에피폴라 이미지에 대해 획득되는 에너지 레벨들 중 최소치의 인수인 양방향 예측 모드에 대응한다.

2개의 선행 실시예의 제2 변형 예에 따르면, 예측할 하나의 픽셀이 속하는 적어도 2개의 에피폴라 평면 이미지(EPI)가 수평 에피폴라 평면 이미지(EPI) 및 수직 에피폴라 평면 이미지(EPI)에, 또는 상이한 각도 배향 에피폴라 평면 이미지들(EPI)의 세트에 대응할 때,

최적 양방향 예측 모드는 각각의 에피폴라 이미지에 대해 결정되고, 예측할 상기 적어도 하나의 픽셀의 상기 예측 값은 각각의 에피폴라 이미지에 대해 결정된 상기 최적 양방향 예측 모드를 사용함으로써 제각기 획득되는 적어도 2개의 예측 값의 평균에 대응한다.

또한, 본 개시는 장면과 연관된 라이트 필드 데이터로부터 획득되는 뷰들의 매트릭스에 속하는 뷰의 적어도 하나의 픽셀들의 블록을 인코딩하는 방법에 관한 것이다. 이러한 방법은 프로세서에 의해 구현되며 다음을 포함한다:

예측된 픽셀들의 블록을 획득하기 위해 앞서 개시된 바와 같이 예측하는 방법에 따라 상기 적어도 하나의 픽셀들의 블록을 예측하는 단계와,

상기 적어도 하나의 픽셀들의 블록과 상기 예측된 픽셀들의 블록 사이의 차이에 대응하는 잔차 에러(residual error)를 결정하는 단계와,

상기 픽셀들의 블록과 연관되는 상기 잔차 에러를 인코딩하는 단계.

상기 인코딩 동안 구현되는 예측은 물론 이전에 기술된 바와 같이 본 개시의 상이한 실시예들 또는 변형 예들에 따른 예측 방법의 상이한 특징을 포함한다.

상기 인코딩 방법의 특정 양태에 따르면, 상기 인코딩 방법은 다음을 추가로 포함한다:

상기 장면과 연관되는 라이트 필드 데이터로부터 획득되는 상기 뷰들의 매트릭스를 나타내는 신호에 상기 잔차 에러를 삽입하는 단계와,

상기 픽셀들의 블록 내에서 예측할 적어도 하나의 픽셀들의 그룹을 나타내는 정보를 상기 신호에 삽입하는 단계.

본 개시의 또 다른 양태는 상기 장면과 연관된 라이트 필드 데이터로부터 획득되는 뷰들의 매트릭스의 적어도 하나의 픽셀들의 블록을 나타내는 신호에 관한 것으로, 상기 신호는 앞서 설명한 바와 같이 상기 인코딩하는 방법에 의해 획득되며, 상기 픽셀들의 블록 내에서 예측할 픽셀들의 적어도 하나의 그룹을 나타내는 정보가 상기 신호에 삽입된다.

본 개시의 또 다른 양태는 전술한 바와 같은 신호를 전달하는 기록 매체에 관한 것이다.

본 개시의 또 다른 양태는 장면과 연관된 라이트 필드 데이터로부터 획득되는 뷰들의 매트릭스에 속하는 뷰의 적어도 하나의 픽셀들의 블록을 나타내는 신호를 디코딩하는 방법에 관한 것이다.

이러한 방법은 프로세서에 의해 구현되며 다음을 포함한다:

상기 신호로부터 상기 픽셀들의 블록과 연관된 잔차 에러를 디코딩하는 단계와,

예측된 픽셀들의 블록을 획득하기 위해 앞서 개시된 바와 같이 예측하는 방법에 따라 상기 적어도 하나의 픽셀들의 블록을 예측하는 단계,

상기 잔차 에러를 상기 예측된 픽셀들의 블록에 가산함으로써 상기 적어도 하나의 픽셀들의 블록을 재구축하는 단계.

이러한 디코딩 방법은 상술한 인코딩 방법에 따라 인코딩된 신호를 디코딩하는 데 특히 적합하다.

이러한 방식으로, 주어진 픽셀들의 블록을 재구성하고 (신호에서 전송된) 예측 잔차를 선택적으로 예측에 가산함으로써 인코딩시에 수행된 것과 동일한 예측 단계가 수행된다.

상기 디코딩 방법의 특정 양태에 있어서, 상기 신호로부터, 상기 픽셀들의 블록 내에서 예측할 적어도 하나의 픽셀들의 그룹을 나타내는 정보를 추출하는 것이 가능한데, 상기 예측은 상기 정보를 고려한다.

본 개시의 또 다른 양태는 장면과 연관된 라이트 필드 데이터로부터 획득되는 뷰들의 매트릭스에 속하는 뷰의 적어도 하나의 픽셀들의 블록을 인코딩하는 디바이스에 관한 것으로, 상기 디바이스는 다음의 것들을 제어하도록 구성된 프로세서를 포함한다:

예측된 픽셀들의 블록을 획득하기 위해, 상기 적어도 하나의 픽셀들의 블록을 예측하기 위한 모듈 - 상기 모듈은 상기 픽셀들의 블록 중 예측할 적어도 하나의 픽셀에 대해,

상기 뷰들의 매트릭스로부터, 예측할 상기 적어도 하나의 픽셀이 속하는 적어도 하나의 에피폴라 평면 이미지(EPI)를 획득하기 위한 엔티티와,

상기 적어도 하나의 에피폴라 평면 이미지에서 예측할 상기 적어도 하나의 픽셀에 이웃하는 이전의 재구축된 픽셀들의 세트로부터 적어도 하나의 최적 양방향 예측 모드를, 양방향 예측 모드들의 세트 중에서 결정하기 위한 엔티티와,

상기 적어도 하나의 최적 양방향 예측 모드를 사용하여 보간을 수행함으로써 예측할 상기 적어도 하나의 픽셀의 예측 값을 획득하기 위한 엔티티를 포함함-,

상기 적어도 하나의 픽셀들의 블록과 상기 예측된 픽셀들의 블록 사이의 차이에 해당하는 잔차 에러를 결정하기 위한 모듈,

상기 픽셀들의 블록과 연관된 상기 잔차 에러를 인코딩하기 위한 모듈.

이러한 인코딩 디바이스는 전술한 바와 같이 인코딩하기 위한 방법을 구현하는데 특히 적합하다.

본 개시의 또 다른 양태는 장면과 연관된 라이트 필드 데이터로부터 획득되는 뷰들의 매트릭스에 속하는 뷰의 픽셀들의 적어도 하나의 픽셀들의 블록을 나타내는 신호를 디코딩하는 디바이스에 관한 것으로, 상기 디바이스는 다음의 것들을 제어하도록 구성되는 프로세서를 포함한다:

상기 픽셀들의 블록과 연관된 잔차 에러를 디코딩하기 위한 모듈,

상기 뷰들의 매트릭스로부터, 예측할 상기 적어도 하나의 픽셀과 연관되는 적어도 하나의 에피폴라 평면 이미지(EPI)를 획득하기 위한 엔티티와,

상기 예측된 픽셀들의 블록에 상기 잔차 에러를 가산함으로써 상기 적어도 하나의 픽셀들의 블록을 재구축하기 위한 모듈.

이러한 디코딩 디바이스는 전술한 바와 같은 디코딩 방법을 구현하는데 특히 적합하다.

따라서, 본 개시는 상기 방법들을 구현하도록 구성되는 프로세서를 포함하는 디바이스들에 관한 것이다.

그 양태들 중 다른 것에 따르면, 본 개시는 프로그램이 컴퓨터상에서 실행될 때 상기 방법들의 단계들을 실행하기 위한 프로그램 코드 명령어들을 포함하는 컴퓨터 프로그램 제품, 프로세서로 하여금 상기 방법들의 적어도 단계들을 수행하도록 야기하기 위한 명령어들을 그 가운데 저장한 프로세서 판독가능 매체, 및 상기 프로그램이 컴퓨팅 디바이스상에서 실행될 때 상기 방법들의 단계들을 실행하기 위한 프로그램 코드의 명령어들을 전달하는 비일시적 저장 매체에 관한 것이다.

본 개시의 특정 속성뿐만 아니라 본 개시의 다른 목적, 이점, 특징 및 용도는 첨부된 도면과 관련하여 취해지는 이하의 실시예들에 대한 설명으로부터 명백해질 것이다.

도면들에서, 본 개시의 실시예들이 예시된다. 이것은 다음을 보여준다:
도 1은 종래 기술과 관련하여 이미 제시된 것으로서 플렌옵틱 카메라의 개념도를 도시한다;
도 2는 종래 기술과 관련하여 이미 제시된 것으로서 플렌옵틱 카메라로 촬영된 화상의 예를 도시한다;
도 3은 종래 기술과 관련하여 이미 제시된 것으로서 제각기 카메라 센서(15), 마이크로렌즈 어레이(16) 및 뷰들의 매트릭스(17)를 도시한다;
도 4는 뷰들의 매트릭스로부터 획득되는 에피폴라 평면 이미지의 구축을 도시한다.
도 5는 본 개시에 따른 예측 방법의 주요 단계들의 다이어그램을 개략적으로 도시한다;
도 6a 및 6b는 본 개시의 2개의 실시예에 따른 최적 양방향 예측 모드 결정의 하위 단계들의 다이어그램을 개략적으로 도시한다;
도 7a 및 7b는 주어진 뷰에서 그리고 다음으로 고려된 에피폴라 평면 이미지에서 예측할 픽셀의 이웃하는 예측을 제각기 도시한다.
도 8은 미리 결정된 양방향 예측 모드들의 세트의 예를 도시한다.
도 9는 본 개시에 따른 인코딩 방법의 단계들의 다이어그램을 개략적으로 도시한다.
도 10은 본 개시에 따른 디코딩 방법의 단계들의 다이어그램을 개략적으로 도시한다.
도 11은 본 개시의 실시예에 따른 디바이스의 아키텍처 예를 도시한다.
유사한 또는 동일한 요소는 동일한 참조 번호로 참조된다.

5.1 일반적 원리

본 개시는 뷰들의 매트릭스의 EPI(Epipolar Plane Images) 표현에 기초하여 새로운 유형의 예측을 구현하는, 뷰들의 매트릭스의 이미지를 인코딩(또는 디코딩)하는 새로운 기술을 제안한다.

보다 정확하게는, 예측할 그리고 인코딩할 현재 픽셀에 이웃하는 에피폴라 평면 이미지들(EPI)의 인과적 재구축된 픽셀들로부터, 양방향 예측 모드들 중에서 최상의 방향이 발견되고, 그 후에 예측할 그리고 인코딩할 상기 현재 픽셀의 예측 값을 보간하는데 사용된다.

따라서, 본 개시에서 제안된 접근법은 에피폴라 평면 이미지들(EPI) 내부의 선형 구조들의 특정 특성들에 대처할 수 있고, 결과적으로 장면의 4차원(4D) 라이트 필드의 특성들을 활용하기에 적합할 수 있다.

본 개시는, 본 개시의 실시예들이 도시된 첨부된 도면들을 참조하여 보다 충분하게 후술될 것이다. 그러나, 본 개시는 많은 대안 형태로 구체화될 수 있으며 본 명세서에서 제시된 실시예들에만 한정되는 것으로 해석해서는 안 된다. 따라서, 본 개시는 다양한 수정 및 대안적 형태가 가능하지만, 그 특정 실시예들이 도면들에서 예로서 도시되며 본 명세서에 상세히 설명될 것이다. 그러나, 개시된 특정 형태로만 본 개시를 한정하려는 의도는 없지만, 반대로 본 개시는 청구 범위에 정의된 바와 같은 본 개시의 사상 및 범위 내에 드는 모든 수정, 균등물, 및 대안을 포괄하는 것으로 이해해야 한다.

본 명세서에서 사용되는 용어는 특정 실시예들을 설명하기 위한 것이며, 본 개시를 한정하는 것으로 의도된 것은 아니다. 본 명세서에서 사용된 대로는, 단수 형태("a", "an" 및 "the")는, 문맥상 명확히 다르게 지시하지 않는 한, 복수 형태도 포함하고자 의도된 것이다. 본 명세서에서 사용되는 경우, "포함하는(comprises) ", "포함하는(comprising)", "포함하는(includes)" 및/또는 "포함하는(including)"이라는 용어들은 명시된 특징, 정수, 단계, 동작, 요소 및/또는 구성 요소의 존재를 특정하지만, 하나 이상의 다른 특징, 정수, 단계, 동작, 요소, 구성 요소, 및/또는 이것들의 그룹의 존재 또는 추가를 배제하지 않는다. 더욱이, 한 요소가 다른 요소에 "응답하는" 또는 "연결되는" 것으로 언급될 때, 이것은 다른 요소에 직접 응답 가능하거나 연결될 수 있거나, 또는 개재 요소들이 존재할 수 있다. 대조적으로, 요소가 다른 요소에 "직접 응답하는" 또는 "직접 연결되는" 것으로 언급될 때, 어떤 개재 요소들도 존재하지 않는다. 본 명세서에 사용된 바와 같이, "및/또는"이라는 용어는 연관되고 열거된 아이템들 중 하나 이상의 것들의 임의의 및 모든 조합을 포함하며, "/"로 약칭될 수 있다.

제1, 제2 등의 용어가 본 명세서에서 다양한 요소를 설명하기 위해 사용될 수 있지만, 이들 요소는 이들 용어에 의해 제한되어서는 안 된다는 것을 이해할 것이다. 이들 용어는 하나의 요소를 다른 요소와 구별하기 위해서만 사용된다. 예를 들어, 제1 요소는 제2 요소로 지칭될 수 있고, 유사하게, 제2 요소는 본 개시의 교시를 벗어나지 않고 제1 요소로 지칭될 수 있다.

일부 다이어그램은 통신의 주요 방향을 보여주기 위해 통신 경로상의 화살표들을 포함할 수 있기는 하지만, 통신은 묘사된 화살표들과 반대 방향으로 발생할 수도 있음을 이해해야 한다.

일부 실시예는 블록도 및 동작 흐름도와 관련하여 설명되며, 여기서 각각의 블록은 회로 요소, 모듈, 또는 특정 논리적 기능(들)을 구현하기 위한 하나 이상의 실행 가능 명령어를 포함하는 코드 부분을 나타낸다. 또한, 다른 구현들에서, 블록들로 표시된 기능(들)은 명시된 순서를 벗어나 발생할 수 있음에 유의해야 한다. 예를 들어, 연속적으로 도시된 2개의 블록은 사실상 실질적으로 동시에 실행될 수 있거나 또는 블록들은 수반된 기능성에 의존하여 때때로 역순으로 실행될 수 있다.

본 명세서에서 "일 실시예" 또는 "실시예"에 대한 참조는 본 실시예와 관련하여 설명된 특정의 특징, 구조 또는 특성이 본 개시의 적어도 하나의 구현에 포함될 수 있음을 의미한다. 명세서의 다양한 곳에서 "일 실시예에서" 또는 "실시예에 따라"라는 문구의 출현은 모두 반드시 동일한 실시예를 지칭하는 것이 아니며, 별개의 또는 대안 실시예들은 다른 실시예들과 반드시 상호 배타적인 것은 아니다.

청구범위에 등장하는 참조 번호는 단지 설명을 위한 것이며 청구범위의 권리 범위를 제한하는 효과를 갖지 않는다.

명백하게 설명되지는 않았지만, 본 실시예 및 변형 예는 임의의 조합 또는 하위 조합으로 채택될 수 있다.

본 개시는 뷰들의 매트릭스 중 한 뷰의 픽셀들의 블록을 인코딩/디코딩하기 위한 것으로 설명되지만, 뷰들의 매트릭스의 시퀀스(플렌옵틱 비디오)를 인코딩/디코딩하는 것으로 확장되는데, 그 이유는 상기 시퀀스에 속하는 뷰들의 각각의 매트릭스의 각각의 뷰가 다음에 기술되는 바와 같이 순차적으로 인코딩/디코딩되기 때문이다.

5.2 예측 방법

도 5는 본 개시에 따라 예측하기 위한 방법(50)의 주요 단계들의 다이어그램을 개략적으로 도시하며, 상기 방법은 예측하기 위한 모듈에 의해 수행된다.

본 개시에 따르면, 도 3에 나타낸 바와 같이, 장면과 연관되는 라이트 필드 데이터로부터 획득되는 뷰들의 매트릭스(17)에 속하는 뷰(170)의 적어도 하나의 픽셀들의 블록을 예측하는 방법(50)은 프로세서에 의해 실행되고 및 첫째로 상기 픽셀들의 블록 중 예측할 적어도 하나의 픽셀에 대해, 획득용 엔티티를 사용함으로써 예측할 상기 적어도 하나의 픽셀과 연관된 적어도 하나의 에피폴라 평면 이미지(EPI)를 획득하는 단계(51)를 포함한다. 예측할 적어도 하나의 픽셀은 적어도 하나의 에피폴라 평면 이미지(EPI)에 속한다.

상기 획득 단계(51)는 도 4에 예시되고 「"4D 라이트 필드들의 디스패리티 및 정규화의 변분 구조" pp 1003-1010 2013 IEEE 컴퓨터 비전 및 패턴 인식에 대한 회의("The Variational Structure of Disparity and Regularization of 4D Light Fields" pp 1003-1010 2013 IEEE Conference on Computer Vision and Pattern Recognition)」에서 B. Goldluecke 등에 의해 개시된다.

뷰들의 매트릭스(17)는 장면(4000)의 이미지들의 모음으로서 4D 라이트 필드를 나타내는데, 여기서 카메라들의 초점들은 2D 평면에 놓여 있다.

에피폴라 평면 이미지를 획득하는 단계(51)는 서로의 위에 시점들의 라인(40)을 따라 모든 이미지를 스태킹하는 것으로 구성되는데, 즉, 라인(40)의 첫 번째 이미지(41)는 화살표(410)로 나타낸 바와 같이 스택(400) 위에 있는 반면에 라인(40)의 마지막 이미지(42)는 화살표(420)로 나타낸 바와 같이 스택(400) 아래에 있다. 그 다음, 이 스택(400)을 통과하는 컷(cut)(401)이 각각의 뷰의 동일한 라인(43)을 따라 수행된다. 이러한 컷은 수평 에피폴라 평면 이미지(EPI)이다.

다시 말하면, 제각기 라인 및 열의 인덱스들 v, u의 BxD 뷰(도 4b에서 B=D=5)로 구성된 뷰들의 매트릭스, 및 제각기 라인 및 열의 인덱스들 t, s의 크기 LxC 픽셀의 각각의 뷰들을 고려하면, 도 4에 나타낸 바와 같이, 크기 DxC의 v = 0,..., B-1인 수평 EPI

는 모든 v번째 서브 이미지들의 t번째 행을 스태킹함으로써 실현된다. 다시 말해, 에피폴라 평면 이미지는 뷰들(17)의 매트릭스의 (u, v) 평면(고정된 v 좌표가 라인(40)에 대응함)의 라인을 따라 모든 뷰로부터의 뷰 라인들(고정된 t 좌표가 뷰 라인 (43)에 대응함)을, 어느 하나를 다른 것 위에 스태킹함으로써 구축되는 2D 이미지이다.

유사하게, 크기 LxB의 u = 0,..., D-1인 수직 EPI

는 모든 u번째 서브 이미지의 s번째 열을 스태킹함으로써 실현된다.

따라서, 제안된 개시는 고려된 픽셀들의 블록 중 예측할 적어도 하나의 픽셀에 대하여 적어도 하나의 에피폴라 평면 이미지에서 주어진 뷰들의 매트릭스 중 한 뷰를 예측하는 것을 제공한다.

상기 적어도 하나의 에피폴라 평면 이미지(EPI)는 수평 에피폴라 평면 이미지(EPI), 수직 에피폴라 평면 이미지(EPI), 또는 수평 또는 수직 에피폴라 평면 이미지에 대하여 미리 결정된 각도 배향을 나타내는 에피폴라 평면 이미지(EPI)일 수 있다.

예측할 고려된 픽셀은 수평 에피폴라 평면 이미지(EPI) 및 수직 에피폴라 평면 이미지(EPI)에, 또는 상이한 각도 배향 에피폴라 평면 이미지들(EPI)의 세트에 대응하는 적어도 2개의 에피폴라 평면 이미지(EPI)에 속할 수 있다.

일단 예측할 고려된 픽셀에 대해 적어도 하나의 에피폴라 평면 이미지가 획득되면(51), 미리 결정된 양방향 예측 모드들의 세트 중에서 그리고 상기 적어도 하나의 에피폴라 평면 이미지(54)에서 예측할 상기 적어도 하나의 픽셀에 이웃하는 이전의 재구축된 픽셀들의 세트로부터 적어도 하나의 최적 양방향 예측 모드를 결정하는 단계(52)가 결정을 위한 엔티티를 사용하여 수행된다.

상기 결정(52)의 2개의 실시예가 제각기 도 6a 및 6b에 도시되어 있다.

보다 정확하게는, 도 6a에 나타낸 제1 실시예에 따르면, N개의 픽셀을 포함하는 상기 픽셀들의 블록 중 예측할 적어도 하나의 픽셀에 대해, 최적 양방향 예측 모드의 선택(62)이 M개의 미리 결정된 양방향 예측 모드의 세트(6000) 중에서 수행된다.

특히, 본 개시에 따르면, 그러한 선택은 예측할 고려된 픽셀이 속하는 적어도 하나의 에피폴라 평면 이미지에서 예측할 상기 적어도 하나의 픽셀에 이웃하는 이전의 재구축된 픽셀들의 세트(6001)를 고려함으로써 수행된다 .

주어진 뷰에서, 그리고 나서 고려된 에피폴라 평면 이미지에서만 예측할 상기 적어도 하나의 픽셀의 예측 이웃은 도 7a 및 7b에 제각기 예시된다.

예를 들어, 도 7a는 도 4에 나타낸 바와 같이 뷰(17)의 매트릭스의 뷰들의 라인들(40)의 중간 뷰(44)를 나타낸다.

특히, L = 6 (6 라인) 및 C = 13 (13 열)인 크기 LxC 픽셀의 상기 뷰(44)에서, 픽셀들의 블록(70)이 고려된다. 이러한 블록(70)은, 예를 들어 상기 뷰(44)의 미리 재구축된 픽셀들인, 삼각형들에 의해 표현되는 픽셀들(71)에 의해 둘러싸여 있다.

또한, 유리하게는, 본 개시에 따르면, 예측할 픽셀들의 블록(70)의 픽셀들(701)은, 굵은 점들로 표현되는, 또한 이전에 재구축된 픽셀들인 수평 에피폴라 평면 이미지에서의 픽셀들(7000)에 의해 또한 둘러싸여 있다. 이러한 에피폴라 평면 이미지들은 장면의 4차원(4D) 라이트 필드의 속성을 활용하는 것을 허용한다.

에피폴라 평면 이미지의 획득(51)에 관해 앞서 설명한 바와 같이, 고려된 뷰의 각각의 라인(제각기 열)에 대해 상이한 수평(제각기 수직) 이미지가 획득된다. 다시 말하면, 고려된 블록(70)의 상부 라인에 위치한 픽셀들(702)은 수평 에피폴라 평면 이미지

에 속한다.

본 발명의 제1 변형 예에 따르면, 상기 픽셀들의 블록(70)에 속하는 각각의 픽셀들에 대해, 예측 값은, 상기 적어도 하나의 에피폴라 평면 이미지에서 예측할 상기 픽셀에 이웃하는 이전의 재구축된 픽셀들의 세트로부터 결정된 적어도 하나의 최적 양방향 예측 모드를 사용함으로써 외삽된다.

따라서, 이 제1 변형 예에 따르면, 픽셀들의 블록(70)에 대해 예측할 모든 픽셀들이 에피폴라 평면 이미지들에 대응하는 차원에서 예측된다.

제2 변형 예에 따르면, 예측 값은, 상기 픽셀들의 블록(70)에 속하는 픽셀들의 제1 부분만에 대해 상기 적어도 하나의 에피폴라 평면 이미지에서 예측할 고려된 픽셀에 이웃하는 이전의 재구축된 픽셀들의 세트로부터 결정된 적어도 하나의 최적 양방향 예측 모드를 사용함으로써 외삽된다.

일단 상기 픽셀들의 블록(70)에 속하는 픽셀들의 상기 제1 부분에 대해 에피폴라 평면 이미지들을 사용하여 예측 값들이 획득되면, 상기 예측 값들은 이후 어떤 예측 값도 아직 획득되지 않은 상기 픽셀들의 블록(70)에 속하는 픽셀들의 다른 부분을 예측하는데 사용된다.

어떤 예측 값도 그에 대해 아직 획득되지 않은 상기 픽셀들의 블록(70)에 속하는 픽셀들의 다른 부분의 상기 예측은, 예를 들어 H.264 표준의 인트라 예측 모드로부터 유도된 고전적 예측 모드를 사용함으로써(그럼에도 불구하고 이 인트라 예측 모드에 대응하는 부가 정보가 디코더에 전송될 것을 요구함) 또는 더 단순하게는 공간 보간을 사용함으로써(디코더가, 일단 예측할 픽셀들의 부분이 에피폴라 평면 이미지들을 사용하여 재구축되었다면 그러한 공간 보간이 수행되어야만 한다는 것을 디폴트로 알기 때문에 더 적은 부가 정보를 필요로 함) 수행된다.

보다 정확하게는, 공간 보간에 따라, 예측할 픽셀의 예측 값은, 예를 들어, 그것에 직접적으로든 또는 그렇지 않든 이웃하는 2개 이상의 픽셀의 값들의 평균 또는 가중치에 해당하고, 상기 이웃하는 픽셀들은 이미 재구축되거나(71) 또는 상기 제1 부분에 속하며 따라서 이미 예측 값에 연관되어 있다.

예를 들어, 수평 (제각기 수직) 공간 보간에 따라, 예측할 픽셀의 예측 값은, 예를 들어, 그것에 수평으로 (제각기 수직으로) 직접적으로 이웃한, 이미 예측 값과 연관되거나 또는 이미 재구축된 2개 이상의 픽셀의 값들의 평균 또는 가중치에 해당한다.

공간 보간이 수행되는 이 경우에, 예측 값은 또한 픽셀들의 상기 블록(70)에 직접 이웃하는 예측할 픽셀들에 대해 획득될 수 있어서(예를 들어, 에피폴라 평면 이미지들을 사용하여 상기 블록(70) 아래에 직접 위치하는 예측할 픽셀들의 라인에 대해 예측할 픽셀들) 다음의 공간 보간 동안에 상기 블록(70) 중 예측할 픽셀에는 이미 예측 값과 연관된 또는 이미 재구축된, 공간 보간을 수행하는데 필요한 다수의 픽셀이 이웃하게 된다.

따라서, 이 제2 변형 예에 따르면, 픽셀들의 블록(70) 중 예측할 픽셀들의 부분은 에피폴라 평면 이미지들에 대응하는 차원에서 먼저 예측되고, 픽셀들의 다른 부분은 어떠한 에피폴라 평면 이미지들도 사용하지 않고서 뷰 내에서 수행되는 공간 보간을 사용하여 예측된다.

예를 들어, 이 제2 변형 예에 따르면, 예측할 픽셀들의 고려된 블록(70)에 대해, 2개의 픽셀상의 하나에 대한 예측 값은 에피폴라 평면 이미지들로부터 결정되는 양방향 예측 모드를 사용하여 획득된다.

따라서, 픽셀들의 블록(70)의 2개의 픽셀상의 다른 하나는 예측을 위해 남겨진다. 이러한 예측할 잔여 픽셀들에 대해, 에피폴라 평면 이미지들을 사용하여 예측 값을 외삽하는 것은, 예를 들어 고려된 뷰의 재구축된 픽셀들(71)의 세트 및 에피폴라 평면 이미지들을 사용하여 그에 대해 예측 값이 획득된 픽셀들의 상기 블록(70)의 픽셀들을 이용하여 수행되는 수평 공간 보간을 사용함으로써 대체될 수 있다.

픽셀들의 상기 블록(70)에 대해 예측할 잔여 픽셀들의 일부에 대해, 어떤 예측 값도 획득되지 않을 수 있는 것이 가능하다. 이 경우, 예측 값이 그에 대해 획득된 잔여 픽셀들의 픽셀들은, 이 경우에 수직 보간 등을 사용하여 상기 블록(70)을 예측하기 위해 잔여 픽셀들을 예측하기 위해 다음 반복에서 이후 사용된다.

양방향 예측을 고려하면, 고려된 블록(70)의 상부 라인에 위치한 4개의 픽셀(702)은 수평 에피폴라 평면 이미지에서 이전에 재구축된 픽셀들(7000)에 의해 둘러싸이는데, 이 평면 이미지는 예측할 이들 4개의 픽셀(702)의 상부상의 부분

및 하부에서의 부분

의 2개의 부분으로 분할될 수 있다.

도 7b는 수평 에피폴라 평면 이미지

에서 이전에 재구축된 픽셀들(7000)로 둘러싸인 고려된 블록(70)의 제1 라인에 대해 예측할 픽셀들(702)만을 나타낸다. 이미 설명된 바와 같이, 이전에 재구축된 픽셀들(7000) 중에서, 삼각형으로 표현된 일부 재구축된 픽셀들(71)은 예측할 픽셀들(702)과 동일한 라인에서의 동일한 뷰에 속한다. 예측할 픽셀들(701)에 이웃하는 이전의 재구축된 픽셀들의 세트(7000)는, 상부의 구역인

, 예측할 픽셀(701)과 동일한 뷰에 속하는 재구축된 픽셀들(71)을 가진 좌측상의 구역, 하부의 구역인

을 포함하는 "U 구역"에 대응한다.

수평 에피폴라 평면 이미지

에서 예측할 픽셀들(702)의 환경과 관련하여, 본 개시는 에피폴라 평면 이미지의 특정한 방향성 속성을 활용하는 새로운 양방향 예측 모드들을 사용한다.

미리 결정된 양방향 예측 모드들의 세트의 예가 도 8에 예시되어 있다. 에피폴라 평면 이미지에서 이전에 재구축된 픽셀을 사용하는 다른 예들이 쉽게 도출될 수 있다. 알 수 있는 바와 같이, 이들 양방향 예측 모드들 모두에 따르면, 2개의 예측 방향이, 에피폴라 평면 이미지

의 제각기 상부

에 및 하부

에 위치하는 이전에 재구축된 픽셀들로부터 시작하는 2개의 화살표로 예시된다.

이러한 양방향 예측 모드들의 예들은 H.264 표준의 인트라 4x4 예측에 의해 개시되는 것들과 유사한 것으로서 간주될 수 있지만, 본 개시에 따르면 이러한 모드들은 에피폴라 평면 이미지에서 이전에 재구축된 픽셀들을 사용하여 정의되는데, 이는 장면의 4차원(4D) 라이트 필드의 특성들을 활용하는 것을 허용한다는 것을 잘 유의해야만 한다.

또한, H.264의 인트라 4x4 예측의 모드 1은 양방향 예측 모드들을 지향하는 본 개시에 따른 예측에 적합하지 않다는 것을 알 수 있다.

각각의 미리 결정된 양방향 예측 모드의 각각의 예측 방향과 연관된 휘도의 예측 값은 다음과 같이 구축된다(도 8 참조):

- 각각의 모드의 상부 방향들(즉, 에피폴라 평면 이미지

의 제각기 상부

에 및 하부

에 위치한 이전에 재구축된 픽셀들로부터 시작하는 화살표):

●

- 각각의 모드의 하부 방향들(즉, 에피폴라 평면 이미지

의 제각기 상부

에 및 하부

●

● "p(x, y)"는 도 7b의 4개의 픽셀(701) 제각기에 대한 좌표들 (0, 0), (1,0), (2,0) 및 (3,0)에 대해 예측할 현재 픽셀.

● "*"는 곱셈 연산자에 해당한다.

● ">> n"은 2ⁿ에 의한 정수 나눗셈이다.

본 개시에 따른 예측의 방향들은 도 8에 나타낸 바와 같은 8가지 방향에 한정되지 않는다는 것을 유의해야만 한다. 다른 방향들이 예측 값들을 획득하기 위한 적응된 수학식에 의해 가능하다.

도 6a에 나타낸 결정 단계(52)의 제1 실시예와 관련하여, 그러한 결정 단계(52)는 상기 미리 결정된 양방향 예측 모드들의 세트의 각각의 미리 결정된 양방향 예측 모드를, 상기 적어도 하나의 에피폴라 평면 이미지에서 예측할 상기 적어도 하나의 픽셀에 이웃하는 이전의 재구축된 픽셀들의 상기 세트(7000)에 적용하여 각각의 양방향 예측 모드에 대한 에너지 레벨을 획득하는 단계(61)를 포함한다.

이러한 에너지 레벨들은 각각의 양방향 예측 모드와 연관된 2개의 방향(즉, 상부

으로부터 오는 화살표 및 하부

로부터 오는 다른 화살표) 간의 공간 그래디언트들에 대응한다.

공간 그래디언트들의 에너지 레벨을 계산하는 단계는 예측할 상기 적어도 하나의 픽셀(701)에 이웃하는 이전의 재구축된 픽셀들에 대해 수행되고, 상기 에너지 레벨은 다음에 대응한다:

- 상기 미리 결정된 양방향 예측 모드들의 세트의 각각의 미리 결정된 양방향 예측 모드의 각각의 예측 방향과 연관된 각각의 예측 값 사이의 절대 차:

또는

- 상기 미리 결정된 양방향 예측 모드들의 세트의 각각의 미리 결정된 양방향 예측 모드의 각각의 예측 방향과 연관된 각각의 예측 값 사이의 제곱 절대 차:

일단 (예를 들어, 도 8의 M=8의 M개의 예측 모드 중 인덱스 j의) 각각의 양방향 예측 모드에 대한 에너지 레벨이 획득되면(61), 이후 최적 양방향 예측 모드가 선택된다.

이러한 선택(63)은 보다 낮은 에너지 레벨들을 갖는 공간 그래디언트들을 갖는 방향들을 검출하는 것으로 이루어지며, 이러한 에너지 레벨들은 상술한 바와 같은 전위 컨튜어들(potential contours)과 동일선상에서 계산된다.

다시 말해, 최적 양방향 예측 모드는 그 에너지 레벨이 다음과 같은 각각의 양방향 예측 모드에 대해 획득되는 에너지 레벨들 중 최소치의 인수인 양방향 예측 모드에 대응한다:

실제로, 에피폴라 평면 이미지에서 예측할 픽셀에 이웃하는 컨튜어가 수직 컨튜어라면, 휘도 예측 값

와 휘도 예측 값 은 가까워져서, 매우 낮은 값의 에너지 E ₀ 를 이끌어낸다.

도 6a의 제1 실시예와 관련하여, 적어도 하나의 픽셀에 대해 (상기 픽셀들의 블록의 N개의 픽셀 중 인덱스 i에 대해) 예측하기 위해, 최적 양방향 예측 모드의 선택(62)이 M개의 미리 결정된 양방향 예측 모드의 세트(6000) 중에서 수행된다.

도 6b에 의해 예시된 제2 실시예에 따르면, 본 개시의 예측 방법은 상기 픽셀들의 블록 B_Pix 내에서 예측할 적어도 하나의 픽셀들의 그룹 G_Pix를 제공하는 단계(60)를 추가로 포함하는데, 상기 픽셀들의 그룹 G_Pix는 동일 라인의, 동일 열의, 또는 상기 픽셀들의 블록의 라인 또는 열에 대해 미리 결정된 각도 배향을 나타내는 적어도 2개의 픽셀 세트의 적어도 2개의 픽셀 Pg를 포함한다.

이하에서, 상기 픽셀들의 그룹 G_Pix는 G개의 픽셀을 포함하는 것으로 고려된다. 예를 들어, 이러한 픽셀들의 그룹 G_Pix는 도 7b에 나타낸 것과 동일한 라인에 대해 예측하기 위해 4개의 픽셀 Pg(702)에 대응할 수 있다.

도 6b의 제2 실시예는 도 6a의 제1 실시예와 선택 단계(6200)에 의해 달라진다. 실제로, 제2 실시예에 따르면, 상기 픽셀들의 그룹에 속하는 예측할 모든 픽셀에 대해 동일한 최적 양방향 예측 모드가 선택되는데(6200), 상기 최적 양방향 예측 모드는 그 에너지 레벨이 상기 픽셀들의 그룹 중 예측할 적어도 하나의 픽셀에 대해 획득되는 에너지 레벨들 중 최소치의 인수인 양방향 예측 모드에 대응한다.

다시 말해서, 이 제2 실시예에서는 MxG 에너지 레벨을 고려함으로써 상기 픽셀들의 그룹 G_Pix에 속하는 모든 픽셀에 대해 최적 양방향 예측 모드가 선택되는 반면, 제1 실시예에서는 M 개의 에너지 레벨을 고려함으로써 예측할 픽셀마다 최적 양방향 예측 모드가 선택된다.

상기 픽셀들의 블록 B_Pix 내에서 예측할 적어도 하나의 픽셀들의 그룹 G_Pix를 제공(60)하는 이 제2 실시예의 특정 양태에 따르면, 상기 미리 결정된 양방향 예측 모드들의 세트(6000)는 "DC" 양방향 예측 모드에 대응하는 모드 2를 추가로 포함하는데, 여기서 상기 "DC" 양방향 예측 모드의 제1 예측 방향과 연관된 제1 예측 값

은 상기 적어도 하나의 에피폴라 평면 이미지에서 예측할 상기 픽셀들의 그룹 G_Pix에 이웃하는 이전의 재구축된 픽셀들의 상기 세트(7000)의 상부

에 속하는 픽셀들의 평균값이고, 및 여기서 상기 "DC" 양방향 예측 모드의 제2 예측 방향과 연관된 제2 예측 값

은 상기 적어도 하나의 에피폴라 평면 이미지에서 예측할 상기 픽셀들의 그룹 G_Pix에 이웃하는 이전의 재구축된 픽셀들의 상기 세트(7000)의 하부

에 속하는 픽셀들의 평균값이고, 상기 제2 부분은 상기 제1 부분의 상보적인 부분이다.

도 6a 및 도 6b에 예시된 이들 두 개의 실시예의 제1 변형 예에 따르면, 적어도 2개의 에피폴라 평면 이미지(EPI)가 수평 에피폴라 평면 이미지(EPI) 및 수직 에피폴라 평면 이미지(EPI)에, 또는 예측할 하나의 픽셀이 속하는, 상이한 각도 배향의 에피폴라 평면 이미지들 (EPI)의 세트에 대응할 때, 상기 최적 양방향 예측 모드를 결정하는 단계(52)는 상기 수평 에피폴라 평면 이미지(EPI)에 대해 및 상기 수직 에피폴라 평면 이미지(EPI)에 대해, 또는 상이한 각도 배향의 에피폴라 평면 이미지들(EPI)의 세트에 대해 수행되고, 상기 최적 양방향 예측 모드는 그 에너지 레벨이 다음과 같은 각각의 에피폴라 평면 이미지에 대해 획득된 에너지 레벨들 중 최소치의 인수인 양방향 예측 모드에 대응한다:

동일한 경우에, 이전의 2개의 실시예의 제2 변형 예에 따르면, 최적 양방향 예측 모드는 각각의 에피폴라 평면 이미지에 대해 결정되고(52), 예측할 상기 적어도 하나의 픽셀의 상기 예측 값은 각각의 에피폴라 평면 이미지에 대해 결정된 상기 최적 양방향 예측 모드를 사용하여 제각기 획득되는 적어도 2개의 예측 값의 평균에 해당한다.

일단 도 6a 및 도 6b에 예시된 2개의 실시예 중 하나에 따라 적어도 하나의 최적 양방향 예측 모드가 결정되면(52), 예측할 상기 적어도 하나의 픽셀의 휘도 예측 값

은 다음과 같이 상기 적어도 하나의 최적 양방향 예측 모드를 이용하여 보간을 수행함으로써 획득된다(53):

상기 보간은 보간을 위한 엔티티에 의해 수행된다.

제1 실시예를 고려하면, 예를 들면, 모드들

,

및

이 좌표들 (0,0), (1,0), (2,0) 및 (3,0) 에 대해 예측할 픽셀에 대해 제각기 선택될 것이다.

●

또는

●

제2 실시예를 고려하면, 예를 들어, 좌표들 (0,0), (1,0), (2,0) 및 (3,0) 에 대해 예측하기 위해 네 개의 픽셀에 대해 제각기 단일 모드

이 선택될 것이다.

●

, 및

●

5.3 인코딩 방법

전술한 바와 같은 예측 기술은 뷰 매트릭스의 인코더에 의해 사용될 수 있다. 실제로, 본 개시는 뷰들의 매트릭스의 이미지를 인코딩(제각기 디코딩)하는 방법을 제공하는 것을 목적으로 하며, 이 목적을 위해, 상기에 개시된 바와 같이, 뷰들의 매트릭스의 에피폴라 평면 이미지들(EPI) 표현에 기초하여 새로운 유형의 예측을 사용한다.

에피폴라 평면 이미지들(EPI)에 기초한 이러한 새로운 유형의 예측은, 예를 들어 「하이브리드 비디오 코더 제어에서의 라그랑즈 승수 선택" pp 542-545 vol.3 IEEE 이미지 처리에 대한 국제회의 2001("Lagrange Multiplier Selection in Hybrid Video Coder Control" pp 542-545 vol.3 IEEE International Conference on Image processing 2001)」에서 T.Wiegand 등에 의해 개시된 레이트 왜곡 최적화(Rate Distortion Optimization) 기준을 사용하는 다른 고전적 유형의 예측들 중에서 자동적으로 선택된다.

도 9를 참조하면, 하나의 특정 실시예에서, 이러한 인코더는 장면과 연관된 라이트 필드 데이터로부터 획득되는 뷰의 매트릭스에 대해 다음의 단계들을 구현한다:

예측된 픽셀들의 블록을 획득하기 위해 앞서 개시된 바와 같이 예측하는 방법에 따라 상기 적어도 하나의 픽셀들의 블록을 예측하는 단계(50),

결정하기 위한 모듈을 사용하여, 상기 적어도 하나의 픽셀들의 블록과 상기 예측된 픽셀들의 블록 사이의 차이에 대응하는 잔차 에러를 결정하는 단계(101),

인코딩을 위한 모듈을 사용하여 상기 픽셀들의 블록과 연관된 상기 잔차 에러를 인코딩하는 단계(102).

인코딩(102) 동안, 잔차 에러는 변환되고 양자화되고 최종적으로 엔트로피 코딩된다.

선택적으로 (점선들로 표현된 바와 같이), 인코딩 방법은 다음을 추가로 포함한다:

상기 장면과 연관되는 라이트 필드 데이터로부터 획득되는 상기 뷰들의 매트릭스를 나타내는 신호에 상기 인코딩된 잔차 에러를 삽입하는 단계(103),

상기 픽셀들의 블록 내에서 예측할 적어도 하나의 픽셀들의 그룹을 나타내는 정보를 상기 신호에 삽입하는 단계(104).

특히, 이러한 옵션은 예측 방법의 제2 실시예가 수행될 때 구현된다. 따라서, 상기 픽셀들의 블록 내에서 예측할 적어도 하나의 픽셀들의 그룹을 나타내는 정보를 포함하는 특정 신호가 획득된다.

5.4 디코딩 방법

이제 도 10을 참조하면, 뷰들의 매트릭스를 디코딩하기에 적합한 디코더에서 구현되는 디코딩의 주요 단계가 제시된다.

디코더는 예를 들어 위에 설명된 인코딩 방법에 따라 인코딩된 뷰들의 매트릭스를 나타내는 신호를 수신한다고 가정한다.

도 9는 신호가 (점선으로 나타낸 바와 같이) 선택적으로 적어도 하나의 예측 잔차 및 상기 픽셀들의 블록 내에서 예측할 적어도 하나의 픽셀들의 그룹을 나타내는 정보를 포함하는 디코딩 방법을 도시한다.

따라서, 이 실시예에서, 본 개시에 따른 디코딩 방법은:

상기 신호로부터, 디코딩하기 위한 모듈을 사용하여 상기 픽셀들의 블록과 연관된 잔차 에러를 디코딩하는 단계(111)와,

예측하기 위한 모듈을 이용하여 예측된 픽셀들의 블록을 획득하기 위해 제1항 내지 제8항 중 어느 한 항에 따른 예측 방법에 따라 상기 적어도 하나의 픽셀들의 블록을 예측하는 단계(112)와,

재구축을 위한 모듈을 사용하여 상기 잔차 에러를 상기 예측된 픽셀들의 블록에 가산함으로써 상기 적어도 하나의 픽셀들의 블록을 재구축하는 단계(113)를 포함하고,

또한 상기 신호로부터 상기 픽셀들의 블록 내에서 예측할 적어도 하나의 픽셀들의 그룹을 나타내는 정보를 추출하는 단계(114)를 추가로 포함하고, 상기 예측은 상기 정보를 고려한다.

디코딩(111) 동안, 잔차 에러는 인코딩 동안 수행되는 프로세스에 대해 역변환 및 역 양자화된다.

5.5 예측을 위한 모듈, 인코더 및 디코더를 위한 구조

도 5, 6a 및 6b, 9 및 10에서, 모듈들은 식별 가능한 물리적 유닛들과 관련될 수도 있고 또는 관련되지 않을 수도 있는 기능 유닛들이다. 예를 들어, 이러한 모듈들 또는 이들 중 일부는 단일 컴포넌트 또는 회로에 통합되거나, 또는 소프트웨어의 기능성들에 기여할 수 있다. 대조적으로, 일부 모듈들은 잠재적으로 별개의 물리적 엔티티들로 구성될 수 있다. 본 개시와 호환 가능한 장치는 순수 하드웨어, 예를 들어 제각기 <<Application Specific Integrated Circuit>>, <<Field-Programmable Gate Array>>, <<Very Large Scale Integration>>인 ASIC 또는 FPGA 또는 VLSI와 같은 전용 하드웨어를 사용하여, 또는 디바이스에 임베디드된 여러 통합 전자 컴포넌트로부터, 또는 하드웨어와 소프트웨어 컴포넌트들의 혼합으로 구현된다.

도 11은 도 1-8과 관련하여 기술된 예측 방법, 도 9와 관련한 인코딩 방법, 또는 도 10과 관련한 디코딩 방법을 구현하도록 구성될 수 있는 디바이스(1300)의 예시적 아키텍처를 나타낸다.

디바이스(1300)는 데이터 및 어드레스 버스(1301)에 의해 함께 링크된 다음 요소들을 포함한다:

- 예를 들어 DSP(또는 Digital Signal Processor)인 마이크로프로세서(1303)(또는 CPU);

- ROM (또는 Read Only Memory)(1302);

- RAM (또는 Random Access Memory)(1304);

- 애플리케이션으로부터의 데이터의 송신 및/또는 수신을 위한 I/O 인터페이스(1305); 및

- 배터리(1306).

변형 예에 따르면, 배터리(1306)는 디바이스 외부에 있다. 도 11의 이들 요소 각각은 통상의 기술자에게 잘 알려져 있으므로 더 이상 개시되지는 않을 것이다. 언급된 메모리 각각에서, 본 명세서에서 사용되는 단어 <<레지스터>>는 작은 용량(일부 비트)의 영역에 또는 매우 큰 영역(예를 들어, 전체 프로그램 또는 많은 양의 수신된 또는 디코딩된 데이터)에 대응할 수 있다. ROM(1302)은 적어도 하나의 프로그램 및 파라미터들을 포함한다. 본 개시에 따른 방법들의 알고리즘은 ROM(1302)에 저장된다. 스위치 온될 때, CPU(1303)는 프로그램을 RAM에 업로드하고 대응하는 명령어들을 실행한다.

RAM(1304)은, 레지스터 내에, 디바이스(1300)의 스위치 온 이후 CPU(1303)에 의해 실행되고 업로딩되는 프로그램, 레지스터 내의 입력 데이터, 레지스터 내의 메소드의 상이한 상태들의 중간 데이터, 및 레지스터 내에서 메소드의 실행에 사용되는 다른 변수들을 포함한다.

본 명세서에서 설명된 구현 예들은, 예를 들어 방법 또는 프로세스, 장치, 소프트웨어 프로그램, 데이터 스트림 또는 신호로 구현될 수 있다. 단일 형태의 구현 예의 맥락에서만 논의되었지만(예를 들어, 방법 또는 디바이스로서만 논의됨), 논의된 특징들의 구현은 다른 형태들(예를 들어, 프로그램)로 구현될 수도 있다. 장치는 예를 들어 적절한 하드웨어, 소프트웨어 및 펌웨어로 구현될 수 있다. 방법들은, 예를 들어 컴퓨터, 마이크로프로세서, 집적 회로 또는 프로그램가능 로직 디바이스를 포함하는 일반적으로 처리 디바이스들을 지칭하는, 예를 들어 프로세서와 같은 장치에서 구현될 수 있다. 프로세서는 또한, 예를 들어 컴퓨터, 셀 폰, 휴대용/개인 휴대 정보 단말기("PDA") 및 최종 사용자들 사이의 정보 통신을 용이하게 하는 다른 디바이스와 같은 통신 디바이스를 포함한다.

인코딩 또는 인코더의 특정 실시예에 따르면, 상기 뷰들의 매트릭스는 소스로부터 획득된다. 예를 들어, 소스는 다음을 포함하는 세트에 속한다.

- 로컬 메모리(1302 또는 1304), 예로서 비디오 메모리 또는 RAM(또는 Random Access Memory), 플래시 메모리, ROM(또는 Read Only Memory), 하드 디스크;

- 저장 인터페이스, 예로서 대용량 스토리지, RAM, 플래시 메모리, ROM, 광 디스크 또는 자기 서포트(magnetic support)와의 인터페이스;

- 통신 인터페이스(1305), 예로서 유선 인터페이스(예를 들어, 버스 인터페이스, 광역 네트워크 인터페이스, 근거리 네트워크 인터페이스) 또는 무선 인터페이스(예를 들어, IEEE 802.11 인터페이스 또는 블루투스^® 인터페이스); 및

- 화상 캡처링 회로(예로서, 예를 들어, CCD(또는 Charge-Coupled Device) 또는 CMOS(또는 Complementary Metal-Oxide-Semiconductor)와 같은 센서).

- 디코딩 또는 디코더의 상이한 실시예들에 따르면, 디코딩된 뷰들의 매트릭스는 목적지로 전송되고; 구체적으로는, 목적지는 다음을 포함하는 세트에 속한다:

- 디스플레이.

인코딩 또는 인코더의 다른 실시예들에 따르면, 상기 인코더에 의해 전달되는 비트스트림은 목적지로 전송된다. 예로서, 상기 비트스트림은 로컬 또는 원격 메모리, 예를 들어 비디오 메모리(1304) 또는 RAM(1304), 하드 디스크(1302)에 저장된다. 변형 예에서, 상기 비트스트림은 저장 인터페이스, 예를 들어 대용량 스토리지, 플래시 메모리, ROM, 광 디스크 또는 자기 서포트와의 인터페이스에 전송되고 및/또는 통신 인터페이스(1305), 예를 들어, 포인트 투 포인트 링크, 통신 버스, 포인트 투 멀티포인트 링크 또는 브로드캐스트 네트워크에 대한 인터페이스를 통해 송신된다.

디코딩 또는 디코더의 상이한 실시예들에 따르면, 비트스트림은 소스로부터 획득된다. 예시적으로, 비트스트림은 로컬 메모리, 예를 들어, 비디오 메모리(1304), RAM(1304), ROM(1302), 플래시 메모리(1302) 또는 하드 디스크(1302)로부터 판독된다. 변형 예에서, 비트스트림은 저장 인터페이스, 예를 들어 대용량 스토리지, RAM, ROM, 플래시 메모리, 광 디스크 또는 자기 서포트와의 인터페이스로부터 수신되고 및/또는, 통신 인터페이스(1305), 예를 들어 포인트 투 포인트 링크, 버스, 포인트 투 멀티포인트 링크 또는 브로드캐스트 네트워크에 대한 인터페이스로부터 수신된다.

본 명세서에 설명된 다양한 프로세스 및 특징의 구현은 다양하고 상이한 장비 또는 애플리케이션으로 구체화될 수 있다. 이러한 장비의 예들은 인코더, 디코더, 디코더로부터의 출력을 처리하는 포스트 프로세서, 인코더에 입력을 제공하는 프리 프로세서, 비디오 코더, 비디오 디코더, 비디오 코덱, 웹 서버, 셋톱 박스, 랩톱, 개인용 컴퓨터, 셀폰, PDA, 및 화상 또는 비디오를 처리하기 위한 임의의 다른 디바이스 또는 다른 통신 디바이스들을 포함한다. 명백한 것처럼, 장비는 이동식일 수 있고 심지어 이동식 차량에 설치될 수 있다.

게다가, 그 방법들은 프로세서에 의해 수행되고 있는 명령어들에 의해 구현될 수 있고, 이러한 명령어들(및/또는 구현 예에 의해 생성된 데이터 값들)은 컴퓨터 판독가능 저장 매체상에 저장될 수 있다. 컴퓨터 판독 가능 저장 매체는 하나 이상의 컴퓨터 판독 가능 매체(들) 내에 구현되고 컴퓨터에 의해 실행 가능한 컴퓨터 판독 가능 프로그램 코드가 구현되어 있는 컴퓨터 판독 가능 프로그램 제품의 형태를 취할 수 있다. 본 명세서에 사용되는 컴퓨터 판독 가능 저장 매체는 그 안에 정보를 저장하기 위한 고유 능력은 물론 그로부터 정보의 검색을 제공하기 위한 고유 능력이 주어진다면 비일시적인 저장 매체로 간주된다. 컴퓨터 판독가능 저장 매체는, 예를 들어 전자, 자기, 광학, 전자기, 적외선, 또는 반도체 시스템, 장치, 또는 디바이스, 또는 이것들의 임의의 적절한 조합일 수 있지만, 이들로 제한되지는 않는다. 다음의 것들은 본 발명의 원리가 적용될 수 있는 컴퓨터 판독 가능 저장 매체의 보다 구체적인 예들을 제공하기는 하지만, 통상의 기술자가 용이하게 이해할 수 있듯이 단지 예시적인 것이고 총망라하는 목록이 아님을 이해해야 한다: 휴대용 컴퓨터 디스켓; 하드 디스크; ROM(read-only memory); 소거 가능 프로그래머블 판독 전용 메모리(EPROM 또는 플래시 메모리); 휴대용 콤팩트 디스크 판독 전용 메모리(CD-ROM); 광학 저장 디바이스; 자기 저장 디바이스; 또는 앞의 것들의 임의의 적절한 조합.

명령어들은 프로세서 판독 가능 매체상에 유형적으로 구체화되는 애플리케이션 프로그램을 형성할 수 있다.

명령어들은 예를 들어 하드웨어, 펌웨어, 소프트웨어 또는 이들의 조합일 수 있다. 명령어들은 예를 들어 운영 체제, 별도의 애플리케이션, 또는 이 둘의 조합에서 발견될 수 있다. 따라서, 프로세서는 프로세스를 수행하도록 구성된 디바이스 및 프로세스를 수행하기 위한 명령어들을 갖는 프로세서 판독 가능 매체(예를 들어, 저장 디바이스)를 포함하는 디바이스 모두로서 특징지어질 수 있다. 또한, 프로세서 판독 가능 매체는 명령어들에 추가하여 또는 명령어들을 대신하여, 구현에 의해 생성된 데이터 값들을 저장할 수 있다.

통상의 기술자에게 명백한 바와 같이, 구현들은 예를 들어 저장되거나 또는 전송될 수 있는 정보를 운반하도록 포맷팅된 다양한 신호들을 생성할 수 있다. 정보는 예를 들어 방법을 수행하기 위한 명령어들 또는 기술된 구현들 중 하나에 의해 생성된 데이터를 포함할 수 있다. 예를 들어, 신호는 설명된 실시예의 신택스를 기록 또는 판독하기 위한 규칙들을 데이터로서 운반하거나 또는 설명된 실시예에 의해 기록된 실제 신택스 값들을 데이터로서 운반하도록 포맷팅될 수 있다. 이러한 신호는, 예를 들어 전자기파로서(예를 들어, 스펙트럼의 무선 주파수 부분을 사용) 또는 기저 대역 신호로서 포맷팅될 수 있다. 포맷팅은, 예를 들어 데이터 스트림을 인코딩하고 인코딩된 데이터 스트림으로 캐리어를 변조하는 것을 포함할 수 있다. 신호가 운반하는 정보는 예를 들어, 아날로그 또는 디지털 정보일 수 있다. 신호는 알려진 바와 같이 다양하고 상이한 유선 또는 무선 링크를 통해 송신될 수 있다. 신호는 프로세서 판독 가능 매체에 저장될 수 있다.

다수의 구현이 설명되었다. 그럼에도 불구하고, 다양한 수정이 이루어질 수 있음이 이해될 것이다. 예를 들어, 상이한 구현들의 요소들은 결합, 보충, 수정 또는 제거되어 다른 구현들을 생성할 수 있다. 게다가, 통상의 기술자는 다른 구조들 및 프로세스들이 개시된 것들을 대체할 수 있고 결과적 구현들이 적어도 실질적으로 개시된 구현들과 동일한 결과(들)를 달성하기 위해 적어도 실질적으로 동일한 기능(들)을 적어도 실질적으로 동일한 방식(들)으로 수행할 것임을 이해할 것이다. 따라서, 이들 및 다른 구현 예가 이 출원에 의해 상정된다.

Claims

장면과 연관되는 라이트 필드 데이터(light-field data)로부터 획득되는 뷰들의 매트릭스에 속하는 뷰의 적어도 하나의 픽셀들의 블록을 예측하는 방법으로서,
상기 방법은 프로세서에 의해 구현되고 상기 픽셀들의 블록 중 예측할 적어도 하나의 픽셀에 대해:
상기 뷰들의 매트릭스로부터, 예측할 상기 적어도 하나의 픽셀이 속하는 적어도 하나의 에피폴라 평면 이미지(EPI: epipolar plane image)를 획득하는 단계와,
양방향 예측 모드들의 세트 중에서, 상기 적어도 하나의 에피폴라 평면 이미지에서 예측할 상기 적어도 하나의 픽셀에 이웃하는 이전의 재구축된 픽셀들의 세트로부터 적어도 하나의 최적 양방향 예측 모드를 결정하는 단계와,
상기 적어도 하나의 최적 양방향 예측 모드를 사용하여 보간을 수행함으로써 예측할 상기 적어도 하나의 픽셀의 예측 값을 획득하는 단계를 포함하는 예측 방법.
제1항에 있어서, 상기 최적 양방향 예측 모드를 결정하는 단계는, 상기 픽셀들의 블록 중 예측할 적어도 하나의 픽셀에 대해:
상기 양방향 예측 모드들의 세트의 각각의 양방향 예측 모드를, 상기 적어도 하나의 에피폴라 평면 이미지에서 예측할 상기 적어도 하나의 픽셀에 이웃하는 상기 이전의 재구축된 픽셀들의 세트에 적용하여 각각의 양방향 예측 모드에 대한 에너지 레벨을 획득하는 단계와 - 적어도 2개의 방향 사이의 공간 그래디언트들에 대응하는 상기 에너지 레벨은 각각의 양방향 예측 모드에 속함 -,
그 에너지 레벨이 각각의 양방향 예측 모드에 대해 획득된 에너지 레벨들 중 최소치의 인수(argument)인 양방향 예측 모드에 대응하는 상기 최적 양방향 예측 모드를 선택하는 단계를 포함하는
예측 방법.
제1항에 있어서, 상기 픽셀들의 블록 내에서 예측할 적어도 하나의 픽셀들의 그룹을 제공하는 단계를 추가로 포함하고 - 상기 픽셀들의 그룹은 동일 라인의, 동일 열의 또는 상기 픽셀들의 블록의 라인 또는 열에 대해 각도 배향을 나타내는 적어도 2개의 픽셀의 세트의 적어도 2개의 픽셀을 포함함 -,
상기 최적 양방향 예측 모드를 결정하는 단계는:
상기 픽셀들의 그룹 중 예측할 적어도 하나의 픽셀에 대해, 상기 양방향 예측 모드들의 세트의 각각의 미리 결정된 양방향 예측 모드를, 상기 적어도 하나의 에피폴라 평면 이미지에서 예측할 상기 적어도 하나의 픽셀에 이웃하는 상기 이전의 재구축된 픽셀들의 세트에 적용하여 각각의 양방향 예측 모드에 대한 에너지 레벨을 획득하는 단계와,
상기 픽셀들의 그룹에 속하는 예측할 모든 픽셀에 대해 동일한 최적 양방향 예측 모드를 선택하는 단계 - 상기 최적 양방향 예측 모드는 그 에너지 레벨이 상기 픽셀들의 그룹 중 예측할 적어도 하나의 픽셀에 대해 획득되는 에너지 레벨들 중 최소치의 인수인 양방향 예측 모드에 대응함 - 를 포함하는
예측 방법.
제2항 내지 제3항 중 어느 한 항에 있어서,
예측할 하나의 픽셀이 속하는 적어도 2개의 에피폴라 평면 이미지(EPI)가 수평 에피폴라 평면 이미지(EPI) 및 수직 에피폴라 평면 이미지(EPI)에, 또는 상이한 각도 배향의 에피폴라 평면 이미지들(EPI)의 세트에 대응할 때,
상기 수평 에피폴라 평면 이미지(EPI)에 대해 및 상기 수직 에피폴라 평면 이미지(EPI)에 대해, 또는 상기 상이한 각도 배향의 에피폴라 평면 이미지들(EPI)의 세트에 대해 상기 최적 양방향 예측 모드를 결정하는 단계가 수행되고, 상기 최적 양방향 예측 모드는 그 에너지 레벨이 적어도 하나의 에피폴라 이미지에 대해 획득되는 에너지 레벨들 중 최소치의 인수인 양방향 예측 모드에 대응하는
예측 방법.
제2항 내지 제4항 중 어느 한 항에 있어서,
예측할 하나의 픽셀이 속하는 적어도 2개의 에피폴라 평면 이미지(EPI)가 수평 에피폴라 평면 이미지(EPI) 및 수직 에피폴라 평면 이미지(EPI)에, 또는 상이한 각도 배향의 에피폴라 평면 이미지들(EPI)의 세트에 대응할 때,
최적 양방향 예측 모드가 각각의 에피폴라 이미지에 대해 결정되고, 예측할 상기 적어도 하나의 픽셀의 상기 예측 값은 적어도 2개의 에피폴라 이미지에 대해 결정된 상기 최적 양방향 예측 모드를 사용함으로써 제각기 획득되는 적어도 2개의 예측 값의 평균에 대응하는
예측 방법.
장면과 연관된 라이트 필드 데이터로부터 획득되는 뷰들의 매트릭스에 속하는 뷰의 적어도 하나의 픽셀들의 블록을 인코딩하는 방법으로서, 상기 방법은 프로세서에 의해 구현되고:
제1항 내지 제5항 중 어느 한 항에 따른 예측 방법에 따라 상기 적어도 하나의 픽셀들의 블록을 예측하여 예측된 픽셀들의 블록을 획득하는 단계와,
상기 적어도 하나의 픽셀들의 블록과 상기 예측된 픽셀들의 블록 사이의 차이에 대응하는 잔차 에러(residual error)를 결정하는 단계와,
상기 픽셀들의 블록과 연관되는 상기 잔차 에러를 인코딩하는 단계를 포함하는 인코딩 방법.
제6항에 있어서,
상기 장면과 연관되는 라이트 필드 데이터로부터 획득되는 상기 뷰들의 매트릭스를 나타내는 신호에 상기 잔차 에러를 삽입하는 단계와,
상기 픽셀들의 블록 내에서 예측할 적어도 하나의 픽셀들의 그룹을 나타내는 정보를 상기 신호에 삽입하는 단계를 추가로 포함하는 인코딩 방법.
장면과 연관되는 라이트 필드 데이터로부터 획득되는 뷰들의 매트릭스에 속하는 뷰의 적어도 하나의 픽셀들의 블록을 나타내는 신호를 디코딩하는 방법으로서,
상기 방법은 프로세서에 의해 구현되고:
상기 신호로부터 상기 픽셀들의 블록과 연관된 잔차 에러를 디코딩하는 단계와,
제1항 내지 제8항 중 어느 한 항에 따른 예측 방법에 따라 상기 적어도 하나의 픽셀들의 블록을 예측하여 예측된 픽셀들의 블록을 획득하는 단계와,
상기 잔차 에러를 상기 예측된 픽셀들의 블록에 가산함으로써 상기 적어도 하나의 픽셀들의 블록을 재구축하는 단계를 포함하는 디코딩 방법.
제8항에 있어서, 상기 픽셀들의 블록 내에서 예측할 적어도 하나의 픽셀들의 그룹의 형성을 나타내는 정보를 상기 신호로부터 추출하는 단계를 추가로 포함하고, 상기 예측은 상기 정보를 고려하는
디코딩 방법.
장면과 연관되는 라이트 필드 데이터로부터 획득되는 뷰들의 매트릭스에 속하는 뷰의 적어도 하나의 픽셀들의 블록을 인코딩하는 디바이스로서, 상기 디바이스는:
예측된 픽셀들의 블록을 획득하기 위해 상기 적어도 하나의 픽셀들의 블록을 예측하기 위한 모듈 -상기 모듈은 상기 픽셀들의 블록 중 예측할 각각의 픽셀에 대해,
상기 뷰들의 매트릭스로부터, 예측할 상기 적어도 하나의 픽셀이 속하는 적어도 하나의 에피폴라 평면 이미지(EPI)를 획득하기 위한 엔티티와,
상기 적어도 하나의 에피폴라 평면 이미지에서 예측할 상기 적어도 하나의 픽셀에 이웃하는 이전의 재구축된 픽셀들의 세트로부터 적어도 하나의 최적 양방향 예측 모드를, 양방향 예측 모드들의 세트 중에서 결정하기 위한 엔티티와,
상기 적어도 하나의 최적 양방향 예측 모드를 사용하여 보간을 수행함으로써 예측할 상기 적어도 하나의 픽셀의 예측 값을 획득하기 위한 엔티티를 포함함 -,
상기 적어도 하나의 픽셀들의 블록과 상기 예측된 픽셀들의 블록 사이의 차이에 해당하는 잔차 에러를 결정하기 위한 모듈,
상기 픽셀들의 블록과 연관된 상기 잔차 에러를 인코딩하기 위한 모듈
을 제어하도록 구성되는 프로세서를 포함하는 인코딩 디바이스.
제10항에 있어서,
상기 장면과 연관되는 라이트 필드 데이터로부터 획득되는 상기 뷰들의 매트릭스를 나타내는 신호에 상기 잔차 에러를 삽입하기 위한 모듈과,
상기 픽셀들의 블록 내에서 예측할 적어도 하나의 픽셀들의 그룹을 나타내는 정보를 상기 신호에 삽입하는 모듈을 추가로 포함하는 인코딩 디바이스.
장면과 연관되는 라이트 필드 데이터로부터 획득되는 뷰들의 매트릭스에 속하는 뷰의 적어도 하나의 픽셀들의 블록을 나타내는 신호를 디코딩하는 디바이스로서, 상기 디바이스는:
상기 픽셀들의 블록과 연관된 잔차 에러를 디코딩하기 위한 모듈,
예측된 픽셀들의 블록을 획득하기 위해, 상기 적어도 하나의 픽셀들의 블록을 예측하기 위한 모듈 - 상기 모듈은 상기 픽셀들의 블록 중 예측할 적어도 하나의 픽셀에 대해,
상기 뷰들의 매트릭스로부터, 예측할 상기 적어도 하나의 픽셀이 속하는 적어도 하나의 에피폴라 평면 이미지(EPI)를 획득하기 위한 엔티티와,
상기 적어도 하나의 에피폴라 평면 이미지에서 예측할 상기 적어도 하나의 픽셀에 이웃하는 이전의 재구축된 픽셀들의 세트로부터 적어도 하나의 최적 양방향 예측 모드를, 양방향 예측 모드들의 세트 중에서 결정하기 위한 엔티티와,
상기 적어도 하나의 최적 양방향 예측 모드를 사용하여 보간을 수행함으로써 예측할 상기 적어도 하나의 픽셀의 예측 값을 획득하기 위한 엔티티를 포함함 -,
상기 예측된 픽셀들의 블록에 상기 잔차 에러를 가산함으로써 상기 적어도 하나의 픽셀들의 블록을 재구축하기 위한 모듈
을 제어하도록 구성되는 프로세서를 포함하는 디코딩 디바이스.
제12항에 있어서, 상기 픽셀들의 블록 내에서 예측할 적어도 하나의 픽셀들의 그룹의 형성을 나타내는 정보를 상기 신호로부터 추출하는 모듈을 추가로 포함하고, 상기 예측은 상기 정보를 고려하는 디코딩 디바이스.
제1항 내지 제5항, 또는 제6항 내지 제7항, 또는 제8항 내지 제9항 중 어느 한 항에 따른 방법을 구현하기 위한 프로그램 코드 명령어들을 포함하는, 통신 네트워크로부터 다운로드 가능하고 및/또는 컴퓨터에 의해 판독 가능한 매체상에 기록되고 및/또는 프로세서에 의해 실행 가능한 컴퓨터 프로그램 제품.
제1항 내지 제5항, 또는 제6항 내지 제7항, 또는 제8항 내지 제9항 중 어느 한 항에 따른 방법을 구현하기 위한 프로그램 코드 명령어들을 포함하는, 프로세서에 의해 실행될 수 있는 컴퓨터 프로그램 제품이 기록되어 있는 비일시적 컴퓨터 판독 가능 매체.