KR20180049028A - 광 필드 기반 이미지를 인코딩 및 디코딩하기 위한 방법과 디바이스, 및 대응하는 컴퓨터 프로그램 제품 - Google Patents
광 필드 기반 이미지를 인코딩 및 디코딩하기 위한 방법과 디바이스, 및 대응하는 컴퓨터 프로그램 제품 Download PDFInfo
- Publication number
- KR20180049028A KR20180049028A KR1020187009543A KR20187009543A KR20180049028A KR 20180049028 A KR20180049028 A KR 20180049028A KR 1020187009543 A KR1020187009543 A KR 1020187009543A KR 20187009543 A KR20187009543 A KR 20187009543A KR 20180049028 A KR20180049028 A KR 20180049028A
- Authority
- KR
- South Korea
- Prior art keywords
- image
- stack
- current focus
- focus stack
- encoding
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000004590 computer program Methods 0.000 title claims description 9
- 230000003287 optical effect Effects 0.000 title description 44
- 230000015654 memory Effects 0.000 claims description 30
- 238000004891 communication Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 12
- 230000002123 temporal effect Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 8
- 238000003384 imaging method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000011664 signaling Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 229920001690 polydopamine Polymers 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000000153 supplemental effect Effects 0.000 description 2
- 241000272194 Ciconiiformes Species 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000005669 field effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/111—Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
- H04N13/117—Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/161—Encoding, multiplexing or demultiplexing different image signal components
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/105—Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/162—User input
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/172—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/182—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
하나의 이미지로부터 다른 이미지까지의 상이한 초점 거리에서 초점이 맞춰진 이미지들의 세트를 포함하는 현재 초점 스택을 인코딩하기 위한 방법이 개시되어 있다.
본 개시 내용에 따르면, 이 방법은 현재 초점 스택의 이미지를 나타내는 정보를 인코딩하고 - 이미지는 이미지 선명도 기준에 따라 현재 초점 스택에서 선택됨 -, 이미지를 재구성된 이미지로 재구성하는 단계(31), 적어도 재구성된 이미지로부터의 예측에 의해 현재 초점 스택의 적어도 다른 이미지를 인코딩하는 단계(32)를 포함한다.
본 개시 내용에 따르면, 이 방법은 현재 초점 스택의 이미지를 나타내는 정보를 인코딩하고 - 이미지는 이미지 선명도 기준에 따라 현재 초점 스택에서 선택됨 -, 이미지를 재구성된 이미지로 재구성하는 단계(31), 적어도 재구성된 이미지로부터의 예측에 의해 현재 초점 스택의 적어도 다른 이미지를 인코딩하는 단계(32)를 포함한다.
Description
본 개시 내용은 광 필드 이미징(light field imaging)에 관한 것이며 광 필드 데이터를 취득하고 처리하기 위한 기술들에 관한 것이다. 보다 정확하게는, 본 개시 내용은 일반적으로 광 필드 기반 이미지를 인코딩 및 디코딩하고 이미지 또는 비디오의 인코딩/디코딩 영역(즉, 이미지 또는 비디오의 압축/압축 해제)에서 애플리케이션들을 발견하기 위한 방법 및 장치에 관한 것이다.
본 란은 이하에서 설명되고/되거나 청구되는 본 개시 내용의 다양한 양태들과 관련될 수 있는 관련 기술의 다양한 양태들을 독자에게 소개하기 위해 의도된 것이다. 본 논의는 독자에게 본 발명의 다양한 양태들의 보다 나은 이해를 용이하게 하는 배경 정보를 제공하는데 도움이 될 것으로 믿어진다. 따라서, 이러한 진술들이 종래 기술의 인정이 아니라 이런 관점에서 읽혀져야 한다는 점을 이해해야 한다.
기존의 이미지 캡처 디바이스들은 3차원 장면을 2차원 센서 상에 렌더링한다. 동작 중에, 기존의 캡처 디바이스는 2차원(2D) 이미지를 캡처하여 디바이스 내의 광센서(또는 광검출기)에 도달하는 광의 양을 나타낸다. 그러나, 이 2D 이미지는 광센서에 도달하는 광선들의 방향 분포(광 필드로도 지칭될 수 있음)에 관한 정보를 포함하지 않는다. 예를 들어, 취득 중에 심도가 손실된다. 따라서, 기존의 캡처 디바이스는 장면으로부터의 광 분포에 관한 정보의 대부분을 저장하지 않는다.
("광 필드 데이터 취득 디바이스들"로도 지칭되는) 광 필드 캡처 디바이스들은 해당 장면의 상이한 시점들(viewpoints)에서 광을 캡처하여 그 장면의 4차원(4D) 광 필드를 측정하도록 설계되었다. 따라서, 광센서와 교차하는 각각의 광빔을 따라 이동하는 광의 양을 측정함으로써, 이러한 디바이스들은 후처리를 통해 새로운 이미징 애플리케이션들을 제공하기 위한 추가 광학 정보(광선 다발의 방향 분포에 관한 정보)를 캡처할 수 있다. 광 필드 캡처 디바이스에 의해 취득/획득된 정보는 광 필드 데이터로 지칭된다. 광 필드 캡처 디바이스들은 본 명세서에서 광 필드 데이터를 캡처할 수 있는 임의의 디바이스들로 정의된다. 여러 유형들의 광 필드 캡처 디바이스들이 존재하며, 그 중에는 다음과 같은 것이 있다:
- 문서 US2013/0222633에서 설명된 바와 같은, 이미지 센서와 메인 렌즈 사이에 배치된 마이크로렌즈 어레이를 이용하는 플렌옵틱 디바이스들(plenoptic devices);
- 각각의 카메라가 자체 이미지 센서 상에 이미징하는 카메라 어레이.
기존의 휴대용 카메라의 이용에 의해 상이한 시점에서 각각 취해진 장면의 (동일한 장면을 나타내는 두 개의 서로 다른 이미지가 상이한 시점들에서 캡처될 때의 뷰들이라고 불리는) 일련의 2D 이미지들로부터의 광 필드 데이터는 또한 CGI(Computer Generated Imagery)로 시뮬레이팅될 수 있다.
광 필드 데이터 처리는, 장면의 재초점된(refocused) 이미지들을 생성하는 것, 장면의 원근 뷰(perspective view)들을 생성하는 것, 장면의 심도 맵들을 생성하는 것, 연장된 피사계 심도(extended depth of field: EDOF) 이미지들을 생성하는 것, 입체 이미지들을 생성하는 것, 및/또는 이들의 임의의 조합을 특히 포함하지만, 이들에 제한되지는 않는다.
본 개시 내용은 "Light field photography with a hand-held plenoptic camera" Standford University Computer Science Technical Report CSTR 2005-02, no. 11(2005년 4월)에서 R. Ng 등에 의해 개시되고 도 1에 도시된 바와 같이 플렌옵틱 디바이스에 의해 캡처된 광 필드 기반 이미지에 더 정확하게 초점을 맞추고 있다.
이러한 플렌옵틱 디바이스는 메인 렌즈(11), 마이크로렌즈 어레이(12) 및 광센서(13)로 구성된다. 보다 정확하게는, 메인 렌즈는 피사체를 마이크로렌즈 어레이 상에(또는 근방에) 초점을 맞춘다. 마이크로렌즈 어레이(12)는 수렴 광선들을 그 뒤에 있는 광센서(13) 상의 이미지로 분리시킨다.
플렌옵틱 디바이스와는 달리, Pelican Imaging® 카메라와 같은 카메라 어레이 디바이스들은 뷰들의 매트릭스들을 직접(즉, 디모자이크 처리 없이) 전달한다.
일반적으로, 4차원(4D) 광 필드는 각각이 상이한 초점 거리에 초점을 맞춘 이미지들의 모음을 포함하는 초점 스택을 이용하여 처리된다. 이러한 초점 스택은 후처리에 의해 이용자가 이미지들의 초점을 변경할 수 있게 한다.
(플렌옵틱 카메라, 카메라 어레이에 의해 취득되거나 CGI로 시뮬레이팅되는지에 상관없이) 광 필드 이미지 또는 비디오의 데이터세트는 재구성되어 전방 렌즈의 초점면 근방에서 렌즈에 의해 생성된 광 필드에 유사하게 그 초점면 근방에서 광 데이터 볼륨을 형성한다. 이러한 초점 스택(100)이 도 2에 개략적으로 도시되어 있다.
카메라를 이용하는 기존의 초점 맞춤은 초점 스택(100) 내에서 이미지들(101, 102, 103) 중 하나를 선택함으로써 시뮬레이팅되고, 이것은 초점면을 카메라의 메인 광학축 z에 수직으로 이동시키는 것에 대응한다.
이러한 풍부한 데이터 소스들에 의해 제공되는 많은 새로운 광 필드 이미징 기능들 중에는 캡처된 후에 콘텐츠를 조작하는 능력이 있으며, 이러한 조작들은 상이한 목적들, 특히 예술적, 작업 기반 및 법의학 목적들을 가질 수 있다. 예를 들어, 이용자들이 보는 사람의 관점뿐만 아니라 초점, 심도 필드 및 입체 기준선을 실시간으로 변경할 수 있을 것이다. 이러한 미디어 상호작용들 및 경험들은 광 필드 기반 이미지들을 인코딩/디코딩하기 위해 기존의 표준 이미지 또는 비디오 코덱들을 이용하여 획득될 수 있을 기존의 이미징 형식들에서는 이용할 수 없다.
또한, AIF(all-in focus) 이미지는 초점 융합에 의해 생성될 수 있으며, 초점이 맞춰진 영역이 각각의 초점 스택 이미지에서 검출되고, 그 후 이러한 초점이 맞춰진 영역들 모두가 융합되어 AIF 이미지를 형성한다.
이러한 광 필드 기반 이미지들을 인코딩하기 위한 최신 방법들은 (JPEG, JPEG-2000, MPEG4 Part 10 AVC, HEVC와 같은) 표준 이미지 또는 비디오 코덱들을 이용하는 것이다. 그러나, 이러한 표준 코덱들은 공간의 모든 지점의 모든 방향에서 광의 양("복사휘도")을 기록하는 광 필드 이미징(일명, 플렌옵틱 데이터)의 특수성을 고려할 수 없다.
실제로, (JPEG, JPEG-2000, MPEG4 Part 10 AVC, HEVC와 같은) 기존의 표준 이미지 또는 비디오 코덱들을 적용하면 기존의 이미징 형식들을 전달한다.
특히, 전통적인 인터-프레임 인코딩 방안들을 이용하는 것은 (다른 시점들에서 취해진) 다른 뷰들에 의해 제공되는 지식을 고려하지 않고 (동일한 시점에서) 과거, 미래 또는 시간적으로 인접한 이미지로부터의 정보를 이용하여 인코딩되는 플렌옵틱 뷰가 된다.
대안적으로, MPEG MVC와 같은 멀티뷰 인코딩 방법들을 이용하는 것은 하나의 뷰로부터 다른 뷰로의 예측을 획득하는 것으로 이루어지지만, 4D 광 필드에 의해 제공되는 심도를 인코딩하는 데에는 적합하지 않다.
그 결과, 전통적인 표준 이미지 또는 비디오 코덱들로 인코딩된 4D 광 필드 데이터의 디코딩 후에, 플렌옵틱 이미지들의 재구성은 부정확할 수 있다. 따라서, 이러한 데이터로부터 AIF 이미지를 획득하는 것은 불가능할 수 있다.
따라서, 종래 기술의 적어도 하나의 결점을 피할 수 있는 광 필드 기반 이미지들을 인코딩/디코딩하기 위한 기술을 제공하는 것이 바람직할 것이다.
다음은 본 개시 내용의 일부 양태들의 기본적인 이해를 제공하기 위하여 본 개시 내용의 간략화된 개요를 제시한다. 이 개요는 본 개시 내용에 대한 광범위한 개관은 아니다. 이것은 본 개시 내용의 핵심 요소 또는 중요 요소들을 식별하는 것으로 의도되지 않는다. 다음의 개요는 단지 아래에 제공되는 더 상세한 설명에 대한 서문으로서 본 개시 내용의 일부 양태들을 간략화된 형태로 제시한다.
본 개시 내용은 하나의 이미지로부터 다른 이미지까지의 상이한 초점 거리에서 초점이 맞춰진 이미지들의 세트를 포함하는 현재 초점 스택을 인코딩하기 위한 방법을 통해 종래 기술의 결점들 중 적어도 하나를 해결하고자 한다.
이러한 방법은,
현재 초점 스택의 이미지를 나타내는 정보를 인코딩하고 - 이미지는 초점에서 최대 수의 픽셀들을 포함함 -, 이미지를 재구성된 이미지로 재구성하는 단계,
적어도 재구성된 이미지로부터의 예측에 의해 현재 초점 스택의 적어도 다른 이미지를 인코딩하는 단계를 포함한다.
본 개시 내용의 일 실시예에서, 초점 스택에 포함된 여러 이미지들에서 초점에서의 픽셀들의 수가 근사(close)하고 임계값을 초과할 때(또는 임계값보다 클 때), 이미지의 이용 대신에 인코딩 목적으로 초점에서 최대 수의 픽셀들을 갖는 이러한 이미지 중 하나를 이용하는 것이 가능하다.
또한, 초점에서의 픽셀의 수는 이미지 선명도 기준(image sharpness criterion)과 관련이 있다. 사실, 이미지의 요소들/부분들이 초점이 맞춰질 때, 이들은 선명하게(즉, 흐릿하지 않게) 보인다. 따라서, 초점에서의 픽셀들의 수를 결정하기 위해, 관련 기술분야의 통상의 기술자는 J. Kumar 등의 "Sharpness Estimation for Document and Scene Images" 문헌, 또는 K. De 및 Masilamani V.의 "A new No-Reference Image quality Measure for Blurred Images in Spatial Domain" 문헌, 또는 D. Shaked 및 I. Tastl의 "Sharpness Measure: Towards Automatic Image Enhancement" 문헌, 또는 P.V. Vu 및 D. M. Chandler의 "A Fast Wavelet-Based Algorithm for Global and Local Image Sharpness Estimation" 문헌에서 설명된 기법들 중 하나를 이용할 수 있다. 이러한 기법들은 주파수 내용 분석 또는 다른 기준들 중 에지 폭을 기반으로 한다. 따라서, 본 개시 내용의 일 실시예에서, 초점에서의 픽셀들의 수를 명시적으로 결정할 필요는 없다. 실제로, 선명도 추정기는 이미지들과 관련된 다른 것들과 비교되는 값에 따라 초점 스택에서 이미지를 선택하는데 이용될 수 있다. 예를 들어, 초점 스택에서의 각각의 이미지에 대해, (예를 들어, 앞서 언급된 문헌 "A Fast Wavelet-Based Algorithm for Global and Local Image Sharpness Estimation"에서와 같이) 선명도 지수가 결정될 수 있다. 본 개시 내용의 일 실시예에서, 최대 선명도 지수 값을 갖는 이미지는 예측 목적을 위해 기반 이미지가 되도록 선택된다. 본 개시 내용의 다른 실시예에서, 몇몇 선명도 지수 값들이 임계값보다 크고 서로 근사할 때, 이러한 이미지들 각각은 예측 목적을 위한 기반 이미지로서 이용될 수 있다.
따라서, 관련 기술분야의 통상의 기술자는 초점 스택에서 이미지를 선택하기 위해 선명도 기준을 이용할 수 있다. 이하에서, 본 설명은 초점 스택들에서 기준 이미지(reference image)를 선택하기 위한 기준으로서 초점에서의 픽셀들의 수의 이용에만 초점을 맞춘다. 그러나, 전술한 바와 같이, 이러한 선택은 이미지 선명도 기준에 따라 행해질 수 있다. 따라서, 초점에서의 최대 수의 픽셀들이 선택 기준으로서 이용될 때, 다른 이미지 선명도 기준으로 대체될 수 있다. 또한, 앞서 언급한 바와 같이, 최대치가 항상 이용되지는 않는다, 즉 초점에서의 픽셀들의 수가 임계값보다 큰 이미지들이 기준 이미지로서 이용될 수 있다.
따라서, 본 개시 내용은 동일한 시점에서 캡처되고 하나의 이미지로부터 다른 이미지까지의 상이한 초점 거리에서 초점이 맞춰진 동일한 장면의 이미지들의 세트를 포함하는 현재 초점 스택을 인코딩하기 위한 신규하고 독창적인 접근 방법에 의존하며, 초점 스택은 장면과 관련된 광 필드 데이터로부터 획득된다.
실제로, 본 개시 내용은 초점 스택의 특정한 특성들로부터 이점들을 얻으며, 그 주요 이점은 광 필드의 원시 이미지들과 비교하여 초점 포인트를 변경하기 쉽다는 것이다.
보다 정확하게는, 본 개시 내용에 따르면, 고려된 초점 스택에서의 초점에서 최대 수의 픽셀들을 포함하는 이미지를 나타내는 정보가 먼저 인코딩된다.
이러한 정보는 예를 들어 초점에서 최대 수의 픽셀들을 포함하는 이미지의 인트라-인코딩에 대응한다. 이 경우에, 재구성된 이미지는 인트라-인코딩에 대응하는 정보를 디코딩함으로써 획득된다.
이러한 정보는 또한 수신기(즉, 디코더)가 초점에서 최대 수의 픽셀들을 포함하는 이미지를 재구성하게 하는 시그널링 정보일 수 있다. 이 경우, 재구성된 이미지는 디코더에 의해 재구성될 이미지에 대응한다.
그 다음, 적어도 다른 이미지의 픽셀에 대해, 예측은 적어도 재구성된 이미지에 함께 배치된 대응하는 픽셀의 값으로부터 값을 획득하는 것이다.
예를 들어, 초점 스택 내에서 다른 이미지는 다른 이미지의 픽셀의 실제 휘도값과 재구성된 이미지에 함께 배치된 대응하는 픽셀의 휘도값 간의 휘도값 차이를 이용하여 인코딩될 것이다.
다시 말해, 초점 스택의 구조는 초점에서 최대 수의 픽셀들을 포함하는 이미지를 예측을 위한 기준 이미지로서 이용함으로써 초점 스택에 속하는 이미지들 간의 예측 종속성들을 결정하는데 이용된다. 따라서, 본 개시 내용에 따르면, 장면과 관련된 광 필드 데이터로부터 획득된 초점 스택은 이미지 인코딩을 위한 새로운 픽처 그룹(GOP)으로서 이용된다.
다음에서, "재구성된" 및 "디코딩된"이라는 단어는 서로 바꿔서 이용될 수 있다는 점에 유의해야 한다. 일반적으로, "재구성된"은 인코더측에서 이용되며, "디코딩된"은 디코더측에서 이용된다.
특정한 양태에 따르면, 현재 초점 스택에서, 초점에서 최대 수의 픽셀들을 포함하는 이미지가 AIF 이미지이다.
AIF 이미지는 모든 픽셀들이 초점이 맞춰진 재구성된 이미지에 대응한다.
AIF 이미지가 외부 제공자로부터 수신될 수 있거나, AIF 이미지가 본 개시 내용에 따른 방법의 이전 단계 동안 획득된다는 점에 유의해야 한다.
본 개시 내용의 특정한 실시예에 따르면, 적어도 재구성된 이미지로부터의 예측에 의해 현재 초점 스택의 적어도 하나의 다른 이미지를 인코딩하는 것은, 적어도 다른 이미지의 픽셀에 대해, 적어도 재구성된 이미지에 함께 배치된 대응하는 픽셀의 값으로부터의 값 및 인코딩하도록 다른 이미지와 관련된 초점 스택에서의 위치에 의존하는 블러링 함수로부터의 값을 인코딩하는 것을 포함한다.
이러한 블러 모델을 취함으로써 인코딩 효율을 향상시킬 수 있다. 다음에서 설명하는 바와 같이, 블러링 함수의 일반적인 예는 다음과 같이 주어진 가우스 함수이다.
여기서, σ는 초점 플랜에 대한 픽셀 거리(심도)에 의존하는 가우스 분포의 표준 편차이다. 이상적으로, σ는 초점 스택에서 픽셀마다 및 이미지마다 계산되어야 한다.
디코더에서 동일한 프로세스를 적용하려면, σ를 전송해야 한다. 비트 레이트를 줄이기 위해, 이 정보는 유닛의 헤더에서 또는 메타 데이터 또는 SEI 메시지로서(SEI는 보충 강화 정보를 의미함) 코딩 유닛 또는 블록마다 전송될 수 있다.
본 개시 내용의 특정한 실시예에 따르면, 현재 초점 스택은 상이한 시야각들(viewing angles)로 캡처된 초점 스택들의 그룹의 일부이고, 초점 스택들의 그룹의 초점 스택들은 그 시야각들의 배향 순서에 따라 정렬되며, 이 방법은,
기준 시야각으로 불리는, 현재 초점 스택의 시야각으로부터의 및 배향 순서로부터의 인터-스택 이미지 인코딩 순서를 결정하는 단계,
현재 초점 스택의 재구성된 이미지로부터의 인터-스택 이미지 인코딩 순서에 따라 처리된 초점 스택들의 그룹의 적어도 다른 초점 스택의 이미지의 적어도 하나의 픽셀을 인코딩하는 단계 - 적어도 다른 초점 스택의 이미지는 초점에서 최대 수의 픽셀들을 갖는 이미지이며, 기준 이미지로 불림 - 를 추가로 포함한다.
다시 말해, 상이한 시야각들로 캡처된 초점 스택들의 그룹의 특정한 구조를 고려하면, 초점 스택들의 그룹의 초점 스택들은 그 시야각들의 배향 순서에 따라 정렬되며, 초점 스택들의 그룹에 속하는 각각의 초점 스택에 대해, 초점에서 최대 수의 픽셀들을 갖는 이미지에 대응하는 기준 이미지는 기준 시야각으로 캡처된 현재 초점 스택의 재구성된 이미지로부터 인코딩된다.
그 결과, (예를 들어, 인트라-인코딩에 대응하는 정보 또는 디코더가 이미지를 재구성하게 하는 시그널링 정보에 의해 표현되는) 기준 시야각으로 캡처된 현재 초점 스택의 단일 이미지로부터 시작하여, 초점 스택들의 그룹에 속하는 각각의 다른 초점 스택의 각각의 기준 이미지를 인코딩하는 것이 가능하며, 현재 초점 스택에 대해 전술한 바와 같이 기준 시야각과 상이한 시야각으로 캡처된 주어진 초점 스택의 기준 이미지가 주어진 초점 스택의 다른 모든 이미지들을 인코딩하는데 이용된다.
기준 시야각과 상이한 시야각으로 캡처된 주어진 초점 스택의 각각의 기준 이미지가 AIF 이미지인 특정한 경우를 고려하면, 이 실시예는 이전에 결정된 인터-스택 이미지 인코딩 순서에 따라 그 인접한 AIF 이미지들로부터 각각의 AIF 이미지를 예측하는 것에 대응한다.
예를 들어, 양방향 예측이 구현되는 경우를 고려할 때, 인터-스택 이미지 인코딩 순서는 다음을 고려하여 이루어진다:
- 현재 초점 스택의 초점에서 최대 수의 픽셀들을 포함하는 이미지에 대응하는 재구성된 이미지는 "I 프레임"(즉, 초점 스택들의 그룹의 다른 모든 이미지들과 독립적으로 인코딩되는 이미지)이고,
- 현재 초점 스택의 재구성된 이미지와 관련된 기준 시야각과 최대 시야각 차이를 나타내는 2개의 다른 초점 스택의 2개의 기준 이미지는 "P 프레임들"로 간주될 수 있으며,
- 현재 초점 스택의 "I 재구성된 이미지"와 "P 기준 이미지들" 사이의 중간 시야각으로 캡처된 다른 기준 이미지들은 "B 프레임들"로 간주된다.
이 실시예의 제1 변형예에 따르면, 기준 이미지의 픽셀은 시야각의 기준 값으로 캡처된 현재 초점 스택의 재구성된 이미지, 및 현재 초점 스택의 재구성된 이미지와 기준 이미지 간의 불일치를 나타내는 정보로부터 인코딩된다.
실제로, 뷰들 간의 불일치가 있다고 가정하면, 동일한 장면을 나타내지만 상이한 시점들에서 캡처된 2개의 상이한 이미지에 대응하는 2개의 뷰가 알려져 있고 이용가능하다면(계산되거나 인코딩하도록 초점 스택들의 그룹의 이미지들과 함께 제공된다면), 기준 시야각으로 캡처된 현재 초점 스택의 재구성된 이미지에서 가장 일치하는 초점 스택들의 그룹 중 적어도 다른 초점 스택의 이미지의 하나의 픽셀을 검색하는 것으로 이루어지는 대안으로서 불일치를 이용하는 것이 수행될 수 있다.
이 실시예의 제2 변형예에 따르면, 시야각의 기준 값과 상이한 시야각으로 캡처된 기준 이미지의 각각의 픽셀의 값은 시야각의 기준 값으로 캡처된 현재 초점 스택의 재구성된 이미지로부터 및 초점 스택들의 그룹과 관련된 장면의 계층화된 심도 이미지로부터 인코딩된다.
다시 말해, 이 제2 변형예에 따르면, 기준 시야각으로 캡처된 현재 초점 스택의 재구성된 이미지에서 가장 일치하는 초점 스택들의 그룹 중 적어도 다른 초점 스택의 이미지의 하나의 픽셀을 검색하는 대신에, 계층화된 심도 이미지 인코딩 방안이 이용된다.
보다 정확하게는, SIGGRAPH 1998의 회의록에서 Shade 등의 "Layered Depth Images"에서 제안된 바와 같은 계층화된 심도 이미지(LDI) 인코딩 방안에서는 단일의 투영 중심하에서 복수의 기준 이미지들을 병합한다. 이러한 인코딩 방안은 단일의 기준 이미지를 왜곡하는 단순성을 유지하면서 픽셀 위치마다 복수의 심도 픽셀들을 유지함으로써 폐색 문제들을 해결한다. 이에 따라, LDI 방안은 불일치만을 이용하여서는 재구성될 수 없는 하나의 뷰에서 폐색된 영역들을 재구성하기 위해 이미지, 심도/불일치 및 폐색 영역들을 인코딩하는 것으로 이루어진다.
다른 실시예에 따르면, 초점 스택들의 그룹은 기준 순간 t 0 에서 캡처되고, 순간 t에서 캡처된 적어도 하나의 다른 초점 스택들의 그룹을 추가로 포함하는 시퀀스의 일부이며, 이 방법은, 기준 순간 t 0 에서 캡처된 현재 초점 스택의 재구성된 이미지로부터 수행된 시간 예측을 이용함으로써 초점 스택들의 그룹의 시퀀스의 순간 t에서 캡처된 적어도 하나의 다른 초점 스택들의 그룹의 시야각의 기준 값으로 캡처된 초점 스택의 기준 이미지의 적어도 하나의 픽셀을 인코딩하는 단계를 추가로 포함한다.
다시 말해, 본 개시 내용의 이 실시예에 따르면, 기준 순간 t 0 에서 기준 시야각으로 캡처된 현재 초점 스택의 초점에서 최대 수의 픽셀들을 포함하는 이미지에 대응하는 단일의 이미지로부터 시작하여, 상이한 순간에서 캡처된 초점 스택들의 복수의 그룹들을 포함하는 전체 시퀀스를 인코딩하는 것이 가능하다.
이러한 전체 시퀀스의 인코딩은 초점 거리, 시야각 및 캡처 순간에 대응하는 초점 스택들의 그룹들의 시퀀스의 세 가지 파라미터를 고려하기 위해 세 가지 인코딩 레벨을 구현한다.
- 주어진 캡처 순간에서 및 주어진 시야각으로 캡처된 초점 스택의 초점 거리 차원(dimension)을 인코딩하게 하는 "인트라-스택 인코딩"으로서, 초점 스택에 속하는 각각의 이미지가 상이한 초점 거리에서 캡처되고,
- 주어진 순간에서 캡처된 초점 스택들의 그룹의 시야각 차원을 인코딩하게 하는 "인터-스택 인코딩"으로서, 초점 스택들의 그룹에 속하는 각각의 초점 스택이 상이한 시야각으로 캡처되며,
- 초점 스택들의 그룹들의 시퀀스의 시간 차원을 인코딩하게 하는 "인터-인코딩"으로서, 시퀀스에 속하는 초점 스택들의 각각의 그룹이 상이한 순간에서 캡처된다.
본 개시 내용에 따라 이러한 세 가지 인코딩 레벨의 임의의 조합을 구현하여 전체 시퀀스의 인코딩에 성공할 수 있다는 점에 유의해야 한다.
예를 들어, 기준 순간 t 0 에서 기준 시야각으로 캡처된 현재 초점 스택의 초점에서 최대 수의 픽셀들을 포함하는 이미지로부터 시작하여, 먼저 "인터-인코딩"을 적용한 다음, "인트라-스택 인코딩"을 적용하고, 마지막으로 "인터-스택 인코딩"을 적용하는 것이 가능하며, 다른 예에 따르면, "인터-스택 인코딩"으로 시작하고, 그 다음에 "인터-인코딩"을 적용하고, 마지막으로 "인트라-스택 인코딩"을 적용하는 것이 또한 가능하다.
본 개시 내용의 다른 특정한 양태에 따르면, 본 방법은 현재 초점 스택을 나타내는 신호에, 현재 초점 스택의 AIF 이미지를 재구성하기 위한 맵을 삽입하는 단계를 추가로 포함한다.
보다 정확하게는, 이러한 맵은 각각의 픽셀에 대해, 현재 초점 스택에서의 어떤 이미지가 (예를 들어, 고려된 픽셀이 초점이 맞춰진 곳에서) 이용되어야 하는지를 나타낸다.
본 개시 내용의 다른 양태는 하나의 이미지로부터 다른 이미지까지의 상이한 초점 거리에서 초점이 맞춰진 이미지들의 세트를 포함하는 적어도 현재 초점 스택을 나타내는 신호에 관한 것이며, 이 신호는,
현재 초점 스택의 이미지를 나타내는 정보 - 이미지는 초점에서 최대 수의 픽셀들을 포함함 -,
현재 초점 스택의 다른 이미지와 적어도 관련되며 초점에서 최대 수의 픽셀들을 포함하는 이미지의 적어도 재구성된 이미지로부터의 예측에 의해 획득되는 정보를 적어도 포함한다.
본 개시 내용의 다른 양태는 전술한 바와 같은 신호를 갖는 기록 매체에 관한 것이다.
본 개시 내용의 다른 양태는 하나의 이미지로부터 다른 이미지까지의 상이한 초점 거리에서 초점이 맞춰진 이미지들의 세트를 포함하는 적어도 현재 초점 스택을 디코딩하기 위한 방법에 관한 것이다. 이 방법은,
현재 초점 스택의 이미지를 나타내는 정보를 디코딩하는 단계 - 이미지는 초점에서 최대 수의 픽셀들을 포함함 -,
적어도 디코딩된 이미지로부터의 예측에 의해 현재 초점 스택의 적어도 다른 이미지를 재구성하는 단계를 포함한다.
이러한 디코딩 방법은 특히 전술한 인코딩 방법에 따라 인코딩된 신호를 디코딩하는데 적합하다.
이러한 방식으로, 주어진 픽셀을 재구성하고, (신호로 전송된) 예측 잔차를 예측에 임의적으로 추가함으로써, 인코딩시에 수행되는 것들과 동일한 예측 단계들이 수행된다.
이 디코딩 방법의 특성들 및 이점들은 인코딩 방법의 특성들 및 이점들과 동일하다. 따라서, 이들은 더 상세하게 설명되지 않을 것이다.
본 개시 내용의 다른 양태는 하나의 이미지로부터 다른 이미지까지의 상이한 초점 거리에서 초점이 맞춰진 이미지들의 세트를 포함하는 현재 초점 스택을 인코딩하기 위한 디바이스에 관한 것이며, 이 디바이스는,
현재 초점 스택의 이미지를 나타내는 정보를 인코딩하고 - 이미지는 초점에서 최대 수의 픽셀들을 포함함 -, 이미지를 재구성된 이미지로 재구성하기 위한 수단,
적어도 재구성된 이미지로부터의 예측에 의해 현재 초점 스택의 적어도 다른 이미지를 인코딩하기 위한 수단을 포함한다.
본 개시 내용의 다른 실시예에서, 인코딩 디바이스는 메모리, 및 메모리에 결합된 적어도 하나의 프로세서를 포함하며, 적어도 하나의 프로세서는 인코딩 프로세스와 관련하여 앞서 언급한 단계들을 수행하도록 구성된다.
이러한 인코딩 디바이스는 특히 전술한 바와 같이 인코딩 방법을 구현하는데 적합하다.
본 개시 내용의 다른 양태는 하나의 이미지로부터 다른 이미지까지의 상이한 초점 거리에서 초점이 맞춰진 이미지들의 세트를 포함하는 적어도 현재 초점 스택을 디코딩하기 위한 디바이스에 관한 것이며, 이 디바이스는,
현재 초점 스택의 이미지를 나타내는 정보를 디코딩하기 위한 수단 - 이미지는 초점에서 최대 수의 픽셀들을 포함함 -,
적어도 디코딩된 이미지로부터의 예측에 의해 현재 초점 스택의 적어도 다른 이미지를 재구성하기 위한 수단을 포함한다.
본 개시 내용의 다른 실시예에서, 디코딩 디바이스는 메모리, 및 메모리에 결합된 적어도 하나의 프로세서를 포함하며, 적어도 하나의 프로세서는 디코딩 프로세스와 관련하여 앞서 언급한 단계들을 수행하도록 구성된다.
이러한 디코딩 디바이스는 특히 전술한 바와 같은 디코딩 방법을 구현하는데 적합하다.
따라서, 본 개시 내용은 이러한 방법들을 구현하도록 구성된 프로세서를 포함하는 디바이스들에 관한 것이다.
본 개시 내용은 또한 통신 네트워크로부터 다운로드가능하고/하거나 컴퓨터에 의해 판독가능하고/하거나 프로세서에 의해 실행가능한 매체 상에 기록된 컴퓨터 프로그램 제품에 관한 것이며, 이 컴퓨터 프로그램 제품은 전술한 바와 같이 초점 스택을 인코딩 및/또는 디코딩하기 위한 방법을 구현하기 위한 프로그램 코드 명령어들을 포함한다.
본 개시 내용은 또한 기록되고 프로세서에 의해 실행될 수 있는 컴퓨터 프로그램 제품을 포함하는 비일시적 컴퓨터 판독가능한 매체에 관한 것이며, 이 비일시적 컴퓨터 판독가능한 매체는 전술한 바와 같이 초점 스택을 인코딩 및/또는 디코딩하기 위한 방법을 구현하기 위한 프로그램 코드 명령어들을 포함한다.
이러한 컴퓨터 프로그램은 컴퓨터 판독가능한 저장 매체 상에 저장될 수 있다. 본 명세서에서 이용될 때 컴퓨터 판독가능한 저장 매체는 그 안에 정보를 저장하기 위한 고유 능력은 물론 그로부터 정보의 검색을 제공하기 위한 고유 능력이 주어지는 비일시적 저장 매체로 간주된다. 컴퓨터 판독가능한 저장 매체는, 예를 들어 전자, 자기, 광학, 전자기, 적외선, 또는 반도체 시스템, 장치, 디바이스, 또는 이들의 임의의 적합한 조합일 수 있지만, 이들로 제한되지 않는다. 휴대용 컴퓨터 디스켓, 하드 디스크, ROM, 소거가능한 프로그램가능한 판독 전용 메모리(EPROM 또는 플래시 메모리), 휴대용 컴팩트 디스크 판독 전용 메모리(CD-ROM), 광학 저장 디바이스, 자기 저장 디바이스 또는 이들의 임의의 적합한 조합은, 본 원리들이 적용될 수 있는 컴퓨터 판독가능한 저장 매체의 보다 구체적인 예들을 제공하지만, 관련 기술분야의 통상의 기술자가 용이하게 이해할 수 있는 단지 예시적인 것이며 포괄적인 목록이 아님을 이해해야 한다.
전술한 일반적인 설명 및 다음의 상세한 설명은 양쪽 다 예시적이고 설명적인 것으로, 청구된 본 발명의 제한이 아닌 것으로 이해해야 한다.
"일 실시예"에 대한 본 명세서에서의 참조들은, 설명된 실시예가 특정한 특징, 구조, 또는 특성을 포함할 수도 있지만, 모든 실시예가 이러한 특정한 특징, 구조, 또는 특성을 반드시 포함하지는 않을 수도 있다는 것을 나타내고 있다는 점도 또한 이해되어야 한다.
또한, 이러한 문구들은 반드시 동일한 실시예를 지칭하는 것은 아니다. 더욱이, 특정한 특징, 구조, 또는 특성이 실시예와 관련하여 설명될 때, 이것은 명시적으로 설명되는지에 상관없이 다른 실시예들과 관련하여 이러한 특징, 구조, 또는 특성에 영향을 미치도록 관련 기술분야의 통상의 기술자의 지식 내에서 제시된다.
본 개시 내용의 특정한 성질뿐만 아니라 본 개시 내용의 다른 목적들, 이점들, 특징들 및 용도들은 첨부 도면들과 관련하여 행해지는 실시예들의 다음의 설명으로부터 명확해 질 것이다.
본 발명의 실시예들은, 예로써 주어지고 보호의 범위를 제한하지 않는 아래의 설명 및 도면들을 참조하여 더 잘 이해될 수 있다.
도 1은 종래 기술과 관련하여 이미 제시되었으며 플렌옵틱 카메라의 개략적인 개념을 도시한다.
도 2는 종래 기술과 관련하여 이미 제시되었으며 이미지들의 초점 스택의 예를 도시하는 도면이다.
도 3은 본 개시 내용에 따른 인코딩 방법의 주요 단계들을 개략적으로 도시하는 도면이다.
도 4는 현재 초점 스택의 "인트라-스택 인코딩"에 대해 구현된 인코딩 순서의 예를 개략적으로 도시한다.
도 5는 초점 스택들의 그룹의 예를 도시하는 도면이다.
도 6은 초점 스택들의 그룹의 "인터-스택 인코딩"의 예를 도시한다.
도 7은 초점 스택들의 그룹들의 시간적 시퀀스의 "인터-인코딩"의 예를 개략적으로 도시한다.
도 8은 본 개시 내용에 따라 인코딩된 초점 스택들의 그룹들의 시퀀스를 포함하는 신호의 구조를 개략적으로 도시한다.
도 9는 본 개시 내용에 따른 디코딩 방법의 단계들을 개략적으로 도시하는 도면이다.
도 10은 본 개시 내용의 일 실시예에 따른 디바이스의 아키텍처의 예를 도시한다.
유사하거나 동일한 요소들이 동일한 참조 번호들로 참조된다. 도면들 내의 구성요소들은 반드시 일정한 비율로 그려진 것이 아니라, 오히려 본 발명의 원리들을 설명할 때 강조되어 있다.
도 1은 종래 기술과 관련하여 이미 제시되었으며 플렌옵틱 카메라의 개략적인 개념을 도시한다.
도 2는 종래 기술과 관련하여 이미 제시되었으며 이미지들의 초점 스택의 예를 도시하는 도면이다.
도 3은 본 개시 내용에 따른 인코딩 방법의 주요 단계들을 개략적으로 도시하는 도면이다.
도 4는 현재 초점 스택의 "인트라-스택 인코딩"에 대해 구현된 인코딩 순서의 예를 개략적으로 도시한다.
도 5는 초점 스택들의 그룹의 예를 도시하는 도면이다.
도 6은 초점 스택들의 그룹의 "인터-스택 인코딩"의 예를 도시한다.
도 7은 초점 스택들의 그룹들의 시간적 시퀀스의 "인터-인코딩"의 예를 개략적으로 도시한다.
도 8은 본 개시 내용에 따라 인코딩된 초점 스택들의 그룹들의 시퀀스를 포함하는 신호의 구조를 개략적으로 도시한다.
도 9는 본 개시 내용에 따른 디코딩 방법의 단계들을 개략적으로 도시하는 도면이다.
도 10은 본 개시 내용의 일 실시예에 따른 디바이스의 아키텍처의 예를 도시한다.
유사하거나 동일한 요소들이 동일한 참조 번호들로 참조된다. 도면들 내의 구성요소들은 반드시 일정한 비율로 그려진 것이 아니라, 오히려 본 발명의 원리들을 설명할 때 강조되어 있다.
일반 원리
본 개시 내용의 일반 원리는 초점 스택에 대응하는 새로운 픽처 그룹(GOP) 구조 내의 예측 종속성들을 결정함으로써, 광 필드 면에서 초점 스택을 인코딩하는 새로운 방식으로 이루어진다.
본 개시 내용의 실시예들에서 이미지들의 초점 스택을 인코딩/디코딩하기 위한 인코딩 및 디코딩 방법들, 대응하는 디바이스들 및 컴퓨터 판독가능한 저장 매체에 대해 이제 설명한다.
그러나, 본 개시 내용은 많은 대안적 형태들로 구현될 수 있으며 본 명세서에 설명된 실시예들에 한정되는 것으로 해석되어서는 안 된다. 따라서, 본 개시 내용은 다양한 수정들 및 대안적인 형태들이 가능하지만, 그 특정 실시예들은 도면들에서 예로서 도시되며 본 명세서에 상세히 설명될 것이다. 그러나, 본 개시 내용을 개시된 특정 형태들로 제한할 의도는 없고, 반대로, 본 개시 내용은 청구항들에 의해 정의된 바와 같은 본 개시 내용의 사상 및 범위 내에 속하는 모든 변형들, 균등물들, 및 대안들을 커버하는 것으로 이해되어야 한다.
본 명세서에서 이용되는 용어는 특정 실시예들을 설명하기 위한 것일 뿐이며, 본 개시 내용을 한정하고자 하지 않는다. 본 명세서에서 이용될 때, 단수 형태들은, 문맥상 명확하게 달리 지시하지 않는 한, 복수 형태들도 포함하는 것을 의도한다. "포함하고" 및/또는 "포함하는"이란 용어들은, 본 명세서에서 이용될 때, 언급된 특징들, 정수들, 단계들, 동작들, 요소들 및/또는 구성요소들의 존재를 지정하지만, 하나 이상의 다른 특징, 정수, 단계, 동작, 요소, 구성요소 및/또는 그 그룹의 존재 또는 추가를 배제하지는 않는다는 것이 또한 이해될 것이다.
더구나, 요소가 다른 요소에 "응답하는" 또는 "접속되는" 것으로서 언급될 때, 그 요소는 다른 요소에 직접적으로 응답하거나 접속될 수 있고, 또는 개재하는 요소들이 존재할 수 있다. 반면에, 요소가 다른 요소에 "직접적으로 응답하는" 또는 "직접적으로 접속되는" 것으로서 언급될 때에는, 개재하는 요소들이 존재하지 않는다. 본 명세서에서 이용될 때, "및/또는"이라는 용어는 나열된 관련 항목들 중 하나 이상의 임의의 및 모든 조합들을 포함하며, "/"로서 축약될 수 있다.
다양한 요소들을 설명하기 위해 제1, 제2 등의 용어들이 본 명세서에서 이용될 수 있기는 하지만, 이러한 요소들은 이런 용어들에 의해 제한되지 않아야 한다는 것을 이해할 것이다. 이러한 용어들은 하나의 요소와 다른 요소를 구별하는데 이용될 뿐이다. 예를 들어, 본 개시 내용의 교시들로부터 벗어나지 않고, 제1 요소는 제2 요소라 명명될 수 있고, 유사하게, 제2 요소는 제1 요소라 명명될 수 있다.
일부 도면들이 통신의 주요 방향을 나타내기 위해 통신 경로들 상에 화살표들을 포함하고 있지만, 통신은 묘사된 화살표들과 반대 방향으로 일어날 수 있다는 것을 이해해야 한다.
일부 실시예들은 블록도들 및 동작 흐름도들과 관련하여 설명되며, 각각의 블록은 회로 요소, 모듈, 또는 특정 논리 기능(들)을 구현하기 위한 하나 이상의 실행가능한 명령어를 포함하는 코드의 일부를 나타낸다. 다른 구현예들에서, 블록들에 언급된 기능(들)은 언급된 순서에서 벗어나서 발생할 수 있음에 또한 유의해야 한다. 예를 들면, 연속해서 도시된 2개의 블록은, 실제로는 실질적으로 동시에 실행될 수 있거나 또는 그 블록들은 때때로 수반된 기능에 따라 역순으로 실행될 수 있다.
본 명세서에서 "일 실시예"는 이와 관련하여 설명된 특정한 특징, 구조 또는 특성이 본 개시 내용의 적어도 하나의 구현예에 포함될 수 있음을 의미한다. 본 명세서의 여러 곳들에서의 문구 "일 실시예에서" 또는 "일 실시예에 따라"라는 표현들은 반드시 모두 동일한 실시예를 지칭하고 있는 것도 아니며, 별개의 또는 대안적인 실시예들이 다른 실시예들과 반드시 상호 배타적이지도 않다.
청구항들에서 나타나는 참조 번호들은 단지 예시에 의한 것이며, 청구항들의 범위에 대한 제한적인 영향을 주지 않는다.
명시적으로 설명되지 않을지라도, 본 실시예들 및 변형예들은 임의의 조합 또는 하위 조합으로 이용될 수 있다.
본 개시 내용은 초점 스택의 뷰의 픽셀들의 인코딩/디코딩에 대해 설명되지만, 시퀀스에 속하는 각각의 뷰가 후술하는 바와 같이 순차적으로 인코딩/디코딩되기 때문에 초점 스택들(플렌옵틱 비디오)의 그룹들의 시퀀스의 인코딩/디코딩까지 확장된다.
초점 스택
도 2에 도시된 바와 같이, 초점 스택(100)은 상이한 초점면들에(즉, 상이한 초점 거리들에서) 초점이 맞춰진 S개의 이미지 Is()의 모음이며, 이것은 이미지들(101, 102, 103 ...)의 큐브를 정의하고, S는 이용자가 선택한 이미지들의 수 또는 디바이스(예를 들어, 인코더/디코더)에 의해 요구되는 제한이다. 따라서, 초점 스택(100)에서의 2개의 연속적인 이미지 사이의 (z축 상의) 거리 또는 거리 간격은 이들 2개의 연속적인 이미지에 연결되는 2개의 초점면 사이의 거리에 대응한다.
설명되는 초점 스택의 계산은 4D 광 필드가 렌즈 어레이와 임의적으로 메인 렌즈를 갖는 단일 이미지 센서에 의해 기록된다는 가정에 기반할 수 있다. 그러나, 이러한 초점 스택의 계산은 이러한 유형의 광 필드 카메라에 의해 기록되는 4D 광 필드에 제한되지 않으며, 이에 따라 임의의 유형들의 광 필드 카메라들에 의해 기록되는 4D 광 필드에 기반하여 다시 초점이 맞춰진 이미지들의 초점 스택을 계산하는 것이 가능하다는 점에 유의해야 한다.
인코딩 방법
도 3은 본 개시 내용에 따라 적어도 하나의 현재 초점 스택()을 인코딩하기 위한 방법(30)의 주요 단계들을 개략적으로 도시하는 도면이다. 이 방법은 인코딩 디바이스에 의해 수행될 수 있다. 적어도 하나의 현재 초점 스택()은 도 3에 도시된 바와 같이 하나의 이미지에서 다른 이미지까지의 상이한 초점 거리들에서 초점이 맞춰진 S개의 이미지()의 세트를 포함한다.
특정의 비제한적인 실시예에 따르면, 적어도 하나의 현재 초점 스택()을 인코딩하기 위한 방법(30)은 첫 번째로 초점에서 최대 수의 픽셀들을 포함하는 현재 초점 스택()의 이미지를 인트라-이미지로서 인코딩하는 단계(31), 및 두 번째로 이 이미지를 재구성된 이미지()로 재구성하는 단계(31)를 포함한다.
이 특정한 경우에, 고려되는 초점 스택에서의 초점에서 최대 수의 픽셀들을 포함하는 이미지를 나타내는 정보는 초점에서 최대 수의 픽셀들을 포함하는 이러한 이미지의 인트라-인코딩에 대응한다.
AIF 이미지는 외부 제공자로부터 수신되거나 계산될 수 있다(단계(3000)).
또한, 현재 초점 스택()의 초점에서 최대 수의 픽셀들을 포함하는 이미지가 AIF일 때, 인트라-이미지로서 인코딩된 AIF 이미지를 전송된 인코딩된 현재 초점 스택()을 디코딩할 수신기에 전송할 수 있다.
다른 변형예에서, 맵은 인코딩된 현재 초점 스택()을 나타내는 신호에 삽입될 수 있으며(3001), 이 맵은 AIF 이미지를 재구성하는 것을 가능하게 한다. 이러한 삽입(3001)은 인트라-이미지로서 인코딩된 AIF 이미지의 전송을 피한다. 실제로, 이러한 맵을 수신할 때, 수신기는 초점 스택의 다른 이미지들을 디코딩하기 전에 AIF를 재구성한다.
그 결과, 이 특정한 경우에, AIF를 나타내는 정보(즉, 현재 초점 스택의 초점에서 최대 수의 픽셀들을 포함하는 이미지)는 이 맵에 직접적으로 대응할 수 있거나 또는 맵이 인코딩되어야 하는 정보 비트와 같이 디코딩에 이용되어야 한다는 것을 이해하도록 수신기를 돕는 다른 시그널링 정보(31)일 수 있다.
이러한 맵은 각각의 픽셀에 대해, 현재 초점 스택에서의 어떤 이미지가 (예를 들어, 고려되는 픽셀이 초점이 맞춰진 곳에서) 이용되어야 하는지를 나타낸다.
재구성된 이미지()가 획득되면(31), 현재 초점 스택()의 적어도 다른 이미지()는 적어도 재구성된 이미지()로부터 예측(320)에 의해 인코딩(32)된다. 다시 말해, 적어도 다른 이미지()의 픽셀에 대해, 예측(320)은 적어도 재구성된 이미지()에 함께 배치된 대응하는 픽셀의 값으로부터 값을 획득하는 것을 포함한다.
예를 들어, 현재 초점 스택() 내에서, 다른 이미지()는 다른 이미지()의 픽셀의 실제 휘도값과 재구성된 이미지()에 함께 배치된 대응하는 픽셀의 휘도값 간의 휘도값 차이(또한 잔차 또는 잔여 신호로도 알려짐)를 이용하여 인코딩될 것이다.
현재 초점 스택()의 S개의 이미지 모두의 이러한 인코딩(32)은, 초점에서 최대 수의 픽셀들을 포함하는 이미지와 관련된 재구성된 이미지()를 제외하면, "인트라-스택 인코딩"으로 불릴 수 있으며, 이에 따라 이미지들 모두가 예를 들어 인트라 이미지로서 이미 인코딩된 적어도 재구성된 이미지()로부터 예측되기 때문에 현재 초점 스택()의 S개의 이미지 모두들 간의 종속성들을 이용하는 것으로 이루어진다.
블러링 프로세스(321)는 다음과 같이 정의될 수 있다:
크기 [mxn](즉, m개의 픽셀들×n개의 픽셀들)의 고려된 이미지()의 (그 좌표들이 (x, y)인) 각각의 픽셀에 대해 g(x, y) = h(x, y) * f(x, y) + n(x, y)이며, 여기서,
- n(x, y)은 상가성 잡음이며,
잡음 n(x, y)를 무시할 때, 블러링 함수에 의한 컨볼루션은 다음과 같이 주어진다:
블러링 함수의 일반적인 예는 다음과 같이 주어진 가우스 함수이다.
여기서, σ는 초점 플랜에 대한 픽셀 거리(심도)에 의존하는 가우스 분포의 표준 편차이다. 이상적으로, σ는 초점 스택에서 픽셀마다 및 이미지마다 계산되어야 한다. 예를 들어, 다음과 같이 추정할 수 있다.
디코더에서 동일한 프로세스를 적용하려면, σ를 전송해야 한다. 비트 레이트를 줄이기 위해, 이 정보는 유닛의 헤더에서 또는 메타 데이터 또는 SEI 메시지로서(SEI는 보충 강화 정보를 의미함) 코딩 유닛 또는 블록마다 전송될 수 있다.
T.J Kosloff 등이 "An Algorithm for Rendering Generalized Depth of Field Effects Based on Simulated Heat Diffusion", International Conference on Computational Science and Its Applications, 2007에서 개시한 것과 같은 다른 블러링 모델이 이용될 수 있다.
값 g(x, y)가 획득되면, 이 값은 를 인코딩하도록 다른 이미지에서 그 좌표들이 (x, y)인 픽셀의 참값에 비교된다. 그 다음, 이러한 두 값들 간의 차이(잔차라고도 불림)는 를 인코딩하도록 다른 이미지의 픽셀을 인코딩하는데 이용된다.
상반적으로, 디코딩시에, 현재 초점 스택의 초점에서 최대 수의 픽셀들을 포함하는 이미지를 나타내는 정보를 디코딩함으로써 획득된 재구성된 이미지()에서 함께 배치된 픽셀의 값으로부터 시작하여, 초점 스택()을 디코딩하도록 다른 이미지에서 그 좌표들이 (x, y)인 픽셀이 재구성된 이미지()에 함께 배치된 픽셀의 블러링 결과에 잔차를 가산함으로써 획득된다.
도 4는 순간 t0에서 보기 v0으로 캡처된 현재 초점 스택()의 "인트라-스택 인코딩"의 예를 개략적으로 도시한다. 현재 초점 스택()의 이미지들()은 예를 들어 첫 번째 이미지()(41)의 초점면과 각각의 다음 이미지(42, 43, 44, 45, 46)의 초점면 사이의 거리에 따라 오름차순 O_f_d으로 정렬된다. 이러한 예에 따라, 예측(320)이 양방향 예측인 것으로 고려하면, 재구성된 이미지()(40)는 "I 프레임"으로 간주되고 예를 들어 초점 스택()의 중간에 위치한 이미지에 대응한다.
"I 프레임"으로서 재구성된 이미지()(40)를 이용하면, 초점 스택()의 두 극단 이미지들(즉, 첫 번째 이미지(41)와 마지막 이미지(46))은 "P 프레임들"로서 예측적으로 인코딩된다. 이들은 재구성되어 나중에 중간 이미지들을 "B 프레임들"로서 예측적으로 인코딩하는데 이용될 수 있다. "B 프레임들"은 재구성된 이미지()에 대응하는 "I 프레임"(40)과 "P 프레임들"(41 및 46) 중 하나 사이에 위치한다. 보다 정확하게는, "B 프레임들"은 기준 이미지들로서 이용된 재구성된 "P 프레임들" 및 모두를 이용하여 예측된다.
따라서, 본 개시 내용에 따라 제안된 바와 같이 "인트라-스택" 인코딩 동안에 이 예에 따라 구현되는 인코딩 순서는 스택 순서 O_f_d와 상이한데, 이는 (예를 들어, 초점 스택의 중간에 위치한) 초점에서 최대 수의 픽셀들을 갖는 "I 프레임"(40)이 예를 들어 인트라-이미지로서 먼저 인코딩되고, 그 다음에 초점 스택들의 첫 번째 및 마지막 이미지들에 대응하는 "P 프레임들"(41 및 46)이 인코딩되며, 마지막으로 "I 프레임"(40)과 "P 프레임들"(41 및 46) 중 하나 사이에 위치한 중간 이미지들에 대응하는 "B 프레임들"(42, 43, 44 및 45)이 인코딩되기 때문이다.
이 애플리케이션에 따라, 현재 초점 스택()이 현재 초점 스택()과 동일한 시간 t0에서 캡처된 초점 스택들의 그룹(Gto)의 일부이지만, 현재 초점 스택()의 시야각 v0과는 상이한 시야각들을 가지고 있을 가능성이 있다.
예를 들어, 도 5는 동일한 장면(50)으로부터 캡처된 초점 스택들의 그룹(Gto)의 예를 도시하며, 2개의 초점면(즉, S=2)은 각각 다음에 대응한다.
- 이미지들(500, 501 및 502)이 캡처된 제1 초점면, 및
- 이미지들(5000, 5001 및 5002)이 캡처된 제2 초점면.
또한, 3개의 상이한 시야각(즉, V=3)은 각각 다음에 대응한다.
- 주인공이 좌측으로 약간 도는 2개의 이미지(500 및 5000)를 캡처하기 위한 제1 시야각,
- 주인공이 정면에서 캡처되는 2개의 이미지(501 및 5001)를 캡처하기 위한 제2 시야각,
- 주인공이 우측으로 약간 도는 2개의 이미지(502 및 5002)를 캡처하기 위한 제3 시야각.
이 임의적인 경우(도 3에서 좌측에 점선들로 표시됨)에서, "인터-스택 인코딩"(3400)이 수행되어 초점 스택들의 그룹(Gt0)에 속하는 모든 이미지들을 인코딩한다.
보다 정확하게는, 초점 스택들의 그룹의 초점 스택들은 도 5 또는 도 6에 도시된 바와 같이 그 시야각들의 배향 순서에 따라 정렬된다.
이 특정한 경우에, "인터-스택 인코딩"은,
기준 시야각 v0으로 불리는, 현재 초점 스택의 시야각 v0으로부터의 및 배향 순서로부터의 인터-스택 이미지 인코딩 순서를 결정하는 것(33),
현재 초점 스택()의 재구성된 이미지()로부터의 인터-스택 이미지 인코딩 순서에 따라 처리된 초점 스택들의 그룹(Gt0)의 적어도 다른 초점 스택()의 이미지의 적어도 하나의 픽셀을 인코딩하는 것(34)을 포함하며, 적어도 다른 초점 스택()의 이미지는 초점에서 최대 수의 픽셀들을 갖는 이미지이며 기준 이미지라고 불린다.
도 5와 관련하여, 배향 순서는 주인공에 대하여 좌측에서 우측으로 캡처 디바이스의 위치를 따라 이미지들을 정렬한다. "인터-스택 인코딩" 예측(320)에서 구현되는 인코딩(34)이 양방향 예측인 것으로 고려하면, 재구성된 이미지()는 "I 프레임"으로 고려되며 예를 들어 주인공이 시야각 v0으로 캡처된 얼굴인 이미지(5001)에 대응한다.
도 6은 동일한 장면으로부터 캡처된 초점 스택들의 그룹(Gt0)의 다른 예를 도시하며, 재구성된 이미지()(60)의 초점면 이외의 6개의 초점면(즉, S=6) 및 현재 초점 스택()의 시야각 v0 이외의 4개의 상이한 시야각(즉, V=4)이 이용된다.
시야각들(v1, v2, v0, v3 및 v4)은 배향 순서 O_O에 따라 정렬된다.
이미지들(61 및 64)에 대응하는 초점 스택들의 그룹(Gto)의 배향 순서를 고려할 때 2개의 극단 기준 이미지들은 "P 프레임들"로서 로부터 예측적으로 인코딩되어 재구성된다. 재구성된 "P 프레임들"은 나중에 중간 이미지들을 "B 프레임들"(62 및 63)로서 예측적으로 인코딩하는데 이용될 수 있으며, "B 프레임들"(62 및 63)은 재구성된 이미지()(60)에 대응하는 "I 프레임"(60)과 "P 프레임들"(61 및 64) 중 하나 사이에 위치한다.
따라서, 본 개시 내용에 따라 제안된 바와 같이 "인터-스택" 인코딩 동안에 이 예에 따라 구현되는 인코딩 순서는 배향 순서 O_O와 상이한데, 이는 예를 들어 초점 스택들의 그룹의 중간에 위치한 "I 프레임"(60)이 인트라-이미지로서 먼저 인코딩되고, 그 다음에 "P 프레임들"(61 및 64)이 인코딩되며, 마지막으로 "I 프레임"(60)과 "P 프레임들"(61 및 64) 중 하나 사이에 위치한 중간 이미지들에 대응하는 "B 프레임들"(62 및 63)이 인코딩되기 때문이다.
제1 변형예에 따르면, 하나의 기준 이미지(61, 62, 63 또는 64)가 고려된 초점 스택, 예를 들어 내에서 초점 스택들(, , , , )을 포함하는 초점 스택들의 그룹의 하나의 초점 스택()에 대해 인코딩되었으면, 6개의 다른 초점면의 다른 이미지들은 전술한 바와 같이 "인트라-스택 인코딩"(3200)을 이용하여 인코딩된다.
제2 변형예에 따르면, 모든 기준 이미지들(61, 62, 63 또는 64)은 재구성된 이미지()(60)로부터 인코딩되고 그 다음에 초점 스택들(, , , , ) 각각에 대해 인코딩될 수 있으며, "인트라-스택 인코딩"(3200)이 수행된다.
"인터-스택 인코딩"의 특정한 특징에 따르면, 초점 스택들의 그룹(Gt0)의 이미지들 간의 불일치(341)가 알려져 있고 이용가능하다는(계산되거나 이용가능하거나 이러한 이미지들과 함께 전송되는) 것으로 가정하면, 이러한 불일치(341)는 재구성된 이미지()(60)로부터 하나의 기준 이미지(61, 62, 63 또는 64)의 예측을 향상시키는데 이용된다.
이러한 불일치를 고려하는 것은 예측 중에 구현될 수 있는 최상의 일치를 고전적으로 검색하는 것에 관한 대안이다.
예를 들어, "P-프레임"(61)에 대응하는 기준 이미지의 좌표들 (x, y)의 하나의 픽셀에 대해, 픽셀 Pv(x, y)의 값은 다음과 같다:
"인터-스택 인코딩"의 다른 특정한 특징에 따르면, 계층화된 심도 이미지(LDI) 코딩 방안이 이들 뷰들을 인코딩하기 위한 다른 대안으로서 이용될 수 있다(342). LDI 방안은 불일치에 의해 재구성될 수 없는 하나의 뷰(즉, 이미지)에서 폐색된 영역들을 재구성하기 위해 이미지, 심도/불일치 및 폐색 영역들을 인코딩하는 것이다.
이 애플리케이션에 따라, 현재 초점 스택()과 동일한 시간 t0에서 캡처된 초점 스택들의 그룹(Gto)이 도 7에 도시된 바와 같이 t0과는 상이한 순간 t에서 캡처된 적어도 하나의 다른 초점 스택들의 그룹(Gt)을 추가로 포함하는 시퀀스(Seq)에도 속하는 것이 또한 가능하다.
이 경우, 본 개시 내용에 따른 방법은 기준 순간 t 0 에서 캡처된 초점 스택들의 그룹(Gto)의 현재 초점 스택()의 재구성된 이미지()(70)로부터 수행되는 시간 예측(35)을 이용함으로써 초점 스택들의 그룹의 시퀀스(Seq)의 순간 t에서 캡처된 적어도 하나의 다른 초점 스택들의 그룹(Gt)의 시야각 v0의 기준 값으로 캡처된 초점 스택의 기준 이미지(71)의 적어도 하나의 픽셀을 "인터-인코딩"(3500)하는 것을 포함한다.
도 7에 도시된 바와 같은 초점 스택들의 그룹의 시퀀스는 각각 2개의 초점 스택들의 그룹(Gt0 및 Gt)(즉, T=2, 여기서 T는 하나의 시퀀스(Seq)의 초점 스택들의 그룹들의 수)만을 포함한다는 것을 알 수 있다. 따라서, 초점 스택들의 그룹(Gt)은 "I-그룹"으로 자체 고려되는 기준 순간 t0에서 캡처된 그룹(Gt0)에 대해 "P-그룹"으로 간주될 수 있다. 실제로, "P-그룹"(Gt)은 "I-그룹"(Gt0)으로부터 인코딩된다. 다시 말해, "I-그룹"(Gt0)은, 예를 들어 시퀀스의 다른 모든 이미지들을 인코딩하기 위해, (70)를 재구성한 후, 직접 또는 간접적으로 그 다음에 이용되는 인트라-이미지로서 인코딩된 이미지를 포함한다. 2개 초과의 그룹들(T>2)이 존재하면, "I-그룹"(또는 "P-그룹") 및 또 하나의 다른 "P-그룹"으로부터 인코딩된 "B-그룹"에 대해 동일한 개념이 유효하다.
이러한 시퀀스가 인코딩되어야할 때, 재구성된 이미지()(70)로부터 다른 초점 스택들의 그룹(Gt)의 기준 시야각 v0으로 캡처된 기준 이미지(71)를 먼저 인코딩(3500)하며, 그 다음에 각각의 그룹(Gt0 및 Gt) 내에서 전술한 바와 같이 "인트라-스택 인코딩"(3200) 및 "인터-스택 인코딩"(3400)을 이용하여 모든 나머지 다른 이미지들을 인코딩하는 것이 가능하다는 것을 알 것이다.
그러나, 전술한 바와 같이, "인트라-스택 인코딩"(3200) 및 "인터-스택 인코딩"(3400)을 이용하여 그룹(Gt0)의 모든 이미지들을 먼저 인코딩한 다음, 전술한 바와 같이 "인터-인코딩"(3500)을 이용하여 그룹(Gt)의 기준 이미지(71)를 인코딩하며, 그 다음에 "인트라-스택 인코딩"(3200) 및 "인터-스택 인코딩"(3400)을 이용하여 그룹(Gt)의 모든 다른 이미지들을 인코딩하는 것이 또한 가능하다.
"인터-인코딩"(3500) 모션 보상 모델들의 향상이 예측 정확도를 향상시키는데 이용될 수 있다.
초점 스택들의 T개의 그룹을 포함하는 이러한 인코딩된 시퀀스를 포함하는 신호(예컨대, 비트스트림)의 구조가 도 8에 도시되어 있다.
그룹들의 수 T+1은 캡처의 T개의 순간과 기준 순간 t0을 합한 것에 대응한다. 초점 스택들의 하나의 그룹(Gt0) 내에서, V+1개의 상이한 시야각이 V개의 상이한 초점 스택을 캡처하는데 이용되며, 초점 스택()은 기준 시야각 v0으로 순간 t0에서 갭처된다. 초점 스택()은 S+1개의 이미지, 예를 들어 인트라 이미지로 인코딩된 이미지(Is0), 및 하나의 이미지로부터 다른 이미지까지의 상이한 초점 거리에서 초점이 맞춰진 S개의 다른 이미지를 포함한다.
따라서, 도 8에 도시된 바와 같은 신호는 계층적으로 구성되며, 각각의 계층 레벨, 즉 시퀀스 레벨, 그룹 레벨 및 스택 레벨은 인코딩 파라미터들이 지정된 헤더를 포함한다.
예를 들어, 시퀀스 헤더는 초점 스택 당 이미지 수 S, 초점 스택들의 그룹 당 시야각 수 V 및 시퀀스 당 캡처 순간 수 T뿐만 아니라 이미지의 형식, 프레임 레이트 등을 포함한다.
양방향 예측이 구현될 때, 인코딩 순서(I, P, B)도 이 신호에서 지정된다는 것을 또한 알 수 있다.
디코딩 방법
이제 도 9를 참조하면, 하나의 이미지로부터 다른 이미지까지의 상이한 초점 거리에서 초점이 맞춰진 이미지들의 세트를 포함하는 적어도 현재 초점 스택을 나타내는 신호를 디코딩하는데 적합한 디코더에서 구현되는 디코딩의 주요 단계들이 제공된다.
디코더가, 예를 들어 전술한 인코딩 방법에 따라 인코딩된 적어도 현재 초점 스택을 나타내는 신호를 수신한다고 가정한다.
따라서, 이 실시예에서, 본 발명에 따른 디코딩 방법은,
현재 초점 스택의 이미지를 나타내는 정보를 디코딩하는 단계(91) - 이미지는 초점에서 최대 수의 픽셀들을 포함함 -,
적어도 디코딩된 이미지로부터의 예측에 의해 현재 초점 스택의 적어도 다른 이미지를 재구성하는 단계(92)를 포함한다.
전술한 바와 같이 인코딩과 상반되게, 본 개시 내용에 따른 디코딩 방법은 초점에서 최대 수의 픽셀들을 포함하는 이미지에 대응하는 재구성된 이미지로부터 시작하여 현재 초점 스택의 각각의 이미지를 디코딩한다.
임의적으로 및 인코딩과 상반되게, 초점 스택의 초점에서 최대 수의 픽셀들을 포함하는 이미지는 AIF 이미지이다.
이 특정한 경우에, 디코더는 예를 들어 AIF 이미지를 재구성하게 하는 맵을, 전술한 인코딩 방법에 따라 인코딩된 적어도 현재 초점 스택을 나타내는 신호로부터 추출한다.
이러한 맵은 각각의 픽셀에 대해, 현재 초점 스택에서의 어떤 이미지가 (예를 들어, 고려되는 픽셀이 초점이 맞춰진 곳에서) 이용되어야 하는지를 나타낸다.
일단, 초점에서 최대 수의 픽셀들을 포함하는 이미지가 인트라-이미지로서 디코딩(91)되거나, 수신된 신호에 삽입된 맵을 이용하여 AIF로서 재구성되고, 현재 초점 스택의 적어도 다른 이미지가 적어도 초점에서 최대 수의 픽셀들을 포함하는 이미지로부터의 예측에 의해 디코딩(92)된다.
다시 말해, 적어도 다른 이미지의 픽셀에 대해, 예측은 적어도 현재 초점 스택의 초점에서 최대 수의 픽셀들을 포함하는 이미지에 대응하는 이미지에 함께 배치된 대응하는 픽셀의 값으로부터 값을 획득하는 것을 포함한다.
초점에서 최대 수의 픽셀들을 포함하는 이미지와 관련된 디코딩된 이미지를 제외하면, 현재 초점 스택의 모든 이미지들의 이러한 디코딩(92)은 "인트라-스택 디코딩"이라고 불릴 수 있으며, 이에 따라 모든 이미지들이 적어도 재구성된 이미지로부터 예측되기 때문에, 현재 초점 스택의 모든 이미지들 사이의 종속성들을 이용하는 것으로 이루어진다.
"인트라-스택 인코딩"과 상반되게, "인트라-스택 디코딩"은 또한 블러 모델을 고려할 수 있다.
또한, 이 애플리케이션에 따라, 현재 초점 스택이 현재 초점 스택과 동일한 시간에 캡처되지만 이미 전술하였고 도 5에 도시된 바와 같이 현재 초점 스택의 시야각과는 상이한 시야각들을 갖는 초점 스택들의 그룹의 일부인 것이 가능하다.
이러한 임의적인 경우에, "인터-스택 디코딩"(나타내지 않음)이 수행되어 초점 스택들의 그룹에 속하는 모든 이미지들을 디코딩한다.
보다 정확하게는, 초점 스택들의 그룹의 초점 스택들은 예를 들어 도 5에 도시된 바와 같이 그 시야각들의 배향 순서에 따라 정렬된다.
이러한 특정한 경우에, "인터-스택 디코딩"은,
기준 시야각 v0으로 불리는, 현재 초점 스택의 시야각 v0으로부터의 및 배향 순서로부터의 인터-스택 이미지 디코딩 순서를 결정하는 것,
현재 초점 스택의 재구성된 이미지로부터의 인터-스택 이미지 디코딩 순서에 따라 처리된 초점 스택들의 그룹의 적어도 다른 초점 스택의 이미지의 적어도 하나의 픽셀을 디코딩하는 것 - 적어도 다른 초점 스택의 이미지는 초점에서 최대 수의 픽셀들을 갖는 이미지이며, 기준 이미지로 불림 - 을 포함한다.
제1 변형예에 따르면, 초점 스택들을 포함하는 초점 스택들의 그룹의 하나의 초점 스택에 대해 하나의 기준 이미지가 디코딩되면, 고려된 초점 스택 내에서, 다른 초점면들의 다른 이미지들은 전술한 바와 같이 "인트라-스택 디코딩"을 이용하여 디코딩된다.
제2 변형예에 따르면, 모든 기준 이미지들이 재구성된 이미지로부터 디코딩될 수 있으며, 그 다음에 각각의 초점 스택에 대해 "인트라-스택 디코딩"이 수행된다.
"인터-스택 디코딩"의 특정한 특징에 따르면, 초점 스택들의 그룹의 이미지들 간의 불일치가 디코더에 의해 알려지고 이용가능한 것(계산되거나 이용가능하거나 또는 디코딩할 신호 내에서 인코더에 의해 전송되는 것)으로 가정하면, 이러한 불일치는 재구성된 이미지의 하나의 기준 이미지의 예측을 향상시키는데 이용된다.
이러한 불일치를 고려하는 것은 예측 중에 구현될 수 있는 최상의 일치를 고전적으로 검색하는 것에 관한 대안이다.
"인터-스택 디코딩"의 다른 특정한 특징에 따르면, 계층화된 심도 이미지(LDI) 디코딩 방안이 이들 뷰들을 디코딩하기 위한 다른 대안으로서 이용될 수 있다. LDI 방안은 불일치에 의해 재구성될 수 없는 하나의 뷰(즉, 이미지)에서 폐색된 영역들을 재구성하기 위해 이미지, 심도/불일치 및 폐색 영역들을 디코딩하는 것으로 이루어진다.
이 애플리케이션에 따라, 현재 초점 스택과 동일한 시간에서 캡처된 초점 스택들의 그룹이 도 7에 도시된 바와 같이 상이한 순간에서 캡처된 적어도 하나의 다른 초점 스택들의 그룹을 추가로 포함하는 시퀀스(Seq)에도 속하는 것이 또한 가능하다.
이 경우, 본 개시 내용에 따른 방법은 기준 순간에서 캡처된 초점 스택들의 그룹의 현재 초점 스택의 재구성된 이미지로부터 수행되는 시간 예측을 이용함으로써 초점 스택들의 그룹의 시퀀스(Seq)의 순간 t에서 캡처된 적어도 하나의 다른 초점 스택들의 그룹의 시야각 v0의 기준 값으로 캡처된 초점 스택의 기준 이미지의 적어도 하나의 픽셀을 "인터-디코딩"하는 것을 포함한다.
이러한 시퀀스가 디코딩되어야할 때, 재구성된 이미지로부터 다른 초점 스택들의 그룹의 기준 시야각 v0으로 캡처된 기준 이미지를 먼저 디코딩하며, 그 다음에 각각의 그룹(Gt0 및 Gt) 내에서 전술한 바와 같이 "인트라-스택 디코딩" 및 "인터-스택 디코딩"을 이용하여 모든 나머지 다른 이미지들을 디코딩하는 것이 가능하다는 것을 알 것이다.
그러나, 전술한 바와 같이, "인트라-스택 디코딩" 및 "인터-스택 디코딩"을 이용하여 그룹(Gt0)의 모든 이미지들을 먼저 디코딩한 다음, 전술한 바와 같이 "인터-디코딩"을 이용하여 그룹(Gt)의 기준 이미지를 디코딩하며, 그 다음에 "인트라-스택 디코딩" 및 "인터-스택 디코딩"을 이용하여 그룹(Gt)의 모든 다른 이미지들을 디코딩하는 것이 또한 가능하다.
"인터-디코딩" 모션 보상 모델들의 향상이 예측 정확도를 향상시키는데 이용될 수 있다.
인코더 및 디코더의 구조
도 3 및 도 9 상에서, 모듈들은 기능 유닛들이며, 이 유닛들은 식별가능한 물리적 유닛들에 관련이 있을 수 있거나 없을 수 있다. 예를 들어, 이러한 모듈들 또는 이들 중 일부는 고유한 구성요소 또는 회로 내에 함께 올 수 있거나, 또는 소프트웨어의 기능들에 기여할 수 있다. 그에 반해, 일부 모듈들은 잠재적으로 별도의 물리적 엔티티들로 구성될 수 있다. 본 개시 내용과 호환가능한 장치는 순수한 하드웨어, 예를 들어 ASIC(Application Specific Integrated Circuit) 또는 FPGA(Field-Programmable Gate Array) 또는 VLSI(Very Large Scale Integration)와 같은 전용 하드웨어를 이용하여 구현되거나, 또는 디바이스에 내장된 여러 통합된 전자 구성요소들로부터 또는 하드웨어와 소프트웨어 구성요소들의 혼합으로 구현된다.
도 10은 도 3 내지 도 7과 관련하여 설명된 인코딩 방법 또는 도 9와 관련한 디코딩 방법을 구현하도록 구성될 수 있는 디바이스(900)의 예시적인 아키텍처를 나타낸다.
디바이스(900)는 데이터 및 주소 버스(901)에 의해 함께 연결되는 다음의 요소들을 포함한다:
- 예를 들어 디지털 신호 프로세서(DSP)인 마이크로프로세서(903)(또는 CPU);
- 판독 전용 메모리(ROM)(902);
- 랜덤 액세스 메모리(RAM)(904);
- 애플리케이션으로부터의 데이터의 전송 및/또는 수신을 위한 I/O 인터페이스(905); 및
- 배터리(906).
변형예에 따르면, 배터리(906)는 디바이스 외부에 있다. 도 10의 이들 요소들 각각은 관련 기술분야의 통상의 기술자에게 잘 알려졌으며, 추가로 개시되지 않을 것이다. 언급된 메모리 각각에서, 본 명세서에서 이용되는 단어 <<레지스터>>는 작은 용량(일부 비트들)의 영역에 또는 매우 큰 영역(예를 들어, 전체 프로그램 또는 많은 양의 수신된 또는 디코딩된 데이터)에 대응할 수 있다. ROM(902)은 프로그램 및 파라미터들을 적어도 포함한다. 본 개시 내용에 따른 방법들의 알고리즘은 ROM(902)에 저장된다. 스위치 온될 때, CPU(903)는 프로그램을 RAM에 업로드하고 대응하는 명령어들을 실행시킨다.
RAM(904)은 레지스터 내에 CPU(903)에 의해 실행되고 디바이스(900)의 스위치 온 후에 업로드되는 프로그램, 레지스터 내의 입력 데이터, 레지스터 내의 방법의 상이한 상태들에서의 중간 데이터, 및 레지스터 내의 방법의 실행에 이용되는 다른 변수들을 포함한다.
본 명세서에서 설명된 구현예들은, 예를 들어 방법 또는 프로세스, 장치, 소프트웨어 프로그램, 데이터 스트림 또는 신호로 구현될 수 있다. 단일 형태의 구현예의 면에서만 논의되었지만(예를 들어, 방법 또는 디바이스로서만 논의됨), 논의된 특징들의 구현예는 다른 형태들(예를 들어, 프로그램)로 또한 구현될 수 있다. 장치는, 예를 들어 적합한 하드웨어, 소프트웨어 및 펌웨어로 구현될 수 있다. 방법들은, 예를 들어 컴퓨터, 마이크로프로세서, 집적 회로 또는 프로그램가능한 로직 디바이스를 포함하고 일반적으로 처리 디바이스들을 지칭하는, 예를 들어 프로세서와 같은 장치에서 구현될 수 있다. 프로세서들은 또한, 예를 들어 컴퓨터들, 셀 폰들, 휴대용/개인용 휴대 정보 단말기들("PDA들") 및 최종 이용자들 간의 정보 통신을 용이하게 하는 다른 디바이스들과 같은 통신 디바이스들을 포함한다.
인코딩 또는 인코더의 특정한 실시예에 따르면, 초점 스택은 소스로부터 획득된다. 예를 들어, 소스는 다음을 포함하는 세트에 속한다:
- 국부 메모리(902 또는 904), 예컨대 비디오 메모리 또는 RAM, 플래시 메모리, ROM, 하드 디스크;
- 저장 인터페이스, 예컨대 대용량 저장소, RAM, 플래시 메모리, ROM, 광학 디스크 또는 자기 지지체를 갖는 인터페이스;
- 통신 인터페이스(905), 예컨대 유선 인터페이스(예를 들어, 버스 인터페이스, 광역 네트워크 인터페이스, 근거리 네트워크 인터페이스) 또는 (IEEE 802.11 인터페이스 또는 Bluetooth® 인터페이스와 같은) 무선 인터페이스; 및
- 픽처 캡처링 회로(예컨대 CCD(Charge-Coupled Device) 또는 CMOS(Complementary Metal-Oxide-Semiconductor)와 같은 센서).
인코딩 또는 인코더의 상이한 실시예들에 따르면, 인코더에 의해 전달된 신호는 목적지에 보내진다. 예로서, 신호는 국부 또는 원격 메모리, 예를 들어 비디오 메모리(904) 또는 RAM(904), 하드 디스크(902)에 저장된다. 변형예에서, 신호는 저장 인터페이스, 예를 들어 대용량 저장소, 플래시 메모리, ROM, 광학 디스크 또는 자기 지지체를 갖는 인터페이스에 보내지고/지거나, 통신 인터페이스(905), 예를 들어 지점간 연결, 통신 버스, 지점 대 다지점 연결 또는 방송 네트워크에의 인터페이스를 통해 전송된다.
디코딩 또는 디코더의 상이한 실시예들에 따르면, 디코딩된 초점 스택은 목적지에 보내지며, 구체적으로, 목적지는 다음을 포함하는 세트에 속한다:
- 국부 메모리(902 또는 904), 예컨대 비디오 메모리 또는 RAM, 플래시 메모리, ROM, 하드 디스크;
- 저장 인터페이스, 예컨대 대용량 저장소, RAM, 플래시 메모리, ROM, 광학 디스크 또는 자기 지지체를 갖는 인터페이스;
- 통신 인터페이스(905), 예컨대 유선 인터페이스(예를 들어, 버스 인터페이스, 광역 네트워크 인터페이스, 근거리 네트워크 인터페이스) 또는 (IEEE 802.11 인터페이스 또는 Bluetooth® 인터페이스와 같은) 무선 인터페이스; 및
- 디스플레이.
디코딩 또는 디코더의 상이한 실시예들에 따르면, 신호는 소스로부터 획득된다. 예시적으로, 신호는 국부 메모리, 예를 들어 비디오 메모리(904), RAM(904), ROM(902), 플래시 메모리(902) 또는 하드 디스크(902)로부터 판독된다. 변형예에서, 신호는 저장 인터페이스, 예를 들어 대용량 저장소, RAM, ROM, 플래시 메모리, 광학 디스크 또는 자기 지지체를 갖는 인터페이스로부터 수신되고/되거나, 통신 인터페이스(905), 예를 들어 지점간 연결, 버스, 지점 대 다지점 연결 또는 방송 네트워크에의 인터페이스로부터 수신된다.
본 명세서에서 설명되는 다양한 프로세스들 및 특징들의 구현예들은 다양하고 상이한 장비 또는 애플리케이션들에서 구현될 수 있다. 이러한 장비의 예들은 인코더, 디코더, 디코더로부터의 출력을 처리하는 사후 프로세서, 인코더에 입력을 제공하는 사전 프로세서, 비디오 코더, 비디오 디코더, 비디오 코덱, 웹 서버, 셋톱 박스, 랩톱, 개인용 컴퓨터, 셀 폰, PDA, 및 픽처 또는 비디오를 처리하기 위한 임의의 다른 디바이스 또는 다른 통신 디바이스들을 포함한다. 명백한 바와 같이, 이러한 장비는 모바일일 수 있으며, 심지어 이동 차량에 설치될 수 있다.
게다가, 이 방법들은 프로세서에 의해 수행되고 있는 명령어들에 의해 구현될 수 있고, 이러한 명령어들(및/또는 구현예에 의해 생성된 데이터 값들)은 컴퓨터 판독가능한 저장 매체 상에 저장될 수 있다. 컴퓨터 판독가능한 저장 매체는 하나 이상의 컴퓨터 판독가능한 매체(들) 내에 구현되고 컴퓨터에 의해 실행가능한 컴퓨터 판독가능한 프로그램 코드가 구현되는 컴퓨터 판독가능한 프로그램 제품의 형태를 취할 수 있다. 본 명세서에 이용되는 바와 같은 컴퓨터 판독가능한 저장 매체는 그 안에 정보를 저장하기 위한 고유 능력은 물론 그로부터 정보의 검색을 제공하기 위한 고유 능력이 주어지는 비일시적 저장 매체로 간주된다. 컴퓨터 판독가능한 저장 매체는, 예를 들어 전자, 자기, 광학, 전자기, 적외선, 또는 반도체 시스템, 장치, 디바이스, 또는 이들의 임의의 적합한 조합일 수 있지만, 이들로 제한되지 않는다. 휴대용 컴퓨터 디스켓, 하드 디스크, ROM, 소거가능한 프로그램가능한 판독 전용 메모리(EPROM 또는 플래시 메모리), 휴대용 컴팩트 디스크 판독 전용 메모리(CD-ROM), 광학 저장 디바이스, 자기 저장 디바이스 또는 이들의 임의의 적합한 조합은, 본 원리들이 적용될 수 있는 컴퓨터 판독가능한 저장 매체의 보다 구체적인 예들을 제공하지만, 관련 기술분야의 통상의 기술자가 용이하게 이해할 수 있는 단지 예시적인 것이며 포괄적인 목록이 아님을 이해해야 한다.
명령어들은 프로세서 판독가능한 매체 상에 유형적으로 구현되는 애플리케이션 프로그램을 형성할 수 있다.
명령어들은, 예를 들어 하드웨어, 펌웨어, 상주 소프트웨어, 마이크로 코드 등일 수 있으며, 일반적으로 본 명세서에서 "회로", "모듈" 또는 "시스템"으로 모두 지칭될 수 있는 소프트웨어 및 하드웨어 양태들을 결합한 실시예일 수 있다.
본 원리들이 하나 또는 여러 하드웨어 구성요소에 의해 구현될 때, 하드웨어 구성요소가, 중앙 처리 유닛, 및/또는 마이크로프로세서, 및/또는 주문형 집적 회로(ASIC), 및/또는 주문형 명령어 세트 프로세서(ASIP)(Application-specific instruction-set processor), 및/또는 그래픽 처리 유닛(GPU)(graphics processing unit), 및/또는 물리적 처리 유닛(PPU)(physics processing unit), 및/또는 디지털 신호 프로세서(DSP), 및/또는 이미지 프로세서, 및/또는 코프로세서, 및/또는 부동 소수점 유닛, 및/또는 네트워크 프로세서, 및/또는 오디오 프로세서, 및/또는 멀티코어 프로세서와 같은 집적 회로인 프로세서를 포함한다는 점에 유의해야 한다. 더욱이, 하드웨어 구성요소는 또한 기저대역 프로세서(예를 들어, 메모리 유닛들 및 펌웨어를 포함함) 및/또는 무선 신호들을 수신하거나 또는 전송하는 무선 전자 회로들(안테나들을 포함할 수 있음)을 포함할 수 있다. 일 실시예에서, 하드웨어 구성요소는 ISO/IEC 18092 / ECMA-340, ISO/IEC 21481 / ECMA-352, GSMA, StoLPaN, ETSI / SCP(Smart Card Platform), GlobalPlatform(즉, 보안 요소)과 같은 하나 이상의 표준에 부합한다. 변형예에서, 하드웨어 구성요소는 RFID(Radio-frequency identification) 태그이다. 일 실시예에서, 하드웨어 구성요소는 블루투스 통신들 및/또는 와이파이 통신들 및/또는 지그비(Zigbee) 통신들 및/또는 USB 통신들 및/또는 파이어와이어(Firewire) 통신들 및/또는 NFC(근거리 필드용) 통신들을 가능하게 하는 회로들을 포함한다.
또한, 본 원리들의 양태들은 컴퓨터 판독가능한 저장 매체의 형태를 취할 수 있다. 하나 이상의 컴퓨터 판독가능한 저장 매체(들)의 임의의 조합이 이용될 수 있다.
따라서, 예를 들어 본 명세서에서 제공되는 블록도들이 본 발명의 원리들을 구현하는 예시적인 시스템 구성요소들 및/또는 회로의 개념도들을 나타낸다는 것은 관련 기술분야의 통상의 기술자에 의해 이해될 것이다. 유사하게, 임의의 순서도들, 흐름도들, 상태 전이도들, 의사 코드 등은 컴퓨터 또는 프로세서가 명시적으로 도시되든 안되든 컴퓨터 판독가능한 저장 매체에 실질적으로 표현되고 이러한 컴퓨터 또는 프로세서에 의해 실행될 수 있는 다양한 프로세스들을 나타낸다는 점이 이해될 것이다.
관련 기술분야의 통상의 기술자에게 명백한 바와 같이, 구현예들은 예를 들어 저장되거나 전송될 수 있는 정보를 운반하도록 포맷팅된 다양한 신호들을 생성할 수 있다. 이 정보는 예를 들어 방법을 수행하기 위한 명령어들 또는 설명된 구현예들 중 하나에 의해 생성된 데이터를 포함할 수 있다. 예를 들어, 신호는 설명된 실시예의 신택스를 기입 또는 판독하기 위한 규칙들을 데이터로서 운반하거나 또는 설명된 실시예에 의해 기록된 실제 신택스 값들을 데이터로서 운반하도록 포맷팅될 수 있다. 이러한 신호는, 예를 들어 전자기파로서(예를 들어, 스펙트럼의 무선 주파수 부분을 이용) 또는 기저 대역 신호로서 포맷팅될 수 있다. 포맷팅은, 예를 들어 데이터 스트림을 인코딩하고 인코딩된 데이터 스트림으로 캐리어를 변조하는 것을 포함할 수 있다. 신호가 운반하는 정보는 예를 들어 아날로그 또는 디지털 정보일 수 있다. 신호는 알려진 바와 같이 다양하고 상이한 유선 또는 무선 연결들을 통해 전송될 수 있다. 신호는 프로세서 판독가능한 매체 상에 저장될 수 있다.
다수의 구현예들이 설명되었다. 그럼에도 불구하고, 다양한 수정들이 이루어질 수 있음이 이해될 것이다. 예를 들어, 상이한 구현예들의 요소들은 결합, 보충, 수정, 또는 제거되어 다른 구현예들을 생성할 수 있다. 게다가, 통상의 기술자는 다른 구조들 및 프로세스들이 개시된 것들에 대체될 수 있고 그 결과의 구현예들이 적어도 실질적으로 개시된 구현예들과 동일한 결과(들)를 달성하기 위해 적어도 실질적으로 동일한 기능(들)을 적어도 실질적으로 동일한 방식(들)으로 수행할 것이라는 것을 이해할 것이다. 따라서, 이들 및 다른 구현예들이 본 출원에 의해 고려된다.
Claims (16)
- 하나의 이미지로부터 다른 이미지까지의 상이한 초점 거리에서 초점이 맞춰진 이미지들의 세트를 포함하는 현재 초점 스택(300)을 인코딩(30)하기 위한 방법으로서,
상기 현재 초점 스택의 이미지를 나타내는 정보를 인코딩하고 - 상기 이미지는 이미지 선명도 기준(image sharpness criterion)에 따라 상기 현재 초점 스택에서 선택됨 -, 상기 이미지를 재구성된 이미지로 재구성하는 단계(31);
적어도 상기 재구성된 이미지로부터의 예측(320)에 의해 상기 현재 초점 스택의 적어도 다른 이미지를 인코딩하는 단계(32)
를 포함하는 인코딩 방법. - 제1항에 있어서,
상기 이미지 선명도 기준은 이미지에서의 초점에서 픽셀들의 수에 대응하는 인코딩 방법. - 제2항에 있어서,
상기 현재 초점 스택에서의 선택된 이미지는 초점에서 최대 수의 픽셀들을 갖는 이미지인 인코딩 방법. - 제3항에 있어서,
상기 현재 초점 스택에서, 상기 초점에서 최대 수의 픽셀들을 포함하는 이미지는 AIF(all-in focus) 이미지(3000)인 인코딩 방법. - 제1항에 있어서,
적어도 상기 재구성된 이미지로부터의 예측에 의해 상기 현재 초점 스택의 적어도 하나의 다른 이미지를 인코딩하는 단계는, 적어도 상기 다른 이미지의 픽셀에 대해, 적어도 상기 재구성된 이미지에 함께 배치된 대응하는 픽셀의 값으로부터의 값 및 인코딩하도록 상기 다른 이미지와 관련된 심도 위치에 의존하는 블러링 함수(321)로부터의 값을 인코딩하는 단계를 포함하는 인코딩 방법. - 제1항 내지 제5항 중 어느 한 항에 있어서,
상기 현재 초점 스택은 상이한 시야각들로 캡처된 초점 스택들의 그룹의 일부이고, 상기 초점 스택들의 그룹의 상기 초점 스택들은 그 시야각들의 배향 순서에 따라 정렬되며,
상기 방법은,
기준 시야각(reference viewing angle)이라고 불리는, 상기 현재 초점 스택의 시야각으로부터의 및 상기 배향 순서로부터의 인터-스택 이미지 인코딩 순서를 결정하는 단계(33),
상기 현재 초점 스택의 상기 재구성된 이미지로부터의 상기 인터-스택 이미지 인코딩 순서에 따라 처리된 상기 초점 스택들의 그룹의 적어도 다른 초점 스택의 이미지의 적어도 하나의 픽셀을 인코딩하는 단계(34) - 상기 적어도 다른 초점 스택의 이미지는 이미지 선명도 기준에 따라 선택된 이미지이며, 기준 이미지(reference image)라고 불림 -
를 더 포함하는 인코딩 방법. - 제6항에 있어서,
상기 기준 이미지의 픽셀은 상기 시야각의 기준 값으로 캡처된 상기 현재 초점 스택의 상기 재구성된 이미지로부터 및 상기 현재 초점 스택의 상기 재구성된 이미지와 상기 기준 이미지 간의 불일치(341)를 나타내는 정보로부터 인코딩되는 인코딩 방법. - 제6항에 있어서,
상기 시야각의 기준 값과 상이한 시야각으로 캡처된 상기 기준 이미지의 각각의 픽셀의 값은 상기 시야각의 기준 값으로 캡처된 상기 현재 초점 스택의 상기 재구성된 이미지로부터 및 상기 초점 스택들의 그룹에 관련된 장면의 계층화된 심도 이미지(342)로부터 인코딩되는 인코딩 방법. - 제6항 내지 제8항 중 어느 한 항에 있어서,
상기 초점 스택들의 그룹은 기준 순간 t 0 에서 캡처되고, 순간 t에서 캡처된 적어도 하나의 다른 초점 스택들의 그룹을 더 포함하는 시퀀스의 일부이며, 상기 방법은, 상기 기준 순간 t 0 에서 캡처된 상기 현재 초점 스택의 재구성된 이미지로부터 수행된 시간 예측(350)을 이용함으로써 상기 초점 스택들의 그룹의 시퀀스의 순간 t에서 캡처된 상기 적어도 하나의 다른 초점 스택들의 그룹의 상기 시야각의 기준 값으로 캡처된 초점 스택의 기준 이미지의 적어도 하나의 픽셀을 인코딩하는 단계(35)를 더 포함하는 인코딩 방법. - 제4항에 있어서,
상기 방법은 상기 현재 초점 스택을 나타내는 신호에, 상기 현재 초점 스택의 상기 AIF 이미지를 재구성하기 위한 맵을 삽입하는 단계(3001)를 더 포함하는 인코딩 방법. - 하나의 이미지로부터 다른 이미지까지의 상이한 초점 거리에서 초점이 맞춰진 이미지들의 세트를 포함하는 적어도 현재 초점 스택을 나타내는 신호로서,
상기 현재 초점 스택의 이미지를 나타내는 정보 - 상기 이미지는 이미지 선명도 기준에 따라 상기 현재 초점 스택에서 선택됨 -;
상기 현재 초점 스택의 다른 이미지와 적어도 관련되며 선택된 이미지의 적어도 재구성된 이미지로부터의 예측에 의해 획득되는 정보
를 적어도 포함하는 신호. - 하나의 이미지로부터 다른 이미지까지의 상이한 초점 거리에서 초점이 맞춰진 이미지들의 세트를 포함하는 적어도 현재 초점 스택을 디코딩하기 위한 방법으로서,
상기 현재 초점 스택의 이미지를 나타내는 정보를 디코딩하는 단계 - 상기 이미지는 이미지 선명도 기준을 충족시킴 -,
적어도 디코딩된 이미지로부터의 예측에 의해 상기 현재 초점 스택의 적어도 다른 이미지를 재구성하는 단계
를 포함하는 디코딩 방법. - 하나의 이미지로부터 다른 이미지까지의 상이한 초점 거리에서 초점이 맞춰진 이미지들의 세트를 포함하는 현재 초점 스택을 인코딩하기 위한 디바이스로서,
메모리; 및
상기 메모리에 결합된 적어도 하나의 프로세서
를 포함하며,
상기 적어도 하나의 프로세서는,
상기 현재 초점 스택의 이미지를 나타내는 정보를 인코딩하고 - 상기 이미지는 이미지 선명도 기준에 따라 상기 현재 초점 스택에서 선택됨 -, 상기 이미지를 재구성된 이미지로 재구성하며,
적어도 상기 재구성된 이미지로부터의 예측에 의해 상기 현재 초점 스택의 적어도 다른 이미지를 인코딩하도록 구성되는 디바이스. - 하나의 이미지로부터 다른 이미지까지의 상이한 초점 거리에서 초점이 맞춰진 이미지들의 세트를 포함하는 적어도 현재 초점 스택을 디코딩하기 위한 디바이스로서,
메모리; 및
상기 메모리에 결합된 적어도 하나의 프로세서
를 포함하며,
상기 적어도 하나의 프로세서는,
상기 현재 초점 스택의 이미지를 나타내는 정보를 디코딩하고 - 상기 이미지는 이미지 선명도 기준을 충족시킴 -,
적어도 디코딩된 이미지로부터의 예측에 의해 상기 현재 초점 스택의 적어도 다른 이미지를 재구성하도록 구성되는 디바이스. - 통신 네트워크로부터 다운로드가능하고/하거나 컴퓨터에 의해 판독가능한 매체 상에 기록되고/되거나 프로세서에 의해 실행가능한 컴퓨터 프로그램 제품으로서,
제1항 내지 제10항 및 제12항 중 어느 한 항에 따른 방법을 구현하기 위한 프로그램 코드 명령어들을 포함하는 컴퓨터 프로그램 제품. - 기록되고 프로세서에 의해 실행될 수 있는 컴퓨터 프로그램 제품을 포함하는 비일시적 컴퓨터 판독가능한 매체로서,
제1항 내지 제10항 및 제12항 중 어느 한 항에 따른 방법을 구현하기 위한 프로그램 코드 명령어들을 포함하는 비일시적 컴퓨터 판독가능한 매체.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP15306363.1 | 2015-09-07 | ||
EP15306363.1A EP3139614A1 (en) | 2015-09-07 | 2015-09-07 | Method and device for encoding and decoding a light field based image, and corresponding computer program product |
PCT/EP2016/070886 WO2017042133A1 (en) | 2015-09-07 | 2016-09-05 | Method and device for encoding and decoding a light field based image, and corresponding computer program product |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20180049028A true KR20180049028A (ko) | 2018-05-10 |
Family
ID=54249408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020187009543A KR20180049028A (ko) | 2015-09-07 | 2016-09-05 | 광 필드 기반 이미지를 인코딩 및 디코딩하기 위한 방법과 디바이스, 및 대응하는 컴퓨터 프로그램 제품 |
Country Status (6)
Country | Link |
---|---|
US (2) | US10536718B2 (ko) |
EP (2) | EP3139614A1 (ko) |
JP (1) | JP6901468B2 (ko) |
KR (1) | KR20180049028A (ko) |
CN (1) | CN108141610B (ko) |
WO (1) | WO2017042133A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102545741B1 (ko) * | 2022-11-08 | 2023-06-21 | 주식회사 하나씨엔에스 | Cctv 회전형 카메라 제어 단말기 |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3151534A1 (en) * | 2015-09-29 | 2017-04-05 | Thomson Licensing | Method of refocusing images captured by a plenoptic camera and audio based refocusing image system |
US10432944B2 (en) * | 2017-08-23 | 2019-10-01 | Avalon Holographics Inc. | Layered scene decomposition CODEC system and methods |
JP6936990B2 (ja) * | 2018-07-26 | 2021-09-22 | 日本電信電話株式会社 | 符号化装置及びプログラム |
CN112470470B (zh) * | 2018-07-30 | 2024-08-20 | 华为技术有限公司 | 多焦点显示设备和方法 |
CN111416977B (zh) * | 2019-01-07 | 2024-02-09 | 浙江大学 | 视频编码器、视频解码器及相应方法 |
KR102669255B1 (ko) * | 2019-02-01 | 2024-05-27 | 한국전자통신연구원 | 다중 초점 영상을 이용한 올인포커스 영상 생성 방법 및 장치 |
CN110490924B (zh) * | 2019-07-16 | 2022-07-01 | 西安理工大学 | 一种基于多尺度Harris的光场图像特征点检测方法 |
CN111182312B (zh) * | 2020-01-03 | 2021-10-29 | 杭州电子科技大学 | 一种分级残差光场视频编码方法 |
CN111427166B (zh) | 2020-03-31 | 2022-07-05 | 京东方科技集团股份有限公司 | 一种光场显示方法及系统、存储介质和显示面板 |
CN111416983B (zh) * | 2020-04-07 | 2022-03-15 | 清华大学深圳国际研究生院 | 基于成像相关的多焦距光场视频帧内预测方法和装置 |
CN112019862B (zh) * | 2020-09-08 | 2022-01-04 | 华中科技大学 | 图像处理方法、装置及设备 |
US20220084223A1 (en) * | 2020-09-14 | 2022-03-17 | The Regents Of The University Of Michigan | Focal Stack Camera As Secure Imaging Device And Image Manipulation Detection Method |
WO2023019567A1 (zh) * | 2021-08-20 | 2023-02-23 | 深圳传音控股股份有限公司 | 图像处理方法、移动终端及存储介质 |
CN118135120B (zh) * | 2024-05-06 | 2024-07-12 | 武汉大学 | 一种纳米样品表面形貌三维重建及显微操作系统 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7519907B2 (en) * | 2003-08-04 | 2009-04-14 | Microsoft Corp. | System and method for image editing using an image stack |
JP2007011977A (ja) * | 2005-07-04 | 2007-01-18 | Nikon Corp | 画像処理方法、コンピュータ実行可能なプログラム、及び顕微鏡システム |
US8559705B2 (en) * | 2006-12-01 | 2013-10-15 | Lytro, Inc. | Interactive refocusing of electronic images |
IT1403541B1 (it) * | 2011-01-31 | 2013-10-31 | Sarong Spa | Macchina erogatrice per bevande |
US8432434B2 (en) * | 2011-07-08 | 2013-04-30 | Mitsubishi Electric Research Laboratories, Inc. | Camera and method for focus based depth reconstruction of dynamic scenes |
US8995785B2 (en) | 2012-02-28 | 2015-03-31 | Lytro, Inc. | Light-field processing and analysis, camera control, and user interfaces and interaction on light-field capture devices |
US8818117B2 (en) * | 2012-07-19 | 2014-08-26 | Sony Corporation | Method and apparatus for compressing Z-stack microscopy images |
WO2014083574A2 (en) * | 2012-11-30 | 2014-06-05 | Larsen & Toubro Limited | A method and system for extended depth of field calculation for microscopic images |
US9654761B1 (en) * | 2013-03-15 | 2017-05-16 | Google Inc. | Computer vision algorithm for capturing and refocusing imagery |
JP2015008387A (ja) * | 2013-06-25 | 2015-01-15 | キヤノン株式会社 | 画像処理装置、画像処理方法およびプログラム並びに撮像装置 |
US9344619B2 (en) * | 2013-08-30 | 2016-05-17 | Qualcomm Incorporated | Method and apparatus for generating an all-in-focus image |
JP2015103872A (ja) * | 2013-11-21 | 2015-06-04 | キヤノン株式会社 | 画像符号化装置及び画像復号装置及びそれらの制御方法 |
-
2015
- 2015-09-07 EP EP15306363.1A patent/EP3139614A1/en not_active Withdrawn
-
2016
- 2016-09-05 US US15/757,417 patent/US10536718B2/en active Active
- 2016-09-05 EP EP16760505.4A patent/EP3348060B1/en active Active
- 2016-09-05 WO PCT/EP2016/070886 patent/WO2017042133A1/en active Application Filing
- 2016-09-05 CN CN201680061252.2A patent/CN108141610B/zh active Active
- 2016-09-05 JP JP2018512284A patent/JP6901468B2/ja active Active
- 2016-09-05 KR KR1020187009543A patent/KR20180049028A/ko not_active Application Discontinuation
-
2019
- 2019-11-26 US US16/695,336 patent/US20200099955A1/en not_active Abandoned
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102545741B1 (ko) * | 2022-11-08 | 2023-06-21 | 주식회사 하나씨엔에스 | Cctv 회전형 카메라 제어 단말기 |
Also Published As
Publication number | Publication date |
---|---|
US20200099955A1 (en) | 2020-03-26 |
EP3348060A1 (en) | 2018-07-18 |
CN108141610A (zh) | 2018-06-08 |
CN108141610B (zh) | 2023-10-13 |
WO2017042133A1 (en) | 2017-03-16 |
US10536718B2 (en) | 2020-01-14 |
JP2018530225A (ja) | 2018-10-11 |
EP3139614A1 (en) | 2017-03-08 |
JP6901468B2 (ja) | 2021-07-14 |
US20180249178A1 (en) | 2018-08-30 |
EP3348060B1 (en) | 2023-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10536718B2 (en) | Method and device for encoding and decoding a light field based image, and corresponding computer program product | |
US10652577B2 (en) | Method and apparatus for encoding and decoding light field based image, and corresponding computer program product | |
Li et al. | Scalable coding of plenoptic images by using a sparse set and disparities | |
CN100544444C (zh) | 用于全景图像的运动估计和补偿的方法和设备 | |
US10785502B2 (en) | Method and apparatus for encoding and decoding a light field based image, and corresponding computer program product | |
RU2653258C2 (ru) | Способ и устройство для обработки видеосигнала | |
US20180278955A1 (en) | Method and apparatus for reducing the coding artefact of a light field based image, and corresponding computer program product | |
US20170150152A1 (en) | Methods and devices for encoding and decoding a matrix of views obtained from light-field data, corresponding computer program and non-transitory program storage device | |
JP2011130030A (ja) | 画像符号化方法及び画像符号化装置 | |
KR102571876B1 (ko) | 적어도 하나의 플렌옵틱 비디오를 리포커싱하기 위한 방법 및 디바이스 | |
EP3203742A1 (en) | System and method for encoding and decoding information representative of a focalization distance associated to an image belonging to a focal stack representative of a light field content | |
KR102127212B1 (ko) | 다시점 영상 정보의 복호화 방법 및 장치 | |
Chen et al. | An improved block matching and prediction algorithm for multi-view video with distributed video codec | |
KR101343576B1 (ko) | 카메라 파라미터를 이용한 다시점 영상의 부호화 장치 및 생성 장치, 그 방법과, 이를 수행하기 위한 프로그램이 기록된 기록 매체 | |
KR20160120535A (ko) | 라이트 필드 데이터 압축방법 및 압축장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal |