KR20120057542A - Occlusion layer extension - Google Patents

Occlusion layer extension Download PDF

Info

Publication number
KR20120057542A
KR20120057542A KR1020110124287A KR20110124287A KR20120057542A KR 20120057542 A KR20120057542 A KR 20120057542A KR 1020110124287 A KR1020110124287 A KR 1020110124287A KR 20110124287 A KR20110124287 A KR 20110124287A KR 20120057542 A KR20120057542 A KR 20120057542A
Authority
KR
South Korea
Prior art keywords
layer
depth image
layered
layered depth
depth map
Prior art date
Application number
KR1020110124287A
Other languages
Korean (ko)
Inventor
기욤 부와쏭
뽈 께르비리우
빠트릭 로뻬츠
Original Assignee
톰슨 라이센싱 에스.에이.에스.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 톰슨 라이센싱 에스.에이.에스. filed Critical 톰슨 라이센싱 에스.에이.에스.
Priority to KR1020110124287A priority Critical patent/KR20120057542A/en
Publication of KR20120057542A publication Critical patent/KR20120057542A/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/187Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

PURPOSE: An occlusion layer extension method is provided to encode at least one occlusion layer of a layered depth image/video frame which has a wider width than the width of the layered depth image/video. CONSTITUTION: At least one occlusion layer of a layered depth image has a wider width than the width of a foreground layer of the layered depth image. The width of the occlusion layer is in proportion to the maximum disparity value in lateral boundary areas of a main depth map in the foreground layer. The lateral boundary areas are made of a fixed number of outmost columns of the main depth map.

Description

오클루전 계층 확장{OCCLUSION LAYER EXTENSION}Occlusion layer extension {OCCLUSION LAYER EXTENSION}

본 발명은 가시적 데이터를 계층 깊이 포맷(layer depth format)으로 인코딩하는 기술분야에 관련한다.The present invention relates to the art of encoding visible data in a layer depth format.

계층화된 깊이 이미지(LDI: layered depth image)는 3 차원 이미지들을 렌더링하기 위해 정보를 인코딩하는 방식이다. 유사하게, 계층화된 깊이 비디오(LDV: layered depth video)는 3 차원 비디오들을 렌더링하기 위해 정보를 인코딩하는 방식이다.Layered depth image (LDI) is a method of encoding information to render three-dimensional images. Similarly, layered depth video (LDV) is a method of encoding information to render three-dimensional videos.

LDI/LDV가 정보를 전달하기 위해 전경 계층(foreground layer)과 적어도 하나의 배경 계층을 이용한다. 배경 계층은 또한 오클루전 계층(occlusion layer)이라고 불린다. 전경 계층은 연관된 주 깊이 맵을 구비한 주 색상 이미지/비디오 프레임을 포함한다. 적어도 하나의 배경 계층은 연관된 배경 깊이 맵을 구비한 배경 색상 이미지/비디오 프레임을 포함한다. 보통, 오클루전 계층이 주 계층에서 전경 오브젝트들에 의해 커버되는 이미지 콘텐츠와 전경 오브젝트들에 의해 가려지는(occluded) 이미지 콘텐츠의 상응하는 깊이 정보만을 포함한다는 점에서 오클루전 계층은 성기다(sparse).LDI / LDV uses a foreground layer and at least one background layer to convey information. The background layer is also called the occlusion layer. The foreground layer includes a main color image / video frame with an associated main depth map. At least one background layer comprises a background color image / video frame with an associated background depth map. Normally, the occlusion layer is sparse in that the occlusion layer only contains image depth covered by the foreground objects in the main layer and corresponding depth information of the image content occluded by the foreground objects. ).

LDI 또는 LDV를 생성하는 방식은 상이한 관측점들로부터 두 개 이상의 카메라를 이용하여 동일한 장면을 캡처하는 것이다. 두 개의 카메라에 의해 캡처된 이미지들/비디오들이 이후 워프(warp)되고, 즉, 시프팅되어, 상이한 관측점들 사이에 위치된 중앙 관측점으로부터 동일한 장면을 묘사하는 주 이미지/비디오를 생성하도록 융합(fuse)된다.The way to generate LDI or LDV is to capture the same scene using two or more cameras from different viewpoints. Images / videos captured by two cameras are then warped, i.e. shifted, to fuse to produce a main image / video depicting the same scene from a central viewpoint positioned between different viewpoints. )do.

더욱이, 주 이미지/비디오 프레임과 연관된 주 깊이 맵이 캡처된 두 개의 이미지들/비디오 프레임을 이용하여 생성될 수 있다. 주 깊이 맵이 깊이 값, 디스패리티 값(disparity value) 또는 주 이미지/비디오 프레임의 각각의 화소에 대한 디스패리티에 있어 균일한 스케일링된 값을 할당하는데, 여기서 할당된 디스패리티 값은 주 이미지 평면으로부터 제각기의 화소가 속하는 오브젝트까지의 거리에 반비례한다.Moreover, a main depth map associated with the main image / video frame can be generated using the two captured images / video frames. The main depth map assigns a uniform scaled value in depth value, disparity value, or disparity for each pixel of the main image / video frame, where the assigned disparity value is from the main image plane. It is inversely proportional to the distance to the object to which each pixel belongs.

[발명의 요약][Summary of invention]

종래 기술에 따르면, 전경 계층 및 배경 계층이 동일한 수평 폭을 가진다. 본 발명자들은 이런 동일한 크기가 적어도 두 개의 카메라에 의해 캡처된 이미지들/비디오들에서 제공되는 모든 정보를 전달하는 것을 허용하지 않는다는 것을 알았다.According to the prior art, the foreground layer and the background layer have the same horizontal width. We have found that this same size does not allow conveying all the information provided in images / videos captured by at least two cameras.

그러므로, 본 발명자들은, 계층화된 깊이 이미지/비디오 프레임의 적어도 하나의 오클루전 계층이 계층화된 깊이 이미지/비디오 프레임의 전경 계층보다 더 큰 수평 폭을 갖는 것을 허용하는 계층화된 깊이 이미지/비디오 프레임을 위한 데이터 구조를 제안하는데, 여기서 오클루전 계층의 수평 폭은 전경 계층 내에 포함된 주 깊이 맵의 횡측 경계 영역들(lateral boundary areas) 내에 포함된 최대 디스패리티 값에 비례하고, 횡측 경계 영역들은 주 깊이 맵의 미리 결정된 수의 최외곽 열들로 구성된다.Therefore, the inventors have identified a layered depth image / video frame that allows at least one occlusion layer of the layered depth image / video frame to have a horizontal width greater than the foreground layer of the layered depth image / video frame. We propose a data structure for which the horizontal width of the occlusion layer is proportional to the maximum disparity value contained in the lateral boundary areas of the main depth map contained in the foreground layer, and the transverse boundary areas are It consists of a predetermined number of outermost columns of the depth map.

본 발명자들은 적어도 하나의 인코딩된 계층화된 깊이 이미지/비디오 프레임을 전달하는 저장 매체를 추가로 제안하는데, 여기서 계층화된 깊이 이미지/비디오 프레임의 적어도 하나의 오클루전 계층은 계층화된 깊이 이미지/비디오 프레임의 전경 계층보다 더 큰 수평 폭을 갖고, 오클루전 계층의 수평 폭은 전경 계층 내에 포함된 주 깊이 맵의 횡측 경계 영역들에 포함된 최대 디스패리티 값에 비례하고, 횡측 경계 영역들은 주 깊이 맵의 미리 결정된 수의 최외곽 열들로 구성된다.We further propose a storage medium that carries at least one encoded layered depth image / video frame, wherein at least one occlusion layer of the layered depth image / video frame is a layered depth image / video frame. The horizontal width of the occlusion layer is proportional to the maximum disparity value included in the transverse boundary regions of the main depth map contained within the foreground layer, and the transverse boundary regions are the main depth map. Consists of a predetermined number of outermost columns.

그리고, 본 발명자들은 계층화된 깊이 이미지/비디오 프레임 인코딩을 위한 방법을 제안하는데, 본 방법은 계층화된 깊이 이미지/비디오 프레임의 전경 계층 보다 더 큰 수평 폭을 갖는 계층화된 깊이 이미지/비디오 프레임의 적어도 하나의 오클루전 계층을 인코딩하는 단계를 포함하고, 여기서 오클루전 계층의 수평 폭은 전경 계층 내에 포함되는 주 깊이 맵의 횡측 경계 영역들 내에 포함되는 최대 디스패리티 값에 비례하고, 횡측 경계 영역들은 주 깊이 맵의 미리 결정된 수의 최외곽 열들로 구성된다.Then we propose a method for layered depth image / video frame encoding, the method comprising at least one of a layered depth image / video frame having a horizontal width that is greater than the foreground layer of the layered depth image / video frame. Encoding an occlusion layer of the occlusion layer, wherein the horizontal width of the occlusion layer is proportional to a maximum disparity value included in the transverse boundary regions of the main depth map included in the foreground layer, and the transverse boundary regions It consists of a predetermined number of outermost columns of the main depth map.

유사하게, 계층화된 깊이 이미지/비디오 프레임 인코딩을 위한 장치가 제안되는데, 본 장치는 계층화된 깊이 이미지/비디오 프레임의 전경 계층보다 더 큰 수평 폭을 갖는 계층화된 깊이 이미지/비디오 프레임의 적어도 하나의 오클루전 계층을 인코딩하도록 적응되는데, 여기서 오클루전 계층의 수평 폭은 전경 계층 내에 포함된 주 깊이 맵의 횡측 경계 영역들 내에 포함되는 최대 디스패리티 값에 비례하고, 횡측 경계 영역들은 주 깊이 맵의 미리 결정된 수의 최외곽 열들로 구성된다.Similarly, an apparatus for layered depth image / video frame encoding is proposed, wherein the apparatus is capable of at least one error of a layered depth image / video frame having a greater horizontal width than the foreground layer of the layered depth image / video frame. It is adapted to encode the occlusion layer, where the horizontal width of the occlusion layer is proportional to the maximum disparity value included in the transverse boundary regions of the main depth map contained in the foreground layer, and the transverse boundary regions are It consists of a predetermined number of outermost columns.

추가적인 수평 폭이, 적어도 두 개의 카메라에 의해 캡처된 이미지들/비디오들에서 제공되지만 전경 계층 내에 포함되지는 않는 정보의 부분을 전달하기 위해 이용될 수 있다.An additional horizontal width may be used to convey the portion of information provided in the images / videos captured by the at least two cameras but not included in the foreground layer.

추가로 유리한 실시예들의 특징들이 종속 청구항들에서 특정된다.Further advantageous features of the embodiments are specified in the dependent claims.

본 발명의 예시적 실시예들이 도면들에서 도해되고 또한 이하의 설명에서 더 상세하게 설명된다. 예시적 실시예들은 단지 본 발명을 명료하게 하기 위한 목적으로 설명될 것이고, 본 발명의 개시, 청구항들에서 정의되는 권리범위 또는 발명 사상을 제약하지는 않는다.
도면들에서,
도 1은 예시적 깊이 맵을 묘사하고;
도 2는 예시적 다중 카메라 시스템을 묘사하고;
도 3은 예시적 스테레오스코픽 촬영(stereoscopic shooting)을 묘사하고; 및
도 4는 예시적 오클루전 계층 확장을 묘사한다.
[본 발명의 예시적 실시예들]
본 발명은 대응적으로 적응된 프로세싱 장치를 포함하는 임의의 전자적 장치상에서 실현될 수 있다. 예를 들어, 본 발명은 모바일 폰, 퍼스널 컴퓨터, 디지털 스틸 카메라 시스템(digital still camera system), 또는 디지털 비디오 카메라 시스템에서 실현될 수 있다.
도 1이 예시적인 깊이 맵(Mdm)을 묘사한다. 깊이 맵(Mdm)은 깊이 값들, 디스패리티 값들 또는 디스패리티와 균질한 스케일링된 값들로 구성된다. 값들이 열들 C[0],..., C[n] 및 행들 R[0],..., R[m]로 배열된다. 깊이 맵은 횡측 경계들 또는 횡측 가장자리들이라고도 불리는 수직 경계들(vbl, vbr)과, 상부 및 하부 경계 또는 상부 및 하부 가장자리라고도 불리는 수평 경계들(hbt, hbb)을 갖는다. 좌측 수직 경계들(vbl)의 폭(k)의 이웃하는 영역(Nkl)은 열들 C[0], C[1],..., C[k-1]을 포함하고 우측 수직 경계들(vbr)의 폭(k)의 이웃하는 영역(Nkr)은 열들 C[n-k+1], C[n-k+2],..., C[n]을 포함한다. 이웃하는 것들의 폭에 대한 제한은 없는데, 즉, 단일 이웃하는 것은 전체 깊이 맵(Mdm), 즉 k = n인 경우에 대해 커버할 수 있고, 또는 좌측 수직 경계들(vbl)의 폭(k1)의 이웃하는 것 및 우측 수직 경계들(vbr)의 폭(k2)의 이웃하는 것이 k1 + k2 = n + 1인 경우에 모든 프레임을 커버할 수 있다. 이웃하는 것의 폭이 또한 1-화소 열로만 제한될 수 있다.
LDI/LDV에서, 그러한 예시적 깊이 맵(Mdm)이 예시적 이미지와 연관된다. 예시적 이미지에서의 각각의 픽셀에 대해 예시적 깊이 맵에서의 값이 있다. 맵 및 이미지의 세트가 계층(layer)이라고 불린다. 만일 계층이 주 계층이라고도 불리는 전경 계층인 경우에, 이미지는 전경 이미지라고 불리고 또한 이미지가 화소들로 완전히 포퓰레이팅된다(populated). 연관된 깊이 맵이 이하에서 주 깊이 맵(Mdm)이라고 불린다.
예시적 실시예에서, 주 깊이 맵(Mdm) 및 연관된 전경 이미지(CV)가 두 개의 뷰(LV, RV)를 처리한 것으로부터 귀결된다. 도 2에서 도시된 바와 같이, 두 개의 뷰(LV, RV)가 평행 광축들(OA1, OA2), 초점 거리(f) 및 카메라 간 베이스라인 거리(inter-camera baseline distance) 2*b를 갖는 두 개의 카메라(CAM1, CAM2)에 의해 캡처된다. 또한, z_conv가, 만일 어떤 후처리 시프팅도 교정된(rectified) 뷰들에게 적용되지 않는다면 무한대 거리에 위치될 수 있는 주시 평면(convergence plane)의 깊이를 표시하게 하자. 두 개의 카메라(CAM1, CAM2)가 앞서 언급된 두 개의 상이한 관측점에 위치된다. 두 개의 뷰(LV, RV)가 두 개의 상이한 관측점으로부터의 앞서 언급된 장면을 묘사하고 또한 색채들을 이퀄라이즈하고 기하학적 왜곡들을 교정하기 위해 전처리된다. 따라서, 카메라들의 고유의 파라미터 및 외적 파라미터가 통합된다. 두 개의 카메라 설정에서, 전경 이미지(CV)가 그에 따라, 각각의 카메라까지의 카메라 간 거리 b를 갖는 두 개의 카메라(CAM1, CAM2) 사이에 위치된 가상 카메라(CAMv)에 의해 촬영되는 것으로 보인다. 홀수 개의 카메라 설정에서, 전경 이미지(CV)가 중앙 카메라에 의해 촬영된 사진들의 교정에 의해 계산된다.
이러한 조건들 하에서, 깊이 z에 위치된 오브젝트의 디스패리티 d가 아래와 같이 주어진다:
d = h - f * b / z (1)
여기서 h는 주시 평면의 위치를 조정하기 위해 요구되는 센서 시프트를 에뮬레이팅(emulate)한다. 앞에서 언급한 바와 같이, 어떤 처리도 적용되지 않는다면 에 주시 평면은 무한대 거리에 위치하고 h는 0과 동등하다. 도 3에서 예시적으로 묘사된 바와 같이 z_conv가 유한한 거리에서 위치된다:
h = f * b / z_conv (2)
주 깊이 맵 Mdm이 디스패리티 d와 균질한 스케일링된 값 D를 포함하는 경우에 그 둘의 관계는
D = 255 * (d_max - d) / (d_max - d_min) (3)
일 수 있다.
주 깊이 맵 내에 포함된 스케일링된 값들의 경우에, 파라미터들 d_max 및 d_min가 메타데이터로서 전송되거나 또는 상응하는 깊이 값들 z_near 및 z_far가 전송되는데, 여기서 수학식 (1)에 따라서
z_near = f * b / (h - d_max) (4)
이고
z_far = f * b / (h - d_min) (5)
이다.
예시적 실시예들이 본 발명의 골자를 설명하기 위해서만 선택된다. 본 발명은, 예를 들어 카메라들에 의해 캡처된 이미지들을 가상 평행 광축들을 갖는 카메라들에 의해 가상적으로 캡처된 상응하는 가상 이미지들로 변환시킴으로써, 비 평행 광축들을 갖는 카메라들을 구비한 다중 카메라 시스템에게 적용될 수 있다. 더욱이, 본 발명은 교정되지 않은 뷰들 및/또는 2 개보다 더 많은 카메라에게 적응될 수 있다. 본 발명은 또한, 전경 계층 이미지 또는 주 깊이 맵이 결정된 방법에 관련이 없다.
예시적 실시예가 주 깊이 맵(Mdm)의 횡측 가장자리들(vbl, vbr)의 이웃하는 영역들(Nkl, Nkr) 내에서 가장 가까운 오브젝트를 결정하는 것을 포함하는데, 이는 가장 작은 디스패리티[min(d)]를 결정하는 것에 상응한다. 디스패리티가 주시 평면의 정면에 위치된 오브젝트들에 대해서 네거티브이기 때문에, 이것은 횡측 가장자리들의 이웃하는 영역들에서 음의 디스패리티들 중에서의 가장 큰 절대값을 결정하는 것에 상응한다.
주 깊이 맵(Mdm)이 디스패리티와 균질한 스케일링된 값들을 포함하는 경우에, |min(d)|가 메타데이터로서 전송된 파라미터들을 이용하여 주 깊이 맵(Mdm)에서의 최대 스케일링된 값[max(D)]로부터 결정될 수 있다. d_max 및 d_min이 전송되는 경우에 이는 다음 수학식을 따라 행해진다:
|min(d)| = |d_max - max(D) * (d_max - d_min) / 255| (6)
z_near 및 z_far가 전송되는 경우에 |min(d)|가 수학식들 (4), (5) 및 (6)을 이용하여 결정될 수 있다.
z_conv가 결정되지 않는 경우에 |(min(d) - h)|가 결정된다.
양 횡측 가장자리들(vbl, vbr)의 이웃하는 영역들(Nkr, Nkl)에서의 음의 디스패리티들 중에서의 결정된 가장 큰 절대값이 추가적인 폭인데, 이런 추가적인 폭만큼 오클루전 계층 이미지(EOV) 및/또는 오클루전 계층 깊이 맵이, 전경 이미지 내에 포함되지는 않지만 전달될 두 개의 뷰에 의해 제공되는 모든 정보를 허용하기 위해 양 측상에서 확장되어야만 한다.
이웃하는 영역들의 폭이 상이하게 선택될 수 있다. 예를 들어, 이웃하는 영역들이 최외곽 열들 C[0], C[n]만으로 구성될 수 있다. 또는, 강건성(robustness)을 위해서, 이웃하는 영역들이 각각의 측상의 8 열들 C[0],..., C[7] 및 C[n-7],..., C[n]로 구성될 수 있다. 또는, 철저성(exhaustiveness)을 위해서, 주 깊이 맵 내에 포함된 모든 음의 디스패리티들 중에서 가장 큰 절대값이 결정되도록, 이웃하는 영역들이 전체 주 깊이 맵을 커버하게 되도록 이웃하는 영역들이 선택된다.
후자의 경우에, 결정된 가장 큰 절대값 대신에 감소된 값이 이용될 수 있다. 감소된 값은 음의 디스패리티들 중에서의 가장 큰 절대값을, 제각기의 가장 가까운 횡측 가장자리로부터의 가장 큰 절대값이 있는 열의 거리만큼 보상한다. 즉, 음의 디스패리티들 중에서의 가장 큰 절대값이 |min(d)|이고 폭(n)의 주 깊이 맵의 열(j)에서 발견되었다고 한다면, 오클루전 계층은 양 측에서 (min|(d)| - min(j; n + 1 - j))만큼 확장된다. 따라서, 오클루전 계층 깊이 맵 및/또는 오클루전 계층 이미지 EOV의 폭은 n + 2 * (|min(d)| - min(j;n + 1 - j))이다. 예시적으로 도 4에서 도시된 바와 같이, 오클루전 계층 이미지(EOV)는 성기고, 즉, 전경 이미지 내에 있지 않은 정보로만 포퓰레이팅된다. 이 정보는 중앙 뷰상에 투사됨으로써 복사되거나 워프될 수 있다.
LDV의 경우에, 오클루전 확장이 각각의 프레임들에 대해 독립적으로 결정될 수 있다. 또는, 프레임들의 그룹들 또는 전체 비디오가 제각기의 프레임들의 횡측 가장자리들의 이웃하는 영역들에서 음의 디스패리티들 중에서 가장 큰 절대값에 대해 분석될 수 있고 또한 결정된 가장 큰 절대값이 이후 제각기의 프레임들의 그룹 또는 전체 비디오의 오클루전 계층을 확장하기 위해 이용된다.
횡측 가장자리들의 이웃하는 영역들에서 음의 디스패리티들 중에서 가장 큰 절대값에 대한 분석이 오클루전 계층의 보정 디코딩을 위해 인코더 측에서 행해지는 것과 동일한 방식으로 디코더 측에서 수행될 수 있다. 또는, 확장에 대한 측 정보가 제공된다. 전자는 인코딩 측면에서 더 효율적이고, 후자는 디코더 측에서 더 적은 계산을 필요로 한다.
Exemplary embodiments of the invention are illustrated in the drawings and described in more detail in the following description. Exemplary embodiments will be described for the purpose of clarity only, and do not limit the scope or spirit of the invention as defined in the disclosure, claims.
In the drawings,
1 depicts an example depth map;
2 depicts an exemplary multi camera system;
3 depicts exemplary stereoscopic shooting; And
4 depicts an example occlusion layer extension.
Exemplary Embodiments of the Invention
The invention may be realized on any electronic device, including a correspondingly adapted processing device. For example, the present invention can be realized in a mobile phone, a personal computer, a digital still camera system, or a digital video camera system.
1 depicts an exemplary depth map Mdm. The depth map Mdm is composed of depth values, disparity values or scaled values homogeneous with the disparity. The values are arranged in columns C [0], ..., C [n] and rows R [0], ..., R [m]. The depth map has vertical boundaries (vbl, vbr), also called transverse boundaries or lateral edges, and horizontal boundaries (hbt, hbb), also called upper and lower boundaries or upper and lower edges. The neighboring region Nkl of the width k of the left vertical boundaries vbl comprises the columns C [0], C [1], ..., C [k-1] and the right vertical boundaries vbr The neighboring region Nkr of width k of) comprises columns C [n-k + 1], C [n-k + 2], ..., C [n]. There is no restriction on the width of the neighbors, ie a single neighbor can cover the entire depth map Mdm, i.e. when k = n, or the width k1 of the left vertical boundaries vbl. The neighbor of and the neighbor of the width k2 of the right vertical boundaries vbr can cover all frames if k1 + k2 = n + 1. The width of the neighbors can also be limited to only one-pixel rows.
In LDI / LDV, such an example depth map Mdm is associated with an example image. There is a value in the example depth map for each pixel in the example image. The set of maps and images is called a layer. If the layer is a foreground layer, also called the main layer, the image is called the foreground image and the image is fully populated with pixels. The associated depth map is hereinafter referred to as the main depth map Mdm.
In an exemplary embodiment, the main depth map Mdm and the associated foreground image CV result from processing two views LV and RV. As shown in FIG. 2, the two views LV and RV have two parallel optical axes OA1 and OA2, a focal length f and an inter-camera baseline distance 2 * b. Are captured by two cameras CAM1 and CAM2. Also let z_conv indicate the depth of the convergence plane that can be located at infinity distance if no post-processing shifting is applied to the rectified views. Two cameras CAM1 and CAM2 are located at the two different viewpoints mentioned above. Two views (LV, RV) are preprocessed to describe the aforementioned scenes from two different viewpoints and also to equalize colors and correct for geometric distortions. Thus, the inherent and external parameters of the cameras are integrated. In two camera settings, the foreground image CV appears to be captured by the virtual camera CAMv, thus positioned between two cameras CAM1, CAM2 having the distance b between cameras to each camera. In odd camera settings, the foreground image CV is calculated by the correction of the pictures taken by the central camera.
Under these conditions, the disparity d of the object located at depth z is given by:
d = h-f * b / z (1)
Where h emulates the sensor shift required to adjust the position of the viewing plane. As mentioned earlier, if no treatment is applied, the plane of look at is at infinity and h is equal to zero. As exemplarily depicted in FIG. 3, z_conv is located at a finite distance:
h = f * b / z_conv (2)
If the main depth map Mdm contains a disparity d and a homogeneous scaled value D, the relationship of the two is
D = 255 * (d_max-d) / (d_max-d_min) (3)
Can be.
In the case of scaled values included in the main depth map, the parameters d_max and d_min are transmitted as metadata or the corresponding depth values z_near and z_far are transmitted, according to equation (1)
z_near = f * b / (h-d_max) (4)
ego
z_far = f * b / (h-d_min) (5)
to be.
Exemplary embodiments are selected only to illustrate the bones of the present invention. The present invention provides a multi-camera system with cameras with non-parallel optical axes, for example by converting images captured by cameras into corresponding virtual images captured virtually by cameras with virtual parallel optical axes. Can be applied. Moreover, the present invention can be adapted to uncorrected views and / or more than two cameras. The invention is also not related to how the foreground layer image or the main depth map is determined.
An example embodiment includes determining the closest object in the neighboring regions Nkl, Nkr of the lateral edges vbl, vbr of the main depth map Mdm, which is the smallest disparity min (d )] Corresponds to Since the disparity is negative for objects located in front of the gaze plane, this corresponds to determining the largest absolute value among the negative disparities in the neighboring regions of the lateral edges.
If the main depth map Mdm contains scaled values homogeneous with disparity, | min (d) | is the maximum scaled value in the main depth map Mdm using the parameters transmitted as metadata [ max (D)]. When d_max and d_min are transmitted this is done according to the following equation:
| min (d) | d_max-max (D) * (d_max-d_min) / 255 | (6)
When z_near and z_far are transmitted, | min (d) | may be determined using equations (4), (5) and (6).
If z_conv is not determined, | (min (d)-h) | is determined.
The largest determined absolute value among the negative disparities in the neighboring regions Nkr, Nkl of both transverse edges vbl, vbr is the additional width, which is the occlusion layer image EOV by this additional width. And / or the occlusion layer depth map must be expanded on both sides to allow all the information provided by the two views to be conveyed, although not included in the foreground image.
The widths of neighboring regions may be chosen differently. For example, neighboring regions may consist of only the outermost columns C [0], C [n]. Or, for robustness, neighboring regions consist of eight columns C [0], ..., C [7] and C [n-7], ..., C [n] on each side. Can be. Or, for exhaustiveness, neighboring regions are selected such that neighboring regions cover the entire main depth map such that the largest absolute value of all negative disparities included in the main depth map is determined.
In the latter case, a reduced value may be used instead of the largest absolute value determined. The reduced value compensates for the largest absolute value among the negative disparities by the distance of the column with the largest absolute value from the nearest transverse edge of each. That is, if the largest absolute value of the negative disparities is | min (d) | and is found in column j of the main depth map of width n, the occlusion layer is (min | (d) |-min (j; n + 1-j)). Thus, the width of the occlusion layer depth map and / or the occlusion layer image EOV is n + 2 * (| min (d) |-min (j; n + 1-j)). By way of example, as shown in FIG. 4, the occlusion layer image EOV is populated only with information that is coarse, ie, not within the foreground image. This information can be copied or warped by being projected onto the central view.
In the case of LDV, occlusion extension may be determined independently for each frame. Alternatively, groups of frames or the entire video can be analyzed for the largest absolute value of negative disparities in neighboring regions of the lateral edges of the respective frames, and the largest absolute value determined is then determined for each of the frames. It is used to extend the occlusion layer of the group or the entire video.
The analysis of the largest absolute value among the negative disparities in the neighboring regions of the lateral edges may be performed at the decoder side in the same way as it is done at the encoder side for corrective decoding of the occlusion layer. Or, side information about the extension is provided. The former is more efficient in terms of encoding, and the latter requires less computation on the decoder side.

Claims (15)

계층화된 깊이 이미지에 대한 데이터 구조로서,
상기 계층화된 깊이 이미지의 적어도 하나의 오클루전 계층(occlusion layer)은 상기 계층화된 깊이 이미지의 전경 계층보다 더 큰 수평 폭을 갖고, 상기 오클루전 계층의 수평 폭은 상기 전경 계층 내에 포함된 주 깊이 맵의 횡측 경계 영역들에 포함된 최대 디스패리티 값에 비례하고, 상기 횡측 경계 영역들이 상기 주 깊이 맵의 미리 결정된 수의 최외곽 열들로 구성되는
계층화된 깊이 이미지 데이터 구조.
Data structure for layered depth images,
At least one occlusion layer of the layered depth image has a horizontal width that is greater than the foreground layer of the layered depth image, wherein the horizontal width of the occlusion layer is contained within the foreground layer. Proportional to the maximum disparity value included in the transverse boundary regions of the depth map, wherein the transverse boundary regions consist of a predetermined number of outermost columns of the main depth map.
Layered Depth Image Data Structure.
적어도 하나의 인코딩된 계층화된 깊이 이미지를 전달(carry)하는 저장 매체로서,
상기 계층화된 깊이 이미지의 적어도 하나의 오클루전 계층은 상기 계층화된 깊이 이미지의 전경 계층보다 더 큰 수평 폭을 갖고, 상기 오클루전 계층의 수평 폭은 상기 전경 계층 내에 포함된 주 깊이 맵의 횡측 경계 영역들에 포함된 최대 디스패리티 값에 비례하고, 상기 횡측 경계 영역들이 상기 주 깊이 맵의 미리 결정된 수의 최외곽 열들로 구성되는
계층화된 깊이 이미지를 전달하는 저장 매체.
A storage medium carrying at least one encoded layered depth image,
At least one occlusion layer of the layered depth image has a horizontal width that is greater than the foreground layer of the layered depth image, wherein the horizontal width of the occlusion layer is a transverse side of the main depth map contained within the foreground layer. Proportional to a maximum disparity value included in boundary regions, wherein the lateral boundary regions are composed of a predetermined number of outermost columns of the main depth map.
Storage media that delivers layered depth images.
계층화된 깊이 이미지 인코딩을 위한 방법으로서,
상기 계층화된 깊이 이미지의 적어도 하나의 오클루전 계층을, 상기 계층화된 깊이 이미지의 전경 계층보다 더 큰 수평 폭으로 인코딩하는 단계
를 포함하고,
상기 오클루전 계층의 수평 폭은 상기 전경 계층 내에 포함된 주 깊이 맵의 횡측 경계 영역들에 포함된 최대 디스패리티 값에 비례하고, 상기 횡측 경계 영역들이 상기 주 깊이 맵의 미리 결정된 수의 최외곽 열들로 구성되는
계층화된 깊이 이미지 인코딩 방법.
A method for layered depth image encoding,
Encoding at least one occlusion layer of the layered depth image with a horizontal width greater than a foreground layer of the layered depth image
Including,
The horizontal width of the occlusion layer is proportional to the maximum disparity value included in the transverse boundary regions of the main depth map included in the foreground layer, wherein the transverse boundary regions are the outermost of a predetermined number of the main depth map. Composed of columns
Layered Depth Image Encoding Method.
계층화된 깊이 이미지 디코딩을 위한 방법으로서,
상기 계층화된 깊이 이미지의 적어도 하나의 오클루전 계층을, 상기 계층화된 깊이 이미지의 전경 계층보다 더 큰 수평 폭으로 디코딩하는 단계
를 포함하고,
상기 오클루전 계층의 수평 폭은 상기 전경 계층 내에 포함된 주 깊이 맵의 횡측 경계 영역들에 포함된 최대 디스패리티 값에 비례하고, 상기 횡측 경계 영역들이 상기 주 깊이 맵의 미리 결정된 수의 최외곽 열들로 구성되는
계층화된 깊이 이미지 디코딩 방법.
A method for layered depth image decoding,
Decoding at least one occlusion layer of the layered depth image to a horizontal width that is greater than a foreground layer of the layered depth image
Including,
The horizontal width of the occlusion layer is proportional to the maximum disparity value included in the transverse boundary regions of the main depth map included in the foreground layer, wherein the transverse boundary regions are the outermost of a predetermined number of the main depth map. Composed of columns
Layered Depth Image Decoding Method.
계층화된 깊이 이미지 인코딩을 위한 장치로서,
상기 계층화된 깊이 이미지의 적어도 하나의 오클루전 계층을, 상기 계층화된 깊이 이미지의 전경 계층보다 더 큰 수평 폭으로 인코딩하도록 적응되고, 상기 오클루전 계층의 수평 폭은 상기 전경 계층 내에 포함된 주 깊이 맵의 횡측 경계 영역들에 포함된 최대 디스패리티 값에 비례하고, 상기 횡측 경계 영역들이 상기 주 깊이 맵의 미리 결정된 수의 최외곽 열들로 구성되는
계층화된 깊이 이미지 인코딩 장치.
A device for layered depth image encoding,
Is adapted to encode at least one occlusion layer of the layered depth image to a horizontal width that is greater than the foreground layer of the layered depth image, wherein the horizontal width of the occlusion layer is included in the foreground layer. Proportional to the maximum disparity value included in the transverse boundary regions of the depth map, wherein the transverse boundary regions consist of a predetermined number of outermost columns of the main depth map.
Layered depth image encoding device.
계층화된 깊이 이미지 디코딩을 위한 장치로서,
상기 계층화된 깊이 이미지의 적어도 하나의 오클루전 계층을, 상기 계층화된 깊이 이미지의 전경 계층보다 더 큰 수평 폭으로 디코딩하도록 적응되고, 상기 오클루전 계층의 수평 폭은 상기 전경 계층 내에 포함된 주 깊이 맵의 횡측 경계 영역들에 포함된 최대 디스패리티 값에 비례하고, 상기 횡측 경계 영역들이 상기 주 깊이 맵의 미리 결정된 수의 최외곽 열들로 구성되는
계층화된 깊이 이미지 디코딩 장치.
An apparatus for layered depth image decoding,
Adapted to decode at least one occlusion layer of the layered depth image to a horizontal width that is greater than the foreground layer of the layered depth image, wherein a horizontal width of the occlusion layer is included in the foreground layer. Proportional to the maximum disparity value included in the transverse boundary regions of the depth map, wherein the transverse boundary regions consist of a predetermined number of outermost columns of the main depth map.
Layered depth image decoding device.
제1항의 데이터 구조, 제2항의 저장 매체, 제3항 또는 제4항의 방법, 또는 제5항 또는 제6항의 장치로서,
상기 횡측 경계 영역들이 상기 주 깊이 맵의 모든 열들로 구성되는, 데이터 구조, 저장 매체, 방법 또는 장치.
The data structure of claim 1, the storage medium of claim 2, the method of claim 3 or 4, or the device of claim 5, wherein
And the transverse boundary regions consist of all columns of the main depth map.
제1항의 데이터 구조, 제2항의 저장 매체, 제3항 또는 제4항의 방법, 또는 제5항 또는 제6항의 장치로서,
상기 오클루전 계층의 수평 축이 픽셀들에서 상기 전경 깊이 맵의 횡측 경계들에서 상기 최대 디스패리티 값을 포함하는 상기 주 깊이 맵의 행렬까지의 거리들의 최소값들에 추가로 비례하는, 데이터 구조, 저장 매체, 방법 또는 장치.
The data structure of claim 1, the storage medium of claim 2, the method of claim 3 or 4, or the device of claim 5, wherein
A data structure, wherein the horizontal axis of the occlusion layer is further proportional to the minimum values of the distances from pixels to the matrix of the main depth map containing the maximum disparity value at the lateral boundaries of the foreground depth map; Storage medium, method or device.
제1항의 데이터 구조, 제2항의 저장 매체, 제3항 또는 제4항의 방법, 또는 제5항 또는 제6항의 장치로서,
상기 계층화된 깊이 이미지가 동일한 오클루전 계층 폭들의 계층화된 깊이 이미지들의 시퀀스 내에 포함되는, 데이터 구조, 저장 매체, 방법 또는 장치.
The data structure of claim 1, the storage medium of claim 2, the method of claim 3 or 4, or the device of claim 5, wherein
And the layered depth image is included in a sequence of layered depth images of the same occlusion layer widths.
제1항의 데이터 구조, 제2항의 저장 매체, 제3항 또는 제4항의 방법, 또는 제5항 또는 제6항의 장치로서,
상기 오클루전 계층 내에 포함된 배경 이미지가 상기 전경 계층 내에 포함된 전경 이미지보다 더 큰 수평 폭을 갖는, 데이터 구조, 저장 매체, 방법 또는 장치.
The data structure of claim 1, the storage medium of claim 2, the method of claim 3 or 4, or the device of claim 5, wherein
And a background image contained within said occlusion layer has a larger horizontal width than a foreground image contained within said foreground layer.
제1항의 데이터 구조, 제2항의 저장 매체, 제3항 또는 제4항의 방법, 또는 제5항 또는 제6항의 장치로서,
상기 오클루전 계층 내에 포함된 배경 깊이 맵이 상기 전경 계층 내에 포함된 전경 깊이 맵보다 더 큰 수평 폭을 갖는, 데이터 구조, 저장 매체, 방법 또는 장치.
The data structure of claim 1, the storage medium of claim 2, the method of claim 3 or 4, or the device of claim 5, wherein
And a background depth map included in the occlusion layer has a larger horizontal width than a foreground depth map included in the foreground layer.
제2항에 있어서,
상기 수평 폭들이 달라지는 열들의 양을 나타내는 인코딩된 값이 상기 저장 매체에 의해 추가로 전달되는 저장 매체.
The method of claim 2,
And an encoded value indicative of the amount of rows in which the horizontal widths differ is further conveyed by the storage medium.
제4항에 있어서,
상기 수평 폭들이 달라지는 열들의 양을 나타내는 값을 디코딩하는 단계를 더 포함하는 계층화된 깊이 이미지 디코딩 방법.
The method of claim 4, wherein
And decoding a value representing the amount of columns in which the horizontal widths vary.
제6항에 있어서,
상기 수평 폭들이 달라지는 열들의 양을 나타내는 값을 디코딩하기 위해 추가로 적응되는 계층화된 깊이 이미지 디코딩 장치.
The method of claim 6,
And a layered depth image decoding apparatus further adapted to decode a value representing an amount of columns in which the horizontal widths vary.
제1항의 데이터 구조, 제2항의 저장 매체, 제3항 또는 제4항의 방법, 또는 제5항 또는 제6항의 장치로서,
상기 계층화된 깊이 이미지가 달라지는 오클루전 계층 폭들의 계층화된 깊이 이미지들의 시퀀스 내에 포함되는, 데이터 구조, 저장 매체, 방법 또는 장치.
The data structure of claim 1, the storage medium of claim 2, the method of claim 3 or 4, or the device of claim 5, wherein
The data structure, storage medium, method or apparatus included in the sequence of layered depth images of occlusion layer widths in which the layered depth image is different.
KR1020110124287A 2010-11-26 2011-11-25 Occlusion layer extension KR20120057542A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110124287A KR20120057542A (en) 2010-11-26 2011-11-25 Occlusion layer extension

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP10306300.4 2010-11-26
KR1020110124287A KR20120057542A (en) 2010-11-26 2011-11-25 Occlusion layer extension

Publications (1)

Publication Number Publication Date
KR20120057542A true KR20120057542A (en) 2012-06-05

Family

ID=46609408

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110124287A KR20120057542A (en) 2010-11-26 2011-11-25 Occlusion layer extension

Country Status (1)

Country Link
KR (1) KR20120057542A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013102496A1 (en) 2012-05-30 2013-12-05 Samsung Electro-Mechanics Co., Ltd. camera module

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013102496A1 (en) 2012-05-30 2013-12-05 Samsung Electro-Mechanics Co., Ltd. camera module

Similar Documents

Publication Publication Date Title
CN110024408B (en) Image data encoding/decoding method and apparatus
CN110024407B (en) Image data encoding/decoding method and apparatus
ES2676055T3 (en) Effective image receiver for multiple views
CN108886611B (en) Splicing method and device of panoramic stereo video system
JP6021541B2 (en) Image processing apparatus and method
KR102331748B1 (en) Multi-view signal codec
US20200228836A1 (en) Sequential Encoding and Decoding of Volumetric Video
US9036006B2 (en) Method and system for processing an input three dimensional video signal
CN114554202A (en) Image data encoding/decoding method, medium, and method of transmitting bit stream
KR100902353B1 (en) Device and Method for estimating death map, Method for making intermediate view and Encoding multi-view using the same
KR20170140187A (en) Method for fully parallax compression optical field synthesis using depth information
Schmeing et al. Depth image based rendering: A faithful approach for the disocclusion problem
US20120133735A1 (en) Occlusion layer extension
JP2008034892A (en) Multi-viewpoint image encoder
KR20120057542A (en) Occlusion layer extension
Maillard et al. Enhancing the audience experience during sport events: real-time processing of multiple stereoscopic cameras
Farid et al. A panoramic 3D video coding with directional depth aided inpainting
Jin et al. Multiview video plus depth transmission via virtual-view-assisted complementary down/upsampling
JP2004242000A (en) Encoding device and method, and decoding device and method
JP2012015982A (en) Method for deciding shift amount between videos
JP2008034893A (en) Multi-viewpoint image decoder
JP4293945B2 (en) Image generation method
Russell et al. Virtual Reality Video Compression
WO2011102131A1 (en) Image encoding device, image encoding method, program and integrated circuit

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination