KR20150017350A - 폐색 맵의 이용에 기초한 3차원 비디오 스트림의 생성 및 복원 방법, 및 그 대응 생성 및 복원 디바이스 - Google Patents

폐색 맵의 이용에 기초한 3차원 비디오 스트림의 생성 및 복원 방법, 및 그 대응 생성 및 복원 디바이스 Download PDF

Info

Publication number
KR20150017350A
KR20150017350A KR1020147034445A KR20147034445A KR20150017350A KR 20150017350 A KR20150017350 A KR 20150017350A KR 1020147034445 A KR1020147034445 A KR 1020147034445A KR 20147034445 A KR20147034445 A KR 20147034445A KR 20150017350 A KR20150017350 A KR 20150017350A
Authority
KR
South Korea
Prior art keywords
image
view
occlusion
pixels
occluded
Prior art date
Application number
KR1020147034445A
Other languages
English (en)
Inventor
마르코 그란게토
마우리지오 루센테포르테
Original Assignee
에스.아이.에스브이.이엘. 쏘시에타‘ 이탈리아나 퍼 로 스빌루포 델‘엘레트로니카 에스.피.에이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스.아이.에스브이.이엘. 쏘시에타‘ 이탈리아나 퍼 로 스빌루포 델‘엘레트로니카 에스.피.에이. filed Critical 에스.아이.에스브이.이엘. 쏘시에타‘ 이탈리아나 퍼 로 스빌루포 델‘엘레트로니카 에스.피.에이.
Publication of KR20150017350A publication Critical patent/KR20150017350A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/547Motion estimation performed in a transform domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/553Motion estimation dealing with occlusions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Image Generation (AREA)
  • Image Processing (AREA)

Abstract

비디오 이미지들의 시퀀스로부터 시작하여 3차원 비디오 스트림을 생성하기 위한 방법이 설명되며, 상기 시퀀스는 제 1 뷰(V0), 장면의 적어도 하나의 제 2 뷰(V1) 뿐만 아니라, 상기 제 1 뷰(V0)의 깊이 맵(D0), 또는 상기 제 1 뷰(V0)에 대한 상기 적어도 하나의 제 2 뷰(V1)의 디스패리티 맵을 포함하고, 상기 방법은, 하나의 이미지에 대해: 상기 깊이 맵(D0)으로부터 또는 상기 디스패리티 맵으로부터 시작하여 상기 제 2 뷰(V1)의 폐색된(occluded) 픽셀들을 포함하는 적어도 하나의 폐색 이미지(O1)를 획득하는 단계; 상기 픽셀들을 서로에 대해 더 가깝게 이동시키도록, 상기 적어도 하나의 폐색 이미지(O1)의 상기 폐색된 픽셀들을 공간적으로 재포지셔닝함으로써 콤팩팅된(compacted) 폐색 이미지(OC1)를 생성하는 단계를 포함하며; 상기 3차원 비디오 스트림은, 하나의 이미지에 대해, 상기 제 1 뷰(V0), 상기 깊이 맵(D0), 또는 상기 디스패리티 맵, 및 상기 적어도 하나의 콤팩팅된 폐색 이미지(OC1)를 포함한다.

Description

폐색 맵의 이용에 기초한 3차원 비디오 스트림의 생성 및 복원 방법, 및 그 대응 생성 및 복원 디바이스{METHOD FOR GENERATING AND RECONSTRUCTING A THREE-DIMENSIONAL VIDEO STREAM, BASED ON THE USE OF THE OCCLUSION MAP, AND CORRESPONDING GENERATING AND RECONSTRUCTING DEVICE}
본 발명은, 3차원 비디오 신호를 프로세싱하기 위한 시스템들의 분야에 관한 것이고, 더욱 구체적으로는 폐색 맵(occlusion map)의 이용에 기초한 3차원 비디오 스트림의 생성 및 복원 방법, 그리고 그에 대응하는 생성(generating) 및 복원(reconstructing) 디바이스에 관한 것이다.
스테레오스코픽(stereoscopic), 즉, 3차원 비디오 애플리케이션들의 발달은 3차원 비디오 신호를 표현하고 압축하기 위한 유효(efficient) 포맷들의 가용성(availability)에 크게 의존한다. 더욱이, 텔레비전 브로드캐스트 애플리케이션(3D-TV)에서, 기존의 2D 시스템들과 가장 높은 가능한 정도의 하위 호환성(backward compatibility)을 유지하는 것은 필수적이다.
현재 가장 널리 퍼져 있는 기술적 솔루션들은 소위 "프레임 호환가능 어레인지먼트"에 기초하며, 여기서 동시 인스턴트(same time instant)에 관한 2개의 뷰들(좌안(left eye)에 그리고 우안(right eye)에 각각 제시될 비디오 이미지들)이 적절하게 재-스케일링되고, 필요하거나 또는 적합한 경우, 단일 이미지를 형성하기 위해 함께 놓여진다. 가장 통상적인 솔루션들은 Top Bottom 어레인지먼트 및 Side by Side 어레인지먼트로서 알려져 있고, 여기서 2개의 뷰들은 하나가 다른 하나 위에 놓이는 단일 프레임으로 또는 좌측에서 우측으로 나란히 진입된다. 이러한 솔루션들은, 전체 기존의 비디오 신호 분포 인프라스트럭쳐(지상, 위성 또는 케이블 브로드캐스팅, 또는 IP 네트워크를 통한 스트리밍)를 이용하는 것을 허용하며, 새로운 표현 및 압축 표준들을 요구하지 않는다. 이에 더해, AVC/H.264 코딩 표준은 스테레오스코픽 신호의 이러한 유형의 구성(composition)을 시그널링할 가능성을 이미 포함하여, 신호는 수신기에 의해 정확하게 복원되어 디스플레이될 수 있다.
스테레오스코피보다 더 진보된 애플리케이션들은 2개 초과의 뷰포인트들을 이용하여, 결과적으로 더 큰 세트의 비디오 시퀀스들을 표현하고, 코딩하고, 그리고 송신할 필요성을 야기한다. 이 프레임에서, 최신 기술은 MVC 표준(AVC/H.264의 Annex G)으로 표현된다. MVC는, 공지된 변환-유형(transform-type) 하이브리드 비디오 코딩 패러다임을 활용하고, 다양한 뷰들 사이에서의 약간의 리던던시를 제거하도록 허용한다. 상기 표준은, 디스크-저장 스테레오스코픽 비디오들에 대해 그리고 블루-레이 플레이어들에 대해 선택되었다.
최종적으로, 다른 가능성은, 오직 비디오 신호만을 이용하지 않는 3D 비디오 표현으로 이루어진다. 가장-잘 알려진 예시는, 더 많은 뷰들 및 깊이 맵들을 갖는 비디오 + 깊이 맵(V+D, 즉, 비디오 + 깊이) 및 그 변형들로서 알려진 접근방식으로 표현된다. 깊이 맵은, 메인 뷰에 더 가까운 또는 덜 가까운 중간 뷰포인트(intermediate viewpoint)들을 합성하는 가능성과 같은 새로운 방법들이, 예를 들어, 자가-스테레오스코픽 3D 디스플레이와 함께 이용되는 것을 가능하게 한다. 현재, 이러한 유형의 포맷을 시그널링하기 위한 오직 하나의 표준, 즉, MPEG-C가 존재한다. 깊이 맵의 값들은 적합한 센서들에 의해 추정 또는 측정될 수 있다. 이러한 값들은, 256개의 그레이스케일 레벨들을 갖는 이미지들로서 일반적으로 표현되고 표준 기법들(MPEG-x, H.26x)을 이용함으로써 압축된다.
공지된 솔루션들의 기술적 문제점들 및 결함들
현재 이용가능한 솔루션들은 수많은 기술적 문제들 및 결함들을 겪고 있다. 프레임-패킹 어레인지먼트 접근방식들은, 오직 2개의 뷰들 만을 표현하도록 허용하여, 이에 따라 공간 해상도(spatial resolution)에 관해서 이미지 품질을 희생한다. 이들은, 중간 뷰포인트들의 생성을 또한 가능하게 하지 않으면서, 표준 압축기(standard compressor)들의 효율성에 대한 부작용(adverse effect)을 또한 가질 수 있다.
수많은 뷰포인트들을 갖는 MVC 표준 및 시퀀스들의 이용은 수많은 문제들을 제기한다. 먼저, MVC 인코더의 효율성은, 컨텐츠의 유형에 의존하여 많이 변화하고, 코딩 이득은 일반적으로 상당히 낮다. 코딩 효율성은 수많은 뷰들을 갖는 경우들에 대해 절대적으로 불충분하다. 이에 더해, 뷰-간 코딩 옵션들의 계산 비용은 매우 높다.
V+D 표현들은, 코딩 효율에 관하여 그리고 중간 뷰포인트들을 생성하는 가능성에 관하여 둘 다 유망한 것으로 나타난다.
깊이 신호 D(Depth)를 압축하기 위해 지금까지 제안되어왔던 시스템들은, 표준 인코더들 또는 특수하게 고안된 솔루션들을 이용한다. 둘 다의 경우들에서, 신호 D는 압축하기 더 쉽고, 결과적으로 비디오와 비교하여 더 작은 대역을 요구하는 것으로 관찰되어 왔다. V+D 시스템들의 가장 중요한 양상은, V+D로부터 시작하여 합성될 수 있는 이미지의 품질이다. 뷰 및 관련 깊이 맵을 가정하면, 기하학적 원인들 또는 깊이 추정 오류들로 인해 폐색된(occluded) 일부 영역들을 제외하고 새로운 뷰를 생성하는 것이 가능하다. 이는, 비-최적 품질의 이미지들을 일반적으로 생성하는 보간 및/또는 재채색(inpainting) 메커니즘들(즉, 손실 또는 오류가 생긴(corrupted) 부분들의 복원)의 이용을 요구한다. 폐색들을 감소시키기 위해, 다른 옵션은, 합성 프로세스 동안 이용될 뷰들 및 깊이 맵들의 수를 증가시키는 것이다. 예를 들어, MPEG 표준화 위원회에 의해 이용되는 소프트웨어는 2개의 뷰들 및 2개의 깊이 맵들로부터 시작하여 중간 뷰를 생성하며; 한편으로, 이는 합성된 이미지의 품질을 그 폐색된 영역들을 감소시킴으로써 개선시키지만, 다른 한편으로는, 2개의 비디오 신호들의 압축을 요구하여, 이에 따라 송신 대역 점유에 관하여 이러한 솔루션이 전혀 실현가능하게 만들지 않는다. 하나의 가능한 대안책은, 이들을 코딩한 후 이들을 명확하게 디코더로 전송하기 위해 코딩 스테이지에서 그 폐색된 영역들을 추정하여 이에 따라 더 나은 품질을 갖는 추가의 뷰들을 복원할 수 있게 하는 것이다.
US 특허 2010/0195716 A1은, 관련 깊이 맵으로 단지 하나의 뷰(중심 뷰)를 코딩하여, 코딩 프로세스 동안 뷰 합성 및 스테레오스코픽 비젼을 위해 이용될 우측 뷰 및 좌측 뷰에 대한 폐색된 영역들을 추정하는 것을 제안한다. 폐색되지 않은 영역들은 고정 값들(예를 들어, 값 0)을 이용함으로써 명확하게 시그널링되고, 폐색된 픽셀들은 이미지의 제한된 부분을 구성하는 반면, 이렇게 획득된 비디오 신호(디코딩 프로세스에 유용한 이들 폐색된 픽셀들만을 포함하는 이미지들로 이루어짐)는 표준 인코더에 의해 압축될 수 있다. 테스트들은, 비록 폐색된 픽셀들이 통상적으로 하나의 이미지에 포함된 전체 픽셀들의 수보다 훨씬 적긴 하지만, 요구된 비트 레이트가 3D 비디오의 전체 비트 레이트의 상당한 비율에 도달할 수 있다는 것을 나타낸다.
따라서, 그 저장 및/또는 송신을 위해 요구되는 비트 레이트를 감소시킬 수 있는 적합한 기술들에 의해 폐색 이미지들의 압축을 최적화할 필요성이 존재한다. 이는, 또한, 가능한 한 언제나, 기존의 코딩 및 디코딩 디바이스들을 이용함으로써 그에 대한 더 효율적인 코딩 및 멀티플렉싱을 보장하기 위해 폐색된 영역들의 통상적으로 제한된 확대를 활용하기에 적절하다.
따라서, 본 발명의 하나의 목적은, 폐색 맵의 이용에 기초하여 3차원 비디오 스트림을 생성하고 복원하기 위한 방법뿐만 아니라, 앞서 언급된 모든 결함들을 극복하도록 적응된 대응하는 생성 및 복원 디바이스를 제공하는 것이다.
본 발명은, 예를 들어, V+D 코딩의 범위에 포함된다.
생성된 비디오 스트림에는, 송신을 위한 코딩 및 그후 수신을 위한 디코딩이 행해질 수 있다. 일 대안책으로서, 이는, 예를 들어, 제거가능 저장 매체(DVD, Blu-Ray 등) 상에서, 생산 스테이지에서 압축되지 않은 스테레오스코픽 컨텐츠에 대해 수행될 저장 및/또는 비디오 편집 동작들에 대해 이용가능하게 될 수 있다(여기서, 코딩 동작은 선택적이다).
일 가능한 실시예에서, 스테레오스코픽 비디오는, 기준 뷰(예를 들어, 좌측 뷰)로부터의 이미지들의 시퀀스, 대응하는 깊이 맵, 및 다른 뷰(예를 들어, 우측 뷰)의 폐색들에 대응하는 비디오 시퀀스를 코딩함으로써 코딩된다. 시퀀스의 일반적인 이미지의 폐색 맵은, 메인 뷰로서 또한 지칭되는 기준 뷰와 관련하여 하나의 뷰의 폐색된 픽셀들의 포지션들을 표현하는 이미지로 구성되며; 이는 좌측 뷰 및 대응하는 깊이 맵을 이용함으로써 획득된다. 예를 들어, 당업자는, 합성될 수 없는 그리고 폐색들로서 알려진 이러한 픽셀들을 로케이팅하기 위해 우측 뷰에 대한 동일한 합성 알고리즘을 이용할 수 있다.
다른 기법들은, 예를 들어, 큰 깊이 변형들을 갖는 영역들을 식별하는 깊이 맵의 파생물(derivative)에 기초하여, 폐색된 영역들을 추정하기 위해 대안적으로 이용될 수 있고; 후자는 일반적으로, 뷰포인트가 변경될 때 폐색들을 생성하는, 전경 내의 오브젝트들의 엣지들에 일반적으로 대응한다. 어쨌든 간에, 그 가능한 코딩을 통한 생성 스테이지에서 계산된 폐색들의 포지션들의 맵핑이, 후속하는 압축 동작들의 함수로서 수행되지만, 이는 명백하게 코딩되어 그리고 디코더로 송신될 필요는 없다. 복원 스테이지에서, 사실상, 동일하게 복원된 뷰 및 깊이에 기초하여, 생성 스테이지에서 행해진 추정을 반복하고 그리고 폐색들의 포지션들을 맹목적으로 (즉, 동일한 폐색 맵핑) 획득할 가능성이 있다.
이에 따라, 본 발명은, 코딩 동작을 통해서 실행된 그 후속 압축을 더 효율적으로 행하도록, 폐색된 이미지를 인식하기 위한 옵션을 제공한다. 이 동작은, 폐색 맵의 지식을 활용함으로써 디코더에 의해 인버팅(invert)되어야만 한다. 이하 설명될 바와 같이, 상기 맵은 명확하게 코딩하여 상기 맵을 송신할 필요 없이 디코더에 의해 재-획득될 수 있다.
비디오 스트림을 복원할 때, 가능하게는 코딩되고 송신된 후에, 반드시 알려져야하고 가능한 한 명확하게 코딩되어 송신되어야 하는 것은, 폐색된 픽셀들 사이의 관련성 및 이들이 속하는 포지션이 복원 스테이지에서 맹목적으로 획득될 수 있는 동안 후술하는 상세한 설명으로부터 명백하게 될, 폐색된 픽셀들의 값이다.
생성 및 비디오 스트림 복원 스테이지들에서 동일한 폐색 맵핑 정보의 가용성은, 이러한 폐색들과 관련하여 비디오 정보를 더욱 효율적으로 나타내기 위해 본 발명에 의해 이용되어 이에 의해 폐색 맵들을 포함하는 비디오 스트림의 가능한 코딩에 요구되는 비트 레이트를 감소시키고 그리고 이미지들의 차원들, 및, 본 발명의 일부 실시예에서는, 또한 그 주파수를 감소시키는 것을 가능하게 한다.
특히, 폐색된 픽셀들의 포지션이 비디오 스트림을 복원할 때 맹목적으로 알려지기 때문에, 생성 스테이지에서, 그 압축력을 개선시키는 것을 목표로 하는 전략들에 따라 폐색 이미지 내의 폐색된 픽셀들을 재포지셔닝하는 것이 가능하다. 예를 들어, 당업자는 좌측 엣지를 향해서 폐색된 픽셀들 모두를 로우 별로(row by row) 작업하고 정렬시킬 수 있어, 이에 따라 폐색된 이미지를 그 이미지보다 더 작은 영역으로 콤팩팅할 수 있다.
폐색된 픽셀들이, 로우 별로, 그리고, 예를 들어, 좌측에서 우측으로, 또는 생성 스테이지에서 이전에 행해진 임의의 방식대로 프로세싱될 때, 픽셀들의 이러한 공간 재편성(reorganization)은 복원 스테이지에서 반전될 수 있다. 폐색들의 맵핑을 인지함으로써, m-번째 로우의 n-번째 픽셀은 폐색 맵의 m-번째 로우의 n-번째 폐색된 픽셀에 대응하는 포지션으로 다시 놓이고; 폐색된 픽셀들의 값들은 이에 따라 그들의 오리지널 포지션으로 정확하게 교체된다. 최종적으로, 우측 뷰는 좌측 뷰 및 깊이 맵으로부터 시작하여 합성 알고리즘을 이용함으로써 합성되고; 합성 프로세스가 성공적이지 않은 폐색된 영역들은 앞서-설명된 절차를 통해서 획득될 수 있다.
후속 압축 절차를 개선시키는 것을 목표로 하는 폐색된 픽셀들의 임의의 다른 공간 재편성은, 본 발명에 따라서 이용될 수 있다.
이하 더욱 상세하게 설명될 바와 같이, 이러한 공간 재편성 동작은, 특정 조건들에서, 주어진 스테레오스코픽 컨텐츠를 (VDO로서도 또한 알려져 있는, 비디오+깊이+폐색 또는 비디오+디스패리티+폐색을 의미하는), 즉, 뷰 시퀀스, 깊이 또는 디스패리티 시퀀스, 및 폐색 시퀀스를 포함하는, V+D+O 모드로 표현하기 위해 요구되는 이미지들의 수를 감소시키는 것을 허용하여, 여기서, 상이한 시간 인스턴트들에서 취해진 뷰의 폐색들을 포함하는 다수의 적합하게 콤팩팅된 이미지들은 복수의 콤팩팅된 컴포넌트 이미지들로 구성된 합성 이미지로 함께 놓일 수 있다.
본 발명의 특정 목표는, 청구항 제 1 항에 따라서, 비디오 이미지들의 시퀀스로부터 시작하여 3차원 비디오 스트림을 생성하기 위한 방법을 제공하는 것이며, 상기 시퀀스는 제 1 뷰, 장면의 적어도 하나의 제 2 뷰뿐만 아니라, 상기 제 1 뷰의 깊이 맵, 또는 상기 제 1 뷰에 대한 상기 적어도 하나의 제 2 뷰의 디스패리티 맵을 포함하고, 상기 방법은, 하나의 이미지에 대해, 상기 깊이 맵으로부터 또는 상기 디스패리티 맵으로부터 시작하여 상기 제 2 뷰의 폐색된 픽셀들을 포함하는 적어도 하나의 폐색 이미지를 획득하는 단계; 상기 픽셀들을 서로에 대해 더 가깝게 이동시키도록, 상기 적어도 하나의 폐색 이미지의 상기 폐색된 픽셀들을 공간적으로 재포지셔닝함으로써 콤팩팅된 폐색 이미지를 생성하는 단계를 포함하고, 상기 3차원 비디오 스트림은, 하나의 이미지에 대해, 상기 제 1 뷰, 상기 깊이 맵 또는 상기 디스패리티 맵, 및 상기 적어도 하나의 콤팩팅된 폐색 이미지를 포함한다.
본 발명의 다른 목적은, 청구항 제 13 항에 따라서, 상기 3차원 비디오 스트림을 생성하기 위한 방법을 구현하도록 적응된, 비디오 이미지들의 시퀀스로부터 시작하여 3차원 비디오 스트림을 생성하기 위한 디바이스를 제공하는 것이다.
본 발명의 추가적인 목적은, 청구항 제 16 항에 따라서, 비디오 이미지들의 시퀀스를 포함하는 3차원 비디오 스트림을 복원하기 위한 방법을 제공하는 것이며, 이 방법은, 하나의 이미지에 대해, 상기 픽셀들을 서로에 대해 더 가깝게 이동시키도록, 상기 비디오 이미지들의 시퀀스의 제 1 뷰, 상기 제 1 뷰의 깊이 맵, 또는 상기 제 1 뷰와 상기 비디오 이미지들의 시퀀스의 적어도 하나의 제 2 뷰 사이의 디스패리티 맵, 및 상기 적어도 하나의 제 2 뷰의 적어도 하나의 폐색 이미지의 폐색된 픽셀들을 공간적으로 재포지셔닝함으로써 획득된 적어도 하나의 콤팩팅된 폐색 이미지를 수신하는 단계; 상기 적어도 하나의 콤팩팅된 폐색 이미지를 획득하기 위해 수행된 콤팩션 동작 이전에 이들이 있었던 포지션으로 재포지셔닝된 상기 적어도 하나의 제 2 뷰의 폐색된 픽셀들을 포함하는 적어도 하나의 복원된 폐색 이미지를 획득하는 단계; 상기 제 1 뷰로부터, 상기 깊이 맵 또는 각각으로부터, 상기 디스패리티 맵으로부터, 및 상기 적어도 하나의 복원된 폐색 이미지로부터 시작하여 상기 적어도 하나의 제 2 뷰를 복원하는 단계를 포함하고, 상기 복원된 3차원 스트림은 상기 수신된 제 1 뷰 및 상기 적어도 하나의 복원된 제 2 뷰를 포함한다.
본 발명의 추가적인 목적은, 청구항 제 20 항에 따라서, 3차원 비디오 스트림을 복원하기 위한 상기 방법을 구현하도록 적응된 3차원 비디오 스트림을 복원하기 위한 디바이스를 제공하는 것이다.
본 발명의 추가적인 목적은, 청구항 제 25 항 및 제 26 항에 따라서, 2개 초과의 수많은 뷰들을 프로세싱하도록 적응된 비디오 이미지들의 시퀀스로부터 시작하여 3차원 비디오 스트림을 생성하기 위한 방법 및 관련 디바이스를 제공하는 것이다.
본 발명의 또 다른 목적은, 청구항 제 27 항 및 제 28 항에 따라서, 2개 초과의 수많은 뷰들을 프로세싱하도록 적응된 비디오 이미지들의 시퀀스로부터 시작하여 3차원 비디오 스트림을 복원하기 위한 방법 및 관련 디바이스를 제공하는 것이다.
본 발명의 추가적인 목적은, 청구항 제 24 항에 따라서, 3차원 이미지들의 시퀀스를 표현하는 비디오 스트림을 제공하는 것이다.
본 발명의 특정 목적은, 본 상세한 설명의 구성 요소인 첨부된 청구항들에서 명시된 대로, 폐색 맵에 기초하여 3차원 비디오 스트림을 생성하고 복원하기 위한 방법뿐만 아니라 이에 대응하는 생성 및 복원 디바이스를 제공하는 것이다.
본 발명의 추가적인 목적들 및 이점들은, 비-제한적인 예시에 의해서만 제공된, 그 바람직한 실시예(및 변형들)의 후술하는 상세한 설명으로부터 그리고 첨부된 도면들로부터 명백하게 될 것이다.
도 1a는, 본 발명에 따른 3차원 비디오 신호 생성기의 블록도이다.
도 1b는 도 1a의 도면의 변형을 나타낸다.
도 1c는, 2개 초과의 뷰들을 갖는 3차원 비디오 신호의 경우에 대한 도 1a의 도면의 가능한 확대를 나타낸다.
도 2 내지 도 14는, 본 발명의 원리들에 따라, 폐색 맵들 및 이미지들의 예시들의 그리고 콤팩팅된 폐색 이미지들의 생성의 표현 변형들을 나타낸다.
도 15a는, 본 발명에 따른 3차원 비디오 신호 복원기의 블록도이다.
도 15b는, 도 15a의 도면의 변형을 나타낸다.
도 15c는, 2개 초과의 뷰들을 갖는 3차원 비디오 신호의 경우에 대한 도 15a의 도면의 가능한 확대를 나타낸다.
도 16 내지 도 21은, 본 발명의 원리들에 적용함으로써 수행되는 테스트들 동안 획득된 실제 이미지들의 예시들을 나타낸다.
도 22는, 본 발명의 원리들을 적용함으로써 수행된 상기 테스트들 동안 획득된 피크 잡음-대-신호 비들의 커브들을 나타낸다.
도면들에서, 동일한 참조 수치들 및 문자들은 동일한 항목들 또는 컴포넌트들을 식별한다.
도 1a은, 본 발명에 의해 특정된 바와 같이, 3차원 비디오 스트림 생성기(100)의 일 가능한 실시예의 블록도를 나타낸다.
도 1a에 나타낸 도면은, 텔레비전 세트 또는 다른 스테레오스코픽 비디오 재생 장치상에 디스플레이될 스테레오스코픽 비디오의 케이스를 나타낸다. 이 경우, 사용자는, 뷰포인트를 선택할 수 없고, 고정 디스패리티를 갖는 2개의 뷰들 V0 및 V1의 비전을 위해 바운딩된다. 입력 데이터로서, 생성기는, 제 1 비디오 시퀀스 V0, 대응하는 깊이 맵 시퀀스 D0, 및 제 2 비디오 시퀀스 V1을 요구한다. 깊이 맵 시퀀스 D0은, 2개의 뷰들로부터 시작하여 측정 또는 추정될 수 있고, 일반적으로 단색성(monochromatic) 비디오, 즉, 0과 255 사이의 세기 값(intensity value)들을 갖는 픽셀들을 갖는 이미지들의 시퀀스로 이루어진 비디오로서 표현된다. 비디오 시퀀스 D0은, V0 및/또는 V1을 아는 것으로부터 상기 시퀀스를 획득하도록 적응된 적합한 기능 블록을 통해서, 차이 없이, 생성기(100)의 업스트림으로, 또는 생성기(100) 자체 내에서 임의의 방식을 통해서 획득될 수 있다. 비디오 시퀀스 D0은 또한, 뷰 시퀀스(V0 또는 V1)와 동일한 크기를 갖는 이미지들에 대해 수행된 추정 프로세스를 통해서 원래 획득된 것으로부터 언더샘플링된(undersampled) 이미지들로 구성될 수 있다. 도 1a의 블록도는 제 1 가설을 나타내며, 이에 따라 이 기능 블록은 부재하며, D0는 V0 및/또는 V1으로부터 시작하여 어떠한 수단에 의해 사전에 획득되었던 것으로 가정된다.
본 발명에 따르면, 신호들 V0 및 D0은 또한, 예를 들어, AVC/H.264 타입 중 하나와 같은 표준 비디오 인코더를 통해서 적합한 압축 기법을 이용함으로써 코딩될 수 있다.
또한, 소프트웨어를 통해서 구현된 비디오 인코더는 대개 입력 비디오 신호들 또는 스트림들의 디코딩된 이미지들을 제공하며, 여기서 이 이미지들은 인코더의 모션 추정/보상 프로세스에 이용된다. 디코딩된 이미지들이 표준 인코더에서 이용불가하다면, 사용되고 있는 동일한 비디오 압축 및 압축해제 기법을 이용하여 인코더에 의해 생성된 코딩된 이미지들을 디코딩하기 위해 적합한 디코더가 이용될 수 있다. 그후, 대응하는 디코딩된 비디오 신호들 또는 스트림들 Vdec0 및 Ddec0가 폐색 추정기 블록 STOC에 의해 이용될 수 있다.
블록 STOC는, 예를 들어, Vsyn1으로 지칭되는, 뷰 V1의 추정된 시퀀스를 생성할 수 있는 합성 알고리즘을 통해서 구현되는 함수(뷰 합성)를 포함할 수 있으며; 이 시퀀스는 출력되지 않지만, 소위 폐색 맵을 형성하는 폐색된 픽셀들의 포지션들을 결정하기 위해 이용될 수 있다. 합성 스테이지는, 폐색들 OM0 ,1의 세트를 표현하는 이진 이미지들로 이루어진, 폐색 맵의 비디오 시퀀스(또한, 비디오 스트림으로 지칭되거나 또는 간단하게 비디오로서 지칭됨)를 맹목적으로 생성한다. OM0 ,1에서 1의 값은, V0 및 D0의 대응 이미지들로부터 시작하여 V1의 이미지의 대응하는 픽셀을 합성하는 것이 불가능하다는 것을 나타낸다. 값들 0은, 합성이 성공적인 이들 영역들, 즉, 시퀀스 Vsyn1에서 추정된 값이 존재하는 경우를 표현한다.
폐색 맵들의 정의에 속하는 기법들 및 규칙들은 사용되는 합성 알고리즘에 따라 변할 수 있다. 예를 들어, 폐색 추정 기법은, 디코딩된 비디오 시퀀스 Vdec0 및 Ddec0의 이미지들로부터 시작하여 이용될 수 있고, 이는 추정의 신뢰도에 따라 확률론적 결과 유효성 값들과 연관된 합성된 픽셀들을 갖는 이미지들을 생성한다. 결정 블록은, 합성 신뢰도가 사전설정된 임계값보다 개별적으로 더 높은지 또는 더 낮은지에 따라, 또는 적절한 것으로 고려되는 임의의 다른 결정 기준에 기초하여, 값 0 또는 1을 픽셀에 할당할 수 있다. 코딩 측에서, 임의의 합성된 픽셀 값을 생성하지 않는 비디오 프로세싱 알고리즘들이 또한 이용될 수 있기는 하지만, 그럼에도 불구하고 뷰 V1의 합성 알고리즘이 대응하는 비디오 시퀀스의 이미지의 주어진 픽셀에 대한 정확한 값을 부여하거나 또는 부여하지 않을 확률을 추정할 수 있다.
디코딩된 비디오 시퀀스들 Vdec0 및 Ddec0는, 오리지널 비디오 시퀀스들이 액세스될 수 없는 복원 스테이지에서 획득될 수 있는 것들과 일치하는(in line with) 결과들 및 절차들을 획득하도록, 오리지널 시퀀스들 V0 및 D0와는 대조적으로, 바람직하게 이용된다. 비디오 신호 인코더가 존재하는 경우, 코딩된 스트림들 Vcod0 및 Dcod0로부터 시작하여 디코딩된 비디오 시퀀스들 Vdec0 및 Ddec0를 획득하기 위해, 비디오 인코더와 캐스케이드로 배열된 디코더가 또한 존재할 것이다.
앞서 언급된 사항은, 본 발명이 스테레오스코픽 컨텐츠에 의해 (저장을 위한) 저장 매체의 또는 (송신을 위한) 채널의 점유를 감소시키기 위해 생성 측에서 코딩으로 그리고 복원 측에서 디코딩으로 구현될 때 적용된다. 코딩 및 디코딩 프로세스들이 수행되지 않는 경우, 뷰 V1은 V0 및 D0로부터 직접 계산될 수 있다. 이러한 경우에서, V+D+O 삼중항(삼중항)은 3개의 코딩되지 않은 시퀀스들 V0, D0 및 OC1으로 구성될 것이며; 여기서 후자는 본 발명에 따라서 공간적으로 압축되거나 또는 콤팩팅될 것이다. 이에 따라, 또한, 폐색 추정기 블록 STOC는 Vdec0 및 Ddec0(도 1b) 대신에 시퀀스들 V0, D0을 이용할 것이다.
이 시점에서, 폐색된 픽셀들 단독에 대해 0 이외의 픽셀 값들(또는 다른 미리결정된 중립 값)을 갖는 이러한 이미지들을 포함하는 폐색들 O1의 비디오 이미지들의 시퀀스를 리트리브할 수 있으며, 여기서 대응하는 값이 존재한다. 폐색되지 않은(non-occluded) 픽셀들의 값으로서 0이 선택되는 경우, O1의 이미지들은 시퀀스 OM0,1 및 V1의 이미지들의 공동-포지셔닝된 계수들을 단순하게 곱함으로써 획득될 수 있다.
통상적으로, 폐색 이미지들을 포함하는 비디오 시퀀스의 이미지(200)는, 폐색된 픽셀들, 즉, 비디오 시퀀스 V0의 대응하는 이미지에서 보이지 않는 이러한 픽셀들을 포함하는 일련의 고립된 구역(region)들로 구성된다. O1의 통상적인 컴포넌트 이미지의 하나의 가능한 표현은 도 2에 도시된다. 그 이미지는, n개의 로우들×m개의 컬럼들의 픽셀로 구성되며, 일반적으로 V0 및 V1의 하나의 이미지와 동일한 차원을 가질 수 있다. 상기 도면에서, 폐색된 픽셀들을 포함하는 구역들(또한, 명료함을 위해 폐색된 구역들로서 지칭됨)이 문자들 A, B, C, D 및 E로 지정된 것들을 갖는 것으로 가정된다. 보다 명료함을 위해, 상이한 그리고 상당히 간단한 규칙적인 기하학적 형상들을 갖는 구역들이, 불규칙적인 그리고 복잡한 형상들을 실제로 가질 수 있거나 또는, 예를 들어, 환형(annular) 구역들, 즉, 폐색되지 않은 픽셀들로 구성된 하나 또는 그 초과의 영역들을 통합하는 내부적으로 연결되지 않은 구역들을 포함할 수 있다고 해도, 이들이 선택되었다. 폐색된 구역들에 의해 커버되지 않은 이미지(200)의 영역은, 폐색된 픽셀들을 전혀 포함하지 않는다거나 또는, 최소한, 선택된 합성 알고리즘의 이용을 통해서 인코더의 추정기 블록에 의해 폐색된 픽셀들을 전혀 포함하지 않는 것으로 추정되었다고 나타내기 위해, 중립 값들, 예를 들어, 0을 갖는 픽셀들을 포함한다.
폐색된 이미지들의 비디오 시퀀스 O1는, 결과로 나타나는 비디오 시퀀스에 가능한 한 표준 비디오 인코더에 의한 압축이 행해질 수 있다는 사실을 또한 고려할 수 있는 다양한 방식들로 본 발명에 따라 폐색 공간 콤팩터 블록 CSO에 의해 프로세싱될 수 있다. 제 1의 가장 간단한 실시예가 이제 도 3 및 도 4를 참조하여 설명될 것이다. 도 2 및 도 3에 도시된 바와 같이, 제 1 nA 로우들은, 폐색된 픽셀들로서, 오직 직사각형 구역 A의 픽셀들, 즉, 이 세트의 로우들의 제 1 mA 픽셀들만을 포함하는 것으로 가정한다. 공간 콤팩터 블록은, n개의 로우들×m개의 컬럼들(400)의 새로운 이미지를 생성하고, nA×mA 픽셀들의 이러한 직사각형 블록을 출력 이미지의 상부 좌측 코너로 카피하며; 상기 직사각형 블록과 함께, 중립 값들을 포함하는 처음 nA개의 로우들의 나머지 부분도 또한 카피된다. 획득된 것은, OC1으로 지정된 출력 비디오에 속하는 출력 이미지(400)의 처음 nA개의 로우들이 O1의 입력 이미지(200)에 대응하는 로우들을 갖는 이러한 특정 예시에서와 일치한다는 것이다. 이미지(200)의 열별(row-by-row) 스캐닝을 계속하면, 공간 콤팩터 블록은, nA+1로부터 nA+nB까지의 nB 로우들의 다음 그룹이, 폐색된 픽셀들로서, 구역 A의 mA 폐색된 픽셀들 및 직사각형 구역 B의 mB 폐색된 픽셀들을 포함한다고 검출한다. 따라서, 상기 블록은, 폐색된 픽셀들의 이러한 2개의 그룹들을, 이들이 이미지(200)에서 나타내는 동일한 순서로 이미지(400)으로 카피할 것이며, 이는 이 그룹들을 좌측에서 우측으로 이동시키고 그리고 구역 A 및 구역 B 사이의 임의의 중립의 폐색되지 않은 픽셀들을 제거할 것이다. 따라서, 도 4a의 상황이 획득될 것이며, 여기서 B의 처음 nB 로우들은 이미지(200)의 동일한 로우들에 속하는 A의 로우들 가까이에서 좌측에서 우측으로 (nA+1번째 로우로부터 nA+nB번째 로우로) 이동된다.
다음 세트의 nC1-nD1 로우들(nA+nB+1번째 로우로부터 nA+nB+nC1_nD1번째 로우까지)에서, 폐색된 구역 C1의 상부 부분에 속하는 추가적인 폐색된 픽셀들이 존재하며, 결국, 이는, 이미지(200)의 수평측에 평행하는 하나의 대각선을 갖는 4변형 애로우-포인트 형상을 갖는 더 크게 폐색된 구역 C의 상부 부분을 구성한다. 공간 콤팩터 블록은 시퀀스 OC1의 이미지(400)로 로우 별로 카피하고, 폐색된 픽셀들 모두는 A와 B 사이 그리고 B와 C1 사이의 폐색되지 않은 픽셀들 모두를 스킵하는 A, B e C1에 속한다. 좌측으로 카피되고 콤팩팅된 후에, 이미지(400)에서 B 가까이에 놓인 구역 C1의 픽셀들은, 이들이 이미지(200)에서 가졌던 형상과는 상이한 형상을 갖는 피겨(figure)를 형성한다는 점에 주목해야 한다.
이미지(200)의 다음 nD1 로우들(nA+nB+nC1_nD1+1번째 로우로부터 nA+nB+nC1번째 로우까지)의 경우, 스캔 동안, 공간 콤팩터는, A, B 및 C1의 폐색된 픽셀들뿐만 아니라, 또한 D로 지정된 유사한 영역의 상부 부분을 구성하는 삼각형 구역 D1의 폐색된 픽셀들을 직면한다. 이러한 픽셀들은 또한, C1과 D1 사이의 중립의 폐색되지 않은 픽셀들은 카피되지 않고, 좌측에서 우측으로 이미지(200)를 스캐닝하면서 이전에 직면된 C1의 로우들 가까이에서 좌측으로 콤팩팅된다. 또한, 콤팩션 프로세스로부터 초래되는 구역 D1은, 이미지(400)에서, 이미지(200)에서 가졌던 오리지널 형상과는 상이한 형상을 취한다.
다음으로, 공간 콤팩터 CSO는, 이미지(200)의 나머지 로우들에 대해 콤팩션 동작을 계속하여, 좌측으로 콤팩팅하고, 연달아, 또한 구역 C2 및 D2를, 후속하여 E1, D3, 및 E2, 그리고 최종적으로 E3를 콤팩팅한다. 도 4a에 도시된 이러한 동작으로부터 초래되는 m×n 이미지(400)는, 폐색된 픽셀들에 관해서 입력 이미지(200)와 동일한 정보를 포함하지만, 좌측으로 콤팩팅되는 형상에서: 로우들 모두는 연속성의 해결 없이, 이미지(200)에 포함된 원래는 인접하지 않은 구역들 모두의 폐색된 픽셀들을 처음에(at the beginning)(좌측에서 우측으로) 포함한다. 다음의 로우들은, 폐색 부재를 나타내는, 예를 들어, 0의 값을 갖는 중립 픽셀들 모두를 포함한다. 이미지(400)가 초기 이미지(200)와 동일한 크기를 갖고, 이에 따라, 또한 전체적으로 폐색된 픽셀들로 구성된 하나의 로우를 포함할 수 있지만; 그러나, 이는, 일반적인 로우에서 폐색된 픽셀들이 전체 수와 비교하여 보통 매우 약간만 존재하기 때문에, 매우 드문 경우라는 점이 지적되어야만 한다. 물론, 폐색된 구역들은 대안적으로 좌측으로 대신에 우측으로 콤팩팅될 수 있고; 이러한 경우, 콤팩터는 우측에서 좌측으로 로우들의 스캔을 수행할 수 있고, 폐색된 픽셀들이 이미지(200)를 스캐닝하는 동안 직면되는 동일한 순서로 폐색된 픽셀들을 출력 이미지(400)로 로우 별로 카피할 수 있으며, 폐색된 구역들의 임의의 가능한 쌍 사이의 폐색되지 않은 픽셀들은 스킵하고: 로우의 나머지 픽셀들은 폐색 부재를 나타내는 값들로 채워질 것이다. 이에 따라, 콤팩팅된 출력 이미지가 획득될 것이며, 여기서 폐색된 구역들 모두는 하나를 다른 하나에 대하여 우측으로 이동시켰으며, 이에 따라 동일한 이미지를 반대측으로 콤팩팅함으로써 결정된 것들과는 상이한, 디스어셈블리를 겪게 하고 형상을 취하게 한다.
콤팩션 방향이 폐색된 픽셀들의 스캔 순서 및 어레인지먼트와는 완전히 독립적일 수 있다는 것을 지적하는 것은 중요하다. 이러한 2개의 동작 변소들의 임의의 조합이 가능하며, 선택은, 예를 들어, 후속하는 압축 단계에서 획득가능한 비트 레이트 감소에 또는 구현 이점들에 따를 수 있다. 예를 들어, 도 2의 이미지(200)는, 좌측에서 우측으로 진행하는, 픽셀들이 일반적인 로우에서 보여지는 동일한 순서로 폐색된 픽셀들을 배열함으로써, 우측으로 콤팩팅되는 것으로 가정한다. 이러한 경우, 도 4b에서 나타낸 콤팩팅된 폐색 시퀀스 OC1(400)의 출력 이미지가 획득될 것이다. 이는, 도 4a의 이미지(400)를 수평으로 뒤집음으로써(turning over) 달성될 수 있고, 이는 이미지(400)의 일반적인 픽셀 p(i,j)이 l=<i<=n 및 l=<j<=m을 갖는 이미지(400')의 픽셀 p'(i, m-j+l)와 동일하다. 부작용으로서, 이러한 특정 경우에서, 주어진 스캔 방향(우측에서 좌측으로 또는 그 반대로)에서 이미지들(200 및 400)에서 폐색된 이미지들이 직면되는 순서는, 동일한 이미지들이 대응하는 이미지(400')에서 직면되는 것의 반대일 것이다.
본 발명의 제 2 실시예는 도 5에 예시되며, 도 5는 도 3 및 도 4를 참조하여 이전에 설명된 것에 대한 대안의 방식으로, 폐색들 O1의 비디오 이미지들의 시퀀스에 속하는 도 2의 이미지(200)가 어떻게 콤팩팅될 수 있는지의 방법을 도시한다.
이러한 경우, 여기에 포함된 n개의 로우들의 이미지(200)의 일반적인 로우는(여기서, n은 짝수인 것으로 가정됨), 이미지의 상부 절반에 속하는지 또는 하부 절반에 속하는지에 따라 상이하게 콤팩팅된다.
이미지의 처음 n/2 로우들 내의 폐색된 픽셀들은 좌측에서 우측으로 공간 콤팩터에 의해 생성된 이미지의 좌측 엣지에 적층되는 반면에, 마지막 n/2 로우들에 속하는 픽셀들은 우측에서 좌측으로 동일한 순서로 우측 엣지에 적층된다. 콤팩션 방향들은 도 5에서 화살표들에 의해 표시되며, 이 화살표들은 또한 사전에 콤팩션 동작으로 인한 오리지널 폐색된 구역들 A, B, C, D 및 E의 디스어셈블리를 나타낸다.
도 6은 이 동작으로부터 초래되는 이미지(600)을 예시하고: 결과 이미지의 처음 n/2 로우들은 이미지(400)의 처음 n/2 로우들의 동일한 어레인지먼트를 갖는 반면, 두 번째 n/2 로우들에서, 폐색된 구역들은 수평 공간 콤팩션에 의해 일어나는 단편적인(fragmentary) 그리고 변형된(deformed) 방식으로 이미지의 우측 엣지 가까이에 콤팩팅되었다. 어레인지먼트 순서에 반대하는 콤팩션 방향의 이러한 조합을 통해, 이미지(600)의 폐색된 구역의 모든 픽셀들은, 이들이 오리지널 이미지(200)에 있었을 때와 동일한 순서로 나타낼 것임을 지적해야만 한다. 대부분의 경우들에서, 폐색되지 않은 픽셀들의 수는 O1 및 OC1의 이미지들의 로우들 모두에서 폐색된 픽셀들의 수보다 훨씬 많을 것이다. 따라서, 일부 이미지 스페이스는 낭비되며, 낭비되는 스페이스는, 즉, 코딩되어 그후 디코딩되는 시퀀스들 V0 및 D0로, 폐색되지 않은 픽셀들에 대해 어딘가에 포함된 정보를 이용할, 디코더에 대해 유용한 것으로 나타날 정보를 포함할 것이다.
m/2보다 더 큰 다수의 폐색된 픽셀들을 포함하는 로우들이 존재하지 않으면, 동일한 이미지의 처음 n/2 로우들의 상부 우측 엣지로 이미지(600)의 마지막 n/2 로우들의 하부 우측 엣지에 있는 콤팩팅된 폐색된 구역들을 카피하여 그후 마지막 n/2 로우들을 제거함으로써, 정보를 잃지 않고, OC1의 이미지(600)를 리사이징하는 것이 가능하다. 이에 따라, 도 7에 도시된 이미지(700)가 획득되며, 그 크기는 m×n/2이며, 이는 본원에 제시된 폐색들에 관한 임의의 정보를 잃지 않으면서 오리지널 이미지(200)의 픽셀들의 1/2를 포함한다.
출력 이미지들은, 이들이 즉, m×n/2 크기에 있도록 압축을 행할 수 있고; 대안으로서, 콤팩터는 시퀀스의 m×n/2 절반-이미지들(600)(즉, 2개의 시간적인 연속적 이미지들)의 쌍들을 단일 m×n 이미지들로 둠으로써 출력 시퀀스의 이미지들의 수를 반할하는(halving) 단계를 추가로 수행할 수 있다.
본 발명의 일 실시예에서, 결과 비디오 시퀀스는 표준 비디오 인코더 ENC에 의해 압축될 수 있다. 이 경우, 디코더(1500)(도 15a)에 포함된 공간 언콤팩터 DSO(도 15a)는, 이하 설명될 바와 같이, 전체-크기 m×n 이미지들로부터 시작하여 절반-이미지들(700)을 획득하는 반전 단계를 수행한다. 콤팩팅된 폐색 이미지 시퀀스 OC1의 이미지들의 수평적 차원의 반할은, 이미지의 하나의 로우 내에서의 폐색된 픽셀들의 수가 값 m/4를 초과하지 않는 경우에, 정보를 잃지 않고도 가능하며: 이러한 가설은 대부분의 경우들에서, 그리고 또한 도 7에 도시된 압축된 폐색 이미지에 대해 검증된다.
도 8은, 이미지(700)이 폐색되지 않은 픽셀들로 구성된 m/2 컬럼 폭의 중심 영역을 포함하여 이에 따라 정보 관점으로부터 전적으로 유용하지 않다는 것을 강조한다. 공간 콤팩터는, 이러한 중심 영역을 제거할 수 있고, 도 9에 도시된 것과 유사한 m/2×n/2 크기의 폐색 이미지를 획득할 수 있으며, 이는 후자의 픽셀들의 오직 1/4만을 포함하면서, 도 2의 오리지널 m×n 이미지(200)의 폐색된 픽셀들 모두를 여전히 포함할 것이다. 수평적으로 그리고 수직적으로 반할된 이미지들(900)에 의해 구성된 비디오 시퀀스는, 표준 비디오 인코더 ENC에 이러한 형태로 공급될 수 있고, 또는 그 전에 콤팩터가 4개의 m/2×n/2 이미지들의 그룹들을 단일의 m×n 이미지들로 적절하게 구성할 수 있으며, 이에 의해 콤팩팅되지 않은 입력 폐색 비디오 O1와 비교하여, 코딩될 출력 비디오 시퀀스 OC1에 속하는 이미지들의 수를 4배 감소시킬 수 있다.
공간 콤팩션 효율을 최대화하기 위해, 사전설정된 구성에 따라, 비디오의 길이를 처음부터 끝까지 일정하게, 입력 시퀀스의 4개의 시간적으로 연속적인 m/2×n/2 이미지들을 단일의 출력 이미지로 배열하는 것이 가능하다. 이러한 경우에서 또한, 본 발명에 따라 디코더(1500)의 공간 언콤팩터 DSO는 인코더의 공간 콤팩터에 의해 수행되는 것과는 반대로 동작을 수행할 것이다.
이 시점에서, 원칙적으로, 여기서 로우 마다 폐색된 픽셀들의 최대 수가 m/2r, 즉, 전체 해상도 이미지의 로우 당 픽셀들의 수의 1/2r배를 초과하지 않는다고 가정하면, 정보를 잃지 않고, 콤팩터 CSO에 의해 수신된 입력 이미지 O1에 대해 수평 반할 절차를 r 회 실행하는 것이 가능하다는 것은 명백하다. 수직적 차원이 동일하면, 콤팩터는, m/2r 수평적 차원을 갖는 2r 이미지들을, m 수평적 차원을 갖는 하나의 이미지로 그룹화할 수 있고, 이에 의해, 폐색 비디오 시퀀스 O1와 비교하여, 이러한 이유로 오리지널 비디오 시퀀스 V1과 비교하여, 콤팩팅된 출력 시퀀스 OC1에 포함된 이미지들의 수를 2r배 만큼 감소시킨다.
일반적인 규칙으로서, 로우 내의 픽셀들의 임의의 수가 폐색 이미지의 폐색되지 않은 픽셀들의 수보다 적거나 그와 동일한 한, 이 로우 내의 픽셀들의 임의의 수를, 어떠한 폐색된 픽셀들도 잃지 않고, 제거하는 것이 가능하다. 이는, 임의의 수의 픽셀들에 대해 크기 감소들을 행하는 가능성으로 유도하며, 이에 따라 심지어 그들의 수평적 차원들의 정약수(integer submultiple)가 아닐 수 있는 어떤 양만큼 이미지들의 폭을 변경시킨다.
도 6에서 예시에 의해 도시된 바와 같이, 콤팩팅되지 않은 폐색 비디오 O1를 구성하는 이미지들(200)의 로우들을 2개의 콤팩션 영역들(도 5 참조)로 분할하고, 그후 차별화된 방식으로 이러한 영역들의 폐색된 픽셀들을 콤팩팅하는 것이 가능하다는 것이 전술한 사항으로부터 명료하다.
이제, 도 10에서 예시에 의해 도시된 바와 같이, 더 큰 수의 이러한 영역들을 정의하는 것이 또한 가능하며, 도 10에서는 4개의 콤팩션 영역들이 정의되며, 이들 각각은 로마 숫자 I, II, III, 및 IV로 지정된 m개의 픽셀들을 갖는 n/4 이미지 로우들로 구성된다. 폐색된 픽셀들은, 도 5 및 도 6에서 이미지(200)의 2개의 영역들을 콤팩팅할 때 행해졌던 것과 같이, 화살표들에 의해 나타난 방향에 반대 방향을 구분하는 방향으로서 이용함으로써 좌측으로 그리고 우측으로 교번하여 콤팩팅된다. 도 11에 도시된 m×n 콤팩팅된 폐색 이미지(1100)가 이에 따라 획득될 것이다.
이 경우에 또한, 콤팩터는 m×n/2 크기를 갖는 2개의 상부 및 하부 절반-이미지들의 하부 우측 엣지로부터 상부 우측 엣지로 폐색들을 카피하기 위한 동작들을 실행함으로써 결과 이미지의 수직 크기를 반할할 수 있고, 영역 II의 폐색된 픽셀들은 영역 I의 우측 엣지에 적층될 것이고, 영역 IV의 폐색된 픽셀들은 영역 III의 우측 엣지에 적층될 것이다. 이 시점에서, 영역들 II 및 IV는 어떠한 폐색된 픽셀들도 남기지 않을 것이며, 도 12에 도시된 반할된 수직 크기 m×n/2(1200)를 갖는 이미지를 획득하도록 제거될 수 있다.
도 8의 이미지(700)에 대해 예시된 바와 같이, 로우 당 최대 수의 폐색된 픽셀들이 m/2보다 적기 때문에, 어떠한 폐색된 픽셀들도 잃지 않고 m/2 픽셀들 폭의 이미지(1200)의 중심 영역을 제거하여, 반할된 수평적 및 수직적 차원들을 갖는 이미지(1300)를 획득하는 것이 가능하다. 이러한 동작이 O1의 이미지들 모두에 대해 수행되는 경우, 표준 인코더에 의해 압축이 수행될 수 있는 m/2×n/2 크기의 시퀀스 OC1가 획득될 것이다. 대안적으로, 또한, 이 경우, 콤팩터는 m/2×n/2 크기의 4개의 이미지들(1300)을 m×n 크기의 단일 이미지들로 그룹화함으로써 비디오 OC1를 구성하는 이미지들의 수를 감소시킬 수 있다.
일반적으로, 폐색 이미지들이 주어진 유형의 콤팩션을 행하게 될 임의의 정수의 콤팩션 영역들로 구획(section)될 수 있어서, 그 결과로서, 이들의 수가 증가함에 따라, 실행될 동작들의 복잡도가 특히 콤팩터에 의해 수행되는 동작들에 의해 또한 증가할 것이지만 그러나, 그 감소된 수가 이를 허용한다면, 임의의 폐색된 픽셀들을 여전히 잃지 않으면서, 이미지들의 중립 영역들에 의해 점유된 영역을 감소시키는 가능성도 또한 증가할 것이다는 것은 명백하다.
일반적으로, 공간 콤팩터 CSO에 의해 출력된 콤팩팅된 폐색들 OC1의 시퀀스의 이미지들은, 작은 스페이스 내부로 하나 가까이에 다른 하나가 놓이는 상이한 폐색된 구역들 사이 그리고 폐색된 구역과 중립 영역 사이의 픽셀 값들의 급격한 천이(abrupt transition)들로 인한, 높은 분산 및 수많은 고주파수 성분들을 갖는 정보 컨텐츠를 많이 갖는 일부 영역들에 의해 특징화된다. 폐색 시퀀스가 코딩될 것이라면, 이러한 상황은 그 목적을 위해 요구되는 비트 레이트를 증가시킨다. 이러한 고주파수 성분들의 존재를 감소시키기 위해, 이러한 이유로 표준 비디오 인코더의 압축 효율을 추가로 증가시키기 위해, 2개의 이웃하는 폐색된 구역들 사이 그리고 폐색된 구역과 인접하는 중립 영역 사이의 신호 레벨 차이를 감소시키도록 적합하게 계산된 값들을 갖는 픽셀들로 구성된 중간 천이 존(zone)을 생성하는 특정한 수의 버퍼 픽셀들을, 폐색된 구역들 사이에, 콤팩션 프로세스 동안 삽입할 수 있다.
콤팩팅된 폐색들 OC1의 이미지들의 비디오에서의 이러한 급격한 천이들의 제거는, 수많은 상이한 방식들로 수행될 수 있는데: 로우 당 고정된 개수의 픽셀들 또는 가변하는 개수의 픽셀들이 이용될 수 있고, 버퍼 픽셀들의 값은 수많은 상이한 메커니즘들을 통해 계산될 수 있으며; 더욱이, 이러한 제거 프로세스는 지금까지 설명된 콤팩션 기법들 중 임의의 하나와 조합하여 실행될 수 있다. 이러한 측정을 구현하기 위한 간단한 방식은, 고정된 개수의 픽셀들, 바람직하게는 적은 수의 단지 몇몇 유닛들(예를 들어, 1, 3, 5 또는 7개의 버퍼 픽셀들), 바람직하게는 홀수를 이용하는 것이다. 도 14는, 도 4a의 이미지(400)에 이용되는 것과 동일한 콤팩션 방법을 이용함으로써 획득된 이미지(1400)를 도시하며, 이 이미지(1400)는 임의의 쌍의 폐색된 구역들 사이 또는 폐색된 구역과 중립 영역 사이의 일정한 수평적 두께를 갖는 버퍼 영역들의 부가한 것이며; 이 도면에서, 예시에 의해, 이미지의 로우들 모두에 대해 동일한 미리결정된 수의 픽셀들을 로우 별로 진입시킴으로써 버퍼 영역들이 획득된다고 가정된다.
간단한 실시예에서, 버퍼 픽셀들의 값들은, 오직 동일한 로우에 속하는 픽셀들에 의존할 수 있고, 인접하는 픽셀들의 평균 값들로서 계산될 수 있다. 3개의 연속 픽셀들 z1, z2 및 z3로, 이 순서로, 구성된 버퍼 영역들이 z1과 r2 앞에 로케이팅되고 z3 뒤에 로케이팅된 2개의 픽셀들 r1 사이에 끼워진다(interpose)고 가정하며, 여기서 r1 및 r2는 중립 픽셀들의 인터럽팅되지 않은 로우로부터 분리되는 것으로 가정되고, 그렇지 않으면 버퍼 영역의 부재시에 콤팩터에 의해 하나가 다른 하나 가까이에 위치되는 2개의 구역들 R1 및 R2에 속한다.
버퍼 픽셀들에 값들을 할당하는 하나의 가능한 방식은, 후술하는 바와 같다: z2=(r1+r2)/2, z1=(r1+z2)/2, 및 z3=(z2+r2)/2. 실질적으로, 3개의 픽셀들로 구성된 버퍼 영역들의 경우, 진입된 중앙의 픽셀은 그 영역에 인접하는 2개의 로우 픽셀들 사이의 평균 값으로서 계산될 수 있지만, 그 영역의 2개의 최외각 픽셀들은 결과적으로 중앙 픽셀과 그에 가장 가까운 인접 픽셀 사이의 평균이다. 일반적으로, 당업자는, 버퍼 픽셀들이 로케이팅되는 로우들 이외의 로우들에 존재하는 픽셀들을 가능한 한 또한 고려하는 더 또는 덜 복잡한 버퍼 픽셀 계산 공식을 이용할 수 있다. 당업자는, 심지어 현재 이미지가 나타내는 시간 이외의 이전의 시간들을 참조하는 폐색 비디오의 이미지들에 존재하는 동일한 로우들 또는 다른 로우들의 픽셀들을 고려할 수 있다.
버퍼 영역들의 삽입으로 인한 추가적인 문제는 미미하다(marginal). 우선, 인코더에 포함된 콤팩터를 단독으로 고려하며: 디코딩 측에서의 언콤팩터는 오직 콤팩팅된 폐색 비디오의 이미지들로부터의 코딩 측에 콤팩터에 의해 부가된 버퍼 픽셀들을 폐기해야만 할 것이며, 이에 따라 부가된 픽셀들이 어떤 것인지 인지할 필요가 있을 것이다. 다른 부작용은, 버퍼 영역들이 제공된 폐색 비디오로부터 임의의 폐색된 픽셀들을 잃지 않고 표현될 수 있는 비디오 시퀀스 내에 감소된 최대 허용가능 수의 폐색들이다. 그러나, 이러한 영향은, 대부분의 경우들에서, 특히, 전체 수와 비교하여 소량의 로우 당 폐색된 픽셀들로 인해, 폐색 이미지들(도 4, 도 5 및 도 6)의 크기를 감소시키지 않는 콤팩션 방법들이 이용될 때, 또는 버퍼 픽셀들의 부가가 콤팩팅된 폐색 이미지들의 수평적 및 수직적 차원들의 원하는 감소를 획득하는 것을 막지 않는 경우에는, 무시해도 될 정도이다.
도 1a의 인코더 도면을 다시 참조하면, 버퍼 영역들의 크기 감소 및/또는 부가를 가지고 또는 가지지 않고, 폐색 비디오 시퀀스 O1이 본 발명의 임의의 실시예에 따라서 콤팩팅되면, 공간 콤팩터 블록의 출력에서, 비디오 시퀀스들 V0 및 D0과 함께, 본 발명의 일 양상에 따라서 생성된 비디오 스트림을 구성할 콤팩팅된 폐색 비디오 시퀀스 OC1가 존재할 것이다.
콤팩팅된 폐색 비디오 시퀀스 OC1는, 비디오 시퀀스들 V0 및 D0처럼, 표준 인코더 ENC(도 1a)에 의해 압축될 수 있다. 따라서, 표준 인코더는, 코딩된 시퀀스들 V0, D0 및 OC1을 각각 표현하는 3개의 코딩된 비디오 스트림들 Vcod0, Dcod0 및 OCcod1를 생성할 것이며, 이들은, 예를 들어, 본 발명의 다른 양상에 따라 비디오 채널을 통해 송신될 3차원 비디오 시퀀스 VDO(비디오-깊이-폐색들)을 구성한다.
대안책으로서, 조합된 및 조정된 방식으로, 코딩되지 않은 형태의 임의의 매체에, 가능한 한 오리지널 컴포넌트 시퀀스들, 특히, 콤팩팅되지 않은 폐색 시퀀스 O1을 재구축하기 위한 재생성기(regenerator)에 의해 요구되는 시그널링을 추가하여, 컨텐츠의 삼중항이 저장될 수 있다. 이 경우(도 1b)에서, 비디오 시퀀스들의 삼중항(V0, D0, 및 OC1)은, 예를 들어, 멀티플렉싱 기능을 수행하는 MUL 유닛으로 어그리게이팅(aggregate)될 수 있다.
일반적으로, 또한 1개 초과의 표준 인코더가 존재할 수 있고, 각각의 인코더는, 그 시퀀스들이 비디오 시퀀스의 특징들에 따라사 최적화된 방식으로 압축될 수 있도록, 코딩될 3개의 스트림들의 서브세트(V0, D0, 및 OC1)를 압축한다. 어떠한 레이트에서도, 코딩된 비디오 스트림 또는 신호는, 논리적인 뷰포인트로부터, (V0, D0, 및 OC1)에 대응하는 3개의 데이터 스트림들(Vcod0, Dcod0 및 OCcod1)로 구성되는 것으로 나타날 것이다. 데이터 스트림들의 이러한 삼중항은, 인코더(100)의 출력을 구성할 것이다. 예를 들어, 다수의 입력 비디오 스트림들을 동시에 전송하도록 적응된 임의의 다른 유형의 데이터 스트림 컨테이너 내에서 또는 DVB 전송 스트림 내에서 알려진 기법들을 이용함으로써 단일 데이터 스트림으로 물리적으로 멀티플렉싱될 수 있으며; 이러한 경우, 이러한 태스크는 도 1a에 도시되지 않은 멀티플렉서 디바이스에 의해 수행될 것이다. 이러한 솔루션은 실시간 모드에서 인코더가 동작할 때 특히 유리하다. 코딩이 지연되면, 그 대신에, 비디오 스트림들은 단일 비디오 스트림들로서 별도로 저장 및/또는 송신될 수 있다.
도 15a는, 예를 들어, 본 발명의 양상들 중 하나에 따라서 코딩된 비디오 스트림을 송신 및 수신할 때 이용될 수 있는 본 발명에 따른 3차원 비디오 스트림을 복원하도록 적응된 수신 디바이스(1500)의 하나의 가능한 구현을 도시한다. 이 수신기는, 3개의 오리지널 시퀀스들(V0, D0, 및 OC1)과 매우 유사한 (유일한 차이들은 압축 및 그 후속 압축뿐만 아니라 비디오 신호들을 전송하는 동안 도입되는 에러들(예를 들어, 송신 및/또는 데이터 판독/기록 에러들, 잡음 등)에 의해 야기된 가능한 바람직하지 않은 불일치들로 인한 아티팩트들로 이루어짐) 비디오 시퀀스들(Vcod0, Dcod0 및 OCcod1)의 삼중항을 획득하기 위해, 인코더(100)의 비디오 인코더에 의해 생성된 Vcod0, Dcod0 및 OCcod1을 포함하는 비디오 시퀀스들의 삼중항 VDO를 압축해제하도록 적응된 적어도 하나의 표준 비디오 디코더 DECV를 포함할 수 있다. 시퀀스들은, 도 15a에 도시되지 않은, 디멀티플렉서 디바이스가 포함될 수 있는 비디오 스트림 컨테이너에서 멀티플렉싱되었을 수도 있다. 이 경우에서도 또한, (예를 들어, AVC H.264 유형의) 표준 비디오 디코더는 실제로 다수의 표준 비디오 디코더들로 구성될 수 있으며, 각각의 디코더는 디코딩 프로세스를 최적화하기 위해 입력 삼중항의 서브세트에 대해 동작하며, 이에 따라 상이한 비디오 시퀀스들의 특정 특징들(예를 들어, 이미지 크기, 초당 이미지들의 수 등)에 적응될 수 있다. 이러한 디코더들은 또한 이들을 조정하는 지배적인 유닛의 제어하에서 그들의 동작에 필수적인 데이터를 가능한 한 교환하면서 동시에 작업할 수 있다.
수신 디바이스(1500)(도 15b)가 앞서-설명된 비디오 시퀀스 컴포넌트들 V0, D0, 및 OC1로부터 시작하여 비디오 스트림을 복원하기 위한 동작들을 수행할 때, 상기 비디오 시퀀스들 V0, D0, 및 OC1이 개별적인 시퀀스들 Vdec0, Ddec0 및 OCdec1에 대응할 것이기 때문에, 표준 비디오 디코더 블록 DECV는 부재할 수도 있다. 디멀티플렉싱 디바이스 DEMUL은, 도 1b의 MUL에 의해 수행되는 동작들의 반대되는 동작들을 수행하기 위해 입력 측에 존재할 수 있다.
제 1 뷰에 관한 디코딩된 비디오 시퀀스 Vdec0는, 예를 들어, 스테레오스코픽 또는 자가-스테레오스코픽 기법일 수 있는, 사용되고 있는 특정 기법에 따라서 3차원으로 표현되기 위해 디스플레이에 전송될 수 있다. 디코딩된 깊이 맵 Ddec0(또는 D0)의 비디오 시퀀스는, 스테레오스코픽 쌍 및 그 깊이 맵의 일반적인 뷰로부터 시작하여 제 2 뷰를 합성하기 위한 알고리즘을 실행하는 블록 SIV를 통해 제 1 뷰 Vdec0(또는 V0)로부터 시작하여 제 2 뷰 Vsyn1에 관한 비디오 시퀀스를 합성하기 위해 이용된다. 코딩 측에는 대조적으로, 여기서는, 알고리즘에 의해 합성될 수 있는 픽셀들 전체를 포함하는 시퀀스 Vsyn1의 합성된 이미지들을 생성하는 것이 필수적이다. 일반적으로, 이들은 전체 m×n 이미지를 거의 점유하는 압도적인(preponderant) 대부분의 합성된 픽셀들로 구성될 것이며, 알려지지 않은 값들을 갖는 폐색된 픽셀들의 일부 구역들은 도 3의 예시에 의해 도시된 바와 같은 이미지의 나머지 부분을 점유할 것이다. 이러한 알려지지 않은 값들은, 적합한 사전설정된 값, 예를 들어, 0을 할당받을 수 있다. 바람직하게, 상기 알고리즘은, 생성기(100)에서 획득된 것과 가능한 한 어떤 방식으로든 유사하거나 또는 동일한 폐색 맵 OM0 ,1의 비디오 시퀀스를 획득하기 위해, 폐색들을 추정하기 위한 생성 및/또는 코딩 측에 가능하게 이용된 알고리즘과 동일하다. 합성 알고리즘은, 인코더를 참조하여 이미 설명된 것과 같이 폐색 맵 OM0 ,1을 맹목적으로 결정한다.
폐색 맵 OM0 ,1은, 수평적 및/또는 수직적 차원들을 확대하기 위해 그리고 버퍼 영역들을 제거하기 위해, 언콤팩션 동작들뿐만 아니라, 역순으로, 공간 콤팩터 블록들에 의해 수행된 동작들에 반대인 임의의 동작들을 실행하는 적합한 폐색 공간 언콤팩터 블록을 통해 폐색된 픽셀들의 포지션들을 재저장하기 위해 이용된다. 이는, 콤팩팅되지 않은 폐색 이미지들을 포함하는 출력 비디오 시퀀스 Odec1(또는 O1)을 획득하기 위해 디코딩된 콤팩팅된 폐색 이미지들 OCdec1(또는 OC1)의 그리고 폐색 맵 OM0 ,1의 비디오 시퀀스들로부터 시작하여 동작한다. 예를 들어, 도 3 및 도 4a에 도시된 실시예를 참조하여, 공간 언콤팩터는, 합성 알고리즘에 의해 공급된 도 3의 이미지 OM0 ,1의 열별 스캔을 수행하고, OM0 ,1의 합성되지 않은 픽셀들의 포지션들을 발견하고, 그리고 도 4a의 대응하는 콤팩팅된 폐색 이미지 OCdec1의 콤팩팅된 폐색된 픽셀들의 값들을 오리지널 포지션으로 대체한다. OM0 ,1의 mA 픽셀들의 처음 nA 로우들은, 도 4a의 상응하는(homologous) 영역으로 콤팩팅된, 폐색된 구역 A의 mA×nA 직사각형 영역의 픽셀들의 포지션들을 구성하는 알려지지 않은 픽셀들을 포함한다. 따라서, 이 세트의 픽셀들의 경우, Odec1의 콤팩팅되지 않은 폐색된 픽셀들의 포지션들이 OCdec1(또는 OC1)의 콤팩팅된 폐색된 픽셀들의 포지션들과 이들 nA 로우들에 대해 일치하기 때문에, 어떠한 재포지셔닝도 수행되지 않는다. 폐색된 구역 B에 속하는 mB 픽셀들을 또한 포함하는 OM0 ,1의 다음 nB 로우들의 처음 mA 픽셀들에 대해서도 동일한 것이 발생한다. 그후, 언콤팩터는, 이 로우 그룹의 이하의 mB 픽셀들의 값을 우측으로, 동일한 nB 로우들의 OM0 ,1의 폐색된 픽셀들에 의해 점유된 포지션들로 이동시키는 동안, 이들이 존재하는 이 로우 그룹의 처음 mA 픽셀들을 떠난다. 트랜스퍼 이전에 B의 픽셀들에 의해 Odec1에서 사전 점유된 포지션들 내의 이미지의 픽셀들의 값들은, 폐색되지 않은 픽셀들의 중립 영역에 할당된 값으로 설정될 수 있다. OM0 ,1 및 OCdec1(또는 OC1)의 이미지들의 모든 나머지 로우들에 대해 동일한 방식으로 진행하면, 콤팩팅되지 않은 형태로, 즉, 이들이 참조하는 뷰, 즉, O1로 지정된 V1의 오리지널 콤팩팅되지 않은 폐색 뷰 내에 이들이 존재하는 동일한 포지션에, 폐색된 픽셀들을 포함하는 Odec1의 이미지가 획득된다. 일반적으로, Odec1 및 Vsyn1의 비디오 시퀀스들의 대응하는 이미지들이, 디코딩된 제 2 뷰 Vdec1의 비디오 시퀀스를 획득하기 위해 매트릭스 방향으로 부가될 수 있고, 이 이미지들은 Vsyn1으로부터 도입하는 폐색되지 않은 픽셀들 및 Odec1로부터 도입되는 폐색된 픽셀들 둘 다에 대해 유효한 값들을 포함한다. 본 발명의 이러한 특정 실시예에서, 이 동작은 OCdec1의 픽셀들의 값들을 로우 별로 폐색 맵 OM0 ,1에 나타난 Vsyn1의 합성되지 않은 픽셀들의 포지션들로 간단하게 카피함으로써, 좌측에서 우측으로 로우들을 스캐닝하면서 이들이 직면되는 순서로, 현실적으로 수행될 수 있고: 당업자는 이에 따라 중간의 콤팩팅되지 않은 폐색 이미지들 Odec1를 필수적으로 생성하지 않고도 Vsyn1로부터 Vdec1을 직접 획득할 수 있다.
도 15b에 도시된 경우에서, 전술한 동작이 시퀀스들 O1 및 Vsyn1에 대해 수행되어 제 2 뷰 V1의 이미지들을 획득한다.
물론, 폐색 공간 언콤팩터 DSO는 코딩 스테이지에서 폐색된 픽셀들에 대해 공간 콤팩터에 의해 이용된 콤팩션 방향 및 재포지셔닝 순서 둘 다를 고려한다. 이는, 제 2 뷰 V1로부터 시작하여 획득된 시퀀스 O1과 비슷한(analogous to), 즉, 개별적인 뷰 내에 픽셀들이 로케이팅된 포지션들 내에 폐색된 픽셀들을 갖는, 콤팩팅되지 않은 폐색 시퀀스 Odec1의 획득을 보장한다. 도 4b에 도시된 것과 같은 콤팩팅된 폐색 비디오 시퀀스의 실시예의 경우, 즉, 폐색 재포지셔닝 순서가 콤팩션 순서와, 즉, 좌측에서 우측으로, 동일한 경우, 공간 콤팩터는, 디코딩된 콤팩팅된 폐색 이미지들 OCdec1을 수평으로 반전시키는 제 1 단계를, 제 1의 그리고 특정하게는 간단한 그의 실시예에서 수행할 수 있다. 이 단계는, 반전되지 않은 이미지(200)의 일반적인 픽셀 p(i,j)이 1=<i<=n 및 1=<j<=m로, 수평적으로 반전된 이미지(400')의 픽셀 p'(i,m-j+1)과 동일함에 따라 공식에 의해 정의된 콤팩터에 의해 적용되는 변환(transformation)을 반대로 적용함으로써 수행될 수 있다. 상기 반전 변환을 수행한 후, 공간 언콤팩터는, 도 4a에 도시된 동작, 즉, 좌측에서 우측으로 폐색된 픽셀들의 재포지셔닝 순서를 통해, 콤팩팅된 폐색 비디오 시퀀스의 언콤팩션에 대응하는 시퀀스 Odec1를 획득하기 위해 이미 설명된 동일한 동작들을 실행할 수 있다.
폐색 공간 콤팩터 CSO의 다른 실시예는, 도 7에 도시된 유형의 m×n/2 크기의 컴포넌트 이미지를 통해 콤팩팅된 폐색들의 입력 비디오 시퀀스를 획득하도록 허용한다. 이 경우에서, 언콤팩터 DSO는, 중립 값을 갖는 이전 로우 픽셀들의 수 만큼 우측에서 좌측으로 가능한 한 이미 이동된, 입력 이미지의 처음 n/2 로우들을 카페할 제 1 n/2 로우들, 그리고 최종 n/2 로우들을 카피할 제 2 로우들로, m×n 크기의 출력 이미지를 구성함으로써 획득된, 도 6에 도시된 것과 같은 이미지를 먼저 복원할 것이다.
이 시점에서, 도 4a에 도시된 이미지와 동일한 이미지가 획득될 것이며, 언콤팩터는 이 이후의 도면을 참조하여 이미 설명된 단계들을 실행함으로써 콤팩팅되지 않은 폐색들의 출력 비디오 시퀀스를 획득할 수 있을 것이다. 콤팩터가 m×n/2 이미지의 쌍들을 단일 m×n 이미지들로 그룹화함으로써 이미지들의 수를 감소시키는 추가적인 단계를 실행했었다면, 언콤팩터는, 입력 비디오 시퀀스의 m×n 이미지들에 포함된 도 7의 m×n/2 절반-이미지들의 쌍들을 분해하고 그리고 제 2 n/2 로우들이 중립 값을 초기에 취했던 2개의 완성된 m×n 이미지들의 처음 n/2 로우들로 그들의 컨텐츠를 카피하는 반전 단계를 초기에 실행해야만 할 것이다.
초기 콤팩터는, m/2×n/2 크기의 이미지(900)를 획득하기 위해 도 8에 도시된 바와 같이 폐색 시퀀스를 구성하는, 이미지(700)의 수평적 차원을 감소시키는 추가적인 단계를, 코딩 스테이지에서 실행했을 수도 있다. 이러한 경우, 언콤팩터는 m×n/2 크기의 이미지를 생성하기 위해 이미지의 수평적 차원을 배가(doubling)하는 추가적인 단계를 먼저 수행해야만 할 것이며, 여기서 입력 이미지의 처음 m/4 컬럼들은 처음 m/4 컬럼들로 진입시키고 입력 이미지의 나머지 m/4의 컬럼들은 나머지 m/4 컬럼들로 진입시킬 것이다.
여느 때와 같이, 카피되지 않은 영역들에 속하는 픽셀들은, 폐색되지 않은 픽셀들에 할당된 사전설정된 값을 취할 것이다. 콤팩터가 4개의 m/2×n/2 이미지들(900)의 세트들을 단일의 m×n 이미지들로 추가로 그룹화했다면, 언콤팩터는, 앞서-설명된 단계 이전에, 입력 시퀀스의 하나의 m×n 이미지에 포함된 4개의 서브-이미지들(900)을 m×n 이미지들의 쌍들로 분해해야만 할 것이며, 여기서 각각의 쌍들은, 이미지(800)로부터 이미지(900)로 스위칭하도록, 이전에 수행되었던 동작과는 반대의 동작을 수행함으로써 획득된 m×n/2 크기의 2개의 서브-이미지들(800)을 포함한다. m×n 이미지들의 상기 쌍들의 각각의 쌍은, 분해 단계를 반복함으로써, m×n 이미지들의 쌍을 최종적으로 생성할 것이며, 여기서 각각의 쌍은 하나의 이미지(600)(도 6)를 포함하며, 결과적으로 이미지 크기 확대 동작들의 말미에 각각의 입력 m×n 이미지(900)에 대해 전체 4개의 출력 m×n 이미지들을 초래할 것이다.
유사한 고려사항들은, 도 11, 도 12 및 도 13에 도시된 양상들 중 임의의 하나에 따라서 콤팩팅된 폐색 이미지들을 포함하는 비디오 시퀀스들을 언콤팩팅하기 위한 프로세스에 적용하며; 이러한 이미지들은, 교번하는 콤팩션 방향들로, 2개 대신 4개의 콤팩션 영역들을 이용함으로써 획득되고, 그들의 수직적 및/또는 수평적 차원들에서 반할되어 있을 수도 있거나 반할되어 있지 않을 수도 있다. 또한, 대응하는 콤팩팅되지 않은 폐색 이미지들을 복원하기 위해, 공간 언콤팩터 DSO는, 콤팩터에 의해 실행된 마지막 동작으로부터 시작하고 제 1 동작으로 종료하는 반전 순서로 코딩 측에서 실행되는 동작들에 대해 반대의 동작들을 수행할 수 있다. 일반적으로, 언콤팩터 DSO는, 폐색 맵 시퀀스 OM0 , 1를 수신할 필요 없이, 시퀀스 O1에 대해 인코더에 포함된 폐색 추정기에 의해 픽셀들이 위치되는, 포지셔닝된 폐색된 픽셀들을 갖는 콤팩팅되지 않은 폐색 비디오 시퀀스 Odec1를 항상 복원할 수 있다.
디코더(1500)(도 15a)의 블록도를 다시 참조하면, 합성된 뷰 Vsyn1 및 콤팩팅되지 않은 폐색 시퀀스 Odec1는, 뷰 V1에 대한 폐색된 구역들의 픽셀들의 값을 포함하는 시퀀스 Odec1의 이미지들과, 예를 들어, 널(null) 값을 포함할 수 있는 폐색된 픽셀들에 대한 유효값들이 부족한 동일한 뷰의 합성된 픽셀들의 값들을 포함하는 뷰 Vsyn1의 시간적으로 대응하는 이미지들을, 픽셀별로(pixel by pixel) 적절하게 조합함으로써, 디스플레이에 제시될 뷰 Vdec1를 형성하기 위해 적절하게 병합된다.
더 간단한 경우, 합성된 뷰 및 폐색들이 매트릭스 방향에서 간단하게 부가되어, 폐색들은, 합성 알고리즘이 추정할 수 없었던 픽셀들의 포지션들을 점유하게 될 것이다. 복원된 이미지의 품질을 개선시키기 위해, 이는, 합성된 뷰 및 폐색된 영역들을 마운팅할 때 합성된 픽셀들과 디코딩된 폐색된 픽셀들 사이의 불연속적(discontinuity) 영역들에 생성되는 아티팩트들을 감소시키도록 적응된 필터링 기법들을 채택하는데 유용할 수 있다. 이 동작은, 가산기의 다운스트림으로 로케이팅되고, 적합한 종래 기술의 수치상 필터들로 이루어질 수 있는 선택적인 조합 아티팩트 보상 블록 CART에 의해 수행된다. 특히, 평탄화 (또는 저역-통과) 필터링 기법은 폐색된 영역과 폐색되지 않은 영역 사이의 불연속성에 따라 채택될 수 있다.
따라서, 디코더(1500)는, 임의의 스테레오스코픽 기법에 따라 3차원 모드로 비디오 스트림을 디스플레이하기 위해 복제(reproduction) 디바이스에 의해 이후에 이용될 수 있는, 2개의 오리지널 뷰들 V0 및 V1을 복원할 것이다.
폐색 이미지들을 포함하는, 즉, 코딩 측에서 개별적인 맵에 의해 결정된 폐색된 픽셀들의 포지션들을 통해서 비디오 시퀀스를 정확하게 복원할 수 있게 하기 위해, 콤팩션 프로세스가 수행되었던 모드를 언콤팩터가 인지하는 것은 필수적이다.
특히, 이러한 모드들은:
- 1보다 크거나 또는 동일한 정수일 수 있는, 콤팩션 영역들의 수;
- 좌측에서 우측으로 또는 우측에서 좌측으로, 또는 더욱 간단하게는 우측으로 또는 좌측으로 일 수 있는, 주어진 콤팩션 영역에서 이용되는 콤팩션 방향;
- 또한 우측으로 또는 좌측으로 일 수 있는, 주어진 영역에서의 폐색된 픽셀들의 스캐닝 또는 포지셔닝의 순서;
- 수평적 크기 감소, 즉, 폐색되지 않은 픽셀들이 폐색되지 않은 이미지의 로우들에서 제거되었다고 결정하도록 허용하는 파라미터들;
- 수직적 크기 감소, 즉, 폐색된 픽셀들을 상부 콤팩션 영역으로 이동시킴으로써 폐색들을 수직적으로 콤팩팅하는 동작이 수행되었는지 여부 그리고 몇 회 수행되었는지 결정하고 그리고 폐색된 픽셀들을 포함했던 콤팩션 영역을 이미지로부터 제거하는 것을 허용하는 파라미터들;
- 버퍼 영역들의 가능한 존재 및 그 특징들
을 나타낸다.
일반적으로, 이러한 모드들은, 콤팩팅된 폐색 비디오 시퀀스 내의 하나의 이미지와 다른 이미지가 다를 수 있다. 간략함을 위해, 이들은 하나의 비디오 시퀀스 또는 그 일 부분 내에서 일정한 것으로 가정한다.
언콤팩터에 대해 상기 모드들을 어떻게 통신할지에 관하여 다양한 시나리오들이 상상가능하다. 제 1 시나리오에서는, 특정 콤팩션 모드는, 단 한 번만(once for all) 정의될 수 있어서, 임의의 콤팩터에 의해 임의의 시퀀스에 항상 디폴트로 적용될 것이다. 이러한 경우에서, 언콤팩터는, 이러한 모드를 인지할 것이고, 오직 대응하는 언콤팩션 동작들만을 수행해야만 할 것이다.
이러한 가설이 검증되지 않으면, 콤팩터는, 입력 폐색 비디오 시퀀스에 따라, 상이한 콤팩션 모드들, 예를 들어, 더 작은 수의 또는 더 큰 수의 콤팩션 영역들, 상이한 콤팩션 방향들 및 순서들 등을 이용할 것이다. 이러한 경우, 언콤팩터는 2개의 상이한 방식들로 콤팩션 모드를 결정할 수 있다. 제 1 접근방식에서, 언콤팩터는, 콤팩팅된 폐색 OCdec1의 이미지들을 분석하고, 이 이미지들을 가능한 한 시퀀스 OM0 ,1의 대응하는 것들과 비교하여, 이에 따라 코딩 측에서 이용된 콤팩션 모드들을 귀납적으로(a posteriori) 결정한다. 이러한 솔루션은 임의의 콤팩션 파라미터들의 송신을 요구하지 않는 이점을 제안하지만, 그러나 잘못된 분석들 또는 어떤 방식으로든 매우 복잡한 분석들을 또한 행할 수 있는, 언콤팩터에 대한 더 높은 계산 비용들을 함축한다.
제 2 접근방식에서, 동작 파라미터들은, 콤팩터에 의해 부가될 수 있거나 또는 표준 비디오 인코더에 마찬가지로 통신될 수 있어서, 이후에 이들이 어떠한 수단으로든 코딩된 비디오 스트림 OCcod1으로 진입할 수 있다. 이는, 미래의 애플리케이션들에 대해 예비된 그리고 현재의 비디오 코딩 표준들에 이미 포함된 데이터를 이용함으로써, 또는 VDO 신호 삼중항을 포함하는, 예를 들어, DVB 전송 스트림, Matroska, 등과 같은 비디오 스트림 컨테이너 포맷들에 포함된 기존의 또는 새롭게 정의된 필드들을 이용함으로써 행해질 수 있다.
특별하게 개선된 실시예에서, 콤팩터는, 비디오 시퀀스에 존재하는 폐색들의 특징들(예를 들어, 폐색된 픽셀들의 수, 및 그 공간적 및 시간적 분포)을 가능한 한 고려하는 상이한 모드들에서 다수의 콤팩션 테스트들을 실행할 수 있다. 이에 따라 테스팅된 각각의 모드에 대해, 관련 비트 레이트는 관련 뷰를 후속하여 디코딩하고 복원함으로써 계산되고; 최종적으로, 테스트들로부터 초래되는 가장 효율적인 콤팩션 모드가 적용된다. 이 기법은, 특히, 코딩 및 디코딩 프로세스들이 지연될 때, 코딩 속도와 관련하여 어떠한 특정 요구사항도 존재하지 않을 때, 그리고 우선순위가 송신 및/또는 저장을 위해 요구되는 비트 레이트를 가능한 한 많이 감소시키기 위한 것인 비디오 시퀀스들에 대한 것인 경우에 유리하다.
본 발명은, 3D 비디오 코딩 실험들에 대해 이용되는 비디오 시퀀스에 대해 테스팅되었다. Fraunhofer Heinrich Hertz Institut에 의해 실험 및 연구 목적으로 과학계(scientific community)에 이용가능하게 된 "북 도착(book arrival)"으로 지칭되는 스테레오스코픽 시퀀스가 이용되었다. 비디오 해상도는 16.67Hz 주파수를 갖는 1024x768이었다. 모든 테스트들이 수행되면, 2개의 스테레오스코픽 뷰들의 300개의 프레임들이 코딩되었다. 사용되고 있는 시퀀스들의 경우, 적합한 알고리즘에 의해 추정된 깊이 맵들이 또한 이용가능하게 되었다.
도 16 내지 도 22는 테스트가 수행되고 있는 것을 예시한다.
도 16은, 상기 스테레오스코픽 시퀀스로부터 취해진, V로 지정된, 뷰들 중 하나의 이미지를 도시한다.
도 17은, 전체 디멘션으로, D로 지정된 개별적인 시퀀스에 속하는, 도 16의 이미지의 풀-사이즈 깊이 맵을 도시한다.
도 18은, 수평적으로 그리고 수직적으로 둘 다 50%까지 언더샘플링된 도 17의 동일한 맵 이미지를 도시하며; 대응하는 시퀀스는 D/2로 지정된다.
도 19는, V 및 D로부터 시작하여 합성 알고리즘으로부터 초래되는, 콤팩팅되지 않은 형태로 도 16의 이미지에 관한 폐색 이미지를 도시한다. 그로부터 초래되는 개별적인 비디오 시퀀스는 O으로 지정된다. 테스트들에서, 중립 영역에 속하는 폐색되지 않은 픽셀들을 표현하기 위해 중간 그레이 값이 선택되었다. 이러한 이미지 내에 오직 폐색된 픽셀들만이 도시되지만, 이미지의 나머지 부분은 고정된 그리고 미리결정된 휘도 및 색차 값들, 예를 들어, 0 또는 128로 설정된다. 그럼에도 불구하고, 본원에 제시된 폐색된 픽셀들의 프랙션이 이미지의 하나의 로우에서의 전체 수의 픽셀들과 비교하여 매우 작다는 점에 주목한다.
도 20은, 도 16의 뷰 이미지에 또한 대응하는 콤팩팅된 폐색 비디오 시퀀스 O*의 일 이미지를 도시하며, 여기서 좌측의 단일 콤팩션 영역은 어떠한 수평적 또는 수직적 크기 감소도 갖지 않고, 좌측으로부터 우측으로 재포지셔닝하는 순서로 이용되었다. 실질적으로, 이는, 도 4a에 도시된 바와 같이, 콤팩팅된 폐색된 이미지의 본 발명의 가장 간단한 실시예이다. 모두 어떠한 수평적 또는 수직적 크기 감소도 갖지 않는 것들과 같은 이 실시예는, 이미지의 일반적인 로우의 최대 수의 폐색된 픽셀들이 비디오 시퀀스 V0의 이미지의 로우의 픽셀들의 수 m보다 적거나 또는 최소한(at most) 동일한 경우에 특히 유리한데, 여기서 이것은, 콤팩팅된 폐색 시퀀스 내의 전체 폐색된 픽셀들의 존재를 보장한다.
도 21은, 도 6 내지 도 9에 표현된 콤팩션 모드들을 적용함으로써, 즉, 2개의 콤팩션 영역들의 존재시에, 도 19의 동일한 폐색되지 않은 이미지에 대해 획득된, O/2*로 지정된 개별적인 시퀀스에 속하는 감소된-차원의 콤팩팅된 폐색 이미지를, 제 1 영역에서는 우측으로 그리고 제 2 영역에서는 좌측으로 순서대로 재포지셔닝된 폐색들을 갖고, 그리고 둘 다 인자 2만큼의 수평적 그리고 수직적 크기 감소들을 갖고, 상부 영역은 좌측으로 하부 영역은 우측으로, 도시한다.
3개의 테스트들이 이 테스트 신호를 코딩하고 그리고 디코딩하기 위해 수행되었다. 기준으로서 이용되었던 제 1 테스트에서, V, D/2, 및 O, 즉, 메인 뷰의, 50%까지 다운샘플링된 깊이 맵의 그리고 콤팩팅되지 않은 폐색 이미지의 비디오 시퀀스들(즉, 그들의 오리지널 포지션들에서 폐색된 픽셀들의 값들을 가짐)은, 개별적으로 코딩되고 디코딩되었다. 제 2 테스트는, V, D/2 및 O*, 즉, 메인 뷰의, 50%까지 언더샘플링된 깊이 맵의, 그리고 콤팩팅된 폐색 이미지들의 비디오 시퀀스들 각각을 이용하였다. 제 3 테스트는, 시퀀스들 V, D, 및 O*/2, 즉, 메인 뷰의, 언더샘플링되지 않은 깊이 맵의, 그리고 수평적으로 그리고 수직적으로 둘 다 1/2 만큼 감소된 콤팩팅된 폐색 이미지들의 비디오 시퀀스들 각각을 수반하였다. 모든 테스트들의 경우, 일정한 품질의 파라미터 QP를 이용하여 모든 시퀀스들을 코딩하기 위해 표준 H.264 AVC 인코더가 이용되었다. 다양한 코딩 비트 레이트들을 획득하기 위해, 몇몇 실험들이 상이한 QP들을 이용하여 수행되었다. 뷰 합성 알고리즘은 특별히 최신 기술에 따라 개발되었다. 이는, 입력 비디오 신호 및 관련 깊이 맵을 수신하고, 오리지널 비디오에 대해 수평적으로 대체된 새로운 뷰포인트로부터 획득된 비디오를 추정한다. 이는, 예를 들어, 재채색 기법들과 같은 폐색들을 해결하기 위한 어떠한 전략도 이용하지 않고, 합성된 비디오 및 폐색 맵을 출력한다.
도 22는, 시퀀스들 D 및 O를 코딩하기 위해 이용된 비트 레이트와 관련하여 테스트 시퀀스에 대해 수행된 코딩 및 디코딩 테스트들로부터 초래되는, 피크 신호-대-잡음 비(PSNR)의 커브들을 dB 단위로 도시한다. 이 도면은, O이 이용될 때 보다 콤팩팅된 폐색 이미지들 O* 및 O*/2의 비디오 시퀀스들을 이용할 때 코딩 효율이 더 높다고 나타내고 있다. 이는, 깊이 맵의 언더샘플링된 버전이 이용되던지 또는 이용되지 않던지에 상관없이 사실이다. 가능한 크기 감소를 갖는 콤팩션 단계는, 비디오 코딩 프로세스의 효율을 악화시키지 않으며; 그 대신에, 이 효율을 개선시켜, 이는 또한, 통상적으로 발생함에 따라서, 일반적인 로우 내의 폐색된 픽셀들이 전체 수의 단지 작은 부분일 때 더 높은-해상도의 이미지로, 다른 이미지들과 함께 조합될 수 있는 폐색 이미지의 시퀀스를 양 방향들로 공간적으로 콤팩팅할 수 있게 한다.
앞서-설명된 실시예의 예시는, 본 발명의 보호 범위로부터 벗어나지 않고, 당업자에 대해 동일한 모든 실시예들을 포함하는 변형들이 행해질 수 있다.
본 발명은 또한 2개 초과의 뷰들에 적용가능하다. 코딩이 이용될 때의 2개 초과의 뷰들을 갖는 3차원 스트림들의 생성기의 실시예의 비-제한적인 예시, 즉, 도 1의 스테레오스코픽 생성기 도면의 확대가 도 1c에 도시된다. 이 경우에서도 또한, 생성 측에서, 인코더 ENC는, 뷰들 V1, V2, Vk -1의 수 k-1을 합성하기 위해 이용되는 메인 뷰 및 깊이 V0 및 D0를 코딩한다. 이러한 뷰들은, 일정 기준에 따라, 예를 들어, 메인 뷰로부터의 거리에 기초하여, 그리고 이들 각각에 대해 Vsyn1,...,Vsynk -1로 각각 지정된 뷰들 V1,...,Vk -1의 추정된 시퀀스들로부터 시작하여, 메인 뷰 V0에 대한 폐색된 픽셀들 OM0 ,1, OM0 ,2,...,OM0 ,k-1의 포지션을 함축적으로 찾는 것이 가능하다. 멀티-뷰 포착 시스템으로부터 송신 측에서 이용가능한 이러한 픽셀들은, 폐색된 픽셀들 O1...Ok -1의 이미지들에 전술한 문단들에 설명된 콤팩션 기준들 중 하나를 적용함으로써, 폐색 공간 콤팩터 블록 CSO에 의해 로우 별로 수집되고 콤팩팅될 것이다. 콤팩션 이전에, 모듈 CSO는 도 2b에 도시된 바와 같이, 폐색된 픽셀들의 k-1 이미지들을, 이들을 나란히(side by side) 둠으로써 조합할 것이다. 이는, 모든 대안적인 뷰들에 대한 콤팩팅된 오클루전 프레임들 OC1 ,...,k-1의 단일 시퀀스를 생성할 것이며, 이는 V0 및 D0와 함께 송신 또는 저장되고, 합성된 뷰들의 폐색된 영역들을 채우기 위해 복원 측에서 이용될 것이다.
복원 프로세스는, 도 15a의 2-뷰 복원기(reconstructor)의 확대를 표현하는 도 15c에 도시된 도면을 뒤따르며, 코딩 및 디코딩 동작들이 수행된 비-제한적인 경우에 적용된다. 그것으로부터의 차이들은:
- 합성 블록 SIV는 k-1개의 대안적인 뷰들 V1, V2, Vk -1의 V0 및 D0로부터 시작하여 합성을 수행한다;
- 폐색 신호 언콤팩터 블록 DSO는, 생성 측에 정의된 뷰 순서를 관찰함으로써 폐색된 픽셀들을 대응하는 포지션 및 뷰로 재포지셔닝하는 태스크를 수행하고, Odec1,...,Odeck -1을 출력한다.
최종적으로, 아티팩트 보상 블록 CART는, 합성 모듈 SIV로부터 수신된 합성된 뷰들 Vsyn1,...Vsynk -1과 콤팩팅되지 않은 폐색들을 조합함으로써 획득된 k-1개의 복원된 합성된 뷰들에 독립적으로 적용된다.
스테레오스코픽 비디오, 즉, 2개의 뷰들을 갖는 비디오 신호의 특정한 경우에서, 본 발명은 좌측 뷰, 깊이 맵 및 폐색들을 프레임 패킹 어레인지먼트 전략들의 이용을 통해서 단일 프레임으로 진입시킴으로써 하위-호환가능하게(backward-compatible) 행해질 수 있는 비디오 송신 시스템을 구현하기 위해 이용될 수 있다. 예를 들어, 720p 포맷으로 좌측 뷰를 그리고 2배만큼 언더샘플링된 깊이 맵을 하부 우측 코너의 타일 포맷으로 전송하기 위해 타일 포맷을 이용하는 것이 가능하고; 본 발명에 따라서 재-조직화된 폐색 이미지는 타일 포맷의 우측 뷰로서 진입될 수 있다. 대안적으로, 당업자는, 풀-해상도 깊이 맵을 이용할 수 있고, 도 9 및 도 21에 도시된 바와 같이 폐색 이미지들의 크기 감소를 활용함으로써 하부 우측 코너에 진입시킬 수 있다.
인코더가 스테레오스코픽 컨텐츠를 표현하기 위해 요구되는 비트 레이트를 감소시키기 위해 이용되지만, 본 발명은, 좌측 뷰 및 깊이 맵의 코딩이 폐색들의 코딩 이전에 수행되어야만 함을 요구한다. 사실상, 후자는 디코딩된 좌측 뷰 및 깊이 맵에 기초하여 계산되어야만 한다. 이는, 실시간으로 동작하는 표준 코딩 및 송신 체인을 재사용하는 프레임 패킹 유형의 전송 포맷들을 사용할 때 기술적인 문제를 제기한다. 이러한 경우, 폐색 추정 에러들이 용인될 수 있는 한, 동일한 시간 인스턴트에 관련하는 비디오, 깊이 및 폐색들을 포함하는 단일 이미지를 구성하는 것은 불가능하다. 이러한 문제는, 폐색 이미지를 생성할 때, 하나의-이미지 딜레이를 도입시킴으로써 해결될 수 있다. 좌측 뷰 및 그 깊이는, 시간 t0에서, 프레임 패킹 접근방식으로 코딩된다. 디코딩된 후에, 이러한 정보는 시간 t0에서 폐색들을 계산하기 위해 코딩 측에서 이용된다. 그러나, 이러한 폐색된 정보는, t0보다 늦은 시간 t1에서 프레임 패킹 모드로 전송된다. 이는, 시간 t1에서, 좌측 뷰, 시간 t1에서 깊이 맵, 그리고 시간 t0에서 폐색 이미지를 포함할 코딩 측에 합성 프레임이 구축될 것임을 의미한다. 이러한 절차를 뒤따름으로써, 디코더는 일 프레임의 지연을 가지고 스테레오스코픽 비디오를 복원할 수 있을 것이지만, 그러나 이는 (수백 분의 일 초 정도로) 매우 짧고 이에 따라 뷰어에 의해 인식될 수 없기 때문에 문제가 되지 않는다. 게다가, 이는 비디오 스트림 디코딩 동작들에 의해 도입된 지연의 오직 최소 부분이다. 시간들 t0, t1, t2가 현대의 압축 표준의 코딩 순서에 관련되고, 이는 일반적으로 동일한 이미지들의 디스플레이 시간과는 상이할 수 있다는 것이 지적되어야만 한다.
V+D+O 3차원 비디오 코딩의 경우, 즉, 메인 뷰, 깊이 맵 및 폐색들을 포함하는 3개의 비디오 시퀀스들을 이용하는 본 발명의 구현이 앞서 설명되었다. 그러나, 디스패리티 맵을 이용하는 임의의 유형의 비디오 코딩, 예를 들어, 뷰, 디스패리티 맵 및 폐색 시퀀스를 이용하는 비디오 코딩에 이용될 수 있다.
제 1 뷰 V0에 대한 제 2 뷰 V1의 디스패리티 맵을 획득하기 위한 방법은 그 자체로 알려져 있다. 이 경우, 블록 STOC(도 1)의 "뷰 합성" 기능은, 깊이 맵 대신에 디스패리티 맵을 이용하는 그 자체로 알려진 다른 적합한 합성 알고리즘을 채용함으로써 뷰 V1의 추정된 시퀀스를 생성할 것이다. 상세한 설명에서, 표준 비디오 인코더들 및 디코더들이, 비디오 프로세싱, 저장 및 송신 디바이스들 및 현재 사용되고 있는 인프라스트럭쳐들과 극도의 호환성을 보장하는데 이용되어야만 한다는 가정이 행해졌다. 그러나, 이는, 특정 유형들의 비디오 프로세싱에 최적화된 비-표준 인코더들 및 디코더들을 채용하는 비디오 코딩 및 디코딩 시스템들에 본 발명을 또한 적용하는 가능성을 배제하지 않는다.
이 상세한 설명에서, 폐색된 픽셀들의 손실들을 함축할 수 있는 크기 감소들을 폐색 이미지들에 행하는 것을 회피하는 것이 더 나은 방법이며; 이러한 감소들 동안 제거되는 경우, 사실상, 공간 언콤팩터는 콤팩팅된 폐색 이미지들로부터 이들을 획득하지 못할 것이라는 것은 여러 번 강조되었다. 주어진 그리고 통상적으로 제한된, 코딩될 비디오 시퀀스의 이미지들의 양에 대해, 폐색된 픽셀들의 수는, 이들이 공간 콤팩터에 의해 수행된 크기 감소 동작들에 의해 제거될 때 발생할 수 있다. 이 손실은 종종, 용인될 수 있고, 폐색된 영역들이 통상적으로 매우 작은 영역들을 커버하는, 뷰어에 의해 겨우 인지가능하거나 또는 전혀 인지가능하지 않은 아티팩트들을 생성한다. 게다가, 디코더에 포함된 선택적인 조합 아티팩트 보상 블록은 종종, 인접하는 이미지 영역들의 비디오 정보 및 적합한 비디오 프로세싱 기법들을 이용함으로써, 코딩 프로세스 동안 제거된 폐색된 픽셀들에 의해 남겨진 보이드들을 채울 수 있다. 따라서, 디코더에 송신될 그 자신의 콤팩팅된 표현 내에서 폐색된 픽셀들의 손실을 야기하는지 여부를 검증하지 않고, 또는 적어도 오직 제한된 그리고 사전정의된 그 일부에 대해서만 이러한 검증을 행할 것인, 폐색 시퀀스에 특정한 크기의 감소를 적용하도록 콤팩터가 결정한다는 것은 상상가능하다.
검증은, 예를 들어, 시퀀스의 초기 부분으로 제한될 수 있고, 그후 전체 폐색 비디오 시퀀스에는, 시퀀스의 일부 다른 부분들에서 이러한 손실들을 야기할 수 있다는 사실에 관해서 걱정하지 않고, 폐색된 픽셀들의 손실들을 야기하지 않는 최대 크기 감소를 행할 수 있다.
본 발명은 앞서-설명된 방법들의 하나 또는 그 초과의 단계들을 구현하기 위한 코딩 수단들을 포함하는 컴퓨터 프로그램들을 통해서, 이러한 프로그램들이 컴퓨터들에 의해 실행될 때, 유리하게 구현될 수 있다. 따라서, 보호 범위는 상기 컴퓨터 프로그램들뿐만 아니라 레코딩된 메시지들을 포함하는 컴퓨터-판독가능 수단들로 확대하며, 상기 컴퓨터-판독가능 수단들은 앞서-설명된 방법들의 하나 또는 그 초과의 단계들을 구현하기 위한 프로그램 코딩 수단들을 상기 프로그램들이 컴퓨터들에 의해 실행될 때 포함하는 것이 이해된다. 게다가, 본 발명의 범위로부터 벗어나지 않고, 당업자에 대해 모든 동일한 실시예들을 포함하는, 설명된 비-제한적 예시들에 대해 실시예 변형들이 가능하다.
바람직한 실시예들의 다양한 형태들로 설명된 엘리먼트들 및 특징들은, 본 발명의 범위로부터 벗어나지 않고 상호간에 조합될 수 있다.
본 발명의 애플리케이션으로부터 도출되는 이점들은 명백하다.
본 발명은, 현재의 비디오 압축 기법들을 이용함으로써 V+D+O 포맷에서 스테레오스코픽 비디오를 효율적으로 압축하도록 허용한다. 이 기법의 획기적인 엘리먼트들은, 분명하게 코딩되어 디코더로 전송될 것을 요구하지 않는 폐색 포지션 표현, 및 표준 기법들을 이용함으로써 수행된 후속 압축을 용이하게 하는 이미지를 형성하기 위해 폐색된 픽셀들의 재조직화로 이루어진다. 게다가, 본원에 제안된 기법은, 특정 중간 뷰 합성 알고리즘에 의존하지 않고, 가까운 미래에 이용가능하게 될 기술들에 쉽게 적응될 수 있다. 최종적으로, 본 발명은 2D 시스템들과의 하위 호환성을 보장하면서, 동시에 자가-스테레오스코픽 디스플레이들을 위해 멀티-뷰 송신을 위한 생성을 허용한다.
전술한 설명으로부터, 당업자들은 임의의 추가적인 구성 세부사항들을 도입하지 않고 본 발명의 목적을 산출할 수 있을 것이다.

Claims (28)

  1. 비디오 이미지들의 시퀀스로부터 시작하여 3차원 비디오 스트림을 생성하기 위한 방법으로서,
    상기 시퀀스는, 제 1 뷰(V0), 장면의 적어도 하나의 제 2 뷰(V1) 뿐만 아니라, 상기 제 1 뷰(V0)의 깊이 맵(D0), 또는 상기 제 1 뷰(V0)에 대한 상기 적어도 하나의 제 2 뷰(V1)의 디스패리티 맵을 포함하고,
    상기 방법은, 하나의 이미지에 대해:
    - 상기 깊이 맵(D0)으로부터 또는 상기 디스패리티 맵으로부터 시작하여 상기 제 2 뷰(V1)의 폐색된(occluded) 픽셀들을 포함하는 적어도 하나의 폐색 이미지(O1)를 획득하는 단계;
    - 상기 픽셀들을 서로에 대해 더 가깝게 이동시키도록, 상기 적어도 하나의 폐색 이미지(O1)의 상기 폐색된 픽셀들을 공간적으로 재포지셔닝함으로써 콤팩팅된(compacted) 폐색 이미지(OC1)를 생성하는 단계를 포함하고,
    상기 3차원 비디오 스트림은, 하나의 이미지에 대해, 상기 제 1 뷰(V0), 상기 깊이 맵(D0), 또는 상기 디스패리티 맵, 및 상기 적어도 하나의 콤팩팅된 폐색 이미지(OC1)를 포함하는,
    3차원 비디오 스트림을 생성하기 위한 방법.
  2. 제 1 항에 있어서,
    상기 적어도 하나의 제 2 뷰(V1)의 상기 적어도 하나의 콤팩팅된 폐색 이미지(OC1)는:
    - 상기 제 1 뷰(V0)의 디코딩된 값들(Vdec0, Ddec0)로부터 시작하여, 또는 상기 제 1 뷰(V0)로부터 그리고 상기 제 1 뷰(V0)에 대응하는 상기 깊이 맵(D0)으로부터 시작하여, 상기 적어도 하나의 제 2 뷰(V1)의 적어도 하나의 제 1 추정된 시퀀스(Vsyn1)의 적어도 하나의 제 1 폐색 맵(OM0,1)을 결정하는 단계 ― 상기 제 1 폐색 맵(OM0,1)은 상기 폐색들의 포지션들의 표현을 포함함 ―;
    - 상기 적어도 하나의 제 1 폐색 맵(OM0,1)으로 표현된 폐색들의 포지션들에 대응하는 포지션들 내의 이미지의 상기 적어도 하나의 제 2 뷰(V1)의 값들에 대응하는 값들을 갖는 상기 적어도 하나의 폐색 이미지(O1)를 결정하는 단계;
    - 상기 적어도 하나의 폐색 맵(OM0,1)으로 표현된 폐색들의 포지션들에 대응하는 상기 포지션들에 대한 상기 적어도 하나의 폐색 이미지(O1)의 공간 콤팩션을 결정하여 이에 따라 상기 적어도 하나의 제 2 뷰(V1)의 상기 적어도 하나의 콤팩팅된 폐색 이미지(OC1)를 획득하는 단계
    를 통해서 획득되는,
    3차원 비디오 스트림을 생성하기 위한 방법.
  3. 제 2 항에 있어서,
    상기 공간 콤팩션(spatial compaction)은, 상기 적어도 하나의 폐색 맵(OM0,1)으로 표현된 폐색들의 포지션들에 대응하는 상기 포지션들 내에 로케이팅된 상기 적어도 하나의 폐색 이미지(O1)의 폐색 픽셀들을, 상기 적어도 하나의 폐색 이미지(O1)의 이미지들의 하나 또는 그 초과의 측면들을 향해서 이동시킴으로써 획득되는,
    3차원 비디오 스트림을 생성하기 위한 방법.
  4. 제 3 항에 있어서,
    상기 폐색 픽셀들은, 상기 적어도 하나의 제 1 비디오 시퀀스(O1)의 이미지의 측면들 중 하나를 향해서 로우 별로(row by row) 이동되고,
    상기 이동은, 상기 폐색 픽셀들의 상대 시퀀스(relative sequence)를 로우 별로 보존시키거나 또는 이를 수평으로 반전시키면서, 폐색 포지션들에 대응하지 않는 상기 적어도 하나의 폐색 이미지(O1)의 중간 픽셀들을 제거함으로써 발생하는,
    3차원 비디오 스트림을 생성하기 위한 방법.
  5. 제 3 항에 있어서,
    상기 폐색 픽셀들은, 폐색 포지션들에 대응하지 않는 상기 적어도 하나의 폐색 이미지(O1)의 중간 픽셀들을 제거함으로써, 상기 적어도 하나의 폐색 이미지(O1)의 이미지의 양 측면들을 향해서, 로우들의 제 1 그룹에 대한 제 1 측면을 향해서 그리고 상기 적어도 하나의 폐색 이미지(O1)의 이미지들의 로우들의 제 2 그룹에 대한 제 2 측면들을 향해서, 로우 별로 이동되는,
    3차원 비디오 스트림을 생성하기 위한 방법.
  6. 제 3 항에 있어서,
    상기 폐색 픽셀들은, 상기 적어도 하나의 폐색 이미지(O1)의 이미지의 양 측면들을 향해서 로우 별로 이동되고,
    폐색 포지션들에 대응하지 않는 상기 적어도 하나의 폐색 이미지(O1)의 중간 픽셀들을 제거함으로써 그리고 픽셀들이 없는 로우들의 상기 제 2 그룹을 떠남으로써, 상기 로우들의 제 1 그룹의 픽셀들은 상기 로우들의 상기 제 1 그룹 내의 이미지의 제 1 측면을 향해서 이동되고, 상기 로우들의 제 2 그룹의 픽셀들은 상기 적어도 하나의 폐색 이미지(O1)의 이미지들의 로우들의 상기 제 1 그룹 내의 이미지의 제 2 측면을 향해서 이동되는,
    3차원 비디오 스트림을 생성하기 위한 방법.
  7. 제 6 항에 있어서,
    상기 로우들의 제 2 그룹은, 상기 이미지의 크기를 감소시킴으로써 상기 적어도 하나의 폐색 이미지(O1)의 상기 이미지로부터 제거되는,
    3차원 비디오 스트림을 생성하기 위한 방법.
  8. 제 6 항 또는 제 7 항에 있어서,
    상기 폐색 픽셀들에 의해 점유되지 않은 상기 적어도 하나의 폐색 이미지(O1)의 상기 이미지의 컬럼들(m/2)의 그룹은, 상기 적어도 하나의 폐색 이미지(O1)의 상기 이미지로부터 제거되어 이에 의해 상기 이미지의 크기를 감소시키는,
    3차원 비디오 스트림을 생성하기 위한 방법.
  9. 제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
    상기 적어도 하나의 폐색 이미지(O1)의 이미지 내의 다수의 폐색 영역들의 존재시에, 상기 폐색 픽셀들은 폐색 포지션들에 대응하지 않는 상기 적어도 하나의 폐색 이미지(O1)의 픽셀들을 제거함으로써 순차적으로 포지셔닝되는,
    3차원 비디오 스트림을 생성하기 위한 방법.
  10. 제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
    상기 적어도 하나의 폐색 이미지(O1)의 이미지 내의 다수의 폐색 영역들의 존재시에, 상기 폐색 픽셀들은 상이한 폐색 영역들의 픽셀들 사이에 버퍼 픽셀들을 둠으로써 순차적으로 포지셔닝되는,
    3차원 비디오 스트림을 생성하기 위한 방법.
  11. 제 10 항에 있어서,
    상기 버퍼 픽셀들은, 상이한 폐색 영역들의 픽셀들 사이에 중간 천이 존들(intermediate transition zones)을 도입함으로써, 2개의 이웃 폐색 영역들 사이 및/또는 하나의 폐색 영역과 어떠한 폐색들도 갖지 않는 인접하는 중립 영역 사이의 신호 레벨에 있어서의 갭(gap)을 감소시키도록 하는 방식으로 계산된 값들을 갖는,
    3차원 비디오 스트림을 생성하기 위한 방법.
  12. 제 1 항 내지 제 11항 중 어느 한 항에 있어서,
    코딩된 이미지들(Vcod0, Dcod0, OCcod0)의 시퀀스의 생성을 포함하고,
    상기 코딩된 이미지들은, 상기 제 1 뷰(V0)의, 상기 깊이 맵(D0)의 또는 상기 디스패리티 맵의, 및 상기 적어도 하나의 콤팩팅된 폐색 이미지(OC1)의 코딩을 포함하는,
    3차원 비디오 스트림을 생성하기 위한 방법.
  13. 비디오 이미지들의 시퀀스로부터 시작하여 3차원 비디오 스트림을 생성하기 위한 디바이스로서,
    상기 시퀀스는, 제 1 뷰(V0), 장면의 적어도 하나의 제 2 뷰(V1) 뿐만 아니라, 상기 제 1 뷰(V0)의 깊이 맵(D0), 또는 상기 제 1 뷰(V0)에 대한 상기 적어도 하나의 제 2 뷰(V1)의 디스패리티 맵을 포함하고,
    상기 디바이스는:
    - 상기 제 1 뷰(V0)의 상기 깊이 맵(D0)으로부터 또는 상기 제 1 뷰(V0)에 대한 상기 적어도 하나의 제 2 뷰(V1)의 상기 디스패리티 맵으로부터 시작하여 상기 적어도 하나의 제 2 뷰(V1)의 폐색된 픽셀들을 포함하는 상기 적어도 하나의 폐색 이미지(O1)를 획득하기 위한 수단;
    - 상기 픽셀들을 서로에 대해 더 가깝게 이동시키도록, 상기 적어도 하나의 폐색 이미지(O1)의 상기 폐색된 픽셀들을 공간적으로 재포지셔닝함으로써 상기 적어도 하나의 콤팩팅된 폐색 이미지(OC1)를 생성하기 위한 수단;
    - 하나의 이미지에 대해, 상기 제 1 뷰(V0), 상기 깊이 맵(D0), 또는 상기 디스패리티 맵, 및 상기 적어도 하나의 콤팩팅된 폐색 이미지(OC1)를 포함하는 상기 3차원 비디오 스트림을 획득하기 위한 수단을 포함하는,
    3차원 비디오 스트림을 생성하기 위한 디바이스.
  14. 제 13 항에 있어서,
    상기 적어도 하나의 콤팩팅된 폐색 이미지(OC1)를 생성하기 위한 수단은:
    - 상기 제 1 뷰(V0)의 상기 디코딩된 값들(Vdec0, Ddec0)로부터 시작하여, 또는 상기 제 1 뷰(V0)로부터 그리고 상기 제 1 뷰(V0)에 대응하는 상기 깊이 맵(D0)으로부터 시작하여, 상기 적어도 하나의 제 2 뷰(V1)의 상기 적어도 하나의 제 1 추정된 시퀀스(Vsyn1)의 적어도 하나의 제 1 폐색 맵(OM0,1)을 결정하기 위한 수단 ― 상기 제 1 폐색 맵(OM0,1)은 상기 폐색들의 포지션들의 표현을 포함함 ―;
    - 상기 적어도 하나의 제 1 폐색 맵(OM0,1)으로 표현된 폐색들의 포지션들에 대응하는 포지션들 내의 이미지의 상기 적어도 하나의 제 2 뷰(V1)의 값들에 대응하는 값들을 갖는 이미지들의 상기 적어도 하나의 폐색 이미지(O1)를 결정하기 위한 수단;
    - 상기 적어도 하나의 폐색 맵(OM0,1)의 폐색들의 포지션들에 대응하는 상기 포지션들에 대한 상기 적어도 하나의 폐색 이미지(O1)의 공간 콤팩션을 결정하여 이에 따라 상기 적어도 하나의 제 2 뷰(V1)의 상기 적어도 하나의 콤팩팅된 폐색 이미지(OC1)를 획득하기 위한 수단을 포함하는,
    3차원 비디오 스트림을 생성하기 위한 디바이스.
  15. 제 13 항 또는 제 14 항에 있어서,
    코딩된 이미지들(Vcod0, Dcod0, OCcod0)의 시퀀스를 생성하기 위한 수단을 포함하고,
    상기 코딩된 이미지들은, 상기 제 1 뷰(V0)의, 상기 깊이 맵(D0)의 또는 상기 디스패리티 맵의, 및 상기 적어도 하나의 콤팩팅된 폐색 이미지(OC1)의 코딩을 포함하는,
    3차원 비디오 스트림을 생성하기 위한 디바이스.
  16. 비디오 이미지들의 시퀀스를 포함하는 3차원 비디오 스트림을 복원하기 위한 방법으로서,
    상기 방법은, 하나의 이미지에 대해:
    - 상기 픽셀들을 서로에 대해 더 가깝게 이동시키도록, 상기 비디오 이미지들의 시퀀스의 제 1 뷰(Vdec0, V0), 상기 제 1 뷰(Vdec0, V0)의 깊이 맵(Ddec0, D0), 또는 상기 비디오 이미지들의 시퀀스의 적어도 하나의 제 2 뷰(Vdec1, V1)와 상기 제 1 뷰(Vdec0, V0) 사이의 디스패리티 맵, 및 상기 적어도 하나의 제 2 뷰(Vdec1)의 적어도 하나의 폐색 이미지(O1)의 폐색된 픽셀들을 공간적으로 재포지셔닝함으로써 획득된 적어도 하나의 콤팩팅된 폐색 이미지(OCdec1, OC1)를 수신하는 단계;
    - 상기 적어도 하나의 콤팩팅된 폐색 이미지(OC1)를 획득하기 위해 수행된 콤팩션 동작 이전에 이들이 있었던 포지션으로 재포지셔닝된 상기 적어도 하나의 제 2 뷰(Vdec1, V1)의 폐색된 픽셀들을 포함하는 적어도 하나의 복원된 폐색 이미지(Odec1, O1)를 획득하는 단계;
    - 상기 제 1 뷰(Vdec0, V0)로부터, 상기 깊이 맵(Ddec0, D0)으로부터 또는 각각으로부터, 상기 디스패리티 맵으로부터, 및 상기 적어도 하나의 복원된 폐색 이미지(Odec1, O1)로부터 시작하여 상기 적어도 하나의 제 2 뷰(Vdec1, V1)를 복원하는 단계를 포함하고,
    상기 복원된 3차원 스트림은, 상기 수신된 제 1 뷰(Vdec0, V0) 및 상기 적어도 하나의 복원된 제 2 뷰(Vdec1, V1)를 포함하는,
    3차원 비디오 스트림을 복원하기 위한 방법.
  17. 제 16 항에 있어서,
    상기 적어도 하나의 제 2 뷰(Vdec1, V1)는:
    - 상기 제 1 뷰(Vdec0, V0)로부터 그리고 상기 깊이 맵(Ddec0, D0)으로부터 획득된 값들을 이용함으로써, 상기 적어도 하나의 제 2 뷰(Vdec1, V1)의 적어도 하나의 추정된 시퀀스(Vsyn1)를 결정하는 단계 ― 상기 적어도 하나의 제 2 추정된 시퀀스(Vsyn1)는 폐색 영역들을 포함하도록 적응됨 ―;
    - 상기 적어도 하나의 제 2 추정된 시퀀스(Vsyn1)의 적어도 하나의 제 2 폐색 맵(OM0,1)을 결정하는 단계 ― 상기 폐색 맵(OM0,1)은 상기 폐색들의 포지션들의 표현을 포함함 ―;
    - 상기 폐색 맵(OM0,1)으로 표현된 포지션들에 기초하여 상기 적어도 하나의 제 2 뷰(Vdec1, V1)의 상기 폐색들의 오리지널 포지션들을 회복(restore)하도록, 콤팩팅되지 않은 폐색 이미지를 포함하는 적어도 하나의 제 2 폐색 이미지(Odec1, O1)를 획득하기 위해 상기 적어도 하나의 콤팩팅된 폐색 이미지(OCdec1, OC1)의 콤팩팅된 폐색들을 공간적으로 언콤팩팅하는(uncompacting) 단계;
    - 상기 적어도 하나의 제 2 추정된 시퀀스(Vsyn1)의 다른 포지션들을 변경되지 않은 상태로 남겨두면서, 상기 적어도 하나의 제 2 추정된 시퀀스(Vsyn1)의 대응하는 포지션들에서 상기 적어도 하나의 제 2 폐색 이미지(Odec1)의 폐색 포지션들의 픽셀들을 대체하여 적어도 하나의 제 2 뷰(Vdec1, V1)를 획득하는 단계를 포함하는,
    3차원 비디오 스트림을 복원하기 위한 방법.
  18. 제 16 항 또는 제 17 항에 있어서,
    상기 적어도 하나의 제 2 뷰(Vdec1)에는 조합 아티팩트 보상 동작(combination artifact compensation operation)이 행해지는,
    3차원 비디오 스트림을 복원하기 위한 방법.
  19. 제 16 항 내지 제 18 항 중 어느 한 항에 있어서,
    코딩된 이미지들(Vcod0, Dcod0, OCcod0)의 시퀀스를 디코딩하는 단계를 포함하고,
    상기 코딩된 이미지들은, 상기 제 1 뷰(V0)의, 상기 깊이 맵(D0)의 또는 상기 디스패리티 맵의, 및 상기 적어도 하나의 콤팩팅된 폐색 이미지(OC1)의 코딩을 포함하고, 이에 따라, 상기 깊이 맵(Ddec0)로부터 또는 각각으로부터, 상기 디스패리티 맵으로부터, 및 상기 적어도 하나의 콤팩팅된 폐색 이미지(OCdec1)로부터 상기 제 1 뷰(Vdec0)를 획득하는,
    3차원 비디오 스트림을 복원하기 위한 방법.
  20. 비디오 이미지들의 시퀀스를 포함하는 3차원 비디오 스트림을 복원하기 위한 디바이스로서,
    - 상기 픽셀들을 서로에 대해 더 가깝게 이동시키도록, 상기 비디오 이미지들의 시퀀스의 제 1 뷰(Vdec0, V0), 상기 제 1 뷰(Vdec0, V0)의 깊이 맵(Ddec0, D0), 또는 상기 비디오 이미지들의 시퀀스의 적어도 하나의 제 2 뷰(Vdec1, V1)와 상기 제 1 뷰(Vdec0, V0) 사이의 디스패리티 맵, 및 상기 적어도 하나의 제 2 뷰(Vdec1)의 적어도 하나의 폐색 이미지(O1)의 폐색된 픽셀들을 공간적으로 재포지셔닝함으로써 획득된 적어도 하나의 콤팩팅된 폐색 이미지(OCdec1; OC1)를 수신하기 위한 수단;
    - 상기 적어도 하나의 콤팩팅된 폐색 이미지(OC1)를 획득하기 위해 수행된 콤팩션 동작 이전에 이들이 있었던 포지션에 상기 적어도 하나의 제 2 뷰(Vdec1; V1)의 상기 폐색된 픽셀들을 재포지셔닝함으로써 적어도 하나의 복원된 폐색 이미지(Odec1, O1)를 획득하기 위한 수단;
    - 상기 제 1 뷰(Vdec0, V0)로부터, 상기 깊이 맵(Ddec0, D0)으로부터 또는 각각으로부터, 상기 디스패리티 맵으로부터, 및 상기 적어도 하나의 복원된 폐색 이미지(Odec1, O1)로부터 시작하여 상기 적어도 하나의 제 2 뷰(Vdec1, V1)를 복원하기 위한 수단을 포함하는,
    3차원 비디오 스트림을 복원하기 위한 디바이스.
  21. 제 20 항에 있어서,
    상기 적어도 하나의 제 2 뷰(Vdec1, V1)를 복원하기 위한 수단은:
    - 상기 제 1 뷰(Vdec0, V0)로부터 및 상기 깊이 맵(Ddec0, D0)으로부터 획득된 값들을 이용함으로써, 상기 적어도 하나의 제 2 뷰(Vdec1, V1)의 적어도 하나의 추정된 시퀀스(Vsyn1)를 획득하기 위한 수단 ― 상기 적어도 하나의 제 2 추정된 시퀀스(Vsyn1)는 폐색 영역들을 포함할 수 있음 ―;
    - 상기 적어도 하나의 제 2 추정된 시퀀스(Vsyn1)의 적어도 하나의 제 2 폐색 맵(OM0,1)을 결정하기 위한 수단 ― 상기 폐색 맵(OM0,1)은 상기 폐색들의 포지션들의 표현을 포함함 ―;
    - 상기 적어도 하나의 제 2 뷰(Vdec1, V1)의 상기 폐색들의 실제 오리지널 포지션들을 회복하도록, 상기 적어도 하나의 폐색 맵(OM0,1)으로 표현된 폐색들의 포지션에 기초하여, 콤팩팅되지 않은 폐색 이미지를 포함하는 적어도 하나의 제 2 폐색 이미지(Odec1, O1)를 획득하기 위해 상기 적어도 하나의 콤팩팅된 폐색 이미지(OCdec1, OC1)의 상기 콤팩팅된 폐색들을 공간적으로 언콤팩팅하기 위한 수단;
    - 상기 적어도 하나의 제 2 추정된 시퀀스(Vsyn1)의 다른 포지션들을 변경되지 않은 상태로 남겨두면서, 상기 적어도 하나의 제 2 추정된 시퀀스(Vsyn1)의 대응하는 포지션들에서 상기 적어도 하나의 제 2 폐색 이미지(Odec1)의 폐색 포지션들의 픽셀들을 대체하여 적어도 하나의 제 2 뷰(Vdec1, V1)를 획득하기 위한 수단을 포함하는,
    3차원 비디오 스트림을 복원하기 위한 디바이스.
  22. 제 20 항 또는 제 21 항에 있어서,
    상기 깊이 맵(Ddec0)으로부터 또는 각각으로부터, 상기 디스패리티 맵으로부터 및 상기 적어도 하나의 콤팩팅된 폐색 이미지(OCdec1)로부터 상기 제 1 뷰(Vdec0)를 획득하기 위해, 상기 제 1 뷰(V0)의, 상기 깊이 맵(D0)의 또는 상기 디스패리티 맵의, 및 상기 적어도 하나의 콤팩팅된 폐색 이미지(OC1)의 코딩을 포함하는 상기 코딩된 이미지들의 시퀀스를 디코딩하기 위한 수단을 포함하는,
    3차원 비디오 스트림을 복원하기 위한 디바이스.
  23. 제 20 항 내지 제 22 항 중 어느 한 항에 있어서,
    상기 적어도 하나의 복원된 제 2 뷰(Vdec1)에 대한 조합 아티팩트 보상 블록(CART)을 포함하는,
    3차원 비디오 스트림을 복원하기 위한 디바이스.
  24. 이미지들의 시퀀스의 제 1 뷰(V0) 및 적어도 하나의 제 2 뷰(V1)를 포함하는 3차원 이미지들의 시퀀스를 표현하는 비디오 스트림으로서,
    - 상기 제 1 뷰(V0)의 코딩(Vcod0);
    - 상기 제 1 뷰(V0)에 대응하는 깊이 맵(D0)의, 또는 상기 제 1 뷰(V0)에 대한 상기 적어도 하나의 제 2 뷰(V1)의 디스패리티 맵의 코딩(Dcod0);
    -상기 적어도 하나의 제 2 뷰(V1)의 콤팩팅된 폐색 이미지(OC1)의 코딩(OCcod1)을 포함하고,
    상기 콤팩팅된 폐색 이미지(OC1)는, 상기 픽셀들을 서로에 대해 더 가깝게 이동시키도록, 적어도 하나의 폐색 이미지(O1)의 폐색된 픽셀들을 공간적으로 재포지셔닝함으로써 획득되는,
    3차원 이미지들의 시퀀스를 표현하는 비디오 스트림.
  25. 제 1 항 내지 제 11 항 중 어느 한 항에 기재된 비디오 이미지들의 시퀀스들로부터 시작하여 3차원 비디오 스트림을 생성하기 위한 방법으로서,
    상기 적어도 하나의 제 2 뷰(V1)는 (k-1)개의 뷰들(V1,...,Vk-1)을 포함하고(여기서, k>1 및 정수임),
    상기 방법은, 하나의 이미지에 대해:
    - 메인 뷰로서 상기 제 1 뷰(V0)를 포함하는 뷰들(V0, V1,...,Vk-1)의 순서를 확립하는 단계;
    - 상기 깊이 맵(D0, Ddec0) 또는 상기 디스패리티 맵으로부터 및 상기 메인 뷰(V0, Vdec0)로부터 시작하여, 대응하는 인덱스로 상기 제 2 뷰들(V1,...,Vk -1) 중 하나의 폐색된 픽셀들을 각각 포함하는 (k-1)개의 폐색 이미지들(O1,...,Ok -1)을 획득하는 단계;
    - 서로에 대해 더 가깝게 개별적인 픽셀들을 이동시키도록, 상기 (k-1)개의 폐색 이미지들(O1,...,Ok -1)의 상기 폐색된 픽셀들을 공간적으로 재포지셔닝함으로써 (k-1)개의 콤팩팅된 폐색 이미지들(OC1 ,2,k-1, OCcod1 ,2,...k-1)을 생성하는 단계
    를 포함하고,
    상기 3차원 비디오 스트림은, 하나의 이미지에 대해, 상기 제 1 뷰(V0), 상기 제 1 뷰(V0)의 상기 깊이 맵(D0), 및 상기 콤팩팅된 폐색 이미지들(OC1 ,2,k-1, OCcod1,2,...k-1)을 포함하는,
    3차원 비디오 스트림을 생성하기 위한 방법.
  26. 비디오 이미지들의 시퀀스로부터 시작하여 3차원 비디오 스트림을 생성하기 위한 디바이스로서,
    상기 시퀀스는 제 1 뷰(V0) 및 장면의 적어도 하나의 제 2 뷰(V1)를 포함하고,
    상기 적어도 하나의 제 2 뷰(V1)는 (k-1)개의 뷰들(V1,...,Vk-1)을 포함하며(여기서, k>1 및 정수임),
    상기 디바이스는 제 25항에 기재된 방법을 구현하기 위한 수단을 포함하는,
    3차원 비디오 스트림을 생성하기 위한 디바이스.
  27. 제 17 항 내지 제 20 항 중 어느 한 항에 기재된 비디오 이미지들의 시퀀스를 포함하는 3차원 비디오 스트림을 복원하기 위한 방법으로서,
    상기 적어도 하나의 제 2 뷰(V1)는, 상기 픽셀들을 서로에 대해 더 가깝게 이동시키도록, (k-1)개의 뷰들(V1,...,Vk -1)(여기서, k>1 및 정수임), 및 상기 (k-1)개의 뷰들(V1,...,Vk -1)의 폐색 이미지들(O1,...,Ok -1)의 폐색된 픽셀들을 공간적으로 재포지셔닝함으로써 획득된 콤팩팅된 폐색 이미지들(OC1 ,2,...,k-1, OCcod1 ,2,...,k-1)을 포함하고,
    상기 방법은, 하나의 이미지에 대해,
    - 상기 콤팩팅된 폐색 이미지들(OCdec1 ,2,...,k-1, OC1 ,2,...,k-1)를 획득하기 위해 수행된 콤팩션 동작 이전에 이들이 있었던 포지션으로 재포지셔닝된 상기 k-1개의 뷰들(V1,...,Vk-1)의 폐색된 픽셀들을 포함하는 (k-1)개의복원된 폐색 이미지들(Odec1,..., Odeck -1; O1,...,Ok -1)를 획득하는 단계;
    - 상기 제 1 뷰(Vdec0, V0)로부터, 상기 깊이 맵(Ddec0, D0)으로부터 또는 각각으로부터, 상기 디스패리티 맵으로부터, 및 상기 복원된 폐색 이미지들(Odec1,..., Odeck -1; O1,...,Ok -1)로부터 시작하여 상기 (k-1)개의 뷰들(V1, Vk-1)를 복원하는 단계를 포함하고,
    상기 복원된 3차원 스트림은, 상기 수신된 제 1 뷰(Vdec0, V0), 및 상기 (k-1)개의 복원된 뷰들(Vdec1,...,Vdeck -1, V1,...,Vk -1)을 포함하는,
    3차원 비디오 스트림을 복원하기 위한 방법.
  28. 제 20 항 내지 제 23항 중 어느 한 항에 기재된 것과 같은 비디오 이미지들의 시퀀스를 포함하는 3차원 비디오 스트림을 복원하기 위한 디바이스로서,
    상기 적어도 하나의 제 2 뷰(V1)는, 상기 픽셀들을 서로에 대해 더 가깝게 이동시키도록, (k-1)개의 뷰들(V1,...,Vk -1)(여기서, k>1 및 정수임), 및 상기 (k-1)개의 뷰들(V1,...,Vk -1)의 상기 폐색 이미지들(O1,...,Ok -1)의 상기 폐색된 픽셀들을 공간적으로 재포지셔닝함으로써 획득된 콤팩팅된 폐색 이미지들(OC1 ,2,k-1, OCcod1 ,2,...k-1)을 포함하고,
    상기 디바이스는:
    - 상기 콤팩팅된 폐색 이미지들(OCdec1 ,2,...,k-1, OC1 ,2,...,k-1)를 획득하기 위해 수행된 콤팩션 동작 이전에 이들이 있었던 포지션으로 재포지셔닝된 상기 k-1개의 뷰들(V1,...,Vk-1)의 폐색된 픽셀들을 포함하는 (k-1)개의 복원된 폐색 이미지들(Odec1,..., Odeck -1; O1,...,Ok -1)를 획득하기 위한 수단;
    - 상기 제 1 뷰(Vdec0, V0)로부터, 상기 깊이 맵(Ddec0, D0)으로부터 또는 각각으로부터, 상기 디스패리티 맵으로부터, 및 상기 복원된 폐색 이미지들(Odec1,...,Odeck -1; O1,...,Ok -1)로부터 시작하여 상기 (k-1)개의 뷰들(V1, Vk-1)을 복원하기 위한 수단을 포함하고,
    상기 복원된 3차원 스트림은, 상기 수신된 제 1 뷰(Vdec0, V0), 및 상기 (k-1)개의 복원된 뷰들(Vdec1,...,Vdeck -1, V1,...,Vk -1)을 포함하는,
    3차원 비디오 스트림을 복원하기 위한 디바이스.
KR1020147034445A 2012-05-08 2013-05-07 폐색 맵의 이용에 기초한 3차원 비디오 스트림의 생성 및 복원 방법, 및 그 대응 생성 및 복원 디바이스 KR20150017350A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
ITTO2012A000413 2012-05-08
IT000413A ITTO20120413A1 (it) 2012-05-08 2012-05-08 Metodo per la generazione e ricostruzione di un flusso video tridimensionale, basato sull'utilizzo della mappa delle occlusioni, e corrispondente dispositivo di generazione e ricostruzione.
PCT/IB2013/053660 WO2013168091A1 (en) 2012-05-08 2013-05-07 Method for generating and reconstructing a three-dimensional video stream, based on the use of the occlusion map, and corresponding generating and reconstructing device

Publications (1)

Publication Number Publication Date
KR20150017350A true KR20150017350A (ko) 2015-02-16

Family

ID=46466752

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147034445A KR20150017350A (ko) 2012-05-08 2013-05-07 폐색 맵의 이용에 기초한 3차원 비디오 스트림의 생성 및 복원 방법, 및 그 대응 생성 및 복원 디바이스

Country Status (8)

Country Link
US (1) US10051286B2 (ko)
EP (1) EP2847994B1 (ko)
JP (1) JP2015520989A (ko)
KR (1) KR20150017350A (ko)
CN (1) CN104412595B (ko)
IT (1) ITTO20120413A1 (ko)
TW (1) TW201351961A (ko)
WO (1) WO2013168091A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220045242A (ko) * 2016-07-21 2022-04-12 인터디지털 브이씨 홀딩스 인코포레이티드 장면의 계층적 깊이 데이터를 생성하기 위한 방법

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6365540B2 (ja) * 2013-07-17 2018-08-01 ソニー株式会社 画像処理装置および方法
CN103997640B (zh) * 2014-05-13 2016-01-27 深圳超多维光电子有限公司 带宽优化方法和带宽优化装置
US10404969B2 (en) * 2015-01-20 2019-09-03 Qualcomm Incorporated Method and apparatus for multiple technology depth map acquisition and fusion
US20160253839A1 (en) 2015-03-01 2016-09-01 Nextvr Inc. Methods and apparatus for making environmental measurements and/or using such measurements in 3d image rendering
KR20180053724A (ko) 2015-09-17 2018-05-23 톰슨 라이센싱 명시야 콘텐츠를 인코딩하기 위한 방법
CN110769255B (zh) * 2016-06-30 2022-04-22 华为技术有限公司 一种图像编码方法及装置
CN110326028A (zh) * 2018-02-08 2019-10-11 深圳市大疆创新科技有限公司 图像处理的方法、装置、计算机系统和可移动设备
WO2021257639A1 (en) * 2020-06-16 2021-12-23 Dolby Laboratories Licensing Corporation Supporting multi-view video operations with disocclusion atlas

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3551467B2 (ja) * 1994-04-13 2004-08-04 松下電器産業株式会社 視差演算装置、視差演算方法及び画像合成装置
KR101545008B1 (ko) 2007-06-26 2015-08-18 코닌클리케 필립스 엔.브이. 3d 비디오 신호를 인코딩하기 위한 방법 및 시스템, 동봉된 3d 비디오 신호, 3d 비디오 신호용 디코더에 대한 방법 및 시스템
CN101131501B (zh) * 2007-09-20 2012-07-04 友达光电股份有限公司 显示装置、形成显示装置的方法及呈现立体影像的方法
WO2009083885A1 (en) * 2007-12-26 2009-07-09 Koninklijke Philips Electronics N.V. Image processor for overlaying a graphics object
JP5544361B2 (ja) * 2008-08-26 2014-07-09 コーニンクレッカ フィリップス エヌ ヴェ 三次元ビデオ信号を符号化するための方法及びシステム、三次元ビデオ信号を符号化するための符号器、三次元ビデオ信号を復号するための方法及びシステム、三次元ビデオ信号を復号するための復号器、およびコンピュータ・プログラム
JP2011060216A (ja) * 2009-09-14 2011-03-24 Fujifilm Corp 画像処理装置および画像処理方法
US9013584B2 (en) * 2010-03-01 2015-04-21 Stmicroelectronics, Inc. Border handling for motion compensated temporal interpolator using camera model
KR101676830B1 (ko) * 2010-08-16 2016-11-17 삼성전자주식회사 영상 처리 장치 및 방법
WO2012036903A1 (en) * 2010-09-14 2012-03-22 Thomson Licensing Compression methods and apparatus for occlusion data
WO2012036532A2 (en) * 2010-09-19 2012-03-22 Lg Electronics Inc. Method and apparatus for processing a broadcast signal for 3d (3-dimensional) broadcast service

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220045242A (ko) * 2016-07-21 2022-04-12 인터디지털 브이씨 홀딩스 인코포레이티드 장면의 계층적 깊이 데이터를 생성하기 위한 방법
US11803980B2 (en) 2016-07-21 2023-10-31 Interdigital Vc Holdings, Inc. Method for generating layered depth data of a scene

Also Published As

Publication number Publication date
EP2847994B1 (en) 2020-11-18
TW201351961A (zh) 2013-12-16
US20150092845A1 (en) 2015-04-02
US10051286B2 (en) 2018-08-14
CN104412595A (zh) 2015-03-11
WO2013168091A1 (en) 2013-11-14
CN104412595B (zh) 2018-07-06
ITTO20120413A1 (it) 2013-11-09
JP2015520989A (ja) 2015-07-23
EP2847994A1 (en) 2015-03-18

Similar Documents

Publication Publication Date Title
JP6356286B2 (ja) 多視点信号コーデック
US10051286B2 (en) Method for generating and reconstructing a three-dimensional video stream, based on the use of the occlusion map, and corresponding generating and reconstructing device
EP2156668B1 (en) Method and apparatus for generating block-based stereoscopic image format and method and apparatus for reconstructing stereoscopic images from block-based stereoscopic image format
US8345751B2 (en) Method and system for encoding a 3D video signal, enclosed 3D video signal, method and system for decoder for a 3D video signal
KR101676059B1 (ko) 비디오 코딩을 위한 프레임 패킹
US9438881B2 (en) Enhancement methods for sampled and multiplexed image and video data
CN107241606B (zh) 解码系统、方法和设备以及计算机可读介质
US20090015662A1 (en) Method and apparatus for encoding and decoding stereoscopic image format including both information of base view image and information of additional view image
JP2012523804A (ja) 向上した解像度の立体ビデオのエンコード、デコード、および配信
US20150312547A1 (en) Apparatus and method for generating and rebuilding a video stream
KR101856104B1 (ko) 영상 제공 장치 및 방법, 그리고 영상 재생 장치 및 방법

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination