KR101419419B1 - 모노스코픽 2d 비디오 및 대응하는 깊이 정보로부터 3d 비디오를 생성하기 위한 방법 및 시스템 - Google Patents

모노스코픽 2d 비디오 및 대응하는 깊이 정보로부터 3d 비디오를 생성하기 위한 방법 및 시스템 Download PDF

Info

Publication number
KR101419419B1
KR101419419B1 KR1020120011158A KR20120011158A KR101419419B1 KR 101419419 B1 KR101419419 B1 KR 101419419B1 KR 1020120011158 A KR1020120011158 A KR 1020120011158A KR 20120011158 A KR20120011158 A KR 20120011158A KR 101419419 B1 KR101419419 B1 KR 101419419B1
Authority
KR
South Korea
Prior art keywords
video
captured
depth information
dimensional video
monoscopic
Prior art date
Application number
KR1020120011158A
Other languages
English (en)
Other versions
KR20120089603A (ko
Inventor
쉐민 첸
제이한 카라오구즈
남비 세샤드리
크리스 보로스
Original Assignee
브로드콤 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US13/077,912 external-priority patent/US8994792B2/en
Application filed by 브로드콤 코포레이션 filed Critical 브로드콤 코포레이션
Publication of KR20120089603A publication Critical patent/KR20120089603A/ko
Application granted granted Critical
Publication of KR101419419B1 publication Critical patent/KR101419419B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/261Image signal generators with monoscopic-to-stereoscopic image conversion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/115Selection of the code volume for a coding unit prior to coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

모노스코픽 비디오 센싱 장치의 이미지 센서들 및 깊이 센서는 2D 비디오 및 대응하는 깊이 정보를 캡처하기 위해 이용된다. 캡처된 2D 비디오에 대한 관심 영역(ROI : region of interest)들은 캡처된 대응하는 깊이 정보에 기초하여 선택된다. 모노스코픽 비디오 센싱 장치는 선택된 ROI들에 기초하여 상기 캡처된 2D 비디오 및 상기 캡처된 대응하는 깊이 정보를 선택적으로 처리한다. 3D 비디오는 디스플레이를 위하여 상기 처리된 2D 비디오로부터 구성된다. 캡처된 2D 비디오에 동기화되는 캡처된 깊이 정보는 메타데이터로서 저장되고, 캡처된 2D 비디오의 비디오 해상도와 일치시키기 위하여 보간될 수 있다. 캡처된 2D 비디오 및 캡처된 대응하는 깊이 정보는 계층적비디오 코딩을 통해 증강된다. 3D 비디오 렌더링에 의하여, 대응하는 깊이 정보와 함께 3D 비디오를 구성하기 위하여, 캡처된 2D 비디오의 관련성 있는 이미지/비디오 성분들이 선택된 ROI들에 기초하여 선택된다.

Description

모노스코픽 2D 비디오 및 대응하는 깊이 정보로부터 3D 비디오를 생성하기 위한 방법 및 시스템{METHOD AND SYSTEM FOR CREATING A 3D VIDEO FROM A MONOSCOPIC 2D VIDEO AND CORRESPONDING DEPTH INFORMATION}
발명의 특정 실시예들은 비디오 처리에 관한 것이다. 더욱 구체적으로, 발명의 특정 실시예들은 모노스코픽 2D 비디오(monoscopic 2D video) 및 대응하는 깊이 정보를 생성하기 위한 방법 및 시스템에 관한 것이다.
디지털 비디오 기능들은 예를 들어, 디지털 텔레비전들, 디지털 직접 방송 시스템들, 디지털 녹화 장치들 등과 같은 폭넓은 범위의 장치들에 편입될 수 있다. 디지털 비디오 장치들은 증가된 대역폭 효율을 갖는 비디오 시퀀스(video sequence)들을 처리 및 송신함에 있어서 통상적인 아날로그 비디오 시스템들에 비해 상당히 개선될 수 있다.
비디오 컨텐츠는 2차원(2D) 포맷 또는 3차원(3D) 포맷으로 녹화될 수 있다. 예를 들어, DVD 영화들 및 디지털 TV와 같은 다양한 응용들에서는, 3D 비디오가 2D 대응물보다는 시청자들에게 흔히 더욱 현실감 있기 때문에, 3D 비디오가 흔히 바람직하다. 3D 비디오는 좌안 시청 비디오(left view video) 및 우안 시청 비디오(right view video)를 포함한다. 3D 비디오 프레임(video frame)은 좌안 시청 비디오 성분들 및 우안 시청 비디오 성분들을 각각 합성함으로써 생성될 수 있다.
기존의 그리고 전통적인 접근법들의 추가적인 제약들 및 단점들은 도면들을 참조하여 본 출원의 나머지에서 기재되는 바와 같이, 본 발명의 일부 양태들을 갖는 이러한 시스템들의 비교를 통해 당업자에게 명백해질 것이다.
본 발명은 상기 설명된 종래의 기술적 과제를 해결하기 위해 이루어진 것으로서, 모노스코픽 2D 비디오 및 대응하는 깊이 정보로부터 3D 비디오를 생성하기 위한 시스템 및 방법을 제공하는 것을 목적으로 한다.
청구범위에서 더욱 완전하게 기재된 바와 같이, 실질적으로, 도면들 중의 적어도 하나에 의해 예시되고 및/또는 도면들 중의 적어도 하나와 관련하여 설명된 바와 같이, 모노스코픽 2D 비디오 및 대응하는 깊이 정보로부터 3D 비디오를 생성하기 위한 시스템 및/또는 방법이 제공된다.
발명의 양태에 따르면, 방법은,
모노스코픽(monoscopic) 비디오 센싱 장치의 하나 이상의 이미지 센서들을 통해 2차원(two-dimensional) 비디오를 캡처하는 단계;
상기 모노스코픽 비디오 센싱 장치의 깊이 센서를 통해 상기 캡처된 2차원 비디오에 대한 대응하는 깊이 정보를 캡처하는 단계;
상기 캡처된 대응하는 깊이 정보에 기초하여 상기 캡처된 2차원 비디오에 대한 하나 이상의 관심 영역들을 선택하는 단계;
상기 선택된 하나 이상의 관심 영역들에 기초하여 상기 캡처된 2차원 비디오 및 상기 캡처된 대응하는 깊이 정보를 선택적으로 처리하는 단계; 및
상기 처리된 2차원 비디오 및 상기 처리된 대응하는 깊이 정보로부터 3차원(three-dimensional) 비디오를 구성하는 단계를 포함한다.
바람직하게는, 상기 방법은 상기 캡처된 대응하는 깊이 정보를 상기 캡처된 2차원 비디오에 동기화하는 단계를 더 포함한다.
바람직하게는, 상기 방법은 상기 동기화된 깊이 정보를 상기 캡처된 2차원 비디오에 대한 메타데이터(metadata)로서 저장하는 단계를 더 포함한다.
바람직하게는, 상기 방법은 상기 저장된 깊이 정보의 해상도를 상기 캡처된 2차원 비디오의 비디오 해상도와 일치시키는 단계를 더 포함한다.
바람직하게는, 상기 방법은 상기 캡처된 2차원 비디오의 상기 비디오 해상도와 일치시키기 위하여, 상기 저장된 깊이 정보를 화소(pixe)들 사이 및/또는 비디오 프레임(video frame)들 사이에 보간(interpolate)하는 단계를 더 포함한다.
바람직하게는, 상기 방법은 상기 캡처된 2차원 비디오 및 상기 저장된 깊이 정보를 기저 계층(base layer) 비디오 및 증강 계층(enhancement layer) 비디오로 각각 계층적 비디오 코딩을 행하는 단계를 더 포함한다.
바람직하게는, 상기 방법은 상기 계층적 비디오 코딩 도중에, 상기 선택된 하나 이상의 관심 영역들에 기초하여 상기 캡처된 2차원 비디오 및 상기 저장된 깊이 정보를 선택적으로 압축하는 단계를 더 포함한다.
바람직하게는, 상기 방법은, 상기 압축된 2차원 비디오 및 상기 압축된 깊이 정보를 압축해제하는 단계; 및 상기 선택된 하나 이상의 관심 영역들에 기초하여 상기 압축해제된 2차원 비디오 내의 비디오 성분들의 관련성(relevance)을 결정하는 단계를 더 포함한다.
바람직하게는, 상기 방법은 상기 결정된 관련성에 기초하여 상기 압축해제된 2차원 비디오 및 상기 압축해제된 깊이 정보로부터 상기 3차원 비디오를 구성하는 단계를 더 포함한다.
바람직하게는, 상기 방법은 상기 구성된 3차원 비디오를 렌더링하는 단계를 더 포함한다.
하나의 양태에 따르면, 신호들을 처리하기 위한 시스템이 제공되고,
상기 시스템은 모노스코픽 비디오 센싱 장치에서 이용하기 위한 하나 이상의 처리기들 및/또는 회로들을 포함하고, 상기 하나 이상의 처리기들 및/또는 회로들은 하나 이상의 이미지 센서들 및 깊이 센서를 포함하고, 상기 하나 이상의 처리기들 및/또는 회로들은,
상기 하나 이상의 이미지 센서들을 통해 2차원 비디오를 캡처하고,
상기 깊이 센서를 통해 상기 캡처된 2차원 비디오에 대한 대응하는 깊이 정보를 캡처하고,
상기 캡처된 대응하는 깊이 정보에 기초하여 상기 캡처된 2차원 비디오에 대한 하나 이상의 관심 영역들을 선택하고,
상기 선택된 하나 이상의 관심 영역들에 기초하여 상기 캡처된 2차원 비디오 및 상기 캡처된 대응하는 깊이 정보를 선택적으로 처리하고,
상기 처리된 2차원 비디오 및 상기 처리된 대응하는 깊이 정보로부터 3차원 비디오를 구성하도록 동작가능하다.
바람직하게는, 상기 하나 이상의 회로들은 상기 캡처된 대응하는 깊이 정보를 상기 캡처된 2차원 비디오에 동기화하도록 동작가능하다.
바람직하게는, 상기 하나 이상의 회로들은 상기 동기화된 깊이 정보를 상기 캡처된 2차원 비디오에 대한 메타데이터로서 저장하도록 동작가능하다.
바람직하게는, 상기 하나 이상의 회로들은 상기 저장된 깊이 정보의 해상도를 상기 캡처된 2차원 비디오의 비디오 해상도와 일치시키도록 동작가능하다.
바람직하게는, 상기 하나 이상의 회로들은 상기 캡처된 2차원 비디오의 상기 비디오 해상도와 일치시키기 위하여, 상기 저장된 깊이 정보를 화소들 사이 및/또는 비디오 프레임들 사이에 보간하도록 동작가능하다.
바람직하게는, 상기 하나 이상의 회로들은 상기 캡처된 2차원 비디오 및 상기 저장된 깊이 정보를 기저 계층 비디오 및 증강 계층 비디오로 각각 계층적 비디오 코딩을 행하도록 동작가능하다.
바람직하게는, 상기 하나 이상의 회로들은 상기 계층적 비디오 코딩 도중에, 상기 선택된 하나 이상의 관심 영역들에 기초하여 상기 캡처된 2차원 비디오 및 상기 저장된 깊이 정보를 선택적으로 압축하도록 동작가능하다.
바람직하게는, 상기 하나 이상의 회로들은 상기 압축된 2차원 비디오 및 상기 압축된 깊이 정보를 압축해제하고, 상기 선택된 하나 이상의 관심 영역들에 기초하여 상기 압축해제된 2차원 비디오 내의 비디오 성분들의 관련성을 결정하도록 동작가능하다.
바람직하게는, 상기 하나 이상의 회로들은 상기 결정된 관련성에 기초하여 상기 압축해제된 2차원 비디오 및 상기 압축해제된 깊이 정보로부터 상기 3차원 비디오를 구성하도록 동작가능하다.
바람직하게는, 상기 하나 이상의 회로들은 상기 구성된 3차원 비디오를 렌더링하도록 동작가능하다.
본 발명의 예시된 실시예들의 상세한 내용들과 함께, 본 발명의 이러한 그리고 다른 장점들, 양태들 및 신규한 특징들은 다음의 설명 및 도면들로부터 더욱 완전하게 이해될 것이다.
본 발명에 따르면, 모노스코픽 2D 비디오 및 대응하는 깊이 정보로부터 3D 비디오를 생성하기 위한 시스템 및 방법을 구현할 수 있다.
도 1은 발명의 실시예에 따라, 모노스코픽 2차원(2D) 비디오 및 대응하는 깊이 정보로부터 3차원(3D) 비디오를 생성하도록 동작가능한 예시적인 비디오 통신 시스템을 예시하는 도면이다.
도 2는 발명의 실시예에 따라, 3D 비디오를 생성하기 위하여 모노스코픽 2D 비디오 및 대응하는 깊이 정보를 처리하는 것을 예시한다.
도 3은 발명의 실시예에 따라, 모노스코픽 2D 비디오 및 대응하는 깊이 정보의 계층적 비디오 코딩(scalable video coding)을 예시하는 블럭도이다.
도 4는 발명의 실시예에 따라, 2D 비디오 및 대응하는 깊이 정보를 선택적으로 압축하기 위하여 모노스코픽 캠코더(monoscopic camcorder)에 의해 수행될 수 있는 예시적인 단계들을 예시하는 순서도이다.
도 5는 발명의 실시예에 따라, 3D 비디오 렌더링(video rendering)을 위하여 2D 비디오 및 대응하는 깊이 정보로부터 3D 비디오를 구성하기 위해 모노스코픽 캠코더에 의해 수행될 수 있는 예시적인 단계들을 예시하는 순서도이다.
발명의 특정 실시예들은 모노스코픽 2D 비디오 및 대응하는 깊이 정보로부터 3D 비디오를 생성하기 위한 방법 및 시스템에서 발견될 수 있다. 발명의 다양한 실시예들에서, 모노스코픽 비디오 카메라와 같은 모노스코픽 센싱 장치의 하나 이상의 이미지 센서들은 2차원(2D) 비디오를 캡처(capture)할 수 있다. 모노스코픽 비디오 카메라의 깊이 센서는 캡처된 2D 비디오에 대한 대응하는 깊이 정보를 캡처할 수 있다. 모노스코픽 비디오 카메라는 캡처된 대응하는 깊이 정보에 기초하여 캡처된 2D 비디오에 대한 하나 이상의 관심 영역(ROI : region of interest)들을 선택하도록 동작가능할 수 있다. 캡처된 2D 비디오 및 캡처된 대응하는 깊이 정보는 선택된 ROI들에 기초하여 선택적으로 처리될 수 있다. 예를 들어, 모노스코픽 비디오 카메라는 관심이 더 적은 관심 영역들보다는, 선택된 ROI들에 더 많은 비트들 및/또는 메모리를 제공하거나 할당할 수 있다. 모노스코픽 비디오 카메라는 디스플레이를 위하여 캡처된 2D 비디오로부터 3D 비디오를 구성할 수 있다. 캡처된 대응하는 깊이 정보는 캡처된 2D 비디오에 동기화될 수 있다. 동기화된 깊이 정보는 캡처된 2D 비디오에 대한 메타데이터(metadata)로서 저장될 수 있다. 모노스코픽 비디오 카메라는 캡처된 2D 비디오의 비디오 해상도(video resolution)와 일치시키기 위하여, 저장된 깊이 정보를 화소(pixel)들 사이 및/또는 프레임(frame)들 사이에 보간(interpolate)할 수 있다. 캡처된 2D 비디오 및 캡처된 대응하는 깊이 정보는 선택된 ROI들에 기초하여 선택적으로 수행될 수 있는 계층적 코딩을 통해 증대될 수 있다. 3D 비디오 렌더링에 의해, 캡처된 2D 비디오 내의 관련된 이미지/비디오 성분들은 선택된 ROI들에 기초하여 선택될 수 있다. 모노스코픽 비디오 카메라는 3D 비디오 렌더링 및/또는 재생(playback)을 위하여 3D 비디오를 구성하기 위해, 선택된 이미지/비디오 성분들 및 대응하는 깊이 정보를 이용할 수 있다.
도 1은 발명의 실시예에 따라 모노스코픽 2차원(2D) 비디오 및 대응하는 깊이 정보로부터 3차원(3D) 비디오를 생성하도록 동작가능한 예시적인 비디오 통신 시스템을 예시하는 도면이다. 도 1을 참조하면, 비디오 통신 시스템(100)이 도시되어 있다. 비디오 통신 시스템(100)은 모노스코픽 비디오 카메라(110) 및 3D 비디오 렌더링 장치(140)를 포함한다.
모노스코픽 비디오 카메라(110)는 처리기(112), 깊이 센서(114), 하나 이상의 이미지 센서들(116), 제어 유닛(118), 렌즈(120), 광학기기(optics)(122), 비디오 인코더/디코더(encoder/decoder)(124), 이미터(emitter)(126), 광학 뷰파인더(optical viewfinder)(128), 디스플레이(130), 메모리(132), 디지털 신호 처리기(DSP : digital signal processor)(134), 입력/출력 모듈(136), 오디오 인코더/디코더(137), 스피커(138), 및/또는 마이크로폰(microphone)(139)을 포함할 수 있다.
처리기(112)는 예를 들어, 깊이 센서(114), 이미지 센서들(116), 및/또는 제어 유닛(118)과 같은 다양한 장치 부품들의 동작들을 관리 및/또는 처리하도록 동작가능할 수 있는 적당한 로직, 회로, 인터페이스들, 및/또는 코드를 포함할 수 있다. 처리기(112)는 렌즈(120)에 대응하는 단일 뷰포인트(viewpoint)를 통해 2D 비디오를 캡처하기 위해 이미지 센서들(116)을 이용하도록 동작가능할 수 있다. 처리기(112)는 휘도(luminance) 및/또는 색차(chrominance) 정보를 수집하기 위해 하나 이상의 이미지 센서들(116)을 이용할 수 있다. 또한, 처리기(112)는 캡처된 2D 비디오에 대한 깊이 정보를 캡처하기 위해 깊이 센서(depth sensor)(114)를 이용할 수 있다. 처리기(112)는 예를 들어, 캡처된 2D 비디오에 대한, 비디오 인코더/디코더(124)를 통한 비디오 압축/압축해제와 같은 다양한 비디오 처리를 수행할 수 있다. 결과적으로 처리된 비디오는 광학 뷰파인더(126) 및/또는 디스플레이(128)를 통해 사용자에게 제시되거나 디스플레이될 수 있다.
깊이 센서(114)는 적외선 스펙트럼(infrared spectrum)에서 전자기(EM : electromagnetic) 파(wave)들을 검출하도록 동작가능할 수 있는 적당한 로직, 회로, 인터페이스들, 및/또는 코드를 포함할 수 있다. 깊이 센서(114)는 대응하는 적외선 EM 파들에 기초하여 대상물(object)들의 깊이 정보를 결정하거나 센싱할 수 있다. 예를 들어, 깊이 센서(114)는 이미터(126)에 의해 송신되어 대상물들로부터 깊이 센서(114)로 다시 반사되는 적외선 EM 파들의 비행 시간(time-of-flight)에 기초하여 대상물들에 대한 깊이 정보를 결정하거나 캡처할 수 있다.
이미지 센서(들)(116)은 렌즈(120)에 의해 포커싱(focusing)되는 광학 신호들을 센싱하도록 동작가능할 수 있는 적당한 로직, 회로, 인터페이스들, 및/또는 코드를 각각 포함할 수 있다. 이미지 센서(들)(116)은 휘도 및/또는 색차 정보를 캡처하기 위하여 광학 신호들을 전기 신호들로 변환할 수 있다. 각각의 이미지 센서(116)는 예를 들어, 전하결합소자(CCD : charge coupled device) 이미지 센서 또는 상보형 금속 산화물 반도체(CMOS : complimentary metal oxide semiconductor) 이미지 센서를 포함할 수 있다.
제어 유닛(118)은 사용자가 모노스코픽 비디오 카메라(110)와 상호작용하도록 할 수 있는 적당한 로직, 회로, 인터페이스들, 및/또는 코드를 포함할 수 있다. 예를 들어, 제어 유닛(118)은 비디오 녹화 및/또는 재생을 관리하거나 제어할 수 있다.
렌즈(120)는 EM 파들을 캡처하거나 센싱하기 위해 이용될 수 있는 광학 부품이다. 캡처된 EM 파들은 렌즈(120) 전방의 장면에 대한 2D 이미지들을 형성하거나 생성하기 위하여 이미지 센서(들)(116) 상의 광학기기(122)를 통해 충분히 포커싱될 수 있다.
광학기기(122)는 렌즈(120)를 통해 수신된 EM 파들을 조절하고 보내기 위한 광학 장치들을 포함할 수 있다. 광학기기(122)는 가시 스펙트럼 내의 EM 파들을 이미지 센서(들)(116)로 보낼 수 있고, 적외선 스펙트럼 내의 EM 파들을 깊이 센서(114)로 각각 보낼 수 있다. 광학기기(122)는 예를 들어, 하나 이상의 렌즈들, 프리즘(prism)들, 휘도 및/또는 컬러 필터들, 및/또는 미러(mirror)들을 포함할 수 있다.
비디오 인코더/디코더(124)는 비디오 압축 및/또는 압축해제를 수행하도록 동작가능할 수 있는 적당한 로직, 회로, 인터페이스들, 및/또는 코드를 포함할 수 있다. 비디오 인코더/디코더(124)는 MPEG-2, 및/또는 비디오 코딩을 위한 다른 비디오 포맷들에서 명시된 비디오 코딩 알고리즘들과 같은 다양한 비디오 압축 및/또는 압축해제 알고리즘들을 이용할 수 있다.
이미터(126)는 예를 들어, 적외선 스펙트럼 내에 전자기 파들을 생성 및/또는 송신하도록 동작가능할 수 있는 적당한 로직, 회로, 인터페이스들, 및/또는 코드를 포함할 수 있다.
광학 뷰파인더(128)는 렌즈(120)가 사용자에게 투사하는 것을 제시하거나 디스플레이하도록 동작가능할 수 있는 적당한 로직, 회로, 인터페이스들, 및/또는 코드를 포함할 수 있다. 즉, 광학 뷰파인더(128)는 렌즈(120)가 "보는" 것, 즉, "프레임 내부(in frame)"에 있는 것을 사용자가 보도록 할 수 있다.
디스플레이(130)는 이미지들/비디오를 사용자에게 디스플레이하도록 동작가능할 수 있는 적당한 로직, 회로, 인터페이스들, 및/또는 코드를 포함할 수 있다. 디스플레이(130)는 액정 디스플레이(LCD : liquid crystal display), 발광 다이오드(LED : light emitting diode) 디스플레이, 및/또는 모노스코픽 비디오 카메라(110)를 통해 캡처된 이미지들/비디오가 사용자에게 디스플레이될 수 있는 다른 디스플레이 기술들을 포함할 수 있다.
메모리(132)는 모노스코픽 비디오 카메라(110)에 의해 이용될 수 있는 실행가능한 명령들 및 데이터와 같은 정보를 저장하도록 동작가능할 수 있는 적당한 로직, 회로, 인터페이스들 및/또는 코드를 포함할 수 있다. 실행가능한 명령들은 비디오 인코더/디코더(124)를 통한 비디오 코딩을 위한 것일 수 있는 다양한 비디오 압축/압축해제 알고리즘들을 포함할 수 있다. 데이터는 캡처된 이미지들/비디오 및/또는 코딩된 비디오를 포함할 수 있다. 메모리(132)는 RAM, ROM, 플래시 메모리와 같은 낮은 지연시간(latency)의 비휘발성 메모리(nonvolatile memory), 및/또는 다른 적당한 전자 데이터 저장장치를 포함할 수 있다.
디지털 신호 처리기(DSP : digital signal processor)(134)는 캡처된 이미지 데이터, 캡처된 깊이 정보, 및/또는 캡처된 오디오 데이터의 신호 처리를 수행하도록 동작가능할 수 있는 적당한 로직, 회로, 인터페이스들, 및/또는 코드를 포함할 수 있다.
입력/출력(I/O) 모듈(136)은 모노스코픽 비디오 카메라(110)가 USB, PCI-X, IEEE 1394, HDMI, DisplayPort, 및/또는 아날로그 오디오 및/또는 아날로그 비디오 표준들과 같은 하나 이상의 표준들에 따라 다른 장치들과 인터페이스하도록 할 수 있는 적당한 로직, 회로, 인터페이스들, 및/또는 코드를 포함할 수 있다. 예를 들어, I/O 모듈(136)은 제어 유닛(118)으로부터 신호들을 송신 및 수신하고, 디스플레이(130)에 비디오를 출력하고, 오디오 인코더/디코더(137)로부터의 오디오를 스피커(138)에 출력하고, 마이크로폰(microphone)(139)으로부터의 오디오 입력을 처리하고, 카세트(cassette)들, 플래시 카드들, 또는 모노스코픽 비디오 카메라(110)에 부착된 다른 외부 메모리로부터 판독하고 그리고 이것에 기록하고, 및/또는 송신 및/또는 렌더링을 위한 IEEE 1394 포트, HDMI 및/또는 USB 포트와 같은 하나 이상의 포트들을 통해 오디오 및/또는 비디오를 외부적으로 출력하도록 동작가능할 수 있다.
오디오 인코더/디코더(137)는 오디오 코딩을 수행하도록 동작가능할 수 있는 적당한 로직, 회로, 인터페이스들, 및/또는 코드를 포함할 수 있다. 오디오 인코더/디코더(137)는 MPEG-2, 및/또는 오디오 코딩을 위한 다른 오디오 포맷들에서 명시된 오디오 압축/압축해제 알고리즘들과 같은 다양한 오디오 압축/압축해제 알고리즘들을 이용하도록 동작가능할 수 있다.
3D 비디오 렌더링 장치(140)는 모노스코픽 비디오 카메라(110)에 의해 캡처된 이미지들/비디오를 렌더링하도록 동작가능할 수 있는 적당한 로직, 회로, 인터페이스들, 및/또는 코드를 포함할 수 있다. 3D 비디오 렌더링 장치(140)는 모노스코픽 비디오 카메라(110)에 내부적으로 또는 외부적으로 결합될 수 있다. 3D 비디오 렌더링 장치(140)는 모노스코픽 비디오 카메라(110)로부터 출력된 3D 비디오를 렌더링하도록 구성될 수 있다.
모노스코픽 2D 비디오 및 대응하는 깊이 정보로부터 3D 비디오를 생성하는 것을 지원하기 위하여 모노스코픽 비디오 카메라(110)가 도 1에 예시되어 있지만, 발명은 그렇게 한정되지 않는다. 이와 관련하여, 하나 이상의 이미지 센서들 및 하나 이상의 깊이 센서들을 포함하는 모노스코픽 비디오 센싱 장치는 발명의 다양한 실시예들의 취지 및 범위로부터 벗어나지 않으면서, 모노스코픽 2D 비디오 및 대응하는 깊이 정보로부터 3D 비디오를 생성하도록 이용될 수 있다. 이미지 센서는 하나 이상의 광 이미터들 및/또는 하나 이상의 광 수신기들을 포함할 수 있다.
예시적인 동작에서, 모노스코픽 비디오 카메라(110)는 렌즈(120)로부터의 단일 뷰포인트(viewpoint)를 통해 2D 비디오를 캡처하도록 동작가능할 수 있다. 캡처된 2D 비디오에 대응하는 깊이 정보는 깊이 센서(114)를 통해 캡처 및/또는 수집될 수 있다.
발명의 예시적인 실시예에서는, 깊이 이미지들을 형성하거나 생성하기 위하여, 검색된 깊이 정보가 캡처된 2D 비디오의 휘도 및/또는 컬러 정보에 동기화되거나 상관될 수 있다. 깊이 이미지들은 캡처된 2D 비디오에 대한 메타데이터로서 메모리(132)에 저장될 수 있다. 저장된 깊이 이미지들은 비디오 렌더링 및/또는 재생을 위하여 모노스코픽 비디오 카메라(110)에 의해 이용될 수 있는 추가적인 정보의 계층을 제공할 수 있다.
발명의 예시적인 실시예에서, 캡처된 2D 비디오에 대한 깊이 이미지들의 해상도는 캡처된 2D 비디오 내의 대응하는 이미지들의 해상도와 일치하도록 구성되거나 조절될 수 있다. 이와 관련하여, 모노스코픽 비디오 카메라(110)는 휘도 및/또는 컬러 정보의, 각각의 화소, 또는 화소들의 그룹에 대한 깊이 정보를 제공하기 위하여 깊이 이미지들에 대한 이미지 보간을 수행할 수 있다. 예를 들어, 깊이 센서(114)의 해상도가 이미지 센서(116)의 해상도보다 작을 경우에는, 모노스코픽 비디오 카메라(110)는 휘도 및/또는 컬러 정보의, 각각의 화소, 또는 화소들의 그룹에 대한 깊이 정보를 생성하거나 제공하기 위하여, 캡처된 2D 비디오에 대한 화소들 사이에 깊이 정보를 보간하도록 동작가능할 수 있다. 깊이 센서(114)의 프레임 레이트가 이미지 센서(116)의 프레임 레이트보다 작을 경우에는, 모노스코픽 비디오 카메라(110)는 휘도 및/또는 컬러 정보의 각각의 프레임에 대한 깊이 정보를 생성하거나 제공하기 위하여, 캡처된 2D 비디오에 대한 프레임들 사이에 깊이 정보를 보간하도록 동작가능할 수 있다.
발명의 예시적인 실시예에서, 모노스코픽 비디오 카메라(110)는 2D 모드 또는 3D 모드의 어느 하나에서 동작할 수 있다. 2D 모드에서, 모노스코픽 비디오 카메라(110)는 광학 뷰파인더(128) 및/또는 디스플레이(130)를 통해 캡처된 2D 비디오를 사용자에게 제시하거나 디스플레이할 수 있다. 3D 모드에서는, 모노스코픽 비디오 카메라(110)가 디스플레이를 위하여 캡처된 2D 비디오 및 대응하는 깊이 이미지들로부터 3D 비디오를 형성하거나 구성할 수 있다. 이와 관련하여, 구성된 3D 비디오는 광학 뷰파인더(128) 및/또는 디스플레이(130)에 적합한 포맷으로 되어 있을 수 있다.
발명의 예시적인 실시예에서, 캡처된 2D 비디오 및 대응하는 깊이 이미지들은 기저 계층 비디오(base layer video) 및 증강 계층 비디오(enhancement layer video)로서 각각 적용될 수 있다. 이와 관련하여, 캡처된 2D 비디오(기저 계층 비디오)에 대한 관심 영역(ROI)들은 증강 계층 비디오 내의 대응하는 깊이 정보에 기초하여 식별되거나 선택될 수 있다. 선택된 깊이 기반의 ROI들 내의 이미지/비디오 성분들 및 대응하는 깊이 정보는 계층적 비디오 코딩(SVC : scalable video coding)을 통해 증강될 수 있다. 모노스코픽 비디오 카메라(110)는 선택된 깊이 기반의 ROI들에 기초하여 캡처된 2D 비디오의 이미지/비디오 성분들 및 대응하는 깊이 정보를 선택적으로 압축하도록 동작가능할 수 있다. 예를 들어, 더 많은 비트들 및/또는 메모리 자원들이 관심이 더 적은 관심 영역들보다는, 선택된 깊이 기반의 ROI들에 제공되거나 할당될 수 있다. 모노스코픽 비디오 카메라(110)는 관심이 더 적은 영역들에 더 적은 비트들 및/또는 메모리를 점진적으로 할당하거나 제공할 수 있다.
발명의 예시적인 실시예에서, 모노스코픽 비디오 카메라(110)는 선택된 깊이 기반의 ROI들에 기초하여 캡처된 2D 비디오 및 대응하는 깊이 정보로부터 3D 비디오를 구성하도록 동작가능할 수 있다. 예를 들어, 선택된 깊이 기반의 ROI들은 깊이 정보의 범위에 관한 정보를 그림의 후방 및 전방에 각각 제공할 수 있다. 이와 관련하여, 깊이 정보의 범위는 캡처된 2D 비디오 내의 이미지/비디오 성분들이 3D 비디오와 어떻게 관련되는지를 나타낼 수 있다. 즉, 선택된 깊이 기반의 ROI들로부터의 깊이 정보는 캡처된 2D 비디오의 이미지/비디오 성분들을 3D 비디오의 다양한 영역들에 맵핑(mapping)하거나 상관시키기 위해 이용될 수 있다. 대응하는 깊이 정보와 함께, 캡처된 2D 비디오의 관련된 이미지/비디오 성분들은 디스플레이를 위하여 3D 비디오를 형성하거나 구성하기 위해 적절하게 집합될 수 있다.
도 2는 발명의 실시예에 따라 3D 비디오를 생성하기 위하여 모노스코픽 2D 비디오 및 대응하는 깊이 정보를 처리하는 것을 예시한다. 도 2를 참조하면, 2D 이미지(210), 깊이 이미지(220) 및 3D 이미지(230)가 도시되어 있다. 2D 이미지(210)는 휘도 및/또는 컬러 정보를 포함할 수 있다. 깊이 이미지(220)는 2D 이미지(210)의 휘도 및/또는 컬러 정보에 대응하는 깊이 정보를 포함할 수 있다. 깊이 이미지(220) 내에서, 더 어두운 영역들은 대상물이 사용자로부터 멀리 떨어져 있음을 나타내고, 더 밝은 영역들은 대상물이 사용자에게 더 근접해 있음을 나타낸다.
발명의 다양한 실시예들에서, 깊이 이미지(220) 내의 깊이 정보는 2D 이미지(210)의 휘도 및/또는 컬러 정보와 상관되거나 이 정보에 동기화될 수 있다. 깊이 이미지(220)는 2D 이미지(210)에 대한 메타데이터로서 저장될 수 있다. 깊이 이미지(220)의 해상도는 필요할 경우에 2D 이미지(210)의 해상도와 일치시키기 위하여 조절되거나 구성될 수 있다. ROI(201)는 깊이 이미지(220) 내의 깊이 정보에 기초하여 선택될 수 있다. 결과적인 깊이 기반의 ROI(201)는 2D 이미지(210) 및 깊이 이미지(220)를 선택적으로 처리하기 위하여 이용될 수 있다. 예를 들어, 2D 이미지(210) 및 깊이 이미지(220) 모두에 대한 깊이 기반의 ROI(201) 내의 정보를 증강시키기 위하여 더 많은 비트들이 할당되거나 이용될 수 있다. 3D 이미지(230)는 2D 이미지(210) 및 깊이 이미지(220)로부터 형성되거나 구성될 수 있다. 깊이 기반의 ROI(201)는 3D 이미지(230)를 구성 및/또는 렌더링하기 위해 이용될 수 있는 깊이 정보의 범위에 대한 정보를 나타낼 수 있다.
도 3은 발명의 실시예에 따라 모노스코픽 2D 비디오 및 대응하는 깊이 정보의 계층적 비디오 코딩을 예시하는 블럭도이다. 도 3을 참조하면, ROI 검출기(320), 기저 계층 비디오 인코더(330a) 및 증강 계층 비디오 인코더(330b)를 포함하는 비디오 압축 유닛(300)이 도시되어 있다.
비디오 압축 유닛(300)은 캡처된 2D 및 캡처된 대응하는 깊이 정보를 동시에 인코딩하도록 동작가능할 수 있는 적당한 로직, 회로, 인터페이스들, 및/또는 코드를 포함할 수 있다. 비디오 압축 유닛(300)은 캡처된 2D 비디오를 기저 계층 비디오(310a)로서 인코딩할 수 있고, 캡처된 대응하는 깊이 정보를 증강 계층 비디오(310b)로서 각각 인코딩할 수 있다.
ROI 검출기(320)는 증강 계층 비디오(310b)의 깊이 정보에 기초하여 하나 이상의 ROI들을 검출하거나 선택하도록 동작가능할 수 있는 적당한 로직, 회로, 인터페이스들, 및/또는 코드를 포함할 수 있다. 선택된 ROI들에 관한 정보는 기저 계층 비디오 인코더(330a) 및 증강 계층 비디오 인코더(330b)에 각각 전달될 수 있다.
기저 계층 비디오 인코더(330a)는 캡처된 2D 비디오를 프레임별로 인코딩하도록 동작가능할 수 있는 적당한 로직, 회로, 인터페이스들 및/또는 코드를 포함할 수 있다. 기저 계층 비디오 인코더(330a)는 캡처된 2D 비디오를 선택된 ROI들에 기초하여 선택적으로 압축할 수 있다. 이와 관련하여, 기저 계층 비디오 인코더(330a)는 선택된 깊이 기반의 ROI들 내의 정보를 압축하기 위하여, 비트들 및/또는 메모리와 같은 더 많은 처리 자원들을 제공하거나 할당할 수 있다. 응용에 따라서는, 기저 계층 비디오 인코더(330a)는 관심이 더 적은 영역들에 더 적은 비트들 및/또는 메모리를 점진적으로 할당할 수 있다. 기저 계층 비디오 인코더(330a)는 캡처된 2D 비디오에 대한 압축되거나 코딩된 비디오 컨텐츠를 형성하기 위하여, MPEG-2, MPEG-4, AVC, VC1, VP6, 및/또는 다른 비디오 포맷들에서 명시된 바와 같은 다양한 비디오 압축 알고리즘들을 이용하도록 동작가능할 수 있다. 기저 시청 코딩(base view coding)으로부터의 장면 정보(scene information)와 같은 정보는 증강 계층 비디오 코딩을 위해 이용되도록 하기 위하여 증강 계층 비디오 인코더(330b)에 전달될 수 있다. 기저 계층 비디오 인코더(330a)는 필요할 경우에 송신을 위해 기저 계층 비트스트림을 출력하거나 제공할 수 있다.
증강 계층 비디오 인코더(330b)는 캡처된 2D 비디오에 대한 캡처된 대응하는 깊이 정보를 프레임별로 인코딩하도록 동작가능할 수 있는 적당한 로직, 회로, 인터페이스들 및/또는 코드를 포함할 수 있다. 증강 계층 비디오 인코더(330b)는 선택된 ROI들에 기초하여 캡처된 대응하는 깊이 정보를 선택적으로 압축할 수 있다. 이와 관련하여, 증강 계층 비디오 인코더(330b)는 선택된 깊이 기반의 ROI들 내의 깊이 정보를 압축하기 위하여 더 많은 비트들 및/또는 메모리를 할당할 수 있다. 응용에 따라서는, 증강 계층 비디오 인코더(330b)는 관심이 더 적은 영역들에 더 적은 비트들 및/또는 메모리를 점진적으로 할당할 수 있다. 증강 계층 비디오 인코더(330b)는 캡처된 2D 비디오에 대한 깊이 정보의 압축되거나 코딩된 비디오 컨텐츠들을 형성하기 위하여, MPEG-2, MPEG-4, AVC, VC1, VP6, 및/또는 다른 비디오 포맷들에서 명시된 바와 같은 다양한 비디오 압축 알고리즘들을 이용하도록 동작가능할 수 있다. 증강 계층 비디오 인코더(330b)는 필요할 경우에 송신을 위해 증강 계층 비트스트림을 출력하거나 제공할 수 있다.
도 3에서는, 캡처된 2D 비디오와, 캡처된 2D 비디오에 대한 캡처된 대응하는 깊이 정보를 처리하기 위하여, 하나의 기저 계층 비디오 인코더(330a) 및 하나의 증강 계층 비디오 인코더(330b)가 예시되어 있지만, 발명은 그렇게 한정되지 않을 수 있다. 따라서, 발명의 다양한 실시예들의 취지 및 범위로부터 벗어나지 않으면서, 기저 계층 비디오 인코더(330a)에 부가하여, 임의의 수의 증강 시청 비디오 인코더(enhancement view video encoder)들이 캡처된 2D 비디오를 처리하기 위해 이용될 수 있다.
예시적인 동작에서, 모노스코픽 비디오 카메라(110)는 2D 비디오 및 대응하는 깊이 정보를 캡처하도록 동작가능할 수 있다. 캡처된 2D 비디오 및 캡처된 대응하는 깊이 정보는 각각 기저 계층 비디오(310a) 및 증강 계층 비디오(310b)로서 동시에 처리될 수 있다. 하나 이상의 ROI들은 캡처된 대응하는 깊이 정보에 기초하여 캡처된 2D 비디오에 대해 선택될 수 있다. 기저 계층 비디오 인코더(330a) 및 증강 계층 비디오 인코더(330b)는 각각, 캡처된 2D 비디오 및 캡처된 대응하는 깊이 정보에 대한 비디오 압축을 선택적으로 수행할 수 있다. 이와 관련하여, 선택된 ROI들 내의 정보를 처리하기 위하여, 비트들, 전원 및/또는 메모리와 같은 더 많은 처리 자원들이 할당 및/또는 제공될 수 있다. 기저 계층 비디오 인코더(330a) 및 증강 계층 비디오 인코더(330b)는 관심이 더 적은 영역들 내의 정보를 코딩하기 위하여 적은 처리 자원들을 점진적으로 할당할 수 있다. 결과적인 기저 계층 비트스트림 및 증강 계층 비트스트림은 필요할 경우에 송신을 위해 합성될 수 있다.
도 4는 발명의 실시예에 따라, 2D 비디오 및 대응하는 깊이 정보를 선택적으로 압축하기 위하여 모노스코픽 캠코더에 의해 수행될 수 있는 예시적인 단계들을 예시하는 순서도이다. 도 4를 참조하면, 예시적인 단계들은 단계(402)와 함께 시작될 수 있고, 이 단계에서는, 모노스코픽 비디오 카메라(110)에 전원이 공급되어, 3D 모드가 가능해진다. 단계(404)에서, 모노스코픽 비디오 카메라(110)는 2D 비디오를 캡처하기 위하여 이미지 센서들(116)을 이용할 수 있고, 캡처된 2D 비디오에 대한 대응하는 깊이 정보를 캡처하기 위하여 깊이 센서(114)를 이용할 수 있다. 단계(405)에서, 모노스코픽 비디오 카메라(110)는 캡처된 깊이 정보의 해상도를 캡처된 2D 비디오의 비디오 해상도와 일치시키도록 동작가능할 수 있다. 예를 들어, 모노스코픽 비디오 카메라(110)는 캡처된 2D 비디오 내의 각각의 화소, 또는 화소들의 그룹에 대한 깊이 정보를 제공하기 위하여, 캡처된 깊이 정보를 화소들 사이 및/또는 프레임들 사이에 보간할 수 있다. 단계(406)에서, 모노스코픽 비디오 카메라(110)는 대응하는 깊이 정보에 기초하여 캡처된 2D 비디오에 대한 각각의 이미지들 내에서 하나 이상의 ROI들을 선택하도록 동작가능할 수 있다. 단계(408)에서, 모노스코픽 비디오 카메라(110)는 선택된 ROI들에 기초하여 캡처된 2D 비디오 및 캡처된 대응하는 깊이 정보를 프레임별로 선택적으로 압축하도록 동작가능할 수 있다. 이와 관련하여, 모노스코픽 비디오 카메라(110)는 선택된 ROI들에 기초하여 각각의 이미지 또는 프레임 내의 정보를 압축하기 위하여, 비트들, 전원 및/또는 메모리와 같은 처리 자원들을 할당할 수 있다. 관심이 더 적은 관심 영역들보다는, 선택된 ROI들에 더 많은 비트들, 전원 및/또는 메모리가 할당될 수 있다. 또한, 관심이 더 적은 관심 영역들에 할당된 처리 자원들은 전력을 절감하기 위하여 점진적으로 감소될 수 있다. 단계(409)에서, 압축된 2D 비디오 및 압축된 대응하는 깊이 정보는 필요할 경우에 송신하기 위하여 메모리(132)에 저장될 수 있다.
도 5는 발명의 실시예에 따라, 3D 비디오 렌더링을 위하여 2D 비디오 및 대응하는 깊이 정보로부터 3D 비디오를 구성하기 위해 모노스코픽 캠코더에 의해 수행될 수 있는 예시적인 단계들을 예시하는 순서도이다. 도 5를 참조하면, 예시적인 단계들은 단계(502)와 함께 시작될 수 있고, 이 단계에서는, 모노스코픽 비디오 카메라(110)에 전원이 공급되어, 3D 모드가 가능해진다. 단계(504)에서는, 모노스코픽 비디오 카메라(110)의 처리기(112)가 압축된 2D 비디오, 압축된 대응하는 깊이 정보 및/또는 ROI들을 수신할 수 있다.
단계(506)에서, 모노스코픽 비디오 카메라(110)는 압축된 2D 비디오 및 압축된 대응하는 깊이 정보를, ROI들에 기초하여 프레임별로 비디오 인코더/디코더(124)를 통해 압축해제하도록 동작가능할 수 있다. 단계(508)에서, 모노스코픽 비디오 카메라(110)는 ROI들에 기초하여 압축해제된 2D 비디오 내의 이미지/비디오 성분들의 관련성(relevance)을 식별하거나 결정할 수 있다. 예를 들어, ROI들 내의 깊이 정보는 3D 비디오 렌더링을 위하여 압축해제된 2D 비디오의 이미지/비디오 성분들을 선택하는 것을 나타낼 수 있다. 단계(510)에서, 선택된 이미지/비디오 성분들은 대응하는 깊이 정보와 함께, 디스플레이를 위하여 3D 비디오를 구성하도록 이용될 수 있다. 단계(512)에서, 모노스코픽 비디오 카메라(110)는 3D 비디오 렌더링을 위하여, 구성된 3D 비디오를 3D 비디오 렌더링 장치(140)에 전달할 수 있다.
모노스코픽 2D 비디오 및 대응하는 깊이 정보로부터 3D 비디오를 생성하기 위한 방법 및 시스템의 다양한 양태들이 제공된다. 발명의 다양한 예시적인 실시예들에서, 모노스코픽 비디오 카메라(110)와 같은 모노스코픽 비디오 센싱 장치는 2D 비디오를 캡처하기 위하여 이미지 센서들(116)을 이용하도록 동작가능하다. 모노스코픽 비디오 카메라(110)는 캡처된 2D 비디오에 대한 대응하는 깊이 정보를 캡처하기 위하여 깊이 센서(114)를 이용할 수 있다. 캡처된 대응하는 깊이 정보에 기초하여, 하나 이상의 ROI들이 캡처된 2D 비디오에 대해 선택되거나 식별될 수 있다. 모노스코픽 비디오 카메라(110)는 선택된 ROI들에 기초하여 캡처된 2D 비디오 및 캡처된 대응하는 깊이 정보를 선택적으로 처리할 수 있다. 예를 들어, 선택된 ROI들 내의 정보를 처리하기 위하여, 더 많은 비트들 또는 메모리가 할당될 수 있다. 응용들에 따라서는, 모노스코픽 비디오 카메라(110)는 디스플레이를 위하여 캡처된 2D 비디오 및 캡처된 대응하는 깊이 정보로부터 3D 비디오를 구성하거나 생성하도록 동작가능할 수 있다. 이와 관련하여, 모노스코픽 비디오 카메라(110)는 캡처된 대응하는 깊이 정보를 캡처된 2D 비디오에 동기화할 수 있다. 동기화된 대응하는 깊이 정보는 캡처된 2D 비디오에 대한 메타데이터로서 메모리(132)에 저장될 수 있다.
저장된 깊이 정보는 비디오 렌더링 및/또는 재생을 위하여 추가적인 정보의 계층을 제공할 수 있다. 캡처된 2D 비디오 내의 각각의 화소, 또는 화소들의 그룹에 대한 깊이 정보를 제공하기 위하여, 저장된 깊이 정보의 해상도는 캡처된 2D 비디오의 비디오 해상도와 일치시키도록 조절되거나 구성될 수 있다. 캡처된 2D 비디오 및 캡처된 대응하는 깊이 정보는 계층적 비디오 코딩을 통해 증강될 수 있다. 이와 관련하여, 캡처된 2D 비디오 및 캡처된 대응하는 깊이 정보는 각각, 기저 계층 비디오 및 증강 계층 비디오로 인코딩될 수 있다. 캡처된 2D 비디오 및 캡처된 대응하는 깊이 정보는 선택된 ROI들에 기초하여, 각각 기저 계층 비디오 인코더(330a)를 통해 그리고 증강 계층 비디오 인코더(330b)를 통해 선택적으로 압축될 수 있다. 일부 사례들에서, 3D 비디오 렌더링은 캡처된 2D 비디오에 대해 요구된다. 이와 관련하여, 모노스코픽 비디오 카메라(110)는 비디오 인코더/디코더(124)를 통해 압축된 2D 비디오 및 압축된 대응하는 깊이 정보를 압축해제할 수 있다. 결과적으로 압축해제된 2D 비디오 내의 이미지/비디오 성분들의 관련성은 예를 들어, 선택된 ROI들에 의해 나타낸 깊이 정보의 범위에 기초하여 결정되거나 식별될 수 있다. 모노스코픽 비디오 카메라(110)는 압축해제된 2D 비디오 및 압축해제된 대응하는 깊이 정보로부터 3D 비디오를 구성하거나 생성하기 위하여, 상기 식별된 관련성 있는 이미지/비디오 성분들을 집합하도록 동작가능할 수 있다. 결과적으로 구성된 3D 비디오는 3D 비디오 렌더링 장치(140)를 통해 렌더링될 수 있다.
발명의 다른 실시예들은 머신(machine) 및/또는 컴퓨터에 의해 실행가능한 적어도 하나의 코드 부분을 갖는 머신 코드 및/또는 컴퓨터 프로그램을 저장한, 비일시적인 컴퓨터 판독가능 매체 및/또는 저장 매체, 및/또는 비일시적인 머신 판독가능 매체 및/또는 저장 매체를 제공할 수 있고, 이에 따라, 머신 및/또는 컴퓨터가 모노스코픽 2D 비디오 및 대응하는 깊이 정보로부터 3D 비디오를 생성하기 위하여 본 명세서에서 설명된 단계들을 수행하도록 할 수 있다.
따라서, 본 발명은 하드웨어, 소프트웨어, 또는 하드웨어 및 소프트웨어의 조합으로 실현될 수 있다. 본 발명은 적어도 하나의 컴퓨터 시스템에서 중앙처리 방식으로, 또는 몇몇 상호접속된 컴퓨터 시스템들에 걸쳐 상이한 구성요소들이 퍼져 있는 분산처리 방식으로 실현될 수 있다. 본 명세서에서 설명된 방법들을 수행하기 위해 구성된 임의의 종류의 컴퓨터 시스템 또는 다른 장치가 적합하다. 하드웨어 및 소프트웨어의 전형적인 조합은, 로딩 및 실행될 때, 컴퓨터 시스템이 본 명세서에서 설명된 방법들을 수행하도록 컴퓨터 시스템을 제어하는 컴퓨터 프로그램을 갖는 범용 컴퓨터 시스템(general-purpose computer system)일 수 있다.
본 발명은 컴퓨터 프로그램 제품 내에 내장될 수도 있고, 이 컴퓨터 프로그램 제품은 본 명세서에서 설명된 방법들의 구현을 가능하게 하는 모든 특징들을 포함하고, 컴퓨터 시스템에서 로딩될 때, 이 방법들을 수행할 수 있다. 본 문맥에서의 컴퓨터 프로그램은, a) 다른 언어, 코드 또는 표기로의 변환; b) 상이한 자료 형태로의 복제(reproduction) 중의 하나 또는 둘 모두의 직후 또는 그 이후에, 정보 처리 능력을 갖는 시스템이 특정 기능을 수행하게 하도록 의도된 명령들의 집합에 대한, 임의의 언어, 코드 또는 표기로 된 임의의 표현을 의미한다.
본 발명은 특정 실시예들을 참조하여 설명되었지만, 본 발명의 범위로부터 벗어나지 않으면서 다양한 변경들이 행해질 수 있고 등가물들이 대체될 수 있다는 것을 당업자들이 이해할 것이다. 또한, 본 발명의 범위로부터 벗어나지 않으면서, 특수한 상황 또는 자료를 본 발명의 교시 내용들에 적응시키기 위하여 많은 변형들이 행해질 수 있다. 그러므로, 본 발명은 개시된 특수한 실시예에 한정되도록 의도된 것이 아니라, 첨부된 청구항들의 범위 내에 속하는 모든 실시예들을 포함하도록 의도된 것이다.

Claims (15)

  1. 모노스코픽(monoscopic) 비디오 센싱 장치의 하나 이상의 이미지 센서들을 통해 2차원(two-dimensional) 비디오를 캡처하는 단계;
    상기 모노스코픽 비디오 센싱 장치의 깊이 센서를 통해 상기 캡처된 2차원 비디오에 대한 대응하는 깊이 정보를 캡처하는 단계;
    상기 캡처된 대응하는 깊이 정보에 기초하여 상기 캡처된 2차원 비디오에 대한 하나 이상의 관심 영역(ROI, region of interest)들을 선택하는 단계;
    상기 선택된 하나 이상의 관심 영역들에 기초하여 상기 캡처된 2차원 비디오 및 상기 캡처된 대응하는 깊이 정보를 선택적으로 처리하는 단계;
    상기 캡처된 2차원 비디오 및 상기 깊이 정보를 각각 기저 계층(base layer) 비디오 및 증강 계층(enhancement layer) 비디오로 각각 계층적 비디오 코딩(SVC, scalable video coding)을 하는 단계;
    상기 계층적 비디오 코딩을 하는 중에, 상기 선택된 하나 이상의 관심 영역들에 기초하여 상기 캡처된 2차원 비디오 및 상기 깊이 정보를 선택적으로 압축하는 단계; 및
    상기 처리된 2차원 비디오 및 상기 처리된 대응하는 깊이 정보로부터 3차원(three-dimensional) 비디오를 구성하는 단계를 포함하는, 방법.
  2. 청구항 1에 있어서,
    상기 캡처된 대응하는 깊이 정보를 상기 캡처된 2차원 비디오에 동기화하는 단계를 포함하는, 방법.
  3. 청구항 2에 있어서,
    상기 동기화된 깊이 정보를 상기 캡처된 2차원 비디오에 대한 메타데이터(metadata)로서 저장하는 단계를 포함하는, 방법.
  4. 청구항 3에 있어서,
    상기 저장된 깊이 정보의 해상도를 상기 캡처된 2차원 비디오의 비디오 해상도와 일치시키는 단계를 포함하는, 방법.
  5. 청구항 4에 있어서,
    상기 캡처된 2차원 비디오의 상기 비디오 해상도와 일치시키기 위하여, 상기 저장된 깊이 정보를 화소들 사이 및 비디오 프레임들 사이 중 적어도 하나에서 보간(interpolate)하는 단계를 포함하는, 방법.
  6. 삭제
  7. 삭제
  8. 청구항 1에 있어서,
    상기 압축된 2차원 비디오 및 상기 압축된 깊이 정보를 압축해제하는 단계; 및
    상기 선택된 하나 이상의 관심 영역들에 기초하여 상기 압축해제된 2차원 비디오 내의 비디오 성분들의 관련성을 결정하는 단계를 포함하는, 방법.
  9. 청구항 8에 있어서,
    상기 결정된 관련성에 기초하여 상기 압축해제된 2차원 비디오 및 상기 압축해제된 깊이 정보로부터 상기 3차원 비디오를 구성하는 단계를 포함하는, 방법.
  10. 청구항 9에 있어서,
    상기 구성된 3차원 비디오를 렌더링하는 단계를 포함하는, 방법.
  11. 신호들을 처리하기 위한 시스템으로서,
    상기 시스템은 모노스코픽 비디오 센싱 장치에서 이용하기 위한 하나 이상의 처리기들을 포함하고, 상기 하나 이상의 처리기들은 하나 이상의 이미지 센서들 및 깊이 센서를 포함하고, 상기 하나 이상의 처리기은,
    상기 하나 이상의 이미지 센서들을 통해 2차원 비디오를 캡처하고,
    상기 깊이 센서를 통해 상기 캡처된 2차원 비디오에 대한 대응하는 깊이 정보를 캡처하고,
    상기 캡처된 대응하는 깊이 정보에 기초하여 상기 캡처된 2차원 비디오에 대한 하나 이상의 관심 영역(ROI, region of interest)들을 선택하고,
    상기 선택된 하나 이상의 관심 영역들에 기초하여 상기 캡처된 2차원 비디오 및 상기 캡처된 대응하는 깊이 정보를 선택적으로 처리하고,
    상기 캡처된 2차원 비디오 및 상기 깊이 정보를 각각 기저 계층(base layer) 비디오 및 증강 계층(enhancement layer) 비디오로 계층적 비디오 코딩(SVC, scalable video coding)을 하고,
    상기 계층적 비디오 코딩을 하는 중에, 상기 선택된 하나 이상의 관심 영역들에 기초하여 상기 캡처된 2차원 비디오 및 상기 깊이 정보를 선택적으로 압축하고,
    상기 처리된 2차원 비디오 및 상기 처리된 대응하는 깊이 정보로부터 3차원 비디오를 구성하도록 동작가능한, 신호들을 처리하기 위한 시스템.
  12. 청구항 11에 있어서,
    상기 하나 이상의 처리기들은 상기 캡처된 대응하는 깊이 정보를 상기 캡처된 2차원 비디오에 동기화하도록 동작가능한, 신호들을 처리하기 위한 시스템.
  13. 청구항 12에 있어서,
    상기 하나 이상의 처리기들은 상기 동기화된 깊이 정보를 상기 캡처된 2차원 비디오에 대한 메타데이터로서 저장하도록 동작가능한, 신호들을 처리하기 위한 시스템.
  14. 청구항 13에 있어서,
    상기 하나 이상의 처리기들은 상기 저장된 깊이 정보의 해상도를 상기 캡처된 2차원 비디오의 비디오 해상도와 일치시키도록 동작가능한, 신호들을 처리하기 위한 시스템.
  15. 청구항 14에 있어서,
    상기 하나 이상의 처리기들은 상기 캡처된 2차원 비디오의 상기 비디오 해상도와 일치시키기 위하여, 상기 저장된 깊이 정보를 화소들 사이 및 비디오 프레임들 사이 중 적어도 하나에서 보간하도록 동작가능한, 신호들을 처리하기 위한 시스템.
KR1020120011158A 2011-02-03 2012-02-03 모노스코픽 2d 비디오 및 대응하는 깊이 정보로부터 3d 비디오를 생성하기 위한 방법 및 시스템 KR101419419B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201161439274P 2011-02-03 2011-02-03
US61/439,274 2011-02-03
US13/077,912 2011-03-31
US13/077,912 US8994792B2 (en) 2010-08-27 2011-03-31 Method and system for creating a 3D video from a monoscopic 2D video and corresponding depth information

Publications (2)

Publication Number Publication Date
KR20120089603A KR20120089603A (ko) 2012-08-13
KR101419419B1 true KR101419419B1 (ko) 2014-07-14

Family

ID=46874286

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120011158A KR101419419B1 (ko) 2011-02-03 2012-02-03 모노스코픽 2d 비디오 및 대응하는 깊이 정보로부터 3d 비디오를 생성하기 위한 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR101419419B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006238093A (ja) * 2005-02-25 2006-09-07 Sony Corp 撮像装置
KR100891549B1 (ko) * 2007-05-22 2009-04-03 광주과학기술원 깊이 카메라를 이용하여 보완한 깊이 정보 생성 방법 및장치, 그리고 그 방법을 수행하는 프로그램이 기록된 기록매체
KR20100122988A (ko) * 2009-05-14 2010-11-24 삼성전자주식회사 3차원 영상 처리 장치 및 그 방법
KR101005015B1 (ko) * 2008-10-27 2010-12-30 한국전자통신연구원 관심 영역 깊이 정보 기반의 3차원 방송 서비스 방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006238093A (ja) * 2005-02-25 2006-09-07 Sony Corp 撮像装置
KR100891549B1 (ko) * 2007-05-22 2009-04-03 광주과학기술원 깊이 카메라를 이용하여 보완한 깊이 정보 생성 방법 및장치, 그리고 그 방법을 수행하는 프로그램이 기록된 기록매체
KR101005015B1 (ko) * 2008-10-27 2010-12-30 한국전자통신연구원 관심 영역 깊이 정보 기반의 3차원 방송 서비스 방법 및 장치
KR20100122988A (ko) * 2009-05-14 2010-11-24 삼성전자주식회사 3차원 영상 처리 장치 및 그 방법

Also Published As

Publication number Publication date
KR20120089603A (ko) 2012-08-13

Similar Documents

Publication Publication Date Title
US8994792B2 (en) Method and system for creating a 3D video from a monoscopic 2D video and corresponding depth information
US8810565B2 (en) Method and system for utilizing depth information as an enhancement layer
JP6630891B2 (ja) 明視野画像ファイルを符号化および復号するためのシステムおよび方法
US20120050478A1 (en) Method and System for Utilizing Multiple 3D Source Views for Generating 3D Image
JP5763184B2 (ja) 3次元画像に対する視差の算出
US20120054575A1 (en) Method and system for error protection of 3d video
US20080170806A1 (en) 3D image processing apparatus and method
US11695936B2 (en) Perceptual three-dimensional (3D) video coding based on depth information
KR20090007384A (ko) 다중 뷰들의 효율적인 인코딩 방법
KR101245214B1 (ko) 단안 카메라를 이용하여 3-차원 비디오를 생성하는 방법 및 시스템
US20120050495A1 (en) Method and system for multi-view 3d video rendering
US20120050490A1 (en) Method and system for depth-information based auto-focusing for a monoscopic video camera
US20120050477A1 (en) Method and System for Utilizing Depth Information for Providing Security Monitoring
WO2012060156A1 (ja) 多視点画像符号化装置及び多視点画像復号装置
TWI524730B (zh) 處理視頻之方法及其系統
TW201342884A (zh) 編碼裝置及編碼方法、以及解碼裝置及解碼方法
EP2485495A2 (en) Method and system for creating a 3D video from a monoscopic 2D video and corresponding depth information
KR101419419B1 (ko) 모노스코픽 2d 비디오 및 대응하는 깊이 정보로부터 3d 비디오를 생성하기 위한 방법 및 시스템
JP2013150071A (ja) 符号化装置、符号化方法、プログラム及び記憶媒体
KR101303719B1 (ko) 깊이 정보를 강화 계층으로 이용하기 위한 방법 및 시스템
EP2485493A2 (en) Method and system for error protection of 3D video
EP3203742A1 (en) System and method for encoding and decoding information representative of a focalization distance associated to an image belonging to a focal stack representative of a light field content
JP2021044659A (ja) 符号化装置、復号装置、及びプログラム
KR20120089604A (ko) 3d 비디오의 오류 보호를 위한 방법 및 시스템

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee