KR20110063778A - 발견적 뷰 블렌딩을 이용한 뷰 합성 - Google Patents

발견적 뷰 블렌딩을 이용한 뷰 합성 Download PDF

Info

Publication number
KR20110063778A
KR20110063778A KR1020117006916A KR20117006916A KR20110063778A KR 20110063778 A KR20110063778 A KR 20110063778A KR 1020117006916 A KR1020117006916 A KR 1020117006916A KR 20117006916 A KR20117006916 A KR 20117006916A KR 20110063778 A KR20110063778 A KR 20110063778A
Authority
KR
South Korea
Prior art keywords
pixel
candidate
warping
view
virtual
Prior art date
Application number
KR1020117006916A
Other languages
English (en)
Inventor
쯔펑 니
동 티안
시타람 바가바티
조안 야크
Original Assignee
톰슨 라이센싱
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 톰슨 라이센싱 filed Critical 톰슨 라이센싱
Publication of KR20110063778A publication Critical patent/KR20110063778A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2213/00Details of stereoscopic systems
    • H04N2213/003Aspects relating to the "2D+depth" image format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2213/00Details of stereoscopic systems
    • H04N2213/005Aspects relating to the "3D+depth" image format

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Image Processing (AREA)
  • Processing Or Creating Images (AREA)

Abstract

여러가지 구현이 설명된다. 몇 가지 구현은 3D 비디오(3DV) 응용분야에서 발견적 뷰 블렌딩을 이용한 뷰 합성에 관한 것이다. 일 양상에 따라서, 적어도 하나의 워핑 기준을 생성하기 위해 적어도 하나의 기준 화상 또는 그 일부를 적어도 하나의 기준 뷰 위치로부터 가상 뷰 위치로 워핑된다. 상기 적어도 하나의 워핑 기준 중에서 제1 후보 화소와 제2 후보 화소가 식별된다. 상기 제1 후보 화소와 상기 제2 후보 화소는 상기 가상 뷰 위치로부터의 가상 화상 내의 타겟 화소 위치에 대한 후보이다. 상기 제1 및 제2 후보 화소의 값에 기초하여 상기 타겟 화소 위치에 있는 화소값이 결정된다.

Description

발견적 뷰 블렌딩을 이용한 뷰 합성{VIEW SYNTHESIS WITH HEURISTIC VIEW BLENDING}
본 발명은 코딩 시스템에 관한 것으로, 특히 3D 비디오(3DV) 응용분야에서 발견적 뷰 블렌딩(heuristic view blending)을 이용한 뷰 합성에 관한 것이다.
관련 출원의 상호 인용
본 출원은 (1) 미국 임시특허 출원 제61/192,612호[출원일: 2008년 9월 19일, 발명의 명칭: "View Synthesis with Boundary-Splatting and Heuristic View Merging for 3DV Applications"]와 (2) 미국 임시특허 출원 제61/092,967호[출원일: 2008년 8월 29일, 발명의 명칭: "View Synthesis with Adaptive Splatting for 3D Video (3DV) Applications"]의 우선권을 주장하며, 이 임시특허 출원의 전체 내용은 본 명세서에 인용으로 포함된다.
3차원 비디오(3DV)는 멀티뷰 비디오와 깊이 정보 및 타겟에 대한 코딩 표현, 예컨대 수신기에서의 고화질 3D 렌더링의 생성을 포함하는 새로운 체계이다. 이 체계에 따라서 자동 입체 디스플레이, 자유 시점 애플리케이션 및 입체 디스플레이를 가지고서 3D 영상 경험이 가능하다. 추가적인 뷰를 생성하는 추가적인 기술을 제공하는 것이 필요하다.
본 발명은 종래 기술을 개선할 수 있는 뷰합성 기술에 관한 방법, 장치 등을 제공하는 것을 목적으로 한다.
일반적인 양상에 따라서, 적어도 하나의 워핑 기준(warped reference)을 생성하기 위해 적어도 하나의 기준 화상(reference picture) 또는 그 일부를 적어도 하나의 기준 뷰 위치(reference view location)로부터 가상 뷰 위치로 워핑된다. 상기 적어도 하나의 워핑 기준 중에서 제1 후보 화소와 제2 후보 화소가 식별된다. 상기 제1 후보 화소와 상기 제2 후보 화소는 상기 가상 뷰 위치로부터의 가상 화상 내의 타겟 화소 위치에 대한 후보이다. 상기 제1 및 제2 후보 화소의 값에 기초하여 상기 타겟 화소 위치에 있는 화소값이 결정된다.
하나 이상의 구현의 상세는 첨부 도면과 하기의 상세한 설명에서 설명된다. 구현들이 한 가지 특정 방식으로 기술되어 있더라도 이들은 다른 방식으로 구성 또는 구체화될 수 있음을 알아야 한다. 예컨대 구현은 방법으로서 실시될 수 있고, 또는 동작 세트를 수행하도록 구성된 장치 또는 동작 세트를 수행하기 위한 명령어들을 저장하는 장치와 같은 장치로 구체화되거나, 소정의 신호로서 구체화될 수 있다. 다른 양상과 특성들은 첨부 도면 및 청구범위와 함께 하기의 상세한 설명으로부터 명백하게 드러날 것이다.
본 발명은 종래 기술을 개선할 수 있는 뷰합성 기술에 관한 방법, 장치 등을 제공할 수 있다.
도 1a는 미조정(non-rectified) 뷰 합성의 구현도.
도 1b는 조정(rectified) 뷰 합성의 구현도.
도 2는 뷰 합성기의 구현도.
도 3은 비디오 송신 시스템의 구현도.
도 4는 비디오 수신 시스템의 구현도.
도 5는 비디오 처리 시스템의 구현도.
도 6은 깊이 정보를 가진 멀티뷰 비디오 송수신 시스템의 구현도.
도 7은 뷰 합성 프로세스의 구현도.
도 8은 조정 뷰에 대한 뷰 블렌딩 프로세스의 구현도.
도 9는 3D 포인트 Ori-Pi-Os로 결정된 각도를 보여주는 도.
도 10a는 조정 뷰에 대한 업샘플링의 구현도.
도 10b는 업샘플링과 Z-버퍼링에 기초한 블렌딩 프로세스의 구현도.
입력 뷰에 대해 엄격한 제한을 두는 3DV 응용분야가 있다. 입력 뷰는 통상적으로 1차원(1D) 디스패리티(disparity)가 뷰들 간에 어떻게 옮겨지는가를 기술할 있도록 잘 조정되어야 한다.
깊이 영상 기반 렌더링(Depth-Image-Based Rendering: DIBR)은 복수의 보정 카메라로부터 포착된 많은 영상과 그 관련 화소당 깊이(per-pixel depth) 정보를 이용하는 뷰 합성 기법이다. 이 뷰 생성법은 개념적으로는 2단계 프로세스, 즉 (1) 3D 영상 워핑(warping)과 (2) 재구성 및 재샘플링으로 이해될 수 있다. 3D 영상 워핑에 관해서는 깊이 데이터와 그 관련 카메라 파라미터를 이용하여 화소를 기준 영상(reference images)에서 적당한 3D 위치로 투사해제(un-project)하고 화소를 새로운 영상 공간으로 재투사(re-project)한다. 재구성 및 재샘플링에 관해서는 이는 합성된 뷰의 화소값의 결정과 관련된다.
렌더링법은 화소 방식(스플래팅(splatting))이나 메시 방식(삼각형)일 수 있다. 3DV에 있어서 화소당 깊이는 통상적으로 레이저 레인지 스캐닝(laser range scanning)이나 컴퓨터 그래픽 모델로부터 발생된 것이 아닌 스테레오와 같은 수동 컴퓨터 비전(passive computer vision) 기법을 이용하여 추정된다. 그러므로 3DV에서의 실시간 처리를 위해서는, 잡음이 있는 깊이 정보만을 고려하면, 강건한(robust) 3D 삼각측량(표면 재구성)은 어려운 기하 문제이므로 화소 방식 렌더링법은 복잡하고 연산을 많이 하는 메시 발생을 피하는 것이 바람직하다.
기존의 스플래팅 알고리즘은 몇 가지 매우 인상적인 결과를 달성하였다. 그러나 이 알고리즘은 고정밀 깊이를 가지고 작동하도록 설계되어 있으며 저화질 깊이에는 적합하지 않을 수 있었다. 그 외에도 많은 기존의 알고리즘은 3DV에는 존재하지 않는 3D에서의 화소당 법면(normal surface)이나 점구름(point-cloud)과 같은 것을 당연하게 받아들이는 양상이 있다. 따라서 이러한 문제를 해결하기 위한 새로운 합성 알고리즘이 필요하다.
깊이 정보와 카메라 파라미터를 고려해 볼 때, 기준 화소(reference pixels)를 합성 뷰로 워핑하는 것이 간단하다. 가장 중요한 문제는 워핑된 기준 뷰 화소로부터 타겟 뷰의 화소값을 어떻게 추정해 내는가이다. 도 1a 및 1b는 이 기본적인 문제를 예시한 것이다. 도 1a는 미조정(non-rectified) 뷰 합성(100)을 보여준다. 도 1b는 조정 뷰 합성(150)을 보여준다. 도 1a와 1b에서 문자 "X"는 추정될 타겟 뷰의 화소를 나타내고, 원과 정사각형은 여러 가지 기준 뷰로부터 워핑된 화소들을 나타내는데, 이 경우에 차 형상(difference shape)은 차 기준 뷰를 나타낸다.
간단한 방법은 워핑된 샘플을 목적 뷰 내의 가장 가까운 화소 위치로 돌리는(round) 것이다. 복수의 화소가 합성 뷰 내의 동일 위치에 맵핑되는 경우에는 Z-버퍼링이 전형적인 해법이다. 즉, 카메라에 가장 가까이 있는 화소가 선택된다. 이 방식(가장 가까운 화소 위치로 돌리는 것)에 따르게 되면, 특히 객체(object) 경계를 따라서 약간 부족하게 샘플링된(under-sampled) 표면에 핀홀(pinhole)이 자주 생길 수가 있다. 이 핀홀 문제를 해결하는 가장 보편적인 방법은 기준 뷰 중의 한 화소를 타겟 뷰 중의 몇개 화소에 맵핑하는 것이다. 이 프로세스를 스플래팅이라 한다.
기준 화소가 타겟 뷰 중의 복수의 주변 타겟 화소에 맵핑되면 핀홀 대부분은 없어질 수 있다. 하지만 일부 영상 세부 사항이 소실될 수 있다. 투명한 스플랫 타입 재구성 커널(kernel)을 이용하는 경우에는 핀홀 제거와 영상 세부 사항 소실 간의 절충(trade-off) 문제가 생긴다. 문제는 "스플래팅 정도를 어떻게 조절할 것인가?"이다. 예컨대 워핑된 화소마다 이 화소를 그 주변의 타겟 화소 전부에 맵핑시킬 것인가" 아니면 이 화소를 이 화소에 가장 가까운 타겟 화소에만 밉핑시킬 것인가? 하는 것이다. 이 문제는 대체로 종래 기술에서는 해결하지 못한 문제이다.
복수의 기준 뷰를 이용하는 경우에, 통상적인 방법은 각 기준 뷰로부터의 합성을 독립적으로 처리한 다음에 복수의 합성된 뷰를 병합(merge)할 것이다. 문제는 이들을 어떻게 병합할 것인가, 예컨대 어떤 종류의 가중 방식(weighting scheme)을 이용할 수 있을 것인가이다. 예컨대 각거리(angular distance), 영상 해상도 등에 따라서 기준 뷰마다 다른 가중치가 적용될 수 있다. 이러한 문제들은 잡음이 있는 깊이 정보에 강건하도록 해결되어야 함에 유의한다.
DIBR을 이용하면 포착된 뷰(여기서는 기준 뷰라고도 함)로부터 가상 뷰가 생성될 수 있다. 특히 입력 깊이 정보가 잡음을 갖고 있고 장면의 3D 표면 특성과 같은 다른 장면 정보에 대해서는 모르는 경우에는 가상 뷰를 생성하는 것은 매우 어려운 작업이다.
가장 어려운 문제들 중 하나는 기준 뷰 중의 샘플 화소가 워핑된 후에 합성 뷰 중의 각 화소의 값을 어떻게 추정할 것인가 하는 것이다. 예컨대 각 타겟 합성 화소에 대해 어떤 기준 화소를 이용할 것인가와 이들을 어떻게 조합할 것인가이다.
적어도 일 구현에서 3DV 응용분야에서 발견적 뷰 블렌딩을 이용한 뷰 합성 체계를 제안한다. 본 발명자는 가상 뷰의 생성과 관련한 (DIBR을 이용하는) 3DV 응용분야에서는 그와 같은 가상 뷰 생성은 특히 입력 깊이 정보가 잡음을 갖고 있고 장면의 3D 표면 특성과 같은 다른 장면 정보에 대해서는 모르는 경우에는 매우 어려운 작업임을 지적했었다. 예컨대 각 타겟 합성 화소에 대해 어떤 기준 화소를 이용할 것인가와 이들을 어떻게 조합할 것인가이다.
따라서, 적어도 일 구현에서, 예컨대 깊이 정보, 워핑 2D 위치 및 카메라 파라미터에 기초하여 복수의 워핑 기준 화소를 혼합하는(blend) 발견적(heuristic) 방법을 제공한다. 물론, 본 발명의 원리는 이것에만 한정되는 것은 아니며, 본 발명의 본질을 그대로 유지하면서 다른 사항(정보, 위치, 파라미터 등)을 이용하여 복수의 어핑 기준 화소를 혼합할 수 있다. 제안된 방식은 카메라 뷰의 조정 여부에 상관없이 많은 기준 뷰가 어떻게 입력으로서 이용하고 적용할 수 있는가에 대해 제약이 없다.
적어도 일 구현에서 단일 뷰 합성을 조합하여 하나의 단일 블렌딩 방식으로 병합할 수 있다.
게다가 본 발명자들은 기준 뷰로부터 가상 뷰를 합성하기 위해서는 일반적으로 3단계, 즉 (1) 포워딩 워핑; (2) 블렌딩(단일 뷰 합성과 멀티뷰 병합); 및 (3) 홀 채우기(hole-filling)가 필요하다는 것을 지적하였다.
기준 뷰로부터 가상 뷰를 합성하는 것에 관련된 전술한 3단계 중 워핑 단계에 대해서는 워핑 결과를 어떻게 처리할 것인가, 즉 병합과 블렌딩에 대해 기본적으로 2가지 옵션이 있는 것으로 생각할 수 있다.
병합에 대해서는 각 뷰를 완전히 워핑하여 각 기준에 대해 최종 워핑 뷰를 구성할 수 있다. 그러면 이 최종 워핑 뷰를 "병합"하여 단일의 실제 최종 합성 뷰를 얻을 수 있다. "병합"은 예컨대 N개의 후보(N개의 최종 워핑 뷰가 있다고 가정함)를 피킹(picking)하거나 이들을 어떤 식으로 조합하는 것일 수 있다. 물론, 타겟 화소값을 결정하는데 이용된 후보 수는 워핑 뷰 수와 같을 필요는 없다. 즉 하나의 뷰로부터 복수의 후보가 나올 수 있고 전혀 나오지 않을 수도 있다.
블렌딩에 대해서는 각 뷰를 워핑하지만 각 기준에 대해 최종 워핑 뷰를 구성하지는 않는다. 최종으로 가지 않음으로써 블렌딩함에 따라 더 많은 옵션을 보존한다. 이것은, 어떤 경우에는 여러 가지 뷰가 합성 타겟 뷰의 여러 가지 부분에 대한 최상의 정보를 제공할 수 있기 때문에 유리할 수 있다. 그러므로 블렌딩은 각 화소에서의 여러 가지 뷰로부터의 정보의 올바른 조합을 선택할 유연성을 제공한다. 그러므로 병합은 먼저 각 뷰 중의 후보를 독립적으로 처리하고 그 다음에 결과를 조합하는 2단계 블렌딩의 특수한 경우로 생각할 수 있다.
다시 도 1a를 참조로 설명하면, 도 1a는, 여러 가지 기준 뷰(원 및 정사각형)로부터 워핑된 화소를 포함하기 때문에 통상적인 블렌딩 작업에의 입력을 보여주는 것일 수 있다. 이와 달리, 통상적인 병합 적용에 있어서는, 각 기준 뷰가 통상적으로 독립적으로 워핑된 다음에 각갖의 기준에 대한 최종 워핑 뷰를 구성하도록 처리되기 때문에 원이나 정사각형을 보는 것만 예상할 수 있다. 그러면 복수의 기준에 대한 최종 워핑 뷰는 통상의 병합 적용에서 조합될 것이다.
다시 블렌딩으로 돌아가서 설명하면, 이에 관련된 한 가지 가능한 옵션/고려사항으로서, 아직까지는 홀 전부를 채우기를 원치 않기 때문에 스플래팅을 수행하지 않았을 수도 있다. 당업자라면 본 발명의 본질을 그대로 유지하면서 이들 및 다른 옵션을 쉽게 결정한다.
따라서 본 발명의 하나 이상의 실시예는 병합에 관한 것이고, 본 발명의 다른 실시예는 블렌딩에 관한 것일 수 있다. 물론, 추가 실시예는 병합과 블렌딩의 조합일 수 있다. 본 출원에서 설명된 특징과 개념은, 블렌딩과 병합 중 하나만에 대해서 설명하더라도, 일반적으로 블렌딩과 병합 양쪽에 적용될 수 있다. 당업자라면 여기서 설명된 본 발명의 교시에 따라서 본 발명의 본질을 그대로 유지하면서 병합 및/또는 블렌딩에 관련한 각종 응용을 쉽게 생각해낼 수 있을 것이다.
본 발명은 일반적으로 통신 시스템, 특히 무선 시스템, 예컨대 지상파 방송, 셀룰러, Wi-Fi(Wireless-Fidelity), 위성 등에 관련된다. 더욱이 본 발명은 예컨대 인코더, 디코더, 전처리기, 후처리기, (이들 중 한 가지 이상을 포함할 수 있는) 수신기에서 구현될 수 있다. 예컨대 가상 영상을 생성하여 인코딩에 이용하는 것이 바람직한 응용 분야에서는 본 발명은 인코더에서 구현될 수 있다. 인코더에 대한 다른 예로서, 그와 같은 인코더는 가상 뷰를 합성하여 그 가상 뷰 위치로부터 실제 화상을 인코딩하거나 그 가상 뷰 위치에 가까운 뷰 위치로부터 화상을 인코딩하는 용도로 이용될 수 있다. 2개의 기준 화상과 관련된 구현에서 이 2개의 기준 화상은 실제 뷰에 대응하는 가상 화상과 함께 인코딩될 수 있다. 물론, 당업자라면 여기서 설명된 본 발명의 교시에 따라서 본 발명의 원리를 그대로 유지하면서 본 발명의 원리가 적용될 수 있는 이들 및 다른 여러 가지 응용은 물론 앞서 설명한 응용에 대한 변형을 생각해낼 수 있을 것이다.
그 외에도 여기서는 하나 이상의 실시예는 H.264/MPEG-4 AVC(AVC) 표준과 관하여 설명되지만 본 발명의 원리는 이에만 한정되는 것이 아니라, 여기서 설명된 본 발명의 교시에 따라서, 본 발명의 본질을 그대로 유지하면서 멀티뷰 비디오 코딩(MVC), 현재 및 장래의 3DV 표준은 물론, 다른 비디오 코딩 표준, 사양 및/또는 권고안에도 쉽게 적용될 수 있다.
"스플래팅"은 기준 뷰 중의 한 워핑 화소를 타겟 뷰 중의 몇 개 화소에 맵핑시키는 프로세스를 말함에 유의한다.
"깊이 정보"는 깊이에 대한 각종 정보를 말하는 일반적인 용어이다. 깊이 정보의 한 가지 유형은 일반적으로 화소당 깊이 영상이라고 하는 "깊이 맵"이다. 깊이 정보의 다른 유형으로는 예컨대 각 코딩된 화소가 아닌 각 코딩된 블록에 대한 단일 깊이값이 있다.
도 2는 본 발명의 실시예에 따라서 본 발명의 원리가 적용될 수 있는 예시적인 뷰 합성기(200)를 보여준다. 뷰 합성기(200)는 포워드 워퍼(forward warper, 210-1 내지 210-K), 뷰 블렌더(view blender, 220) 및 홀 필러(hole filler, 230)를 포함한다. 포워드 워퍼(210-1 내지 210-K)의 각 출력부는 뷰 블렌더(220)의 제1 입력부와 신호 통신하도록 연결된다. 뷰 블렌더(220)의 출력부는 홀 필러(230)와 신호 통신하도록 연결된다. 포워드 워퍼(210-1 내지 210-K)의 제1 입력부 각각은 각자의 기준 뷰(1 내지 K)를 수신하기 위한 뷰 합성기(200)의 입력부로서 이용될 수 있다. 포워드 워퍼(210-1 내지 210-K)의 제2 입력부 각각은 뷰 1, 타겟 뷰 깊이, 및 이에 대응하는 카메라 파라미터부터 뷰 K, 타겟 뷰 깊이, 및 이에 대응하는 카메라 파라미터까지를 각각 수신하기 위한 뷰 합성기(200)의 입력부로서 이용될 수 있다. 뷰 블렌더(220)의 제2 입력부는 모든 뷰의 깊이 맵과 카메라 파라미터를 수신하기 위한 뷰 합성기의 입력부로서 이용될 수 있다. 홀 필러(230)의 제2 (선택적) 입력부는 모든 뷰의 깊이 맵과 카메라 파라미터를 수신하기 위한 뷰 합성기(200)의 입력부로서 이용될 수 있다. 홀 필러(230)의 출력부는 타겟 뷰를 출력하기 위한 뷰 합성기(200)의 출력부로서 이용될 수 있다.
뷰 블렌더(220)는 여러 가지 기능과 동작들 중 한 가지 이상을 수행할 수 있다. 예컨대, 일 구현에서, 뷰 블렌더(220)는 적어도 하나의 워핑 기준 중의 제1 후보 화소와 제2 후보 화소를 식별한다. 여기서 제1 후보 화소와 제2 후보 화소는 가상 뷰 위치 중 가상 화상 내의 타겟 화소 위치에 대한 후보이다. 더욱이 이 구현에서 뷰 블렌더(220)는 제1 및 제2 후보 화소의 값에 기초하여 타겟 화소 위치에서 있는 화소에 대한 값도 결정한다.
예컨대 포워드 워퍼(210)와 뷰 블렌더(220)와 같은 도 2의 구성 요소는 여러 가지 방식으로 구현될 수 있다. 예컨대 포워드 워핑 또는 뷰 블렌딩의 기능을 수행하는 소프트웨어 알고리즘은 범용 컴퓨터, 또는 예컨대 비디오 인코더와 같은 전용 기계, 또는 (ASIC(application-specific integrated circuit)과 같은) 특수 집적 회로에서 구현될 수 있다. 구현은 소프트웨어, 하드웨어 및 펌웨어의 조합일 수도 있다. 포워드 워핑과 뷰 블렌딩의 일반적 기능은 당업자에게 잘 알려져 있다. 그와 같은 일반적 기능은 본 출원에서 설명된 바와 같이 변형되어, 예컨대 본 출원에서 설명된 포워드 워핑과 뷰 블렌딩 작업을 수행할 수 있다.
도 3은 본 발명의 구현에 따라서, 본 발명의 원리가 적용될 수 있는 예시적인 비디오 송신 시스템(300)을 보여준다. 비디오 송신 시스템(300)은 예컨대 위성, 케이블, 전화선, 또는 지상파 방송과 같은 다양한 매체를 이용하여 신호를 송신하기 위한, 예컨대 헤드엔드(head-end) 또는 송신 시스템일 수 있다. 송신은 인터넷 또는 기타 다른 네트워크를 통해 제공될 수 있다.
비디오 송신 시스템(300)은 깊이를 가진 인터뷰 스킵 모드를 이용하여 인코딩된 비디오 콘텐츠를 생성하고 배송할 수 있다. 이것은 깊이 정보 또는 예컨대 디코더를 가질 수 있는 수신기 엔드에서 깊이 정보를 합성하는데 이용될 수 있는 정보를 포함하는 인코딩된 신호를 생성함으로써 달성된다.
비디오 송신 시스템(300)은 인코더(310)와, 인코딩된 신호를 송신할 수 있는 송신기(320)를 포함한다. 인코더(310)는 비디오 정보를 수신하고, 깊이를 가진 인터뷰 스킵 모드를 이용하여 이 비디오 정보로부터 인코딩된 신호를 생성한다. 인코더(310)는 예컨대 AVC 인코더일 수 있다. 인코더(310)는 예컨대 각종 정보를 수신하여 이를 저장 또는 송신을 위한 구조화된 포맷으로 조립하기 위한 조립 유닛을 포함한 서브 모듈들을 포함할 수 있다. 이 각종 정보는 예컨대 코딩된 또는 코딩되지 않은 비디오, 코딩된 또는 코딩되지 않은 깊이 정보, 그리고 예컨대 동작 벡터, 코딩 모드 표시자 및 구문 요소와 같은 코딩된 또는 코딩되지 않은 요소를 포함할 수 있다.
송신기(320)는 예컨대 인코딩된 화상 및/또는 이에 관련된 정보를 나타내는 하나 이상의 비트스트림을 가진 프로그램 신호를 송신하도록 구성될 수 있다. 통상적인 송신기는 예컨대 에러 정정 코딩, 신호 내의 데이터 인터리빙, 신호 내의 에너지 랜덤화(randomizing) 및 신호의 하나 이상의 반송파로의 변조 중 한 가지 이상과 같은 기능을 수행한다. 송신기는 안테나(미도시)를 포함하거나 이와 인터페이스할 수 있다. 따라서 송신기(320)의 구현은 변조기를 포함하거나 이에 한정될 수 있다.
도 4는 본 발명의 실시예에 따라서 본 발명의 원리가 적용될 수 있는 예시적인 비디오 수신 시스템(400)을 보여준다. 비디오 수신 시스템(400)은 예컨대 위성, 케이블, 전화선, 또는 지상파 방송과 같은 다양한 매체를 통해 신호를 수신하도록 구성될 수 있다. 신호는 인터넷 또는 기타 다른 네트워크를 통해 수신될 수 있다.
비디오 수신 시스템(400)은, 인코딩된 비디오를 수신하고, 예컨대 사용자에게 표시하거나 저장하기 위한 디코딩된 비디오를 제공하는 셀 폰, 컴퓨터, 셋톱 박스, 텔레비전 또는 기타 다른 장치일 수 있다. 따라서 비디오 수신 시스템(400)은 그 출력을 예컨대 텔레비전 스크린, 컴퓨터 모니터, (저장, 처리 또는 표시를 위한) 컴퓨터, 또는 기타 다른 저장, 처리 또는 표시 장치에 제공할 수 있다.
비디오 수신 시스템(400)은 비디오 정보를 포함하는 비디오 콘텐츠를 수신하여 처리할 수 있다. 비디오 수신 시스템(400)은, 예컨대 본 출원의 구현에서 설명된 신호와 같은 인코딩된 신호를 수신할 수 있는 수신기(410)와 수신된 신호를 디코딩할 수 있는 디코더(420)를 포함한다.
수신기(410)는 예컨대 인코딩된 화상을 나타내는 복수의 비트스트림을 가진 프로그램 신호를 수신하도록 구성될 수 있다. 통상적인 수신기는 예컨대 변조 및 인코딩된 데이터 신호의 수신, 하나 이상의 반송파로부터의 데이터 신호의 복조, 신호의 에너지의 디랜덤화(de-randomizing), 신호의 데이터의 디인터리빙 및 신호의 에러 정정 디코딩 중 하나 이상과 같은 기능을 수행한다. 수신기(410)는 안테나(미도시)를 포함하거나 이와 인터페이스할 수 있다. 수신기(410)의 구현은 복조기를 포함하거나 이에 한정될 수 있다.
디코더(420)는 비디오 정보와 깊이 정보를 포함하는 비디오 신호를 출력한다. 디코더(420)는 예컨대 AVC 디코더일 수 있다.
도 5는 본 발명의 실시예에 따라서 본 발명의 원리가 적용될 수 있는 예시적인 비디오 처리 장치(500)를 보여준다. 비디오 처리 장치(500)는 예컨대 인코딩된 비디오를 수신하고, 예컨대 사용자에게 표시하거나 저장하기 위한 디코딩된 비디오를 제공하는 셋톱 박스 또는 기타 다른 장치일 수 있다. 따라서 비디오 처리 장치(500)는 그 출력을 텔레비전, 컴퓨터 모니터, 컴퓨터, 또는 기타 다른 처리 장치에 제공할 수 있다.
비디오 처리 장치(500)는 프론트 엔드(FE) 장치(505)와 디코더(510)를 포함한다. 프론트 엔드 장치(505)는 예컨대 인코딩된 화상을 나타내는 복수의 비트스트림을 가진 프로그램 신호를 수신하고 이 복수의 비트스트림 중에서 디코딩될 하나 이상의 비트스트림을 선택하도록 구성된 수신기일 수 있다. 통상적인 수신기는 예컨대 변조 및 인코딩된 데이터 신호의 수신, 데이터 신호의 복조, 데이터 신호의 하나 이상의 인코딩(예컨대 채널 코딩 및/또는 소스 코딩)의 디코딩, 및/또는 데이터 신호의 에러 정정 중 하나 이상과 같은 기능을 수행한다. 프론트 엔드 장치(505)는 예컨대 안테나(미도시)로부터 프로그램 신호를 수신할 수 있다. 프론트 엔드 장치(505)는 수신된 데이터 신호를 디코더(510)에 제공한다.
디코더(510)는 데이터 신호(520)를 수신한다. 데이터 신호(520)는 예컨대 하나 이상의 AVC(Advanced Video Coding), SVC(Scalable Video Codong), 또는 MVC(Multi-view Video Coding) 호환성 스트림을 포함할 수 있다.
AVC는 더 구체적으로 기존의 ISO/IEC(International Organization for Standardization/International Electrotechnical Commission) MPEG-4(Moving Picture Experts Group-4) 파트 10 AVC(Advanced Video Coding) 표준/ITU-T(International Telecommunication Union, Telecommunication Sector) H.264 권고안(이하, "AVC 표준" 또는 간단히 "AVC"와 같이 "H.264/MPEG-4 VAC 표준" 또는 그 변형)을 말한다.
MVC는 더 구체적으로 AVC 표준의 MVC(multi-view video coding) 확장(Annex H)를 말하며, H.264/MPEG-4 AVC, MVC 확장("MVC 확장" 또는 간단히 "MVC")이라고 한다.
SVC는 더 구체적으로 AVC 표준의 SVC(scalable video coding) 확장(Annex G)를 말하며, H.264/MPEG-4 AVC, SVC 확장("SVC 확장" 또는 간단히 "SVC")이라고 한다.
디코더(510)는 수신된 신호(520)의 전부 또는 일부를 디코딩하고, 디코딩된 비디오 신호(530)를 출력한다. 디코딩된 비디오(530)는 선택기(550)에 제공된다. 장치(500)는 사용자 입력(570)을 수신하는 사용자 인터페이스(560)도 포함한다. 사용자 인터페이스(560)는 사용자 입력(570)에 기초하여 화상 선택 신호(580)를 선택기(550)에 제공한다. 화상 선택 신호(580)와 사용자 입력(570)은 사용자가 원하는 가용 디코딩된 데이터의 복수의 화상, 시퀀스, 스케일러블 버전, 뷰 또는 기타 다른 선택들 중 어느 것이 표시되었는지를 나타낸다. 선택기(550)는 선택된 화상을 출력(590)으로서 제공한다. 선택기(550)는 이 화상 선택 정보(580)를 이용하여 디코디된 비디오(530) 중에 출력(590)으로서 제공할 화상을 선택한다.
여러 가지 구현에서 선택기(550)는 사용자 인터페이스(560)를 포함하고, 다른 구현에서는 선택기(550)가 별도의 인터페이스 기능을 수행하지 않고 직접적으로 사용자 입력(570)을 수신하기 때문에 사용자 인터페이스(560)가 제공되지 않는다. 선택기(550)는 예컨대 소프트웨어 또는 집적 회로로 구현될 수 있다. 일 구현에서 선택기(550)는 디코더와 일체화되며, 다른 구현에서 디코더(510), 선택기(550) 및 사용자 인터페이스(560)는 함께 일체된다.
일 응용에 있어서 프론트 엔드(505)는 여러 가지 텔레비전 쇼 방송을 수신하고 그 중 하나를 선택하여 처리한다. 쇼를 선택하는 것은 보기를 원하는 채널의 사용자 입력에 따른다. 프론트 엔드 장치(505)에의 사용자 입력은 도 5에 도시되어 있지는 않지만, 프론트 엔드 장치(505)는 사용자 입력(570)을 수신한다. 프론트 엔드(505)는 그 방송을 수신하고, 방송 스펙트럼 중 관련 부분을 복조하고 그 복조된 쇼의 아웃터 인코딩(outer enconding)을 디코딩함으로써 원하는 쇼를 처리한다. 프론트 엔드(505)는 그 디코딩된 쇼를 디코더(510)에 제공한다. 디코더(510)는 장치(560, 550)를 포함하는 집적 유닛이다. 따라서 디코더(510)는 그 쇼에서 보는 원하는 뷰의 사용자 제공 표시인 사용자 입력을 수신한다. 디코더(510)는 그 선택된 뷰는 물론, 다른 뷰 중의 필요한 기준 화상을 디코딩하고, 이 디코딩된 뷰(590)를 제공하여 텔레비전(미도시)에 표시한다.
상기 응용에 계속하여, 사용자는 표시된 뷰를 전환하기를 원하고 새로운 입력을 디코더(510)에 제공할 수 있다. 디코더(510)는 사용자로부터 "뷰 변경"을 수신하면 구 뷰(old view)와 신 뷰(new view) 모두는 물론, 이 구 뷰와 신 뷰 사이에 있는 뷰들도 디코딩한다. 즉, 디코더(510)는 구 뷰를 촬영하는 카메라와 신 뷰를 촬영하는 카메라 사이에 물리적으로 위치한 카메라에 촬영한 뷰를 디코딩한다. 프론트 엔드 장치(505)는 구 뷰, 신 뷰 및 그 사이의 뷰들을 식별하는 정보도 수신한다. 그와 같은 정보는 예컨대 뷰의 위치에 대한 정보를 가진 제어기(도 5에는 미도시)에 의해, 또는 디코더(510)에 의해 제공될 수 있다. 다른 구현은 프론트 엔드 장치와 통합된 제어기를 가진 프론트 엔드 장치를 이용할 수 있다.
디코더(510)는 이들 디코딩된 뷰 전부를 출력(590)으로 제공한다. 후처리기(도 5에는 미도시)는 구 뷰에서 신 뷰로의 부드러운 이행을 위해 뷰들 간을 보간하고, 이러한 이행을 사용자에게 표시한다. 신 뷰로 이행한 후에 후처리기는 신 뷰만이 필요하다는 것을 디코더(510)와 프론트 엔드 장치(505)에 (하나 이상의 통신 링크(미도시)를 통해) 통지한다. 그 후, 디코더(510)는 그 신 뷰를 출력(590)으로 제공한다.
시스템(500)은 영상 계열의 멀티뷰를 수신하고, 표시를 위한 단일 뷰를 제시하고, 여러 가지 뷰들 간에 부드럽게 전환하는데 사용될 수 있다. 이렇게 부드럽게 하는 것은 다른 뷰로 이동하는 뷰들 간을 보간하는 것일 수 있다. 그 외에도, 시스템(500)은 사용자가 오브젝트 또는 장면을 회전시키거나 오프젝트 또는 장면의 3차원적 표현을 볼 수 있게 할 수 있다. 오브젝트의 회전은 예컨대 뷰들 간 이동과, 뷰들 간의 부드러운 이행을 얻기 위해 또는 단순히 3차원 표현을 얻기 위해 뷰들간의 보간에 대응할 수 있다. 즉, 사용자는 보간된 뷰를 표시될 "뷰"로서 "선택"할 수 있다.
도 2의 구성 요소들은 도 3 내지 5에서의 여러 위치에 포함될 수 있다. 예컨대 도 2의 구성 요소들 중 하나 이상은 인코더(310)와 디코더(420)에 위치할 수 있다. 또 다른 예로서, 비디오 처리 장치(500)의 구현은 수신된 뷰들 간을 보간하는 도 5의 설명에서 언급된 디코더(510) 또는 후처리기에 도 2의 구성 요소들 중 하나 이상을 포함할 수 있다.
본 발명의 원리와 이것이 적용될 수 있는 환경에 대한 설명으로 되돌아가서, 본 발명은 원리는 유리하게는 3D 비디오(3DV)에 적용될 수 있음을 알아야 한다. 3D 비디오는 멀티뷰 비디오 및 깊이 정보에 대한 코딩 표기를 포함하며 수신기에서의 고화질 3D 렌더링 생성을 목표로 하는 새로운 프레임워크이다. 이것은 자동 다시점(multiscopic) 디스플레이를 이용한 3D 시각적 경험을 가능하게 한다.
도 6은 본 발명의 실시예에 따라서 본 발명의 원리가 적용될 수 있는, 깊이 정보를 가진 멀티뷰 비디오를 송수신하기 위한 예시적인 시스템(600)을 보여준다. 도 6에서 비디오 데이터는 실선으로, 깊이 데이터는 파선으로, 메타데이터는 점선으로 나타낸다. 시스템(600)은 예컨대 자유시점(free-viewpoint) 텔레비전 시스템일 수 있으나 이에 한정되는 것은 아니다. 송신기측(610)에서 시스템(600)은 복수의 소스로부터 비디오, 깊이 및 메타데이터 중 한 가지 이상을 수신하기 위한 복수의 입력부를 가진 3차원(3D) 콘텐츠 생성기(620)를 포함한다. 그와 같은 소스는 비디오 카메라(611), 깊이 카메라(612), 멀티카메라 장치(613) 및 2차원/3차원(2D/3D) 변환 프로세스(614)를 포함하나 이에 한정되는 것은 아니다. 비디오, 깊이, 그리고 멀티뷰 비디오 코딩(MVC)와 디지털 비디오 방송(DVB)에 관한 메타데이터 중 한 가지 이상을 전송하는데는 하나 이상의 네트워크(630)가 이용될 수 있다.
수신기측(640)에서 깊이 영상 기반 렌더러(renderer)(650)는 신호를 각종 디스플레이에 투사하기 위한 깊이 영상 기반 렌더링을 수행한다. 본 출원의 경우는 좁은 각 획득(<20도)과 같은 특정 제약을 부과할 수 있다. 깊이 영상 기반 렌더러(650)는 디스플레이 구성 정보와 사용자 선호도를 수신할 수 있다. 깊이 영상 기반 렌더러(650)의 출력은 2D 디스플레이(661), M-뷰 3D 디스플레이(662) 및/또는 헤드 트랙(head-tracked) 스테레오 디스플레이(663) 중 한 가지 이상에 제공될 수 있다.
도 7은 본 발명의 실시예에 따른 뷰 합성 방법(700)을 보여준다. 단계(705)에서, 제1 워핑 기준을 생성하기 위해 제1 기준 화상 또는 그 일부가 제1 기준 뷰 위치로부터 가상 뷰 위치로 워핑된다.
단계(710)에서, 제1 워핑 기준 중의 제1 후보 화소가 식별된다. 제1 후보 화소는 가상 뷰 위치로부터의 가상 화상 내의 타겟 화소 위치에 대한 후보이다. 단계(710)는 예컨대 제1 후보 화소와 타겟 화소 위치 간의 거리에 기초하여 제1 후보 화소를 식별하는 단계를 포함할 수 있다. 이 거리는 선택적으로 임계치를 포함할 수 있다(예컨대 이 거리는 임계치보다 낮을 수 있다). 더욱이, 단계(710)는 예컨대 제1 후보 화소와 연관된 깊이에 기초하여 제1 후보 화소를 식별하는 단계를 포함할 수 있다. 또한, 단계(710)는 예컨대 제1 워핑 기준 내의 복수의 화소 중에서 (제1 후보 화소로서) 선택된 화소의 거리(이 거리는 타겟 화소 위치로부터의 임계 거리이며 카메라에 가장 가까운 거리임)에 기초하여 제1 후보 화소를 식별하는 단계를 포함할 수 있다.
단계(715)에서, 제2 워핑 기준을 생성하기 위해 제2 기준 화상 또는 그 일부가 제2 기준 뷰 위치로부터 가상 뷰 위치로 워핑된다. 단계(720)에서, 제2 워핑 기준 내의 제2 후보 화소가 식별된다. 제2 후보 화소는 가상 뷰 위치로부터의 가상 화상 내의 타겟 화소 위치에 대한 후보이다.
단계(725)에서, 제1 및 제2 후보 화소의 값에 기초하여 타겟 화소 위치에서의 화소값이 결정된다. 단계(725)는 예컨대 제1 및 제2 화소값을 예컨대 선형적으로 보간하는 단계를 포함한다. 더욱이, 단계(725)는 예컨대 각 후보 화소에 대해 가중 계수(weight factors)를 이용하는 단계를 포함할 수 있다. 이 가중 계수는 예컨대 카메라 파라미터(예컨대 제1 기준 뷰 위치와 가상 뷰 위치 간의 제1 거리와 제2 기준 뷰 위치와 가상 뷰 위치 간의 제2 거리를 포함할 수 있음)에 기초하여 결정될 수 있다. 또한 이 가중 계수는 예컨대 3D 포인트 Ori-Pi-Os(하기의 실시예 2와 관련하여 자세히 설명됨)로 결정된 각도에 기초하여 결정될 수 있다. 게다가, 단계(725)는 제1 후보 화소의 임계 깊이 내에 있는 선택된 깊이에 기초하여 제1 워핑 기준 내의 복수의 화소 중에서 선택된 추가 후보 화소의 값(타겟 화소 위치로부터의 임계 거리임)에 기초할 수도 있다.
단계(730)에서, 제1 기준 화상, 제2 기준 화상 및 가상 화상 중 하나 이상이 인코딩된다.
도 7의 실시예는 제1 기준 화상과 제2 기준 화상을 포함하지만, 당업자라면 여기서 설명된 본 발명의 교시에 따라서 본 발명의 본질을 그대로 유지하면서 본 발명의 원리가 단일 기준 화상 또는 2이상의 기준 화상을 포함하는 실시예에도 적용될 수 있다는 것을 쉽게 이해할 수 있을 것이다. 가능한 변형의 또 다른 예로서, 단일 기준 화상의 경우에, 단일 기준 뷰 위치를 이용하여 제1 및 제2 후보 화소를 생성할 수 있다. 이 때에 그 단일 기준 뷰 위치를 이용함에도 불구하고 제1 및 제2 후보 화소에 대한 여러 가지 값을 얻기 위해 워핑 프로세스에 약간의 변경을 가할 수 있다. 단일 기준 화상의 경우를 포함하는 다른 구현에서, 2 이상의 (서로 다른) 기준 뷰 위치가 이용될 수 있다. 당업자라면 여기서 설명된 본 발명의 교시에 따라서 본 발명의 원리를 그대로 유지하면서 본 발명의 이들 및 다른 변형을 생각해낼 수 있을 것이다.
전술한 바와 같이, 적어도 일 구현에서, 예컨대 깊이 정보, 워핑 2D 영상 위치 및 카메라 파라미터에 기초하여 복수의 워핑 기준 화소/뷰를 혼합하는 발견적 방법을 제공한다.
3DV 응용에서, 줄어든 뷰 플러스 깊이 맵 수는 전송 대역폭 제한 또는 저장 제약으로 인해 전송 또는 저장된다. 실제 뷰들 간에 가상 뷰를 렌더링하고자 하는 경우에는 깊이 맵 기반 렌더링(DIBR) 기법을 이용하여 중간 뷰를 생성할 수 있다.
기준 뷰로부터 가상 뷰를 합성하는데는 통상적으로 3단계, 즉 (1) 포워드 워핑, (2) 블렌딩(합성), 및 (3) 홀 채우기가 수행된다. 적어도 일 구현에서, 잡음이 있는 깊이 정보가 유발하는 문제를 해결하는 발견적 블렌딩 방식이 제공된다. 시뮬레이션 결과는 3DV에서 기존의 방식에 비해 우수한 품질을 보여주었다.
1. 배경 정보 - 포워드 워핑
뷰 합성을 수행하는데 있어 제1 단계는 기준 뷰 중의 각 화소에 대해 타겟 뷰 중의 그 대응 위치를 찾아내는 것을 포함하는 포워드 워핑이다. 이 3D 영상 워핑은 컴퓨터 그래픽 분야에 잘 알려져 있는 것이다. 입력 뷰의 조정 여부에 따라서 차분 방정식(difference equation)이 이용될 수 있다.
(a) 미조정 뷰
3D 포인트를 그 동차(homogeneous) 좌표 P=[x, y, z, l]T이고, 기준 영상면(즉, 2D 영상 위치) 내의 그 투시 투영이 pr=[ur, vr, l]T라고 하면, 다음과 같이 된다.
Figure pct00001
여기서, wr은 깊이 계수이고, PPMr은 카메라 파라미터로부터 아는 3x4 투시 투영 행렬이다. 이에 대응하여, 합성(타겟) 뷰에 대한 수학식은 다음과 같다.
Figure pct00002
PPMr의 12개 요소는 qij(i=1, 2, 3, j=1, 2, 3, 4)로 나타낸다. 영상 포인트 pr과 그 깊이 z로부터 3D 포인트 P의 다른 2개 성분은 다음과 같이 선형 방정식에 따라 추정될 수 있다.
Figure pct00003
여기서,
Figure pct00004
기준 뷰 중의 각 화소의 입력 깊이 레벨은 3DV에서 8 비트(즉, 256 레벨, 수치가 클수록 카메라에 더 가깝다는 것을 의미함)로 양자화됨에 유의한다. 워핑 중에 이용된 깊이 계수 z는 다음 공식에 따라서 그 입력 깊이 레벨 Y에 직적적으로 연관된다.
Figure pct00005
여기서, Znear와 Zfar는 장면에서 각각 가장 가까운 화소의 깊이 계수와 가장 먼 화소의 깊이 계수이다. 8 비트 이상 또는 이하의 비트를 이용하여 깊이 정보를 양자화하면, 수학식 (4)에서 값 255는 2B-1로 대체되어야 한다. 여기서 B는 비트 깊이이다.
P의 3D 위치를 알고 있고 이 위치를 수학식 (2)에 의한 합성 영상면에 재투사하면, 타겟 뷰 ps에서의 그 위치(즉 워핑 화소 위치)를 얻는다.
(b) 조정 뷰
조정 뷰에 대해서는 (통상적으로 수평선을 따른) 1-D 디스패리티는 화소가 뷰들 간에 어떻게 옮겨지는가를 기술한다. 카메라 파라미터들이 다음과 같다고 가정한다.
(i) f, 카메라 렌즈의 초점 거리;
(ii) l, 기준선 간격(카메라 거리라고도 함);
(iii) du, 주점 오프셋(principal point offset) 차
입력 뷰가 잘 조정된다고 하면 다음의 공식을 이용하여 기준 뷰 중의 화소 pr=[ur, vr, l]T로부터 타겟 뷰 중의 워핑 위치 ps=[ur, vr, l]T를 계산해 낼 수 있다.
Figure pct00006

2. 제안된 방법: 뷰 블렌딩
뷰 워핑의 결과는 도 1a와 1b에 예시되어 있다. 이 단계에서는 타겟 뷰(타겟 화소)의 화소값을 그 주변 워핑 기준 화소(후보 화소)로부터 어떻게 추정하는가 하는 문제를 해결한다. 적어도 일 구현에서, 전술한 바와 같이, 깊이 정보, 워핑 화소 위치 및 카메라 파라미터에 기초하여 몇 개의 워핑 기준 화소를 혼합하는 발견적 방법을 제공한다.
실시예 1: 조정 뷰
간략하게 하기 위해, 일례로서 조정된 뷰 합성을 이용하여 동일 수평선(도 1b) 상의 후보 화소로부터 타겟 화소를 추정한다.
각 타겟 화소에 대해서, 이 타겟 화소로부터 ±α 화소 거리 내에 있는 워핑 화소가 후보 화소로 선택된다. 최대 깊이 레벨을 가진(즉 카메라에 가장 가까운) 것을 찾는다. 여기서 파라미터 α는 매우 중요하다. 이것이 너무 작으면 핀홀이 나타날 것이고, 너무 크면 영상 디테일(details)이 소실될 것이다. 이 파라미터는, 장면 또는 입력 깊이 정밀도에 대해 이미 알고 있다면, 예컨대 깊이 잡음의 분산도(variance)를 이용하여 조정될 수 있다. 알고 있지 않으면 값 I를 구하는데 대부분의 시간을 보낼 것이다.
통상의 Z-버퍼링 알고리즘에서는 최대 깊이 레벨을 가진(즉, 카메라에 가장 가까운) 후보가 타겟 위치에 있는 화소값을 결정할 것이다. 여기서 다른 후보 화소도 그 깊이 레벨이 최대 깊이에 아주 가까운 한(즉, Y≥maxY-thresY이면) 유지된다. 여기서 thresY는 임계 파라미터이다. 실험에서는 thresY는 10으로 설정된다. 이것은 maxY의 크기 또는 입력 깊이의 정밀도에 대한 사전 지식에 따라서 변할 수 있다. 지금까지 찾은 후보 화소의 수를 m이라 하자.
영상 디테일을 더 유지하기 위해서, 타겟 화소로부터 ±α/2 화소 거리 내에 "충분한" 수의 후보가 있다면, 이들 후보만을 이용하여 타겟 화소색을 추정할 것이다. 그와 같은 후보 화소의 수는 n이라 하자. n이 충분한지를 결정하는데는 다음과 같이 차 기준(difference criteria)을 이용할 수 있다.
(i) n≥N인 경우, 즉 n이 미리 정해진 임계치 N보다 큰 경우(thresY가 10으로 설정되고 기준 뷰가 2개라면 N은 4로 설정됨). 이것은 도 8에서 나타낸 것과 같은 기준이다.
(ii) m-n<M인 경우, 즉 m이 n보다 그다지 크지 않은 경우. M은 미리 설정된 임계치임.
물론, 본 발명은 이러한 차 기준에만 한정되는 것은 아니며, 본 발명의 본질을 그대로 유지하면서 다른 차 기준도 이용될 수 있다.
np개의 후보 화소가 선택된 후에 다음 작업은 타겟 화소 Cs를 보간하는 것이다. 후보 화소 i의 값을 기준 뷰 ri로부터 워핑된 Ci라고 하고, 타겟 화소까지의 대응 거리를 di라고 하자. 하기의 선형 보간이 매우 잘 작동한다.
Figure pct00007
여기서, W(ri,i)는 여러 가지 뷰에 할당된 가중 계수이다. 이것은 단순히 1로 설정될 수 있다. 조정 뷰에 대해서 이 가중 계수는 기준선 간격 lr(뷰 ri와 타겟 뷰 간의 카메라 거리)에 기초하여 설정한다. 예컨대 W(ri,i)=1/lr이다.
도 8은 본 발명의 실시예에 따라서, 조정 뷰에 대한 제안된 발견적 뷰 블렌딩 프로세스(800)를 보여준다. 단계(805)에서, 타겟 화소로부터 ±α 화소 거리 내에 있는 후보 화소만이 선택되고, 최대 깊이 레벨 maxY를 가진(즉 카메라에 가장 가까운) 것이 선택된다. 단계(810)에서, 깊이 레벨 y<maxY-thresY인 후보 화소가 제거된다(즉, 배경 화소를 제거한다). 단계(815)에서, 총 후보 화소 수 m과 타겟 화소로부터 ±α/2 거리 내의 후보 화소의 수 n을 카운트한다. 단계(820)에서, n≥N인지 판단된다. Yes이면 제어는 단계(825)로 넘어가고, No이면 제어는 단계(830)로 넘어간다. 단계(825)에서, 타겟 화소로부터 ±α/2 거리 내에 있는 후보 화소만이 유지된다. 단계(830)에서, 선형 보간 수학식 (6)을 통해 타겟 화소 Cs의 색이 추정된다.
실시예 2: 미조정 뷰
도 8의 블렌딩 방식은 미조정 뷰의 경우로 쉽게 확장된다. 다만 후보 화소가 타겟 화소의 동일선상에 있지 않다는 것만 다르다(도 1a). 그러나 깊이와 타겟 화소까지의 거리에 기초하여 후보 화소를 선택하는 원리는 동일하게 적용될 수 있다.
동일한 보간 방식, 즉 수학식 (6)도 이용될 수 있다. 더 정밀한 가중을 위해서, W(ri,i)는 화소 레벨에서 추가로 결정될 수 있다. 예컨대 3D 포인트 Ori-Pi-Os(여기서, Pi는 (수학식 (3)으로 추정된) 화소 I에 대응하는 포인트의 3D 위치임)로 결정된 각도를 이용하면, Ori과 Os는 각각 (카메라로부터 알게 되는) 기준 뷰 ri와 합성 뷰의 광초점 중심이다. q>2에 대해 W(ri,i)=1/angle(Ori-Pi-Os) 또는 W(ri,i)=cosq(angle(Ori-Pi-Os))로 설정한다. 도 9는 본 발명의 실시예에 따라서, 3D 포인트 Ori-Pi-Os로 결정된 각도(900)를 보여준다. 도 7의 방법(700)의 단계(725)는 일 구현에 따라서 각도(900)에 기초한 가중 계수의 결정을 보여준다.
실시예 3: 업샘플링 근사화
앞서의 2개의 실시예에서의 방식은 어떤 응용에 있어서는 너무 복잡해 보일 수가 있었다. 신속한 구현을 위해 이들 방식을 근사화하는 방법이 있다. 도 10a는 본 발명의 실시예에 따라서, 조정 뷰의 경우에 대한 간략화된 업샘플링 구현(1000)을 보여준다. 도 10a에서, "+"는 반화소(half-pixel) 위치에 삽입된 새로운 타겟 화소를 나타낸다. 도 10b는 본 발명의 실시예에 따라서, Z-버퍼링에 기초한 블렌딩 방식(1050)을 보여준다. 단계(1055)에서, 각 수평선에서 반화소 위치에서 새로운 샘플이 생성된다(예컨대 도 10a를 업샘플링한다). 단계(1060)에서, 타겟 화소로부터 ±½ 내에 있는 후보 화소들 중에서 최대 깊이 레벨을 가진 후보 화소를 찾고, 그 색을 타겟 화소 Cs의 색으로 적용한다(즉, Z-버퍼링). 단계(1065)에서, 필터(예컨대, {1,2,1})를 이용하여 다운샘플링을 수행한다.
합성 뷰에서 새로운 타겟 화소는 먼저 모든 반화소 위치(도 10a)에 삽입된다. 즉 수평 방향을 따라 업샘플링된다. 그 다음에 각 타겟 화소에 대해서 간단한 Z-버퍼링 방식을 적용하여 그 값을 추정한다. 이것은 일반화된 경우(ㄷ도 8)에 thresY=0으로 설정하는 것과 같은 것이다. 최종 합성 뷰를 생성하기 위해 간단한 다운샘플링 필터(예컨대 {1,2,1})가 이용된다. 이 필터는 수학식 (6)에서 정의된 가중치 wi를 근사화한다.
이 방식은 미조정 뷰에도 적용될 수 있다. 다만 영상이 수평 방향과 수직 방향 양쪽을 따라 업샘플링된 점만 다르다.
반화소와 반화소 위치에 대해 한 가지 이상의 구현에 대해 설명하지만 본 발명의 원리는 본 발명의 본질을 그대로 유지하면서 임의 크기의 부화소(및 그러므로 대응하는 부화소 위치)에도 쉽게 적용될 수 있음을 알아야 한다.
실시예 4: 2단계 블렌딩
지금까지 설명한 블렌딩 방식은, 3DV에는 통상적으로 2개의 기준 뷰가 이용되지만, 입력으로 제공되는 기준 뷰의 수에는 제약이 없다. 제안된 방식을 더 쉽게 구현하기 위해, 제안된 방식은 2단계로 실시, 즉 (예컨대 전술한 임의의 방식을 이용하여) 각 기준 뷰를 가진 가상 영상을 독립적으로 합성한 다음에 모든 합성된 영상을 함께 병합할 수 있다. 실시예 3의 일 구현에 있어서는 이 구현은 업샘플링된 영상을 병합하고 그 다음에 이 병합된 영상을 다운샘플링한다.
병합 부분에 대해서는 간단한 Z-버퍼링 방식이 이용될 수 있다(즉 여러 가지 뷰 중의 후보 화소 중에서 카메라에 가장 가까운 것을 선택한다). 대안으로서, W(ri,i)에 대한 전술한 가중 방식도 이용될 수 있다. 물론, 병합 중에 다른 임의의 기존 뷰 가중 방식도 적용될 수 있다.
3. 후처리: 홀 채우기
타겟 뷰 중의 일부 화소에는 블렌딩 단계 중에 값이 할당되지 않는다. 이들 위치를 홀이라 부르는데, 이러한 홀은 대개는 디스어클루션(dis-occlusion) 때문에 유발된다(기준 뷰에서 이전의 보이지 않는 장면 포인트는 합성 뷰에서는 가려져 있지 않다). 가장 간단한 방법은 홀에 접하는 화소들을 조사하여 그 접한 홀의 일부를 이용하여 그 홀을 채우는 것이다. 이 단계는 제안된 블렌딩 방식과는 관계가 없으므로 기존의 홀 채우기 방식이 적용될 수 있다.
따라서, 요약하자면, 일 이상의 구현에서, (1) 깊이 레벨과 워핑 영상 위치에 기초하여 후보 화소를 선택하고, (2) 워핑 영상 위치와 카메라 파라미터로 결정된 가중 계수를 가지고 선형 보간을 이용하는 발견적 블렌딩 방식을 제공한다.
이 방식은 발견적이기 때문에 다양한 변형이 있을 수 있다. 예컨대 실시예 1과 2에서는 타겟 화소로부터 ±α/2 화소 거리 내에 있는 후보 화소만이(이들이 충분히 있다면) 선택된다. 용이한 구현을 위해서는 ½이 이용된다. 실제로는 임의의 값 k에 대해 1/k일 수 있다. 한편, 하나 이상의 선택 레벨이 추가될 수 있다. 예컨대 타겟 화소로부터 ±α/3, ±α/4, ±α/6 거리 등 내에 있는 후보 화소만을 찾는다. 대안으로서, 이 단계적 선택 프로세스를 생략하기 위해서, 타겟 화소에 가장 가까운 것부터 시작하여 충분해질 때까지 후보 화소가 선택될 수 있다. 더 일반화된 다른 옵션은 타겟 화소까지의 거리에 기초하여 후보 화소들을 클러스터(cluster)하고 가장 가까운 클러스터를 후보로 이용하는 것이다.
다른 예로서, 실시예 3에서, 최종 다운샘플링 중에 선형 보간을 근사화하기 위해 타겟 뷰가 반화소 위치로 업샘플링된다. 더 복잡해지기는 하지만 더 많은 업샘플링 레벨을 도입하여 더 높은 정밀도에 도달할 수 있다. 그 외에도 수평 방향과 수직 방향을 따른 업샘플링 레벨은 서로 다를 수 있다.
지금까지, 적어도 하나의 워핑 기준을 생성하기 위하여 적어도 하나의 기준 화상 또는 그 일부를 적어도 하나의 기준 뷰 위치로부터 가상 뷰 위치로 워핑하는 적어도 하나의 구현에 대해서 설명하였다. 이러한 구현은 적어도 하나의 워핑 기준 중의 제1 후보 화소와 제2 후보 화소를 식별하며, 이 제1 후보 화소와 제2 후보 화소는 가상 뷰 위치로부터 가상 화상 중의 타겟 화소 위치에 대한 후보이다. 이 구현은 제1 및 제2 후보 화소의 값에 기초하여 타겟 화소 위치에 있는 화소값을 더 결정한다. 이 구현은 여러 가지로 변형하기 쉽다. 예컨대 제1 변형에서, 단일 기준 화상이 워핑되어 단일 워핑 기준을 생성하고, 이 기준으로부터 2개의 후보 화소를 구해 이를 타겟 화소 위치에 있는 화소값을 결정하는데 이용한다. 다른 예로서, 제2 변형에서, 복수의 기준 화상이 워핑되어 복수의 워핑 기준을 생성하고, 각 워핑 기준으로부터 단일 후보 화소를 구해 이를 타겟 화소 위치에 있는 화소값을 결정하는데 이용한다.
이렇게 하여 여러 가지 구현에 대해서 설명하였다. 상기를 고려하여, 상기 설명은 본 발명의 원리를 예시한 것일 뿐이며, 당업자라면, 비록 여기서는 명시하지는 않았더라도, 본 발명의 원리를 구체화하고 그 본질과 범위 내에 있는 많은 대안적인 구성을 고안해낼 수 있을 것이다. 따라서 본 발명은 특정 특징과 양상을 가진 하나 이상의 구현을 제공한다. 그러나 설명된 구현의 특징과 양상은 다른 구현에도 적합할 수 있다. 따라서, 여기서 설명된 구현이 특정 내용으로 기술될 수 있지만, 그와 같은 기술은 그와 같은 구현 또는 내용에 대한 특징과 개념을 한정하는 것으로 보아서는 않된다.
본 명세서에서 본 발명의 "일 실시예", "소정 실시예", "일 구현", 또는 "소정 구현"이라는 말은 그 실시예와 관련하여 설명된 특정 형상, 구조, 특성 등이 본 발명의 적어도 하나의 실시예에 포함된다는 것을 의미한다. 따라서 본 명세서의 여러 곳에서 나타내는 "일 실시예에서", "소정 실시예에서", "일 구현에서" 또는 "소정 구현에서"라는 구절은 반드시 같은 실시예를 말하는 것은 아니다.
예컨대 "A/B", "A 및/또는 B" 및 "A와 B 중 적어도 어느 하나"의 경우에서 "/", "및/또는" 및 "적어도 어느 하나"를 사용하는 것은 첫번째 옵션 (A)만, 두번째 옵션 (B)만, 양 옵션 (A 및 B)를 선택하는 것을 포함하는 것임을 알아야 한다. 추가 예로서, "A, B 및/또는 C" 및 "A, B 및 C 중 적어도 어느 하나"의 경우에 이러한 구절은 첫번째 옵션 (A)만, 두번째 옵션 (B)만, 세번째 옵션 (C)만, 첫번째 옵션 (A)와 두번째 옵션 (B)만, 첫번째 옵션 (A)와 세번째 옵션 (C)만, 두번째 옵션 (B)와 세번째 옵션 (C)만, 세가지 옵션 모두(A, B 및 C)를 선택하는 것을 포함하는 것이다. 이것은 당업자라면 쉽게 알 수 있는 바와 같이 더 많은 옵션에 대해서도 확장될 수 있다.
구현들은 대역내 정보, 대역외 정보, 데이터스트림 데이터, 암시적 시그널링 및 명시적 시그널링을 포함한(이에 한정되는 것은 아님) 여러 가지 기법을 이용하여 정보를 표시할 수 있다. 대역내 정보와 명시적 시그널링은 여러 가지 구현 및/또는 표준에 있어서 슬라이스 헤더, SEI 메시지, 다른 하이레벨 구문 및 논하이레벨 구문을 포함할 수 있다. 따라서 여기서 설명된 구현들이 특정 내용으로 설명될 수 있더라도 그와 같은 설명이 특징과 개념을 그러한 구현 또는 내용으로 한정하는 것으로 보아서는 않된다.
여기서 설명된 구현과 특징은 MPEG-4 AVC 표준, MVC 확장을 가진 MPEG-4 AVC 표준, 또는 SVC 확장을 가진 MPEG-4 AVC 표준에서 이용될 수 있다. 그러나 이들 구현과 특징은 (기존의 또는 장래의) 다른 표준 및/또는 권고안, 또는 표준 및/또는 권고안을 포함하지 않는 콘텍스트에서도 이용될 수 있다.
여기서 설명된 구현은 예컨대 방법 또는 프로세스, 장치, 소프트웨어 프로그램, 데이터 스트림 또는 신호로 구현될 수 있다. 구현이 한 가지 형태로만 설명되어 있더라도(예컨대 방법으로만 설명되어 있더라도) 설명된 특징의 구현은 다른 형태(예컨대 장치나 프로그램)로 구현될 수도 있다. 장치는 예컨대 적당한 하드웨어, 소트프웨어 및 펌웨어에서 구현될 수 있다. 방법은 예컨대 컴퓨터, 마이크로프로세서, 집적 회로 또는 프로그래머블 로직 디바이스를 포함하여, 일반적으로 처리 장치라고 하는 프로세서와 같은 장치에서 구현될 수 있다. 프로세서는 예컨대 컴퓨터, 셀 폰, 휴대형/개인 디지털 단말("PDA"), 및 최종 수요자들 간의 정보 통신을 가능하게 하는 기타 다른 장치와 같은 통신 장치도 포함한다.
여기서 설명된 각종 프로세스와 특징의 구현은 다양한 장비나 애플리케이션들, 특히, 예컨대 인코딩과 디코딩에 연관된 장비나 애플리케이션에서 구체화될 수 있다. 그와 같은 장비의 예로는 인코더, 디코더, 디코더로부터의 출력을 처리하는 후처리기, 인코더에 입력을 제공하는 전처리기, 비디오 디코더, 비디오 코덱, 웹 서버, 셋톱 박스, 랩톱, 개인용 컴퓨터, 셀 폰, PDA, 및 기타 다른 통신 장치가 있다. 이들 장비는 이동성이 있을 수 있으며, 이동하는 차량에 설치될 수 있다.
그 외에도, 방법은 프로세서에 의해 실행되는 명령어들로 구현될 수 있으며, 그와 같은 명령어(및/또는 구현에 따라 생성된 데이터값)는 예컨대 집적 회로, 소프트웨어 담체(carrier), 또는 예컨대 하드 디스크, 컴팩 디스켓, RAM(random access memory) 또는 ROM(read-only memory)과 같은 기타 다른 저장 장치와 같은 프로세서 판독 매체에 저장될 수 있다. 명령어들은 프로세서 판독 매체에서 구체화된 애플리케이션 프로그램을 구성할 수 있다. 명령어들은 예컨대 운영 체제, 독립된 애플리케이션 또는 이 둘의 조합에서도 찾을 수 있다. 그러므로 프로세서는 예컨대 프로세스를 실행하는 장치와 프로세스를 실행하기 위한 명령어들을 가진 (저장 장치와 같은) 프로세서 판독 매체를 포함하는 장치 둘 다로서 특징지워질 수 있다. 더욱이 프로세서 판독 매체는 명령어들 이외에 또는 그 대신에 구현에 따라 생성된 데이터값들을 저장할 수 있다.
당업자라면 잘 알겠지만, 구현은 예컨대 저장 또는 전송될 수 있는 정보를 갖도록 포맷된 다양한 신호를 생성할 수 있다. 이 정보는 예컨대 방법을 수행하기 위한 명령어, 또는 설명된 구현들 중 하나에 따라서 생성된 데이터를 포함할 수 있다. 예컨대 신호는 설명된 실시예의 구문을 쓰거나 읽기 위한 규칙을 데이터로서 갖도록, 또는 설명된 실시예에 따라 쓰여진 실제 구문값을 데이터로서 갖도록 포맷될 수 있다. 그와 같은 신호는 예컨대 전자기파로서 (예컨대 스펙트럼의 무선 주파수 부분을 이용하여) 포맷되거나, 기저대역 신호로서 포맷될 수 있다. 이러한 포맷팅은 예컨대 데이터 스트림을 인코딩하고 이 인코딩된 데이터 스트림을 가지고 반송파를 변조하는 것을 포함할 수 있다. 신호가 갖고 있는 정보는 예컨대 아날로그 또는 디지털 정보일 수 있다. 신호는 공지의 다양한 유무선 링크를 통해 전송될 수 있다. 신호는 프로세서 판독 매체에 저장될 수 있다.
여러 가지 구현에 대해 설명하였다. 그럼에도 불구하고 다양한 변형이 가능함은 물론이다. 예컨대 여러 가지 구현의 구성요소들은 조합, 보충, 변형 또는 제거되어 다른 구현을 만들어낼 수 있다. 그 외에도, 당업자라면 개시된 구조와 프로세스는 다른 구조와 프로세스로 대체될 수 있으며, 그렇게 해서 만들어진 구현은 개시된 구현과 적어도 거의 동일한 기능, 적어도 거의 동일한 방식을 수행하여 적어도 거의 동일한 결과를 달성할 것임을 잘 알 것이다. 따라서 본 출원은 이들 및 다른 구현을 달성하고자 하는 것이며, 이들 구현은 하기의 청구범위 내에 있는 것이다.

Claims (29)

  1. 적어도 하나의 워핑 기준(warped reference)을 생성하기 위해 적어도 하나의 기준 화상(reference picture) 또는 그 일부를 적어도 하나의 기준 뷰 위치로부터 가상 뷰 위치로 워핑(warping)하는 단계(705);
    상기 가상 뷰 위치로부터의 가상 화상 내의 타겟 화소 위치에 대한 후보인 제1 후보 화소와 제2 후보 화소를 상기 적어도 하나의 워핑 기준 내에서 식별하는 단계(710); 및
    상기 제1 및 제2 후보 화소의 값에 기초하여 상기 타겟 화소 위치에서의 화소값(value for a pixel)을 결정하는 단계(725)
    를 포함하는 방법.
  2. 제1항에 있어서,
    상기 화소값을 결정하는 단계는 상기 제1 및 제2 후보 화소값으로부터 상기 타겟 화소에 대한 값을 보간(interpolating)하는 단계(725)를 포함하는 방법.
  3. 제2항에 있어서,
    상기 보간 단계는 상기 제1 및 제2 후보 화소값으로부터 상기 타겟 화소에 대한 값을 선형적으로 보간하는 단계(725)를 포함하는 방법.
  4. 제2항에 있어서,
    상기 보간 단계는 상기 제1 및 제2 후보 화소 각각에 대해 가중 계수(weight factor)를 이용하는 단계를 포함하는 방법.
  5. 제4항에 있어서,
    상기 가중 계수는 카메라 파라미터에 의해 결정되는(725) 방법.
  6. 제5항에 있어서,
    상기 적어도 하나의 워핑 기준은 제1 워핑 기준과 제2 워핑 기준을 포함하고, 상기 기준 뷰 위치는 상기 제1 워핑 기준에 대응하는 제1 기준 뷰 위치와 상기 제2 워핑 기준에 대응하는 제2 기준 뷰 위치를 포함하고, 상기 가중 계수는 제 1 거리와 제 2 거리에 기초하여 결정되며,
    상기 제 1 거리는 상기 제1 기준 뷰 위치와 상기 가상 뷰 위치 간에 있고, 상기 제 2 거리는 상기 제2 기준 뷰 위치와 상기 가상 뷰 위치 간에 있는, 방법.
  7. 제4항에 있어서,
    상기 가중 계수는 상기 제1 후보 화소와 상기 타겟 화소 위치 간의 거리에 의해 결정되는 방법.
  8. 제4항에 있어서,
    상기 가중 계수는 상기 제1 후보 화소와 연관된 깊이에 의해 결정되는 방법.
  9. 제1항에 있어서,
    상기 제1 후보 화소 식별 단계는 상기 제1 후보 화소와 상기 타겟 화소 위치 간의 거리에 기초하여 상기 제1 후보 화소를 식별하는 단계(710)를 포함하는 방법.
  10. 제9항에 있어서,
    상기 거리는 소정 임계치보다 낮은(710) 방법.
  11. 제1항에 있어서,
    상기 제1 후보 화소 식별 단계는 상기 제1 후보 화소와 연관된 깊이에 기초하여 상기 제1 후보 화소를 식별하는 단계(710)를 포함하는 방법.
  12. 제1항에 있어서,
    상기 제1 후보 화소 식별 단계는 상기 적어도 하나의 워핑 기준 내의 복수의 화소 중에서 상기 제1 후보 화소를 선택하는 단계를 포함하고, 상기 복수의 화소 전부는 상기 타겟 화소 위치의 임계 거리 내에 있고, 상기 제1 후보 화소는 카메라에 가장 가까운 상기 제1 후보 화소의 깊이에 기초하여 선택되는(710) 방법.
  13. 제12항에 있어서,
    추가 화소(further pixel)가 상기 제1 후보 화소의 깊이의 임계치 이내의 깊이를 가지고 있는지 여부에 기초하여 상기 복수의 화소 중에서 상기 추가 화소를 추가 후보 화소(further candidate pixel)로서 선택하는 단계를 더 포함하고,
    상기 타겟 화소 위치에서의 상기 화소값을 결정하는 단계는 상기 추가 후보 화소의 값에 더 기초하는(725) 방법.
  14. 제2항에 있어서,
    상기 보간 단계는 가중 계수들을 이용하는 단계를 포함하고, 상기 제1 후보 화소에 대해, 상기 가중 계수들 중 각 가중 계수는 대응하는 기준 뷰의 광학적 초점 중심, 상기 가상 화상에 대응하는 가상 뷰의 광학적 중심 및 상기 제1 후보 화소에 대응하는 3차원 포인트에 의해 결정된 각도에 기초하는(725) 방법.
  15. 제14항에 있어서,
    상기 가중 계수 이용 단계는 상기 제1 및 제2 후보 화소 각각에 대해 가중 계수를 이용하는 단계(725)를 포함하는 방법.
  16. 제1항에 있어서,
    복수의 각각의 새로운 타겟 화소를 얻기 위해 상기 가상 화상 중의 모든 부화소 위치(sub-pixel positions)에 각각의 새로운 타겟 화소를 삽입하는 단계(1055);
    상기 제1 후보 화소와 상기 제2 후보 화소 각각과 연관된 각각의 깊이에 기초하여 상기 복수의 각각의 새로운 타겟 화소 각각에 대한 각자의 값을 추정(estimating)하는 단계(1060); 및
    다운샘플링을 이용하여 상기 가상 화상에 대응하는 최종 가상 뷰를 생성하는 단계
    를 더 포함하는 방법.
  17. 제16항에 있어서,
    상기 삽입 단계는 상기 가상 화상 내의 나머지 모든 부화소 위치에 추가적인 각각의 새로운 타겟 화소를 더 삽입하는 단계를 포함하는 방법.
  18. 제16항에 있어서,
    상기 복수의 각각의 새로운 타겟 화소 각각에 대한 각자의 값을 추정하는 단계는 카메라에 가장 가까이 있는 상기 제1 후보 화소와 상기 제2 후보 화소 각각과 연관된 각자의 깊이에 기초하는(1060) 방법.
  19. 제1항에 있어서,
    상기 가상 화상 내의 나머지 타겟 화소 위치 각각에 대해,
    상기 적어도 하나의 워핑 기준 중에서 하나 이상의 후보 화소를 식별하는 단계; 및
    상기 하나 이상의 후보 화소의 값에 기초하여 상기 나머지 타겟 화소 위치에서의 화소값을 결정하는 단계
    를 더 포함하는 방법.
  20. 제1항에 있어서,
    상기 적어도 하나의 기준 화상과 상기 가상 화상 중 하나 이상을 인코딩하는 단계(730)를 더 포함하는 방법.
  21. 제1항에 있어서,
    상기 적어도 하나의 기준 뷰 위치로부터의 상기 적어도 하나의 기준 화상은 제1 기준 뷰 위치로부터의 제1 기준 화상과 제2 기준 뷰 위치로부터의 제2 기준 화상을 포함하는(705, 715) 방법.
  22. 적어도 하나의 워핑 기준을 생성하기 위해, 적어도 하나의 기준 화상 또는 그 일부를 적어도 하나의 기준 뷰 위치로부터 가상 뷰 위치로 워핑하기 위한 수단;
    상기 가상 뷰 위치로부터의 가상 화상 내의 타겟 화소 위치에 대한 후보인 제1 후보 화소와 제2 후보 화소를 상기 적어도 하나의 워핑 기준 내에서 식별하기 위한 수단; 및
    상기 제1 및 제2 후보 화소의 값에 기초하여 상기 타겟 화소 위치에서의 화소값을 결정하기 위한 수단
    을 포함하는 장치.
  23. 프로세서로 하여금, 적어도 이하의 단계:
    적어도 하나의 워핑 기준을 생성하기 위해 적어도 하나의 기준 화상 또는 그 일부를 적어도 하나의 기준 뷰 위치로부터 가상 뷰 위치로 워핑하는 단계(705);
    상기 적어도 하나의 워핑 기준 내에서, 상기 가상 뷰 위치로부터의 가상 화상 내의 타겟 화소 위치에 대한 후보인 제1 후보 화소와 제2 후보 화소를 식별하는 단계(710); 및
    상기 제1 및 제2 후보 화소의 값에 기초하여 상기 타겟 화소 위치에서의 화소값을 결정하는 단계(725)
    를 수행하게 하는 명령어가 저장된 프로세서 판독가능 매체.
  24. 적어도 이하의 단계:
    적어도 하나의 워핑 기준을 생성하기 위해 적어도 하나의 기준 화상 또는 그 일부를 적어도 하나의 기준 뷰 위치로부터 가상 뷰 위치로 워핑하는 단계(705);
    상기 적어도 하나의 워핑 기준 내에서, 상기 가상 뷰 위치로부터의 가상 화상 내의 타겟 화소 위치에 대한 후보인 제1 후보 화소와 제2 후보 화소를 식별하는 단계(710); 및
    상기 제1 및 제2 후보 화소의 값에 기초하여 상기 타겟 화소 위치에 있는 화소값을 결정하는 단계(725)
    를 수행하도록 구성된 프로세서를 포함하는 장치.
  25. 적어도 하나의 워핑 기준을 생성하기 위해 적어도 하나의 기준 화상 또는 그 일부를 적어도 하나의 기준 뷰 위치로부터 가상 뷰 위치로 워핑하기 위한 포워드 워퍼(forward warper, 210); 및
    상기 적어도 하나의 워핑 기준 내에서, 상기 가상 뷰 위치로부터의 가상 화상 내의 타겟 화소 위치에 대한 후보인 제1 후보 화소와 제2 후보 화소를 식별하고, 그리고
    상기 제1 및 제2 후보 화소의 값에 기초하여 상기 타겟 화소 위치에서의 화소값을 결정하기 위한 뷰 블렌더(view blender)(220)
    를 포함하는 장치.
  26. 제25항에 있어서,
    상기 장치는 인코더(310)를 더 포함하는 장치.
  27. 제25항에 있어서,
    상기 장치는 디코더(420)를 더 포함하는 장치.
  28. 적어도 하나의 워핑 기준을 생성하기 위해 적어도 하나의 기준 화상 또는 그 일부를 적어도 하나의 기준 뷰 위치로부터 가상 뷰 위치로 워핑하기(705) 위한 포워드 워퍼(210);
    상기 적어도 하나의 워핑 기준 내에서, 상기 가상 뷰 위치로부터의 가상 화상 내의 타겟 화소 위치에 대한 후보인 제1 후보 화소와 제2 후보 화소를 식별하고, 그리고
    상기 제1 및 제2 후보 화소의 값에 기초하여 상기 타겟 화소 위치에서의 화소값을 결정하기 위한 뷰 블렌더(220); 및
    상기 적어도 하나의 기준 화상의 인코딩과 상기 가상 화상의 인코딩 중 하나 이상을 포함하는 신호를 변조하기 위한 변조기(320)
    를 포함하는 장치.
  29. 적어도 하나의 기준 화상과 가상 화상 중 하나 이상을 포함하는 신호를 복조하기 위한 복조기(410);
    적어도 하나의 워핑 기준을 생성하기 위해 적어도 하나의 기준 화상 또는 그 일부를 적어도 하나의 기준 뷰 위치로부터 가상 뷰 위치로 워핑하기(705) 위한 포워드 워퍼(210); 및
    상기 적어도 하나의 워핑 기준 내에서, 상기 가상 뷰 위치로부터의 가상 화상 내의 타겟 화소 위치에 대한 후보인 제1 후보 화소와 제2 후보 화소를 식별하고, 그리고
    상기 제1 및 제2 후보 화소의 값에 기초하여 상기 타겟 화소 위치에서의 화소값을 결정하기 위한 뷰 블렌더(220)
    를 포함하는 장치.
KR1020117006916A 2008-08-29 2009-08-28 발견적 뷰 블렌딩을 이용한 뷰 합성 KR20110063778A (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US9296708P 2008-08-29 2008-08-29
US61/092,967 2008-08-29
US19261208P 2008-09-19 2008-09-19
US61/192,612 2008-09-19

Publications (1)

Publication Number Publication Date
KR20110063778A true KR20110063778A (ko) 2011-06-14

Family

ID=41226021

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020117006916A KR20110063778A (ko) 2008-08-29 2009-08-28 발견적 뷰 블렌딩을 이용한 뷰 합성
KR1020117006765A KR20110073474A (ko) 2008-08-29 2009-08-28 휴리스틱 뷰 병합을 사용하는 뷰 합성

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020117006765A KR20110073474A (ko) 2008-08-29 2009-08-28 휴리스틱 뷰 병합을 사용하는 뷰 합성

Country Status (8)

Country Link
US (2) US20110148858A1 (ko)
EP (2) EP2327224A2 (ko)
JP (2) JP2012501494A (ko)
KR (2) KR20110063778A (ko)
CN (2) CN102138333B (ko)
BR (2) BRPI0916882A2 (ko)
TW (2) TWI463864B (ko)
WO (3) WO2010024938A2 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140102999A (ko) * 2013-02-15 2014-08-25 광운대학교 산학협력단 영상 워핑을 위한 장치 및 방법
KR20200024393A (ko) * 2018-08-28 2020-03-09 한국과학기술원 실시간 3차원 360 영상 복원 방법 및 그 장치
KR20200057612A (ko) * 2018-11-16 2020-05-26 한국전자통신연구원 가상시점 영상을 생성하는 방법 및 장치
KR20200109014A (ko) * 2019-03-12 2020-09-22 한국과학기술원 실시간 폴리곤 기반 360 영상 복원 방법 및 그 장치
US11528461B2 (en) 2018-11-16 2022-12-13 Electronics And Telecommunications Research Institute Method and apparatus for generating virtual viewpoint image

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10187589B2 (en) * 2008-12-19 2019-01-22 Saab Ab System and method for mixing a scene with a virtual scenario
JP5249114B2 (ja) * 2009-04-03 2013-07-31 Kddi株式会社 画像生成装置、方法及びプログラム
US9124874B2 (en) * 2009-06-05 2015-09-01 Qualcomm Incorporated Encoding of three-dimensional conversion information with two-dimensional video sequence
JP5209121B2 (ja) * 2009-09-18 2013-06-12 株式会社東芝 視差画像生成装置
JP2011151773A (ja) * 2009-12-21 2011-08-04 Canon Inc 映像処理装置及び制御方法
TWI434227B (zh) * 2009-12-29 2014-04-11 Ind Tech Res Inst 動畫產生系統及方法
CN101895752B (zh) * 2010-07-07 2012-12-19 清华大学 基于图像视觉质量的视频传输方法、系统及装置
CN101895753B (zh) * 2010-07-07 2013-01-16 清华大学 基于网络拥塞程度的视频传输方法、系统及装置
JP5627498B2 (ja) * 2010-07-08 2014-11-19 株式会社東芝 立体画像生成装置及び方法
US8760517B2 (en) * 2010-09-27 2014-06-24 Apple Inc. Polarized images for security
JP5858381B2 (ja) * 2010-12-03 2016-02-10 国立大学法人名古屋大学 多視点画像合成方法及び多視点画像合成システム
BR112013016890A8 (pt) 2010-12-30 2018-01-02 Michelin & Cie Sistema a base de piezoeléctrico e método para determinação de carga de pneu
US20120262542A1 (en) * 2011-04-15 2012-10-18 Qualcomm Incorporated Devices and methods for warping and hole filling during view synthesis
US8988558B2 (en) * 2011-04-26 2015-03-24 Omnivision Technologies, Inc. Image overlay in a mobile device
US9536312B2 (en) * 2011-05-16 2017-01-03 Microsoft Corporation Depth reconstruction using plural depth capture units
US9602798B2 (en) 2011-07-15 2017-03-21 Lg Electronics Inc. Method and apparatus for processing a 3D service
US9460551B2 (en) * 2011-08-10 2016-10-04 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for creating a disocclusion map used for coding a three-dimensional video
CN102325259A (zh) 2011-09-09 2012-01-18 青岛海信数字多媒体技术国家重点实验室有限公司 多视点视频中虚拟视点合成方法及装置
US9451232B2 (en) * 2011-09-29 2016-09-20 Dolby Laboratories Licensing Corporation Representation and coding of multi-view images using tapestry encoding
FR2982448A1 (fr) * 2011-11-07 2013-05-10 Thomson Licensing Procede de traitement d'image stereoscopique comprenant un objet incruste et dispositif correspondant
WO2013086137A1 (en) 2011-12-06 2013-06-13 1-800 Contacts, Inc. Systems and methods for obtaining a pupillary distance measurement using a mobile computing device
JP5911166B2 (ja) * 2012-01-10 2016-04-27 シャープ株式会社 画像処理装置、画像処理方法、画像処理プログラム、撮像装置、及び画像表示装置
WO2013109261A1 (en) 2012-01-18 2013-07-25 Intel Corporation Intelligent computational imaging system
TWI478095B (zh) 2012-02-07 2015-03-21 Nat Univ Chung Cheng Check the depth of mismatch and compensation depth error of the perspective synthesis method
US10447990B2 (en) * 2012-02-28 2019-10-15 Qualcomm Incorporated Network abstraction layer (NAL) unit header design for three-dimensional video coding
KR101318552B1 (ko) * 2012-03-12 2013-10-16 가톨릭대학교 산학협력단 3차원 영상에 대한 인지 왜곡을 측정하는 측정 방법
CN102663741B (zh) * 2012-03-22 2014-09-24 侯克杰 对彩色数字图像进行视觉立体感知增强的方法及系统
US9286715B2 (en) 2012-05-23 2016-03-15 Glasses.Com Inc. Systems and methods for adjusting a virtual try-on
US20130314401A1 (en) 2012-05-23 2013-11-28 1-800 Contacts, Inc. Systems and methods for generating a 3-d model of a user for a virtual try-on product
US9483853B2 (en) 2012-05-23 2016-11-01 Glasses.Com Inc. Systems and methods to display rendered images
CN103716641B (zh) 2012-09-29 2018-11-09 浙江大学 预测图像生成方法和装置
WO2014083752A1 (ja) * 2012-11-30 2014-06-05 パナソニック株式会社 別視点画像生成装置および別視点画像生成方法
EP2765774A1 (en) 2013-02-06 2014-08-13 Koninklijke Philips N.V. System for generating an intermediate view image
WO2014145722A2 (en) * 2013-03-15 2014-09-18 Digimarc Corporation Cooperative photography
CN104065972B (zh) * 2013-03-21 2018-09-28 乐金电子(中国)研究开发中心有限公司 一种深度图像编码方法、装置及编码器
WO2014163468A1 (ko) * 2013-04-05 2014-10-09 삼성전자 주식회사 시점 합성 예측을 이용하기 위한 인터 레이어 비디오 부호화 방법 및 그 장치, 비디오 복호화 방법 및 그 장치
US20140375663A1 (en) * 2013-06-24 2014-12-25 Alexander Pfaffe Interleaved tiled rendering of stereoscopic scenes
WO2015167739A1 (en) * 2014-04-30 2015-11-05 Replay Technologies Inc. System for and method of generating user-selectable novel views on a viewing device
TWI517096B (zh) * 2015-01-12 2016-01-11 國立交通大學 用於立體影像合成之逆向深度映射方法
CN104683788B (zh) * 2015-03-16 2017-01-04 四川虹微技术有限公司 基于图像重投影的空洞填充方法
KR20170140187A (ko) * 2015-04-23 2017-12-20 오스텐도 테크놀로지스 인코포레이티드 깊이 정보를 이용한 완전 시차 압축 광 필드 합성을 위한 방법
KR102465969B1 (ko) * 2015-06-23 2022-11-10 삼성전자주식회사 그래픽스 파이프라인을 수행하는 방법 및 장치
US9773302B2 (en) * 2015-10-08 2017-09-26 Hewlett-Packard Development Company, L.P. Three-dimensional object model tagging
CN105488792B (zh) * 2015-11-26 2017-11-28 浙江科技学院 基于字典学习和机器学习的无参考立体图像质量评价方法
EP3496388A1 (en) * 2017-12-05 2019-06-12 Thomson Licensing A method and apparatus for encoding a point cloud representing three-dimensional objects
US11393113B2 (en) 2019-02-28 2022-07-19 Dolby Laboratories Licensing Corporation Hole filling for depth image based rendering
US11670039B2 (en) 2019-03-04 2023-06-06 Dolby Laboratories Licensing Corporation Temporal hole filling for depth image based video rendering
CN113711589B (zh) * 2019-04-01 2022-10-25 北京字节跳动网络技术有限公司 帧间编解码模式中的二分之一像素插值滤波器
US10930054B2 (en) * 2019-06-18 2021-02-23 Intel Corporation Method and system of robust virtual view generation between camera views
CN112291549B (zh) * 2020-09-23 2021-07-09 广西壮族自治区地图院 一种基于dem的光栅地形图立体序列帧图像的获取方法
US11570418B2 (en) 2021-06-17 2023-01-31 Creal Sa Techniques for generating light field data by combining multiple synthesized viewpoints
KR20230103198A (ko) * 2021-12-31 2023-07-07 주식회사 쓰리아이 3차원 가상모델 생성을 위한 텍스처링 방법 및 그를 위한 컴퓨팅 장치

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3826236B2 (ja) * 1995-05-08 2006-09-27 松下電器産業株式会社 中間像生成方法、中間像生成装置、視差推定方法、及び画像伝送表示装置
JP3769850B2 (ja) * 1996-12-26 2006-04-26 松下電器産業株式会社 中間視点画像生成方法および視差推定方法および画像伝送方法
WO2001063561A1 (en) * 2000-02-25 2001-08-30 The Research Foundation Of State University Of New York Apparatus and method for volume processing and rendering
US7079157B2 (en) * 2000-03-17 2006-07-18 Sun Microsystems, Inc. Matching the edges of multiple overlapping screen images
US7085409B2 (en) * 2000-10-18 2006-08-01 Sarnoff Corporation Method and apparatus for synthesizing new video and/or still imagery from a collection of real video and/or still imagery
WO2002069272A2 (en) * 2001-01-26 2002-09-06 Zaxel Systems, Inc. Real-time virtual viewpoint in simulated reality environment
US6965379B2 (en) * 2001-05-08 2005-11-15 Koninklijke Philips Electronics N.V. N-view synthesis from monocular video of certain broadcast and stored mass media content
US7003136B1 (en) * 2002-04-26 2006-02-21 Hewlett-Packard Development Company, L.P. Plan-view projections of depth image data for object tracking
US7348963B2 (en) * 2002-05-28 2008-03-25 Reactrix Systems, Inc. Interactive video display system
EP1542167A1 (en) * 2003-12-09 2005-06-15 Koninklijke Philips Electronics N.V. Computer graphics processor and method for rendering 3D scenes on a 3D image display screen
US7292257B2 (en) * 2004-06-28 2007-11-06 Microsoft Corporation Interactive viewpoint video system and process
US7364306B2 (en) * 2005-06-20 2008-04-29 Digital Display Innovations, Llc Field sequential light source modulation for a digital display system
US8384763B2 (en) * 2005-07-26 2013-02-26 Her Majesty the Queen in right of Canada as represented by the Minster of Industry, Through the Communications Research Centre Canada Generating a depth map from a two-dimensional source image for stereoscopic and multiview imaging
US7471292B2 (en) * 2005-11-15 2008-12-30 Sharp Laboratories Of America, Inc. Virtual view specification and synthesis in free viewpoint

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140102999A (ko) * 2013-02-15 2014-08-25 광운대학교 산학협력단 영상 워핑을 위한 장치 및 방법
KR20200024393A (ko) * 2018-08-28 2020-03-09 한국과학기술원 실시간 3차원 360 영상 복원 방법 및 그 장치
KR20200057612A (ko) * 2018-11-16 2020-05-26 한국전자통신연구원 가상시점 영상을 생성하는 방법 및 장치
US11528461B2 (en) 2018-11-16 2022-12-13 Electronics And Telecommunications Research Institute Method and apparatus for generating virtual viewpoint image
KR20200109014A (ko) * 2019-03-12 2020-09-22 한국과학기술원 실시간 폴리곤 기반 360 영상 복원 방법 및 그 장치

Also Published As

Publication number Publication date
TW201029442A (en) 2010-08-01
JP5551166B2 (ja) 2014-07-16
JP2012501580A (ja) 2012-01-19
WO2010024938A3 (en) 2010-07-15
EP2327224A2 (en) 2011-06-01
CN102138333B (zh) 2014-09-24
WO2010024938A2 (en) 2010-03-04
WO2010024919A1 (en) 2010-03-04
US20110157229A1 (en) 2011-06-30
CN102138334A (zh) 2011-07-27
TW201023618A (en) 2010-06-16
CN102138333A (zh) 2011-07-27
BRPI0916902A2 (pt) 2015-11-24
KR20110073474A (ko) 2011-06-29
WO2010024925A1 (en) 2010-03-04
TWI463864B (zh) 2014-12-01
US20110148858A1 (en) 2011-06-23
EP2321974A1 (en) 2011-05-18
BRPI0916882A2 (pt) 2016-02-10
JP2012501494A (ja) 2012-01-19

Similar Documents

Publication Publication Date Title
KR20110063778A (ko) 발견적 뷰 블렌딩을 이용한 뷰 합성
CN106131531B (zh) 视频处理方法和装置
RU2551789C2 (ru) Выбор точек обзора для формирования дополнительных видов в 3d видео
JP5858380B2 (ja) 仮想視点画像合成方法及び仮想視点画像合成システム
EP2715661B1 (en) Scale-independent maps
JP5607716B2 (ja) 統合デプス推定
US10158838B2 (en) Methods and arrangements for supporting view synthesis
US20140198182A1 (en) Representation and Coding of Multi-View Images Using Tapestry Encoding
US9497435B2 (en) Encoder, method in an encoder, decoder and method in a decoder for providing information concerning a spatial validity range
Mieloch et al. Overview and efficiency of decoder-side depth estimation in MPEG immersive video
EP3759921A1 (en) Signaling a cancel flag in a video bitstream
Tanimoto et al. Frameworks for FTV coding
US20220167014A1 (en) Methods and devices for coding and decoding a multi-view video sequence
Lee et al. Technical Challenges of 3D Video Coding

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application