KR20200111645A - 3차원 와핑을 이용한 레지듀얼 영상의 패킹 및 언패킹 방법 - Google Patents

3차원 와핑을 이용한 레지듀얼 영상의 패킹 및 언패킹 방법 Download PDF

Info

Publication number
KR20200111645A
KR20200111645A KR1020200033771A KR20200033771A KR20200111645A KR 20200111645 A KR20200111645 A KR 20200111645A KR 1020200033771 A KR1020200033771 A KR 1020200033771A KR 20200033771 A KR20200033771 A KR 20200033771A KR 20200111645 A KR20200111645 A KR 20200111645A
Authority
KR
South Korea
Prior art keywords
image
video
viewpoint
images
residual
Prior art date
Application number
KR1020200033771A
Other languages
English (en)
Inventor
곽상운
신홍창
윤국진
이광순
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20200111645A publication Critical patent/KR20200111645A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • G06T3/0093
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/18Image warping, e.g. rearranging pixels individually

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

복수의 입력 위치의 이미지 촬상 장치에 의하여 촬상된, 복수의 입력 시점 영상을 획득하는 단계, 복수의 입력 시점 영상을 소정의 중앙 시점을 기준으로 합성함으로써, 중앙 시점 영상을 생성하는 단계, 중앙 시점 영상과 복수의 입력 시점 영상과의 차이를 나타내는 복수의 레지듀얼 영상을 생성하는 단계, 복수의 레지듀얼 영상을 중앙 시점을 기준으로 3차원 와핑한 복수의 와핑 레지듀얼 영상을 획득하는 단계, 복수의 와핑 레지듀얼 영상을 중앙 시점을 기준으로 합성하여, 패킹 영상을 생성하는 단계를 포함하는 이머시브 비디오 부호화 방법이 제공된다.

Description

3차원 와핑을 이용한 레지듀얼 영상의 패킹 및 언패킹 방법{METHOD AND APPARATUS FOR PACKING AND UNPACKING OF RESIDUAL IMAGE USING 3D WARPING}
본 개시는 이머시브 비디오 부호화/복호화 방법, 장치 및 프로그램에 관한 것이다. 구체적으로, 본 개시는 이머시브 비디오의 부호화에 따라 생성되는 복수의 레지듀얼 영상에 관한 데이터를 감축하는 방법, 장치 및 프로그램을 제공한다.
디지털 방송의 출현은 방송국에서 일방적으로 송출한 신호를 시청하던 전통적 방송 방식을 사용자가 원하는 시간에 원하는 콘텐츠만을 선택적으로 시청할 수 있는 형태로 변화시켰다. 또한 광대역 전송 기술의 발전은 대역폭 한계를 극복하면서 시청자에게 4K 이상의 고화질 실감 미디어(예를 들어, UHDTV, 3DTV 등)를 제공할 수 있는 실감형 방송서비스를 제공할 수 있게 되었다
360도 가상현실(virtual reality, VR) 미디어는 시청자에게 전방위 영상을 제공함으로써 원하는 뷰(view)를 선택하여 볼 수 있는 미디어로서, 최근 방송망 접목을 통해 360도 VR 미디어를 서비스하려는 노력이 가속화되고 있다. 현재 일반적으로 적용되고 있는 360도 VR 미디어의 경우 전체 4K 또는 FHD급 VR 미디어를 동시에 제공할 수 있는데, 시청자에게 시청자가 원하는 뷰 또는 관심 영역(Region of Interest, RoI)을 지연 없이 제공할 수 있는 장점이 있으나, 실제 시청자의 움직임에 따라 재생되는 뷰의 화질이 열화되는 문제가 있다. 또한, 다른 형태로써, 시청자의 움직임 또는 시청자가 선택한 뷰의 정보에 기초하여 해당 영역에 대해 스트리밍하는 360도 VR 서비스는, 상대적으로 고화질의 뷰를 제공할 수 있으나 사용자 움직임에 따라 그에 응답하여 고화질의 영상을 재생하기 위한 지연시간(Motion to Photon, MTP)이 길어지는 문제가 있다.
360도 VR 미디어 관련 기술로서 파노라마 비디오 방송서비스 인식 및 관련 비디오 특성을 나타내기 위한 시그널링을 제공하는 기술, 썸네일(thumbnail) 영상을 우선 전송하고 수신기에서는 썸네일에 기초하여 요청된 특정 영역의 데이터를 전송하는 기술 또는 파노라마 비디오를 일정 영역의 타일로 분류하고 사용자가 선택한 영역에 대한 타일의 데이터만을 전송하는 기술 등이 있다. 이러한 기존의 기술들은 파노라마 방송서비스를 제공하기 위한 시그널링, 타일링 전송 및 동기화 방법 등을 제안하고 있으나, 고화질 360도 VR 영상에 대하여 방송망 환경 하에서 사용자의 움직임 또는 사용자의 선택에 기반한 360도 VR 방송서비스를 제공하기 어렵다는 문제가 있다.
본 개시에 따르면, 3차원 와핑을 이용한 효율적인 잔차 영상의 패킹 및 언패킹 방법이 제공된다.
본 개시에 따르면, 복수의 입력 위치의 이미지 촬상 장치에 의하여 촬상된, 복수의 입력 시점 영상을 획득하는 단계, 상기 복수의 입력 시점 영상을 소정의 중앙 시점을 기준으로 합성함으로써, 중앙 시점 영상을 생성하는 단계, 상기 중앙 시점 영상과 상기 복수의 입력 시점 영상과의 차이를 나타내는 복수의 레지듀얼 영상을 생성하는 단계, 상기 복수의 레지듀얼 영상을 상기 중앙 시점을 기준으로 3차원 와핑한 복수의 와핑 레지듀얼 영상을 획득하는 단계, 상기 복수의 와핑 레지듀얼 영상을 상기 중앙 시점을 기준으로 합성하여, 패킹 영상을 생성하는 단계를 포함하는 이머시브 비디오 부호화 방법이 제공된다.
일 실시 예에 따라, 이머시브 비디오 부호화 방법은, 상기 복수의 레지듀얼 영상들 간의 중복 영역을 제거함으로써, 상기 복수의 레지듀얼 영상을 변환하는 단계를 더 포함할 수 있다.
일 실시 예에 따라, 상기 복수의 입력 시점 영상은 텍스쳐 영상과 뎁스 영상을 포함하고, 상기 복수의 입력 시점 영상을 소정의 중앙 시점을 기준으로 합성함으로써, 중앙 시점 영상을 생성하는 단계는, 상기 복수의 입력 시점 영상의 텍스쳐 영상과 뎁스 영상에 따라, 상기 중앙 시점 영상을 생성할 수 있다.
본 개시에 따르면, 하나 이상의 프로세서 및 하나 이상의 메모리 디바이스를 포함하는, 이머시브 비디오 부호화 장치에 있어서, 상기 하나 이상의 프로세서는 상기 하나 이상의 메모리 디바이스에 저장된 차원 와핑을 이용한 잔차 영상 패킹을 위한 프로그램의 하나 이상의 명령을 수행하고, 상기 하나 이상의 메모리 디바이스는 이머시브 비디오 부호화를 위한 프로그램을 저장하며, 상기 하나 이상의 명령들은, 복수의 입력 위치의 이미지 촬상 장치에 의하여 촬상된, 복수의 입력 시점 영상을 획득하는 단계, 상기 복수의 입력 시점 영상을 소정의 중앙 시점을 기준으로 합성함으로써, 중앙 시점 영상을 생성하는 단계, 상기 중앙 시점 영상과 상기 복수의 입력 시점 영상과의 차이를 나타내는 복수의 레지듀얼 영상을 생성하는 단계, 상기 복수의 레지듀얼 영상을 상기 중앙 시점을 기준으로 3차원 와핑한 복수의 와핑 레지듀얼 영상을 획득하는 단계, 상기 복수의 와핑 레지듀얼 영상을 상기 중앙 시점을 기준으로 합성하여, 패킹 영상을 생성하는 단계를 포함하는 것을 특징으로 하는 이머시브 비디오 부호화 장치가 제공된다.
본 개시에 따르면, 패킹 영상을 획득하는 단계, 상기 패킹 영상으로부터 복수의 와핑 레지듀얼 영상을 생성하는 단계, 상기 복수의 와핑 레지듀얼 영상을 복수의 입력 시점에 따라 3차원 와핑함으로써, 복수의 레지듀얼 영상을 생성하는 단계, 상기 복수의 레지듀얼 영상과 중앙 시점 영상에 따라, 복수의 입력 시점 영상을 생성하는 단계를 포함하는 이머시브 비디오 복호화 방법이 제공된다.
본 개시에 따르면, 하나 이상의 프로세서 및 하나 이상의 메모리 디바이스를 포함하는, 이머시브 비디오 복호화 장치에 있어서, 상기 하나 이상의 프로세서는 상기 하나 이상의 메모리 디바이스에 저장된 차원 와핑을 이용한 잔차 영상 패킹을 위한 프로그램의 하나 이상의 명령을 수행하고, 상기 하나 이상의 메모리 디바이스는 이머시브 비디오 복호화를 위한 프로그램을 저장하며, 상기 하나 이상의 명령들은, 패킹 영상을 획득하는 단계, 상기 패킹 영상으로부터 중앙 시점을 기준으로 합성된 복수의 와핑 레지듀얼 영상을 생성하는 단계, 상기 복수의 와핑 레지듀얼 영상을 복수의 입력 시점에 따라 3차원 와핑함으로써, 복수의 레지듀얼 영상을 생성하는 단계, 상기 복수의 레지듀얼 영상과 중앙 시점 영상에 따라, 복수의 입력 시점 영상을 생성하는 단계를 포함하는 것을 특징으로 하는 이머시브 비디오 복호화 장치가 제공된다.
본 개시에 따르면, 상기 이머시브 비디오 부호화 방법 또는 복호화 방법의 각 단계를 수행하는 명령을 포함하는 프로그램이 제공된다.
본 개시에 따르면, 3차원 와핑을 이용한 잔차 영상의 패킹 및 언패킹을 통해 이머시브 비디오의 부호화 효율을 향상시킬 수 있다.
도 1은 본 개시의 일 실시 예에 따른, 운동시차의 지원이 가능한 이머시브 비디오의 개념도를 도시한다.
도 2a 및 도 2b는 본 개시의 일 실시 예에 따른, 이머시브 비디오 생성 방법의 개념도이다.
도 3은 본 개시에서 RVD를 생성하기 위한 방법을 도시한다.
도 4는, 본 개시의 일 실시 예에 따른, 이머시브 비디오 서비스를 제공하기 위한 개념도이다.
도 5a 및 도5b 는 본 개시에서 RVD를 이용하여 단말에서 이머시브 비디오를 합성하기 위한 방법을 도시한다.
도 6은, 3DoF+ 또는 6DoF의 자유도를 가지는 이머시브 미디어의 효율적인 전송 및 재현을 위한 개념을 도시한다.
도 7은 중앙 시점(Global center)의 개념을 도시한다.
도 8은 본 개시의 일 실시 예에 따른 이머시브 미디어의 패킹 방법을 나타내는 블록도이다.
도 9는 본 개시의 일 실시 예에 따른 복수의 입력 영상의 패킹 영상에 대한 일 실시예이다.
도 10은 본 개시의 일 실시 예에 따라, 복수의 입력 영상의 패킹 방법을 나타낸다.
도 11은 전방위 영상과 배열(Array)형 원근(Perspective) 영상에 대해, 전체 영상 영역을 포함할 수 있는 FoV를 가지는 중앙 시점 영상을 설명한다.
도 12는 4x4 배열형 원근 (perspective) 입력 영상들 각각에 대해, 중앙 시점 영상과의 차분을 기초로 레지듀얼 영상을 구한 실시 예를 도시한다.
도 13은 입력 시점 영상들의 레지듀얼 영상들을 효율적으로 패킹하는 방법의 일 실시 예를 도시한다.
도 14는 입력 시점 영상들의 레지듀얼 영상들을 효율적으로 패킹하는 방법의 일 실시 예를 도시한다.
도 15는 상기 3차원 와핑 기반 패킹 방식이 적용된 시스템 구조의 일 실시예를 나타낸 것이다.
도 16은 본 개시의 일 실시 예에 따른 이머시브 비디오 부호화 방법의 흐름도이다.
도 17은 본 개시의 일 실시 예에 따른 이머시브 비디오 복호화 방법의 흐름도이다.
본 개시는 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 개시를 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다. 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다. 후술하는 예시적 실시예들에 대한 상세한 설명은, 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 실시예를 실시할 수 있기에 충분하도록 상세히 설명된다. 다양한 실시예들은 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 개시의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 실시예의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 예시적 실시예들의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다.
본 개시에서 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 개시의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
본 개시의 어떤 구성 요소가 다른 구성 요소에 “ 연결되어” 있다거나 “접속되어 ” 있 다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있으나, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다거나 "직접 접속되어"있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 개시의 실시예에 나타나는 구성부들은 서로 다른 특징적인 기능들을 나타내기 위해 독립적으로 도시되는 것으로, 각 구성부들이 분리된 하드웨어나 하나의 소프트웨어 구성단위로 이루어짐을 의미하지 않는다. 즉, 각 구성부는 설명의 편의상 각각의 구성부로 나열하여 포함한 것으로 각 구성부 중 적어도 두개의 구성부가 합쳐져 하나의 구성부로 이루어지거나, 하나의 구성부가 복수 개의 구성부로 나뉘어져 기능을 수행할 수 있고 이러한 각 구성부의 통합된 실시예 및 분리된 실시예도 본 개시의 본질에서 벗어나지 않는 한 본 개시의 권리범위에 포함된다.
본 개시에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 개시를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 개시에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 즉, 본 개시에서 특정 구성을 “포함”한다고 기술하는 내용은 해당 구성 이외의 구성을 배제하는 것이 아니며, 추가적인 구성이 본 개시의 실시 또는 본 개시의 기술적 사상의 범위에 포함될 수 있음을 의미한다.
본 개시의 일부의 구성 요소는 본 개시에서 본질적인 기능을 수행하는 필수적인 구성 요소는 아니고 단지 성능을 향상시키기 위한 선택적 구성 요소일 수 있다. 본 개시는 단지 성능 향상을 위해 사용되는 구성 요소를 제외한 본 개시의 본질을 구현하는데 필수적인 구성부만을 포함하여 구현될 수 있고, 단지 성능향상을 위해 사용되는 선택적 구성 요소를 제외한 필수 구성 요소만을 포함한 구조도 본 개시의 권리범위에 포함된다.
이하, 도면을 참조하여 본 개시의 실시 형태에 대하여 구체적으로 설명한다. 본 명세서의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 명세서의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략하고, 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
가상현실(virtual reality) 서비스는 전방위 360 비디오를 실사 혹은 CG형태로 생성하여 개인형 VR 단말인 HMD(Head Mounted Display), 스마트폰에 재생함으로써 몰입감과 현장감을 극대화하기 위해 진화하고 있다.
현재 HMD를 통해 자연스럽고 몰입감이 높은 전방위 360도 비디오를 재생하기 위해서는 6 자유도 (DOF, degrees of Freedom)를 재현해야 한다. 예를들어, (1)좌우이동, (2)상하 회전, (3)상하 이동, (4) 좌우 회전, 등의 6가지 방향의 시청자의 이동에 대응되는 영상이 HMD 화면을 통해 재생되어어야 한다. 카메라로 획득한 실사영상을 재생하는 현재까지의 전방위 비디오는 3 자유도로서 (2)상하 회전 및 (4)좌우 회전 위주로의 움직임에 대한 영상만을 제공한다. 그리고 3 자유도의 전방위 비디오는 상기 시청자의 좌우이동 및 상하 이동에 대한 영상을 제공하지 못한다.
본 개시에서, 설명되는 이머시브 비디오는 구형 비디오 또는 360도 비디오를 의미한다. 이머시브 비디오는 전방위 카메라 또는 카메라 컬렉션을 사용하여 모든 방향의 뷰를 동시에 제공한다. 이머시브 비디오가 일반 평면 디스플레이에서 재생되는 경우, 시청자는 파노라마처럼 시점을 제어할 수 있다.
이머시브 비디오는 3 자유도를 지원하며, 나아가 시청자의 착석 환경에서 운동시차를 재현할 수 있다(3DoF+). 또한, 이머시브 비디오는 4 자유도 이상의 운동시차를 제공할 수 있다. 예를 들어, 6 자유도의 이머시브 비디오는 시청자가 자유로운 움직임에 따라 변화하는 운동시차를 제공할 수 있다(6DoF).
본 개시에서, 6 자유도를 지원하는 대용량의 이머시브 비디오를 효과적으로 제공하면서, UHD, 3DoF와 같이 기본적인 이머시브 비디오 서비스와 호환성을 유지하기 위한, 이머시브 비디오 생성 포맷 및 재생을 위한 방법 및 장치가 제공된다. 또한, 상기 6 자유도를 지원하는 대용량의 이머시브 비디오를 최소한의 부가 비디오 및 메타 데이터의 전송만으로 서비스 가능한 이머시브 비디오 생성 포맷 및 재생을 위한 방법 및 장치가 제공된다.
도 1은 본 개시의 일 실시 예에 따른, 운동시차의 지원이 가능한 이머시브 비디오의 개념도를 도시한다.
도 1에서, O1 내지 04는 임의의 장면 내 비디오 영역, Vk는 카메라 센터 위치에서의 획득된 비디오, Xk는 시점 위치(카메라 위치), Dk는 카메라 센터 위치에서의 깊이정보를 각각 나타낸다. 도 1의 이머시브 비디오와 같이, 시청자의 움직임에 따라 6자유도를 지원하기 위하여, 복수의 위치에서 다양한 방향으로 비디오가 생성되어야 한다.
이머시브 비디오는 전방위 비디오와 관련 공간 정보(깊이 정보, 카메라 정보)로 구성될 수 있다. 상기 이머시브 비디오는 비디오 압축, 패킷 다중화 과정을 통해 단말 측에 전송된다.
이머시브 미디어 시스템은 다중시점으로 구성된 대용량의 이머시브 비디오를 획득, 생성, 전송 및 재현한다. 그러므로, 이머시브 미디어 시스템은 대용량의 비디오 데이터를 효과적으로 저장 및 압축할 수 있어야 하며, 기존의 이머시브 비디오(3DoF)와 호환성이 있어야 한다.
도 2a 및 도 2b는 본 개시의 일 실시 예에 따른, 이머시브 비디오 생성 방법의 개념도이다.
본 개시의 기본 시점 비디오(Xk)는 기본적인 서비스와 호환성을 유지하기 위한 것이다. 상기 기본 시점 비디오(Vk)는 평면 비디오를 기반으로 하는 Windowed-6DoF에서는 2D 비디오에 해당하며, 전방위 비디오를 기반으로 하는 3DoF+ 및 6DoF에서는 3DoF 360VR 비디오에 해당한다. 복수 시점 중 기본 시점을 나타내는 정보가 메타데이터에 포함될 수 있다. 실시 예에 따라, 복수 개의 기본 시점이 존재할 수도 있다. 복수 개의 기본 시점이 존재하는 경우, 복수개의 기본 시점 중 각 비-기본 시점 영상의 참조 영상으로 이용되는 기본 시점 영상을 선택하는 과정이 더 포함될 수 있다.
비-기본 시점 비디오(Vk±n)와 기본 시점 비디오(Vk)을 차분한 차분 영상을 부호화/복호화할 수 있다. 일 예로, 본 개시에서 RVD(레지듀얼 Video plus Depth)(RVk-2 , RVk-1 , …)는 최소의 추가데이터로 운동시차를 지원하기 위한 부가 비디오이다. RVD는 모든 시점 위치(Xk-2 , Xk-1 …)에서 획득한 이머시브 비디오에서 기본 시점 비디오와 중복되는 영역을 제외하여 생성된 텍스처 영상 및 깊이 맵(depth) 중 적어도 하나를 포함한다. 기본 시점 비디오 (Vk)는 기준 영상으로서 사용자의 중심위치에서 획득되는 영역(도 2의 붉은 실선)으로 구성된다. 복수 시점 비디오 중 기본 시점 비디오를 나타내는 정보가 메타데이터에 포함될 수 있다. 일 예로, 복수 시점 중 어느 하나를 가리키는 인덱스 정보가 메타데이터에 포함될 수 있다.
비-기본 시점 비디오 Vk-1은 기본 시점 비디오 Vk에 포함되지 않는 영역을 포함한다. RVk-1 는 비-기본 시점 비디오 Vk-1로부터 기본 시점 비디오 Vk를 차감하여 획득될 수 있다. 그 결과로, 차분 영상 RVk-1은 비-기본 시점 비디오 Vk-1 내에서 기본 비디오 (Vk)에 의해 획득되지 않은 영역(도2의 파란색 점선 화살표)을 포함할 수 있다.
비-기본 시점 비디오 Vk-2는 기본 시점 비디오 Vk에 포함되지 않는 영역을 포함한다. RVk-2는 비-기본시점 비디오 Vk-2로부터 기본 시점 비디오 Vk를 차분하여 획득될 수 있다. 또는, RVk-2는 비-기본 시점 비디오 Vk-2로부터 기본 시점 비디오 Vk를 차분한 결과값에, 이웃 시점 비디오의 차분 영상 RVk-1을 차분하여 획득될 수 있다. 그 결과로, 차분 영상 RVk-2 는 비-기본 시점 비디오 Vk-2 내에서 기본 비디오 Vk 및 이웃 차분 영상 RVk-1에 의해 획득되지 않은 영역(도2의 녹색 점선 화살표)을 포함할 수 있다. 이를 영상 신호 처리 관점에서 다르게 표현하면, RVk-1 는 이머시브 비디오 Vk-1 내에서 기본 시점 비디오 (Vk)와 중복되는 비디오 영역을 제거한 영역(도2의 파란색 점선 화살표)으로 구성된 부가 비디오이다. RVk-2 는 이머시브 비디오 Vk-2 내에서 기본 비디오 (Vk) 및 RVk-1와 중복되는 비디오 영역을 제거한 영역(도2의 녹색 점선 화살표)으로 구성된 부가 비디오이다.
결과적으로, 각 시점에서 획득되는 비디오 영역이 다른 비디오에서 획득되는 영역과 중복이 된다면, 중복되는 비디오를 생성하지 않고, 하나의 비디오만 생성하게 되므로 전송 및 압축을 위한 데이터량을 줄일 수 있다.
기본 시점 비디오와 시점 인덱스의 차분 값이 1인 비-기본 시점 비디오의 차분 영상은 비-기본 시점 비디오에서 기본 시점 비디오를 차분하여 획득할 수 있다. 기본 시점 비디오와 시점 인덱스의 차분 값이 1을 초과하는 비-기본 시점 비디오의 차분 영상은 비-기본 시점 비디오에서 기본 시점 비디오 및/또는 이웃 비-기본 시점 비디오의 차분 영상을 차분하여 획득될 수 있다. 즉, 비-기본 시점 비디오별로 이웃 비-기본 시점 비디오의 차분 영상의 이용 여부가 상이하게 결정될 수 있다. 이웃 비-기본 시점 비디오는, 비-기본 시점 비디오와 시점 인덱스 차분이 1 또는 기 정의된 값들 중 하나인 것을 의미한다.
또는, 비-기본 시점 비디오에 대한 타 비-기본 시점을 나타내는 정보가 메타데이터에 포함될 수 있다. 비-기본 시점 비디오의 차분 영상은 비-기본 시점 비디오에서 기본 시점 비디오 및/또는 상기 정보가 가리키는 비-기본 시점 비디오를 차분하여 획득될 수 있다.
또는, 비-기본 시점 비디오에 대한 차분 영상은 복수의 참조 영상을 이용하여 획득될 수 있다. 일 예로, 비-기본 시점 비디오(Vk-n)의 차분 영상은, 기본 시점 비디오(Vk)와 비-기본 시점 비디오 Vk-1 내지 Vk-n+1 들의 차분 영상을 기초로 획득될 수 있다. 상기 참조 영상의 개수를 나타내는 정보가 메타 데이터에 포함될 수 있다.
본 개시에서 생성된 RVD는 저장 혹은 전송을 위해 단일 비디오(하나의 프레임)로 팩킹(packing)되어, PVD(Packed video plus depth) 포맷으로 변환된다. 패킹된 영상 내 각 RVD에 대한 시점위치, 각 RVD의 영역 내 위치와 크기 등은 메타데이터로 기술된다. 상기 메타데이터는 RVD 내에 모든 비디오 영역들이 PVD로 패킹될 때의 정보를 기술하기 위한 것으로서 압축 스트림 내 또는 전송 스트림 내 포함되어 단말에 전송된다.
본 개시에서의 메타데이터는 View number(해당 비디오 영역이 최고의 품질로 획득되는 시점위치(시점번호)), Shared views(해당 비디오 영역이 그 외 시점위치에서 공통적으로 획득되는 시점위치(시점번호)), 우선순위(priority)(데이터용량이 제한될 때, 전송 유무, 비트율 할당 등을 결정하기 위한 것으로서, Shared_views의 시점번호 순서에 따라 우선순위를 결정할 수 있음), RVD 내 위치 및 크기, PV(Packed video) 내 위치 및 크기, 시점위치별 카메라 파라미터 등으로 구성될 수 있다. 또한, 우선 순위는 인페인팅(In-painting)된 비디오 영역(실제 카메라에 의해 획득되지 않으나, 신호처리에 의해 보간된 폐색영역)이 상대적으로 품질이 저하되므로 차폐영역에 비해 중요도를 낮게 부여하기 위해 사용될 수 있다.
도 3은 본 개시에서 RVD를 생성하기 위한 방법을 도시한다.
본 개시에서 3D 와핑(warping) 단계는 중복성을 제거하기 위해 참조하기 위한 모든 비디오들을 타겟 시점 위치로 3D 와핑시킨다. 여기서 3D 와핑은 카메라 파라미터 값을 이용하여 참조 시점의 깊이 맵을 먼저 와핑하고 이를 기준으로 텍스처 영역을 와핑하는 3D 와핑 알고리즘을 따를 수 있다. 3D 와핑은 아래와 같은 두 단계를 거친다.
1단계) 참조시점 영상 좌표계에서 3차원 공간 좌표계로 역투영
2단계) 3차원 공간 좌표계에서 목표 가상시점 영상 좌표계로 투영
이때, 아래의 식 (1)이 적용된다.
[식 (1)]
Figure pat00001
식 (1)은 참조영상 Vk 에서 3차원 공간상으로 역투영하는 수식이다. 이때 투영 행렬는 카메라 캘리브레이션 과정을 통해 얻은 각 참조 카메라의 내부 파라미터 K와 외부 파라미터 R, T에 기초하여 결정된다. 이때, 아래의 식 (2)가 적용된다.
.
Figure pat00002
여기서
Figure pat00003
식 (2)는 역투영된 3차원 공간 상에서 목표 시점 위치인 Vk-1로 투영하는 식이다. 2차원 배열 데이터인 참조 영상을 3D 와핑을 하기 위해서는 Z값에 해당하는 깊이 값(depth value)이 추가적으로 요구된다.
도 3의 일 실시예에서, 참조 영상은 임의의 비디오를 타 시점에 맞춰 3D 와핑한 것을 말한다. 일 예로, 기준 시점 비디오 Vk (300)를 다른 참조 시점인 Vk-1(302)로 3D 와핑하여, 비-기본 시점 비디오 Vk-1(302) 의 참조 영상으로 활용할 수 있다. 기본 시점 비디오 Vk(300)를 참조 시점 Vk-1(302)에 맞춰 3D 와핑하면, 기본 시점 비디오 Vk(300)의 객체 O3 및 객체O2가 각각 깊이 값에 따라, 참조 시점 Vk-1(302)에 맞춰, 이동하게 된다. 그리고 기본 시점 비디오 Vk(300) 에서 보이지 않았던 영역은 홀(hole)로 결정된다. 본 개시에서, 홀은 3D 와핑 대상이 아닌 비디오 영역을 나타낸다.
그리고 참조 시점으로 3D 와핑된 기본 시점 비디오(V~ k)(300)와 참조 시점 비디오(Vk-1) (302)간의 텍스쳐 값과 깊이 값을 비교하여, 양 비디오 간의 유사성이 판별된다. 간의 텍스쳐 값과 깊이 값을 비교 결과에 따른 차이가 임계치 범위 내에 있을 때, 비교된 2개의 비디오는 3차원 공간 상에서 중복성이 있다고 판별된다. 따라서 2개의 비디오 중 중복되는 부분은 제거된다(예: 참조 시점 비디오(Vk-1) (302)의 O3, O2 전면). 그리고 중복되지 않는 부분(참조 시점 비디오(Vk-1) (302)의 O4, O2 측면)은 RVD 비디오(RVk-1) (312)에 포함되게 된다. 객체 상의 모든 픽셀들이 비교되거나, 샘플링된 픽셀들 간에 비교될 수 있다.
복수 참조 영상이 사용되는 경우, 중심 시점 영상, 즉, 기준 시점 영상 을 기준으로 각 참조 시점 간의 중복 영역이 반복적으로 제거된다. 일 예로, RVk-2(314)의 생성에 있어서, 기준 시점 영상 Vk(300)를 시점 Vk-2(304)에 맞춰 3D 와핑한 영상뿐만 아니라, RVk-1(312)을 시점 Vk-2(304)에 맞춰 3D 와핑한 영상이 참조 영상으로 사용될 수 있다. 이에 따라, 비-기준 시점 영상 Vk-2(304)의 잔차 영상 RVk-2(314)는 Vk-2(304)로부터 기준 시점 영상 Vk(300)와의 중복 데이터 및 잔차 영상 RVk-1(312) 와의 중복 부분이 제거된 것일 수 있다.
시점 영상 Vk-2(304)에서 보여지는 비디오 영역들 중 다른 시점 영상 Vk, Vk-1(300, 302)에서도 보이는 영역을 판별하기 위하여, 시점 영상 Vk, Vk-1(300, 302)와 RV 영상 RVk-1(312)로부터, Vk-2 위치로 각각 3D 와핑을 한다. 그리고 시점 영상 Vk-2(304)에서 다른 시점 영상으로부터 중복되었다고 판정된 영역이 참조 시점 영상Vk-2(304) 으로부터 제거된다. 결과적으로 도 3에서 RVk-2 (314)는 O1와 O4의 측면 일부만 남게 된다.
도 4는, 본 개시의 일 실시 예에 따른, 이머시브 비디오 서비스를 제공하기 위한 개념도(400)이다.
기본 비디오(Vk 및 DK)는 2D 비디오 인코더(HEVC, VVC 등)를 통해 인코딩될 수 있다. 그리고 인코딩된 기본 비디오는 단말에게 전송되어 복호화된다. 그리고 복호화된 기본 비디오에 기초하여, UHD, 3DoF 360VR 등의 기본 서비스가 제공된다. 반면에 RVD는 부가 정보 포맷팅 단계(도 2 참조)를 거쳐 PVD로 팩킹된다. 그리고 관련 메타데이터는 각각 인코딩 및 패킷화되어 단말에 전송된다. 이머시브 비디오 단말에서, 부가 정보 언포맷팅(Un-formatting) 단계에 따라, 메타데이터가 해석되며, 메타데이터에 따라, PVD로부터 RVD를 분리한다. 이머시브 비디오 합성 단계에서는 시청자의 시청 위치(viewing position)에 따라, 기본 시점 비디오를 참조하여 사용자 뷰포트(viewport)에 해당하는 시점 영상이 동적으로 합성된다. 그리고 합성된 시점 영상이 디스플레이를 통해 재현한다.
이머시브 비디오 단말에의 부가정보 언포맷팅 단계에서, 시청 위치에 따라 메타데이터로부터 시점 영상의 합성에 필요한 정보가 해석된다. 그리고 해석된 정보를 이용하여 패킹된 비디오(Packed video)로부터 해당하는 RVD를 필터링하여 분리한다. 이머시브 비디오 합성단계(Immersive Video Synthesis)에서는, 기본 비디오를 참조하여, 시청자의 시청 위치에 따른 뷰포트(viewport)에 해당하는 시점 영상이 동적으로 합성된다. 그리고 합성된 시점 영상이 디스플레이를 통해 재현된다.
도 5a 및 도5b 는 본 개시에서 RVD를 이용하여 단말에서 이머시브 비디오를 합성하기 위한 방법을 도시한다. 부가 정보 언포맷팅(Additional Information Unformatting)의 메타데이터 해석 단계에서, 서버로부터 전송된 메타데이터로부터, 시청자의 시청 위치(viewing position)와 부합되는 시점 번호(View number)와 공유 시점(shared views, 도 5a 및 도 5b에서 오렌지색 타원으로 표기), PVD에서의 모든 비디오 영역 위치 정보와 카메라 파라미터 등이 추출된다. 이머시브 비디오 합성 단계에서는 추출된 메타데이터를 이용하여, PVD로부터 비디오 영역을 필터링하여 RVD가 생성되고, 기준 비디오 (Vk)를 참조하여 3D 와핑이 수행됨으로써, 뷰포트 영상이 합성된다. 뷰포트 영상의 합성에 있어서, 비-기준 시점 영상은 RVD와 이에 대응하는 참조 영상에 기초하여 복원될 수 있다. 비-기준 시점 영상의 참조 영상은 기준 시점 비디오 (Vk) 또는 RVD 영상의 이웃 시점 잔차 영상 중 적어도 하나를 포함할 수 있다. 일 예로, 비-기준 시점 비디오 (Vk-2)의 참조 영상은 기준 시점 비디오(Vk) 및 이웃 시점 잔차 영상 (RVk-1)를 포함할 수 있다. 또는, 메타데이터로부터 RVD의 참조 영상을 결정하기 위한 정보가 추출될 수 있다. 상기 정보는, 참조 영상의 개수 또는 참조 영상의 시차 중 적어도 하나에 관한 것일 수 있다.
도 5a는 기준 비디오(Vk)와 RVD를 이용하여 참조시점 Vk-2 위치에서의 영상을 합성하는 과정을 나타낸다. 먼저 기준 시점 비디오와 그에 해당하는 깊이 맵을 이용하여, 기준 비디오(Vk)의 객체를 목표 위치(Xk-2)로 3D 와핑한다. 객체 O3는 깊이에 따라 위치가 결정되어 맵핑(mapping)된다. 객체 O2의 경우도 와핑이 되지만 Xk-2에서 뷰포트 내에 맵핑되지 않으므로 보이지 않게 된다. 기준 비디오로부터의 3D 와핑 단계가 수행되면, 그 다음 단계로써 기준 시점 비디오에서는 보이지 않지만 Xk-2에서는 보이는 영역의 텍스처도 생성해야한다. 이를 위해 3차원 기하관계를 참고하여 홀(hole) 영역으로 남아있는 텍스처 정보를 후방 사상(backward warping)으로 가져오기에 가장 적당한 참조시점을 선택한다. 도 5에서 참조시점의 후보는 Vk-1 과 Vk-2 이 된다. 각 참조시점에서 보이는 영상의 부분영역(텍스처)가 RVD에 있고, 그에 대한 정의가 메타데이터에 있으므로(도 5의 예에서는 Vk-2) 이를 이용하여 후방 사상 과정을 통해 Xk-2를 완성한다. 도 5의 실시예에서 보이듯이 객체 O4와 객체 O1이 목표 뷰포트 영상 Xk-2에 사상된다.
도 5b의 두 번째의 실시 예는 목표 시점영상 Xk이 기준비디오(Vk)와 참조시점 Vk-1 사이에 위치한 경우에 합성되는 예를 보인다. O2는 기준비디오(Vk)로부터 사상되고, O2 측면 부분이 RVD로부터 사상되어 뷰포트 영상에 보이게 된다. 반면에, O1은 뷰포트 영역 내에 사상되지 않으므로 보이지 않게 된다. 또한, 목표 시점영상이 Vk 와 Vk-1 사이에 위치하게 되므로 O3, O4 등 비디오 영역내 보여지는 부분이 달라지게 된다.
본 개시에서 360도 비디오 및 재생 방법은 종래의 회전 운동뿐만 아니라 시청자가 상하 좌우 이동 운동을 할 때 이에 대응하는 영상을 재생함으로써, 완전하고 자연스러운 입체영상을 가상현실 장치를 통해 제공할 수 있을 것이다.
본 개시는 가상의 중앙 시점 합성을 기반으로 잔차(레지듀얼) 영상을 효율적으로 패킹(Packing) 및 언패킹(Unpacking)하기 위한 기술에 관한 것이다.
도 6은, 3DoF+ 또는 6DoF의 자유도를 가지는 이머시브 미디어의 효율적인 전송 및 재현을 위한 개념을 도시한다.
먼저 카메라 중심(camera center)이 다른 다수의 위치에서 획득된 부분 ERP(Partial Equi-rectangular Projection) 영상으로부터, Global center(이하, 중앙 시점으로 표현)를 중심으로 한 전체 360 영상을 ERP 포맷으로 합성한다. 아래 도 7은 중앙 시점(Global center)의 개념을 도시한다. 중앙 시점을 중심으로 생성된 영상은, 모든 시차 영상을 포함한다. 다수 카메라로부터 획득된 부분 영상을 하나의 중앙 시점으로 합성하는 과정에서 중복 데이터를 줄임으로써 효율성을 높일 수 있다.
그리고 획득된 각 입력 영상(source view)에서 중앙 시점에 포함되어 있지 않은 정보를 계산하여 잔차(레지듀얼) 영상을 얻는다. 얻어진 잔차 영상들은 영상영역 전체에 대해 정보를 가지고 있지 않고, 일부 가려짐 영역(Occlusion area)에 대한 정보만을 가지고 있으므로 효율적으로 패킹(Packing)하여 보냄으로써 전송 효율을 높일 수 있다.
아래, 도 8은 본 개시의 일 실시 예에 따른 이머시브 미디어의 패킹 방법을 나타내는 블록도이다. 다수의 입력 영상(source view)에 대한 텍스쳐 영상과 깊이 영상으로부터, 중앙 시점이 합성된다. 합성된 중앙 시점으로부터 레지듀얼 영상이 계산된다. 그리고 이를 효율적으로 배치 및 패킹(partitioning and packing)한 뒤 부호화함으로써 전송효율이 향상될 수 있다.
아래 도 9는 본 개시의 일 실시 예에 따른 복수의 입력 영상의 패킹 영상에 대한 일 실시예이다. 그림과 같이 레지듀얼 영상에서 정보가 있는 부분만 추출 및 회전, 이동 등의 변환을 통해 하나의 영상 내에 모을 수 있고, 이를 통해 전송 데이터의 크기를 줄일 수 있다.
위와 같이 패킹을 하면, 복수의 레지듀얼 영상을 집약적으로 하나의 영상에 나타냄으로써 전송 비트수를 낮출 수 있지만, 패킹 방식에 따라 부가적인 메타데이터가 필요하다. 패킹 영상의 각 픽셀들이 어떠한 입력 영상 내의 어떤 영상 좌표 위치로부터 맵핑(mapping)된 것인지 여부를 나타내는 맵핑 정보가 있어야, 패킹 영상의 언패킹(Unpacking)이 가능하다. 그러므로 상기 맵핑 정보를 나타내는 메타데이터 역시 송수신되어야 한다. 도 8의 블록도에서 "Additional packing infos”에 해당하는 부분이다.
상기 맵핑 정보는 입력 영상의 수가 많거나, 개별 입력 영상들의 해상도가 커지거나, 또는 입력 영상 내에 레지듀얼 정보가 많아질수록 그 크기가 증가할 수 있다. 따라서, 상기 맵핑 정보의 크기가 지나치게 증가하면, 영상에 관련된 전체 데이터의 크기가 증가할 수 있다. 따라서 영상의 맵핑 정보에 관련된 메타데이터의 크기 증가에 의한 송수신효율의 저하가 발생할 수 있다.
도 10은 본 개시의 일 실시 예에 따라, 복수의 입력 영상의 패킹 방법을 나타낸다. 입력 영상의 중복성을 제거함으로써 생성된, 레지듀얼 영상 간에도 중첩영역이 있다. 따라서 레지듀얼 영상 간의 중복성을 제거함으로써, 추가적으로 영상의 크기를 압축할 수 있다. 도 10에 따르면 중앙 시점과 각 입력 시점 간의 중복성을 제거함은 물론, 레지듀얼 영상 간의 중복성을 제거하는 입력 영상의 패킹 방법이 설명된다. 그러나 상기 패킹 방법에 따르면, 모든 입력 영상 쌍(pair)에 대하여, 3차원 와핑에 따른 중복 영역의 검출이 필요하므로 연산량이 많을 수 있다.
따라서, 본 개시에서 레지듀얼 영상 간의 중복성을 제거하면서 메타데이터의 크기 증가에 의한 송수신효율 저하를 막을 수 있는 패킹 및 언패킹 방법에 제공된다. 본 개시에 따른 레지듀얼 영상의 패킹 및 언패킹 방법은, 중앙 시점으로의 3차원 와핑을 기반으로 하여 레지듀얼 영상 간의 중복성을 효율적으로 제거하면서, 맵핑을 위한 메타데이터를 최소화할 수 있다.
도 11은 전방위 영상과 배열(Array)형 원근(Perspective) 영상에 대해, 전체 영상 영역을 포함할 수 있는 FoV를 가지는 중앙 시점 영상을 설명한다.
도 11에 따르면, 영상의 투영 포맷(Projection format)과 관계없이, 복수의 카메라로부터 획득된 입력 영상에 기초하여, 전체 영상 영역을 포함하는 FoV를 갖는 중앙 시점이 합성될 수 있다.
도 12는 4x4 배열형 원근 (perspective) 입력 영상들 각각에 대해, 중앙 시점 영상과의 차분을 기초로 레지듀얼 영상을 구한 실시 예를 도시한다.
도 12에 따르면, 입력 영상들(1200, 1202, 1204, 1206) 각각을 합성하여 전체 영상 영역을 포함하는 중앙 시점 영상(1210)이 합성된다. 그리고, 중앙 시점 영상(1210)을 각각의 입력 시점 영상(1200, 1202, 1204, 1206)과 비교하여, 각 입력 시점의 레지듀얼 영상(1220, 1222, 1224, 1226) 이 획득된다.
도 13은 입력 시점 영상들의 레지듀얼 영상들을 효율적으로 패킹하는 방법의 일 실시 예를 도시한다. 레지듀얼 영상들이 하나의 영상 안에 회전, 이동 등의 연산을 이용하여 집약적으로 패킹될 경우, 언패킹을 위한 매핑 관계에 대한 부가 패킹 정보가 부가적으로 전송되어야 한다. 따라서, 상기 부가 패킹 정보에 대한 메타데이터를 사용하지 않거나, 그 크기를 감축하기 위하여, 레지듀얼 영상들을 중앙 시점으로 3차원 와핑하는 패킹 방식을 제안한다.
객체 A는 시점으로부터 가장 가까이 있다. 객체 A에 의해 가려진 객체 B(또는 텍스쳐를 가진 배경)가 있다고 할 때, 시점 영상 1 (1300) 및 시점 영상 2(1302)를 이용하여 중앙 시점을 기준으로 한 중앙 시점 영상(1310)을 합성한다. 그리고, 중앙 시점 영상(1310)을 입력 시점의 영상 위치로 와핑한다. 그리고 와핑된 중앙 시점 영상(1310)과 시점 영상 1 (1300) 및 시점 영상 2(1302)에 대한 레지듀얼 영상 1(1320)과 레지듀얼 영상 2(1322)이 결정된다.
각 입력 시점 영상들의 레지듀얼 영상들이 동일한 시점에서, 예컨대, 중앙 시점 위치로 3차원 와핑됨으로써, 합성될 수 있다. 예를 들어, 입력 시점 영상 1(1300)의 레지듀얼 영상 1(1320) 및 입력 시점 영상 2(1302)의 레지듀얼 영상 2(1322)를 중앙 시점 위치로 3차원 와핑할 수 있다. 그리고 와핑된 레지듀얼 영상 1 (1320) 및 와핑된 레지듀얼 영상 2 (1322)를 패킹/합성할 수 있다. 패킹/합성된 영상을 입력시점 위치로 3차원 와핑하고, 언패킹하여, 입력 시점 위치의 레지듀얼 영상(1330)을 획득할 수 있다.
중앙 시점 영상(1310)과 시점 영상 1(1302)에는 객체 A가 중복되므로, 레지듀얼 영상 1(1320)에는 객체 A가 존재하지 않는다. 마찬가지로, 중앙 시점 영상(1310)과 시점 영상 2(1302)에는 객체 B가 중복되므로, 레지듀얼 영상 2(1322)에는 객체 A가 존재하지 않는다. 이에 따라, 레지듀얼 영상들(1320, 1322)을 중앙 시점 위치로 와핑하여 합성한 영상은, 객체 A에 의한 가려짐(occlusion)이 없다. 즉, 중앙 시점 위치에서 객체 B의 정보가 재구성되는 형태의 영상을 획득할 수 있다. 상기 패킹 방식에 따라, 직관적인 패킹, 언패킹이 가능하며, 패킹과 언패킹만을 위한 부가적인 맵핑 파라미터가 필요 없게 된다.
도 14는 입력 시점 영상들의 레지듀얼 영상들을 효율적으로 패킹하는 방법의 일 실시 예를 도시한다. 상기 패킹 과정에서, 레지듀얼 영상 간 중복되는 데이터가 제거될 수 있다. 도 13과 다르게, 도 14에는 시점 영상 3(1404)가 더 포함된다. 시점 영상 3(1404)에 대한 레지듀얼 영상 3 (1422)과 레지듀얼 영상 2(1420)은 객체 B에 대한 중복되는 영역이 있다. 이에 따라, 기준 시점으로 와핑된 레지듀얼 영상 2(1420)와 레지듀얼 영상 3(1422)를 하나로 합성하게 되면, 레지듀얼 2 영상(1420)과 레지듀얼 영상 3(1422)의 중복 영역이 제거될 수 있다.
레지듀얼 영상 간의 와핑을 통해 중복 영역을 제거할 경우, 입력 시점 영상 수에 따라 연산량이 증가하는 문제점이 있다. 그러나 도 14에서 설명된 패킹 방법에 따르면, 복수의 레지듀얼 영상들을 모두 중앙 시점 위치로 와핑하면서 객체의 중복 영역을 부가적인 연산 없이 자동으로 제거된다. 따라서, 도 14에서 설명된 패킹 방법에 따르면, 레지듀얼 영상 간의 중복 영역을 제거하는데 필요한 연산량이 감소할 수 있다.
도 15는 상기 3차원 와핑 기반 패킹 방식이 적용된 시스템 구조의 일 실시예를 나타낸 것이다. 다수의 입력 시점 영상으로부터 글로벌 센터를 기준으로 전체 영상 영역을 포함하는 중앙 시점 영상을 합성하고, 이를 이용하여 입력 시점 영상을 프루닝(pruning) 및 필터링함으로써 레지듀얼 영상을 구한다. 그리고 3차원 와핑 기반의 패킹을 수행하는데 이때 부가 패킹 정보을 사용하지 않는다. 이를 HEVC 등의 코덱을 이용하여 부복호화 및 송수신한 후 다시 3차원 와핑 기반의 언패킹을 하고, VoI 시점 영상을 합성하여 렌더링하는 구조이다.
본 개시에서는 이머시브 미디어의 효율적인 전송 및 재현을 위한 패킹 및 언패킹 방식을 제안하였다. 본 개시의 구성에 따르면, 레지듀얼 영상들을 중앙 시점 위치로 3차원 와핑하여 패킹하는 기법을 사용하면, 패킹 및 언패킹을 위한 부가적인 맵핑 파라미터가 필요 없어져 전송데이터의 크기를 줄일 수 있고, 레지듀얼 영상간의 중복 정보를 추가 연산 없이 자동으로 제거가 가능하다는 이점이 있다.
도 16은 본 개시의 일 실시 예에 따른 이머시브 비디오 부호화 방법의 흐름도이다.
단계 S1602에서, 복수의 입력 위치의 이미지 촬상 장치에 의하여 촬상된, 복수의 입력 시점 영상이 획득된다.
단계 S1604에서, 복수의 입력 시점 영상을 소정의 중앙 시점을 기준으로 합성함으로써, 중앙 시점 영상이 생성된다.
단계 S1606에서, 중앙 시점 영상과 복수의 입력 시점 영상과의 차이를 나타내는 복수의 레지듀얼 영상이 생성된다.
단계 S1608에서, 복수의 레지듀얼 영상을 상기 중앙 시점을 기준으로 3차원 와핑한 복수의 와핑 레지듀얼 영상이 획득된다.
단계 S1610에서, 복수의 와핑 레지듀얼 영상을 상기 중앙 시점을 기준으로 합성하여, 패킹 영상이 생성된다.
도 17은 본 개시의 일 실시 예에 따른 이머시브 비디오 복호화 방법의 흐름도이다.
단계 S1702에서, 패킹 영상이 획득된다.
단계 S1704에서,패킹 영상으로부터 복수의 와핑 레지듀얼 영상이 생성된다.
단계 S1706에서,복수의 와핑 레지듀얼 영상을 복수의 입력 시점에 따라 3차원 와핑함으로써, 복수의 레지듀얼 영상이 생성된다.
단계 S1708에서, 복수의 레지듀얼 영상과 중앙 시점 영상에 따라, 복수의 입력 시점 영상이 생성된다.
상술한 실시예들에서, 방법들은 일련의 단계 또는 유닛으로서 순서도를 기초로 설명되고 있으나, 본 개시는 단계들의 순서에 한정되는 것은 아니며, 어떤 단계는 상술한 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다. 또한, 당해 기술 분야에서 통상의 지식을 가진 자라면 순서도에 나타난 단계들이 배타적이지 않고, 다른 단계가 포함되거나, 순서도의 하나 또는 그 이상의 단계가 본 개시의 범위에 영향을 미치지 않고 삭제될 수 있음을 이해할 수 있을 것이다.
상술한 실시예는 다양한 양태의 예시들을 포함한다. 다양한 양태들을 나타내기 위한 모든 가능한 조합을 기술할 수는 없지만, 해당 기술 분야의 통상의 지식을 가진 자는 다른 조합이 가능함을 인식할 수 있을 것이다. 따라서, 본 개시는 이하의 특허청구범위 내에 속하는 모든 다른 교체, 수정 및 변경을 포함한다고 할 것이다.
이상 설명된 본 개시에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 개시를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 개시에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서 본 개시가 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 개시의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 개시가 상기 실시예들에 한정되는 것은 아니며, 본 개시가 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.
따라서, 본 개시의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 개시의 사상의 범주에 속한다고 할 것이다.

Claims (1)

  1. 복수의 입력 위치의 이미지 촬상 장치에 의하여 촬상된, 복수의 입력 시점 영상을 획득하는 단계;
    상기 복수의 입력 시점 영상을 소정의 중앙 시점을 기준으로 합성함으로써, 중앙 시점 영상을 생성하는 단계;
    상기 중앙 시점 영상과 상기 복수의 입력 시점 영상과의 차이를 나타내는 복수의 레지듀얼 영상을 생성하는 단계;
    상기 복수의 레지듀얼 영상을 상기 중앙 시점을 기준으로 3차원 와핑한 복수의 와핑 레지듀얼 영상을 획득하는 단계;
    상기 복수의 와핑 레지듀얼 영상을 상기 중앙 시점을 기준으로 합성하여, 패킹 영상을 생성하는 단계를 포함하는 이머시브 비디오 부호화 방법.
KR1020200033771A 2019-03-19 2020-03-19 3차원 와핑을 이용한 레지듀얼 영상의 패킹 및 언패킹 방법 KR20200111645A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20190031459 2019-03-19
KR1020190031459 2019-03-19

Publications (1)

Publication Number Publication Date
KR20200111645A true KR20200111645A (ko) 2020-09-29

Family

ID=72661239

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200033771A KR20200111645A (ko) 2019-03-19 2020-03-19 3차원 와핑을 이용한 레지듀얼 영상의 패킹 및 언패킹 방법

Country Status (1)

Country Link
KR (1) KR20200111645A (ko)

Similar Documents

Publication Publication Date Title
US11599968B2 (en) Apparatus, a method and a computer program for volumetric video
US10389994B2 (en) Decoder-centric UV codec for free-viewpoint video streaming
US11202086B2 (en) Apparatus, a method and a computer program for volumetric video
US11430156B2 (en) Apparatus, a method and a computer program for volumetric video
WO2019034807A1 (en) SEQUENTIAL CODING AND DECODING OF VOLUMETRIC VIDEO
US11528509B2 (en) Video transmission method, video transmission device, video receiving method and video receiving device
CN110100435B (zh) 生成装置、识别信息生成方法、再现装置和图像再现方法
US11394946B2 (en) Video transmitting method, video transmitting apparatus, video receiving method, and video receiving apparatus
WO2021083178A1 (zh) 数据处理方法及系统、服务器和存储介质
US11509879B2 (en) Method for transmitting video, apparatus for transmitting video, method for receiving video, and apparatus for receiving video
US11677922B2 (en) Apparatus for transmitting a video, a method for transmitting a video, an apparatus for receiving a video, and a method for receiving a video
US10873737B1 (en) VR device and control method for the same
US11979544B2 (en) 360 video transmission method, 360 video reception method, 360 video transmission apparatus, and 360 video reception apparatus
US20220217314A1 (en) Method for transmitting 360 video, method for receiving 360 video, 360 video transmitting device, and 360 video receiving device
KR20200065087A (ko) 다중 뷰포인트 기반 360 비디오 처리 방법 및 그 장치
US20210329214A1 (en) An apparatus for transmitting a video, a method for transmitting a video, an apparatus for receiving a video, and a method for receiving a video
KR20190031943A (ko) 계층 프로젝션 기반 6-자유도 전방위 입체 영상 제공 방법 및 장치
KR20180112708A (ko) 고화질 360도 vr 영상 처리 장치 및 방법
KR20200013607A (ko) 운동 시차 지원 전방위 비디오 획득/재생을 위한 방법 및 장치
WO2018109265A1 (en) A method and technical equipment for encoding media content
JP6934052B2 (ja) 表示制御装置、表示制御方法及びプログラム
KR20200111645A (ko) 3차원 와핑을 이용한 레지듀얼 영상의 패킹 및 언패킹 방법
KR20200095408A (ko) 이머시브 비디오 포맷팅 방법 및 장치
US11463671B2 (en) Video transmitting method, video transmitting device, video receiving method and video receiving device
US11558597B2 (en) Method for transmitting video, apparatus for transmitting video, method for receiving video, and apparatus for receiving video