KR20230157242A

KR20230157242A - Mpeg 몰입형 비디오를 위한 카메라 파라미터 그룹핑 및 업데이트 방법

Info

Publication number: KR20230157242A
Application number: KR1020230044499A
Authority: KR
Inventors: 강제원; 김희재; 허진; 박승욱
Original assignee: 현대자동차주식회사; 기아 주식회사; 이화여자대학교 산학협력단
Priority date: 2022-05-09
Filing date: 2023-04-05
Publication date: 2023-11-16

Abstract

MPEG 몰입형 비디오를 위한 카메라 파라미터 그룹핑 및 업데이트 방법을 개시한다. 본 실시예에서, 몰입형 비디오 복호화 장치는 카메라 시점들(view points)의 개수, 장면들(scenes)의 개수, 시간 간격들(time steps)의 개수, 및 센서들(sensors)의 개수를 복호화한다. 몰입형 비디오 복호화 장치는 카메라 시점들의 개수에 기초하여 각 장면, 각 시간 간격, 및 각 센서의 카메라 명시적 파라미터들(explicit parameters) 및 카메라 암시적 파라미터들(implicit parameters)을 복호화한다. 이후, 몰입형 비디오 복호화 장치는 각 장면, 각 시간 간격, 또는 각 센서에 적합한 카메라 파라미터들을 이용하여 사용자를 위한 뷰 포트를 추출할 수 있다.

Description

MPEG 몰입형 비디오를 위한 카메라 파라미터 그룹핑 및 업데이트 방법{Method for Camera Parameter Grouping and Updating for MPEG Immersive Video}

본 개시는 MPEG 몰입형 비디오를 위한 카메라 파라미터 그룹핑 및 업데이트 방법에 관한 것이다.

이하에 기술되는 내용은 단순히 본 발명과 관련되는 배경 정보만을 제공할 뿐 종래기술을 구성하는 것이 아니다.

6DoF는 전방위(omnidirectional) 비디오에 자유로운 움직임 시차(motion parallax)를 제공하고, 3DoF+ 비디오는 고정 시점의 머리를 중심으로 제한된 한도 내에서 움직임 시차를 제공한다. 6DoF 비디오 또는 3DoF+ 비디오는 Windowed 6DoF와 Omnidirectional 6DoF 방식으로 획득 가능하다. 여기서, Windowed 6DoF는 다시점 카메라(multi-view camera) 시스템으로부터 획득되므로, 창문 형태의 영역과 같이, 사용자가 바라보는 현재 및 이웃의 시점을 평행 이동으로 제한한다. Omnidirectional 6DoF는 360 도 비디오를 다시점으로 구성하여 사용자 시점에 맞추어 제한된 공간에서 시청 자유도를 제공한다. 예컨대, 시청자는 HMD(Head Mounted Display)를 착용한 채로, 제한된 영역에서 3차원의 전방위 가상 환경을 경험할 수 있다

몰입형 비디오는 일반적으로 RGB 또는 YUV 정보로 구성된 텍스처(texture) 비디오와 3차원 기하(geometry) 정보를 포함하는 깊이(depth) 비디오로 구성된다. 이외에도 3차원 상에 가려진 정보를 표현하기 위한 점유맵(occupancy map)이 포함될 수 있다.

MPEG(Moving Picture Experts Group)에서는 몰입형 비디오(immersive video)를 위한 부호화 프로젝트로서 MPEG-I(MPEG-Immersive) 표준화가 진행된다. ISO/IEC 산하의 JTC1(Joint Technical Committee 1)의 SC(Sub Committee)29의 WG4는 몰입형 비디오 압축을 위한 MIV(MPEG Immersive Video) 표준화를 담당하고 있다. ISO/IEC 23090 Part 12(Coded Representation of Immersive Media ― Part 12: Immersive Video)는 MPEG-I 비디오 압축에 관한 표준이다. 또한, MIV 표준의 참조 규격은 ISO/IEC 23090 Part 5(Information technology- Coded representation of immersive media - part 5: V3C(Visual Volumetric Video-based Coding) and V-PCC(Video-based Point Cloud Compression)이다. 패치 방식의 아틀라스 포맷은 포인트 클라우드 표준 중의 하나인 V-PCC와 공통적인 규격으로 표준화되고, 해당 공통적인 규격은 V3C에 제정되고 있으며, part 12는 MIV 특화된 규격만을 정의한다.

몰입형 비디오 복호화 측면에서 뷰 포트(view port)는 전체 전방위 비디오 내에서 사용자가 관람 중인 응시 영역을 나타낸다. 공간을 취득하기 위해 배열한 다시점 카메라들에 대해, 뷰 포트는 일반적으로 카메라 명시적 및 암시적 파라미터들(camera extrinsic parameters, camera intrinsic parameters)를 이용하여 표현된다. 한편, 기존 가상 공간의 개념을 넘어 시청자의 이동 범위를 가상 공간으로 확장하는 메타모빌리티(meta mobility)에서는, 이동 가능한 카메라들이 상이한 시간 및 장소에서 비디오를 획득할 수 있다. 따라서, 이러한 이동 가능 카메라들이 취득한 MIV에 대해, 다시점 카메라 파라미터 시그널링과 그에 따른 동적 뷰 포트 생성을 위해 카메라 명시적 및 암시적 파라미터들의 효율적인 시그널링 방식이 고려될 필요가 있다.

본 개시는, 몰입형 비디오의 부호화 및 복호화에 있어서, 이동 가능 다시점 카메라들의 임의 배열에 따라 상이한 시간 및 장소에서 취득된 MIV에 대해, 다시점 카메라 파라미터들을 효율적으로 그룹핑하고 업데이트하는 방법을 제공하는 데 목적이 있다.

본 개시의 실시예에 따르면, 몰입형 비디오 복호화 장치가 수행하는, 몰입형 비디오를 복호화하는 방법에 있어서, 비트스트림으로부터 카메라 시점들(view points)의 개수를 복호화하는 단계; 상기 비트스트림으로부터 장면들(scenes)의 개수를 복호화하는 단계, 여기서, 상기 장면들의 개수는 상이한 그룹의 다시점 비디오가 배치된 공간들의 개수를 나타냄; 및 상기 카메라 시점들의 개수 및 상기 장면들의 개수에 기초하여 상기 비트스트림으로부터 각 장면의 카메라 파라미터들을 복호화하는 단계를 포함하되, 상기 카메라 파라미터들은, 카메라 명시적 파라미터들(explicit parameters) 및 카메라 암시적 파라미터들(implicit parameters)을 포함하는 것을 특징으로 하는, 방법을 제공한다.

본 개시의 다른 실시예에 따르면, 몰입형 비디오 부호화 장치가 수행하는, 몰입형 비디오를 부호화하는 방법에 있어서, 카메라 시점들(view points)의 개수를 결정하는 단계; 장면들(scenes)의 개수를 결정하는 단계, 여기서, 상기 장면들의 개수는 상이한 그룹의 다시점 비디오가 배치된 공간들의 개수를 나타냄; 및 상기 카메라 시점들의 개수 및 상기 장면들의 개수에 기초하여 각 장면의 카메라 파라미터들을 결정하는 단계를 포함하되, 상기 카메라 파라미터들은, 카메라 명시적 파라미터들(explicit parameters) 및 카메라 암시적 파라미터들(implicit parameters)을 포함하는 것을 특징으로 하는, 방법을 제공한다.

본 개시의 다른 실시예에 따르면, 몰입형 비디오 부호화 방법에 의해 생성된 비트스트림을 저장하는 컴퓨터 판독 가능한 기록매체로서, 상기 몰입형 비디오 부호화 방법은, 카메라 시점들(view points)의 개수를 결정하는 단계; 장면들(scenes)의 개수를 결정하는 단계, 여기서, 상기 장면들의 개수는 상이한 그룹의 다시점 비디오가 배치된 공간들의 개수를 나타냄; 및 상기 카메라 시점들의 개수 및 상기 장면들의 개수에 기초하여 각 장면의 카메라 파라미터들을 결정하는 단계를 포함하되, 상기 카메라 파라미터들은, 카메라 명시적 파라미터들(explicit parameters) 및 카메라 암시적 파라미터들(implicit parameters)을 포함하는 것을 특징으로 하는, 기록매체를 제공한다.

이상에서 설명한 바와 같이 본 실시예에 따르면, 이동 가능 다시점 카메라들의 임의 배열에 따라 상이한 시간 및 장소에서 취득된 MIV에 대해, 다시점 카메라 파라미터들을 효율적으로 그룹핑하고 업데이트하는 방법을 제공함으로써, 몰입형 비디오 부호화 및 복호화에 있어서, 시공간의 제약 없이 풍부한 3원 공간 정보를 신속하게 처리하여 메타모빌리티 서비스를 위한 고효율 저비용 실감 미디어를 전송하는 것이 가능해지는 효과가 있다.

또한, 원격 탐사 공간에서의 몰입감을 극대화시키는 것이 가능해지는 효과가 있다. 예컨대, 우주 공간과 같은 직접 탐사하기 어려운 환경이 시공간의 제약 없이 가상 환경에서 원격으로 탐사되고 경험될 수 있다.

또한, 시간과 장면에 따라 그룹핑된 카메라 파라미터들, 및 각 시점에서의 텍스처와 깊이 정보를 활용하여, 전송되지 않은 시점의 공간 정보를 합성하고, 보다 자연스러운 입체 비디오를 재현하는 것이 가능해지는 효과가 있다. 예컨대, 시간 순으로 인덱싱된 카메라 파라미터들을 기반으로 입체 비디오의 프레임들 간 보간을 이용하여 특정 장면에서 주변 환경 정보가 실시간으로 재현될 수 있다. 또한, 장면에 따라 인덱싱된 카메라 파라미터 정보를 사용하여 각 장면에 대해 다양한 시점에서 공간 정보가 재구성될 수 있고, 이에 따라 사용자는 임의의 시점 및 장면에서 높은 시청 자유도를 가질 수 있다.

또한, 시간에 따라 입체 비디오의 카메라 명시적 및 암시적 파라미터들이 효율적으로 업데이트되므로, 임의의 가상 환경 공간에서 사용자와 주변 환경 간의 원활한 상호작용을 실현하는 것이 가능해지는 효과가 있다. 사용자는 가상 환경에서 자유롭게 시점을 이동하면서 실시간으로 주변 환경과 소통함으로써, 주변 환경을 몰입감 있게 경험할 수 있다.

도 1은 본 개시의 기술들을 구현할 수 있는, 몰입형 비디오 부호화 장치에 대한 예시적인 블록도이다.
도 2는 몰입형 비디오 부호화 장치 내 시점 최적화의 과정을 나타내는 예시도이다.
도 3은 몰입형 비디오 부호화 장치 내 푸르너의 동작을 나타내는 예시도이다.
도 4는 본 개시의 기술들을 구현할 수 있는, 몰입형 비디오 복호화 장치에 대한 예시적인 블록도이다.
도 5는 MIV 모드에서의 부호화 방식을 나타내는 예시도이다.
도 6는 그룹 인코딩의 개념을 나타내는 예시도이다.
도 7은 본 개시의 일 실시예에 따른, 시간에 따라 카메라의 위치 및 배열이 변하는 경우를 나타내는 예시도이다.
도 8은 본 개시의 일 실시예에 따른, 카메라가 취득한 시점 공간 및 장면이 변화함에 따라 카메라의 위치 및 배열이 변하는 경우를 나타내는 예시도이다.
도 9는 본 개시의 일 실시예에 따른, 몰입형 비디오 부호화 장치가 수행하는 카메라 파라미터들을 부호화하는 방법을 나타내는 순서도이다.
도 10은 본 개시의 일 실시예에 따른, 몰입형 비디오 복호화 장치가 수행하는 카메라 파라미터들을 복호화하는 방법을 나타내는 순서도이다.

이하, 본 발명의 실시예들을 예시적인 도면을 참조하여 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 실시예들을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 실시예들의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

도 1은 본 개시의 기술들을 구현할 수 있는, 몰입형 비디오 부호화 장치에 대한 예시적인 블록도이다.

MPEG-I에서 개발하고 있는 다시점 몰입 비디오의 압축을 위한 소프트웨어모델을 TMIV(Test model for MIV)라고 한다. 도 1의 예시에 따르면, TMIV 인코더, 즉, 몰입형 비디오 부호화 장치(이하, '부호화 장치')의 입력은 순서대로 시점 최적화기, 아틀라스 구성기를 거친 후, 텍스처 및 깊이 부호화기를 이용하여 부호화된다. 부호화 장치는 전방위 카메라로부터 획득된 다수의 텍스처(texture) 및 기하정보(geometry)를 이용하여 공간상의 중복성을 제거한 후 아틀라스(atlas) 인코딩 포맷을 생성함으로써, 적은 수의 비디오 코덱을 이용하여 몰입형 비디오를 압축할 수 있다.

부호화 장치 내 아틀라스 생성기는 아틀라스 패치로 구성되는 MIV 포맷을 생성한다. 아틀라스 패치 영상은 HEVC 또는 VVC 코덱으로 구성된 텍스터 부호화기 및 깊이 부호화기를 거쳐 압축된다. 몰입형 비디오 복호화 장치(이하, '복호화 장치')는 비디오 텍스처 및 깊이 정보에 관한 기본 시점 및 아틀라스를 복원한다. 또한, 복호화 장치는 중간시점영상 합성을 이용하여 시청자의 움직임에 따라 뷰 포트(view port) 영상을 생성할 수 있다. 이러한 과정에 관한 제어정보로서 메타데이터가 필요하므로, 메타데이터와 비트스트림 구조에 대해 표준화가 진행된다.

이하, 몰입형 비디오와 MIV는 호환적으로 사용된다.

이하, 도 1의 도시를 참조하여 몰입형 비디오 부호화 장치와 이 장치의 하위 구성요소들에 대하여 자세히 설명하도록 한다.

부호화 장치는 시점 최적화기(view optimizer, 110), 아틀라스 구성기(atlas constructor, 120), 텍스처 부호화기(texture encoder, 130), 깊이 부호화기(depth encoder, 140), 및 메타데이터 합성기(metadata composer, 150)의 전부 또는 일부를 포함한다. 부호화 장치는, 입력된 다시점 비디오를 시점 최적화기(110), 및 아틀라스 구성기(120)를 순서대로 이용하여 MIV(MPEG Immersive Video) 포맷을 생성한 후, 텍스처 인코더(130) 및 깊이 인코더(140)를 이용하여 MIV 포맷의 데이터를 부호화한다.

시점 최적화기(110)는 입력된 다시점 비디오에 포함된 전체 시점들을 기본 시점(basic view)과 추가 시점(additional view)으로 분류한다.

이러한 시점 최적화를 위해, 시점 최적화기(110)는 몇 개의 기본 시점이 필요한지를 계산하고, 결정된 기본 시점의 개수만큼 기본 시점을 선택한다. 시점 최적화기(110)는, 도 2에 예시된 바와 같이, 각 시점 간의 물리적 위치(예를 들어, 시점 간의 각도 차이) 및 상호 간의 겹침을 이용하여 기본 시점과 추가 시점을 결정할 수 있다. 따라서, 전체 시점에서 가장 공통된 장면을 많이 갖는 시점이 기본 시점으로 선택될 수 있다. 기본 시점 및 추가 시점이 선택된 후, 기본 시점은 보존이 되어 부호화기에 직접 입력된다.

본 개시에 따른 다른 실시예에 있어서, 시점 최적화기(110)는 카메라의 시점 및 용도를 고려하여 전체 시점을 우선 그룹핑한 후, 각 그룹별 기본 시점 및 추가 시점을 구성할 수 있다.

아틀라스 구성기(120)는 기본 시점과 추가 시점으로부터 아틀라스를 구성한다. 전술한 바와 같이, 시점 최적화기(110)에서 선택된 기본 시점들은 온전한 영상 그대로 아틀라스에 포함된다. 아틀라스 구성기(120)는 기본 시점을 기준으로 예측이 어려운 부분들을 나타내는 패치들을 추가 시점로부터 생성한 후, 다수의 추가 시점으로부터 생성된 패치들을 하나의 아틀라스로 구성한다. 아틀라스를 생성하기 위해, 아틀라스 구성기(120)는, 도 1에 예시된 바와 같이, 프루너(Pruner, 122), 애그리게이터(Aggregator, 124) 및 패치 패커(Patch packer, 126)를 포함한다.

프루너(122)는, 도 3에 예시된 바와 같이, 기본 시점들을 보존한 채로 추가 시점들의 중복된 부분을 제거하되, 추가 시점에 포함된 픽셀들의 중복 여부를 나타내는 이진 마스크를 생성한다. 예컨대, 하나의 추가 시점에서의 마스크는 추가 시점과 동일한 해상도를 가지며, '1' 값은 깊이 영상의 해당 픽셀에서의 값이 유효함을 나타내고, '0'은 기본 시점과 중복되므로 제거되어야 할 픽셀임을 나타낸다.

프루너(122)는 깊이 정보를 기반으로 3차원 좌표에서 와핑(warping)하여 중복되는 정보를 탐색한다. 여기서, 와핑이란 깊이 정보를 이용하여 두 시점 간의 변위 벡터 예측 및 보상을 수행하는 과정을 나타낸다.

프루너(122)는, 도 3에 예시된 바와 같이, 프루닝 처리가 완료된 추가 시점과도 중복성을 확인하여 최종적으로 마스크를 생성한다. 즉, 도 3의 예시에서, 추가 시점 v2의 경우, 프루너(122)는 기준 시점 v0 및 v1과의 중복성을 확인하여 마스크를 생성하고, 추가 시점 v3의 경우, 프루너(122)는 기준 시점 v0 및 v1, 추가 시점 v2와의 중복성을 확인하여 마스크를 생성한다.

애그리게이터(124)는 시간적 순서에 따라 각 추가 시점별로 생성된 마스크를 누적한다. 이러한 마스크의 누적은 최종 아틀라스의 구성 정보를 감소시킬 수 있다.

패치 패커(126)는 기본 시점 및 추가 시점의 패치들을 패킹하여 최종적으로 아틀라스를 생성한다. 기본 시점의 텍스처 및 깊이 정보의 경우, 패치 패커(126)는 원본 영상을 패치로 이용하여 기본 시점의 아틀라스를 구성한다. 추가 시점의 텍스처 및 깊이 정보의 경우, 패치 패커(126)는 마스크를 이용하여 블록 패치들을 생성한 후, 블록 패치들을 패킹하여 추가 시점의 아틀라스를 구성한다.

텍스처 부호화기(130)는 텍스처 아틀라스를 부호화한다.

깊이 부호화기(140)는 깊이 아틀라스를 부호화한다.

텍스처 부호화기(130) 및 깊이 부호화기(140)는, 전술한 바와 같이, HEVC 또는 VVC와 같은 기존의 부호화기를 이용하여 구현될 수 있다.

메타데이터 합성기(150)는 부호화에 관련된 시퀀스 파라미터(sequence parameter), 다시점 카메라에 대한 메타데이터, 및 아틀라스 관련된 파라미터를 생성한다.

부호화 장치는 부호화된 텍스처, 부호화된 깊이, 및 메타데이터가 결합된 비트스트림을 생성하여 전송한다.

도 4는 본 개시의 기술들을 구현할 수 있는, 몰입형 비디오 복호화 장치에 대한 예시적인 블록도이다.

몰입형 비디오 복호화 장치(이하, '복호화 장치')는 텍스처 복호화기(texture decoder, 410), 깊이 복호화기(depth decoder, 420), 메타데이터 분석기(metadata parser, 430), 아틀라스 패치 점유맵 생성기(atlas patch occupation map generator, 440, 이하 '점유맵 생성기') 및 렌더러(renderer, 450)의 전부 또는 일부를 포함한다.

텍스처 복호화기(410)는 비트스트림으로부터 텍스처 아틀라스를 복호화한다.

깊이 복호화기(420)는 비트스트림으로부터 깊이 아틀라스를 복호화한다.

메타데이터 분석기(430)는 비트스트림으로부터 메타데이터를 파싱(parsing)한다.

점유맵 생성기(440)는 메타데이터에 포함된 아틀라스 관련된 파라미터를 이용하여 점유맵을 생성한다. 점유맵은 블록 패치들의 위치와 관련된 정보로서, 부호화 장치에서 생성된 후 복호화 장치로 전송되거나, 복호화 장치에서 메타데이터를 이용하여 생성될 수 있다.

렌더러(450)는 텍스처 아틀라스, 깊이 아틀라스, 및 점유맵을 이용하여 사용자에게 제공하기 위한 몰입형 비디오를 복원한다.

전술한 바와 같이, HEVC 또는 VVC와 같은 기존의 부호화기를 이용하여 아틀라스에 대한 부호화가 수행될 수 있다. 이때, 2 가지의 모드가 적용될 수 있다.

도 5는 본 개시의 일 실시예에 따른 MIV 모드에서의 부호화 방식을 나타내는 예시도이다.

MIV 모드에서, 부호화 장치는 전체 영상을 모두 압축하여 전송한다. 예를 들어, 도 5에 예시된 바와 같이, 10 개의 다시점 비디오가 시점 최적화기(110)와 아틀라스 생성기(120)를 순서대로 거치면, 하나의 기본 시점에 대한 아틀라스와 세 개의 추가 시점에 대한 아틀라스들이 생성된다. 이때, 다시점 비디오의 구성에 따라 부호화 장치는 기본 시점 및 추가 시점의 개수를 각각 다르게 구성할 수 있다. 부호화 장치는 생성된 아틀라스들 각각을 기존의 부호화기를 이용하여 부호화함으로써 비트스트림을 생성할 수 있다.

다른 모드인 MIV 시점 모드에서, 부호화 장치는 아틀라스의 생성이 없이, 열 개의 전체 시점 중, 예를 들어, 다섯 개의 시점을 전송한다. 복호화 장치는 전송받은 깊이 정보와 텍스처 정보를 이용하여 나머지 다섯 개의 중간 시점을 합성한다.

복호화 장치의 복잡도 감소 측면에서 아틀라스를 이용하는 장점은 다음과 같다. 도 5의 예시에 있어서, 부호화 장치가, 텍스처 및 깊이를 포함하여 총 20 개의 인코더를 이용하여 10 개의 전체 시점을 모두 전송하는 경우, 복호화 장치도 텍스처 및 깊이를 포함하여 총 20 개의 디코더가 필요하다. 반면, 부호화 장치가 하나의 기본 시점 및 세 개의 추가 시점에 대한 아틀라스를 생성한 후, 텍스처 및 깊이를 포함하여 총 8 개의 인코더를 이용하여 아틀라스를 전송하게 되면, 복호화 장치도 텍스처 및 깊이를 포함하여 총 8 개의 디코더가 필요하게 되어, 복잡도가 대폭 감소될 수 있다.

한편, TMIV 인코더, 즉, 부호화 장치는 그룹 인코더(group encoder)를 이용한다. 부호화 장치는 전방위 공간에서 획득된 텍스처와 기하 정보를 공간적으로 그룹핑하고 그룹 공간별 몰입형 비디오를 부호화한다. 이때, 각 그룹마다 생성된 아틀라스 영상은 비디오 부호화된다. 복호화 장치는 이러한 그룹 개념을 이용하여 공간에 따라 비트스트림별로 부분 복호화가 가능하므로, 보다 빠른 복호화가 가능하다.

도 6는 그룹 인코딩의 개념을 나타내는 예시도이다.

단일한(single) 부호화 장치를 이용하여 모든 공간에 대한 몰입형 비디오를 압축 전송하고, 단일한 복호화 장치를 이용하여 모든 공간에 대한 몰입형 비디오를 모두 복호화하는 데는 한계가 존재한다. 따라서, 부호화 장치는 공간을 나누고 공간별 몰입형 비디오를 부호화하여 생성된 다중화된 비트스트림을 전송한다. 복호화 장치는 시청자에 의해 선택된 뷰 포트 영상에 필요한 비트스트림을 추출한 후, 추출된 비트스트림을 복호화하여 생성된 몰입형 비디오를 렌더링할 수 있다. 도 6의 예시에서, 4 개의 공간별로 부호화 장치가 사용된다.

이하, 다시점 카메라 파라미터들의 시그널링에 대해 기술한다.

뷰 포트는 전체 전방위 비디오 내에서 사용자가 관람 중인 응시 영역을 나타낸다. 공간을 취득하기 위해 배열한 다시점 카메라들에 대해, 뷰 포트는 일반적으로 카메라 명시적 및 암시적 파라미터들(camera extrinsic parameters, camera intrinsic parameters)을 이용하여 표현된다. ISO/IEC 23090 Part 12에서, 카메라의 명시적 파라미터들과 암시적 파라미터들을 포함하는 MIV 뷰 파라미터 리스트(view parameter list)는 표 1과 같이 정의되고, 부호화 장치는 정의된 신택스를 복호화 장치로 시그널링할 수 있다.

여기서, mvp_num_views_minus1은 '카메라 시점들(view points)의 개수 - 1'을 나타낸다. 따라서, 'mvp_num_views_minus1 + 1'은 카메라 시점들의 개수를 나타낸다. 또는, 'mvp_num_views_minus1 + 1'은 시점들에 해당하는 카메라의 개수를 나타낼 수 있다.

mvp_explicit_view_id_flag은 mvp_view_id[v]가 miv_view_params_list() 신택스 구조 내에 있는지 여부를 나타낸다. 예컨대, mvp_explicit_view_id_flag가 1로서 참인 경우, mvp_view_id[v]가 miv_view_params_list() 신택스 구조 내에 있음을 나타낸다. 여기서, v는 인덱스를 나타낸다.

mvp_view_id[v]는 인덱스 v에 해당하는 카메라 ID(Identity)를 나타낸다. ID는 0 내지 65535의 값이다. 여기서, 인덱스가 상이한 카메라의 ID는 반드시 상이해야 한다.

ViewIDToIndex와 ViewIndexToID는 카메라 ID와 인덱스 간의 변환 함수를 나타낸다.

mvp_intrinsic_params_equal_flag는 인덱스 0를 갖는 카메라의 암시적 파라미터들과 나머지 카메라들의 암시적 파라미터들이 동일한지 여부를 나타낸다. 예컨대, mvp_intrinsic_params_equal_flag가 참인 경우, 부호화 장치는 인덱스 0 카메라의 암시적 파라미터들만을 시그널링한다. 반면, mvp_intrinsic_params_equal_flag가 거짓인 경우, 부호화 장치는 모든 카메라들에 대해 암시적 파라미터들을 시그널링한다.

다음, 카메라 명시적 파라미터들은 표 2와 같다.

여기서, ce_view_pos_x[viewID], ce_view_pos_y[viewID], 및 ce_view_pos_z[viewID]는 viewID를 갖는 카메라의 x 축 위치, y 축 위치, 및 z 축 위치를 나타낸다.

ce_view_quat_x[viewID], ce_view_quat_y[viewID], 및 ce_view_quat_z[viewID]는 viewID를 갖는 카메라의 x 축 방향 회전, y 축 방향 회전, 및 z 축 방향 회전을 나타낸다.

다음, 카메라 암식적 파라미터들은 표 3과 같다.

ci_cam_type[viewID]는 viewID를 갖는 카메라의 프로젝션 방식을 나타낸다. ci_cam_type[viewID] 0은 ERP(Equirectangular Projection) 방식을 나타내고, 1은 perspective 프로젝션 방식을 나타내며, 2는 orthographic 프로젝션 방식을 나타낸다.

ci_erp_phi_min[viewID] 및 ci_erp_phi_max[viewID]는 ERP 방식에서 경도 방향의 각도 범위를 나타낸다. 각각은 -180° ~ 180° 값들 중 하나이다. 또한, ci_erp_tkheta_min[viewID] 및 ci_erp_theta_max[viewID]는 ERP 방식에서 위도 방향의 각도 범위를 나타낸다. 각각은 -90° ~ 90° 값들 중 하나이다.

ci_perspective_focal_hor[viewID] 및 ci_perspective_focal_ver[viewID]는 perspective 프로젝션 방식에서 카메라 초점 수평 위치 및 초점 수직 위치를 나타낸다. 또한, ci_perspective_principal_point_hor[viewID] 및 ci_perspective_principal_point_ver[viewID]는 perspective 프로젝션 방식에서 원점 위치를 나타낸다.

ci_ortho_width[viewID] 및 ci_ortho_height[viewID]는 orthographic 프로젝션 방식에서 너비 및 높이를 나타낸다.

한편, 메타버스(metaverse)는 가상 및 초월을 의미하는 메타와 현실 세계를 의미하는 유니버스(universe)의 합성어로서, 메타버스 환경에서 비디오의 시청자는 가상과 현실이 상호 작용하는 혼합 현실을 경험할 수 있다. 기존 메타버스 비디오 콘텐츠는 컴퓨터 그래픽스에 의존하고 있으나, 가상 환경에 더하여 임의 실재 공간에서 취득한 실사 비디오를 이용하여 시청자는 더욱 자연스러운 공간감 및 실재감을 느낄 수 있다. 가상 공간에서 사용자는 6DOF의 자유로운 이동에 따라 실재감을 극대화할 수 있다.

현재까지 6DoF 몰입형 비디오는 기존 방송 스튜디오 제작 환경에서 전방위 공간에 배치된 고정된 다시점 카메라를 이용하여 취득되었다. 하지만, 향후 자유롭게 이동이 가능한 카메라를 이용하여 몰입형 비디오가 취득되고, HMD를 이용하여 몰입형 비디오가 감상될 수 있다. 즉, 기존 가상 공간의 개념을 넘어 시청자의 이동 범위를 가상 공간으로 확장시킨다는 측면에서, 메타모빌리티에서는 자율형 에이전트에 장착된 이동 카메라를 이용하여 실제 현장에 있는 듯한 생생한 대리 경험이 가능할 수 있다.

본 실시예는 MPEG 몰입형 비디오를 위한 카메라 파라미터 그룹핑과 업데이트 방법에 관한 내용을 개시한다. 보다 자세하게는, 몰입형 비디오의 부호화 및 복호화 방법에 있어서, 이동 가능 다시점 카메라들의 임의 배열에 따라 상이한 시간 및 장소에서 취득된 MIV에 대해, 다시점 카메라 파라미터들을 효율적으로 그룹핑하고 업데이트하는 방법을 제공한다.

본 실시예를 설명하기에 앞서, 본 실시예가 적용되는 경우를 먼저 기술한다.

우선, 본 실시예는 시간에 따라 카메라의 위치 및 배열이 변하는 경우에 사용될 수 있다. 본 실시예에서, 고정 무대에서 고정 다시점 카메라 배열로 영상을 취득하는 대신, 자율 주행 차량, 로봇 등과 같은 자율형 이동 군집 지능형 개체들이 카메라들을 이용하여 객체 및 장면을 취득할 수 있다. 또한, 해당 전방위 비디오로부터 사용자 뷰 포트가 추출된다. 예를 들어, 도 7 예시된 도시들에서, 박스들은 카메라 배열이 시간에 따라 바뀌는 경우를 나타낸다.

본 실시예는, 카메라가 취득한 시점 공간 및 장면이 변화함에 따라 카메라의 위치 및 배열이 변하는 경우에 사용될 수 있다. 본 실시예는, 고정 무대에서 고정 다시점 카메라 배열이 취득한 영상으로 구성된 하나의 비디오를 대신하여, 사용자 상호작용(interaction)에 따라 관람 시점 동안 사용자가 임의 공간으로 시점을 이동하여 다른 장면을 관람하는 경우에 적용될 수 있다, 본 실시예는 여러 공간에 사전에 배치된 하나 이상의 다시점 비디오 그룹에 대해 뷰 포트 추출에 사용될 수 있다. 예를 들어, 도 7 예시된 도시들에서, 굵은 박스들은 카메라 배열이 공간에 따라 일부 바뀌는 경우를 나타내고, 우측의 가느다란 박스는 전혀 새로운 카메라 ID들로 카메라 배열이 바뀌는 경우를 나타낸다.

또한, 본 실시예는 장면별로 구성된 상이한 종류의 전방위 비디오 센서들이 비디오를 취득하는 경우에 사용될 수 있다. 사용자가 관람 시점 동안에 고정된 환경이 아닌 임의의 여러 공간과 상호 작용하며 시점을 이동하는 경우, 본 실시예가 뷰 포트 추출에 사용될 수 있다. 본 실시예는, 하나의 장면에 대해 고정된 해상도와 고정된 포맷으로 구성된 전방위 비디오를 대신하여, 상이한 범위의 시야(field of view, FoV)를 확보하거나 다른 종류의 공간 정보를 취득할 수 있는 센서들에 의해 생성되는 비디오 그룹들을 이용할 수 있다. 본 실시예는 기존의 perspective 2D 비디오 외에도 360° 비디오, 라이더 센서, 깊이 비디오 등에 의해 획득된 다양한 포맷의 전방위 비디오 그룹들을 구성하고, 각 카메라 파라미터들을 그룹핑하여 전송할 수 있다.

<실현예 1> 장면 및 시간에 따라 카메라 파라미터들을 그룹핑하여 전송

본 실현예에 따른 일 예로서, 하나의 공간에서 취득한 비디오를 빠른 속도로 렌더링하기 위해, 부호화 장치는 카메라 파라미터들을 장면별로 그룹핑하여 저장하고, 그룹핑된 파라미터들을 전송한다. 복호화 장치는 그룹핑된 파라미터들을 복호화하고, 복호화된 파라미터들을 뷰 포트 추출에 사용한다. 예를 들어, 부호화 장치는 카메라 명시적 파라미터들을 viewID마다 전송하는 것 외에, 공간 또는 장면마다 상이하게 카메라 명시적 파라미터들을 구성하여 전송한다. 복호화 장치는, 사용자 입력에 따라 공간 및 장면이 전환되는 경우, 공간 또는 장면별 카메라 명시적 파라미터들을 이용하여 해당 공간에서 뷰 포트를 빠르게 추출할 수 있다.

표 4와 같이, MIV 표준인 ISO/IEC 23090 Part 12에서 사용하는 카메라 명시적 신택스가 장면별로 그룹핑되어 시그널링될 수 있다. 이와 유사하게, 카메라 암시적 신택스도 장면별로 그룹핑되어 관리될 수 있다.

또한, 표 5와 같이 MIV 뷰 파라미터 리스트도 장면별로 그룹핑되어 시그널링될 수 있다.

MIV 뷰 파라미터 리스트는 비디오를 구성하는 장면들(scenes)의 개수, 즉, 상이한 그룹의 다시점 비디오가 배치된 공간들의 개수를 나타내는 파라미터를 포함한다. 예를 들어서, 표 5에서 mvp_num_scenes_minus1는 상이한 그룹의 비디오가 취득된 공간들의 개수를 표현하는 파라미터이다. 또한, s는 장면을 나타내는 인덱스이고, 표 4에 예시된 장면에 대한 ID인 sceneID는 s로부터 유도될 수 있다.

전술한 바와 같이, 공간별로 하나의 그룹으로 묶이므로, 복호화 장치는 하나의 공간을 복원함에 있어서, 보다 신속하게 해당 공간을 복호화할 수 있다.

한편, 장면의 개수가 1 개인 경우, 다시점 비디오는 하나의 그룹을 구성한다. 이러한 경우, 부호화 장치는 장면들의 개수를 시그널링하지 않고, 복호화 장치는 장면들의 개수를 1로 유추할 수 있다. 즉, 본 실현예는 고정 무대에서 고정 다시점 카메라 배열이 영상을 취득하는 것을 포괄할 수 있다.

다른 예로서, 시간별로 변하는 카메라의 위치를 반영하기 위해, 부호화 장치는 시간 인덱스를 부여하여 별도의 카메라 파라미터들을 저장하고, 시간 인덱스에 따라 그룹핑된 파라미터들을 전송한다. 복호화 장치는 그룹핑된 파라미터들을 복호화하고, 복호화된 파라미터들을 뷰 포트 추출에 사용한다. 예를 들어, 부호화 장치는 카메라 명시적 파라미터들을 viewID마다 보내는 것 외에, 시간마다 상이한 카메라 명시적 파라미터들을 구성하여 전송한다. 복호화 장치는, 사용자 입력에 따라 시간과 그에 따른 카메라 배열 공간 및 장면이 전환되는 경우, 시간별 카메라 명시적 파라미터들을 이용하여 해당 공간에서 뷰 포트를 빠르게 추출할 수 있다.

예를 들어, 표 6과 같이, MIV 표준인 ISO/IEC 23090 Part 12에서 사용하는 카메라 명시적 신택스가 시간별로 동적으로 그룹핑되어 시그널링될 수 있다. 이와 유사하게 카메라 암시적 신택스도 시간별로 동적으로 그룹핑되어 관리될 수 있다.

또한, 표 7과 같이, MIV 뷰 파라미터 리스트도 시간별로 그룹핑되어 시그널링될 수 있다.

MIV 뷰 파라미터 리스트는 비디오의 구성이 변하는 시간 간격들(time steps)의 개수, 즉, 상이한 그룹의 다시점 비디오를 구성하는 시간 간격들의 개수를 나타내는 파라미터를 포함한다. 예를 들어, 표 7에서 mvp_num_time_minus1는 다시점 비디오 그룹이 시간 간격에 따라 배열되는 변화를 표현하는 파라미터이다. 또한, t는 시간 간격들을 나타내는 인덱스이고, 표 6에 예시된 시간 간격에 대한 ID인 timeID는 t로부터 유도될 수 있다.

전술한 바와 같이, 시간 간격별로 하나의 그룹으로 묶이므로, 복호화 장치는 하나의 시간 간격에 해당하는 다시점 비디오를 복원함에 있어서, 보다 신속하게 해당 다시점 비디오를 복호화할 수 있다.

한편, 시간 간격의 개수가 1 개인 경우, 다시점 비디오는 하나의 그룹을 구성한다. 이러한 경우, 부호화 장치는 시간 간격들의 개수를 시그널링하지 않고, 복호화 장치는 시간 간격들의 개수를 1로 유추할 수 있다. 즉, 본 실현예는, 고정 무대에서 고정 다시점 카메라 배열이 취득한 영상을 하나의 비디오로 구성하는 것을 포괄할 수 있다.

<실현예 2> 장면별로 상이한 포맷의 전방위 비디오를 구성하고 카메라 파라미터들을 그룹핑하여 전송

본 실현예에서, 관람 시점 동안 임의의 장면에서 사용자 시점에 따라 풍부한 3차원 공간 정보를 기반으로 높은 시청 자유도를 제공하기 위해, 부호화 장치는 하나의 장면에 대해 다양한 포맷들을 갖는 몰입형 비디오를 취득한다. 이후, 부호화 장치는 각 포맷에 따라 다시점 카메라 파라미터들을 그룹핑하여 저장하고, 그룹핑된 파라미터들을 전송한다. 복호화 장치는 그룹핑된 파라미터들을 복호화하고, 복호화된 파라미터들을 뷰 포트 추출에 사용한다. 동일한 3차원 환경이 상이한 비디오 포맷과 시점에서 재구성되므로, 부호화 장치는 하나의 장면을 시점 및 시간 측면에서 다양한 포맷들에 따라 전송하고, 복호화 장치는 이러한 다양한 포맷들을 이용하여 공간에서 자유로운 뷰 포트를 추출할 수 있다.

예를 들어, 각 시점에서 FoV는 제한되지만 왜곡이 작은 센서로부터 획득한 다시점 영상 포맷, 및 시점마다 전방위 공간 정보를 획득하지만 시점 각도에 따라 왜곡이 발생하는 360도 VR(Virtual Reality) 카메라로 취득한 다시점 360도 비디오가 상호 보완적으로 사용될 수 있다. 즉, 시점에 따른 공간 정보를 기반으로 폐색 영역과 왜곡을 최소화한 채로 뷰 포트가 재현될 수 있다. 이 외에도 포인터 클라우드 데이터, 및 깊이 정보도 함께 사용될 수 있다. MIV에서, 부호화 장치는 보통의 다시점 비디오 이외에도 360도 다시점 비디오, 포인트 클라우드, 깊이 정보 등과 같은 상이한 종류의 데이터를 부호화할 수 있다. 복호화 장치는 이러한 상이한 데이터를 상호 보완적으로 렌더링할 수 있다.

한편, 표 8과 같이, MIV 표준인 ISO/IEC 23090 Part 12에서 사용하는 카메라 명시적 신택스가 센서별로 그룹핑되어 시그널링될 수 있다. 이와 유사하게 카메라 암시적 신택스도 센서별로 그룹핑되어 관리될 수 있다.

또한, 표 9와 같이, MIV 뷰 파라미터 리스트도 센서별로 그룹핑되어 시그널링될 수 있다.

MIV 뷰 파라미터 리스트는 비디오를 구성하는 센서들의 개수, 즉, 상이한 그룹의 다시점 비디오가 구성되는 센서들의 개수를 나타내는 파라미터를 포함한다. 예를 들어, 표 9에서 mvp_num_sensor_minus1는 상이한 그룹의 비디오가 취득된 센서들의 개수를 표현하는 파라미터이다. 또한, s는 센서를 나타내는 인덱스이고, 표 8에 예시된 센서에 대한 ID인 sensorID는 s로부터 유도될 수 있다.

전술한 바와 같이, 센서별로 하나의 그룹으로 묶이므로, 복호화 장치는 하나의 센서에 해당하는 다시점 비디오를 복원함에 있어서, 보다 신속하게 해당 다시점 비디오를 복호화할 수 있다.

한편, 센서들의 개수가 1 개인 경우, 다시점 비디오는 하나의 그룹을 구성한다. 이러한 경우, 부호화 장치는 센서들의 개수를 시그널링하지 않고, 복호화 장치는 센서들의 개수를 1로 유추할 수 있다. 즉, 본 실현예는, 하나의 장면에 대해 고정된 해상도와 고정된 포맷으로 전방위 비디오를 구성하는 것을 포괄할 수 있다.

한편, 전술한 카메라 파라미터들은 비디오 시퀀스 단위로 전송하는 것 이외에, IRAP(Intra Random Access Pictures) 비디오 프레임, 비디오 픽처, 또는 슬라이스의 헤더 단위에서 전송될 수 있다. 이때, 부호화 장치는 모든 장면별, 시간별, 및 센서별 카메라 파라미터들을 결정한 후, 결정한 파라미터들을 시그널링할 수 있다. 또한, 사용자 시점의 이동이 일어난 경우, 또는 다시점 비디오가 재배열되어 새로운 그룹 비디오가 필요한 경우, 해당되는 카메라 파라미터들이 업데이트된 후, 전송될 수 있다. 복호화 장치는, 장면별, 시간별, 및 센서별 카메라 파라미터들을 복호화한 후, 장면, 시간, 또는 센서에 적합한 카메라 파라미터들을 이용하여 뷰 포트를 추출할 수 있다.

이하, 도 9 및 도 10의 도시를 이용하여, 몰입형 비디오의 카메라 파라미터들을 부호화 및 복호화하는 방법을 기술한다.

도 9는 본 개시의 일 실시예에 따른, 몰입형 비디오 부호화 장치가 수행하는 카메라 파라미터들을 부호화하는 방법을 나타내는 순서도이다.

부호화 장치는 카메라 시점들의 개수를 결정한다(S900). 카메라 시점들에서 다시점 비디오가 획득될 수 있다. 카메라 시점들의 개수는 다시점 비디오의 획득에 이용된 카메라의 개수를 나타낼 수도 있다.

부호화 장치는 장면들의 개수를 결정한다(S902). 여기서, 장면들의 개수는 상이한 그룹의 다시점 비디오가 배치된 공간들의 개수를 나타낸다.

부호화 장치는 카메라 시점들의 개수 및 장면들의 개수에 기초하여 각 장면의 카메라 파라미터들을 결정한다(S904).

여기서, 카메라 파라미터들은, 카메라 명시적 파라미터들 및 카메라 암시적 파라미터들을 포함한다. 카메라 명시적 파라미터들은, 각 카메라 시점 및 각 장면에 해당하는 카메라의 위치, 및 카메라의 회전 방향을 포함한다. 또한, 카메라 암시적 파라미터들은, 각 카메라 시점 및 각 장면에 해당하는 카메라의 프로젝션 방식, 및 프로젝션 방식을 표현하는 파라미터 값들을 포함한다.

부호화 장치는 시간 간격들의 개수를 결정한다(S906). 여기서, 시간 간격들의 개수에 따라 상이한 그룹의 다시점 비디오가 구성될 수 있다.

부호화 장치는 카메라 시점들의 개수 및 시간 간격들의 개수에 기초하여 각 시간 간격의 카메라 파라미터들을 결정한다(S908).

이때, 카메라 명시적 파라미터들은, 각 카메라 시점 및 각 시간 간격에 해당하는 카메라의 위치, 및 카메라의 회전 방향을 포함한다. 또한, 카메라 암시적 파라미터들은, 각 카메라 시점 및 각 시간 간격에 해당하는 카메라의 프로젝션 방식, 및 프로젝션 방식을 표현하는 파라미터 값들을 포함한다.

부호화 장치는 센서들의 개수를 결정한다(S910). 여기서, 센서들의 개수에 따라 상이한 그룹의 다시점 비디오가 구성될 수 있다. 또한, 각 센서는, 다시점 비디오, 360도 비디오, 포인트 클라우드, 또는 깊이 정보를 획득할 수 있다.

부호화 장치는 카메라 시점들의 개수 및 센서들의 개수에 기초하여 각 센서의 카메라 파라미터들을 결정한다(S912).

이때, 카메라 명시적 파라미터들은, 각 카메라 시점 및 각 센서에 해당하는 카메라의 위치, 및 카메라의 회전 방향을 포함한다. 또한, 카메라 암시적 파라미터들은, 각 카메라 시점 및 각 센서에 해당하는 카메라의 프로젝션 방식, 및 프로젝션 방식을 표현하는 파라미터 값들을 포함한다.

부호화 장치는 카메라 시점들의 개수, 장면의 개수, 시간 간격들의 개수, 및 센서들의 개수를 부호화한다(S914).

부호화 장치는 각 장면의 카메라 파라미터들, 각 시간 간격의 카메라 파라미터들, 및 각 센서의 카메라 파라미터들을 부호화한다(S916).

사용자 시점의 이동이 일어난 경우, 또는 다시점 비디오가 재배열되어 새로운 그룹 비디오가 필요한 경우, 부호화 장치는 해당되는 카메라 파라미터들을 업데이트할 수 있다.

도 10은 본 개시의 일 실시예에 따른, 몰입형 비디오 복호화 장치가 수행하는 카메라 파라미터들을 복호화하는 방법을 나타내는 순서도이다.

복호화 장치는 비트스트림으로부터 카메라 시점들의 개수를 복호화한다(S1000). 카메라 시점들에서 다시점 비디오가 획득될 수 있다. 카메라 시점들의 개수는 다시점 비디오의 획득에 이용된 카메라의 개수를 나타낼 수도 있다.

복호화 장치는 비트스트림으로부터 장면들의 개수를 복호화한다(S1002). 여기서, 장면들의 개수는 상이한 그룹의 다시점 비디오가 배치된 공간들의 개수를 나타낸다.

복호화 장치는 카메라 시점들의 개수 및 장면들의 개수에 기초하여 비트스트림으로부터 각 장면의 카메라 파라미터들을 복호화한다(S1004).

복호화 장치는 비트스트림으로부터 시간 간격들의 개수를 복호화한다(S1006). 여기서, 시간 간격들의 개수에 따라 상이한 그룹의 다시점 비디오가 구성될 수 있다.

복호화 장치는 카메라 시점들의 개수 및 시간 간격들의 개수에 기초하여 비트스트림으로부터 각 시간 간격의 카메라 파라미터들을 복호화한다(S1008).

복호화 장치는 비트스트림으로부터 센서들의 개수를 복호화한다(S1010). 여기서, 센서들의 개수에 따라 상이한 그룹의 다시점 비디오가 구성될 수 있다. 또한, 각 센서는 다시점 비디오, 360도 비디오, 포인트 클라우드, 또는 깊이 정보에 대응한다.

복호화 장치는 카메라 시점들의 개수 및 센서들의 개수에 기초하여 비트스트림으로부터 각 센서의 카메라 파라미터들을 복호화한다(S1012).

이후, 복호화 장치는 각 장면, 각 시간 간격, 또는 각 센서에 적합한 카메라 파라미터들을 이용하여 사용자를 위한 뷰 포트를 추출할 수 있다.

본 명세서의 흐름도/타이밍도에서는 각 과정들을 순차적으로 실행하는 것으로 기재하고 있으나, 이는 본 개시의 일 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것이다. 다시 말해, 본 개시의 일 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 개시의 일 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 흐름도/타이밍도에 기재된 순서를 변경하여 실행하거나 각 과정들 중 하나 이상의 과정을 병렬적으로 실행하는 것으로 다양하게 수정 및 변형하여 적용 가능할 것이므로, 흐름도/타이밍도는 시계열적인 순서로 한정되는 것은 아니다.

이상의 설명에서 예시적인 실시예들은 많은 다른 방식으로 구현될 수 있다는 것을 이해해야 한다. 하나 이상의 예시들에서 설명된 기능들 혹은 방법들은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 임의의 조합으로 구현될 수 있다. 본 명세서에서 설명된 기능적 컴포넌트들은 그들의 구현 독립성을 특히 더 강조하기 위해 "...부(unit)" 로 라벨링되었음을 이해해야 한다.

한편, 본 실시예에서 설명된 다양한 기능들 혹은 방법들은 하나 이상의 프로세서에 의해 판독되고 실행될 수 있는 비일시적 기록매체에 저장된 명령어들로 구현될 수도 있다. 비일시적 기록매체는, 예를 들어, 컴퓨터 시스템에 의하여 판독가능한 형태로 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 예를 들어, 비일시적 기록매체는 EPROM(erasable programmable read only memory), 플래시 드라이브, 광학 드라이브, 자기 하드 드라이브, 솔리드 스테이트 드라이브(SSD)와 같은 저장매체를 포함한다.

이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

110: 시점 최적화기
120: 아틀라스 구성기
130: 텍스처 부호화기
140: 깊이 부호화기
150: 메타데이터 합성기
410: 텍스처 복호화기
450: 깊이 복호화기
430: 메타데이터 분석기
440: 아틀라스 패치 점유맵 생성기
450: 렌더러

Claims

몰입형 비디오 복호화 장치가 수행하는, 몰입형 비디오를 복호화하는 방법에 있어서,
비트스트림으로부터 카메라 시점들(view points)의 개수를 복호화하는 단계;
상기 비트스트림으로부터 장면들(scenes)의 개수를 복호화하는 단계, 여기서, 상기 장면들의 개수는 상이한 그룹의 다시점 비디오가 배치된 공간들의 개수를 나타냄; 및
상기 카메라 시점들의 개수 및 상기 장면들의 개수에 기초하여 상기 비트스트림으로부터 각 장면의 카메라 파라미터들을 복호화하는 단계
를 포함하되,
상기 카메라 파라미터들은,
카메라 명시적 파라미터들(explicit parameters) 및 카메라 암시적 파라미터들(implicit parameters)을 포함하는 것을 특징으로 하는, 방법.
제1항에 있어서,
상기 비트스트림으로부터 시간 간격들(time steps)의 개수를 복호화하는 단계, 여기서, 상기 시간 간격들의 개수에 따라 상기 상이한 그룹의 다시점 비디오가 구성됨; 및
상기 카메라 시점들의 개수 및 상기 시간 간격들의 개수에 기초하여 상기 비트스트림으로부터 각 시간 간격의 카메라 파라미터들을 복호화하는 단계
를 더 포함하는 것을 특징으로 하는, 방법.
제1항에 있어서,
상기 비트스트림으로부터 센서들(sensors)의 개수를 복호화하는 단계, 여기서, 상기 센서들의 개수에 따라 상기 상이한 그룹의 다시점 비디오가 구성됨; 및
상기 카메라 시점들의 개수 및 상기 센서들의 개수에 기초하여 상기 비트스트림으로부터 각 센서의 카메라 파라미터들을 복호화하는 단계
를 더 포함하는 것을 특징으로 하는, 방법.
제1항에 있어서,
상기 카메라 명시적 파라미터들은,
상기 각 카메라 시점 및 각 장면에 해당하는 카메라의 위치, 및 카메라의 회전 방향을 포함하는 것을 특징으로 하는, 방법.
제1항에 있어서,
상기 카메라 암시적 파라미터들은,
상기 각 카메라 시점 및 각 장면에 해당하는 카메라의 프로젝션 방식, 및 상기 프로젝션 방식을 표현하는 파라미터 값들을 포함하는 것을 특징으로 하는, 방법.
제2항에 있어서,
상기 카메라 명시적 파라미터들은,
상기 각 카메라 시점 및 각 시간 간격에 해당하는 카메라의 위치, 및 카메라의 회전 방향을 포함하는 것을 특징으로 하는, 방법.
제2항에 있어서,
상기 카메라 암시적 파라미터들은,
상기 각 카메라 시점 및 각 시간 간격에 해당하는 카메라의 프로젝션 방식, 및 상기 프로젝션 방식을 표현하는 파라미터 값들을 포함하는 것을 특징으로 하는, 방법.
제3항에 있어서,
상기 카메라 명시적 파라미터들은,
상기 각 카메라 시점 및 각 센서에 해당하는 카메라의 위치, 및 카메라의 회전 방향을 포함하는 것을 특징으로 하는, 방법.
제3항에 있어서,
상기 카메라 암시적 파라미터들은,
상기 각 카메라 시점 및 각 센서에 해당하는 카메라의 프로젝션 방식, 및 상기 프로젝션 방식을 표현하는 파라미터 값들을 포함하는 것을 특징으로 하는, 방법.
제3항에 있어서,
상기 각 장면, 상기 각 시간 간격, 또는 상기 각 센서에 적합한 카메라 파라미터들을 이용하여 뷰 포트를 추출하는 단계를 더 포함하는 것을 특징으로 하는, 방법.
제3항에 있어서,
상기 각 센서는,
다시점 비디오, 360도 비디오, 포인트 클라우드, 또는 깊이 정보에 대응하는 하는 것을 특징으로 하는, 방법.
몰입형 비디오 부호화 장치가 수행하는, 몰입형 비디오를 부호화하는 방법에 있어서,
카메라 시점들(view points)의 개수를 결정하는 단계;
장면들(scenes)의 개수를 결정하는 단계, 여기서, 상기 장면들의 개수는 상이한 그룹의 다시점 비디오가 배치된 공간들의 개수를 나타냄; 및
상기 카메라 시점들의 개수 및 상기 장면들의 개수에 기초하여 각 장면의 카메라 파라미터들을 결정하는 단계
를 포함하되,
상기 카메라 파라미터들은,
카메라 명시적 파라미터들(explicit parameters) 및 카메라 암시적 파라미터들(implicit parameters)을 포함하는 것을 특징으로 하는, 방법.
제12항에 있어서,
시간 간격들(time steps)의 개수를 결정하는 단계, 여기서, 상기 시간 간격들의 개수에 따라 상기 상이한 그룹의 다시점 비디오가 구성됨; 및
상기 카메라 시점들의 개수 및 상기 시간 간격들의 개수에 기초하여 각 시간 간격의 카메라 파라미터들을 결정하는 단계
를 더 포함하는 것을 특징으로 하는, 방법.
제13항에 있어서,
센서들(sensors)의 개수를 결정하는 단계, 여기서, 상기 센서들의 개수에 따라 상기 상이한 그룹의 다시점 비디오가 구성됨; 및
상기 카메라 시점들의 개수 및 상기 센서들의 개수에 기초하여 각 센서의 카메라 파라미터들을 결정하는 단계
를 더 포함하는 것을 특징으로 하는, 방법.
제14항에 있어서,
상기 카메라 시점들의 개수, 상기 장면의 개수, 상기 시간 간격들의 개수, 및 상기 센서들의 개수를 부호화하는 단계를 더 포함하는 것을 특징으로 하는, 방법.
제14항에 있어서,
상기 각 장면의 카메라 파라미터들, 상기 각 시간 간격의 카메라 파라미터들, 및 상기 각 센서의 카메라 파라미터들을 부호화하는 단계를 더 포함하는 것을 특징으로 하는, 방법.
제16항에 있어서,
상기 카메라 파라미터들을 부호화하는 단계는,
사용자 시점의 이동이 일어난 경우, 또는 다시점 비디오가 재배열되어 새로운 그룹 비디오가 필요한 경우, 해당되는 카메라 파라미터들을 업데이트하는 것을 특징으로 하는, 방법.
몰입형 비디오 부호화 방법에 의해 생성된 비트스트림을 저장하는 컴퓨터 판독 가능한 기록매체로서, 상기 몰입형 비디오 부호화 방법은,
카메라 시점들(view points)의 개수를 결정하는 단계;
장면들(scenes)의 개수를 결정하는 단계, 여기서, 상기 장면들의 개수는 상이한 그룹의 다시점 비디오가 배치된 공간들의 개수를 나타냄; 및
상기 카메라 시점들의 개수 및 상기 장면들의 개수에 기초하여 각 장면의 카메라 파라미터들을 결정하는 단계
를 포함하되,
상기 카메라 파라미터들은,
카메라 명시적 파라미터들(explicit parameters) 및 카메라 암시적 파라미터들(implicit parameters)을 포함하는 것을 특징으로 하는, 기록매체.