KR20230079184A - 몰입형 비디오의 인코딩 및 디코딩 - Google Patents

몰입형 비디오의 인코딩 및 디코딩 Download PDF

Info

Publication number
KR20230079184A
KR20230079184A KR1020237014792A KR20237014792A KR20230079184A KR 20230079184 A KR20230079184 A KR 20230079184A KR 1020237014792 A KR1020237014792 A KR 1020237014792A KR 20237014792 A KR20237014792 A KR 20237014792A KR 20230079184 A KR20230079184 A KR 20230079184A
Authority
KR
South Korea
Prior art keywords
data
patch
view
reconstructed
data unit
Prior art date
Application number
KR1020237014792A
Other languages
English (en)
Inventor
기스트 바르톨로메우스 윌헬무스 다미아누스 반
바르트 크룬
크리스티안 바레캄프
Original Assignee
코닌클리케 필립스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 엔.브이. filed Critical 코닌클리케 필립스 엔.브이.
Publication of KR20230079184A publication Critical patent/KR20230079184A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/349Multi-view displays for displaying three or more geometrical viewpoints without viewer tracking
    • H04N13/351Multi-view displays for displaying three or more geometrical viewpoints without viewer tracking for displaying simultaneously
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

몰입형 비디오에 대한 멀티-뷰 데이터를 인코딩 및 디코딩하기 위한 개념들이 개시된다. 인코딩 방법에서, 멀티-뷰 데이터의 패치 데이터 유닛이 누락된 데이터를 표현하기 위한 복원된 데이터를 포함하는지를 나타내는 필드를 포함하는 메타데이터가 생성된다. 생성된 메타데이터는 복원된 데이터(예를 들어, 복원된 텍스처 및 깊이 데이터)를 포함하는 패치 데이터 유닛들로부터 원본 텍스처 및 깊이 데이터를 포함하는 패치 데이터 유닛들을 구별하는 수단을 제공한다. 몰입형 비디오의 메타데이터 내의 그러한 정보의 제공은 블렌딩 및 프루닝된 뷰 재구성과 연관된 문제들을 해결할 수 있다. 또한, 몰입형 비디오에 대한 멀티-뷰 데이터를 위한 인코더 및 디코더, 그리고 메타데이터를 포함하는 대응하는 비트스트림이 제공된다.

Description

몰입형 비디오의 인코딩 및 디코딩
본 발명은 몰입형 비디오에 관한 것이다. 본 발명은 특히, 몰입형 비디오에 대한 멀티-뷰 데이터를 인코딩 및 디코딩하기 위한 방법들 및 장치들에 관한 것이다.
6자유도(six-degree-of-freedom, 6DoF) 비디오로도 알려진 몰입형 비디오는, 위치 및 배향이 가변하는 뷰포인트들에 대해 장면의 뷰들이 재구성될 수 있게 하는 3차원(3D) 장면의 비디오이다. 그것은 3자유도(3DoF) 비디오의 개발을 나타내며, 이는 뷰들이 임의의 배향을 갖는 뷰포인트들에 대해, 하지만 공간 내의 고정된 포인트에서만 재구성될 수 있게 한다. 3DoF에서, 자유도들은 각도, 즉, 피치(pitch), 롤(roll), 및 요(yaw)이다. 3DoF 비디오는 머리 회전들을 지원하는데, 다시 말하면, 비디오 콘텐츠를 소비하는 사용자는 장면 내의 임의의 방향을 볼 수는 있지만, 장면 내의 상이한 장소로 이동할 수는 없다. 6DoF 비디오는 머리 회전들을 지원하고, 추가로 장면이 보여지는 장면 내의 위치의 선택을 지원한다.
6DoF 비디오를 생성하기 위해, 장면을 레코딩하기 위한 다수의 카메라들이 필요하다. 각각의 카메라는 이미지 데이터(이러한 맥락에서, 텍스처 데이터로 종종 지칭됨) 및 대응하는 깊이 데이터를 생성한다. 각각의 픽셀에 대해, 깊이 데이터는, 대응하는 이미지 픽셀 데이터가 관찰되는 깊이를 나타낸다. 다수의 카메라들 각각은 장면의 각자의 뷰를 제공한다.
타깃 뷰의 생성에 대한 쟁점은 소스 카메라들로부터의 뷰들에서 이용가능한 이미지 데이터만이 합성될 수 있다는 것이다. 타깃 뷰의 일부 이미지 영역들은 송신된 비디오 스트림들로부터 이용가능하지 않을 수 있다(예를 들어, 그들이 소스 카메라들 중 임의의 것으로부터 보이지 않았기 때문임). 이러한 쟁점을 해결하기 위해, 다른 백그라운드 영역들로부터 이용가능한 색상 데이터를 사용하여 그들 이미지 영역들을 채우거나 또는 '복원(in-painting)'하는 것이 전형적이다. 그러한 '복원'은 뷰-합성 스테이지 후에 (예를 들어, 디코더에서) 후처리 단계로서 수행된다. 이것은, 특히 누락된 데이터의 영역(들)의 크기가 클 때 복잡한 동작이다.
후처리 동안의 복원에 대한 대안은 (예를 들어, 인코더에서) 데이터 인코딩 동안 복원을 착수하고 이어서 생성된 텍스처 아틀라스들을 통상의 패치들과 함께 패킹하는 것이다. 그러나, 이는 하기를 포함하는 연관된 단점들을 갖는다:
(i) 복원된 이미지 영역들은 텍스처들뿐만 아니라 깊이 정보를 수반한다. 깊이 정보는 필요한 재투영을 위해 요구된다. 텍스처 정보 외에도, 복원된 깊이 정보는 또한 원본 깊이 정보보다 품질이 낮다고 고려된다. 결과적으로, 복원된 데이터의 영역들의 재투영은 덜 정확하다.
(ii) 인코딩된 데이터로부터의 (중복 부분들 없이) 프루닝된 소스 뷰들의 재구성 동안, 텍스처 아틀라스들이 추가적인 복원된 이미지 영역들과 함께 패킹될 때 문제가 발생한다. 복원된 패치들 및 원본 이미지 데이터를 갖는 패치들 둘 모두는 재구성된 뷰들 내의 동일한 위치에 맵핑되어, 충돌을 일으킬 수 있다.
(iii) 비디오 스트림들 내에 추가적인 복원된 텍스처들을 패킹하는 것은 그들의 비트레이트를 증가시킨다. 그것은 또한, 깊이 아틀라스들 및 텍스처의 요구되는 (활성) 프레임 크기, 즉, 픽셀레이트를 증가시킨다. 이는 클라이언트 디바이스(이는 전형적으로 단지 제한된 자원들만을 가질 것임)에 대한 자원 요건을 증가시킨다.
본 발명은 청구범위에 의해 한정된다.
본 발명의 태양에 따른 예들에 따르면, 청구항 1에 따른, 몰입형 비디오에 대한 멀티-뷰 데이터를 인코딩하는 방법이 제공된다.
제안된 개념들은 몰입형 비디오에 대한 멀티-뷰 데이터를 인코딩하는 것에 관한 스킴들, 솔루션들, 개념들, 설계들, 방법들 및 시스템들을 제공하는 것을 목표로 한다. 특히, 실시예들은 복원된 데이터를 보유하는 패치 데이터 유닛들로부터 원본 텍스처 및 깊이 정보를 보유하는 패치 데이터 유닛들을 구별하기 위한 개념들을 제공하는 것을 목표로 한다. 이와 같이, 블렌딩 및 프루닝된 뷰 재구성 문제들이 해결될 수 있다. 특히, 실시예들은 몰입형 비디오의 메타데이터를 사용하여 멀티-뷰 데이터의 패치 데이터 유닛이 누락된 데이터를 표현하기 위한 복원된 데이터를 포함하는지를 나타내는 방식을 제공하는 것을 제안한다. 이러한 방식으로, 몰입형 비디오의 기존의 특징을 활용하여 멀티-뷰 데이터 내의 복원된 데이터의 존재를 나타낼 수 있다.
예를 들어, 제안된 실시예들에 따르면, 패치 데이터 유닛이 복원된 데이터를 포함하는지를 나타내는 필드(즉, 신택스 요소, 메타데이터 필드, 데이터로 채워진 메타데이터 요소 또는 입력 요소)를 포함하도록 몰입형 비디오의 메타데이터가 생성될 수 있다.
필드는 적어도 2개의 허용가능한 값들의 세트를 포함할 수 있다. 세트의 제1 값은 멀티-뷰 데이터의 패치 데이터 유닛이 적어도 하나의 뷰포인트로부터 캡처된 원본 이미지 데이터를 포함한다는 것을 나타낼 수 있고, 세트의 제2 값은 멀티-뷰 데이터의 패치 데이터 유닛이 복원된 데이터를 포함한다는 것을 나타낸다. 예를 들어, 필드는 이진 플래그 또는 부울 표시자를 포함하며, 이에 따라 간단한 비트(부울 값 '0'/'로우(low)' 또는 '1'/'하이(high)'를 나타냄)를 포함할 수 있다. 필드는 비트스트림 내의 신택스 요소의 형태를 가질 수 있다. 대안적으로, 필드는 다른 필드들로부터 도출된다. 예를 들어, 제1의 다른 필드는 비트스트림에 존재하는 뷰들의 총 수를 표현할 수 있고, 제2의 다른 필드는 복원되지 않은 뷰들의 총 수를 나타낼 수 있다. 뷰 색인이 복원되지 않은 뷰들의 총 수를 넘을 때, (도출된) 필드는 '1'이고, 그렇지 않으면 그것은 '0'이며, 그 반대도 성립한다. 따라서, 그러한 구현예들은 종래의 몰입형 비디오 메타데이터에 대해 최소의 또는 작은 수정만을 요구할 수 있다.
그러나, 일부 실시예들에서, 허용가능한 값들의 세트는 2개 초과의 허용가능한 값들을 포함할 수 있다. 예를 들어, 필드의 값은 패치 데이터 유닛에 대한 정밀도(Level of Detail, LoD)를 나타낼 수 있다. 필드의 하나의 값은, 패치 데이터 유닛이 최고 품질의 것인 원본/획득된 데이터를 포함한다는 것(그리고 따라서 사용을 위한 최고 우선순위, 즉, 손실 없음)을 나타낼 수 있다. 필드의 다른 값은 패치 데이터 유닛이 획득된 데이터로부터 합성된 데이터를 포함한다는 것(즉, 충실도는 다소 낮지만, 여전히 양호한 품질의 것임)을 나타낼 수 있다. 필드의 또 다른 값은, 패치 데이터 유닛이 최저 품질의 것인 복원된 데이터를 포함한다는 것(그리고 따라서 사용을 위한 최저 우선순위, 즉, 복원 손실)을 나타낼 수 있다. 이러한 방식에서, 필드는 복원된 데이터에 관한 추가의 정보(예컨대, 복원된 데이터의 LoD 상세정보)를 제공할 수 있다. 따라서, 일부 실시예들은 3개 이상의 허용가능한 값들을 갖는 필드를 이용할 수 있다. 따라서, 필드는 복수의 비트들(예를 들어, 하나 이상의 바이트들)을 포함할 수 있다.
멀티-뷰 데이터는 인코딩될 수 있다. 이어서, 필드는 인코딩된 멀티-뷰 데이터의 프레임과 연관될 수 있고, 복원된 데이터를 포함하는 프레임의 하나 이상의 패치 데이터 유닛들의 설명(또는 정의)을 포함할 수 있다.
일부 실시예들에서, 필드는 저장된 값의 식별자 또는 어드레스를 포함한다. 그러한 저장된 값은, 예를 들어, 렌더링 파라미터 값을 포함할 수 있다. 즉, 필드는 하나 이상의 값들이 취출되거나 '찾아'질 수 있게 하는 정보를 포함할 수 있다. 예를 들어, 상이한 렌더링 파라미터 세트들이 사전정의될 수 있고, 각각의 고유한 식별자(예를 들어, 어드레스)를 사용하여 각각 저장될 수 있다. 이어서, 패치 데이터 유닛에 대한 필드에 포함된 식별자/어드레스는 패치 데이터 유닛과 함께 사용할 파라미터 세트(즉, 파라미터 값들의 세트)를 식별하고 취출하는 데 사용될 수 있다. 즉, 패치 데이터 유닛과 연관된 필드는 패치 데이터 유닛에 관련된 추가적인 정보의 위치를 확인하기 위한 식별자 또는 어드레스를 포함할 수 있다.
일부 실시예들은, 멀티-뷰 데이터의 패치 데이터 유닛이 적어도 하나의 뷰포인트로부터 캡처된 원본 이미지 데이터를 포함하는지 또는 누락된 이미지 데이터를 표현하기 위한 복원된 데이터를 포함하는지를 결정하는 것; 및 결정하는 것의 결과에 기초하여, 패치 데이터 유닛이 원본 이미지 데이터를 포함하는지 또는 복원된 데이터를 포함하는지를 나타내기 위한 필드 값을 정의하는 것의 선행하는 단계들을 추가로 포함할 수 있다. 즉, 일부 실시예들은, 패치 데이터 유닛이 복원된 데이터를 포함하는지 또는 아닌지를 결정하기 위해 패치 데이터 유닛을 분석하는 것 그리고 이어서 분석 결과에 따라 필드의 값을 설정하는 것의 프로세스를 포함할 수 있다. 예를 들어, 그러한 프로세스는, 멀티-뷰 데이터 내의 복원된 데이터에 대한 정보가 이와 달리 대안적인 수단에 의해(예를 들어, 사용자 입력을 통해 또는 별개의 데이터 분석 프로세스를 통해) 제공되지 않았을 때 착수될 수 있다.
일부 실시예들에 따르면, 필드 값은 뷰 파라미터를 포함할 수 있다. 멀티-뷰 데이터의 패치 데이터 유닛이 적어도 하나의 뷰포인트로부터 캡처된 원본 이미지 데이터를 포함하는지 또는 누락된 이미지 데이터를 표현하기 위한 복원된 데이터를 포함하는지를 결정하는 것은 이어서, 패치 데이터 유닛이 복원 뷰에 대한 참조를 포함한다는 것을 식별하는 것에 응답하여 멀티-뷰 데이터의 패치 데이터 유닛이 복원된 데이터를 포함한다고 결정하는 것을 포함할 수 있다. 그러한 실시예들에서, 필드는 뷰 파라미터들의 부분일 수 있고, 패치는, 그것이 복원된 뷰를 참조할 때, 복원된 패치로서 식별될 수 있다. 이는, 이어서 패치 데이터 유닛들로 복원되는, 합성 백그라운드 뷰를 생성하는 구현예들에 대해 특히 유익한 것일 수 있다.
추가로, 실시예들은 또한, 결정하는 것의 결과에 기초하여, 패치 데이터 유닛에 적용될 데이터 서브샘플링 인자를 표현하는 정밀도(LoD) 값을 정의하는 단계를 포함할 수 있다. LoD 특징을 이용함으로써, 실시예들은 복원된 패치 데이터 유닛의 다운스케일링을 지원할 수 있다.
멀티-뷰 데이터는 복수의 소스 뷰들을 포함하는 비디오 데이터일 수 있고, 각각의 소스 뷰는 텍스처 값들 및 깊이 값들을 포함한다. 다시 말하면, 위에 요약된 바와 같은 멀티-뷰 데이터를 인코딩하는 방법은 몰입형 비디오를 인코딩하는 방법에 적용될 수 있다.
본 발명의 다른 태양에 따르면, 청구항 8에 따른, 몰입형 비디오에 대한 멀티-뷰 데이터를 디코딩하는 방법이 제공된다. 따라서, 제안된 개념들은 몰입형 비디오에 대한 멀티-뷰 데이터를 디코딩하는 것에 관한 스킴들, 솔루션들, 개념들, 설계들, 방법들 및 시스템들을 제공하는 것을 목표로 한다. 특히, 실시예들은 제안된 실시예들에 따라 인코딩된 멀티-뷰 데이터 및 연관된 메타데이터를 포함하는 비트스트림을 디코딩하기 위한 개념들을 제공하는 것을 목표로 한다. 그러한 개념들에서, 필드가 멀티-뷰 데이터의 패치 데이터 유닛이 복원된 데이터를 포함한다는 것에 기초하여 패치 데이터 유닛의 렌더링 파라미터가 설정된다. 이러한 방식에서, 예를 들어 렌더링 우선순위, 렌더링 순서 또는 블렌딩(혼합) 가중치와 같은, 멀티-뷰 데이터와 연관된 메타데이터의 제안된 필드를 활용하여 패치 데이터 유닛에 대한 뷰 합성을 제어할 수 있다.
예로서, 일 실시예에서, 필드는 렌더링 파라미터 값의 식별자를 포함할 수 있다. 패치 데이터 유닛의 렌더링 파라미터를 설정하는 것은 이어서, 식별자에 기초하여, 렌더링 파라미터 값을 결정하는 것; 및 렌더링 파라미터를 결정된 렌더링 파라미터 값으로 설정하는 것을 포함할 수 있다. 이러한 방식에서, 제안된 실시예들은 하나 이상의 렌더링 파라미터들을 '찾기'위해 필드를 사용하도록 구성될 수 있다. 예를 들어, 다수의 렌더링 파라미터 세트들이 사전정의될 수 있고, 이들 각각은 각자의 고유한 식별자를 갖고, 파라미터 세트는 이어서, 패치 데이터 유닛에 대한 필드에 포함되어 있는 그것의 식별자에 따라 그 패치 데이터 유닛과 함께 사용하기 위해 선택될 수 있다.
일부 실시예들에서, 렌더링 파라미터는 렌더링 우선순위를 포함한다. 패치 데이터 유닛의 렌더링 파라미터를 설정하는 것은 이어서, 필드가, 멀티-뷰 데이터의 패치 데이터 유닛이 복원된 데이터를 포함한다는 것을 나타내는 것에 응답하여, 패치 데이터 유닛의 렌더링 우선순위를 제1 우선순위 값으로 설정하는 것; 및 필드가, 멀티-뷰 데이터의 패치 데이터 유닛이 적어도 하나의 뷰포인트로부터 캡처된 원본 이미지 데이터를 포함한다는 것을 나타내는 것에 응답하여, 패치 데이터 유닛의 렌더링 우선순위를 제2의 상이한 우선순위 값으로 설정하는 것을 포함할 수 있다. 따라서, 패치 데이터 유닛을 렌더링하는 것의 중요도 또는 '가중치'는, 패치 데이터 유닛과 연관된 필드가 그것이 복원된 데이터를 포함하는 것을 나타내는지에 따라 제어될 수 있다. 이는, 뷰 합성 또는 렌더링의 순서화가 복원된 데이터에 관련된 선호도들 또는 요건에 따라 제어될 수 있게 할 수 있다.
또한, 컴퓨터 프로그램이 프로세싱 시스템 상에서 실행될 때, 프로세싱 시스템으로 하여금 위에서 요약된 바와 같은 방법을 구현하게 하기 위한 컴퓨터 코드를 포함하는 컴퓨터 프로그램이 개시된다. 컴퓨터 프로그램은 컴퓨터 판독가능 저장 매체에 저장될 수 있다. 이것은 비일시적 저장 매체일 수 있다.
또한, 청구항 14에 따른 몰입형 비디오에 대한 멀티-뷰 데이터를 인코딩하기 위한 인코더가 제공된다.
청구항 16에 따른 몰입형 비디오에 대한 멀티-뷰 데이터를 디코딩하기 위한 디코더가 더 추가로 제공된다.
또 다른 태양에 따르면, 청구항 17에 따른 몰입형 비디오에 대한 멀티-뷰 데이터 및 연관된 메타데이터를 포함하는 비트스트림이 제공된다.
비트스트림은 위에서 요약된 바와 같은 방법들을 사용하여 인코딩되고 디코딩될 수 있다. 그것은 컴퓨터 판독가능 매체 상에 구현되거나 또는 전자기 반송파로 변조된 신호로서 구현될 수 있다.
본 발명의 이들 및 다른 태양이 본 명세서에서 후술되는 실시예(들)로부터 명백하고 그러한 실시예(들)를 참조하여 설명될 것이다.
본 발명의 더 양호한 이해를 위해, 그리고 본 발명이 어떻게 실시될 수 있는지를 더욱 명확하게 보여주기 위해, 이제 단지 예로서 첨부 도면을 참조할 것이다.
도 1은 본 발명의 제1 실시예에 따른, 몰입형 비디오에 대한 멀티-뷰 데이터를 인코딩하는 방법의 흐름도이다.
도 2는 도 1에 예시된 방법을 수행하도록 구성되는, 일 실시예에 따른 인코더의 블록도이다.
도 3은 본 발명의 제2 실시예에 따른, 몰입형 비디오에 대한 멀티-뷰 데이터를 디코딩하는 방법을 예시하는 흐름도이다.
도 4는 도 3에 예시된 방법을 수행하도록 구성되는, 일 실시예에 따른 디코더의 블록도이다.
본 발명은 도면을 참조하여 기술될 것이다.
상세한 설명 및 구체적인 예는, 장치, 시스템 및 방법의 예시적인 실시예를 나타내지만, 단지 예시의 목적으로 의도되며 본 발명의 범주를 제한하도록 의도되지 않는다는 것이 이해되어야 한다. 본 발명의 장치, 시스템 및 방법의 이들 및 다른 특징, 태양, 및 이점이 하기 설명, 첨부된 청구범위 및 첨부 도면으로부터 더 잘 이해될 것이다. 소정의 수단이 상호 상이한 종속항에 열거된다는 단순한 사실은 이들 수단의 조합이 유리하게 사용될 수 없다는 것을 나타내지는 않는다.
개시된 실시예에 대한 변형이 도면, 개시 내용 및 첨부된 청구범위의 검토로부터, 청구된 발명을 실시함에 있어서 당업자에 의해 이해되고 이루어질 수 있다. 청구범위에서, 단어 "포함하는"은 다른 요소 또는 단계를 배제하지 않으며, 단수 형태(부정 관사 "a" 또는 "an")는 복수를 배제하지 않는다.
도면은 단지 개략적이고 축척에 맞게 도시되지는 않는다는 것이 이해되어야 한다. 동일한 도면 부호가 도면 전체에 걸쳐 동일하거나 유사한 부분을 나타내도록 사용된다는 것이 또한 이해되어야 한다.
본 개시내용에 따른 구현예들은 몰입형 비디오에 대한 멀티-뷰 데이터를 인코딩 및 디코딩하는 것에 관한 다양한 기법들, 방법들, 스킴들 및/또는 솔루션들에 관한 것이다. 제안된 개념들에 따르면, 다수의 가능한 솔루션들이 개별적으로 또는 공동으로 구현될 수 있다. 즉, 이들 가능한 솔루션들이 아래에 개별적으로 설명될 수 있지만, 이들 가능한 솔루션들 중 둘 이상은 하나의 조합으로 또는 다른 조합으로 구현될 수 있다.
MPEG 몰입형 비디오(MPEG Immersive Video, MIV)는 3개의 데이터 스트림들, 즉, 텍스처 데이터, 깊이 데이터(기하학적 구조 또는 범위 데이터라고도 불림) 및 메타데이터를 갖는다. 콘텐츠는 표준 압축 코덱(예를 들어, HEVC)을 사용하여 인코딩되고, 메타데이터는 카메라 파라미터들 및 패치 데이터를 포함한다.
용어들 "패치" 또는 "패치 데이터 유닛"은 몰입형 비디오의 인코딩된 멀티-뷰 프레임(아틀라스) 내의 (직사각형) 영역(즉, 패치)을 지칭한다. 따라서, 패치 내의 픽셀들은 소정 소스 뷰 내의 일부분을 지칭하고, 동일하게 변형되고 투영된다. 패치 데이터 유닛은 절두체 슬라이스 또는 전체 투영 평면에 대응할 수 있다. 즉, 패치는 전체 프레임보다 크기가 더 작은 영역(즉, 프레임의 하위 영역)으로 반드시 제한되는 것은 아니지만, 대신 전체 프레임을 포함할 수 있다.
소스 측에서, 멀티-뷰 데이터는 전체(즉, 캡처된) 뷰들에 대응한다. 몰입형 비디오에서, 인코딩된 멀티-뷰 프레임은 전형적으로 아틀라스로 지칭되고, 하나 이상의 텍스처 및 깊이(기하학적 구조) 이미지들로 이루어진다.
또한, '렌더링 우선순위'에 대한 참조는 순서가 아닌 중요도 또는 상대적 가중치를 참조하는 것으로 간주되어야 한다. 따라서, 패치 데이터 유닛에 높은 렌더링 우선순위가 할당되는 것이 그 패치 데이터 유닛을 렌더링 큐의 앞쪽을 향해 순서대로 위로 이동시킬 수 있게 하지만, 반드시 항상 그렇지는 않을 수 있다. 오히려, 더 높은 렌더링 우선순위가 렌더링 순서에 영향을 줄 수 있지만, 그것은 다른 인자들 또는 패치 데이터 유닛들의 상대적 중요도 또는 가중치로 인해 렌더링 순서를 궁극적으로 변경하거나 바꾸지 않을 수 있다. 즉, 우선순위가 시간적 순서화를 반드시 의미하지는 않는다. 렌더링 순서는 실시예에 의존할 수 있으며, 복원된 데이터 및 원본 데이터의 상이한 렌더링 순서들이 가능하다.
제안된 개념(들)에 따르면, 몰입형 비디오에 대한 멀티-뷰 데이터를 인코딩 및 디코딩하는 방법들이 개시된다. 제안된 인코딩 방법에서, 멀티-뷰 데이터의 패치 데이터 유닛이 누락된 데이터를 표현하기 위한 복원된 데이터를 포함하는지를 나타내는 필드를 포함하는 메타데이터가 생성된다. 생성된 메타데이터는 복원된 데이터(예를 들어, 복원된 텍스처 및 깊이 데이터)를 포함하는 패치 데이터 유닛들로부터 원본 텍스처 및 깊이 데이터를 포함하는 패치 데이터 유닛들을 구별하는 수단을 제공한다. 몰입형 비디오의 메타데이터 내의 그러한 정보의 제공은 (타깃 뷰-합성의 부분으로서의) 블렌딩 및 프루닝된 뷰 재구성과 연관된 문제들을 해결할 수 있다.
멀티-뷰 데이터의 패치 데이터 유닛이 복원된 데이터를 포함하는지를 나타내는 필드를 포함하는 메타데이터를 제공함으로써, 실시예들은 몰입형 비디오 내의 복원된 데이터의 위치(들)를 나타내기 위한 수단을 제공할 수 있다. 이는 또한, 복원된 데이터를 갖는 패치 데이터 유닛이 감소된 정밀도(LoD)를 이용할 수 있게 하여, 이에 의해, 요구되는 비트레이트 및 픽셀레이트를 감소시킬 수 있다.
따라서, 제안된 개념(들)을 따르면, 몰입형 비디오의 메타데이터는 몰입형 비디오의 멀티-뷰 데이터 내의 복원된 데이터의 존재, 위치 및 정도를 나타내도록 향상될 수 있다. 제안된 인코딩 방법은 하나 이상의 패치들 내의 복원된 데이터를 나타내는 (향상된) 메타데이터를 출력할 수 있다. 이러한 (향상된) 메타데이터는 뷰들을 렌더링 또는 합성하기 위해, 대응하는 디코딩 방법에 의해 사용될 수 있다. 또한, 멀티-뷰 데이터를 위한 인코더 및 디코더, 그리고 그러한 (향상된) 메타데이터를 포함하는 대응하는 비트스트림이 제공된다.
도 1은 본 발명의 제1 실시예에 따른 인코딩 방법을 예시한다. 도 2는 도 1의 방법을 수행하기 위한 인코더의 개략적 블록도이다.
인코더(200)는 입력 인터페이스(210); 분석기(220); 메타데이터 인코더(230); 및 출력부(240)를 포함한다.
단계(110)에서, 입력 인터페이스(210)가 패치 데이터 유닛들을 포함하는 멀티-뷰 데이터를 수신한다. 본 실시예에서, 멀티-뷰 데이터는 복수의 소스 뷰들을 포함하는 몰입형 비디오 데이터이다. 각각의 소스 뷰는 텍스처 값들 및 깊이 값들을 포함한다. 텍스처 값 및 깊이 값들의 인코딩은 본 발명의 범주 밖에 있고, 여기서는 추가로 논의되지 않을 것이다. 입력 인터페이스(210)는 분석기(220)에 결합된다.
단계(120)에서, 분석기(220)는 멀티-뷰 데이터의 패치 데이터 유닛이 적어도 하나의 뷰포인트로부터 캡처된 원본 이미지 데이터를 포함하는지 또는 누락된 이미지 데이터를 표현하기 위한 복원된 데이터를 포함하는지를 결정한다.
단계(125)에서, 분석기는 결정하는 것의 결과에 기초하여, 패치 데이터 유닛이 원본 이미지 데이터를 포함하는지 또는 복원된 데이터를 포함하는지를 나타내기 위한 필드 값을 정의한다.
따라서, 분석기의 작업은 패치 데이터 유닛이 원본 이미지 데이터를 포함하는지 또는 복원된 데이터를 포함하는지를 식별하는 것 및 그러한 분석의 결과를 나타내는 것이다. 분석기(220)는 분석의 결과들을 메타데이터 인코더(230)에 제공한다.
단계(130)에서, 메타데이터 인코더(230)는 멀티-뷰 데이터의 패치 데이터 유닛이 누락된 데이터를 표현하기 위한 복원된 데이터를 포함하는지를 나타내는 필드를 포함하는 메타데이터(140)를 생성한다. 이러한 예에서, 필드는 2개의 허용가능한 값들을 갖는 이진 플래그(예를 들어, '0'(논리 로우) 및 '1'(논리 하이)의 허용가능한 값들을 갖는 단일 비트)를 포함한다. 제1 값 '0'은 멀티-뷰 데이터의 패치 데이터 유닛이 적어도 하나의 뷰포인트로부터 캡처된 원본 이미지 데이터를 포함한다는 것을 나타낸다. 제2 값 '1'은 멀티-뷰 데이터의 패치 데이터 유닛이 복원된 데이터를 포함한다는 것을 나타낸다.
따라서, 메타데이터 인코더(230)의 작업은 멀티-뷰 데이터의 패치 데이터 유닛이 누락된 데이터를 표현하기 위한 복원된 데이터를 포함하는지를 나타내는 이진 플래그를 포함하는 (향상된) 메타데이터를 생성하는 것이다. 이러한 (향상된) 메타데이터는 복원된 데이터를 포함하는 패치 데이터 유닛들을 정의하는 정보를 포함한다. 이러한 실시예에서는 그렇지 않지만, 메타데이터의 필드(들)는, 예를 들어 복원된 데이터의 LoD와 같은, 패치 데이터 유닛의 복원된 데이터에 대한 추가의 정보를 나타내도록/포함하도록 구성될 수 있다. 그러나, 이는 일부 실시예들에서는 필요하지 않을 수 있다. 예를 들어, 복원된 데이터의 LoD는 사전결정되고/되거나 정규화될 수 있다.
출력부(240)는 (향상된) 메타데이터를 생성하고, 생성된 (향상된) 메타데이터를 출력한다. 그것은 메타데이터를, 멀티-뷰 데이터(즉, 텍스처 및 깊이 데이터 스트림들)를 포함하는 비트스트림의 부분으로서 또는 비트스트림과는 별개로 출력할 수 있다.
도 3은 본 발명의 제2 실시예에 따른, 몰입형 비디오에 대한 인코딩된 멀티-뷰 데이터를 디코딩하는 방법을 예시하는 흐름도이다. 도 4는 도 3의 방법을 수행하기 위한 디코더의 개략적 블록도이다.
디코더(400)는 입력 인터페이스(410); 메타데이터 디코더(420); 및 출력부(430)를 포함한다. 선택적으로, 그것은 또한 렌더러(440)를 포함할 수 있다.
단계(310)에서, 입력 인터페이스(410)는 텍스처 및 깊이 데이터(305)를 포함하는 비트스트림을 수신한다. 입력 인터페이스(410)는 또한, 비트스트림을 설명하는 메타데이터(140)를 수신한다. 메타데이터는 비트스트림에 임베딩될 수 있거나 또는 별개일 수 있다. 이러한 예에서, 메타데이터(140)는 전술된 도 1의 방법에 따라 생성된다. 따라서, 메타데이터는 멀티-뷰 데이터의 패치 데이터 유닛이 누락된 데이터를 표현하기 위한 복원된 데이터를 포함하는지를 나타내는 필드를 포함한다. 디코더(400)에 입력된 메타데이터는 전형적으로 인코더(300)에 의해 출력된 메타데이터의 일 버전일 것이고, 이는 후속적으로 압축(및 가능하게는 송신 채널을 통한 오류 가능성 통신(error-prone communication))되었을 수 있다는 점에 유의한다.
단계(320)에서, 메타데이터 디코더(420)는 메타데이터를 디코딩한다. 이는, 필드가 멀티-뷰 데이터의 패치 데이터 유닛이 복원된 데이터를 포함하는지를 나타내는 것에 기초하여 패치 데이터 유닛의 렌더링 파라미터를 설정하는 것을 수반한다. 이러한 예에서, 렌더링 파라미터는 렌더링 우선순위이다. 필드가, 패치 데이터 유닛이 복원된 데이터를 포함한다는 것을 나타내는 것에 응답하여, 패치 데이터 유닛의 렌더링 우선순위는 제1 우선순위 값(예를 들어, 낮음)으로 설정된다. 필드가, 패치 데이터 유닛이 적어도 하나의 뷰포인트로부터 캡처된 원본 이미지 데이터를 포함한다는 것에 응답하여, 패치 데이터 유닛의 렌더링 우선순위는 제2의 보다 높은 우선순위 값(예를 들어, 높음)으로 설정된다.
메타데이터 디코더(420)는 렌더링 파라미터(들)를 출력부(430)에 제공한다. 출력부(430)는 렌더링 파라미터(들)를 출력한다(단계(330)).
디코더(400)가 선택적 렌더러(440)를 포함하는 경우, 데이터 디코더(420)는 디코딩된 렌더링 파라미터(들)를 렌더러(440)에 제공할 수 있으며, 이는 렌더링 파라미터(들)에 따라 하나 이상의 뷰들을 재구성한다. 이러한 경우에, 렌더러(440)는 재구성된 뷰를 출력부(430)에 제공할 수 있고, 출력부(430)는 이러한 재구성된 뷰를 (예를 들어, 프레임 버퍼로) 출력할 수 있다.
메타데이터의 필드들이 정의되고 사용될 수 있는 다양한 방식들이 있다. 이들 방식들 중 일부가 이제 더 자세히 논의될 것이다.
대안 A
일부 실시예들에서, 메타데이터의 필드는 멀티-뷰 데이터의 패치 데이터 유닛이 적어도 하나의 뷰포인트로부터 캡처된 원본 이미지 데이터 또는 누락된 데이터를 표현하기 위한 복원된 데이터를 포함한다는 것을 나타내는 이진 플래그(예를 들어, 단일 비트)를 포함한다.
인코더에서: 플래그는, 패치 데이터 유닛이 원본 콘텐츠를 포함할 때 설정되고(즉, 어써팅되고, 논리 하이로 설정되고, 값 '1'로 설정되는 등), 플래그는, 패치 데이터 유닛이 복원된 콘텐츠를 포함할 때 미설정된다(즉, 무효화되고, 논리 로우로 설정되고, 값 '0'으로 설정되는 등).
디코더에서: 패치의 텍스처가 미설정된 플래그와 블렌딩될 때, 블렌딩 가중치는 낮은 값으로 설정된다. 결과적으로, (플래그가 설정된) 다른 텍스처 데이터가 동일한 출력 위치에 맵핑될 때, 그것은 효과적으로 높은 블렌딩 우선순위를 얻어 더 최적의 품질을 초래한다.
디코더가 실제 뷰 합성 이전에 '프루닝된 뷰 재구성'을 사용할 때: 재구성 프로세스는 이제 플래그가 설정된 패치들만을 선택적으로 허용함으로써 수행된다. 효과적으로, 복원된 데이터는 무시된다(즉, 복원된 데이터를 낮은 우선순위로 처리함). 후속적으로, 실제 뷰-합성에서, 복원된 콘텐츠를 보유하는 패치들(즉, 플래그가 미설정된 것들)은 누락된 데이터의 영역들에 대해서만 사용된다.
대안 B
대안적인 실시예에서, 아틀라스 프레임마다, 복원된 데이터를 포함하는 패치들에 전용인 '복원-패치-영역'(예를 들어, 직사각형)이 특정되도록 메타데이터가 확장된다. 그러한 영역은 초기에 사용자 파라미터로(예를 들어, 이용가능한 아틀라스 프레임 크기의 백분율로서) 특정될 수 있거나, 또는 그것은 원본 데이터 대 복원된 데이터에 대하여 이용가능한 공간의 균형을 맞추도록 자동으로 결정될 수 있다(최대 픽셀레이트에 의해 결정됨). 이러한 방식에서, 메타데이터의 필드는 인코딩된 멀티-뷰 데이터의 프레임과 연관되고, 복원된 데이터를 포함하는 프레임의 하나 이상의 패치 데이터 유닛들의 설명(즉, 정의)을 포함한다.
인코더에서: '복원-패치-영역'이 고려된다. 복원된 콘텐츠를 갖는 패치 데이터 유닛들이 그 내부에 배치되고, (원본 콘텐츠를 갖는) 다른 패치들은 영역 외부에 남겨진다.
디코더에서: 전술된 선행하는 실시예에 기재된 바와 동일한 거동이 또한 적용된다. 비디오 인코더는 텍스처 및/또는 깊이 비디오 컴포넌트들에 대해 더 높은 양자화 값(즉, 더 낮은 품질)으로 이러한 영역을 인코딩하도록 지시받을 수 있다.
다수의 아틀라스 컴포넌트들이 비디오 프레임으로 패킹되는 MIV의 구현예들의 경우, 패치 데이터 유닛들은 별개의 아틀라스의 부분일 수 있고, 그 아틀라스는 비디오 프레임에 패킹될 수 있다. 즉, 비디오 프레임들의 하나 이상의 부분들은 이들 복원된 패치 데이터 유닛들에 관한 비디오 데이터를 위해 예약될 수 있다.
대안 A는, 그것이 패치 데이터 유닛(들)과 연관된 플래그만을 추가하기 때문에, 현재 MIV (드래프트) 표준에 대해 가장 적은 양의 변경을 요구한다는 것에 유의한다. 그것은 또한, 모든 패치 데이터 유닛들이 (대안 B에 비해) 더 효율적으로 함께 패킹될 수 있게 한다. 품질 플래그(예를 들어, 비트) 대신에 품질 값(예를 들어, 바이트)을 사용하면 품질이 추가로 최적화될 수 있다는 부가적인 이점을 가질 수 있다.
대안 B는 패치 데이터 유닛당 메타데이터 신택스를 요구하지 않으므로, 더 낮은 메타데이터 비트레이트를 요구할 수 있다. 추가로, 복원된 콘텐츠를 보유하는 패치들은 함께 콤팩트하게 패킹될 수 있으며, 이는 전용 복원 렌더링 스테이지에 사용될 별개의 삼각형 메시를 생성할 수 있게 한다(예를 들어, 먼저 복원된 데이터를 갖는 백드롭(backdrop)을 생성한 후 통상의 패치 데이터를 사용하여 합성함).
배경기술 섹션에서 전술한 바와 같이, 인코더에서 누락된 데이터를 복원하는 것은 비트레이트 및 픽셀레이트를 증가시킨다. 이러한 증가를 제한하는 것을 목표로 하는 제안된 실시예들에 대한 확장들 및/또는 수정들이 이제 설명될 것이다.
복원된 콘텐츠를 포함하는 패치들의 다운스케일링
비트레이트 및 픽셀레이트를 감소시키기 위해, 복원된 콘텐츠가 더 작은 스케일(즉, 감소된 LoD)을 사용하여 패치들로 패킹될 수 있다는 것이 제안된다. 특히, 일부 실시예들은, 복원된 콘텐츠를 갖는 패치 데이터 유닛들이 비트레이트 및 픽셀레이트를 감소시키기 위해 더 낮은 LoD를 이용할 수 있는 패치 데이터 유닛당 LoD를 특정하도록 구성될 수 있다는 것이 제안된다.
이용된 송신 표준은, 패치 데이터 유닛당 LoD의 정의가 복원된 패치 데이터 유닛들에 대해서는 디폴트로 사용가능하고 일반 패치들(즉, 원본 데이터로 이루어진 패치들)에 대해서는 디폴트로 사용불가능하게 하는 신택스/시맨틱들을 지원할 수 있다. 디폴트 LoD 파라미터 값들은 복원 패치들을 포함하는 비트스트림들에 대해 특정될 수 있다.
전형적인 구현예가, 복원 데이터는 2배로 서브샘플링하고 일반 패치들은 서브샘플링하지 않도록 구성될 수 있다. 그러나, 실시예들은 여전히, (예를 들어, 장면의 낮은 텍스처 부분들에 대해 더 낮은 LoD를 이용하기 위해) 패치별로 디폴트 LoD 파라미터 값을 오버라이딩(overriding)하도록 구성될 수 있다.
저해상도 메시를 이용하여 백그라운드 표현하기
감소된/성긴 정점 세트를 갖는 특정 메시가 누락된 백그라운드 콘텐츠를 표현하기 위해 이용될 수 있다. 정점들은 색상 데이터(또는 기존 텍스처들 내의 색상 데이터에 대한 참조)를 동반할 수 있다. 그러한 접근법은 비교적 큰 백그라운드 영역이 단지 적은 수의 정점들만을 사용하여 표현될 수 있다는 이점을 제공한다.
그러한 저해상도 메시는 인코더 측에서 소스 뷰들의 깊이 맵들로부터 구성될 수 있다. 그러나, 이는 항상 그렇지는 않을 수 있고, 텍스처를 갖는 그래픽 모델이 백그라운드 메시로서 사용될 수 있다. 즉, 인공(그래픽) 및 실제 카메라 데이터의 조합이 사용될 수 있다.
연관된 텍스처를 갖는 저해상도 메시는 소스 뷰들과 동일한 투영 공간에 표현될 필요가 없다. 예를 들어, 소스 뷰들이 주어진 시야(field of view, FoV)를 갖는 투시 투영을 가질 때, 저해상도 백그라운드 메시는 뷰포트의 경계들에서의 언커버링(uncovering)을 피하기 위해 더 큰 FoV를 갖는 투시 투영과 관련하여 정의될 수 있다. 백그라운드 메시에 대해 구형 투영을 선택하는 것이 또한 유용할 수 있다.
저해상도 백그라운드 메시는 연관된 메타데이터가 정의/생성되도록 요구할 수 있다. 따라서, 일부 실시예들은 연관된 저해상도 메시를 정의하고/하거나 설명하기 위한 필드를 포함하는 메타데이터를 생성하는 단계를 포함할 수 있다. 예를 들어, 가장 간단한 형태에서, 필드는 백그라운드 메시의 존재/실재를 나타내는 이진 플래그를 포함할 수 있다. 필드는 대안적으로, 사양 투영 파라미터들 및/또는 깊이 및 텍스처 데이터의 위치와 같은, 추가의 정보가 표시될 수 있게 하는 형태의 것일 수 있다. 그러한 추가적인 정보(예를 들어, 렌더링 파라미터)가 없는 경우, 디폴트 파라미터들이 이용될 수 있다.
전술한 예시적인 실시예들에서, 필드는 이진 플래그 또는 부울 표시자를 포함하는 것으로 설명되었다. 그러나, 멀티-뷰 데이터의 패치 데이터 유닛이 복원된 데이터를 포함하는지를 나타내기 위한 제안된 필드는 단순한 이진 표시를 넘어서 추가적인 정보를 제공하도록 구성될 수 있다는 것이 이해되어야 한다. 예를 들어, 일부 실시예들에서, 필드는 큰 범위의 가능한 값들을 나타내기 위해 하나 이상의 바이트들을 포함할 수 있다. 또한, 가능한 값들은 저장된 값들의 식별자들 또는 어드레스들을 포함할 수 있으며, 따라서 정보가 취출되거나 '찾아질' 수 있게 한다.
예를 들어, 다수의 렌더링 파라미터 세트들이 사전정의될 수 있고, 각각의 고유한 식별자(예를 들어, 어드레스)로 각각 저장될 수 있다. 이어서, 패치 데이터 유닛에 대한 필드에 포함된 식별자는 패치 데이터 유닛과 함께 사용할 파라미터 세트를 선택하고 취출하는 데 사용될 수 있다. 즉, 패치 데이터 유닛과 연관된 필드는 패치 데이터 유닛에 관련된 추가적인 정보를 식별하기 위한 식별자 또는 어드레스를 포함할 수 있다.
물론, 제안된 메타데이터 필드를 사용하여 복원된 패치 데이터 유닛에 관한 다른 정보를 제공하는 것이 가능하다. 그러한 기능들은 데이터 품질; 렌더링 선호도; 하나 이상의 식별자 등을 포함할 수 있다(그러나 그에 제한되지 않음). 그러한 정보는, 전체적으로 또는 부분적으로, 다른 정보 또는 렌더링 파라미터들과 조합되어 사용될 수 있다.
본 발명의 실시예들은, 패치 데이터 유닛들을 설명하는 메타데이터의 사용에 의존한다. 메타데이터는 디코딩 프로세스에 중요하기 때문에, 메타데이터가 추가 오류 검출 또는 오류 정정 코드들로 인코딩되는 경우 유리할 수 있다. 적합한 코드들이 통신 이론의 기술 분야에 알려져 있다.
도 1 및 도 3의 인코딩 및 디코딩 방법들, 및 도 2 및 도 4의 인코더 및 디코더는 하드웨어 또는 소프트웨어로, 또는 둘 모두의 혼합으로(예를 들어, 하드웨어 디바이스 상에서 실행되는 펌웨어로서) 구현될 수 있다. 일 실시예가 소프트웨어에서 부분적으로 또는 전체적으로 구현되는 경우에, 프로세스 흐름도들에 예시된 기능적 단계들은 하나 이상의 중앙 처리 유닛(central processing unit, CPU)들 또는 그래픽 처리 유닛(graphics processing unit, GPU)들과 같은 적절하게 프로그래밍된 물리적 컴퓨팅 디바이스들에 의해 수행될 수 있다. 각각의 프로세스 및 흐름도들에 예시된 바와 같은 그의 개별 컴포넌트 단계들은 동일한 또는 상이한 컴퓨팅 디바이스들에 의해 수행될 수 있다. 실시예들에 따르면, 컴퓨터 판독가능 저장 매체는, 컴퓨터 프로그램이 하나 이상의 물리적 컴퓨팅 디바이스들 상에서 실행될 때, 하나 이상의 물리적 컴퓨팅 디바이스들로 하여금 전술된 바와 같은 인코딩 또는 디코딩 방법을 수행하게 하도록 구성된 컴퓨터 프로그램 코드를 포함하는 컴퓨터 프로그램을 저장한다.
저장 매체는 휘발성 및 비휘발성 컴퓨터 메모리, 예컨대, RAM, PROM, EPROM, 및 EEPROM, (CD, DVD, BD와 같은) 광학 디스크들, (하드 디스크들 및 테이프들과 같은) 자기 저장 매체를 포함할 수 있다. 다양한 저장 매체가 컴퓨팅 디바이스 내에 고정될 수 있거나 운반가능할 수 있어서, 그에 저장된 하나 이상의 프로그램들이 프로세서 내에 로딩될 수 있게 할 수 있다.
일 실시예에 따른 메타데이터는 저장 매체 상에 저장될 수 있다. 일 실시예에 따른 비트스트림은 동일한 저장 매체 또는 상이한 저장 매체 상에 저장될 수 있다. 메타데이터는 비트스트림에 임베딩될 수 있지만, 이것이 필수적이지는 않다. 마찬가지로, 메타데이터 및/또는 비트스트림들(이때 메타데이터는 비트스트림 내에 있거나 또는 그것과 분리됨)은 전자기 반송파로 변조된 신호로서 송신될 수 있다. 신호는 디지털 통신들에 대한 표준에 따라 정의될 수 있다. 반송파는 광 반송파(optical carrier), 무선 주파수파, 밀리미터파, 또는 근거리 통신파일 수 있다. 그것은 유선 또는 무선일 수 있다.
일 실시예가 하드웨어에서 부분적으로 또는 전체적으로 구현되는 경우에, 도 2 및 도 4의 블록도들에 도시된 블록들은 별개의 물리적 컴포넌트들, 또는 단일의 물리적 컴포넌트들의 논리 서브분할들일 수 있거나, 또는 하나의 물리적 컴포넌트에서 통합된 방식으로 모두 구현될 수 있다. 도면들에 도시된 하나의 블록의 기능들은 일 구현예에서 다수의 컴포넌트들 사이에 분할될 수 있거나, 또는 도면들에 도시된 다수의 블록들의 기능들은 일 구현예에서 단일 컴포넌트들로 조합될 수 있다. 본 발명의 실시예들에서 사용하기에 적합한 하드웨어 컴포넌트들은 통상적인 마이크로프로세서들, 주문형 집적 회로(application specific integrated circuit, ASIC)들, 및 필드 프로그래밍가능 게이트 어레이(field-programmable gate array, FPGA)들을 포함하지만, 이들로 제한되지 않는다. 하나 이상의 블록들은 일부 기능을 수행하기 위한 전용 하드웨어 및 다른 기능들을 수행하기 위한 하나 이상의 프로그래밍된 마이크로프로세서들 및 연관된 회로부의 조합으로서 구현될 수 있다.
개시된 실시예에 대한 변형이 도면, 개시 내용 및 첨부된 청구범위의 검토로부터, 청구된 발명을 실시함에 있어서 당업자에 의해 이해되고 이루어질 수 있다. 청구범위에서, 단어 "포함하는"은 다른 요소 또는 단계를 배제하지 않으며, 단수 형태(부정 관사 "a" 또는 "an")는 복수를 배제하지 않는다. 단일 프로세서 또는 다른 유닛이 청구범위에 열거된 수개의 항목의 기능을 충족시킬 수 있다. 소정의 수단이 상호 상이한 종속항에 열거된다는 단순한 사실은 이들 수단의 조합이 유리하게 사용될 수 없다는 것을 나타내지는 않는다. 컴퓨터 프로그램이 상기에서 논의되는 경우, 그것은 다른 하드웨어와 함께 또는 다른 하드웨어의 일부로서 공급되는 광학 저장 매체 또는 솔리드 스테이트 매체와 같은 적합한 매체 상에 저장/분산될 수 있지만, 다른 형태들로, 예컨대 인터넷 또는 다른 유선 또는 무선 통신 시스템들을 통해 또한 분산될 수 있다. 용어 "~하도록 적응된"이 청구범위 또는 설명에 사용되는 경우, 용어 "~하도록 적응된"이 용어 "~하도록 구성된"과 동등하도록 의도된다는 것에 유의한다. 청구범위 내의 임의의 도면 부호는 범주를 제한하는 것으로 해석되어서는 안 된다.

Claims (15)

  1. 몰입형 비디오에 대한 멀티-뷰 데이터(110)를 인코딩하는 방법으로서,
    상기 멀티-뷰 데이터의 패치 데이터 유닛이 누락된 데이터를 표현하기 위한 복원된 데이터(in-painted data)를 포함하는지를 나타내는 필드를 포함하는 메타데이터(140)를 생성하는 단계(130)를 포함하는, 방법.
  2. 제1항에 있어서, 상기 필드는 적어도 2개의 허용가능한 값들의 세트를 포함하고, 상기 세트의 제1 값은 상기 멀티-뷰 데이터의 상기 패치 데이터 유닛이 적어도 하나의 뷰포인트로부터 캡처된 원본 이미지 데이터를 포함한다는 것을 나타내고, 상기 세트의 제2 값은 상기 멀티-뷰 데이터의 상기 패치 데이터 유닛이 복원된 데이터를 포함한다는 것을 나타내고, 상기 필드의 값은 상기 패치 데이터 유닛에 대한 정밀도(level of detail)를 나타내는, 방법.
  3. 제1항에 있어서, 상기 필드는 저장된 값의 식별자 또는 어드레스를 포함하는, 방법.
  4. 제3항에 있어서, 상기 저장된 값은 렌더링 파라미터 값을 포함하는, 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    멀티-뷰 데이터(110)의 패치 데이터 유닛이 적어도 하나의 뷰포인트로부터 캡처된 원본 이미지 데이터를 포함하는지 또는 누락된 이미지 데이터를 표현하기 위한 복원된 데이터를 포함하는지를 결정하는 단계(120); 및
    결정하는 단계의 결과에 기초하여, 상기 패치 데이터 유닛이 원본 이미지 데이터를 포함하는지 또는 복원된 데이터를 포함하는지를 나타내기 위한 필드 값을 정의하는 단계(125)의 선행하는 단계들을 추가로 포함하는, 방법.
  6. 제5항에 있어서, 제3항에 종속할 때, 상기 필드 값은 뷰 파라미터를 포함하고,
    멀티-뷰 데이터(110)의 패치 데이터 유닛이 적어도 하나의 뷰포인트로부터 캡처된 원본 이미지 데이터를 포함하는지 또는 누락된 이미지 데이터를 표현하기 위한 복원된 데이터를 포함하는지를 결정하는 단계는,
    상기 패치 데이터 유닛이 복원 뷰에 대한 참조를 포함한다는 것을 식별하는 것에 응답하여, 상기 멀티-뷰 데이터의 상기 패치 데이터 유닛이 복원된 데이터를 포함한다고 결정하는 단계를 포함하는, 방법.
  7. 몰입형 비디오에 대한 멀티-뷰 데이터를 디코딩하는 방법으로서,
    멀티-뷰 데이터 및 연관된 메타데이터(140)를 포함하는 비트스트림을 수신하는 단계(310) - 상기 메타데이터는 상기 멀티-뷰 데이터의 패치 데이터 유닛이 누락된 데이터를 표현하기 위한 복원된 데이터를 포함하는지를 나타내는 필드를 포함함 -; 및
    상기 필드가, 상기 멀티-뷰 데이터의 상기 패치 데이터 유닛이 복원된 데이터를 포함한다는 것을 나타내는 것에 기초하여 상기 패치 데이터 유닛의 렌더링 파라미터를 설정하는 것을 포함하는, 상기 멀티-뷰 데이터의 상기 패치 데이터 유닛을 디코딩하는 단계(320)를 포함하는, 방법.
  8. 제7항에 있어서, 상기 필드는 저장된 값의 식별자 또는 어드레스를 포함하고,
    상기 패치 데이터 유닛의 상기 렌더링 파라미터를 설정하는 것은,
    상기 식별자 또는 어드레스에 기초하여, 상기 저장된 값을 결정하는 것; 및
    상기 저장된 값에 기초하여 상기 렌더링 파라미터를 설정하는 것을 포함하는, 방법.
  9. 제7항 또는 제8항에 있어서, 상기 렌더링 파라미터는 렌더링 우선순위를 포함하고, 상기 패치 데이터 유닛의 상기 렌더링 파라미터를 설정하는 것은,
    상기 필드가, 상기 멀티-뷰 데이터의 상기 패치 데이터 유닛이 복원된 데이터를 포함한다는 것을 나타내는 것에 응답하여, 상기 패치 데이터 유닛의 렌더링 우선순위를 제1 우선순위 값으로 설정하는 것; 및
    상기 필드가, 상기 멀티-뷰 데이터의 상기 패치 데이터 유닛이 적어도 하나의 뷰포인트로부터 캡처된 원본 이미지 데이터를 포함한다는 것을 나타내는 것에 응답하여, 상기 패치 데이터 유닛의 상기 렌더링 우선순위를 제2의 상이한 우선순위 값으로 설정하는 것을 포함하는, 방법.
  10. 제7항, 제8항 또는 제9항에 있어서, 상기 필드는 상기 멀티-뷰 데이터의 프레임과 연관되고, 복원된 데이터를 포함하는 상기 프레임의 하나 이상의 패치 데이터 유닛들의 설명을 포함하고,
    상기 멀티-뷰 데이터의 상기 패치 데이터 유닛을 디코딩하는 단계는,
    상기 패치 데이터 유닛이 복원된 데이터를 포함하는지를 결정하기 위해 상기 설명을 분석하는 단계; 및
    상기 분석하는 단계의 결과에 기초하여 상기 패치 데이터 유닛의 렌더링 파라미터를 설정하는 단계를 포함하는, 방법.
  11. 제10항에 있어서, 상기 필드 값은 뷰 파라미터이고,
    상기 설명을 분석하는 단계는 상기 설명이 복원 뷰에 대한 참조를 포함하는지를 결정하는 단계를 포함하는, 방법.
  12. 컴퓨터 프로그램을 포함하는 저장 매체로서, 상기 컴퓨터 프로그램은, 상기 프로그램이 처리 시스템 상에서 실행될 때 상기 처리 시스템으로 하여금 제1항 내지 제11항 중 어느 한 항의 방법을 구현하게 하기 위한 것인, 저장 매체.
  13. 몰입형 비디오에 대한 멀티-뷰 데이터(110)를 인코딩하기 위한 인코더(200)로서,
    상기 멀티-뷰 데이터의 패치 데이터 유닛이 누락된 데이터를 표현하기 위한 복원된 데이터를 포함하는지를 나타내는 필드를 포함하는 메타데이터(140)를 생성하도록 구성된 메타데이터 인코더(230)를 포함하는, 인코더.
  14. 몰입형 비디오에 대한 멀티-뷰 데이터를 디코딩하기 위한 디코더(400)로서,
    멀티-뷰 데이터 및 연관된 메타데이터(140)를 포함하는 비트스트림을 수신하도록 구성된 입력 인터페이스(410) - 상기 메타데이터는 상기 멀티-뷰 데이터의 패치 데이터 유닛이 누락된 데이터를 표현하기 위한 복원된 데이터를 포함하는지를 나타내는 필드를 포함함 -; 및
    상기 필드가, 상기 멀티-뷰 데이터의 상기 패치 데이터 유닛이 복원된 데이터를 포함한다는 것을 나타내는 것에 기초하여 상기 패치 데이터 유닛의 렌더링 우선순위를 설정하는 것을 포함하는, 상기 멀티-뷰 데이터의 상기 패치 데이터 유닛을 디코딩하도록 구성된 데이터 디코더(420)를 포함하는, 디코더.
  15. 비트스트림으로서, 몰입형 비디오에 대한 멀티-뷰 데이터 및 연관된 메타데이터를 포함하고,
    상기 메타데이터는 상기 멀티-뷰 데이터의 패치 데이터 유닛이 누락된 데이터를 표현하기 위한 복원된 데이터를 포함하는지를 나타내는 필드를 포함하는, 비트스트림.
KR1020237014792A 2020-09-30 2021-09-23 몰입형 비디오의 인코딩 및 디코딩 KR20230079184A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20199141.1A EP3979651A1 (en) 2020-09-30 2020-09-30 Encoding and decoding immersive video
EP20199141.1 2020-09-30
PCT/EP2021/076133 WO2022069325A1 (en) 2020-09-30 2021-09-23 Encoding and decoding immersive video

Publications (1)

Publication Number Publication Date
KR20230079184A true KR20230079184A (ko) 2023-06-05

Family

ID=72709019

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237014792A KR20230079184A (ko) 2020-09-30 2021-09-23 몰입형 비디오의 인코딩 및 디코딩

Country Status (10)

Country Link
US (1) US20230370635A1 (ko)
EP (2) EP3979651A1 (ko)
JP (1) JP2023542979A (ko)
KR (1) KR20230079184A (ko)
CN (1) CN116261855A (ko)
AR (1) AR123642A1 (ko)
CA (1) CA3196949A1 (ko)
MX (1) MX2023003670A (ko)
TW (1) TW202224437A (ko)
WO (1) WO2022069325A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230011027A1 (en) * 2021-07-07 2023-01-12 Electronics And Telecommunications Research Institute Method for encoding immersive image and method for decoding immersive image

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10424083B2 (en) * 2017-10-21 2019-09-24 Samsung Electronics Co., Ltd. Point cloud compression using hybrid transforms
EP3515082B1 (en) * 2018-01-19 2020-05-13 Nokia Technologies Oy Server device for streaming video content and client device for receiving and rendering video content
WO2019197708A1 (en) * 2018-04-09 2019-10-17 Nokia Technologies Oy An apparatus, a method and a computer program for volumetric video

Also Published As

Publication number Publication date
EP4222964A1 (en) 2023-08-09
AR123642A1 (es) 2022-12-28
TW202224437A (zh) 2022-06-16
CN116261855A (zh) 2023-06-13
EP3979651A1 (en) 2022-04-06
CA3196949A1 (en) 2022-04-07
MX2023003670A (es) 2023-04-20
WO2022069325A1 (en) 2022-04-07
US20230370635A1 (en) 2023-11-16
JP2023542979A (ja) 2023-10-12

Similar Documents

Publication Publication Date Title
US11217037B2 (en) Apparatus for transmitting point cloud data, a method for transmitting point cloud data, an apparatus for receiving point cloud data and a method for receiving point cloud data
WO2017190710A1 (en) Method and apparatus for mapping omnidirectional image to a layout output format
JP6672327B2 (ja) ユーザヘッドセットへの球状ビデオ帯域幅を減少させる方法および装置
US11902348B2 (en) Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method
KR20210128442A (ko) 포인트 클라우드 데이터 처리 장치 및 방법
US20220217314A1 (en) Method for transmitting 360 video, method for receiving 360 video, 360 video transmitting device, and 360 video receiving device
US20220377327A1 (en) Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method
US20220321912A1 (en) Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method
JP2022512509A (ja) 符号化された点群データの分割
EP3745357A1 (en) A method and apparatus for decoding three-dimensional scenes
US20230290006A1 (en) Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method
US20230334703A1 (en) Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method
CN114930812B (zh) 用于解码3d视频的方法和装置
KR20230079184A (ko) 몰입형 비디오의 인코딩 및 디코딩
CN117280680A (zh) 动态网格对齐的并行方式
EP4240016A1 (en) Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method
EP4007284A1 (en) Point cloud data processing device and method
EP4199516A1 (en) Reduction of redundant data in immersive video coding
US20240121435A1 (en) Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method
EP4407991A1 (en) Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method
US20230412837A1 (en) Point cloud data transmission method, point cloud data transmission device, point cloud data reception method, and point cloud data reception device
KR20240047385A (ko) 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 수신 방법 및 포인트 클라우드 데이터 수신 장치
JP2022551064A (ja) 容積ビデオを符号化、送信、及び復号化するための方法及び装置
CN115885513A (zh) 用于对体积视频进行编码和解码的方法和装置