KR20230036148A

KR20230036148A - 몰입형 미디어 상호운용성

Info

Publication number: KR20230036148A
Application number: KR1020237004968A
Authority: KR
Inventors: 쥔 티옌; 샤오종 수; 샨 리우
Original assignee: 텐센트 아메리카 엘엘씨
Priority date: 2021-08-23
Filing date: 2022-08-23
Publication date: 2023-03-14
Also published as: WO2023028477A1; EP4168994A1; CN116324683A; US11956409B2; US20230059715A1; EP4168994A4; JP2023551659A

Abstract

본 개시의 측면은 오디오 처리를 위한 방법 및 장치를 제공한다. 일부 예에서, 미디어 처리를 위한 장치는 처리 회로를 포함한다. 처리 회로는 미디어 애플리케이션의 장면에 대한 제1 미디어 콘텐츠와 연관된 제1 3 자유도(3 DoF) 정보를 수신한다. 제1 3 DoF 정보는 미디어 애플리케이션의 사용자를 중심으로 하는 제1 구체 상에서 제1 미디어 콘텐츠를 기술하기 위한 제1 회전 방향을 포함한다. 처리 회로는 제1 미디어 콘텐츠를 렌더링하기 위한 렌더링 플랫폼이 6 자유도(6 DoF) 플랫폼임을 결정하고, 제1 구체의 제1 파라미터 및 제1 회전 방향에 기반하여 제1 미디어 콘텐츠의 제1 공간 위치 정보를 계산한다. 제1 공간 위치 정보는 6 DoF 플랫폼에서 제1 미디어 콘텐츠를 렌더링하기 위해 제1 미디어 콘텐츠와 연관된 제1 6 DoF 정보에서 사용된다.

Description

몰입형 미디어 상호운용성

본 출원은 2021년 8월 23일에 출원되고 명칭이 "몰입형 미디어 상호운용성(Immersive Media Interoperability)"인 미국 가출원 번호 제63/260,509호에 대한 우선권을 주장하는, 2022년 8월 22일에 출원되고 명칭이 "몰입형 미디어 상호운용성"인 미국 특허 출원 번호 제17/892,987호에 대한 우선권을 주장한다. 선행 출원의 개시된 내용은 그 전체가 본 명세서에 참고로 포함된다.

본 개시는 일반적으로 미디어 처리에 관련된 실시예를 설명한다.

여기에서 제공된 배경 설명은 본 개시의 맥락을 일반적으로 제시하기 위한 것이다. 현재 명명된 발명가의 작업은 이 배경 섹션에 설명된 한도 내에서 그리고 본 출원의 당시 선행 기술로 자격이 없는 설명의 측면은 명시적으로나 묵시적으로 본 개시의 선행 기술로 인정되지 않는다.

가상 현실 또는 증강 현실의 애플리케이션에서, 사용자가 애플리케이션의 가상 세계에 있는 것처럼 느끼도록 하기 위해, 애플리케이션의 가상 장면에서의 비디오, 오디오 또는 기타 자극이 현실 세계에서와 같이 인지된다. 일부 예에서, 현실 세계에서 사용자의 물리적 움직임(movement)은 애플리케이션의 가상 장면에서 매칭하는 움직임을 갖는 것으로 인지된다. 또한, 사용자는 현실 세계에서 사용자의 경험과 매칭되고 현실적인 것으로 인지되는 미디어를 사용하여 가상 장면과 상호 작용할 수 있다.

본 개시의 측면은 미디어 처리를 위한 방법 및 장치를 제공한다. 일부 예에서, 미디어 처리를 위한 장치는 처리 회로를 포함한다. 처리 회로는 미디어 애플리케이션의 장면에 대한 제1 미디어 콘텐츠와 연관된 제1 3 자유도(3 degrees of freedom, 3 DoF) 정보를 수신한다. 제1 3 DoF 정보는 미디어 애플리케이션의 사용자를 중심으로 하는 제1 구체(sphere) 상에서 제1 미디어 콘텐츠를 기술하기 위한 제1 회전 방향(revolution orientation)을 포함한다. 처리 회로는 제1 미디어 콘텐츠를 렌더링하기 위한 렌더링 플랫폼이 6 자유도(6 DoF) 플랫폼임을 결정하고, 제1 구체의 제1 파라미터 및 제1 회전 방향에 기반하여 제1 미디어 콘텐츠의 제1 공간 위치(spatial location) 정보를 계산한다. 제1 공간 위치 정보는 6 DoF 플랫폼에서 제1 미디어 콘텐츠를 렌더링하기 위해 제1 미디어 콘텐츠와 연관된 제1 6 DoF 정보에서 사용된다.

일부 실시예에서, 처리 회로는 미리 정의된 파라미터에 따라 제1 구체의 제1 파라미터를 결정한다. 일부 예에서, 처리 회로는 제1 구체의 중심 위치를 미리 정의된 위치로 설정하고 제1 구체의 반경을 미리 정의된 양(positive)의 값으로 설정한다. 일 예에서, 처리 회로는 3차원(3 dimensional, 3D) 공간에서 제1 구체의 중심 위치를 (0,0,0)으로 설정하고 제1 구체의 반경을 1로 설정한다.

일부 실시예에서, 상기 장치는 미디어 클라이언트 디바이스이고, 처리 회로는 미디어 서버 디바이스로부터 제1 구체의 제1 파라미터를 수신한다. 일 예에서, 처리 회로는 제1 미디어 콘텐츠를 운반하는 비트스트림의 일부인 보충 강화 정보(supplemental enhanced information, SEI) 메시지로부터 제1 구체의 제1 파라미터를 수신한다. 다른 예에서, 처리 회로는 시스템 계층에서의 메타데이터 패킷으로부터 제1 구체의 제1 파라미터를 수신한다. 시스템 계층에서의 메타데이터 패킷은 제1 미디어 콘텐츠를 운반하는 비트스트림과 별개이다.

일부 예에서, 처리 회로는 미디어 애플리케이션에서 장면에 대한 제2 미디어 콘텐츠와 연관된 제2 3 DoF 정보를 수신한다. 제2 3 DoF 정보는 제1 구체와 중심 위치를 공유하는 제2 구체 상에서 제2 미디어 콘텐츠를 기술하기 위한 제2 회전 방향을 포함한다. 처리 회로는 제2 구체의 제2 파라미터 및 제2 회전 방향에 기반하여 제2 미디어 콘텐츠의 제2 공간 위치 정보를 계산한다. 제2 공간 위치 정보는 6 DoF 플랫폼에서 제2 미디어 콘텐츠를 렌더링하기 위해 제2 미디어 콘텐츠와 연관된 제2 6 DoF 정보에서 사용된다.

일 예에서, 제1 구체와 제2 구체는 동일한 반경을 갖는다. 다른 예에서, 제1 구체와 제2 구체는 반경이 상이하다.

일 예에서, 상기 장치는 미디어 클라이언트 디바이스이고, 처리 회로는 제1 공간 위치 정보를 포함하는 제1 6 DoF 정보에 따라 제1 미디어 콘텐츠를 렌더링한다. 다른 예에서, 상기 장치는 미디어 서버 디바이스이고, 처리 회로는 비트스트림에서 제1 6 DoF 정보와 연관된 제1 미디어 콘텐츠를 미디어 클라이언트 디바이스에 제공한다.

본 개시의 측면은 또한 컴퓨터에 의해 실행될 때 컴퓨터로 하여금 미디어 처리 방법을 수행하게 하는 명령어를 저장하는 컴퓨터가 판독 가능한 비일시적 매체를 제공한다.

개시된 주제의 추가 특징, 특성 및 다양한 장점은 다음의 상세한 설명 및 첨부된 도면으로부터 더욱 명백해질 것이다:
도 1a 내지 1c는 일부 예에서 6 자유도(6 DoF) 및 3 자유도(3 DoF)를 사용하는 환경을 예시하는 다이어그램을 도시한다.
도 2는 본 개시의 실시예에 따른 미디어 시스템의 블록도를 도시한다.
도 3은 본 개시의 일부 실시예에 따른 프로세스를 개략적으로 설명하는 흐름도를 도시한다.
도 4는 실시예에 따른 컴퓨터 시스템의 개략도이다.

본 개시의 측면은 몰입형 미디어 상호 운용성(immersive media interoperability)을 위한 기술을 제공한다. 몰입형 기술에 의해 몰입형 미디어는 디지털 시뮬레이션을 통해 물리적 세계를 창조하거나 모방하려고 시도한다. 개시의 측면에 따르면, 몰입형 미디어 애플리케이션을 위한 장비는 6 자유도(degrees of freedom, 6 DoF), 3 자유도(3 degrees of freedom, 3 DoF) 등과 같은 상이한 자유도를 지원할 수 있다. 6 DoF를 지원하는 장비는 6 DoF를 지원하는 하드웨어와 소프트웨어를 포함하는 6 DoF 플랫폼이라고 할 수 있다. 3 DoF를 지원하는 장비는 3 DoF를 지원하는 하드웨어와 소프트웨어를 포함하는 3 DoF 플랫폼이라 할 수 있다. 일부 미디어 콘텐츠는 6 DoF 플랫폼에서 사용자와 상호 작용하도록 생성되며 6 DoF 미디어 콘텐츠라고 하고, 일부 미디어 콘텐츠는 3 DoF 플랫폼에서 사용자와 상호 작용하도록 생성되며 3 DoF 미디어 콘텐츠라고 한다. 본 개시는 몰입형 미디어 상호 운용성을 개선하기 위해 몰입형 미디어 콘텐츠를 조정하는 기술을 제공한다. 특히, 이 기술은 6 DoF 플랫폼에서 사용하기 위해 3 DoF 미디어 콘텐츠에 적용될 수 있다.

본 개시의 일부 측면에 따르면, 일부 기술은 몰입형 미디어라고 하는 디지털 시뮬레이션을 통해 물리적 세계를 생성하거나 모방하려고 시도한다. 몰입형 미디어 처리는 "몰입형 오디오", "몰입형 비디오" 및 "시스템 지원"을 포함하는 MPEG-I(Moving Picture Expert Group Immersive) 표준 제품군과 같은 몰입형 미디어 표준에 따라 구현될 수 있다. 몰입형 미디어 표준은 사용자가 6 자유도(6 DoF)를 사용하여 환경을 탐색하고 상호 작용할 수 있는 VR 또는 AR 프리젠테이션을 지원할 수 있다. 6 DoF는 3차원 공간에서 강체의 움직임의 자유도를 의미한다. 바디 모션(body motion)은 병진 모션(translational motion)과 회전 모션(rotational motion)을 포함할 수 있다.

도 1a는 일부 예에서 6 자유도(6 DoF)를 사용하는 환경(100A)을 예시하는 다이어그램을 도시한다. 사용자(101A)의 6 DoF 움직임은 병진 모션 및 회전 모션을 포함할 수 있다. 예를 들어, 병진 모션은 3차원 공간에서 사용자(101A)의 위치(a, b, c)를 사용하는 사용자(101A)의 공간 내비게이션으로 표현될 수 있으며, 여기서 a의 변화는 X축을 따르는 움직임(예: 전방 및 후방)이고, b의 변화는 Y축을 따르는 움직임(예: 좌우)이며, c의 변화는 Z축을 따르는 움직임(예: 위아래)이다. 회전 모션은 사용자 머리 방향(head orientation)(α1, β1, γ1)을 사용하여 사용자의 방향으로 나타낼 수 있으며, 여기서 α1은 Z축에 대한 회전 각도이며 요(yaw) 각도라고도 하고, β1은 Y축에 대한 회전 각도이고 피치(pitch) 각도라고도 하며, γ1은 X축에 대한 회전 각도로 롤(roll) 각도라고도 한다. 도 1a에 도시된 바와 같이, 사용자의 회전 방향(α1, β1, γ1)은 사용자(101A)의 공간 위치(a, b, c)를 중심으로 한다.

도 1a는 사용자를 위한 6 DoF를 예시하지만, 유사한 정의가 다른 강체에 적용될 수 있다. 예를 들어, 6 DoF는 환경에서 가상 객체인 오디오 소스(예: 스피커)에 대해 유사하게 정의될 수 있다.

도 1b는 일부 예에서 6 자유도(6 DoF)를 사용하는 환경(100B)을 예시하는 다이어그램을 도시한다. 환경(100B)은 사용자(101B)와 스피커(102B)를 포함한다. 사용자(101B)의 6 DoF는 환경(100A)에서와 유사하게 정의된다. 예를 들어, 사용자(101B)의 6 DoF는 3차원 공간에서 사용자(101B)의 공간 위치(a, b, c)와 사용자(101B)의 회전 방향(α1, β1, γ1)을 포함한다. 회전 방향(α1, β1, γ1)은 사용자(101B)의 공간 위치(a, b, c)를 중심으로 정의된다.

스피커 움직임의 6 DoF는 스피커(102B)의 공간 위치(x, y, z) 및 스피커(102B)의 회전 방향(α2, β2, γ2)을 포함할 수 있다. 회전 방향(α2, β2, γ2) 은 스피커(102B)의 공간 위치(x, y, z)를 중심으로 정의된다.

도 1b는 스피커에 대한 6 DoF를 예시하지만, 유사한 정의가 다른 강체에 적용될 수 있다.

일부 사용 애플리케이션에서, 몰입형 미디어 디바이스가 6 DoF를 지원할 때, 사용자는 몰입형 미디어 디바이스에 의한 지원으로 6 DoF 미디어 콘텐츠와 상호작용할 수 있다. 예를 들어, 사용자의 6 DoF 정보를 몰입형 미디어 디바이스에 의해 검출할 수 있으며, 몰입형 미디어 디바이스는 사용자의 6 DoF 정보를 기반으로 6 DoF 미디어 콘텐츠의 오디오 및 비디오를 렌더링할 수 있다.

3 DoF 플랫폼과 같은 일부 몰입형 미디어 디바이스는 6 DoF를 지원하지 않을 수 있으며, 사람들이 3 자유도(3 DoF)를 사용하여 미디어 콘텐츠(예: 3 DoF 미디어 콘텐츠)와 상호 작용하는 것만을 허용할 수 있다. 3 DoF 미디어 콘텐츠의 일부 예에서, 3 DoF는 사용자 및 미디어와 연관된 방향 정보를 참조할 수 있다. 예를 들어, 3 DoF 설정에서 미디어의 방향 정보는 사용자가 구체의 중심에 있는 구체 상에 존재하는 미디어의 회전 방향 각도를 포함한다. 미디어는 시각적, 오디오(예: 오디오 채널, 오디오 객체 등) 또는 기타 형식일 수 있다. 3 DoF 설정에서의 방향 정보는 회전 방향(θ, φ, ψ)이라고 할 수 있으며, 여기서 θ는 사용자의 Z축에 대한 회전 각도이고, φ는 사용자의 Y축에 대한 회전 각도이며, ψ는 사용자의 X축에 대한 회전 각도이다.

도 1c는 일부 예에서 3 자유도(6 DoF)를 사용하는 환경(100C)을 예시하는 다이어그램을 도시한다. 환경(100C)은 사용자(101C)와 스피커(102C)를 포함한다. 스피커(102C)는 구체(110) 위의 점(point)(111)으로 취급된다. 구체(110)의 중심은 사용자(101C)이다. 스피커(102C)의 3 DoF는 구체(110)에서 점(111)의 회전 방향(θ, φ, ψ)으로 정의된다.

일부 애플리케이션에서, 3 DoF 미디어 콘텐츠는 6 DoF 플랫폼에서 렌더링될 필요가 있을 수 있다. 본 개시는 6 DoF 플랫폼에서 렌더링되도록 하기 위해 3 DoF 미디어 콘텐츠를 6 DoF 미디어 콘텐츠로 조정하는 기술을 제공한다.

도 2는 본 개시의 실시예에 따른 미디어 시스템(200)의 블록도를 도시한다. 미디어 시스템(200)은 몰입형 미디어 애플리케이션, 증강 현실(augmented reality, AR) 애플리케이션, 가상 현실 애플리케이션, 비디오 게임 애플리케이션, 스포츠 게임 애니메이션 애플리케이션, 원격 회의 및 텔레프레즌스 애플리케이션, 미디어 스트리밍 애플리케이션 등과 같은 다양한 사용 애플리케이션에 사용될 수 있다.

미디어 시스템(200)은 네트워크(도시되지 않음)로 연결될 수 있는, 미디어 서버 디바이스(210) 및 도 2에 도시된 미디어 클라이언트 디바이스(260A 및 260B)와 같은 복수의 미디어 클라이언트 디바이스를 포함한다. 일 예에서, 미디어 서버 디바이스(210)는 오디오 코딩 및 비디오 코딩 기능을 가진 하나 이상의 디바이스를 포함할 수 있다. 일 예에서, 미디어 서버 디바이스(210)는 데스크탑 컴퓨터, 랩탑 컴퓨터, 서버 컴퓨터, 태블릿 컴퓨터 등과 같은 단일 컴퓨팅 디바이스를 포함한다. 다른 예에서, 미디어 서버 디바이스(210)는 데이터 센터(들), 서버 팜(들) 등을 포함한다. 미디어 서버 디바이스(210)는 비디오 및 오디오 콘텐츠를 수신할 수 있고, 비디오 콘텐츠 및 오디오 콘텐츠를 적절한 미디어 코딩 표준에 따라 하나 이상의 인코딩된 비트스트림으로 압축할 수 있다. 인코딩된 비트스트림은 네트워크를 통해 미디어 클라이언트 디바이스(260A 및 260B)로 전달될 수 있다.

미디어 클라이언트 디바이스(예: 미디어 클라이언트 디바이스(260A) 및 (260B))는 각각 미디어 애플리케이션을 위한 비디오 코딩 및 오디오 코딩 기능을 갖는 하나 이상의 디바이스를 포함한다. 일 예에서, 각각의 미디어 클라이언트 디바이스는 데스크탑 컴퓨터, 랩탑 컴퓨터, 서버 컴퓨터, 태블릿 컴퓨터, 웨어러블 컴퓨팅 디바이스, HMD(head mounted display) 디바이스 등과 같은 컴퓨팅 디바이스를 포함한다. 미디어 클라이언트 디바이스는 적절한 미디어 코딩 표준에 따라 인코딩된 비트스트림을 디코딩할 수 있다. 디코딩된 비디오 콘텐츠 및 오디오 콘텐츠는 미디어 재생에 사용될 수 있다.

미디어 서버 디바이스(210)는 임의의 적합한 기술을 사용하여 구현될 수 있다. 도 2의 일 예에서, 미디어 서버 디바이스(210)는 함께 결합된 처리 회로(230) 및 인터페이스 회로(211)를 포함한다.

처리 회로(230)는 하나 이상의 중앙 처리 유닛(central processing unit, CPU), 하나 이상의 그래픽 처리 유닛(graphics processing unit, GPU), 애플리케이션 특정 집적 회로 등과 같은 임의의 적합한 처리 회로를 포함할 수 있다. 처리 회로(230)는 오디오 인코더, 비디오 인코더 등과 같은 다양한 인코더를 포함하도록 구성될 수 있다. 일 예에서, 하나 이상의 CPU 및/또는 GPU는 소프트웨어를 실행하여 오디오 인코더 또는 비디오 인코더로 기능할 수 있다. 다른 예에서, 오디오 인코더 또는 비디오 인코더는 애플리케이션 특정 집적 회로를 사용하여 구현될 수 있다.

인터페이스 회로(211)는 미디어 서버 디바이스(210)를 네트워크와 인터페이스할 수 있다. 인터페이스 회로(211)는 네트워크로부터 신호를 수신하는 수신부(receiving portion) 및 신호를 네트워크로 전송하는 송신부(transmitting portion)를 포함할 수 있다. 예를 들어, 인터페이스 회로(211)는 인코딩된 비트스트림을 운반하는 신호를 네트워크를 통해 미디어 클라이언트 디바이스(260A), 미디어 클라이언트 디바이스(260B) 등과 같은 다른 디바이스에 전송할 수 있다. 인터페이스 회로(211)는 미디어 클라이언트 디바이스(260A 및 260B)와 같은 미디어 클라이언트 디바이스로부터 신호를 수신할 수 있다.

네트워크는 이더넷 연결, 광섬유 연결, WiFi 연결, 셀룰러 네트워크 연결 등과 같은 유선 및/또는 무선 연결을 통해 미디어 서버 디바이스(210) 및 미디어 클라이언트 디바이스(예: 미디어 클라이언트 디바이스(260A 및 260B))와 적절하게 결합된다. 네트워크는 네트워크 서버 디바이스, 저장 디바이스, 네트워크 디바이스 등을 포함할 수 있다. 네트워크의 컴포넌트는 유선 및/또는 무선 연결을 통해 함께 적절하게 결합된다.

미디어 클라이언트 디바이스(예: 미디어 클라이언트 디바이스(260A 및 260B))는 각각 코딩된 비트스트림을 디코딩하도록 구성된다. 일 예에서, 각각의 미디어 클라이언트 디바이스는 디스플레이될 수 있는 비디오 프레임의 시퀀스를 재구성하기 위해 비디오 디코딩을 수행할 수 있고, 재생을 위한 오디오 신호를 생성하기 위해 오디오 디코딩을 수행할 수 있다.

미디어 클라이언트 디바이스(260A 및 260B)와 같은 미디어 클라이언트 디바이스는 임의의 적합한 기술을 사용하여 구현될 수 있다. 도 2의 일 예에서, 미디어 클라이언트 디바이스(260A)가 도시되지만, 사용자 A에 의해 사용될 수 있는 사용자 장비로서 이어폰을 갖는 헤드 마운트 디스플레이(head mounted display, HMD)에 제한되지 않으며, 미디어 클라이언트 디바이스(260B)가 도시되지만, 사용자 B가 사용할 수 있는 사용자 장비로서 이어폰을 갖는 HMD로 제한되지 않는다.

도 2에서, 미디어 클라이언트 디바이스(260A)는 도 2에 도시된 바와 같이 함께 결합된 인터페이스 회로(261A) 및 처리 회로(270A)를 포함하고, 미디어 클라이언트 디바이스(260B)는 도 2에 도시된 바와 같이 함께 결합된 인터페이스 회로(261B) 및 처리 회로(270B)를 포함한다.

인터페이스 회로(261A)는 미디어 클라이언트 디바이스(260A)를 네트워크와 인터페이스할 수 있다. 인터페이스 회로(261A)는 네트워크로부터 신호를 수신하는 수신부 및 신호를 네트워크로 전송하는 송신부를 포함할 수 있다. 예를 들어, 인터페이스 회로(261A)는 네트워크로부터 인코딩된 비트스트림을 운반하는 신호와 같은 데이터를 운반하는 신호를 수신할 수 있다.

처리 회로(270A)는 CPU, GPU, 애플리케이션 특정 집적 회로 등과 같은 적절한 처리 회로를 포함할 수 있다. 처리 회로(270A)는 DoF 변환기(271A), 렌더러(renderer)(272A), 비디오 디코더(도시되지 않음), 오디오 디코더(도시되지 않음) 등과 같은 다양한 컴포넌트를 포함하도록 구성될 수 있다.

일부 예에서, 오디오 디코더는 오디오 콘텐츠가 인코딩된 방식에 적합한 디코딩 도구를 선택함으로써 인코딩된 비트스트림 내의 오디오 콘텐츠를 디코딩할 수 있고, 비디오 디코더는 비디오 콘텐츠가 인코딩된 방식에 적합한 디코딩 도구를 선택함으로써 인코딩된 비트스트림 내의 비디오 콘텐츠를 디코딩할 수 있다. DoF 변환기(271A)는 미디어 클라이언트 디바이스(260A)와 호환되도록 디코딩된 미디어 콘텐츠의 DoF 정보를 조정하도록 구성된다. 일 예에서, 미디어 클라이언트 디바이스(260A)의 하드웨어는 6 DoF를 지원하고, 수신된 미디어 콘텐츠는 3 DoF 미디어 콘텐츠를 포함하며, DoF 변환기(271A)는 미디어 클라이언트 디바이스(260A)에서의 재생을 위해 3 DoF 미디어 콘텐츠를 6 DoF 미디어 콘텐츠로 변환할 수 있다.

또한, 렌더러(272A)는 인코딩된 비트스트림으로부터 디코딩된 오디오 콘텐츠 및 비디오 콘텐츠로부터 미디어 클라이언트 디바이스(260A)에 적합한 최종 디지털 제품을 생성할 수 있다. 처리 회로(270A)는 추가 미디어 처리를 위해 믹서, 후처리(post processing) 회로 등과 같은 다른 적절한 컴포넌트(도시되지 않음)를 포함할 수 있음에 유의한다.

이와 유사하게, 인터페이스 회로(261B)는 미디어 클라이언트 디바이스(260B)를 네트워크와 인터페이스할 수 있다. 인터페이스 회로(261B)는 네트워크로부터 신호를 수신하는 수신부 및 신호를 네트워크로 전송하는 송신부를 포함할 수 있다. 예를 들어, 인터페이스 회로(261B)는 네트워크로부터 인코딩된 비트스트림을 운반하는 신호와 같은 데이터를 운반하는 신호를 수신할 수 있다.

처리 회로(270B)는 CPU, GPU, 애플리케이션 특정 집적 회로 등과 같은 적절한 처리 회로를 포함할 수 있다. 처리 회로(270B)는 DoF 변환기(271B), 렌더러(272B), 비디오 디코더, 오디오 디코더 등과 같은 다양한 컴포넌트를 포함하도록 구성될 수 있다.

일부 예에서, 오디오 디코더는 오디오 콘텐츠가 인코딩된 방식에 적합한 디코딩 도구를 선택함으로써 인코딩된 비트스트림 내의 오디오 콘텐츠를 디코딩할 수 있고, 비디오 디코더는 비디오 콘텐츠가 인코딩된 방식에 적합한 디코딩 도구를 선택함으로써 인코딩된 비트스트림 내의 비디오 콘텐츠를 디코딩할 수 있다. DoF 변환기(271B)는 미디어 클라이언트 디바이스(260B)와 호환되도록 수신된 미디어 콘텐츠의 DoF 정보를 조정하도록 구성된다. 일 예에서, 미디어 클라이언트 디바이스(260B)의 하드웨어는 6 DoF를 지원하고, 수신된 미디어 콘텐츠는 3 DoF 미디어 콘텐츠를 포함하며, DoF 변환기(271B)는 미디어 클라이언트 디바이스(260B)에서의 재생을 위해 3 DoF 미디어 콘텐츠를 6 DoF 미디어 콘텐츠로 변환할 수 있다.

또한, 렌더러(272B)는 인코딩된 비트스트림으로부터 디코딩된 오디오 콘텐츠로부터 미디어 클라이언트 디바이스(260B)에 적합한 최종 디지털 제품을 생성할 수 있다. 처리 회로(270B)는 추가 오디오 처리를 위해 믹서, 후처리 회로 등과 같은 다른 적절한 컴포넌트(도시되지 않음)를 포함할 수 있음에 유의한다.

일부 예에서, 미디어 서버 디바이스(210)는 DoF 변환을 수행할 수 있다. 일 예에서, 미디어 서버 디바이스(210)는 DoF 변환기(231)를 포함한다. 일 예에서, 미디어 서버 디바이스(210)는 미디어 클라이언트 디바이스(260A) 및 미디어 클라이언트 디바이스(260B)와 같은 미디어 클라이언트 디바이스로부터 하드웨어 정보를 수신할 수 있다. 예를 들어, 미디어 서버 디바이스(210)는 미디어 클라이언트 디바이스(260A)로부터 하드웨어 정보를 수신하고, 하드웨어 정보는 미디어 클라이언트 디바이스(260A)가 6 DoF 미디어 콘텐츠를 지원하고 배터리 부족 상태임을 지시하며, 그런 다음 DoF 변환기(231)는 3 DoF 미디어 콘텐츠를 6 DoF 미디어 콘텐츠로 변환할 수 있다. 6 DoF 미디어 콘텐츠는 적절하게 인코딩되어 미디어 클라이언트 디바이스(260A)로 송신될 수 있다. 다른 예에서, 미디어 서버 디바이스(210)는 미디어 클라이언트 디바이스(260B)로부터 하드웨어 정보를 수신하고, 하드웨어 정보는 미디어 클라이언트 디바이스(260B)가 6 DoF 미디어 콘텐츠를 지원하며, 미디어 클라이언트 디바이스(260)가 처리 능력이 부족함(예: DoF 변환기를 갖지 않음)을 지시하며, 그런 다음 DoF 변환기(231)는 3 DoF 미디어 콘텐츠를 6 DoF 미디어 콘텐츠로 변환할 수 있다. 6 DoF 미디어 콘텐츠는 적절하게 인코딩되어 미디어 클라이언트 디바이스(260B)로 송신될 수 있다.

본 개시의 일부 측면에 따르면, 3 DoF 미디어 콘텐츠는 장면에서 미디어의 방향 정보와 함께 사용자 방향 정보를 기술할 수 있다. 미디어 콘텐츠는 시각적, 오디오(예: 오디오 채널, 오디오 객체 등) 또는 기타 형식일 수 있다. 3 DoF 미디어 콘텐츠를 6 DoF 미디어 콘텐츠로 변환하기 위해, 일부 예에서는 장면 내 각 미디어의 공간 위치 정보 및 사용자 공간 위치 정보가 적절하게 결정된다.

3 DoF 미디어 콘텐츠의 3 DoF 정보는 사용자가 구체의 중심에 있고 미디어 콘텐츠가 구체의 표면 위치에 있는 구체에 기반하여, 미디어 콘텐츠의 회전 방향을 기술한다는 점에 유의해야 한다. 본 개시의 일 측면에 따르면, 구체의 중심 위치, 구체의 반경과 같은 구체의 파라미터를 사용하여, 미디어 콘텐츠의 3 DoF 정보가 미디어 콘텐츠에 대한 6 DoF 정보로 변환될 수 있다. 구체의 파라미터는 미리 정의되어 서버 측 또는 클라이언트 측에서 이용 가능하거나 서버 측에서 클라이언트 측으로 전송될 수 있다.

일부 실시예에서, 구체에 대한 미리 정의된 파라미터 세트는 서버 측 및 클라이언트 측(예: 도 2의 미디어 서버 디바이스 및 미디어 클라이언트 디바이스)에서 이용 가능하며, 6 DoF 미디어 콘텐츠는 미리 정의된 파라미터 세트를 기반으로 3 DoF 미디어 콘텐츠에 대응하여 생성될 수 있다. 일부 예에서, 사용자 공간 위치, 및 사용자와 미디어 콘텐츠의 위치 사이의 거리(예: 사용자의 위치인 구체의 중심과 구체 상의 미디어 콘텐츠의 위치를 갖는 구체의 반경)는 미리 정의된 파라미터이다.

일부 예에서, 사용자 공간 위치는 3차원 공간의 원점인 (0, 0, 0)에서 미리 정의된다. 회전 방향(요 θ, 피치 φ, 롤 ψ)을 갖는 3 DoF 미디어 콘텐츠의 경우, 회전 방향을 기반으로 공간 위치(x, y, z)를 계산할 수 있다.

일 예에서, 사용자 공간 위치는 (0,0,0)으로 설정되고, 미디어 콘텐츠의 위치와 사용자 위치 사이의 거리는 1로 설정된다. 예를 들어, 미디어 콘텐츠의 위치는 사용자가 중심인 단위 구체(unit sphere) 상에 있다. 따라서, 미디어 콘텐츠의 공간 위치(x, y, z)는 예를 들어 수식 (1), 수식 (2) 및 수식 (3)에 따라 계산될 수 있다:

따라서, 6 DoF는 환경에서 미디어 콘텐츠 및 사용자의 움직임을 나타내는 데 사용될 수 있다. 예를 들어, 6 DoF에서 사용자의 공간 위치 정보는 (0, 0, 0)으로 나타낼 수 있고, 6 DoF에서 사용자의 회전 방향은 (θ, φ, ψ)로 나타낼 수 있으며; 6 DoF에서 미디어 콘텐츠의 공간 위치 정보는 수식 (1), 수식 (2) 및 수식 (3)에 따라 계산된 (x, y, z)로 나타낼 수 있고, 미디어 콘텐츠의 회전 방향은 (θ, φ, ψ), (2π-θ, π-φ, π-ψ), (0, 0, 0) 등과 같이 적절한 값으로 설정될 수 있다.

다른 예에서, 사용자의 공간 위치는 (0, 0, 0)으로 설정되고, 미디어 콘텐츠의 공간 위치와 사용자의 공간 위치 사이의 거리는 r이며, 여기서 r은 양수이다. 따라서, 미디어 콘텐츠의 공간 위치는 반경이 r인 구체에 있고 사용자의 공간 위치는 구체의 중심이다. 미디어 콘텐츠의 공간 위치 (x, y, z)는 수식 (4), 수식 (5) 및 수식 (6)에 따라 계산될 수 있다:

따라서, 6 DoF는 환경에서 미디어 콘텐츠 및 사용자의 움직임을 나타내는 데 사용될 수 있다. 예를 들어, 6 DoF에서 사용자의 공간 위치 정보는 (0, 0, 0)으로 나타낼 수 있고, 6 DoF에서 사용자의 회전 방향은 (θ, φ, ψ)로 나타낼 수 있으며, 6 DoF에서 미디어 콘텐츠의 공간 위치 정보는 수식 (4), 수식 (5) 및 수식 (6)에 따라 계산된 (x, y, z)로 나타낼 수 있고, 미디어 콘텐츠의 회전 방향은 (θ, φ, ψ), (2π-θ, π-φ, π-ψ), (0, 0, 0) 등과 같이 적절한 값으로 설정될 수 있다.

다른 예에서, 사용자의 공간 위치는 (a, b, c)로 설정되고, 미디어 콘텐츠의 공간 위치와 사용자의 공간 위치 사이의 거리는 r로 설정되며, 여기서 r은 양수이다. 미디어 콘텐츠의 공간 위치(x, y, z)는 수식 (7), 수식 (8) 및 수식 (9)에 따라 계산될 수 있다:

따라서, 6 DoF는 환경에서 미디어 콘텐츠 및 사용자의 움직임을 나타내는 데 사용될 수 있다. 예를 들어, 6 DoF에서 사용자의 공간 위치 정보는 (a, b, c)로 나타낼 수 있고, 6 DoF에서 사용자의 회전 방향은 (θ, φ, ψ)로 나타낼 수 있으며, 6 DoF에서 미디어 콘텐츠의 공간 위치 정보는 수식 (7), 수식 (8) 및 수식 (9)에 따라 계산된 (x, y, z)로 나타낼 수 있고, 미디어 콘텐츠의 회전 방향은 (θ, φ, ψ), (2π-θ, π-φ, π-ψ), (0, 0, 0) 등과 같이 적절한 값으로 설정될 수 있다.

일부 실시예에서, 상이한 미디어 콘텐츠의 공간 위치는 사용자의 공간 위치가 중심인 동일한 구체 상에 존재한다. 따라서, 모든 미디어 콘텐츠는 동일한 반경 r을 공유한다.

일부 실시예에서, 각각의 미디어 콘텐츠는 자신의 반경 r을 갖는다. 미디어 콘텐츠의 반경은 상이할 수 있다. 따라서, 미디어 콘텐츠의 공간 위치는 사용자 위치를 중심으로 하는 상이한 구체에 상주할 수 있다.

본 개시의 일 측면에 따르면, 3 DOF 미디어 콘텐츠 이외에 구체의 파라미터(예: 구체의 중심 위치, 구체의 반경)가 메타데이터 또는 SEI 메시지를 통해 콘텐츠 비트스트림의 일부로서 또는 개별적으로 클라이언트 측으로 전달될 수 있다. 3 DOF 소스와 구체의 파라미터 정보 모두를 조합한 정보를 사용하여, 6 DOF 플랫폼은 대응하는 콘텐츠를 렌더링할 수 있다.

일 실시예에서, 사용자 공간 위치(구체의 중심), 사용자와 미디어 콘텐츠의 위치 사이의 거리(구체의 반경)를 포함하는 구체의 파라미터가, 보충 강화 정보(supplemental enhanced information, SEI) 메시지를 사용하는 것과 같이, 3 DoF 미디어 콘텐츠를 운반하는 비트스트림의 일부로서 시그널링될 수 있다. SEI 메시지는 콘텐츠 비트스트림으로부터의 몰입형 3 DoF 미디어 콘텐츠의 디코딩 프로세스에 영향을 미치지 않는다. SEI 메시지는 제공된 3 DoF 미디어 콘텐츠로 6 DoF 효과(6 DoF 플랫폼에서)를 렌더링하는 데 도움이 될 수 있다.

다른 실시예에서, 사용자 공간 위치(구체의 중심), 사용자와 미디어 콘텐츠의 위치 사이의 거리(구체의 반경)를 포함하는 구체의 파라미터가, 3 DoF 미디어 콘텐츠를 운반하는 비트스트림의 일부로서 전달되지 않는다. 일부 예에서, 구체의 파라미터는 시스템 계층의 패킷을 통하는 것과 같이 메타데이터로 송신된다. 메타데이터는 비트스트림으로부터의 몰입형 3 DoF 콘텐츠의 정상적인 디코딩 프로세스에 영향을 미치지 않는다. 메타데이터는 제공된 3 DoF 미디어 콘텐츠로 6 DoF 효과(예: 6 DoF 플랫폼에서)를 렌더링하는 데 도움이 될 수 있다.

도 3은 본 개시의 실시예에 따른 프로세스(300)를 개략적으로 설명하는 흐름도를 도시한다. 프로세스(300)는 미디어 서버 디바이스(210)의 DoF 변환기(231), 미디어 클라이언트 디바이스(260A)의 DoF 변환기(271A), 그리고 미디어 클라이언트 디바이스(260B)의 DoF 변환기(271B) 등과 같은 미디어 처리 디바이스에 의해 수행될 수 있다. 일부 실시예에서, 프로세스(300)는 소프트웨어 명령어로 구현되며, 따라서 처리 회로가 소프트웨어 명령어를 실행할 때 처리 회로는 프로세스(300)를 수행한다. 프로세스는 (S301)에서 시작하여 (S310)으로 진행한다.

(S310)에서, 미디어 애플리케이션의 장면에 대한 제1 미디어 콘텐츠와 연관된 제1 3 자유도(3 DoF) 정보가 수신된다. 제1 3 DoF 정보는 제1 구체 상에서 제1 미디어 콘텐츠를 기술하기 위한 제1 회전 방향을 포함한다. 일 예에서, 제1 구체는 미디어 애플리케이션의 사용자를 중심으로 한다.

(S320)에서, 미디어 처리 디바이스는 미디어 콘텐츠를 렌더링하기 위한 렌더링 플랫폼이 6 DoF 플랫폼임을 결정한다. 일 예에서, 미디어 처리 디바이스는 6 DoF를 지원하는 미디어 클라이언트 디바이스이고, 미디어 처리 디바이스는 미디어 클라이언트 디바이스의 구성에 기반하여 결정을 내릴 수 있다. 다른 예에서, 미디어 처리 디바이스는 미디어 서버 디바이스이고, 미디어 서버 디바이스는 미디어 클라이언트 디바이스로부터 신호를 수신할 수 있다. 신호는 미디어 클라이언트 디바이스가 6 DoF를 지원함을 지시한다.

(S330)에서, 제1 구체의 제1 파라미터 및 제1 회전 방향에 기반하여 제1 미디어 콘텐츠의 제1 공간 위치 정보를 결정한다. 제1 공간 위치 정보는 일 예에서 제1 미디어 콘텐츠를 6 DoF 플랫폼에서 렌더링하기 위해 제1 미디어 콘텐츠와 연관된 제1 6 DoF 정보에서 사용된다.

일부 실시예에서, 제1 구체의 제1 파라미터는 미디어 서버 디바이스 및 미디어 클라이언트 디바이스에 알려진 미리 정의된 파라미터에 따라 결정된다. 일부 예에서, 미리 정의된 위치가 될 제1 구체의 중심 위치 및 제1 구체의 반경은 미리 정의된 양의 값으로 설정되고, 제1 공간 위치는 예를 들어 수식 (7), 수식 (8) 및 수식 (9)에 따라 결정될 수 있다. 일 예에서, 제1 구체의 중심 위치는 3차원(3 dimensional, 3D) 공간에서 (0,0,0)으로 설정되고, 제1 구체의 반경은 1로 설정된다. 그러면, 제1 공간 위치 정보는 예를 들어 수식 (1), 수식 (2) 및 수식 (3)에 따라 결정될 수 있다.

일부 실시예에서, 미디어 처리 디바이스는 미디어 클라이언트 디바이스이고, 미디어 클라이언트 디바이스는 미디어 서버 디바이스로부터 제1 구체의 제1 파라미터를 수신한다. 일부 예에서, 미디어 클라이언트 디바이스는 제1 미디어 콘텐츠를 운반하는 비트스트림의 일부인 보충 강화 정보(supplemental enhanced information, SEI) 메시지로부터 제1 구체의 제1 파라미터를 수신한다. 제1 미디어 콘텐츠는 SEI 메시지를 사용하지 않고 비트스트림으로부터 디코딩될 수 있다. SEI 메시지는 3 DoF인 제1 미디어 컨텐츠로 6 DoF 효과를 렌더링하기 위한 정보를 제공한다.

일부 예에서, 미디어 클라이언트 디바이스는 시스템 계층에서의 메타데이터 패킷으로부터 제1 구체의 제1 파라미터를 수신한다. 패킷은 제1 미디어 콘텐츠를 운반하는 비트스트림과 별개이다. 제1 미디어 콘텐츠는 메타데이터를 사용하지 않고 비트스트림에서 디코딩될 수 있다. 메타데이터는 3 DoF인 제1 미디어 콘텐츠로 6 DoF 효과를 렌더링하기 위한 정보를 제공한다.

일부 예에서, 미디어 애플리케이션의 장면에 대한 제2 미디어 콘텐츠와 연관된 제2 3 DoF 정보가 수신된다. 제2 3 DoF 정보는 제1 구체와 중심 위치를 공유하는 제2 구체 상에서 제2 미디어 콘텐츠를 기술하기 위한 제2 회전 방향을 포함한다. 그다음, 제2 구체의 제2 파라미터 및 제2 회전 방향에 기반하여 제2 미디어 콘텐츠의 제2 공간 위치 정보를 계산한다. 제2 공간 위치 정보는 6 DoF 플랫폼에서 제2 미디어 콘텐츠를 렌더링하기 위해 제2 미디어 콘텐츠와 연관된 제2 6 DoF 정보에서 사용된다. 일 예에서, 제1 구체와 제2 구체는 동일한 반경을 갖는다. 또 다른 예에서, 제1 구체와 제2 구체는 서로 다른 반경을 갖는다.

일부 예에서, 미디어 처리 디바이스는 미디어 클라이언트 디바이스이고, 미디어 클라이언트 디바이스는 제1 공간 위치 정보를 포함하는 제1 6 DoF 정보에 따라 제1 미디어 콘텐츠를 렌더링한다.

일부 예에서, 미디어 처리 디바이스는 미디어 서버 디바이스이고, 미디어 서버 디바이스는 비트스트림의 제1 6 DoF 정보와 연관된 제1 미디어 콘텐츠를 미디어 클라이언트 디바이스에 제공한다.

그 후, 처리는 (S399)로 진행하여 종료한다.

프로세스(300)는 적절하게 채택될 수 있다. 프로세스(300)의 단계(들)는 수정 및/또는 생략될 수 있다. 추가적인 단계(를)를 추가할 수 있다. 임의의 적합한 구현 순서를 사용할 수 있다.

위에서 설명된 기술은 컴퓨터가 판독 가능한 명령어를 사용하고 하나 이상의 컴퓨터가 판독 가능한 매체에 물리적으로 저장된 컴퓨터 소프트웨어로서 구현될 수 있다. 예를 들어, 도 4는 개시된 주제의 특정 실시예를 구현하기에 적합한 컴퓨터 시스템(400)을 도시한다.

컴퓨터 소프트웨어는 임의의 적절한 머신 코드 또는 컴퓨터 언어를 사용하여 코딩될 수 있으며, 이는 컴퓨터 중앙 처리 유닛(central processing unit, CPU), 그래픽 처리 유닛(Graphics Processing Unit, GPU) 등과 같은 처리 회로에 의해, 직접 또는 해석(interpretation), 마이크로 코드 실행 등을 통해 실행될 수 있는 명령어를 포함하는 코드를 생성하도록 어셈블리, 컴파일, 링크 또는 유사한 메커니즘의 적용을 받을 수 있다.

명령어는 예를 들어 개인용 컴퓨터, 태블릿 컴퓨터, 서버, 스마트 폰, 게임 디바이스, 사물 인터넷 디바이스 등을 포함하는 다양한 유형의 컴퓨터 또는 그 컴포넌트에서 실행될 수 있다.

컴퓨터 시스템(400)에 대해 도 4에 도시된 컴포넌트는 본질적으로 예시적인 것이며, 본 개시의 실시예를 구현하는 컴퓨터 소프트웨어의 사용 또는 기능의 범위에 대한 어떠한 제한도 제안하도록 의도되지 않는다. 컴포넌트의 구성은 컴퓨터 시스템(400)의 예시적인 실시예에 예시된 컴포넌트 중 임의의 하나 또는 조합과 관련된 임의의 종속성 또는 요건을 갖는 것으로 해석되어서는 안된다.

컴퓨터 시스템(400)은 특정한 휴먼 인터페이스 입력 디바이스를 포함할 수 있다. 이러한 휴먼 인터페이스 입력 디바이스는 예를 들어, 촉각 입력(예: 키스트로크(keystroke), 스와이프, 데이터 글러브 움직임), 오디오 입력(예: 음성, 박수), 시각적 입력(예: 제스처), 후각 입력(도시되지 않음)을 통해 한 명 이상의 인간 사용자에 의한 입력에 응답할 수 있다. 휴먼 인터페이스 디바이스는 또한 오디오(예: 음성, 음악, 주변 소리), 이미지(예: 스캔된 이미지, 정지 이미지 카메라로부터 획득하는 사진 이미지), 비디오(예: 2차원 비디오, 입체 비디오를 포함한 3차원 비디오)와 같이 인간의 의식적 입력과 직접 관련이 없는 특정 미디어를 캡처하는 데 사용될 수도 있다.

입력 휴먼 인터페이스 디바이스는 키보드(401), 마우스(402), 트랙패드(403), 터치 스크린(410), 데이터 글러브(도시되지 않음), 조이스틱(405), 마이크(406), 스캐너(407), 및 카메라(408) 중 하나 이상(각 도시된 것 중 하나만)을 포함할 수 있다.

컴퓨터 시스템(400)은 또한 특정 휴먼 인터페이스 출력 디바이스를 포함할 수 있다. 이러한 휴먼 인터페이스 출력 디바이스는 예를 들어 촉각 출력, 소리, 빛 및 냄새/맛을 통해 한 명 이상의 인간 사용자의 감각을 자극할 수 있다. 이러한 휴먼 인터페이스 출력 디바이스는, 촉각 출력 디바이스(예: 터치 스크린(410), 데이터 글러브(도시되지 않음), 또는 조이스틱(405)에 의한 촉각 피드백을 포함하지만, 입력 디바이스로서 기능하지 않는 촉각 피드백 디바이스이 있을 수도 있음), 오디오 출력 디바이스(예: 스피커(409), 헤드폰(도시되지 않음)), 시각 출력 디바이스(예: CRT 스크린, LCD 스크린, 플라즈마 스크린, OLED 스크린을 포함하는 스크린(410)를 포함하며, 이들 각각은 터치 스크린 입력 능력을 가지고 있을 수도 없을 수도 있고, 이들 각각은 촉각 피드백 능력을 가지고 있을 수도 없을 수도 있으며, 일부는 2차원 시각 출력 또는 가상 현실 안경(도시되지 않음), 홀로그래픽 디스플레이 및 스모크 탱크(smoke tank, 도시되지 않음)와 같은 스테레오그래픽 출력 수단을 통한 3차원 출력이 가능함), 및 프린터(도시되지 않음)를 포함할 수 있다. 이들 시각 출력 디바이스(예를 들어 스크린(410)은 그래픽 어댑터(450)를 통해 시스템 버스(448)에 연결될 수 있다.

컴퓨터 시스템(400)은 또한 사람이 액세스할 수 있는 저장 디바이스 및 이와 연관된 매체로서, CD/DVD를 가진 CD/DVD ROM/RW(420) 또는 이와 유사한 매체(421)를 포함하는 광학 매체, 썸 드라이브(thumb-driver)(422), 탈착식 하드 드라이브 또는 솔리드 스테이트 드라이브(423), 테이프 및 플로피 디스크(도시되지 않음)와 같은 레거시 자기 매체, 보안 동글(도시되지 않음)과 같은 특수 ROM/ASIC/PLD 기반 디바이스 등을 포함한다.

당업자는 또한 현재 개시된 주제와 관련하여 사용되는 용어 "컴퓨터가 판독 가능한 매체"가 전송 매체, 반송파, 또는 다른 일시적 신호를 포함하지 않는다는 것을 이해해야 한다.

컴퓨터 시스템(400)은 또한 하나 이상의 통신 네트워크(455)에 대한 네트워크 인터페이스(445)를 포함할 수 있다. 네트워크는 예를 들어 무선, 유선, 광일 수 있다. 네트워크는 또한 로컬, 광역, 대도시, 차량 및 산업, 실시간, 지연 허용 등일 수 있다. 네트워크의 예로는 이더넷과 같은 근거리 네트워크, 무선 LAN, GSM, 3G, 4G, 5G, LTE 등을 포함하는 셀룰러 네트워크, 케이블 TV, 위성 TV 및 지상파 방송 TV를 포함하는 TV 유선 또는 무선 광역 디지털 네트워크, CAN 버스를 포함하는 차량 및 산업용 등이 포함된다. 특정 네트워크는 일반적으로 특정 범용 데이터 포트 또는 주변기기 버스(449)(예: 컴퓨터 시스템(400)의 USB 포트)에 부착된 외부 네트워크 인터페이스 어댑터를 필요로 하며; 다른 것들은 아래에서 설명된 바와 같이, 일반적으로 시스템 버스에 부착되는 것(예: PC 컴퓨터 시스템에 대한 이더넷 인터페이스 또는 스마트 폰 컴퓨터 시스템에 대한 셀룰러 네트워크 인터페이스)에 의해 컴퓨터 시스템(400)의 코어에 통합된다. 이러한 네트워크 중 임의의 것을 사용하여 컴퓨터 시스템(400)은 다른 엔티티와 통신할 수 있다. 이러한 통신은 예를 들어, 로컬 또는 광역 디지털 네트워크를 사용하는 다른 컴퓨터 시스템에 대한, 단방향, 수신 전용(예: 방송 TV), 단방향 송신 전용(예: CANbus에서 특정 CANbus 디바이스로) 또는 양방향일 수 있다. 특정 프로토콜 및 프로토콜 스택이 위에서 설명한 바와 같이 네트워크 및 네트워크 인터페이스 각각에서 사용될 수 있다.

전술한 휴먼 인터페이스 디바이스, 사람이 액세스할 수 있는 저장 디바이스 및 네트워크 인터페이스는 컴퓨터 시스템(400)의 코어(440)에 부착될 수 있다.

코어(440)는 하나 이상의 중앙 처리 유닛(Central Processing Unit, CPU)(441), 그래픽 처리 유닛(Graphics Processing Unit, GPU)(442), FPGA(Field Programmable Gate Areas) 형태의 특수 프로그래머블 처리 유닛(443), 특정 태스크에 대한 하드웨어 가속기(444), 그래픽 어댑터(450) 등을 포함할 수 있다. 읽기 전용 메모리(Read-only memory, ROM)(445), 랜덤 액세스 메모리(446), 내부 비 사용자 액세스 가능 하드 드라이브, SSD 등과 같은 내부 대용량 스토리지(447)와 함께 이러한 디바이스는 시스템 버스(448)를 통해 연결될 수 있다. 일부 컴퓨터 시스템에서, 시스템 버스(448)는 추가 CPU, GPU 등에 의한 확장을 가능하게 하기 위해 하나 이상의 물리적 플러그의 형태로 액세스할 수 있다. 주변 디바이스는 코어의 시스템 버스(448)에 직접 또는 주변기기 버스(449)를 통해 부착될 수 있다. 일 예에서, 스크린(410)이 그래픽 어댑터(450)에 연결될 수 있다. 주변 버스의 아키텍처에는 PCI, USB 등이 포함된다.

CPU(441), GPU(442), FPGA(443), 및 가속기(444)는 조합하여 전술한 컴퓨터 코드를 구성할 수 있는 특정 명령어를 실행할 수 있다. 이 컴퓨터 코드는 ROM(445) 또는 RAM(446)에 저장될 수 있다. 과도기 데이터(Transitional data)는 RAM(446)에 저장될 수도 있지만 영구(permanent) 데이터는 예를 들어 내부 대용량 스토리지(447)에 저장될 수 있다. 하나 이상의 CPU(441), GPU(442), 대용량 스토리지(447), ROM(445), RAM(446) 등과 밀접하게 연관될 수 있는 캐시 메모리의 사용을 통해 임의의 메모리 디바이스에 대한 빠른 저장 및 검색을 가능하게 할 수 있다.

컴퓨터가 판독 가능한 매체는 다양한 컴퓨터 구현 작동을 수행하기 위한 컴퓨터 코드를 가질 수 있다. 매체 및 컴퓨터 코드는 본 개시의 목적을 위해 특별히 설계되고 구성된 것이거나, 컴퓨터 소프트웨어 분야의 숙련자에게 잘 알려져 있고 이용 가능한 종류일 수 있다.

비제한적인 예로서, 아키텍처(400)를 갖는 컴퓨터 시스템, 특히 코어(440)는 하나 이상의 유형의 컴퓨터가 판독 가능한 매체에 구현된 소프트웨어를 실행하는 프로세서(들)(CPU, GPU, FPGA, 가속기 등을 포함)의 결과로서 기능을 제공할 수 있다. 이러한 컴퓨터가 판독 가능한 매체는 위에서 소개된 사용자 액세스 가능 대용량 스토리지 또는 코어 내부 대용량 스토리지(447) 또는 ROM(445)과 같은 비 일시적 특성을 가진 코어(440)의 특정 스토리지와 관련된 매체일 수 있다. 본 개시의 다양한 실시예를 구현하는 소프트웨어는 이러한 디바이스에 저장되고 코어(440)에 의해 실행될 수 있다. 컴퓨터가 판독 가능한 매체는 특정 필요성에 따라 하나 이상의 메모리 디바이스 또는 칩을 포함할 수 있다. 소프트웨어는 코어(440) 및 특히 그 안의 프로세서(CPU, GPU, FPGA 등을 포함)가 RAM(446)에 저장된 데이터 구조를 정의하는 것과 소프트웨어에서 정의한 프로세스에 따라 이러한 데이터 구조를 수정하는 것을 포함하여, 여기에 설명된 특정 프로세스 또는 특정 프로세스의 일부를 실행하도록 할 수 있다. 추가로 또는 대안으로, 컴퓨터 시스템은 여기에 설명된 특정 프로세스나 특정 프로세스의 특정 부분을 실행하기 위해 소프트웨어 대신 또는 소프트웨어와 함께 작동할 수 있는 회로(예: 가속기(444))에 배선(hardwired)되거나 구현된 로직의 결과로 기능을 제공할 수 있다. 소프트웨어에 대한 참조는 로직을 포함할 수 있으며 적절한 경우에 그 반대도 마찬가지이다. 컴퓨터가 판독 가능한 매체에 대한 참조는 실행을 위한 소프트웨어를 저장하는 회로(예: 집적 회로(IC)), 실행을 위한 로직을 구현하는 회로 또는 적절한 경우 둘 다를 포함할 수 있다. 본 개시는 하드웨어 및 소프트웨어의 임의의 적절한 조합을 포괄한다.

본 개시는 몇몇 예시적인 실시예를 설명했지만, 개시의 범위 내에 속하는 변경, 순열 및 다양한 대체 등가물이 있다. 따라서, 당업자는 여기에서 명시적으로 도시되거나 설명되지는 않았지만 본 개시의 원리를 구현하고 따라서 본 개시의 사상 및 범위 내에 있는 수많은 시스템 및 방법을 고안할 수 있음을 이해할 것이다.

Claims

미디어 처리 디바이스에서의 미디어 처리 방법으로서,
미디어 애플리케이션에서 장면에 대한 제1 미디어 콘텐츠와 연관된 제1 3 자유도(3 degrees of freedom, 3 DoF) 정보를 수신하는 단계 - 상기 제1 3 DoF 정보는 상기 미디어 애플리케이션의 사용자를 중심으로 하는 제1 구체(sphere) 상에서 상기 제1 미디어 콘텐츠를 기술하기 위한 제1 회전 방향(revolution orientation)을 포함함 -;
상기 제1 미디어 콘텐츠를 렌더링하기 위한 렌더링 플랫폼이 6 자유도(six degrees of freedom, 6 DoF) 플랫폼임을 결정하는 단계; 및
상기 제1 구체의 제1 파라미터 및 상기 제1 회전 방향에 기반하여, 상기 제1 미디어 콘텐츠의 제1 공간 위치 정보를 계산하는 단계 - 상기 제1 공간 위치 정보는 상기 6 DoF 플랫폼에서 상기 제1 미디어 콘텐츠를 렌더링하기 위해 상기 제1 미디어 콘텐츠와 연관된 제1 6 DoF 정보에서 사용됨 -
를 포함하는 미디어 처리 방법.
제1항에 있어서,
미리 정의된 파라미터에 따라 상기 제1 구체의 제1 파라미터를 결정하는 단계
를 더 포함하는 미디어 처리 방법.
제2항에 있어서,
상기 제1 구체의 중심 위치를 미리 정의된 위치로 설정하는 단계; 및
상기 제1 구체의 반경을 미리 정의된 양(positive)의 값으로 설정하는 단계
를 더 포함하는 미디어 처리 방법.
제3항에 있어서,
상기 제1 구체의 중심 위치를 3차원(3 dimensional, 3D) 공간에서 (0,0,0)으로 설정하는 단계; 및
상기 제1 구체의 반경을 1로 설정하는 단계
를 더 포함하는 미디어 처리 방법.
제1항에 있어서,
상기 미디어 처리 디바이스는 미디어 클라이언트 디바이스이고,
상기 미디어 처리 방법은,
미디어 서버 디바이스로부터 상기 제1 구체의 제1 파라미터를 수신하는 단계
를 더 포함하는 미디어 처리 방법.
제5항에 있어서,
상기 미디어 처리 방법은,
상기 제1 미디어 콘텐츠를 운반하는 비트스트림의 일부인 보충 강화 정보(supplemental enhanced information, SEI) 메시지로부터 상기 제1 구체의 제1 파라미터를 수신하는 단계
를 더 포함하는 미디어 처리 방법.
제5항에 있어서,
상기 미디어 처리 방법은,
시스템 계층에서의 메타데이터 패킷으로부터 상기 제1 구체의 제1 파라미터를 수신하는 단계 - 상기 시스템 계층에서의 메타데이터 패킷은 상기 제1 미디어 콘텐츠를 운반하는 비트스트림과 별개임 -
를 더 포함하는 미디어 처리 방법.
제1항에 있어서,
상기 미디어 애플리케이션에서 상기 장면에 대한 제2 미디어 콘텐츠와 연관된 제2 3 DoF 정보를 수신하는 단계 - 상기 제2 3 DoF 정보는 상기 제1 구체와 중심 위치를 공유하는 제2 구체 상에서 상기 제2 미디어 콘텐츠를 기술하기 위한 제2 회전 방향을 포함함 -; 및
상기 제2 구체의 제2 파라미터 및 상기 제2 회전 방향에 기반하여 상기 제2 미디어 콘텐츠의 제2 공간 위치 정보를 계산하는 단계 - 상기 제2 공간 위치 정보는 상기 6 DoF 플랫폼에서 상기 제2 미디어 콘텐츠를 렌더링하기 위해 상기 제2 미디어 콘텐츠와 연관된 제2 6 DoF 정보에서 사용됨 -
를 더 포함하는 미디어 처리 방법.
제8항에 있어서,
상기 제1 구체와 상기 제2 구체는 동일한 반경을 갖는, 미디어 처리 방법.
제8항에 있어서,
상기 제1 구체와 상기 제2 구체는 서로 다른 반경을 갖는, 미디어 처리 방법.
제1항에 있어서,
상기 미디어 처리 디바이스는 미디어 클라이언트 디바이스이고,
상기 미디어 처리 방법은,
상기 제1 공간 위치 정보를 포함하는 제1 6 DoF 정보에 따라 상기 제1 미디어 콘텐츠를 렌더링하는 단계
를 더 포함하는 미디어 처리 방법.
제1항에 있어서,
상기 미디어 처리 디바이스는 미디어 서버 디바이스이고,
상기 미디어 처리 방법은,
비트스트림에서 상기 제1 6 DoF 정보와 연관된 상기 제1 미디어 콘텐츠를 미디어 클라이언트 디바이스에 제공하는 단계
를 더 포함하는 미디어 처리 방법.
처리 회로를 포함하는 미디어 처리 장치로서,
상기 처리 회로는,
미디어 애플리케이션에서 장면에 대한 제1 미디어 콘텐츠와 연관된 제1 3 자유도(3 degrees of freedom, 3 DoF) 정보를 수신하고 - 상기 제1 3 DoF 정보는 상기 미디어 애플리케이션의 사용자를 중심으로 하는 제1 구체 상에서 상기 제1 미디어 콘텐츠를 기술하기 위한 제1 회전 방향을 포함함 -;
상기 제1 미디어 콘텐츠를 렌더링하기 위한 렌더링 플랫폼이 6 자유도(six degrees of freedom, 6 DoF) 플랫폼임을 결정하며; 그리고
상기 제1 구체의 제1 파라미터 및 상기 제1 회전 방향에 기반하여, 상기 제1 미디어 콘텐츠의 제1 공간 위치 정보를 계산하도록 - 상기 제1 공간 위치 정보는 상기 6 DoF 플랫폼에서 상기 제1 미디어 콘텐츠를 렌더링하기 위해 상기 제1 미디어 콘텐츠와 연관된 제1 6 DoF 정보에서 사용됨 - 구성되는, 미디어 처리 장치.
제13항에 있어서,
상기 처리 회로는,
미리 정의된 파라미터에 따라 상기 제1 구체의 제1 파라미터를 결정하도록 구성되는, 미디어 처리 장치.
제14항에 있어서,
상기 처리 회로는,
상기 제1 구체의 중심 위치를 미리 정의된 위치로 설정하고; 그리고
상기 제1 구체의 반경을 미리 정의된 양의 값으로 설정하도록 구성되는, 미디어 처리 장치.
제15항에 있어서,
상기 처리 회로는,
상기 제1 구체의 중심 위치를 3차원(3 dimensional, 3D) 공간에서 (0,0,0)으로 설정하고; 그리고
상기 제1 구체의 반경을 1로 설정하도록 구성되는, 미디어 처리 장치.
제13항에 있어서,
상기 미디어 처리 장치는 미디어 클라이언트 디바이스이고,
상기 처리 회로는,
미디어 서버 디바이스로부터 상기 제1 구체의 제1 파라미터를 수신하도록 구성되는, 미디어 처리 장치.
제17항에 있어서,
상기 처리 회로는,
상기 제1 미디어 콘텐츠를 운반하는 비트스트림의 일부인 보충 강화 정보(supplemental enhanced information, SEI) 메시지로부터 상기 제1 구체의 제1 파라미터를 수신하도록 구성되는, 미디어 처리 장치.
제17항에 있어서,
상기 처리 회로는,
시스템 계층에서의 메타데이터 패킷으로부터 상기 제1 구체의 제1 파라미터를 수신하도록 - 상기 시스템 계층에서의 메타데이터 패킷은 상기 제1 미디어 콘텐츠를 운반하는 비트스트림과 별개임 - 구성되는, 미디어 처리 장치.
제13항에 있어서,
상기 처리 회로는,
상기 미디어 애플리케이션에서 상기 장면에 대한 제2 미디어 콘텐츠와 연관된 제2 3 DoF 정보를 수신하고 - 상기 제2 3 DoF 정보는 상기 제1 구체와 중심 위치를 공유하는 제2 구체 상에서 상기 제2 미디어 콘텐츠를 기술하기 위한 제2 회전 방향을 포함함 -; 그리고
상기 제2 구체의 제2 파라미터 및 상기 제2 회전 방향에 기반하여 상기 제2 미디어 콘텐츠의 제2 공간 위치 정보를 계산하도록 - 상기 제2 공간 위치 정보는 상기 6 DoF 플랫폼에서 상기 제2 미디어 콘텐츠를 렌더링하기 위해 상기 제2 미디어 콘텐츠와 연관된 제2 6 DoF 정보에서 사용됨 - 구성되는, 미디어 처리 장치.