KR20230057372A

KR20230057372A - 증강 현실 미디어 오브젝트들에 대한 앵커 기반 렌더링을 수행하는 방법 및 장치

Info

Publication number: KR20230057372A
Application number: KR1020237007008A
Authority: KR
Inventors: 에릭 입; 양현구; 송재연
Original assignee: 삼성전자주식회사
Priority date: 2020-08-27
Filing date: 2021-08-26
Publication date: 2023-04-28
Also published as: EP4189649A4; CN115989527A; WO2022045815A1; EP4189649A1; US20230351705A1

Abstract

본 개시는 롱 텀 에볼루션(long term evolution: LTE)과 같은 4G 통신 시스템 이후 보다 높은 데이터 레이트들을 지원하기 위한 5G 통신 시스템 또는 6G 통신 시스템에 관한 것이다. 본 개시는 앵커 기반 렌더링 모드들, 관련 파라미터들 및 메타데이터를 위한 방법 및 장치를 제공한다. 통신 시스템에서 증강 현실(augmented reality: AR) 미디어 오브젝트(media object)에 대한 렌더링(rendering)을 수행하는 방법이 제공되고, 상기 방법은 상기 AR 미디어 오브젝트의 렌더링 모드를 결정하기 위한 정보를 포함하는 메타데이터(metadata)를 획득하는 동작, 상기 정보는 상기 AR 오브젝트가 병진 운동(translational motion)을 포함하는지 여부를 지시하는 제1 정보를 포함함, 서버로부터 AR 미디어 오브젝트를 포함하는 AR 미디어 데이터를 수신하는 동작, 상기 제1 정보를 포함하는 상기 메타데이터에 기반하여 상기 AR 미디어 오브젝트를 렌더링하기 위한 렌더링 모드를 결정하는 동작, 및 상기 결정된 렌더링 모드에 기반하여 상기 AR 미디어 오브젝트를 렌더링하는 동작을 포함한다.

Description

증강 현실 미디어 오브젝트들에 대한 앵커 기반 렌더링을 수행하는 방법 및 장치

본 개시는 일반적으로 포인트 클라우드(point cloud)들 및 메쉬(mesh)들로 표현되는 3D 미디어를 포함하는, 혼합 현실(mixed reality) 및 증강 현실(augmented reality) 컨텐트(contents)의 멀티미디어 컨텐트 프로세싱 저작(authoring), 프리-프로세싱(pre-processing), 포스트-프로세싱(post-processing), 메타데이터(metadata) 전달, 전달, 디코딩 및 렌더링(rendering)에 관한 것이다.

무선 통신 세대를 거듭하면서 발전한 과정을 돌아보면 음성, 멀티미디어, 데이터 등 주로 인간 대상의 서비스를 위한 기술이 개발되어 왔다. 5G (5th-generation) 통신 시스템 상용화 이후 폭발적인 증가 추세에 있는 커넥티드 기기들이 통신 네트워크에 연결될 것으로 전망되고 있다. 네트워크에 연결된 사물의 예로는 차량, 로봇, 드론, 가전제품, 디스플레이, 각종 인프라에 설치된 스마트 센서, 건설기계, 공장 장비 등이 있을 수 있다. 모바일 기기는 증강현실 안경, 가상현실 헤드셋, 홀로그램 기기 등 다양한 폼팩터로 진화할 것으로 예상된다. 6G (6th-generation) 시대에는 수천억 개의 기기 및 사물을 연결하여 다양한 서비스를 제공하기 위해, 개선된 6G 통신 시스템을 개발하기 위한 노력이 이루어지고 있다. 이러한 이유로, 6G 통신 시스템은 5G 통신 이후 (beyond 5G) 시스템이라 불리어지고 있다.

2030년쯤 실현될 것으로 예측되는 6G 통신 시스템에서 최대 전송 속도는 테라 (즉, 1,000기가) bps, 무선 지연시간은 100마이크로초(μsec) 이다. 즉, 5G 통신 시스템대비 6G 통신 시스템에서의 전송 속도는 50배 빨라지고 무선 지연시간은 10분의 1로 줄어든다.

이러한 높은 데이터 전송 속도 및 초저(ultra low) 지연시간을 달성하기 위해, 6G 통신 시스템은 테라헤르츠(terahertz) 대역 (예를 들어, 95기가헤르츠(95GHz)에서 3테라헤르츠(3THz)대역과 같은)에서의 구현이 고려되고 있다. 테라헤르츠 대역에서는 5G에서 도입된 밀리미터파(mmWave) 대역에 비해 더 심각한 경로손실 및 대기흡수 현상으로 인해서 신호 도달거리, 즉 커버리지를 보장할 수 있는 기술의 중요성이 더 커질 것으로 예상된다. 커버리지를 보장하기 위한 주요 기술로서 RF(radio frequency) 소자, 안테나, OFDM (orthogonal frequency division multiplexing)보다 커버리지 측면에서 더 우수한 신규 파형(waveform), 빔포밍(beamforming) 및 거대 배열 다중 입출력(massive multiple-input and multiple-output; massive MIMO), 전차원 다중 입출력(full dimensional MIMO; FD-MIMO), 어레이 안테나(array antenna), 대규모 안테나(large scale antenna)와 같은 다중 안테나 전송 기술 등이 개발되어야 한다. 이 외에도 테라헤르츠 대역 신호의 커버리지를 개선하기 위해 메타물질(metamaterial) 기반 렌즈 및 안테나, OAM(orbital angular momentum)을 이용한 고차원 공간 다중화 기술, RIS(reconfigurable intelligent surface) 등 새로운 기술들이 논의되고 있다.

또한 주파수 효율 향상 및 시스템 네트워크 개선을 위해, 6G 통신 시스템에서는 상향링크(uplink)와 하향링크(downlink)가 동일 시간에 동일 주파수 자원을 동시에 활용하는 전이중화(full duplex) 기술, 위성(satellite) 및 HAPS(high-altitude platform stations)등을 통합적으로 활용하는 네트워크 기술, 이동 기지국 등을 지원하고 네트워크 운영 최적화 및 자동화 등을 가능하게 하는 네트워크 구조 혁신 기술, 스펙트럼 사용 예측에 기초한 충돌 회피를 통한 동적 주파수 공유 (dynamic spectrum sharing) 기술, AI (artificial intelligence)를 설계 단계에서부터 활용하고 종단간(end-to-end) AI 지원 기능을 내재화하여 시스템 최적화를 실현하는 AI 기반 통신 기술, 단말 연산 능력의 한계를 넘어서는 복잡도의 서비스를 초고성능 통신과 컴퓨팅 자원(mobile edge computing (MEC), 클라우드 등)을 활용하여 실현하는 차세대 분산 컴퓨팅 기술 등의 개발이 이루어지고 있다. 뿐만 아니라 6G 통신 시스템에서 이용될 새로운 프로토콜의 설계, 하드웨어 기반의 보안 환경의 구현 및 데이터의 안전 활용을 위한 메커니즘 개발 및 프라이버시 유지 방법에 관한 기술 개발을 통해 디바이스 간의 연결성을 더 강화하고, 네트워크를 더 최적화하고, 네트워크 엔티티의 소프트웨어화를 촉진하며, 무선 통신의 개방성을 높이려는 시도가 계속되고 있다.

이러한 6G 통신 시스템의 연구 및 개발로 인해, 사물 간의 연결뿐만 아니라 사람과 사물 간의 연결까지 모두 포함하는 6G 통신 시스템의 초연결성(hyper-connectivity)을 통해 새로운 차원의 초연결 경험(the next hyper-connected experience)이 가능해질 것으로 기대된다. 구체적으로 6G 통신 시스템을 통해 초실감 확장 현실(truly immersive extended reality; truly immersive XR), 고정밀 모바일 홀로그램(high-fidelity mobile hologram), 디지털 복제(digital replica) 등의 서비스 제공이 가능할 것으로 전망된다. 또한 보안 및 신뢰도 증진을 통한 원격 수술(remote surgery), 산업 자동화(industrial automation) 및 비상 응답(emergency response)과 같은 서비스가 6G 통신 시스템을 통해 제공됨으로써 산업, 의료, 자동차, 가전 등 다양한 분야에서 응용될 것이다.

증강 현실(augmented reality)은 사용자가 실제와 가상의 컨텐트로 구성된 장면을 보는 것이 가능하고, 사용자가 (어떤 촉감도 사용하지 않고) 상기 장면에서 무엇이 실제인지 무엇이 가장인지 간을 구분하는 것이 거의 불가능한 끊김없는 AR 경험을 가지는 멀티미디어 경험의 한 형태이다.

끊김없고 사실적인 AR 경험을 제공하기 위해서는, 상기 AR 컨텐트의 품질이 높아야 할 뿐만 아니라 상기 AR 컨텐트의 렌더링 배치(rendering placement)도 매우 정확해야만 한다. 상기 2D 컨텐트의 형태의 기존의 멀티미디어는 어떠한 형태의 인터랙션(interaction)도 요구하지 않지만, 정적(static) AR 컨텐트를 디스플레이하는 사용 케이스에 대해서도, 상기 사용자의 움직임에 따라 AR 오브젝트가 정지된 것처럼 보이게 하는 렌더링 복잡도가 종래의 디스플레이에서의 2D 컨텐트의 렌더링과 비교할 때 현저하게 높다. 다이나믹(dynamic)(움직이는) AR 컨텐트를 렌더링하고 디스플레이하는 사용 케이스는 상기 다이나믹 AR 컨텐트(미디어 오브젝트(media object)들)에 대한 충분한 렌더링 영역을 준비하기 위해 요구되는 프리-프로세싱(pre-processing) 뿐만 아니라, 상기 캡처 단계(capturing stage)의 복잡성뿐만 아니라 상기 미디어 데이터의 인코딩(압축) 때문에 훨씬 더 복잡해진다.

AR 오브젝트들을 표면 상에 또는 공간으로 증강하여 상기 시청자(viewer)의 관점에서 현실감 있도록 하게 하기 위해서는, 상기 AR 미디어의 렌더링은 앵커(anchor)들을 사용한다. 본 개시에서, 용어 AR 미디어는 AR 오브젝트, AR 컨텐트 및 3D 미디어(실제 캡처된 포인트 클라우드(point cloud)들, 메쉬(mesh)들로 표현될 수 있거나, 또는 그래픽들 또는 일부 다른 표현의 형태일 수 있음)와 상호 교환 가능하다. 앵커들은 노말하게 상기 AR 컨텐트가 표면, 이미지 또는 유사한 것(예를 들어, 오브젝트, 이미지 또는 페이스(face))에 앵커될 수 있도록 평면 검출 (또는 유사하게, 컴퓨터 비전 기술들을 통해) 후에 사용자 선택된다. 앵커는 AR 오브젝트의 상기 렌더링 표면/공간에 대한 베이시스(basis)를 제공한다.

상기 렌더링을 위한 앵커링 결정과 관련하여 상기 AR 컨텐트(오브젝트들)가 포함하는 이동량, 보다 구체적으로는 병진 운동(translational motion)이 존재한다. AR 오브젝트는 상기 시청자가 상기 장면에서 상기 가상 오브젝트와 실제 오브젝트들을 구별할 수 없도록 현실적으로 렌더링되어야 하므로, AR 오브젝트가 상기 공간 또는 표면에 걸쳐 자유롭게 이동하기 위해서는 상기 AR 오브젝트는 상당한 병진 운동을 가져야만 하고 또한 충분한 자유 공간(free space)(또는 평면 표면에서 렌더링할 경우 공간 영역)이 존재해야만 한다.

AR 컨텐트의 다른 기존 문제점은 상기 데이터를 나타내기 위해 요구되는 큰 데이터 사이즈이다. 일반적으로 3D 미디어(오브젝트들)는 프레임 별로 고정된 개수의 비트들(비트 깊이(bit depth))로 나타내지고 따라서 상기 오브젝트들은 그 사이즈가 사용된 비트들의 개수에 의해 정의되는 모델링 좌표계(modelling coordinate system)(바운딩 박스(bounding box)) 내부에서 표시된다 (이는 압축된 데이터 도메인 또는 압축되지 않은 데이터 도메인일 수 있다). 이의 전형적인 예제는 기하학적 정보에 대한 특정 비트 깊이에서 MPEG V-PCC와 같은 기술들을 사용하여 압축될 수도 있는 포인트 클라우드 오브젝트(point cloud object)를 나타내는 ply 파일이다. 다이나믹 오브젝트들, 특히 병진 운동을 가지는 다이나믹 오브젝트들에 대해서는, 현재 시간 포인트 클라우드(temporal point cloud)들(또는 3D 미디어)의 표현을 지원할 수 있는 3D 포맷이 존재하지 않기 때문에, 상기 오브젝트가 상기 3D 미디어 모델링 시스템(예: ply 파일)으로 나타내지는 상기 좌표계 내에서 이동하기 위해서는 큰 3D 미디어 모델링 좌표계 바운딩 박스가 요구된다. 하지만, 그와 같은 큰 좌표계 바운딩 박스를 사용하는 것은 각 시간 프레임에 대해 상기 바운딩 박스의 일부 체적(volume)만 실제 미디어 데이터로 점유되기 때문에 큰 잉여들을 초래한다.

본 개시는 AR 미디어 오브젝트에 대한 앵커 기반 렌더링을 효율적으로 수행하는 방법 및 장치를 제공한다.

본 개시는 상기 시청자가 상기 장면에서 상기 가상 오브젝트와 실제 오브젝트들 간을 구별할 수 없도록 AR 오브젝트가 사실적으로 렌더링되어야만 하도록 앵커 기반 렌더링 모드들, 관련 파라미터들 및 메타데이터(metadata)를 제공한다.

일 실시 예에서, 통신 시스템에서 증강 현실(augmented reality: AR) 미디어 오브젝트(media object)에 대한 렌더링(rendering)을 수행하는 방법이 제공되고, 상기 방법은, 상기 AR 미디어 오브젝트의 렌더링 모드를 결정하기 위한 정보를 포함하는 메타데이터(metadata)를 획득하는 동작, 상기 정보는 상기 AR 오브젝트가 병진 운동(translational motion)을 포함하는지 여부를 지시하는 제1 정보를 포함함, 서버로부터 AR 미디어 오브젝트를 포함하는 AR 미디어 데이터를 수신하는 동작, 상기 제1 정보를 포함하는 상기 메타데이터에 기반하여 상기 AR 미디어 오브젝트를 렌더링하기 위한 렌더링 모드를 결정하는 동작, 및 상기 결정된 렌더링 모드에 기반하여 상기 AR 미디어 오브젝트를 렌더링하는 동작을 포함한다.

다른 실시 예에서, 통신 시스템에서 AR 미디어 오브젝트(media object)에 대한 렌더링(rendering)을 수행하는 AR 디바이스가 제공되고, 상기 AR 디바이스는, 송수신기, 및 상기 AR 미디어 오브젝트의 렌더링 모드를 결정하기 위한 정보를 포함하는 메타데이터(metadata)를 획득하고, 상기 정보는 상기 AR 오브젝트가 병진 운동(translational motion)을 포함하는지 여부를 지시하는 제1 정보를 포함함, 상기 송수신기를 통해, 서버로부터 AR 미디어 오브젝트를 포함하는 AR 미디어 데이터를 수신하고, 상기 제1 정보를 포함하는 상기 메타데이터에 기반하여 상기 AR 미디어 오브젝트를 렌더링하기 위한 렌더링 모드를 결정하고, 및 상기 결정된 렌더링 모드에 기반하여 상기 AR 미디어 오브젝트를 렌더링하도록 구성되는 프로세서를 포함한다.

또 다른 실시 예에서, 통신 시스템에서 AR 미디어 오브젝트(media object)에 대한 렌더링(rendering)을 지원하는 서버가 제공되고, 상기 서버는 송수신기, 및 상기 송수신기를 통해 AR 디바이스로부터 상기 AR 미디어 오브젝트의 렌더링과 연관되는 메타데이터에 대한 요청을 수신하고, 상기 송수신기를 통해 상기 AR 미디어 오브젝트의 렌더링 모드를 결정하기 위한 정보를 포함하는 상기 메타데이터를 상기 AR 디바이스로 송신하고, 상기 정보는 상기 AR 오브젝트가 병진 운동을 포함하는지 여부를 지시하는 제1 정보를 포함함, 및 상기 송수신기를 통해 AR 미디어 오브젝트를 포함하는 AR 미디어 데이터를 상기 AR 디바이스로 송신하도록 구성되는 프로세서를 포함한다.

본 개시는 다른 앵커 기반 렌더링 모드들의 컨셉트(concept)를 도입한다. 상기 모델링 좌표계 바운딩 박스(bounding box) 내의 암시적 병진 운동을 포함하는 코딩된 AR 미디어는 프로세싱되어 상기 모델링 좌표계 바운딩 박스 내에서 병진 운동을 포함하지 않는 AR 미디어로 변환될 수 있고(코딩 시 상기 잉여 비트들을 제거함), 대신 상기 운동은 명시적으로 메타데이터로 별도로 표현된다. 상기 정의된 앵커 기반 렌더링 모드들은 병진 렌더링(translational rendering)(상기 AR 미디어 속성들에 따라 암시적 또는 명시적), 또는 비-병진 렌더링(non-translational rendering)(유도된 또는 자연적인)을 인에이블(enable)한다. 이러한 렌더링 모드 결정들은 사용자 선택을 통해, 또는 사용자가 선택한 앵커 포즈(anchor pose)에 기반하여 상기 유용한 렌더링 영역 또는 체적을 고려하는 결정 동작 플로우를 통해 이루어진다.

도 1은 상기 다른 단계들 각각 동안, 3D 미디어를 나타내기 위해 상기 엔드 대 엔드(end to end) 시스템에서 사용되는 상기 좌표계들을 도시하고 있다,
도 2는 상기 캡처 공간 내의 실제 오브젝트들의 3D 캡처에 대해 인에이블하는(enabling) 특정 구성으로 배열되는 복수의 카메라들을 포함하는 캡처 환경의 일 예를 도시하고 있다,
도 3은 본 개시의 일 실시 예에 따른 3D 모델 프리-프로세싱(pre-processing)을 도시하고 있다,
도 4는 본 개시의 일 실시 예에 따른 비-병진 렌더링(non-translational rendering)을 수행하는 두 가지 가능한 방법들을 도시하고 있다,
도 5a 및 도 5b는 본 개시의 일 실시 예에 따른 XR/AR 디바이스에 의해 수행되는 상기 병진 또는 비-병진 렌더링 모드 결정의 동작 플로우를 도시하고 있다,
도 6은 본 개시의 일 실시 예에 따른 XR/AR 디바이스에 의해 수행되는 상기 병진 렌더링 모드의 동작 플로우를 도시하고 있다,
도 7은 본 개시의 일 실시 예에 따른 XR/AR 디바이스에 의해 수행되는 상기 비-병진 렌더링 모드의 동작 플로우를 도시하고 있다,
도 8은 본 개시의 일 실시 예에 따른 XR/AR 디바이스에 의해 수행되는 상기 폴백(fallback) 렌더링 모드의 동작 플로우를 도시하고 있다,
도 9a 및 도 9b는 본 개시의 일 실시 예에 따른 스탠드얼론(standalone: STAR)-기반 미디어 스트리밍의 동작 플로우를 도시하고 있다,
도 10은 본 개시의 일 실시 예에 따른 XR/AR 디바이스의 블록 다이아그램이다; 및
도 11은 본 개시의 일 실시 예에 따른 서버의 블록 다이아그램이다.

이하, 본 개시의 실시 예들이 상세히 설명된다. 상기 실시 예들의 예제들이 첨부 도면들에 도시되어 있으며, 여기서 동일하거나 유사한 참조 번호들은 동일하거나 유사한 엘리먼트들 또는 동일하거나 유사한 기능들을 가지는 엘리먼트들을 나타낸다. 하기에서 도면들을 참조하여 설명되는 상기 실시 예들은 예시적인 것으로, 본 개시를 설명하기 위해서만 사용되며, 본 개시를 한정하는 것으로 해석될 수 없다.

하기의 상세한 설명을 수행하기 전에, 본 개시 전체에 걸쳐 사용되는 특정 단어들 및 구문들의 정의들을 제시하는 것이 유리할 수 있다. 도면들에서 용어는 두 개 또는 그 이상의 엘리먼트들이 서로 물리적으로 접촉하는지 여부에 관계없이 두 개 또는 그 이상의 엘리먼트들 간의 직접 또는 간접 통신을 나타낸다. 용어들 "송신하다", "수신하다", 및 "통신하다" 및 그 파생어들은 직접 및 간접 통신을 둘 다를 포함한다. 용어들 "포함하다(include)" 및 "포함하다(comprise)" 및 그 파생어들은 제한 없는 포함을 의미한다. 용어 "또는"은 용어는 포괄적이며, "및/또는"을 의미한다. 구문 "~와 연관되는" 및 그 파생어들은 포함하다(include), ~내에 포함되다(be included within), ~와 상호 연결되다, 포함하다(contain), ~내에 포함된다(be contained within), ~에 또는 ~와 연결하다(connect to or with), ~에 또는 ~와 연결하다(couple to or with), ~와 통신 가능하다, ~와 협력하다, 인터리브하다, 병치하다, ~에 근접하다, ~에 또는 ~와 바운드된다(bound), ~의 속성을 가지다, ~에 대한 또는 ~와의 관계를 가지다, 등을 의미한다. 용어 "제어기"는 적어도 하나의 동작을 제어하는 임의의 디바이스, 시스템 또는 그 일부를 의미한다. 그와 같은 제어기는 하드웨어 또는 하드웨어와 소프트웨어의 조합 및/또는 펌웨어로 구현될 수 있다. 임의의 특정 제어기와 연관되는 기능성은 로컬이든(locally) 원격이든 중앙 집중화되거나 또는 분산될 수 있다. 구문 "~중 적어도 하나"는 아이템들의 리스트와 함께 사용될 때, 상기 리스트된 아이템들 중 하나 또는 그 이상의 다른 조합들이 사용될 수 있고, 상기 리스트에서 오적 하나의 아이템이 필요로 될 수 있음을 의미한다. 예를 들어, A, B, Cw 중 적어도 하나는 A, B, C에서 사용되는 특정 단어들 및 구문들의 정의를 제시하는 것이 유리할 수 있다.

해당 기술 분야의 당업자들은 달리 구체적으로 언급되지 않는 한 단수 형태들 "한(A)", "한(an)", 및 "상기(the)"는 복수 형태들을 포함할 수 있음을 이해할 것이다. 본 개시의 명세서에서 사용되는 용어 "포함하다(comprise)" 및 "포함하다(include)"는 설명되는 특징들, 정수들, 단계들, 동작들, 엘리먼트들, 및/또는 컴포넌트들의 존재를 나타내지만, 다른 특징들, 정수들, 단계들, 동작들, 엘리먼트들, 컴포넌트들, 및/또는 그 조합들의 존재 또는 추가를 배제하지 않는다. 엘리먼트가 다른 엘리먼트에 "연결되는(connected)" 또는 "연결되는(coupled)" 것으로 언급될 때, 그것은 상기 다른 엘리먼트에 직접 연결되거나 또는 연결될 수 있거나, 또는 중개 엘리먼트들 역시 존재할 수 있음이 이해되어야만 한다. 또한, 여기에서 사용되는 "연결되는(connected)" 또는 "연결되는(coupled)"은 무선으로 연결되거나(connected) 무선으로 연결되는(coupled) 것을 포함할 수 있다. 여기에서 사용되는 바와 같이, 용어 "및/또는"은 상기 엘리먼트들 모두 또는 임의의 하나 또는 상기 연관되는 리스트된 아이템들 중 하나 또는 그 이상의 조합들 모두를 포함한다.

또한, 하기에서 설명되는 다양한 기능들은 각각이 컴퓨터 리드 가능 프로그램 코드로 형성되어 컴퓨터 리드 가능 매체에 구현되는 하나 또는 그 이상의 컴퓨터 프로그램들에 의해 구현 또는 지원될 수 있다. 용어들 "어플리케이션" 및 "프로그램"은 하나 또는 그 이상의 컴퓨터 프로그램들, 소프트웨어 컴포넌트들, 인스트럭션들의 집합들, 절차들, 기능들, 오브젝트들, 클래스들, 인스턴스들, 관련 데이터, 또는 적합한 컴퓨터 리드 가능 프로그램 코드로의 구현을 위해 조정된 그 일부를 나타낸다. 구문 "컴퓨터 리드 가능 프로그램 코드"는 소스 코드, 오브젝트 코드, 및 실행 가능 코드를 포함하는, 임의의 타입의 컴퓨터 코드를 포함한다. 구문 "컴퓨터 리드 가능 매체"는 리드 온니 메모리(read only memory: ROM), 랜덤 억세스 메모리(random access memory: RAM), 하드 디스크 드라이브, 컴팩트 디스크(compact disc: CD), 디지털 비디오 디스크(digital video disc: DVD), 또는 임의의 다른 타입의 메모리와 같은, 컴퓨터에 의해 액세스 가능한 임의의 타입의 매체를 포함한다. "비-일시적" 컴퓨터 리드 가능 매체는 일시적인 전기 또는 다른 신호들을 전송하는 유선, 무선, 광, 또는 다른 통신 링크들을 제외한다. 비-일시적 컴퓨터 리드 가능 매체는 데이터가 영구적으로 저장될 수 있는 매체와 리라이트 가능한(rewritable) 광 디스크 또는 제거 가능 메모리 디바이스와 같은, 데이터가 저장되고 나중에 오버라이트될(overwritten) 수 있는 매체를 포함한다.

본 개시에서, 묵시적 병진 운동(translational motion)을 포함하는 AR 미디어 컨텐트를 이 운동이 배제된 AR 미디어 컨텐트로 프로세싱함으로써, 잉여 비트(redundant bit)들의 제거를 통해 코딩 효율이 달성된다.

상기 병진 운동은 오브젝트의 상하좌우의 운동일 수 있으며, 예를 들어, 상기 병진 운동은 오브젝트가 전방으로 이동하는지 또는 후방으로 이동하는지를 나타내는 운동일 수 있다.

본 개시에서, 상기 코딩된 유닛 바운딩 박스(bounding box)로부터의 상기 운동의 분해 및 메타데이터인 병진 운동의 추출로, 이 메타데이터는 하기 표 1에 예시된 바와 같이 다양한 렌더링 모드들을 인에이블 할 수 있다:

[표 1]

표 1에서, 랜더링 모드에 따라 "병진 렌더링(Translational rendering)" 및 "비-병진 렌더링(Non-translational rendering)"이 분류되고, 미디어 속성에 따라 "모델링 박스에 포함되는 병진 운동(Translational motion included in modelling box)" 및 "모델링 박스에서 제외되는 병진 운동(Translational motion excluded in modelling box)"이 분류된다.

병진 렌더링은 그 병진 운동이 렌더링 동안 표현되도록 AR 오브젝트(캡처 동안의 병진 동작을 가지는)가 상기 앵커된 표면을 가로질러 이동하는 것처럼 보이는 곳이다(예를 들어, 방 바닥을 따라 왼쪽에서 오른쪽으로 10 미터를 걷는 사람).

비-병진 렌더링은 병진 운동이 렌더링 동안 표현되지 않도록 AR 오브젝트(캡처 동안의 병진 동작을 가지거나 또는 가지지 않는)가 상기 특정 렌더링 앵커 위치 표면에서 제자리에 머무는 것처럼 보이는 곳이다(예를 들어, 걷는 운동을 하는 사람은 마치 트레드밀(treadmill)에서 걷는 것처럼 방 바닥의 같은 자리에 머무르는 것처럼 보인다).

상기 렌더링 모드 선택에 대한 결정은 사용자 선택 가능할 수 있거나, 또는 사용자 선택 앵커 포즈(anchor pose)에 기반하여 상기 유용한 렌더링 영역 또는 체적 뿐만 아니라, 상기 AR 미디어 속성(property)들을 고려하는 결정 동작을 통한 것일 수 있다 (도 6을 참조할 것).

렌더링 앵커 정의:

3D/AR 미디어 오브젝트들(컨텐트)가 상기 시청자의 환경에 사실적으로 존재하도록 렌더링을 위해 상기 컨텐트를 정확하게 배치하거나 또는 증강하기 위해서, AR 디바이스는 상기 깊이 정보의 사용을 포함하는 그의 주변 환경의 공간 인식을 수행하여 가능한 렌더링 앵커 표면들을 분석해야만 한다. 다양한 앵커 표면들의 시각적 인식이 식별되면, 상기 디바이스는 그리고 나서 상기 시청자의 디스플레이에 상기 컨텐트를 렌더링하고 오버레이하여(overlay) 그 또는 그녀가 상기 컨텐트가 자연적으로/현실적으로 그의 또는 그녀의 환경에 혼합하는(blend) 방식으로 상기 컨텐트를 볼 수 있다. 일반적으로, 상기 환경에서 상기 컨텐트를 어디에 배치할 지에 대한 선택은 상기 사용자에 의해 선택 가능하지만, 상기 컨텐트에 접속하는 표면이 어떤 표면인지는 일반적으로 그 렌더링 앵커 속성들을 통해 컨텐트 종속적이다.

렌더링 앵커들은 일반적으로 파라미터들 또는 메타데이터를 통해 다음 정보를 제공한다:

- 상기 앵커의 포즈(위치(location)/위치(position) 및 방향). 이는 일반적으로 사용자 선택 가능하다.

- 상기 앵커(앵커 표면)의 타입. 이는 상기 AR 컨텐트가 일반적으로 증강되는 표면의 속성이다. 타입들은 다음 중 적어도 하나를 포함한다:

o 수평 플레인(Horizontal plane)

o 수직 플랜(Vertical plan)

o 이미지

o 페이스(face)

o 오브젝트

앵커 기반 렌더링 모드들에 대한 메타데이터/파라미터들(병진/비-병진)

이 섹션은 본 개시의 이 설명 전체에 걸쳐 참조되는 상기 AR 미디어 속성들 메타데이터에 존재될 상기 가능한 파라미터들을 나타내는 신택스(syntax) 및 시맨틱(semantic)들의 일 예를 제공한다. 이하, 상기 앵커 기반 렌더링 모드들에 대한 메타데이터/파라미터들은 메타데이터로 간략히 언급될 수 있다. 상기 메타데이터는 본 개시에 따라 네트워크로부터 앵커 기반 렌더링을 수행하는 UE에게 제공될 수 있다.

신택스 네임 레이블(syntax name label)들 및 값들은 오진 예를 위한 것이며, 이 개시에서 정의되는 동작들에서 사용하기 위해 동일하거나 또는 유사한 시맨틱들을 전달하는 다른 신택스로 대체 가능할 수 있다. 신택스는 하기 표 2에 예시되어 있다:

[표 2]

상기 신택스에 대한 시맨틱들은 하기 표 3 및 표 4에 예시되어 있다:

anchor_type은 하기 표 3에 리스트된 타입들 중 하나로 상기 앵커의 렌더링 앵커 타입을 명시한다:

[표 3]

[표 4]

도 1은 상기 다른 단계들 각각 동안, 3D 미디어를 표현하기 위해 상기 엔드 대 엔드(end to end) 시스템에서 사용되는 상기 좌표계들을 도시하고 있다.

상기 캡처 단계(110) 후에, 로 데이터(raw data)는 상기 3D 모델링 단계(120) 동안 프로세싱된다: 이 단계(120)에서, 상기 사용되는 3D 미디어 모델링 좌표계는 상기 ply 포맷(polygon 파일 포맷)과 같은, 상기 미디어 표현 포맷에 의존적이다. ply 파일 좌표계의 일 예는 상기 x, y, z 축 방향들 각각에 대해 10 비트로 표현되는 1024x1024x1024 큐브(cube)이다. 단계(130)에서, 이 ply 파일은 그리고 나서 MPEG(moving picture experts group) V-PCC(video based point cloud compression)와 같은 기술들을 사용하여 코딩(압축)된 후 전달 및 디코딩되어 동일한 모델링 좌표계에서 상기 오리지널 미디어(original media)를 출력한다. 상기 컨텐트 저작 단계 동안, 단계(140)에서, 상기 3D 미디어 모델링 좌표계는 상기 렌더링 프로세스 및 선택적으로 상기 코딩(압축) 프로세스에 대해 사용되는 렌더링 좌표계에 매핑된다. 상기 3D 모델링 좌표계와 상기 렌더링 좌표계 간의 매핑은 구현이며, 3D 미디어 포맷 종속적이지만, 상기 모델링 좌표계에서 디폴트 포인트(default point)를 상기 3D 렌더링 좌표계에서 다른 디폴트 포인트로 매핑하는 것이 일 예가 될 것이며, 상기 렌더링 좌표계에서 이 포인트는 시간에 따라 변할 수 있다(본질적으로 병진 운동 메타데이터).

도 2는 상기 캡처 공간 내의 실제 오브젝트들의 상기 3D 캡처에 대해 인에이블하는(enabling) 특정 구성으로 배열되는 복수의 카메라들을 포함하는 캡처 환경의 일 예를 도시하고 있다. 또한, 도 2는 상기 미디어 데이터의 모델링 바운딩 박스로 암시적으로 그 코딩된 병진 운동을 가지는 다이나믹 AR 미디어 오브젝트를 도시하고 있다.

상기 실제 오브젝트들이 캡처되면(210), (포인트 클라우드(point cloud), 메쉬(mesh), 또는 임의의 다른 데이터 포맷을 사용하여) 3D 미디어 오브젝트로 나타내지는, 3D 모델링은 상기 캡처 오브젝트(들)의 사진과 동일한(photo-realistic) 표현을 생성하기 위해 수행된다. 포스트-캡처 프로세싱(post-capture processing)을 사용하지 않고, 상기 3D 모델링 동안 상기 미디어 표현 포맷에 의해 사용되는 상기 좌표계는 상기 캡처 환경의 좌표계와 매칭될 것이다. 이는 도 2에서 상기 입방체들(220, 230, 240)에 의해 도시되며, 이는 시간 기간 t1 내지 t3 동안 동일한 사이즈를 유지하고, 상기 t1 내지 t3까지의 3D 미디어 오브젝트의 병진 운동이 상기 입방체 내부에서 충분히 수용될 수 있을 만큼 충분히 크다. 도 2의 내부에서, 상기 인간 형상 h1은 상기 시간 t1 내지 t3 동안 상기 입방체의 한쪽 엔드(end)에서 다른 엔드로 이동한다. 또한, 상기 인간 형상 h1은 상기 논의된 병진 운동 이외의 다른 움직임들(스피닝(spinning), 또는 팔 들기 등과 같은)을 포함할 수 있다는 것에 유의해야만 한다. t1, t2 및 t3에서 상기 ply 프레임들 각각에 대해, 상기 입방체 체적(cuboid volume)의 약 1/3만 미디어 데이터로 채워져 비트 깊이 관점에서 코딩 효율성이 떨어지게 된다는 것이 유의될 수 있다.

도 3은 본 개시의 일 실시 예에 따른 3D 모델 프리-프로세싱(pre-processing)을 도시하고 있다.

도 2와 비교할 경우, 도 3은 상기 미디어 데이터의 모델링 바운딩 박스로부터 그 병진 운동이 제거되는 동일한 다이나믹 AR 미디어 오브젝트를 도시하고 있으며, 상기 병진 운동은 이제 상기 바운딩 박스에서 분해되어 병진 운동 메타데이터로 표현된다. 도 3은 상기 모델링 박스(좌표계)에 포함되어 있는 병진 운동을 포함하는, 도 2에서 상기 캡처된 3D 모델을, 상기 병진 운동이 대신에 병진 운동 메타데이터로 표현되는, 상기 병진 운동이 제외된 3D 모델로 변경하는 상기 3D 모델 프리-프로세싱 단계를 나타낸다.

상기 3D 모델 박스(좌표계)로부터 상기 병진 운동의 이 분해 및 추출은 참조 번호 310으로 도시되어 있는 바와 같은 더 작은 개별 ply 모델 박스들(즉, 굵은 선으로 마킹된 박스들)(310a, 310b, 310c)에 의해 도시되어 있는 바와 같은, 상기 3D 미디어 오브젝트의 보다 효율적인 코딩 표현을 고려한다. 렌더링 동안 상기 병진 운동 메타데이터를 사용하여, 상기 병진 운동이 배제된 상기 3D 미디어는 참조번호 320으로 도시되어 있는 바와 같이 상기 모델링 박스에 포함되어 있는 상기 병진 운동을 가지는 상기 오리지널 3D 미디어와 동일한 사용자 시청(렌더링) 경험을 성취한다.

도 4는 본 개시의 일 실시 예에 따른 비-병진 렌더링(non-translational rendering)을 수행하는 두 가지 가능한 방법들을 도시하고 있다.

상기 비-병진 렌더링은, 상기 3D 미디어 컨텐트가 상기 병진 운동을 가질 지라도, 이 병진 운동이 무시되고 대신 상기 3D 미디어 컨텐트가 "제 자리에서(on the spot)" 움직이는 것처럼 렌더링된다는 것을 의미한다.

상기 비-병진 렌더링의 두 가지 가능한 방법들은 다음과 같다:

- 유도 비-병진 렌더링(induced non-translational rendering), 여기서 상기 3D 미디어 컨텐트는 그 코딩된 모델링 박스에 포함되는 병진 운동을 포함한다. 이 경우에 대해서, 병진 메타데이터가 유용할 경우, 상기 병진 메타데이터는 상기 3D 미디어 코딩된 컨텐트(도 4의 왼쪽 도면(410))에서 상기 병진 운동을 상쇄하여(counteract) 상기 비-병진 렌더링을 유도하기 위해 사용될 수 있다.

- 비-유도 비-병진 렌더링(non-induced non-translational rendering), 여기서 상기 3D 미디어 컨텐트는 그 코딩된 모델링 박스에 포함된 상기 병진 운동을 포함하지 않고, 단순히 렌더링된다(도 4의 중간 도면(420)).

도 4의 왼쪽 및 중간 도면들(410, 420) 둘 다는 동일한 사용자 경험(렌더링된 경험)을 초래하며, 상기 3D 미디어 컨텐트는 캡처될 때 자연스러운 병진 운동 움직임들을 가질지라도 상기 3D 미디어 컨텐트가 "제 자리에" 머무르는 것처럼 보인다(도 4의 오른쪽 도면(430) 참조).

또한, 상기 표 1을 참조하면, 상기 표 1은 본 개시의 일 실시예에 따른 상기 가능한 미디어 속성들과 렌더링 모드들 간의 관계를 나타낸다.

상기 병진 운동이 상기 모델링 박스에 포함되어 있을 경우, 병진 렌더링은 암시적이며, 추가적인 메타데이터가 요구되지 않고; 비-병진 렌더링이 유도되는 것이 요구되며, 여기서 상기 포함되는 병진 운동은 상쇄되어야만 하며, 이 정보는 병진 메타데이터를 통해, 또는 일부 다른 수단들(인공 지능 알고리즘들과 같은)을 통해 제공된다.

상기 병진 운동이 상기 모델링 박스에서 제외될 경우, 병진 렌더링은 렌더링 동안 상기 병진 메타데이터의 사용을 통해 명시적으로 성취되며; 비-병진 렌더링은 병진 운동이 상기 코딩된 데이터에 포함되지 않기 때문에 상기 3D 미디어 컨텐트를 렌더링하는 것만으로 가능하다.

도 5a 및 도 5b는 본 개시의 일 실시 예에 따른 XR/AR 디바이스에 의해 수행되는 상기 병진 또는 비-병진 렌더링 모드 결정의 동작 플로우를 도시하고 있다.

이 동작에서, 상기 사용자(XR/AR 디바이스를 전달하는 상기 컨텐트의 시청자)는 렌더링 만을 위한 상기 앵커 포즈를 선택한다. 도 5를 참조하면, 상기 렌더링 모드 결정을 위한 동작 단계들은 다음과 같다:

단계 501에서, 상기 사용자는 상기 렌더링 앵커에 대한 포즈(상기 사용자에 의해 시청되는 실제 환경에서 상기 AR 미디어 오브젝트를 배치할 위치)를 선택한다. 즉, 상기 XR/AR 디바이스는 상기 렌더링 앵커에 대한 포즈를 선택하기 위한 사용자 입력을 수신한다. 상기 XR/AR 디바이스는 상기 AR 미디어 오브젝트의 위치(position)(위치(location)) 및 방향 중 적어도 하나인, 상기 선택된 포즈에 대한 정보를 파싱한다(parse). 이 포즈(정보)는 상기 렌더링 앵커에 대해 사용된다. [예를 들어, 사용자는 그의 방 바닥에서 한 포인트를 선택할 수 있다]

단계 502에서, 공간 인식 또는 임의의 다른 수단들을 통해, 상기 XR/AR 디바이스는 상기 사용자에 의해 시청되는 실제 환경에서, 단계 501에서 상기 선택된 포즈에 대한 실제 가능한 렌더링 영역 또는 체적을 계산한다. [예를 들어, 상기 디바이스는 상기 사용자의 방 바닥에서 상기 선택한 포인트 주변의 비-점유 표면적(surface area) 및 상기 사용자의 방 주의의 점유된 표면적에서 상기 바닥의 양을 계산한다]이 앵커 영역 또는 체적은 다음 중 적어도 하나에 상응하는, 상기 렌더링 앵커 타입(anchor_type으로 명시되는)에 의존적이다:

o 수평 평면의 앵커 타입에 대한 수평 표면적

o 수직 평면의 앵커 타입에 대한 수직 표면적

o 이미지의 앵커 타입에 대한 평면 표면적(평면 방향은 상기 이미지의 방향과 동일함)

o 페이스 또는 오브젝트의 앵커 타입에 대한 평면 표면적 또는 공간 체적

단계 503에서, 상기 XR/AR 디바이스는 (상기 코딩된 데이터가 이 병진 운동을 포함하는지 여부와 무관하게) 컨텐트 캡처 시에 상기 AR 오브젝트/미디어가 병진 운동을 포함한다는 것을 지시하는 상기 메타데이터/파라미터(예를 들어, "has_motion_flag")를 파싱한다.

단계 504에서, 상기 XR/AR 디바이스는 단계 503에서 파싱된 파라미터들로부터 상기 AR 미디어가 상기 병진 운동을 포함하는지 여부를 결정한다.

단계 505에서, 상기 캡처된 AR 미디어가 병진 운동을 포함할 경우, 상기 XR/AR 디바이스는 렌더링 동안 관련 메타데이터를 파싱하여 상기 AR 미디어 오브젝트의 병진 렌더링 영역(상기 병진 렌더링 영역은 상기 표 2의 "translational_rendering_area"에 의해 명시됨) 또는 체적(상기 컨텐트의 정확한 병진 렌더링을 위해 요구되는 영역 또는 체적)을 결정한다.

단계 506에서, 상기 XR/AR 디바이스는 단계 502로부터의 상기 실제 가능한 렌더링 영역을 단계 505로부터의 상기 AR 미디어 오브젝트의 병진 렌더링 영역과 비교한다. 상기 실제 가능한 렌더링 영역이 상기 AR 미디어 오브젝트의 병진 렌더링 영역보다 크거나 같을 경우, 단계 507에서, 이하에서 설명될 도 6의 동작 플로우에 따라 상기 병진 렌더링 모드로 진행한다. 상기 실제 가능한 렌더링 영역이 상기 AR 미디어 오브젝트의 병진 렌더링 영역보다 작을 경우, 단계 508로 진행한다.

상기 캡처된 AR 미디어가 단계 504에서의 상기 병진 운동을 포함하지 않거나, 또는 상기 실제 가능한 렌더링 영역이 단계 506에서의 상기 병진 렌더링 영역보다 작을 경우, 상기 XR/AR 디바이스는, 단계 508에서, 상기 관련 메타데이터를 파싱하여 상기 AR 미디어 오브젝트의 비-병진 렌더링 영역(상기 비-병진 렌더링 영역은 표 2의 "non_translational_rendering_area"에 의해 명시됨) 또는 체적(상기 3D 미디어 컨텐트의 정확한 비-병진 렌더링을 위해 요구되는 영역 또는 체적) me(상기 3D 미디어 컨텐트의 f(앵커) 메타데이터가 요구되는 영역 또는 체적)를 결정한다.

단계 509에서, 상기 XR/AR 디바이스는 단계 502로부터의 상기 실제 가능한 렌더링 영역을 단계 508로부터의 상기 AR 미디어 오브젝트의 비-병진 렌더링 영역과 비교한다. 상기 실제 가능한 렌더링 영역이 상기 AR 미디어 오브젝트의 비-병진 렌더링 영역보다 크거나 같을 경우, 단계 510에서, 이하에서 설명될 도 7의 동작 플로우에 따라 상기 비-병진 렌더링 모드로 진행한다.

단계 506에서 상기 실제 가능한 렌더링 영역이 상기 AR 미디어 오브젝트의 비-병진 렌더링 영역보다 작을 경우, 단계 511에서, 이하에서 설명될 도 8의 동작 플로우에 따라 상기 폴백 렌더링 모드(fallback rendering mode)로 진행한다.

도 6은 본 개시의 일 실시 예에 따른 XR/AR 디바이스에 의해 수행되는 상기 병진 렌더링 모드의 동작 플로우를 도시하고 있다.

도 6의 이 동작 플로우는 상기 XR/AR 디바이스를 통한 선택 입력에 의해 트리거될 수 있거나(상기 실제 가능한 렌더링 영역이 충분하다고 가정할 경우), 또는 도 5의 단계 507에서 상기 렌더링 모드 결정의 결과로부터의 결과로서 트리거될 수 있다.

도 6을 참조하면, 상기 병진 렌더링(모드)을 위한 상기 동작 단계들은 다음과 같다:

단계 601에서, 상기 XR/AR 디바이스는 상기 연관되는 미디어 메타데이터를 파싱한다.

단계 602에서, 상기 XR/AR 디바이스는 상기 선택된 앵커 포즈(그 위치 및/또는 방향)를 상기 AR 미디어 속성의 디폴트 앵커 센터(default anchor centre)(상기 표 2에서 "class RenderDefaultAnchorCentre"에 의해 명시되는)와 매칭한다.

단계 603에서, 상기 XR/AR 디바이스는 상기 연관되는 메타데이터(상기 표 2에서 "motion_included_flag"에 의해 명시되는)를 통해 상기 병진 운동이 상기 AR 미디어 컨텐트의 상기 코딩된 모델에 포함되는지 여부를 결정한다.

단계 603에서 상기 병진 운동이 상기 AR 미디어 컨텐트의 코딩된 모델에 포함되어 있을 경우, 단계 604에서, 상기 XR/AR 디바이스는 (상기 컨텐트 모델링 박스의 렌더링 디폴트 앵커 센터(render default anchor centre)가 변경되지 않는다고 가정할 경우) 상기 모델링 박스의 상기 정적 렌더링 디폴트 앵커 센터(static render default anchor centre)(상기 표 2의 "class RenderDefaultAnchorCentre"에 의해 명시되는)를 모든 또는 일부 프리젠테이션 시간 t 동안 상기 선택된 앵커 포즈의 동일한 위치 및/또는 방향에 매칭함으로써 상기 AR 미디어 오브젝트를 렌더링한다.

단계 603에서 상기 병진 운동이 상기 AR 미디어 컨텐트의 코딩된 모델에 포함되어 있지 않을 경우, 상기 XR/AR 디바이스는, 단계 605에서, 상기 병진 메타데이터(일반적으로 시간-메타데이터(timed-metadata), 예를 들어, 시간이 변함에 따라 상기 병진 운동 변화를 지시하는 메타데이터)(상기 표 2에서의 "class TimedTranslationalMetadata"에 의해 명시되는)를 파싱한다.

단계 606에서, 상기 XR/AR 디바이스는 그리고 나서 상기 선택된 앵커 포즈가 상기 모델링 박스의 초기 렌더링 디폴트 앵커 센터 위치(initial render default anchor centre location)(상기 표 2에서의 "class RenderDefaultAnchorCentre"에 의해 명시되는)와 매칭되도록 상기 모델링 박스를 상기 실제 환경에 배치한다.

단계 607에서, 상기 AR 미디어 오브젝트는 각 프레젠테이션 시간 t에 동안 상기 병진 메타데이터(상기 표 2에서의 "class TimedTranslationalMetadata")에 의해 명시되는 바와 같이, 렌더링 동안 상기 모델링 박스의 위치 및/또는 방향을 쉬프트(shift)함으로써 렌더링된다.

도 7은 본 개시의 일 실시 예에 따른 XR/AR 디바이스에 의해 수행되는 상기 비-병진 렌더링 모드의 동작 플로우를 도시하고 있다.

도 7의 이 동작 플로우는 상기 XR/AR 디바이스를 통한 선택 입력에 의해 트리거될 수 있거나(상기 실제 가능한 렌더링 영역이 충분하다고 가정할 경우), 또는 도 5의 단계 510에서 상기 렌더링 모드 결정의 결과로부터의 결과로서 트리거될 수 있다.

도 7을 참조하면, 상기 비-병진 렌더링을 위한 상기 동작 단계들은 다음과 같다:

단계 701에서, 상기 XR/AR 디바이스는 상기 연관되는 미디어 메타데이터를 파싱한다.

단계 702에서, 상기 XR/AR 디바이스는 상기 선택된 앵커 포즈(그 위치 및/또는 방향)를 상기 AR 미디어 속성의 디폴트 앵커 센터(default anchor centre)(상기 표 2에서 "class RenderDefaultAnchorCentre"에 의해 명시되는)와 매칭한다.

단계 703에서, 상기 XR/AR 디바이스는 (상기 표 2에서의 "has_motion_flag"에 기반하여) 상기 AR 미디어가 상기 캡처 단계로부터의 병진 운동을 포함하는지 여부를 결정한다.

상기 AR 미디어가 단계 703에서 상기 캡처 단계로부터의 병진 운동을 포함할 경우, 상기 XR/AR 디바이스는, 단계 704에서, (상기 표 2에서의 상기 연관되는 메타데이터 "motion_included_flag"를 통해) 상기 병진 운동이 상기 AR 미디어 컨텐트의 상기 코딩된 모델에 포함되는지 여부를 결정한다.

단계 703에서 상기 병진 운동이 상기 AR 미디어 컨텐트의 코딩된 모델에 포함되어 있지 않을 경우, 단계 705에서, 상기 XR/AR 디바이스는 (상기 컨텐트 모델링 박스의 렌더링 디폴트 앵커 센터(render default anchor centre)가 변경되지 않는다고 가정할 경우) 상기 모델링 박스의 상기 정적 렌더링 디폴트 앵커 센터(static render default anchor centre)(상기 표 2의 "tclass RenderDefaultAnchorCentre"에 의해 명시되는)를 모든 또는 일부 프리젠테이션 시간 t 동안 상기 선택된 앵커 포즈의 동일한 위치 및/또는 방향에 매칭함으로써 상기 AR 미디어 오브젝트를 렌더링한다.

단계 704에서 상기 병진 운동이 상기 AR 미디어 컨텐트의 코딩된 모델에 포함되어 있을 경우, 상기 XR/AR 디바이스는, 단계 706에서, 상기 병진 메타데이터(일반적으로 시간-메타데이터(timed-metadata), 예를 들어, 시간이 변함에 따라 상기 병진 운동 변화를 지시하는 메타데이터)(상기 표 2에서의 "class TimedTranslationalMetadata"에 의해 명시되는)를 파싱한다.

단계 707에서, 상기 XR/AR 디바이스는 그리고 나서 상기 선택된 앵커 포즈 위치가 상기 프리젠테이션 시간의 시작에서 상기 모델링 박스의 초기 렌더링 디폴트 앵커 센터 위치(initial render default anchor centre location)(상기 표 2에서의 "class RenderDefaultAnchorCentre"에 의해 명시되는)와 매칭되도록 상기 모델링 박스를 상기 실제 환경에 배치한다.

단계 708에서, 상기 AR 미디어 오브젝트는 각 프레젠테이션 시간 t에 동안 상기 병진 메타데이터(상기 표 2에서의 "class TimedTranslationalMetadata")에 의해 명시되는 바와 반대로, 렌더링 동안 상기 모델링 박스의 위치 및/또는 방향을 쉬프트(shift)함으로써 렌더링된다.

도 8은 본 개시의 일 실시 예에 따른 XR/AR 디바이스에 의해 수행되는 상기 폴백 렌더링 모드의 동작 플로우를 도시하고 있다.

도 8의 이 동작 플로우는 도 5의 단계 511에서 상기 렌더링 모드 결정의 결과로부터의 결과로서 트리거될 수 있다.

도 8을 참조하면, 상기 폴백 렌더링을 위한 동작 단계들은 다음과 같다:

단계 801에서, 상기 XR/AR 디바이스는 상기 AR 미디어 오브젝트가 렌더링 제한들을 포함하는지 여부를 결정한다.

상기 AR 미디어 오브젝트가 단계 801에서 렌더링 제한들을 포함할 경우, 상기 XR/AR 디바이스는, 단계 802에서, 상기 AR 미디어 오브젝트가 렌더링을 위해 스케일되는(scaled) 것이 허락되는지 여부를 결정한다.

상기 AR 미디어 오브젝트가 단계 802에서 렌더링을 위해 스케일되도록 허락될 경우, 단계 803에서, 상기 XR/AR 디바이스는 스케일 제한들(예를 들어, 허락된 스케일링 팩터(scaling factor)들의 리스트)에 대한 렌더링에 관한 상기 상응하는 메타데이터를 파싱한다.

상기 AR 미디어 오브젝트가 단계 801에서 또는 단계 803 후에 렌더링 제한들을 포함하지 않을 경우, 상기 XR/AR 디바이스는, 단계 804에서, 병진 또는 비-병진 렌더링에 대해 상기 AR 미디어 오브젝트를 스케일한다. 또한, 상기 AR 미디어 오브젝트가 단계 802에서 렌더링을 위해 스케일되는 것이 허락되지 않을 경우, 상기 XR/AR 디바이스는 상기 폴백 렌더링 모드를 종료한다.

도 9a 및 도 9b는 본 개시의 일 실시 예에 따른 스탠드얼론(standalone: STAR)-기반 미디어 스트리밍의 동작 플로우를 도시하고 있다. 상기 STAR-기반 미디어 스트리밍에 대한 아키텍처는 3GPP TR 26.998을 참조할 수 있다.

도 9a 및 도 9b를 참조하면, UE(또는 XR/AR 디바이스)는 네트워크로부터 상기 AR 미디어 오브젝트의 렌더링 모드를 결정하기 위한 정보를 포함하는 메타데이터, 상기 AR 미디어 오브젝트와 연관되는 미디어 데이터를 수신하고, 상기 결정된 렌더링 모드에 기반하여 상기 AR 미디어 오브젝트를 렌더링한다. 상기 UE는 AR/MR 애플리케이션, AR/MR 장면 관리자, 및 미디어 기능들을 포함할 수 있다. 상기 미디어 기능들은 미디어 플레이어(media player)와 미디어 세션 핸들러(media session handler)를 포함한다.

구체적으로, 상기 AR/MR 장면 관리자는 몰입형 미디어 렌더링(immersive media rendering) 및 장면 그래프 핸들링 기능성들을 포함하고, 상기 미디어 플레이어는 몰입형 컨텐트 전달 및 몰입형 미디어 디코딩 기능성들을 포함하고, 상기 UE에서 상기 AR/MR 애플리케이션은 상기 사용자 입력에 의해 실행될 수 있다. 상기 UE는 AR 등록을 초기화할 수 있다(상기 UE가 위치되는 주변 환경을 분석하기 시작한다), 즉:

a) 카메라(들)를 통해 그 주변 환경을 캡처한다

b) 상기 UE가 위치하는 장소를 분석한다

c) 상기 분석된 주변 환경에 상기 UE를 등록한다.

또한, 상기 네트워크는 5GMSd(5G media streaming for downlink) 애플리케이션 기능(application function: AF), 5GMSd 애플리케이션 서버(application server: AS) 및 AR/MR 애플리케이션 제공자를 포함할 수 있다. 상기 UE에서의 상기 AR/MR 애플리케이션과 상기 네트워크에서의 상기 AR/MR 애플리케이션 제공자는 컨텐트 렌더링을 위해 디바이스 능력 또는 컨텐트 구성과 같은 일부 정보를 교환했을 수 있다. 상기 AR/MR 애플리케이션 제공자가 프로비저닝 세션을 수립하고 그의 세부 구성들이 교환되었고, 상기 AR/MR 애플리케이션 제공자가 수집한 몰입형 컨텐트(ingesting immersive contents)를 셋업하는 것을 완료했다고 가정된다.

도 9a를 참조하면, 서비스 공지(service announcement)는 상기 AR/MR 애플리케이션에 의해 트리거된다(단계 901). 미디어 플레이어 엔트리를 포함하는 서비스 액세스 정보 또는 상기 서비스 액세스 정보에 대한 참조는 상기 네트워크를 통해 제공된다. 원하는 미디어 컨텐트가 상기 UE에 의해 선택된다(단계 902). 상기 AR/MR 애플리케이션은 상기 미디어 플레이어를 트리거하여 미디어 재생을 시작한다. 상기 미디어 플레이어 엔트리가 상기 미디어 플레이어로 제공된다(단계 903). 상기 AR/MR 애플리케이션이 단계 901에서 상기 서비스 액세스 정보에 대한 참조만을 수신했을 경우, 상기 미디어 세션 핸들러는 전체 서비스 액세스 정보를 획득하기 위해 상기 5GMSd AF와 상호 작용한다(단계 904). 동시에, 상기 미디어 플레이어는 미디어 액세스 및 재생을 시작하기 위해 호출될 수 있다(단계 905).

상기 미디어 플레이어는 엔트리 포인트(entry point) 정보를 획득하기 위해 전송 세션을 수립한다(단계 906). 상기 엔트리 포인트 정보는 AR 컨텐트를 스트리밍하기 위한 전달 매니페스트(delivery manifest)에 상응할 수 있거나 또는 상응하지 않을 수 있으며, 장면 설명, DASH MPD(dynamic adaptive streaming over HTTP media presentation description), 또는 AR/MR 서비스들에 특정한 문서일 수 있다. 상기 미디어 플레이어는 상기 5GMSd AS로 상기 엔트리 포인트를 요청한다(단계 907). 상기 5GMSd AS는 상기 UE로 상기 엔트리 포인트를 제공한다(단계 908). 상기 미디어 플레이어 및/또는 AR/MR 장면 관리자는 상기 엔트리 포인트를 프로세싱하여 AR/MR 미디어 컨텐트에 액세스하기 위한 필요 정보를 획득한다(단계 909). 대안적인 실시 예에서, 상기 AR/MR 미디어 컨텐트에 액세스하기 위한 필요 정보는 상기 엔트리 포인트(전형적으로 장면 설명) 내부에서, 미디어 오브젝트 또는 스트림 별로, 상기 표 2에 예시된 메타데이터를 포함할 수 있다.

상기 미디어 플레이어 및/또는 AR/MR 장면 관리자는 상기 엔트리 포인트로부터 획득된 상기 필요 정보를 상기 미디어 세션 핸들러에 통지한다(단계 910). 상기 미디어 세션 핸들러는 일부 경우들에서 원하는 QoS 정보를 포함하는 상기 정보를 상기 5GMSd AF와 공유한다(단계 911). 상기 AR/MR 애플리케이션 제공자에 의한 기존 프로비저닝(provisioning)에 기반하여, 상기 5GMSd AF는 상기 PDU 세션들에 대한 QoS 수정들을 요청할 수 있다. 각 AR 오브젝트에 대한 미디어 컨텐트 전달 매니페스트 페칭(fetching) 절차(단계 912). 정적 AR 오브젝트들에 대해서, 간단한 URL (uniform resource locator)이 상기 AR 오브젝트 미디어 데이터를 다운로드하기 위한 상기 엔트리 포인트 정보에서 제공될 수 있다.

상기 요구되는 미디어 컨텐트에 대해서, 상기 미디어 플레이어는 상기 전달 매니페스트(들) 정보를 획득하기 위해 상기 전송 세션(들)을 수립한다(단계 913). 상기 미디어 플레이어는 상기 전달 매니페스트(들)를 요청한다(단계 914). 상기 5GMSd AS는 상기 미디어 플레이어로 상기 전달 매니페스트(들)를 제공한다(단계 915).

도 9b를 참조하면, 상기 미디어 플레이어는 상기 전달 매니페스트(들)를 프로세싱한다(단계 916). 상기 미디어 플레이어는 예를 들어 미디어 획득을 위한 필요로 되는 전송 세션들의 개수를 결정한다. 상기 미디어 플레이어는 상기 전달 매니페스트(들) 정보를 사용하여 각 미디어 스트림에 대한 미디어 파이프라인(media pipeline)들을 초기화할 수 있다. 대안적인 실시 예에서, 상기 전달 매니페스트(들) 정보는 미디어 오브젝트 또는 스트림 별로 상기 표 2에 예시된 메타데이터를 포함할 수 있다. 본 개시에서, 상기 UE는 단계 909 및 단계 916 중 적어도 하나의 동작에 따라 상기 네트워크로부터 상기 표 2에 예시된 메타데이터를 획득할 수 있다. 상기 미디어 플레이어는 상기 미디어 세션 핸들러에게 상기 전달 매니페스트(들)에 대해 통지한다(단계 917). 상기 미디어 플레이어는 상기 미디어 재생 파이프라인들을 구성한다(단계 918). 상기 미디어 플레이어는 상기 AR/MR 미디어 컨텐트를 획득하기 위해 상기 전송 세션(들)을 수립한다(단계 919). 상기 미디어 플레이어는 상기 재생이 준비되었음을 상기 미디어 세션 핸들러로 통지한다(단계 920).

상기 미디어 플레이어는, 가능하면 추가적인 프로세싱(예를 들어, 뷰포트(viewport) 종속 스트리밍)를 위한 포즈 정보를 고려하여, 상기 프로세싱된 전달 매니페스트에 따라 상기 몰입형 미디어 데이터를 요청한다(단계 921). 상기 미디어 플레이어는 상기 몰입형 미디어 데이터를 수신하고, 따라서 상기 AR 컨텐트의 현실 세계에 대한 등록을 포함하는 미디어 렌더링 파이프라인(들)을 트리거한다(단계 922). 상기 미디어 플레이어는 상기 미디어 데이터를 디코딩 및 프로세싱한다(단계 923). 상기 미디어 플레이어는 상기 미디어 데이터를 상기 AR/MR 장면 관리자에게 패스한다(단계 924). 상기 AR/MR 장면 관리자는, 따라서 상기 XR/AR 미디어 컨텐트의 상기 현실 세계에 대한 등록을 포함하는 상기 미디어를 렌더링한다(단계 925). 도 3 내지 도 8의 실시 예들에서, 상기 UE(또는 상기 XR/AR 디바이스)가 상기 렌더링 모드를 결정하고 상기 결정된 렌더링 모드에 따라 렌더링을 수행하는 상기와 같은 동작들이 단계 925에서 수행될 수 있다.

도 10은 본 개시의 일 실시 예에 따른 상기 XR/AR 디바이스의 블록 다이아그램이다. 상기 XR/AR 디바이스는 상기 UE 또는 XR/AR 안경에서 구현될 수 있다.

도 10을 참조하면, 상기 XR/AR 디바이스는 송수신기(1010), 프로세서(1020), 및 메모리(1030)를 포함할 수 있다. 본 개시에서, 상기 프로세서(1020)는 회로, 주문형 집적 회로(application-specific integrated circuit: ASIC), 제어기, 또는 적어도 하나의 프로세서를 포함할 수 있다. 상기 송수신기(1010)는 상기 네트워크를 통해 서버와 신호들을 송수 및/또는 수신할 수 있다. 상기 프로세서(1020)는 본 개시에서 설명된 실시 예들 중 적어도 하나에 따른 상기 XR/AR 디바이스의 전반적인 동작을 제어할 수 있다. 예를 들어, 상기 프로세서(1020)는 상기에서 설명된 도 6 내지 도 9에서의 실시 예들 중 하나 또는 그 조합에 따른 동작들을 수행하도록 상기 동작 플로우를 제어할 수 있다. 예를 들어, 일 실시 예에서, 상기 프로세서(1020)는 위치(position)(위치(location)) 및 또한 방향으로 구성된 상기 선택된 포즈를 파싱할(parse) 수 있다. 상기 프로세서는 상기 AR 오브젝트/미디어와 연관되는 상기 메타데이터/파라미터를 파싱하고 상기 AR 미디어가 상기 파싱된 파라미터들로부터 병진 운동을 포함하는지 여부를 결정할 수 있다. 상기 메모리(1030)는 상기 송수신기(1010)를 통해 교환되는 정보 및 상기 프로세서(1020)에 의해 생성되는 정보 중 적어도 하나를 저장할 수 있다. 상기 XR/AR 디바이스는 상기 AR 미디어 데이터를 디스플레이하기 위한 디스플레이 및 키/터치 입력을 위한 입력 유닛을 포함할 수 있다. 예를 들어, 상기 앵커 포즈는 상기 입력 유닛에 의해 선택될 수 있다.

도 11은 본 개시의 일 실시 예에 따른 서버의 블록 다이아그램이다. 상기 서버는 도 9a 및 도 9b의 일 실시 예에서 설명된 네트워크 엔티티들 중 하나일 수 있다. 상기 네트워크 엔티티들은 상기 (5GMSd) AF, (5GMSd) AS 및 AR/MR 애플리케이션 제공자를 포함한다.

도 11을 참조하면, 상기 서버는 송수신기(1110), 프로세서(1120), 및 메모리(1130)를 포함할 수 있다. 본 개시에서, 상기 프로세서는 회로, ASIC, 제어기, 또는 적어도 하나의 프로세서를 포함할 수 있다. 상기 송수신기(1110)는 상기 XR/AR 디바이스와 신호들 송신 및/또는 수신할 수 있다. 상기 프로세서(1120)는 본 개시에서 설명된 실시 예들 중 적어도 하나에 따른 상기 서버의 전반적인 동작을 제어할 수 있다. 예를 들어, 상기 프로세서(1120)는 상기에서 설명된 도 6 내지 도 9에서의 실시 예들 중 하나 또는 그 조합에 따른 동작들을 수행하도록 상기 동작 플로우를 제어할 수 있다. 예를 들어, 상기 프로세서(1120)는 상기 AR 오브젝트/미디어와 연관되는 상기 메타데이터/파라미터를 상기 송수신기(1110)를 통해 상기 XR/AR 디바이스로 송신할 수 있다. 상기 메모리(1130)는 상기 송수신기(1110)를 통해 교환되는 정보 및 상기 프로세서(1120)에 의해 생성되는 정보 중 적어도 하나를 저장할 수 있다.

본 개시가 그의 특정한 실시 예들을 참조하여 구체적으로 도시되고 설명되었을 지라도, 동일한 것은 단지 예시 및 예제로서 본 개시와 관련하여 취해지도록 의도되지 않는다는 것이 명백히 이해된다. 첨부된 청구항들 및 그 균등들에 의해 정의되는 본 개시의 요지 및 범위를 벗어나지 않고 형태 및 세부 사항들에서의 다양한 변경들이 이루어질 수 있다는 것이 해당 기술 분야의 당업자들에 의해 이해될 것이다.

Claims

통신 시스템에서 증강 현실(augmented reality: AR) 미디어 오브젝트(media object)에 대한 렌더링(rendering)을 수행하는 방법에 있어서,
상기 AR 미디어 오브젝트의 렌더링 모드를 결정하기 위한 정보를 포함하는 메타데이터(metadata)를 획득하는 동작, 상기 정보는 상기 AR 오브젝트가 병진 운동(translational motion)을 포함하는지 여부를 지시하는 제1 정보를 포함함;
서버로부터 AR 미디어 오브젝트를 포함하는 AR 미디어 데이터를 수신하는 동작;
상기 제1 정보를 포함하는 상기 메타데이터에 기반하여 상기 AR 미디어 오브젝트를 렌더링하기 위한 렌더링 모드를 결정하는 동작; 및
상기 결정된 렌더링 모드에 기반하여 상기 AR 미디어 오브젝트를 렌더링하는 동작을 포함하는 상기 방법.
제 1 항에 있어서,
상기 AR 미디어 오브젝트의 렌더링 앵커(rendering anchor)에 대해 선택되는 앵커 포즈(anchor pose)를 식별하는 동작;
상기 선택된 앵커 포즈에 기반하여 가능한 제1 렌더링 영역을 식별하는 동작;
제1 정보가 상기 AR 오브젝트가 병진 운동을 포함함을 지시할 경우, 상기 메타데이터에 기반하여 상기 AR 미디어 오브젝트에 대해 요구되는 제2 렌더링 영역을 식별하는 동작;
상기 제1 렌더링 영역과 상기 제2 렌더링 영역을 비교하는 동작을 더 포함하는 상기 방법.
제 2 항에 있어서,
렌더링 모드를 결정하는 동작은:
상기 제1 렌더링 영역이 상기 제2 렌더링 영역보다 크거나 같을 경우 병진 렌더링 모드(translational rendering mode)를 상기 렌더링 모드로 결정하는 동작을 포함하는 상기 방법.
제 3 항에 있어서,
상기 AR 미디어 오브젝트의 렌더링 모드를 결정하기 위한 정보는 상기 AR 미디어 데이터의 코딩된 모델이 상기 병진 운동을 포함하는지 여부를 지시하는 제2 정보를 더 포함하는 상기 방법.
제 4 항에 있어서,
상기 AR 미디어 오브젝트를 렌더링하는 동작은:
상기 선택된 앵커 포즈를 디폴트 앵커 센터(default anchor centre)와 매칭(match)하는 동작;
상기 제2 정보에 기반하여, 상기 병진 운동이 상기 AR 미디어 데이터의 코딩된 모델에 포함되는지 여부를 식별하는 동작; 및
상기 병진 운동이 상기 AR 미디어 데이터의 코딩된 모델에 포함될 경우, 상기 디폴트 앵커 센터를 상기 선택된 앵커 포즈의 동일한 위치 및 방향에 매칭하여 상기 AR 미디어 오브젝트를 렌더링하는 동작을 포함하는 상기 방법.
제 2 항에 있어서,
상기 렌더링 모드를 결정하는 동작은:
상기 제1 정보가 상기 AR 오브젝트가 상기 병진 운동을 포함하지 않음을 지시하고, 상기 제1 렌더링 영역이 상기 제2 렌더링 영역보다 크거나 같을 경우, 비-병진 렌더링 모드(non-translational rendering mode)를 상기 렌더링 모드로 결정하는 동작; 또는
상기 제1 정보가 상기 AR 오브젝트가 상기 병진 운동을 포함함을 지시하고, 상기 제1 렌더링 영역이 상기 제2 렌더링 영역보다 작을 경우, 상기 비-병진 렌더링 모드를 상기 렌더링 모드로 결정하는 동작을 포함하는 상기 방법.
제 4 항에 있어서,
상기 AR 미디어 오브젝트를 렌더링하는 동작은:
상기 선택된 앵커 포즈를 디폴트 앵커 센터(default anchor centre)와 매칭(match)하는 동작;
상기 제2 정보에 기반하여, 상기 병진 운동이 상기 AR 미디어 데이터의 코딩된 모델에 포함되는지 여부를 식별하는 동작; 및
상기 병진 운동이 상기 AR 미디어 데이터의 코딩된 모델에 포함되지 않을 경우, 상기 디폴트 앵커 센터를 상기 선택된 앵커 포즈의 동일한 위치 및 방향에 매칭하여 상기 AR 미디어 오브젝트를 렌더링하는 동작을 포함하는 상기 방법.
제 1 항에 있어서,
메타데이터를 획득하는 동작은, 상기 메타데이터를 획득하기 위한 엔트리 포인트(entry point) 또는 애플리케이션 서버로부터 제공되는 전달 매니페스트(manifest) 정보를 사용하여 네트워크를 통해 상기 AR 미디어 오브젝트의 렌더링 모드를 결정하기 위한 상기 정보를 포함하는 상기 메타데이터를 수신하는 동작을 포함하는 상기 방법.
제 2 항에 있어서,
상기 병진 렌더링 모드에서, 상기 AR 미디어 데이터의 모델링 바운딩 박스(modelling bounding box)로부터 제거되는 병진 운동은 병진 운동 메타데이터로 표현되는 상기 방법.
통신 시스템에서 증강 현실(augmented reality: AR) 미디어 오브젝트(media object)에 대한 렌더링(rendering)을 수행하는 AR 디바이스에 있어서,
송수신기; 및
상기 AR 미디어 오브젝트의 렌더링 모드를 결정하기 위한 정보를 포함하는 메타데이터(metadata)를 획득하고, 상기 정보는 상기 AR 오브젝트가 병진 운동(translational motion)을 포함하는지 여부를 지시하는 제1 정보를 포함함,
상기 송수신기를 통해, 서버로부터 AR 미디어 오브젝트를 포함하는 AR 미디어 데이터를 수신하고,
상기 제1 정보를 포함하는 상기 메타데이터에 기반하여 상기 AR 미디어 오브젝트를 렌더링하기 위한 렌더링 모드를 결정하고, 및
상기 결정된 렌더링 모드에 기반하여 상기 AR 미디어 오브젝트를 렌더링하도록 구성되는 프로세서를 포함하는 상기 AR 디바이스.
제 10 항에 있어서,
상기 프로세서는:
상기 AR 미디어 오브젝트의 렌더링 앵커(rendering anchor)에 대해 선택되는 앵커 포즈(anchor pose)를 식별하고;
상기 선택된 앵커 포즈에 기반하여 가능한 제1 렌더링 영역을 식별하고;
제1 정보가 상기 AR 오브젝트가 병진 운동을 포함함을 지시할 경우, 상기 메타데이터에 기반하여 상기 AR 미디어 오브젝트에 대해 요구되는 제2 렌더링 영역을 식별하고;
상기 제1 렌더링 영역과 상기 제2 렌더링 영역을 비교하도록 더 구성되는 상기 AR 디바이스.
제 11 항에 있어서,
상기 프로세서는 상기 제1 렌더링 영역이 상기 제2 렌더링 영역보다 크거나 같을 경우 병진 렌더링 모드(translational rendering mode)를 상기 렌더링 모드로 결정하도록 구성되는 상기 AR 디바이스.
제 10 항에 있어서,
상기 AR 미디어 오브젝트의 렌더링 모드를 결정하기 위한 정보는 상기 AR 미디어 데이터의 코딩된 모델이 상기 병진 운동을 포함하는지 여부를 지시하는 제2 정보를 더 포함하는 상기 AR 디바이스.
제 11 항에 있어서,
상기 프로세서는:
상기 제1 정보가 상기 AR 오브젝트가 상기 병진 운동을 포함하지 않음을 지시하고, 상기 제1 렌더링 영역이 상기 제2 렌더링 영역보다 크거나 같을 경우, 비-병진 렌더링 모드(non-translational rendering mode)를 상기 렌더링 모드로 결정하거나; 또는
상기 제1 정보가 상기 AR 오브젝트가 상기 병진 운동을 포함함을 지시하고, 상기 제1 렌더링 영역이 상기 제2 렌더링 영역보다 작을 경우, 상기 비-병진 렌더링 모드를 상기 렌더링 모드로 결정하도록 구성되는 상기 AR 디바이스.
제 10 항에 있어서,
상기 프로세서는 상기 메타데이터를 획득하기 위한 엔트리 포인트(entry point) 또는 애플리케이션 서버로부터 제공되는 전달 매니페스트(manifest) 정보를 사용하여 상기 송수신기를 통해 상기 AR 미디어 오브젝트의 렌더링 모드를 결정하기 위한 상기 정보를 포함하는 상기 메타데이터를 수신하도록 구성되는 상기 AR 디바이스.