KR20230041016A

KR20230041016A - 혼합현실/증강현실을 지원하는 통신 시스템에서 3차원 미디어 데이터에 대해 지연 시간 보상 포즈 예측을 사용하는 렌더링을 수행하는 방법 및 장치

Info

Publication number: KR20230041016A
Application number: KR1020237004678A
Authority: KR
Inventors: 에릭 입; 양현구; 송재연
Original assignee: 삼성전자주식회사
Priority date: 2020-07-13
Filing date: 2021-07-13
Publication date: 2023-03-23
Also published as: CN116134474A; EP4170598A1; WO2022015020A1; EP4170598A4; US20230316583A1

Abstract

본 개시는 XR/AR을 지원하는 통신 시스템에서 3D 미디어 데이터에 대해 지연 시간 보상 포즈 예측을 사용하는 렌더링을 수행하는 방법 및 장치에 대한 것으로서, 본 개시의 실시 예에 따라, 통신 시스템에서 미디어 서버로부터 3D 미디어 데이터를 수신하는 제1 장치가 렌더링을 수행하는 방법은, AR(augmented reality) 글래스로부터 제1 시점의 포즈 정보를 포함한 포즈 예측 관련 정보를 수신하는 과정과, 상기 포즈 예측 관련 정보를 근거로, 상기 AR 글래스에서 2D 렌더링이 수행될 제2 시점의 포즈 예측을 수행하는 과정과, 상기 제2 시점의 하나 또는 복수의 예측된 포즈 정보를 근거로, 상기 수신한 3D 미디어 데이터에 대해 하나 또는 복수의 2D 포즈 예측 렌더링 뷰를 렌더링하는 과정과, 상기 하나 또는 복수의 2D 포즈 예측 렌더링 뷰를 인코딩하여 압축된 2D 미디어 데이터를 상기 AR 글래스로 송신하는 과정을 포함한다.

Description

혼합현실/증강현실을 지원하는 통신 시스템에서 3차원 미디어 데이터에 대해 지연 시간 보상 포즈 예측을 사용하는 렌더링을 수행하는 방법 및 장치

본 개시는 혼합현실(mixed reality: XR)/증강현실(augmented reality: AR)을 지원하는 통신 시스템에서 3D 미디어 데이터에 대한 렌더링을 수행하는 방법 및 장치에 관한 것이다.

4G 통신 시스템 상용화 이후 증가 추세에 있는 무선 데이터 트래픽 수요를 충족시키기 위해, 개선된 5G 통신 시스템 또는 pre-5G 통신 시스템을 개발하기 위한 노력이 이루어지고 있다. 이러한 이유로, 5G 통신 시스템 또는 pre-5G 통신 시스템은 4G 네트워크 이후 (Beyond 4G Network) 통신 시스템 또는 LTE 시스템 이후 (Post LTE) 이후의 시스템이라 불리어지고 있다. 높은 데이터 전송률을 달성하기 위해, 5G 통신 시스템은 초고주파(mmWave) 대역 (예를 들어, 60기가(60GHz) 대역과 같은)에서의 구현이 고려되고 있다. 초고주파 대역에서의 전파의 경로손실 완화 및 전파의 전달 거리를 증가시키기 위해, 5G 통신 시스템에서는 빔포밍(beamforming), 거대 배열 다중 입출력(massive MIMO), 전차원 다중입출력(Full Dimensional MIMO: FD-MIMO), 어레이 안테나(array antenna), 아날로그 빔형성(analog beam-forming), 및 대규모 안테나 (large scale antenna) 기술들이 논의되고 있다. 또한 시스템의 네트워크 개선을 위해, 5G 통신 시스템에서는 진화된 소형 셀, 개선된 소형 셀 (advanced small cell), 클라우드 무선 액세스 네트워크 (cloud radio access network: cloud RAN), 초고밀도 네트워크 (ultra-dense network), 기기 간 통신 (Device to Device communication: D2D), 무선 백홀 (wireless backhaul), 이동 네트워크 (moving network), 협력 통신 (cooperative communication), CoMP (Coordinated Multi-Points), 및 수신 간섭제거 (interference cancellation) 등의 기술 개발이 이루어지고 있다. 이 밖에도, 5G 시스템에서는 진보된 코딩 변조(Advanced Coding Modulation: ACM) 방식인 FQAM (Hybrid FSK and QAM Modulation) 및 SWSC (Sliding Window Superposition Coding)과, 진보된 접속 기술인 FBMC(Filter Bank Multi Carrier), NOMA(non orthogonal multiple access), 및SCMA(sparse code multiple access) 등이 개발되고 있다.

한편, 인터넷은 인간이 정보를 생성하고 소비하는 인간 중심의 연결 망에서, 사물 등 분산된 구성 요소들 간에 정보를 주고 받아 처리하는 IoT(Internet of Things, 사물인터넷) 망으로 진화하고 있다. 클라우드 서버 등과의 연결을 통한 빅데이터(Big data) 처리 기술 등이 IoT 기술에 결합된 IoE (Internet of Everything) 기술도 대두되고 있다. IoT를 구현하기 위해서, 센싱 기술, 유무선 통신 및 네트워크 인프라, 서비스 인터페이스 기술, 및 보안 기술과 같은 기술 요소 들이 요구되어, 최근에는 사물간의 연결을 위한 센서 네트워크(sensor network), 사물 통신(Machine to Machine, M2M), MTC(Machine Type Communication)등의 기술이 연구되고 있다. IoT 환경에서는 연결된 사물들에서 생성된 데이터를 수집, 분석하여 인간의 삶에 새로운 가치를 창출하는 지능형 IT(Internet Technology) 서비스가 제공될 수 있다. IoT는 기존의 IT(information technology)기술과 다양한 산업 간의 융합 및 복합을 통하여 스마트홈, 스마트 빌딩, 스마트 시티, 스마트 카 혹은 커넥티드 카, 스마트 그리드, 헬스 케어, 스마트 가전, 첨단의료서비스 등의 분야에 응용될 수 있다.

이에, 5G 통신 시스템을 IoT 망에 적용하기 위한 다양한 시도들이 이루어지고 있다. 예를 들어, 센서 네트워크(sensor network), 사물 통신(Machine to Machine, M2M), MTC(Machine Type Communication)등의 기술이 5G 통신 기술이 빔 포밍, MIMO, 및 어레이 안테나 등의 기법에 의해 구현되고 있는 것이다. 앞서 설명한 빅데이터 처리 기술로써 클라우드 무선 액세스 네트워크(cloud RAN)가 적용되는 것도 5G 기술과 IoT 기술 융합의 일 예라고 할 수 있을 것이다.

본 개시는 XR/AR을 지원하는 통신 시스템에서 3D 미디어 데이터에 대해 효율적으로 렌더링을 수행하는 방법 및 장치를 제공한다.

또한 본 개시는 XR/AR을 지원하는 통신 시스템에서 3D 미디어 데이터에 대해 지연 시간 보상 포즈 예측(latency compensated pose prediction : LCPP)을 사용하여 원격(remote) 혹은 분할(split) 렌더링을 수행하는 방법 및 장치를 제공한다.

본 개시의 실시 예에 따라, 통신 시스템에서 미디어 서버로부터 3D 미디어 데이터를 수신하는 제1 장치가 렌더링을 수행하는 방법은, AR(augmented reality) 글래스로부터 제1 시점의 포즈 정보를 포함한 포즈 예측 관련 정보를 수신하는 과정과, 상기 포즈 예측 관련 정보를 근거로, 상기 AR 글래스에서 2D 렌더링이 수행될 제2 시점의 포즈 예측을 수행하는 과정과, 상기 제2 시점의 하나 또는 복수의 예측된 포즈 정보를 근거로, 상기 수신한 3D 미디어 데이터에 대해 하나 또는 복수의 2D 포즈 예측 렌더링 뷰를 렌더링하는 과정과, 상기 하나 또는 복수의 2D 포즈 예측 렌더링 뷰를 인코딩하여 압축된 2D 미디어 데이터를 상기 AR 글래스로 송신하는 과정을 포함한다.

본 개시의 실시 예에 따라, 통신 시스템에서 미디어 서버로부터 3D 미디어 데이터를 수신하는 제1 장치와 통신 연결된 AR(augmented reality) 글래스가 렌더링을 수행하는 방법은, 상기 제1 장치에게 제1 시점의 포즈 정보를 포함한 포즈 예측 관련 정보를 송신하는 과정과, 상기 제1 시점의 포즈 정보를 근거로, 상기 제1 장치로부터 상기 3D 미디어 데이터에 대해 하나 또는 복수의 2D 포즈 예측 렌더링 뷰를 포함하는 압축된 미디어 데이터를 수신하는 과정과, 상기 하나 또는 복수의 2D 포즈 예측 렌더링 뷰 중 선택된 렌더링 뷰의 미디어 데이터를 디코딩하는 과정과, 상기 선택된 렌더링 뷰가 상기 AR 글래스에서 2D 렌더링이 수행될 제2 시점의 포즈 정보를 근거로, 상기 선택된 렌더링 뷰의 프레임 오류 불일치를 보상하는 과정을 포함하며, 상기 하나 또는 복수의 2D 포즈 예측 렌더링 뷰는 상기 AR 글래스에서 2D 렌더링이 수행될 상기 제2 시점에 대해 포즈 예측된다.

본 개시의 실시 예에 따라, 통신 시스템에서 미디어 서버로부터 3D 미디어 데이터를 수신하는 제1 장치는, 송수신기와, 상기 송수신기를 통해, AR(augmented reality) 글래스로부터 제1 시점의 포즈 정보를 포함한 포즈 예측 관련 정보를 수신하고, 상기 포즈 예측 관련 정보를 근거로, 상기 AR 글래스에서 2D 렌더링이 수행될 제2 시점의 포즈 예측을 수행하며, 상기 제2 시점의 하나 또는 복수의 예측된 포즈 정보를 근거로, 상기 수신한 3D 미디어 데이터에 대해 하나 또는 복수의 2D 포즈 예측 렌더링 뷰를 렌더링하고, 상기 송수신기를 통해, 상기 하나 또는 복수의 2D 포즈 예측 렌더링 뷰를 인코딩하여 압축된 2D 미디어 데이터를 상기 AR 글래스로 송신하도록 구성된 프로세서를 포함한다.

본 개시의 실시 예에 따라, 통신 시스템에서 미디어 서버로부터 3D 미디어 데이터를 수신하는 제1 장치와 통신 연결된 AR(augmented reality) 글래스는, 송수신기와, 상기 송수신기를 통해, 상기 제1 장치에게 제1 시점의 포즈 정보를 포함한 포즈 예측 관련 정보를 송신하고, 상기 제1 시점의 포즈 정보를 근거로, 상기 제1 장치로부터 상기 3D 미디어 데이터에 대해 하나 또는 복수의 2D 포즈 예측 렌더링 뷰를 포함하는 압축된 미디어 데이터를 상기 송수신기를 통해 수신하며, 상기 하나 또는 복수의 2D 포즈 예측 렌더링 뷰 중 선택된 렌더링 뷰의 미디어 데이터를 디코딩하고, 상기 선택된 렌더링 뷰가 상기 AR 글래스에서 2D 렌더링이 수행될 제2 시점의 포즈 정보를 근거로, 상기 선택된 렌더링 뷰의 프레임 오류 불일치를 보상하도록 구성되며, 상기 하나 또는 복수의 2D 포즈 예측 렌더링 뷰는 상기 AR 글래스에서 2D 렌더링이 수행될 상기 제2 시점에 대해 포즈 예측된다.

본 개시에 의하면, 렌더링 시간에 따라 렌더링 시간뿐만 아니라 사용자의 포즈를 예측함으로써 렌더링 에러가 감소한다. 더욱이, 미디어 시스템 구성의 지연 변동은 본 개시에서 언급된 시간 예측 동작을 사용하여 동적으로 보상될 수 있다.

다수의 예측(렌더링 시간 예측뿐만 아니라 임의의 주어진 예측 시간에 대한 다수의 포즈 예측)을 사용하면 다중 포즈 예측 뷰의 3D 렌더링이 가능하다. 본 개시에 따른 렌더링, 및 후속적인 최상의 포즈 예측 뷰의 선택에 의해 (백그라운드 기술에 비해) 렌더링 에러가 감소되거나, 또는 최소화되는 낮은 지연 시간(low latency)의 분할/원격 렌더링이 가능하다.

도 1는 XR/AR을 지원하는 통신 시스템에서 원격/분할 렌더링의 일 예를 설명하기 위한 도면,
도 2는 XR/AR을 지원하는 통신 시스템에서 분할 렌더링의 다른 예를 설명하기 위한 도면,
도 3은 본 개시의 실시 예에 따라 포즈 정보를 업데이트하는 방법을 설명하기 위한 도면,
도 4는 본 개시의 실시 예에 따른 XR/AR을 지원하는 통신 시스템에서 지연 보상 포즈 예측(LCPP)을 이용한 분할 렌더링을 설명하기 위한 도면,
도 5는 본 개시의 실시 예에 따른 XR/AR을 지원하는 통신 시스템에서 지연 보상 포즈 예측(LCPP)을 이용한 원격 렌더링을 설명하기 위한 도면,
도 6은 본 개시의 실시 예에 따라 포즈 예측을 위한 포즈 예측 장치의 일 구성 예를 나타낸 도면,
도 7은 본 개시의 실시 예에 따라 예측 뷰 선택을 위한 포즈 예측 뷰 선택 장치의 일 구성 예를 나타낸 도면,
도 8은 본 개시의 다른 실시 예에 따른 XR/AR을 지원하는 통신 시스템에서 지연 보상 포즈 예측(LCPP)을 이용한 분할 렌더링을 설명하기 위한 도면,
도 9는 본 개시의 또 다른 실시 예에 따른 XR/AR을 지원하는 통신 시스템에서 지연 보상 포즈 예측(LCPP)을 이용한 분할 렌더링을 설명하기 위한 도면,
도 10은 본 개시의 다른 실시 예에 따른 XR/AR을 지원하는 통신 시스템에서 지연 보상 포즈 예측(LCPP)을 이용한 원격 렌더링을 설명하기 위한 도면,
도 11은 본 개시의 일 실시예에 따른 AR 글래스의 구성을 도시한 도면,
도 12는 본 개시의 일 실시예에 따른 전자 장치의 구조를 도시한 도면, 및
도 13은 본 개시의 일 실시예에 따른 원격 렌더러(remote renderer)의 구성을 도시한 도면.

이하 첨부된 도면을 참조하여 본 개시의 동작 원리를 상세히 설명한다. 하기에서 본 개시를 설명하기에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 개시에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 마찬가지 이유로 첨부된 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 개략적으로 도시되었다. 또한, 각 구성요소의 크기는 실제 크기를 전적으로 반영하는 것이 아니다. 각 도면에서 동일한 또는 대응하는 구성요소에는 동일한 참조 번호 혹은 동일한 명칭을 부여하였다.

본 개시의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 개시는 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 개시의 실시 예들은 본 개시가 완전하도록 하고, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 개시는 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

이때, 처리 흐름도 도면들의 각 블록과 흐름도 도면들의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수 있음을 이해할 수 있을 것이다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 흐름도 블록(들)에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 흐름도 블록(들)에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능할 수 있다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 흐름도 블록(들)에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능할 수 있다. 또한, 각 블록은 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실행 예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능할 수 있다. 이때, 본 실시 예에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)과 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일부 실시 예에 따르면 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다. 또한 일부 실시 예에 따르면, ‘~부’는 하나 이상의 프로세서를 포함할 수 있다.

이하 첨부된 도면을 참조하여 본 개시의 동작 원리를 상세히 설명한다. 하기에서 본 개시를 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 개시에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 이하 설명에서 사용되는 방송 정보를 지칭하는 용어, 제어 정보를 지칭하는 용어, 통신 커버리지(coverage)에 관련된 용어, 상태 변화를 지칭하는 용어(예: 이벤트(event)), 망 객체(network entity)들을 지칭하는 용어, 메시지들을 지칭하는 용어, 장치의 구성 요소를 지칭하는 용어 등은 설명의 편의를 위해 예시된 것이다. 따라서, 본 개시가 후술되는 용어들에 한정되는 것은 아니며, 동등한 기술적 의미를 가지는 다른 용어가 사용될 수 있다.

또한, 이하 설명에서 사용되는 접속 노드(node)를 식별하기 위한 용어, 망 객체(network entity)들을 지칭하는 용어, 메시지들을 지칭하는 용어, 망 객체들 간 인터페이스를 지칭하는 용어, 다양한 식별 정보들을 지칭하는 용어 등은 설명의 편의를 위해 예시된 것이다. 따라서, 본 개시가 후술되는 용어들에 한정되는 것은 아니며, 동등한 기술적 의미를 가지는 대상을 지칭하는 다른 용어가 사용될 수 있다.

기존의 2D 미디어(영상)의 캡처, 전달 및 렌더링에 필요한 처리 기능들은 일반적인 것으로서 스마트 폰, TV 등에서 컴퓨터에 이르는 많은 장치들에서 기본적으로 구현되어 있다.

이와 대조적으로, 혼합현실(XR) 및 증강현실(AR)(예컨대, 포인트 클라우드 및 메시) 용으로 캡처된 3D 미디어는 실제 객체들 및 장면들의 3D 표현을 기반으로 하기 때문에, 캡처링, 3D 모델링 및 전달뿐만 아니라 렌더링을 위해 엄청난 처리 능력을 요구한다. 낮은 지연 시간(latency)과 고대역폭 데이터 채널을 지원하는 5G 서비스의 전개와 함께, 3D 콘텐츠를 렌더링하는 것에 대한 처리 요구 사항이 매우 부담스럽기 때문에, 사용자의 포즈 정보에 따른 클라우드(클라우드 서버 또는 MEC(Multi-Access　Edge　Computing))에서 3D 미디어 콘텐츠의 원격 렌더링(remote rendering)은 사용자의 단말 장치에서 렌더링 기능을 오프로딩(offloading) 위한 하나의 공통적인 솔루션이다. AR 글래스(AR glasses)가 도입됨에 따라 분할 렌더링(split rendering)에서 유사한 접근 방식을 찾을 수 있는데, 여기서는 3D 미디어 콘텐츠의 렌더링은 AR 글래스 장치와 테더링된(tethered) 휴대폰 간에 분할된다. AR 글래스를 위한 경량의 독립형 폼 팩터(form factor)를 가능하게 하는, 향상된 배터리 수명, 처리 능력 및 디스플레이 기술 등을 지원하는 하드웨어 기술이 더욱 발전하기 전에는, 테더링된 장치와 AR 글래스 간의 분할 렌더링이 AR 글래스를 사용하여 증강현실을 달성하는 데 있어 필요한 기술이다.

본 개시는 포인트 클라우드 및 메시(point clouds and meshes)로 표현되는 3D 미디어를 포함하는, 멀티미디어 콘텐츠의 처리, 전달, 디코딩 및 혼합현실(mixed reality: XR) 및 증강현실(augmented reality: AR) 콘텐츠 렌더링에 관한 것이다. 본 개시는 또한 테더링된(tethered) AR 글래스 분리 렌더링, 테더링된 AR 글래스 원격 렌더링, 독립형 AR 글래스 원격 렌더링에 관한 것이다. 본 개시는 또한 분할/원격 렌더링을 위한 포즈 예측(pose prediction), AR/XR을 위한 지연 보상 포즈 예측 기반의 원격/분할 렌더링에 관한 것이다. 또한 본 개시는 설명의 편의상 AR 글래스를 예시로 설명될 것이나, VR(virtual reality) 장치 혹은 3D 미디어 데이터를 디스플레이할 수 있는 다양한 장치에 본 개시는 동일한 방식으로 적용될 수 있다.

도 1은 XR/AR을 지원하는 통신 시스템에서 원격/분할 렌더링의 일 예를 설명하기 위한 도면이다.

도 1을 참조하면, 미디어 서버(160)로부터 멀티미디어 콘텐츠로서 AR 데이터가 제공되는 통신 환경에서 두 장치들(120, 140) 간에 원격 렌더링 혹은 분할 렌더링이 수행되는 구성이 예시된다. C1 구성에서 장치(120)는 스마트 폰과 같은 단말(user equipment : UE) 혹은 AR 글래스가 될 수 있으며, 장치(140)는 클라우드 네트워크 기반의 MEC가 될 수 있다. 상기 C1 구성에서 장치들(120, 140) 간에는 AR 데이터에 대한 원격 렌더링이 수행된다. 그리고 C2 구성에서 장치(120)는 AR 글래스가 될 수 있으며, 장치(140)는 UE가 될 수 있다. 상기 C2 구성에서 장치들(120, 140) 간에는 AR 데이터에 대한 분할 렌더링이 수행된다.

도 1의 장치(120)는 시각 엔진(121), 렌더러 및 디스플레이(122) 및 2D 디코더(123)를 포함하고, 장치(140)는 포즈 정보 처리부(141), 3D 미디어 디코더 및 렌더러(142) 및 2D 인코더 및 패킷화기(143)를 포함한다. 본 개시에서 도 1의 예와 후술할 다른 예들에서 2D 인코더 및 2D 디코더에서 코딩 방식은 편의상 공지된 HEVC(High Efficiency Video Coding)를 예시하였으나, 상기 코딩 방식이 HEVC에 한정되는 것은 아님에 유의하여야 할 것이다.

도 1에서 시각 엔진(121)는 사용자의 포즈 정보를 획득하여 포즈 정보 처리부(141)로 제공한다. 3D 미디어 디코더 및 렌더러(142)는 포즈 정보 처리부(141)로부터 처리된 포즈 정보를 근거로 미디어 서버(160)로부터 수신한 3D 미디어 데이터인 AR 미디어 데이터를 디코딩 및 렌더링하여 2D 인코더 및 패킷화기(143)로 출력한다. 2D 디코더(123)는 2D 인코더 및 패킷화기(143)로부터 수신한 압축된 2D 미디어 데이터를 디코딩하여 렌더러 및 디스플레이(122)로 출력한다. 렌더러 및 디스플레이(122)는 시각 엔진(121)로부터 제공되는 포즈 정보를 근거로 디코딩된 2D 미디어 데이터를 렌더링하여 디스플레이되도록 출력한다. 도 1의 예는 상대적으로 높은 처리 능력이 요구되는 3D 미디어 데이터에 대한 렌더링이 장치(140)에서 수행되고, 상대적으로 낮은 처리 능력이 요구되는 2D 미디어 데이터에 대한 렌더링이 장치(120)에서 수행되는 원격/분할 렌더링을 위한 구성의 일 예를 나타낸 것이다.

즉 도 1의 예는 AR 글래스에 대한 아래와 같은 두 개의 구성(C1, C2)에 따른 다른 장치 구성을 도시한 것으로 이해될 수 있다:

C1. 클라우드(MEC) 상에서 원격 렌더링에 의한 독립형 AR 글래스, 및

C2. AR 글래스와 스마트폰과 같은 UE 사이의 분할 렌더링에 의한 스마트폰 테더링을 이용하는 AR 글래스.

도 1에서 논리적(기능적) 개체들은 디스플레이 개체 및 3D 렌더러(renderer) 개체로 분류될 수 있다. 두 장치 구성(120, 140)의 경우, 1) AR 글래스와 원격 렌더러 사이, 또는 2) AR 글래스와 단말 사이에 무선 데이터 통신 채널이 존재하기 때문에, 3D 렌더러(142)에서 출력된 3D 렌더링된 2D 뷰는 데이터 채널을 통해 AR 글래스로 전송되기 전에 압축되어야 한다.

다음과 같은 2개의 서비스 사용 사례가 있다(장치 구성 2(C2)에 입각하여 설명되는 것과 같이):

1. UE(140)는 AR 글래스(120)에 제공되는 미디어 서버(160)로부터의 완전한 3D(AR) 미디어 데이터를 다운로드한다;

2. 미디어 서버(160)는 이어서 AR 글래스(120) 상에 제공되는 미디어 데이터를 UE(140)로 스트리밍 한다. 3D 미디어 데이터는 다음 a, b, c와 같이 스트리밍 될 수 있다:

a. 전체 3D 미디어 객체

b. 그 객체의 임의의 관점/뷰

c. 객체의 사용자 맞춤(customized) 관점/뷰

도 2는 XR/AR을 지원하는 통신 시스템에서 분할 렌더링의 다른 예를 설명하기 위한 도면이다.

도 2를 참조하면, 미디어 서버(260)로부터 멀티미디어 콘텐츠로서 AR 데이터가 제공되는 통신 환경에서 두 장치들(220, 240) 간에 분할 렌더링이 수행되는 구성이 예시된다. 도 2에서 장치(220)는 AR 글래스가 될 수 있으며, 장치(240)는 UE가 될 수 있다. 장치들(220, 240) 간에는 AR 데이터에 대한 분할 렌더링이 수행된다. 도 2의 AR 글래스(420)은 시각 엔진(221), 렌더러 및 디스플레이(222) 및 2D 디코더(223)를 포함하고, UE(240)는 포즈 정보 파서(241), 포즈 업데이터(242), 3D 미디어 디코더(243), 3D 렌더러(244) 및 2D 인코더 및 패킷화기(245)를 포함한다. 도 2의 예는 상대적으로 높은 처리 능력이 요구되는 3D 미디어 데이터에 대한 렌더링이 UE(240)에서 수행되고, 상대적으로 낮은 처리 능력이 요구되는 2D 미디어 데이터에 대한 렌더링이 AR 글래스(220)에서 수행되는 분할 렌더링을 위한 구성의 일 예를 나타낸 것이다. AR 글래스(220)은 테더링(tethering)을 통해 UE(240)에 연결되어 UE(240)에 의해 분할 렌더링된 미디어 데이터를 수신할 수 있다.

도 2의 예에서 UE(240)는 글래스미디어 서버(260)로부터 3D 미디어 데이터를 다운로드하여 AR 글래스(220)에 제공한다. 그리고 UE(240)와 AR 글래스(220) 간에 분할 렌더링이 수행된다.

도 2의 예에서 분할 렌더링이 수행되는 구체적인 동작을 설명하면 아래 동작 201 내지 209과 같다.글래스

201. UE(240)는 미디어 서버(260)로부터 3D 미디어 데이터를 다운로드한다.

202. AR 글래스(220)은 t1 시점의 사용자 포즈 정보 @t1을 UE(240)로 전송하고 포즈 정보 파서(241)는 그 포즈 정보를 파싱(parsing)한다.

203. UE(240)는 미디어 서버(260)로부터 수신한 3D 미디어 데이터를 디패킷화(depacketize) 및 디코딩 한 다음 시점 t2에 따라 업데이트된 포즈 정보에 따라서 출력 2D 뷰(view) 비디오 프레임을 렌더링한다.

204. UE(240)는 상기 동작 203에서 렌더링된 뷰(2D 코덱을 이용)를 인코딩하고 패킷화한다.

205. UE(240)는 압축된 미디어 패킷을 AR 글래스(220)으로 보낸다.

206. AR 글래스(220)은 UE(240)로부터 수신한 렌더링된 뷰 프레임을 디패킷화하고 디코딩한다.

207. AR 글래스(220)은 t4 시점의 최신의 포즈 정보 @ t4를 활용하여 UE(240)로부터 수신한 렌더링된 뷰 프레임의 오류 불일치를 보상한다(예컨대, 영상 처리 기술에서 알려진 타임워핑(timewarping), 이후 재투영(late stage reprojection)을 이용할 수 있다).

도 2의 예에서 상기 t1, t2, t4 시점의 포즈 정보는 3GPP TR 26.928(5G에서의 확장현실(Extended Reality: XR)에서와 같이, 공간의 위치와 방향을 기술하는 것으로 정의될 수 있다: 본 개시의 실시 예들에서 상기 포즈 정보는 3GPP TR 26.928에서 정의된 방식을 이용하거나 혹은 공간에서 위치와 방향을 정의할 수 있는 공지된 다양한 방식을 이용할 수 있다.

1. 위치(x, y, z): 공간의 원점을 기준으로 한 3D 벡터 또는 물리적 거리

2. 방향(x, y, z, w): 동일 공간에 상대적인 쿼터니언(quarternion)

한편, 실시예에 따라서는, 상기한 도 2의 예에서 설명한 동작 201 내지 207 중 일부 동작이 생략될 수 있고, 기타 필요한 다른 동작이 추가될 수도 있다. 또한, 상술한 procedure의 동작들의 수행 순서와 다른 순서로 각 동작이 수행될 수도 있다.

상기한 AR 글래스를 지원하는 통신 시스템에서 분할 렌더링 혹은 원격 렌더링은 도 2에 예시한 것과 같이 미디어 파이프라인에서 다수의 처리 동작들을 필요로 한다. 다양한 처리 동작들은 t2 시점과 t4 시점 사이의 지연으로 인해 발생하는 렌더링 에러(rendering error)를 초래한다. 3D 렌더링은 해당 시점에서 업데이트된 포즈 정보(예컨대, t2 시점의 업데이트된 포즈 정보)를 사용하여 t2 시점에서 수행되지만, 사용자에게 AR 글래스 상에서의 실제 렌더링 및 표시 시간은 t4 시점이 된다. 그리고 상기 t2 시점과 t4 시점간의 지연 시간 동안 사용자는 이미 이동한 상태일 수 있다. 따라서 분할 렌더링 혹은 원격 렌더링 시 발생되는 지연으로 인한 렌더링 에러(rendering error)를 효율적으로 보상하기 위한 방안이 요구된다.

도 3은 본 개시의 실시 예에 따라 포즈 정보를 업데이트하는 방법을 설명하기 위한 도면이다. 도 3의 (a), (b)에서 IMU(inertial measurement unit) 샘플들은 자이로스코프, 가속도계 등의 센서를 통해 대상의 움직임(예를 들어, 헤드 움직임)을 센싱하여 획득된 샘플들이고, 카메라 샘들들은 카메라를 통해 대상의 움직임을 검출하여 획득된 샘들들이다. 이러한 샘들들은 센싱 데이터로 추적기(tracker)에서 처리되어 대상의 위치 및 방향 정보가 포함된 포즈 정보가 획득될 수 있다. 이후 포즈 정보를 근거로 미디어 데이터에 대한 렌더링이 수행되어 AR 글래스 혹은 UE 등을 통해 디스플레이 된다.

도 3의 (a)는 도 2의 예와 같이, t2 시점에서 3D 렌더링을 위해 t2 시점에서 계산된 추정 포즈(estimated pose) 정보를 사용하는 경우 motion to photon 지연을 나타낸 것이다. 여기서 상기 motion to photon 지연은 사용자의 헤드의 움직임에 따라 변경되는 view에 따른 화면이 디스플레이 되기까지 걸리는 지연 시간을 의미한다. 상기 motion to photon 지연이 길어지면, 사용자에게 어지러움이 유발될수 있다.

도 3의 (b)는 본 개시의 실시 예에 따라 t2 시점에서 3D 렌더링을 위해 예측된 미래의 디스플레이(2D 렌더링) 시점 t4'를 근거로 계산된 예측된 포즈(predicted pose)를 사용하는 경우 motion to photon 지연을 나타낸 것이다. 후술할 모션 벡터 예측기(motion vector predictors)를 사용하여 사용자의 포즈 정보를 정확하게 예측한다고 가정하면, 도 3의 (a)의 경우에 비해 본 개시에서 제안하는 도 3의 (b)의 경우 motion to photon 지연을 보다 감소시켜 분할/원격 렌더링에 대한 렌더링 에러를 효율적으로 보상할 수 있다.

상기한 렌더링 에러를 초래하는 지연은, i) 구성을 위한 프로세싱 단계의 수, 및 ii) 각각의 특정 3D 미디어 콘텐츠에 대해 프로세싱 작업의 복잡성에 따른 각 단계에 대한 프로세싱 지연 시간 차이에 따라 상이할 수 있다.(예컨대, 포인트가 1백만 개의 포인트를 갖는 클라우드를 디코딩하는 데는 일반적으로 50만 개의 포인트를 갖는 클라우드보다 시간이 더 오래 걸린다).

일 예로 3D 렌더링 시점 t2에서 포즈 정보를 단순히 업데이트하고 렌더링을 위해 업데이트된 포즈 정보 P(t2)를 사용하는 대신에 본 개시의 실시 예들에서는 렌더링될 시점 t4'의 예측 및 상기 예측된 렌더링 시점 t4'에 따라 예측된 포즈 정보 P'(t4')을 계산/획득하는 방안을 제안한다. 또한 본 개시에서는 사용자에 대한 복수의 포즈들을 예측하여 3D 미디어 데이터의 렌더링에 사용할 수 있으며, 그에 후속하여, AR 글래스에 알려지는 실제 렌더링 시간에 실제 포즈를 사용하여 다수의 최소화 오류 함수에 따라 가장 정확한 렌더링 뷰(rendered view)를 선택할 수 있다.

도 4는 본 개시의 실시 예에 따른 XR/AR을 지원하는 통신 시스템에서 지연 보상 포즈 예측(LCPP)을 이용한 분할 렌더링을 설명하기 위한 도면이다.

도 4를 참조하면, 미디어 서버(460)로부터 멀티미디어 콘텐츠로서 AR 데이터가 제공되는 통신 환경에서 두 장치들(420, 440) 간에 분할 렌더링이 수행되는 구성이 예시된다. 도 4에서 장치(420)는 AR 글래스가 될 수 있으며, 장치(440)는 UE가 될 수 있다. 장치들(420, 440) 간에는 AR 데이터에 대한 분할 렌더링이 수행된다. 도 4의 AR 글래스(420)은 시각 엔진(421), 렌더러 및 디스플레이(422), 2D 디코더(423) 및 포즈 예측 뷰 선택기(424)를 포함하고, UE(440)는 포즈 정보 파서(441), 포즈 예측기(442), 3D 미디어 디코더(443), 3D 렌더러(444), 2D 인코더 및 패킷화기(445)를 포함한다. 도 4의 예는 상대적으로 높은 처리 능력이 요구되는 3D 미디어 데이터에 대한 렌더링이 UE(440)에서 수행되고, 상대적으로 낮은 처리 능력이 요구되는 2D 미디어 데이터에 대한 렌더링이 AR 글래스(420)에서 수행되는 분할 렌더링을 위한 구성의 일 예를 나타낸 것이다. AR 글래스(420)은 테더링(tethering)을 통해 UE(440)에 연결되어 UE(440)에 의해 분할 렌더링된 미디어 데이터를 수신할 수 있다.

도 4의 예에서 UE(440)는 미디어 서버(460)로부터 3D 미디어 데이터를 다운로드하여 AR 글래스(420)에 제공한다. 그리고 UE(440)와 AR 글래스(420) 간에 분할 렌더링이 수행되고, 포즈 예측은 UE(420)에서 수행된다.

도 4의 예에서 분할 렌더링이 수행되는 구체적인 동작을 설명하면 아래 동작 401 내지 409와 같다.

401. UE(420)는 미디어 서버(460)로부터 3D 미디어 데이터를 다운로드한다. 상기 3D 미디어 데이터는 스트리밍 서비스 혹은 다운로드 서비스를 통해 제공될 수 있다.

402. AR 글래스(420)은 사용자의 포즈 정보 P(t1)(시점 t1에서의 포즈 정보), PP_dataset(t1)(시점 t1에 대한 포즈 예측 데이터 세트) 및 MTP(motion to photon) 지연 정보 MTP_latency(예를 들어 이전의 MTP 지연 시간의 평균 등을 사용하여 계산된, 이전의 (t4-t1) 값에 의해 주어진 예측된 MTP 지연 시간) 중 적어도 하나를, UE(440)에게 전송한다. UE(440)의 포즈 정보 파서(441)는 AR 글래스(420)의 시각 엔진(421)으로부터 수신한 상기 포즈 정보, 상기 포즈 예측 데이터 세트 및 상기 MTP 지연 정보 중 적어도 하나를 파싱한다.

403. UE(420)의 포즈 예측기(442)는 상기 P(t1), PP_dataset(t1) 및 MTP_latency 중 적어도 하나를 사용하여 포즈 예측을 수행하여 예를 들어 다수의 예측된 포즈 정보 P'(t4')를 출력한다. 본 개시에 따른 상기 포즈 예측의 구체적인 방식은 후술하기로 한다.

404. UE(440)의 3D 미디어 디코더(443)는 미디어 서버(460)로부터 수신한 3D 미디어 데이터를 디패킷화 및 디코딩하고, 이어서 UE(440)의 3D 렌더러(444)는 상기 동작 403에서 예측된 포즈 정보를 근거로 복수의 2D 뷰 비디오 프레임을 렌더링한다.

405. UE(440)의 2D 인코더 및 패킷화기(445)는 상기 동작 404에서 렌더링된 뷰를 2D 코덱을 이용하여 인코딩하고 패킷화한다.

406. UE(440)는 압축된 미디어 패킷 및 뷰 선택 메타데이터를 AR 글래스(420)으로 전송한다.

407. AR 글래스(420)의 포즈 예측 뷰 선택기(424)는 상기 뷰 선택 메타데이터를 처리하여 포즈 예측 뷰(렌더링 뷰 프레임)를 선택한다. 본 개시에 따른 상기 포즈 예측 뷰 선택의 구체적인 방식은 후술하기로 한다.

408. AR 글래스(420)의 2D 디코더(423)는 상기 동작 407에서 선택된 렌더링 뷰 프레임을 디패킷화 및 디코딩한다.

409. AR 글래스(420)의 렌더러 및 디스플레이(422)는 t4 시점의 최신의 포즈 정보 @ t4를 활용하여 가능한 모든 혹은 적어도 일부의 렌더링 뷰 프레임 오류 불일치를 보상한다(예컨대, 영상 처리 기술에서 알려진 타임워핑, 이후 재투영을 이용할 수 있다).

상기한 도 4의 실시 예는 시점 t2에서, 포즈 정보 P'(t2)를 사용하여 추정 포즈를 사용하는 도 2의 예와 비교하여, 시점 t4에서 포즈 정보 P(t4)와 비교하여 P'(t2)보다 더 정확한 예측된 포즈 정보 P'(t4')를 사용하여 뷰(들)를 렌더링함으로써 렌더링 에러를 줄일 수 있다.

한편, 실시예에 따라서는, 상기한 도 4의 예에서 설명한 동작 401 내지 409 중 일부 동작이 생략될 수 있고, 기타 필요한 다른 동작이 추가될 수도 있다. 또한, 상술한 procedure의 동작들의 수행 순서와 다른 순서로 각 동작이 수행될 수도 있다.

도 5는 본 개시의 실시 예에 따른 XR/AR을 지원하는 통신 시스템에서 지연 보상 포즈 예측(LCPP)을 이용한 원격 렌더링을 설명하기 위한 도면이다. 즉 도 5의 예는 독립형 AR 글래스와 클라우드 처리 개체(클라우드 서버, MEC 등) 간의 지연 시간 보상 포즈 예측(LCPP) 기반의 원격 렌더링의 흐름과 절차를 나타낸 것이다.

도 5를 참조하면, 미디어 서버(560)로부터 3D 미디어 데이터인 AR 데이터가 제공되는 통신 환경에서 두 장치들(520, 540) 간에 원격 렌더링이 수행되는 구성이 예시된다. 도 5에서 장치(520)는 AR 글래스를 이용하는 UE 혹은 AR 글래스가 될 수 있으며, 장치(540)는 MEC가 될 수 있다. 장치들(520, 540) 간에는 AR 데이터에 대한 원격 렌더링이 수행된다. 도 5의 AR 글래스(520)은 시각 엔진(521), 렌더러 및 디스플레이(522), 2D 디코더(523) 및 포즈 예측 뷰 선택기(524)를 포함하고, MEC(540)는 포즈 정보 파서(541), 포즈 예측기(542), 3D 미디어 디코더(543), 3D 렌더러(544), 2D 인코더 및 패킷화기(545)를 포함한다. 도 5의 예는 상대적으로 높은 처리 능력이 요구되는 3D 미디어 데이터에 대한 렌더링이 MEC(440)에서 수행되고, 상대적으로 낮은 처리 능력이 요구되는 2D 미디어 데이터에 대한 렌더링이 UE 혹은 AR 글래스(520)에서 수행되는 원격 렌더링을 위한 구성의 일 예를 나타낸 것이다. 상기 AR 글래스를 이용하는 UE 혹은 AR 글래스(520)(이하, 편의상 AR 글래스(520)으로 칭하기로 한다.)은 MEC(540)에 통신 연결되어 MEC(540)에 의해 원격 렌더링된 미디어 데이터를 수신할 수 있다.

도 5의 예에서 MEC(540)는 미디어 서버(560)로부터 3D 미디어 데이터를 수집하고, 수집된 3D 미디어 데이터를 원격으로 렌더링하여 AR 글래스(520)에게 제공한다. 상기 AR 글래스(520)과 MEC(540) 간에 원격 렌더링이 수행되고, 포즈 예측은 MEC(540)에서 수행된다.

도 5의 예에서 원격 렌더링이 수행되는 구체적인 동작을 설명하면 아래 동작 501 내지 509와 같다.

501. MEC(540)는 미디어 서버(560)로부터 3D 미디어 데이터를 수집한다.

502. AR 글래스(520)은 사용자의 포즈 정보 P(t1)(시점 t1의 포즈 정보), PP_dataset(t1)(시점 t1에 대한 포즈 예측 데이터 세트) 및 MTP 지연 정보 MTP_latency(예를 들어 이전의 MTP 지연 시간의 평균 등을 사용하여 계산된, 이전의 (t4-t1) 값으로 주어진 예측된 MTP 지연 시간) 중 적어도 하나를, MEC(540)에게 전송한다. MEC(540)의 포즈 정보 파서(541)는 AR 글래스(520)의 시각 엔진(521)으로부터 수신한 상기 포즈 정보, 상기 포즈 예측 데이터 세트 및 상기 MTP 지연 정보 중 적어도 하나를 파싱한다.

503. MEC(540)의 포즈 예측기(542)는 상기 P(t1), PP_dataset(t1) 및 MTP_latency 중 적어도 하나를 사용하여 포즈 예측을 수행하여 예를 들어 다수의 예측된 포즈 정보 P'(t4')를 출력한다. 본 개시에 따른 상기 포즈 예측의 구체적인 방식은 후술하기로 한다.

504. MEC(540)의 3D 미디어 디코더(543)는 미디어 서버(560)로부터 수신한 3D 미디어 데이터를 (디패킷화 및) 디코딩하고 이어서 MEC(540)의 3D 렌더러(544)는 상기 동작 503에서 예측된 포즈 정보를 근거로 다수의 2D 뷰 비디오 프레임을 렌더링한다.

505. MEC(540)의 2D 인코더 및 패킷화기(545)는 상기 동작 504에서 렌더링된 뷰를 2D 코덱을 이용하여 인코딩 및 패킷화한다.

506. MEC(540)는 압축된 미디어 패킷 및 뷰 선택 메타데이터를 AR 글래스(520)으로 전송한다.

507. AR 글래스(520)의 포즈 예측 뷰 선택기(524)는 상기 뷰 선택 메타데이터를 처리하여 포즈 예측 뷰를 선택한다. 본 개시에 따른 상기 포즈 예측 뷰 선택의 구체적인 방식은 후술하기로 한다.

508. AR 글래스(520)의 2D 디코더(523)는 상기 동작 507에서 선택한 렌더링 뷰 프레임을 디패킷화하고 디코딩한다.

509. AR 글래스(520)의 렌더러 및 디스플레이(522)는 t4 시점의 최신의 포즈 정보 @t4를 활용하여 가능한 모든 혹은 적어도 일부의 MEC 렌더링 뷰 프레임 오류 불일치를 보상한다(예컨대, 영상 처리 기술에서 알려진 타임워핑, 이후 재투영을 이용할 수 있다).

상기한 도 5의 실시 예에서 원격 렌더링 시나리오는, 도 4의 실시 예에서 AR 글래스와 UE 사이의 단거리 테더링된 무선 채널(WiFi 6E 상의 전송 등)과 비교할 경우, AR 글래스와 MEC 간의 무선 데이터 채널(5G 모바일 네트워크 등을 통한 전송)에 대해 더 높은 지연 시간을 가질 수 있다. 따라서 보다 정확하고 양호하게 보상된 포즈 예측 렌더링 뷰가 원격 렌더링 시나리오에 요구될 수 있다.

한편, 실시예에 따라서는, 상기한 도 5의 예에서 설명한 동작 501 내지 509 중 일부 동작이 생략될 수 있고, 기타 필요한 다른 동작이 추가될 수도 있다. 또한, 상술한 procedure의 동작들의 수행 순서와 다른 순서로 각 동작이 수행될 수도 있다.

도 6은 본 개시의 실시 예에 따라 포즈 예측을 위한 포즈 예측 장치의 일 구성 예를 나타낸 도면이다.

도 6의 포즈 예측 장치는 도 4 예에서 포즈 예측기(442)의 일 구성 예를 나타낸 것이며, 도 5의 예는 물론 본 개시의 다른 실시 예들에서 포즈 예측기에도 동일/유사하게 적용될 수 있다.

도 6의 포즈 예측기(442)는 t 예측기(442a)와 P(t) 예측기(442b)를 포함하며, 입력 파라미터 t1, P(t1), PP_dataset(t1) 및 MTP_latency를 설명하면 다음과 같다. 입력 파라미터 중 t1은 일 예로 P(t1)의 타임 스태프로부터 획득되거나 혹은 별도로 입력될 수 있다. 도 6의 예에서 t, P(t)에 프라임(')이 표시된 t', P'(t') 등은 예측된 값을 의미한다.

입력 파라미터:

t1: AR 글래스에 의해 포즈 정보를 UE/MEC로 전송하는(UTC) 시간

P(t1): 시점 t1에서의 사용자의 포즈 정보

- 위치(x, y, z) [벡터 좌표]

- 방향(q, r, s, t) [쿼터니언]

- P(t1) = P(위치(t1), 방향(t1))

MTP_latency: (a) 이전 (t4 - t1)에 의해 주어진 예측된 MTP 지연 시간

PP_dataset(t1): 특정 시점에서의 미래의 포즈를 예측하는데 사용되는 t1 시점에서의 사용자 움직임을 기반으로 한 데이터 세트

- 위치의 경우: 단위 변환 방향 [방향 쿼터니언], 변환 속도

- 방향의 경우: 단위 회전 방향 [회전 쿼터니언], 회전 속도

도 6은 "포즈 예측기(pose predictor)(442)" 프로세싱 개체로 기술된 포즈 예측을 위한 장치 동작을 도시한다(이 동작을 수행하는 장치는 본 개시의 실시 예들에서 해당하는 도면의 시나리오에 따라 상이할 수 있다).

도 6의 포즈 예측기(442)에서 서브-블록으로 포함된 t 예측기(442a)와 P(t) 예측기(442b)의 기능과 동작이 아래에 설명된다.

t 예측기(predictor)

t 예측기(442a)는 AR 글래스에서 렌더링될 프레임이 디스플레이될 시간을 예측하기 위해 t1 및 MTP_latency (및 임의의 기타 변형 요인들)를 입력으로 취한다. t1과 MTP_latency는 모두 실제 3D 렌더링 프로세스 이전에 전송된 데이터이므로, 포즈 예측 및 3D 렌더링을 수행하는 장치(예컨대, UE 또는 MEC)에 의한, 또는 로드 상태들을 처리하는 기타 장치에 의한, 추가 처리 지연 시간들이 고려될 수 있다(UE/MEC 프로세싱 지연 시간의 차이, 예를 들어 3D 렌더링으로 인해 가능한 요인들의 변동이 존재할 수 있으며, 이에 대해 지연 시간은 미디어 특성에 따라 달라질 수 있음).

상기 t 예측기(442a)는 다음 <수학식 1>에 따라서 예측된 표시 시점 t4'를 출력한다.

<수학식 1>

P(t) 예측기

P(t) 예측기(442b)는 상기한 t 예측기(442a)의 출력에서 t4'에 따라 AR 글래스 상에 디스플레이(렌더링)될 프레임에 대하여 포즈를 예측하기 위해 t1, t4', P(t1) 및 PP_dataset(t1)(시간 t1에서 취한 포즈 모션 벡터)를 입력으로 취한다.

도 6에서 상기 P(t) 예측기(442b)는 상기 동작에 따라서 아래 <수학식 2>와 같이 예측된 포즈 정보 P'(t4')를 출력한다:

<수학식 2>

상기 <수학식 2>에서

(위치) 및

(방향)의 계산 동작은 구현에 따라 다를 수 있으며, 예측된 포즈 정보에 대한 가드 볼륨(guard volumes) 또는 모션 벡터 드리프트 변동과 같은 기타 변동 요인들을 포함할 수 있다. 또 다른 방법은 모션 벡터를 사용하는 대신 자동 회귀(auto regression) 방법을 사용하여 포즈 정보 P'(t4')를 추정하는 것을 포함할 수 있다. 다른 예로서, 포즈 예측은 또한, 예를 들어, 3D(AR) 객체의 특성 및/또는 사용자의 관심 영역/방향/공간으로 인해 특정 방향에서 그것을 볼 것으로 예상되는 방식과 관련하여, 미디어 컨텍스트 기반일 수도 있다.

도 7은 본 개시의 실시 예에 따라 예측 뷰 선택을 위한 포즈 예측 뷰 선택 장치의 일 구성 예를 나타낸 도면이다.

도 7의 포즈 예측 뷰 선택 장치는 도 4의 예에서 포즈 예측 뷰 선택기(424)의 일 구성 예를 나타낸 것이며, 도 5의 예는 물론 본 개시의 다른 실시 예들에서 포즈 예측 뷰 선택기에도 동일/유사하게 적용될 수 있다.

도 7의 포즈 예측 뷰 선택기(424)는 min(

[t])(424a), min(

[P])(424b) 및 프레임 선택기(424c)를 포함하며, 관련 입력 파라미터를 설명하면 다음과 같다. 도 7의 예에서 프라임(')이 표시된 Frame(P'(t'))은 예측된 결과를 의미한다.

입력 파라미터

Frame(P(t1)): 시점 t1에서 포즈에 따라 렌더링 되는 (압축된) 프레임

Frame(P'(t4')): 예측된 시점 t2'에서 예측된 포즈에 따라 렌더링 되는 (압축된) 프레임

P(t4): 시점 t4에서의 실제 포즈

view_selection_metadata: 예측 뷰 선택에 대해 이용 가능한 프레임을 렌더링하는 데 사용되는 포즈 및 시간 정보가 포함된 데이터 세트

- 프레임(P(t1))에 대한 데이터 세트: t1, P(t1)

- 프레임(P'(t4'))에 대한 데이터 세트: t4', P'(t4')

도 7은 "포즈 예측 뷰 선택기(Pose predicted view selector)(424)" 프로세싱 개체로 기술된 예측 뷰 선택을 위한 장치 동작을 도시한다(이 동작을 수행하는 장치는 본 개시의 실시 예들에서 해당 도면에서의 시나리오에 따라 상이할 수 있다).

도 7의 포즈 예측 뷰 선택기(424)에서 서브-블록으로 포함된 min(

[t])(424a), min(

[P])(424b) 및 프레임 선택기(424c)의 기능과 동작이 아래에 설명된다.

min(

[t])

min(

[t])(424a)은 다음 <수학식 3>을 사용하여 상기 예측 시간(t4', t4" 등)과 실제 표시 시간 t4 사이의 오류 차이를 최소화한다.

<수학식 3>

상기 <수학식 3>에서 실제 표시 시간 t4와 예측 표시 시간 사이의 차이를 최소화한 예측 시간 t4', t4", t4'",... 등을 선택함으로써, 가장 정확한 예측 표시 시간을 획득하여 프레임 선택 중 시간에 민감한 애플리케이션들에 사용할 수 있다.

min(

[P])

min(

[P])(424b)은 다음 <수학식 4>를 사용하여 시간 t4에서의 실제 포즈와 렌더링된 프레임에 대한 예측된 시간에서의 예측된 포즈 간의 오류 차이를 최소화한다.

<수학식 4>

다른 예로 예측된 표시 시간에 예측된 포즈 정보만 사용하는 대신, 다른 처리 시간에 업데이트/추정/예측된 포즈 정보(P(position/orientation(t2)와 같은)도 최소화 함수에서 고려될 수 있다.

프레임 선택기(frame selector)

프레임 선택기(424c)는 상기 min(

[t])(424a), 상기 min(

[P])(424b)에서 출력된 최소화 오류의 조합을 기반으로 가장 정확한 렌더링 뷰를 선택하여 포즈 예측 뷰로 출력한다. 상기 프레임 선택기(424c)의 출력은 포즈 예측 뷰 선택기(424)의 아래 출력으로 사용된다.

출력: 프레임(P(t1)) 또는 프레임(P'(t4')) 또는 프레임(P'(t4'')) 또는 프레임(P'(t2))...

도 6의 예에서 설명한 상기 포즈 예측기(442)는 도 4의 예와 같이 단말 내 포함되거나 혹은 도 8의 예와 같이 AR 글래스에 포함될 수 있다.

도 8은 본 개시의 다른 실시 예에 따른 XR/AR을 지원하는 통신 시스템에서 지연 보상 포즈 예측(LCPP)을 이용한 분할 렌더링을 설명하기 위한 도면이다. 도 8의 예는 다수의 포즈 예측 뷰들이 UE에서 렌더링되는 경우를 예시한 것이다.

도 8을 참조하면, 미디어 서버(860)로부터 3D 미디어 데이터인 AR 데이터가 제공되는 통신 환경에서 두 장치들(820, 840) 간에 분할 렌더링이 수행되는 구성이 예시된다. 도 8에서 장치(820)는 AR 글래스가 될 수 있으며, 장치(840)는 UE가 될 수 있다. 장치들(820, 840) 간에는 AR 데이터에 대한 분할 렌더링이 수행된다. 도 8의 AR 글래스(820)은 포즈 예측기(821), 시각 엔진(822), 렌더러 및 디스플레이(823), 2D 디코더(824) 및 포즈 예측 뷰 선택기(825)를 포함하고, UE(840)는 포즈 정보 파서(841), 3D 미디어 디코더(842), 3D 렌더러(843), 2D 인코더 및 패킷화기(844)를 포함한다. 도 4는 포즈 예측기(442)가 UE(440)에 포함되는 구성을 예시한 것이고, 도 8은 포즈 예측기(821)가 AR 글래스(820)에 포함되는 구성을 예시한 것이다.

도 8의 예는 상대적으로 높은 처리 능력이 요구되는 3D 미디어 데이터에 대한 렌더링이 UE(840)에서 수행되고, 상대적으로 낮은 처리 능력이 요구되는 2D 미디어 데이터에 대한 렌더링이 AR 글래스(820)에서 수행되는 분할 렌더링을 위한 구성의 일 예를 나타낸 것이다. AR 글래스(820)은 테더링(tethering)을 통해 UE(840)에 연결되어 UE(840)에 의해 분할 렌더링된 미디어 데이터를 수신할 수 있다.

도 8의 예에서 UE(840)는 미디어 서버(860)로부터 3D 미디어 데이터를 다운로드하여 AR 글래스(820)에 제공한다. 그리고 UE(840)와 AR 글래스(820) 간에 분할 렌더링이 수행되고, 포즈 예측은 다수의 포즈들에 대한 예측이 수행될 수 있으며, AR 글래스(820)에서 수행된다. 그리고 다수의 포즈들에 대한 예측에 의해 다수의 포즈 예측 뷰들이 UE(840)에서 렌더링될 수 있다.

도 8의 예에서 분할 렌더링이 수행되는 구체적인 동작을 설명하면 아래 동작 801 내지 809와 같다.

801. UE(840)은 미디어 서버(860)로부터 3D 미디어 데이터를 다운로드한다. 상기 3D 미디어 데이터는 스트리밍 서비스 혹은 다운로드 서비스를 통해 제공될 수 있다.

802. AR 글래스(820)의 포즈 예측기(821)는 상기한 사용자의 포즈 정보 P(t1), 포즈 예측 데이터 세트 PP_dataset(t1) 및 MTP 지연 정보 MTP_latency 중 적어도 하나를 사용하여 도 6의 예에서 설명한 포즈 예측을 수행한다.

803. AR 글래스(820)은 사용자의 포즈 정보 P(t1) 및 다수의 예측된 포즈 정보 P'(t4')... 등을 UE(840)로 전송하고, UE(840)의 포즈 정보 파서(841)는 AR 글래스(820)의 포즈 예측기(821)로부터 수신한 정보를 파싱한다.

804. UE(840) 의 3D 미디어 디코더(842)는 미디어 서버(860)로부터 수신한 3D 미디어 데이터를 디패킷화 및 디코딩하고, 이어서 UE(840)의 3D 렌더러(843)는 상기 동작 803에서 수신하여 파싱된 예측된 포즈 정보를 근거로 다수의 2D 뷰 비디오 프레임을 렌더링한다.

805. UE(840)의 2D 인코더 및 패킷화기(844)는 상기 동작 804에서 렌더링된 뷰를 2D 코덱을 이용하여 인코딩하고 패킷화한다.

806. UE(840)는 압축된 미디어 패킷 및 뷰 선택 메타데이터를 AR 글래스(820)으로 전송한다.

807. AR 글래스(820)의 포즈 예측 뷰 선택기(825)는 뷰 선택 메타데이터를 처리하여 도 7의 예에서 설명한 것처럼 포즈 예측 뷰(렌더링 뷰 프레임)를 선택한다.

808. AR 글래스(820)의 2D 디코더(824)는 상기 동작 807에서 선택된 렌더링 뷰 프레임을 디패킷화 및 디코딩한다.

809. AR 글래스(820)의 렌더러 및 디스플레이(422)는 최신의 포즈 정보 @ t4를 활용하여 가능한 모든 혹은 적어도 일부의 렌더링 뷰 프레임 오류 불일치를 보상한다(예컨대, 영상 처리 기술에서 알려진 타임워핑(timewarping), 이후 단계 재투영(late stage reprojection)을 이용할 수 있다).

한편, 실시예에 따라서는, 상기한 도 8의 예에서 설명한 동작 801 내지 809 중 일부 동작이 생략될 수 있고, 기타 필요한 다른 동작이 추가될 수도 있다. 또한, 상술한 procedure의 동작들의 수행 순서와 다른 순서로 각 동작이 수행될 수도 있다.

도 6의 예에서 설명한 상기 포즈 예측기(442)는 도 4의 예와 같이 단말 내 포함되거나 혹은 도 9의 예와 같이 AR 글래스에 포함될 수 있다.

도 9는 본 개시의 또 다른 실시 예에 따른 XR/AR을 지원하는 통신 시스템에서 지연 보상 포즈 예측(LCPP)을 이용한 분할 렌더링을 설명하기 위한 도면이다. 도 9의 예는 단일의 포즈 예측 뷰가 UE에서 렌더링되는 경우를 예시한 것이다.

도 9를 참조하면, 미디어 서버(960)로부터 3D 미디어 데이터인 AR 데이터가 제공되는 통신 환경에서 두 장치들(920, 940) 간에 분할 렌더링이 수행되는 구성이 예시된다. 도 9에서 장치(920)는 AR 글래스가 될 수 있으며, 장치(940)는 UE가 될 수 있다. 장치들(920, 940) 간에는 AR 데이터에 대한 분할 렌더링이 수행된다. 도 9의 AR 글래스(920)은 포즈 예측기(921), 시각 엔진(922), 렌더러 및 디스플레이(923), 2D 디코더(924)를 포함하고, UE(940)는 포즈 정보 파서(941), 3D 미디어 디코더(942), 3D 렌더러(943), 2D 인코더 및 패킷화기(944)를 포함한다. 도 9의 예에서는 UE(940)에서 단일의 포즈 예측 뷰가 렌더링되므로 AR 글래스(920)에서는 도 8의 예와 같은 포즈 예측 뷰 선택기(825)는 요구되지 않는다.

도 9의 예에서 UE(940)는 미디어 서버(960)로부터 3D 미디어 데이터를 다운로드하여 AR 글래스(920)에 제공한다. 그리고 UE(940)와 AR 글래스(920) 간에 분할 렌더링이 수행되고, 포즈 예측은 단일의 포즈에 대한 예측이 수행될 수 있으며, AR 글래스(920)에서 수행된다. 그리고 단일의 포즈에 대한 예측에 의해 단일의 포즈 예측 뷰가 UE(940)에서 렌더링될 수 있다.

도 9의 예에서 분할 렌더링이 수행되는 구체적인 동작을 설명하면 아래 동작 901 내지 909와 같다.

901. UE(920)은 미디어 서버(960)로부터 3D 미디어 데이터를 다운로드한다. 상기 3D 미디어 데이터는 스트리밍 서비스 혹은 다운로드 서비스를 통해 제공될 수 있다.

902. AR 글래스(920)의 포즈 예측기(821)는 상기한 사용자의 포즈 정보 P(t1), 포즈 예측 데이터 세트 PP_dataset(t1) 및 MTP 지연 정보 MTP_latency 중 적어도 하나를 사용하여 도 6의 예에서 설명한 포즈 예측을 수행한다.

903. AR 글래스(920)은 단일의 예측된 포즈 정보 P'(t4')를 UE(940)로 전송하고, UE(940)의 포즈 정보 파서(941)는 AR 글래스(920)의 포즈 예측기(921)로부터 수신한 정보를 파싱한다.

904. UE(940)의 3D 미디어 디코더(942)는 미디어 서버(960)로부터 수신한 3D 미디어 데이터를 디패킷화 및 디코딩하고, 이어서 UE(940)의 3D 렌더러(943)는 상기 동작 903에서 수신하여 파싱된 단말의 예측된 포즈 P'(t4')를 근거로 단일의 2D 뷰 비디오 프레임을 렌더링한다.

905. UE(940)의 2D 인코더 및 패킷화기(944)는 상기 동작 804에서 렌더링된 단일의 뷰를 2D 코덱을 이용하여 인코딩 및 패킷화한다.

906. UE(940)는 압축된 미디어 패킷을 AR 글래스로 전송한다.

907. AR 글래스(920)의 2D 디코더(824)는 UE(940)로부터 수신한 렌더링된 단일의 뷰 프레임을 디패킷화 및 디코딩한다.

908. AR 글래스(920)의 렌더러 및 디스플레이(422)는 최신의 포즈 정보 @ t4를 활용하여 가능한 모든 혹은 적어도 일부의 렌더링 뷰 프레임 오류 불일치를 보상한다(예컨대, 영상 처리 기술에서 알려진 타임워핑, 이후 단계 재투영을 이용할 수 있다).

한편, 실시예에 따라서는, 상기한 도 8의 예에서 설명한 동작 901 내지 909 중 일부 동작이 생략될 수 있고, 기타 필요한 다른 동작이 추가될 수도 있다. 또한, 상술한 procedure의 동작들의 수행 순서와 다른 순서로 각 동작이 수행될 수도 있다.

본 개시에서 지연 보상 포즈 예측(LCPP)을 이용한 원격 렌더링을 설명한 도 5의 예의 다른 실시 예로, 다수의 예측 뷰를 전송하는 대역폭 중복을 피하기 위하여(단지 하나의 최적 뷰가 선택되기 때문에) 디스플레이와 3D 렌더링 개체들(예를 들어 하기 도 10의 예에 도시된 AR 글래스 및 MEC) 간에 추가의 왕복(roundtrip) 요청이 수행될 수 있다.

도 10은 본 개시의 다른 실시 예에 따른 XR/AR을 지원하는 통신 시스템에서 지연 보상 포즈 예측(LCPP)을 이용한 원격 렌더링을 설명하기 위한 도면이다.

도 10을 참조하면, 미디어 서버(1060)로부터 3D 미디어 데이터인 AR 데이터가 제공되는 통신 환경에서 두 장치들(1020, 1040) 간에 원격 렌더링이 수행되는 구성이 예시된다. 도 10에서 장치(1020)는 AR 글래스를 이용하는 UE 혹은 AR 글래스가 될 수 있으며, 장치(1040)는 MEC가 될 수 있다. 장치들(1020, 1040) 간에는 AR 데이터에 대한 원격 렌더링이 수행된다. 도 10의 AR 글래스(1020)은 시각 엔진(1021), 렌더러 및 디스플레이(1022), 2D 디코더(1023) 및 포즈 예측 뷰 선택기(1024)를 포함하고, MEC(1040)는 포즈 정보 파서(1041), 포즈 예측기(1042), 3D 미디어 디코더(1043), 3D 렌더러(1044), 2D 인코더 및 패킷화기(1045)를 포함한다. 도 10의 예는 상대적으로 높은 처리 능력이 요구되는 3D 미디어 데이터에 대한 렌더링이 MEC(1040)에서 수행되고, 상대적으로 낮은 처리 능력이 요구되는 2D 미디어 데이터에 대한 렌더링이 UE 혹은 AR 글래스(1020)에서 수행되는 원격 렌더링을 위한 구성의 일 예를 나타낸 것이다. 상기 AR 글래스를 이용하는 UE 혹은 AR 글래스(1020)(이하, 편의상 AR 글래스(1020)으로 칭하기로 한다.)은 MEC(1040)에 통신 연결되어 MEC(1040)에 의해 원격 렌더링된 미디어 데이터를 수신할 수 있다.

도 10의 예에서 MEC(1040)는 미디어 서버(1060)로부터 3D 미디어 데이터를 수집하고, 수집된 3D 미디어 데이터를 원격으로 렌더링하여 AR 글래스(1020)에게 제공한다. 상기 AR 글래스(1020)과 MEC(1040) 간에 원격 렌더링이 수행되고, 포즈 예측은 MEC(1040)에서 수행된다.

도 10의 예에서 원격 렌더링이 수행되는 구체적인 동작을 설명하면 아래 동작 1001 내지 1011과 같다.

1001. MEC(1040)는 미디어 서버(1060)로부터 미디어 데이터를 수집한다.

1002. AR 글래스(1020)은 사용자의 포즈 정보 P(t1)(시점 t1의 포즈 정보), PP_dataset(t1)(시점 t1에 대한 포즈 예측 데이터 세트) 및 MTP 지연 정보 MTP_latency(예를 들어 이전의 MTP 지연 시간의 평균 등을 사용하여 계산된 MTP 지연 시간) 중 적어도 하나를 MEC(1040)로 전송한다. MEC(1040)의 포즈 정보 파서(1041)는 AR 글래스(1020)의 시각 엔진(1021)으로부터 수신한 상기 포즈 정보, 상기 포즈 예측 데이터 세트 및 상기 MTP 지연 정보 중 적어도 하나를 파싱한다.

1003. MEC(1040)의 포즈 예측기(1042)는 상기 P(t1), PP_dataset(t1) 및 MTP_latency 중 적어도 하나를 사용하여 포즈 예측을 수행하여 예를 들어 다수의 예측된 포즈 정보를 출력한다.

1004. MEC(1040)의 3D 미디어 디코더(1043)는 미디어 서버(1060)로부터 수신한 3D 미디어 데이터를 (디패킷화 및) 디코딩하고, 이어서 MEC(1040)의 3D 렌더러(1044)는 상기 동작 1003에서 상기 예측된 포즈 정보를 근거로 다수의 2D 뷰 비디오 프레임을 렌더링한다.

1005. MEC(1040)의 2D 인코더 및 패킷화기(1045)는 상기 동작 1004에서 렌더링된 뷰를 2D 코덱을 이용하여 인코딩 및 패킷화한다.

1006. MEC(1040)는 AR 글래스(1020)에 뷰 선택 메타데이터 제안을 전송한다.

1007. AR 글래스(1020)의 포즈 예측 뷰 선택기(524)는 MEC(1040)로부터 수신한 뷰 선택 메타데이터를 처리하여 포즈 예측 뷰를 선택한다.

1008. AR 글래스(1020)은 상기 선택된 뷰의 요청을 포함하는 뷰 선택 메타데이터 응답을 MEC(1040)에 전송한다.

1009. MEC(1040)는 AR(1020)으로부터 수신된 뷰 선택 메타데이터 응답을 근거로 상기 선택된 뷰(렌더링 뷰 프레임)을 포함하는 압축된 미디어 패킷을 AR 글래스(1020)으로 전송한다.

1010. AR 글래스(1020)의 2D 디코더(1023)는 상기 동작 1009에서 수신된 렌더링 뷰 프레임을 디패킷화 및 디코딩 한다.

1011. AR 글래스(1020)의 렌더러 및 디스플레이(1022)는 최신의 포즈 정보를 활용하여 가능한 모든 혹은 적어도 일부의 MEC 렌더링 뷰 프레임 오류 불일치에 대해 보상한다(예컨대, 영상 처리 기술에서 알려진 타임워핑, 이후 단계 재투영을 이용할 수 있다).

한편, 실시예에 따라서는, 상기한 도 10의 예에서 설명한 동작 1001 내지 1011 중 일부 동작이 생략될 수 있고, 기타 필요한 다른 동작이 추가될 수도 있다. 또한, 상술한 procedure의 동작들의 수행 순서와 다른 순서로 각 동작이 수행될 수도 있다.

도 11은 본 개시의 일 실시예에 따른 AR 글래스의 구성을 도시한 도면이다. 또한 도 10의 구성은 VR 장치 혹은 3D 미디어 데이터를 디스플레이할 수 있는 다양한 장치가 될 수 있다.

도 11을 참고하면, AR 글래스는 송수신부 (1110), 제어부 (1120), 저장부 (1130) 및 디스플레이부(1140)을 포함할 수 있다. 본 개시에서 제어부(1120)는, 회로 또는 어플리케이션 특정 통합 회로 또는 적어도 하나의 프로세서라고 정의될 수 있다. 송수신부(1110)는 다른 네트워크 엔티티와 신호를 무선/유선 통신을 통해 송수신할 수 있다. 송수신부(1110)는 예를 들어, 미디어 서버, 기타 전자 장치 및/또는 MEC와 XR/AR 데이터를 송수신할 수 있다. 상기 송수신부(1110)은 송수신기(transceiver)로 칭해질 수 있다.

제어부(1120)는 본 개시에서 제안하는 도 1 내지 도 10의 실시예들의 각각 혹은 적어도 하나의 실시 예의 결합에 따라 AR 글래스의 전반적인 동작을 제어할 수 있다. 예를 들어, 제어부(1120)는 도 1 내지 10의 실시 예들에서 기술한 동작을 수행하도록 각 블록 간 신호 흐름을 제어할 수 있다. 구체적으로, 제어부(1120)는 본 개시의 실시예에 따른 지연시간 보상 포즈 예측(LCPP)를 사용한 원격/분할 렌더링을 위한 동작을 제어할 수 있다.

저장부(1130)는 상기 송수신부(1110)를 통해 송수신되는 정보 및 제어부(1120)를 통해 생성되는/처리되는 정보 중 적어도 하나를 저장할 수 있다. 예를 들어, 저장부(1130)는 지연시간 보상 포즈 예측(LCPP)를 사용한 원격/분할 렌더링을 위한 동작을 위해 사용되는 정보를 저장할 수 있다.

디스플레이부(1140)는 상기 송수신부(1110)를 통해 송수신되는 정보 및 제어부(1120)를 통해 생성되는/처리되는 정보 중 적어도 하나를 디스플레이할 수 있다. 예를 들면, 디스플레이부(1140)는 XR/AR 데이터를 디스플레이할 수 있다.

도 12는 본 개시의 일 실시예에 따른 전자 장치의 구조를 도시한 도면이다. 도 11의 실시예에서, 전자 장치는 상기 AR/XR 글래스와 연결된, UE(예를 들어 스마트 폰, 모바일 폰 등)일 수 있다.

도 12를 참고하면, 전자 장치는 송수신부 (1210), 제어부 (1220) 및 저장부 (1230)를 포함할 수 있다. 본 개시에서 제어부(1220)는, 회로 또는 어플리케이션 특정 통합 회로 또는 적어도 하나의 프로세서라고 정의될 수 있다.

송수신부(1210)는 다른 네트워크 엔티티와 신호를 송수신할 수 있다. 송수신부(1210)는 예를 들어, 미디어 서버, 기타 전자 장치 및/또는 MEC와 XR/AR 데이터를 송수신할 수 있다. 상기 송수신부(1210)은 송수신기(transceiver)로 칭해질 수 있다.

제어부(1220)는 본 개시에서 제안하는 도 1 내지 도 10의 실시예들의 각각 혹은 적어도 하나의 실시 예의 결합에 따라 전자 장치의 전반적인 동작을 제어할 수 있다. 예를 들어, 제어부(1220)는 도 1 내지 10의 실시 예들에서 기술한 동작을 수행하도록 각 블록 간 신호 흐름을 제어할 수 있다. 구체적으로, 제어부(1220)는 본 개시의 실시예에 따른 지연시간 보상 포즈 예측(LCPP)를 사용한 원격/분할 렌더링을 위한 동작을 제어할 수 있다.

저장부(1230)는 상기 송수신부(1210)를 통해 송수신되는 정보 및 제어부(1220)를 통해 생성되는/처리되는 정보 중 적어도 하나를 저장할 수 있다. 예를 들어, 저장부(1230)는 지연시간 보상 포즈 예측(LCPP)를 사용한 원격/분할 렌더링을 위한 동작을 위해 사용되는 정보를 저장할 수 있다.

도 13은 본 개시의 일 실시예에 따른 원격 렌더러(remote renderer)의 구성을 도시한 도면이다. 도 13의 실시예에서, 원격 렌더러는 상기 AR/XR 글래스 혹은 상기 UE와 통신 연결된, MEC 등일 수 있다. 또한 도 13의 원격 렌더러는 예를 들어 네트워크에 연결된 서버일 수 있다.

도 13을 참고하면, 상기 원격 렌더러는 송수신부 (1310), 제어부 (1320) 및 저장부 (1330)를 포함할 수 있다. 본 개시에서 제어부(1320는, 회로 또는 어플리케이션 특정 통합 회로 또는 적어도 하나의 프로세서라고 정의될 수 있다.

송수신부(1310)는 다른 네트워크 엔티티와 신호를 송수신할 수 있다. 송수신부(1310)는 예를 들어, 미디어 서버, 기타 전자 장치 및/또는 AR 글래스와 XR/AR 데이터를 송수신할 수 있다. 상기 송수신부(1110)은 송수신기(transceiver)로 칭해질 수 있다.

제어부(1320)는 본 개시에서 제안하는 도 1 내지 도 10의 실시예들의 각각 혹은 적어도 하나의 실시 예의 결합에 따라 원격 렌더러의 전반적인 동작을 제어할 수 있다. 예를 들어, 제어부(1320)는 도 1 내지 10의 실시 예들에서 기술한 동작을 수행하도록 각 블록 간 신호 흐름을 제어할 수 있다. 구체적으로, 제어부(1320)는 본 개시의 실시예에 따른 지연시간 보상 포즈 예측(LCPP)를 사용한 원격 렌더링을 위한 동작을 제어할 수 있다.

저장부(1330)는 상기 송수신부(1310)를 통해 송수신되는 정보 및 제어부(1320)을 통해 생성되는/처리되는 정보 중 적어도 하나를 저장할 수 있다. 예를 들어, 저장부(1330)는 지연시간 보상 포즈 예측(LCPP)를 사용한 원격 렌더링을 위한 동작을 위해 사용되는 정보를 저장할 수 있다.

그리고 본 개시에서 미디어 서버는 상기 도 13의 예와 같이 송수신부, 제어부, 저장부를 포함하는 장치 구성을 가질 수 있으며, 네트워크를 통해 UE 혹은 MEC에게 AR 데이터와 같은 3D 미디어 데이터를 제공하는 서버 장치로 구현될 수 있다.

한편, 본 명세서와 도면에 개시된 본 개시의 실시 예들은 본 개시의 기술 내용을 쉽게 설명하고 본 개시의 이해를 돕기 위해 특정 예를 제시한 것일 뿐이며, 본 개시의 범위를 한정하고자 하는 것은 아니다. 즉 본 개시의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 개시의 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다. 또한 상기 각각의 실시 예는 필요에 따라 서로 조합되어 운용할 수 있다.

Claims

통신 시스템에서 미디어 서버로부터 3D 미디어 데이터를 수신하는 제1 장치가 렌더링을 수행하는 방법에 있어서,
AR(augmented reality) 글래스로부터 제1 시점의 포즈 정보를 포함한 포즈 예측 관련 정보를 수신하는 과정;
상기 포즈 예측 관련 정보를 근거로, 상기 AR 글래스에서 2D 렌더링이 수행될 제2 시점의 포즈 예측을 수행하는 과정;
상기 제2 시점의 하나 또는 복수의 예측된 포즈 정보를 근거로, 상기 수신한 3D 미디어 데이터에 대해 하나 또는 복수의 2D 포즈 예측 렌더링 뷰를 렌더링하는 과정;
상기 하나 또는 복수의 2D 포즈 예측 렌더링 뷰를 인코딩하여 압축된 2D 미디어 데이터를 상기 AR 글래스로 송신하는 과정을 포함하는 방법.
제 1 항에 있어서,
상기 포즈 예측 관련 정보는 제1 시점의 포즈 정보, 상기 제1 시점의 포즈 예측 데이터 세트, MTP(motion to photon) 지연 정보 중 적어도 하나를 포함하는 방법.
제 1 항에 있어서,
상기 제1 시점의 상기 포즈 정보는 상기 제1 시점에서 사용자의 위치 및 방향을 나타내는 정보를 포함하며,
상기 제1 시점의 포즈 예측 데이터 세트는 상기 제2 시점에서 포즈를 예측하는데 사용되는 상기 제1 시점에서 상기 사용자의 움직임을 기반으로 한 단위 변환 방향과 변환 속도, 및 단위 회전 방향과 회전 속도를 나타내는 데이터를 포함하며,
상기 MTP 지연 정보는 상기 제2 시점과 상기 제1 시점 간의 시간 차에 의해 예측되는 MTP 지연 시간을 나타내며, 상기 MTP 지연 시간은 상기 사용자의 헤드의 움직임에 따라 변경되는 뷰가 상기 AR 글래스의 화면에 디스플레이 되기까지 걸리는 지연 시간을 의미하는 방법.
제 1 항에 있어서,
상기 렌더링하는 과정에서 상기 복수의 2D 포즈 예측 렌더링 뷰를 렌더링하는 경우, 상기 복수의 2D 포즈 예측 렌더링 뷰 중에서 뷰 선택을 위한 메타 데이터를 상기 AR 글래스로 송신하는 과정을 더 포함하는 방법.
제 1 항에 있어서,
상기 제1 장치가 상기 AR 글래스와 테더링을 통해 연결되는 단말인 경우, 상기 단말과 상기 AR 글래스 간에 상기 3D 미디어 데이터에 대한 분할 렌더링이 수행되며,
상기 제1 장치가 클라우드 네트워크에서 상기 3D 미디어 데이터를 수신하는 서버 장치인 경우, 상기 단말과 상기 서버 장치 간에 상기 3D 미디어 데이터에 대한 원격 렌더링이 수행되는 방법.
통신 시스템에서 미디어 서버로부터 3D 미디어 데이터를 수신하는 제1 장치와 통신 연결된 AR(augmented reality) 글래스가 렌더링을 수행하는 방법에 있어서,
상기 제1 장치에게 제1 시점의 포즈 정보를 포함한 포즈 예측 관련 정보를 송신하는 과정;
상기 제1 시점의 포즈 정보를 근거로, 상기 제1 장치로부터 상기 3D 미디어 데이터에 대해 하나 또는 복수의 2D 포즈 예측 렌더링 뷰를 포함하는 압축된 미디어 데이터를 수신하는 과정;
상기 하나 또는 복수의 2D 포즈 예측 렌더링 뷰 중 선택된 렌더링 뷰의 미디어 데이터를 디코딩하는 과정; 및
상기 선택된 렌더링 뷰가 상기 AR 글래스에서 2D 렌더링이 수행될 제2 시점의 포즈 정보를 근거로, 상기 선택된 렌더링 뷰의 프레임 오류 불일치를 보상하는 과정을 포함하며,
상기 하나 또는 복수의 2D 포즈 예측 렌더링 뷰는 상기 AR 글래스에서 2D 렌더링이 수행될 상기 제2 시점에 대해 포즈 예측된 것인 방법.
제 6 항에 있어서,
상기 포즈 예측 관련 정보는 제1 시점의 포즈 정보, 상기 제1 시점의 포즈 예측 데이터 세트, MTP(motion to photon) 지연 정보 중 적어도 하나를 포함하는 방법.
제 6 항에 있어서,
상기 제1 시점의 상기 포즈 정보는 상기 제1 시점에서 사용자의 위치 및 방향을 나타내는 정보를 포함하며,
상기 제1 시점의 포즈 예측 데이터 세트는 상기 제2 시점에서 포즈를 예측하는데 사용되는 상기 제1 시점에서 상기 사용자의 움직임을 기반으로 한 단위 변환 방향과 변환 속도, 및 단위 회전 방향과 회전 속도를 나타내는 데이터를 포함하며,
상기 MTP 지연 정보는 상기 제2 시점과 상기 제1 시점 간의 시간 차에 의해 예측되는 MTP 지연 시간을 나타내며, 상기 MTP 지연 시간은 상기 사용자의 헤드의 움직임에 따라 변경되는 뷰가 상기 AR 글래스의 화면에 디스플레이 되기까지 걸리는 지연 시간을 의미하는 방법.
제 6 항에 있어서,
상기 제1 장치로부터 상기 복수의 2D 포즈 예측 렌더링 뷰를 수신하는 경우, 상기 제1 장치로부터 상기 복수의 2D 포즈 예측 렌더링 뷰 중에서 뷰 선택을 위한 메타 데이터를 수신하는 과정을 더 포함하는 방법.
제 9 항에 있어서,
상기 수신한 메타데이터를 근거로, 상기 제2 시점에서의 실제 포즈와 상기 제2 시점에서 예측된 포즈 간의 오류 차이를 최소화하는 렌더링 뷰를 선택하는 과정을 더 포함하며,
상기 메타데이터는 상기 렌더링 뷰를 선택하는데 이용되는 포즈 정보 및 시간 정보를 포함하는 방법.
통신 시스템에서 미디어 서버로부터 3D 미디어 데이터를 수신하는 제1 장치에 있어서,
송수신기; 및
상기 송수신기를 통해, AR(augmented reality) 글래스로부터 제1 시점의 포즈 정보를 포함한 포즈 예측 관련 정보를 수신하고,
상기 포즈 예측 관련 정보를 근거로, 상기 AR 글래스에서 2D 렌더링이 수행될 제2 시점의 포즈 예측을 수행하며,
상기 제2 시점의 하나 또는 복수의 예측된 포즈 정보를 근거로, 상기 수신한 3D 미디어 데이터에 대해 하나 또는 복수의 2D 포즈 예측 렌더링 뷰를 렌더링하고,
상기 송수신기를 통해, 상기 하나 또는 복수의 2D 포즈 예측 렌더링 뷰를 인코딩하여 압축된 2D 미디어 데이터를 상기 AR 글래스로 송신하도록 구성된 프로세서를 포함하는 제1 장치.
제 11 항에 있어서,
상기 포즈 예측 관련 정보는 제1 시점의 포즈 정보, 상기 제1 시점의 포즈 예측 데이터 세트, MTP(motion to photon) 지연 정보 중 적어도 하나를 포함하는 제1 장치.
제 11 항에 있어서,
상기 프로세서는, 상기 송수신기를 통해, 상기 복수의 2D 포즈 예측 렌더링 뷰를 렌더링하는 경우, 상기 복수의 2D 포즈 예측 렌더링 뷰 중에서 뷰 선택을 위한 메타 데이터를 상기 AR 글래스로 송신하도록 더 구성된 제1 장치.
제 11 항에 있어서,
상기 제1 장치가 상기 AR 글래스와 테더링을 통해 연결되는 단말인 경우, 상기 단말과 상기 AR 글래스 간에 상기 3D 미디어 데이터에 대한 분할 렌더링이 수행되며, 상기 제1 장치가 클라우드 네트워크에서 상기 3D 미디어 데이터를 수신하는 서버 장치인 경우, 상기 단말과 상기 서버 장치 간에 상기 3D 미디어 데이터에 대한 원격 렌더링이 수행되는 제1 장치.
통신 시스템에서 미디어 서버로부터 3D 미디어 데이터를 수신하는 제1 장치와 통신 연결된 AR(augmented reality) 글래스에 있어서,
송수신기; 및
상기 송수신기를 통해, 상기 제1 장치에게 제1 시점의 포즈 정보를 포함한 포즈 예측 관련 정보를 송신하고,
상기 제1 시점의 포즈 정보를 근거로, 상기 제1 장치로부터 상기 3D 미디어 데이터에 대해 하나 또는 복수의 2D 포즈 예측 렌더링 뷰를 포함하는 압축된 미디어 데이터를 상기 송수신기를 통해 수신하며,
상기 하나 또는 복수의 2D 포즈 예측 렌더링 뷰 중 선택된 렌더링 뷰의 미디어 데이터를 디코딩하고,
상기 선택된 렌더링 뷰가 상기 AR 글래스에서 2D 렌더링이 수행될 제2 시점의 포즈 정보를 근거로, 상기 선택된 렌더링 뷰의 프레임 오류 불일치를 보상하도록 구성되며,
상기 하나 또는 복수의 2D 포즈 예측 렌더링 뷰는 상기 AR 글래스에서 2D 렌더링이 수행될 상기 제2 시점에 대해 포즈 예측된 것인 AR 글래스.