KR20220117288A

KR20220117288A - 볼류메트릭 비디오 객체의 뷰를 이용한 실제 환경의 뷰 증강

Info

Publication number: KR20220117288A
Application number: KR1020227024537A
Authority: KR
Inventors: 코넬리우스 헬게; 토마스 쉬를; 피터 아이서트; 안나 힐스먼; 로버트 스쿠핀; 야고 산체스; 장우 손; 거딥 싱 불러; 세르한 귈; 디미트리 포드보르스키
Original assignee: 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우
Priority date: 2019-12-16
Filing date: 2020-12-15
Publication date: 2022-08-23
Also published as: WO2021122529A1; US20230008125A1; EP4078533A1

Abstract

본 발명은 사용자 장치(10)의 볼류메트릭 비디오 객체(5)의 뷰(4)를 이용한 실제 환경(3)의 뷰(2) 증강 방법에 관한 발명이다. 상기 방법은 상기 실제 환경(3)의 상기 뷰(2)의 현재 포즈와 상기 실제 환경(3)의 상기 볼류메트릭 비디오 객체(5)의 희망 포즈를 나타내는 현재 포즈 정보(CPI)를 결정하는 단계를 포함한다. 상기 방법은 상기 현재 포즈 정보(CPI)를 원격 서버(20)로 전송하는 단계를 더 포함한다. 상기 방법은 상기 원격 서버(20)로부터 상기 현재 포즈 정보(CPI)에 따라 렌더링된 상기 볼류메트릭 비디오 객체(5)의 뷰(4)를 수신하는 단계를 더 포함한다. 상기 방법은 적어도 상기 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)를 상기 볼류메트릭 비디오 객체(5)의 희망 위치에 따라 배열된 평면 매핑 표면(6, 6’)에 매핑함으로써 상기 실제 환경(3)의 상기 뷰(2)를 증강하는 단계(S1-4)를 더 포함한다.

Description

볼류메트릭 비디오 객체의 뷰를 이용한 실제 환경의 뷰 증강

본 발명은 사용자 장치 뿐만 아니라 사용자 장치 상의 볼류메트릭 비디오 객체의 뷰를 이용하여 실제 환경의 뷰를 증강하는 방법에 관한 것이다. 본 발명은 또한 원격 서버 및 원격 서버 상의 실제 환경의 뷰를 증강하기 위한 볼류메트릭 비디오 객체의 뷰를 렌더링하는 방법에 관한 것이다. 본 발명은 또한 볼류메트릭 비디오 객체의 뷰를 이용하여 실제 환경의 뷰를 증강하기 위한 방법 및 시스템에 관한 것이다.

1. AR 프레임워크 (사용자 장치):

Microsoft HoloLens(S. Karthika et al., "HoloLens", International Journal of Computer Science and Mobile Computing(IJCSMC), Vol. 6, No. 2, 41~50페이지 참조, 2017년 2월), Google ARCore(https://developers.google.com/ar 참조), Apple ARKit(https://developer.apple.com/augmented-reality 참조)와 같은 AR(증강 현실) 프레임워크는 사용자에게 실제 환경의 공간 인식 기능을 제공할 수 있다. HoloLens 공간 인식 시스템에서는 환경의 형상에 대한 표현이 제공된다(예: 메쉬 컬렉션으로 표현될 수 있다). 이를 통해 현실 세계와 가상 객체 간의 강력한 상호 작용이 가능하다.

2. 볼류메트릭 비디오 객체:

볼류메트릭 비디오의 주요 아이디어는 움직이는 사람과 같은 움직이는 장면을 모든 방향에서 여러 대의 카메라로 캡처하고 캡처된 이미지에서 장면의 동적 3D 모델을 재구성하는 것이다. 예를 들어, 독일 포츠담-바벨스베르그에 있는 Volucap 스튜디오는 장면 주변에서 스테레오 시스템으로 배열된 32대의 카메라를 사용한다(O. Schreer et al., "Advanced volumetric capture and processing", Proceedings of International Broadcast Conference(IBC), 네덜란드 암스테르담, 2018년 9월). 빠르고 강력한 깊이 추정 기법이 각 스테레오 쌍에 적용되어 각 개별 픽셀에 대한 깊이 정보를 높은 정확도로 생성한다. 그런 다음 초기 카메라 보정 및 관련 3D 융합 프로세스의 데이터를 사용하여 16개의 모든 스테레오 쌍의 깊이 정보를 병합한다. 이 융합 프로세스의 결과는 다양한 포스트 프로덕션 단계에서 처리될 수 있는 3D 포인트 클라우드이다. 이러한 3D 포인트 클라우드의 포스트프로덕션은 3D 포인트 클라우드를 메쉬로 변환하는 메싱 단계, 메쉬 내 삼각형의 수를 줄여 메쉬를 단순화하는 단계, 메쉬를 텍스처링하는 단계를 포함할 수 있다. 캡처된 장면의 텍스처와 시간적 메쉬 시퀀스에서 위상적인 일관성을 설정하기 위한 메쉬 추적 단계가 포함될 수 있다.

3. 볼류메트릭 비디오 객체의 압축 및 배포:

볼류메트릭 비디오가 네트워크를 통해 클라이언트로 스트리밍되기 전에 해당 메쉬와 텍스처를 적절한 크기로 압축해야 한다. 이를 위해 볼류메트릭 비디오의 원시 데이터(즉, 메쉬 및 텍스처)는 서로 독립적으로 인코딩될 수 있다. 한 가지 가능한 실시예에서, 텍스처는 H.264/AVC로 인코딩된다. 이는 모바일 장치에서 비교적 가벼운 디코딩과 폭넓은 지원 때문이다. 텍스처 인코딩에 특히 적합한 H.265/HEVC로의 확장도 미래에 예상된다. 이는 동일한 수준의 품질을 유지하면서 압축된 스트림에 대한 추가 데이터 속도 감소로 이어질 것으로 예상된다.

또한 Corto, Draco, Open3DGC 등과 같은 메쉬 인코딩 프로세스에 다양한 압축 방법을 적용할 수 있다. (“Benchmarking open-source static 3D mesh codecs for immersive media interactive live streaming”, IEEE Journal on Emerging and Selected Topics in Circuits and Systems, Vol. 9, No. 1, 190-203페이지, 2019년). 더욱이, 오디오 신호는 표준 오디오 인코더로 인코딩될 수 있다. 마지막으로, 3개의 다른 기본 스트림(메쉬, 텍스처 맵, 오디오)은 네트워크를 통해 전송할 준비가 된 단일 공통 MP4 파일로 다중화될 수 있다. 수신기 측에서, Unity(https://unity.com 참조) 및/또는 Unreal(https://www.unrealengine.com)용 플러그인을 사용하면 볼류메트릭 비디오 자산을 대상 AR 또는 VR 애플리케이션에 쉽게 통합할 수 있다. 이러한 플러그인에는 디멀티플렉서와 관련 디코더가 포함되어 있으며 메쉬 시퀀스의 실시간 디코딩을 수행한다.

4. 볼류메트릭 비디오 객체를 최종 장치에 배포하기 위한 기술적 제한 사항:

현재, 볼류메트릭 비디오 객체를 사용자 장치에 배포하는 데에는 많은 기술적인 제한이 있다. 여기에는 최종 장치의 하드웨어 기능이 포함된다. 예를 들어, 볼류메트릭 비디오 디코딩은 현재 하드웨어로 완전히 수행할 수 없으며, 볼류메트릭 비디오 디코딩을 위한 특수 하드웨어가 모바일 장치에 통합되기까지 최소 몇 년은 더 걸릴 것으로 예상된다. 또한 모바일 하드웨어의 렌더링 기능은 현재 데스크톱 GPU(그래픽 처리 장치)에 비해 제한적이다. 단일 볼류메트릭 비디오 객체를 렌더링하는 것이 가능하지만 여러 객체가 있는 복잡한 장면을 렌더링하는 것은 여전히 매우 어렵다. 또한 이 문제는 가까운 시일 내에 중단되지 않을 것으로 예상된다. 다른 제한 사항은 비트 전송률과 관련이 있다. 단일 볼류메트릭 비디오 객체는 수십 Mbit/s를 소비할 수 있으므로 스트리밍하기가 매우 어렵다.

5. 사용자 장치 배포를 위한 솔루션:

이러한 문제를 고려하여, NVIDIA(CloudXR), UnityRenderStreaming 및 Unreal Pixel Streaming을 통해 AR 헤드셋으로 측정한 사용자 위치를 기반으로 클라우드에서 볼류메트릭 비디오를 렌더링한 다음 렌더링된 텍스처를 2D 비디오로 네트워크를 통해 사용자 장치에 전송하는 것이 제안되었다. (예: AR 헤드셋)(예: https://blogs.nvidia.com/blog/2019/10/22/nvi-diacloudxr 참조). 물론 이것은 네트워크에서 낮은 레이턴시를 필요로 한다.

6. 2D 비디오를 공간 3D AR 장면에 통합하는 것의 문제:

렌더링된 뷰가 최종적으로 사용자의 최종 장치에 전달되면 실제 3D 장면에 통합되어야 하는 간단한 2D 비디오를 나타낸다. 2D 비디오 자체에는 부피 확장에 대한 정보가 포함되어 있지 않지만 고품질 시청 경험을 보장하기 위해 실제 물체와의 오클루전 및 충돌이 가능해야 한다.

따라서, 사용자 장치 상의 볼류메트릭 비디오 객체의 뷰로 실제 환경의 뷰의 개선된 증강을 가능하게 하는 것이 바람직하다.

본 발명의 목적은 사용자 장치 상의 볼류메트릭 비디오 객체의 뷰로 실제 환경의 뷰를 증강하는 개선된 방법을 제공하는 것이다. 본 발명의 또 다른 목적은 원격 서버 상의 실제 환경의 뷰를 증강하기 위한 볼류메트릭 비디오 객체의 뷰를 렌더링하는 개선된 방법을 제공하는 것이다. 본 발명의 또 다른 목적은 대응하는 사용자 장치 및 원격 서버를 제공하는 것이다.

본 발명의 일 측면에 따르면, 사용자 장치 상의 볼류메트릭 비디오 객체의 뷰로 실제 환경의 뷰를 증강하는 방법이 제시되고, 이 방법은:

- 실제 환경의 뷰의 현재 포즈와 실제 환경의 볼류메트릭 비디오 객체의 희망 포즈를 나타내는 현재 포즈 정보를 결정하는 단계;

- 상기 현재 포즈 정보를 원격 서버로 전송하는 단계;

- 상기 원격 서버로부터 상기 현재 포즈 정보에 따라 상기 볼류메트릭 비디오 객체의 렌더링된 뷰를 수신하는 단계; 및

- 적어도 상기 볼류메트릭 비디오 객체의 렌더링된 뷰를 상기 볼류메트릭 비디오 객체의 희망 위치에 따라 배열된 평면 매핑 표면에 매핑함으로써 상기 실제 환경의 상기 뷰를 증강하는 단계;를 포함한다.

본 명세서에 사용된 용어 "볼류메트릭 비디오 객체"는 장면, 예를 들어 움직이는 사람의 동적 3D 모델을 지칭한다. 여기에는 모든 방향에서 여러 대의 카메라로 장면을 캡처하고 캡처된 이미지에서 동적 3D 모델을 재구성하여 생성된 3D 모델이 포함된다. 그러나 볼류메트릭 CGI 객체 등과 같은 가상 객체도 포함된다.

방법의 실시예들에서, 사용자 장치는 스마트폰, 태블릿과 같은 모바일 폰, 또는 헤드셋, 헬멧, 고글, 또는 안경과 같은 웨어러블 디바이스(본 명세서에서 헤드 마운트 디스플레이head-mounted display(HMD)로 지칭된다.)일 수 있다. 사용자 장치는 비디오, 깊이 또는 범위 정보, 조명 정보 등과 같은 실제 환경에 대한 정보를 수집하는 월드페이싱 센서를 포함할 수 있다. 실제 환경의 뷰는 예를 들어 일반 스마트폰의 모노스코픽 디스플레이에서 사용자의 양쪽 눈에 단일 뷰가 제공되는 모노스코프 뷰와 같은 2D 뷰, 또는 예를 들어 3D 스마트폰의 (자동)입체 디스플레이에서 사용자의 두 눈에 제공되는 두 개의 서로 다른 뷰인 입체 뷰와 같은 3D 뷰일 수 있다. 사용자 장치가 HMD인 경우, 실제 환경의 뷰는 또한 HMD의 적어도 하나의 디스플레이 상에 제공되는 3D 뷰, 예를 들어 입체 뷰일 수 있다. 대안적으로, HMD는 광학 투시 바이저(Visor) 등을 포함할 수 있고, 실제 환경의 뷰는 사용자가 바이저를 통해 인지하는 직접적이고 매개되지 않은 세상의 뷰일 수 있다.

일부 실시예에서, 센서는 실제 환경의 뷰를 사용자에게 제공하는 데 사용될 수 있는 세상의 고품질 뷰를 캡처하는 하나 이상의 카메라(예를 들어, RGB(가시광) 카메라)를 포함할 수 있다. 일부 실시예에서, 센서는 실제 환경의 깊이 또는 범위 정보를 캡처하는 하나 이상의 센서(예를 들어, IR 조명 소스가 있는 적외선(IR) 카메라, 또는 LIDAR(Light Detection and Ranging) 이미터 및 수신기/ 탐지기)를 포함할 수 있다. 일부 실시예에서, 센서는 예를 들어 실제 환경의 뷰의 내용을 렌더링(예를 들어, 채색 및/또는 조명)하는데 사용될 수 있는 실제 환경의 조명 정보(예를 들어, 방향, 색상, 강도)를 캡처하는 하나 이상의 카메라를 포함할 수 있다.

일부 실시예에서, 센서는 실제 환경에서 사용자 또는 사용자 장치의 위치, 방향 및/또는 움직임에 대한 정보를 캡처할 수 있는 하나 이상의 센서를 포함할 수 있다. 일부 실시예에서, 센서는 사용자의 눈의 움직임을 추적하는 하나 이상의 센서를 포함할 수 있다. 그 다음, 이 정보는 실제 환경의 뷰의 현재 포즈를 나타내는 현재 포즈 정보의 결정에 사용될 수 있다. 예를 들어, 사용자 장치가 광학 투시 바이저를 포함하는 HMD인 경우, 캡처된 깊이 또는 범위 정보는 예를 들어 메시의 모음과 같은 실제 환경의 기하학적 구조 및 현재 포즈를 나타내는 데 사용될 수 있고, 실제 환경의 뷰의 현재 포즈는 실제 환경의 기하학적 구조에 대한 사용자의 현재 위치, 방향 및 눈 움직임으로부터 결정될 수 있다.

일부 실시예에서, 사용자 장치는 Microsoft HoloLens, Google ARCore, Apple ARKit, WebXR Device API 등과 같은 AR 프레임워크를 실행한다.

볼류메트릭 비디오 객체는 시간적 변화(예: 움직이거나 몸짓을 하는 사람)를 나타낼 수 있는 시간이 지정된 매체이기 때문에, 또한 실제 환경의 뷰의 현재 포즈 및/또는 볼류메트릭 비디오 객체의 희망 포즈 때문에 시간이 지남에 따라 변경될 수 있다. 예를 들어 사용자가 실제 환경 내에서 움직이거나 사용자의 눈이 움직이는 경우 볼류메트릭 비디오 객체의 뷰로 실제 환경의 뷰를 증강하는 방법이 사용자 기기와 원격 서버에서 선호되어 반복적으로 수행될 수 있다. 이와 관련하여, 현재 포즈 정보가 사용자 장치에서 결정되어 원격 서버로 전송되는 빈도와, 볼류메트릭 비디오 객체의 렌더링된 뷰가 현재 포즈 정보에 따라 렌더링되는 빈도가 볼류메트릭 비디오 객체의 타임 베이스와 실질적으로 일치하는 것이 바람직할 수 있다. 이것은 증강된 실제 환경의 뷰가 가장 최근의 포즈 정보에 따라 보여지는 볼류메트릭 비디오 객체의 가장 최근의 "상태"를 항상 보여주도록 할 수 있다. 물론, 현재 포즈 정보가 더 높은 빈도로 업데이트되고/거나 볼류메트릭 비디오 객체의 타임 베이스가 원격 서버에 의해 수행된 렌더링보다 더 높은 빈도를 가질 수도 있다.

매핑 표면은 볼류메트릭 비디오 객체의 렌더링된 뷰가 원근 왜곡이 실질적으로 없는 실제 환경의 뷰로 투영되도록 배향되는 것이 바람직하다. 이것은, 예를 들어, 실제 환경의 뷰의 투영 중심과 표면 원점 사이의 관찰 광선에 실질적으로 직교하도록 매핑 표면을 배향함으로써 달성될 수 있다. 표면 원점은 예를 들어 렌더링된 가상 비디오 객체의 뷰에 나타난 가상 비디오 객체의 바운딩 박스의 중심으로서 또는 그 질량 중심으로서 계산될 수 있다. 그렇게 하면, 볼류메트릭 비디오 객체의 렌더링된 뷰가 실제 환경의 뷰에 실질적으로 정확하게 투영된다. 실제 환경 뷰의 현재 포즈 및/또는 볼류메트릭 비디오 객체의 희망 포즈가 변경되는 경우(예: 사용자가 실제 환경 내에서 이동하는 경우) 매핑 표면의 배열은 변경 사항을 반영하기 위해 더 좋게 조정된다.

일부 실시예에서, 사용자 장치에 의해 수신되는 볼류메트릭 비디오 객체의 렌더링된 뷰는 적절한 사진 또는 비디오 코딩 기술을 사용하여 코딩된다. 예를 들어, JPEG와 같은 픽처 코딩 표준 사용하여 개별 그림으로 코딩될 수 있다. 또는, 바람직하게는 예를 들어 H.264/AVC(고급 비디오 코딩) 또는 H.265/HEVC(고효율 비디오 코딩)와 같은 비디오 코딩 표준을 사용한 볼류메트릭 비디오 객체의 렌더링된 뷰들의 순서를 포함하는 이동 그림 순서로 코팅될 수 있다.

일부 실시예에서, 사용자 장치와 원격 서버 간의 전송은 무선 통신 기술, 예를 들어, 무선 LAN을 사용한다. 일부 실시예에서, 무선 통신 기술은 이동 통신 기술, 예를 들어 5G 이동 통신 기술이다. 일부 실시예에서, 원격 서버는 클라우드에 위치하며, 예를 들어 원격 서버는 5G 이동 통신 네트워크의 에지, 예를 들어 네트워크의 기지국에 위치하는 에지 서버일 수 있다. 이것은 사용자 장치와 원격 서버 사이의 대기 시간을 줄일 수 있다.

볼류메트릭 비디오 객체의 렌더링된 뷰는 볼류메트릭 비디오 객체를 표시하지 않는 적어도 하나의 배경 영역을 포함하는 것이 바람직하고, 여기서 증강하는 단계는 적어도 하나의 배경 영역을 투명하게 설정하는 단계를 포함한다. 볼류메트릭 비디오 객체가 임의로 형성될 수 있기 때문에, 볼류메트릭 비디오 객체의 렌더링된 뷰의 렌더링 뿐만 아니라 그 임의의 그림 또는 비디오 코딩은 직사각형 프레임에서 수행될 수 있고, 일반적으로 볼류메트릭 비디오 객체의 렌더링된 뷰의 모든 영역이 볼류메트릭 비디오 객체(전격 영역)에 속하게 되지는 않는다. 실제 환경의 뷰는 볼류메트릭 비디오 객체 자체의 뷰로만 증강되는 것이 바람직하기 때문에, 볼류메트릭 비디오 객체를 표시하거나 표시하지 않는 볼류메트릭 비디오 객체의 렌더링된 뷰 영역(들) (배경 영역(들))은 결국 투명하게 설정되어야 한다.

볼류메트릭 비디오 객체의 렌더링된 뷰는 적어도 하나의 배경 영역을 나타내는 투명 맵을 포함하거나 적어도 하나의 배경 영역이 미리 정의된 색상으로 볼류메트릭 비디오 객체의 렌더링된 뷰에 표시되는 것이 더 바람직하고, 여기서 증강하는 단계는 투명 맵 또는 미리 정의된 컬러에 기초하여 적어도 하나의 배경 영역을 결정하는 단계를 더 포함한다. 적어도 하나의 배경 영역을 사용자 장치에 표시하기 위한 한 가지 접근 방식은 추가 투명도 맵(때로는 "알파 맵"이라고도 함)을 사용하는 것이며, 여기서 적어도 하나의 배경 영역에 속하는 픽셀에는 전경 영역(여기서 볼류메트릭 비디오 객체의 렌더링된 뷰에 표시된 볼류메트릭 비디오 객체)에 속하는 픽셀과 다른 값이 부여된다. 그 다음, 사용자 장치는 투명 맵에서 대응하는 픽셀의 값이 적어도 하나의 배경 또는 전경 영역을 나타내는지 여부를 볼류메트릭 비디오 객체의 렌더링된 뷰의 각각의 픽셀에 대해 확인할 수 있다. 예를 들어, 적어도 하나의 배경 영역에 속하는 픽셀에는 완전한 투명을 나타내는 가능한 가장 낮은 값(예: 0)이 주어질 수 있고, 전경 영역에 속하는 픽셀에는 완전한 불투명을 나타내는 가능한 가장 높은 값(예: 8-비트 투명 맵에서 255)이 주어질 수 있다. 유리하게는, 투명도 맵은 또한 중간 투명도/불투명도 값을 허용할 수 있다. (예를 들어, 128의 값은 픽셀이 50% 투명/불투명임을 나타낼 수 있다.) 이는 볼류메트릭 비디오 객체의 렌더링된 뷰에 나타난 볼류메트릭 비디오 객체와 실제 환경의 뷰 사이에 부드러운 블렌딩을 가능하게 할 수 있다. 사용자 장치에 적어도 하나의 배경 영역을 표시하기 위한 대안적인 접근 방식은 적어도 하나의 배경 영역에 속하는 볼류메트릭 비디오 객체의 렌더링된 뷰의 픽셀에 미리 지정된 색을 제공하는 것이다. 이러한 색상은 바람직하게는 볼류메트릭 비디오 객체에서 발생할 가능성이 거의 없는 색상(예: 채도가 높은 녹색 또는 파란색)이어야 한다. 그러면 사용자 장치는 볼류메트릭 비디오 객체의 렌더링된 뷰의 각 픽셀의 색이 적어도 하나의 배경 영역을 나타내는지 여부를 확인할 수 있다. 이 접근 방식의 장점은 추가 투명 맵의 비용이 필요하지 않다는 것이다. 반면에, 이 접근 방식의 단점은 배경 빼기를 위해 추가 클라이언트 측 처리가 필요하다는 것이다.

대안적으로, 상기 증강하는 단계는 볼류메트릭 비디오 객체의 렌더링된 뷰에 나타나는 상기 볼류메트릭 비디오 객체를 분할하는 단계 및 상기 볼류메트릭 비디오 객체의 분할에 기초하여 적어도 하나의 배경 영역을 결정하는 단계를 더 포함하는 것이 바람직하다. 이 접근 방식은 예를 들어 다음을 기반으로 하는 형상 감지 알고리즘을 사용할 수 있다. 기계 학습 기술에 대해 볼류메트릭 비디오 객체의 렌더링된 뷰에 표시된 대로 볼류메트릭 비디오 객체를 분할한다(예: S. Yuheng 및 Y. Hao, "Image Segmentation Algorithms Overview", ArXiv, 2017 참조). 일단 형상이 알려지면, 형상 외부의 영역(들)은 적어도 하나의 배경 영역에 속하는 것으로 분류될 수 있다.

매핑 표면의 크기 및/또는 모양은 볼류메트릭 비디오 객체의 렌더링된 뷰에 도시된 바와 같이 볼류메트릭 비디오 객체의 크기 및/또는 모양에 기초하여 동적으로 설정되는 것이 바람직하다. 예를 들어, 매핑 표면의 형상은 볼류메트릭 비디오 객체의 렌더링된 뷰에 도시된 바와 같이 볼류메트릭 비디오 객체의 바운딩 박스에 대응하는 크기를 갖는 직사각형으로 설정될 수 있다. 대안적으로, 매핑 표면의 모양 및/또는 크기는 볼류메트릭 비디오 객체의 크기 및/또는 모양과 훨씬 더 유사하도록 설정될 수 있다. 예를 들어, 볼류메트릭 비디오 객체의 렌더링된 뷰가 블록 기반 그림 또는 비디오 코딩 기술을 사용하여 코딩되는 경우, 매핑 표면의 모양은 볼류메트릭 비디오 객체의 렌더링된 뷰에 도시된 바와 같은 볼류메트릭 비디오 객체로부터의 정보를 포함하는 블록(예: 매크로 블록, 코딩 트리 블록 등)에 의해 형성된 모양에 대응되게 설정될 수 있다. 다른 예로서, 볼류메트릭 비디오 객체의 렌더링된 뷰를 주어진 크기의 작은 정사각형 또는 직사각형으로 분할하고 매핑 표면의 형상을 볼류메트릭 비디오 객체의 렌더링된 뷰에 표시된 것과 같은 볼류메트릭 비디오 객체의 정보를 포함하는 정사각형 또는 직사각형에 의해 형성된 형상에 대응하도록 설정하는 옵션일 수 있다. 이러한 방식으로 매핑 표면의 크기 및/또는 모양을 동적으로 설정하면 매핑 표면과 다른 객체(예: 다른 볼류메트릭 비디오 객체, 가상 개체 등) 또는 실제 환경 간의 충돌을 피하는 데 도움이 될 수 있다. 후자는 볼류메트릭 비디오 객체의 보기로 증강된다.

수신하는 단계는 볼류메트릭 비디오 객체의 대략적인 부피를 나타내는 부피 근사치 정보를 수신하는 단계를 더 포함하고, 여기서 증강하는 단계는 하나 이상의 충돌 회피를 위한 부피 근사치 정보를 사용하는 단계, 렌더링된 볼류메트릭 비디오 객체의 조명을 보정하는 단계, 실제 환경에서 볼류메트릭 비디오 객체의 적어도 하나의 그림자 생성하는 단계, 및 실제 환경에서 볼류메트릭 비디오 객체의 적어도 하나의 상을 생성하는 단계를 더 포함한다. 실제 환경의 뷰와 함께 볼류메트릭 비디오 객체의 뷰의 증강이 자연스럽게 보이도록 하려면, 충돌, 조명, 그림자 및/또는 상이 올바르게 처리되는 것이 바람직하다. 증강하는 단계가 볼류메트릭 비디오 객체의 부피에 대한 최소한의 대략적인 지식을 가지고 있다면 크게 도움이 된다.

부피 근사치 정보는 볼류메트릭 비디오 객체의 렌더링된 뷰에 표시된 볼류메트릭 비디오 객체의 보이는 부분에 대한 제1 부피 근사치 정보 및/또는 볼류메트릭 비디오 객체의 렌더링된 뷰에 표시된 볼류메트릭 비디오 객체의 보이지 않는 부분에 대한 제2 부피 근사치 정보를 포함하는 것이 더 바람직하다. 볼류메트릭 비디오 객체 자체의 렌더링된 뷰에 표시된 볼류메트릭 비디오 객체의 보이지 않는 부분은 실제 환경의 증강된 뷰에서 볼 수 없지만 그럼에도 불구하고 이러한 부분은 다른 개체(예: 다른 볼류메트릭 비디오 객체, 가상 객체 등) 또는 실제 환경(예: 충돌, 그림자 투사, 상 투사 등)과 그럼에도 불구하고 서로 작용할 수 있다. 따라서, 볼류메트릭 비디오 객체의 렌더링된 뷰에 표시된 것처럼 볼류메트릭 비디오 객체의 보이는 부분과 보이지 않는 부분 모두에 대해 부피 근사치 정보를 사용할 수 있는 경우 최상의 증강 결과를 얻을 수 있다.

제1 부피 근사치 정보 및/또는 제2 부피 근사치 정보는 깊이 맵, 메쉬 데이터, 및 볼류메트릭 비디오 객체의 부피를 근사하는 하나 이상의 기하학적 프리미티브 중 적어도 하나를 포함하는 것이 바람직하다. 이러한 서로 다른 유형의 정보는 모두 일반적인 볼류메트릭 비디오 객체의 부피를 근사화하는데 적합하다. 더욱이, 이러한 유형의 정보를 코딩하기 위한 매우 효율적인 코딩 기술이 존재하므로 부피 근사치 정보를 전송하기 위한 비교적 작은 오버헤드가 발생한다. 예를 들어, 깊이 맵은 H.265/HEVC를 사용하여 코딩될 수 있고 메쉬 데이터는 Corto, Draco, Open3DGC 등과 같은 메쉬 인코딩 프로세스를 사용하여 코딩될 수 있다. 여기서 일반적으로 부피 근사의 정확성과 달성할 수 있는 증강의 품질 사이에 트레이드오프가 있을 수 있으며, 부피 근사치 정보를 전송하는 데 필요한 데이터의 양이다.

일부 실시예에서, 하나 초과, 예를 들어, 2개, 3개 또는 그 이상의 볼류메트릭 비디오 객체의 뷰로 실제 환경의 뷰를 증강하는 것이 바람직할 수 있다. 볼류메트릭 비디오 객체의 뷰가 원격 서버에서 렌더링될 때, 단일 사진 또는 비디오 텍스처만 사용자 장치로 보내는 것이 여전히 바람직하다. 이것은 예를 들어, 사용자 장치에서 단일 사진 또는 비디오 디코더(예를 들어, 하드웨어 디코더)만을 사용하는 것을 가능하게 한다. 더욱이, 사용자 장치는 단일 스트림만 수신하기 때문에, 스트리밍이 단순화되고 모든 볼류메트릭 비디오 객체는 수신된 텍스처와 이미 동기화된다. 따라서 볼류메트릭 비디오 객체의 렌더링된 뷰가 단일 텍스처로 패킹되는 것이 바람직하다(예: 나란히 또는 다른 공간 패킹 형식으로).

단일 볼류메트릭 비디오 객체의 뷰에 대해 상기 설명된 바와 같이, 볼류메트릭 비디오 객체의 뷰의 렌더링은 사용자 장치로부터 전송된 현재 포즈 정보에 따라 원격 서버에서 수행된다. 볼류메트릭 비디오 객체의 뷰로 실제 환경의 뷰를 증강할 때 오클루전 및 충돌을 올바르게 처리하기 위해, 각 볼류메트릭 비디오 객체는 개별 뷰에서 개별적으로 렌더링되는 것이 바람직하다. 이것은 예를 들어 동일한 위치와 방향(현재 포즈 정보에 따라)을 가진 여러 "가상 카메라"를 정의하고, 각 볼류메트릭 비디오 객체를 고유한 레이어(예: Unity 레이어: https://docs.unity3d.com/Manual/Layers.html)에 할당하고, 각 카메라가 해당 특정 레이어에 할당된 컬링 마스크를 사용하도록 함으로써 달성될 수 있다. 이것은 현재 포즈 정보에 따라 볼 때 둘 이상의 볼류메트릭 비디오 객체가 서로를 가리더라도 여전히 사용자 장치에서 서로 별도로 처리될 수 있음을 보장한다.

모든 "가상 카메라"는 동일한 위치와 방향(현재 포즈 정보에 따라)을 갖기 때문에 일부 볼류메트릭 비디오 객체는 렌더링된 뷰 밖에 있을 수 있다. 일부 실시예에서, 그 안에 볼류메트릭 비디오 객체가 없는 렌더링된 뷰는 패킹된 텍스처에서 생략될 수 있으며, 이는 인코딩된 사진 또는 비디오의 해상도가 변경되도록 하고(사용자 장치 및 원격 서버에서 파이프라인 재초기화), 리소스를 보다 효율적으로 사용할 수 있게 한다. 다른 실시예에서, 패킹된 텍스처의 해상도는 (볼륨메트릭 비디오 객체의 수 및 선택된 패킹 구성에 기초하여) 고정되어 보다 단순화된 구현을 가능하게 한다.

사용자 장치가 패킹된 텍스처를 수신하면, 그에 따라 실제 환경의 뷰를 증강시키기 위해 볼류메트릭 비디오 객체의 각각의 개별 뷰의 압축을 풀어야 한다. 이는 적어도 각각의 볼류메트릭 비디오 객체의 렌더링된 뷰를 각각의 볼류메트릭 비디오 객체의 희망 포즈에 따라 배열된 평면 매핑 표면 상에 맵핑하는 것을 포함할 수 있다.

패킹된 텍스처의 언패킹을 수행하기 위해(즉, 볼류메트릭 비디오 객체들의 렌더링된 뷰들의 추출), 사용자 장치는 패킹된 텍스처를 상이한 렌더링된 뷰들로 언팩킹하는 방법을 알 필요가 있다. 따라서, 각각의 언팩 정보를 포함하는 추가적인 메타데이터는 패킹된 텍스처와 함께 전송되는 것이 바람직하다. 이러한 메타데이터는 다음과 같을 수 있다.

struct PackedFrame {

uint32 texture_width;

uint32 texture_height;

uint32 object_count;

for(int i=0; i<object_count; i++){

uint32 type

uint32 object_id;

uint32 x;

uint32 y;

uint32 width;

uint32 height;

메타데이터는 압축된 텍스처의 크기를 설명하고 렌더링된 뷰 목록(각 볼류메트릭 비디오 객체에 대해 하나씩)을 정의한다. 여기서 목록의 모든 항목에는 객체의 고유 ID, 압축된 텍스처에서 x- 및 y 위치로 지정된 왼쪽 위 모서리, 렌더링된 뷰의 너비 및 높이가 있다. type 값은 이 오브젝트가 부피가 없는 볼류메트릭 비디오 객체인지 아니면 부피가 없는 비디오 스트림인지에 대한 정보를 제공한다(예: 그림자, 상 등, 아래 참조). 볼류메트릭 비디오 객체의 경우, 전술한 대략적인 볼륨 정보와 같은 추가 정보가 전송되어 객체 ID와 연관된다. 메타데이터는 임의의 적합한 형태, 예를 들어, JSON, XML 또는 이진 데이터로서 전송될 수 있다.

상기 결정하는 단계는 실제 환경의 조명을 나타내는 조명 정보를 결정하는 단계를 더 포함하고, 상기 송신하는 단계는 조명 정보를 원격 서버로 전송하는 단계를 더 포함하고, 상기 볼류메트릭 비디오 객체의 렌더링된 뷰는 상기 조명 정보를 고려하여 렌더링되는 것이 더 바람직하다. 이것은 가상 비디오 객체의 뷰를 실제 환경의 뷰 내에서 자연스럽게 보이게 하는데 크게 도움이 될 수 있다. 예를 들어, 실제 환경이 매우 밝은 빛으로, 또는 다소 희미한 빛으로, 또는 강하게 착색된 빛으로, 또는 고도로 방향성 광으로 조명되는 경우, 렌더링이 조명을 설명하지 않는 경우 볼류메트릭 비디오 객체의 렌더링된 뷰는 실제 환경의 뷰 내에서 매우 부자연스럽게 나타날 수 있다.

상기 결정하는 단계는 실제 환경에서 상기 볼류메트릭 비디오 객체의 적어도 하나의 상을 나타내는 상 정보를 결정하는 단계를 더 포함하는 것이 바람직하며, 상기 송신하는 단계는 상기 원격 서버로 상기 상 정보를 전송하는 단계를 더 포함하고, 상기 수신하는 단계는 상기 원격 서버로부터 상기 상 정보를 고려하여 렌더링된 적어도 하나의 상의 적어도 하나의 렌더링된 뷰를 수신하는 단계를 더 포함하고, 상기 증강하는 단계는 상기 적어도 하나의 상의 적어도 하나의 렌더링된 뷰에 기초하여 상기 실제 환경에서 상기 볼류메트릭 비디오 객체의 적어도 하나의 상을 생성하는 단계를 더 포함한다. 볼류메트릭 비디오 객체의 렌더링된 뷰와 마찬가지로, 적어도 하나의 상의 적어도 하나의 렌더링된 뷰는 적절한 픽처 또는 비디오 코딩 기술(예를 들어, JPEG, H.264/AVC, 또는 H.265/HEVC)을 사용하여 개별 픽쳐로서 또는 적어도 하나의 움직이는 픽처 시퀀스로서 코딩될 수 있다. 또한, 상기 적어도 하나의 상을 생성하기 위한 메타데이터 제공 정보는 원격 서버로부터 사용자 장치(예를 들어, 범프 맵 정보, 노멀 맵 정보, 변위 맵 정보 등)로 전송될 수 있다. 일 접근법에서, 증강은 적어도 하나의 상의 적어도 하나의 렌더링된 뷰로부터 직접 적어도 하나의 상을 렌더링할 수 있다. 대안적으로, 증강하는 단계는 볼류메트릭 비디오 객체의 렌더링된 뷰에 대하여 전술한 바와 같이, 적어도 하나의 평면 매핑 표면 상에 이들을 맵핑할 수 있다.

상기 송신하는 단계는 상기 실제 환경의 뷰를 원격 서버로 전송하는 단계를 더 포함하고, 상기 볼류메트릭 비디오 객체의 렌더링된 뷰는 상기 실제 환경의 조명을 고려하여 렌더링되고, 및/또는 상기 수신하는 단계는 상기 실제 환경에서 상기 볼류메트릭 비디오 객체의 적어도 하나의 그림자에 대한 적어도 하나의 렌더링된 뷰를 수신하는 단계를 더 포함하는 것이 바람직하다. 및/또는 상기 수신하는 단계는 상기 실제 환경에서 볼류메트릭 비디오 객체의 적어도 하나의 상을 고려하여 렌더링된 적어도 하나의 상의 적어도 하나의 렌더링된 뷰를 수신하는 것을 더 포함하고, 및/또는 상기 증강하는 단계는 상기 적어도 하나의 그림자의 적어도 하나의 렌더링된 뷰에 기초하여 상기 실제 환경에서 상기 볼류메트릭 비디오 객체의 적어도 하나의 그림자를 생성하는 것을 포함하고, 및/또는 증강하는 단계는 적어도 하나의 상의 적어도 하나의 렌더링된 뷰에 기초하여 실제 환경에서 볼류메트릭 비디오 객체의 적어도 하나의 상을 생성하는 것을 포함하고, 여기서 조명 및/또는 적어도 하나의 그림자 및/또는 적어도 하나의 상은 실제 환경의 뷰에 기초하여 결정된다. 여기서, 실제 환경(예를 들어, 조명, 그림자, 상은)의 외관의 결정은 사용자 장치에 의해 전송된 바와 같은 실제 환경의 뷰에 기초하여 원격 서버 상에서 수행된다. 실제 환경의 뷰, 적어도 하나의 그림자의 적어도 하나의 렌더링된 뷰, 및/또는 적어도 하나의 상의 적어도 하나의 렌더링된 뷰는 적절한 픽처 또는 비디오 코딩 기술(예를 들어, JPEG, H.264/AVC 또는 H.265/HEVC)로 위에서 설명한 바와 같다. 실제 환경에 대한 뷰는 외관 정보를 결정하기에 충분하지만 동시에 낮은 오버헤드로 전송될 수 있는 저해상도 버전일 수 있다. 위에서 설명한 바와 같이 상기 적어도 하나의 그림자 및/또는 상기 적어도 하나의 상의 적어도 하나의 렌더링된 뷰는 개별 비디오/픽쳐로서 전송될 수 있거나, 또는 사용자 장치 상의 개별 비디오/픽쳐들을 추출하기 위한 메타데이터와 함께 전송되는 단일 텍스처로 결합될 수 있다. 전자의 접근법은 사용자 장치 상에서 병렬 디코딩의 사용을 요구하는 반면, 후자의 접근법은 사용자 장치 상의 하드웨어 디코더를 사용하는 것을 허용할 수 있다. 증강하는 단계는 적어도 하나의 그림자 및/또는 적어도 하나의 렌더링된 뷰의 적어도 하나의 렌더링된 뷰의 간단한 오버레이를 포함할 수 있고, 실제 환경의 뷰에 대한 적어도 하나의 상을 포함할 수 있다.

상기의 관점에서, 볼류메트릭 비디오 객체의 렌더링된 뷰는 추가적인 볼류메트릭 비디오 객체의 렌더링된 뷰 및/또는 적어도 하나의 그림자 및/또는 적어도 하나의 상의 적어도 하나의 렌더링된 뷰와 함께 패킹되는 패킹된 텍스처로 수신되는 것이 바람직하다.

상기 수신하는 단계는 패킹된 텍스쳐를 상이한 렌더링된 뷰들로 언팩킹하는 방법을 나타내는 언팩 정보를 포함하는 메타데이터를 수신하는 것을 더 포함하는 것이 더 바람직하다.

볼류메트릭 비디오 객체의 실제 환경의 뷰 및 렌더링된 뷰는 사용자의 두 눈에 대한 두 개의 상이한 뷰를 포함하는 입체 뷰이고, 여기서 증강하는 단계는 볼류메트릭 비디오 객체의 렌더링된 뷰의 두 개의 상이한 뷰들 각각을 평면 매핑 표면 상에 적어도 맵핑하는 것을 포함하는 것이 바람직하다. 이것은 HMD(예를 들어, 헤드셋, 헬멧, 고글 또는 안경), 3D 스마트폰 등으로 보여질 수 있는 바와 같이 실제 환경의 입체 뷰를 증강시킬 수 있게 한다. 원격 서버에서 볼류메트릭 비디오 객체의 뷰를 스테레오스코픽 렌더링하면 조명, 그림자 및 상과 같은 효과를 두 개의 서로 다른 뷰 각각에 개별적으로 적용할 수 있어 매우 자연스러운 외관을 만들 수 있다는 장점이 있다.

대안적으로, 상기 실제 환경의 뷰는 사용자의 두 눈에 대한 두 개의 서로 다른 뷰를 포함하는 스테레오스코픽 뷰이고, 상기 수신하는 단계는 상기 볼류메트릭 비디오 객체의 렌더링된 뷰로부터 상기 볼류메트릭 비디오 객체의 스테레오스코픽 뷰를 렌더링하기 위한 스테레오스코픽 뷰 생성 정보를 수신하는 것을 포함하고, 상기 증강하는 단계는 상기 렌더링된 뷰로부터 상기 볼류메트릭 비디오 객체의 스테레오스코픽 뷰를 생성하는 것을 더 포함하는 것을 특징으로 하는 증강 볼류메트릭 비디오 객체는 스테레오스코픽 뷰 생성 정보에 따라 볼류메트릭 비디오 객체의 생성된 스테레오스코픽 뷰의 두 개의 서로 다른 뷰들 각각을 평면 매핑 표면 상에 맵핑한다. 다시 말하지만, 이것은 HMD (예를 들어, 헤드셋, 헬멧, 고글 또는 안경), 3D 스마트 폰 등으로 볼 수 있는 실제 환경의 입체 뷰를 보강 할 수 있게 한다. 볼류메트릭 비디오 객체의 렌더링된 뷰에 더하여, 스테레오스코픽 뷰 생성 정보를 사용자 장치에 제공함으로써, 볼류메트릭 비디오 객체의 스테레오스코픽 뷰의 생성이 보다 유연하게 이루어질 수 있다. 더욱이, 스테레오스코픽 뷰 생성 정보는 스테레오스코픽 뷰의 추가적인 뷰보다 더 효율적으로 코딩될 수 있다. 스테레오스코픽 뷰 생성 정보는 전술한 대략적인 부피 정보와 동일할 수 있거나, 또는 스테레오스코픽 뷰의 생성에 보다 특정한 정보일 수 있으며, 예를 들어, 볼류메트릭 비디오 객체의 렌더링된 뷰의 각각의 전경 픽셀에 대해 시차 맵을 나타내는 두 개의 상이한 뷰들 사이의 시차의 정도이다.

본 발명의 다른 측면에 따르면, 볼류메트릭 비디오 객체의 뷰로 실제 환경의 뷰를 증강하기 위한 사용자 장치가 제시되고, 다음을 포함하는 것을 특징으로 하는 볼류메트릭 비디오 객체의 뷰를 제시한다.

- 상기 실제 환경에서 상기 볼류메트릭 비디오 객체의 뷰 및 상기 볼류메트릭 비디오 객체의 희망 포즈의 현재 포즈를 나타내는 현재 포즈 정보를 결정하는 결정부;

- 현재 포즈 정보를 원격 서버로 전송하는 송신부;

- 원격 서버로부터 현재 포즈 정보에 따라 렌더링된 볼류메트릭 비디오 객체의 렌더링된 뷰를 수신하는 수신부; 및

- 적어도 볼류메트릭 비디오 객체의 렌더링된 뷰를 볼류메트릭 비디오 객체의 원하는 위치에 따라 배열된 평면 매핑 표면 상에 맵핑함으로써 실제 환경을 증강시키는 증강부.

본 발명의 다른 측면에 따르면, 원격 서버 상의 실제 환경의 뷰를 증강시키기 위한 볼류메트릭 비디오 객체의 뷰를 렌더링하는 방법이 제시된다.

- 사용자 장치로부터 상기 실제 환경의 뷰의 현재 포즈와 상기 실제 환경에서 볼류메트릭 비디오 객체의 희망 포즈를 나타내는 현재 포즈 정보를 수신하는 단계;

- 현재 포즈 정보에 따라 볼류메트릭 비디오 객체의 뷰를 렌더링하는 단계; 그리고

- 볼류메트릭 비디오 객체의 렌더링된 뷰를 사용자 장치로 전송하는 단계.

본 발명의 다른 측면에 따르면, 실제 환경의 뷰를 증강시키기 위한 볼류메트릭 비디오 객체의 뷰를 렌더링하기 위한 원격 서버가 제시되고,

- 사용자 장치로부터 상기 실제 환경에서 상기 볼류메트릭 비디오 객체의 현재 포즈와 상기 실제 환경의 뷰의 현재 포즈를 나타내는 현재 포즈 정보를 수신하는 수신부;

- 현재 포즈 정보에 따라 볼류메트릭 비디오 객체의 뷰를 렌더링하는 렌더링부; 그리고

- 볼류메트릭 비디오 객체의 렌더링된 뷰를 사용자 장치로 전송하기 위한 송신부;를 포함한다.

본 발명의 다른 측면에 따르면, 볼류메트릭 비디오 객체의 뷰를 갖는 실제 환경의 뷰를 증강하는 방법이 제시되고, 그 방법은,

- 제1항 내지 제16항 중 어느 한 항에 정의된 바와 같은 방법; 그리고

- 청구항 18에서 정의된 바와 같은 방법;을 포함한다.

본 발명의 다른 측면에 따르면, 볼류메트릭 비디오 객체의 뷰를 갖는 실제 환경의 뷰를 증강하기 위한 시스템이 제시되고,

- 청구항 17에서 정의된 바와 같은 사용자 장치; 그리고

- 청구항 19에 정의된 원격 서버;를 포함한다.

제1항의 방법, 제17항의 사용자 장치, 제18항의 방법, 제19항의 원격 서버, 제20항의 방법, 및 제21항의 시스템은 특히 종속 청구항에서 정의된 바와 같은 유사 및/또는 동일한 바람직한 실시예를 갖는 것으로 이해되어야 한다.

본 발명의 바람직한 실시예는 또한 종속 청구항들 또는 이하 설명된 실시예들과 각각의 독립적인 청구항들의 임의의 조합일 수 있다는 것이 이해되어야 한다.

본 발명의 이들 및 다른 측면들은 이하에서 설명되는 실시예들을 참조하여 명백하게 되고 설명될 것이다. 다음 도면에서 :
도 1은 사용자 장치 상의 볼류메트릭 비디오 객체의 뷰를 갖는 실제 환경의 뷰를 증강시키는 방법을 예시적으로 도시하는 흐름도를 도시하고,
도 2는 원격 서버 상의 실제 환경의 뷰를 증강시키기 위한 볼류메트릭 비디오 객체의 뷰를 렌더링하는 방법을 예시적으로 도시하는 흐름도를 도시하고,
도 3은 볼류메트릭 비디오 객체의 뷰를 갖는 실제 환경의 뷰를 증강시키기 위한 시스템을 개략적으로 그리고 예시적으로 도시하고,
도 4는 도 3의 시스템의 일 실시예를 개략적으로 예시적으로 도시하며, 여기서 사용자 장치는 사용자에 의해 착용되는 헤드 마운트 디스플레이(HMD)이고, 원격 서버는 HMD와 엣지 서버 사이의 전송에 사용되는 5G 이동통신 네트워크의 에지에 위치하는 엣지 서버이다.

개시된 실시예에 대한 다른 변형예는 청구된 발명을 실시함에 있어서, 도면, 개시내용, 및 첨부된 청구항의 연구로부터 당업자에 의해 이해되고 효과화될 수 있다.

도 1은 사용자 장치 상의 볼류메트릭 비디오 객체의 뷰를 갖는 실제 환경의 뷰를 증강시키는 방법을 예시적으로 예시하는 흐름도를 도시한다.

단계 S1-1에서, 실제 환경의 뷰의 현재 포즈를 나타내는 현재 포즈 정보와 실제 환경에서 볼류메트릭 비디오 객체의 희망 포즈가 결정된다.

단계 S1-2에서, 현재 포즈 정보는 원격 서버로 전송된다.

단계 S1-3에서, 현재 포즈 정보에 따라 볼류메트릭 비디오 객체의 렌더링된 뷰가 원격 서버로부터 수신된다.

단계 S1-4에서, 실제 환경의 뷰는 적어도 볼류메트릭 비디오 객체의 렌더링된 뷰를 볼류메트릭 비디오 객체의 원하는 위치에 따라 배열된 평면 매핑 표면 상에 맵핑함으로써 증강된다.

도 2는 원격 서버 상의 실제 환경의 뷰를 증강시키기 위한 볼류메트릭 비디오 객체의 뷰를 렌더링하는 방법을 예시적으로 도시하는 흐름도를 도시한다.

단계 S2-1에서, 실제 환경에서 볼류메트릭 비디오 객체의 현재 포즈와 실제 환경의 뷰의 현재 포즈를 나타내는 현재 포즈 정보가 사용자 장치로부터 수신된다.

단계 S2-2에서, 볼류메트릭 비디오 객체의 뷰는 현재 포즈 정보에 따라 렌더링된다.

단계 S2-3에서, 볼류메트릭 비디오 객체의 렌더링된 뷰가 사용자 장치로 전송된다.

도 1 및 도 2의 방법들은 볼류메트릭 비디오 객체의 뷰로 실제 환경을 보강하는 방법의 일부일 수 있으며, 즉, 이러한 방법은 도 1의 방법 및 도 2의 방법을 포함할 수 있다.

볼류메트릭 비디오 객체의 뷰로 실제 환경의 뷰를 증강하는 방법은 도 3에 개략적으로 그리고 예시적으로 도시된 바와 같이 볼류메트릭 비디오 객체의 뷰를 갖는 실제 환경의 뷰를 증강하기 위한 시스템(100)에 의해 구현될 수 있다.

시스템(100)은 볼류메트릭 비디오 객체의 뷰를 갖는 실제 환경의 뷰를 증강하기 위한 사용자 장치(10) 및 실제 환경의 뷰를 증강시키기 위한 볼류메트릭 비디오 객체의 뷰를 렌더링하는 원격 서버(20)를 포함한다.

사용자 장치(10)는 실제 환경에서 볼류메트릭 비디오 객체의 실제 환경 및 희망 포즈의 뷰의 현재 포즈를 나타내는 현재 포즈 정보를 결정하기 위한 결정부(11)를 포함한다. 사용자 장치(10)는 현재 포즈 정보를 원격 서버(20)로 전송하는 송신부(12)를 더 포함한다. 또한, 사용자 장치(10)는 원격 서버(20)로부터 현재 포즈 정보에 따라 볼류메트릭 비디오 객체의 렌더링된 뷰를 수신하는 수신부(13)를 포함한다. 또한, 사용자 장치(10)는 적어도 볼류메트릭 비디오 객체의 렌더링된 뷰를 볼류메트릭 비디오 객체의 원하는 위치에 따라 배열된 평면 매핑 표면 상에 맵핑함으로써 실제 환경을 증강시키는 증강 유닛(14)을 포함한다.

원격 서버(20)는 사용자 장치(10)로부터 실제 환경에서 볼류메트릭 비디오 객체의 실제 환경 및 희망 포즈의 현재 포즈를 나타내는 현재 포즈 정보를 수신하는 수신부(21)를 포함한다. 원격 서버(20)는 현재 포즈 정보에 따라 볼류메트릭 비디오 객체의 뷰를 렌더링하는 렌더링부(22)를 더 포함한다. 또한, 원격 서버(20)는 볼류메트릭 비디오 객체의 렌더링된 뷰를 사용자 장치(10)로 전송하기 위한 송신부(23)를 포함한다.

이하에서는, 도 4를 참조하여 본 발명을 더욱 상세히 설명하겠으며, 이는 도 3의 시스템(100)의 실시예를 나타낸다. 이 실시예에서, 사용자 장치(10)는 사용자(1)에 의해 착용되는 헤드 마운트 디스플레이(HMD)(그 중 헤드만이 여기에 도시됨)이고, 원격 서버(20)는 HMD(10)와 엣지 서버(20) 사이의 전송에 사용되는 5G 이동통신 네트워크의 엣지에 위치하는 엣지 서버(도면에 화살표에 의해 도면에 도시됨)이다. 이것은 HMD(10)와 엣지 서버(20) 사이의 레이턴시를 감소시킬 수 있다. HMD 10은 Microsoft HoloLens, Google ARCore, Apple ARKit, WebXR Device API 등과 같은 AR 프레임워크를 실행한다.

여기서 HMD(10)는 사용자(1)가 세계의 직접적이고 매개되지 않은 뷰를 인식하는 광학 시쓰루 바이저(도면에 명시적으로 도시되지 않음)를 포함한다. 이것은 사용자(1)에게 실제 환경(3)의 뷰(2)를 제공한다. HMD(10)는 실제 환경에 대한 정보, 예를 들어, 비디오, 깊이 또는 범위 정보, 조명 정보 등을 수집하는 세계-지향 센서들(도면에 명시적으로 도시되지 않음)을 더 포함한다. 센서들은 실제 환경(3)의 깊이 또는 범위 정보를 캡처하는 하나 이상의 센서들(예를 들어, IR 조명 소스를 갖는 적외선(IR) 카메라들, 또는 LIDAR(Light Detection and Rangeing) 이미터들 및 수신기들/검출기들)을 포함한다. 센서들은 사용자의 눈의 움직임을 추적하는 하나 이상의 센서들을 추가로 포함한다.

캡처된 깊이 또는 범위 정보는 예를 들어, 메쉬의 집합으로서(도면에 도시된 바와 같이) 실제 환경(3)의 형상을 나타내기 위해 사용되고, HMD(10)의 결정 유닛(11)은 실제 환경(3)의 현재 위치, 방향, 및 안구 움직임으로부터 실제 환경(3)의 뷰(2)의 현재 포즈를 결정한다. 실제 환경(3)의 뷰(2)의 현재 포즈와 실제 환경(3)에서의 볼류메트릭 비디오 객체(5)의 희망 포즈는 HMD(10)의 결정부(11)에 의해 결정되는 현재 포즈 정보(CPI)를 구성한다.

HMD(10)의 송신부(1)는 현재 포즈 정보(CPI)를 엣지 서버(20)로 전송한다. 엣지 서버(20)의 수신부(21)는 HMD(10)로부터 현재 포즈 정보(CPI)를 수신하고, 엣지 서버(20)의 렌더링부(22)는 현재 포즈 정보(CPI)에 따라 볼류메트릭 비디오 객체(5)의 뷰(4)를 렌더링한다. 엣지 서버(20)의 송신부(23)는 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)를 HMD(10)로 전송하고, 여기서 HMD(10)의 수신부(13)에 의해 수신된다. 마지막으로, HMD(10)의 증강 유닛(14)은 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)를 볼류메트릭 비디오 객체(5)의 원하는 위치에 따라 배열된 평면 매핑 표면(6, 6') 상에 적어도 맵핑함으로써 실제 환경(3)을 증강시킨다. 이로 인해 실제 환경(3)의 증강된 뷰(2)가 생성된다.

도 2에서 알 수 있는 바와 같이, 사용자(1)가 실제 환경(3) 내에서 이동하거나 사용자의 눈이 이동하면, 실제 환경(3)의 뷰(2)의 현재 포즈는 시간에 따라 변한다. 예를 들어, 도면에서 사용자(1)는 실질적으로 정면 자세로부터 HMD(10)를 통해 실제 환경(3)을 인지하는 것으로서, 일 경우에는 보다 측방적인 포즈로부터 HMD(10)를 통해 실제 환경(3)을 인지하는 것으로 도시되어 있다. 각각의 경우에, HMD(10)에 의해 결정되고 엣지 서버(20)로 전송되는 현재 포즈 정보(CPI)는 상이하여, 에지 서버(20)에 의해 렌더링되는 볼류메트릭 비디오 객체(5)의 상이한 렌더링된 뷰(4)를 초래한다.

이 실시예에서, 매핑 표면(6, 6')은 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)가 원근감 왜곡이 실질적으로 없는 실제 환경(3)의 뷰(2) 내로 투사되도록 배향된다. 이것은, 여기서, 사용자(1)가 HMD(10)를 통해 실제 환경(3)을 인식함으로써 발생하는 표면 원점(도면에 명시적으로 도시되지 않음)과 뷰(2)의 돌출부 중심 사이에 시야선(L, L')에 실질적으로 직교하도록 매핑 표면(6, 6')을 배향시킴으로써 달성된다(여기에 도시되는 일 경우, 실질적으로 정면 포즈로부터, 그리고 여기에 도시되는 한 경우에, 더 측방 포즈로부터). 그렇게 하면, 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)는 실제 환경(3)의 뷰(2) 내로 실질적으로 정확하게 프로젝션된다. 실제 환경(3)의 뷰(2)의 현재 포즈 및/또는 볼류메트릭 비디오 객체(5)의 희망 포즈가 변경되면, 예를 들어, 사용자(1)가 실제 환경(3) 내에서 이동하는 경우, 매핑 표면(6, 6')의 배열은 변경을 반영하도록 적응되는 것이 바람직하다.

이 실시예에서, 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)는 HMD(10)의 볼류메트릭 비디오 객체(5) 및 증강 유닛(14)을 보여주지 않는 적어도 하나의 배경 영역(7)을 포함하며, 적어도 하나의 배경 영역(7)을 투명하게 설정한다. 이것은 여러 가지 다른 방법으로 실현 될 수 있다. 예를 들어, 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)는 적어도 하나의 배경 영역(7) 또는 적어도 하나의 배경 영역(7)을 나타내는 투명도 맵(도면에 도시되지 않음)을 포함할 수 있고, 미리 정의된 컬러에 의해 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)에 표시될 수 있다. 이어서, HMD(10)의 증강 유닛(14)은 투명성 맵 또는 미리 정의된 컬러에 기초하여 적어도 하나의 배경 영역(7)을 결정할 수 있다. 대안적으로, HMD(10)의 증강 유닛(14)은 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)에 도시된 바와 같이 볼류메트릭 비디오 객체(5)를 세그먼트화하고, 볼류메트릭 비디오 객체(5)의 세그멘테이션에 기초하여 적어도 하나의 배경 영역(7)을 결정할 수 있다. 이러한 접근법은 예를 들어 기계 학습 기술에 기초한 형상 검출 알고리즘을 사용하여 볼류메트릭 비디오 객체의 렌더링된 뷰에 도시된 바와 같이 볼류메트릭 비디오 객체를 세그먼트화할 수 있다(예를 들어, S. Yuheng and Y. Hao, "Image Segmentation Algorithms Overview", ArXiv, 2017 참조). 일단 형상이 알려지면, 형상 밖의 영역(들)은 적어도 하나의 배경 영역에 속하는 것으로 분류될 수 있다.

엣지 서버(20)에 의해 전송되고 HMD(10)에 의해 수신되는 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)는 적합한 픽처 또는 비디오 코딩 기술을 사용하여 코딩된다. 이 예에서, H.265/HEVC(고효율 비디오 코딩)를 사용하는 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)의 시퀀스를 포함하는 동영상 시퀀스로서 코딩된다.

일부 실시예들에서, 매핑 표면(6, 6')의 크기 및 형상은 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)에 도시된 바와 같이 볼류메트릭 비디오 객체(5)의 크기 및 형상에 따라 동적으로 설정될 수 있다. 예를 들어, 매핑 표면(6, 6')의 형상은 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)에 도시된 바와 같이 볼류메트릭 비디오 객체(5)의 바운딩 박스에 대응하는 크기를 갖는 직사각형으로 설정될 수 있다. 이러한 방식으로 매핑 표면(6, 6')의 크기 및/또는 형상을 동적으로 설정하는 것은 매핑 표면(6, 6')과 다른 객체들(예를 들어, 다른 볼류메트릭 비디오 객체들, 가상 객체들 등) 또는 후자가 볼류메트릭 비디오 객체(5)의 뷰(4)로 증강될 때 실제 환경(3) 사이의 충돌을 피하는 것을 도울 수 있다.

이 실시예에서, 엣지 서버(20)의 송신부(23)는 볼류메트릭 비디오 객체(5)의 대략적인 볼륨을 나타내는 대략적인 볼륨 정보(도면에 도시되지 않음)를 HMD(10)로 더 전송한다. HMD(10)의 수신부(13)는 HMD(10)의 대략적인 볼륨 정보를 수신하고, 증강부(14)는 하나 이상의 충돌 회피를 위한 근사 볼륨 정보를 더 이용하여, 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)의 조명을 보정하여, 실제 환경(3)에서 볼류메트릭 비디오 객체(5)의 적어도 하나의 그림자를 생성하고, 실제 환경(3)에서 볼류메트릭 비디오 객체(5)의 적어도 하나의 상을 생성한다. 볼류메트릭 비디오 객체(5)의 뷰(4)를 갖는 실제 환경(3)의 뷰(2)의 증강이 자연스럽게 나타나기 위해서는, 충돌, 조명, 그림자 및/또는 상이 올바르게 처리되는 것이 바람직하다. 이것은 증강이 적어도 볼류메트릭 비디오 객체(5)의 볼륨에 대한 대략적인 지식을 갖는 경우에 크게 도움이 된다.

여기서, 대략적인 볼륨 정보는 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)에 도시된 바와 같이 볼류메트릭 비디오 객체(5)의 보이는 부분에 대한 첫 번째 대략적인 볼륨 정보 및 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)에 도시된 바와 같이 볼류메트릭 비디오 객체(5)의 보이지 않는 부분에 대한 두 번째 대략적인 볼륨 정보를 포함한다. 볼류메트릭 비디오 객체(5) 자체의 렌더링된 뷰(4)에 도시된 바와 같이 볼류메트릭 비디오 객체(5)의 보이지 않는 부분들은 실제 환경(5)의 증강된 뷰(2)에서 보이지 않지만, 이들 부분들은 그럼에도 불구하고 다른 객체들(예를 들어, 다른 볼류메트릭 비디오 객체들, 가상 객체들 등) 또는 실제 환경(5)(예를 들어, 충돌, 그림자 캐스팅, 상 캐스팅 등). 따라서, 최상의 증강 결과는 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)에 도시된 바와 같이 볼류메트릭 비디오(5) 객체의 보이는 부분과 보이지 않는 부분 모두에 대해 대략적인 볼륨 정보가 이용가능한 경우에 달성될 수 있다.

이 실시예에서, 첫 번째 부피 근사치 정보 및 두 번째 부피 근사치 정보는 깊이 맵을 포함한다. 이러한 유형의 정보는 전형적인 볼류메트릭 비디오 객체들, 예를 들어, 볼류메트릭 비디오 객체(5)의 볼륨들을 근사화하는데 매우 적합하다. 더욱이, 이러한 유형의 정보를 코딩하기 위한 매우 효율적인 코딩 기술이 존재하며, 그 결과 대략적인 볼륨 정보를 전송하기 위한 비교적 작은 오버헤드가 발생한다. 예를 들어, 깊이 맵은 H.265/HEVC를 사용하여 코딩될 수 있다.

HMD(10)의 판단부(11)는, 여기서, 실제 환경(3)의 조명을 나타내는 조명 정보(도면에 도시되지 않음)를 더 결정하고, HMD(10)의 송신부(12)는 조명 정보를 엣지 서버(20)로 더 전송한다. 엣지 서버(20)의 수신부(21)는 조명 정보를 수신하고, 엣지 서버(20)의 렌더링부(22)는 조명 정보를 고려하여 볼류메트릭 비디오 객체(5)의 뷰(4)를 렌더링한다. 이것은 가상 비디오 객체(5)의 뷰(4)가 실제 환경(3)의 뷰(2) 내에서 자연스럽게 나타나게 하는데 HMD(10)의 증강 유닛(14)을 크게 도울 수 있다. 예를 들어, 실제 환경(3)이 매우 밝은 빛으로, 또는 다소 희미한 빛으로, 또는 강하게 착색된 빛으로, 또는 고도로 방향성 광으로 조명되는 경우, 렌더링이 조명을 설명하지 않는 경우 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)는 실제 환경(3)의 뷰(2) 내에서 매우 부자연스럽게 나타날 수 있다.

본 실시예에서, HMD(10)의 판단부(11)는 실제 환경(3)에서 볼류메트릭 비디오 객체(5)의 적어도 하나의 상을 나타내는 상 정보(도면에 도시되지 않음)를 더 결정하고, HMD(10)의 송신부(12)는 상 정보를 엣지 서버(20)로 더 전송한다. 엣지 서버(20)의 수신부(21)는 엣지 서버(20)의 상 정보를 수신하고, 엣지 서버(20)의 렌더링부(22)는 상 정보를 고려하여 적어도 하나의 상 뷰(도면에 도시되지 않음)를 렌더링하고, 엣지 서버(20)의 송신부(23)는 적어도 하나의 상 중 적어도 하나의 렌더링 뷰를 HMD(10)로 전송한다. HMD(10)의 수신부(13)는 엣지 서버(20)로부터 적어도 하나의 상에 대한 적어도 하나의 렌더링된 뷰를 더 수신하고, HMD(10)의 증강 유닛(14)은 적어도 하나의 상의 적어도 하나의 렌더링 뷰에 기초하여 실제 환경(3)에서 볼류메트릭 비디오 객체(5)의 적어도 하나의 상을 더 생성한다.

볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)와 마찬가지로, 적어도 하나의 상에 대한 적어도 하나의 렌더링된 뷰는 여기서 H.265/HEVC를 사용하는 적어도 하나의 동영상 시퀀스로서 코딩된다. 또한, 적어도 하나의 상을 생성하기 위한 메타데이터 제공 정보는 엣지 서버(20)로부터 HMD(10)로 전송된다(예를 들어, 범프 맵 정보, 노멀 맵 정보, 변위 맵 정보 등). 이어서, HMD(10)의 증강 유닛(14)은 적어도 하나의 상의 적어도 하나의 렌더링된 뷰로부터 직접 적어도 하나의 상을 렌더링한다. 대안적으로, 증강 유닛(14)은 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)에 대하여 전술한 바와 같이, 적어도 하나의 평면 매핑 표면 상에 이들을 맵핑할 수 있다.

이 실시예에서, 볼류메트릭 비디오 객체(5)의 실제 환경(3)의 뷰(2) 및 렌더링된 뷰(4)는 사용자(1)의 두 눈에 대한 2개의 상이한 뷰를 포함하는 입체 뷰(도면에 도시되지 않음)이고, HMD(10)의 증강 유닛(14)은 적어도 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)의 렌더링된 뷰(4)의 두 개의 상이한 뷰들 각각을 평면 매핑 표면 상에 매핑한다. (도면에 명시적으로 표시되지 않음). 이것은 HMD(10)에서 볼 수 있는 것처럼 실제 환경(3)의 입체 뷰를 보강할 수 있게 한다. 이어서 에지 서버(20) 상의 볼류메트릭 비디오 객체(5)의 뷰(4)의 스테레오스코픽 렌더링은 조명, 그림자 및 상과 같은 효과가 두 개의 서로 다른 뷰들 각각에 개별적으로 적용될 수 있고, 매우 자연스러운 외관을 허용한다는 장점을 갖는다.

대안적인 실시예에서, 상기 실제 환경의 뷰는 사용자의 두 눈에 대해 서로 다른 두 개의 서로 다른 뷰를 포함하는 스테레오스코픽 뷰이고, HMD(10)의 수신부(13)는 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)로부터 볼류메트릭 비디오 객체(5)의 스테레오스코픽 뷰를 렌더링하기 위한 스테레오스코픽 뷰 생성 정보(도면에 도시되지 않음)를 수신하고, HMD(10)의 증강부(14)는 스테레오스코픽 뷰 생성 정보에 따라 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)로부터 볼류메트릭 비디오 객체(5)의 스테레오스코픽 뷰를 생성하고, 볼류메트릭 비디오 객체(5)의 생성된 스테레오스코픽 뷰의 두 개의 서로 다른 뷰들 각각을 평면 매핑 표면 상에 매핑한다. 다시 말하지만, 이것은 HMD(10)에서 볼 수 있는 것처럼 실제 환경(3)의 입체적 뷰를 증강시킬 수 있게 한다. 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4) 이외에도, HDM(10)에 스테레오스코픽 뷰 생성 정보를 제공함으로써, 볼류메트릭 비디오 객체(5)의 스테레오스코픽 뷰의 생성이 보다 유연하게 이루어질 수 있다. 더욱이, 스테레오스코픽 뷰 생성 정보는 스테레오스코픽 뷰의 추가적인 뷰보다 더 효율적으로 코딩될 수 있다. 스테레오스코픽 뷰 생성 정보는 전술한 대략적인 볼륨 정보와 동일할 수 있거나, 또는 스테레오스코픽 뷰의 생성에 보다 특정한 정보일 수 있으며, 예를 들어, 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)의 각각의 전경 픽셀에 대해 시차 맵이 두 개의 상이한 뷰들 사이의 시차의 양이다.

다른 실시예들에서, HMD(10)의 송신부(11)는 실제 환경(3)의 뷰(2)를 엣지 서버(20)로 더 전송하고, 엣지 서버(20)의 수신부(21)는 HMD(10)로부터 실제 환경(3)의 뷰(2)를 수신한다. 일부 실시예들에서, 에지 서버(20)의 렌더링 유닛(22)은 실제 환경(3)의 조명을 고려하여 볼륨메트릭 비디오 객체(5)의 뷰(4)를 렌더링한다. 일부 실시예들에서, 에지 서버(20)의 렌더링 유닛(22)은 실제 환경(3)에서 볼류메트릭 비디오 객체(5)의 적어도 하나의 그림자의 적어도 하나의 뷰를 렌더링하고, 에지 서버(20)의 송신 유닛(23)은 적어도 하나의 그림자의 적어도 하나의 렌더링된 뷰를 HMD(10)로 전송하고, 여기서 HMD(10)의 수신부(13)에 의해 수신된다. 일부 실시예들에서, 엣지 서버(20)의 렌더링 유닛(22)은 실제 환경(3)에서 볼류메트릭 비디오 객체(5)의 적어도 하나의 상을 고려한 적어도 하나의 상의 적어도 하나의 렌더링된 뷰를 렌더링하고, 엣지 서버(20)의 송신 유닛(23)은 적어도 하나의 상의 적어도 하나의 렌더링된 뷰를 HMD(10)로 전송하고, 여기서 HMD(10)의 수신부(13)에 의해 수신된다. 일부 실시예들에서, HMD(10)의 증강 유닛(14)은 적어도 하나의 그림자의 적어도 하나의 렌더링된 뷰에 기초하여 실제 환경(3)에서 볼류메트릭 비디오 객체(5)의 적어도 하나의 그림자를 생성한다. 일부 실시예들에서, HMD(10)의 증강 유닛(14)은 적어도 하나의 상의 적어도 하나의 렌더링된 뷰에 기초하여 실제 환경(3)에서 볼류메트릭 비디오 객체(5)의 적어도 하나의 상을 생성한다.

일부 실시예들에서, 조명 및/또는 적어도 하나의 그림자 및/또는 적어도 하나의 상은 실제 환경(3)의 뷰(2)에 기초하여 엣지 서버(20)에 의해 결정된다. 실제 환경의 뷰, 적어도 하나의 그림자의 적어도 하나의 렌더링된 뷰, 및/또는 적어도 하나의 상의 적어도 하나의 렌더링된 뷰는 예를 들어 H.265/HEVC를 사용하는 움직이는 픽처 시퀀스로서 코딩될 수 있다. 실제 환경에 대한 뷰는 외관 정보를 결정하기에 충분하지만 동시에 낮은 오버헤드로 전송될 수 있는 저해상도 버전일 수 있다. 상기 적어도 하나의 그림자 및/또는 상기 적어도 하나의 상의 적어도 하나의 렌더링된 뷰는 개별 비디오/픽쳐로서 전송될 수 있거나, 또는 사용자 장치 상의 개별 비디오/픽쳐들을 추출하기 위한 메타데이터와 함께 전송되는 단일 텍스처로 결합될 수 있고, 위에서 설명한 바와 같이. 전자의 접근법은 사용자 장치 상에서 병렬 디코딩의 사용을 요구하는 반면, 후자의 접근법은 사용자 장치 상의 하드웨어 디코더를 사용하는 것을 허용할 수 있다. 증강하는 단계는 적어도 하나의 그림자 및/또는 적어도 하나의 렌더링된 뷰의 적어도 하나의 렌더링된 뷰의 간단한 오버레이를 포함할 수 있고, 실제 환경(3)의 뷰(2) 상의 적어도 하나의 상을 포함할 수 있다.

전술한 실시예에서, 사용자 장치(10)는 HMD이고 원격 서버(20)는 엣지 서버이지만, 다른 실시예에서는 그럴 필요가 없다. 예를 들어, 일부 실시예들에서, 사용자 장치(10)는 스마트폰, 태블릿 등과 같은 모바일 폰일 수 있고, 원격 서버(20)는 5G 모바일 통신 네트워크의 엣지에 위치하지 않을 수 있지만, 사용자 장치(10)로부터 더 멀리 위치될 수 있다. 더욱이, 일부 실시예들에서, 볼류메트릭 비디오 객체(5)의 실제 환경(3)의 뷰(2) 및 렌더링된 뷰(4)는 사용자(1)의 두 눈에 대해 2개의 상이한 뷰들을 포함하는 입체 뷰들이 아닐 수도 있고, 오히려 사용자(1)의 양쪽 눈에 단일 뷰가 제공되는 모노스코픽 뷰들일 수 있다.

청구항에서, 단어 "포함하는"은 다른 요소 또는 단계를 배제하지 않으며, 단복수가 분명히 규정되지 않은 글은 복수를 배제하지 않는다.

단일 유닛 또는 장치는 청구항들에서 인용된 몇몇 사항들의 기능들을 수행할 수 있다. 예를 들어, 사용자 장치(10)의 송신부(12) 및 수신부(13) 또는 원격 서버의 수신부(21) 및 송신부(23)는 각각 하나의 송/수신부일 수 있다. 특정 표시가 서로 다른 종속항에서 인용된다는 사실만으로는 이러한 표시의 조합이 유리하게 사용될 수 없다는 것을 의미하지는 않는다.

청구항의 모든 참조 표시는 발명의 범위를 제한하는 것으로 해석되어서는 안된다.

본 발명은 사용자 장치 상의 볼류메트릭 비디오 객체의 뷰를 갖는 실제 환경의 뷰를 증강하는 방법에 관한 것이다. 상기 방법은 실제 환경의 뷰의 현재 포즈를 나타내는 현재 포즈 정보를 결정하는 단계를 포함하고, 상기 실제 환경에서 볼류메트릭 비디오 객체의 희망 포즈를 결정하는 단계 포함한다. 상기 방법은 현재 포즈 정보를 원격 서버로 전송하는 단계를 더 포함한다. 상기 방법은 원격 서버로부터 현재 포즈 정보에 따라 렌더링된 볼류메트릭 비디오 객체의 렌더링된 뷰를 수신하는 단계를 더 포함한다. 상기 방법은 적어도 볼류메트릭 비디오 객체의 렌더링된 뷰를 볼류메트릭 비디오 객체의 희망 위치에 따라 배열된 평면 매핑 표면 상에 맵핑함으로써 실제 환경의 뷰를 증강하는 단계를 더 포함한다.

Claims

사용자 장치(10)의 볼류메트릭 비디오 객체(5)의 뷰(4)를 이용한 실제 환경(3)의 뷰(2) 증강 방법에 있어서,
상기 실제 환경(3)의 상기 뷰(2)의 현재 포즈와 상기 실제 환경(3)의 상기 볼류메트릭 비디오 객체(5)의 희망 포즈를 나타내는 현재 포즈 정보(CPI)를 결정하는 단계(S1-1);
상기 현재 포즈 정보(CPI)를 원격 서버(20)로 전송하는 단계(S1-2);
상기 원격 서버(20)로부터 상기 현재 포즈 정보(CPI)에 따라 렌더링된 상기 볼류메트릭 비디오 객체(5)의 뷰(4)를 수신하는 단계(S1-3); 및
적어도 상기 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)를 상기 볼류메트릭 비디오 객체(5)의 희망 위치에 따라 배열된 평면 매핑 표면(6, 6’)에 매핑함으로써 상기 실제 환경(3)의 상기 뷰(2)를 증강하는 단계(S1-4)를 포함하는 방법.
제1항에 있어서,
상기 매핑 표면(6, 6')이 상기 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)가 원근 왜곡이 거의 없게 상기 실제 환경(3)의 상기 뷰(2)로 투영되도록 배향되는 방법.
제1항 또는 제2항에 있어서,
상기 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)는 상기 볼류메트릭 비디오 객체(5)를 표시하지 않는 적어도 하나의 배경 영역(7)을 포함하고, 상기 증강하는 단계(S1-4)는 적어도 하나의 상기 배경 영역(7)을 투명하게 설정하는 단계를 포함하는 방법.
제3항에 있어서,
상기 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)는 상기 적어도 하나의 배경 영역(7)을 나타내는 투명 맵을 포함하거나 상기 적어도 하나의 배경 영역(7)은 미리 정의된 색상으로 상기 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)에 나타나 있고, 또한, 상기 증강하는 단계(S1-4)는 상기 투명 맵 또는 상기 미리 정의된 색상에 기초한 상기 적어도 하나의 배경 영역(7)을 결정하는 단계를 더 포함하는 방법.
제3항에 있어서,
상기 증강하는 단계(S1-4)는 상기 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)에서 보여지는 상기 볼류메트릭 비디오 객체(5)를 분할하는 단계 및 상기 볼류메트릭 비디오 객체(5)의 분할을 기반으로 하는 상기 적어도 하나의 배경 영역(7)을 결정하는 단계를 더 포함하는 방법.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 매핑 표면(6, 6')의 크기 및/또는 모양은 상기 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)에서 보여지는 상기 볼류메트릭 비디오 객체(5)의 크기 및/또는 모양에 기초하여 동적으로 설정되는 방법.
제1항 내지 제6항 중 어느 한 항에 있어서,
상기 수신하는 단계(S1-3)는 상기 볼류메트릭 영상 객체(5)의 부피 근사치를 나타내는 상기 부피 근사치 정보를 수신하는 단계를 더 포함하고, 상기 증강하는 단계(S1-4)는 하나 이상의 충돌 회피를 위한 상기 부피 근사치 정보를 사용하는 단계, 상기 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)의 조명을 보정하는 단계, 상기 실제 환경(3)의 상기 볼류메트릭 비디오 객체(5)의 적어도 하나의 그림자를 생성하는 단계, 및 상기 실제 환경(3)의 상기 볼류메트릭 비디오 객체(5)의 적어도 하나의 상을 생성하는 단계를 포함하는 방법.
제7항에 있어서,
상기 부피 근사치 정보는 상기 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)에 표시된 상기 볼류메트릭 비디오 객체(5)의 보이는 부분들을 위한 제1 부피 근사치 정보 및/또는 상기 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)에 표시된 상기 볼류메트릭 비디오 객체(5)의 보이지 않는 부분들에 대한 제2 부피 근사치 정보를 포함하는 방법.
제8항에 있어서,
상기 제1 부피 근사치 정보 및/또는 상기 제2 부피 근사치 정보는 깊이 맵, 메쉬 데이터, 및 상기 볼류메트릭 비디오 객체(5)의 부피에 근접하는 하나 이상의 기하학적 프리미티브 중 적어도 하나를 포함하는 방법.
제 1 항 내지 제 9 항 중 어느 한 항에 있어서,
상기 결정하는 단계(S1-1)는 실제 환경(3)의 조명을 나타내는 조명 정보를 결정하는 단계를 더 포함하고, 상기 전송하는 단계(S1-2)는 상기 원격 서버(20)에 상기 조명 정보를 전송하는 단계를 더 포함하며, 상기 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)는 상기 조명 정보를 고려하여 렌더링되는 방법.
제7항 내지 제10항 중 어느 한 항에 있어서,
상기 결정하는 단계(S1-1)는 상기 실제 환경(3)의 상기 볼류메트릭 비디오 객체(5)의 적어도 하나의 상을 나타내는 상 정보를 결정하는 단계를 더 포함하고, 상기 전송하는 단계(S1-2)는 상기 원격 서버(20)에 상기 상 정보를 전송하는 단계를 더 포함하며, 상기 수신하는 단계(S1-3)는 상기 원격 서버(2)로부터 상기 상 정보를 고려하여 렌더링된 상기 적어도 하나의 상에 대한 적어도 하나 이상의 렌더링된 뷰를 수신하는 단계를 더 포함하고, 또한, 상기 증강하는 단계(S1-4)는 상기 적어도 하나의 상의 상기 적어도 하나의 렌더링된 뷰에 기초하여 상기 실제 환경(3)의 상기 볼류메트릭 비디오 객체(5)의 상기 적어도 하나의 상을 생성하는 단계를 더 포함하는 방법.
제1항 내지 제11항 중 어느 한 항에 있어서,
상기 전송하는 단계(S1-2)는 상기 실제 환경(3)의 뷰(2)를 상기 원격 서버(20)로 전송하는 단계를 더 포함하고, 상기 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)는 상기 실제 환경(3)의 조명을 고려하여 렌더링되고/렌더링되거나, 상기 수신하는 단계(S1-3)는 상기 실제 환경(3)의 상기 볼류메트릭 비디오 객체(5)의 적어도 하나의 그림자의 적어도 하나의 렌더링된 뷰를 수신하는 단계를 더 포함하고/포함하거나, 상기 수신하는 단계(S1-3)는 상기 실제 환경(3)의 상기 볼류메트릭 비디오 객체(5)의 적어도 하나의 상을 고려하여 렌더링된 적어도 하나의 상의 적어도 하나의 렌더링된 뷰를 수신하는 단계를 더 포함하고/포함하거나, 상기 증강하는 단계(S1-4)는 상기 적어도 하나의 그림자의 상기 적어도 하나의 렌더링된 뷰에 기초하여 상기 실제 환경(3)의 상기 볼류메트릭 비디오 객체(5)의 상기 적어도 하나의 그림자를 생성하는 단계를 더 포함하고/포함하거나, 상기 증강하는 단계(S1-4)는 상기 적어도 하나의 상의 상기 적어도 하나의 렌더링된 뷰에 기초하여 상기 실제 환경(3)의 상기 볼류메트릭 비디오 객체(5)의 상기 적어도 하나의 상을 생성하는 단계를 더 포함하고, 상기 조명 및/또는 상기 적어도 하나의 그림자 및/또는 상기 적어도 하나의 상은 상기 실제 환경(3)의 상기 뷰(2)에 기초하여 결정되는 방법.
제1항 내지 제12항 중 어느 한 항에 있어서,
상기 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)는 더 먼 볼류메트릭 비디오 객체의 렌더링된 뷰 및/또는 상기 적어도 하나의 그림자의 상기 적어도 하나의 렌더링된 뷰 및/또는 상기 적어도 하나의 상의 상기 적어도 하나의 렌더링된 뷰와 함께 패킹되는 패킹된 텍스처 안에 수신되는 방법.
제13항에 있어서,
상기 수신하는 단계는 상기 패킹된 텍스처를 상기 다른 렌더링된 뷰로 언패킹하는 방법을 나타내는 언패킹 정보를 포함하는 메타데이터를 수신하는 단계를 더 포함하는 방법.
제1항 내지 제14항 중 어느 한 항에 있어서,
상기 실제 환경(3)의 상기 뷰(2) 및 상기 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)는 상기 사용자의 두 눈을 위한 두 종류의 뷰를 포함하는 입체 뷰이며, 상기 증강하는 단계(S1-4)는 적어도 상기 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)의 상기 두 종류의 뷰 각각을 평면 매핑 표면에 매핑하는 단계를 포함하는 방법.
제1항 내지 제14항 중 어느 한 항에 있어서,
상기 실제 환경(3)의 상기 뷰(2)는 상기 사용자(1)의 두 눈을 위한 두 종류의 뷰를 포함하는 입체 뷰이며, 상기 수신하는 단계(S1-3)는 상기 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)로부터 상기 볼류메트릭 비디오 객체(5)의 입체 뷰를 렌더링하기 위한 입체 뷰 생성 정보를 수신하는 단계를 포함하며, 또한 상기 증강하는 단계(S1-4)는 상기 입체 뷰 생성 정보에 따라 상기 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)로부터 상기 볼류메트릭 비디오 객체(5)의 상기 입체 뷰를 생성하는 단계 및 상기 볼류메트릭 비디오 객체(5)의 생성된 상기 입체 뷰의 상기 두 종류의 뷰 각각을 평면 매핑 표면에 매핑하는 단계를 더 포함하는 방법.
볼류메트릭 비디오 객체(5)의 뷰(4)를 이용한 실제 환경(3)의 뷰(2) 증강을 위한 사용자 장치(10)에 있어서,
상기 실제 환경(3)의 상기 뷰(2)의 현재 포즈와 상기 실제 환경(3)의 상기 볼류메트릭 비디오 객체(5)의 희망 포즈를 나타내는 현재 포즈 정보(CPI)를 결정하는 결정 유닛(11);
상기 현재 포즈 정보(CPI)를 원격 서버(20)로 전송하는 전송 유닛(12);
상기 원격 서버(20)로부터 상기 현재 포즈 정보(CPI)에 따라 렌더링된 상기 볼류메트릭 비디오 객체(5)의 뷰(4)를 수신하는 수신 유닛(13); 및
적어도 상기 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)를 상기 볼류메트릭 비디오 객체(5)의 희망 위치에 따라 배열된 평면 매핑 표면(6, 6’)에 매핑함으로써 상기 실제 환경(3)을 증강하는 증강 유닛(14);을 포함하는 장치.
원격 서버(2)에서 실제 환경(3)의 뷰(2)를 증강하기 위한 볼류메트릭 비디오 객체(5)의 뷰(4)를 렌더링하는 방법에 있어서,
사용자 장치(10)로부터 상기 실제 환경(3)의 상기 뷰(2)의 현재 포즈와 상기 실제 환경(3)의 상기 볼류메트릭 비디오 객체(5)의 희망 포즈를 나타내는 현재 포즈 정보(CPI)를 수신하는 단계(S2-1);
상기 현재 포즈 정보(CPI)에 따라 상기 볼류메트릭 비디오 객체(5)의 뷰(4)를 렌더링하는 단계(S2-2); 및
상기 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)를 상기 사용자 장치(10)에 전송하는 단계(S2-3);를 포함하는 방법.
실제 환경(3)의 뷰(2)를 증강하기 위한 볼류메트릭 비디오 객체(5)의 뷰(4)를 렌더링하기 위한 원격 서버(20)에 있어서,
사용자 장치(10)로부터 상기 실제 환경(3)의 상기 뷰(2)의 현재 포즈와 상기 실제 환경(3)의 상기 볼류메트릭 비디오 객체(5)의 희망 포즈를 나타내는 현재 포즈 정보(CPI)를 수신하는 수신 유닛(21);
상기 현재 포즈 정보(CPI)에 따라 상기 볼류메트릭 비디오 객체(5)의 뷰(4)를 렌더링하는 렌더링 유닛(22); 및
상기 볼류메트릭 비디오 객체(5)의 렌더링된 뷰(4)를 상기 사용자 장치(10)에 전송하는 전송 유닛(23);을 포함하는 원격 서버.
볼류메트릭 비디오 객체(5)의 뷰(4)를 이용한 실제 환경(3)의 뷰(2) 증강 방법에 있어서,
제1항 내지 제16항 중 어느 한 항에 정의된 상기 방법; 및
제18항에 정의된 상기 방법;을 포함하는 방법.
볼류메트릭 비디오 객체(5)의 뷰(4)를 이용한 실제 환경(3)의 뷰(2) 증강 시스템(100)에 있어서,
제17항에 정의된 상기 사용자장치(10); 및
제19항에 정의된 상기 원격 서버(20);를 포함하는 시스템.