KR20220153396A - Ar 원격 렌더링 프로세스를 위한 방법 및 장치 - Google Patents

Ar 원격 렌더링 프로세스를 위한 방법 및 장치 Download PDF

Info

Publication number
KR20220153396A
KR20220153396A KR1020210060926A KR20210060926A KR20220153396A KR 20220153396 A KR20220153396 A KR 20220153396A KR 1020210060926 A KR1020210060926 A KR 1020210060926A KR 20210060926 A KR20210060926 A KR 20210060926A KR 20220153396 A KR20220153396 A KR 20220153396A
Authority
KR
South Korea
Prior art keywords
frame
remote
rendered
information
present disclosure
Prior art date
Application number
KR1020210060926A
Other languages
English (en)
Inventor
입에릭
양현구
송재연
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020210060926A priority Critical patent/KR20220153396A/ko
Priority to PCT/KR2022/006748 priority patent/WO2022240192A1/en
Priority to US17/662,987 priority patent/US20220366641A1/en
Publication of KR20220153396A publication Critical patent/KR20220153396A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/05Geographic models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • H04N19/25Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding with scene description coding, e.g. binary format for scenes [BIFS] compression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/20Indexing scheme for editing of 3D models
    • G06T2219/2004Aligning objects, relative positioning of parts

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • Software Systems (AREA)
  • Geometry (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Remote Sensing (AREA)
  • Architecture (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Processing Or Creating Images (AREA)

Abstract

원격 렌더링 장치에 의해 수행되는 AR (augmented reality) 원격 렌더링 프로세스를 위한 방법은 라이브 지오메트리 정보 (live geometry information) 및 앵커 정보 (anchor information)를 획득하는 단계, 라이브 지오메트리 정보 및 앵커 정보에 기초하여, 3D 장면 합성을 수행하는 단계, AR 장치로부터 포즈 정보를 수신하고, 포즈 정보에 기초하여 합성된 3D 장면의 2D 프레임을 렌더링 (rendering)하는 단계, 렌더링된 2D 프레임에 프레임 처리를 수행하는 단계, 및 수행된 프레임 처리와 관련한 메타 데이터 및 렌더링된 2D 프레임과 관련한 메타 데이터를 획득하는 단계를 포함할 수 있다.

Description

AR 원격 렌더링 프로세스를 위한 방법 및 장치{Method and apparatus for AR remote rendering processes}
본 개시는 포인트 클라우드 및 메쉬들로 표현되는 3D 미디어, 360 비디오, 2D 비디오를 포함하는 가상 현실, 혼합 현실 및 증강 현실 콘텐츠의 멀티미디어 콘텐츠 처리 저작(authoring), 전처리, 후처리, 메타데이터 전달, 전달, 디코딩 및 렌더링에 관한 것이다. 또한, 본 개시는 장면 기술(scene descriptions), 동적 장면 기술, 동적 장면 기술 지원 시한(timed) 미디어, 장면 기술 포맷들, gITF, MPEG 미디어, ISOBMFF 파일 포맷, VR 장치들, XR 장치들, 몰입형 콘텐츠 및 미디어의 지원, UTC/TAI 시간에 기반하는 동적 장면 업데이트, 프레젠테이션 시간, 또는 (사용자 인터랙션에 의해 트리거 가능한) 이벤트들에 관한 것이다.
무선 통신의 세대간 발전을 고려하여, 음성 통화, 멀티미디어 서비스 및 데이터 서비스와 같이 인간을 대상으로 하는 서비스를 위주로 기술이 개발되어 왔다. 5G(5 세대) 통신 시스템의 상용화를 따라, 접속되는 장치들의 수가 기하급수적으로 증가할 것이라고 예상된다. 이들은 계속해서 통신 네트워크들에 연결될 것이다. 연결되는 사물들의 예로는 차량, 로봇, 드론, 가전기기, 디스플레이, 다양한 인프라에 연결되는 스마트 센서, 건설 기계, 및 공장 설비가 포함될 수 있다. 모바일 기기들은 증강 현실 안경, 가상 현실 헤드셋, 및 홀로그램 기기와 같은 다양한 형태로 진화할 것이라 예상된다. 6G(6 세대) 시대에 수천억 개의 기기들과 사물들을 연결해 다양한 서비스를 제공하기 위하여, 향상된 6G 통신 시스템을 개발하기 위한 노력이 이루어져 왔다. 이런 이유로, 6G 통신 시스템을 비욘드(beyond) 5G 시스템이라 부른다.
2030년 경에 상용화될 것으로 예상되는 6G 통신 시스템은 테라(tera) 레벨 bps의 최고 데이터 전송 속도 및 100μsec 미만의 무선 지연시간을 가질 수 있어, 5G 통신 시스템에 비해 50배 빠르고 5G 통신 시스템의 1/10의 무선 지연시간을 가질 수 있다.
그러한 높은 데이터 전송 속도와 초저 지연시간을 달성하기 위해, terahertz 대역(예를 들어, 95GHz 내지 3THz 대역)에서 6G 통신 시스템들을 구현하는 것이 고려되어 왔다. 5G에서 도입한 mmWave 대역들에서보다 심각한 terahertz 대역에서의 경로 손실 및 대기 흡수로 인해, 신호 전송 거리(즉, 커버리지)를 보장할 수 있는 기술이 보다 중요해질 것이다. 커버리지를 보장하기 위한 주요 기술들로서, 무선 주파수(RF) 요소들, 안테나들, OFDM(orthogonal frequency division multiplexing)보다 우수한 커버리지를 가진 새로운 파형들, 빔포밍 및 대규모 MIMO(multiple input multiple output), 전차원 MIMO(FD-MIMO), 어레이 안테나들, 및 대규모 안테나들 같은 멀티 안테나 전송 기술들의 개발이 필요하다. 그 외에, 메타물질 기반 렌즈와 안테나들, 궤도 각 운동량(OAM), 및 재구성 가능 인텔리전트 표면(RIS)와 같이 terahertz 대역 신호들의 커버리지를 향상시키기 위한 새로운 기술들에 대한 논의가 진행되어 왔다.
또한, 스펙트럼 효율성 및 전반적인 네트워크 성능을 향상시키기 위해, 6G 통신 시스템을 위해 다음과 같은 기술들이 개발되고 있다: 업링크 전송 및 다운링크 전송이 동일한 주파수 자원을 같은 시간에 동시 사용할 수 있도록 하는 풀 듀플렉스(full-duplex) 기술; 위성, HAPS(high-altitude platform stations) 등을 통합된 방식으로 활용하기 위한 네트워크 기술; 모바일 기지국 등을 지원하고 네트워크 운용 최적화 및 자동화 등을 가능하게 하는 개선된 네트워크 구조; 스펙트럼 사용 예측에 기반하는 충돌 회피를 통한 동적 스펙트럼 공유 기술; 6G 개발을 위한 설계 단계부터 인공 지능(AI)을 활용하고 단대단(end-to-end) AI 지원 기능을 내재화함으로써 전반적 네트워크 운용을 향상하도록 무선 통신에서 AI 사용; 및 네트워크를 통해 도달 가능한 초고성능 통신 및 컴퓨팅 자원(모바일 엣지 컴퓨팅(MEC), 클라우드 등)을 이용한 UE 컴퓨팅 능력의 한계 극복을 위한 차세대 분산 컴퓨팅 기술. 그 외에, 6G 통신 시스템에서 사용될 새로운 프로토콜들의 설계, 하드웨어 기반의 보안 환경 및 안전한 데이터 사용을 구현하기 위한 메커니즘 개발, 및 프라이버시 관리를 위한 기술 개발을 통해, 장치 간 연결성을 강화하고, 네트워크를 최적화시키고, 네트워크 개체들의 소프트웨어화를 촉진하며, 무선 통신의 개방성을 높이려는 시도들이 지속되고 있다.
사람 대 기계(P2M)뿐 아니라 기계 대 기계(M2M)를 포함하는 초연결 6G 통신 시스템의 연구 개발이 차후의 고연결 경험을 가능하게 할 것이라고 기대된다. 특히, 진정한 몰입형 XR(extended reality), 고충실 모바일 홀로그램, 및 디지털 복제와 같은 서비스들이 6G 통신 시스템을 통해 제공될 수 있을 것으로 기대된다. 또한, 상기 기술들이 산업, 의료, 자동차, 및 가전 기기들과 같은 다양한 분야에 적용될 수 있도록, 6G 통신 시스템을 통해 보안 및 안정성 향상을 위한 원격 수술, 산업 자동화, 및 비상 대응과 같은 서비스들이 제공될 수 있다.
VR 및 AR의 큰 난제는 그러한 몰입형 경험들을 위한 멀티미디어 콘텐츠 처리에 요구되는 연산 능력의 양이다. VR 및 AR 장치들의 형태는 통상적으로 HMD(head mounted display) 또는, 심지어, 안경(AR 안경 등)이므로, 그러한 형태들은 연산 능력(처리(프로세싱) 능력)과 배터리 용량(전력 소비)에 있어 내재적인 한계를 가지게 된다.
클라우드 게임에 있어서, 많은 연산 처리는 클라우드에서 수행된다. 마찬가지로, VR 및 AR 서비스에 있어서, 소정의 많은 연산 처리들을 원격 서버에서 수행하는 것 또한 가능하다.
그러나, AR과 같은 특정 서비스들은 그들의 장치 디스플레이를 통해 사용자 환경 안에 매우 정확하게 콘텐츠를 증강할 것을 요한다. 그로써, AR 서비스의 원격 렌더링은 렌더링된 2D 프레임들과 증강/디스플레이 시간 사이의 지연 시간(latency)에 민감하게 된다.
클라우드 게임을 위한 기존의 처리 플로우들은 AR을 위해 렌더링할 때 중복을 고려하지 않으며, 또한 원격 렌더링이 사용될 때 AR 장치에 대한 추가 AR 합성(composition) 요건들을 고려하지 않는다.
본 개시는 렌더링된 2D 프레임이 인코딩되어 장치로 보내지기 전에 그것을 추가 처리하는 동작을 포함하는 AR 서비스의 처리 플로우를 정의한다. 또한, AR 합성과 관련된 추가 처리는 AR 장치 내에도 정의된다. 프레임 처리 및 합성 단계들 둘 다에 있어서, 요구되는 메타데이터가 정의되고, 그러한 단계들의 결과적인 효과 역시 설명된다.
도 1은 통상적인 클라우드 게임 처리 플로우의 일 예를 도시한다.
도 2는 AR 시 사용자 뷰의 합성을 도시한다.
도 3은 본 개시의 일 실시예에 따라, 스트림 기반 AR 원격 렌더링의 처리 플로우를 도시한다.
도 4는 본 개시의 일 실시예에 따라, 스트림 기반 AR 원격 렌더링의 처리 플로우를 도시한다.
도 5a는 본 개시의 일 실시예에 따라, 스트림 기반 AR 원격 렌더링의 처리 플로우를 도시한다.
도 5b는 본 개시의 일 실시예에 따라, 스트림 기반 AR 원격 렌더링의 처리 플로우를 도시한다.
도 6a는 본 개시의 일 실시예에 따라, 스트림 기반 AR 원격 렌더링의 처리 플로우를 도시한다.
도 6b는 본 개시의 일 실시예에 따라, 스트림 기반 AR 원격 렌더링의 처리 플로우를 도시한다.
도 7은 본 개시의 일 실시예에 따라, 스트림 기반 AR 원격 렌더링의 처리 플로우를 도시한다.
도 8a는 본 개시의 일 실시예에 따라, 스트림 기반 AR 원격 렌더링의 처리 플로우를 도시한다.
도 8b는 본 개시의 일 실시예에 따라, 스트림 기반 AR 원격 렌더링의 처리 플로우를 도시한다.
도 9는 본 개시의 일 실시예에 따라, 스트림 기반 AR 원격 렌더링의 처리 플로우를 도시한다.
도 10은 본 개시의 일 실시예에 따라, 스트림 기반 AR 원격 렌더링의 처리 플로우를 도시한다.
도 11은 본 개시의 일 실시예에 따라, 스트림 기반 AR 원격 렌더링의 처리 플로우를 도시한다.
도 12는 본 개시의 일 실시예에 따라, 스트림 기반 AR 원격 렌더링의 처리 플로우를 도시한다.
도 13은 본 개시의 실시예들에 따른 AR 장치를 도시한다.
도 14는 본 개시의 실시예들에 따른 원격 렌더링 장치를 도시한다.
또한, 본 명세서에서, “a, b 또는 c 중 적어도 하나를 포함한다”는 “a만 포함하거나, b만 포함하거나, c만 포함하거나, a 및 b를 포함하거나, b 및 c를 포함하거나, a 및 c를 포함하거나, a, b 및 c를 모두 포함하는 것을 의미할 수 있다. 본 개시에서, 계층 (계층장치)는 entity로 지칭될 수도 있다. 이하 본 개시의 동작 원리들을, 첨부된 도면을 참조하여 상세하게 설명한다. 이하의 내용에서, 잘 알려진 기능들이나 구성들에 대해서는, 불필요한 세부사항들로 본 개시를 모호하게 만들 수 있으므로 상세히 기술하지 않을 것이다. 본 명세서에서 사용되는 용어들은 본 개시에 사용된 기능들을 고려하여 정의되며, 사용자들이나 운영자들의 의도 또는 일반적으로 사용되는 방법에 따라 바뀔 수 있다. 따라서, 그러한 용어들의 정의는 본 명세서의 전체적인 내용에 기반하여 이해될 수 있다.
같은 이유로, 도면에서 일부 구성요소들은 과장되거나, 생략되거나, 대략적으로 도시될 수 있다. 각각의 구성요소의 크기 또한, 각각의 구성요소의 실제 크기에 정확하게 대응하는 것은 아니다. 각각의 도면에서, 동일하거나 대응되는 구성요소들은 동일한 참조 부호로 제시되어 있다.
본 개시의 실시예들과 첨부된 도면들에 대한 이하의 상세 설명을 참조하여 본 개시의 이점들 및 특징들과 그것을 이행하는 방법들을 보다 쉽게 이해할 수 있을 것이다. 그러나 본 개시는 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있다; 본 개시의 실시예들은 본 개시가 철저하고 완전도록, 그리고 이 기술분야에서 통상의 기술을 가진 이에게 본 개시의 개념을 온전히 전달할 수 있도록 하기 위해 제공된다. 따라서, 본 개시의 범위는 첨부된 청구항들을 통해 규정된다. 명세서 전체에 걸쳐, 유사한 참조부호는 유사한 기능을 지칭한다. 흐름도 내 블록들이나 흐름도들의 조합은 컴퓨터 프로그램 명령어들에 의해 수행될 수 있다는 것을 알아야 한다. 그러한 컴퓨터 프로그램 명령어들은 범용 컴퓨터, 특수 목적 컴퓨터, 또는 다른 프로그래머블 데이터 프로세싱 장치의 프로세서 상에 탑재될 수 있으므로, 컴퓨터나 다른 프로그래머블 데이터 프로세싱 장치의 프로세서에 의해 수행되는 명령어들은 흐름도 블록(들) 안에서 기술된 기능들을 수행하는 유닛들을 생성한다.
컴퓨터 프로그램 명령어들은 컴퓨터나 다른 프로그래머블 데이터 프로세싱 장치가 특정 방식으로 기능을 구현하게 할 수 있는 컴퓨터 사용가능 또는 컴퓨터 판독가능 메모리에 저장되므로, 컴퓨터 사용가능 또는 컴퓨터 판독가능 메모리에 저장된 명령어들이 흐름도 블록(들) 안에 기술된 기능들을 수행하기 위한 명령어 유닛들을 포함하는 제조품을 생성할 수도 있다. 컴퓨터 프로그램 명령어들은 컴퓨터나 다른 프로그래머블 데이터 프로세싱 장치 상에 탑재될 수도 있으며, 그에 따라 일련의 동작들이 그 컴퓨터나 다른 프로그래머블 데이터 프로세싱 장치에서 수행될 때 컴퓨터로 실행되는 프로세스를 생성함으로써 컴퓨터나 다른 프로그래머블 데이터 처리 장치를 동작시키기 위한 명령어들이 흐름도 블록(들)에 기술된 기능들을 수행하기 위한 동작들을 제공할 수 있다.
또한, 각각의 블록은 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 명령어들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 일부 대안적 구현예들에서 블록들 안에서 언급되는 기능들은 순서와 다르게 발생할 수 있다는 것 역시 알아야 한다. 예를 들어, 두 개의 연속 블록들은 대응하는 기능들에 따라, 동시에, 혹은 반대의 순서로 실행될 수도 있다.
여기 사용되는 “유닛(부)”이라는 용어는 소프트웨어 구성요소나 FPGA(field-programmable gate array)나 ASIC(application-specific integrated circuit)과 같은 하드웨어 구성요소를 의미하며, 특정 기능을 수행한다. 그러나 “유닛(부)”이라는 용어가 소프트웨어 또는 하드웨어에 국한되는 것은 아니다. “유닛(부)”는 어드레싱 가능한 저장 매체 내에 있도록 구성되거나, 하나 이상의 프로세서들을 동작시키도록 구성될 수 있다. 따라서, 예를 들어 "유닛(부)"는 구성요소들(예를 들어, 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들), 프로세스들, 함수들, 특성들, 절차들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드들, 회로들, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함할 수 있다.
구성요소들 및 “유닛(부)들”에 의해 제공되는 기능은 보다 적은 수의 구성요소들 및 “유닛(부)들”과 결합되거나, 추가적 구성요소들 및 “유닛(부)들”로 나눠질 수 있다. 또한, 구성요소들 및 “유닛(부)들”은 기기 또는 보안 멀티미디어 카드 내 하나 이상의 CPU(central processing unit)들을 재생시키도록 구현될 수 있다. 또한, 본 개시의 실시예들에서, “유닛(부)”은 적어도 하나의 프로세서를 포함할 수 있다. 본 개시에 대한 이하의 내용에서, 잘 알려진 기능들이나 구성들에 대해서는, 불필요한 세부사항들로 본 개시를 모호하게 만들 수 있으므로 상세히 기술하지 않을 것이다.
최근 멀티미디어의 발달은 멀티미디어 캡처, 멀티미디어 (포맷들)의 저장, 멀티미디어 (코덱 등)의 압축에 대한 연구 개발뿐 아니라, 사용자들에게 보다 몰입되는 멀티미디어 경험을 제공할 수 있는 새로운 기기들의 형식 안에서 그러한 멀티미디어를 제공하는 것을 포함할 수 있다. 보다 높은 비디오 해상도, 즉 8K 해상도, 및 HDR과 같은 몰입 기술들을 이용하여 보다 넓은 TV 디스플레이 상에 그러한 8K 비디오를 디스플레이하는 것의 추구를 통해, 많은 멀티미디어 소비의 초점은 모바일 스마트폰과 태블릿 등의 휴대형 기기들을 사용하는 보다 개인적인 경험으로 이동하여 왔다. 몰입형 멀티미디어의 또 다른 유행하는 분야가 가상 현실(VR)과 증강 현실(AR)이다. 그러한 VR 및 AR멀티미디어는 보통 사용자에게 해당하는 VR 또는 AR 헤드셋이나 안경(가령, AR 안경)을 착용할 것을 요하며, 이 경우 사용자의 시야는 가상 세계(VR)로 둘러싸이거나, 사용자의 시야와 환경이 자신의 환경 안으로 로컬화되거나 로컬화되지 않을 수 있는 멀티미디어로 증강됨으로써 그것들이 실세계 환경의 일부로 보여지게 한다.
VR 및 AR 멀티미디어와 관련하여 최근의 컴퓨터 기술의 진보는 또한 고품질의 게임 체험이 이루어지게 하고 있다. 의심의 여지 없이 VR 게임은 예외적으로 높은 연산 요건을 가지지만, 모바일 게임의 추세 때문에라도 클라우드 게임 서비스가 보다 대중화되고 있으며, 이때 3D 게임 렌더링 및 절두체 컬링(frustum culling)과 같은 헤비(heavy) 프로세싱 단계들은 (클라우드) 서버 안에서 수행되고, 렌더링된 2D 비디오 프레임들은 소비 장치로 보내진다.
도 1은 통상적인 클라우드 게임 처리 플로우의 일 예를 도시한다. 게임 엔진(즉, 원격 렌더러(renderer))은 일반적으로 클라우드 게임 장치에 연결되는 클라우드 네트워크 서버 안에 존재한다. 원격 렌더러 및 장치의 처리(프로세싱) 플로우는 다음과 같다:
-원격 렌더러는 장면 정보를 이용하여 3D로 게임 장면을 구성한다.
-원격 렌더러는 업데이트된 사용자 정보/입력에 따라 3D 장면의 2D 프레임을 렌더링하며(절두체 컬링), 일반적인 사용자 입력들에는 제어기 제어 입력들이 포함된다.
-원격 렌더러는 렌더링된 2D 프레임을 압축한다.
-원격 렌더러는 렌더링되고 압축된 2D 프레임을 장치로 보낸다.
-장치는 2D 프레임을 디코딩하고 표현(present)한다.
클라우드 게임에 있어서, 게임 오브젝트들과 장면 정보는 이미 클라우드 네트워크 안에 존재하며, 사용자 입력만 게임 장치로부터 네트워크로 전달된다(가령, RTCP나 그 유사한 것을 통해 장치로부터 네트워크로 보내는 제어기 입력).
도 2는 AR 시 사용자 뷰의 합성을 도시한다. 보다 구체적으로, 도 2는 사용자의 한쪽 눈 뷰의 일 예이다.
원격 렌더링된 장면(200)은 사용자 FoV(205) 안에 있는 모든 것이다. 사용자 FoV(사용자 시야)(205)는 사용자 보기의 시야(자신의 실제 FoV)를 나타내고, 장치 디스플레이 FoV(210)는 렌더링된 AR 오브젝트들(215, 220)이 안에 놓여져서 디스플레이되는 장치 디스플레이의 시야를 나타낸다. 렌더링된 AR 오브젝트들(215, 220)은 사용자 주변 환경의 대응되는 실제 배경면 상에 자연스럽게 증강되도록 놓여진다. AR 오브젝트들은 일반적으로, 메쉬들이나 포인트 클라우드들과 같은 3D 입체 매체이며, 이러한 오브젝트들은 사용자의 자세(pose)와 장면 환경에 따라 렌더링됨으로써 시차(parallax)와 자연성이 획득된다.
도 3은 본 개시의 일 실시예에 따라, 스트림 기반 AR 원격 렌더링의 처리 플로우를 도시한다.
단계 305에서, AR 장치가 포즈 정보, 라이브 기하구조 정보(또는 캡처된 비디오) 및 앵커(anchor) 정보를 원격 렌더러에게 보낸 후, 원격 렌더러가 포즈 정보, 라이브 기하구조 정보, 및 앵커 정보를 이용하여 3D로 장면을 구성한다.
단계 310에서, 원격 렌더러는 AR 장치로부터의 업데이트된 포즈 정보에 따라 3D 장면의 2D 프레임을 렌더링한다(절두체 컬링, frustum culling).
단계 315에서, 원격 렌더러는 중복을 줄이기 위해, 렌더링된 2D 프레임 처리를 수행한다. 원격 렌더러는 처리된 2D 프레임과 관련된 메타데이터를 생성한다. 본 개시의 일 실시예에 따라, 원격 렌더러는 패킹(packing), 빈 픽셀들에 메타데이터 포함시키기, 프레임과 관련된 메타데이터를 생성 및 병합하기, 렌더링된 뷰포트(viewport) 프레임 처리 메타데이터 포함시키기, 및 AR 합성 메타데이터와 같은 처리를 수행한다.
단계 320에서, 원격 렌더러는 처리된, 렌더링된 2D 프레임을 압축한다.
단계 325에서, 원격 렌더러가 렌더링되고 압축된 2D 프레임을, 대응하는 메타데이터와 함께 AR 장치로 보낸 후, AR 장치가 렌더링된 2D 프레임을 디코딩한다.
단계 330에서, AR 장치는 2D 프레임 처리를 수행할 수 있다. AR 장치는 해당 프레임을 사용자의 가장 최근 자세 안에 보다 잘 증강(구성/등록)하기 위해, AR 오브젝트들을 나타내는 영역들에 따라 전체적으로나 부분적으로 2D 프레임 처리를 수행할 수 있다. 본 개시의 일 실시예에 따라, AR 장치는 프레임 처리가 적용되기 전에, 원격 렌더러에 의해 렌더링된 오리지널 프레임을 복원할 수 있다.
단계 335에서, AR 장치는 프레젠테이션하기 전에 2D AR 프레임을 (재)구성한다(AR 합성, AR compositing).
원격 렌더러에 의해 AR 프레임을 렌더링하기 위해 사용된 포즈 정보 및 AR 장치에 의해 AR 프레임이 수신될 때의 사용자의 업데이트된 포즈 정보 사이에서의 지연 시간(latency)으로 인해, AR 프레임이 변경되지 않고 그 자체로서 렌더링되는 경우, 지연 시간 도중에 발생되는 사용자 자세의 변화는 사용자 자신의 환경 내 가상 오브젝트들에 대한 부정확한 증강으로 이어진다. 부정확한 증강은 AR 경험의 현실성을 크게 떨어뜨린다(AR 오브젝트들이 장면 내에서 사실적으로 “앉아 있는 것”으로 보이지 않기 때문이다)
도 4는 본 개시의 일 실시예에 따라, 스트림 기반 AR 원격 렌더링의 처리 플로우를 도시한다. 보다 구체적으로, 도 4는 도 3의 단계 305를 구체적으로 설명하기 위한 도면이다.
원격 렌더러는 가상 AR 오브젝트들(입체적 매체 또는 그와 유사한 것들)이 사실적으로 보여지도록 환경 안에 구성할 수 있기 위해, 사용자 주변 환경에 대한 이해를 필요로 한다. 그로 인해, AR 장치로부터의 데이터를 통해 얻어진 라이브 기하구조 정보가 사용자 환경을 위한 기준으로 사용된다. (사용자 선택 또는 다른 수단을 통한) 이러한 환경 안에서의 콘텐츠 배치는 콘텐츠 앵커 정보로서 표현된다. 이러한 정보들이 손쉽게 사용될 수 있으면, 그에 따라 3D 오브젝트들(입체적 매체)이 3D 장면 내에 배치될 수 있어, 도 4에 도시된 것과 같이 구성된 3D 장면이 나올 수 있다.
도 5a는 본 개시의 일 실시예에 따라, 스트림 기반 AR 원격 렌더링의 처리 플로우를 도시한다. 보다 구체적으로, 도 5a는 AR 장치(510)가 카메라들(RGB 및/또는 심도)을 통해 자신의 환경을 캡처하는 경우이다.
단계 515에서, AR 장치(510)가 사용자의 주변 환경을 캡처한다.
단계 520에서, AR 장치(510)는 라이브 기하구조 정보를 생성한다. 라이브 기하구조 정보는 일반적으로, 포인트 클라우드 또는 메쉬로 표현될 수 있으며, 분포가 희박할 수도 그렇지 않을 수도 있다. 그러한 라이브 기하구조 정보 안에서 중요한 정보는 일반적으로 AR 콘텐츠(입체적 매체)의 콘텐츠 등록에 사용될 수 있는 환경(수평 또는 수직)의 표면들(surfaces)을 식별하는 것이다. 구체적으로 맞춤화된/만들어진 입체적 매체가 라이브 기하구조 내에서 소정의 오브젝트들로 증강될 수 있도록, 그러한 오브젝트들이 (오브젝트 인식/의미론적 통찰과 같은 수단을 통해) 라이브 기하구조 정보 안에서 식별될 수도 있다.
단계 525에서, AR 장치(510)는 처리를 위해 라이브 기하구조 정보를 원격 렌더러(505)에게 보낸다. 그러한 처리는 AR 장치 등록 목적(SLAM 등)을 위한 것으로, 그에 따라 (콘텐츠 등록을 위해) 입체적 매체가 사용자 환경 안에 정확하게 구성될 수 있다.
단계 530에서, 원격 렌더러(505)는 라이브 기하구조 정보를 3D 장면 합성(콘텐츠 등록)을 위한 기준으로서 사용한다.
도 5b는 본 개시의 일 실시예에 따라, 스트림 기반 AR 원격 렌더링의 처리 플로우를 도시한다. 보다 구체적으로, 도 5b는 원격 렌더러(535)가 라이브 기하구조 생성을 수행하는 경우이다(계산량이 많으므로).
단계 545에서, AR 장치(540)가 사용자의 주변 환경을 캡처한다.
단계 550에서, AR 장치(540)는 캡처된 데이터를 원격 렌더러(535)에게 보낸다. 본 개시의 일 실시예에 따르면, RGB/심도 이미지들과 같이 캡처된 데이터는 비디오 코덱이나 그와 유사한 것에 의해 압축될 수 있다.
단계 555에서, 원격 렌더러(535)는 캡처된 데이터에 기반하여 라이브 기하구조 정보를 생성한다. 라이브 기하구조 정보는 일반적으로, 포인트 클라우드 또는 메쉬로 표현될 수 있으며, 분포가 희박할 수도 그렇지 않을 수도 있다. 그러한 라이브 기하구조 정보 안에서 중요한 정보는 일반적으로 AR 콘텐츠(입체적 매체)의 콘텐츠 등록에 사용될 수 있는 환경(수평 또는 수직)의 표면들(surfaces)을 식별하는 것이다. 구체적으로 맞춤화된/만들어진 입체적 매체가 라이브 기하구조 내에서 소정의 오브젝트들로 증강될 수 있도록, 그러한 오브젝트들이 (오브젝트 인식/의미론적 통찰과 같은 수단을 통해) 라이브 기하구조 정보 안에서 식별될 수도 있다.
단계 560에서, 원격 렌더러(535)는 라이브 기하구조 정보를 3D 장면 합성(콘텐츠 등록)을 위한 기준으로서 사용한다.
도 6a는 본 개시의 일 실시예에 따라, 스트림 기반 AR 원격 렌더링의 처리 플로우를 도시한다. 보다 구체적으로, 도 6a는 앵커 정보가 일반적으로 AR 오브젝트를 어디에 배치할지에 대한 사용자 선택의 출력이며, 그와 같은 것이 미리 캡처된 라이브 기하구조를 기준으로 생성되는 경우이다.
단계 615에서, AR 장치(610)가 사용자 입력을 수신한다. 본 개시의 일 실시예에 따르면, 사용자 입력은 콘텐츠 배치 선택일 수 있다.
단계 620에서, AR 장치(610)는 라이브 기하구조 정보를 생성한다. 본 개시의 일 실시예에 따르면, 앵커 정보는 콘텐츠 등록을 위한 입력, 예를 들어 가상 오브젝트를 장면 내 어디에 배치할지에 대한 위치로서 사용되는 정보를 포함할 수 있다.
단계 625에서, AR 장치(610)는 앵커 정보를 원격 렌더러(605)에게 보낸다.
단계 630에서, 원격 렌더러(605)는 앵커 정보를 3D 장면 합성(콘텐츠 등록)을 위한 기준으로서 사용한다.
도 6b는 본 개시의 일 실시예에 따라, 스트림 기반 AR 원격 렌더링의 처리 플로우를 도시한다. 도 6b는 AR 장치(640)가 AR 오브젝트의 배치를 구체적으로 선택하지 않는 경우이다.
단계 645에서, AR 장치(640)는 사용자 입력을 수신하지 않는다. 본 개시의 일 실시예에 따르면, 사용자 입력은 콘텐츠 배치 선택일 수 있다. 단계 645는 생략될 수 있다.
단계 650에서, AR 장치(650)는 메타데이터를 생성한다. 본 개시의 일 실시예에 따르면, 메타데이터는 AR 오브젝트(들)을 적합하게 보여지도록 증강시키기 위해 원격 렌더러(635)를 특정할 수 있다. 본 개시의 또 다른 실시예에 따르면, 메타데이터는 원격 렌더러에게 콘텐츠 배치 선택을 수행하도록 지시할 수 있다. AR 장치(650)는 (사양의 한계나 서비스 특성으로 인해) 원격 렌더러가 콘텐츠 배치 선택 결정을 수행하기를 원한다는 것을 통지해야하며, 이것은 플래그와 같은 메타데이터나 그와 비슷한 메타데이터를 통해 시그날링될 수 있다.
단계 655에서, AR 장치(650)는 메타데이터를 원격 렌더러(635)에게 보낸다.
단계 660에서, 원격 렌더러(635)는 메타데이터에 기반하여 콘텐츠 배치 선택을 수행한다.
단계 665에서, 원격 렌더러(635)는 앵커 정보를 생성한다. 본 개시의 일 실시예에 따르면, 앵커 정보는 콘텐츠 등록을 위한 입력, 예를 들어 가상 오브젝트를 장면 내 어디에 배치할지에 대한 위치로서 사용되는 정보를 포함할 수 있다.
단계 670에서, 원격 렌더러(635)는 앵커 정보를 3D 장면 합성(콘텐츠 등록)을 위한 기준으로서 사용한다.
도 7은 본 개시의 일 실시예에 따라, 스트림 기반 AR 원격 렌더링의 처리 플로우를 도시한다. 보다 구체적으로, 도 7은 도 3의 단계 310를 구체적으로 설명하기 위한 도면이다.
원격 렌더러에 의해 3D 장면이 구성되면, 사용자(및 AR 장치)를 나타내는 가상 카메라를 구성된 장면 안에 위치시키기 위해 AR 장치의 (위치 및 방향(보기 방향)을 포함하는) 자세를 나타내는 포즈 정보가 원격 렌더러에 의해 사용된다. 그러한 정보를 사용하여 가상 카메라가 배치되면, 그러한 가상 카메라 자세를 나타내는 2D 렌더링된 뷰(프레임)를 생성하기 위해 (네트워크 대역폭 특성, 원격 렌더러 처리 지연시간, 네트워크 지연시간, AR 장치 처리 기능, AR 장치 디스플레이 특성 등을 고려한) 서비스 요건들에 따라 생성된 시각 절두체(view frustum)가 사용된다. 구성된 3D 장면이 라이브 기하구조, 앵커 정보 및 콘텐츠 등록된(배치된) AR 오브젝트들을 모두 포함한다고 해도, 렌더링된 2D 프레임은 포즈 정보에 의해 표현되는 가상 카메라의 위치 및 보기 방향에 기반하여 2D 프레임에 렌더링되었던 AR 오브젝트들만을 포함한다. 이후 단계에서 AR 장치에 의해 렌더링될 때 그러한 2D 프레임 렌더링되는 AR 오브젝트들은 사용자 환경 안에 증강되도록(즉, 환경 안에서 실제 수평 또는 수직 표면 상에 존재하는 것처럼 보여지도록) AR 장치 디스플레이 상에 배치된다.
AR 장치(사용자)의 자세는 주기적으로나 요청에 의해 AR 장치에 의해 원격 렌더러로 지속적으로 보내진다. AR 장치의 자세는 포즈 정보로 표현되며, GPS 위도, 경도와 같은) 세계 좌표(world coordinates)로 언급되거나, 장치 등록을 위해 사용되는 라이브 기하구조의 좌표와 같은 다른 좌표들의 집합으로 언급될 수 있다. 이 포즈 정보는 일반적으로, 위치뿐 아니라 방향(보기 방향, viewing direction)을 기술하는 데이터를 포함한다. 포즈 정보의 표현 예는 4원법(quaternion)이다.
도 8a는 본 개시의 일 실시예에 따라, 스트림 기반 AR 원격 렌더링의 처리 플로우를 도시한다.
단계 805에서, 원격 렌더러(801)는 2D 프레임을 렌더링한다.
단계 807에서, 원격 렌더러(801)는 렌더링된 2D 프레임을 인코딩한다. 본 개시의 일 실시예에 따르면, 렌더링된 2D 프레임은 비디오 코덱이나 그와 유사한 것을 사용하여 압축될 수 있다.
단계 809에서, 원격 렌더러(801)는 렌더링된 2D 프레임과 관련된 메타데이터를 생성한다. 본 개시의 일 실시예에 따르면, 메타데이터는 다음과 같은 것을 포함할 수 있다:
-일반적으로 SEI NAL 유닛들을 통해 비트스트림 안에서 전달되나, 전달 프로토콜 레벨(가령, SDP 메시지, RTP 페이로드 헤더 또는 그와 유사한 것)에서 노출될 수도 있는 보통의 비디오 코덱 파라미터들.
-2D 프레임을 렌더링하는데 사용된 포즈 정보
-2D 프레임이 렌더링된 타임스탬프. 이 타임스탬프는 RTP 페이로드 타임스탬프 등을 사용하는 등, 다른 수단을 통해 암묵적으로 결정될 수도 있다.
단계 810에서, 원격 렌더러(801)는 렌더링된 2D 프레임 안에 콘텐츠의 AR 합성과 관련된 메타데이터, 즉 본 발명에서 나중에 기술할 “AR 합성 메타데이터”를 생성하여, 단계 815에서 AR 프레임을 (재)구성할 때 AR 장치에 의해 사용되도록 한다. “AR 합성” 및 “AR 합성 메타데이터”에 대한 상세한 내용은 이하에서 기술될 것이다.
본 개시의 실시예에 따르면, 단계 809 및 단계 810은 구현예에 따라 하나의 단계로 수행될 수 있다.
단계 811에서, 원격 렌더러(801)는 렌더링되고 인코딩된 프레임과 메타데이터를 AR 장치(803)에게 보낸다. 또한, 원격 렌더러(801)는 AR 합성 메타데이터를 AR 장치(803)에게 보낸다
단계 813에서, AR 장치(803)는 렌더링되고 인코딩된 프레임을 디코딩한다.
단계 815에서, AR 장치(803)는 AR 프레임을 (재)구성한다. 본 개시의 일 실시예에 따르면, AR 장치(803)는 AR 합성 메타데이터의 입력을 필요로 할 수 있다. AR 장치의 가장 최근 포즈 정보 또한 사용될 수 있다. 이러한 것들에 대해 본 발명에서 나중에 더 설명할 것이다.
단계 817에서, AR 장치(803)는 AR 프레임을 표현(present)하고 디스플레이한다.
도 8b는 본 개시의 일 실시예에 따라, 스트림 기반 AR 원격 렌더링의 처리 플로우를 도시한다.
단계 823에서, 원격 렌더러(819)는 2D 프레임을 렌더링한다.
단계 825에서, 원격 렌더러(819)는 렌더링된 2D 프레임에 대해 프레임 처리(프로세싱)를 수행한다. 렌더링된 2D 프레임은 렌더링된 AR 오브젝트들만을 포함하므로, 렌더링된 프레임 안에 많은 중복들이 있을 수 있다. 그러한 중복들을 줄이기 위해, 본 개시에서 나중에 기술할 프레임 재패킹(re-packing), 픽셀 필링(pixell filling) 등과 같은 프레임 처리를 수행하는 것이 가능하다.
단계 827에서, 원격 렌더러(819)는 적용된 프레임 처리와 관련된 메타데이터를 생성한다. 본 개시의 일 실시예에 따르면, 적용된 프레임 처리와 관련된 메타데이터는 프레임 복원에 필요한 해당 메타데이터일 수 있다. 프레임 처리에 대해 도 9 내지 12를 통해 보다 상세히 기술할 것이다.
단계 829에서, 원격 렌더러(819)는 처리 프레임을 인코딩한다. 본 개시의 일 실시예에 따르면, 처리된 프레임은 비디오 코덱이나 그와 유사한 것을 사용하여 압축될 수 있다.
단계 831에서, 원격 렌더러(819)는 렌더링된 프레임과 관련된 메타데이터를 생성한다. 본 개시의 일 실시예에 따르면, 렌더링된 프레임과 관련된 메타데이터는 다음과 같은 것을 포함할 수 있다:
-일반적으로 SEI NAL 유닛들을 통해 비트스트림 안에서 전달되나, 전달 프로토콜 레벨(가령, SDP 메시지, RTP 페이로드 헤더 또는 그와 유사한 것)에서 노출될 수도 있는 보통의 비디오 코덱 파라미터들.
-2D 프레임을 렌더링하는데 사용된 포즈 정보
-2D 프레임이 렌더링된 타임스탬프. 이 타임스탬프는 RTP 페이로드 타임스탬프 등을 사용하는 등, 다른 수단을 통해 암묵적으로 결정될 수도 있다.
단계 832에서, 원격 렌더러(819)는 렌더링된 2D 프레임 안에 콘텐츠의 AR 합성과 관련된 메타데이터, 즉 본 발명에서 나중에 기술할 “AR 합성 메타데이터”를 생성하여, 단계 837에서 AR 프레임을 (재)구성할 때 AR 장치에 의해 사용되도록 한다. “AR 합성” 및 “AR 합성 메타데이터”에 대한 상세한 내용은 이하에서 기술될 것이다.
본 개시의 일 실시예에 따르면, 단계 827, 단계 831 및 단계 832는 구현예에 따라 하나의 단계나 두 단계(상기 세 단계들 중 어느 하나를 그에 따라 조합함)로 수행될 수 있다.
단계 833에서, 원격 렌더러(833)는 인코딩된 프레임, 적용된 프레임 처리와 관련된 메타데이터, 및 렌더링된 프레임과 관련된 메타데이터를 AR 장치(821)에게 보낸다.
단계 835에서, AR 장치(821)는 렌더링되고 인코딩된 프레임을 디코딩한다.
단계 837에서, AR 장치(821)는 AR 프레임을 (재)구성한다. 본 개시의 일 실시예에 따르면, AR 장치(821)는 AR 합성 메타데이터의 입력을 필요로 할 수 있다. AR 장치의 가장 최근 포즈 정보 또한 사용될 수 있다. 이러한 것들에 대해 본 개시에서 나중에 더 설명할 것이다.
단계 839에서, AR 장치(821)는 AR 프레임을 표현(present)하고 디스플레이한다.
도 9는 본 개시의 일 실시예에 따라, 스트림 기반 AR 원격 렌더링의 처리 플로우를 도시한다. 보다 구체적으로, 도 9는 렌더링된 AR 오브젝트들을 포함하는 렌더링된 2D 프레임의 중복을 줄이는 2D 프레임 처리의 일 예를 도시한다.
도 9에서, 프레임 내 오브젝트들을 재패킹함으로써 중복 픽셀들의 수가 줄어들고, 그에 따라 전체적인 프레임 사이즈가 줄어든다. 이러한 처리에서, 프레임 내 각각의 오브젝트 위치는 변경될 수도 있고, 회전될 수도 있다.
이러한 2D 프레임 처리를 수행하기 위한 가능한 프로세스들을 이하에서 상세하게 기술할 것이다. (구현예에 따라) 사용되는 이러한 프로세스들의 다양한 조합들이 이 단계를 위해 본 발명이 정의한 여러 실시예들을 규정한다.
도 10은 본 개시의 일 실시예에 따라, 스트림 기반 AR 원격 렌더링의 처리 플로우를 도시한다. 보다 구체적으로, 도 10은 오브젝트 기반 프레임 패킹을 위한 본 발명의 일 실시예를 도시한다.
이하의 신택스는 렌더링된 프레임을 프레임 패킹하기 위해 사용될 수 있는 오브젝트 기반 패킹 구조를 정의한다. 해당 시맨틱스(semantics)가 도면에 도시된다.
-rend_picture_width 및 rend_picture_height로 정의된 렌더링된 픽처(picture) 사이즈는 일반적으로 AR 장치(가령, AR 안경)의 목표 디스플레이 해상도를 대표한다.
-processed_picture_width 및 processed_picture_width로 정의되는 처리된 픽처 사이즈는 동적으로 가변되거나 정적일 수 있다.
-각각의 오브젝트(그 중 2 개가 도 10에 도시됨)에 대해, RectObjectRegionPacking 하에서 정의되는 리사이징(resizing) 가능성과는 별개로, transform_type 필드는 또한, 처리된 프레임이 빈틈없이 패킹되도록 사각형의 오브젝트 영역에 대한 회전을 가능하게 한다.
렌더링된 픽처(렌더링된 2D 프레임)과 처리된 픽처(처리된 2D 프레임) 둘 모두에서, 서로 다른 오브젝트들의 사각형 오브젝트 영역들은 겹칠 수도 겹치지 않을 수도 있으나, 각 오브젝트 영역 내 활성 픽셀들은 겹치지 않을 것이다(그들의 비활성 투명 공간들만이 겹칠 수 있음).
Syntax
Figure pat00001
Figure pat00002
본 개시의 일 실시예에 따르면, 정의된 모든 신택스(syntax)는 각각의 렌더링된 프레임마다 동적으로 변경될 수 있다. 각각의 영역을 식별하기 위해, 코너 포인트들인 좌측 상부(top(상부), left(좌) 신택스 필요), 우측 상부(top, right(우) 신택스 필요), 좌측 하부(bottom(하부), left 신택스 필요), 우측 하부(bottom, right 신택스 필요) 중 적어도 하나가 시그날링을 위해 사용될 수도 있다.
도 11은 본 개시의 일 실시예에 따라, 스트림 기반 AR 원격 렌더링의 처리 플로우를 도시한다. 보다 구체적으로, 도 11은 오브젝트 기반 프레임 패킹을 위한 본 발명의 일 실시예를 도시한다.
본 개시의 일 실시예에 따르면, 렌더링된 2D 프레임을 기술하는 파라미터들은 각각의 렌더링된 프레임마다 변경되나, 패킹된 오브젝트 영역들은 처리된 픽처 안에 정적인 상태를 유지한다. 이것이 도 11에 보여진다. 도 11에서, 처리된 픽처 내 패킹된 오브젝트 영역들은 두 개의 똑같은 크기의 영역들(점선으로 구분된 좌와 우)로서 정의되며, 이 패킹된 오브젝트 영역 내 각각의 오브젝트의 활성 픽셀 영역들은 렌더링된 프레임에 따라 변화된다(프레임 t1 및 t2 사이의 변화 참조).
신택스에 따라서, 각각의 오브젝트의 활성 픽셀 영역은 패킹된 오브젝트 영역의 코너(오브젝트의 좌측 하부(1105) 및 오브젝트의 우측 하부(1110))를 따라 배치된다. 배치 기준에 대한 선택은 사용자 환경 내 앵커링을 위해 사용되는 오브젝트의 엣지(edge)(이 경우, 오브젝트(1105)의 하단 엣지 및 오브젝트(1110)의 우측 엣지)에 해당할 수 있다.
이 실시예의 예시적 신택스가 이하에서 보여지며, 여기서 ObjectBasedPackingStruct는 고정적이고, RectObjectRegionPacking는 동적이다.
Obj_anchor_edge는 AR 장치에 의한 앵커 합성에 사용되는 렌더링된 오브젝트의 엣지를 정의한다.
Syntax
Figure pat00003
Figure pat00004
도 12는 본 개시의 일 실시예에 따라, 스트림 기반 AR 원격 렌더링의 처리 플로우를 도시한다.
도 12에 도시된 바와 같은 본 개시의 일 실시예에 따르면, 프레임의 복잡한 오브젝트 기반 패킹은 필요치 않을 수 있으나, AR 장치의 시계에 대응하는 렌더링된 프레임이 비디오 인코더의 시계에 의해 지원되는 선택가능한 사이즈/해상도에 매치되지 않을 수 있다.
이 실시예에서, 코딩된 픽처 내 렌더링된 프레임을 식별하기 위한 메타데이터만이 필요로 된다. 코딩된 픽처의 사이즈는 코딩 파라미터들(AVC 또는 HEVC NAL 유닛들)을 통해 암묵적으로 알려질 수 있다. 렌더링된 프레임의 기준 포인트 역시 두 개체들(원격 렌더러 및 AR 장치) 사이에서 미리 결정되는 경우, rend_picture_top, rend_picture_left 신택스 파라미터들 또한 필요치 않게 된다(즉, 두 개체들이 렌더링된 프레임 및 코딩된 프레임의 좌측 상부 코너들을 기준 포인트로서 사용하기로 미리 결정한 경우, rend_picture_width 및 rend_picture_height만이 요구된다).
Syntax
Figure pat00005
본 개시의 다른 실시예에 따르면, AR 장치가 요청된 원격 렌더링 서비스를 위해 자신이 선호하는 디스플레이 시계 및 해상도를 원격 렌더러로 보낼 수 있다고 해도, 원격 렌더러가 요청된 시계 및 해상도 지원에 완전하게 따르지 못할 수 있다.
이 실시예에서, 원격 렌더러는 렌더링된 픽처의 해상도에 더해 렌더(render)의 절두체 컬링 프로세스 중에 사용되는 실제 시계(도(degrees)나 래디안(radians) 단위)를 보낼 수 있다. 이러한 것을 지원하는 신택스의 예가 이하에서 보여진다:
Syntax
Figure pat00006
AR 합성
AR을 위한 원격 렌더링은 처리 지연 및 네트워크 지연으로 인해 발생하는 지연들에 매우 민감하다. 원격 렌더링의 주요 지연은 AR 장치로부터 원격 렌더러에게 포즈 정보를 전송하는 시점과 AR 장치가 원격 렌더러로부터 렌더링된 프레임(같은 포즈 정보를 사용하여 렌더링되었음)을 수신하는 시점 사이의 지연 시간이다. 보다 상세하게는:
-AR 장치에서 원격 렌더러로 포즈 정보를 전송하는 네트워크 지연
-원격 렌더러에서 콘텐츠 렌더링, 처리 및 인코딩에 대한 처리 지연
-원격 렌더러에서 AR 장치에게 렌더링된 2D 프레임을 보내는 네트워크 지연.
이러한 지연들을 합한 결과가 중요하지 않다고 간주될 수는 없으며, 이 지연시간 동안, 사용자(AR 장치)의 자세는 계속해서 변할 수 있다. 이전 포즈를 사용하여 원격 렌더러에 의해 렌더링되었던 렌더링된 프레임이 그대로 디스플레이되는 경우, 프레임 내 오브젝트들의 증강이 정확하지 않을 수 있다. 그로 인해, 일 실시예에서, 그러한 부정확함을 정정하기 위해, AR 합성 정보가 원격 렌더러로부터 AR 장치에게 보내질 수 있다. 그러한 AR 합성 정보가 이하에서 기술된다.
AR 합성 메타데이터
AR 합성 메타데이터는 다음과 같은 정보(또는 파라미터)를 포함할 수 있다.
- 오브젝트 앵커 정보
렌더링된 프레임들이 AR 오브젝트들의 2D 렌더들을 포함하더라도, 가장 최근 업데이트된 포즈 정보에 따라 프레임 내 각각의 오브젝트의 위치를 독립적으로 조정할 수 있게 하기 위해, 콘텐츠 등록에 관한 메타데이터(3D 또는 2D) 가 필요로 된다. 정확한 콘텐츠 등록(증강)을 위해, AR 장치가 자신의 주변 환경에 대한 가장 최근의 라이브 기하구조 역시 알고 있다고 가정하여, 3D 앵커 정보가 이 AR 합성 프로세스에 사용될 수 있다. 오브젝트 앵커 정보는 다음과 같은 것을 포함할 수 있다:
-- 오브젝트 앵커 타입 및 위치:
--- 라이브 기하구조에 대해 위치 및 참조되는 트랙테이블: 수평 평면, 수직 평면, 임의의 평면, 오브젝트 표면
--- GPS 좌표나 그와 비슷한 것에 의해 특정되는 세계 공간 내 위치
--- 다른 오브젝트 앵커와 링크됨
--- 디스플레이 뷰포트 내 특정 배치(증강되지 않으나, 사용자의 뷰포트 안에 오버레이됨)
-- 오브젝트 앵커 증강 영역:
--- 오브젝트를 증강시키기 위해 필요한 사용자 환경(라이브 기하구조) 내 최소/최대/절대 표면 영역
--- 증강에 필요한 평면의 최소/최대 영역(cm2 또는 m2)
---- 증강을 위해 GPS 좌표에서 필요한 표면 영역(cm2 또는 m2)
---- 증강의 뷰포트 오버레이에 요구되는 디스플레이 영역(cm2 또는 m2)
- 렌더링된 오브젝트 정보
렌더링된 오브젝트를 프레임 안에 보다 정확히 배치하기 위해 렌더링된 오브젝트와 관련된 메타데이터 또한 사용될 수 있다:
-- 평균 심도(깊이): 3D 오브젝트가 렌더링되었던 평균 깊이(cm, m)로서, 원격 렌더러에 의해 렌더링에 사용되는 포즈 정보로 표시된 것과 같이 사용자/AR 장치의 위치에 위치하는 가상 카메라로부터 참조됨.
-- 실제 오브젝트 사이즈: 경계(bounding) 박스로 나타내는 절대 실제 개체 사이즈(cm, m 단위의 높이, 폭 및 깊이)
-- 오브젝트 품질 순위(프레임 내 다른 렌더링된 오브젝트들에 대한 순위), LoD 해상도 등과 같은 다른 정보.
- 오브젝트 간 정보
소정 AR 장면들에 있어서, 소정 AR 오브젝트은 (콘텐츠 등록/증강 중에) 환경 안에 등록될 때 서로 간에 종속성을 가질 수 있다. 이 경우, 이러한 오브젝트 간 종속성들을 기술하기 위해 추가적 메타데이터가 제공될 수 있다(한 예가 앵커 타입 필드를 통해 오브젝트의 앵커를 다른 오브젝트와 링크하는 것이다). 종속성은 사용자 케이스에 따른 증강의 한계 또는 허가를 설명할 수 있다.
- 최근 단계(late stage) 재투영(re-projection) 정보
최근 단계 재투영을 수행하기 위해, 오브젝트 기반의 최근 단계 투영 정보 또한 원격 렌더러로부터 AR 장치로 보내질 수 있다. 이러한 데이터 집합은 상술한 정보를 포함할 수도, 포함하지 않을 수도 있으며, 2D 렌더링된 프레임 내 오브젝트들에 대한 2D 심도 맵들 같은 형태로 오브젝트들의 특정 심도 데이터를 포함할 수도 있다.
AR 합성 메타데이터가 상술한 정보(또는 파라미터)를 포함하므로, AR 매체를 위한 렌더링 데이터가 AR 원격 렌더링을 통해 감소될 수 있다. 따라서, 감소된 렌더링 데이터는 결과적으로 지연을 줄이게 된다.
도 13은 본 개시의 실시예들에 따른 AR 장치를 도시한다.
도 13를 참조할 때, 장치(1300)는 프로세서(1310), 송수신기(1320), 및 메모리(1330)를 포함할 수 있다. 그러나, 도시된 구성요소들 모두가 필수적인 것은 아니다. AR 장치(1300)는 도 13에 도시된 것보다 많거나 적은 구성요소들로 구현될 수 있다. 또한, 프로세서(1310), 송수신기(1320) 및 메모리(1330)가 다른 실시예에 따라 단일 칩으로 구현될 수도 있다.
상술한 구성요소들을 이하에서 상세히 기술할 것이다.
프로세서(1310)는 제안된 기능, 프로세스, 및/또는 방법을 제어하는 하나 이상의 프로세서들 또는 다른 프로세싱 장치들을 포함할 수 있다. AR 장치(1300)의 동작은 프로세서(1310)에 의해 구현될 수 있다.
송수신기(1320)는 전송되는 신호를 상향 변환 및 증폭하기 위한 RF 전송기, 및 수신된 신호의 주파수를 하향 변환하는 RF 수신기를 포함할 수 있다. 그러나, 다른 실시예에 따라, 송수신기(1320)는 도시된 구성요소들보다 많거나 적은 구성요소들로 구현될 수 있다.
송수신기(1320)는 프로세서(1310)에 연결되어, 신호를 송신 및/또는 수신할 수 있다. 신호는 제어 정보 및 데이터를 포함할 수 있다. 또한, 송수신기(1320)는 무선 채널을 통해 신호를 수신하고, 그 신호를 프로세서(1310)로 출력할 수 있다. 송수신기(1320)는 프로세서(1310)로부터 출력된 신호를 무선 채널을 통해 송신할 수 있다.
메모리(1330)는 AR 장치(1300)에 의해 얻어진 신호에 포함된 제어 정보나 데이터를 저장할 수 있다. 메모리(1330)는 프로세서(1310)에 연결되어, 제안된 기능, 프로세스, 및/또는 방법에 대한 적어도 하나의 명령어 또는 프로토콜 또는 파라미터를 저장할 수 있다. 메모리(1330)는 ROM(read-only memory) 및/또는 RAM(random access memory) 및/또는 하드 디스크 및/또는 CD-ROM 및/또는 DVD 및/또는 다른 저장 소자들을 포함할 수 있다.
도 14는 본 개시의 실시예들에 따른 원격 렌더링 장치를 도시한다.
도 14를 참조할 때, 원격 렌더링 장치(1400)는 프로세서(1410), 송수신기(1420), 및 메모리(1430)를 포함할 수 있다. 그러나, 도시된 구성요소들 모두가 필수적인 것은 아니다. 원격 렌더링 장치(1400)는 도 14에 도시된 것보다 많거나 적은 구성요소들로 구현될 수 있다. 또한, 프로세서(1410), 송수신기(1420) 및 메모리(1430)가 다른 실시예에 따라 단일 칩으로 구현될 수도 있다.
원격 렌더링 장치(1400)는 상술한 원격 렌더러에 해당할 수 있다. 예를 들어, 원격 렌더링 장치(1400)는 도 5a에 도시된 원격 렌더러(635)에 해당할 수 있다.
상술한 구성요소들을 이하에서 상세히 기술할 것이다.
프로세서(1410)는 제안된 기능, 프로세스, 및/또는 방법을 제어하는 하나 이상의 프로세서들 또는 다른 프로세싱 장치들을 포함할 수 있다. 원격 렌더링 장치(1400)의 동작은 프로세서(1410)에 의해 구현될 수 있다.
송수신기(1420)는 전송되는 신호를 상향 변환 및 증폭하기 위한 RF 송신기, 및 수신된 신호의 주파수를 하향 변환하는 RF 수신기를 포함할 수 있다. 그러나, 다른 실시예에 따라, 송수신기(1420)는 도시된 구성요소들보다 많거나 적은 구성요소들로 구현될 수 있다.
송수신기(1420)는 프로세서(1410)에 연결되어, 신호를 송신 및/또는 수신할 수 있다. 신호는 제어 정보 및 데이터를 포함할 수 있다. 또한, 송수신기(1420)는 무선 채널을 통해 신호를 수신하고, 그 신호를 프로세서(1410)로 출력할 수 있다. 송수신기(1420)는 프로세서(1410)로부터 출력된 신호를 무선 채널을 통해 송신할 수 있다.
메모리(1430)는 원격 렌더링 장치(1400)에 의해 얻어진 신호에 포함된 제어 정보나 데이터를 저장할 수 있다. 메모리(1430)는 프로세서(1410)에 연결되어, 제안된 기능, 프로세스, 및/또는 방법에 대한 적어도 하나의 명령어 또는 프로토콜 또는 파라미터를 저장할 수 있다. 메모리(1430)는 ROM(read-only memory) 및/또는 RAM(random access memory) 및/또는 하드 디스크 및/또는 CD-ROM 및/또는 DVD 및/또는 다른 저장 소자들을 포함할 수 있다.
여기 개시된 실시예들 중 적어도 일부는 전용 특수 목적 하드웨어를 사용하여 부분적으로나 전체적으로 구현될 수 있다. 여기에 사용된 ‘구성요소’, ‘모듈’ 또는 ‘유닛’이라는 말들은 비한정적으로, 낱개나 통합 구성요소들의 형태로 된 회로와 같은 하드웨어 소자, FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)를 포함할 수 있으며, 그러한 하드웨어 소자는 소정 작업들을 수행하거나 관련 기능을 제공한다. 일부 실시예들에서, 상술한 요소들은 유형의 지속적이고 어드레스 가능한 저장 매체 상에 상주사도록 구성될 수 있고, 하나 이상의 프로세서들 상에서 실행되도록 구성될 수 있다. 그러한 기능적 요소들은 일부 실시예들에서, 일 예로서 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다. 여기에서 논의된 구성요소들, 모듈들 및 유닛들을 참조하여 실시예들이 기술되었으나, 그러한 기능적 요소들은 보다 적은 수의 요소들로 결합되거나 추가 요소들로 분리될 수 있다. 선택적 특징들의 다양한 조합들을 여기에서 기술하였으며, 기술된 특징들이 임의의 적절한 조합으로 결합될 수 있다는 것을 예상할 수 있다. 특히, 적합하다면 어떤 한 실시예의 특징들이 어떤 다른 실시예의 특징들과 결합될 수 있으나, 그러한 조합들이 상호 배타적일 경우는 예외로 한다. 이 명세서 전체를 통해, “포함한다”는 용어는 특정된 구성요소(들)을 포함하는 것을 의미하나, 다른 것들의 존재에 대한 배제를 의미하는 것은 아니다.
본 출원과 관련하여 본 명세서와 동시에, 혹은 그 이전에 출원되어, 본 명세서와 함께 공람을 위해 개방된 모든 논문과 문서에 관심이 맞추어져 있으며, 그러한 모든 논문과 문서들의 내용은 본문에서 참조의 형식으로 병합된다.
(첨부된 모든 청구범위, 요약서 및 도면들을 포함하는) 이 명세서에 개시된 특성들 모두 및/또는 개시된 어떤 방법이나 프로세스의 단계들 모두는 그러한 특성들 및/또는 단계들 중 적어도 일부가 상호 배타적인 조합을 제외하고, 어떠한 조합으로도 결합될 수 있다.
이 명세서에서 개시된 각각의 특징(부가된 임의의 청구범위, 요약서 및 도면을 포함)은 명시적으로 다른 언급이 없다면, 동일하거나 균등하거나 유사한 목적에 종사하는 다른 대안적 특징들로 대체될 수 있다. 따라서, 명시적인 다른 언급이 없다면, 개시된 각각의 특징은 포괄적인 일련의 균등하거나 유사한 특징들 가운데 한 예에 불과하다.
본 발명은 상술한 실시예들의 상세사항에 국한되지 않는다. 본 발명은 (청구범위, 요약서 및 도면들을 포함하는) 본 명세서에 개시된 특성들 중 어느 신규한 것, 또는 어떤 신규한 조합이나, 개시된 어떤 방법이나 프로세스의 단계들 중 어떤 신규한 것이나 신규한 조합으로 확장된다.

Claims (1)

  1. 원격 렌더링 장치에 의해 수행되는 AR(증강 현실, augmented reality) 원격 렌더링 프로세스를 위한 방법에 있어서,
    라이브 기하구조(live geometry) 정보 및 앵커 정보를 획득하는 단계;
    상기 라이브 기하구조 정보 및 상기 앵커 정보에 기반하여 3D 장면 합성을 수행하는 단계;
    AR 장치로부터 포즈 정보를 수신하는 단계;
    포즈 정보에 기반하여, 상기 합성된 3D 장면의 2D 프레임을 렌더링하는 단계;
    상기 렌더링된 2D 프레임에 대해 2D 프레임 처리를 수행하는 단계; 및
    상기 수행된 프레임 처리와 관련된 메타데이터 및 상기 렌더링된 2D 프레임과 관련된 메타데이터를 획득하는 단계를 포함하는 방법.
KR1020210060926A 2021-05-11 2021-05-11 Ar 원격 렌더링 프로세스를 위한 방법 및 장치 KR20220153396A (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020210060926A KR20220153396A (ko) 2021-05-11 2021-05-11 Ar 원격 렌더링 프로세스를 위한 방법 및 장치
PCT/KR2022/006748 WO2022240192A1 (en) 2021-05-11 2022-05-11 Method and apparatus for ar remote rendering processes
US17/662,987 US20220366641A1 (en) 2021-05-11 2022-05-11 Method and apparatus for ar remote rendering processes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210060926A KR20220153396A (ko) 2021-05-11 2021-05-11 Ar 원격 렌더링 프로세스를 위한 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20220153396A true KR20220153396A (ko) 2022-11-18

Family

ID=83998701

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210060926A KR20220153396A (ko) 2021-05-11 2021-05-11 Ar 원격 렌더링 프로세스를 위한 방법 및 장치

Country Status (3)

Country Link
US (1) US20220366641A1 (ko)
KR (1) KR20220153396A (ko)
WO (1) WO2022240192A1 (ko)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160267720A1 (en) * 2004-01-30 2016-09-15 Electronic Scripting Products, Inc. Pleasant and Realistic Virtual/Augmented/Mixed Reality Experience
US20100257252A1 (en) * 2009-04-01 2010-10-07 Microsoft Corporation Augmented Reality Cloud Computing
KR101677718B1 (ko) * 2010-04-14 2016-12-06 삼성전자주식회사 가상 세계 처리 장치 및 방법
US10417810B2 (en) * 2017-05-31 2019-09-17 Verizon Patent And Licensing Inc. Methods and systems for rendering virtual reality content based on two-dimensional (“2D”) captured imagery of a three-dimensional (“3D”) scene
US10559126B2 (en) * 2017-10-13 2020-02-11 Samsung Electronics Co., Ltd. 6DoF media consumption architecture using 2D video decoder
KR102067823B1 (ko) * 2017-11-27 2020-01-17 한국전자통신연구원 비디오 영상기반 2d/3d ar 실감체험 방법 및 장치
US10939086B2 (en) * 2018-01-17 2021-03-02 Mediatek Singapore Pte. Ltd. Methods and apparatus for encoding and decoding virtual reality content
EP3588249A1 (en) * 2018-06-26 2020-01-01 Koninklijke Philips N.V. Apparatus and method for generating images of a scene
US10607415B2 (en) * 2018-08-10 2020-03-31 Google Llc Embedding metadata into images and videos for augmented reality experience

Also Published As

Publication number Publication date
WO2022240192A1 (en) 2022-11-17
US20220366641A1 (en) 2022-11-17

Similar Documents

Publication Publication Date Title
US11244584B2 (en) Image processing method and device for projecting image of virtual reality content
JP6030230B2 (ja) パノラマベースの3dビデオコーディング
US11509878B2 (en) Methods and apparatus for using track derivations for network based media processing
US11647177B2 (en) Method, apparatus and stream for volumetric video format
US20210006806A1 (en) An apparatus, a method and a computer program for volumetric video
WO2019202207A1 (en) Processing video patches for three-dimensional content
CN113852829A (zh) 点云媒体文件的封装与解封装方法、装置及存储介质
WO2023061131A1 (zh) 媒体文件封装方法、装置、设备及存储介质
CN115989527A (zh) 用于对增强现实媒体对象执行基于锚点的渲染的方法和装置
CN115022715B (zh) 一种沉浸媒体的数据处理方法及设备
EP4005202B1 (en) A method and apparatus for delivering a volumetric video content
US20220368762A1 (en) Method and apparatus for providing media service
US20220366641A1 (en) Method and apparatus for ar remote rendering processes
CN115567756A (zh) 基于视角的vr视频系统和处理方法
US11910054B2 (en) Method and apparatus for decoding a 3D video
KR20220110787A (ko) 이기종 클라이언트 종단점에 대한 스트리밍을 위한 2d 비디오의 적응
WO2023014094A1 (en) Method and apparatus for supporting 360 video
US20230421774A1 (en) Packaging and unpackaging method and apparatus for point cloud media file, and storage medium
US20230032599A1 (en) Methods and apparatuses for encoding, decoding and rendering 6dof content from 3dof+ composed elements
US20230421819A1 (en) Media file unpacking method and apparatus, device, and storage medium
US20230334716A1 (en) Apparatus and method for providing 3-dimensional spatial data based on spatial random access
US20220345681A1 (en) Method and apparatus for encoding, transmitting and decoding volumetric video
US20230403411A1 (en) File decapsulation method and apparatus for free viewpoint video, device, and storage medium
WO2023284487A1 (zh) 容积媒体的数据处理方法、装置、设备以及存储介质
WO2023024839A1 (zh) 媒体文件封装与解封装方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A201 Request for examination