KR20220153381A

KR20220153381A - 미디어 서비스를 제공하기 위한 방법 및 장치

Info

Publication number: KR20220153381A
Application number: KR1020210060899A
Authority: KR
Inventors: 입에릭; 양현구; 송재연
Original assignee: 삼성전자주식회사
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2022-11-18
Also published as: WO2022240205A1; EP4315876A1; CN117322001A; US20220368762A1

Abstract

본 개시는 미디어 서비스를 제공하기 위한 방법 및 장치에 관한 것으로, 본 개시의 일 실시예에 따른 미디어 플레이어는 장면 설명(scene description)의 URL 정보를 수신하고, 수신된 URL 정보에 기초하여, 장면 설명을 위한 트랜스포트 세션을 설정하며, 트랜스포트 세션을 통해, URL 정보를 이용하여 장면 설명을 위한 요청을 전송하고, 요청에 대한 응답으로 장면 설명을 수신할 수 있다.

Description

미디어 서비스를 제공하기 위한 방법 및 장치 {METHOD AND APPARATUS FOR PROVIDING MEDIA SERVICE}

본 개시는 2D 비디오, 360 비디오, 포인트 클라우드들에 의해 표현되는 3D 미디어 및 메시들을 포함하여, 가상 현실(virtual reality), 혼합 현실 및 증강 현실(augmented reality) 콘텐츠들의 멀티미디어 콘텐츠 프로세싱 저작, 프리프로세싱, 포스트 프로세싱, 메타데이터 전달, 딜리버리, 디코딩 및 렌더링에 관한 것이다. 본 개시는 또한 장면 디스크립션들(scene descriptions), 동적 장면 디스크립션들, 시간지정(timed) 미디어, 장면 디스크립션 포맷들, glTF, MPEG 미디어, ISOBMFF 파일 포맷을 지원하는 동적 장면 디스크립션들에 관한 것이다. 본 개시는 또한 VR 디바이스들, XR 디바이스들, 그리고 몰입 콘텐츠들 및 미디어의 지원에 관한 것이다. 추가적으로, 본 개시는 UTC/TAI 시간, 프레젠테이션 시간, 또는 이벤트들(아마도 사용자 상호작용들에 의해 트리거됨)에 기초한 동적 장면 업데이트들에 관한 것이다.

세대에 걸친 무선 통신의 발전을 고려하면, 기술들은 음성 통화들, 멀티미디어 서비스들, 및 데이터 서비스들과 같이 인간들을 타깃으로 하는 서비스들에 대해 주로 발전되어 왔다. 5G(5th-generation) 통신 시스템들의 상용화에 뒤따라, 연결되는 디바이스들의 수는 기하급수적으로 증가할 것이 예상된다. 점점 더, 이것들은 통신 네트워크들에 연결될 것이다. 연결된 사물들의 예들은 차량들, 로봇들, 드론들, 홈 어플라이언스들, 디스플레이들, 다양한 인프라스트럭처들에 연결되는 스마트 센서들, 건설 기계들, 및 공장 장비를 포함할 수 있다. 모바일 디바이스들은 증강 현실 안경, 가상 현실 헤드셋들, 및 홀로그램 디바이스들과 같은 다양한 폼 팩터들(form-factors)로 진화할 것으로 예상된다. 6G (6th-generation) 시대에 수천억 개의 디바이스들 및 사물들을 연결함으로써 다양한 서비스들을 제공하기 위하여, 개선된 6G 통신 시스템들을 개발하려는 노력들이 진행중에 있다. 이러한 이유들로, 6G 통신 시스템들은 beyond-5G 시스템들이라고 지칭된다.

6G 통신 시스템들은, 2030년경 상용화될 것으로 예상되는 것으로, 테라(1,000 기가) 레벨 bps의 피크 데이터 레이트와 100μsec 미만의 라디오 레이턴시를 가질 것이고, 따라서 5G 통신 시스템들보다 50배 빠를 것이고 1/10 라디오 레이턴시를 가진다.

이러한 높은 데이터 레이트 및 초 저(ultra-low) 레이턴시를 완수하기 위하여, 테라헤르츠 대역(예를 들어, 95GHz 내지 3THz 대역들)에서 6G 통신 시스템들을 구현하는 것이 고려되고 있다. 5G에서 도입된 mmWave 대역들의 경로 손실 및 대기 흡수보다 테라헤르츠 대역들에서의 더 가혹한 경로 손실 및 대기 흡수로 인해, 신호 송신 거리(다시 말하면, 커버리지)를 보안화할 수 있는 기술들이 더 중대해질 것으로 예상된다. 커버리지를 확보하기 위한 주요 기술들로서, 라디오 주파수(radio frequency)(RF) 엘리먼트들, 안테나들, 직교 주파수 분할 다중화(orthogonal frequency division multiplexing)(OFDM)보다 나은 커버리지를 갖는 신규한 파형들, 빔포밍 및 대규모 다중 입력 다중 출력(multiple input multiple output)(MIMO), FD-MIMO(full dimensional MIMO), 어레이 안테나들, 및 대규모 안테나들과 같은 멀티안테나 송신 기술들을 개발할 필요가 있다. 추가적으로, 메타물질 기반 렌즈들 및 안테나들, 궤도 각운동량(orbital angular momentum)(OAM), 및 재구성가능 지능형 표면(reconfigurable intelligent surface)(RIS)과 같은 테라헤르츠 대역 신호들의 커버리지를 개선하기 위한 새로운 기술들에 대한 논의가 진행중이다.

더구나, 스펙트럼 효율 및 전체 네트워크 성능들을 개선하기 위하여, 다음 기술들이 6G 통신 시스템들에 대해 개발되었다: 업링크 송신 및 다운링크 송신이 동일한 시간에 동일한 주파수 자원을 동시에 사용하는 것을 가능하게 하기 위한 전이중(full-duplex) 기술; 위성들, 고고도 플랫폼 스테이션들(high-altitude platform stations)(HAPS) 등을 통합 방식으로 이용하기 위한 네트워크 기술; 모바일 기지국들 등을 지원하고 네트워크 동작 최적화 및 자동화 등을 가능하게 하는 개선된 네트워크 구조; 스펙트럼 사용량의 예측에 기초한 충돌 회피를 통한 동적 스펙트럼 공유 기술; 6G를 개발하고 단 대 단 AI 지원 기능들을 내재화하기 위한 설계 페이즈로부터 AI를 이용하는 것에 의한 전체 네트워크 동작의 개선을 위한 무선 통신에서의 인공지능(artificial intelligence)(AI)의 사용; 및 네트워크에 걸친 도달 가능한 초고성능 통신 및 컴퓨팅 자원들(이를테면 모바일 에지 컴퓨팅(mobile edge computing)(MEC), 클라우드들 등)을 통해 UE 컴퓨팅 능력의 제한을 극복하기 위한 차세대 분산 컴퓨팅 기술. 추가적으로, 6G 통신 시스템들에서 사용될 새로운 프로토콜들을 설계하는 것, 하드웨어 기반 보안 환경 및 데이터의 안전한 사용을 구현하기 위한 메커니즘들을 개발하는 것, 및 프라이버시를 유지하기 위한 기술들을 개발하는 것을 통해, 디바이스들 사이의 연결을 강화하며, 네트워크를 최적화하며, 네트워크 엔티티들의 소프트웨어화를 촉진하고, 무선 통신들의 개방성을 증가시키려고 시도들은 계속되고 있다.

P2M(person to machine)뿐만 아니라 M2M(machine to machine)을 포함하는 하이퍼 연결에서의 6G 통신 시스템들의 연구 개발은 다음 하이퍼 연결 경험을 허용할 것으로 기대된다. 특히, 진정한 몰입 XR(extended reality), 고충실도 모바일 홀로그램, 및 디지털 복제와 같은 서비스들은 6G 통신 시스템들을 통해 제공될 수 있는 것으로 기대된다. 추가적으로, 보안 및 신뢰도 향상을 위한 원격 수술, 산업 자동화, 및 비상 대응과 같은 서비스들은 기술들이 산업, 의료, 자동차들, 및 홈 어플라이언스들과 같은 다양한 분야들에서 적용될 수 있도록 6G 통신 시스템을 통해 제공될 것이다.

VR, AR 및 MR에서의 큰 도전과제가 이러한 서비스들에 대해 새로운 미디어 포맷들을 지원할 필요가 있다는 것이다.

AR 서비스 흐름들 및 엔트리 포인트들을 위한 방법들 및 장치들이 제공된다. 인터넷 및 네트워크 조건들의 일관되지 않은 대역폭 가용성으로 인해, 레거시 2D 비디오 스트리밍 서비스들이 현재 네트워크 조건에 대해 미리 조정된(적응된) 미디어 콘텐츠를 전달하기 위하여 적응 메커니즘들을 사용하여 스트리밍될 수 있다.

본 개시는 VR/AR/MR 미디어 스트리밍 절차들에 대한 다수의 실시예들을 정의한다. 이러한 실시예들은, 장면 디스크립션들의 스트리밍 외에도, 아래에서 설명되는 스트리밍 체적 미디어(volumetric media)를 지원한다.

실시예들은 이들 절차들을 사용하여 상이한 레벨들(장면 디스크립션, 매니페스트들, 미디어 파이프라인들)에서 이들 미디어 서비스들의 적응을 또한 지원한다. 본 개시는 또한 장면 디스크립션 (glTF 아이템) 선택, (장면) 매니페스트 선택, 및 파이프라인 적응 선택을 위해 사용될 수 있는 상이한 맥락 기준들을 설명한다.

일 실시예에 따르면, 다음 특징들을 포함하는 스트리밍 VR/AR/MR 미디어 서비스를 제공하는 것이 가능하게 된다.

- 체적 미디어의 지원

- 장면 디스크립션의 지원

- 상이한 맥락들에 기초한 다수의 선택 기준들을 포함하는, VR/AR/MR 미디어 선택의 지원

- 장면 디스크립션, 체적 미디어 객체들, 미디어(컴포넌트) 파이프라인들, 미디어 버퍼 파이프라인들을 포함하는 상이한 레벨들의 미디어 적응의 지원

도 1은 레거시 비디오 스트리밍 서비스의 서비스 절차를 예시하는 흐름도이다.
도 2는 본 개시의 일 실시예에 따른, 장면 디스크립션(SD)을 서비스 엔트리 포인트로서 갖는 VR/AR/MR 서비스를 위한 서비스 절차를 예시하는 흐름도이다.
도 3은 도 2에 도시된 실시예에 대한 "프로세스 SD" 단계 절차를 예시하는 다이어그램이다.
도 4는 노드 표현에 의해 설명되는 전형적인 장면 디스크립션을 설명한다.
도 5는 장면 디스크립션을 사용하여 미디어의 재생을 지원하는 AR/MR 미디어 플레이어 내부의 엔티티들의 전형적인 아키텍처를 예시하는 다이어그램이다.
도 6은 장면 디스크립션을 사용하여 미디어의 재생을 지원하는 AR/MR 미디어 플레이어 내부의 엔티티들의 아키텍처를 예시하는 다이어그램이다.
도 7은 본 개시의 다른 실시예에 따른, 장면 디스크립션(SD)을 서비스 엔트리 포인트로서 갖는 VR/AR/MR 서비스를 위한 서비스 절차를 예시하는 흐름도이다.
도 8은 도 7에 도시된 실시예에 대한 "프로세스 SD" 단계 절차를 예시하는 다이어그램이다.
도 9는 본 개시의 다른 실시예에 따른, 장면 매니페스트를 서비스 엔트리 포인트로서 갖는 VR/AR/MR 서비스를 위한 서비스 절차를 예시하는 흐름도이다.
도 10은 도 9에 도시된 실시예에 대한 "프로세스 장면 매니페스트" 단계 절차를 예시하는 다이어그램이다.
도 11은 본 개시의 다른 실시예에 따른, 장면 매니페스트를 서비스 엔트리 포인트로서 갖는 VR/AR/MR 서비스를 위한 서비스 절차를 예시하는 흐름도이다.
도 12는 도 11에 도시된 실시예에 대한 "프로세스 장면 매니페스트" 단계 절차를 예시하는 다이어그램이다.
도 13은 본 개시의 일 실시예에 따른, 엔티티(1300)의 블록도이다.

본 개시의 전체에 걸쳐, "a, b 또는 c 중 적어도 하나"라는 표현은 a만, b만, c만, a 및 b 둘 다, a 및 c 둘 다, b 및 c 둘 다, a, b, 및 c의 모두, 또는 그 변형들을 나타낸다. 본 명세서의 전체에 걸쳐, 계층(또는 계층 장치)이 엔티티라고 또한 지칭될 수 있다. 이후로는, 본 개시의 동작 원리들은 첨부 도면들을 참조하여 상세히 설명될 것이다. 다음의 설명들에서, 널리 공지된 기능들 또는 구성들은 상세히 설명되지 않는데 그것들이 불필요하게 상세하여 본 개시를 모호하게 할 수 있기 때문이다. 본 명세서에서 사용되는 용어들은 본 개시에서 사용되는 기능들을 고려하여 정의되고 사용자들 또는 운영자들의 의도적이거나 또는 흔히 사용되는 방법들에 따라 변경될 수 있다. 따라서, 그 용어들의 정의들은 본 명세서의 전체 설명들에 기초하여 이해된다.

동일한 이유로, 도면들에서, 일부 엘리먼트들은 과장되거나, 생략되거나, 또는 대략적으로 예시될 수 있다. 또한, 각각의 엘리먼트의 사이즈가 각각의 엘리먼트의 실제 사이즈에 정확히 대응하지 않는다. 각각의 도면에서, 동일하거나 또는 대응하는 엘리먼트들은 동일한 참조 번호로 표현된다.

본 개시의 장점들 및 특징들과 그것들을 달성하기 위한 방법들은 본 개시의 실시예들 및 첨부 도면들의 다음의 상세한 설명들을 참조하여 더 쉽게 이해될 수 있다. 그러나, 본 개시는 많은 상이한 형태들로 실시될 수 있고 본 개시에서 언급된 실시예들로 제한되는 것으로서 해석되지 않아야 하며; 오히려, 본 개시의 이들 실시예들은 본 개시가 철저하고 완전한 것이 되도록 제공되고, 당해 기술분야의 통상의 기술자에게 본 개시의 개념을 완전하게 전달할 것이다. 그러므로, 본 개시의 범위는 첨부의 청구항들에 의해 한정된다. 본 명세서의 전체에 걸쳐, 유사한 참조 번호들이 유사한 엘리먼트들을 지칭한다. 흐름도들 또는 흐름도들의 조합들에서의 블록들은 컴퓨터 프로그램 명령어들에 의해 수행될 수 있다는 것이 이해될 것이다. 이들 컴퓨터 프로그램 명령어들이 범용 컴퓨터의 프로세서, 전용 컴퓨터, 또는 다른 프로그램가능 데이터 프로세싱 장치에 로딩될 수 있기 때문에, 컴퓨터의 프로세서 또는 다른 프로그램가능 데이터 프로세싱 장치에 의해 수행되는 명령어들은, 흐름도 블록(들)에서 설명되는 기능들을 수행하는 유닛들을 생성한다.

컴퓨터 프로그램 명령어들은 컴퓨터 또는 다른 프로그램가능 데이터 프로세싱 장치에게 특정 방식으로 기능을 구현하도록 지시할 수 있는 컴퓨터 사용가능 또는 컴퓨터 판독가능 메모리에 저장될 수 있고, 따라서 컴퓨터 사용가능 또는 컴퓨터 판독가능 메모리에 저장된 명령어들은 흐름도 블록(들)에서 설명된 기능들을 수행하기 위한 명령어 유닛들을 포함하는 제조된 아이템들을 또한 생성할 수 있다. 컴퓨터 프로그램 명령어들은 컴퓨터 또는 다른 프로그램가능 데이터 프로세싱 장치에 또한 로딩될 수 있고, 따라서, 일련의 동작들이 컴퓨터 또는 다른 프로그램가능 데이터 프로세싱 장치에서 수행될 때 컴퓨터 실행 프로세스를 생성함으로써 컴퓨터 또는 다른 프로그램가능 데이터 프로세싱 장치를 동작시키기 위한 명령어들은 흐름도 블록(들)에서 설명되는 기능들을 수행하기 위한 동작들을 제공할 수 있다.

또한, 각각의 블록은 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행가능 명령어들을 포함하는 모듈의 부분, 세그먼트, 또는 코드를 나타낼 수 있다. 일부 대안적 구현예들에서, 블록들에서 언급된 기능들은 비순차적으로 일어날 수 있다는 점에 또한 주의한다. 예를 들어, 연속적인 두 개의 블록들은 그것들에 대응하는 기능들에 의존하여 동시에 또는 역순으로 또한 실행될 수 있다.

본 개시에서 사용되는 바와 같이, "유닛"이란 용어는 소프트웨어 엘리먼트 또는 하드웨어 엘리먼트 이를테면 현장 프로그램가능 게이트 어레이(field-programmable gate array)(FPGA) 또는 주문형 집적회로(application-specific integrated circuit)(ASIC)를 나타내고, 특정한 기능을 수행한다. 그러나, "유닛"이란 용어는 소프트웨어 또는 하드웨어로 제한되지 않는다. "유닛"은 어드레스가능 저장 매체 안에 있도록 형성될 수 있거나, 또는 하나 이상의 프로세서들을 동작시키도록 형성될 수 있다. 따라서, 예를 들어, "유닛"이란 용어는 엘리먼트들(예컨대, 소프트웨어 엘리먼트들, 객체 지향 소프트웨어 엘리먼트들, 클래스 엘리먼트들, 및 태스크 엘리먼트들), 프로세스들, 함수들, 속성들, 절차들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로-코드들, 회로들, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 또는 변수들을 포함할 수 있다.

엘리먼트들 및 "유닛들"에 의해 제공되는 기능들은 더 적은 수의 엘리먼트들 및 "유닛들"로 결합될 수 있고, 또는 추가적인 엘리먼트들 및 "유닛들"로 나누어질 수 있다. 더욱이, 엘리먼트들 및 "유닛들"은 디바이스 또는 보안 멀티미디어 카드에서의 하나 이상의 중앙 프로세싱 유닛들(central processing units)(CPU들)을 재현하도록 실시될 수 있다. 또한, 본 개시의 일 실시예에서, "유닛"은 적어도 하나의 프로세서를 포함할 수 있다. 본 개시의 다음의 설명들에서, 널리 공지된 기능들 또는 구성들은 상세히 설명되지 않는데 그것들이 불필요하게 상세하여 본 개시를 모호하게 할 수 있기 때문이다.

명세서 전체에 걸쳐, 미디어 서비스를 제공하기 위한 기능부 또는 장치 또는 서버가 또한 엔티티라고 지칭될 수 있다.

멀티미디어에서의 최근의 진전이 멀티미디어의 캡처, 이러한 멀티미디어의 저장(포맷들), 이러한 멀티미디어의 압축(코덱들 등), 뿐만 아니라 더 몰입적인 멀티미디어 경험들을 사용자들에게 제공할 수 있는 새로운 디바이스들의 형태의 이러한 멀티미디어의 프레젠테이션으로의 연구 개발을 포함한다. 비디오에 대한 더 높은 해상도, 즉 8K 해상도와, HDR과 같은 몰입적 기술들을 갖는 더 큰 TV 디스플레이들 상의 이러한 8K 비디오의 디스플레이의 추구로, 많은 멀티미디어 소비의 초점이 모바일 스마트폰들 및 태블릿들과 같은 휴대용 디바이스들을 사용하여 더 개인화된 경험으로 이동하였다. 몰입적인 멀티미디어의 다른 동향의 분기는 가상 현실(VR)과, 증강 현실(AR)이다. 사용자의 시야(vision)가 가상 세계(VR)에 의해 둘러싸이는 경우, 또는 사용자의 시야 및 주변환경이 실세계 주변환경의 일부인 것으로 보이도록 자신의 주변환경으로 국한될 수 있거나 또는 국한되지 않을 수 있는 멀티미디어에 의해 증강되는 경우 이러한 VR 및 AR 멀티미디어는 일반적으로 사용자에게 해당 VR 또는 AR 헤드셋, 또는 안경(예컨대, AR 안경)을 착용하는 것을 요구한다.

VR, AR 및 MR에서의 큰 도전과제가 이러한 서비스들에 대해 새로운 미디어 포맷들을 지원할 필요가 있다는 것이다. 레거시 2D 비디오는 VR, AR 및 MR과 같은 몰입적인 서비스들을 제공함에 있어서 불충분하다. 이와 같이, 메시들, 포인트 클라우드들 및 다른 객체 기반 미디어 포맷들과 같은 체적 미디어(포맷들)는 6DoF 몰입적인 미디어 경험들을 제공하기 위하여 필요하다. 이러한 체적 미디어는 컴퓨터에 의해 생성될 수 있거나(예컨대, 그래픽과 유사함), 또는 상이한 카메라 기술들 및 구성들(예컨대, 현실적인 체적 포인트 클라우드가 생성될 수 있도록 다수의 카메라들이 배열됨)에 의해 실제 객체들/사람들로부터 캡처될 수 있다. 레거시 2D 비디오는 통상적으로 디코딩되고 렌더링되기 전에 디코더 버퍼 파이프라인을 통해 디코더에 피드되는 단일 미디어 비트스트림(예컨대, HEVC 비트스트림 또는 AVC 비트스트림)으로 구성된다. 그러나, 체적 미디어의 경우, 사용되는 포맷에 의존하여, 하나의 체적 미디어 객체는 하나의 렌더링가능 미디어 객체가 되도록 프로세싱되기 전에 상이한 미디어 버퍼 파이프라인들에 피드되는 다수의 미디어(또는 메타데이터) 컴포넌트 비트스트림들을 요구할 수 있다. 이러한 일 예가 패치(patch) 정보, 점유도 정보, 기하구조 정보, 텍스처(속성) 정보, 및 다른 메타데이터 정보와 같은 다수의 컴포넌트들로 구성되는 MPEG V-PCC 콘텐츠들이다.

이들 개별 체적 미디어 외에도, 레거시 2D 비디오 서비스와 달리, 다수의 체적 미디어 객체들이 함께 전체 VR/AR/MR 경험을 생성하는 많은 시나리오들이 있다. 이 경우, 상이한 체적 미디어 객체들을 함께 붙이고 구성할 수 있는 설명적 포맷이 필요하다. 이러한 설명적 포맷은 장면 디스크립션이다. 장면 디스크립션이 사용자 및 체적 미디어(객체들) 양쪽 모두가 배치되는 장면을 기술한다. 일단 장면이 구성되면, 사용자의 뷰가 자신의 디바이스의 포즈(위치 및 배향)에 따라 (2D 프레임으로서, 절두체 선별(frustum culling)을 통해) 렌더링될 수 있다.

요약하면:

VR/AR/MR 체적 미디어는 2D 비디오와 비교하여 새로운 특성들을 가지며, 즉:

체적 미디어 객체가 다수의 파이프라인들을 요구하는 다수의 비트스트림들로 구성될 수 있다.

VR/AR/MR 서비스가 장면 디스크립션을 요구하는 다수의 체적 미디어 객체들을 포함할 수 있다.

5G에 관련하여 이러한 VR/AR/MR 서비스들의 특성들에 관하여, 스트리밍 체적 미디어는 체적 미디어의 고유한 3D 성질로 인해, 그리고 또한 (2D 비디오의 1DoF에 비해) VR/AR/MR 서비스들에 대해 사용자에게 이용 가능한 6의 자유도로 인해 막대한 대역폭을 요구한다.

도 1은 3GPP TS26.501 5GMSA v16.6.1 도 5.2-2로부터 취해진 바와 같은 레거시 비디오 스트리밍 서비스의 서비스 절차를 예시하는 흐름도이다.

그 도면에 대한 상세한 절차들은 또한 3GPP TS26.501 5GMSA v16.6.1 도 5.2-2에서 상세히 설명된다.

통상적으로, 미디어 서비스 엔트리 포인트에 관련된 단계들은 다음과 같다:

5) 미디어 재생 시작 시, 미디어 애플리케이션은 매니페스트의 URL을 미디어 플레이어에게 제공한다.

6) 미디어 플레이어는 단계 5에서 특정되는 URL에서 매니페스트에 대한 전송 세션을 확립한다.

7) 미디어 플레이어는 단계 5에서 특정된 URL을 사용하여, 그리고 단계 6의 전송 세션을 통해, 애플리케이션 서비스에게 매니페스트(DASH MPD)를 요청한다.

9) 일단 미디어 플레이어가 DASH MPD를 수신하면, 필요한 적응 파라미터들과 서비스 세션에 대해 요구된 미디어 데이터를 선택하기 위하여 MPD를 프로세싱한다(이는 미디어 데이터의 가능한 모든 적응들의 로케이션들을 식별하는 것, 뿐만 아니라 스트리밍을 위한 관련 적응을 선택하는 것을 포함한다).

12) 그 다음에 미디어 플레이어는 단계 9의 프로세싱에서 선택된 바와 같이 MPD로부터 특정되는 적응 파라미터들 및 미디어에 따라 재생 파이프라인을 구성한다.

도 1에서와 동일한 절차를 사용하면, 도 1의 미디어 플레이어에 의해 요청되고 수신되는 매니페스트 내부의 옵션으로서 이러한 미디어 데이터를 포함함으로써, 컴포넌트 AR 객체 이후 미디어 데이터를 전달하는 것이 가능하다. 그러나, 그 절차는 다수의 AR 객체 미디어 데이터의 스트리밍을, 또는 다수의 미디어 데이터 컴포넌트들을 포함하는 미디어 데이터의 적응 스트리밍(컴포넌트 레벨 적응 스트리밍을 포함함)을 지원하지 않는다.

도 2는 본 개시의 일 실시예에 따른, 장면 디스크립션이 또한 서비스 미디어 객체들 및/또는 파이프라인들에 대한 가능한 적응 정보를 직접 포함하는 경우, 장면 디스크립션(SD)(예컨대, glTF 아이템, JSON 문서)을 서비스 엔트리 포인트로서 갖는 VR/AR/MR 서비스에 대한 서비스 절차를 예시하는 흐름도이다.

여기서, 도 1과 비교할 때, 미디어 애플리케이션 및 미디어 애플리케이션 제공자는 각각 AR/MR 애플리케이션 및 AR/MR 애플리케이션 제공자에 의해 대체된다. 이러한 네이밍은 제한하는 것이 아니고 VR/AR/MR 서비스들을 지원하는 미디어 애플리케이션/미디어 애플리케이션 제공자가 또한 가능하다. 또한, DASH MPD 대신, 엔트리 포인트는 장면 디스크립션을 사용한다. 사용될 수 있는 전형적인 장면 디스크립션이 도 4에 도시된 glTF 파일들, 또는 아이템이다. 도 4는 노드 표현에 의해 설명되는 전형적인 장면 디스크립션을 설명한다. 이 장면 디스크립션은 확장 노드들이 MPEG 미디어를 지원하는 glTF 아이템이다. 이 도면은 MPEG 미디어에 대한 ISO/IEC 23090-14 장면 디스크립션에 기초한다.

통상적으로, 도 1의 것들과는 상이한 미디어 서비스 엔트리 포인트에 관련된 단계들은 다음과 같다:

5) 미디어 재생 시작 시, 미디어 애플리케이션은 장면 디스크립션의 URL을 미디어 플레이어에게 제공한다. 이 URL은 장면 디스크립션(glTF 아이템)을 가리킨다.

6) 미디어 플레이어는 단계 5에서 특정되는 URL에서 장면 디스크립션에 대한 전송 세션을 확립한다.

7) 미디어 플레이어는 단계 5에서 특정된 URL을 사용하여, 그리고 단계 6의 전송 세션을 통해, 애플리케이션 서비스에게 장면 디스크립션(glTF 아이템)을 요청한다.

9) 일단 미디어 플레이어가 장면 디스크립션(glTF 아이템)을 수신하면, 장면에 대해 요구된 적응 파라미터들을 포함하여, 필요한 미디어 데이터를 선택하기 위하여 장면 디스크립션을 프로세싱한다.

12) 그 다음에 미디어 플레이어는 장면 디스크립션으로부터 특정되는 미디어 포맷들에 따라, 그리고 단계 9의 프로세싱으로부터 미디어 플레이어에 의해 선택된 바와 같이, 다수의 미디어 버퍼 파이프라인들을 구성한다.

13) 미디어 플레이어는 콘텐츠에 대한 다수의 전송 세션들, 예를 들어 도 6에 도시된 바와 같이 각각의 미디어 버퍼 파이프라인에 대한 별도의 전송 세션을 특정할 수 있다. 특정한 전송 세션들은, 서비스에 의존하여, 다수의 미디어 파이프라인들을 타깃으로 하는 다중화된 미디어 데이터를 또한 지원할 수 있다.

도 3은 도 2에 도시된 실시예에 대한 "프로세스 SD" 단계 절차를 예시하는 다이어그램이다.

미디어 플레이어가 미디어 액세스 기능부 및 프레젠테이션 엔진 컴포넌트들로 추가로 정의될 수 있다. 이 실시예에서, 장면 디스크립션(glTF 아이템)을 프로세싱함에 있어서의 절차들은 다음과 같이 설명될 수 있다:

9a) 프레젠테이션 엔진은, 장면 디스크립션으로부터의 조성 정보와, 또한 사용자의 (또는 AR 디바이스의) 포즈 및 포즈 정보(이는 위치 및 배향을 포함하고, 또한 디바이스의 프로세싱 능력들, 예컨대, 깊이 레인지, 디스플레이 범위 등을 고려할 수 있음)에 따라, 어떤 미디어 객체들이 장면의 조성을 위해 요구되는지를 결정한다.

9b) 9a의 프레젠테이션 엔진에 의해 식별되는 미디어 객체들의 경우, 미디어 액세스 기능부는, 장면 디스크립션의 정보에 따라, 어떤 미디어 포맷들 및 미디어 컴포넌트들이 요구되는지를 식별한다.

9c) 9b에서 식별되는 바와 같은 요구된 미디어 컴포넌트들의 각각에 대해, 각각의 미디어 컴포넌트에 대한 페치 데이터를 식별하고 프로세싱한다(이는 미디어 컴포넌트 데이터의 가능한 모든 적응들의 로케이션들을 식별하는 것, 뿐만 아니라 스트리밍을 위한 관련 적응을 선택하는 것을 포함한다). 이 페칭 데이터는 각각의 미디어 컴포넌트, 또는 컴포넌트들의 그룹에 대한 매니페스트들(이를테면 DASH MPD)의 형태로 존재할 수 있다.

식별되고 요구되는 미디어 컴포넌트들의 수에 의존하여, 미디어 액세스 기능부는 도 6에 도시된 바와 같이, 단계 12의 미디어 플레이어에서(미디어 액세스 기능부와 프레젠테이션 엔진 사이에서) 미디어 버퍼 파이프라인들을 구성한다.

도 5는 ISO/IEC 23090-14에 기초하여, 장면 디스크립션을 사용하여 미디어의 재생을 지원하는 AR/MR 미디어 플레이어 내부의 엔티티들의 전형적인 아키텍처를 예시하는 다이어그램이다.

glTF(장면 디스크립션) 프레젠테이션 엔진은 개별 미디어를 해당 미디어 버퍼들로부터 렌더링하는 반면, 미디어 액세스 기능부는 해당 미디어 컴포넌트들을 프레젠테이션 엔진 버퍼들에 피드하는 필요한 미디어(버퍼) 파이프라인들을 확립하고 구성한다.

MPEG 미디어를 (ISO/IEC 23090-14에서처럼) 또한 지원하는 전형적인 장면 디스크립션(glTF 아이템)은 이용 가능한 상이한 미디어 객체들에 대한 정보와, 또한 이용 가능한 미디어 객체들에 대응하는 상이한 미디어 컴포넌트들(이용 가능한 경우, 사용되는 미디어 포맷에 의존함)을 포함한다. 이는 또한 장면에서 상이한 미디어 객체들에 대한 필수적인 조성 정보이다. 사용자 포즈에 의존하여, 일단 미디어 플레이어가 사용자 포즈에서 장면을 생성하고 렌더링하는데 요구되는 미디어 객체들을 식별하면, 미디어 액세스 기능부는 미디어/미디어 컴포넌트들에 대한 필요한 파이프라인들을 구성할 것이고 그것들을 실제 미디어 데이터를 페치하는 해당 미디어 클라이언트들(이것들은 페치된 미디어 컴포넌트의 미디어 포맷에 의존하는 다수의 미디어 클라이언트들일 수 있음)에 링크할 것이다.

도 6은 장면 디스크립션을 사용하여 미디어의 재생을 지원하는 AR/MR 미디어 플레이어 내부의 엔티티들의 아키텍처를 예시하는 다이어그램이다. 도 6은 도 5와 동일한 아키텍처를 도시하지만, 본 발명에서 설명된 바와 같은 (미디어) 버퍼 파이프라인들의 돔들을 강조표시한다.

도 7은 본 개시의 다른 실시예에 따른, 장면 디스크립션이 상이한 레벨들(예컨대, 미디어 (버퍼) 파이프라인들, 객체 레벨 적응 등)에서 적응을 지원하는 적응 정보를 포함하는 후속 매니페스트들에 대한 포인터들(예컨대, URL들)을 포함하는 경우, 장면 디스크립션(SD)(예컨대, glTF 아이템, JSON 문서)을 서비스 엔트리 포인트로서 갖는 VR/AR/MR 서비스에 대한 서비스 절차를 예시하는 흐름도이다.

여기서, 도 2와 비교할 때, 미디어 플레이어에 의해 먼저 수신되는 장면 디스크립션은 실제 미디어 데이터(또는 미디어 컴포넌트 데이터)를 페치하기 위해 요구되는 페치 데이터를 포함하지 않는다. 이와 같이, 추가의 절차들은 요구된 미디어(컴포넌트) 데이터(단계 11 내지 단계 14)에 관련된 매니페스트들을 페치하기 위하여 필요하다.

통상적으로, 이 실시예에서의 미디어 서비스 엔트리 포인트에 관련된 단계들은 다음과 같다:

9) 일단 미디어 플레이어가 장면 디스크립션(glTF 아이템)을 수신하면, 장면에 대해 요구된 필요한 미디어 (컴포넌트) 데이터를 선택하기 위하여 장면 디스크립션을 프로세싱한다.

11) 미디어 플레이어는 단계 9에서 선택되는 선택된 미디어 (컴포넌트) 데이터에 대해 요구되는 매니페스트들의 전달을 위해 하나 이상의 전송 세션들을 확립한다. 대안적으로, 미디어 플레이어는 단계 6에 확립되는 전송 세션을 사용하여 매니페스트들을 요청할 수 있다.

12) 미디어 플레이어는 미디어 (컴포넌트) 데이터에 대한 매니페스트들을, 장면 디스크립션에서의 해당 정보(이를테면 매니페스트들의 URL이며, 이는 DASH MPD 또는 유사한 것의 형태일 수 있음)를 사용하여 요청한다.

14) 일단 미디어 플레이어가 매니페스트들(예컨대, DASH MPD)을 수신하면, 이는 필요한 적응 파라미터들 및 서비스 세션에 대해 요구되는 미디어 (컴포넌트) 데이터를 선택하기 위하여 매니페스트들을 프로세싱한다.

17) 그 다음에 미디어 플레이어는 장면 디스크립션으로부터 특정되는 미디어 포맷들에 따라, 그리고 단계 9의 프로세싱으로부터 미디어 플레이어에 의해 선택된 바와 같이, 다수의 미디어 버퍼 파이프라인들을 구성한다.

18) 미디어 플레이어는 콘텐츠에 대한 다수의 전송 세션들, 예를 들어 도 6에 도시된 바와 같이 각각의 미디어 버퍼 파이프라인에 대한 별도의 전송 세션을 특정할 수 있다. 특정한 전송 세션들은, 서비스에 의존하여, 다수의 미디어 파이프라인들을 타깃으로 하는 다중화된 미디어 데이터를 또한 지원할 수 있다.

도 8은 도 7에 도시된 실시예에 대한 "프로세스 SD" 단계 절차를 예시하는 다이어그램이다. 미디어 플레이어가 미디어 액세스 기능부 및 프레젠테이션 엔진 컴포넌트들로 추가로 정의될 수 있다. 이 실시예에서, 장면 디스크립션(glTF 아이템)을 프로세싱함에 있어서의 절차들은 다음과 같이 설명될 수 있다: 9a) 프레젠테이션 엔진은, 장면 디스크립션으로부터의 조성 정보와, 또한 사용자의 (또는 AR 디바이스의) 포즈 및 포즈 정보(이는 위치 및 배향을 포함하고, 또한 디바이스의 프로세싱 능력들, 예컨대, 깊이 레인지, 디스플레이 범위 등을 고려할 수 있음)에 따라, 어떤 미디어 객체들이 장면의 조성을 위해 요구되는지를 결정한다.

9c) 9b에서 식별되는 요구된 미디어 컴포넌트들의 각각의 경우, 미디어 컴포넌트들의 로케이션을 가리키는 매니페스트들의 로케이션들(예컨대, URL들)을 식별한다.

14) 일단 요구된 미디어 컴포넌트들의 매니페스트들이 수신되면, 미디어 액세스 기능부는 필요한 적응 파라미터들과 서비스 세션에 대해 요구되는 미디어 (컴포넌트) 데이터를 선택하기 위하여 이들 매니페스트들을 프로세싱한다(이는 미디어 컴포넌트 데이터의 가능한 모든 적응들의 로케이션들을 식별하는 것, 뿐만 아니라 스트리밍을 위한 관련 적응을 선택하는 것을 포함한다).

식별되고 요구되는 미디어 컴포넌트들의 수에 의존하여, 미디어 액세스 기능부는 도 6에 도시된 바와 같이, 단계 17의 미디어 플레이어에서(미디어 액세스 기능부와 프레젠테이션 엔진 사이에서) 미디어 버퍼 파이프라인들을 구성한다.

도 9는 본 개시의 다른 실시예에 따른, 장면 매니페스트가 장면 디스크립션들을 포함하는 경우, 그리고 장면 매니페스트 또는 장면 디스크립션들이 서비스 미디어 객체들 및/또는 파이프라인들을 직접 페치하기 위한 가능한 적응 정보를 포함하는 경우, 장면 매니페스트(이는 다수의 glTF 아이템들, 뿐만 아니라 추가적인 선택 기준들 메타데이터를 포함할 수 있음)를 서비스 엔트리 포인트로서 갖는 VR/AR/MR 서비스를 위한 서비스 절차를 예시하는 흐름도이다.

이 장면 매니페스트는 또한 장면 매니페스트에서 특정되는 미디어 데이터 또는 미디어 컴포넌트들의 선택을 위한 선택 기준들로서 사용될 수 있는 맥락적인 정보를 포함할 수 있다.

맥락 기반 선택을 위한 장면 매니페스트 맥락 메타데이터

장면 매니페스트 내부의 이 데이터는 다음을 포함할 수 있다:

특정한 glTF 아이템(들), 또는 미디어 데이터가 사용자에게 페치되고 디스플레이될 수 있는 실세계 로케이션들(예컨대, GPS 좌표들 또는 범위들).

예컨대, 사용자에 대해 사용자가 방 A에 있을 때 페치되는 미디어 데이터 세트와 사용자가 상이한 방 B에 있을 때 페치되는 상이한 미디어 데이터 세트.

특정한 glTF 아이템(들), 또는 미디어 데이터가 사용자에게 페치되고 디스플레이될 수 있는 로케이션들에 대한 제한들.

예컨대, 사용자가 특정한 로케이션 또는 환경/영역에 있을 때 페치되고 볼 수 없는 미디어 데이터 세트.

특정한 실세계 로케이션 또는 로케이션들에서 사용자에게 페치되고 디스플레이될 수 있는 독립적인 glTF 아이템들 또는 미디어 데이터의 선택가능 세트들의 리스트.

예컨대, 사용자가 방과 같은 동일한 환경에 있을 때, 각각의 세트가 별도의 경험에 대응하는 둘 이상의 미디어 데이터 세트들을 사용자가 선택하는 옵션

사용자와 객체 증강 로케이션(콘텐츠 등록 로케이션/표면) 사이의 거리에 기초하여, 사용자에게 페치되고 디스플레이될 수 있는 glTF 아이템들/미디어 데이터에 대한 거리 제한들.

예컨대, 에펠 탑에 가까운 거리에서, 그 탑에 걸려 있는 광고들에 대응하는 미디어 데이터가 페치될 수 있는 반면, 에펠 탑에 먼 거리에서, 에펠 탑을 둘러싸는 비행 물체들에 대응하는 상이한 미디어 데이터가 페치될 수 있다.

glTF 아이템(들) 또는 미디어 데이터를 페치하고 렌더링하는데 필요한 대략적인 자원들을 나타내는 자원 능력 메타데이터.

예컨대, 하나의 glTF 아이템(들)/미디어 데이터 세트는 낮은 프로세싱 전력/저 배터리 소비 디바이스(모드 또는 셋팅)를 타깃으로 할 수 있는 반면, 다른 glTF 아이템(들)/미디어 데이터 세트는 높은 프로세싱 능력 디바이스(모드 또는 셋팅)를 타깃으로 할 수 있다. 이들 두 개의 콘텐츠 세트들은 동일한 미디어 콘텐츠들을 포함할 수 있거나 또는 포함하지 않을 수 있다 ― 그것들은 동일한 콘텐츠들을 포함하면, 해상도 차이들, 포인트 수, 세부사항 레벨, 텍스처 세부사항 등과 같이 동일한 콘텐츠의 상이한 적응들에 대한 포인터들(URL들)을 포함할 수 있다.

5) 미디어 재생 시작 시, 미디어 애플리케이션은 장면 매니페스트의 URL을 미디어 플레이어에게 제공한다. 이 URL은 다수의 장면 디스크립션들(다수의 glTF 아이템들), 뿐만 아니라 장면 디스크립션들에 관련된 해당 맥락 메타데이터 및/또는 장면 디스크립션들 내부의 미디어 데이터를 포함할 수 있는 장면 매니페스트를 가리킨다.

6) 미디어 플레이어는 단계 5에서 특정되는 URL에서 장면 매니페스트에 대한 전송 세션을 확립한다.

7) 미디어 플레이어는 단계 5에서 특정된 URL을 사용하여, 그리고 단계 6의 전송 세션을 통해, 애플리케이션 서비스에게 장면 매니페스트를 요청한다.

9) 일단 미디어 플레이어가 장면 매니페스트를 수신하면, 이는 맥락 메타데이터를 고려하여, 그리고 또한 장면에 대해 요구된 적응 파라미터들을 포함하여, 필요한 미디어 데이터를 선택하기 위하여 장면 디스크립션을 프로세싱한다.

12) 그 다음에 미디어 플레이어는 장면 매니페스트로부터 특정되는 장면 디스크립션들 및 미디어 포맷들에 따라, 그리고 단계 9의 프로세싱으로부터 미디어 플레이어에 의해 선택된 바와 같이, 다수의 미디어 버퍼 파이프라인들을 구성한다.

도 10은 도 9에 도시된 실시예에 대한 "프로세스 장면 매니페스트" 단계 절차를 예시하는 다이어그램이다.

미디어 플레이어가 미디어 액세스 기능부 및 프레젠테이션 엔진 컴포넌트들로 추가로 정의될 수 있다. 이 실시예에서, 장면 매니페스트(이는 다수의 장면 디스크립션들(glTF 아이템들)뿐만 아니라 맥락 메타데이터, 및 미디어 객체들을 포함할 수 있음)를 프로세싱함에 있어서의 절차들은 다음과 같이 기술될 수 있다:

9a) 프레젠테이션 엔진은, 장면 매니페스트 내부에서 또한 운반되는 맥락 메타데이터에 기초하여, 장면 매니페스트 내부의 장면 디스크립션(들)(glTF 아이템(들)) 및/또는 미디어 객체들을 선택한다. 선택을 위한 이들 맥락들의 일부는 디바이스 로케이션, 특정한 로케이션(예컨대, 증강 로케이션)으로부터의 디바이스 거리, 디바이스 자원/프로세싱 능력, 또는 다른 기준들(위에서 정의된 장면 매니페스트 맥락 메타데이터에 관련되거나 또는 관련되지 않음)과 같은 사용자 디바이스 특성들을 또한 고려할 수 있다.

9a) 일단 프레젠테이션 매니페스트 내의 장면 디스크립션들/미디어 객체들이 단계 9a에서 선택되면, 프레젠테이션 엔진은, 장면 디스크립션으로부터의 조성 정보와, 또한 사용자의 (또는 AR 디바이스의) 포즈 및 포즈 정보(이는 위치 및 배향을 포함하고, 또한 디바이스의 프로세싱 능력들, 예컨대, 깊이 레인지, 디스플레이 범위 등을 고려할 수 있음)에 따라, 어떤 미디어 객체들이 장면의 조성을 위해 요구되는지를 결정한다.

9c) 9b의 프레젠테이션 엔진에 의해 식별되는 미디어 객체들의 경우, 미디어 액세스 기능부는, 장면 디스크립션(들)/장면 매니페스트의 정보에 따라, 어떤 미디어 포맷들 및 미디어 컴포넌트들이 요구되는지를 식별한다.

9d) 9b에서 식별되는 바와 같은 요구된 미디어 컴포넌트들의 각각에 대해, 각각의 미디어 컴포넌트에 대한 페치 데이터를 식별하고 프로세싱한다(이는 미디어 컴포넌트 데이터의 가능한 모든 적응들의 로케이션들을 식별하는 것, 뿐만 아니라 스트리밍을 위한 관련 적응을 선택하는 것을 포함한다). 이 페칭 데이터는 각각의 미디어 컴포넌트, 또는 컴포넌트들의 그룹에 대한 매니페스트들(이를테면 DASH MPD)의 형태로 존재할 수 있다.

도 11은 본 개시의 다른 실시예에 따른, 장면 매니페스트가 장면 디스크립션들을 포함하는 경우, 그리고 장면 매니페스트 또는 장면 디스크립션들이 상이한 레벨들(예컨대, 미디어 (버퍼) 파이프라인들, 객체 레벨 적응 등)에서 적응을 지원하는 적응 정보를 포함하는 후속하는 매니페스트들에 대한 포인터들(예컨대, URL들)만을 포함하는 경우, 장면 매니페스트(이는 다수의 glTF 아이템들, 뿐만 아니라 추가적인 선택 기준 메타데이터를 포함할 수 있음)를 서비스 엔트리 포인트로서 갖는 VR/AR/MR 서비스에 대한 서비스 절차를 예시하는 흐름도이다.

이 장면 매니페스트는, 도 9의 기술 하에 설명된 바와 같이, 장면 매니페스트에서 특정되는 미디어 데이터 또는 미디어 컴포넌트들의 선택을 위한 선택 기준들로서 사용될 수 있는 맥락적인 정보 메타데이터를 또한 포함할 수 있다.

여기서, 도 9와 비교될 때, 미디어 플레이어에 의해 먼저 수신되는 장면 매니페스트는 실제 미디어 데이터(또는 미디어 컴포넌트 데이터)를 페치하는데 요구되는 페치 데이터를 (장면 매니페스트 바로 내부이든, 또는 장면 매니페스트 내부의 장면 디스크립션들 내부이든) 포함하지 않는다. 이와 같이, 추가의 절차들은 요구된 미디어(컴포넌트) 데이터(단계 11 내지 단계 14)에 관련된 매니페스트들을 페치하기 위하여 필요하다.

9) 일단 미디어 플레이어가 장면 매니페스트를 수신하면, 이는 장면에 요구되는 맥락 메타데이터를 고려하여, 필요한 장면 디스크립션(들)과, 미디어 데이터를 선택하기 위하여, 장면 매니페스트를 프로세싱한다.

도 12는 도 11에 도시된 실시예에 대한 "프로세스 장면 매니페스트" 단계 절차를 예시하는 다이어그램이다. 미디어 플레이어가 미디어 액세스 기능부 및 프레젠테이션 엔진 컴포넌트들로 추가로 정의될 수 있다. 이 실시예에서, 장면 디스크립션(glTF 아이템)을 프로세싱함에 있어서의 절차들은 다음과 같이 설명될 수 있다:

9d) 9b에서 식별되는 요구된 미디어 컴포넌트들의 각각의 경우, 미디어 컴포넌트들의 로케이션을 가리키는 매니페스트들의 로케이션들(예컨대, URL들)을 식별한다.

본 개시의 전체에 걸쳐, 미디어 버퍼 파이프라인들은 다음을 운반할 수 있다:

비디오, 오디오, 3D 메시들 등과 같은 미디어 데이터

압축 포인트 클라우드 컴포넌트들(기하구조, 텍스처, 패치 정보, 점유도)과 같은 미디어 데이터 컴포넌트들

메타데이터(미디어 관련되든 아니든)

시간 의존도가 있거나 또는 없는 임의의 다른 관련 데이터

도 13은 본 개시의 일 실시예에 따른, 엔티티(1300)의 블록도이다.

엔티티(1300)는 AR/MR 애플리케이션, 미디어 플레이어, 미디어 세션 핸들러, 애플리케이션 기능부, 애플리케이션 서버 및 AR/MR 애플리케이션 제공자 중 하나의 것의 전술한 동작들을 수행할 수 있다.

도 13을 참조하면, 엔티티(1300)는 송수신부(1310), 프로세서(1320) 및 메모리(1330)를 포함할 수 있다. 엔티티(1300)의 엘리먼트들은, 그러나, 그것들로 제한되지 않는다. 예를 들어, 엔티티(1300)는 위에서 설명된 것보다 더 많거나(예컨대, 메모리) 또는 더 적은 엘리먼트들을 포함할 수 있다.

송수신부(1310)는 신호들을 다른 엔티티에게 송신하거나 또는 다른 엔티티로부터 수신할 수 있다. 그 신호는 장면 디스크립션과 미디어 세그먼트를 포함할 수 있다. 추가적으로, 송수신부(1310)는 유선 채널 또는 무선 채널 상의 신호를 수신할 수 있고 그 신호를 프로세서(1320)에 출력하거나, 또는 프로세서(1320)로부터 출력된 신호를 유선 채널 또는 무선 채널 상으로 송신할 수 있다.

프로세서(1320)는 엔티티(1300)가 본 개시의 실시예들에 따라 동작하도록 하는 일련의 프로세스들을 제어할 수 있다. 프로세서(1320)는 제어기 또는 하나 이상의 프로세서들을 포함할 수 있다.

메모리(1330)가 엔티티(1300)의 동작을 위해 요구되는 프로그램과 데이터를 저장할 수 있다. 더욱이, 메모리(1330)는 엔티티(1300)에 의해 획득된 신호에 포함되는 장면 디스크립션과 미디어 세그먼트를 저장할 수 있다. 메모리(1330)는 판독 전용 메모리(read only memory)(ROM), 랜덤 액세스 메모리(random access memory)(RAM), 하드 디스크, 콤팩트 디스크 ROM(compact disc ROM)(CD-ROM), 및 디지털 다용도 디스크(digital versatile disc)(DVD), 또는 저장 매체들의 조합과 같은 저장 매체를 포함할 수 있다.

Claims

미디어 플레이어에 의해, 미디어 서비스를 제공하는 방법에 있어서,
장면 디스크립션의 URL 정보를 수신하는 단계;
수신된 URL 정보에 기초하여 상기 장면 디스크립션에 대한 전송 세션을 확립하는 단계;
상기 전송 세션을 통해, 상기 URL 정보를 사용하여 상기 장면 디스크립션에 대한 요청을 송신하는 단계; 및
상기 요청의 응답으로서 상기 장면 디스크립션을 수신하는 단계를 포함하는, 방법.