KR102551081B1

KR102551081B1 - 고품질의 경험을 위한 오디오 메시지들의 효율적인 전달 및 사용을 위한 방법 및 장치

Info

Publication number: KR102551081B1
Application number: KR1020207013333A
Authority: KR
Inventors: 아드리안 머타자; 하랄드 후치스; 베른 첼한; 잔 프롯스티스
Original assignee: 프라운 호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2017-10-12
Filing date: 2018-10-10
Publication date: 2023-07-05
Also published as: WO2019072890A1; EP3695306A1; JP2020537248A; CA3227621A1; BR112020007617A2; CN117714733A; ZA202208713B; TW201924355A; CN117692673A; US11949957B2; CA3227626A1; US11617016B2; US20210306683A1; ZA202002059B; SG11202003222QA; KR20200068705A; MX2020003453A; AU2023208129A1; KR20230112147A; US20230370684A1

Abstract

가상 현실, VR, 증강 현실, AR, 혼합 현실, MR, 또는 360도 비디오 환경을 위한 방법 및 시스템이 개시된다. 시스템은,
재생될 오디오 및 비디오 장면에 연관되는 적어도 하나의 비디오 스트림(106)을 수신하고;
상기 재생될 오디오 및 비디오 장면에 연관되는 적어도 하나의 제1 오디오 스트림(116, 316)을 수신하도록 구성되며,
여기서, 시스템은:
사용자에 대한 상기 오디오 및 비디오 장면의 표현을 위해 상기 적어도 하나의 비디오 스트림(106)으로부터 적어도 하나의 비디오 신호를 디코딩하도록 구성되는 적어도 하나의 미디어 비디오 디코더(102); 및
사용자에 대한 오디오 및 비디오 장면의 표현을 위해 적어도 하나의 제1 오디오 스트림(116, 316)으로부터 적어도 하나의 오디오 신호를 디코딩하도록 구성되는 적어도 하나의 미디어 오디오 디코더(112);
관심 영역(region of interest; ROI) 프로세서(120)를 포함하며, 상기 관심 영역 프로세서는:
사용자의 현재 뷰포트 및/또는 머리 방향 및/또는 이동 데이터(122) 및/또는 뷰포트 메타데이터(131) 및/또는 오디오 정보 메시지 메타데이터(141)에 적어도 기초하여, 적어도 하나의 ROI에 연관되는 오디오 정보 메시지 - 오디오 정보 메시지는 적어도 하나의 비디오 신호 및 적어도 하나의 오디오 신호에 독립적임 -가 재생될지 여부를 결정하고;
정보 메시지가 재생될 것이라는 결정시, 오디오 정보 메시지의 재생을 야기하도록 구성된다.

Description

고품질의 경험을 위한 오디오 메시지들의 효율적인 전달 및 사용을 위한 방법 및 장치{Method and apparatus for efficient delivery and usage of audio messages for high quality of experience}

설명

1. 소개

많은 응용들에서, 가청 메시지의 전달은 미디어 소비 동안 사용자의 경험을 향상시킬 수 있다. 그러한 메시지와 가장 관련된 응용 중 하나는 가상 현실(Virtual Reality; VR) 콘텐츠에 의해 주어진다. VR 환경에서, 또는 유사하게 증강 현실(Augmented Reality; AR) 또는 혼합 현실(Mixed Reality; MR) 또는 360도 비디오 환경에서, 사용자는 보통 예를 들어 헤드 장착 디스플레이(Head Mounted Display; HMD)를 사용하여 전체 360도 콘텐츠를 시각화하고 그것을 헤드폰을 통해(또는 유사하게 그것의 위치에 따라 정확한 렌더링을 포함하는 확성기를 통해) 듣는다. 사용자는 보통 VR/AR 공간에서 이동하거나, 적어도 시야(viewing) 방향 - 소위 비디오에 대한 "뷰포트(viewport)"를 변경할 수 있다. HMD 대신에 고전적인 재생 시스템(와이드 디스플레이 스크린)을 사용하는 360도 비디오 환경에서, 원격 제어 디바이스가 장면에서 사용자의 이동을 모방하기 위해 사용될 수 있고 유사한 원리들이 적용된다. 360도 콘텐츠는 사용자가 (예를 들어 그의 머리 방향에 의해, 또는 원격 제어 디바이스를 사용함으로써) 선택할 수 있는, 동일한 순간에서 하나보다 많은 시야각을 포함하는 임의의 유형의 콘텐츠를 지칭할 수 있다는 점이 주목되어야 한다.

고전적인 콘텐츠 소비와 비교하여, VR의 경우, 콘텐츠 창작자는 사용자가 다양한 순간 - 현재 뷰포트에서 시각화하는 것을 더 이상 제어할 수 없다. 사용자는 허용된 또는 이용가능한 뷰포트에서 벗어나, 각각 시간의 순간에서 상이한 뷰포트를 선택할 자유를 갖는다.

VR 콘텐츠 소비의 통상적인 문제는 사용자가 잘못된 뷰포트 선택으로 인해 비디오 장면에서 중요한 이벤트를 지나칠 위험이다. 이 문제를 해결하기 위해, 관심 영역(Region Of Interest; ROI)의 개념이 도입되었고 ROI를 신호화하기 위한 수개의 개념들이 고려된다. ROI는 통상적으로 사용자에게 권장된 뷰포트를 포함하는 영역을 표시하기 위해 사용되지만, 이는 또한 다른 목적, 예컨대: 장면에서 새로운 캐릭터/객체의 존재를 표시하는 것, 장면에서 객체들과 연관되는 접근성 특징을 나타내는 것, 기본적으로 비디오 장면을 구성하는 요소와 연관될 수 있는 임의의 특징(feature)으로 사용될 수 있다. 예를 들어, 시각적 메시지(예를 들어, "당신의 머리를 왼쪽으로 돌리시오")가 현재 뷰포트에 걸쳐 사용되고 오버레이될 수 있다. 대안적으로, 자연 사운드든 합성 사운드든, 가청 사운드는 ROI의 위치에서 그들을 재생함으로써 사용될 수 있다. 이 오디오 메시지는 "이어콘(Earcons)"으로서 알려져 있다.

본 응용의 맥락에서, 이어콘의 개념은 ROI을 신호화하기 위해 전달되는 오디오 메시지를 특징화하기 위해 사용될 것이지만, 제안된 신호화(signaling) 및 처리는 또한 ROI을 신호화하는 것 이외의 다른 목적으로 일반적인 오디오 메시지에 대해 사용될 수 있다. 그러한 오디오 메시지의 일 예는 사용자가 대화형 AR/VR/MR 환경에서 갖는 다양한 옵션들의 정보/표시(예를 들어, 룸 X에 들어가기 위해 왼쪽의 상자 위로 점프하시오")를 전달하기 위한 오디오 메시지에 의해 주어진다. 추가적으로, VR 예가 사용될 것이지만, 이 문서에서 설명되는 메커니즘은 임의의 미디어 소비 환경에 적용된다.

2. 용어 및 정의들

다음 용어가 기술 분야에 사용된다:

ㆍ 오디오 요소: 예를 들어 오디오 객체, 오디오 채널, 장면 기반 오디오(고차 앰비소닉스(Higher Order Ambisonics) - HOA), 또는 이 모두의 조합으로서 표현될 수 있는 오디오 신호.

ㆍ 관심 영역(Region-of-Interest; ROI) 시간의 한 순간에 사용자가 관심 있는 비디오 콘텐츠(또는 디스플레이되거나 시뮬레이션되는 환경)의 하나의 영역. 이는 통상적으로 예를 들어 구형(sphere) 상의 영역이거나, 2D 맵으로부터의 다각형 선택일 수 있다. ROI는 고려 중인 객체의 경계를 정의하는, 특정 목적을 위한 특정 영역을 식별한다.

ㆍ 사용자 위치 정보: 위치 정보(예를 들어, x, y, z 좌표), 방향 정보(요, 피치, 롤), 이동 방향 및 속도 등.

ㆍ 뷰포트: 현재 디스플레이되고 사용자가 보는 구형 비디오의 일부.

ㆍ 뷰포인트: 뷰포트의 중심 포인트

ㆍ 360도 비디오(또한 실감 비디오 또는 구형 비디오로서 공지됨): 본 문서의 맥락에서 동일한 순간에 한 방향으로 하나보다 많은 뷰(즉, 뷰포트)를 포함하는 비디오 콘텐츠를 나타낸다. 그러한 콘텐츠는, 예를 들어, 전방향성 카메라 또는 카메라들의 집합을 사용하여 생성될 수 있다. 재생 동안 뷰어는 시야 방향을 제어한다.

ㆍ 적응 세트(Adaptation Sets)는 미디어 스트림 또는 미디어 스트림들의 세트를 포함한다. 가장 간단한 경우, 하나의 적응 세트가 콘텐츠에 대한 모든 오디오 및 비디오를 포함하지만, 대역폭을 감소시키기 위해, 각각의 스트림은 상이한 적응 세트로 분할될 수 있다. 통상의 경우는 하나의 비디오 적응 세트, 및 다수의 오디오 적응 세트들(각각의 지원 언어에 대해 하나씩)을 갖는 것이다. 적응 세트는 또한 자막 또는 임의의 메타데이터를 포함할 수 있다.

ㆍ 표현(Representations)은 적응 세트가 상이한 방식으로 인코딩되는 동일한 콘텐츠를 포함하는 것을 허용한다. 대부분의 경우에서, 표현은 다수의 비트레이트로 제공될 것이다. 이는 클라이언트가 버퍼링을 기다리는 것 없이 플레이할 수 있는 최고 품질의 콘텐츠를 요청하는 것을 허용한다. 표현은 또한 상이한 코덱으로 인코딩될 수 있어서, 상이한 지원 코덱을 갖는 클라이언트에 대한 지원을 허용한다.

ㆍ 미디어 프리젠테이션 설명(Media Presentation Description; MPD)은 미디어 세그먼트, 그들의 관계 및 그 중에서 선택하는 데 필요한 정보에 대한 정보를 포함하는 XML 구문(syntax)이다.

이 응용의 맥락에서, 적응 세트의 개념은 보다 일반적으로 사용되며, 때때로 표현을 실제로 지칭한다. 또한, 미디어 스트림(오디오/비디오 스트림)은 일반적으로 클라이언트(예를 들어, DASH 클라이언트)에 의해 플레이되는 실제 미디어 파일인 미디어 세그먼트로 먼저 캡슐화된다. 다양한 포맷이 MPEG-4 컨테이너 포맷과 유사한 ISO 베이스 미디어 파일 포맷(ISO Base Media File Format; ISOBMFF) 및 MPEG-TS와 같은, 미디어 세그먼트에 대해 사용될 수 있다. 미디어 세그먼트로 그리고 상이한 표현들/적응 세트로의 캡슐화는 여기에 설명되는 방법들과 독립적이며, 방법은 모든 다양한 옵션들에 적용된다.

추가적으로, 이 문서에서의 방법의 설명은 DASH 서버-클라이언트 통신에 중점을 둘 수 있지만, 방법은 다른 전달 환경, 예컨대 MMT, MPEG-2 전송 스트림, DASH-ROUTE, 파일 재생을 위한 파일 포맷 등과 함께 작업하기에 충분히 일반적이다.

3. 현재 솔루션

현재 솔루션은 하기와 같다:

[1] ISO/IEC 23008-3:2O15, 정보 기술 - 이종(heterogeneous) 환경에서의 고효율 코딩 및 미디어 전달 - 파트 3: 3D 오디오

[2] N16950, ISO/IEC DIS 23000-20 전방향성 미디어 포맷의 연구

[3] M41184, 360도 비디오에서 ROI 식별을 위한 이어콘들의 사용.

360도 콘텐츠를 위한 전달 메커니즘은 ISO/IEC 23000-20, 전방향성 미디어 포맷 [2]에 의해 주어진다. 이 표준은 전방향성 이미지, 비디오 및 연관된 오디오의 코딩, 저장, 전달, 및 렌더링을 위한 미디어 포맷을 지정한다. 이는 오디오 및 비디오 압축을 위해 사용될 미디어 코덱에 대한 정보 및 360도 A/V 콘텐츠의 정확한 소비를 위한 추가적인 메타데이터 정보를 제공한다.

이는 또한 DASH/MMT 또는 파일 기반 재생을 통한 스트리밍과 같은, 전달 채널 상의 제약 및 요건을 지정한다.

이어콘(Earcon) 개념은 M41184인, "360도 비디오에서 ROI 식별을 위한 이어콘들의 사용" [3]에서 처음 소개되었으며, 이는 이어콘 오디오 데이터의 신호(signaling)를 위한 메커니즘을 사용자에게 제공한다.

그러나, 일부 사용자는 이 시스템의 실망스러운 논평을 보고하였다. 종종, 다량의 이어콘은 성가심(annoying)을 초래하였다. 설계자들이 이어콘의 수를 감소시켰을 때, 일부 사용자는 중요한 정보를 잃어버렸다. 특히, 각각의 사용자는 그/그녀 자신의 지식 및 경험의 수준을 갖고, 자신에게 적합한 시스템을 선호할 것이다. 예를 들어 보면, 각각의 사용자는(예를 들어, 다른 오디오 신호에 대해 사용되는 볼륨으로부터 독립적인) 바람직한 볼륨에서 재생되는 이어콘을 갖는 것을 선호할 것이다. 모든 가능한 사용자들에 대해 양호한 수준의 만족을 제공하는 시스템을 획득하는 것이 시스템 설계자에게 어렵다는 것이 증명되었다. 따라서, 거의 모든 사용자들에 대한 만족의 증가를 허용하기 위한 솔루션이 연구되었다.

또한, 설계자의 경우에도 시스템을 재구성하는 것이 어렵다는 것이 증명되었다. 예를 들어, 그들은 오디오 스트림의 새로운 릴리스들(releases)을 준비하고 이어콘을 갱신하는 데 어려움을 경험하였다.

또한, 제한된 시스템은 이어콘이 하나의 오디오 스트림으로 정확하게 식별될 수 없는 것과 같은, 기능 상에 특정 제한을 부과한다. 더욱이, 이어콘은 언제나 활성적(active)이어야 하고 그들이 요구되지 않을 때 재생되는 경우 사용자에게 번거로울 수 있다.

또한, 이어콘 공간 정보는 예를 들어, DASH 클라이언트에 의해 신호화되거나 수정될 수 없다. 시스템 레벨 상에서의 이 정보에 대한 쉬운 액세스는 더 양호한 사용자 경험을 위한 추가적인 특징을 가능하게 할 수 있다.

더욱이, 다양한 유형들의 이어콘(예를 들어, 자연 사운드, 합성 사운드, DASH 클라이언트에서 생성되는 사운드 등)을 처리하는 데 유연성이 없다.

모든 이 문제는 열악한 사용자 품질의 경험을 초래한다. 따라서, 보다 유연한 아키텍처가 바람직할 수 있을 것이다.

4. 본 발명

실시예에 따르면, 가상 현실(VR), 증강 현실(AR), 혼합 현실(MR), 또는 360도 비디오 환경을 위한 시스템이 제공되며, 시스템은:

재생될 오디오 및 비디오 장면에 연관되는 적어도 하나의 비디오 스트림을 수신하고;

재생될 오디오 및 비디오 장면에 연관되는 적어도 하나의 제1 오디오 스트림을 수신하도록 구성되며,

여기서, 시스템은:

사용자에 대한 오디오 및 비디오 장면의 표현을 위해 적어도 하나의 비디오 스트림으로부터 적어도 하나의 비디오 신호를 디코딩하도록 구성되는 적어도 하나의 미디어 비디오 디코더; 및

사용자에 대한 오디오 및 비디오 장면의 표현을 위해 적어도 하나의 제1 오디오 스트림으로부터 적어도 하나의 오디오 신호를 디코딩하도록 구성되는 적어도 하나의 미디어 오디오 디코더;

관심 영역(region of interest; ROI) 프로세서를 포함하며, 관심 영역(ROI) 프로세서는:

사용자의 현재 뷰포트 및/또는 머리 방향 및/또는 이동 데이터 및/또는 뷰포트 메타데이터 및/또는 오디오 정보 메시지 메타데이터에 적어도 기초하여, 적어도 하나의 ROI에 연관되는 오디오 정보 메시지 - 오디오 정보 메시지는 적어도 하나의 비디오 신호 및 적어도 하나의 오디오 신호와 독립적임 -가 재생될지 여부를 결정하고;

정보 메시지가 재생될 것이라는 결정시, 오디오 정보 메시지의 재생을 야기하도록 구성된다.

적어도 하나의 비디오 스트림을 수신하고

적어도 하나의 제1 오디오 스트림을 수신하도록 구성되며

여기서, 시스템은:

사용자에 대한 VR, AR, MR 또는 360도 비디오 환경 장면의 표현을 위해 적어도 하나의 비디오 스트림으로부터 적어도 하나의 비디오 신호를 디코딩하도록 구성되는 적어도 하나의 미디어 비디오 디코더; 및

사용자에 대한 오디오 장면의 표현을 위해 적어도 하나의 제1 오디오 스트림으로부터 적어도 하나의 오디오 신호를 디코딩하도록 구성되는 적어도 하나의 미디어 오디오 디코더;

사용자의 현재 뷰포트 및/또는 머리 방향 및/또는 이동 데이터 및/또는 뷰포트 메타데이터 및/또는 오디오 정보 메시지 메타데이터에 기초하여, 적어도 하나의 ROI에 연관되는 오디오 정보 메시지 - 오디오 정보 메시지는 이어콘(earcon)임 -가 재생될지 여부를 결정하고;

시스템은,

상기 정보 메시지가 재생될 것이라는 결정시, 오디오 정보 메시지 메타데이터에 따라 오디오 정보 메시지의 재생을 야기하기 위해 오디오 정보 메시지 메타데이터를 수신하고/하거나 처리하고/하거나 조작하도록 구성되는 메타데이터 프로세서를 포함하고 있을 수 있다.

ROI 프로세서는:

사용자의 현재 뷰포트 및/또는 위치 및/또는 머리 방향 및/또는 이동 데이터 및/또는 다른 사용자 관련 데이터를 수신하고;

적어도 하나의 비디오 스트림으로부터 적어도 하나의 비디오 신호와 연관되는 뷰포트 메타데이터 - 뷰포트 메타데이터는 적어도 하나의 ROI를 정의함 -를 수신하고;

사용자의 현재 뷰포트 및/또는 위치 및/또는 머리 방향 및/또는 이동 데이터 및 뷰포트 메타데이터 및/또는 다른 기준 중 적어도 하나에 기초하여, 적어도 하나의 ROI에 연관되는 오디오 정보 메시지가 재생될지 여부를 결정하도록 구성될 수 있다.

시스템은,

뷰포트 메타데이터 및/또는 적어도 하나의 오디오 스트림에 인코딩되는 적어도 하나의 오디오 신호를 설명하는 오디오 메타데이터 및/또는 오디오 정보 메시지 메타데이터에 따라 오디오 정보 메시지의 재생을 야기하기 위해, 오디오 정보 메시지를 설명하는 오디오 정보 메시지 메타데이터 및/또는 적어도 하나의 오디오 스트림에 인코딩되는 적어도 하나의 오디오 신호를 설명하는 오디오 메타데이터 및/또는 뷰포트 메타데이터를 수신하고/하거나 처리하고/하거나 조작하도록 구성되는 메타데이터 프로세서를 포함하고 있을 수 있다.

ROI 프로세서는:

적어도 하나의 ROI가 사용자의 현재 뷰포트 및/또는 위치 및/또는 머리 방향 및/또는 이동 데이터 밖에 있는 경우, 적어도 하나의 오디오 신호의 재생에 부가하여, 적어도 하나의 ROI에 연관되는 오디오 정보 메시지의 재생을 야기하고;

적어도 하나의 ROI가 상기 사용자의 현재 뷰포트 및/또는 위치 및/또는 머리 방향 및/또는 이동 데이터 내에 있는 경우, 적어도 하나의 ROI에 연관되는 오디오 정보 메시지의 재생을 불허하고/하거나 비활성화시키도록 구성될 수 있다.

시스템은,

적어도 하나의 오디오 정보 메시지가 인코딩되는 상기 적어도 하나의 추가적인 오디오 스트림을 수신하도록 더 구성될 수 있으며,

여기서, 시스템은:

오디오 장면에 더하여 오디오 정보 메시지의 재생을 야기하기 위해, 적어도 하나의 오디오 정보 메시지가 재생될 것이라는 ROI 프로세서에 의해 제공되는 결정에 기초하여, 하나의 스트림으로 적어도 하나의 제1 오디오 스트림의 패킷들과 적어도 하나의 추가적인 오디오 스트림의 패킷들을, 메타데이터 프로세서 및/또는 ROI 프로세서 및/또는 다른 프로세서의 제어 하에, 병합하는 적어도 하나의 먹서(muxer) 또는 멀티플렉서(multiplexer)를 더 포함한다.

시스템은,

적어도 하나의 오디오 스트림에 인코딩되는 적어도 하나의 오디오 신호를 설명하는 적어도 하나의 오디오 메타데이터를 수신하고;

적어도 하나의 오디오 스트림으로부터 적어도 하나의 오디오 정보 메시지와 연관되는 오디오 정보 메시지 메타데이터를 수신하고;

정보 메시지가 재생될 것이라는 결정시, 적어도 하나의 오디오 신호의 재생에 더하여, 오디오 정보 메시지의 재생을 인에이블하기 위해 오디오 정보 메시지 메타데이터를 수정하도록 구성될 수 있다.

시스템은,

오디오 정보 메시지가 재생될 것이라는 결정시, 적어도 하나의 오디오 신호의 재생에 더하여, 적어도 하나의 ROI와 연관하여 오디오 정보 메시지의 재생을 인에이블하기 위해 오디오 정보 메시지 메타데이터를 수정하고;

적어도 하나의 제1 오디오 스트림 및 적어도 하나의 추가적인 오디오 스트림의 병합을 허용하기 위해 적어도 하나의 오디오 신호를 설명하는 오디오 메타데이터를 수정하도록 구성될 수 있다.

시스템은,

오디오 정보 메시지가 재생될 것이라는 결정시, 오디오 정보 메시지 메타데이터를 합성 오디오 스트림에 연관시키고, 합성 오디오 스트림 및 오디오 정보 메시지 메타데이터를 멀티플렉서 또는 먹서에 제공하여 적어도 하나의 오디오 스트림 및 합성 오디오 스트림의 병합을 허용하기 위해, 오디오 정보 메시지 메타데이터를 합성 오디오 생성기에 제공하여 합성 오디오 스트림을 생성하도록 구성될 수 있다.

시스템은,

오디오 정보 메시지가 인코딩되는 적어도 하나의 추가적인 오디오 스트림으로부터 오디오 정보 메시지 메타데이터를 획득하도록 구성될 수 있다.

시스템은,

적어도 하나의 ROI에 연관되는 오디오 정보 메시지가 재생될 것이라는 결정에 기초하여 오디오 정보 메시지 메타데이터를 생성하도록 구성되는 오디오 정보 메시지 메타데이터 생성기를 포함하고 있을 수 있다.

시스템은,

미래의 사용을 위해, 오디오 정보 메시지 메타데이터 및/또는 오디오 정보 메시지 스트림을 저장하도록 구성될 수 있다.

시스템은,

적어도 하나의 ROI에 연관되는 오디오 정보 메시지 메타데이터에 기초하여 오디오 정보 메시지를 합성하도록 구성되는 합성 오디오 생성기를 더 포함하고 있을 수 있다.

메타데이터 프로세서는, 오디오 메타데이터 및/또는 오디오 정보 메시지 메타데이터에 기초하여, 적어도 하나의 오디오 스트림에 대한 오디오 정보 메시지의 추가를 획득하기 위해 하나의 스트림으로 적어도 하나의 제1 오디오 스트림의 패킷들과 오디오 정보 메시지 스트림의 패킷을 병합하기 위해 먹서 또는 멀티플렉서를 제어하도록 구성될 수 있다.

오디오 정보 메시지 메타데이터는 하기 중 적어도 하나를 포함하는 구성 프레임에서 및/또는 데이터 프레임으로 인코딩될 수 있다:

식별 태그,

오디오 정보 메시지 메타데이터의 재생을 고유하게 식별하는 정수,

메시지의 유형,

상태,

장면으로부터의 의존성/비-의존성의 표시,

위치 데이터,

이득 데이터

연관된 텍스트 라벨의 존재의 표시,

이용가능한 언어들의 수,

오디오 정보 메시지의 언어,

데이터 텍스트 길이,

연관된 텍스트 라벨의 데이터 텍스트, 및/또는

오디오 정보 메시지의 설명.

메타데이터 프로세서 및/또는 ROI 프로세서는 다음의 동작 중 적어도 하나를 수행하도록 구성될 수 있다:

스트림으로부터 오디오 정보 메시지 메타데이터를 추출하는 동작;

오디오 정보 메시지를 활성화시키고/시키거나 그것의 위치를 설정/변경하기 위해 오디오 정보 메시지 메타데이터를 수정하는 동작;

스트림에 다시 메타데이터를 내장시키는 동작;

스트림을 추가적인 미디어 디코더에 공급하는 동작;

적어도 하나의 제1 오디오 스트림으로부터 오디오 메타데이터를 추출하는 동작;

추가적인 스트림으로부터 오디오 정보 메시지 메타데이터를 추출하는 동작;

오디오 정보 메시지의 존재를 고려하고 병합을 허용하기 위해 적어도 하나의 제1 오디오 스트림의 오디오 메타데이터를 수정하는 동작;

스트림을 상기 멀티플렉서 또는 먹서에 제공하여 그를 ROI 프로세서로부터 수신되는 정보에 기초하여 멀티플렉스(multiplex) 또는 먹스(mux)하는 동작.

ROI 프로세서는 오디오 정보 메시지가 인코딩되는 추가적인 오디오 스트림 및/또는 오디오 정보 메시지 메타데이터에 대한 로컬 서치를 수행하고, 비-검색의 경우, 추가적인 오디오 스트림 및/또는 오디오 정보 메시지 메타데이터를 원격 엔티티에 요청하도록 구성될 수 있다.

ROI 프로세서는 추가적인 오디오 스트림 및/또는 오디오 정보 메시지 메타데이터에 대한 로컬 서치(local search)를 수행하고, 비-검색(non-retrieval)의 경우, 합성 오디오 생성기가 오디오 정보 메시지 스트림 및/또는 오디오 정보 메시지 메타데이터를 생성하게 하도록 구성될 수 있다.

시스템은,

적어도 하나의 ROI에 연관되는 적어도 하나의 오디오 정보 메시지가 포함되는 적어도 하나의 추가적인 오디오 스트림을 수신하고;

ROI 프로세서가 적어도 하나의 ROI에 연관되는 오디오 정보 메시지가 재생될 것이라고 결정하는 경우 적어도 하나의 추가적인 오디오 스트림을 디코딩하도록 구성될 수 있다.

시스템은,

적어도 하나의 제1 오디오 스트림으로부터 적어도 하나의 오디오 신호를 디코딩하기 위한 적어도 하나의 제1 오디오 디코더;

추가적인 오디오 스트림으로부터 적어도 하나의 오디오 정보 메시지를 디코딩하기 위한 적어도 하나의 추가적인 오디오 디코더; 및

적어도 하나의 추가적인 오디오 스트림으로부터의 오디오 정보 메시지를 적어도 하나의 제1 오디오 스트림으로부터의 적어도 하나의 오디오 신호와 혼합 및/또는 중첩시키기 위한 적어도 하나의 믹서 및/또는 렌더러(renderer)를 포함하고 있을 수 있다.

시스템은 메트릭(metrics)이 사전결정된 임계치를 초과하는 경우 오디오 정보 메시지의 재생을 디스에이블하기 위해, 오디오 정보 메시지의 재생에 연관되는 이력 및/또는 통계 데이터에 연관되는 메트릭을 추적하도록 구성될 수 있다.

ROI 프로세서의 결정은 ROI의 위치와 관련하여 사용자의 현재 뷰포트 및/또는 위치 및/또는 머리 방향 및/또는 이동 데이터의 예측에 기초할 수 있다.

시스템은 적어도 하나의 제1 오디오 스트림을 수신하고, 정보 메시지가 재생될 것이라는 결정시, 원격 엔티티로부터 오디오 메시지 정보 스트림을 요청하도록 구성될 수 있다.

시스템은 2개의 오디오 정보 메시지를 동시에 재생할지 여부 또는 더 낮은-우선순위 오디오 정보 메시지에 대해 우선순위를 갖는 재생예정인 더 높은-우선순위 오디오 정보 메시지를 선택할지 여부를 설정하도록 구성될 수 있다.

시스템은 오디오 스트림에서 오디오 정보 메시지의 주소 및/또는 위치에 기초하여 하나의 추가적인 오디오 스트림에 인코딩되는 복수의 오디오 정보 메시지 중에서 오디오 정보 메시지를 식별하도록 구성될 수 있다.

오디오 스트림은 MPEG-H 3D 오디오 스트림 포맷으로 포맷될 수 있다.

시스템은,

복수의 적응 세트의 이용가능성에 대한 데이터를 수신하고 - 이용가능한 적응 세트는 적어도 하나의 제1 오디오 스트림에 대한 적어도 하나의 오디오 장면 적응 세트 및 적어도 하나의 오디오 정보 메시지를 포함하는 적어도 하나의 추가적인 오디오 스트림에 대한 적어도 하나의 오디오 메시지 적응 세트를 포함함 -;

ROI 프로세서의 결정에 기초하여, 적응 세트 중 어느 것이 검색될 것인지를 식별하는 선택 데이터를 생성하고 - 이용가능한 적응 세트는 적어도 하나의 오디오 장면 적응 세트 및/또는 적어도 하나의 오디오 메시지 적응 세트를 포함함 -;

선택 데이터에 의해 식별되는 적응 세트들에 대한 데이터를 요청하고/하거나 검색하도록 구성될 수 있으며,

여기서, 각각의 적응 세트는 상이한 비트레이트에 대해 상이한 인코딩을 그룹화한다.

시스템은 그 요소 중 적어도 하나가 HTTP 동적 적응 스트리밍(Dynamic Adaptive Streaming over HTTP), DASH, 클라이언트를 포함하고/하거나 ISO 베이스 미디어 파일 포맷(ISO Base Media File Format:ISO BMFF), 또는 MPEG-2 전송 스트림(MPEG-2 Transport Stream; MPEG-2 TS)을 사용하여 적응 세트 각각에 대한 데이터를 검색하도록 구성되는 것일 수 있다.

ROI 프로세서는 ROI가 상기 현재 뷰포트에 표현되는지 여부를 체크하고 ROI가 현재 뷰포트 및/또는 위치 및/또는 머리 방향 및/또는 이동 데이터 밖에 있는 경우 사용자에게 ROI의 존재를 가청적으로 신호화하기 위해, ROI와 현재 뷰포트 및/또는 위치 및/또는 머리 방향 및/또는 이동 데이터 사이의 대응을 체크하도록 구성될 수 있다.

ROI 프로세서는 ROI가 현재 뷰포트에 표현되는지 여부를 체크하고 ROI가 현재 뷰포트 및/또는 위치 및/또는 머리 방향 및/또는 이동 데이터 내에 있는 경우 사용자에게 ROI의 존재를 가청적으로 신호화하는 것을 억제하기 위해, ROI와 현재 뷰포트 및/또는 위치 및/또는 머리 방향 및/또는 이동 데이터 사이의 대응을 체크하도록 구성될 수 있다.

시스템은, 원격 엔티티로부터, 비디오 환경 장면에 연관되는 적어도 하나의 비디오 스트림 및 오디오 장면 - 오디오 장면은 비디오 환경 장면에 연관됨 - 에 연관되는 적어도 하나의 오디오 스트림을 수신하도록 구성될 수 있다.

ROI 프로세서는, 재생될 복수의 오디오 정보 메시지 중에서, 제2 오디오 정보 메시지 전에 하나의 제1 오디오 정보 메시지의 재생을 선택하도록 구성될 수 있다.

시스템은 상이한 시간의 경우들에서 오디오 정보 메시지를 재사용하기 위해, 원격 엔티티로부터 수신되거나 합성적으로 생성되는 오디오 정보 메시지를 저장하기 위해 캐시 메모리를 포함하고 있을 수 있다.

오디오 정보 메시지는 이어콘(earcon)일 수 있다.

적어도 하나의 비디오 스트림 및/또는 적어도 하나의 제1 오디오 스트림은 현재 비디오 환경 장면 및/또는 비디오 오디오 장면 각각의 일부이고, 현재 비디오 환경 장면 및/또는 비디오 오디오 장면에서 사용자의 현재 뷰포트 및/또는 머리 방향 및/또는 이동 데이터와 독립적일 수 있다.

시스템은 오디오 스트림 및/또는 비디오 환경 스트림 각각에 연관하여 원격 엔티티에 적어도 하나의 제1 오디오 스트림 및/또는 적어도 하나의 비디오 스트림을 요청하고 사용자의 현재 뷰포트 및/또는 머리 방향 및/또는 이동 데이터에 기초하여 적어도 하나의 오디오 정보 메시지를 재생하도록 구성될 수 있다.

시스템은 오디오 스트림 및/또는 비디오 환경 스트림 각각에 연관하여 원격 엔티티에 적어도 하나의 제1 오디오 스트림 및/또는 적어도 하나의 비디오 스트림을 요청하고, 원격 엔티티에, 사용자의 현재 뷰포트 및/또는 머리 방향 및/또는 이동 데이터에 기초하여 적어도 하나의 오디오 정보 메시지를 요청하도록 구성될 수 있다.

시스템은 오디오 스트림 및/또는 비디오 환경 스트림 각각에 연관하여 원격 엔티티에 적어도 하나의 제1 오디오 스트림 및/또는 적어도 하나의 비디오 스트림을 요청하고, 사용자의 현재 뷰포트 및/또는 머리 방향 및/또는 이동 데이터에 기초하여 적어도 하나의 오디오 정보 메시지를 합성하도록 구성될 수 있다.

시스템은 오디오 정보 메시지의 상기 재생을 위한 추가적인 기준 중 적어도 하나를 체크하도록 구성될 수 있으며, 기준은 사용자의 선택 및/또는 사용자의 설정을 더 포함한다.

시스템은 오디오 정보 메시지의 재생을 위한 추가적인 기준 중 적어도 하나를 체크하도록 구성될 수 있으며, 기준은 시스템의 상태를 더 포함한다.

시스템은 오디오 정보 메시지의 재생을 위한 추가적인 기준 중 적어도 하나를 체크하도록 구성될 수 있으며, 기준은 이미 수행된 오디오 정보 메시지 재생들의 수를 더 포함한다.

시스템은 오디오 정보 메시지의 재생을 위한 추가적인 기준 중 적어도 하나를 체크하도록 구성될 수 있으며, 기준은 원격 엔티티로부터 획득되는 데이터스트림에서 플래그(flag)를 더 포함한다.

일 양태에 따르면, 상기 및/또는 하기 실시예 중 임의의 시스템으로서 구성되는 클라이언트, 및 적어도 하나의 비디오 스트림 및 적어도 하나의 오디오 스트림을 전달하기 위한 서버로서 구성되는 원격 엔티티를 포함하는 시스템이 제공된다.

원격 엔티티는, 데이터베이스, 인트라넷, 인터넷, 및/또는 지리적 네트워크에서, 적어도 하나의 추가적인 오디오 스트림 및/또는 오디오 정보 메시지 메타데이터를 서치하고, 검색의 경우, 적어도 하나의 추가적인 오디오 스트림 및/또는 오디오 정보 메시지 메타데이터를 전달하도록 구성될 수 있다.

원격 엔티티는 적어도 하나의 추가적인 오디오 스트림을 합성하고/하거나 오디오 정보 메시지 메타데이터를 생성하도록 구성될 수 있다.

일 양태에 따르면, 가상 현실(VR), 증강 현실(AR), 혼합 현실(MR), 또는 360도 비디오 환경을 위한 방법이 제공될 수 있으며, 방법은:

사용자에게 재생될 적어도 하나의 비디오 및 오디오 장면으로부터 적어도 하나의 비디오 신호를 디코딩하는 단계;

재생될 비디오 및 오디오 장면으로부터 적어도 하나의 오디오 신호를 디코딩하는 단계;

사용자의 현재 뷰포트 및/또는 머리 방향 및/또는 이동 데이터 및/또는 메타데이터에 기초하여, 적어도 하나의 ROI에 연관되는 오디오 정보 메시지 - 오디오 정보 메시지는 적어도 하나의 비디오 신호 및 상기 적어도 하나의 오디오 신호에 대해 독립적임 -;가 재생될지 여부를 결정하는 단계; 및

정보 메시지가 재생될 것이라는 결정시, 오디오 정보 메시지의 재생을 야기하는 단계를 포함한다.

사용자에 대한 VR, AR, MR 또는 360도 비디오 환경 장면의 표현을 위해 적어도 하나의 비디오 스트림으로부터 적어도 하나의 비디오 신호를 디코딩하는 단계;

사용자에 대한 오디오 장면의 표현을 위해 적어도 하나의 제1 오디오 스트림으로부터 적어도 하나의 오디오 신호를 디코딩하는 단계;

사용자의 현재 뷰포트 및/또는 머리 방향 및/또는 이동 데이터 및/또는 메타데이터에 기초하여, 적어도 하나의 ROI에 연관되는 오디오 정보 메시지 - 오디오 정보 메시지는 이어콘임 -가 재생될지 여부를 결정하는 단계; 및

상기 및/또는 하기의 방법은:

정보 메시지가 재생될 것이라는 결정시, 오디오 정보 메시지가 오디오 장면의 일부인 그러한 방식으로 메타데이터에 따라 오디오 정보 메시지의 재생을 야기하도록 메타데이터를 수신하고/하거나 처리하고/하거나 조작하는 단계를 포함하고 있을 수 있다.

상기 및/또는 하기의 방법은:

오디오 및 비디오 장면을 재생하는 단계; 및

사용자의 현재 뷰포트 및/또는 머리 방향 및/또는 이동 데이터 및/또는 메타데이터에 기초하여 오디오 정보 메시지를 더 재생하도록 결정하는 단계를 포함하고 있을 수 있다.

상기 및/또는 하기의 방법은:

오디오 및 비디오 장면을 재생하는 단계; 및

적어도 하나의 ROI가 사용자의 현재 뷰포트 및/또는 위치 및/또는 머리 방향 및/또는 이동 데이터 밖에 있는 경우, 적어도 하나의 오디오 신호의 재생에 더하여, 적어도 하나의 ROI에 연관되는 오디오 정보 메시지의 재생을 야기하고/하거나;

적어도 하나의 ROI가 사용자의 현재 뷰포트 및/또는 위치 및/또는 머리 방향 및/또는 이동 데이터 내에 있는 경우, 적어도 하나의 ROI에 연관되는 오디오 정보 메시지의 재생을 불허하고/하거나 비활성화시킨다.

적어도 하나의 비디오 스트림을 수신하고

적어도 하나의 제1 오디오 스트림을 수신하도록 구성되며

여기서, 시스템은:

사용자의 현재 뷰포트 및/또는 머리 방향 및/또는 이동 데이터 및/또는 메타데이터에 기초하여, 적어도 하나의 ROI에 연관되는 오디오 정보 메시지가 재생될지 여부를 결정하고;

실시예들에서, 가상 현실(VR), 증강 현실(AR), 혼합 현실(MR), 또는 360도 비디오 환경을 위한 시스템이 제공되며, 시스템은:

적어도 하나의 비디오 스트림을 수신하고

적어도 하나의 제1 오디오 스트림을 수신하도록 구성되며

여기서, 시스템은:

사용자에 대한 오디오 장면의 표현을 위해 적어도 하나의 제1 오디오 스트림으로부터의 적어도 하나의 오디오 신호를 디코딩하도록 구성되는 적어도 하나의 미디어 오디오 디코더;

사용자의 현재 뷰포트 및/또는 위치 및/또는 머리 방향 및/또는 이동 데이터 및/또는 메타데이터 및/또는 다른 기준에 기초하여, 적어도 하나의 ROI에 연관되는 오디오 정보 메시지가 재생될지 여부를 결정하도록 구성되는 관심 영역(region of interest; ROI) 프로세서; 및

정보 메시지가 재생될 것이라는 결정시, 오디오 정보 메시지가 오디오 장면의 일부인 그러한 방식으로 메타데이터에 따라 오디오 정보 메시지의 재생을 야기하기 위해 메타데이터를 수신하고/하거나 처리하고/하거나 조작하도록 구성되는 메타데이터 프로세서를 포함한다.

일 양태에 따르면, 프로세서에 의해 실행될 때, 프로세서가 상기 및/또는 하기와 같은 방법을 수행하게 하는 명령어를 포함하는 비-일시적(non-transitable) 저장 유닛이 제공된다.

5. 도면의 설명\
도 1 내지 도 5, 도 5a, 및 도 6은 구현들의 실시예를 도시한다.
도 7은 일 실시예에 따른 방법을 도시한다.
도 8은 구현의 일 실시예를 도시한다.

6. 실시예들

6.1 일반적인 실시예들

도 1은 가상 현실(VR), 증강 현실(AR), 혼합 현실(MR), 또는 360도 비디오 환경을 위한 시스템(100)의 일 예를 도시한다. 시스템(100)은 예를 들어, 콘텐츠 소비 디바이스(예를 들어, 헤드-장착 디스플레이 등)에 연관될 수 있으며, 이는 사용자의 머리에 밀접히 연관되는 구형 또는 반구형 디스플레이에서 시각 데이터를 재생한다.

시스템(100)은 적어도 하나의 미디어 비디오 디코더(102) 및 적어도 하나의 미디어 오디오 디코더(112)를 포함할 수 있다. 시스템(100)은 비디오 신호가 사용자에 대한 VR, AR, MR 또는 360도 비디오 환경 장면(118a)의 표현을 위해 인코딩되는 적어도 하나의 비디오 스트림(106)을 수신할 수 있다. 시스템(100)은 적어도 하나의 제1 오디오 스트림(116)을 수신할 수 있으며, 여기서 오디오 신호는 사용자에 대한 오디오 장면(118b)의 표현을 위해 인코딩된다.

시스템(100)은 또한 관심 영역(region of interest; ROI) 프로세서(120)를 포함할 수 있다. ROI 프로세서(120)는 ROI에 연관되는 데이터를 처리할 수 있다. 대체적으로, ROI의 존재는 뷰포트 메타데이터(131)에서 신호화될 수 있다. 뷰포트 메타데이터(131)는 비디오 스트림(106)에서 인코딩될 수 있다(다른 예들에서, 뷰포트 메타데이터(131)는 다른 스트림에서 인코딩될 수 있음). 뷰포트 메타데이터(131)는, 예를 들어, ROI에 연관되는 위치 정보(예를 들어, 좌표 정보)를 포함할 수 있다. 예를 들어, ROI는, 예들에서, (구형 비디오에서 직사각형들의 4개의 정점 중 하나의 위치 및 직사각형의 측면들의 길이와 같은 좌표들에 의해 식별되는) 직사각형으로서 이해될 수 있다. ROI는 통상적으로 구형 비디오에 투영된다. ROI는 통상적으로 사용자의 관심인 것으로 (특정 구성에 따라) 믿어지는 가시적인 요소에 연관된다. 예를 들어, ROI는 콘텐츠 소비 디바이스에 의해 디스플레이되는(또는 다소 사용자에게 가시적인) 직사각형 영역에 연관될 수 있다.

ROI 프로세서(120)는, 그 중에서도, 미디어 오디오 디코더(112)의 동작을 제어할 수 있다.

ROI 프로세서(120)는 사용자의 현재 뷰포트 및/또는 위치 및/또는 머리 방향 및/또는 이동에 연관되는 데이터(122)를 획득할 수 있다(또한, 가상 위치에 연관되는 가상 데이터는, 일부 예들에서, 데이터(122)의 일부인 것으로 이해될 수 있음). 이 데이터(122)는, 예를 들어, 콘텐츠 소비 디바이스에 의해, 또는 포지셔닝/검출 유닛에 의해 적어도 부분적으로 제공될 수 있다.

ROI 프로세서(120)는 ROI와 사용자의 현재 뷰포트 및/또는 위치(실제 또는 가상임) 및/또는 머리 방향 및/또는 이동 데이터(122)(예들에서, 다른 기준이 사용될 수 있음) 사이의 대응을 체크할 수 있다. 예를 들어, ROI 프로세서는 ROI가 현재 뷰포트에 표현되는지 여부를 체크할 수 있다. ROI가 (예를 들어, 사용자의 머리 이동에 기초하여) 뷰포트에서 부분적으로만 표현되는 경우에서, 그것은, 예를 들어, ROI의 최소 백분율이 스크린에 디스플레이되는 경우 결정될 수 있다. 임의의 경우에서, ROI 프로세서(120)는 ROI가 사용자에게 표현되지 않거나 가시적이지 않은지 인식할 수 있다.

ROI가 사용자의 현재 뷰포트 및/또는 위치 및/또는 머리 방향 및/또는 이동 데이터(122) 밖에 있는 것으로 간주되는 경우, ROI 프로세서(120)는 사용자에게 ROI의 존재를 가청적으로 신호화할 수 있다. 예를 들어, ROI 프로세서(120)는 적어도 하나의 제1 오디오 스트림(116)으로부터 디코딩되는 오디오 신호에 더하여 오디오 정보 메시지(이어콘)의 재생을 요청할 수 있다.

ROI가 사용자의 현재 뷰포트 및/또는 위치 및/또는 머리 방향 및/또는 이동 데이터(122) 내에 있는 것으로 간주되는 경우, ROI 프로세서는 오디오 정보 메시지의 재생을 회피하도록 결정할 수 있다.

오디오 정보 메시지는 오디오 스트림(140)(오디오 정보 메시지 스트림)에 인코딩될 수 있으며, 이는 오디오 스트림(116)과 동일하거나 상이한 스트림일 수 있다. 오디오 스트림(140)은 시스템(100)에 의해 생성될 수 있거나 외부 엔티티(예를 들어, 서버)로부터 획득될 수 있다. 오디오 메타데이터, 예컨대 오디오 정보 메시지 메타데이터(141)는 오디오 정보 스트림(140)의 속성을 설명하기 위해 정의될 수 있다.

오디오 정보 메시지는 오디오 스트림(116)에서 인코딩되는 신호에 중첩(또는 혼합 또는 다중화(muxed) 또는 합병 또는 결합 또는 구성)될 수 있거나, 예를 들어, ROI 프로세서(120)의 결정에 기초하여 단순히 선택되지 않을 수 있다. ROI 프로세서(120)는 뷰포트 및/또는 위치 및/또는 머리 방향 및/또는 이동 데이터(122), 메타데이터(예컨대 뷰포트 메타데이터(131) 또는 다른 메타데이터) 및/또는 다른 기준(예를 들어, 선택들, 시스템의 상태, 이미 수행되었던 오디오 정보 메시지 재생의 수, 특정 기능 및/또는 동작, 이어콘의 사용을 디스에이블할 수 있는 사용자 선호 설정 등)에 그것의 결정을 기초할 수 있다.

메타데이터 프로세서(132)가 구현될 수 있다. 메타데이터 프로세서(132)는, 예를 들어, ROI 프로세서(120)(이에 의해 그것이 제어될 수 있음)와 미디어 오디오 디코더(112)(메타데이터 프로세서로부터 제어될 수 있음) 사이에 개재될 수 있다. 예들에서, 메타데이터 프로세서는 ROI 프로세서(120)의 섹션이다. 메타데이터 프로세서(132)는 오디오 정보 메시지 메타데이터(141)를 수신하고/하거나, 생성하고/하거나, 처리하고/하거나, 조작할 수 있다. 메타데이터 프로세서(132)는 또한 예를 들어 오디오 정보 메시지 스트림(140)으로 오디오 스트림(116)을 먹싱하기 위해, 오디오 스트림(116)의 메타데이터를 처리하고/하거나 조작할 수 있다. 추가적으로 또는 대안적으로, 메타데이터 프로세서(132)는, 예를 들어 서버(예를 들어, 원격 엔티티)로부터, 오디오 스트림(116)의 메타데이터를 수신할 수 있다.

따라서, 메타데이터 프로세서(132)는 오디오 장면 재생을 변경하고 오디오 정보 메시지를 특정 상황 및/또는 선택 및/또는 상태에 적응시킬 수 있다.

일부 구현의 장점 중 일부가 여기서 논의된다.

오디오 정보 메시지는, 예를 들어, 오디오 정보 메시지 메타데이터(141)를 사용하여 정확하게 식별될 수 있다.

오디오 정보 메시지는 (예를 들어, 메타데이터 프로세서(132)에 의해) 메타데이터를 수정함으로써, 예를 들어, 쉽게 활성화/비활성화될 수 있다. 오디오 정보 메시지는, 예를 들어, 현재 뷰포트 및 ROI 정보(및 또한 달성될 특정 기능 또는 효과)에 기초하여 인에이블/디스에이블될 수 있다.

오디오 정보 메시지(예를 들어 상태, 유형, 공간 정보 등을 포함함)는, 예를 들어, 통상의 장비, 예컨대 HTTP 동적 적응 스트리밍(DASH) 클라이언트에 의해 쉽게 신호화되고 수정될 수 있다.

따라서, 시스템 레벨 상에서 (예를 들어 상태, 유형, 공간 정보 등을 포함하는) 오디오 정보 메시지에 대한 쉬운 액세스는 더 양호한 사용자 경험을 위한 추가적인 특징을 인에이블할 수 있다. 따라서, 시스템(100)은 쉽게 맞춤화되고 시스템(100)의 설계자로부터 독립적인 인원에 의해 수행될 수 있는 추가적인 구현(예를 들어, 특정 응용들)을 허용할 수 있다.

더욱이, 유연성(flexibility)은 다양한 유형들의 오디오 정보 메시지(예를 들어, 자연 사운드, 합성 사운드, DASH 클라이언트에서 생성되는 사운드 등)을 처리시 달성된다.

다른 장점(다음 예로 또한 명백해질 것임):

ㆍ (어떤 것을 디스플레이하거나 이어콘을 생성하기 위한 기준으로서) 메타데이터에서 텍스트 라벨들의 사용

ㆍ 디바이스에 기초한 이어콘 위치의 적응(HMD가 정확한 위치를 원하는 경우, 확성기라면 더 좋은 방식은 상이한 위치를 사용하는 것- 하나의 확성기로 지향시키는 것임).

ㆍ 상이한 디바이스 클래스:

- 이어콘 메타데이터는 이어콘이 활성화되도록 신호화되는 그러한 방식으로 생성될 수 있다

- 일부 디바이스는 메타데이터를 분석하고 이어콘을 재생하는 방법만을 알 것이다

- 더 양호한 ROI 프로세서를 추가적으로 갖는 일부 더 새로운 디바이스는 필요하지 않을 경우 그것을 비활성화하도록 결정할 수 있다

ㆍ 적응 세트에 대한 더 많은 정보 및 추가적인 특징,

따라서, VR/AR 환경에서, 사용자는 보통 예를 들어 헤드 장착 디스플레이(Head Mounted Display; HMD)를 사용하여 전체 360도 콘텐츠를 시각화하고 그것을 헤드폰을 통해 들을 수 있다. 사용자는 보통 VRJAR 공간으로 이동하거나 비디오에 대한 시야 방향 - 소위 "뷰포트"를 적어도 변경시킬 수 있다. 고전적인 콘텐츠 소비와 비교하여, VR의 경우, 콘텐츠 창작자는 사용자가 다양한 순간 - 현재 뷰포트에서 시각화하는 것을 더 이상 제어할 수 없다. 사용자는 허용된 또는 이용가능한 뷰포트에서 벗어나, 각각 시간의 순간에서 상이한 뷰포트를 선택할 자유를 갖는다. 사용자에게 관심 영역(Region Of Interest; ROI)을 표시하기 위해, 가청 사운드는, 자연 사운드 또는 합성 사운드 중 어느 하나로, 그들을 ROI의 위치에서 다시 플레이함으로써 사용될 수 있다. 이 오디오 메시지는 "이어콘들"로서 공지된다. 본 발명은 그러한 메시지의 효율적인 전달을 위한 솔루션을 제공하고 사용자 경험 및 콘텐츠 소비에 영향을 미치는 것 없이 이어콘을 사용하기 위한 최적화된 수신기 동작(receiver behaviour)을 제안한다. 이는 향상된 품질의 경험을 초래한다. 이는 최종 장면에서 이어콘을 인에이블 또는 디스에이블하기 위해 시스템 레벨 상에서 전용 메타데이터 및 메타데이터 조작 메커니즘을 사용함으로써 달성될 수 있다.

메타데이터 프로세서(132)는, 오디오 정보 메시지가 재생될 것이라는 결정시, 메타데이터(141)에 따른 오디오 정보 메시지의 재생을 야기하기 위해 메타데이터(141)를 수신하고/하거나 처리하고/하거나 조작하도록 구성될 수 있다. 오디오 신호들(예를 들어, 장면을 표현하기 위한 것들)은 오디오 장면(예를 들어, 원격 서버로부터 다운로드되는 오디오 장면)의 일부인 것으로 이해될 수 있다. 오디오 신호는 일반적으로 오디오 장면에 대해 의미론적으로 의미가 있을 수 있고 존재하는 모든 오디오 신호는 함께 오디오 장면을 구성한다. 오디오 신호는 하나의 오디오 비트스트림에서 함께 인코딩될 수 있다. 오디오 신호는 콘텐츠 창작자에 의해 생성될 수 있고/있거나 특정 장면에 연관될 수 있고/있거나 ROI로부터 독립적일 수 있다.

오디오 정보 메시지(예를 들어, 이어콘)는 오디오 장면에 의미론적으로 의미가 있지 않은 것으로서 이해될 수 있다. 그것은 인위적으로 생성될 수 있는 독립적인 사운드, 예컨대 녹음된 사운드, 사람의 리코더 음성 등으로서 이해될 수 있다. 그것은 또한 디바이스-의존적일 수 있다(예를 들어, 리모컨 상의 버튼을 누르면 생성되는 시스템-사운드). 오디오 정보 메시지(예를 들어, 이어콘)는 장면의 일부가 되는 것 없이, 장면에서 사용자를 안내하도록 의미되는 것으로서 이해될 수 있다.

오디오 정보 메시지는 상기한 바와 같이 오디오 신호들과 독립적일 수 있다. 상이한 예들에 따르면, 그것은 동일한 비트스트림에 포함되거나, 별도의 비트스트림으로 전송되거나, 시스템(100)에 의해 생성될 수 있다.

다수의 오디오 신호로 구성되는 오디오 장면의 일 예는 다음과 같다:

- 5개의 오디오 신호를 포함하는 콘서트 룸인 오디오 장면:

- 오디오 신호 1: 피아노의 사운드

- 오디오 신호 2: 가수의 목소리

- 오디오 신호 3: 청중 중 사람 1 부분의 목소리

- 오디오 신호 4: 청중 중 사람 2 부분의 목소리

- 오디오 신호 5: 벽 상의 시계에 의해 생성되는 사운드

오디오 정보 메시지는, 예를 들어, "피아노 연주자를 보시오"와 같은 녹음된 사운드일 수 있다(피아노가 ROI임). 사용자가 이미 피아노 연주자를 보고 있는 경우, 오디오 메시지는 재생되지 않을 것이다.

다른 예: 도어(예를 들어, 가상 도어)가 사용자 뒤에서 개방되고 새로운 사람이 방에 들어가며; 사용자는 그쪽을 보고 있지 않다. 이어콘은, 이것(가상 위치와 같은 VR환경에 관한 정보)에 기초하여, 사용자에게 그 뒤에서 무슨 일이 일어난다는 것을 알리기 위해 트리거될 수 있다.

예들에서, 각각의 장면(예를 들어, 관련된 오디오 및 비디오 스트림을 가짐)은 사용자가 환경을 변경할 때 서버로부터 클라이언트로 전송된다.

오디오 정보 메시지는 유연할 수 있다. 특히:

- 오디오 정보 메시지는 재생될 장면에 연관되는 동일한 오디오 스트림에 위치될 수 있고;

- 오디오 정보 메시지는 추가적인 오디오 스트림에 위치될 수 있고;

- 오디오 정보 메시지는 완전히 누락될 수 있지만, 이어콘을 설명하는 메타데이터만이 스트림에 존재할 수 있고 오디오 정보 메시지는 시스템에서 생성될 수 있고;

- 오디오 정보 메시지는 오디오 정보 메시지를 설명하는 메타데이터와 마찬가지로 완전히 누락될 수 있으며, 이 경우에서 시스템은 스트림에서 ROI에 대한 다른 정보에 기초하여 둘 다(이어콘 및 메타데이터)를 생성한다.

오디오 정보 메시지는 일반적으로 오디오 장면의 임의의 오디오 신호 부분과 독립적이고 오디오 장면의 표현을 위해 사용되지 않는다.

시스템(100)을 구현하는 부분을 구현하거나 포함하는 시스템들의 예들이 아래에 제공된다.

6.2 도 2의 실시예

도 2는 서버 측면(202), 미디어 전달 측면(203), 클라이언트 측면(204), 및/또는 미디어 소비 디바이스 측면(206)으로 세분되는 것으로서 여기에 표현되는 시스템(200)(시스템(100)을 구현하는 적어도 일부를 포함할 수 있음)을 도시한다. 측면들(202, 203, 204, 및 206) 각각은 시스템 자체이고 다른 시스템을 획득하기 위해 임의의 다른 시스템과 결합될 수 있다. 여기서, 오디오 정보 메시지는, 그를 임의의 종류의 오디오 정보 메시지로 일반화하는 것이 가능할 지라도, 이어콘으로서 지칭된다.

클라이언트 측면(204)은 미디어 전달 측면(203)을 통해 서버 측면(202)으로부터 적어도 하나의 비디오 스트림(106) 및/또는 적어도 하나의 오디오 스트림(116)을 수신할 수 있다.

전달 측면(203)은, 예를 들어 클라우드 시스템, 네트워크 시스템, 지리적 통신 네트워크 또는 잘 알려진 미디어 전송 포맷들(MPEG-2 TS Transport Stream, DASH, MMT, DASH ROUTE 등)과 같은 통신 시스템 또는 심지어 파일 기반 스토리지에 기초할 수 있다. 전달 측면(203)은 전기 신호들의 형태로(예를 들어, 유선, 무선 등) 및/또는 오디오 및 비디오 신호들이 인코딩되는 비트스트림으로 (예를 들어, 특정 통신 프로토콜에 따라) 데이터 패킷을 분배함으로써 통신을 수행하는 것이 가능할 수 있다. 그러나, 전달 측면(203)은 포인트 투 포인트 링크, 직렬 또는 병렬 연결 등에 의해 구현될 수 있다. 전달 측면(203)은 예를 들어, WiFi, Bluetooth 등과 같은 프로토콜에 따라 무선 연결을 수행할 수 있다.

클라이언트 측면(204)은, 예를 들어, 사용자의 헤드가 삽입될 수 있는, 미디어 소비 디바이스, 예를 들어, HND에 연관될 수 있다(그러나, 다른 디바이스가 사용될 수 있음). 따라서, 사용자는 서버 측면(202)에 의해 제공되는 비디오 및 오디오 데이터에 기초하여 클라이언트 측면(204)에 의해 준비되는 비디오 및 오디오 장면(예를 들어, VR 장면)을 경험할 수 있다. 그러나, 다른 구현들이 가능하다.

서버 측면(202)은 (비디오 인코더들, 오디오 인코더들, 자막 인코더 등을 커버할 수 있는) 미디어 인코더(240)를 갖는 것으로서 여기에 표현된다. 이 인코더(240)는, 예를 들어, 표현될 오디오 및 비디오 장면에 연관될 수 있다. 오디오 장면은, 예를 들어, 환경을 재창조하기 위한 것일 수 있고 적어도 하나의 오디오 및 비디오 데이터 스트림들(106, 116)에 연관되며, 이는 VR, AR, MR 환경에서 사용자에 의해 도달되는 위치(또는 가상 위치)에 기초하여 인코딩될 수 있다. 대체적으로, 비디오 스트림(106)은 구형 이미지를 인코딩하며, 그(뷰포트) 중 일부만이 그것의 위치 및 이동에 따라서 사용자에 의해 보여질 것이다. 오디오 스트림(116)은 오디오 장면 표현에 참여하고 사용자에 의해 듣게 되도록 의미되는 오디오 데이터를 포함한다. 예들에 따르면, 오디오 스트림(116)은 오디오 메타데이터(236)(오디오 장면 표현에 참여하도록 의도되는 적어도 하나의 오디오 신호를 지칭함) 및/또는 이어콘 메타데이터(141)(일부 경우들에서만 재생될 이어콘을 설명할 수 있음)를 포함할 수 있다.

시스템(100)은 클라이언트 측면(204)에 있는 것으로서 여기에 표현된다. 단순화를 위해, 미디어 비디오 디코더(112)는 도 2에 도시되지 않는다.

이어콘(또는 다른 오디오 정보 메시지들)의 재생을 준비하기 위해, 이어콘 메타데이터(141)가 사용될 수 있다. 이어콘 메타데이터(141)는 이어콘에 연관되는 속성을 설명하고 제공하는 메타데이터(오디오 스트림에 인코딩될 수 있음)로서 이해될 수 있다. 따라서, 이어콘은 (재생될 경우) 이어콘 메타데이터(141)의 속성들에 기초할 수 있다.

유리하게는, 메타데이터 프로세서(132)는 이어콘 메타데이터(141)를 처리하도록 특별히 구현될 수 있다. 예를 들어, 메타데이터 프로세서(132)는 이어콘 메타데이터(141)의 수신, 처리, 조작, 및/또는 생성을 제어할 수 있다. 처리될 때, 이어콘 메타데이터는 수정된 이어콘 메타데이터(234)로서 표현될 수 있다. 예를 들어, 그것은 특정 효과를 획득하기 위해, 및/또는 이어콘을 오디오 장면에서 표현될 오디오 신호에 추가하기 위한, 멀티플렉싱 또는 먹싱과 같은, 오디오 처리 동작을 수행하기 위해 이어콘 메타데이터를 조작하는 것이 가능하다.

메타데이터 프로세서(132)는 적어도 하나의 스트림(116)에 연관되는 오디오 메타데이터(236)의 수신, 처리, 조작을 제어할 수 있다. 처리될 때, 오디오 메타데이터(236)는 수정된 오디오 메타데이터(238)로서 표현될 수 있다.

수정된 메타데이터(234 및 238)는 사용자에 대한 오디오 장면(118b)의 재생을 위해 미디어 오디오 디코더(112)(또는 일부 예들에서 복수의 디코더들)에 제공될 수 있다.

예들에서, 선택적 구성요소로서, 합성 오디오 생성기 및/또는 저장 디바이스(246)가 제공될 수 있다. 생성기는 (예를 들어, 스트림에 인코딩되지 않는 이어콘을 생성하기 위해) 오디오 스트림을 합성할 수 있다. 저장 디바이스는 생성기에 의해 생성되고/되거나 수신된 오디오 스트림에서 획득된 (예를 들어, 미래의 사용을 위해) 이어콘 스트림을 (예를 들어, 캐시 메모리에) 저장하는 것을 허용한다.

따라서, ROI 프로세서(120)는 사용자의 현재 뷰포트 및/또는 위치 및/또는 머리 방향 및/또는 이동 데이터(122)에 기초하여 이어콘의 표현에 대해 결정할 수 있다. 그러나, ROI 프로세서(120)는 또한 다른 측면을 수반하는 기준들에 그것의 결정을 기초할 수 있다.

예를 들어, ROI 프로세서는 예를 들어, 사용자의 선택 또는 상위 계층 선택들과 같은 다른 조건들에 기초하여, 예를 들어, 소비되도록 의도되는 특정 응용에 기초하여 이어콘 재생을 인에이블/디스에이블할 수 있다. 비디오 게임 응용의 경우, 예를 들어, 이어콘 또는 다른 오디오 정보 메시지는 하이-비디오게임-레벨을 위해 회피될 수 있다. 이는 이어콘 메타데이터에서 이어콘을 디스에이블함으로써 메타데이터 프로세서에 의해 간단히 획득될 수 있다.

또한, 그것은 시스템의 상태에 기초하여 이어콘을 디스에이블하는 것이 가능하며: 예를 들어, 이어콘이 이미 재생된 경우, 그것의 반복은 억제될 수 있다. 타이머는 예를 들어, 너무 빠른 반복을 회피하기 위해 사용될 수 있다.

ROI 프로세서(120)는 또한, 예를 들어, 사용자에게 그/그녀가 볼 수 있는 요소들에 대해 지시하기 위해, 이어콘들(예를 들어, 장면에서 모든 ROI들에 연관되는 이어콘들)의 시퀀스의 제어된 재생을 요청할 수 있다. 메타데이터 프로세서(132)는 이 동작을 제어할 수 있다.

ROI 프로세서(120)는 또한 이어콘 위치(즉, 장면에서의 공간 위치) 또는 이어콘 유형을 수정할 수 있다. 예를 들어, 일부 사용자는 ROI의 정확한 장소/위치에서 하나의 특정 사운드 재생을 이어콘으로서 갖는 것을 선호할 수 있는 반면, 다른 사용자는 ROI가 위치되는 위치를 표시하는 보컬 사운드로서 하나의 고정된 장소(예를 들어, 중앙, 또는 상단 위치의 "신의 음성" 등)에서 항상 재생되는 이어콘을 갖는 것을 선호할 수 있다.

그것은 이어콘의 재생의 이득(gain)을 수정하는 것(예를 들어, 상이한 볼륨을 획득하는 것)이 가능하다. 이 결정은 예를 들어, 사용자의 선택을 따를 수 있다. 특히, ROI 프로세서의 결정에 기초하여, 메타데이터 프로세서(132)는, 이어콘에 연관되는 이어콘 메타데이터 중에서, 이득에 연관되는 특정 속성을 수정함으로써 이득 수정을 수행할 것이다.

VR, AR, MR 환경의 원래 설계자는 또한 이어콘들이 실제로 어떻게 재생될지를 모를 수 있다. 예를 들어, 사용자의 선택은 이어콘들의 최종 렌더링을 수정할 수 있다. 그러한 동작은, 예를 들어, ROI 프로세서의 결정들에 기초하여 이어콘 메타데이터(141)를 수정할 수 있는 메타데이터 프로세서(132)에 의해 제어될 수 있다.

따라서, 이어콘에 연관되는 오디오 데이터에 대해 수행되는 동작은 따라서 원칙적으로 오디오 장면을 표현하기 위해 사용되는 적어도 하나의 오디오 스트림(116)과 독립적이고 상이하게 관리될 수 있다. 이어콘은 심지어 오디오 및 비디오 장면을 구성하는 오디오 및 비디오 스트림들(106 및 116)과 독립적으로 생성될 수 있고 상이하고 독립적인 기업가 그룹들에 의해 생산될 수 있다.

따라서, 실시예들은 사용자들에 대한 만족을 증가시키는 것을 허용한다. 예를 들어, 사용자는, 예를 들어, 오디오 정보 메시지의 볼륨을 수정하는 것, 오디오 정보 메시지를 디스에이블하는 것 등에 의해 그/그녀 자신의 선택을 수행할 수 있다. 따라서, 각각의 사용자는 그/그녀의 선호도에 보다 적합한 경험을 가질 수 있다. 또한, 획득된 아키텍처는 보다 유연하다. 오디오 정보 메시지는, 예를 들어, 오디오 스트림들과 독립적으로 메타데이터를 수정함으로써, 및/또는 메타데이터 및 메인 오디오 스트림들과 독립적으로 오디오 정보 메시지 스트림을 수정함으로써 용이하게 갱신될 수 있다.

획득된 아키텍처는 또한 레거시 시스템들과 호환가능하며: 레거시 오디오 정보 메시지 스트림은, 예를 들어, 새로운 오디오 정보 메시지 메타데이터에 연관될 수 있다. 적합한 오디오 정보 메시지 스트림의 부재의 경우, 실시예들에서 후자는 용이하게 합성될 수 있다(그리고, 예를 들어, 후속 사용을 위해 저장됨).

ROI 프로세서는 메트릭(metrics)이 사전결정된 임계치(이는 기준으로서 사용될 수 있음)를 초과하는 경우 오디오 정보 메시지의 재생을 디스에이블하도록, 오디오 정보 메시지의 재생에 연관되는 이력 및/또는 통계 데이터에 연관되는 메트릭을 추적할 수 있다.

ROI 프로세서의 결정은, 기준으로서, ROI의 위치와 관련하여 사용자의 현재 뷰포트 및/또는 위치 및/또는 머리 방향 및/또는 이동 데이터(122)의 예측에 기초할 수 있다.

ROI 프로세서는 적어도 하나의 제1 오디오 스트림(116)을 수신하고, 정보 메시지가 재생될 것이라는 결정시, 원격 엔티티로부터 오디오 메시지 정보 스트림을 요청하도록 더 구성될 수 있다.

ROI 프로세서 및/또는 메타데이터 생성기는 2개의 오디오 정보 메시를 동시에 재생할 것인지 여부 또는 더 낮은-우선순위 오디오 정보 메시지에 대해 우선순위를 갖는 더 높은-우선순위 오디오 정보 메시지를 선택할 것인지 여부를 설정하도록 더 구성될 수 있다. 이러한 결정을 수행하기 위해, 오디오 정보 메타데이터가 사용될 수 있다. 우선순위는, 예를 들어, 오디오 정보 메시지 메타데이터의 값들에 기초하여 메타데이터 프로세서(132)에 의해 획득될 수 있다.

일부 예들에서, 미디어 인코더(240)는, 데이터베이스, 인트라넷, 인터넷, 및/또는 지리적 네트워크에서, 추가적인 오디오 스트림 및/또는 오디오 정보 메시지 메타데이터를 서치하고, 검색의 경우, 추가적인 오디오 스트림 및/또는 오디오 정보 메시지 메타데이터를 전달하도록 구성될 수 있다. 예를 들어, 서치(search)는 클라이언트 측면의 요청시 수행될 수 있다.

위에 설명된 바와 같이, 오디오 콘텐츠와 함께 이어콘 메시지들의 효율적인 전달을 위한 솔루션이 여기에 제공된다. 사용자 경험 및 콘텐츠 소비에 영향을 미치는 것 없이 오디오 정보 메시지(예를 들어, 이어콘들)를 사용하기 위한 최적화된 수신기 동작이 획득된다. 이는 향상된 품질의 경험을 초래할 것이다.

이는 최종 오디오 장면들에서 오디오 정보 메시지들의 인에이블링 또는 디스에이블링을 위한 시스템 레벨 상에서 전용 메타데이터 및 메타데이터 조작 메커니즘을 사용함으로써 달성될 수 있다. 메타데이터는 임의의 오디오 코덱과 함께 사용될 수 있고 차세대 오디오 코덱 메타데이터(예를 들어, MPEG-H 오디오 메타데이터)를 훌륭한 방식으로 보완한다.

전달 메커니즘은 다양할 수 있다(예를 들어, DASH/HLS을 통한 스트리밍, DASH-ROUTE/MMT/MPEG-2 TS를 통한 브로드캐스트, 파일 재생 등). 이 응용에서, DASH 전달이 고려되지만, 모든 개념들이 다른 전달 옵션들에 대해서도 유효하다.

대부분의 경우에서, 오디오 정보 메시지는 시간 도메인에서, 즉, 하나의 ROI만이 정의되는 특정 시점에서 중첩되지 않을 것이다. 그러나, 예를 들어 사용자가 그의 선택들/이동들에 기초하여 콘텐츠를 변경할 수 있는 대화형 환경에서 보다 진보된 사용 경우를 고려할 때, 또한 다수의 ROI를 요구하는 사용 경우들이 존재할 수도 있다. 이 목적을 위해, 하나보다 많은 오디오 정보 메시지가 한 순간에서 요구될 수 있다. 따라서, 모든 상이한 경우를 지원하기 위한 일반적인 솔루션이 설명된다.

오디오 정보 메시지들의 전달 및 처리는 차세대 오디오를 위해 기존 전달 방법을 보완해야 한다.

시간 도메인에 독립적인 수 개의 ROI들에 대한 다수의 오디오 정보 메시지를 전달하는 하나의 방법은 상이한 시간의 경우들에서 각각의 오디오 정보 메시지의 공간 위치를 설명하는 연관된 메타데이터로 모든 오디오 정보 메시지를 하나의 오디오 요소(예를 들어, 오디오 객체)로 함께 혼합하는 것이다. 오디오 정보 메시지는 시간에서 중첩되지 않기 때문에, 하나의, 공유된 오디오 요소에서 독립적으로 처리될 수 있다. 이 오디오 요소는 오디오 정보 메시지 사이에, 즉, 오디오 정보 메시지가 없을 때마다 침묵(silence)(또는 오디오 데이터 없음)을 포함할 수 있을 것이다. 다음 메커니즘이 이 경우에 적용될 수 있다:

ㆍ 공통 오디오 정보 메시지 오디오 요소는 그것이 관련된 오디오 장면과 동일한 기본 스트림(elementary Stream; ES)으로 전달될 수 있거나, 그것은 하나의 보조 스트림(메인 스트림에 의존적 또는 비-의존적임)으로 전달될 수 있다.

ㆍ 이어콘 오디오 요소가 메인 스트림에 의존적인 보조 스트림으로 전달되는 경우, 클라이언트는 새로운 ROI가 시각적 장면에 존재할 때마다 추가적인 스트림을 요청할 수 있다.

ㆍ 클라이언트(예를 들어, 시스템(100))는, 예들에서, 이어콘을 요구하는 장면보다 앞서 스트림을 요청할 수 있다.

ㆍ 클라이언트는, 예들에서, 현재 뷰포트에 기초하여 스트림을 요청할 수 있으며, 즉, 현재 뷰포트가 ROI와 일치하는 경우 클라이언트는 추가적인 이어콘 스트림을 요청하지 않기로 결정할 수 있다.

ㆍ 이어콘 오디오 요소가 메인 스트림에 독립적인 보조 스트림으로 전달될 수 있는 경우, 클라이언트는, 이전과 같이, 새로운 ROI들이 시각적 장면에 존재할 때마다 추가적인 스트림을 요청할 수 있다. 추가적으로, 2개(또는 그 이상)의 스트림은 2개의 미디어 디코더 및 디코딩된 이어콘 오디오 데이터를 최종 오디오 장면으로 혼합하기 위한 공통 렌더링/믹싱 단계를 사용하여 처리될 수 있다. 대안적으로, 메타데이터 프로세서는 2개의 스트림들의 메타데이터를 수정하기 위해 사용될 수 있고 "스트림 병합(Stream Merger)"은 2개의 스트림을 병합하기 위해 사용될 수 있다. 그러한 메타데이터 프로세서 및 스트림 병합의 가능한 구현이 다음에서 설명된다.

대안적인 예들에서, 시간 도메인에서 독립적이거나 시간 도메인에서 중첩되는 수개의 ROI들에 대한 다수의 이어콘은 다수의 오디오 요소들(예를 들어, 오디오 객체들)로 전달되고 메인 오디오 장면과 함께 하나의 기본 스트림에 또는 다수의 보조 스트림들, 예를 들어, 하나의 ES에서의 각각의 이어콘 또는 공유 속성(예를 들어, 좌측 측면 상에 위치되는 모든 이어콘은 하나의 스트림을 공유함)에 기초한 하나의 ES에서의 이어콘들의 그룹에 내장될 수 있다.

ㆍ 모든 이어콘 오디오 요소들이 메인 스트림에 의존하는 수개의 보조 스트림들(예를 들어, 스트림 당 하나의 이어콘 또는 스트림 당 이어콘들의 그룹)에서 전달되는 경우, 클라이언트는, 예들에서, 그 이어콘과 연관된 ROI가 시각적 장면에 존재할 때마다, 원하는 이어콘을 포함하는, 하나의 추가적인 스트림을 요청할 수 있다.

ㆍ 클라이언트는, 예들에서, 그 이어콘을 요청하는 장면에 앞서 이어콘으로 스트림을 요청할 수 있다(예를 들어, 사용자의 이동들에 기초하여, ROI 프로세서(120)는 ROI가 아직 장면의 일부가 아닌 경우라도 결정을 수행할 수 있음).

ㆍ 클라이언트는, 예들에서, 현재 뷰포트에 기초하여 스트림을 요청할 수 있으며, 현재 뷰포트가 ROI와 일치하고 있는 경우 클라이언트는 추가적인 이어콘 스트림을 요청하지 않도록 결정할 수 있다.

ㆍ 하나의 이어콘 오디오 요소(또는 이어콘들의 그룹)가 메인 스트림에 독립적인 보조 스트림으로 전달되는 경우, 클라이언트는, 예들에서, 새로운 ROI가 시각적 장면에 존재할 때마다 추가적인 스트림을, 이전과 같이, 요청할 수 있다. 추가적으로, 2개(또는 그 이상)의 스트림은 2개의 미디어 디코더 및 디코딩된 이어콘 오디오 데이터를 최종 오디오 장면으로 혼합하기 위한 공통 렌더링/믹싱 단계를 사용하여 처리될 수 있다. 대안적으로, 메타데이터 프로세서는 2개의 스트림들의 메타데이터를 수정하기 위해 사용될 수 있고 "스트림 병합(Stream Meger)"은 2개의 스트림을 병합하기 위해 사용될 수 있다. 그러한 메타데이터 프로세서 및 스트림 병합의 가능한 구현이 다음에서 설명된다.

대안적으로, 하나의 공통(일반적인) 이어콘은 하나의 오디오 장면에서 모든 ROI를 신호화하기 위해 사용될 수 있다. 이는 상이한 시간의 경우들에서 오디오 콘텐츠들과 연관되는 상이한 공간 정보를 갖는 동일한 오디오 콘텐츠를 사용함으로써 달성될 수 있다. 이 경우에서, ROI 프로세서(120)는 메타데이터 프로세서(132)에게 장면에서 ROI들에 연관되는 이어콘을 수집하고, (예를 들어, 사용자의 선택에서 또는 상위-계층 응용 요청에서) 시퀀스로 이어콘들의 재생을 제어하도록 요청할 수 있다.

대안적으로, 하나의 이어콘은 한 번만 전송되고 클라이언트에 캐시될 수 있다. 클라이언트는 상이한 시간의 경우에서 오디오 콘텐츠와 연관되는 상이한 공간 정보를 갖는 하나의 오디오 장면에서 모든 ROI에 대해 이를 재사용할 수 있다.

대안적으로, 이어콘 오디오 콘텐츠는 클라이언트에서 합성적으로 생성될 수 있다. 그와 함께, 메타데이터 생성기는 이어콘의 공간 정보를 신호화하기 위해 필요한 메타데이터를 생성하기 위해 사용될 수 있다. 예를 들어, 이어콘 오디오 콘텐츠는 메인 오디오 콘텐츠 및 새로운 메타데이터와 함께 압축되고 하나의 미디어 디코더로 공급될 수 있거나 그것은 미디어 디코더 이후 최종 오디오 장면으로 혼합될 수 있거나, 수개의 미디어 디코더들이 사용될 수 있다.

대안적으로, 이어콘 오디오 콘텐츠는, 예들에서, (예를 들어, 메타데이터 프로세서(132)의 제어 하에) 클라이언트에서 합성적으로 생성될 수 있는 반면, 이어콘을 설명하는 메타데이터는 이미 스트림에 내장된다. 인코더에서 이어콘 유형의 특정 신호(signaling)를 사용하여, 메타데이터는 이어콘의 공간 정보인, "디코더 생성 이어콘(Decoder generated Earcon)"에 대한 특정 신호를 포함할 수 있지만 이어콘에 대한 오디오 데이터는 포함할 수 없다.

대안적으로, 이어콘 오디오 콘텐츠는 클라이언트에서 합성적으로 생성될 수 있고, 메타데이터 생성기는 이어콘의 공간 정보를 신호화하기 위해 필요한 메타데이터를 생성하기 위해 사용될 수 있다. 예를 들어, 이어콘 오디오 콘텐츠는

ㆍ 메인 오디오 콘텐츠 및 새로운 메타데이터와 함께 압축되고 하나의 미디어 디코더로 공급될 수 있거나;

ㆍ 그것은 미디어 디코더 이후 최종 오디오 장면으로 혼합될 수 있거나;

ㆍ 수개의 미디어 디코더들이 사용될 수 있다.

6.3 오디오 정보 메시지(예를 들어, 이어콘)에 대한 메타데이터의 실시예

상술된 바와 같은 오디오 정보 메시지(이어콘) 메타데이터(141)의 일 예가 여기에 제공된다.

이어콘 속성을 설명하고 이 값을 쉽게 조정하는 가능성을 제공하는 하나의 구조:

표에서의 각각의 식별자는 이어콘 메타데이터(132)의 속성에 연관되는 것으로서 의도될 수 있다.

의미들(Semantics)은 여기서 논의된다.

numEarcons - 이 필드는 스트림에서 이용가능한 이어콘 오디오 요소들의 수를 지정한다.

Earcon_islndependent - 이 플래그는 이어콘 오디오 요소가 임의의 오디오 장면으로부터 독립적인 경우를 정의한다. Earcon_islndependent == 1인 경우, 이어콘 오디오 요소는 오디오 장면으로부터 독립적이다. Earcon_islndependent == 0인 경우, 이어콘 오디오 요소는 오디오 장면의 일부이고 Earcon_id는 오디오 요소와 연관되는 mae_groupID와 동일한 값을 가질 것이다.

EarconType - 이 필드는 이어콘의 유형을 정의한다. 다음 표는 허용된 값을 지정한다

EarconActive 이 플래그는 이어콘이 활성적인지를 정의한다. EarconActive == 1인 경우, 이어콘 오디오 요소는 디코딩되고 오디오 장면 상으로 렌더링될 것이다.

EarconPosition 이 플래그는 이어콘이 이용가능한 위치 정보를 갖는지를 정의한다. Earcon_islndependent == 0인 경우, 이 위치 정보는 dynamic_object_metadata() 또는 intracoded_object_metadata_efficient() 구조들에 지정되는 오디오 객체 메타데이터 대신에 사용될 것이다.

Earcon_azimuth 방위각의 절대값.

Earcon_elevation 앙각의 절대값.

Earcon_radius 반경의 절대값.

EarconHasGain 이 플래그는 이어콘이 상이한 이득 값을 갖는지를 정의한다.

Earcon_gain 이 필드는 이어콘에 대한 이득의 절대값을 정의한다.

EarconHasTextLabel 이 플래그는 이어콘이 연관된 텍스트 라벨을 갖는지를 정의한다.

Earcon_numLanguages 이 필드는 설명 텍스트 라벨에 대해 이용가능한 언어들의 수를 지정한다.

Earcon_Language 이 24-비트 필드는 이어콘의 설명 텍스트의 언어를 식별한다. 그것은 ISO 639-2에 의해 지정된 바와 같은 3-문자 코드를 포함한다. ISO 639-2/B 및 ISO 639-2/T 둘 다가 사용될 수 있다. 각각의 문자는 ISO/IEC 8859-1에 따라 8 비트로 코딩되고 24-비트 필드로 순서대로 삽입된다. 예: 프랑스어는 3-문자 코드 "fre"를 가지며, 이는 다음과 같이 코딩된다: "011001100111 0010 0110 0101".

Earcon_TextDataLength 이 필드는 비트 스트림에서 이어지는 그룹 설명의 길이를 정의한다.

Earcon_TextData 이 필드는 이어콘의 설명, 즉 고-레벨(high-level) 설명에 의해 콘텐츠를 설명하는 스트링(string)을 포함한다. 포맷은 ISO/IEC 10646에 따라 UTF-8을 따를 것이다.

시스템 레벨 상에서의 이어콘을 식별하고 그를 기존 뷰포트와 연관시키기 위한 하나의 구조. 다음의 2개의 표는 상이한 구현들에서 사용될 수 있는 그러한 구조를 구현하기 위한 2개의 방법을 제공한다:

또는 대안적으로:

의미(Semantics):

hasEarcon은 이어콘 데이터가 하나의 영역에 대해 이용가능한지를 지정한다.

numRegionEarcons은 하나의 영역에 대해 이용가능한 이어콘들의 수를 지정한다.

Earcon_id는 구(sphere) 영역과 연관되는 하나의 이어콘 요소에 대한 ID를 고유하게 정의한다. 이어콘이 오디오 장면의 일부인 경우(즉, 이어콘이 하나의 mae_groupID에 의해 식별되는 요소들의 하나의 그룹의 일부인 경우), Earcon_id SHALL은 mae_grouplD과 동일한 값을 갖는다. Earcon_id는 오디오 파일/트랙에서의 식별을 위해 사용될 수 있으며, 예를 들어 DASH 전달의 경우, MPD에서 EarconComponent@tag 요소를 갖는 AdaptationSet는 Earcon_id와 동일하다.

Earcon_track_id -는 하나의 프리젠테이션의 전체 수명에 걸쳐 구 영역과 연관되는 하나의 이어콘 트랙을 고유하게 식별하는 정수이며, 즉, 이어콘(들) 트랙이 동일한 ISO BMFF 파일에서 전달되는 경우, Earcon_track_id는 이어콘(들) 트랙의 대응하는 track_id를 표현한다. 이어콘이 동일한 ISO BMFF 파일 내에서 전달되지 않는 경우, 이 값은 제로로 설정될 것이다.

MPD 레벨 상에서 이어콘(들) 트랙의 용이한 식별을 위해, 다음의 속성/요소는 EarconComponent@tag로서 사용될 수 있다:

MPEG-H 오디오에 대한 관련 MPD 요소 및 속성들의 요약

MPEG-H 오디오의 경우, 이는, 예들에서, MHAS 패킷을 사용함으로써 구현될 수 있다:

ㆍ 이어콘에 대한 정보를 운반하기 위한 새로운 MHAS 패킷이 정의될 수 있다: Earconlnfo() 구조를 운반하는 PACTYP_EARCON;

ㆍ Earconlnfo() 구조를 운반하기 위한, 일반 MHAS METADATA MHAS 패킷에서의 새로운 식별 필드.

메타데이터에 대하여, 메타데이터 프로세서(132)는 다음 능력 중 적어도 일부를 가질 수 있다:

스트림으로부터 오디오 정보 메시지 메타데이터를 추출하는 능력;

오디오 정보 메시지를 활성화시키고/시키거나 그것의 위치를 설정/변경시키고/시키거나 오디오 정보 메시지 텍스트 라벨을 기록/수정하기 위해 오디오 정보 메시지 메타데이터를 수정하는 능력;

스트림에 다시 메타데이터를 내장시키는 능력;

스트림을 추가적인 미디어 디코더에 공급하는 능력;

적어도 하나의 제1 오디오 스트림(116)으로부터 오디오 메타데이터를 추출하는 능력;

추가적인 스트림으로부터 오디오 정보 메시지 메타데이터를 추출하는 능력;

오디오 정보 메시지의 존재를 고려하고 병합을 허용하기 위해 적어도 하나의 제1 오디오 스트림(116)의 오디오 메타데이터를 수정하는 능력;

스트림을 멀티플렉서 또는 먹서에 제공하여 그를 ROI 프로세서로부터 수신되는 정보에 기초하여 멀티플렉스 또는 먹스하는 능력.

6.4 도 3의 실시예

도 3은, 예를 들어, 시스템(100 또는 200)을 구현할 수 있는 시스템(302)(클라이언트 시스템)을, 클라이언트 측면(204)에서, 포함하는 시스템(300)을 도시한다.

시스템(302)은 ROI 프로세서(120), 메타데이터 프로세서(132), 복수의 디코더들(112)에 의해 형성되는 디코더 그룹(313)을 포함할 수 있다.

이 예에서, 상이한 오디오 스트림은 (각각의 미디어 오디오 디코더(112)에 의해 각각) 디코딩되고 후속적으로 함께 혼합되고/되거나 최종 오디오 장면을 제공하기 위해 함께 렌더링된다.

적어도 하나의 오디오 스트림은 여기서 2개의 스트림(116 및 316)을 포함하는 것으로서 표현된다(다른 예는, 도 2에서와 같이, 하나의 단일 스트림, 또는 2개보다 많은 스트림을 제공할 수 있음). 이는 사용자가 경험할 것으로 예상되는 오디오 장면을 재생하기 위한 오디오 스트림이다. 여기서, 참조는, 임의의 오디오 정보 메시지에 대해 개념을 일반화하는 것이 가능할지라도, 이어콘들에 대해 이루어진다.

추가적으로, 이어콘 스트림(140)은 미디어 인코더(240)에 의해 제공될 수 있다. 사용자의 이동 및 뷰포트 메타데이터(131)에 표시되는 바와 같은 ROI 및/또는 다른 기준에 기초하여, ROI 프로세서는 (오디오 스트림들(116 및 316)에 더하여 추가적인 오디오 스트림으로서 또한 표시되는) 이어콘 스트림(140)으로부터 이어콘의 재생을 야기할 것이다.

특히, 이어콘의 실제 표현은 이어콘 메타데이터(141) 및 메타데이터 프로세서(132)에 의해 수행되는 수정들에 기초할 것이다.

예들에서, 스트림은 필요한 경우 미디어 인코더(240)(서버)로 시스템(302)(클라이언트)에 의해 요청될 수 있다. 예를 들어, ROI 프로세서는 사용자의 이동들에 기초하여, 특정 이어콘이 곧 필요하게 될 것이라는 것을 결정할 수 있고, 따라서, 미디어 인코더(240)에 적절한 이어콘 스트림(140)을 요청할 수 있다.

본 예의 다음의 양태를 주목하는 것이 가능하다:

ㆍ 사용 사례: 오디오 데이터는 하나 이상의 오디오 스트림(116, 316)(예를 들어, 하나의 메인 스트림 및 보조 스트림)으로 전달되는 반면 이어콘(들)은 (메인 오디오 스트림에 의존적인 또는 독립적인) 하나 이상의 추가적인 스트림들(140)로 전달된다.

ㆍ 클라이언트 측면(204) 상의 하나의 구현에서, ROI 프로세서(120) 및 메타데이터 프로세서(132)는 이어콘 정보를 효율적으로 처리하기 위해 사용된다

ㆍ ROI 프로세서(120)는 (예를 들어, HMD에 기초한) 콘텐츠 소비를 위해 사용되는 미디어 소비 디바이스 측면(206)으로부터 현재 뷰포트에 대한 정보(122)(사용자 방향 정보)를 수신할 수 있다. ROI 프로세서는 또한 메타데이터에서 신호화되는 ROI에 대한 정보 및 ROI를 수신할 수 있다(비디오 뷰포트는 OMAF에서와 같이 신호화됨).

ㆍ 이 정보에 기초하여, ROI 프로세서(120)는 이어콘 오디오 스트림(140)에 포함되는 하나의(또는 그 이상의) 이어콘을 활성화시키도록 결정할 수 있다. 추가적으로, ROI 프로세서(120)는 (예를 들어, 콘텐츠가 소비되는 현재 공간에서 이어콘의 보다 정확한 표현을 위해) 이어콘들의 상이한 위치 및 상이한 이득 값을 결정할 수 있다.

ㆍ ROI 프로세서(120)는 이 정보를 메타데이터 프로세서(132)에 제공한다.

ㆍ 메타데이터 프로세서(132)는 이어콘 오디오 스트림에 포함되는 메타데이터를 분석하고

ㆍ (그것의 재생을 허용하기 위해) 이어콘을 인에이블하고,

ㆍ ROI 프로세서(120)에 의해 요청되는 경우, 이어콘 메타데이터(141)에 포함되는 공간 위치 및 이득 정보를 적절하게 수정한다.

ㆍ 그 다음, 각각의 오디오 스트림(116, 316, 140)은 독립적으로 (사용자 위치 정보에 기초하여) 디코딩 및 렌더링되고 모든 미디어 디코더들의 출력은 믹서 또는 렌더러(314)에 의해 최종 단계로서 함께 혼합된다. 상이한 구현은 압축된 오디오만을 디코딩하고 디코딩된 오디오 데이터 및 메타데이터를 (이어콘을 포함하는) 모든 오디오 요소들의 최종 렌더링을 위해 일반 공통 렌더러에 제공할 수 있다.

ㆍ 추가적으로, 스트리밍 환경에서, 동일한 정보에 기초하여, ROI 프로세서(120)는 (예를 들어, 사용자가 ROI가 인에이블되기 몇 초 전에 잘못된 방향을 볼 때) 미리 이어콘(들) 스트림(들)(140)을 요청하도록 결정할 수 있다.

6.5 도 4의 실시예

도 4는, 예를 들어, 시스템(100 또는 200)을 구현할 수 있는 시스템(402)(클라이언트 시스템)을, 클라이언트 측면(204)에서, 포함하는 시스템(400)을 도시한다. 여기서, 참조는, 임의의 오디오 정보 메시지에 대해 개념을 일반화하는 것이 가능할지라도, 이어콘들에 대해 이루어진다.

시스템(402)은 ROI 프로세서(120), 메타데이터 프로세서(132), 스트림 멀티플렉서 또는 먹서(412)를 포함할 수 있다. 멀티플렉서 또는 먹서(412)인 예들에서, 하드웨어에 의해 수행될 동작들의 수는 다수의 디코더 및 하나의 믹서 또는 렌더러가 사용될 때 수행될 동작들의 수에 대하여 유리하게 감소된다.

이 예에서, 상이한 오디오 스트림은 그들의 메타데이터에 기초하여 처리되고 요소(412)에서 멀티플렉스되거나 먹스된다.

적어도 하나의 오디오 스트림은 여기서 2개의 스트림(116 및 316)을 포함하는 것으로서 표현된다(다른 예는, 도 2에서와 같이, 하나의 단일 스트림, 또는 2개보다 많은 스트림을 제공할 수 있음). 이는 사용자가 경험할 것으로 예상되는 오디오 장면을 재생하기 위한 오디오 스트림이다.

추가적으로, 이어콘 스트림(140)은 미디어 인코더(240)에 의해 제공될 수 있다. 사용자의 이동 및 뷰포트 메타데이터(131)에 표시되는 바와 같은 ROI 및/또는 다른 기준에 기초하여, ROI 프로세서(120)는 (또한 오디오 스트림(116 및 316)에 더하여 추가적인 오디오 스트림으로서 표시되는) 이어콘 스트림(140)으로부터 이어콘의 재생을 야기할 것이다.

각각의 오디오 스트림(116, 316, 140)은 메타데이터(236, 416, 141) 각각을 포함할 수 있다. 이 메타데이터 중 적어도 일부는 오디오 스트림들의 패킷들이 함께 병합되는 스트림 먹서 또는 멀티플렉서(412)에 제공되도록 조작되고/되거나 처리될 수 있다. 따라서, 이어콘은 오디오 장면의 일부로서 표현될 수 있다.

따라서, 스트림 먹서 또는 멀티플렉서(412)는 수정된 오디오 메타데이터(238) 및 수정된 이어콘 메타데이터(234)를 포함하는 오디오 스트림(414)을 제공할 수 있으며, 이는 오디오 디코더(112)에 제공되고 디코딩되고 사용자에게 재생될 수 있다.

본 예의 다음의 양태를 주목하는 것이 가능하다:

ㆍ 사용 사례: 오디오 데이터는 하나 이상의 오디오 스트림(116, 316)(예를 들어, 하나의 메인 스트림(116) 및 보조 스트림(316)이지만, 또한 하나의 단일 오디오 스트림이 제공될 수 있음)로 전달되는 반면 이어콘(들)은 (메인 오디오 스트림(116)에 의존적인 또는 독립적인) 하나 이상의 추가적인 스트림(140)으로 전달된다.

ㆍ ROI 프로세서(120)는 콘텐츠 소비를 위해 사용되는 미디어 소비 디바이스(예를 들어, HMD)로부터 현재 뷰포트에 대한 정보(122)(사용자 방향 정보)를 수신할 수 있다. ROI 프로세서(120)는 또한 이어콘 메타데이터(141)에서 신호화되는 ROI에 대한 정보 및 ROI를 수신할 수 있다(비디오 뷰포트는 전방향성 미디어 응용 포맷(Omnidirectional Media Application Format; OMAF)에서와 같이 신호화될 수 있음).

ㆍ 이 정보에 기초하여, ROI 프로세서(120)는 추가의 오디오 스트림(140)에 포함되는 하나의(또는 그 이상의) 이어콘을 활성화시키도록 결정할 수 있다. 추가적으로, ROI 프로세서(120)는 (예를 들어, 콘텐츠가 소비되는 현재 공간에서 이어콘의 보다 정확한 표현을 위해) 이어콘들의 상이한 위치 및 상이한 이득 값을 결정할 수 있다.

ㆍ ROI 프로세서(120)는 이 정보를 메타데이터 프로세서(132)에 제공할 수 있다.

ㆍ 이어콘을 인에이블하고

ㆍ ROI 프로세서에 의해 요청되는 경우, 이어콘 메타데이터에 포함되는 공간 위치 및/또는 이득 정보 및/또는 텍스트 라벨을 적절하게 수정한다.

ㆍ 메타데이터 프로세서(132)는 또한 모든 오디오 스트림(116, 316)의 오디오 메타데이터(236, 416)를 분석하고 이어콘이 오디오 장면의 일부로서 사용될 수 있는 그러한 방식으로 오디오 특정 정보를 조작할 수 있다(예를 들어, 오디오 장면이 5.1 채널 베드 및 4 객체를 갖는 경우, 이어콘 오디오 요소는 제5 객체로서 장면에 추가된다. 모든 메타데이터 필드는 적절하게 갱신된다).

ㆍ 그 다음, 각각의 스트림(116, 316)의 오디오 데이터 및 수정된 오디오 메타데이터 및 이어콘 메타데이터가 스트림 먹서 또는 멀티플렉서에 제공되며, 이것에 기초하여, 한 세트의 메타데이터(수정된 오디오 메타데이터(238) 및 수정된 이어콘 메타데이터(234))를 갖는 하나의 오디오 스트림(414)을 생성할 수 있다.

ㆍ 이 스트림(414)은 사용자 위치 정보(122)에 기초하여 단일 미디어 오디오 디코더(112)에 의해 디코딩될 수 있다.

6.6 도 5의 실시예

도 5는, 예를 들어, 시스템(100 또는 200)을 구현할 수 있는 시스템(502)(클라이언트 시스템)을, 클라이언트 측면(204)에서, 포함하는 시스템(500)을 도시한다. 여기서, 참조는, 임의의 오디오 정보 메시지에 대해 개념을 일반화하는 것이 가능할지라도, 이어콘들에 대해 이루어진다.

시스템(502)은 ROI 프로세서(120), 메타데이터 프로세서(132), 스트림 멀티플렉서 또는 먹서(412)를 포함할 수 있다.

이 예에서, 이어콘 스트림은 (클라이언트 측면에서) 원격 엔티티에 의해 제공되지 않지만, (또한 이후의 재사용을 위해, 또는 자연 사운드의 저장된 압축/비압축 버전을 사용하기 위해, 스트림을 저장하는 능력을 가질 수 있는) 합성 오디오 생성기(246)에 의해 생성된다. 이어콘 메타데이터(141)는, 예를 들어, (이어콘 스트림이 아닌) 오디오 스트림(116)에서 원격 엔티티에 의해 그럼에도 불구하고 제공된다. 따라서, 합성 오디오 생성기(246)는 이어콘 메타데이터(141)의 속성들에 기초하여 오디오 스트림(140)을 생성하기 위해 활성화될 수 있다. 예를 들어, 속성은 합성된 보이스(자연 사운드, 합성 사운드, 구어 텍스트 등) 및/또는 텍스트 라벨의 유형을 지칭할 수 있다(이어콘은 메타데이터의 텍스트에 기초하여 합성 사운드를 생성함으로써 생성될 수 있음). 예들에서, 이어콘 스트림이 생성된 후, 동일한 것은 향후 재사용되는 것을 위해 저장될 수 있다. 대안적으로, 합성 사운드는 디바이스에 영구적으로 저장되는 일반적인 사운드일 수 있다.

스트림 먹서 또는 멀티플렉서(412)는 생성기(246)에 의해 생성되는 이어콘 스트림의 패킷들과 오디오 스트림(116)(및 또한 보조 오디오 스트림(316)과 같은, 다른 스트림의 경우)의 패킷을 병합하기 위해 사용될 수 있다. 그 후, 수정된 오디오 메타데이터(238) 및 수정된 이어콘 메타데이터(234)에 연관되는 오디오 스트림(414)이 획득될 수 있다. 오디오 스트림(414)은 디코더(112)에 의해 디코딩되고 미디어 소비 디바이스 측면(206)에서 사용자에게 재생될 수 있다.

본 예의 다음의 양태를 주목하는 것이 가능하다:

ㆍ 사용 사례:

ㆍ 오디오 데이터는 하나 이상의 오디오 스트림(예를 들어, 하나의 메인 스트림 및 보조 스트림)으로 전달된다

ㆍ 이어콘(들)은 원격 디바이스로부터 전달되지 않지만, 이어콘 메타데이터(141)는 메인 오디오 스트림의 일부로서 전달된다(특정 신호는 이어콘이 이와 연관되는 오디오 데이터를 갖지 않는 것을 표시하기 위해 사용될 수 있음)

ㆍ 클라이언트 측면 상에서의 일 구현에서, ROI 프로세서(120) 및 메타데이터 프로세서(132)는 이어콘 정보를 효율적으로 처리하기 위해 사용된다.

ㆍ ROI 프로세서(120)는 콘텐츠 소비 디바이스 측면(206)에서 사용되는 디바이스(예를 들어, HMD)로부터 현재 뷰포트에 대한 정보(사용자 방향 정보)를 수신할 수 있다. ROI 프로세서(120)는 또한 메타데이터에서 신호화되는 ROI에 대한 정보 및 ROI를 수신할 수 있다(비디오 뷰포트는 OMAF에서와 같이 신호화됨).

ㆍ 이 정보에 기초하여, ROI 프로세서(120)는 스트림(116)에 존재하지 않는 하나의(또는 그 이상의) 이어콘(들)을 활성화시키도록 결정할 수 있다. 추가적으로, ROI 프로세서(120)는 (예를 들어, 콘텐츠가 소비되는 현재 공간에서 이어콘의 보다 정확한 표현을 위해) 이어콘들의 상이한 위치 및 상이한 이득 값을 결정할 수 있다.

ㆍ 메타데이터 프로세서(120)는 오디오 스트림(116)에 포함되는 메타데이터를 분석할 수 있고

ㆍ 이어콘을 인에이블하고

ㆍ ROI 프로세서(120)에 의해 요청되는 경우, 이어콘 메타데이터(141)에 포함되는 공간 위치 및 이득 정보를 적절하게 수정할 수 있다.

ㆍ 메타데이터 프로세서(132)는 또한 모든 오디오 스트림(116, 316)의 오디오 메타데이터(예를 들어, 236, 417)를 분석하고 이어콘이 오디오 장면의 일부로서 사용될 수 있는 그러한 방식으로 오디오 특정 정보를 조작할 수 있다(예를 들어, 오디오 장면이 5.1 채널 베드 및 4 객체를 갖는 경우, 이어콘 오디오 요소는 제5 객체로서 장면에 추가된다. 모든 메타데이터 필드는 적절하게 갱신된다).

ㆍ 수정된 이어콘 메타데이터 및 ROI 프로세서(120)로부터의 정보가 합성 오디오 생성기(246)에 제공된다. 합성 오디오 생성기(246)는 수신되는 정보에 기초하여 합성 사운드를 생성할 수 있다(예를 들어, 이어콘의 공간 위치에 기초하여 위치의 철자를 말하는 보이스 신호가 생성됨). 또한, 이어콘 메타데이터(141)는 새로운 스트림(414)으로 생성된 오디오 데이터와 연관된다.

ㆍ 유사하게, 이전과 같이, 각각의 스트림(116, 316)의 오디오 데이터 및 수정된 오디오 메타데이터 및 이어콘 메타데이터는 그 다음 스트림 먹서에 제공되며 이는 이에 기초하여 한 세트의 메타데이터(오디오 및 이어콘)를 갖는 하나의 오디오 스트림을 생성할 수 있다.

ㆍ 이 스트림(414)은 사용자 위치 정보에 기초하여 단일 미디어 오디오 디코더(112)에 의해 디코딩된다.

ㆍ 대안적으로 또는 추가적으로, 이어콘의 오디오 데이터는 (예를 들어, 이전 이어콘 사용로부터) 클라이언트에 캐싱(cache)될 수 있다.

ㆍ 대안적으로, 합성 오디오 생성기(246)의 출력은 비압축된 오디오일 수 있고 그것은 최종 렌더링된 장면으로 혼합될 수 있다

ㆍ 추가적으로, 스트리밍 환경에서, 동일한 정보에 기초하여, ROI 프로세서(120)는 (예를 들어, 사용자가 ROI가 인에이블되기 몇 초 전에 잘못된 방향을 볼 때) 미리 이어콘(들) 스트림(들)을 요청하도록 결정할 수 있다.

6.7 도 6의 실시예

도 6은, 예를 들어, 시스템(100 또는 200)을 구현할 수 있는 시스템(602)(클라이언트 시스템)을, 클라이언트 측면(204)에서, 포함하는 시스템(600)을 도시한다. 여기서, 참조는, 임의의 오디오 정보 메시지에 대해 개념을 일반화하는 것이 가능할지라도, 이어콘들에 대해 이루어진다.

시스템(602)은 ROI 프로세서(120), 메타데이터 프로세서(132), 스트림 멀티플렉서 또는 먹서(412)를 포함할 수 있다.

이 예에서, 이어콘 스트림은 (클라이언트 측면에서) 원격 엔티티에 의해 제공되지 않지만, (이후 재사용을 위해, 스트림을 저장하는 능력을 또한 가질 수 있는) 합성 오디오 생성기(236)에 의해 생성된다.

이 예에서, 이어콘 메타데이터(141)는 원격 엔티티에 의해 제공되지 않는다. 이어콘 메타데이터는 메타데이터 프로세서(132)에 의해 사용(예를 들어, 처리, 조작, 수정)될 이어콘 메타데이터를 생성할 수 있는 메타데이터 생성기(432)에 의해 생성된다. 이어콘 메타데이터 생성기(432)에 의해 생성되는 이어콘 메타데이터(141)는 이전 실시예들에 대해 논의된 이어콘 메타데이터와 다른 동일한 구조 및/또는 포맷 및/또는 속성을 가질 수 있다.

메타데이터 프로세서(132)는 도 5의 실시예에서와 같이 동작할 수 있다. 합성 오디오 생성기(246)는 이어콘 메타데이터(141)의 속성에 기초하여 오디오 스트림(140)을 생성하도록 활성화될 수 있다. 예를 들어, 속성은 합성된 음성(자연 사운드, 합성 사운드, 구어 텍스트 등)의 유형, 및/또는 이득, 및/또는 활성/비활성 상태 등을 지칭할 수 있다. 예들에서, 이어콘 스트림(140)이 생성된 후, 동일한 것은 향후 재사용되는 것을 위해 저장(예를 들어, 캐싱)될 수 있다. 그것은 또한 이어콘 메타데이터 생성기(432)에 의해 생성되는 이어콘 메타데이터를 저장(예를 들어, 캐시)하는 것이 가능하다.

스트림 먹서 또는 멀티플렉서(412)는 생성기(246)에 의해 생성되는 이어콘 스트림의 패킷과 오디오 스트림(116)(및 또한 보조 오디오 스트림(316)과 같은, 다른 스트림들의 경우)의 패킷을 병합하기 위해 사용될 수 있다. 그 후, 수정된 오디오 메타데이터(238) 및 수정된 이어콘 메타데이터(234)에 연관되는 오디오 스트림(414)이 획득될 수 있다. 오디오 스트림(414)은 디코더(112)에 의해 디코딩되고 미디어 소비 디바이스 측면(206)에서 사용자에게 재생될 수 있다.

본 예의 다음의 양태를 주목하는 것이 가능하다:

ㆍ 사용 사례:

ㆍ 오디오 데이터는 하나 이상의 오디오 스트림(예를 들어, 하나의 메인 스트림(116) 및 보조 스트림(316))으로 전달된다.

ㆍ 이어콘(들)은 클라이언트 측면(202)으로부터 전달되지 않는다.

ㆍ 이어콘 메타데이터는 클라이언트 측면(202)으로부터 전달되지 않는다.

ㆍ 이 사용 사례는 이어콘 없이 생성된 레거시 콘텐츠에 대해 이어콘을 인에이블하기 위한 솔루션을 표현할 수 있다

ㆍ 클라이언트 측면 상의 일 구현에서, ROI 프로세서(120) 및 메타데이터 프로세서(232)는 이어콘 정보를 효율적으로 처리하기 위해 사용된다

ㆍ ROI 프로세서(120)는 콘텐츠 소비 디바이스 측면(206)에서 사용되는 디바이스(예를 들어, HMD)로부터 현재 뷰포트에 대한 정보(122)(사용자 방향 정보)를 수신할 수 있다. ROI 프로세서(210)는 또한 메타데이터에서 신호화되는 ROI에 대한 정보 및 ROI를 수신할 수 있다(비디오 뷰포트는 OMAF에서와 같이 신호화됨).

ㆍ 이 정보에 기초하여, ROI 프로세서(120)는 스트림(116, 316))에 존재하지 않는 하나의(또는 그 이상의) 이어콘(들)을 활성화시키도록 결정할 수 있다.

ㆍ 추가적으로, ROI 프로세서(120)는 이어콘들의 위치 및 이득 값들에 대한 정보를 이어콘 메타데이터 생성기(432)에 제공할 수 있다.

ㆍ ROI 프로세서(120)는 이 정보를 메타데이터 프로세서(232)에 제공할 수 있다.

ㆍ 메타데이터 프로세서(232)는 (존재하는 경우) 이어콘 오디오 스트림에 포함되는 메타데이터를 분석할 수 있고:

ㆍ 이어콘을 인에이블하고

ㆍ ROI 프로세서(120)에 의해 요청되는 경우, 이어콘 메타데이터에 포함되는 공간 위치 및 이득 정보를 적절하게 수정할 수 있다.

ㆍ 메타데이터 프로세서는 또한 모든 오디오 스트림(116, 316)의 오디오 메타데이터(236, 417)를 분석하고 이어콘이 오디오 장면의 일부로서 사용될 수 있는 그러한 방식으로 오디오 특정 정보를 조작할 수 있다(예를 들어, 오디오 장면이 5.1 채널 베드 및 4 객체를 갖는 경우, 이어콘 오디오 요소는 제5 객체로서 장면에 추가된다. 모든 메타데이터 필드는 적절하게 갱신된다).

ㆍ 수정된 이어콘 메타데이터(234) 및 ROI 프로세서(120)로부터의 정보는 합성 오디오 생성기(246)에 제공된다. 합성 오디오 생성기(246)는 수신되는 정보에 기초하여 합성 사운드를 생성할 수 있다(예를 들어, 이어콘의 공간 위치에 기초하여 위치의 철자를 말하는 보이스 신호가 생성됨). 또한, 이어콘 메타데이터는 새로운 스트림으로 생성된 오디오 데이터와 연관된다.

ㆍ 유사하게, 이전과 같이, 각각의 스트림의 오디오 데이터 및 수정된 오디오 메타데이터 및 이어콘 메타데이터는 그 다음 스트림 먹서 또는 멀티플렉서(412)에 제공되며 이는 이에 기초하여 한 세트의 메타데이터(오디오 및 이어콘)를 갖는 하나의 오디오 스트림(414)을 생성할 수 있다.

ㆍ 이 스트림(414)은 사용자 위치 정보에 기초하여 단일 미디어 오디오 디코더에 의해 디코딩된다.

ㆍ 대안적으로, 이어콘의 오디오 데이터는 (예를 들어, 이전 이어콘 사용로부터) 클라이언트에 캐싱될 수 있다.

ㆍ 대안적으로, 합성 오디오 생성기의 출력은 비압축된 오디오일 수 있고 그것은 최종 렌더링된 장면으로 혼합될 수 있다

ㆍ 추가적으로, 스트리밍 환경에서, 동일한 정보에 기초하여, ROI 프로세서(120)는 (예를 들어, 사용자가 ROI가 인에이블되기 수 초 전에 잘못된 방향을 볼 때) 미리 이어콘(들) 스트림(들)을 요청하도록 결정할 수 있다

6.8 사용자의 위치에 기초한 실시예

사용자가 ROI를 보고 있지 않을 때만 이어콘을 재생하도록 허용하는 기능을 구현하는 것이 가능하다.

ROI 프로세서(120)는, 예를 들어, 사용자의 현재 뷰포트 및/또는 위치 및/또는 머리 방향 및/또는 이동 데이터(122)를 주기적으로 체크할 수 있다. ROI가 사용자에게 가시적인 경우, 이어콘의 재생은 야기되지 않는다.

사용자의 현재 뷰포트 및/또는 위치 및/또는 머리 방향 및/또는 이동 데이터로부터, ROI 프로세서가 ROI가 사용자에게 가시적이지 않다고 결정하는 경우, ROI 프로세서(120)는 이어콘의 재생을 요청할 수 있다. 이 경우, ROI 프로세서(120)는 메타데이터 프로세서(132)가 이어콘의 재생을 준비하게 할 수 있다. 메타데이터 프로세서(132)는 위의 실시예들에 대해 설명된 기술 중 하나를 사용할 수 있다. 예를 들어 메타데이터는 서버 측면(202)에 의해 전달되는 스트림에서 검색될 수 있고, 이어콘 메타데이터 생성기(432)에 의해 생성될 수 있는 것 등이다. 이어콘 메타데이터의 속성은 ROI 프로세서의 요청 및/또는 다양한 조건들에 기초하여 쉽게 수정될 수 있다. 예를 들어, 사용자의 선택이 이어콘을 이전에 디스에이블한 경우, 이어콘은, 사용자가 ROI를 보고 있지 않은 경우라도, 재생되지 않을 것이다. 예를 들어, (이전에 설정된) 타이머가 아직 만료되지 않은 경우, 이어콘은, 사용자가 ROI를 보고 있지 않은 경우라도, 재생되지 않을 것이다.

추가적으로, 사용자의 현재 뷰포트 및/또는 위치 및/또는 머리 방향 및/또는 이동 데이터로부터, ROI 프로세서가 ROI가 사용자에게 가시적이라고 결정하는 경우, ROI 프로세서(120)는, 특히 이어콘 메타데이터가 이미 활성 이어콘에 대한 신호를 포함하는 경우, 이어콘의 재생이 수행되지 않을 것을 요청할 수 있다.

이 경우, ROI 프로세서(120)는 메타데이터 프로세서(132)가 이어콘의 재생을 디스에이블하게 할 수 있다. 메타데이터 프로세서(132)는 위의 실시예들에 대해 설명된 기술 중 하나를 사용할 수 있다. 예를 들어, 메타데이터는 서버 측면(202)에 의해 전달되는 스트림에서 검색될 수 있고, 이어콘 메타데이터 생성기(432)에 의해 생성될 수 있는 것 등이다. 이어콘 메타데이터의 속성은 ROI 프로세서의 요청 및/또는 다양한 조건들에 기초하여 쉽게 수정될 수 있다. 메타데이터가 이어콘이 재생되어야 한다는 표시를 이미 포함하는 경우, 메타데이터는, 이 경우, 이어콘이 비활성적이고 그것이 재생되지 않아야 한다는 것을 표시하도록 수정된다.

본 예의 다음의 양태를 주목하는 것이 가능하다:

ㆍ 사용 사례:

ㆍ 오디오 데이터는 하나 이상의 오디오 스트림(116, 316)(예를 들어, 하나의 메인 스트림 및 보조 스트림)으로 전달되는 반면 이어콘(들)은 동일한 하나 이상의 오디오 스트림들(116, 316) 또는 하나 이상의 추가적인 스트림들(140)(메인 오디오 스트림에 의존적 또는 독립적임)로 전달된다

ㆍ 이어콘 메타데이터는 그것이 이어콘이 특정 순간들에서 항상 활성적이라는 것을 표시하는 그러한 방식으로 설정된다.

ㆍ ROI 프로세서를 포함하고 있지 않은 제1 세대의 디바이스는 사용자의 현재 뷰포트 및/또는 위치 및/또는 머리 방향 및/또는 이동 데이터가 ROI가 사용자에게 가시적이라는 것을 표시한다는 사실에 독립적으로 이어콘 메타데이터를 판독하고 이어콘의 재생을 야기할 것이다.

ㆍ 상기 시스템 중 임의의 것에 설명되는 바와 같은 ROI 프로세서를 포함하는 더 새로운 세대의 디바이스는 ROI 프로세서 결정을 이용할 것이다. 사용자의 현재 뷰포트 및/또는 위치 및/또는 머리 방향 및/또는 이동 데이터로부터, ROI 프로세서가 ROI가 사용자에게 가시적이라고 결정하는 경우, ROI 프로세서(120)는, 특히 이어콘 메타데이터가 이미 활성적 이어콘에 대한 신호를 포함하는 경우, 이어콘의 재생이 수행되지 않을 것을 요청할 수 있다. 이 경우, ROI 프로세서(120)는 메타데이터 프로세서(132)가 이어콘의 재생을 디스에이블하게 할 수 있다. 메타데이터 프로세서(132)는 위의 실시예들에 대해 설명된 기술 중 하나를 사용할 수 있다. 예를 들어, 메타데이터는 서버 측면(202)에 의해 전달되는 스트림에서 검색될 수 있고, 이어콘 메타데이터 생성기(432)에 의해 생성될 수 있는 것 등이다. 이어콘 메타데이터의 속성은 ROI 프로세서의 요청 및/또는 다양한 조건들에 기초하여 쉽게 수정될 수 있다. 메타데이터가 이어콘이 재생되어야 한다는 표시를 이미 포함하는 경우, 메타데이터는, 이 경우, 이어콘이 비활성적이고 그것이 재생되지 않아야 한다는 것을 표시하도록 수정된다.

ㆍ 추가적으로, 재생 디바이스에 따라, ROI 프로세서는 이어콘 메타데이터의 수정을 요청하도록 결정할 수 있다. 예를 들어, 이어콘 공간 정보는 사운드가 헤드폰을 통해 또는 확성기를 통해 재생되는 경우 상이하게 수정될 수 있다.

따라서, 사용자에 의해 경험되는 최종 오디오 장면은 메타데이터 프로세서에 의해 수행되는 메타데이터 수정들에 기초하여 획득될 것이다.

6.9 서버 클라이언트 통신에 기초한 실시예(도 5a)

도 5a는, 예를 들어, 시스템(100 또는 200 또는 300 또는 400 또는 500)을 구현할 수 있는 시스템(552)(클라이언트 시스템)을, 클라이언트 측면(204)에서, 포함하는 시스템(550)을 도시한다. 여기서, 참조는, 임의의 오디오 정보 메시지에 대해 개념을 일반화하는 것이 가능할지라도, 이어콘들에 대해 이루어진다.

시스템(552)은 ROI 프로세서(120), 메타데이터 프로세서(132), 스트림 멀티플렉서 또는 먹서(412)를 포함할 수 있다. (실시예들에서, 상이한 오디오 스트림은 (각각의 미디어 오디오 디코더(112)에 의해 각각) 디코딩되고 이후 함께 혼합되고/되거나 함께 렌더링되어 최종 오디오 장면을 제공한다).

추가적으로, 이어콘 스트림(140)은 미디어 인코더(240)에 의해 제공될 수 있다.

오디오 스트림들은 네트워크 연결에 따라 효율적인 비트레이트 적응을 허용하는 상이한 비트레이트에서 인코딩될 수 있다(즉, 높은 속도 연결을 사용하는 사용자들의 경우, 높은 비트레이트 코딩된 버전이 전달되는 반면 더 낮은 속도 네트워크를 갖는 사용자의 경우 더 낮은 비트레이트 버전이 전달된다).

오디오 스트림들은 미디어 서버(554) 상에 저장될 수 있으며, 여기서 각각의 오디오 스트림에 대해 상이한 비트레이트에서의 상이한 인코딩은 적절한 데이터가 모든 생성된 적응 세트의 이용가능성을 신호화하는 하나의 적응 세트(556)로 그룹화된다. 오디오 적응 세트(556) 및 비디오 적응 세트(557)가 제공될 수 있다.

사용자의 이동 및 뷰포트 메타데이터(131)에 표시되는 바와 같은 ROI 및/또는 다른 기준에 기초하여, ROI 프로세서(120)는 (또한 오디오 스트림(116 및 316)에 더하여 추가적인 오디오 스트림으로서 표시되는) 이어콘 스트림(140)으로부터 이어콘의 재생을 야기할 것이다.

이 예에서:

ㆍ 클라이언트(552)는, 모든 적응 세트의 이용가능성에 대한 데이터를, 서버로부터, 수신하도록 구성되며, 이용가능한 적응 세트는 하기를 포함한다:

- 적어도 하나의 오디오 스트림에 대한 적어도 하나의 오디오 장면 적응 세트; 및

- 적어도 하나의 오디오 정보 메시지를 포함하는 적어도 하나의 추가적인 오디오 스트림에 대한 적어도 하나의 오디오 메시지 적응 세트

ㆍ 다른 예시적 구현들과 유사하게, ROI 프로세서(120)는 (예를 들어, HMD에 기초하여) 콘텐츠 소비를 위해 사용되는 미디어 소비 디바이스 측면(206)으로부터 현재 뷰포트에 대한 정보(122)(사용자 방향 정보)를 수신할 수 있다. ROI 프로세서(120)는 또한 메타데이터에서 신호화되는 ROI에 대한 정보 및 ROI를 수신할 수 있다(비디오 뷰포트는 OMAF에서와 같이 신호화됨).

- 이 정보에 기초하여, ROI 프로세서(120)는 이어콘 오디오 스트림(140)에 포함되는 하나의(또는 그 이상의) 이어콘을 활성화시키도록 결정할 수 있다.

- 추가적으로, ROI 프로세서(120)는 (예를 들어, 콘텐츠가 소비되는 현재 공간에서 이어콘의 보다 정확한 표현을 위해) 이어콘들의 상이한 위치 및 상이한 이득 값을 결정할 수 있다.

- ROI 프로세서(120)는 이 정보를 선택 데이터 생성기(558)에 제공할 수 있다.

ㆍ 선택 데이터 생성기(558)는, ROI 프로세서의 결정에 기초하여, 적응 세트 중 어느 것이 수신될 것인지를 식별하는 선택 데이터(559)를 생성하도록 구성될 수 있으며; 적응 세트는 오디오 장면 적응 세트 및 오디오 메시지 적응 세트를 포함한다

ㆍ 미디어 서버(554)는 스트리밍 클라이언트가 적응 세트 중 어느 것이 수신될 것인지를 식별하는 선택 데이터에 의해 식별되는 적응 세트(556, 557)에 대한 데이터를 검색하게 하기 위해 명령 데이터를 클라이언트(552)에게 제공하도록 구성될 수 있으며; 적응 세트는 오디오 장면 적응 세트 및 오디오 메시지 적응 세트 포함한다

ㆍ 다운로드 및 스위칭 모듈(560)은 적응 세트 중 어느 것이 수신될 것인지를 식별하는 선택 데이터에 기초하여 미디어 서버(554)로부터 요청된 오디오 스트림을 수신하도록 구성되며; 적응 세트는 오디오 장면 적응 세트 및 오디오 메시지 적응 세트를 포함한다. 다운로드 및 스위칭 모듈(560)은 추가적으로 오디오 메타데이터 및 이어콘 메타데이터(141)를 메타데이터 프로세서(132)에 제공하도록 구성될 수 있다.

ㆍ 메타데이터 프로세서(132)는 이어콘 오디오 스트림(140)에 포함되는 메타데이터를 분석하고

- (그것의 재생을 허용하기 위해) 이어콘을 인에이블하고

- 및, ROI 프로세서(120)에 의해 요청되는 경우, 이어콘 메타데이터(141)에 포함되는 공간 위치 및 이득 정보를 적절하게 수정할 수 있다.

ㆍ 메타데이터 프로세서(132)는 또한 모든 오디오 스트림(116, 316)의 오디오 메타데이터를 분석하고 이어콘이 오디오 장면의 일부로서 사용될 수 있는 그러한 방식으로 오디오 특정 정보를 조작할 수 있다(예를 들어, 오디오 장면이 5.1 채널 베드 및 4 객체를 갖는 경우, 이어콘 오디오 요소는 제5 객체로서 장면에 추가된다. 모든 메타데이터 필드는 적절하게 갱신될 수 있다).

ㆍ 그 다음, 각각의 스트림(116, 316)의 오디오 데이터 및 수정된 오디오 메타데이터 및 이어콘 메타데이터는 스트림 먹서 또는 멀티플렉서에 제공될 수 있으며 이는 이것에 기초하여, 한 세트의 메타데이터(수정된 오디오 메타데이터(238) 및 수정된 이어콘 메타데이터(234))를 갖는 하나의 오디오 스트림(414)을 생성할 수 있다.

ㆍ 이 스트림은 사용자 위치 정보(122)에 기초하여 단일 미디어 오디오 디코더(112)에 의해 디코딩될 수 있다.

적응 세트는 각각의 콘텐츠의 교환가능한 버전, 예를 들어, 상이한 오디오 비트레이트(예를 들어, 상이한 비트레이트에서의 상이한 스트림)을 포함하는 한 세트의 표현에 의해 형성될 수 있다. 하나의 단일 표현이 이론적으로 재생가능한 스트림을 제공하기에 충분할 수도 있지만, 다수의 표현은 클라이언트에게 미디어 스트림을 그것의 현재 네트워크 조건 및 대역폭 요건들에 적응시키고 따라서 더 부드러운 재생을 보장하는 가능성을 제공할 수 있다.

6.10 방법

상기 모든 실시예는 방법 단계들에 의해 구현될 수 있다. 여기서, 방법(700)(위의 실시예 중 임의의 것에 의해 수행될 수 있음)은 완성도(completeness)를 위해 설명된다. 방법은:

단계(702)에서, 적어도 하나의 비디오 스트림(106) 및 적어도 하나의 제1 오디오 스트림(116, 316)을 수신하고,

단계(704)에서, 사용자에 대한 VR, AR, MR 또는 360도 비디오 환경 장면(118a)의 표현을 위해 적어도 하나의 비디오 스트림(106)으로부터 적어도 하나의 비디오 신호를 디코딩하고;

단계(706)에서, 사용자에 대한 오디오 장면(118b)의 표현을 위해 적어도 하나의 제1 오디오 스트림(116, 316)으로부터 적어도 하나의 오디오 신호를 디코딩하고;

사용자의 현재 뷰포트 및/또는 위치 및/또는 머리 방향 및/또는 이동 데이터(122)를 수신하고;

단계(708)에서, 적어도 하나의 비디오 스트림(106)으로부터 적어도 하나의 비디오 신호와 연관되는 뷰포트 메타데이터(131) - 뷰포트 메타데이터는 적어도 하나의 ROI를 정의함 - 를 수신하고;

단계(710)에서, 사용자의 현재 뷰포트 및/또는 위치 및/또는 머리 방향 및/또는 이동 데이터(122) 및 뷰포트 메타데이터 및/또는 다른 기준들에 기초하여, 적어도 하나의 ROI와 연관되는 오디오 정보 메시지가 재생될지 여부를 결정하고;

단계(712)에서, 오디오 정보 메시지가 오디오 장면의 일부가 되는 그러한 방식으로 오디오 정보 메시지 속성에 따라 오디오 정보 메시지의 재생을 야기하도록 오디오 정보 메시지를 설명하는 오디오 정보 메시지 메타데이터(141)를 수신하고/하거나, 처리하고/하거나, 조작하는 것을 포함할 수 있다.

특히, 시퀀스는 또한 변할 수 있다. 예를 들어, 수신 단계들(702, 706, 708)은, 정보가 전달되는 실제 순서에 따라, 상이한 순서를 가질 수 있다.

라인(714)은 방법이 반복될 수 있음을 의미한다. 단계(712)는 ROI 프로세서가 오디오 정보 메시지를 재생하지 않는다고 결정하는 경우에 생략될 수 있다.

6.11 다른 구현들

도 8은 시스템(또는 그 구성요소) 중 하나를 구현하거나 방법(700)을 수행할 수 있는 시스템(800)을 도시한다. 시스템(800)은 프로세서(802) 및 프로세서(802)에 의해 실행될 때, 프로세서가 위에 논의된 적어도 스트림 처리 동작 및/또는 위에 논의된 메타데이터 처리 동작을 적어도 수행하게 할 수 있는 명령어를 저장하는 비-일시적 메모리 유닛(806)을 포함할 수 있다. 시스템(800)은 외부 디바이스들과의 연결을 위해 입력/출력 유닛(804)을 포함할 수 있다.

시스템(800)은 ROI 프로세서(120), 메타데이터 프로세서(232), 생성기(246), 먹서 또는 멀티플렉서(412), 디코더(112m), 이어콘 메타데이터 생성기(432) 등의 기능들의 적어도 일부(또는 전부)를 구현할 수 있다.

특정 구현 요건들에 따라, 실시예는 하드웨어로 구현될 수 있다. 구현은 디지털 저장 매체, 예를 들어 플로피 디스크, 디지털 다기능 디스크(Digital Versatile Disc; DVD), 블루-레이 디스크, 컴팩트 디스크(Compact Disc; CD), 판독 전용 메모리(Read-only Memory; ROM), 프로그램가능 판독 전용 메모리(Programmable Read-only Memory; PROM), 소거가능 및 프로그램가능 판독 전용 메모리(Erasable and Programmable Read-only Memory EPROM), 전기적으로 소거가능한 프로그램가능 판독 전용 메모리(Electrically Erasable Programmable Read- Only Memory; EEPROM) 또는 그 상에 저장되는 전기적으로 판독가능한 제어 신호를 갖는 플래시 메모리를 사용하여 수행될 수 있으며, 이는 각각의 방법이 수행되도록 프로그램가능 컴퓨터 시스템과 협력한다(또는 협력할 수 있음). 따라서, 디지털 저장 매체는 컴퓨터 판독가능할 수 있다.

일반적으로, 실시예는 프로그램 명령어를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 프로그램 명령어는 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때 방법 중 하나를 수행하기 위해 동작한다. 프로그램 명령어는 예를 들어 머신 판독가능 매체 상에 저장될 수 있다.

다른 실시예들은 머신 판독가능 캐리어 상에 저장되는, 본원에 설명되는 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다. 다시 말해서, 방법의 실시예는, 따라서, 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때, 본원에 설명되는 방법 중 하나를 수행하기 위한 프로그램 명령어를 갖는 컴퓨터 프로그램이다.

따라서, 방법들의 추가적인 실시예는 본원에 설명되는 방법 중 하나를 수행하기 위한 그 상에 저장된, 컴퓨터 프로그램을 포함하는 데이터 캐리어 매체(또는 디지털 저장 매체, 또는 컴퓨터-판독가능 매체)이다. 데이터 캐리어 매체, 디지털 저장 매체 또는 기록 매체는 무형 및 일시적인 신호들보다는, 유형 및/또는 비-일시적이다.

추가적인 예는 처리 유닛, 예를 들어 컴퓨터, 또는 본원에 설명되는 방법 중 하나를 수행하는 프로그램가능 논리 디바이스를 포함한다.

추가적인 실시예는 본원에 설명되는 방법 중 하나를 수행하는 컴퓨터 프로그램을 그 상에 설치한 컴퓨터를 포함한다.

추가적인 예는 본원에 설명되는 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 (예를 들어, 전자적으로 또는 광학적으로) 수신기에 전송하는 장치 또는 시스템을 포함한다. 수신기는 예를 들어, 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수 있다. 장치 또는 시스템은, 예를 들어, 컴퓨터 프로그램을 수신기에 전송하기 위한 파일 서버를 포함할 수 있다.

일부 예들에서, 프로그램가능 논리 디바이스(예를 들어, 필드 프로그램가능 게이트 어레이)는 본원에 설명되는 방법들의 기능 중 일부 또는 전부를 수행하기 위해 사용될 수 있다. 일부 예들에서, 필드 프로그램가능 게이트 어레이는 본원에 설명되는 방법 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법은 임의의 적절한 하드웨어 장치에 의해 수행될 수 있다.

상기 설명된 실시예는 위에 논의된 원리들에 대해 예시적이다. 본원에서 설명되는 배열 및 세부 사항들의 수정 및 변형들이 명백할 것이라는 점이 이해된다. 따라서, 그것은 본원의 예들의 서술 및 설명에 의해 제공되는 특정 세부 사항들에 의해서가 아닌 계류중인 특허 청구범위의 범위에 의해 제한되도록 의도된다.

Claims

가상 현실(VR), 증강 현실(AR), 혼합 현실(MR), 또는 360도 비디오 환경을 위한 콘텐츠 소비 디바이스 시스템으로서, 상기 시스템은:
재생될 오디오 및 비디오 장면(118a, 118b)에 연관되는 적어도 하나의 비디오 스트림(106)을 수신하고;
상기 재생될 오디오 및 비디오 장면(118a, 118b)에 연관되는 적어도 하나의 제1 오디오 스트림(116, 316)을 수신하고;
상기 적어도 하나의 제1 오디오 스트림(116)으로부터 적어도 하나의 오디오 정보 메시지와 연관된 오디오 정보 메시지 메타데이터(141)를 수신하도록 구성되며,
상기 시스템은:
사용자에 대한 상기 오디오 및 비디오 장면(118a, 118b)의 표현을 위해 상기 적어도 하나의 비디오 스트림(106)으로부터 적어도 하나의 비디오 신호를 디코딩하도록 구성되는 적어도 하나의 미디어 비디오 디코더(102);
상기 사용자에 대한 상기 오디오 및 비디오 장면(118a, 118b)의 상기 표현을 위해 상기 적어도 하나의 제1 오디오 스트림(116, 316)으로부터 적어도 하나의 오디오 신호를 디코딩하도록 구성되는 적어도 하나의 미디어 오디오 디코더(112); 및
메타데이터 프로세서(132); 및
관심 영역(a region of interest;"ROI") 프로세서(120)를 포함하며,
상기 관심 영역 프로세서(120)는:
사용자의 현재 뷰포트, 머리 방향, 및 이동 데이터(122) 중 적어도 하나를 수신하고,
상기 적어도 하나의 비디오 스트림(106)으로부터 상기 적어도 하나의 비디오 신호와 연관된 뷰포트 메타데이터(131) - 상기 뷰포트 메타데이터(131)는 적어도 하나의 ROI에서 정의됨 - 를 수신하고,
적어도 상기 사용자의 현재 뷰포트, 머리 방향, 및 이동 데이터(122) 중 적어도 하나와 뷰포트 메타데이터(131)에 기초하여, 상기 적어도 하나의 ROI에 연관되는 오디오 정보 메시지 - 상기 오디오 정보 메시지는 상기 적어도 하나의 비디오 신호 및 상기 적어도 하나의 오디오 신호에 독립적임 - 가 재생될지 여부를 결정하고,
상기 오디오 정보 메시지가 재생될 것이라는 상기 ROI 프로세서의 결정시, 상기 오디오 정보 메시지 메타데이터(141)의 수정을 상기 메타데이터 프로세서(132)에 요청하도록 구성되고,
상기 메타데이터 프로세서(132)는 오디오 정보 메시지 메타데이터(141)를 수신하고, 상기 오디오 정보 메시지 메타데이터를 수정하라는 요청을 상기 ROI 프로세서(120)로부터 수신하고, 상기 ROI 프로세서(120)로부터의 요청에 따라 상기 오디오 정보 메시지 메타데이터를 수정된 오디오 정보 메시지 메타데이터로 수정하도록 구성되고,
상기 ROI 프로세서(120)는 상기 수정된 오디오 정보 메시지 메타데이터(234)에 따라 상기 오디오 정보 메시지의 재생을 야기하도록 더 구성되는, 콘텐츠 소비 디바이스 시스템
제1항에 있어서, 상기 오디오 정보 메시지는 이어콘(earcon)인, 콘텐츠 소비 디바이스 시스템.
제1항에 있어서,
상기 ROI 프로세서(120)는 또한 오디오 정보 메시지 메타데이터(141)에 더 기초하여 상기 결정을 수행하도록 구성되는, 콘텐츠 소비 디바이스 시스템.
제1항에 있어서, 상기 ROI 프로세서(120)는:
상기 적어도 하나의 ROI가 상기 사용자의 현재 뷰포트 밖에 있는 경우, 상기 적어도 하나의 오디오 신호의 재생에 더하여, 상기 적어도 하나의 ROI에 연관되는 상기 오디오 정보 메시지의 재생을 야기하고;
상기 적어도 하나의 ROI가 상기 사용자의 현재 뷰포트 내에 있는 경우, 상기 적어도 하나의 ROI에 연관되는 상기 오디오 정보 메시지의 재생을 비활성화시키도록 더 구성되는, 콘텐츠 소비 디바이스 시스템.
제1항에 있어서,
상기 적어도 하나의 오디오 정보 메시지가 인코딩되는 상기 적어도 하나의 추가적인 오디오 스트림(140)을 수신하도록 더 구성되며,
상기 콘텐츠 소비 디바이스 시스템은:
상기 오디오 장면에 더하여 상기 오디오 정보 메시지의 재생을 야기하기 위해, 상기 적어도 하나의 오디오 정보 메시지가 재생될 것이라는 상기 ROI 프로세서(120)에 의해 제공되는 결정에 기초하여, 상기 적어도 하나의 제1 오디오 스트림(116, 316)의 패킷들과 상기 적어도 하나의 추가적인 오디오 스트림(140)의 패킷들을, 상기 메타데이터 프로세서(132) 또는 다른 프로세서의 제어 하에, 하나의 스트림(414)으로 병합하는 적어도 하나의 먹서(muxer) 또는 멀티플렉서(412)를 더 포함하는, 콘텐츠 소비 디바이스 시스템.
제1항에 있어서,
상기 적어도 하나의 제1 오디오 스트림(116)에 인코딩되는 상기 적어도 하나의 오디오 신호를 설명하는 적어도 하나의 오디오 메타데이터(236)를 수신하고;
상기 오디오 정보 메시지가 재생될 것이라는 상기 ROI 프로세서의 결정시, 상기 적어도 하나의 오디오 신호의 재생에 더하여, 상기 오디오 정보 메시지의 재생을 인에이블하기 위해 상기 메타데이터 프로세서(132)에 의해 상기 오디오 정보 메시지 메타데이터(141)를 수정하도록 더 구성되는, 콘텐츠 소비 디바이스 시스템.
제6항에 있어서,
상기 적어도 하나의 오디오 스트림(116)에 인코딩되는 상기 적어도 하나의 오디오 신호를 설명하는 적어도 하나의 오디오 메타데이터(236)를 수신하고;
상기 오디오 정보 메시지가 재생될 것이라는 상기 ROI 프로세서의 결정시, 상기 적어도 하나의 오디오 신호의 상기 재생에 더하여, 상기 적어도 하나의 ROI와 연관하여 오디오 정보 메시지의 상기 재생을 인에이블하기 위해 상기 메타데이터 프로세서(132)에 의해 상기 오디오 정보 메시지 메타데이터(141)를 수정하고;
상기 적어도 하나의 제1 오디오 스트림(116) 및 상기 적어도 하나의 추가적인 오디오 스트림(140)의 병합을 허용하기 위해 상기 적어도 하나의 오디오 신호를 설명하는 오디오 메타데이터(236)를 상기 메타데이터 프로세서(132)에 의해 수정하도록 더 구성되는, 콘텐츠 소비 디바이스 시스템.
제1항에 있어서,
상기 적어도 하나의 오디오 스트림(116)에 인코딩되는 상기 적어도 하나의 오디오 신호를 설명하는 적어도 하나의 오디오 메타데이터(236)를 수신하고;
상기 오디오 정보 메시지가 재생될 것이라는 상기 ROI 프로세서의 결정시, 상기 오디오 정보 메시지 메타데이터(141)를 합성 오디오 스트림(140)에 연관시키고 상기 합성 오디오 스트림(140) 및 상기 오디오 정보 메시지 메타데이터(141)를 멀티플렉서 또는 먹서(412)에 제공하여 상기 적어도 하나의 제1 오디오 스트림(116)과 상기 합성 오디오 스트림(140)의 병합을 허용하기 위해, 상기 메타데이터 프로세서(132)에 의해 상기 오디오 정보 메시지 메타데이터(141)를 합성 오디오 생성기(246)에 제공하여 합성 오디오 스트림(140)을 생성하도록 더 구성되는, 콘텐츠 소비 디바이스 시스템.
제5항에 있어서, 상기 오디오 정보 메시지가 인코딩되는 상기 적어도 하나의 추가적인 오디오 스트림(140)으로부터 상기 오디오 정보 메시지 메타데이터(141)를 획득하도록 더 구성되는, 콘텐츠 소비 디바이스 시스템.
제1항에 있어서서, 미래의 사용을 위해, 상기 오디오 정보 메시지 메타데이터(141) 및 상기 오디오 정보 메시지 스트림(140) 중 적어도 하나를 저장하도록 더 구성되는, 콘텐츠 소비 디바이스 시스템.
제1항에 있어서, 상기 적어도 하나의 ROI에 연관되는 오디오 정보 메시지 메타데이터(141)에 기초하여 오디오 정보 메시지를 합성하도록 구성되는 합성 오디오 생성기(432)를 더 포함하는, 콘텐츠 소비 디바이스 시스템.
제6항에 있어서, 상기 메타데이터 프로세서(132)는, 상기 오디오 메타데이터 및 오디오 정보 메시지 메타데이터에 기초하여, 상기 적어도 하나의 오디오 스트림(116)에 대한 상기 오디오 정보 메시지의 추가를 획득하기 위해, 먹서 또는 멀티플렉서(412)를 제어하여 상기 적어도 하나의 제1 오디오 스트림(116)의 패킷과 상기 오디오 정보 메시지 스트림(140)의 패킷을 하나의 스트림(414)으로 병합하도록 더 구성되는, 콘텐츠 소비 디바이스 시스템.
제1항에 있어서, 상기 오디오 정보 메시지 메타데이터(141)는, 재생될 상기 오디오 정보 메시지의 소리 레벨에 연관된 이득 데이터를 적어도 포함하여 데이터 프레임 또는 구성 프레임에 인코딩되는, 콘텐츠 소비 디바이스 시스템.
제1항에 있어서, 상기 오디오 정보 메시지 메타데이터(141)는:
위치 데이터,
상기 오디오 정보 메시지의 언어,
데이터 텍스트 길이,
연관된 텍스트 라벨의 데이터 텍스트, 및
오디오 정보 메시지의 설명 중 적어도 하나를 포함하여 데이터 프레임 또는 구성 프레임에 인코딩되는, 콘텐츠 소비 디바이스 시스템.
제1항에 있어서, 상기 메타데이터 프로세서(132)는 상기 오디오 정보 메시지를 활성화시키거나, 그 위치를 설정하거나, 그 위치를 변경하기 위해 오디오 정보 메시지 메타데이터를 수정하도록 더 구성되는, 콘텐츠 소비 디바이스 시스템.
제5항에 있어서, 상기 메타데이터 프로세서(132)는 다음 동작들: 즉,
스트림으로부터 오디오 정보 메시지 메타데이터를 추출하는 동작;
상기 스트림에 다시 메타데이터를 삽입시키는 동작;
상기 스트림을 추가적인 미디어 디코더에 공급하는 동작;
상기 적어도 하나의 제1 오디오 스트림(116)으로부터 오디오 메타데이터를 추출하는 동작;
추가적인 스트림으로부터 오디오 정보 메시지 메타데이터를 추출하는 동작;
상기 오디오 정보 메시지의 존재를 고려하고 병합을 허용하기 위해 상기 적어도 하나의 제1 오디오 스트림(116)의 오디오 메타데이터를 수정하는 동작; 및
상기 스트림을 상기 멀티플렉서 또는 먹서에 제공하여 ROI 프로세서로부터 수신되는 정보에 기초하여 상기 스트림을 멀티플렉스 또는 먹스하는 동작들 중 적어도 하나를 수행하도록 구성되는, 콘텐츠 소비 디바이스 시스템.
제1항에 있어서, 상기 ROI 프로세서(120)는 상기 오디오 정보 메시지가 인코딩되는 추가적인 오디오 스트림(140) 또는 오디오 정보 메시지 메타데이터에 대한 로컬 서치를 수행하고, 비-검색의 경우, 상기 추가적인 오디오 스트림(140) 또는 오디오 정보 메시지 메타데이터를 원격 엔티티에 요청하도록 구성되는, 콘텐츠 소비 디바이스 시스템.
제11항에 있어서, 상기 ROI 프로세서(120)는 추가적인 오디오 스트림(140) 또는 오디오 정보 메시지 메타데이터에 대한 로컬 서치를 수행하고, 비-검색의 경우, 합성 오디오 생성기(432)가 상기 오디오 정보 메시지 스트림 또는 오디오 정보 메시지 메타데이터를 생성하게 하도록 더 구성되는, 콘텐츠 소비 디바이스 시스템.
제1항에 있어서,
상기 적어도 하나의 ROI에 연관되는 적어도 하나의 오디오 정보 메시지가 포함되는 상기 적어도 하나의 추가적인 오디오 스트림(140)을 수신하고;
상기 적어도 하나의 미디어 오디오 디코더(112)는, 상기 ROI 프로세서가 상기 적어도 하나의 ROI에 연관되는 오디오 정보 메시지가 재생될 것이라고 결정하는 경우, 상기 적어도 하나의 추가적인 오디오 스트림(140)을 디코딩하도록 더 구성되는, 콘텐츠 소비 디바이스 시스템.
제19항에 있어서,
상기 적어도 하나의 제1 미디어 오디오 디코더(112)가 적어도 하나의 제1 오디오 스트림(116)으로부터 상기 적어도 하나의 오디오 신호를 디코딩하도록 구성되고;
상기 콘텐츠 소비 디바이스 시스템은:
추가적인 오디오 스트림(140)으로부터 상기 적어도 하나의 오디오 정보 메시지를 디코딩하도록 구성된 적어도 하나의 추가적인 오디오 디코더(112); 및
상기 적어도 하나의 추가적인 오디오 스트림(140)으로부터의 상기 오디오 정보 메시지를 상기 적어도 하나의 제1 오디오 스트림(116)으로부터의 상기 적어도 하나의 오디오 신호와 혼합 또는 중첩하기 위한 적어도 하나의 믹서 또는 렌더러(renderer)(314)를 더 포함하는, 콘텐츠 소비 디바이스 시스템.
제1항에 있어서, 상기 오디오 정보 메시지의 상기 재생들의 누적 횟수를 정의하는 메트릭들을 추적하여 상기 메트릭들이 미리 결정된 임계치를 초과하는 경우 상기 오디오 정보 메시지의 재생을 디스에이블하도록 더 구성되는, 콘텐츠 소비 디바이스 시스템.
제1항에 있어서, 상기 ROI 프로세서의 결정은 상기 ROI의 위치와 관련하여 사용자의 현재 뷰포트, 위치, 머리 방향, 및 이동 데이터(122) 중 적어도 하나의 예측에 기초하는, 콘텐츠 소비 디바이스 시스템.
제1항에 있어서, 상기 정보 메시지가 재생될 것이라는 상기 ROI 프로세서의 결정시, 원격 엔티티로부터 오디오 메시지 정보 스트림을 요청하도록 더 구성되는, 콘텐츠 소비 디바이스 시스템.
제1항에 있어서, 2개의 오디오 정보 메시지를 동시에 재생할 것인지 여부 또는 더 낮은-우선순위 오디오 정보 메시지에 대해 우선순위를 갖는 재생될 더 높은-우선순위 오디오 정보 메시지를 선택할지 여부를 설정하도록 더 구성되는, 콘텐츠 소비 디바이스 시스템.
제1항에 있어서, 오디오 스트림에서 상기 오디오 정보 메시지의 주소 또는 위치에 기초하여 하나의 추가적인 오디오 스트림(140)에 인코딩되는 복수의 오디오 정보 메시지 중에서 오디오 정보 메시지를 식별하도록 더 구성되는, 콘텐츠 소비 디바이스 시스템.
제1항에 있어서, 상기 오디오 스트림들은 MPEG-H 3D 오디오 스트림 포맷으로 포맷되는, 콘텐츠 소비 디바이스 시스템.
제1항에 있어서,
복수의 적응 세트들(556, 557)의 이용가능성에 대한 데이터 - 상기 이용가능한 적응 세트들은 상기 적어도 하나의 제1 오디오 스트림(116, 316)에 대한 적어도 하나의 오디오 장면 적응 세트 및 적어도 하나의 오디오 정보 메시지를 포함하는 상기 적어도 하나의 추가적인 오디오 스트림(140)에 대한 적어도 하나의 오디오 메시지 적응 세트를 포함함 - 를 수신하고;
상기 ROI 프로세서의 결정에 기초하여, 상기 이용가능한 적응 세트들 - 상기 이용가능한 적응 세트들은 적어도 하나의 오디오 장면 적응 세트 또는 적어도 하나의 오디오 메시지 적응 세트를 포함함 - 중 어느 것이 검색될 것인지를 식별하는 선택 데이터(559)를 생성하고;
상기 선택 데이터에 의해 식별되는 상기 적응 세트들에 대한 데이터를 요청하거나 검색하도록 더 구성되며,
각각의 적응 세트는 상이한 비트레이트들에 대해 상이한 인코딩들을 그룹화하는, 콘텐츠 소비 디바이스 시스템.
제27항에 있어서, 그 요소 중 적어도 하나는 HTTP 동적 적응 스트리밍 (Dynamic Adaptive Streaming over HTTP), DASH, 클라이언트를 포함하거나 ISO 베이스 미디어 파일 포맷(Base Media File Format:ISO BMFF), 또는 MPEG-2 전송 스트림 (MPEG-2 Transport Stream:MPEG-2 TS)을 사용하여 상기 적응 세트 각각에 대한 상기 데이터를 검색하도록 구성되는, 콘텐츠 소비 디바이스 시스템.
제1항에 있어서, 상기 ROI 프로세서(120)는, 상기 ROI가 상기 사용자의 현재 뷰포트에 표현되는지 여부를 체크하고 상기 ROI가 상기 사용자의 현재 뷰포트 밖에 있는 경우 상기 사용자에게 상기 ROI의 존재를 가청적으로 신호화하기 위해, 상기 사용자의 현재 뷰포트, 위치, 머리 방향, 및 이동 데이터(122) 중 적어도 하나와 상기 ROI 사이의 대응들을 체크하도록 더 구성되는, 콘텐츠 소비 디바이스 시스템.
제1항에 있어서, 상기 ROI 프로세서(120)는, 상기 ROI가 상기 사용자의 현재 뷰포트에 표현되는지 여부를 체크하고 상기 ROI가 상기 사용자의 현재 뷰포트, 위치, 머리 방향, 및 이동 데이터(122) 중 적어도 하나 내에 있는 경우 상기 사용자에게 상기 ROI의 존재를 가청적으로 신호화하는 것을 억제하기 위해, 상기 ROI와 상기 사용자의 현재 뷰포트, 위치, 머리 방향, 및 이동 데이터(122) 중 적어도 하나 사이의 대응들을 체크하도록 더 구성되는, 콘텐츠 소비 디바이스 시스템.
제1항에 있어서, 원격 엔티티(202)로부터, 상기 비디오 장면에 연관되는 상기 적어도 하나의 비디오 스트림(116) 및 상기 오디오 장면 - 상기 오디오 장면은 상기 비디오 장면에 연관됨 - 에 연관되는 상기 적어도 하나의 제1 오디오 스트림(106)을 수신하도록 더 구성되는, 콘텐츠 소비 디바이스 시스템.
제1항에 있어서서, 상기 ROI 프로세서(120)는, 재생될 복수의 오디오 정보 메시지 중에서, 제2 오디오 정보 메시지 전에 하나의 제1 오디오 정보 메시지의 재생을 선택하도록 더 구성되는, 콘텐츠 소비 디바이스 시스템.
제1항에 있어서, 상이한 시간의 순간들에서 상기 오디오 정보 메시지를 재사용하기 위해, 원격 엔티티(204)로부터 수신되거나 합성적으로 생성되는 오디오 정보 메시지를 저장하기 위해 캐시 메모리(246)를 더 포함하는, 콘텐츠 소비 디바이스 시스템.
제1항에 있어서, 상기 적어도 하나의 비디오 스트림 또는 상기 적어도 하나의 제1 오디오 스트림은 현재 비디오 장면 및 오디오 장면 각각의 일부이고, 상기 현재 비디오 장면 및 비디오 오디오 장면에서 상기 사용자의 현재 뷰포트, 머리 방향, 및 이동 데이터(122) 중 적어도 하나에 독립적인, 콘텐츠 소비 디바이스 시스템.
제1항에 있어서, 상기 오디오 스트림 또는 비디오 환경 스트림 각각에 연관하여 원격 엔티티에 상기 적어도 하나의 제1 오디오 스트림 또는 적어도 하나의 비디오 스트림을 요청하고, 상기 사용자의 현재 뷰포트, 머리 방향, 및 이동 데이터(122) 중 적어도 하나에 기초하여 상기 적어도 하나의 오디오 정보 메시지를 재생하도록 더 구성되는, 콘텐츠 소비 디바이스 시스템.
제1항에 있어서, 상기 오디오 스트림 또는 비디오 환경 스트림 각각에 연관하여 원격 엔티티에 상기 적어도 하나의 제1 오디오 스트림 또는 적어도 하나의 비디오 스트림을 요청하고, 상기 원격 엔티티에, 상기 사용자의 현재 뷰포트, 머리 방향, 및 이동 데이터(122) 중 적어도 하나에 기초하여 상기 적어도 하나의 오디오 정보 메시지를 요청하도록 더 구성되는, 콘텐츠 소비 디바이스 시스템.
제1항에 있어서, 상기 오디오 스트림 또는 비디오 환경 스트림 각각에 연관하여 원격 엔티티에 상기 적어도 하나의 제1 오디오 스트림 또는 적어도 하나의 비디오 스트림을 요청하고, 상기 사용자의 현재 뷰포트, 머리 방향, 및 이동 데이터(122) 중 적어도 하나에 기초하여 상기 적어도 하나의 오디오 정보 메시지를 합성하도록 더 구성되는, 콘텐츠 소비 디바이스 시스템.
제1항에 있어서, 상기 오디오 정보 메시지의 재생을 위한 추가적인 기준 중 적어도 하나를 체크하도록 더 구성되며, 상기 기준은 사용자의 선택 또는 사용자의 설정을 더 포함하는, 콘텐츠 소비 디바이스 시스템.
제1항에 있어서, 상기 오디오 정보 메시지의 재생을 위한 추가적인 기준 중 적어도 하나를 체크하도록 구성되며,
상기 기준은 이미 재생된 경우 오디오 정보 메시지의 반복을 억제하는 것에 더 기초하고, 너무 빠른 오디오 정보 메시지의 반복을 회피하기 위한 타이머를 사용하는, 콘텐츠 소비 디바이스 시스템.
제1항에 있어서, 상기 오디오 정보 메시지의 재생을 위한 추가적인 기준 중 적어도 하나를 체크하도록 구성되며,
상기 기준은 원격 엔티티로부터 획득되는 오디오 메시지 메타데이터에 플래그(flag)를 더 포함하고, 상기 플래그는 상기 오디오 정보 메시지가 활성화되어 있는지 여부를 정의하는, 콘텐츠 소비 디바이스 시스템.
제1항의 상기 콘텐츠 소비 디바이스 시스템으로서 구성되는 클라이언트, 및 상기 적어도 하나의 비디오 스트림(106)과 상기 적어도 하나의 오디오 스트림(116)을 전달하기 위한 서버로서 구성되는 원격 엔티티(202, 240)를 포함하는, 시스템.
제41항에 있어서, 상기 원격 엔티티(202, 240)는, 데이터베이스, 인트라넷, 인터넷, 또는 지리적 네트워크에서, 상기 적어도 하나의 추가적인 오디오 스트림(140) 또는 오디오 정보 메시지 메타데이터를 서치하고, 검색의 경우, 상기 적어도 하나의 추가적인 오디오 스트림(140) 또는 상기 오디오 정보 메시지 메타데이터를 전달하도록 구성되는, 시스템.
제42항에 있어서, 상기 원격 엔티티(202, 240)는 상기 적어도 하나의 추가적인 오디오 스트림(140)을 합성하거나 상기 오디오 정보 메시지 메타데이터를 생성하도록 구성되는, 시스템.
콘텐츠 소비 디바이스 시스템에서의 가상 현실(VR), 증강 현실(AR), 혼합 현실(MR), 또는 360도 비디오 환경을 위한 방법으로서, 상기 방법은:
상기 콘텐츠 소비 디바이스 시스템에 의해, 재생될 적어도 하나의 비디오 스트림(106)을 수신하는 단계;
상기 콘텐츠 소비 디바이스 시스템에 의해, 재생될 적어도 하나의 오디오 스트림(116, 316)을 수신하는 단계;
상기 콘텐츠 소비 디바이스 시스템에 의해, 상기 적어도 하나의 제1 오디오 스트림(116)으로부터 적어도 하나의 오디오 정보 메시지와 연관된 오디오 정보 메시지 메타데이터(141)를 수신하는 단계;
적어도 하나의 미디어 비디오 디코더(102)에 의해, 상기 적어도 하나의 비디오 스트림(106)으로부터 적어도 하나의 비디오 신호를 디코딩하는 단계;
적어도 하나의 미디어 오디오 디코더(112)에 의해, 상기 적어도 하나의 오디오 스트림(116, 316)으로부터 적어도 하나의 오디오 신호를 디코딩하는 단계;
관심 영역(ROI) 프로세서(120)에 의해, 사용자의 현재 뷰포트, 머리 방향, 및 이동 데이터(122) 중 적어도 하나를 수신하는 단계;
상기 ROI 프로세서(120)에 의해, 상기 적어도 하나의 비디오 스트림(106)으로부터 상기 적어도 하나의 비디오 신호와 연관된 뷰포트 메타데이터(131) - 상기 뷰포트 메타데이터(131)는 적어도 하나의 관심 영역(ROI)을 정의함 - 를 수신하는 단계;
상기 ROI 프로세서(120)에 의해, 상기 사용자의 현재 뷰포트, 머리 방향, 및 이동 데이터(122) 중 적어도 하나와 뷰포트 메타데이터(131)에 기초하여, 적어도 하나의 ROI에 연관되는 오디오 정보 메시지 - 상기 오디오 정보 메시지는 상기 적어도 하나의 비디오 신호 및 상기 적어도 하나의 오디오 신호에 독립적임 - 가 재생될지 여부를 결정하는 단계;
상기 ROI 프로세서(120)에 의해, 상기 오디오 정보 메시지가 재생될 것이라는 상기 ROI 프로세서의 결정시, 메타데이터 프로세서(132)에 상기 오디오 정보 메시지 메타데이터(141)의 수정을 요청하는 단계;
상기 메타데이터 프로세서(132)에 의해, 오디오 정보 메시지 메타데이터(141)를 수신하는 단계;
상기 메타데이터 프로세서(132)에 의해, 상기 ROI 프로세서(120)로부터 상기 오디오 정보 메시지 메타데이터를 수정하라는 요청을 수신하는 단계;
상기 ROI 프로세서(120)로부터의 요청에 따라, 상기 메타데이터 프로세서(132)에 의해, 상기 오디오 정보 메시지 메타데이터(141)를 수정된 오디오 정보 메시지 메타데이터로 수정하는 단계; 및
상기 수정된 오디오 정보 메시지 메타데이터(234)에 따라, 상기 ROI 프로세서(120)에 의해 상기 오디오 정보 메시지의 재생을 야기하는 단계를 포함하는, 방법.
제44항에 있어서,
상기 오디오 및 비디오 장면(118a, 118b)을 재생하는 단계를 더 포함하고;
상기 적어도 하나의 ROI가 상기 사용자의 현재 뷰포트 밖에 있는 경우, 상기 적어도 하나의 오디오 신호의 상기 재생에 더하여, 상기 적어도 하나의 ROI에 연관되는 오디오 정보 메시지의 재생을 야기하고;
상기 적어도 하나의 ROI가 상기 사용자의 현재 뷰포트 내에 있는 경우, 상기 적어도 하나의 ROI에 연관되는 상기 오디오 정보 메시지의 재생을 비활성화시키는, 방법.
프로세서에 의해 실행될 때, 상기 프로세서가 제44항에 따른 방법을 수행하게 하는 명령어들을 포함하는 비-일시적 저장 유닛.
삭제
삭제
삭제
삭제
삭제
삭제