TWI713911B

TWI713911B - 用於虛擬實境應用之音訊遞送最佳化技術

Info

Publication number: TWI713911B
Application number: TW107136093A
Authority: TW
Inventors: 愛德瑞恩摩塔札; 哈拉德福契斯; 伯納德奇里漢; 珍普洛格史堤; 馬特歐阿涅利; 英構霍夫曼
Original assignee: 弗勞恩霍夫爾協會
Priority date: 2017-10-12
Filing date: 2018-10-12
Publication date: 2020-12-21
Also published as: ZA202304926B; KR20240137132A; US20200278828A1; RU2765569C1; MX2023012965A; AU2023263436A1; BR112020008073A2; WO2019072984A1; CA3230304A1; AR125880A2; CN116193213A; ZA202002064B; CA3230221A1; ZA202208388B; CA3078858A1; ZA202208364B; EP3695613B1; AU2018348762B2; SG11202003269SA; MX2023012964A

Abstract

揭示用於一虛擬實境VR、擴增實境AR、混合實境MR或360度視訊環境之技術、系統、方法及指令。在一個實例中，該系統包含至少一個媒體視訊解碼器，其經組配以對來自視訊串流之視訊信號進行解碼以將VR、AR、MR或360度視訊環境場景呈現給一使用者。該系統包含至少一個音訊解碼器，其經組配以對來自至少一個音訊串流之音訊信號進行解碼。該系統經組配以至少基於該使用者之當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料而向一伺服器請求至少一個音訊串流及/或一音訊串流之一個音訊元素及/或一個調適集合。

Description

用於虛擬實境應用之音訊遞送最佳化技術

本發明係有關於用於虛擬實境應用之音訊遞送最佳化技術。

1.背景簡介：

在虛擬實境(VR)環境中或類似地在擴增實境(AR)或混合實境(MR)或360度視訊環境中，使用者可通常使用例如頭戴式顯示器(HMD)視覺化全360度內容，且經由頭戴式耳機(或類似地經由擴音器，包括取決於其位置之正確顯現)收聽該內容。

在簡單使用情況中，內容撰寫之方式為使得在特定時刻僅再現一個音訊/視訊場景(即，例如360度視訊)。音訊/視訊場景具有固定位置(例如，使用者定位於中心的球體)，且使用者可能不會在場景中移動，但其可能在各種方向上旋轉其頭部(痛苦、俯仰、橫搖)。在此情況下，基於使用者頭部的定向向其播放(顯示不同視埠)不同的視訊及音訊。

儘管對於視訊，視訊內容與用於描述顯現過程之元資料(例如，拼接資訊、投影映射，等)一起針對整個360度場景進行遞送且基於當前使用者視埠加以選擇，但對於音訊，內容對於整個場景係相同的。基於元資料，音訊內容適於當前使用者視埠(例如，基於視埠/使用者定向資訊以不同方式顯現音訊物件)。應注意，360度內容係指在同一時刻包含多於一個檢視角度的任何類型的內容，使用者可自該多於一個檢視角度中進行選擇(例如藉由其頭部定向或藉由使用遙控裝置)。

在更複雜的情形中，在使用者可能在VR場景中移動或自一個場景「跳轉」至下一場景時，音訊內容亦可能改變(例如，在一個場景中並不可聽見的音訊源在下一場景(「門打開」)中變得可聽見)。利用現有系統，完整音訊場景可編碼成一個串流，且若需要，編碼成額外串流(取決於主串流)。此類系統被稱為下一代音訊系統(例如，MPEG-H 3D音訊)。此類使用情況的實例可含有：

●實例1：使用者選擇進入新房間，且整個音訊/視訊場景改變

●實例2：使用者在VR場景中移動，打開門且走過去，從而意味著音訊自一個場景轉變至下一所需場景

出於描述此情形的目的，將空間中之離散視點概念介紹為空間(中VR環境)中之離散位置，對於該等位置，不同音訊/視訊內容可用。

「直接」解決方案為具有基於來自播放裝置的關於使用者位置/定向之反饋而改變編碼(音訊元素之數目、空間資訊，等)的即時編碼器。此解決方案例如在流式傳輸環境中將意味著用戶端與伺服器之間非常複雜的通訊：

●用戶端(通常假定其僅使用簡單邏輯)將需要先進機制來傳達對不同串流之請求以及關於編碼細節之複雜資訊，該資訊將使得能夠基於使用者之位置處理正確內容。

●媒體伺服器通常預填有不同串流(以允許「逐片段」遞送之特定方式格式化)，且伺服器之主要功能為提供關於可用串流之資訊且在被請求時引起其遞送。為了實現允許基於來自播放裝置之反饋進行編碼的情形，媒體伺服器將需要與多個實況媒體編碼器之先進通訊連結以及在運作中產生可能即時地改變的所有信令資訊(例如，媒體呈現描述)之能力。

儘管可想像此類系統，但其複雜性及計算要求超出現今可用的或甚至在接下來幾十年內將開發的設備及系統之功能性及特徵。

或者，可始終遞送表示完整VR環境(「完整世界」)之內容。此將解決問題，但將需要超出可用通訊連結之能力的巨大位元速率。

此對於即時環境係複雜的，且為了使用可用系統來實現此類使用情況，提出以低複雜性實現此功能性的替代解決方案。

2.術語及定義

技術領域中使用以下術語：

●音訊元素：可表示為例如音訊物件、音訊聲道、基於場景之音訊(高階立體混響-HOA)或其任何組合的音訊信號。

●感興趣區(ROI)：使用者在一個時刻感興趣的視訊內容(或所顯示或模擬的環境)之一個區域。此可通常為例如球體上之區或自2D圖之多邊形選擇。ROI出於特定目的識別特定區，從而界定考慮中的物件之邊界。

●使用者位置資訊：位置資訊(例如，x，y，z座標)、定向資訊(痛苦、俯仰、橫搖)、移動方向及速度，等。

●視埠：當前顯示且由使用者檢視在球狀視訊部分。

●視點：視埠之中心點。

●360度視訊(亦稱為沉浸式視訊或球狀視訊)：在此文件之上下文中表示在同一時刻處在一個方向上含有多於一個視圖(即，視埠)之視訊內容。可例如使用全向相機或相機集合產生此類內容。在播放期間，檢視器可控制檢視方向。

●媒體呈現描述(MPD)為含有關於媒體片段、其關係的資訊及在其間選擇所必需的資訊的語法，例如XML。

●調適集合含有媒體串流或媒體串流集合。在最簡單的情況下，一個調適集合含有內容之所有音訊及視訊，但為減小頻寬，每一串流可拆分成不同調適集合。常見情況為具有一個視訊調適集合及多個音訊調適集合(每一支援之語言具有一個)。調適集合亦可含有副標題或任意元資料。

●表示允許調適集合含有以不同方式編碼之相同內容。在大多數情況下，將以多個位元速率提供表示。此允許用戶端請求其可播放之最高品質內容，而無需等待緩衝。表示亦可用不同編解碼器編碼，從而允許支援具有所支援之不同編解碼器的用戶端。

在本申請案之上下文中，調適集合之概念更一般地使用，有時實際上係指表示。又，媒體串流(音訊/視訊串流)通常首先囊封成媒體片段，其為由用戶端(例如，DASH用戶端)播放之實際媒體檔案。各種格式可用於媒體片段，諸如ISO基本媒體檔案格式(ISOBMFF)，其類似於MPEG-4容器格式或MPEG-2輸送串流(TS)。囊封成媒體片段及不同表示/調適集合獨立於此處描述之方法，該等方法適用於所有各種選項。

此外，此文件中對方法之描述集中於DASH伺服器-用戶端通訊，但該等方法係通用的，足以對其他遞送環境起作用，諸如MMT、MPEG-2 TS、DASH-ROUTE、用於文件播放之檔案格式，等。

一般而言，調適集合相對於串流處於較高層，且可包含元資料(例如，與位置相關聯)。串流可包含多個音訊元素。音訊場景可與作為多個調適集合之部分遞送的多個串流相關聯。

3.當前解決方案

當前解決方案為：

[1].ISO/IEC 23008-3：2015年，資訊技術--異質環境中之高效率寫碼及媒體遞送--第3部分：3D音訊(Information technology--High efficiency coding and media delivery in heterogeneous environments--Part 3：3D audio)

[2].N16950，ISO/IEC DIS 23000-20全向媒體格式之研究(Study of ISO/IEC DIS 23000-20 Omnidirectional Media Format)

當前解決方案限於在允許使用者改變其定向但不允許在VR環境中移動的一個固定位置處提供獨立VR體驗。

根據一實施例，一種用於虛擬實境VR、擴增實境AR、混合實境MR或360度視訊環境之系統可經組配以接收待在媒體消費裝置中再現的視訊及音訊串流，其中該系統可包含：至少一個媒體視訊解碼器，其經組配以對來自視訊串流之視訊信號進行解碼以將VR、AR、MR或360度視訊環境場景呈現給使用者；以及至少一個音訊解碼器，其經組配以對來自至少一個音訊串流之音訊信號進行解碼，其中該系統可經組配以至少基於該使用者之當前視埠及/或頭部定向及/或移動數據及/或互動互動元資料及/或虛擬位置資料而向伺服器請求至少一個音訊串流及/或音訊串流之一個音訊元素及/或一個調適集合。

根據一態樣，該系統可經組配以向該伺服器提供該使用者之當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料，以便自該伺服器獲得該至少一個音訊串流及/或音訊串流之一個音訊元素及/或一個調適集合。

一實施例可經組配以使得至少一個場景與至少一個音訊元素相關聯，每一音訊元素與該音訊元素可聽見之視覺環境中之位置及/或區域相關聯，以使得對於在該場景中之不同使用者位置及/或視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料提供不同音訊串流。

根據另一態樣，該系統可經組配以決定對於使用者在該場景中之當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置是否再現一音訊串流之至少一個音訊元素及/或一個調適集合，且其中該系統可經組配以請求及/或接收該使用者的當前虛擬位置處之該至少一個音訊元素。

根據一態樣，該系統可經組配以至少基於該使用者之當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料來預測性地決定一音訊串流之至少一個音訊元素及/或一個調適集合是否將變得相關及/或可聽見，且其中該系統可經組配以在一特定使用者在該場景中之預測移動及/或互動之前請求及/或接收該使用者的虛擬位置處之該至少一個音訊元素及/或音訊串流及/或調適集合，其中該系統可經組配以在該使用者在該場景中移動及/或互動之後在該特定使用者的虛擬位置處再現接收到的該至少一個音訊元素及/或音訊串流。

該系統之一實施例可經組配以在一使用者在該場景中移動及/或互動之前以一較低位元速率及/或品質等級請求及/或接收該使用者的虛擬位置處的該至少一個音訊元素，其中該系統可經組配以在該使用者在該場景中移動及/或互動之後以一較高位元速率及/或品質等級請求及/或接收該使用者的虛擬位置處的該至少一個音訊元素。

根據一態樣，該系統可經組配以使得至少一個音訊元素與至少一個場景相關聯，每一音訊元素與相關聯於該場景的該視覺環境中之一位置及/或區域相關聯，其中該系統可經組配以較之於距該使用者較遠的音訊元素，對於較接近於該使用者之音訊元素以較高位元速率及/或品質請求及/或接收串流。

根據一態樣，在該系統中，至少一個音訊元素可與至少一個場景相關聯，該至少一個音訊元素與相關聯於該場景之該視覺環境中的一位置及/或區域相關聯，其中該系統可經組配以基於音訊元素在每一使用者在該場景中之虛擬位置處的相關性及/或可聽見度等級而對於音訊元素以不同位元速率及/或品質等級請求不同串流，其中該系統可經組配以對於在該使用者的當前虛擬位置處相關性較高及/或可聽見度較高的音訊元素以較高位元速率及/或品質等級請求一音訊串流，及/或對於在該使用者的當前虛擬位置處相關性較低及/或可聽見度較低的音訊元素以較低位元速率及/或品質等級請求一音訊串流。

在一實施例中，在該系統中，至少一個音訊元素可與一場景相關聯，每一音訊元素與相關聯於該場景的該視覺環境中之一位置及/或區域相關聯，其中該系統可經組配以週期性地將該使用者之當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料發送至該伺服器，以使得：對於一第一位置，自該伺服器提供較高位元速率及/或品質之一串流，且對於一第二位置，自該伺服器提供較低位元速率及/或品質之一串流，其中該第一位置較之於該第二位置更接近於該至少一個音訊元素。

在一實施例中，該系統，可對於諸如鄰近及/或相鄰環境之多個視覺環境界定多個場景，以使得提供與一第一當前場景相關聯之第一串流，且在使用者轉變至一第二其他場景之情況下，提供與該第一場景相關聯之該等串流及與該第二場景相關聯之第二串流兩者。

在一實施例中，該系統，可對於一第一視覺環境及一第二視覺環境界定多個場景，該第一環境與該第二環境為鄰近及/或相鄰環境，其中在該使用者之位置或虛擬位置處於與該第一場景相關聯之一第一環境中的情況下，自該伺服器提供與該第一場景相關聯之第一串流以再現該第一場景，在該使用者之位置或虛擬位置處於與該第二場景相關聯之一第二環境中的情況下，自該伺服器提供與該第二場景相關聯之第二串流以再現該第二場景，且在該使用者之位置或虛擬位置處於該第一場景與該第二場景之間的一過渡位置的情況下，提供與該第一場景相關聯之第一串流及與該第二場景相關聯之第二串流兩者。

在一實施例中，該系統，可對於為鄰近及/或相鄰環境之一第一視覺環境及一第二視覺環境界定多個場景，其中該系統經組配以在該使用者之虛擬位置處於該第一環境中的情況下請求及/或接收與相關聯於該第一環境的一第一場景相關聯的第一串流以再現該第一場景，其中該系統可經組配以在該使用者之虛擬位置處於該第二環境中的情況下請求及/或接收與相關聯於該第二環境的該第二場景相關聯的第二串流，且其中該系統可經組配以在該使用者之虛擬位置處於該第一環境與該第二環境之間的一過渡位置的情況下請求及/或接收與該第一場景相關聯之第一串流及與該第二場景相關聯之第二串流兩者。

根據一態樣，該系統可經組配以使得在該使用者處於與該第一場景相關聯的該第一環境中時以一較高位元速率及/或品質獲得與該第一場景相關聯的該等第一串流，而在該使用者處於自該第一場景至該第二場景之一過渡位置的開始時以一較低位元速率及/或品質獲得與相關聯於該第二環境的該第二場景相關聯的該等第二串流，且在該使用者處於自該第一場景至該第二場景之一過渡位置的末端時以一較低位元速率及/或品質獲得與該第一場景相關聯的該等第一串流且以一較高位元速率及/或品質獲得與該第二場景相關聯的該等第二串流，其中該較低位元速率及/或品質低於該較高位元速率及/或品質。

根據一態樣，該系統可經組配以使得可對於諸如鄰近及/或相鄰環境之多個環境界定多個場景，以使得該系統可獲得與相關聯於一第一當前環境之一第一當前場景相關聯的該等串流，且在該使用者之位置或虛擬位置距該場景之一邊界的距離低於一預定臨界值的情況下，該系統進一步可獲得與相關聯於該第二場景之一第二鄰近及/或相鄰環境相關聯的音訊串流。

根據一態樣，該系統可經組配以使得可對於多個視覺環境界定多個場景，以使得該系統以一較高位元速率及/或品質請求及/或獲得與該當前場景相關聯之該等串流且以一較低位元速率及/或品質請求及/或獲得與該第二場景相關聯之該等串流，其中該較低位元速率及/或品質低於該較高位元速率及/或品質。

根據一態樣，該系統可經組配以使得可界定多個即N個音訊元素，且在該使用者距此等音訊元素之位置或區域之距離大於一預定臨界值的情況下，處理該等N個音訊元素以獲得與接近於該等N個音訊元素之該位置或區域的一位置或區域相關聯的較小數目即M個音訊元素(M<N)，以便在該使用者距該等N個音訊元素之該位置或區域之距離小於一預定臨界值的情況下向該系統提供與該等N個音訊元素相關聯之至少一個音訊串流，或在該使用者距該等N個音訊元素之該位置或區域之距離大於一預定臨界值的情況下向該系統提供與該等M個音訊元素相關聯的至少一個音訊串流。

根據一態樣，該系統可經組配以使得至少一個視覺環境場景與至少一個多個即N個音訊元素(N>=2)相關聯，每一音訊元素與該視覺環境中之一位置及/或區域相關聯，其中該等至少至少一個多個即N個音訊元素係以高位元速率及/或品質等級提供於至少一個表示中，且其中該等至少至少一個多個即N個音訊元素係以低位元速率及/或品質等級提供於至少一個表示中，其中該至少一個表示係藉由處理該等N個音訊元素以獲得與接近於該等N個音訊元素之該位置或區域的一位置或區域相關聯的較小數目即M個音訊元素(M<N)而獲得，其中該系統可經組配以在該等音訊元素在該使用者在該場景中之當前虛擬位置處相關性較高及/或可聽見度較高的情況下對於該等音訊元素以較高位元速率及/或品質等級請求該表示，其中該系統可經組配以在該等音訊元素在該使用者在該場景中之當前虛擬位置處相關性較低及/或可聽見度較低的情況下對於該等音訊元素以較低位元速率及/或品質等級請求該表示。

根據一態樣，該系統可經組配以使得在該使用者之距離及/或該相關性及/或該可聽見度等級及/或角度定向低於一預定臨界值的情況下，對於不同音訊元素獲得不同串流。

在一實施例中，該系統可經組配以基於在該場景中的該使用者之定向及/或使用者之移動方向及/或使用者之互動而請求及/或獲得該等串流。

在一實施例中，該系統，該視埠可與該位置及/或虛擬位置及/或移動資料及/或頭部定向相關聯。

根據一態樣，該系統可經組配以使得在不同視埠處提供不同音訊元素，其中該系統可經組配以在一個第一音訊元素落在一視埠內的情況下較之於不落在該視埠內的一第二音訊元素以一較高位元速率請求及/或接收該第一音訊元素。

根據一態樣，該系統可經組配以便請求及/或接收第一音訊串流及第二音訊串流，其中該等第一音訊串流中之該等第一音訊元素比該等第二音訊串流中之該等第二音訊元素相關性更高及/或可聽見度更高，其中該等第一音訊串流係以比該等第二音訊串流之該位元速率及/或品質高之一位元速率及/或品質請求及/或接收。

根據一態樣，該系統可經組配以使得界定至少兩個視覺環境場景，其中至少一個第一音訊元素及第二音訊元素與相關聯於一第一視覺環境的一第一場景相關聯，且至少一個第三音訊元素與相關聯於一第二視覺環境的一第二場景相關聯，其中該系統可經組配以獲得描述該至少一個第二音訊元素額外與該第二視覺環境場景相關聯之元資料，且其中該系統可經組配以在該使用者之虛擬位置處於該第一視覺環境中的情況下請求及/或接收該等至少第一音訊元素及第二音訊元素，且其中該系統可經組配以在該使用者的虛擬位置處於該第二視覺環境場景中的情況下請求及/或接收該等至少第二音訊元素及第三音訊元素，且其中該系統可經組配以在該使用者的虛擬位置處於該第一視覺環境場景與該第二視覺環境場景之間的過渡區中的情況下請求及/或接收該等至少第一音訊元素及第二音訊元素及第三音訊元素。

該系統之一實施例可經組配以使得該至少一個第一音訊元素提供於至少一個音訊串流及/或調適集合中，且該至少一個第二音訊元素提供於至少一個第二音訊串流及/或調適集合中，且該至少一個第三音訊元素提供於至少一個第三音訊串流及/或調適集合中，且其中該至少第一視覺環境場景藉由元資料描述為需要該等至少第一及第二音訊串流及/或調適集合之一完整場景，且其中該第二視覺環境場景藉由元資料描述為需要與該至少第一視覺環境場景相關聯的該至少第三音訊串流及/或調適集合及該至少第二音訊串流及/或調適集合之一不完整場景，其中該系統包含一元資料處理器，該元資料處理器經組配以操縱該元資料，以在該使用者的虛擬位置處於該第二視覺環境中的情況下允許將屬於該第一視覺環境之該第二音訊串流與相關聯於該第二視覺環境之該第三音訊串流合併為一新的單一串流。

根據一態樣，該系統包含一元資料處理器，該元資料處理器經組配以基於使用者之當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料而操縱在至少一個音訊解碼器之前的至少一個音訊串流中之該元資料。

根據一態樣，該元資料處理器可經組配以基於使用者之當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料而啟用及/或停用在該至少一個音訊解碼器之前的至少一個音訊串流中之至少一個音訊元素，其中該元資料處理器可經組配以在該系統決定由於一當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料而將不再再現該音訊元素的情況下停用在該至少一個音訊解碼器之前的至少一個音訊串流中之至少一個音訊元素，且其中該元資料處理器可經組配以在該系統決定由於一使用者的當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料而將再現該音訊元素的情況下啟用在該至少一個音訊解碼器之前的至少一個音訊串流中之至少一個音訊元素。

根據一態樣，該系統可經組配以停用對基於該使用者之當前視埠及/或頭部定向及/或移動資料及/或元資料及/或虛擬位置而選擇的音訊元素之解碼。

根據一態樣，該系統可經組配以將與當前音訊場景相關聯之至少一個第一音訊串流合併至與一相鄰、鄰近及/或未來音訊場景相關聯之至少一個串流。

根據一態樣，該系統可經組配以獲得及/或收集關於該使用者之當前視埠及/或頭部定向及/或移動資料及/或元資料及/或虛擬位置資料之統計或聚集資料，以便將與該統計或聚集資料相關聯之一請求傳輸至該伺服器。

根據一態樣，該系統可經組配以基於與該至少一個串流相關聯之元資料且基於該使用者之當前視埠及/或頭部定向及/或移動資料及/或元資料及/或虛擬位置資料而撤銷啟動至少一個串流之解碼及/或再現。

根據一態樣，該系統可經組配以：至少基於該使用者之當前或估計視埠及/或頭部定向及/或移動資料及/或元資料及/或虛擬位置資料而操縱與所選音訊串流之群組相關聯的元資料，以便：選擇及/或啟用及/或啟動組成待再現之該音訊場景的音訊元素；及/或致能所有所選音訊串流至一單一音訊串流之合併。

根據一態樣，該系統可經組配以基於該使用者之位置距與不同場景相關聯之相鄰及/或鄰近環境之邊界的距離或與該使用者在當前環境中之位置相關聯的其他量度或對未來環境之預測而控制該至少一個串流向該伺服器之請求。

根據一態樣，在該系統中，可針對每一音訊元素或音訊物件自伺服器系統提供資訊，其中該資訊包括關於聲音場景或該等音訊元素正起作用的位置之描述性資訊。

根據一態樣，該系統可經組配以基於該當前或未來或視埠及/或頭部定向及/或移動資料及/或元資料及/或虛擬位置及/或一使用者之選擇而在再現一個場景與組成或混合或多工或疊加或組合至少兩個場景之間進行選擇，該等兩個場景與不同相鄰及/或鄰近環境相關聯。

根據一態樣，該系統可經組配以至少產生或使用該等調適集合，以使得：數個調適集合與一個音訊場景相關聯；及/或提供使每一調適集合與一個視點或一個音訊場景相關之額外資訊；及/或提供額外資訊，該額外資訊可包括：關於一個音訊場景之邊界之資訊及/或關於一個調適集合與一個音訊場景之間的關係之資訊(例如，音訊場景編碼於囊封為三個調適集合之三個串流中)及/或關於該音訊場景之該邊界與該等多個調適集合之間的連接之資訊。

根據一態樣，該系統可經組配以：接收用於與一相鄰或鄰近環境相關聯的一場景之一串流；在偵測到兩個環境之間的一邊界之轉變時開始解碼及/或再現用於該相鄰或鄰近環境之該串流。

根據一態樣，該系統可經組配以作為經組配用於遞送視訊及/音訊串流以待在一媒體消費裝置中再現之一用戶端及一伺服器而操作。

根據一態樣，該系統可經組配以：請求及/或接收包含與至少一個第一音訊場景相關聯之至少一個音訊串流的至少一個第一調適集合；請求及/或接收包含與包括該至少一個第一音訊場景的至少兩個音訊場景相關聯之至少一個第二音訊串流的至少一個第二調適集合；以及基於關於使用者之當前視埠及/或頭部定向及/或移動資料及/或元資料及/或虛擬位置資料之可用元資料及/或描述該至少一個第一調適集合與該至少一個第一音訊場景之一關聯及/或該至少一個第二調適集合與該至少一個第一音訊場景之一關聯的資訊而啟用該至少一個第一音訊串流與該至少一個第二音訊串流至待解碼的一新音訊串流之一合併。

根據一態樣，該系統可經組配以：接收關於使用者之當前視埠及/或頭部定向及/或移動資料及/或元資料及/或虛擬位置資料之資訊及/或表徵由該使用者之動作觸發的改變之任何資訊；以及接收關於調適集合之可用性之資訊及描述至少一個調適集合與至少一個場景及/或視點及/或視埠及/或位置及/或虛擬位置及/或移動資料及/或定向之一關聯的資訊。

根據一態樣，該系統可經組配以：決定來自至少一個音訊場景的嵌入於至少一個串流中之至少一個音訊元素及來自至少一個額外音訊場景之嵌入於至少一個額外串流中的至少一個額外音訊元素是否有待再現；以及在一正決策之情況下，引起將該額外音訊場景之該至少一個額外串流合併或組成或多工或疊加或組合至該至少一個音訊場景之該至少一個串流之一操作。

根據一態樣，該系統可經組配以：至少基於該使用者之當前視埠及/或頭部定向及/或移動資料及/或元資料及/或虛擬位置資料而操縱與該等所選音訊串流相關聯的音訊元資料，以便：選擇及/或啟用及/或啟動組成決定待再現之該音訊場景的該等音訊元素；及致能所有所選音訊串流至一單一音訊串流之合併。

根據一態樣，可提供一種用於將用於一虛擬實境VR、擴增實境AR、混合實境MR或360度視訊環境之音訊及視訊串流遞送至一用戶端之伺服器，該等視訊及音訊串流待在一媒體消費裝置中再現，其中該伺服器可包含用以編碼之一編碼器及/或用以儲存視訊串流以描述一視覺環境之一儲存器，該視覺環境與一音訊場景相關聯；其中該伺服器進一步可包含用以編碼之一編碼器及/或用以儲存多個串流及/或音訊元素及/或調適集合以待遞送至該用戶端之一儲存器，該等串流及/或音訊元素及/或調適集合與至少一個音訊場景相關聯，其中該伺服器經組配以：基於來自該用戶端之一請求而選擇及遞送一視訊串流，該視訊串流與一環境相關聯；基於來自該用戶端之一請求而選擇一音訊串流及/或音訊元素及/或調適集合，該請求至少與該使用者之當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料以及與該環境相關聯之一音訊場景相關聯；以及將該音訊串流遞送至該用戶端。

根據一態樣，該等串流可囊封至調適集合中，每一調適集合包括與相同音訊內容之不同表示相關聯之處於不同位元速率及/或品質的多個串流，其中該所選調適集合係基於來自該用戶端之該請求加以選擇。

根據一態樣，該系統可作為一用戶端及該伺服器而操作。

根據一態樣，該系統可包括一伺服器。

根據一態樣，可提供一種用於一虛擬實境VR、擴增實境AR、混合實境MR或360度視訊環境之經組配以接收視訊及/音訊串流以待在一媒體消費裝置(例如，播放裝置)中再現之方法，其包含：對來自視訊串流之視訊信號進行解碼以將VR、AR、MR或360度視訊環境場景呈現給一使用者；以及對來自音訊串流之音訊信號進行解碼，從而基於該使用者之當前視埠及/或位置資料及/或頭部定向及/或移動資料及/或元資料及/或虛擬位置資料及/或元資料而向一伺服器請求及/或自該伺服器獲得至少一個音訊串流。

根據一態樣，可提供一種電腦程式，該電腦程式包含在由一處理器執行時使得該處理器執行上述方法之指令。

102:系統

104:音訊解碼器

106、106A、106B、106C、750、850:音訊串流

108:音訊信號

110:虛擬位置資料

110'、110":位置及轉變資料

112、754、854:請求

113、113':調適集合

120:伺服器/伺服器系統

140:使用者

150、1701:場景

150A:第一場景

152AB:過渡區/暫時性位置

150B:第二場景

152、152-1、152-2、152-3、152A、152B、152C、1711、1721:音訊元素

154:編碼器

160-1、160-3:視埠

180:媒體消費裝置

701、703、705、707、709、711、801、803、805、807、809:步驟

752:時刻

756、856:串流

801:視點/時刻

803:第三視點

1230:選擇部件

1234:下載及切換部件

1236:元資料處理器

1238:串流多工器/合併器//混合器/呈現器

1800:視訊串流

1804:媒體視訊解碼器

1808:視訊信號

圖1.1至圖1.8展示本發明實例。

圖2至圖6展示本發明情形。

圖7A至圖8B展示本發明方法。

較佳實施例之詳細說明

下文中(例如，圖1.1及後續各圖)揭示根據發明態樣之系統之實例。

本發明系統(其可由下文揭示之不同實例體現)之實例由102共同地指示。系統102可為例如用戶端系統，因為其可自伺服器系統(例如，120)獲得音訊及/或視訊串流以將音訊場景及/或視覺環境呈現給使用者。用戶端系統102亦可自伺服器系統120接收元資料，該元資料提供例如關於音訊及/或視訊串流之及旁側/或輔助資訊。

系統102可與向使用者實際再現音訊及/或視訊信號之媒體消費裝置(MCD)相關聯(或在一些實例中，包含該媒體消費裝置)。在一些實例中，使用者可佩戴MCD。

系統102可向伺服器系統120執行請求，該等請求與至少一個使用者之當前視埠及/或頭部定向(例如，角度定向)及/或移動資料及/或互動元資料及/或虛擬位置資料110相關聯(可提供若干量度)。視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料110可提供於自MCD至用戶端系統102之反饋中，該用戶端系統又可基於此反饋將請求提供至伺服器系統120。

在一些情況下，請求(其由112指示)可含有使用者之當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料110(或其指示或經處理版本)。基於使用者之當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料110，伺服器系統120將提供必需的音訊及/或視訊串流及/或元資料。在此情況下，伺服器系統120可能知曉使用者之位置(例如，在虛擬環境中)，且可使正確串流與使用者之位置相關聯。

在其他情況下，來自用戶端系統102之請求112可含有對特定音訊及/或視訊串流之顯式請求。在此情況下，請求112可基於使用者之當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料110。用戶端系統102知曉必須顯現給使用者之音訊及視訊信號，即使用戶端系統102尚未在其中儲存必需串流亦如此。用戶端系統102可例如定址伺服器系統120中之特定串流。

用戶端系統102可為用於虛擬實境VR、擴增實境AR、混合實境MR或360度視訊環境之經組配以接收視訊及音訊串流以待在媒體消費裝置中再現之系統，其中系統102包含：至少一個媒體視訊解碼器，其經組配以對來自視訊串流之視訊信號進行解碼以將VR、AR、MR或360度視訊環境場景呈現給一使用者，以及至少一個音訊解碼器104，其經組配以對來自至少一個音訊串流106之音訊信號108進行解碼，其中該系統102經組配以至少基於該使用者之當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料110而向一伺服器120請求112至少一個音訊串流106及/或一音訊串流之一個音訊元素及/或一個調適集合。

應注意，在VR、AR、MR環境中，使用者140可能意欲處於特定環境(例如，特定房間)中。環境描述為具有例如在伺服器側(伺服器系統120之側，其不必然包括伺服器系統120，而可包含先前已編碼了視訊串流(其此後已儲存在伺服器120之儲存器中)之不同編碼器)編碼之視訊信號。在每一時刻，在一些實例中，使用者可僅享用一些視訊信號(例如，視埠)。

一般而言，每一環境可與特定音訊場景相關聯。音訊場景可理解為待在特定時間週期內再現給特定環境中之使用者之所有聲音的集合。

傳統上，環境已理解為具有離散數目。因此，環境之數目已理解為有限的。出於相同的原因，音訊場景之數目已理解為有限的。

因此，在先前技術中，VR、AR、MR系統已經設計以使得：

- 使用者意欲在每一時間處於一個單一環境中；因此，對於每一環境：

○用戶端系統102僅向伺服器系統120請求與單一環境相關聯之視訊串流；

○用戶端系統102僅向伺服器系統120請求與單一場景相關聯之音訊串流。

此方法具有若干不便性。

舉例而言，所有音訊串流對於每一場景/環境全部一起遞送至用戶端系統102，且在使用者移動至不同環境(例如，在使用者通過門時，因此意味著環境/場景之轉變)時，需要遞送全新的音訊串流。

另外，在一些情況下已造成不自然的體驗：舉例而言，在使用者接近於牆壁(例如，虛擬房間之虛擬牆壁)時，其應體驗來自牆壁另一側之聲音。然而，此體驗對於傳統環境係不可能的：與當前場景相關聯之音訊串流集合顯然並不含有與鄰近環境/場景相關聯之任何串流。

另一方面，在音訊串流之位元速率增大時，使用者之體驗通常會得以改良。此可能進一步造成問題：位元速率愈高，伺服器系統遞送至用戶端系統102所需之酬載愈高。舉例而言，在音訊場景含有多個音訊源(作為音訊元素傳送，其中的一些接近於使用者位置，且其他遠離使用者位置)時，位置遠的聲源的可聽見度將較低。因此，以相同位元速率或品質等級遞送所有音訊元素可能導致非常高的位元速率。此意味著非高效的音訊串流遞送。若伺服器系統120以可能最高的位元速率遞送音訊串流，則造成低效遞送，因為與總體音訊場景具有低可聽見度等級或低相關性之聲音將仍然需要高位元速率，類似於較接近於使用者產生的相關聲音。因此，若以最高位元速率遞送一個場景之所有音訊串流，則伺服器系統120與用戶端系統102之間的通訊將不必要地增大酬載。若以較低位元速率遞送一個場景之所有音訊串流，則使用者之體驗將不令人滿意。

通訊問題使上文所論述之不便性加劇：在使用者通過門時，其將會瞬時改變環境/場景，此將需要伺服器系統120應瞬時地將所有串流提供至用戶端系統102。

因此，傳統上，不可能解決上文所論述之問題。

然而，利用本發明，有可能解決此等問題：用戶端系統102將請求提供至伺服器系統120，其亦可基於使用者之當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料(而不僅基於環境/場景)。因此，伺服器系統120可在每一時刻提供待在例如每一使用者之位置顯現之音訊串流。

舉例而言，若使用者從不變得接近於牆壁，則不需要用戶端系統102請求相鄰環境之串流(例如，其僅在使用者接近牆壁時才可由用戶端系統102請求)。此外，來自牆壁外部之串流可能具有減小的位元速率，因為其可能以低音量聽到。值得注意地，可藉由伺服器系統120以最高位元速率及/或最高品質等級將相關性較高的串流(例如，來自當前環境內的音訊物件之串流)遞送至用戶端系統102(由於以下事實：相關性較低的串流處於較低位元速率及或品質等級，因此留下自由頻帶用於相關性較高的串流)。

可例如藉由減小位元速率或藉由以減少需要傳輸的資料，而每音訊信號所使用的位元速率保持恆定的方式處理音訊元素來獲得較低品質等級。舉例而言，若10個音訊物件位於全部遠離使用者之不同位置，則此等物件可基於使用者位置混合為較低數目個信號：

- 在距使用者位置非常遠之位置(例如，高於第一臨界值)，物件混合為2個信號(基於其空間位置及語義，其他數目係可能的)且遞送為2個「虛擬物件」

- 在較接近於使用者位置(例如，低於第一臨界值但高於小於第一臨界值之第二臨界值)的位置處，物件混合為5個信號(基於其空間位置及語義)且遞送為5個(其他數目係可能的)「虛擬物件」

- 在極為接近於使用者位置(低於第一及第二臨界值)的位置處，10個物件遞送為以最高品質提供的10個音訊信號。

儘管為獲得最高品質，音訊信號可能全部被視為非常重要且可聽見的，但使用者可能夠個別地定位每一物件。為在較遠的位置獲得較低品質等級，音訊物件中的一些可變得相關性較低或可聽見度較低，因此使用者將無論如何都不能在空間中個別地定位音訊信號，且因此減小用於遞送此等音訊信號之品質等級將不導致使用者體驗品質之任何降低。

另一實例為在使用者跨出門時：在過渡位置(例如，在兩個不同環境/場景之間的邊界處)，伺服器系統120將提供兩個場景/環境之串流兩者，但係以較低位元速率提供。此係因為使用者將體驗到來自兩個不同環境的聲音(聲音可自最初與不同場景/環境相關聯的不同音訊串流合併在一起)，且不需要每一聲源(或音訊元素)之最高品質等級。

鑒於以上內容，本發明准許超出具有離散數目個視覺環境及音訊場景之傳統方法，而可准許不同環境/場景之漸進表示，從而向使用者給出更逼真的體驗。

下文中視為每一視覺環境(例如，虛擬環境)與一音訊場景相關聯(環境之屬性亦可為場景之屬性)。每一環境/場景可例如與幾何座標系統(其可為虛擬幾何座標系統)相關聯。環境/場景可具有邊界，以使得在使用者之位置(例如，虛擬位置)超出邊界時，到達不同環境/場景。邊界可基於所使用的座標系統。環境可包含音訊物件(音訊元素、聲源)，其可按環境/場景之一些特定座標定位。例如，關於使用者相對於音訊物件(音訊元素、聲源)之相對位置及/或定向，用戶端系統102可請求不同串流及/或伺服器系統120可提供不同串流(例如，根據距離及/或定向而以較高/較低位元速率及/或品質等級)。

更大體而言，用戶端系統102可基於串流之可聽見度及/或相關性向伺服器系統120請求及/或自其獲得不同串流(例如，相同聲音的處於不同位元速率及/或品質等級的不同表示)。可例如至少基於使用者之當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料判定可聽見度及/或相關性。

在若干實例中，有可能合併不同串流。在若干情況中，有可能組成或混合或多工或疊加或組合至少兩個場景。舉例而言，有可能使用混合器及/或呈現器(其可例如在各自對至少一個音訊串流進行解碼之多個解碼器之下游使用)，或例如在串流解碼之上游執行串流多工操作。在其他情況下，有可能對不同串流進行解碼且以不同揚聲器設定顯現該等串流。

應注意，本發明不必拒絕視覺環境及音訊場景之概念。詳言之，利用本發明，在使用者進入環境環境/場景時，可將與特定場景/環境相關聯之音訊及視訊串流自伺服器系統120遞送至用戶端系統102。儘管如此，在相同環境/場景內，可請求、定址及/或遞送不同音訊串流及/或音訊物件及/或調適集合。詳言之，有可能：

- 與視覺環境相關聯之視頻數據中的至少一些在使用者進入場景時自伺服器120遞送至用戶端102；及/或

- 音訊資料(串流、物件、調適集合...)中的至少一些僅基於當前(或未來)視埠及/或頭部定向及/或移動資料及/或元資料及/或虛擬位置及/或使用者之選擇/互動遞送至用戶端系統102；及/或

- (在一些情況下)：一些音訊資料基於當前場景(不顧及位置、當前或未來或視埠及/或頭部定向及/或移動資料及/或元資料及/或虛擬位置及/或使用者之選擇)而遞送至用戶端系統102，而其餘音訊資料基於當前或未來或視埠及/或頭部定向及/或移動資料及/或元資料及/或虛擬位置及/或使用者之選擇加以遞送。

應注意，各種元件(伺服器系統、用戶端系統、MCD等)可表示不同硬體裝置或甚至相同硬體裝置中的元件(例如，用戶端及MCD可實施為相同行動電話之部分，或類似地，用戶端可處於連接至將包含MCD之次級螢幕之PC中)。

實例

如圖1.1中所示之系統102(用戶端)之一個實施例經組配以基於在環境(例如，虛擬環境)中之所界定位置而接收(音訊)串流106，其可理解為與視訊及音訊場景(在下文中稱為場景150)相關聯。大體而言，相同場景150中之不同位置意味著不同串流106或與串流106相關聯之不同元資料將提供至系統102之音訊解碼器104(例如，自媒體伺服器120)。系統102連接至媒體消費裝置(MCD)，該系統自該媒體消費裝置接收與使用者在相同環境中之位置及/或虛擬位置相關聯之反饋。在下文中，使用者在環境中之位置可與使用者享用的特定視埠(視埠為例如預期表面，假設為在球體上投影的矩形表面，其呈現給使用者)相關聯。

在一示範性情形中，在使用者在VR、AR及/或MR場景150中移動時，音訊內容可想像為實際上係由一或多個音訊源152產生，其可能改變。音訊源152在其可係指虛擬環境中的位置的意義上可理解為虛擬音訊源：每一音訊源之顯現適於使用者位置(例如，在簡化例證中，音訊源之等級在使用者較接近於音訊源之位置時較高，且在使用者距音訊源較遠時較低)。儘管如此，每一音訊元素(音訊源)編碼於被提供至解碼器之音訊串流中。音訊串流可與場景中之各種位置及/或區域相關聯。舉例而言，在一個場景中並不可聽見的音訊源152在下一場景(例如，在打開VR、AR及/或MR場景150中的門時)中可能變得可聽見。使用者可能接著選擇進入新場景/環境150(例如，房間)，且整個音訊場景改變。出於描述此情形的目的，可利用空間中之離散視點術語，作為空間(或VR環境)中的離散位置(對於其，不同音訊內容可用)。

一般而言，媒體伺服器120可基於使用者在場景150中之位置而提供與特定場景150相關聯之串流106。串流106可由至少一個編碼器154編碼且提供至媒體伺服器120。媒體伺服器120可利用通訊113(例如，經由通訊網路)傳輸串流113。串流113之佈建可基於由系統102基於使用者(例如，在虛擬環境中)之位置110而提出的請求112。使用者之位置110亦可理解為與使用者享用的視埠(對於每一位置，存在所表示的一個單一矩形)及視點(因為視點為視埠之中心)相關聯。因此，在一些實例中，視埠之佈建可與位置之佈建相同。

如圖1.2中所示的系統102經組配以基於用戶端側的另一組配而接收(音訊)串流113。在編碼側的此實例實施中，提供多個媒體編碼器154，其可用於產生與一個視點之一個聲音場景部分相關聯的每一可用場景150之一或多個串流106。

媒體伺服器120可儲存包含不同位元速率的相同音訊及視訊串流之不同編碼的多個音訊及(圖中未示)視訊適應集合。此外，媒體伺服器可含有所有調適集合之描述性資訊，其可包括所有所產生的調適集合之可用性。調適集合亦可包括描述一個調適集合與一個特定音訊場景及/或視點之關聯。以此方式，每一調適集合可與可用音訊場景中之一者相關聯。

調適集合可另外包括描述每一音訊場景及/或視點(其可含有例如完整音訊場景或僅個別音訊物件)之邊界的資訊。一個音訊場景之邊界可界定為例如球體之幾何座標(例如，中心及半徑)。

用戶端側上之系統102可接收關於使用者之當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置之資訊或表徵由使用者之動作觸發的改變之任何資訊。此外，系統102亦可接收關於所有調適集合之可用性的資訊及描述一個調適集合與一個音訊場景及/或視點之關聯的資訊及/或描述每一音訊場景及/或視點(其可含有例如完整音訊場景或僅個別物件)之「邊界」的資訊。舉例而言，在DASH遞送環境之情況下，此類資訊可提供為媒體呈現描述(MPD)XML語法之部分。

系統102可將音訊信號提供至媒體消費裝置(MCD)用於內容消費。媒體消費裝置亦負責收集關於使用者位置及/或定向及/或移動方向之資訊(或表徵由使用者之動作觸發的改變之任何資訊)作為位置及轉變資料110。

視埠處理器1232可經組配以自媒體消費裝置側接收該位置及轉變資料110。視埠處理器1232亦可在接收端(系統102)接收關於元資料及在元資料中傳信的ROI之資訊及所有可用資訊。視埠處理器1232可接著基於自所接收及/或可用元資料接收及/或導出的所有資訊而決定其在特定時刻應再現何音訊視點。舉例而言，視埠處理器1232可決定再現一個完整音訊場景，必須自所有可用音訊場景產生一個新音訊場景108，例如，將再現來自多個音訊場景之僅一些音訊元素，而此等音訊場景之其他其餘音訊元素並不再現。視埠處理器1232亦可決定是否必須再現兩個或更多個音訊場景之間的轉變。

可提供選擇部件1230以基於自視埠處理器1232接收之資訊而自如在由接收端接收的資訊中傳信的可用調適集合中選擇一或多個調適集合；所選調適集合完整地描述應在使用者之當前位置再現的音訊場景。此音訊場景可為如在編碼側界定的一個完整音訊場景，或可能必須自所有可用音訊場景產生新音訊場景。

此外，在基於視埠處理器1232之指示將要發生兩個或更多個音訊場景之間的轉變的情況下，選擇部件可經組配以自如在由接收端接收的資訊中傳信的可用調適集合選擇一或多個調適集合；所選調適集合完整地描述可能需要在不久的將來再現的音訊場景(例如，若使用者以特定速度在下一音訊場景的方向上步行，則可預測將需要下一音訊場景，且提前選擇其進行再現)。

此外，對應於相鄰位置之一些調適集合可首先以較低位元速率及/或較低品質等級加以選擇，例如，自一個調適集合中的可用表示選擇以較低位元速率編碼的表示，且基於位置改變，藉由選擇彼等特定調適集合之較高位元速率而提高品質，例如，自一個調適集合中的可用表示中選擇以較高位元速率編碼的表示。

可提供下載及切換部件1234以基於自選擇部件接收之指示而自媒體伺服器請求可用調適集合中之一或多個調適集合，經組配以自媒體伺服器接收可用調適集合中之一或多個調適集合且自所有所接收的音訊串流提取元資料資訊。

可提供元資料處理器1236以自關於所接收音訊串流的下載及切換資訊接收資訊，該資訊可包括對應於每一所接收音訊串流之音訊元資料。元資料處理器1236亦可經組配以基於自視埠處理器1232接收的資訊(其可包括關於使用者位置及/或定向及/或移動方向110之資訊)而處理及操縱與每一音訊串流113相關聯之音訊元資料，以便選擇/啟用組成如由視埠處理器1232指示的新音訊場景所需要的音訊元素152，允許所有音訊串流113合併為單個音訊串流106。

串流多工器/合併器1238可經組配以基於自元資料處理器1236接收之資訊(其可包括對應於所有所接收音訊串流113之經修改及處理之音訊元資料)而將所有所選音訊串流合併為一個音訊串流106。

媒體解碼器104經組配以基於關於使用者位置及/或定向及/或移動方向之資訊而接收及解碼至少一個音訊串流以再現如由視埠處理器1232指示之新音訊場景。

在另一實施例中，如圖1.7中所示之系統102可經組配而以不同音訊位元速率及/或品質等級接收音訊串流106。此實施例之硬體組配類似於圖1.2之硬體組配。至少一個視覺環境場景152可與至少一個多個即N個音訊元素(N>=2)相關聯，每一音訊元素與視覺環境中的位置及/或區域相關聯。該等至少至少一個多個即N個音訊元素152係以高位元速率及/或品質等級提供於至少一個表示中，且其中該等至少至少一個多個即N個音訊元素152係以低位元速率及/或品質等級提供於至少一個表示中，其中該至少一個表示係藉由處理該等N個音訊元素152以獲得與接近於該等N個音訊元素152之該位置或區域的一位置或區域相關聯的較小數目即M個音訊元素152(M<N)而獲得。

N個音訊元素152之處理可為例如音訊信號之簡單相加或可為基於其空間位置110之有效降混或使用其空間位置將音訊信號顯現至位於音訊信號之間的新虛擬位置。該系統可經組配以在音訊元素在使用者在場景中的虛擬位置處相關性較高及/或可聽見度較高的情況下對於音訊元素以較高位元速率及/或品質等級請求該表示，其中該系統經組配以在音訊元素在使用者在場景中的當前虛擬位置處相關性較低及/或可聽見度較低的情況下對於音訊元素以較低位元速率及/或品質等級請求該表示。

圖1.8展示一系統(其可為系統102)之實例，其展示用於虛擬實境VR、擴增實境AR、混合實境MR或360度視訊環境之經組配以接收視訊串流1800及音訊串流106以待在媒體消費裝置中再現的系統102，其中系統102可包含：至少一個媒體視訊解碼器1804，其經組配以對來自視訊串流1800之視訊信號1808進行解碼以將VR、AR、MR或360度視訊環境場景呈現給一使用者，以及至少一個音訊解碼器104，其經組配以對來自至少一個音訊串流106之音訊信號108進行解碼。

系統102可經組配以至少基於該使用者之當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料110(例如，提供為來自媒體消費裝置180之反饋)而向伺服器(例如，120)請求(112)至少一個音訊串流106及/或一音訊串流之一個音訊元素及/或一個調適集合。

系統102可與圖1.1至圖1.7之系統102相同及/或獲得圖2a及後續各圖之情形。

本發明實例亦涉及一種用於一虛擬實境VR、擴增實境AR、混合實境MR或360度視訊環境之經組配以接收視訊及/音訊串流以待在一媒體消費裝置[例如，播放裝置]中再現之方法，其包含：對來自視訊串流之視訊信號進行解碼以將VR、AR、MR或360度視訊環境場景呈現給一使用者，以及對來自音訊串流之音訊信號進行解碼，基於該使用者之當前視埠及/或位置資料及/或頭部定向及/或移動資料及/或元資料及/或虛擬位置資料及/或元資料而向一伺服器請求及/或自該伺服器獲得至少一個音訊串流。

情況1

不同場景/環境150大體意味著自伺服器120接收不同串流106。然而，由音訊解碼器104接收之串流106亦可根據使用者在相同場景150中之位置加以調節。

在圖2a中展示的第一(開始)時刻(t=t₁)，使用者定位在例如場景150中，在VR環境(或AR環境或MR環境)中具有第一界定位置。在笛卡爾XYZ系統(例如，水平)中，使用者之第一視埠(位置)110'與座標x'_u及y'_u(軸線Z此處定向為離開紙面)相關聯。兩個音訊元素152-1及152-1位於此第一場景150中，音訊元素1(152-1)具有座標x'₁及y'₁且音訊元素2(152-2)具有座標x'₂及y'₂。使用者距音訊元素1(152-1)之距離d'₁小於使用者距音訊元素2之距離d'₂(152-1)。所有使用者位置(視埠)資料自MCD傳輸至系統102。

在圖2b中展示的第二例示性時刻(t=t₂)，使用者定位在例如相同場景150中，但處於第二不同位置。在笛卡爾XY系統中，使用者之第二視埠(位置)110"與新座標x"_u及y"_u(軸線Z此處定向為離開紙面)相關聯。現在，使用者距音訊元素1(152-1)之距離d"₁與使用者距音訊元素2(152-2)之距離d"₂一樣大。所有使用者位置(視埠)資料再次自MCD傳輸至系統102。

配備有用於使360度環境內的特定視埠可視化的該MCD之使用者可例如經由頭戴式耳機進行收聽。使用者可享用相同場景150之在圖2a及圖2b中描繪的不同位置的不同聲音之再現。

例如來自圖2a至圖2b的場景內之任何位置及/或任何轉變及/或視埠及/或虛擬位置及/或頭部定向及/或移動資料可週期性地作為信號110自MCD傳輸(例如，在反饋中)至系統102(用戶端)。用戶端可將位置及轉變資料110'或110"(例如，視埠資料)重新傳輸至伺服器120。用戶端102或伺服器120可基於位置及轉變資料110'或110"(例如，視埠資料)而決定需要哪些音訊串流106來再現當前使用者位置處的正確音訊場景。用戶端可能決定及傳輸對對應音訊串流106之請求112，而伺服器120可經組配以取決於由用戶端(系統102)提供之位置資訊來相應地遞送串流106。或者，伺服器120可能取決於由用戶端(系統102)提供之位置資訊來決定且相應地遞送串流106。

用戶端(系統102)可請求傳輸待解碼以呈現場景150之串流。在一些實例中，系統102可傳輸關於待在MCD上再現的最高品質等級之資訊(在其他實例中，伺服器120基於使用者在場景中之位置而決定待在MCD上再現之品質等級)。作為回應，伺服器120可選擇與待呈現之音訊場景相關聯的眾多表示中之一者，以根據使用者之位置110'或110"遞送至少一個串流106。用戶端(系統102)可因此經組配以例如經由音訊解碼器104將音訊信號108遞送至使用者，以便再現與其實際(有效)位置110'或110"相關聯的聲音。(可使用調適集合113：例如不同位元速率的相同串流之不同變體可用於使用者之不同位置。)

串流106(其可經預處理或在運作中產生)可傳輸至用戶端(系統102)，且可經組配用於與特定聲音場景相關聯的眾多視點。

已指出，可根據使用者在(例如，虛擬)環境中之特定位置(例如，110'或110")來對於不同串流106提供不同品質(例如，不同位元速率)。舉例而言：在多個音訊源152-1及152-2之情況下，每一音訊源152-1及152-2可與場景150內之一特定位置相關聯。使用者之位置110'或110'距第一音訊源152-1愈近，與第一音訊源152-2相關聯的串流之所需解析度及/或品質愈高。此例示性情況可適用於圖2a中之音訊元素1(152-1)以及圖2b中之音訊元素2(152-2)。使用者之位置110距第二音訊源152-2愈遠，與第二音訊源152-2相關聯之串流106之所需解析度愈低。此例示性情況可適用於圖2a中之音訊元素2(152-2)以及圖2b中之音訊元素1(152-1)。

實際上，首先以較高層級聽到(且因此以較高位元速率提供)接近的音訊源，而以較低層級(其可准許需要較低解析度)聽到第二遠音訊源。

因此，基於在如由用戶端102所提供之環境中的位置110'或110"，伺服器120可以不同位元速率(或其他品質)提供不同串流106。基於遠的音訊元素並不需要高品質層級的事實，即使以較低位元速率或品質等級遞送該等音訊元素，總體使用者體驗品質已得以保持。

因此，不同品質等級可用於不同使用者之位置處的一些音訊元素，同時保持體驗品質。

在無此解決方案的情況下，所有串流106應由伺服器120以最高位元速率提供至用戶端，其將增大自伺服器120至用戶端之通訊頻道中的酬載。

情況2

圖3(情況2)展示另一例示性情形(在空間XYZ之豎直平面XZ中呈現，其中軸線Y表示為進入紙面)之實施例，其中使用者在第一VR、AR及/或MR場景A(150A)中移動，打開門且走過去(過渡區150AB)，從而意味著音訊自時間t₁的一個場景150A經由時間t₂的暫時性位置(150AB)轉變至時間t₃的下一(第二)場景B(150B)。

在時間點t₁，使用者可在第一VR、及/或MR場景之X方向上處於位置x₁。在時間點t₃，使用者可在位置x₃處位於不同的第二VR、AR及/或MR場景B(150B)中。在時刻t₂，使用者可處於過渡位置150AB，此時其正打開門(例如，虛擬門)並走過去。過渡區因此意味著音訊資訊自第一場景150A轉變至第二場景150B。

在此上下文中，使用者正將其位置110例如自第一VR環境(其特徵在於第一視點(A)，如圖1.1中所示)改變至第二VR環境(其特徵在於第二視點(B)，如圖1.1中所示)。在一特定情況下，例如在經由在X方向上位於位置x₂處的門轉變期間，一些音訊元素152A及152B可存在於兩個視點(位置A及B)處。

使用者(配備有MCD)正朝向門改變其位置110(x₁-x₃)，其可意味著在過渡位置x₂，音訊元素屬於第一場景150A及第二場景150B兩者。MCD將新位置及轉變資料110傳輸至用戶端，該用戶端將其重新傳輸至媒體伺服器120。可使得使用者能夠收聽由第一位置x₁與第二位置x₃之間的中間位置x₂界定的適當音訊源。

自第一位置(x₁)至第二位置(x₃)之任何位置及任何轉變現在週期性地(例如，連續地)自MCD傳輸至用戶端。用戶端102可將位置及轉變資料110(x₁-x₃)重新傳輸至媒體伺服器120，該媒體伺服器經組配以取決於所接收的位置及轉變資料110(x₁-x₃)而相應地遞送例如呈實際調適集合113'之形式的新經預處理串流106的集合之一個專用項目。

媒體伺服器120可選擇與前述資訊相關聯的眾多表示中之一者，該資訊不僅關於MCD顯示最高位元速率之能力而且關於使用者在其自一個位置移動至另一位置期間的位置及轉變資料110(x₁-x₃)。(在此上下文中，有可能使用調適集合：媒體伺服器120可決定哪一調適集合113'最佳地表示使用者之虛擬轉變，而不干擾MCD之顯現能力。)

媒體伺服器120因此可根據位置之轉變而遞送專用串流106(例如，作為新調適集合113')。用戶端102可經組配以例如經由媒體音訊解碼器104相應地將音訊信號108遞送至使用者140。

串流106(在運作中產生及/或經預處理)可週期性地(例如，連續地)在實際調適集合113'中傳輸至用戶端102。

在使用者步行經過門時，伺服器120可傳輸第一場景150A之串流106及第二場景150B之串流106兩者。此係為了同時混合或多工或構成或再現此等串流106，以向使用者給出真實印象。因此，基於使用者之位置110(例如，「對應於門之位置」)，伺服器120將不同串流106傳輸至用戶端。

甚至在此情況下，在同時聽到不同串流106時，其可具有不同解析度，且可以不同解析度自伺服器120傳輸至用戶端。在使用者已完成轉變且處於第二(位置)場景150A(且已在身後關上門)時，將有可能使伺服器120減少或制止傳輸第一場景150之串流106(在伺服器120已經向用戶端102提供串流的情況下，用戶端102可決定不使用該等串流)。

情況3

圖4(情況3)展示另一例示性情形(在空間XYZ之豎直平面XZ中呈現，其中軸線Y表示為進入紙面)之實施例，其中使用者在VR、及/或MR場景150A中移動，意味著音訊自時間t₁的一個第一位置轉變至時間t₂的亦在第一場景150A中的第二位置。處於第一位置的使用者可在時間t₁遠離牆壁，距牆壁距離d₁；且可在時間t₂接近於牆壁，距牆壁距離d₂。此處，d₁>d₂。儘管在距離d₁，使用者僅聽場景150A之源152A，但其亦可聽到超出牆壁的場景150B之源152B。

在使用者處於第二位置(d₂)時，用戶端102將關於使用者之位置110(d₂)的資料發送至伺服器120，且自伺服器120接收第一場景150A之音訊串流106以及第二場景150B之音訊串流106。舉例而言，基於由伺服器120提供之元資料，用戶端102將使得例如經由解碼器104以低音量再現第二場景150B(超出牆壁)之串流106。

甚至在此情況下，第二場景150B之串流106之位元速率(品質)亦可為低的，因此需要減小自伺服器120至用戶端之傳輸酬載。值得注意地，用戶端(及/或視埠)之位置110(d₁，d₂)界定由伺服器120提供之音訊串流106。

舉例而言，系統102可經組配以獲得與相關聯於第一當前環境之第一當前場景(150A)相關聯的串流，且在使用者之位置或虛擬位置距場景之邊界(例如，對應於牆壁)的距離低於預定臨界值的情況下(例如，在d₂<d_threshold時)，系統102進一步獲得與相關聯於第二場景(150B)的第二鄰近及/或相鄰環境相關聯的音訊串流。

情況4

圖5a及圖5b展示另一例示性情形(呈現在空間XYZ之水平面XY中，其中軸線Z表示為退出紙面)之實施例，其中使用者定位於同一個VR、AR及/或MR場景150中，但在不同時刻距例如兩個音訊元素距離不同。

在圖5a中所示之第一時刻t=t₁，使用者例如定位於第一位置。在此第一位置，第一音訊元素1(152-1)及第二音訊元素2(152-2)位於(例如，虛擬地)距配備有MCD的使用者距離d₁及相應d₂處。距離d₁及d₂兩者在此情況下皆可大於界定臨界距離d_threshold，且因此系統102經組配以將兩個音訊元素分組為一個單一虛擬源152-3。可基於例如原始的兩個源之位置計算單一虛擬源之位置及特性(例如，空間範圍)，計算方式為其儘可能良好地模仿由兩個源產生的原始聲場(例如，兩個定位良好的點源可在其間距離之中間再現為單一源)。使用者位置資料110(d₁，d₂)可自MCD傳輸至系統102(用戶端)且隨後傳輸至伺服器120，該伺服器可決定發送適當音訊串流106以待由伺服器系統120顯現(在其他實施例中，用戶端102決定自伺服器120傳輸哪些串流)。藉由將兩個音訊元素分組為一個單一虛擬源152-3，伺服器120可選擇與前述資訊相關聯的眾多表示中之一者。(舉例而言，有可能相應地遞送因此與例如一個單一聲道相關聯的調適集合113'的專用串流106。)因此，使用者可經由MCD接收如自定位於真實音訊元素1(152-1)與2(152-2)之間的單一虛擬音訊元素152-3傳輸的音訊信號。

在圖5b中所示的第二時刻t=t₂，使用者例如定位在相同場景150中，在與圖5a中相同的VR環境中具有第二界定位置。在此第二位置，兩個音訊元素152-1及152-2位於(例如，虛擬地)距使用者距離d₃及相應d₄處。距離d₃及d₄兩者皆可小於臨界距離d_threshold，且因此不再使用音訊元素152-1及152-2至一個單一虛擬源152-3之分組。使用者位置資料自MCD傳輸至系統102且隨後傳輸至伺服器120，該伺服器可決定發送另一適當音訊串流106以待由系統伺服器120顯現(在其他實施例中，此決策由用戶端102作出)。藉由避免對音訊元素進行分組，伺服器120可選擇與前述資訊相關聯的不同表示，以相應地遞送具有因此與每一音訊元素的不同聲道相關聯的調適集合113'的專用串流106。因此，使用者可經由MCD接收如自兩個不同音訊元素1(152-1)及2(152-2)傳輸的音訊信號108。因此，使用者之位置110距音訊源1(152-1)及2(152-2)愈近，必須選擇的與音訊源相關聯的串流之所需品質等級愈高。

實際上，音訊源1(152-1)及2(152-2)相對於使用者定位得愈近，如圖5b中所描繪，則必須調整的等級愈高，且因此音訊信號108可以較高品質等級顯現。相比之下，必須以較低層級聽到在圖5b中呈現的位置較遠的音訊源1及2(如由單一虛擬源再現)，因此例如以較低品質等級顯現。

以類似組配，眾多音訊元素可位於使用者前部，其全部定位於大於距使用者之臨界距離的距離處。在一個實施例中，每個群組具有五個音訊元素的兩個群組可在兩個虛擬源中組合。使用者位置資料自MCD傳輸至系統102且隨後傳輸至伺服器120，該伺服器可決定發送適當音訊串流106以待由系統伺服器120顯現。藉由將所有10個音訊元素分組為僅兩個單一虛擬源，伺服器120可選擇與前述資訊相關聯的眾多表示中之一者以相應地遞送具有因此與例如兩個單一音訊元素相關聯的調適集合113'的專用串流106。因此，使用者可經由MCD接收如自定位於與真實音訊元素相同的定位區域中的兩個相異虛擬音訊元素傳輸的音訊信號。

在一後續時刻，使用者接近該等眾多(十個)音訊元素。在此後續場景中，所有音訊元素位於小於臨界距離d_threshold之距離處，且因此系統102經組配以終止音訊元素之分組。新使用者位置資料自MCD傳輸至系統102且隨後傳輸至伺服器120，該伺服器可決定發送另一適當音訊串流106以待由伺服器系統120顯現。藉由不對音訊元素進行分組，伺服器120可選擇與前述資訊相關聯的不同表示以相應地遞送具有因此與每一音訊元素的不同聲道相關聯的調適集合113'之專用串流106。因此，使用者可經由MCD接收如自十個不同音訊元素傳輸的音訊信號。因此，使用者距音訊源之位置110愈近，則必須選擇的與音訊源相關聯的串流之所需解析度愈高。

情況5

圖6(情況5)描繪位於一個單一場景150之一個位置的佩戴媒體消費者裝置(MCD)的使用者140，該媒體消費者裝置可指向例示性三個不同方向(各自與不同視埠160-1、160-2、160-3相關聯)。如圖6中所示的此等方向在極性座標系統及/或笛卡爾XY系統中具有的定向(例如，角度定向)可指向以例如180⁰位於圖6之底部部分中的第一視點801、以例如90⁰位於圖6之右側上的第二視點802及以例如0⁰位於圖6之上半部分中的第三視點803。此等視點中的每一者與佩戴媒體消費者裝置(MCD)的使用者140之定向相關聯，使用者定位於由MCD顯示的特定視埠所提供的中心中，所述MCD根據MCD之定向顯現對應音訊信號108。

在此特定VR環境中，第一音訊元素s1(152)位於例如以180⁰定位的視點之鄰域中的第一視埠160-1中，且第二音訊元素s2(152)位於例如以180⁰定位的視點之鄰域中的第三視埠160-3中。在改變其定向之前，使用者140在朝向視點801(視埠160-1)的第一定向上體驗的來自音訊元素s1的與其實際(有效)位置相關聯的聲音比來自音訊元素s2的聲音大。

藉由改變其定向，使用者140在朝向視點802的第二定向上體驗到的與其實際位置110相關聯的聲音可具有與來自兩個音訊元素s1及s2的側面幾乎相同的響度。

最終，藉由改變其定向，使用者140在朝向視點801(視埠160-3)的第三定向上體驗到的與音訊元素2相關聯的聲音可比與音訊元素s1相關聯的聲音大(實際上，來自音訊元素2的聲音係自前方到達，而來自音訊元素1之聲音係自後方到達)。

不同視埠及/或定向及/或虛擬位置資料可因此與不同位元速率及/或品質相關聯。

其他情況及實例

圖7A展示用於由系統接收音訊串流之方法之一實施例，其呈圖中的操作步驟序列之形式。在任何時刻，系統102之使用者與其當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置相關聯。在特定時刻，系統可在圖7a之步驟701中基於當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置而判定待再現之音訊元素。因此，在下一步驟703中，可判定每一音訊元素之相關性及可聽見度等級。如上文在圖6中所描述，VR環境可具有位於特定場景150中之不同音訊元素，其處於使用者之鄰域中或較遠，而且在360度環繞中具有特定定向。所有此等因素判定該音訊元素中的每一者之相關性及可聽見度等級。

在下一步驟705中，系統102可根據對於音訊元素中的每一者判定的相關性及可聽見度等級而向媒體伺服器120請求音訊串流。

在下一步驟707中，系統102可接收由媒體伺服器120 相應地準備之音訊串流113，其中具有不同位元速率之串流可反映如在前述步驟中判定的相關性及可聽見度等級。

在下一步驟709中，系統102(例如，音訊解碼器)可對所接收的音訊串流113進行解碼，以使得在步驟711處，根據當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置再現(例如，藉由MCD)特定場景150。

圖7B描繪媒體伺服器120與系統102之間根據前述操作圖之序列進行的互動。在特定時刻，媒體伺服器可根據前述場景150之相關音訊元素之前述判定的較低相關性及可聽見度等級而以較低位元速率傳輸音訊串流750。該系統可在後續時刻752判定互動或位置資料改變發生。此類互動可例如來自相同場景150中的位置資料之改變或例如在使用者試圖進入由門拉手提供的門與第一場景分離的第二場景時啟動門拉手。

當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置之改變可導致系統102將請求754發送至媒體伺服器120。此請求可反映對於該後續場景150判定的相關音訊元素之較高相關性及可聽見度等級。作為對請求754之回應，媒體伺服器可以較高位元速率傳輸串流756，從而使得系統102能夠在任何當前使用者之虛擬位置處合理且逼真地再現場景150。

圖8A展示用於由系統接收音訊串流之方法之另一實施例，其亦呈圖中的操作步驟序列形式。在特定時刻801，可執行對第一當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置之判定。藉由推斷肯定情況，可由系統102在步驟803處準備並傳輸以低位元速率界定的與第一位置相關聯的串流之請求。

可在後續時刻執行具有三個不同結果的判定步驟805。一個或兩個所界定臨界值可在此步驟處相關以判定例如關於後續視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置之預測性決策。因此可關於改變為第二位置之機率執行與第一及/或第二臨界值之比較，從而導致例如三個不同後續步驟有待執行。

在結果反映例如極低機率(例如，與上文與第一預定臨界值之比較相關聯)的情況下，將執行新比較步驟801。

在結果反映低機率(例如，高於第一預定臨界值，但在實例中低於高於第一臨界值的第二預定臨界值)的情況下，可導致在步驟809處以低位元速率請求音訊串流113。

在結果反映高機率(例如，高於第二預定臨界值)的情況下，在步驟807處，可執行以高位元速率對音訊串流113之請求。將在執行步驟807或809之後執行的後續步驟因此可能再次為判定步驟801。

圖8B描繪媒體伺服器120與系統102之間根據前述操作圖序列中之僅一者進行的互動。在特定時刻，媒體伺服器可根據前述場景150之音訊元素之前述判定的低相關性及可聽見度等級而以低位元速率傳輸音訊串流850。該系統可在後續時刻852判定將預測性地發生互動。當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置之預測性改變可導致系統102將適當請求854發送至媒體伺服器120。此請求可反映上述情況中關於到達根據相應後續場景150需要的音訊元素之可聽見度等級而與高位元速率相關聯的第二位置之高機率之一個情況。作為回應，媒體伺服器可以較高位元速率傳輸串流856，從而使得系統102能夠在使用者之任何當前虛擬位置合理且逼真地再現場景150。

如圖1.3中所示的系統102經組配以基於用戶端側的另一組配接收音訊串流113，其中系統架構可基於使用多個音訊解碼器1320、1322的解決方案使用離散視點。在用戶端側，系統102可例如體現圖1.2中描述的系統之部分，其另外或替代地包含多個音訊解碼器1320、1322，該等音訊解碼器可經組配以對如由元資料處理器1236指示的個別音訊串流進行解碼(例如，數個音訊元素被撤銷啟動)。

混合器/呈現器1238可設置於系統102中，經組配以基於關於使用者位置及/或定向及/或移動方向之資訊而再現最終音訊場景，即，例如，應停用或不顯現在該特定位置並不可聽見的音訊元素中的一些。

圖1.4、圖1.5及圖1.6中所示的以下實施例係基於具有靈活調適集合的離散視點的獨立調適集合。在使用者在VR環境中移動的情況下，音訊場景可能以連續方式改變。為確保良好音訊體驗，組成特定時刻的音訊場景的所有音訊元素可能已使得可為媒體解碼器所用，該媒體解碼器可利用位置資訊用於產生最終音訊場景。

若對於數個預定義位置對內容進行了預編碼，則系統可在此等特定位置提供音訊場景之準確再現(假設此等音訊場景並不重疊，且使用者可自一個位置「跳轉/切換」至下一位置)。

但在使用者自一個位置「步行」至下一位置的情況下，來自兩個(或更多個)音訊場景之音訊元素在同一時間皆可聽見。在先前系統實例中提供了對於此使用情況的解決方案，其中獨立於經提供用於對多個音訊串流進行解碼(使用多工器與單一媒體解碼器或多個媒體解碼器與額外混合器/呈現器)之機制，描述完整音訊場景之音訊串流必須提供至用戶端。

以下藉由引入多個音訊串流之間的共同音訊元素之概念來提供最佳化。

態樣及實例之論述

解決方案1：用於離散位置(視點)之獨立調適集合。

解決所描述問題之一種方式為對於每一位置使用完整的獨立調適集合。為較佳地理解解決方案，使用圖1.1作為一實例情形。在此實例中，三個不同離散視點(包含三個不同音訊場景)用於產生使用者應能夠移動至的完整VR環境。因此：

●在數個音訊串流中編碼若干獨立或重疊的音訊場景。對於每一音訊場景，可取決於使用情況使用一個主串流，一個主串流及額外輔助串流(例如，含有不同語言之一些音訊物件可編碼於獨立串流中以高效地遞送)。在所提供的實例中，音訊場景A編碼於兩個串流(A1及A2)中，音訊場景B編碼於三個串流(B1、B2及B3)中，而音訊場景C編碼於三個串流(C1、C2及C3)中。應注意，音訊場景A與音訊場景B共享數個共同元素(在此實例中，兩個音訊物件)。由於每一場景必須完整且獨立(以獨立地再現於例如非VR播放裝置上)，因此對於每一場景必須將共同元素編碼兩次。

●所有音訊串流以不同位元速率(即不同表示)編碼，其允許取決於網路連接之高效位元速率調適(即，對於使用高速度連接之使用者，遞送高位元速率寫碼版本，而對於具有較低速度網路連接之使用者，遞送較低位元速率版本)。

●音訊串流儲存於媒體伺服器上，其中對於每一音訊串流，不同位元速率之不同編碼(即，不同表示)分組於一個調適集合中，其中適當資料以信號表示所有所產生的調適集合之可用性。

●除了調適集合之外，媒體伺服器亦接收關於每一音訊場景之位置「邊界」及其與每一調適集合(其可含有例如完整音訊場景或僅個別物件)之關係之資訊。以此方式，每一調適集合可與可用音訊場景中之一者相關聯。一個音訊場景之邊界可例如界定為球體之幾何座標(例如，中心及半徑)。

○每一調適集合亦含有關於聲音場景或音訊元素正起作用的位置之描述性資訊。舉例而言，若一個輔助串流含有一個或若干個物件，則調適集合可能含有諸如物件可聽見的位置(例如，球體中心及半徑之座標)之資訊。

●媒體伺服器將關於與每一調適集合相關聯的位置「邊界」之資訊提供至用戶端，例如DASH用戶端。舉例而言，在DASH遞送環境之情況下，此可嵌入於媒體呈現描述(MPD)XML語法中。

●用戶端接收關於使用者位置及/或定向及/或移動方向之資訊(或表徵由使用者之動作觸發的改變之任何資訊)。

●用戶端接收關於每一調適集合之資訊，且基於此及使用者位置及/或定向及/或移動方向(或表徵由使用者之動作觸發的改變之任何資訊，例如包含x，y，z座標及/或痛苦、俯仰、橫搖值)，用戶端選擇完整地描述應在使用者之當前位置再現的音訊場景之一或多個調適集合。

●用戶端請求該一或多個調適集合。

○此外，用戶端可選擇完整地描述多於一個音訊場景之更多調適集合，且使用對應於多於一個音訊場景之音訊串流來產生應在使用者之當前位置再現的新音訊場景。舉例而言，若使用者在VR環境中步行，且在某時刻位於其間(或位於兩個音訊場景具有可聽見效果的地點處的定位)。

○一旦音訊串流可用，多個媒體解碼器便可用以對個別音訊串流進行解碼，且額外混合器/呈現器1238基於關於使用者位置及/或定向及/或移動方向之資訊再現最終音訊場景(即，舉例而言，應停用或不顯現在該特定位置並不可聽見的音訊元素中的一些)。

○或者，元資料處理器1236可用以基於關於使用者位置及/或定向及/或移動方向之資訊操縱與所有音訊串流相關聯之音訊元資料，以便：

■選擇/啟用組成新音訊場景所需的音訊元素152；

■且允許將所有音訊串流合併為單個音訊串流。

●媒體伺服器遞送所需要的調適集合。

●或者，用戶端將關於使用者定位之資訊提供至媒體伺服器，且媒體伺服器提供關於所需要的調適集合之指示。

圖1.2展示此類系統之另一實例實施，其包含：

●在編碼側

○多個媒體編碼器，其可用於對於與一個視點之一個聲音場景部分相關聯的每一可用音訊場景產生一或多個音訊串流

○多個媒體編碼器，其可用於對於與一個視點之一個視訊場景部分相關聯的每一可用視訊場景產生一或多個視訊串流。在圖中為簡單起見未呈現視訊編碼器。

○媒體伺服器，其儲存多個音訊及視訊適應集合，包含以不同位元速率對相同音訊及視訊串流之不同編碼(即，不同表示)。此外，媒體伺服器含有所有調適集合之描述性資訊，其可包括

■所有所產生的調適集合之可用性；

■描述一個調適集合與一個音訊場景及/或視點之關聯的資訊；以此方式，每一調適集合可與可用音訊場景中之一者相關聯；

■描述每一音訊場景及/或視點(其可含有例如完整音訊場景或僅個別物件)之「邊界」的資訊。一個音訊場景之邊界可例如界定為球體之幾何座標(例如，中心及半徑)。

●在用戶端側，系統(用戶端系統)，其可包含以下中之任一者：

○接收端，其可接收：

■關於使用者位置及/或定向及/或移動方向之資訊(或表徵由使用者之動作觸發的改變之任何資訊)

■關於所有調適集合之可用性的資訊及描述一個調適集合與一個音訊場景及/或視點之關聯的資訊；及/或描述每一音訊場景及/或視點(其可含有例如完整音訊場景或僅個別物件)之「邊界」的資訊。舉例而言，在DASH遞送環境之情況下，此類資訊可提供為媒體呈現描述(MPD)XML語法之部分。

○用於內容消費(例如，基於HMD)之媒體消費裝置側。媒體消費裝置亦負責收集關於使用者位置及/或定向及/或移動方向之資訊(或表徵由使用者之動作觸發的改變之任何資訊)。

○視埠處理器1232，其可經組配以

■自媒體消費裝置側接收關於可能含有使用者位置及/或定向及/或移動方向之當前視埠的資訊(或表徵由使用者之動作觸發的改變之任何資訊)。

■接收關於元資料及在元資料中傳信的ROI之資訊(如以OMAF規範傳信的視訊視埠)。

■接收在接收端處可用的所有資訊；

■基於自所接收及/或可用元資料接收及/或導出的所有資訊而決定其在特定時刻應再現何音訊視點。舉例而言，視埠處理器1232可決定：

●再現一個完整音訊場景

●必須自所有可用音訊場景產生一個新音訊場景(例如，將再現來自多個音訊場景之僅一些音訊元素，而此等音訊場景之其他其餘音訊元素並不再現)

●必須再現兩個或更多個音訊場景之間的過渡區

○選擇部件1230經組配以基於自視埠處理器1232接收之資訊而自如在由接收端接收的資訊中傳信的可用調適集合中選擇一或多個調適集合；所選調適集合完整地描述應在使用者之當前位置再現的音訊場景。此音訊場景可為如在編碼側界定的一個完整音訊場景，或必須自所有可用音訊場景產生新音訊場景。

■此外，在基於視埠處理器1232之指示將要發生兩個或更多個音訊場景之間的轉變的情況下，選擇部件1230可經組配以自如在由接收端接收的資訊中傳信的可用調適集合選擇一或多個調適集合；所選調適集合完整地描述可能需要在不久的將來再現的音訊場景(例如，若使用者以特定速度在下一音訊場景的方向上步行，則可預測將需要下一音訊場景，且提前選擇其進行再現)。

■此外，對應於相鄰位置之一些調適集合可首先以較低位元速率及/或較低品質等級加以選擇(即，自一個調適集合中的可用表示選擇以較低位元速率編碼的表示)，且基於位置改變，藉由選擇彼等特定調適集合之較高位元速率而提高品質(即，自一個調適集合中的可用表示中選擇以較高位元速率編碼的表示)。

○下載及切換部件，其可組配以：

■基於自選擇部件1230接收之指示而自媒體伺服器120請求可用調適集合中之一或多個調適集合；

■自媒體伺服器120接收可用調適集合中之一或多個調適集合(即，每一調適集合內可用的所有表示中之一個表示)；

■自所有所接收的音訊串流提取元資料資訊

○元資料處理器1236，其可經組配以：

■自關於所接收音訊串流的下載及切換資訊接收資訊，該資訊可包括對應於每一所接收音訊串流之音訊元資料

■基於自視埠處理器1232接收的資訊(其可包括關於使用者位置及/或定向及/或移動方向之資訊)而處理及操縱與每一音訊串流相關聯之音訊元資料，以便：

●選擇/啟用組成如由視埠處理器1232指示的新音訊場景所需要的音訊元素152；

●允許所有音訊串流合併為單個音訊串流。

○串流多工器/合併器1238，其可經組配以基於自元資料處理器1236接收之資訊(其可包括對應於所有所接收音訊串流之經修改及處理之音訊元資料)而將所有所選音訊串流合併為一個音訊串流

○媒體解碼器，其經組配以基於關於使用者位置及/或定向及/或移動方向之資訊而接收及解碼至少一個音訊串流以再現如由視埠處理器1232指示之新音訊場景。

圖1.3展示一系統，其在用戶端側包含可例如體現在圖1.2中描述的系統之部分的系統(用戶端系統)，該系統另外或替代地包含：多個媒體解碼器，其可經組配以對如由元資料處理器1236指示之個別音訊串流進行解碼(例如數個音訊元素被撤銷啟動)。

●混合器/呈現器1238，其可經組配以基於關於使用者位置及/或定向及/或移動方向之資訊而再現最終音訊場景(即，例如，應停用或不顯現在該特定位置並不可聽見的音訊元素中的一些)。

解決方案2

圖1.4、圖1.5及圖1.6涉及根據本發明的解決方案2之實例(其可為圖1.1及/或圖1.2及/或圖1.3之實例的實施例)：具有靈活調適集合的離散位置(視點)的獨立調適集合。

在使用者在VR環境中移動的情況下，音訊場景150可能以連續方式改變。為確保良好音訊體驗，組成特定時刻的音訊場景150的所有音訊元素152可能已使得可為媒體解碼器所用，該媒體解碼器可利用位置資訊用於產生最終音訊場景。

但在使用者自一個位置「步行」至下一位置的情況下，來自兩個(或更多個)音訊場景150之音訊元素152在同一時間皆可聽見。在先前系統實例中提供了對於此使用情況的解決方案，其中獨立於經提供用於對多個音訊串流進行解碼(使用多工器與單一媒體解碼器或多個媒體解碼器與額外混合器/呈現器1238)之機制，描述完整音訊場景150之音訊串流必須提供至用戶端/系統102。

以下藉由引入多個音訊串流之間的共同音訊元素152之概念來提供最佳化。

圖1.4展示不同場景共享至少一個音訊元素(音訊物件、聲源...)之實例。因此，用戶端102可接收例如僅與一個場景A相關聯(例如，與使用者當前處於的環境相關聯)且與物件152A相關聯的一個主串流106A以及由不同場景B共享且與物件152B相關聯的一個輔助串流106B(例如，位於使用者當前處於的場景A與共享物件152B的相鄰或鄰近串流B之間的邊界中的串流)。

因此，如圖1.4中所示：

●在數個音訊串流中編碼若干獨立或重疊的音訊場景。音訊串流106係以如下方式產生：

○對於每一音訊場景150，可藉由僅含有音訊元素152作為相應音訊場景之部分而不含任何其他音訊場景之部分來產生一個主串流；及/或

○對於共享音訊元素152的所有音訊場景150，共同音訊元素152可僅編碼於僅與音訊場景中之一者及指示產生與其他音訊場景之關聯的適當元資料資訊相關聯的輔助音訊串流中。或換言之，額外元資料指示一些音訊串流可與多個音訊場景一起使用之可能性；及/或

○取決於使用情況，可產生額外輔助串流(例如，含有不同語言之一些音訊物件可編碼於獨立串流中以高效地遞送)。

○在所提供的實施例中：

■音訊場景A編碼於以下中：

●主音訊串流(A1、106A)，

●輔助音訊串流(A2、106B)

●元資料資訊，其可指示來自音訊場景A之一些音訊元素152B並不編碼於此等音訊串流A中，而編碼於屬於不同音訊場景(音訊場景B)之輔助串流A2(106B)中

■音訊場景B編碼於以下中：

●主音訊串流(B1、106C)，

●輔助音訊串流(B2)，

●輔助音訊串流(B3)，

●元資料資訊，其可指示來自音訊串流B2之音訊元素152B為亦屬於音訊場景A之共同音訊元素152B。

■音訊場景C編碼於三個串流(C1、C2及C3)中。

●音訊串流106(106A、106B、106C…)可以不同位元速率(即不同表示)編碼，其允許例如取決於網路連接之高效位元速率調適 (即，對於使用高速度連接之使用者，遞送高位元速率寫碼版本，而對於具有較低速度網路連接之使用者，遞送較低位元速率版本)。

●音訊串流106儲存於媒體伺服器120上，其中對於每一音訊串流，不同位元速率之不同編碼(即，不同表示)分組於一個調適集合中，其中適當資料以信號表示所有所產生的調適集合之可用性。(串流之多個表示與相同音訊信號相關聯，但可在相同調適集合中以不同位元速率及/或品質及/或解析度存在。)

●除了調適集合之外，媒體伺服器120亦接收關於每一音訊場景之位置「邊界」及其與每一調適集合(其可含有例如完整音訊場景或僅個別物件)之關係之資訊。以此方式，每一調適集合可與可用音訊場景150中之一者相關聯。一個音訊場景之邊界可例如界定為球體之幾何座標(例如，中心及半徑)。

○每一調適集合亦含有關於聲音場景或音訊元素152正起作用的位置之描述性資訊。舉例而言，若一個輔助串流(例如，A2、106B)含有一個或若干個物件，則調適集合可能含有諸如物件可聽見的位置(例如，球體中心及半徑之座標)之資訊。

○另外或替代地，每一調適集合(例如，與場景B相關聯之調適集合)可含有可指示來自一個音訊場景(例如，B)之音訊元素(例如，152B)(亦或另外)編碼於屬於不同音訊場景(例如，A)之音訊串流(例如，106B)中的描述性資訊(例如，元資料)。

●媒體伺服器120可將關於與每一調適集合相關聯的位置「邊界」之資訊提供至系統102(用戶端)，例如DASH用戶端。舉例而言，在DASH遞送環境之情況下，此可嵌入於媒體呈現描述 (MPD)XML語法中。

●系統102(用戶端)可接收關於使用者位置及/或定向及/或移動方向之資訊(或表徵由使用者之動作觸發的改變之任何資訊)。

●系統102(用戶端)可接收關於每一調適集合之資訊，且基於此及/或使用者位置及/或定向及/或移動方向(或表徵由使用者之動作觸發的改變之任何資訊，例如包含x，y，z座標及/或痛苦、俯仰、橫搖值)，系統102(用戶端)可選擇完整地或部分地描述應在使用者140之當前位置再現的音訊場景150之一或多個調適集合。

●系統102(用戶端)可請求一或多個調適集合：

○此外，系統102(用戶端)可選擇完整地或部分地描述多於一個音訊場景150之更多調適集合，且使用對應於多於一個音訊場景150之音訊串流106來產生應在使用者140之當前位置再現的新音訊場景150。

○基於指示音訊元素152為多個音訊場景150之部分的元資料，可僅請求一次共同音訊元素152以產生新音訊場景，而非請求其兩次，對於每一完整音訊場景請求一次。

○一旦音訊串流可用於用戶端系統102，在實例中，一或多個媒體解碼器(104)便可用以對個別音訊串流進行解碼，及/或額外混合器/呈現器基於關於使用者位置及/或定向及/或移動方向之資訊再現最終音訊場景(即，舉例而言，應停用或不顯現在該特定位置並不可聽見的音訊元素中的一些)。

○替代地或另外，元資料處理器可用以基於關於使用者位置及/或定向及/或移動方向之資訊操縱與所有音訊串流相關聯之音訊元資料，以便：

■選擇/啟用組成新音訊場景之所需音訊元素152(152A至152c)；及/或

■且允許將所有音訊串流合併為單個音訊串流。

●媒體伺服器120可遞送所需要的調適集合。

●或者，系統102(用戶端)將關於使用者140定位之資訊提供至媒體伺服器120，且媒體伺服器提供關於所需要的調適集合之指示。

圖1.5展示此類系統之另一實例實施，其包含：

●在編碼側

○多個媒體編碼器154，其可用於自與一個視點之一個聲音場景部分相關聯的一或多個可用場景150產生嵌入音訊元素152一或多個音訊串流106。

■對於每一音訊場景150，可藉由僅含有音訊元素152作為相應音訊場景150之部分而不含任何其他音訊場景之部分來產生一個主串流

■可對於相同音訊場景產生額外輔助串流(例如，含有不同語言之一些音訊物件可編碼於獨立串流中以高效地遞送)。

■可產生額外輔助串流，其含有：

●多於一個音訊場景150共同之音訊元素152

●指示此輔助串流與共享共同音訊元素152之所有其他音訊場景150之關聯的元資料資訊。或換言之，元資料指示一些音訊串流可與多個音訊場景一起使用的可能性。

○可用於對於與一個視點之一個視訊場景部分相關聯的每一可用視訊場景產生一或多個視訊串流之多個媒體編碼器。在圖中為簡單起見未呈現視訊編碼器。

○媒體伺服器120，其儲存多個音訊及視訊適應集合，包含以不同位元速率對相同音訊及視訊串流之不同編碼(即，不同表示)。此外，媒體伺服器120含有所有調適集合之描述性資訊，其可包括

■所有所產生的調適集合之可用性；

■指示一個調適集合與共享至少一個共同音訊元素之多於一個音訊場景之關聯的資訊。

○接收端，其可接收：

■關於所有調適集合之可用性之資訊及描述一個調適集合與一個音訊場景及/或視點之關聯的資訊；及/或描述每一音訊場景及/或視點(其可含有例如完整音訊場景或僅個別物件)之「邊界」的資訊。舉例而言，在DASH遞送環境之情況下，此類資訊可提供為媒體呈現描述(MPD)XML語法之部分。

○視埠處理器1232，其可經組配以

■接收在接收端處可用的所有資訊；

●再現一個完整音訊場景

●必須再現兩個或更多個音訊場景之間的過渡區

○選擇部件1230經組配以基於自視埠處理器1232接收之資訊而自如在由接收端接收的資訊中傳信的可用調適集合中選擇一或多個調適集合；所選調適集合完整地描述應在使用者之當前位置再現的音訊場景。此音訊場景可為如在編碼側界定的一個完整或部分完整的音訊場景，或必須自所有可用音訊場景產生新音訊場景。

■此外，在音訊元素152屬於多於一個音訊場景的情況下，基於指示至少一個調適集合與含有相同音訊元素152的多於一個音訊場景之關聯的資訊而選擇至少一個調適集合。

■此外，對應於相鄰位置之一些調適集合可首先以較低位元速率及/或較低品質等級加以選擇(即，自一個調適集合中的可用表示選擇以較低位元速率編碼的表示)，且基於位置改變，藉由選擇彼等特定調適集合之較高位元速率而提高品質(即，自一個調適集合中的可用表示中選擇以較高位元速率編碼的表示)。

○下載及切換部件，其可組配以：

■自所有所接收的音訊串流提取元資料資訊

○元資料處理器1236，其可經組配以：

●允許所有音訊串流合併為單個音訊串流。

圖1.6展示一系統，其在用戶端側包含可例如體現在圖5中描述的系統之部分的系統(用戶端系統)，該系統另外或替代地包含：多個媒體解碼器，其可經組配以對如由元資料處理器1236指示之個別音訊串流進行解碼(例如數個音訊元素被撤銷啟動)。

更新檔案格式以播放檔案

對於檔案格式使用情況，多個主及輔助串流可作為單獨的播放軌囊封為單一檔案。此類檔案之單一播放軌將表示如前文所提及的單一音訊元素。由於不存在含有正確播出所必需的資訊的MPD可用，因此需要例如藉由在播放軌及電影等級上提供/引入一或多個特定檔案格式邏輯框來提供關於檔案格式等級之資訊。取決於使用情況，存在允許經囊封音訊場景之正確顯現所必需的不同資訊，然而以下資訊集合為基本的，且因此應始終存在：

●關於所包括的音訊場景(例如，「位置邊界」)之資訊

●關於所有可用音訊元素，尤其是關於哪一音訊元素囊封於哪一播放軌中，之資訊

●關於經囊封音訊元素之位置的資訊

●屬於一個音訊場景之所有音訊元素之清單，一音訊元素可屬於多個音訊場景

利用此資訊，所有所提及的使用情況(包括具有額外元資料處理器及共享編碼之使用情況)亦應在基於檔案之環境中起作用。

關於以上實例之進一步考慮

在實例(例如，圖1.1至圖6中之至少一者)中，至少一個場景可與至少一個音訊元素(音訊源152)相關聯，每一音訊元素與該音訊元素可聽見之視覺環境中之位置及/或區域相關聯，以使得對於在該場景中之不同使用者位置及/或視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料，將不同音訊串流自伺服器系統120提供至用戶端系統102。

在實例中，用戶端系統102可經組配以決定對於使用者在該場景中之當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置是否再現一音訊串流(例如，A1、a2)之至少一個音訊元素152及/或一個調適集合，其中該系統102經組配以請求及/或接收該使用者的當前虛擬位置處之該至少一個音訊元素。

在實例中，用戶端系統(例如，102)可經組配以至少基於該使用者之當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料(110)來預測性地決定一音訊串流之至少一個音訊元素(152)及/或一個調適集合是否將變得相關及/或可聽見，且其中該系統經組配以在特定使用者在該場景中之預測移動及/或互動之前請求及/或接收該使用者的虛擬位置處之該至少一個音訊元素及/或音訊串流及/或調適集合，其中該系統經組配以在該使用者在該場景中移動及/或互動之後在該特定使用者的虛擬位置處再現接收到的該至少一個音訊元素及/或音訊串流。參見例如上文之圖8A及圖8B。在一些實例中，系統102或120之該等操作中的至少一者可基於預測性及/或統計及/或聚集資料加以執行。

在實例中，用戶端系統(例如，102)可經組配以在一使用者在該場景中移動及/或互動之前以一較低位元速率及/或品質等級請求及/或接收該使用者的虛擬位置處的至少一個音訊元素(例如，152)，其中該系統經組配以在該使用者在該場景中移動及/或互動之後以一較高位元速率及/或品質等級請求及/或接收該使用者的虛擬位置處的該至少一個音訊元素。參見例如圖7B。

在實例中，至少一個音訊元素可與至少一個場景相關聯，至少一個音訊元素與相關聯於該場景的視覺環境中之一位置及/或區域相關聯，其中該系統經組配以基於音訊元素在每一使用者在該場景中之虛擬位置處的相關性及/或可聽見度等級而對於音訊元素以不同位元速率及/或品質等級請求不同串流，其中該系統經組配以對於在該使用者的當前虛擬位置處相關性較高及/或可聽見度較高的音訊元素以較高位元速率及/或品質等級請求一音訊串流，及/或對於在該使用者的當前虛擬位置處相關性較低及/或可聽見度較低的音訊元素以較低位元速率及/或品質等級請求一音訊串流。大體參見圖7A。亦參見圖2A及圖2B(其中相關性較高的及/或可聽見源可較接近於使用者)、圖3(其中相關性較高的及/或可聽見源為使用者處於位置x₁時的場景150a之源，且相關性較高的及/或可聽見源為使用者處於位置x₃時的場景150b之源)、圖4(其中，在時刻t₂，相關性較高的及/或可聽見源可為第一場景之彼等源)、圖6(其中可聽見度較高之源可為由使用者在前方檢視的彼等源)。

在實例中，至少一個音訊元素(152)與一場景相關聯，每一音訊元素與相關聯於該場景的該視覺環境中之一位置及/或區域相關聯，其中用戶端系統102經組配以週期性地將該使用者之當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料(110)發送至伺服器系統120，以使得：對於較接近於至少一個音訊元素(152)之位置，自該伺服器提供較高位元速率及/或品質之一串流，且對於距至少一個音訊元素(152)較遠之位置，自該伺服器提供較低位元速率及/或品質之一串流。參見例如圖2a及圖2b。

在實例中，可對於諸如鄰近及/或相鄰環境之多個視覺環境界定多個場景(例如，150A、150B)，以使得提供與一第一當前場景(例如，150A)相關聯之第一串流，且在使用者轉變(150AB)至一第二其他場景(例如，150B)之情況下，提供與該第一場景相關聯之該等串流及與該第二場景相關聯之第二串流兩者。參見例如圖3。

在實例中，可對於一第一視覺環境及一第二視覺環境界定多個場景，該第一環境與該第二環境為鄰近及/或相鄰環境，其中在該使用者之位置或虛擬位置處於與該第一場景相關聯之一第一環境中的情況下，自該伺服器提供與該第一場景相關聯之第一串流以再現該第一場景，在該使用者之位置或虛擬位置處於與該第二場景相關聯之一第二環境中的情況下，自該伺服器提供與該第二場景相關聯之第二串流以再現該第二場景，且在該使用者之位置或虛擬位置處於該第一場景與該第二場景之間的一過渡位置的情況下，提供與該第一場景相關聯之第一串流及與該第二場景相關聯之第二串流兩者。參見例如圖3。

在實例中，在該使用者處於與該第一場景相關聯的該第一環境中時以一較高位元速率及/或品質獲得與該第一場景相關聯的該等第一串流，而在該使用者處於自該第一場景至該第二場景之一過渡位置的開始時以一較低位元速率及/或品質獲得與相關聯於該第二環境的該第二場景相關聯的該等第二串流，且在該使用者處於自該第一場景至該第二場景之一過渡位置的末端時以一較低位元速率及/或品質獲得與該第一場景相關聯的該等第一串流且以一較高位元速率及/或品質獲得與該第二場景相關聯的該等第二串流。此可為例如圖3的情況。

在實例中，對於多個視覺環境(例如，鄰近環境)界定多個場景(例如，150A，150B)，以使得系統102可以一較高位元速率及/或品質請求及/或獲得與當前場景相關聯之串流且以一較低位元速率及/或品質請求及/或獲得與該第二場景相關聯之串流。參見例如圖4。

在實例中，界定多個即N個音訊元素，且在使用者距此等音訊元素之位置或區域之距離大於一預定臨界值的情況下，處理該等N個音訊元素以獲得與接近於該等N個音訊元素之該位置或區域的一位置或區域相關聯的較小數目即M個音訊元素(M<N)，以便在該使用者距該等N個音訊元素之該位置或區域之距離小於一預定臨界值的情況下向該系統提供與該等N個音訊元素相關聯之至少一個音訊串流，或在該使用者距該等N個音訊元素之該位置或區域之距離大於一預定臨界值的情況下向該系統提供與該等M個音訊元素相關聯的至少一個音訊串流。參見例如圖1.7。

在實例中，至少一個視覺環境場景與至少一個多個即N個音訊元素(N>=2)相關聯，每一音訊元素與該視覺環境中之一位置及/或區域相關聯，其中該等至少至少一個多個即N個音訊元素係以高位元速率及/或品質等級提供於至少一個表示中，且其中該等至少至少一個多個即N個音訊元素係以低位元速率及/或品質等級提供於至少一個表示中，其中該至少一個表示係藉由處理該等N個音訊元素以獲得與接近於該等N個音訊元素之該位置或區域的一位置或區域相關聯的較小數目即M個音訊元素(M<N)而獲得，其中該系統經組配以在該等音訊元素在該使用者在該場景中之當前虛擬位置處相關性較高及/或可聽見度較高的情況下對於該等音訊元素以較高位元速率及/或品質等級請求該表示，其中該系統經組配以在該等音訊元素在該使用者在該場景中之當前虛擬位置處相關性較低及/或可聽見度較低的情況下對於該等音訊元素以較低位元速率及/或品質等級請求該表示。參見例如圖1.7。

在實例中，在使用者之距離及/或相關性及/或可聽見度等級及/或角度定向低於預定臨界值的情況下，對於不同音訊元素獲得不同串流。參見例如圖1.7。

在實例中，在不同視埠處提供不同音訊元素，以使得在一個第一音訊元素落在當前視埠內的情況下較之於不落在該視埠內的一第二音訊元素以一較高位元速率獲得第一音訊元素。參見例如圖6。

在實例中，界定至少兩個視覺環境場景，其中至少一個第一音訊元素及第二音訊元素與相關聯於一第一視覺環境的一第一場景相關聯，且至少一個第三音訊元素與相關聯於一第二視覺環境的一第二場景相關聯，其中系統102經組配以獲得描述該至少一個第二音訊元素額外與該第二視覺環境場景相關聯之元資料，且其中該系統經組配以在該使用者之虛擬位置處於該第一視覺環境中的情況下請求及/或接收該等至少第一音訊元素及第二音訊元素，且其中該系統經組配以在該使用者的虛擬位置處於該第二視覺環境場景中的情況下請求及/或接收該等至少第二音訊元素及第三音訊元素，且其中該系統經組配以在該使用者的虛擬位置處於該第一視覺環境場景與該第二視覺環境場景之間的過渡區中的情況下請求及/或接收該等至少第一音訊元素及第二音訊元素及第三音訊元素。參見例如圖1.4。此亦可適用於圖3。

在實例中，至少一個第一音訊元素可提供於至少一個音訊串流及/或調適集合中，且該至少一個第二音訊元素提供於至少一個第二音訊串流及/或調適集合中，且該至少一個第三音訊元素提供於至少一個第三音訊串流及/或調適集合中，且其中該至少第一視覺環境場景藉由元資料描述為需要該等至少第一及第二音訊串流及/或調適集合之一完整場景，且其中該第二視覺環境場景藉由元資料描述為需要與該至少第一視覺環境場景相關聯的該至少第三音訊串流及/或調適集合及該至少第二音訊串流及/或調適集合之一不完整場景，其中該系統包含一元資料處理器，該元資料處理器經組配以操縱該元資料，以在該使用者的虛擬位置處於該第二視覺環境中的情況下允許將屬於該第一視覺環境之該第二音訊串流與相關聯於該第二視覺環境之該第三音訊串流合併為一新的單一串流。參見例如圖1.2至圖1.3、圖1.5及圖1.6。

在實例中，系統102可包含一元資料處理器(例如，1236)，該元資料處理器經組配以基於使用者之當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料而操縱在至少一個音訊解碼器之前的至少一個音訊串流中之該元資料。

在實例中，元資料處理器(例如，1236)可經組配以基於使用者之當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料而啟用及/或停用在該至少一個音訊解碼器之前的至少一個音訊串流中之至少一個音訊元素，其中該元資料處理器可經組配以在該系統決定由於一當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料而將不再再現該音訊元素的情況下停用在該至少一個音訊解碼器之前的至少一個音訊串流中之至少一個音訊元素，且其中該元資料處理器可經組配以在該系統決定由於一使用者的當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料而將再現該音訊元素的情況下啟用在該至少一個音訊解碼器之前的至少一個音訊串流中之至少一個音訊元素。

伺服器側

上文亦涉及一種用於將用於虛擬實境VR、擴增實境AR、混合實境MR或360度視訊環境之音訊及視訊串流遞送至一用戶端之伺服器(120)，該等視訊及音訊串流待在一媒體消費裝置中再現，其中該伺服器(120)包含用以編碼之一編碼器及/或用以儲存視訊串流以描述一視覺環境之一儲存器，該視覺環境與一音訊場景相關聯；其中該伺服器進一步包含用以編碼之一編碼器及/或用以儲存多個串流及/或音訊元素及/或調適集合以待遞送至該用戶端之一儲存器，該等串流及/或音訊元素及/或調適集合與至少一個音訊場景相關聯，其中該伺服器經組配以：基於來自該用戶端之一請求而選擇及遞送一視訊串流，該視訊串流與一環境相關聯；基於來自該用戶端之一請求而選擇一音訊串流及/或音訊元素及/或調適集合，該請求至少與該使用者之當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料以及與該環境相關聯之一音訊場景相關聯；以及將該音訊串流遞送至該用戶端。

其他實施例及變體

取決於特定實施要求，實例可以硬體實施。可使用數字儲存媒體執行該實施，例如軟碟、數位多功能光碟(DVD)、藍光光碟、緊密光碟(CD)、唯讀記憶體(ROM)、可規劃唯讀記憶體(PROM)、可擦除及可規劃唯讀記憶體(EPROM)、電可擦除可規劃唯讀記憶體(EEPROM)或快閃記憶體，其上儲存有電子可讀控制信號，其與可規劃電腦系統協作(或能夠協作)使得執行相應方法。因此，數位儲存媒體可為電腦可讀的。

通常，實例可實施為具有程式指令之電腦程式產品，當電腦程式產品執行於電腦上時，程式指令操作性地用於執行該等方法中之一者。程式指令可例如儲存於機器可讀媒體上。

其他實例包含用於執行本文所描述之方法中之一者、儲存於機器可讀載體上之電腦程式。換言之，方法之實例因此為電腦程式，其具有用於在電腦程式於電腦上執行時執行本文中所描述之方法中之一者的程式指令。

方法之另一實例因此為資料載體媒體(或數位儲存媒體，或電腦可讀媒體)，其上包含、記錄用於執行本文所描述之方法中之一者的電腦程式。資料載體媒體、數位儲存媒體或記錄媒體為有形及/或非瞬變的，而非無形及暫時性的信號。

另一實例包含處理單元，例如電腦或可規劃邏輯裝置，其執行本文所描述之方法中之一者。

另一實例包含電腦，其上安裝有用於執行本文中所描述之方法中之一者的電腦程式。

另一實例包含將用於執行本文所描述之方法中之一者的電腦程式傳送(例如以電子方式或以光學方式)至接收器之設備或系統。舉例而言，接收器可為電腦、行動裝置、記憶體裝置或其類似者。設備或系統可例如包含用於將電腦程式傳送至接收器之檔案伺服器。

在一些實例中，可規劃邏輯裝置(例如，場可規劃閘陣列)可用以執行本文中所描述之方法的功能性中之一些或全部。在一些實例中，場可規劃閘陣列可與微處理器協作，以便執行本文中所描述之方法中的一者。通常，該等方法可由任何適當的硬體設備執行。

上述實例說明上文所論述的原理。應理解，本文中所描述的配置及細節之修改及變化將為顯而易見的。因此，希望受到接下來的申請專利範圍之範圍限制，而不受藉由本文中之實例之描述及解釋所呈現的特定細節限制。

102‧‧‧系統

104‧‧‧音訊解碼器

106‧‧‧音訊串流

108‧‧‧音訊信號

110‧‧‧虛擬位置資料

112‧‧‧請求

120‧‧‧伺服器/伺服器系統

140‧‧‧使用者

180‧‧‧媒體消費裝置

1800‧‧‧視訊串流

1804‧‧‧媒體視訊解碼器

1808‧‧‧視訊信號

Claims

一種用於虛擬實境(VR)、擴增實境(AR)、混合實境(MR)或360度視訊環境之系統，其組配來接收要在一媒體消費裝置中再現之視訊及音訊串流，其中該系統包含：至少一個媒體視訊解碼器，其組配來從視訊串流解碼出視訊信號，以供將VR、AR、MR或360度視訊環境呈現給一使用者，以及至少一個音訊解碼器，其組配來從音訊串流解碼出音訊信號，以供呈現音訊場景，其中該系統組配來至少基於該使用者之當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料，而向一伺服器請求第一音訊串流與第二音訊串流及/或一音訊串流之一個音訊元素及/或一個調適集合，以及其中該等第一音訊串流中之第一音訊元素較該等第二音訊串流中之第二音訊元素更為相關及/或更可聽見，其中該等第一音訊串流係以較該等第二音訊串流之位元速率更高的一較高位元速率來請求及/或接收。
一種用於虛擬實境(VR)、擴增實境(AR)、混合實境(MR)或360度視訊環境之系統，其組配來接收要在一媒體消費裝置中再現之視訊及音訊串流，其中該系統包含：至少一個媒體視訊解碼器，其組配來從視訊串流解碼出視訊信號，以供將VR、AR、MR或360度視訊環境呈現給一使用者，以及至少一個音訊解碼器，其組配來從至少一音訊串流解碼出音訊信號，以供呈現一音訊場景，其中該系統組配來至少基於該使用者之當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料，而向一伺服器請求至少一個音訊串流，以及其中該系統組配來基於該使用者之位置相距關聯於不同音訊場景之相鄰及/或鄰近視訊環境之邊界的一距離，來控制向該伺服器所作該至少一個音訊串流之請求。
如請求項1之系統，其組配來向該伺服器提供該使用者之當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料，以便自該伺服器獲得該至少一個音訊串流及/或一音訊串流之一個音訊元素及/或一個調適集合。
如請求項1之系統，其中有至少一個音訊場景與至少一個音訊元素相關聯，每一音訊元素與該音訊元素為可聽見之該視訊環境中之一位置及/或區域相關聯，以使得對於不同使用者的位置及/或視埠及/或頭部定向及/或移動資料及/或互動元資料及/或在一音訊場景中之虛擬位置資料提供不同音訊串流。
如請求項1之系統，其組配來決定對於當前該使用者之視埠及/或頭部定向及/或移動資料及/或互動元資料及/或在一音訊場景中之虛擬位置是否要再現一音訊串流之至少一個音訊元素及/或一個調適集合，且其中該系統組配來在當前該使用者的虛擬位置處請求及/或接收該至少一個音訊元素。
如請求項1之系統，其中該系統組配來至少基於該使用者之當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料，來預測性地決定一音訊串流之至少一個音訊元素及/或一個調適集合是否將變得相關及/或可聽見，其中該系統組配來請求及/或接收在一特定使用者於預測的使用者移動及/或互動之前在一音訊場景中的虛擬位置處之該至少一個音訊元素及/或音訊串流及/或調適集合，且其中該系統組配來在該特定使用者於該使用者的移動及/或互動之後在一音訊場景中的虛擬位置處再現接收到的該至少一個音訊元素及/或音訊串流。
如請求項1之系統，其組配來在該使用者在其互動之前的虛擬位置處，以一較低位元速率請求及/或接收該至少一個音訊元素，該互動係源自於相同音訊場景中之位置資料改變或進入與當前場景分隔開的下一個場景，其中該系統組配來在該使用者於其互動之後在一音訊場景中的虛擬位置處，以一較高位元速率請求及/或接收該至少一個音訊元素。
如請求項1之系統，其中與至少一個音訊場景相關聯之至少一個音訊元素，係關聯到與一音訊場景相關聯的該視訊環境中之一位置及/或區域，其中該系統組配來較之於距該使用者較遠的音訊元素，對於較接近於該使用者之音訊元素以較高位元速率請求及/或接收串流。
如請求項1之系統，其中至少一個音訊元素與至少一個音訊場景相關聯，該至少一個音訊元素與相關聯於一音訊場景的該視訊環境中之一位置及/或區域相關聯，其中該系統組配來基於音訊元素在每一使用者在一音訊場景中之虛擬位置處的相關性及/或可聽見度等級，而對於音訊元素以不同位元速率請求不同串流，其中該系統組配來對於在當前該使用者的虛擬位置處相關性較高及/或可聽見度較高的音訊元素，以較高位元速率請求一音訊串流，及/或對於在當前該使用者的虛擬位置處相關性較低及/或可聽見度較低的音訊元素，以較低位元速率請求一音訊串流。
如請求項4之系統，其中至少一個音訊元素與一音訊場景相關聯，每一音訊元素與相關聯於一音訊場景的該視訊環境中之一位置及/或區域相關聯，其中該系統組配來週期性地將該使用者之當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料發送至該伺服器，使得：對於一第一位置，自該伺服器提供較高位元速率之一串流，且對於一第二位置，自該伺服器提供較低位元速率之一串流，其中該第一位置較之於該第二位置更接近於該至少一個音訊元素之位置。
如請求項1之系統，其中對於諸如鄰近及/或相鄰視訊環境之多個視訊環境界定多個音訊場景，使得提供與一第一當前音訊場景相關聯之第一串流，且在使用者轉變至一第二其他音訊場景之情況下，提供與該第一音訊場景相關聯之該等音訊串流及與該第二音訊場景相關聯之第二串流兩者。
如請求項1之系統，其中對於一第一視訊環境及一第二視訊環境界定多個音訊場景，該第一視訊環境與該第二視訊環境為鄰近及/或相鄰視訊環境，其中在該使用者之位置或虛擬位置處於與該第一音訊場景相關聯之一第一視訊環境中的情況下，自該伺服器提供與該第一音訊場景相關聯之第一串流，以供再現該第一音訊場景，在該使用者之位置或虛擬位置處於與該第二音訊場景相關聯之一第二視訊環境中的情況下，自該伺服器提供與該第二音訊場景相關聯之第二串流，以供再現該第二音訊場景，且在該使用者之位置或虛擬位置處於該第一音訊場景與該第二音訊場景之間的一過渡位置的情況下，提供與該第一音訊場景相關聯之第一串流及與該第二音訊場景相關聯之第二串流兩者。
如請求項1之系統，其中對於為鄰近及/或相鄰環境之一第一視訊環境及一第二視訊環境界定多個音訊場景，其中該系統組配來在該使用者之虛擬位置處於該第一環境中的情況下，請求及/或接收與相關聯於該第一環境的一第一音訊場景相關聯的第一串流，以供再現該第一音訊場景，其中該系統組配來在該使用者之虛擬位置處於該第二環境中的情況下，請求及/或接收與相關聯於該第二環境的該第二音訊場景相關聯的第二串流，以供再現該第二音訊場景，且其中該系統組配來在該使用者之虛擬位置處於該第一環境與該第二環境之間的一過渡位置的情況下，請求及/或接收與該第一音訊場景相關聯之第一串流及與該第二音訊場景相關聯之第二串流兩者。
如請求項11之系統，其中：在該使用者處於與該第一音訊場景相關聯的該第一環境中時，以一較高位元速率獲得與該第一音訊場景相關聯的該等第一串流，而在該使用者處於自該第一音訊場景至該第二音訊場景之一過渡位置的開始時，以一較低位元速率獲得與相關聯於該第二環境的該第二音訊場景相關聯的該等第二串流，且在該使用者處於自該第一音訊場景至該第二音訊場景之一過渡位置的末端時，以一較低位元速率獲得與該第一音訊場景相關聯的該等第一串流，且以一較高位元速率獲得與該第二音訊場景相關聯的該等第二串流，其中該較低位元速率低於該較高位元速率。
如請求項1之系統，其中對於諸如鄰近及/或相鄰環境之多個環境界定多個音訊場景，使得該系統組配來獲得與相關聯於一第一當前環境之一第一當前音訊場景相關聯的該等音訊串流，且在該使用者之位置或虛擬位置距該場景的距離低於一預定臨界值的情況下，該系統進一步獲得與相關聯於一第二音訊場景之一第二鄰近及/或相鄰環境相關聯的音訊串流。
如請求項1之系統，其中對於多個視訊環境界定多個音訊場景，使得該系統以一較高位元速率請求及/或獲得與一當前音訊場景相關聯之該等音訊串流，且以一較低位元速率請求及/或獲得與該第二音訊場景相關聯之該等音訊串流，其中該較低位元速率低於該較高位元速率。
如請求項1之系統，其中界定有多個即N個音訊元素，且在該使用者距此等音訊元素之位置或區域之距離大於一預定臨界值的情況下，該等N個音訊元素被處理來獲得與接近於該等N個音訊元素之該位置或區域的一位置或區域相關聯的較小數目即M個音訊元素，以便：在該使用者距該等N個音訊元素之該位置或區域之距離小於一預定臨界值的情況下，向該系統提供與該等N個音訊元素相關聯之至少一個音訊串流，或在該使用者距該等N個音訊元素之該位置或區域之距離大於一預定臨界值的情況下，向該系統提供與該等M個音訊元素相關聯的至少一個音訊串流。
如請求項1之系統，其中至少一個視訊環境與至少一個多個即N個音訊元素相關聯，每一音訊元素與該視訊環境中之一位置及/或區域相關聯，其中該等至少至少一個多個即N個音訊元素係以高位元速率提供於至少一個呈現型態中，且其中該等至少至少一個多個即N個音訊元素係以低位元速率提供於至少一個呈現型態中，其中該至少一個呈現型態係藉由處理該等N個音訊元素以獲得與接近於該等N個音訊元素之該位置或區域的一位置或區域相關聯的較小數目M個音訊元素而獲得，其中該系統組配來在該等音訊元素在當前該使用者在一音訊場景中之虛擬位置處相關性較高及/或可聽見度較高的情況下，對於該等音訊元素以較高位元速率請求該呈現型態，其中該系統組配來在該等音訊元素在當前該使用者在一音訊場景中之虛擬位置處相關性較低及/或可聽見度較低的情況下，對於該等音訊元素以較低位元速率請求該呈現型態。
如請求項17之系統，其中，在該使用者之距離低於一預定距離臨界值、或該相關性低於一預定相關性臨界值、或該可聽見度等級低於一預定距離臨界值、低於一預定臨界值的情況下，對於不同音訊元素獲得不同音訊串流。
如請求項1之系統，其組配來基於在一音訊場景中的該使用者之定向及/或使用者之移動方向及/或使用者之互動來請求及/或獲得該等音訊串流。
如請求項1之系統，其中該視埠與該位置及/或虛擬位置及/或移動資料及/或頭部定向相關聯。
如請求項1之系統，其中在不同視埠處提供不同音訊元素，其中該系統組配來在一個第一音訊元素落在一視埠內的情況下，較之於不落在該視埠內的一第二音訊元素以一較高位元速率請求及/或接收該第一音訊元素。
如請求項1之系統，其組配來請求及/或接收第一音訊串流及第二音訊串流，其中該等第一音訊串流中之該等第一音訊元素比該等第二音訊串流中之該等第二音訊元素相關性更高及/或可聽見度更高，其中該等第一音訊串流係以比該等第二音訊串流之該位元速率高之一較高位元速率請求及/或接收。
如請求項1之系統，其中界定至少兩個視覺環境場景，其中至少一個第一音訊元素及第二音訊元素與相關聯於一第一視訊環境的一第一音訊場景相關聯，且至少一個第三音訊元素與相關聯於一第二視訊環境的一第二音訊場景相關聯，其中該系統組配來獲得描述該至少一個第二音訊元素額外與該第二視訊環境相關聯之互動元資料，其中該系統組配來在該使用者之虛擬位置處於該第一視訊環境中的情況下，請求及/或接收該等至少一個第一音訊元素及第二音訊元素，其中該系統組配來在該使用者的虛擬位置處於該第二視訊環境中的情況下，請求及/或接收該等至少一個第二音訊元素及第三音訊元素，且其中該系統組配來在該使用者的虛擬位置處於該第一視訊環境與該第二視訊環境之間的過渡區中的情況下，請求及/或接收該等至少一個第一音訊元素及第二音訊元素及第三音訊元素。
如請求項24之系統，其中該至少一個第一音訊元素提供於至少一個音訊串流及/或調適集合中，且該至少一個第二音訊元素提供於至少一個第二音訊串流及/或調適集合中，且該至少一個第三音訊元素提供於至少一個第三音訊串流及/或調適集合中，且其中該至少一個第一視訊環境藉由互動元資料描述為需要該等至少一個第一及第二音訊串流及/或調適集合之一音訊場景，且其中該第二視訊環境藉由互動元資料描述為需要該至少一個第三音訊串流及/或調適集合及與該至少一個第一視訊環境相關聯的該至少一個第二音訊串流及/或調適集合之一音訊場景，其中該系統包含一元資料處理器，該元資料處理器組配來操縱該互動元資料，以在該使用者的虛擬位置處於該第二視訊環境中的情況下，將屬於該第一視訊環境之該第二音訊串流與相關聯於該第二視訊環境之該第三音訊串流合併為一新的單一串流。
如請求項1之系統，其中該系統包含一元資料處理器，該元資料處理器組配來基於使用者之當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料，來在該至少一個音訊解碼器之前操縱至少一個音訊串流中之元資料。
如請求項26之系統，其中該元資料處理器組配來基於使用者之當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料，來在該至少一個音訊解碼器之前啟用及/或停用至少一個音訊串流中之至少一個音訊元素，其中該元資料處理器組配來在該系統決定由於一當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料而將不再再現該音訊元素的情況下，在該至少一個音訊解碼器之前停用至少一個音訊串流中之至少一個音訊元素，且其中該元資料處理器組配來在該系統決定由於一使用者的當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料而將要再現該音訊元素的情況下，在該至少一個音訊解碼器之前啟用至少一個音訊串流中之至少一個音訊元素。
如請求項1之系統，其組配來停用對基於該使用者之當前視埠及/或頭部定向及/或移動資料及/或元資料及/或虛擬位置而選擇的音訊元素之該解碼。
如請求項1之系統，其組配來將與一當前音訊場景相關聯之至少一個第一音訊串流合併至與一相鄰、鄰近及/或未來音訊場景相關聯之至少一個串流。
如請求項1之系統，其組配來獲得及/或收集關於該使用者之當前視埠及/或頭部定向及/或移動資料及/或元資料及/或虛擬位置資料之統計或聚集資料，以便將與該統計或聚集資料相關聯之該請求傳輸至該伺服器。
如請求項1之系統，其組配來基於與至少一個串流相關聯之元資料，且基於該使用者之當前視埠及/或頭部定向及/或移動資料及/或元資料及/或虛擬位置資料，來撤銷啟動該至少一個串流之該解碼及/或再現。
如請求項1之系統，其進一步組配來：至少基於該使用者之當前或估計視埠及/或頭部定向及/或移動資料及/或元資料及/或虛擬位置資料，來操縱與所選音訊串流之一群組相關聯的元資料，以便：選擇及/或啟動組成待再現之一音訊場景的音訊元素；及/或將所有所選音訊串流合併至一單一音訊串流。
如請求項1之系統，其中針對每一音訊元素或音訊物件自伺服器提供資訊，其中該資訊包括關於一音訊場景或該等音訊元素正起作用的位置之描述性資訊。
如請求項1之系統，其組配來基於該當前或未來或視埠及/或頭部定向及/或移動資料及/或元資料及/或虛擬位置及/或一使用者之選擇，而在再現一個音訊場景與組成、或混合、或多工、或疊加、或組合至少兩個音訊場景之間進行選擇，該等兩個音訊場景與不同相鄰及/或鄰近環境相關聯。
如請求項1之系統，其組配來產生或使用至少該等調適集合，以使得：數個調適集合與一個音訊場景相關聯；及/或提供使每一調適集合與一個視點或一個音訊場景相關之額外資訊；及/或提供包括下列項目之額外資訊：關於一個音訊場景之該等邊界之資訊及/或關於一個調適集合與一個音訊場景之間的關係之資訊(例如，音訊場景編碼於囊封入三個調適集合之三個串流中)及/或關於一音訊場景之該等邊界與該等多個調適集合之間的連接之資訊。
如請求項1之系統，其配置來：接收用於與一相鄰或鄰近環境相關聯的一音訊場景之一串流；在檢測到兩個環境之間的一邊界之過渡轉變時，開始解碼及/或再現用於該相鄰或鄰近環境之該音訊串流。
如請求項1之系統，其中該系統進一步組配來：請求及/或接收包含與至少一個第一音訊場景相關聯之至少一個音訊串流的至少一個第一調適集合；請求及/或接收包含與包括該至少一個第一音訊場景的至少兩個音訊場景相關聯之至少一個第二音訊串流的至少一個第二調適集合；以及基於關於使用者之當前視埠及/或頭部定向及/或移動資料及/或元資料及/或虛擬位置資料之可用元資料及/或描述該至少一個第一調適集合與該至少一個第一音訊場景之一關聯及/或該至少一個第二調適集合與該至少一個第一音訊場景之一關聯的資訊，而合併該至少一個第一音訊串流與該至少一個第二音訊串流至待解碼的一新音訊串流。
如請求項1之系統，其組配來：接收關於使用者之當前視埠及/或頭部定向及/或移動資料及/或元資料及/或虛擬位置資料之資訊及/或表徵由該使用者之動作觸發的改變之任何資訊；以及接收關於調適集合之可用性之資訊及描述至少一個調適集合與至少一個音訊場景及/或視點及/或視埠及/或位置及/或虛擬位置及/或移動資料及/或定向之一關聯的資訊。
如請求項1之系統，其組配來：決定來自至少一個音訊場景的嵌入於至少一個音訊串流中之至少一個音訊元素及來自至少一個額外音訊場景之嵌入於至少一個額外音訊串流中的至少一個額外音訊元素是否有待再現；以及在一正向決定之情況下，引起將該額外音訊場景之該至少一個額外串流合併、或組成、或多工、或疊加、或組合至該至少一個音訊場景之該至少一個串流之一操作。
如請求項1之系統，其經組配來：至少基於該使用者之當前視埠及/或頭部定向及/或移動資料及/或元資料及/或虛擬位置資料，來操縱與所選音訊串流相關聯的音訊元資料，以便：選擇及/或啟用及/或啟動組成決定要再現之一音訊場景的該等音訊元素；及致能所有所選音訊串流合併至一單一音訊串流之動作。
一種用於遞送音訊及視訊串流之系統，該等音訊及視訊串流要在一媒體消費裝置中再現，該系統包含組配來運作為一用戶端的如請求項1之系統、及一伺服器，該伺服器組配來用於遞送要在該媒體消費裝置中再現的視訊及/音訊串流。
一種虛擬實境伺服器，用於將用於一虛擬實境(VR)、擴增實境(AR)、混合實境(MR)或360度視訊環境之音訊及視訊串流遞送至一用戶端，該等視訊及音訊串流要在一媒體消費裝置中再現，其中該伺服器包含用以編碼用於描述一視訊環境的視訊串流之一編碼器及/或用以儲存該等視訊串流之一儲存器，該視訊環境與一音訊場景相關聯；其中該伺服器進一步包含用以編碼待遞送至該用戶端的多個串流及/或音訊元素及/或調適集合之一編碼器及/或用以儲存該等串流及/或音訊元素及/或調適集合之一儲存器，該等音訊串流及/或音訊元素及/或調適集合與至少一個音訊場景相關聯，其中該伺服器組配來：基於來自該用戶端之一請求來選擇及遞送一視訊串流，該視訊串流與一環境相關聯；基於來自該用戶端之一請求來選擇一音訊串流及/或音訊元素及/或調適集合，該請求與至少使用者之當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料以及關聯於該環境之一音訊場景相關聯；以及將該音訊串流遞送至該用戶端，其中該請求係基於該使用者之位置與關聯於不同音訊場景之相鄰及/或鄰近環境之邊界的一距離。
一種虛擬實境伺服器，用於將用於一虛擬實境(VR)、擴增實境(AR)、混合實境(MR)或360度視訊環境之音訊及視訊串流遞送至一用戶端，該等視訊及音訊串流要在一媒體消費裝置中再現，其中該伺服器包含用以編碼用於描述一視訊環境的視訊串流之一編碼器及/或用以儲存該等視訊串流之一儲存器，該視訊環境與一音訊場景相關聯；其中該伺服器進一步包含用以編碼待遞送至該用戶端的多個音訊串流及/或音訊元素及/或調適集合之一編碼器及/或用以儲存該等音訊串流及/或音訊元素及/或調適集合之一儲存器，該等音訊串流及/或音訊元素及/或調適集合與至少一個音訊場景相關聯，其中該伺服器組配來：基於來自該用戶端之一請求來選擇及遞送一視訊串流，該視訊串流與一環境相關聯；基於來自該用戶端之一請求來選擇一音訊串流及/或音訊元素及/或調適集合，該請求與至少使用者之當前視埠及/或頭部定向及/或移動資料及/或互動元資料及/或虛擬位置資料以及關聯於該環境之一音訊場景相關聯；以及將該音訊串流遞送至該用戶端，其中第一音訊串流中之第一音訊元素較第二音訊串流中之第二音訊元素更為相關及/或更可聽見，其中該等第一音訊串流以較該等第二音訊串流之位元速率更高的一較高位元速率來請求及/或接收。
如請求項43之虛擬實境伺服器，其中該等音訊串流囊封至調適集合中，每一調適集合包括與相同音訊內容之不同位元速率的不同呈現型態相關聯之多個串流，其中所選調適集合係基於來自該用戶端之該請求來選擇。
一種虛擬實境系統，其包括運作為一用戶端的如請求項1之系統、及該伺服器。
一種供組配來接收要在媒體消費裝置中再現之視訊及/音訊串流的虛擬實境(VR)、擴增實境(AR)、混合實境(MR)或360度視訊環境所用之方法，其包含：從視訊串流解碼出視訊信號以供將VR、AR、MR或360度視訊環境呈現給一使用者，從音訊串流解碼出音訊信號以用於呈現音訊場景，基於該使用者之當前視埠及/或位置資料及/或頭部定向及/或移動資料及/或元資料及/或虛擬位置資料及/或元資料，而向一伺服器請求及/或自該伺服器獲得至少一個音訊串流，以及基於該使用者之位置相距鄰近之邊界的一距離來控制向該伺服器請求該至少一個串流。
一種供組配來接收要在媒體消費裝置中再現之視訊及/音訊串流的虛擬實境(VR)、擴增實境(AR)、混合實境(MR)或360度視訊環境所用之方法，其包含：從視訊串流解碼出視訊信號以供將VR、AR、MR或360度視訊環境呈現給一使用者，從音訊串流解碼出音訊信號以用於呈現音訊場景，基於該使用者之當前視埠及/或位置資料及/或頭部定向及/或移動資料及/或元資料及/或虛擬位置資料及/或元資料，來向一伺服器請求及/或自該伺服器獲得至少一個音訊串流，以及其中第一音訊串流中之第一音訊元素較第二音訊串流中之第二音訊元素更為相關及/或更可聽見，其中該等第一音訊串流以較該等第二音訊串流之位元速率更高的一較高位元速率來請求及/或接收。
一種供組配來接收要在媒體消費裝置中再現之視訊及/音訊串流的虛擬實境(VR)、擴增實境(AR)、混合實境(MR)或360度視訊環境所用之方法，其包含：從視訊串流解碼出視訊信號以供將VR、AR、MR或360度視訊環境呈現給一使用者，從音訊串流解碼出音訊信號以用於呈現音訊場景，基於該使用者之當前視埠及/或位置資料及/或頭部定向及/或移動資料及/或元資料及/或虛擬位置資料及/或元資料，來向一伺服器請求及/或自該伺服器獲得至少一個音訊串流，其中至少一個第一音訊元素及第二音訊元素與相關聯於一第一視訊環境的一第一音訊場景相關聯，且至少一個第三音訊元素與相關聯於一第二視訊環境的一第二音訊場景相關聯，其中該方法包括：獲得描述該至少一個第二音訊元素額外與該第二視訊環境相關聯之元資料，在該使用者之虛擬位置處於該第一視訊環境中的情況下，請求及/或接收該等至少一個第一音訊元素及第二音訊元素，在該使用者的虛擬位置處於該第二視訊環境中的情況下，請求及/或接收該等至少一個第二音訊元素及第三音訊元素，及在該使用者的虛擬位置處於該第一視訊環境與該第二視訊環境之間的過渡區中的情況下，請求及/或接收該等至少第一音訊元素及第二音訊元素及第三音訊元素，其中該至少一個第一音訊元素提供於至少一個音訊串流及/或調適集合中，且該至少一個第二音訊元素提供於至少一個第二音訊串流及/或調適集合中，且該至少一個第三音訊元素提供於至少一個第三音訊串流及/或調適集合中，且其中該至少第一視訊環境藉由元資料描述為需要該等至少一個第一及第二音訊串流及/或調適集合之一音訊場景，且其中該第二視訊環境藉由元資料描述為需要該至少一個第三音訊串流及/或調適集合及與該至少一個第一視訊環境相關聯的該至少一個第二音訊串流及/或調適集合之一場景，其中該方法包括操縱該元資料，以在該使用者的虛擬位置處於該第二視訊環境中的情況下，將屬於該第一視訊環境之該第二音訊串流與相關聯於該第二視訊環境之該第三音訊串流合併為一新的單一串流。
一種供組配來接收要在媒體消費裝置中再現之視訊及/音訊串流的虛擬實境(VR)、擴增實境(AR)、混合實境(MR)或360度視訊環境所用之方法，其包含：從視訊串流解碼出視訊信號以供將VR、AR、MR或360度視訊環境呈現給一使用者，從音訊串流解碼出音訊信號以用於呈現音訊場景，基於該使用者之當前視埠及/或位置資料及/或頭部定向及/或移動資料及/或元資料及/或虛擬位置資料及/或元資料，來向一伺服器請求及/或自該伺服器獲得至少一個音訊串流，以及基於該使用者之位置相距鄰近之邊界的一距離，來控制向該伺服器就該至少一個串流的該請求，其中該方法進一步包括：請求及/或接收包含與至少一個第一音訊場景相關聯之至少一個音訊串流的至少一個第一調適集合；請求及/或接收包含與包括該至少一個第一音訊場景的至少兩個音訊場景相關聯之至少一個第二音訊串流的至少一個第二調適集合；以及基於關於使用者之當前視埠及/或頭部定向及/或移動資料及/或元資料及/或虛擬位置資料之可用元資料及/或描述該至少一個第一調適集合與該至少一個第一音訊場景之一關聯及/或該至少一個第二調適集合與該至少一個第一音訊場景之一關聯的資訊，來將該至少一個第一音訊串流與該至少一個第二音訊串流合併至待解碼的一新音訊串流。
一種包含指令之電腦程式，該等指令由一處理器執行時使得處理器執行如請求項47之方法。