TW202304216A - 經由5g網路對擴展現實資料的分離渲染 - Google Patents
經由5g網路對擴展現實資料的分離渲染 Download PDFInfo
- Publication number
- TW202304216A TW202304216A TW111117821A TW111117821A TW202304216A TW 202304216 A TW202304216 A TW 202304216A TW 111117821 A TW111117821 A TW 111117821A TW 111117821 A TW111117821 A TW 111117821A TW 202304216 A TW202304216 A TW 202304216A
- Authority
- TW
- Taiwan
- Prior art keywords
- virtual objects
- media
- data
- scene
- dynamic virtual
- Prior art date
Links
- 238000009877 rendering Methods 0.000 title claims abstract description 112
- 238000012545 processing Methods 0.000 claims abstract description 61
- 239000012092 media component Substances 0.000 claims abstract description 22
- 238000004891 communication Methods 0.000 claims description 193
- 238000000034 method Methods 0.000 claims description 120
- 239000000463 material Substances 0.000 claims description 61
- 230000003068 static effect Effects 0.000 claims description 36
- 230000004044 response Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 description 37
- 230000006978 adaptation Effects 0.000 description 19
- 238000005538 encapsulation Methods 0.000 description 19
- 238000012937 correction Methods 0.000 description 15
- 238000002360 preparation method Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 239000011521 glass Substances 0.000 description 10
- 230000003190 augmentative effect Effects 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 239000012634 fragment Substances 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000011084 recovery Methods 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 238000004873 anchoring Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- NUHSROFQTUXZQQ-UHFFFAOYSA-N isopentenyl diphosphate Chemical group CC(=C)CCO[P@](O)(=O)OP(O)(O)=O NUHSROFQTUXZQQ-UHFFFAOYSA-N 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- FMYKJLXRRQTBOR-UBFHEZILSA-N (2s)-2-acetamido-4-methyl-n-[4-methyl-1-oxo-1-[[(2s)-1-oxohexan-2-yl]amino]pentan-2-yl]pentanamide Chemical group CCCC[C@@H](C=O)NC(=O)C(CC(C)C)NC(=O)[C@H](CC(C)C)NC(C)=O FMYKJLXRRQTBOR-UBFHEZILSA-N 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000017525 heat dissipation Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/816—Monomedia components thereof involving special video data, e.g 3D video
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/033—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
- G06F3/0346—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of the device orientation or free movement in a 3D space, e.g. 3D mice, 6-DOF [six degrees of freedom] pointers using gyroscopes, accelerometers or tilt-sensors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/006—Mixed reality
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/61—Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
- H04L65/765—Media network packet handling intermediate
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/80—Responding to QoS
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23412—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs for generating or manipulating the scene composition of objects, e.g. MPEG-4 objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/61—Network physical structure; Signal processing
- H04N21/6106—Network physical structure; Signal processing specially adapted to the downstream path of the transmission network
- H04N21/6131—Network physical structure; Signal processing specially adapted to the downstream path of the transmission network involving transmission via a mobile phone network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/63—Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
- H04N21/631—Multimode Transmission, e.g. transmitting basic layers and enhancement layers of the content over different transmission paths or transmitting with different error corrections, different keys or with different transmission protocols
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Information Transfer Between Computers (AREA)
- Image Generation (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
一種用於處理擴展現實(XR)資料的示例性設備包括被配置為進行以下操作的處理器:解析XR場景的入口點資料以提取關於用於XR場景的一或多個所需虛擬物件的資訊,所需虛擬物件包括等於或大於一的一數量的動態虛擬物件,動態虛擬物件之每一者動態虛擬物件包括要取得用於其的媒體資料的至少一個動態媒體分量;使用入口點資料來初始化一數量的串流通信期,串流通信期的數量等於或大於動態虛擬物件的數量;配置用於串流通信期的服務品質(QoS)和計費資訊;經由串流通信期來取得用於動態虛擬物件的媒體資料;及向渲染單元發送所取得的媒體資料以渲染XR場景,以在XR場景內的對應地點處包括所取得的媒體資料。
Description
本專利申請案主張享受於2021年5月12日提出申請的美國臨時申請案第63/187,840的權益,據此該美國臨時申請案的全部內容經由引用的內容被併入。
本案內容係關於媒體資料的儲存和傳輸。
數位視訊能力可以被合併到各種各樣的設備中,包括數位電視、數位直播系統、無線廣播系統、個人數位助理(PDA)、膝上型電腦或桌上型電腦、數位相機、數位記錄設備、數位媒體播放機、視訊遊戲設備、視訊遊戲控制台、蜂巢或衛星無線電電話、視訊電話會議設備等。數位視訊設備實現視訊壓縮技術(諸如在由MPEG-2、MPEG-4、ITU-T H.263或ITU-T H.264/MPEG-4(第10部分,高級視訊譯碼(AVC))、ITU-T H.265(亦被稱為高效率視訊譯碼(HEVC))定義的標準以及此種標準的擴展中描述的彼等技術),以更加高效地傳輸和接收數位視訊資訊。
在視訊資料和其他媒體資料已經被編碼之後,媒體資料可以被封包化以進行傳輸或儲存。媒體資料可以被組裝成符合各種標準(諸如國際標準組織(ISO)的基媒體檔案格式以及其擴展)中的任何一種的視訊檔案。
概括而言,本案內容描述了與例如使用分離渲染來處理擴展現實(XR)資料相關的技術。具體而言,本案內容的技術係關於處理包括多個動態虛擬物件的媒體資料。客戶端設備可以被配置為初始化用於動態虛擬物件之每一者動態虛擬物件的相應串流通信期。亦即,在串流通信期和動態虛擬物件之間可以存在一對一的對應關係。以此種方式,用於動態串流通信期之每一者動態串流通信期的媒體資料可以經由串流通信期中的相應串流通信期進行串流。串流通信期之每一者串流通信期可以具有根據例如對應的動態虛擬物件的類型而配置的單個服務品質(QoS)和計費資訊。
在一個實例中,一種處理擴展現實(XR)資料的方法包括以下步驟:解析XR場景的入口點資料以提取關於用於該XR場景的一或多個所需虛擬物件的資訊,該一或多個所需虛擬物件包括等於或大於一的一數量的動態虛擬物件,該等動態虛擬物件之每一者動態虛擬物件包括要取得用於其的媒體資料的至少一個動態媒體分量;使用該入口點資料來初始化一數量的串流通信期,該串流通信期的數量等於該動態虛擬物件的數量,其中初始化該等串流通信期包括按照用於該等串流通信期的經配置的服務品質(QoS)和計費資訊來初始化該等串流通信期;經由相應數量的串流通信期中的一個串流通信期來取得用於該等動態虛擬物件的該等動態媒體分量之每一者動態媒體分量的媒體資料;及向渲染單元發送所取得的媒體資料以渲染該XR場景,以在該XR場景內的對應地點處包括所取得的媒體資料。
在另一實例中,一種用於處理擴展現實(XR)資料的設備包括:記憶體,其被配置為儲存XR資料和媒體資料;及一或多個處理器,其在電路系統中實現並且被配置為:解析XR場景的入口點資料以提取關於用於該XR場景的一或多個所需虛擬物件的資訊,該一或多個所需虛擬物件包括等於或大於一的一數量的動態虛擬物件,該等動態虛擬物件之每一者動態虛擬物件包括要取得用於其的媒體資料的至少一個動態媒體分量;使用該入口點資料來初始化一數量的串流通信期,該串流通信期的數量等於該動態虛擬物件的數量,其中為了初始化該等串流通信期,該一或多個處理器被配置為按照用於該等串流通信期的經配置的服務品質(QoS)和計費資訊來初始化該等串流通信期;經由相應數量的串流通信期中的一個串流通信期來取得用於該等動態虛擬物件的該等動態媒體分量之每一者動態媒體分量的媒體資料;及向渲染單元發送所取得的媒體資料以渲染該XR場景,以在該XR場景內的對應地點處包括所取得的媒體資料。
在另一實例中,一種電腦可讀取儲存媒體具有儲存在其上的指令,該等指令在被執行時使得處理器進行以下操作:解析XR場景的入口點資料以提取關於用於該XR場景的一或多個所需虛擬物件的資訊,該一或多個所需虛擬物件包括等於或大於一的一數量的動態虛擬物件,該等動態虛擬物件之每一者動態虛擬物件包括要取得用於其的媒體資料的至少一個動態媒體分量;使用該入口點資料來初始化一數量的串流通信期,該串流通信期的數量等於該動態虛擬物件的數量,其中使得該處理器初始化該數量的串流通信期的該等指令包括使得該處理器進行以下操作的指令:按照用於該等串流通信期的經配置的服務品質(QoS)和計費資訊來初始化該等串流通信期;經由相應數量的串流通信期中的一個串流通信期來取得用於該等動態虛擬物件的該等動態媒體分量之每一者動態媒體分量的媒體資料;及向渲染單元發送所取得的媒體資料以渲染該XR場景,以在該XR場景內的對應地點處包括所取得的媒體資料。
在另一實例中,一種用於處理擴展現實(XR)資料的設備包括:用於解析XR場景的入口點資料以提取關於用於該XR場景的一或多個所需虛擬物件的資訊的構件,該一或多個所需虛擬物件包括等於或大於一的一數量的動態虛擬物件,該等動態虛擬物件之每一者動態虛擬物件包括要取得用於其的媒體資料的至少一個動態媒體分量;用於初始化一數量的串流通信期的構件,該串流通信期的數量等於該動態虛擬物件的數量,其中該用於初始化該數量的串流通信期的構件包括用於按照用於該等串流通信期的經配置的服務品質(QoS)和計費資訊來初始化該等串流通信期的構件;用於經由相應數量的串流通信期中的一個串流通信期來取得用於該等動態虛擬物件的該等動態媒體分量之每一者動態媒體分量的媒體資料的構件;及用於向渲染單元發送所取得的媒體資料以渲染該XR場景,以在該XR場景內的對應地點處包括所取得的媒體資料的構件。
在附圖和以下描述中闡述了一或多個實例的細節。根據說明書和附圖以及根據申請專利範圍,其他特徵、目的和優點將是顯而易見的。
OpenXR是用於開發針對各種XR設備的擴展現實(XR)應用程式的應用程式設計介面(API)。XR代表由電腦經由人類的互動而產生的真實和虛擬世界環境的混合。XR包括諸如虛擬實境(VR)、增強現實(AR)和混合現實(MR)之類的技術。OpenXR是應用程式和XR運行時間之間的介面。XR運行時間處理諸如訊框合成、使用者觸發的動作和追蹤資訊之類的功能。
OpenXR被設計為分層API,此舉意味著使用者或應用程式可以在應用程式和運行時間實現之間插入API層。該等API層經由攔截來自上面的層中的OpenXR函數,並且隨後執行與原本在沒有該層的情況下將執行的操作不同的操作,從而提供額外的功能。在最簡單的情況下,該層僅利用相同的引數來向下調用下一層,但是更複雜的層可以實現在其之下的層或運行時間中不存在的API功能。此種機制本質上是架構式「函數勻場」或「攔截」功能,其被設計在OpenXR中並且意在替代更加非正式的「掛鉤」API調用方法。
應用程式可以經由調用xrEnumerateApiLayerProperties函數來獲得可用API層的列表,從而決定可用於該等應用程式的API層。隨後,應用程式可以從該列表中選擇期望的API層,並且在建立例子時將其提供給xrCreateInstance函數。
API層可以實現OpenXR函數,該等函數可以被底層運行時間支援或者可以不被底層運行時間支援。為了揭示該等新特徵,API層必須以OpenXR擴展的形式揭示此種功能。其不可以揭露不具有相關聯的擴展的新OpenXR函數。
OpenXR例子是允許OpenXR應用程式與OpenXR運行時間進行通訊的物件。應用程式經由調用xrCreateInstance並且接收所得到的XrInstance物件的控制碼來完成此種通訊。
XrInstance物件儲存並且追蹤與OpenXR相關的應用狀態,而不將任何此種狀態儲存在應用程式的全域位址空間中。此舉允許應用程式建立多個例子,以及安全地封裝應用程式的OpenXR狀態,因為該物件對於應用程式是不透通的。OpenXR運行時間可能限制可以建立和使用的同時XrInstance物件的數量,但是其必須支援每個程序建立和使用至少一個XrInstance物件。
空間是由XrSpace控制碼來表示的,該等XrSpace控制碼是應用程式建立並且隨後在API調用中使用的。每當應用程式調用返回座標的函數時,其皆提供XrSpace來指定將在其中表示該等座標的參考系。類似地,當向函數提供座標時,應用程式指定運行時間應當使用何者XrSpace來解釋該等座標。
OpenXR定義了應用程式使用以啟動其空間推理的公知的參考空間集合。該等參考空間是:VIEW(視圖)、LOCAL(局部)和STAGE(舞臺)。每個參考空間具有明確的含義,其確立了其原點位於何處以及其軸如何旋轉。
其追蹤系統隨著時間提高了其對世界的理解的運行時間可以獨立地追蹤空間。例如,即使LOCAL空間和STAGE空間各自將其原點映射到世界上的靜態位置,但是具有由內而外追蹤系統的運行時間可以連續地引入對每個空間的原點的輕微調整,以保持每個原點就位。
除了公知的參考空間之外,運行時間亦揭露了其他獨立追蹤的空間,諸如追蹤運動控制器隨著時間的姿勢的姿勢動作空間。
根據本案內容的技術,XR資料可以以分離渲染方式來渲染。亦即,兩個或更多個設備可以參與對XR資料的渲染,例如,客戶端設備和伺服器設備。多個客戶端及/或伺服器設備可以參與XR分離渲染通信期。通常,伺服器可以使用串流網路通訊協定(諸如基於HTTP的動態自我調整串流(DASH)、HTTP即時串流(HLS)等)來將媒體資料串流到客戶端。
在HTTP串流中,頻繁使用的操作包括HEAD、GET和部分GET。HEAD操作取得與給定的統一資源定位符(URL)或統一資源名稱(URN)相關聯的檔案的標頭,而不取得與URL或URN相關聯的有效負荷。GET操作取得與給定的URL或URN相關聯的整個檔案。部分GET操作接收作為輸入參數的位元組範圍,並且取得檔案的連續數量的位元組,其中位元組數量對應於所接收的位元組範圍。因此,可以提供電影片段(fragment)以用於HTTP串流,因為部分GET操作可以獲得一或多個個體電影片段。在電影片段中,可以存在不同軌道(track)的若干軌道片段。在HTTP串流中,媒體呈現可以是客戶端可存取的結構化資料集合。客戶端可以請求並且下載媒體資料資訊以向使用者呈現串流服務。
在使用HTTP串流來對3GPP資料進行串流的實例中,針對多媒體內容的視訊及/或音訊資料可以存在多個表示。如下文所解釋的,不同的表示可以對應於不同的譯碼特性(例如,視訊譯碼標準的不同簡介或級別)、不同的譯碼標準或譯碼標準的擴展(諸如多視圖及/或可縮放擴展),或不同的位元速率。此種表示的清單可以是在媒體呈現描述(MPD)資料結構中定義的。媒體呈現可以對應於HTTP串流客戶端設備可存取的結構化資料集合。HTTP串流客戶端設備可以請求並且下載媒體資料資訊以向客戶端設備的使用者呈現串流服務。媒體呈現可以是在MPD資料結構中描述的,MPD資料結構可以包括MPD的更新。
媒體呈現可以包含一或多個時段的序列。每個時段可以延長直到下一時段的開始為止,或者直到媒體呈現的結束為止(在最後一個時段的情況下)。每個時段可以包含針對相同媒體內容的一或多個表示。表示可以是音訊、視訊、定時文字或其他此種資料的多個替代經編碼版本之一。表示可以在編碼類型(例如,對於視訊資料而言,位元速率、解析度及/或轉碼器,以及對於音訊資料而言,位元速率、語言及/或轉碼器)態樣不同。術語表示可以用於代表經編碼的音訊或視訊資料中的與多媒體內容的特定時段相對應並且以特定方式編碼的部分。
特定時段的表示可以被分配給由MPD中的指示該等表示所屬的調適集合的屬性來指示的群組。同一調適集合中的表示通常被認為是彼此的替代,因為客戶端設備可以在該等表示之間動態且無瑕疵地切換,例如以執行頻寬調適。例如,用於特定時段的視訊資料的每個表示可以被分配給相同的調適集合,使得可以選擇該等表示中的任何表示進行解碼以呈現多媒體內容的用於對應時段的媒體資料,諸如視訊資料或音訊資料。在一些實例中,在一個時段內的媒體內容可以經由來自群組0的任何一個表示(若存在的話)或者來自每個非零群組的至多一個表示的組合來表示。用於時段的每個表示的時序資料可以是相對於該時段的開始時間來表達的。
表示可以包括一或多個分段。每個表示可以包括初始化分段,或者表示的每個分段可以是自初始化的。當存在時,初始化分段可以包含用於存取表示的初始化資訊。通常,初始化分段不包含媒體資料。分段可以由辨識符唯一地引用,諸如統一資源定位符(URL)、統一資源名稱(URN)或統一資源辨識符(URI)。MPD可以為每個分段提供辨識符。在一些實例中,MPD亦可以以
range屬性的形式提供位元組範圍,位元組範圍可以對應於用於在檔案內經由URL、URN或URI可存取的分段的資料。
可以選擇不同的表示以用於基本上同時地取得不同類型的媒體資料。例如,客戶端設備可以選擇要從其取得分段的音訊表示、視訊表示和定時文字表示。在一些實例中,客戶端設備可以選擇特定的調適集合以執行頻寬調適。亦即,客戶端設備可以選擇包括視訊表示的調適集合、包括音訊表示的調適集合及/或包括定時文字的調適集合。或者,客戶端設備可以為某些類型的媒體(例如,視訊)選擇調適集合,而為其他類型的媒體(例如,音訊及/或定時文字)直接選擇表示。
圖1是圖示實現用於在網路上對媒體資料進行串流的技術的示例性系統10的方塊圖。在該實例中,系統10包括內容準備設備20、伺服器設備60和客戶端設備40。伺服器設備60和客戶端設備40可以參與如下文更詳細地論述的擴展現實(XR)分離渲染程序。客戶端設備40和伺服器設備60經由可以包括網際網路的網路74通訊地耦合。在一些實例中,內容準備設備20和伺服器設備60亦可以經由網路74或另一網路耦合,或者可以直接通訊地耦合。在一些實例中,內容準備設備20和伺服器設備60可以包括相同的設備。
在圖1的實例中,內容準備設備20包括音訊源22和視訊源24。音訊源22可以包括例如麥克風,其產生表示被擷取的要由音訊編碼器26編碼的音訊資料的電信號。或者,音訊源22可以包括儲存先前記錄的音訊資料的儲存媒體、音訊資料產生器(諸如電腦化的合成器),或任何其他音訊資料來源。視訊源24可以包括產生要由視訊編碼器28編碼的視訊資料的攝像機、利用先前記錄的視訊資料而編碼的儲存媒體、視訊資料產生單元(諸如電腦圖形源),或任何其他視訊資料來源。在所有實例中,內容準備設備20不一定通訊地耦合到伺服器設備60,而是可以將多媒體內容儲存到由伺服器設備60讀取的單獨媒體。
原始音訊和視訊資料可以包括類比或數位資料。類比資料可以在被音訊編碼器26及/或視訊編碼器28編碼之前被數位化。音訊源22可以在講話參與者正在講話時從講話參與者獲得音訊資料,並且視訊源24可以同時獲得講話參與者的視訊資料。在其他實例中,音訊源22可以包括包含儲存的音訊資料的電腦可讀取儲存媒體,而視訊源24可以包括包含儲存的視訊資料的電腦可讀取儲存媒體。以此種方式,在本案內容中描述的技術可以被應用於實況的、串流的、即時的音訊和視訊資料或者被應用於被存檔的、預先記錄的音訊和視訊資料。
與視訊訊框相對應的音訊訊框通常是包含音訊資料的音訊訊框,音訊資料是與由視訊源24擷取(或產生)的被包含在視訊訊框內的視訊資料同時地、由音訊源22擷取(或產生)的。例如,當講話參與者通常經由講話產生音訊資料時,音訊源22擷取音訊資料,而視訊源24同時(亦即,當音訊源22正在擷取音訊資料時)擷取講話參與者的視訊資料。因此,音訊訊框可以在時間上對應於一或多個特定視訊訊框。相應地,對應於視訊訊框的音訊訊框通常對應於以下情形:音訊資料和視訊資料是同時被擷取的,並且針對該情形音訊訊框和視訊訊框分別包括同時被擷取的音訊資料和視訊資料。
在一些實例中,音訊編碼器26可以將表示用於每個經編碼的音訊訊框的音訊資料被記錄的時間的時間戳記編碼到該經編碼的音訊訊框中,並且類似地,視訊編碼器28可以將表示用於每個經編碼的視訊訊框的視訊資料被記錄的時間的時間戳記編碼在該經編碼的視訊訊框中。在此種實例中,對應於視訊訊框的音訊訊框可以包括含有時間戳記的音訊訊框和含有相同時間戳記的視訊訊框。內容準備設備20可以包括內部時鐘,其中音訊編碼器26及/或視訊編碼器28可以根據該內部時鐘來產生時間戳記,或者音訊源22和視訊源24可以使用該內部時鐘將音訊資料和視訊資料分別與時間戳記進行關聯。
在一些實例中,音訊源22可以向音訊編碼器26發送與音訊資料被記錄的時間相對應的資料,而視訊源24可以向視訊編碼器28發送與視訊資料被記錄的時間相對應的資料。在一些實例中,音訊編碼器26可以將序列辨識符編碼到經編碼的音訊資料中,以指示經編碼的音訊資料的相對時間順序,但是不一定指示音訊資料被記錄的絕對時間,並且類似地,視訊編碼器28亦可以使用序列辨識符來指示經編碼的視訊資料的相對時間順序。類似地,在一些實例中,序列辨識符可以被映射或以其他方式與時間戳記相關。
音訊編碼器26通常產生經編碼的音訊資料的串流,而視訊編碼器28產生經編碼的視訊資料的串流。每個個別的資料串流(無論是音訊還是視訊)皆可以被稱為基本串流。基本串流是表示的單個的、經數位譯碼的(可能被壓縮的)分量。例如,表示的經譯碼的視訊或音訊部分可以是基本串流。在將基本串流封裝在視訊檔案內之前,可以將其轉換為封包化基本串流(PES)。在同一表示內,串流ID可以用於將屬於一個基本串流的PES封包與屬於另一基本串流的PES封包區分開。基本串流的基礎資料單元是封包化基本串流(PES)封包。因此,經譯碼的視訊資料通常對應於基本視訊串流。類似地,音訊資料對應於一或多個相應的基本串流。
許多視訊譯碼標準(諸如ITU-T H.264/AVC,以及即將產生的高效率視訊譯碼(HEVC)標準)定義了用於無錯誤位元串流的語法、語義和解碼程序,其中的任何一者符合某個簡介或級別。視訊譯碼標準通常不指定編碼器,但是編碼器被派給有保證所產生的位元串流對於解碼器而言是符合標準的任務。在視訊譯碼標準的背景下,「簡介」對應於應用於其的演算法、特徵,或工具和約束的子集。例如,如由H.264標準所定義的,「簡介」是由H.264標準所指定的整個位元串流語法的子集。「級別」對應於與圖片的解析度、位元速率和區塊處理率有關的解碼器資源消耗的限制,諸如例如,解碼器記憶體和計算。可以利用profile_idc(簡介指示符)值來用信號通知簡介,而可以利用level_idc(級別指示符)值來用信號通知級別。
例如,H.264標準認可的是,在由給定簡介的語法施加的界限內,仍然可能需要編碼器和解碼器的效能的大變化,此舉取決於由位元串流中的語法元素所採用的值,諸如指定的經解碼的圖片大小。H.264標準進一步認可的是,在許多應用中,實現能夠處理特定簡介內的語法的所有假設用途的解碼器是既不實用亦不經濟的。因此,H.264標準將「級別」定義為對在位元串流中的語法元素的值施加的指定的約束集合。該等約束可能是對值的簡單限制。或者,該等約束可以採取對值的算術組合的約束的形式(例如,圖片寬度乘以圖片高度乘以每秒解碼的圖片數量)。H.264標準亦規定,單個實現方式針對每個支援的簡介可以支援不同級別。
符合簡介的解碼器通常支援在簡介中定義的所有特徵。例如,作為譯碼特徵,B圖片譯碼在H.264/AVC的基準簡介中是不支援的,但是在H.264/AVC的其他簡介中是支援的。符合級別的解碼器應當能夠對不需要超出在該級別中定義的限制的資源的任何位元串流進行解碼。簡介和級別的定義可以有助於可解釋性。例如,在視訊傳輸期間,可以為整個傳輸通信期協商並且商定一對簡介和級別定義。更具體而言,在H.264/AVC中,級別可以定義對以下各項的限制:需要被處理的巨集區塊數量、經解碼圖片緩衝器(DPB)大小、經譯碼圖片緩衝器(CPB)大小、垂直運動向量範圍、每兩個連續的MB的運動向量的最大數量,以及B區塊是否可以具有小於8x8個圖元的子-巨集區塊分割。以此種方式,解碼器可以決定該解碼器是否能夠對位元串流進行正確地解碼。
在圖1的實例中,內容準備設備20的封裝單元30從視訊編碼器28接收包括經譯碼的視訊資料的基本串流,並且從音訊編碼器26接收包括經譯碼的音訊資料的基本串流。在一些實例中,視訊編碼器28和音訊編碼器26可以分別包括用於從經編碼的資料形成PES封包的封包化器。在其他實例中,視訊編碼器28和音訊編碼器26可以分別與用於從經編碼的資料形成PES封包的相應的封包化器進行對接。在其他實例中,封裝單元30可以包括用於從經編碼的音訊和視訊資料形成PES封包的封包化器。
視訊編碼器28可以以各種方式對多媒體內容的視訊資料進行編碼,以產生多媒體內容的處於各種位元速率並且具有各種特性(諸如圖元解析度、訊框速率、符合各種譯碼標準、符合用於各種譯碼標準的各個簡介及/或簡介的級別、具有一或多個視圖的表示(例如,用於二維或三維重播)或其他此種特性)的不同表示。如在本案內容中使用的表示可以包括音訊資料、視訊資料、文字資料(例如,用於隱藏式字幕)或其他此種資料中的一者。表示可以包括基本串流,諸如音訊基本串流或視訊基本串流。每個PES封包可以包括辨識該PES封包所屬的基本串流的stream_id。封裝單元30負責將基本串流組裝成各個表示的視訊檔案(例如,分段)。
封裝單元30從音訊編碼器26和視訊編碼器28接收用於表示的基本串流的PES封包,並且從PES封包形成對應的網路抽象層(NAL)單元。可以將經譯碼的視訊分段組織為NAL單元,該等NAL單元提供了定址到諸如視訊電話、儲存、廣播或串流之類的應用程式的「網路友好」視訊表示。NAL單元可以被分類為視訊譯碼層(VCL)NAL單元和非VCL NAL單元。VCL單元可以包含核心壓縮引擎,並且可以包括區塊、巨集區塊及/或切片級資料。其他NAL單元可以是非VCL NAL單元。在一些實例中,在一個時間例子中通常被呈現為基本經譯碼圖片的經譯碼圖片可以被包含在存取單元中,存取單元可以包括一或多個NAL單元。
非VCL NAL單元可以包括參數集NAL單元和SEI NAL單元以及其他單元。參數集可以包含序列級別標頭資訊(在序列參數集(SPS)中)和不頻繁變化的圖片級別標頭資訊(在圖片參數集(PPS)中)。利用參數集(例如,PPS和SPS),不需要為每個序列或圖片重複不頻繁變化的資訊;因此可以提高譯碼效率。此外,使用參數集可以實現對重要標頭資訊的帶外傳輸,從而避免為了錯誤恢復而對於冗餘傳輸的需求。在帶外傳輸實例中,可以在與其他NAL單元(諸如SEI NAL單元)不同的通道上傳輸參數集NAL單元。
補充增強資訊(SEI)可能包含對於從VCL NAL單元解碼經譯碼的圖片取樣而言不必要的資訊,但是可能有助於與解碼、顯示、錯誤恢復和其他目的有關的程序。SEI訊息可以被包含在非VCL NAL單元中。SEI訊息是一些標準規範的規範性部分,並且因此對於符合標準的解碼器實現而言並非總是強制的。SEI訊息可以是序列級別SEI訊息或圖片級別SEI訊息。一些序列級別資訊可以被包含在SEI訊息中,諸如在SVC實例中的可縮放性資訊SEI訊息,以及在MVC中的視圖可縮放性資訊SEI訊息。該等示例性SEI訊息可以傳遞關於例如操作點的提取和操作點的特性的資訊。另外,封裝單元30可以形成清單檔案,諸如描述表示的特性的媒體呈現描述符(MPD)。封裝單元30可以根據可延伸標記語言(XML)來將MPD格式化。
封裝單元30可以將用於多媒體內容的一或多個表示的資料以及清單檔案(例如,MPD)一起提供給輸出介面32。輸出介面32可以包括網路介面,或用於寫入儲存媒體的介面(諸如通用序列匯流排(USB)介面、CD或DVD寫入器或燒錄機、與磁或快閃儲存媒體的介面,或用於儲存或傳輸媒體資料的其他介面)。封裝單元30可以將多媒體內容的表示之每一者表示的資料提供給輸出介面32,輸出介面32可以經由網路傳輸或儲存媒體將資料發送給伺服器設備60。在圖1的實例中,伺服器設備60包括用於儲存各種多媒體內容64的儲存媒體62,每種多媒體內容包括相應的清單檔案66和一或多個表示68A-68N(表示68)。在一些實例中,輸出介面32亦可以直接向網路74發送資料。
在一些實例中,表示68可以被分成調適集合。亦即,表示68的各個子集可以包括相應的共用特性集,諸如轉碼器、簡介和級別、解析度、視圖數量、用於分段的檔案格式、可以辨識將與表示及/或要被解碼和例如由揚聲器呈現的音訊資料一起顯示的文字的語言或其他特性的文字類型資訊、可以描述針對調適集合中的表示的場景的相機角度或現實世界視角的相機角度資訊、描述內容對於特定觀眾的適合性的評級資訊等。
清單檔案66可以包括指示與特定的調適集合相對應的表示68的子集以及用於調適集合的共用特性的資料。清單檔案66亦可以包括表示用於調適集合中的個別表示的個別特性的資料,諸如位元速率。以此種方式,調適集合可以提供簡化的網路頻寬調適。可以使用清單檔案66的調適集合元素中的子元素來指示在調適集合中的表示。
伺服器設備60包括請求處理單元70和網路介面72。在一些實例中,伺服器設備60可以包括複數個網路介面。此外,伺服器設備60的任何或所有特徵可以在內容遞送網路的其他設備上實現,諸如路由器、橋接器、代理設備、交換機或其他設備。在一些實例中,內容遞送網路的中繼設備可以對多媒體內容64的資料進行快取,並且包括基本上與伺服器設備60的元件一致的元件。通常,網路介面72被配置為經由網路74發送和接收資料。
請求處理單元70被配置為從諸如客戶端設備40之類的客戶端設備接收對儲存媒體62的資料的網路請求。例如,請求處理單元70可以實現如在RFC 2616中(1999年6月,IETF,網路工作組,R. Fielding等人的「Hypertext Transfer Protocol–HTTP/1.1」)中描述的超文字傳輸協定(HTTP)版本1.1。亦即,請求處理單元70可以被配置為接收HTTP GET或部分GET請求,並且回應於該等請求而提供多媒體內容64的資料。請求可以指定表示68中的一個表示的分段(例如,使用該分段的URL)。在一些實例中,請求亦可以指定分段的一或多個位元組範圍,由此包括部分GET請求。請求處理單元70亦可以被配置為對HTTP HEAD請求進行服務以提供表示68中的一個表示的分段的標頭資料。在任何情況下,請求處理單元70可以被配置為處理請求以將請求的資料提供給進行請求的設備,諸如客戶端設備40。
另外或替代地,請求處理單元70可以被配置為經由諸如eMBMS之類的廣播或多播協定來遞送媒體資料。內容準備設備20可以以與所描述的基本相同的方式來建立DASH分段及/或子分段,但是伺服器設備60可以使用eMBMS或另一廣播或多播網路傳輸協定來遞送該等分段或子分段。例如,請求處理單元70可以被配置為從客戶端設備40接收多播群組加入請求。亦即,伺服器設備60可以向包括客戶端設備40的客戶端設備通告與多播群組相關聯的網際網路協定(IP)位址,該多播群組與特定的媒體內容(例如,實況事件的廣播)相關聯。客戶端設備40進而可以提交用於加入多播群組的請求。該請求可以在整個網路74(例如,組成網路74的路由器)中傳播,從而使路由器將去往與多播群組相關聯的IP位址的訊務導引到訂閱客戶端設備(諸如客戶端設備40)。
如在圖1的實例中所示,多媒體內容64包括清單檔案66,清單檔案66可以對應於媒體呈現描述(MPD)。清單檔案66可以包含對不同替代表示68(例如,具有不同品質的視訊服務)的描述,並且該描述可以包括例如表示68的轉碼器資訊、簡介值、級別值、位元速率和其他描述性特性。客戶端設備40可以取得媒體呈現的MPD以決定如何存取表示68的分段。
具體地,取得單元52可以取得客戶端設備40的配置資料(未圖示)以決定視訊解碼器48的解碼能力和視訊輸出44的渲染能力。配置資料亦可以包括以下各項中的任何一項或全部:由客戶端設備40的使用者選擇的語言偏好、與由客戶端設備40的使用者設置的深度偏好相對應的一或多個相機視角,及/或由客戶端設備40的使用者選擇的評級偏好。取得單元52可以包括例如被配置為提交HTTP GET和部分GET請求的網頁瀏覽器或媒體客戶端。取得單元52可以對應於由客戶端設備40的一或多個處理器或處理單元(未圖示)執行的軟體指令。在一些實例中,關於取得單元52描述的功能中的全部或部分功能可以用硬體,或者用硬體、軟體及/或韌體的組合來實現,其中可以提供必需的硬體來執行針對軟體或韌體的指令。
取得單元52可以將客戶端設備40的解碼和渲染能力與由清單檔案66的資訊所指示的表示68的特性進行比較。取得單元52可以初始地取得清單檔案66的至少一部分以決定表示68的特性。例如,取得單元52可以請求清單檔案66的描述一或多個調適集合的特性的一部分。取得單元52可以選擇表示68的具有可以由客戶端設備40的譯碼和渲染能力滿足的特性的子集(例如,調適集合)。取得單元52隨後可以決定用於在調適集合中的表示的位元速率,決定當前可用的網路頻寬量,並且從表示中的一個表示中取得具有網路頻寬可以滿足的位元速率的分段。
通常,較高位元速率的表示可以產生較高品質的視訊重播,而較低位元速率的表示可以在可用網路頻寬減小時提供足夠品質的視訊重播。相應地,當可用網路頻寬是相對高的時,取得單元52可以從相對高位元速率的表示中取得資料,而當可用網路頻寬是低的時,取得單元52可以從相對低位元速率的表示中取得資料。以此種方式,客戶端設備40可以在網路74上對多媒體資料進行串流,同時亦適應於網路74的變化的網路頻寬可用性。
另外或替代地,取得單元52可以被配置為根據諸如eMBMS或IP多播之類的廣播或多播網路通訊協定來接收資料。在此種實例中,取得單元52可以提交用於加入與特定的媒體內容相關聯的多播網路群組的請求。在加入多播群組之後,取得單元52可以接收該多播群組的資料,而無需向伺服器設備60或內容準備設備20發出另外的請求。當不再需要多播群組的資料時,取得單元52可以提交用於離開該多播群組的請求,例如,停止重播或者將通道改變到不同的多播群組。
網路介面54可以接收所選擇的表示的分段的資料並且將其提供給取得單元52,取得單元52進而可以將分段提供給解封裝單元50。解封裝單元50可以將視訊檔案的元素解封裝為組成的PES串流,對PES串流進行解封包化以取得經編碼的資料,並且向音訊解碼器46或視訊解碼器48發送經編碼的資料,此舉取決於經編碼的資料是音訊串流還是視訊串流的一部分(例如,如由該串流的PES封包標頭所指示的)。音訊解碼器46對經編碼的音訊資料進行解碼並且將經解碼的音訊資料發送到音訊輸出42,而視訊解碼器48對經編碼的視訊資料進行解碼並且將經解碼的視訊資料(其可以包括串流的複數個視圖)發送到視訊輸出44。
視訊編碼器28、視訊解碼器48、音訊編碼器26、音訊解碼器46、封裝單元30、取得單元52和解封裝單元50均可以在適用的情況下被實現為各種適當的處理電路系統中的任何一者,諸如一或多個微處理器、數位信號處理器(DSP)、特殊應用積體電路(ASIC)、現場可程式設計閘陣列(FPGA)、個別邏輯電路系統、軟體、硬體、韌體或其任何組合。視訊編碼器28和視訊解碼器48中的每一者可以被包括在一或多個編碼器或解碼器中,其中的任一者可以被整合為組合的視訊編碼器/解碼器(CODEC)的一部分。同樣,音訊編碼器26和音訊解碼器46中的每一者可以被包括在一或多個編碼器或解碼器中,其中的任一者可以被整合為組合的CODEC的一部分。包括視訊編碼器28、視訊解碼器48、音訊編碼器26、音訊解碼器46、封裝單元30、取得單元52及/或解封裝單元50的裝置可以包括積體電路、微處理器及/或無線通訊設備(諸如蜂巢式電話)。
客戶端設備40、伺服器設備60及/或內容準備設備20可以被配置為根據本案內容的技術進行操作。出於實例的目的,本案內容關於客戶端設備40和伺服器設備60描述了該等技術。然而,應當理解的是,內容準備設備20可以被配置為執行該等技術,代替(或者除了)伺服器設備60。
封裝單元30可以形成NAL單元,NAL單元包括辨識該NAL單元所屬的節目的標頭以及有效負荷(例如,音訊資料、視訊資料,或描述NAL單元所對應的傳輸或節目串流的資料)。例如,在H.264/AVC中,NAL單元包括1位元組的標頭和可變大小的有效負荷。在其有效負荷中包括視訊資料的NAL單元可以包括各種細微性級別的視訊資料。例如,NAL單元可以包括視訊資料區塊、複數個區塊、視訊資料的切片,或視訊資料的整個圖片。封裝單元30可以以基本串流的PES封包的形式從視訊編碼器28接收經編碼的視訊資料。封裝單元30可以將每個基本串流與對應的節目進行關聯。
封裝單元30亦可以從複數個NAL單元組裝存取單元。通常,存取單元可以包括一或多個NAL單元,其用於表示視訊資料的訊框,以及與該訊框相對應的音訊資料(當此種音訊資料是可用的時)。存取單元通常包括用於一個輸出時間例子的所有NAL單元,例如,用於一個時間例子的所有音訊和視訊資料。例如,若每個視圖具有20訊框每秒(fps)的訊框速率,則每個時間例子可以對應於0.05秒的時間間隔。在該時間間隔期間,可以同時渲染用於同一存取單元(同一時間例子)的所有視圖的特定訊框。在一個實例中,存取單元可以包括在一個時間例子中的經譯碼的圖片,其可以被呈現為基本經譯碼圖片。
相應地,存取單元可以包括共用時間例子的所有音訊和視訊訊框,例如,對應於時間
X的所有視圖。本案內容亦將特定視圖的經編碼的圖片稱為「視圖分量」。亦即,視圖分量可以包括在特定的時間處用於特定視圖的經編碼的圖片(或訊框)。相應地,存取單元可以被定義為包括共用時間例子的所有視圖分量。存取單元的解碼順序不一定需要與輸出或顯示順序相同。
媒體呈現可以包括媒體呈現描述(MPD),其可以包含不同替代表示(例如,具有不同品質的視訊服務)的描述,並且該描述可以包括例如轉碼器資訊、簡介值和級別值。MPD是清單檔案的一個實例,諸如清單檔案66。客戶端設備40可以取得媒體呈現的MPD,以決定如何存取各個呈現的電影片段。電影片段可以位於視訊檔案的電影片段盒(box)(moof盒)中。
清單檔案66(其可以包括例如MPD)可以通告表示68的分段的可用性。亦即,MPD可以包括指示表示68中的一個表示的第一分段變得可用的掛鐘時間的資訊,以及指示表示68內的分段的持續時間的資訊。以此種方式,客戶端設備40的取得單元52可以基於在特定分段之前的分段的開始時間以及持續時間來決定每個分段何時可用。
在封裝單元30已經基於所接收的資料將NAL單元及/或存取單元組裝為視訊檔案之後,封裝單元30將視訊檔案傳遞到輸出介面32以進行輸出。在一些實例中,封裝單元30可以將視訊檔案進行本端儲存或者經由輸出介面32將視訊檔案發送給遠端伺服器,而不是將視訊檔案直接發送給客戶端設備40。輸出介面32可以包括例如傳輸器、收發機、用於將資料寫入電腦可讀取媒體的設備(諸如例如,光學驅動器、磁性媒體驅動器(例如,軟碟機))、通用序列匯流排(USB)埠、網路介面或其他輸出介面。輸出介面32將視訊檔案輸出到電腦可讀取媒體,諸如例如,傳輸信號、磁性媒體、光學媒體、記憶體、快閃記憶體驅動器或其他電腦可讀取媒體。
網路介面54可以經由網路74接收NAL單元或存取單元,並且經由取得單元52將NAL單元或存取單元提供給解封裝單元50。解封裝單元50可以將視訊檔案的元素解封裝為組成PES串流,將PES串流進行解封包化以取得經編碼的資料,並且向音訊解碼器46或視訊解碼器48(取決於經編碼的資料是音訊串流還是視訊串流的一部分,例如如由串流的PES封包標頭指示的)發送經編碼的資料。音訊解碼器46對經編碼的音訊資料進行解碼並且將經解碼的音訊資料發送到音訊輸出42,而視訊解碼器48對經編碼的視訊資料進行解碼並且將經解碼的視訊資料(其可以包括串流的複數個視圖)發送到視訊輸出44。
根據本案內容的技術,客戶端設備40可以被配置為利用單獨的設備來執行單獨渲染或分離渲染。例如,在一些實例中,視訊輸出44可以是與客戶端設備40分離的設備,例如,如圖2中所示。通常,根據本案內容的技術,客戶端設備40可以被配置為渲染擴展現實(XR)資料。具體地,XR資料可以對應於包括XR場景的場景。XR場景可以包括一或多個所需虛擬物件,其可以包括動態虛擬物件。動態虛擬物件通常可以是動畫物件,其可以隨著XR場景被呈現給使用者而移動。例如,在用於虛擬健身房的增強現實(AR)用例中,動態虛擬物件可以包括教練或另一名學生。動態虛擬物件可以由動態網格、動畫網格或點雲端來表示。動態虛擬物件可以包括一或多個動態媒體分量(例如,用於三維虛擬物件的紋理)和零個或更多個靜態分量。例如,用於虛擬物件的幾何結構可以是靜態的,但是紋理可以是動態的。客戶端設備40可以被配置為從例如伺服器設備60取得用於場景的入口點資料。入口點資料可以包括關於所需虛擬物件的資訊,所需虛擬物件包括動態虛擬物件和動態媒體分量。
使用入口點資料,客戶端設備40可以初始化(例如,與伺服器設備60的)一數量的串流通信期,串流通信期的數量等於動態虛擬物件的數量(或用於動態虛擬物件中的每一者的動態媒體分量的數量)。亦即,客戶端設備40可以針對每個動態虛擬物件或其每個動態媒體分量初始化一串流通信期。因此,例如,若存在三個動態虛擬物件,則客戶端設備40可以初始化三個串流通信期,針對動態虛擬物件中的每一者有一個串流通信期。
作為初始化串流通信期的一部分,客戶端設備40可以配置用於串流通信期的服務品質(QoS)和計費資訊。例如,QoS和計費資訊可以由策略控制功能(PCF)來處理。動態虛擬物件中的每一者可以符合需要針對其的各種串流要求的特定類型的物件。各種類型的物件可以與不同的QoS要求相關聯。例如,動態虛擬物件可以是二維(2D)或三維(3D)物件。通常,3D物件可能需要與2D物件相比更高的位元速率串流,因為3D物件需要至少兩個不同的圖像(左眼圖像和右眼圖像)以便以3D正確地顯示。由於較高的頻寬消耗,較高的位元速率亦可能導致較高的計費成本。
作為另一實例,媒體串流可以具有不同量的位元速率,並且消耗較多頻寬,例如,由於對應的動態虛擬物件的經渲染的大小/解析度。針對動態虛擬物件,不同的品質可以是可用的。因此,QoS和計費資訊可以基於動態虛擬物件的大小及/或對應媒體串流的品質而變化。
在一些情況下,動態虛擬物件的地點(location)可能需要在XR場景中相對於使用者在XR場景中的位置(position)而精確地定位。例如,若使用者正在與動態虛擬物件進行互動(例如,在虛擬會議或視訊遊戲中),則一或多個動態虛擬物件可能需要用於與動態虛擬物件相關聯的串流通信期的精確、準確的使用者定位資訊。因此,QoS和計費資訊可能需要考慮針對準確的使用者定位資訊的需求。例如,對於需要準確的使用者定位資訊的彼等串流通信期,可以被分配和與其他動態虛擬物件(諸如平視顯示器(HUD)元素)相關聯的串流通信期相比更高的QoS。例如,若遊戲是體育遊戲,則諸如棒球或足球之類的球動態虛擬物件可能需要準確的使用者定位資訊,使得使用者可以與球進行互動(擊打、接住、投擲等)。
如前述,在一些情況下,客戶端設備40可以被配置為執行對XR資料的分離渲染。當執行分離渲染時,可以使用超低延遲譯碼結構來對媒體資料進行譯碼。例如,視訊訊框可以是以IPPP結構來譯碼的,其中第一訊框是使用訊框內譯碼進行譯碼的,而後續訊框是單向訊框間預測的。IPPP中的訊框皆不是雙向訊框間預測的,並且因此,用於此種譯碼結構的位元速率可以比其他譯碼結構(諸如IBBP)高大約30%。此外,每個經譯碼的訊框可以是訊框打包的,亦即,訊框可以包括用於以單個訊框的形式打包在一起的左眼視圖和右眼視圖兩者的資料。因此,QoS和計費要求可以考慮此種譯碼結構。例如,當客戶端設備40被配置為執行分離渲染時,用於經分離渲染的媒體串流的位元速率(諸如最小位元速率)可以高於用於非分離渲染的媒體串流的位元速率(諸如最小位元速率)。
圖2是圖示可以執行本案內容的技術的示例性計算系統100的方塊圖。在該實例中,計算系統100包括擴展現實(XR)伺服器設備110、網路130、XR客戶端設備140和顯示設備152。XR伺服器設備110包括XR場景產生單元112、XR視埠預渲染柵格化單元114、2D媒體編碼單元116、XR媒體內容遞送單元118和5G系統(5GS)遞送單元120。XR伺服器設備110亦可以包括執行歸屬於圖1的內容準備設備20和伺服器設備60的功能的元件。例如,5GS遞送單元120可以對應於圖1的網路介面72,XR場景產生單元112和XR視埠預渲染柵格化單元114可以對應於圖1的視訊源24,2D媒體編碼單元116可以對應於視訊編碼器28,並且XR媒體內容遞送單元118可以對應於圖1的封裝單元30和請求處理單元70。
網路130通常可以對應於圖1的網路74。網路130可以對應於根據一或多個網路通訊協定(諸如網際網路)進行通訊的計算設備的任何網路。具體地,網路130可以包括5G無線電存取網路(RAN),其包括XR客戶端設備140連接到存取網路130和XR伺服器設備110的存取設備。在其他實例中,可以使用其他類型的網路,諸如其他類型的RAN。
XR客戶端設備140包括5GS遞送單元150、追蹤/XR感測器146、XR視埠渲染單元142、2D媒體解碼器144和XR媒體內容遞送單元148。XR客戶端設備140亦與顯示設備152進行介面連接,以將XR媒體資料呈現給使用者(未圖示)。XR客戶端設備140可以包括執行歸屬於圖1的客戶端設備40的功能的元件。例如,5GS遞送單元150可以對應於圖1的網路介面54,並且XR媒體內容遞送單元148可以對應於圖1的取得單元52。
在一些實例中,XR場景產生單元112可以對應於互動式媒體娛樂應用程式(諸如視訊遊戲),其可以由在XR伺服器設備110的電路系統中實現的一或多個處理器來執行。XR視埠預渲染柵格化單元114可以將由XR場景產生單元112產生的場景資料格式化為用於XR客戶端設備140的使用者的視埠的經預渲染的二維(2D)媒體資料(例如,視訊資料)。2D媒體編碼單元116可以例如使用視訊編碼標準(諸如例如ITU-T H.264/高級視訊譯碼(AVC)、ITU-T H.265/高效率視訊譯碼(HEVC)、ITU-T H.266通用視訊譯碼(VVC)等)對來自XR視埠預渲染柵格化單元114的經格式化的場景資料進行編碼。在該實例中,XR媒體內容遞送單元118表示內容遞送發送器。在該實例中,XR媒體內容遞送單元148表示內容遞送接收器,並且2D媒體解碼器144可以執行錯誤處理。
通常,XR客戶端設備140可以決定使用者的視埠,例如,使用者正在觀看的方向和使用者的實體地點,該方向和實體地點可以對應於XR客戶端設備140的朝向和XR客戶端設備140的地理位置。追蹤/XR感測器146可以例如使用相機、加速計、磁強計、陀螺儀等來決定此種地點和朝向資料。追蹤/XR感測器146向XR視埠渲染單元142和5GS遞送單元150提供地點和朝向資料。XR客戶端設備140經由網路130向XR伺服器設備110提供追蹤和感測器資訊132。XR伺服器設備110進而接收追蹤和感測器資訊132,並且向XR場景產生單元112和XR視埠預渲染柵格化單元114提供該資訊。以此種方式,XR場景產生單元112可以產生用於使用者的視埠和地點的場景資料,並且隨後使用XR視埠預渲染柵格化單元114來對用於使用者的視埠的2D媒體資料預渲染。因此,XR伺服器設備110可以經由網路130(例如,使用5G無線電配置)將經編碼的、經預渲染的2D媒體資料134遞送到XR客戶端設備140。
XR場景產生單元112可以接收表示多媒體應用類型(例如,視訊遊戲類型)、應用程式的狀態、多個使用者動作等的資料。XR視埠預渲染柵格化單元114可以對經柵格化的視訊信號進行格式化。2D媒體編碼單元116可以被配置有特定的編碼器/解碼器(codec)、用於媒體編碼的位元速率、速率控制演算法和對應的參數、用於形成視訊資料的圖片的切片的資料、低時延編碼參數、錯誤恢復參數、訊框內預測參數等。XR媒體內容遞送單元118可以被配置即時傳輸協定(RTP)參數、速率控制參數、錯誤恢復資訊等。XR媒體內容遞送單元148可以被配置有回饋參數、錯誤隱藏演算法和參數、後校正演算法和參數等。
基於柵格的分離渲染代表其中XR伺服器設備110執行XR引擎(例如,XR場景產生單元112)以基於來自XR設備(例如,XR客戶端設備140)的資訊以及追蹤和感測器資訊132來產生XR場景的情況。XR伺服器設備110可以對XR視埠進行柵格化,並且使用XR視埠預渲染柵格化單元114來執行XR預渲染。
在圖2的實例中,視埠主要在XR伺服器設備110中進行渲染,但是XR客戶端設備140能夠進行最新姿勢校正,例如,使用非同步時間扭曲或其他XR姿勢校正來解決姿勢的變化。XR圖形工作負載可以被分離為在功能強大的XR伺服器設備110(在雲端或邊緣中)上的渲染工作負載和在XR客戶端設備140上的姿勢校正(諸如非同步時間扭曲(ATW))。經由由XR客戶端設備140執行的設備上非同步時間扭曲(ATW)或其他姿勢校正方法,保持低的運動到光子時延。
在一些實例中,由於接收此種經預渲染的視訊資料的XR伺服器設備110和XR客戶端設備140渲染視訊資料導致的時延可以在50毫秒(ms)的範圍內。儘管用於XR客戶端設備140提供地點和位置(例如,姿勢)資訊的時延可以較低(例如20 ms),但是XR伺服器設備110可能執行非同步時間扭曲以補償XR客戶端設備140中的最新姿勢。
以下調用流程是強調執行該等技術的步驟的實例:
1) XR客戶端設備140連接到網路130並且加入XR應用程式(例如,由XR場景產生單元112執行)。
a) XR客戶端設備140發送靜態設備資訊和能力(支援的解碼器、視埠)。
2) 基於該資訊,XR伺服器設備110設置編碼器和格式。
3) 循環:
a) XR客戶端設備140使用追蹤/XR感測器146來收集XR姿勢(或預測的XR姿勢)。
b) XR客戶端設備140以追蹤和感測器資訊132的形式向XR伺服器設備110發送XR姿勢資訊。
c) XR伺服器設備110使用追蹤和感測器資訊132,經由XR場景產生單元112和XR視埠預渲染柵格化單元114來預渲染XR視埠。
d) 2D媒體編碼單元116對XR視埠進行編碼。
e) XR媒體內容遞送單元118和5GS遞送單元120將經壓縮的媒體連同表示視埠針對其被渲染的XR姿勢的資料一起發送給XR客戶端設備140。
f) XR客戶端設備140使用2D媒體解碼器144來解壓縮視訊資料。
g) XR客戶端設備140使用與視訊訊框一起提供的XR姿勢資料和來自追蹤/XR感測器146的實際XR姿勢來改良預測並且校正局部姿勢,例如,使用由XR視埠渲染單元142執行的ATW。
各種類型的客戶端設備(亦被稱為「使用者設備」或「UE」)可以執行XR。XR客戶端設備140可以符合該等不同類型中的一種或另一種類型。下文的表1描述了若干不同類型的客戶端設備,其可以經由5G網路來執行對XR資料的分離渲染。通常,分離渲染代表經由兩個或更多個不同的設備渲染圖像。在一個實例中,分離渲染可以如下定義:
系鏈(tethered)設備或外部實體(諸如雲端或邊緣設備)進行一些預處理(例如,基於感測器和姿勢資訊對視埠進行預渲染),並且XR設備及/或系鏈設備在考慮最新的感測器資訊的情況下執行渲染(例如,應用姿勢校正)。在不同的設備和實體之間存在不同程度的分離。類似地,視覺引擎功能和其他XR/AR/MR功能(諸如AR/MR媒體重構、編碼和解碼)可以服從分離計算。
表1展示:針對參與XR的設備類型的各種實例,該等設備如何連接以存取資訊,5G Uu數據機預期放置在何處,基本AR功能放置在何處,AR/MR功能放置在何處,AR/MR應用程式在何處執行,以及電源/電池放置在何處。在所有眼鏡設備類型中,感測器、相機和麥克風皆假定位於該設備(UE)本身上。
表1:5G增強現實設備類型
設備類型名稱 | 引用 | 系鏈 | 5G Uu數據機 | 基本 AR功能 | AR/MR功能 | AR/MR應用程式 | 電源 |
5G獨立AR UE(STAR) | 1: STAR | N/A | 設備 | 設備 | 設備/分離 1) | 設備 | 設備 |
5G EDGe相關AR UE(EDGAR) | 2: EDGAR | N/A | 設備 | 設備 | 分離 1) | 雲端/邊緣 | 設備 |
5G無線系鏈AR UE | 3: WLAR | 802.11ad, 5G側行鏈路等 | 系鏈設備 (電話/定標器) | 設備 | 分離 2) | 系鏈設備 | 設備 |
5G有線系鏈AR UE 3) | 4: WTAR | USB-C | 系鏈設備 (電話/定標器) | 系鏈設備 | 分離 2) | 系鏈設備 | 系鏈設備 |
1)雲端/邊緣 2)電話/定標器及/或雲端/邊緣 3)在本文件中不考慮 |
類型1 5G獨立AR(STAR)UE可以具有以下特性:
l STAR UE是一般5G UE。經由嵌入式5G數據機來提供5G連接性
l 使用者控制是本端的,並且從感測器、音訊輸入或視訊輸入獲得
l AR/MR功能在AR/MR設備上或者分離
l 一些設備可以具有對沉浸式媒體解碼和渲染的有限支援,並且可能需要依賴於5G雲端/邊緣。在此種情況下,STAR UE可以由邊緣來輔助。
l AR/MR應用程式常駐在設備上
l 由於所需的處理量,與其他設備類型相比,此種設備很可能需要較高的功耗。
l 功能比設計更重要
l 由於設備包括所有UE功能,所以應用程式常駐並且主要在該設備上執行,並且所有基本AR/MR功能可用於典型的媒體處理用例,該設備被稱為獨立AR(STAR)UE。
類型2 5G EDGe相關AR(EDGAR)UE可以具有以下特性:
l 5G EDGAR UE是一般5G UE。經由嵌入式5G數據機來提供5G連接性
l 使用者控制是本端的,並且從感測器、音訊輸入或視訊輸入獲得。
l 媒體處理是本端的,設備需要嵌入對於解碼經預渲染的視埠所需的所有媒體轉碼器
l 基本AR功能是對於AR/MR設備是本端的,並且AR/MR功能位於5G雲端/邊緣上
l 主要AR/MR應用程式常駐在雲端/邊緣上,但是基本應用功能位於UE上,以支援一般UE功能以及啟動服務和應用程式。
l 此種眼鏡上的功耗必須足夠低,以調適形狀因素。散熱是至關重要的。
l 設計通常比功能更重要。
l 儘管EDGAR UE可以具有額外功能(例如在STAR UE中可用的功能),但是對於以媒體為中心的用例處理,通常需要由邊緣支援。
類型3 5G無線系鏈AR UE可以具有以下特性:
l 經由嵌入5G數據機的系鏈設備提供5G連接性。無線系鏈連接是經由WiFi或5G側行鏈路的。BLE(藍芽低能)連接性可以用於音訊。
l 使用者控制主要在本端提供給AR/MR設備;一些遠端使用者互動亦可以從系鏈設備啟動。
l AR/MR功能(包括SLAM/配準和姿勢校正)可以在AR/MR設備中或者分離。
l 儘管媒體處理(對於2D媒體)可以在AR眼鏡上本端完成,但是繁重AR/MR媒體處理可以在AR/MR系鏈設備上完成或分離。
l 一些設備可以具有對沉浸式媒體解碼和渲染的有限支援,並且可能需要依賴於5G雲端/邊緣
l 儘管經由利用系鏈設備的處理能力,如此設備很可能使用與類型1:5G STAR設備相比少得多的處理,但是其仍然可以支援大量本端媒體和AR/MR處理。此種設備預期提供8-10小時的電池壽命,同時保持低得多的重量。
l 系鏈眼鏡本身不是一般5G UE,但是眼鏡和手機的組合得到一般5G UE。
虛擬健身房的增強現實(AR)用例可以如下:使用者在AR眼鏡上啟動虛擬教練員應用程式(例如,客戶端設備140)。AR眼鏡呈現可用訓練慣例的列表。使用者選擇該等慣例中的用於晨練的慣例。AR眼鏡在使用者的房間內呈現虛擬教練和另一名學生。虛擬揚聲器經由實際揚聲器(例如,內置在AR眼鏡或使用者的房間中的另一設備中)呈現背景音樂。隨後,AR眼鏡呈現虛擬教練和其他學生開始鍛煉,以及亦呈現由虛擬教練提供的語音指令。
XR客戶端設備140的各種元件可以形成AR運行時間、場景管理器或5G媒體客戶端之一的一部分。例如,追蹤/XR感測器146可以表示AR運行時間,XR視埠渲染單元142可以表示場景管理器,並且5GS遞送單元150可以表示5G媒體客戶端。通常,AR運行時間可以經由API揭示對AR設備功能的存取,場景管理器可以提供解析場景的描述並且隨後使用其來取回媒體、處理輸入和渲染場景的功能,並且5G媒體客戶端可以表示使得能夠存取媒體和(例如,從XR伺服器設備110)請求資源以支援AR通信期的功能集合。
XR資料可以包括入口點、動態虛擬物件、靜態虛擬物件和空間音訊。入口點可以包括描述場景中的物件的場景描述。動態虛擬物件可以是動態網格、動畫網格、點雲端等。通常,動態虛擬物件可以在XR場景內移動,並且聲音可以源自於動態虛擬物件的相應地點。靜態物件可以是靜態網格,並且可以表示音訊可以源自其的地點。空間音訊可以表示來自人(被表示為動態虛擬物件)的發聲(例如,講話)及/或靜態或動態虛擬物件是其來源的其他聲音元素(例如,音樂、白色雜訊等)。
圖3是圖示根據本案內容的技術的被配置為5G獨立AR(STAR)使用者設備(UE)設備160的示例性客戶端設備的方塊圖。圖2的XR客戶端設備140可以根據圖3的實例進行配置。
在圖3的實例中,5G STAR UE設備160包括感測器162、相機164、視覺引擎166、使用者介面180、AR/MR應用程式182、5G媒體串流下行鏈路(5GMSd)感知應用程式184、媒體通信期處理常式(MSH)186、場景圖處理單元176、存取客戶端188、沉浸式媒體解碼器190、沉浸式視覺渲染器192、沉浸式音訊渲染器194、合成單元178、姿勢校正單元172、聲場映射單元174、顯示器168和揚聲器170。該等各種單元中的每一者皆可以用硬體、軟體或韌體或其組合來實現。當用軟體或韌體來實現時,用於軟體或韌體的指令可以被儲存在硬體記憶體中,並且由必要的硬體處理電路系統來執行。
感測器162可以是例如陀螺感測器,其被配置為偵測使用者的姿勢資訊。感測器162和相機164收集姿勢資訊和圖像,並且將用於姿勢和圖像的資料傳遞給視覺引擎166。視覺引擎166可以向姿勢校正單元172、合成單元178、沉浸式視覺渲染器192和存取客戶端188提供姿勢資訊。使用者介面180可以包括例如用於收集使用者輸入的遊戲控制器、按鈕、操縱桿等。使用者介面180可以將使用者輸入傳遞給增強現實/混合現實(AR/MR)應用程式182。
AR/MR應用程式182和5GMSd感知應用程式184可以是相同的應用程式或者是彼此通訊的單獨應用程式。通常,AR/MR應用程式182可以從使用者介面180以及經由5GMSd感知應用程式184從其他使用者及/或從與該應用程式相關聯的伺服器(諸如5GMSd+AR/MR應用程式提供者200)獲得使用者輸入。AR/MR應用程式182可以根據來自伺服器、使用者和其他使用者的各種輸入來決定要向5G STAR UE設備160的使用者呈現什麼,例如,要顯示的虛擬物件、要應用於動態虛擬物件的動畫等。動畫可以作為用於動態虛擬物件的動態媒體分量進行串流。5GMSd感知應用程式184可以將資訊傳遞給媒體通信期處理常式(MSH)186,媒體通信期處理常式(MSH)186亦可以從5GMSd應用功能(AF)202接收資訊。
MSH 186可以向存取客戶端188提供該資訊,存取客戶端188亦可以從5GMSd應用伺服器(AS)210接收一或多個媒體串流。具體地,根據本案內容的技術,各種動態虛擬物件中的每一者皆可以與例如5GMSd AS 210的相應媒體串流通信期相關聯。亦即,用於各種動態虛擬物件中的每一者的媒體資料可以經由相應不同的媒體串流通信期發送給5G STAR UE設備160。媒體串流通信期中的每一者可以具有從清單伺服器212接收的相應清單檔案(例如,MPD)和由分段伺服器214提供的媒體資料。
存取客戶端188可以對各個媒體串流通信期中的每一者進行初始化,如下文關於例如圖5和圖6所描述的。根據本案內容的技術,媒體串流通信期中的每一者可以具有相應的相關聯的服務品質(QoS)和計費配置,例如,根據動態虛擬物件的類型。例如,QoS和計費配置可以取決於對應的動態虛擬物件是2D還是3D物件、是否需要準確的使用者位置資訊、對於媒體串流通信期所需要的頻寬量、5G STAR UE設備160是否被配置為執行分離渲染(在圖3的實例中,5G STAR UE設備160不執行分離渲染)等。存取客戶端188可以接收用於各個媒體串流通信期的媒體資料,並且將媒體資料提供給沉浸式媒體解碼器190。
經由針對每個動態虛擬物件配置QoS和計費資訊,5G STAR UE設備160可以使得用於某些動態虛擬物件的媒體資料以比其他媒體資料更高的優先順序遞送。例如,若某個動態虛擬物件需要用於5G STAR UE設備160的使用者的準確位置資訊(例如,針對其啟用了與5G STAR UE設備160的使用者的碰撞偵測的動態虛擬物件),則與其他資料相比,可能需要更迫切地向5GMSd AS 210提供此種位置資訊。在單獨的、相應的媒體串流中提供用於不同的動態虛擬物件的媒體資料允許以優先化方式遞送某些媒體資料(以及用於產生媒體資料的輸入),以及以非優先化(盡力而為)方式遞送其他媒體資料,此舉可以增加在利用可用網路頻寬態樣的靈活性。此外,經由單獨地配置QoS和計費資訊,可以更容易地實現用於所有串流通信期的QoS。
媒體串流中的每一者可以與沉浸式媒體解碼器190中的相應一者相關聯。沉浸式媒體解碼器190可以解碼音訊和視訊媒體資料,並且將經解碼的音訊資料傳遞給沉浸式音訊渲染器194,並且將經解碼的視訊資料傳遞給沉浸式視覺渲染器192。沉浸式視覺渲染器192可以渲染用於各種動態虛擬物件中的每一者的視訊資料,並且將經渲染的媒體資料提供給合成單元178。合成單元178可以合成包括用於各種動態虛擬物件中的每一者的資料的單個訊框(或多個訊框,例如,用於3D呈現的左眼訊框和右眼訊框),並且將該等訊框提供給姿勢校正單元172。姿勢校正單元172可以根據當前使用者姿勢來修改經合成的訊框(例如經由旋轉或平移訊框中的圖像),隨後將經姿勢校正的訊框提供給顯示器168以用於顯示給使用者。
沉浸式音訊渲染器194可以渲染音訊資料,並且將經渲染的音訊資料提供給聲場映射單元174。聲場映射單元174可以使用姿勢資訊來修改所接收的經渲染音訊資料,例如,根據使用者姿勢以及用於與從其呈現音訊的物件的位置的相對位置。
圖4是圖示根據本案內容的技術的被配置為5G EDGe相關AR(EDGAR)使用者設備(UE)設備220的另一示例性客戶端設備的方塊圖。圖2的XR客戶端設備140可以根據圖4的實例進行配置。在該實例中,5G EDGAR UE設備220被配置為與5G EDGE伺服器設備250一起執行分離渲染。
在該實例中,5G EDGAR UE設備220包括感測器222、相機224、麥克風226、視覺引擎228、編碼器230、5G系統242、解碼器232、合成單元234、姿勢校正單元236、顯示器238、揚聲器240、5G系統242、使用者介面244和AR/MR應用程式246。該實例中的5G EDGE伺服器設備250包括5GMSd應用程式252、MSH 254、存取客戶端256、解碼器258、渲染單元260、合成單元262、解碼器264、編碼器266和5G系統268。該等各種單元之每一者單元皆可以用硬體、軟體或韌體或其組合來實現。當用軟體或韌體來實現時,用於軟體或韌體的指令可以被儲存在硬體記憶體中,並且由必要的硬體處理電路系統來執行。
通常,5G EDGAR UE設備220和5G EDGE伺服器設備250的各種元件一起操作,以便以基本上類似於圖3的5G STAR UE設備160的對應元件的方式執行分離渲染。亦即,5G EDGE伺服器設備250執行第一渲染程序,並且將第一渲染程序的結果提供給5G EDGAR UE設備220,5G EDGAR UE設備220執行第二渲染程序,以最終經由顯示器238和揚聲器240輸出經渲染的視訊和音訊資料。
在該實例中,5G EDGE伺服器設備250與5GMSd+AR/MR應用程式提供者270、5GMSd 272和5GMSd AS 280進行通訊。根據本案內容的技術,5G EDGE伺服器設備250對來自5GMSd AS 280的用於XR場景的動態虛擬物件的相應媒體串流通信期進行初始化。如上文關於圖3所論述的,媒體串流通信期中每一者可以包括由清單伺服器282提供的相應清單檔案和由分段伺服器284提供的媒體資料分段。
根據本案內容的技術,媒體串流通信期中的每一者可以具有相應的相關聯的服務品質(QoS)和計費配置,例如,根據動態虛擬物件的類型。例如,QoS和計費配置可以取決於對應的動態虛擬物件是2D還是3D物件、是否需要準確的使用者位置資訊、對於媒體串流通信期所需要的頻寬量、5G EDGAR UE設備220是否被配置為執行分離渲染(在圖4的實例中,5G EDGAR UE設備220被配置為執行分離渲染)等。存取客戶端256可以接收用於各個媒體串流通信期的媒體資料,並且將媒體資料提供給解碼器258。
在該實例中,第一渲染程序包括由解碼器258對各個媒體串流通信期的媒體資料進行解碼。渲染單元260可以渲染用於各個媒體串流通信期中的每一者的視訊資料,並且合成單元262可以合成包括每個動態虛擬物件的渲染資料的訊框。在此實例中,編碼器266隨後可以對渲染訊框進行編碼,並且5G EDGE伺服器設備250可以經由5G系統268將經渲染的訊框傳輸給5G EDGAR UE設備220。
在該實例中,5G EDGAR UE設備220在經由5G系統242接收經編碼的經渲染訊框之後執行第二渲染程序。解碼器232對經渲染的訊框進行解碼,合成單元234可以進一步合成訊框以包括用於一或多個額外虛擬物件的資料。姿勢校正單元236隨後可以修改合成訊框以考慮由感測器222及/或相機224收集的經更新的使用者姿勢資訊。最終,5G EDGAR UE設備220可以經由顯示器238輸出訊框。類似地,5G EDGAR UE設備220可以經由揚聲器240輸出音訊資料。儘管在圖4的實例中未圖示,但是5G EDGAR UE設備220可以進一步包括如圖3的實例中的聲場映射單元,其可以根據經更新的姿勢資訊來修改音訊資料。
圖5是圖示根據本案內容的技術的用於STAR使用者設備的示例性增強現實通信期的調用流程圖。當根據圖3的實例來配置XR客戶端設備140時,XR客戶端設備140可以執行圖5的調用流程的某些態樣,例如,歸屬於AR/MR應用程式182、其AR引擎、沉浸式媒體解碼器190、場景描述處理常式(例如,場景圖處理單元176)和媒體通信期處理常式(MSH)186的彼等功能。當根據圖4的實例來配置XR客戶端設備140時,XR客戶端設備140可以執行如上文關於圖4所論述的分離渲染。
在圖5的實例中,最初,使用者啟動應用程式。應用程式連接到雲端以取回用於使用者的鍛煉慣例列表(400)。
應用程式提供者(AP)向應用程式發送慣例列表(402)。每個慣例皆與用於該慣例的入口點相關聯。入口點通常是描述場景中的物件並且利用世界空間錨定場景的場景描述。
應用程式從使用者接收慣例選擇(404)。
應用程式從應用程式提供者取回用於所選擇的慣例的場景描述(406)。應用程式亦利用入口點來初始化沉浸式場景渲染器(ISR)(408)。
通信期描述處理常式解析入口點以提取場景中的所需物件的資訊,並且向應用程式提供媒體存取資訊(410)。在上文的示例性用例中,教練、學生和講話者是將在場景中渲染的3個物件。教練和學生是動態虛擬物件的實例。揚聲器是靜態虛擬物件的實例。
應用程式向MSH通知其將為2個動態虛擬物件啟動2個串流通信期(412)。例如,根據PDU通信期使用者平面協定,2個串流通信期中的每一者可以是協定資料單元(PDU)通信期。
MSH與AF共享資訊,並且基於應用程式提供者的現有設置,AF可以請求對PDU通信期的QoS和計費修改(414)。例如,AF可以將該請求通知給策略控制功能(PCF)。並且PCF可以啟動或修改PDU通信期。在一些實現方式中,用於PDU通信期的錨點可以是使用者平面功能(UPF)。隨後,PCF可以確保經由UPF將相應的QoS流程分配給相應的PDU通信期。經由共享該資訊,MSH可以被配置有符合相應QoS和計費資訊的串流通信期。
應用程式建立新的XR通信期,並且將場景錨定到XR通信期中的選擇的空間,並且隨後開始媒體交換。具體地,在上文的示例性用例中,應用程式取回用於場景中的靜態物件(在該實例中為揚聲器)的資料(418)。隨後,應用程式取得用於物件1的清單(420)和用於物件2的清單(422)。在上文的示例性用例中,物件1是教練的動態虛擬物件,而物件2是其他學生的動態虛擬物件。
隨後,應用程式基於每個物件的分量來配置沉浸式視訊解碼器(424)。隨後,應用程式取得用於每個物件的每個分量的媒體分段(426)。媒體解碼器解碼媒體分段(428),並且將經解碼的媒體資料傳遞給沉浸式媒體渲染器(430)。
沉浸式視覺渲染器經由反覆運算地決定使用者的最新姿勢(432)並且重構每個物件並且將其渲染為交換鏈圖像,從而週期性地渲染訊框。交換鏈圖像將被傳遞給合成器以進行渲染(434)。
圖6是圖示根據本案內容的技術的用於EDGAR使用者設備的示例性增強現實通信期的調用流程圖。當根據圖4的實例來配置XR客戶端設備140時,XR客戶端設備140可以執行圖6的調用流程的某些態樣,例如,歸屬於5GMSD應用程式252和對應AR引擎的彼等功能。EDGE伺服器(諸如圖4的5G EDGE伺服器設備250)可以以分離渲染的形式參與圖6的技術,其中EDGE伺服器可以包括沉浸式媒體解碼器258、場景描述處理常式和媒體通信期處理常式(MSH)254。
使用者啟動應用程式。應用程式連接到雲端以取回用於使用者的媒體節目列表(例如,鍛煉慣例)(440)。
應用程式提供者(AP)向應用程式發送節目(例如,慣例)列表(442)。每個慣例皆與用於該慣例的入口點相關聯。入口點通常是描述場景中的物件並且利用世界空間錨定場景的場景描述。
應用程式從使用者接收偏好選擇的慣例(444)。
應用程式發送針對到所選擇的內容的入口點的請求(446)。應用程式提供者利用到場景描述的入口點和針對場景的最佳處理的要求列表進行回應。應用程式決定需要EDGE支援,並且向MSH發送請求以探索可以為應用程式服務的適當的邊緣應用伺服器(AS)(448)。
MSH向AF發送要求,並且接收候選邊緣應用伺服器列表(EAS)(450)。
MSH從候選列表中選擇適當的EAS(452)。
MSH向應用程式提供EAS的地點(454)。
應用程式連接到EAS並且提供初始化資訊(456)。初始化資訊包含:到場景描述入口點或實際場景描述的URL、其當前處理能力、支援的格式和協定等。
EAS相應地配置伺服器應用程式,並且為客戶端產生自訂入口點(458)。格式可以取決於UE的能力。EAS基於應用程式的當前能力來調整由EAS執行的處理量。例如,EAS可以執行場景照明和光線追蹤,並且隨後產生用於應用程式的簡化的3D場景描述。能力較差的UE可以接收更平面的場景,該場景包含立體眼睛視角和一些深度資訊。
其餘步驟類似於圖5的STAR調用流程中的步驟410至434。
以此種方式,圖5和圖6的方法表示一種處理擴展現實(XR)資料的方法的實例,包括以下步驟:解析場景的入口點資料以提取關於用於XR場景的一或多個所需虛擬物件的資訊,一或多個所需虛擬物件包括大於一的一數量的動態虛擬物件;使用入口點資料來初始化一數量的串流通信期,串流通信期的數量等於動態虛擬物件的數量,其中初始化一數量的串流通信期包括配置用於串流通信期的服務品質(QoS)和計費資訊;經由相應數量的串流通信期中的一個串流通信期來取得用於該數量的動態虛擬物件之每一者動態虛擬物件的媒體資料;及向渲染單元發送所取得的媒體資料以渲染XR場景,以在XR場景內的對應地點處包括所取得的媒體資料。
圖7是圖示根據本案內容的技術的處理XR資料的示例性方法的流程圖。圖7的方法通常可以由XR客戶端設備來執行,諸如圖1的客戶端設備40或圖2的XR客戶端設備140。XR客戶端設備可以被配置為根據圖3的5G STAR UE設備160的實例執行單獨渲染,或者根據圖4的5G EDGAR UE設備220的實例執行分離渲染。為了解釋的目的,關於圖2的XR客戶端設備140解釋了圖7的方法。
最初,XR客戶端設備140可以決定用於XR場景的一或多個動態虛擬物件(500)。例如,XR客戶端設備140可以接收和解析包括XR場景的入口點資料的場景描述。XR客戶端設備140可以提取關於用於XR場景的一或多個所需虛擬物件的資訊。所需虛擬物件可以包括一或多個動態虛擬物件,亦即被設計為隨時間變化的虛擬物件。在一些實例中,所需虛擬物件亦可以包括靜態虛擬物件。
XR客戶端設備140可以對用於XR場景的媒體串流通信期以及用於動態虛擬物件之每一者動態虛擬物件的一或多個額外媒體串流通信期進行初始化(502)。因此,若存在N個動態虛擬物件,則XR客戶端設備140可以初始化N+1個媒體串流通信期,一個媒體串流通信期用於XR場景,而一個用於動態虛擬物件之每一者動態虛擬物件。
此外,XR客戶端設備140可以決定動態虛擬物件的類型,並且配置用於串流通信期的服務品質(QoS)和計費(504)。例如,XR客戶端設備140可以根據以下各項來決定QoS和計費:用於動態虛擬物件的媒體資料是2D還是3D、對於媒體串流通信期所需要的頻寬量、針對媒體串流通信期是否需要準確的使用者定位資訊及/或XR客戶端設備140被配置為執行單獨渲染還是分離渲染。
隨後,XR客戶端設備140可以經由相應的媒體串流通信期來取得用於XR場景和動態虛擬物件的媒體資料(506)。XR客戶端設備140可以解碼經由媒體串流通信期之每一者媒體串流通信期接收的媒體資料(508)。XR客戶端設備140亦可以渲染所接收的媒體資料(510)。XR客戶端設備140亦可以合成包括經渲染的媒體資料的視訊訊框(512)。在一些情況下,XR客戶端設備140可以決定當前使用者姿勢資訊(514),並且使用姿勢資訊來更新經合成的訊框(516)。最終,XR客戶端設備140可以顯示訊框。
以此種方式,圖7的方法表示一種處理擴展現實(XR)資料的方法的實例,包括以下步驟:解析場景的入口點資料以提取關於用於XR場景的一或多個所需虛擬物件的資訊,一或多個所需虛擬物件包括大於一的一數量的動態虛擬物件;使用入口點資料來初始化一數量的串流通信期,串流通信期的數量等於動態虛擬物件的數量,其中初始化一數量的串流通信期包括配置用於串流通信期的服務品質(QoS)和計費資訊;經由相應數量的串流通信期中的一個串流通信期來取得用於該數量的動態虛擬物件之每一者動態虛擬物件的媒體資料;及向渲染單元發送所取得的媒體資料以渲染XR場景,以在XR場景內的相應地點處包括所取得的媒體資料。
在以下條款中概述了本案內容的各種示例性技術:
條款1:一種處理擴展現實(XR)資料的方法,該方法包括以下步驟:解析場景的入口點資料以提取關於用於XR場景的一或多個所需虛擬物件的資訊,該一或多個所需虛擬物件包括大於一的一數量的動態虛擬物件;初始化一數量的串流通信期,串流通信期的數量等於該動態虛擬物件的數量;經由相應數量的串流通信期中的一個串流通信期來取得用於該數量的動態虛擬物件之每一者動態虛擬物件的媒體資料;及向渲染單元發送所取得的媒體資料以渲染該XR場景,以在該XR場景內的對應地點處包括所取得的媒體資料。
條款2:根據條款1之方法,亦包括以下步驟:建立XR通信期;及將該XR場景錨定到用於該XR通信期的真實世界空間。
條款3:根據條款1和2中任一項之方法,其中該等所需虛擬物件亦包括一或多個靜態虛擬物件,該方法亦包括以下步驟:取得用於該一或多個靜態虛擬物件之每一者靜態虛擬物件的媒體資料,並且其中渲染該XR場景亦包括:渲染該XR場景,以在該XR場景內的對應地點處包括所取得的用於該一或多個靜態虛擬物件的媒體資料。
條款4:根據條款1-3中任一項之方法,其中取得用於該數量的動態虛擬物件之每一者動態虛擬物件的該媒體資料包括:取得用於該數量的動態虛擬物件之每一者動態虛擬物件的清單檔案;及使用相應的清單檔案來取得用於該數量的動態虛擬物件之每一者動態虛擬物件的媒體分段。
條款5:根據條款4之方法,其中該等清單檔案包括媒體呈現描述(MPD)。
條款6:根據條款1-5中任一項之方法,亦包括以下步驟:配置用於該數量的動態虛擬物件之每一者動態虛擬物件的沉浸式視訊解碼器。
條款7:根據條款1-6中任一項之方法,亦包括以下步驟:取得可用XR通信期的列表,該等可用XR通信期之每一者XR通信期具有相關聯的入口點資料;接收對該等可用XR通信期中的一個XR通信期的選擇;及取得用於該等可用XR通信期中的所選擇的一個XR通信期的場景描述,該場景描述包括與該等可用XR通信期中的所選擇的一個XR通信期的相關聯的該入口點資料。
條款8:根據條款1-6中任一項之方法,亦包括以下步驟:取得可用XR通信期的列表,該等可用XR通信期之每一者XR通信期具有相關聯的入口點資料;接收對該等可用XR通信期中的一個XR通信期的選擇;請求與該等可用XR通信期中的該一個XR通信期相關聯的該入口點資料;接收所請求的入口點資料和表示針對用於該等可用XR通信期中的所選擇的一個XR通信期的場景的最佳處理的要求的資料;回應於決定該等要求包括邊緣支援,來請求表示用於該等可用XR通信期中的所選擇的一個XR通信期的邊緣應用伺服器(AS)的資料;向該邊緣AS發送用於該等可用XR通信期中的所選擇的一個XR通信期的初始化資訊;及從該邊緣AS接收用於該等可用XR通信期中的所選擇的一個XR通信期的自訂入口點資料。
條款9:根據條款1-8中任一項之方法,其中該入口點資料包括場景描述,該場景描述包括關於用於該XR場景的該一或多個所需虛擬物件的該資訊。
條款10:根據條款1-9中任一項之方法,其中該動態虛擬物件包括動態網格、動畫網格或點雲端中的至少一項。
條款11:根據條款1-10中任一項之方法,亦包括以下步驟:取得用於該數量的動態虛擬物件中的至少一個動態虛擬物件的音訊資料,並且呈現所取得的音訊資料。
條款12:一種用於處理擴展現實(XR)資料的設備,該設備包括用於執行根據條款1-11中任一項之方法的一或多個構件。
條款13:根據條款12之設備,其中該一或多個構件包括在電路系統中實現的一或多個處理器。
條款14:根據條款12和13中任一項之設備,亦包括:被配置為顯示該XR資料的顯示器。
條款15:根據條款12-14中任一項之設備,其中該設備包括相機、電腦、行動設備、廣播接收器設備或機上盒中的一者或多者。
條款16:根據條款12-15之設備,亦包括:被配置用於儲存該XR資料的記憶體。
條款17:一種具有儲存在其上的指令的電腦可讀取儲存媒體,該等指令在被執行時使得用於解碼視訊資料的設備的處理器執行根據條款1-11中任一項之方法。
條款18:一種用於處理擴展現實(XR)資料的設備,該設備包括:用於解析場景的入口點資料以提取關於用於XR場景的一或多個所需虛擬物件的資訊的構件,該一或多個所需虛擬物件包括大於一的一數量的動態虛擬物件;用於初始化一數量的串流通信期的構件,串流通信期的數量等於該動態虛擬物件的數量;用於經由相應數量的串流通信期中的一個串流通信期來取得用於該數量的動態虛擬物件之每一者動態虛擬物件的媒體資料的構件;及用於向渲染單元發送所取得的媒體資料以渲染該XR場景,以在該XR場景內的對應地點處包括所取得的媒體資料的構件。
條款19:一種處理擴展現實(XR)資料的方法,該方法包括以下步驟:解析場景的入口點資料以提取關於用於XR場景的一或多個所需虛擬物件的資訊,該一或多個所需虛擬物件包括大於一的一數量的動態虛擬物件;使用該入口點資料來初始化一數量的串流通信期,該串流通信期的數量等於該動態虛擬物件的數量,其中初始化該數量的串流通信期包括按照用於該等串流通信期的經配置的服務品質(QoS)和計費資訊來初始化該等串流通信期;經由相應數量的串流通信期中的一個串流通信期來取得用於該數量的動態虛擬物件之每一者動態虛擬物件的媒體資料;及向渲染單元發送所取得的媒體資料以渲染該XR場景,以在該XR場景內的對應地點處包括所取得的媒體資料。
條款20:根據條款19之方法,其中配置用於該等串流通信期的該QoS和計費資訊包括:針對該等動態虛擬物件之每一者動態虛擬物件:決定該動態虛擬物件的類型;及根據該動態虛擬物件的類型來決定QoS和計費資訊。
條款21:根據條款20之方法,亦包括以下步驟:針對該等動態虛擬物件中的至少一個動態虛擬物件:決定用於與該等動態虛擬物件中的該至少一個動態虛擬物件的類型相關聯的該串流通信期的該媒體資料是二維(2D)媒體資料還是三維(3D)媒體資料;及根據用於與該等動態虛擬物件中的該至少一個動態虛擬物件的類型相關聯的該串流通信期的該媒體資料是該2D媒體資料還是該3D媒體資料,來決定該QoS和計費資訊。
條款22:根據條款19之方法,其中配置用於該等串流通信期的該QoS和計費資訊包括:針對該等動態虛擬物件之每一者動態虛擬物件:決定對於與用於該動態虛擬物件的該串流通信期相關聯的該媒體資料所需要的頻寬量;及根據所需要的該頻寬量來配置用於該動態虛擬物件的該串流通信期的該QoS和計費資訊。
條款23:根據條款19之方法,其中配置用於該等串流通信期的該QoS和計費資訊包括:針對該等動態虛擬物件之每一者動態虛擬物件:決定對於用於該動態虛擬物件的該串流通信期需要準確的使用者定位資訊;及根據決定需要該準確的使用者定位資訊,來配置用於該動態虛擬物件的該串流通信期的該QoS和計費資訊。
條款24:根據條款19之方法,其中配置用於該等串流通信期的該QoS和計費資訊包括:決定該渲染單元是否被配置為執行對該媒體資料的分離渲染;當該渲染單元未被配置為執行分離渲染時,決定用於該等串流通信期的第一位元速率;及當該渲染單元被配置為執行分離渲染時,決定用於該等串流通信期的第二位元速率,該第二位元速率高於該第一位元速率。
條款25:根據條款19之方法,亦包括以下步驟:建立XR通信期;及將該XR場景錨定到用於該XR通信期的真實世界空間。
條款26:根據條款19之方法,其中該等所需虛擬物件亦包括一或多個靜態虛擬物件,該方法亦包括以下步驟:取得用於該一或多個靜態虛擬物件之每一者靜態虛擬物件的媒體資料,並且其中渲染該XR場景亦包括:渲染該XR場景,以在該XR場景內的對應地點處包括所取得的用於該一或多個靜態虛擬物件的媒體資料。
條款27:根據條款19之方法,其中取得用於該數量的動態虛擬物件之每一者動態虛擬物件的該媒體資料包括:取得用於該數量的動態虛擬物件之每一者動態虛擬物件的清單檔案;及使用相應的清單檔案來取得用於該數量的動態虛擬物件之每一者動態虛擬物件的媒體分段。
條款28:根據條款27之方法,其中該等清單檔案包括媒體呈現描述(MPD)。
條款29:根據條款1之方法,亦包括以下步驟:配置用於該數量的動態虛擬物件之每一者動態虛擬物件的沉浸式視訊解碼器。
條款30:根據條款1之方法,亦包括以下步驟:取得可用XR通信期的列表,該等可用XR通信期之每一者XR通信期具有相關聯的入口點資料;接收對該等可用XR通信期中的一個XR通信期的選擇;及取得用於該等可用XR通信期中的所選擇的一個XR通信期的場景描述,該場景描述包括與該等可用XR通信期中的所選擇的一個XR通信期的相關聯的該入口點資料。
條款31:根據條款1之方法,亦包括以下步驟:取得可用XR通信期的列表,該等可用XR通信期之每一者XR通信期具有相關聯的入口點資料;接收對該等可用XR通信期中的一個XR通信期的選擇;請求與該等可用XR通信期中的該一個XR通信期相關聯的該入口點資料;接收所請求的入口點資料和表示針對用於該等可用XR通信期中的所選擇的一個XR通信期的場景的最佳處理的要求的資料;回應於決定該等要求包括邊緣支援,來請求表示用於該等可用XR通信期中的所選擇的一個XR通信期的邊緣應用伺服器(AS)的資料;向該邊緣AS發送用於該等可用XR通信期中的所選擇的一個XR通信期的初始化資訊;及從該邊緣AS接收用於該等可用XR通信期中的所選擇的一個XR通信期的自訂入口點資料。
條款32:根據條款1之方法,其中該入口點資料包括場景描述,該場景描述包括關於用於該XR場景的該一或多個所需虛擬物件的該資訊。
條款33:根據條款1之方法,其中該等動態虛擬物件包括動態網格、動畫網格或點雲端中的至少一項。
條款34:根據條款1之方法,亦包括以下步驟:取得用於該數量的動態虛擬物件中的至少一個動態虛擬物件的音訊資料,並且呈現所取得的音訊資料。
條款35:一種用於處理擴展現實(XR)資料的設備,該設備包括:記憶體,其被配置為儲存XR資料和媒體資料;及一或多個處理器,其在電路系統中實現並且被配置為:解析場景的入口點資料以提取關於用於XR場景的一或多個所需虛擬物件的資訊,該一或多個所需虛擬物件包括大於一的一數量的動態虛擬物件;使用該入口點資料來初始化一數量的串流通信期,該串流通信期的數量等於該動態虛擬物件的數量,其中為了初始化該數量的串流通信期,該一或多個處理器被配置為按照用於該等串流通信期的經配置的服務品質(QoS)和計費資訊來初始化該等串流通信期;經由相應數量的串流通信期中的一個串流通信期來取得用於該數量的動態虛擬物件之每一者動態虛擬物件的媒體資料;及向渲染單元發送所取得的媒體資料以渲染該XR場景,以在該XR場景內的對應地點處包括所取得的媒體資料。
條款36:根據條款35之設備,其中為了配置用於該等串流通信期的該QoS和計費資訊,該一或多個處理器被配置為:針對該等動態虛擬物件之每一者動態虛擬物件:決定該動態虛擬物件的類型;及根據該動態虛擬物件的類型來決定QoS和計費資訊。
條款37:根據條款35之設備,其中該一或多個處理器亦被配置為:建立XR通信期;及將該XR場景錨定到用於該XR通信期的真實世界空間。
條款38:根據條款35之設備,其中該等所需虛擬物件亦包括一或多個靜態虛擬物件,並且其中該一或多個處理器亦被配置為:取得用於該一或多個靜態虛擬物件之每一者靜態虛擬物件的媒體資料,並且其中為了渲染該XR場景,該一或多個處理器亦被配置為:渲染該XR場景,以在該XR場景內的對應地點處包括所取得的用於該一或多個靜態虛擬物件的媒體資料。
條款39:根據條款35之設備,其中為了取得用於該數量的動態虛擬物件之每一者動態虛擬物件的該媒體資料,該一或多個處理器被配置為:取得用於該數量的動態虛擬物件之每一者動態虛擬物件的清單檔案;及使用相應的清單檔案來取得用於該數量的動態虛擬物件之每一者動態虛擬物件的媒體分段。
條款40:根據條款35之設備,其中該一或多個處理器亦被配置為:取得可用XR通信期的列表,該等可用XR通信期之每一者XR通信期具有相關聯的入口點資料;接收對該等可用XR通信期中的一個XR通信期的選擇;及取得用於該等可用XR通信期中的所選擇的一個XR通信期的場景描述,該場景描述包括與該等可用XR通信期中的所選擇的一個XR通信期的相關聯的該入口點資料。
條款41:根據條款35之設備,其中該一或多個處理器亦被配置為:取得可用XR通信期的列表,該等可用XR通信期之每一者XR通信期具有相關聯的入口點資料;接收對該等可用XR通信期中的一個XR通信期的選擇;請求與該等可用XR通信期中的該一個XR通信期相關聯的該入口點資料;接收所請求的入口點資料和表示針對用於該等可用XR通信期中的所選擇的一個XR通信期的場景的最佳處理的要求的資料;回應於決定該等要求包括邊緣支援,來請求表示用於該等可用XR通信期中的所選擇的一個XR通信期的邊緣應用伺服器(AS)的資料;向該邊緣AS發送用於該等可用XR通信期中的所選擇的一個XR通信期的初始化資訊;及從該邊緣AS接收用於該等可用XR通信期中的所選擇的一個XR通信期的自訂入口點資料。
條款42:根據條款35之設備,其中該入口點資料包括場景描述,該場景描述包括關於用於該XR場景的該一或多個所需虛擬物件的該資訊。
條款43:根據條款35之設備,其中該等動態虛擬物件包括動態網格、動畫網格或點雲端中的至少一項。
條款44:根據條款35之設備,亦包括:被配置為顯示該XR資料的顯示器。
條款45:根據條款35之設備,其中該設備包括相機、電腦、行動設備、廣播接收器設備或機上盒中的一者或多者。
條款46:一種具有儲存在其上的指令的電腦可讀取儲存媒體,該等指令在被執行時使得處理器進行以下操作:解析場景的入口點資料以提取關於用於XR場景的一或多個所需虛擬物件的資訊,該一或多個所需虛擬物件包括大於一的一數量的動態虛擬物件;使用該入口點資料來初始化一數量的串流通信期,該串流通信期的數量等於該動態虛擬物件的數量,其中使得該處理器初始化該數量的串流通信期的該等指令包括使得該處理器進行以下操作的指令:按照用於該等串流通信期的經配置的服務品質(QoS)和計費資訊來初始化該等串流通信期;經由相應數量的串流通信期中的一個串流通信期來取得用於該數量的動態虛擬物件之每一者動態虛擬物件的媒體資料;及向渲染單元發送所取得的媒體資料以渲染該XR場景,以在該XR場景內的對應地點處包括所取得的媒體資料。
條款47:一種用於處理擴展現實(XR)資料的設備,該設備包括:用於解析場景的入口點資料以提取關於用於XR場景的一或多個所需虛擬物件的資訊的構件,該一或多個所需虛擬物件包括大於一的一數量的動態虛擬物件;用於初始化一數量的串流通信期的構件,該串流通信期的數量等於該動態虛擬物件的數量,其中該用於初始化該數量的串流通信期的構件包括用於按照用於該等串流通信期的經配置的服務品質(QoS)和計費資訊來初始化該等串流通信期的構件;用於經由相應數量的串流通信期中的一個串流通信期來取得用於該數量的動態虛擬物件之每一者動態虛擬物件的媒體資料的構件;及用於向渲染單元發送所取得的媒體資料以渲染該XR場景,以在該XR場景內的對應地點處包括所取得的媒體資料的構件。
條款48:一種處理擴展現實(XR)資料的方法,該方法包括以下步驟:解析場景的入口點資料以提取關於用於XR場景的一或多個所需虛擬物件的資訊,該一或多個所需虛擬物件包括大於一的一數量的動態虛擬物件;使用該入口點資料來初始化一數量的串流通信期,該串流通信期的數量等於該動態虛擬物件的數量,其中初始化該數量的串流通信期包括按照用於該等串流通信期的經配置的服務品質(QoS)和計費資訊來初始化該等串流通信期;經由相應數量的串流通信期中的一個串流通信期來取得用於該數量的動態虛擬物件之每一者動態虛擬物件的媒體資料;及向渲染單元發送所取得的媒體資料以渲染該XR場景,以在該XR場景內的對應地點處包括所取得的媒體資料。
條款49:根據條款48之方法,其中配置用於該等串流通信期的該QoS和計費資訊包括:針對該等動態虛擬物件之每一者動態虛擬物件:決定該動態虛擬物件的類型;及根據該動態虛擬物件的類型來決定QoS和計費資訊。
條款50:根據條款49之方法,亦包括以下步驟:針對該等動態虛擬物件中的至少一個動態虛擬物件:決定用於與該等動態虛擬物件中的該至少一個動態虛擬物件的類型相關聯的該串流通信期的該媒體資料是二維(2D)媒體資料還是三維(3D)媒體資料;及根據用於與該等動態虛擬物件中的該至少一個動態虛擬物件的類型相關聯的該串流通信期的該媒體資料是該2D媒體資料還是該3D媒體資料,來決定該QoS和計費資訊。
條款51:根據條款48-50中任一項之方法,其中配置用於該等串流通信期的該QoS和計費資訊包括:針對該等動態虛擬物件之每一者動態虛擬物件:決定對於與用於該動態虛擬物件的該串流通信期相關聯的該媒體資料所需要的頻寬量;及根據所需要的該頻寬量來配置用於該動態虛擬物件的該串流通信期的該QoS和計費資訊。
條款52:根據條款48-51中任一項之方法,其中配置用於該等串流通信期的該QoS和計費資訊包括:針對該等動態虛擬物件之每一者動態虛擬物件:決定對於用於該動態虛擬物件的該串流通信期需要準確的使用者定位資訊;及根據決定需要該準確的使用者定位資訊,來配置用於該動態虛擬物件的該串流通信期的該QoS和計費資訊。
條款53:根據條款48-52中任一項之方法,其中配置用於該等串流通信期的該QoS和計費資訊包括:決定該渲染單元是否被配置為執行對該媒體資料的分離渲染;當該渲染單元未被配置為執行分離渲染時,決定用於該等串流通信期的第一位元速率;及當該渲染單元被配置為執行分離渲染時,決定用於該等串流通信期的第二位元速率,該第二位元速率高於該第一位元速率。
條款54:根據條款48-53中任一項之方法,亦包括以下步驟:建立XR通信期;及將該XR場景錨定到用於該XR通信期的真實世界空間。
條款55:根據條款48-54中任一項之方法,其中該等所需虛擬物件亦包括一或多個靜態虛擬物件,該方法亦包括以下步驟:取得用於該一或多個靜態虛擬物件之每一者靜態虛擬物件的媒體資料,並且其中渲染該XR場景亦包括:渲染該XR場景,以在該XR場景內的對應地點處包括所取得的用於該一或多個靜態虛擬物件的媒體資料。
條款56:根據條款48-55之方法,其中取得用於該數量的動態虛擬物件之每一者動態虛擬物件的該媒體資料包括:取得用於該數量的動態虛擬物件之每一者動態虛擬物件的清單檔案;及使用相應的清單檔案來取得用於該數量的動態虛擬物件之每一者動態虛擬物件的媒體分段。
條款57:根據條款56之方法,其中該等清單檔案包括媒體呈現描述(MPD)。
條款58:根據條款48-57中任一項之方法,亦包括以下步驟:配置用於該數量的動態虛擬物件之每一者動態虛擬物件的沉浸式視訊解碼器。
條款59:根據條款48-58中任一項之方法,亦包括以下步驟:取得可用XR通信期的列表,該等可用XR通信期之每一者XR通信期具有相關聯的入口點資料;接收對該等可用XR通信期中的一個XR通信期的選擇;及取得用於該等可用XR通信期中的所選擇的一個XR通信期的場景描述,該場景描述包括與該等可用XR通信期中的所選擇的一個XR通信期的相關聯的該入口點資料。
條款60:根據條款48-59中任一項之方法,亦包括以下步驟:取得可用XR通信期的列表,該等可用XR通信期之每一者XR通信期具有相關聯的入口點資料;接收對該等可用XR通信期中的一個XR通信期的選擇;請求與該等可用XR通信期中的該一個XR通信期相關聯的該入口點資料;接收所請求的入口點資料和表示針對用於該等可用XR通信期中的所選擇的一個XR通信期的場景的最佳處理的要求的資料;回應於決定該等要求包括邊緣支援,來請求表示用於該等可用XR通信期中的所選擇的一個XR通信期的邊緣應用伺服器(AS)的資料;向該邊緣AS發送用於該等可用XR通信期中的所選擇的一個XR通信期的初始化資訊;及從該邊緣AS接收用於該等可用XR通信期中的所選擇的一個XR通信期的自訂入口點資料。
條款61:根據條款60之方法,其中該入口點資料包括場景描述,該場景描述包括關於用於該XR場景的該一或多個所需虛擬物件的該資訊。
條款62:根據條款48-61中任一項之方法,其中該等動態虛擬物件包括動態網格、動畫網格或點雲端中的至少一項。
條款63:根據條款48-62中任一項之方法,亦包括以下步驟:取得用於該數量的動態虛擬物件中的至少一個動態虛擬物件的音訊資料,並且呈現所取得的音訊資料。
條款64:一種用於處理擴展現實(XR)資料的設備,該設備包括:記憶體,其被配置為儲存XR資料和媒體資料;及一或多個處理器,其在電路系統中實現並且被配置為:解析場景的入口點資料以提取關於用於XR場景的一或多個所需虛擬物件的資訊,該一或多個所需虛擬物件包括大於一的一數量的動態虛擬物件;使用該入口點資料來初始化一數量的串流通信期,該串流通信期的數量等於該動態虛擬物件的數量,其中為了初始化該數量的串流通信期,該一或多個處理器被配置為按照用於該等串流通信期的經配置的服務品質(QoS)和計費資訊來初始化該等串流通信期;經由相應數量的串流通信期中的一個串流通信期來取得用於該數量的動態虛擬物件之每一者動態虛擬物件的媒體資料;及向渲染單元發送所取得的媒體資料以渲染該XR場景,以在該XR場景內的對應地點處包括所取得的媒體資料。
條款65:根據條款64之設備,其中為了配置用於該等串流通信期的該QoS和計費資訊,該一或多個處理器被配置為:針對該等動態虛擬物件之每一者動態虛擬物件:決定該動態虛擬物件的類型;及根據該動態虛擬物件的類型來決定QoS和計費資訊。
條款66:根據條款64和65中任一項之設備,其中該一或多個處理器亦被配置為:建立XR通信期;及將該XR場景錨定到用於該XR通信期的真實世界空間。
條款67:根據條款64-66中任一項之設備,其中該等所需虛擬物件亦包括一或多個靜態虛擬物件,並且其中該一或多個處理器亦被配置為:取得用於該一或多個靜態虛擬物件之每一者靜態虛擬物件的媒體資料,並且其中為了渲染該XR場景,該一或多個處理器亦被配置為:渲染該XR場景,以在該XR場景內的對應地點處包括所取得的用於該一或多個靜態虛擬物件的媒體資料。
條款68:根據條款64-67中任一項之設備,其中為了取得用於該數量的動態虛擬物件之每一者動態虛擬物件的該媒體資料,該一或多個處理器被配置為:取得用於該數量的動態虛擬物件之每一者動態虛擬物件的清單檔案;及使用相應的清單檔案來取得用於該數量的動態虛擬物件之每一者動態虛擬物件的媒體分段。
條款69:根據條款64-68中任一項之設備,其中該一或多個處理器亦被配置為:取得可用XR通信期的列表,該等可用XR通信期之每一者XR通信期具有相關聯的入口點資料;接收對該等可用XR通信期中的一個XR通信期的選擇;及取得用於該等可用XR通信期中的所選擇的一個XR通信期的場景描述,該場景描述包括與該等可用XR通信期中的所選擇的一個XR通信期的相關聯的該入口點資料。
條款70:根據條款64-69中任一項之設備,其中該一或多個處理器亦被配置為:取得可用XR通信期的列表,該等可用XR通信期之每一者XR通信期具有相關聯的入口點資料;接收對該等可用XR通信期中的一個XR通信期的選擇;請求與該等可用XR通信期中的該一個XR通信期相關聯的該入口點資料;接收所請求的入口點資料和表示針對用於該等可用XR通信期中的所選擇的一個XR通信期的場景的最佳處理的要求的資料;回應於決定該等要求包括邊緣支援,來請求表示用於該等可用XR通信期中的所選擇的一個XR通信期的邊緣應用伺服器(AS)的資料;向該邊緣AS發送用於該等可用XR通信期中的所選擇的一個XR通信期的初始化資訊;及從該邊緣AS接收用於該等可用XR通信期中的所選擇的一個XR通信期的自訂入口點資料。
條款71:根據條款64-70中任一項之設備,其中該入口點資料包括場景描述,該場景描述包括關於用於該XR場景的該一或多個所需虛擬物件的該資訊。
條款72:根據條款64-71中任一項之設備,其中該等動態虛擬物件包括動態網格、動畫網格或點雲端中的至少一項。
條款73:根據條款64-72中任一項之設備,亦包括:被配置為顯示該XR資料的顯示器。
條款74:根據條款64-73中任一項之設備,其中該設備包括相機、電腦、行動設備、廣播接收器設備或機上盒中的一者或多者。
條款75:一種具有儲存在其上的指令的電腦可讀取儲存媒體,該等指令在被執行時使得處理器進行以下操作:解析場景的入口點資料以提取關於用於XR場景的一或多個所需虛擬物件的資訊,該一或多個所需虛擬物件包括大於一的一數量的動態虛擬物件;使用該入口點資料來初始化一數量的串流通信期,該串流通信期的數量等於該動態虛擬物件的數量,其中使得該處理器初始化該數量的串流通信期的該等指令包括使得該處理器進行以下操作的指令:按照用於該等串流通信期的經配置的服務品質(QoS)和計費資訊來初始化該等串流通信期;經由相應數量的串流通信期中的一個串流通信期來取得用於該數量的動態虛擬物件之每一者動態虛擬物件的媒體資料;及向渲染單元發送所取得的媒體資料以渲染該XR場景,以在該XR場景內的對應地點處包括所取得的媒體資料。
條款76:一種用於處理擴展現實(XR)資料的設備,該設備包括:用於解析場景的入口點資料以提取關於用於XR場景的一或多個所需虛擬物件的資訊的構件,該一或多個所需虛擬物件包括大於一的一數量的動態虛擬物件;用於初始化一數量的串流通信期的構件,該串流通信期的數量等於該動態虛擬物件的數量,其中該用於初始化該數量的串流通信期的構件包括用於按照用於該等串流通信期的經配置的服務品質(QoS)和計費資訊來初始化該等串流通信期的構件;用於經由相應數量的串流通信期中的一個串流通信期來取得用於該數量的動態虛擬物件之每一者動態虛擬物件的媒體資料的構件;及用於向渲染單元發送所取得的媒體資料以渲染該XR場景,以在該XR場景內的對應地點處包括所取得的媒體資料的構件。
在一或多個實例中,所描述的功能可以用硬體、軟體、韌體或其任何組合來實現。若用軟體來實現,則該等功能可以作為一或多個指令或代碼儲存在電腦可讀取媒體上或者經由其進行傳輸並且由基於硬體的處理單元執行。電腦可讀取媒體可以包括電腦可讀取儲存媒體,其對應於諸如資料儲存媒體之類的有形媒體,或者包括例如根據通訊協定來促進電腦程式從一個地方傳輸到另一個地方的任何媒體的通訊媒體。以此種方式,電腦可讀取媒體通常可以對應於(1)非暫時性的有形電腦可讀取儲存媒體,或者(2)諸如信號或載波之類的通訊媒體。資料儲存媒體可以是可以由一或多個電腦或者一或多個處理器存取以取得用於實現在本案內容中描述的技術的指令、代碼及/或資料結構的任何可用的媒體。電腦程式產品可以包括電腦可讀取媒體。
經由舉例而非限制性的方式,此種電腦可讀取儲存媒體可以包括RAM、ROM、EEPROM、CD-ROM或其他光碟儲存、磁碟儲存或其他磁儲存設備、快閃記憶體,或者能夠用於以指令或資料結構形式儲存期望的程式碼以及能夠由電腦存取的任何其他媒體。此外,任何連接被適當地稱為電腦可讀取媒體。例如,若使用同軸電纜、光纖光纜、雙絞線、數位用戶線路(DSL)或者無線技術(諸如紅外線、無線電和微波)從網站、伺服器或其他遠端源傳輸指令,則同軸電纜、光纖光纜、雙絞線、DSL或者無線技術(諸如紅外線、無線電和微波)被包括在媒體的定義中。然而,應當理解的是,電腦可讀取儲存媒體和資料儲存媒體不包括連接、載波、信號或其他暫時性媒體,而是替代地針對非暫時性的有形儲存媒體。如本文所使用的,磁碟和光碟包括壓縮光碟(CD)、鐳射光碟、光碟、數位多功能光碟(DVD)、軟碟和藍光光碟,其中磁碟通常磁性地複製資料,而光碟則利用鐳射來光學地複製資料。上述各項的組合亦應當被包括在電腦可讀取媒體的範疇之內。
指令可以由一或多個處理器來執行,諸如一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、現場可程式設計邏輯陣列(FPGA),或其他等效的整合或個別邏輯電路系統。因此,如本文所使用的術語「處理器」可以代表前述結構中的任何一者或者適於實現本文描述的技術的任何其他結構。另外,在一些態樣中,本文描述的功能可以在被配置用於編碼和解碼的專用硬體及/或軟體模組內提供,或者被併入經組合的轉碼器中。此外,該等技術可以完全在一或多個電路或邏輯元件中實現。
本案內容的技術可以在多種多樣的設備或裝置中實現,包括無線手機、積體電路(IC)或一組IC(例如,晶片組)。在本案內容中描述了各種元件、模組或單元以強調被配置以執行所揭示的技術的設備的功能性態樣,但是不一定需要經由不同的硬體單元來實現。確切而言,如前述,各種單元可以被組合在轉碼器硬體單元中,或者由交互操作的硬體單元的集合(包括如前述的一或多個處理器)結合適當的軟體及/或韌體來提供。
已經描述了各個實例。該等和其他實例在所附的請求項的範疇內。
10:系統
20:內容準備設備
22:音訊源
24:視訊源
26:音訊編碼器
28:視訊編碼器
30:封裝單元
32:輸出介面
40:客戶端設備
42:音訊輸出
44:視訊輸出
46:音訊解碼器
48:視訊解碼器
50:解封裝單元
52:取得單元
54:網路介面
60:伺服器設備
62:儲存媒體
64:多媒體內容
66:清單檔案
68A:表示
68N:表示
70:請求處理單元
72:網路介面
74:網路
100:計算系統
110:XR伺服器設備
112:XR場景產生單元
114:XR視埠預渲染柵格化單元
116:2D媒體編碼單元
118:XR媒體內容遞送單元
120:5GS遞送單元
130:網路
132:追蹤和感測器資訊
134:經預渲染的2D媒體資料
140:XR客戶端設備
142:XR視埠渲染單元
144:2D媒體解碼器
146:追蹤/XR感測器
148:XR媒體內容遞送單元
150:5GS遞送單元
152:顯示設備
160:5G STAR UE設備
162:感測器
164:相機
166:視覺引擎
168:顯示器
170:揚聲器
172:姿勢校正單元
174:聲場映射單元
176:場景圖處理單元
178:合成單元
180:使用者介面
182:AR/MR應用程式
184:5G媒體串流下行鏈路(5GMSd)感知應用程式
186:媒體通信期處理常式(MSH)
188:存取客戶端
190:沉浸式媒體解碼器
192:沉浸式視覺渲染器
194:沉浸式音訊渲染器
200:5GMSd+AR/MR應用程式提供者
202:5GMSd應用功能(AF)
210:5GMSd應用伺服器(AS)
212:清單伺服器
214:分段伺服器
220:5G EDGAR UE設備
222:感測器
224:相機
226:麥克風
228:視覺引擎
230:編碼器
232:解碼器
234:合成單元
236:姿勢校正單元
238:顯示器
240:揚聲器
242:5G系統
244:使用者介面
246:AR/MR應用程式
250:5G EDGE伺服器設備
252:5GMSd應用程式
254:MSH
256:存取客戶端
258:解碼器
260:渲染單元
262:合成單元
264:解碼器
266:編碼器
268:5G系統
270:5GMSd+AR/MR應用程式提供者
272:5GMSd
280:5GMSd AS
282:清單伺服器
284:分段伺服器
400:步驟
402:步驟
404:步驟
406:步驟
408:步驟
410:步驟
412:步驟
414:步驟
416:步驟
418:步驟
420:步驟
422:步驟
424:步驟
426:步驟
428:步驟
430:步驟
432:步驟
434:步驟
440:步驟
442:步驟
444:步驟
446:步驟
448:步驟
450:步驟
452:步驟
454:步驟
456:步驟
458:步驟
500:步驟
502:步驟
504:步驟
506:步驟
508:步驟
510:步驟
512:步驟
514:步驟
516:步驟
圖1是圖示實現用於經由網路對媒體資料進行串流的技術的示例性系統的方塊圖。
圖2是圖示可以執行本案內容的技術的示例性計算系統的方塊圖。
圖3是圖示根據本案內容的技術的被配置為5G獨立AR(STAR)使用者設備的示例性客戶端設備的方塊圖。
圖4是圖示根據本案內容的技術的被配置為5G EDGE相關AR(EDGAR)使用者設備的另一示例性客戶端設備的方塊圖。
圖5是圖示根據本案內容的技術的用於STAR使用者設備的示例性增強現實通信期的調用流程圖。
圖6是圖示根據本案內容的技術的用於EDGAR使用者設備的示例性增強現實通信期的調用流程圖。
圖7是圖示根據本案內容的技術的處理XR資料的示例性方法的流程圖。
國內寄存資訊(請依寄存機構、日期、號碼順序註記)
無
國外寄存資訊(請依寄存國家、機構、日期、號碼順序註記)
無
100:計算系統
110:XR伺服器設備
112:XR場景產生單元
114:XR視埠預渲染柵格化單元
116:2D媒體編碼單元
118:XR媒體內容遞送單元
120:5GS遞送單元
130:網路
132:追蹤和感測器資訊
134:經預渲染的2D媒體資料
140:XR客戶端設備
142:XR視埠渲染單元
144:2D媒體解碼器
146:追蹤/XR感測器
148:XR媒體內容遞送單元
150:5GS遞送單元
152:顯示設備
Claims (29)
- 一種處理擴展現實(XR)資料的方法,該方法包括以下步驟: 解析一XR場景的入口點資料以提取關於用於該XR場景的一或多個所需虛擬物件的資訊,該一或多個所需虛擬物件包括等於或大於一的一數量的動態虛擬物件,該等動態虛擬物件之每一者動態虛擬物件包括要取得用於其的媒體資料的至少一個動態媒體分量; 使用該入口點資料來初始化一數量的串流通信期,該串流通信期的數量等於或大於該動態虛擬物件的數量,其中初始化該等串流通信期之步驟包括以下步驟:按照用於該等串流通信期的經配置的服務品質(QoS)和計費資訊來初始化該等串流通信期; 經由該相應數量的串流通信期中的一個串流通信期來取得用於該等動態虛擬物件的該等動態媒體分量之每一者動態媒體分量的媒體資料;及 向一渲染單元發送所取得的該媒體資料以渲染該XR場景,以在該XR場景內的對應地點處包括所取得的該媒體資料。
- 根據請求項1之方法,其中配置用於該等串流通信期的該QoS和計費資訊之步驟包括以下步驟:針對該等動態虛擬物件之每一者動態虛擬物件: 決定該動態虛擬物件的一類型;及 根據該動態虛擬物件的該類型來決定一QoS和計費資訊。
- 根據請求項2之方法,亦包括以下步驟:針對該等動態虛擬物件中的至少一個動態虛擬物件: 決定用於與該等動態虛擬物件中的該至少一個動態虛擬物件的該類型相關聯的該串流通信期的該媒體資料是二維(2D)媒體資料還是三維(3D)媒體資料;及 根據用於與該等動態虛擬物件中的該至少一個動態虛擬物件的該類型相關聯的該串流通信期的該媒體資料是該2D媒體資料還是該3D媒體資料,來決定該QoS和計費資訊。
- 根據請求項1之方法,其中配置用於該等串流通信期的該QoS和計費資訊之步驟包括以下步驟:針對該等動態虛擬物件之每一者動態虛擬物件: 決定對於與用於該動態虛擬物件的該串流通信期相關聯的媒體資料所需要的一頻寬量;及 根據所需要的該頻寬量來配置用於該動態虛擬物件的該串流通信期的該QoS和計費資訊。
- 根據請求項1之方法,其中配置用於該等串流通信期的該QoS和計費資訊之步驟包括以下步驟:針對該等動態虛擬物件之每一者動態虛擬物件: 決定對於用於該動態虛擬物件的該串流通信期需要準確的使用者定位資訊;及 根據決定需要該準確的使用者定位資訊,來配置用於該動態虛擬物件的該串流通信期的該QoS和計費資訊。
- 根據請求項1之方法,其中配置用於該等串流通信期的該QoS和計費資訊之步驟包括以下步驟: 決定該渲染單元是否被配置為執行對該媒體資料的分離渲染; 當該渲染單元未被配置為執行分離渲染時,決定用於該等串流通信期的一第一最小位元速率;及 當該渲染單元被配置為執行分離渲染時,決定用於該等串流通信期的一第二最小位元速率,該第二位元速率高於該第一位元速率。
- 根據請求項1之方法,亦包括以下步驟: 建立一XR通信期;及 將該XR場景錨定到用於該XR通信期的一真實世界空間。
- 根據請求項1之方法,其中該等所需虛擬物件亦包括一或多個靜態虛擬物件,該方法亦包括以下步驟:取得用於該一或多個靜態虛擬物件之每一者靜態虛擬物件的媒體資料,並且其中渲染該XR場景之步驟亦包括以下步驟:渲染該XR場景,以在該XR場景內的對應地點處包括所取得的該用於該一或多個靜態虛擬物件的媒體資料。
- 根據請求項1之方法,其中取得用於該數量的動態虛擬物件之每一者動態虛擬物件的該媒體資料之步驟包括以下步驟: 取得用於該數量的動態虛擬物件之每一者動態虛擬物件的清單檔案;及 使用該等相應的清單檔案來取得用於該數量的動態虛擬物件之每一者動態虛擬物件的媒體分段。
- 根據請求項9之方法,其中該等清單檔案包括媒體呈現描述(MPD)。
- 根據請求項1之方法,亦包括以下步驟:配置用於該數量的動態虛擬物件之每一者動態虛擬物件的沉浸式視訊解碼器。
- 根據請求項1之方法,亦包括以下步驟: 取得可用XR通信期的一列表,該等可用XR通信期之每一者XR通信期具有相關聯的入口點資料; 接收對該等可用XR通信期中的一個XR通信期的一選擇;及 取得用於該等可用XR通信期中的所選擇的該一個XR通信期的一場景描述,該場景描述包括與該等可用XR通信期中的所選擇的該一個XR通信期相關聯的該入口點資料。
- 根據請求項1之方法,亦包括以下步驟: 取得可用XR通信期的一列表,該等可用XR通信期之每一者XR通信期具有相關聯的入口點資料; 接收對該等可用XR通信期中的一個XR通信期的一選擇; 請求與該等可用XR通信期中的該一個XR通信期相關聯的該入口點資料; 接收所請求的該入口點資料和表示針對用於該等可用XR通信期中的所選擇的該一個XR通信期的一場景的最佳處理的要求的資料; 回應於決定該等要求包括邊緣支援,來請求表示用於該等可用XR通信期中的所選擇的該一個XR通信期的一邊緣應用伺服器(AS)的資料; 向該邊緣AS發送用於該等可用XR通信期中的所選擇的該一個XR通信期的初始化資訊;及 從該邊緣AS接收用於該等可用XR通信期中的所選擇的該一個XR通信期的自訂入口點資料。
- 根據請求項1之方法,其中該入口點資料包括一場景描述,該場景描述包括關於用於該XR場景的該一或多個所需虛擬物件的該資訊。
- 根據請求項1之方法,其中該等動態虛擬物件包括動態網格、動畫網格或點雲端中的至少一項。
- 根據請求項1之方法,亦包括以下步驟:取得用於該數量的動態虛擬物件中的至少一個動態虛擬物件的音訊資料,並且呈現所取得的該音訊資料。
- 一種用於處理擴展現實(XR)資料的設備,該設備包括: 一記憶體,其被配置為儲存XR資料和媒體資料;及 一或多個處理器,其在電路系統中實現並且被配置為: 解析一XR場景的入口點資料以提取關於用於該XR場景的一或多個所需虛擬物件的資訊,該一或多個所需虛擬物件包括等於或大於一的一數量的動態虛擬物件,該等動態虛擬物件之每一者動態虛擬物件包括要取得用於其的媒體資料的至少一個動態媒體分量; 使用該入口點資料來初始化一數量的串流通信期,該串流通信期的數量等於或大於該動態虛擬物件的數量,其中為了初始化該等串流通信期,該一或多個處理器被配置為按照用於該等串流通信期的經配置的服務品質(QoS)和計費資訊來初始化該等串流通信期; 經由該相應數量的串流通信期中的一個串流通信期來取得用於該等動態虛擬物件的該等動態媒體分量之每一者動態媒體分量的媒體資料;及 向一渲染單元發送所取得的該媒體資料以渲染該XR場景,以在該XR場景內的對應地點處包括所取得的該媒體資料。
- 根據請求項17之設備,其中為了配置用於該等串流通信期的該QoS和計費資訊,該一或多個處理器被配置為:針對該等動態虛擬物件之每一者動態虛擬物件: 決定該動態虛擬物件的一類型;及 根據該動態虛擬物件的該類型來決定一QoS和計費資訊。
- 根據請求項17之設備,其中該一或多個處理器亦被配置為: 建立一XR通信期;及 將該XR場景錨定到用於該XR通信期的一真實世界空間。
- 根據請求項17之設備,其中該等所需虛擬物件亦包括一或多個靜態虛擬物件,並且其中該一或多個處理器亦被配置為:取得用於該一或多個靜態虛擬物件之每一者靜態虛擬物件的媒體資料,並且其中為了渲染該XR場景,該一或多個處理器亦被配置為:渲染該XR場景,以在該XR場景內的對應地點處包括所取得的該用於該一或多個靜態虛擬物件的媒體資料。
- 根據請求項17之設備,其中為了取得用於該數量的動態虛擬物件之每一者動態虛擬物件的該媒體資料,該一或多個處理器被配置為: 取得用於該數量的動態虛擬物件之每一者動態虛擬物件的清單檔案;及 使用該等相應的清單檔案來取得用於該數量的動態虛擬物件之每一者動態虛擬物件的媒體分段。
- 根據請求項17之設備,其中該一或多個處理器亦被配置為: 取得可用XR通信期的一列表,該等可用XR通信期之每一者XR通信期具有相關聯的入口點資料; 接收對該等可用XR通信期中的一個XR通信期的一選擇;及 取得用於該等可用XR通信期中的所選擇的該一個XR通信期的一場景描述,該場景描述包括與該等可用XR通信期中的所選擇的該一個XR通信期相關聯的該入口點資料。
- 根據請求項17之設備,其中該一或多個處理器亦被配置為: 取得可用XR通信期的一列表,該等可用XR通信期之每一者XR通信期具有相關聯的入口點資料; 接收對該等可用XR通信期中的一個XR通信期的一選擇; 請求與該等可用XR通信期中的該一個XR通信期相關聯的該入口點資料; 接收所請求的該入口點資料和表示針對用於該等可用XR通信期中的所選擇的該一個XR通信期的一場景的最佳處理的要求的資料; 回應於決定該等要求包括邊緣支援,來請求表示用於該等可用XR通信期中的所選擇的該一個XR通信期的一邊緣應用伺服器(AS)的資料; 向該邊緣AS發送用於該等可用XR通信期中的所選擇的該一個XR通信期的初始化資訊;及 從該邊緣AS接收用於該等可用XR通信期中的所選擇的該一個XR通信期的自訂入口點資料。
- 根據請求項17之設備,其中該入口點資料包括一場景描述,該場景描述包括關於用於該XR場景的該一或多個所需虛擬物件的該資訊。
- 根據請求項17之設備,其中該等動態虛擬物件包括動態網格、動畫網格或點雲端中的至少一項。
- 根據請求項17之設備,亦包括:被配置為顯示該XR資料的一顯示器。
- 根據請求項17之設備,其中該設備包括一相機、一電腦、一行動設備、一廣播接收器設備或一機上盒中的一者或多者。
- 一種具有儲存在其上的指令的電腦可讀取儲存媒體,該等指令在被執行時使得一處理器進行以下操作: 解析一XR場景的入口點資料以提取關於用於該XR場景的一或多個所需虛擬物件的資訊,該一或多個所需虛擬物件包括等於或大於一的一數量的動態虛擬物件,該等動態虛擬物件之每一者動態虛擬物件包括要取得用於其的媒體資料的至少一個動態媒體分量; 使用該入口點資料來初始化一數量的串流通信期,該串流通信期的數量等於或大於該動態虛擬物件的數量,其中使得該處理器初始化該數量的串流通信期的該等指令包括使得該處理器進行以下操作的指令:按照用於該等串流通信期的經配置的服務品質(QoS)和計費資訊來初始化該等串流通信期; 經由該相應數量的串流通信期中的一個串流通信期來取得用於該等動態虛擬物件的該等動態媒體分量之每一者動態媒體分量的媒體資料;及 向一渲染單元發送所取得的該媒體資料以渲染該XR場景,以在該XR場景內的對應地點處包括所取得的該媒體資料。
- 一種用於處理擴展現實(XR)資料的設備,該設備包括: 用於解析一XR場景的入口點資料以提取關於用於該XR場景的一或多個所需虛擬物件的資訊的構件,該一或多個所需虛擬物件包括等於或大於一的一數量的動態虛擬物件,該等動態虛擬物件之每一者動態虛擬物件包括要取得用於其的媒體資料的至少一個動態媒體分量; 用於初始化一數量的串流通信期的構件,該串流通信期的數量等於或大於該動態虛擬物件的數量,其中該用於初始化該數量的串流通信期的構件包括用於按照用於該等串流通信期的經配置的服務品質(QoS)和計費資訊來初始化該等串流通信期的構件; 用於經由該相應數量的串流通信期中的一個串流通信期來取得用於該數量的動態虛擬物件之每一者動態虛擬物件的媒體資料的構件;及 用於向一渲染單元發送所取得的該媒體資料以渲染該XR場景,以在該XR場景內的對應地點處包括所取得的該媒體資料的構件。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163187840P | 2021-05-12 | 2021-05-12 | |
US63/187,840 | 2021-05-12 | ||
US17/742,168 US20220369000A1 (en) | 2021-05-12 | 2022-05-11 | Split rendering of extended reality data over 5g networks |
US17/742,168 | 2022-05-11 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202304216A true TW202304216A (zh) | 2023-01-16 |
Family
ID=81927514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW111117821A TW202304216A (zh) | 2021-05-12 | 2022-05-12 | 經由5g網路對擴展現實資料的分離渲染 |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP4338424A1 (zh) |
KR (1) | KR20240007142A (zh) |
BR (1) | BR112023022995A2 (zh) |
TW (1) | TW202304216A (zh) |
WO (1) | WO2022241119A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230050360A1 (en) * | 2021-08-12 | 2023-02-16 | Tencent America LLC | Procedures for providing ar/mr applications to 5g devices by running ar/mr processing on 5g edge servers/cloud including dynamic scene updates |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11405699B2 (en) * | 2019-10-01 | 2022-08-02 | Qualcomm Incorporated | Using GLTF2 extensions to support video and audio data |
-
2022
- 2022-05-12 TW TW111117821A patent/TW202304216A/zh unknown
- 2022-05-12 BR BR112023022995A patent/BR112023022995A2/pt unknown
- 2022-05-12 WO PCT/US2022/028995 patent/WO2022241119A1/en active Application Filing
- 2022-05-12 KR KR1020237038106A patent/KR20240007142A/ko unknown
- 2022-05-12 EP EP22727644.1A patent/EP4338424A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4338424A1 (en) | 2024-03-20 |
WO2022241119A1 (en) | 2022-11-17 |
BR112023022995A2 (pt) | 2024-01-23 |
KR20240007142A (ko) | 2024-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102342274B1 (ko) | 이미지에서 가장 관심있는 영역의 진보된 시그널링 | |
KR102252238B1 (ko) | 이미지에서의 가장 관심있는 영역 | |
CN110431850B (zh) | 在使用mime类型参数的网络视频流式传输中发信重要视频信息 | |
KR102246002B1 (ko) | 가상 현실 미디어 콘텐트의 스트리밍을 개선하는 방법, 디바이스, 및 컴퓨터 프로그램 | |
US20190104326A1 (en) | Content source description for immersive media data | |
US11405699B2 (en) | Using GLTF2 extensions to support video and audio data | |
KR102261559B1 (ko) | 정보 처리 방법 및 장치 | |
US20220369000A1 (en) | Split rendering of extended reality data over 5g networks | |
JP7035088B2 (ja) | 魚眼ビデオデータのための高レベルシグナリング | |
TW202304216A (zh) | 經由5g網路對擴展現實資料的分離渲染 | |
TW202249493A (zh) | 將場景描述錨定到使用者環境以用於串流沉浸式媒體內容 | |
AU2018301313A1 (en) | Processing media data using an omnidirectional media format | |
JP2024509524A (ja) | ストリーミングされるメディアデータによって定義される仮想インタラクティブシーンにおける仮想カメラのためのオブジェクト衝突データ | |
KR102654999B1 (ko) | 강화된 영역별 패킹 및 뷰포트 독립적 hevc 미디어 프로파일 | |
CN117256154A (zh) | 通过5g网络对扩展现实数据的拆分渲染 | |
JP2024519747A (ja) | 5gネットワーク上でのエクステンデッドリアリティデータのスプリットレンダリング | |
US20220335694A1 (en) | Anchoring a scene description to a user environment for streaming immersive media content | |
CN117242780A (zh) | 将场景描述锚定到用户环境以用于流式传输沉浸式媒体内容 | |
CN116918338A (zh) | 用于由流式媒体数据定义的虚拟交互场景中的虚拟相机的对象碰撞数据 |