TWI820490B - 利用衍生視訊軌道實現場景描述的方法和系統 - Google Patents

利用衍生視訊軌道實現場景描述的方法和系統 Download PDF

Info

Publication number
TWI820490B
TWI820490B TW110137155A TW110137155A TWI820490B TW I820490 B TWI820490 B TW I820490B TW 110137155 A TW110137155 A TW 110137155A TW 110137155 A TW110137155 A TW 110137155A TW I820490 B TWI820490 B TW I820490B
Authority
TW
Taiwan
Prior art keywords
media
track
scene
tracks
derived
Prior art date
Application number
TW110137155A
Other languages
English (en)
Other versions
TW202230289A (zh
Inventor
新 王
魯林 陳
Original Assignee
新加坡商聯發科技(新加坡)私人有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 新加坡商聯發科技(新加坡)私人有限公司 filed Critical 新加坡商聯發科技(新加坡)私人有限公司
Publication of TW202230289A publication Critical patent/TW202230289A/zh
Application granted granted Critical
Publication of TWI820490B publication Critical patent/TWI820490B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6582Data stored in the client, e.g. viewing habits, hardware capabilities, credit card number
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/12Panospheric to cylindrical image transformations

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Television Signal Processing For Recording (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本技術關於一種方法及設備,經配置而生成用於沉浸媒體體驗的媒體資料。存取一組參數以處理用於沉浸媒體體驗的場景描述。存取用於沉浸媒體體驗的多媒體資料,多媒體資料包含多個媒體軌道以及衍生軌道。各媒體軌道包括媒體資料的關聯樣本系列,用於沉浸媒體體驗的不同構件。衍生軌道包括一組衍生操作,該組衍生操作被進行以生成用於用戶裝置沉浸媒體體驗之媒體資料的樣本系列。進行衍生操作以生成用於衍生媒體軌道的部分媒體資料,衍生操作包含處理多個媒體軌道以及輸出衍生媒體軌道,其中處理多個媒體軌道將生成用於沉浸媒體體驗之媒體資料的第一樣本系列。

Description

利用衍生視訊軌道實現場景描述的方法和系統
本技術一般涉及利用衍生視訊軌道實現場景描述,包含利用ISO基本媒體檔案格式(ISO Base Media File Format,簡稱ISOBMFF)中的衍生視訊軌道實現MPEG-I場景描述。
目前存在多種類型的3D內容、沉浸內容及多方向內容。舉例來說,相較於傳統只使用一台攝像機的單方向視訊,全向視訊是一種利用一組攝像機所捕捉的視訊類型。舉例來說,攝像機可圍繞特定中心點放置,使得每一台攝像機在場景的球型覆蓋範圍都能捕捉到一部分視訊,以捕捉360度視訊。來自多台攝像機的影像可被拼接、可能被旋轉以及可被投影而生成呈現球型內容的投影二維圖片。舉例來說,可使用等距長方投影(equal rectangular projection)將球形圖放入二維影像中。舉例來說,可利用二維編碼以及壓縮技術進一步處理二維影像。最後,經編碼及壓縮的內容可利用所需的傳送機制(例如,隨身碟、數位視訊光碟(DVD)、檔案下載、數位廣播及/或線上串流)儲存及傳送。前述的視訊可被用於虛擬實境(VR)及/或3D視訊。
在用戶側,當用戶處理內容時,視訊解碼器將經編碼及壓縮的視訊解碼,並進行反置投影將內容放回球體上。接著使用者可觀看經渲染的內容, 像是利用頭戴式觀看裝置進行觀看。內容通常是依據使用者的視區(viewport)而渲染,而使用者的視區代表使用者觀看內容時所在的角度。視區也可包含呈現觀看區域的構件,該構件可描述當觀看者位於特定角度觀看時,該區域有多大並且呈現什麼形狀。
根據所公開的主題,提供設備、系統及方法實現用於沉浸媒體應用的場景描述。場景描述(例如,MPEG-I場景描述)可利用衍生軌道而實現。舉例來說,利用衍生軌道可將一些場景處理轉換到伺服器側而不是用戶側(例如,串流使用的情況)。在一些實施例中,衍生軌道是ISO基本媒體檔案格式(ISOBMFF)衍生軌道。
一些實施例涉及一種與用戶裝置通訊之伺服器所實現的方法,該方法包含從該用戶裝置接收一組與該用戶裝置關聯的一個或多個參數;存取用於沉浸媒體體驗的多媒體資料,該多媒體資料包括:多個媒體軌道,各媒體軌道包括媒體資料的關聯樣本系列,該媒體資料的關聯樣本系列各用於該沉浸媒體體驗的不同構件;以及衍生軌道,包括一組衍生操作,為了該沉浸媒體體驗,該組衍生操作被進行時生成用於該用戶裝置之媒體資料的樣本系列;進行該組衍生操作的衍生操作以生成用於衍生媒體軌道之部分媒體資料,進行該衍生操作包括:處理該多個媒體軌道以生成該媒體資料的第一樣本系列,該第一樣本系列用於該沉浸媒體體驗;以及傳送包括該部分媒體資料的該衍生媒體軌道至該用戶裝置。
在一些示例中,多個媒體軌道包括多個3D視訊軌道。
在一些示例中,多個媒體軌道包括多個2D及3D視訊軌道。
在一些示例中,該組衍生操作是基於場景描述所進行,並為了該 沉浸媒體體驗生成用於該用戶裝置的該媒體資料的樣本系列。
在一些示例中,沉浸媒體體驗包括包含360度影像的場景,且其中,該多個媒體軌道包括一個或多個視訊及音訊軌道。
在一些示例中,沉浸媒體體驗包括3D音訊以及包含360度影像的場景,且其中,該多個媒體軌道包括檔案中用於該3D音訊的3D音訊軌道以及用於該360度影像的360度影像軌道。
在一些示例中,沉浸媒體體驗包括字幕以及包含360度影像的場景。
在一些示例中,多個媒體軌道包括用於該360度影像的360度影像軌道以及用於該字幕的字幕軌道,且其中,該組衍生操作包括進行組成轉換以將該字幕軌道渲染於該360度影像之上的操作。
在一些示例中,沉浸媒體體驗包括場景以及加入該場景的物件。
在一些示例中,多個媒體軌道包括用於該場景的場景軌道以及用於該物件的物件軌道,且其中,該組衍生操作包括進行重疊轉換以將該物件加入該場景的操作。
在一些示例中,沉浸媒體體驗包括3D場景,該3D場景在其3D區域上顯示2D視訊。
在一些示例中,多個媒體軌道包括用於該3D場景的3D場景軌道以及用於該2D視訊的2D視訊軌道,且其中,該組衍生操作包括進行重疊轉換以將該2D視訊放置於該3D區域上的操作。
一些實施例涉及一種包括與記憶體通訊的處理器之設備,該處理器被配置為執行儲存於該記憶體中的指令而致使該處理器進行:存取一組用於處理沉浸媒體體驗之場景描述的一個或多個參數;存取用於該沉浸媒體體驗的多媒體資料,該多媒體資料包括:多個媒體軌道,各媒體軌道包括媒體資料的 關聯樣本系列,該媒體資料的關聯樣本系列各用於該沉浸媒體體驗的不同構件;以及衍生軌道,包括一組衍生操作,為了該沉浸媒體體驗,該組衍生操作被進行時生成用於該用戶裝置之媒體資料的樣本系列;進行該組衍生操作的衍生操作以生成用於衍生媒體軌道之部分媒體資料,進行該衍生操作包括:處理該多個媒體軌道以生成該媒體資料的第一樣本系列,該第一樣本系列用於該沉浸媒體體驗;以及輸出包括該部分媒體資料的該衍生媒體軌道。
因此,已經相當寬泛地概述了所公開主題的特徵,以便可以更好地理解其隨後的詳細描述,並且可以更好地理解本發明對本領域的貢獻。當然,所公開的主題的額外特徵將在下文中描述並且將形成所附申請專利範圍的主題。應當理解,本文所採用的措辭和術語是為了描述的目的,不應被視為限制。
100:視訊編解碼配置
102A-102N:攝像機
104:編碼裝置
106:視訊處理器
108:編碼器
110:解碼裝置
112:解碼器
114:渲染器
116:顯示器
200:處理
201:球形視區
202:拼接、投影、映射塊
204:編碼塊
206:傳遞塊
208:解碼塊
210:構建塊
212:渲染塊
214:互動塊
300:示例性軌道分層結構
302:3D軌道
304:元資料軌道
306:投影軌道
308:軌道
310A:區域軌道
312A:變體軌道
312K:變體軌道
310R:區域軌道
314A:變體軌道
314K:變體軌道
400:軌道衍生操作
402A:多個輸入軌道/圖像
402B:多個輸入軌道/圖像
402N:多個輸入軌道/圖像
404:衍生視訊軌道
406:軌道衍生操作
408:衍生視訊軌道
501:3D場景
502:視訊
503:屏幕
610:管線
611:軌道
612:解碼器
613:處理步驟
614:緩衝器
620:管線
621A:軌道
621B:軌道
622A:解碼器
622B:解碼器
623:處理步驟
624:緩衝器
630:管線
631:軌道
632:解碼器
633:處理步驟
634A:緩衝器
634B:緩衝器
640:管線
641A:軌道
641B:軌道
642:解碼器
643:處理步驟
644:緩衝器
650:顯示引擎
700:伺服器
701:軌道
702:軌道
703:軌道
704:軌道
705:軌道
706:軌道
707:媒體存取功能(MAF)
708:軌道
709:解碼
710:處理
711:緩衝器
712:顯示引擎
750:用戶裝置
800:系統
801:場景視訊軌道衍生
802:雲端
803:媒體存取功能(MAF)
804:本地來源
805A-D:解碼器
806A-E:緩衝器
807:顯示引擎
808:場景描述及其更新
900:電腦化方法
902:步驟
904:步驟
906:步驟
908:步驟
在附圖中,在各個圖中示出的每個相同或幾乎相同的組件由相同的附圖標記表示。為清楚起見,並非每個組件都可以在每張圖中標出。附圖不一定按比例繪製,而是重點放在說明此處描述的技術和設備的各個方面。
第1圖示出根據一些實施例的示例性視訊編解碼配置。
第2圖示出根據一些示例的虛擬實境(VR)內容的視區相關內容的流程處理。
第3圖示出根據一些實施例的示例性軌道分層結構。
第4圖示出根據一些示例的軌道衍生操作的示例。
第5圖示出根據一些示例的示例性3D場景,該示例性3D場景包含2D視訊。
第6圖示出根據一些實施例的示例性處理,該示例性處理用於MPEG-I場景描述媒體處理。
第7圖示出根據一些實施例的示例性處理,該示例性處理用於利用衍生軌道的場景描述媒體處理。
第8圖示出根據一些實施例的示例性系統,該示例性系統用於利用衍生軌道的場景描述媒體處理。
第9圖示出根據一些實施例的示例性電腦化方法,該示例性電腦化方法用於與客戶裝置通訊的伺服器並利用衍生軌道實現場景描述。
發明人已經發現需要提供一種技術實現多種沉浸媒體場景以及體驗。然而,目前所提出的實現沉浸媒體場景的傳統解決方案通常需要一定數量的不同處理管線,這些處理管線由用戶裝置所進行。各個管線可要求進行一個或多個處理步驟,例如串流、信號分離、解碼、解密及/或格式轉換。為了渲染觀看者所看到的最終沉浸媒體場景,傳統解決方案還要求顯示引擎存取及處理由各個管線所產生的結果資料,以處理跨越多種管線的內容。在一些示例中,顯示引擎所進行的處理步驟可進一步包含轉換經緩衝資料的格式、創造新的靜態或動態緩衝器(例如,基於從檔案本身所接收之元資料的索引緩衝器)及/或類似步驟。
發明人還發現並認知上述傳統作法不足。特別是,各個管線要求用戶實施關聯的解碼器、進行與管線關聯的處理以及緩衝結果資料。另外,場景只能在管線處理資料之後由顯示引擎所實現。由於用戶需要負責實現多種所需的管線以及顯示引擎,目前的解決方案對用戶造成沉重負擔。因此,用戶裝置必須具有充足的最低處理能力。這樣的用戶端負擔在面對特定類型的內容時會更加嚴重。舉例來說,為了解碼用於場景的內容,有些內容(例如沉浸媒體內容)需要用戶進行多種高計算強度(computer-intensive)的處理步驟。
根據本發明的一些面向,本發明的技術以檔案格式為基礎的解決方案,該方案使用衍生視訊軌道以實現沉浸媒體場景。根據一些實施例,衍生 軌道可包含衍生視訊軌道,該衍生視訊軌道的樣本可衍生轉換,該衍生轉換利用輸入軌道或影像來產生輸出視訊軌道,該輸出視訊軌道具有沉浸媒體場景(或是沉浸媒體場景的一部分)的視訊樣本。在一些實施例中,衍生軌道可指定在媒體內容(例如2D及/或3D內容)上的衍生操作,該衍生操作包含於輸入軌道中以渲染部分沉浸媒體場景。舉例來說,衍生視訊軌道可指定一種在輸入視訊軌道上進行的組成轉換,以利用在場景描述中所指定的關聯輸入視訊軌道產生代表沉浸媒體體驗的視訊軌道。作為另外一個示例,衍生視訊軌道可指定在兩個輸入視訊軌道上進行的重疊轉換,且軌道衍生操作可利用這兩個輸入軌道產生重疊的視訊軌道。
如此一來,在此所描述的衍生軌道解決方案可利用實現多種沉浸媒體使用情境的衍生軌道在關聯的輸入軌道上進行組成及重疊衍生操作。在一些實施例中,這樣的解決方案可使用場景描述,使得高階場景描述(例如,什麼內容所組成以及如何組成等)能夠映射到包含媒體內容的低階媒體軌道上。這樣可以提供場景相關內容儲存、傳遞及處理的彈性。相較於傳統解決方案,當使用一個或多個衍生視訊軌道的時候,個別的解碼器可以進行一個或多個任務,而不是藉由顯示引擎所進行。舉例來說,傳統的解決方案是在完成關聯的管線以將物件及背景內容放置到由顯示引擎所存取的個別緩衝器後,才利用顯示引擎實現重疊。根據在此所描述的技術,可藉由衍生軌道將物件重疊到軌道階層以實現重疊。舉例來說,可藉由衍生軌道及/或在處理流程中更早的階段進行重疊。例如,在衍生軌道被存取時且在傳送到用戶裝置前藉由媒體存取功能(media access function,簡稱MAF)進行重疊。因此,利用這樣的衍生軌道解決方案,可以將重疊操作移到伺服器側上(例如,將重疊場景作為單一媒體軌道傳遞到用戶),而不用在用戶端上進行重疊操作(例如,為了物件及背景內容要求用戶請求兩個不同軌道並相應地進行重疊)。
在以下描述中,關於所公開主題的系統和方法以及此類系統和方法可以在其中運行的環境等的許多具體細節被闡述,以提供對所公開主題的透徹理解。此外,將理解的是,以下提供的示例是示例性的,以及可以想到,在所公開主題的範圍內存在其他系統和方法。
第1圖示出根據一些實施例的示例性視訊編解碼配置100。攝像機102A-102N是N個攝像機,以及可以是任一類型的攝像機(例如,包括音訊記錄能力的攝像機,及/或單獨的攝像機和音訊記錄功能)。編碼裝置104包括視訊處理器106和編碼器108。視訊處理器106處理從攝像機102A-102N接收的視訊,例如拼接、投影及/或映射。編碼器108對二維視訊資料進行編碼及/或壓縮。解碼裝置110接收已編碼的資料。藉由廣播網路、藉由移動網路(例如,蜂巢網路)及/或藉由互聯網,解碼設備110可接收作為視訊產品的視訊(例如,數位視訊碟(DVD)或其他電腦可讀介質)。解碼設備110可以是例如電腦、手持裝置、頭戴式顯示器的一部分或具有解碼能力的任一其他設備。解碼設備110包括被配置為對已編碼的視訊進行解碼的解碼器112。解碼設備110還包括渲染器114,其用於將二維內容渲染回用於播放的格式。顯示器116顯示來自渲染器114的已渲染內容。
通常,球型內容被用來表示3D內容,以提供場景的360度視圖(例如,有時稱為全向(omnidirectional)媒體內容)。儘管可使用3D球體來支援許多視圖,終端使用者通常只觀看3D球體上的一部分內容。傳輸整個3D球所需的頻寬可能會給網路帶來沉重負擔,並且可能不足以支援球形內容。因此,需要使3D內容傳送更加有效率。可進行視區相依的處理以改善3D內容傳送。3D球體內容可被劃分為區域/圖塊(tile)/子圖像,並且只有與觀看螢幕(例如,視區)相關的內容才能被發送並被傳送給終端使用者。
第2圖示出根據一些示例的VR內容的視區相依內容流程處理200。如圖所示,球形視區201(例如,其可能包括整個球體)在區塊202處進行 拼接、投影、映射(以生成經投影以及經映射區域),在區塊204處進行編碼(以生成多種品質的編碼/轉碼圖塊),在區塊206處被傳遞(作為圖塊),在區塊208處被解碼(以生成解碼的圖塊),在區塊210處被建構(以建構球形渲染的視區),以及在區塊212處被渲染。在區塊214處的使用者互動可選擇視區,該視區將啟動多個“剛好及時”處理步驟,如虛線箭頭所示。
在處理200中,由於當前網路頻寬限制和各種自適應需求(例如,關於不同的品質、編解碼器和投影方案),3D球形VR內容首先被處理(拼接,投影和映射)到2D平面上(藉由區塊202),然後被封裝在多個基於圖塊(或基於子圖像)和分段的檔案中(在區塊204),以進行傳遞和播放。在這種基於圖塊和分段的檔案(tile-based and segmented file)中,通常2D平面中的空間圖塊(例如,其代表空間部分,通常為2D平面內容的矩形)被封裝為其變體的集合,例如以不同的品質和位元速率,或以不同的編解碼器和投影方案(例如,不同的加密演算法和模式)。在一些示例中,這些變體對應於MPEG DASH中的自適應集合內的表示。在一些示例中,基於使用者對視區的選擇,當一些不同圖塊的變體被放在一起時可提供對所選擇的視區的覆蓋,該些不同圖塊的變體由接收器獲取或被傳遞給接收器(藉由傳遞區塊206),然後被解碼(在區塊208處)以建構和渲染所期望的視區(在區塊210和212處)。
在第2圖中,視區概念是終端使用者所觀看的內容,其涉及球體上區域的角度和大小。通常,對於360度內容,該技術將所需的圖塊/子圖像內容傳遞給用戶,以覆蓋使用者將觀看的內容。由於該技術僅提供覆蓋當前感興趣視區的內容而不是整個球形內容,此處理是視區相依的。視區(例如,一種球形區域)可以改變,因此不是靜態的。例如,當使用者移動頭部時,系統需要獲取相鄰圖塊(或子圖像)以覆蓋使用者接下來要觀看的內容。
例如,內容的平面檔案結構(flat file structure)可被用於單個電 影的視訊軌道。對於VR內容,其存在的內容多於接收設備發送及/或顯示的內容。例如,如本文所討論的,可以存在整個3D球體的內容,其中使用者僅查看一小部分。為了更有效率地編碼、存儲、處理及/或傳遞此類內容,內容可被劃分為不同的軌道。第3圖示出根據一些實施例的示例性軌道分層結構300。頂部軌道302是3D VR球形內容軌道,頂部軌道302下方是關聯的元資料軌道304(每個軌道具有關聯的元資料)。軌道306是2D投影軌道。軌道308是2D大圖像軌道。區域軌道被示為軌道310A到310R,通常被稱為子圖像軌道310。每個區域軌道310具有關聯的變體軌道組。區域軌道310A包括變體軌道312A到312K。區域軌道310R包括變體軌道314A到314K。因此,如軌道分層結構300所示,以實體多變體區域軌道312開始的結構被開發,以及可以對區域軌道310(子圖像或圖塊軌道)、投影和打包2D軌道308、投影2D軌道306和VR 3D視訊軌道302,以及與它們關聯的適當元資料建立軌道層次。
在操作中,變體軌道包括實際圖像資料。裝置在備用的變體軌道中選擇一個作為子圖像區域(或子圖像軌道)310的代表。子圖像軌道310被平鋪以及組成在一起成為2D大圖像軌道308。最終,軌道308被反置映射,例如,重新排列一些部分以生成軌道306。然後軌道306被反置投影回3D軌道302,也就是原始3D圖像。
示例性軌道分層結構可以包括在例如以下描述的各方面:m39971,“Deriving Composite Tracks in ISOBMFF”,2017年1月(日內瓦,瑞士);m40384,“Deriving Composite Tracks in ISOBMFF using track grouping mechanisms”,2017年4月(澳大利亞,霍巴特);m40385,“Deriving VR Projection and Mapping related Tracks in ISOBMFF”;m40412,“Deriving VR ROI and Viewport related Tracks in ISOBMFF”,MPEG第118次會議,2017年4月,其全部內容以引用方式併入本發明。在第3圖中,rProjection、rPacking、compose 和alternate分別表示軌道衍生轉換特性(TransformProperty)項反置“proj”(reverse“proj”)、反置“pack”(reverse“pack”)、“cmpa”和“cmp1”,僅用於說明目的而不是限制。元資料軌道中所示的元資料類似地用於說明目的並且不旨在進行限制。例如,來自OMAF的元資料框可以如w17235(“Text of ISO/IEC FDIS 23090-2 Omnidirectional Media Format,”,第120屆MPEG會議,2017年10月(中國澳門))中所述使用,其全部內容以引用方式併入本發明。
第3圖所示的軌道數旨在說明而非限制。例如,在如第3圖所示的分層結構中不一定需要一些中間衍生軌道的情況下,相關的衍生步驟可以合而為一(例如,反置打包(reverse packing)和反置投影(reverse projection)被組合在一起以消除投影軌道306的存在)。
衍生的視訊軌道可以藉由其包含的“dtrk”類型的樣本條目來指示。衍生樣本包含在輸入影像或樣本的有序列表中待進行的操作的有序列表。每個操作都可以由轉換屬性(Transform Property)指定或指示。衍生的視訊樣本藉由依序進行指定的操作來重建。ISOBMFF中可用於指定軌道衍生的轉換屬性示例,包括最新的ISOBMFF正在考慮的技術(Technologies Under Consideration,簡稱TuC)中的那些示例(參見,例如,N17833,“Technologies under Consideration for ISOBMFF”,2018年7月,盧布亞納,斯諾維尼亞,其全部內容以引用方式併入本文中),包括:“idtt”(身份)轉換屬性;“clap”(乾淨光圈)轉換屬性;“srot”(旋轉)轉換屬性;“dslv”(疊化)轉換屬性;“2dcc”(ROI裁剪)轉換屬性;“tocp”(軌道疊加組成)轉換屬性;“tgcp”(軌道網格組成)轉換屬性;“tgmc”(使用矩陣值的軌道網格組成)轉換屬性;“tgsc”(軌道網格子圖像組成)轉換屬性;“tmcp”(轉換矩陣組成)轉換屬性;“tgcp”(軌道分組組成)轉換屬性;和“tmcp”(使用矩陣值的軌道分組組成)轉換屬性。所有這些軌道衍生都與空間處理有關,包括對輸入軌道的影像處理和空間合成。
衍生的視訊軌道可用於指定視訊轉換操作的以時間排序的序列,該視訊轉換操作將被應用於衍生操作的輸入軌道。輸入軌道可以包括例如具有靜止圖像及/或圖像的時間序列樣本的軌道。在一些實施例中,衍生的視訊軌道可以包含在ISOBMFF中提供的面向,其在w18855(“Text of ISO/IEC 14496-12 6th edition,”2019年10月,日內瓦,瑞士,其全部內容以引用方式併入本文中)中被指定。例如,ISOBMFF可用於提供基本媒體檔案設計和一組轉換操作。舉例來說,如w19428(“Revised text of ISO/IEC CD 23001-16 Derived visual tracks in the ISO base media file format”,2020年7月,線上,其全部內容以引用方式併入本文中)中所指定的,示例性轉換操作包括身份、疊化、裁剪、旋轉、鏡像、縮放、感興趣區域和軌道網格。在TuC w19450(“Technologies under Consideration on ISO/IEC 23001-16”,2020年7月,線上,其全部內容以引用方式併入本文中)中提供一些額外的衍生轉換候選,其中包括與合成和沉浸式媒體處理相關的轉換操作。
第4圖示出根據一些示例的軌道衍生操作400的示例。多個輸入軌道/影像1 402A、軌道/影像2 402B到軌道/影像N 402N被輸入到衍生視訊軌道404,其攜帶應用至轉換樣本的轉換操作。軌道衍生操作406將轉換操作應用於衍生視訊軌道404的轉換樣本以生成包括視訊樣本的衍生視訊軌道408。
在m39971(“Deriving Composite Tracks in ISOBMFF”,2017年1月,瑞士日內瓦,其全部內容以引用方式併入本文)中,兩種基於軌道選擇的衍生轉換(被稱為“Selection of One”(“sel1”)和“Selection of Any”(“seln”))被提出。然而,這兩種轉換都是為了輸入軌道的圖像合成而設計的,因此這兩種轉換需要用於合成操作的維度資訊。例如,根據一些示例的用於僅選擇一個(“sel1”)轉換屬性的示例性語法。sel1轉換屬性包參考寬度和參考高度欄位,它們分別給出了參考矩形空間的寬度和高度,其中所有座標(左上X座標、左 上Y座標、寬度和高度)被計算。這些欄位指定由其相應輸入視訊軌道的所有輸入圖像組成的衍生圖像的大小。欄位左上X座標和左上Y座標分別指定要放置相應軌道的輸入媒體圖像的矩形區域的左上角的水準和垂直座標。欄位寬度和高度分別指定矩形區域的寬度和高度,相應軌道的輸入媒體圖像將被放置於該矩形區域。sel1轉換屬性可以指定衍生樣本的參考寬度和高度,以及在由左上X座標和左上Y座標指定的並具有相應的大小寬度和高度的相應位置處,將來自整個轉換過程中選擇的同一軌道的一個(例如,只有一個)輸入圖像放置或合成到衍生樣本上。
根據一些實施例,場景描述(例如,MPEG-I場景描述)可提供一種格式,該格式用於提供沉浸媒體體驗的描述。舉例來說,場景描述提供基於陳進內容的格式,例如3自由度(3DoF)和6自由度(6DoF)內容。該格式可被用在一個或多個技術,例如擴增實境(AR)、虛擬實境(VR)及/或混合實境(MR)技術。舉例來說,場景描述可儲存3D資料,例如人造3D資料(像是由電腦所產生)及/或自然3D資料(像是使用攝像機從真實世界中所捕捉)。場景描述也可包含其他資料,例如2D資料、音訊資料等。在一些示例中,場景描述可將該格式的構件之間的介面顯露出來及/或允許3D互動體驗。舉例來說,除了描述場景之外,場景描述可包含場景中構件之間的介面(例如,與場景關聯的多種2D及/或3D內容來源)。
根據一些實施例,場景描述可被輸入到顯示引擎並被顯示引擎使用以渲染觀看者所看到的場景(例如3D場景)。在場景描述規格書中所提供的延伸內容能夠利用沉浸媒體(例如,MPEG媒體)創造沉浸體驗。
場景描述可在多種結構中發揮功效以描述場景。根據一些實施例,場景圖屬於場景描述的一種類型,舉例來說,可利用圖形結構描述場景。場景圖可被用來描述包含不同類型的視訊、影像、音訊及/或類似者的場景。為了支 援沉浸媒體,場景圖可藉由提供場景描述格式的延伸內容而實現。支援MPEG媒體的例子在“The GL Transmission Format(GlTF)2.0,”N19290(“WD on Scene Description for MPEG Media,”,2020年7月(線上))中已有所描述,其全部內容以引用方式併入本發明。在其他實施例中,可使用其他的場景描述,例如場景描述包含使用物件清單的關聯。
作為說明範例,MPEG-I場景描述(不論是實現為場景圖及/或其他格式)可被用在N18339(“Requirements on Integration of Scene Description in MPEG-I”,2019年3月,瑞士日內瓦,其全部內容以引用方式併入本文)中所描述的不同參考使用情境。為了不需要被實現的高階概念,可提供這些參考使用情境。參考使用情境的第一個例子是使用360度影像及/或視訊。舉例來說,可能會想要提供一種場景描述,其能夠描述包含360度影像的場景。該場景的內容可以從多種來源中取得。根據一些實施例,影像可以在本地(local)所參照。根據一些實施例,影像可經由網路所參照。
上述的第一個示範情境可能有變體。舉例來說,影像及/或視訊可在網路上串流(例如,使用基於HTTP的動態自適應流(Dynamic Adaptive Streaming over HTTP,簡稱DASH))。在一些範例中,影像或視訊的幾何是基於球型幾何,但不以此為限。影像或視訊的幾何也有可能由不同於球體(例如,立方體)的格式所提供。根據一些示例,視訊是立體格式。在一些示例中,參考內容是格式為全向媒體格式(OMAF)檔案的360度視訊。在一些示例中,視訊可做為一個或多個軌道包含在OMAF檔案中,且OMAF檔案也可包含音訊軌道。
參考使用情境的第二個範例是用於3D音訊以及360度視訊。舉例來說,可能會想要一種場景描述,用來描述由360度影像及3D音訊所組成之場景。在一些實施例中,360度影像及3D音訊可一起包含在一個本地檔案中。在一些示例中,音訊可以是立體聲音訊。在一些示例中,音訊可以是3D音訊。 在一些示例中,音訊包含3D音訊及非劇中音訊內容(non-diegetic content)。
參考使用情境的第三範例是用於360度視訊及字幕。根據一些實施例,可能會想要一種場景描述,用來描述由360度影像及字幕軌道所組成的場景。字幕軌道的渲染可藉由該場景描述所控制。
參考使用情境的第四範例是用於本地物件的結合。根據一些實施例,可能會想要一種場景描述將場景(例如,上述三種參考使用情境範例的其中一種)和本地物件結合。舉例來說,作為前述實施例的替代方案或額外方案,可以將本地物件呈現在場景描述中。舉例來說,可將影像重疊放置在場景上及/或可在場景中加入本地音源。
參考使用情境的第五範例是用於具有2D視訊的3D場景。根據一些實施例,可使用場景描述組構3D及2D場景,並在3D區域上顯示2D視訊。2D視訊可在本地或透過網路參照。第5圖根據一些示例示出包含2D視訊502的示例性3D場景501。在第5圖中,客廳的示例性3D場景501可包含一個或多個2D區域,例如3D平面屏幕的屏幕503。2D視訊502可顯示在該一個或多個2D區域上。
發明人已經發現需要提供一種技術實現沉浸媒體體驗,例如上述的參考使用情境範例。然而,目前所提出的實現沉浸媒體場景的傳統解決方案通常需要一定數量的不同處理管線。傳統的解決方案也需要在用戶側進行數量可觀的處理。舉例來說,根據一些示例(例如上面提到的N19290中所描述者),第6圖示出一種用於MPEG-I場景描述媒體處理的示例性流程。在第6圖的示例中,各個管線610、620、630及640接受作為輸入的一個或多個媒體或元資料軌道並輸出經解碼及處理的內容到一個或多個與各個管線關聯的緩衝器。舉例來說,管線610接受軌道611,經由解碼器612、處理613,並輸入到緩衝器614,管線620接受軌道621A-B,經由解碼器622A-B、處理623,並輸出到緩 衝器624,管線630接受軌道631,經由解碼器632、處理633,並輸出到緩衝器634A-B,以及管線640接受軌道641A-B,經由解碼器642、處理643,並輸出到緩衝器644。
各個管線可經配置以進行一個或多個處理步驟(例如,613、623、633及643),例如串流、信號分離、解碼、解密及/或格式轉換以符合想要的緩衝器格式。場景描述可包含描述如何處理從緩衝器(例如,614、624、634A-B及644)提供給顯示引擎650之內容的資料。如同前述,為了渲染觀看者所看到的場景(例如3D場景),場景描述可輸入到顯示引擎650及/或由顯示引擎650所存取,以處理跨越多種緩衝器的內容。在一些示例中,處理步驟可轉換經緩衝資料的格式、可創造新的靜態或動態緩衝器(例如,基於從檔案本身所接收之元資料的索引緩衝器)及/或類似步驟。
發明人還發現並認知傳統的場景描述實現方案的不足。特別是,為了實現場景描述,這樣的方案要求用戶實施一定數量的管線。各個管線要求用戶實施關聯的解碼器、進行與管線關聯的處理以及緩衝結果資料。另外,場景描述中所描述的場景只能在管線處理資料之後實現(如第6圖所示)。因此,目前的解決方案對用戶造成沉重負擔,使得用戶需要負責實現多種所需的管線,並且也需要實現顯示引擎以創造用戶享用的場景。因此,沉重負擔施加在用戶上,使得用戶裝置必須具有充足的最低處理能力。這樣的用戶端負擔在面對特定類型的內容時會更加嚴重。舉例來說,為了解碼用於場景的內容,有些內容(例如沉浸媒體內容)需要用戶進行多種高計算強度的處理步驟。
根據本發明的一些面向,本發明的技術以檔案格式為基礎的解決方案,該方案使用衍生視訊軌道以實現沉浸媒體場景。舉例來說,可在關聯輸入軌道上進行組合及重疊衍生操作以生成可被用來實現沉浸媒體使用情境(例如,前述的幾種情境)的衍生軌道。這樣的解決方案能夠將高階場景描述映射到包含 媒體內容的低階媒體軌道上,並且可以在與場景相關內容的儲存、傳遞及處理上可提供彈性。
如同本案所述,衍生視訊軌道能夠定義視訊轉換操作的時間序列,該視訊轉換操作將被應用於輸入靜止圖像及/或圖像時間序列樣本。舉例來說,所支援的轉換可包含識別、組成、旋轉、縮放及網格組成操作。在一些實施例中,所支援的轉換可包含靜態及動態重疊,也包含一些沉浸媒體處理相關的轉換,像是拼接、投影、打包及視區轉換。在一些實施例中,衍生視訊軌道可利用ISO基本媒體檔案格式(ISO/IEC 14496-12)中所提供的工具所建立,如w19428(“Revised text of ISO/IEC CD 23001-16 Derived visual tracks in the ISO base media file format”,2020年7月,線上,其全部內容以引用方式併入本文中)中所指定的,及/或在TuC w19450(參考前述)中的最新描述。
因此,伺服器可使用包含組合或轉換衍生操作的衍生軌道,該組合或轉換衍生操作能夠讓伺服器及/或管線基於下面的媒體軌道為使用者建構單一媒體軌道。如本案所述,軌道衍生操作可處理數個輸入軌道(例如,具有不同媒體內容、音訊內容、字幕等的軌道)以在樣本階層將輸入軌道組合而生成媒體軌道的媒體樣本。因此,本案所述的軌道衍生技術能夠在衍生操作的時候創造一些及/或全部的沉浸媒體場景。在一些實施例中,軌道衍生可提供軌道樣本的軌道封裝作為來自衍生軌道的衍生操作的輸出,其中軌道樣本是基於一組輸入內容軌道所組成。
根據一些實施例,衍生軌道可包含衍生視訊軌道,該衍生視訊軌道的樣本指定衍生轉換,該衍生轉換能夠用來從輸入軌道或影像生成具有場景視訊樣本的輸出視訊軌道。舉例來說,為了渲染如第5圖所示的場景,衍生軌道可指定在包含於輸入軌道中的3D及2D內容上的衍生操作。舉例來說,衍生視訊軌道可指定要在視訊軌道中所進行的組成轉換,而軌道衍生可被進行以利 用場景描述中所指定的關聯輸入視訊軌道生成代表沉浸媒體體驗的經組成的視訊軌道。作為另一種示例,衍生視訊軌道可指定要在兩個輸入視訊軌道上進行的重疊轉換,而軌道衍生操作可利用這兩個輸入軌道生成經重疊的視訊軌道。
相較於傳統的解決方案,當一個或多個軌道是衍生視訊軌道時,一個或多個場景任務(例如組成及重疊任務)可藉由他們個別的解碼器所進行,而不是利用緩衝器將場景任務提供給顯示引擎而藉由顯示引擎所進行。舉例來說,以重疊操作來說,傳統的解決方案利用場景描述將重疊描述為場景的一部分,並且要在利用關聯的管線將物件及背景放到他們個別的緩衝器之後再藉由顯示引擎所實現。根據本案的技術,可藉由衍生軌道實現重疊以在軌道層級將物件重疊。舉例來說,可藉由衍生軌道的解碼器進行重疊,及/或在處理流程的更早階段,例如藉由媒體存取功能(media access function,簡稱MAF)在存取衍生軌道時且在傳送到用戶裝置之前進行重疊。因此,利用這樣的衍生軌道解決方案,能夠將重疊操作移動到伺服器側(例如,將經重疊的場景傳遞到用戶),而不是在用戶側上進行重疊操作(例如,要求用戶請求用於物件和背景的兩個不同軌道以相應地進行重疊)。
舉例來說,根據一些示例,第7圖示出為了場景描述媒體處理而利用衍生軌道的示範性流程。利用衍生軌道解決方案,場景描述可允許多個處理步驟由伺服器700及/或與伺服器700通訊的用戶裝置750所進行。在第7圖的示例中,伺服器700存取軌道701-706,其中包含一個或多個衍生軌道以及一個或多個媒體軌道。各個衍生軌道包含指定一組衍生操作的元資料,該組衍生操作可在媒體存取功能(MAF)707中進行以生成用於媒體軌道的媒體資料。舉例來說,MAF可處理媒體軌道以生成用於軌道708的媒體資料的樣本系列。軌道708可接著被傳送到用戶裝置750。用戶裝置接收軌道708、進行解碼709、處理710及輸出內容到緩衝器711。顯示引擎712接著進行任何由場景描述所要求 的剩餘處理以創造最終場景給使用者享用(user’s consumption)。因此,在一些實施例中,用戶裝置750所需要實施的處理管線的數量相較於傳統技術可以顯著地減少(如圖7所示的示例,減少到只有一個管線)。另外,由於可以改由MAF 707進行前述的處理,需要由顯示引擎712所進行的處理也可被減少。
需明白的是,可使用多種解決方案配置場景描述中的什麼面向會由伺服器側(例如MAF 707)實現以及場景描述中的什麼面向會由用戶側(例如管線及/或顯示引擎)實現。舉例來說,可能會需要將處理工作量在伺服器700及用戶裝置750之中以某些方式拆分。做為另一示例,如果需要的話,使用衍生軌道技術仍然可以與目前解決方案一致而將處理保留在用戶側。因此,衍生軌道解決方案提供了傳統解決方案所沒有的彈性。
根據一些實施例,第8圖示出用於利用衍生軌道的場景描述媒體處理的示例性系統800。示例性系統800基於MPEG-I場景描述媒體處理,不過應明白的是本技術不限於MPEG-I場景描述。伺服器可包含可從雲端802或從本地來源804存取軌道的媒體存取功能(MAF)803。根據一些實施例,被存取的軌道可包含媒體軌道以及衍生軌道。衍生軌道可包含一組由MAF 803所進行以生成媒體資料的衍生操作,該生成的媒體資料用於一個或多個視訊軌道,例如本案所述的媒體軌道。舉例來說,MAF 803可進行場景視訊軌道衍生801以生成一個或多個視訊軌道。接著一個或多個視訊軌道(例如,用來建立沉浸媒體體驗的媒體軌道)可被傳送到與伺服器通訊的用戶裝置。
一個或多個視訊軌道可被傳送到用戶裝置的解碼器,如第8圖中所示的具有關聯緩衝器806A-D的解碼器805A-D。根據一些實施例,藉由伺服器進行衍生操作並傳送一個或多個視訊軌道可減少與伺服器通訊的用戶裝置所完成的處理數量。舉例來說,可減少用戶側上所進行的解碼操作的數量(例如,由於相關功能可被移到MAF 803中,使得一個或多個解碼器805A-D的需求消 失),這使得用戶裝置要創造沉浸媒體體驗的速度更快並且也比較不花費計算資源。
緩衝器806A-806E可對應到不同類型的資料及/或沉浸體驗的多個面向,例如質地(如質地緩衝器806A)、顏色(如顏色緩衝器806B)、音訊(如音訊緩衝器806C)、索引(如索引緩衝器806D)及元資料(如元資料緩衝器806E)。用戶裝置的顯示引擎807可使用緩衝器806A-E及場景描述808渲染場景(例如,3D場景)給觀看者。
在一些實施例中,場景描述的規格書中所提供的延伸能夠利用MPEG媒體創造沉浸體驗。顯示引擎807及媒體擷取引擎(圖未示)可透過介面通訊(例如,緩衝器806A-E),可允許顯示引擎807請求用於渲染場景(例如,參考使用情境中所描述的場景,如第5圖中所示的其中一種情境)所需要的媒體資料。媒體擷取引擎將擷取所請求的媒體使得顯示引擎807能夠準時得到媒體,並且所擷取到的媒體是顯示引擎807能夠立刻處理的格式。例如,所請求的媒體資產(media asset)可被壓縮並存在於網路中,因此媒體擷取引擎可以擷取並解碼該資產並傳送結果媒體資料到顯示引擎以進行渲染。
顯示引擎807根據場景描述及其更新808而建構場景所需要的媒體資料可從媒體擷取引擎被傳送到對應類型的緩衝器(例如,緩衝器806A-E)。媒體資料的請求可經由媒體擷取API從顯示引擎傳遞到媒體擷取引擎。根據一些實施例,為了視訊解碼資源的彈性使用,可使用視訊解碼引擎。當使用視訊解碼引擎時,顯示引擎可經由應用組態應用程式介面(APIs)提供輸入格式化及輸出格式化的資訊。應用組態APIs可提供關於基礎串流的擷取及合併的資訊,並將解碼視訊序列及時傳遞到渲染功能中適當的緩衝器中以進行顯示。根據一些實施例,當用於運輸及傳遞媒體資料的軌道是衍生視訊軌道時,場景描述可指示MAF進行場景視訊軌道衍生801的操作。應明白雖然在第8圖中,所示的場 景描述及其更新808是由顯示引擎807所提供,場景描述及/或其更新可額外地或替代地由MAF 803所提供。
根據其他實施例,伺服器可在MAF 803進行所有的軌道衍生並且將視訊軌道傳送到用戶裝置。根據一些實施例,伺服器可在MAF 803進行一些但不是全部的軌道衍生以建構一些部分的場景,且用戶也可建構一些部分的場景。因此,雖然在第8圖示出的示例中場景視訊軌道801是由MAF 803所進行,解碼器及/或顯示引擎807可額外或替代地進行一個或多個衍生操作。作為其他示例,MAF 803的一些及/或全部的功能可在用戶裝置本地實現,而因此用戶裝置可進行一些及/或全部上述所討論的MAF 803功能。
如本案所述,場景描述(例如,MPEG-I場景描述,像是利用場景圖所實現者)可在衍生軌道發揮功效,並且可被用來達成不同的參考使用情境。舉例來說,以支援360度影像及視訊的情境來說,在一些實施例中,場景可包含360度影像及/或視覺體積視訊基礎編碼資料(Visual Volumetric Video-based Coding Data,簡稱V3CD)沉浸媒體。在一些實施例中,影像或媒體內容可被封裝為全向媒體格式(OMAF)檔案(例如,N19435(“Potential Improvement of OMAF(2nd Edition)”,2020年7月,線上,其全部內容以引用方式併入本文中)中所描述)。在一些實施例中,影像或媒體內容可被封裝為視覺體積視訊基礎編碼資料檔案(V3C,例如,N19441(“Potential Improvement for ISOIEC 23090-10 Carriage of Visual Volumetric Video-based Coding Data”,2020年7月,線上,其全部內容以引用方式併入本文中)中所描述)。影像或媒體內容可包含一個或多個視訊軌道及/或音訊軌道。
根據一些實施例,衍生軌道解決方案可用來實現包含3D音訊及360度視訊的使用情境。舉例來說,以包含3D音訊及360度視訊的場景來說,其內容可被存放在一個檔案中,該檔案包含該場景所對應的軌道。
根據一些實施例,衍生軌道解決方案可用來實現包含360度視訊及字幕的使用情境。舉例來說,場景可包含360度視訊及字幕軌道。在此示例中,可使用衍生視訊軌道進行組成轉換,該衍生視訊軌道具有對應於場景的軌道及對應於字幕的軌道且該組成轉換用於將字幕軌道渲染於360度影像之上。舉例來說,組成轉換可使用OMAF中的字幕渲染結構,例如前述N19435所描述者。
根據一些實施例,衍生軌道解決方案可用來實現與本地物件結合的使用情境。根據一些實施例,可加入本地物件到場景,且可使用衍生視訊軌道進行用於渲染場景的組成或重疊轉換,該衍生視訊軌道具有對應於物件的軌道或項目及對應於場景的軌道,且該組成或重疊轉換包含將物件作為組成加入場景中或是將物件以重疊方式放置到場景。舉例來說,該轉換可使用前述w19450中所述的重疊轉換。
根據一些實施例,衍生軌道解決方案可用來實現包含具有2D視訊的3D場景的使用情境。舉例來說,場景可將2D視訊顯示於3D場景的3D區域上(如第5圖所示)。可使用衍生視訊軌道進行重疊轉換,該衍生視訊軌道具有對應於3D場景的軌道及對應於2D視訊的軌道且該重疊轉換用於將2D視訊放置到指定3D區域上。舉例來說,該轉換可使用OMAF中的重疊結構,例如前述N19435所描述者。
第9圖示出根據一些實施例的示例性電腦化方法900,該示例性電腦化方法900用於與客戶裝置通訊的伺服器並利用衍生軌道實現場景描述。
在步驟902中,伺服器從用戶裝置接收一組一個或多個參數。該組一個或多個參數可與場景描述中所提供的操作相關聯。舉例來說,一個或多個參數可包含使用者的(2D)視區參數,例如視區的x座標、y座標、寬度及/或高度。作為其他示例,舉例來說,一個或多個參數可包含一個或多個補償值(例如, horizontal_offset,vertical_offset)以表明使用者想要將物件放置到背景上的位置。
在步驟904中,伺服器存取用於沉浸媒體體驗(例如,用於建立沉浸媒體體驗)的多媒體資料。根據一些實施例,該多媒體資料可包括多個媒體軌道,各媒體軌道包括媒體資料的關聯樣本系列,該媒體資料的關聯樣本系列各用於該沉浸媒體體驗的不同構件。如本案所述,多個媒體軌道包含衍生軌道,該衍生軌道包括一組轉換操作,為了沉浸媒體體驗,該組轉換操作被進行時生成用於用戶裝置之媒體資料的樣本系列。一般來說,為了沉浸媒體體驗,伺服器可存取包含元資料的衍生軌道,該元資料指定一個或多個將要進行的轉換操作(例如,基於在步驟902所接收的該組一個或多個參數)。伺服器也可存取用於衍生操作的關聯輸入媒體軌道。
在步驟906中,伺服器進行該組衍生操作的衍生操作以生成用於媒體軌道之部分媒體資料,該媒體軌道包含具有沉浸媒體體驗的沉浸媒體體驗軌道及/或具有媒體資料的媒體軌道,該媒體資料用來建立沉浸媒體體驗(例如,藉由顯示引擎)。伺服器處理多個由衍生軌到所參照的媒體軌道以進行關聯轉換操作以生成媒體資料的樣本系列,該樣本系列用於沉浸媒體體驗。在步驟908中,伺服器傳送包含部分媒體資料的媒體軌道到用戶裝置。
舉例來說,利用來自用戶裝置的參數,例如指明使用者的(2D)視區的(例如,x0,y0,寬,高)參數,伺服器可進行例如感興趣區域(ROI)選擇的衍生。在其他示例中,伺服器可利用來自用戶裝置的參數(像是要把物件重疊在背景的什麼地方,例如,horizontal_offset,vertical_offset)進行重疊組成作為衍生。
在一些實施例中,步驟902-908可由一個裝置(例如用戶裝置)所進行。舉例來說,用戶裝置可在步驟902中存取一組一個或多個用於處理沉浸媒體體驗場景描述的參數、在步驟904中存取用於沉浸媒體體驗的多媒體資料、在步驟906中進行衍生操作以及在步驟908中輸出包含部分媒體資料的衍生媒 體軌道。舉例來說,衍生媒體軌道可被進一步處理以生成沉浸媒體體驗。作為其他示例,衍生媒體軌道可包含用於沉浸媒體體驗的媒體資料。因此,用戶裝置可渲染及/或顯示該衍生媒體軌道。
根據一些實施例,多個媒體軌道包含多個3D視訊軌道。替代或額外地,多個媒體軌道包含多個2D視訊軌道。根據一些實施例,該組為了沉浸媒體體驗生成用於用戶之媒體資料的樣本系列的衍生操作是基於場景描述。
在一些實施例中,沉浸媒體體驗包括具有360度影像的場景,且該多個媒體軌道包括一個或多個視訊及音訊軌道。根據一些實施例,沉浸媒體體驗包含3D音訊及包括360度影像的場景,且該多個媒體軌道在檔案中包括用於3D音訊的軌道以及用於360度影像的軌道。
根據一些實施例,沉浸媒體體驗包括字幕及包括360度影像的場景。在一些實施例中,該多個媒體軌道包括用於360度影像的軌道以及用於字幕的軌道,且該組衍生操作包括為了將字幕軌道渲染於360度影像之上進行組成轉換的操作。
根據一些實施例,沉浸媒體體驗包含場景以及加入該場景的物件。在一些示例中,多個媒體軌道包括用於場景的軌道以及用於物件的軌道,且該組衍生操作包含為了將物件加入場景中進行重疊轉換的操作。
根據一些實施例,沉浸媒體體驗包含將2D視訊顯示於3D場景的3D區域上的3D場景。在一些實施例中,該多個媒體軌道包含用於3D場景的軌道以及用於2D視訊的軌道,且其中該組衍生操作包含為了將2D視訊放置到3D區域上進行重疊轉換的操作。
根據本文描述的原理操作的技術可以以任何合適的方式實現。上述的流程圖的處理和決策塊表示可包括在執行該些各種過程的演算法中的步驟和動作。從該些過程導出的演算法可實現為與一個或多個單用途或多用途處理 器的操作集成並指導其操作的軟體,可實現為功能等效電路,例如數位訊號處理(Digital Signal Processing,簡稱DSP)電路或應用-特定積體電路(Application-Specific Integrated Circuit,簡稱ASIC),或者可以以任一其他合適的方式實現。應當理解,本發明包括的流程圖不描繪任何具體電路或任何具體程式設計語言或程式設計語言類型的語法或操作。相反,流程圖示出本領域習知技術者可用來製造電路或實現電腦軟體演算法以執行本文所述技術類型的具體裝置的處理的功能資訊。還應當理解,除非本文另有指示,否則每個流程圖中描述的具體步驟和/或動作序列僅僅是對可實現的演算法的說明,以及可在本文描述的原理的實現方式和實施例中變化。
因此,在一些實施例中,本文描述的技術可體現為實現為軟體的電腦可執行指令,包括作為應用軟體,系統軟體,韌體,仲介軟體,嵌入代碼或任何其他合適類型的電腦代碼。這樣的電腦可執行指令可使用多個合適的程式設計語言和/或程式設計或腳本工具中的任何一種來編寫,以及還可被編譯為在框架或虛擬機器上執行的可執行機器語言代碼或中間代碼。
當本文描述的技術體現為電腦可執行指令時,該些電腦可執行指令可以以任何合適的方式實現,包括作為多個功能設施,每個功能設施提供一個或多個操作以完成根據該些技術操作的演算法的執行操作。然而,產生實體的“功能設施”是電腦系統的結構組件,當與一個或多個電腦集成和由一個或多個電腦執行時,會導致一個或多個電腦執行特定的操作角色。功能設施可以是軟體元素的一部分或整個軟體元素。例如,功能設施可根據過程,或作為離散過程,或作為任何其他合適的處理單元來實現。如果這裡描述的技術被實現為多功能設施,則每個功能設施可以以其自己的方式實現;所有該些都不需要以同樣的方式實現。另外,該些功能設施可以適當地並行和/或串列地執行,以及可使用它們正在執行的電腦上的共用記憶體以在彼此之間傳送資訊,使用消息傳 送協定,或其他合適的方式。
一般來說,功能設施包括執行具體任務或實現具體抽象資料類型的慣例,程式,物件,組件,資料結構等。通常,功能設施的功能可根據需要在它們運行的系統中組合或分佈。在一些實現方式中,執行本文技術的一個或多個功能設施可一起形成完整的套裝軟體。在備用實施例中,該些功能設施可以適於與其他不相關的功能設施和/或過程交互,以實現軟體程式應用。
本發明已經描述了用於執行一個或多個任務的一些示例性功能設施。然而,應當理解,所描述的功能設施和任務劃分僅僅是可以實現本文描述的示例性技術的功能設施的類型的說明,以及實施例不限於以任何具體數量,劃分,或功能設施的類型。在一些實現方式中,所有功能可在單個功能設施中實現。還應當理解,在一些實施方式中,本文描述的一些功能設施可與其他功能設施一起實施或與其他功能設施分開實施(即,作為單個單元或單獨的單元),或者該些功能設施中的一些可以不實現。
在一些實施例中,實現本文描述的技術的電腦可執行指令(當實現為一個或多個功能設施或以任何其他方式實施時)可在一個或多個電腦可讀介質上編碼以向媒體提供功能。電腦可讀介質包括諸如硬碟驅動器之類的磁介質,諸如光碟(Compact Disk,簡稱CD)或數位多功能碟(Digital Versatile Disk,簡稱DVD)之類的光學介質,永久或非永久固態記憶體(例如,快閃記憶體,磁性RAM等)或任何其他合適的存儲介質。這種電腦可讀介質可以以任何合適的方式實現。如這裡所使用的,“電腦可讀介質”(也稱為“電腦可讀存儲介質”)指的是有形存儲介質。有形存儲介質是非暫時性的以及具有至少一個物理結構組件。在如本文所使用的“電腦可讀介質”中,至少一個物理結構組件具有至少一個物理特性,該特性可在創建具有嵌入資訊的介質的過程,在其上記錄資訊的過程,或用資訊編碼媒體的任何其他過程期間以某種方式改變。例如,電腦可 讀介質的物理結構的一部分的磁化狀態可在記錄過程期間改變。
此外,上述一些技術包括以特定方式存儲資訊(例如,資料和/或指令)以供該些技術使用的動作。在該些技術的一些實現方式中-諸如將技術實現為電腦可執行指令的實現方式-該資訊可以在電腦可讀存儲介質上編碼。在本文中將特定結構描述為存儲該資訊的有利格式的情況下,該些結構可用於在編碼在存儲介質上時發送資訊的物理組織。然後,該些有利結構可藉由影響與資訊交互的一個或多個處理器的操作來向存儲介質提供功能;例如,藉由提高處理器執行的電腦操作的效率。
在其中技術可以體現為電腦可執行指令的一些但非全部實現方式中,該些指令可在任一合適的電腦系統中操作的一個或多個合適的計算設備中執行,或一個或多個計算設備(或者,一個或多個計算設備的一個或多個處理器)可被程式設計為執行電腦可執行指令。當指令以計算設備或處理器可訪問的方式存儲時,計算設備或處理器可被程式設計為執行指令,例如在資料存儲(例如,片上快取記憶體或指令寄存器,可被匯流排訪問的電腦可讀存儲介質,可被一個或多個網路訪問並可由設備/處理器訪問的電腦可讀存儲介質等)。包括該些電腦可執行指令的功能設施可與以下設備的操作集成和指導其操作:單個多用途可程式設計數位計算設備,共用處理能力和聯合執行本文描述的技術的兩個或更多個多用途計算設備的協調系統,專用於執行本文所述技術的單個計算設備或計算設備的協調系統(同位或地理分佈),用於執行本文所述技術的一個或多個現場可程式設計閘陣列(Field-Programmable Gate Array,簡稱FPGA),或任何其他合適的系統。
計算設備可包括至少一個處理器,網路介面卡和電腦可讀存儲介質。計算設備可以是例如臺式或膝上型個人電腦,個人數位助理(Personal digital assistant,簡稱PDA),智慧行動電話,伺服器或任何其他合適的計算設備。網路 自適應器可以是任何合適的硬體和/或軟體,以使計算設備能夠藉由任何合適的計算網路與任何其他合適的計算設備進行有線和/或無線通訊。計算網路可包括無線接入點,交換機,路由器,閘道和/或其他網路設備以及用於在兩個或更多個電腦(包括網際網路)之間交換資料的任何合適的有線和/或無線通訊介質或介質。電腦可讀介質可以適於存儲要處理的資料和/或要由處理器執行的指令。處理器能夠處理資料和執行指令。資料和指令可以存儲在電腦可讀存儲介質上。
計算設備可另外具有一個或多個組件和周邊設備,包括輸入和輸出設備。除其他用途之外,該些設備可用於呈現用戶介面。可用於提供用戶介面的輸出設備的示例包括用於輸出視覺呈現的印表機或顯示幕,和用於輸出的有聲呈現的揚聲器或其他聲音生成設備。可用作用戶介面的輸入裝置的示例包括鍵盤和指示設備,諸如滑鼠,觸控板和數位化平板電腦。作為另一示例,計算設備可藉由語音辨識或其他有聲格式接收輸入資訊。
以電路和/或電腦可執行指令實現該些技術的實施例已被描述。應當理解,一些實施例可以是方法的形式,其中已經提供了至少一個示例。作為方法的一部分執行的動作可以以任何合適的方式排序。因此,這樣的實施例可被構造,其中以不同於所示的順序執行動作,其可包括同時執行一些動作,即使在示例性實施例中示出為順序動作。
上述實施例的各個方面可單獨使用,組合使用,或者在前面描述的實施例中沒有具體討論的各種佈置中使用,因此不限於其應用於前面的描述或附圖中示出的上述實施例中闡述的組件的細節和佈置。例如,一個實施例中描述的各方面可以以任何方式與其他實施例中描述的各方面組合。
在申請專利範圍中使用諸如“第一”,“第二”,“第三”等的序數術語來修改申請專利範圍的元素本身並不意味著任何優先權,優先順序,或一個申請專利範圍元素的順序優先於另一個,或執行方法的行為的時間順序,但僅 用作標籤以區分具有具體名稱的一個申請專利範圍元素與具有相同名稱的另一個元素(但是用於使用序數術語),進而區分申請專利範圍的元素。
此外,這裡使用的措辭和術語是出於描述的目的,而不應被視為限制。本文中“包括”,“包含”,“具有”,“含有”,“涉及”及其變化形式的使用旨在涵蓋其後列出的項目及其等同物以及附加項目。
本文使用的“示例性”一詞意味著用作示例,實例或說明。因此,在此描述為示例性的任何實施例,實現,過程,特徵等應當被理解為說明性示例,並且除非另有指示,否則不應被理解為優選或有利示例。
至少一個實施例的若干方面已被如此描述,應當理解,本領域習知技術者將容易想到各種改變,修改和改進。該些改變,修改和改進旨在成為本公開的一部分,並且旨在落入本文描述的原理的精神和範圍內。因此,前面的描述和附圖僅是示例性的。
900:電腦化方法
902:步驟
904:步驟
906:步驟
908:步驟

Claims (18)

  1. 一種實現場景描述的方法,該方法由與用戶裝置通訊之伺服器所實現,所述方法包括:從該用戶裝置接收一組與該用戶裝置關聯的一個或多個參數;存取用於沉浸媒體體驗的多媒體資料,該多媒體資料包括:多個媒體軌道,各媒體軌道包括媒體資料的關聯樣本系列,該媒體資料的關聯樣本系列各用於該沉浸媒體體驗的不同構件;以及衍生軌道,包括一組衍生操作,為了該沉浸媒體體驗,該組衍生操作被進行時生成用於該用戶裝置之媒體資料的樣本系列;進行該組衍生操作的一衍生操作以生成用於衍生媒體軌道之部分媒體資料,其中,該組衍生操作是基於場景描述所進行,並為了該沉浸媒體體驗生成用於該用戶裝置的該媒體資料的樣本系列,進行該衍生操作包括:處理該多個媒體軌道以生成該媒體資料的第一樣本系列,該第一樣本系列用於該沉浸媒體體驗;以及傳送包括該部分媒體資料的該衍生媒體軌道至該用戶裝置。
  2. 如申請專利範圍第1項所述之方法,其中,該多個媒體軌道包括多個3D視訊軌道。
  3. 如申請專利範圍第1項所述之方法,其中,該多個媒體軌道包括多個2D及3D視訊軌道。
  4. 如申請專利範圍第1項所述之方法,其中,該沉浸媒體體驗包括包含360度影像的場景,且其中,該多個媒體軌道包括一個或多個視訊及音訊軌道。
  5. 如申請專利範圍第1項所述之方法,其中,該沉浸媒體體驗包括3D音訊以及包含360度影像的場景,且其中,該多個媒體軌道包括檔案中 用於該3D音訊的3D音訊軌道以及用於該360度影像的360度影像軌道。
  6. 如申請專利範圍第1項所述之方法,其中,該沉浸媒體體驗包括字幕以及包含360度影像的場景。
  7. 如申請專利範圍第6項所述之方法,其中,該多個媒體軌道包括用於該360度影像的360度影像軌道以及用於該字幕的字幕軌道,且其中,該組衍生操作包括進行組成轉換以將該字幕軌道渲染於該360度影像之上的操作。
  8. 如申請專利範圍第1項所述之方法,其中,該沉浸媒體體驗包括場景以及加入該場景的物件。
  9. 如申請專利範圍第8項所述之方法,其中,該多個媒體軌道包括用於該場景的場景軌道以及用於該物件的物件軌道,且其中,該組衍生操作包括進行重疊轉換以將該物件加入該場景的操作。
  10. 如申請專利範圍第1項所述之方法,其中,該沉浸媒體體驗包括3D場景,該3D場景在其3D區域上顯示2D視訊。
  11. 如申請專利範圍第10項所述之方法,其中,該多個媒體軌道包括用於該3D場景的3D場景軌道以及用於該2D視訊的2D視訊軌道,且其中,該組衍生操作包括進行重疊轉換以將該2D視訊放置於該3D區域上的操作。
  12. 一種實現場景描述的設備,該設備包括與記憶體通訊的處理器,該處理器被配置為執行儲存於該記憶體中的指令而致使該處理器進行:存取一組用於處理沉浸媒體體驗之場景描述的一個或多個參數;存取用於該沉浸媒體體驗的多媒體資料,該多媒體資料包括:多個媒體軌道,各媒體軌道包括媒體資料的關聯樣本系列,該媒體資料的關聯樣本系列各用於該沉浸媒體體驗的不同構件;以及 衍生軌道,包括一組衍生操作,為了該沉浸媒體體驗,該組衍生操作被進行時生成用於該用戶裝置之媒體資料的樣本系列;進行該組衍生操作的衍生操作以生成用於衍生媒體軌道之部分媒體資料,其中,該組衍生操作是基於場景描述所進行,並為了該沉浸媒體體驗生成用於該用戶裝置的該媒體資料的樣本系列,進行該衍生操作包括:處理該多個媒體軌道以生成該媒體資料的第一樣本系列,該第一樣本系列用於該沉浸媒體體驗;以及輸出包括該部分媒體資料的該衍生媒體軌道。
  13. 如申請專利範圍第12項所述之設備,其中,該多個媒體軌道包括多個3D視訊軌道。
  14. 如申請專利範圍第12項所述之設備,其中,該多個媒體軌道包括多個2D及3D視訊軌道。
  15. 如申請專利範圍第12項所述之設備,其中,該沉浸媒體體驗包括包含360度影像的場景,且其中,該多個媒體軌道包括一個或多個視訊及音訊軌道。
  16. 如申請專利範圍第12項所述之設備,其中,該沉浸媒體體驗包括3D音訊以及包含360度影像的場景,且其中,該多個媒體軌道包括檔案中的用於該3D音訊的3D音訊軌道以及用於該360度影像的360度影像軌道。
  17. 如申請專利範圍第12項所述之設備,其中,該沉浸媒體體驗包括字幕以及包含360度影像的場景。
  18. 如申請專利範圍第17項所述之設備,其中,該多個媒體軌道包括用於該360度影像的360度影像軌道以及用於該字幕的字幕軌道,且其中,該組衍生操作包括進行組成轉換以將該字幕軌道渲染於該360度影像之上的操作。
TW110137155A 2020-10-06 2021-10-06 利用衍生視訊軌道實現場景描述的方法和系統 TWI820490B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202063087943P 2020-10-06 2020-10-06
US63/087,943 2020-10-06
US17/494,162 2021-10-05
US17/494,162 US11922561B2 (en) 2020-10-06 2021-10-05 Methods and systems for implementing scene descriptions using derived visual tracks

Publications (2)

Publication Number Publication Date
TW202230289A TW202230289A (zh) 2022-08-01
TWI820490B true TWI820490B (zh) 2023-11-01

Family

ID=80931555

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110137155A TWI820490B (zh) 2020-10-06 2021-10-06 利用衍生視訊軌道實現場景描述的方法和系統

Country Status (2)

Country Link
US (1) US11922561B2 (zh)
TW (1) TWI820490B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11797475B2 (en) * 2021-01-14 2023-10-24 Tencent America LLC Method and apparatus for media scene description

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180199044A1 (en) * 2017-01-11 2018-07-12 Mediatek Inc. Method and apparatus for deriving composite tracks
CN108605093A (zh) * 2016-02-12 2018-09-28 三星电子株式会社 用于处理360度图像的方法和设备
US20190158933A1 (en) * 2016-05-23 2019-05-23 Canon Kabushiki Kaisha Method, device, and computer program for improving streaming of virtual reality media content
CN111338463A (zh) * 2018-12-19 2020-06-26 安徽蓁叶文化科技有限公司 一种沉浸式媒体传感交互展示系统及其方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130188922A1 (en) * 2012-01-23 2013-07-25 Research In Motion Limited Multimedia File Support for Media Capture Device Position and Location Timed Metadata
US11197040B2 (en) * 2016-10-17 2021-12-07 Mediatek Inc. Deriving and signaling a region or viewport in streaming media
GB2560921B (en) * 2017-03-27 2020-04-08 Canon Kk Method and apparatus for encoding media data comprising generated content
EP3692721A1 (en) * 2017-10-04 2020-08-12 VID SCALE, Inc. Customized 360-degree media viewing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108605093A (zh) * 2016-02-12 2018-09-28 三星电子株式会社 用于处理360度图像的方法和设备
US20190158933A1 (en) * 2016-05-23 2019-05-23 Canon Kabushiki Kaisha Method, device, and computer program for improving streaming of virtual reality media content
US20180199044A1 (en) * 2017-01-11 2018-07-12 Mediatek Inc. Method and apparatus for deriving composite tracks
CN111338463A (zh) * 2018-12-19 2020-06-26 安徽蓁叶文化科技有限公司 一种沉浸式媒体传感交互展示系统及其方法

Also Published As

Publication number Publication date
US20220108519A1 (en) 2022-04-07
US11922561B2 (en) 2024-03-05
TW202230289A (zh) 2022-08-01

Similar Documents

Publication Publication Date Title
TWI709325B (zh) 用於編解碼視訊資料的方法及裝置
TWI768308B (zh) 沈浸式媒體資料軌道之軌道導出方法和裝置
US10742999B2 (en) Methods and apparatus for signaling viewports and regions of interest
US11509878B2 (en) Methods and apparatus for using track derivations for network based media processing
TWI749483B (zh) 用信號通知點雲多媒體資料軌道的空間關係的方法和裝置
TWI734951B (zh) 用於編碼和解碼虛擬實境內容的方法和裝置
TWI729430B (zh) 浸入式媒體內容覆蓋的方法和裝置
TWI674797B (zh) 球面區域呈現之方法與裝置
TWI768372B (zh) 用於沉浸式媒體資料軌道的空間分組以及坐標信令的方法及裝置
TW202118289A (zh) 用於編碼/解碼沉浸式媒體的視訊資料的方法和裝置
TWI729517B (zh) 時間軌道推導的方法和裝置
TWI782386B (zh) 基於網路之媒體處理應用中利用軌道推導產生新軌道之方法和裝置
TWI820490B (zh) 利用衍生視訊軌道實現場景描述的方法和系統
TW202139691A (zh) 用於編碼/解碼沉浸式媒體的視訊資料的方法和裝置
US11743559B2 (en) Methods and systems for derived immersive tracks
TWI793567B (zh) 用以重定時序和縮放輸入視頻軌道的方法和裝置
US11743441B2 (en) Methods and apparatus for selecting and switching input video tracks using track derivations
US20230007314A1 (en) System and method of server-side dynamic spatial and temporal adaptations for media processing and streaming
US20220337800A1 (en) Systems and methods of server-side dynamic adaptation for viewport-dependent media processing