TWI687087B - 呈現超出全方位媒體的vr媒體的方法和裝置 - Google Patents

呈現超出全方位媒體的vr媒體的方法和裝置 Download PDF

Info

Publication number
TWI687087B
TWI687087B TW107124249A TW107124249A TWI687087B TW I687087 B TWI687087 B TW I687087B TW 107124249 A TW107124249 A TW 107124249A TW 107124249 A TW107124249 A TW 107124249A TW I687087 B TWI687087 B TW I687087B
Authority
TW
Taiwan
Prior art keywords
track
media content
omnidirectional
content
video processing
Prior art date
Application number
TW107124249A
Other languages
English (en)
Other versions
TW201919392A (zh
Inventor
新 王
魯林 陳
趙帥
Original Assignee
新加坡商聯發科技(新加坡)私人有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 新加坡商聯發科技(新加坡)私人有限公司 filed Critical 新加坡商聯發科技(新加坡)私人有限公司
Publication of TW201919392A publication Critical patent/TW201919392A/zh
Application granted granted Critical
Publication of TWI687087B publication Critical patent/TWI687087B/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/698Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/122Improving the 3D impression of stereoscopic images by modifying image signal contents, e.g. by filtering or adding monoscopic depth cues
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/366Image reproducers using viewer tracking
    • H04N13/371Image reproducers using viewer tracking for tracking viewers with different interocular distances; for tracking rotational head movements around the vertical axis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/366Image reproducers using viewer tracking
    • H04N13/373Image reproducers using viewer tracking for tracking forward-backward translational head movements, i.e. longitudinal movements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/366Image reproducers using viewer tracking
    • H04N13/376Image reproducers using viewer tracking for tracking left-right translational head movements, i.e. lateral movements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/90Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/332Displays for viewing with the aid of special glasses or head-mounted displays [HMD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Processing Or Creating Images (AREA)

Abstract

一種視頻處理方法,包括:接收至少一個虛擬現實(VR)內容,從該至少一個VR內容獲得至少一個圖像,對所述至少一個圖片進行編碼以生成編碼位元流的一部分,以及通過檔封裝電路,將編碼位元流的一部分封裝成至少一個ISO基媒體文件格式(ISOBMFF)檔。該至少一個ISOBMFF檔包括用第一組平移坐標參數化的第一軌道,其中第一組平移坐標標識第一全方位媒體內容的原點。

Description

呈現超出全方位媒體的VR媒體的方法和裝置
本發明涉及處理虛擬現實(virtual reality,簡寫為VR)內容,更具體而言,涉及用於呈現超出全方位媒體(Omnidirectional Media)的VR媒體的方法和裝置。
虛擬現實(VR)最近獲得了極大的關注,主要受到消費者設備(例如頭戴式顯示器(HMD))近期市場供應情況的推動。具有HMD的VR與多種應用相關聯。向用戶顯示寬視野內容的能力可用於提供沉浸式視覺體驗。必須在所有方向捕獲真實環境,從而產生全向VR內容。隨著攝像機裝備和HMD的進步,因為呈現這樣的360°內容需要高位元率,全向VR內容的傳遞可能很快成為瓶頸。
近年來,大型行業的參與證明瞭圍繞VR進行了大量活動。例如,由於預期消費者VR HMD的日益普及將導致對VR內容的需求增加,各種公司也開始開發全向相機以允許捕獲360°內容。但是,缺乏適當的標準以及因此降低的互通性正成為一個問題。因此,運動圖像專家組(MPEG)已經啟動了稱為全方位媒體應用格式(OMAF)的項目,該項目旨在標準化360°音訊-視訊內容的存儲和傳送格式。在OMAF的上下文中,存儲和傳送格式基於ISO基媒體文 件格式(ISOBMFF)。但是,關於VR內容存儲和傳送的開發標準,還有很大的改進空間。例如,需要呈現超出全方位媒體的VR媒體。
本發明的目的之一是提供一種用於呈現超出全方位媒體的VR媒體的方法和裝置。
根據本發明的第一方面,提供了一種示例性視訊處理方法。該示例性視訊處理方法包括:接收至少一個虛擬現實(VR)內容;從所述至少一個VR內容中獲取至少一個圖像;編碼所述至少一個圖像以生成編碼位元流的一部分;通過檔封裝電路將編碼位元流的一部分封裝成至少一個ISO基媒體文件格式(ISOBMFF)檔,其中所述至少一個ISOBMFF檔包括用第一組平移坐標參數化的第一軌道,以及該第一組平移坐標標識第一全方位媒體內容的原點。
根據本發明的第二方面,提供了一種示例性視訊處理裝置。示例性視訊處理裝置包括轉換電路,視訊編碼器和文件封裝電路。轉換電路被佈置為接收至少一個虛擬現實(VR)內容,並從所述至少一個VR內容獲得至少一個圖像。視訊編碼器被佈置為對所述至少一個圖像進行編碼以生成編碼位元流的一部分。檔封裝電路被安排成將編碼位元流的一部分封裝成至少一個ISO基本媒體文件格式(ISOBMFF)檔,其中所述至少一個ISOBMFF檔包括用第一組平移坐標參數化的第一軌道,並且該第一組平移坐標標識第一全方位媒體內容的原點。
在閱讀了在各個附圖和附圖中示出的優選實施例的以下詳細描述之後,本發明的這些和其他目的無疑將對所屬領域具有通常知識者變得顯而易見。
100:VR系統
102:源電子設備
103:傳輸裝置
112:視訊捕獲設備
114:轉換電路
116:視訊編碼器
118:文件封裝電路
104:目的地電子設備
120:文件解封裝電路
122:視訊解碼器
124:圖形渲染電路
126:顯示屏
202:矩形圖像
200、902、904、906、908:球體
301_1~301_4:虛設區域
304:緊湊CMP佈局
702~704:步驟
1002、1004、1006、1008:投影圖像
1201:嵌套球體組
1202:3D陣列
1402、1404、1406、1408、1410、1412:投影圖像組
第1圖是示出根據本發明的實施例的虛擬現實(VR)系統的圖。
第2圖是示出根據本發明的實施例的等距矩形投影(ERP)的圖。
第3圖是示出根據本發明的實施例的立方體圖投影(CMP)的圖。
第4圖是示出根據本發明的實施例的第一區域性排裝示例的圖。
第5圖是示出根據本發明的實施例的第二區域性排裝示例的圖。
第6圖是示出根據本發明的實施例的目的地電子設備的移動的圖。
第7圖是圖示根據本發明的實施例的一個VR流式架構的圖。
第8圖是根據對自由度(DoF)的約束來說明不同類型的VR(或沉浸式)媒體的圖。
第9圖是示出根據本發明的實施例的具有相同原點的多個嵌套球體的圖,該球體可用於提供3DoF+VR體驗。
第10圖是示出根據本發明的實施例的在多個投影平面上生成的多個投影圖片以提供3DoF+VR體驗的圖。
第11圖是示出根據本發明的實施例的在不同2D平面上縮放的視埠的圖。
第12圖是示出根據本發明實施例的可用於提供3DoF+VR體驗的嵌套球體組的3D陣列的圖。
第13圖是圖示根據本發明的實施例的窗口化的6DoF情況的圖。
第14圖是示出根據本發明的實施例的用於6DoF VR體驗的不同2D平面上的視埠縮放和移動的圖。
第15圖是示出根據本發明的實施例的基於軌道推導的軌道的層次的圖。
貫穿以下描述和申請專利範圍使用某些術語,其涉及特定組件。如 所屬領域具有通常知識者將理解的,電子設備製造商可以通過不同的名稱來指代組件。本文檔無意區分名稱不同但功能不同的組件。在以下描述和申請專利範圍中,術語“包括”和“包含”以開放式的方式使用,因此應該被解釋為表示“包括但不限於......”。而且,術語“耦合”旨在表示間接或直接電連接。因此,若一個設備耦合到另一個設備,則該連接可以通過直接電連接,或通過經由其他設備和連接的間接電連接。
第1圖是示出根據本發明的實施例的虛擬現實(VR)系統的圖。VR系統100包括兩個視訊處理裝置(例如,源電子設備102和目的地電子設備104)。源電子設備102包括從視訊捕獲設備112、轉換電路114、視訊編碼器116和文件封裝電路118中選擇的至少一些組件。視訊捕獲設備112係提供VR內容之VR內容提供商(如,全向VR內容或超出全向VR內容的VR內容)Bv。例如,視訊捕獲設備112可以是用於在不同方向上捕獲場景Av的一組相機,使得由視訊捕獲設備112生成覆蓋整個周圍環境的多個捕獲圖像。在一些其他實施例中,可以從多於一個源設備、多於一個視訊捕獲設備或至少一個源設備和至少一個視訊捕獲設備的組合接收覆蓋整個周圍環境的多個捕獲圖像。在該實施例中,視訊捕獲設備112可以配備有視訊拼接(stitch)能力。因此,可以將由視訊捕獲設備112的不同相機捕獲的內容拼接在一起以形成拼接圖像。另外,拼接圖像可以進一步投影到三維(3D)投影結構(例如,球體)上。因此,視訊捕獲設備112可以在球體上提供VR內容Bv。或者,通過適當移動視訊捕獲設備112,視訊捕獲設備112可以分別在3D空間中的多個具有不同原點位置(origin)的球體上提供多個VR內容Bv。
轉換電路114耦合在視訊捕獲設備112和視訊編碼器116之間。轉換電 路114通過對3D空間中的一個VR內容Bv應用視覺預處理(visual pre-processing),在二維(2D)平面上生成圖像Dv。當VR內容Bv對應於3D空間中的球體時,在轉換電路114處執行的視覺預處理可以包括投影和可選的區域性排裝(region-wise pack)。因此,圖像Dv可以是投影圖像或打包圖像。3D投影結構(例如,球體)上的VR內容Bv可以經由360度VR(360 VR)投影格式進一步佈置在2D投影圖像上。例如,360 VR投影格式可以是等距矩形投影(ERP)格式或立方體圖投影(CMP)格式。假設使用可選的區域性排裝,2D投影圖像上的區域進一步映射到2D打包圖像上。
第2圖是示出根據本發明的實施例的等距矩形投影(ERP)的圖。球體200上的VR內容Bv被投影到2D平面上的矩形圖像202上。球體200被採樣成幾個水準圓圈(緯度圓圈),並且每個圓圈被映射到矩形圖像202的水準線。靠近圖像上邊界和下邊界的水準線相對於它們在球體200上各自的圓圈顯著地被拉伸了。
第3圖是示出根據本發明的實施例的立方體圖投影(CMP)的圖。球體200上的VR內容Bv投影到立方體的六個面上,包括頂面(標記為“頂”),底面(標記為“底”),左面(標記為“左”),正面(標記為“正”),右面(標記為“右”)和背面(標記為“背”),然後將面佈置在2D平面上。要編碼的圖像Dv需要是矩形的。若CMP佈局302直接用於創建圖像Dv,則由於圖像Dv中填充有許多虛設(dummy)區域(例如,黑色區域,灰色區域或白色區域)301_1,301_2,301_3和301_4,圖像Dv不能具有緊湊的佈局。或者,圖像Dv可以具有排列在緊湊CMP佈局304中的投影圖像資料,以避免使用虛設區域(例如,黑色區域,灰色區域或白色區域)。
在編碼之前,可以將區域性排裝處理應用於具有特定投影佈局(例如,ERP佈局或緊湊CMP佈局)的投影圖像。例如,投影圖像被劃分為多個矩形區域,並且區域性排裝被應用於矩形區域,用於將矩形區域性排裝成打包圖像。關於投影圖像的矩形區域,在將矩形區域性排裝到打包圖像之前,區域性排裝可以對矩形區域應用平移、縮放、旋轉和/或鏡像。第4圖是示出根據本發明的實施例的第一區域性排裝的示例圖。具有ERP佈局的投影圖像被劃分為不同的區域(例如,頂部,中部和底部)。頂部、中部和底部可以通過區域性排裝映射到打包圖像上。第5圖是示出根據本發明的實施例的第二區域性排裝示例的圖。具有CMP佈局的投影圖像被劃分為不同的區域(例如,左面、正面、右面、底面、背面和頂面)。左面、正面、右面、底面、背面和頂面可以通過區域性排裝映射到打包圖像上。應該注意的是,第4圖和第5圖中所示的打包圖像僅用於說明目的,並不意味著是對本發明的限制。
從轉換電路114提供的每個圖像Dv可以是包括在從轉換電路114生成的視訊訊框序列中的一個視訊訊框。每個圖像Dv可以用於提供全向內容。在本發明的一些實施例中,圖像Dv的集合可用於提供超出全向VR內容的VR內容。視訊編碼器116是用於編碼/壓縮全向內容的圖像Dv(或超出全向VR內容的VR內容的圖像Dv)以生成編碼位元流的一部分的編碼電路。在從視訊編碼器116接收到編碼位元流的一部分(其包括全向內容的圖像Dv的編碼資料Ev,或者包括超出全向VR內容的VR內容的圖像Dv的編碼資料Ev)之後,文件封裝電路118將編碼位元流的一部分以及附加元資料Dm一起封裝為一個或多個ISOBMFF檔F。例如,附加元資料Dm可以為HTTP上的動態自適應流傳輸(dynamic adaptive streaming over HTTP,簡寫為DASH)提供附加信令。
依賴於視埠(viewport)的流式傳輸模式(streaming scheme)(例如,基於區塊或基於子圖像的流式傳輸模式)可以用於360°視訊傳輸。根據基於圖塊(tile-based)的流式傳輸模式,一個圖像Dv被劃分為多個圖塊(或子圖像),每個圖塊被獨立編碼。換句話說,圖像Dv的圖塊是圖像Dv的空間部分(即,子圖像),並且通常是矩形。此外,相同圖塊的內容可以以不同的品質和位元率編碼以生成編碼圖塊的變體(variant),或者可以用不同的編解碼器和保護模式編碼以生成編碼圖塊的變體。在這種情況下,每個ISOBMFF檔F可以是基於圖塊的檔。文件封裝電路118將相同圖塊的每個編碼變體封裝到變體軌道(即,變體子圖像軌道)中,並且將相同圖塊的所有編碼變體的變體軌道封裝到相同的ISOBMFF文件F中。元資料Dm可以包括通過使用軌道元資料框(metadata box)直接放置在視覺軌道中的元資料,和/或可以包括放置在與視覺軌道相關聯的元資料軌道(例如,定時元資料軌道)中的元資料。例如,信令的元資料Dm可以包括投影/方向資訊、打包資訊、子圖像組成資訊、感興趣區域(ROI)資訊、視埠資訊等。
或者,圖像Dv可以由球體上的VR內容Bv直接設置。因此,在從視訊編碼器116接收到編碼位元流的一部分(其包括圖像Dv的編碼資料Ev)之後,文件封裝電路118將編碼位元流的一部分與附加元資料一起封裝到一個或多個ISOBMFF檔F中,其中球形視訊軌道(即VR 3D視訊軌道)包含在ISOBMFF檔F中。然而,這僅用於說明目的,並不意味著是對本發明的限制。例如,球形視訊軌道(即,VR 3D視訊軌道)可以是衍生軌道,其媒體資料可以從在VR應用端(即,目的地電子設備104)處執行的軌道導出獲得併且至少部分基於具有ISOBMFF檔F/F'中的媒體資料的視覺軌道。
文件封裝電路118經由傳輸裝置103將ISOBMFF文件F輸出到目的地電子設備104。例如,傳輸裝置103可以是有線/無線通信鏈路,並且ISOBMFF檔F通過HTTP使用單播、多播或廣播傳送被傳遞到目的地電子設備104。在一些其他實施例中,可以使用任何其他存儲介質將ISOBMFF檔F提供給目的地電子設備104,這不應限於本公開。
目的地電子設備104可以是頭戴式顯示器(HMD)設備。如第1圖所示,目的地電子設備104包括檔解封裝電路120、視訊解碼器122、圖形渲染(render)電路124和顯示屏126。文件解封裝電路120從傳輸裝置103接收ISOBMFF文件F'。在沒有傳輸錯誤的情況下,由文件解封裝電路120接收的ISOBMFF文件F'應該與從文件封裝電路118輸出的ISOBMFF文件F相同。在接收到ISOBMFF文件F'之後,文件解封裝電路120將ISOBMFF文件F'解封裝為編碼位元流的一部分(其包括要為全方位媒體呈現而重建的圖像的編碼資料E'v,或者包括要為呈現超出全方位媒體呈現的VR媒體而重建的複數個圖像的編碼資料E'v),並從ISOBMFF文件F'中提取/解析伴隨的元資料D'm。若沒有傳輸錯誤和解封裝錯誤,則從ISOBMFF檔F'提取/解析的元資料D'm應該與添加到ISOBMFF文件F的元資料Dm相同。
視訊解碼器122耦合在文件解封裝電路120和圖形渲染電路124之間,並且是解碼電路,其被配置為根據提取的/解析的元資料D'm解碼編碼的位元流的一部分。例如,視訊解碼器122對編碼位元流的一部分進行解碼,以獲得信令的元資料D'm指定的視埠(例如,初始視埠或推薦視埠)的解碼資料D'v。圖形渲染電路124是後處理電路,其被配置為根據從視埠的解碼資料獲得的顯示資 料A'v在顯示屏126上渲染和顯示視埠。
最近,出現了新的視訊應用。特別是,360視訊(全景視訊,球形視訊)和虛擬現實(VR)捕獲真實世界全景圖的用例引起了人們的極大關注。MPEG標準化應用格式“全方位媒體應用格式(OMAF)”,以指定用於存儲、傳送和呈現全方位媒體內容的格式。在OMAF的委員會草案(CD)中,信令球體上區域的定時元資料,其可用於指示一個或多個視點和視埠。
第6圖是示出根據本發明的實施例的目的地電子設備104的移動的圖。如上所述,目的地電子設備104可以是佩戴在用戶頭上的HMD設備或能夠顯示虛擬現實內容的任何其他設備。因此,目的地電子設備104的方位(orientation)也是用戶的觀看方位,並且可以通過沿Y軸的偏航角(yaw angle),沿X軸的俯仰角(pitch angle)和沿Z軸的側傾角(roll angle)來指定。若目的地電子設備104的方位改變,則球體上的視埠的位置和/或形狀改變。
第7圖是圖示根據本發明的實施例的一個VR流式架構的圖。可以在第1圖中所示的視訊捕獲設備112和/或轉換電路114處執行步驟702(第7圖中標示為渲染)。可以在第1圖中所示的視訊編碼器116處執行步驟704(第7圖中標示為編碼)。步驟706可以在第1圖所示的傳輸裝置103中執行(第7圖中標示為傳送)。可以在第1圖中所示的視訊解碼器122處執行步驟708(第7圖中標示為解碼)。可以在第1圖所示的圖形渲染電路124處執行步驟710(第7圖中標示為構建(construction))和712(第7圖中標示為渲染)。可以通過VP應用端(即目的地電子設備104)的頭/眼跟蹤功能來執行步驟714(第7圖中標示為交互(interaction))。
MPEG最近開始計劃開發支持沉浸式媒體(Immersive Media)的MPEG-I標準,包括360°(或全向)視聽媒體(Audiovisual Media)。雖然全方位媒體格式(OMAF)第一版的標準化將於2017年完成,但超出全方位媒體的VR媒體類型的標準工作仍處於使用案例和需求階段。
第8圖是根據對自由度(degrees of freedom,簡寫為DoF)的約束來說明不同類型的VR(或沉浸式)媒體的圖。第8圖的子圖(A)示出了3DoF VR體驗。在X,Y和Z軸周圍有三個旋轉和非限制運動(分別為俯仰、偏航和側傾)。典型的用例是坐在椅子上的用戶在HMD上觀看3D 360 VR內容。亦即,全方位媒體內容由用戶在3DoF VR體驗下呈現和觀看。第8圖的子圖(B)示出了3DoF+VR體驗。3DoF+被認為是沿X、Y和Z軸具有額外的有限平移運動(通常是頭部運動)的3DoF。典型的用例是坐在椅子上的用戶在HMD上觀看3D 360 VR內容,其能夠向上/向下、向左/向右和向前/向後輕微移動頭部。在一些其他實施例中,用戶可能不坐在椅子上查看HMD上的3D 360 VR內容以獲得3DoF或3DoF+VR體驗,這在本公開中不應受到限制。第8圖的子圖(C)示出了窗口化的(windowed)6DoF(W 6DoF)VR體驗。窗口化的6DoF被視為圍繞X和Y軸(分別為俯仰和偏航)具有約束的旋轉運動以及沿Z軸具有約束的平移運動的6DoF。典型的用例是用戶觀看窗口化的VR內容;用戶不能看到在窗框外的內容,也不能穿過窗戶。第8圖的子圖(D)示出了全向6DoF(O 6DoF)VR體驗。全向6DoF被認為是沿X,Y和Z軸具有約束的平移運動(通常,步進距離為幾步)的6DoF。典型的使用案例是用戶在HMD上展示的3D 360 VR內容(物理地或通過專用用戶輸入裝置)中,在受約束的步行區域內自由地行走。子圖(E)展示了6DoF VR體驗。6DoF被視為沿X,Y和Z軸具有完全平移運動的3DoF。典型的用例是用戶在HMD上顯示的3D 360 VR內容(物理地或通過專用用戶輸入裝置)中 自由行走。不同VR類型的複雜度有以下順序:3DoF→3DoF+→W 6DoF→O 6DoF→6DoF,其中3DoF複雜度最低,6DoF複雜度最高。
OMAF標準(ISO/IEC 23090,第2部分)僅支援3DOF沉浸式媒體體驗,其中用戶的任何平移運動不會導致向用戶呈現不同的全方位媒體。為瞭解決該問題,本發明的實施例公開了通過利用(leveraging)3DoF標準來支持其他類型的沉浸式媒體體驗的通用方法。更具體地,本發明的實施例將每個其他VR媒體類型視為3DoF的離散集合,用轉換坐標和可能的深度資訊(例如,縮放因數)進行參數化將,並且在ISOBMFF中提出新的文件格式軌道分組機制,用於分組媒體(包括視訊、音訊、圖像、字幕和應用程式)和各個3DoF媒體演示的元資料軌道,以便可以通過利用3DoF媒體類型的媒體格式來定義用於編碼、存儲、傳送和渲染其他類型的VR媒體的媒體格式。
通過這些軌道分組機制,可以定義媒體格式以支援其他VR媒體類型,如下所示:3DoF+:3DoF媒體演示的有限集合,每個都使用一組平移坐標進行參數化。3DoF+的有限平移運動反映在集合中3DoF媒體演示中的平移坐標和/或縮放因數的變化中。
6DoF:3DoF媒體演示的集合,每個都使用一組平移坐標進行參數化。3DoF+的平移運動反映在集合中3DoF媒體演示中的平移坐標的變化中。
窗口化的6DoF:3DoF媒體演示的集合,每個都使用一組平移坐標進行參數化,具有由視窗化的6DoF中的視圖視窗(view window)限制的部分球面覆蓋,約束圍繞X和Y軸(分別為俯仰和偏航)的旋轉運動。沿Z軸的約束平移運動反映在集合中的3DoF媒體演示中的z軸坐標的變化範圍以及縮放因數中。
全向6DoF:3DoF媒體演示的集合,每個都使用一組平移坐標進行參數化。全向6DoF沿X、Y和Z軸的約束平移運動反映在集合中3DoF媒體演示中X、Y、Z坐標變化的範圍內。
例如,通過軌道分組機制,3DoF+可被視為3DoF從單個球體到具有相同原點的複數個嵌套球體的擴展。第9圖是示出根據本發明的實施例的具有相同原點的多個嵌套球體的圖,該嵌套球體可用於提供3DoF+VR體驗。單個球體902可以為3DoF VR體驗提供全向VR內容。3DoF+可以被認為是從單個球體902到具有相同原點的多個嵌套球體(例如,904、906和908)的3DoF的擴展。球體904、906和908分別對應於不同的縮放因數。請注意,當在HMD中使用時,縮放將類似於使用雙筒望遠鏡,並且當在“平面”設備上使用時,除了移動視埠的滑動或用於縮放功能的任何其他預定義操作之外,還可以通過擠壓(pinch)來實現縮放。由第1圖中所示的視訊捕獲設備112提供的VR內容Bv可以包括:具有第一縮放因數的球體904的全向VR內容,具有第二縮放因數的球體906的全向VR內容,以及具有第三縮放因數的球體908的全向VR內容。球體904、906和908具有由3D空間中的一組平移坐標(x,y,z)指定的相同原點。作為示例而非限制,第一縮放因數可以小於第二縮放因數,並且第二縮放因數可以小於第三縮放因數。
如上所述,轉換電路114通過對3D空間中的一個VR內容Bv應用視覺預處理,在2D平面上生成一個圖像Dv。第10圖是示出根據本發明的實施例的在多個投影平面上生成多個投影圖像以提供3DoF+VR體驗的圖。單個球體902可以為3DoF VR體驗提供全向VR內容。在轉換電路114處執行的視覺預處理可以包括對球體902的全向VR內容應用投影,以生成用於進一步處理的投影圖像 1002。本發明提出使用具有相同原點的多個嵌套球體904、906和908來為3DoF+VR體驗提供全向VR內容。在轉換電路114處執行的視覺預處理可以包括應用於球體904的全向VR內容的投影,以在第一投影平面上生成投影圖像1004,應用於球體906的全向VR內容的投影,以在第二投影平面上生成投影圖像1006,應用於球體908的全向VR內容的投影,以在第三投影平面上生成投影圖像1008。投影圖像1004、1006和1008被提供給隨後的視訊編碼器116以進行編碼。
第11圖是示出根據本發明的實施例的在不同2D平面上縮放的視埠的圖。投影圖像1004的圖像尺寸(即,寬度x高度)小於投影圖像1006的圖像尺寸(即,寬度x高度),以及投影圖像1006的圖像尺寸(即,寬度x高度)小於投影圖像1008的圖像尺寸(即,寬度x高度)。投影圖像1004的解析度小於投影圖像1006的解析度,而投影圖像1006的解析度低於投影圖像1008的解析度。在該示例中,視訊捕獲設備112可以利用不同的縮放設置捕獲相同的場景Av,以生成具有相同原點但不同縮放因數的嵌套球體904、906和908的全向VR內容。假設與球體906相關聯的第二縮放因數被設置為等於零的值,則與球體904相關聯的第一縮放因數可以被設置為負值,與球體906相關聯的第三縮放因數可以被設置為正值。請注意,視埠VP的大小是固定的。球體906的全向VR內容上的球形區域(例如,視埠VP)可以通過投影圖像1006上的第一矩形區域的反向投影(inverse projection)來確定,用於呈現正常視圖,球體904的全向VR內容上的球形區域(例如,視埠VP)可以通過投影圖像1004上的第二矩形區域的反向投影來確定,以呈現縮小視圖,並且球體908的全向VR內容上的球形區域(例如,視埠VP)可以通過投影圖像1008上的第三矩形區域的反向投影來確定,以呈現放大視圖,其中第一矩形區域、第二矩形區域和第三矩形區域具有相同的尺寸。
如第11圖所示,視埠VP可以在具有相同原點但不同縮放因數的不同嵌套球體之間切換。然而,這僅用於說明目的,並不意味著是對本發明的限制。在本發明的一些實施例中,視埠VP可以在具有不同原點但具有相同縮放因數的不同球體之間切換。在本發明的一些實施例中,視埠VP可以在具有不同原點和不同縮放因數的不同球體之間切換。
第12圖是示出根據本發明實施例的可用於提供3DoF+VR體驗的嵌套球體組的3D陣列的圖。單個球體902可以為3DoF VR體驗提供全向VR內容。3DoF+可以被認為是從單個球體902到嵌套球體組1201的3D陣列1202的3DoF的擴展,其中不同的嵌套球體組1201分別具有在3D空間中的不同位置處的原點,並且每個嵌套球體組1201具有多個嵌套球體(例如,904、906和908),其中該多個嵌套球體具有相同原點和不同縮放因數。在第一種情況下,坐在椅子上看HMD上的3D 360 VR內容的用戶想要通過向上/向下、向左/向右和/或向前/向後移動他的頭而不啟用縮放功能來獲得3DoF+VR體驗,通過在具有不同原點但具有相同縮放因數的不同球體之間切換視埠來啟用視埠的轉變(transition)。在第二種情況下,坐在椅子上觀看HMD上的3D 360 VR內容的用戶想要通過在頭部移動期間啟用縮放功能來獲得3DoF+VR體驗,通過在具有不同原點和不同縮放因數的不同球體之間切換視埠來啟用視埠的轉變。在第三種情況下,坐在椅子上觀看HMD上的3D 360 VR內容的用戶想要通過啟用縮放功能而不移動頭部來具有3DoF+VR體驗,通過在具有相同原點和不同縮放因數的不同嵌套球體之間切換視埠來啟用視埠的轉變。
類似地,其他VR媒體類型(例如,6DoF、全向6DoF和視窗化的6DoF)可以被認為是3DoF的擴展,從單個球體到球體的集合,其中球體的集合的原 點位置形成3D陣列或場。第13圖是圖示根據本發明的實施例的窗口化的6DoF情況的圖。可以使用不同的攝像機佈置來捕獲窗口內的球形內容,如第13圖的子圖(A)、(B)和(C)所示。另外,用戶可以選擇範圍{Znear,Zfar}中的縮放因數。
第14圖是示出根據本發明的實施例的用於6DoF VR體驗的不同2D平面上的視埠縮放和移動的圖。關於具有位於3D空間中的不同平移位置(x,y,z)的每個嵌套球體組,在轉換電路114處執行的視覺預處理可以將投影應用於具有相同原點和不同的縮放因數的嵌套球體的全向VR內容,以產生由在不同2D投影平面上的投影圖像組成的投影圖像組。如第14圖所示,投影圖像組1402、1404、1406、1408、1410和1412分別由具有不同原點的嵌套球體組的投影生成。因此,當用戶自由地行走在HMD上顯示的3D 360 VR內容中時,可以通過適當的視埠縮放和/或視埠移動來提供6DoF VR體驗。
對於3DoF以外的任何VR媒體類型,可以使用來自3DoF媒體演示的相鄰視埠來合成不直接來自集合中的3DoF媒體的視埠。
第1圖的ISOBMFF檔F/F'可包括視覺軌道和元資料軌道。例如,檔封裝電路118將相同圖塊的每個編碼變體封裝到變體軌道(即,變體子圖像軌道)中,並將同一圖塊的所有編碼變體的變體軌道封裝到相同的ISOBMFF文件F中。元資料Dm可以包括通過使用軌道元資料框直接放置在視覺軌道中的元資料,和/或可以包括放置在與視覺軌道相關聯的元資料軌道(例如,定時元資料軌道)中的元資料。對於與同一球體的全方位媒體內容(例如,第12圖中所示的任何球體)相對應的多個視覺軌道(例如,變體軌道)中的每一個,本發明提 出添加軌道組框,其中track_group_type等於視覺軌道上的'odmp'。注意,所選名稱“odmp”僅用於說明目的,不應限製本文公開的發明。以這種方式,可以使用建議的軌道組框對ISOBMFF檔F/F'中的不同視覺軌道進行分組。具體地,視覺軌道中的軌道組框可以指示視覺軌道對應於同一球體的全方位媒體內容。所提出的全方位媒體演示軌道分組的進一步細節描述如下。
全方位媒體演示軌道分組
定義
track_Type_type等於'odmp'的TrackGroupTypeBox表示該軌道屬於具有可選縮放因子的特定一組平移坐標處的全向(或3DoF)媒體演示。映射到該分組的軌道(即,TrackGroupTypeBox中具有相同的track_group_id值並且track_group_type等於'odmp'的軌道)共同表示可以根據OMAF規範單獨呈現的全方位媒體內容。這些軌道可以包括演示所需的視覺(視訊和圖像)、音訊、文本、字幕、應用和元資料軌道。
句法
Figure 107124249-A0305-02-0018-1
Figure 107124249-A0305-02-0019-2
語義
在position_unit指示的單元中,position_x指定相對於默認參考協調系統(coodination system),全方位媒體的球體原點的x軸位置。當limited_range_flag_x等於1時,position_x的值應在range_low_x到range_high_x的範圍內,包括端值。
在position_unit指示的單元中,position_y指定相對於默認參考協調系統,全方位媒體的球體原點的y軸位置。當limited_range_flag_y等於1時,position_y的值應在range_low_y到range_high_y的範圍內,包括端值。
在position_unit指示的單元中,position_z指定相對於默認參考協調系統,全方位媒體的球體原點的z軸位置。當limited_range_flag_z等於1時, position_z的值應在range_low_z到range_high_z的範圍內,包括端值。
zooming_factor指定全方位媒體演示的球體的縮放因子,相對於其他所有球體(若存在),全方位媒體演示的球體以同一原點為中心。zooming_factor的值應在-100和100的範圍內,包括-100和100。如果沒有其他全方位媒體演示以同一原點為中心,則zooming_factor的值應為0.如果有多於一個全方位媒體演示以同一原點為中心,則其中一個zooming_factor的值應等於0。
limited_range_flag_x,limited_range_flag_y,和limited_range_flag_z分別指定沿著x軸、y軸和z軸是否存在用於全方位媒體演示的球體原點的位置的位置範圍。
在position_unit指示的單位中,ange_low_x和range_high_x指定全方位媒體的球體原點所在的x軸範圍。
在position_unit指示的單位中,ange_low_y和range_high_y指定全方位媒體的球體原點所在的y軸範圍。
在position_unit指示的單位中,ange_low_z和range_high_z指定全方位媒體的球體原點所在的z軸範圍。
根據所提出的全方位媒體演示軌道分組,第1圖中的ISOBMFF文件F/F'中的軌道可以使用3D空間中的一組平移坐標(position_x、position_y、position_z)、可選的縮放因子(zooming_factor)以及觀看空間(range_low_x、range_high_x、range_low_y、range_high_y、range_low_z和range_high_z)來參數化。
如上所述,文件解封裝電路120從傳輸裝置103接收ISOBMFF文件F'。若沒有傳輸錯誤,則由文件解封裝電路120接收的ISOBMFF文件F'應該與從文件封裝電路118輸出的ISOBMFF文件F相同。因此,利用3D空間中的一組平移 坐標(position_x,position_y,position_z)、可選的縮放因子(zooming_factor)和觀看空間(range_low_x,range_high_x,range_low_y,range_high_y,range_low_z和range_high_z)參數化的軌道可以從文件解封裝電路120處的ISOBMFF文件F'解封裝。在本發明的一些實施例中,可以從ISOBMFF檔F'解封裝用不同組的平移坐標參數化的軌道。在本發明的一些實施例中,可以從ISOBMFF檔F'解封裝用不同組的平移坐標但相同的縮放因數參數化的軌道。在本發明的一些實施例中,可以從ISOBMFF檔F'解封裝用相同的一組平移坐標但不同的縮放因數參數化的軌道。在本發明的一些實施例中,可以從ISOBMFF檔F'解封裝用不同組的平移坐標和不同的縮放因數參數化的軌道。
觀看空間(range_low_x、range_high_x、range_low_y、range_high_y、range_low_z和range_high_z)指定全方位媒體演示的原點的位置的範圍。在該示例中,觀看空間(range_low_x、range_high_x、range_low_y、range_high_y、range_low_z和range_high_z)由立方體定義。然而,這僅用於說明目的,並不意味著是對本發明的限制。可選地,範圍限制(即,觀看空間)可以是球形。
球形觀看空間
句法
Figure 107124249-A0305-02-0021-3
Figure 107124249-A0305-02-0022-4
語義
在position_unit指示的單元中,position_x指定相對於默認參考協調系統(coodination system),全方位媒體的球體原點的x軸位置。當limited_range_flag_x等於1時,position_x的值應在range_low_x到range_high_x的範圍內,包括端值。
在position_unit指示的單元中,position_y指定相對於默認參考協調系統,全方位媒體的球體原點的y軸位置。當limited_range_flag_y等於1時,position_y的值應在range_low_y到range_high_y的範圍內,包括端值。
在position_unit指示的單元中,position_z指定相對於默認參考協調系統,全方位媒體的球體原點的z軸位置。當limited_range_flag_z等於1時,position_z的值應在range_low_z到range_high_z的範圍內,包括端值。
zooming_factor指定全方位媒體演示的球體的縮放因子,相對於其他所有球體(若存在),全方位媒體演示的球體以同一原點為中心。zooming_factor的值應在-100和100的範圍內,包括-100和100。如果沒有其他全方位媒體演示以同一原點為中心,則zooming_factor的值應為0.如果有多於一個全方位媒體演示以同一原點為中心,則其中一個zooming_factor的值應等於0。
limited_range_flag_r指定圍繞球體原點位置的半徑是否存在用於全 方位媒體演示的徑向觀看空間範圍(radial viewing space range)。
在position_unit指示的單位中,range_r指定沿著全方位媒體的球體原點周圍的半徑的徑向觀看空間範圍限制。
因此,第1圖中的ISOBMFF文件F/F'中的軌道可以用3D空間中的一組平移坐標(position_x、position_y、position_z)、可選的縮放因子(zooming_factor)和觀看空間(range_r)來參數化。
如上所述,文件解封裝電路120從傳輸裝置103接收ISOBMFF文件F'。若沒有傳輸錯誤,則由文件解封裝電路120接收的ISOBMFF文件F'應該與從文件封裝電路118輸出的ISOBMFF文件F相同。因此,可以從文件解封裝電路120處的ISOBMFF文件F'解封裝用3D空間中的一組平移坐標(position_x、position_y、position_z)、可選的縮放因子(zooming_factor)和觀看空間(range_r)參數化的軌道。在本發明的一些實施例中,可以從ISOBMFF檔F'解封裝用不同組的平移坐標參數化的軌道。在本發明的一些實施例中,可以從ISOBMFF檔F'解封裝用不同組的平移坐標但相同的縮放因數參數化的軌道。在本發明的一些實施例中,可以從ISOBMFF檔F'解封裝用相同的一組平移坐標但不同的縮放因數參數化的軌道。在本發明的一些實施例中,可以從ISOBMFF檔F'解封裝用不同組的平移坐標和不同的縮放因數參數化的軌道。
在第一種情況下,不支援縮放功能,並且在HMD上觀看3D 360 VR內容的用戶希望通過頭部移動獲得3DoF+VR體驗或想要通過身體移動擁有視窗化的6DoF VR體驗/全方位6DoF VR體驗/6DoF VR體驗,通過在具有不同原點的不同球體之間切換視埠來啟用視埠的轉換。例如,ISOBMFF檔F/F'包括用第 一組平移坐標參數化的第一軌道和用第二組平移坐標參數化的第二軌道,其中,第一組平移坐標標識第一全方位媒體內容的原點(即,第一球體的全方位媒體內容),第二組平移坐標標識第二全方位媒體內容的原點(即,第二球體的全方位媒體內容),第一組平移坐標與第二組平移坐標不同。因此,可以存在視埠從第一全方位媒體內容和第二全方位媒體內容之一到第一全方位媒體內容和第二全方位媒體內容中的另一個的轉換。
在第二種情況下,支援縮放功能,並且在HMD上觀看3D 360 VR內容的用戶希望通過在沒有啟用縮放功能的情況下進行頭部移動來獲得3DoF+VR體驗,或想通過在沒有啟用縮放功能的情況下進行身體移動來獲得視窗化的6DoF VR體驗/全方位6DoF VR體驗實現/6DoF VR體驗,視埠的轉換通過在具有在不同原點但具有相同縮放因數的不同球體之間切換視埠來實現。例如,ISOBMFF檔F/F'包括用第一組平移坐標和縮放因數參數化的第一軌道,並且還包括用第二組平移坐標以及與被添加到第一軌道相同的縮放因數參數化的第二軌道,其中第一組平移坐標標識第一全方位媒體內容的原點(即,第一球體的全方位媒體內容),第二組平移坐標標識第二全方位媒體內容的原點(即,第二球體的全方位媒體內容),並且第一組平移坐標不同於第二組平移坐標。因此,可以存在視埠從第一全方位媒體內容和第二全方位媒體內容之一到第一全方位媒體內容和第二全方位媒體內容中的另一個的轉變。
在第三種情況下,支援縮放功能,並且在HMD上觀看3D 360 VR內容的用戶希望通過在啟用縮放功能的情況下進行頭部移動來獲得3DoF+VR體驗或想要通過在啟用縮放功能的情況下進行身體移動來實現窗口化的6DoF VR體驗/全向6DoF VR體驗/6DoF VR體驗,通過在具有不同原點和不同縮放因數的 不同球體之間切換視埠來啟用視埠的轉換。例如,ISOBMFF檔F/F'包括用第一組平移坐標和第一縮放因數參數化的第一軌道,並且還包括用第二組平移坐標和第二縮放因數參數化的第二軌道,其中第一組平移坐標標識第一全方位媒體內容的原點(即,第一球體的全方位媒體內容),第二組平移坐標標識第二全方位媒體內容的原點(即,第二球體的全方位媒體內容),第一組平移坐標不同於第二組平移坐標,第一縮放因數不同於第二縮放因數。因此,可以存在視埠從第一全方位媒體內容和第二全方位媒體內容之一到第一全方位媒體內容和第二全方位媒體內容中的另一個的轉變。
在第四種情況下,支援縮放功能,並且在HMD上觀看3D 360 VR內容的用戶希望通過啟用縮放功能而無需頭部移動來獲得3DoF+VR體驗,或想要通過啟用縮放功能而在沒有身體移動的情況下來獲得窗口化的6DoF VR體驗/全向6DoF VR體驗/6DoF VR體驗,視埠的轉換通過具有相同原點但不同縮放因數的不同球體之間的視埠切換來啟用。例如,ISOBMFF檔F/F'包括用第一組平移坐標和第一縮放因數參數化的第一軌道,並且還包括用添加到第一軌道的同一組平移坐標和第二縮放因數參數化的第二軌道,其中該組平移坐標標識第一全方位媒體內容的原點(即,第一球體的全方位媒體內容)以及第二全方位媒體內容的原點(即,第二球體的全方位媒體內容),第一縮放因數與第二縮放因數不同。因此,可以存在視埠從第一全方位媒體內容和第二全方位媒體內容之一到第一全方位媒體內容和第二全方位媒體內容中的另一個的轉變。
下面的ISOBMFF中的軌道組類型框可以靈活地擴展以包括特定軌道組類型的附加資料。
aligned(8) class TrackGroupTypeBox(unsigned int(32) track_group_type) extends
Figure 107124249-A0305-02-0026-5
因此,可以擴展全方位媒體演示軌道分組類型“odmp”以包括附加資料以支持更多用例。例如,對於博物館旅遊用例,可以添加其他屬性,以支援3DoF媒體演示和任何地區之間(即背景)的視訊轉入/轉出和音訊淡出/淡入效果的3DoF之間轉變體驗。這可能包括引入以下屬性及其具體資料:轉換時間段,轉換範圍,視訊轉換效果模式(例如,溶解、虹膜、頁面剝離、幻燈片和3D運動)和音訊轉換效果模式(例如,恆定增益、恆定功率和指數衰減)。
注意,平移坐標是相對於VR媒體演示的默認參考協調系統定義的。若演示位元元元於作為較大系統的一部分的系統中,則可以相對於較大的系統指定系統的原點。另外,請注意,若更方便,可以用MPEG-V中定義的全球位置(global position)、相對位置和高度資訊替換平移坐標。
由於下面的ISOBMFF中的軌道組類型框是靈活的,因此本發明進一步提出了用於全方位媒體演示軌道分組的一些改進選項。一些實施方案詳述如下。
從一個球體切換(縮放和移動)到另一個球體
在一些示例中,該方法包括識別與球形區域相關聯的附加特徵,其中該附加特徵包括球間轉變效果,該效果包括指示從一個球形媒體內容到另一 個球形媒體內容的轉變的轉變效果的資料,或者反之亦然。例如,關於如上所述的視埠的任何可能的轉變(transition),包括在ISOBMFF檔F/F'中的軌道(例如,前述的第一軌道和/或第二軌道)進一步參數化,具有將視埠從第一全方位媒體內容和第二全方位媒體內容之一轉換到第一全方位媒體內容和第二全方位媒體內容中的另一個的轉換效果,其中轉換效果可以包括以下中的一個或多個:轉換期;發生轉換效應的球形區域(例如,視埠)的位置的範圍(例如,球形媒體內容的球形區域(例如,視埠)的位置範圍到第二球形媒體內容的第二球形區域的第二位置的範圍);轉換的音頻淡出/淡入效果;以及轉變的視覺(包括視訊,圖像和文本)轉變/淡出(transition-in/out effec)效果。
注意,本文公開的關於轉變效果的設計主要用於說明目的,以示出如何將轉變效果結合到全方位媒體演示中。例如,可以根據https://www.w3.org/TR/1999/WD-smil-boston-19991115/transitions.html的“The SMIL Transition Effects Module”中給出的轉變效應模型和https://helpx.adobe.com/premiere-pro/using/audio-effects-transitions.html的“Audio Effects and Transitions”提供更詳細的設計。
句法
Figure 107124249-A0305-02-0027-10
Figure 107124249-A0305-02-0028-12
語義
在position_unit指示的單元中,position_x指定相對於默認參考協調系統,全方位媒體的球體原點的x軸位置。當limited_range_flag_x等於1時,position_x的值應在range_low_x到range_high_x的範圍內,包括端值。
在position_unit指示的單元中,position_y指定相對於默認參考協調系統,全方位媒體的球體原點的y軸位置。當limited_range_flag_y等於1時,position_y的值應在range_low_y到range_high_y的範圍內,包括端值。
在position_unit指示的單元中,position_z指定相對於默認參考協調系 統,全方位媒體的球體原點的z軸位置。當limited_range_flag_z等於1時,position_z的值應在range_low_z到range_high_z的範圍內,包括端值。
zooming_factor指定全方位媒體演示的球體的縮放因子,相對於其他所有球體(若存在),全方位媒體演示的球體以同一原點為中心。zooming_factor的值應在-100和100的範圍內,包括-100和100。如果沒有其他全方位媒體演示以同一原點為中心,則zooming_factor的值應為0.如果有多於一個全方位媒體演示以同一原點為中心,則其中一個zooming_factor的值應等於0。
limited_range_flag_r指定圍繞球體原點位置是否存在用於全方位媒體演示的徑向觀看範圍(radial viewing range)。
在position_unit指示的單位中,range_r指定沿著圍繞全方位媒體的球體原點半徑的基本觀察空間範圍限制。
transition_effect_flag指定對於全方位媒體演示從球形媒體內容到第二球形媒體內容的轉換是否存在任何轉換效果。
transition_period以秒為單位指定發生轉換效果的時間段。
transition_range在position_unit指示的單元中指定球形媒體內容的球形區域(例如,視埠)的位置到第二球形媒體內容的第二球形區域的第二位置的位置變化範圍,轉變效果發生在該位置變化區域內。
transition_in_effect_visual,transition_out_effect_visual、transition_in_effect_audio和transition_out_effect_audio分別指定當從球形媒體內容轉入和轉出時,視覺和音訊轉換效果類型。例如,transition_in_effect_visual和transition_out_effect_visual https://www.w3.org/TR/1999/WD-smil-boston-19991115/transitions.html的“The SMIL Transition Effects Module”定義的視覺轉變效果的“類型”和“子類型”的值的 連續值(concatnation values),而transition_in_effect_audio和transition_out_effect_audio可以採用在https://helpx.adobe.com/premiere-pro/using/audio-effects-transitions.html的“Audio Effects and Transitions”中定義的音訊效果類型的值。
如上所述,文件解封裝電路120從傳輸裝置103接收ISOBMFF文件F'。若沒有傳輸錯誤,則由文件解封裝電路120接收的ISOBMFF文件F'應該與從文件封裝電路118輸出的ISOBMFF文件F相同。因此,進一步參數化具有轉換效果的軌道可以從檔解封裝電路120處的ISOBMFF文件F'解封裝。
VR視覺軌道的跟蹤導出
為了避免編碼相同內容的冗餘,沒有更大或更小的圖塊(子圖像)表示其他圖塊(子圖像)的相同內容。因此,當使用軌道來封裝單個圖塊時,文件內的軌道之間缺乏分層結構(hierarchical structure)導致圖塊之間缺乏分層結構。所有這些都會在解決性能(addressing property)和為各自軌道中的圖塊集合指定元資料時出現一些問題。
在ISOBMFF中,可能存在用於軌道(以及因此用於圖塊)的分組機制,通過使用框標記軌道並將它們標記為一組軌道、一組備用軌道和一組替換軌道,以便具有相同組標識符和組類型的各個軌道屬於同一組。然而,通過標記單個軌道的這些軌道分組機制存在許多問題和困難,在通用視埠依賴內容流程的上下文中使用時,這些問題源於以下事實:沒有單個“圖塊(tile)”軌道表示圖塊的變體軌道的內容,並且沒有單個軌道表示整個球形VR內容的內容,該內容 被投影並且可選地打包到所有單獨“圖塊”軌道的組合中。
然而,當遇到將現有媒體源存儲或封裝在ISOBMFF的媒體軌道中的情況時,在所考慮的技術中建議,要構建的視覺軌道是由其包含的類型'dtrk'的樣本條目標識的導出軌道(derived track)。導出樣本包含要在輸入圖像或樣本的有序列表上執行的操作的有序列表(ordered list)。每個操作都由TransformProperty指定或指示。
第15圖是示出根據本發明的實施例的基於軌道導出的軌道的層次結構以及與導出的軌道相關聯的適當元資料的圖。如第15圖所示,存在分別具有媒體內容(包含在'mdat'類型的資料框中)vs11、...、vs1k、vsr1、...,和vsrk的視覺軌道v11、...、v1k、vr1、...,和vrk(包含在'trak'類型的軌道盒中)。由於媒體內容(包含在'mdat'類型的資料框中)vs11、...、vs1k、vsr1、...,和vsrk記錄在ISOBMFF文件F/F'中,視覺軌道v11、...、v1k、vr1、...,和vrk可被視為“實體”視覺軌跡。此外,存在元資料軌道(未示出),其可以與視覺軌道v11、...、v1k、vr1、...,和vrk相關聯或可參考視覺軌道,以提供關於視覺軌道v11、...、v1k、vr1、...,和vrk中的媒體內容的元資料。
導出軌道是根據由TransformProperty項指定的軌道導出操作從ISOBMFF檔F/F'中的非導出(以及可能的其他導出)視覺軌道導出的邏輯軌道。亦即,每個非導出(或其他導出的)視覺軌道的其媒體資料記錄在ISOBMFF文件F/F'中,並且ISOBMFF文件F/F'中的導出軌道的媒體資料是通過軌道導出從非導出(或其他導出的)視覺軌蹟的媒體資料中獲得的。如第15圖所示,具有媒體內容的導出軌道(包含在'trak'類型的軌道盒中)是從TransformProperty項 (例如,'alternate','compose','rPacking',或'rProjection')指定或指示的變換操作導出的。另外,具有媒體內容的元資料軌道(其包含在“mdat”類型的資料框中)可以與所導出的軌道相關聯或者可以參考所導出的軌道以提供關於所導出的軌道中的媒體內容的元資料。元資料軌道可以是定時元資料軌道。
如第15圖所示,複合軌道v、v1、...和vr是從其他軌道v11、...、v1k、...、vr1,...和vrk導出的,其中每個vi(i=1,...,r)是其變體的替代,vij(j=1,...,k),在樣本級別可切換或不可切換,v是所有v1,...和vr的組合。利用這些導出的軌道,元資料軌道(例如,定時元資料軌道)m、m1,...和mr可以與它們相關聯或可以參考它們以提供關於這些軌道中的媒體內容的元資料。
可以使用投影、反向投影、打包(映射)和/或反向打包(反向映射)變換從其他(非導出和/或導出的)軌道獲得導出的軌道。因此,從VR服務提供商端(即,源電子設備102)處的檔封裝電路118生成的ISOBMFF檔F可以包括TransformProperty項,其指示被佈置為從至少一個視覺軌道(例如,非導出的軌道或導出的軌道)獲得導出軌道的軌道導出,其中TransformProperty項目設置為啟用軌道導出中的投影變換(可以是正向投影或反向投影)和打包變換(可以是正向打包(映射)或反向打包(反向映射))之一。類似地,由VR應用程式端(即,目的地電子設備104)處的文件解封裝電路120接收的ISOBMFF檔F'可以包括TransformProperty項,該項被設置為啟用軌道導出中的投影變換(可以是正向投影或反向投影)和打包變換(可以是正向打包(映射)或反向打包(反向映射))。如第15圖所示,通過反向打包(反向映射)從複合軌道v導出導出軌道v(2),並且通過反向投影從導出軌道v(2)導出導出軌道v(3)。
3DoF媒體演示軌道分組機制具有從軌道分組機制繼承的效率問題,主要是由於ISOBMFF中缺少軌道層次結構;即,它要求與3DoF媒體演示相關的所有軌道都攜帶軌道組框。這變得特別繁瑣,例如,當VR視訊被編碼在具有多個品質變體的許多子圖像軌道(即,變體軌道)中時。
VR媒體的VR視覺軌道推導機制為這種情況提供了補救。導出軌道具有許多優點,包括:導出的軌道本身就是軌道,除了要導出它們的媒體資料。
導出的軌道是合乎邏輯的,不會引入媒體內容開銷或重複。
軌道推導本質上是需求的(on demand in nature);也就是說,它是在需要的基礎上。
導出的軌道可以自然地與其他相關軌道分組並由其參考,例如相關的音訊、文本、應用和元資料軌道。
例如,如第15圖所示,從“實體”多變量區域軌道v11,...,v1k,...,vr1,...和vrk開始,可以使用相關聯的適當的元資料軌道為區域(子圖像或圖塊)、投影和打包的2D、投影的2D和VR 3D視訊軌道建立軌道層級。顯然,使用導出的VR視訊軌道將使3DoF媒體演示軌道分組更合適、更合理、更有效;只需要將3DoF媒體演示軌道組框放入導出的(3DoF)VR視訊軌道V(3)中,而不是放在每個變體區域視訊軌道v11,...,v1k,...,vr1,...,vrk中。因此,在ISOBMFF檔F/F'中,具有各自的媒體資料vs11,...,vs1k,...,vsr1,...和vsrk的變體軌道v11,...,v1k,...,vr1,...和vrk沒有被一組平移坐標和可選的縮放因數參數化,而具有通過軌道推導從變體軌道v11,...,v1k,...,vr1,...,vrk獲得的媒體資料的導出的軌道V(3)用一組平移坐標和可選的縮放因數參數化。
所屬領域具有通常知識者將容易地觀察到,可以在保留本發明的教導的同時對裝置和方法進行多種修改和更改。因此,上述公開內容應被解釋為僅受所附申請專利範圍的範圍和界限的限制。
以上所述僅為本發明之較佳實施例,凡依本發明申請專利範圍所做之均等變化與修飾,皆應屬本發明之涵蓋範圍。
902、904、906、908:球體
1201:嵌套球體組
1202:3D陣列

Claims (20)

  1. 一種視訊處理方法,包括:接收至少一個虛擬現實內容;從該至少一個虛擬現實內容中獲取至少一個圖像;編碼該至少一個圖像以生成編碼位元流的一部分;以及通過檔封裝電路將該編碼位元流的一部分封裝成至少一個ISO基媒體文件格式檔,其中所述至少一個ISO基媒體文件格式檔包括用第一組平移坐標參數化的第一軌道,且該第一組平移坐標標識第一全方位媒體內容的原點。
  2. 如申請專利範圍第1項所述之視頻處理方法,其中,該至少一個ISO基媒體文件格式檔還包括用第二組平移坐標參數化的第二軌道,該第二組平移坐標標識第二全方位媒體內容的原點,且該第二組平移坐標不同於該第一組平移坐標。
  3. 如申請專利範圍第2項所述之視頻處理方法,其中,該第一軌道和該第二軌道中的至少一個進一步參數化,具有用於視埠從該第一全方位媒體內容和該第二全方位媒體內容之一轉換到該第一全方位媒體內容和該第二全方位媒體內容之另一的轉換效果。
  4. 如申請專利範圍第3項所述之視頻處理方法,其中,該轉換效果包括轉換的週期,發生該轉換效果的球形區域的位置範圍,轉換的音頻效果和轉換的視覺效果中的至少一個。
  5. 如申請專利範圍第1項所述之視頻處理方法,其中,利用與該第一全方位媒體內容相關聯的第一縮放因數來進一步參數化該第一軌道。
  6. 如申請專利範圍第5項所述之視頻處理方法,其中,該至少一個ISO基媒體文件格式檔還包括用與第二全方位媒體內容相關聯的第二組平移坐標和第二縮放因數參數化的第二軌道,該第二組平移坐標標識該第二全方位媒體內容的原點,該第二組平移坐標與該第一組平移坐標不同,且該第二縮放因數等於該第一縮放因數。
  7. 如申請專利範圍第6項所述之視頻處理方法,其中,該第一軌道和該第二軌道中的至少一個進一步參數化,用於表明具有用於視埠從該第一全方位媒體內容和該第二全方位媒體內容之一轉換到該第一全方位媒體內容和該第二全方位媒體內容之另一的轉換效果。
  8. 如申請專利範圍第7項所述之視頻處理方法,其中,該轉換效果包括轉換的週期,發生該轉換效果的球形區域的位置範圍,轉換的音頻效果和轉換的視覺效果中的至少一個。
  9. 如申請專利範圍第5項所述之視頻處理方法,其中,該至少一個ISO基媒體文件格式檔還包括用與第二全方位媒體內容相關聯的第二組平移坐標和第二縮放因數參數化的第二軌道,該第二組平移坐標標識該第二全方位媒體內容的原點,該第二組平移坐標與該第一組平移坐標不同,且該第二縮放因數與該第一縮放因數不同。
  10. 如申請專利範圍第9項所述之視頻處理方法,其中,該第一軌道和該第二軌道中的至少一個進一步參數化,具有用於視埠從該第一全方位媒體內容和該第二全方位媒體內容之一轉換到該第一全方位媒體內容和該第二全方位媒體內容之另一的轉換效果。
  11. 如申請專利範圍第10項所述之視頻處理方法,其中,該轉換效果包括轉換的週期,發生該轉換效果的球形區域的位置範圍,轉換的音頻效果和轉換的視覺效果中的至少一個。
  12. 如申請專利範圍第5項所述之視頻處理方法,其中,該至少一個ISO基媒體文件格式檔還包括用第二組平移坐標和第二縮放因數參數化的第二軌道,該第二組平移坐標標識與該第二縮放因數相關聯的第二全方位媒體內容的原點,該第二組平移坐標等於該第一組平移坐標,且該第二縮放因數與該第一縮放因數不同。
  13. 如申請專利範圍第12項所述之視頻處理方法,其中,該第一軌道和該第二軌道中的至少一個進一步參數化,具有用於視埠從該第一全方位媒體內容和該第二全方位媒體內容之一轉換到該第一全方位媒體內容和該第二全方位媒體內容之另一的轉換效果。
  14. 如申請專利範圍第14項所述之視頻處理方法,其中,該轉換效果包括轉換的週期,發生該轉換效果的球形區域的位置範圍,轉換的音頻效果和轉換的視覺效果中的至少一個。
  15. 如申請專利範圍第14項所述之視頻處理方法,其中,該第一軌道進一步用觀察空間參數化,該觀察空間指定全方位媒體演示的原點位置的範圍。
  16. 如申請專利範圍第14項所述之視頻處理方法,其中該觀察空間係立方體。
  17. 如申請專利範圍第14項所述之視頻處理方法,其中該觀察空間係球體。
  18. 如申請專利範圍第1項所述之視頻處理方法,其中該至少一個ISO基媒體文件格式檔還包括至少一個視覺軌道,每個視覺軌道具有記錄在該至少一個ISO基媒體文件格式文件中的媒體資料,該第一軌道係導出的軌道,其媒體資料是通過軌道導出從該至少一個視覺軌道獲得的,並且該至少一個視覺軌道中沒有一個用一組平移坐標參數化。
  19. 如申請專利範圍第18項所述之視頻處理方法,其中該至少一個視覺軌道中的每一個具有從僅編碼該第一全方位媒體內容的空間部分獲得的該媒體資料。
  20. 一種視訊處理裝置,包括:轉換電路,用於接收至少一個虛擬現實內容,並從該至少一個虛擬現實內容中獲取至少一個圖像;視頻編碼器,用於對該至少一個圖像進行編碼以生成編碼位元流的一部分; 以及檔封裝電路,用於將該編碼位元流的一部分封裝成至少一個ISO基媒體文件格式檔,其中該至少一個ISO基媒體文件格式檔包括用第一組平移坐標參數化的第一軌道,且該第一組平移坐標標識該第一全方位媒體內容的原點。
TW107124249A 2017-07-13 2018-07-13 呈現超出全方位媒體的vr媒體的方法和裝置 TWI687087B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762531906P 2017-07-13 2017-07-13
US62/531,906 2017-07-13
WOPCT/SG2018/050348 2018-07-13
PCT/SG2018/050348 WO2019013712A1 (en) 2017-07-13 2018-07-13 METHOD AND APPARATUS FOR PRESENTING MULTIMEDIA CONTENT OF VIRTUAL REALITY BEYOND OMNIDIRECTIONAL MULTIMEDIA CONTENT
??PCT/SG2018/050348 2018-07-13

Publications (2)

Publication Number Publication Date
TW201919392A TW201919392A (zh) 2019-05-16
TWI687087B true TWI687087B (zh) 2020-03-01

Family

ID=65001737

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107124249A TWI687087B (zh) 2017-07-13 2018-07-13 呈現超出全方位媒體的vr媒體的方法和裝置

Country Status (4)

Country Link
US (1) US11051040B2 (zh)
CN (1) CN110870303B (zh)
TW (1) TWI687087B (zh)
WO (1) WO2019013712A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11563983B2 (en) 2020-09-02 2023-01-24 Lemon, Inc. Association of operation point info properties to VVC image items
US11595672B2 (en) 2020-09-02 2023-02-28 Lemon Inc. Brand for a media file

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11457290B2 (en) * 2017-02-24 2022-09-27 Telefonaktiebolaget Lm Ericsson (Publ) System and method for watermarking of media segments using sample variants for normalized encryption (SVNE)
WO2019194434A1 (ko) * 2018-04-05 2019-10-10 엘지전자 주식회사 복수의 뷰포인트들에 대한 메타데이터를 송수신하는 방법 및 장치
WO2020009344A1 (ko) * 2018-07-06 2020-01-09 엘지전자 주식회사 360 비디오 데이터의 서브픽처 기반 처리 방법 및 그 장치
EP3599544A1 (en) * 2018-07-25 2020-01-29 Nokia Technologies Oy An apparatus, method, computer program for enabling access to mediated reality content by a remote user
CN111263191B (zh) * 2018-11-30 2023-06-27 中兴通讯股份有限公司 视频数据的处理方法、装置、相关设备及存储介质
EP3895425A4 (en) * 2018-12-14 2021-12-15 ZTE Corporation PROCESSING AN IMMERSIVE VIDEO BITSTREAM
KR20200091988A (ko) * 2019-01-23 2020-08-03 삼성전자주식회사 장치를 제어하기 위한 방법 및 그 전자 장치
EP3939278A4 (en) * 2019-03-11 2023-03-22 Tencent America LLC TILE AND SUB-DIVISION
WO2020224639A1 (en) * 2019-05-09 2020-11-12 Beijing Bytedance Network Technology Co., Ltd. Improvement on hmvp table
JP2022541908A (ja) * 2019-07-22 2022-09-28 インターデジタル ヴイシー ホールディングス, インコーポレイテッド ボリュメトリックビデオコンテンツを配信するための方法および装置
CN113497928B (zh) * 2020-03-20 2022-07-12 腾讯科技(深圳)有限公司 一种沉浸媒体的数据处理方法及相关设备
CN116347183A (zh) * 2020-06-04 2023-06-27 腾讯科技(深圳)有限公司 一种沉浸媒体的数据处理方法及相关装置
CN113766271B (zh) * 2020-06-04 2022-07-12 腾讯科技(深圳)有限公司 一种沉浸媒体的数据处理方法、装置及设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001243043A (ja) * 2000-02-29 2001-09-07 Sony Corp ユーザインタフェースシステム、シーン記述生成装置及び方法、シーン記述変換装置及び方法、記録媒体並びに伝送媒体
JP2012505569A (ja) * 2008-10-07 2012-03-01 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 多視点メディアデータ
KR101652186B1 (ko) * 2012-04-10 2016-08-29 후아웨이 테크놀러지 컴퍼니 리미티드 삼차원 장면에서 표시 객체의 표시 위치를 제공하고, 표시 객체를 표시하기 위한 방법 및 장치
US9618747B2 (en) * 2013-03-13 2017-04-11 Jason Villmer Head mounted display for viewing and creating a media file including omnidirectional image data and corresponding audio data
US9524580B2 (en) * 2014-01-06 2016-12-20 Oculus Vr, Llc Calibration of virtual reality systems
US10204658B2 (en) * 2014-07-14 2019-02-12 Sony Interactive Entertainment Inc. System and method for use in playing back panorama video content

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"WD on ISO/IEC 23000-20 Omnidirectional Media Application Format" ISO/IEC JTC1/SC29/WG11 June 2016, Geneva, Switzerland *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11563983B2 (en) 2020-09-02 2023-01-24 Lemon, Inc. Association of operation point info properties to VVC image items
US11595672B2 (en) 2020-09-02 2023-02-28 Lemon Inc. Brand for a media file
US11863768B2 (en) 2020-09-02 2024-01-02 Lemon Inc. Transition period for image transitions in a media file

Also Published As

Publication number Publication date
TW201919392A (zh) 2019-05-16
US20200169754A1 (en) 2020-05-28
WO2019013712A1 (en) 2019-01-17
CN110870303B (zh) 2021-10-08
CN110870303A (zh) 2020-03-06
US11051040B2 (en) 2021-06-29

Similar Documents

Publication Publication Date Title
TWI687087B (zh) 呈現超出全方位媒體的vr媒體的方法和裝置
KR102208129B1 (ko) 360 비디오 시스템에서 오버레이 처리 방법 및 그 장치
KR102118056B1 (ko) 복수의 뷰포인트들에 대한 메타데이터를 송수신하는 방법 및 장치
CN110612723B (zh) 发送/接收包括鱼眼视频信息的360度视频的方法及其装置
US10887577B2 (en) Method for transmitting 360-degree video, method for receiving 360-degree video, apparatus for transmitting 360-degree video, and apparatus for receiving 360-degree video
CN111164969B (zh) 使用拼接和重新投影相关元数据发送或接收6dof视频的方法和装置
TWI749483B (zh) 用信號通知點雲多媒體資料軌道的空間關係的方法和裝置
TWI709325B (zh) 用於編解碼視訊資料的方法及裝置
TWI670973B (zh) 在iso基本媒體檔案格式推導虛擬實境投影、填充、感興趣區域及視埠相關軌跡並支援視埠滾動訊號之方法及裝置
KR20200065076A (ko) 볼류메트릭 비디오 포맷을 위한 방법, 장치 및 스트림
US11831855B2 (en) Method for transmitting 360-degree video, method for providing a user interface for 360-degree video, apparatus for transmitting 360-degree video, and apparatus for providing a user interface for 360-degree video
KR20200038170A (ko) 360 비디오 시스템에서 오버레이 처리 방법 및 그 장치
KR102120110B1 (ko) 복수의 뷰포인트들에 대한 메타데이터를 송수신하는 방법 및 장치
CN111971954A (zh) 使用与热点和roi相关的元数据发送360度视频的方法和装置
US11218715B2 (en) Methods and apparatus for spatial grouping and coordinate signaling for immersive media data tracks
US10931930B2 (en) Methods and apparatus for immersive media content overlays
TWI676388B (zh) 說明國際標準化組織基本媒體檔案格式的球面區域資訊的方法和裝置
KR20200065087A (ko) 다중 뷰포인트 기반 360 비디오 처리 방법 및 그 장치
CN111727605A (zh) 用于发送和接收关于多个视点的元数据的方法及设备
TWI785458B (zh) 用於編碼/解碼沉浸式媒體的視訊資料的方法和裝置