TWI796989B - 沉浸媒體的數據處理方法、裝置、相關設備及儲存媒介 - Google Patents

沉浸媒體的數據處理方法、裝置、相關設備及儲存媒介 Download PDF

Info

Publication number
TWI796989B
TWI796989B TW111113334A TW111113334A TWI796989B TW I796989 B TWI796989 B TW I796989B TW 111113334 A TW111113334 A TW 111113334A TW 111113334 A TW111113334 A TW 111113334A TW I796989 B TWI796989 B TW I796989B
Authority
TW
Taiwan
Prior art keywords
track
camera
image
free
field
Prior art date
Application number
TW111113334A
Other languages
English (en)
Other versions
TW202249496A (zh
Inventor
胡穎
Original Assignee
大陸商騰訊科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商騰訊科技(深圳)有限公司 filed Critical 大陸商騰訊科技(深圳)有限公司
Publication of TW202249496A publication Critical patent/TW202249496A/zh
Application granted granted Critical
Publication of TWI796989B publication Critical patent/TWI796989B/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/90Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/243Image signal generators using stereoscopic image cameras using three or more 2D image sensors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/366Image reproducers using viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • H04N19/82Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation involving filtering within a prediction loop
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/698Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Television Signal Processing For Recording (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本發明公開了一種沉浸媒體的數據處理方法,所述沉浸媒體是由處於不同視角的N個相機拍攝的圖像組成,所述沉浸媒體被封裝到M個軌道,一個軌道中封裝來自至少一個相機的圖像, N和M均爲大於1的整數;所述方法包括:獲取沉浸媒體的第i個軌道對應的自由視角信息數據盒,所述自由視角信息數據盒包括所述第i個軌道對應的視角信息,i爲大於或等於1且小於或等於M的整數;根據所述自由視角信息數據盒中的視角信息對所述第i個軌道內封裝的圖像進行解碼。本發明可使得內容消費設備根據各個軌道中的視角信息選擇合適的圖像進行解碼消費。

Description

沉浸媒體的數據處理方法、裝置、相關設備及儲存媒介
本發明涉及音視訊領域,尤其涉及媒體的數據處理。
沉浸媒體是指能爲消費者帶來沉浸式體驗的媒體內容,沉浸媒體又可以稱爲自由視角視訊,自由視角視訊通常是由相機陣列從多個角度對同一個三維場景進行拍攝,得到不同視角的深度圖像和/或紋理圖像,這些深度圖像和/或紋理圖像組成了自由視角視訊。內容消費設備可以根據用戶當前所在位置以及各個圖像來源的相機視角,選擇解碼某些圖像進行消費。
目前在自由視角視訊製作過程中一般是採用大規模圖集信息數據盒指示自由視角視訊相關的參數信息(比如相機採集的深度圖以及紋理圖的分辨力寬度與高度、每個視角對應的相機標識符等等),從而省略圖集軌道中的其餘圖集信息。
本發明實施例提供了一種沉浸媒體的數據處理方法、裝置、設備及儲存媒介,可以將一沉浸媒體的不同視角相機採集的圖像封裝到多個不同軌道,並採用每個軌道對應的自由視角信息數據盒來指示每個軌道中圖像來源相機的視角信息,以便於內容消費設備根據各個軌道中的視角信息以及用戶當前位置選擇合適的圖像進行解碼消費。
一方面,本發明實施例提供了一種沉浸媒體的數據處理方法,該沉浸媒體是由處於不同視角的N個相機拍攝的圖像組成,所述沉浸媒體被封裝到M個軌道,一個軌道中封裝來自至少一個相機的圖像, N和M均爲大於1的整數,數據處理方法包括:
獲取第i個軌道對應的自由視角信息數據盒,所述自由視角信息數據盒子,包括所述第i個軌道對應的視角信息,i爲大於等於1且小於等於M的整數;
根據所述自由視角信息數據盒中的視角信息對所述第i個軌道內封裝的圖像進行解碼。
一方面,本發明實施例提供了另一種沉浸媒體的處理方法,包括:
將沉浸媒體封裝到M個軌道中,所述沉浸媒體是由處於不同視角的N個相機拍攝的圖像組成的,一個軌道中封裝來自至少一個相機的圖像,所述M個軌道屬同一個軌道組,N和M均爲大於或等於1的整數;
根據第i個軌道中w個圖像的封裝過程,生成第i個軌道對應的自由視角信息數據盒,所述自由視角信息數據盒包括所述第i個軌道對應的視角信息;
Figure 02_image001
Figure 02_image003
一方面,本發明實施例提供了一種沉浸媒體的數據處理裝置,包括:
獲取單元,用於獲取沉浸媒體的第i個軌道對應的自由視角信息數據盒,所述自由視角信息數據盒子,包括所述第i個軌道對應的視角信息,沉浸媒體是由處於不同視角的N個相機拍攝的圖像組成,所述沉浸媒體被封裝到M個軌道,一個軌道中封裝來自至少一個相機的圖像, N和M均爲大於1的整數;i爲大於或等於1且小於或等於M的整數;
解碼單元,用於根據所述自由視角信息數據盒中的視角信息對所述第i個軌道內封裝的圖像進行解碼。
一方面,本發明實施例提供了另一種沉浸媒體的數據處理裝置,包括:
封裝單元,用於將沉浸媒體封裝到M個軌道中,所述沉浸媒體是由處於不同視角的N個相機拍攝的圖像組成的,一個軌道中封裝來自至少一個相機的圖像,所述M個軌道屬同一個軌道組,N和M均爲大於或等於1的整數;
生成單元,用於根據第i個軌道中w個圖像的封裝過程,生成第i個軌道對應的自由視角信息數據盒,所述自由視角信息數據盒包括所述第i個軌道對應的視角信息;
Figure 02_image005
Figure 02_image003
一方面,本發明實施例提供了一種內容消費設備,包括:
處理器,適於實現一條或多條計算機程式;以及
計算機儲存媒介,所述計算機儲存媒介儲存有一條或多條計算機程式,所述一條或計算機程式程式適於由處理器加載並執行:
獲取沉浸媒體的第i個軌道對應的自由視角信息數據盒,所述自由視角信息數據盒子,包括所述第i個軌道對應的視角信息;該沉浸媒體是由處於不同視角的N個相機拍攝的圖像組成,所述沉浸媒體被封裝到M個軌道,一個軌道中封裝來自至少一個相機的圖像, N和M均爲大於1的整數,i爲大於或等於1且小於或等於M的整數;
根據所述自由視角信息數據盒中的視角信息對所述第i個軌道內封裝的圖像進行解碼。
一方面,本發明實施例提供了一種內容製作設備,包括:
處理器,適於實現一條或多條計算機程式;以及
計算機儲存媒介,所述計算機儲存媒介儲存有一條或多條計算機程式,所述一條或計算機程式程式適於由處理器加載並執行:
將沉浸媒體封裝到M個軌道到M個軌道中,所述沉浸媒體是由處於不同視角的N個相機拍攝的圖像組成的,一個軌道中封裝來自至少一個相機的圖像,所述M個軌道屬同一個軌道組,N和M均爲大於或等於1的整數;
根據第i個軌道中w個圖像的封裝過程,生成第i個軌道對應的自由視角信息數據盒,所述自由視角信息數據盒包括所述第i個軌道對應的視角信息;
Figure 02_image005
Figure 02_image003
又一方面,本發明實施例提供一種儲存媒介,所述儲存媒介用於儲存計算機程式,所述計算機程式用於執行以上方面的方法。
又一方面,本發明實施例提供了一種包括指令的計算機程式産品,當其在計算機上運行時,使得所述計算機執行以上方面的方法。
本發明實施例中將一沉浸媒體封裝至M個軌道,該沉浸媒體是由處於不同視角的N個相機拍攝的圖像組成的,一個軌道中可以包括來自至少一個相機的圖像,這M個軌道是屬同一個軌道組的,實現了一個沉浸視訊封裝到多個軌道的場景;另外,內容製作設備爲每個軌道生成一個自由視角信息數據盒,通過第i個軌道對應的自由視角信息數據盒指示第i個軌道對應的視角信息,比如相機所在的具體視角位置,進而內容消費設備在根據第i個軌道對應的視角信息進行該軌道內圖像的解碼時,可以保證解碼的視訊與用戶所在位置更加匹配,提高沉浸視訊的呈現效果。
下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述。
本發明實施例涉及到沉浸媒體的數據處理技術,所謂沉浸媒體是指能夠提供沉浸式的媒體內容,使沉浸於該媒體內容中的用戶能夠獲得現實世界中視覺、聽覺等感官體驗的媒體文件。具體的,沉浸媒體可以是三自由度(3Degree of Freedom,3DoF)沉浸媒體,3DoF+沉浸媒體或者六自由度(6Degree of Freedom,6DoF)沉浸媒體。
參見圖1a,爲本發明實施例提供的一種用戶消費3DoF沉浸媒體的示意圖,圖1a所示的3DoF沉浸媒體是指用戶在一個三維空間的中心點固定,用戶頭部沿著X軸、Y軸和Z軸旋轉來觀看沉浸媒體的媒體內容提供的畫面。參見圖1b,爲本發明實施例提供的一種用戶消費3DoF+沉浸媒體的示意圖,3DoF+是指當沉浸媒體提供的虛擬場景具有一定的深度信息,用戶頭部可以基於3DoF在一個有限的空間內移動來觀看媒體內容提供的畫面。參見圖1c,爲本發明實施例提供的一種用戶消費6DoF沉浸視訊的示意圖,6DoF分爲窗口6DoF、全方向6DoF和6DoF,其中,窗口6DoF是指用戶在X軸、Y軸的旋轉移動受限,以及在Z軸的平移受限;例如,用戶不能夠看到窗戶框架外的景象,以及用戶無法穿過窗戶。全方向6DoF是指用戶在X軸、Y軸和Z軸的旋轉移動受限,例如,用戶在受限的移動區域中不能自由的穿過三維的360度VR內容。6DoF是指用戶可以沿著X軸、Y軸、Z軸自由平移,例如,用戶可以在三維的360度VR內容中自由的走動。簡單來講,6DoF沉浸視訊不僅可以允許用戶沿著X軸、Y軸以及Z軸旋轉消費媒體內容,還可以沿著X軸、Y軸以及Z軸自由運動來消費媒體內容。
沉浸媒體內容包括以各種形式在三維(3-Dimension,3D)空間中表示的視訊內容,例如以球面形式表示的三維視訊內容。具體地,沉浸媒體內容可以是VR(Virtual Reality,虛擬現實)視訊內容、多視角視訊內容、全景視訊內容、球面視訊內容或360度視訊內容;所以,沉浸媒體又可稱爲VR視訊、自由視角視訊、全景視訊、球面視訊或360度視訊。另外,沉浸媒體內容還包括與三維空間中表示的視訊內容相同步的音訊內容。
參見圖2a,爲本發明實施例提供的一種沉浸媒體系統的架構圖。在圖2a所示的沉浸媒體系統中包括內容製作設備和內容消費設備,內容製作設備可以指沉浸媒體的提供者(例如沉浸內容的內容製作者)所使用的計算機設備,該計算機設備可以是終端,比如智能手機、平板電腦、筆記型電腦、臺式計算機、智能音箱、智能手錶、智能車載等;該計算機設備也可以是伺服器,比如獨立的物理伺服器,也可以是多個物理伺服器構成的伺服器叢集或者分布式系統,還可以是提供雲服務、雲數據庫、雲計算、雲函數、雲儲存、網路服務、雲通信、中間件服務、域名服務、安全服務、CDN、以及大數據和人工智能平臺等基礎雲計算服務的雲伺服器。
內容消費設備可以指沉浸媒體的使用者(例如用戶)所使用的計算機設備,該計算機設備可以是終端,比如個人計算機、智能移動設備如智能手機、VR設備(例如VR頭盔、VR眼鏡等)。沉浸媒體的數據處理過程包括在內容製作設備側的數據處理過程以及在內容消費設備側的數據處理過程。
在內容製作設備側的數據處理過程主要包括:(1)沉浸媒體的媒體內容的獲取與製作過程;(2)沉浸媒體的編碼及封裝的過程。在內容消費側的數據處理過程主要包括:(3)沉浸媒體的解封裝及解碼的過程;(4)沉浸媒體的渲染過程。另外,內容製作設備與內容消費設備之間涉及沉浸媒體的傳輸過程,該傳輸過程可以基於各種傳輸協議來進行,此處的傳輸協議可以包括但不限於:DASH(Dynamic Adaptive Streaming over HTTP,動態自適應流媒體傳輸)協議、HLS(HTTP Live Streaming,動態碼率自適應傳輸)協議、SMTP(Smart Media TransportProtocol,智能媒體傳輸協議)、TCP(Transmission Control Protocol,傳輸控制協議)等。
參見圖2b,爲本發明實施例提供的一種沉浸媒體的傳輸方案的示意圖。如圖2b所示,爲了解決沉浸媒體自身數據量過大帶來的傳輸帶寬負荷問題,在沉浸媒體的處理過程中,通常選擇將原始的沉浸媒體在空間上切分爲多個分塊視訊後,分別編碼後進行封裝,再傳輸給客戶端消費。下面結合圖2b,分別對沉浸媒體的數據處理過程進行詳細介紹。首先介紹內容製作設備側的數據處理過程:
(1)沉浸媒體的媒體內容的獲取與製作過程:
S1:沉浸媒體的媒體內容的獲取過程。
沉浸媒體的媒體內容是通過捕獲設備採集現實世界的聲音-視覺場景獲得的。在一個實施例中,捕獲設備可以是指設於內容製作設備中的硬體組件,例如捕獲設備是指終端的麥克風、攝像頭以及感測器等等。在其他實施例中,該捕獲設備也可以是獨立與內容製作設備但與內容製作設備相連接的硬體裝置,例如與伺服器相連接的攝像頭。該捕獲設備可以包括但不限於:音訊設備、攝像設備及傳感設備。其中,音訊設備可以包括音訊感測器、麥克風等。攝像設備可以包括普通攝像頭、立體攝像頭、光場攝像頭等。傳感設備可以包括雷射設備、雷達設備等。捕獲設備的數據可以爲多個,這些捕獲設備可以被部署在現實空間中的一些特定視角以同時捕獲該空間內不同視角的音訊內容以及視訊內容,捕獲的音訊內容和視訊內容在時間和空間上均保持同步。舉例來說,3DoF沉浸內容的媒體內容是由一組攝像機或一個帶有多個攝像頭和感測器的攝像設備錄製的,6DoF沉浸媒體的媒體內容主要由相機陣列拍攝得到的點雲、光場等形式的內容製作而成。
S2:沉浸媒體的媒體內容的製作過程。
捕獲到的音訊內容本身就是適合被執行沉浸媒體的音訊編碼的內容,因此無需對捕獲到的音訊內容進行其他處理。而捕獲到的視訊內容需要進行一系列製作流程後才可以稱爲適合被執行沉浸媒體的視訊編碼的內容,該製作流程具體可以包括:
①拼接,由於捕獲到的沉浸媒體的視訊內容是捕獲設備在不同視角下拍攝得到的,拼接就是指對這些各個視角拍攝的視訊內容拼接成一個完整的、能夠反映現實空間360度視覺全景的視訊,即拼接後的視訊是一個在三維空間表示的全景視訊。
②投影,投影就是指將拼接形成的一個三維視訊映射到一個二維(2-Dimension,2D)圖像上的過程,投影形成的2D圖像稱爲投影圖像;投影的方式可包括但不限於:經緯圖投影、正六面體投影。
需要說明的是,由於採用捕獲設備只能捕獲到全景視訊,這樣的視訊經內容製作設備處理並傳輸至內容消費設備進行相應的數據處理後,內容消費設備側的用戶只能通過一些特定動作(如頭部旋轉)來觀看360度的視訊信息,而執行非特定動作(如移動頭部)並不能獲得相應的視訊變化,VR體驗不佳,因此需要額外提供與全景視訊相匹配的深度信息,來使用戶獲得更優的沉浸度和更佳的VR體驗,這就涉及多種製作技術,常見的製作技術包括6DoF製作技術、3DoF製作技術以及3DoF+製作技術。
採用6DoF製作技術和3DoF+製作技術得到的沉浸媒體可以包括自由視角視訊。自由視角視訊作爲一種常見的3DoF+和6DoF沉浸式媒體,其是由多個相機採集的、包含不同視角的,支持用戶3DoF+或6DoF交互的沉浸式媒體視訊。具體的,3DoF+沉浸式媒體是由一組相機或一個帶有多個攝像頭和感測器的相機錄製而成,相機通常可以獲取在設備中心周圍所有方向的內容。6DoF沉浸式媒體主要由相機陣列拍攝得到的點雲、光場等形式的內容製作而成。
(3)沉浸媒體的媒體內容的編碼過程。
投影圖像可以被直接進行編碼,也可以對投影圖像進行區域封裝之後再進行編碼。參見圖3a,爲本發明實施例提供的一種視訊編碼基本框圖。現代主流視訊編碼技術,以國際視訊編碼標準HEVC(High Efficiency Video Coding), 國際視訊編碼標準VVC(Versatile Video Coding), 以及中國國家視訊編碼標準AVS(Audio Video Coding Standard)爲例,採用了混合編碼框架,對輸入的原始視訊信號,進行了如下一系列的操作和處理:
1)塊劃分結構(block partition structure):根據處理單元的大小將輸入圖像劃分成若干個不重疊的處理單元,對每個處理單元進行類似的壓縮操作。這個處理單元被稱爲編碼樹單元(Coding Tree Unit,CTU),或者最大編碼單元(Largest Coding Unit,LCU)。CTU可以繼續進行更加精細的劃分,得到一個或多個基本編碼的單元,稱爲編碼單元(Coding Unit,CU)。每個CU是一個編碼緩解中最基本的元素。參見圖3b,爲本發明實施例通過的一種輸入圖像劃分的示意圖。以下描述的是對每一個CU可能採用的各種編碼方式。
2)預測編碼(Predictive Coding):包括幀內預測(Intra (picture) Prediction)和幀間預測(Inter (picture) Prediction)。沉浸媒體的原始視訊信號經過選定的已重建視訊信號的預測後,得到殘差視訊信號。內容製作設備需要爲當前CU決定在衆多可能的預測編碼模式中,選擇最合適的一種,並告知內容消費設備。其中,幀內預測所預測的信號來自於同一個圖像內已經過編碼重建過的區域,幀間預測預所預測的信號來自已經編碼過的,不同於當前圖像的其他圖像(稱之爲參考圖像)。
3)變換編碼及量化(Transform & Quantization):殘差視訊信號經過離散傅裏葉變換(Discrete Fourier Transform,DFT),離散余弦變換(Discrete Cosine Transform,DCT)等變換操作,將信號轉換到變換域中,稱之爲變換係數。在變換域中的信號,進一步的進行有損的量化操作,丟失掉一定的信息,使得量化後的信號有利於壓縮表達。在一些視訊編碼標準中,可能有多於一種變換方式可以選擇,因此,內容製作設備也需要爲當前編碼CU選擇其中的一種變換,並告知內容播放設備。量化的精細程度通常由量化參數(Quantization Parameter,QP)來決定,QP取值較大,表示更大取值範圍的係數將被量化爲同一個輸出,因此通常會帶來更大的失真,及較低的碼率;相反,QP取值較小,表示較小取值範圍的係數將被量化爲同一個輸出,因此通常會帶來較小的失真,同時對應較高的碼率。
4)熵編碼(Entropy Coding)或統計編碼:量化後的變換域信號,將根據各個值出現的頻率,進行統計壓縮編碼,最後輸出二值化(0或者1)的壓縮碼流。同時,編碼産生其他信息,例如選擇的模式,運動向量等,也需要進行熵編碼以降低碼率。統計編碼是一種無損編碼方式,可以有效的降低表達同樣的信號所需要的碼率。常見的統計編碼方式有變長編碼(VLC,Variable Length Coding)或者基於上下文的二值化算術編碼(CABAC,Content Adaptive Binary Arithmetic Coding)。
5)環路濾波(Loop Filtering):已經編碼過的圖像,經過反量化,反變換及預測補償的操作(上述2~4的反向操作),可獲得重建的解碼圖像。重建圖像與原始圖像相比,由於存在量化的影響,部分信息與原始圖像有所不同,産生失真(Distortion)。對重建圖像進行濾波操作,例如去塊效應濾波(deblocking),取樣自適應偏移(Sample Adaptive Offset,SAO)濾波器或者自適應環路濾波器(Adaptive Loop Filter,ALF)等,可以有效的降低量化所産生的失真程度。由於這些經過濾波後的重建圖像,將作爲後續編碼圖像的參考,用於對將來的信號進行預測,所以上述的濾波操作也被稱爲環路濾波,及在編碼環路內的濾波操作。
此處需要說明的是,如果採用6DoF(Six Degrees of Freedom,六自由度)製作技術(用戶可以在模擬的場景中較自由的移動時,稱爲6DoF),在視訊編碼過程中需要採用特定的編碼方式(如點雲編碼)進行編碼。
(4)沉浸媒體的封裝過程。
將音訊碼流和視訊碼流按照沉浸媒體的文件格式(如ISOBMFF(ISO Base Media File Format,ISO基媒體文件格式))封裝到文件容器(軌道)中形成沉浸媒體的媒體資源文件,該媒體資源文件可以是媒體文件或者媒體片段形成的沉浸媒體的媒體文件,並按照沉浸媒體的文件格式要求採用媒體呈現描述信息(Media presentation description,MPD)記錄該沉浸媒體的媒體文件資源的元數據,此處的元數據是對於沉浸媒體的呈現有關的信息的總稱,該元數據可以包括對媒體內容的描述信息、對視窗的描述信息以及對媒體內容呈現相關的信令信息等等。如圖2a所示,內容製作設備會儲存經過數據處理過程之後形成的媒體呈現描述信息和媒體文件資源。
下面介紹內容消費設備側的數據處理過程:
(1)沉浸媒體的解封以及解碼的過程:
內容消費設備可以通過內容製作設備的推薦或者按照內容消費設備側用戶需求自適應動態從內容製作設備獲得沉浸媒體的媒體文件資源和相應媒體呈現描述信息,例如內容消費設備可以根據用戶的頭部/眼睛/身體的追蹤信息確定用戶的朝向和位置,再基於確定的朝向和位置動態向內容製作設備請求獲得相應的媒體文件資源。媒體文件資源和媒體呈現描述信息通過傳輸機制(如DASH、SMT)由內容製作設備傳輸給內容消費設備。內容消費設備的解封裝過程與內容製作設備的封裝過程是相逆的,內容消費設備按照沉浸媒體的文件格式要求對獲取到的媒體文件資源進行解封裝,得到音訊碼流和視訊碼流。內容消費設備的解碼過程與內容製作設備的編碼過程是相逆的,內容消費設備對音訊碼流進行音訊解碼,還原出音訊內容,以及內容消費設備對視訊碼流進行解碼,得到視訊內容。其中,內容消費設備對視訊碼流的解碼過程可以包括如下:①對視訊碼流進行解碼,得到平面的投影圖像。②根據媒體呈現描述信息將投影圖像進行重建處理以轉換爲3D圖像,此處的重建處理是指二維的投影圖像重新投影至3D空間中的處理。
根據上述編碼過程可以看出,在內容消費設備側,對於每一個CU,內容消費設備獲得壓縮碼流後,先進行熵解碼,獲得各種模式信息以及量化後的變換係數。各個係數經過反復量化以及變換,得到殘差信號。另一方面,根據已知的編碼模式信息,可獲得該CU對應的預測信號,兩者相加之後,即可得到重建信號。最後解碼圖像的重建值,需要經過環路濾波的操作,産生最終的輸出信號。
(2)沉浸媒體的渲染過程。
內容消費設備根據媒體沉陷描述信息中與渲染、視窗相關的元數據對音訊解碼得到的音訊內容以及視訊解碼得到的3D圖像進行渲染,渲染完成即實現了對該3D圖像的播放輸出。特別地,如果採用3DoF和3DoF+的製作技術,內容消費設備主要基於當前視點、視差、深度信息等對3D圖像進行渲染,如果採用6DoF的製作技術,內容消費設備主要基於當前視點對視窗內的3D圖像進行渲染。其中,視點指用戶的觀看位置點,視差是指用戶的雙目産生的視線差或由於運動産生的視線差,視窗是指觀看區域。
上述描述的沉浸媒體系統支持數據盒(Box),數據盒是指包括元數據的數據塊或對象,即數據盒子中包括了相應媒體內容的元數據。由上述沉浸媒體的數據處理過程可知,在對沉浸媒體進行編碼後,需要對編碼後的沉浸媒體進行封裝並傳輸給用戶。本發明實施例中沉浸媒體主要指自由視角視訊,現有技術中考慮到自由視角視訊在製作過程中,圖集信息僅有相機參數即可獲取,紋理圖像和深度圖像在平面幀中的位置也較爲固定時,可使用大規模圖集信息數據盒指示相關的參數信息,從而省略圖集軌道中的其餘圖集信息。
具體實現中,大規模圖集信息數據盒的語法可參見下述代碼段1所示:
aligned(8) class V3CLargeScaleAtlasBox extends FullBox('vlsa',0,0) {
unsigned int(8) camera_count;
unsigned int(8) padding_size_depth;
unsigned int(8) padding_size_texture;
for(i=0; i<camera_count; i++){
unsigned int(8) camera_id;
float(32) camera_resolution_x;
float(32) camera_resolution_y;
unsigned int(8) depth_downsample_factor;
unsigned int(32) texture_vetex_x;
unsigned int(32) texture_vetex_y;
unsigned int(32) depth_vetex_x;
unsigned int(32) depth_vetex_y;
unsigned int(32) camera_para_length;
for (i=0; i < camera_para_length; i++) {
bit(8) camera_parameter;
}
}
}
上述代碼段1所示語法的語義如下:camera_count表示採集沉浸媒體的所有相機的個數;padding_size_depth表示在對深度圖像進行編碼時採用的保護帶寬度;padding_size_texture表示對紋理圖像進行編碼時採用的保護帶寬度;camera_id表示處於一個視角相機的相機標識符,camera_resolution_x表示一個相機採集的紋理圖像、深度圖像的分辨率寬度,camera_resolution_y表示一個相機採集的紋理圖像、深度圖像的分辨力高度;depth_downsample_factor表示深度圖像降採樣的倍數因子,深度圖像的實際分辨率寬度與高度爲相機採集分辨率寬度與高度的1/2 depth_downsample_factor;depth_vetex_x表示深度圖像左上頂點相對於平面幀原點(平面幀的左上頂點)偏移的橫軸分量,depth_vetex_y表示深度圖像左上頂點相對於平面幀原點偏移的縱軸分量;texture_vetex_x表示紋理圖像的左上頂點相對於平面幀原點偏移的橫軸分量,texture_vetex_y表示紋理圖像的左上頂點相對於平面幀原點偏移的縱軸分量;camera_para_length表示容積視訊重構時所需的相機參數的長度,以字節爲單位;camera_parameter表示容積視訊重構時所需的相機參數。
從上面的大規模圖集信息數據盒的語法中可以看出,雖然大規模圖集信息數據盒中指示了自由視角視訊幀中紋理圖像和深度圖像的布局信息,並給出了相關的相機參數比如camera_resolution_y以及camera_resolution_x等,但是上述只考慮了自由視角視訊封裝在單軌道的場景,沒有考慮到自由視角視訊被封裝到多軌道的場景。並且,上述大規模圖集信息數據盒中指示了自由視角視訊內紋理圖和深度圖的排布信息以及相關的相機參數,但是只考慮了將自由視角視訊封裝到單軌道的情況,並未考慮多軌道封裝的場景,另外大規模圖集信息數據盒中指示的相機參數,無法作爲內容消費設備選擇不同視角的圖像進行解碼消費的依據,也就是說根據上述大規模圖集信息數據盒中記載的相機參數,內容消費設備無法知道哪個圖像是適合當前用戶位置信息的,從而給內容消費設備解碼帶來不便。
基於此,本發明實施例提供了一種沉浸媒體的數據處理方案,在該數據處理方案中將沉浸媒體封裝到M個軌道中,該沉浸媒體是由處於不同視角的N個相機拍攝的圖像組成的,這M個軌道是屬同一個軌道組的,實現了一個沉浸視訊封裝到多個軌道的場景;另外,內容製作設備爲每個軌道生成一個自由視角信息數據盒,通過第i個軌道對應的自由視角信息數據盒指示第i個軌道對應的視角信息,比如相機所在的具體視角位置,進而內容消費設備在根據第i個軌道對應的視角信息進行該軌道內圖像的解碼顯示時,可以保證解碼顯示的視訊與用戶所在位置更加匹配,提高沉浸視訊的呈現效果。
基於上述描述,本發明實施例提供了一種沉浸媒體的數據處理方法,參見圖4,爲本發明實施例提供的一種沉浸媒體的數據處理方法的流程示意圖。圖4所述的數據處理方法可由內容消費設備執行,具體可由內容消費設備的處理器執行。圖4所示的數據處理方法可包括如下步驟:
S401、獲取沉浸媒體的第i個軌道對應的自由視角信息數據盒,該自由視角信息數據盒包括第i個軌道對應的視角信息。
其中,沉浸媒體是由處於不同視角的N個相機拍攝的圖像組成的,沉浸媒體被封裝到M個軌道中,一個軌道中封裝來自至少一個相機拍攝的圖像,這M個軌道屬同一個軌道組。第i個軌道是指M個軌道中被選擇的一個,後面具體介紹如何從M個軌道中選擇第i個軌道。
封裝了沉浸視訊的這M個軌道通過每個軌道內封裝的自由視角軌道組信息關聯的。下面以第i個軌道爲例,第i個軌道內封裝有第i個軌道對應的自由視角軌道組信息,該自由視角軌道組信息用於指示第i個軌道與封裝了沉浸視訊的其他軌道屬同一個軌道組。第i個軌道內封裝的自由視角軌道組信息可以通過擴展軌道組數據盒得到,第i個軌道內封裝的自由視角軌道組信息的語法可以表示爲如下代碼段2所示:
aligned(8) class AvsFreeViewGroupBox extends TrackGroupTypeBox('afvg') {
// track_group_id is inherited from TrackGroupTypeBox;
unsigned int(8) camera_count;
for(i=0; i<camera_count; i++){
unsigned int(32) camera_id;
unsigned int(2) depth_texture_type;
bit(6) reserved;
}
}
在上述代碼段2中,自由視角軌道組信息是通過擴展軌道組數據盒得到,以“a3fg”軌道組類型標識。在所有包含“afvg”類型TrackGroupTypeBox(軌道組數據盒)的軌道中,組ID相同的軌道屬同一個軌道組。
在代碼段2中,假設第i個軌道內封裝了前述N個相機中k個相機採集的圖像,任一相機採集的圖像可以是紋理圖像或深度圖像中的至少一種。代碼段2中,自由視角軌道組信息的語法的含義可以如下:camera_count表示第i個軌道組內包含紋理圖像或深度圖像來源的相機的數目,例如camera_count=k,表示第i個軌道內的封裝了來自k個相機的紋理圖像和/或深度圖像。一個相機對應一個標識信息,每個標識信息儲存在自由視角軌道組信息的第一相機標識字段camera_id中,應當理解的,一個相機對應一個標識信息,第i個軌道內包括k個相機,因此,自由軌道組信息中包括k個第一相機標識字段camera_id。
自由軌道組信息中還包括圖像類型字段depth_texture_type,該圖像類型字段用於指示第j個相機採集圖像所屬的圖像類型,j大於0且小於k,也就是說一個圖像類型字段depth_texture_type用於指示一個相機採集圖像所屬的圖像類型中,由於第i個軌道中的紋理圖像或者深度圖像來源於k個相機,因此,自由軌道組信息中包括k個圖像類型字段。
指示第j個相機採集的圖像所屬圖像類型的圖像類型字段depth_texture_type具體可參見下述表1所示:
表1
depth_texture_type 含義
0 保留
1 表明包含對應相機拍攝的紋理圖像
2 表明包含對應相機拍攝的深度圖像
3 表明包含對應相機拍攝的紋理圖像和深度圖像
具體來講,當圖像類型字段depth_texture_type爲1時,表明第j個相機採集的圖像所屬圖像類型爲紋理圖像;當圖像類型字段depth_texture_type爲2時,表明第j個相機採集的圖像所屬圖像類型爲深度圖像;當圖像類型字段depth_texture_type爲3時指示第j個相機採集的圖像所屬圖像類型爲紋理圖像和深度圖像。
由S401可知,第i個軌道對應的自由視角信息數據盒AvsFreeViewInfoBox中包括了第i個軌道對應的視角信息,參見下代碼段3,爲第i個軌道對應的自由視角信息數據盒的語法表示,下面結合代碼段3具體介紹第i個軌道對應的自由視角信息數據盒以及自由視角信息數據盒中包括的視角信息。其中,代碼段3具體如下:
aligned(8) class AvsFreeViewInfoBox extends FullBox('afvi'){
unsigned int(8) stitching_layout;
unsigned int(8) texture_padding_size;
unsigned int(8) depth_padding_size;
unsigned int(8) camera_model;
unsigned int(8) camera_count;
for(i=0; i<camera_count; i++){
unsigned int(32) camera_id;
signed int(32) camera_pos_x;
signed int(32) camera_pos_y;
signed int(32) camera_pos_z;
signed int(32) camera_focal_length_x;
signed int(32) camera_focal_length_y;
unsigned int(32) camera_resolution_x;
unsigned int(32) camera_resolution_y;
unsigned int(8) depth_downsample_factor;
unsigned int(32) texture_vetex_x;
unsigned int(32) texture_vetex_y;
unsigned int(32) depth_vetex_x;
unsigned int(32) depth_vetex_y;
ExtendedParaStruct();
}
}
aligned(8) class ExtendedParaStruct t() {
unsigned int(8) para_num;
for(i=0; i<para_num; i++){
unsigned int(8) para_type;
unsigned int(16) para_length;
for (i=0; i < para_length; i++) {
bit(8) camera_parameter;
}
}
}
①第i個軌道對應的視角信息可以包括視訊拼接布局指示字段stitching_layout,該視訊拼接布局字段主要用於指示第i個軌道內包括的紋理圖像和深度圖像是否拼接編碼;具體地,當視訊拼接布局指示字段stitching_layout爲第一數據值時,指示第i個軌道內包括的紋理圖像和深度圖像是拼接編碼的;當視訊拼接布局指示字段stitching_layout爲第二數值時,指示第i個軌道內包括的紋理圖像和深度圖像是分別編碼的。舉例來說,假設沉浸媒體是指6DoF視訊,第一數值爲0,第二數值爲1,則在第i個軌道內視訊拼接布局指示字段stitching_layout可以參見下述表2所示:
表2
stitching_layout 6DoF視訊拼接布局
0 深度圖和紋理圖拼接編碼
1 深度圖和紋理圖分別編碼
其他 保留
②第i個軌道對應的視角信息還包括相機模型字段camera_model,該字段用於指示第i個軌道內k個相機的相機模型,由前述可知,k表示第i個軌道內深度圖像和/或紋理圖像來源的相機數量,在第i個軌道對應的視角信息中還可以包括相機數量字段camera_count,該相機數量字段用於儲存第i個軌道內深度圖像和/或紋理圖像來源的相機數量,假設表示爲k。
具體地,當相機模型字段camera_model爲第三數值時,指示第j個相機所屬相機模型爲第一模型;當相機模型字段camera_model爲第四數值時,指示第j個相機所屬相機模型爲第二模型。其中,第一模型可以指針孔模型,第二模型可以指魚眼模型,假設第三數值爲0,第四數值爲1,沉浸媒體爲6DoF視訊,第i個軌道對應的視角信息中相機模型字段camera_model可參見下述表3所示:
表3
Camera model 6DoF視訊相機模型
0 針孔模型
1 魚眼模型
其他 保留
③第i個軌道對應的視角信息還包括紋理圖像的保護帶寬度字段texture_padding_size,以及深度圖像的保護帶寬度字段depth_padding_size。紋理圖像的保護帶寬度字段用於儲存第i個軌道內對紋理圖像編碼時採用的保護帶寬度,深度圖像的保護帶寬度用於儲存第i個軌道內對深度圖像編碼時採用的保護帶寬度。
④第i個軌道對應的視角信息還包括第二相機標識字段camera_id,第二相機標識字段camera_id用於儲存第i個軌道內第j個相機的標識信息,由前述描述可知,第i個軌道內包括的紋理圖像和深度圖像來源這k個相機,j的取值是大於等於0,且小於k。也就是說一個第二相機標識字段camera_id儲存k個相機中任意一個相機的標識信息,因此,需要k個相機標識字段來儲存k個相機的標識信息。需要說明的是,這裏的第二相機標識字段camera_id和前述的自由視角軌道組信息中的第一相機標識字段camera_id的作用相同,均是用於儲存第i個軌道內第j個相機的標識信息。
⑤第i個軌道對應的視角信息還包括相機屬性信息字段,相機屬性信息字段用於儲存第j個相機的相機屬性信息,第j個相機的相機屬性信息可以包括第j個相機位置的橫軸分量取值、縱軸分量取值以及竪軸分量取值,第j個相機焦距的橫軸分量取值和縱軸分量取值,以及第j個相機採集圖像的分辨率寬度與高度。因此,相機屬性信息字段可具體包括:1)相機位置的橫軸分量字段camera_pos_x,用於儲存第j個相機位置的橫軸分量取值(也稱爲x分量取值);2)相機位置的縱軸分量字段camera_pos_y,用於儲存第j個相機位置的縱軸分量取值(也稱爲y分量取值);3)相機位置的竪軸分量字段camera_pos_z,用於儲存第j個相機位置的竪軸分量取值(也稱爲z分量取值);4)相機焦距的橫軸分量字段focal_length_x,用於儲存第j個相機焦距的橫軸分量取值(也稱爲x分量取值);5)相機焦距的縱軸分量字段focal_length_y,用於儲存第j個相機焦距的縱軸分量取值(也稱爲y分量取值);6)相機採集圖像的分辨率寬度字段camera_resolution_x,用於儲存第j個相機採集圖像的分辨率寬度;7)相機採集圖像的分辨率寬度字段camera_resolution_y,用於儲存第j個相機採集圖像的分辨率高度。
需要說明的是,由於第i個軌道內的紋理圖像和/深度圖像來源於k個相機,一個相機屬性信息字段用於儲存一個相機的相機屬性信息,因此,第i個軌道對應的視角信息中包括k個相機屬性信息字段用於儲存k個相機的相機屬性信息。相應的,一個相機屬性字段包括上述1)-7),k個相機屬性信息便包括k個上述1)-7)。
⑥第i個軌道對應的視角信息還包括圖像信息字段,該圖像信息字段用於儲存第j個相機採集圖像的圖像信息。圖像信息可以包括以下至少一種:深度圖像降採樣的倍數因子、深度圖像左上頂點相對於平面幀原點的偏移量或紋理圖像左上頂點相對於平面幀原點的偏移量。基於此,圖像信息字段可以具體包括:1)深度圖像降採樣的倍數因子字段depth_downsample_factor,用於儲存深度圖像降採樣的倍數因子;2)紋理圖像左上頂點橫軸偏移字段texture_vetex_x,用於儲存紋理圖像左上頂點相對於平面幀原點的偏移量橫軸分量;3)紋理圖像左上頂點縱軸偏移字段texture_vetex_y,用於儲存紋理圖像左上頂點相對於平面幀原點的偏移量縱軸分量;4)深度圖像左上頂點橫軸偏移字段depth_vetex_x,用於儲存深度圖像左上頂點相對於平面幀原點的橫軸偏移量;5)深度圖左上頂點縱軸偏移字段depth_vetex_y,用於儲存深度圖像左上頂點相對於平面幀原點的縱軸偏移量。
需要說明的是,一個圖像信息字段用於儲存一個相機採集圖像的圖像信息,第i個軌道內包括k個相機採集的深度圖像和/或紋理圖像,因此第i個軌道對應的自由視角信息中包括k個圖像信息字段。
⑦第i個軌道對應的視角信息還包括自定義相機參數字段camera_parameter,該自定義相機參數字段用於儲存第j個相機的第f個自定義相機參數,f爲大於等於0且小於h的整數,h表示第j個相機的自定義相機參數的數量,第j個相機的自定義相機參數的數量可以儲存在視角信息的自定義相機參數數量字段para_num中。
需要說明的是,由於第j個相機的自定義相機參數的數量爲h個,一個自定義相機參數字段用於儲存一個自定義相機參數,因此,第j個相機對應的自定相機參數字段的數量可以爲h個。又因爲,每個相機對應h個自定義相機參數,第i個軌道內包括k個相機,因此,第i個軌道對應的視角信息中包括k*h個自定義相機參數字段。
⑧第i個軌道對應的視角信息還包括自定義相機參數類型字段para_type,自定義相機參數類型字段para_type用於儲存第j個相機的第f個自定義相機參數所屬類型。需要說明的是,第j個相機的一個自定義相機參數所屬類型儲存在一個自定義相機參數類型字段中,由於第j個相機對應h個自定義相機參數,因此自定義相機參數類型字段的數量爲h。與7同理的,第i個軌道對應的視角信息中包括k*h個自定義相機參數類型字段。
⑨第i個軌道對應的視角信息還包括自定義相機參數長度字段para_length,該自定義相機參數長度字段para_length用於儲存第j個相機的第f個自定義相機參數的長度。由於第j個相機的一個自定義相機參數的長度儲存在一個自定義相機參數長度字段中,因爲第j個相機包括h個自定義相機參數,因此自定義相機參數長度字段的數量爲h個。
本發明實施例中,S401中獲取第i個軌道對應的自由視角信息數據盒是依據內容製作設備發送的信令描述文件實現的。具體地,在執行S401之前,獲取沉浸媒體對應的信令描述文件,該信令描述文件包括沉浸媒體對應的自由視角相機描述子,自由視角相機描述子用於記錄每個軌道內視訊片段對應的相機屬性信息,任一軌道內的視訊片段是由任一軌道內的紋理圖像和/或深度圖像組成的;該與自由視角相機描述子被封裝於所述媒體數據的媒體呈現描述文件的自適應集層級中,或者所述信令描述文件被封裝於所述媒體呈現描述文件的表示層級中。
本發明實施例中,自由視角相機描述子可以表示爲AvsFreeViewCamInfo,其爲SupplementalProperty元素,其@schemeIdUri屬性爲"urn:avs:ims:2018:av3l"。當自由視角相機描述子位於表示層級中時,可用於描述該表示representation層級對應的軌道內視訊片段對應的相機屬性信息;當自由視角相機描述子位於自適應層級adaptation set時,可以用於描述自適應層級中多個軌道內視訊片段對應的相機屬性信息。
其中,自由視角相機描述子中各個元素以及屬性可如下表4所示:
表4
Elements and Attributes for AvsFreeViewCamInfo descriptor 作用 數據類型 解釋
AvsFreeViewCam 0..N avs:ims:2018:av3l 若自由視角相機描述子存在於representation層級中,該元素用於指示representation層級對應的軌道圖像對應的相機屬性;若自由視角相機描述子存在於adaptation set層級中,該元素指示adaptation set層級中多個軌道中圖像對應的相機的屬性信息。
AvsFreeViewCam@cameraId M xs:unsignedInt 指示每個相機對應的標識信息,該標識信息與軌道的AvsFreeViewInfoBox中的標識信息對應。
AvsFreeViewCam@ camera_pos_x M xs:float 指示相機位置的x分量取值。
AvsFreeViewCam@ camera_pos_y M xs:float 指示相機位置的y分量取值。
AvsFreeViewCam@ camera_pos_z M xs:float 指示相機位置的z分量取值。
AvsFreeViewCam@ focal_length_x M xs:float 指示相機焦距的x分量取值。
AvsFreeViewCam@ focal_length_y M xs:float 指示相機焦距的y分量取值。
進一步的,內容消費設備基於信令描述文件獲取第i個軌道對應的自由視角信息數據盒。在一個實施例中,獲取第i個軌道對應的自由視角信息數據盒,包括:基於自由視角相機描述子中記錄的每個軌道內圖像對應的相機屬性信息,從N個相機中選擇與用戶所在位置信息匹配的候選相機;向內容製作設備發送獲取候選相機拍攝的圖像的第一資源請求,第一資源請求用於指示內容製作設備根據M個軌道中每個軌道對應的自由視角信息數據盒中視角信息,從M個軌道中選擇第i個軌道並返回第i個軌道對應的自由視角信息數據盒,第i個軌道中封裝候選相機拍攝的圖像;接收內容製作設備返回的第i個軌道對應的自由視角信息數據盒。在這種方式下,內容消費設備只需要獲取所需的軌道對應的自由視角信息數據盒,不必獲取所有軌道對應的自由視角信息數據盒,可節省傳輸資源。下面舉例說明:
(1)假設內容製作設備生成自由視角視訊並將自由視角視訊封裝爲多個軌道,每個軌道中可以包括一個視角的紋理圖像和深度圖像,也就是說一個軌道內封裝了來自一個相機的紋理圖像和深度圖像,一個軌道內的紋理圖像和深度圖像組成了一個視訊片段,這樣一來,可以理解爲一個軌道內封裝了來自處於一個視角的相機的視訊片段。假設自由視角視訊被封裝到3個軌道,每個軌道內視訊的紋理圖像和深度圖像組成一個視訊片段,因此自由視角視訊包括3個視訊片段,分別表示爲Representation1、Representation2以及Representation3;
(2)內容製作設備在信令生成環節,根據每個軌道對應的自由視角信息數據盒中的視角信息生成該自由視角視訊對應的信令描述文件,信令描述文件中可攜帶自由視角相機描述子。假設自由視角視訊自由視角相機描述子記錄了3個視訊片段對應的相機屬性信息如下:
Representation1:{Cameral1:ID=1;Pos=(100,0,100);Focal=(10,20)};
Representation2:{Cameral2:ID=2;Pos=(100,100,100);Focal=(10,20)};
Representation1:{Cameral3:ID=3;Pos=(0,0,100);Focal=(10,20)};
(3)內容製作設備將信令描述文件發送至內容消費設備;
(4)內容消費設備根據信令描述文件和用戶帶寬,依據用戶所在位置信息和信令描述文件中的相機屬性信息,選取來自Cameral2和Cameral3的視訊片段並向內容製作設備請求;
(5)內容製作設備將來自Cameral2和Cameral3的視訊片段的軌道的自由視角信息數據盒發送至內容消費設備,內容消費設備根據獲取到的軌道對應的自由視角信息數據盒初始化解碼器,解碼對應的視訊片段並消費。
另一個實施例中,獲取第i個軌道對應的自由視角信息數據盒,包括:基於信令描述文件和用戶帶寬向內容製作設備發送第二資源請求,第二資源請求用於指示內容製作設備返回M個軌道的M個自由視角信息數據盒,一個軌道對應一個自由視角信息數據盒;根據每個軌道對應的自由視角信息數據盒中的視角信息和用戶所在位置信息,從M個自由視角信息數據盒中獲取第i個軌道對應的自由視角信息數據盒。在這種方式下,內容消費設備雖然獲取到所有軌道的自由視角信息數據盒,但是不對所有軌道中圖像進行解碼消費,只解碼與用戶當前位置匹配的第i個軌道中圖像,節省了解碼資源。下面舉例來說:
(1)假設內容製作設備生成自由視角視訊並將自由視角視訊封裝爲多個軌道,每個軌道中可以包括一個視角的紋理圖像和深度圖像,也就是說每個軌道封裝來自一個視角的相機的視訊片段,假設自由視角視訊被封裝到3個軌道的視訊片段分別表示爲Representation1、Representation2以及Representation3;
(2)內容製作設備根據每個軌道對應的視角信息,生成該自由視角視訊的信令描述文件,如下所示:
Representation1:{Cameral1:ID=1;Pos=(100,0,100);Focal=(10,20)};
Representation2:{Cameral2:ID=2;Pos=(100,100,100);Focal=(10,20)};
Representation1:{Cameral3:ID=3;Pos=(0,0,100);Focal=(10,20)};
(3)內容製作設備將(2)中的信令描述文件發送至內容消費設備;
(4)內容消費設備根據信令描述文件和用戶帶寬向內容製作設備請求所有軌道對應的自由視角信息數據盒;假設自由視角視訊被封裝到3個軌道中,分別爲Track1、Track2、以及Track3每個軌道中封裝的視訊片段對應的相機屬性信息可以如下:
Track1:{Camera1:ID=1;Pos=(100,0,100);Focal=(10,20)};
Track2:{Camera2:ID=2;Pos=(100,100,100);Focal=(10,20)};
Track3:{Camera3:ID=3;Pos=(0,0,100);Focal=(10,20)};
(5)內容消費設備根據獲取到的所有軌道對應的自由視角信息數據盒中的視角信息和用戶當前觀看的位置信息,選擇track2和track3的軌道中封裝的視訊片段進行解碼消費。
S402、根據自由視角信息數據盒中的視角信息對第i個軌道內封裝的圖像進行解碼。
具體實現中,根據自由視角信息數據盒中的視角信息對第i個軌道內封裝的圖像進行解碼顯示,可以包括:根據第i個軌道對應的視角信息初始化解碼器;再根據視角信息中與編碼相關的指示信息對第i個軌道內封裝的圖像進行解碼處理。
本發明實施例中將一沉浸媒體封裝至M個軌道,該沉浸媒體是由處於不同視角的N個相機拍攝的圖像組成的,一個軌道中可以包括來自至少一個相機的圖像,這M個軌道是屬同一個軌道組的,實現了一個沉浸視訊封裝到多個軌道的場景;另外,內容製作設備爲每個軌道生成一個自由視角信息數據盒,通過第i個軌道對應的自由視角信息數據盒指示第i個軌道對應的視角信息,比如相機所在的具體視角位置,進而內容消費設備在根據第i個軌道對應的視角信息進行該軌道內圖像的解碼顯示時,可以保證解碼顯示的視訊與用戶所在位置更加匹配,提高沉浸視訊的呈現效果。
基於上述的沉浸媒體的數據處理方法,本發明實施例提供了另一種沉浸媒體的數據處理方法。參見圖5,爲本發明實施例提供的一種沉浸媒體的數據處理方法的流程示意圖,圖5所示的沉浸媒體的數據處理方法可由內容製作設備執行,具體可由內容製作設備的處理器執行。圖5所示的沉浸媒體的數據處理方法可包括如下步驟:
S501、將沉浸媒體頻封裝到M個軌道中,該沉浸媒體是由處於不同視角的相機拍攝的圖像組成的,一個軌道中封裝了來自至少一個相機的圖像,這M個軌道屬同一個軌道組。
S502、根據第i個軌道中w個圖像的封裝過程生成第i個軌道對應的自由視角信息數據盒。
其中,w爲大於或等於1的整數,第i個軌道內封裝了w個圖像,這w個圖像可以是來自處於某一個或某幾個視角的相機拍攝的深度圖像和紋理圖像中的至少一種。結合圖4實施例中的代碼段3,具體介紹根據w個圖像在第i個軌道的封裝過程生成第i個軌道對應的自由視角信息數據盒,具體可以包括:
①第i個軌道對應的自由視角信息數據盒中包括自由視角軌道組信息,該自由視角軌道組信息可以指示第i個軌道與其他封裝了沉浸媒體的軌道屬同一個軌道組。該自由視角軌道組信息包括第一相機標識字段camera_id和圖像類型字段depth_texture_type,S502中根據第i個軌道內w個圖像的封裝過程生成所述第i個軌道對應的自由視角信息數據盒,包括:確定w個圖像來源於k個相機,k爲大於1的整數;將k個相機中的第j個相機的標識信息儲存在第一相機標識字段camera_id中,j大於0且小於k;根據所述第j個相機採集的圖像所屬圖像類型確定所述圖像類型字段depth_texture_type,所述圖像類型包括深度圖像和紋理圖像中任意一個或多個。應當理解的,一個相機的標識信息儲存在一個第一相機標識字段camera_id,如果第i個軌道內包含的圖像來源於k個相機,那麽自由視角軌道組信息中可以包括k個第一相機標識字段camera_id。同理的,自由視角軌道組包括k個圖像類型字段depth_texture_type。
具體地,根據第j個相機採集的圖像所屬圖像類型確定圖像類型字段,包括:當第j個相機採集的圖像所屬圖像類型爲紋理圖像,則將圖像類型字段設置爲第二數值;當第j個相機採集的圖像所屬圖像類型爲深度圖像,則將圖像類型字段設置爲第三數值;當第j個相機採集的圖像所屬圖像類型爲紋理圖像和深度圖像,則將圖像類型字段設置爲第四數值。其中,第二數值可以爲1,第三數值可以爲2,第四數值可以3,圖像類型字段可參見圖4實施例中表2所示。
②第i個軌道對應的視角信息包括視訊拼接布局指示字段stitching_layout,S502中根據第i個軌道內w個圖像的封裝過程生成第i個軌道對應的自由視角信息數據盒,包括:如果第i個軌道內包含的紋理圖像和深度圖像是拼接編碼的,則將視訊布局指示字段stitching_layout設置爲第一數值;如果第i個軌道內包含的紋理圖像和深度圖像是分別編碼的,則將視訊布局指示字段stitching_layout設置爲第二數值。其中,第一數值可以爲0,第二數值可以爲1,視訊拼接布局指示字段可以參見圖4實施例中表3所示。
③第i個軌道對應的視角信息還包括相機模型字段camera_model;S502中根據第i個軌道內w個圖像的封裝過程生成第i個軌道對應的自由視角信息數據盒,包括:當採集w個圖像的相機所屬的相機模型爲第一模型時,將相機模型字段camera_model設置爲第一數值;當採集w個圖像的相機所屬的相機模型爲第二模型時,將相機模型字段camera_model設置爲第二數值。同上述,第一數值可以爲0,第二數值可以爲1,相機模型字段可以參見圖4實施例中表4所示。
④第i個軌道對應的視角信息還包括紋理圖像的保護帶寬字段texture_padding_size和深度圖像的保護帶寬字段depth_padding_size。S502中根據第i個軌道內w個圖像的封裝過程生成第i個軌道對應的自由視角信息數據盒,包括:獲取第i個軌道內對紋理圖像編碼時採用的紋理圖像的保護帶寬度,並將紋理圖像的保戶帶寬度儲存在紋理圖像的保護帶寬度字段texture_padding_size;獲取第i個軌道內對深度圖像編碼時採用的深度圖像的保護帶寬度,並將深度圖像的保護帶寬度儲存在深度圖像的保護帶寬度字段depth_padding_size。
⑤第i個軌道對應的視角信息還包括第二相機標識字段camera_id和相機屬性信息字段,S502中根據第i個軌道內w個圖像的封裝過程生成第i個軌道對應的自由視角信息數據盒,包括:將第j個相機的標識信息儲存在第二相機標識字段camera_id,j大於或等於0且小於k,k表示w個圖像來源相機的數量;獲取第j個相機的相機屬性信息,並將獲取到的相機屬性信息儲存在相機屬性信息字段。其中,所述第j個相機的相機屬性信息包括以下任意一種或多種:第j個相機位置的橫軸分量取值、縱軸分量取值以及竪軸分量取值,第j個相機焦距的橫軸分量取值和縱軸分量取值,以及第j個相機採集圖像的分辨率寬度與高度。
基於此,相機屬性信息字段可具體包括:1)相機位置的橫軸分量字段camera_pos_x,用於儲存第j個相機位置的橫軸分量取值(也稱爲x分量取值);2)相機位置的縱軸分量字段camera_pos_y,用於儲存第j個相機位置的縱軸分量取值(也稱爲y分量取值);3)相機位置的竪軸分量字段camera_pos_z,用於儲存第j個相機位置的竪軸分量取值(也稱爲z分量取值);4)相機焦距的橫軸分量字段focal_length_x,用於儲存第j個相機焦距的橫軸分量取值(也稱爲x分量取值);5)相機焦距的縱軸分量字段focal_length_y,用於儲存第j個相機焦距的縱軸分量取值(也稱爲y分量取值);6)相機採集圖像的分辨率寬度字段camera_resolution_x,用於儲存第j個相機採集圖像的分辨率寬度;7)相機採集圖像的分辨率寬度字段camera_resolution_y,用於儲存第j個相機採集圖像的分辨率高度。
需要說明的是,由於第i個軌道內的紋理圖像和/深度圖像來源於k個相機,一個相機屬性信息字段用於儲存一個相機的相機屬性信息,因此,第i個軌道對應的視角信息中包括k個相機屬性信息字段用於儲存k個相機的相機屬性信息。相應的,一個相機屬性字段包括上述1)-7),k個相機屬性信息便包括k個上述1)-7)。
⑥第i個軌道對應的視角信息還包括圖像信息字段,S502中根據w個圖像的封裝過程生成第i個軌道對應的自由視角信息數據盒,包括:獲取所述第j個相機採集圖像的圖像信息,並將獲取到的圖像信息儲存在圖像信息字段;其中,所述圖像信息包括如下一個或多個:深度圖像降採樣的倍數因子、深度圖像左上頂點相對於平面幀原點的偏移量、紋理圖像左上頂點相對於平面幀原點的偏移量。
基於此,圖像信息字段可以具體包括:1)深度圖像降採樣的倍數因子字段depth_downsample_factor,用於儲存深度圖像降採樣的倍數因子;2)紋理圖像左上頂點橫軸偏移字段texture_vetex_x,用於儲存紋理圖像左上頂點相對於平面幀原點的偏移量橫軸分量;3)紋理圖像左上頂點縱軸偏移字段texture_vetex_y,用於儲存紋理圖像左上頂點相對於平面幀原點的偏移量縱軸分量;4)深度圖像左上頂點橫軸偏移字段depth_vetex_x,用於儲存深度圖像左上頂點相對於平面幀原點的橫軸偏移量;5)深度圖左上頂點縱軸偏移字段depth_vetex_y,用於儲存深度圖像左上頂點相對於平面幀原點的縱軸偏移量。
需要說明的是,一個圖像信息字段用於儲存一個相機採集圖像的圖像信息,第i個軌道內包括k個相機採集的深度圖像和/或紋理圖像,因此第i個軌道對應的自由視角信息中包括k個圖像信息字段。
⑦第i個軌道對應的視角信息還包括自定義相機參數字段、自定義相機參數類型字段以及自定義相機參數長度字段;根據第i個軌道內w個圖像的封裝過程生成第i個軌道對應的自由視角信息數據盒,包括:獲取第f個自定義相機參數,並將第f個自定義相機參數儲存在自定義相機參數字段,f爲大於等於0且小於h的整數,h表示第j個相機的自定義相機參數的數量;確定第f個自定義相機參數所屬的參數類型以及第f個自定義相機參數的長度,將第f個自定義相機參數所屬的參數類型儲存在自定義相機參數類型字段,以及將第f個自定義相機參數的長度儲存在自定義相機參數長度字段。
需要說明的是,由於第j個相機的自定義相機參數的數量爲h個,一個自定義相機參數字段用於儲存一個自定義相機參數,因此,第j個相機對應的自定相機參數字段的數量可以爲h個。又因爲,每個相機對應h個自定義相機參數,第i個軌道內包括k個相機,因此,第i個軌道對應的視角信息中包括k*h個自定義相機參數字段。需要說明的是,由於第j個相機的自定義相機參數的數量爲h個,一個自定義相機參數字段用於儲存一個自定義相機參數,因此,第j個相機對應的自定相機參數字段的數量可以爲h個。又因爲,每個相機對應h個自定義相機參數,第i個軌道內包括k個相機,因此,第i個軌道對應的視角信息中包括k*h個自定義相機參數字段。由於第j個相機的一個自定義相機參數的長度儲存在一個自定義相機參數長度字段中,因爲第j個相機包括h個自定義相機參數,因此自定義相機參數長度字段的數量爲h個。
另外,內容製作設備還可以根據M個軌道對應的自由視角信息數據盒中的視角信息生成信令描述文件,信令描述文件包括沉浸媒體對應的自由視角相機描述子,自由視角相機描述子用於記錄每個軌道內圖像對應的相機屬性信息;自由視角相機描述子被封裝於沉浸媒體的媒體呈現描述文件的自適應集層級中,或者信令描述文件被封裝於媒體呈現描述文件的表示層級中。
進一步的,內容製作設備可以將信令描述文件發送至內容消費設備,以使內容消費設備根據信令描述文件獲取第i個軌道對應的自由視角信息數據盒。
作爲一種可選的實施方式,內容製作設備將信令描述文件發送至內容消費設備,以指示內容消費設備基於自由視角相機描述子中記錄的每個軌道內圖像對應的相機屬性信息,從N個相機中選擇與用戶所在位置匹配的候選相機,以及發送獲取來源於候選相機的圖像的第一資源請求;響應於第一資源請求,根據M個軌道中每個軌道對應的自由視角信息數據盒中的視角信息從M個軌道中選擇第i個軌道並將i個軌道對應的自由視角信息數據盒發送至內容消費設備,第i個軌道內包括來源於候選相機的圖像。
作爲另一種可選的實施方式,內容製作設備將信令描述文件發送至內容消費設備,以指示內容消費設備根據信令描述文件和用戶帶寬發送第二資源請求;響應於第二資源請求,將M個軌道對應的M個自由視角信息數據盒發送至內容消費設備,以指示內容消費設備根據每個軌道對應的自由視角信息數據盒中的視角信息和用戶所在位置信息,從M個自由視角信息數據盒中獲取第i個軌道對應的自由視角信息數據盒。
本發明實施例中將一個沉浸媒體封裝至M個軌道,該沉浸視訊是由處於不同視角的相機採集的圖像組成的,這M個軌道是屬同一個軌道組的,一個軌道中封裝來自至少一個相機的圖像,實現了一個沉浸視訊封裝到多個軌道的場景;另外,內容製作設備爲根據每個軌道中圖像的封裝過程爲每個軌道生成一個自由視角信息數據盒,通過第i個軌道對應的自由視角信息數據盒指示第i個軌道對應的視角信息,比如相機所在的具體視角位置,進而內容消費設備在根據第i個軌道對應的視角信息進行該軌道內圖像的解碼顯示時,可以保證解碼顯示的視訊與用戶所在位置更加匹配,提高沉浸視訊的呈現效果。
基於上述的沉浸媒體的數據處理方法實施例,本發明實施例提供了一種沉浸媒體的數據處理裝置,該沉浸媒體的數據處理裝置可以是運行於內容消費設備中的一個計算機程式(包括程式代碼),例如該沉浸媒體的數據處理裝置可以是內容消費設備中的一個應用軟體。參見圖6,爲本發明實施例提供的一種沉浸媒體的數據處理裝置的結構示意圖。圖6所示的數據處理裝置可運行如下單元:
獲取單元601,用於獲取所述沉浸媒體的第i個軌道對應的自由視角信息數據盒,所述自由視角信息數據盒包括所述第i個軌道對應的視角信息,i爲大於或等於1且小於或等於M的整數;該沉浸媒體是由處於不同視角的N個相機拍攝的圖像組成的,所述沉浸媒體被封裝到M個軌道中,一個軌道中封裝來自至少一個相機的圖像,所述M個軌道屬同一個軌道組,N和M均爲大於1的整數;
處理單元602,用於根據所述自由視角信息數據盒中的視角信息對所述第i個軌道內封裝的圖像進行解碼。
在一個實施例中,所述第i個軌道內封裝了來自所述N個相機中k個相機的圖像,k爲大於0的整數;所述第i個軌道內還封裝了所述第i個軌道對應的自由視角軌道組信息,所述自由視角軌道組信息用於指示所述第i個軌道與封裝所述沉浸媒體的其他軌道屬同一個軌道組;所述自由視角軌道組信息包括第一相機標識字段和圖像類型字段;
所述第一相機標識字段用於儲存所述k個相機中第j個相機的標識信息,所述圖像類型字段用於指示所述第j個相機採集的圖像所屬的圖像類型,所述圖像類型包括紋理圖像或深度圖像中的至少一個。
在一個實施例中,若所述第i個軌道內包括紋理圖像和深度圖像,所述第i個軌道對應的視角信息包括視訊拼接布局指示字段;當所述視訊拼接布局指示字段爲第一數值時,指示所述第i個軌道內包括的紋理圖像和深度圖像是拼接編碼的;當所述視訊拼接布局指示字段爲第二數值時,指示所述第i個軌道內包括的紋理圖像和深度圖像是分別編碼的。
在一個實施例中,所述第i個軌道對應的視角信息還包括相機模型字段;當所述相機模型字段爲第三數值時,指示所述j個相機所屬相機模型爲第一模型;當所述相機模型字段爲第四數值時,指示所述j個相機所屬相機模型爲第二模型。
在一個實施例中,所述第i個軌道對應的視角信息還包括紋理圖像的保護帶寬度字段和深度圖像的保護帶寬度字段,所述紋理圖像的保護帶寬度字段用於儲存所述第i個軌道內紋理圖像進行編碼時採用的保護帶寬度,所述深度圖像的保護帶寬度字段用於儲存所述第i個軌道內深度圖像進行編碼時採用的保護帶寬度。
在一個實施例中,所述第i個軌道對應的視角信息還包括第二相機標識字段和相機屬性信息字段;所述第二相機標識字段用於儲存第j個相機的標識信息;
所述相機屬性信息字段用於儲存所述第j個相機的相機屬性信息,所述第j個相機的相機屬性信息包括以下至少一種:所述第j個相機位置的橫軸分量取值、縱軸分量取值以及竪軸分量取值,所述第j個相機焦距的橫軸分量取值和縱軸分量取值,以及第j個相機採集圖像的分辨率寬度與高度。
在一個實施例中,所述第i個軌道對應的視角信息還包括圖像信息字段,所述圖像信息字段用於儲存所述第j個相機採集圖像的圖像信息,所述圖像信息包括以下任意一個:深度圖像降採樣的倍數因子、深度圖像左上頂點相對於平面幀原點的偏移量或紋理圖像左上頂點相對於平面幀原點的偏移量。
在一個實施例中,所述第i個軌道對應的視角信息還包括自定義相機參數字段、自定義相機參數類型字段以及自定義相機參數長度字段;所述自定義相機參數字段用於儲存所述第j個相機的第f個自定義相機參數,f爲大於等於0且小於h的整數,h表示所述第j個相機的自定義相機參數的數量;所述自定義相機參數類型字段用於儲存所述第f個自定義相機參數所屬的參數類型;所述自定義相機參數長度字段用於儲存所述第f個自定義相機參數的長度。
在一個實施例中,所述獲取單元601還用於:
獲取所述沉浸媒體對應的信令描述文件,所述信令描述文件包括所述沉浸媒體對應的自由視角相機描述子,所述自由視角相機描述子用於記錄每個軌道內視訊片段對應的相機屬性信息,所述軌道內視訊片段是由所述軌道內包括的紋理圖像和深度圖像組成的;所述自由視角相機描述子被封裝於所述沉浸媒體的媒體呈現描述文件的自適應集層級中,或者所述信令描述文件被封裝於所述媒體呈現描述文件的表示層級中。
在一個實施例中,所述獲取單元601在獲取所述沉浸媒體的第i個軌道對應的自由視角信息數據盒時,執行如下操作:
基於所述自由視角相機描述子中記錄的每個軌道內視訊片段對應的相機屬性信息,從所述N個相機中選擇與用戶所在位置信息匹配的候選相機;
向內容製作設備發送獲取來源於所述候選相機的分塊視訊的第一資源請求,所述第一資源請求用於指示所述內容製作設備根據所述M個軌道中每個軌道對應的自由視角信息數據盒中的視角信息,從所述M個軌道中選擇第i個軌道並返回所述第i個軌道對應的自由視角信息數據盒,所述第i個軌道中封裝的紋理圖像和深度圖像中的至少一種來自所述候選相機;接收所述內容製作設備返回的所述第i個軌道對應的自由視角信息數據盒。
在一個實施例中,所述獲取單元601在獲取獲取所述沉浸媒體的第i個軌道對應的自由視角信息數據盒時,執行如下操作:
基於所述信令描述文件和用戶帶寬向內容製作設備發送第二資源請求,所述第二資源請求用於指示所述內容製作設備返回所述M個軌道的M個自由視角信息數據盒,一個軌道對應一個自由視角信息數據盒;
根據每個軌道對應的自由視角信息數據盒中的視角信息和用戶所在位置信息,從所述M個自由視角信息數據盒中獲取第i個軌道對應的自由視角信息數據盒。
根據本發明的一個實施例,圖4所示的沉浸媒體的數據處理方法所涉及各個步驟可以是由圖6所示的沉浸媒體的數據處理裝置中的各個單元來執行的。例如,圖4所述的S401可由圖6中所述的數據處理裝置中的獲取單元601來執行,S402可由圖6所示的數據處理裝置中的處理單元602來執行。
根據本發明的另一個實施例,圖6所示的沉浸媒體的數據處理裝置中的各個單元可以分別或全部合並爲一個或若干個另外的單元來構成,或者其中的某個(些)單元還可以再拆分爲功能上更小的多個單元來構成,這可以實現同樣的操作,而不影響本發明的實施例的技術效果的實現。上述單元是基於邏輯功能劃分的,在實際應用中,一個單元的功能也可以由多個單元來實現,或者多個單元的功能由一個單元實現。在本發明的其它實施例中,基於沉浸媒體的數據處理裝置也可以包括其它單元,在實際應用中,這些功能也可以由其它單元協助實現,並且可以由多個單元協作實現。
根據本發明的另一個實施例,可以通過在包括中央處理單元(CPU)、隨機存取儲存媒介(RAM)、唯讀儲存媒介(ROM)等處理元件和儲存元件的例如計算機的通用計算設備上運行能夠執行如圖4的相應方法所涉及的各步驟的計算機程式(包括程式代碼),來構造如圖6中所示的沉浸媒體的數據處理裝置,以及來實現本發明實施例沉浸媒體的數據處理方法。所述計算機程式可以記載於例如計算機可讀儲存媒介上,並通過計算機可讀儲存媒介裝載於上述計算設備中,並在其中運行。
本發明實施例中將一沉浸媒體封裝至M個軌道,該沉浸媒體是由處於不同視角的N個相機拍攝的圖像組成的,一個軌道中可以包括來自至少一個相機的圖像,這M個軌道是屬同一個軌道組的,實現了一個沉浸視訊封裝到多個軌道的場景;另外,內容製作設備爲每個軌道生成一個自由視角信息數據盒,通過第i個軌道對應的自由視角信息數據盒指示第i個軌道對應的視角信息,比如相機所在的具體視角位置,進而內容消費設備在根據第i個軌道對應的視角信息進行該軌道內圖像的解碼顯示時,可以保證解碼顯示的視訊與用戶所在位置更加匹配,提高沉浸視訊的呈現效果。
基於上述的沉浸媒體的數據處理方法以及數據處理裝置實施例,本發明實施例提供了另一種沉浸媒體的數據處理裝置,該沉浸媒體的數據處理裝置可以是運行於內容製作設備中的一個計算機程式(包括程式代碼),例如該沉浸媒體的數據處理裝置可以是內容製作設備中的一個應用軟體。參見圖7,爲本發明實施例提供的另一種沉浸媒體的數據處理裝置的結構示意圖。圖7所示的數據處理裝置可運行如下單元:
封裝單元701,用於將沉浸媒體封裝到M個軌道中,所述沉浸媒體是由處於不同視角的N個相機拍攝的圖像組成的,一個軌道中封裝來自至少一個相機的圖像,所述M個軌道屬同一個軌道組,N和M均爲大於或等於1的整數;
生成單元702,用於根據第i個軌道中w個圖像的封裝過程,生成第i個軌道對應的自由視角信息數據盒,所述自由視角信息數據盒包括所述第i個軌道對應的視角信息;
Figure 02_image001
Figure 02_image003
在一個實施例中,所述第i個軌道對應的自由視角信息數據盒包括自由視角軌道組信息,所述自由視角軌道組信息包括第一相機標識字段和圖像類型字段,所述封裝單元701在根據第i個軌道內w個圖像的封裝過程生成所述第i個軌道對應的自由視角信息數據盒時,執行如下步驟:
確定所述w個圖像來源於k個相機,k爲大於1的整數;將所述k個相機中的第j個相機的標識信息儲存在所述第一相機標識字段中;根據所述第j個相機採集的圖像所屬圖像類型確定所述圖像類型字段,所述圖像類型包括深度圖像或紋理圖像中的至少一個。
在一個實施例中,所述封裝單元701在根據所述第j個相機採集的圖像所屬圖像類型確定所述圖像類型字段時,執行如下步驟:
當所述第j個相機採集的圖像所屬圖像類型爲紋理圖像,則將所述圖像類型字段設置爲第二數值;當所述第j個相機採集的圖像所屬圖像類型爲深度圖像,則將所述圖像類型字段設置爲第三數值;當所述第j個相機採集的圖像所屬圖像類型爲紋理圖像和深度圖像,則將所述圖像類型字段設置爲第四數值。
在一個實施例中,所述第i個軌道對應的視角信息包括視訊拼接布局指示字段,所述w個圖像包括紋理圖像和深度圖像,所述封裝單元 701在根據第i個軌道內w個圖像的封裝過程生成第i個軌道對應的自由視角信息數據盒時,執行如下步驟:
如果所述第i個軌道內包含的紋理圖像和深度圖像是拼接編碼的,則將所述視訊布局指示字段設置爲第一數值;如果所述i個軌道內包含的的紋理圖像和深度圖像是分別編碼的,則將所述視訊布局指示字段設置爲第二數值。
在一個實施例中,所述第i個軌道對應的視角信息還包括相機模型字段;所述封裝單元701在根據第i個軌道內的w個圖像的封裝過程生成第i個軌道對應的自由視角信息數據盒時,執行如下步驟:
當採集所述w個圖像的相機所屬的相機模型爲第一模型時,將所述相機模型字段設置爲第一數值;當採集所述w個圖像的相機所屬的相機模型爲第二模型時,將所述相機模型字段設置爲第二數值。
在一個實施例中,所述第i個軌道對應的視角信息還包括紋理圖像的保護帶寬字段和深度圖像的保護帶寬字段,所述封裝單元701在根據第i個軌道內的w個圖像的封裝過程生成第i個軌道對應的自由視角信息數據盒時,執行如下步驟:
獲取所述第i個軌道內在對紋理圖像進行編碼時採用的紋理圖像的保護帶寬度,並將所述紋理圖像的保戶帶寬度儲存在所述紋理圖像的保護帶寬度字段;
獲取所述第i個軌道內在對深度圖像進行編碼時採用的深度圖像的保護帶寬度,並將所述深度圖像的保護帶寬度儲存在所述深度圖像的保護帶寬度字段。
在一個實施例中,所述第i個軌道對應的視角信息還包括第二相機標識字段和相機屬性信息字段,所述封裝單元701在根據第i個軌道內的w個圖像的封裝過程生成第i個軌道對應的自由視角信息數據盒時,執行如下步驟:
將k個相機中第j個相機的標識信息儲存在所述第二相機標識字段,k表示所述w個圖像來源相機的數量;
獲取所述第j個相機的相機屬性信息,並將獲取到的相機屬性信息儲存在所述相機屬性信息字段;
所述第j個相機的相機屬性信息包括以下任意一種或多種:所述第j個相機位置的橫軸分量取值、縱軸分量取值以及竪軸分量取值,所述第j個相機焦距的橫軸分量取值和縱軸分量取值,以及所述第j個相機採集圖像的分辨率寬度與高度。
在一個實施例中,所述第i個軌道對應的視角信息還包括圖像信息字段,所述封裝單元701在根據第i個軌道內的w個圖像的封裝過程生成第i個軌道對應的自由視角信息數據盒時,執行如下步驟:
獲取所述第j個相機採集的圖像的圖像信息,並將獲取到的圖像信息儲存在所述圖像信息字段;其中,所述圖像信息包括如下一個或多個:深度圖像降採樣的倍數因子、深度圖像左上頂點相對於平面幀原點的偏移量、紋理圖像左上頂點相對於平面幀原點的偏移量。
在一個實施例中,所述第i個軌道對應的視角信息還包括自定義相機參數字段、自定義相機參數類型字段以及自定義相機參數長度字段;所述封裝單元701在根據第i個軌道內的w個圖像的封裝過程生成第i個軌道對應的自由視角信息數據盒時,執行如下步驟:
獲取第f個自定義相機參數,並將所述第f個自定義相機參數儲存在所述自定義相機參數字段,f爲大於等於0且小於h的整數,h表示所述第j個相機的自定義相機參數的數量;
確定所述第f個自定義相機參數所屬的參數類型以及所述第f個自定義相機參數的長度,將所述第f個自定義相機參數所屬的參數類型儲存在所述自定義相機參數類型字段,以及將所述第f個自定義相機參數的長度儲存在所述自定義相機參數長度字段。
在一個實施例中,所述生成單元702還用於:生成所述沉浸媒體對應的信令描述文件,所述信令描述文件包括所述沉浸媒體對應的自由視角相機描述子,所述自由視角相機描述子用於記錄每個軌道內視訊片段對應的相機屬性信息,任一軌道內視訊片段是由所述任一軌道內封裝的圖像組成的;所述自由視角相機描述子被封裝於所述沉浸媒體的媒體呈現描述文件的自適應集層級中,或者所述信令描述文件被封裝於所述媒體呈現描述文件的表示層級中。
在一個實施例中,所述沉浸媒體的數據處理裝置還包括發送單元703,用於將所述信令描述文件發送至內容消費設備,以指示所述內容消費設備基於所述自由視角相機描述子中記錄的每個軌道內視訊片段對應的相機屬性信息,從所述多個相機中選擇與用戶所在位置匹配的候選相機,以及發送獲取來源於所述候選相機的分塊視訊的第一資源請求;響應於所述第一資源請求,根據所述M個軌道中每個軌道對應的自由視角信息數據盒中的視角信息從所述M個軌道中選擇第i個軌道並將所述i個軌道對應的自由視角信息數據盒發送至所述內容消費設備。
在一個實施例中,所述發送單元703還用於:將所述信令描述文件發送至內容消費設備,以指示所述內容消費設備根據所述信令描述文件和用戶帶寬發送第二資源請求;響應於所述第二資源請求,將所述M個軌道對應的M個自由視角信息數據盒發送至所述內容消費設備,以指示所述內容消費設備根據每個軌道對應的自由視角信息數據盒中的視角信息和用戶所在位置信息,從所述M個自由視角信息數據盒中獲取第i個軌道對應的自由視角信息數據盒。
根據本發明的一個實施例,圖5所示的沉浸媒體的數據處理方法所涉及各個步驟可以是由圖7所示的沉浸媒體的數據處理裝置中的各個單元來執行的。例如,圖5所述的S501可由圖7中所述的數據處理裝置中的封裝單元702來執行,S502可由圖7所述的數據處理裝置中的生成單元702來執行。
根據本發明的另一個實施例,圖7所示的沉浸媒體的數據處理裝置中的各個單元可以分別或全部合並爲一個或若干個另外的單元來構成,或者其中的某個(些)單元還可以再拆分爲功能上更小的多個單元來構成,這可以實現同樣的操作,而不影響本發明的實施例的技術效果的實現。上述單元是基於邏輯功能劃分的,在實際應用中,一個單元的功能也可以由多個單元來實現,或者多個單元的功能由一個單元實現。在本發明的其它實施例中,基於沉浸媒體的數據處理裝置也可以包括其它單元,在實際應用中,這些功能也可以由其它單元協助實現,並且可以由多個單元協作實現。
根據本發明的另一個實施例,可以通過在包括中央處理單元(CPU)、隨機存取儲存媒介(RAM)、唯讀儲存媒介(ROM)等處理元件和儲存元件的例如計算機的通用計算設備上運行能夠執行如圖5的相應方法所涉及的各步驟的計算機程式(包括程式代碼),來構造如圖7中所示的沉浸媒體的數據處理裝置,以及來實現本發明實施例沉浸媒體的數據處理方法。所述計算機程式可以記載於例如計算機可讀儲存媒介上,並通過計算機可讀儲存媒介裝載於上述計算設備中,並在其中運行。
本發明實施例中將一沉浸媒體封裝至M個軌道,該沉浸媒體是由處於不同視角的N個相機拍攝的圖像組成的,一個軌道中可以包括來自至少一個相機的圖像,這M個軌道是屬同一個軌道組的,實現了一個沉浸視訊封裝到多個軌道的場景;另外,內容製作設備爲每個軌道生成一個自由視角信息數據盒,通過第i個軌道對應的自由視角信息數據盒指示第i個軌道對應的視角信息,比如相機所在的具體視角位置,進而內容消費設備在根據第i個軌道對應的視角信息進行該軌道內圖像的解碼顯示時,可以保證解碼顯示的視訊與用戶所在位置更加匹配,提高沉浸視訊的呈現效果。
參見圖8,爲本發明實施例提供的一種內容消費設備的結構示意圖。圖8所示的內容消費設備可以指沉浸媒體的使用者所使用的計算機設備,該計算機設備可以是終端。圖8所示的內容消費設備可以包括接收器801、處理器802、記憶體803以及顯示/播放裝置804。其中:
接收器801用於實現解碼與其他設備的傳輸交互,具體用於實現內容製作設備與內容消費設備之間關於沉浸媒體的傳輸。即內容消費設備通過接收器901接收沉內容製作設備傳輸沉浸媒體的相關媒體資源。
處理器802或稱CPU(Central Processing Unit,中央處理器)是內容製作設備的處理核心,該處理器802適於實現一條或多條計算機程式,具體適於加載並執行一條或多條計算機程式從而實現圖4所示的沉浸媒體的數據處理方法的流程。
記憶體803是內容消費設備中的記憶設備,用於儲存計算機程式和媒體資源。可以理解的,此處的記憶體803既可以包括內容消費設備中的內置儲存媒介,當然也可以包括內容消費設備所支持的擴展儲存媒介。需要說明的是,記憶體803可以是高速RAM記憶體,也可以是非不穩定的記憶體(non-volatile memory),例如至少一個磁碟記憶體;可選的還可以是至少一個位於遠離前述處理器的記憶體。記憶體803提供儲存空間,該儲存空間用於儲存內容消費設備的作業系統。並且,在該儲存空間中還用於儲存計算機程式,該計算機程式適於被處理器調用並執行,以用來執行沉浸媒體的數據處理方法的各步驟。另外,記憶體803還可用於儲存經處理器處理後形成的沉浸媒體的三維圖像、三維圖像對應的音訊內容及該三維圖像和音訊內容渲染所需的信息等。
顯示/播放裝置804用於輸出渲染得到的聲音和三維圖像。
在一個實施例中,處理器802可包括解析器821、解碼器822、轉換器823以及渲染器824;其中:
解析器821用於對來自內容製作設備的渲染媒體的封裝文件進行解封裝,具體是按照沉浸媒體的文件格式要對媒體文件資源進行解封裝,得到音訊碼流和視訊碼流;並將該音訊碼流和視訊碼流提高給解碼器822;
解碼器822對音訊碼流進行音訊解碼,得到音訊內容並提供給渲染器824進行音訊渲染。另外,解碼器822對視訊碼流進行解碼得到2D圖像。根據媒體呈現描述信息提供的元數據,如果該元數據指示沉浸媒體執行過區域封裝過程,該2D圖像是指封裝圖像;如果該元數據指示沉浸媒體未執行過區域封裝過程,則該平面圖像是指投影圖像。
轉換器823用於將2D圖像轉換爲3D圖像。如果沉浸媒體執行過區域封裝過程,轉換器923還會先將封裝圖像進行區域解封裝得到投影圖像。再對投影圖像進行重建處理得到3D圖像。如果渲染媒體未執行過區域封裝過程,轉換器923會直接將投影圖像重建得到3D圖像。
渲染器824用於對沉浸媒體的音訊內容和3D圖像進行渲染。具體根據媒體呈現描述信息中與渲染、視窗相關的元數據對音訊內容及3D圖像進行渲染,渲染完成交由顯示/播放裝置進行輸出。
在一個實施例中,處理器802通過調用記憶體中的一條或多條計算機程式執行圖4所示的沉浸媒體的數據處理方法的各個步驟。具體地,記憶體儲存一條或多條計算機程式,該一條或多條計算機程式適於由處理器802加載並執行如下步驟:
獲取第i個軌道對應的自由視角信息數據盒,所述自由視角信息數據盒子,包括所述第i個軌道對應的視角信息,i爲大於等於1且小於等於M的整數;該沉浸媒體是由處於不同視角的N個相機拍攝的圖像組成,所述沉浸媒體被封裝到M個軌道,一個軌道中封裝來自至少一個相機的圖像, N和M均爲大於1的整數。
根據所述自由視角信息數據盒中的視角信息對所述第i個軌道內封裝的圖像進行解碼顯示。
本發明實施例中將一沉浸媒體封裝至M個軌道,該沉浸媒體是由處於不同視角的N個相機拍攝的圖像組成的,一個軌道中可以包括來自至少一個相機的圖像,這M個軌道是屬同一個軌道組的,實現了一個沉浸視訊封裝到多個軌道的場景;另外,內容製作設備爲每個軌道生成一個自由視角信息數據盒,通過第i個軌道對應的自由視角信息數據盒指示第i個軌道對應的視角信息,比如相機所在的具體視角位置,進而內容消費設備在根據第i個軌道對應的視角信息進行該軌道內圖像的解碼顯示時,可以保證解碼顯示的視訊與用戶所在位置更加匹配,提高沉浸視訊的呈現效果。
參見圖9,爲本發明實施例提供的一種內容製作設備的結構示意圖;該內容製作設備可以是指沉浸媒體的提供者所使用的計算機設備,該計算機設備可以是終端或伺服器。如圖9所示,該內容製作設備可以包括捕獲設備901、處理器902、記憶體903以及發射器904。其中:
捕獲設備901用於採集現實世界的聲音-視覺場景獲得沉浸媒體的原始數據(包括在時間和空間上保持同步的音訊內容和視訊內容)。該捕獲設備801可以包括但不限於:音訊設備、攝像設備及傳感設備。其中,音訊設備可以包括音訊感測器、麥克風等。攝像設備可以包括普通攝像頭、立體攝像頭、光場攝像頭等。傳感設備可以包括雷射設備、雷達設備等。
處理器902(或稱CPU(Central Processing Unit,中央處理器))是內容製作設備的處理核心,該處理器902適於實現一條或多條計算機程式,具體適於加載並執行一條或多條計算機程式從而實現圖4所示的沉浸媒體的數據處理方法的流程。
記憶體903是內容製作設備中的記憶設備,用於存放程式和媒體資源。可以理解的是,此處的記憶體903既可以包括內容製作設備中的內置儲存媒介,當然也可以包括內容製作設備所支持的擴展儲存媒介。需要說明的是,記憶體可以是高速RAM記憶體,也可以是非不穩定的記憶體(non-volatile memory),例如至少一個磁碟記憶體;可選的還可以是至少一個位於遠離前述處理器的記憶體。記憶體提供儲存空間,該儲存空間用於儲存內容製作設備的作業系統。並且,在該儲存空間中還用於儲存計算機程式,該計算機程式包括程式指令,且該程式指令適於被處理器調用並執行,以用來執行沉浸媒體的數據處理方法的各步驟。另外,記憶體903還可用於儲存經處理器處理後形成的沉浸媒體文件,該沉浸媒體文件包括媒體文件資源和媒體呈現描述信息。
發射器904用於實現內容製作設備與其他設備的傳輸交互,具體用於實現內容製作設備與內容消費設備之間關於進行沉浸媒體的傳輸。即內容製作設備通過發射器904來向內容消費設備傳輸沉浸媒體的相關媒體資源。
再參見圖9可知,處理器902可以包括轉換器921、編碼器922和封裝器923。其中:
轉換器921用於對捕獲到的視訊內容進行一系列轉換處理,使視訊內容成爲適合被執行沉浸媒體的視訊編碼的內容。轉換處理可包括:拼接和投影,可選地,轉換處理還包括區域封裝。轉換器921可以將捕獲到的3D視訊內容轉換爲2D圖像,並提供給編碼器進行視訊編碼。
編碼器922用於對捕獲到的音訊內容進行音訊編碼形成沉浸媒體的音訊碼流。還用於對轉換器921轉換得到的2D圖像進行視訊編碼,得到視訊碼流。
封裝器923用於將音訊碼流和視訊碼流按照沉浸媒體的文件格式(如ISOBMFF)封裝在文件容器中形成沉浸媒體的媒體文件資源,該媒體文件資源可以是媒體文件或媒體片段形成沉浸媒體的媒體文件;並按照沉浸媒體的文件格式要求採用媒體呈現描述信息記錄該沉浸媒體的媒體文件資源的元數據。封裝器處理得到的沉浸媒體的封裝文件會保存在記憶體中,並按需提供給內容消費設備進行沉浸媒體的呈現。
在一個實施例中,處理器902通過調用記憶體中的一條或多條指令來執行圖5所示的沉浸媒體的數據處理方法的各個步驟。具體地,記憶體803儲存有一條或多條計算機程式,該計算機程式適於由處理器902加載並執行但不限於如下步驟:
將所述沉浸媒體封裝到M個軌道中,所述沉浸媒體是由處於不同視角的N個相機拍攝的圖像組成的,一個軌道中封裝來自至少一個相機的圖像,所述M個軌道屬同一個軌道組,N和M均爲大於或等於1的整數;
根據第i個軌道中w個圖像的封裝過程,生成第i個軌道對應的自由視角信息數據盒,所述自由視角信息數據盒包括所述第i個軌道對應的視角信息;
Figure 02_image001
Figure 02_image003
本發明實施例中將一沉浸媒體封裝至M個軌道,該沉浸媒體是由處於不同視角的N個相機拍攝的圖像組成的,一個軌道中可以包括來自至少一個相機的圖像,這M個軌道是屬同一個軌道組的,實現了一個沉浸視訊封裝到多個軌道的場景;另外,內容製作設備爲每個軌道生成一個自由視角信息數據盒,通過第i個軌道對應的自由視角信息數據盒指示第i個軌道對應的視角信息,比如相機所在的具體視角位置,進而內容消費設備在根據第i個軌道對應的視角信息進行該軌道內圖像的解碼顯示時,可以保證解碼顯示的視訊與用戶所在位置更加匹配,提高沉浸視訊的呈現效果。
另外,本發明實施例還提供了一種儲存媒介,所述儲存媒介用於儲存計算機程式,所述計算機程式用於執行上述實施例提供的方法。
本發明實施例還提供了一種包括指令的計算機程式産品,當其在計算機上運行時,使得計算機執行上述實施例提供的方法。
以上所揭露的僅爲本發明較佳實施例而已,當然不能以此來限定本發明之權利範圍,因此依本發明請求項所作的等同變化,仍屬本發明所涵蓋的範圍。
S401、S402  步驟 S501、S502 步驟 601獲取單元                                     602處理單元 701封裝單元                                     702生成單元 801接收器                                     802處器 803記憶體                                     804顯示/撥放裝置 821解析器                                     822解碼器 823轉換器                                     824渲染器 901捕獲設備                                     802處理器 903記憶體                                     904發射器 921轉換器                                     922編碼器 923封裝器
圖1a是本發明實施例提供的一種用戶消費3DoF沉浸媒體的示意圖;
圖1b是本發明實施例提供的一種用戶消費3DoF+沉浸媒體的示意圖;
圖1c是本發明實施例提供的一種用戶消費6DoF沉浸視訊的示意圖;
圖2a是本發明實施例提供的一種沉浸媒體系統的架構圖;
圖2b是本發明實施例提供的一種沉浸媒體的傳輸方案的示意圖;
圖3a是本發明實施例提供的一種視訊編碼基本框圖;
圖3b是本發明實施例通過的一種輸入圖像劃分的示意圖;
圖4是本發明實施例提供的一種沉浸媒體的數據處理方法的流程示意圖;
圖5是本發明實施例提供的另一種沉浸媒體的數據處理方法的流程示意圖;
圖6是本發明實施例提供的一種沉浸媒體的數據處理裝置的結構示意圖;
圖7是本發明實施例提供的另一種沉浸媒體的數據處理裝置的結構示意圖;
圖8是本發明實施例提供的一種內容消費設備的結構示意圖;
圖9是本發明實施例提供的一種內容製作設備的結構示意圖。

Claims (28)

  1. 一種沉浸媒體的數據處理方法,所述方法由內容消費設備執行,所述沉浸媒體是由處於不同視角的N個相機拍攝的圖像組成,所述沉浸媒體被封裝到M個軌道,一個軌道中封裝來自至少一個相機的圖像,N和M均為大於1的整數;所述方法包括:獲取所述沉浸媒體的第i個軌道對應的自由視角信息數據盒,所述自由視角信息數據盒包括所述第i個軌道對應的視角信息,i為大於或等於1且小於或等於M的整數;根據所述自由視角信息數據盒中的視角信息對所述第i個軌道內封裝的圖像進行解碼;所述第i個軌道內封裝了來自所述N個相機中k個相機的圖像,k為大於0的整數;所述第i個軌道內還封裝了所述第i個軌道對應的自由視角軌道組信息,所述自由視角軌道組信息用於指示所述第i個軌道與封裝所述沉浸媒體的其他軌道屬同一個軌道組;所述自由視角軌道組信息包括第一相機標識字段和圖像類型字段,所述圖像類型字段用於指示圖像類型,所述圖像類型包括紋理圖像、深度圖像、或是紋理圖像與深度圖像。
  2. 如請求項1所述的方法,所述第一相機標識字段用於儲存所述k個相機中第j個相機的標識信息,所述圖像類型字段用於指示所述第j個相機採集的圖像所屬的圖像類型,所述圖像類型包括紋理圖像或深度圖像中的至少一個。
  3. 如請求項2所述的方法,若所述第i個軌道內包括紋理圖像和深度圖像,所述第i個軌道對應的視角信息包括視訊拼接布局指示字段; 當所述視訊拼接布局指示字段為第一數值時,指示所述第i個軌道內包括的紋理圖像和深度圖像是拼接編碼的;當所述視訊拼接布局指示字段為第二數值時,指示所述第i個軌道內包括的紋理圖像和深度圖像是分別編碼的。
  4. 如請求項2所述的方法,所述第i個軌道對應的視角信息還包括相機模型字段;當所述相機模型字段為第三數值時,指示所述j個相機所屬相機模型為第一模型;當所述相機模型字段為第四數值時,指示所述j個相機所屬相機模型為第二模型,所述第二模型不同於所述第一模型。
  5. 如請求項2所述的方法,所述第i個軌道對應的視角信息還包括紋理圖像的保護帶寬度字段和深度圖像的保護帶寬度字段,所述紋理圖像的保護帶寬度字段用於儲存所述第i個軌道內紋理圖像進行編碼時採用的保護帶寬度,所述深度圖像的保護帶寬度字段用於儲存所述第i個軌道內深度圖像進行編碼時採用的保護帶寬度。
  6. 如請求項2所述的方法,所述第i個軌道對應的視角信息還包括第二相機標識字段和相機屬性信息字段;所述第二相機標識字段用於儲存第j個相機的標識信息;所述相機屬性信息字段用於儲存所述第j個相機的相機屬性信息,所述第j個相機的相機屬性信息包括以下至少一種:所述第j個相機位置的橫軸分量取值、縱軸分量取值以及竪軸分量取值,所述第j個相機焦距的橫軸分量取值和縱軸分量取值,以及第j個相機採集圖像的分辨率寬度與高度。
  7. 如請求項2所述的方法,所述第i個軌道對應的視角信息還包括圖像信息字段,所述圖像信息字段用於儲存所述第j個相機採集圖像的圖像信息,所述圖像信息包括以下至少一個:深度圖像降採樣的倍數因子、深度圖像 左上頂點相對於平面幀原點的偏移量或紋理圖像左上頂點相對於平面幀原點的偏移量,其中所述平面幀為所述深度圖像或紋理圖像對應的螢幕輸出畫面圖像。
  8. 如請求項2所述的方法,所述第i個軌道對應的視角信息還包括自定義相機參數字段、自定義相機參數類型字段以及自定義相機參數長度字段;所述自定義相機參數字段用於儲存所述第j個相機的第f個自定義相機參數,f為大於等於0且小於h的整數,h表示所述第j個相機的自定義相機參數的數量;所述自定義相機參數類型字段用於儲存所述第f個自定義相機參數所屬的參數類型;所述自定義相機參數長度字段用於儲存所述第f個自定義相機參數的長度。
  9. 如請求項1至8中任一項所述的方法,所述方法還包括:獲取所述沉浸媒體對應的信令描述文件,所述信令描述文件包括所述沉浸媒體對應的自由視角相機描述子,所述自由視角相機描述子用於記錄每個軌道內視訊片段對應的相機屬性信息,所述軌道內視訊片段是由所述軌道內包括的紋理圖像和深度圖像組成的;所述自由視角相機描述子被封裝於所述沉浸媒體的媒體呈現描述文件的自適應集層級中,或者所述信令描述文件被封裝於所述媒體呈現描述文件的表示層級中。
  10. 如請求項9所述的方法,所述獲取所述沉浸媒體的第i個軌道對應的自由視角信息數據盒,包括:基於所述自由視角相機描述子中記錄的每個軌道內視訊片段對應的相機屬性信息,從所述N個相機中選擇與用戶所在位置信息匹配的候選相機;向內容製作設備發送獲取來源於所述候選相機的分塊視訊的第一資源請求,所述第一資源請求用於指示所述內容製作設備根據所述M個軌道中每個軌道對應的自由視角信息數據盒中的視角信息,從所述M個軌道中選擇第i個軌 道並返回所述第i個軌道對應的自由視角信息數據盒,所述第i個軌道中封裝的紋理圖像和深度圖像中的至少一種來自所述候選相機;接收所述內容製作設備返回的所述第i個軌道對應的自由視角信息數據盒。
  11. 如請求項9所述的方法,所述獲取所述沉浸媒體的第i個軌道對應的自由視角信息數據盒,包括:基於所述信令描述文件和用戶帶寬向內容製作設備發送第二資源請求,所述第二資源請求用於指示所述內容製作設備返回所述M個軌道的M個自由視角信息數據盒,一個軌道對應一個自由視角信息數據盒;根據每個軌道對應的自由視角信息數據盒中的視角信息和用戶所在位置信息,從所述M個自由視角信息數據盒中獲取第i個軌道對應的自由視角信息數據盒。
  12. 一種媒體數據處理方法,所述方法由內容製作設備執行,所述方法包括:將沉浸媒體封裝到M個軌道中,所述沉浸媒體是由處於不同視角的N個相機拍攝的圖像組成的,一個軌道中封裝來自至少一個相機的圖像,所述M個軌道屬同一個軌道組,N和M均為大於或等於1的整數;根據第i個軌道中w個圖像的封裝過程,生成第i個軌道對應的自由視角信息數據盒,所述自由視角信息數據盒包括所述第i個軌道對應的視角信息;1
    Figure 111113334-A0305-02-0057-14
    i
    Figure 111113334-A0305-02-0057-15
    M,w
    Figure 111113334-A0305-02-0057-16
    1;其中,所述第i個軌道對應的自由視角信息數據盒包括自由視角軌道組信息,所述自由視角軌道組信息包括第一相機標識字段和圖像類型字段,所述圖像類型字段用於指示圖像類型,所述圖像類型包括紋理圖像、深度圖像、或是紋理圖像與深度圖像。
  13. 如請求項12所述的方法,所述根據第i個軌道內w個圖像的封裝過程生成所述第i個軌道對應的自由視角信息數據盒,包括:確定所述w個圖像來源於k個相機,k為大於1的整數;將所述k個相機中的第j個相機的標識信息儲存在所述第一相機標識字段中;根據所述第j個相機採集的圖像所屬圖像類型確定所述圖像類型字段,所述圖像類型包括深度圖像或紋理圖像中的至少一個。
  14. 如請求項13所述的方法,所述根據所述第j個相機採集的圖像所屬圖像類型確定所述圖像類型字段,包括:當所述第j個相機採集的圖像所屬圖像類型為紋理圖像,則將所述圖像類型字段設置為第二數值;當所述第j個相機採集的圖像所屬圖像類型為深度圖像,則將所述圖像類型字段設置為第三數值;當所述第j個相機採集的圖像所屬圖像類型為紋理圖像和深度圖像,則將所述圖像類型字段設置為第四數值。
  15. 如請求項12所述的方法,所述第i個軌道對應的視角信息包括視訊拼接布局指示字段,所述w個圖像包括紋理圖像和深度圖像,所述根據第i個軌道內w個圖像的封裝過程生成第i個軌道對應的自由視角信息數據盒,包括:如果所述第i個軌道內包含的紋理圖像和深度圖像是拼接編碼的,則將所述視訊布局指示字段設置為第一數值;如果所述i個軌道內包含的的紋理圖像和深度圖像是分別編碼的,則將所述視訊布局指示字段設置為第二數值。
  16. 如請求項15所述的方法,所述第i個軌道對應的視角信息還包括相機模型字段;所述根據第i個軌道內的w個圖像的封裝過程生成第i個軌道對應的自由視角信息數據盒,包括:當採集所述w個圖像的相機所屬的相機模型為第一模型時,將所述相機模型字段設置為第一數值;當採集所述w個圖像的相機所屬的相機模型為第二模型時,將所述相機模型字段設置為第二數值。
  17. 如請求項16所述的方法,所述第i個軌道對應的視角信息還包括紋理圖像的保護帶寬字段和深度圖像的保護帶寬字段,所述根據第i個軌道內w個圖像的封裝過程生成第i個軌道對應的自由視角信息數據盒,包括:獲取所述第i個軌道內在對紋理圖像進行編碼時採用的紋理圖像的保護帶寬度,並將所述紋理圖像的保戶帶寬度儲存在所述紋理圖像的保護帶寬度字段;獲取所述第i個軌道內在對深度圖像進行編碼時採用的深度圖像的保護帶寬度,並將所述深度圖像的保護帶寬度儲存在所述深度圖像的保護帶寬度字段。
  18. 如請求項17所述的方法,所述第i個軌道對應的視角信息還包括第二相機標識字段和相機屬性信息字段,所述根據第i個軌道內的w個圖像的封裝過程生成第i個軌道對應的自由視角信息數據盒,包括:將k個相機中第j個相機的標識信息儲存在所述第二相機標識字段,k表示所述w個圖像來源相機的數量;獲取所述第j個相機的相機屬性信息,並將獲取到的相機屬性信息儲存在所述相機屬性信息字段;所述第j個相機的相機屬性信息包括以下任意一種或多種:所述第j個相機位置的橫軸分量取值、縱軸分量取值以及竪軸分量取值,所述第j個相機焦距的 橫軸分量取值和縱軸分量取值,以及所述第j個相機採集圖像的分辨率寬度與高度。
  19. 如請求項18所述的方法,所述第i個軌道對應的視角信息還包括圖像信息字段,所述根據第i個軌道內的w個圖像的封裝過程生成第i個軌道對應的自由視角信息數據盒,包括:獲取所述第j個相機採集的圖像的圖像信息,並將獲取到的圖像信息儲存在所述圖像信息字段;其中,所述圖像信息包括如下一個或多個:深度圖像降採樣的倍數因子、深度圖像左上頂點相對於平面幀原點的偏移量、紋理圖像左上頂點相對於平面幀原點的偏移量,其中所述平面幀為所述深度圖像或紋理圖像對應的螢幕輸出畫面圖像。
  20. 如請求項19所述的方法,所述第i個軌道對應的視角信息還包括自定義相機參數字段、自定義相機參數類型字段以及自定義相機參數長度字段;所述根據第i個軌道內的w個圖像的封裝過程生成第i個軌道對應的自由視角信息數據盒,包括:獲取第f個自定義相機參數,並將所述第f個自定義相機參數儲存在所述自定義相機參數字段,f為大於等於0且小於h的整數,h表示所述第j個相機的自定義相機參數的數量;確定所述第f個自定義相機參數所屬的參數類型以及所述第f個自定義相機參數的長度,將所述第f個自定義相機參數所屬的參數類型儲存在所述自定義相機參數類型字段,以及將所述第f個自定義相機參數的長度儲存在所述自定義相機參數長度字段。
  21. 如請求項12至20中任一項所述的方法,所述方法還包括:生成所述沉浸媒體對應的信令描述文件,所述信令描述文件包括所述沉浸媒體對應的自由視角相機描述子,所述自由視角相機描述子用於記錄每個軌道 內視訊片段對應的相機屬性信息,任一軌道內視訊片段是由所述任一軌道內封裝的圖像組成的;所述自由視角相機描述子被封裝於所述沉浸媒體的媒體呈現描述文件的自適應集層級中,或者所述信令描述文件被封裝於所述媒體呈現描述文件的表示層級中。
  22. 如請求項21所述的方法,所述方法還包括:將所述信令描述文件發送至內容消費設備,以指示所述內容消費設備基於所述自由視角相機描述子中記錄的每個軌道內視訊片段對應的相機屬性信息,從所述多個相機中選擇與用戶所在位置匹配的候選相機,以及發送獲取來源於所述候選相機的分塊視訊的第一資源請求;響應於所述第一資源請求,根據所述M個軌道中每個軌道對應的自由視角信息數據盒中的視角信息從所述M個軌道中選擇第i個軌道並將所述i個軌道對應的自由視角信息數據盒發送至所述內容消費設備。
  23. 如請求項21所述的方法,所述方法還包括:將所述信令描述文件發送至內容消費設備,以指示所述內容消費設備根據所述信令描述文件和用戶帶寬發送第二資源請求;響應於所述第二資源請求,將所述M個軌道對應的M個自由視角信息數據盒發送至所述內容消費設備,以指示所述內容消費設備根據每個軌道對應的自由視角信息數據盒中的視角信息和用戶所在位置信息,從所述M個自由視角信息數據盒中獲取第i個軌道對應的自由視角信息數據盒。
  24. 一種沉浸媒體的數據處理裝置,所述沉浸媒體是由處於不同視角的N個相機拍攝的圖像組成,所述沉浸媒體被封裝到M個軌道,一個軌道中封裝來自至少一個相機的圖像,N和M均為大於1的整數;所述裝置包括: 獲取單元,用於獲取所述沉浸媒體的第i個軌道對應的自由視角信息數據盒,所述自由視角信息數據盒包括所述第i個軌道對應的視角信息,i為大於或等於1,且小於或等於M的整數;處理單元,用於根據所述自由視角信息數據盒中的視角信息對所述第i個軌道內封裝的圖像進行解碼;其中,所述第i個軌道內還封裝了所述第i個軌道對應的自由視角軌道組信息,所述自由視角軌道組信息用於指示所述第i個軌道與封裝所述沉浸媒體的其他軌道屬同一個軌道組;所述自由視角軌道組信息包括第一相機標識字段和圖像類型字段,所述圖像類型字段用於指示圖像類型,所述圖像類型包括紋理圖像、深度圖像、或是紋理圖像與深度圖像。
  25. 一種沉浸媒體的數據處理裝置,包括:封裝單元,用於將所述沉浸媒體封裝到M個軌道中,所述沉浸媒體是由處於不同視角的N個相機拍攝的圖像組成的,一個軌道中封裝來自至少一個相機的圖像,所述M個軌道屬同一個軌道組,N和M均為大於或等於1的整數;生成單元,用於根據第i個軌道中w個圖像的封裝過程,生成第i個軌道對應的自由視角信息數據盒,所述自由視角信息數據盒包括所述第i個軌道對應的視角信息;1
    Figure 111113334-A0305-02-0062-17
    i
    Figure 111113334-A0305-02-0062-18
    M,w
    Figure 111113334-A0305-02-0062-19
    1;其中,所述第i個軌道內還封裝了所述第i個軌道對應的自由視角軌道組信息,所述自由視角軌道組信息用於指示所述第i個軌道與封裝所述沉浸媒體的其他軌道屬同一個軌道組;所述自由視角軌道組信息包括第一相機標識字段和圖像類型字段,所述圖像類型字段用於指示圖像類型,所述圖像類型包括紋理圖像、深度圖像、或是紋理圖像與深度圖像。
  26. 一種計算機設備,包括:處理器,適於實現一條或多條計算機程式;以及 計算機儲存媒介,所述計算機儲存媒介儲存有一條或多條計算機程式,所述一條或計算機程式程式適於由處理器加載並執行如請求項1至23中任一項所述的方法。
  27. 一種計算機儲存媒介,所述計算機儲存媒介中儲存有第一計算機程式程式和第二計算機程式,所述第一計算機程式被處理器執行時,用於執行如請求項1-11任一項所述的沉浸媒體的數據處理方法;所述第二計算機程式被處理器執行時,用於執行如請求項12-23任一項所述的沉浸媒體的數據處理方法。
  28. 一種包括指令的計算機程式產品,當其在計算機上運行時,使得所述計算機執行請求項1至23中任一項所述的方法。
TW111113334A 2021-06-11 2022-04-07 沉浸媒體的數據處理方法、裝置、相關設備及儲存媒介 TWI796989B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110659190.8 2021-06-11
CN202110659190.8A CN115474034B (zh) 2021-06-11 2021-06-11 沉浸媒体的数据处理方法、装置、相关设备及存储介质

Publications (2)

Publication Number Publication Date
TW202249496A TW202249496A (zh) 2022-12-16
TWI796989B true TWI796989B (zh) 2023-03-21

Family

ID=84363490

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111113334A TWI796989B (zh) 2021-06-11 2022-04-07 沉浸媒體的數據處理方法、裝置、相關設備及儲存媒介

Country Status (4)

Country Link
US (1) US20230088144A1 (zh)
CN (1) CN115474034B (zh)
TW (1) TWI796989B (zh)
WO (1) WO2022257518A1 (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170076429A1 (en) * 2015-09-16 2017-03-16 Google Inc. General spherical capture methods
US20190238887A1 (en) * 2016-09-01 2019-08-01 Nokia Technologies Oy Determining Inter-View Prediction Areas in Images Captured with a Multi-Camera Device
WO2019193251A1 (en) * 2018-04-06 2019-10-10 Nokia Technologies Oy Method and apparatus for signaling of viewing extents and viewing space for omnidirectional content
TW201946464A (zh) * 2018-04-12 2019-12-01 新加坡商 聯發科技(新加坡)私人有限公司 用於提供二維空間關係的方法以及裝置
CN110771162A (zh) * 2017-06-23 2020-02-07 联发科技股份有限公司 用轨道分组获取合成轨道之方法及装置
CN110784703A (zh) * 2018-07-31 2020-02-11 英特尔公司 计算环境中的视频流播的视点预测和点云的自适应分辨率
US20200410638A1 (en) * 2019-06-27 2020-12-31 Electronics And Telecommunications Research Institute Apparatus and method for synthesizing virtual viewpoint images

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100128112A1 (en) * 2008-11-26 2010-05-27 Samsung Electronics Co., Ltd Immersive display system for interacting with three-dimensional content
CN111264058B (zh) * 2017-09-15 2024-06-14 交互数字Vc控股公司 用于对三自由度和体积兼容视频流进行编码和解码的方法、设备
US11856181B2 (en) * 2017-09-28 2023-12-26 Lg Electronics Inc. Method and device for transmitting or receiving 6DoF video using stitching and re-projection related metadata
CN112492289A (zh) * 2020-06-23 2021-03-12 中兴通讯股份有限公司 沉浸媒体数据的处理方法及装置、存储介质和电子装置
CN112804256B (zh) * 2021-02-09 2022-05-24 腾讯科技(深圳)有限公司 多媒体文件中轨道数据的处理方法、装置、介质及设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170076429A1 (en) * 2015-09-16 2017-03-16 Google Inc. General spherical capture methods
US20190238887A1 (en) * 2016-09-01 2019-08-01 Nokia Technologies Oy Determining Inter-View Prediction Areas in Images Captured with a Multi-Camera Device
CN110771162A (zh) * 2017-06-23 2020-02-07 联发科技股份有限公司 用轨道分组获取合成轨道之方法及装置
WO2019193251A1 (en) * 2018-04-06 2019-10-10 Nokia Technologies Oy Method and apparatus for signaling of viewing extents and viewing space for omnidirectional content
TW201946464A (zh) * 2018-04-12 2019-12-01 新加坡商 聯發科技(新加坡)私人有限公司 用於提供二維空間關係的方法以及裝置
CN110784703A (zh) * 2018-07-31 2020-02-11 英特尔公司 计算环境中的视频流播的视点预测和点云的自适应分辨率
US20200410638A1 (en) * 2019-06-27 2020-12-31 Electronics And Telecommunications Research Institute Apparatus and method for synthesizing virtual viewpoint images

Also Published As

Publication number Publication date
TW202249496A (zh) 2022-12-16
US20230088144A1 (en) 2023-03-23
CN115474034B (zh) 2024-04-26
CN115474034A (zh) 2022-12-13
WO2022257518A1 (zh) 2022-12-15

Similar Documents

Publication Publication Date Title
TW201840178A (zh) 適應性擾動立方體之地圖投影
CN113891117B (zh) 沉浸媒体的数据处理方法、装置、设备及可读存储介质
US12010402B2 (en) Data processing for immersive media
CN114189697B (zh) 一种视频数据处理方法、装置以及可读存储介质
CN113852829A (zh) 点云媒体文件的封装与解封装方法、装置及存储介质
CN115396647B (zh) 一种沉浸媒体的数据处理方法、装置、设备及存储介质
CN115428416B (zh) 流媒体传输的方法和相关装置
JP7471731B2 (ja) メディアファイルのカプセル化方法、メディアファイルのカプセル化解除方法及び関連機器
US20240179203A1 (en) Reference of neural network model by immersive media for adaptation of media for streaming to heterogenous client end-points
WO2022116822A1 (zh) 沉浸式媒体的数据处理方法、装置和计算机可读存储介质
TWI796989B (zh) 沉浸媒體的數據處理方法、裝置、相關設備及儲存媒介
CN115733576B (zh) 点云媒体文件的封装与解封装方法、装置及存储介质
CN116456166A (zh) 媒体数据的数据处理方法及相关设备
WO2021244116A1 (zh) 沉浸媒体的数据处理方法、装置、设备及存储介质
WO2023016293A1 (zh) 自由视角视频的文件封装方法、装置、设备及存储介质
CN115102932B (zh) 点云媒体的数据处理方法、装置、设备、存储介质及产品
CN116643643A (zh) 一种沉浸媒体的数据处理方法、装置、设备及存储介质
CN113497928A (zh) 一种沉浸媒体的数据处理方法及相关设备
CN116643644A (zh) 一种沉浸媒体的数据处理方法、装置、设备及存储介质
CN116781676A (zh) 一种点云媒体的数据处理方法、装置、设备及介质
CN116781675A (zh) 一种点云媒体的数据处理方法、装置、设备及介质