TWI672947B - 用於推導複合軌的方法和裝置 - Google Patents

用於推導複合軌的方法和裝置 Download PDF

Info

Publication number
TWI672947B
TWI672947B TW107100915A TW107100915A TWI672947B TW I672947 B TWI672947 B TW I672947B TW 107100915 A TW107100915 A TW 107100915A TW 107100915 A TW107100915 A TW 107100915A TW I672947 B TWI672947 B TW I672947B
Authority
TW
Taiwan
Prior art keywords
composite
track
base
box
tracks
Prior art date
Application number
TW107100915A
Other languages
English (en)
Other versions
TW201832567A (zh
Inventor
新 王
柏霖 賴
魯林 陳
杉 劉
Original Assignee
聯發科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 聯發科技股份有限公司 filed Critical 聯發科技股份有限公司
Publication of TW201832567A publication Critical patent/TW201832567A/zh
Application granted granted Critical
Publication of TWI672947B publication Critical patent/TWI672947B/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/1883Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit relating to sub-band structure, e.g. hierarchical level, directional tree, e.g. low-high [LH], high-low [HL], high-high [HH]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本發明提供了一種用於推導複合軌的方法和裝置。所公開的裝置包括處理電路。處理電路用於生成包括分別用於複數個基本軌的複數個基本軌盒的文檔。每個基本軌盒按時間順序對形成每個基本軌的複數個媒體樣本的序列進行索引。處理電路用於構建複合軌的複合軌盒。複合軌盒標識一個或多個基本軌,以及基於一個或多個基本軌形成複合軌的複合操作。處理電路進一步用於基於複合軌來生成媒體呈現。

Description

用於推導複合軌的方法和裝置 【相關申請的交叉引用】
本申請的申請專利範圍要求如下申請的優先權:2017年01月11日提出的名稱為"Method and Apparatus of Deriving Composite Tracks in ISOBMFF"的申請號為62/444,882的美國臨時案,在此合併參考上述申請案的申請標的。
本發明描述了一般涉及視訊編解碼的方法和裝置的實施例,更具體地涉及包括全向、視訊編解碼技術的多軌虛擬現實。
此處提供的先前技術描述用作一般呈現本發明的內容的目的。目前署名發明人的工作內容,既包含在本先前技術部分中所描述的工作的內容,也包含在申請時未被認為是先前技術的說明書的各方面,這些既不明確也不暗示地被承認是本發明的先前技術。
虛擬現實(virtual reality,VR)視訊,例如全向視訊/360度視訊,可以被呈現以提供特殊的用戶體驗。例如,在虛擬現實(VR)應用中,電腦技術創建複製現實環境的現實圖像、聲音以及其他感覺,或者創建想像的環境,這樣用戶 可以在環境中獲得模擬VR視頻體驗。
本發明提供了一種包括處理電路的設備。處理電路用於生成包括分別用於複數個基本軌的複數個基本軌盒的文檔;每個基本軌盒按照時間順序對形成每個基本軌的複數個媒體樣本的序列進行索引。處理電路用於構建用於複合軌的複合軌盒,複合軌盒標識一個或多個基本軌、以及基於一個或多個基本軌形成複合軌的複合操作。處理電路進一步用於根據複合軌生成媒體呈現。
在一個示例中,處理電路用於構建複合軌盒以標識在軌級選擇其中一個基本軌以形成複合軌的複合操作。在另一個示例中,處理電路用於構建複合軌盒以標識在樣本級或樣本組級選擇其中一個基本軌以形成複合軌的複合操作。在另一個示例中,處理電路用於構建複合軌盒以標識選擇一個或多個基本軌以形成複合軌的複合操作。
在一個實施例中,處理電路用於為具有層次結構的複合軌構建複合軌盒。
根據本發明的一個方面,將標識的該一個或多個基本軌的全局資訊包含到該複合軌盒中。
在一個實施例中,接收與複合操作相關聯的複合變量的值;並根據複合操作和值構建基於基本軌的媒體串流。
本發明提供了一種用於處理媒體資料的方法。方法包括生成包括分別用於複數個基本軌的複數個基本軌盒的文檔;在每個基本軌盒中按時間順序對形成每個基本軌的複數 個媒體樣本的序列進行索引;構建複合軌的複合軌盒;複合軌盒中標識一個或多個基本軌以及基於一個或多個基本軌形成複合軌的複合操作;以及基於複合軌生成媒體呈現。
本發明提供一種非暫時性計算機可讀介質儲存,用於使處理器執行用於處理媒體資料的操作的程式指令。這些操作包括生成包括分別用於複數個基本軌的複數個基本軌盒的文檔;在每個基本軌盒中按時間順序對形成每個基本軌的複數個媒體樣本的序列進行索引;構建複合軌的複合軌盒;複合軌盒中識別一個或多個基本軌以及基於一個或多個基本軌形成複合軌的複合操作;以及基於複合軌生成媒體呈現。
本發明的各方面提供了包括處理電路的另一裝置。處理電路用於接收文檔,文檔包括分別用於複數個基本軌的複數個基本軌盒和用於複合軌的至少一個複合軌盒。每個基本軌盒按時間順序對形成每個基本軌的複數個媒體樣本的序列進行索引。複合軌盒標識一個或多個基本軌,以及基於一個或多個基本軌和複合變量導出複合軌的複合操作。處理電路用於接收與複合操作相關聯的複合變量的值,並且根據複合操作和值構建基於基本軌的媒體串流。
本發明的各方面還提供了一種用於處理媒體資料的方法。方法包括接收文檔,文檔包括分別用於複數個基本軌的複數個基本軌盒和用於複合軌的至少一個複合軌盒。每個基本軌盒按時間順序對形成每個基本軌的複數個媒體樣本的序列進行索引。複合軌盒標識一個或多個基本軌,以及基於一個或多個基本軌和複合變量導出複合軌的複合操作。方法還包括 接收與複合操作相關的複合變量的值,並根據複合操作和值構建基於基本軌的媒體串流。
100‧‧‧媒體系統
110‧‧‧源子系統
111‧‧‧介面電路
112‧‧‧獲取設備
115‧‧‧記憶體
120‧‧‧處理電路
130‧‧‧文檔生成模組(用於形成複合軌)
150‧‧‧傳輸子系統
140‧‧‧HTTP服務器
141‧‧‧記憶體
142‧‧‧帶有複合軌的文檔
160‧‧‧呈現子系統
161‧‧‧介面電路
165‧‧‧顯示設備
170‧‧‧處理電路
180‧‧‧處理模組
190‧‧‧圖像生成模組
200‧‧‧文檔
210‧‧‧文檔類型盒
220‧‧‧電影盒
230‧‧‧基本軌盒
240、250‧‧‧複合軌盒
290‧‧‧媒體資料盒
300‧‧‧示意圖
320‧‧‧基本軌
330、340、351、352‧‧‧複合軌
390‧‧‧視訊資料
400‧‧‧流程示例
S401、S402、S403、S404‧‧‧流程
將結合下面的圖式對被提供作為示例的本發明的各種實施例進行詳細描述,其中相同的符號表示相同的元件,以及其中:第1圖是根據本發明一實施例的媒體系統100的方盒圖;第2圖是根據本發明一實施例的媒體文檔(media file)200的示意圖;第3圖是根據本發明一實施例的導出複合軌的示意圖;以及第4圖是根據本發明一實施例的流程示例400的流程示意圖。
虛擬現實(Virtual reality,VR)內容,尤其是全向視訊/360視訊內容,可以被表示為隨著時間變化的複數個媒體串流。當以諸如ISO基本媒體文檔格式(ISO base media file format,ISOBMFF)的文檔格式表示或被獲取時,媒體串流被稱為軌。在一些實施例中,軌包括按時間順序的圖像樣本序列,並且該圖像樣本序列與VR環境中的子區域(也被稱為圖像塊(tile),分區,子圖片)相關。因此,複數個軌分別與VR環境中的複數個子區域相關。在各種VR視訊應用中,內容被請求並作為一組軌來傳輸。在相關技術中,軌被單獨標記 以標識(identify)對應於組的成員身份(membership)。在相關技術中,由於需要查看單個軌以找到標識組的成員身份的標籤,因此成員身份確定可能是低效的。本發明的各方面提供了構建複合軌道(composite tracks)的技術,其中每個複合軌道是複數個軌道的複合。因此,用於一組軌道的諸如公共屬性和元資料(metadata)、組成員身份等等的全局資訊可以被包括在複合軌中或與複合軌相關。然後使用複合軌來促進媒體呈現、內容請求等等。
第1圖是根據本發明一實施例的媒體系統100的方盒圖。媒體系統100包括耦接在一起的源子系統110、傳輸子系統150和呈現(rendering)子系統160。源子系統110用於獲取用於VR視訊的媒體資料,並適當地封裝媒體資料。傳輸子系統150用於將來自源子系統110的已封裝的媒體資料傳輸到呈現子系統160。呈現子系統160用於根據媒體資料呈現VR視訊。
根據本發明的一個方面,源子系統110將媒體資料構建為一個或多個基本軌,並且每個基本軌是基於樣本序列按照時間順序形成的。在一個實施例中,源子系統110根據諸如空間分區、圖像質量、加密模式等等特定屬性將圖像/視訊資料構建為基本軌。此外,源子系統110基於基本軌構建複合軌。在一些實施例中,除了在複合軌被指定和表明時確定的潛在靜態參數之外,複合軌是具有可變參數的虛擬軌。在媒體處理流程中,複合軌可用於虛擬表示具有可變參數的媒體串流。當可變參數被確定時,例如在媒體傳輸或消費時,可以基於複 合軌和所確定的可變參數來生成真實媒體串流。
在一個示例中,複合軌被構建為對應於不同空間分區的基本軌的複合。因此,複合軌是由具有可變的空間區域的基本軌形成的媒體串流的虛擬表示。當例如在傳輸或消費時確定空間區域時,可基於複合軌和確定的空間區域生成真實媒體串流。
在另一個示例中,複合軌被構建為對應於不同圖像質量的基本軌的複合。因此,複合軌是由具有可變的圖像質量的基本軌形成的媒體串流的虛擬表示。在一個實施例中,VR內容由網路傳輸,並且不同圖像質量的VR內容在不同網路流量狀態下傳輸。在傳輸時,基於當時的網路流量狀態確定圖像質量,並且可以基於複合軌和圖像質量要求來生成真實媒體串流。
在另一個示例中,複合軌被構建為對應於不同加密模式的基本軌的複合。因此,複合軌是由具有可變的加密模式的基本軌形成的媒體串流的虛擬表示。當例如基於安全需求確定加密模式時,可以基於複合軌和安全需求來生成真實媒體串流。
源子系統110可以基於多級(multiple levels)可變參數來構建具有層次結構(hierarchy)的複合軌。例如,源子系統110可以基於以圖像質量作為可變量的基本軌來構建第一級複合軌。然後,源子系統110可以基於以加密模式作為可變量的第一級(first level)複合軌來構建第二級複合軌。進一步,源子系統110可以基於以空間區域作為可變量的第二級複 合軌來構建第三級複合軌。
根據本發明的一個方面,源子系統110將基本軌分級地分組成一個或多個複合軌。進一步,源子系統110包括分級地位於複合軌中的全局資訊、組資訊和成員身份資訊。因此,可以從複合軌中提取全局資訊、組資訊和成員身份資訊。通過複合軌的層次結構和基本軌,當確定可變參數時,可以按照層次結構構建真實的媒體串流。
源子系統110可以使用任何合適的技術來實現。在一個示例中,源子系統110的組件被組裝在設備包中。在另一個示例中,源子系統110是分散式系統,源子系統110的組件可以被設置在不同的位置,並且適當地耦接在一起,例如,通過有線連接(例如電纜)和/或無線連接(例如無線信道)。
在第1圖的示例中,源子系統110包括耦接在一起的獲取設備112、處理電路120、記憶體115以及介面電路111。
獲取設備112用於獲取各種媒體資料,如全向視訊/360視訊的圖像、聲音等。獲取設備112可以具有任何適當的設置。在一個示例中,獲取設備112包括具有複數個攝像機的攝像設備(未示出),如具有兩個魚眼(fisheye)攝像機的成像系統、具有四個攝像機的四面體成像系統、具有六個攝像機的立體成像系統、具有八個攝像機的八面成像系統、具有二十個攝像機的二十面成像系統等等,其用於拍攝環繞空間內的各個方向的圖像。
在一個實施例中,由複數個攝像機拍攝的圖像是 重疊的,且可以被拼接(stitch),以提供比單個攝像機更大覆蓋的環繞空間。在一個示例中,由複數個攝像機拍攝的圖像可以提供整個環繞空間的360°球面覆蓋。應注意,由複數個攝像機拍攝的圖像可以提供環繞空間的小於360°球面覆蓋。
可以適當地將獲取設備112所獲取的媒體資料進行儲存或者緩存,例如,在記憶體115內。處理電路120可以存取記憶體115、處理媒體資料以及以合適的格式封裝媒體資料。然後,將已封裝的媒體資料進行儲存或者緩存,例如,在記憶體115內。
在一個實施例中,處理電路120包括音訊處理路徑,其用於處理音訊資料,並且包括圖像/視訊處理路徑,其用於處理圖像/視訊資料。處理電路120然後根據合適的格式封裝具有元資料的音訊、圖像和視訊資料。
在本發明中,圖像和視訊資料被用作示例來說明用於複合軌構建的技術。這些技術可以適用於其他媒體資料,例如音頻資料等等。
在一個示例中,在圖像/視訊處理路徑上,處理電路120可以將由不同攝像機拍攝的圖像拼接在一起以形成拼接圖像,諸如全向圖像等等。然後,處理電路120可以根據合適的二維(2D)平面來投影全向圖像,以將全向圖像轉換為可以使用2D編碼技術編碼的2D圖像。然後,處理電路120可以適當地對圖像和/或圖像串流進行編碼。
應注意,處理電路120可以根據任意合適的投影技術來投影全向圖像。在一個示例中,處理電路120可以使用 等矩形投影(equirectangular projection,ERP)來投影全向圖像。ERP投影以一種與將地球表面投影到地圖上的方式相似的方式將球面(sphere surface),例如全向圖像,投影到矩形平面,例如2D圖像。在一個示例中,球面(例如地球表面)使用偏航(yaw)(例如經度)和俯仰(pitch)(例如緯度)的球面坐標系統,並且矩形平面使用XY坐標系統。在投影中,將偏航圈(yaw circle)變換為垂直線,將俯仰圈(pitch circle)變換為水平線,偏航圈和俯仰圈在球面坐標系統中是正交的,垂直線和水平線在XY坐標系統中是正交的。
在另一個實施例中,處理電路120可以將全向圖像投影到多面體(platonic solid)的複數個面,例如,四面體、立方體、八面體、二十面體等等。可以分別重新排列已投影的面,例如旋轉、重新定位(relocated),以在形成2D圖像。然後編碼該2D圖像。
應注意,在一個實施例中,處理電路120可以編碼由不同攝像機拍攝的複數個圖像,並且對複數個圖像不執行拼接操作和/或投影操作。
根據本發明的一個方面,處理電路120用於將全向視訊/360視訊的媒體資料封裝到複數個基本軌中,並將複合軌構建為複數個基本軌的邏輯和/或空間複合(composition)。
在一個實施例中,球面(或其投影版本)可以在空間上分成複數個分區(也稱為子圖片,分區,圖像塊)。處理電路120可以基於分區的圖像樣本的有時序列(timed sequence)來形成基本軌。因此,球面的視訊內容被構建成分別對應於複數個分區的複數個基本軌。在一個示例中,當球面被劃分成四個分區時,球面的視訊內容被構建成四個基本軌。在一個示例中,處理電路120形成作為所有四個基本軌的空間複合的複合軌。複合軌對應於球面的視訊內容。四個基本軌是複合軌的成員。因此,可以在複合軌而不是單個基本軌中定義諸如公共屬性和元資料的全局資訊以及成員身份資訊。在本發明中,所有基本軌的空間複合(或較低級的複合軌)被稱為“複合全部”操作或“cmpa”。
在一個示例中,在引導的視點示例中使用“複合全部”操作(“cmpa”)。在引導的視點示例中,視點隨時間而變化,以提供引導的視覺體驗。該視點在不同時間對應於球面的不同分區(例如,通過分區到視點的成員身份)。在一個示例中,基於對應於分區的基本軌的“複合全部”操作(“cmpa”)構建複合軌。基本軌到視點的成員身份可以在複合軌中而不是單個基本軌中被標識。因此,在與視點相對應的內容傳輸時,可基於複合軌中的成員身份資訊來確定用於傳輸的基本軌。
在另一個實施例中,球面的視訊內容被編碼成具有不同圖像質量的複數個基本軌。在一個示例中,以相對高的圖像質量來編碼球面的視訊內容以構建第一基本軌,並且以相對低的圖像質量來編碼球面的視訊內容以構建第二基本軌。在一個示例中,處理電路120在樣本或樣本組級形成複合軌,其作為第一基本軌和第二基本軌的邏輯複合。複合軌被定義為具有可變的圖像質量的第一基本軌和第二基本軌中一個的樣本 級或樣本組級的邏輯複合,且可以在同一樣本級或同一樣本組級的第一基本軌和第二基本軌之間切換。在本發明中,複數個基本軌中的一個的樣本級或樣本組級邏輯複合(或較低級的複合軌)成被稱為“僅複合一個”操作或“cmp1”。
在一個示例中,在HTTP(DASH)示例上的動態自適應串流中使用“僅複合一個”操作。在DASH示例中,複合軌用於表示圖像質量是可變的球面的視訊內容。在內容傳輸期間,圖像質量可以基於可用網路帶寬來確定,因此動態地選擇第一基本軌(例如,具有高質量圖像)和第二基本軌(例如,具有低質量圖像)中的一個,並且提供給呈現子系統160。例如,最初,當可用網路帶寬資訊不可用時,選擇第二基本軌以確保初始傳輸。當可用網路帶寬資訊可用,並且可用網路帶寬足以傳輸高質量圖像時,選擇第一基本軌以改善圖像質量。但是,當網路擁塞時,可用的網路帶寬不足以傳輸高質量圖像,然後選擇第二基本軌進行傳輸。
在另一個示例中,根據不同的加密模式對球面的視訊內容進行加密。在一個示例中,根據諸如高級加密標準(advanced encryption standard,AES)密碼塊鏈接(cipher block chaining,CBC)模式的第一加密模式,在視訊編解碼之前對球面的視訊內容進行加密以構建第一基本軌;並且根據諸如AES計數器(counter,CTR)模式的第二加密模式,在視訊編解碼之後加密球面的視訊內容以構建第二基本軌。在一個示例中,處理電路120形成複合軌,該複合軌是具有可變的加密模式的第一基本軌和第二基本軌之一的軌級邏輯複合。複合軌被 定義為第一基本軌和第二基本軌的軌級邏輯複合,並且可以在軌級的第一基本軌和第二基本軌之間切換。在本發明中,複數個基本軌之一的軌級邏輯複合(或較低級的複合軌)成被稱為“僅選擇一個”操作或“sel1”。
在一個示例中,“僅選擇一個”操作用於適應不同的安全要求。基於目標設備的加密模式要求,選擇第一基本軌和第二基本軌中的一個,並將其提供給呈現子系統160。例如,當視訊內容傳輸需要AES CBC模式時,選擇第一基本軌並將其提供給呈現子系統160;並且當視訊內容傳輸需要AES CTR模式時,選擇第二基本軌並將其提供給呈現子系統160。
注意到,可以基於複數個變量(例如空間分區、圖像質量、加密模式等等)將球面的視訊內容構建成複數個基本軌。然後,可以通過在分級方式中的複數個複合操作從複數個基本軌推導出複合軌,這將參照第2圖和第3圖進一步討論。
注意到,可以使用各種技術將球面劃分為複數個分區。在一個示例中,ERP投影將球面投影到矩形平面上,並且矩形平面被分成複數個分區(也稱為“子圖像”)。
在另一個實例中,柏拉圖立體投影(platonic solid projection)將球面投影到柏拉圖立體的面(即分區)中。在這個示例中,根據柏拉圖立體的面劃分球面。
在另一個示例中,複數個攝像機用於在場景的不同方向上拍攝圖像。在該示例中,場景根據攝像機的視野分區。
根據本發明的一個方面,處理電路120包括文檔生成模組130,其用於將基本軌、複合軌封裝在文檔中。在一 個實施例中,處理電路120用於使用諸如ISO基本媒體文檔格式(ISO base media file format,ISOBMFF)等等的可擴展格式標準以用於基於時間的媒體,諸如視訊和/或音頻等等。在一個示例中,ISO基本媒體文檔格式定義了基於時間的多媒體文檔的通用結構,並且靈活且可擴展,以便於媒體的交換、管理、編輯和呈現。ISO基礎媒體文檔格式與特定的網路協議無關,並且一般可以支持各種網路協議。因此,在一個示例中,基於ISO基本媒體文檔格式中的文檔的呈現可以通過網路或通過其他串流傳輸機制在本地呈現。
通常,媒體呈現可以被包含在一個或多個文檔中。一個或多個文檔的一個特定文檔包括用於媒體呈現的元資料,並且根據諸如ISO基本媒體文檔格式之類的文檔格式進行格式化。該特定文檔還可以包括媒體資料。當媒體呈現包含在複數個文檔中時,其他文檔可以包含媒體資料。在一個實施例中,元資料被用於通過參考媒體資料來描述媒體資料。因此,在一個示例中,媒體資料以與任何協議不可知的狀態儲存。相同的媒體資料可用於本地呈現、多種協議等等。媒體資料可以按照或不按順序儲存。
ISO基本媒體文檔格式包括複數個盒(box)的特定集合。這些盒是邏輯容器。複數個盒包括保存從媒體內容和媒體內容架構推導出的參數的描述符(descriptor)。媒體被封裝在盒的層次結構中。一個盒是由唯一類型標識符(unique type identifier)定義的對象導向的構建區塊(object-oriented building block)。
在一個示例中,媒體內容的呈現被稱為電影,並被劃分為在時間上平行的複數個軌。每個軌表示媒體內容的樣本的有時序列。媒體內容,例如圖盒等等,由存取單元儲存和存取。存取單元被定義為基本串流內的資料的最小單獨可存取部分,並且唯一有時資訊可以被歸因於每個存取單元。在一個實施例中,存取單元可以以整個或細分地打包的任何序列和/或任何分組進行物理地儲存。ISO基本媒體文檔格式使用這些盒,參考儲存單元的字節位置將存取單元映射到樣本串流。在一個示例中,樣本資訊允許存取單元在時間線上被同步解碼和呈現,而不管儲存如何。
根據本發明的一方面,處理電路120用於包括複合軌的複合資訊作為其元資料。在一個示例中,處理電路120使用軌盒來包括用於軌(例如,基本軌、複合軌)的元資料。例如,處理電路120使用複數個基本軌盒來分別包括複數個基本軌的元資料,並且使用複數個複合軌盒來分別包括複數個複合軌的元資料。處理電路120可以包括對軌的元資料中的諸如空間分區、邏輯和/或空間複合的屬性的描述。例如,處理電路120可以為複合軌生成複合軌盒。複合軌盒包括輸入軌(例如基本軌,或較低級的複合軌)的參考(或標識符),並且包括變換屬性以定義複合操作以基於輸入軌構建複合軌。複合操作可以是任何合適的複合操作,例如“複合全部”操作(“cmpa”)、“僅複合一個”操作(“cmp1”)、“複合任何”操作(“cmpn”)、“僅選擇一個”操作(“sel1”)、“選擇任何”操作(“seln”)、縮放操作(“scal”)、調整大小操作(“resz”)等。 附錄A中給出了複合操作的定義、語法和語義。
注意到,可以以類似的方式定義其他合適的複合操作。
在一個實施例中,處理電路120使用一個或多個處理器來實現,並且該一個或多個處理器用於執行軟體指令以執行媒體資料處理。在另一個實施例中,處理電路120使用積體電路來實現。
在第1圖的示例中,已封裝的媒體資料通過介面電路111提供給傳輸子系統150。傳輸子系統150用於適當地將媒體資料提供給客戶端設備,諸如呈現子系統160。
在一個實施例中,傳輸子系統150包括各種網路元件,諸如路由器、網路交換機,基站,接入點等等,以在源子系統110和呈現子系統160之間形成傳輸路徑。在一個示例中,源子系統110通過傳輸子系統150將包括複合軌的媒體呈現發送到呈現子系統160。複合軌由對應於球面(具有可變的子圖片區域)的不同分區的基本軌組成。呈現子系統160通過傳輸子系統150將視點資訊發信給源子系統110。視點資訊表明由呈現子系統160請求的子圖片。基於視點資訊和在內容傳輸和/或消費時的其他合適的環境資訊,諸如可用帶寬、安全要求、加密模式、媒體串流中的持續時間等等,處理電路120執行準時處理。例如,處理電路120基於視點資訊選擇合適的基本軌,基於持續時間選擇合適的圖像樣本,並基於可用帶寬和加密模式要求對選擇的圖像樣本進行編解碼和/或加密以生成封包。傳輸子系統150將封包傳輸給呈現子系統160。然後 呈現子系統160對封包進行解碼和/或解密以重構用於顯示的圖像樣本。
在另一個實施例中,傳輸系統150包括具有記憶體141的超文本傳輸協議(hypertext transfer protocol,HTTP)服務器140。記憶體141儲存包括將複合軌的複合資訊作為其元資料的文檔142。HTTP服務器140用於根據HTTP協議將複合軌提供給呈現系統,諸如呈現子系統160。傳輸系統150的組件適當地通過有線和/或無線連接耦接在一起。傳輸系統150通過有線和/或無線連接適當地與源子系統110和呈現子系統160耦接。
呈現子系統160可以使用任何合適的技術來實現。在一個示例中,呈現子系統160的組件被組裝在設備封裝中。在另一個示例中,呈現子系統160是分散式系統,源子系統110的組件可以位於不同位置,並且適當地通過有線連接和/或無線連接耦接在一起。
在第1圖的示例中,呈現子系統160包括耦接在一起的介面電路161、處理電路170和顯示設備165。介面電路161用於通過任何適當的通訊協議適當地接收媒體資訊,諸如媒體呈現文檔,媒體串流等等。
處理電路170用於處理媒體資訊並生成供顯示設備165呈現給一個或多個用戶的圖像。顯示設備165可以是任何合適的顯示器,例如電視機、智慧電話、可佩帶顯示器、頭戴式裝置等等。
在一個示例中,處理電路170包括處理模組180 和圖像生成模組190。處理模組180用於執行封包處理、控制和通訊操作。圖像生成模組190用於生成感興趣區域的圖像。處理模組180和圖像生成模組190可以被實現為執行軟體指令的處理器,或者可以被實現為積體電路。
根據本發明的一個方面,呈現子系統160可以執行與源子系統110類似的操作以構建真實媒體串流。在一個示例中,源子系統110通過傳輸子系統150向呈現子系統160發送媒體文檔(諸如第2圖中的文檔200)。媒體文檔包括用於媒體呈現的元資料並且包括媒體資料。例如,媒體文檔包括分別用於基本軌的基本軌盒和用於複合軌的複合軌盒。每個基本軌盒以時間順序對形成基本軌的媒體樣本序列進行索引。複合軌是以分級方式基於基本軌構建的。複合軌盒標識(identify)一個或多個基本軌(或較低級複合軌)、以及基於一個或多個基本軌(或較低級複合軌)和複合變量來推導出複合軌的複合操作。
此外,基於媒體文檔,處理電路170可以形成用於回放的真實媒體串流。例如,處理電路170接收與複合操作相關的複合變量的值。基於複合變量的值和複合軌的層次結構,處理電路170可以追踪基本軌、從媒體文檔中提取樣本、並構建用於回放的媒體串流。
第2圖示出根據本發明的一實施例的文檔200的示意圖。文檔200符合ISOBMFF。在一個示例中,第1圖中的處理電路120用於生成符合ISOBMFF的文檔200。
文檔200包括各種盒,諸如文檔類型盒210、媒體 資料盒290、電影盒220等等。文檔類型盒210包括文檔類型和兼容性資訊。媒體資料盒290包括媒體樣本。電影盒220包括可以由媒體樣本形成的媒體串流的元資料。電影盒220包括各種軌盒,例如用於基本軌的基本軌盒230、用於複合軌的複合軌盒240和250。基本軌盒可以包括媒體串流的資訊。在一個示例中,基本軌盒230包括指定基本軌的總體資訊的軌標題盒。另外,基本軌盒可以包括媒體盒,其包含媒體資訊盒。媒體資訊盒可以包括樣本表格盒,該樣本表格盒包含對媒體資料盒290中的媒體樣本的子集的資料索引。樣本表格盒中的資訊可以用於定位媒體樣本的子集並且使用媒體樣本的子集形成序列。
在一個示例中,球面被劃分為R個分區,其中R是正整數。因此,媒體資料盒290包括對應於R個分區的R個子集。此外,媒體樣本可以根據K個加密模式進行加密,其中K是正整數。在第2圖的示例中,基本軌M-11到M-1K對應於媒體樣本的第一子集(對應於第一分區),但是具有不同的加密模式。例如,基本軌M-11基於具有第一加密模式的媒體樣本的第一子集來形成,並且基本軌M-1K基於具有第K加密模式的媒體樣本的第一子集來形成。類似地,基於具有第一加密模式的媒體樣本的第R子集(對應於第R分區)形成基本軌M-R1,並且基於具有第K加密模式的媒體樣本290的第R子集形成基本軌M-RK。
此外,複合軌盒240和250包括用於基於基本軌或較低級複合軌來構建複合軌的資訊。複合軌盒240和250中 的每一個可以包括標識基本軌或較低層複合軌作為輸入的標識符,並且可以包括變換屬性以指定構成基於輸入的複合軌的複合操作,諸如基本軌或更低級的複合軌。在第2圖的示例中,複合軌盒240定義複合軌M-1至M-R。例如,基於“僅選擇一個”操作的變換屬性,使用基本軌M-11至M-1K構建複合軌M-1;基於“僅選擇一個”操作的變換屬性,使用基本軌M-R1至M-RK來構建複合軌M-R。例如,用於複合軌M-1的複合軌盒240包括標識基本軌M-11到M-1K的標識符,並且包括其他合適的資訊,例如分別用於基本軌M-11到M-1K的加密模式。用於複合軌M-1的複合軌盒240還包括指定“僅選擇一個”操作的變換屬性盒。
在第2圖的示例中,複合軌盒250定義複合軌M。例如,基於“複合全部”操作的變換特性,使用複合軌M-1至M-R構建複合軌M。例如,用於複合軌M的複合軌盒250包括標識複合軌M-1到M-R的標識符,並且包括其他合適的資訊,例如分別用於複合軌M-1到M-R的相應空間分區。複合軌盒250包括指定“複合全部”操作的變換屬性盒。
根據本發明的一個方面,複合軌M被用於表示具有可變參數的球面的媒體資料,例如子圖片區域,加密模式等等。在一個示例中,在傳輸或消費期間,當可變參數被確定時,可以基於複合軌和基本軌的層次結構來形成真實媒體串流。在一個示例中,第一分區和第一加密模式是在傳輸或消費期間的時間確定的。因此,基於第一分區和複合軌M中的變換屬性,選擇複合軌M-1。此外,基於複合軌M-1中的第一加密模式和 變換特性,選擇基本軌M-11。基於基本軌M-11中的媒體資訊,可以提取媒體樣本的第一子集。媒體樣本的第一子集根據第一加密模式被加密以形成用於傳輸或消費的媒體資料流。
在另一個示例中,第一分區和第R分區都被確定以貢獻感興趣的區域並且第一加密模式在傳輸期間被確定。因此,根據複合軌M中的分區資訊和變換特性,選擇複合軌M-1和複合軌M-R。此外,基於第一加密模式和複合軌M-1和M-R中的變換特性,選擇基本軌M-11和基本軌M-R1。基於基本軌M-11和基本軌M-R1中的媒體資訊,可以提取媒體樣本的第一子集和媒體樣本的第R子集。媒體樣本的第一子集和媒體樣本的第R子集根據第一加密模式被加密以形成用於傳輸或消費的媒體資料。
第3圖示出了根據本發明一實施例的構建複合軌的示意圖300。在一個示例中,處理電路120根據示意圖300構建複合軌。
在第3圖的示例中,球面被分成四個分區(或圖像塊)。示意圖300示出了球面的視訊資料390。視訊資料390包括用於第一分區的圖像樣本的第一子集t1,用於第二分區的圖像樣本的第二子集t2,用於第三分區的圖像樣本的第三子集t3以及用於第四分區的圖像樣本的第四子集t4。
在第3圖的示例中,圖像樣本可以根據兩個圖像質量,低質量(l)或高質量(h),進行編碼,並且可以根據第一加密模式(a)和第二加密模式(b)加密。基於該分區的圖像質量和加密模式,處理電路120可以構建16個基本軌320。
例如,可以根據高質量編碼和第一加密模式基於圖像樣本的第一子集形成基本軌t1-ha;可以根據高質量編碼和第一加密模式基於圖像樣本的第二子集形成基本軌t2-ha;可以根據高質量編碼和第一加密模式基於圖像樣本的第三子集形成基本軌t3-ha;可以根據高質量編碼和第一加密模式基於圖像樣本的第四子集形成基本軌t4-ha。
類似地,可以根據低質量編碼和第一加密模式基於圖像樣本的第一子集形成基本軌t1-1a;可以根據低質量編碼和第一加密模式基於圖像樣本的第二子集形成基本軌t2-1a;可以根據低質量編碼和第一加密模式基於圖像樣本的第三子集形成基本軌t3-1a;可以根據低質量編碼和第一加密模式基於圖像樣本的第四子集形成基本軌t4-1a。
類似地,可以根據高質量編碼和第二加密模式基於圖像樣本的第一子集形成基本軌t1-hb;可以根據高質量編碼和第二加密模式基於圖像樣本的第二子集形成基本軌t2-hb;可以根據高質量編碼和第二加密模式基於圖像樣本的第三子集形成基本軌t3-hb;可以根據高質量編碼和第二加密模式基於圖像樣本的第四子集形成基本軌t4-hb。
類似地,可以根據低質量編碼和第二加密模式基於圖像樣本的第一子集形成基本軌t1-1b;可以根據低質量編碼和第二加密模式基於圖像樣本的第二子集形成基本軌t2-1b;可以根據低質量編碼和第二加密模式基於圖像樣本的第三子集形成基本軌t3-1b;可以根據低質量編碼和第二加密模式基於圖像樣本的第四子集形成基本軌t4-1b。
基於基本軌320,使用“僅複合一個”操作(“cmp1”)來構建複合軌330,如表達式Exp.1到Exp.8所示:C1-a=cmp1(t1-ha,t1-1a) Exp.1
C2-a=cmp1(t2-ha,t2-1a) Exp.2
C3-a=cmp1(t3-ha,t3-1a) Exp.3
C4-a=cmp1(t4-ha,t4-1a) Exp.4
C1-b=cmp1(t1-hb,t1-1b) Exp.5
C2-b=cmp1(t2-hb,t2-1b) Exp.6
C3-b=cmp1(t3-hb,t3-1b) Exp.7
C4-b=cmp1(t4-hb,t4-1b) Exp.8
此外,在第3圖的示例中,基於複合軌330,使用“僅選擇一個”操作(“sel1”)來構建複合軌340,如表達式Exp.9到Exp.12所示:S1=sel1(C1-a,C1-b) Exp.9
S2=sel1(C2-a,C2-b) Exp.10
S3=sel1(C3-a,C3-b) Exp.11
S4=sel1(C4-a,C4-b) Exp.12
此外,在第3圖的示例中,基於複合軌340,使用“複合全部”操作(“cmpa”)構建複合軌351和352,例如表達式Exp.13和Exp.14所示:c=cmpa(S1,S2,S3,S4) Exp.13
r=cmpa(S1,S2) Exp.14
在一個實施例中,複合軌351用於媒體呈現中以虛擬地表示球面的媒體串流,並且複合軌352用於媒體呈現中 以虛擬地表示上半部分的球面的媒體串流。
第4圖示出了概述根據本發明一實施例的流程400的流程示意圖。在一個示例中,流程400由第1圖示例中的源子系統110執行。該流程在S401開始並進行到S410。
在步驟S410中,獲取媒體資料。在一個示例中,獲取設備112包括具有複數個攝像機的攝像機設備,以拍攝周圍空間中的各種方向的圖像。
在步驟S420中,處理媒體資料以生成媒體樣本。在一個示例中,處理電路120可以將從不同攝像機拍攝的圖像拼接在一起以形成拼接圖像,諸如全向圖像等等。然後,處理電路120可以將全向圖像投影到合適的二維(2D)平面以將全向圖像變換成2D圖像。
在步驟S430中,確定基本軌。在一個示例中,2D平面可以被劃分成複數個子圖片區域(分區),並且處理電路120生成複數個基本軌盒以分別包括複數個基本軌的元資料。基本軌盒可以包括關於子圖片區域的圖像樣本串流的資訊。基本軌盒包括指定基本軌的整體資訊的軌標題盒。另外,基本軌盒可以包括指向媒體樣本子集以形成基本軌的資料索引。
在步驟S440中,基於基本軌(或較低級的複合軌)來構建複合軌。在一個示例中,處理電路120生成複合軌的複合軌盒。例如,複合軌的複合軌盒包括作為輸入的基本軌(或較低級複合軌)的標識符,並且包括基於基本軌(或較低層次複合軌級的複合軌)定義複合操作以構建複合軌的變換屬性。
在步驟S450中,將複合軌封裝在文檔中。在一個 示例中,複合軌被封裝在符合ISOBMFF的文檔200中。例如,處理電路120包括具有複數個基本軌的複數個基本軌盒的在電影盒220中的複數個複合軌的複數個複合軌盒。然後流程進行到S499並終止。
附錄A 本發明提出以下新的變換屬性條目:
“cmpa”:複合全部
“cmp1”:僅複合一個(允許在樣本級切換)
“cmpn”:複合任何(允許在樣本級切換)
“sel1”:僅選擇一個(軌級選擇,在樣本級不切換)
“seln”:選擇任何(軌級選擇,在樣本級不切換)
“scal”:縮放
“resz”:調整大小
通過這些新條目,可將“圖像塊”軌指定為以使用“cmp1”或“se l1”推導的“變體”軌的複合軌,整個VR球形內容軌可以被指定為使用“cmpa”推導的其“圖像塊”軌的複合軌,以及任何視點或ROI軌可以被指定為使用“cmpn”或“seln”推導的其“圖像塊”軌的複合軌,然後進一步反轉映射和投影變換。
注意,下面給出的定義是示例性的,並且可以例如使用通用類型來移除冗餘來簡化“cmpa”、“cmp1”、“cmpn”、“sel1”和“seln”的定義,但其每個都有自己的定義和語義。
1複合全部
1.1定義
盒類型:“cmpa”
強制性(每個樣本);否
數量(每個樣本):任何
複合全部“cmpa”變換屬性,如果存在,要求num_inputs大於或等於1,並且相應圖像操作的輸入實體是視覺軌。
此變換屬性指定推導示例的參考寬度reference_width和參考高度reference_height,並在由top_left_x和top_left_y指定的並具有相應的寬度和高度大小的相應位置處,將每個輸入圖像放置(或複合)到推導示例。
1.2語法
aligned(8) class CompositeOfAll extends TransformProperty('cmpa') { unsigned int(16) reference_width; unsigned int(16) reference_height; for (i=0; i<num_inputs; i++) { unsigned int(16) top_left_x; unsigned int(16) top_left_y; unsigned int(16) width; unsigned int(16) height; } }
1.3語義
示例“cmpa”變換屬性的字段與ISO/IEC 23001-10中定義的有時元資料樣本條目和样本具有相同的語義。這是因為這裡 的意圖是將每個輸入圖像視為推導圖像的ROI。
reference_width和reference_height分別給出了計算所有坐標(top_left_x、top_left_y、width和height)的參考矩形空間的寬度和高度。這些字段定義了推導圖像的大小,該推導圖像是其對應的輸入視覺軌的所有輸入圖像的複合。
top_left_x和top_left_y分別給出對應的軌的輸入媒體圖像將被放置的矩形區域的左上角的水平和垂直坐標。
寬度和高度分別給出對應的軌的輸入媒體圖像將被放置的矩形區域的寬度和高度。
請注意,由於這些字段的語義與ISO/IEC 23001-10中定義的“2dcc”相同,因此定義此變換屬性的另一種方法是具有額外的輸入軌列表,其大小等於num_inputs,以表明每個附加輸入軌是“2dcc”有時元資料軌(即,2D笛卡爾坐標軌),並且它攜帶對應輸入軌的空間資訊作為推導軌的ROI。變換屬性將使用這些元資料軌將輸入視覺軌複合為推導軌。
2僅複合一個
2.1定義
盒類型:“cmp1”
強制性(每個樣本):否
數量(每個樣本):任何
僅複合一個“cmp1”變換屬性的複合,如果存在,要求num_inputs大於或等於1,並且對應的圖像操作的輸入實體是視覺軌。
此變換屬性指定了推導樣本的參考寬度reference_width 和參考高度reference_height,並在由top_left_x和top_left_y指定的並具有對應的寬度和高度大小的相應位置處,將輸入圖像其中一個、任何一個以及僅一個放置(或複合)到推導樣本上。
2.2語法
aligned(8) class CompositeOfOnlyOne extends TransformProperty('cmp1') { unsigned int (16) reference_width; unsigned int (16) reference_height; for (i = 0; i <num_inputs; i ++) { unsigned int (16) top_left_x; unsigned int (16) top_left_y; unsigned int (16) width; unsigned int (16) height; } }
2.3語義
示例“cmp1”變換屬性的字段具有與ISO/IEC 23001-10中定義的有時元資料示例條目和示例相同的語義。這是因為這裡的意圖是將每個輸入圖像視為推導圖像的ROI。
reference_width和reference_height分別給出了計算所有坐標(top_left_x、top_left_y、width和height)的參考矩形空間的寬度和高度。這些字段定義了推導圖像的大小,該推導圖像是其相應輸入視覺軌的所有輸入圖像的複合。
top_left_x和top_left_y分別給出相應的軌的輸入媒體圖像將被放置的矩形區域的左上角的水平和垂直坐標。
寬度和高度分別給出相應軌的輸入媒體圖像將被放置的矩形區域的寬度和高度。
請注意,由於這些字段的語義與ISO/IEC 23001-10中定義的“2dcc”相同,因此定義此變換屬性的另一種方法是具有額外的輸入軌列表,其大小等於num_inputs,以表明每個附加輸入軌是”2dcc”有時元資料軌(即,2D笛卡爾坐標軌),並且它攜帶相應輸入軌的空間資訊作為推導軌的ROI。變換屬性將使用這些元資料軌將輸入視覺軌複合為推導軌。
3複合任何
3.1定義
盒類型:“cmpn”
強制性(每個樣本):否
數量(每個樣本):任何
複合任何“cmpn”的變換屬性,如果存在,要求num_inputs大於或等於1,並且用於相應圖像操作的輸入實體是視覺軌。
此變換屬性指定了推導樣本的參考寬度reference_width和參考高度reference_height的,並在由top_left_x和top_left_y指定的並具有對應的寬度和高度大小的相應位置處,將其中一個或多個輸入圖像放置(或複合)到推導樣本上。
3.2語法
aligned(8) class CompositeOfAny extends TransformProperty('cmpn') { unsigned int (16) reference_width; unsigned int (16) reference_height; for (i = 0; i <num_inputs; i ++) { unsigned int (16) top_left_x; unsigned int (16) top_left_y; unsigned int (16) width; unsigned int (16) height; } }
3.3語義
示例“cmpn”變換屬性的字段具有與ISO/IEC 23001-10中定義的有時元資料示例條目和示例相同的語義。這是因為這裡的意圖是將每個輸入圖像視為推導圖像的ROI。
reference_width和reference_height分別給出了計算所有坐標(top_left_x,top_left_y,width和height)的參考矩形空間的寬度和高度。這些字段定義了推導圖像的大小,該推導圖像是其相應輸入視覺軌的所有輸入圖像的複合。
top_left_x和top_left_y分別給出相應軌的輸入媒體圖像將被放置的矩形區域的左上角的水平和垂直坐標。
寬度和高度分別給出相應軌的輸入媒體圖像將被放置的矩形區域的寬度和高度。
請注意,由於這些字段的語義與ISO/IEC 23001-10中定義的“2dcc”相同,因此定義此變換屬性的另一種方法是具有額外的輸入軌列表,其大小等於num_inputs,以表明每個附加輸 入軌是”2dcc”有時元資料軌(即,2D笛卡爾坐標軌),並且它攜帶相應輸入軌的空間資訊作為推導軌的ROI。變換屬性將使用這些元資料軌將輸入視覺軌複合為推導軌。
4僅選擇一個
4.1定義
盒類型:“sel1”
強制性(每個樣本):否
數量(每個樣本):任何
僅選擇一個“sel1”變換屬性的選擇存在時,要求num_inputs大於或等於1,並且用於相應圖像操作的輸入實體是視覺軌。
此變換屬性指定了推導樣本的參考寬度reference_width和參考高度reference_height的,並在由top_left_x和top_left_y指定的並具有對應的寬度和高度大小的相應位置處,將從變換過程中選擇的相同軌的一個且僅一個輸入圖像放置(或複合)到推導樣本上。
請注意,這相當於從輸入軌列表中選擇一個軌。
4.2語法
aligned(8) class SelectionOfOnlyOne extends TransformProperty('sel1') { unsigned int (16) reference_width; unsigned int (16) reference_height; for (i = 0; i <num_inputs; i ++) { unsigned int (16) top_left_x; unsigned int (16) top_left_y; unsigned int(16) width; unsigned int (16) height; } }
4.3語義
示例“sel1”變換屬性的字段具有與ISO/IEC 23001-10中定義的有時元資料樣本條目和样本具有相同的語義。這是因為這裡的意圖是將每個輸入圖像視為推導圖像的ROI。
reference_width和reference_height分別給出了計算所有坐標(top_left_x,top_left_y,width和height)的參考矩形空間的寬度和高度。這些字段定義了推導圖像的大小,該推導圖像是其相應輸入視覺軌的所有輸入圖像的複合。
top_left_x和top_left_y分別給出相應軌的輸入媒體圖像將被放置的矩形區域的左上角的水平和垂直坐標。
寬度和高度分別給出相應軌的輸入媒體圖像將被放置的矩形區域的寬度和高度。
請注意,由於這些字段的語義與ISO/IEC 23001-10中定義的“2dcc”相同,因此定義此變換屬性的另一種方法是具有額外的輸入軌列表,其大小等於num_inputs,以表明每個附加輸入軌是“2dcc”有時元資料軌(即,2D笛卡爾坐標軌),並且它攜帶相應輸入軌的空間資訊作為推導軌的ROI。變換屬性將使用這些元資料軌將輸入視覺軌複合為推導軌。
5選擇任何
5.1定義
盒類型:“seln”
強制性(每個樣本):否
數量(每個樣本):任何
選擇任何”seln”變換屬性(當存在時)要求num_inputs大於或等於1,並且用於相應圖像操作的輸入實體是視覺軌。
此變換屬性指定了推導樣本reference_width和reference_height的參考寬度和高度,並在由top_left_x和top_left_y指定的並具有對應的寬度和高度大小的相應位置處,將從整個變換中選定的輸入軌的相同子集中的一個或多個輸入圖像放置(或複合)到推導樣本上。
請注意,這相當於從輸入軌列表中選擇n(n>0)個軌。
5.2語法
aligned(8) class SelectionOfAny extends TransformProperty('seln') { unsigned int (16) reference_width; unsigned int (16) reference_height; for (i = 0; i <num_inputs; i ++) { unsigned int (16) top_left_x; unsigned int (16) top_left_y; unsigned int(16) width; unsigned int (16) height; } }
5.3語義
示例“seln”變換屬性的字段具有與ISO/IEC 23001-10中定義的有時元資料樣本條目和样本具有相同的語義。這是因為這裡的意圖是將每個輸入圖像視為推導圖像的ROI。
reference_width和reference_height分別給出了計算所有坐標(top_left_x,top_left_y,width和height)的參考矩形空間的寬度和高度。這些字段定義了推導圖像的大小,該推導圖像是其相應輸入視覺軌的所有輸入圖像的複合。
top_left_x和top_left_y分別給出相應軌的輸入媒體圖像將被放置的矩形區域的左上角的水平和垂直坐標。
寬度和高度分別給出相應軌的輸入媒體圖像將被放置的矩形區域的寬度和高度。
請注意,由於這些字段的語義與ISO/IEC 23001-10中定義的“2dcc”相同,因此定義此變換屬性的另一種方法是具有額外的輸入軌列表,其大小等於num_inputs,以表明每個附加輸入軌是“2dcc”有時元資料軌(即,2D笛卡爾坐標軌),並且它攜帶相應輸入軌的空間資訊作為推導軌的ROI。變換屬性將使用這些元資料軌將輸入視覺軌複合為推導軌。
6縮放
6.1定義
盒類型:“scal”
強制性(每個樣本):否
數量(每個樣本):任何
示例縮放“scal”變換屬性以百分比為單位縮放輸入圖像條 目。
6.2語法
aligned(8) class SampleScaling extends TransformProperty(‘scal’) { unsigned int (8) percentages; }
6.3語義
百分比/100指定輸入圖像的比例因子。
7調整大小
7.1定義
盒類型:“srez”
強制性(每個樣本):否
數量(每個樣本):任何
調整大小”srez”變換屬性的樣本根據寬度和高度調整輸入圖像條目的大小。
7.2語法
aligned(8) class SampleResizing extends TransformProperty(‘srez’) { unsigned int(16) width; unsigned int(16) height; }
7.3語義
寬度和高度分別給出調整大小的輸入圖像的寬度和高度。
當在硬體中實現時,硬體可以包括一個或者多個離散元件、積體電路、特定應用的積體電路(application-specific integrated circuit,ASIC)等。
由於已經結合本發明的被提出用作示例的具體實施例描述了本發明的各個方面,可以做出這些示例的替代、修改和變形。因此,此處所說明的實施例用作示意目的,但不用於限制。在不脫離請求項的範圍的情況下,可以做出改變。

Claims (16)

  1. 一種用於構建複合軌的裝置,包括:處理電路,用於:生成包括分別用於複數個基本軌的複數個基本軌盒的文檔,每個基本軌盒按照時間順序對形成每個基本軌的複數個媒體樣本的序列進行索引;構建用於複合軌的複合軌盒,該複合軌盒標識一個或多個基本軌、以及基於該一個或多個基本軌形成該複合軌的複合操作;以及根據該複合軌生成媒體呈現;其中,該處理電路用於:執行以下操作中的至少一者:構建對成像區域的空間分區的複數個媒體樣本進行索引的該基本軌盒;構建表明圖像質量以形成該基本軌的該基本軌盒;以及構建表明加密模式以形成該基本軌的該基本軌盒。
  2. 如申請專利範圍第1項所述之裝置,其中,該處理電路用於:構建該複合軌盒以標識在軌級選擇該等基本軌中的其中一個以形成該複合軌的該複合操作。
  3. 如申請專利範圍第1項所述之裝置,其中,該處理電路用於:構建該複合軌盒以標識在樣本級或樣本組級選擇該等基本軌中的其中一個以形成該複合軌的該複合操作。
  4. 如申請專利範圍第1項所述之裝置,其中,該處理電路用於:構建該複合軌盒以標識選擇該等基本軌中的一個或多個以形成該複合軌的該複合操作。
  5. 如申請專利範圍第1項所述之裝置,其中,該處理電路用於:為具有層次結構的複數個複合軌構建複數個複合軌盒。
  6. 如申請專利範圍第1項所述之裝置,其中,該處理電路用於:將標識的該一個或多個基本軌的全局資訊包含到該複合軌盒中。
  7. 如申請專利範圍第1項所述之裝置,其中,該處理電路用於:接收與該複合操作相關的複合變量的值;以及根據該複合操作和該值構建基於該等基本軌的媒體串流。
  8. 一種處理媒體資料的方法,包括:生成包括分別用於複數個基本軌的複數個基本軌盒的文檔;在每個基本軌盒中按時間順序對形成每個基本軌的複數個媒體樣本的序列進行索引;構建用於複合軌的複合軌盒;在該複合軌盒中標識一個或多個基本軌、以及基於該一個或多個基本軌形成該複合軌的複合操作;以及基於該複合軌生成媒體呈現; 其中,構建該複合軌的該複合軌盒包括以下中的至少一個:構建對成像區域的空間分區的複數個媒體樣本進行索引的該基本軌盒;構建表明圖像質量以形成該基本軌的該基本軌盒;以及構建表明加密模式以形成該基本軌的該基本軌盒。
  9. 如申請專利範圍第8項所述之方法,其中,其中在該複合軌盒中標識該一個或多個基本軌、以及基於該一個或多個基本軌形成該複合軌的該複合操作,還包括:標識在軌級選擇該等基本軌中的其中一個以形成該複合軌的該複合操作。
  10. 如申請專利範圍第8項所述之方法,其中,其中在該複合軌盒中標識該一個或多個基本軌、以及基於該一個或多個基本軌形成該複合軌的該複合操作,還包括:標識在樣本級或樣本組級選擇該等基本軌中的其中一個以形成該複合軌的該複合操作。
  11. 如申請專利範圍第8項所述之方法,其中,其中在該複合軌盒中標識該一個或多個基本軌、以及基於該一個或多個基本軌形成該複合軌的該複合操作,還包括:標識選擇該等基本軌中的一個或多個以形成複合軌的複合操作。
  12. 如申請專利範圍第8項所述之方法,其中,所述方法還包括:為具有層次結構的複數個複合軌構建複數個複合軌盒。
  13. 如申請專利範圍第12項所述之方法,其中,所述方法還包 括:為較高級的複合軌構建複合軌盒;在用於該較高級的複合軌的該複合軌盒中標識一個或多個較低級的複合軌、以及基於該一個或多個較低的級複合軌來形成該較高級的複合軌的複合操作。
  14. 如申請專利範圍第8項所述之方法,還包括:將標識的該一個或多個基本軌的全局資訊包含到該複合軌盒中。
  15. 如申請專利範圍第8項所述之方法,還包括:接收與該複合操作相關的複合變量的值;以及根據該複合操作和該值構建基於該等基本軌的媒體串流。
  16. 一種非暫時性計算機可讀介質,儲存用於使處理器執行用於處理媒體資料的操作的程式指令,該操作包括:生成包括分別用於複數個基本軌的複數個基本軌盒的文檔,其中執行以下操作中的至少一者:構建對成像區域的空間分區的複數個媒體樣本進行索引的該基本軌盒;構建表明圖像質量以形成該基本軌的該基本軌盒;以及構建表明加密模式以形成該基本軌的該基本軌盒;在每個基本軌盒中按時間順序對形成每個基本軌的複數個媒體樣本的序列進行索引;構建用於複合軌的複合軌盒;在該複合軌盒中標識一個或多個基本軌、以及基於該一個或多個基本軌形成該複合軌的複合操作;以及 基於該複合軌生成媒體呈現。
TW107100915A 2017-01-11 2018-01-10 用於推導複合軌的方法和裝置 TWI672947B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201762444882P 2017-01-11 2017-01-11
US62/444,882 2017-01-11
US15/865,916 2018-01-09
US15/865,916 US10805620B2 (en) 2017-01-11 2018-01-09 Method and apparatus for deriving composite tracks

Publications (2)

Publication Number Publication Date
TW201832567A TW201832567A (zh) 2018-09-01
TWI672947B true TWI672947B (zh) 2019-09-21

Family

ID=62781997

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107100915A TWI672947B (zh) 2017-01-11 2018-01-10 用於推導複合軌的方法和裝置

Country Status (4)

Country Link
US (1) US10805620B2 (zh)
CN (1) CN110192392B (zh)
TW (1) TWI672947B (zh)
WO (1) WO2018130169A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019192870A1 (en) * 2018-04-05 2019-10-10 Canon Kabushiki Kaisha Method and apparatus for encapsulating images or sequences of images with proprietary information in a file
US11012657B2 (en) * 2018-06-08 2021-05-18 Lg Electronics Inc. Method for processing overlay in 360-degree video system and apparatus for the same
US11183220B2 (en) * 2018-10-03 2021-11-23 Mediatek Singapore Pte. Ltd. Methods and apparatus for temporal track derivations
US11205456B2 (en) 2019-01-09 2021-12-21 Mediatek Singapore Pte. Ltd. Methods and apparatus for using edit operations to perform temporal track derivations
US20220103655A1 (en) * 2020-09-29 2022-03-31 International Business Machines Corporation Proactively selecting virtual reality content contexts
US11922561B2 (en) * 2020-10-06 2024-03-05 Mediatek Singapore Pte. Ltd. Methods and systems for implementing scene descriptions using derived visual tracks

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160165321A1 (en) * 2013-07-23 2016-06-09 Canon Kabushiki Kaisha Method, device, and computer program for encapsulating partitioned timed media data using sub-track feature
US20160182927A1 (en) * 2013-07-23 2016-06-23 Canon Kabushiki Kaisha Method, device, and computer program for encapsulating partitioned timed media data using a generic signaling for coding dependencies

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7107550B2 (en) 2002-12-16 2006-09-12 Palo Alto Research Center Incorporated Method and apparatus for segmenting hierarchical information for display purposes
US9032299B2 (en) * 2009-04-30 2015-05-12 Apple Inc. Tool for grouping media clips for a media editing application
JP5328561B2 (ja) 2009-08-19 2013-10-30 キヤノン株式会社 通信システムの制御装置、制御方法、およびコンピュータプログラム
US9640172B2 (en) 2012-03-02 2017-05-02 Yamaha Corporation Sound synthesizing apparatus and method, sound processing apparatus, by arranging plural waveforms on two successive processing periods
CN109618235B (zh) * 2013-01-18 2021-03-16 佳能株式会社 生成设备和方法、处理设备和方法以及存储介质
US20140343914A1 (en) 2013-05-16 2014-11-20 Exxonmobil Research And Engineering Company Systems and methods for creating a model of composition for a composite formed by combining a plurality of hydrocarbon streams

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160165321A1 (en) * 2013-07-23 2016-06-09 Canon Kabushiki Kaisha Method, device, and computer program for encapsulating partitioned timed media data using sub-track feature
US20160182927A1 (en) * 2013-07-23 2016-06-23 Canon Kabushiki Kaisha Method, device, and computer program for encapsulating partitioned timed media data using a generic signaling for coding dependencies

Also Published As

Publication number Publication date
US10805620B2 (en) 2020-10-13
CN110192392B (zh) 2021-02-23
CN110192392A (zh) 2019-08-30
WO2018130169A1 (en) 2018-07-19
TW201832567A (zh) 2018-09-01
US20180199044A1 (en) 2018-07-12

Similar Documents

Publication Publication Date Title
TWI672947B (zh) 用於推導複合軌的方法和裝置
US11245926B2 (en) Methods and apparatus for track derivation for immersive media data tracks
KR102406887B1 (ko) 시간 설정형 미디어 데이터를 발생시키는 방법, 디바이스, 및 컴퓨터 프로그램
US11457231B2 (en) Methods and apparatus for signaling spatial relationships for point cloud multimedia data tracks
CN110049330B (zh) 用于编码和解码虚拟现实内容的方法和装置
US11146802B2 (en) Methods and apparatus for providing two-dimensional spatial relationships
TWI710248B (zh) 用於軌道合成的方法以及裝置
JP2022133439A (ja) メディアコンテンツを送信するための方法、装置及びコンピュータプログラム
JP2021525470A (ja) メディアコンテンツを送信する方法、装置及びコンピュータプログラム
US10931930B2 (en) Methods and apparatus for immersive media content overlays
KR20190101422A (ko) 정보 처리 방법 및 장치
US11139000B2 (en) Method and apparatus for signaling spatial region information
US20180048877A1 (en) File format for indication of video content
CN113574900B (zh) 用于对媒体内容中的实体进行分组的方法和装置
WO2023169003A1 (zh) 点云媒体的解码方法、点云媒体的编码方法及装置
US11743441B2 (en) Methods and apparatus for selecting and switching input video tracks using track derivations
CN111937397B (zh) 媒体数据处理方法及装置
JP2024511726A (ja) データ処理方法、装置、コンピュータ機器、記憶媒体及びコンピュータプログラム