TWI688264B - 用軌道分組獲取合成軌道之方法及裝置 - Google Patents

用軌道分組獲取合成軌道之方法及裝置 Download PDF

Info

Publication number
TWI688264B
TWI688264B TW107121495A TW107121495A TWI688264B TW I688264 B TWI688264 B TW I688264B TW 107121495 A TW107121495 A TW 107121495A TW 107121495 A TW107121495 A TW 107121495A TW I688264 B TWI688264 B TW I688264B
Authority
TW
Taiwan
Prior art keywords
track
tracks
image
sub
dimensional sub
Prior art date
Application number
TW107121495A
Other languages
English (en)
Other versions
TW201907720A (zh
Inventor
新 王
魯林 陳
趙帥
Original Assignee
聯發科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 聯發科技股份有限公司 filed Critical 聯發科技股份有限公司
Publication of TW201907720A publication Critical patent/TW201907720A/zh
Application granted granted Critical
Publication of TWI688264B publication Critical patent/TWI688264B/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/1883Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit relating to sub-band structure, e.g. hierarchical level, directional tree, e.g. low-high [LH], high-low [HL], high-high [HH]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/31Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/88Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving rearrangement of data among different coding units, e.g. shuffling, interleaving, scrambling or permutation of pixel data or permutation of transform coefficient data among different blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/89Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving methods or arrangements for detection of transmission errors at the decoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234327Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into layers, e.g. base layer and one or more enhancement layers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本發明揭露一種獲取合成軌道的方法,裝置及計算機可讀媒介。三維視訊資料包含與一視埠相關之複數二維子圖像軌道。用於合成該視埠的該等二維子圖像軌道的合成軌道獲取包含指示下列信息的資料:該等二維子圖像軌道屬於一同個組,該等二維子圖像軌道的每一的放置信息,其中該放置信息可用於將來自該等二維子圖像軌道的取樣圖像合成進與該視埠相關的一畫面,如果該畫面包含由合成於該畫面上的該等二維子圖像軌道的兩個或更多個所創建的一組成布局,則調整該組成之一組成布局操作。該合成軌道獲取可被編碼及/或用於解碼該三維視訊資料。

Description

用軌道分組獲取合成軌道之方法及裝置
此處所描述的技術係有關於視訊編解碼。更具體地,本發明有關於用軌道分組(track grouping)獲取複合/合成軌道(composite tracks)。
存在有各種類型的3D內容與多向內容(multi-directional content)。例如,全向視訊是一種使用一組攝像機捕捉的視訊,相對於傳統單向視訊僅用單個攝像機完成。例如,攝像機可圍繞一特定中心點放置,使得每一攝像機捕捉場景的球面覆蓋(spherical coverage)的部分視訊以捕捉360度視訊。多個攝像機的視訊可被拼接(stitch),可能被旋轉,且被投影來產生表示該球面內容之投影二維圖像。例如,等距柱狀投影(equal rectangular projection)可被用於將球面地圖塞進二維圖像。該二維圖像可被進一步處理,例如使用二維編碼及壓縮技術。最終,編碼及壓縮的內容被儲存並使用想要的傳送機制(例如隨身碟,數位視訊光碟(DVD),文檔下載,數位廣播,及/或線上流媒體)被傳送。如此的視訊可用於虛擬現實(VR)及/或3D視訊。
於客戶端,當該客戶處理該內容,一視訊解碼器解碼該編碼及壓縮視訊且執行逆投影,以將該內容放回球面。用戶可觀看渲染之內容,例如使用頭戴式觀看設備。該內容通常根據用戶視埠進行渲染,用戶視埠表示用戶觀看該內容的角度。視埠也可包含一組件,其表示觀看區域,其可描述用戶以特定角度觀看的區域多大,且是何種形狀。
當該視訊處理不是以獨立於視埠(viewport-dependent)的方式完成時,這樣視訊編碼器及/或解碼器不知道用戶會真正觀看的內容,然後整個編碼,傳送及解碼進程會處理整個球面內容。這樣能夠,舉例來說,允許用戶以任意特定視埠觀看該內容及/或於任意區域觀看該內容,因為所有球面內容都被編碼,傳送並解碼了。
可是,處理所有球面內容可以是計算密集並會消耗大量頻寬。例如,對於線上流媒體應用,處理所有球面內容能給網路頻寬帶來超過實際需要的負擔。因此,當頻寬資源及/或計算資源有限時,較難維持用戶體驗。一些技術僅處理用戶觀看的內容。例如,如果用戶正在觀看頂部區域(例如北極),那麼不需要傳送該內容的底部區域(例如南極)。如果用戶改變視埠,那麼針對新視埠傳送內容。又一例子中,對於自由視埠TV(FTV)應用(例如使用多個攝相機捕捉場景的視訊),可根據用戶在以何角度觀看場景而傳送內容。例如,如果用戶正從一視埠(例如攝像機及/或鄰近多個攝像機)觀看該內容,可能不需要傳送其他視埠的內容。
依照揭露之主題,提供裝置,系統及方法來使用軌道分組獲取合成軌道。
一些實施例有關於編碼一複數子圖像軌道的合成軌道獲取的編碼方法。該方法包含編碼三維視訊資料,包含編碼與一視埠相關的複數二維子圖像軌道。該方法包含編碼一合成軌道獲取,用於合成該視埠的該等二維子圖像軌道,其中該合成軌道獲取包含指示下列信息的資料:該等二維子圖像軌道屬於一同個組;該等二維子圖像軌道的每一的放置信息,其中該放置信息可用於將來自該等二維子圖像軌道的取樣圖像合成進與該視埠相關的一畫面;以及如果該畫面包含由合成於該畫面上的該等二維子圖像軌道的兩個或更多個所創建的一組成布局,則調整該組成之一組成布局操作。該方法包含提供該編碼三維視訊資料與該組成布局操作。
一些實施例中,該組成布局包含於該畫面上合成的該等二維子圖像軌道的該兩個或更多個之間的一間隙,於該畫面上合成的該等二維子圖像軌道的該兩個或更多個的一重疊,或兩者。
一些實施例中,編碼該合成軌道獲取包含對該等二維子圖像軌道的每一所包含的一子圖像組成軌道組盒中的該畫面的一寬度,一高度,或兩者進行編碼。
一些實施例中,編碼該合成軌道獲取包含對該等二維子圖像軌道的每一所包含的一子圖像組成軌道組盒中的該畫面的取樣圖像的一尺寸,一位置,或兩者進行編碼。
一些實施例中,編碼該合成軌道獲取包含:對包 含該等二維子圖像軌道的一軌道的一軌道頭盒中的該畫面的取樣圖像的一尺寸,一位置,或兩者進行編碼;以及對該等二維子圖像軌道的每一所包含的該子圖像組成軌道組盒中的包含軌道進行編碼。編碼該合成軌道獲取包含:編碼該子圖像組成軌道組盒中的一矩陣,其中該矩陣用於將該等二維子圖像軌道的每個疊放於該畫面上。
一些實施例有關於解碼視訊資料來獲取合成軌道的解碼方法。該方法包含接收(a)與一視埠相關的複數編碼二維子圖像軌道以及(b)一合成軌道獲取,用於合成該視埠的該等二維子圖像軌道,其中該合成軌道獲取包含指示下列信息的資料:該等二維子圖像軌道屬於一同個組;該等二維子圖像軌道的每一的放置信息,其中該放置信息可用於將來自該等二維子圖像軌道的取樣圖像合成進與該視埠相關的一畫面中;以及如果該畫面包含一獲取軌道中攜帶的該畫面上合成的該等二維子圖像軌道的兩個或更多個構建的一組成布局,則調整該組成的一組成布局操作。該方法包含決定該等二維子圖像軌道屬於一同個組。該方法包含根據該合成軌道獲取合成該等二維子圖像軌道進該畫面,以獲取一合成軌道,包含:決定該等合成二維子圖像軌道的兩個或更多個包含該組成布局;以及基於該組成布局操作,調整該組成來補償該組成布局。
一些實施例中,其中決定該等合成二維子圖像軌道的兩個或更多個包含該組成布局包含決定該等合成二維子圖像軌道的兩個或更多個包含於該畫面上合成的該等二維子圖像軌道的該兩個或更多個之間的一間隙,於該畫面上合成的 該等二維子圖像軌道的該兩個或更多個的一重疊,或兩者。
一些實施例中,該方法更包含解碼該合成軌道獲取,包含對該等二維子圖像軌道的每一所包含的一子圖像組成軌道組盒中的該畫面的一寬度,一高度,或兩者進行解碼。
一些實施例中,該方法更包含解碼該合成軌道獲取,包含對該等二維子圖像軌道的每一所包含的一子圖像組成軌道組盒中的該畫面的取樣圖像的一尺寸,一位置,或兩者進行解碼。
一些實施例中,該方法更包含解碼該合成軌道獲取,包含:對包含該等二維子圖像軌道的一軌道的一軌道頭盒中的該畫面的取樣圖像的一尺寸,一位置,或兩者進行解碼;以及對該等二維子圖像軌道的每一所包含的該子圖像組成軌道組盒中的包含軌道進行解碼。解碼該合成軌道獲取可包含:解碼該子圖像組成軌道組盒中的一矩陣,其中該矩陣用於將該等二維子圖像軌道的每個疊放於該畫面上
一些實施例關於用於解碼視訊資料的裝置。該裝置包含與記憶體通信之一處理器,該處理器用於執行儲存於該記憶體內的複數指令,該等指令使該處理器執行下列操作:接收(a)與一視埠相關的複數編碼二維子圖像軌道以及(b)一合成軌道獲取,用於合成該視埠的該等二維子圖像軌道,其中該合成軌道獲取包含指示下列信息的資料:該等二維子圖像軌道屬於一同個組;該等二維子圖像軌道的每一的放置信息,其中該放置信息可用於將來自該等二維子圖像軌道的取樣圖像合成進與該視埠相關的一畫面中;以及如果該畫面包含一獲取軌道 中攜帶的該畫面上合成的該等二維子圖像軌道的兩個或更多個構建的一組成布局,則調整該組成的一組成布局操作。該等指令使該處理器決定該等二維子圖像軌道屬於一同個組。該等指令使該處理器根據該合成軌道獲取合成該等二維子圖像軌道進該畫面,以獲取一合成軌道,包含:決定該等合成二維子圖像軌道的兩個或更多個包含該組成布局;以及基於該組成布局操作,調整該組成來補償該組成布局。
一些實施例中,決定該等合成二維子圖像軌道的兩個或更多個包含該組成布局包含決定該等合成二維子圖像軌道的兩個或更多個包含於該畫面上合成的該等二維子圖像軌道的該兩個或更多個之間的一間隙,於該畫面上合成的該等二維子圖像軌道的該兩個或更多個的一重疊,或兩者。
一些實施例中,該等指令被進一步配置以使該處理器解碼該合成軌道獲取,包含對該等二維子圖像軌道的每一所包含的一子圖像組成軌道組盒中的該畫面的一寬度,一高度,或兩者進行解碼。
一些實施例中,該等指令被進一步配置以使該處理器解碼該合成軌道獲取,包含對該等二維子圖像軌道的每一所包含的一子圖像組成軌道組盒中的該畫面的取樣圖像的一尺寸,一位置,或兩者進行解碼。
一些實施例中,該等指令被進一步配置以使該處理器解碼該合成軌道獲取,包含對包含該等二維子圖像軌道的一軌道的一軌道頭盒中的該畫面的取樣圖像的一尺寸,一位置,或兩者進行解碼;以及對該等二維子圖像軌道的每一所包含的 該子圖像組成軌道組盒中的包含軌道進行解碼。解碼該合成軌道獲取更包含解碼該子圖像組成軌道組盒中的一矩陣,其中該矩陣用於將該等二維子圖像軌道的每個疊放於該畫面上。
一些實施例關於編碼視訊資料的裝置。該裝置包含該裝置包含與記憶體通信之一處理器,該處理器用於執行儲存於該記憶體內的複數指令,該等指令使該處理器執行下列操作:編碼三維視訊資料,包含編碼與一視埠相關之複數二維子圖像軌道。該等指令使該處理器編碼一合成軌道獲取,用於合成該視埠的該等二維子圖像軌道,其中該合成軌道獲取包含指示下列信息的資料:該等二維子圖像軌道屬於一同個組;該等二維子圖像軌道的每一的放置信息,其中該放置信息可用於將來自該等二維子圖像軌道的取樣圖像合成進與該視埠相關的一畫面;以及如果該畫面包含由合成於該畫面上的該等二維子圖像軌道的兩個或更多個所創建的一組成布局,則調整該組成的一組成布局操作。該等指令使該處理器提供該編碼三維視訊資料與該組成布局。
一些實施例中,該組成布局包含於該畫面上合成的該等二維子圖像軌道的該兩個或更多個之間的一間隙,於該畫面上合成的該等二維子圖像軌道的該兩個或更多個的一重疊,或兩者。
一些實施例中,編碼該合成軌道獲取包含對該等二維子圖像軌道的每一所包含的一子圖像組成軌道組盒中的該畫面的一寬度,一高度,或兩者進行編碼。
一些實施例中,編碼該合成軌道獲取包含對該等 二維子圖像軌道的每一所包含的一子圖像組成軌道組盒中的該畫面的取樣圖像的一尺寸,一位置,或兩者進行編碼。
一些實施例中,編碼該合成軌道獲取包含:對包含該等二維子圖像軌道的一軌道的一軌道頭盒中的該畫面的取樣圖像的一尺寸,一位置,或兩者進行編碼;以及對該等二維子圖像軌道的每一所包含的該子圖像組成軌道組盒中的包含軌道進行編碼。編碼該合成軌道獲取包含編碼該子圖像組成軌道組盒中的一矩陣,其中該矩陣用於將該等二維子圖像軌道的每個疊放於該畫面上。
本發明的至少一方面可允許子圖像軌道組以允許元資料與軌道組的內容關聯的方式被指定,而不需要每個子圖像軌道單獨指定,增強了視訊處理之靈活度。
因此,已經相當廣泛地概述了所公開的主題的特徵,以便可以更好地理解隨後的詳細描述,並且可以更好地理解對本領域的貢獻。當然,所公開的主題的附加特徵將在下文中描述,並且將形成所附申請專利範圍的主題。應理解,本文采用的措辭和術語是出於描述的目的,不應視為限制。
100:視訊編解碼配置
102A-102N:攝像機
104:編碼設備
106:視訊處理器
108:編碼器
110:解碼設備
112:解碼器
114:渲染器
116:顯示器
202-214:區塊
304A-D,306,308,310,312:軌道
902-912:步驟
於附圖中,不同圖的每一相同或近似相同的組件用同樣標號表示。為了簡潔起見,並非每個附圖中的每個組件都被標記。附圖並無必要按比例所描繪,而是著重在展現所描述之技術與裝置的各方面。
第1圖顯示根據一些實施例之一示例視訊編解碼配置。
第2圖顯示根據一些實施例的用於VR內容的視埠獨立內容流程。
第3圖顯示根據一些實施例的使用一合成軌道來發信一視埠/ROI的示意圖。
第4A圖顯示根據一些實施例之一示例子圖像組成軌道分組。
第4B圖顯示根據一些實施例之一使用矩陣值的示例子圖像組成軌道分組。
第4C圖顯示根據一些實施例之一示例轉換矩陣。
第5A-5B圖顯示根據一些實施例之混合模式之示例表格。
第6圖顯示根據一些實施例之一示例合成軌道。
第7圖顯示根據一些實施例之具有背景與alpha混合信息的子圖像軌道分組合成的例子。
第8圖顯示根據一些實施例之具有背景與alpha混合信息的子圖像軌道組矩陣組成的例子。
第9圖顯示根據一些實施例之用於編碼複數子圖像軌道之軌道組合成之示例計算機化方法。
可用各種技術來獲取合成軌道,包含獲取文件格式的合成軌道,例如ISOBMFF。
本申請的發明人發現現存的文件格式技術(例如像子圖像軌道分組(sub-picture track grouping)及定時元資料軌道技術(timed metadata track))並不提供與由一組子圖像軌道共 同攜帶的整個3D內容相關聯的全局信息(例如在定時元資料軌道中指定)。例如,軌道分組機制可用於將子圖像與一組關聯,可是,軌道分組機制並不提供識別是否每一子圖像軌道貢獻給一特定區域(例如,如上所述的特殊的感興趣區域),當該區域信息在定時元資料軌道內指定時。因此,使用現存的分組與定時元資料軌道技術,比較難指定及/或決定哪個(些)子圖像軌道會貢獻給一特定視埠而不需要搜索該組內的所有子圖像軌道。
發明人已藉由使用分組機制對合成軌道獲取做出技術改良,其可被用於為由一組子圖像軌道共同攜帶的內容指定全局元資料(例如,一感興趣區域),該等子圖像軌道之每一具有該組的分組元資料。分組元資料可指定與該組相關的子圖像軌道。分組元資料也可指定複數二維子圖像軌道(例如,基於子圖像組成軌道組盒及/或由子圖像組成軌道組盒所指示的軌道頭)每一之放置信息(例如,寬度,高度,組成矩陣(composition matrix)),該等軌道可用於自該等二維子圖像軌道合成取樣圖像。分組元資料可進一步指定一組成布局操作(例如,背景及/或混合信息),例如如果該畫面包含一組成布局(例如,其可或可不包含一間隙及/或重疊)時用於調整該組成的操作。
在下面說明中,會列舉關於揭露之主題之系統及方法的各種具體細節以及如此系統及方法可能操作的環境等,以提供揭露之主題的透徹理解。另外,可以理解的是下面提供的例子是示範性的,可考慮到其他系統及方法也落在揭露之主 題的範圍內。
第1圖顯示根據一些實施例之一示例視訊編解碼配置100。攝像機102A-102N是N個攝像機,且可以是任何類型的攝像機(例如包含音頻錄製能力的攝像機,以及/或分離的攝像機與音頻錄製功能)。編碼設備104包含視訊處理器106與編碼器108。視訊處理器106處理來自攝像機102A-102N的視訊,例如拼接(stitching),投影及/或映射。編碼器108編碼及/或壓縮二維視訊資料。解碼設備110接收該編碼資料。解碼設備110可接收該視訊作為一視訊產品(例如,數位視訊碟,或其他電腦可讀媒體),其透過廣播網路,透過行動網路(例如,小區網路),以及/或透過Internet接收。解碼設備110可以是,例如,電腦,手持設備,頭戴顯示的部分,或任何其他具有解碼能力的裝置。解碼設備110包含一解碼器112,用於解碼該編碼視訊。解碼設備110也包含一渲染器114,用於將二維內容渲染回球面。顯示器116顯示來自渲染器114的渲染內容。
感興趣區域(region of interest,ROI)概念上有些類似於視埠。一ROI可,舉例而言,代表全向視訊的3D或2D編碼中一區域。一ROI可具有不同形狀(例如正方形,或圓形),其可相對於該3D或2D視訊指定(例如,基於位置,高度等)。例如,感興趣區域可代表圖像中一個可被放大的區域,以及針對該放大視訊內容,對應ROI視訊可被顯示。一些實施例中,ROI視訊已被單獨準備。如此實施例中,感興趣區域通常具有一攜帶該ROI內容之分離視訊軌道。因此,該編碼視訊可用於 指定該ROI,以及指定ROI如何與該有關視訊相關聯。
ROI或視埠軌道,例如分別編碼的ROI軌道,可與主視訊相關聯。例如,ROI可與一主視訊相關聯以允許放大及縮小操作,其中ROI用於給放大區域提供內容。例如,MPEG-B,第10部分,發表於2016年6月2日(w16191)的題為“Carriage of Timed Metadata Metrics of Media in ISO Base Media File Format”,其透過參考整體引入本申請,其描述了ISO基礎媒體文件格式(Base Media File Format,ISOBMFF),其可使用一定時元資料軌道來發信表示一主2D視訊軌道包含一2D ROI軌道。
通常,3D內容可使用球面內容而表示來提供一場景的360度視圖(例如,有時稱為全向媒體內容)。雖然藉由3D球面可支援數個視圖,終端用戶一般僅觀看3D球面上的部分內容。需要傳送該整個3D球面的頻寬可對網路造成巨大負擔,且可不夠支援球面內容。因此需要使3D內容傳送更高效。可執行視埠獨立處理(viewport dependent processing)來改善3D內容傳送。3D球面內容可被分割為複數區域/塊(tiles)/子圖像,且僅提供與觀看螢幕(例如,視埠)相關的域/塊(tiles)/子圖像,使得僅有那些與觀看螢幕(例如,視埠)有關的被發送並傳送給終端用戶(例如,透過有線或無線連接或透過任何電腦可讀儲存媒介)。
第2圖顯示根據一些實施例的用於VR內容的視埠獨立內容流程200。如圖所示,球面視埠201(例如,可包含整個球面)在區塊202進行拼接,投影,映射(以產生投影且映射 區域),在區塊204編碼(以產生多種品質的編碼/轉碼塊),且在區塊206(以塊形式)傳送,且在區塊208解碼(以產生解碼塊),在區塊210構造(以構造一球面渲染視埠),且在區塊212渲染。在區塊214的用戶交互可選擇一視埠,其可開啟數個如圖中虛線箭頭所示的“即時(just-in-time)”進程步驟。
於步驟200,由於當前網路頻寬限制及各種適配需求(例如,不同品質,不同編解碼器(codecs)以及不同保護機制),使用3D球面或任何其他3D模型的表示的VR內容首先被處理(stitched,projected and mapped)至一2D平面(藉由區塊202),然後封裝進數個基於塊(tile-based)或基於子圖像(or sub-picture-based)且分段的文件(在區塊204),以播放及傳送。在這樣一基於塊且分段的文件中,2D平面中一空間塊(例如,其通常表示2D平面內容中一矩形的空間部分)通常被封裝為其變形的集合(例如,像在不同品質及碼率中,或在不同編解碼器及保護機制(例如,不同加密算法及模式))。一些實施例中,這些變形對應MPEG DASH中的適配組(adaptation sets)內的表示(representations)。一些實施例中,這是基於用戶對視埠的選擇,以致這些不同塊的某些在放到一起時,提供了該選擇視埠的覆蓋,這些塊從接收器取回或傳送至接收器(透過傳送區塊206),且然後解碼(在區塊208)來構建並渲染需要的視埠(在區塊210與212)。
如第2圖所示,視埠觀點(viewport notion)是終端用戶所觀看的,這涉及球面上的區域的角度及尺寸。視埠能變化因此不是靜止的。例如,當用戶移動頭,系統需要抓取鄰近 塊(或子圖像)來覆蓋用戶接著想看的內容。可是,在執行視埠獨立處理後,例如包含裁剪(chopping)圖像及/或編碼不同品質,技術上並不允許指定或關聯元資料至整個圖像,或至整個3D球面內容。
ISOBMFF包含一些軌道分組機制(例如,哪些可用來分組塊)。例如,像軌道組盒(Track Group Box)'trgr'及軌道選擇盒(Track Selection Box)'tsel',可用於標記及發信給它們分別作為一軌道組(group of tracks)與一備選軌道組(alternate group of tracks)。藉由使用這樣的盒子(boxes),具有同樣組識別符(group identifier)與組類型(group type)的每個軌道屬於一相同組。可是,這樣的軌道分組機制,透過標記每個軌道,可在用於一般視埠獨立內容流(generic viewport dependent content flow)進程時帶來數個問題。這些問題可來自,例如,沒有單個“tile”軌道表示一塊的變形軌道(variant tracks)的內容的事實,沒有單個軌道表示整個球面VR的內容的事實,等等,其中整個球面VR的內容是所有單獨“tile”軌道的合成。問題可包含,例如,在決定多少軌道屬於一特定組時的低效,而不需要掃描該文件內或所有相關文件中的所有軌道。
一些實施例中,視埠或ROI可用一合成軌道發信。使用一合成軌道提供一單個軌道,其可用於表示一塊的變型軌道的內容。作為更進一步的例子,使用合成軌道能幫助建造一軌道等級(track hierarchy)以指示就合成關係而言軌道是如何關聯的,例如,當合成軌道從變型軌道及(合成)塊軌道獲取時。
獲取的軌道可由包含類型‘dtrk’的取樣入口的 軌道所識別。一獲取的取樣可包含要順序執行的操作的次序表,這些操作要對一次序表內的對應圖像或取樣,這些對應圖像或取樣是來自於一次序表的輸入軌道。每一該等操作可藉由TransformProperty指定或指示。例如,TransformProperty操作可包含識別(identity,'idtt');清潔光圈(clean aperture,'clap');旋轉(rotation,'srot');分解(dissolve,'dslv');裁剪(crop,'2dcc');等等。
為了支援VR視埠獨立內容流進程,額外的TransformProperty項目可用於從現存的軌道獲取合成軌道。可產生各種類型的合成軌道,例如所有視訊軌道的合成(‘cmpa’),僅一個軌道的合成(‘cmp1’,其允許在取樣及取樣組級的切換),任何軌道的合成(‘cmpn’,其允許在取樣及取樣組級的切換),僅選擇一個軌道(‘sel1’,其可以是軌道級選擇,且可不包含在取樣級的切換),任何軌道的選擇(‘seln’,其可以是軌道級選擇,且可不包含在取樣級的切換),縮放(‘scal’),調整尺寸(‘resz’),等等。例如,‘cmpa’轉換屬性可指定一獲取取樣的參考寬度與參考高度,並將每一輸入圖像依照其對應的指定x,y位置及指定尺寸放置(例如組合)到獲取取樣上。‘cmp1’轉換屬性可指定獲取取樣的參考寬度與參考高度,並將一個或任何一個或僅一個輸入圖像,依照其對應位置及對應尺寸放置(例如組合)到獲取取樣上。‘cmpn’轉換屬性可指定獲取取樣的參考寬度與參考高度,並將一個或多個輸入圖像,依照其對應位置及對應尺寸放置(例如組合)到獲取取樣上。‘sel1’轉換屬性可指定獲取取樣的參考寬度與參考高度,並將一個或多個輸入圖像,依照其對 應位置及對應尺寸放置(例如組合)到獲取取樣上。‘sel1’轉換屬性可以是從一列表的輸入軌道中選擇一個軌道。‘seln’轉換屬性可指定獲取取樣的參考寬度與參考高度,並將一個或多個輸入圖像,依照其對應位置及對應尺寸放置(例如組合)到獲取取樣上,其中輸入圖像來自從整個轉換中選擇的輸入軌道的同一子集(subset)。‘seln’轉換屬性可以是從一列表的輸入軌道中選擇n(n>0)個軌道。
實質上,‘cmpa’,‘cmp1’,‘cmpn’,‘sel1’與‘seln’指定了數個像‘2dcc’的欄位,其根據各別的定義與語義提供2D空間信息,以合成輸入2D圖像取樣至獲取2D圖像取樣上。根據一些實施例,依靠這些額外TransformProperty項目,一“tile”軌道可被指定為使用‘cmp1’或‘sel1”的其“variant”軌道的獲取的合成軌道。整個VR球面內容的軌道,當投影至2D平面上時,可被指定為使用‘cmpa’的其“tile”軌道的獲取的合成軌道。一視埠或ROI軌道可被指定為使用‘cmpn’或‘seln’的其“tile”軌道的獲取的合成軌道。此技術發表於2017年1月題為“Deriving Composite Tracks in ISOBMFF”,在m33971中敘述,其以引用方式整體納入本申請,提供將2D合成軌道映射回球面3D內容的技術。
上述之合成軌道獲取機制在transformProperty操作或在子圖像軌道頭或在兩者中對投影或合成圖像使用該等子圖像軌道之每一的放置的信息或元資料。這裡討論的新的合成軌道獲取機制可在該等子圖像組成軌道使用軌道分組機制而組在一起時使用子圖像組成軌道的分組元資料中所提供的 放置信息或元資料(例如,子圖像組成軌道組盒及/或由子圖像盒成軌道組盒指示的軌道頭)。
第3圖顯示根據一些實施例的使用一合成軌道來發信一視埠/ROI的示意圖300。四個2D子圖像(或塊)軌道t1-t4(302)針對兩種不同品質(例如,‘h’表示HD,而‘s’表示SD)以及兩個不同加密模式(例如,共同加密機制(Common Encryption Scheme,CENC)具有兩個加密模式,‘a’表示計數器(Counter,CTR)以及‘b’表示加密塊鏈(Cipher Block Chaining,CBC))被編碼。編碼及加密產生總共十六個軌道中四個軌道304A-D(總稱為編碼軌道304)的四個不同組。編碼塊304A對應使用第一加密模式(‘a’)的高品質(‘h’)編碼,因此記為‘ha’。編碼塊304B對應使用第二加密模式(‘b’)的高品質(‘h’)編碼,因此記為‘hb’。編碼塊304 C對應使用第一加密模式(‘a’)的低品質(‘l’)編碼,因此記為‘la’。編碼塊304 D對應使用第二加密模式(‘b’)的低品質(‘l’)編碼,因此記為‘lb’。
合成軌道基於編碼軌道304而產生。塊從編碼軌道304選取。塊可基於一個或多個轉換屬性(例如,如上所述的TransformProperties列表中的)選取。例如,本實施例根據下面所示的操作選擇四塊s1-s4:
s1=sel1{cmp1{t1ha,t1la},cmp1{t1hb,t1lb}}
s2=sel1{cmp1{t2ha,t2la},cmp1{t2hb,t2lb}}
s3=sel1{cmp1{t3ha,t3la},cmp1{t3hb,t3lb}}
s4=sel1{cmp1{t4ha,t4la},cmp1{t4hb,t4lb}}
參考上面的示範操作,使用了組成(cmp1)與選擇 (sel1),因為合成軌道來自於用不同品質及加密模式編碼的多個不同軌道。品質變數首先用‘cmpl’合成,然後加密變數用‘sel1’合成。例如,假設一個m x n格的子圖像軌道,其中每一子圖像具有q個不同品質且以2種模式加密,那麼就有m x n x q x 2個軌道。但是當適應性流傳送(streaming)該內容時,僅有相關連接頻寬的品質被動態選擇,而加密模式是固定選擇的。因此,如上所述,‘cmp1’用於在取樣或取樣組級選擇合適品質塊,‘sel1’用於在軌道級選擇合適加密塊。
對選擇的軌道306執行合成以將子圖像組成為2D內容軌道。合成進程產生一組成軌道C 308及組成軌道r 310。組成軌道C 308可包含所有來自選擇軌道306的資料,而組成軌道r 310可包含來自選擇軌道306的一子集的資料。組成軌道C 308可用例如cmpa{s1,s2,s3,s4}產生,其合成所有塊。一些實施例中,如果ROI或視埠涉及或被塊t1,t2,t3及t4中任何覆蓋,ROI或視埠軌道可用‘cmpn’決定(例如,以及/或可能的其他轉換屬性,如果涉及裁剪,調整尺寸或旋轉)。例如,該ROI或視埠組成軌道r 310可用cmpn{s1,s2,s3,s4}來決定。一些實施例中,如果一ROI或視埠涉及或僅被塊t1與t2覆蓋,一ROI或視埠軌道可使用‘cmpa’決定(例如,以及/或可能的其他轉換屬性,如果涉及裁剪,調整尺寸或旋轉)。例如,組成軌道r 310可產生作為cmpa{s1,s2}。編碼器產生一元資料軌道m 312,例如定時元資料軌道。
如第2圖所示,視埠觀點是終端用戶所觀看的,其可基於3D球面上的觀看區域的角度及/或尺寸指定。如前提 及,視埠不是固定的。例如,當用戶移動頭,然後視埠改變,所以系統需要抓取其他塊(或子圖像),例如鄰近塊,來覆蓋用戶接下來想要觀看的內容。可是,在執行視埠獨立處理後,例如包含裁剪(chopping)圖像及/或編碼不同品質,技術上不允許指定或關聯元資料至整個圖像,或至整個3D球面內容。例如,現存技術不提供用於組成布局的指定組成布局操作,例如間隙及重疊。
文件格式,例如MPEG文件格式,可包含軌道分組機制。軌道分組機制可用來標記各個軌道以組成軌道組。例如,前述的軌道組盒欄位“trgr”可包含屬於一類組(generic group)的軌道。又一例子中,也於前述的軌道選擇盒“tsel”可包含屬於一選擇性組(selective group)的軌道。
文件格式也可包含構造及/或獲取軌道的技術。例如獲取技術可用於將塊/子圖像合併為更大圖像,例如,來指示更大圖像包含某些區域。一些技術可在時間域內操作,例如從其他軌道聚集(aggregat)或提取時間分段。圖像處理操作也可用來構造及/或獲取軌道,且可包含,例如,識別,裁剪,旋轉及/或分解(dissolve)操作。軌道構造及/或獲取(derivations)可被用來從一軌道取走一副本(copy)然後將其與來自另一軌道的另一特徵連接(concatenate)以形成節目。例如,它們可被用於播放一廣告然後切換至另一個廣告,如此繼續。在另一例子中,他們可被用於插入一廣告進一節目中(例如,對於具有來自兩個不同軌道的構造軌道的獲取,兩個軌道一個來自廣告軌道一個來自TV軌道)。
文件格式可包含轉換,例如轉換矩陣(例如,可存在於軌道頭中)。每一軌道頭能包含一轉換矩陣來指定軌道自身的圖元如何轉換為一更大圖像,例如在被放進一不同/更大圖像時。轉換矩陣可被用於簡單操作(例如,圖元倍增(pixel doubling),90°旋轉)以及/或複雜操作,例如,剪切(shearing),任意旋轉(arbitrary rotation)。
文件格式也可包含混合元資料,例如alpha混合元資料,其可用於執行兩個實體的alpha混合。alpha混合元資料可在把軌道放在一起時用於間隙或重疊部分。所以混合元資料可用於預先考慮疊放(overlay)以及/或間隙,且可被用於指明疊放應該如何做,間隙應該如何填充(例如,間隙可用背景,視訊等填充),等等
一些實施例中,alpha混合參數可包含合成信息,模式信息,及/或具體參數。例如,對於ISOBMFF,可針對alpha混合元資料而指定數個欄位。compositing_top_left_x與compositing_top_left_y欄位可指定相對參考座標原點的合成空間的左上角,參考座標原點可藉由一應用指定,或藉由包含媒體資料之該基礎軌道(base track)與塊軌道之一包容器格式(container format)指定。compositing_width與compositing_height欄位可指定在合成後的輸出圖像之寬度與高度。欄位alpha_blending_mode可指定alpha混合模式。包含多個模式及具有默認參數的對應算法的表格可於一單獨文件中指定,例如ISO/IEC 23001-8以及/或W3C建議。第5A-5B圖顯示alpha_blending_mode之示例表格500。每一軌道的 TrackHeaderBox中的‘layer’的參數值,其指定了視覺軌道從前到後的順序,這可被設置並作為合成兩個軌道的相對前後層的指示器。在表格500中,詞‘Source’與‘Destination’可分別針對前/頂(front/top)層以及後/底(back/bottom)層或背景(backdrop)互換使用。欄位blending_mode_specific_params可指定具有給定混合模式的可選參數(例如,除了使用在例如ISO/IEC 23001-8中的默認值,其可包含alpha頻道資料)。
可採用一些機制來指示視覺項目的空間信息,其可用於,例如獲取合成軌道。例如,合成軌道的獲取於2017年四月公開於m40384中,題為“Deriving Composite Tracks in ISOBMFF using track grouping mechanisms”,澳大利亞,霍巴特,以及在2017年一月瑞士日內瓦發表的題為“Deriving Composite Tracks in ISOBMFF”的m39971,其內容整體透過引用納入本申請。文件格式,例如MPEG文件格式(例如,MPEG ISOBMFF文件格式),可包含使用軌道分組的合成軌道獲取的技術。提到MPEG,例如合成信息可在所有‘cmpa’轉換屬性的合成中提供。通常,‘cmpa’可用來指定每個軌道的偏移信息,其屬性在轉換屬性(Transform Property)中指定。當存在時,‘cmpa’可指定輸入軌道的數量(例如,由num_inputs指定)大於或等於1。另一例子中,‘cmpa’可指定對應圖像操作的輸入實體是視覺軌道。輸入軌道可被限制,使得它們都屬於同個軌道組(例如,輸入軌道都包含具有相同track_group_id值的軌道組盒(Track Group Box)‘trgr’),且不是任意兩個軌道屬於同個備選軌道組(例如,它們不包含具有相同非零的alternate_group 值的Track Header Box‘tkhd’,其中相同非零的alternate_group值指示它們屬於同個備選組,來用於從備選組中僅選擇一個。)
在MPEG中,取樣‘cmpa’轉換屬性的欄位可與ISO/IEC 23001-10指定的定時元資料取樣入口及取樣具有相同語義,(例如在文件n15177中描述,題為“Text of ISO/IEC 14496-12第5版,ISO Base Media File Format”,2015年二月,瑞士日內瓦,其透過引用整體納入本申請)。這可以,例如,用於將每個輸入圖像考慮作為獲取圖像的一ROI考慮。這些欄位可包含reference_width與reference_height,其可給出參考矩形空間的寬度及高度,所有座標(例如top_left_x,top_left_y,寬度及高度)計算都在此空間內。reference_width與reference_height欄位可指定獲取圖像的尺寸,其是對應輸入視覺軌道的所有輸入圖像的合成。
欄位也可包含top_left_x與top_left_y,其分別指定矩形區域的左上角的水平及垂直座標,矩形區域是對應軌道的輸入媒體圖像要放置的地方。欄位也可包含寬度及高度,其可分別指定矩形區域的寬度及高度,矩形區域是對應軌道的輸入媒體圖像要放置的地方。
因此,‘cmpa’轉換屬性可指定獲取取樣的參考寬度及高度(例如,reference_width與reference_height),且可把每個輸入圖像以對應尺寸的寬度及高度及由top_left_x與top_left_y指定的對應的位置,放置(或合成)到獲取的取樣上。
因為‘cmpa’欄位可具有與ISO/IEC 23001-10中指定的‘2dcc’中這些欄位的相同語義,指定‘cmpa’轉換屬性的另 一種方法是包含輸入軌道的一額外列表,其大小等於num_inputs,以指示每個額外輸入軌道是‘2dcc’定時元資料軌道(例如,二維迪卡爾座標軌道),且其可攜帶對應輸入軌道的空間信息座為獲取軌道的一ROI。轉換屬性可使用這些元資料軌道來合成輸入視覺軌道進獲取軌道。
可用來獲取合成軌道的空間信息的指定的技術的另一例子是子圖像組成軌道分組(例如,‘spco’分組)。通常,‘spco’是一個軌道組類型,其包含子圖像組成信息,例如x與y偏移,軌道寬度及高度,及/或輸出(或合成)寬度及高度。每個子圖像軌道攜帶‘spco’分組盒來指示其組與相關信息,且也包含子圖像信息。在MPEG ISOBMFF中,具有track_group_type等於‘spco’的TrackGroupTypeBox指示該軌道屬於一軌道合成,其可進行空間排列以獲得適合展現的圖像。被映射到此分組的視覺軌道(例如,其在TrackGroupTypeBox內具有相同的track_group_id,且track_group_type等於‘spco’)共同代表可被展現的視覺內容。適合展現的圖像可透過將同個子圖像組成軌道組的軌道的時間平行取樣(time-parallel samples)進行空間上排列,如軌道組的語法元素所指示。
‘spco’軌道分組可包含各種欄位。第4A圖顯示根據一些實施例的示例‘spco’軌道分組400。欄位track_x402指定,以亮度取樣單元計,合成圖像的該軌道的取樣的左上角的水平位置。track_x 402的值的範圍可從0到cormposition_width 410-1,包含端點。欄位track_y 404指定,以亮度取樣單元計,合成圖像的該軌道的取樣的左上角的垂直位置。track_y 404的值的範圍可從0到composition_height 412-1,包含端點。欄位track_width 406指定,以亮度取樣單元計,合成圖像的該軌道的取樣的寬度。track_width 406的值的範圍可從1到composition_width 410-track_x 402,包含端點。欄位track_height 408指定,以亮度取樣單元計,合成圖像的該軌道的取樣的高度。track_height 408的值的範圍可從1到composition_height 412-track_y 404,包含端點。欄位composition_width 410指定,以亮度取樣單元計,合成圖像的寬度。composition_width 410的值大於等於track_x 402+track_width 406。欄位composition_height 412指定,以亮度取樣單元計,合成圖像的高度。composition_height 412的值大於等於track_y 404+track_height 408。
子圖像組成軌道組也可使用矩陣值來指定。通常,矩陣值可以多種方式指定。例如,矩陣值可藉由形成由子圖像自身當作自己元資料攜帶的一組來指定。又一例子中,矩陣值可由形成一子圖像組成軌道組來指定,關於合成的信息可由該組盒及/或由該軌道頭攜帶。
例如,在MPEG ISOBMFF中,子圖像軌道分組盒在n16824中描述,題為“Text of ISO/IEC DIS 23090-2,Omnidirectional Media Format”,發表於2017年四月,澳大利亞,霍巴特,其透過引用整體納入本申請。子圖像組成盒被修改以使用軌道頭盒中的矩陣值(例如,在m41002描述,題為“OMAF:Sub-Picture Track Composition Processing”,發表於2017年七月,義大利,都靈,其透過引用整體納入本申請), 且允許疊放混合(例如,在m40401中提出,題為“Carriage of alpha compositing metadata in MPEG file format”發表於2017年四月,澳大利亞,霍巴特,其透過引用整體納入本申請。)第4B圖顯示根據一些實施例的使用矩陣值的‘spco’450。欄位包含如前所述的composition_width 452及composition_height 454,以及composition_width 410與composition_height 412。欄位也可包含矩陣456,如本例子中所示。矩陣456可如第4C圖中的示例矩陣470所示來概括說明。例如,點(p,q)可使用矩陣470被轉換為(p’,q’)。矩陣470中的值儲存順序為{a,b,u, c,d,v, x,y,w}。矩陣470與(p,q,1)相乘以計算(m,n,z),其中m=ap+cq+x;n=bp+dq+y;及z=up+vq+w。然後,(m,n,z)可藉由計算p’=m/z;q’=n/z來計算(p’,q’)。進一步參考矩陣456,(u,v,w)被限制為(0,0,1),十六進制值(0,0,0x40000000)。
欄位還可包含寬度458與高度460,其分別指定合成圖像上的此軌道的取樣的,以亮度取樣單元計的,寬度及高度。層欄位462指定視訊軌道從前到後的順序。欄位composition_width 452指定為大於或等於x+width 458,且composition_height 454大於或等於y+height 460。矩陣456,寬度458,高度460,及層462在軌道用於展現時可具有如m39971所描述的相同語義。若這些欄位存在時,然後它們會分別重寫TrackHeaderBox中的矩陣,寬度,高度及層欄位。否則,若這些欄位不存在,使用TrackHeaderBox中的矩陣,寬度,高度及層,其中寬度,高度的旗標的值是0x000002(用 於展現)。
這些欄位也包含alpha_blending_mode 464,其指定alpha混合模式。混合模式的值可包含,例如,如第5A-5B圖中所示的示例表格500。這樣的表格及相關具有默認參數的算法可在一單獨MPEG文件中指定,例如ISO/IEC 23001-8及/或W3C建議(例如“Composing and Blending 1.0”,W3C後選建議,2015年一月)。每個軌道的TrackHeaderBox的‘layer’參數值可被設定並作為合成兩個軌道的相對前後層指示器,其指定了視覺軌道的從前到後順序。
欄位也可包含blending_mode_specific_params欄位466,以指定給定混合模式的可選參數,除了使用例如在ISO/IEC 23001-8中指定的默認參數。例如參數可包含alpha頻道資料。
發明人已經確認現有的合成軌道獲取技術不提供將全局信息與由一組子圖像軌道共同攜帶的內容關聯。例如,現有技術不允許元資料與整個圖像關聯,例如識別整個圖像中一特定感興趣區域的元資料。例如,用戶需要識別3D內容的一部分來觀看(例如,若在某個角度或視點存在你想要呼叫遠端用戶的東西,這需要加亮3D內容的該部分)。可是,因為視埠獨立處理技術會破壞整個3D圖像,可能無法識別內容的一部分來指給用戶。因此,現有技術不提供指定任何全局信息給由一組子圖像軌道共同攜帶的內容。
例如,軌道分組機制可用來關聯子圖像與一組,可是軌道分組機制不提供識別每一子圖像軌道是否貢獻給一 特定區域(例如,如前所述的特殊感興趣區域)。如一例子中,所有子圖像軌道可形成一組更大的3D圖像,可是在摘要中沒有實體可支撐該組-沒有辦法來關聯元資料到該組子圖像軌道。例如,為了關聯元資料與子圖像軌道,所有子圖像軌道會需要攜帶同樣元資料,這是複雜且難以維持的,且仍然破壞元資料與軌道間的任何關系。如另一例子中,很難構造或設計一特定視埠,該視埠僅從子圖像軌道的數個中抓取內容來形成該視埠。因此,使用現存的分組技術,很難指定及/或決定哪個子圖像軌道會貢獻給一特定視埠,而不搜查組內全部子圖像。如又一例子,分組技術並不包含任何順序或組織-每一子圖像軌道僅是具有一標記指示該軌道是該組的部分。因此,例如,若3D內容包含數個組,必須要檢查每一子圖像軌道來決定子圖像軌道屬於哪個組。
發明人研發出用於獲取合成軌道的針對現存文件格式的技術改良。該技術可用於指定全局元資料給子圖像軌道組。該技術可允許子圖像軌道組以允許元資料與軌道組的內容關聯的方式被指定,而不需要每個子圖像軌道單獨指定。元資料可指定軌道獲取如何執行。一些例子中,技術可用於,例如,指定疊放情況下的標準,包含決定背景來填充及/或合並。
發明人研發出用於合成軌道獲取的技術改良。如此處所討論,發明人已經開發用於合成軌道獲取之技術,其使用具有軌道空間信息的子圖像組成軌道分組的標記機制(labeling mechanisms)。發明人還開發出用於合成軌道獲取之技術,其使用具有矩陣的子圖像組成軌道分組。例如,如前所 述,矩陣信息可在ISOBMFF的軌道的頭信息內包含矩陣值,其可提供轉換信息,空間合成信息,及/或alpha合成元資料。
一些實施例中,該技術可用在軌道分組盒中指定的信息(例如前述的n16824及m41002中指定的)替換軌道合成空間信息(例如,根據上述的m40384及m39971,在TransformProperty中明確指定的)。借助這些與前文揭露之實施例,一整個2D幀軌道可指定為由相關塊或子圖像軌道組成的一獲取合成軌道(例如第2圖中的308,310)。另外,或可選的,任何ROI軌道可被指定為由相關覆蓋塊或子圖像軌道組成一獲取合成軌道。
第6圖顯示根據一些實施例之合成軌道600的例子。軌道合成軌道v 600由其它塊/子圖像軌道v1 602A到vr 602R合成。定時元資料軌道可與對應軌道關聯(例如,或可參考)以提供這些軌道內的媒體內容的元資料。如圖所示,例如,定時元資料軌道604與合成軌道v 600關聯,且定時元資料軌道與每一塊/子圖像軌道關聯,如圖中定時元資料軌道606A與塊/子圖像軌道v1 602A關聯以及定時元資料軌道606R與塊/子圖像軌道vr 602R關聯。
第7圖顯示根據一些實施例之具有背景及alpha混合信息的子圖像軌道分組合成700。軌道分組合成700延伸所有‘tgcp’轉換屬性702的合成。如下面進一步討論,軌道分組合成700轉換屬性可指定一單色畫面背景,一單個圖像背景,以及/或發信該混合信息。軌道分組合成700轉換屬性可用於指定獲取軌道,它們取樣圖像的每一是一更大畫面,該畫面與 一或多個輸入軌道的取樣圖像以與它們排列的順序同樣的分層順序相互疊放(例如,先是最底層的輸入圖像,依次,直到最後最頂層的輸入圖像)。同個子圖像組成軌道組的軌道的時間平行(time-parallel)取樣可根據軌道組的語法及語義在空間排列。一些實施例中,可如在n16824中指定那樣,基於相關的子圖像組成軌道組盒‘spco’指定各方面。例如,畫面的尺寸可由composition_width與composition_height指定,且輸入軌道的取樣圖像的尺寸及位置可由相關子圖像組成軌道組盒‘spco’中的track_width,track_height,track_x and track_y指定。
一些實施例中,延伸的轉換屬性可施加約束。例如,‘tgcp’702指示輸入入口num_input的數量大於或等於1,及/或輸入實體為視覺軌道。一些實施例中,約束可用於輸入軌道。例如,所有輸入軌道可屬於同個軌道組,使得每一輸入軌道包含子圖像組成軌道組盒‘spco’具有一同樣track_group_id值,‘spco’如上討論且在n16824中指定。另外,或可選地,約束可包含沒有任何兩個軌道屬於同個備選軌道組(例如,它們不包含具有同個非零alternate_group值的軌道頭盒‘tkhd’,同個非零alternate_group值指示它們屬於同個備選組,用於從備選組中僅選擇一個)。因此,背景與混合信息可包含於軌道分組合成700中,且子圖像軌道可使用‘spco’盒中的信息放在一起(例如,使得軌道分組合成700指定由每個子圖像軌道攜帶的‘spco’盒中的信息是用於執行合成)。
background_flag 704指示用於獲取合成軌道的背 景類型。零值表示沒有指定背景。當背景旗標等於一時(例如background_flag 704 & 1等於1),背景是彩色背景,色彩值由canvas_fill_value 706指定。canvas_fill_value 706可指示每個頻道使用的圖元值,例如,若在一特定圖元位置沒有任何輸入圖像的圖元。填充值可用RGBA指定(例如,對應迴路計數器j分別等於0,1,2,與3的紅,綠,藍及A)。RGB值可落在IEC 61966-2-1中指定的sRGB彩色空間內。A值可為一線性不透明度值,範圍從例如0(完全透明)到65535(完全不透明)。當背景旗標等於二時(例如background_flag & 2等於2),背景是由image_item_ID 708識別的圖像。由image_item_ID識別的圖像可被縮放來覆蓋背景。例如,圖像可用子圖像組成軌道分組‘spco’中的composition_width與composition_height指定的尺寸縮放。
blending_flag 710指示在獲取合成軌道中疊放輸入視覺軌道時是否涉及混合。若是一,涉及混合,或若是零(或其他除了一之外的值),不涉及混合。alpha_blending_mode 712指定alpha混合模式。混合模式可用段落2.3.2中的示例表格中的值來指定。可使用第5A-5B圖中的示例表格500的值。每個軌道的TrackHeaderBox中的‘layer’的參數值,其指定視覺軌道的從前到後的順序,可被設置並可作為合成兩個軌道的相對前後層指示器使用。blending_mode_specific_params 714指定具有給定混合模式的可選參數。例如,blending_mode_specific_params 714可指定例如ISO/IEC 23001-8中指定的模認值之外的其他參數,例如上述的包含 alpha頻道資料。
第8圖顯示根據一些實施例具有背景及alpha混合信息的子圖像軌道組矩陣組成800的例子。軌道組矩陣組成800延伸了所有‘tmcp’轉換屬性802的合成。如下面進一步討論,軌道組矩陣組成800轉換屬性可指定一單色畫面背景,一單個圖像背景,及/或混合信息(例如,圖像疊放混合)。混合信息的信令可對子圖像組成軌道組盒‘spco’中的信令進行補充及/或重寫,如前討論及如m41002所提出的。
軌道分組合成800轉換屬性可用於指定獲取軌道,它們取樣圖像的每一是一更大畫面,該畫面與一或多個輸入軌道的取樣圖像以它們排列的順序同樣的分層順序相互疊放(例如,先是最底層的輸入圖像,依次,直到最後最頂層的輸入圖像)。藉由子圖像組成軌道組盒‘spco’指定各方面。例如,畫面的尺寸可由composition_width與composition_height指定,且輸入軌道的取樣圖像的尺寸及位置可透過子圖像組成軌道組盒‘spco’指示的由包含軌道的軌道頭TrackHeaderBox‘trkd’的寬度,高度及矩陣指定。
如前所述,延伸的轉換屬性可施加約束。例如,‘tmcp’可指示輸入入口num_input的數量大於或等於1,及/或輸入實體為視覺軌道。又如前所述,約束可用於輸入軌道(例如,使得所有輸入軌道屬於同個軌道組,並包含具有一同樣track_group_id值的‘spco’,且沒有任何兩個軌道屬於同個備選軌道組)。
background_flag 804指示用於獲取合成軌道的背 景類型。如background_flag 704,零值表示沒有指定背景。當背景旗標等於一時背景是彩色背景(具有由canvas_fill_value 706指定的色彩值),當值等於二時指示背景是由image_item_ID識別的圖像(例如基於composition_width與composition_height縮放)。canvas_fill_value指示若一特定圖元位置沒有任何輸入圖像的圖元時使用的每個頻道的圖元值。如前討論,canvas_fill_value 706值可用RGBA指定。
blending_flag 810指示在獲取合成軌道中疊放輸入視覺軌道時是否涉及混合。alpha_blending_mode 812指定alpha混合模式,例如使用像上面討論的alpha_blending_mode 712的值。類似的,如前討論的blending_mode_specific_params 714,blending_mode_specific_params 814可指定具有給定混合模式的可選參數,例如alpha頻道資料。
所揭露的技術可被使用來,例如支援小視圖改變(small view changes)。例如,可需要允許視圖以小幅增加來改變,以提供更佳體驗(例如,而非僅允許大幅變動)。小的移動經常會具有不同球面內容,並經常需要執行疊放操作。疊放操作可以是複雜的。例如,疊放可並非基於單個球面的疊放,而是也可包含來自不同球面的子圖元軌道。因此,在轉換屬性中指定疊放可帶來好處,例如相較於在子圖像軌道及/或頭中指定疊放信息,因為否則在產生子圖像軌道時,解碼設備並不知道其他軌道或球面(例如,其僅接收軌道本身)。
第9圖顯示根據一些實施例解碼多個子圖像軌道的合成軌道獲取的示例方法900。在步驟902,設備(例如第1 圖中的解碼設備110)接收與一視埠相關的多個編碼二維子圖像軌道。在步驟904,設備決定合成軌道獲取,用於合成視埠的多個二維子圖像軌道。如前討論,合成軌道獲取可包含指定該等二維子圖像軌道屬於同個組的資料,用於將來自該等二維子圖像軌道的取樣圖像合成(例如,基於子圖像組成軌道組盒及/或由子圖像組成軌道組盒指示的軌道頭)進與視埠相關的畫面中的放置信息(例如,寬度,高度,合成矩陣),以及/或用於調整組成布局(例如,包含處理間隙或重疊的操作)的組成布局操作(例如,背景及/或混合信息)。
在步驟906,設備決定該等二維子圖像軌道屬於同個組。在步驟908,設備根據該合成軌道獲取將該等二維子圖像軌道合成進該畫面。在步驟910,設備決定合成的二維子圖像軌道的兩個或更多個包含該組成布局。在步驟912,設備基於該組成布局操作來調整該組成,從而調整組成布局。
如前討論,組成布局操作可包含決定如何填充間隙。例如,合成信息可包含一旗標,其用於決定是否用固定顏色填充間隙,是否用一圖像作為背景,或是否使用視訊軌道內容作為背景。如前討論,組成布局操作包含用於決定是否執行混合的旗標。若要執行混合,合成信息可包含指定如何執行混合的參數。
又如前討論,每個二維子圖像軌道中包含的子圖像組成軌道組盒可指定畫面的寬度,高度或兩者。一些實施例中,畫面中的取樣圖像的尺寸,位置或兩者可在二維子圖像軌道的每個所包含的子圖像組成軌道組盒中指定。一些實施例中, 畫面中的取樣圖像的尺寸,位置或兩者可在包含二維子圖像軌道的軌道的軌道頭盒(track header box)中指定,且該包含軌道可在二維子圖像軌道的每個所包含的子圖像組成軌道組盒中指定。
根據本申請描述的原理操作的技術可以以任何合適的方式實現。上面的流程圖的處理和決策塊代標可以包括在執行這些各種過程的算法中的步驟和動作。從這些過程導出的算法可以實現為與一個或多個單用途或多用途處理器的操作集成並指導其操作的軟體,可以實現為功能等效電路,例如數字信號處理(DSP)電路或應用-專用集成電路(ASIC),或者可以以任何其他合適的方式實施。應當理解,這裡包括的流程圖不描繪任何特定電路或任何特定編程語言或編程語言類型的語法或操作。而是,流程圖示出了本領域技術人員可以用來製造電路或實現計算機軟體算法以執行執行本文所述技術類型的特定裝置的處理的功能信息。還應當理解,除非本文另有指示,否則每個流程圖中描述的特定步驟和/或動作序列僅僅是對可以實現的算法的說明,並且可以在本申請描述的原理的實現和實施例中變化。
因此,在一些實施例中,本文描述的技術可以體現為實現為軟體的計算機可執行指令,包括作為應用軟體,系統軟體,韌體,中間件,嵌入代碼或任何其他合適類型的計算機代碼。這樣的計算機可執行指令可以使用許多合適的編程語言和/或編程或腳本工具中的任何一種來編寫,並且還可以被編譯為在框架或虛擬機上執行的可執行機器語言代碼或中間 代碼。
當本文描述的技術體現為計算機可執行指令時,這些計算機可執行指令可以以任何合適的方式實現,包括作為多個功能設施,每個功能設施提供一個或多個操作以完成根據這些技術操作的算法的執行。然而,實例化的“功能設施”是計算機系統的結構組件,當與一個或多個計算機集成並由一個或多個計算機執行時,使得一個或多個計算機執行特定的操作角色。功能設施可以是軟體元素的一部分或整個軟體元素。例如,功能設施可以實施為進程功能,或作為離散進程,或作為任何其他合適的處理單元。如果這裡描述的技術被實現為多個功能設施,則每個功能設施可以以其自己的方式實現;所有這些都不需要以同樣的方式實現。另外,這些功能設施可以適當地並行和/或串行地執行,並且可以使用它們正在執行的計算機上的共享記憶體,使用消息傳遞協議,或其他合適的方式在任何一個之間傳遞信息。
通常,功能設施包括執行特定任務或實現特定抽像資料類型的例程,程序,對象,組件,資料結構等。通常,功能設施的功能可以根據需要在它們運行的系統中組合或分佈。在一些實現中,執行本文技術的一個或多個功能設施可以一起形成完整的軟體包。在替代實施例中,這些功能設施可以適於與其他不相關的功能設施和/或過程交互,以實現軟體程序應用。
這裡已經描述了用於執行一個或多個任務的一些示例性功能設施。然而,應當理解,所描述的功能設施和任務 劃分僅僅是可以實現本文描述的示例性技術的功能設施的類型的說明,並且實施例不限於以任何特定數量,劃分,或功能設施的類型。在一些實現中,所有功能可以在單個功能設施中實現。還應當理解,在一些實施方式中,本文描述的一些功能設施可以與其他功能設施一起實施或與其他功能設施分開實施(即,作為單個單元或單獨的單元),或者可以不實現這些功能設施中的一些。
在一些實施例中,實現本文描述的技術的計算機可執行指令(當實現為一個或多個功能設施或以任何其他方式實施時)可以在一個或多個計算機可讀介質上編碼以向媒體提供功能。計算機可讀介質包括諸如硬盤驅動器之類的磁介質,諸如光碟(CD)或數位通用碟(DVD)之類的光學介質,持久或非持久固態記憶體(例如,閃存,磁性),RAM等)或任何其他合適的存儲介質。這種計算機可讀介質可以以任何合適的方式實現。如這裡所使用的,“計算機可讀介質”(也稱為“計算機可讀存儲介質”)指的是有形存儲介質。有形存儲介質是非暫時性的並且具有至少一個物理結構組件。在如本文所使用的“計算機可讀介質”中,至少一個物理結構組件具有至少一個物理特性,該特性可在創建具有嵌入信息的介質的過程中,在其上記錄信息的過程中,或用信息編碼媒體的任何其他過程中以某種方式改變。例如,可以在記錄過程期間改變計算機可讀介質的物理結構的一部分的磁化狀態。
此外,上述一些技術包括以某些方式存儲信息(例如,資料和/或指令)以供這些技術使用的動作。在這些技術 的一些實現中-諸如將技術實現為計算機可執行指令的實現-該信息可以在計算機可讀存儲介質上編碼。在本文中將特定結構描述為存儲該信息的有利格式的情況下,這些結構可用於在編碼在存儲介質上時賦予信息的物理組織。然後,這些有利結構可以通過影響與信息交互的一個或多個處理器的操作來向存儲介質提供功能;例如,通過提高處理器執行的計算機操作的效率。
在其中技術可以體現為計算機可執行指令的一些但非全部實現中,這些指令可以在任何合適的計算機系統或一個或多個計算設備中操作的一個或多個合適的計算設備上執行(或者,一個或多個計算設備的一個或多個處理器)可以被編程為執行計算機可執行指令。計算設備或處理器可以被編程為當指令以計算設備或處理器可訪問的方式存儲時執行指令,例如在資料記憶體(例如,片上高速緩存或指令寄存器,可通過匯流排訪問的,可通過一個或多個網絡訪問並可由設備/處理器訪問的計算機可讀介質等)。包括這些計算機可執行指令的功能設施可以與單個多用途可編程數字計算設備的操作集成並指導其操作,兩個或更多個多用途計算設備的協調系統共享處理能力並且聯合執行本文描述的技術,專用於執行本文所述技術的單個計算設備或計算設備的協調系統(共址或地理分散),用於執行本文所述技術的一個或多個現場可程式化閘陣列(FPGA),或任何其他合適的系統。
計算設備可以包括至少一個處理器,網絡適配器和計算機可讀存儲介質。計算設備可以是例如台式或膝上型 個人計算機,個人數位助理(PDA),智能行動電話,服務器或任何其他合適的計算設備。網絡適配器可以是任何合適的硬體和/或軟體,以使計算設備能夠通過任何合適的計算網絡與任何其他合適的計算設備進行有線和/或無線通信。計算網絡可以包括無線接入點,交換機,路由器,網關和/或其他網絡設備以及用於在兩個或更多個計算機(包括因特網)之間交換資料的任何合適的有線和/或無線通信介質或介質。計算機可讀介質可以適於存儲要處理的資料和/或要由處理器執行的指令。處理器能夠處理資料和執行指令。資料和指令可以存儲在計算機可讀存儲介質上。
計算設備可以另外具有一個或多個組件和外圍設備,包括輸入和輸出設備。除其他之外,這些設備可用於呈現用戶界面。可用於提供用戶界面的輸出設備的示例包括用於輸出和揚聲器或其他聲音生成設備的視覺呈現的打印機或顯示屏,用於輸出的可聽呈現。可以用於用戶界面的輸入設備的示例包括鍵盤和指示設備,諸如滑鼠,觸摸板和數位化平板電腦。作為另一示例,計算設備可以通過語音識別或其他可聽格式接收輸入信息。
已經描述了以電路和/或計算機可執行指令實現這些技術的實施例。應當理解,一些實施例可以是方法的形式,其中已經提供了至少一個示例。作為方法的一部分執行的動作可以以任何合適的方式排序。因此,可以構造這樣的實施例,其中以不同於所示的順序執行動作,其可以包括同時執行一些動作,即使在示例性實施例中示出為順序動作。
上述實施例的各個方面可以單獨使用,組合使用,或者在前面描述的實施例中沒有具體討論的各種佈置中使用,因此不限於其應用於上述實施例中闡述的部件的細節和佈置。前面的描述或附圖中示出的。例如,一個實施例中描述的方面可以以任何方式與其他實施例中描述的方面組合。
在申請專利範圍中使用諸如“第一”,“第二”,“第三”等的序數術語來修改權利要求要素本身並不意味著一申請專利範圍要素優先於另一個或者時間的任何優先權,優先權或順序。執行方法的行為的順序,但僅用作標籤以將具有特定名稱的一個申請專利範圍元素與具有相同名稱的另一個元素(但是用於使用序數術語)區分,以區分申請專利範圍元素。
此外,這裡使用的措辭和術語是出於描述的目的,而不應被視為限制。本文中“包括”,“包含”,“具有”,“含有”,“涉及”及其變化形式的使用旨在涵蓋其後列出的項目及其等同物以及附加項目。
本文使用的“示例性”一詞意味著用作示例,實例或說明。因此,在此描述為示例性的任何實施例,實現,過程,特徵等應當被理解為說明性示例,並且除非另有指示,否則不應被理解為優選或有利示例。
已經如此描述了至少一個實施例的若干方面,應當理解,本領域技術人員將容易想到各種改變,修改和改進。這些改變,修改和改進旨在成為本公開的一部分,並且旨在落入本文描述的原理的精神和範圍內。因此,前面的描述和附圖 僅是示例性的。
902-912:步驟

Claims (16)

  1. 一種用於複數子圖像軌道的編碼一合成軌道獲取之編碼方法,該方法包含:編碼三維視訊資料,包含編碼與一視埠相關之複數二維子圖像軌道;編碼一合成軌道獲取,用於合成該視埠的該等二維子圖像軌道,其中該合成軌道獲取包含指示下列信息的資料:該等二維子圖像軌道屬於一同個組;該等二維子圖像軌道的每一的放置信息,其中該放置信息可用於將來自該等二維子圖像軌道的取樣圖像合成進與該視埠相關的一畫面;以及如果該畫面包含由合成於該畫面上的該等二維子圖像軌道的兩個或更多個所創建的一組成布局,則調整該組成之一組成布局操作;以及提供該編碼三維視訊資料與該組成布局操作;其中該組成布局包含於該畫面上合成的該等二維子圖像軌道的該兩個或更多個之間的一間隙,於該畫面上合成的該等二維子圖像軌道的該兩個或更多個的一重疊,或兩者。
  2. 如申請專利範圍第1項所述之編碼方法,其中編碼該合成軌道獲取包含:對該等二維子圖像軌道的每一所包含的一子圖像組成軌道組盒中的該畫面的一寬度,一高度,或兩者進行編碼。
  3. 如申請專利範圍第1項所述之編碼方法,其中編 碼該合成軌道獲取包含:對該等二維子圖像軌道的每一所包含的一子圖像組成軌道組盒中的該畫面的取樣圖像的一尺寸,一位置,或兩者進行編碼。
  4. 如申請專利範圍第1項所述之編碼方法,其中編碼該合成軌道獲取包含:對包含該等二維子圖像軌道的一軌道的一軌道頭盒中的該畫面的取樣圖像的一尺寸,一位置,或兩者進行編碼;以及對該等二維子圖像軌道的每一所包含的該子圖像組成軌道組盒中的包含軌道進行編碼。
  5. 如申請專利範圍第4項所述之編碼方法,其中編碼該合成軌道獲取包含:編碼該子圖像組成軌道組盒中的一矩陣,其中該矩陣用於將該等二維子圖像軌道的每個疊放於該畫面上。
  6. 一種解碼視訊資料以獲取一合成軌道之解碼方法,該方法包含:接收(a)與一視埠相關的複數編碼二維子圖像軌道以及(b)一合成軌道獲取,用於合成該視埠的該等二維子圖像軌道,其中該合成軌道獲取包含指示下列信息的資料:該等二維子圖像軌道屬於一同個組;該等二維子圖像軌道的每一的放置信息,其中該放置信息可用於將來自該等二維子圖像軌道的取樣圖像合成進與該視埠相關的一畫面中;以及 如果該畫面包含一獲取軌道中攜帶的該畫面上合成的該等二維子圖像軌道的兩個或更多個構建的一組成布局,則調整該組成的一組成布局操作;決定該等二維子圖像軌道屬於一同個組;以及根據該合成軌道獲取合成該等二維子圖像軌道進該畫面,以獲取一合成軌道,包含:決定該等合成二維子圖像軌道的兩個或更多個包含該組成布局;以及基於該組成布局操作,調整該組成來補償該組成布局,其中決定該等合成二維子圖像軌道的兩個或更多個包含該組成布局包含:決定該等合成二維子圖像軌道的兩個或更多個包含於該畫面上合成的該等二維子圖像軌道的該兩個或更多個之間的一間隙,於該畫面上合成的該等二維子圖像軌道的該兩個或更多個的一重疊,或兩者。
  7. 如申請專利範圍第6項所述之解碼方法,更包含解碼該合成軌道獲取,包含:對該等二維子圖像軌道的每一所包含的一子圖像組成軌道組盒中的該畫面的一寬度,一高度,或兩者進行解碼。
  8. 如申請專利範圍第6項所述之解碼方法,更包含解碼該合成軌道獲取,包含:對該等二維子圖像軌道的每一所包含的一子圖像組成軌道組盒中的該畫面的取樣圖像的一尺寸,一位置,或兩者進行解碼。
  9. 如申請專利範圍第6項所述之解碼方法,更包含解碼該合成軌道獲取,包含:對包含該等二維子圖像軌道的一軌道的一軌道頭盒中的該畫面的取樣圖像的一尺寸,一位置,或兩者進行解碼;以及對該等二維子圖像軌道的每一所包含的該子圖像組成軌道組盒中的包含軌道進行解碼。
  10. 如申請專利範圍第9項所述之解碼方法,其中解碼該合成軌道獲取更包含:解碼該子圖像組成軌道組盒中的一矩陣,其中該矩陣用於將該等二維子圖像軌道的每個疊放於該畫面上。
  11. 一種用於解碼視訊資料的裝置,該裝置包含與記憶體通信之一處理器,該處理器用於執行儲存於該記憶體內的複數指令,該等指令使該處理器執行下列操作:接收(a)與一視埠相關的複數編碼二維子圖像軌道以及(b)一合成軌道獲取,用於合成該視埠的該等二維子圖像軌道,其中該合成軌道獲取包含指示下列信息的資料:該等二維子圖像軌道屬於一同個組;該等二維子圖像軌道的每一的放置信息,其中該放置信息可用於將來自該等二維子圖像軌道的取樣圖像合成進與該視埠相關的一畫面中;以及如果該畫面包含一獲取軌道中攜帶的該畫面上合成的該等二維子圖像軌道的兩個或更多個構建的一組成布局,則調 整該組成的一組成布局操作;決定該等二維子圖像軌道屬於一同個組;以及根據該合成軌道獲取合成該等二維子圖像軌道進該畫面,以獲取一合成軌道,包含:決定該等合成二維子圖像軌道的兩個或更多個包含該組成布局;以及基於該組成布局操作,調整該組成來補償該組成布局,其中決定該等合成二維子圖像軌道的兩個或更多個包含該組成布局包含:決定該等合成二維子圖像軌道的兩個或更多個包含於該畫面上合成的該等二維子圖像軌道的該兩個或更多個之間的一間隙,於該畫面上合成的該等二維子圖像軌道的該兩個或更多個的一重疊,或兩者。
  12. 如申請專利範圍第11項所述之裝置,其中該等指令被進一步配置以使該處理器解碼該合成軌道獲取,包含:對該等二維子圖像軌道的每一所包含的一子圖像組成軌道組盒中的該畫面的一寬度,一高度,或兩者進行解碼。
  13. 如申請專利範圍第11項所述之裝置,其中該等指令被進一步配置以使該處理器解碼該合成軌道獲取,包含:對該等二維子圖像軌道的每一所包含的一子圖像組成軌道組盒中的該畫面的取樣圖像的一尺寸,一位置,或兩者進行解碼。
  14. 如申請專利範圍第11項所述之裝置,其中該等指令被進一步配置以使該處理器解碼該合成軌道獲取,包含:對包含該等二維子圖像軌道的一軌道的一軌道頭盒中的該畫面的取樣圖像的一尺寸,一位置,或兩者進行解碼;以及對該等二維子圖像軌道的每一所包含的該子圖像組成軌道組盒中的包含軌道進行解碼。
  15. 如申請專利範圍第14項所述之裝置,其中解碼該合成軌道獲取更包含:解碼該子圖像組成軌道組盒中的一矩陣,其中該矩陣用於將該等二維子圖像軌道的每個疊放於該畫面上。
  16. 一種用於編碼視訊資料的裝置,該裝置包含與記憶體通信之一處理器,該處理器用於執行儲存於該記憶體內的複數指令,該等指令使該處理器執行下列操作:編碼三維視訊資料,包含編碼與一視埠相關之複數二維子圖像軌道;編碼一合成軌道獲取,用於合成該視埠的該等二維子圖像軌道,其中該合成軌道獲取包含指示下列信息的資料:該等二維子圖像軌道屬於一同個組;該等二維子圖像軌道的每一的放置信息,其中該放置信息可用於將來自該等二維子圖像軌道的取樣圖像合成進與該視埠相關的一畫面;以及如果該畫面包含由合成於該畫面上的該等二維子圖像軌道 的兩個或更多個所創建的一組成布局,則調整該組成的一組成布局操作;以及提供該編碼三維視訊資料與該組成布局,其中決定該等合成二維子圖像軌道的兩個或更多個包含該組成布局包含:決定該等合成二維子圖像軌道的兩個或更多個包含於該畫面上合成的該等二維子圖像軌道的該兩個或更多個之間的一間隙,於該畫面上合成的該等二維子圖像軌道的該兩個或更多個的一重疊,或兩者。
TW107121495A 2017-06-23 2018-06-22 用軌道分組獲取合成軌道之方法及裝置 TWI688264B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201762523880P 2017-06-23 2017-06-23
US62/523,880 2017-06-23
US16/014,856 2018-06-21
US16/014,856 US10778993B2 (en) 2017-06-23 2018-06-21 Methods and apparatus for deriving composite tracks with track grouping

Publications (2)

Publication Number Publication Date
TW201907720A TW201907720A (zh) 2019-02-16
TWI688264B true TWI688264B (zh) 2020-03-11

Family

ID=64692943

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107121495A TWI688264B (zh) 2017-06-23 2018-06-22 用軌道分組獲取合成軌道之方法及裝置

Country Status (4)

Country Link
US (1) US10778993B2 (zh)
CN (1) CN110771162B (zh)
TW (1) TWI688264B (zh)
WO (1) WO2018233685A1 (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10999602B2 (en) 2016-12-23 2021-05-04 Apple Inc. Sphere projected motion estimation/compensation and mode decision
US11259046B2 (en) 2017-02-15 2022-02-22 Apple Inc. Processing of equirectangular object data to compensate for distortion by spherical projections
US10924747B2 (en) 2017-02-27 2021-02-16 Apple Inc. Video coding techniques for multi-view video
US11093752B2 (en) 2017-06-02 2021-08-17 Apple Inc. Object tracking in multi-view video
US10873733B2 (en) 2017-06-23 2020-12-22 Mediatek Inc. Methods and apparatus for deriving composite tracks
US20190005709A1 (en) * 2017-06-30 2019-01-03 Apple Inc. Techniques for Correction of Visual Artifacts in Multi-View Images
US10754242B2 (en) 2017-06-30 2020-08-25 Apple Inc. Adaptive resolution and projection format in multi-direction video
GB2567625B (en) * 2017-10-12 2020-07-15 Canon Kk Method, device, and computer program for generating timed media data
US11012657B2 (en) * 2018-06-08 2021-05-18 Lg Electronics Inc. Method for processing overlay in 360-degree video system and apparatus for the same
GB2575074B (en) * 2018-06-27 2022-09-28 Canon Kk Encapsulating video content with an indication of whether a group of tracks collectively represents a full frame or a part of a frame
WO2020009344A1 (ko) * 2018-07-06 2020-01-09 엘지전자 주식회사 360 비디오 데이터의 서브픽처 기반 처리 방법 및 그 장치
KR20210025527A (ko) * 2018-07-06 2021-03-09 소니 주식회사 정보 처리 장치 및 정보 처리 방법, 그리고 프로그램
KR102201763B1 (ko) * 2018-10-02 2021-01-12 엘지전자 주식회사 360 비디오 시스템에서 오버레이 처리 방법 및 그 장치
CN111263191B (zh) * 2018-11-30 2023-06-27 中兴通讯股份有限公司 视频数据的处理方法、装置、相关设备及存储介质
CN113766271B (zh) * 2020-06-04 2022-07-12 腾讯科技(深圳)有限公司 一种沉浸媒体的数据处理方法、装置及设备
WO2022110108A1 (en) * 2020-11-30 2022-06-02 Zte Corporation Multi-atlas encapsulation of immersive media
CN115396678A (zh) * 2021-05-24 2022-11-25 腾讯科技(深圳)有限公司 多媒体资源中轨道数据的处理方法、装置、介质及设备
CN115474034B (zh) * 2021-06-11 2024-04-26 腾讯科技(深圳)有限公司 沉浸媒体的数据处理方法、装置、相关设备及存储介质
US20240179336A1 (en) * 2022-11-28 2024-05-30 Apple Inc. Streamed progressive decoding of heif images
CN117615079B (zh) * 2024-01-23 2024-03-29 北京工业大学 一种用于图像数据的加密方法及加密系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102204264A (zh) * 2008-11-04 2011-09-28 皇家飞利浦电子股份有限公司 用于编码3d图像信号的方法和系统、编码的3d图像信号、用于译码3d图像信号的方法和系统
WO2015011108A1 (en) * 2013-07-23 2015-01-29 Canon Kabushiki Kaisha Method, device, and computer program for encapsulating partitioned timed media data using sub-track feature

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5561608A (en) * 1992-11-18 1996-10-01 Kabushiki Kaisha Toshiba Multisystem adaptable type signal processing and recording/reproducing apparatus
US8094711B2 (en) * 2003-09-17 2012-01-10 Thomson Licensing Adaptive reference picture generation
US8031190B2 (en) * 2004-05-03 2011-10-04 Microsoft Corporation Translating two-dimensional user input on three-dimensional scene
KR101423915B1 (ko) * 2006-04-21 2014-07-29 삼성전자주식회사 3차원 그래픽을 이용한 온스크린 디스플레이 생성 방법 및장치
US8365060B2 (en) * 2006-08-24 2013-01-29 Nokia Corporation System and method for indicating track relationships in media files
WO2009116663A1 (ja) * 2008-03-21 2009-09-24 Takahashi Atsushi 三次元デジタル拡大鏡手術支援システム
KR101340102B1 (ko) * 2008-07-31 2013-12-10 미쓰비시덴키 가부시키가이샤 영상 부호화 장치, 영상 부호화 방법, 영상 재생 장치 및 영상 재생 방법
EP2197217A1 (en) * 2008-12-15 2010-06-16 Koninklijke Philips Electronics N.V. Image based 3D video format
US8762846B2 (en) * 2009-11-16 2014-06-24 Broadcom Corporation Method and system for adaptive viewport for a mobile device based on viewing angle
US9628755B2 (en) * 2010-10-14 2017-04-18 Microsoft Technology Licensing, Llc Automatically tracking user movement in a video chat application
CN102467756B (zh) * 2010-10-29 2015-11-25 国际商业机器公司 用于三维场景的透视方法及装置
US9066082B2 (en) * 2013-03-15 2015-06-23 International Business Machines Corporation Forensics in multi-channel media content
GB2516825B (en) * 2013-07-23 2015-11-25 Canon Kk Method, device, and computer program for encapsulating partitioned timed media data using a generic signaling for coding dependencies
GB2524726B (en) * 2014-03-25 2018-05-23 Canon Kk Image data encapsulation with tile support
US10257494B2 (en) * 2014-09-22 2019-04-09 Samsung Electronics Co., Ltd. Reconstruction of three-dimensional video
US10311366B2 (en) * 2015-07-29 2019-06-04 Adobe Inc. Procedurally generating sets of probabilistically distributed styling attributes for a digital design
US10873733B2 (en) 2017-06-23 2020-12-22 Mediatek Inc. Methods and apparatus for deriving composite tracks

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102204264A (zh) * 2008-11-04 2011-09-28 皇家飞利浦电子股份有限公司 用于编码3d图像信号的方法和系统、编码的3d图像信号、用于译码3d图像信号的方法和系统
WO2015011108A1 (en) * 2013-07-23 2015-01-29 Canon Kabushiki Kaisha Method, device, and computer program for encapsulating partitioned timed media data using sub-track feature

Also Published As

Publication number Publication date
WO2018233685A1 (en) 2018-12-27
TW201907720A (zh) 2019-02-16
US20180376152A1 (en) 2018-12-27
CN110771162A (zh) 2020-02-07
US10778993B2 (en) 2020-09-15
CN110771162B (zh) 2021-10-01

Similar Documents

Publication Publication Date Title
TWI688264B (zh) 用軌道分組獲取合成軌道之方法及裝置
US11200700B2 (en) Methods and apparatus for signaling viewports and regions of interest for point cloud multimedia data
US11245926B2 (en) Methods and apparatus for track derivation for immersive media data tracks
TWI688263B (zh) 一種推導合成軌道的方法及裝置
US10742999B2 (en) Methods and apparatus for signaling viewports and regions of interest
US11509878B2 (en) Methods and apparatus for using track derivations for network based media processing
US10939086B2 (en) Methods and apparatus for encoding and decoding virtual reality content
TWI709325B (zh) 用於編解碼視訊資料的方法及裝置
US11457231B2 (en) Methods and apparatus for signaling spatial relationships for point cloud multimedia data tracks
US11146802B2 (en) Methods and apparatus for providing two-dimensional spatial relationships
US11218715B2 (en) Methods and apparatus for spatial grouping and coordinate signaling for immersive media data tracks
US11589032B2 (en) Methods and apparatus for using track derivations to generate new tracks for network based media processing applications
US20210211723A1 (en) Methods and apparatus for signaling 2d and 3d regions in immersive media
US11922561B2 (en) Methods and systems for implementing scene descriptions using derived visual tracks
US11743559B2 (en) Methods and systems for derived immersive tracks
US11743441B2 (en) Methods and apparatus for selecting and switching input video tracks using track derivations