TWI709325B - 用於編解碼視訊資料的方法及裝置 - Google Patents

用於編解碼視訊資料的方法及裝置 Download PDF

Info

Publication number
TWI709325B
TWI709325B TW108111826A TW108111826A TWI709325B TW I709325 B TWI709325 B TW I709325B TW 108111826 A TW108111826 A TW 108111826A TW 108111826 A TW108111826 A TW 108111826A TW I709325 B TWI709325 B TW I709325B
Authority
TW
Taiwan
Prior art keywords
track
metadata
synthesis
layer
overlay
Prior art date
Application number
TW108111826A
Other languages
English (en)
Other versions
TW201943268A (zh
Inventor
魯林 陳
新 王
Original Assignee
新加坡商聯發科技(新加坡)私人有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 新加坡商聯發科技(新加坡)私人有限公司 filed Critical 新加坡商聯發科技(新加坡)私人有限公司
Publication of TW201943268A publication Critical patent/TW201943268A/zh
Application granted granted Critical
Publication of TWI709325B publication Critical patent/TWI709325B/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/162User input
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/187Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/1883Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit relating to sub-band structure, e.g. hierarchical level, directional tree, e.g. low-high [LH], high-low [HL], high-high [HH]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/62Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding by frequency transforming in three dimensions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • H04N21/4316Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for displaying supplemental content in a region of the screen, e.g. an advertisement in a separate window
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Computer Security & Cryptography (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本發明提供一種用於編解碼視訊資料的方法,裝置和電腦可讀介質。具有至少第一軌道和第二軌道的用於多媒體資料的分層軌道結構被編碼,其中第二軌道在第一軌道之上。疊加合成元資料與第二軌道相關聯,其中疊加合成元資料包括偏移元資料,層元資料,源元資料或其組合。疊加合成元資料指定用於與第一軌道相關聯的媒體資料的疊加合成的至少一部分,其中疊加合成可以作為對與第一軌道相關聯的媒體資料的軌道導出操作的一部分來執行,以生成第二軌道的媒體資料,使得第二軌道是第一軌道的導出軌道。

Description

用於編解碼視訊資料的方法及裝置
本發明涉及視訊編碼。具體而言,本發明涉及關聯,存儲和/或發信號通知疊加合成(overlay compositions), 包括用於疊加合成物的疊加合成元資料。
存在各種類型的視訊內容,包括高解析度視訊,3D內容和多向內容。例如,高解析度視訊可以包括較大訊框尺寸的視訊,例如具有大約4,000圖元(例如,4K視訊),8,000圖元(例如,8K視訊)等的的水準顯示解析度的視訊。視訊訊框可以劃分為若干子圖像或圖塊。視訊可以包括疊加內容(overlay content),例如徽標和/或預覽,並且子圖片和/或疊加合成(overlay composition)可以在渲染設備中執行。作為另一示例,全向視訊是使用一組攝像機捕獲的一種視訊,而不是像傳統視訊那樣僅使用單個攝像機。例如,可以將攝像機放置在特定中心點周圍,使得每個攝像機捕獲場景的球面疊加上的一部分視訊以捕獲360度視訊。來自多個攝像機的視訊可以被縫合,旋轉,並被投影以生成表示球形內容的投影的二維圖像。例如,然後可以使用二維編碼和壓縮技術進一步處理。最終,使用期望的傳送機制(例如,拇指驅動器(thumb drive),數位視訊盤(DVD),檔下載,數位廣播和/或線上流傳輸)來存儲和傳送已編碼和已壓縮的內容。這種視訊可以用於虛擬實境(virtual reality, VR)和/或3D視訊。
根據所公開的主題,提供了一種用於關聯,存儲和/或發信號通知疊加合成的裝置,系統和方法,包括疊加組合元資料。如本文進一步討論的,可以對與媒體內容相關的疊加合成元資料(例如, 軌道組,導出的軌道,定時元資料軌道,等)使用各種技術(例如,各種資料結構)並使用各種機制。
一些實施例涉及用於解碼視訊資料的解碼方法。該方法包括接收包括分層軌道結構的多媒體資料,該分層軌道結構包括至少第一軌道和第二軌道,其中第一軌道在分層軌道結構中處於第一層,並且第二軌道處於分層軌道中的第二級別結構在第一軌道的第一層之上。該方法包括確定與第二軌道相關聯的疊加合成元資料,其中疊加合成元元資料包括偏移元資料,層元資料,源元資料或其組合。該方法包括對與第一軌道相關聯的媒體資料執行軌道導出操作,包括基於疊加組合元資料執行與第一軌道相關聯的媒體資料的疊加合成,以生成第二軌道的媒體資料,使得第二軌道是第一軌道的派生軌道。
在一些示例中,疊加合成元資料包括偏移元資料,並且與第一軌道相關聯的媒體資料包括用於合成的一個或多個輸入軌道,並且該方法還包括基於偏移元資料確定是否對於一個或多個輸入軌道中的每一個指定一個偏移。在一些示例中,解碼方法還包括基於偏移元資料確定為一個或多個輸入中的每一個指定一個偏移,並且執行媒體資料的疊加合成包括基於一個或多個輸入軌道的偏移執行疊加合成。
在一些示例中,疊加合成元資料包括層元資料,並且與第一軌道相關聯的媒體資料包括用於組合的一個或多個輸入軌道,並且該方法還包括基於層元資料確定是否為一個或多個輸入中的每一個指定一個層。該方法可以進一步包括基於層元資料,確定是否為一個或多個輸入中的每一個指定一個層,並且執行媒體資料的疊加合成包括基於一個或多個輸入軌道中的每一個來執行疊加合成。
在一些示例中,與第一軌道相關聯的媒體資料包括用於合成的一個或多個輸入軌道,並且疊加合成元資料包括源元資料,源元資料包括指定一個或多個輸入軌道的數量的源計數,以及指定三維內容的深度的源深度;並且執行媒體資料的疊加合成包括基於一個或多個輸入軌道中的每一個的源深度來執行疊加合成。
在一些示例中,與第一軌道相關聯的媒體資料包括用於合成的一個或多個輸入軌道,並且確定疊加合成元資料包括確定疊加關係描述元資料,其中對於一個或多個輸入軌道,疊加關係描述元資料指定特定於相關輸入軌道的疊加元資料。
一些實施例涉及一種被配置為解碼視訊資料的裝置。該裝置包括與記憶體通信的處理器,該處理器被配置為執行存儲在記憶體中的指令,該指令使處理器接收包括至少第一軌道和第二軌道的分層軌道結構的多媒體資料,其中第一軌道是在分層軌道結構中的第一層,並且第二軌道在第一軌道的第一層之上的分層軌道結構中的第二層。處理器被配置為執行存儲在記憶體中的指令,該指令使處理器確定與第二軌道相關聯的疊加合成元資料,其中疊加合成元資料包括偏移元資料,層元資料,源元資料或其組合,並執行軌道對與第一軌道相關聯的媒體資料的推導操作,包括:基於疊加合成元資料,執行與第一軌道相關聯的媒體資料的疊加合成,以生成第二軌道的媒體資料,使得第二軌道是第一軌道的導出軌道。
在一些示例中,疊加合成元資料包括偏移元資料,並且與第一軌道相關聯的媒體資料包括用於合成的一個或多個輸入軌道,並且處理器被配置為執行存儲在記憶體中的指令,該指令使處理器基於偏移元資料,確定是否為一個或多個輸入軌道中的每一個指定一個偏移。在一些示例中,處理器被配置為執行存儲在記憶體中的指令,該指令使得處理器基於偏移元資料,確定為一個或多個輸入中的每一個指定一個偏移,並且執行媒體資料的疊加合成包括基於一個或多個輸入軌道中的每一個的偏移來執行所述疊加合成。
在一些示例中,疊加組合元資料包括層元資料,並且與第一軌道相關聯的媒體資料包括用於合成的一個或多個輸入軌道,並且處理器被配置為執行存儲在記憶體中的指令,該指令使處理器基於該層元資料,確定是否為一個或多個輸入中的每一個指定一個層。在一些示例中,處理器被配置為執行存儲在記憶體中的指令,該指令使得處理器基於層元資料為一個或多個輸入中的每一個指定一個層,並執行媒體資料的疊加合成包括基於所述一個或多個輸入軌道中的每一個的層來執行疊加合成。
在一些示例中,與第一軌道相關聯的媒體資料包括用於合成的一個或多個輸入軌道,疊加合成元資料包括源元資料,源元資料包括指定一個或多個輸入軌道的數量的源計數,以及指定三維內容的深度的源深度,並且執行媒體資料的疊加合成包括基於一個或多個輸入軌道中的每一個的源深度來執行疊加合成。
在一些示例中,與第一軌道相關聯的媒體資料包括用於合成的一個或多個輸入軌道,並且確定疊加合成元資料包括確定疊加關係描述元資料,其中對於一個或多個輸入軌道的每個輸入軌道,疊加關係描述元資料指定特定於相關輸入軌道的疊加元資料。
一些實施例涉及用於編碼視訊資料的方法。該方法包括編碼用於包括至少第一軌道和第二軌道的多媒體資料的分層軌道結構,其中第一軌道在分層軌道結構中處於第一層,並且第二軌道位於第一軌道的第一層之上的分層軌道結構中的第二層。該方法包括編碼與第二軌道相關聯的疊加合成元資料,其中疊加合成元資料包括偏移元資料,層元資料,源元資料或其組合,其中疊加合成元資料指定與第一軌道相關聯的媒體資料的疊加合成的至少一部分。其中疊加合成作為對與第一軌道相關聯的媒體資料的軌道導出操作的一部分來執行,以生成第二軌道的媒體資料,使得第二軌道是第一軌道的導出軌道。
在一些示例中,對分層軌道結構進行編碼包括:對與第一軌道相關聯的媒體資料進行編碼,包括用於疊加合成的一個或多個輸入軌道,並且對疊加合成元資料進行編碼包括對偏移元資料進行編碼,其中偏移元資料指示是否為一個或多個輸入軌道中的每一個指定偏移。在一些示例中,對偏移元資料進行編碼包括編碼指示為一個或多個輸入中的每一個指定的偏移的資料。
在一些示例中,對分層軌道結構進行編碼包括對與第一軌道相關聯的媒體資料進行編碼,包含用於疊加合成的一個或多個輸入軌道,並且編碼該疊加合成元資料包括編碼該層元資料,其中該層元資料指示是否為該一個或多個輸入中的每一個指定一個層。在一些示例中,編碼層元資料包括編碼指示為一個或多個輸入中的每一個指定一個層的資料。
在一些示例中,對分層軌道結構進行編碼包括對與第一軌道相關聯的媒體資料進行編碼,包括用於疊加合成的一個或多個輸入軌道,並且編碼疊加合成元資料包括編碼源元資料,源元資料包括指定一個或多個輸入軌道的數量的源計數,以及指定三維內容的深度的源深度。
在一些示例中,對分層軌道結構進行編碼包括:編碼與第一軌道相關聯的媒體資料,包含用於疊加合成的一個或多個輸入軌道,並且編碼疊加合成元資料包括編碼疊加關係描述元資料,其中對於一個或多個輸入軌道的每個輸入軌道,疊加關係描述元資料指定特定於相關輸入軌道的疊加元資料。
一些實施例涉及用於編碼視訊資料的裝置。該裝置包括與記憶體通信的處理器,該處理器被配置為執行存儲在記憶體中的指令,該指令使處理器編碼用於包括至少第一軌道和第二軌道的多媒體資料的分層軌道結構,其中第一軌道是在分層軌道結構的第一層; 第二軌道位於第一軌道的第一層之上的分層軌道結構中的第二層。處理器被配置為執行存儲在記憶體中的指令,該指令使處理器編碼與第二軌道相關聯的疊加合成元資料,其中疊加合成元資料包括偏移元資料,層元資料,源元資料或其組合,其中疊加合成元資料指定用於與第一軌道相關聯的媒體資料的疊加合成的至少一部分,其中疊加合成可以作為對與第一軌道相關聯的媒體資料的軌道推導操作的一部分來執行,以生成第二軌道的媒體資料,使得第二軌道是第一軌道的導出軌道。
本發明提供的用於編解碼視訊資料的方法及裝置,可提高編解碼效率。
因此,已經相當廣泛地概述了所公開的主題的特徵,以便可以更好地理解隨後的詳細描述,並且可以更好地理解對本領域的貢獻。當然,所公開的主題的附加特徵將在下文中描述,並且將形成請求項的主題。應理解,本文採用的措辭和術語是出於描述的目的,不應視為限制。
可以使用各種技術來改進先前的視訊編碼技術。如本文所述,根據本發明的實施方式,揭示了先前的用於提供疊加合成(overlay compositions)的視訊編碼技術的限制,並開發了對現有視訊編碼技術的改進,包括用於提供疊加合成的各種技術(例如,包括可用于指定先前技術不具有的疊加合成元資料的各種資料結構)。根據本發明的實施方式,進一步開發了可用于將疊加合成元資料與媒體內容相關聯的各種機制(例如,包括通過使用軌道組,導出軌道和/或定時元資料軌道)。
在以下描述中,闡述了關於所公開的主題的系統和方法以及這些系統和方法可以操作的環境等的許多具體細節,以便提供對所公開的主題的透徹理解。另外,應當理解,下面提供的示例是示例性的,並且預期存在在所公開的主題的範圍內的其他系統和方法。
第1圖示出了根據一些實施例的示例性視訊編碼配置100。攝像機102A-102N是N個攝像機,並且可以是任何類型的攝像機(例如,包括音訊記錄功能的攝像機,和/或單獨的攝像機和音訊記錄功能)。編碼設備104包括視訊處理器106和編碼器108。視訊處理器106處理從攝像機102A-102N接收的視訊,例如拼接,投影和/或映射。編碼器108對二維視訊資料進行編碼和/或壓縮。解碼設備110接收編碼資料。解碼設備110可以通過廣播網路,通過行動網路(例如,蜂窩網路)和/或通過網際網路,接收視訊作為視訊產品(例如,數位視訊盤或其他電腦可讀介質)。解碼設備110可以是例如電腦,手持設備,頭戴式顯示器的一部分或具有解碼能力的任何其他設備。解碼設備110包括解碼器112,其被配置為對編碼視訊進行解碼。解碼設備110還包括渲染器114,用於將二維內容渲染回球體。顯示器116顯示來自渲染器114的渲染內容。
ISO基礎媒體檔案格式(ISO Base Media File Format, ISOBMFF)是媒體檔案格式的基本格式,其描述於“影像檔格式”(ISO/IEC FDIS 23008-12 2nd Edition, N16657, Jan 2017, Geneva, Switzerland),在此引入通過引用整體而言。例如,ISOBMFF是用於HTTP上的動態自我調整流傳輸(Dynamic Adaptive Streaming over HTTP, DASH)和MPEG多媒體傳輸(MPEG Multimedia Transport, MMT)的基本格式。例如,ISOBMFF被設計為以靈活,可擴展的格式包含演示的定時媒體資訊,以便於媒體的交換,管理,編輯和呈現。 ISOBMFF包括用於指定圖像導出的部分。隨著時間的推移,技術被考慮包含在ISOBMFF中,稱為“考慮中的技術”(Technologies Under Consideration, TuC)。 ISOBMFF正在考慮的一些技術包括支持新用例的建議方法和設計,例如可能支援各種演示組合的導出的視覺軌跡。然而,發明人已經確定先前技術不足以提供疊加合成,包括疊加合成元資料。
全向MediA格式(OMAF)在ISO / IEC 23090-2中規定,其通過引用整體併入本文。 OMAF指定用於全向媒體的編碼,存儲,傳送和呈現的全向媒體格式。 OMAF指定一個坐標系,使得使用者的觀察視角是從球體的中心向外看向球體的內表面。 OMAF包括針對全向媒體的ISOBMFF擴展以及針對球體區域的定時元資料。 ISO / IEC 14496-15規定了視訊流的存儲格式,其被構造為網路抽象層(NAL)單元,其全部內容通過引用結合於此。 OMAF包括對ISOBMFF和ISO / IEC14496-15的擴展,可用于全向媒體以及其他用途。作為MPEG-1第2部分的OMAF目前處於版本1( “Coded representation of immersive media (MPEG-1) Part 2: Omnidirectional media format,” ISO/IEC 14496-12, w17399, February 2018),在此引入作為參考。
通常,3DOF(3個自由度)內容可以使用球面內容(spherical content)來表示,以提供場景的360度視圖(例如,有時被稱為全向媒體內容)。雖然可以使用3D球體支援許多視圖,但最終用戶通常僅查看3D球體上的一部分內容。傳輸整個3D球體所需的頻寬會給網路帶來沉重的負擔,並且可能不足以支援球形內容。因此,期望使3D內容傳遞更有效。可以執行視口相關處理以改進3D內容傳遞。 3D球形內容可以被劃分為區域/圖塊/子圖像,並且只有與觀看螢幕(例如,視口)相關的那些可以被發送並傳遞給最終用戶。
第2圖示出了根據一些示例的用於VR內容的視口相關內容流程200。如圖所示,球形視口201(例如,其可以包括整個球體)在框202處經歷縫合,投影,映射(以生成投影和映射區域),在框204處被編碼(以生成具有多種品質的編碼/轉碼圖塊)在塊206處傳送(作為圖塊),在塊208處解碼(以生成解碼的圖塊),在塊210處構造(以構造球形渲染的視口),並且在塊212處渲染。塊214處的用戶交互可以選擇一個視口,它啟動了許多“即時”處理步驟,如虛線箭頭所示。
在過程200中,由於當前網路頻寬限制和各種適應要求(例如,關於不同品質,轉碼器和保護方案),首先將3D球形VR內容處理(拼接,投影和映射)到2D平面上(通過塊202)然後封裝在多個基於圖塊(或基於子圖像)和分段的檔中(在框204處)以用於傳送和重播。在這種基於圖塊和分段的檔中,2D平面中的空間圖塊(例如,其表示空間部分,通常是2D平面內容的矩形形狀)通常被封裝為其變體的集合,例如不同的品質和位元速率,或不同的轉碼器和保護方案(例如,不同的加密演算法和模式)。在一些示例中,這些變體對應於MPEG DASH中的適應集(adaptation sets)內的表示。在一些示例中,基於用戶在視口上的選擇,不同圖塊的這些變體中的一些當放在一起時提供所選視口的疊加,由接收器檢索或傳送到接收器(通過傳送塊206),然後解碼(在框208)以構造和渲染期望的視口(在框210和212處)。
如第2圖所示,視口概念是最終用戶的視圖,它涉及球體上區域的角度和大小。對於360度內容,通常,該技術將所需的圖塊/子圖像內容傳遞給用戶端以疊加使用者將查看的內容。此過程取決於視口,因為這些技術僅提供疊加當前感興趣視口的內容,而不是整個球形內容。視口(例如,一種球形區域)可以改變,因此不是靜態的。例如,當使用者行動他們的頭部時,系統需要獲取相鄰的圖塊(或子圖片)以疊加使用者接下來要查看的內容。
可以使用內容的平面檔結構,例如,用於單個電影的視訊軌道。對於VR內容,存在的內容多於接收設備發送和/或顯示的內容。例如,如本文所討論的,可以存在整個3D球體的內容,其中使用者僅觀看一小部分。為了更有效地編碼,存儲,處理和/或傳遞這些內容,可以將內容劃分成不同的軌道。第12圖示出了根據一些實施例的示例性軌道分層結構1200。頂部軌道1202是3D VR球形內容軌道,並且頂部軌道1202下方是關聯的元資料軌道1204(每個軌道具有關聯的元資料)。軌道1206是2D投影軌道。軌道1208是2D大畫面軌道。區域軌道被示為軌道1210A到1210R,通常被稱為子圖像軌道1210。每個區域軌道1210具有一組相關聯的變體軌道。區域軌道1210A包括變體軌道1212A到1212K。區域軌道1210R包括變體軌道1214A到1214K。因此,如軌道層次結構1200所示,可以開發以物理多變數區域軌道1212開始的結構,並且可以為區域軌道1210(子圖像或平鋪軌道),投影和打包2D軌道1208,投影的2D軌道1206和VR 3D視訊軌道1202,建立軌道層級,其中適當的元資料軌道與它們相關聯。
在操作中,變體軌道包括實際圖像資料。設備在交替的變體軌道中進行選擇以選擇代表子圖像區域(或子圖像軌道)1210的軌道。子圖像軌道1210被平鋪並一起組合成2D大圖像軌道1208。最後,軌道1208被逆映射(reverse-mapped),例如,重新排列一些部分以產生軌道1206。然後,軌道1206被逆投影(reverse-projected)回3D軌道1202,3D軌道1202是原始3D圖像。
例如,示例性軌道分層結構可以包括在文檔m39971( “Deriving Composite Tracks in ISOBMFF”, January 2017 (Geneva, CH)), 文檔m40384(“Deriving Composite Tracks in ISOBMFF using track grouping mechanisms”, April 2017 ( Hobart, AU)),文檔m40385(“Deriving VR Projection and Mapping related Tracks in ISOBMFF;” 文檔m40412, “Deriving VR ROI and Viewport related Tracks in ISOBMFF”, MPEG 118th meeting, April 2017),其全部內容通過引用結合於此。在第12圖中,rProjection,rPacking,compose和alternate分別代表軌道推導變換屬性TransformProperty專案反向'proj',反向'pack','cmpa'和'cmp1',用於說明目的而不是限制性的。元資料軌道中顯示的元資料類似地用於說明目的,而不是限制性的。例如,可以使用來自OMAF的元資料框,如文檔w17235(“Text of ISO/IEC FDIS 23090-2 Omnidirectional Media Format,” 120th MPEG Meeting, October 2017 (Macau, China))所示,其全部內容通過引用結合於此。
第12圖中所示的軌道數量旨在說明而非限制。例如,在如第12圖所示的層級中不一定需要一些中間導出軌道的情況下,相關的推導步驟可以組成一個(例如,逆封裝(reverse packing)和逆投影(reverse projection)被組合在一起以消除投影軌道1206的存在)。
該技術可以包括利用軌道層級結構(例如,結合第12圖討論的層級)來將組合元資料存儲在導出軌道中。例如,合成元資料可以存儲在子圖像軌道1210,2D大圖像軌道1208和/或軌道1206中。將合成元資料存儲在導出軌道中可以減少需要存儲的合成元資料的量。例如,可能需要組合元資料指定支援雙目視差呈現和/或具有例如透明度/不透明度之類的特徵的內容重疊呈現。一些技術使用軌道內(例如,專案屬性)元資料框來指定這樣的合成元資料。例如,如果背景中有五個疊加,則五個軌道中的每一個都攜帶合成元資料。如果根據這裡討論的技術在導出的軌道中攜帶合成元資料,則可以僅在導出的軌道中指定它。可以單獨和/或與其他空間和時間資訊一起使用導出軌道中的合成元資料,以使用導出的視覺軌跡執行疊加。例如,文檔N17379 (“Technologies under Consideration for ISOBMFF,” N17379, Gwangju, Korea (Jan 2018))其全部內容通過引用結合於此,該文檔指定了使用導出的視覺軌跡執行疊加的技術。
在TuC中,已經提出了用於導出的視覺軌跡的選項。對於導出的視覺軌跡的樣本條目,第3A圖中所示的導出的視覺樣本條目DerivedVisualSampleEntry的語法300可以被使用來指定導出視覺軌道的樣本條目,其指定導出的軌道配置記錄導出軌道配置記錄DerivedTrackConfigRecord derived_config_rec 302。可以使用導出的軌道配置記錄導出軌道配置記錄DerivedTrackConfigRecord的框類型來指定所導出的軌道配置記錄以用於容器是導出的軌道樣本條目導出軌道樣本條目DerivedTrackSampleEntry的情況。
可以以各種方式指定導出的軌道配置記錄的語義。用於導出的軌道配置記錄的語義的一個示例性選項包括:第一欄位、第二欄位、零個或多個四字元代碼的數組、和一個或多個保留欄位。其中,第一欄位(例如,實體位元組長度減1 entity_byte_len_minus1)可用於指示在導出樣本的樣本結構的某些語法元素中使用的位元組數(例如,實體位元組長度減1 entity_byte_len_minus1加1) ;第二欄位(例如,樣本偏移位元組長度sample_offset_byte_len )可以指示導出樣本的樣本結構中的樣本偏移sample_offset欄位的位元組數;對於零個或多個四字元代碼的數組(例如,operation_4cc [])來說,每個代碼識別變換屬性。導出的軌道配置記錄350的語義的第二示例性選項在第3B圖中示出。語義可以包括擴展Box的導出軌道配置記錄DerivedTrackConfigRecord類,其包括指定每個變換屬性的整數數組(例如,property_type [])(例如,如TuC中所討論的,通過引用併入本文),並且可以包括零個或多個四字元代碼的數組(例如,operation_4cc []),每個代碼標識變換屬性。
可以以各種方式指定導出視覺軌跡的樣本的語法。第一示例性選項是第4A圖中所示的變換屬性TransformProperty語法400。欄位輸入數量num_inputs402指定用於該圖像操作的輸入實體的數量。當輸入數量num_inputs402等於0時,圖像操作不是必需的,否則圖像操作是必要的。欄位實體索引entity_idx 404是類型為'dtrk'的軌道參考類型箱TrackReferenceTypeBox的從1開始的索引。當實體索引entity_idx 404指向解析為軌道ID的ID值時,指定函數IsTrack(entity_idx)406返回1,否則指定函數IsTrack(entity_idx)406返回0。樣本偏移sample_offset 408僅存在於當實體索引entity_idx 404參考一個軌道並且樣本偏移位元組長度sample_offset_byte_len 410大於0時,並且它相對於導出樣本的解碼時間對樣本的偏移(正或負)進行編碼。當不存在時,推斷樣本偏移sample_offset 408等於0。TransformationProperty 400擴展FullBox,因此是一個完整的框,表示對包含圖像操作ImageOperation 412結構中列出的輸入執行的操作。
導出的視覺軌跡的樣本的語法的第二示例性選項是第4B圖中所示的變換屬性TransformProperty語法450。輸入數量num_inputs452指定用於該圖像操作的輸入實體的數量。 軌道參考索引值或0值track_ref_index_or_zero 454是類型為'dtrk'的軌道參考類型箱TrackReferenceTypeBox的從1開始的索引,或者是用於指示前一個圖像操作ImageOperation的輸出的值0。 變換屬性TransformProperty 450擴展了滿箱FullBox,因此是一個完整的箱(full box),表示要對包含的圖像操作ImageOperation結構中列出的輸入執行的操作。
根據本發明的實施方式,在此討論先前技術中的不同語法的缺點。在一些實施例中,樣本條目的語法的第一示例性選項可以與第4A圖中所示的導出視覺軌跡的樣本的語法的第一示例性選項配對,與用於輸入樣本選擇的計算的樣本偏移資訊相配對。在一些實施例中,樣本條目的語法的第二示例性選項可以與第4B圖中所示的導出視覺軌跡的樣本的語法的第二示例性選項配對,以用於使用預設輸入樣本選擇的軌道推導。配對的第一示例性選項使用更多參數,因此使用更多位元組/位元來發信號通知相關資訊。配對的第二示例性選項具有簡單的語法並且使用較少的位元組/位元。然而,對於主要應用(例如,檔中的軌道是直接從視訊或圖像序列的較大訊框劃分的子圖像),配對的第二示例性選項可以更有效地工作。例如,所有軌道可以是具有相同長度的相同時間線,並且可以是為了呈現而對齊的構圖。成對的第一示例性選項可以靈活地工作以用於一些應用,在這些應用中,檔中的軌道可以是從多個視訊或圖像序列生成的圖片/子圖片的應用,其中這些視訊或圖像序列可以具有不同的時間線和長度。對於軌道可能不具有相同時間線的一些示例,可能需要解決對齊問題。因此,針對已經確定先前技術具有相關的缺點,並且先前技術不夠靈活以解決視訊編碼所需的各種場景。
這裡描述的技術提供了新的語法,該語法可以提供通過當前為ISOBMFF提出的語法無法實現的益處和靈活性。這些技術可以包括在導出軌道內的疊加合成元資料(例如,如結合第12圖0所討論的)。例如,該語法可以用於採用具有樣本偏移的多個輸入的導出軌道合成。 偏移可以在導出軌道中被指定。
第5圖提供了根據一些實施例的用於導出的視覺軌跡的樣本條目的語法500。出於說明的目的,示例可以包括導出的視覺樣本條目DerivedVisualSampleEntry類501,其擴展視覺樣本條目VisualSampleEntry,其將用於解釋本文的概念,但是本領域通常知識者可以理解,可以使用其他術語,結構和/或欄位而不脫離本發明的精神。 樣本偏移標誌sample_offset_flag 502,如果設置為1,則表示樣本偏移sample_offset的計算存在,否則樣本偏移sample_offset被推斷為等於0。保留欄位504應該等於0。導出軌道配置記錄DerivedTrackConfigRecord config_rec 506可以使用結合第6圖討論的語法來指定。與先前的導出視覺軌跡語法相反,語法500包括導出軌道配置記錄DerivedTrackConfigRecord 506的附加欄位。例如,如第3A圖所示,語法300僅包括導出軌道配置記錄DerivedTrackConfigRecord 302。如第5圖所示,語法500另外包括樣本偏移標誌sample_offset_flag 502和保留欄位504。如結合第6圖和第7A圖-第7B圖進一步討論的那樣,樣本偏移標誌sample_offset_flag 502可以允許基於是否存在樣本偏移來以其他語法包括和/或控制參數。
第6圖提供了根據一些實施例的導出軌道配置記錄DerivedTrackConfigRecord 600的語法。可以在包含導出軌道樣本條目DerivedTrackSampleEntry的軌道中包括(例如,強制)導出軌道配置記錄DerivedTrackConfigRecord 600。當添加1時,實體位元組長度減1 entity_byte_len_minus1 602可以指示在導出樣本的樣本結構的某些語法元素中使用的位元組數。 樣本偏移位元組長度sample_offset_byte_len 604可以指示導出樣本的樣本結構中的樣本偏移sample_offset欄位的位元組數。保留欄位606可以等於0。數組operation_4cc [] 608是零個或多個四字元代碼的數組,每個代碼標識變換屬性。
如第6圖中的語法所示,可以基於樣本偏移標誌sample_offset_flag(例如,第5圖中的樣本偏移標誌sample_offset_flag 502)來控制包括實體位元組長度減1 entity_byte_len_minus1 602,樣本偏移位元組長度sample_offset_byte_len 604和保留欄位606。以這種方式使用樣本偏移標誌sample_offset_flag可以為導出軌道配置記錄DerivedTrackConfigRecord提供靈活性,使用先前技術無法提供。例如,用於指定上面討論的導​​出視覺軌跡的樣本條目的第一示例性選項和第二示例性選項的功能可以合併到第6圖中所示的單個導出軌道配置記錄DerivedTrackConfigRecord 600中。
為了實現先前技術無法提供的靈活性,導出軌道配置記錄DerivedTrackConfigRecord 600可以影響其他資料結構中提供的欄位。第7A圖和B提供了根據一些實施例的用於導出的視覺軌跡的樣本的語法700。出於說明性目的,第7A圖示出了圖像操作ImageOperation類的示例的示例語法700,第7B圖示出了DerivedSample類的示例語法750,其將用於解釋本文的概念,但是本領域通常知識者可以理解,在不脫離本發明的精神的情況下,可以使用其他術語,結構和/或欄位。 輸入數量num_inputs702指定圖像操作ImageOperation 704的輸入實體的數量。當輸入數量num_inputs702等於0時,圖像操作是非必要的,否則圖像操作是必要的。 實體索引entity_idx 706可以是類型為'dtrk'的軌道參考類型箱TrackReferenceTypeBox的從1開始的索引。當實體索引entity_idx 706指向解析為軌道ID的ID值時,指定函數IsTrack(entity_idx)708返回1,否則指定函數IsTrack(entity_idx)708返回0。在一些實施例中,當樣本偏移標誌sample_offset_flag(例如,第5圖中的樣本偏移標誌sample_offset_flag 502)等於0時,值0可用於指示先前圖像操作ImageOperation的輸出。
如果實體索引entity_idx 706引用軌道並且樣本偏移位元組長度sample_offset_byte_len (例如,第6圖中的樣本偏移位元組長度sample_offset_byte_len 604)大於0,則樣本偏移sample_offset 710可以存在。如果存在,樣本偏移sample_offset 710編碼關於導出樣本的解碼時間的樣本的偏移(正或負)。當不存在時,可以推斷樣本偏移sample_offset 710等於0。當樣本偏移標誌sample_offset_flag(例如,第5圖中的樣本偏移標誌sample_offset_flag 502)等於0時,可以推斷樣本偏移sample_offset 710等於0。 樣本數量Num_samples 712可以指定此圖像操作的樣本數。 樣本數量Num_samples 712可用於設置樣本數量的上界,其中該上界受到用於輸入實體的函數EndOfSample()714的約束,其檢測樣本條目中的最後樣本。變換屬性TransformProperty 716可以是一個完整的箱,它可以指示要對包含的圖像操作ImageOperation結構中列出的輸入執行的操作。
通常,語法700可以提供樣本的組合功能,否則先前技術無法獲得。例如,作為總體概述,可以使用語法700的部分語法700A和700C,其中檔中的軌道是直接從視訊或圖像序列的較大訊框劃分的子圖像。作為另一示例,部分語法700B和700C可以用於靈活地工作以用於其中檔中的軌道可以是從多個視訊或可以具有不同時間線和長度的圖像序列生成的圖片/子圖片的應用。可以使用樣本偏移標誌sample_offset_flag來控制語法700,例如,其用於確定是否進入部分700A或700B。
合成可以以各種方式進行。例如,TuC位址跟蹤組成中的各個部分,例如軌道疊加合成(TuC第2.7節),轉換矩陣組成(TuC第2.11節)及其組合(TuC第2.12節)部分,加上跟蹤分組組成(TuC第2.13節)。對合成的考慮可以是合成的視覺軌跡的順序。例如,每個軌道的軌道標題軌道頭箱TrackHeaderBox中的圖層參數可以指定視覺軌道的前後排序。
通常,由導出的視覺軌跡引用的每個軌道在生成時可以攜帶相應的元資料和/或參數。處理這樣的軌道元資料可能需要對軌道合成進行額外的考慮和/或處理。關於具有上述軌道推導技術的軌道合成,為簡單起見,可以假設軌道標題中的元資料(例如,層參數和/或其他參數)是有效的,並且可以在合成處理期間直接使用。然而,發明人已經發現並意識到可能存在不能有意義地設置層編號的情況(例如,在軌道生成和/或軌道編輯之後)。例如,對於某些類型的軌道媒體資料,例如縮略圖,徽標,預覽或來自其他文檔的媒體資料,媒體資料可能不具有指定的層。另外或替代地,導出的軌道合成處理可以改變層資訊。例如,導出的軌跡合成處理可以從原始層編號設置改變相對層特性,和/或可以在向視覺軌跡提供深度資訊時調整相對層排序。
發明人已經開發了對用於指定層的語法和語義的先前技術的改進。這些技術可以可選地與上面討論的語法結合使用,例如結合第5圖-第7B圖討論的語法。出於示例性目的,使用第5圖-第7B圖中引入的語法來示出語法,儘管這不是限制性的。第8A圖提供了根據一些實施例的用於導出的視覺軌跡的樣本條目的語法800。出於說明性目的,如第8A圖所示,示例可以包括導出的視覺化樣本條目“dtrk”801。雖然本領域通常知識者可以理解,在不脫離本發明的精神的情況下可以使用其他術語,結構和/或欄位。語法800包括第5圖中的語法500的各方面。如第8A圖所示,在第8A圖中與第5圖相關參考符號的採用相同的標記。語法800包括添加層標誌layer_flag802。如果層標誌layer_flag802被設置為1,則層標誌layer_flag802指示存在層的設置,否則在軌道頭箱TrackHeaderBox中推斷出軌道的層是相同的。語法500中的保留欄位504包括七個位元,而語法800中的保留欄位804減少一個位元以將位元分配給層標誌layer_flag802。
第8B圖提供了根據一些實施例的用於導出的視覺軌跡的樣本的示例性語法800。出於說明性目的,示例可以包括圖像操作ImageOperation類,其將用於解釋本文的概念,但是本領域通常知識者可以理解,在不脫離本發明的精神的情況下,可以使用其他術語,結構和/或欄位。語法800包括第7A圖中的語法700的各方面。如第8B圖所示,在第8B圖中與第7A圖相關參考符號的採用相同的標記。如語法800的部分800A和800B所示,如果layer_flag(例如,來自第8A圖的層標誌layer_flag802)等於1,則存在層欄位806。層欄位806指定視訊軌道的前後排序。在一些實施例中,層欄位806的具有較低編號的軌道更靠近觀看者。例如,0是正常值,-1將位於軌道0的前面,依此類推。如果當前,層欄位806可以疊加軌道的軌道頭箱TrackHeaderBox中的層編號。
有利地,可以包括層欄位以為空間域中的合成提供多個輸入軌道的分層。這裡描述的技術可以用於重新定義軌道的層參數。例如,可以重新定義該層,否則使用先前技術,來自軌道標題箱的層可能是無效的和/或需要更新,如本文所述。
根據本發明的實施方式,對於具有沉浸式媒體內容的應用,可能存在更多設備,例如源設備,同步設備和/或在端到端系統中涉及的渲染設備,而不是現有標準中所考慮的和/或技術。先前的組合技術通常不支援所需的組合用例,例如那些需要複雜組合的組合用例。例如,一些組合用例需要比使用先前技術支援的最終呈現更複雜的組合。根據本發明的實施方式,開發了用於指定附加組成元資料的技術,例如用於沉浸式媒體應用的時間,空間位置,物件層排序等中的組合元資料。
在一些實施例中,該技術可以包括用於沉浸式媒體的新元資料箱類型。出於說明的目的,示例可以包括可以被稱為“immc”箱類型的元資料箱類型,其將用於解釋本文的概念,儘管在不脫離本發明的精神的情況下本領域通常知識者可以理解其他命名,結構和/或可以使用這些欄位。 immc框可以包含在視覺樣本條目VisualSampleEntry('dtrk')中。該核取方塊可強制用於合成媒體軌道。在一些實施例中,箱可以提供用於合成一個或多個源以供呈現的配置資訊。媒體軌道可以是導出的視覺軌道(例如,如在用於ISOBMFF的TuC中所描述的),使得導出的軌道攜帶沉浸式媒體元資料。
第9圖示出了根據一些實施例的用於沉浸式媒體盒的示例性語法900。 源數量source_count902指定合成中的源數量。 source_ID 904指定ID值,例如來自列表的ID值(例如,在具有等於'dtrk'的reference_type的軌道參考類型箱TrackReferenceTypeBox中)。 ID值可以是軌道中的導出樣本所使用的軌道的軌道ID值,軌道的導出樣本所使用的圖像專案的專案ID值,和/或類似值。當存在立體聲視訊箱StereoVideoBox時,源深度source_depth 906可以指示包含立體內容的最小圖像深度。例如,可以從視點到感知的立體圖像指定源深度source_depth 906。在一些實施例中,源深度source_depth 906可以相對於單位球體。在一些實施例中,源深度source_depth 906可以以2-16 為單位指定。在一些實施例中,源深度source_depth 906可以在合成應用程式中被引用,用於對合成圖片的透明度進行有效的疊加處理。層908可用於指定視訊軌道的排序,例如前後排序。在一些實施例中,具有較低層908號的軌道更靠近觀看者。在一些實施例中,0是正常值,-1將在軌道0的前面,依此類推。層908可以疊加軌道頭箱TrackHeaderBox中的層編號。在一些實施例中,合成應用程式可以使用層編號進行疊加處理,並且對於合成圖片具有透明度。 合成寬度composition_width910可以指定合成圖片的寬度(例如,以亮度樣本單位)。 合成高度composition_height 912可以指定合成圖片的高度(例如,以亮度樣本為單位)。
在一些實施例中,合成元資料可以用信號通知要用於合成的軌道數(例如,作為源數量source_count902)。該技術還可以包括例如源深度source_depth 906的新欄位。例如,當執行具有3D內容的合成時,可以針對合成來發信號通知基本源深度。例如,這些技術可用於MPEG-I階段1b以指定與組成相關的元資料。如本文所討論的,該技術可以包括導出軌道中的合成元資料。
如本文所討論的,對於具有沉浸式媒體內容或巨大訊框尺寸內容的應用,可能存在涉及端到端系統的多個源設備和渲染設備。可以指定多個媒體源的各種空間和時間組合以用於最終呈現給用戶。發明人已經發現並理解,期望指定在時間,空間位置,物件層排序等方面對齊的合成元資料,以便支援期望的合成。
主要來源可以參考用於演示的主要來源。主要來源可以是例如整個視圖,全域視圖,360度媒體和/或類似物。輔助源通常用於指代與主要源不同的源。例如,輔助源可以是附加的本地視圖,較小的視圖,子圖像視圖和/或類似視圖。輔助源可以疊加並顯示為主要源的前景內容。疊加內容可以是例如徽標,手語翻譯器,縮略圖(例如,作為推薦視口),畫中畫(PIP)(例如,用於關於當前視口的預覽或概述),廣告,定時文本和/或類似物。可以在視口相對顯示模式中指定疊加內容,以便相對於視口指定疊加。可以全域指定疊加內容,例如廣告插入或定時文本或其他內容。在一些實施例中,可以使用多個疊加內容,使得可以相對於其他輔助內容指定輔助內容的疊加。例如,可以疊加徽標,使其始終位於另一個輔助源之上。
包括主要來源和次要來源的源可以被捕獲為不同類型,包括單視場類型或立體類型。主要來源可以是一種類型,而次要來源可以是相同類型或不同類型。例如,單視場主要源可以用單視場和/或立體次要內容疊加。各種渲染選項可用於疊加,例如老化疊加,定時文本支援(例如,在OMAF中指定),具有附加選項的老化疊加(例如,透明度或不透明度),具有附加選項的定時文本支援(例如,透明度或不透明度)和/或類似物。例如,當輔助源是單視場源時(例如,當疊加在單視場或立體主源上時),渲染選項可以包括老化疊加,定時文本支援,具有附加選項的老化疊加,以及具有附加選項的定時文本支援。作為另一示例,當輔助源是立體源時(例如,當疊加在單視場或立體主源上時),渲染選項可以包括定時文本支援和具有附加選項的定時文本支援。例如,可能不支持老化疊加,因為如果感知到場景中的物件位於疊加區域的前面,則可能破壞次要內容的立體效果。
發明人已經開發了使用軌道分組為單獨的主要和次要源(例如,包含在ISOBMFF檔中的單獨流或獨立軌道中的源)指定合成元資料的技術。根據本發明的實施方式,當分離的主要源和次要源相關時,例如組合時間對齊,已經開發了可以使用軌道分組方案來指定疊加元資料的技術。
在一些實施例中,可以為軌道組指定疊加關係。出於說明性目的,示例可以包括使用軌道組類型track_group_type擴展軌道組類型箱TrackGroupTypeBox的重疊關係描述箱OverlayRelationshipDescriptionBox,其將用於解釋本文中的概念,儘管本領域通常知識者可以理解可以使用其他術語,結構和/或欄位而不脫離本發明的精神。 重疊關係描述箱OverlayRelationshipDescriptionBox可以包含各種欄位。根據相關軌道中的元資料,欄位可以存在或不存在。例如,如果在下面討論的關聯軌道中沒有關聯的重疊關係組條目OverlayRelationshipGroupEntry,則可以存在欄位。例如,如果軌道具有恒定的靜態疊加模式(例如,根據欄位視口相關標誌relative_to_viewport_flag,視差相關標誌relative_disparity_flag和深度包含標誌depth_included_flag,將在下面進一步討論),則可能是這種情況。作為另一示例,如果存在一個或多個關聯的重疊關係組條目OverlayRelationshipGroupEntry箱,則可能不存在欄位。例如,如果軌道具有動態疊加模式,則可能是這種情況。
第10圖示出了根據一些實施例的用於指定疊加關係1000的示例性語法。出於說明的目的,示例可以包括疊加關係1000指定分組類型’ovlr’ grouping_type1002,其將用於解釋本文的概念,但是本領域通常知識者可以理解可以使用其他命名,結構和/或欄位而無需背離本發明的精神。 視口相關標誌relative_to_viewport_flag 1004指定如何渲染疊加。值1可以指示預期疊加存在於顯示幕幕上(例如,疊加是獨立於用戶的觀看方向可見的)。值0可以指示期望疊加在球體上的特定位置處被渲染(例如,疊加僅在用戶正在渲染疊加的方向上查看時可見)。 視差相關標誌relative_disparity_flag 1006可以指示視差是否被提供為一個視圖的顯示視窗的寬度的百分比值(例如,當值等於1時)或者作為圖元的數量(例如,當值等於0)。 深度包含標誌depth_included_flag 1008可以指示是否存在疊加內容的區域的深度(例如,z值)(例如,1可以指示要在其上呈現疊加的區域的深度,而0表示它不存在)。
第11A圖示出了根據一些實施例的用於指定疊加關係樣本組1100的示例性語法。在一些實施例中,疊加關係樣本組的示例可以包括如第11A圖所示的擴展視覺樣本組條目VisualSampleGroupEntry的重疊關係組條目OverlayRelationshipGroupEntry。雖然本領域通常知識者可以理解,在不脫離本發明的精神的情況下可以使用其他術語,結構和/或欄位,但是將使用第11A圖來解釋本文的概念。可以使用疊加關係樣本組1100(例如,結合提供的疊加關係1000)來定義如何組成軌道組。例如,樣本分組的分組類型“olrd”分組類型grouping_type可用於從疊加關係軌道組中的視覺軌跡提供例如疊加特徵,位置和/或樣本大小的資訊。在一些實施例中,當分組類型grouping_type等於'olrd'時,可以使用SampleToGroupBox(例如,版本1)。分組類型參數grouping_type_parameter的值可以等於對應的疊加關係軌道組的軌道組IDtrack_group_id。
在一些實施例中,可以通過將屬於相同“ovlr”軌道組的軌道形成為子組來指定與疊加關係軌道組相關聯的疊加構造,使得每個子組包含相同備用組中的軌道。可以從每個子組中選擇一個軌道。在一些實施例中,對於每個所選軌道的每個構圖 - 時間對準的樣本,可以根據疊加區域深度overlay_region_depth、或者根據深度包含標誌depth_included_flag指定的前後循序執行疊加處理。
疊加區域資料overlay_region_count 1102可以指定為其提供球體內的放置的疊加區域的數量。每個區域可以由識別字標識。 疊加區域 ID overlay_region_id 1104可以提供疊加區域的識別字。例如, 疊加區域 ID overlay_region_id 1104可以與疊加內容的描述或目的(例如,徽標,廣告,縮略圖,背景視覺媒體等)相關聯。
重複區域不透明度overlay_region_opacity1106可以指定要應用於疊加的不透明度(或相反地,透明度)級別。重複區域不透明度overlay_region_opacity1106可以是範圍在[0,100]之間的整數值。 重複區域不透明度overlay_region_opacity1106可以對應于作為Alpha值範圍[0.00,1.00]的浮點值。
視差百分比disparity_in_percent1108可以將視差指示為一個視圖的顯示視窗寬度的一部分(例如,以2-16 為單位)。 視差百分比disparity_in_percent1108可以是負的,在這種情況下,位移方向可以反轉。 視差百分比disparity_in_percent1108可用于在左眼視圖上向左移位元區域並在右眼視圖上向右移位元區域。 圖元中的視差disparity_in_pixels 1110可以指示圖元中的視差。 圖元中的視差disparity_in_pixels 1110可以是負的,在這種情況下,位移方向可以反轉。 圖元中的視差disparity_in_pixels 1110用於在左眼視圖上向左移位元區域並且在右眼視圖上向右移位元區域。
中心方位角偏移百分比centerAzimuth_offset_percent1112和中心仰角偏移百分比centerElevation_offset_percent 1114可以分別指定距離基點(base)的方位角和仰角偏移量,例如SphereRegionStruct()的centerAzimuth和centerElevation,以百分比表示。 寬度百分比width_percent 1116和高度百分比height_percent 1118可以分別指定疊加寬度和疊加高度,例如以2-16 為單位,作為顯示視窗的寬度和高度的一部分。在一些實施例中,疊加可以暗示縮放處理以實現該放置。
函數SphereRegionStruct()1120可以指示球體位置,其與其他資訊一起使用,以確定在3D空間中放置和顯示疊加的位置。在一些實施例中,球體的中心與由SphereRegionStruct()1120指定的球體位置之間的向量可以是渲染疊加物的渲染3D平面的法向量(normal vector)。第11B圖示出了根據一些實施例的具有指定渲染3D平面1156的球體1150。 SphereRegionStruct()1120可以指定來自球1150的中心1152的向量1154,其是渲染3D平面1156的法向量。解碼設備可以使用由SphereRegionStruct()1120指定的資訊(例如,和其他資訊(例如,3D平面的深度),以確定在3D空間中渲染3D平面的位置,在該位置上將要渲染疊加。可能存在多個平面(例如,第11B圖中所示的渲染3D平面1156)作為多層疊加的疊加區域出現的情況。在這種情況下,作為“背景”的球形視覺媒體可以被視為疊加關係描述中的一個區域層。
疊加區域深度overlay_region_depth 1122可以指示需要被渲染的重疊的區域的深度(例如,z值)。 疊加區域深度overlay_region_depth 1122值可以是疊加區域的法向量的範數(norm)。 疊加區域深度overlay_region_depth 1122值可以與單位球體相關,並且可以以2-16 為單位指定。 重疊層overlay_layer1124可以指定視訊軌道的前後排序。例如,數位較小的曲目可以更接近觀看者。在一些實施例中,值0是正常值,-1將在軌道0的前面,依此類推。在一些實施例中,儘管未在第11A圖中示出,如本文進一步討論的可以包括源深度source_depth。
如本文所討論的,可以使用用於內容的平面檔結構,例如,用於單個電影的視訊軌道。為了更有效地編碼,存儲,處理和/或傳遞這樣的內容,如結合結合第12圖討論的示例性軌道分層結構1200所示,可以將內容劃分成不同的軌道。如本文所討論的,這些技術可以包括利用軌道層次結構(例如,結合第12圖討論的層次結構)來將組合元資料存儲在導出的軌道中(例如,在子畫面軌道1210中,2D大畫面軌道1208和/或軌道1206)。將組合元資料存儲在導出軌道中可以減少需要存儲的組合元資料的數量。
第13圖示出了根據一些實施例的疊加關係描述1300的示例性語法。出於說明性目的,示例可以包括箱類型“ovld”1302,其將用於解釋本文的概念,但是本領域通常知識者可以理解,可以使用其他術語,結構和/或欄位而不脫離本發明的精神。容器可以是視覺樣本條目VisualSampleEntry('dtrk')。如本文所討論的,疊加關係描述1300可以提供用於呈現的疊加合成源的配置資訊。對於在導出軌道中參考的合成時間對齊的樣本,疊加處理可以是由疊加區域深度overlay_region_depth 1304或重疊層overlay_layer1306指定的從前到後的順序,取決於深度包含標誌depth_included_flag 1308的值。例如,可以使用疊加關係描述1300結合完整疊加處理的變換屬性。
進一步參考疊加關係描述1300,源數量source_count1310可以指定合成中的源的數量。 源ID source_ID 1312可以指定軌道中導出樣本使用的所有的軌道ID值和軌道中導出樣本使用的所有圖像條目的條目ID值的列表(例如,具有reference_type等於'dtrk' 的軌道參考類型箱TrackReferenceTypeBox中)的ID值。視口相關標誌relative_to_viewport_flag 1314指定如何渲染疊加。值1可以指示預期的疊加存在於顯示幕幕上(例如,疊加是獨立於用戶的觀看方向可見的)。值0可以指示期望疊加在球體上的特定位置處被渲染(例如,疊加僅在用戶正在渲染疊加的方向上查看時可見)。 視差相關標誌relative_disparity_flag 1316可以指示視差是否被提供為一個視圖的顯示視窗的寬度的百分比值(例如,當值等於1時)或者作為圖元的數量(例如,當該值等於0)。
深度包含標誌depth_included_flag 1318可以指示是否存在疊加內容的區域的深度(例如,z值)。 深度包含標誌depth_included_flag 1318等於1可以指示存在要在其上渲染的疊加的區域的深度。 深度包含標誌depth_included_flag 1318值等於0可以指示不存在要在其上渲染的疊加的區域的深度。
語法1300可以包括其他各種欄位,例如上面結合第11A圖討論的欄位(例如,疊加區域資料overlay_region_count 1102,疊加區域 ID overlay_region_id 1104,重複區域不透明度overlay_region_opacity1106,視差百分比disparity_in_percent1108,圖元中的視差disparity_in_pixels 1110,中心方位角偏移百分比centerAzimuth_offset_percent1112,中心仰角偏移百分比centerElevation_offset_percent 1114,寬度百分比width_percent 1116,高度百分比height_percent 1118,SphereRegionStruct()1120,疊加區域深度overlay_region_depth 1122和/或重疊層overlay_layer1124)。如第13圖中的語法1300所示,疊加區域資料overlay_region_count 1320可以指定為其提供球體內的放置的疊加區域的數量。每個區域可以由識別字識別。 疊加區域 ID overlay_region_id 1322可以提供疊加區域的識別字。 重複區域不透明度overlay_region_opacity1324可以指定要應用於疊加的不透明度(或相反地,透明度)級別。 視差百分比disparity_in_percent1326可以將視差(例如,以2-16 為單位)指示為一個視圖的顯示視窗的寬度的一部分。 圖元中的視差disparity_in_pixels 1328可以指示圖元中的視差。 中心方位角偏移百分比centerAzimuth_offset_percent1330和中心仰角偏移百分比centerElevation_offset_percent 1332可以分別指定距離基點(base)的方位角和仰角偏移量,例如SphereRegionStruct()的centerAzimuth和centerElevation。 寬度百分比width_percent 1334和高度百分比height_percent 1336可分別指定疊加寬度和疊加高度。函數 SphereRegionStruct()1338可以指示球體位置,其與其他資訊一起使用,以確定在3D空間中放置和顯示疊加的位置。在一些實施例中,球體的中心與由SphereRegionStruct()1338指定的球體位置之間的向量可以是渲染疊加物的渲染3D平面的法向量(normal vector)(例如,如結合第11A圖-11B所示所討論的)。疊加區域深度overlay_region_depth 1304可以指示要在其上呈現疊加的區域的深度(例如,z值)。 重疊層overlay_layer1306可以指定視訊軌道的前後排序。例如,數位較小的曲目可以更接近觀看者。
當存在立體聲視訊箱StereoVideoBox時,源深度source_depth 1340可以指示包含立體內容的最小圖像深度(例如,從視點到感知的立體圖像)。源深度source_depth 1340值可以相對於單位球體,並且可以以2-16 為單位指定。可以在合成應用程式中引用源深度source_depth 1340以確保疊加區域的感知深度位於場景中的任何物件的前面。
如本文所討論的,在一些實施例中,如果重疊關係組條目OverlayRelationshipGroupEntry存在于關聯軌道中,則不存在各種重疊關係描述箱OverlayRelationshipDescriptionBox欄位。與重疊關係組條目OverlayRelationshipGroupEntry相比,重疊關係描述箱OverlayRelationshipDescriptionBox可以被視為更高級別的描述。 重疊關係描述箱OverlayRelationshipDescriptionBox可用於軌道分組。如果疊加關係是靜態的(例如,使得在疊加合成期間沒有變化,則因此不需要樣本分組),可以存在重疊關係描述箱OverlayRelationshipDescriptionBox。 重疊關係組條目OverlayRelationshipGroupEntry可用於樣本分組。如果疊加關係是動態的(例如,在疊加合成期間將改變)與軌道分組,則可以存在重疊關係組條目OverlayRelationshipGroupEntry。因此,在一些實施方案中,僅需要將一種描述用於疊加合成。例如,一個可用於靜態疊加關係(例如,在軌道分組級別),而另一個用於動態(例如,在樣本分組級別)。
如本文所討論的,沉浸式媒體內容疊加可以涉及至少主要媒體源和一個或多個次要媒體源。疊加情況可能很複雜,例如多個輔助源疊加在主要源上,可能在不同位置,或者一個輔助源疊加在另一個輔助源之上。根據本發明的實施方式,已經開發了使用定時元資料軌道在ISOBMFF中指定合成元資料的技術。例如,ISOBMFF中指定的定時元資料軌道可用于攜帶合成元資料。這些技術可以使用定時元資料軌道在與疊加媒體軌道本身不同或其外部的軌道中發信號通知所需的疊加元資料。
其他技術,例如將疊加箱(例如,包含已投影的全向視訊箱ProjectedOmniVideoBox中的疊加結構作為疊加(主要或次要)軌道中的條目屬性)可能具有各種缺點。例如,使用疊加箱可能不允許簡單的個性化疊加材料,其中一個(例如,主要)視覺專案可以用依賴於目標最終使用者的不同(例如,次要)視覺專案來疊加。例如,將疊加資訊放置到視覺專案軌道中用於一個(例如,初級)視覺專案可以防止或難以用其他疊加資訊替換該疊加資訊。另外或替代地,第一重疊(例如,主要)條目與第一重疊(例如,次要)條目的關聯可以是一對多和動態的。例如,在第一重疊(例如,主要)條目準備好之後,第二重疊(例如,次要)條目可被選擇或決定,包括不同的利益相關系統,或利用其受保護的完整性(例如,防止其被修改)。
這裡提供的技術,包括使用定時元資料軌道來提供合成元資料,可以提供比先前技術更多的靈活性。例如,這些技術可以在不修改要疊加的媒體軌道(例如,主要和/或次要)的內容的情況下提供合成元資料,這可以發信號通知以允許在媒體內容(例如,主要)的相同塊上疊加不同的媒體內容(例如,次要),可以提供個性化疊加(例如,次要)內容(例如,廣告內容)的靈活性而不需要複製疊加(例如,主要)的內容等。這些技術可以支援作為單視場視覺內容的主要源和次要源,並且可以擴展以處理立體內容。例如,該技術可以支援立體內容以允許其他類型的疊加,例如單聲道疊加立體聲、立體聲疊加單聲道、以及立體聲疊加立體聲。這些技術可以將一個(單聲道)到一個(單聲道)的情況擴展到一個到多個,多個到一個,多個到多個的情況。這裡公開的技術可以適用於常規2D視覺媒體內容,以及3D沉浸式VR視覺媒體內容(例如,其中清楚在相關媒體軌道內攜帶什麼類型的內容)。
ISOBMFF中的定時元資料軌道可用于發信號通知疊加元資料並引用相關軌道的列表。例如,參考可以是至少兩個視覺軌道或軌道組的識別字(ID),其中第一軌道承載主媒體源而其餘軌道承載輔助媒體源。清單中軌道或軌道組的ID順序可用於指示重疊順序。例如,軌道或軌道組可以與直接跟隨的軌道或軌道組重疊。在一些實施例中,當在軌道參考列表中呈現軌道組的ID時,由軌道組中的所有軌道的內容形成的內容可以是為了疊加而考慮的內容。軌道組類型和組中各個軌道的內容可以確定如何形成軌道組內容。例如,如果軌道組是子圖像軌道組,則組內容可以是由所有子圖像軌道的子圖像內容組成的大圖像。用於軌道疊加的軌道參考的一些示例可以包括:一個(例如,主要)視覺條目(例如,視覺軌道或圖像序列)的一個軌道ID,隨後的一個(例如,次要的)視覺條目的一個軌道ID;一個(例如,主要)視覺條目的一個軌道ID,隨後的多個(例如,次要的)視覺條目的一份軌道ID清單;一個視覺軌道的一個軌道ID,隨後的多個(例如,次要的)視覺軌道的一個軌道組ID;多個(例如,主要)視覺條目的一個軌道ID,隨後的一個(例如,次要的)視覺條目的一個軌道ID;多個(例如,主要)視覺條目的一個軌道組ID,隨後的多個(例如,次要的)視覺條目的一份軌道ID清單;多個(例如,主要)視覺條目的一個軌道組ID,隨後的多個(例如,次要的)視覺組的一個軌道組ID;等等。
如本文所討論的,這些技術可用於示例性情況,其中主要源是3D單位球(全向媒體)並且次要源被疊加到多個球形區域上。該示例性情況作為用於說明性目的的技術的示例被討論,並非用於限制本發明。主要源是另一種類型的其他情況是,例如2D平面和/或立體源也可以被定址(例如,根據需要對次要源內容的疊加採用不同的概念或區域定義)。
第14圖示出了根據一些實施例的軌道疊加樣本條目1400的示例性語法。出於說明的目的,示例可以包括語法指定的軌道疊加樣本條目TrackOverlaySampleEntry'trko'1402擴展元資料樣本條目MetadataSampleEntry,其將用於解釋本文的概念。另外,本領域通常知識者可以理解其他命名,結構和/或欄位可以是在不脫離本發明的精神的情況下使用。這些欄位可以包括這裡討論的欄位,例如結合第10圖和第13圖討論的欄位可以包括於其中(例如,視口相關標誌relative_to_viewport_flag 1314,視差相關標誌relative_disparity_flag 1316,深度包含標誌depth_included_flag 1318和疊加區域資料overlay_region_count 1320)。如本文所討論的,視口相關標誌relative_to_viewport_flag 1404可以指定如何呈現渲染。 視差相關標誌relative_disparity_flag 1406可以指示視差是否被提供為一個視圖的顯示視窗的寬度的百分比值(例如,當值等於1時)或者作為圖元的數量(例如,當該值等於0)。 深度包含標誌depth_included_flag 1408可以指示是否存在疊加內容的區域的深度(例如,z值)。 疊加區域資料overlay_region_count 1410可以指定為其提供球體內的放置的疊加區域的數量。 疊加區域資料overlay_region_count 1410可以是軌道參考列表的長度減去1。每個區域可以由識別字識別。
第15圖示出了根據一些實施例的軌道疊加樣本1500的示例性語法。出於說明性目的,示例可以包括軌道疊加樣本TrackOverlaySample類,其將用於解釋本文的概念,但是本領域通常知識者可以理解,在不脫離本發明的精神的情況下,可以使用其他術語,結構和/或欄位。軌道疊加樣本1500可以包括各種欄位,例如結合第11A圖所討論的那些欄位。第11A圖(例如,重複區域不透明度overlay_region_opacity1106,視差百分比disparity_in_percent1108,圖元中的視差disparity_in_pixels 1110,中心方位角偏移百分比centerAzimuth_offset_percent1112,中心仰角偏移百分比centerElevation_offset_percent 1114,寬度百分比width_percent 1116,高度百分比height_percent 1118,SphereRegionStruct()1120,疊加區域深度overlay_region_depth 1122和/或重疊層overlay_layer1124)。參考第15圖中所示的語法,重複區域不透明度overlay_region_opacity1502可以指定要應用於疊加的不透明度或透明度級別。 視差百分比disparity_in_percent1504指示視差,例如以2-16 為單位,作為一個視圖的顯示視窗寬度的一部分。 圖元中的視差disparity_in_pixels 1506指示圖元的視差。 中心方位角偏移百分比centerAzimuth_offset_percent1508和中心仰角偏移百分比centerElevation_offset_percent 1510可以指定距基點的方位角和仰角偏移量(例如,SphereRegionStruct()的centerAzimuth和centerElevation)。 寬度百分比width_percent 1512和高度百分比height_percent 1514可以分別指定疊加寬度和疊加高度,作為顯示視窗寬度和高度的一部分。 函數SphereRegionStruct()1516指示可被使用的球體位置,其與其他資訊一起來確定在3D空間中放置和顯示疊加的位置(例如,如結合第11B圖所討論的)。 疊加區域深度overlay_region_depth 1518可以指示要在其上渲染的疊加的區域的深度(例如,z值)。 重疊層overlay_layer1520可以指定視訊軌道的前後排序。
在作為MPEG-1第2部分的OMAF的版本2草案中(, “[OMAF] Editor’s Input Text for OMAF WD,” w42932, Tampere, Finland, June 2018),其全部內容通過引用結合於此,視覺軌道或圖像條目的疊加元資料被指定為“ovly”箱,以用於攜帶於ProjectedOmniVideoBox和ItemPropertyContainerBox以及重疊定時元資料軌道中。草案指定通過利用'cdsc'軌道參考將疊加定時元資料軌道連結到相應的視覺媒體軌道。 'cdsc'通常用於ISOBMFF軌道參考。同樣如影像檔格式(Image File Format)的第8節中所規定的(Image File Format, ISO/IEC 23008-12, N16657, 2015),其通過引用整體併入本文,元資料項可以通過類型' cdsc'的專案參考連結到它們描述的圖像,以及定時元資料軌道可以用於定義圖像序列的元資料,其可以通過類型'cdsc'的軌道參考連結到圖像序列。因此,例如,對於利用對應的重疊原資料處理重疊中的圖像項, 'cdsc'可能不會簡單地用作疊加處理中的圖像項的參考連結。
發明人已經開發了對先前技術的改進,當圖像項與疊加處理中的視覺媒體軌道有關時,可以使用先前技術。如果疊加是圖像而不是視訊,則圖像專案沒有時間資訊。發明人已經開發了生成元資料以將圖像與定時軌道相關聯的技術。在一些實施例中,該技術可以使用圖像項來指定圖像項的時間元資料。用於疊加處理的圖像項可以是圖像序列軌道的一部分,並且圖像序列軌道可以僅包含一個或多個圖像,其具有用於圖像序列的相關諮詢定時元資料。可以通過利用'cdsc'軌道參考將疊加定時元資料軌道連結到相應的圖像序列軌道。疊加項屬性箱OverlayConfigProperty'ovly,'可以包含在ItemPropertyContainerBox中(例如,如OMAF的版本2草案中指定的MPEG Part 2)。 疊加配置屬性OverlayConfigProperty可以存儲關聯圖像項中包含的疊加層的靜態元資料。例如,可以使用疊加結構OverlayStruct()指定靜態元資料。
在一些實施例中,視覺等效條目可用於指定疊加圖像項的時間資訊。用於疊加處理的圖像項可以是檔中的多個圖像項之一。圖像項可以與軌道的時間軸中的位置相關。對於疊加處理,圖像項可以與疊加處理中的視覺媒體軌道相關。例如,如影像檔格式中所述,“eqiv”樣本分組可用于設置圖像項和視覺媒體軌道之間的關係。由“eqiv”樣本組標記的樣本可以彼此“等效”,和/或與group_id等於樣本組的分組類型參數grouping_type_parameter的實體組中的專案。在軌道的媒體時間刻度中,關聯的“eqiv”實體組的圖像項的所識別時間可以被指定為: T = C + O/(M/256) 公式1 其中, C為相關的樣本的合成時間; S為軌道的媒體時間刻度; O為時間偏移time_offset,以及; M為時間刻度乘法器timescale_multiplier。
“eqiv”樣本中的視覺等價條目可以包括時間偏移time_offset和時間刻度乘法器timescale_multiplier。作為圖像專案中的視覺等價條目的與視覺媒體軌道的時間關係可用於在疊加處理中呈現圖像專案。
這裡討論的技術可以在編碼多媒體內容時使用,並且可以在解碼多媒體內容時被處理。當編碼多媒體內容時,編碼設備可以使用這裡描述的技術來在編碼的多媒體內容中提供疊加合成元資料。當解碼多媒體內容時,解碼設備可以通過確定疊加合成元資料來解碼多媒體內容,並且使用疊加合成元資料來執行用於多媒體資料的疊加合成。
第16圖是根據一些實施例的用於解碼視訊資料的電腦化方法1600的示例性流程圖。在步驟1602,解碼設備接收多媒體資料。如本文所討論的,多媒體資料可以以分層軌道結構編碼(例如,如結合第12圖所討論的)。分層軌道結構可以包括多個軌道,包括至少第一軌道和第二軌道。第一軌道位於分層軌道結構中的第一層,第二軌道位於第一軌道的第一層之上的分層軌道結構中的第二層。
在步驟1604,解碼設備確定與第二軌道相關聯的疊加合成元資料。疊加合成元資料可包括偏移元資料,層元資料,源元資料等,如本文所述。在步驟1606,解碼設備基於第二軌道,確定一個或多個輸入軌道。媒體軌道可以包括例如用於疊加合成的媒體內容。
如本文所討論的,參考步驟1604和步驟1606,可以在導出的軌道中提供各種類型的疊加合成元資料。在一些實施例中,疊加合成元資料包括偏移元資料,其可指定是否為媒體內容提供偏移(例如,結合第5圖-第7B圖討論)。在一些實施例中,疊加合成元資料包括層元資料。層元資料可以指定是否設置層參數(例如,或者是否應該從不同的欄位推斷出它)(例如,如結合第8A圖-第8B圖所討論的)。在一些實施例中,疊加合成元資料可包括源元資料。源元資料可以包括,例如,指定輸入軌道的數量的數目,以及指定三維內容的深度的源深度,和/或其他資訊(例如,合成寬度和高度)(例如,如結合第9圖-第10圖所討論的。在一些實施例中,疊加合成元資料包括疊加關係描述元資料。疊加關係描述元資料可以為每個輸入軌道指定特定於相關輸入軌道的疊加元資料(例如,如結合第13圖所討論的)。
在步驟1608,解碼設備基於疊加合成元資料對輸入軌道執行軌道導出操作。例如,軌道導出操作可以包括基於疊加合成元資料執行輸入軌道的疊加合成以生成第二軌道的媒體資料,使得第二軌道是第一軌道的導出軌道。在一些實施例中,解碼設備可以基於疊加合成元資料中的偏移元資料來確定是否為一個或多個輸入軌道中的每一個指定偏移。如果解碼設備確定針對一個或多個輸入中的每一個指定了偏移,則解碼設備可以基於一個或多個輸入軌道中的每一個的偏移來執行疊加合成。如果疊加合成元資料包括層元資料,則解碼設備可以基於層元資料確定,是否為一個或多個輸入中的每一個指定了層。例如,層元資料可以重新定義不同的層參數(例如,如本文所討論的在軌道的軌道頭箱TrackHeaderBox中的參數)。解碼設備可以基於一個或多個輸入軌道中的每一個的層來執行疊加合成。
在一些實施例中,當疊加合成元資料包括源元資料(例如,源計數,源深度等)時,解碼設備可以基於一個或多個輸入軌道中的每一個的源深度來執行輸入軌道的疊加合成。在一些實施例中,當疊加合成元資料包括疊加關係描述元資料時,解碼設備可以使用為每個輸入軌道指定的疊加元資料來執行疊加合成。
在一些實施例中,可以利用不使用導出軌道的技術來指定疊加合成元資料。例如,可以如本文所討論的使用軌道分組或定時元資料軌道來指定元資料。當以這種方式編碼時,解碼設備可以被配置為相應地解碼疊加合成元資料(例如,基於軌道分組或定時元資料軌道),並根據確定的疊加合成元資料組合多媒體資料。
根據本文描述的原理操作的技術可以以任何合適的方式實現。上面的流程圖的處理和決策塊表示可以包括在執行這些各種過程的演算法中的步驟和動作。從這些過程導出的演算法可以實現為與一個或多個單用途或多用途處理器的操作集成並指導其操作的軟體,可以實現為功能等效電路,例如數位信號處理(DSP)電路或應用 - 特定積體電路(ASIC),或者可以以任何其他合適的方式實現。應當理解,這裡包括的流程圖不描繪任何特定電路或任何特定程式設計語言或程式設計語言類型的語法或操作。相反,流程圖示出了本領域通常知識者可以用來製造電路或實現電腦軟體演算法以執行本文該技術類型的特定裝置的處理的功能資訊。還應當理解,除非本文另有指示,否則每個流程圖中描述的特定步驟和/或動作序列僅僅是可以實現的演算法的說明,並且可以在本文描述的原理的實現和實施例中變化。
因此,在一些實施例中,本文描述的技術可以體現為實現為軟體的電腦可執行指令,包括作為應用軟體,系統軟體,固件,中介軟體,嵌入代碼或任何其他合適類型的電腦代碼。這樣的電腦可執行指令可以使用許多合適的程式設計語言和/或程式設計或腳本工具中的任何一種來編寫,並且還可以被編譯為在框架或虛擬機器上執行的可執行機器語言代碼或中間代碼。
當本文描述的技術體現為電腦可執行指令時,這些電腦可執行指令可以以任何合適的方式實現,包括作為多個功能設施,每個功能設施提供一個或多個操作以完成根據這些技術操作的演算法的執行。然而,產生實體的“功能設施”是電腦系統的結構元件,當與一個或多個電腦集成並由一個或多個電腦執行時,使得一個或多個電腦執行特定的操作角色。功能設施可以是軟體元素的一部分或整個軟體元素。例如,功能設施可以根據過程,或作為離散過程,或作為任何其他合適的處理單元來實現。如果這裡描述的技術被實現為多功能設施,則每個功能設施可以以其自己的方式實現;所有這些都不需要以同樣的方式實現。另外,這些功能設施可以適當地並行和/或串列地執行,並且可以使用它們正在執行的電腦上的共用記憶體,使用消息傳遞協定,或者在任何一個之間在彼此之間傳遞資訊。其他合適的方式。
通常,功能設施包括執行特定任務或實現特定抽象資料類型的常式,程式,物件,元件,資料結構等。通常,功能設施的功能可以根據需要在它們運行的​​系統中組合或分佈。在一些實現中,執行本文技術的一個或多個功能設施可以一起形成完整的套裝軟體。在備選實施例中,這些功能設施可以適於與其他不相關的功能設施和/或過程交互,以實現軟體程式應用。
這裡已經描述了用於執行一個或多個任務的一些示例性功能設施。然而,應當理解,所描述的功能設施和任務劃分僅僅是可以實現本文描述的示例性技術的功能設施的類型的說明,並且實施例不限於以任何特定數量,劃分,或功能設施的類型。在一些實現中,所有功能可以在單個功能設施中實現。還應當理解,在一些實施方式中,本文描述的一些功能設施可以與其他功能設施一起實施或與其他功能設施分開實施(即,作為單個單元或單獨的單元),或者可以不實現這些功能設施中的一些。
在一些實施例中,實現本文描述的技術的電腦可執行指令(當實現為一個或多個功能設施或以任何其他方式實施時)可以在一個或多個電腦可讀介質上編碼以向媒體提供功能。電腦可讀介質包括例如硬碟驅動器之類的磁介質,例如光碟(CD)或數位通用盤(DVD)之類的光學介質,持久或非持久固態記憶體(例如,快閃記憶體,磁性)。 RAM等)或任何其他合適的存儲介質。這種電腦可讀介質可以以任何合適的方式實現。如這裡所使用的,“電腦可讀介質”(也稱為“電腦可讀存儲介質”)指的是有形存儲介質。有形存儲介質是非暫時性的並且具有至少一個物理結構元件。在如本文所使用的“電腦可讀介質”中,至少一個物理結構元件具有至少一個物理特性,該特性可在創建具有嵌入資訊的介質的過程期間以某種方式改變,在其上記錄資訊的過程,或用資訊編碼媒體的任何其他過程。例如,可以在記錄過程期間改變電腦可讀介質的物理結構的一部分的磁化狀態。
此外,上述一些技術包括以某些方式存儲資訊(例如,資料和/或指令)以供這些技術使用的動作。在這些技術的一些實現中 - 例如將技術實現為電腦可執行指令的實現 - 該資訊可以在電腦可讀存儲介質上編碼。在本文中將特定結構描述為存儲該資訊的有利格式的情況下,這些結構可用於在存儲介質上編碼時賦予資訊的物理組織。然後,這些有利結構可以通過影響與資訊交互的一個或多個處理器的操作來向存儲介質提供功能;例如,通過提高處理器執行的電腦操作的效率。
在其中技術可以體現為電腦可執行指令的一些但非全部實現中,這些指令可以在任何合適的電腦系統或一個或多個計算設備中操作的一個或多個合適的計算設備上執行(或者,一個或多個計算設備的一個或多個處理器可以被程式設計為執行電腦可執行指令。計算設備或處理器可以被程式設計為當指令以計算設備或處理器可訪問的方式存儲時執行指令,例如在資料記憶體(例如,片上快取記憶體或指令寄存器,電腦可讀記憶體)中。可通過匯流排訪問的介質,可通過一個或多個網路訪問並可由設備/處理器訪問的電腦可讀存儲介質等。包括這些電腦可執行指令的功能設施可以與單個多用途可程式設計數位計算設備的操作集成並指導其操作,兩個或更多個多用途計算設備的協調系統共用處理能力並且聯合執行本文描述的技術,專用于執行本文該技術的單個計算設備或計算設備的協調系統(共址或地理分佈),用於執行本文該技術的一個或多個現場可程式設計閘數組(FPGA),或任何其他合適的系統。
計算設備可以包括至少一個處理器,網路介面卡和電腦可讀存儲介質。計算設備可以是例如臺式或膝上型個人電腦,個人數位助理(PDA),智慧行動電話,伺服器或任何其他合適的計算設備。網路適​​配器可以是任何合適的硬體和/或軟體,以使計算設備能夠通過任何合適的計算網路與任何其他合適的計算設備進行有線和/或無線通訊。計算網路可以包括無線接入點,交換機,路由器,閘道和/或其他網路設備以及用於在兩個或更多個電腦(包括網際網路)之間交換資料的任何合適的有線和/或無線通訊介質或介質。電腦可讀介質可以適於存儲要處理的資料和/或由處理器執行的指令。處理器能夠處理資料和執行指令。資料和指令可以存儲在電腦可讀存儲介質上。
計算設備可以另外具有一個或多個元件和週邊設備,包括輸入和輸出設備。除其他之外,這些設備可用於呈現使用者介面。可用於提供使用者介面的輸出設備的示例包括印表機或用於輸出視覺呈現的顯示幕,以及揚聲器或用於輸出音訊呈現的聲音生成設備。可以用於使用者介面的輸入裝置的示例包括鍵盤和指示設備,例如滑鼠,觸控板和數位化平板電腦。作為另一示例,計算設備可以通過語音辨識或其他可聽格式接收輸入資訊。
已經描述了以電路和/或電腦可執行指令實現這些技術的實施例。應當理解,一些實施例可以是方法的形式,其中已經提供了至少一個示例。作為方法的一部分執行的動作可以以任何合適的方式排序。因此,可以構造其中以不同於所示順序的循序執行動作的實施例,其可以包括同時執行一些動作,即使在示例性實施例中示出為順序動作。
上述實施例的各個層面可以單獨使用,組合使用,或者在前面描述的實施例中沒有具體討論的各種佈置中使用,因此不限於其應用於上述實施例中闡述的或附圖中示出的部件的細節和佈置。例如,一個實施例中描述的層面可以以任何方式與其他實施例中描述的層面組合。
在請求項中使用例如“第一”,“第二”,“第三”等的序數術語來修改請求項中的元素本身並不意味著一個請求項中的元素優先於另一個,也並非意味著執行方法的時間上的任何優先權或順序,而僅用作標籤以將具有特定名稱的一個請求項中的元素與具有相同名稱(但是用於使用序數術語)的另一個元素區分,以區分請求項中的元素。
此外,這裡使用的措辭和術語是出於描述的目的,而不應被視為限制。本文中“包括”,“包含”,“具有”,“含有”,“涉及”及其變化形式的使用旨在涵蓋其後列出的項目及其等同物以及附加項目。
本文使用的“示例性”一詞意味著用作示例,實例或說明。因此,在此描述為示例性的任何實施例,實現,過程,特徵等應當被理解為說明性示例,並且除非另有指示,否則不應被理解為優選或有利示例。
已經如此描述了至少一個實施例的若干層面,應當理解,本領域通常知識者將容易想到各種改變,修改和改進。這些改變,修改和改進旨在成為本公開的一部分,並且旨在落入本文描述的原理的精神和範圍內。因此,前面的描述和附圖僅是示例性的。
100‧‧‧視訊編碼配置102A~102N‧‧‧攝像機104‧‧‧編碼設備106‧‧‧視訊處理器108‧‧‧編碼器110‧‧‧解碼設備112‧‧‧解碼器114‧‧‧渲染器116‧‧‧顯示器200‧‧‧流程201‧‧‧球形視埠202、204‧‧‧框206、208、210、212、214‧‧‧塊300、500、700、750、800、900‧‧‧語法302、506、600‧‧‧導出軌道配置記錄350‧‧‧導出的軌道配置記錄400、450、716‧‧‧變換屬性402、452、702‧‧‧輸入數量404、706‧‧‧實體索引406、708、714、1120、1338、1516‧‧‧函數408、710‧‧‧樣本偏移410、604‧‧‧樣本偏移位元組長度412、704‧‧‧圖像操作454‧‧‧軌道參考索引值或0值501‧‧‧導出的視覺樣本條目502‧‧‧樣本偏移標誌602‧‧‧實體位元組長度減1606、804‧‧‧保留欄位608‧‧‧數組712‧‧‧樣本數量700A、700B、700C‧‧‧部分語法801‧‧‧導出的視覺化樣本條目802‧‧‧層標誌806‧‧‧層欄位902、1310‧‧‧源數量904、1312‧‧‧源ID906、1340‧‧‧源深度908‧‧‧層910‧‧‧合成寬度912‧‧‧合成高度1000‧‧‧疊加關係1002‧‧‧分組類型1004、1314、1404‧‧‧視口相關標誌1006、1316、1406‧‧‧視差相關標誌1008、1308、1318‧‧‧標誌1100‧‧‧疊加關係樣本組1102、1320、1410‧‧‧疊加區域資料1104、1322‧‧‧疊加區域ID1106、1324、1502‧‧‧重複區域不透明度1108、1326、1504‧‧‧視差百分比1110、1328、1506‧‧‧圖元中的視差1112、1330、1508‧‧‧中心方位角偏移百分比1114、1332、1510‧‧‧中心仰角偏移百分比1116、1334、1512‧‧‧寬度百分比1118、1336、1514‧‧‧高度百分比1122‧‧‧疊加區域深度1124‧‧‧重疊層1150‧‧‧球體1152‧‧‧中心1154‧‧‧向量1156‧‧‧3D平面1200‧‧‧軌道分層結構1202‧‧‧頂部軌道1204‧‧‧元資料軌道1206、1208、1210A、1210R‧‧‧軌道1212A、1212K、1214A、1214K‧‧‧變體軌道1300‧‧‧疊加關係描述1302‧‧‧箱類型1304‧‧‧疊加區域深度1306、1520‧‧‧重疊層1400、1402‧‧‧軌道疊加樣本條目1408‧‧‧深度包含標誌1500‧‧‧軌道疊加樣本1518‧‧‧疊加區域深度1600‧‧‧方法1602、1604、1606、1608‧‧‧步驟
在附圖中,在各個圖中示出的每個相同或幾乎相同的部件由相同的附圖標記表示。為清楚起見,並非每個元件都可以在每個圖紙中標記。附圖不一定按比例繪製,而是將重點放在說明本文描述的技術和裝置的各個層面。 第1圖示出了根據一些實施例的示例性視訊編碼配置。 第2圖示出了根據一些示例的用於虛擬實境(VR)內容的視口相關內容流程。 第3A圖示出了根據一些示例的用於導出視覺軌跡的樣本條目的示例性語法。 第3B圖示出了根據一些示例的導出軌道配置記錄的示例性語法。 第4A圖示出了根據一些示例的導出視覺軌跡的樣本的第一示例性語法。 第4B圖示出了根據一些示例的導出視覺軌跡的樣本的第二示例性語法。 第5圖示出了根據一些實施例的用於導出的視覺軌跡的樣本條目的示例性語法。 第6圖示出了根據一些實施例的導出軌道配置記錄的示例性語法。 第7A圖和第7B圖示出了根據一些實施例的用於導出的視覺軌跡的樣本的示例性語法。 第8A圖示出了根據一些實施例的用於導出的視覺軌跡的樣本條目的語法。 第8B圖示出了根據一些實施例的導出視覺軌跡的樣本的語法。 第9圖示出了根據一些實施例的沉浸式媒體盒(immersive media box)的示例性語法。 第10圖示出了根據一些實施例的用於指定疊加關係的示例性語法。 第11A圖示出了根據一些實施例的用於指定疊加關係樣本組的示例性語法。 第11B圖示出了根據一些實施例的具有指定渲染平面的球體。 第12圖示出了根據一些實施例的示例性軌道分層結構。 第13圖示出了根據一些實施例的疊加關係描述的示例性語法。 第14圖示出了根據一些實施例的軌道疊加樣本條目的示例性語法。 第15圖示出了根據一些實施例的軌道疊加樣本的示例性語法。 第16圖是根據一些實施例的用於解碼視訊資料的電腦化方法的示例性流程圖。
1600‧‧‧方法
1602、1604、1606、1608‧‧‧步驟

Claims (22)

  1. 一種用於解碼視訊資料的解碼方法,其中,該方法包括: 接收包括分層軌道結構的多媒體資料,該分層軌道結構包括至少第一軌道和第二軌道,其中: 該第一軌道位於該分層軌道結構的第一層;以及 該第二軌道位於該第一軌道的該第一層之上的該分層軌道結構中的第二層; 確定與該第二軌道相關聯的疊加合成元資料,其中疊加合成元資料包括偏移元資料,層元資料,源元資料或其組合;以及 對與該第一軌道相關聯的媒體資料執行軌道推導操作,包括:基於該疊加合成元資料,執行與該第一軌道相關聯的該媒體資料的疊加合成,以生成該第二軌道的媒體資料,使得該第二軌道是該第一軌道的導出軌道。
  2. 如請求項1所述之用於解碼視訊資料的解碼方法,其中, 疊加合成元資料包括偏移元資料;以及 與該第一軌道相關聯的媒體資料包括用於合成的一個或多個輸入軌道;以及 該方法還包括基於該偏移元資料確定是否為該一個或多個輸入軌道中的每一個指定偏移。
  3. 如請求項2所述之用於解碼視訊資料的解碼方法,其中,還包括: 基於該偏移元資料,確定為該一個或多個輸入中的每一個指定偏移;以及 執行該媒體資料的疊加合成包括基於該一個或多個輸入軌道中的每一個的偏移來執行疊加合成。
  4. 如請求項1所述之用於解碼視訊資料的解碼方法,其中, 該疊加合成元資料包括該層元資料;以及 與該第一軌道相關聯的媒體資料包括用於合成的該一個或多個輸入軌道;以及 該方法還包括基於該層元資料,確定是否為該一個或多個輸入中的每一個指定一個層。
  5. 如請求項4所述之用於解碼視訊資料的解碼方法,其中,還包括: 基於該層元資料,確定為該一個或多個輸入中的每一個指定一個層;以及 執行媒體資料的疊加合成包括基於該一個或多個輸入軌道中的每一個的層來執行疊加合成。
  6. 如請求項1所述之用於解碼視訊資料的解碼方法,其中, 與該第一軌道相關聯的媒體資料包括用於合成的一個或多個輸入軌道; 該疊加合成元資料包括該源元資料,該源元資料包括指定該一個或多個輸入軌道的數量的源計數,以及指定三維內容的深度的源深度;以及 執行媒體資料的疊加合成包括基於該一個或多個輸入軌道中的每一個的該源深度來執行疊加合成。
  7. 如請求項1所述之用於解碼視訊資料的解碼方法,其中, 與該第一軌道相關聯的媒體資料包括用於合成的該一個或多個輸入軌道;以及 確定該疊加合成元資料包括確定疊加關係描述元資料,其中對於該一個或多個輸入軌道的每個輸入軌道,該疊加關係描述元資料指定特定於相關輸入軌道的疊加元資料。
  8. 一種解碼視訊資料的裝置,其中,該裝置包括與記憶體通信的處理器,該處理器被配置為執行存儲在該記憶體中的指令,該指令使該處理器: 接收包括分層軌道結構的多媒體資料,該分層軌道結構包括至少第一軌道和第二軌道,其中: 該第一軌道位於該分層軌道結構的第一層;以及 該第二軌道位於該第一軌道的該第一層之上的該分層軌道結構中的第二層; 確定與該第二軌道相關聯的疊加合成元資料,其中疊加合成元資料包括偏移元資料,層元資料,源元資料或其某種組合;以及 對與該第一軌道相關聯的媒體資料執行軌道推導操作,包括:基於與疊加合成元資料,執行與與第一軌道相關聯的與媒體資料的疊加合成,以生成與第二軌道的媒體資料,使得與第二軌道是該第一軌道的導出軌道。
  9. 如請求項8所述之解碼視訊資料的裝置,其中, 疊加合成元資料包括偏移元資料;以及 與該第一軌道相關聯的媒體資料包括用於合成的一個或多個輸入軌道;以及 處理器被配置為執行存儲在記憶體中的指令,該指令使該處理器基於偏移元資料確定是否為一個或多個輸入軌道中的每一個指定一個偏移。
  10. 如請求項9所述之解碼視訊資料的裝置,其中,該處理器被配置為執行存儲在該記憶體中的指令,該指令使該處理器: 基於偏移元資料,確定為該一個或多個輸入中的每一個指定一個偏移;以及 執行該媒體資料的疊加合成包括基於該一個或多個輸入軌道中的每一個的偏移來執行疊加合成。
  11. 如請求項8所述之解碼視訊資料的裝置,其中,該疊加合成元資料包括該層元資料;以及 與該第一軌道相關聯的媒體資料包括用於合成的該一個或多個輸入軌道;以及 該處理器被配置為執行存儲在該記憶體中的指令,該指令使該處理器基於該層元資料,確定是否為該一個或多個輸入中的每一個指定一個層。
  12. 如請求項11所述之解碼視訊資料的裝置,其中,該處理器被配置為執行存儲在該記憶體中的指令,該指令使該處理器: 基於該層元資料,確定為該一個或多個輸入中的每一個指定一個層;以及 執行媒體資料的疊加合成包括基於該一個或多個輸入軌道中的每一個的層執行疊加合成。
  13. 如請求項8所述之解碼視訊資料的裝置,其中, 與該第一軌道相關聯的媒體資料包括用於合成的一個或多個輸入軌道; 該疊加合成元資料包括該源元資料,該源元資料包括指定該一個或多個輸入軌道的數量的源計數,以及指定三維內容的深度的源深度;以及 執行媒體資料的疊加合成包括基於該一個或多個輸入軌道中的每一個的該源深度來執行疊加合成。
  14. 如請求項8所述之解碼視訊資料的裝置,其中, 與該第一軌道相關聯的媒體資料包括用於合成的該一個或多個輸入軌道;以及 確定該疊加合成元資料包括確定疊加關係描述元資料,其中對於該一個或多個輸入軌道的每個輸入軌道,該疊加關係描述元資料指定特定於相關輸入軌道的疊加元資料。
  15. 一種用於編碼視訊資料的方法,其中,該方法包括: 編碼包括至少第一軌道和第二軌道的多媒體資料的分層軌道結構,其中: 該第一軌道位於該分層軌道結構的第一層;以及 該第二軌道位於該第一軌道的該第一層之上的該分層軌道結構中的第二層;以及 編碼與該第二軌道相關聯的疊加合成元資料,其中該疊加合成元資料包括偏移元資料,層元資料,源元資料或其組合; 其中,疊加合成元資料指定用於與該第一軌道相關聯的媒體資料的疊加合成的至少一部分,其中疊加合成作為對與該第一軌道相關聯的媒體資料的軌道導出操作的一部分來執行,以生成該第二軌道的媒體資料,使得該第二軌道是該第一軌道的導出軌道。
  16. 如請求項15所述之用於編碼視訊資料的方法,其中, 編碼該分層軌道結構包括編碼與該第一軌道相關聯的媒體資料,包括用於疊加合成的一個或多個輸入軌道;以及 對疊加合成元資料進行編碼包括對該偏移元資料進行編碼,其中該偏移元資料指示是否為該一個或多個輸入軌道中的每一個指定偏移。
  17. 如請求項16所述之用於編碼視訊資料的方法,其中,編碼該偏移元資料包括編碼指示為該一個或多個輸入中的每一個指定的偏移的資料。
  18. 如請求項15所述之用於編碼視訊資料的方法,其中, 編碼該分層軌道結構包括編碼與該第一軌道相關聯的媒體資料,包含用於疊加合成的一個或多個輸入軌道;以及 編碼該疊加合成元資料包括編碼該層元資料,其中該層元資料指示是否為該一個或多個輸入中的每一個指定一個層。
  19. 如請求項18所述之用於編碼視訊資料的方法,其中,編碼該層元資料包括編碼指示為該一個或多個輸入中的每一個指定一個層的資料。
  20. 如請求項15所述之用於編碼視訊資料的方法,其中, 編碼該分層軌道結構包括編碼與該第一軌道相關聯的媒體資料,包括用於疊加合成的一個或多個輸入軌道;以及 編碼疊加合成元資料包括編碼源元資料,該源元資料包括指定該一個或多個輸入軌道的數量的源計數,以及指定三維內容的深度的源深度。
  21. 如請求項15所述之用於編碼視訊資料的方法,其中, 編碼分層軌道結構包括:編碼與該第一軌道相關聯的媒體資料,包含用於疊加合成的一個或多個輸入軌道;以及 編碼疊加合成元資料包括編碼疊加關係描述元資料,其中對於該一個或多個輸入軌道的每個輸入軌道,該疊加關係描述元資料指定特定於相關輸入軌道的疊加元資料。
  22. 一種用於編碼視訊資料的裝置,其中,該裝置包括與記憶體通信的處理器,該處理器被配置為執行存儲在該記憶體中的指令,該指令使該處理器: 編碼包括至少第一軌道和第二軌道的多媒體資料的分層軌道結構,其中: 該第一軌道位於該分層軌道結構的第一層;以及 該第二軌道位於該第一軌道的該第一層之上的該分層軌道結構中的第二層;以及 編碼與該第二軌道相關聯的疊加合成元資料,其中該疊加合成元資料包括偏移元資料,層元資料,源元資料或其組合; 其中,疊加合成元資料指定用於與該第一軌道相關聯的媒體資料的疊加合成的至少一部分,其中疊加合成可以作為對與該第一軌道相關聯的媒體資料的軌道推導操作的一部分來執行,以生成該第二軌道的媒體資料,使得該第二軌道是該第一軌道的導出軌道。
TW108111826A 2018-04-03 2019-04-03 用於編解碼視訊資料的方法及裝置 TWI709325B (zh)

Applications Claiming Priority (16)

Application Number Priority Date Filing Date Title
US201862651782P 2018-04-03 2018-04-03
US62/651,782 2018-04-03
US201862656536P 2018-04-12 2018-04-12
US201862656553P 2018-04-12 2018-04-12
US62/656,553 2018-04-12
US62/656,536 2018-04-12
US201862679060P 2018-06-01 2018-06-01
US62/679,060 2018-06-01
US201862680657P 2018-06-05 2018-06-05
US201862680662P 2018-06-05 2018-06-05
US62/680,662 2018-06-05
US62/680,657 2018-06-05
US201862694537P 2018-07-06 2018-07-06
US62/694,537 2018-07-06
US16/363,843 US10944977B2 (en) 2018-04-03 2019-03-25 Methods and apparatus for encoding and decoding overlay compositions
US16/363,843 2019-03-25

Publications (2)

Publication Number Publication Date
TW201943268A TW201943268A (zh) 2019-11-01
TWI709325B true TWI709325B (zh) 2020-11-01

Family

ID=68057433

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108111826A TWI709325B (zh) 2018-04-03 2019-04-03 用於編解碼視訊資料的方法及裝置

Country Status (3)

Country Link
US (1) US10944977B2 (zh)
CN (1) CN110351563B (zh)
TW (1) TWI709325B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111133763B (zh) * 2017-09-26 2022-05-10 Lg 电子株式会社 360视频系统中的叠加处理方法及其设备
GB2567625B (en) * 2017-10-12 2020-07-15 Canon Kk Method, device, and computer program for generating timed media data
US10939086B2 (en) 2018-01-17 2021-03-02 Mediatek Singapore Pte. Ltd. Methods and apparatus for encoding and decoding virtual reality content
WO2019235904A1 (ko) * 2018-06-08 2019-12-12 엘지전자 주식회사 360 비디오 시스템에서 오버레이 처리 방법 및 그 장치
WO2020009344A1 (ko) * 2018-07-06 2020-01-09 엘지전자 주식회사 360 비디오 데이터의 서브픽처 기반 처리 방법 및 그 장치
US10931930B2 (en) * 2018-07-06 2021-02-23 Mediatek Singapore Pte. Ltd. Methods and apparatus for immersive media content overlays
CN114979750A (zh) * 2019-01-08 2022-08-30 诺基亚技术有限公司 用于虚拟现实的方法、装置和计算机可读介质
WO2021102953A1 (en) * 2019-11-29 2021-06-03 Zte Corporation Multi-view video processing method and apparatus
US11589032B2 (en) 2020-01-07 2023-02-21 Mediatek Singapore Pte. Ltd. Methods and apparatus for using track derivations to generate new tracks for network based media processing applications
US11153665B2 (en) 2020-02-26 2021-10-19 The Toronto-Dominion Bank Systems and methods for controlling display of supplementary data for video content
CN115022715B (zh) * 2020-06-04 2023-07-25 腾讯科技(深圳)有限公司 一种沉浸媒体的数据处理方法及设备
US11750815B2 (en) 2020-09-17 2023-09-05 Lemon, Inc. Versatile video coding track coding
CN112015927B (zh) * 2020-09-29 2023-08-15 北京百度网讯科技有限公司 多媒体文件编辑方法、装置、电子设备和存储介质
US11611752B2 (en) 2020-10-07 2023-03-21 Lemon Inc. Adaptation parameter set storage in video coding
US20230019913A1 (en) 2021-06-30 2023-01-19 Lemon Inc. Signaling Size and Position of Target Picture-In-Picture Region
US20230344834A1 (en) * 2022-04-21 2023-10-26 Cisco Technology, Inc. User role-driven metadata layers in a data mesh

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070086739A1 (en) * 2003-11-10 2007-04-19 Shinichi Kikuchi Information recording medium, information recording method, information playback method, information recording apparatus, and information playback apparatus
US20170195697A1 (en) * 2015-12-15 2017-07-06 Telefonaktiebolaget Lm Ericsson (Publ) Media distribution with sample variants for normalized encryption

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100962696B1 (ko) 2007-06-07 2010-06-11 주식회사 이시티 부호화된 스테레오스코픽 영상 데이터 파일의 구성방법
CA2695645C (en) 2007-08-20 2017-05-23 Nokia Corporation Segmented metadata and indexes for streamed multimedia data
KR101398168B1 (ko) 2007-10-10 2014-05-22 한국전자통신연구원 스테레오스코픽 데이터의 저장 및 재생을 위한 메타데이터구조 및 이를 이용하는 스테레오스코픽 콘텐츠 파일의 저장방법
KR101242472B1 (ko) 2008-07-16 2013-03-12 노키아 코포레이션 트랙 및 트랙 서브세트의 그룹화를 위한 방법 및 장치
BR112012010772A2 (pt) 2009-11-06 2020-09-08 Telefonaktiebolaget Lm Ericsson (Publ) método e dispositivo para prover conteúdo de mídia para fluxo contínuo, método de renderização de conteúdo de mídia, e, terminal de usuário
US8930562B2 (en) 2010-07-20 2015-01-06 Qualcomm Incorporated Arranging sub-track fragments for streaming video data
GB2527786B (en) * 2014-07-01 2016-10-26 Canon Kk Method, device, and computer program for encapsulating HEVC layered media data
WO2016204481A1 (ko) * 2015-06-16 2016-12-22 엘지전자 주식회사 미디어 데이터 전송 장치, 미디어 데이터 수신 장치, 미디어 데이터 전송 방법, 및 미디어 데이터 수신 방법
FI20165115A (fi) 2016-02-17 2017-08-18 Nokia Technologies Oy Laitteisto, menetelmä ja tietokoneohjelma videokoodausta ja videokoodauksen purkua varten
US10389999B2 (en) 2016-02-17 2019-08-20 Qualcomm Incorporated Storage of virtual reality video in media files
CN109076255B (zh) 2016-04-26 2021-10-08 Lg电子株式会社 发送、接收360度视频的方法及设备
WO2018038520A1 (ko) 2016-08-25 2018-03-01 엘지전자 주식회사 전방향 비디오를 전송하는 방법, 전방향 비디오를 수신하는 방법, 전방향 비디오 전송 장치, 전방향 비디오 수신 장치
KR102191875B1 (ko) 2017-03-20 2020-12-16 엘지전자 주식회사 360 비디오를 전송하는 방법, 360 비디오를 수신하는 방법, 360 비디오 전송 장치, 360 비디오 수신 장치
US10375375B2 (en) 2017-05-15 2019-08-06 Lg Electronics Inc. Method of providing fixed region information or offset region information for subtitle in virtual reality system and device for controlling the same
US10939086B2 (en) 2018-01-17 2021-03-02 Mediatek Singapore Pte. Ltd. Methods and apparatus for encoding and decoding virtual reality content
WO2019194434A1 (ko) 2018-04-05 2019-10-10 엘지전자 주식회사 복수의 뷰포인트들에 대한 메타데이터를 송수신하는 방법 및 장치
US10523922B2 (en) 2018-04-06 2019-12-31 Zspace, Inc. Identifying replacement 3D images for 2D images via ranking criteria
US10869016B2 (en) 2018-04-12 2020-12-15 Mediatek Singapore Pte. Ltd. Methods and apparatus for encoding and decoding virtual reality content

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070086739A1 (en) * 2003-11-10 2007-04-19 Shinichi Kikuchi Information recording medium, information recording method, information playback method, information recording apparatus, and information playback apparatus
US20170195697A1 (en) * 2015-12-15 2017-07-06 Telefonaktiebolaget Lm Ericsson (Publ) Media distribution with sample variants for normalized encryption

Also Published As

Publication number Publication date
US10944977B2 (en) 2021-03-09
US20190306519A1 (en) 2019-10-03
TW201943268A (zh) 2019-11-01
CN110351563A (zh) 2019-10-18
CN110351563B (zh) 2022-01-04

Similar Documents

Publication Publication Date Title
TWI709325B (zh) 用於編解碼視訊資料的方法及裝置
US10939086B2 (en) Methods and apparatus for encoding and decoding virtual reality content
US11051040B2 (en) Method and apparatus for presenting VR media beyond omnidirectional media
TWI749483B (zh) 用信號通知點雲多媒體資料軌道的空間關係的方法和裝置
TW202042551A (zh) 沈浸式媒體資料軌道之軌道導出方法和裝置
US11509878B2 (en) Methods and apparatus for using track derivations for network based media processing
US10931930B2 (en) Methods and apparatus for immersive media content overlays
TWI674797B (zh) 球面區域呈現之方法與裝置
JP2022133439A (ja) メディアコンテンツを送信するための方法、装置及びコンピュータプログラム
TW202118289A (zh) 用於編碼/解碼沉浸式媒體的視訊資料的方法和裝置
TWI756534B (zh) 編碼和解碼虛擬實境內容的方法和裝置
US11589032B2 (en) Methods and apparatus for using track derivations to generate new tracks for network based media processing applications
TWI820490B (zh) 利用衍生視訊軌道實現場景描述的方法和系統
US11743559B2 (en) Methods and systems for derived immersive tracks
US11706374B2 (en) Methods and apparatus for re-timing and scaling input video tracks