TWI712313B - 感興趣區之發信號之系統及方法 - Google Patents
感興趣區之發信號之系統及方法 Download PDFInfo
- Publication number
- TWI712313B TWI712313B TW106142641A TW106142641A TWI712313B TW I712313 B TWI712313 B TW I712313B TW 106142641 A TW106142641 A TW 106142641A TW 106142641 A TW106142641 A TW 106142641A TW I712313 B TWI712313 B TW I712313B
- Authority
- TW
- Taiwan
- Prior art keywords
- signaling information
- video
- roi
- image
- viewport
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/167—Position within a video image, e.g. region of interest [ROI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/46—Embedding additional information in the video signal during the compression process
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/513—Processing of motion vectors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Computer Graphics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Closed-Circuit Television Systems (AREA)
Abstract
本發明提供用於處理視訊資料之技術及系統。在一個實例中,可獲得與360度視訊資料相關聯之一媒體檔案。該360度視訊資料可包括一場景之一球面表示。該媒體檔案可包括對應於該球面表示中之一感興趣區(ROI)之一視埠區的第一發信號資訊及第二發信號資訊。該第一發信號資訊可包括在與該球面表示相關聯之一球面空間中所量測的該視埠區之一中心位置及一尺寸。該第二發信號資訊可指示包含該視埠區之一圖像的一區,該圖像係藉由將包括該ROI之該球面表示投影至一平面上而形成。來自該圖像之資料的對應於該視埠區之像素可基於該第一發信號資訊及該第二發信號資訊而提取,且可經提供以用於顯現。
Description
本申請案係關於視訊寫碼及壓縮。更特定言之,本申請案係關於產生及處理用於發信號感興趣區之檔案的系統及方法。
許多器件及系統允許處理並輸出視訊資料以供消耗。數位視訊資料包括大量資料以滿足消費者及視訊提供者之需求。舉例而言,視訊資料之消費者需要具有最優品質(具有高保真度、解析度、圖框速率及其類似者)之視訊。結果,滿足此等需求所需之大量視訊資料對處理及儲存視訊資料之通信網路及器件造成負擔。 各種視訊寫碼技術可用於壓縮視訊資料。視訊寫碼係根據一或多個視訊寫碼標準執行。舉例而言,視訊寫碼標準包括高效視訊寫碼(HEVC)、進階視訊寫碼(AVC)、活動圖像專家組(MPEG)寫碼,或其類似者。視訊寫碼通常使用利用存在於視訊影像或序列中之冗餘的預測方法(例如,框間預測、框內預測或其類似者)。視訊寫碼技術之重要目標係將視訊資料壓縮成促進視訊資料之傳輸以及視訊資料之顯現兩者的形式。
在一些實例中,本文中描述用於產生針對360度視訊內容之媒體檔案的技術及系統,該媒體檔案包括該360度視訊內容中之一或多個感興趣區(ROI)的發信號資訊。本文中亦描述用於處理包括於媒體檔案中之發信號資訊以提取來自視訊內容之一或多個ROI以用於顯現的技術及系統。360度視訊內容可為藉由縫合在某一時間點處擷取場景的一組影像形成的球面視訊。360度視訊圖像之ROI可為擷取場景之某一部分的預定圖像區(例如,基於導演剪切用以引導觀眾觀看之區、統計上最可能在圖像之呈現時間向使用者顯現的區,或其他預定感興趣區)。亦可基於(例如)觀看者的定向動態地判定ROI。發信號資訊可用於各種用途,諸如用於360度視訊自適應串流傳輸中之資料預提取,用於在轉碼360度視訊時的轉碼最佳化,用於快取管理,用於促進360度視訊之顯現,外加其他。 媒體檔案可包括任何合適之串流傳輸媒體檔案,諸如用於根據經由超文字傳送協定(HTTP)之動態自適應串流傳輸(稱為DASH)的自適應位元速率串流傳輸媒體之媒體呈現描述(MPD),或根據任何其他合適之自適應串流傳輸協定之其他合適檔案。 在一些實例中,提供一種處理視訊資料之方法。該方法可包含獲得與360度視訊資料相關聯之一媒體檔案,該360度視訊資料包括一場景之一球面表示,該媒體檔案包括對應於該球面表示中之一感興趣區(ROI)之一視埠區的第一發信號資訊及第二發信號資訊,該第一發信號資訊包括在與該球面表示相關聯之一球面空間中所量測的該視埠區之一中心位置及一尺寸,且該第二發信號資訊指示包含該視埠區之一圖像的一區,該圖像係藉由將包括該ROI之該球面表示投影至一平面上而形成。該方法可進一步包含基於該第一發信號資訊及該第二發信號資訊而提取來自該圖像之資料的對應於視埠區之像素,及提供該等像素以顯現該視埠區用於顯示。 在一些態樣中,該第一發信號資訊可包括該視埠區之一中心相對於該場景之該球面表示之一球面中心的一第一角及一第二角,該第一角形成於一第一平面上且該第二角形成於一第二平面上,該第一平面垂直於該第二平面。 在一些態樣中,該第一發信號資訊可進一步包括與該視埠區之一寬度相關聯的一第三角及與該視埠區之一高度相關聯的一第四角。 在一些態樣中,該第三角可形成於該視埠區之一第一邊緣與一第二邊緣之間;且其中該第四角形成於該視埠區之一第三邊緣與一第四邊緣之間。 在一些態樣中,該ROI可由與該球面表示相交的至少四個平面界定;且其中該四個平面中之每一者亦與該球面中心相交。在一些態樣中,該視埠區之形狀可基於該至少四個平面與該球面表示之相交區而判定。在一些態樣中,對應於該視埠區之該等像素係基於該形狀而提取。 在一些態樣中,該圖像可包括複數個圖塊。該第二發信號資訊可定義包括該視埠區的該圖像之一或多個圖塊。在一些態樣中,該方法可進一步包含基於該第二發信號資訊而自該複數個圖塊獲得該一或多個圖塊,及自該一或多個圖塊提取該等像素。 在一些態樣中,該第二發信號資訊可包括與該圖像中之該一或多個圖塊相關聯的一或多個座標。該一或多個圖塊可形成一圖塊群組,且該第二發信號資訊可包括與該圖塊群組相關聯之一群組識別符。在一些態樣中,該複數個圖塊為運動受限之圖塊。 在一些態樣中,該第二發信號資訊可包括與一視埠區內的藉由將該ROI投影於一平面上所形成之一預定位置相關聯的像素座標、該視埠區之一寬度及該視埠區之一高度。該媒體檔案可基於一國際標準組織(ISO)基本媒體檔案格式(ISOBMFF)。該媒體檔案可識別包括對應於該球面視訊場景之一視訊樣本的一樣本群組;且其中該第一發信號資訊及該第二發信號資訊包括於該樣本群組之一或多個語法元素中。 在一些態樣中,該媒體檔案可基於一媒體呈現描述(MPD)格式且包括一或多個適應集合。該一或多個適應集合中之每一者可包括一或多個表示。該第一發信號資訊、該第二發信號資訊及至該圖像之一鏈接可包括在與包括於該一或多個表示中之該ROI相關聯的一或多個元素中。在一些態樣中,該方法可進一步包含基於包括於該媒體檔案中之該鏈接而獲得該圖像。 在一些態樣中,該一或多個表示可為基於圖塊之表示,且該第二發信號資訊可包括與圖塊相關聯之識別符,該等圖塊包括該一或多個基於圖塊之表示中所包括的該ROI。 在一些態樣中,該場景之該球面表示可使用一直線投影而投影至該平面上。 在一些態樣中,該方法可進一步包含基於該第一發信號資訊及該第二發信號資訊而提取來自該圖像之多個ROI的像素。 在一些實例中,提供一種用於處理視訊資料之裝置。該裝置可包含:一記憶體,其經組態以儲存360度視訊資料;及一處理器,其經組態以執行以下操作:獲得與該360度視訊資料相關聯之一媒體檔案,該360度視訊資料包括一場景之一球面表示,該媒體檔案包括對應於該球面表示中之一感興趣區(ROI)之一視埠區的第一發信號資訊及第二發信號資訊,該第一發信號資訊包括在與該球面表示相關聯之一球面空間中所量測的該視埠區之一中心位置及一尺寸,且該第二發信號資訊指示包含該視埠區之一圖像的一區,該圖像係藉由將包括該ROI之該球面表示投影至一平面上而形成。該處理器可經進一步組態以基於該第一發信號資訊及該第二發信號資訊而提取來自該圖像之資料的對應於該視埠區之像素,且提供該等像素以顯現該視埠區用於顯示。 在一些態樣中,該處理器經進一步組態以自該第一發信號資訊判定該視埠區之一中心相對於該場景之該球面表示之一球面中心的一第一角及一第二角,該第一角形成於一第一平面上且該第二角形成於一第二平面上,該第一平面垂直於該第二平面。 在一些態樣中,該處理器經進一步組態以自該第一發信號資訊判定與該視埠區之一寬度相關聯的一第三角及與該視埠區之一高度相關聯的一第四角。 在一些態樣中,該第三角形成於該視埠區之一第一邊緣與一第二邊緣之間;且其中該第四角形成於該視埠區之一第三邊緣與一第四邊緣之間。在一些態樣中,該ROI係由與該球面表示相交的至少四個平面界定;且其中該四個平面中之每一者亦與該球面中心相交。 在一些態樣中,該處理器經進一步組態以基於該至少四個平面與該球面表示之相交區而判定該視埠區之一形狀。 在一些態樣中,該處理器經組態以基於該形狀而提取對應於該視埠區之該等像素。 在一些態樣中,該圖像可包括複數個圖塊,且該第二發信號資訊可定義包括該視埠區的該圖像之一或多個圖塊。該處理器經進一步組態以基於該第二發信號資訊而自該複數個圖塊獲得該一或多個圖塊,且自該一或多個圖塊提取該等像素。 在一些態樣中,該處理器經進一步組態以自該第二發信號資訊判定與該圖像中之該一或多個圖塊相關聯的一或多個座標。 在一些態樣中,該一或多個圖塊形成一圖塊群組。該處理器經進一步組態以自該第二發信號資訊判定與該圖塊群組相關聯之一群組識別符。在一些態樣中,該複數個圖塊為運動受限之圖塊。 在一些態樣中,該處理器經進一步組態以自該第二發信號資訊判定與一視埠區內的藉由將該ROI投影於一平面上所形成之一預定位置相關聯的像素座標、該視埠區之一寬度及該視埠區之一高度。 在一些態樣中,該媒體檔案係基於一國際標準組織(ISO)基本媒體檔案格式(ISOBMFF)。該媒體檔案可識別包括對應於該球面視訊場景之一視訊樣本的一樣本群組;且其中該處理器經進一步組態以自該樣本群組之一或多個語法元素提取該第一發信號資訊及該第二發信號資訊。 在一些態樣中,該媒體檔案係基於一媒體呈現描述(MPD)格式且包括一或多個適應集合。該一或多個適應集合中之每一者可包括一或多個表示。該處理器經進一步組態以基於與包括於該一或多個表示中之該ROI相關聯的一或多個元素而判定該第一發信號資訊、該第二發信號資訊及至該圖像之一鏈接;且基於包括於該媒體檔案中之該鏈接而獲得該圖像。 在一些態樣中,該一或多個表示為基於圖塊之表示。該處理器經進一步組態以基於該第二發信號資訊而判定與圖塊相關聯之識別符,該等圖塊包括該一或多個基於圖塊之表示中所包括的該ROI。 在一些態樣中,該場景之該球面表示係使用一直線投影而投影至該平面上。 在一些態樣中,該處理器經進一步組態以基於該第一發信號資訊及該第二發信號資訊而提取來自該圖像之多個ROI的像素。 在一些態樣中,該裝置可包含具有用以擷取該360度視訊資料之一或多個攝影機的一行動器件。在一些態樣中,該裝置可包含用以顯現該視埠區之一顯示器。 在一些實例中,提供一種非暫時性電腦可讀媒體。該非暫時性電腦可讀媒體於其上可儲存有指令,該等指令在由一或多個處理器執行時使得該一或多個處理器執行以下操作:獲得與360度視訊資料相關聯之一媒體檔案,該360度視訊資料包括一場景之一球面表示,該媒體檔案包括對應於該球面表示中之一感興趣區(ROI)之一視埠區的第一發信號資訊及第二發信號資訊,該第一發信號資訊包括在與該球面表示相關聯之一球面空間中所量測的該視埠區之一中心位置及一尺寸,且該第二發信號資訊指示包含該視埠區之一圖像的一區,該圖像係藉由將包括該ROI之該球面表示投影至一平面上而形成;基於該第一發信號資訊及該第二發信號資訊而提取來自該圖像之資料的對應於該視埠區之像素;及提供該等像素以顯現該視埠區用於顯示。 在一些實例中,提供一種處理視訊資料之方法。該方法可包含:獲得360度視訊資料,該360度視訊資料包括一場景之一球面表示;判定該場景之該球面表示中之一感興趣區(ROI);產生一媒體檔案,該媒體檔案包括對應於該ROI之一視埠區的第一發信號資訊及第二發信號資訊,該第一發信號資訊包括在與該球面表示相關聯之一球面空間中所量測的該視埠區之一中心位置及一尺寸,且該第二發信號資訊指示包含該視埠區之一圖像的一區,其中該圖像係藉由將包括該ROI之該球面表示投影至一平面上而形成;及提供該媒體檔案以用於顯現該360度視訊資料或用於傳輸包括至少該ROI之該360度視訊資料的一部分。 在一些實例中,提供一種用於處理視訊資料之裝置。該裝置可包含:一記憶體,其經組態以儲存360度視訊資料;及一處理器,其經組態以執行以下操作:獲得360度視訊資料,該360度視訊資料包括一場景之一球面表示;判定該場景之該球面表示中之一感興趣區(ROI);產生一媒體檔案,該媒體檔案包括對應於該ROI之一視埠區的第一發信號資訊及第二發信號資訊,該第一發信號資訊包括在與該球面表示相關聯之一球面空間中所量測的該視埠區之一中心位置及一尺寸,且該第二發信號資訊指示包含該視埠區之一圖像的一區,其中該圖像係藉由將包括該ROI之該球面表示投影至一平面上而形成;及提供該媒體檔案以用於顯現該360度視訊資料或用於傳輸包括至少該ROI之該360度視訊資料的一部分。 在一些實例中,提供一種非暫時性電腦可讀媒體。該非暫時性電腦可讀媒體於其上可儲存有指令,該等指令在由一或多個處理器執行時使得該一或多個處理器執行以下操作:獲得360度視訊資料,該360度視訊資料包括一場景之一球面表示;判定該場景之該球面表示中之一感興趣區(ROI);產生一媒體檔案,該媒體檔案包括對應於該ROI之一視埠區的第一發信號資訊及第二發信號資訊,該第一發信號資訊包括在與該球面表示相關聯之一球面空間中所量測的該視埠區之一中心位置及一尺寸,且該第二發信號資訊指示包含該視埠區之一圖像的一區,其中該圖像係藉由將包括該ROI之該球面表示投影至一平面上而形成;及提供該媒體檔案以用於顯現該360度視訊資料或用於傳輸包括至少該ROI之該360度視訊資料的一部分。 此發明內容並不意欲識別所主張標的物之關鍵或基本特徵,亦不意欲單獨使用以確定所主張標的物之範疇。應參考此專利之整個說明書之適當部分、任何或所有圖式及每一申請專利範圍來理解標的物。 在參考以下說明書、申請專利範圍及隨附圖式時,前述內容連同其他特徵及實施例將變得更顯而易見。
下文提供本發明之某些態樣及實施例。此等態樣及實施例之一些可獨立地應用且其中之一些可以將對熟習此項技術者顯而易見之組合來應用。在以下描述中,出於解釋之目的,闡述特定細節以便提供對本發明之實施例的透徹理解。然而,各種實施例可在無此等特定細節之情況下得以實踐將為顯而易見的。圖式及描述不意欲為限定性的。 隨後描述僅提供例示性實施例且並不意欲限制本發明的範疇、可應用性或組態。實際上,例示性實施例之隨後描述將為熟習此項技術者提供能夠實施例示性實施例之描述。應理解,可在不脫離如所附申請專利範圍中所闡述之本發明之精神及範疇的情況下對元件之功能及配置做出各種改變。 在以下描述中給出特定細節以提供對實施例之透徹理解。然而,一般熟習此項技術者應理解,實施例可在無需此等特定細節之情況下實踐。舉例而言,電路、系統、網路、處理程序及其他組件可在區塊圖形式中展示為組件以便在不必要細節下不與實施例混淆。在其他情況下,可在無不必要細節之情況下展示熟知電路、處理程序、演算法、結構及技術以便避免混淆實施例。 又,應注意,個別實施例可描述為被描繪為流程圖(flowcart)、流程圖(flow diagram)、資料流程圖、結構圖或方塊圖之處理程序。儘管流程圖可能將操作描述為順序處理程序,但許多操作可並行地或同時加以執行。另外,可再配置操作之次序。處理程序在其操作完成時終止,但可具有不包括於圖中之額外步驟。處理程序可對應於方法、函式、程序、次常式、子程式等。當處理程序對應於函式時,其終止可對應於函式傳回至呼叫函式或主函式。 術語「電腦可讀媒體」包括(但不限於)攜帶型或非攜帶型儲存器件、光儲存器件及能夠儲存、含有或攜載指令及/或資料的各種其他媒體。電腦可讀媒體可包括非暫時性媒體,其中可儲存資料並且不包括載波及/或無線地或經由有線連接傳播之暫時電子信號。非暫時性媒體之實例可包括(但不限於)磁碟或磁帶、諸如緊密光碟(CD)或數位化通用光碟(DVD)之光學儲存媒體、快閃記憶體、記憶體或記憶體器件。電腦可讀媒體可具有儲存於其上之程式碼及/或機器可執行指令,該等程式碼及/或機器可執行指令可表示程序、函式、子程式、程式、常式、次常式、模組、軟體套件、種類別或指令、資料結構或程式語句陳述式之任何組合。一個碼段可藉由傳遞及/或接收資訊、資料、論證、參數或記憶體內容耦接至另一碼段或硬體電路。資訊、引數、參數、資料等可經由包括記憶體共用、訊息傳遞、符記傳遞、網路傳輸或其類似者之任何合適方式傳遞、轉遞或傳輸。 此外,可由硬體、軟體、韌體、中間軟體、微碼、硬件描述語言或其任何組合實施實施例。當以軟體、韌體、中間軟體或微碼實施時,用以執行必要任務之程式碼或碼段(例如,電腦程式產品)可儲存於電腦可讀或機器可讀媒體中。處理器可執行必要任務。 視訊內容可經擷取及寫碼為360度視訊內容(亦稱作虛擬實境(VR)內容)。如下文更詳細地描述,本文中所描述之一或多個系統及方法係關於產生針對360度視訊內容之媒體檔案,該等媒體檔案包括視訊內容中之一或多個感興趣區(ROI)的發信號資訊。本文中描述之一或多個系統及方法亦係關於處理包括於媒體檔案中之發信號資訊以提取來自視訊內容之ROI以用於顯現。視訊內容可為藉由縫合在某些時間點處擷取場景的一組影像形成的球面視訊。360度視訊圖像之ROI可為擷取場景之某一部分的圖像之預定區。在一些狀況下,ROI可對應於場景之經動態判定部分(例如,藉由使用者當前觀看的場景之一部分)。媒體檔案可包括ROI之第一發信號資訊及第二發信號資訊。第一發信號資訊可包括在對應於球面視訊之三維球面空間中的ROI之第一位置及ROI之尺寸資訊。第二發信號資訊可包括藉由將球面空間投影至平面上形成的二維空間中之ROI之第二位置。在一些實例中,雙發信號可提供ROI之第一位置與第二位置之間的映射。映射可促進球面視訊資料之傳輸及顯現兩者。 360度視訊可包括虛擬實境視訊、擴增實境資料或任何其他類型的360度類型視訊內容,不管經擷取、電腦產生或其類似者。舉例而言,360度視訊可提供虛擬存在於藉由顯現藉由浸入使用者之移動而相關的自然及/或合成影像(及在一些狀況下聲音)建立的非實體世界中之能力,從而允許使用者與彼世界互動。360度視訊可表示可以看起來真實或實體方式互動的三維環境。在一些狀況下,體驗360度視訊環境之使用者使用諸如頭戴顯示器(HMD)及視情況某些工具或衣物(例如,配備有感測器之手套)的電子裝備以與虛擬環境交互。隨著使用者在真實世界中移動,在虛擬環境中顯現之影像亦改變,從而向使用者給予使用者正在虛擬環境內移動之感知。在一些狀況下,虛擬環境包括與使用者之移動相關之聲音,從而向使用者給予聲音來源於特定方向或來源之視聽。360度視訊可以極高品質擷取及顯現,潛在地提供真實浸入式360度視訊或虛擬實境體驗。360度視訊應用包括遊戲、訓練、教育、體育視訊及線上購物外加其他。 360度視訊為經擷取用於在360度環境中顯示的視訊。在一些應用中,相較於電腦產生之圖形,來自真實世界之視訊可用於虛擬實境環境(諸如可在遊戲及虛擬世界中發現)之呈現。在此等應用中,使用者可以使用者可體驗使用者之目前位置的相同方式體驗另一位置。舉例而言,使用者可在使用定位於舊金山之360度視訊系統時體驗柏林之步行旅行。 360度視訊系統可包括視訊擷取器件及視訊顯示器件,且可能亦包括諸如伺服器、資料儲存器及資料傳輸裝備之其他中間器件。視訊擷取器件可包括攝影機集合,其可包括多個攝影機之集合,每一攝影機定向於不同方向且擷取不同視圖。在一個說明性實例中,六個攝影機可用以擷取以攝影機集合之位置上定中心的完整360度視圖。一些視訊擷取器件可使用更少攝影機。舉例而言,一些視訊擷取器件主要擷取邊至邊視圖或使用具有寬視場之透鏡。在一個說明性實例中,裝備有背對背定位之兩個魚眼透鏡的一或多個攝影機可用以擷取共同提供360度視場之兩個影像。視訊通常包括圖框或圖像,其中圖框或圖像為場景之經電子式寫碼靜態影像。攝影機每秒擷取某數目個圖框,其通常被稱作攝影機之圖框速率。 在一些狀況下,為提供無縫360度視圖,可對由攝影機集合中之攝影機中的每一者擷取的視訊圖框(或影像)執行影像縫合。在360度視訊產生之狀況下的影像縫合涉及組合或合併視訊圖框重疊或將以其他方式連接所在之區域中的鄰近攝影機之視訊圖框。結果將為大體球面圖框,且類似於麥卡托(Mercator)投影,經合併之資料可以平面樣式表示。舉例而言,經合併視訊圖框中之像素可經映射至立方體形狀或某其他三維平面形狀(例如,角錐形、八面體、十面體等)之平面上。視訊擷取及視訊顯示器件可基於柵格原理操作(意謂視訊圖框被視為像素之網格),在此狀況下正方形平面、矩形平面或其他適當地成形平面可用以表示球面環境。 映射至平面表示之360度視訊圖框可經編碼及/或壓縮以供儲存及/或傳輸。編碼及/或壓縮可使用視訊編解碼器(例如,與高效視訊寫碼(HEVC)標準(其亦稱為H.265)、進階視訊寫碼標準(其稱為H.264或其他合適編解碼器)相容的程式碼)來實現且產生經壓縮視訊位元串流(或經編碼視訊位元串流)或位元串流之群組。使用視訊編解碼器對視訊資料進行編碼下文進一步詳細地描述。 在一些實施中,經編碼視訊位元串流可以媒體格式或檔案格式儲存及/或囊封。一或多個所儲存位元串流可(例如)經由網路傳輸至接收器器件,該接收器器件可解碼並顯現視訊以供顯示。此接收器器件本文中可被稱作視訊顯示器件。舉例而言,360度視訊系統可自經編碼視訊資料(例如,使用國際標準組織(ISO)基本媒體檔案格式及/或導出之檔案格式)產生經囊封檔案。舉例而言,視訊編解碼器可編碼視訊資料,且囊封引擎可藉由將視訊資料囊封於一或多個ISO格式媒體檔案中而產生媒體檔案。替代地或另外,一或多個所儲存位元串流可直接自儲存媒體提供至接收器器件。 接收器器件亦可實施編解碼器以解碼及/或解壓縮經編碼視訊位元串流。在一或多個經編碼視訊位元串流以媒體格式或檔案格式儲存及/或囊封情況下,接收器器件可支援用以將視訊位元串流封裝至檔案(或多個檔案)中的媒體或檔案格式,且可提取視訊(及亦可能音訊)資料以產生經編碼視訊資料。舉例而言,接收器器件可用經囊封視訊資料剖析媒體檔案以產生經編碼視訊資料,且接收器器件中之編解碼器可解碼經編碼視訊資料。 接收器器件接著可發送經解碼視訊信號至顯現器件(例如,視訊顯示器件、播放器器件或其他合適之顯現器件)。舉例而言,顯現器件包括頭戴顯示器、虛擬實境電視及其他180度或360度顯示器件。大體而言,頭戴顯示器能夠追蹤穿戴者之頭部之移動及/或穿戴者之眼睛的移動。頭戴顯示器可使用追蹤資訊來顯現對應於穿戴者正觀察之方向的360度視訊之部分,使得穿戴者以與穿戴者將體驗真實世界相同之方式體驗虛擬環境。顯現器件可以擷取視訊之相同圖框速率或以不同圖框速率顯現視訊。 360度視訊內容之視訊圖像可使用時間框間預測(TIP)而編碼為單層位元串流,且整個寫碼位元串流可儲存於伺服器處。在一些狀況下,360度視訊內容之圖像可使用TIP及層間預測(ILP)而編碼為多層位元串流。若需要,則位元串流可傳輸至接收器側,藉由解碼器完全解碼,且對應於藉由穿戴者觀看的場景之一部分的經解碼圖像之區(例如,基於穿戴者之頭部及/或眼睛的移動而判定)可向穿戴者顯現。 圖1為說明視訊寫碼系統100之實例的方塊圖,該視訊寫碼系統包括編碼器件104及解碼器件112。編碼器件104可為源器件之部分,且解碼器件112可為接收器件之部分。源器件及/或接收器件可包括電子器件,諸如行動或靜止電話手機(例如,智慧型電話、蜂巢式電話或其類似者)、桌上型電腦、膝上型或筆記型電腦、平板電腦、機上盒、電視、攝影機、顯示器件、數位媒體播放器、視訊遊戲控制台、視訊串流器件、網際網路協定(IP)攝影機或任何其他合適的電子器件。在一些實例中,源器件及接收器件可包括用於無線通信之一或多個無線收發器。本文中所描述之寫碼技術適用於各種多媒體應用中之視訊寫碼,包括串流視訊傳輸(例如,經由網際網路)、電視廣播或傳輸、編碼數位視訊以供儲存於資料儲存媒體上、解碼儲存於資料儲存媒體上之數位視訊或其他應用。在一些實例中,系統100可支援單向或雙向視訊傳輸以支援諸如視訊會議、視訊串流、視訊播放、視訊廣播、遊戲及/或視訊電話之應用。 編碼器件104 (或編碼器)可用以使用視訊寫碼標準或協定編碼視訊資料以產生經編碼視訊位元串流。視訊寫碼標準之實例包括ITU-T H.261、ISO/IEC MPEG-1 Visual、ITU-T H.262或ISO/IEC MPEG-2 Visual、ITU-T H.263、ISO/IEC MPEG-4 Visual、ITU-T H.264(亦稱為ISO/IEC MPEG-4 AVC),包括其可調式視訊寫碼(SVC)及多視圖視訊寫碼(MVC)擴展,及高效視訊寫碼(HEVC)或ITU-T H.265。處理多層視訊寫碼之HEVC之各種擴展存在,包括範圍及螢幕內容寫碼擴展、3D視訊寫碼(3D-HEVC)及多視圖擴展(MV-HEVC)及可調式擴展(SHVC)。HEVC及其擴展已藉由ITU-T視訊寫碼專家組(VCEG)及ISO/IEC動畫專家組(MPEG)之視訊寫碼聯合協作小組(JCT-VC)以及3D視訊寫碼擴展開發聯合協作小組(JCT-3V)開發。MPEG及ITU-T VCEG已亦形成聯合探索視訊小組(JVET),以探索用於下一代視訊寫碼標準之新寫碼工具。參考軟體被稱作JEM(聯合探索模型)。 本文中所描述之許多實施例提供使用JEM模型、HEVC標準及/或其擴展的實例。然而,本文中所描述之技術及系統亦可適用於其他寫碼標準,諸如AVC、MPEG、其擴展或已可用或尚不可用或尚未開發之其他合適的寫碼標準。因此,雖然可參考特定視訊寫碼標準描述本文中所描述之技術及系統,但一般熟習此項技術者將瞭解,描述不應解譯為僅適用於彼特定標準。 參看圖1,視訊源102可將視訊資料提供至編碼器件104。視訊源102可為源器件之一部分,或可為除源器件以外的器件之一部分。視訊源102可包括視訊擷取器件(例如,視訊攝影機、攝影機電話、視訊電話或其類似者)、含有經儲存視訊之視訊存檔、提供視訊資料之視訊伺服器或內容提供者、自視訊伺服器或內容提供者接收視訊之視訊饋入介面、用於產生電腦圖形視訊資料之電腦圖形系統、此等源之組合或任何其他合適的視訊源。 來自視訊源102之視訊資料可包括一或多個輸入圖像或圖框。視訊之圖像或圖框為場景之靜態影像。編碼器件104之編碼器引擎106(或編碼器)編碼視訊資料以產生經編碼視訊位元串流。在一些實例中,經編碼視訊位元串流(或「視訊位元串流」或「位元串流」)為一系列之一或多個經寫碼視訊序列。經寫碼視訊序列(CVS)包括一系列存取單元(AU),其始於在基礎層中具有隨機存取點圖像且具有某些性質之AU,直至且不包括在基礎層中具有隨機存取點圖像且具有某些性質之下一AU。舉例而言,開始CVS之隨機存取點圖像的某些性質可包括等於1之RASL旗標(例如,NoRaslOutputFlag)。否則,隨機存取點圖像(具有等於0之RASL旗標)並不開始CVS。存取單元(AU)包括一或多個經寫碼圖像及對應於共用相同輸出時間之經寫碼圖像的控制資訊。圖像之經寫碼圖塊在位元串流層級囊封至稱為網路抽象層(NAL)單元之資料單元中。舉例而言,HEVC視訊位元串流可包括一或多個CVS,該一或多個CVS包括NAL單元。NAL單元中之每一者具有NAL單元標頭。在一個實例中,標頭對於H.264/AVC (除了多層擴展以外)為一個位元組且對於HEVC為兩個位元組。NAL單元標頭中之語法元素採取經指定位元,且因此對所有種類之系統及輸送層可見,諸如輸送串流、即時輸送(RTP)協定、檔案格式以及其他。 兩種類別之NAL單元存在於HEVC標準中,包括視訊寫碼層(VCL)NAL單元及非VCL NAL單元。VCL NAL單元包括經寫碼圖像資料之一個圖塊或圖塊片段(如下描述),且非VCL NAL單元包括關於一或多個經寫碼圖像之控制資訊。在一些狀況下,NAL單元可被稱作封包。HEVC AU包括含有經寫碼圖像資料之VCL NAL單元及對應於經寫碼圖像資料之非VCL NAL單元(若存在)。 NAL單元可含有形成視訊資料之經寫碼表示(諸如,視訊中之圖像的經寫碼表示)的位元序列(例如,經編碼視訊位元串流、位元串流之CVS或其類似者)。編碼器引擎106藉由將每一圖像分割成多個圖塊而產生圖像之經寫碼表示。一圖塊獨立於其他圖塊,以使得在不依賴於來自同一圖像內之其他圖塊之資料的情況下寫碼該圖塊中之資訊。一圖塊包括一或多個圖塊片段,該一或多個圖塊片段包括獨立圖塊片段及(若存在)取決於先前圖塊片段之一或多個相關圖塊片段。圖塊接著被分割成明度樣本及色度樣本之寫碼樹型區塊(CTB)。明度樣本之CTB及色度樣本之一或多個CTB連同樣本之語法被稱為寫碼樹型單元(CTU)。CTU為用於HEVC編碼之基本處理單元。CTU可經分裂成具有不同大小之多個寫碼單元(CU)。CU含有被稱為寫碼區塊(CB)之明度及色度樣本陣列。 明度及色度CB可進一步被分裂成預測區塊(PB)。PB為對於框間預測或塊內複製預測(在可用或經啟用以供使用時)使用相同運動參數的明度分量或色度分量之樣本之區塊。該明度PB及一或多個色度PB連同相關聯語法形成預測單元(PU)。對於框間預測,一組運動參數(例如,一或多個運動向量、參考索引或其類似者)係在用於每一PU之位元串流中發信且用於明度PB及一或多個色度PB之框間預測。運動參數亦可被稱作運動資訊。CB亦可被分割成一或多個變換區塊(TB)。TB表示色彩分量之樣本之正方形區塊,對該正方形區塊應用同一二維變換以用於寫碼預測殘餘信號。變換單元(TU)表示明度及色度樣本之TB以及對應語法元素。 CU之大小對應於寫碼模式之大小,且可為正方形形狀。舉例而言,CU之大小可為8×8樣本、16×16樣本、32×32樣本、64×64樣本或達至相應CTU之大小的任何其他適當大小。片語「N×N」在本文中用於指就垂直及水平尺寸而言視訊區塊之像素尺寸(例如,8像素×8像素)。可按列及行來排列區塊中之像素。在一些實施例中,區塊在水平方向上可不具有與在垂直方向上相同的數目個像素。與CU相關聯之語法資料可描述(例如)將CU分割成一或多個PU。分割模式可在CU經框內預測模式編碼抑或經框間預測模式編碼之間有所不同。PU可經分割成非正方形形狀。與CU相關聯之語法資料亦可描述(例如)根據CTU將CU分割成一或多個TU。TU可為正方形或非正方形形狀。 根據HEVC標準,可使用變換單元(TU)來執行變換。TU可針對不同CU而變化。可基於給定CU內之PU的大小而對TU設定大小。TU可與PU大小相同或小於PU。在一些實例中,可使用被稱為殘餘四分樹(RQT)之四分樹結構將對應於CU之殘餘樣本再分成較小單元。RQT之葉節點可對應於TU。可變換與TU相關聯之像素差值以產生變換係數。變換係數可隨後由編碼器引擎106量化。 一旦視訊資料之圖像被分割成CU,編碼器引擎106便使用預測模式來預測每一PU。隨後自原始視訊資料減去預測單元或預測區塊以得到殘餘(如下描述)。對於每一CU,可使用語法資料在位元串流內部發信號預測模式。預測模式可包括框內預測(或圖像內預測)或框間預測(或圖像間預測)。框內預測使用圖像內之空間相鄰樣本之間的相關。舉例而言,在使用框內預測之情況下,使用(例如)DC預測以發現PU之平均值、使用平面預測以使平面表面擬合於PU、使用方向預測以自相鄰資料外插或使用任何其他合適類型之預測,自同一圖像中之相鄰影像資料預測每一PU。框間預測使用圖像之間的時間相關以便導出影像樣本之區塊的運動補償預測。舉例而言,在使用框間預測之情況下,使用運動補償預測自一或多個參考圖像(按輸出次序在當前圖像之前或之後)中之影像資料預測每一PU。可(例如)以在CU層級決定是否使用圖像間預測抑或圖像內預測來寫碼圖像區域。 在一些實例中,圖像之一或多個圖塊被指派圖塊類型。圖塊類型包括I圖塊、P圖塊及B圖塊。I圖塊(框內預測圖框,可獨立解碼)為僅藉由框內預測寫碼之圖像的圖塊,且因此可獨立解碼,此係因為I圖塊僅需要圖框內之資料來預測圖塊之任何預測單元或預測區塊。P圖塊(單向預測圖框)為可藉由框內預測及藉由單向框間預測寫碼之圖像的圖塊。藉由框內預測或框間預測寫碼P圖塊內之每一預測單元或預測區塊。當應用框間預測時,僅藉由一個參考圖像預測該預測單元或預測區塊,且因此參考樣本僅來自一個圖框之一個參考區。B圖塊(雙向預測性圖框)為可藉由框內預測及藉由框間預測(例如,雙向預測或單向預測)寫碼的圖像之圖塊。B圖塊之預測單元或預測區塊可自兩個參考圖像雙向預測,其中每一圖像貢獻一個參考區且兩個參考區之樣本集合經加權(例如,運用相等權重或運用不同權重)以產生雙向預測區塊之預測信號。如上文所解釋,一個圖像之圖塊被獨立寫碼。在一些狀況下,圖像可僅作為一個圖塊而被寫碼。 PU可包括與預測處理程序相關之資料(例如,運動參數或其他合適資料)。舉例而言,當使用框內預測編碼PU時,PU可包括描述用於PU之框內預測模式的資料。作為另一實例,當使用框間預測來編碼PU時,PU可包括定義用於PU之運動向量的資料。定義用於PU之運動向量的資料可描述(例如)運動向量之水平分量(∆x
)、運動向量之垂直分量(∆y
)、用於運動向量之解析度(例如,整數精度、四分之一像素精度或八分之一像素精度)、運動向量指向之參考圖像、參考索引、用於運動向量之參考圖像清單(例如,清單0、清單1或清單C),或其任何組合。 編碼器件104接著可執行變換及量化。舉例而言,在預測之後,編碼器引擎106可計算對應於PU之殘餘值。殘餘值可包含被寫碼的像素之當前區塊(PU)與用以預測當前區塊之預測區塊(例如,當前區塊之預測版本)之間的像素差值。舉例而言,在產生預測區塊(例如,發出框間預測或框內預測)之後,編碼器引擎106可藉由自當前區塊減去由預測單元產生之預測區塊來產生殘餘區塊。殘餘區塊包括量化當前區塊之像素值與預測區塊之像素值之間的差的一組像素差值。在一些實例中,殘餘區塊可以二維區塊格式(例如,像素值之二維矩陣或陣列)表示。在此等實例中,殘餘區塊為像素值之二維表示。 使用區塊變換來變換可在執行預測之後剩餘的任何殘餘資料,此變換可基於離散餘弦變換、離散正弦變換、整數變換、小波變換、其他合適的變換函數或其任何組合。在一些狀況下,一或多個區塊變換(例如,大小32×32、16×16、8×8、4×4或其他合適大小)可應用於每一CU中之殘餘資料。在一些實施例中,TU可用於藉由編碼器引擎106實施的變換及量化處理程序。給定之具有一或多個PU的CU亦可包括一或多個TU。如下文進一步詳細描述,可使用區塊變換將殘餘值變換成變換係數,且接著可使用TU來量化及掃描殘餘值以產生用於熵寫碼之串列化變換係數。 在一些實施例中,在使用CU之PU進行框內預測性或框間預測性寫碼之後,編碼器引擎106可計算CU之TU的殘餘資料。PU可包含空間域(或像素域)中之像素資料。在應用區塊變換之後,TU可包含變換域中之係數。如先前所提及,殘餘資料可對應於未經編碼圖像之像素及與對應於PU之預測值之間的像素差值。編碼器引擎106可形成包括CU之殘餘資料的TU,且接著可變換TU以產生CU之變換係數。 編碼器引擎106可執行變換係數之量化。量化藉由量化變換係數以減少用以表示係數之資料的量而提供進一步壓縮。舉例而言,量化可減少與係數中之一些或所有相關聯的位元深度。在一個實例中,具有n位元值之係數可在量化期間經降值捨位為m位元值,其中n大於m。 在量化被執行後,經寫碼視訊位元串流包括經量化變換係數、預測資訊(例如,預測模式、運動向量、區塊向量或其類似者)、分割資訊及任何其他合適之資料,諸如其他語法資料。接著可藉由編碼器引擎106對經寫碼視訊位元串流之不同元素進行熵編碼。在一些實例中,編碼器引擎106可利用預定義掃描次序掃描經量化變換係數以產生可經熵編碼的串列化向量。在一些實例中,編碼器引擎106可執行自適應掃描。在掃描經量化變換係數以形成向量(例如,一維向量)之後,編碼器引擎106可熵編碼向量。舉例而言,編碼器引擎106可使用上下文自適應性可變長度寫碼、上下文自適應性二進位算術寫碼、基於語法之上下文自適應性二進位算術寫碼、機率區間分割熵寫碼或另一合適的熵編碼技術。 如先前所描述,HEVC位元串流包括NAL單元之群組,包括VCL NAL單元及非VCL NAL單元。VCL NAL單元包括形成經寫碼視訊位元串流之經寫碼圖像資料。舉例而言,形成經寫碼視訊位元串流之位元序列存在於VCL NAL單元中。除了其他資訊以外,非VCL NAL單元亦可含有具有與經編碼視訊位元串流相關之高層級資訊的參數集。舉例而言,參數集可包括視訊參數集(VPS)、序列參數集(SPS)及圖像參數集(PPS)。參數集之目標之實例包括位元速率效率、錯誤復原及提供系統層介面。每一圖塊參考單一作用中PPS、SPS及VPS以存取解碼器件112可用於解碼圖塊之資訊。可針對每一參數集寫碼識別符(ID),包括VPS ID、SPS ID及PPS ID。SPS包括SPS ID及VPS ID。PPS包括PPS ID及SPS ID。每一圖塊標頭包括PPS ID。使用ID,可識別針對給定圖塊之作用中參數集。 PPS包括適用於給定圖像中之所有圖塊的資訊。因此,圖像中之所有圖塊參考同一PPS。不同圖像中之圖塊亦可參考同一PPS。SPS包括適用於同一經寫碼視訊序列(CVS)或位元串流中之所有圖像的資訊。如先前所描述,經寫碼視訊序列為一系列存取單元(AU),其始於在基礎層中且具有某些性質(如上文所描述)之隨機存取點圖像(例如,瞬時解碼參考(IDR)圖像或斷鏈存取(BLA)圖像或其他適當的隨機存取點圖像),直至且不包括具有在基礎層中且具有某些性質之隨機存取點圖像的下一AU (或位元串流之末端)。SPS中之資訊可不在經寫碼視訊序列內在圖像間改變。經寫碼視訊序列中之圖像可使用同一SPS。VPS包括適用於經寫碼視訊序列或位元串流內之所有層的資訊。VPS包括具有適用於全部經寫碼視訊序列之語法元素的語法結構。在一些實施例中,可與經編碼位元串流一起頻帶內傳輸VPS、SPS或PPS。在一些實施例中,可在與含有經寫碼視訊資料之NAL單元分開的傳輸中帶外經傳輸VPS、SPS或PPS。 視訊位元串流亦可包括補充增強資訊(SEI)訊息。舉例而言,SEI NAL單元可為視訊位元串流之部分。在一些狀況下,SEI訊息可含有解碼處理程序未必需要的資訊。舉例而言,SEI訊息中之資訊對於解碼器解碼位元串流之視訊圖像可能並不重要,但解碼器可使用資訊以改良圖像之顯示或處理(例如,經解碼輸出)。SEI訊息中之資訊可為嵌入型後設資料。在一個說明性實例中,SEI訊息中之資訊可由解碼器側實體使用以改良內容之可見性。在一些情況下,某些應用標準可強制此類SEI訊息在位元串流中之存在以使得符合應用標準之所有器件可達成品質之改良(例如,用於圖框可相容平面立體3DTV視訊格式之圖框封裝SEI訊息的攜載,其中針對視訊之每一圖框攜載SEI訊息;恢復點SEI訊息之處置;拉移式掃描矩形SEI訊息在DVB中之使用;外加許多其他實例)。 編碼器件104之輸出端110可經由通信鏈路120將組成經編碼視訊位元串流資料之NAL單元發送至接收器件之解碼器件112。解碼器件112之輸入端114可接收NAL單元。通信鏈路120可包括由無線網路、有線網路或有線網路與無線網路之組合提供的通道。無線網路可包括任何無線介面或無線介面之組合,且可包括任何適合之無線網路(例如,網際網路或其他廣域網路、基於封包之網路、WiFiTM
、射頻(RF)、UWB、WiFi-Direct、蜂巢式、長期演進(LTE)、WiMaxTM
或其類似者)。有線網路可包括任何有線介面(例如,光纖、乙太網路、電力線乙太網路、經由同軸電纜之乙太網路、數位信號線(DSL)或其類似者)。可使用各種裝備來實施有線及/或無線網路,該等裝備諸如基地台、路由器、存取點、橋接器、閘道器、交換器或其類似者。可根據通信標準(諸如,無線通信協定)調變經編碼視訊位元串流資料,且將其傳輸至接收器件。 在一些實例中,編碼器件104可將經編碼視訊位元串流資料儲存於儲存器108中。輸出端110可自編碼器引擎106或自儲存器108擷取經編碼視訊位元串流資料。儲存器108可包括多種分散式或本端存取之資料儲存媒體中之任一者。舉例而言,儲存器108可包括硬碟機、儲存光碟、快閃記憶體、揮發性或非揮發性記憶體或用於儲存經編碼視訊資料之任何其他合適的數位儲存媒體。 解碼器件112之輸入端114接收經編碼視訊位元串流資料,且可將視訊位元串流資料提供至解碼器引擎116,或提供至儲存器118以供稍後由解碼器引擎116使用。解碼器引擎116可藉由熵解碼(例如,使用熵解碼器)及提取組成經編碼視訊資料之一或多個經寫碼視訊序列的元素而解碼經編碼視訊位元串流資料。解碼器引擎116可接著重新按比例調整經編碼視訊位元串流資料且對經編碼視訊位元串流資料執行反變換。殘餘資料接著傳遞至解碼器引擎116之預測級。解碼器引擎116接著預測像素之區塊(例如,PU)。在一些實例中,預測被添加至反變換之輸出(殘餘資料)。 解碼器件112可將經解碼視訊輸出至視訊目的地器件122,該視訊目的地器件可包括用於將經解碼視訊資料顯示給內容之消費者的顯示器或其他輸出器件。在一些態樣中,視訊目的地器件122可為包括解碼器件112之接收器件之部分。在一些態樣中,視訊目的地器件122可為不同於接收器件的單獨器件之部分。 在一些實施例中,視訊編碼器件104及/或視訊解碼器件112可分別與音訊編碼器件及音訊解碼器件整合。視訊編碼器件104及/或視訊解碼器件112亦可包括實施上文所描述之寫碼技術所必要的其他硬體或軟體,諸如一或多個微處理器、數位信號處理器(DSP)、特殊應用積體電路(ASIC)、場可程式化閘陣列(FPGA)、離散邏輯、軟體、硬體、韌體或其任何組合。視訊編碼器件104及視訊解碼器件112可整合為各別器件中之組合式編碼器/解碼器(編解碼器)之部分。下文參看圖14描述編碼器件104之特定細節的實例。下文參看圖15描述解碼器件112之特定細節的實例。 對HEVC標準之擴展包括多視圖視訊寫碼擴展(被稱作MV-HEVC)及可調式視訊寫碼擴展(被稱作SHVC)。MV-HEVC及SHVC擴展共用分層寫碼之概念,其中不同層包括於經編碼視訊位元串流中。經寫碼視訊序列中之每一層係由唯一層識別符(ID)定址。層ID可存在於NAL單元之標頭中以識別NAL單元所相關聯之層。在MV-HEVC中,不同層可表示視訊位元串流中之同一場景的不同視圖。在SHVC中,提供以不同空間解析度(或圖像解析度)或不同重構保真度表示視訊位元串流的不同可調式層。可調式層可包括基礎層(具有層ID=0)及一或多個增強層(具有層ID=1、2、…n)。基礎層可符合HEVC之第一版本的設定檔,且表示位元串流中之最低可用層。與基礎層相比,增強層具有增加之空間解析度、時間解析度或圖框速率及/或重構保真度(或品質)。增強層經階層式組織,且可(或可不)取決於較低層。在一些實例中,可使用單一標準編解碼器來寫碼不同層(例如,使用HEVC、SHVC或其他寫碼標準編碼所有層)。在一些實例中,可使用多標準編解碼器來寫碼不同層。舉例而言,可使用AVC來寫碼基礎層,而可使用對HEVC標準之SHVC及/或MV-HEVC擴展來寫碼一或多個增強層。 一般而言,層包括一組VCL NAL單元及對應的一組非VCL NAL單元。NAL單元被指派特定層ID值。在層可取決於較低層的意義上,層可為階層式的。層集合指表示於位元串流內之獨立的層之集合,意謂在解碼處理程序中層集合內之層可取決於層集合中之其他層,但並不取決於任何其他層來進行解碼。因此,層集合中之層可形成可表示視訊內容之獨立位元串流。可藉由子位元串流提取處理程序之操作自另一位元串流獲得層集合中之層的集合。層集合可對應於待在解碼器希望根據某些參數操作時被解碼之層集合。 在一些實施中,用於擷取360度視訊之攝影機集合可包括全向攝影機、反射折射攝影機(使用透鏡及彎曲鏡之攝影機)、裝備有魚眼透鏡之攝影機,及/或其他合適攝影機。全向攝影機之一個實例為理光Theta-S,其使用以相反方向聚焦之兩個魚眼透鏡。 全向攝影機(諸如反射折射攝影機及具有魚眼透鏡之攝影機)通常擷取具有大量失真之影像。圖2A及圖2B說明由使用魚眼透鏡擷取寬視場之全向攝影機擷取的視訊圖框之實例。在圖2A之實例中,視訊圖框200包括圓形魚眼影像。魚眼透鏡能夠擷取極寬角度,諸如280度或更大。因此,裝備有背對背定位之兩個魚眼透鏡的攝影機可擷取共同提供360度視野(或更多)之兩個影像。非廣角魚眼透鏡擷取近似45度至約90度之視場。視場可替代地或另外以弧度表達。 為了擷取廣角,魚眼透鏡使場景之影像失真。如圖2A中所說明,在視訊圖框200中擷取之場景形狀為圓形,且自中心變形至此圓形區之外部邊緣。因為攝影機感測器為矩形,所以視訊圖框200為矩形且影像包括非場景之部分的區域,此處使用點畫說明。此等區中之像素視為不可用,此係由於此等像素並非為場景之部分。 圖2B之實例包括一包括完整圖框魚眼影像之視訊圖框202。在此類型視訊圖框202中,廣角視場亦已在圓形區中擷取,其中場景經變形成圓形區。在此實例中,影像已按比例調整(例如,放大)如此場景填充矩形圖框之邊緣。此實例視訊圖框202不包括不可用區域,且可由透鏡擷取的場景之一些部分已經裁剪或並未被擷取。 如上文所描述,其他類型之攝影機亦可用以擷取360度視訊。舉例而言,攝影機集合可包括多個攝影機之集合(例如,擷取足夠數目個場景之視圖所需要的5、6、7、或其他數目個攝影機)。每一攝影機可定向於不同方向中並擷取不同場景之視圖。接著可對由攝影機集合中之攝影機中之每一者擷取的視訊圖框(或影像)執行影像縫合以提供無縫360度視圖。 360度視訊可再映射至其他格式。此等其他格式可用以儲存、傳輸及/或觀看360度視訊。一個實例格式為等矩形格式。圖3說明基於兩個魚眼影像302A、302B之等矩形視訊圖框300的實例。在此實例等矩形視訊圖框300中,來自兩個魚眼影像302A、302B之可用像素(例如,圓形區中之像素)已經映射成等矩形格式。在此實例中,每一魚眼影像302A、302B包括180度或更大視場,以使得兩個魚眼影像302A、302B共同涵蓋360度視場(可能具有某一重疊)。 映射來自魚眼影像302A、302B之像素具有解變形魚眼影像302A、302B中擷取之場景,及朝向視訊圖框300之邊緣拉伸像素的效應。所得等矩形影像可在視訊圖框300之頂部及底部呈現拉伸。熟知等矩形投影為墨卡托投影,其中地球之地理係以正交緯度及經度線呈現。 在各種實施中,魚眼影像302A、302B可映射至其他格式,諸如映射至藉由立方體、圓柱形、角錐形、截短角錐形或某其他幾何形狀形成的面上。在此等狀況中之每一者中,存在於魚眼影像302A、302B中之失真可經校正且不可用像素可經消除。平面資料亦可經封裝用於儲存及/或傳輸,且可用於顯示360度視訊。 在一些狀況下,中間格式可係有用的(例如)用於儲存及/或傳輸360度視訊資料,或用於將視訊資料轉換成另一格式。舉例而言,等矩形表示可映射至球面格式(例如,球面幾何形狀)以顯示視訊資料,如圖4A及圖4B中所說明。 圖4A及圖4B說明正用於360度視訊呈現中的等矩形視訊圖框400之實例。等矩形視訊圖框400可映射至球面空間上以形成球面表示410,且所得球面表示可使用頭戴顯示器或某其他360度視訊顯示器件向觀看者420顯示。在其他實例中,等矩形視訊圖框400可映射至立方形、圓柱形、角錐形或某其他幾何形狀,其中幾何形狀可藉由360度視訊顯示器件使用以顯示視訊。 如上文所提及,等矩形視訊圖框400可擷取完整360度視場,其中在上部及下部區中之像素呈現拉伸及/或壓縮。為使用360度視訊呈現中之等矩形視訊圖框400,等矩形視訊圖框400中之像素可映射至球面表示410。此映射可具有朝向球面表示之頂部及底部(例如,分別「北極」及「南極」)擴大等矩形視訊圖框400之上部及下部區的效應。擴大上部及下部區可校正等矩形視訊圖框400中顯而易見的此等區域中之失真。 將等矩形視訊圖框400映射至球面表示410可進一步具有圍繞球面表示之中心(例如,赤道)變形圖框之寬度的效應。等矩形視訊圖框400之左及右邊緣可相互緊靠地映射,以使得無「縫隙」呈現。 在等矩形視訊圖框400已映射至球面表示後,可顯示球面表示。使用頭戴顯示器或另一360度視訊顯示器件,觀看者420可觀看來自球面表示內之球面表示。在大多數情況下,觀看者420經定位,以使得來自觀看者之視角「地面」係球面表示之最底部點。在一些狀況下,可認為使用者之眼睛在球面之中心處。在各種實施中,球面表示可經擴展或經收縮以滿足觀看者之高度及/或位置(例如,在觀看者坐著、站立或在某其他位置中情況下)。 如上文所描述,本文中所描述之一或多個系統及方法係關於產生針對360度視訊內容之媒體檔案,該等媒體檔案包括視訊內容中之一或多個感興趣區(ROI)的發信號資訊。本文中描述之一或多個系統及方法亦係關於處理包括於媒體檔案中之發信號資訊以提取來自視訊內容之ROI以用於顯現。 如上文所提及,360度視訊圖像之ROI可為擷取場景之某一部分的圖像之預定區。在此等狀況下,ROI亦可被稱作最感興趣區。與ROI相關的資訊之產生及發信號可基於藉由服務或內容提供者提供的使用者統計資料、使用使用者提供之輸入或使用其他合適技術來執行。在各種實例中,針對圖像判定之ROI可包括引導觀眾觀看的360度視訊內容項之經特別選擇部分、以統計方式判定之感興趣區或場景之其他預定部分。舉例而言,內容之創建者(例如,導演、生產者、作者或其類似者)可定義360度視訊內容項中之最感興趣區。在此類實例中,甚至在使用者不轉動他或她的頭部或經由另一使用者介面(UI)改變視埠時,360度視訊之播放可顯示導演或其他方希望觀眾聚焦於的動態改變之視埠。可逐個場景地將全向視訊提供給此等視埠。在另一實例中,當某一360度(或VR)視訊內容經由串流服務提供時可使用已藉由使用者請求及/或最多見到的區域之統計資料判定360度視訊內容項之各種圖像中之ROI。在此類實例中,360度視訊圖像中之ROI可包括統計上最可能在圖像之呈現時間向使用者顯現的區域中之一者。 關於ROI之資訊可用於各種360度視訊效能改良目的。舉例而言,ROI資訊可用於藉由邊緣伺服器、用戶端及/或其他實體在360度視訊自適應串流傳輸中的資料預提取。在另一實例中,當VR視訊經轉碼(例如,至不同編解碼器、至不同投影映射,或其他轉碼操作)時,ROI資訊可用於轉碼最佳化。在其他實例中,ROI資訊可用於藉由邊緣伺服器或快取進行之快取管理、藉由360度視訊串流伺服器進行之內容管理,或其他目的。在一些狀況下,ROI之發信號可(例如)藉由使用視訊位元串流中之SEI訊息、媒體檔案中之檔案格式樣本群組、HTTP動態自適應串流(DASH)媒體呈現描述(MPD)元素或屬性(例如,使用樣本群組)及/或其他發信號機制來執行。 360度視訊中之ROI可以至少兩種方式定義。舉例而言,360度視訊中之ROI將基於2D圖像上之2D笛卡爾座標系統定義ROI。定義ROI之另一方式可係基於球面座標系統(例如,藉由定義360度視訊之球面表示上的區)而定義。 若干方法可用以基於球面座標系統定義ROI。舉例而言,ROI可經界定為球面表示上之藉由四個大圓之四個片段圍封或藉由兩個大圓及兩個小圓圍封的區,每一片段係在球面表示上之兩個點之間。本文中,圓、大圓及小圓定義如下(且在圖5A及圖5B中說明,下文所描述):平面與球面之相交區為圓(當相交區為點時除外)。此圓之所有點屬於球面之表面。球面之大圓(亦稱為大圓弧或黎曼圓)為通過球面之中心點的球面與平面之相交區。球面之中心及大圓之中心始終共置。不滿足此條件的平面與球面之任何其他相交區可形成小圓。 當360度視訊播放於頭戴顯示器(HMD)或非HMD顯示器(例如,TV、行動器件、可穿戴器件,或其他合適非HMD顯示器)上時,視埠經顯現至使用者。視埠可為與球面相切(在一點處與球面相交)的平面上之矩形區,其中視埠平面與使用者之觀看方向正交。視埠可藉由應用直線投影而產生(例如,如JVET-D1030中所論述)。對應於視埠的球面上之區為藉由四個大圓之四個片段圍封的區。 存在關於用於VR視訊中之ROI之發信號的現有設計的各種問題。舉例而言,問題可起因於僅僅基於球面座標系統之發信號(藉由球面上之區的發信號)或2D笛卡爾座標系統之發信號(藉由圖像之區的發信號)。可需要額外處理來顯現及/或傳輸球面視訊資料,其可影響視訊處理系統(例如,視訊快取、媒體閘道器、顯現器等)之效能且可造成視訊內容之傳輸及/或顯現的延遲,此可導致不良使用者體驗。舉例而言,基於球面座標系統之ROI發信號自顯現觀點看係有益的,此係因為對於使用者感興趣的特定球面區(例如,場景中之對象)之顯現,且在發信號彼球面區情況下,該球面區可容易地經識別並定位於整個球面視訊場景上。然而,當此基於球面之發信號用於遞送及解碼之最佳化(例如,在自適應串流傳輸中之資料預取中,諸如DASH)時,則本端快取或媒體閘道器需要搞清楚經獨立寫碼之圖像區中之哪一集合為涵蓋經發信號ROI之最小集合。為能夠執行此,快取或媒體閘道器需要執行涉及在編碼前用於將球面視訊信號轉換成2D視訊信號的投影及逐區映射的幾何處理。此對於快取及媒體閘道器而言將係繁重處理負擔。另一方面,基於2D笛卡爾座標系統之ROI發信號自遞送及解碼之最佳化(例如,在自適應串流傳輸中之資料預取,諸如DASH)的觀點來看係有益的,而其對顯現強加負擔,此係因為播放器或顯現器在其需要搞清楚球面上之哪一區藉由經獨立寫碼之圖像區(作為ROI被發信號)涵蓋時將需要應用投影及逐區映射之反幾何處理。 另一問題為當基於球面座標系統之ROI作為球面上之區被發信號時,為了搞清楚對應於該區的視埠之尺寸(例如,寬度及高度),可需要應用直線投影。然而,可在會話磋商或內容選擇期間,在應用直線投影處理程序以判定尺寸是否為負擔的同時,需要此資訊。 在一些狀況下,當藉由兩個大圓及兩個小圓之四個片段圍封的球面表示上之區不對應於視埠時問題可產生。舉例而言,視埠可對應於2D等矩形投影圖像中之非矩形區(例如,圖5A中展示之整個視埠520),同時藉由兩個大圓及兩個小圓之四個片段圍封的球面表示上之區可對應於視埠區之僅僅一子集(例如,視埠520之非矩形區內的僅僅矩形區)。在一些狀況下,亦有可能矩形區包括非矩形區(非矩形區為矩形區之子集)。然而,矩形區及非矩形區可並不一直彼此恰好匹配。 針對360度視訊內容使用本文中所描述之系統及方法產生的媒體檔案可包括ROI之第一發信號資訊及第二發信號資訊。第一發信號資訊可包括定義對應於球面視訊之三維球面空間中的ROI之第一位置及ROI之尺寸資訊的球面資訊。第二發信號資訊可包括定義藉由將球面空間投影至平面上形成的二維空間中之ROI之第二位置的2D資訊。在一些實例中,雙發信號可提供ROI之第一位置與第二位置之間的映射,此可促進球面視訊資料之傳輸及顯現兩者。舉例而言,球面視訊資料可藉由串流傳輸應用程式以二維視訊圖框形式而傳輸。如上文所描述,二維視訊圖框可藉由執行球面視訊資料至二維平面上的投影(例如,等矩形投影或其他合適投影)而形成。為基於(例如)經預先判定為感興趣之場景的一部分(例如,用以顯現導演剪切之指令、以統計方式判定之區或其他合適資訊)而顯現ROI,對應於ROI之區可基於第一位置在球面視訊中而識別出。此外,經由第一位置與第二位置之間的映射,串流傳輸應用程式可判定二維視訊圖框中之哪些區被預提取用於ROI之顯現。另外,在獲得二維視訊圖框之區之後,媒體播放器或顯現器可基於(例如)ROI之尺寸資訊識別來自對應於ROI之區的像素,且可顯現經提取像素。 圖4A為說明感興趣區(ROI) 430之圖式。ROI 430可包含包括於等矩形視訊圖框400中的像素之子集。如上文所描述,ROI 430可對應於(例如)待呈現為觀看者420之當前視場(FOV)的預定感興趣區(ROI)。預定ROI可對應於(例如)基於用以經由場景之視圖之預定集合引導觀看者420的導演剪切、圖框之以統計方式判定的區,或其類似者。在一些實例中,ROI 430亦可對應於(例如)觀看者420相對於球面表示410之觀看方向,使得觀看者420可控制用以觀看的場景之一部分。ROI 430可接著經映射以形成待藉由由觀看者420使用之觀看器件顯現的視埠。與正常(非360度或非VR)視訊相比360度視訊之不同特徵為,在360度視訊中,通常僅僅顯示由視訊圖像(對應於觀看器件之當前視場(FOV)或視埠)表示的整個視訊區之子集,而在正常視訊應用中,通常顯示整個視訊區。FOV或視埠為當前正由顯示器件呈現且由使用者或觀測者見到的區域。 圖4B為說明對應於ROI 430之視埠460的實例之圖式。視埠460可為與形成球面表示410之球面空間相切的平面上之區。視埠460可藉由執行ROI 430至平面上的直線投影而形成。在圖4B之實例中,視埠平面可在一點處與球面表示410之球面空間相交且可與使用者420之觀看方向正交。 圖4C為說明表示球面表示410之球面空間內的視埠460之位置的實例之圖式。在圖4C之實例中,視埠460之位置可由俯仰角462及偏航角464表示。兩個角可基於球面場景上之ROI的位置自使用者之觀看方向導出。舉例而言,定位於球面中心472處之使用者朝向視埠460之視埠中心474的觀看方向可由向量470表示。向量470可形成x-z平面上之投影476,及x-y平面上之投影478。俯仰角462可形成於投影476與平行於y軸的軸線480之間。偏航角464可形成於投影478與軸線480之間。 俯仰角462及偏航角464兩者可使視埠460之位置與使用者之頭部及/或眼球的定向相關。舉例而言,俯仰角462可表示向量470之升降角,其可對應於(例如)使用者之頭部相對於x-z平面的升降角、使用者之眼球相對於x-z平面的旋轉,或使用者相對於x-z平面之任何其他移動。另外,偏航角464可表示向量470之旋轉角,其可對應於(例如)使用者之頭部的旋轉角、使用者之頭部相對於x-y平面的旋轉、使用者之眼球相對於x-y平面的旋轉,或使用者相對於x-z平面之任何其他移動。藉由基於俯仰角462及偏航角464表示視埠460之位置,可基於使用者之頭部及/或眼球的定向有效判定由視埠460表示的感興趣區(ROI)之位置,此實現對應於ROI的球面視訊內容之部分的高效顯現。 除了視埠460之中心474之外,視埠460之其他屬性亦可基於偏航角464及俯仰角462來表示。舉例而言,參看圖4E,中點482、484、486及488可為在視埠460之邊緣之間的中點。中點484與488之間的距離可定義(例如)視埠460之高度,而中點482與486之間的距離可定義(例如)視埠460之寬度。視埠460之高度可由形成於球面中心472、中點484及中點488之間的俯仰增量角490表示。另外,參看圖4E(其說明與圖4C至圖4D不同之視埠460的視角),視埠460之寬度亦可由形成於球面中心472、中點482及中點486之間的偏航增量角492表示。視埠460之位置、高度及寬度可表示對應於視埠460的平面上之ROI 430的預定位置、預定高度及預定寬度之直線投影的結果。 連同俯仰角462及偏航角464,俯仰增量角490及偏航增量角492可在球面空間中並基於使用者之頭部及/或眼球的定向來定義視埠460(及ROI)的位置及尺寸。關於在下文更詳細地論述,視埠460之位置及尺寸資訊可為包括於媒體檔案中的第一發信號資訊之部分。媒體檔案可為(例如)基於ISO之媒體檔案,其囊封經產生用於球面視訊之顯現/傳輸的二維視訊圖框集合之位元串流。媒體檔案亦可包括用於串流傳輸位元串流之計時後設資料播放軌。媒體檔案亦可包括針對包括ROI之二維視訊圖框之某個(某些)區的第二發信號資訊。第一發信號資訊及第二發信號資訊可共同在媒體檔案中映射以發信號ROI。基於映射,包括ROI之二維視訊圖框的區可經預提取及提供至顯現器。此外,顯現器可基於視埠460之尺寸資訊提取來自表示ROI之視訊圖框區之像素,並顯現用於顯示之像素。結果,可減少額外處理(例如,執行直線投影或反直線投影),此可改良視訊處理系統之效能以及使用者體驗。 儘管圖4A至圖4E說明視埠460具有矩形形狀,但視埠可具有其他形狀。視埠之形狀可基於對應於視埠之區(例如,ROI 430)幾何學上定義於球面表示410中的方式而判定。現參看圖5A至圖5C,其說明ROI 430之不同幾何定義。在圖5A中,區501可由圓502、504、506及508定義。圓502、504、506及508中之每一者可被稱作「大圓」。圓502、504、506及508中之每一者可藉由球面表示410之球面空間與通過球面中心472之平面的相交而形成。在圖5B中,區509可由圓502及504以及圓516及518定義。如上文所論述,圓502及504可被稱作大圓。對比而言,圓516及518被稱為「小圓」,其可藉由球面表示410之球面空間與不通過球面中心472之平面的相交而形成。 ROI 430之幾何定義(例如,由四個大圓定義抑或由兩個大圓及兩個小圓定義)可判定對應視埠之形狀及尺寸。現參看圖5C,其說明視埠520與矩形區530之間的比較。如圖5C中所示,矩形區530較小且包括比視埠520更少的像素。較大視埠係較佳的,此係因為什麼對應於什麼可自HMD或其他顯示器見到,且例如,更多像素可向使用者顯示。在一些實施中,為最大化視埠中經提供至使用者的像素之數目,僅當對應於ROI之區僅僅由大圓形成時才在媒體檔案中發信號ROI。此限制亦可改良視埠之顯現過程中的均勻性及可預測性。舉例而言,參看圖5C,顯現器可顯現呈視埠520而非矩形區530之形狀的視埠,且將(例如)視埠高度(例如,由俯仰增量角表示)解譯為表示視埠520之頂部彎曲邊緣與底部彎曲邊緣之間的高度h而非矩形區530之頂部直線邊緣與底部直線邊緣之間的高度h'。 圖6A說明一組二維視訊圖框602a、602b至602n。二維視訊圖框602a、602b至602n中之每一者對應於球面表示410之視訊圖框。每一二維視訊圖框602a、602b至602n可藉由執行(例如)球面表示410之對應視訊圖框至二維平面上的直線投影而形成。二維視訊圖框602a、602b至602n可經編碼成視訊位元串流以供傳輸。 二維視訊圖框602a、602b至602n中之每一者可分成一組圖塊。視訊圖框602a、602b至602n中之圖塊可為運動受限之圖塊且層中之所有圖像可具有相同圖塊結構。在此等狀況下,圖塊跨越位元串流之給定層的所有圖框具有相同位置。舉例而言,運動受限之圖塊為圖像(或圖框)中之特定位置處之圖塊區,其可僅僅使用在其他圖像中之相同位置處的一或多個圖塊來寫碼。舉例而言,僅僅在特定圖塊位置內的參考圖像之區可用以編碼或解碼在當前圖像中之彼特定圖塊位置處之圖塊。僅僅顯示顯示器件之當前視埠所需要的圖像之圖塊可經提供用於顯示。如圖6A中所示,每一圖塊具有跨越不同視訊圖框602a、602b至602n的指定位置。在一個實例中,第一圖塊在602a、602b至602n中具有位置(0, 0),且可基於該位置識別第一圖塊。在一些狀況下,圖塊可經編號,諸如圖塊編號0至23、圖塊編號1至24,或其他合適編號。如圖6中所示,圖塊彼此不重疊。二維視訊圖框602a、602b至602n中之每一者亦可包括自球面表示410之對應圖框投影的一或多個ROI(或視埠)。舉例而言,如圖6B中所示,視埠520可位於處在位置(1, 1)、(1, 2)、(2, 1)及(2, 2)之圖塊的群組中。 如上文所論述,媒體檔案可經產生以囊封藉由編碼視訊圖框602a、602b至602n形成的位元串流。媒體檔案亦可經產生以包括用於串流傳輸位元串流之計時後設資料播放軌(外加攜載媒體位元串流之播放軌)。媒體檔案可包括上文針對ROI(對應於視埠)所描述的第一發信號資訊及第二發信號資訊以促進ROI/視埠之傳輸及顯現。第一發信號資訊可包括球面空間中之視埠之位置及尺寸(例如,由偏航角、俯仰角、偏航增量角及俯仰增量角表示)。第二發信號資訊可包括二維視訊圖框中之視埠的位置。二維視訊圖框中之視埠的位置可由(例如)包括視埠的圖塊之位置(或識別符)表示。對於圖6B之實例,第二發信號資訊可包括圖塊位置(1, 1)、(1, 2)、(2, 1)及(2, 2)(或與此等圖塊相關聯之識別符/編號)以發信號ROI。 如上文所論述,第一發信號資訊及第二發信號資訊可共同映射於媒體檔案中以發信號ROI。映射實現將視埠向使用者之高效傳輸及顯現。舉例而言,視訊處理系統可接收用以向使用者顯現球面視訊410中之預定感興趣區的指令。該指令可包括(例如)特定區之中心的偏航角及俯仰角。基於第一發信號資訊中之輸入偏航角及俯仰角,視訊處理系統可參考媒體檔案中之第一發信號資訊與第二發信號資訊之間的映射以判定含有(例如)視埠520的視訊圖框602a中之像素的圖塊(或其他單元)之集合。此外,基於俯仰角、偏航角、俯仰增量角、偏航增量角及判定視埠之特定形狀(例如,基於球面視訊410中之預定區係基於四個大圓而定義的限制),顯現器亦可判定圖塊內之視埠520的位置及邊界,且提取視埠520之邊界內的像素以用於顯現。此處理可運用最小幾何處理來執行,最小幾何處理可改良系統之效能以及使用者體驗。 現參看圖7,其說明含有ROI之發信號資訊的ISO基本媒體檔案700之實例。檔案700可根據ISOBMFF而格式化。ISOBMFF經設計而以靈活且可擴展格式含有計時媒體資訊,該計時媒體資訊促進媒體之互換、管理、編輯及呈現。媒體之呈現對於含有呈現之系統可為「本端的」,或呈現可係經由網路或其他串流遞送機構。 如ISOBMFF規範中所定義之「呈現」為圖像序列,其常常由於由視訊擷取器件依序擷取而相關或由於某其他原因而相關。本文中,呈現亦可被稱作電影或視訊呈現。呈現可包括音訊。單一呈現可含於一或多個檔案中,其中一個檔案含有用於整個呈現之後設資料。後設資料包括資訊,諸如時序及成框資料、描述符、指標、參數,及描述呈現之其他資訊。後設資料自身並不包括視訊及/或音訊資料。除含有後設資料之檔案以外的檔案無需根據ISOBMFF而格式化,且僅僅需要經格式化以使得此等檔案可藉由後設資料參考。 ISO基本媒體檔案之檔案結構為物件定向式結構,且檔案中之個別物件之結構可直接自物件之類型來推斷。ISOBMFF規範將ISO基本媒體檔案中之物件稱作「框」。ISO基本媒體檔案建構為可含有其他框之一系列框。框大體包括提供框之大小及類型的標頭。大小描述框之整個大小,包括標頭、欄位及含有於框內之所有框。播放器器件不能識別之類型的框通常被忽略並跳過。 如藉由圖7之實例所說明,在檔案之頂部層級,ISO基本媒體檔案700可包括檔案類型框710、電影框720及一或多個電影片段框730a、730b...730n。在此層級可被包括但在此實例中並未表示之其他框包括自由空閒框、後設資料框及媒體資料框外加其他。 ISO基本媒體檔案可包括藉由框類型「ftyp」識別之檔案類型框710。檔案類型框710識別最適合於剖析檔案之ISOBMFF規範。「最」在此情況下意謂,ISO基本媒體檔案700可能已根據特定ISOBMFF規範格式化,但很可能與規範之其他反覆相容。此最合適規範被稱作主流品牌。播放器器件可使用主流品牌來判定器件是否能夠解碼並顯示檔案之內容。檔案類型框710亦可包括版本號,該版本號可用以指示ISOBMFF規範之版本。檔案類型框710亦可包括相容品牌之清單,該清單包括檔案相容之其他品牌的清單。ISO基本媒體檔案可與大於一個主流品牌相容。 ISO基本媒體檔案可進一步包括電影框720,其含有後設資料以供呈現。電影框720係藉由框類型「moov」識別。ISO/IEC 14496-12規定,含於一個檔案抑或多個檔案中之呈現可包括僅一個電影框720。頻繁地,電影框720靠近ISO基本媒體檔案之開始。電影框720包括電影標頭框722,且可包括一或多個播放軌框724以及其他框。 藉由框類型「mvhd」識別之電影標頭框722可包括與媒體無關且與作為整體之呈現相關的資訊。舉例而言,電影標頭框722可包括資訊,諸如創建時間、修改時間、時間標度及/或針對呈現之持續時間外加其他。電影標頭框722亦可包括識別呈現中之下一播放軌的識別符。舉例而言,在所說明之實例中,識別符可指向由電影框720含有之播放軌框724。 藉由框類型「trak」識別之播放軌框724可含有用於呈現之播放軌的資訊。呈現可包括一或多個播放軌,其中每一播放軌獨立於呈現中之其他播放軌。每一播放軌可包括對於播放軌中之內容特定之時間及空間資訊,且每一播放軌可與媒體框相關聯。播放軌中之資料可為媒體資料,在此狀況下,播放軌為媒體播放軌;或資料可為用於串流傳輸協定之封包化資訊,在此狀況下,播放軌為提示播放軌。舉例而言,媒體資料包括視訊及音訊資料。在所說明之實例中,實例播放軌框724包括播放軌標頭框724a及媒體框724b。播放軌框可包括其他框,諸如播放軌參考框、播放軌群組框、編輯框、使用者資料框、後設框及其他框。關於下文詳細地論述,媒體框724b可包括一或多個ROI之發信號資訊。 由框類型「tkhd」識別之播放軌標頭框724a可指定含於播放軌框724中之播放軌的特性。舉例而言,播放軌標頭框724a可包括播放軌之創建時間、修改時間、持續時間、播放軌識別符、層識別符、群組識別符、音量、寬度及/或高度,外加其他。對於媒體播放軌,播放軌標頭框724a可進一步識別播放軌是否經啟用,播放軌是否應作為呈現之部分而播放,或播放軌是否可用以預覽呈現,外加其他。播放軌之呈現通常假定為處於呈現之開始處。播放軌框724可包括此處未說明之編輯清單框,該編輯清單框可包括顯式時刻表圖。時刻表圖可指定播放軌之偏移時間外加其他,其中偏移指示播放軌之在呈現開始之後的開始時間。 在所說明之實例中,播放軌框724亦包括由框類型「mdia」識別之媒體框724b。媒體框724b可含有物件及關於播放軌中之媒體資料之資訊。舉例而言,媒體框724b可含有處置程式參考框,其可識別播放軌之媒體類型及藉以呈現播放軌中之媒體之處理程序。作為另一實例,媒體框724b可含有媒體資訊框,其可指定播放軌中媒體的特性。媒體資訊框可進一步包括樣本之圖表,其中每一樣本描述一塊媒體資料(例如,視訊或音訊資料),包括(例如)樣本之資料的位置。樣本之資料儲存於下文進一步論述之媒體資料框中。如同大部分其他框一般,媒體框724b亦可包括媒體標頭框。 在所說明之實例中,實例ISO基本媒體檔案700亦包括呈現之多個片段730a、730b...730n。片段730a、730b、...730n並非為ISOBMFF框,而實際上描述框之組合,其包括電影片段框732及藉由電影片段框732參考的一或多個媒體資料框738。電影片段框732及媒體資料框738為頂部層級框,但此處分組在一起以指示電影片段框732與媒體資料框738之間的關係。 藉由框類型「mfhd」識別之電影片段標頭框734可包括序號。播放器器件可使用序號來驗證片段730a包括資料之下一段以供呈現。在一些狀況下,檔案之內容或用於呈現之檔案可無序地被提供至播放器器件。舉例而言,網路封包可以不同於最初傳輸封包之次序的次序頻繁地到達。在此等狀況下,序號可輔助播放器器件判定片段之正確次序。 電影片段框732亦可包括藉由框類型「traf」識別之一或多個播放軌片段框736。電影片段框732可包括一組播放軌片段(每播放軌零或多個)。播放軌片段可含有零或多個播放軌行程,其中之每一者描述播放軌的樣本之連續行程。除添加樣本至播放軌外,播放軌片段可用以將空的時間添加至播放軌。 藉由框類型「mdat」識別之媒體資料框738含有媒體資料。在視訊播放軌中,媒體資料框738將含有視訊圖框。媒體資料框可替代地或另外地包括音訊資料。呈現可包括含有於一或多個個別檔案中之零或大於零的媒體資料框。媒體資料藉由後設資料描述。在所說明之實例中,媒體資料框738中之媒體資料可藉由包括於播放軌片段框736中之後設資料來描述。在其他實例中,媒體資料框中之媒體資料可藉由電影框720中之後設資料來描述。後設資料可藉由在檔案700內之絕對偏移參考特定媒體資料,以使得媒體資料標頭及/或媒體資料框738內之自由空間可被跳過。 ISO基本媒體檔案700中之其他片段730b、730c、730n可含有類似於針對第一片段730a說明之彼等的框,及/或可含有其他框。 圖8說明可包括於ISO基本媒體檔案中之媒體框840的實例。如上文所論述,媒體框可包括於播放軌框中,且可含有描述播放軌中之媒體資料的物件及資訊。在所說明的實例中,媒體框840包括媒體資訊框842。媒體框840亦可包括其他框,其在此處不予以說明。 媒體資訊框842可含有描述關於播放軌中之媒體之特性資訊的物件。舉例而言,媒體資訊框842可包括描述播放軌中之媒體資訊之位置的資料資訊框。作為另一實例,當播放軌包括視訊資料時,媒體資訊框842可包括視訊媒體標頭。視訊媒體標頭可含有獨立於視訊媒體之寫碼的大體呈現資訊。當播放軌包括音訊資料時,媒體資訊框842亦可包括聲音媒體標頭。 媒體資訊框842亦可包括樣本表框844,如所說明實例中所提供。藉由框類型「stbl」識別之樣本表框844可提供播放軌中媒體樣本之位置(例如,具有檔案之位置),以及用於樣本之時間資訊。使用藉由樣本表框844提供之資訊,播放器器件可以正確時間次序定位樣本,判定樣本之類型,及/或判定大小、容器及容器內之樣本的偏移外加其他。 樣本表框844可包括藉由框類型「stsd」識別之樣本描述框846。樣本描述框846可提供關於(例如)用於樣本之寫碼類型之詳細資訊,及針對彼寫碼類型需要之任何初始化資訊。儲存於樣本描述框中之資訊可特定針對於包括樣本之播放軌的類型。舉例而言,一個格式在播放軌為視訊播放軌時可用於樣本描述,且在播放軌為提示播放軌時可使用不同格式。作為另一實例,針對樣本描述之格式亦可取決於提示播放軌之格式而發生變化。 樣本描述框846可包括樣本條目框848a...848n。樣本條目為摘要類別,且因此通常樣本描述框包括特定樣本條目,諸如視訊資料之可見樣本條目或音訊樣本之音訊樣本條目外加其他實例。視訊資料之每一可見樣本條目可包括一或多個視訊圖框。視訊圖框可為(例如)由球面表示410產生的二維視訊圖框602a、602b至602n。樣本條目框可儲存針對特定樣本之參數。舉例而言,對於視訊樣本而言,樣本條目框可包括視訊樣本之寬度、高度、水平解析度、垂直解析度、圖框計數及/或深度外加其他。作為另一實例,對於音訊樣本,樣本條目可包括通道計數、通道佈局及/或取樣速率外加其他。 除了樣本條目框之外,樣本描述846可進一步包括樣本群組描述框860(藉由樣本群組描述框類型「sgpd」識別)及樣本至群組框862(藉由樣本至群組框類型「sbgp」識別)。樣本群組描述框860及樣本至群組框862兩者可為樣本分組機構之部分以發信號一組樣本條目包括一或多個ROI,及發信號該組樣本條目中之一或多個ROI的位置及尺寸。在圖8之實例中,樣本群組描述框860可包括樣本群組類型條目861。樣本群組類型條目861可包括群組類型「ROI」以發信號類型條目包括ROI資訊。樣本群組類型條目861可進一步包括指示二維視訊圖框中之ROI之像素座標的語法元素,以及球面空間中之ROI的偏航角、俯仰角、偏航增量角及俯仰增量角。樣本至群組框862進一步指示樣本群組類型條目861中之ROI資訊。將應用於樣本描述846中之某些樣本條目。使用此資訊情況下,含有ROI之視訊樣本可經更有效地識別及提供至顯現器以用於顯現。 除支援媒體之本端播放外,一些視訊系統支援經由網路串流傳輸媒體資料。舉例而言,一或多個ISO基本媒體檔案格式檔案(例如,ISOBMFF)。媒體檔案可包括電影呈現且可包括提示播放軌,其含有可輔助串流傳輸伺服器形成並傳輸檔案作為封包的指令。舉例而言,此等指令可包括用於伺服器以供發送之資料(例如標頭資訊)或對媒體資料之片段的參考。檔案可包括用於不同串流傳輸協定之單獨提示播放軌。提示播放軌亦可在不需要重新格式化檔案之情況下添加至檔案。 現參看圖9,其說明用於串流傳輸之實例系統900。系統900包括經由網路906基於網路連接協定以通信方式彼此耦接的伺服器902及用戶端器件904。舉例而言,伺服器902可包括習知HTTP網頁伺服器,且用戶端器件904可包括習知HTTP用戶端。可建立HTTP通信通道,其中用戶端器件904可傳輸HTTP請求至伺服器902以請求一或多個網路資源。伺服器902可將包括經請求網路資源之HTTP回應傳輸回至用戶端器件904。藉由伺服器902主控之網路資源之一個實例可為媒體內容,其可分成媒體片段。媒體片段可包括視訊圖框之序列。用戶端器件904可包括用以經由網路906與伺服器902建立串流傳輸會話的串流傳輸應用程式908。在串流傳輸會話期間,串流傳輸應用程式908可經由網路906傳輸對於一或多個媒體片段之請求至伺服器902之請求處理器910。串流傳輸應用程式908可接收經請求一或多個媒體片段,且可在傳輸對於其他媒體片段之後續請求之前在用戶端器件904上顯現所接收媒體片段中之一些或全部。使用此HTTP串流傳輸,串流傳輸應用程式908在用戶端器件904處顯現媒體內容之前不需要等待直至整個媒體內容已完全下載,此可促進網路資源之較好使用並改良使用者體驗。 為實現使用習知HTTP網頁伺服器的媒體內容之高品質串流傳輸,可使用自適應位元速率串流傳輸。在自適應位元速率串流傳輸情況下,對於每一媒體片段,用戶端器件904可具有關於替代片段檔案920及940之集合的資訊。此處,媒體片段可指與特定播放時戳及持續時間相關聯的媒體位元串流之部分。替代片段檔案920及940之每一集合可對應於媒體片段(例如,與特定播放時戳及持續時間相關聯)之特定表示。表示可指編碼具有不同品質(例如,具有不同位元速率、圖框速率或其類似者)之某一媒體內容之特定結果。媒體片段檔案之每一集合當中,每一媒體片段檔案可與性質(包括(例如)特定位元速率、圖框速率、解析度、音訊語言或其類似者)之集合相關聯。基於本端資訊(例如,網路906之頻寬、用戶端器件904之解碼/顯示能力、使用者偏好或其他資訊),串流傳輸應用程式908可針對每一表示選擇來自集合之特定媒體片段檔案。作為說明性實例,用戶端器件904可傳輸對於與來自媒體片段檔案920之第一解析度相關聯之媒體片段檔案的請求。隨後,歸因於網路906之頻寬的變化,用戶端器件904可傳輸對於與第二解析度相關聯的媒體片段檔案之另一請求。 關於替代片段檔案920及940之集合的資訊可為藉由伺服器902維持的描述檔案960 (或資訊清單檔案)之部分。用戶端器件904可自伺服器902獲得描述檔案960,且可基於描述檔案960傳輸對於媒體片段檔案之請求。描述檔案960可包括(例如)用於媒體內容之每一表示的替代媒體片段檔案之集合之清單,及與每一替代媒體片段檔案相關聯的性質(例如,位元速率、圖框速率、解析度、音訊語言等)。描述檔案960亦可包括與替代媒體片段檔案之儲存位置相關聯的位置識別符(例如,統一資源定位符(URL)、統一資源指示符(URI)等)。 存在用於自適應位元速率串流傳輸之各種協定。一個實例為經由超文字傳送協定(HTTP)之動態自適應串流,或DASH(定義於ISO/IEC 23009-1:2014中)。DASH,其亦稱為MPEG-DASH。在DASH情況下,描述檔案960可包括媒體呈現描述(MPD)。圖10為說明MPD 1001之實例的圖式。在一些狀況下,MPD 1001可以可延伸標示語言(XML)表示。MPD 1001可包括定義適應集合1002的元素之集合。適應集合1002可包括替代表示1003及1004之集合。一般熟習此項技術者將瞭解除了表示1003及1004之外適應集合1002亦可包括額外表示。每一替代表示1003及1004可與特定位元速率、解析度或其他品質相關聯,且可包括媒體片段之集合。舉例而言,表示1003包括媒體片段1007及1009,及亦標頭資訊1005。表示1004包括媒體片段1008及1010,及亦標頭資訊1006。標頭資訊1005及1006可包括(例如)「表示」元素(例如,包括識別符、頻寬、寬度及高度屬性,或其類似者)。媒體片段1007及1009中之每一者可在MPD 1001中與媒體片段檔案之URL(其可表示為元素「SegmentURL」)相關聯。MPD 1001中之該組元素中的每一者可與一組屬性相關聯,該組屬性定義(例如)適應集合1002、表示1003及/或1004或其他資訊之性質。 以下為MPD之部分的實例: <AdaptationSet mimeType="video/mp2t"> <Representation id="720p" bandwidth="3200000" width="1280" height="720"> . . . <SegmentURL media="segment-1.DASH"/> <SegmentURL media="segment-2.DASH"/> . . . 在以上展示之實例MPD中,諸如「週期(Period)」、「AdaptationSet」、「表示(Representation)」、「SegmentURL」等之本文為元素,而「mimeType」、「id」、「頻寬(bandwidth)」、「寬度(width)」及「高度(height)」、「媒體(media)」等為屬性。在此實例中,適應集合包括與特定頻寬及圖框大小相關聯之一個表示,且包括由其URL表示的媒體片段之集合。 MPD檔案可包括用於ROI之發信號資訊。現參看圖11,其說明一說明MPD 1100之實例的XML程式碼表示。MPD 1100可包括至少一個適應集合之清單。在MPD 1100中,適應集合可包括用以定義與不同位元速率、解析度或其他品質相關聯之多個替代表示的元素。每一表示可與圖像檔案相關聯,且MPD 1100可包括用於定位表示元素中之每一者的圖像檔案的鏈接(例如,統一資源定位符(URL)、統一資源指示符(URI)或任何其他合適之資訊)。在與表示相關聯之圖像檔案包括ROI的情況下,表示元素可進一步包括與ROI相關聯之第一發信號資訊及第二發信號資訊。 如所示,適應集合經定義以包括多個表示,包括具有等於1之表示ID的表示及具有等於2之表示ID的表示。MPD 1100指示具有為2之表示ID的表示具有3840像素之寬度、1920像素之高度、60之圖框速率,外加其他特性。MPD 1100進一步包括用於表示之視訊檔案「video1.mp4」的URL。EssentialProperty元素1102經提供用於具有為2之表示ID的表示。EssentialProperty元素1102可描述關於投影類型、FOV方向、逐區映射之資訊及/或其他資訊。舉例而言,此資訊可藉由使用EssentialProperty而含於MPD 1100中,在此狀況下不同schemeIdUri可經定義用於每一資訊類型。在一個說明性實例中,若schemeIdUri「urn:mpeg:dash:360VideoProjection:2017」與投影類型相關聯且「CMP」意謂立方體貼圖投影,則吾人可將關於EssantialProperty元素中之立方體貼圖投影類型的資訊定義如下:<EssentialProperty schemeIdUri=“urn:mpeg:dash:360VideoProjection:2017” value=”CMP”/>。 此外,SupplementalProperty元素1104可含有ROI之發信號資訊。舉例而言,schemeIdUri 「urn:mpeg:dash:ROIpixelrep:2017」可與一組值相關聯以發信號二維圖框中之ROI的中心位置及尺寸。位置及尺寸可以像素座標形式表示。在圖11之實例中,ROI之中心位置可為(1300, 500),其指示中心位置之左偏移為1300個像素,且中心位置之頂部偏移為500個像素。此外,ROI跨越100像素之寬度及200像素之高度。儘管在圖11之實例中,位置及尺寸以像素座標形式表示,但應理解其可以其他形式表示,諸如圖塊。舉例而言,位置及尺寸可藉由列舉包括ROI之圖塊,或與包括ROI之圖塊群組相關聯之群組識別符而發信號。 另外,schemeIdUri「urn:mpeg:dash:ROIpixelrep:2017」可與一組值相關聯以發信號球面空間中之ROI的中心位置及尺寸。在圖11之實例中,ROI之偏航角可為20弧度,ROI之俯仰角可為30弧度,ROI之俯仰增量角可為10弧度,而ROI之偏航增量角可為10弧度。 使用MPD 1100之情況下,系統可提取視訊檔案「video1.mp4」且基於ROI包括於視訊檔案中之指示而解碼檔案。系統亦可根據發信號資訊自經解碼檔案提取像素,且提供經提取像素至顯現器以用於顯現。 圖12為說明用於產生媒體檔案之處理程序1200的實例之流程圖。處理程序可藉由(例如)串流傳輸伺服器(例如,圖9之伺服器902)、代管伺服器與接收器器件之間的中間網路器件等在ISO基本媒體檔案(例如,ISOBMFF檔案)中囊封經編碼資料的器件執行。 在1202處,處理程序1200包括獲得360度視訊資料,360度視訊資料包括場景之球面表示。360度視訊資料可由攝影機集合(例如,全向攝影機)產生。球面表示可藉由(例如)縫合在特定時間點處由攝影機集合擷取的一組影像形成。 在1204處,處理程序1200包括判定場景之球面表示中之感興趣區(ROI)。判定可基於(例如)用以輸出場景之特定部分(例如,作為導演剪切之部分)至使用者的指令、使用者之視線方向,或基於其他合適資訊。在一些實例中,該ROI可由與該球面表示相交的至少四個平面界定;且其中該四個平面中之每一者亦與該球面中心相交以形成一大圓。舉例而言,返回參看圖5A,ROI可由四個大圓502、504、506及508定義。 在1206處,處理程序1200包括產生一媒體檔案,該媒體檔案包括對應於該ROI之一視埠區的第一發信號資訊及第二發信號資訊,該第一發信號資訊包括在與該球面表示相關聯之一球面空間中所量測的該視埠區之一中心位置及一尺寸,且該第二發信號資訊指示包含該視埠區之一圖像的一區。該圖像可藉由使用直線投影將包括該ROI之該球面表示投影至一平面上而形成,且可為一視訊圖框。該視埠將在顯示器中顯現。在一些實例中,該第一發信號資訊及該第二發信號資訊亦可定義對應於多個ROI之多個視埠區,且可選擇該多個視埠區中之一者用於在顯示器中顯現。 在一些實例中,該媒體檔案係基於一國際標準組織(ISO)基本媒體檔案格式(ISOBMFF)。在一些實例中,該媒體檔案可識別包括對應於該球面視訊場景之一視訊樣本的一樣本群組;且其中該第一發信號資訊及該第二發信號資訊包括於該樣本群組之一或多個語法元素中。 在一些實例中,該媒體檔案係基於一媒體呈現描述(MPD)格式且包括一或多個適應集合之一清單。該一或多個適應集合中之每一者可包括一或多個表示。該第一發信號資訊、該第二發信號資訊及至該圖像之一鏈接包括在與包括於該一或多個表示中之該ROI相關聯的一或多個元素中。在一些實例中,該一或多個表示為基於圖塊之表示,且其中該第二發信號資訊包括與圖塊相關聯之識別符,該等圖塊包括該一或多個基於圖塊之表示中所包括的該ROI。 在一些實例中,該第一發信號資訊可包括該視埠區之一中心相對於該場景之該球面表示之一球面中心的一第一角及一第二角,該第一角形成於一第一平面上且該第二角形成於一第二平面上,該第一平面垂直於該第二平面。該第一發信號資訊可進一步包括與該視埠區之一寬度相關聯的一第三角及與該視埠區之一高度相關聯的一第四角。該第三角可形成於該視埠區之一第一邊緣與一第二邊緣之間;且其中該第四角形成於該視埠區之一第三邊緣與一第四邊緣之間。舉例而言,第一角可為偏航角,第二角可為俯仰角,而第三角及第四角可分別為如圖4C、圖4D及圖4E中所描述的偏航增量角及俯仰增量角。 在一些實例中,該第二發信號資訊可定義包括該視埠區的該圖像之一或多個圖塊。該一或多個圖塊可為包括於該圖像中之複數個圖塊的部分。在一些實例中,該第二發信號資訊可進一步包括與該圖像中之該一或多個圖塊相關聯的一或多個座標。在一些實例中,該一或多個圖塊形成一圖塊群組,且該第二發信號資訊可包括與該圖塊群組相關聯之一群組識別符。彼等圖塊可為例如運動受限之圖塊。 在一些實例中,該第二發信號資訊可包括與一視埠區內的藉由將該ROI投影於一平面上所形成之一預定位置相關聯的像素座標、該視埠區之一寬度及該視埠區之一高度。 在1208處,處理程序1200進一步包括提供該媒體檔案以用於顯現該360度視訊資料或用於傳輸包括至少該ROI之該360度視訊資料的一部分。顯現可包括(例如)基於第二發信號資訊自圖像獲得一組圖塊,及基於第一發信號資訊判定該組圖塊內的視埠之位置及邊界,及基於經判定位置及邊界提取對應於視埠之像素以顯現視埠。邊界亦可基於視埠之預定形狀而判定。該視埠之形狀可基於判定該ROI係由與該球面表示相交的至少四個平面界定而預定,其中該四個平面中之每一者亦與該球面表示之該球面中心相交且各自形成一大圓。舉例而言,如上文所論述,ROI可由四個大圓502、504、506及508定義,且視埠可具有與圖5C之視埠520相同的形狀。此外,360度視訊資料之部分的傳輸可包括(例如)判定包括ROI之圖像中之該組圖塊,及傳輸對應於該組圖塊的視訊資料至顯現器以用於顯現ROI。 圖13為說明用於處理媒體檔案之處理程序1300的實例之流程圖。處理程序可藉由(例如)代管伺服器與接收器器件之間的中間網路器件、接收器器件等而執行。 在1302處,處理程序1300包括獲得與360度視訊資料相關聯之一媒體檔案。360度視訊資料可由攝影機集合(例如,全向攝影機)產生。球面表示可藉由(例如)縫合在特定時間點處由攝影機集合擷取的一組影像形成。該媒體檔案可包括對應於該球面表示中之一感興趣區(ROI)之一視埠區的第一發信號資訊及第二發信號資訊。 在一些實例中,該ROI可由與該球面表示相交的至少四個平面界定;且其中該四個平面中之每一者亦與該球面中心相交以形成一大圓。舉例而言,返回參看圖5A,ROI可由四個大圓502、504、506及508定義。 在1304處,處理程序1300包括基於該第一發信號資訊及該第二發信號資訊而提取來自該圖像之資料的對應於該視埠之像素。 在一些實例中,該媒體檔案係基於一國際標準組織(ISO)基本媒體檔案格式(ISOBMFF)。在一些實例中,該媒體檔案可識別包括對應於該球面視訊場景之一視訊樣本的一樣本群組;且其中該第一發信號資訊及該第二發信號資訊包括於該樣本群組之一或多個語法元素中。 在一些實例中,該媒體檔案係基於一媒體呈現描述(MPD)格式且包括一或多個適應集合之一清單。該一或多個適應集合中之每一者可包括一或多個表示。該第一發信號資訊、該第二發信號資訊及至該圖像之一鏈接包括在與包括於該一或多個表示中之該ROI相關聯的一或多個元素中。在一些實例中,該一或多個表示為基於圖塊之表示,且其中該第二發信號資訊包括與圖塊相關聯之識別符,該等圖塊包括該一或多個基於圖塊之表示中所包括的該ROI。 在一些實例中,該第一發信號資訊可包括該視埠區之一中心相對於該場景之該球面表示之一球面中心的一第一角及一第二角,該第一角形成於一第一平面上且該第二角形成於一第二平面上,該第一平面垂直於該第二平面。該第一發信號資訊可進一步包括與該視埠區之一寬度相關聯的一第三角及與該視埠區之一高度相關聯的一第四角。該第三角可形成於該視埠區之一第一邊緣與一第二邊緣之間;且其中該第四角形成於該視埠區之一第三邊緣與一第四邊緣之間。舉例而言,第一角可為偏航角,第二角可為俯仰角,而第三角及第四角可分別為如圖4C、圖4D及圖4E中所描述的偏航增量角及俯仰增量角。 在一些實例中,該第二發信號資訊可定義包括該視埠區的該圖像之一或多個圖塊。該一或多個圖塊可為包括於該圖像中之複數個圖塊的部分。在一些實例中,該第二發信號資訊可進一步包括與該圖像中之該一或多個圖塊相關聯的一或多個座標。在一些實例中,該一或多個圖塊形成一圖塊群組,且該第二發信號資訊可包括與該圖塊群組相關聯之一群組識別符。彼等圖塊可為例如運動受限之圖塊。 在一些實例中,該第二發信號資訊可包括與一視埠區內的藉由將該ROI投影於一平面上所形成之一預定位置相關聯的像素座標、該視埠區之一寬度及該視埠區之一高度。 在一些實例中,像素之提取可包括識別含有視埠區的圖像中之一組圖塊,及自該組圖塊中提取像素。像素之提取可進一步包括判定該組圖塊中之視埠的位置及邊界。位置可基於指示視埠區之中心位置的偏航角及俯仰角而判定,而邊界可基於藉由偏航增量角及俯仰增量角分別指示的寬度及高度而判定。邊界亦可基於視埠區之預定形狀而判定。形狀可基於由與該球面表示相交的至少四個平面界定的ROI而判定,其中該四個平面中之每一者亦與該球面表示之該球面中心相交且形成一大圓。舉例而言,視埠之形狀可與圖5C之視埠520相同。像素之提取可係基於視埠區之位置及邊界。 在1306處,處理程序1300進一步包括提供經提取像素以在一顯示器中顯現該視埠區。 在一些實例中,處理程序1200及1300可藉由計算器件或裝置(諸如,圖1中所展示之系統100)執行。在一些實例中,處理程序1200及1300可藉由檔案產生器件、檔案剖析或處理器件、圖1及圖14中展示之編碼器件104、藉由另一視訊傳輸側器件或視訊傳輸器件、藉由圖1及圖15中展示之解碼器件112及/或藉由另一用戶端側器件(諸如播放器器件、顯示器或任何其他用戶端側器件)執行。在一個實例中,處理程序1200可藉由檔案產生器件、圖1及圖14中展示之編碼器件104及/或藉由另一傳輸側器件或視訊傳輸器件執行。在另一實例中,處理程序1300可藉由檔案剖析或處理器件、圖1及圖15中展示之解碼器件112及/或藉由另一用戶端側器件(諸如播放器器件、顯示器或任何其他用戶端側器件)執行。在一些狀況下,計算器件或裝置可包括處理器、微處理器、微電腦或經組態以實施處理程序1200及1300之步驟的器件之其他組件。在一些實例中,計算器件或裝置可包括經組態以擷取包括視訊圖框之視訊資料(例如,視訊序列)的攝影機。在一些實例中,擷取視訊資料之攝影機或其他擷取器件與計算器件分離,在此情況下,計算器件接收或獲得所擷取視訊資料。計算器件可進一步包括經組態以傳達視訊資料之網路介面。網路介面可經組態以傳達基於網際網路協定(IP)之資料或其他類型之資料。在一些實例中,計算器件或裝置可包括用於顯示輸出視訊內容(諸如,視訊位元串流之圖像的樣本)之顯示器。 處理程序1200及1300經說明為邏輯流程圖,其中之操作表示可在硬體、電腦指令或其組合中實施的操作之序列。在電腦指令之上下文中,操作表示儲存於一或多個電腦可讀儲存媒體上當藉由一或多個處理器執行時執行所敍述之操作的電腦可執行指令。通常,電腦可執行指令包括執行特定功能或實施特定資料類型之常式、程式、對象、組件、邏輯、資料結構及其類似者。描述操作之次序並不意欲被理解為限制,且任何數目個經描述操作可按任何次序及/或與處理程序並行地組合。 另外,處理程序1200及1300可在經組態有可執行指令之一或多個電腦系統之控制下執行,且可被實施為共同在一或多個處理器上執行之程式碼(例如,可執行指令、一或多個電腦程式或一或多個應用程式)、藉由硬體實施或其組合。如上文所提及,程式碼可儲存於電腦可讀或機器可讀儲存媒體上,例如,呈包含可由一或多個處理器執行之複數個指令之電腦程式的形式。電腦可讀或機器可讀儲存媒體可為非暫時性的。 本文所論述之寫碼技術可實施於實例視訊編碼及解碼系統(例如,系統100)中。在一些實例中,系統包括提供稍後由目的地器件解碼之經編碼視訊資料的源器件。詳言之,源器件經由電腦可讀媒體提供視訊資料至目的地器件。源器件及目的地器件可包含廣泛範圍之器件中之任一者,包括桌上型電腦、筆記型(亦即,膝上型)電腦、平板電腦、機頂盒、諸如所謂的「智慧型」電話之電話手機、所謂的「智慧型」平板電腦、電視、攝影機、顯示器件、數位媒體播放器、視訊遊戲控制台、視訊串流器件或其類似者。在一些狀況下,源器件及目的地器件可經裝備以用於無線通信。 目的地器件可經由電腦可讀媒體接收待解碼之經編碼視訊資料。電腦可讀媒體可包含能夠將經編碼視訊資料自源器件移動至目的地器件的任何類型之媒體或器件。在一個實例中,電腦可讀媒體可包含通信媒體以使得源器件能夠即時地將經編碼視訊資料直接傳輸至目的地器件。可根據通信標準(諸如,無線通信協定)調變經編碼視訊資料,且將經編碼視訊資料傳輸至目的地器件。通信媒體可包含任何無線或有線通信媒體,諸如射頻(RF)頻譜或一或多個實體傳輸線。通信媒體可形成基於封包之網路(諸如,區域網路、廣域網路或諸如網際網路之全域網路)之部分。通信媒體可包括路由器、交換器、基地台或可用於促進自源器件至目的地器件之通信的任何其他裝備。 在一些實例中,經編碼資料可自輸出介面輸出至儲存器件。類似地,經編碼資料可由輸入介面自儲存器件存取。儲存器件可包括多種分散式或本端存取之資料儲存媒體中之任一者,諸如,硬碟機、Blu-ray碟片、DVD、CD-ROM、快閃記憶體、揮發性或非揮發性記憶體或用於儲存經編碼視訊資料之任何其他合適之數位儲存媒體。在另一實例中,儲存器件可對應於檔案伺服器或可儲存由源器件產生之經編碼視訊的另一中間儲存器件。目的地器件可經由串流傳輸或下載自儲存器件存取所儲存之視訊資料。檔案伺服器可為能夠儲存經編碼視訊資料且將彼經編碼視訊資料傳輸至目的地器件的任何類型之伺服器。實例檔案伺服器包括網頁伺服器(例如,用於網站)、FTP伺服器、網路附加儲存(NAS)器件或本端磁碟機。目的地器件可經由任何標準資料連接(包括網際網路連接)來存取經編碼視訊資料。此連接可包括適合於存取儲存於檔案伺服器上之經編碼視訊資料的無線通道(例如,Wi-Fi連接)、有線連接(例如,DSL、纜線數據機等)或兩者之組合。自儲存器件的經編碼視訊資料之傳輸可為串流傳輸、下載傳輸或其組合。 本發明之技術不必限於無線應用或設定。該等技術可應用於支援多種多媒體應用中之任一者的視訊寫碼,諸如,空中電視廣播、有線電視傳輸、衛星電視傳輸、網際網路串流視訊傳輸(諸如,經由HTTP之動態自適應串流(DASH))、經編碼至資料儲存媒體上之數位視訊、儲存於資料儲存媒體上的數位視訊之解碼或其他應用。在一些實例中,系統可經組態以支援單向或雙向視訊傳輸以支援諸如視訊串流、視訊播放、視訊廣播及/或視訊電話之應用。 在一個實例中,源器件包括視訊源、視訊編碼器及輸出介面。目的地器件可包括輸入介面、視訊解碼器及顯示器件。源器件之視訊編碼器可經組態以應用本文中所揭示之技術。在其他實例中,源器件及目的地器件可包括其他組件或配置。舉例而言,源器件可自外部視訊源(諸如,外部攝影機)接收視訊資料。同樣,目的地器件可與外部顯示器件介接,而非包括整合式顯示器件。 以上實例系統僅為一個實例。用於並行地處理視訊資料之技術可由任何數位視訊編碼及/或解碼器件來執行。儘管本發明之技術一般由視訊編碼器件執行,但該等技術亦可由視訊編碼器/解碼器(通常被稱作「編解碼器」)執行。此外,本發明之技術亦可由視訊預處理器執行。源器件及目的地器件僅為源器件產生經寫碼視訊資料以供傳輸至目的地器件之此類寫碼器件的實例。在一些實例中,源器件及目的地器件可以大體上對稱之方式操作,使得該等器件中之每一者包括視訊編碼及解碼組件。因此,實例系統可支援視訊器件之間的單向或雙向視訊傳輸,例如用於視訊串流、視訊播放、視訊廣播或視訊電話。 視訊源可包括視訊擷取器件,諸如視訊攝影機、含有先前擷取之視訊的視訊存檔及/或用以自視訊內容提供者接收視訊之視訊饋入介面。作為另一替代方案,視訊源可產生基於電腦圖形之資料作為源視訊,或實況視訊、存檔視訊及電腦產生之視訊的組合。在一些狀況下,若視訊源為視訊攝影機,則源器件及目的地器件可形成所謂攝影機電話或視訊電話。然而,如上文所提及,本發明中所描述之技術一般可適用於視訊寫碼,且可適用於無線及/或有線應用。在每一狀況下,可由視訊編碼器編碼所擷取、經預擷取或電腦產生之視訊。經編碼視訊資訊可隨後由輸出介面輸出至電腦可讀媒體上。 如所提及,電腦可讀媒體可包括暫態媒體,諸如無線廣播或有線網路傳輸;或儲存媒體(亦即,非暫時性儲存媒體),諸如硬碟、隨身碟、緊密光碟、數位視訊光碟、藍光光碟或其他電腦可讀媒體。在一些實例中,網路伺服器(未展示)可自源器件接收經編碼視訊資料且例如經由網路傳輸提供經編碼視訊資料至目的地器件。類似地,媒體生產設施(諸如,光碟衝壓設施)之計算器件可自源器件接收經編碼視訊資料且生產含有經編碼視訊資料之光碟。因此,在各種實例中,電腦可讀媒體可理解為包括各種形式之一或多個電腦可讀媒體。 目的地器件之輸入介面自電腦可讀媒體接收資訊。電腦可讀媒體之資訊可包括由視訊編碼器定義之語法資訊(其亦由視訊解碼器使用),該語法資訊包括描述區塊及其他經寫碼單元(例如,圖像群組(GOP))之特性及/或處理的語法元素。顯示器件將經解碼視訊資料顯示給使用者,且可包含多種顯示器件中之任一者,諸如陰極射線管(CRT)、液晶顯示器(LCD)、電漿顯示器、有機發光二極體(OLED)顯示器或另一類型之顯示器件。已描述本發明之各種實施例。 編碼器件104及解碼器件112之特定細節分別展示於圖14及圖15中。圖14為說明可實施本發明中所描述之技術中之一或多者的實例編碼器件104之方塊圖。編碼器件104可(例如)產生本文中所描述之語法結構(例如,VPS、SPS、PPS或其他語法元素之語法結構)。編碼器件104可執行視訊圖塊內之視訊區塊的框內預測及框間預測寫碼。如先前所描述,框內寫碼至少部分地依賴於空間預測以減少或移除給定視訊圖框或圖像內之空間冗餘。框間寫碼至少部分地依賴於時間預測以減少或移除視訊序列之鄰近或周圍圖框內的時間冗餘。框內模式(I模式)可指若干基於空間之壓縮模式中的任一者。框間模式(諸如,單向預測(P模式)或雙向預測(B模式))可指若干基於時間之壓縮模式中的任一者。 編碼器件104包括分割單元35、預測處理單元41、濾波器單元63、圖像記憶體64、求和器50、變換處理單元52、量化單元54及熵編碼單元56。預測處理單元41包括運動估計單元42、運動補償單元44及框內預測處理單元46。對於視訊區塊重構,編碼器件104亦包括反量化單元58、反變換處理單元60及求和器62。濾波器單元63意欲表示一或多個迴路濾波器,諸如解塊濾波器、自適應迴路濾波器(ALF)及樣本自適應偏移(SAO)濾波器。儘管濾波器單元63在圖14中展示為迴路中濾波器,但在其他組態中,濾波器單元63可實施為迴路後濾波器。後處理器件57可對由編碼器件104產生之經編碼視訊資料執行額外處理。本發明之技術可在一些情況下由編碼器件104實施。然而,在其他情況下,本發明之技術中之一或多者可由後處理器件57實施。 如圖14中所展示,編碼器件104接收視訊資料,且分割單元35將資料分割成視訊區塊。分割亦可包括成圖塊、圖塊片段、圖塊或其他較大單元的分割,以及例如根據LCU及CU之四分樹結構的視訊區塊分割。編碼器件104一般說明編碼待編碼之視訊圖塊內的視訊區塊的組件。圖塊可劃分成多個視訊區塊(且可能劃分成被稱作圖塊之視訊區塊集合)。預測處理單元41可基於誤差結果(例如,寫碼速率及失真等級,或其類似者)選擇複數個可能寫碼模式中之一者(諸如,複數個框內預測寫碼模式中之一者或複數個框間預測寫碼模式中之一者)以用於當前視訊區塊。預測處理單元41可將所得經框內或框間寫碼區塊提供至求和器50以產生殘餘區塊資料且提供至求和器62以重構經編碼區塊以用作參考圖像。 預測處理單元41內之框內預測處理單元46可執行當前視訊區塊相對於與待寫碼的當前區塊相同之圖框或圖塊中的一或多個相鄰區塊之框內預測寫碼以提供空間壓縮。預測處理單元41內之運動估計單元42及運動補償單元44執行當前視訊區塊相對於一或多個參考圖像中之一或多個預測性區塊之框間預測性寫碼,以提供時間壓縮。 運動估計單元42可經組態以根據視訊序列之預定圖案來判定用於視訊圖塊之框間預測模式。預定圖案可將序列中之視訊圖塊指定為P圖塊、B圖塊或GPB圖塊。運動估計單元42及運動補償單元44可高度整合,但出於概念目的而單獨說明。由運動估計單元42執行之運動估計為產生運動向量之處理,該等運動向量估計視訊區塊之運動。運動向量(例如)可指示當前視訊圖框或圖像內之視訊區塊的預測單元(PU)相對於參考圖像內之預測性區塊的移位。 預測性區塊為就像素差而言被發現緊密地匹配待寫碼的視訊區塊之PU之區塊,該像素差可由絕對差和(SAD)、平方差和(SSD)或其他差度量判定。在一些實例中,編碼器件104可計算儲存於圖像記憶體64中之參考圖像的次整數像素位置的值。舉例而言,編碼器件104可內插參考圖像之四分之一像素位置、八分之一像素位置或其他分數像素位置之值。因此,運動估計單元42可執行關於全像素位置及分數像素位置之運動搜尋且輸出具有分數像素精度之運動向量。 運動估計單元42藉由比較PU之位置與參考圖像之預測性區塊的位置而計算經框間寫碼圖塊中之視訊區塊的PU的運動向量。參考圖像可選自第一參考圖像清單(清單0)或第二參考圖像清單(清單1),該等清單中之每一者識別儲存於參考圖像記憶體64中之一或多個參考圖像。運動估計單元42將所計算之運動向量發送至熵編碼單元56及運動補償單元44。 由運動補償單元44執行之運動補償可涉及基於由運動估計(可能執行內插至子像素精確密度)判定之運動向量而提取或產生預測性區塊。在接收到當前視訊區塊之PU的運動向量之後,運動補償單元44可在參考圖像清單中定位運動向量所指向之預測性區塊。編碼器件104藉由自正經寫碼之當前視訊區塊之像素值減去預測性區塊之像素值從而形成像素差值來形成殘餘視訊區塊。像素差形成用於區塊之殘餘資料,且可包括明度及色度差分量兩者。求和器50表示執行此減法運算之一或多個組件。運動補償單元44亦可產生與視訊區塊及視訊圖塊相關聯之語法元素,以供解碼器件112用於解碼視訊圖塊之視訊區塊。 如上文所描述,作為藉由運動估計單元42及運動補償單元44執行的框間預測之替代方案,框內預測處理單元46可框內預測當前區塊。特定而言,框內預測處理單元46可判定框內預測模式以用以編碼當前區塊。在一些實例中,框內預測處理單元46可(例如)在單獨編碼遍次期間使用各種框內預測模式編碼當前區塊,且框內預測處理單元46可自經測試模式中選擇適當框內預測模式來使用。舉例而言,框內預測處理單元46可使用對各種所測試框內預測模式之速率-失真分析來計算速率-失真值,且可在所測試模式間選擇具有最佳速率-失真特性之框內預測模式。速率失真分析大體上判定經編碼區塊與原始、未經編碼區塊(其經編碼以產生經編碼區塊)之間的失真(或誤差)量,以及用以產生經編碼區塊之位元率(亦即,位元之數目)。框內預測處理單元46可根據各種經編碼區塊之失真及速率計算比率以判定哪一框內預測模式展現該區塊之最佳速率-失真值。 在任何情況下,在選擇用於區塊之框內預測模式後,框內預測處理單元46可將指示用於區塊之所選框內預測模式的資訊提供至熵編碼單元56。熵編碼單元56可編碼指示所選框內預測模式之資訊。編碼器件104可將各種區塊之編碼上下文之定義以及待用於上下文中之每一者的最可能的框內預測模式、框內預測模式索引表及經修改框內預測模式索引表之指示包括於經傳輸位元串流組態資料中。位元串流組態資料可包括複數個框內預測模式索引表及複數個經修改框內預測模式索引表(亦被稱作碼字映射表)。 在預測處理單元41經由框間預測或框內預測產生當前視訊區塊之預測性區塊之後,編碼器件104藉由自當前視訊區塊減去預測性區塊而形成殘餘視訊區塊。殘餘區塊中之殘餘視訊資料可包括於一或多個TU中且被應用於變換處理單元52。變換處理單元52使用諸如離散餘弦變換(DCT)或概念上類似變換之變換將殘餘視訊資料變換成殘餘變換係數。變換處理單元52可將殘餘視訊資料自像素域轉換至變換域(諸如,頻域)。 變換處理單元52可將所得變換係數發送至量化單元54。量化單元54量化變換係數以進一步減小位元率。量化處理程序可減小與係數中之一些或所有相關聯的位元深度。可藉由調整量化參數來修改量化程度。在一些實例中,量化單元54可接著執行對包括經量化變換係數之矩陣的掃描。替代地,熵編碼單元56可執行掃描。 在量化之後,熵編碼單元56對經量化變換係數進行熵編碼。舉例而言,熵編碼單元56可執行上下文自適應性可變長度寫碼(CAVLC)、上下文自適應性二進位算術寫碼(CABAC)、基於語法之上下文自適應性二進位算術寫碼(SBAC)、機率區間分割熵(PIPE)寫碼或另一熵編碼技術。在由熵編碼單元56進行熵編碼之後,經編碼位元串流可傳輸至解碼器件112,或經存檔以供稍後由解碼器件112傳輸或擷取。熵編碼單元56亦可熵編碼正經寫碼之當前視訊圖塊的運動向量及其他語法元素。 反量化單元58及反變換處理單元60分別應用反量化及反變換以重構像素域中之殘餘區塊以供稍後用作參考圖像之參考區塊。運動補償單元44可藉由將殘餘區塊添加至參考圖像清單內之參考圖像中之一者的預測性區塊來計算參考區塊。運動補償單元44亦可將一或多個內插濾波器應用於經重構殘餘區塊以計算用於次整數像素值以用於運動估計。求和器62將經重構殘餘區塊添加至由運動補償單元44產生之運動補償預測區塊以產生用於儲存於圖像記憶體64中之參考區塊。參考區塊可由運動估計單元42及運動補償單元44用作參考區塊以框間預測後續視訊圖框或圖像中之區塊。 以此方式,圖14之編碼器件104表示經組態以導出LIC參數、適應性地判定模板之大小及/或適應性地選擇權重的視訊編碼器之實例。如上文所描述,編碼器件104可(例如)導出LIC參數、適應性地判定模板之大小,及/或適應性地選擇權重集合。舉例而言,編碼器件104可執行本文中所描述技術中之任一者,包括上文參看圖12及圖13所描述的處理程序。在一些狀況下,本發明之技術中之一些亦可藉由後處理器件57實施。 圖15為說明實例解碼器件112之方塊圖。解碼器件112包括熵解碼單元80、預測處理單元81、反量化單元86、反變換處理單元88、求和器90、濾波器單元91及圖像記憶體92。預測處理單元81包括運動補償單元82及框內預測處理單元84。解碼器件112可在一些實例中執行與關於來自圖14之編碼器件104描述之編碼遍次大體上互逆的解碼遍次。 在解碼處理程序期間,解碼器件112接收由編碼器件104發送之經編碼視訊位元串流,其表示經編碼視訊圖塊之視訊區塊及相關聯語法元素。在一些實施例中,解碼器件112可自編碼器件104接收經編碼視訊位元串流。在一些實施例中,解碼器件112可自網路實體79 (諸如,伺服器、媒體感知網路元件(MANE)、視訊編輯器/編接器或經組態以實施上文所描述之技術中之一或多者的其他此類器件)接收經編碼視訊位元串流。網路實體79可或可不包編碼器件104。在網路實體79將經編碼視訊位元串流傳輸至解碼器件112之前,本發明中所描述之技術中的一些可由網路實體79實施。在一些視訊解碼系統中,網路實體79及解碼器件112可為獨立器件之部分,而在其他情況下,關於網路實體79描述之功能性可由包含解碼器件112之同一器件執行。 解碼器件112之熵解碼單元80對位元串流進行熵解碼以產生經量化係數、運動向量及其他語法元素。熵解碼單元80將運動向量及其他語法元素轉遞至預測處理單元81。解碼器件112可接收以視訊圖塊層級及/或視訊區塊層級的語法元素。熵解碼單元80可處理並剖析諸如VPS、SPS及PPS之一或多個參數集中之固定長度語法元素及可變長度語法元素兩者。 當視訊圖塊被寫碼為經框內寫碼(I)圖塊時,預測處理單元81之框內預測處理單元84可基於經發信號框內預測模式及來自當前圖框或圖像之先前經解碼區塊的資料而產生當前視訊圖塊之視訊區塊的預測資料。當視訊圖框經寫碼為經框間寫碼(亦即,B、P或GPB)圖塊時,預測處理單元81之運動補償單元82基於運動向量及自熵解碼單元80接收之其他語法元素產生當前視訊圖塊之視訊區塊的預測性區塊。預測性區塊可自參考圖像清單內之參考圖像中的一者產生。解碼器件112可基於儲存於圖像記憶體92中之參考圖像使用預設建構技術來建構參考圖框清單(清單0及清單1)。 運動補償單元82藉由剖析運動向量及其他語法元素來判定用於當前視訊圖塊之視訊區塊的預測資訊,並使用該預測資訊以產生經解碼當前視訊區塊之預測性區塊。舉例而言,運動補償單元82可使用參數集中之一或多個語法元素以判定用於寫碼視訊圖塊之視訊區塊之預測模式(例如,框內預測或框間預測)、框間預測圖塊類型(例如,B圖塊、P圖塊或GPB圖塊)、圖塊之一或多個參考圖像清單之建構資訊、圖塊之每一框間編碼視訊區塊之運動向量、圖塊之每一框間寫碼視訊區塊之框間預測狀態,及用以解碼當前視訊圖塊中之視訊區塊的其他資訊。 運動補償單元82亦可執行基於內插濾波器之內插。運動補償單元82可使用如在編碼視訊區塊期間由編碼器件104使用的內插濾波器來計算參考區塊之次整數像素的內插值。在此狀況下,運動補償單元82可自所接收語法元素判定由編碼器件104使用之內插濾波器,且可使用內插濾波器來產生預測性區塊。 反量化單元86反量化或解量化位元串流中所提供且由熵解碼單元80解碼之經量化變換係數。反量化處理程序可包括使用由編碼器件104針對視訊圖塊中之每一視訊區塊計算的量化參數來判定量化程度及同樣應應用之反量化程度。反變換處理單元88將反變換(例如,反DCT或其他合適之反變換)、反整數變換或概念上類似的反變換處理程序應用於變換係數以便在像素域中產生殘餘區塊。 在運動補償單元82基於運動向量及其他語法元素而產生當前視訊區塊之預測性區塊之後,解碼器件112藉由將來自反變換處理單元88之殘餘區塊與由運動補償單元82產生之對應預測性區塊求和而形成經解碼視訊區塊。求和器90表示執行此求和運算之一或多個組件。若需要,亦可使用迴路濾波器(在寫碼迴路中或在寫碼迴路後)以使像素轉變平滑,或以其他方式改良視訊品質。濾波器單元91意欲表示一或多個迴路濾波器(諸如,解區塊濾波器、自適應性迴路濾波器(ALF)及樣本自適應性偏移(SAO)濾波器)。儘管濾波器單元91在圖15中展示為迴路中濾波器,但在其他組態中,濾波器單元91可實施為迴路後濾波器。給定圖框或圖像中之經解碼視訊區塊隨後儲存於圖像記憶體92中,該圖像記憶體儲存用於後續運動補償之參考圖像。圖像記憶體92亦儲存經解碼視訊以供稍後呈現於顯示器件(諸如,圖1中所展示之視訊目的地器件122)上。 以此方式,圖15之解碼器件112表示經組態以導出LIC參數、適應性地判定模板之大小及/或適應性地選擇權重的視訊解碼器之實例。如上文所描述,解碼器件112可(例如)導出LIC參數、適應性地判定模板之大小,及/或適應性地選擇權重集合。舉例而言,解碼器件112可執行本文中所描述技術中之任一者,包括上文參看圖12及圖13所描述的處理程序。 在前述描述中,參考其特定實施例描述申請案之態樣,但熟習此項技術者將認識到本發明不限於此。因此,儘管本文中已詳細描述申請案之說明性實施例,但應理解,本發明概念可以其他方式不同地體現並使用,且所附申請專利範圍意欲解釋為包括除先前技術所限制外的此等變化。上文所描述之發明之各種特徵及態樣可單獨地或聯合地使用。另外,實施例可用於超出本文所描述之彼等環境及應用之任何數目個環境及應用,而不脫離本說明書之更廣精神及範疇。因此,本說明書及圖式被視為說明性而非限定性。出於說明之目的,以特定次序描述方法。應瞭解,在替代實施例中,可以與所描述之次序不同之次序來執行該等方法。 在組件被描述為「經組態以」執行某些操作之情況下,可(例如)藉由設計電子電路或其他硬體以執行操作、藉由程式化可程式化電子電路(例如,微處理器或其他適合之電子電路)以執行操作或其任何組合來實現此組態。 結合本文所揭示之實施例而描述之各種說明性邏輯區塊、模組、電路及演算法步驟可被實施為電子硬體、電腦軟體、韌體或其組合。為了清楚地說明硬體與軟體之此可互換性,各種說明性組件、區塊、模組、電路及步驟已在上文大體按其功能性加以了描述。將此功能性實施為硬體或為軟體視特定應用及強加於整個系統上之設計約束而定。熟習此項技術者可針對每一特定應用以不同方式實施所描述之功能性,但不應將此等實施決策解釋為導致脫離本發明之範疇。 本文中所描述之技術亦可實施於電子硬體、電腦軟體、韌體或其任何組合中。此等技術可實施於多種器件中之任何者中,諸如,通用電腦、無線通信器件手機或具有多種用途(包括在無線通信器件手機及其他器件中之應用)之積體電路器件。可將描述為模組或組件之任何特徵共同實施於整合式邏輯器件中或分開實施為離散但可互操作之邏輯器件。若以軟體實施,則該等技術可至少部分由包含包括當經執行時執行上文所描述方法中之一或多者之指令之程式碼的電腦可讀資料儲存媒體實現。電腦可讀資料儲存媒體可形成電腦程式產品之部分,電腦程式產品可包括封裝材料。電腦可讀媒體可包含記憶體或資料儲存媒體,諸如,隨機存取記憶體(RAM),諸如,同步動態隨機存取記憶體(SDRAM)、唯讀記憶體(ROM)、非揮發性隨機存取記憶體(NVRAM)、電可抹除可程式化唯讀記憶體(EEPROM)、快閃記憶體、磁性或光學資料儲存媒體及其類似者。另外或替代地,該等技術可至少部分地由電腦可讀通信媒體實現,該電腦可讀通信媒體攜載或傳達呈指令或資料結構之形式且可由電腦存取、讀取及/或執行的程式碼,諸如,傳播之信號或波。 程式碼可由可包括一或多個處理器之處理器執行,諸如,一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、場可程式化邏輯陣列(FPGA)或其他等效積體或離散邏輯電路。此處理器可經組態以執行本發明中所描述之技術中之任一者。通用處理器可為微處理器;但在替代例中,處理器可為任何習知處理器、控制器、微控制器或狀態機。處理器亦可經實施為計算器件之組合,例如,一DSP與一微處理器之組合、複數個微處理器、結合DSP核心之一或多個微處理器或任何其他此組態。因此,如本文中所使用之術語「處理器」可指前述結構中之任一者、前述結構之任何組合或適合於實施本文中所描述之技術的任何其他結構或裝置。此外,在一些態樣中,本文中描述之功能性可提供於經組態用於編碼及解碼之專用軟體模組或硬體模組,或併入於組合之視訊編碼器-解碼器(編解碼器)中。
35‧‧‧分割單元41‧‧‧預測處理單元42‧‧‧運動估計單元44‧‧‧運動補償單元46‧‧‧框內預測處理單元50‧‧‧求和器52‧‧‧變換處理單元54‧‧‧量化單元56‧‧‧熵編碼單元57‧‧‧後處理器件58‧‧‧反量化單元60‧‧‧反變換處理單元62‧‧‧求和器63‧‧‧濾波器單元64‧‧‧圖像記憶體79‧‧‧網路實體80‧‧‧熵解碼單元81‧‧‧預測處理單元82‧‧‧運動補償單元84‧‧‧框內預測處理單元86‧‧‧反量化單元88‧‧‧反變換處理單元90‧‧‧求和器91‧‧‧濾波器單元92‧‧‧圖像記憶體100‧‧‧視訊寫碼系統102‧‧‧視訊源104‧‧‧編碼器件106‧‧‧編碼器引擎108‧‧‧儲存器110‧‧‧輸出端112‧‧‧解碼器件114‧‧‧輸入端116‧‧‧解碼器引擎118‧‧‧儲存器120‧‧‧通信鏈路122‧‧‧視訊目的地器件200‧‧‧視訊圖框202‧‧‧視訊圖框300‧‧‧等矩形視訊圖框302A‧‧‧魚眼影像302B‧‧‧魚眼影像400‧‧‧等矩形視訊圖框410‧‧‧球面表示420‧‧‧觀看者430‧‧‧感興趣區(ROI)460‧‧‧視埠462‧‧‧俯仰角464‧‧‧偏航角470‧‧‧向量472‧‧‧球面中心474‧‧‧視埠中心476‧‧‧投影478‧‧‧投影480‧‧‧軸線482‧‧‧中點484‧‧‧中點486‧‧‧中點488‧‧‧中點490‧‧‧俯仰增量角492‧‧‧偏航增量角501‧‧‧區502‧‧‧圓504‧‧‧圓506‧‧‧圓508‧‧‧圓509‧‧‧區516‧‧‧圓518‧‧‧圓520‧‧‧視埠530‧‧‧矩形區602a‧‧‧二維視訊圖框602b‧‧‧二維視訊圖框602n‧‧‧二維視訊圖框700‧‧‧ISO基本媒體檔案710‧‧‧檔案類型框720‧‧‧電影框722‧‧‧電影標頭框724‧‧‧播放軌框724a‧‧‧播放軌標頭框724b‧‧‧媒體框730a‧‧‧電影片段框730b‧‧‧電影片段框730n‧‧‧電影片段框732‧‧‧電影片段框734‧‧‧電影片段標頭框736‧‧‧播放軌片段框738‧‧‧媒體資料框840‧‧‧媒體框842‧‧‧媒體資訊框844‧‧‧樣本表框846‧‧‧樣本描述框848a‧‧‧樣本條目框848n‧‧‧樣本條目框860‧‧‧樣本群組描述框861‧‧‧樣本群組類型條目862‧‧‧樣本至群組框900‧‧‧系統902‧‧‧伺服器904‧‧‧用戶端器件906‧‧‧網路908‧‧‧串流傳輸應用程式910‧‧‧請求處理器920‧‧‧媒體片段檔案940‧‧‧媒體片段檔案960‧‧‧描述檔案1001‧‧‧媒體呈現描述1002‧‧‧適應集合1003‧‧‧表示1004‧‧‧表示1005‧‧‧標頭資訊1006‧‧‧標頭資訊1007‧‧‧媒體片段1008‧‧‧媒體片段1009‧‧‧媒體片段1010‧‧‧媒體片段1100‧‧‧媒體呈現描述(MPD)1102‧‧‧EssentialProperty元素1104‧‧‧SupplementalProperty元素1200‧‧‧處理程序1300‧‧‧處理程序h‧‧‧高度h'‧‧‧高度
下文參考以下圖式詳細描述本發明之說明性實施例: 圖1為說明根據一些實例之編碼器件及解碼器件之實例的方塊圖; 圖2A及圖2B為說明根據一些實例之由使用魚眼透鏡以擷取寬視場之全向攝影機擷取的視訊圖框之實例的圖式; 圖3為說明根據一些實例之等矩形視訊圖框之實例的圖式; 圖4A、圖4B、圖4C、圖4D及圖4E為說明根據一些實例之等矩形視訊圖框及對應於該視訊圖框中之感興趣區(ROI)的視埠之發信號的實例的圖式; 圖5A、圖5B及圖5C為說明根據一些實例之視埠及ROI之定義的實例的圖式; 圖6A及圖6B說明二維視訊圖框及用於二維視訊圖框中之ROI的視埠之發信號的實例; 圖7及圖8提供根據一些實例之含有視埠之發信號資訊的媒體檔案之實例; 圖9為說明根據一些實例之媒體串流傳輸系統之圖式; 圖10提供根據一些實例之MPD檔案的實例之圖形表示; 圖11為說明根據一些實例之對應於MPD檔案中之ROI的視埠之發信號的實例的XML程式碼表示; 圖12及圖13為說明根據一些實例之用於處理視訊資料的實例處理程序之流程圖; 圖14為說明根據一些實例之實例視訊編碼器件之方塊圖;且 圖15為說明根據一些實例之實例視訊解碼器件之方塊圖。
1200‧‧‧處理程序
Claims (42)
- 一種處理視訊資料之方法,該方法包含:獲得與360度視訊資料相關聯之一媒體檔案,該360度視訊資料包括一場景之一球面表示,該媒體檔案包括對應於該球面表示中之一感興趣區(ROI)之一視埠區的第一發信號資訊及第二發信號資訊,該第一發信號資訊包括在與該球面表示相關聯之一球面空間中所量測的該視埠區之一中心位置及一尺寸,且該第二發信號資訊指示包括該視埠區之一圖像的一區,該圖像係藉由將包括該ROI之該球面表示投影至一平面上而形成,該圖像包含複數個圖塊(tiles);基於該第一發信號資訊及該第二發信號資訊而提取來自該圖像之資料的對應於該視埠區之像素;及提供該等像素以顯現該視埠區用於顯示,其中該第二發信號資訊識別該複數個圖塊之圖塊之一最小集合(minimum set),其包括該視埠區,及其中該最小集合係該複數個圖塊之該等圖塊之最少集合(least set),其包括對應於該視埠區之所有像素。
- 如請求項1之方法,其中該第一發信號資訊包括該視埠區之一中心相對於該場景之該球面表示之一球面中心的一第一角及一第二角,該第一角形成於一第一平面上且該第二角形成於一第二平面上,該第一平面垂直於該第二平面。
- 如請求項1之方法,其中該第一發信號資訊進一步包括與該視埠區之一寬度相關聯的一第三角及與該視埠區之一高度相關聯的一第四角。
- 如請求項3之方法,其中該第三角形成於該視埠區之一第一邊緣與一第二邊緣之間;且其中該第四角形成於該視埠區之一第三邊緣與一第四邊緣之間。
- 如請求項2之方法,其中該ROI係由與該球面表示相交的至少四個平面界定;且其中該四個平面中之每一者亦與該球面中心相交。
- 如請求項5之方法,其進一步基於該至少四個平面與該球面表示之該相交而判定該視埠區之一形狀。
- 如請求項6之方法,其中對應於該視埠區之該等像素係基於該形狀而提取。
- 如請求項1之方法,其中該提取包含使用該第一發信號資訊以判定在該經識別之最小集合內之該視埠區之一邊界。
- 如請求項1之方法,其中該第二發信號資訊包括與該圖像中之該一或多個圖塊相關聯的一或多個座標。
- 如請求項1之方法,其中該一或多個圖塊形成一圖塊群組,且其中該 第二發信號資訊包括與該圖塊群組相關聯之一群組識別符。
- 如請求項1之方法,其中該複數個圖塊為運動受限之圖塊。
- 如請求項1之方法,其中該第二發信號資訊包括與一視埠區內的藉由將該ROI投影於一平面上所形成之一預定位置相關聯的像素座標、該視埠區之一寬度及該視埠區之一高度。
- 如請求項1之方法,其中該媒體檔案係基於一國際標準組織(ISO)基本媒體檔案格式(ISOBMFF)。
- 如請求項13之方法,其中該媒體檔案識別包括對應於該場景之該球面表示之一視訊樣本的一樣本群組;且其中該第一發信號資訊及該第二發信號資訊包括於該樣本群組之一或多個語法元素中。
- 如請求項1之方法,其中:該媒體檔案係基於一媒體呈現描述(MPD)格式且包括一或多個適應集合;該一或多個適應集合中之每一者包括一或多個表示;及該第一發信號資訊、該第二發信號資訊及至該圖像之一鏈接包括在與包括於該一或多個表示中之該ROI相關聯的一或多個元素中;且其中該方法包含:基於包括於該媒體檔案中之該鏈接而獲得該圖像。
- 如請求項15之方法,其中該一或多個表示為基於圖塊之表示,且其中該第二發信號資訊包括與包括在該等基於圖塊之表示中所包括的該ROI之圖塊相關聯的識別符。
- 如請求項1之方法,其中該場景之該球面表示係使用一直線投影而投影至該平面上。
- 如請求項1之方法,其進一步包含:基於該第一發信號資訊及該第二發信號資訊而提取來自該圖像之多個ROI的像素。
- 一種用於處理視訊資料之裝置,其包含:一記憶體,其經組態以儲存360度視訊資料;及一處理器,其經組態以執行以下操作:獲得與該360度視訊資料相關聯之一媒體檔案,該360度視訊資料包括一場景之一球面表示,該媒體檔案包括對應於該球面表示中之一感興趣區(ROI)之一視埠區的第一發信號資訊及第二發信號資訊,該第一發信號資訊包括在與該球面表示相關聯之一球面空間中所量測的該視埠區之一中心位置及一尺寸,且該第二發信號資訊指示包括該視埠區之一圖像的一區,該圖像係藉由將包括該ROI之該球面表示投影至一平面上而形成,該圖像包含複數個圖塊;基於該第一發信號資訊及該第二發信號資訊而提取來自該圖像之資料的對應於該視埠區之像素;及 提供該等像素以顯現該視埠區用於顯示,其中該第二發信號資訊識別該複數個圖塊之圖塊之一最小集合,其包括該視埠區,及其中該最小集合係該複數個圖塊之該等圖塊之最少集合(least set),其包括對應於該視埠區之所有像素。
- 如請求項19之裝置,其中該處理器經進一步組態以:自該第一發信號資訊判定該視埠區之一中心相對於該場景之該球面表示之一球面中心的一第一角及一第二角,該第一角形成於一第一平面上且該第二角形成於一第二平面上,該第一平面垂直於該第二平面。
- 如請求項19之裝置,其中該處理器經進一步組態以:自該第一發信號資訊判定與該視埠區之一寬度相關聯的一第三角及與該視埠區之一高度相關聯的一第四角。
- 如請求項20之裝置,其中該第三角形成於該視埠區之一第一邊緣與一第二邊緣之間;且其中該第四角形成於該視埠區之一第三邊緣與一第四邊緣之間。
- 如請求項19之裝置,其中該ROI係由與該球面表示相交的至少四個平面界定;且其中該四個平面中之每一者亦與該球面中心相交。
- 如請求項23之裝置,其中該處理器經進一步組態以基於該至少四個 平面與該球面表示之該相交而判定該視埠區之一形狀。
- 如請求項24之裝置,其中該處理器經組態以基於該形狀而提取對應於該視埠區之該等像素。
- 如請求項19之裝置,其中經組態以提取該等像素之該處理器係經組態以使用該第一發信號資訊以判定在該經識別之最小集合內之該視埠區之一邊界。
- 如請求項19之裝置,其中該處理器經進一步組態以自該第二發信號資訊判定與該圖像中之該一或多個圖塊相關聯的一或多個座標。
- 如請求項19之裝置,其中該一或多個圖塊形成一圖塊群組,且其中該處理器經進一步組態以自該第二發信號資訊判定與該圖塊群組相關聯之一群組識別符。
- 如請求項19之裝置,其中該複數個圖塊為運動受限之圖塊。
- 如請求項19之裝置,其中該處理器經進一步組態以自該第二發信號資訊判定與一視埠區內的藉由將該ROI投影於一平面上所形成之一預定位置相關聯的像素座標、該視埠區之一寬度及該視埠區之一高度。
- 如請求項19之裝置,其中該媒體檔案係基於一國際標準組織(ISO)基 本媒體檔案格式(ISOBMFF)。
- 如請求項31之裝置,其中該媒體檔案識別包括對應於該場景之該球面表示之一視訊樣本的一樣本群組;且其中該處理器經進一步組態以自該樣本群組之一或多個語法元素提取該第一發信號資訊及該第二發信號資訊。
- 如請求項19之裝置,其中:該媒體檔案係基於一媒體呈現描述(MPD)格式且包括一或多個適應集合;該一或多個適應集合中之每一者包括一或多個表示;及其中該處理器進一步經組態以執行以下操作:基於與包括於該一或多個表示中之該ROI相關聯的一或多個元素而判定該第一發信號資訊、該第二發信號資訊及至該圖像至一鏈接;及基於包括於該媒體檔案中之該鏈接而獲得該圖像。
- 如請求項33之裝置,其中該一或多個表示為基於圖塊之表示,且其中該處理器經組態以基於該第二發信號資訊而判定與包括在該等基於圖塊之表示中所包括的該ROI之圖塊相關聯之識別符。
- 如請求項19之裝置,其中該場景之該球面表示係使用一直線投影而投影至該平面上。
- 如請求項19之裝置,其中該處理器經進一步組態以基於該第一發信號資訊及該第二發信號資訊而提取來自該圖像之多個ROI的像素。
- 如請求項19之裝置,其中該裝置包含具有用以擷取該360度視訊資料之一或多個攝影機的一行動器件。
- 如請求項19之裝置,其中該裝置包含用以顯現該視埠區之一顯示器。
- 一種非暫時性電腦可讀媒體,其上儲存有在由一或多個處理器執行時使得該一或多個處理器執行以下操作之指令:獲得與360度視訊資料相關聯之一媒體檔案,該360度視訊資料包括一場景之一球面表示,該媒體檔案包括對應於該球面表示中之一感興趣區(ROI)之一視埠區的第一發信號資訊及第二發信號資訊,該第一發信號資訊包括在與該球面表示相關聯之一球面空間中所量測的該視埠區之一中心位置及一尺寸,且該第二發信號資訊指示包括該視埠區之一圖像的一區,該圖像係藉由將包括該ROI之該球面表示投影至一平面上而形成,該圖像包含複數個圖塊;基於該第一發信號資訊及該第二發信號資訊而提取來自該圖像之資料的對應於該視埠區之像素;及提供該等像素以顯現該視埠區用於顯示,其中該第二發信號資訊識別該複數個圖塊之圖塊之一最小集合,其 包括該視埠區,及其中該最小集合係該複數個圖塊之該等圖塊之最少集合(least set),其包括對應於該視埠區之所有像素。
- 一種處理視訊資料之方法,該方法包含:獲得360度視訊資料,該360度視訊資料包括一場景之一球面表示;判定該場景之該球面表示中之一感興趣區(ROI);產生一媒體檔案,該媒體檔案包括對應於該ROI之一視埠區的第一發信號資訊及第二發信號資訊,該第一發信號資訊包括在與該球面表示相關聯之一球面空間中所量測的該視埠區之一中心位置及一尺寸,且該第二發信號資訊指示包括該視埠區之一圖像的一區,其中該圖像係藉由將包括該ROI之該球面表示投影至一平面上而形成,該圖像包含複數個圖塊;及提供該媒體檔案以用於顯現該360度視訊資料或用於傳輸包括至少該ROI之該360度視訊資料的一部分,其中該第二發信號資訊識別該複數個圖塊之圖塊之一最小集合,其包括該視埠區,及其中該最小集合係該複數個圖塊之該等圖塊之最少集合(least set),其包括對應於該視埠區之所有像素。
- 一種用於處理視訊資料之裝置,其包含:一記憶體,其經組態以儲存360度視訊資料;及一處理器,其經組態以執行以下操作:獲得360度視訊資料,該360度視訊資料包括一場景之一球面表 示;判定該場景之該球面表示中之一感興趣區(ROI);產生一媒體檔案,該媒體檔案包括對應於該ROI之一視埠區的第一發信號資訊及第二發信號資訊,該第一發信號資訊包括在與該球面表示相關聯之一球面空間中所量測的該視埠區之一中心位置及一尺寸,且該第二發信號資訊指示包括該視埠區之一圖像的一區,其中該圖像係藉由將包括該ROI之該球面表示投影至一平面上而形成,該圖像包含複數個圖塊;及提供該媒體檔案以用於顯現該360度視訊資料或用於傳輸包括至少該ROI之該360度視訊資料的一部分,其中該第二發信號資訊識別該複數個圖塊之圖塊之一最小集合,其包括該視埠區,及其中該最小集合係該複數個圖塊之該等圖塊之最少集合(least set),其包括對應於該視埠區之所有像素。
- 一種非暫時性電腦可讀媒體,其上儲存有在由一或多個處理器執行時使得該一或多個處理器執行以下操作之指令:獲得360度視訊資料,該360度視訊資料包括一場景之一球面表示;判定該場景之該球面表示中之一感興趣區(ROI);產生一媒體檔案,該媒體檔案包括對應於該ROI之一視埠區的第一發信號資訊及第二發信號資訊,該第一發信號資訊包括在與該球面表示相關聯之一球面空間中所量測的該視埠區之一中心位置及一尺寸,且該第二發信號資訊指示包括該視埠區之一圖像的一區,其中該圖像係藉由將包括該 ROI之該球面表示投影至一平面上而形成,該圖像包含複數個圖塊;及提供該媒體檔案以用於顯現該360度視訊資料或用於傳輸包括至少該ROI之該360度視訊資料的一部分,其中該第二發信號資訊識別該複數個圖塊之圖塊之一最小集合,其包括該視埠區,及其中該最小集合係該複數個圖塊之該等圖塊之最少集合(least set),其包括對應於該視埠區之所有像素。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662431375P | 2016-12-07 | 2016-12-07 | |
US62/431,375 | 2016-12-07 | ||
US15/828,281 | 2017-11-30 | ||
US15/828,281 US10652553B2 (en) | 2016-12-07 | 2017-11-30 | Systems and methods of signaling of regions of interest |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201824865A TW201824865A (zh) | 2018-07-01 |
TWI712313B true TWI712313B (zh) | 2020-12-01 |
Family
ID=62243662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW106142641A TWI712313B (zh) | 2016-12-07 | 2017-12-06 | 感興趣區之發信號之系統及方法 |
Country Status (8)
Country | Link |
---|---|
US (1) | US10652553B2 (zh) |
EP (1) | EP3552394A1 (zh) |
JP (1) | JP6799159B2 (zh) |
KR (1) | KR102204178B1 (zh) |
CN (1) | CN110024400B (zh) |
BR (1) | BR112019010875A2 (zh) |
TW (1) | TWI712313B (zh) |
WO (1) | WO2018106548A1 (zh) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102551239B1 (ko) * | 2015-09-02 | 2023-07-05 | 인터디지털 씨이 페이튼트 홀딩스, 에스에이에스 | 확장된 장면에서의 내비게이션을 용이하게 하기 위한 방법, 장치 및 시스템 |
US10560660B2 (en) | 2017-01-04 | 2020-02-11 | Intel Corporation | Rectilinear viewport extraction from a region of a wide field of view using messaging in video transmission |
US10742999B2 (en) * | 2017-01-06 | 2020-08-11 | Mediatek Inc. | Methods and apparatus for signaling viewports and regions of interest |
WO2018131813A1 (en) * | 2017-01-10 | 2018-07-19 | Samsung Electronics Co., Ltd. | Method and apparatus for generating metadata for 3d images |
US10560680B2 (en) * | 2017-01-28 | 2020-02-11 | Microsoft Technology Licensing, Llc | Virtual reality with interactive streaming video and likelihood-based foveation |
US11277635B2 (en) * | 2017-03-17 | 2022-03-15 | Vid Scale, Inc. | Predictive coding for 360-degree video based on geometry padding |
CN117560504A (zh) | 2017-03-17 | 2024-02-13 | Vid拓展公司 | 基于几何图形填充的用于360度视频的预测编码 |
US10643301B2 (en) * | 2017-03-20 | 2020-05-05 | Qualcomm Incorporated | Adaptive perturbed cube map projection |
KR102277267B1 (ko) * | 2017-03-29 | 2021-07-14 | 엘지전자 주식회사 | 360 비디오를 전송하는 방법, 360 비디오를 수신하는 방법, 360 비디오 전송 장치, 360 비디오 수신 장치 |
US10506255B2 (en) * | 2017-04-01 | 2019-12-10 | Intel Corporation | MV/mode prediction, ROI-based transmit, metadata capture, and format detection for 360 video |
EP3646604B1 (en) * | 2017-06-30 | 2024-10-16 | InterDigital VC Holdings, Inc. | Weighted to spherically uniform psnr for 360-degree video quality evaluation using cubemap-based projections |
US11202117B2 (en) * | 2017-07-03 | 2021-12-14 | Telefonaktiebolaget Lm Ericsson (Publ) | Methods for personalized 360 video delivery |
US10217488B1 (en) | 2017-12-15 | 2019-02-26 | Snap Inc. | Spherical video editing |
US20190385372A1 (en) * | 2018-06-15 | 2019-12-19 | Microsoft Technology Licensing, Llc | Positioning a virtual reality passthrough region at a known distance |
US11032590B2 (en) | 2018-08-31 | 2021-06-08 | At&T Intellectual Property I, L.P. | Methods, devices, and systems for providing panoramic video content to a mobile device from an edge server |
US10826964B2 (en) | 2018-09-05 | 2020-11-03 | At&T Intellectual Property I, L.P. | Priority-based tile transmission system and method for panoramic video streaming |
US10779014B2 (en) | 2018-10-18 | 2020-09-15 | At&T Intellectual Property I, L.P. | Tile scheduler for viewport-adaptive panoramic video streaming |
US11184461B2 (en) | 2018-10-23 | 2021-11-23 | At&T Intellectual Property I, L.P. | VR video transmission with layered video by re-using existing network infrastructures |
CN113545094A (zh) | 2019-03-15 | 2021-10-22 | 索尼集团公司 | 运动图像分发系统、运动图像分发方法以及显示终端 |
EP3973684A1 (en) | 2019-05-20 | 2022-03-30 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Immersive media content presentation and interactive 360° video communication |
CN110618398B (zh) | 2019-09-24 | 2020-09-29 | 深圳市拜洛克科技有限公司 | 基于uwb定位技术控制粉丝棒发光的方法 |
US11190786B2 (en) * | 2019-09-24 | 2021-11-30 | At&T Intellectual Property I, L.P. | Transcoding ultra-high-definition panoramic videos |
CN112511866B (zh) * | 2019-12-03 | 2024-02-23 | 中兴通讯股份有限公司 | 媒体资源播放方法、装置、设备和存储介质 |
US11816757B1 (en) * | 2019-12-11 | 2023-11-14 | Meta Platforms Technologies, Llc | Device-side capture of data representative of an artificial reality environment |
US11991376B2 (en) * | 2020-04-09 | 2024-05-21 | Intel Corporation | Switchable scalable and multiple description immersive video codec |
KR102412410B1 (ko) * | 2020-07-14 | 2022-06-23 | 성균관대학교산학협력단 | 타일 기반 360도 영상 전송 방법 및 장치 |
CN112163990B (zh) * | 2020-09-08 | 2022-10-25 | 上海交通大学 | 360度图像的显著性预测方法及系统 |
CN112055263B (zh) * | 2020-09-08 | 2021-08-13 | 西安交通大学 | 基于显著性检测的360°视频流传输系统 |
CN112511896A (zh) * | 2020-11-05 | 2021-03-16 | 浙江大华技术股份有限公司 | 一种视频渲染方法及装置 |
EP4064691A1 (en) * | 2021-03-23 | 2022-09-28 | Ricoh Company, Ltd. | Communication management device, image communication system, communication management method, and carrier means |
US20230019723A1 (en) * | 2021-07-14 | 2023-01-19 | Rovi Guides, Inc. | Interactive supplemental content system |
CN113470127B (zh) * | 2021-09-06 | 2021-11-26 | 成都国星宇航科技有限公司 | 基于星载云检测的光学图像有效压缩方法 |
WO2023058258A1 (ja) * | 2021-10-05 | 2023-04-13 | ソニーグループ株式会社 | 画像処理システム、並びに、画像処理装置および方法 |
US11893699B2 (en) | 2022-03-15 | 2024-02-06 | Zeality Inc | Method and processing unit for providing content in a bandwidth constrained environment |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9344612B2 (en) * | 2006-02-15 | 2016-05-17 | Kenneth Ira Ritchey | Non-interference field-of-view support apparatus for a panoramic facial sensor |
US20160234144A1 (en) * | 2015-02-09 | 2016-08-11 | Nokia Technologies Oy | Apparatus, a method and a computer program for image coding and decoding |
TW201817231A (zh) * | 2016-10-12 | 2018-05-01 | 美商高通公司 | 產生及處理用於部份解碼及最感興趣之區域的檔案的系統及方法 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003141562A (ja) * | 2001-10-29 | 2003-05-16 | Sony Corp | 非平面画像の画像処理装置及び画像処理方法、記憶媒体、並びにコンピュータ・プログラム |
US7103212B2 (en) * | 2002-11-22 | 2006-09-05 | Strider Labs, Inc. | Acquisition of three-dimensional images by an active stereo technique using locally unique patterns |
US9025933B2 (en) * | 2010-02-12 | 2015-05-05 | Sony Corporation | Information processing device, information processing method, playback device, playback method, program and recording medium |
CN103096014B (zh) * | 2011-10-28 | 2016-03-30 | 华为技术有限公司 | 一种视频呈现方法和系统 |
EP3008896B1 (en) * | 2013-07-15 | 2021-03-31 | Sony Corporation | Extensions of motion-constrained tile sets sei message for interactivity |
US10721530B2 (en) * | 2013-07-29 | 2020-07-21 | Koninklijke Kpn N.V. | Providing tile video streams to a client |
US9497358B2 (en) * | 2013-12-19 | 2016-11-15 | Sony Interactive Entertainment America Llc | Video latency reduction |
WO2015197818A1 (en) * | 2014-06-27 | 2015-12-30 | Koninklijke Kpn N.V. | Hevc-tiled video streaming |
WO2015197815A1 (en) * | 2014-06-27 | 2015-12-30 | Koninklijke Kpn N.V. | Determining a region of interest on the basis of a hevc-tiled video stream |
JP6566698B2 (ja) * | 2015-04-13 | 2019-08-28 | キヤノン株式会社 | 表示制御装置および表示制御方法 |
WO2017116952A1 (en) * | 2015-12-29 | 2017-07-06 | Dolby Laboratories Licensing Corporation | Viewport independent image coding and rendering |
EP3466079B1 (en) * | 2016-05-24 | 2023-07-12 | Nokia Technologies Oy | Method and an apparatus and a computer program for encoding media content |
US10360721B2 (en) * | 2016-05-26 | 2019-07-23 | Mediatek Inc. | Method and apparatus for signaling region of interests |
WO2018068213A1 (zh) * | 2016-10-10 | 2018-04-19 | 华为技术有限公司 | 一种视频数据的处理方法及装置 |
-
2017
- 2017-11-30 US US15/828,281 patent/US10652553B2/en active Active
- 2017-12-01 JP JP2019529241A patent/JP6799159B2/ja active Active
- 2017-12-01 CN CN201780072135.0A patent/CN110024400B/zh active Active
- 2017-12-01 WO PCT/US2017/064349 patent/WO2018106548A1/en unknown
- 2017-12-01 EP EP17817996.6A patent/EP3552394A1/en active Pending
- 2017-12-01 BR BR112019010875A patent/BR112019010875A2/pt not_active IP Right Cessation
- 2017-12-01 KR KR1020197016344A patent/KR102204178B1/ko active IP Right Grant
- 2017-12-06 TW TW106142641A patent/TWI712313B/zh not_active IP Right Cessation
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9344612B2 (en) * | 2006-02-15 | 2016-05-17 | Kenneth Ira Ritchey | Non-interference field-of-view support apparatus for a panoramic facial sensor |
US20160234144A1 (en) * | 2015-02-09 | 2016-08-11 | Nokia Technologies Oy | Apparatus, a method and a computer program for image coding and decoding |
TW201817231A (zh) * | 2016-10-12 | 2018-05-01 | 美商高通公司 | 產生及處理用於部份解碼及最感興趣之區域的檔案的系統及方法 |
Also Published As
Publication number | Publication date |
---|---|
EP3552394A1 (en) | 2019-10-16 |
JP2020501436A (ja) | 2020-01-16 |
BR112019010875A2 (pt) | 2019-10-01 |
US10652553B2 (en) | 2020-05-12 |
JP6799159B2 (ja) | 2020-12-09 |
CN110024400B (zh) | 2021-08-24 |
TW201824865A (zh) | 2018-07-01 |
WO2018106548A1 (en) | 2018-06-14 |
CN110024400A (zh) | 2019-07-16 |
KR102204178B1 (ko) | 2021-01-15 |
US20180160123A1 (en) | 2018-06-07 |
KR20190091275A (ko) | 2019-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI712313B (zh) | 感興趣區之發信號之系統及方法 | |
US10917564B2 (en) | Systems and methods of generating and processing files for partial decoding and most interested regions | |
US11062738B2 (en) | Signalling of video content including sub-picture bitstreams for video coding | |
TWI712309B (zh) | 容器檔案及視訊位元串流中關注區域之增強信令傳輸 | |
JP6676771B2 (ja) | メディアファイルにおけるバーチャルリアリティビデオの記憶 | |
US11532128B2 (en) | Advanced signaling of regions of interest in omnidirectional visual media | |
US11438600B2 (en) | Immersive media metrics for virtual reality content with multiple viewpoints | |
TW201838407A (zh) | 適應性擾動立方體之地圖投影 | |
TW201742444A (zh) | 虛擬實境中之圓形魚眼視訊 | |
CN113574903B (zh) | 针对媒体内容中的后期绑定的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |