TW201810998A - 在圖像中最感興趣之區域 - Google Patents

在圖像中最感興趣之區域 Download PDF

Info

Publication number
TW201810998A
TW201810998A TW106115436A TW106115436A TW201810998A TW 201810998 A TW201810998 A TW 201810998A TW 106115436 A TW106115436 A TW 106115436A TW 106115436 A TW106115436 A TW 106115436A TW 201810998 A TW201810998 A TW 201810998A
Authority
TW
Taiwan
Prior art keywords
interest
regions
interesting
data
areas
Prior art date
Application number
TW106115436A
Other languages
English (en)
Inventor
益魁 王
伏努 亨利
Original Assignee
高通公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 高通公司 filed Critical 高通公司
Publication of TW201810998A publication Critical patent/TW201810998A/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/162User input
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/164Feedback from the receiver or from the transmission channel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234345Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements the reformatting operation being performed only on part of the stream, e.g. a region of the image or a time segment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8146Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Graphics (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本發明提供一種用以判定用於視訊資料之資訊的器件,該器件包括實施於電路中之一或多個處理器,該一或多個處理器經組態以基於表示一視訊資料影像之複數個區域中之一或多個最感興趣之區域的資料來判定該一或多個最感興趣之區域。表示該一或多個最感興趣之區域的該資料係在包括該視訊資料之一位元串流之視訊寫碼層(VCL)資料外部。該等處理器輸出對用於該影像之該一或多個最感興趣之區域的相對高品質視訊資料之一請求,且在輸出對該相對高品質視訊資料之該請求後,輸出對用於該影像之一或多個其他區域的相對低品質視訊資料之一請求。

Description

在圖像中最感興趣之區域
本發明係關於經編碼視訊資料之儲存及輸送。
數位視訊能力可併入至廣泛範圍的器件中,包括數位電視、數位直播系統、無線廣播系統、個人數位助理(PDA)、膝上型或桌上型電腦、數位攝影機、數位記錄器件、數位媒體播放器、視訊遊戲器件、視訊遊戲控制台、蜂巢式或衛星無線電電話、視訊電話會議器件及類似者。數位視訊器件實施視訊壓縮技術,諸如由MPEG-2、MPEG-4、ITU-T H.263或ITU-T H.264/MPEG-4第10部分進階視訊寫碼(AVC)、ITU-T H.265 (亦稱為高效視訊寫碼(HEVC))定義之標準及此等標準之擴展中所描述的彼等技術,以更有效地傳輸及接收數位視訊資訊。 視訊壓縮技術執行空間預測及/或時間預測以減少或移除視訊序列中所固有之冗餘。對於基於區塊之視訊寫碼,可將視訊訊框或圖塊分割成巨集區塊或寫碼樹單元(CTU)。在此文件之剩餘部分中,可互換地使用兩個術語巨集區塊與CTU。可進一步分割每一巨集區塊。使用相對於相鄰巨集區塊之空間預測來編碼經框內寫碼(I)之訊框或圖塊中之巨集區塊。經框間寫碼(P或B)訊框或圖塊中之巨集區塊可使用相對於同一訊框或圖塊中之相鄰巨集區塊的空間預測或相對於其他參考訊框的時間預測。 在已編碼視訊資料之後,可將視訊資料封包化以供傳輸或儲存。可將視訊資料組譯成符合多種標準中之任一者的視訊檔案,該等標準諸如國際標準化組織(ISO)基本媒體檔案格式及其擴展,諸如AVC檔案格式。 在已封包化視訊資料以供傳輸或儲存之後,用戶端器件可以適合品質請求經封包化視訊資料。舉例而言,用戶端器件可在用戶端器件與傳輸經封包化視訊之數位視訊器件之間的頻寬較高時以相對高品質請求經封包化視訊資料,且在用戶端器件與傳輸經封包化視訊之數位視訊器件之間的頻寬較低時以相對低品質請求經封包化視訊資料。
一般而言,本發明描述用於產生包括表示視訊資料影像之一或多個最感興趣之區域之資料的位元串流之技術。一影像之一或多個最感興趣之區域與該影像之其他區域相比在該影像之呈現時間更可能呈現給使用者。一器件可使用一或多個最感興趣之區域以預提取用於該一或多個最感興趣之區域的視訊資料。舉例而言,該器件可以比用於該影像之其他區域的視訊資料更低的延時及/或更高的品質提取用於一或多個最感興趣之區域的視訊資料,其中該器件可指代含有視訊解碼器之實體、諸如內容遞送網路(CDN)節點之網路元件或另一實體。 在一個實例中,一種判定用於視訊資料之資訊的方法包括藉由用戶端器件之處理器(該處理器實施於電路中)基於表示視訊資料影像之複數個區域中之一或多個最感興趣之區域的資料來判定該一或多個最感興趣之區域。表示該一或多個最感興趣之區域的資料係在包括視訊資料之位元串流之視訊寫碼層(VCL)資料外部。該方法進一步包括藉由用戶端器件之處理器輸出對用於影像之一或多個最感興趣之區域的相對高品質視訊資料之請求,以及在輸出對該相對高品質視訊資料之請求後,藉由用戶端器件之處理器輸出對用於該影像之一或多個其他區域的相對低品質視訊資料之請求。 在另一實例中,一種用以判定用於視訊資料之資訊的器件包括實施於電路中之一或多個處理器,該一或多個處理器經組態以基於表示視訊資料影像之複數個區域中之一或多個最感興趣之區域的資料來判定該一或多個最感興趣之區域。表示該一或多個最感興趣之區域的資料係在包括視訊資料之位元串流之VCL資料外部。該一或多個處理器經進一步組態以輸出對用於影像之一或多個最感興趣之區域的相對高品質視訊資料之請求,且在輸出對該相對高品質視訊資料之請求後輸出對用於該影像之一或多個其他區域的相對低品質視訊資料之請求。 在另一實例中,一種用以判定用於視訊資料之資訊的器件包括用於基於表示視訊資料影像之複數個區域中之一或多個最感興趣之區域的資料來判定該一或多個最感興趣之區域的構件。表示該一或多個最感興趣之區域的資料係在包括視訊資料之位元串流之VCL資料外部。該器件進一步包括用於輸出對用於影像之一或多個最感興趣之區域的相對高品質視訊資料之請求的構件,以及用於在輸出對該相對高品質視訊資料之請求後輸出對用於該影像之一或多個其他區域的相對低品質視訊資料之請求的構件。 在另一實例中,一種電腦程式產品包括包含指令之電腦可讀儲存媒體,該等指令在經執行時使得用以判定用於視訊資料之資訊的源器件之處理器基於表示視訊資料影像之複數個區域中之一或多個最感興趣之區域的資料來判定該一或多個最感興趣之區域。表示該一或多個最感興趣之區域的資料係在包括視訊資料之位元串流之VCL資料外部。該等指令進一步使得該處理器輸出對用於影像之一或多個最感興趣之區域的相對高品質視訊資料之請求,且在輸出對用於該相對高品質視訊資料之請求後輸出對該影像之一或多個其他區域的相對低品質視訊資料之請求。 在另一實例中,一種傳信用於視訊資料之資訊的方法包括藉由源器件之處理器(該處理器實施於電路中)判定視訊資料影像之複數個區域中一或多個最感興趣之區域。該一或多個最感興趣之區域包含最可能由用戶端器件擷取之一或多個區域。該方法進一步包括藉由源器件之處理器產生表示該一或多個最感興趣之區域的資料。表示該一或多個最感興趣之區域的資料係在包括視訊資料之位元串流之VCL資料外部。 在另一實例中,一種用以傳信用於視訊資料之資訊的器件包括實施於電路中之一或多個處理器,該一或多個處理器經組態以判定視訊資料影像之複數個區域中之一或多個最感興趣之區域。該一或多個最感興趣之區域包括最可能由用戶端器件擷取之區域。該一或多個處理器經進一步組態以產生表示該一或多個最感興趣之區域的資料。表示該一或多個最感興趣之區域的資料係在包括視訊資料之位元串流之VCL資料外部。 在另一實例中,一種用以傳信用於視訊資料之資訊的器件包括用於判定視訊資料影像之複數個區域中之一或多個最感興趣之區域的構件。該一或多個最感興趣之區域包含最可能由用戶端器件擷取之一或多個區域。該器件進一步包括用於產生表示該一或多個最感興趣之區域的資料的構件。表示該一或多個最感興趣之區域的資料係在包括視訊資料之位元串流之VCL資料外部。 在另一實例中,一種電腦程式產品包括包含指令之電腦可讀儲存媒體,該等指令使得處理器判定視訊資料影像之複數個區域中之一或多個最感興趣之區域。該一或多個最感興趣之區域包含最可能由用戶端器件擷取之一或多個區域。該等指令進一步使得該處理器產生表示該一或多個最感興趣之區域的資料。表示該一或多個最感興趣之區域的資料係在包括視訊資料之位元串流之VCL資料外部。 在以下附圖及描述中闡述一或多個實例之細節。其他特徵、目標及優點將自該描述及圖式以及申請專利範圍顯而易見。
本申請案主張2016年5月19日申請之美國臨時申請案第62/339,009號之權益,該申請案在此以其全文引用之方式併入。 本發明係關於虛擬實境(VR)。更具體言之,本發明揭示用於創建VR視訊中一或多個最感興趣之區域之集合,傳信最感興趣之區域的資訊,以及使用該資訊來編碼、串流、播放及管理VR視訊內容的一些方法。 一般而言,本發明描述用於產生包括表示視訊資料影像中一或多個最感興趣之區域之資料的視訊內容之技術。導演或製作人可選擇一或多個最感興趣之區域,或計算器件可根據服務提供者或內容提供者提供之使用者統計資料推導一或多個最感興趣之區域,例如經由在經由串流服務提供全向視訊內容時使用者請求/觀看最多之區域的統計資料。在任何情況下,用戶端器件可使用一或多個最感興趣之區域來預提取用於該一或多個最感興趣之區域的視訊資料以改良視訊之播放,該視訊諸如虛擬實境視訊,其亦被稱作360視訊。 具體言之,用戶端器件可(例如)使用在用於傳輸位元串流之視訊寫碼層資料的標頭或訊息中接收之資訊來判定表示一或多個最感興趣之區域的資料。在根據表示該一或多個最感興趣之區域的資料判定該一或多個最感興趣之區域後,用戶端器件可以相對高品質請求一或多個最感興趣之區域。在以相對高品質請求一或多個最感興趣之區域後,用戶端器件可基於使用者之視場(FOV)以比高品質相對更低的品質請求該影像之一或多個其他區域。以此方式,一或多個最感興趣之區域可經預提取(例如,在接收使用者之FOV前經提取)以准許以高品質接收一或多個最感興趣之區域,藉此改良視訊(諸如虛擬實境視訊)之播放。亦即,一器件可使用一或多個最感興趣之區域來預提取用於該一或多個最感興趣之區域的視訊資料。舉例而言,該器件可以比用於該影像之其他區域的視訊資料更低的延時及/或更高的品質提取用於一或多個最感興趣之區域的視訊資料,其中該器件可指代含有視訊解碼器之實體、諸如內容遞送網路(CDN)節點之網路元件或另一實體。 本發明之技術可應用於符合根據以下中之任一者囊封之視訊資料的視訊檔案:ISO基本媒體檔案格式、可調式視訊寫碼(SVC)檔案格式、進階視訊寫碼(AVC)檔案格式、第三代合作夥伴計劃(3GPP)檔案格式及/或多視圖視訊寫碼(MVC)檔案格式或其他類似視訊檔案格式。 在HTTP串流中,經常使用之操作包括HEAD、GET及部分GET。HEAD操作擷取與給定統一資源定位符(URL)或統一資源名稱(URN)相關聯之檔案的標頭,但不擷取與該URL或URN相關聯之有效負載。GET操作擷取與給定URL或URN相關聯之整個檔案。部分GET操作接收位元組範圍作為輸入參數且擷取檔案之連續數目個位元組,其中位元組數目對應於所接收之位元組範圍。因此,可提供電影片段以用於HTTP串流,此係因為部分GET操作可得到一或多個單獨的電影片段。在一電影片段中,可存在具有不同播放軌之若干播放軌片段。在HTTP串流中,媒體呈現可為用戶端可存取之資料的結構化集合。用戶端可請求且下載媒體資料資訊以向使用者呈現串流服務。 在使用HTTP串流來串流3GPP資料之實例中,可能存在用於多媒體內容之視訊及/或音訊資料的多個表示。如下文所解釋,不同表示可對應於不同寫碼特徵(例如,視訊寫碼標準之不同設定檔或層級)、不同寫碼標準或寫碼標準之擴展(諸如多視圖及/或可調式擴展)或不同位元速率。此等表示之資訊清單可在媒體呈現描述(MPD)資料結構中加以定義。媒體呈現可對應於HTTP串流用戶端器件可存取之資料的結構化集合。HTTP串流用戶端器件可請求且下載媒體資料資訊以向用戶端器件之使用者呈現串流服務。媒體呈現可在MPD資料結構中加以描述,該資料結構可包括MPD之更新。 媒體呈現可含有一或多個週期之序列。每一週期可延長至下一週期之開始,或在最後一週期的情況下延長至媒體呈現之結束。每一週期可含有同一媒體內容之一或多個表示。表示可為音訊、視訊、計時文字或其他此類資料之多種替代性經編碼版本中之一者。各表示之區別可在於編碼類型,例如,用於視訊資料之位元速率、解析度及/或編解碼器以及用於音訊資料之位元速率、語言及/或編解碼器。術語表示可用於指經編碼音訊或視訊資料中對應於多媒體內容之特定週期且以特定方式編碼的部分。 特定週期之表示可經指派至由MPD中指示該等表示所屬之適應集合的屬性指示之群組。同一適應集合中之表示通常被視為彼此之替代者,此係因為用戶端器件可在此等表示之間動態且無縫地切換例如以執行頻寬適應。舉例而言,特定週期之視訊資料的每一表示可經指派至同一適應集合,以使得可選擇該等表示中之任一者進行解碼以呈現對應週期之多媒體內容的媒體資料(諸如視訊資料或音訊資料)。在一些實例中,一個週期內之媒體內容可由來自群組0 (若存在)之一個表示來表示或由來自每一非零群組的至多一個表示之組合來表示。一週期之每一表示之時序資料可相對於該週期之開始時間來表達。 一表示可包括一或多個區段。每一表示可包括初始化區段,或表示中之每一區段可自初始化。當存在時,初始化區段可含有用於存取表示之初始化資訊。一般而言,初始化區段不含有媒體資料。區段可由識別符唯一地參考,該識別符諸如統一資源定位符(URL)、統一資源名稱(URN)或統一資源識別符(URI)。MPD可提供用於每一區段之識別符。在一些實例中,MPD亦可提供呈範圍屬性之形式的位元組範圍,其可對應於可藉由URL、URN或URI存取之檔案內之區段的資料。 可選擇不同表示以用於實質上同時擷取不同類型之媒體資料。舉例而言,用戶端器件可選擇自其擷取區段之音訊表示、視訊表示及計時文字表示。在一些實例中,用戶端器件可選擇特定適應集合以用於執行頻寬適應。亦即,用戶端器件可選擇包括視訊表示之適應集合、包括音訊表示之適應集合及/或包括計時文字之適應集合。替代地,用戶端器件可選擇用於某些類型之媒體(例如,視訊)之適應集合,而直接選擇用於其他類型之媒體(例如,音訊及/或計時文字)之表示。 圖1為說明實施用於經由網路來串流媒體資料之技術的實例系統10的方塊圖。在此實例中,系統10包括內容準備器件20、伺服器器件60及用戶端器件40。用戶端器件40與伺服器器件60藉由網路74以通信方式耦接,該網路可包含網際網路。在一些實例中,內容準備器件20與伺服器器件60亦可藉由網路74或另一網路耦接,或可直接以通信方式耦接。在一些實例中,內容準備器件20與伺服器器件60可包含相同器件。 在圖1之實例中,內容準備器件20包含音訊源22及視訊源24。音訊源22可包含(例如)麥克風,該麥克風產生表示待藉由音訊編碼器26編碼之所俘獲音訊資料的電信號。替代地,音訊源22可包含:儲存媒體,其儲存先前記錄之音訊資料;音訊資料產生器,諸如電腦化之合成器;或任何其他音訊資料源。視訊源24可包含:視訊攝影機,其產生待藉由視訊編碼器28編碼之視訊資料;儲存媒體,其編碼有先前記錄之視訊資料;視訊資料產生單元,諸如電腦圖形源;或任何其他視訊資料源。內容準備器件20未必在所有實例中均以通信方式耦接至伺服器器件60,而是可將多媒體內容儲存至由伺服器器件60讀取之單獨媒體。 原始音訊及視訊資料可包含類比或數位資料。類比資料可在藉由音訊編碼器26及/或視訊編碼器28編碼之前被數位化。音訊源22可在說話參與者正在說話時自說話參與者獲得音訊資料,且視訊源24可同時獲得說話參與者之視訊資料。在其他實例中,音訊源22可包含有包含所儲存音訊資料之電腦可讀儲存媒體,且視訊源24可包含有包含所儲存視訊資料之電腦可讀儲存媒體。以此方式,本發明中所描述之技術可應用於實況、串流、即時音訊及視訊資料或所存檔的、預先記錄的音訊及視訊資料。 對應於視訊訊框之音訊訊框通常為含有藉由音訊源22俘獲(或產生)之音訊資料的音訊訊框,該音訊資料同時伴隨含於視訊訊框內的藉由視訊源24俘獲(或產生)之視訊資料。舉例而言,當說話參與者通常藉由說話而產生音訊資料時,音訊源22俘獲音訊資料,且視訊源24同時(即,在音訊源22正俘獲音訊資料的同時)俘獲說話參與者之視訊資料。因此,音訊訊框在時間上可對應於一或多個特定視訊訊框。因此,對應於視訊訊框之音訊訊框通常對應於同時俘獲音訊資料及視訊資料之情形,且因此音訊訊框及視訊訊框分別包含同時俘獲到的音訊資料及視訊資料。 在一些實例中,音訊編碼器26可對每一經編碼音訊訊框中表示記錄經編碼音訊訊框之音訊資料之時間的時戳進行編碼,且類似地,視訊編碼器28可對每一經編碼視訊訊框中表示記錄經編碼視訊訊框之視訊資料之時間的時戳進行編碼。在此等實例中,對應於視訊訊框之音訊訊框可包含有包含時戳之音訊訊框及包含相同時戳之視訊訊框。內容準備器件20可包括內部時脈,音訊編碼器26及/或視訊編碼器28可根據該內部時脈產生時戳,或音訊源22及視訊源24可使用該內部時脈分別使音訊資料及視訊資料與時戳相關聯。 在一些實例中,音訊源22可向音訊編碼器26發送對應於記錄音訊資料之時間的資料,且視訊源24可向視訊編碼器28發送對應於記錄視訊資料之時間的資料。在一些實例中,音訊編碼器26可對經編碼音訊資料中之序列識別符進行編碼以指示經編碼音訊資料之相對時間排序,但未必指示記錄音訊資料之絕對時間,且相似地,視訊編碼器28亦可使用序列識別符來指示經編碼視訊資料之相對時間排序。類似地,在一些實例中,序列識別符可映射或以其他方式與時戳相關聯。 音訊編碼器26通常產生經編碼音訊資料之串流,而視訊編碼器28產生經編碼視訊資料之串流。每一個別資料串流(不論音訊或視訊)可被稱為基本串流。基本串流為表示之單一的經數位寫碼(可能經壓縮)之分量。舉例而言,表示之經寫碼視訊或音訊部分可為基本串流。基本串流可在被囊封於視訊檔案內之前被轉換成封包化基本串流(PES)。在相同表示內,可使用串流ID來區分屬於一個基本串流的PES封包與屬於其他基本串流的PES封包。基本串流之資料之基本單位為封包化基本串流(PES)封包。因此,經寫碼視訊資料大體對應於基本視訊串流。類似地,音訊資料對應於一或多個各別基本串流。 許多視訊寫碼標準(諸如,ITU-T H.264/AVC及即將到來的高效視訊寫碼(HEVC)標準)定義無誤差位元串流之語法、語義及解碼過程,該等無誤差位元串流中之任一者符合特定設定檔或層級。視訊寫碼標準通常並不指定編碼器,但編碼器具有保證所產生之位元串流對於解碼器而言係標準相容之任務。在視訊寫碼標準之上下文中,「設定檔」對應於演算法、特徵或工具及施加至演算法、特徵或工具之約束的子集。如由(例如) H.264標準所定義,「設定檔」為由H.264標準指定的完整位元串流語法之子集。「層級」對應於解碼器資源消耗(諸如,解碼器記憶體及計算)之限制,該等限制係關於圖像解析度、位元速率及區塊處理速率。設定檔可藉由profile_idc (設定檔指示符)值用信號通知,而層級可藉由level_idc (層級指示符)值用信號通知。 舉例而言,H.264標準認為,在給定設定檔之語法所強加的界限內,仍然可能要求編碼器及解碼器之效能有較大變化,此取決於位元串流中之語法元素所取的值(諸如經解碼圖像之指定大小)。H.264標準進一步認為,在許多應用中,實施能夠處理特定設定檔內之語法之所有假設使用的解碼器既不實際亦不經濟。因此,H.264標準將「層級」定義為強加於位元串流中之語法元素之值的約束之指定集合。此等約束可為對值的簡單限制。替代地,此等約束可採取對值之算術組合約束的形式(例如,圖像寬度乘以圖像高度乘以每秒解碼之圖像數目)。H.264標準進一步規定,個別實施對於每一所支援設定檔可支援不同層級。 符合設定檔之解碼器一般支援設定檔中所定義之所有特徵。舉例而言,作為寫碼特徵,B圖像寫碼在H.264/AVC之基線設定檔中不被支援,但在H.264/AVC之其他設定檔中被支援。符合一層級之解碼器應能夠對不需要超出該層級中所定義之限制的資源之任何位元串流進行解碼。設定檔及層級之定義可對可解譯性有幫助。舉例而言,在視訊傳輸期間,可針對整個傳輸工作階段協商及同意一對設定檔定義及層級定義。更具體言之,在H.264/AVC中,層級可定義對於需要處理之巨集區塊的數目、經解碼圖像緩衝器(DPB)大小、經寫碼圖像緩衝器(CPB)大小、豎直運動向量範圍、每兩個連續MB的運動向量之最大數目及B區塊是否可具有小於8×8像素之子巨集區塊分區的限制。以此方式,解碼器可判定解碼器是否能夠恰當地對位元串流進行解碼。 在圖1之實例中,內容準備器件20之囊封單元30自視訊編碼器28接收包含經寫碼視訊資料之基本串流,且自音訊編碼器26接收包含經寫碼音訊資料之基本串流。在一些實例中,視訊編碼器28及音訊編碼器26可各自包括用於自經編碼資料形成PES封包的封包化器。在其他實例中,視訊編碼器28及音訊編碼器26可各自與用於自經編碼資料形成PES封包之各別封包化器介接。在另外其他實例中,囊封單元30可包括用於自經編碼音訊及視訊資料形成PES封包之封包化器。 視訊編碼器28可以多種方式對多媒體內容之視訊資料進行編碼,以產生多媒體內容之呈各種位元速率且具有各種特徵之不同表示,該等特徵諸如,像素解析度、訊框速率、對各種寫碼標準之符合性、對各種寫碼標準之各種設定檔及/或設定檔層級之符合性、具有一或多個視圖之表示(例如,用於二維或三維播放)或其他此等特徵。如本發明中所使用,表示可包含音訊資料、視訊資料、文字資料(例如,用於封閉字幕)或其他此類資料中之一者。表示可包括諸如音訊基本串流或視訊基本串流之基本串流。每一PES封包可包括stream_id,其識別PES封包所屬之基本串流。囊封單元30負責將基本串流組譯成各種表示之視訊檔案(例如,區段)。 囊封單元30自音訊編碼器26及視訊編碼器28接收表示之基本串流的PES封包且自該等PES封包形成對應的網路抽象層(NAL)單元。經寫碼視訊區段可組織為NAL單元,其提供滿足諸如視訊電話、儲存、廣播或串流等應用之「網路友好」視訊表示。NAL單元可分類為視訊寫碼層(VCL) NAL單元(例如,VCL資料)及非VCL NAL單元。VCL單元(亦被稱作VCL資料)可含有核心壓縮引擎且可包括區塊、巨集區塊及/或圖塊層級資料。其他NAL單元可為非VCL NAL單元。在一些實例中,一個時間執行個體中之經寫碼圖像(通常呈現為初級經寫碼圖像)可含於存取單元中,該存取單元可包括一或多個NAL單元。 非VCL NAL單元可尤其包括參數集NAL單元及SEI NAL單元。參數集可含有序列層級標頭資訊(在序列參數集(SPS)中)及不頻繁改變的圖像層級標頭資訊(在圖像參數集(PPS)中)。就參數集(例如,PPS及SPS)而言,不需要針對每一序列或圖像重複不頻繁改變的資訊,因此可改良寫碼效率。此外,使用參數集可實現重要標頭資訊之帶外傳輸,從而避免對於用於抗誤碼之冗餘傳輸的需要。在帶外傳輸實例中,參數集NAL單元可在與其他NAL單元(諸如SEI NAL單元)不同之頻道上傳輸。 補充增強資訊(SEI)可含有對於對來自VCL NAL單元之經寫碼圖像樣本進行解碼並非必需的資訊,但可輔助與解碼、顯示、抗誤碼及其他目的相關的過程。SEI訊息可含於非VCL NAL單元中。SEI訊息為一些標準規範之標準化部分,且因此對於標準相容之解碼器實施並非始終是必選的。SEI訊息可為序列層級SEI訊息或圖像層級SEI訊息。一些序列層級資訊可含於SEI訊息中,諸如SVC之實例中的可調式性資訊SEI訊息,及MVC中的視圖可調式性資訊SEI訊息。此等實例SEI訊息可傳達關於(例如)操作點之擷取及操作點之特徵的資訊。另外,囊封單元30可形成資訊清單檔案,諸如描述表示之特徵的媒體呈現描述符(MPD)。囊封單元30可根據可延伸標記語言(XML)來格式化MPD。 囊封單元30可向輸出介面32提供多媒體內容之一或多個表示之資料以及資訊清單檔案(例如,MPD)。輸出介面32可包含網路介面或用於寫入至儲存媒體之介面,諸如通用串流匯流排(USB)介面、CD或DVD寫入器或燒錄器、至磁性或快閃儲存媒體之介面,或用於儲存或傳輸媒體資料之其他介面。囊封單元30可向輸出介面32提供多媒體內容之表示中之每一者的資料,該輸出介面可經由網路傳輸或儲存媒體向伺服器器件60發送該資料。在圖1之實例中,伺服器器件60包括儲存各種多媒體內容64之儲存媒體62,每一多媒體內容包括各別資訊清單檔案66及一或多個表示68A至68N (表示68)。在一些實例中,輸出介面32亦可向網路74直接發送資料。 在一些實例中,表示68可分成若干適應集合。亦即,表示68之各種子集可包括各別共同特徵集合,諸如編解碼器、設定檔及層級、解析度、視圖之數目、區段之檔案格式、可識別待與待解碼及呈現之表示及/或音訊資料(例如,由揚聲器發出)一起顯示的文字之語言或其他特徵的文字類型資訊、可描述適應集合中之表示之場景的攝影機角度或現實世界攝影機視角的攝影機角度資訊、描述對於特定觀眾之內容適合性的分級資訊,或其類似資訊。 資訊清單檔案66可包括指示對應於特定適應集合之表示68之子集以及該等適應集合之共同特徵的資料。資訊清單檔案66亦可包括表示適應集合之個別表示的個別特徵(諸如,位元速率)之資料。以此方式,適應集合可提供簡化的網路頻寬調適。適應集合中之表示可使用資訊清單檔案66之適應集合元素的子代元素來加以指示。 伺服器器件60包括請求處理單元70及網路介面72。在一些實例中,伺服器器件60可包括複數個網路介面。此外,伺服器器件60之特徵中之任一者或全部可在內容傳送網路之其他器件(諸如,路由器、橋接器、代理器件、交換器或其他器件)上實施。在一些實例中,內容傳送網路之中間器件可快取多媒體內容64之資料,且包括基本上符合伺服器器件60之組件的組件。一般而言,網路介面72經組態以經由網路74來發送及接收資料。 請求處理單元70經組態以自用戶端器件(諸如,用戶端器件40)接收對儲存媒體62之資料的網路請求。舉例而言,請求處理單元70可實施超文字傳送協定(HTTP)版本1.1,如RFC 2616,R. Fielding等人(網路工作組,IETF,1999年6月)的「Hypertext Transfer Protocol - HTTP/1.1」中所描述。亦即,請求處理單元70可經組態以接收HTTP GET或部分GET請求,且回應於該等請求而提供多媒體內容64之資料。請求可指定表示68中之一者的區段,例如使用區段之URL。在一些實例中,該等請求亦可指定區段之一或多個位元組範圍,因此包含部分GET請求。請求處理單元70可經進一步組態以服務於HTTP HEAD請求以提供表示68中之一者之區段的標頭資料。在任何狀況下,請求處理單元70可經組態以處理該等請求以將所請求之資料提供至請求器件(諸如用戶端器件40)。 另外或替代地,請求處理單元70可經組態以經由諸如eMBMS之廣播或多播協定來傳遞媒體資料。內容準備器件20可以與所描述大體上相同的方式產生DASH區段及/或子區段,但伺服器器件60可使用eMBMS或另一廣播或多播網路輸送協定來傳遞此等區段或子區段。舉例而言,請求處理單元70可經組態以自用戶端器件40接收多播群組加入請求。亦即,伺服器器件60可向與特定媒體內容(例如,實況事件之廣播)相關聯的用戶端器件(包括用戶端器件40)通告與多播群組相關聯之網際網路協定(IP)位址。用戶端器件40又可提交加入多播群組之請求。此請求可在整個網路74 (例如,組成網路74之路由器)中傳播,以使得致使該等路由器將預定用於與多播群組相關聯之IP位址的訊務導向至訂用的用戶端器件(諸如用戶端器件40)。 請求處理單元70可經組態以自請求組譯資料。舉例而言,請求處理單元70可根據來自用戶端器件之每一請求擷取已經請求之影像之一或多個區域的指示。舉例而言,請求處理單元70可根據來自用戶端器件40之請求擷取特定影像之使用者視場。在擷取之後,請求處理單元70可在表或資料庫中產生針對每一影像指示用戶端器件(例如,用戶端器件40)所請求之使用者視場之一或多個區域的條目。 請求處理單元70可根據經組譯資料推導一或多個最感興趣之區域。更具體言之,例如,回應於判定影像之一或多個區域與該影像之其他區域相比為該影像之最頻繁請求區域,請求處理單元70可選擇該一或多個區域作為該影像之一或多個最感興趣之區域。在一些實例中,當一或多個區域以滿足臨限值之頻率包括於使用者視場中時,請求處理單元70可選擇該一或多個區域作為該影像之一或多個最感興趣之區域。舉例而言,當經組譯資料指示至少一半使用者視場包括一或多個區域時,請求處理單元70可選擇該一或多個區域作為該影像之一或多個最感興趣之區域。 如圖1之實例中所說明,多媒體內容64包括資訊清單檔案66,其可對應於媒體呈現描述(MPD)。資訊清單檔案66可含有不同替代表示68 (例如,具有不同品質之視訊服務)的描述,且該描述可包括(例如)編解碼器資訊、設定檔值、層級值、位元速率及表示68之其他描述性特徵。用戶端器件40可擷取媒體呈現之MPD以判定如何存取表示68之區段。 特定言之,擷取單元52可擷取用戶端器件40之組態資料(未圖示)以判定視訊解碼器48之解碼能力及視訊輸出44之呈現能力。組態資料亦可包括由用戶端器件40之使用者選擇的語言偏好、對應於由用戶端器件40之使用者設定的深度偏好之一或多個攝影機視角及/或由用戶端器件40之使用者選擇的分級偏好中之任一者或全部。擷取單元52可包含(例如)網頁瀏覽器或媒體用戶端,其經組態以提交HTTP GET及部分GET請求。擷取單元52可對應於由用戶端器件40之一或多個處理器或處理單元(未圖示)執行的軟體指令。在一些實例中,關於擷取單元52所描述的功能性之全部或部分可在硬體或硬體、軟體及/或韌體之組合中實施,其中可提供必需的硬體以執行軟體或韌體之指令。 擷取單元52可將用戶端器件40之解碼及呈現能力與由資訊清單檔案66之資訊指示的表示68之特徵進行比較。擷取單元52可首先擷取資訊清單檔案66之至少一部分以判定表示68之特徵。舉例而言,擷取單元52可請求描述一或多個適應集合之特徵的資訊清單檔案66之一部分。擷取單元52可選擇具有用戶端器件40之寫碼及呈現能力可滿足之特徵的表示68 (例如,適應集合)之子集。擷取單元52可接著判定適應集合中之表示的位元速率,判定網路頻寬之當前可用量,且自具有網路頻寬可滿足之位元速率的表示中之一者擷取區段。 一般而言,較高位元速率表示可產生較高品質之視訊播放,而較低位元速率表示可在可用網路頻寬減少時提供足夠品質之視訊播放。因此,當可用網路頻寬相對較高時,擷取單元52可自相對高位元速率之表示擷取資料,而當可用網路頻寬較低時,擷取單元52可自相對低位元速率之表示擷取資料。以此方式,用戶端器件40可經由網路74串流多媒體資料,同時亦適應網路74之改變的網路頻寬可用性。 另外或替代地,擷取單元52可經組態以根據諸如eMBMS或IP多播的廣播或多播網路協定來接收資料。在此等實例中,擷取單元52可提交加入與特定媒體內容相關聯之多播網路群組的請求。在加入多播群組之後,擷取單元52可在無發佈至伺服器器件60或內容準備器件20之其他請求的情況下接收多播群組之資料。當不再需要多播群組之資料時,擷取單元52可提交離開該多播群組之請求,例如以停止播放或將頻道改變至不同多播群組。 網路介面54可接收所選表示之區段的資料且向擷取單元52提供該資料,該擷取單元又可向解囊封單元50提供該等區段。解囊封單元50可將視訊檔案之元素解囊封成組成性PES串流,解封包化該等PES串流以擷取經編碼資料,且取決於經編碼資料為音訊串流或視訊串流之部分(例如,如由串流之PES封包標頭所指示)而將經編碼資料發送至音訊解碼器46或視訊解碼器48。音訊解碼器46對經編碼音訊資料進行解碼,且向音訊輸出42發送經解碼音訊資料,而視訊解碼器48對經編碼視訊資料進行解碼,且向視訊輸出44發送經解碼視訊資料,其可包括串流之複數個視圖。 視訊編碼器28、視訊解碼器48、音訊編碼器26、音訊解碼器46、囊封單元30、擷取單元52及解囊封單元50各自可實施為適用的多種合適處理電路中之任一者,合適處理電路諸如一或多個微處理器、數位信號處理器(DSP)、特殊應用積體電路(ASIC)、場可程式化閘陣列(FPGA)、離散邏輯電路、軟體、硬體、韌體或其任何組合。視訊編碼器28及視訊解碼器48中之每一者可包括於一或多個編碼器或解碼器中,編碼器或解碼器中之任一者可經整合為組合式視訊編碼器/解碼器(CODEC)之部分。同樣地,音訊編碼器26及音訊解碼器46中之每一者可包括於一或多個編碼器或解碼器中,編碼器或解碼器中之任一者可經整合為組合式CODEC之部分。包括視訊編碼器28、視訊解碼器48、音訊編碼器26、音訊解碼器46、囊封單元30、擷取單元52及/或解囊封單元50的裝置可包含積體電路、微處理器及/或無線通信器件,諸如蜂巢式電話。 視訊寫碼標準包括:ITU-T H.261;ISO/IEC MPEG-1 Visual;ITU-T H.262或ISO/IEC MPEG-2 Visual;ITU-T H.263;ISO/IEC MPEG-4 Visual;ITU-T H.264或ISO/IEC MPEG-4 AVC,包括其可調式視訊寫碼(SVC)及多視圖視訊寫碼(MVC)擴展;及亦被稱作ITU-T H.265及ISO/IEC 23008-2的高效視訊寫碼(HEVC),包括其可調式寫碼擴展(亦即,可調式高效視訊寫碼SHVC)及多視圖擴展(亦即,多視圖高效視訊寫碼MV-HEVC)以及3D擴展(亦即,3D高效視訊寫碼3D-HEVC)。MVC之一個聯合草案描述於2010年3月的「Advanced video coding for generic audiovisual services」,ITU-T建議H.264中。 囊封單元30可判定影像之一或多個最感興趣之區域。如本文中所使用,最感興趣之區域可係指影像中使用者查看之可能性較高的區域。舉例而言,最感興趣之區域可係指影像中導演或製作人所選擇之區域。在一些實例中,最感興趣之區域可係指影像中藉由計算器件根據服務提供者或內容提供者提供之使用者統計資料所推導之區域,例如經由在經由串流服務提供全向視訊內容時使用者請求/觀看最多之區域的統計資料。 囊封單元30可囊封表示一或多個最感興趣之區域的資料。在一些實例中,囊封單元30可囊封在VCL資料外部的表示一或多個最感興趣之區域的資料,該資料可包括供視訊寫碼引擎使用之實際視訊資料。在一些實例中,表示一或多個最感興趣之區域的資料可包括於位元串流中。舉例而言,囊封單元30可囊封包括在VCL資料外部的表示一或多個最感興趣之區域的資料的SEI訊息。在一些實例中,囊封單元30可囊封包括在視訊位元串流外部(且因此亦在位元串流之VCL資料外部)的表示一或多個最感興趣之區域的資料的檔案格式資料。舉例而言,囊封單元30可囊封包括在VCL資料外部的表示一或多個最感興趣之區域的資料的邏輯框(例如,樣本至群組)或計時後設資料播放軌。 就VR視訊應用而言,當考慮利用關於最感興趣之區域之資訊的方式時,吾人發現以下問題中之至少一些: 1.若使用者實際上對VR視訊中之其他區域感興趣,則在無使用者控制的情況下使用關於最感興趣之區域的資訊來顯示最感興趣之區域可降低VR視訊體驗。替代地,關於最感興趣之區域的資訊可以其他方式用於經改良的VR視訊體驗。 2.可藉由除導演剪輯外之其他方式來判定或產生VR視訊之特定圖像集合中之最感興趣之區域。 3.缺乏傳信關於最感興趣之區域的資訊之具體方式。 本發明描述用於VR視訊中之一或多個最感興趣之區域之傳信及重建構以及VR視訊編碼、解碼、串流及播放中之相應處理的若干技術。此等技術中之一或多者可獨立地應用,或與其他技術組合應用。 在第一實例中,最感興趣之區域可藉由導演或製作人之意圖來判定或藉由服務提供者或內容提供者提供之使用者統計資料來判定,例如經由在經由串流服務提供VR視訊內容時使用者請求/觀看最多之區域。 在第二實例中,在視訊編碼或轉碼期間,最感興趣之區域可經有意編碼而具有比其他區域更高的品質(例如,藉由使用較低量化參數)、更高的解析度(若在視訊拼接或視訊編碼期間以不同子取樣比率對視訊圖像之不同區域進行子取樣)或隨機可存取性之更高頻率。 在第三實例中,本發明提出使用視訊位元串流中之SEI訊息、媒體檔案中之檔案格式後設資料或HTTP動態自適應串流(DASH)媒體呈現描述(MPD)元素或屬性來傳信關於最感興趣之區域的資訊。 可使用SEI訊息傳信關於VR視訊位元串流之特定圖像集合的最感興趣之區域的資訊。此SEI訊息之執行個體藉由語法、語義或兩者規定適用於(一或多個)圖像之集合。SEI訊息可含有至少以下語法元素: i.指示最感興趣之區域之數目的語法元素。 ii.語法元素集合之循環,每一集合描述最感興趣之區域的位置及大小。舉例而言,每一集合可包括指示作為最感興趣之區域的矩形之四個角的呈相對於完整圖像之明度樣本數目形式的上部、底部、左側及右側偏移之四個語法元素。在另一實例中,每一集合可包括指示作為最感興趣之區域的矩形之左上角的呈相對於完整圖像之明度樣本數目形式的座標之兩個語法元素及指示矩形之寬度及高度之兩個語法元素。 iii.對於最感興趣之區域中之每一者,可藉由語法元素指示優先級,其中較高優先級指示區域之較高興趣。 iv.指示是否以解碼次序取消此SEI訊息之所有稍早執行個體之效果的語法元素。 v.指示此SEI訊息之當前執行個體中之資訊是否持續至輸出次序之下一圖像,或新的經寫碼視訊序列之開始,或位元串流之結束的語法元素。 SEI訊息可經包括作為H.264/AVC、H.265/HEVC或任何其他視訊編解碼器規範之部分。含有SEI訊息之NAL單元可直接地包括於以下中:1)用於傳信檔案格式中之資訊的檔案格式邏輯框或結構;2)用於傳信SDP中之資訊的SDP場;3)用於傳信DASH MPD中之資訊的DASH MPD屬性或元素;及4)用於傳信MPEG-2 TS中之資訊的MPEG-2輸送串流(TS)描述符。 可(例如)藉由使用新樣本組或藉由包括於計時後設資料播放軌中而在檔案格式資料結構中直接攜帶與上文所描述相同的資訊。 可使用DASH MPD中之一些新元素、屬性及/或描述符而直接攜帶與上文所描述相同的資訊。 在第四實例中,在諸如DASH的受用戶端控制之視訊串流期間,當內容遞送網路(CDN)在使用中時,邊緣伺服器(例如,伺服器器件60)或快取記憶體可使用關於最感興趣之區域的資訊以獲得具有較高品質表示且在自用戶端器件40接收請求稍早之前覆蓋即將出現的影像之最感興趣之區域的視訊資料,從而預測不久後將最可能請求該視訊資料。即將出現的影像可為緊接著最近發送至用戶端器件40且藉由用戶端器件40呈現或將要呈現之一或多個區域之影像之後的影像。 在第五實例中,在諸如DASH的受用戶端控制之視訊串流期間,用戶端器件40可使用關於最感興趣之區域的資訊以請求具有較高品質表示且在使用者轉動其頭部並發送請求稍早之前覆蓋即將出現的影像之最感興趣之區域的視訊資料,從而預測不久後將最可能請求該視訊資料。同樣,即將出現的影像可為緊接著最近發送至用戶端器件40且藉由用戶端器件40呈現或將要呈現之一或多個區域之影像之後的影像。 在第六實例中,諸如3GPP TS 26.234中之3GPP封包交換串流(PSS)的受伺服器控制之視訊串流系統(例如,伺服器器件60)可經組態具有使得串流用戶端(例如,用戶端器件40)能夠在用於伺服器之當前FOV之方向上發送反饋以選擇覆蓋待發送之最感興趣之區域之適當視訊資料的特徵。在此類經組態的受伺服器控制之視訊串流系統中,伺服器器件60可使用關於最感興趣之區域的資訊以發送具有較高品質表示且在接收當前FOV之方向上之串流用戶端反饋稍早之前覆蓋即將出現的影像之最感興趣之區域的視訊資料,從而預測不久後將最可能需要發送該視訊資料。舉例而言,回應於判定特定串流用戶端正輸出特定影像,伺服器器件60可向特定串流用戶端輸出具有較高品質表示且覆蓋緊接在該特定影像之後的即將出現的影像之最感興趣之區域的視訊資料。 在第七實例中,對於涉及快取記憶體(例如,在伺服器器件60處)之內容(例如,VR內容)之儲存管理,伺服器器件60可使用表示特定影像中之一或多個最感興趣之區域的資料來判定該特定影像中之哪些區域儲存於快取記憶體中。開發者可設計儲存選擇演算法且伺服器器件60可執行該演算法以基於對該等區域之經選擇感興趣程度(例如,基於導演意見)及/或基於對該區域之經推導感興趣程度(例如,基於在內容可用一段時間之後的觀看行為之使用者統計資料)對影像之區域進行分級。伺服器器件60可在快取記憶體中儲存特定影像中分級值滿足臨限值(例如,大於臨限值)之區域的視訊資料。舉例而言,當僅特定影像之最感興趣之區域的分級值滿足臨限值時,伺服器器件60可僅在快取記憶體中儲存用於特定影像之最感興趣之區域的視訊資料。在此實例中,用戶端器件40可自快取記憶體擷取用於特定影像之最感興趣之區域的視訊資料且可自主要伺服器儲存裝置擷取用於特定影像之其他區域的視訊資料,該主要伺服器儲存裝置可放置得比快取記憶體更遠離使用者。另外或替代地,伺服器器件60可基於快取記憶體中之可用空間的量動態地判定臨限值。 在第八實例中,對於VR內容之長期儲存,伺服器器件60可使用表示(例如,VR視訊之)特定影像中之一或多個最感興趣之區域的資料來決定儲存該影像之哪些區域。開發者可設計儲存選擇演算法且伺服器器件60可執行該演算法以基於對該等區域之經選擇感興趣程度(例如,基於導演意見)及/或基於對該區域之經推導感興趣程度(例如,基於在內容可用一段時間之後的觀看行為之使用者統計資料)對區域進行分級。伺服器器件60可在長期儲存裝置(例如,經組態以儲存視訊資料數週、數月、數年等)中儲存特定影像中分級值滿足臨限值(例如,大於臨限值)之區域的視訊資料。舉例而言,當僅特定影像之最感興趣之區域的分級值滿足臨限值時,伺服器器件60可僅在長期儲存裝置中儲存用於特定影像之最感興趣之區域的視訊資料且自該長期儲存裝置移除用於特定影像之其他區域的視訊資料。 用戶端器件40、伺服器器件60及/或內容準備器件20可經組態以根據本發明之技術操作。出於實例之目的,本發明關於用戶端器件40及伺服器器件60描述此等技術。然而,應理解,代替伺服器器件60 (或除伺服器器件60以外),內容準備器件20可經組態以執行此等技術。 囊封單元30可形成NAL單元,該等NAL單元包含識別NAL單元所屬之程式的標頭以及有效負載,例如音訊資料、視訊資料或描述NAL單元對應於的輸送串流或程式串流的資料。舉例而言,在H.264/AVC中,NAL單元包括1位元組標頭及變化大小之有效負載。在其有效負載中包括視訊資料之NAL單元可包含各種粒度級別之視訊資料。舉例而言,NAL單元可包含視訊資料區塊、複數個區塊、視訊資料之圖塊或視訊資料之整個圖像。囊封單元30可自視訊編碼器28接收呈基本串流之PES封包之形式的經編碼視訊資料。囊封單元30可使每一基本串流與對應程式相關聯。 囊封單元30亦可組譯來自複數個NAL單元之存取單元。一般而言,存取單元可包含用於表示視訊資料訊框以及對應於該訊框之音訊資料(當此音訊資料可用時)的一或多個NAL單元。存取單元通常包括針對一個輸出時間執行個體之所有NAL單元,例如針對一個時間執行個體之所有音訊及視訊資料。舉例而言,若每一視圖具有20訊框每秒(fps)之訊框速率,則每一時間執行個體可對應於0.05秒之時間間隔。在此時間間隔期間,可同時呈現相同存取單元(相同時間執行個體)之所有視圖的特定訊框。在一個實例中,存取單元可包含一個時間執行個體中之經寫碼圖像,其可呈現為初級經寫碼圖像。 因此,存取單元可包含共同時間執行個體之所有音訊訊框及視訊訊框,例如對應於時間X 之所有視圖。本發明亦將特定視圖之經編碼圖像稱作「視圖分量」。亦即,視圖分量可包含在特定時間針對特定視圖之經編碼圖像(或訊框)。因此,存取單元可被定義為包含共同時間執行個體之所有視圖分量。存取單元之解碼次序未必與輸出或顯示次序相同。 媒體呈現可包括媒體呈現描述(MPD),該媒體呈現描述可含有不同替代表示(例如,具有不同品質之視訊服務)的描述,且該描述可包括(例如)編解碼器資訊、設定檔值及層級值。MPD為資訊清單檔案(諸如資訊清單檔案66)之一個實例。用戶端器件40可擷取媒體呈現之MPD以判定如何存取各種呈現之電影片段。電影片段可位於視訊檔案之電影片段邏輯框(moof邏輯框)中。 資訊清單檔案66 (其可包含(例如) MPD)可通告表示68之區段之可用性。亦即,MPD可包括指示表示68中之一者之第一片段變得可用時之掛鐘時間的資訊,以及指示表示68內之區段之持續時間的資訊。以此方式,用戶端器件40之擷取單元52可基於開始時間以及在特定區段之前的區段之持續時間而判定每一區段何時可用。在一些實例中,根據本發明之技術,資訊清單檔案66可包括表示特定影像中之一或多個最感興趣之區域的資料。 在囊封單元30已基於所接收資料將NAL單元及/或存取單元組譯成視訊檔案之後,囊封單元30將視訊檔案傳遞至輸出介面32以供輸出。在一些實例中,囊封單元30可將視訊檔案儲存在本端,或經由輸出介面32將視訊檔案發送至遠端伺服器,而非將視訊檔案直接發送至用戶端器件40。輸出介面32可包含(例如)傳輸器、收發器、用於將資料寫入至電腦可讀媒體之器件(諸如光碟機、磁性媒體機(例如,軟碟機))、通用串列匯流排(USB)埠、網路介面或其他輸出介面。輸出介面32將視訊檔案輸出至電腦可讀媒體,諸如傳輸信號、磁性媒體、光學媒體、記憶體、快閃驅動機或其他電腦可讀媒體。 網路介面54可經由網路74接收NAL單元或存取單元,且經由擷取單元52將NAL單元或存取單元提供至解囊封單元50。解囊封單元50可將視訊檔案之元素解囊封成組成性PES串流,解封包化該等PES串流以擷取經編碼資料,且取決於經編碼資料為音訊串流或視訊串流之部分(例如,如由串流之PES封包標頭所指示)而將經編碼資料發送至音訊解碼器46或視訊解碼器48。音訊解碼器46對經編碼音訊資料進行解碼,且向音訊輸出42發送經解碼音訊資料,而視訊解碼器48對經編碼視訊資料進行解碼,且向視訊輸出44發送經解碼視訊資料,其可包括串流之複數個視圖。 以此方式,內容準備器件20表示用以傳信用於視訊資料之資訊之器件的一實例,該器件包括經組態以判定視訊資料影像之複數個區域中一或多個最感興趣之區域的處理器。最感興趣之區域包含最可能由用戶端器件擷取之一或多個區域。該處理器可經進一步組態以產生表示最感興趣之區域的資料。表示最感興趣之區域的資料係在包括視訊資料之位元串流之VCL資料外部。 另外,用戶端器件40表示用以判定用於視訊資料之資訊之器件的一實例,該器件包括經組態以基於表示最感興趣之區域的資料判定視訊資料影像之複數個區域中一或多個最感興趣之區域的處理器。表示最感興趣之區域的資料在包括視訊資料之位元串流之VCL資料外部。該處理器可經進一步組態以輸出對影像之一或多個最感興趣之區域的高品質視訊資料之請求,且在輸出對影像之一或多個最感興趣之區域的高品質視訊資料之該請求後,輸出對影像之一或多個其他區域的低品質視訊資料之請求。 圖2為說明實例多媒體內容120之元素的概念圖。多媒體內容120可對應於多媒體內容64 (圖1)或儲存於儲存媒體62中之另一多媒體內容。在圖2之實例中,多媒體內容120包括媒體呈現描述(MPD) 122及複數個表示124A至124N (表示124)。表示124A包括可選標頭資料126及區段128A至128N (區段128),而表示124N包括可選標頭資料130及區段132A至132N (區段132)。為了方便起見,使用字母N來指明表示124中之每一者中的最後一個電影片段。在一些實例中,表示124之間可存在不同數目之電影片段。 儘管圖2描述其中系統10 (圖1)經組態用於DASH之一實例,但在一些實例中,系統10可經組態用於其他媒體播放控制協定,例如(但不限於)即時串流協定(RTSP)、即時輸送協定(RTP)、RTP控制協定(RTCP)、會話描述協定(SDP)、另一媒體播放控制協定或其一組合。 MPD 122可包含與表示124分離的資料結構。MPD 122可對應於圖1之資訊清單檔案66。同樣地,表示124可對應於圖2之表示68。一般而言,MPD 122可包括大體上描述表示124之特徵的資料,該等特徵諸如寫碼及呈現特徵、適應集合、MPD 122所對應之設定檔、文本類型資訊、攝影機角度資訊、分級資訊、竅門模式資訊(例如,指示包括時間子序列之表示的資訊)及/或用於擷取遠端週期(例如,用於在播放期間向媒體內容中插入針對性廣告)之資訊。 標頭資料126 (當存在時)可描述區段128之特徵,例如隨機存取點(RAP,亦稱作串流存取點(SAP))之時間位置、區段128中之哪一者包括隨機存取點、與區段128內之隨機存取點之位元組偏移、區段128之統一資源定位符(URL)或區段128之其他態樣。標頭資料130 (當存在時)可描述區段132之類似特徵。另外或替代地,此等特徵可完全包括於MPD 122內。 區段128、132包括一或多個經寫碼視訊樣本,其中之每一者可包括視訊資料之訊框或圖塊。區段128之經寫碼視訊樣本中之每一者可具有類似特徵,例如,高度、寬度及頻寬要求。此等特徵可藉由MPD 122之資料來描述,不過此資料在圖2之實例中未說明。MPD 122可包括如由3GPP規範所描述之特徵,並且添加了本發明中所描述的經傳信資訊中之任一者或全部。 區段128、132中之每一者可與唯一的統一資源定位符(URL)相關聯。因此,區段128、132中之每一者可為使用串流網路協定(諸如DASH)而可獨立地擷取的,但可使用其他串流網路協定。以此方式,諸如用戶端器件40之目的地器件可使用HTTP GET請求以擷取區段128或132。在一些實例中,用戶端器件40可使用HTTP部分GET請求以擷取區段128或132之特定位元組範圍。舉例而言,用戶端器件40可使用第一HTTP部分GET請求以首先自區段128、132中之一者擷取表示最感興趣之區域的資料,判定該等最感興趣之區域,接著使用第二HTTP部分GET請求以自區段128、132中之一者預提取用於最感興趣之區域的視訊資料之高品質版本,假定最感興趣之區域資料係包括於(例如)檔案格式資訊中之區段128、132內。 另外或替代地,根據本發明之技術,MPD 122可包括指示一或多個最感興趣之區域的元素或屬性。舉例而言,對於區段128、132中之每一者,MPD 122可包括表示最感興趣之區域之各別位置及該最感興趣之區域之各別大小的元素或屬性。 更具體言之,例如,對於區段128、132中之每一者(或區段128、132內之一或多個圖像),MPD 122可包括在最感興趣之區域上循環之元素或屬性,循環之每一迭代表示最感興趣之區域中之一者且包括表示最感興趣之區域之位置及最感興趣之區域之大小的語法元素。在一些實例中,對於區段128、132中之每一者,MPD 122可包括針對最感興趣之區域中之每一者包括表示最感興趣之區域之頂部的第一語法元素、表示最感興趣之區域之底部的第二語法元素、最感興趣之區域之左側及最感興趣之區域之右側的元素或屬性。在一些實例中,對於區段128、132中之每一者,MPD 122可包括針對最感興趣之區域中之每一者包括表示最感興趣之區域之左上角的第一語法元素及表示最感興趣之區域之右下角的第二語法元素之元素或屬性。在一些實例中,對於區段128、132中之每一者,MPD 122可包括針對最感興趣之區域中之每一者包括表示最感興趣之區域之左上角的第一語法元素、表示最感興趣之區域之寬度的第二語法元素及表示最感興趣之區域之高度的第三語法元素之元素或屬性。在一些實例中,MPD 122可表示明度樣本中最感興趣之區域之各別位置及最感興趣之區域之各別大小。 圖3為說明實例視訊檔案150之元素的方塊圖,實例視訊檔案可對應於表示之區段,諸如圖2之區段128、132中之一者。區段128、132中之每一者可包括大體上符合圖3之實例中所說明之資料配置的資料。視訊檔案150可被稱為囊封一區段。如上所述,根據ISO基本媒體檔案格式及其擴展的視訊檔案將資料儲存於一系列物件(被稱為「邏輯框」)中。在圖3之實例中,視訊檔案150包括檔案類型(FTYP)邏輯框152、電影(MOOV)邏輯框154、一或多對電影片段(MOOF)邏輯框164及媒體資料(MDAT)邏輯框167,以及電影片段隨機存取(MFRA)邏輯框166。儘管圖3表示視訊檔案之一實例,但應理解,根據ISO基本媒體檔案格式及其擴展,其他媒體檔案可包括在結構上類似於視訊檔案150之資料的其他類型之媒體資料(例如,音訊資料、計時文字資料或其類似者)。 檔案類型(FTYP)邏輯框152通常描述視訊檔案150之檔案類型。檔案類型邏輯框152可包括識別描述視訊檔案150之最佳用途之規範的資料。檔案類型邏輯框152可替代地置放在MOOV邏輯框154、MOOF邏輯框164及/或MFRA邏輯框166之前。 在圖3之實例中,MOOV邏輯框154包括電影標頭(MVHD)邏輯框156及播放軌(TRAK)邏輯框158。一般而言,MVHD邏輯框156可描述視訊檔案150之一般特徵。舉例而言,MVHD邏輯框156可包括描述視訊檔案150何時最初建立、視訊檔案150何時經最後修改、視訊檔案150之時間標度、視訊檔案150之播放持續時間的資料,或大體上描述視訊檔案150之其他資料。 MOOV邏輯框154可包括多個TRAK邏輯框,其等於視訊檔案150中之播放軌數目。TRAK邏輯框158可描述視訊檔案150之對應播放軌之特徵。舉例而言,TRAK邏輯框158可描述對應播放軌之時間及/或空間資訊。TRAK邏輯框158可包括視訊檔案150之播放軌的資料。TRAK邏輯框158可包括描述對應於TRAK邏輯框158之播放軌之特徵的播放軌標頭(TKHD)邏輯框。在一些實例中,TRAK邏輯框158可包括經寫碼視訊圖像,而在其他實例中,播放軌之經寫碼視訊圖像可包括於MDAT邏輯框167中,其可由TRAK邏輯框158之資料參考。 視訊檔案150可包括計時後設資料播放軌。舉例而言,視訊檔案150可用於包括一或多個計時後設資料播放軌之表示。舉例而言,視訊檔案150可用於包括一或多個計時後設資料播放軌且不包括相關聯媒體播放軌之表示124N。在一些實例中,視訊檔案150可用於包括與相關聯媒體播放軌多工在一起之一或多個計時後設資料播放軌的表示。舉例而言,視訊檔案150可用於包括與相關聯媒體播放軌多工在一起之一或多個計時後設資料播放軌的表示124A。在任何情況下,計時後設資料播放軌可含有針對視訊檔案150之播放軌的描述性或註釋性後設資料。 視訊檔案150可包括針對包括於視訊檔案150中之每一各別播放軌的各別對MOOF邏輯框164及MDAT邏輯框167。如所展示,每一MOOF邏輯框164可包括播放軌片段(TRAF)邏輯框165。在圖3之實例中,TRAF邏輯框165包括樣本至群組(SBGP) 162。SBGP邏輯框162可描述樣本或播放軌所屬之群組及該樣本組之相關聯描述。當囊封單元30 (圖1)包括視訊檔案(諸如視訊檔案150)中之參數集播放軌時,TRAF邏輯框165可描述參數集播放軌之特徵。囊封單元30可在描述參數集播放軌之TRAK邏輯框158內傳信序列層級SEI訊息存在於參數集播放軌中。 MDAT邏輯框167可包括用於各別播放軌之SEI訊息172及VCL NAL單元170。VCL NAL單元170可包括一或多個經寫碼視訊圖像。在一些實例中,VCL NAL單元170可包括一或多個圖像組(GOP),其中之每一者可包括多個經寫碼視訊圖像,例如訊框或圖像。 如上文所提及,囊封單元30可儲存視訊樣本中不包括實際經寫碼視訊資料之序列資料集。視訊樣本可大體上對應於存取單元,該存取單元為特定時間執行個體處之經寫碼圖像之表示。在AVC的上下文中,存取單元包括含有用以建構存取單元之所有像素之資訊的至少一個VCL NAL單元170及其他相關聯的非VCL NAL單元(諸如SEI訊息172)。因此,囊封單元30可包括序列資料集,該序列資料集可包括SEI訊息172及VCL NAL單元170。囊封單元30可進一步將序列資料集及/或SEI訊息172之存在傳信為存在於MDAT邏輯框167內。 視訊檔案150可包括表示根據本發明之技術的一或多個最感興趣之區域的資料。更具體言之,視訊檔案150可包括表示視訊檔案150之檔案格式標頭資訊中之一或多個最感興趣之區域的資料。舉例而言,視訊檔案150可包括傳信最感興趣之區域資訊的SEI訊息及/或檔案格式資訊。舉例而言,計時後設資料播放軌可包括表示一或多個最感興趣之區域的資料。在一些個例中,SBGP邏輯框162可包括表示一或多個最感興趣之區域的資料。在一些個例中,SEI訊息172可包括表示一或多個最感興趣之區域的資料。 SEI訊息172可經包括作為H.264/AVC、H.265/HEVC或其他視訊編解碼器規範之部分。在圖3之實例中,SEI訊息包括表示用於(例如) VCL NAL單元170之對應圖像之最感興趣之區域的資料。在其他實例中,此類最感興趣之區域資料可包括於以下中:1)用於傳信檔案格式中之資訊的檔案格式邏輯框或結構;2)用於傳信SDP中之資訊的SDP場;3)用於傳信DASH MPD (例如,圖2之MPD 122)中之資訊的DASH MPD屬性或元素;4)用於在另一邏輯框或結構中傳信MPEG-2 TS中之資訊的MPEG-2輸送串流(TS)描述符;或其一組合。 MFRA邏輯框166可描述視訊檔案150之電影片段內之隨機存取點。此可幫助執行竅門模式,諸如執行對由視訊檔案150囊封之區段內之特定時間位置(亦即,播放時間)的搜尋。在一些實例中,MFRA邏輯框166通常係可選的且不必包括於視訊檔案中。同樣,用戶端器件(諸如用戶端器件40)未必需要參考MFRA邏輯框166以正確解碼及顯示視訊檔案150之視訊資料。MFRA邏輯框166可包括多個播放軌片段隨機存取(TFRA)邏輯框(未展示),其等於視訊檔案150之播放軌數目或在一些實例中等於視訊檔案150之媒體播放軌(例如,非提示播放軌)數目。 在一些實例中,視訊檔案150之電影片段可包括一或多個串流存取點(SAP),諸如IDR圖像。同樣地,MFRA邏輯框166可提供對SAP在視訊檔案150內之位置的指示。因此,視訊檔案150之時間子序列可由視訊檔案150之SAP形成。時間子序列亦可包括其他圖像,諸如取決於SAP之P訊框及/或B訊框。時間子序列之訊框及/或圖塊可配置於區段內,使得時間子序列的取決於子序列之其他訊框/圖塊之訊框/圖塊可被正確地解碼。舉例而言,在資料之階層式配置中,用於其他資料之預測的資料亦可包括於時間子序列中。 視訊檔案150可包括指示最感興趣之區域之數目的語法元素。舉例而言,計時後設資料播放軌可包括指示最感興趣之區域之數目的語法元素。在一些實例中,SBGP邏輯框162可包括指示最感興趣之區域之數目的語法元素。在一些實例中,SEI訊息172可包括指示最感興趣之區域之數目的語法元素。 視訊檔案150可包括指示當前執行個體中之資訊持續至輸出次序之下一影像、或新的經寫碼視訊序列之開始、或位元串流之結束的語法元素。舉例而言,計時後設資料播放軌可包括指示計時後設資料播放軌之當前執行個體中之資訊持續至輸出次序之下一影像、或新的經寫碼視訊序列之開始、或位元串流之結束的語法元素。在一些實例中,SBGP邏輯框162可包括指示SBGP邏輯框162之當前執行個體中之資訊持續至輸出次序之下一影像、或新的經寫碼視訊序列之開始、或位元串流之結束的語法元素。在一些實例中,SEI訊息172可包括指示SEI訊息172之當前執行個體中之資訊持續至輸出次序之下一影像、或新的經寫碼視訊序列之開始、或位元串流之結束的語法元素。 視訊檔案150可包括指示是否以解碼次序取消所有稍早執行個體之效果的語法元素。換言之,在表示一或多個最感興趣之區域的資料指示一或多個最感興趣之區域持續至輸出次序之下一影像、或新的經寫碼視訊序列之開始、或位元串流之結束的執行個體中,指示是否取消效果之語法元素可移除一或多個最感興趣之區域之持續。舉例而言,計時後設資料播放軌可包括指示是否以解碼次序取消計時後設資料播放軌之所有稍早執行個體之效果的語法元素。在一些實例中,SBGP邏輯框162可包括指示是否以解碼次序取消SBGP邏輯框162之所有稍早執行個體之效果的語法元素。在一些實例中,SEI訊息172可包括指示是否以解碼次序取消SEI訊息172之所有稍早執行個體之效果的語法元素。 視訊檔案150可針對最感興趣之區域中之每一者藉由語法元素指示優先級,其中較高優先級指示該區域之較高興趣。舉例而言,計時後設資料播放軌可針對最感興趣之區域中之每一者藉由語法元素指示優先級,其中較高優先級指示該區域之較高興趣。在一些實例中,SBGP邏輯框162可針對最感興趣之區域中之每一者藉由語法元素指示優先級,其中較高優先級指示該區域之較高興趣。在一些實例中,SEI訊息172可針對最感興趣之區域中之每一者藉由語法元素指示優先級,其中較高優先級指示該區域之較高興趣。 根據本發明之技術,包括VCL NAL單元170中所含有之視訊資料的視訊檔案150之檔案格式資訊中之資料結構可包括最感興趣之區域之各別位置及最感興趣之區域之各別大小的指示。 舉例而言,計時後設資料播放軌可包括表示最感興趣之區域的資料。舉例而言,計時後設資料播放軌可針對每一電影片段包括最感興趣之區域之各別位置及最感興趣之區域之各別大小的指示。 更具體言之,在一些實例中,計時後設資料播放軌可針對形成影像之一或多個電影片段中之每一者包括最感興趣之區域上之循環的指示,循環之每一迭代表示最感興趣之區域中之一者且包括表示相對於該影像之多個明度樣本中之位置及相對於該影像之多個明度樣本中之最感興趣之區域之大小的語法元素。 在一些實例中,計時後設資料播放軌可針對一或多個電影片段中之每一者包括表示相對於該影像之多個明度樣本中之最感興趣之區域之頂部的第一語法元素、表示相對於該影像之多個明度樣本中之最感興趣之區域之底部的第二語法元素、相對於該影像之多個明度樣本中之最感興趣之區域之左側及相對於該影像之多個明度樣本中之最感興趣之區域之右側的指示。 在一些實例中,計時後設資料播放軌可針對每一電影片段包括元素或屬性,該等元素或屬性針對最感興趣之區域中之每一者包括表示相對於該影像之多個明度樣本中之最感興趣之區域之左上角的第一語法元素及表示相對於該影像之多個明度樣本中之最感興趣之區域之右下角的第二語法元素。 在一些實例中,計時後設資料播放軌可針對每一電影片段包括元素或屬性,該等元素或屬性針對最感興趣之區域中之每一者包括表示相對於該影像之多個明度樣本中之最感興趣之區域之左上角的第一語法元素、表示相對於該影像之多個明度樣本中之最感興趣之區域之寬度的第二語法元素及表示相對於該影像之多個明度樣本中之最感興趣之區域之高度的第三語法元素。 在另一實例中,SBGP邏輯框162可包括表示最感興趣之區域的資料。舉例而言,SBGP邏輯框162可針對每一電影片段包括最感興趣之區域之各別位置及最感興趣之區域之各別大小的指示。 更具體言之,在一些實例中,SBGP邏輯框162可針對形成影像之每一電影片段包括最感興趣之區域上之循環的指示,循環之每一迭代表示最感興趣之區域中之一者且包括表示相對於該影像之多個明度樣本中之最感興趣之區域之位置及相對於該影像之多個明度樣本中之最感興趣之區域之大小的語法元素。 在一些實例中,SBGP邏輯框162可針對形成影像之每一電影片段包括表示相對於該影像之多個明度樣本中之最感興趣之區域之頂部的第一語法元素、表示相對於該影像之多個明度樣本中之最感興趣之區域之底部的第二語法元素、相對於該影像之多個明度樣本中之最感興趣之區域之左側及相對於該影像之多個明度樣本中之最感興趣之區域之右側的指示。 在一些實例中,SBGP邏輯框162可針對形成影像之每一電影片段包括元素或屬性,該等元素或屬性針對最感興趣之區域中之每一者包括表示相對於該影像之多個明度樣本中之最感興趣之區域之左上角的第一語法元素及表示相對於該影像之多個明度樣本中之最感興趣之區域之右下角的第二語法元素。 在一些實例中,SBGP邏輯框162可針對形成影像之每一電影片段包括元素或屬性,該等元素或屬性針對最感興趣之區域中之每一者包括表示相對於該影像之多個明度樣本中之最感興趣之區域之左上角的第一語法元素、表示相對於該影像之多個明度樣本中之最感興趣之區域之寬度的第二語法元素及表示相對於該影像之多個明度樣本中之最感興趣之區域之高度的第三語法元素。 在另一實例中,SEI訊息172可包括表示最感興趣之區域的資料。舉例而言,SEI訊息172可針對形成影像之每一電影片段包括最感興趣之區域之各別位置及最感興趣之區域之各別大小的指示。 更具體言之,例如,SEI訊息172可針對形成影像之每一電影片段包括最感興趣之區域上之循環的指示,循環之每一迭代表示最感興趣之區域中之一者且包括表示相對於該影像之多個明度樣本中之最感興趣之區域之位置及相對於該影像之多個明度樣本中之最感興趣之區域之大小的語法元素。 在一些實例中,SEI訊息172可針對形成影像之每一電影片段包括表示相對於該影像之多個明度樣本中之最感興趣之區域之頂部的第一語法元素、表示相對於該影像之多個明度樣本中之最感興趣之區域之底部的第二語法元素、相對於該影像之多個明度樣本中之最感興趣之區域之左側及相對於該影像之多個明度樣本中之最感興趣之區域之右側的指示。 在一些實例中,SEI訊息172可針對形成影像之每一電影片段包括元素或屬性,該等元素或屬性針對最感興趣之區域中之每一者包括表示相對於該影像之多個明度樣本中之最感興趣之區域之左上角的第一語法元素及表示相對於該影像之多個明度樣本中之最感興趣之區域之右下角的第二語法元素。 在一些實例中,SEI訊息172可針對形成影像之每一電影片段包括元素或屬性,該等元素或屬性針對最感興趣之區域中之每一者包括表示相對於該影像之多個明度樣本中之最感興趣之區域之左上角的第一語法元素、表示相對於該影像之多個明度樣本中之最感興趣之區域之寬度的第二語法元素及表示相對於該影像之多個明度樣本中之最感興趣之區域之高度的第三語法元素。 圖4為以立方體投影230說明實例影像塊寫碼的概念圖。立方體投影230包括如所展示之立方體面232A、232B、232C,且包括由於被遮擋而未展示之額外立方體面。在此實例中,將立方體投影230之立方體面中之每一者劃分成四個影像塊:將立方體面232A劃分成四個影像塊234A至234D,將立方體面232B劃分成四個影像塊236A至236D,且將立方體面232C劃分成四個影像塊238A至238D。在此實例中,其他未展示之立方體面將亦劃分成四個各別影像塊,總共24個較小影像塊。一般而言,內容準備器件20可提供用於影像塊(例如,影像塊234A至234D、影像塊236A至236D、影像塊238A至238D及未展示立方體面之影像塊)中之每一者之視訊資料。 另外,內容準備器件20可提供用於較大影像塊之視訊資料,該等較大影像塊可覆蓋立方體面中之每一者。舉例而言,內容準備器件20可提供用於覆蓋立方體面232A之影像塊的視訊資料、用於覆蓋立方體面232B之影像塊的視訊資料、用於覆蓋立方體面232C之影像塊的視訊資料及用於覆蓋未展示立方體面之影像塊的視訊資料。在一些實例中,視訊編碼器28可僅針對更可能被觀看之彼等視點編碼較大影像塊大小。因此,若使用者將不大可能向上看或向下看,則視訊編碼器28可僅針對覆蓋立方體面232B及232C之較大影像塊及針對立方體面232B及232C之相對立方體面但不針對(例如)立方體面232A寫碼視訊資料。視情況,影像塊中之每一者可具有用於立體視訊資料之左側視圖及右側視圖。 VR係虛擬存在於藉由呈現由於沈浸的使用者之移動而相互關聯之天然及/或合成影像與聲音所產生之非實際世界中,從而允許使用者與該世界互動的能力。隨著在呈現器件(諸如頭戴式顯示器(HMD))及VR視訊創建(通常亦被稱作360度視訊)中所取得之最新進展,可提供顯著的體驗品質。VR應用包括遊戲、訓練、教育、體育視訊、聯機購物、成人娛樂等等。 典型VR系統可包括以下組件及技術: 1)攝影機組,其通常由指向不同方向且理想地共同覆蓋該攝影機組周圍之所有視點的多個單獨攝影機組成。 2)影像拼接,其中藉由多個單獨攝影機拍攝之視訊圖像在時域中同步且在空間域中拼接為球形視訊,但映射至矩形格式,諸如等矩形映射(如世界映射)或立方體映射。 3)使用視訊編解碼器(例如,H.265/HEVC或H.264/AVC)編碼/壓縮呈經映射矩形格式之視訊。 4)經壓縮視訊位元串流可以媒體格式儲存及/或囊封且經由網路傳輸(可能只有僅覆蓋使用者看見之區域的子集)至接收器。 5)接收器接收可能以一格式囊封之視訊位元串流或其部分,且將經解碼視訊信號或其部分發送至呈現器件。 6)呈現器件可為(例如) HMD,其可追蹤頭部移動且甚至眼睛移動時刻且呈現視訊之對應部分以使得將沈浸體驗傳遞給使用者。 與普通視訊相比,VR視訊之特徵為在VR中,通常僅顯示視訊圖像呈現之整個視訊區域的對應於當前FOV (亦被稱作檢視區,例如,使用者當前正觀看之區域)之子集,而在普通視訊應用中,通常顯示整個視訊區域。此特徵可用於(例如)藉由使用檢視區依賴性投影映射或檢視區依賴性視訊寫碼來改良VR視訊系統之效能。在呈現給使用者之視訊部分的解析度/品質相同的情況下,與習知VR視訊系統相比,性能改良可為降低傳輸頻寬及降低解碼複雜性中之任一者或兩者。 檢視區依賴性投影映射亦可被稱作不對稱投影映射。一個實例為經子取樣立方體映射,例如立方體投影230。典型立方體映射可包括六個相同大小的面。在經子取樣立方體映射之一個實例中,該等面中之一者可保持不變,而相對側上之面可經子取樣或向下按比例縮放至位於初始面形狀之中心區域處的較小大小,且相應地在幾何形狀上按比例縮放其他面(仍然保持六個面)。極端情況可為將相對側上之面向下按比例縮放至單個點,且因此立方體變為角錐形。在經子取樣立方體映射之另一實例中,例如以2×2之比例(亦即,在與該面之邊緣平行的每一方向上2:1)按比例減小一些面之大小。 此大小減小之按比例縮放亦可應用於諸如等矩形的其他投影映射之不同區域。一個實例為使上部區域及底部區域兩者(亦即,極點)大小減小。 檢視區依賴性視訊寫碼亦可被稱作基於檢視區之部分視訊解碼,以使得能夠僅部分地解碼整個經編碼視訊區域以為當前FOV或檢視區之顯示提供足夠的資訊。 在檢視區依賴性視訊寫碼之一個實例中,使用影像塊之受運動約束集合來寫碼VR視訊,使得覆蓋FOV或檢視區之每一潛在區域可獨立於其他區域地解碼。對於特定當前FOV或檢視區,將覆蓋當前FOV或檢視區之可獨立解碼影像塊之最小集合的經寫碼視訊資料發送至用戶端,解碼並顯示。此方法之缺點為當使用者將其頭部快速地轉動至所發送視訊資料未覆蓋之新FOV時,在覆蓋新FOV之資料到達前,無法看見視訊資料之影像塊未覆蓋之區域中的任何內容。此情形可容易地發生,除非網路之往返時間極其短(例如,在10毫秒之量值下),其為不可行的或至少為當今或不遠未來之巨大挑戰。 檢視區依賴性視訊寫碼之另一實例在2016年6月28日申請之美國專利申請案15/195,439中提出,該申請案之全部內容以引用的方式併入本文中,命名為獨立多解析度寫碼(IMRC),其中球形/全景視訊係以獨立於彼此之多個不同解析度加以編碼,且每一表示係使用影像塊之受運動約束集合加以寫碼。接收器選擇以不同解析度對球形/全景視訊之不同部分進行解碼。通常,球形視訊之使用者當前正觀察之部分(亦即,當前FOV或當前檢視區)係視訊位元串流之以最高解析度寫碼之部分。當前FOV周圍之區域係視訊位元串流之使用略微較低解析度寫碼之部分,諸如此類。全景之在觀測者頭部正後方之部分係視訊位元串流之以最低解析度寫碼之部分。所主張的係,在使用者頭部移動的情況下,使用者體驗在大多數情況下將僅少量降低,且品質降低僅在極大的突然頭部移動的情況下最嚴重,此極少發生。 在檢視區依賴性視訊寫碼之又一實例中,使用諸如SHVC之可調式視訊編解碼器可調式地寫碼具有多解析度之視訊位元串流。另外,始終發送最低解析度視訊(或基本層)之整個位元串流。不需要使用影像塊或影像塊之受運動約束集合來寫碼最低解析度視訊,但其在使用影像塊或影像塊之受運動約束集合加以寫碼之情況下亦將起作用。對於其他態樣,應用如上文所描述之相同策略。此方法允許最低解析度視訊之更高效寫碼,此係因為寫碼影像塊或影像塊之受影像塊運動約束集合降低寫碼效率,且亦由於使用層間預測而允許較高解析度之串流之更高效寫碼。另外,此方法亦允許更高效FOV切換,此係因為一旦FOV切換開始,伺服器或邊緣伺服器可立即停止發送來自具有更高解析度(相比於基本層)之視訊串流且未覆蓋新FOV之任何區域的視訊資料。若不發送覆蓋當前FOV之具有最低解析度之視訊資料(亦即,僅發送覆蓋當前FOV之具有最高解析度之視訊資料),則在FOV切換期間,伺服器有時將必須繼續發送來自具有最高解析度之視訊串流且僅覆蓋舊FOV或其部分的視訊資料,準備好以使得使用者在其轉回至舊FOV或其部分之情況下可至少看到最低品質之視訊。 在MPEG提案m37819中,論述關於傳信及使用導演剪輯之資訊的使用情況,使得即使在使用者不轉動其頭部或經由其他UI改變檢視區時,VR播放亦可顯示導演希望觀眾聚焦之動態改變的檢視區。其提及此檢視區可逐場景具備全向視訊。 本文所描述之一或多種技術准許用戶端器件40及/或伺服器器件60預提取用於包括一或多個最感興趣之區域的一或多個影像塊之高品質資料,而非必需僅依賴於使用者之視場來選擇品質以請求影像塊(例如,影像塊234A至234D、影像塊236A至236D、影像塊238A至238D及未展示立方體面之影像塊)。舉例而言,當表示一或多個最感興趣之區域的資料指示影像塊234A至234D包括一或多個最感興趣之區域時,用戶端器件40可在接收使用者之FOV之前請求影像塊234A至234D。在一實例中,其中FOV包括影像之不包括於一或多個最感興趣之區域中之區域,在接收使用者之FOV後,用戶端器件40可請求另外的影像塊(例如,236A至236D、238A至238D)以在較低品質下滿足使用者之當前FOV。以此方式,一或多個最感興趣之區域可經預提取(例如,在接收使用者之FOV前經提取)以准許以高品質接收一或多個最感興趣之區域,藉此改良視訊(諸如虛擬實境視訊)之播放。 圖5為說明根據本發明中所描述之一或多種技術的用以判定用於視訊資料之資訊的實例方法的流程圖。關於圖1之用戶端器件40及伺服器器件60描述圖5之方法。然而,應理解,其他器件可經組態以執行此等技術。 首先,伺服器器件60可發送表示影像之最感興趣之區域的資料(300)。表示最感興趣之區域的資料可在包括視訊資料之位元串流之VCL資料外部。舉例而言,伺服器器件60發送包括表示最感興趣之區域的資料之補充增強資訊(SEI)訊息。在一些實例中,伺服器器件60發送包括表示最感興趣之區域的資料之樣本組邏輯框(例如,圖3之SBGP邏輯框162)。在一些實例中,伺服器器件60發送包括表示最感興趣之區域的資料之計時後設資料播放軌。 在任何情況下,用戶端器件40可基於表示影像之最感興趣之區域的資料判定該等最感興趣之區域(302)。舉例而言,針對一或多個最感興趣之區域中之每一者,用戶端器件40可使用表示最感興趣之區域的資料來判定表示各別最感興趣之區域之位置及各別最感興趣之區域之大小的語法元素之值。 用戶端器件40可預提取用於一或多個最感興趣之區域的高品質視訊資料(304)。舉例而言,用戶端器件40可使用與影像之其他區域相比相對較高的位元速率來請求用於一或多個最感興趣之區域的視訊資料。伺服器器件60可接收預提取請求(306)且可發送用於一或多個最感興趣之區域的高品質視訊資料(308)。用戶端器件40可接收該高品質視訊資料(310)。舉例而言,用戶端器件40可以比用於影像之其他區域之視訊資料更低的延時及/或更高的品質提取用於一或多個最感興趣之區域的視訊資料。 用戶端器件40可輸出對用於影像之一或多個其他區域的低品質視訊資料之請求(314)。舉例而言,當一或多個最感興趣之區域包括圖4之影像238A至238D時且當使用者之FOV包括圖4之影像238A至238D及234C至234D時,用戶端器件40可請求與用於一或多個最感興趣之區域的視訊品質相比相對低品質的用於圖4之影像234C至234D之視訊資料。應理解,可不請求或可以與使用FOV判定之影像(例如,圖4之影像238A至238D及234C至234D)相比相對更低的品質請求FOV外之區域(例如,圖4之影像234A至234B)。 伺服器器件60可接收請求(316)且可發送用於影像之一或多個其他區域的經請求資料(318)。用戶端器件40可接收該經請求資料(320)。用戶端器件40可判定使用者之FOV (321)且向使用者輸出用於包括於FOV中之區域的資料(322)。舉例而言,用戶端器件40可判定使用者之FOV包括圖4之影像238A至238D及234C至234D且使用高品質視訊資料及低品質視訊資料輸出圖4之影像238A至238D及234C至234D以用於顯示(322)。 以此方式,圖5之方法表示方法之一實例,該方法包括:藉由用戶端器件之處理器(該處理器實施於電路中)基於表示視訊資料影像之複數個區域之一或多個最感興趣之區域的資料來判定該一或多個最感興趣之區域,表示該一或多個最感興趣之區域的資料係在包括該視訊資料之位元串流之視訊寫碼層(VCL)資料外部;藉由用戶端器件之處理器輸出對用於該影像之一或多個最感興趣之區域的相對高品質視訊資料之請求;以及在輸出對該相對高品質視訊資料之請求後,藉由用戶端器件之處理器輸出對用於該影像之一或多個其他區域的相對低品質視訊資料之請求。 同樣地,圖5之方法亦表示方法之一實例,該方法包括:藉由源器件之處理器(該處理器實施於電路中)判定視訊資料影像之複數個區域之一或多個最感興趣之區域,該一或多個最感興趣之區域包含用戶端器件最可能擷取之一或多個區域;以及藉由源器件之處理器產生表示該一或多個最感興趣之區域的資料,其中表示該一或多個最感興趣之區域的資料係在包括該視訊資料之位元串流之視訊寫碼層(VCL)資料外部。 圖6為說明根據本發明中所描述之一或多種技術的用以傳信用於視訊資料之資訊的實例方法的流程圖。關於圖1之用戶端器件40及伺服器器件60描述圖6之方法。然而,應理解,其他器件可經組態以執行此等技術。 首先,伺服器器件60可判定影像之一或多個最感興趣之區域(330)。舉例而言,伺服器器件60可接收導演或製作人對一或多個最感興趣之區域之選擇的指示或伺服器器件60 (或另一器件)可根據使用者統計資料推導一或多個最感興趣之區域。在任何情況下,伺服器器件60可產生表示最感興趣之區域的資料(332)。表示最感興趣之區域的資料可在包括視訊資料之位元串流之VCL資料外部。舉例而言,伺服器器件60可產生包括表示最感興趣之區域的資料之補充增強資訊(SEI)訊息。在一些實例中,伺服器器件60可產生包括表示最感興趣之區域的資料之檔案格式資料,諸如樣本組邏輯框(例如,圖3之SBGP邏輯框162)。在一些實例中,伺服器器件60可產生包括表示最感興趣之區域的資料之計時後設資料播放軌。 在任何情況下,伺服器器件60可發送表示最感興趣之區域的資料(334)且用戶端器件40可接收表示最感興趣之區域的資料(336)。回應於接收到表示最感興趣之區域的資料,用戶端器件40可輸出預提取用於一或多個最感興趣之區域的高品質視訊資料之請求(338)。伺服器器件60可接收預提取用於一或多個最感興趣之區域的高品質視訊資料之請求(340)且發送用於一或多個最感興趣之區域的高品質視訊資料(342)。用戶端器件40可接收該高品質視訊資料(344)。 用戶端器件40可輸出對用於影像之一或多個其他區域的低品質視訊資料之請求(346)。伺服器器件60可接收對用於影像之一或多個其他區域的低品質視訊資料之請求(348)。回應於接收到對用於影像之一或多個其他區域的低品質視訊資料之請求,伺服器器件60可發送用於影像之一或多個其他區域的低品質視訊資料(350)。用戶端器件40可接收該低品質視訊資料(352)。儘管圖6之實例中未展示,但用戶端器件40接著可繼續進行到(例如)基於使用者之視場向使用者呈現所接收視訊資料之至少部分,例如,如上文關於圖5所論述。 以此方式,圖6之方法表示方法之一實例,該方法包括:藉由用戶端器件之處理器(該處理器實施於電路中)基於表示視訊資料影像之複數個區域之一或多個最感興趣之區域的資料來判定該一或多個最感興趣之區域,表示該一或多個最感興趣之區域的資料係在包括該視訊資料之位元串流之視訊寫碼層(VCL)資料外部;藉由用戶端器件之處理器輸出對用於影像之一或多個最感興趣之區域的相對高品質視訊資料之請求;以及在輸出對該相對高品質視訊資料之請求後,藉由用戶端器件之處理器輸出對用於影像之一或多個其他區域的相對低品質視訊資料之請求。 同樣地,圖6之方法亦表示方法之一實例,該方法包括:藉由源器件之處理器(該處理器實施於電路中)判定視訊資料影像之複數個區域之一或多個最感興趣之區域,該一或多個最感興趣之區域包含用戶端器件最可能擷取之一或多個區域;以及藉由源器件之處理器產生表示該一或多個最感興趣之區域的資料,其中表示該一或多個最感興趣之區域的資料係在包括該視訊資料之位元串流之視訊寫碼層(VCL)資料外部。 圖7為說明根據本發明中所描述之一或多種技術的用於預提取視訊資料之實例方法的流程圖。關於圖1之用戶端器件40及伺服器器件60描述圖7之方法。然而,應理解,其他器件可經組態以執行此等技術。在圖7之實例中,伺服器器件60可組態為首先自源伺服器擷取資料且暫時儲存該資料之CDN伺服器。應理解,圖7之實例證實用戶端器件40及伺服器器件60中之任一者或兩者可使用表示最感興趣之區域的資料。 首先,伺服器器件60可接收表示影像之最感興趣之區域的資料(360)。表示最感興趣之區域的資料可在包括視訊資料之位元串流之VCL資料外部。舉例而言,伺服器器件60接收包括表示最感興趣之區域的資料之補充增強資訊(SEI)訊息。在一些實例中,伺服器器件60接收包括表示最感興趣之區域的資料之樣本組邏輯框(例如,圖3之SBGP邏輯框162)。在一些實例中,伺服器器件60接收包括表示最感興趣之區域的資料之計時後設資料播放軌。在任何情況下,伺服器器件60可預提取用於一或多個感興趣之區域的高品質視訊資料(362)。舉例而言,伺服器器件60可使用一或多個最感興趣之區域來預提取用於該一或多個最感興趣之區域的視訊資料。舉例而言,伺服器器件60可以比用於影像之其他區域的視訊資料更低的延時及/或更高的品質提取用於該一或多個最感興趣之區域的視訊資料。 在預提取用於一或多個感興趣之區域的高品質視訊資料後,伺服器器件60可儲存用於該一或多個最感興趣之區域的經預提取的高品質視訊資料(364)。在伺服器器件60為經組態以儲存(例如,快取)視訊資料之邊緣伺服器的一實例中,伺服器器件60可儲存該高品質視訊資料。在一些實例中,伺服器器件60可基於表示影像之最感興趣之區域的資料來判定用於一或多個最感興趣之區域的高品質視訊資料之儲存持續時間。舉例而言,當伺服器器件60判定高品質視訊資料對於最感興趣之區域較高時,伺服器器件60可將該高品質視訊資料分級為較高,使得用於最感興趣之區域的高品質視訊資料保持長期儲存,同時移除其他視訊資料(例如,用於其他區域),該等其他視訊資料係在與用於最感興趣之區域的高品質視訊資料類似的時間處擷取。 用戶端器件40可輸出預提取用於一或多個最感興趣之區域的高品質視訊資料之請求(366)。舉例而言,用戶端器件40可使用與影像之其他區域相比相對較高的位元速率來請求用於一或多個最感興趣之區域的視訊資料。伺服器器件60可接收該預提取請求(368)且可發送用於一或多個最感興趣之區域的高品質視訊資料(370)。用戶端器件40可接收該高品質視訊資料(372)。 用戶端器件40可輸出對用於影像之一或多個其他區域的低品質視訊資料之請求(374)。伺服器器件60可接收對用於影像之一或多個其他區域的低品質視訊資料之請求(376)。回應於接收到對用於影像之一或多個其他區域的低品質視訊資料之請求,伺服器器件60可提取用於影像之一或多個其他區域的低品質視訊資料(378)且發送用於影像之一或多個其他區域的低品質視訊資料(380)。用戶端器件40可接收該低品質視訊資料(382)。儘管圖7之實例中未展示,但用戶端器件40接著可繼續進行到(例如)基於使用者之視場向使用者呈現所接收視訊資料之至少部分,例如,如上文關於圖5所論述。 以此方式,圖7之方法表示方法之一實例,該方法包括:藉由用戶端器件之處理器(該處理器實施於電路中)基於表示視訊資料影像之複數個區域之一或多個最感興趣之區域的資料來判定該一或多個最感興趣之區域,表示該一或多個最感興趣之區域的資料係在包括該視訊資料之位元串流之視訊寫碼層(VCL)資料外部;藉由用戶端器件之處理器輸出對用於影像之一或多個最感興趣之區域的相對高品質視訊資料之請求;以及在輸出對該相對高品質視訊資料之請求後,藉由用戶端器件之處理器輸出對用於影像之一或多個其他區域的相對低品質視訊資料之請求。 同樣地,圖7之方法亦表示方法之一實例,該方法包括:藉由源器件之處理器(該處理器實施於電路中)判定視訊資料影像之複數個區域之一或多個最感興趣之區域,該一或多個最感興趣之區域包含用戶端器件最可能擷取之一或多個區域;以及藉由源器件之處理器產生表示該一或多個最感興趣之區域的資料,其中表示該一或多個最感興趣之區域的資料係在包括該視訊資料之位元串流之視訊寫碼層(VCL)資料外部。 在一或多個實例中,所描述功能可以硬體、軟體、韌體或其任何組合來實施。若以軟體實施,則該等功能可作為一或多個指令或程式碼而儲存於電腦可讀媒體上或經由電腦可讀媒體進行傳輸,且藉由基於硬體之處理單元來執行。電腦可讀媒體可包括:電腦可讀儲存媒體,其對應於諸如資料儲存媒體之有形媒體;或通信媒體,其包括例如根據通信協定促進電腦程式自一處至另一處之傳送的任何媒體。以此方式,電腦可讀媒體大體可對應於(1)非暫時性的有形電腦可讀儲存媒體,或(2)通信媒體,諸如信號或載波。資料儲存媒體可為可由一或多個電腦或一或多個處理器存取以擷取指令、程式碼及/或資料結構以用於實施本發明中所描述之技術的任何可用媒體。電腦程式產品可包括電腦可讀媒體。 藉助於實例而非限制,此類電腦可讀儲存媒體可包含RAM、ROM、EEPROM、CD-ROM或其他光碟儲存裝置、磁碟儲存裝置或其他磁性儲存器件、快閃記憶體或可用以儲存呈指令或資料結構形式之所要程式碼且可由電腦存取的任何其他媒體。又,將任何連接恰當地稱為電腦可讀媒體。舉例而言,若使用同軸纜線、光纖纜線、雙絞線、數位用戶線(DSL)或諸如紅外線、無線電及微波之無線技術自網站、伺服器或其他遠端源傳輸指令,則同軸纜線、光纖纜線、雙絞線、DSL或諸如紅外線、無線電及微波之無線技術包括於媒體之定義中。然而,應理解,電腦可讀儲存媒體及資料儲存媒體不包括連接、載波、信號或其他暫時性媒體,而是針對非暫時性有形儲存媒體。如本文中所使用,磁碟及光碟包括緊密光碟(CD)、雷射光碟、光學光碟、數位影音光碟(DVD)、軟碟及藍光光碟,其中磁碟通常以磁性方式再現資料,而光碟藉由雷射以光學方式再現資料。以上各者之組合亦應包括於電腦可讀媒體之範疇內。 指令可由一或多個處理器執行,該一或多個處理器諸如一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、場可程式化邏輯陣列(FPGA)或其他等效整合式或離散邏輯電路。因此,如本文中所使用之術語「處理器」可指上述結構或適用於實施本文中所描述之技術的任何其他結構中之任一者。另外,在一些態樣中,本文中所描述之功能性可提供於經組態用於編碼及解碼的專用硬體及/或軟體模組內,或併入組合式編解碼器中。又,該等技術可完全實施於一或多個電路或邏輯元件中。 本發明之技術可在廣泛多種器件或裝置中實施,該等器件或裝置包括無線手機、積體電路(IC)或IC集合(例如,晶片組)。在本發明中描述各種組件、模組或單元以強調經組態以執行所揭示技術之器件的功能態樣,但未必要求由不同硬體單元來實現。確切而言,如上文所描述,可將各種單元組合於編解碼器硬體單元中,或藉由互操作性硬體單元(包括如上文所描述之一或多個處理器)之集合結合合適之軟體及/或韌體來提供該等單元。 已描述各種實例。此等及其他實例係在以下申請專利範圍之範疇內。
10‧‧‧系統
20‧‧‧內容準備器件
22‧‧‧音訊源
24‧‧‧視訊源
26‧‧‧音訊編碼器
28‧‧‧視訊編碼器
30‧‧‧囊封單元
32‧‧‧輸出介面
40‧‧‧用戶端器件
42‧‧‧音訊輸出
44‧‧‧視訊輸出
46‧‧‧音訊解碼器
48‧‧‧視訊解碼器
50‧‧‧解囊封單元
52‧‧‧擷取單元
54‧‧‧網路介面
60‧‧‧伺服器器件
62‧‧‧儲存媒體
64‧‧‧多媒體內容
66‧‧‧資訊清單檔案
68‧‧‧表示
68A‧‧‧表示
68N‧‧‧表示
70‧‧‧請求處理單元
72‧‧‧網路介面
74‧‧‧網路
120‧‧‧多媒體內容
122‧‧‧媒體呈現描述
124‧‧‧表示
124A‧‧‧表示
124N‧‧‧表示
126‧‧‧標頭資料
128‧‧‧區段
128A‧‧‧區段
128B‧‧‧區段
128N‧‧‧區段
130‧‧‧標頭資料
132‧‧‧區段
132A‧‧‧區段
132B‧‧‧區段
132N‧‧‧區段
150‧‧‧視訊檔案
152‧‧‧檔案類型邏輯框
154‧‧‧電影邏輯框
156‧‧‧電影標頭邏輯框
158‧‧‧播放軌邏輯框
162‧‧‧樣本至群組邏輯框
164‧‧‧電影片段邏輯框
165‧‧‧播放軌片段邏輯框
166‧‧‧電影片段隨機存取邏輯框
167‧‧‧媒體資料邏輯框
170‧‧‧VCL NAL單元
172‧‧‧SEI訊息
230‧‧‧立方體投影
232A‧‧‧立方體面
232B‧‧‧立方體面
232C‧‧‧立方體面
234A‧‧‧影像塊
234B‧‧‧影像塊
234C‧‧‧影像塊
234D‧‧‧影像塊
236A‧‧‧影像塊
236B‧‧‧影像塊
236C‧‧‧影像塊
236D‧‧‧影像塊
238A‧‧‧影像塊
238B‧‧‧影像塊
238C‧‧‧影像塊
238D‧‧‧影像塊
300‧‧‧步驟
302‧‧‧步驟
304‧‧‧步驟
306‧‧‧步驟
308‧‧‧步驟
310‧‧‧步驟
314‧‧‧步驟
316‧‧‧步驟
318‧‧‧步驟
320‧‧‧步驟
321‧‧‧步驟
322‧‧‧步驟
330‧‧‧步驟
332‧‧‧步驟
334‧‧‧步驟
336‧‧‧步驟
338‧‧‧步驟
340‧‧‧步驟
342‧‧‧步驟
344‧‧‧步驟
346‧‧‧步驟
348‧‧‧步驟
350‧‧‧步驟
352‧‧‧步驟
360‧‧‧步驟
362‧‧‧步驟
364‧‧‧步驟
366‧‧‧步驟
368‧‧‧步驟
370‧‧‧步驟
372‧‧‧步驟
374‧‧‧步驟
376‧‧‧步驟
378‧‧‧步驟
380‧‧‧步驟
382‧‧‧步驟
圖1為說明實施用於經由網路來串流媒體資料之技術的實例系統的方塊圖。 圖2為說明實例多媒體內容之元素的概念圖。 圖3為說明實例視訊檔案之元素的方塊圖,該實例視訊檔案可對應於圖2之表示。 圖4為以立方體投影說明實例影像塊寫碼的概念圖。 圖5為說明根據本發明中所描述之一或多種技術的用以判定用於視訊資料之資訊的實例方法的流程圖。 圖6為說明根據本發明中所描述之一或多種技術的用以傳信用於視訊資料之資訊的實例方法的流程圖。 圖7為說明根據本發明中所描述之一或多種技術的用於預提取視訊資料之實例方法的流程圖。
300‧‧‧步驟
302‧‧‧步驟
304‧‧‧步驟
306‧‧‧步驟
308‧‧‧步驟
310‧‧‧步驟
314‧‧‧步驟
316‧‧‧步驟
318‧‧‧步驟
320‧‧‧步驟
321‧‧‧步驟
322‧‧‧步驟

Claims (44)

  1. 一種判定用於視訊資料之資訊的方法,該方法包含: 藉由一用戶端器件之一處理器基於表示一視訊資料影像之複數個區域中之一或多個最感興趣之區域的資料來判定該一或多個最感興趣之區域,該處理器實施於電路中,表示該一或多個最感興趣之區域的該資料係在包括該視訊資料之一位元串流之視訊寫碼層(VCL)資料外部; 藉由該用戶端器件之該處理器輸出對用於該影像之該一或多個最感興趣之區域的相對高品質視訊資料之一請求;及 在輸出對該相對高品質視訊資料之該請求後,藉由該用戶端器件之該處理器輸出對用於該影像之一或多個其他區域的相對低品質視訊資料之一請求。
  2. 如請求項1之方法,其進一步包含: 在輸出對用於該影像之該一或多個最感興趣之區域的該相對高品質視訊資料之該請求後,藉由該用戶端器件之該處理器基於一視場(FOV)輸出對用於一隨後影像之一或多個區域的相對高品質視訊資料之一請求。
  3. 如請求項1之方法,其中判定該一或多個最感興趣之區域包含基於包括表示該一或多個最感興趣之區域的該資料之一補充增強資訊(SEI)訊息來判定該一或多個最感興趣之區域。
  4. 如請求項1之方法,其中判定該一或多個最感興趣之區域包含基於包括表示該一或多個最感興趣之區域的該資料之一樣本組邏輯框來判定該一或多個最感興趣之區域,該樣本組邏輯框係包括於包括該VCL資料之一檔案之檔案格式標頭資訊中。
  5. 如請求項1之方法,其中判定該影像之該複數個區域中之該一或多個最感興趣之區域包含基於包括表示該一或多個最感興趣之區域的該資料之一計時後設資料播放軌來判定該影像之該複數個區域中之該一或多個最感興趣之區域。
  6. 如請求項1之方法,其中判定該一或多個最感興趣之區域包含基於包括表示該一或多個最感興趣之區域的該資料之一HTTP動態自適應串流(DASH)媒體呈現描述(MPD)來判定該一或多個最感興趣之區域。
  7. 如請求項1之方法,其中判定該一或多個最感興趣之區域包含基於表示該一或多個最感興趣之區域的該資料之至少一個語法元素來判定該一或多個最感興趣之區域,該語法元素具有表示該一或多個最感興趣之區域的一數目之一值。
  8. 如請求項1之方法,其中判定該一或多個最感興趣之區域包含針對該一或多個最感興趣之區域中之每一最感興趣之區域,判定表示一各別最感興趣之區域之一位置及該各別最感興趣之區域之一大小的複數個語法元素之複數個值。
  9. 如請求項8之方法,其中針對該一或多個最感興趣之區域中之每一最感興趣之區域判定表示該各別最感興趣之區域之該位置及該各別最感興趣之區域之該大小的該複數個語法元素之該複數個值包含針對該一或多個最感興趣之區域中之每一最感興趣之區域,判定該各別最感興趣之區域上表示該各別最感興趣之區域之該位置及該各別最感興趣之區域之該大小的一循環。
  10. 如請求項8之方法,其中針對該一或多個最感興趣之區域中之每一最感興趣之區域判定表示該各別最感興趣之區域之該位置及該各別最感興趣之區域之該大小的該複數個語法元素之該複數個值包含針對該一或多個最感興趣之區域中之每一最感興趣之區域,判定表示該各別最感興趣之區域之一頂部的一第一語法元素、表示該各別最感興趣之區域之一底部的一第二語法元素、表示該各別最感興趣之區域之一左側的一第三語法元素及表示該各別最感興趣之區域之一右側的一第四語法元素。
  11. 如請求項8之方法,其中針對該一或多個最感興趣之區域中之每一最感興趣之區域判定表示該各別最感興趣之區域之該位置及該各別最感興趣之區域之該大小的該複數個語法元素之該複數個值包含針對該一或多個最感興趣之區域中之每一最感興趣之區域,判定表示該各別最感興趣之區域之一左上角的一第一語法元素及表示該各別最感興趣之區域之一右下角的一第二語法元素。
  12. 如請求項8之方法,其中針對該一或多個最感興趣之區域中之每一最感興趣之區域判定表示該各別最感興趣之區域之該位置及該各別最感興趣之區域之該大小的該複數個語法元素之該複數個值包含針對該一或多個最感興趣之區域中之每一最感興趣之區域,判定表示該各別最感興趣之區域之一左上角的一第一語法元素、表示該各別最感興趣之區域之一寬度的一第二語法元素及表示該各別最感興趣之區域之一高度的一第三語法元素。
  13. 一種用以判定用於視訊資料之資訊的器件,該器件包含實施於電路中之一或多個處理器,該一或多個處理器經組態以: 基於表示一視訊資料影像之複數個區域中之一或多個最感興趣之區域的資料來判定該一或多個最感興趣之區域,表示該一或多個最感興趣之區域的該資料係在包括該視訊資料之一位元串流之視訊寫碼層(VCL)資料外部; 輸出對用於該影像之該一或多個最感興趣之區域的相對高品質視訊資料之一請求;及 在輸出對該相對高品質視訊資料之該請求後,輸出對用於該影像之一或多個其他區域的相對低品質視訊資料之一請求。
  14. 如請求項13之器件,其中為判定該一或多個最感興趣之區域,該一或多個處理器經進一步組態以: 基於包括表示該一或多個最感興趣之區域的該資料之一樣本組邏輯框來判定該一或多個最感興趣之區域,該樣本組邏輯框係包括於包括該VCL資料之一檔案之檔案格式標頭資訊中。
  15. 如請求項13之器件,其中為判定該一或多個最感興趣之區域,該一或多個處理器經進一步組態以: 基於包括表示該一或多個最感興趣之區域的該資料之一計時後設資料播放軌來判定該一或多個最感興趣之區域。
  16. 如請求項13之器件,其中為判定該一或多個最感興趣之區域,該一或多個處理器經進一步組態以: 基於表示該一或多個最感興趣之區域的該資料之至少一個語法元素來判定該一或多個最感興趣之區域,該語法元素具有表示該一或多個最感興趣之區域的一數目之一值。
  17. 如請求項13之器件,其中為判定該一或多個最感興趣之區域,該一或多個處理器經進一步組態以: 針對該一或多個最感興趣之區域中之每一最感興趣之區域,判定該一或多個最感興趣之區域、表示一各別最感興趣之區域之一位置及該各別最感興趣之區域之一大小的複數個語法元素之複數個值。
  18. 如請求項17之器件,其中為針對該一或多個最感興趣之區域中之每一最感興趣之區域判定表示該各別最感興趣之區域之該位置及該各別最感興趣之區域之該大小的該複數個語法元素之該複數個值,該一或多個處理器經進一步組態以: 針對該一或多個最感興趣之區域中之每一最感興趣之區域,判定該各別最感興趣之區域上表示該各別最感興趣之區域之該位置及該各別最感興趣之區域之該大小的一循環。
  19. 如請求項17之器件,其中為針對該一或多個最感興趣之區域中之每一最感興趣之區域判定表示該各別最感興趣之區域之該位置及該各別最感興趣之區域之該大小的該複數個語法元素之該複數個值,該一或多個處理器經進一步組態以: 針對該一或多個最感興趣之區域中之每一最感興趣之區域,判定表示該各別最感興趣之區域之一頂部的一第一語法元素、表示該各別最感興趣之區域之一底部的一第二語法元素、表示該各別最感興趣之區域之一左側的一第三語法元素及表示該各別最感興趣之區域之一右側的一第四語法元素。
  20. 如請求項17之器件,其中為針對該一或多個最感興趣之區域中之每一最感興趣之區域判定表示該各別最感興趣之區域之該位置及該各別最感興趣之區域之該大小的該複數個語法元素之該複數個值,該一或多個處理器經進一步組態以: 針對該一或多個最感興趣之區域中之每一最感興趣之區域,判定表示該各別最感興趣之區域之一左上角的一第一語法元素、表示該各別最感興趣之區域之一寬度的一第二語法元素及表示該各別最感興趣之區域之一高度的一第三語法元素。
  21. 一種用以判定用於視訊資料之資訊的器件,該器件包含: 用於基於表示一視訊資料影像之複數個區域中之一或多個最感興趣之區域的資料來判定該一或多個最感興趣之區域的構件,表示該一或多個最感興趣之區域的該資料係在包括該視訊資料之一位元串流之視訊寫碼層(VCL)資料外部; 用於輸出對用於該影像之該一或多個最感興趣之區域的相對高品質視訊資料之一請求的構件;及 用於在輸出對該相對高品質視訊資料之該請求後,輸出對用於該影像之一或多個其他區域的相對低品質視訊資料之一請求的構件。
  22. 一種其上儲存有指令之電腦可讀儲存媒體,該等指令在經執行時使得一處理器進行以下操作: 基於表示一視訊資料影像之複數個區域中之一或多個最感興趣之區域的資料來判定該一或多個最感興趣之區域,表示該一或多個最感興趣之區域的該資料係在包括該視訊資料之一位元串流之視訊寫碼層(VCL)資料外部; 輸出對用於該影像之該一或多個最感興趣之區域的相對高品質視訊資料之一請求;及 在輸出對該相對高品質視訊資料之該請求後,輸出對用於該影像之一或多個其他區域的相對低品質視訊資料之一請求。
  23. 一種傳信用於視訊資料之資訊的方法,該方法包含: 藉由一源器件之一處理器判定一視訊資料影像之複數個區域中之一或多個最感興趣之區域,該處理器實施於電路中,該一或多個最感興趣之區域包含一用戶端器件最可能擷取之一或多個區域;及 藉由該源器件之該處理器產生表示該一或多個最感興趣之區域的資料,其中表示該一或多個最感興趣之區域的該資料係在包括該視訊資料之一位元串流之視訊寫碼層(VCL)資料外部。
  24. 如請求項23之方法,其中產生表示該一或多個最感興趣之區域的該資料包含產生包括表示該一或多個最感興趣之區域的該資料之一補充增強資訊(SEI)訊息。
  25. 如請求項23之方法,其中產生表示該一或多個最感興趣之區域的該資料包含產生包括表示該一或多個最感興趣之區域的該資料之一樣本組邏輯框,該樣本組邏輯框係包括於包括該VCL資料之一檔案之檔案格式標頭資訊中。
  26. 如請求項23之方法,產生表示該一或多個最感興趣之區域的該資料包含產生包括表示該一或多個最感興趣之區域的該資料之一計時後設資料播放軌。
  27. 如請求項23之方法,其中產生表示該一或多個最感興趣之區域的該資料包含產生包括表示該一或多個最感興趣之區域的該資料之一HTTP動態自適應串流(DASH)媒體呈現描述(MPD)。
  28. 如請求項23之方法,其中產生表示該一或多個最感興趣之區域的該資料包含產生表示該一或多個最感興趣之區域的該資料之至少一個語法元素,該語法元素具有表示該一或多個最感興趣之區域的一數目之一值。
  29. 如請求項23之方法,其中產生表示該一或多個最感興趣之區域的該資料包含針對該一或多個最感興趣之區域中之每一最感興趣之區域,產生表示一各別最感興趣之區域之一位置及該各別最感興趣之區域之一大小的複數個語法元素之複數個值。
  30. 如請求項29之方法,其中針對該一或多個最感興趣之區域中之每一最感興趣之區域產生表示該各別最感興趣之區域之該位置及該各別最感興趣之區域之該大小的該複數個語法元素之該複數個值包含針對該一或多個最感興趣之區域中之每一最感興趣之區域,產生該各別最感興趣之區域上表示該各別最感興趣之區域之該位置及該各別最感興趣之區域之該大小的一循環。
  31. 如請求項29之方法,其中針對該一或多個最感興趣之區域中之每一最感興趣之區域產生表示該各別最感興趣之區域之該位置及該各別最感興趣之區域之該大小的該複數個語法元素之該複數個值包含針對該一或多個最感興趣之區域中之每一最感興趣之區域,產生表示該各別最感興趣之區域之一頂部的一第一語法元素、表示該各別最感興趣之區域之一底部的一第二語法元素、表示該各別最感興趣之區域之一左側的一第三語法元素及表示該各別最感興趣之區域之一右側的一第四語法元素。
  32. 如請求項29之方法,其中針對該一或多個最感興趣之區域中之每一最感興趣之區域產生表示該各別最感興趣之區域之該位置及該各別最感興趣之區域之該大小的該複數個語法元素之該複數個值包含針對該一或多個最感興趣之區域中之每一最感興趣之區域,產生表示該各別最感興趣之區域之一左上角的一第一語法元素及表示該各別最感興趣之區域之一右下角的一第二語法元素。
  33. 如請求項29之方法,其中針對該一或多個最感興趣之區域中之每一最感興趣之區域產生表示該各別最感興趣之區域之該位置及該各別最感興趣之區域之該大小的該複數個語法元素之該複數個值包含針對該一或多個最感興趣之區域中之每一最感興趣之區域,產生表示該各別最感興趣之區域之一左上角的一第一語法元素、表示該各別最感興趣之區域之一寬度的一第二語法元素及表示該各別最感興趣之區域之一高度的一第三語法元素。
  34. 如請求項23之方法,其中判定該一或多個最感興趣之區域包含使用一導演之一意向或使用者統計資料中之一或多者來判定該等最感興趣之區域。
  35. 一種用以傳信用於視訊資料之資訊的器件,該器件包含實施於電路中之一或多個處理器,該一或多個處理器經組態以: 判定一視訊資料影像之複數個區域中之一或多個最感興趣之區域,該一或多個最感興趣之區域包含一用戶端器件最可能擷取之一或多個區域;及 產生表示該一或多個最感興趣之區域的資料,其中表示該一或多個最感興趣之區域的該資料係在包括該視訊資料之一位元串流之視訊寫碼層(VCL)資料外部。
  36. 如請求項35之器件,其中為產生表示該一或多個最感興趣之區域的資料,該一或多個處理器經進一步組態以: 產生包括表示該一或多個最感興趣之區域的該資料之一樣本組邏輯框,該樣本組邏輯框係包括於包括該VCL資料之一檔案之檔案格式標頭資訊中。
  37. 如請求項35之器件,其中為產生表示該一或多個最感興趣之區域的資料,該一或多個處理器經進一步組態以: 產生包括表示該一或多個最感興趣之區域的該資料之一計時後設資料播放軌。
  38. 如請求項35之器件,其中為產生表示該一或多個最感興趣之區域的資料,該一或多個處理器經進一步組態以: 產生表示該一或多個最感興趣之區域的一數目之一值。
  39. 如請求項35之器件,其中為產生表示該一或多個最感興趣之區域的資料,該一或多個處理器經進一步組態以: 針對該一或多個最感興趣之區域中之每一最感興趣之區域,產生表示一各別最感興趣之區域之一位置及該各別最感興趣之區域之一大小的複數個語法元素之複數個值。
  40. 如請求項39之器件,其中為針對該一或多個最感興趣之區域中之每一最感興趣之區域產生表示該各別最感興趣之區域之該位置及該各別最感興趣之區域之該大小的該複數個語法元素之該複數個值,該一或多個處理器經進一步組態以: 針對該一或多個最感興趣之區域中之每一最感興趣之區域,產生該各別最感興趣之區域上表示該各別最感興趣之區域之該位置及該各別最感興趣之區域之該大小的一循環。
  41. 如請求項39之器件,其中為針對該一或多個最感興趣之區域中之每一最感興趣之區域產生表示該各別最感興趣之區域之該位置及該各別最感興趣之區域之該大小的該複數個語法元素之該複數個值,該一或多個處理器經進一步組態以: 針對該一或多個最感興趣之區域中之每一最感興趣之區域,產生表示該各別最感興趣之區域之一頂部的一第一語法元素、表示該各別最感興趣之區域之一底部的一第二語法元素、表示該各別最感興趣之區域之一左側的一第三語法元素及表示該各別最感興趣之區域之一右側的一第四語法元素。
  42. 如請求項39之器件,其中為針對該一或多個最感興趣之區域中之每一最感興趣之區域產生表示該各別最感興趣之區域之該位置及該各別最感興趣之區域之該大小的該複數個語法元素之該複數個值,該一或多個處理器經進一步組態以: 針對該一或多個最感興趣之區域中之每一最感興趣之區域,產生表示該各別最感興趣之區域之一左上角的一第一語法元素、表示該各別最感興趣之區域之一寬度的一第二語法元素及表示該各別最感興趣之區域之一高度的一第三語法元素。
  43. 一種用以傳信用於視訊資料之資訊的器件,該器件包含: 用於判定一視訊資料影像之複數個區域中之一或多個最感興趣之區域的構件,該一或多個最感興趣之區域包含一用戶端器件最可能擷取之一或多個區域;及 用於產生表示該一或多個最感興趣之區域的資料的構件,其中表示該一或多個最感興趣之區域的該資料係在包括該視訊資料之一位元串流之視訊寫碼層(VCL)資料外部。
  44. 一種其上儲存有指令之電腦可讀儲存媒體,該等指令在經執行時使得一處理器進行以下操作: 判定一視訊資料影像之複數個區域中之一或多個最感興趣之區域,該一或多個最感興趣之區域包含一用戶端器件最可能擷取之一或多個區域;及 產生表示該一或多個最感興趣之區域的資料,其中表示該一或多個最感興趣之區域的該資料係在包括該視訊資料之一位元串流之視訊寫碼層(VCL)資料外部。
TW106115436A 2016-05-19 2017-05-10 在圖像中最感興趣之區域 TW201810998A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201662339009P 2016-05-19 2016-05-19
US62/339,009 2016-05-19
US15/589,782 2017-05-08
US15/589,782 US10582201B2 (en) 2016-05-19 2017-05-08 Most-interested region in an image

Publications (1)

Publication Number Publication Date
TW201810998A true TW201810998A (zh) 2018-03-16

Family

ID=58710167

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106115436A TW201810998A (zh) 2016-05-19 2017-05-10 在圖像中最感興趣之區域

Country Status (10)

Country Link
US (1) US10582201B2 (zh)
EP (1) EP3459247B1 (zh)
JP (1) JP2019519981A (zh)
KR (1) KR102252238B1 (zh)
CN (1) CN109076229B (zh)
BR (1) BR112018073451A2 (zh)
CA (1) CA3020511A1 (zh)
ES (1) ES2896687T3 (zh)
TW (1) TW201810998A (zh)
WO (1) WO2017200804A1 (zh)

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10291923B2 (en) 2016-05-24 2019-05-14 Qualcomm Incorporated Mapping of tile grouping and samples in HEVC and L-HEVC file formats
EP3485646B1 (en) 2016-07-15 2022-09-07 Koninklijke KPN N.V. Streaming virtual reality video
TWI599218B (zh) * 2016-07-29 2017-09-11 元智大學 即時影音傳輸系統
EP3513562A1 (en) * 2016-09-14 2019-07-24 Koninklijke KPN N.V. Streaming virtual reality video
CN114928736B (zh) 2016-10-12 2024-04-19 弗劳恩霍夫应用研究促进协会 空间不均等流媒体化
US11197040B2 (en) * 2016-10-17 2021-12-07 Mediatek Inc. Deriving and signaling a region or viewport in streaming media
EP3535644B1 (en) 2016-11-04 2023-02-22 Koninklijke KPN N.V. Streaming virtual reality video
US20180176468A1 (en) 2016-12-19 2018-06-21 Qualcomm Incorporated Preferred rendering of signalled regions-of-interest or viewports in virtual reality video
US10999602B2 (en) 2016-12-23 2021-05-04 Apple Inc. Sphere projected motion estimation/compensation and mode decision
US11290755B2 (en) 2017-01-10 2022-03-29 Qualcomm Incorporated Signaling data for prefetching support for streaming media data
US11259046B2 (en) 2017-02-15 2022-02-22 Apple Inc. Processing of equirectangular object data to compensate for distortion by spherical projections
WO2018155939A1 (ko) * 2017-02-22 2018-08-30 에스케이텔레콤 주식회사 영상 복호화 방법 및 장치
KR102424829B1 (ko) * 2017-02-22 2022-07-25 에스케이텔레콤 주식회사 비디오 데이터가 부호화된 비트스트림을 처리하는 방법
US10924747B2 (en) 2017-02-27 2021-02-16 Apple Inc. Video coding techniques for multi-view video
US11093752B2 (en) 2017-06-02 2021-08-17 Apple Inc. Object tracking in multi-view video
JP6797755B2 (ja) * 2017-06-20 2020-12-09 キヤノン株式会社 撮像装置、撮像装置の処理方法およびプログラム
US10754242B2 (en) * 2017-06-30 2020-08-25 Apple Inc. Adaptive resolution and projection format in multi-direction video
JP7035401B2 (ja) * 2017-09-15 2022-03-15 ソニーグループ株式会社 画像処理装置およびファイル生成装置
US10931725B2 (en) * 2017-09-29 2021-02-23 Apple Inc. Multiway audio-video conferencing
CN111201796A (zh) 2017-10-04 2020-05-26 Vid拓展公司 定制的360度媒体观看
US10390063B2 (en) 2017-12-22 2019-08-20 Comcast Cable Communications, Llc Predictive content delivery for video streaming services
US10798455B2 (en) 2017-12-22 2020-10-06 Comcast Cable Communications, Llc Video delivery
EP3741130B1 (en) * 2018-04-05 2023-11-22 Huawei Technologies Co., Ltd. Efficient association between dash objects
CN110519652B (zh) * 2018-05-22 2021-05-18 华为软件技术有限公司 Vr视频播放方法、终端及服务器
US10623791B2 (en) 2018-06-01 2020-04-14 At&T Intellectual Property I, L.P. Field of view prediction in live panoramic video streaming
US10812774B2 (en) 2018-06-06 2020-10-20 At&T Intellectual Property I, L.P. Methods and devices for adapting the rate of video content streaming
US11108841B2 (en) 2018-06-19 2021-08-31 At&T Intellectual Property I, L.P. Apparatus, storage medium and method for heterogeneous segmentation of video streaming
CN108833976B (zh) * 2018-06-27 2020-01-24 深圳看到科技有限公司 一种全景视频动态切流后的画面质量评估方法及装置
US10616621B2 (en) 2018-06-29 2020-04-07 At&T Intellectual Property I, L.P. Methods and devices for determining multipath routing for panoramic video content
CN110798707B (zh) * 2018-08-02 2023-06-16 华为技术有限公司 传输媒体数据的方法、客户端和服务器
US10708494B2 (en) 2018-08-13 2020-07-07 At&T Intellectual Property I, L.P. Methods, systems and devices for adjusting panoramic video content
US11019361B2 (en) 2018-08-13 2021-05-25 At&T Intellectual Property I, L.P. Methods, systems and devices for adjusting panoramic view of a camera for capturing video content
US10826964B2 (en) 2018-09-05 2020-11-03 At&T Intellectual Property I, L.P. Priority-based tile transmission system and method for panoramic video streaming
JP2021192471A (ja) * 2018-09-14 2021-12-16 ソニーグループ株式会社 表示制御装置および表示制御方法、並びにプログラム
US10999583B2 (en) 2018-09-14 2021-05-04 Apple Inc. Scalability of multi-directional video streaming
US10779014B2 (en) * 2018-10-18 2020-09-15 At&T Intellectual Property I, L.P. Tile scheduler for viewport-adaptive panoramic video streaming
US10560759B1 (en) 2018-10-23 2020-02-11 At&T Intellectual Property I, L.P. Active network support on adaptive virtual reality video transmission
US10939139B2 (en) 2018-11-29 2021-03-02 Apple Inc. Adaptive coding and streaming of multi-directional video
US11032607B2 (en) 2018-12-07 2021-06-08 At&T Intellectual Property I, L.P. Methods, devices, and systems for embedding visual advertisements in video content
EP3906701A4 (en) * 2019-01-04 2022-09-07 Nokia Technologies Oy METHOD AND APPARATUS FOR STORING AND SIGNALING MEDIA SEGMENT SIZES AND PRIORITY ORDERS
KR20200092127A (ko) 2019-01-24 2020-08-03 현대자동차주식회사 형상기억 고분자를 적용한 자동차 패널의 복원방법
US11523185B2 (en) 2019-06-19 2022-12-06 Koninklijke Kpn N.V. Rendering video stream in sub-area of visible display area
CN112312159A (zh) * 2019-07-30 2021-02-02 华为技术有限公司 视频的缓存方法和装置
US11956295B2 (en) 2019-09-27 2024-04-09 Apple Inc. Client-end enhanced view prediction for multi-view video streaming exploiting pre-fetched data and side information
US11303688B2 (en) * 2019-09-30 2022-04-12 Tencent America LLC Methods and apparatuses for dynamic adaptive streaming over HTTP
US11503099B2 (en) * 2020-03-31 2022-11-15 Google Llc Methods, systems, and media for selecting video formats for adaptive video streaming
WO2021204137A1 (en) * 2020-04-07 2021-10-14 Beijing Bytedance Network Technology Co., Ltd. Clipping operation for reference picture wrap around
CN115428457A (zh) 2020-04-09 2022-12-02 抖音视界有限公司 基于颜色格式的自适应参数集的约束
CN115486064A (zh) 2020-04-10 2022-12-16 抖音视界有限公司 标头语法元素和自适应参数集的使用
WO2021209061A1 (en) 2020-04-17 2021-10-21 Beijing Bytedance Network Technology Co., Ltd. Presence of adaptation parameter set units
WO2021222036A1 (en) 2020-04-26 2021-11-04 Bytedance Inc. Conditional signaling of video coding syntax elements
CN112601117B (zh) * 2020-12-11 2022-10-28 海信视像科技股份有限公司 显示设备和内容展示方法
US11930295B2 (en) 2020-09-17 2024-03-12 Lemon Inc. Handling of non-VCL NAL units in picture unit construction
CA3228680A1 (en) * 2021-08-09 2023-02-16 Ahmad VAKILI (safa) System and method for real-time multi-resolution video stream tile encoding with selective tile delivery by aggregator-server to the client based on user position and depth requirement
US20240223780A1 (en) * 2023-01-04 2024-07-04 Meta Platforms Technologies, Llc Generating tile-based region of interest representation of video frames for video encoding

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080069890A (ko) * 2007-01-24 2008-07-29 강호갑 사용자의 서비스 등급에 따라 차등화된 이미지 품질을제공하는 보호된 이미지 서비스 시스템
EP2174500A2 (en) * 2007-06-29 2010-04-14 Thomson Licensing Video indexing method, and video indexing device
CN101779465A (zh) * 2007-08-15 2010-07-14 汤姆森许可贸易公司 使用兴趣区域(roi)信息改进视频编码的方法和设备
KR101042352B1 (ko) * 2008-08-29 2011-06-17 한국전자통신연구원 멀티미디어 방송 시스템에서의 방송신호 수신장치 및 그 방법
JP2010212811A (ja) * 2009-03-06 2010-09-24 Panasonic Corp 動画像符号化装置及び動画像復号化装置
EP2424247B1 (en) * 2009-04-21 2016-08-24 LG Electronics Inc. Method and apparatus for processing multi-view video signal
US8667054B2 (en) * 2010-07-12 2014-03-04 Opus Medicus, Inc. Systems and methods for networked, in-context, composed, high resolution image viewing
KR20120059214A (ko) * 2010-11-30 2012-06-08 고려대학교 산학협력단 적응적 관심 영역을 적용한 비디오 스트리밍을 제공하는 비디오 코덱 장치 및 그 방법
WO2013077236A1 (en) * 2011-11-21 2013-05-30 Canon Kabushiki Kaisha Image coding apparatus, image coding method, image decoding apparatus, image decoding method, and storage medium
KR102162119B1 (ko) * 2012-06-29 2020-10-06 지이 비디오 컴프레션, 엘엘씨 비디오 데이터 스트림 개념
US10021394B2 (en) * 2012-09-24 2018-07-10 Qualcomm Incorporated Hypothetical reference decoder parameters in video coding
US9491457B2 (en) 2012-09-28 2016-11-08 Qualcomm Incorporated Signaling of regions of interest and gradual decoding refresh in video coding
KR101987820B1 (ko) * 2012-10-05 2019-06-11 삼성전자주식회사 고 해상도 컨텐츠를 처리하는 컨텐츠 처리 장치 및 그 방법
CN110139130B (zh) * 2012-10-12 2022-09-20 佳能株式会社 流传输数据的方法、发送和接收视频数据的方法和设备
US9521393B2 (en) * 2013-01-07 2016-12-13 Qualcomm Incorporated Non-nested SEI messages in video coding
KR101972284B1 (ko) * 2013-04-08 2019-04-24 소니 주식회사 Shvc를 이용한 관심 영역 확장성
US10438633B2 (en) * 2013-05-26 2019-10-08 Pixellot Ltd. Method and system for low cost television production
US10003815B2 (en) * 2013-06-03 2018-06-19 Qualcomm Incorporated Hypothetical reference decoder model and conformance for cross-layer random access skipped pictures
EP3008896B1 (en) * 2013-07-15 2021-03-31 Sony Corporation Extensions of motion-constrained tile sets sei message for interactivity
EP3680347B1 (en) * 2013-10-18 2022-08-10 Seven Bridges Genomics Inc. Methods and systems for identifying disease-induced mutations
US10645404B2 (en) * 2014-03-24 2020-05-05 Qualcomm Incorporated Generic use of HEVC SEI messages for multi-layer codecs
JP2015222470A (ja) * 2014-05-22 2015-12-10 ソニー株式会社 映像表示装置、情報処理装置、及び映像表示システム
KR101953679B1 (ko) 2014-06-27 2019-03-04 코닌클리즈케 케이피엔 엔.브이. Hevc-타일드 비디오 스트림을 기초로 한 관심영역 결정
WO2016043637A1 (en) * 2014-09-19 2016-03-24 Telefonaktiebolaget L M Ericsson (Publ) Methods, encoders and decoders for coding of video sequences
US9800898B2 (en) * 2014-10-06 2017-10-24 Microsoft Technology Licensing, Llc Syntax structures indicating completion of coded regions

Also Published As

Publication number Publication date
CN109076229B (zh) 2022-04-15
EP3459247B1 (en) 2021-10-13
JP2019519981A (ja) 2019-07-11
KR20190009290A (ko) 2019-01-28
US10582201B2 (en) 2020-03-03
ES2896687T3 (es) 2022-02-25
CN109076229A (zh) 2018-12-21
BR112018073451A2 (pt) 2019-03-26
CA3020511A1 (en) 2017-11-23
WO2017200804A1 (en) 2017-11-23
EP3459247A1 (en) 2019-03-27
KR102252238B1 (ko) 2021-05-14
US20170339415A1 (en) 2017-11-23

Similar Documents

Publication Publication Date Title
CN109076229B (zh) 在图片中最感兴趣的区域
KR102342274B1 (ko) 이미지에서 가장 관심있는 영역의 진보된 시그널링
US11375291B2 (en) Virtual reality video signaling in dynamic adaptive streaming over HTTP
TWI748114B (zh) 用於媒體內容之按區塊包裝,內容覆蓋度,以及發信訊框包裝
TW201841512A (zh) 在使用mime類型參數之網路視頻串流中發信重要視頻資訊
TW201830974A (zh) 對於用於串流媒體資料之預取支持之資料發信
TW201909625A (zh) 用於在經由超文本傳輸協定(http)之動態自適應串流(dash)中之魚眼虛擬實境視訊之增強的高階發信號
TW201907717A (zh) 用於魚眼視訊資料之高階發信號
KR102117805B1 (ko) 전방향성 미디어 포맷을 이용한 미디어 데이터 프로세싱
TW202027512A (zh) 用於媒體資料之網路串流之初始化集合
KR101436267B1 (ko) 비디오 구성요소들을 멀티플렉싱하기 위한 데이터의 시그널링