TW201909007A - 使用用於檔案格式邏輯框之一通用描述符處理媒體資料 - Google Patents

使用用於檔案格式邏輯框之一通用描述符處理媒體資料 Download PDF

Info

Publication number
TW201909007A
TW201909007A TW107123911A TW107123911A TW201909007A TW 201909007 A TW201909007 A TW 201909007A TW 107123911 A TW107123911 A TW 107123911A TW 107123911 A TW107123911 A TW 107123911A TW 201909007 A TW201909007 A TW 201909007A
Authority
TW
Taiwan
Prior art keywords
media
data
file
descriptor
box
Prior art date
Application number
TW107123911A
Other languages
English (en)
Inventor
湯瑪士 史塔克漢莫
益魁 王
Original Assignee
美商高通公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商高通公司 filed Critical 美商高通公司
Publication of TW201909007A publication Critical patent/TW201909007A/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • H04N21/2353Processing of additional data, e.g. scrambling of additional data or processing content descriptors specifically adapted to content descriptors, e.g. coding, compressing or processing of metadata
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/23439Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements for generating different versions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/61Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
    • H04L65/612Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio for unicast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/65Network streaming protocols, e.g. real-time transport protocol [RTP] or real-time control protocol [RTCP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/765Media network packet handling intermediate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2362Generation or processing of Service Information [SI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/262Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
    • H04N21/26258Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists for generating a list of items to be played back in a given order, e.g. playlist, or scheduling item distribution according to such list
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

在一個實例中,一種用於檢索媒體資料之裝置包括經組態以儲存媒體資料之一記憶體及實施於電路中且經組態以執行以下操作之一處理器:處理包括該媒體資料之媒體內容之一資訊清單檔案的一描述符,該描述符對應於該媒體內容之一調適集,且包括表示描述包括該媒體內容之該調適集之媒體資料的一媒體檔案之一軌(track)的一屬性之檔案層級資訊之一邏輯框的資料;根據表示該檔案層級資訊之該資料而判定是否應檢索該調適集之該媒體資料;及回應於判定應檢索該媒體資料而發送檢索該媒體資料之一請求。

Description

使用用於檔案格式邏輯框之一通用描述符處理媒體資料
本發明係關於經編碼視訊資料之儲存及傳送。
數位視訊能力可併入至廣泛範圍的裝置中,包括數位電視、數位直播系統、無線廣播系統、個人數位助理(personal digital assistant,PDA)、膝上型或桌上型電腦、數位攝影機、數位記錄裝置、數位媒體播放器、視訊遊戲裝置、視訊遊戲控制台、蜂巢式或衛星無線電電話、視訊電話會議裝置等等。數位視訊裝置實施視訊壓縮技術,諸如描述於由MPEG-2、MPEG-4、ITU-T H.263或ITU-T H.264/MPEG-4、第10部分、進階視訊編碼(Advanced Video Coding,AVC)、ITU-T H.265 (亦被稱作高效率視訊寫碼(High Efficiency Video Coding,HEVC))及此類標準之延伸所定義的標準中之彼等技術,從而更為有效地傳輸且接收數位視訊資訊。
在視訊資料已經編碼之後,可將視訊資料封包化以供傳輸或儲存。可以將視訊資料組譯成符合多種標準中之任一者的視訊檔案,該等標準諸如國際標準化組織(International Organization for Standardization,ISO)基本媒體檔案格式及其延伸,諸如AVC。
一般而言,本發明描述用於檔案格式邏輯框之一通用描述符之各種實例設計,其可用以便利地將檔案格式層級資訊曝露至HTTP動態自適應串流(DASH)之媒體呈現描述(MPD)、會話描述協定(SDP)及其他此類串流傳輸協定中。該等設計自檔案格式邏輯框提供一自動化描述符產生以稍後避免複雜定義且亦避免失配。儘管在DASH及ISO基本媒體檔案格式之內容背景中描述構想,但機構適用於其他媒體容器檔案格式及其他媒體傳送格式及協定。
在一個實例中,一種檢索媒體資料之方法包括:處理媒體內容之一資訊清單檔案的一描述符,該描述符對應於該媒體內容之一調適集,且包括表示描述包括該媒體內容之該調適集之媒體資料的一媒體檔案之一軌的一屬性之檔案層級資訊之一邏輯框的資料;根據表示該檔案層級資訊之該資料而判定是否應檢索該調適集之該媒體資料;及回應於判定應檢索該媒體資料而發送檢索該媒體資料之一請求。
在另一實例中,一種用於檢索媒體資料之裝置包括經組態以儲存媒體資料之一記憶體及實施於電路中且經組態以執行以下操作之一處理器:處理包括該媒體資料之媒體內容之一資訊清單檔案的一描述符,該描述符對應於該媒體內容之一調適集,且包括表示描述包括該媒體內容之該調適集之媒體資料的一媒體檔案之一軌的一屬性之檔案層級資訊之一邏輯框的資料;根據表示該檔案層級資訊之該資料而判定是否應檢索該調適集之該媒體資料;及回應於判定應檢索該媒體資料而發送檢索該媒體資料之一請求。
在另一實例中,一種用於檢索媒體資料之裝置包括:用於處理媒體內容之一資訊清單檔案的一描述符之構件,該描述符對應於該媒體內容之一調適集,且包括表示描述包括該媒體內容之該調適集之媒體資料的一媒體檔案之一軌的一屬性之檔案層級資訊之一邏輯框的資料;用於根據表示該檔案層級資訊之該資料而判定是否應檢索該調適集之該媒體資料之構件;及用於回應於判定應檢索該媒體資料而發送檢索該媒體資料之一請求之構件。
在另一實例中,一種電腦可讀儲存媒體在其上儲存有指令,該等指令在執行時使得一處理器執行以下操作:處理媒體內容之一資訊清單檔案的一描述符,該描述符對應於該媒體內容之一調適集,且包括表示描述包括該媒體內容之該調適集之媒體資料的一媒體檔案之一軌的一屬性之檔案層級資訊之一邏輯框的資料;根據表示該檔案層級資訊之該資料而判定是否應檢索該調適集之該媒體資料;及回應於判定應檢索該媒體資料而發送檢索該媒體資料之一請求。
在另一實例中,一種產生媒體資料之方法包括:處理描述包括媒體資料之媒體內容之一媒體檔案之一軌的一屬性之檔案層級資訊的一邏輯框;產生該媒體內容之一資訊清單檔案的一描述符,該描述符對應於該媒體內容之一調適集且包括表示該檔案層級資訊之該邏輯框的資料,該軌之該媒體資料包括於該調適集中;及向一用戶端裝置發送包括該描述符之該資訊清單檔案。
在另一實例中,一種用於產生媒體資料之裝置包括:一記憶體,其經組態以儲存媒體資料;及一處理器,其實施於電路中且經組態以:處理描述包括該媒體資料之媒體內容之一媒體檔案之一軌的一屬性之檔案層級資訊的一邏輯框;產生該媒體內容之一資訊清單檔案的一描述符,該描述符對應於該媒體內容之一調適集且包括表示該檔案層級資訊之該邏輯框的資料,該軌之該媒體資料包括於該調適集中;及向一用戶端裝置發送包括該描述符之該資訊清單檔案。
在另一實例中,一種用於產生媒體資料之裝置包括:用於處理描述包括媒體資料之媒體內容之一媒體檔案之一軌的一屬性之檔案層級資訊的一邏輯框之構件;用於產生該媒體內容之一資訊清單檔案的一描述符之構件,該描述符對應於該媒體內容之一調適集且包括表示該檔案層級資訊之該邏輯框的資料,該軌之該媒體資料包括於該調適集中;及用於向一用戶端裝置發送包括該描述符之該資訊清單檔案之構件。
在另一實例中,一種電腦可讀儲存媒體在其上儲存有指令,該等指令在執行時使得一處理器執行以下操作:處理描述包括媒體資料之媒體內容之一媒體檔案之一軌的一屬性之檔案層級資訊的一邏輯框;產生該媒體內容之一資訊清單檔案的一描述符,該描述符對應於該媒體內容之一調適集且包括表示該檔案層級資訊之該邏輯框的資料,該軌之該媒體資料包括於該調適集中;及向一用戶端裝置發送包括該描述符之該資訊清單檔案。
在以下隨附圖式及描述中闡述一或多個實例之細節。其他特徵、目標及優點將自實施方式及圖式以及申請專利範圍而顯而易見。
本申請案主張2017年7月10日申請之美國臨時申請案第62 / 530 , 761 號之權益,該申請案之全部內容以引用之方式併入本文中。
本發明之技術可應用於符合根據ISO基本媒體檔案格式(ISO base media file format,ISOBMFF)、對ISOBMFF之延伸、可調式視訊寫碼(Scalable Video Coding,SVC)檔案格式、進階視訊寫碼(AVC)檔案格式、高效視訊寫碼(HEVC)檔案格式、第三代合作夥伴計劃(Third Generation Partnership Project,3GPP)檔案格式,及/或多視圖視訊寫碼(Multiview Video Coding,MVC)檔案格式或其他視訊檔案格式中之任一者囊封的視訊資料的視訊檔案。ISO BMFF之草案指定於可自phenix.int-evry.fr/mpeg/doc_end_user/documents/111_Geneva/wg11/w15177-v6-w15177.zip獲得之ISO/IEC 14496-12中。另一實例檔案格式,MPEG-4檔案格式之草案指定於可自wg11.sc29.org/doc_end_user/documents/ 115_Geneva/wg11/w16169-v2-w16169.zip獲得之ISO/IEC 14496-15中。
ISOBMFF用作諸如AVC檔案格式之許多編解碼器囊封格式以及用於諸如MPEG-4檔案格式、3GPP檔案格式(3GP)及數位視訊廣播(DVB)檔案格式之許多多媒體容器格式的之基礎。
除諸如音訊及視訊之連續媒體之外,諸如影像之靜態媒體以及後設資料可儲存於符合ISOBMFF之檔案中。根據ISOBMFF結構化之檔案可用於許多用途,包括本端媒體檔案播放、遠端檔案之逐漸下載、用於經由HTTP之動態自適應串流(DASH)之區段、用於待串流之內容及其封包化指令之容器及接收之即時媒體串流的記錄。
邏輯框為ISOBMFF中之基本語法結構,包括四字元寫碼邏輯框類型、邏輯框之位元組計數及有效負載。ISOBMFF檔案包括一序列之邏輯框,且邏輯框可含有其他邏輯框。根據ISOBMFF,電影邏輯框(「moov」)含有存在於檔案中之連續媒體串流之後設資料,每一連續媒體串流在檔案中表示為軌。根據ISOBMFF,將用於軌之後設資料圍封於軌邏輯框(「trak」)中,而將軌之媒體內容圍封於媒體資料邏輯框(「mdat」)中或直接提供於單獨檔案中。用於軌之媒體內容包括一序列樣本,諸如音訊或視訊存取單元。
ISOBMFF指定以下類型之軌:媒體軌,其含有基本媒體串流;提示軌,其包括媒體傳輸指令或表示接收之封包串流;及計時後設資料軌,其包含時間同步之後設資料。
雖然原先針對儲存而設計,但ISOBMFF已證明對於串流傳輸,例如,對於漸進式下載或DASH很有價值。出於串流目的,可使用在ISOBMFF中定義之電影區段。
每一軌之元資料包括取樣描述項之清單,每一項提供在軌中使用之寫碼或封裝格式及對於處理彼格式需要之初始化資料。各樣本與軌之樣本描述項中之一者相關聯。
ISOBMFF實現藉由各種機構指定之樣本特定元資料。樣本表邏輯框邏輯框(「stbl」)內之具體特定邏輯框邏輯框已經標準化以回應普通需求。舉例而言,同步樣本邏輯框(「stss」)用以列舉軌之隨機存取樣本。取樣分群機構實現根據四字元分群類型將取樣映射成共用指定為檔案中之取樣群組描述項之同一性質的取樣之群組。已在ISOBMFF中指定若干分群類型。
虛擬實境(virtual reality,VR)為虛擬地存在於藉由再現自然及/或合成影像及與沉浸使用者之運動相關的聲音而建立的虛擬非實體世界中的能力,從而允許與虛擬世界交互。在再現裝置中的最新進展(諸如頭戴式顯示器(head mounted display,HMD))及VR視訊(常常亦稱作360度視訊)創建情況下,可提供顯著體驗品質。VR應用包括遊戲、訓練、教育、運動視訊、線上購物、娛樂等。
典型VR系統包括如下組件及步驟: 1) 攝影機套件,其通常包括在不同方向上指向,理想地共同涵蓋圍繞該攝影機套件之所有視點的多個個別攝影機。 2) 影像拼接,其中藉由多個個別攝影機拍攝的視訊圖像在時域中經同步並在空間域中拼接,以形成球體視訊,但映射至矩形格式,諸如等矩形(如世界地圖)或立方體映射。 3) 映射矩形格式中之視訊係使用視訊編解碼器,例如,H.265/HEVC或H.264/AVC,來編碼/壓縮。 4) 經壓縮視訊位元串流可以媒體格式儲存及/或囊封且經由網路傳輸(可能僅覆蓋由使用者看見之有時被稱作檢視區之區域的子組)至接收裝置(例如,用戶端裝置)。 5) 接收裝置接收可能以檔案格式囊封之視訊位元串流或其部分,且將經解碼視訊信號或其部分發送至再現裝置(其可與接收裝置包括於同一用戶端裝置中)。 6) 再現裝置可為例如HMD,其可追蹤頭部運動及甚至眼睛運動之時刻,且可再現視訊之對應部分,以使得向使用者提供沉浸式體驗。
全向媒體格式(Omnidirectional MediA Format,OMAF)為由動畫專家組(Moving Pictures Experts Group,MPEG)開發以定義實現全向媒體應用之媒體格式,其聚焦於具有360度視訊及相關聯音訊之VR應用。OMAF指定可用於將球體或360度視訊轉換成二維矩形視訊的投影方法,繼而如何使用ISO基本媒體檔案格式(ISOBMFF)儲存全向媒體及相關聯後設資料,及如何使用HTTP動態自適應串流(DASH)囊封、發信及串流全向媒體,及最終哪些視訊及音訊編解碼器以及媒體寫碼組態可用於壓縮及播放全向媒體信號之清單。OMAF將成為ISO/IEC 23090-2,且草案規範可自wg11.sc29.org/doc_end_user/documents/119_Torino/wg11/ m40849-v1-m40849_OMAF_text_Berlin_output.zip獲得。
在諸如DASH之HTTP串流協定中,頻繁使用之操作包括HEAD、GET及部分GET。HEAD操作檢索與給定的統一資源定位符(uniform resource locator,URL)或統一資源名稱(uniform resource name,URN)相關聯之檔案的標頭,但不檢索與URL或URN相關聯之有效負載。GET操作檢索與給定URL或URN相關之整個檔案。部分GET操作接收位元組範圍作為輸入參數且檢索檔案之連續數目個位元組,其中位元組之數目對應於所接收位元組範圍。因此,可提供電影區段以用於HTTP串流,此係因為部分GET操作能夠得到一或多個單獨的電影區段。在電影區段中,可能存在不同軌之若干軌區段。在HTTP串流中,媒體表現可為用戶端可存取之資料之結構化集合。用戶端可請求且下載媒體資料資訊以向使用者呈現串流服務。
DASH指定於ISO/IEC 23009-1中,且為用於HTTP (自適應性)串流傳輸應用之標準。ISO/IEC 23009-1主要指定媒體呈現描述(media presentation description,MPD)之格式(亦稱為資訊清單或資訊清單檔案)及媒體區段格式。MPD描述可在伺服器上得到的媒體且允許DASH用戶端在適當媒體時間處自主地下載適當媒體版本。
在使用HTTP串流來串流3GPP資料之實例中,可能存在多媒體內容之視訊及/或音訊資料的多個表示。如下文所解釋,不同表示可對應於不同編碼特性(例如,視訊編碼標準之不同設定檔或層級)、不同編碼標準或編碼標準之延伸(諸如多視圖及/或可縮放延伸)或不同位元速率。此等表示之資訊清單可在媒體呈現描述(MPD)資料結構中定義。媒體呈現可對應於HTTP串流用戶端裝置可存取之資料的結構化集合。HTTP串流用戶端裝置可請求且下載媒體資料資訊以向用戶端裝置之使用者呈現串流服務。媒體呈現可在MPD資料結構中描述,MPD資料結構可包括MPD之更新。
媒體呈現可含有一或多個時段之序列。每一週期可延伸直至下一週期開始為止,或在最末週期的情況下,直至媒體呈現結束為止。每一週期可含有針對同一媒體內容之一或多個表示。表示可為音訊、視訊、計時文字或其他此類資料之數個替代性經編碼版本中之一者。表示可因編碼類型而異(例如,對於視訊資料,因位元速率、解析度及/或編碼解碼器而異用於視訊資料,及對於音訊資料,因位元速率之編解碼器、語言及/或用於音訊資料之編解碼器編碼解碼器而異)而異。術語表示可用以指代經編碼音訊或視訊資料的對應於多媒體內容之特定週期且以特定方式編碼之部分。
特定週期之表示可指派至由MPD中之屬性(其指示表示所屬之調適集)指示之群組。同一調適集中之表示通常被視為彼此之替代例,此係因為用戶端裝置可在此等表示之間動態且順暢地切換,例如以執行頻寬調適。舉例而言,特定週期之視訊資料之每一表示可指派至同一調適集,以使得可選擇該等表示中之任一者進行解碼以呈現對應週期之多媒體內容的媒體資料(諸如視訊資料或音訊資料)。在一些實例中,一個週期內之媒體內容可由來自群組0 (若存在)之一個表示來表示,或由來自每一非零群組的至多一個表示之組合來表示。週期之每一表示之時序資料可相對於該週期之開始時間來表達。
一表示可包括一或多個區段。每一表示可包括初始化區段,或表示之每一區段可自初始化。當存在時,初始化區段可含有用於存取表示之初始化資訊。大體而言,初始化區段不含有媒體資料。區段可由識別符唯一地參考,諸如統一資源定位符(URL)、統一資源名稱(URN)或統一資源識別符(URI)。MPD可為每一區段提供識別符。在一些實例中,MPD亦可提供呈範圍屬性之形式的位元組範圍,該等範圍屬性可對應於可由URL、URN或URI存取之檔案內之區段的資料。
可選擇不同表示以用於大體上同時檢索不同類型之媒體資料。舉例而言,用戶端裝置可選擇音訊表示、視訊表示及計時文字表示,自該等表示檢索區段。在一些實例中,用戶端裝置可選擇特定調適集以用於執行頻寬調適。亦即,用戶端裝置可選擇包括視訊表示之擷取集、包括音訊表示之擷取集及/或包括計時文字之擷取集。替代地,用戶端裝置可針對某些類型之媒體(例如,視訊)選擇調適集,且直接選擇其他類型之媒體(例如,音訊及/或計時文字)的表示。
用於基於DASH之HTTP串流的典型程序包括以下步驟: 1) DASH用戶端獲取串流內容之MPD,例如,影片。MPD包括關於串流傳輸內容的不同替代表示之資訊(例如,位元速率、視訊解析度、訊框速率、音訊語言),以及HTTP資源之URL (初始化區段及媒體區段)。 2) 基於MPD中之資訊及可供DASH用戶端使用之本地資訊,例如網路頻寬、解碼/顯示能力及使用者偏好,DASH用戶端請求期望之表示,每次一個區段(或其一部分)。 3) 當DASH用戶端偵測到網路頻寬變化時,其請求具有較好匹配位元速率之不同表示之區段,理想地自以隨機存取點開始的區段開始。
在HTTP串流「會話」期間,為對使用者請求作出回應以反向搜尋過去定位或正向搜尋未來定位,DASH用戶端請求自接近所要定位開始且理想地開始於隨機存取點之區段的過去或未來區段。使用者亦可請求快速轉遞內容,其可藉使用者亦可請求快速轉遞內容,其可藉由請求僅足夠用於解碼經邏輯框內寫碼視訊圖片或僅足夠用於解碼視訊串流之暫態子集的資料實現。
可根據多種視訊寫碼標準而對視訊資料進行編碼。此類視訊寫碼標準包括ITU-T H.261、ISO/IEC MPEG-1 Visual、ITU-T H.262或ISO/IEC MPEG-2 Visual、ITU-T H.263、ISO/IEC MPEG-4 Visual、ITU-T H.264或ISO/IEC MPEG-4 AVC,包括其可調式視訊寫碼(SVC)及多視圖視訊寫碼(MVC)延伸,及高效視訊寫碼(HEVC),亦被稱作ITU-T H.265及ISO/IEC 23008 -2,包括其可調式寫碼延伸(亦即,可調式高效視訊寫碼,SHVC)及多視圖延伸(亦即,多視圖高效視訊寫碼,MV-HEVC)。
OMAF草案規範描述用於OMAF之各種DASH描述符。OMAF草案規範之第8.2.1項指定投影格式(projection format,PF)描述符。OMAF草案規範之第8.2.2項指定逐區域封裝(region-wise packing,RWPK)描述符。OMAF草案規範之第8.2.3項指定內容覆蓋(content coverage,CC)描述符。OMAF草案規範之第8.2.4項指定逐區域品質排名(region-wise quality ranking,RWQR)描述符。
圖1為說明實施用於經由網路來串流傳輸媒體資料之技術的實例系統10之方塊圖。在此實例中,系統10包括內容準備裝置20、伺服器裝置60及用戶端裝置40。用戶端裝置40及伺服器裝置60藉由網路74以通信方式耦接,該網路可包含網際網路。在一些實例中,內容準備裝置20與伺服器裝置60亦可藉由網路74或另一網路耦接,或可直接以通信方式耦接。在一些實例中,內容準備裝置20及伺服器裝置60可包含相同裝置。
在圖1之實例中,內容準備裝置20包含音訊源22及視訊源24。音訊源22可包含例如麥克風,其產生表示待藉由音訊編碼器26編碼之所擷取音訊資料的電信號。替代地,音訊源22可包含儲存先前記錄之音訊資料的儲存媒體、諸如電腦化合成器之音訊資料產生器或任何其他音訊資料源。視訊源24可包含:視訊攝影機,其產生待藉由視訊編碼器28編碼之視訊資料;儲存媒體,其編碼有先前記錄之視訊資料;視訊資料產生單元,諸如電腦圖形源;或任何其他視訊資料源。內容準備裝置20未必在所有實例中均以通信方式耦接至伺服器裝置60,而可將多媒體內容儲存至由伺服器裝置60讀取之單獨媒體。
原始音訊及視訊資料可包含類比或數位資料。類比資料在藉由音訊編碼器26及/或視訊編碼器28編碼之前可被數位化。音訊源22可在說話參與者正在說話時自說話參與者獲得音訊資料,且視訊源24可同時獲得說話參與者之視訊資料。在其他實例中,音訊源22可包含包含所儲存之音訊資料的電腦可讀儲存媒體,且視訊源24可包含包含所儲存之視訊資料的電腦可讀儲存媒體。以此方式,本發明中所描述之技術可應用於實況、串流、即時音訊及視訊資料或所存檔的、預先記錄的音訊及視訊資料。
對應於視訊訊框之音訊訊框通常為含有藉由音訊源22擷取(或產生)之音訊資料的音訊訊框,音訊資料同時伴隨含於視訊訊框內的藉由視訊源24擷取(或產生)之視訊資料。舉例而言,當說話參與者通常藉由說話而產生音訊資料時,音訊源22擷取音訊資料,且視訊源24同時(即,在音訊源22正擷取音訊資料的同時)擷取說話參與者之視訊資料。因此,音訊框在時間上可對應於一或多個特定視訊圖邏輯框。因此,對應於視訊圖邏輯框之音訊框大體上對應於同時擷取到的音訊資料及視訊資料且音訊框及視訊圖邏輯框分別包含同時擷取到的音訊資料及視訊資料的情形。
在一些實例中,音訊編碼器26可對每一經編碼音訊訊框中表示記錄經編碼音訊訊框的音訊資料之時間的時戳進行編碼,且類似地,視訊編碼器28可對每一經編碼視訊訊框中表示記錄經編碼視訊訊框的視訊資料之時間的時戳進行編碼。在此等實例中,對應於視訊訊框之音訊訊框可包含:包含時戳之音訊訊框及包含相同時戳之視訊訊框。內容準備裝置20可包括內部時鐘時脈,音訊編碼器26及/或視訊編碼器28可根據該內部時鐘時脈產生時戳,或音訊源22及視訊源24可使用該內部時鐘時脈以分別使音訊資料及視訊資料與時戳相關聯。
在一些實例中,音訊源22可向音訊編碼器26發送對應於記錄音訊資料之時間的資料,且視訊源24可向視訊編碼器28發送對應於記錄視訊資料之時間的資料。在一些實例中,音訊編碼器26可對經編碼音訊資料中之序列識別符進行編碼以指示經編碼音訊資料之相對時間排序,但未必指示記錄音訊資料之絕對時間,且相似地,視訊編碼器28亦可使用序列識別符來指示經編碼視訊資料之相對時間排序。類似地,在一些實例中,序列識別符可映射或以其他方式與時戳相關。
音訊編碼器26通常產生經編碼音訊資料之串流,而視訊編碼器28產生經編碼視訊資料之串流。每一個別資料串流(不論音訊或視訊)可被稱作基本串流。基本串流為表示之單一的經數位寫碼(可能經壓縮)之分量。舉例而言,表示之經寫碼視訊或音訊部分可為基本串流。基本串流可在被囊封於視訊檔案內之前被轉換成封包化基本串流(packetized elementary stream,PES)。在相同表示內,可使用串流ID來區分屬於一個基本串流的PES封包與屬於其他基本串流的PES封包。基本串流之資料之基本單元為封包化基本串流(PES)封包。因此,經寫碼視訊資料大體對應於基本視訊串流。類似地,音訊資料對應於一或多個各別基本串流。
許多視訊寫碼標準(諸如ITU-T H.264/AVC及即將來臨的高效視訊寫碼(HEVC)標準)定義無誤差位元串流之語法、語義及解碼過程,該等無誤差位元串流中之任一者符合特定設定檔或層級。視訊寫碼標準通常並不指定編碼器,但編碼器具有保證所產生之位元串流對於解碼器而言係標準相容之任務。在視訊寫碼標準之內容背景中,「設定檔」對應於演算法、特徵或工具及施加至演算法、特徵或工具之限制的子集。如由例如H.264標準所定義,「資料檔」為由H.264標準指定的完整位元串流語法之子集。「層級」對應於解碼器資源消耗,諸如例如,解碼器記憶體及計算之限制,該等限制係關於圖像解析度、位元速率及區塊處理速率。設定檔可用profile_idc (設定檔指示符)值傳信,而層級可用level_idc (層級指示符)值傳信。
舉例而言,H.264標準認為,在給定設定檔之語法所強加的界限內,仍然可能要求編碼器及解碼器之效能有較大變化,此取決於位元串流中之語法元素(諸如經解碼圖像之規定大小)所取的值。H.264標準進一步認為,在許多應用中,實施能夠處理特定設定檔內之語法之所有假設使用的解碼器既不實際又不經濟。因此,H.264標準將「層級」定義為強加於位元串流中之語法元素之值的一組特定約束。此等約束可為對值的簡單限制。替代地,此等約束條件可呈對值之算術組合(例如,圖像寬度乘以圖像高度乘以每秒解碼的圖像數目)之約束的形式。H.264標準進一步規定,個別實施對於每一所支援資料檔可支援不同層級。
符合設定檔之解碼器一般支援設定檔中所定義之所有特徵。舉例而言,作為寫碼特徵,B圖像寫碼在H.264/AVC之基線設定檔不被支援,但在H.264/AVC之其他設定檔中被支援。符合一層級之解碼器應能夠對不需要超出該層級中所定義之限制的資源之任何位元串流進行解碼。設定檔及層級之定義可對可解譯性有幫助。舉例而言,在視訊傳輸期間,可針對整個傳輸工作階段協商及同意一對設定檔定義及層級定義。更具體言之,在H.264/AVC中,層級可定義對於需要處理之巨集區塊的數目、經解碼圖像緩衝器(decoded picture buffer,DPB)大小、經寫碼圖像緩衝器(coded picture buffer,CPB)大小、垂直運動向量範圍、每兩個連續MB的運動向量之最大數目及B區塊是否可具有小於8×8像素之子巨集區塊分區的限制。以此方式,解碼器可判定解碼器是否能夠適當地對位元串流進行解碼。
在圖1之實例中,內容準備裝置20之囊封單元30自視訊編碼器28接收包含經寫碼視訊資料之基本串流,且自音訊編碼器26接收包含經寫碼音訊資料之基本串流。在一些實例中,視訊編碼器28及音訊編碼器26可各自包括用於自經編碼資料形成PES封包之封包化器。在其他實例中,視訊編碼器28及音訊編碼器26可各自與用於自經編碼資料形成PES封包之各別封包化器介接。在另外其他實例中,囊封單元30可包括用於自經編碼音訊及視訊資料形成PES封包之封包化器。
視訊編碼器28可以多種方式對多媒體內容之視訊資料進行編碼,從而以各種位元速率且以各種特性產生多媒體內容之不同表示,該等特性諸如像素解析度、訊框速率、對各種寫碼標準之符合性、對各種寫碼標準之各種設定檔及/或設定檔層級之符合性、具有一或多個視圖之表示(例如,對於二維或三維播放)或其他此類特性。如本發明中所使用,表示可包含音訊資料、視訊資料、文字資料(例如,用於封閉字幕)或其他此類資料中之一者。表示可包括諸如音訊基本串流或視訊基本串流之基本串流。每一PES封包可包括stream_id,該stream_id 識別PES封包所屬之基本串流。囊封單元30負責將基本串流組譯成各種表示之視訊檔案(例如,區段)。
囊封單元30自音訊編碼器26及視訊編碼器28接收表示之基本串流的PES封包且自該等PES封包形成對應的網路抽象層(NAL)單元。寫碼視訊區段可經組織成NAL單元,其提供「網路友好」視訊表示定址應用程式,諸如視訊電話、儲存器、廣播或串流。NAL單元可分類為視訊寫碼層(VCL) NAL單元及非VCL NAL單元。VCL單元可含有核心壓縮引擎,且可包括區塊、巨集區塊及/或圖塊層級資料。其他NAL單元可為非VCL NAL單元。在一些實例中,一個時間執行個體中之經寫碼圖像(通常呈現為初級經寫碼圖像)可包含於存取單元中,該存取單元可包括一或多個NAL單元。
非VCL NAL單元可尤其包括參數集NAL單元及SEI NAL單元。參數集可含有序列層級標頭資訊(在序列參數集(SPS)中)及不頻繁改變的圖像層級標頭資訊(在圖像參數集(PPS)中)。對於參數集(例如,PPS及SPS),不頻繁改變的資訊不需要關於每一序列或圖像重複,因此可改良寫碼效率。此外,使用參數集可實現重要標頭資訊之帶外傳輸,從而避免對於用於抗誤碼之冗餘傳輸的需要。在帶外傳輸實例中,參數集NAL單元可在與其他NAL單元(諸如SEI NAL單元)不同之頻道上傳輸。
補充增強資訊(SEI)可含有對於對來自VCL NAL單元之經寫碼圖像樣本進行解碼並非必需的資訊,但可輔助與解碼、顯示、抗誤碼及其他目的相關的過程。SEI訊息可含於非VCL NAL單元中。SEI訊息為一些標準規範之標準化部分,且因此對於標準相容之解碼器實施並非始終係強制的。SEI訊息可為序列層級SEI訊息或圖像層級SEI訊息。某一序列層級資訊可含於SEI訊息中,諸如SVC之實例中的可縮放性資訊SEI訊息,及MVC中的視圖可縮放性資訊SEI訊息。此等實例SEI訊息可傳達關於例如操作點之提取及操作點之特性的資訊。另外,囊封單元30可形成資訊清單檔案,諸如描述表示之特徵的媒體呈現描述符(MPD)。囊封單元30可根據可延伸標示語言(extensible markup language,XML)來格式化MPD。
囊封單元30可向輸出介面32提供多媒體內容之一或多個表示的資料以及資訊清單檔案(例如,MPD)。輸出介面32可包含網路介面或用於對儲存媒體進行寫入之介面,諸如通用串列匯流排(universal serial bus,USB)介面、CD或DVD寫入器或燒錄器、至磁性或快閃儲存媒體之介面,或用於儲存或傳輸媒體資料之其他介面。囊封單元30可向輸出介面32提供多媒體內容之表示中之每一者的資料,該輸出介面可經由網路傳輸或儲存媒體向伺服器裝置60發送該資料。在圖1之實例中,伺服器裝置60包括儲存各種多媒體內容64之儲存媒體62,各多媒體內容包括各別資訊清單檔案66及一或多個表示68A至68N (表示68)。在一些實例中,輸出介面32亦可將資料直接發送至網路74。
在一些實例中,表示68可分成若干調適集。亦即,表示68之各種子集可包括各別共同特性集合,諸如編碼解碼器、設定檔及層級、解析度、視圖數目、區段之檔案格式、可識別待與待解碼及呈現之表示及/或音訊資料(例如,由揚聲器發出)一起顯示的文字之語言或其他特性的文字類型資訊、可描述針對調適集中之表示之場景的攝影機角度或真實世界攝影機視角的攝影機角度資訊、描述對於特定觀眾之內容適合性的分級資訊,或其類似資訊。
資訊清單檔案66可包括指示對應於特定調適集之表示68之子集以及該等調適集之共同特性的資料。資訊清單檔案66亦可包括表示調適集之個別表示的個別特性(諸如位元速率)之資料。以此方式,調適集可提供簡化的網路頻寬調適。調適集中之表示可使用資訊清單檔案66之調適集元素的子代元素來指示。
伺服器裝置60包括請求處理單元70及網路介面72。在一些實例中,伺服器裝置60可包括多個網路介面。此外,伺服器裝置60之特徵中之任一者或全部可在內容遞送網路之其他裝置(諸如路由器、橋接器、代理裝置、交換器或其他裝置)上實施。在一些實例中,內容遞送網路之中間裝置可快取多媒體內容64之資料,且包括大體上符合伺服器裝置60之彼等組件之組件。一般而言,網路介面72經組態以經由網路74發送及接收資料。
請求處理單元70經組態以自諸如用戶端裝置40之用戶端裝置接收對儲存媒體62之資料的網路請求。舉例而言,請求處理單元70可實施超文字傳送協定(hypertext transfer protocol,HTTP)版本1.1,如RFC 2616中R.Fielding等人於1999年6月在Network Working Group, IETF的「Hypertext Transfer Protocol - HTTP/1.1,」中所描述。亦即,請求處理單元70可經組態以接收HTTP GET或部分GET請求,且回應於該等請求而提供多媒體內容64之資料。請求可指定表示68中之一者的區段,例如使用區段之URL。在一些實例中,該等請求亦可指定區段之一或多個位元組範圍,因此包含部分GET請求。請求處理單元70可經進一步組態以服務於HTTP HEAD請求以提供表示68中之一者之區段的標頭資料。在任何狀況下,請求處理單元70可經組態以處理請求,以向諸如用戶端裝置40之請求裝置提供所請求資料。
另外地或替代性地,請求處理單元70可經組態以經由諸如eMBMS之廣播或多播協定而遞送媒體資料。內容準備裝置20可用與所描述大體上相同的方式產生DASH區段及/或子區段,但伺服器裝置60可使用eMBMS或另一廣播或多播網路傳送協定來遞送此等區段或子區段。舉例而言,請求處理單元70可經組態以自用戶端裝置40接收多播群組加入請求。亦即,伺服器裝置60可向與特定媒體內容(例如,實況事件之廣播)相關聯的用戶端裝置,包括用戶端裝置40,通告與多播群組相關聯之網際網路協定(Internet protocol,IP)位址。用戶端裝置40轉而可呈送加入多播群組之請求。此請求可遍及網路74,例如構成網路74之路由器傳播,以使得促使該等路由器將去往與多播群組相關之IP位址的訊務導向至訂用的用戶端裝置,諸如用戶端裝置40。
如圖1之實例中所說明,多媒體內容64包括資訊清單檔案66,該資訊清單檔案可對應於媒體呈現描述(MPD)。資訊清單檔案66可含有不同替代性表示68 (例如,具有不同品質之視訊服務)的描述,且該描述可包括例如編解碼器資訊、設定檔值、層級值、位元率及表示68之其他描述性特性。用戶端裝置40可檢索媒體呈現之MPD以判定如何存取表示68的區段。
詳言之,檢索單元52可檢索用戶端裝置40之組態資料(未展示)以判定視訊解碼器48之解碼能力及視訊輸出端44之轉譯能力。組態資料亦可包括由用戶端裝置40之使用者選擇的語言偏好中之任一者或全部、對應於由用戶端裝置40之使用者設定的深度偏好之一或多個攝影機視角及/或由用戶端裝置40之使用者選擇的分級偏好。舉例而言,檢索單元52可包含網頁瀏覽器或媒體用戶端,其經組態以提交HTTP GET及部分GET請求。檢索單元52可對應於由用戶端裝置40之一或多個處理器或處理單元(未展示)執行的軟體指令。在一些實例中,關於檢索單元52所描述的功能性之全部或部分可在硬體或硬體、軟體及/或韌體之組合中實施,其中可提供必需的硬體以執行軟體或韌體之指令。
檢索單元52可將用戶端裝置40之解碼及再現能力與由資訊清單檔案66之資訊所指示之表示68的特性進行比較。檢索單元52可最初檢索清單檔案66之至少一部分以判定表示68之特性。舉例而言,檢索單元52可請求描述一或多個調適集之特性的資訊清單檔案66之一部分。檢索單元52可選擇表示68中具有可由用戶端裝置40之寫碼及呈現能力滿足之特性的一子集(例如,一調適集)。檢索單元52可接著判定用於調適集中之表示的位元速率,判定網路頻寬之當前可用量,且自表示中具有可由網路頻寬滿足之位元速率之一者檢索區段。
一般而言,較高位元速率表示可產生較高品質之視訊播放,而較低位元速率表示可在可用網路頻寬減少時提供足夠品質之視訊播放。因此,當可用網路頻寬相對高時,檢索單元52可自相對高位元速率之表示檢索資料,而當可用網路頻寬較低時,檢索單元52可自相對低位元速率之表示檢索資料。以此方式,用戶端裝置40可經由網路74串流傳輸多媒體資料,同時亦擷取網路74之改變的網路頻寬可用性。
另外或可替代地,檢索單元52可經組態以根據諸如eMBMS或IP多播之廣播或多播網路協定來接收資料。在此等實例中,檢索單元52可呈送加入與特定媒體內容相關聯之多播網路群組的請求。在加入多播群組之後,檢索單元52可在另外請求未發佈至伺服器裝置60或內容準備裝置20的情況下接收多播群組之資料。檢索單元52可呈送當不再需要多播群組之資料時離開多播群組的請求,例如停止播放或將通道改變至不同多播群組。
網路介面54可接收經選定表示之區段的資料且將該資料提供至檢索單元52,該檢索單元又可將該等區段提供至解囊封單元50。解囊封單元50可將視訊檔案之元素解囊封成組成性PES串流,解封包化該等PES串流以檢索經編碼資料,且取決於經編碼資料為音訊串流抑或視訊串流之部分(例如,如由串流之PES封包標頭所指示)而將經編碼資料發送至音訊解碼器46或視訊解碼器48。音訊解碼器46對經編碼音訊資料進行解碼,且將經解碼音訊資料發送至音訊輸出端42,而視訊解碼器48對經編碼視訊資料進行解碼,且將經解碼視訊資料發送至視訊輸出端44,經解碼視訊資料可包括串流之複數個視圖。
視訊編碼器28、視訊解碼器48、音訊編碼器26、音訊解碼器46、囊封單元30、檢索單元52及解囊封單元50各自可實施為適用的多種適合處理電路系統中之任一者,適合處理電路系統諸如一或多個微處理器、數位信號處理器(digital signal processor,DSP)、特定應用積體電路(application specific integrated circuit,ASIC)、場可程式化閘陣列(field programmable gate array,FPGA)、離散邏輯電路系統、軟體、硬體、韌體或其任何組合。視訊編碼器28及視訊解碼器48中之每一者可包括於一或多個編碼器或解碼器中,編碼器或解碼器中之任一者可經整合為組合式視訊編碼器/解碼器(encoder/decoder,CODEC)之部分。同樣地,音訊編碼器26及音訊解碼器46中之每一者可包括於一或多個編碼器或解碼器中,編碼器或解碼器中之任一者可經整合為組合式CODEC之部分。包括視訊編碼器28、視訊解碼器48、音訊編碼器26、音訊解碼器46、囊封單元30、檢索單元52及/或解囊封單元50的設備可包含積體電路、微處理器及/或無線通信裝置,諸如蜂巢式電話。
用戶端裝置40、伺服器裝置60及/或內容準備裝置20可經組態以根據本發明之技術操作。出於實例之目的,本發明關於用戶端裝置40及伺服器裝置60描述此等技術。然而,應理解,替代伺服器裝置60 (或除此之外),內容準備裝置20可經組態以執行此等技術。
囊封單元30可形成NAL單元,該等NAL單元包含識別NAL所屬之程式的標頭,以及有效負載,例如,音訊資料、視訊資料或描述NAL單元對應於的輸送或程式串流之資料。舉例而言,在H.264/AVC中,NAL單元包括1位元組標頭及不同大小之有效負載。在有效負載中包括視訊資料之NAL單元可包含各種粒度位準之視訊資料。舉例而言,NAL單元可包含視訊資料區塊、複數個區塊、視訊資料之圖塊或視訊資料之整個圖像。囊封單元30可自視訊編碼器28接收呈基本串流之PES封包之形式的經編碼視訊資料。囊封單元30可使每一基本串流與對應程序相關聯。
囊封單元30亦可組譯來自複數個NAL單元之存取單元。一般而言,存取單元可包含用於表示視訊資料之訊框以及當此音訊資料可用時對應於該訊框之音訊資料的一或多個NAL單元。存取單元大體上包括一個輸出時間執行個體之所有NAL單元,例如一個時間執行個體之所有音訊及視訊資料。舉例而言,若每一視圖具有20訊框每秒(fps)之訊框速率,則每一時間執行個體可對應於0.05秒之時間間隔。在此時間間隔期間,可同時呈現相同存取單元(相同時間執行個體)之所有視圖的特定訊框。在一個實例中,存取單元可包含一個時間執行個體中之經寫碼圖像,其可呈現為初級經寫碼圖像。
因此,存取單元可包含共同時間執行個體之所有音訊訊框及視訊訊框,例如對應於時間X 之所有視圖。本發明亦將特定視圖之經編碼圖像稱為「視圖分量」。亦即,視圖分量可包含在特定時間針對特定視圖的經編碼圖像(或邏輯框)。因此,存取單元可被定義為包含共同時間執行個體之所有視圖分量。存取單元之解碼次序未必與輸出或顯示次序相同。
媒體呈現可包括媒體呈現描述(MPD),該媒體呈現描述可含有不同替代表示(例如,具有不同品質之視訊服務)的描述,且該描述可包括例如編碼解碼器資訊、設定檔值及層級值。MPD為資訊清單檔案(諸如資訊清單檔案66)之一個實例。用戶端裝置40可檢索媒體呈現之MPD以判定如何存取各種呈現之電影區段。電影區段可位於視訊檔案之電影區段邏輯框(moof邏輯框)中。
資訊清單檔案66 (其可包含例如MPD)可公告表示68之區段之可用性。亦即,MPD可包括指示表示68中之一者之第一區段變得可用時之掛鐘時間的資訊,以及指示表示68內之區段之持續時間的資訊。以此方式,用戶端裝置40之檢索單元52可基於開始時間以及在特定區段之前的區段之持續時間而判定何時每一區段可獲得。
在囊封單元30已基於所接收之資料將NAL單元及/或存取單元組譯成視訊檔案之後,囊封單元30將視訊檔案傳遞至輸出介面32以用於輸出。在一些實例中,囊封單元30可將視訊檔案儲存在本端,或經由輸出介面32而將視訊檔案發送至遠端伺服器,而非將視訊檔案直接發送至用戶端裝置40。輸出介面32可包含例如傳輸器、收發器、用於將資料寫入至電腦可讀媒體之裝置,諸如光碟機、磁性媒體驅動器(例如,軟碟機)、通用串列匯流排(USB)埠、網路介面或其他輸出介面。輸出介面32將視訊檔案輸出至電腦可讀媒體,諸如傳送傳輸信號、磁性媒體、光學媒體、記憶體、隨身碟或其他電腦可讀媒體。
網路介面54可經由網路74接收NAL單元或存取單元,且經由檢索單元52將NAL單元或存取單元提供至解囊封單元50。解囊封單元50可將視訊檔案之元素解囊封成組成性PES串流,解封包化該等PES串流以檢索經編碼資料,且取決於經編碼資料為音訊串流抑或視訊串流之部分(例如,如由串流之PES封包標頭所指示)而將經編碼資料發送至音訊解碼器46或視訊解碼器48。音訊解碼器46對經編碼音訊資料進行解碼,且將經解碼音訊資料發送至音訊輸出端42,而視訊解碼器48對經編碼視訊資料進行解碼,且將經解碼視訊資料發送至視訊輸出端44,經解碼視訊資料可包括串流之複數個視圖。
根據本發明之技術,內容準備裝置20 (或伺服器裝置60)可建構資訊清單檔案66 (例如,DASH MPD)之表示媒體檔案之軌之檔案層級資訊的資料,該軌諸如表示68中之一者之區段的軌。表示檔案層級資訊之資料可表示媒體檔案之邏輯框的資料。舉例而言,資料可表示邏輯框之四字元程式碼(four character code,4CC) (亦被稱作程式碼點)、邏輯框之版本號及邏輯框之內容。資料可表示邏輯框之所有資料或僅表示邏輯框之一相關部分。
在一些實例中,內容準備裝置20之囊封單元30可自媒體檔案之邏輯框的資料自動產生資訊清單檔案66之描述符。此描述符可係基本描述符(例如,在軌包括除主要媒體分量以外之資料的情況下)或補充描述符(例如,在軌包括主要媒體分量之情況下)。囊封單元30可產生首碼,諸如值之前的「urn:mpeg:isobmff-dash:<4cc>:<version>」。<4cc>之值可表示邏輯框之四字元程式碼,<version>之值可表示邏輯框之版本,且以下值可包括邏輯框自身之資料,亦即,邏輯框之內容的所有或相關部分。
在此實例中,檢索單元52可基於<4cc>及<version>之值而判定如何剖析後接於首碼之值。檢索單元52可接著描述符來判定軌之屬性,詳言之,後接於首碼之值中表示之邏輯框的內容。檢索單元52可進一步判定是否應基於後接於首碼之值而選擇軌(且詳言之,表示68中之一者或包括表示68中之對應於包括軌之一或多個軌之一或多者的調適集)。舉例而言,檢索單元52可判定用戶端裝置40是否能夠對軌之媒體資料進行解碼且再現媒體資料,優先權化表示68 (及其軌),接收表示使用者偏好之使用者輸入,且在可用表示68 (及其軌)之間進行選擇,或根據後接於首碼之值的其他此類選擇動作。
另外或替代地,囊封單元30可建構資訊清單檔案66之可用作資訊清單檔案66中之延伸名稱空間的元素。囊封單元30可產生該等元素使得邏輯框之所有相關參數可記錄於XML描述符中。舉例而言,囊封單元30可使用元素、屬性、強制及任選參數、恰當資料類型等等。檢索單元52可以類似於如上文所論述之描述符的方式使用元素及延伸名稱空間,例如以選擇軌(及表示68或包括一或多個表示68之調適集中的對應一者)。
作為又一實例,囊封單元30可自動產生如上文所論述之描述符,但遵循用於表達邏輯框中之所有資料而非單一值欄位之自動化語法。囊封單元30可自動產生描述符之XML或擴充巴科斯-諾爾形式(ABNF)格式化資料。作為實例,囊封單元30可建構包含值之前的「urn:mpeg:isobmff-dash:processing」之首碼的描述符,其中該值定義延伸名稱空間識別符。檢索單元52可以類似於如上文所論述之描述符或元素之方式使用描述符,例如以選擇軌(及表示68或包括一或多個表示68之調適集中的對應一者)。
以此方式,內容準備裝置20及/或伺服器裝置60表示一種產生媒體資料之裝置的實例,該裝置包含記憶體,其經組態以儲存媒體資料;及處理器,其實施於電路中且經組態以:處理描述包括媒體資料之媒體內容之媒體檔案之軌的屬性之檔案層級資訊的邏輯框;產生媒體內容之資訊清單檔案的描述符,描述符對應於媒體內容之調適集且包括表示檔案層級資訊之邏輯框的資料,軌之媒體資料包括於調適集中;及向用戶端裝置發送包括描述符之資訊清單檔案。
同樣地,用戶端裝置40表示一種用於檢索媒體資料之裝置包括經組態以儲存媒體資料之記憶體;及實施於電路中且經組態以執行以下操作之處理器:處理包括媒體資料之媒體內容之資訊清單檔案的描述符,描述符對應於媒體內容之調適集,且包括表示描述包括該媒體內容之調適集之媒體資料的媒體檔案之軌的屬性之檔案層級資訊之邏輯框的資料;根據表示檔案層級資訊之資料而判定是否應檢索調適集之媒體資料;及回應於判定應檢索媒體資料而發送檢索媒體資料之請求。
圖2為更詳細地說明圖1之檢索單元52之組件之實例集合的方塊圖。在此實例中,檢索單元52包括eMBMS介體單元100、DASH用戶端110及媒體應用程式112。
在此實例中,eMBMS介體單元100進一步包括eMBMS接收單元106、快取記憶體104及伺服器單元102。在此實例中,eMBMS接收單元106經組態以經由eMBMS接收資料,例如,根據T.Paila等人在「FLUTE-經由單向輸送之檔案傳遞(FLUTE——File Delivery over Unidirectional Transport)」(網路工作群組,RFC 6726,2012年11月)(可於http://tools.ietf.org/html/rfc6726獲得)中所描述的單向輸送檔案傳遞(File Delivery over Unidirectional Transport,FLUTE)。亦即,eMBMS接收單元106可經由廣播而自例如可充當BM-SC之伺服器裝置60接收檔案。
當eMBMS介體單元100接收檔案之資料時,eMBMS介體單元可將所接收之資料儲存於快取記憶體104中。快取記憶體104可包含電腦可讀儲存媒體,諸如快閃記憶體、硬碟、RAM或任何其他適合的儲存媒體。
本端伺服器單元102可充當DASH用戶端110之伺服器。舉例而言,本端伺服器單元102可將MPD檔案或其他資訊清單檔案提供至DASH用戶端110。本端伺服器單元102可通告MPD檔案中之區段之可用性時間,以及可檢索該等區段之超連結。此等超連結可包括對應於用戶端裝置40之本端主機位址首碼(例如,IPv4之127.0.0.1)。以此方式,DASH用戶端110可使用HTTP GET或部分GET請求向本端伺服器單元102請求區段。舉例而言,對於可自連結http://127.0.0.1/rep1/seg3獲得之區段,DASH用戶端110可建構包括針對http://127.0.0.1/rep1/seg3之請求的HTTP GET請求,且將請求提交至本端伺服器單元102。本端伺服器102可自快取記憶體104檢索所請求之資料且回應於此等請求而將資料提供至DASH用戶端110。
DASH用戶端110可根據如上文所論述之任何或全部本發明技術而單獨地或以任何組合組態。
圖3係說明實例多媒體內容120之元素的概念圖。多媒體內容120可對應於多媒體內容64 (圖1)或儲存於儲存媒體62中之另一多媒體內容。在圖3之實例中,多媒體內容120包括媒體呈現描述(MPD) 122及複數個表示124A至124N (表示124)。表示124A包括可選標頭資料126及區段128A至128N (區段128),而表示124N包括可選標頭資料130及區段132A至132N (區段132)。為了方便起見,使用字母N來指定代表示124中之每一者中的最後一個電影區段。在一些實例中,表示124之間可存在不同數目個電影區段。
MPD 122可包含與表示124分離之資料結構。MPD 122可對應於圖1之資訊清單檔案66。同樣,表示124可對應於圖2之表示68。一般而言,MPD 122可包括大體上描述表示124之特徵的資料,諸如寫碼及轉譯特徵、調適集、MPD 122所對應之設定檔、文字類型資訊、攝影機角度資訊、分級資訊、特技模式資訊(例如,指示包括暫態子序列之表示的資訊)及/或用於檢索遠端週期(例如,用於在播放期間將針對性廣告插入至媒體內容中)之資訊。
當存在時,標頭資料126可描述區段128之特性,例如隨機存取點(random access point,RAP,其亦被稱作串流存取點(SAP))之時間位置、區段128中之哪一者包括隨機存取點、與區段128內之隨機存取點之位元組偏移、區段128之統一資源定位符(uniform resource locator,URL),或區段128之其他態樣。當存在時,標頭資料130可描述區段132之相似特性。另外或替代地,此等特性可完全包括於MPD 122內。
區段128、132包括一或多個經寫碼視訊樣本,其中之每一者可包括視訊資料之訊框或圖塊。區段128之經寫碼視訊樣本中之每一者可具有類似特性,例如高度、寬度及頻寬要求。此類特性可藉由MPD 122之資料來描述,儘管此資料在圖3之實例中未說明。MPD 122可包括如3GPP規範所描述之特性,同時添加了本發明中所描述的發信資訊中之任一者或全部。
區段128、132中之每一者可與統一資源定位符(URL)相關聯。因此,可使用諸如DASH之串流網路協獨立地檢索區段128、132中之每一者。以此方式,諸如用戶端裝置40之目的地裝置可使用HTTP GET請求來檢索區段128或132。在一些實例中,用戶端裝置40可使用HTTP部分GET請求來檢索區段128或132之特定位元組範圍。
MPD 122可包括根據本發明之技術中之任一者或所有單獨地或以任何組合構造之資料。
圖4為說明實例視訊檔案150之元素的方塊圖,實例視訊檔案可對應於表示之區段,諸如圖3之區段114、124中之一者。區段128、132中之每一者可包括實質上符合圖4之實例中所說明之資料之佈置的資料。視訊檔案150可稱為囊封區段。如上文所描述,根據ISO基本媒體檔案格式及其延伸的視訊檔案將資料儲存於一系列對象(稱為「邏輯框」)中。在圖4之實例中,視訊檔案150包括檔案類型(FTYP)邏輯框152、電影(MOOV)邏輯框154、區段索引(sidx)邏輯框162、電影區段(MOOF)邏輯框164及電影區段隨機存取(movie fragment random access,MFRA)邏輯框166。儘管圖4表示視訊檔案之實例,但應理解,根據ISO基本媒體檔案格式及其延伸,其他媒體檔案可包括其他類型之媒體資料(例如,音訊資料、計時文本資料等等),其在結構上類似於媒體檔案150之資料。
檔案類型(FTYP)邏輯框152通常描述視訊檔案150之檔案類型。檔案類型邏輯框152可包括識別描述視訊檔案150之最佳用途之規範的資料。檔案類型邏輯框152可替代地置放於MOOV邏輯框154、電影區段邏輯框164及/或MFRA邏輯框166之前。
在一些實例中,諸如,視訊檔案150之區段可包括在FTYP邏輯框152之前的MPD更新邏輯框(未展示)。MPD更新邏輯框可包括指示對應於包括視訊檔案150之表示之MPD待更新的資訊,以及用於更新MPD之資訊。舉例而言,MPD更新邏輯框可提供待用以更新MPD之資源的URI或URL。作為另一實例,MPD更新邏輯框可包括用於更新MPD之資料。在一些實例中,MPD更新邏輯框可緊接在視訊檔案150之區段類型(STYP)邏輯框(未圖示)之後,其中STYP邏輯框可定義視訊檔案150之區段類型。在下文更詳細地論述之圖7提供關於MPD更新邏輯框之額外資訊。
在圖4之實例中,MOOV邏輯框154包括電影標頭(MVHD)邏輯框156、軌(TRAK)邏輯框158及一或多個電影延伸(MVEX)邏輯框160。一般而言,MVHD邏輯框156可描述視訊檔案150之一般特徵。舉例而言,MVHD邏輯框156可包括描述視訊檔案150何時最初建立、視訊檔案150何時經最後修改、視訊檔案150之時間標度、視訊檔案150之播放持續時間的資料,或大體上描述視訊150之其他資料。
TRAK邏輯框158可包括視訊檔案150之軌的資料。TRAK邏輯框158可包括軌跡標頭(TKHD)邏輯框,其描述對應於TRAK邏輯框158之軌跡的特徵。在一些實例中,TRAK邏輯框158可包括經寫碼視訊圖像,而在其他實例中,軌之經寫碼視訊圖像可包括於電影區段164中,其可由TRAK邏輯框158及/或sidx邏輯框162之資料參考。此外,根據本發明之技術,資訊清單檔案(諸如MPD)可包括表示TRAK邏輯框158之資料的資料,即使獨立於視訊檔案150。以此方式,用戶端裝置40 (圖1)可首先避免檢索視訊檔案150且判定是否應使用資訊清單檔案之表示TRAK邏輯框158之的資料來檢索視訊檔案150 (或其一部分,諸如視訊檔案150之特定軌)。
在一些實例中,視訊檔案150可包括多於一個軌。相應地,MOOV邏輯框154可包括數個TRAK邏輯框,其等於視訊檔案150中之軌之數目。TRAK邏輯框158可描述視訊檔案150之對應軌之特性。舉例而言,TRAK邏輯框158可描述相對應軌之時間及/或空間資訊。當囊封單元30 (圖3)包括視訊檔案(諸如視訊檔案150)中之參數集軌時,類似於MOOV邏輯框154之TRAK邏輯框158的TRAK邏輯框可描述參數集軌之特性。囊封單元30可在描述參數集軌之TRAK邏輯框內發信號序列層級SEI訊息存在於參數集軌中。
MVEX邏輯框160可描述對應電影區段164之特性,例如,發信視訊檔案150除包括MOOV邏輯框154 (若存在)內之視訊資料之外亦包括電影區段164。在串流視訊資料之情況下,經寫碼視訊圖像可包括於電影區段164中,而非包括於MOOV邏輯框154中。相應地,所有經寫碼視訊樣本可包括於電影區段164中,而非包括於MOOV邏輯框154中。
MOOV邏輯框154可包括數個MVEX邏輯框160,其等於視訊檔案150中之電影區段164之數目。MVEX邏輯框160中之每一者可描述電影區段164中之對應電影區段之特性。舉例而言,每一MVEX邏輯框可包括電影延伸標頭邏輯框(movie extends header box,MEHD)邏輯框,其描述電影區段164中的對應電影區段之時間持續時間。
如上文所指出,囊封單元30可儲存視訊樣本中之序列資料集,其並不包括實際經寫碼視訊資料。視訊樣本可大體上對應於存取單元,其為特定時間執行個體下之經寫碼圖像之表示。在AVC之內容背景中,經寫碼圖像包括一或多個VCL NAL單元,其含有用以建構存取單元之所有像素的資訊,及其他相關聯 的非VCL NAL單元(諸如SEI訊息)。因此,囊封單元30可包括電影區段164中之一者中之序列資料集,其可包括序列層級SEI訊息。囊封單元30可進一步發信存在於電影區段164中之一者中的序列資料集及/或序列層級SEI訊息存在於對應於電影區段164中之一者的MVEX邏輯框160中之一者內。
SIDX邏輯框162為視訊檔案150之可選要素。亦即,符合3GPP檔案格式或其他此類檔案格式之視訊檔案未必包括SIDX邏輯框162。根據3GPP檔案格式之實例,SIDX邏輯框可用以識別區段(例如,含於視訊檔案150內之區段)之子區段。3GPP檔案格式將子區段定義為「具有一或多個對應媒體資料邏輯框及含有藉由電影區段邏輯框引用之資料的媒體資料邏輯框的一或多個連續電影區段邏輯框之自含式集合,必須跟在電影區段邏輯框之後,並在含有關於同一軌道之資訊的下一個電影區段邏輯框之前」。3GPP檔案格式亦指示SIDX邏輯框「含有對由邏輯框記錄之(子)區段之子區段參考的序列。所引用子區段在呈現時間上鄰接。相似地,由區段索引邏輯框參考之位元組始終在區段內鄰接。所參考大小給出所參考材料中之位元組之數目的計數」。
SIDX邏輯框162通常提供表示包括於視訊檔案150中之區段之一或多個子區段的資訊。舉例而言,此資訊可包括子區段開始及/或結束之播放時間、子區段之位元組偏移、子區段是否包括串流存取點(SAP)(例如,以其開始)、SAP之類型(例如,SAP是否係瞬時解碼器再新(IDR)圖像、清潔隨機存取(CRA)圖像、斷鏈存取(BLA)圖像等等)、子區段中之SAP的位置(根據播放時間及/或位元組偏移)、等等。
電影區段164可包括一或多個經寫碼視訊圖像。在一些實例中,電影區段164可包括一或多個圖像群組(group of picture,GOP),其中之每一者可包括數個經寫碼視訊圖像,例如訊框或圖像。另外,如上文所描述,在一些實例中,電影區段164可包括序列資料集。電影區段164中之每一者可包括電影區段標頭邏輯框(MFHD,圖4中未展示)。MFHD邏輯框可描述對應電影區段之特性,諸如電影區段之序號。電影區段164可按序號次序包括於視訊檔案150中。
MFRA邏輯框166可描述視訊檔案150之電影區段164內的隨機存取點。此可輔助執行特技模式,諸如執行對由視訊檔案150囊封之區段內之特定時間位置(即,播放時間)的尋找。在一些實例中,MFRA邏輯框166通常係可選的且無需包括於視訊檔案中。同樣,諸如用戶端裝置40之用戶端裝置未必需要參考MFRA邏輯框166來對視訊檔案150之視訊資料進行正確解碼及顯示。MFRA邏輯框166可包括數個軌跡區段隨機存取(track fragment random access,TFRA)邏輯框(未展示),其等於視訊檔案150之軌跡之數目或在一些實例中等於視訊檔案150之媒體軌跡(例如,非暗示軌跡)之數目。
在一些實例中,電影區段164可包括一或多個串流存取點(SAP),諸如IDR圖像。同樣地,MFRA邏輯框166可提供對SAP在視訊檔案150內之位置的指示。因此,視訊檔案150之時間子序列可由視訊檔案150之SAP形成。該時間子序列亦可包括其他圖像,諸如取決於SAP之P訊框及/或B訊框。時間子序列之訊框及/或圖塊可配置於區段內,以使得時間子序列的取決於子序列之其他訊框/圖塊之訊框/圖塊可被恰當地解碼。舉例而言,在資料之階層式配置中,用於其他資料之預測的資料亦可包括於時間子序列中。
視訊檔案150可包括根據本發明之技術中之任一者或所有單獨地或以任何組合構造之資料。
圖5為說明用於DASH多軌之實例內容模型180的概念圖。在DASH考慮中技術(Technology under Consideration,TuC)中,已更新關於內容標註及決策之模型以解決對內容之選擇。為了支援內容原創者來以一致方式提供內容,圖5在MPD之一個週期中提供用於DASH內容之概念內容模型。內容可整體上由資產識別符描述且可含有不同媒體類型、視訊、音訊、副標題及應用程式類型。
特定言之,內容模型180包括由資產描述204描述為完整之內容182。內容182可包括多個各種媒體類型206,諸如媒體類型視訊184、媒體類型音訊186、媒體類型副標題188 (亦被稱作計時文字)及/或媒體類型應用程式190。各種類型之媒體內容可以媒體類型之集合提供,諸如媒體類型內容主要方案192、媒體類型內容替代方案(alt) 1 194、及媒體類型內容alt 2 196。媒體應用程式可選擇此等媒體類型集合中之一者,使得媒體類型之集合的彙集可被稱作基於應用程式之選擇媒體208。此等集合可進一步對應於目標版本調適集200A至200C (目標版本調適集200),用戶端裝置40可經由基於自動化系統之選擇程序210而選擇該等目標版本調適集。目標版本調適集200可各自包括各種位元率之各別編碼表示202A至202C,以例如隨可用帶寬增大或減小而實現動態切換212。
在多個媒體類型206中之每一者內,內容原創者可能想要提供時間對準之不同替代性內容(例如,媒體類型內容主、媒體類型內容alt 1 194、及媒體類型內容alt 2 196),但各替代方案表示不同內容。替代性內容之自動選擇不預期由DASH用戶端完成,此係因為DASH用戶端將不具有充足之資訊以進行此類決策。然而,預期通常使用適合於選擇之使用者介面來藉由與應用程式或使用者通信完成選擇。
在不存在此外部通信之情況下或在啟動時,DASH用戶端仍需要播放內容,且因此受益於指示預設內容之資訊。此類傳訊應由內容原創者提供。此類預設內容可被稱作主要內容(例如,媒體類型內容主要方案192),而並非主要的任何內容可被稱作替代性(例如,媒體類型內容alt 1 194、媒體類型內容alt 2 196)。可存在可能需要區分之多個替代方案。本發明定義主要及替代性內容。此類內容之實例是一個主內容之同步攝影機視圖。主攝影機視圖提供為主要內容,所有其他視圖提供為替代性內容。
此外,有可能不同媒體類型之內容由內容原創者連結,以表達不同媒體類型之兩個內容較佳地一起播放。本發明出於此目的而定義相關聯內容。作為實例,可存在與主攝影機相關聯之主註釋符,但對於不同攝影機視圖,提供不同相關聯註釋。
除了語義內容層級分化以外,亦可基於內容準備屬性(降混、次取樣、轉換、適合於特技模式等等)、用戶端偏好(解碼或再現偏好、例如編碼解碼器)、用戶端能力(DASH設定檔支援、解碼能力、再現能力)或使用者偏好(可存取性、語言等等)而以不同目標版本準備各替代性內容。在簡單AV播出中且在不存在來自應用程式之指南的情況下,內容原創者預期DASH用戶端針對各群組選擇至多一個目標版本(例如,目標版本調適集200中之一者),同時考慮其能力及偏好及媒體子系統之能力及偏好。然而,應用程式可顯然選擇多個群組且播出不同視訊擷取集合以支援例如子母畫面、多角度等等。
另外,若接收者支援根據多個優先級之內容選擇,則內容原創者亦可提供目標版本之優先級。典型實例係針對具H.264/AVC及H.265/HEVC能力之接收器而準備內容,且內容原創者偏好選擇H.265/HEVC版本,此係因為其分佈更高效。支援兩個解碼器之裝置可接著選擇具有由內容原創者傳訊之較高優先級的解碼器。在類似版本中,可以不同語言提供相同內容。在此狀況下,仍可預期用戶端可自動地選擇語言,因此將語言指派給目標版本。再次,內容原創者可表達關於語言之優先級,例如相比於配音語言偏好土著語言。語言亦可被視為替代性內容,但只要可提供自動選擇,則其可被視為不同目標版本。因此對於一個媒體類型之各內容,可存在不同目標版本,且表達預期可完成自動化選擇之內容標註。各目標版本較佳地在一個調適集中累積,但具有諸如可延伸編解碼器之例外。
最後,在內容模型中,目標版本中之每一者通常具有經準備以啟用動態切換之多個編碼表示202。此態樣在此區段之範疇外部,此係因為預期主要使用帶寬及可能使用摘要品質資訊來獨立於媒體類型以及目標版本而完成用戶端之切換。然而,目標版本上之傳訊可提供關於如何跨越不同媒體類型分佈可用位元速率之資訊。
基於此內容模型及DASH中之可用元素、屬性及描述符,DASH之TuC提供調適集傳訊要求及推薦以尋址主要及替代性內容、相關聯內容以及不同目標版本。基於傳訊而開發出用戶端決策模型,其可作為參考用戶端服務內容提供商以測試MPD中提供之標註是否提供恰當結果。
圖6為說明實例用戶端模型220之概念圖。特定言之,用戶端模型220包括DASH用戶端232、媒體應用程式238、檔案格式處理單元240、媒體解碼器242、媒體再現器244及輸出裝置246。DASH用戶端232及媒體應用程式238可大體上對應於圖1之檢索單元52,檔案格式處理單元240可對應於圖1之解囊封單元50,且媒體解碼器242可對應於音訊解碼器46及視訊解碼器48中的任一者或兩者,且媒體再現器244及輸出裝置246可對應於圖1之音訊輸出42及視訊輸出44中的任一者或兩者。
在此實例中,檔案格式222A至222C (檔案格式222)中之每一者包括由描述MPD 230 (資訊清單檔案之實例)之各別表示224A、224B、226A、226B、228A、228B。MPD 230包括根據本發明之技術的描述根據檔案格式222中之一者格式化之媒體檔案之軌之屬性的資料。因此,DASH用戶端232首先檢索MPD 230。在此實例中,DASH用戶端232自媒體應用程式238接收所請求媒體資料(例如,使用者偏好、優先級、裝置等等)。DASH用戶端232處理MPD 230之資料以判定檔案格式222之軌的屬性,以使得選擇單元234選擇用於例如檔案格式處理單元240且符合使用者偏好、優先級等等之檔案格式222中的適當一者。DASH用戶端232之下載及切換單元236接著根據選擇檔案格式222中之哪一者及網路頻寬之可用量而檢索表示224A、224B、226A、226B、228A或228B中之一者的媒體資料。DASH用戶端230將所檢索媒體資料提供至檔案格式處理單元240,該檔案格式處理單元解囊封媒體資料且將媒體資料提供至媒體應用程式238。媒體應用程式238又將媒體資料提供至媒體解碼器242,該媒體解碼器對媒體資料進行解碼且將經解碼媒體資料傳遞至媒體再現器244。媒體再現器244又再現媒體資料且將所再現媒體資料提供至輸出裝置246以供輸出(例如,音訊或視訊輸出)。
參考以上術語「主要內容」、「相關聯內容」及「目標版本」,DASH用戶端232可操作經組態以根據與圖6中之媒體應用程式238的通信而執行選擇的選擇單元234。此選擇係基於MPD 230中之指派給檔案格式222之各調適集(或預選,若DASH Amd. 4在適當的位置)的資訊。諸如圖1之內容準備裝置20的內容準備裝置向MPD 230添加充足的額外後設資料,以便啟用根據本發明之技術的選擇。通常,DASH用戶端232提取與ISO BMFF軌中亦存在之資訊對準的此資訊,此主要係由於軌後設資料提供充足之資訊以描述軌。
在甚至另一選項中,檔案格式222 (以及潛在地應用程式格式,諸如OMAF)定義用於描述軌以供選擇之充足資訊。一般檔案格式處理器通常亦與應用程式通信以便恰當地利用軌及可能再現軌。
DASH中之資訊與ISO基本媒體檔案格式可在表達媒體應用程式238之資訊上相同以進行其選擇。呈檔案格式之後設資料不與呈檔案格式之資訊對準可係令人混淆的。
不一定需要出於選擇之目的而在DASH層級上表達所有資訊,但可表達充足資訊以便為媒體應用程式238及選擇234提供在檔案格式222之間恰當地進行區分及選擇的能力。
習知地,此問題主要由定義特定後設資料資訊之檔案格式解決,且在DASH層級上,定義多少可匹配之一些描述符。然而,此需要DASH中之完全新定義且會不必要地延遲工作,此係因為需要隨後完成描述符。該方法亦係易錯的,且通常並非完全且全面的。以下情況將適合得多:ISO BMFF格式中之任何後設資料定義自動地曝露於DASH層級且DASH用戶端知曉包括於DASH「描述符」中之資訊與檔案格式定義對準。此亦允許相同資訊由應用程式獨立於源而以相同方式解譯。
習知地,針對需要曝露於DASH MPD之各類型之檔案格式資訊定義描述符,從而引起許多複雜描述符清晰度,且會易於發生MPD中之傳訊與檔案格式邏輯框中之傳訊之間的失配。
返回參考圖1,根據本發明之技術,內容準備裝置20、伺服器裝置60及用戶端裝置40可根據以下基本設計而組態: 1) 對於描述軌之屬性的任何檔案層級資訊,可藉由自動轉換邏輯框之4字元程式碼(4CC)、版本號碼及內容來在DASH層級處曝露資訊。 2) 提供邏輯框中之所有資訊,抑或提供所有資訊之一相關部分。 3) 資訊可用作DASH中之可用於調適集及預選擇之選擇的正規描述符。
以上機構可用以替換m40849之OMAF草案文本之第8.2項中定義的所有描述符,亦即,PF、RWPK、CC及RWQR描述符,或可與此等描述符一起使用。
此資訊之曝露可遵循不同設計選擇。在下文描述實例設計選擇:
實例選項0:添加電影標頭。此係最簡單的版本,且僅提供MPD中之電影標頭。此顯然相關資訊,但會產生詳細剖析,且關鍵資訊會丟失。
實例選項1:產生自動化描述符。在此實例中,產生可用於DASH基本及補充屬性描述符之自動化描述符。在此狀況下,可使用DASH中之正規描述符模式。描述符可由諸如urn:mpeg:isobmff-dash:<4cc>:<version>之首碼產生,且該值可係邏輯框中之資料的內容。此方法之一個優點係其簡單性,但值欄位可係大的,且可能會添加非基本資料。此實例亦允許此方法應用於現有特徵。
實例選項2:產生延伸名稱空間及XML。在此實例中,當定義新邏輯框時,亦產生可用作MPD中之延伸名稱空間的元素。有意識地產生元素,使得亦可例如藉由使用元素及屬性、強制及任選參數、恰當資料類型等等來在XML描述符中記錄邏輯框之所有相關參數。此方法之一個優點係其更強力且可讀,但設計之努力係重要的,且此不適用於現有資料。為了指示後設資料之處理係補充的還是基本的,可添加參考4CC的通用描述符。
實例選項3:實例選項1與2之混合。在此實例中,自動地產生描述符,但提供表達邏輯框中之所有資料的自動化語法,而非使用單一值欄位。舉例而言,語法可係自動產生之XML或自動產生之擴充巴科斯-諾爾形式(ABNF)。鼓勵再使用現有功能性。
在一個實例中,可添加經投影全向視訊邏輯框。在下文描述用於將資料添加至調適集元素之各種選項。
實例選項1:添加電影標頭: @movieHeader="Xxxuxox"
實例選項2:添加描述符: <EssentialDescriptor schemeUdURI="urn:mpeg:isobmff-dash:povd:0" value="Xxxuxox" />
實例選項3:延伸名稱空間: <EssentialDescriptor schemeUdURI=urn:mpeg:isobmff-dash:processing value="povd"/> <isobmff:povd projectionType=0/> />
實例選項4:自動化產生: <EssentialDescriptor schemeUdURI=urn:mpeg:isobmff-dash:processing value="povd"/> <isobmff:povd <prfr projection_type=0/> />
圖7為說明根據本發明之技術之用於產生媒體資料及用於檢索媒體資料之實例方法的流程圖。關於圖1之內容準備裝置20及用戶端裝置40解釋圖7之方法,但應理解,其他裝置可經配置以執行此或類似方法。舉例而言,伺服器裝置60可經配置以執行歸因於內容準備裝置20之元素之一些或全部。
首先,內容準備裝置20獲得媒體檔案(300)。媒體檔案可包括音訊資料、視訊資料、計時文本資料等等。舉例而言,媒體檔案可對應於根據圖5中所展示之模型的媒體內容。媒體檔案可遵守例如如圖4中所展示之ISO BMFF。假定媒體檔案包括描述媒體檔案之各別軌之屬性的一或多個軌邏輯框,諸如TRAK邏輯框158。因此,內容準備裝置20判定媒體檔案之描述軌的邏輯框(302)。
在此實例中,內容準備裝置20進一步產生包括邏輯框之資料的描述符(304)。舉例而言,描述符可係延伸名稱空間之單一元素或多個元素,如上文所論述。邏輯框之用於可包括例如邏輯框之四字元程式碼(4CC)、邏輯框之版本及邏輯框之一些或所有內容。舉例而言,所產生描述符可對應於上文所論述之任何或所有實例選項1至4。
內容準備裝置20可接著將描述符添加至媒體內容之資訊清單檔案,諸如DASH MPD (306)。內容準備裝置20接著將資訊清單檔案發送至用戶端裝置40 (306)。用戶端裝置40接收資訊清單檔案(310)且處理資訊清單檔案之描述符(312)以使用描述符來選擇一或多個調適集(314)。舉例而言,如上文所論述,用戶端裝置40可根據使用者偏好、優先級、用戶端裝置40之能力(例如,解碼及再現能力、處理能力檔案格式等等)或其他此類選擇準則而選擇調適集。
最終,用戶端裝置40可將對於所選調適集之媒體資料的請求發送至內容準備裝置20 (或伺服器裝置60) (316)。特定言之,用戶端裝置40可例如基於網路頻寬之可用量及表示之位元速率而判定調適集之表示中的自其中檢索對應於所選調適集之軌之媒體資料的一者。內容準備裝置20 (或伺服器裝置60)可接收請求(318)且將所請求媒體資料發送至用戶端裝置40 (320)。最終,用戶端裝置40可接收媒體資料(322)且將媒體資料發送至媒體解碼器(324)以供解碼且最終再現且呈現。
以此方式,圖7之方法表示包括以下各者之產生媒體資料之方法的一實例:處理描述包括媒體資料之媒體內容之媒體檔案之軌的屬性之檔案層級資訊的邏輯框;產生媒體內容之資訊清單檔案的描述符,描述符對應於媒體內容之調適集且包括表示檔案層級資訊之邏輯框的資料,軌之媒體資料包括於調適集中;及向用戶端裝置發送包括描述符之資訊清單檔案。
圖7之方法亦表示包括以下各者之檢索媒體資料之方法的一實例:處理媒體內容之資訊清單檔案的描述符,描述符對應於媒體內容之調適集,且包括表示描述包括該媒體內容之調適集之媒體資料的媒體檔案之軌的屬性之檔案層級資訊之邏輯框的資料;根據表示檔案層級資訊之資料而判定是否應檢索調適集之媒體資料;及回應於判定應檢索媒體資料而發送檢索媒體資料之請求。
在一或多個實例中,所描述功能可以硬體、軟體、韌體或其任何組合來實施。若以軟體實施,則該等功能可作為一或多個指令或程式碼而儲存於電腦可讀媒體上或經由電腦可讀媒體進行傳輸,且由基於硬體之處理單元執行。電腦可讀媒體可包括對應於諸如資料儲存媒體之有形媒體的電腦可讀儲存媒體或通信媒體,該通信媒體包括例如根據通信協定促進電腦程式自一處傳送至另一處的任何媒體。以此方式,電腦可讀媒體通常可對應於(1)非暫時性之有形電腦可讀儲存媒體,或(2)諸如信號或載波之通信媒體。資料儲存媒體可為可由一或多個電腦或一或多個處理器存取以檢索用於實施本發明中所描述之技術之指令、程式碼及/或資料結構的任何可用媒體。電腦程式產品可包括電腦可讀媒體。
藉由實例而非限制,此等電腦可讀儲存媒體可包含RAM、ROM、EEPROM、CD-ROM或其他光碟儲存器、磁碟儲存器或其他磁性儲存裝置、快閃記憶體或可用於儲存呈指令或資料結構形式之所要程式碼且可由電腦存取的任何其他媒體。而且,任何連接被恰當地稱為電腦可讀媒體。舉例而言,若使用同軸纜線、光纖纜線、雙絞線、數位用戶線(DSL)或諸如紅外線、無線電及微波之無線技術,自網站、伺服器或其他遠端源來傳輸指令,則同軸纜線、光纖纜線、雙絞線、DSL或諸如紅外線、無線電及微波之無線技術包括於媒體之定義中。然而,應理解,電腦可讀儲存媒體及資料儲存媒體不包括連接、載波、信號或其他暫時性媒體,而實情為關於非暫時性有形儲存媒體。如本文中所使用,磁碟及光碟包括緊密光碟(compact disc,CD)、雷射光碟、光學光碟、數位多功能光碟(digital versatile disc,DVD)、軟性磁碟及藍光光碟,其中磁碟通常以磁性方式再現資料,而光碟用雷射以光學方式再現資料。以上各者的組合亦應包括於電腦可讀媒體之範疇內。
可由一或多個處理器執行指令,該一或多個處理器諸如一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、場可程式化邏輯陣列(FPGA)或其他等效之整合或離散邏輯電路。因此,如本文中所使用之術語「處理器」可指上述結構或適合於實施本文中所描述之技術的任何其他結構中之任一者。另外,在一些態樣中,本文中所描述之功能性可經提供於經組態以供編碼及解碼或併入於經組合編解碼器中之專用硬體及/或軟體模組內。此外,該等技術可完全實施於一或多個電路或邏輯元件中。
本發明之技術可實施於廣泛多種裝置或設備中,包括無線手持機、積體電路(integrated circuit,IC)或IC集合(例如,晶片組)。在本發明中描述各種組件、模組或單元以強調經組態以執行所揭示技術之裝置的功能態樣,但未必要求由不同硬體單元來實現。確切而言,如上文所描述,各種單元可與適合之軟體及/或韌體一起組合於編碼解碼器硬體單元中或由互操作性硬體單元之集合提供,硬件單元包括如上文所描述之一或多個處理器。
已描述各種實例。此等及其他實例在以下申請專利範圍之範疇內。
10‧‧‧系統
20‧‧‧內容準備裝置
22‧‧‧音訊源
24‧‧‧視訊源
26‧‧‧音訊編碼器
28‧‧‧視訊編碼器
30‧‧‧囊封單元
32‧‧‧輸出介面
40‧‧‧用戶端裝置
42‧‧‧音訊輸出端
44‧‧‧視訊輸出端
46‧‧‧音訊解碼器
48‧‧‧視訊解碼器
50‧‧‧解囊封單元
52‧‧‧檢索單元
54‧‧‧網路介面
60‧‧‧伺服器裝置
62‧‧‧儲存媒體
64‧‧‧多媒體內容
66‧‧‧資訊清單檔案
68A‧‧‧表示
68N‧‧‧表示
70‧‧‧請求處理單元
72‧‧‧網路介面
74‧‧‧網路
100‧‧‧eMBMS介體單元
102‧‧‧伺服器單元
104‧‧‧快取記憶體
106‧‧‧eMBMS接收單元
110‧‧‧HTTP動態自適應串流(DASH)用戶端
112‧‧‧媒體應用程式
120‧‧‧多媒體內容
122‧‧‧媒體呈現描述(MPD)
124A‧‧‧表示
124N‧‧‧表示
126‧‧‧可選標頭資料
128A‧‧‧區段
128B‧‧‧區段
128N‧‧‧區段
130‧‧‧可選標頭資料
132A‧‧‧區段
132B‧‧‧區段
132N‧‧‧區段
150‧‧‧視訊檔案
152‧‧‧檔案類型(FTYP)邏輯框
154‧‧‧電影(MOOV)邏輯框
156‧‧‧電影標頭(MVHD)邏輯框
158‧‧‧軌(TRAK)邏輯框
160‧‧‧電影延伸(MVEX)邏輯框
162‧‧‧區段索引(sidx)邏輯框
164‧‧‧電影區段(MOOF)邏輯框
166‧‧‧電影區段隨機存取邏輯框
180‧‧‧內容模型
182‧‧‧內容
184‧‧‧媒體類型視訊
186‧‧‧媒體類型音訊
188‧‧‧媒體類型副標題
190‧‧‧媒體類型應用程式
192‧‧‧媒體類型內容主要方案
194‧‧‧媒體類型內容替代方案(alt) 1
196‧‧‧媒體類型內容替代方案(alt) 2
200A‧‧‧目標版本調適集
200B‧‧‧目標版本調適集
200C‧‧‧目標版本調適集
202A‧‧‧編碼表示
202B‧‧‧編碼表示
202C‧‧‧編碼表示
204‧‧‧資產描述
206‧‧‧媒體類型
208‧‧‧基於應用程式之選擇媒體
210‧‧‧基於自動化系統之選擇程序
212‧‧‧動態切換
220‧‧‧用戶端模型
222A‧‧‧檔案格式
222B‧‧‧檔案格式
222C‧‧‧檔案格式
224A‧‧‧表示
224B‧‧‧表示
226A‧‧‧表示
226B‧‧‧表示
228A‧‧‧表示
228B‧‧‧表示
230‧‧‧媒體呈現描述(MPD)
232‧‧‧HTTP動態自適應串流(DASH)用戶端
234‧‧‧選擇單元
236‧‧‧下載及切換單元
238‧‧‧媒體應用程式
240‧‧‧檔案格式處理單元
242‧‧‧媒體解碼器
244‧‧‧媒體再現器
246‧‧‧輸出裝置
300‧‧‧步驟
302‧‧‧步驟
304‧‧‧步驟
306‧‧‧步驟
308‧‧‧步驟
310‧‧‧步驟
312‧‧‧步驟
314‧‧‧步驟
316‧‧‧步驟
318‧‧‧步驟
320‧‧‧步驟
322‧‧‧步驟
324‧‧‧步驟
圖1為說明實施用於經由網路來串流媒體資料之技術的實例系統之方塊圖。
圖2為說明檢索單元之一組實例組件的方塊圖。
圖3為說明實例多媒體內容之元素的概念圖。
圖4為說明實例視訊檔案之要素的方塊圖,該實例視訊檔案可對應於表示之區段。
圖5為說明用於DASH多軌之實例內容模型的概念圖。
圖6為說明實例用戶端模型之概念圖。
圖7為說明根據本發明之技術之用於產生媒體資料及用於檢索媒體資料之實例方法的流程圖。

Claims (50)

  1. 一種檢索媒體資料之方法,該方法包含: 處理媒體內容之一資訊清單檔案的一描述符,該描述符對應於該媒體內容之一調適集,且包括表示描述包括該媒體內容之該調適集之媒體資料的一媒體檔案之一軌的一屬性之檔案層級資訊之一邏輯框的資料; 根據表示該檔案層級資訊之該資料而判定是否應檢索該調適集之該媒體資料;及 回應於判定應檢索該媒體資料而發送檢索該媒體資料之一請求。
  2. 如請求項1之方法,其中表示該檔案層級資訊之該資料包含表示該邏輯框之至少一四字元程式碼、該邏輯框之一版本及該邏輯框之內容的資料。
  3. 如請求項1之方法,其中處理該描述符包含處理包含一值之前的「urn:mpeg:isobmff-dash:<4cc>:<version>」之一首碼,其中<4cc>包含表示該邏輯框之一四字元程式碼的資料,<version>包含表示該邏輯框之一版本的資料,且該值包含表示該邏輯框之內容的資料。
  4. 如請求項1之方法,其中該描述符係該資訊清單檔案之一單一值欄位。
  5. 如請求項1之方法,其中該描述符包含一基本描述符或一補充描述符中之一者。
  6. 如請求項1之方法,其中處理該描述符包含處理該描述符之一延伸名稱空間識別符,該方法進一步包含處理該延伸名稱空間之該資訊清單檔案的一或多個元素,該一或多個元素包括表示該邏輯框之內容的資料。
  7. 如請求項6之方法,其中處理該一或多個元素包含處理一或多個屬性、強制參數、任選參數或具有恰當資料類型之值。
  8. 如請求項6之方法,其中處理該描述符包含處理包含一值之前的「urn:mpeg:isobmff-dash:processing」之一首碼,該值定義該延伸名稱空間識別符。
  9. 如請求項6之方法,其中以可延伸標示語言(XML)格式表達該一或多個元素。
  10. 如請求項6之方法,其中以擴充巴科斯-諾爾形式(ABNF)表達該一或多個元素。
  11. 如請求項6之方法,其中處理該描述符包含處理該描述符之對應於該邏輯框之一四字元程式碼的資料。
  12. 如請求項1之方法,其中該資訊清單檔案包含一HTTP動態自適應串流(DASH)媒體呈現描述(MPD)。
  13. 一種用於檢索媒體資料之裝置,該裝置包含: 一記憶體,其經組態以儲存媒體資料;及 一處理器,其實施於電路中且經組態以: 處理包括該媒體資料之媒體內容之一資訊清單檔案的一描述符,該描述符對應於該媒體內容之一調適集,且包括表示描述包括該媒體內容之該調適集之媒體資料的一媒體檔案之一軌的一屬性之檔案層級資訊之一邏輯框的資料; 根據表示該檔案層級資訊之該資料而判定是否應檢索該調適集之該媒體資料;及 回應於判定應檢索該媒體資料而發送檢索該媒體資料之一請求。
  14. 如請求項13之裝置,其中表示該檔案層級資訊之該資料包含表示該邏輯框之至少一四字元程式碼、該邏輯框之一版本及該邏輯框之內容的資料。
  15. 如請求項13之裝置,其中該處理器經組態以處理包含一值之前的「urn:mpeg:isobmff-dash:<4cc>:<version>」之一首碼,其中<4cc>包含表示該邏輯框之一四字元程式碼的資料,<version>包含表示該邏輯框之一版本的資料,且該值包含表示該邏輯框之內容的資料。
  16. 如請求項13之裝置,其中該描述符係該資訊清單檔案之一單一值欄位。
  17. 如請求項13之裝置,其中該處理器經組態以處理該描述符之一延伸名稱空間識別符及該延伸名稱空間之該資訊清單檔案的一或多個元素,該一或多個元素包括表示該邏輯框之內容的資料。
  18. 如請求項17之裝置,其中該處理器經組態以處理包含一值之前的「urn:mpeg:isobmff-dash:processing」之一首碼,該值定義該延伸名稱空間識別符。
  19. 如請求項17之裝置,其中以可延伸標示語言(XML)格式或擴充巴科斯-諾爾形式(ABNF)中之一者表達該一或多個元素。
  20. 如請求項17之裝置,其中該處理器經組態以處理該描述符之對應於該邏輯框之一四字元程式碼的資料。
  21. 如請求項13之裝置,其中該資訊清單檔案包含一HTTP動態自適應串流(DASH)媒體呈現描述(MPD)。
  22. 一種用於對視訊資料進行編碼之裝置,該裝置包含: 用於處理媒體內容之一資訊清單檔案的一描述符之構件,該描述符對應於該媒體內容之一調適集,且包括表示描述包括該媒體內容之該調適集之媒體資料的一媒體檔案之一軌的一屬性之檔案層級資訊之一邏輯框的資料; 用於根據表示該檔案層級資訊之該資料而判定是否應檢索該調適集之該媒體資料之構件;及 用於回應於判定應檢索該媒體資料而發送檢索該媒體資料之一請求之構件。
  23. 一種其上儲存有指令之電腦可讀儲存媒體,該等指令在執行時使得一處理器執行以下操作: 處理媒體內容之一資訊清單檔案的一描述符,該描述符對應於該媒體內容之一調適集,且包括表示描述包括該媒體內容之該調適集之媒體資料的一媒體檔案之一軌的一屬性之檔案層級資訊之一邏輯框的資料; 根據表示該檔案層級資訊之該資料而判定是否應檢索該調適集之該媒體資料;及 回應於判定應檢索該媒體資料而發送檢索該媒體資料之一請求。
  24. 如請求項23之電腦可讀儲存媒體,其中使得該處理器處理該描述符之該等指令包含使得該處理器處理該描述符之一延伸名稱空間識別符的指令,其進一步包含使得該處理器處理該延伸名稱空間之該資訊清單檔案之一或多個元素的指令,該一或多個元素包括表示該邏輯框之內容的資料。
  25. 如請求項24之電腦可讀儲存媒體,其中使得該處理器處理該描述符之該等指令包含使得該處理器處理該描述符之對應於該邏輯框之一四字元程式碼之資料的指令。
  26. 一種產生媒體資料之方法,該方法包含: 處理描述包括媒體資料之媒體內容之一媒體檔案之一軌的一屬性之檔案層級資訊的一邏輯框; 產生該媒體內容之一資訊清單檔案的一描述符,該描述符對應於該媒體內容之一調適集且包括表示該檔案層級資訊之該邏輯框的資料,該軌之該媒體資料包括於該調適集中;及 向一用戶端裝置發送包括該描述符之該資訊清單檔案。
  27. 如請求項26之方法,其中產生該描述符包含產生該描述符以包括表示該邏輯框之至少一四字元程式碼、該邏輯框之一版本及該邏輯框之內容的資料。
  28. 如請求項26之方法,其中產生該描述符包含產生一值之前的「urn:mpeg:isobmff-dash:<4cc>:<version>」之一首碼及產生該值,其中<4cc>包含表示該邏輯框之一四字元程式碼的資料,<version>包含表示該邏輯框之一版本的資料,且該值包含表示該邏輯框之內容的資料。
  29. 如請求項26之方法,其中該描述符係該資訊清單檔案之一單一值欄位。
  30. 如請求項26之方法,其中該描述符包含一基本描述符或一補充描述符中之一者。
  31. 如請求項26之方法,其中產生該描述符包含產生該描述符之一延伸名稱空間識別符,該方法進一步包含產生該延伸名稱空間之該資訊清單檔案的一或多個元素,該一或多個元素包括表示該邏輯框之內容的資料。
  32. 如請求項31之方法,其中產生該一或多個元素包含產生一或多個屬性、強制參數、任選參數或具有恰當資料類型之值。
  33. 如請求項31之方法,其中產生該描述符包含產生一值之前的「urn:mpeg:isobmff-dash:processing」之一首碼及產生該值,該值定義該延伸名稱空間識別符。
  34. 如請求項31之方法,其中產生該一或多個元素包含以可延伸標示語言(XML)格式產生該等元素。
  35. 如請求項31之方法,其中產生該一或多個元素包含以擴充巴科斯-諾爾形式(ABNF)格式產生該等元素。
  36. 如請求項31之方法,其中產生該描述符包含產生該描述符之將表示該邏輯框之一四字元程式碼的資料。
  37. 如請求項26之方法,其中該資訊清單檔案包含一HTTP動態自適應串流(DASH)媒體呈現描述(MPD)。
  38. 一種用於產生媒體資料之裝置,該裝置包含: 一記憶體,其經組態以儲存媒體資料;及 一處理器,其實施於電路中且經組態以: 處理描述包括該媒體資料之媒體內容之一媒體檔案之一軌的一屬性之檔案層級資訊的一邏輯框; 產生該媒體內容之一資訊清單檔案的一描述符,該描述符對應於該媒體內容之一調適集且包括表示該檔案層級資訊之該邏輯框的資料,該軌之該媒體資料包括於該調適集中;及 向一用戶端裝置發送包括該描述符之該資訊清單檔案。
  39. 如請求項38之裝置,其中該處理器經組態以產生該描述符以包括表示該邏輯框之至少一四字元程式碼、該邏輯框之一版本及該邏輯框之內容的資料。
  40. 如請求項38之裝置,其中該處理器經組態以產生一值之前的「urn:mpeg:isobmff-dash:<4cc>:<version>」之一首碼及產生該值,其中<4cc>包含表示該邏輯框之一四字元程式碼的資料,<version>包含表示該邏輯框之一版本的資料,且該值包含表示該邏輯框之內容的資料。
  41. 如請求項38之裝置,其中該描述符係該資訊清單檔案之一單一值欄位。
  42. 如請求項38之裝置,其中產生該描述符包含產生該描述符之一延伸名稱空間識別符,該方法進一步包含產生該延伸名稱空間之該資訊清單檔案的一或多個元素,該一或多個元素包括表示該邏輯框之內容的資料。
  43. 如請求項42之裝置,其中該處理器經組態以產生產生一值之前的「urn:mpeg:isobmff-dash:processing」之一首碼及產生該值,該值定義該延伸名稱空間識別符。
  44. 如請求項42之裝置,其中該處理器經組態以以可延伸標示語言(XML)格式或擴充巴科斯-諾爾形式(ABNF)中之一者產生該等元素。
  45. 如請求項42之裝置,其中該處理器經組態以產生該描述符之將表示該邏輯框之一四字元程式碼的資料。
  46. 如請求項38之裝置,其中該資訊清單檔案包含一HTTP動態自適應串流(DASH)媒體呈現描述(MPD)。
  47. 一種用於產生媒體資料之裝置,該裝置包含: 用於處理描述包括媒體資料之媒體內容之一媒體檔案之一軌的一屬性之檔案層級資訊的一邏輯框之構件; 用於產生該媒體內容之一資訊清單檔案的一描述符之構件,該描述符對應於該媒體內容之一調適集且包括表示該檔案層級資訊之該邏輯框的資料,該軌之該媒體資料包括於該調適集中;及 用於向一用戶端裝置發送包括該描述符之該資訊清單檔案之構件。
  48. 一種其上儲存有指令之電腦可讀儲存媒體,該等指令在執行時使得一處理器執行以下操作: 處理描述包括媒體資料之媒體內容之一媒體檔案之一軌的一屬性之檔案層級資訊的一邏輯框; 產生該媒體內容之一資訊清單檔案的一描述符,該描述符對應於該媒體內容之一調適集且包括表示該檔案層級資訊之該邏輯框的資料,該軌之該媒體資料包括於該調適集中;及 向一用戶端裝置發送包括該描述符之該資訊清單檔案。
  49. 如請求項48之電腦可讀儲存媒體,其中使得該處理器產生該描述符之該等指令包含使得該處理器產生該描述符之一延伸名稱空間識別符的指令,其進一步包含使得該處理器產生該延伸名稱空間之該資訊清單檔案之一或多個元素的指令,該一或多個元素包括表示該邏輯框之內容的資料。
  50. 如請求項49之電腦可讀儲存媒體,其中使得該處理器產生該描述符之該等指令包含使得該處理器產生該描述符之對應於該邏輯框之一四字元程式碼之資料的指令。
TW107123911A 2017-07-10 2018-07-10 使用用於檔案格式邏輯框之一通用描述符處理媒體資料 TW201909007A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201762530761P 2017-07-10 2017-07-10
US62/530,761 2017-07-10
US16/030,387 2018-07-09
US16/030,387 US11665219B2 (en) 2017-07-10 2018-07-09 Processing media data using a generic descriptor for file format boxes

Publications (1)

Publication Number Publication Date
TW201909007A true TW201909007A (zh) 2019-03-01

Family

ID=64902965

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107123911A TW201909007A (zh) 2017-07-10 2018-07-10 使用用於檔案格式邏輯框之一通用描述符處理媒體資料

Country Status (9)

Country Link
US (1) US11665219B2 (zh)
EP (1) EP3652952A1 (zh)
KR (1) KR102659380B1 (zh)
CN (1) CN110832872B (zh)
AU (1) AU2018299983A1 (zh)
BR (1) BR112020000015A2 (zh)
SG (1) SG11201911559YA (zh)
TW (1) TW201909007A (zh)
WO (1) WO2019014210A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI739633B (zh) * 2019-10-28 2021-09-11 大陸商深圳市商湯科技有限公司 儲存和讀取方法、電子設備和電腦可讀儲存介質

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2554877B (en) * 2016-10-10 2021-03-31 Canon Kk Methods, devices, and computer programs for improving rendering display during streaming of timed media data
US11146608B2 (en) * 2017-07-20 2021-10-12 Disney Enterprises, Inc. Frame-accurate video seeking via web browsers
US20220124135A1 (en) * 2020-09-25 2022-04-21 Mediatek Singapore Pte. Ltd. Systems and methods of server-side streaming adaptation in adaptive media streaming systems
US20220272394A1 (en) * 2021-02-19 2022-08-25 Rovi Guides, Inc. Systems and methods for improved adaptive video streaming
CN113840173B (zh) * 2021-09-18 2024-05-07 北京百度网讯科技有限公司 网页视频播放方法、装置、设备、存储介质及程序产品
US20230108426A1 (en) * 2021-10-05 2023-04-06 Tencent America LLC Method and apparatus for dynamic dash picture-in-picture streaming
CN116456166A (zh) * 2022-01-10 2023-07-18 腾讯科技(深圳)有限公司 媒体数据的数据处理方法及相关设备
US20240022786A1 (en) * 2022-07-12 2024-01-18 Tencent America LLC Signaling for Picture In Picture In Media Container File and In Streaming Manifest

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107911332B (zh) * 2009-11-04 2021-01-08 阿莫泰克有限公司 媒体内容流播的方法、系统和计算机可读介质
US10063606B2 (en) * 2012-06-12 2018-08-28 Taiwan Semiconductor Manufacturing Co., Ltd. Systems and methods for using client-side video buffer occupancy for enhanced quality of experience in a communication network
GB2506911B (en) 2012-10-12 2015-12-09 Canon Kk Method and correponding device for streaming video data
US9646162B2 (en) * 2013-04-10 2017-05-09 Futurewei Technologies, Inc. Dynamic adaptive streaming over hypertext transfer protocol service protection
US10009643B2 (en) * 2014-03-31 2018-06-26 Blackberry Limited Apparatus and method for processing media content
CN106165433B (zh) 2014-04-09 2019-06-25 Lg电子株式会社 广播发送装置、广播接收装置以及广播接收装置的操作方法
CN106463148B (zh) * 2014-05-30 2019-10-01 索尼公司 信息处理装置和信息处理方法
ES2907602T3 (es) 2014-12-31 2022-04-25 Nokia Technologies Oy Predicción entre capas para la codificación y decodificación de vídeo escalable
GB2534136A (en) * 2015-01-12 2016-07-20 Nokia Technologies Oy An apparatus, a method and a computer program for video coding and decoding
US10270823B2 (en) 2015-02-10 2019-04-23 Qualcomm Incorporated Low latency video streaming
WO2016182371A1 (ko) * 2015-05-12 2016-11-17 엘지전자 주식회사 방송 신호 송신 장치, 방송 신호 수신 장치, 방송 신호 송신 방법, 및 방송 신호 수신 방법
WO2017030865A1 (en) * 2015-08-14 2017-02-23 Vid Scale, Inc. Method and systems for displaying a portion of a video stream
US9854375B2 (en) * 2015-12-01 2017-12-26 Qualcomm Incorporated Selection of coded next generation audio data for transport
US10771843B2 (en) * 2015-12-15 2020-09-08 Telefonaktiebolaget Lm Ericsson (Publ) Media distribution with sample variants for normalized encryption
US11172005B2 (en) * 2016-09-09 2021-11-09 Nokia Technologies Oy Method and apparatus for controlled observation point and orientation selection audiovisual content

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI739633B (zh) * 2019-10-28 2021-09-11 大陸商深圳市商湯科技有限公司 儲存和讀取方法、電子設備和電腦可讀儲存介質

Also Published As

Publication number Publication date
WO2019014210A1 (en) 2019-01-17
KR20200024207A (ko) 2020-03-06
BR112020000015A2 (pt) 2020-07-21
EP3652952A1 (en) 2020-05-20
KR102659380B1 (ko) 2024-04-19
US20190014165A1 (en) 2019-01-10
SG11201911559YA (en) 2020-01-30
CN110832872A (zh) 2020-02-21
CN110832872B (zh) 2021-12-28
US11665219B2 (en) 2023-05-30
AU2018299983A1 (en) 2020-01-16

Similar Documents

Publication Publication Date Title
TWI774744B (zh) 在使用mime類型參數之網路視頻串流中發信重要視頻資訊
CN109076238B (zh) 通过http在动态自适应流式传输中用信号传送虚拟现实视频
CN110089122B (zh) 用于检索媒体数据的方法、媒体装置及计算机可读存储媒体
CN110832872B (zh) 使用用于文件格式方框的通用描述符处理媒体数据
TW201924323A (zh) 用於浸入式媒體資料之內容來源描述
TW201909648A (zh) 用於媒體內容之按區塊包裝,內容覆蓋度,以及發信訊框包裝
TW201810998A (zh) 在圖像中最感興趣之區域
TW201842785A (zh) 作為分隔符及可定址之資源識別符之區段類型
KR20200026891A (ko) 웹 콘텐츠에 대한 파일 트랙들을 사용하여 미디어 데이터를 프로세싱
TW201742463A (zh) 樣本條目及隨機存取
TW201933878A (zh) 處理國際標準化組織基礎媒體檔案格式網頁資源追蹤之動態網頁內容
TW201813411A (zh) 用於媒體資料串流之補充增強資訊軌跡之系統級發信
TW201743614A (zh) 樣本條目及隨機存取
TW202027512A (zh) 用於媒體資料之網路串流之初始化集合
TWI700917B (zh) 使用全向媒體格式處理媒體資料
KR102654999B1 (ko) 강화된 영역별 패킹 및 뷰포트 독립적 hevc 미디어 프로파일