TWI435607B - 以媒體檔案發信號通知感興趣區域可縮放性資訊之技術 - Google Patents
以媒體檔案發信號通知感興趣區域可縮放性資訊之技術 Download PDFInfo
- Publication number
- TWI435607B TWI435607B TW096125216A TW96125216A TWI435607B TW I435607 B TWI435607 B TW I435607B TW 096125216 A TW096125216 A TW 096125216A TW 96125216 A TW96125216 A TW 96125216A TW I435607 B TWI435607 B TW I435607B
- Authority
- TW
- Taiwan
- Prior art keywords
- roi
- identifier
- scalable
- scalable layer
- layer
- Prior art date
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/30—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
- H04N19/33—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/61—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
本發明一般是關於可縮放視訊編碼及解碼。本發明尤其是關於包含感興趣區域(ROI)的可縮放層之一可縮放資料串流之儲存。
本章節意欲提供在申請專利範圍中闡述的本發明之背景或上下文。此處的描述可包括可被探討的概念,但並不必然是先前已被設想或探討之概念。因此,除非本文另外指出,否則此章節內描述的內容不是本申請案中描述及申請專利範圍之先前技術且不因為出現在本章節內而被認為是先前技術。
多媒體應用包括本地端播放服務、串流化或隨選服務、交談式服務及廣播/多播服務。多媒體應用包含的技術包括媒體編碼、儲存及傳輸,以及其他的。對於不同的技術,不同的標準已被指定。
視訊編碼標準包括ITU-T H.261、ISO/IEC MPEG-1 Visual、ITU-T H.262或ISO/IEC MPEG-2 Visual、ITU-T H.263、ISO/IEC MPEG-4 Visual及ITU-T H.264(也被稱為ISO/IEC MPEG-4 AVC)。除此之外,目前正著力於新的視訊編碼標準之發展。一種正在發展的標準是可縮放性視訊編碼(SVC)標準,這將成為H.264/AVC之可縮放擴展。
可縮放性視訊編碼是許多用於利用解碼器之系統中的多媒體應用以及服務之一被期望的特色,具有較廣泛範圍的處理能力、顯示大小、連接頻寬等。幾種類型的視訊可縮放性已被提出,例如時間、空間及品質可縮放性。
一可縮放性視訊位元串流之一部分可被取出且被解碼,具有一降低的播放視訊品質。一可縮放性視訊位元串流包含一非可縮放性基層及一或多個增強層。一增強層可增強時間解析度(即,圖框率)、空間解析度,或者僅僅增強由一低層或其部分表示的視訊內容之品質。
在一些情況下,一增強層內的資料可在某一位置之後或甚至是任一位置上被截斷,其中每個截斷位置可包括表示逐漸增強的視覺品質之額外資料。此可所縮放性被稱為細粒(細緻度)可縮放性(FGS)。MPEG-4可視標準首先引入FGS之概念,且FGS之概念也是SVC標準之部分。與FGS相比,粗粒可縮放性(CGS)指由一沒有提供細粒可縮放性的一品質增強層提供的可縮放性。
SVC之最新的草擬規格在2006年4月在瑞士日內瓦舉行的第19屆聯合視訊組會議(Joint Video Team Meeting)之JVT-S202,”Joint Scalable Video Model JSVM-6:Joint Draft 6 with proposed changes”中被描述,其全部內容以參照方式被併入本文。
SVC將H.264/AVC中已經可用的機制用於時間可縮放性。此機制被稱為一”階層B圖像”編碼結構。因此,SVC中使用的機制也完全被H.264/AVC支援,而發信通知可藉由利用與子序列相關的補充增強資訊(SEI)訊息完成。
對於提供以空間及品質(SNR)可縮放性形式的CGS可縮放性的機制,一種習知的分層編碼技術被使用。除了新的層間預測方法之外,此技術類似於較早的標準中使用的技術。可被層間預測的資料包括內紋理(texture)、移動及殘餘資料。層間移動預測包括區塊編碼模式、標頭資訊等之預測。在SVC中,資料可自除了目前重新構造的層或下一層之外的層被預測。
SVC包括一相對較新的概念,被稱為單一迴路解碼。單一迴路解碼藉由使用一限制內紋理預測模式而被致能,從而該層間內紋理預測可被應用於巨集區塊(MB),其基層之對應的區塊設於內部-MB內。同時,該基層內的該等內部-MB使用限制內預測。在單一迴路解碼中,該解碼器只需要對期望播放的可縮放層(被稱為期望層)執行移動補償及全圖像重建,從而大大地減少解碼複雜度。除了期望層之外的所有層不需要被完全解碼,因為沒有被用於層間預測的MB之資料的所有或部分(無論是層間內紋理預測、層間移動預測或層內殘餘預測)不需要被用於該期望層之重建。
當與較舊的視訊壓縮標準相比時,SVC之空間可縮放性已被歸納以使基層成為增強層之一被裁剪及縮放的版本。量化及熵編碼模組也已被調整以提供FGS能力。FGS編碼模式被稱為漸進性細化(progressive refinement),其中轉換係數之連續的細化藉由重複減少量化步階大小且應用一類似子位元平面編碼的”循環(cyclical)”熵編碼而被編碼。
目前草擬的SVC內的可縮放性層結構以三個變數為特色。此等變數是時間_位準(temporal_level)、依附_識別符(dependency_id)及品質_位準(quality_level)。該temporal_level變數被用以表示時間可縮放性或圖框率。包含一較小的temporal_level值之圖像的層具有比包含一較大的temporal_level之圖像的層較小的圖框率。該dependency_id變數被用以表示層間編碼依附階層。在任何時間位置上,一較小的dependency_id值之圖像可被用於層間預測以編碼具有一較大的dependency_id值之圖像。該quality_level變數被用以表示FGS層階層。在任何時間位置上且具有一相同的dependency_id值,具有等於QL之quality_level值的一FGS圖像使用具有等於QL-1之quality_level值的FGS圖像或基礎品質圖像(即,當QL-1=0時的非FGS圖像)以進行層間預測。
檔案格式在多媒體內容產生、控制、傳輸及消費鏈中是一重要的元素。編碼格式與檔案格式之間有一區別。編碼格式與將內容資訊編碼為一位元串流的一特定編碼演算法之動作相關。檔案格式指以可被存取用於本地解碼及播放、以一檔案被傳送或被串流化之方式組織產生的位元串流,所有都利用各種儲存及傳輸架構。此外,檔案格式可促進媒體之交換及編輯。例如,許多串流化應用需要在一伺服器上有一被預先編碼的位元串流,伴隨著元資料(metadata)--儲存在”提示-軌(hint-track)”中--幫助伺服器將視訊串流化給用戶端。提示-軌元資料之例子包括時序資訊、同步點之指示及封包化提示。此資訊被用以減少伺服器之操作負載,且最大化終端使用者經驗。
可用的媒體檔案格式標準包括ISO檔案格式(ISO/IEC 14496-12)、MPEG-4檔案格式(ISO/IEC 14496-14)、AVC檔案格式(ISO/IEC 14496-15)及3GPP檔案格式(3GPP TS 26.244)。也有針對MPEG之一計劃用於發展SVC檔案格式,這將成為AVC檔案格式之修正。
SVC檔案格式正成為AVC檔案格式之一擴展。SVC檔案格式解決的一個重大問題是有效地處理可縮放視訊串流之儲存、取出及可縮放性提供。在正在進行的設計階段觀察到許多限制。首先,包含一可縮放性位元串流的檔案之大小應盡可能地小,同時仍允許屬於不同層的NAL單元之輕量取出。這要求避免媒體資料之多個表示的冗餘儲存及元資料之有效率表示。第二,伺服器實施態樣需要足夠輕量,從而不需要過度複雜的元資料設計。這兩個層面都與元資料結構緊密相關,因此這在標準化期間已受到高度關注。有兩個主要的機制用以組織一SVC檔案。首先,成組概念(即,ISO基礎媒體檔案格式內的樣本族群結構)可被用以表示圖像與可縮放性層的關係。第二,參照位元串流的子集的幾個軌可被定義,每個軌對應形成一播放點的可縮放性層之一特定組合。
第1圖描述了SVC媒體資料如何被儲存在一檔案內。每個存取單元包含一樣本。一些取樣形成一塊(chunk)。實際內容一般包含許多塊。檔案讀取器典型地一次讀取且處理一塊。若期望播放的分層結構不需要所有存取單元(用於時間可縮放性)及/或每個被需要的存取單元內的所有圖像(用於其他類型的可縮放性),則不想要的存取單元及/或圖像可被丟棄。最有效的是以圖像等級執行一丟棄操作。然而,因為每個樣本包含一存取單元,所以一樣本-等級分組不是最佳的。另一方面,若每個圖像被定義為一樣本,則是對應該ISO基礎媒體檔案格式內的某一呈現時間之媒體資料的每個取樣之定義將被破壞。
在最新的草案SVC檔案格式中,詞語”階層(tier)”被用以描述一層。每個NAL單元與一族群ID相關,且一些族群ID值被映射到一階層,由一階層ID識別。這樣,若給定一階層ID,相關的NAL單元可被找到。每個階層之可縮放性資訊(包括位元率、空間解析度、圖框率等)以資料結構ScalableTierEntry()被發信通知。
在SVC中,感興趣區域(ROI)可縮放性被支援,即,可縮放串流可以至少一矩形子區域(其是由某一層所表示的整個區域之一子集)之資料可被獨立解碼且顯示之方式被編碼。因此,一使用者可請求只有一ROI之資料被發送。此一ROI也被稱為一ROI可縮放層或可縮放ROI層。
一種用以編碼一ROI之方式是將覆蓋一ROI的區塊併入該已編碼圖像中的一組一或多個片段(slice)內。當編碼該組片段時,該被編碼的資料獨立於在任何其他被編碼的圖像中的對應ROI之外部區塊之被編碼的資料。該組片段可被包括在只覆蓋該組片段的一片段族群中,或者該組片段可被包括在覆蓋多個片段的一片段族群中。
互動式ROI(IROI)可縮放性包含使用者/接收器與發送器的交互作用。例如,當串流化預先編碼的內容時,使用者可自由地請求不同的區域用以顯示。為了達成此特徵,視訊內容可被編碼為多個矩形ROI。這樣,只有被請求區域覆蓋的所有ROI之被編碼的資料需要被發送給使用者。
為了易於獲得ROI可縮放性資訊且取出一客戶請求需要的資料,需要ROI資訊之檔案格式-等級發信通知。若沒有ROI資訊之檔案格式發信通知,則一檔案讀取器必須找到且剖析與ROI相關的SEI訊息(可縮放性資訊SEI訊息、子圖像可所縮放性層SEI訊息及移動-限制片段族群組SEI訊息),且剖析成圖像參數組及片段標頭。此外,若該位元串流不包含與ROI相關的SEI訊息,則檔案讀取器必須假設在位元串流內沒有支援ROI或者可選擇的方式是,應用一擴展地複雜分析以檢查是否有支援ROI,且若確立位元串流確實支援,則其必須應用進一步擴展地複雜分析以獲得ROI資訊。
因此,具有一種用於ROI可縮放性資訊之檔案格式等級發信通知的方法之需求。
本發明提供一種用於以一檔案格式發信通知ROI可縮放性資訊的方法。本發明提供以一檔案格式有效率地發信通知ROI可縮放性資訊,其中該發信通知包含提供一ROI之幾何資訊及一指示以識別在一階層或層內與每個已編碼資料單元相關的ROI。
本發明可利用任何一般的程式化語言(例如,C/C++或組合語言)以軟體直接實現。本發明也可以硬體實現,且用於各種消費裝置。
本發明之此等及其他優點及特徵以及其系統及操作方式從以下結合附圖的詳細描述中將變得明顯,其中在以下所描述的幾個圖中類似的元件具有類似的符號。
第1圖是一代表圖,顯示了SVC媒體資料如何被儲存在一檔案內;第2圖顯示了用於本發明的一般多媒體通訊系統;第3圖是可被用於本發明之實施態樣的一行動電話之透視圖;以及第4圖是第3圖之行動電話的電路之示意代表圖。
第2圖顯示了用於本發明之一般的多媒體通訊系統。如第2圖所示,一資料源100提供以一類比、未壓縮數位或壓縮數位格式,或者此等格式之任何組合的一源信號。一編碼器110將源信號編碼為一已編碼的媒體位元串流。該編碼器110或許能夠編碼多於一個媒體類型(例如音訊及視訊),或者可能需要多於一個編碼器110編碼不同媒體類型的源信號。該編碼器110也可獲得合成產生的輸入(例如,圖形及文字),或者其可能夠產生合成媒體之已編碼的位元串流。在下文中,只處理一個媒體類型的一已編碼的媒體位元串流是為了簡化描述。然而,應注意到的是,廣播服務一般包含幾個串流(一般是至少一音訊、視訊及文字字幕串流)。也應注意到的是,該系統可包括許多編碼器,但是在下文中,只有一個編碼器110是為了簡化描述,並不缺乏一般性。
該已編碼媒體位元串流被傳送給一儲存器120。該儲存器120可包含任何類型的大容量記憶體以儲存該已編碼媒體位元串流。該儲存器120內的該已編碼媒體位元串流之格式可以是一初級自含位元串流格式,或者一或多個已編碼媒體位元串流可依據一檔案格式被封裝到一容器檔案內。一些系統”實況(live)”操作,即,省略儲存且將來自該編碼器110的已編碼媒體位元串流直接傳送給發送器130。接著,該已編碼媒體位元串流根據需要被傳送給該發送器130(也被稱為”伺服器”)。傳輸中使用的格式可以是一初級自含位元串流格式、一封包串流格式,或者一或多個已編碼媒體位元串流可依據一檔案格式被封裝到一容器檔案內。該編碼器110、儲存器120及發送器130可設於相同的實體裝置內,或者它們可被包括在個別的裝置內。該編碼器110及發送器130可操作實況即時內容,在此情況下該已編碼媒體位元串流一般沒有被永久儲存,而是在該內容編碼器110及/或該發送器130內被緩衝小的時間,以平滑化處理延遲、傳送延遲及已編碼媒體位元率內的變化。
該發送器130利用一通訊協定堆疊發送該已編碼媒體位元串流。該堆疊可包括下列但不限於下列:即時傳輸協定(RTP)、使用者資料塊協定(UDP)及網際網路協定(IP)。當通訊協定堆疊以封包為導向時,該發送器130將該已編碼媒體位元串流封裝成封包。例如,當RTP被使用時,該發送器130依據一RTP有效負載(payload)格式將該已編碼媒體位元串流封裝成RTP封包。一般而言,每個媒體類型具有一專用RTP有效負載格式。再次應注意到的是,一系統可包含多於一個發送器130,但是為了簡單之目的,以下描述只考慮一個發送器130。
該發送器130可透過一通訊網路連接到一閘道140,也可不連接到該閘道140。該閘道140可執行不同類型的功能,例如,依據一通訊協定堆疊到另一通訊協定堆疊將一封包串流解譯、資料串流之合併及分支(forking),且依據下行鏈路及/或接收器能力操作資料串流,例如依據主要的下行鏈路網路條件控制被轉發的串流之位元率。閘道140之例子包括多點會議控制單元(MCU)、電路切換與封包切換視訊電話之間的閘道、蜂巢式按鈕對話(PoC)伺服器、數位視訊廣播手持(DVB-H)系統中的IP封裝器,或者將廣播傳輸本地轉發給家用無線網路的視訊盒。當RTP被使用時,該閘道140被稱為一RTP混合器,且作為一RTP連接之端點。
可選擇的方式是,該已編碼媒體位元串流可透過其他方式自該發送器130傳送給該接收器150,例如將該已編碼媒體位元串流儲存到一可攜式大容量記憶體碟片或裝置,當該碟片或裝置連接到該發送器130時且接著將該碟片或裝置連接到該接收器150。
該系統包括一或多個接收器150,一般能夠接收、解調變,且將被發送的信號解封裝為一已編碼媒體位元串流。解封裝可包括移除接收器不能夠解碼或者不被期望解碼的資料。該已編碼媒體位元串流一般被一解碼器160進一步處理,其輸出是一或多個未壓縮媒體串流。最後,一呈現器170可利用(例如)一揚聲器或一顯示器再現未被壓縮的媒體串流。該接收器150、解碼器160及呈現器170可設於相同的實體裝置內或者它們可被包括在個別的裝置內。
一接收器150可發送以下一請求給一發送器130:其想要接收僅是由儲存在一儲存器120內的已編碼視訊位元串流之一子集表示的區域之一子集的已編碼資料。在此情況下,該發送器130依據被包括在來自該儲存器120之容器檔案內的元資料取出且發送該請求需要的已編碼資料。該接收器150接收該資料,其被一解碼器160進一步處理,且最後該已解碼的視訊被顯示。
本發明提供一種用於發信通知ROI可縮放性資訊的方法。
依據本發明,一ROI之幾何資訊以檔案格式被發送。一ROI之幾何資訊包含表示該ROI之尺寸及位置的資訊。該ROI之尺寸資訊可按照該ROI之寬度及高度的像素之數目表示。也可能按照寬度及高度的像素之區塊表示該尺寸。例如,ROI尺寸資訊可依據巨集區塊單元被表示,其中一巨集區塊單元表示一視訊影像之像素的16×16區塊。位置資訊可能相對於另一ROI之位置,或者依據一預先決定的座標。位置資訊可由對相關的相對位置之水平方向及垂直方向上的一偏移表示。
在本發明之一實施例中,每個ROI之幾何資訊被個別地發信通知。在本發明之另一實施例中,一指示可被儲存在檔案格式內,其中該指示指出所有ROI都是相同的寬度及高度。也可能進一步限制:該指示指出除了右邊大多數ROI及底部大多數ROI之外的所有ROI都是相同的寬度及高度。相同的指示元件可被用以發信通知是否該幾何資訊對每個ROI被發送,或是所有ROI(具有上述的可能例外)具有相同幾何。
依據本發明,檔案格式內的一指示被提供用以識別在一階層或層內與每個已編碼資料單元相關的ROI。
依據以下呈現的SVC檔案格式之變化,本發明之一實施例如下:一ROI ID以檔案格式被發信通知,且識別基於一特定全圖像的層或階層內的一ROI。一ROI被層ID或階層ID及ROI ID識別。該ROI ID可被進一步鏈結到被該ROI覆蓋的左上方區塊之位址。屬於一全圖像基層的ROI共用相同的層ID或階層ID,且每個ROI與一ROI ID相關。
對於ROI之幾何資訊之發信通知,本發明之一實施例包含如下的SVC檔案格式之語法變化。一新的方塊(box)IroiInfoBox()被定義且可取捨地被包括在ScalableTierEntry()內。一ScalableTierEntry()內的IroiInfoBox()(其primary_definition等於1)之存在指出該層或階層被編碼為如IroiInfoBox()內包含的資訊表示的ROI。ScalableTierEntry()及新的IroiInfoBox()之語法如下:
class ScalableTierEntry()extends VisualSampleGroupEntry('scif'){ unsigned int(8)groupId; unsigned int(8)tierId; unsigned int(5)reserved=0; unsigned int(1)is_tier_IDR; unsigned int(1)primary_definition; unsigned int(1)is_key_picture; unsigned int(8)reserved=0; if(primary_definition==1) //primary definition of tier { SVCDependencyDescriptionEntryBox(); //Mandatory Box SVCOperatingPointBox max_operating_point; //mandatory SVCOperatingPointBox min_operating_point;//mandatory //Optional Boxes or fields may follow when defined later RectRegionBox(); //optional BufferingBox(); //optional TierDependencyBox(); //optional InitialParameterSetBox(); //optional IroiInfoBox(); //optional }else{ unsigned int(8)primary_group_ID; } } class IroiInfoBox extends Box(‘iroi’){ unsigned int(1)iroi_type; unsigned int(7)reserved=0; if(iroi_type==0){ unsigned int(8)grid_roi_mb_width; unsigned int(8)grid_roi_mb_height; } else if(iroi_type==1){ unsigned int(32)num_roi; for(int i=0;i<=num_roi;i++){ unsigned int(32)top_left_mb; unsigned int(8)roi_mb_width; unsigned int(8)roi_mb_height; } } }
iroi_type指出所有ROI的區域劃分之類型。值0表示所有ROI(除了可能的右邊大多數ROI及底部大多數ROI以外)都是相同的寬度及高度。值1表示每個ROI之幾何資訊被個別地發信通知。
grid_roi_mb_width及grid_roi_mb_height分別指出ROI之寬度及高度(以巨集區塊為單位)。所有ROI具有相同的寬度及高度,具有以下例外。
當(PicWidthInMbs % grid_roi_mb_width)不等於0時,右邊大多數ROI具有等於(PicWidthInMbs % grid_roi_mb_width)巨集區塊的一寬度。當(PicHeightInMbs % grid_roi_mb_height)不等於0時,底部大多數ROI具有等於(PicHeightInMbs % grid_roi_mb_height)巨集區塊的一高度。PicWidthInMbs及PicHeightInMbs分別是該可縮放層或階層的可視寬度及高度(以巨集區塊為單位)。(x % y)返回x除以y之餘數。
num_roi指出可縮放層或階層之已編碼圖像內的ROI之數目。top_left_mb指出在目前條目(entry)之ROI內以光柵(raster)掃描順序的第一巨集區塊之巨集區塊位址。一巨集區塊位址是圖像之一巨集區塊光柵掃描內的一巨集區塊之索引,以一圖像內的左上方巨集區塊為零開始。roi_mb_width及roi_mb_height分別指出目前條目之ROI的寬度及高度(以巨集區塊為單位)。
一ROI ID(以roi_id表示)被指定給一可縮放層或階層內的每個ROI。若iroi_type等於0,則roi_id等於圖像之一ROI光柵掃描內的一ROI之索引,以該可縮放性層或階層內的一圖像內的左上方ROI為零開始。否則,roi_id等於IroiInfoBox()之語法內的條目索引i。
對於NAL-unit-to-ROI映射資訊之發信通知,每個NAL單元需要被鏈結到一階層ID值及一roi_id值。目前的SVC檔案格式設計已經允許將一階層ID值與每個NAL單元結合。因此,仍必需將一roi_id值與每個NAL單元結合。出於此目的,目前的SVC檔案格式規格使用定時元資料設計。該資料結構structured_metadata_packet()之語法被改變如下:aligned(8)structured_ metadata_packet(packetLength){ unsigned int i=5; bit(1)isAggregator; bit(1)isExtractor; bit(1)includesExtensionStructure; bit(1)isRoiNalu; unsigned int(4)reserved=0; unsigned int(8)userField[4]; if(includesExtensionStructure){ unsigned int((SVCMetadataSampleEntry.length_size_minus_one+1)*8) length; extensionStructure(length); i+=(SVCMetadataSampleEntry.length_size_minus_one+1)+length; } if(isAggregator ∥ isExtractor){ while(i<packetLength){ unsigned int((SVCMetadataSampleEntry.lengthSizeMinusOne+1)*8) length; structured_metadata_packet(length); i+=(SVCMetadataSampleEntry.lengthSizeMinusOne+1)+length; } } }
一等於1的isRoiNalu值指出對應目前元資料封包的NAL單元屬於一ROI。一等於0的isRoiNalu值指出對應目前元資料封包的NAL單元不屬於一ROI。
該等參數如下被設定:.metadata_encoding=‘iroi’.includeExtensionStructure=0
當isRoiNalu等於1時,如下應用。若isAggregator或isExtractor等於1,則被聚集器或取出器NAL單元包含或參照的NAL單元屬於相同的ROI,且userField指出ROI之roi_id。在此情況下,值packetLength被設定,使得被聚集器或取出器NAL單元包含或參照的個別NAL單元沒有嵌入式structured_metadata_packet()。否則(即,isAggregator及isExtractor都等於0),userField1及userField2分別指出對應目前元資料封包之NAL單元所屬的ROI之roi_id的最少有效位元組及最大有效位元組。
用以發信通知NAL-unit-to-tier映射資訊(或者roi_id值與每個NAL單元之結合)的另一實施例是在該樣本表方塊內定義一新的方塊。新的方塊之語法及語義如下:class NaluToRoiInfoBox extends Box(‘nroi’){ for(unsigned int i=0;i<=entry_count1;i++){ unsigned int(16)entry_count2; for(unsigned int j=0;j<=entry_count2;i++) unsigned int(32)roi_id; } }
entry_count1等於媒體軌內的樣本之總數目。entry_count2指出該樣本內的NAL單元之總數目。
用以發信通知NAL-unit-to-ROI映射資訊(或者roi_id值與每個NAL單元之結合)的另一實施例是定義一新的樣本族群。該樣本族群將每個樣本與具有相同數目的NAL單元及相同模式的roi_id值的一族群結合。該樣本族群描述條目如下所述:class RoiIdEntry()extends VisualSampleGroupEntry('roid'){ unsigned int(16)entry_count; for(unsigned int i=0;i<=entry_count;i++){ unsigned int(32)roi_id; } }
entry_count指出在是對應目前族群條目的族群之一成員的樣本內的NAL單元之總數目。
第3與4圖顯示了一本發明可在其內實現的代表性行動電話12。然而,應該明白的是,本發明並不意指受限於一特定類型的行動電話12或其他電子裝置。在第3及4圖中描述的一些或所有特徵可被併入第1圖中表示的任何或所有裝置內。
第第3及4圖之行動電話12包括一外殼30、一為液晶顯示器形式的顯示器32、一鍵盤34、一麥克風36、一耳機38、一電池40、一紅外線埠42、一天線44、一依據本發明之一實施例實現的一UICC形式的智慧卡46、一讀卡器48、無線電介面電路52、編碼解碼電路54、一控制器56以及一記憶體58。個別的電路及元件皆是該項領域內所知的一種類型的,例如,諾基亞系列的行動電話。
本發明之通訊裝置可利用各種傳輸技術進行通訊,該等技術包括下列但不限於下列:分碼多重存取(CDMA)、行動通訊之全球系統(GSM)、通用行動電信系統(UMTS)、分時多重存取(TDMA)、分頻多重存取(FDMA)、傳輸控制協定/網際網路協定(TCP/IP)、短訊息服務(SMS)、多媒體訊息服務(MMS)、電子郵件、即時訊息服務(IMS)、藍芽、IEEE 802.11等。一通訊裝置可利用各種媒體進行通訊,包括下列但不限於下列:無線電、紅外線、雷射、纜線連接,及類似的媒體。
本發明是以方法步驟的一般內文描述,該方法步驟可藉由一程式產品以實現在一實施例中,該程式產品包括電腦可執行指令,像是藉由網路環境中之電腦所執行的程式碼。一般而言,程式模組包括常式(routine)、程式、物件(object)、組件、資料結構等,其執行特定的任務(task)或者實現特定的抽象資料類型(abstract data type)。電腦可執行指令、有關的資料結構及程式模組表示用於執行此處所揭露的方法之步驟的程式碼之實例。此種可執行指令的特定順序或者有關的資料結構表示了用以實現此等步驟內所描述的該等功能的對應動作之實例。
本發明之軟體與網頁實施態樣可利用標準的程式化技術實現,基於規則(rule-based)的邏輯,及其他的邏輯以完成各種資料庫搜尋步驟、相關步驟、比較步驟及決策步驟。也應該注意到的是,在此處及申請專利範圍內使用的名詞”組件”及”模組”意指:包含利用一行或多行軟體程式碼的實施態樣、及/或硬體實施態樣,以及/或用於接收人工輸入的設備。
出於說明及描述的目的,已給出呈現本發明之實施例的上述描述。並不意指是詳盡的或本發明限於所揭露的精確形式,且修改與變化參照上述教示是可行的,或者可從本發明之實踐中獲得。該等實施例被選擇且被描述是為了解釋本發明之原理及其實際應用,使該項技術領域內具有通常知識者可將本發明應用於各種實施例中且具有適用於所思考的特定效用之各種修改。
12...行動電話
30...外殼
32...顯示器
34...鍵盤
36...麥克風
38...耳機
40...電池
52...無線電介面電路
54...編碼譯碼電路
56...控制器
58...記憶體
100...資料源
110...編碼器
120...儲存器
130...發送器
140...閘道
150...接收器
160...解碼器
170...呈現器
第1圖是一代表圖,顯示了SVC媒體資料如何被儲存在一檔案內;第2圖顯示了用於本發明的一般多媒體通訊系統;第3圖是可被用於本發明之實施態樣的一行動電話之透視圖;以及第4圖是第3圖之行動電話的電路之示意代表圖。
100...資料源
110...編碼器
120...儲存器
130...發送器
140...閘道
150...接收器
160...解碼器
170...呈現器
Claims (23)
- 一種方法,其包含:以至少一處理器來使得一可縮放視訊位元串流儲存在至少一記憶體中之一容器檔案內,該可縮放視訊位元串流包含至少一基於全圖像的可縮放層及至少一感興趣區域(ROI)可縮放層;藉由一第一識別符及一第二識別符來識別每個ROI可縮放層,該第一識別符識別一基於全圖像的可縮放層而該ROI屬於該基於全圖像的可縮放層,且該第二識別符識別於該基於全圖像的可縮放層內的一ROI可縮放層;及指示用於該ROI可縮放層之幾何資訊。
- 如申請專利範圍第1項所述之方法,其中該第一識別符及該第二識別符被儲存在該容器檔案內。
- 如申請專利範圍第2項所述之方法,其中自一ROI可縮放層的一位置、形狀及大小中的至少一者推導出的一幾何資訊被儲存在該容器檔案內。
- 如申請專利範圍第2項所述之方法,其中該第二識別符自一ROI可縮放層之該位置推導出。
- 如申請專利範圍第2項所述之方法,其中該可縮放視訊串流內的一已編碼資料單元至一ROI可縮放層之映射被儲存在該容器檔案內。
- 如申請專利範圍第2項所述之方法,其中該檔案容器依據該可縮放視訊編碼(SVC)檔案格式標準被構造。
- 如申請專利範圍第6項所述之方法,其中該第一識別符以一ScalableTierEntry()資料結構被發信通知。
- 如申請專利範圍第7項所述之方法,其中自一ROI可縮放層的一位置、形狀及大小中的至少一者推導出的一幾何資訊以該ScalableTierEntry()資料結構被發信通知。
- 如申請專利範圍第8項所述之方法,其中一已編碼資料單元至該第二識別符之映射利用一定時元資料被發信通知。
- 如申請專利範圍第8項所述之方法,其中一已編碼資料單元至該第二識別符之映射以一方塊被發信通知。
- 如申請專利範圍第8項所述之方法,其中一已編碼資料單元至該第二識別符之映射利用一樣本族群被發信通知。
- 一種電腦程式產品,其包含電腦程式指令儲存於其中之一非暫時性電腦可讀儲存媒體,該電腦程式指令包含組態以進行下列動作之電腦程式指令:使一可縮放視訊位元串流儲存在一容器檔案內,該可縮放視訊位元串流包含至少一基於全圖像的可縮放層及至少一感興趣區域(ROI)的可縮放層;藉由一第一識別符及一第二識別符來識別每個ROI可縮放層,該第一識別符識別一基於全圖像的可縮放層而該ROI屬於該基於全圖像的可縮放層,且該第二識別符識別於該基於全圖像的可縮放層內的一ROI可縮放層;及 指示用於該ROI可縮放層之幾何資訊。
- 一種裝置,其包含:一處理器;以及一記憶體單元,其通訊性地連接到該處理器且包括電腦程式指令,該記憶體及該電腦程式指令與該處理器協力,組態以使該裝置進行:使一可縮放視訊位元串流儲存在一容器檔案內,該可縮放視訊位元串流包含至少一基於全圖像的可縮放層及至少一感興趣區域(ROI)可縮放層;藉由一第一識別符及一第二識別符來識別每個ROI可縮放層,該第一識別符識別一基於全圖像的可縮放層而該ROI屬於該基於全圖像的可縮放層,且該第二識別符識別於該基於全圖像的可縮放層內的一ROI可縮放層;及指示用於該ROI可縮放層之幾何資訊。
- 如申請專利範圍第13項所述之裝置,其中該第一識別符及該第二識別符被儲存在該容器檔案內。
- 如申請專利範圍第14項所述之裝置,其中自一ROI可縮放層的一位置、形狀及大小中的至少一者推導出的一幾何資訊被儲存在該容器檔案內。
- 如申請專利範圍第14項所述之裝置,其中該第二識別符自一ROI可縮放層之該位置推導出。
- 如申請專利範圍第14項所述之裝置,其中該可縮放視訊串流內的一已編碼資料單元至一ROI可縮放層之映射被 儲存在該容器檔案內。
- 如申請專利範圍第14項所述之裝置,其中該檔案容器依據該可縮放視訊編碼(SVC)檔案格式標準被構造。
- 如申請專利範圍第18項所述之裝置,其中該第一識別符以一ScalableTierEntry()資料結構被發信通知。
- 如申請專利範圍第19項所述之裝置,其中自一ROI可縮放層的一位置、形狀及大小中的至少一者推導出的一幾何資訊以該ScalableTierEntry()資料結構被發信通知。
- 如申請專利範圍第20項所述之裝置,其中一已編碼資料單元至該第二識別符之映射利用一定時元資料被發信通知。
- 如申請專利範圍第20項所述之裝置,其中一已編碼資料單元至該第二識別符之映射以一方塊被發信通知。
- 如申請專利範圍第20項所述之裝置,其中一已編碼資料單元至該第二識別符之映射利用一樣本族群被發信通知。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US83053906P | 2006-07-12 | 2006-07-12 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW200822759A TW200822759A (en) | 2008-05-16 |
TWI435607B true TWI435607B (zh) | 2014-04-21 |
Family
ID=38923643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW096125216A TWI435607B (zh) | 2006-07-12 | 2007-07-11 | 以媒體檔案發信號通知感興趣區域可縮放性資訊之技術 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8442109B2 (zh) |
EP (1) | EP2041976A4 (zh) |
CN (1) | CN101507281B (zh) |
TW (1) | TWI435607B (zh) |
WO (1) | WO2008007304A2 (zh) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101115547B1 (ko) * | 2007-04-24 | 2012-03-05 | 노키아 코포레이션 | 미디어 파일들에서의 다중 디코딩 시각들을 시그날링 |
CN102405644B (zh) * | 2009-04-21 | 2014-09-10 | 马维尔国际贸易有限公司 | 基于因特网视频内容的经估算质量对视频后处理器的自动调节 |
US10250901B2 (en) | 2012-06-28 | 2019-04-02 | Saturn Licensing Llc | Transmitting/receiving device, method, and coding/decoding device |
US9294777B2 (en) * | 2012-12-30 | 2016-03-22 | Qualcomm Incorporated | Progressive refinement with temporal scalability support in video coding |
CN109618235B (zh) | 2013-01-18 | 2021-03-16 | 佳能株式会社 | 生成设备和方法、处理设备和方法以及存储介质 |
GB2513303B (en) * | 2013-04-16 | 2017-06-07 | Canon Kk | Method and device for partitioning an image |
CN105144768B (zh) | 2013-04-26 | 2019-05-21 | 英特尔Ip公司 | 频谱共享情境中的共享频谱重新分配 |
CA2916892A1 (en) * | 2013-07-22 | 2015-01-29 | Sony Corporation | Information processing apparatus and method |
GB2516825B (en) * | 2013-07-23 | 2015-11-25 | Canon Kk | Method, device, and computer program for encapsulating partitioned timed media data using a generic signaling for coding dependencies |
GB2519746B (en) | 2013-10-22 | 2016-12-14 | Canon Kk | Method, device and computer program for encapsulating scalable partitioned timed media data |
WO2015104451A1 (en) | 2014-01-07 | 2015-07-16 | Nokia Technologies Oy | Method and apparatus for video coding and decoding |
CN103813169B (zh) * | 2014-02-19 | 2017-07-21 | 北京大学 | 视频编解码器中可伸缩的对象表示方法和装置 |
US20150373341A1 (en) * | 2014-06-23 | 2015-12-24 | Cisco Technology, Inc. | Techniques for Interactive Region-Based Scalability |
GB2527786B (en) * | 2014-07-01 | 2016-10-26 | Canon Kk | Method, device, and computer program for encapsulating HEVC layered media data |
GB2538997A (en) * | 2015-06-03 | 2016-12-07 | Nokia Technologies Oy | A method, an apparatus, a computer program for video coding |
CN106791863B (zh) * | 2015-11-19 | 2019-07-16 | 浙江大华技术股份有限公司 | 一种svc视频数据的存储方法及装置 |
WO2018041244A1 (en) * | 2016-09-02 | 2018-03-08 | Mediatek Inc. | Incremental quality delivery and compositing processing |
US11197040B2 (en) * | 2016-10-17 | 2021-12-07 | Mediatek Inc. | Deriving and signaling a region or viewport in streaming media |
US10999602B2 (en) | 2016-12-23 | 2021-05-04 | Apple Inc. | Sphere projected motion estimation/compensation and mode decision |
US11259046B2 (en) | 2017-02-15 | 2022-02-22 | Apple Inc. | Processing of equirectangular object data to compensate for distortion by spherical projections |
JP6936018B2 (ja) | 2017-02-21 | 2021-09-15 | ソニーセミコンダクタソリューションズ株式会社 | 映像送信装置および映像受信装置 |
US10924747B2 (en) | 2017-02-27 | 2021-02-16 | Apple Inc. | Video coding techniques for multi-view video |
US11139000B2 (en) * | 2017-03-07 | 2021-10-05 | Mediatek Inc. | Method and apparatus for signaling spatial region information |
WO2018179903A1 (en) * | 2017-03-27 | 2018-10-04 | Sharp Kabushiki Kaisha | Systems and methods for signaling of information associated with most-interested regions for virtual reality applications |
US11093752B2 (en) | 2017-06-02 | 2021-08-17 | Apple Inc. | Object tracking in multi-view video |
US10754242B2 (en) | 2017-06-30 | 2020-08-25 | Apple Inc. | Adaptive resolution and projection format in multi-direction video |
CN113170170B (zh) | 2018-11-22 | 2024-07-26 | 北京字节跳动网络技术有限公司 | 用于具有几何分割的帧间预测的混合方法 |
RU2743956C1 (ru) * | 2019-08-15 | 2021-03-01 | Сцреенлифе Лимитед | Способ создания вертикально ориентированного видео |
KR20220070437A (ko) | 2019-10-05 | 2022-05-31 | 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 | 비디오 코딩 툴의 레벨 기반 시그널링 |
WO2021068923A1 (en) | 2019-10-10 | 2021-04-15 | Beijing Bytedance Network Technology Co., Ltd. | Deblocking filtering improvements |
WO2021129866A1 (en) | 2019-12-27 | 2021-07-01 | Beijing Bytedance Network Technology Co., Ltd. | Signaling of slice types in video pictures headers |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6256423B1 (en) * | 1998-09-18 | 2001-07-03 | Sarnoff Corporation | Intra-frame quantizer selection for video compression |
US7042944B2 (en) * | 2000-09-22 | 2006-05-09 | Koninklijke Philips Electronics N.V. | Single-loop motion-compensation fine granular scalability |
US20020037046A1 (en) * | 2000-09-22 | 2002-03-28 | Philips Electronics North America Corporation | Totally embedded FGS video coding with motion compensation |
KR20040058304A (ko) * | 2001-11-21 | 2004-07-03 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 개선된 비트 평면 압축 방법 |
GB2382940A (en) | 2001-11-27 | 2003-06-11 | Nokia Corp | Encoding objects and background blocks |
EP1500002A1 (en) * | 2002-04-29 | 2005-01-26 | Sony Electronics Inc. | Supporting advanced coding formats in media files |
US20040006575A1 (en) | 2002-04-29 | 2004-01-08 | Visharam Mohammed Zubair | Method and apparatus for supporting advanced coding formats in media files |
US7062096B2 (en) * | 2002-07-29 | 2006-06-13 | Matsushita Electric Industrial Co., Ltd. | Apparatus and method for performing bitplane coding with reordering in a fine granularity scalability coding system |
US20050131660A1 (en) * | 2002-09-06 | 2005-06-16 | Joseph Yadegar | Method for content driven image compression |
US7738552B2 (en) * | 2002-12-06 | 2010-06-15 | Broadcom Company | Processing data streams |
EP1439712A1 (en) * | 2002-12-17 | 2004-07-21 | Visiowave S.A. | Method of selecting among "Spatial Video CODEC's" the optimum CODEC for a same input signal |
US6973128B2 (en) * | 2003-02-21 | 2005-12-06 | Mitsubishi Electric Research Labs, Inc. | Multi-path transmission of fine-granular scalability video streams |
US20040179606A1 (en) * | 2003-02-21 | 2004-09-16 | Jian Zhou | Method for transcoding fine-granular-scalability enhancement layer of video to minimized spatial variations |
US20050024487A1 (en) * | 2003-07-31 | 2005-02-03 | William Chen | Video codec system with real-time complexity adaptation and region-of-interest coding |
US9560367B2 (en) * | 2004-09-03 | 2017-01-31 | Nokia Technologies Oy | Parameter set and picture header in video coding |
JP4656912B2 (ja) * | 2004-10-29 | 2011-03-23 | 三洋電機株式会社 | 画像符号化装置 |
US8290057B2 (en) * | 2005-02-18 | 2012-10-16 | Mediatek Incorporation | Method of decoding a digital video sequence and related apparatus |
US7796154B2 (en) * | 2005-03-07 | 2010-09-14 | International Business Machines Corporation | Automatic multiscale image acquisition from a steerable camera |
KR100728222B1 (ko) * | 2005-03-25 | 2007-06-13 | 한국전자통신연구원 | 공간영역에서의 완전한 스케일러빌리티를 위한 계층적 부호화/복호화 방법 및 장치 |
CN101120593A (zh) | 2005-04-13 | 2008-02-06 | 诺基亚公司 | 可扩展性信息的编码、存储和信号发送 |
KR100878811B1 (ko) * | 2005-05-26 | 2009-01-14 | 엘지전자 주식회사 | 비디오 신호의 디코딩 방법 및 이의 장치 |
US8184153B2 (en) * | 2005-09-26 | 2012-05-22 | Electronics And Telecommunications Research Institute | Method and apparatus for defining and reconstructing ROIs in scalable video coding |
KR101255226B1 (ko) * | 2005-09-26 | 2013-04-16 | 한국과학기술원 | 스케일러블 비디오 코딩에서 다중 roi 설정, 복원을위한 장치 및 방법 |
US7535383B2 (en) * | 2006-07-10 | 2009-05-19 | Sharp Laboratories Of America Inc. | Methods and systems for signaling multi-layer bitstream data |
US8085852B2 (en) * | 2007-06-26 | 2011-12-27 | Mitsubishi Electric Research Laboratories, Inc. | Inverse tone mapping for bit-depth scalable image coding |
-
2007
- 2007-07-04 EP EP07789878A patent/EP2041976A4/en not_active Ceased
- 2007-07-04 CN CN2007800314331A patent/CN101507281B/zh active Active
- 2007-07-04 WO PCT/IB2007/052605 patent/WO2008007304A2/en active Application Filing
- 2007-07-09 US US11/775,136 patent/US8442109B2/en active Active
- 2007-07-11 TW TW096125216A patent/TWI435607B/zh active
Also Published As
Publication number | Publication date |
---|---|
CN101507281A (zh) | 2009-08-12 |
WO2008007304A2 (en) | 2008-01-17 |
EP2041976A4 (en) | 2012-06-20 |
US20080013621A1 (en) | 2008-01-17 |
US8442109B2 (en) | 2013-05-14 |
EP2041976A2 (en) | 2009-04-01 |
TW200822759A (en) | 2008-05-16 |
CN101507281B (zh) | 2013-06-05 |
WO2008007304A3 (en) | 2008-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI435607B (zh) | 以媒體檔案發信號通知感興趣區域可縮放性資訊之技術 | |
KR100984693B1 (ko) | 규모가변적 비디오 코딩의 픽처 경계 기호 | |
CN110036641B (zh) | 一种处理视频数据的方法、设备及计算机可读存储介质 | |
US10979691B2 (en) | Circular fisheye video in virtual reality | |
TWI423679B (zh) | 可縮放視訊編碼與解碼技術 | |
US11532128B2 (en) | Advanced signaling of regions of interest in omnidirectional visual media | |
CA2972332C (en) | Inter-layer prediction for scalable video coding and decoding | |
JP4903877B2 (ja) | ビデオの符号化においてピクチャ出力インジケータを提供するためのシステムおよび方法 | |
RU2430483C2 (ru) | Передача сообщений дополнительной расширенной информации в формате полезной нагрузки транспортного протокола реального времени | |
KR101021831B1 (ko) | 미디어 파일에서 트랙 관계를 표시하는 시스템 및 방법 | |
TWI463877B (zh) | 虛擬解碼參考圖片標記技術與參考圖片表 | |
TWI482498B (zh) | 媒體檔案之多重解碼時間發訊技術 | |
TW200850008A (en) | System and method for using redundant pictures for inter-layer prediction in scalable video coding |