TWI771693B

TWI771693B - 視訊編碼及解碼中之空間延展性支援

Info

Publication number: TWI771693B
Application number: TW109119082A
Authority: TW
Inventors: 法迪姆塞瑞金; 穆漢麥德傑德柯本; 阿達許克里許納瑞瑪蘇布雷蒙尼安; 馬塔卡茲維克茲
Original assignee: 美商高通公司
Priority date: 2019-06-07
Filing date: 2020-06-05
Publication date: 2022-07-21
Also published as: EP3981154A1; CN113906756A; SG11202111857PA; KR20220016842A; TW202114414A; JP2022535025A; WO2020247719A1; US11153583B2; US20200389659A1; BR112021023725A2

Abstract

一種視訊編碼器或視訊解碼器可經組態以：獲得包括至少一第一層及一第二層之多層視訊資料；判定用於該第一層之一層標識值及用於該第二層之一層標識值，其中用於該第二層之該層標識值高於用於該第一層之該層標識值；將該第一層之經解碼圖像及該第二層之經解碼圖像儲存於一經解碼圖像緩衝器中；及回應於判定一層之一圖像為一瞬時解碼再新(IDR)圖像，自該經解碼圖像緩衝器移除該IDR圖像所屬的一層之所有經解碼圖像，同時將層標識低於該IDR圖像所屬之該層的一層標識的所有經解碼圖像保留於該經解碼圖像緩衝器中。

Description

視訊編碼及解碼中之空間延展性支援

本發明係關於視訊編碼及視訊解碼。

數位視訊能力可併入至廣泛範圍之裝置中，該等裝置包括數位電視、數位直播系統、無線廣播系統、個人數位助理(PDA)、膝上型或桌上型電腦、平板電腦、電子書閱讀器、數位攝影機、數位記錄裝置、數位媒體播放機、視訊遊戲裝置、視訊遊戲主控台、蜂巢式或衛星無線電電話(所謂的「智慧型電話」)、視訊電傳會議裝置、視訊串流裝置及其類似者。數位視訊裝置實施視訊寫碼技術，諸如由MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4第10部分進階視訊寫碼(AVC)、ITU-T H.265/高效視訊寫碼(HEVC)定義之標準，及此等標準的擴展中所描述之技術。視訊裝置可藉由實施此類視訊寫碼技術而更有效地傳輸、接收、編碼、解碼及/或儲存數位視訊資訊。

視訊寫碼技術包括空間(圖像內)預測及/或時間(圖像間)預測以減少或移除為視訊序列所固有之冗餘。對於基於區塊之視訊寫碼，視訊圖塊(例如，視訊圖像或視訊圖像的一部分)可分割成視訊區塊，視訊區塊亦可被稱作寫碼樹型單元(CTU)、寫碼單元(CU)及/或寫碼節點。使用相對於同一圖像中之相鄰區塊中之參考樣本的空間預測來編碼圖像之經框內寫碼(I)之圖塊中的視訊區塊。圖像之經框間寫碼(P或B)圖塊中之視訊區塊可使用關於同一圖像中之相鄰區塊中的參考樣本的空間預測或關於其他參考圖像中之參考樣本的時間預測。圖像可稱為圖框，且參考圖像可稱為參考圖框。

本發明之技術涉及多層視訊資料編碼及解碼，且更特定言之，涉及用於管理用於多層視訊資料編碼及解碼之一經解碼圖像緩衝器的技術。本發明亦描述用於在多層視訊資料編碼及解碼中偵測一新存取單元之起點的技術。多層視訊資料可用以實現空間延展性。

根據本發明之一個實例，一種解碼多層視訊資料之方法包括：獲得該多層視訊資料，其中該多層視訊資料包含至少一第一層及一第二層；判定用於該第一層之一層標識值及用於該第二層之一層標識值，其中用於該第二層之該層標識值高於用於該第一層之該層標識值；將該第一層之經解碼圖像及該第二層之經解碼圖像儲存於一經解碼圖像緩衝器中；及回應於判定一瞬時解碼再新(IDR)圖像屬於該第二層，自該經解碼圖像緩衝器移除該第二層之所有經解碼圖像，同時將該第一層之所有經解碼圖像保留於該經解碼圖像緩衝器中。

根據本發明之另一實例，一種用於解碼多層視訊資料之裝置包括：一記憶體，其經組態以儲存該多層視訊資料；及一或多個處理器，其實施於電路系統中且經組態以：獲得該多層視訊資料，其中該多層視訊資料包含至少一第一層及一第二層；判定用於該第一層之一層標識值及用於該第二層之一層標識值，其中用於該第二層之該層標識值高於用於該第一層之該層標識值；將該第一層之經解碼圖像及該第二層之經解碼圖像儲存於一經解碼圖像緩衝器中；及回應於判定一瞬時解碼再新(IDR)圖像屬於該第二層，自該經解碼圖像緩衝器移除該第二層之所有該等經解碼圖像，同時將該第一層之所有該等經解碼圖像保留於該經解碼圖像緩衝器中。

根據本發明之另一實例，一種儲存指令之電腦可讀儲存媒體，該等指令在由一或多個處理器執行時使得該一或多個處理器：獲得該多層視訊資料，其中該多層視訊資料包含至少一第一層及一第二層；判定用於該第一層之一層標識值及用於該第二層之一層標識值，其中用於該第二層之該層標識值高於用於該第一層之該層標識值；將該第一層之經解碼圖像及該第二層之經解碼圖像儲存於一經解碼圖像緩衝器中；及回應於判定一瞬時解碼再新(IDR)圖像屬於該第二層，自該經解碼圖像緩衝器移除該第二層之所有經解碼圖像，同時將該第一層之所有經解碼圖像保留於該經解碼圖像緩衝器中。

一種用於解碼多層視訊資料之設備包括：用於獲得該多層視訊資料的構件，其中該多層視訊資料包含至少一第一層及一第二層；用於判定用於該第一層之一層標識值及用於該第二層之一層標識值的構件，其中用於該第二層之該層標識值高於用於該第一層之該層標識值；用於將該第一層之經解碼圖像及該第二層之經解碼圖像儲存於一經解碼圖像緩衝器中的構件；及用於回應於判定一瞬時解碼再新(IDR)圖像屬於該第二層，自該經解碼圖像緩衝器移除該第二層之所有經解碼圖像，同時將該第一層之所有經解碼圖像保留於該經解碼圖像緩衝器中的構件。

在以下隨附圖式及描述中闡述一或多個實例之細節。其他特徵、目標及優點將自描述、圖式及申請專利範圍而顯而易見。

本申請案主張2019年6月7日申請之美國臨時申請案62/858,901之權益，該申請案之全部內容特此以引用之方式併入。

視訊寫碼(例如，視訊編碼及/或視訊解碼)通常涉及根據同一圖像中之已經寫碼視訊資料區塊來預測視訊資料區塊(例如框內預測)或根據不同圖像中之已經寫碼視訊資料區塊來預測視訊資料區塊(例如框間預測)。在一些情況下，視訊編碼器亦藉由比較預測區塊與原始區塊來計算殘餘資料。因此，殘餘資料表示預測區塊與原始區塊之間的差異。為減少發信殘餘資料所需之位元的數目，視訊編碼器變換及量化殘餘資料且在經編碼位元串流中發信經變換及經量化的殘餘資料。藉由變換及量化程序達成之壓縮可為有損的，意謂變換及量化程序可將失真引入至經解碼視訊資料中。

視訊解碼器解碼殘餘資料並將其添加至預測區塊以產生相比單獨之預測區塊更緊密匹配原始視訊區塊之經重建構視訊區塊。由於藉由殘餘資料之變換及量化所引入之損耗，第一經重建構區塊可具有失真或假影。一個常見類型之假影或失真被稱作區塊效應，其中用於寫碼視訊資料之區塊之邊界為可見的。

為進一步改良經解碼視訊之品質，視訊解碼器可對經重建構視訊區塊執行一或多個濾波操作。此等濾波操作之實例包括解區塊濾波、樣本自適應性偏移(SAO)濾波及自適應性迴路濾波(ALF)。用於此等濾波操作之參數可藉由視訊編碼器判定且在經編碼視訊位元串流中明確地發信，或可隱含地藉由視訊解碼器判定而無需在經編碼視訊位元串流中明確地發信參數。

為實現延展性，該延展性通常指視訊位元串流支援多個空間解析度及/或多個圖框速率之能力，一些視訊位元串流包括多個層。多層位元串流可包括基礎層及一或多個非基礎層。非基礎層有時亦被稱作增強層。在可延展位元串流中，基礎層可通常具有等於零之層識別符(例如，nuh_layer_id)且可為可獨立解碼的，意謂基礎層可在無需來自其他層之資訊的情況下進行解碼。非基礎層可具有大於零之層識別符，且可提供未包括於基礎層中之額外視訊資料。此額外視訊資料可例如包括可用以增大空間解析度或圖框速率之更多樣本值。非基礎層可為或可並非為可獨立解碼的。一些非基礎層無法在不存取與其他層相關聯之資訊的情況下進行解碼，且因此被認為視彼等其他層而定。視訊寫碼層(VCL)網路抽象層(NAL)單元一般指包括用於圖像之圖塊的視訊資料之經寫碼圖塊NAL單元。層通常指皆具有特定值nuh_layer_id之VCL NAL單元及相關聯非VCL NAL單元之一集合。

NAL單元為含有待遵循的資料之類型之指示及含有彼資料的呈按需要穿插有仿真阻止位元組之原始位元組序列有效負載(RBSP)之形式的位元組之語法結構。存取單元(AU)係屬於不同層且含有與相同時間相關聯之經寫碼圖像的圖像單元之集合。圖像單元係根據指定分類規則彼此相關聯的、按解碼次序連續的且恰好含有一個經寫碼圖像的NAL單元之集合。

瞬時解碼再新(IDR)圖像係在解碼程序中不使用框間預測，且因此按解碼次序可為位元串流中之第一個圖像的一種類型之圖像。IDR圖像亦可稍後出現在位元串流中且用於隨機存取，該隨機存取通常係指在除串流之起點之外的點處開始位元串流之解碼程序的動作。每一IDR圖像為按解碼次序經寫碼視訊序列(CVS)之第一個圖像。

視訊編碼器及視訊解碼器將經解碼圖像儲存於經解碼圖像緩衝器(DPB)中，使得經解碼圖像可用作參考圖像以編碼及解碼位元串流中之稍後圖像。參考圖像含有可用於按解碼次序解碼連續圖像之程序中的框間預測之樣本。在判定哪些圖像保留在DPB中及哪些圖像移除時，「凸起」可成為多層視訊資料之唯一困難，因為將來自一個層之圖像添加至DPB可能使得來自其他層之圖像凸起。本發明描述用於在視訊資料層包括IDR圖像時自DPB使圖像凸起的技術。

根據本發明之一些技術，回應於判定一層之一圖像為IDR圖像，視訊解碼器可自DPB移除IDR圖像所屬的該層之所有經解碼圖像，同時將具有較低層ID之所有經解碼圖像保留於經解碼圖像緩衝器中。藉由以此方式組態視訊解碼器，視訊解碼器可保持在彼等較低層不包括IDR圖像時，基於具有較低層ID之經解碼圖像解碼未來圖像的能力。藉由以此方式管理DPB，視訊解碼器可防止歸因於必要參考圖像不可用而產生不可解碼之位元串流的寫碼情境。

根據本發明之一些技術，回應於判定(1)第二存取單元之VCL NAL單元之層標識小於按解碼次序的前一圖像之層標識及(2)第二存取單元之VCL NAL單元之圖像次序計數(POC)值不同於按解碼次序的前一圖像之POC值，視訊解碼器可判定第二存取單元之VCL NAL單元對應於第二存取單元的起點。此技術可藉由不對單一層視訊解碼器造成不當負擔來表示用於偵測新存取單元之起點的經改良方式。

儘管本發明之技術可自視訊解碼器之視角描述，但應理解，所描述技術亦可藉由視訊編碼器執行。舉例而言，視訊編碼器通常亦解碼視訊資料，作為判定如何編碼視訊資料之程序的部分。結合彼解碼，視訊編碼器可使用與視訊解碼器相同的技術維持DPB。

圖1為說明可執行本發明之技術之實例視訊編碼及解碼系統100的方塊圖。本發明之技術大體上係針對寫碼(編碼及/或解碼)視訊資料。大體而言，視訊資料包括用於處理視訊之任何資料。因此，視訊資料可包括原始未經編碼的視訊、經編碼視訊、經解碼(例如經重建構)視訊及視訊後設資料，諸如發信資料。

如圖1中所展示，在此實例中，系統100包括源裝置102，其提供待由目的地裝置116解碼及顯示之經編碼視訊資料。特定而言，源裝置102經由電腦可讀媒體110將視訊資料提供至目的地裝置116。源裝置102及目的地裝置116可包含廣泛範圍裝置中之任一者，包括桌上型電腦、筆記型(亦即，膝上型)電腦、平板電腦、機上盒、電話手持機(諸如智慧型電話)、電視、攝影機、顯示裝置、數字媒體播放器、視訊遊戲控制台、視訊串流裝置或其類似者。在一些情況下，源裝置102及目的地裝置116可經裝備用於無線通信，且由此可稱為無線通信裝置。

在圖1之實例中，源裝置102包括視訊源104、記憶體106、視訊編碼器200及輸出介面108。目的地裝置116包括輸入介面122、視訊解碼器300、記憶體120及顯示裝置118。根據本發明，源裝置102之視訊編碼器200及目的地裝置116之視訊解碼器300可經組態以應用本發明中描述之相連圖像次序計數(POC)編號技術。由此，源裝置102表示視訊編碼裝置之實例，而目的地裝置116表示視訊解碼裝置之實例。在其他實例中，源裝置及目的地裝置可包括其他組件或配置。舉例而言，源裝置102可自外部視訊源(諸如，外部攝影機)接收視訊資料。同樣地，目的地裝置116可與外部顯示裝置介接，而非包括整合顯示裝置。

如圖1中所展示的系統100僅為一個實例。大體而言，任何數位視訊編碼及/或解碼裝置可執行本發明中描述之相連POC編號技術以支援延展性。源裝置102及目的地裝置116僅僅為此類寫碼裝置之實例，其中源裝置102產生經寫碼視訊資料以供傳輸至目的地裝置116。本發明將「寫碼」裝置稱為對資料執行寫碼(編碼及/或解碼)之裝置。因此，視訊編碼器200及視訊解碼器300表示寫碼裝置之實例，詳言之分別表示視訊編碼器及視訊解碼器之實例。在一些實例中，裝置102、116可以大體上對稱的方式操作，使得裝置102、116中之每一者包括視訊編碼及解碼組件。因此，系統100可支援視訊裝置102、116之間的單向或雙向視訊傳輸以用於(例如)視訊串流、視訊播放、視訊廣播或視訊電話。

大體而言，視訊源104表示視訊資料源(亦即，原始未經編碼視訊資料)且將視訊資料之依序圖像(亦稱為「圖框」)提供至視訊編碼器200，該視訊編碼器200編碼圖像之資料。源裝置102之視訊源104可包括視訊俘獲裝置，諸如視訊相機、含有先前俘獲之原始視訊的視訊存檔及/或用以自視訊內容提供者接收視訊的視訊饋入介面。作為另一替代，視訊源104可產生基於電腦圖形之資料作為源視訊，或實況視訊、存檔視訊及電腦產生之視訊的組合。在每一情況下，視訊編碼器200對所俘獲、所預先俘獲或電腦產生之視訊資料進行編碼。視訊編碼器200可將圖像之接收次序(有時被稱作「顯示次序」)重新配置成寫碼次序以供寫碼。視訊編碼器200可產生包括經編碼視訊資料之位元串流。源裝置102可接著經由輸出介面108將包括經編碼多層視訊資料之經編碼視訊資料輸出至電腦可讀媒體110上，以供藉由例如目的地裝置116之輸入介面122接收及/或擷取。

源裝置102之記憶體106及目的地裝置116之記憶體120表示通用記憶體。在一些實例中，記憶體106、120可儲存原始視訊資料，例如來自視訊源104之原始視訊及來自視訊解碼器300之原始經解碼視訊資料。另外或替代地，記憶體106、120可儲存可分別由例如視訊編碼器200及視訊解碼器300執行之軟體指令。儘管在此實例中展示為與視訊編碼器200及視訊解碼器300分開，但應理解，視訊編碼器200及視訊解碼器300亦可包括功能上類似或等效目的之內部記憶體。此外，記憶體106、120可儲存例如自視訊編碼器200輸出及輸入至視訊解碼器300的經編碼視訊資料。在一些實例中，可分配記憶體106、120之部分作為一或多個視訊緩衝器，以例如儲存原始、經解碼及/或經編碼視訊資料。

電腦可讀媒體110可表示能夠將經編碼視訊資料自源裝置102輸送至目的地裝置116的任何類型之媒體或裝置。在一個實例中，電腦可讀媒體110表示用以使源裝置102能即時例如經由射頻網路或基於電腦之網路直接傳輸經編碼視訊資料至目的地裝置116的通信媒體。輸出介面108可例如藉由調變包括經編碼視訊資料之傳輸信號來輸出，且輸入介面122可根據諸如無線通信協定之通信標準例如藉由解調所接收傳輸信號來接收。通信媒體可包含任何無線或有線通信媒體，諸如射頻(RF)頻譜或一或多個實體傳輸線。通信媒體可形成基於封包之網路(諸如，區域網路、廣域網路或諸如網際網路之全域網路)之部分。通信媒體可包括路由器、交換器、基地台或可用於促進自源裝置102至目的地裝置116的通信之任何其他裝備。

在一些實例中，源裝置102可自輸出介面108輸出經編碼資料至儲存裝置112。類似地，目的地裝置116可經由輸入介面122自儲存裝置112存取包括經編碼多層視訊資料之經編碼資料。儲存裝置112可包括各種分佈式或本端存取之資料儲存媒體中之任一者，諸如硬碟機、藍光光碟、DVD、CD-ROM、快閃記憶體、揮發性或非揮發性記憶體或用於儲存經編碼視訊資料之任何其他合適的數位儲存媒體。

在一些實例中，源裝置102可將經編碼視訊資料輸出至檔案伺服器114或另一中間儲存裝置，其可儲存由源裝置102產生之經編碼視訊。目的地裝置116可經由串流傳輸或下載而自檔案伺服器114存取所儲存之視訊資料。檔案伺服器114可為能夠儲存經編碼視訊資料並將彼經編碼視訊資料傳輸至目的地裝置116的任何類型之伺服器裝置。檔案伺服器114可表示網頁伺服器(例如用於網站)、檔案傳送協定(FTP)伺服器、內容遞送網路裝置，或網路附接儲存(NAS)裝置。目的地裝置116可經由包括網際網路連接之任何標準資料連接自檔案伺服器114存取經編碼視訊資料。此可包括無線通道(例如Wi-Fi連接)、有線連接(例如，數位用戶線(DSL)、電纜數據機等)、光纖連接或適合於存取儲存於檔案伺服器114上之經編碼視訊資料的兩者之組合。檔案伺服器114及輸入介面122可經組態以根據串流傳輸協定、下載傳輸協定或其組合操作。

輸出介面108及輸入介面122可表示無線傳輸器/接收器、數據機、有線網路連接組件(例如乙太網路卡)、根據各種IEEE 802.11標準中之任一者而操作之無線通信組件，或其他實體組件。在輸出介面108及輸入介面122包含無線組件之實例中，輸出介面108及輸入介面122可經組態以根據蜂巢式通信標準(諸如4G、4G-LTE(長期演進)、LTE進階、5G或其類似者)來傳遞資料，諸如經編碼視訊資料。在輸出介面108包含無線傳輸器的一些實例中，輸出介面108及輸入介面122可經組態以根據諸如IEEE 802.11規範、IEEE 802.15規範(例如，ZigBee™)、Bluetooth™標準或其類似者的其他無線標準傳送資料(諸如經編碼視訊資料)。在一些實例中，源裝置102及/或目的地裝置116可包括各別晶片上系統(SoC)裝置。舉例而言，源裝置102可包括SoC裝置以執行歸於視訊編碼器200及/或輸出介面108之功能性，且目的地裝置116可包括SoC裝置以執行歸於視訊解碼器300及/或輸入介面122之功能性。

本發明之技術可應用於支援多種多媒體應用中之任一者的視訊寫碼，諸如，空中電視廣播、有線電視傳輸、衛星電視傳輸、網際網路串流視訊傳輸(諸如，經由HTTP之動態自適應串流(DASH))、經編碼至資料儲存媒體上之數位視訊、儲存於資料儲存媒體上的數位視訊之解碼或其他應用。

目的地裝置116之輸入介面122自電腦可讀媒體110 (例如，儲存裝置112、檔案伺服器114或其類似者)接收經編碼視訊位元串流。經編碼視訊位元串流可包括由視訊編碼器200定義之發信資訊(其亦由視訊解碼器300使用)，諸如具有描述視訊區塊或其他經寫碼單元(例如，圖塊、圖像、圖像群組、序列或其類似者)之特性及/或處理的值的語法元素。顯示裝置118向使用者顯示經解碼視訊資料之經解碼圖像。顯示裝置118可表示各種顯示裝置中之任一者，諸如陰極射線管(CRT)、液晶顯示器(LCD)、電漿顯示器、有機發光二極體(OLED)顯示器或另一類型之顯示裝置。

儘管圖1中未示出，但在一些實例中，視訊編碼器200及視訊解碼器300可各自與音訊編碼器及/或音訊解碼器整合，且可包括適合的MUX-DEMUX單元或其他硬體及/或軟體，以處置在共同資料串流中包括音訊及視訊兩者之多工串流。若適用，則MUX-DEMUX單元可遵照ITU H.223多工器協定或諸如使用者資料報協定(UDP)之其他協定。

視訊編碼器200及視訊解碼器300各自可被實施為各種合適編碼器及/或解碼器電路系統中之任一者，諸如一或多個微處理器、數位信號處理器(DSP)、特殊應用積體電路(ASIC)、場可程式化閘陣列(FPGA)、離散邏輯、軟體、硬體、韌體或其任何組合。當該等技術部分以軟體實施時，裝置可將用於軟體之指令儲存於合適之非暫時性電腦可讀媒體中，且在硬體中使用一或多個處理器執行指令以執行本發明之技術。視訊編碼器200及視訊解碼器300中之每一者可包括於一或多個編碼器或解碼器中，編碼器或解碼器中之任一者可整合為各別裝置中之組合式編碼器/解碼器(編碼解碼器)的部分。包括視訊編碼器200及/或視訊解碼器300之裝置可包含積體電路、微處理器及/或無線通信裝置(諸如蜂巢式電話)。

視訊編碼器200及視訊解碼器300可根據視訊寫碼標準操作，諸如ITU-T H.265，亦稱作高效視訊寫碼(HEVC)或其擴展，諸如多視圖及/或可延展視訊寫碼擴展。可替代地，視訊編碼器200及視訊解碼器300可根據其他專有或行業標準操作，諸如聯合勘探測試模型(JEM)或ITU-T H.266，其亦經稱作多功能視訊寫碼(VVC)。VVC標準之最新草案描述於2019年3月19日至27日於CH日內瓦的ITU-T SG 16 WP 3及ISO/IEC JTC 1/SC 29/WG 11之聯合視訊專家小組(JVET)第14次會議JVET-N1001-v3上，Bross等人的「Versatile Video Coding(草案5)」中(在下文中「VVC草案5」)。然而，本發明之技藝不限於任何特定寫碼標準。

大體而言，視訊編碼器200及視訊解碼器300可執行圖像之基於區塊的寫碼。術語「區塊」一般係指包括待處理(例如編碼、解碼或以其他方式在編碼及/或解碼程序中使用)之資料的結構。舉例而言，區塊可包括明度及/或色度資料之樣本之二維矩陣。一般而言，視訊編碼器200及視訊解碼器300可對以YUV (例如Y、Cb、Cr)格式表示之視訊資料進行寫碼。亦即，視訊編碼器200及視訊解碼器300可寫碼明度及色度分量，而非寫碼圖像之樣本的紅色、綠色及藍色(RGB)資料，其中色度分量可包括紅色調及藍色調色度分量兩者。在一些實例中，視訊編碼器200在編碼之前將所接收的RGB格式化資料轉換為YUV表示，且視訊解碼器300將YUV表示轉換為RGB格式。可替代地，預處理單元及後處理單元(圖中未示)可執行此等轉換。

本發明大體上可指對圖像進行寫碼(例如編碼及解碼)以包括編碼或解碼圖像之資料的程序。類似地，本發明可指對圖像之區塊進行寫碼以包括對區塊之資料進行編碼或解碼的處理(例如，預測及/或殘餘寫碼)經編碼視訊位元串流一般包括表示寫碼決策(例如寫碼模式)及圖像至區塊之分區的語法元素的一系列值。因此，對寫碼圖像或區塊之提及一般應理解為寫碼形成圖像或區塊之語法元素的值。

HEVC定義各種區塊，包括寫碼單元(CU)、預測單元(PU)，以及變換單元(TU)。根據HEVC，視訊寫碼器(諸如視訊編碼器200)根據四分樹結構將寫碼樹單元(CTU)分割成CU。亦即，視訊寫碼器將CTU及CU分割成四個相同的非重疊正方形，且四分樹之每一節點具有零個或四個子節點。不具有子節點之節點可被稱作「葉節點」，且此類葉節點之CU可包括一或多個PU及/或一或多個TU。視訊寫碼器可進一步分割PU及TU。舉例而言，在HEVC中，殘餘四分樹(RQT)表示TU之分割。在HEVC中，PU表示框間預測資料，而TU表示殘餘資料。經框內預測之CU包括框內預測資訊，諸如框內模式指示。

作為另一實例，視訊編碼器200及視訊解碼器300可經組態以根據JEM或VVC操作。根據JEM或VVC，視訊寫碼器(諸如視訊編碼器200)將圖像分割成複數個寫碼樹單元(CTU)。視訊編碼器200可根據樹型結構分割CTU，諸如四分樹二元樹(QTBT)結構或多類型樹(MTT)結構。QTBT結構移除多個分割類型之概念，諸如HEVC之CU、PU及TU之間的間距。QTBT結構包括兩個層級：根據四分樹分割進行分割之第一層級，及根據二元樹分割進行分割之第二層級。QTBT結構之根節點對應於CTU。二元樹之葉節點對應於寫碼單元(CU)。

在MTT分割結構中，區塊可使用四分樹(QT)分割、二元樹(BT)分割及一或多種類型之三重樹(TT)分割來進行分割。三重樹分割為區塊分裂成三個子區塊的分割。在一些實例中，三重樹分割在不經由中心分隔原始區塊情況下將區塊分成三個子區塊。MTT中之分割類型(例如QT、BT及TT)可為對稱或不對稱的。

在一些實例中，視訊編碼器200及視訊解碼器300可使用單個QTBT或MTT結構來表示明度及色度分量中之每一者，而在其他實例中，視訊編碼器200及視訊解碼器300可使用兩個或更多個QTBT或MTT結構，諸如用於明度分量之一個QTBT/MTT結構及用於兩個色度分量之另一QTBT/MTT結構(或用於各別色度分量之兩個QTBT/MTT結構)。

視訊編碼器200及視訊解碼器300可經組態以使用根據HEVC之四分樹分割、QTBT分割、MTT分割或其他分割結構。出於解釋之目的，關於QTBT分割呈現本發明之技術的描述。然而，應理解，本發明之技術亦可應用於經組態以使用四元樹分割亦或其他類型之分割的視訊寫碼器。

本發明可能可互換地使用「N×N」及「N乘N」來指區塊(諸如CU或其他視訊區塊)在豎直及水平尺寸方面之樣本尺寸，例如16×16樣本或16乘16樣本。大體而言，16×16 CU在豎直方向上將具有16個樣本(y = 16)且在水平方向上將具有16個樣本(x = 16)。同樣，N×N CU通常在豎直方向上具有N個樣本且在水平方向上具有N個樣本，其中N表示非負整數值。可以列及行形式來配置CU中之樣本。此外，CU不一定在水平方向上及豎直方向上具有相同數目個樣本。舉例而言，CU可包含N×M個樣本，其中M未必等於N。

視訊編碼器200對CU之表示預測及/或殘餘資訊及其他資訊的視訊資料進行編碼。預測資訊指示將如何預測CU以便形成CU之預測區塊。殘餘資訊通常表示在編碼之前CU與預測區塊的樣本之間的逐樣本差。

為了預測CU，視訊編碼器200可大體經由框間預測或框內預測形成CU之預測區塊。框間預測大體係指自先前經寫碼圖像之資料預測CU，而框內預測大體係指自同一圖像之先前經寫碼資料預測CU。為了執行框間預測，視訊編碼器200可使用一或多個運動向量來產生預測區塊。視訊編碼器200可一般執行運動搜尋以識別緊密匹配CU的參考區塊(例如，在CU與參考區塊之間的差方面)。視訊編碼器200可使用絕對差總和(SAD)、平方差總和(SSD)、平均絕對差(MAD)、均方差(MSD)或其他此類差計算來計算差度量，以判定參考區塊是否緊密匹配當前CU。在一些實例中，視訊編碼器200可使用單向預測或雙向預測來預測當前CU。

JEM及VVC之一些實例亦提供仿射運動補償模式，其可經認為框間預測模式。在仿射運動補償模式中，視訊編碼器200可判定表示非平移運動(諸如放大或縮小、旋轉、透視運動或其他不規則運動類型)之兩個或大於兩個運動向量。

為執行框內預測，視訊編碼器200可選擇框內預測模式以產生預測區塊。JEM及VVC之一些實例提供六十七種框內預測模式，包括各種方向模式以及平面模式及DC模式。一般而言，視訊編碼器200選擇描述當前區塊(例如，CU之區塊)的相鄰樣本的框內預測模式，其中自該當前區塊預測當前區塊之樣本。假定視訊編碼器200以光柵掃描次序(左至右、上至下)寫碼CTU及CU，此類樣本通常可在與當前區塊相同之圖像中處於當前區塊之上方、左上方或左側。

視訊編碼器200編碼表示當前區塊之預測模式的資料。舉例而言，針對框間預測模式，視訊編碼器200可編碼表示使用多種可用框間預測模式中之哪一者以及對應模式之運動資訊的資料。舉例而言，針對單向或雙向框間預測，視訊編碼器200可使用進階運動向量預測(AMVP)或合併模式來對運動向量進行編碼。視訊編碼器200可使用類似模式來對仿射運動補償模式之運動向量進行編碼。

在區塊之預測(諸如框內預測或框間預測)之後，視訊編碼器200可計算用於該區塊之殘餘資料。殘餘資料(諸如殘餘區塊)表示區塊與該區塊的使用對應預測模式所形成之預測區塊之間的逐樣本差。視訊編碼器200可將一或多個變換應用於殘餘區塊，以在變換域而非樣本域中產生經變換資料。舉例而言，視訊編碼器200可將離散餘弦變換(DCT)、整數變換、小波變換或概念上類似的變換應用於殘餘視訊資料。另外，視訊編碼器200可在一級變換之後應用二級變換，諸如模式依賴不可分離二級變換(MDNSST)、信號依賴變換、Karhunen-Loeve變換(KLT)或其類似者。視訊編碼器200在應用一或多個變換之後產生變換係數。

如上文所指出，在產生變換係數之任何變換之後，視訊編碼器200可執行變換係數之量化。量化大體上指變換係數經量化以可能減少用於表示係數的資料之量，從而提供進一步壓縮之程序。藉由執行量化程序，視訊編碼器200可減少與係數中之一些或所有相關聯的位元深度。舉例而言，視訊編碼器200可在量化期間將n位元值捨入至m位元值，其中n大於m。在一些實例中，為了進行量化，視訊編碼器200可進行待量化值之按位元右移位。

在量化之後，視訊編碼器200可掃描變換係數，從而自包括經量化變換係數之二維矩陣產生一維向量。掃描可經設計以將較高能量(且因此較低頻率)係數置於向量前部，且將較低能量(且因此較高頻率)變換係數置於向量後部。在一些實例中，視訊編碼器200可利用預定義掃描次序來掃描經量化變換係數以產生串列化向量，且隨後熵編碼向量之經量化變換係數。在其他實例中，視訊編碼器200可執行適應性掃描。在掃描經量化變換係數以形成一維向量之後，視訊編碼器200可(例如)根據上下文適應性二進位算術寫碼(CABAC)對一維向量進行熵編碼。視訊編碼器200亦可熵編碼描述與經編碼視訊資料相關聯之後設資料之語法元素的值，以供由視訊解碼器300用於解碼視訊資料。

為執行CABAC，視訊編碼器200可將上下文模型內之上下文指派給待傳輸之符號。該上下文可能涉及(例如)符號之鄰近值是否為零值。機率判定可基於指派給符號之上下文。

視訊編碼器200可進一步(例如)在圖像標頭、區塊標頭、圖塊標頭或其他語法資料(諸如序列參數集(SPS)、圖像參數集(PPS)或視訊參數集(VPS))中向視訊解碼器300產生語法資料(諸如基於區塊之語法資料、基於圖像之語法資料以及基於序列之語法資料)。視訊解碼器300可類似地解碼此語法資料以判定如何解碼對應視訊資料。

以此方式，視訊編碼器200可產生包括經編碼視訊資料(例如，描述圖像至區塊(例如，CU)之分割的語法元素及用於區塊之預測及/或殘餘資訊)之位元串流。最後，視訊解碼器300可接收位元串流並解碼經編碼視訊資料。

一般而言，視訊解碼器300執行與視訊編碼器200所執行之程序互逆的程序，以解碼位元串流之經編碼視訊資料。舉例而言，視訊解碼器300可使用CABAC以與視訊編碼器200之CABAC編碼程序實質上類似但互逆的方式解碼位元串流之語法元素的值。語法元素可定義圖像至CTU之分割資訊及每一CTU根據對應分區結構(諸如QTBT結構)之分割，以定義CTU之CU。語法元素可進一步定義視訊資料之區塊(例如，CU)的預測及殘餘資訊。

殘餘資訊可由例如經量化變換係數表示。視訊解碼器300可反量化及反變換區塊之經量化變換係數，以再生區塊之殘餘區塊。視訊解碼器300使用經發信預測模式(框內或框間預測)及相關預測資訊(例如，用於框間預測之運動資訊)，以形成用於該區塊之預測區塊。視訊解碼器300可接著(在逐樣本基礎上)使經預測區塊與殘餘區塊組合以再生初始區塊。視訊解碼器300可執行額外處理，諸如執行解區塊處理程序以減少沿區塊邊界之視覺假影。

根據本發明之技術，視訊編碼器200及視訊解碼器300可經組態以回應於判定層之圖像為IDR圖像，自DPB移除IDR圖像所屬之層的所有經解碼圖像。回應於判定層之圖像為IDR圖像，視訊編碼器200及視訊解碼器300亦可經組態以將層ID低於IDR圖像之層的所有經解碼圖像保留於經解碼圖像緩衝器中。藉由以此方式組態視訊編碼器200及視訊解碼器300，視訊編碼器200及視訊解碼器300可保持在彼等較低層不包括IDR圖像時，基於具有較低層ID之經解碼圖像解碼未來圖像的能力。藉由以此方式管理DPB，視訊編碼器200及視訊解碼器300可防止歸因於必要參考圖像不可用而產生不可解碼之位元串流的寫碼情境。

本揭示通常可指「發信」某些資訊，諸如語法元素。術語「發信」大體上可指用於解碼經編碼視訊資料之語法元素及/或其他資料的值之傳達。亦即，視訊編碼器200可在位元串流中發信語法元素的值。一般而言，發信指在位元串流中產生值。如上文所提及，源裝置102可實質上實時將位元串流傳送至目的地裝置116，或不實時傳送，諸如可在將語法元素儲存至儲存裝置112以供目的地裝置116稍後擷取時發生。

圖2A及圖2B為說明實例四分樹二元樹(QTBT)結構130及對應寫碼樹型單元(CTU) 132之概念圖。實線表示四分樹分裂，且點線指示二元樹分裂。在二元樹之每一分裂(亦即，非葉)節點中，一個旗標經發信以指示使用哪一分裂類型(亦即，水平或豎直)，其中在此實例中，0指示水平分裂且1指示豎直分裂。對於四分樹分裂，不存在對於指示分裂類型之需要，此係由於四分樹節點將區塊水平地及垂直地分裂成具有相等大小之4個子區塊。因此，視訊編碼器200可編碼且視訊解碼器300可解碼用於QTBT結構130之區樹層級(亦即實線)的語法元素(諸如分裂資訊)及用於QTBT結構130之預測樹層級(亦即虛線)的語法元素(諸如分裂資訊)。視訊編碼器200可編碼，且視訊解碼器300可解碼用於由QTBT結構130之端葉節點表示之CU的視訊資料(諸如預測及變換資料)。

一般而言，圖2B之CTU 132可與定義對應於在第一層級及第二層級處的QTBT結構130之節點的區塊之大小的參數相關聯。此等參數可包括CTU大小(表示樣本中之CTU 132之大小)、最小四分樹大小(MinQTSize，表示最小允許四分樹葉節點大小)、最大二元樹大小(MaxBTSize，表示最大允許二元樹根節點大小)、最大二元樹深度(MaxBTDepth，表示最大允許二元樹深度)，及最小二元樹大小(MinBTSize，表示最小允許二元樹葉節點大小)。

QTBT結構中對應於CTU之根節點可具有在QTBT結構之第一層級處的四個子節點，該等節點中之每一者可根據四分樹分割來進行分割。亦即，第一層級之節點為葉節點(不具有子節點)或具有四個子節點。QTBT結構130之實例表示諸如包括具有用於分枝之實線之父節點及子節點的節點。若第一層級之節點不大於最大允許二元樹根節點大小(MaxBTSize)，則該等節點可藉由各別二元樹進一步分割。一個節點之二元樹分裂可迭代，直至由分裂產生之節點達到最小允許二元樹葉節點大小(MinBTSize)或最大允許二元樹深度(MaxBTDepth)為止。QTBT結構130之實例表示諸如具有用於分枝之虛線的節點。二元樹葉節點被稱作寫碼單元(CU)，其用於在無更進一步分割的情況下的預測(例如，圖像內或圖像間預測)及變換。如上文所論述，CU亦可稱為「視訊區塊」或「區塊」。

在QTBT分割結構之一個實例中，CTU大小經設定為128×128 明度樣本及兩個對應64×64色度樣本)，MinQTSize經設定為16×16，MaxBTSize經設定為64×64，MinBTSize (對於寬度及高度兩者)經設定為4，且MaxBTDepth經設定為4。四分樹分區首先應用於CTU以產生四分樹葉節點。四分樹葉節點可具有16×16 (亦即，MinQTSize)至128×128 (亦即，CTU大小)之大小。若葉四分樹節點為128×128，將不會藉由二元樹進一步分裂，此係由於大小超過MaxBTSize(亦即，在此實例中，64×64)。否則，葉四分樹節點將藉由二元樹進一步分割。因此，四分樹葉節點亦為二元樹之根節點並具有為0之二元樹深度。當二元樹深度達至MaxBTDepth (在此實例中為4)時，不准許進一步分裂。當二元樹節點具有等於MinBTSize (在此實例中為4)之寬度時，其意味著不准許進一步水平分裂。類似地，具有等於MinBTSize之高度的二元樹節點意指不准許對該二元樹節點進行進一步豎直分裂。如上文所提及，二元樹之葉節點被稱作CU，且根據預測及變換來進一步處理而不進一步分割。

在VVC中，考慮參考圖像重取樣(RPR)工具。此工具允許視訊寫碼器使用圖像大小不同於當前圖像大小之參考圖像。在此情況下，可調用圖像重取樣程序以提供圖像之經上取樣或經下取樣版本，以匹配當前圖像大小，例如類似於如HEVC中所實施之空間延展性。本發明描述若干技術，該等技術可單獨地或彼此組合使用，以結合RPR工具增加對VVC中之空間延展性的支援。

本發明描述與VPS發信相關之技術，該等技術可例如藉由中間邏輯框用於遞送串流視訊資料。在此上下文中，中間邏輯框一般指視訊路由器、位元串流剪接及提取裝置及其他此等裝置。

多層視訊資料可包括不同類型的層依賴性，其可自參考圖像清單導出，亦即，可用於框間預測P及B圖塊之參考圖像之清單。通常，視訊編碼器200及視訊解碼器300可維持兩個參考圖像清單，參考圖像清單0及參考圖像清單1，其係針對非IDR圖像之每一圖塊而產生。然而，參考圖像清單並非為用於中間邏輯框在執行子位元串流提取時(亦即在將某一或某些層提取至單獨位元串流中時)使用的便捷機構，此係因為層之間的依賴性無法藉由中間邏輯框在未執行實質解碼操作的情況下判定。因此，中間邏輯框無法確認依賴性在不同圖像中係不變的。舉例而言，中間邏輯框無法藉由檢查層ID來僅僅捨棄不需要的NAL單元。

本發明描述用於指示諸如VPS之高層級參數集(PS)中的層之間的依賴性的技術。中間邏輯框可使用此等指示判定哪些層可獨立地解碼及哪些層取決於其他層。視訊編碼器200及視訊解碼器300可經組態以根據此等指示維持參考圖像清單，且不將其他層用於預測。在使用此等技術的情況下，中間邏輯框可藉由檢查彼等NAL單元之層ID來僅僅捨棄不需要的NAL單元。

參考圖像結構係用於圖像標記以識別哪些圖像將保留於DPB中，及哪些圖像可被移除或自DPB凸起以便釋放記憶體的結構。參考圖像結構可允許不同於如PS中所指示之依賴層的其他層。來自其他層之圖像可能需要保持在DPB中且並不凸起。

舉例而言，假定存在三個層，其中層0獨立地進行寫碼，且層1及層2兩者取決於層0 (亦即，層0圖像可用於層1及層2圖像之預測)。在此實例中，中間邏輯框或視訊解碼器可自位元串流提取層0，自位元串流提取層0及層1，或自位元串流提取層0及層2。因此，PS可指示層0不具有層依賴性，層1取決於層0，且層2取決於層0。在層之每一圖像中，來自預測所需之所有層的所有參考圖像可包括於參考圖像結構中。舉例而言，層2可具有層0及層1參考圖像。層1圖像可能不為層2預測所需，但可包括於用於判定彼等圖像將被保留抑或自DPB凸起的標記程序中。然而，來自層2之圖像的參考圖像清單可能不具有層1圖像，因為在此實例中，層2並非取決於層1。

本發明描述用於自經解碼圖像緩衝器移除參考圖像之「凸起程序」。在此上下文中，凸起或移除僅意謂參考圖像不再可用於參考，且用於儲存參考圖像之記憶體位置可用於儲存其他資料。術語「凸起」或「移除」不需要或不暗示自記憶體刪除或移除參考圖像的任何類別之作用中步驟。

如先前部分中所提及，當解碼來自一層之圖像時，經解碼圖像可自DPB中使其他層之圖像凸起。然而，根據本發明之技術，視訊編碼器200及視訊解碼器300可經組態以實施僅僅凸起與當前圖像處於相同層或更高層的圖像的約束。當較高層將較低層圖像用於預測時，圖像可凸起。舉例而言，視訊編碼器200及視訊解碼器300可經組態使得層1圖像無法自DPB中使層0之圖像凸起，但層1圖像可使層2圖像凸起，假定層0係比層1低的層，且層1係比層2低的層。在此實例中，考慮橫跨層之依賴性，因為較高層可獨立於較低層進行寫碼。在此實例中，較低層圖像並不使較高層圖像凸起或標記該等圖像。

根據本發明之技術，當一層具有IDR圖像時，自DPB移除彼層及更高層之所有圖像，但較低層圖像可保留，因為較低層可能並非IDR，且彼層中的圖像可能需要用於繼續解碼。在無此約束的情況下，視訊解碼器可自DPB移除所有圖像，使得較低層無法進行解碼。為實施此約束，視訊編碼器200及視訊解碼器300可經組態以判定用於第一層之層標識值及用於第二層之層標識值，其中用於第二層之層標識值高於用於第一層之層標識值，及將第一層之經解碼圖像及第二層之經解碼圖像儲存於DPB中。回應於判定IDR圖像屬於第二層，視訊編碼器200及視訊解碼器300可經組態以自DPB移除第二層之所有經解碼圖像，同時將第一層之所有經解碼圖像保留於DPB中。

本發明亦描述對針對存取單元所實施之約束的修改。在多層串流中，可能存在兩種狀況，如圖3及圖4中所描繪。在圖3中，不同表示之圖像可具有相同POC值，如例如在可延展高效率寫碼(SHVC)(H.265/HEVC)標準中。在圖3之實例中，存取單元150之層0及層1圖像兩者皆具有POC值POC_n-1 ，存取單元152之層0及層1圖像兩者皆具有POC值POC_n ，且存取單元154之層0及層1圖像兩者皆具有POC值POC_n+1 。亦即，同一存取單元之所有圖像具有相同POC值。此習知並不改變AU之定義，但可為通用且廣泛的單層解碼器帶來不當處理負擔。

或者，POC計數可橫跨不同層相連，如圖4中所展示。在圖4中，例如，存取單元160包括具有POC值POC_n-1 之層0圖像及具有POC值POC_n 之層1圖像。存取單元162包括具有POC值POC_n+1 之層0圖像及具有POC值POC_n+2 之層1圖像。在此情況下，不存在對處置相同POC數目圖像之視訊解碼器的需求，此係因為所有POC係唯一的，但需要改變AU之定義以反映層化串流。

在本發明之一個實例技術中，AU之定義包括層ID檢查。舉例而言，新AU在圖像碰到低於或等同於先前圖像之層ID的層ID時開始。此定義與當前定義於VVC草案5中的AU之定義相反，其中僅僅檢查POC值。

為實施此實例，視訊編碼器200及視訊解碼器300可經組態以實施需要層ID編號呈遞增次序的約束。

使用VVC草案5之術語，AU定義可改變為以下者：使firstVclNalUnitInAu為作為經寫碼圖像之第一個VCL NAL單元的VCL NAL單元，且對於該VCL NAL單元，所導出PicOrderCntVal不同於先前經寫碼圖像之PicOrderCntVal，且nuh_layer_id小於或等於先前經寫碼圖像之nuh_layer_id。位於firstVclNalUnitInAu之前的以下NAL單元中之任一者的第一個及隨後的位於firstVclNalUnitInAu之前的最後一個VCL NAL單元(若存在)指定新存取單元的起點： - 存取單元定界符NAL單元(若存在)， - DPS NAL單元(若存在)， - VPS NAL單元(若存在)， - SPS NAL單元(若存在)， - PPS NAL單元(若存在)， - APS NAL單元(若存在)， - 首碼SEI NAL單元(若存在)， - NalUnitType等於RSV_NVCL_5、RSV_NVCL_6、RSV_NVCL_21或RSV_NVCL_22之NAL單元(若存在)， - NalUnitType介於UNSPEC28…UNSPEC29之範圍內的NAL單元(若存在)。當上文位於firstVclNalUnitInAu之前的NAL單元及隨後的位於firstVclNalUnitInAu之前的最後一個VCL NAL (若存在)中無一者存在時，firstVclNalUnitInAu在＜＜nuh_layer_id小於或等於先前經寫碼圖像之nuh_layer_id＞＞的情況下開始新存取單元

上文符號＜＜與＞＞內的本文係用於AU判定的層ID檢查之實例。知曉可輸出或顯示哪個圖像尤其需要AU判定，此係由於不嚴謹地，相同AU之圖像可被視為具有相同內容但呈不同表示(解析度)。

為處理上文所描述之AU類型，視訊編碼器200及視訊解碼器300可經組態以回應於判定(1)第二存取單元之VCL NAL單元之層標識小於按解碼次序的前一圖像之層標識及(2)第二存取單元之VCL NAL單元之POC值不同於按解碼次序的前一圖像之POC值，判定第二存取單元之VCL NAL單元對應於第二存取單元的起點。在第二存取單元之VCL NAL單元與前一圖像之最後一個VCL NAL單元之間接收的NAL單元為存取單元定界符NAL單元。

視訊解碼器300可經組態以處理非完整AU。可能存在並非所有層皆存在於存取單元中的寫碼情境，如圖5之實例中所示。在此情境下，應用AU之上方定義可能不會在圖像之間提供AU分裂，因為層1圖像具有高於層0圖像的層ID。視訊解碼器可將此寫碼情境處理為上文定義之下的一個AU，其可能因為彼等圖像可能不表示相同內容而並不合乎需要。

為解決此潛在問題，本發明闡述以下潛在解決方案。視訊編碼器200可經組態以將AU定界符插入層0與層1圖像之間，以指示凹痕式AU定界符。AU定界符指示哪些NAL單元屬於前一AU及哪些NAL單元屬於下一AU。因此，視訊解碼器300可處理AU定界符以識別屬於同一AU之NAL單元。

視訊編碼器200可經組態以與AU中之其他層圖像相同的方式繼續編號POC，亦即，每一AU可針對數個層具有POC，且AU定義可包括POC不同檢查。亦即，新AU的起點可藉由兩個圖像之間的等於或超過臨限值之POC差發信，其可等於層之數目。換言之，視訊編碼器200可經組態以將POC值指派為num_layers*POC + layer_id。

視訊編碼器200可經組態以將不同時間ID指派至層0及層1中之圖像。可將對於時間ID之檢查添加至AU定義中。舉例而言，新AU在具有不同於先前NAL單元之時間ID的時間ID的一NAL單元處開始。在以上實例中，為具有AU定界符，視訊編碼器200可為層0中之圖像指派時間ID 0，且為層1圖像指派時間ID1。視訊解碼器300接著可在層1圖像處偵測新AU之起點。

本發明亦描述與輸出圖像相關之技術。最初，可標記所有層中之圖像以供輸出。因此例如，若中間邏輯框提取層0，則中間邏輯框輸出層0之所有圖像。然而，當位元串流中存在多於一個層時，例如，層0及層1圖像可全部標記以供輸出，但同一AU中的圖像可具有相同內容，使得需要自AU輸出僅僅一個圖像。根據本發明之技術，中間邏輯框可經組態以僅僅輸出AU中具有最高層ID之圖像。在另一實例中，旗標可在任何參數集、圖塊標頭或別處中發信，以指示輸出哪些層或是否輸出所有層。輸出AU中之多於一個圖像可能適用於覆蓋或多視圖目的。

圖6為說明可執行本發明之技術的實例視訊編碼器200之方塊圖。出於解釋之目的而提供圖6，且不應將該圖視為對如本發明中所廣泛例示及描述之技術的限制。出於解釋之目的，本發明在諸如H.265(HEVC)視訊寫碼標準及研發中之H.266 (VVC)視訊寫碼標準的視訊寫碼標準之情況下描述視訊編碼器200。然而，本發明之技術並不限於此等視訊寫碼標準，且通常適用於視訊編碼及解碼。

在圖6之實例中，視訊編碼器200包括視訊資料記憶體230、模式選擇單元202、殘餘產生單元204、變換處理單元206、量化單元208、反量化單元210、反變換處理單元212、重建構單元214、濾波器單元216、經解碼圖像緩衝器(DPB) 218及熵編碼單元220。視訊資料記憶體230、模式選擇單元202、殘餘產生單元204、變換處理單元206、量化單元208、反量化單元210、反變換處理單元212、重建構單元214、濾波器單元216、DPB 218及熵編碼單元220中之任一者或全部可實施於一或多個處理器或處理電路系統中。此外，視訊編碼器200可包括額外或替代處理器或處理電路系統以執行此等及其他功能。

視訊資料記憶體230可儲存待由視訊編碼器200之組件編碼之視訊資料。視訊編碼器200可自例如視訊源104 (圖1)接收儲存於視訊資料記憶體230中之視訊資料。DPB 218可充當參考圖像記憶體，其儲存參考視訊資料以用於由視訊編碼器200預測後續視訊資料。視訊資料記憶體230及DPB 218可由各種記憶體裝置中之任一者形成，諸如動態隨機存取記憶體(DRAM)，包括同步DRAM (SDRAM)、磁阻式RAM (MRAM)、電阻式RAM (RRAM)或其他類型之記憶體裝置。視訊資料記憶體230及DPB 218可由相同記憶體裝置或單獨記憶體裝置提供。在各種實例中，視訊資料記憶體230可與視訊編碼器200之其他組件一起在晶片上，如所說明，或相對於彼等組件在晶片外。

在本發明中，對視訊資料記憶體230之參考不應解譯為將記憶體限於在視訊編碼器200內部(除非特定地如此描述)，或將記憶體限於在視訊編碼器200外部(除非特定地如此描述)。實情為，對視訊資料記憶體230之參考應理解為對儲存視訊編碼器200所接收以用於編碼的視訊資料(例如，待被編碼的當前區塊之視訊資料)記憶體的參考。圖1之記憶體106亦可提供來自視訊編碼器200之各種單元之輸出的臨時儲存。

圖6之各種單元經說明以輔助理解藉由視訊編碼器200執行的操作。單元可經實施為固定功能電路、可程式化電路或其組合。固定功能電路係指提供特定功能性且預設定可執行之操作的電路。可程式化電路係指可經程式化以執行各種任務並在可執行之操作中提供可撓式功能性的電路。舉例而言，可程式化電路可實行使得可程式化電路以由軟體或韌體之指令定義的方式操作的軟體或韌體。固定功能電路可執行軟體指令(例如，以接收參數或輸出參數)，但固定功能電路執行的操作類型通常為不可變的。在一些實例中，單元中之一或多者可為不同電路區塊(固定功能或可程式化)，且在一些實例中，一或多個單元可為積體電路。

視訊編碼器200可包括由可程式化電路形成之算術邏輯單元(ALU)、基本功能單元(EFU)、數位電路、類比電路及/或可程式化核心。在視訊編碼器200之操作係使用由可程式化電路執行之軟體執行的實例中，記憶體106 (圖1)可儲存視訊編碼器200接收並執行的軟體之目標程式碼，或視訊編碼器200內之另一記憶體(圖中未示)可儲存此類指令。

視訊資料記憶體230經組態以儲存接收到之視訊資料。視訊編碼器200可自視訊資料記憶體230擷取視訊資料之圖像，並將視訊資料提供至殘餘產生單元204及模式選擇單元202。視訊資料記憶體230中之視訊資料可為待編碼之原始視訊資料。

模式選擇單元202包括運動估計單元222、運動補償單元224及框內預測單元226。模式選擇單元202可包括額外功能單元以根據其他預測模式執行視訊預測。作為實例，模式選擇單元202可包括調色板寫碼單元、區塊內複製寫碼單元(其可為運動估計單元222及/或運動補償單元224之部分)、仿射寫碼單元、線性模型(LM)寫碼單元或其類似者。

模式選擇單元202通常協調多個編碼遍次以測試編碼參數之組合，及用於此等組合之所得速率失真值。編碼參數可包括CTU至CU之分割、用於CU之預測模式、用於CU之殘餘資料的變換類型、用於CU之殘餘資料的量化參數等。模式選擇單元202可最終選擇相比其他所測試組合具有更佳速率失真值的編碼參數之組合。

視訊編碼器200可將自視訊資料記憶體230擷取之圖像分割成一系列CTU，且將一或多個CTU封裝於圖塊內。模式選擇單元202可根據樹型結構，諸如上文所描述之QTBT結構或HEVC之四分樹結構來分割圖像之CTU。如上文所描述，視訊編碼器200可用根據樹狀結構分割CTU來形成一或多個CU。此CU通常亦可稱為「視訊區塊」或「區塊」。

大體而言，模式選擇單元202亦控制其組件(例如，運動估計單元222、運動補償單元224及框內預測單元226)以產生用於當前區塊之預測區塊(例如，當前CU、或在HEVC中，PU與TU之重疊部分)。對於當前區塊之框間預測，運動估計單元222可執行運動搜尋以識別一或多個參考圖像(例如，儲存於DPB 218中之一或多個先前經寫碼圖像)中的一或多個緊密匹配之參考區塊。詳言之，運動估計單元222可(例如)根據絕對差總和(SAD)、平方差總和(SSD)、平均值絕對差(MAD)、均方差(MSD)或其類似者來計算表示潛在參考區塊與當前區塊之類似程度的值。運動估計單元222可通常使用當前區塊與所考慮之參考區塊之間的逐樣本差執行此等計算。運動估計單元222可識別具有由此等計算產生之最低值的參考區塊，從而指示最緊密匹配當前區塊之參考區塊。

運動估計單元222可形成一或多個運動向量(MV)，其關於當前圖像中之當前區塊的位置界定參考圖像中之參考區塊的位置。運動估計單元222可接著將運動向量提供至運動補償單元224。舉例而言，對於單向框間預測，運動估計單元222可提供單個運動向量，而對於雙向框間預測，運動估計單元222可提供兩個運動向量。運動補償單元224接著可使用運動向量來產生預測區塊。舉例而言，運動補償單元224可使用運動向量來擷取參考區塊之資料。作為另一實例，若運動向量具有分數樣本精確度，則運動補償單元224可根據一或多個內插濾波器為預測區塊內插值。此外，對於雙向框間預測，運動補償單元224可擷取用於藉由各別運動向量識別之兩個參考區塊的資料，並(例如)經由逐樣本求平均值或經加權求平均值來組合所擷取之資料。

作為另一實例，對於框內預測，或框內預測寫碼，框內預測單元226可自鄰近當前區塊之樣本產生預測區塊。舉例而言，對於定向模式，框內預測單元226一般可在數學上組合相鄰樣本的值，且在橫跨當前區塊之所定義方向上填入此等計算值以產生預測區塊。作為另一實例，對於DC模式，框內預測單元226可計算與當前區塊相鄰之樣本的平均值，且產生預測區塊以針對預測區塊之每一樣本包括此所得平均值。

模式選擇單元202將預測區塊提供至殘餘產生單元204。殘餘產生單元204接收來自視訊資料記憶體230之當前區塊及來自模式選擇單元202之預測區塊的原始未經編碼版本。殘餘產生單元204計算當前區塊與預測區塊之間的逐樣本差。所得逐樣本差定義當前區塊之殘餘區塊。在一些實例中，殘餘產生單元204亦可判定殘餘區塊中之樣本值之間的差，以使用殘餘差分脈碼調變(RDPCM)來產生殘餘區塊。在一些實例中，可使用進行二進位減法之一或多個減法器電路來形成殘餘產生單元204。

在模式選擇單元202將CU分割成PU之實例中，每一PU可與明度預測單元及對應色度預測單元相關聯。視訊編碼器200視訊解碼器300可支援具有各種大小之PU。如上文所指示，CU之大小可係指CU之明度寫碼區塊的大小，且PU之大小可係指PU之明度預測單元的大小。假定特定CU之大小為2N×2N，則視訊編碼器200可支援用於框內預測的2N×2N或N×N之PU大小，及用於框間預測的2N×2N、2N×N、N×2N、N×N或類似大小之對稱PU大小。視訊編碼器200及視訊解碼器300亦可支援用於框間預測的2N×nU、2N×nD、nL×2N以及nR×2N之PU大小的不對稱分割。

在模式選擇單元未將CU進一步分割成PU的實例中，每一CU可與明度寫碼區塊及對應色度寫碼區塊相關聯。如上，CU之大小可指代CU之明度寫碼區塊的大小。視訊編碼器200及視訊解碼器300可支援2N×2N、2N×N或N×2N之CU大小。

對於諸如區塊內複製模式寫碼、仿射模式寫碼及線性模型(LM)模式寫碼之其他視訊寫碼技術，如少數實例，模式選擇單元202經由與寫碼技術相關聯之各別單元產生用於正編碼之當前區塊的預測區塊。在諸如調色板模式寫碼的一些實例中，模式選擇單元202可能不會產生預測區塊，而產生指示基於所選擇之調色板來重建構區塊之方式的語法元素。在此等模式中，模式選擇單元202可將此等語法元素提供至熵編碼單元220以待編碼。

如上文所描述，殘餘產生單元204接收用於當前區塊及對應預測區塊之視訊資料。殘餘產生單元204隨後產生用於當前區塊之殘餘區塊。為產生殘餘區塊，殘餘產生單元204計算預測區塊與當前區塊之間的逐樣本差。

變換處理單元206將一或多個變換應用於殘餘區塊以產生變換係數之區塊(在本文中稱為「變換係數區塊」)。變換處理單元206可將各種變換應用於殘餘區塊以形成變換係數區塊。舉例而言，變換處理單元206可將離散餘弦變換(DCT)、方向變換(directional transform)、Karhunen-Loeve變換(KLT)或概念上類似之變換應用於殘餘區塊。在一些實例中，變換處理單元206可向殘餘區塊執行多個變換，(例如)一級變換及二級變換，諸如旋轉變換。在一些實例中，變換處理單元206不將變換應用於殘餘區塊。

量化單元208可量化變換係數區塊中之變換係數，以產生經量化變換係數區塊。量化單元208可根據與當前區塊相關聯之量化參數(QP)值量化變換係數區塊之變換係數。視訊編碼器200 (例如，經由模式選擇單元202)可藉由調整與CU相關聯之QP值，來調整被應用於與當前區塊相關聯之變換係數區塊的量化程度。量化可引入資訊之損耗，且因此，經量化變換係數可相比由變換處理單元206產生之原始變換係數具有較低精度。

反量化單元210及反變換處理單元212可將反量化及反變換分別應用於經量化係數區塊，以自變換係數區塊重建構殘餘區塊。重建構單元214可基於經重建構殘餘區塊及藉由模式選擇單元202產生之預測區塊，產生對應於當前區塊之經重建構區塊(儘管可能具有一些程度的失真)。舉例而言，重建構單元214可將經重建構殘餘區塊之樣本添加至來自模式選擇單元202產生之預測區塊的對應樣本，以產生經重建構區塊。

濾波器單元216可對經重建區塊執行一或多個濾波操作。舉例而言，濾波器單元216可執行解區塊操作以沿CU之邊緣減少區塊效應假影。在一些實例中，可跳過濾波器單元216之操作。

視訊編碼器200將經重建區塊儲存於DPB 218中。舉例而言，在執行濾波器單元216之操作的實例中，重建構單元214可將經重建構區塊儲存至DPB 218。在不執行濾波器單元216之操作的實例中，濾波器單元216可將經濾波的經重建構區塊儲存至DPB 218。運動估計單元222及運動補償單元224可自DPB 218擷取參考圖像，由經重建構(及可能經濾波)區塊形成，至隨後進行編碼之圖像的框間預測區塊。另外，框內預測單元226可使用當前圖像之DPB 218中的經重建構區塊以對當前圖像中之其他區塊進行框內預測。

大體而言，熵編碼單元220可熵編碼自視訊編碼器200之其他功能組件接收的語法元素。舉例而言，熵編碼單元220可熵編碼來自量化單元208之經量化變換係數區塊。作為另一實例，熵編碼單元220可熵編碼來自模式選擇單元202的預測語法元素(例如，用於框間預測之運動資訊或用於框內預測之框內模式資訊)。熵編碼單元220可對語法元素(其為視訊資料之另一實例)執行一或多個熵編碼操作以產生經熵編碼資料。舉例而言，熵編碼單元220可對資料執行上下文自適應可變長度寫碼(CAVLC)操作、CABAC操作、可變至可變(V2V)長度寫碼操作、以語法為基礎的上下文適應性二進位算術寫碼(SBAC)操作、概率區間分割熵(PIPE)寫碼操作、指數哥倫布編碼(Exponential-Golomb encoding)操作或另一類型之熵編碼操作。在一些實例中，熵編碼單元220可以略過模式操作，其中語法元素未經熵編碼。

視訊編碼器200可輸出位元串流，該位元串流包括重建構圖塊或圖像之區塊所需的經熵編碼語法元素。特定而言，熵編碼單元220可輸出該位元串流。

上文所描述之操作相對於區塊進行描述。此描述應理解為用於明度寫碼區塊及/或色度寫碼區塊的操作。如上文所描述，在一些實例中，明度寫碼區塊及色度寫碼區塊為CU之明度及色度分量。在一些實例中，明度寫碼區塊及色度寫碼區塊為PU之明度及色度分量。

在一些實例中，無需針對色度寫碼區塊重複相對於明度寫碼區塊進行之操作。作為一個實例，無需重複識別明度寫碼區塊之運動向量(MV)及參考圖像的操作用於識別色度區塊之MV及參考圖像。實情為，明度寫碼區塊之MV可經縮放以判定色度區塊之MV，且參考圖像可為相同的。作為另一實例，框內預測程序可針對明度寫碼區塊及色度寫碼區塊而為相同的。

視訊編碼器200表示包括記憶體及實施於電路系統中且經組態以進行以下操作之一或多個處理器的視訊編碼器之實例：獲得包括至少第一層、第二層及第三層之多層視訊資料；判定用於第一層之層標識值、用於第二層之層標識值及用於第三層之層標識值，其中用於第三層之層標識值高於用於第二層之層標識值且用於第二層之層標識值高於用於第二值之層標識；將第一層之經解碼圖像、第二層之經解碼圖像及第三層之經解碼圖像儲存於經解碼圖像緩衝器中；回應於判定第二層之圖像為IDR圖像，自經解碼圖像緩衝器移除第二層之所有經解碼圖像及第三層之所有經解碼圖像，同時將第一層之所有經解碼圖像保留於經解碼圖像緩衝器中；及在自經解碼圖像緩衝器移除第二層之所有經解碼圖像及第三層之所有經解碼圖像之後，擷取第一層之經解碼圖像的複本以預測多層視訊資料之當前圖像的區塊。

視訊編碼器200亦表示包括記憶體及實施於電路系統中且經組態以進行以下操作之一或多個處理器的視訊編碼器之實例：獲得包括至少第一層及第二層之多層視訊資料；判定用於第一層之層標識值及用於第二層之層標識值，其中用於第二層之層標識值高於用於第一層之層標識值；將第一層之經解碼圖像及第二層之經解碼圖像儲存於經解碼圖像緩衝器中；及回應於判定IDR圖像屬於第二層，自經解碼圖像緩衝器移除第二層之所有經解碼圖像，同時將第一層之所有經解碼圖像保留於經解碼圖像緩衝器中。

圖7為說明可執行本發明之技術之實例視訊解碼器300的方塊圖。出於解釋之目的提供圖7，且其並不限制如本發明中廣泛例示及描述之技術。出於解釋之目的，本發明描述視訊解碼器300係根據JEM、VVC及HEVC之技術來描述的。然而，本發明之技術可由經組態為其他視訊寫碼標準的視訊寫碼裝置執行。

在圖7之實例中，視訊解碼器300包括經寫碼圖像緩衝器(CPB)記憶體320、熵解碼單元302、預測處理單元304、反量化單元306、反變換處理單元308、重建構單元310、濾波器單元312及經解碼圖像緩衝器(DPB) 314。CPB記憶體320、熵解碼單元302、預測處理單元304、反量化單元306、反變換處理單元308、重建構單元310、濾波器單元312及DPB 314中任一者之或全部可實施於一或多個處理器或處理電路系統中。此外，視訊解碼器300可包括額外或替代處理器或處理電路系統以執行此等及其他功能。

預測處理單元304包括運動補償單元316及框內預測單元318。預測處理單元304可包括根據其他預測模式執行預測的疊加單元。作為實例，預測處理單元304可包括調色板寫碼單元、區塊內複製寫碼單元(其可形成運動補償單元316之部分)、仿射寫碼單元、線性模型(LM)寫碼單元或其類似者。在其他實例中，視訊解碼器300可包括更多、更少或不同的功能組件。

CPB記憶體320可儲存待由視訊解碼器300之組件解碼之視訊資料，諸如經編碼視訊位元串流。可(例如)自電腦可讀媒體110 (圖1)獲得儲存於CPB記憶體320中之視訊資料。CPB記憶體320可包括儲存來自經編碼視訊位元串流之經編碼視訊資料(例如，語法元素)的CPB。又，CPB記憶體320可儲存除經寫碼圖像之語法元素之外的視訊資料，諸如表示來自視訊解碼器300之各種單元之輸出的臨時資料。DPB 314一般儲存經解碼圖像，視訊解碼器300可在解碼經編碼視訊位元串流之後續資料或圖像時輸出該等經解碼圖像及/或將其用作參考視訊資料。CPB記憶體320及DPB 314可由各種記憶體裝置中之任一者形成，諸如DRAM (包括SDRAM、MRAM、RRAM)或其他類型之記憶體裝置。CPB記憶體320及DPB 314可藉由同一記憶體裝置或獨立記憶體裝置提供。在各種實例中，CPB記憶體320可與視訊解碼器300之其他組件一起在晶片上，或相對於彼等組件在晶片外。

另外地或可替代地，在一些實例中，視訊解碼器300可自記憶體120 (圖1)擷取經寫碼視訊資料。亦即，記憶體120可利用CPB記憶體320存儲如上文所論述之資料。同樣，當視訊解碼器300之一些或所有功能性實施於軟體中以藉由視訊解碼器300之處理電路系統執行時，記憶體120可儲存待由視訊解碼器300執行之指令。

圖7中所示之各種單元經說明為輔助理解由視訊解碼器300執行之操作。單元可經實施為固定功能電路、可程式化電路或其組合。類似於圖6，固定功能電路指代提供特定功能性，且在可執行之操作上預設定的電路。可程式化電路係指可經程式化以執行各種任務並在可執行之操作中提供可撓式功能性的電路。舉例而言，可程式化電路可實行使得可程式化電路以由軟體或韌體之指令定義的方式操作的軟體或韌體。固定功能電路可執行軟體指令(例如，以接收參數或輸出參數)，但固定功能電路執行的操作類型通常為不可變的。在一些實例中，單元中之一或多者可為不同電路區塊(固定功能或可程式化)，且在一些實例中，一或多個單元可為積體電路。

視訊解碼器300可包括ALU、EFU、數位電路、類比電路及/或由可程式化電路形成之可程式化核心。在由在可程式化電路上執行之軟體進行視訊解碼器300之操作的實例中，晶片上或晶片外記憶體可儲存視訊解碼器300接收及執行之軟體之指令(例如目標程式碼)。

熵解碼單元302可自CPB接收經編碼視訊資料且對視訊資料進行熵解碼以再生語法元素。預測處理單元304、反量化單元306、反變換處理單元308、重建構單元310、及濾波器單元312可基於自位元串流提取之語法元素產生經解碼視訊資料。

一般而言，視訊解碼器300在逐區塊基礎上重建構圖像。視訊解碼器300可個別地對每一區塊執行重建構操作(其中，當前正重建構(亦即，解碼)之區塊可被稱作「當前區塊」)。

熵解碼單元302可熵解碼定義經量化變換係數區塊之經量化變換係數的語法元素，以及諸如量化參數(QP)及/或變換模式指示之變換資訊。反量化單元306可使用與經量化變換係數區塊相關聯之QP判定量化程度，且同樣判定反量化程度供反量化單元306應用。反量化單元306可例如執行按位元左移操作以將經量化變換係數反量化。反量化單元306可從而形成包括變換係數之變換係數區塊。

在反量化單元306形成變換係數區塊後，反變換處理單元308可將一或多個反變換應用於變換係數區塊以產生與當前區塊相關聯的殘餘區塊。舉例而言，反變換處理單元308可將反DCT、反整數變換、反Karhunen-Loeve變換(KLT)、反旋轉變換、反定向變換或另一反變換應用於變換係數區塊。

此外，預測處理單元304根據藉由熵解碼單元302熵解碼之預測資訊語法元素產生預測區塊。舉例而言，若預測資訊語法元素指示當前區塊經框間預測，則運動補償單元316可產生預測區塊。在此情況下，預測資訊語法元素可指示DPB 314中之參考圖像(自其擷取參考區塊)，以及運動向量，其識別參考圖像中之參考區塊相對於當前圖像中之當前區塊之位置的位置。運動補償單元316可大體上以實質上類似於關於運動補償單元224 (圖6)所描述之方式的方式執行框間預測程序。

作為另一實例，若預測資訊語法元素指示當前區塊經框內預測，則框內預測單元318可根據藉由預測資訊語法元素指示之框內預測模式來產生預測區塊。同樣，框內預測單元318通常可以實質上與相對於框內預測單元226 (圖6)所描述之方式類似的方式執行框內預測程序。框內預測單元318可將相鄰樣本之資料自DPB 314擷取至當前區塊。

重建構單元310可使用預測區塊及殘餘區塊重建構當前區塊。舉例而言，重建構單元310可將殘餘區塊之樣本添加至預測區塊之對應樣本以重建構當前區塊。

濾波器單元312可對經重建區塊執行一或多個濾波操作。舉例而言，濾波器單元312可執行解區塊操作以沿經重建構區塊之邊緣減少區塊效應假影。濾波器單元312之操作不一定在所有實例中進行。

視訊解碼器300可將經重建區塊儲存於DPB 314中。如上文所論述，DPB 314可將參考資訊提供至預測處理單元304，諸如用於框內預測之當前圖像及用於後續運動補償之經先前解碼圖像的樣本。此外，視訊解碼器300可輸出來自DPB 314之經解碼圖像用於後續呈現於顯示裝置上，諸如圖1之顯示裝置118。

視訊解碼器300表示包括記憶體及實施於電路系統中且經組態以進行以下操作之一或多個處理器的視訊解碼器之實例：接收包括至少第一層、第二層及第三層之多層視訊資料；判定用於第一層之層標識值、用於第二層之層標識值及用於第三層之層標識值，其中用於第三層之層標識值高於用於第二層之層標識值，且用於第二層之層標識值高於用於第二值之層標識值；將第一層之經解碼圖像、第二層之經解碼圖像及第三層之經解碼圖像儲存於經解碼圖像緩衝器中；回應於判定第二層之圖像為IDR圖像，自經解碼圖像緩衝器移除第二層之所有經解碼圖像及第三層之所有經解碼圖像，同時將第一層之所有經解碼圖像保留於經解碼圖像緩衝器中；及在自經解碼圖像緩衝器移除第二層之所有經解碼圖像及第三層之所有經解碼圖像之後，擷取第一層之經解碼圖像的複本以預測多層視訊資料之當前圖像的區塊。

視訊解碼器300亦表示包括記憶體及實施於電路系統中且經組態以進行以下操作之一或多個處理器的視訊解碼器之實例：獲得包括至少第一層及第二層之多層視訊資料；判定用於第一層之層標識值及用於第二層之層標識值，其中用於第二層之層標識值高於用於第一層之層標識值；將第一層之經解碼圖像及第二層之經解碼圖像儲存於經解碼圖像緩衝器中；及回應於判定IDR圖像屬於第二層，自經解碼圖像緩衝器移除第二層之所有經解碼圖像，同時將第一層之所有經解碼圖像保留於經解碼圖像緩衝器中。

視訊解碼器300亦表示包括記憶體及實施於電路系統中且經組態以進行以下操作之一或多個處理器的視訊解碼器之實例：在視訊資料中接收第一圖像；判定用於第一圖像之POC值；在視訊資料中接收第二圖像；判定用於第二圖像之POC值；及基於用於第一圖像之POC值及用於第二圖像之POC值偵測新存取單元的起點。為基於用於第一圖像之POC值及用於第二圖像之POC值偵測新存取單元的起點，視訊解碼器300可例如將用於第一圖像之POC值與用於第二圖像之POC值進行比較，且回應於用於第二圖像之POC值與用於第一圖像之POC值相差超過臨限量，偵測新存取單元的起點。第二圖像可屬於新存取單元，且第一圖像可屬於先前存取單元。第一圖像可具有先前存取單元中之所有圖像的最低POC值。

視訊解碼器300亦表示包括記憶體及實施於電路系統中且經組態以進行以下操作之一或多個處理器的視訊解碼器之實例：在視訊資料中接收第一NAL單元；判定用於第一NAL單元之時間標識(ID)；在視訊資料中接收第二NAL單元；判定用於第二NAL單元之時間ID；及基於用於第一NAL單元之時間ID及用於第二NAL單元之時間ID偵測新存取單元的起點。為基於用於第一NAL單元之時間ID及用於第二NAL單元之時間ID偵測新存取單元的起點，視訊解碼器300可將用於第一NAL單元之時間ID與用於第二NAL單元之時間ID進行比較，且回應於用於第一NAL單元之時間ID不同於用於第二NAL單元之時間ID，偵測新存取單元的起點。第二NAL單元可屬於新存取單元，且第一NAL單元屬於先前存取單元。

圖8為說明用於編碼當前區塊之實例程序的流程圖。當前區塊可包含當前CU。儘管關於視訊編碼器200 (圖1及圖6)所描述，但應理解，其他裝置可經組態以執行類似於圖8之程序的程序。

在此實例中，視訊編碼器200首先預測當前區塊(350)。作為預測當前區塊之部分，視訊編碼器200可根據本文中描述之技術維持DPB。舉例而言，視訊編碼器200可形成當前區塊之預測區塊。視訊編碼器200隨後可計算當前區塊之殘餘區塊(352)。為了計算殘餘區塊，視訊編碼器200可計算當前區塊的原始未經編碼區塊與預測區塊之間的差。視訊編碼器200接著可變換並量化殘餘區塊之係數(354)。接著，視訊編碼器200可掃描殘餘區塊之經量化變換係數(356)。在掃描期間或在掃描之後，視訊編碼器200可對係數進行熵編碼(358)。舉例而言，視訊編碼器200可使用CAVLC或CABAC來對係數進行編碼。視訊編碼器200接著可輸出區塊之經熵寫碼資料(360)。

圖9為說明用於解碼視訊資料之當前區塊的實例程序的流程圖。當前區塊可包含當前CU。儘管關於視訊解碼器300 (圖1及圖8)所描述，但應理解，其他裝置可經組態以執行類似於圖9之程序的程序。

視訊解碼器300可接收當前區塊之經熵寫碼資料，諸如經熵寫碼預測資訊及對應於當前區塊之殘餘區塊的係數之經熵寫碼資料(370)。視訊解碼器300可對經熵寫碼資料進行熵解碼，以判定當前區塊之預測資訊且再生殘餘區塊之係數(372)。視訊解碼器300可例如使用如由當前區塊之預測資訊所指示的框內或框間預測模式來預測當前區塊(374)，以計算當前區塊之預測區塊。作為預測當前區塊之部分，視訊編碼器200可根據本文中描述之技術維持DPB。視訊解碼器300接著可反掃描經再生之係數(376)，以產生經量化變換係數之區塊。視訊解碼器300可隨後對係數進行反量化及反變換以產生殘餘區塊(378)。視訊解碼器300可最後藉由組合預測區塊與殘餘區塊來對當前區塊進行解碼(380)。

圖10為說明用於維持DPB之實例程序的流程圖。將關於通用視訊解碼器描述圖10之技術。彼通用視訊解碼器可例如對應於視訊解碼器300或視訊編碼器200之解碼功能性。通用視訊解碼器可例如為包括經組態以接收多層視訊資料之接收器的無線通信裝置之部分。視訊解碼器可為具有經組態以根據無線通信標準解調包含多層視訊資料之信號的接收器的電話手機之部分。在其他實例中，通用視訊解碼器可為攝影機、電腦、行動裝置、廣播接收器裝置或機上盒中之一或多者的部分。在一些實例中，通用視訊解碼器可包括經組態以顯示經解碼多層視訊資料之顯示器或與該顯示器通信。

視訊解碼器獲得包括至少第一層及第二層之多層視訊資料(400)。視訊解碼器300可例如自儲存於CPB 記憶體320中之經編碼位元串流獲得多層視訊資料。視訊編碼器200可例如獲得多層視訊資料作為來自濾波器單元216或DPB 218之輸出。第一層可例如為可獨立解碼的層，且第二層可取決於第一層，意謂著視訊解碼器300需要存取包括於第一層中之資訊以便解碼第二層。

視訊解碼器判定用於第一層之層標識值及用於第二層之層標識值(402)。在此實例中，層標識值係不同的。特定而言，用於第二層之層標識值高於用於第一層之層標識值。

視訊解碼器將第一層之經解碼圖像及第二層之經解碼圖像儲存於DPB中(404)。DPB可例如對應於圖6之DPB 218或圖7之DPB 314。

回應於判定IDR圖像屬於第二層，視訊解碼器自DPB移除(例如，丟棄或凸起)第二層之所有經解碼圖像，同時將第一層之所有經解碼圖像保留於經解碼圖像緩衝器中(406)。

在一個實例中，多層視訊資料可包括第三層，其具有高於第二層之層標識值且因此高於第一層之層標識的層標識值。視訊解碼器將第三層之經解碼圖像儲存於經解碼圖像緩衝器中，且回應於判定IDR圖像屬於第二層，自經解碼圖像緩衝器移除第二層之所有經解碼圖像及第三層之所有經解碼圖像，同時將第一層之所有經解碼圖像保留於經解碼圖像緩衝器中。在自經解碼圖像緩衝器移除第二層之所有經解碼圖像及第三層之所有經解碼圖像之後，視訊解碼器擷取第一層之經解碼圖像之複本以預測多層視訊資料之當前圖像的區塊。在擷取第一層之經解碼圖像之複本之後，視訊解碼器可例如將第一層之經解碼圖像之複本用作參考圖像以供執行框間預測。視訊解碼器可例如自多層視訊資料提取包括第一層及第三層而無第二層的可解碼位元串流。

視訊解碼器可另外經組態以藉由接收包含一或多個層之第一圖像的第一存取單元及接收包含層之一或多個第二圖像的第二存取單元，來獲得多層視訊資料。視訊解碼器可例如回應於判定(1)第二存取單元之VCL NAL單元之層標識小於按解碼次序的前一圖像之層標識且(2)第二存取單元之VCL NAL單元之POC值不同於按解碼次序的前一圖像之POC值，判定第二存取單元之VCL NAL單元對應於第二存取單元之起點。在第二存取單元之VCL NAL單元與前一圖像之最後一個VCL NAL單元之間接收的NAL單元可為存取單元定界符NAL單元。

應認識到，視實例而定，本文中所描述之技術中之任一者的某些動作或事件可以不同順序執行、可經添加、合併或完全省去(例如，並非所有所描述動作或事件為實踐該等技術所必要)。此外，在某些實例中，可(例如)經由多執行緒處理、中斷處理或多個處理器同時而非依序執行動作或事件。

在一或多個實例中，所描述之功能可實施於硬體、軟體、韌體或其任何組合中。若以軟體實施，則該等功能可作為一或多個指令或程式碼而儲存於電腦可讀媒體上或經由電腦可讀媒體傳輸，且由基於硬體之處理單元執行。電腦可讀媒體可包括儲存指令之電腦可讀儲存媒體，其對應於諸如資料儲存媒體之有形媒體，或包括例如根據通信協定促進電腦程式自一處傳輸至另一處的任何媒體的通信媒體。以此方式，電腦可讀媒體大體可對應於(1)為非暫時形的有形電腦可讀儲存媒體，或(2)通信媒體，諸如，信號或載波。資料儲存媒體可為可由一或多個電腦或一或多個處理器存取以擷取指令、程式碼及/或資料結構以用於實施本發明所描述之技術的任何可用媒體。電腦程式產品可包括電腦可讀媒體。

以實例說明而非限制，此等電腦可讀儲存媒體可包括RAM、ROM、EEPROM、CD-ROM或其他光碟儲存器、磁碟儲存器或其他磁性儲存裝置、快閃記憶體或可用以儲存呈指令或資料結構形式之所要程式碼且可藉由電腦存取的任何其他媒體中之一或多者。又，任何連接被恰當地稱為電腦可讀媒體。舉例而言，若使用同軸纜線、光纜、雙絞線、數位用戶線(DSL)或無線技術(諸如紅外線、無線電及微波)自網站、伺服器或其他遠端源傳輸指令，則同軸纜線、光纜、雙絞線、DSL或無線技術(諸如紅外線、無線電及微波)包括於媒體之定義中。然而，應理解，電腦可讀儲存媒體及資料儲存媒體不包括連接、載波、信號或其他暫時性媒體，而係針對非暫時性有形儲存媒體。如本文中所使用，磁碟及光碟包括緊密光碟(CD)、雷射光碟、光學光碟、數位影音光碟(DVD)、軟碟及Blu-ray光碟，其中磁碟通常以磁性方式再生資料，而光碟藉由雷射以光學方式再生資料。以上各物之組合亦應包括於電腦可讀媒體之範疇內。

指令可由一或多個處理器執行，諸如一或多個DSP、通用微處理器、ASIC、FPGA或其他等效積體或離散邏輯電路系統。因此，如本文中所使用之術語「處理器」及「處理電路系統」可指上述結構或適用於實施本文中所描述之技術之任何其他結構中的任一者。另外，在一些態樣中，本文所描述之功能可經提供於經組態以供編碼及解碼或併入於經組合編碼解碼器中之專用硬體及/或軟體模組內。又，可在一或多個電路或邏輯元件中充分實施該等技術。

本發明之技術可實施於廣泛多種裝置或設備中，包括無線手持機、積體電路(IC)或IC集合(例如，晶片集)。在本發明中描述各種組件、模組或單元以強調經組態以執行所揭示技術之裝置的功能態樣，但未必要求由不同硬體單元來實現。確切而言，如上文所描述，各種單元可與合適的軟體及/或韌體一起組合於編解碼器硬體單元中或由互操作性硬體單元之集合提供，該等硬體單元包括如上文所描述之一或多個處理器。

各種實例已予以描述。此等及其他實例處於以下申請專利範圍之範疇內。

100:視訊編碼及解碼系統 102:源裝置 104:視訊源 106:記憶體 108:輸出介面 110:電腦可讀媒體 112:儲存裝置 114:檔案伺服器 116:目的地裝置 118:顯示裝置 120:記憶體 122:輸入介面 130:四元樹二元樹(QTBT)結構 132:寫碼樹型單元(CTU) 150:存取單元 152:存取單元 154:存取單元 160:存取單元 162:存取單元 200:視訊編碼器 202:模式選擇單元 204:殘餘產生單元 206:變換處理單元 208:量化單元 210:反量化單元 212:反變換處理單元 214:重新建構單元 216:濾波器單元 218:經解碼圖像緩衝器(DPB) 220:熵編碼單元 222:運動估計單元 224:運動補償單元 226:框內預測單元 230:視訊資料記憶體 300:視訊解碼器 302:熵解碼單元 304:預測處理單元 306:反量化單元 308:反變換處理單元 310:重新建構單元 312:濾波器單元 314:經解碼圖像緩衝器(DPB) 316:運動補償單元 318:框內預測單元 320:經寫碼圖像緩衝器(CPB)記憶體 350:步驟 352:步驟 354:步驟 356:步驟 358:步驟 360:步驟 370:步驟 372:步驟 374:步驟 376:步驟 378:步驟 380:步驟 400:步驟 402:步驟 404:步驟 406:步驟

圖1為說明可執行本發明之技術之實例視訊編碼及解碼系統的方塊圖。

圖2A及圖2B為說明實例四分樹二元樹(QTBT)結構及對應寫碼樹型單元(CTU)之概念圖。

圖3展示存取單元內的圖像具有相同POC值之實例。

圖4展示POC計數橫跨不同層相連且存取單元內的圖像具有不同POC值之實例。

圖5展示並非所有層皆存在於存取單元中的存取單元之實例。

圖6為說明可執行本發明之技術的實例視訊編碼器的方塊圖。

圖7為說明可執行本發明之技術的實例視訊解碼器的方塊圖。

圖8為說明視訊編碼程序之流程圖。

圖9為說明視訊解碼程序之流程圖。

圖10為說明用於維持DPB之實例程序的流程圖。

400:步驟

402:步驟

404:步驟

406:步驟

Claims

一種解碼多層視訊資料之方法，該方法包含：獲得該多層視訊資料，其中該多層視訊資料包含至少一第一層、一第二層及一第三層；判定用於該第一層之一層標識值及用於該第二層之一層標識值，其中用於該第二層之該層標識值高於用於該第一層之該層標識值；判定用於該第三層之一層標識值，其中用於該第三層之該層標識值高於用於該第二層之該層標識值；將該第一層之經解碼圖像、該第二層之經解碼圖像及該第三層之經解碼圖像儲存於一經解碼圖像緩衝器中；回應於判定一瞬時解碼再新(IDR)圖像屬於該第二層，自該經解碼圖像緩衝器移除該第二層之所有經解碼圖像及該第三層之所有經解碼圖像，同時將該第一層之所有經解碼圖像保留於該經解碼圖像緩衝器中；以及在自該經解碼圖像緩衝器移除該第二層之所有該等經解碼圖像及該第三層之所有該等經解碼圖像之後，擷取該第一層之一經解碼圖像的一複本以預測該多層視訊資料之一當前圖像之一區塊。
如請求項1之方法，其中該第一層包含一可獨立解碼的層。
如請求項1之方法，其中該第二層取決於該第一層。
如請求項1之方法，其進一步包含：自該多層視訊資料提取包括該第一層及該第三層而無該第二層的一可解碼位元串流。
如請求項1之方法，其進一步包含：其中獲得包含至少該第一層及該第二層之該多層視訊資料包含：接收包含一或多個層之第一圖像的一第一存取單元及接收包含該一或多個層之第二圖像的一第二存取單元。
如請求項5之方法，其進一步包含：回應於判定(1)該第二存取單元之一視訊寫碼層(VCL)網路抽象層(NAL)單元之一層標識小於按解碼次序的前一圖像之一層標識及(2)該第二存取單元之該VCL NAL單元之一圖像次序計數(POC)值不同於按該解碼次序的該前一圖像之一POC值，判定該第二存取單元之該VCL NAL單元對應於該第二存取單元的一起點；及回應於判定該第二存取單元之該VCL NAL單元對應於該第二存取單元的該起點，判定該第二存取單元之該等第二圖像與同一時間輸出相關聯。
如請求項6之方法，其中在該第二存取單元之該VCL NAL單元與該前一圖像之最後一個VCL NAL單元之間接收的一NAL單元包含一存取單元定界符NAL單元。
如請求項1之方法，其中獲得該多層視訊資料包含將該多層視訊資料儲存於一無線通信裝置之一記憶體中，該方法進一步包含：運用該無線通信裝置之一或多個處理器編碼該多層視訊資料；及自該無線通信裝置之一傳輸器傳輸該經編碼多層視訊資料。
如請求項8之方法，其中該無線通信裝置包含一電話手機，且其中在該無線通信裝置之該傳輸器處傳輸該多層視訊資料包含根據一無線通信標準調變包含該多層視訊資料之一信號。
如請求項1之方法，其中獲得該多層視訊資料包含在一無線通信裝置之一接收器處接收該多層視訊資料，該方法進一步包含：在該無線通信裝置之一記憶體中儲存該多層視訊資料；及運用該無線通信裝置之一或多個處理器解碼該多層視訊資料。
如請求項10之方法，其中該無線通信裝置包含一電話手機，且其中在該無線通信裝置之該接收器處接收該多層視訊資料包含根據一無線通信標準解調包含該多層視訊資料之一信號。
一種用於解碼多層視訊資料之裝置，該裝置包含：一記憶體，其經組態以儲存該多層視訊資料；及一或多個處理器，其實施於電路系統中且經組態以：獲得該多層視訊資料，其中該多層視訊資料包含至少一第一層、一第二層及一第三層；判定用於該第一層之一層標識值及用於該第二層之一層標識值，其中用於該第二層之該層標識值高於用於該第一層之該層標識值；判定用於該第三層之一層標識值，其中用於該第三層之該層標識值高於用於該第二層之該層標識值；將該第一層之經解碼圖像、該第二層之經解碼圖像及該第三層之經解碼圖像儲存於一經解碼圖像緩衝器中；回應於判定一瞬時解碼再新(IDR)圖像屬於該第二層，自該經解碼圖像緩衝器移除該第二層之所有該等經解碼圖像及該第三層之所有該等經解碼圖像，同時將該第一層之所有該等經解碼圖像保留於該經解碼圖像緩衝器中；以及在自該經解碼圖像緩衝器移除該第二層之所有該等經解碼圖像及該第三層之所有該等經解碼圖像之後，擷取該第一層之一經解碼圖像的一複本以預測該多層視訊資料之一當前圖像之一區塊。
如請求項12之裝置，其中該第一層包含一可獨立解碼的層。
如請求項12之裝置，其中該第二層取決於該第一層。
如請求項12之裝置，其中該一或多個處理器經進一步組態以：自該多層視訊資料提取包括該第一層及該第三層而無該第二層的一可解碼位元串流。
如請求項12之裝置，其中為獲得包含至少該第一層及該第二層之該多層視訊資料，該一或多個處理器經進一步組態以接收包含一或多個層之第一圖像的一第一存取單元及接收包含該一或多個層之第二圖像的一第二存取單元。
如請求項16之裝置，其中該一或多個處理器經進一步組態以：回應於判定(1)該第二存取單元之一視訊寫碼層(VCL)網路抽象層(NAL)單元之一層標識小於按解碼次序的前一圖像之一層標識及(2)該第二存取單元之該VCL NAL單元之一圖像次序計數(POC)值不同於按解碼次序的該前一圖像之一POC值，判定該第二存取單元之該VCL NAL單元對應於該第二存取單元的一起點；及回應於判定該第二存取單元之該VCL NAL單元對應於該第二存取單元的該起點，判定該第二存取單元之該等第二圖像與同一時間輸出相關聯。
如請求項17之裝置，其中在該第二存取單元之該VCL NAL 單元與該前一圖像之最後一個VCL NAL單元之間接收的一NAL單元包含一存取單元定界符NAL單元。
如請求項12之裝置，其中該裝置包含一無線通信裝置，其進一步包含經組態以接收該多層視訊資料之一接收器。
如請求項19之裝置，其中該無線通信裝置包含一電話手機，且其中該接收器經組態以根據一無線通信標準解調變包含該經編碼視訊資料之一信號。
如請求項12之裝置，其進一步包含：一顯示器，其經組態以顯示經解碼多層視訊資料。
如請求項12之裝置，其中該裝置包含以下中之一或多者：一攝影機、一電腦、一行動裝置、一廣播接收器裝置或一機上盒。
一種儲存指令之電腦可讀儲存媒體，該等指令在由一或多個處理器執行時使得該一或多個處理器：獲得該多層視訊資料，其中該多層視訊資料包含至少一第一層、一第二層及一第三層；判定用於該第一層之一層標識值及用於該第二層之一層標識值，其中用於該第二層之該層標識值高於用於該第一層之該層標識值；判定用於該第三層之一層標識值，其中用於該第三層之該層標識值高於用於該第二層之該層標識值；將該第一層之經解碼圖像、該第二層之經解碼圖像及該第三層之經解碼圖像儲存於一經解碼圖像緩衝器中；回應於判定一瞬時解碼再新(IDR)圖像屬於該第二層，自該經解碼圖像緩衝器移除該第二層之所有經解碼圖像及該第三層之所有經解碼圖像，同時將該第一層之所有經解碼圖像保留於該經解碼圖像緩衝器中；以及在自該經解碼圖像緩衝器移除該第二層之所有該等經解碼圖像及該第三層之所有該等經解碼圖像之後，擷取該第一層之一經解碼圖像的一複本以預測該多層視訊資料之一當前圖像之一區塊。
一種用於解碼多層視訊資料之設備，該設備包含：用於獲得該多層視訊資料的構件，其中該多層視訊資料包含至少一第一層、一第二層及一第三層；用於判定用於該第一層之一層標識值及用於該第二層之一層標識值的構件，其中用於該第二層之該層標識值高於用於該第一層之該層標識值；用於判定用於該第三層之一層標識值的構件，其中用於該第三層之該層標識值高於用於該第二層之該層標識值；用於將該第一層之經解碼圖像、該第二層之經解碼圖像及該第三層之經解碼圖像儲存於一經解碼圖像緩衝器中的構件；用於回應於判定一瞬時解碼再新(IDR)圖像屬於該第二層，自該經解碼圖像緩衝器移除該第二層之所有經解碼圖像及該第三層之所有經解碼圖像，同時將該第一層之所有經解碼圖像保留於該經解碼圖像緩衝器中的構件；以及用於在自該經解碼圖像緩衝器移除該第二層之所有該等經解碼圖像及該第三層之所有該等經解碼圖像之後，擷取該第一層之一經解碼圖像的一複本以預測該多層視訊資料之一當前圖像之一區塊的構件。