TWI709329B

TWI709329B - 用於視訊編碼的神經網絡方法和裝置

Info

Publication number: TWI709329B
Application number: TW107135008A
Authority: TW
Inventors: 蘇郁琪; 揚柯; 陳慶曄; 莊子德; 黃毓文
Original assignee: 聯發科技股份有限公司
Priority date: 2017-10-12
Filing date: 2018-10-04
Publication date: 2020-11-01
Also published as: US20200252654A1; US11363302B2; CN111133756A; EP3685577A1; EP3685577A4; WO2019072097A1; TW201924342A; CN111133756B

Abstract

本申請提供了一種使用神經網絡（Neural Network, NN）對視訊編碼器或解碼器進行視訊編解碼的視訊編解碼方法和裝置。根據一種方法，接收輸入資料或視訊位元流用於一個或複數個圖像中的塊，其包括一個或複數個顏色分量。針對所述一個或複數個圖像的一個或複數個塊導出殘差資料，預測資料，重建資料，濾波重建資料或其組合。使用神經網絡處理與一個或複數個訊號類型相對應的目標訊號，並且神經網絡的輸入或神經網絡的輸出包括兩個或更多個顏色分量。根據另一種方法，使用神經網絡處理與一個或複數個約訊號類型相對應的目標訊號，並且神經網絡的輸入或神經網絡的輸出包括兩個或更多個顏色分量。

Description

用於視訊編碼的神經網絡方法和裝置

本發明涉及視訊編碼。具體而言，本發明涉及一種編碼系統中將神經網絡(Neural Network，以下簡稱為NN)應用於一個或複數個目標訊號的裝置和方案，其中提供給神經網絡輸入的目標訊號對應於重建殘差，來自預測過程的輸出，重建過程或所述至少一個過濾過程，或它們的任何組合。

神經網絡(Neural Network,NN)，也稱為“人工”神經網絡('Artificial' Neural Network,ANN)，是具有與生物神經網絡共同的某些性能特徵的信息處理系統。神經網絡系統由許多簡單且高度互連的處理元件組成，透過對外部輸入的動態狀態響應來處理信息。處理元件可以被認為是人腦中的神經元，其中每個感知器接受複數個輸入併計算輸入的加權和。在神經網絡領域，感知器被認為是生物神經元的數學模型。此外，這些互連的處理元件通常以層的形式組織。對於識別應用，外部輸入可以對應於呈現給網絡的模式，該模式與一個或複數個中間層通信，也稱為“隱藏層”，其中實際處理是透過加權“連接”系統完成的。

人工神經網絡可以使用不同的架構來指定網絡中涉及哪些變量及其拓撲關係。例如，神經網絡中涉及的變量可能是神經元之間連接的權重，以及神經元的活動。前饋網絡是一種神經網絡拓撲，其中每層中的節點被饋送到下一級，並且同一層中的節點之間存在連接。大多數人工神經網絡都包含某種形式的“學習規則”，它根據所呈現的輸入模式修改連接的權重。從某種意義上說，人工神經網絡就像他們的生物學對像一樣透過實例來學習。向後傳播神經網絡是一種更先進的神經網絡，允許權重調整(weight adjustments)的向後誤差傳播。因此，後向傳播神經網絡能夠透過最小化向後饋送到神經網絡的誤差來改善性能。

神經網絡可以是深度神經網絡(deep neural network,DNN)，卷積神經網絡(convolutional neural network,CNN)，遞歸神經網絡(recurrent neural network,RNN)或其他神經網絡變體。深度多層神經網絡或深度神經網絡(DNN)對應於具有多級互連節點的神經網絡，其允許它們緊湊地表示高度非線性和高度變化的函數。然而，DNN的計算複雜度隨著與大量層相關聯的節點數量的增加而迅速增長。

CNN是一類前饋人工神經網絡，其最常用於分析視覺圖像。遞歸神經網絡(RNN)是一類人工神經網絡，其中節點之間的連接形成沿序列的有向圖。與前饋神經網絡不同，RNN可以使用其內部狀態(存儲器)來處理輸入序列。RNN可以在其中具有循環以允許信息持續存在。RNN允許對矢量序列進行操作，例如輸入，或輸出，或輸入和輸出中的序列。

高效視訊編碼(HEVC)標準是在ITU-T視訊編碼專家組(VCEG)和ISO/IEC運動圖像專家組(MPEG)標準化組織的聯合視訊項目下開發的，尤其與合作夥伴視訊編碼聯合協作小組(JCT-VC)一起開發的。

在HEVC中，一個片被劃分為複數個編碼樹單元(coding tree units,CTU)。CTU進一步劃分為複數個編碼單元(coding units,CU)以適應各種局部特性。HEVC支持複數個畫面內預測模式，並且對於畫面內編碼CU，用訊號通知所選擇的畫面內預測模式。除了編碼單元的概念之外，還在HEVC中引入了預測單元(prediction unit,PU)的概念。一旦完成CU分層樹的分割，則根據預測類型和PU分區將每個葉CU進一步分割成一個或複數個預測單元(PU)。在預測之後，與CU相關聯的殘差被劃分為變換塊，稱為變換單元(transform units,TU)，以用於變換過程。

第1A圖示出了基於HEVC的示例性自適應畫面內/畫面間視訊編碼器。當使用畫面間模式時，畫面內/畫面間預測單元110基於運動估計(ME)/運動補償(MC)生成畫面間預測。畫面內/畫面間預測單元110在使用畫面內模式時生成畫面內預測。透過從與輸入圖像相關聯的訊號中減去畫面內/畫面間預測訊號，將畫面內/畫面間預測資料(即，畫面內/畫面間預測訊號)提供給減法器116以形成預測誤差，也稱為殘差或殘差。產生畫面內/畫面間預測資料的過程被稱為本公開中的預測過程(prediction process)。然後透過變換(Transform，T)隨後的量化(Q)(圖式中簡稱為T+Q)120處理預測誤差(即，殘差)。然後，透過熵編碼單元122對經變換和量化的殘差進行編碼，以將其包括在與壓縮視訊資料相對應的視訊位元流中。然後，將與變換係數相關聯的位元流與輔助訊息(諸如，運動，編碼模式和與圖像區域相關聯的其他信息的輔助信息)一起封裝。還可以透過熵編碼來壓縮輔助信息以減少所需帶寬。由於重建的圖像可以用作用於畫面間預測的參考圖像，所以也必須在編碼器端重建參考圖像。因此，透過逆量化(Inverse Quantization,IQ)和逆變換(Inverse Transformation，IT)(圖式中簡稱為IQ+IT)124處理已變換和已量化的殘差以恢復殘差。然後將重構的殘差加回到重建單元(圖式中簡稱為REC)128處的畫面內/畫面間預測資料以重建視訊資料。將重構殘差添加到畫面內/畫面間預測訊號的過程稱為本公開中的重建過程(reconstruction process)。來自重建過程的輸出圖像被稱為重建圖像。為了減少重建圖像中的偽像，使用包括去塊濾波器(Deblocking Filter，圖式中簡稱為DF)130和样本自適應偏移(Sample Adaptive Offset，圖式中簡稱為SAO)132的環路濾波器。在本公開中，在所有濾波處理的輸出處的已濾波的重構圖像被稱為解碼圖像。解碼圖像存儲在訊框緩衝器140中並用於預測其他訊框。

第1B圖示出了基於HEVC的示例性自適應畫面內/畫面間視訊解碼器。由於編碼器還包含用於重建視訊資料的本地解碼器，因此除了熵解碼器之外，在編碼器中已經使用了一些其他解碼器組件。在解碼器側，熵解碼單元160用於從位元流中恢復編碼的符號或語法。從輸入位元流生成重構殘差的過程在本公開中稱為殘差解碼過程。用於生成畫面內/畫面間預測資料的預測處理也在解碼器側應用，然而，畫面內/畫面間預測單元150與編碼器側的預測處理不同，因為畫面間預測僅需要使用自位元流導出的運動信息來執行運動補償。此外，加法器114用於將重構的殘差添加到畫面內/畫面間預測資料。

在HEVC標準的開發期間，還公開了另一種稱為自適應環路濾波器(ALF)的環路濾波器，但未在主要標準中採用。如用於編碼器側的第2A圖所示以及如用於解碼器側的第2B圖所示，ALF可用於進一步改善視訊質量。例如，ALF 210可以在SAO 132之後使用，並且來自ALF 210的輸出存儲在訊框緩衝器140中。對於解碼器側，來自ALF 210的輸出也可以用作解碼器輸出以用於顯示或其他處理。在本公開中，去塊濾波器，SAO和ALF都被稱為濾波處理(filtering process)。

在不同的圖像恢復或處理方法中，基於神經網絡的方法，例如深度神經網絡(deep neural network,DNN)或卷積神經網絡(convolution neural network,CNN)，近年來是一種很有前景的方法。它已經應用於各種圖像處理應用，例如圖像去噪，圖像超分辨率等，並且已經證明，與傳統的圖像處理方法相比，DNN或CNN可以實現更好的性能。因此，在下文中，我們建議在一個視訊編碼系統中利用CNN作為一種圖像恢復方法，以提高主觀質量或編碼效率。期望利用神經網絡作為視訊編碼系統中的圖像恢復方法，以改善新興視訊編碼標準(例如高效視訊編碼(HEVC))的主觀質量或編碼效率。

本發明公開了一種使用神經網絡(NN)對視訊編碼器或解碼器進行視訊編解碼的視訊編解碼方法和裝置。根據該方法，接收編碼器側的輸入資料或解碼器側的視訊位元流，其中輸入資料包括視訊序列中的一個或複數個圖像，或者視訊位元流包括在視訊序列中與所述一個或複數個圖像相關聯的壓縮資料，並且其中每個圖像包括一個或複數個顏色分量。針對所述一個或複數個圖像的一個或複數個塊導出殘差資料，預測資料，重建資料，濾波重建資料或其組合。使用神經網絡處理目標訊號，其中提供給神經網絡的輸入的目標訊號對應於殘差資料，預測資料，重建資料，濾波重建資料或其組合，並且其中神經網絡的輸入或神經網絡的輸出包括兩個或更多個顏色分量。

在上述方法中，顏色分量可以對應於兩個色度分量、或亮度分量和兩個色度分量。在一個實施例中，神經網絡被設計用於處理亮度分量，並且神經網絡的輸入包括亮度分量的一個或複數個塊以及色度分量對應的一個或複數個塊。可以對色度分量進行上採樣以匹配亮度分量的採樣率。在另一實施例中，神經網絡被設計用於處理色度分量，並且神經網絡的輸入包括色度分量的一個或複數個塊以及亮度分量對應的一個或複數個塊。可以對亮度分量進行下採樣以匹配色度分量的採樣率。

在上述方法中，神經網絡可以對應於CNN(卷積神經網絡)，D神經網絡(深度全連接前饋神經網絡)，RNN(遞歸神經網絡)或GAN(生成性對抗網絡)。當神經網絡的輸出包括兩個或更多個顏色分量時，可以為所述兩個或更多個顏色分量組合或共享用於啟用或禁用各個顏色分量的神經網絡的控制標誌。

根據另一種方法，接收編碼器側的輸入資料或解碼器側的視訊位元流，其中輸入資料包括視訊序列中的一個或複數個圖像，或者視訊位元流包括視訊序列中的一個或更多圖像相關聯的壓縮資料。針對該一個或複數個圖像的一個或複數個塊導出殘差資料，預測資料，重建資料，濾波重建資料或其組合。使用神經網絡處理目標訊號，其中目標訊號對應於殘差資料，預測資料，重建資料，濾波重建資料或其組合，以及該一個或複數個圖像中的該一個或複數個塊中的至少一個用於導出複數個子塊，並且將複數個子塊作為神經網絡的輸入。

對於第二種方法，子採樣可以應用於該一個或複數個圖像的該一個或複數個塊中的至少一個以導出複數個子塊，並且複數個子塊對應於與子採樣相關聯的不同相位。

在第二方法的一個實施例中，神經網絡被設計用於處理亮度分量，並且神經網絡的輸入包括亮度分量的一個或複數個塊以及色度分量對應的一個或複數個塊。可以對色度分量進行上採樣以匹配亮度分量的採樣率。在另一示例中，亮度分量的一個或複數個塊可用於導出要輸入到神經網絡的複數個子塊，並且神經網絡的輸出包括亮度分量的複數個輸出子塊。

在第二方法的一個實施例中，神經網絡被設計用於處理多於一個分量。神經網絡的輸入包括與亮度分量相關聯的資料和與色度分量相關聯的對應資料，其中亮度分量的一個或複數個塊可用於導出要輸入到神經網絡的複數個子塊。神經網絡的輸出包括亮度分量的複數個輸出子塊和色度分量的一個或複數個輸出塊。

在另一實施例中，神經網絡被設計用於處理色度分量，並且神經網絡的輸入包括色度分量的一個或複數個塊以及亮度分量的對應的一個或複數個塊。可以對亮度分量進行下採樣以匹配色度分量的採樣率。

在第二方法的一個實施例中，神經網絡的輸入包括從包括殘差資料，預測資料，重建資料和經濾波的重建資料的組中選擇第一類型訊號和第二類型訊號的一個或多個塊，並且其中第一類型訊號和第二類型訊號的該一個或多個塊用於導出多個子塊。在第二方法的另一實施例中，神經網絡的輸入包括從包括殘差資料，預測資料，重建資料和經濾波的重建資料的組中選擇的第一類型訊號和第二類型訊號的一個或多個塊，並且其中僅第一類型訊號或第二類型訊號的所述一個或多個塊用於導出多個子塊。

在第二方法中，神經網絡可以對應於CNN(卷積神經網絡)，D神經網絡(深度全連接前饋神經網絡)，RNN(遞歸神經網絡)或GAN(生成性對抗網絡)。當神經網絡的輸出包括兩個或更多個顏色分量時，可以為所述兩個或更多個顏色分量組合或共享用於啟用或禁用各個顏色分量的神經網絡的控制標誌。

110、150:畫面內/畫面間預測子單元

114:加法器

116:減法器

120:T+Q

122:熵編碼單元

124:IT

128:REC

130:DF

132:SAO

140:訊框緩衝器

160:熵解碼單元

210:ALF

310、410、510、610、710、810、910:神經網絡

1010、1110、1120、1130:步驟

第1A圖示出了基於高效視訊編碼(HEVC)標準的示例性自適應畫面內/畫面間視訊編碼器。

第1B圖示出了基於高效視訊編碼(HEVC)標準的示例性自適應畫面內/畫面間視訊解碼器。

第2A圖示出了類似於第1A圖中的其具有額外的ALF過程的示例性自適應畫面內/畫面間視訊編碼器。

第2B圖示出了類似於第1B圖中的其具有額外的ALF過程的示例性自適應畫面內/畫面間視訊解碼器。

第3圖示出了將神經網絡應用於重構殘差以將神經網絡濾波後的殘差提供給重建模塊以生成重建訊號的示例。

第4圖示出了將神經網絡應用於預測子的示例，其中神經網絡的輸入是來自畫面內/畫面間預測單元的預測子，並且神經網絡的輸出是神經網絡濾波的預測子。

第5圖示出了將神經網絡應用於重建訊號的示例，其中神經網絡的輸入是來自重建模塊(REC)的重建像素，並且神經網絡的輸出是神經網絡濾波的重建像素。

第6圖示出了多輸入神經網絡的示例，其中兩種類型的輸入訊號用於神經網絡，包括預測子和殘差，並且神經網絡的輸出是神經網絡濾波的重建像素。

第7圖示出了多輸入神經網絡的另一示例，其中神經網絡具有包括預測子和殘差的複數個輸入，並且神經網絡的輸出是神經網絡濾波的預測子。

第8圖示出了雙輸入神經網絡的又一示例，其中神經網絡的複數個輸入包括預測子和重建像素，並且神經網絡的輸出是神經網絡濾波的重建像素。

第9圖示出了雙輸入神經網絡的又一示例，其中神經網絡的複數個輸入包括殘差和重建的像素，並且神經網絡的輸出是神經網絡濾波的重建像素。

第10圖示出了雙輸入神經網絡的又一示例，其中神經網絡的複數個輸入包括預測子，殘差和重建像素以及神經網絡的輸出是神經網絡濾波的重建像素。

第11圖示出了根據本發明一個實施例的包含神經網絡的視訊編碼器或解碼器的視訊編碼的示例性流程圖。

第12圖示出了根據本發明一個實施例的包含神經網絡的視訊編碼器或解碼器的視訊編碼的示例性流程圖。

以下描述是實現本發明的最佳方案。進行該描述是為了說明本發明的一般原理，而不應被視為具有限制意義。透過參考所附請求項能最好地確定本發明的範圍。

依據本發明的一實施方式，公開了一種利用神經網絡(例如CNN)作為視訊編碼系統中的圖像恢復方法的方法。例如，如第2A圖和第2B圖所示，神經網絡在ALF上輸出圖像並產生最終的解碼圖像。或者，神經網絡可以直接應用於第1A圖/第1B圖或第2A圖/第2B圖的視訊編碼系統中的SAO，DF或REC之後，其可與其他重建方法一起或者不與其他重建方法一起。在另一實施例中，神經網絡可用於直接恢復量化誤差或僅用於改善預測子質量。在前一種情況下，在逆量化和變換之後應用神經網絡以恢復重建的殘差。在後一種情況下，神經網絡應用於由畫面間或畫面內預測生成的預測子。

當神經網絡應用於視訊編碼時，可以聯合或獨立地處理不同的顏色分量。例如，在一個實施例中，可以獨立地應用不同顏色分量的不同神經網絡。因此，在一個視訊編碼系統中，三個顏色分量總共可以有三個神經網絡。在另一實施例中，在一個視訊編碼系統中存在兩個神經網絡，一個設計用於亮度分量而另一個設計用於色度分量。在為色度分量設計的神經網絡中，U和V可以獨立或聯合處理。當獨立處理U和V時，神經網絡一次輸出一個顏色分量，並且U和V分量共享神經網絡參數。如果可以聯合處理U和V，則該神經網絡的輸入包括U和V分量，並且該神經網絡同時生成U和V資料。在另一實施例中，在視訊編碼系統中僅存在一個神經網絡，其中神經網絡的輸入同時是三個顏色分量，並且輸出也是三個顏色分量。

在另一實施例中，為亮度分量設計的神經網絡的輸入可以僅是亮度分量或者俱有對應的色度部分的亮度分量。為色度分量設計的神經網絡的輸入可以僅是色度分量，或者是具有相應亮度部分的色度分量。此外，如果YUV採樣率對於不同顏色分量是不同的，則可以使用子採樣或上採樣濾波器來生成相應的部分。例如，當視訊格式是YUV420時，為亮度分量設計的神經網絡的輸入包括亮度分量和上採樣的色度資料。或者，為亮度分量設計的神經網絡的輸入包括下採樣的亮度資料和原始的色度資料。在為色度分量設計的神經網絡中，輸入可以包括兩個色度分量和下採樣的亮度資料。

當一個神經網絡同時處理多於一個顏色分量時，用於啟用或禁用不同顏色分量的神經網絡的控制標誌可以由這些組件聯合使用或共享。例如，如果神經網絡同時處理兩個色度分量，則一個開/關標誌可被編解碼并由U和V分量來共享。在另一個實施例中，如果神經網絡同時處理三個顏色分量，則一個開/關標誌可被編解碼并由三個顏色分量來共享。

當神經網絡應用於視訊編碼時，一個顏色分量可以是神經網絡的一個輸入分量。替代地，可以將一個顏色分量進一步劃分為複數個子塊，並且每個子塊是神經網絡的一個輸入分量。例如，由神經網絡處理的當前區域的大小是M×N像素。在一個實施例中，如果一個顏色分量是神經網絡的一個輸入分量，則神經網絡的輸入可以是具有M×N個像素的一個分量。在另一個實施例中，當前區域可以被劃分為四個子塊，其大小等於(M/2)x(N/2)，其中這些子塊透過用四個不同的相位進行二次採樣來生成。在神經網絡過程中，每個子塊是一種輸入分量，因此神經網絡的輸入包括四個分量，每個分量的大小僅為(M/2)×(N/2)個像素。

在一些神經網絡架構中，為亮度分量設計的神經網絡的輸入可以包括具有對應色度部分的亮度分量。為色度分量設計的神經網絡的輸入可以包括具有相應亮度部分的色度分量。當YUV採樣率對於不同的顏色分量是不同的時，可以處理不同的顏色分量以使得不同輸入分量的塊大小相等。例如，當視訊格式是YUV420時，為亮度分量設計的神經網絡的輸入可以包括亮度分量和色度分量。基於亮度和色度分量之間的採樣比率將亮度分量劃分為四個子塊。因此，具有與U或V分量相同大小的Y分量的一個子塊是神經網絡的一個輸入分量。因此，對於四個亮度子塊有四個輸入分量，並且為亮度分量設計的神經網絡中的U和V分量有兩個輸入分量。這六個輸入分量的大小是相同的。如果在一種顏色分量中多種類型的資料被使用，則該提出的方法可以應用於所有類型的資料或其中之一。例如，對於一個顏色分量，預測子，殘差和重建像素可以用作神經網絡的輸入。所提出的方法可以用於將所有類型的資料分別分成四個子塊，使得神經網絡的輸入數量從一個分量中大小等於MxN的3個分量增加到每一個分量中大小等於(M/2 x N/2)的3x4=12個分量。在另一個例子中，只有一種類型資料的塊(例如重建像素)被劃分為四個子塊，而另外兩種類型的資料在水平和垂直方向上被下採樣兩倍。然後，神經網絡的輸入數量從每個分量中尺寸等於MxN的3個組件增加到每個分量中尺寸等於(M/2 x N/2)的六個組件。

在上述方法中，所提到的神經網絡可以是任何變化的神經網絡，例如CNN(卷積神經網絡)，DNN(深度全連接前饋神經網絡)，RNN(遞歸神經網絡)或GAN(生成對抗性網絡(generative adversarial network))。

根據一個實施例，神經網絡的輸入可以是單個或複數個輸入。神經網絡的輸入可以是殘差，預測值，重建像素或這些項的任何組合。例如，如第3圖所示，神經網絡(圖式中簡稱為NN)310被應用於來自IQ+IT 124的重建殘差。換句話說，殘差被用作神經網絡的輸入，並且神經網絡的輸出是神經網絡濾波後的殘差。然後將神經網絡濾波後的殘差提供給重建模塊(即REC128)以產生重建訊號。第3圖是在視訊編碼器中應用神經網絡310的示例，然而，神經網絡310可以以類似的方式應用於相應的視訊解碼器中。

第4圖示出了將神經網絡410應用於預測子的示例。在這種情況下，神經網絡的輸入是來自畫面內/畫面間預測單元110的預測子，並且神經網絡的輸出是神經網絡濾波的預測子。然後將神經網絡濾波的預測子殘差提供給重建模塊(即，REC 128)以生成重建訊號。第4圖是在視訊編碼器中應用神經網絡410的示例。然而，神經網絡410可以以類似的方式應用於相應的視訊解碼器中。

第5圖示出了將神經網絡510應用於重建訊號的示例。在第5圖中，神經網絡510的輸入是來自REC 128的重建像素。神經網絡的輸出是神經網絡濾波的重建像素，其可以透過去塊濾波器(即，DF 130)進一步處理。第5圖是在視訊編碼器中應用神經網絡510的示例。然而，神經網絡510可以以類似的方式應用於相應的視訊解碼器中。

第6圖示出了多輸入神經網絡610的示例，其中兩種類型的輸入訊號用於神經網絡。第6圖示出了神經網絡具有複數個輸入的示例，包括預測子(即，來自畫面內/畫面間預測子單元110的訊號)和殘差(即，來自IQ+IT 124的訊號)。神經網絡的輸出是神經網絡濾波的重建像素，其可以透過去塊濾波器(即，DF 130)進一步處理。第6圖是在視訊編碼器中應用神經網絡610的示例。然而，神經網絡610可以以類似的方式應用於相應的視訊解碼器中。

第7圖示出了多輸入神經網絡710的另一示例，其類似於第6圖中的系統。在第7圖中，神經網絡具有包括預測子的複數個輸入(即，來自畫面內/畫面間預測子單元110的訊號)和殘差(即來自IQ+IT 124的訊號)。然而，神經網絡生成神經網絡濾波的預測子，而不是如第6圖所示的神經網絡濾波的重建像素。然後，將神經網絡濾波的預測子提供給重建模塊(即，REC 128)以生成重構訊號。第7圖是在視訊編碼器中應用神經網絡710的示例。然而，神經網絡710可以以類似的方式應用於相應的視訊解碼器中。

第8圖示出了雙輸入神經網絡810的又一示例。在第8圖中，神經網絡的複數個輸入包括預測子(即，來自畫面內/畫面間預測子單元110的訊號)和來自REC 128的重建像素。神經網絡的輸出是神經網絡濾波的重建像素，其可以透過去塊濾波器(即，DF 130)進一步處理。第8圖是在視訊編碼器中應用神經網絡810的示例。然而，神經網絡810可以以類似的方式應用於相應的視訊解碼器中。

第9圖示出了雙輸入神經網絡910的又一示例。在第9圖中，神經網絡的複數個輸入包括殘差(即，來自IQ+IT 124的訊號)和來自REC 128的重建像素。神經網絡的輸出是神經網絡濾波的重建像素，其可以透過去塊濾波器(即，DF 130)進一步處理。第9圖是在視訊編碼器中應用神經網絡910的示例。然而，神經網絡910可以以類似的方式應用於相應的視訊解碼器中。

第10圖示出了三輸入神經網絡1010的又一示例。在第10圖中，神經網絡的複數個輸入包括預測子(即，來自畫面內/畫面間預測子單元110的訊號)，殘差(即，來自IQ+IT 124的訊號)和來自REC 128的重建像素。神經網絡的輸出是神經網絡濾波的重建像素，其可以透過去塊濾波器(即，DF 130)進一步處理。第10圖是在視訊編碼器中應用神經網絡1010的示例。然而，神經網絡1010可以以類似的方式應用於相應的視訊解碼器中。

對於重構像素是神經網絡的單個輸入或複數個輸入中的一個的上述情況，基於編碼器和解碼器處的神經網絡的位置，輸入重建像素可以來自不同模塊。例如，在第5圖，第8圖，第9圖和第10圖中，由於在REC 128之後且在DF 130之前施加神經網絡，因此作為神經網絡的輸入的重建像素來自REC 128。由於神經網絡可以應用於REC 128，DF 130，SAO 132或ALF 210之後(在第2A圖/第2B圖中)，因此重建的輸入可以相應地來自REC 128，DF 130，SAO 132或ALF 210。在上面的附圖中，僅示出了編碼器側的系統框圖。可以相應導出解碼器側的系統框圖。

本發明的實施方式還公開了使用神經網絡進行編碼模式決策的方法。在一個實施例中，深度學習用於決定編碼結構。在HEVC中，一個切片被劃分為複數個CTU。CTU進一步劃分為複數個CU以適應各種本地特性。表示為編碼樹的四叉樹用於將CTU劃分為複數個CU。根據該實施例，深度學習網絡將輸出給定塊的四叉樹決策(例如，分割或不分割)。對於下一代視訊編碼標準，已經提出了其他編碼樹分區(例如QTBT(四叉樹二叉樹)和TT(三元樹)分區)以改善編碼性能。在另一實施例中，深度學習網絡將輸出給定塊的樹分區決策(例如，QT或BT，水平BT或垂直BT，BT或TT，水平TT或垂直TT)。

在另一實施例中，深度學習用於決定畫面內或畫面間模式。深度學習網絡將輸出給定塊的畫面內或畫面間模式決策。

在另一實施例中，深度學習用於確定亮度分量的畫面內模式。在HEVC中，亮度分量有35種畫面內模式，包括DC，平面和角度模式。對於下一代視訊編碼標準，提出了更多畫面內模式(例如67種模式)以改善編碼性能。深度學習網絡將輸出給定塊的亮度畫面內模式。

在另一實施例中，深度學習用於確定色度分量的畫面內模式。在HEVC中，色度分量有5種畫面內模式，包括DM，DC，平面，垂直和水平模式。對於下一代視訊編碼標準，可以添加附加的色度模式(例如LM模式和其他融合模式)。深度學習網絡將輸出給定塊的色度畫面內模式。

在另一實施例中，深度學習用於決定用於畫面間模式的合併或AMVP(高級運動矢量預測)模式。用於畫面間預測的合併和AMVP模式在本領域中是已知的，並且這裡不再重複細節。深度學習網絡將輸出給定塊的合併或AMVP決策。

在另一實施例中，深度學習用於決定用於畫面間模式的合併候選者。在HEVC中，存在空間和時間合併Merge候選者。對於下一代視訊編碼標準，可以添加額外的合併候選者(例如，仿射合併候選者)，或者額外的解碼側操作(例如，基於模式的運動矢量推導(Pattern-Based Motion Vector Derivation,PMVD)，解碼器側運動矢量細化(Decoder-side Motion Vector Refinement,DMVR))可以被執行以完善合併候選人。深度學習網絡將輸出合併候選者和給定塊的細化決策。

在另一實施例中，深度學習用於決定畫面間模式的運動向量分辨率。在HEVC中，僅存在四分之一像素運動矢量分辨率。對於下一代視訊編碼標準，可以添加額外的分辨率(例如，整數像素或4像素)。深度學習網絡將輸出給定塊的運動矢量分辨率。

在另一實施例中，深度學習用於決定塊的複數個核心變換。在HEVC中，DCT-II或DST可用作核心變換。對於下一代視訊編碼標準，可以添加額外的核心變換(例如DCT-IV，DCT-VII，DCT-VIII)。深度學習網絡將輸出給定塊的核心變換決策。

在另一實施例中，深度學習用於決定塊的複數個二次變換。對於下一代視訊編碼標準，可以添加額外的二次變換。深度學習網絡將輸出給定塊的二次變換決策。

在另一實施例中，使用深度學習來確定塊的量化參數。在HEVC以及各種高級視訊編碼系統中，引入量化以實現速率控制的失真和比特率之間的折衷。深度學習網絡將輸出給定塊的量化參數。

在另一實施例中，深度學習用於確定塊的解塊參數。深度學習網絡將輸出給定塊的解塊參數。

在另一實施例中，深度學習用於確定塊的SAO類型。深度學習網絡將輸出給定塊的SAO類型。

在另一實施例中，深度學習用於決定給定塊的修改的重建像素。深度學習網絡將輸出給定塊的修改的重建像素。

在與上面公開的編碼決定相關的所有實施例中，深度學習網絡的輸入可以是塊的未壓縮源，或來自空間或時間訊框的重建像素，或可以在編碼過程中獲取或生成的任何信息(例如，源方差，直方圖，梯度，運動場，預測和殘差。

在與上面公開的編碼決策相關的所有實施例中，輸出還可以包含關於決策的置信度值，以指示深度學習網絡做出的決策是否可信。

第11圖示出了根據本發明一個實施例的包含神經網絡的視訊編碼器或解碼器的視訊編碼的示例性流程圖。流程圖中示出的步驟可以實現為在編碼器側或解碼器側的一個或複數個處理器(例如，一個或複數個CPU)上可執行的程序代碼。流程圖中示出的步驟還可以基於諸如被佈置為執行流程圖中的步驟的一個或複數個電子設備或處理器的硬體來實現。該方法在步驟1110中在編碼器側接收輸入資料或在解碼器側接收視訊位元流，其中輸入資料包括視訊序列中的一個或複數個圖像，或者視訊位元流包括與在視訊序列中的一個或複數個圖像相關的壓縮資料，並且其中每個圖像包括一個或複數個顏色分量。在步驟1120中，為一個或複數個圖像的一個或複數個塊導出殘差資料，預測資料，重建資料，濾波重建資料或其組合。在步驟1130中使用神經網絡處理目標訊號，其中，提供給神經網絡的輸入的目標訊號對應於殘差資料，預測資料，重建資料，濾波重建資料或其組合，以及神經網絡的輸入或神經網絡的輸出包括兩個或者更多顏色成分。

第12圖示出了根據本發明一個實施例的包含神經網絡的視訊編碼器或解碼器的視訊編碼的示例性流程圖。該方法在步驟1210中在編碼器側接收輸入資料或在解碼器側接收視訊位元流，其中輸入資料包括視訊序列中的一個或複數個圖像，或者視訊位元流包括與視訊序列中的一個或複數個圖像相關聯的壓縮資料。在步驟1220中，為所述一個或複數個圖像的一個或複數個塊導出殘差資料，預測資料，重建資料，濾波重建資料或其組合。在步驟1230中使用神經網絡處理目標訊號，其中，提供給神經網絡的輸入的目標訊號對應於殘差資料，預測資料，重建資料，濾波重建資料或其組合，以及所述一個或複數個圖像的所述一個或複數個塊的至少一個用於導出複數個子塊，並且複數個子塊被提供作為神經網絡的輸入。

所示的流程圖旨在示出根據本發明的視訊編碼的示例。在不脫離本發明的精神的情況下，本領域通常知識者可以修改每個步驟，重新安排步驟，分割步驟，或組合步驟以實施本發明。在本公開中，已經使用特定語法和語義來說明用於實現本發明的實施例的示例。本領域通常知識者可以透過用等同的語法和語義替換語法和語義來實踐本發明而不脫離本發明的精神。

呈現以上描述以使得本領域通常知識者能夠實踐在特定應用及其要求的上下文中提供的本發明。對所描述的實施例的各種修改對於本領域通常知識者來說是顯而易見的，並且本文定義的一般原理可以應用於其他實施例。因此，本發明不限於所示出和描述的特定實施例，而是與符合本文所公開的原理和新穎特徵的最寬範圍相一致。在以上詳細描述中，示出了各種具體細節以便提供對本發明的透徹理解。然而，本領域通常知識者將理解，可以實施本發明。

如上所述的本發明的實施例可以以各種硬體，軟體代碼或兩者的組合來實現。例如，本發明的實施例可以是集成到視訊壓縮芯片中的一個或複數個電路電路或集成到視訊壓縮軟體中的程序代碼，以執行本文所述的處理。本發明的實施例還可以是要在數字訊號處理器(DSP)上執行的程序代碼，以執行這裡描述的處理。本發明還可以涉及由計算機處理器，數字訊號處理器，微處理器或現場可編程門陣列(FPGA)執行的許多功能。這些處理器可以被配置為透過執行定義本發明所體現的特定方法的機器可讀軟體代碼或固件代碼來執行根據本發明的特定任務。軟體代碼或固件代碼可以用不同的編程語言和不同的格式或樣式開發。還可以針對不同的目標平台編譯軟體代碼。然而，軟體代碼的不同代碼格式，樣式和語言以及配置代碼以執行根據本發明的任務的其他方式將不脫離本發明的精神和範圍。

在不脫離本發明的精神或基本特徵的情況下，本發明可以以其他特定形式實施。所描述的示例在所有方面都應被視為僅是說明性的而非限制性的。因此，本發明的範圍由所附請求項而不是前面的描述表示。在請求項的含義和等同範圍內的所有變化都包含在其範圍內。

1010、1110、1120、1130‧‧‧步驟

Claims

一種用於視訊編碼器或解碼器的視訊編解碼方法，其中，該方法包括：在編碼器側接收輸入資料或在解碼器側接收視訊位元流，其中該輸入資料包括視訊序列中的一個或複數個圖像，或者該視訊位元流包括與該視訊序列中的該一個或複數個圖像相關聯的壓縮資料，以及其中每個圖像包括一個或複數個顏色分量；為該一個或複數個圖像的一個或複數個塊導出殘差資料，預測資料，重建資料，濾波重建資料或其組合；以及使用神經網絡處理目標訊號，其中提供給神經網絡的輸入的目標訊號對應於殘差資料，預測資料，重建資料，濾波重建資料或其組合，並且其中該神經網絡的輸入或神經網絡的輸出包括兩個或更多個顏色分量；其中提供給該神經網絡的輸入進行上采樣或者下采樣。
如請求項1所述之方法，其中，該兩個或更多個顏色分量對應於兩個色度分量。
如請求項1所述之方法，其中，該神經網絡被設計用於處理亮度分量，並且該神經網絡的輸入包括該亮度分量的一個或複數個塊以及色度分量對應的一個或複數個塊。
如請求項3所述之方法，其中，對該色度分量進行上採樣以匹配該亮度分量的採樣率。
如請求項1所述之方法，其中，該兩個或更多個顏色分量對應於一個亮度分量和兩個色度分量。
如請求項1所述之方法，其中，該神經網絡被指定用於處理色度分量，並且該神經網絡的輸入包括色度分量的一個或複數個塊以及亮度分量對應的一個或複數個塊。
如請求項6所述之方法，其中，對該亮度分量進行下採樣以匹配該色度分量的採樣率。
如請求項1所述之方法，其中，該神經網絡對應於卷積神經網絡，深度全連接前饋神經網絡，遞歸神經網絡或生成性對抗網絡。
如請求項1所述之方法，其中，當該神經網絡的輸出包括兩個或更多個顏色分量時，啟用或禁用用於各個顏色分量的神經網絡的複數個控制標誌被組合以用於該兩個或更多顏色分量或被共享以用於所述兩個或更多顏色分量。
一種在視訊編碼器或解碼器中的用於視訊編解碼的裝置，其中，所述裝置包括一個或複數個電子器件或處理器，用於：在編碼器側接收輸入資料或在解碼器側接收視訊位元流，其中該輸入資料包括視訊序列中的一個或複數個圖像，或者該視訊位元流包括與該視訊序列中的該一個或複數個圖像相關聯的壓縮資料，以及其中每個圖像包括一個或複數個顏色分量；為該一個或複數個圖像的一個或複數個塊導出殘差資料，預測資料，重建資料，濾波重建資料或其組合；以及使用神經網絡處理目標訊號，其中提供給神經網絡的輸入的目標訊號對應於殘差資料，預測資料，重建資料，濾波重建資料或其組合，並且其中該神經網絡的輸入或神經網絡的輸出包括兩個或更多個顏色分量；其中提供給該神經網絡的輸入進行上采樣或者下采樣。
一種用於視訊編碼器或解碼器的視訊編解碼方法，其中，該方法包括：在編碼器側接收輸入資料或在解碼器側接收視訊位元流，其中輸入資料包括視訊序列中的一個或複數個圖像，或者該視訊位元流包括與該視訊序列中的所述一個或複數個圖像相關聯的壓縮資料；為該一個或複數個圖像的一個或複數個塊導出殘差資料，預測資料，重建資料，濾波重建資料或其組合；以及使用神經網絡處理目標訊號，其中該目標訊號對應於殘差資料，預測資料，重建資料，濾波重建資料或其組合，並且其中該一個或複數個圖像的該一個或複數個塊的至少一個被用於導出複數個子塊，並且提供該複數個子塊作為該神經網絡的輸入。
如請求項11所述之方法，其中，將子採樣應用於該一個或複數個圖像的該一個或複數個塊中的至少一個以導出該複數個子塊，並且該複數個子塊對應於與該子採樣相關聯的複數個不同相位。
如請求項11所述之方法，其中，該神經網絡對應於卷積神經網絡，深度全連接前饋神經網絡，遞歸神經網絡或生成性對抗網絡。
如請求項11所述之方法，其中，該神經網絡被設計用於處理亮度分量，並且該神經網絡的輸入包括與該亮度分量相關聯的資料和與色度分量相關聯的對應資料。
如請求項14所述之方法，其中，對該色度分量進行上採樣以匹配該亮度分量的採樣率。
如請求項14所述之方法，其中，用於導出該複數個子塊的該一個或複數個塊中的該至少一個塊對應於所述亮度分量。
如請求項16所述之方法，其中，該神經網絡的輸出包括該亮度分量的複數個輸出子塊。
如請求項11所述之方法，其中，該神經網絡被設計用於處理多於一個分量，該神經網絡的輸入包括與亮度分量相關聯的資料和與色度分量相關聯的對應資料，該一個或複數個塊的至少一個被用於導出對應於該亮度分量的複數個子塊，以及該神經網絡的輸出包括該亮度分量的複數個輸出子塊和該色度分量的一個或複數個輸出塊。
如請求項11所述之方法，其中，該神經網絡被設計用於處理該色度分量，並且該神經網絡的輸入包括色度分量的一個或複數個塊以及亮度分量的對應的一個或複數個塊。
如請求項19所述之方法，其中，對該亮度分量進行下採樣以匹配該色度分量的採樣率。
如請求項11所述之方法，其中，神經網絡的輸入包括選自一個組的第一類型訊號和第二類型訊號，該組包括殘差資料、預測資料、重建資料和濾波重建資料，以及其中該第一類型訊號和該第二類型訊號的該一個或複數個塊被用於導出該複數個子塊。
如請求項11所述之方法，其中，該神經網絡的輸入包括選自一個組的第一類型訊號和第二類型訊號的一個或複數個塊，該組包括殘差資料、預測資料、重建資料和濾波重建資料，以及其中該第一類型訊號或該第二類型訊號的該一個或複數個塊被使用以導出複數個子塊。
一種在視訊編碼器或解碼器中的視訊編解碼裝置，其中，所述裝置包括一個或複數個電子器件或處理器，被佈置成：在編碼器側接收輸入資料或在解碼器側接收視訊位元流，其中輸入資料包括視訊序列中的一個或複數個圖像，或者該視訊位元流包括與該視訊序列中的所述一個或複數個圖像相關聯的壓縮資料；為該一個或複數個圖像的一個或複數個塊導出殘差資料，預測資料，重建資料，濾波重建資料或其組合；以及使用神經網絡處理目標訊號，其中目標訊號對應於殘差資料，預測資料，重建資料，濾波重建資料或其組合，並且其中所述一個或複數個圖像的所述一個或複數個塊的至少一個被用於導出複數個子塊，並且提供複數個子塊作為該神經網絡的輸入。