TWI779161B - 用於視訊編解碼的分組類神經網路的方法以及裝置 - Google Patents

用於視訊編解碼的分組類神經網路的方法以及裝置 Download PDF

Info

Publication number
TWI779161B
TWI779161B TW108102947A TW108102947A TWI779161B TW I779161 B TWI779161 B TW I779161B TW 108102947 A TW108102947 A TW 108102947A TW 108102947 A TW108102947 A TW 108102947A TW I779161 B TWI779161 B TW I779161B
Authority
TW
Taiwan
Prior art keywords
processing
neural network
input
group
layer
Prior art date
Application number
TW108102947A
Other languages
English (en)
Other versions
TW201941117A (zh
Inventor
陳慶曄
莊子德
黃毓文
揚 柯
Original Assignee
聯發科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 聯發科技股份有限公司 filed Critical 聯發科技股份有限公司
Publication of TW201941117A publication Critical patent/TW201941117A/zh
Application granted granted Critical
Publication of TWI779161B publication Critical patent/TWI779161B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/439Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation using cascaded computational arrangements for performing a single operation, e.g. filtering

Abstract

公開了一種使用分組類神經網路(NN)處理的訊號處理的方法以及裝置。用於NN處理的一當前層的複數個輸入訊號被分組成複數個輸入組,該等輸入組包括一第一輸入組以及一第二輸入組。用於該當前層的該類神經網路處理被分成複數個NN處理,該等NN處理包括一第一NN處理以及一第二NN處理。分別將該第一NN處理以及該第二NN處理應用於該第一輸入組以及該第二輸入組來生成用於NN處理的該當前層的一第一輸出組以及一第二輸出組。在另一方法中,使用不同的碼類型對於NN處理的一層有關的參數集進行編碼。

Description

用於視訊編解碼的分組類神經網路的方法以及裝置
本發明一般涉及類神經網路(Neural Network)。特別地,本發明涉及藉由將到類神經網路給定層的複數個輸入分組成複數個輸入組來降低類神經網路(NN)處理的複雜性。
類神經網路(NN),也稱為“人工(Artificial)”類神經網路(ANN),是一種具有與生物類神經網路(biological neural network)相同的某些性能特徵的資訊處理系統。類神經網路系統由許多簡單且高度互連的處理元件組成,以藉由它們對外部輸入的動態回應來處理資訊。處理元件可以被認為是人腦中的神經元(neuron),其中每一感知器(perceptron)接受複數個輸入並計算輸入的加權和。在類神經網路領域,感知器被認為是生物神經元(biological neuron)的數學模型。此外,這些互連的處理元件通常在層(layer)中進行組織。對於識別應用,外部輸入可以對應於呈現給網路的模式(patterns),該網路與一或複數個中間層(middle layer)通信,該中間層也稱為“隱藏層(hidden layer)”,在其中經由加權“連接”的系統完成實際處理。
人工類神經網路可以使用不同的架構來指定類神經網路涉及的變數及其拓撲關係(topological relationship)。例如,類神經網路中涉及的變數 (variable)可以是神經元之間連接的權重,以及神經元的活動。前饋網路(feed-forward network)是一種類神經網路拓撲,其中每一層中的節點被饋送到下一階段以及在相同層的節點之間存在有連接。大多數ANN包括某種形式的“學習規則”,其根據所呈現的輸入模式來修改連接的權重。在某種意義上,ANN和它們的生物對應物一樣,都是從算例中學習。反向傳播(backward propagation)類神經網路是更加高級的類神經網路,其允許權重調整的反向誤差傳播(backward error propagation)。因此,反向傳播類神經網路能夠藉由使回饋到類神經網路的誤差最小化來改善性能。
NN可以是深度類神經網路(deep neural network,簡稱DNN)、卷積類神經網路(convolutional neural network,簡稱CNN)、遞迴類神經網路(recurrent neural network,簡稱RNN)或者其他NN變化。深度多層類神經網路或深度類神經網路(DNN)對應於具有允許它們緊密地表示高度非線性以及高度變化函數的多級互連節點的類神經網路。然而,DNN的計算複雜度隨著與大量層相關聯的節點的數量而迅速增長。
CNN是一類前饋人工類神經網路,最常用於分析視覺圖像(visual imagery)。遞迴類神經網路(RNN)是一類人工類神經網路,其中節點之間的連接沿著序列形成有向圖(directed graph)。與前饋類神經網路不同,RNN可以使用它們的內部狀態(記憶)來處理輸入序列。RNN可以在它們中具有環路以便允許資訊持續。RNN允許對向量序列(例如輸入、輸出或兩者中的序列)進行操作。
高效視訊編解碼(HEVC)標準是在ITU-T視訊編解碼專家組(VCEG)以及ISO/IEC移動圖像專家組(MEPG)標準化組織的聯合視訊專案下開發的,特別是與稱為視訊編解碼聯合協作小組(JCT-VC)的合作。
在HEVC中,一個切片被拆分成複數個編碼樹單元(coding tree units,簡稱CTU)。CTU進一步被拆分成複數個編碼單元(coding units,簡稱CU) 來適應各種局部特性。HEVC支援複數個幀內預測模式,並且對於幀內編碼的CU,發信所選擇的幀內預測模式。除了編碼單元的概念,HEVC中還引入了預測單元(prediction unit,簡稱PU)的概念。一旦完成了CU分層樹的拆分,根據預測類型以及PU分區(partition),每一葉CU被進一步拆分成一或複數個預測單元(PU)。在預測後,與CU有關的殘差被分成用於轉換處理的複數個轉換塊,稱為轉換單元(transform unit)。
第1A圖示出了基於HEVC的示例性適應性幀內/幀間視訊編碼器。當使用幀間模式時,幀內/幀間預測單元110基於運動估計(Motion Estimation,簡稱ME)/運動補償(Motion Compensation,簡稱MC)生成幀間預測。當使用幀內模式時,幀內/幀間預測單元110生成幀內預測。幀內/幀間預測資料(即,幀內/幀間預測訊號)被提供給減法器116,藉由從與輸入圖像有關的訊號減去幀內/幀間預測訊號來形成預測誤差,也稱為殘差。本發明中生成幀內/幀間預測資料的處理也稱為預測處理。然後預測誤差(即,殘差)由轉換(T)處理,緊接著由量化(Q)處理(T+Q,120)。轉換的及量化的殘差隨後由熵編碼單元122進行編碼以被包括於對應於壓縮的視訊資料的視訊位元流中。與轉換係數有關的位元流隨後如運動、編碼模式的邊資訊以及與圖像區域有關的其他資訊一起打包。邊資訊也由熵編碼進行壓縮來減少所需要的頻寬(bandwidth)。因為重構圖像也可以用作為幀間預測的參考圖像,所以也需要在編碼器端重構一或複數個參考圖像。因此,由逆量化(IQ)以及逆轉換(IT)(IQ+IT,124)對轉換及量化的殘差進行處理來恢復殘差。然後,重構的殘差在重構單元(REC)128被添加回幀內/幀間預測資料來重構視訊資料。本發明中將重構殘差添加到幀內/幀間預測訊號的處理也稱為重構處理。來自於重構處理的輸出圖像也稱為重構圖像。為了減少重構圖像中的偽影(artefacts),使用了包括去塊濾波器(Deblocking Filter,簡稱DF)130以及取樣適應性偏移(Sample Adaptive Offset,簡稱SAO)132的環路濾波 器。在本發明中在所有濾波處理輸出端的已濾波的重構圖像也稱為解碼圖像。解碼圖像存儲於幀緩衝器140中並用於其他幀的預測。
第1B圖示出了基於HEVC的示例性適應性幀內/幀間視訊解碼器。因為編碼器還包括用於重構視訊資料的局部解碼器,除了熵解碼器,在編碼器已經使用了一些解碼器元件。在解碼器側,熵解碼單元160用於從位元流恢復編碼的符號或語法。本發明中從輸入位元流生成重構殘差的處理被稱為殘差解碼處理。用於生成幀內/幀間預測的預測處理也應用於解碼器側,然而,因為幀間預測僅需要使用從位元流匯出的運動資訊執行運動補償,幀內/幀間預測單元150不同於編碼器側的幀內/幀間預測單元。此外,加法器114用於將重構殘差添加到幀內/幀間預測資料。
在HEVC標準的開發過程中,還公開了另一種環路濾波器(in-loop filter),稱為適應性環路濾波器(Adaptive Loop Filter,簡稱ALF),但並未被採用到主要標準中。ALF可以用於進一步提高視訊品質。例如,如第2A圖的編碼器側以及第2B圖的解碼器側所示,可以在SAO 132後使用ALF 210並將來自ALF 210的輸出存儲於幀緩衝器140。對於解碼器側,來自ALF 210的輸出也可以用作為用於顯示或其他處理的解碼器輸出。在本發明中,去塊濾波器、SAO以及ALF也稱為濾波處理。
在不同的圖像修復(image restoration)以及處理方法中,基於類神經網路的方法是近些年來很有希望的一種方法,如深度類神經網路(DNN)以及卷積類神經網路(CNN)的方法。它已經被應用於各種影像處理應用,例如圖像去燥(image de-nosing)、圖像超解析度等等,以及它已經證明DNN或CNN相比於傳統的影像處理方法可以實現更好的性能。因此,在下文中,我們建議在一個視訊編解碼系統中使用CNN作為一種圖像修復處理方法來提高主觀品質或編碼效率。期望利用NN作為視訊編解碼系統中的圖像修復方法,來提高如高效視訊 編碼(HEVC)之類新的視訊編解碼標準的主體品質或編解解效率。此外,NN需要相當大的計算複雜度,還期望減少NN的計算複雜度。
公開了一種使用分組類神經網路(NN)處理的訊號處理方法及裝置,其中該類神經網路處理包括NN處理的一或複數個層。根據這一方法,將NN處理的一當前層的複數個輸入訊號作為包括用於NN處理的該當前層的一第一輸入組以及一第二輸入組的複數個輸入組。將用於NN處理的該當前層的該類神經網路處理作為包括用於NN處理的該當前層的一第一NN處理以及一第二NN處理的複數個NN處理。分別將該第一NN處理以及該第二NN處理應用於該第一輸入組以及該第二輸入組來生成NN處理的一第一輸出組以及一第二輸出組。提供包括該第一輸出組以及該第二輸出組的一輸出組作為用於NN處理的該當前層的輸出。
提供給該類神經網路處理的一初始層的複數個初始輸入訊號可以對應於一視訊編碼器或視訊解碼器中視訊訊號處理流的一路徑中的一目標視訊訊號。例如,該目標視訊訊號可以對應於從重構(REC)、去塊濾波器(DF)、取樣適應性濾波(SAO)、適應性環路濾波(ALF)輸出的一經處理的訊號。
該方法進一步包括將該類神經網路處理作為用於NN處理的一下一層的複數個NN處理,該等NN處理包括用於NN處理的該下一層的一第一NN處理以及一第二NN處理,以及分別提供用於NN處理的該當前層的該第一輸出組以及該第二輸出組作為用於NN處理的該下一層的一第一輸入組以及一第二輸入組到用於NN處理的該下一層的該第一NN處理以及該第二NN處理,而不混合用於NN處理的該當前層的該第一輸出組以及該第二輸出組。在另一個實施例中,可以混合用於NN處理的該當前層的該第一輸出組以及該第二輸 出組。在又一實施例中,對於NN處理的至少一個層,用於NN處理的該至少一個層的複數個輸入訊號由NN處理的該至少一個層處理為非分割網路,而不將NN處理的該至少一個層作為複數個NN處理。
公開了一種發信與類神經網路(NN)訊號處理有關的參數集的方法以及裝置。根據這一方法,藉由使用一第一碼映射與該類神經網路處理的一當前層有關的一第一部分參數集以及使用一第二碼映射與該類神經網路處理的一當前層有關的一第二部分參數集,來使用至少兩個碼類型映射與該類神經網路處理的該當前層有關的該參數集。使用與該類神經網路處理的該當前層有關的該參數集將該類神經網路處理的該當前層應用於該類神經網路處理的該當前層的複數個輸入訊號,該參數集包括與該類神經網路處理的該當前層有關的該第一部分參數集以及與該類神經網路處理的該當前層有關的該第二部分參數集。
使用這一方法的系統可以對應於一視訊編碼器或一視訊解碼器。這樣,提供給該類神經網路處理的一初始層的初始輸入訊號可以對應於該視訊編碼器或該視訊解碼器中視訊訊號處理流的一路徑中的一目標視訊訊號。當該初始輸入訊號對應於環路濾波訊號時,在序列級、圖像級或切片級發信該參數集。當該初始輸入訊號對應於後濾波器訊號時,發信該參數集作為補充增強資訊(supplement enhancement information,SEI)消息。該目標視訊訊號可以對應於從重構(REC)、去塊濾波器(DF)、取樣適應性濾波(SAO)或適應性環路濾波(ALF)中輸出的一經處理的訊號。
當該系統對應於一視訊編碼器時,該映射與該類神經網路處理的該當前層有關的該參數集可以對應於使用該第一碼以及該第二碼將與該類神經網路處理的該當前層有關的該參數集編碼成編碼的資料。當該系統對應於一視訊解碼器時,該映射與該類神經網路處理的該當前層有關的該參數集對應於使 用該第一碼以及該第二碼從該編碼的資料中解碼與該類神經網路處理的該當前層有關的該參數集。
與該類神經網路處理的該當前層有關的該第一部分參數集對應於與該類神經網路處理的該當前層有關的複數個權重,以及與該類神經網路處理的該當前層有關的該第二部分參數集對應於與該類神經網路處理的該當前層有關的複數個偏移。在這種情況下,該第一碼可以對應於一可變長度碼。此外,該可變長度碼可以對應於霍夫曼碼或n階指數哥倫布碼(EGn)並且n是大於或等於0的整數。對於該類神經網路處理的不同層可以使用不同的n。該第二碼可以對應於一固定長度碼。在另一實施例中,該第一碼可以對應於DPCM(差分脈衝碼調變)碼,以及其中對該等權重與該等權重中的最小值之間的差進行編碼。
在又一實施例中,可以在不同的層中使用不同的碼。例如,可以從包括複數個碼的一組中選擇該第一碼、該第二碼或兩者。由一旗標指示從包括用於該第一碼或該第二碼的複數個碼的該組中選擇的一目標碼。
110、150:幀內/幀間預測單元
114:加法器
116:減法器
120:轉換及量化
122:熵編碼單元
124:逆量化及逆轉換
128:重構單元
130:去塊濾波器
132:取樣適應性偏移
140:幀緩衝器
160:熵解碼單元
210:適應性環路濾波器
310:類神經網路
410~440:層
510~542:組
610~642:組
630a、632a:L2組A的(N/2)輸入
630b、632b:L2組B的(N/2)輸入
710~750、810~820:步驟
第1A圖示出了基於高效視訊編解碼(HEVC)標準的示例性適應性幀內/幀間編碼器。
第1B圖示出了基於高效視訊編解碼(HEVC)標準的示例性適應性幀內/幀間解碼器。
第2A圖示出了類似於第1A圖中的適應性幀內/幀間視訊編碼器,其具有額外ALF處理。
第2B圖示出了類似於第1B圖中的適應性幀內/幀間視訊解碼器,其具有額外ALF處理。
第3圖示出了將類神經網路應用於重構的訊號的示例,其中NN的輸入是 來自重構模組(REC)的重構像素以及NN的輸出是NN-濾波重構的像素。
第4圖示出了傳統類神經網路處理的示例,其中先前層中所有通道的輸出被用作為當前層中所有濾波器的輸入而不分組。
第5圖示出了根據本發明實施例的分組類神經網路處理的示例,其中L1之前的先前層的輸出被分成兩組以及類神經網路處理的當前層也被分成兩組。在這一實施例中,將L1組A以及L1組B的輸出分別用作為L2組A以及L2組B的輸入而沒有混合。
第6圖示出了根據本發明另一個實施例的分組類神經網路處理的示例,其中L1之前的先前層的輸出被分成兩組以及類神經網路處理的當前層也被分成兩組。在本實施例中,L1組A以及L1組B的輸出可以混合以及混合的輸出可以用作L2組A以及L2組B的輸入。
第7圖示出了根據本發明實施例的用於系統的分組類神經網路(NN)處理的示例性流程圖。
第8圖示出了根據本發明另一實施例的對於NN處理相關的參數集具有不同代碼類型的系統中類神經網路(NN)處理的示例性流程圖。
後文的描述是實施本發明的最佳設想的方式。所作之描述是為了說明本發明的基本原理以及不應對此作限制性理解。本發明的範圍由參考所申請專利範圍最佳確定。
當NN應用於視訊編解碼系統時,NN可以應用於沿著訊號處理路徑的各種訊號。第3圖示出了將NN 310應用於重構訊號的示例。在第3圖中,NN 310的輸入是來自REC 128的重構像素。NN的輸出是經NN濾波的重構像素,其可以由去塊濾波器(即,DF130)進一步處理。第3圖是視訊編碼器中應用NN 310的示例,然而,NN 310可以以類似的方法應用在對應的視訊解碼器中。 CNN可以由其他NN變化所替代,例如,DNN(深度全連接前饋類神經網路)、RNN(遞迴類神經網路)或GAN(generative adversarial network,生成對抗網路)。
在本發明中,公開了一種在視訊編解碼系統中利用CNN作為一種圖像修復方法的方法。例如,CNN可以應用於如第2A以及2B圖所示的視訊編碼器以及解碼器中的ALF輸出圖像來生成最終解碼圖像。或者,可以使用或不使用如第1A-B圖以及第2A-B圖所示的視訊編碼系統中其他修復方法來在SAO、DF或REC後直接應用CNN。在另一個實施例中,CNN可以用於直接恢復量化誤差或者僅提高預測子品質。在前者的方式中,在逆量化以及轉換後應用CNN來恢復重構的殘差。在後者的方式中,CNN被應用於由幀間或幀內預測生成的預測子上。在另一個實施例中,CNN被應用於ALF輸出圖像作為後環路濾波。
為了減少CNN的計算複雜度,尤其在視訊編解碼系統中是有效的,本發明公開了分組技術。傳統上,CNN的網路設計類似於全連接網路。如第4圖所示,先前層的所有通道的輸出被用作為當前層中所有濾波器的輸入。在第4圖中,L1 410的輸入以及L2 430的輸入分別等於在L1 420以及L2 440之前的先前層的輸出。因此,如果在L1 420以及L2 440之前的先前層的濾波器的數量分別等於M以及N,那麼對於L1以及L2中的每一濾波器,L1以及L2中輸入通道的數量是M以及N。如果先前層中輸出的數量(即,到當前層的輸入的數量)是M,當前層中輸出的數量是N,在水平以及垂直方向上的濾波器抽頭長度分別是h以及w,那麼當前層的計算複雜度與h×w×M×N成比例。
為了減少複雜度,在CNN的網路設計中引入了分組技術。第5圖示出了根據本發明一個實施例的用於分組的CNN的網路設計的示例。在本示例中,L1之前的先前層的輸出被分成或被作為兩個組,L1通道組A 510以及L1通道組B 512。卷積處理被分成或被作為兩個獨立的處理,即,用L1濾波器 卷積的組A 520以及用L1濾波器卷積的組B 522。下一層(即,L2)也被分成或作為兩個對應的組(530/532以及540/542)。然而,在本設計中,兩組之間沒有交換。這可能造成性能損失。在一個示例中,M個輸入被拆分成由(M/2)與(M/2)個輸入組成的兩個組,以及N個輸出也被拆分成由(N/2)與(N/2)個輸出組成的兩個組。在這種情況下,當前層的計算複雜度與1/2×(h×w×M×N)成比例。
為了減少性能損失,公開了本發明的另一種網路設計,如第6圖所示,CNN組的處理可以混合。L1之前的先前層的輸出可以被分成或作為兩個組,L1通道組A 610以及L1通道組B 612。卷積處理被分成或被作為是獨立的處理,即用L1濾波器卷積的組A 620以及用L1濾波器卷積的組B 622。下一層(即,L2)也被分割或作為兩個對應的組(630/632以及640/642)。在這一示例中,如第6圖所示,L1組A以及L1組B的輸出可以混合,並且混合的輸出可以用作為L2組A以及L2組B的輸入。
在一個示例中,M個輸入被分成由(M/2)與(M/2)個輸入組成的兩組,以及N個輸出也被分成由(N/2)與(N/2)組成的兩組。例如,可以藉由取L1組A 620的(N/2)輸出的一部分以及L1組B 622的(N/2)輸出的一部分來形成L2組A的(N/2)輸入(即,630a以及632a的組合),以及取L1組A的(N/2)輸出的剩餘部分以及L1組B的(N/2)輸出的剩餘部分來形成L2組B的(N/2)輸入(即,630b以及632b的組合)。因此,至少L1組A的輸出的至少一部分被交叉到L2組B中(如630b的方向所示)。另外,L1組B的輸出的至少一部分被交叉到L2組A的輸入中(如632a的方向所示)。在這種情況中,當前層的計算複雜度與1/2×(h×w×M×N)成比例,其與沒有混合L1組A以及L1組B的輸出的情況相同。然而,因為組A以及組B之間有一些交互,可以減少性能損失。
上述公開的分組方法或者具有混合的分組方法可以與傳統設計結合。例如,分組技術可以應用於偶數層以及傳統設計(即,沒有分組)可以應用 於奇數層。在另一個示例中,可以將具有混合技術的分組應用於層索引被3取餘數後等於1和2的那些層,以及可以將傳統設計應用於層索引被3取餘數後等於0的那些層。
當CNN被應用於視訊編解碼時,CNN的參數集可以被發信到解碼器以致解碼器可以應用相應的CNN來實現更好的性能。如本領域所公知的,參數集可以包括所連接網路的權重與偏移以及濾波器資訊。如果CNN被用作為環路濾波,那麼可以在序列級、圖像級或切片級發信參數集。如果CNN用作為後環路濾波,則可以發信該參數集作為補充增強資訊(supplement enhancement information,簡稱SEI)消息。上述提到的序列級、圖像級或切片級對應於不同的視訊資料結構。
CNN參數集中的參數可以被分成兩組,如權重與偏移。對於不同的組,可以使用不同的編解碼方法對值進行編解碼。在一個實施例中,可變長度碼(variable-length code,簡稱VLC)可以被應用於權重以及固定長度碼(fixed-length code,簡稱FLC)可以用於對偏移進行編碼。在另一個實施例中,可變長度碼表以及固定長度碼中的比特數對於不同層可以變化。例如,對於第一層,固定長度碼的比特數可以是8個比特;以及在下面的層中,固定長度碼的比特數僅是6個比特。在另一個示例中,對於第一層,EG-0(即,0階指數哥倫布)碼可以用作為可變長度碼以及EG-5(即,5階指數哥倫布)碼可以用作為其他層的可變長度碼。雖然舉例提出了特定的0階以及5階指數哥倫布碼,也可以使用任何n階指數哥倫布,其中n是大於或等於0的整數。
在另一個實施例中,除了可變長度碼以及固定長度碼外,DPCM(differential pulse coded modulation,差分脈衝碼調變)可以用於進一步減少編碼資訊。在這一方法中,首先確定將要被編碼的係數中的最小值以及最大值。基於最小值以及最大值之間的差,確定用於對將要被編碼的係數與最小值之間 的差進行編碼的比特數。首先發信最小值以及用於對差進行編碼的比特數,緊接著發信用於每一將要被編碼係數的將要被編碼係數與最小值之間的差。例如,將要被編碼的係數是{20,21,18,19,20,21}。當使用固定長度碼時,這些參數將需要5個比特的固定長度碼以用於每一係數。當使用DPCM時,首先確定這6個係數中的最小值(18)以及最大值(21)。因為差的範圍在0與3之間,對最小值(18)以及最大值(21)之間的差進行編碼所需要的比特數目僅是2。因此,可以藉由使用5個比特的固定長度碼發信最小值(18)。藉由使用3個比特的固定長度碼發信對最小值(18)與最大值(21)之間的差進行編碼所需要的比特的數目。可以使用2個比特發信將要編碼的係數與最小值之間的差{2,3,0,1,2,3}。因此,總比特可以從30個比特=6(即將要編碼的係數的數目)×5個比特減少到20個比特=(5個比特+3個比特+6×2個比特)。固定長度碼可以變為截斷二進制碼(truncated binary code)、可變長度碼、霍夫曼碼(Huffman code)等等。
可以選擇不同的編碼方法並一起使用。例如,可以同時支援DPCM以及固定長度碼,並且對一個旗標進行編碼來指示在後續編碼的比特中使用了哪種方法。
CNN可以應用於各種圖像應用中,例如圖像分類、面部檢測、目標檢測等等。當需要CNN參數壓縮來減少存儲需求時,可以應用上述方法。在這種情況中,這些壓縮的CNN參數將存儲在一些記憶體或設備中,例如固態磁碟(SSD)、硬碟驅動磁碟(HDD)、記憶棒等。這些壓縮的參數將被解碼並饋送到CNN網路以僅在執行CNN處理時執行CNN處理。
第7圖示出了根據本發明一個實施例的系統的分組類神經網路(NN)處理的示例性流程圖。在流程圖中示出的步驟可以實施為可在一或複數個處理器(如一或複數個CPU)、編碼器側、解碼器側或能執行程式碼的任何其他硬體或軟體元件上的可執行的程式碼。流程圖中示出的步驟也可以實施為硬體, 如被佈置成執行流程圖中步驟的一或複數個電子設備或處理器。在步驟710中,該方法將用於NN處理的一當前層的複數個的輸入訊號作為複數個輸入組,該等輸入組包括用於NN處理的該當前層的第一輸入組以及第二輸入組。在步驟720中,將用於NN處理的該當前層的該類神經網路處理作為複數個NN處理,該等NN處理包括用於NN處理的該當前層的一第一NN處理以及一第二NN處理。在步驟730中,將該第一NN處理應用於該第一輸入組來生成用於NN處理的該當前層的一第一輸出組。在步驟740,將該第二NN處理應用於該第二輸入組來生成用於NN處理的該當前層的一第二輸出組。在步驟750中,提供一輸出組作為NN處理的該當前層的當前輸出,該輸出組包括用於NN處理的該當前層的該第一輸出組以及該第二輸出組。
第8圖示出了根據本發明另一個實施例的系統中的類神經網路處理的示例性流程圖,該系統對於與NN處理有關的參數集具有不同的碼類型。根據這一方法,在步驟810中,藉由使用一第一碼映射與類神經網路處理的當前層有關的一第一部分參數集以及使用一第二碼映射與該類神經網路處理的該當前層有關的一第二部分參數集,以使用至少兩個碼類型來映射與該類神經網路處理的該當前層有關的參數集。在步驟820中,使用與該類神經網路處理的該當前層有關的該參數集將該類神經網路處理的該當前層應用於該類神經網路處理的該當前層的輸入訊號,該參數集包括與該類神經網路處理的該當前層有關的該第一部分參數集以及與該類神經網路處理的該當前層有關的該第二部分參數集。
所示的流程圖旨在說明根據本發明的視訊編碼的示例。本領域技術人員可以在不背離本發明的精神的情況下,修改每一步驟、重新排列步驟、拆分步驟或組合步驟來實現本發明。在本公開中,使用特定的語法以及語義來說明實施本發明實施例的示例。本領域技術人員可以在不背離本發明的精神的 情況下,藉由用等同的語法以及語義替換該語法以及語義來實施本發明。
上述所給出的描述能夠使本領域技術人員如在特定應用及其需求的上下文所提供的來實施本發明。所描述實施例的各種修改對本領域技術人員將是顯而易見的,以及此處定義的一般原理可以應用於其他實施例。因此,本發明不旨在限制於所示出以及所描述的特定實施例,而是應符合與此處描述的原理以及新穎特徵一致的最寬範圍。在上述的細節描述中,示出了各種特定的細節來提供本發明的透徹理解,然而,本領域技術人員將能夠理解,可以實施本發明。
上述描述的本發明的實施例可以以各種硬體、軟體代碼及其兩者的組合實施。例如,本發明的實施例可以是整合到視訊壓縮晶片的一或複數個電子電路或者整合到視訊壓縮軟體的程式碼來執行本文所描述的處理。本發明實施例也可以是在數位訊號處理器(DSP)上執行的程式碼來執行本發明所描述的處理。本發明也可以涉及由電腦處理器、數位訊號處理器、微處理器或現場可程式閘陣列(FPGA)執行的複數個功能。這些處理器可以配置於執行根據本發明的特定任務,藉由執行定義由本發明實施的特定方法的機器可讀軟體代碼或固件代碼。該軟體代碼或固件代碼可以以不同的程式語言以及不同的格式或風格開發。還可以針對不同的目標平臺編譯軟體代碼。然而,軟體代碼的不同的代碼格式、風格及語言以及配置代碼執行與本發明一致的特定任務的其他方法將不背離本發明的精神以及範圍。
本發明可以以其他特定形式實施而不背離其精神或基本特徵。所描述的示例在所有方面被認為僅是示例性而非限制性的。因此,本發明的範圍由所附申請專利範圍而非前述的描述所指示。在申請專利範圍的等同意義以及範圍內的所有變化都包括在它們的範圍內。
510~542‧‧‧組

Claims (7)

  1. 一種使用類神經網路處理的訊號處理的方法,其中該類神經網路處理包括類神經網路處理的一或複數個層,該方法包括:將用於類神經網路處理的一當前層的複數個輸入訊號作為複數個輸入組,該等輸入組包括用於類神經網路處理的該當前層的一第一輸入組以及一第二輸入組;其中提供給該類神經網路處理的該當前層的複數個輸入組被拆分成該第一輸入組與該第二輸入組,其中該第一輸入組對應於該當前層的複數個輸入訊號之一部分,與該第二輸入組對應於該當前層的複數個輸入訊號之另一部分;將用於類神經網路處理的該當前層的類神經網路處理作為複數個類神經網路處理,該等類神經網路處理包括用於類神經網路處理的該當前層的一第一類神經網路處理以及一第二類神經網路處理;將該第一類神經網路處理應用於該第一輸入組來生成用於類神經網路處理的該當前層的一第一輸出組;將該第二類神經網路處理應用於該第二輸入組來生成用於類神經網路處理的該當前層的一第二輸出組;以及提供一輸出組作為用於類神經網路處理的該當前層的當前輸出,該輸出組包括用於類神經網路處理的該當前層的該第一輸出組以及該第二輸出組。
  2. 如申請專利範圍第1項所述之使用類神經網路處理的訊號處理的方法,其中提供給該類神經網路處理的一初始層的複數個初始輸入訊號對應於一視訊編碼器或一視訊解碼器中視訊訊號處理流的一路徑中的一目標視訊訊號。
  3. 如申請專利範圍第2項所述之使用類神經網路處理的訊號處理的方法,其中該目標視訊訊號對應於從重構、去塊濾波器、取樣適應性偏移或 適應性環路濾波輸出的一經處理的訊號。
  4. 如申請專利範圍第1項所述之使用類神經網路處理的訊號處理的方法,其中進一步包括將該類神經網路處理作為包括用於類神經網路處理的一下一層的一第一類神經網路處理以及一第二類神經網路處理的用於類神經網路處理的該下一層的複數個類神經網路處理;以及分別提供用於類神經網路處理的該當前層的該第一輸出組以及該第二輸出組作為用於類神經網路處理的該下一層的一第一輸入組以及一第二輸入組到用於類神經網路處理的該下一層的該第一類神經網路處理以及該第二類神經網路處理,而不混合用於類神經網路處理的該當前層的該第一輸出組以及該第二輸出組。
  5. 如申請專利範圍第1項所述之使用類神經網路處理的訊號處理的方法,其中進一步包括將該類神經網路處理作為包括用於類神經網路處理的一下一層的一第一類神經網路處理以及一第二類神經網路處理的用於類神經網路處理的該下一層的複數個類神經網路處理;以及分別提供用於類神經網路處理的該當前層的該第一輸出組以及該第二輸出組作為用於類神經網路處理的該下一層的一第一輸入組以及一第二輸入組到用於類神經網路處理的該下一層的該第一類神經網路處理以及該第二類神經網路處理;以及其中至少一部分用於類神經網路處理的該當前層的該第一輸入組交叉到用於類神經網路處理的該下一層的該第二輸入組,或者至少一部分用於類神經網路處理的該當前層的該第二輸入組交叉到用於類神經網路處理的該下一層的第一輸入組。
  6. 如申請專利範圍第1項所述之使用類神經網路處理的訊號處理的方法,其中對於類神經網路處理的至少一個層,藉由該類神經網路處理的至少一個層將用於該類神經網路處理的至少一個層的複數個輸入訊號處理為一非分割網路,而不將該類神經網路處理的至少一個層作為複數個類神經網路處理。
  7. 一種用於類神經網路處理的裝置,使用類神經網路處理的一或複數個層,該裝置包括一或複數個電子裝置或處理器用於:將用於類神經網路處理的一當前層的複數個輸入訊號作為複數個輸入組,該等輸入組包括用於類神經網路處理的該當前組的一第一輸入組以及一第二輸入組;其中提供給該類神經網路處理的該當前層的複數個輸入組被拆分成該第一輸入組與該第二輸入組,其中該第一輸入組對應於該當前層的複數個輸入訊號之一部分,與該第二輸入組對應於該當前層的複數個輸入訊號之另一部分;將用於類神經網路處理的該當前層的該類神經網路處理作為複數個類神經網路處理,該等類神經網路處理包括用於類神經網路處理的該當前層的一第一類神經網路處理以及一第二類神經網路處理;將該第一類神經網路處理應用於該第一輸入組來生成用於類神經網路處理的該當前層的一第一輸出組;將該第二類神經網路處理應用於該第二輸入組來生成用於類神經網路處理的該當前層的一第二輸出組;以及提供一輸出組作為用於類神經網路處理的該當前層的當前輸出,該輸出組包括用於類神經網路處理的該當前層的該第一輸出組以及該第二輸出組。
TW108102947A 2018-01-26 2019-01-25 用於視訊編解碼的分組類神經網路的方法以及裝置 TWI779161B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201862622224P 2018-01-26 2018-01-26
US201862622226P 2018-01-26 2018-01-26
US62/622,226 2018-01-26
US62/622,224 2018-01-26
PCT/CN2019/072672 WO2019144865A1 (en) 2018-01-26 2019-01-22 Method and apparatus of neural networks with grouping for video coding
WOPCT/CN2019/072672 2019-01-22
??PCT/CN2019/072672 2019-01-22

Publications (2)

Publication Number Publication Date
TW201941117A TW201941117A (zh) 2019-10-16
TWI779161B true TWI779161B (zh) 2022-10-01

Family

ID=67394491

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108102947A TWI779161B (zh) 2018-01-26 2019-01-25 用於視訊編解碼的分組類神經網路的方法以及裝置

Country Status (5)

Country Link
US (1) US20210056390A1 (zh)
CN (2) CN111699686B (zh)
GB (2) GB2611192B (zh)
TW (1) TWI779161B (zh)
WO (1) WO2019144865A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102192980B1 (ko) * 2018-12-13 2020-12-18 주식회사 픽스트리 기계 학습 기반으로 파라미터를 학습하는 영상 처리 장치 및 동작 방법
CN116261736A (zh) * 2020-06-12 2023-06-13 墨芯国际有限公司 用于双稀疏卷积处理和并行化的方法和系统
CN112468826B (zh) * 2020-10-15 2021-09-24 山东大学 一种基于多层gan的vvc环路滤波方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104504395A (zh) * 2014-12-16 2015-04-08 广州中国科学院先进技术研究所 基于神经网络实现人车分类的方法和系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2464677A (en) * 2008-10-20 2010-04-28 Univ Nottingham Trent A method of analysing data by using an artificial neural network to identify relationships between the data and one or more conditions.
CN104537387A (zh) * 2014-12-16 2015-04-22 广州中国科学院先进技术研究所 利用神经网络实现车型分类的方法和系统
CN104754357B (zh) * 2015-03-24 2017-08-11 清华大学 基于卷积神经网络的帧内编码优化方法及装置
US10701394B1 (en) * 2016-11-10 2020-06-30 Twitter, Inc. Real-time video super-resolution with spatio-temporal networks and motion compensation
CN106713929B (zh) * 2017-02-16 2019-06-28 清华大学深圳研究生院 一种基于深度神经网络的视频帧间预测增强方法
CN107197260B (zh) * 2017-06-12 2019-09-13 清华大学深圳研究生院 基于卷积神经网络的视频编码后置滤波方法
US10963737B2 (en) * 2017-08-01 2021-03-30 Retina-Al Health, Inc. Systems and methods using weighted-ensemble supervised-learning for automatic detection of ophthalmic disease from images

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104504395A (zh) * 2014-12-16 2015-04-08 广州中国科学院先进技术研究所 基于神经网络实现人车分类的方法和系统

Also Published As

Publication number Publication date
GB2585517A (en) 2021-01-13
TW201941117A (zh) 2019-10-16
GB202216200D0 (en) 2022-12-14
GB202012713D0 (en) 2020-09-30
CN111699686A (zh) 2020-09-22
GB2611192A (en) 2023-03-29
GB2585517B (en) 2022-12-14
GB2611192B (en) 2023-06-14
US20210056390A1 (en) 2021-02-25
WO2019144865A1 (en) 2019-08-01
CN115002473A (zh) 2022-09-02
CN111699686B (zh) 2022-05-31

Similar Documents

Publication Publication Date Title
US20220078418A1 (en) Method and apparatus of neural network based processing in video coding
CN111133756B (zh) 用于视频编码的神经网络方法和装置
TWI729378B (zh) 視訊編解碼的神經網路方法和裝置
TWI779161B (zh) 用於視訊編解碼的分組類神經網路的方法以及裝置
CN113766249B (zh) 视频编解码中的环路滤波方法、装置、设备及存储介质
CN110740319B (zh) 视频编解码方法、装置、电子设备及存储介质
US20210400311A1 (en) Method and Apparatus of Line Buffer Reduction for Neural Network in Video Coding
US20230096567A1 (en) Hybrid neural network based end-to-end image and video coding method
CN113747179B (zh) 环路滤波实现方法、装置及计算机存储介质
KR20210139342A (ko) 필터링 방법, 장치, 인코더 및 컴퓨터 저장 매체
WO2023134731A1 (en) In-loop neural networks for video coding
CN113556567B (zh) 帧间预测的方法和装置
JP2023528180A (ja) ポストフィルタリングを伴うニューラル画像圧縮におけるブロック単位のコンテンツ適応オンライン訓練の方法、装置、およびコンピュータプログラム
JPWO2020192020A5 (zh)
CN117916743A (zh) 用于图像和视频编码的神经网络中的多层级潜在融合

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent