TW201924331A - 用於逐塊圖片編碼的幀內預測模式概念 - Google Patents

用於逐塊圖片編碼的幀內預測模式概念 Download PDF

Info

Publication number
TW201924331A
TW201924331A TW107135727A TW107135727A TW201924331A TW 201924331 A TW201924331 A TW 201924331A TW 107135727 A TW107135727 A TW 107135727A TW 107135727 A TW107135727 A TW 107135727A TW 201924331 A TW201924331 A TW 201924331A
Authority
TW
Taiwan
Prior art keywords
intra prediction
prediction modes
mode
block
current block
Prior art date
Application number
TW107135727A
Other languages
English (en)
Other versions
TWI702824B (zh
Inventor
強納森 帕法佛
Original Assignee
弗勞恩霍夫爾協會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會 filed Critical 弗勞恩霍夫爾協會
Publication of TW201924331A publication Critical patent/TW201924331A/zh
Application granted granted Critical
Publication of TWI702824B publication Critical patent/TWI702824B/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/109Selection of coding mode or of prediction mode among a plurality of temporal predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/11Selection of coding mode or of prediction mode among a plurality of spatial predictive coding modes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

根據一第一觀點,經由使一逐塊圖片編解碼器支持幀內預測模式的一集合來實現一改進的壓縮效率,據其,一圖片的一當前區塊的該幀內預測信號經由將當前區塊的相鄰樣本的一集合應用到一神經網路上來決定。本申請的一第二觀點是,附加地或替代地,基於神經網路的幀內預測模式的該開銷,經由應用相鄰樣本的一集合在其上的一專用神經網路的該使用,來決定幀內預測模式的集合的每一個的一秩或一機率值,可以使模式選擇更有效率,秩或機率值用於從多個幀內預測模式中選擇一個幀內預測模式,該多個幀內預測模式包括或者與幀內預測模式的該集合一致。

Description

用於逐塊圖片編碼的幀內預測模式概念
本申請涉及用於逐塊圖片編碼的一改進幀內預測模式概念,例如可用於一視頻編解碼器,諸如HEVC或HEVC的任何後續解碼器。
幀內預測模式廣泛被用於圖像和視頻編碼。在視頻編碼中,幀內預測模式與諸如幀間預測模式(諸如運動補償預測模式)的其他預測模式競爭。在幀內預測模式中,基於相鄰樣本來預測一當前區塊,亦即,該相鄰樣本就編碼器側而言為已經編碼的樣本,並且就解碼器側而言為已經被解碼。坦率地說,相鄰樣本值被推斷到該當前區塊中,以便形成該當前區塊的一預測信號,針對該當前區塊,其中該預測殘差在該資料流中被發送。該預測信號越好,則該預測殘差越低,因此,編碼該預測殘差需要一更少的位元數目。
為了效率,應該考慮若干觀點,以便在逐塊圖像編碼環境中形成用於幀內預測的一有效幀工作。例如,該編解碼器支持的幀內預測模式的數量越大,該輔助信息速率消耗越大,以便將該選擇以信號通知該解碼器。另一方面,所支持的幀內預測模式的該集合應該能夠提供一良好的預測信號,亦即可產生一低預測殘差的一預測信號。
本申請試圖提供一幀內預測模式概念,如果使用該改進的幀內預測模式概念,則可允許一逐塊圖片編解碼器更有效地壓縮。
該目的經由本申請的獨立請求項的主題實現。
本揭露的較佳實施例係隨後參照附圖描述。
根據本申請的一第一觀點,經由使一逐塊圖片編解碼器支持幀內預測模式的一集合,一改進的壓縮效率可被實現,據其,一圖片的一當前區塊的該幀內預測信號經由將該當前區塊的相鄰樣本的一集合應用到一神經網路上來決定。該集合可以形成完全支持的多個幀內預測模式或僅形成其適當的子集合。在該所支持的多個幀內預測模式中,一個被選擇用於該當前區塊,並且使用該一個幀內預測模式(即,所選擇的一個)來預測該當前區塊。可以向該資料流提供該當前區塊的一索引,其指示該所選擇的幀內預測模式。提供具有多於一個基於神經網路的幀內預測模式的一逐塊圖片編解碼器,在所述幀內預測模式之間對一當前區塊執行一選擇,其能夠設計這些基於神經網路的幀內預測模式,以便為具有一增加的似然性的一特定區塊找到低預測誤差的一預測信號。另外,可以以如下一方式執行該神經網路幀內預測模式設計:如果用於幀內預測模式選擇的輔助信息係被耗費,則可以保持該輔助信息開銷低。這經由該幀內預測模式設計可以用幀內預測圖像區塊之間的相互不同的選擇頻率的方式,而自由地生成該基於神經網路的幀內預測模式的事實而變得可行。換句話說,花費多個基於神經網路的幀內預測模式使得能夠以這樣的方式設計這些模式,使得它們的選擇的統計頻率適合於該選擇信號通知,從而與在啟發式設計的幀內預測模式集合中進行選擇相比,導致一熵編碼意義下低的輔助信息開銷。例如,指向所選擇的幀內預測模式的一索引可以使用可變長度代碼或使用熵編碼來編碼,並且基於神經網路的幀內預測模式可以以這樣的一方式來設計,使得它們的選擇頻率或頻率分佈是適應於該可變長度碼,或者它們的頻率分佈適合於熵編碼的基礎樣本統計,使得該幀內預測模式中的該模式選擇的該平均信號通知開銷減小或最小化。
本申請的一第二觀點是,附加地或替代地,基於神經網路的幀內預測模式的該開銷,經由應用相鄰樣本的一集合在其上的一專用神經網路的該使用,來決定幀內預測模式的該集合的每一個的一秩或一機率值,可以使該模式選擇更有效率,該秩或機率值用於從該多個幀內預測模式中選擇一個幀內預測模式,該多個幀內預測模式包括幀內預測模式的該集合或者與幀內預測模式的該集合一致。用於在該幀內預測模式中進行選擇的該輔助信息開銷可能可以完全沒有留存,或者可以經由使用該神經網路使其更有效率。
就該上述神經網路的該設計而言,本申請提供了許多用於適當地決定其參數的實施例。
本揭露主題的各種目的、特徵、面向和優點將從以下對優選實施例的詳細描述以及附圖中變得更加明顯,附圖中相同的附圖標記表示相同的部件。
所示實施例在附圖中以例子,而非限制的方式顯示,其中相同的參考標號表示相似的元件。
在下文中,描述了各種實施例,其有助於在使用幀內預測時實現更有效的壓縮。一些實施例經由花費基於神經網路的幀內預測模式的一集合來實現該壓縮效率的提高。後者可以被添加到例如啟發式設計的其他幀內預測模式,或者可以被專門提供。其他實施例使用一神經網路以在多個幀內預測模式中執行一選擇。甚至其他實施例也利用了剛才討論的兩個特徵。
為了容易理解本申請的以下實施例,該描述從可能的編碼器和解碼器的一陳述開始,其中可適合於構建本申請的隨後概述的實施例。圖1係顯示用於將一圖片10逐塊編碼成一資料流12的一裝置。該裝置使用附圖標記14表示,並且可以是一靜止圖片編碼器或一視頻編碼器。換句話說,當該編碼器14被配置為將包括圖片10的一視頻16編碼到資料流12中時,圖片10可以是該視頻16中的一當前圖片,或者編碼器14可以將圖片10專門編碼到資料流12中。
如上所述,編碼器14以逐塊方式或以區塊為基礎執行編碼。為此,編碼器14將圖像10細分為區塊,其為編碼器14將圖像10編碼成資料流12的單元。圖像10細分成區塊18的可能範例在下面更詳細地闡述。通常,該細分可以最終成為具有恆定大小的區塊18,其係以行和列排列的區塊陣列表示,或不同區塊大小的區塊18,例如經由使用一分層多樹細分來啟動一多樹細分,其係從圖片10的該整個圖片區域或從圖片10的一預分區域進行細分而到一樹區塊陣列,其中這些範例不應被視為排除將圖片10細分為區塊18的其他可能方式。
此外,編碼器14是一預測編碼器,其被配置為將圖片10預測編碼至資料流12。對於一某個區塊18,這意味著編碼器14決定區塊18的一預測信號,並將該預測殘差(亦即該預測信號偏離區塊18內的該實際圖像內容的該預測誤差)編碼到資料流12中。
編碼器14可以支持不同的預測模式,以便導出一特定區塊18的該預測信號。在以下實施例中重要的該預測模式是幀內預測模式,根據該幀內預測模式,區塊18的該內部係從圖像10中在空間上相鄰的已編碼樣本而被預測。圖片10到資料流12的該編碼以及相應的解碼過程可以基於在區塊18之間定義的一特定編碼順序20。例如,該編碼順序20可以以一光柵掃描順序(a raster scan order)遍歷區塊18,例如從頂部到底部逐列掃描,並且例如從左到右遍歷每一列。在基於分層多樹的細分的情況下,可以在每一個層級別內應用光柵掃描順序,其中可以應用一深度優先遍歷順序,亦即,在一特定層級別的區塊內的葉子筆記根據編碼順序20可以在具有相同父區塊的級別之相同層級別的區塊之前。取決於該編碼順序20,一區塊18的相鄰的已編碼樣本可以通常位於區塊18的一側或多側。在這裡給出的例子的情況下,例如,一區塊18的相鄰的已編碼樣本位於區塊18的該頂部和該左側。
幀內預測模式可能不是編碼器14所支持的唯一模式。在編碼器14是一視頻編碼器的情況下,例如,編碼器14還可以支持幀內預測模式,根據該幀內預測模式,從一先前編碼的視頻圖像16暫時地預測一區塊18。這一種幀內預測模式可以是一運動補償預測模式,根據該運動補償預測模式,對於這樣的一區塊18用信號通知一運動向量,指示該部分的一相對空間偏移,由該部分可從中導出區塊18的該預測信號作為一副本。附加地或替代地,其他非幀內預測模式也可以是可用的,例如在編碼器14是多視圖編碼器的情況下的視圖間預測模式(inter-view prediction modes),或者非預測模式,根據該非預測模式,區塊18的該內部按原樣編碼,即沒有任何預測。
在開始將本申請的描述聚焦於幀內預測模式之前,針對一可能的基於區塊的編碼器的一更具體的實施例,即針對編碼器14的一可能實現係相關於圖2所描述的,然後呈現一解碼器的兩個對應的實施例,分別用於符合圖1和2的。
圖2係顯示圖1的編碼器14的一可能實現,即該編碼器被配置為使用變換編碼來編碼該預定殘差的實現,儘管這幾乎是一範例,並且本申請不限於那種預測殘差編碼。根據圖2,編碼器14包括一減法器22,其被配置為從該入站信號(即圖片10、或者在區塊的基礎上係為當前區塊18)中減去該相應的預測信號24,以便獲得該預測殘差信號26,然後由一預測殘差編碼器28編碼到一資料流12中。該預測殘差編碼器28由一有損編碼級28a和一無損編碼級28b組成。該有損編碼級28a接收該預測殘差信號26並且包括一量化器30,該量化器30量化該預測殘差信號26的樣本。如上所述,本範例使用該預測殘差信號26的變換編碼,因此,該有損編碼級28a包括連接在減法器22和量化器30之間的一變換級32,以便將一這種頻譜分解的預測殘差26變換為代表該殘差信號26的該變換係數,量化器30的一量化發生在該變換係數上。該變換可以是DCT、DST、FFT、Hadamard變換等。然後,經過變換和量化的該預測殘差信號34通過該無損編碼級28b進行無損編碼,該無損編碼級28b是一個熵編碼器,對量化預測殘差信號34進行熵編碼,而為資料流12。編碼器14還包括連接到量化器30的該輸出的該預測殘差信號重建級36,以便從該變換和量化的預測殘差信號34重建該預測殘差信號,其也以解碼器可用的方式進行,亦即,考慮量化器30該編碼損失。至此,該預測殘差重建級36包括一去量化器38,其執行該量化器30的該逆量化,接著是一個逆變換器40,其執行相對於該變換器32執行的該變換的該逆變換,例如,諸如與任何上述特定變換例子相反的逆頻譜分解。編碼器14包括一加法器42,其將逆變換器40輸出的該重建的預測殘差信號和該預測信號24相加,以便輸出一重建信號,即重建例子。該輸出被饋送到編碼器14的一預測器44,然後編碼器14基於此預測器決定該預測信號24。該預測器44支持上面已經參考圖1討論的所有預測模式。圖2還顯示在編碼器14是一視頻編碼器的情況下,編碼器14還可以包括一環路濾波器46,其具有濾波器以完全重建圖像,在經過濾波之後,相對於幀間預測區塊,形成預測器44的參考圖像。
如上所述,編碼器14係基於區塊操作。對於該隨後的描述,感興趣的區塊基礎是將一個細分圖像10成區塊,對於其中,分別從預測器44或編碼器14支持的一集合或多個幀內預測模式中選擇該幀內預測模式,並且單獨地執行該所選擇的幀內預測模式。然而,圖片10被細分的其他種類的區塊也可以存在。例如,圖片10是幀間編碼還是幀內編碼的該上述決定可以以一粒度或以和區塊18不同的區塊為單位進行。例如,該幀間/幀內模式的決定可以在圖片10被細分的編碼區塊的一級別執行,並且將每個編碼區塊細分為預測區塊。針對已經確定使用幀內預測的編碼區塊的預測區塊,預測區塊的每一個被細分為一幀內預測模式決策。為此,對於這些預測區塊中的每一個,其將被決定應該將哪個支持的幀內預測模式用於該相應的預測區塊。這些預測區塊將形成這裡感興趣的區塊18。預測器44將不同地處理與幀間預測相關聯的編碼區塊內的預測區塊。經由決定一運動向量並從該運動向量指向的該參考圖像中的一位置複製該區塊的該預測信號,可以從參考圖像中對它們進行幀間預測。另一個區塊細分係涉及細分為變換區塊,在變換器32和逆變換器40係以變換區塊為單元而執行變換。例如,變換區塊可以是進一步細分編碼區塊的該結果。自然地,這裡列出的範例不應被視為限制性的,並且也存在其他範例。僅為了完整性,應注意,細分為編碼區塊可以例如使用多樹細分,並且也可以經由使用多樹細分進一步細分編碼區塊來獲得預測區塊和/或變換區塊。
在圖3中描繪了適合於圖1的編碼器14的逐塊解碼的一解碼器或裝置。該解碼器54與編碼器14相反,亦即它以一區塊方式從資料流12解碼圖像10,並為此支持多個幀內預測模式。以上關於圖1討論的所有其他可能性也對解碼器54有效。為此,解碼器54可以是一靜止圖片解碼器或一視頻解碼器,並且解碼器54也支持所有該預測模式和預測可能性。編碼器14和解碼器54之間的區別主要在於編碼器14根據某些優化建議而選擇或抉擇編碼決策,例如,以便最小化可能取決於編碼率和/或編碼失真的某些成本函數。這些編碼選項或編碼參數之一可以涉及在可用或支持的幀內預測模式中,要用於一當前區塊18的該幀內預測模式的一選擇。然後,編碼器14可以針對資料流12內的當區前塊18用信號通知該所選擇的幀內預測模式,其中解碼器54使用資料流12中的該信號通知對區塊18重新進行該選擇。同樣地,將圖像10細分為區塊18可以在編碼器14內進行優化,並且可以在資料流12內傳送相應的細分信息,其中解碼器54基於該細分信息將圖像10的該細分恢復為區塊18。綜上所述,解碼器54可以是在一基於區塊的基礎上操作的一預測解碼器,並且除了幀內預測模式之外,解碼器54可以支持其他預測模式,例如在例如解碼器54是一視頻解碼器的情況下的幀間預測模式。在解碼中,解碼器54還可以使用關於圖1討論的該編碼順序20,並且當在編碼器14和解碼器54兩者都遵循該編碼順序20時,該相同的相鄰樣本在編碼器14和解碼器54兩者處都可用於一當前區塊18。因此,為了避免不必要的重複,編碼器14的該操作模式的該描述也應當適用於解碼器54,只要圖片10細分為區塊係被關注,例如,到目前為止預測係被關注,並且到目前為止預測殘差的編碼係被關注。不同之處在於編碼器14經由優化選擇一些編碼選項或編碼參數以及在資料流12內信號通知或插入資料流12中,然後由解碼器54從該資料流12導出該編碼參數以重新進行預測、細分等等。
圖4係顯示圖3的該解碼器54的一可能實現,亦即一個適合於如圖2所示的圖1的編碼器14的該實現。由於圖4的編碼器54的許多元件與圖2的相應編碼器中出現的元件相同,所以在圖4中使用具有撇號的該相同附圖標記以指示這些元件。特別地,加法器42’、可選的環路濾波器46’和預測器44’以與它們在圖2的編碼器中該相同的方式連接到一預測環路中。該重建(亦即去量化的和重新變換的預測殘差信號應用於添加的42’)係由熵解碼器56的一序列導出,該熵解碼器56反轉熵編碼器28b的該熵編碼,接著是由去量化器38’和逆變換器40’組成的該殘差信號重建級36’,正如編碼側的情況一樣。該解碼器的輸出是圖像10的該重建。圖像10的該重建可以直接在加法器42’的該輸出端獲得,或者另外地在環路濾波器46’的該輸出端獲得。一些後置濾波器可以被安排在該解碼器的輸出處,以便對圖像10的重建進行一些後濾波,俾改善圖像品質,但是該選項在圖4中沒有被示出。
再次,關於圖4,上面提到的與圖2相關的描述對於圖4也是有效的,除了僅該編碼器執行該優化任務和關於編碼選項的該相關決定。然而,關於區塊細分、預測、去量化和重新變換的所有描述對於圖4的該解碼器54也是有效的。
在繼續描述本申請的可能實施例之前,關於上述例子,應作出一些註釋。儘管上面沒有明確提到,但是顯然區塊18可以具有任何形狀。例如,它可以是矩形或二次形狀。此外,儘管對編碼器14和解碼器54的該操作模式的該上面描述經常提到一「當前區塊」18,但是很清楚,編碼器14和解碼器54相應地對於要為其選擇一幀內預測模式的每一個區塊起作用。如上所述,也可以存在其他區塊,但是該以下描述聚焦於圖像10被細分的那些區塊18,針對其,一幀內預測模式被選擇。
為了總結要為其選擇一幀內預測模式的一特定區塊18的該情況,請參考圖5。圖5係顯示一當前區塊18,即當前要被編碼或被解碼的區塊。圖5係顯示相鄰樣本62的一集合60,即具有空間上與區塊18相鄰的樣本62。區塊18內的該樣本64將被預測。因此,要導出的該預測信號是針對區塊18內的每個樣本64的一預測。如上所討論,多個66預測模式可用於每個區塊18,並且如果區塊18將被幀內預測,則該多個66模式僅包括幀間預測模式。在編碼器和解碼器側執行一選擇68,以便基於該相鄰樣本集合60決定多個66中的一個幀內預測模式,以被用於預測71區塊18的該預測信號。下面進一步描述的該實施例係與該可用的幀內預測模式66並且與關於選擇68建議的該操作模式不同,例如,是否相對於區塊18關於選擇68在該資料流12中設置了輔助信息。然而,這些實施例的該描述從提供數學細節的一具體描述開始。根據該初始實施例,對要被幀內預測的一特定區塊18的該選擇係與對應的輔助信息信號通知70相關聯,並且該資料流和該多個66幀內預測模式包括基於神經網路的幀內預測模式的一集合72以及啟發式設計的進一步幀內預測模式的一集合74。模式74的該幀內預測模式之一可以是例如一DC預測模式,根據該DC預測模式,基於該相鄰樣本集合60可決定一些平均值,並且將該平均值分配給區塊18內的所有樣本64。附加地或替代地,集合74可以包括幀間預測模式,其可以被稱為角度幀間預測模式(angular inter-prediction modes),根據該幀間預測模式,該相鄰樣本集合60的樣本值沿著一特定幀內預測方向被複製到區塊18中,該幀內預測方向在這種角度幀內預測模式之間係不同。圖5係顯示除了關於多個66幀內預測模式中的該選擇68的該可選地存在的輔助信息70之外,該資料流12還包括預測殘差編碼的一個部分76,編碼可以如上所述,可選地包括在變換域中具有量化的變換編碼。
具體地,為了容易理解本申請的一特定實施例的該以下描述,圖6係顯示編碼器和解碼器處的一幀內預測區塊的一般操作模式。圖6係顯示區塊18以及基於執行該幀內預測的該相鄰樣本集合60。應當注意,該集合60可以在基數方面而在該多個66幀內預測模式的該幀內預測模式之間變化,亦即,根據相應幀內預測模式的實際使用的集合60的該樣本數量,以用於決定區塊18的預測信號。然而,這是為了容易理解,未在圖6中顯示。圖6係顯示編碼器和解碼器針對集合72的每個基於神經網路的幀內預測模式具有800 到80KB -1 的神經網路。集合60被應用於該相應的神經網路,以便在集合72中導出該相應的幀內預測模式。除此之外,圖6相當代表性地顯示一個區塊82,其基於輸入提供亦即相鄰樣本的該集合60,以及集合74的一個或多個幀內預測模式的一個或多個預測信號,例如,該DC模式預測信號和/或角度幀內預測模式預測信號。以下描述將顯示如何有利地決定具該神經網路80i的該參數,其中i = 0、…、KB -1。在下文中闡述的該特定實施例還向編碼器和解碼器提供另一神經網路84,其基於相鄰樣本的一集合86,俾為集合72內的每個基於神經網路的幀內預測模式專門提供一機率值,相鄰樣本的該集合86可以與集合60重合或不重合。該神經網路84幫助使用於該模式選擇的該輔助信息70更有效時,因此該機率值被提供。例如,在下面描述的實施例中,假設一可變長度代碼用於指向該幀內預測模式之一,並且至少就集合72而言,由該神經網路84提供的該機率值致能可使用輔助信息70內的該可變長度代碼,作為排序的幀內預測模式的一有序列表的一索引,其係根據神經網路84輸出的該機率值,而針對集合72內的基於神經網路的幀內預測模式,從而優化或降低該輔助信息70的該碼率。對此,如圖6所示,該模式選擇68有效地執行,其係取決於由該另外的神經網路84提供的該機率值以及資料流12內的該輔助信息70。
1. 訓練執行幀內預測的神經網路的該參數的演算法
為一視頻幀的一區塊,即區塊18。假設具有個像素。對於一固定顏色分量,讓成為在上一視頻信號的該內容。我們將視為的一個元素。假設存在的一個鄰域,其具有個像素並且其上已經重建的圖像是可用的,即樣本集合60和86,儘管它們可以替代地不同。經由一幀內預測函數,我們指的是函數。我們將視為的一預測因子。
接下來描述的是經由一資料驅動的優化方法,設計可以在一典型的混合視頻編碼標準(即集合72)中出現的若干區塊的幀內預測函數的一演算法。為了實現這一目標,我們考慮了以下主要設計特徵:
1.在我們進行的該優化演算法中,我們希望使用該成本函數的一個良好近似,特別是涉及可以預期用於發信號通知該預測殘差的該位元數目。
2.我們希望聯合訓練數個幀內預測,以便能夠處理不同的信號特徵。
3.當訓練幀內預測時,必須考慮發信號通知使用哪種幀內模式所需的該位元數目。
4.我們希望保留已定義的幀內預測的一集合,例如該HEVC幀內預測,並訓練我們的預測,作為補充預測。
5.一典型的混合視頻編碼標準通常支持幾個區塊形狀,該給定區塊B 可以被分成幾個區塊形狀。
在接下來的四個部分中,有可能描述一個人如何處理這些要求。更準確地說,在1.1節中,我們將描述如何處理第一個項目。在第1.2節中,描述瞭如何處理第2至第3項目。在1.4節中,描述瞭如何考慮項目4。最後,在第1.5節中,描述瞭如何處理最後一項目。
1.1 訓練近似於一視頻編解碼器的該速率函數的一損失函數的演算法
用於決定在一視頻編解碼器中使用的未知參數的一資料驅動方法通常被設置為一優化演算法,該演算法試圖最小化在一給定訓練樣例集合上的一預定義損失函數。通常,對於在實踐中工作的數值優化演算法,該後一種損失函數應滿足一些平滑度要求。
另一方面,像HEVC這樣的視頻編碼器在經由最小化該速率-失真成本(Rate-Distortion costs)來做出決定時表現最佳。此處,是該解碼視頻信號的該重建誤差,是該速率,即編碼該視頻信號所需的該位元數目。此外,是一個拉格朗日參數(Lagrangian Parameter),其取決於該所選擇的量化參數。
該真正的函數通常非常複雜,並且不能經由一閉合表達式給出,而可以提供一資料驅動的優化演算法。因此,我們經由一分段平滑函數逼近該整個函數或至少近似該速率函數
更確切地說,如前所述,讓為一視頻幀10的一給定區塊1/,並且設是一個固定顏色分量在上的該相應視頻信號。假設具有個像素。然後,對於一預測候選者,我們考慮該預測殘差對於一給定的量化參數(Quantization Parameter)和一給定的變換,令是一真實視頻編碼器用信號通知的該量化變換所需的該速率。此外,令的逆量化和逆變換產生的該重建誤差。然後我們想要決定函數,它們是分段平滑的,使得用作為的一良好近似並且使得用作的一良好近似值。
我們固定了一些並固定了預定義的“架構”,即分段平滑函數

然後尋找,這樣我們就將我們的函數建模為
為了決定該權重,在使用該給定混合視頻編碼標準的一典型編碼器上,我們收集了預測殘差和該相應的速率-失真值的訓練樣例的一巨大集合,分別僅為某些有限大的索引集合的速率值。然後我們嘗試找到,它們可使下面表達式最小化或至少使表達式變小
對於該任務,我們通常使用一(隨機)梯度下降方法。
1.2 一固定區塊形狀的預測訓練
在本節中,我們描述了我們設置的演算法,用於為一給定的區塊18、集合72的幀內預測和已經重建的樣本的區域60設計幀內預測。
我們假設我們給出了預測的一預定義“架構”。我們的意思是,對於某些固定的,我們給出了一個函數
(1)
並且我們想要決定“權重”,使得我們的幀內預測給出為

其中我們把放在
。 (2)
以下部分提供了這方面的詳細信息。公式(2)中的函數定義了圖6中該神經網路800 -80KB -1。
接下來,我們經由使用一第二參數相關函數來模擬我們嘗試設計的該幀內模式的該信號化成本
。 (3)
再次,對於,我們定義

經由
。 (4)
再次,在1.3節中給出了一個範例,其中公式(4)的函數表示圖6的神經網路84。
我們假設我們有一個函數
例如,該函數定義了用於輔助信息70的一個VLC代碼長度分佈。即,由輔助信息70與更多集合72的電腦輔助設計(cad)考量相關聯的代碼長度。
然後我們定義

經由
目前,該第k 個元件

應當模擬我們訓練的第k 個幀內模式所需的該位元數目。
如果是2.1節中定義的該函數,則對於給定的、重建圖像和原始圖像, 我們讓

表示該最小其具有該屬性

對於所有
由於模擬一幀內模式的該信號通知的位元的該真實數目,因此其梯度為零或未定義。因此,都不足以經由基於一梯度下降的演算法來優化該權重。因此,我們還經由使用該softmax函數將該函數變換為一機率分佈來調用一幀內模式的該交叉熵。我們回顧該後一個函數的該定義。對於,令表示的第i個分量。然後將該softmax函數定義為
針對梯度更新,我們將嘗試最小化該殘差率以及該模式的該交叉熵相對於該後者機率分佈的該總和。因此,我們將該區塊的損失函數定義為

, (5)
其中
給定公式(5)中的該損失函數,我們經由一資料驅動的優化以決定該權重。因此,如果對於一有限的大索引集合,我們給出一組訓練樣例

上的圖像和在上的相應重建圖像,我們應用一優化演算法,例如,基於該(隨機)梯度下降法,以找到權重,俾最小化下列該表達式
。 (6)
1.3 函數 的規範
在本節中,我們更精確地定義該函數的形式。再次,回想神經網路80和84的一些定義。這些函數中的每一個由一系列的函數組合所組成,這些函數組合是:1)一仿射變換;或2)一非線性活化函數
經由一仿射變換,我們指的是以下面形式的一映射

其中是一個線性變換,即滿足

對於所有,並且其中。每個線性映射完全由中的一矩陣決定,即唯一地對應於一向量。因此,每個仿射函數完全由個權重決定,即由一向量決定。對於每個,我們將為該上述方式中對應於的唯一仿射變換寫為
經由一非線性活化函數,我們指的是以下列形式表達的一函數
這裡,(表示的該第i 個分量,表示的該第i 個分量。最後,可以是這種形式
, (7)
或形式
, (8)
儘管這些範例不應解釋為將本申請的實施方案限制於這些明確的範例。也可以使用其他公式,例如或任何其他非線性函數。例如,可以另外地是一分段平滑函數。
我們的函數現在看起來如下。我們假設對於一固定的,我們給出,其中,這樣使得
這裡,如公式(1)中所示。然後,對於,其中,我們定義
因此,將描述使用參數參數化的一神經網路80i 。它將是線性函數和非線性函數的一序列,其在本範例中,其交替地被應用於該序列中,其中該參數包括中的該線性函數權重。在線性函數和非線性函數的該序列中,線性函數後跟非線性函數的該對將表示一神經元階層,例如,諸如第j 階層,在神經網路的前饋方向上,該神經元階層j 之前的前驅節點的該數量由的維度m 所決定,的該行(column)數目和該神經元階層j 本身的神經元的該數目由的維度n 決定,其係該列(row)數目。的每一列(row)包含該權重,該權重控制分別活化該m 個前驅神經元中的每一個的一信號強度有多強,其被轉發到該神經元階層j 的該相應神經元,其係對應於該相應的列(row)。ρ控制神經元階層j 的每個神經元,其前驅神經元活化的線性組合的該非線性映射到其自身的活化。在上面的例子中,有k 個這樣的神經元階層。每一個神經元階層的該數量可以變化。神經元階層k 的該數量可以在各種神經網路80j 之間變化,即對於不同的j。注意,該非線性函數可能根據神經元階層或甚至每個神經元或某些其他單位而有變化。
類似地,我們的函數如下所示。我們假設對於一固定的,我們給出,其中,這樣使得
這裡,如公式(3)中所示。然後,對,其中, ,我們定義
因此,將描述使用參數參數化的一神經網路84。它將是線性函數和非線性函數的一序列,正如上面關於該預測信號計算的該神經元階層所描述的那樣。神經網路84的神經元階層的該數量可以與神經網路80i的神經元階層的該數量中的一個或多個不同。
1.4 將現有預測考慮在內的訓練
我們擴展了該上一節的演算法,以便我們可以訓練預測,以補充已經存在的幀內預測。
亦即,令

其係為已經可用的固定幀內預測函數的一集合。例如,可以包括HEVC的DC或平面預測以及根據HEVC定義的角度預測;所有這些預測還可以包括該重建樣本的一初步平滑。此外,我們假設我們有一個函數

使得模擬在給定該原始圖像的情況下,應用於的該第個幀內預測函數的該損失。
然後我們將該損失函數從公式(5)擴展到該損失函數

。 (9)
保留上一節該末尾的該符號,我們決定權重經由最小化
(10)
在訓練樣例的一個大的集合上。
為該目的,我們通常首先經由優化公式(6)以找到權重,然後初始化這些權重以找到可優化公式(10)的該權重。
1.5 聯合訓練幾種區塊形狀的預測
在本節中,在我們的預測的該訓練中,我們描述了如何考慮在一典型的視頻編碼標準中,通常可以以各種方式將區塊分割成更小的子區塊並對該較小的子區塊執行一幀內預測。
即,假設對於某些,我們給出可容許區塊的一集合

以及區域的一集合

使得每個的一鄰域。通常,的左側和上方的兩個矩形的一個聯集。
我們假設存在一區塊,針對每個。設的該冪集(power set)。然後對於,我們假設一集合

被給出,使得對於每個,該區塊可以寫成一個不相交的聯集
於一給定的顏色分量,令上的一圖像,其經由限制,針對每個我們視為上的一圖像。此外,假設在上存在一重建圖像,其經由限制,針對每個我們視為上的一圖像
保留1.2節的該符號,對於每個,我們尋找作為幀內預測函數的該權重集合,並且我們尋求作為該模式預測函數的權重。我們共同決定針對所有的這些權重如下。對於和給定的權重集合,我們把
此外,對於,我們將定義為
如在1.4節中,我們假設對於每個,幀內預測函數的一可能空集合是可用的。我們令
然後我們如下定義一損失函數。經由集合的該含括,我們在該集合上有一個排序≤。令

中所有最小元素的該集合。對於,我們把

其中,該後者的函數如公式(9)所示。
接下來,讓並假設已經為的所有定義了
然後,我們定義

最後,給出訓練樣例的一固定集合

其係為在上圖像的固定集合,我們經由最小化或至少使該表達式變小來決定
我們通常經由首先單獨地對每個最小化公式(9)來初始化權重
2. 將經過訓練的神經網路集成到一視頻編解碼器中
我們考慮一混合視頻編碼標準,其中對於一給定的顏色分量,在一給定區塊上的一視頻信號的該內容將由一解碼器生成。設的像素數目。此外,令的一固定鄰域,使得該解碼器在其處理上具有在上的一重建圖像。設的該像素數目。然後我們將視為的一個元素。我們假設該編解碼器經由該當前區塊10上的預測編碼來操作。然後,我們聲稱對於一解碼器可以執行的以下步驟的版權,以便在上生成一預測信號,我們將其視為的一個元素:
1. 該解碼器具有在其處理下的固定數量、函數
,亦即84,
以及權重和一權重,其中後者權重是經由前一章節中描述的一訓練演算法預先決定的。
2. 該解碼器從該位元流重建作為輔助信息70的一部分的一旗標,並指示該以下選項中的恰好之一是否為真:
(i)該預測之一將被使用,亦即集合72之外的一模式;
(ii)沒有使用該預測,亦即例如74之外的一個
這裡,該函數如公式(2)中所示。
3. 如果步驟2中的選項二為真,則該解碼器繼續進行該給定區塊10,如在該基礎混合視頻編碼標準中那樣。
4. 如果步驟2中的選項一為真,則該解碼器將根據公式(4)定義的該函數,亦即84,應用於該重建的圖像。令被定義為。然後以一種方式改變該標準,使得該解碼器經由該以下兩個選項中的一個,以定義一數字
(i)該解碼器在該集合上定義一機率分如下所示

並且使用該後者的機率分佈來解析一索引,其也是來自該資料流12的該基礎標準中使用的該熵編碼引擎的輔助信息70的一部分,並定義
(ii)該解碼器定義一排列

由將歸納,其中是最小數目,對於所有,並且經由把,其中是最小數目,針對所有,使得具有
然後,該解碼器從該位元流12重建一個唯一索引,其也是資料流12的一部分並且設置
在解析該後者索引i 的該代碼設計中,如果,要求信號通知一索引所需的位元數目小於或等於發信號通知一索引的位元數並且如果該熵編碼引擎使用的所有涉及的基礎機率被設置為相等的機率。
5. 如果步驟2中的選項一為真並且如果該解碼器根據該前一步驟4決定了該索引,則該解碼器生成71該預測信號作為,亦即使用該選定的神經網路80m 。然後,該解碼器如在該基礎混合視頻編碼標準中那樣使用作為預測信號進行。
將設計基於一資料驅動學習方法的幀內預測函數集成到一現有的混合視頻編解碼器中。該描述有兩個主要部分。在該第一部分中,我們描述了用於幀內預測函數的一離線訓練的一具體演算法。在該第二部分中,我們描述了一視頻解碼器如何使用該後者的預測函數以便為一給定區塊生成該預測信號。
因此,以上在章節1.1至2中描述的內容尤其是用於對來自一資料流12的一圖片10進行逐塊解碼的一裝置。該裝置54支持多個幀內預測模式,其至少包括幀內預測模式的一集合72,根據該幀內預測模式,經由應用該當前區塊18的相鄰樣本的一第一集合60到一神經網路80i 上,來決定該圖片10的該當前區塊18的該幀內預測信號。該裝置54被配置為從多個66幀內預測模式中選擇68用於該當前區塊18的一個幀內預測模式,並且使用該一個幀內預測模式預測71該當前區塊18,亦即使用被選中該相應的神經網路80m 。儘管在第2章節中呈現的該解碼器,其具有在多個66幀內預測模式內的幀內預測模式74,該多個66幀內預測模式支持另外的在集合72中的基於神經網路的幀內預測模式,但這僅僅是一個範例並且不需要是這種情況。此外,章節1和2中的該以上描述可以變化的,其中該解碼器54不使用、並且不包括該另外的神經網路84。關於該上述優化,這意味著在1.2節中呈現的用於找出的在該內部質量的該第二加法器不是必須為一個函數MB 的串聯,其應用於任何機率值神經網路函數GB 。相反,該優化演算法以一種方式決定該神經網路80i 的合適參數,使得該選擇頻率將適當地遵循MB 的一碼率指示。例如,該解碼器54可以使用一可變長度碼從資料流12解碼區塊18的一索引,其碼長以MB 指示,並且該解碼器54將基於該索引執行選擇68。該索引將是該輔助信息70的一部分。
以上在第2章節中提出的該描述的另一替代方案是,該解碼器54可替代地導出基於神經網路的幀內預測模式的該集合72中的一排序,其取決於與該當前區塊18的一鄰域相關的該資料流的一第一部分,以便獲得幀內預測模式的一有序列表,並從幀內預測模式的該有序列表中最終選擇該幀內預測模式以使用,其取決於不同於該第一部分的該資料流的一第二部分。該「第一部分」可以例如涉及與當前區塊18相鄰的一個或多個區塊相關的一編碼參數或預測參數。然後,該“第二部分”可以是一索引,例如,指向該基於神經網路的幀內預測模式集合72或者是該基於神經網路的幀內預測模式集合72的一索引。當與上面概述的章節2一致時,該解碼器54包括該另外的神經網路84,其對於幀內預測模式的該集合72的每一個幀內預測模式,經由將相鄰樣本的集合86應用於其上、並對這些機率值進行排序來決定一機率值,以便決定集合72的每一個幀內預測模式的一秩,從而獲得幀內預測模式的一有序列表。然後將該資料流12中作為輔助信息70的一部分的一索引用作該有序列表的一索引。這裡,可以使用可變長度代碼對該索引進行編碼,其中MB 表示該代碼長度。並且如上面在章節2中所解釋的,在項目4i中,根據一另一替代實施例,解碼器54可以使用由該另外的神經網路84決定的該剛剛提到的機率值用於集合72的每一個基於神經網路的幀內預測模式,以便有效地執行索引的熵編碼到集合72中。特別地,該索引的該符號字母表是該輔助信息70的一部分並且用作對集合72的一索引,其將包括針對集合72內的每一個模式的一符號或值,以及由神經網路84提供的該機率值,在根據以上描述的神經網路84設計的情況下,其將提供導致有效熵編碼的機率值,其中這些機率值緊密地表示該實際符號的統計特性。對於該熵編碼,例如可以使用算術編碼,或機率區間劃分熵(PIPE)編碼。
有利地,對於集合72的任何幀內預測模式,不需要附加信息。每個神經網路80i 針對編碼器和解碼器,一旦有利地根據例如在章節1和2中的上述描述被參數化,其在沒有資料流中的任何附加指導的情況下導出該當前區塊18的預測信號。如上所述,除了集合72中的該基於神經網路的模式之外,其他幀內預測模式的存在是可選的。它們已在上面用集合74表示。在這方面,應當注意,選擇集合60的一種可能的方式,亦即形成用於幀內預測71的該輸入的相鄰樣本的該集合,其可以如此被選擇使得針對集合74的該幀內預測模式,該集合60是相同的,亦即啟發式的,針對基於神經網路的幀內預測模式的集合60,在集合60中所包括的相鄰樣本的數量方面更大,並且影響幀內預測71。換句話說,與集合74的其他模式相比,對於基於神經網路的幀內預測模式72,集合60的該基數可以更大。例如,集合74的任何幀內預測模式的集合60可以僅包括沿著一直延伸到區塊18的側面的一條一維直線的相鄰樣本,例如左邊一側和上邊一側。基於神經網路的幀內預測模式的集合60可以覆蓋在區塊18的剛剛提到的側面旁邊延伸的一個L形部分,但是比用於集合74的幀內預測模式的集合60寬一個樣本寬度。以此種方式,基於神經網路的幀內預測模式可產生具有一相應較低預測殘差的一更好幀內預測。
如上面在章節2中所描述的,在該資料流12內傳送到一個幀內預測區塊18的該輔助信息70可以包括一斑點,該斑點通常指示針對區塊18所選幀內預測模式是否為集合72的成員或者為集合74的成員。然而,該斑點對於輔助信息70僅僅是可選的,指示例如包括集合72和74的一整個多個66幀內預測模式的一索引。
在下文中,關於圖7a至圖7d簡要討論了剛才討論的替代方案。該等圖式同時定義解碼器和編碼器,亦即就其在一幀內預測區塊18中的功能而言。關於一幀內編碼區塊18的編碼器操作模式和解碼器操作模式之間的差異在於,一方面是該編碼器執行所有或至少一些可用的幀內預測模式66的事實,以便在90處決定最佳的一個,例如一些成本函數最小化的方式,並且該編碼器形成資料流12,亦即編碼資料到資料流12,而該解碼器分別經由解碼和讀取從中導出資料。圖7a係顯示該上述替代方案的該操作模式,根據該操作模式,用於區塊18的該輔助信息70內的一旗標70a指示在步驟90中該編碼器決定幀內預測模式為區塊18的該最佳模式,其是否在集合72內,亦即是基於神經網路的幀內預測模式,或在集合74內,亦即是基於非神經網路的幀內預測模式之一。該編碼器相應地將旗標70a插入資料流12中,而該解碼器從中取回旗標70a。圖7a假設所決定的幀內預測模式92在集合72內。然後,該分離的神經網路84決定用於集合72的每一個基於神經網路的幀內預測模式的一機率值,並且使用這些機率值集合72,或者更確切地說,其中基於神經網路的幀內預測模式根據它們的機率值被排序,例如按其機率值的降序排列,從而得到幀內預測模式的一有序列表94。作為輔助信息70的一部分的一索引70b然後由該編碼器編碼到資料流12中,並由該解碼器從其中解碼。因此,該解碼器能夠決定集合72和集合74的哪個。在要使用的該幀內預測模式位於集合72中的情況下,要用於區塊18的該幀內預測模式位於並且執行集合72的排序96。在該所決定的幀內預測模式位於集合74中的情況下,也可能在資料流12中發送一索引。因此,該解碼器能夠經由相應地控制該選擇68,使用所決定的幀內預測模式來生成用於區塊18的預測信號。
圖7b係顯示一替代方案,根據該替代方案,該旗標70a不存在於資料流12中。相反,該有序列表94將不僅包括集合72的該幀內預測模式,而且還包括集合74的幀內預測模式。輔助信息70內的該索引將是該更大有序列表的一索引,並指示該所決定的幀內預測模式,亦即該一模式被決定為優化90。在神經網路84僅在72內提供基於神經網路的幀內預測模式的機率值的情況下,集合72的幀內預測模式之間相對於集合74的幀內預測模式的該排序可以經由其他方式決定,例如,不可避免地在順序列表94中,將集合72的該基於神經網路的幀內預測模式安排在集合74的該模式之前,或者相對於彼此安排它們交替排列。也就是說,該解碼器能夠從資料流12導出該索引,使用該索引70作為索引到該有序列表94中,並使用神經網路84輸出的該機率值從該多個幀內預測模式66導出該有序列表94。圖7c係顯示一個另一種變型。圖7c係顯示不使用旗標70a的一情況,但是可以另外地使用該旗標。圖7c所針對的問題涉及編碼器和解碼器都不使用神經網路84的該可能性。相反,該排序96是經由其他方式導出的,例如相對於一個或多個相鄰區塊18在資料流12內傳送的編碼參數,亦即與這樣的一個或多個相鄰區塊有關的一資料流12的部分98。
圖7d係顯示圖7a的一個另一變體,即根據其使用熵編碼對該索引70b進行編碼並使用熵解碼從資料流12解碼的該變體,通常使用附圖標記100表示。用於該熵編碼100的該樣本統計或該機率分佈由神經網路84輸出的該機率值控制,如上所述,這使得索引70b的該熵編碼非常有效。
對於所有實施例7a至7d,其確實可以不存在集合74模式。因此,該相應的模塊82可能丟失,並且旗標70a無論如何都是不必要的。
此外,儘管未在任何圖式中顯示,但顯然即使沒有任何顯式信令70,在該編碼器和解碼器處的該模式選擇68也可彼此同步,亦即不花費任何輔助信息。相反,該選擇可以從其他方法導出,例如經由不可避免地取該有序列表94中的該第一個,或者經由基於與一個或多個相鄰區塊有關的編碼參數將該索引導出到該有序列表94中。圖8係顯示用於設計要用於基於區塊的圖像編碼的集合72的幀內預測模式的該集合的一裝置。該裝置108包括一可參數化網路109,其繼承或包括神經網路800 至80KB-1 的可參數化版本以及神經網路84。這裡,在圖8中,繪示為單獨的單元,即神經網路840用於提供基於神經網路的幀內預測模式0的該機率值,至神經網路84KB-1 用於提供與該基於神經網路的內部預測模式KB-1 相關聯的該機率值。用於參數化神經網路84的該參數111和用於參數化神經網路800 至80KB-1 的該參數113被一更新器110輸入或應用到這些神經網路的相應參數輸入。裝置108可以訪問一儲存器或多個圖像測試區塊114以及相應的相鄰樣本集合116。成對的這些區塊114及其相關的相鄰樣本集合116被裝置108順序地使用。具體地,一當前圖片測試區塊114被應用於可參數化神經網路109,使得神經網路80為集合72的每一個基於神經網路的幀內預測模式提供一預測信號118,並且每一個神經網路80為這些模式的每一個提供一機率值。至此,這些神經網路使用它們的當前參數111和113。
在以上描述中,rec 已被用於表示該圖片測試區塊114,並且(rec )是模式B的該預測殘差118,並且機率值(rec )是該機率值120。對於每個模式0、... Kb-1 ,裝置108包括一成本估計器122,其基於針對該相應模式所獲得的該預測信號118,來計算該相應模式的一成本估計。在該上面的例子中,成本估計器122計算了在1.2節中該不等式的該左側和右側所示的該成本估算。也就是說,這裡,成本估計器122還針對每個模式使用該對應的機率值120。然而,這不需要是如上所述的情況。然而,成本估計在任何情況下都是兩個加法項的總和,其中一個加法項是在該上述不等式中的該項目所表示的該預測殘差的該編碼成本的一估計,以及另一個加法項估計指示該模式的該成本編碼。為了計算與該預測殘差相關的該編碼成本的該估計,該成本估計器122還獲得該當前圖片測試區塊114的該原始內容。該神經網路80和84在其輸入處具有該相應的相鄰樣本集合116。由成本估計器122輸出的該成本估計124由一最小成本選擇器126接收,該最小成本選擇器126決定該模式最小化或具有與之相關的最小成本估計。在上面的數學符號中,這是。該更新器接收該最佳模式並使用一編碼成本函數,該編碼成本函數具有一第一加法項以及一第二加法項,該第一加法項係取決於針對最低編碼估計的該幀內預測模式所獲得的該預測信號118形成殘差率估計,該第二加法項係形成一模式以信號通知輔助信息速率估計,其取決於該預測信號和針對由選擇器126指示的最低編碼成本估計的該幀內預測模式所獲得的該機率值。如上所述,這可以使用一梯度距離來完成。因此,該編碼成本函數是可微分的,並且在上面的數學表示中,該函數的一個例子在公式(5)中給出。此處,與該模式信號通知輔助信息速率估計有關的該第二加法項則計算用於最低編碼成本估計的該幀內預測模式的該交叉熵。
因此,該更新器110尋求更新參數111和113以便減少該編碼成本函數,然後這些更新的參數111和113被可參數化神經網路109所使用,以便處理該多個112中的下一個圖像測試區塊。如上面關於章節1.5所討論的,可以存在一種機制,主要控制那些圖像測試區塊114及其相關的相鄰樣本集合116,其被應用於該幀內預測的該遞歸更新過程,在速率失真意義上,較佳地在沒有任何區塊子劃分的情況下完成,從而避免在圖像測試區塊的基礎上對該參數111和113進行過多優化,無論如何,以子區塊為單位的一編碼則更具成本效益。
到目前為止,上述討論的實施例主要涉及編碼器和解碼器在其支持的幀內預測模式66內具有基於神經網路的幀內預測模式的一集合的情況。根據參考圖9a和9b討論的該實施例,這不一定是必須的情形。圖9a試圖概述根據一個實施例的一編碼器和一解碼器的該操作模式,其中聚焦於與上面關於圖7a提出的描述的不同之處的一種方式,以提供其描述。所支持的多個66幀內預測模式可以包括或不包括基於神經網路的幀內預測模式,並且可以包括或不包括基於非神經網路的幀內預測模式。分別由編碼器和解碼器所包含的圖9a中的該模塊170,為了替每個該支持的模式66提供該相應的預測信號,因此不一定是神經網路。如上所述,這種幀內預測模式可以是基於神經網路的,或者它們可以是啟發式激勵、並且基於一DC幀內預測模式或一角度幀內預測模式或任何其他模式來計算該預測信號。因此,這些模塊170可以表示為預測信號計算機。然而,根據圖9a的該實施例的編碼器和解碼器包括一神經網路84。該神經網路84基於該相鄰樣本集合86計算該所支持的幀內預測模式66的機率值,使得多個66幀內預測模式可以變為該有序列表94。用於區塊18的資料流12內的該索引70指向該有序列表94。因此,該神經網路84有助於降低用於幀內預測模式信號通知的該輔助信息速率。
圖9b係顯示圖9a的一替代方案,其中代替該排序,該索引70的熵解碼/編碼100用於控制其機率或簡單統計,亦即控制在編碼器/解碼器中熵解碼/編碼的該熵機率分佈,其係根據針對多個66中的每一個模式為該神經網路84決定的該機率值。
圖10係顯示用於設計或參數化神經網路84的一裝置。因此,它是用於設計一神經網路的一裝置108,神經網路用於輔助在幀內預測模式的一集合66中進行選擇。這裡,對於集合66中的每個模式,存在相應的神經網路區塊一起形成神經網路84,並且裝置108的該可參數化神經網路109僅可參照這些區塊進行參數化。對於每種模式,還存在該預測信號計算機170,然而,根據圖10,該預測信號計算機170不需要可參數化。因此,基於由相應的該預測信號計算機170計算的該預測信號118,圖10的裝置108來計算每種模式的成本估計,並且可選地,基於由針對此模式的該相應神經網路區塊所決定的相應機率值,來計算每種模式的成本估計。在所該得到的成本估計124的基礎上,該最小成本選擇器126選擇該最小成本估計的該模式,並且該更新器110更新該神經84網路的該參數111。
以下係關於圖7a至圖7d和圖9a和圖9b該描述的註釋。圖9a和9b的該實施例的一共同特徵是也用於圖7a至圖7d的一些實施例,其事實是該神經網路值的該機率值,以便改善或減少用於在該優化過程90中在該編碼器側該決定的模式向該解碼器發信號通知的該輔助信息70的開銷。如上面關於圖7a至圖7d的該實施例所示,然而,應該清楚的是,圖9a和圖9b的該實施例可以改變到一個程度,亦即相對於該模式選擇根本沒有在資料流12中花費輔助信息70的程度。相反,神經網路84為每個模式輸出的該機率值可用於不可避免地同步在編碼器和解碼器之間的該模式選擇。在那種情況下,關於該模式選擇,在該編碼器側將不存在優化決定90。而是,將在編碼器和解碼器側以該相同的方式決定在集合66中的被使用的該模式。關於圖7a至圖7d的相應實施例,一類似的陳述也是如此,當改變時,以便在資料流12中不使用任何輔助信息70。回到圖9a和圖9b的該實施例,然而,有趣的是,在該解碼器側的該選擇過程68係依賴於該神經網路輸出的該機率值,其中該排序或該機率分佈估計對該機率值的依賴性改變了對該輔助信息的該解釋,就該編碼器而言,對該機率值的該依賴性不僅影響將該輔助信息70編碼到資料流12中,例如使用對該有序列表的一索引的相應可變長度編碼、或者根據該神經網路的機率值得一機率分佈估計而使用熵編碼/解碼,而且影響該優化步驟90:這裡,用於發送輔助信息70的該碼率可以被考慮,並且因此可以影響該決定90。
儘管已經在一裝置的該上下文中描述了一些觀點,但是顯然這些觀點也表示該對應方法的一描述,其中一區塊或設備對應於一方法步驟或一方法步驟的一特徵。類似地,在一方法步驟的該上下文中描述的觀點還表示一對應裝置的一對應區塊或項目或特徵的一描述。一些或所有方法步驟可以由(或使用)一硬體設備執行,例如一微處理器、一可編程計算機或一電子電路。在一些實施例中,一個或多個該最重要的方法步驟可以由這樣的一裝置執行。
本揭露的該編碼資料流可以存儲在一數位存儲媒體上,或者可以在諸如一無線傳輸媒體的一傳輸媒體或諸如因網際網路的一有線傳輸媒體上傳輸。
根據某些實現要求,本揭露的實施例可以用硬體或軟體實現。T可以使用數位存儲媒體來執行該實現,例如一軟盤、一DVD、一藍光、一CD、一ROM、一PROM、一EPROM、一EEPROM或一FLASH記憶體,其具有存儲的電子可讀控制信號在其上,與一可編程計算機系統協作(或能夠協作),從而執行相應的方法。因此,數位存儲媒體可以是計算機可讀的。
根據本揭露的一些實施例,其包括具有電子可讀控制信號的一資料載體,其能夠與一可編程計算機系統協作,從而執行本文所述的方法之一。
通常,本揭露的實施例可以實現為具有一程式代碼的一計算機程式產品,當該計算機程式產品在一計算機上運行時,該程式指令可操作用於執行這些方法之一。程式指令可以例如儲存在機器可讀媒體上。
其他實施例包括用於執行存儲在機器可讀媒體上的本文所述方法之一的計算機程式。
換句話說,本揭露方法的一實施例因此是具有一程式代碼的一計算機程式,當該計算機程式在一計算機上運行時,該程式代碼用於執行本文描述的方法之一。
因此,本揭露方法的一另一實施例是一資料載體(或數位存儲媒體、或計算機可讀取媒體),其包括在其上記錄的用於執行本文描述的方法之一的計算機程式。該資料載體,數位存儲媒體或記錄媒體通常是有形的和/或非過渡的。
因此,本揭露方法的一另一實施例是表示用於執行本文所述方法之一的計算機程式的一資料流或依信號序列。該資料流或該信號序列可以例如被配置為經由一資料通信連接,例如經由網際網路傳輸。
一另一實施例包括一處理裝置,例如計算機或可編程邏輯設備,其被配置為或適於執行本文所述的方法之一。
一另一實施例包括一計算機,其上安裝有用於執行本文所述方法之一的該計算機程式。
根據本揭露的一另一實施例包括一種裝置或系統,其被配置為將用於執行本文所述方法之一的計算機程式傳送(例如,電子地或光學地)給一接收器。該接收器可以是例如一計算機、一移動設備、一記憶體設備等。該裝置或系統可以例如包括用於將計算機程式傳送到接收器的檔案伺服器。
在一些實施例中,一可程式化邏輯器件(例如,一現場可編輯閘陣列)可用於執行本文描述的該方法的一些或全部功能。在一些實施例中,一現場可編輯閘陣列可以與一微處理器協作,以便執行本文描述的方法之一。通常,該方法較佳地由任何硬體設備執行。
這裡描述的該裝置可以使用一硬體設備,或使用一計算機,或使用一硬體設備和一計算機的一組合來實現。
這裡描述的該裝置或這裡描述的該裝置的任何組件可以至少部分地以硬體和/或軟體實現。
這裡描述的該方法可以使用一硬體設備,或使用一計算機,或使用一硬體設備和一計算機的一組合來執行。
本文描述的該方法或本文描述的該裝置的任何組件可以至少部分地由硬體和/或軟體執行。
上述範例僅代表了本揭露該原理的一說明。應理解,本領域其他技術人員將理解本文所述的佈置和細節的任何修改和變化。上述實施例僅係為了方便說明而舉例而已,本揭露所主張之權利範圍自應以申請專利範圍該為準,而非僅限於上述實施例。
在借助附圖對本揭露的實施例進行詳細說明之前,應當注意的是,在不同的附圖中,相同的、功能上相同的和相等的元件、物件和/或結構被提供有相同的附圖標記,使得不同實施例中的這些元件的描述是可互換和/或相互適用的。
10‧‧‧圖片
12‧‧‧資料流
14‧‧‧裝置/編碼器
16‧‧‧視頻
18‧‧‧區塊
20‧‧‧編碼順序
22‧‧‧減法器
24‧‧‧預測信號
26‧‧‧預測殘差信號
28‧‧‧預測殘差編碼器
28a‧‧‧有損編碼級
28b‧‧‧無損編碼級/熵編碼器
30‧‧‧量化器
32‧‧‧變換級
34‧‧‧量化預測殘差信號
36‧‧‧預測殘差信號重建級
38、38’‧‧‧去量化器
40、40’‧‧‧逆變換器
42、42’‧‧‧加法器
44、44’‧‧‧預測器
46、46’‧‧‧環路濾波器
54‧‧‧解碼器/裝置
56‧‧‧熵解碼器
36’‧‧‧殘差信號重建級
62‧‧‧相鄰樣本
60‧‧‧集合
64‧‧‧樣本
68‧‧‧選擇
66‧‧‧多個預測模式
71‧‧‧預測
70‧‧‧輔助信息信號通知/輔助信息
72‧‧‧集合
74‧‧‧集合/模式
76‧‧‧部分
800~80KB -1‧‧‧神經網路
82‧‧‧區塊/模塊
84‧‧‧神經網路
86‧‧‧集合
90‧‧‧處/步驟/優化/優化決定/決定
70a‧‧‧旗標
92‧‧‧幀內預測模式
94‧‧‧有序列表
70b‧‧‧索引
96‧‧‧排序
98‧‧‧部分
100‧‧‧變體/熵解碼/編碼/熵編碼
70‧‧‧顯式信令
108‧‧‧裝置
109‧‧‧可參數化網路/可參數化神經網路
111、113‧‧‧參數
110‧‧‧更新器
114‧‧‧圖像測試區塊
116‧‧‧相鄰樣本集合
118‧‧‧預測信號/預測殘差/預測信號
80‧‧‧神經網路
120‧‧‧機率值
122‧‧‧成本估計器
126‧‧‧最小成本選擇器
112‧‧‧該多個
170‧‧‧模塊/預測信號計算機
124‧‧‧成本估計
圖1係顯示說明用於將一圖片編碼成一資料流的一編碼器的一示意性方塊圖,其作為可以實現本申請的實施例的一個一般範例。
圖2係顯示根據圖1的一編碼器的一更具體範例的一方塊圖。
圖3係顯示說明適合於圖1的該編碼器並且用作一解碼器的一範例的一解碼器的一示意性方塊圖,其中本申請的實施例可以被實現。
圖4係顯示圖3的一解碼器的的一更具體範例的一方塊圖,其適合於圖2的該編碼器。
圖5係顯示說明根據本申請的實施例的編碼器和解碼器中關於使用幀內預測處理一區塊的該操作模式的一示意圖。
圖6係顯示說明根據本申請的一實施例的一解碼器的一示意性方塊圖,該解碼器包括若干基於神經網路的幀內預測模式。
圖7a係顯示說明根據支持基於神經網路的幀內預測模式的一實施例的一編碼器和一解碼器的操作模式以及這些模式的基於神經網路的排序的一示意圖,其中在該資料流內傳輸一索引到基於神經網路的幀內預測模式的一有序列表,以及指示要使用的幀內預測模式是否是基於神經網路的幀內預測模式的該集合的成員的一斑點。不用說,可以使用可變長度編碼對該索引進行編碼,以便利用由決定90所決定的不同頻率。
圖7b係顯示與圖7a不同的一示意圖,其中未使用該斑點信號(fleck signalization)。
圖7c係顯示與圖7b不同的一示意圖,其中不使用一神經網路來控制該模式排序。
圖7d係顯示與7a不同的一示意圖,其中模式信號化中的該神經網路輔助用於控制在熵編/解碼中的該機率分佈估計而不是模式排序。
圖8係顯示根據一實施例的用於設計基於神經網路的幀內預測模式的一集合之一裝置。
圖9a係顯示說明根據一個實施例的編碼器和解碼器的該操作模式的一示意圖,根據該實施例,一神經網路用於對所支持的幀內預測模式進行排序,而不管是否基於神經網路。
圖9b係顯示與圖9a不同的一示意圖,其中該神經網路基礎用於控制用於該索引的熵解碼/編碼到所支持的幀內預測模式該集合的該機率分佈估計。
圖10係顯示根據一實施例的用於設計一神經網路的一裝置,該神經網路用於輔助和選擇用於基於區塊的圖像編碼的幀內預測模式的一集合。

Claims (60)

  1. 一種用於對來自一資料流的一圖片進行逐塊解碼的裝置,該裝置支持多個幀內預測模式,其包括幀內預測模式的至少一集合,根據該幀內預測模式,經由將該當前區塊的相鄰樣本的一第一集合應用到一神經網路上來決定用於該圖片的一當前區塊的該預測信號,該裝置被配置為: 從該多個幀內預測模式中選擇該當前區塊的一個幀內預測模式,以及 使用該一個幀內預測模式預測該當前區塊。
  2. 如申請專利範圍第1項所述之裝置,其被配置為: 使用一可變長度代碼從該資料流解碼一索引,以及 使用該索引執行該選擇。
  3. 如申請專利範圍第1項所述之裝置,其被配置為: 根據該資料流的一第一部分決定幀內預測模式的該集合的一排名,該第一部分與該當前區塊的一鄰域相關,以便獲得幀內預測模式的一有序列表,以及 根據除該第一部分之外的該資料流的一第二部分,從幀內預測模式的該有序列表中選擇該一個幀內預測模式。
  4. 如申請專利範圍第1項所述之裝置,其被配置為: 對於幀內預測模式的該集合的每一個幀內預測模式,經由將相鄰樣本的一第二集合應用到一另一神經網路上來決定一秩(rank),以便獲得幀內預測模式的一有序列表, 從該資料流解碼一索引到該有序列表中,以及 使用該索引和該有序列表執行該選擇。
  5. 如申請專利範圍第4項所述之裝置,其被配置為使用一可變長度代碼從該資料流將該索引解碼到該有序列表。
  6. 如申請專利範圍第1項所述之裝置,其被配置為: 對於幀內預測模式的該集合的每一個幀內預測模式,經由將相鄰樣本的一第二集合應用到一另一神經網路上來決定一機率值, 使用該機率值從該資料流將一索引熵解碼到幀內預測模式的該集合,以及 使用該索引執行該選擇。
  7. 如申請專利範圍第3項所述之裝置,其中,相鄰樣本的該第一集合與相鄰樣本的該第二集合重合。
  8. 如申請專利範圍第1項所述之裝置,其中,幀內預測模式該的集合中的每一個,專門地從該當前區塊的相鄰樣本的該第一集合唯一地決定該當前區塊的該幀內預測信號。
  9. 如申請專利範圍第1項所述之裝置,其中,該多個幀內預測模式還包括幀內預測模式的一另一集合,其包括一DC模式中的一個或多個,根據該DC模式,該當前區塊被一DC值填充;或者一定向模式,根據該定向模式,經由沿著一預定方向將從該當前區塊的相鄰樣本的一第三集合所導出的該當前區塊旁邊的一空間樣本值分佈投影到該當前區塊中來決定該幀內預測信號。
  10. 如申請專利範圍第1項所述之裝置,其中,該多個幀內預測模式還包括幀內預測模式的一另一集合,據其,該當前區塊的幀內預測信號係由使用一線性函數從該當前區塊的相鄰樣本的一第三集合所決定,其中相鄰樣本的該第一集合的一基數高於相鄰樣本的該第三集合的一基數。
  11. 如申請專利範圍第10項所述之裝置,其被配置為從該多個幀內預測模式中選擇該一個幀內預測模式時,響應於該資料流中的一個旗標,以便從幀內預測模式的該集合或幀內預測模式的該另一集合選擇該一個幀內預測模式。
  12. 一種用於將一圖片逐塊編碼成一資料流的裝置,該裝置支持多個幀內預測模式,該多個幀內預測模式包括幀內預測模式的至少一集合,根據該幀內預測模式,該圖片的一當前區塊的該幀內預測信號經由將該當前區塊的相鄰樣本的一第一集合應用到一神經網路上來決定,該裝置被配置為: 從該多個幀內預測模式中選擇該當前區塊一個幀內預測模式,並且 使用該一個幀內預測模式預測該當前區塊。
  13. 如申請專利範圍第12項所述之裝置,其被配置為: 使用一可變長度代碼將一索引編碼到該資料流中,該索引表示該選擇。
  14. 如申請專利範圍第12項所述之裝置,其被配置為: 取決於該資料流的一第一部分以決定幀內預測模式的該集合的一排序,其與該當前區塊的一鄰域相關,以便獲得預測模式的一有序列表,以及 從幀內預測模式的該有序列表中選擇該一個幀內預測模式,以及 形成除該第一部分之外的該資料流的一第二部分,以指示幀內預測模式的該有序列表中該選擇。
  15. 如申請專利範圍第12項所述之裝置,其被配置為: 對於幀內預測模式的該集合的每一個幀內預測模式,經由將相鄰樣本的一第二集合應用到一另一神經網路上來決定一秩,以便獲得幀內預測模式的一有序列表,以及 將一索引編碼到該資料流,其指到該有序列表中, 其中,該索引從該有序列表中選擇該一個幀內預測模式。
  16. 如申請專利範圍第15項所述之裝置,其被配置為使用一可變長度代碼從該資料流將該索引解碼到該有序列表。
  17. 如申請專利範圍第12項所述之裝置,其被配置為: 對於幀內預測模式的該集合的每一個幀內預測模式,經由將相鄰樣本的一第二集合應用到一另一神經網路上來決定一機率值, 使用該機率值將一索引熵編碼到該資料流中,其指到幀內預測模式的該集合中,該索引指向該一個幀內預測模式。
  18. 如申請專利範圍第14項所述之裝置,其中,相鄰樣本的該第一集合與相鄰樣本的該第二集合重合。
  19. 如申請專利範圍第12項所述之裝置,其中,幀內預測模式的該集合中的每一個,專屬地從該當前區塊的相鄰樣本的該第一集合中唯一地決定該當前區塊的該幀內預測信號。
  20. 如申請專利範圍第12項所述之裝置,其中,該多個幀內預測模式還包括幀內預測模式的一另一集合,其包括一DC模式中的一個或多個,根據該DC模式,該當前區塊被一DC值填充,或者一定向模式,根據該定向模式,經由沿著一預定方向將從當前區塊的相鄰樣本的一第三集合所導出的該當前區塊旁邊的一空間樣本值分佈投影到該當前區塊中來決定該幀內預測信號。
  21. 如申請專利範圍第12項所述之裝置,其中,該多個幀內預測模式還包括幀內預測模式的一另一集合,據其,該當前區塊的幀內預測信號係由使用一線性函數從該當前區塊的相鄰樣本的一第三集合所決定,其中相鄰樣本的該第一集合的一基數高於相鄰樣本的該第三集合的一基數。
  22. 如申請專利範圍第19項所述之裝置,其被配置為向該資料流提供一個旗標,以指示該一個幀內預測模式是幀內預測模式的該集合還是幀內預測模式的該另一集的成員。
  23. 一種用於設計用於基於區塊的圖片編碼的幀內預測模式的一集合(72)的裝置,被配置為: 將一第一圖像測試區塊鄰近的相鄰樣本的一第一集合應用到一第一神經網路上,以便對於幀內預測模式的該集合的每一個獲得用於該第一測試區塊的一預測信號,以及將該第一圖像測試區塊相鄰的相鄰樣本的一第二集合應用到一第二神經網路上,以便對於幀內預測模式的該集合的每一個獲得一機率值,其表示該各個幀內預測模式的一機率; 對於幀內預測模式的該集合中的每一個,決定用於與預測誤差編碼相關的編碼成本的一成本估計以及使用針對該各個幀內預測模式所獲得的該預測信號的模式信號通知; 更新該第一神經網路的第一參數和該第二神經網路的第二參數,以便減少一編碼成本函數,該編碼成本函數具有一第一加數及一第二加數,該第一加數根據最低編碼成本估計的該幀內預測模式所獲得的該預測信號俾形成一殘差率估計,該第二加數根據該預測信號和最低編碼成本估計的該幀內預測模式所獲得的該機率值,俾形成一模式信號通知輔助信息速率估計; 將一第二圖像測試區塊附近的相鄰樣本應用到具有該第一和第二參數的該第一神經網路及該第二神經網路上。
  24. 如申請專利範圍第23項所述之裝置,其中 該第一和第二神經網路是 序列的線性和非線性函數,其中該第一和第二參數包括該線性函數的權重; 形成一序列神經元階層的序列線性和非線性函數,或 序列的神經元階層,其中該第一和第二參數包括控制互連神經元之間的一信號強度轉發的權重。
  25. 如申請專利範圍第23項所述之裝置,其被配置為: 對於幀內預測模式的該集合中的每一個,決定與預測誤差編碼相關的編碼成本的該成本估計以及使用針對該各個幀內預測模式所獲得的該預測信號及該機率值的模式信號通知。
  26. 如申請專利範圍第23項所述之裝置,其被配置為: 對於幀內預測模式的該集合中的每一個,決定與預測誤差編碼和模式信號通知相關的編碼成本的該成本估計,作為一第一加數及一第二加數之一個加總,該第一加數針對該各個幀內預測模式所獲得的該預測信號和該第一圖片測試區塊的一原始未失真版本,俾映射到一預測誤差編碼率估計上,該第二加數針對該各個幀內預測模式所獲得的該機率值映射到一模式信號通知速率估計。
  27. 如申請專利範圍第23項所述之裝置,其中, 該編碼成本函數的第二加數根據針對最低編碼成本估計的該幀內預測模式所獲得的該預測信號形成該模式信號通知輔助信息速率估計,作為針對所有幀內預測模式獲得的該機率值的一函數,其表示最低編碼成本估計的該幀內預測模式的一交叉熵。
  28. 如申請專利範圍第23項所述之裝置,其中, 該編碼成本函數的第一加數根據針對最低編碼成本估計的該幀內預測模式所獲得的該預測信號形成該殘差率估計,作為針對該各個幀內預測模式所獲得的該預測信號以及該第一圖片測試區塊的一原始未失真版本的一函數。
  29. 如申請專利範圍第23項所述之裝置,其被配置為: 使用該第一和第二參數順序地重複多個圖像測試區塊的該應用、決定和更新,以作為一個圖像測試區塊更新,俾用於該多個圖像測試區塊的該下一個圖像測試區塊的該應用。
  30. 如申請專利範圍第23項所述之裝置,其被配置為: 將該多個圖像測試區塊細分為一第一集合以及一第二集合,該第一集合係更有效可編碼未經細分的,該第二集合係更有效地可編碼細分為子區塊,並使用該第一和第二參數順序地重複該第一集合的圖像測試區塊的該應用、決定和更新,以作為一個圖像測試區塊更新,俾用於該第一集合的該下一個圖像測試區塊的該應用。
  31. 如申請專利範圍第23項所述之裝置,其被配置為: 使用一梯度下降執行該更新。
  32. 如申請專利範圍第23項所述之裝置,其中,相鄰樣本的該第一集合與相鄰樣本的該第二集合重合。
  33. 一種用於一從資料流逐塊解碼一圖片的裝置,該裝置支持多個幀內預測模式,該裝置被配置為: 對於該多個幀內預測模式的幀內預測模式的至少一集合中的每一個,經由應用與一當前區塊相鄰的相鄰樣本的一第一集合到一神經網路上,來決定一秩或一機率值, 使用該秩或機率值從該多個幀內預測模式中選擇該當前區塊的一個幀內預測模式,以及 使用該一個幀內預測模式預測該當前區塊。
  34. 如申請專利範圍第33項所述之裝置,其被配置為: 根據該秩對幀內預測模式的該集合進行排序,以獲得幀內預測模式的一有序列表, 使用一可變長度代碼從該資料流解碼一索引,以及 使用該索引和該有序列表執行該選擇。
  35. 如申請專利範圍第33項所述之裝置,其被配置為: 使用該機率值從該資料流將該一索引熵解碼到幀內預測模式的該集合,以及 使用該索引執行該選擇。
  36. 如申請專利範圍第33項所述之裝置,其中,幀內預測模式的該集合中的每一個,專屬地從該當前區塊的相鄰樣本的一第一集合中唯一地決定該當前區塊的該幀內預測信號。
  37. 如申請專利範圍第33項所述之裝置,其中,該多個幀內預測模式包括一DC模式中的一個或多個,根據該DC模式,該當前區塊被一DC值填充,或者一定向模式,根據該定向模式,經由沿著一預定方向將從該當前區塊相鄰樣本的一第三集合所導出的該當前區塊旁邊的一空間樣本值分佈投影到該當前區塊中來決定該幀內預測信號。
  38. 如申請專利範圍第33項所述之裝置,其中,根據該多個幀內預測模式預測該當前區塊的該基礎,相鄰樣本的一集合的一基數在多個幀內預測模式之間係為不同。
  39. 一種用於將一圖片逐塊編碼成一資料流的裝置,該裝置支持多個幀內預測模式,該裝置被配置為: 對於該多個幀內預測模式的幀內預測模式中的至少一集合的每一個,經由應用與一當前區塊相鄰的相鄰樣本的一第一集合到一神經網路上,來決定一秩或一機率值, 使用該秩或機率值從該多個幀內預測模式中選擇該當前區塊的一個幀內預測模式,以及 使用該一個幀內預測模式預測該當前區塊。
  40. 如申請專利範圍第39項所述之裝置,其被配置為: 根據該秩對幀內預測模式的該集合進行排序,以獲得幀內預測模式的一有序列表, 使用一可變長度代碼將一索引編碼到該資料流中, 其中,該索引索引該有序列表中的一個幀內預測模式。
  41. 申請專利範圍第39項所述之裝置,其被配置為: 使用該機率值將一索引熵編碼到該資料流中,其指到幀內預測模式的該集合中, 其中,該索引指向幀內預測模式的該集合中的該一個幀內預測模式。
  42. 如申請專利範圍第39項所述之裝置,其中,該多個幀內預測模式中的每一個,專屬地從該當前區塊的相鄰樣本的一第二集合唯一地決定該當前區塊的該幀內預測信號。
  43. 如申請專利範圍第39項所述之裝置,其中,該多個幀內預測模式包括一DC模式中的一個或多個,根據該DC模式,該當前區塊被一DC值填充,或者一定向模式,根據該定向模式,經由沿著一預定方向將從該當前區塊的相鄰樣本的一第三集合所導出的該當前區塊旁邊的一空間樣本值分佈投影到該當前區塊中來決定該幀內預測信號。
  44. 如申請專利範圍第39項所述之裝置,其中,根據該多個幀內預測模式預測該當前區塊的該基礎,相鄰樣本的一集合的一基數在多個幀內預測模式之間係為不同。
  45. 一種用於設計神經網路的裝置,用於幫助針對基於區塊的圖像編碼的幀內預測模式的一集合中進行選擇,被配置為: 使用幀內預測模式的該集合中的每一個,預測來自與該第一圖像測試區塊相鄰的相鄰樣本的一第一集合的一第一圖像測試區塊,以便為幀內預測模式的該集合的每一個獲得該第一測試區塊的一預測信號,並將相鄰樣本的該第一集合應用到該神經網路上,以便為幀內預測模式的該集合的每一個獲得指示該各個幀內預測模式的一機率的一機率值; 對幀內預測模式的該集合的每一個,決定與預測誤差編碼相關的編碼成本的一成本估計以及使用針對該各個幀內預測模式所獲得的該預測信號的模式信號通知; 更新該神經網路的參數,以便減少一編碼成本函數,該編碼成本函數具有一第一加數及一第二加數,該第一加數根據最低編碼成本估計的該幀內預測模式所獲得的該預測信號,俾形成一殘差率估計,該第二加數根據該預測信號和最低編碼成本估計的該幀內預測模式所獲得的該機率值,俾形成一模式信號通知輔助信息速率估計;以及 針對一第二預測文本區塊及其相鄰樣本的集合重新進行預測和應用,並更新該參數。
  46. 如申請專利範圍第45項所述之裝置,其中,該神經網路係為: 一序列的線性和非線性函數,其中該參數包括線性函數的權重; 形成一序列神經元階層的一序列的線性和非線性函數,或 一序列的神經元階層,其中該參數包括控制互連神經元之間的一信號強度轉發的權重。
  47. 如申請專利範圍第45項所述之裝置,其中,對於幀內預測模式的該集合中的每一個,決定與預測誤差編碼相關的編碼成本的該成本估計以及使用針對該各個幀內預測模式所獲得的該預測信號及該機率值的模式信號通知。
  48. 如申請專利範圍第45項所述之裝置,被配置為: 對於幀內預測模式的該集合中的每一個,決定與預測誤差編碼和模式信號通知相關的編碼成本的該成本估計,作為一第一加數及一第二加數之一個加總,該第一加數針對該各個幀內預測模式所獲得的該預測信號和該第一圖片測試區塊的一原始未失真版本,俾映射到一預測誤差編碼率估計上,該第二加數針對該各個幀內預測模式所獲得的該機率值映射到一模式信號通知速率估計。
  49. 如申請專利範圍第45項所述之裝置,其中,該編碼成本函數的第二加數根據針對最低編碼成本估計的該幀內預測模式所獲得的該預測信號形成該模式信號通知輔助信息速率估計,作為針對所有幀內預測模式獲得的該機率值的一函數,其表示最低編碼成本估計的該幀內預測模式的一交叉熵。
  50. 如申請專利範圍第45項所述之裝置,其中, 該編碼成本函數的第一加數根據針對最低編碼成本估計的該幀內預測模式所獲得的該預測信號形成該殘差率估計,作為針對該各個幀內預測模式所獲得的該預測信號以及該第一圖片測試區塊的一原始未失真版本的一函數。
  51. 如申請專利範圍第45項所述之裝置,其被配置為: 使用該參數順序地重複多個圖像測試區塊的該預測、應用、決定和更新,以作為一個圖像測試區塊更新,俾用於該多個圖像測試區塊的該下一個圖像測試區塊的該應用。
  52. 如申請專利範圍第45項所述之裝置,其被配置為: 使用該梯度下降執行該更新。
  53. 一種用於從一資料流逐塊解碼一圖片的方法,其支持多個幀內預測模式,其包括幀內預測模式的至少一集合,據其,該圖片的一當前區塊的該幀內預測信號經由將該當前區塊的相鄰樣本的一第一集合應用到一神經網路上來決定,該方法包括: 從該多個幀內預測模式中選擇該當前區塊的一個幀內預測模式,以及 使用該一個幀內預測模式預測該當前區塊。
  54. 一種用於將一圖片逐塊編碼成一資料流的方法,其支持多個幀內預測模式,該多個幀內預測模式包括幀內預測模式的至少一集合,根據該幀內預測模式,經由將該當前區塊的相鄰樣本的一第一集合應用到一神經網路上來決定用於該圖片的一當前區塊的該預測信號,該方法包括: 從該多個幀內預測模式中選擇該當前區塊的一個幀內預測模式,以及 使用該一個幀內預測模式預測該當前區塊。
  55. 一種用於設計用於基於區塊的圖片編碼的幀內預測模式的一集合的方法,包括: 將一第一圖像測試區塊相鄰的相鄰樣本的一第一集合應用到一第一神經網路上,以便對於幀內預測模式的該集合的每一個獲得用於該第一測試區塊的一預測信號,以及將該第一圖像測試區塊相鄰的相鄰樣本的一第二集合應用到一第二神經網路上,以便對於幀內預測模式的該集合的每一個獲得一機率值,其表示該各個幀內預測模式的一機率; 對於幀內預測模式的該集合中的每一個,決定用於與預測誤差編碼相關的編碼成本的一成本估計以及使用針對該各個幀內預測模式所獲得的該預測信號的模式信號通知; 更新該第一神經網路的第一參數和該第二神經網路的第二參數,以便減少一編碼成本函數,該編碼成本函數具有一第一加數及一第二加數,該第一加數根據最低編碼成本估計的該幀內預測模式所獲得的該預測信號,俾形成一殘差率估計,該第二加數根據該預測信號和最低編碼成本估計的該幀內預測模式所獲得的該機率值,俾形成一模式信號通知輔助信息速率估計; 將一第二圖像測試區塊附近的相鄰樣本應用到具有該第一和第二參數的該第一神經網路及該第二神經網路上。
  56. 一種用於從一資料流逐塊解碼一圖片的方法,其支持多個幀內預測模式,該方法包括: 對於該多個幀內預測模式的幀內預測模式的至少一集合中的每一個,經由應用與一當前區塊相鄰的相鄰樣本的一第一集合到一神經網路上,來決定一秩或一機率值, 使用該秩或機率值從該多個幀內預測模式中選擇該當前區塊的一個幀內預測模式,以及 使用該一個幀內預測模式預測該當前區塊。
  57. 一種用於將一圖片逐塊編碼成一資料流的方法,其支持多種幀內預測模式,該方法包括: 對於該多個幀內預測模式的幀內預測模式的至少一集合中的每一個,經由應用與一當前區塊相鄰的相鄰樣本的一第一集合到一神經網路上,來決定一秩或一機率值, 使用該秩或機率值從該多個幀內預測模式中選擇該當前區塊的一個幀內預測模式,以及 使用該一個幀內預測模式預測該當前區塊。
  58. 一種用於設計一神經網路的方法,用於幫助針對基於區塊的圖像編碼的幀內預測模式的一集合中進行選擇,該方法包括: 使用幀內預測模式的該集合中的每一個,預測來自與該第一圖像測試區塊相鄰的相鄰樣本的一第一集合的一第一圖像測試區塊,以便為幀內預測模式的該集合的每一個獲得該第一測試區塊的一預測信號,並將相鄰樣本的該第一集合應用到該神經網路上,以便為幀內預測模式的該集合的每一個獲得指示該各個幀內預測模式的一機率的一機率值; 對幀內預測模式的該集合的每一個,決定與預測誤差編碼相關的編碼成本的一成本估計以及使用針對該各個幀內預測模式所獲得的該預測信號的模式信號通知; 更新該神經網路的參數,以便減少一編碼成本函數,該編碼成本函數具有一第一加數及一第二加數,該第一加數根據最低編碼成本估計的該幀內預測模式所獲得的該預測信號,俾形成一殘差率估計,該第二加數根據該預測信號和最低編碼成本估計的該幀內預測模式所獲得的該機率值,俾形成一模式信號通知輔助信息速率估計; 針對一第二預測文本區塊及其相鄰樣本的集合重新進行預測和應用,並更新該參數。
  59. 一種計算機程式,具有一程式代碼,用於在計算機上運行時執行根據申請專利範圍第53項至第58項中任一項所述的方法。
  60. 一種使用根據申請專利範圍第54項或第57項的方法所生成的資料流。
TW107135727A 2017-10-13 2018-10-11 用於逐塊圖片編碼的幀內預測模式概念 TWI702824B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
??17196402.6 2017-10-13
EP17196402 2017-10-13
EP17196402.6 2017-10-13

Publications (2)

Publication Number Publication Date
TW201924331A true TW201924331A (zh) 2019-06-16
TWI702824B TWI702824B (zh) 2020-08-21

Family

ID=60083873

Family Applications (2)

Application Number Title Priority Date Filing Date
TW109124384A TWI794623B (zh) 2017-10-13 2018-10-11 用於逐塊圖片編碼的幀內預測模式概念
TW107135727A TWI702824B (zh) 2017-10-13 2018-10-11 用於逐塊圖片編碼的幀內預測模式概念

Family Applications Before (1)

Application Number Title Priority Date Filing Date
TW109124384A TWI794623B (zh) 2017-10-13 2018-10-11 用於逐塊圖片編碼的幀內預測模式概念

Country Status (7)

Country Link
US (3) US11363259B2 (zh)
EP (1) EP3695599A1 (zh)
JP (1) JP7210568B2 (zh)
KR (1) KR102454936B1 (zh)
CN (2) CN117768643A (zh)
TW (2) TWI794623B (zh)
WO (1) WO2019072921A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110708559A (zh) * 2019-09-03 2020-01-17 北京达佳互联信息技术有限公司 图像处理方法、装置及存储介质

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240133755A (ko) 2018-03-29 2024-09-04 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 블록 단위의 화상 코딩을 위한 인트라 예측 모드 개념
KR20240007716A (ko) 2018-09-13 2024-01-16 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 아핀 선형 가중 인트라 예측
US11599773B2 (en) 2018-12-27 2023-03-07 Micron Technology, Inc. Neural networks and systems for decoding encoded data
EP3987808A4 (en) * 2019-06-19 2023-07-05 Nokia Technologies Oy METHOD, APPARATUS AND COMPUTER PROGRAM PRODUCT FOR VIDEO CODING AND DECODING
US11424764B2 (en) 2019-11-13 2022-08-23 Micron Technology, Inc. Recurrent neural networks and systems for decoding encoded data
KR20220121827A (ko) * 2019-12-06 2022-09-01 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 모드 전역 설정에 의한 행렬 기반 인트라 예측
US12108050B2 (en) 2020-02-21 2024-10-01 Nokia Technologies Oy Method, an apparatus and a computer program product for video encoding and video decoding
CN115104301A (zh) * 2020-02-21 2022-09-23 交互数字Vc控股法国公司 用于视频编码或解码的基于神经网络的帧内预测
CN111800642B (zh) * 2020-07-02 2023-05-26 中实燃气发展(西安)有限公司 Hevc帧内角度模式选择方法、装置、设备及可读存储介质
US20220094977A1 (en) * 2020-09-23 2022-03-24 Electronics And Telecommunications Research Institute Method, apparatus and storage medium for image encoding/decoding
CN114286099A (zh) * 2020-09-28 2022-04-05 华为技术有限公司 帧内预测方法及装置
CN114584776A (zh) * 2020-11-30 2022-06-03 华为技术有限公司 帧内预测模式的译码方法和装置
US20220201295A1 (en) * 2020-12-21 2022-06-23 Electronics And Telecommunications Research Institute Method, apparatus and storage medium for image encoding/decoding using prediction
US11496746B2 (en) 2021-02-02 2022-11-08 Qualcomm Incorporated Machine learning based rate-distortion optimizer for video compression
CN114915782A (zh) * 2021-02-10 2022-08-16 华为技术有限公司 一种编码方法、解码方法及设备
JP7568835B2 (ja) 2021-04-23 2024-10-16 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 画像復号方法、画像符号化方法、画像復号装置、及び画像符号化装置
US11973513B2 (en) 2021-04-27 2024-04-30 Micron Technology, Inc. Decoders and systems for decoding encoded data using neural networks
US11563449B2 (en) 2021-04-27 2023-01-24 Micron Technology, Inc. Systems for error reduction of encoded data using neural networks
CN117441336A (zh) * 2021-06-11 2024-01-23 Oppo广东移动通信有限公司 一种视频编解码方法、装置、系统及存储介质
US11755408B2 (en) * 2021-10-07 2023-09-12 Micron Technology, Inc. Systems for estimating bit error rate (BER) of encoded data using neural networks

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4735375B2 (ja) * 2006-04-04 2011-07-27 株式会社日立製作所 画像処理装置及び動画像符号化方法。
JP2009111691A (ja) * 2007-10-30 2009-05-21 Hitachi Ltd 画像符号化装置及び符号化方法、画像復号化装置及び復号化方法
JP5421757B2 (ja) * 2009-12-11 2014-02-19 株式会社Kddi研究所 画像符号化装置
JP5222870B2 (ja) * 2010-03-05 2013-06-26 日本放送協会 イントラ予測装置、符号化器、復号器及びプログラム
KR101373814B1 (ko) * 2010-07-31 2014-03-18 엠앤케이홀딩스 주식회사 예측 블록 생성 장치
US10171813B2 (en) 2011-02-24 2019-01-01 Qualcomm Incorporated Hierarchy of motion prediction video blocks
JP5482735B2 (ja) * 2011-05-30 2014-05-07 株式会社Jvcケンウッド 画像復号装置、画像復号方法及び画像復号プログラム、並びに、受信装置、受信方法、及び受信プログラム
GB2491391B (en) * 2011-06-02 2014-09-03 Canon Kk Encoding mode values representing prediction modes
TWI561063B (en) 2012-01-30 2016-12-01 Samsung Electronics Co Ltd Apparatus for decoding video
KR102517615B1 (ko) * 2015-06-12 2023-04-04 파나소닉 아이피 매니지먼트 가부시키가이샤 화상 부호화 방법, 화상 복호 방법, 화상 부호화 장치 및 화상 복호 장치
CN105430415B (zh) * 2015-12-02 2018-02-27 宁波大学 一种3d‑hevc深度视频帧内快速编码方法
WO2019009491A1 (ko) * 2017-07-06 2019-01-10 삼성전자 주식회사 영상을 부호화 또는 복호화하는 방법 및 장치
WO2019197712A1 (en) * 2018-04-09 2019-10-17 Nokia Technologies Oy An apparatus, a method and a computer program for video coding and decoding
US11240492B2 (en) * 2019-01-22 2022-02-01 Apple Inc. Neural network based residual coding and prediction for predictive coding
US11575938B2 (en) * 2020-01-10 2023-02-07 Nokia Technologies Oy Cascaded prediction-transform approach for mixed machine-human targeted video coding
CN111901592B (zh) * 2020-06-30 2023-01-17 北京大学 预测编码神经网络权重更新方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110708559A (zh) * 2019-09-03 2020-01-17 北京达佳互联信息技术有限公司 图像处理方法、装置及存储介质
CN110708559B (zh) * 2019-09-03 2022-03-25 北京达佳互联信息技术有限公司 图像处理方法、装置及存储介质

Also Published As

Publication number Publication date
KR102454936B1 (ko) 2022-10-17
CN111466115A (zh) 2020-07-28
TW202119818A (zh) 2021-05-16
JP2020537445A (ja) 2020-12-17
EP3695599A1 (en) 2020-08-19
US20220321881A1 (en) 2022-10-06
US20200244955A1 (en) 2020-07-30
US20240137500A1 (en) 2024-04-25
CN111466115B (zh) 2023-12-15
TWI702824B (zh) 2020-08-21
US11889066B2 (en) 2024-01-30
TWI794623B (zh) 2023-03-01
KR20200062322A (ko) 2020-06-03
US11363259B2 (en) 2022-06-14
CN117768643A (zh) 2024-03-26
JP7210568B2 (ja) 2023-01-23
WO2019072921A1 (en) 2019-04-18

Similar Documents

Publication Publication Date Title
TWI794623B (zh) 用於逐塊圖片編碼的幀內預測模式概念
JP7516584B2 (ja) ブロック単位の画像符号化のためのイントラ予測モードの概念
CN106454346B (zh) 编码和解码图像的方法、编码和解码设备
EP3056002A2 (en) Method for encoding and decoding a media signal and apparatus using the same
CN105007486B (zh) 编码和解码图像的方法、编码和解码设备