TW202349956A - 在視訊編解碼系統中使用解碼器導出的幀內預測的方法和裝置 - Google Patents

在視訊編解碼系統中使用解碼器導出的幀內預測的方法和裝置 Download PDF

Info

Publication number
TW202349956A
TW202349956A TW112113135A TW112113135A TW202349956A TW 202349956 A TW202349956 A TW 202349956A TW 112113135 A TW112113135 A TW 112113135A TW 112113135 A TW112113135 A TW 112113135A TW 202349956 A TW202349956 A TW 202349956A
Authority
TW
Taiwan
Prior art keywords
current block
intra
template
prediction
mode
Prior art date
Application number
TW112113135A
Other languages
English (en)
Inventor
蔡佳銘
陳俊嘉
江嫚書
林郁晟
徐志瑋
莊子德
陳慶曄
黃毓文
Original Assignee
聯發科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 聯發科技股份有限公司 filed Critical 聯發科技股份有限公司
Publication of TW202349956A publication Critical patent/TW202349956A/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

公開了用於視訊編解碼的方法和裝置。 根據一種方法,基於當前塊的模板或者基於使用從當前塊的模板導出的角場的統計資料或直方圖的解碼器側幀內模式導出(DIMD)來從垂直預測和水平預測之間確定當前塊的預測方向。 根據另一種方法,根據區域劃分將當前塊劃分爲第一區域和第二區域。 基於幀間編解碼對第一區域進行編碼或解碼。 根據幀內編解碼對第二區域進行編碼或解碼。 基於當前塊的模板或者基於使用從當前塊的模板導出的角場的統計資料或直方圖的DIMD來確定至少一部分區域分割參數、一部分幀間編解碼參數或者一部分幀內編解碼參數。

Description

在視訊編解碼系統中使用解碼器導出的幀內預測的方法和裝置
本發明涉及視訊編解碼系統中的幀內預測。 具體地,本發明涉及與塊差分脈衝編解碼調製(Block Differential Pulse Coded Modulation,簡寫為BDPCM)和幀間幀內混合(inter-intra mixed)幾何分區模式 (Geometric Partition Mode,簡寫為GPM)相關聯的編解碼參數的位元節省。
通用視訊編解碼(VVC)是由ITU-T視訊編解碼專家組(VCEG)和ISO/IEC運動圖像專家組的聯合視訊專家組(JVET)制定的最新國際視訊編解碼標準(MPEG)。 該標準已作為 ISO 標準發佈:ISO/IEC 23090-3:2021,Information technology - Coded representation of immersive media - Part 3: Versatile video coding,2021 年 2 月發佈。通過基於其前身HEVC(High Efficiency Video coding),添加更多編解碼工具來提高編解碼效率,並處理各種類型的視訊源,包括 3 維(3D)視訊訊號,發展出VVC。
第1A圖說明了包含迴圈處理的示例性適應性幀間/幀內(adaptive Inter/Intra)視訊編解碼系統。 對於幀內預測,預測資料是根據當前圖片(在後文中也稱為畫面)中先前編解碼的視訊資料導出的(derived)。 對於幀間預測112,在編碼器側執行運動估計(Motion Estimation,簡寫為ME)並且基於ME的結果執行運動補償(Motion Compensation,簡寫為MC)以提供從其他畫面和運動資料導出的預測資料。 開關114選擇幀內預測110或幀間預測112並且所選擇的預測資料被提供給加法器116以形成預測誤差,也稱為殘差(residual)。 預測誤差然後由變換(T) 118和隨後的量化(Q) 120處理。變換和量化的殘差然後由熵編碼器122編碼以包括在對應於壓縮視訊資料的視訊位元流中。 然後,與變換係數相關聯的位元流將與輔助資訊(side information)(例如與幀內預測和幀間預測相關聯的運動和解碼模式)以及其他資訊(例如與應用於底層圖像區域(underlying image area)的環路濾波器相關聯的參數)一起打包。 與幀內預測110、幀間預測112和環路濾波器130相關聯的輔助資訊被提供給熵編碼器122,如第1A圖所示。 當使用幀間預測模式時,也必須在編碼器端重建一個或多個參考圖片。 因此,經變換和量化的殘差由逆量化(IQ)124和逆變換(IT)126處理以恢復殘差。 然後在重建(REC)128處將殘差加回到預測資料136以重建視訊資料。 重建的視訊資料可以存儲在參考圖片緩衝器134中並用於預測其他幀。
如第1A圖所示,輸入的視訊資料在編碼系統中經過一系列處理。 由於一系列處理,來自 REC 128 的重建的視訊資料可能會受到各種損害。 因此,環路濾波器130經常在重建的視訊資料被存儲在參考圖片緩衝器134中之前應用於重建的視訊資料以提高視訊品質。 例如,可以使用去塊濾波器(deblocking filter,簡寫為DF)、採樣適應性偏移(Sample Adaptive Offset,簡寫為SAO)和適應性環路濾波器(Adaptive Loop Filter,簡寫為ALF)。 可能需要將環路濾波器資訊合併到位元流中,以便解碼器可以正確地恢復所需的資訊。 因此,環路濾波器資訊也被提供給熵編碼器122以合併到位元流中。 在第1A圖中,環路濾波器130在重建採樣被存儲在參考圖片緩衝器134中之前被應用於重建的視訊。第1A圖中的系統旨在說明典型視訊編碼器的示例性結構。 它可能對應於高效視訊編解碼(HEVC)系統、VP8、VP9、H.264或VVC。
如第1B圖所示,除了變換 118 和量化 120 之外,解碼器可以使用與編碼器相似或相同的功能塊,因為解碼器只需要逆量化 124 和逆變換 126。取代熵編碼器122,解碼器使用熵解碼器140將視訊位元流解碼為量化的變換係數和需要的編解碼資訊(例如ILPF資訊、幀內預測資訊和幀間預測資訊)。 解碼器側的幀內預測150不需要執行模式搜索。 相反,解碼器僅需要根據從熵解碼器140接收的幀內預測資訊生成幀內預測。此外,對於幀間預測,解碼器僅需要根據從熵解碼器140接收的幀間預測資訊執行運動補償(MC 152)而無需運動估計。
根據 VVC,與 HEVC 類似,輸入圖片被劃分(partition)為稱為 CTU(編解碼樹單元)的非重疊方形塊區域。 每個 CTU 可以劃分為一個或多個更小的編解碼單元 (CU)。 生成的 CU 分區可以是正方形或矩形。 此外,VVC 將 CTU 劃分為預測單元 (PU),作為應用預測處理的單元,例如幀間預測、幀內預測等。
VVC標準結合了各種新的編解碼工具,以進一步在HEVC標準基礎上提高編解碼效率。 在各種新的編解碼工具中,與本發明相關的一些編解碼工具綜述如下。
使用樹結構劃分 CTU
在 HEVC 中,CTU 通過使用表示為編解碼樹的四叉樹 (quaternary-tree,簡寫為QT) 結構被分成 CU 以適應各種局部特徵。 使用圖片間(inter-picture)(時間)(temporal)還是圖片內(intra-picture )(空間)(spatial)預測對圖片區域進行編解碼的決定是在葉 CU 級別做出的。 每個葉CU可以根據PU分割類型(splitting type)進一步分割成一個、兩個或四個PU。 在一個 PU 內部,應用相同的預測過程,並將相關資訊以 PU 為基礎傳輸到解碼器。 在通過應用基於 PU 分割類型的預測過程獲得殘差塊後,可以根據類似於 CU 的編解碼樹的另一種四叉樹結構將葉 CU 劃分為變換單元 (TU)。 HEVC結構的關鍵特徵之一是它具有多個分區概念,包括CU、PU和TU。
在VVC中,使用二元和三元分割分段結構(binary and ternary splits segmentation structure)的具有嵌套多類型樹(nested multi-type tree)的四叉樹取代了多劃分單元類型的概念,即它去除了CU、PU和TU概念的分離(separation)(除了對於具有對於最大變換長度來說尺寸太大的CU),並且支持更靈活(flexibility)的 CU 分區形狀。 在解碼樹結構中,CU可以是正方形或長方形。 一個編解碼樹單元(CTU)首先被一個四叉樹(又名四元樹(quadtree))結構劃分。 然後四叉樹葉節點可以進一步劃分為多類型樹結構。 如第2圖所示,多類型樹結構中有四種分割類型,垂直二元分割(SPLIT_BT_VER 210)、水平二元分割(SPLIT_BT_HOR 220)、垂直三元分割(SPLIT_TT_VER 230)、水平三元分割(SPLIT_TT_HOR 240)。多類型樹葉節點稱為編解碼單元(CU),除非 CU 對於最大變換長度來說太大,否則此分段用於預測和變換處理,而無需進一步劃分。 這意味著,在大多數情況下,CU、PU 和 TU 在具有嵌套多類型樹塊結構的四叉樹中具有相同的塊大小。 當支持的最大變換長度小於 CU 顏色分量的寬度或高度時會發生例外(exception)。
第3圖說明了嵌套多類型樹編解碼樹結構的四叉樹中劃分分割資訊的發信(signaling)機制。 編解碼樹單元(CTU)被視為四叉樹的根,並首先由四叉樹結構劃分。 每個四元樹葉節點(當足夠大以允許它時)然後由多類型樹結構進一步劃分。 在多類型樹結構中,發信第一標誌(mtt_split_cu_flag)以指示節點是否被進一步劃分; 當一個節點被進一步劃分時,發信第二標誌(mtt_split_cu_vertical_flag)以指示分割方向,然後發信第三標誌(mtt_split_cu_binary_flag)以指示分割是二元分割還是三元分割。 根據mtt_split_cu_vertical_flag和mtt_split_cu_binary_flag的值,推導出CU的多類型樹分割模式(MttSplitMode),如表1所示。 表 1 – 基於多類型樹句法元素(syntax element)的 MttSplitMode 推導
MttSplitMode mtt_split_cu_vertical_flag mtt_split_cu_binary_flag
SPLIT_TT_HOR 0 0
SPLIT_BT_HOR 0 1
SPLIT_TT_VER 1 0
SPLIT_BT_VER 1 1
第4圖顯示了利用四叉樹和嵌套的多類型樹編解碼塊結構將一個 CTU 分成多個 CU,其中粗體塊邊緣表示四叉樹劃分,其餘邊緣表示多類型樹劃分。 具有嵌套多類型樹劃分的四叉樹提供了由 CU 組成的內容適應性編解碼樹結構。 CU 的大小可以與 CTU 一樣大,也可以以亮度(luma)採樣為單位小至 4×4。 對於 4:2:0 色度(chroma)格式,最大色度 CB 大小為 64×64,最小大小色度 CB 由 16 個色度採樣組成。
在VVC中,支持的最大亮度變換大小為64×64,支持的最大色度變換大小為32×32。 當 CB 的寬度或高度大於最大變換寬度或高度時,CB 會自動在水平和/或垂直方向上拆分以滿足該方向上的變換大小限制。
以下參數由用於具有嵌套多類型樹編解碼樹方案的四叉樹的SPS句法元素定義和指定。 CTU大小(CTU size):四叉樹的根節點大小 MinQTSize:允許的最小四叉樹葉節點大小 MaxBtSize:允許的最大二叉樹根節點大小 MaxTtSize:允許的最大三叉樹根節點大小 MaxMttDepth:從四叉樹葉分割出的多類型樹的允許的最大層次深度(hierarchy depth) MinBtSize:允許的最小二叉樹葉節點大小 MinTtSize:允許的最小三叉樹葉節點大小
在具有嵌套(nested)多類型樹編解碼樹結構的四叉樹的一個示例中,CTU大小設置為128×128亮度採樣和4:2:0色度採樣的兩個對應的64×64塊,MinQTSize設置為 16×16,MaxBtSize 設置為 128×128,MaxTtSize 設置為 64×64,MinBtSize 和 MinTtSize(寬度和高度)設置為 4×4,MaxMttDepth 設置為 4。 四叉樹劃分首先應用於 CTU 以生成四叉樹葉節點。 四叉樹葉節點的大小可以從 16×16(即 MinQTSize)到 128×128(即 CTU 大小)。 如果葉QT節點為128×128,由於大小超過了MaxBtSize和MaxTtSize(即64×64),二叉樹將不再進一步分割。 否則,葉 qdtree 節點可能會被多類型樹進一步劃分。 因此,四叉樹葉節點也是多類型樹的根節點,其多類型樹深度(mttDepth)為0。當多類型樹深度達到MaxMttDepth(即4)時,不再考慮進一步分割。 當多類型樹節點的寬度等於MinBtSize且小於或等於2 * MinTtSize時,不再考慮進一步水平分割。 類似地,當多類型樹節點的高度等於MinBtSize且小於或等於2 * MinTtSize時,不考慮進一步的垂直分割。
為了在 VVC 硬體解碼器中允許 64×64 亮度塊和 32×32 色度管線設計(pipelining design),當亮度編解碼塊的寬度或高度大於 64 時,禁止 TT 拆分,如第5圖所示。其中塊 500 對應於 128x128 亮度 CU。 可以使用垂直二進位劃分(510)或水平二進位劃分(520)來拆分CU。 將塊拆分成4個CU,每個CU大小為64x64,CU可以進一步使用包括TT在內的分區進行拆分。 例如,左上角的 64x64 CU 使用垂直三元拆分(vertical ternary splitting) (530) 或水平三元拆分(horizontal ternary splitting)(540) 進行劃分。 當色度編解碼塊的寬度或高度大於 32 時,也禁止 TT 拆分。
在VVC中,編解碼樹方案支持亮度和色度具有單獨的塊樹結構(block tree structure)的能力。 對於 P 和 B 切片,一個 CTU 中的亮度和色度 CTB 必須共用相同的編解碼樹結構。 然而,對於 I 切片,亮度和色度可以具有單獨的塊樹結構。 當應用分離塊樹模式(separate block tree mode)時,亮度CTB被一個編解碼樹結構劃分成CU,色度CTB被另一個編解碼樹結構劃分成色度CU。 這意味著 I 切片中的 CU 可能由亮度分量的編解碼塊或兩個色度分量的編解碼塊組成,而 P 或 B 切片中的 CU 總是由所有三個顏色分量的編解碼塊組成,除非視訊是單色(monochrome)的。
虛擬管線資料單元( Virtual Pipeline Data Unit ,簡寫為 VPDU
虛擬管線資料單元(VPDU)被定義為畫面中的非重疊單元。 在硬體解碼器中,連續的 VPDU 由多個管線級同時處理。 在大多數管線級,VPDU 大小與緩衝區大小大致成正比,因此保持 VPDU 大小較小很重要。 在大多數硬體解碼器中,VPDU 大小可以設置為最大變換塊 (transform block,簡寫為TB) 大小。 然而,在 VVC 中,三叉樹 (TT) 和二叉樹 (BT)劃分可能會導致 VPDU 大小增加。
為了將 VPDU 大小保持為 64x64 亮度採樣,在 VTM 中應用以下規範劃分限制(具有語法信令修改),如第7圖所示: – 對於寬度或高度等於128或寬度和高度都等於 128 的 CU,不允許進行 TT 拆分(如第7圖中的“X”所示)。 – 對於 N ≤ 64(即寬度等於 128 且高度小於 128)的 128xN CU,不允許水平 BT。
對於N≤64(即高度等於128且寬度小於128)的Nx128CU,不允許垂直BT。 在第6圖中,亮度塊大小為 128x128。 虛線表示塊大小為 64x64。 根據上述限制,不允許劃分的例子用“X”表示,如第6圖中的各種例子(610-680)所示。
具有 67 種幀內預測模式的幀內模式編解碼
為了捕獲自然視訊中呈現的任意邊緣方向(arbitrary edge direction),VVC 中的定向幀內模式(directional intra mode)的數量從 HEVC 中使用的 33 個擴展到 65 個。第7圖中示出了HEVC中沒有的新定向模式(以紅色點狀箭頭示出),而平面(planar)和DC模式保持不變。 這些更密集的定向幀內預測模式適用於所有塊大小以及亮度和色度幀內預測。
在VVC中,針對非方形塊,幾種傳統的角度幀內預測模式被適應性地替換為廣角幀內預測模式。
在HEVC中,每個幀內編解碼塊具有正方形形狀並且其每條邊的長度是2的冪。因此,不需要除法操作(division operation)來使用DC模式生成幀內預測子(intra-predictor)。 在 VVC 中,塊可以具有矩形形狀,這在一般情況下需要對每個塊使用除法運算。 為了避免 DC 預測的除法操作,只有較長的邊用於計算非方形塊的平均值。
為了保持最可能模式(most probable mode,簡寫為MPM)列表生成的複雜性較低,通過考慮兩個可用的鄰域幀內模式,使用具有 6 個 MPM 的幀內模式編解碼方法。 構建MPM列表考慮以下三個方面: – 預設幀內模式 – 鄰域幀內模式 – 導出的幀內模式。
統一的(unified)6-MPM列表用於幀內塊,而不管是否應用MRL和ISP編解碼工具。 MPM 列表是基於左側和上方鄰域塊的幀內模式構建的。 假設左側的模式記為Left,上方塊的模式記為Above,則統一的MPM列表構造如下: – 當鄰域塊不可用時,其幀內模式預設設置為Planar。 – 如果 Left 和 Above 兩種模式都是非角度模式(non-angular mode): – MPM 列表 → {Planar, DC, V, H, V − 4, V + 4} – 如果 Left 和 Above 模式之一是角度模式(angular mode),另一個是非角度模式: – 將模式 Max 設置為 Left 和 Above 中的較大模式 – MPM 列表→ {Planar, Max, DC, Max − 1, Max + 1, Max − 2} – 如果 Left 和 Above 都是有角度的並且它們不同: – 將模式 Max 設置為 Left 和 Above 中的較大模式 – 如果模式 Left 和 Above 的差異在 2 到 62 的範圍內,包括2和62 • MPM 列表→ {Planar, Left, Above, DC, Max − 1, Max + 1} – 否則 • MPM 列表→  {Planar, Left, Above, DC, Max − 2, Max + 2} – 如果 Left 和 Above 都是有角度的並且它們是相同的: – MPM 列表→  {Planar, Left, Left − 1, Left + 1, DC, Left − 2}
此外,MPM索引碼字的第一個位元子(bin)是CABAC上下文編解碼的。 總共使用了三個上下文,對應於當前幀內塊是啟用 MRL、啟用 ISP 還是正常幀內塊。
在6 MPM列表生成過程中,修剪(pruning)用於去除重複的模式,使得只有獨特的模式可以被包括到MPM列表中。 對於 61 種非 MPM 模式的熵編解碼,使用截斷的二進位編解碼 (Truncated Binary Code,簡寫為TBC)。
在本發明中,公開了進一步減少與幀內預測相關的資料的方法和裝置。
公開了一種用於視訊編解碼的方法和裝置。 根據該方法,在編碼器側接收與當前塊相關聯的像素資料或者在解碼器側接收與要解碼的當前塊相關聯的已編碼資料。 基於當前塊的模板或者基於使用從當前塊的模板導出的角場的統計資料或直方圖的解碼器側幀內模式導出,從垂直預測和水平預測之間確定針對當前塊的預測方向。 在預測方向上使用BDPCM(塊差分脈衝編碼調製)對當前塊進行編碼或解碼。 在一實施例中,模板包括當前塊的鄰近區域中的一個或多個採樣線。
根據另一種方法,根據區域分割將當前塊分割為第一區域和第二區域。 基於幀間編解碼對第一區域進行編碼或解碼。 根據幀內編解碼對第二區域進行編碼或解碼。 對於本方法,基於當前塊的模板或者基於使用從當前塊的模板導出的角場的統計資料或直方圖的解碼器側幀內模式推導來確定至少一部分區域分離參數、一部分幀間編解碼參數或者一部分幀內編解碼參數。 在一實施例中,模板包括當前塊的鄰近區域中的一個或多個採樣線。
在一個實施例中,使用當前塊的模板導出用於幀間編解碼的運動向量。
在一個實施例中,使用當前塊的模板或解碼器側幀內模式導出來導出用於幀內編解碼的幀內預測角度。
在一個實施例中,使用當前塊的模板導出與區域分割相關的分區邊界偏移。 在一個實施例中,與區域分割相關的分區邊界斜率的資訊在編碼器側的位元流中傳訊。 在一個實施例中,從解碼器側的位元流解析與區域分割相關的分區邊界斜率的資訊。
容易理解的是,如本文附圖中大體描述和圖示的本發明的元件可以以多種不同的配置來佈置和設計。 因此,以下對如圖所示的本發明的系統和方法的實施例的更詳細描述並不旨在限制所要求保護的本發明的範圍,而僅代表本發明的選定實施例 。貫穿本說明書對“一實施例”、“一個實施例”或類似語言的引用意味著結合該實施例描述的特定特徵、結構或特性可以包括在本發明的至少一個實施例中。 因此,貫穿本說明書各處出現的短語“在一實施例中”或“在一個實施例中”不一定都指代相同的實施例。
此外,所描述的特徵、結構或特性可以以任何合適的方式組合在一個或多個實施例中。 然而,相關領域的技術人員將認識到,本發明可以在沒有一個或多個特定細節的情況下,或使用其他方法、元件等來實踐。在其他情況下,未顯示或未顯示眾所周知的結構或操作 詳細描述以避免模糊本發明的方面。 參考附圖將最好地理解本發明的所示實施例,其中相同的部分自始至終由相同的數位表示。 下面的描述僅旨在作為示例,並且簡單地說明與如本文要求保護的本發明一致的設備和方法的某些選定實施例。
非正方形塊的廣角( Wide-Angle )幀內預測
常規角度幀內預測方向被定義為順時針方向從45度到-135度。 在 VVC 中,幾種傳統的角度幀內預測模式被適應性地替換為非方形塊的廣角幀內預測模式。 替換的模式使用原始模式索引發信,原始模式索引在解析後重新映射到廣角模式的索引。 幀內預測模式總數不變,即67,且幀內模式編解碼方法不變。
為了支持這些預測方向,長度為 2W+1 的頂部參考和長度為 2H+1 的左側參考分別如第8A圖和第8B圖被定義。
廣角方向模式中替換模式的數量取決於塊的縱橫比。替換的幀內預測模式如表 2 所示。 表2 – 廣角模式替換的幀內預測模式
縱橫比 替換的幀內預測模式
W / H == 16 模式 12, 13,14,15
W / H == 8 模式 12, 13
W / H == 4 模式 2,3,4,5,6,7,8,9,10,11
W / H == 2 模式 2,3,4,5,6,7,
W / H == 1
W / H == 1/2 模式 61,62,63,64,65,66
W / H == 1/4 模式57,58,59,60,61,62,63,64,65,66
W / H == 1/8 模式55, 56
W / H == 1/16 模式53, 54, 55, 56
如第9圖所示,在廣角幀內預測的情況下,兩個垂直相鄰的預測採樣(採樣910和912)可能使用兩個不相鄰的參考採樣(採樣920和922)。 因此,將低通參考採樣濾波器和邊平滑(side smoothing)應用於廣角預測,以減少增加的間隙 Δpα 的負面影響。 如果廣角模式表示非分數偏移。廣角模式中有8個模式滿足這個條件,分別是[-14, -12, -10, -6, 72, 76, 78, 80]。當通過這些模式預測塊時,直接複製參考緩衝區中的採樣而不應用任何插值。通過此修改,需要平滑的採樣數量減少了。 此外,它對齊(align)了傳統預測模式和廣角模式中非分數模式的設計。
在VVC中,支持4:2:2和4:4:4以及4:2:0色度格式。 4:2:2 色度格式的色度導出模式 (derived mode,簡寫為DM) 導出表最初是從 HEVC 移植的,將條目數從 35 擴展到 67,以與幀內預測模式的擴展保持一致。 由於HEVC規範不支援−135∘以下和45∘以上的預測角度,從2到5的亮度幀內預測模式映射到2。因此,用於4:2:2色度格式的色度DM推導表透過替換映射表(mapping table)條目的一些值來更新,以更精確地轉換色度塊的預測角度。
4 抽頭插值濾波器( interpolation filter ,簡寫為 IF )和參考採樣平滑( reference sample smoothing
四抽頭(Four-tap)幀內插值濾波器被用來提高定向幀內預測精度(directional intra prediction accuracy)。 在 HEVC 中,雙抽頭線性插值濾波器已用於在定向預測模式(即不包括平面和 DC 預測子)中生成幀內預測塊。在 VVC 中,兩組 4 抽頭 IF取代了 HEVC 中的低精度線性插值,其中一組是基於 DCT 的插值濾波器 (DCT-based interpolation filter,簡寫為DCTIF),另一組是 4 抽頭平滑插值濾波器 (smoothing interpolation filter,簡寫為SIF)。 DCTIF 的構造方式與 HEVC 和 VVC 中色度分量運動補償所使用的方式相同。 SIF 是通過將 2 抽頭線性插值濾波器與 [1 2 1] /4 濾波器進行卷積獲得的。
根據幀內預測模式,執行以下參考採樣處理:
定向幀內預測模式分為以下幾組之一: – A組:垂直或水平模式(HOR_IDX、VER_IDX), – B組:表示非分數角度的定向模式(−14, −12, −10, −6, 2, 34, 66, 72, 76, 78, 80,),以及平面模式(Planar mode), – C組:剩餘的定向模式;
如果定向幀內預測模式屬於 A 組,則不對參考採樣應用濾波器來生成預測的採樣;
否則,如果模式屬於 B 組,並且該模式是定向模式,並且以下所有條件都為真,則可以將 [1, 2, 1] 參考採樣濾波器(取決於 MDIS 條件)應用於參考採樣,以根據所選的方向進一步將這些濾波的值複製到幀內預測子中 ,但不應用插值濾波器: – refIdx 等於 0(無 MRL) – TU 大小大於 32 – 亮度(luma) – 無 ISP塊
否則,如果模式被分類為屬於 C 組,MRL索引等於0,切當前塊不是ISP塊,則僅將幀內參考採樣插值濾波器應用於參考採樣以生成預測採樣,該預測採樣根據所選方向落入參考採樣之間的小數或整數位置(不執行參考採樣濾波)。插值濾波器類型確定如下: – 設置 minDistVerHor 等於 Min( Abs( predModeIntra − 50 ), Abs( predModeIntra − 18 ) ) – 設置 nTbS 等於 ( Log2 (W) + Log2 (H) ) >> 1 – 按如下指定設置intraHorVerDistThres[ nTbS ]:
nTbS = 2 nTbS = 3 nTbS = 4 nTbS = 5 nTbS = 6 nTbS = 7
intraHorVerDistThres[ nTbS ] 24 14 2 0 0 0
– 如果minDistVerHor大於intraHorVerDistThres[ nTbS ],則使用SIF進行插值 – 否則,使用 DCTIF 進行插值
解碼器端幀內模式導出 (Decoder Side Intra Mode Derivation ,簡寫為 DIMD)
當應用 DIMD 時,從重建的鄰近採樣(neighbour samples)中導出兩個幀內模式,並且將這兩個預測子與具有從梯度導出的權重的平面模式預測子組合。 DIMD 模式用作替代預測模式,並且始終在高複雜性 RDO 模式中進行檢查。
為了隱式導出塊的幀內預測模式,在編碼器和解碼器側都執行紋理梯度分析。 此過程從空的梯度直方圖 (Histogram of Gradient,簡寫為HoG) 開始,其中包含 65 個條目,對應於 65 個角度模式。 這些條目的幅度是在紋理梯度分析期間確定的。
第一步,DIMD 從當前塊的左側和上方分別選取 T=3 列(column)和行(line)的模板。 該區域用作基於梯度的幀內預測模式推導的參考。
第二步,將水平和垂直 Sobel 濾波器應用於所有 3×3 窗口位置,以模板中線(middle line)的像素為中心。 在每個窗口位置,Sobel 濾波器將純水平和垂直方向的強度分別計算為 。 然後,窗口的紋理角度計算如下: (1)
其可以被轉換成65種角度幀內預測模式之一。 一旦當前窗口的幀內預測模式索引被導出為 idx,HoG[ idx] 中其條目的幅度將通過添加以下內容來更新: (2)
第10A-C圖示出了在對模板中的所有像素位置應用上述操作之後計算的HoG的示例。 第10A圖示出了當前塊1010的所選模板1020的示例。模板1020包括當前塊上方的T行和當前塊左側的T列。 對於當前塊的幀內預測,當前塊的上方和左側的區域1030對應於重建的區域,而塊下方和右側的區域1040對應於不可用區域。第10B圖示出了T=3的示例,並且針對中間行中的像素1060和中間列中的像素1062計算HoG。 例如,對於像素1052,使用3x3窗口1050。 第10C圖示出了基於等式(2)計算的幅度( ampl)的示例,其中角度幀內預測模式為根據等式(1)所確定。
一旦HoG被計算,具有兩個最高直方圖條的索引被選擇作為該塊的兩個隱式導出的幀內預測模式,並且進一步與平面模式組合作為DIMD模式的預測。 預測融合被應用為上述三個預測子的加權的平均值(weighted average)。 為此,平面的權重固定為 21/64 (~1/3)。 然後,剩餘的權重 43/64 (~2/3) 在兩個 HoG IPM 之間分配,與其 HoG 條的幅度成比例。 第11圖示出了混合處理的示例。 如第11圖所示,根據直方圖條1110中具有兩個最高條的索引來選擇兩種幀內模式(M1 1112和M2 1114)。三個預測子(1140、1142和1144)用於形成混合的預測。 三個預測子對應於將M1、M2和平面幀內模式(分別為1120、1122和1124)應用於參考像素1130以形成相應的預測子。 通過各自的加權因子( )1150對三個預測子進行加權。使用加法器1152對加權的預測子進行求和以生成混合的預測子1160。
此外,兩種隱式推導的幀內模式被包括在MPM列表中,使得DIMD過程在構造MPM列表之前執行。 DIMD 塊的主要導出的幀內模式(primary derived intra mode)與塊一起存儲,並用於鄰近塊的 MPM 列表構建。
基於模板的幀內模式導出 Template-based Intra Mode Derivation ,簡寫為 TIMD)
基於模板的幀內模式導出模式在編碼器和解碼器兩者處使用鄰近模板隱式地導出CU的幀內預測模式,而不是將幀內預測模式傳訊給解碼器。 如第12圖所示,使用每個候選模式的模板的參考採樣(1220和1222)來生成當前塊1210的模板的預測採樣(1212和1214)。 成本被計算為模板的預測採樣和重建採樣之間的絕對變換差異之和(Sum of Absolute Transformed Differences,簡寫為SATD)。 選擇成本最小的幀內預測模式作為DIMD模式,用於CU的幀內預測。 候選模式可以是如VVC中的67種幀內預測模式或者擴展到131種幀內預測模式。 一般來說,MPM可以提供指示CU的方向資訊的線索。 因此,為了減少幀內模式搜索空間並利用CU的特性,可以從MPM列表隱式地導出幀內預測模式。
對於MPM中的每個幀內預測模式,計算模板的預測採樣和重建採樣之間的SATD。 選擇具有最小SATD的前兩種幀內預測模式作為TIMD模式。 這兩種TIMD模式在應用PDPC過程後與權重融合,並且這種加權的幀內預測用於對當前CU進行編解碼。 位置相關幀內預測組合 (position dependent intra prediction combination,簡寫為PDPC) 包含在 TIMD 模式的推導中。
將所選擇的兩種模式的成本與閾值進行比較,在測試中,應用成本因子2如下: costMode2 < 2*costMode1.
如果該條件為真,則應用融合,否則僅使用模式1。 模式的權重根據其 SATD 成本計算如下: weight1 = costMode2/(costMode1+ costMode2) weight2 = 1 - weight1.
塊差分脈衝編解碼調製 (Block Differential Pulse Coded Modulation ,簡寫為 BDPCM)
VVC 支持用於屏幕內容編解碼的塊差分脈衝編解碼調製 (BDPCM)。 在序列級別,BDPCM 啟用標誌在 SPS 中傳訊; 僅當在 SPS 中啟用變換跳過(transform skip)模式時,才會傳訊此標誌信號。
當啟用 BDPCM 時,如果 CU 大小在亮度採樣方面小於或等於 MaxTsSize乘以MaxTsSize,並且如果 CU 是幀內編解碼的,則在 CU 級別傳輸標誌,其中 MaxTsSize 是允許變換跳過模式的最大塊大小。 該標誌指示是否使用常規幀內編解碼或 BDPCM。 如果使用BDPCM,則發送BDPCM預測方向標誌以指示預測是水平的還是垂直的。 然後,使用常規水平或垂直幀內預測過程以及未過濾的參考採樣來預測塊。 對殘差進行量化,並對每個量化的殘差與其預測子之間的差值(即先前編解碼的水平或垂直(取決於 BDPCM 預測方向)鄰近位置的殘差)進行編解碼。
對於大小為 M(高)× N(寬)的塊,令 為預測殘差。 設 表示殘差 的量化的版本。 將 BDPCM 應用於量化的殘差值,產生具有元素 的修改後的 M × N 陣列 ,其中 是根據其鄰近的量化的殘差值預測的。 對於垂直BDPCM預測模式,對於 ,使用以下公式推導 (3)
對於水平BDPCM 預測模式,對於 ,使用以下公式推導 : (4)
在解碼器側,上述處理被逆向以計算 ,如下: 若使用垂直BDPCM                             (5) 若使用水平BDPCM                           (6)
逆量化的殘差, ,被加入到幀內塊預測值以生成重構的採樣值。
使用與變換跳過模式殘差編解碼中相同的殘差編解碼過程將預測的量化殘差值 發送到解碼器。 對於無損編解碼,如果將 slice_ts_residual_coding_disabled_flag 設置為 1,則使用常規變換殘差編解碼將量化的殘差值發送到解碼器。 就用於未來幀內模式編解碼的MPM模式而言,如果BDPCM預測方向是水平或垂直,則存儲水平或垂直預測模式分別用於BDPCM編解碼的CU。 對於去塊(deblock),如果塊邊界兩側的兩個塊均使用 BDPCM 編解碼,則該特定塊邊界不會被去塊。
幾何分區模式 (Geometric Partitioning Mode ,簡寫為 GPM)
在 VVC 中,支持幾何分區模式 (GPM) 進行幀間預測,如 JVET-W2002(Adrian Browne 等人,Algorithm description for Versatile Video Coding and Test Model 14 (VTM 14),ITU-T/ISO/ IEC 聯合視訊探索小組 (JVET),第 23 次會議,通過電話會議,2021 年 7 月 7-16 日,文件:文件 JVET-M2002)。 使用CU級標誌作為一種合併模式來傳訊幾何分區模式,其他合併模式包括常規合併模式、MMVD模式、CIIP模式和子塊合併模式。 對於每個可能的 CU 大小,幾何分區模式總共支持 64 個分區, ,其中 m,n ϵ{3⋯6} 不包括 8x64 和 64x8。 GPM模式可以應用於跳過或合併具有在上述限制內的大小並且具有至少兩種常規合併模式的CU。
使用該模式時,CU被幾何定位的直線以一定角度分割成兩部分。 在VVC中,GPM總共使用了20個角度和4個偏移距離,較早期草案中的24個角度減少了。 分割線的位置是根據特定分區的角度和偏移參數以數學方式得出的。 在VVC中,共有64個分區,如第13圖所示,其中分區根據角度進行分組,虛線表示冗餘分區。 CU 中幾何分區的每個部分都使用其自己的運動進行幀間預測; 每個分區只允許單向預測(uni-prediction),即每個部分有一個運動向量和一個參考索引。 在第13圖中,每一行對應於一個分區的邊界。 分區根據其角度進行分組。 例如,分區組1310由三個垂直GPM分區(即,90°)組成。 分區組1320由與垂直方向具有小角度的四個傾斜GPM分區組成。 而且,分區組1330由與組1310類似的三個垂直GPM分區組成,但是具有相反的方向(即,270°)。 應用單向預測運動約束以確保每個CU僅需要兩個運動補償的預測,與傳統的雙向預測相同。 使用稍後描述的過程導出每個分區的單向預測運動。
如果幾何分區模式用於當前CU,則進一步傳訊指示幾何分區的所選擇的分區模式(角度和偏移)的幾何分區索引以及兩個合併索引(每個分區一個)。 最大 GPM 候選大小的數量在 SPS(序列參數集)中明確傳訊,並指定 GPM 合併索引的語法二值化。 在預測幾何分區的每個部分之後,使用稍後描述的過程使用具有自適應權重的混合處理來調整沿著幾何分區邊緣的採樣值。 這是整個 CU 的預測信號,與其他預測模式一樣,變換和量化過程將應用於整個 CU。 最後,使用稍後描述的過程來存儲使用幾何分區模式預測的CU的運動字段(motion field)。
單向 預測 候選列表構建 Uni-Prediction Candidate List Construction
單向預測候選列表直接從根據擴展的合併預測過程構造的合併候選列表導出。 將n表示為幾何單向預測候選列表中單向預測運動的索引。 將第n個擴展的合併候選(X=0或1,即LX=L0或L1)的LX運動向量用作幾何分區模式的第n個單向預測運動向量,其中X等於n的奇偶性(parity)。 這些運動向量在第14圖中用“x”標記。如果第n個擴展的合併候選的相應LX運動向量不存在,則使用相同候選的L(1-X)運動向量作為幾何分區模式的單向預測運動向量。
沿幾何分區邊緣混合
在使用其自身的運動預測幾何分區的每個部分之後,對兩個預測信號應用混合以導出幾何分區邊緣周圍的採樣。 CU 每個位置的混合權重是根據各個位置與分區邊緣之間的距離得出的。
位置 到分區邊緣的距離推導如下: (7) (8) (9) (10)
其中 是幾何分區的角度和偏移的索引,其取決於傳訊的幾何分區索引。 的符號取決於角度索引
幾何分區各部分的權重計算如下: (11) (12) (13)
partIdx 取決於角度索引 i。 第15圖中示出了權重 的一個示例,其中針對GPM索引 i指示了角度 1510 和偏移量 1520,並且點1530對應於塊的中心。
幾何分區模式的運動字段(motion field )存儲
來自幾何分區的第一部分的Mv1、來自幾何分區的第二部分的Mv2以及Mv1和Mv2的組合MV被存儲在幾何分區模式編解碼的CU的運動字段中。
運動字段中每個單獨位置的存儲的運動矢量類型確定為: (14)
其中motionIdx等於 ,它是根據方程(2)重新計算的。partIdx 取決於角度索引 i
如果sType等於0或1,則Mv0或Mv1被存儲在相應的運動字段中,否則如果sType等於2,則存儲來自Mv0和Mv2的組合MV。 組合 Mv 使用以下過程生成: 1) 如果Mv1和Mv2來自不同的參考圖片列表(一個來自L0,另一個來自L1),則簡單地組合Mv1和Mv2以形成雙向預測運動向量。 2) 否則,如果Mv1和Mv2來自同一列表,則僅存儲單向預測運動Mv2。
提議的方法 A BDPCM 的隱式 傳訊
提出將DIMD或TIMD應用於BDPCM來實現BDPCM的隱式傳訊,這是VVC標準中的編解碼工具之一。
在BDPCM中,有兩種模式:水平模式和垂直模式。 在本發明的一個實施例中,我們可以使用DIMD或TIMD來估計要用於當前塊的模式並且不需要傳訊BDPCM方向標誌。
由於BDPCM只支持兩個方向,因此很容易根據DIMD(或TIMD)來估計方向。 它可能對屏幕內容壓縮有顯著的好處,因為與標誌相關的開銷(即,對於 BDPCM 方向)可能很大。 因此,保存一個標誌可以對提高壓縮效率具有顯著的好處。
提出的方法 B: 基於模板的 幀間 幀內混合 的(inter-intra mixed GPM 模式
第16A圖中示出了幀間幀內混合GPM模式的示例,其中場景1600示出了參考圖片中的示例性場景,場景1620示出了當前圖片中的對應場景。 對象1610(示出為三角形)對應於前方的對象,而對象1612(示出為雲形狀)對應於對象1610後方的移動對象。塊1614是當前圖片中的當前塊。 第16B圖示出了當前塊1614的幀內幀間混合GPM處理,其中當前塊1614的分區1644對應於對象1610的靜止部分,並且當前塊1614的另一分區1642對應於來自移動對象的未被覆蓋的區域。兩個部分之間的分區線1618對應於對象1610的邊緣。為了有效地編碼當前塊,需要對未覆蓋的分區(即分區1642)應用幀內編解碼並對分區1644應用幀間編解碼。 幀內編解碼部分的原因是該部分內容由於遮擋而無法在參考圖片中找到任何對應的內容。
幀間幀內混合GPM模式與VVC GPM模式類似。 然而,在VVC GPM模式下,兩個分區都以幀間模式編解碼。 在幀間幀內混合GPM模式中,一個分區以幀內模式編解碼,而另一分區以幀間模式編解碼。
由於遮擋情況在運動物體中非常常見,遮擋解決(occlusion-resolving)編解碼模式將大大增加編解碼增益,即幀內幀間混合GPM模式對於此類內容將具有很大的好處。
對於幀間幀內混合GPM模式,編碼器需要發送幀間編解碼部分的輔助資訊(side-information)(例如,候選索引、MVD等)和幀內編解碼部分的輔助資訊(例如,預測角度、幀內模式等)。為了節省語法開銷,我們提出了根據本發明實施例的用於幀間幀內混合GPM模式的基於TIMD/DIMD的方法。
在所提出的方法中,其僅發送區域分割資訊(類似於GPM語法),並使用基於L-模板的方法來導出幀間編解碼部分的MV。 對於幀內編解碼部分,可以使用基於DIMD/TIMD的方法來導出幀內預測角度。 一個例子如第17A-B圖所示,其中可以在解碼器側預測幀內角度以決定幀內編解碼分區的幀內預測角度。 對於幀內編解碼分區1642,L形模板(1710和1712)可能不可靠,因為它們可能對應於前方的對象(即,對象1610)。 因此,僅頂部模板的一部分(如虛線框1720所示)用於導出幀內編解碼分區1642的幀內預測角度,如第17A圖所示。 對於幀間編解碼分區1644,頂部模板的一部分(即,模板1720)對應於移動對象的未覆蓋部分,這可能不能提供可靠的參考來導出MV。 因此,僅頂部模板在幀間編解碼分區1644上方的部分(即,第17B圖中的模板1730)與左模板1710一起使用來導出MV。
在另一實施例中,我們可以通過使用幀間L模版匹配(inter-L-template matching)(例如,比較當前L-鄰近重建採樣和參考L-鄰近採樣) 來減少與幀內幀間混合GPM模式的分區資訊相關的開銷)。如第17A-B圖所示,編碼器僅需要發送分區邊界斜率(即,VVC GPM中的角度索引),而不需要發送分區邊界偏移(即,VVC GPM中的距離索引)。 換句話說,僅與分區邊界斜率相關的資訊在編碼器側的位元流中傳訊或者從解碼器側的位元流解析。 解碼器可以通過幀間L模版匹配來導出分區邊界偏移。 例如,在第17B圖中,頂部鄰近部分(top-neighbouring part)上的一些區域可能被遮擋(例如區域1720),這導致第17B圖中的該遮擋區域的幀間L模版匹配中的大失真。 因此,解碼器可以觀察這一點並決定分區偏移。
在另一實施例中,我們可以在幀內幀間混合GPM模式中為幀內編解碼分區提供更多的周圍重建像素(或預測像素)。 第18圖中示出了該提出的方法的示例。在第18圖中,首先對幀間編解碼分區1644應用幀間編解碼以生成重建的幀間編解碼分區1844。在幀間編解碼分區被重建之後, 然後將幀內編解碼應用於幀內編解碼分區1642。當將幀內編解碼應用於幀內編解碼分區時,幀間編解碼分區1844內的鄰近區域1846中的鄰近重建(或預測)的像素可用於幀內預測。 因此,我們有一個用於 DIMD 的擴展的模板(即,區域 1846),其可用於導出與幀內編解碼相關的參數。 在另一實施例中,幀內編解碼可以參考用於幀內預測的幀間編解碼分區(預測採樣或重建的採樣)的結果。 在另一實施例中,可以在幀間編解碼區域上應用TIMD或DIMD以幫助幀內編解碼區域獲得更準確的角度。 在該技術中,需要根據新的殘差分佈適當地設計變換核。
提出的方法 C: 應用 DIMD 以省略 分割標誌 DIMD to Save Split Flag
在該提出的方法中,我們可以使用DIMD或TIMD來估計解碼器側的分割方向。 解碼器可以假設不同的樹分區版本並應用DIMD或TIMD來計算相關的失真並根據失真猜測所決定的分區模式。
以BT(二叉樹)為例。 在解碼器側,可以假設分區是HBT(水平BT)或VBT(垂直BT)之一,並且基於該假設具有兩個子CU。 接下來,通過在兩個子CU上應用DIMD或TIMD,所確定的DIMD或TIMD角度可以進一步幫助構建“外部預測採樣(outer predicted samples)”(即當前CU之外的L鄰近區域中的預測採樣)。 通過將“外部預測採樣”與 L 鄰近重建採樣進行比較,我們可以確定失真情況。 通過比較HBT假設和VBT假設的失真,解碼器可以導出分割方向(而無需從編碼器接收分割方向標誌)。
相同的方法可以應用於其他分割方法,例如QT(四叉樹)、TT(三叉樹)、ABT(非對稱BT)等。
在另一實施例中,通過分析L-鄰近重建採樣的內容,解碼器可以猜測分區方向。 如第19圖所示,有兩個對象邊界(1910和1920)穿過當前塊1900的頂部邊緣和底部邊緣。通過內容分析(在解碼器側),解碼器可以確定VBT(如虛線 1930所示)為更佳的分區。 因此,解碼器可以隱含地將BT判定為VBT,而不是HBT。
出的方法 D: 基於聯合去塊的 DIMD Joint-Deblocking Based DIMD
在所提出的方法中,其使用去塊以使DIMD更加準確。 L形鄰近採樣和內部CU採樣的像素可能具有塊效應。 為了提高DIMD角度預測的準確性,提出跨CU邊界應用去塊。
該過程的示例如下所示: •步驟1:使用DIMD 獲取角度,然後對內部CU 採樣應用幀內預測。 •步驟2:將殘差添加到內部CU採樣中以生成一些假重建採樣。 •步驟3:跨CU 邊界(外部L 形重建採樣和內部CU 假重建採樣之間)進行去塊處理。 •步驟 4:再次執行 DIMD 以獲得更準確的角度
提出的方法 E: 鄰近 CU 去塊處理的 TIMD/DIMD
在所提出的方法中,可以將去塊預先應用到L鄰近區域(即,當前CU之外),以使DIMD或TIMD更準確。
在進行DIMD或TIMD之前,L鄰近區域(即,當前CU之外的區域)將首先由去塊濾波器進行濾波。
該方法背後的基本思想是頂部/左側鄰近可以具有多個CU; 其中,可能存在多種邊界效應; 因此,它會使 DIMD/TIMD 不那麼準確。 相應地,對鄰近CU進行去塊處理將使周圍像素更加平滑,從而提高DIMD/TIMD的準確性。
提出的方法 F: 隱式選擇不同的邊緣濾波器
在DIMD流程中,使用一個邊緣濾波器來檢測L形鄰近區域(即,當前CU之外)中的角場(angle field)(或角度直方圖)。 在傳統的 DIMD 中,邊緣濾波器的尺寸是固定的。 根據本發明的一個實施例,定義了更多的邊緣濾波器內核。 它可以通過分析(在解碼器側)L 鄰近區域採樣,在這些預定義的邊緣濾波器內核之間隱式進行選擇。 在一個示例中,解碼器可以計算鄰近像素的像素差異(pixel variance)
如果差異小,則這意味著內容是平滑的。 因此,對於這種情況,為邊緣濾波器選擇更大的內核。
如果差異大,則這意味著內容不平滑。 因此,對於這種情況,為邊緣濾波器選擇較小的內核。
提出的方法 G: 邊緣濾波器選擇
在DIMD流程中,一個邊緣濾波器用於檢測L形鄰近區域(即,當前CU之外)中的角場(或角度直方圖)。 在傳統的 DIMD 中,邊緣濾波器的尺寸是固定的。 根據本發明的一個實施例,定義了更多的邊緣濾波器內核。
在另一實施例中,編碼器將找到最佳邊緣濾波器內核並向解碼器發送信號以指示最佳邊緣濾波器內核。
在另一實施例中,當前CTU內部的一些CU將接收邊緣濾波器選擇(來自編碼器發送的信號); 對於其他 CU,它可以使用某種(類似合並模式)基於繼承的方法來繼承鄰近 CU 的邊緣濾波器選擇。
所提出的方法 H: 多重假設 Multi-Hypothesis
MH(多假設)概念是首先製作至少兩個預測子(來自相同或不同的編解碼方法),然後將這些預測子混合在一起以獲得更準確的預測子。
在這個新方法中,我們將MH應用於DIMD和/或TIMD。 在一實施例中,其可以在一個或多個編碼器發送的角度預測子(例如,從編碼器發送的信號判斷的幀內預測角度)與一個或多個DIMD(和/或TIMD)生成的預測子之間應用MH。
在另一實施例中,它可以在一個或多個TIMD生成的預測子與一個或多個DIMD生成的預測子之間應用MH。
在另一實施例中,可以在一個或多個編碼器發送的角度預測子(例如,從編碼器發送的信號判斷的幀內預測角度)和一個或多個“DIMD/TIMD細化的角度預測子” ( 定義為:首先從編碼器發送的信號接收幀內角度(intra-angle);並對通過DIMD或TIMD導出的角度進行細化)之間應用MH。
所提出的方法 I: 用於兩個角度的 MH
在該提出的方法中,我們可以將MH應用於與DIMD/TIMD相關的幀內預測。
在一個實施例中,我們可以將MH應用於來自顯式發送的幀內角度的一個預測子和使用DIMD導出的角度的另一預測子。
在另一實施例中,我們可以將MH應用於來自TIMD導出的角度的一個預測子和使用DIMD導出的角度的另一個預測子。
提出的方法 J: 基於 鄰近 CU 以產生更多 參考模板的 MH
在該提出的方法中,目標是對L鄰近區域採樣進行MH處理,以使TIMD/DIMD角度更加準確。
基本概念是,除了原始的L-鄰近區域採樣之外,我們可以對L-形狀區域應用MH並且(通過從其他地方找到另一個L-形狀採樣來去除L-鄰近區域採樣中的一些噪聲。因此,TIMD/DIMD 的角度預測會更加準確。
在一個實施例中,我們可以在當前圖片中搜索另一個L形區域採樣。 本實施例以原始L鄰域(即當前CU周圍)採樣作為模板,利用該模板在當前圖片中進行搜索,以找到最佳匹配。 獲得最佳匹配(指定為 L')後,我們可以將 MH 應用於 L(當前 CU 周圍的原始 L 鄰近區域採樣)和 L'。 最後,將 MH 結果組合成一個新的 L 形狀,並將 DIMD/TIMD 應用到新的 L 形狀上。
上述過程的示例性步驟如下所示: •第1 步:使用L 形(L) 進行當前圖片搜索。 •第2 步:找到L 形狀(在當前圖片中)的最佳匹配,將最佳匹配表示為L'。 •步驟3:在這兩個L 形(L 和L')上應用MH,形成一個新的L 形區域。 •步驟4:根據新的L 形區域進行TIMD/DIMD。
在另一實施例中,我們可以搜索參考圖片中的L’,而不是搜索當前圖片。 換句話說,除了在參考圖片中找到L’之外,流程與之前的實施例相同。
任何前述提出的使用BDPCM(塊差分脈衝編解碼調製)方法可以在編碼器和/或解碼器中實現。 例如,任何所提出的方法可以在解碼器的幀內(例如圖1B中的幀內150)/幀間編解碼模塊、運動補償模塊(例如圖1B中的MC 152)、解碼器的合併候選導出模塊中實現。 或者,任何所提出的方法可以被實現為耦合到編碼器的幀內(例如,圖1A中的幀內110)/幀間編解碼模塊和/或運動補償模塊(例如,圖1B中的MC 112)、編碼器的合併候選導出模塊的電路,以基於當前塊的模板或者基於使用從當前塊的模板導出的角場的統計資料或解碼器側的幀內模式直方圖的垂直預測和水平預測統計資料來確定當前塊的預測方向。
第20圖示出了根據本發明的實施例的使用TIMD/DIMD導出BDPCM的分區模式的示例性視訊編解碼系統的流程圖。 流程圖中所示的步驟可以被實現為在編碼器側的一個或多個處理器(例如,一個或多個CPU)上可執行的程式代碼。 流程圖中所示的步驟還可以基於硬體來實現,例如被佈置為執行流程圖中的步驟的一個或多個電子設備或處理器。 根據該方法,在步驟2010中接收與編碼器側的當前塊相關聯的像素資料或與要在解碼器側解碼的當前塊相關聯的編碼的資料。在步驟2020中,基於當前塊的模板或者基於使用從當前塊的模板導出的角場的統計資料或直方圖的解碼器側幀內模式導出來在垂直預測和水平預測之間確定針對當前塊的預測方向。在步驟2030中,在預測方向上使用BDPCM對當前塊進行編碼或解碼。
第21圖示出了根據本發明的實施例的使用TIMD/DIMD導出與幀間GPM相關的編解碼參數的示例性視訊編解碼系統的流程圖。 根據該方法,在步驟2110中接收與編碼器側的當前塊相關聯的像素資料或與要在解碼器側解碼的當前塊相關聯的編碼的資料。在步驟2120中,根據區域分割,當前塊被分割為第一區域和第二區域。在步驟2130中,基於幀間編解碼對第一區域進行編碼或解碼,並且在步驟2140中根據幀內編解碼對第二區域進行編碼或解碼。在步驟2150中,對於上述塊分區、幀間編解碼和幀內編解碼, 基於當前塊的模板或基於使用從當前塊的模板導出的角場的統計資料或直方圖的解碼器側幀內模式導出來確定至少一部分區域分割參數、一部分幀間編解碼參數或者一部分幀內編解碼參數。
所示流程圖旨在說明根據本發明的視訊編解碼的示例。 在不脫離本發明的精神的情況下,本領域的技術人員可以修改每個步驟、重新安排步驟、拆分步驟或組合步驟來實施本發明。 在本公開中,已經使用特定語法和語義來說明示例以實現本發明的實施例。 在不脫離本發明的精神的情況下,技術人員可以通過用等同的句法和語義替換句法和語義來實施本發明。
提供以上描述是為了使所屬領域具有通常知識者能夠實踐在特定應用及其要求的上下文中提供的本發明。 對所描述的實施例的各種修改對於所屬領域具有通常知識者而言將是顯而易見的,並且本文定義的一般原理可以應用於其他實施例。 因此,本發明並不旨在限於所示出和描述的特定實施例,而是符合與本文公開的原理和新穎特徵一致的最寬範圍。 在以上詳細描述中,舉例說明了各種具體細節以提供對本發明的透徹理解。 然而,本領域的技術人員將理解可以實施本發明。
如上所述的本發明的實施例可以以各種硬體、軟體代碼或兩者的組合來實現。 例如,本發明的一個實施例可以是集成到視訊壓縮晶片中的一個或多個電路電路或者集成到視訊壓縮軟體中的程式碼以執行這裡描述的處理。 本發明的實施例還可以是要在數位訊號處理器(DSP)上執行以執行這裡描述的處理的程式碼。 本發明還可以涉及由電腦處理器、數位訊號處理器、微處理器或現場可程式設計閘陣列(FPGA)執行的許多功能。 這些處理器可以被配置為通過執行定義由本發明體現的特定方法的機器可讀軟體代碼或韌體代碼來執行根據本發明的特定任務。 軟體代碼或韌體代碼可以以不同的程式設計語言和不同的格式或風格來開發。 也可以為不同的目標平臺編譯軟體代碼。 然而,軟體代碼的不同代碼格式、風格和語言以及配置代碼以執行根據本發明的任務的其他方式都不會脫離本發明的精神和範圍。
在不脫離其精神或基本特徵的情況下,本發明可以以其他特定形式體現。 所描述的示例在所有方面都應被視為說明性而非限制性的。 因此,本發明的範圍由所附申請專利範圍而不是由前述描述來指示。 落入申請專利範圍等同物的含義和範圍內的所有變化都應包含在其範圍內。
110:幀內預測 112:幀間預測 114:開關 116:加法器 118:變換 120:量化 122:熵編碼器 130:環路濾波器 124:逆量化 126:逆變換 128:重建 134:參考圖片緩衝器 136:預測資料 140:熵解碼器 150:幀內預測 152:MC 210~240:分割類型 610~680:塊示例 910、912、920、922:採樣 1010、1210、1614、1900:當前塊 1020:模板 1030、1040:區域 1050:窗口 1052、1060、1062:像素 1110:直方圖條 1112、1120:M1 1114、1122:M2 1140、1142、1144、1160:預測子 1124:平面幀內模式 1130:參考像素 1150:加權因子 1152:加法器 1212、1214、1220、1222:採樣 1310、1320、1330:分區組 1510:角度 1520:偏移量 1530:點 1600、1620:場景 1610、1612:對象 1618:分區線 1642、1644:分區 1710、1712、1720、1730:模板 1844:幀間編解碼分區 1846:鄰近區域 1910、1920:對象邊界 1930:虛線 2010~2030、2110~2150:步驟
第1A圖說明了包含迴圈處理的示例性適應性幀間/幀內視訊編解碼系統。 第1B圖圖示了第1A圖中的編碼器的相應解碼器。 第2圖示出了對應於垂直二元分割(SPLIT_BT_VER)、水平二元分割(SPLIT_BT_HOR)、垂直三元分割(SPLIT_TT_VER)和水平三元分割(SPLIT_TT_HOR)的多類型樹結構的示例。 第3圖示出了具有嵌套多類型樹編解碼樹結構的四叉樹中的劃分分割資訊的信令機制的示例。 第4圖示出了CTU被劃分為具有四叉樹和嵌套多類型樹編解碼塊結構的多個CU的示例,其中粗體塊邊緣表示四叉樹劃分而其餘邊緣表示多類型樹劃分。 第5圖顯示了當亮度編解碼塊的寬度或高度大於64時禁止TT分割的示例。 第6圖顯示了當亮度編解碼塊的寬度或高度大於64時禁止TT分割的一些示例。 第7圖示出了VVC視訊編解碼標準所採用的幀內預測模式。 第8A-B圖示出了寬度大於高度的塊(第8A圖)和高度大於寬度的塊(第8B圖)的廣角幀內預測的示例。 第9圖示出了在廣角幀內預測的情況下使用兩個不相鄰參考採樣的兩個垂直相鄰預測採樣的示例。 第10A圖示出了為當前塊選擇的模板的示例,其中模板包括當前塊上方的T行和當前塊左側的T列。 A 第10B圖示出了T=3的示例,並且針對中間行中的像素和中間列中的像素計算HoG(梯度直方圖)。 第10C圖示出了角度幀內預測模式的幅度(ampl)的示例。 第11圖示出了混合處理的示例,其中根據直方圖條中具有兩個最高條的索引來選擇兩個幀內模式(M1和M2)和平面模式。 第12圖示出了基於模板的幀內模式導出(TIMD)模式的示例,其中TIMD在編碼器和解碼器兩者處使用相鄰模板隱式地導出CU的幀內預測模式。 第13圖示出了VVC標準中使用的64個分區的示例,其中分區根據它們的角度進行分組,並且虛線表示冗餘分區。 第14圖示出了幾何分區模式的單向預測MV選擇的示例。 第15圖示出了使用幾何劃分模式的彎曲權重 的示例。 第16A圖示出了幀間幀內混合GPM模式的示例,其中被遮擋的對像從另一對象的後面露出。 第16B圖示出了應用於當前塊的幀間幀內混合GPM模式的示例。 第17A圖示出了根據本發明的實施例的幀間幀內混合GPM的示例,其中模板用於導出與分區區域、幀間編解碼或幀內編解碼相關的資訊。 第17B圖示出了用於導出幀間編解碼和幀內編解碼的參數的模板的示例。 第18圖示出了根據本發明實施例的幀間幀內混合GPM的示例性過程。 第19圖示出了根據本發明的實施例的使用TIMD或DIMD在垂直二進位分區和水平二進位分區之間進行確定的示例。 第20圖示出了根據本發明實施例的使用TIMD/DIMD導出BDPCM的分區模式的示例性視訊編解碼系統的流程圖。 第21圖示出了根據本發明的實施例的使用TIMD/DIMD導出與幀間GPM相關的編解碼參數的示例性視訊編解碼系統的流程圖。
2010~2030:步驟

Claims (11)

  1. 一種視訊編解碼方法,該方法包括: 在編碼器側接收與當前塊相關的像素資料或在解碼器側接收與該當前塊相關的待解碼的已編碼資料; 基於該當前塊的模板或者基於使用從該當前塊的該模板導出的角場的統計資料或直方圖的解碼器側幀內模式導出來在垂直預測和水平預測之間確定該當前塊的預測方向;以及 在該預測方向上使用塊差分脈衝編解碼調製對該當前塊進行編碼或解碼。
  2. 如請求項1所述之方法,其中該模板包括該當前塊的鄰近區域中的一個或多個採樣綫。
  3. 一種視訊編解碼方法,該方法包括: 在編碼器側接收與當前塊相關的像素資料或在解碼器側接收與當前塊相關的待解碼的已編碼資料; 根據區域分割將該當前塊分割爲第一區域和第二區域; 基於幀間編解碼對該第一區域進行編碼或解碼;以及 根據幀內編解碼對該第二區域進行編碼或解碼; 以及 其中,基於該當前塊的模板或基於使用從該當前塊的該模板導出的角場的統計資料或直方圖的解碼器側幀內模式導出來確定至少一部分區域分割參數、一部分幀間編解碼參數或者一部分幀內編解碼參數。
  4. 如請求項3所述之方法,其中該模板包括該當前塊的鄰近區域中的一個或多個採樣綫。
  5. 如請求項3所述之方法,其中使用該當前塊的該模板導出用於該幀間編解碼的運動向量。
  6. 如請求項3所述之方法,其中使用該當前塊的該模板或該解碼器側幀內模式導出來導出用於該幀內編解碼的幀內預測角度。
  7. 如請求項3所述之方法,其中使用該當前塊的該模板導出與該區域分割相關的分區邊界偏移。
  8. 如請求項7所述之方法,其中與該區域分割相關的分區邊界斜率的資訊在該編碼器側的位元流中傳訊。
  9. 如請求項7所述之方法,其中與該區域分割相關的分區邊界斜率的資訊是從該解碼器側的位元流中解析出來的。
  10. 一種用於視訊編解碼的裝置,該裝置包括一個或多個電子器件或處理器,被布置爲: 在編碼器側接收與當前塊相關的像素資料或在解碼器側接收與該當前塊相關的待解碼的已編碼資料; 基於該當前塊的模板或者基於使用從該當前塊的該模板導出的角場的統計資料或直方圖的解碼器側幀內模式導出來在垂直預測和水平預測之間確定該當前塊的預測方向;以及 在該預測方向上使用塊差分脈衝編解碼調製對該當前塊進行編碼或解碼。
  11. 一種用於視訊編解碼的裝置,該裝置包括一個或多個電子器件或處理器,被布置爲: 在編碼器側接收與當前塊相關的像素資料或在解碼器側接收與當前塊相關的待解碼的已編碼資料; 根據區域分割將該當前塊分割爲第一區域和第二區域; 基於幀間編解碼對該第一區域進行編碼或解碼;以及 根據幀內編解碼對該第二區域進行編碼或解碼; 以及 其中,基於該當前塊的模板或基於使用從該當前塊的該模板導出的角場的統計資料或直方圖的解碼器側幀內模式導出來確定至少一部分區域分割參數、一部分幀間編解碼參數或者一部分幀內編解碼參數。
TW112113135A 2022-04-08 2023-04-07 在視訊編解碼系統中使用解碼器導出的幀內預測的方法和裝置 TW202349956A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202263328766P 2022-04-08 2022-04-08
US63/328,766 2022-04-08
WOPCT/CN2023/087052 2023-04-07
PCT/CN2023/087052 WO2023193806A1 (en) 2022-04-08 2023-04-07 Method and apparatus using decoder-derived intra prediction in video coding system

Publications (1)

Publication Number Publication Date
TW202349956A true TW202349956A (zh) 2023-12-16

Family

ID=88244121

Family Applications (1)

Application Number Title Priority Date Filing Date
TW112113135A TW202349956A (zh) 2022-04-08 2023-04-07 在視訊編解碼系統中使用解碼器導出的幀內預測的方法和裝置

Country Status (2)

Country Link
TW (1) TW202349956A (zh)
WO (1) WO2023193806A1 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7522135B2 (ja) * 2019-05-11 2024-07-24 北京字節跳動網絡技術有限公司 複数のイントラ符号化方法の相互作用
US11509931B2 (en) * 2019-06-07 2022-11-22 Tencent America LLC Method and apparatus for video coding
KR20200141896A (ko) * 2019-06-11 2020-12-21 주식회사 엑스리스 비디오 신호 처리 방법 및 장치
US11589065B2 (en) * 2019-06-24 2023-02-21 Hyundai Motor Company Method and apparatus for intra-prediction coding of video data

Also Published As

Publication number Publication date
WO2023193806A1 (en) 2023-10-12

Similar Documents

Publication Publication Date Title
TWI741589B (zh) 視頻編解碼之亮度mpm列表導出的方法及裝置
US10390034B2 (en) Innovations in block vector prediction and estimation of reconstructed sample values within an overlap area
EP3090553B1 (en) Block vector prediction in video and image coding/decoding
TW202046718A (zh) 用於多個工具的互相排斥設定
TWI688266B (zh) 用於圖像和視訊編解碼的畫面內預測融合的方法和裝置
TWI821103B (zh) 在視訊編解碼系統中使用邊界匹配進行重疊塊運動補償的方法和裝置
TWI752488B (zh) 視訊編解碼之方法和裝置
JP2024520401A (ja) 方法、電子装置、コンピュータ可読ストレージ媒体、コンピュータプログラム、およびビットストリーム
TW202349956A (zh) 在視訊編解碼系統中使用解碼器導出的幀內預測的方法和裝置
TWI853402B (zh) 視訊編解碼方法及相關裝置
WO2023193516A1 (en) Method and apparatus using curve based or spread-angle based intra prediction mode in video coding system
TW202344053A (zh) 使用梯度和模板改進幀內模式推導和預測的方法和裝置
TW202349944A (zh) 視頻編解碼系統中基於最可能模式列表構造的解碼器側模式推導的方法和裝置
WO2024083238A1 (en) Method and apparatus of matrix weighted intra prediction in video coding system
TW202344058A (zh) 視頻編解碼系統中解碼器導出幀內預測的改進方法和裝置
TWI821112B (zh) 視頻編解碼系統中跨分量線性模型預測的方法和裝置
TWI811070B (zh) 視訊編解碼方法及裝置
WO2024083251A1 (en) Method and apparatus of region-based intra prediction using template-based or decoder side intra mode derivation in video coding system
WO2024131801A1 (en) Method and apparatus of intra prediction generation in video coding system
TW202406342A (zh) 使用交叉分量預測對彩色圖片進行視訊編解碼的方法和裝置
WO2023246901A1 (en) Methods and apparatus for implicit sub-block transform coding
WO2024104086A1 (en) Method and apparatus of inheriting shared cross-component linear model with history table in video coding system
TW202329688A (zh) 視訊編解碼方法及相關裝置
TW202406341A (zh) 使用交叉分量預測對彩色圖片進行視訊編解碼的方法和裝置
TW202345594A (zh) 視訊編解碼方法和裝置