TWI830482B

TWI830482B - 視訊編碼方法、裝置以及視訊解碼方法、裝置

Info

Publication number: TWI830482B
Application number: TW111142178A
Authority: TW
Inventors: 向時達
Original assignee: 聯發科技股份有限公司
Priority date: 2021-12-09
Filing date: 2022-11-04
Publication date: 2024-01-21
Also published as: TW202325018A; WO2023103521A1

Abstract

本發明提供一種視訊編碼方法、裝置以及視訊解碼方法、裝置。本發明的視訊解碼方法包括：接收對應於當前塊的殘差塊的編碼的變換係數；根據一個或多個語法元素確定變換係數區域或索引值範圍；將編碼的符號殘差解碼成解碼的符號殘差，其中選定的變換係數在變換係數區域內，或選定的變換係數的索引值在索引值範圍內；通過選擇一個假設來確定符號的聯合符號預測以實現最小成本，其中分別計算假設的當前塊的邊界像素和當前塊的對應的相鄰像素之間的成本，並且與每個假設相關聯的非當前塊的邊界像素是使用包括所述每個假設的資訊來重建的；以及基於解碼的符號殘差和聯合符號預測重建組符號。本發明的視訊編碼方法、裝置以及視訊解碼方法、裝置可以提高變換係數符號譯碼的性能。

Description

視訊編碼方法、裝置以及視訊解碼方法、裝置

本發明涉及視訊譯碼（video coding）系統。特別地，本發明涉及視訊譯碼系統中剩餘塊的變換係數的符號譯碼（sign coding）。

通用視訊譯碼 (VVC) 是由 ITU-T 視訊譯碼專家組 (VCEG)和 ISO/IEC 運動圖像專家組（MPEG）的聯合視訊專家組 (JVET)共同開發的最新國際視訊譯碼標準。該標準已作為 ISO 標準發布：ISO/IEC 23090-3:2021，資訊技術 - 沉浸式媒體的譯碼表示 - 第 3 部分：通用視訊譯碼，2021 年 2 月發布。VVC 是基於其前身 HEVC（ High Efficiency Video coding）開發的，通過添加更多譯碼工具提高譯碼效率並處理包括3維（3D）視訊信號在內的各種視訊源。

第1A圖說明了一個示例性的併入迴路處理（loop processing）的自適應幀間/幀內視訊解碼系統。對於幀內預測，預測資料是基於當前圖片中先前編碼的視訊資料得出的。對於幀間預測112，在編碼器側執行運動估計(Motion Estimation，簡寫為ME)並且基於ME的結果執行運動補償(Motion Compensation，簡寫為MC)以提供從其他圖片和運動資料導出的預測資料。開關114選擇幀內預測110或幀間預測112，並且選擇的預測資料被提供給加法器116以形成預測誤差，也稱為殘差。然後由變換(T) 118以及隨後的量化(Q)120處理預測誤差。然後由熵編碼器122對變換和量化的殘差進行編碼以將其包括在對應於壓縮視訊資料的視訊位元流中。然後，與變換係數相關聯的位元流與諸如與幀內預測和幀間預測相關聯的運動和譯碼模式等輔助資訊以及諸如與應用於底層圖像區域的迴路濾波器相關聯的參數等其他資訊打包。如第1A圖所示，與幀內預測110、幀間預測112和迴路濾波器130相關聯的輔助資訊（side information）被提供給熵編碼器122。當使用幀間預測模式時，參考圖片也必須在編碼器端重建。因此，變換和量化的殘差由逆量化（IQ）124和逆變換（IT）126處理以恢復殘差。然後在重建(REC)128將殘差加回到預測資料136以重建視訊資料。重建的視訊資料可以存儲在參考圖片緩衝器134中並且用於其他幀的預測。

如第1A圖所示，輸入的視訊資料在編碼系統中經歷一系列處理。由於一系列處理，來自 REC 128 的重建的視訊資料可能會受到各種損害。因此，在將重建的視訊資料存儲在參考圖片緩衝器134中之前，經常將迴路濾波器130應用於重建視訊資料，以提高視訊品質。例如，可以使用去塊濾波器（DF）、樣本自適應偏移（SAO）和自適應迴路濾波器（ALF）。可能需要將迴路濾波器資訊合併到位元流中，以便解碼器可以正確地恢復所需的資訊。因此，迴路濾波器資訊也被提供給熵編碼器122以結合到位元流中。在第1A圖中，在將重建樣本存儲在參考圖片緩衝器134中之前，將迴路濾波器130應用於重建的視訊。第1A圖中的系統旨在說明典型視訊編碼器的示例性結構。它可以對應於高效視訊解碼 (HEVC) 系統、VP8、VP9、H.264 或 VVC。

第1B圖示出了另一示例的解碼系統。如第1B圖所示，解碼器可以使用與編碼器相似或部分相同的功能塊，除了變換118和量化120之外，因為解碼器只需要逆量化124和逆變換126。取代熵編碼器122，解碼器使用熵解碼器140將視訊位元流解碼為量化的變換係數和所需的解碼資訊（例如，ILPF資訊、幀內預測資訊和幀間預測資訊）。解碼器側的幀內預測150不需要執行模式搜索。相反，解碼器只需要根據從熵解碼器140接收到的幀內預測資訊生成幀內預測。此外，對於幀間預測，解碼器只需要根據從熵解碼器140接收到的幀內預測資訊執行運動補償（MC 152）無需運動估計。

在VVC中，編碼的圖片被分割成由相關聯的譯碼樹單元(CTU)表示的非重疊的（non-overlapped）方形塊區域。編碼圖片可以由切片的集合表示，每個切片包括整數個 CTU。切片中的各個 CTU 按光柵掃描順序進行處理。可以使用具有至多兩個運動矢量和參考索引的幀內預測或幀間預測來解碼雙向預測（B）切片以預測每個塊的樣本值。使用具有至多一個運動向量和參考索引的幀內預測或幀間預測來解碼預測（P）切片以預測每個塊的樣本值。僅使用幀內預測對幀內 (I) 切片進行解碼。

可以使用具有嵌套（nested）多類型樹 (multi-type-tree，簡寫為MTT) 結構的四叉樹 (QT) 將 CTU 劃分為一個或多個非重疊的譯碼單元 (CU)，以適應各種局部運動和紋理特徵。可以使用第2圖所示的五種拆分類型（四叉樹分區（quad-tree partitionin g）210、垂直二叉樹分區（vertical binary tree partitioning） 220、水平二叉樹分區（horizontal binary tree partitioning） 230、垂直中心側三叉樹分區（vertical center-side triple-tree partitioning）240、水平中心側三叉樹分區（horizontal center-side triple-tree partitioning）250)之一將 CU 進一步拆分為更小的 CU。第3圖提供了由具有嵌套MTT的QT遞歸分區的CTU的示例。每個 CU 包含一個或多個預測單元 (PU)。預測單元與相關聯的 CU 句法一起作為用於發送預測子資訊的基本單元。指定的預測過程用於預測 PU 內相關像素樣本的值。每個 CU 可以包含一個或多個變換單元 (TU)，用於表示預測殘差塊。變換單元(TU)包括亮度樣本的變換塊(TB)和色度樣本的兩個對應變換塊，並且每個TB對應於來自一個顏色分量的一個殘差樣本塊。整數變換應用於變換塊。量化係數的電平值與其他輔助資訊一起在位元流中進行熵譯碼。術語譯碼樹塊 (CTB)、譯碼塊 (CB)、預測塊 (PB) 和變換塊 (TB) 被定義為分別指定與 CTU、CU、PU和 TU 相關聯的一種顏色分量的二維樣本數組。因此，一個 CTU 由一個亮度 CTB、兩個色度 CTB 和相關的句法元素組成。類似的關係適用於 CU、PU 和 TU。

為了實現高壓縮效率，採用基於上下文的自適應二進制算術譯碼(CABAC)模式，或稱為常規模式，對HEVC和VVC中的句法元素（syntax element）的值進行熵譯碼。第4圖圖示了CABAC過程的示例性框圖。由於 CABAC 引擎中的算術譯碼器只能對二進制符號值進行譯碼，因此 CABAC 過程需要使用二值化器（410）將句法元素的值轉換為二進製字符串。轉換過程通常稱為二值化。在譯碼過程中，概率模型是由不同上下文的譯碼的符號逐漸建立起來的。上下文建模器(420)用於建模目的。在基於正常上下文的譯碼過程中，使用對應於二進制算術譯碼器的常規譯碼引擎(430)。下一個二進制符號的建模上下文的選擇可以由譯碼的資訊確定。符號也可以在沒有上下文建模階段的情況下進行編碼，並假設一個相等的概率分佈，通常稱為旁路模式，以降低複雜性。對於被旁路的符號，可以使用旁路譯碼引擎（440）。如第4圖所示，開關（S1、S2 和 S3）用於引導常規 CABAC 模式和旁路模式之間的資料流。當選擇常規 CABAC 模式時，開關切換到上部觸點。當選擇旁路模式時，開關被翻轉到下部觸點，如第4圖所示。

在VVC中，可以使用相關標量量化(scalar quantization)來量化變換係數。兩個量化器之一的選擇由具有四個狀態的狀態機確定。當前變換係數的狀態由在掃描順序中的前一變換係數的絕對電平值狀態和奇偶性確定。變換塊被分割成不重疊的子塊。每個子塊中的變換係數級別(transform coefficient level)使用多個子塊譯碼通道進行熵編碼。句法元素 sig_coeff_flag、abs_level_gt1_flag、par_level_flag 和 abs_level_gt3_flag 在第一子塊譯碼通道中以常規模式譯碼。元素abs_level_gt1_flag和abs_level_gt3_flag分別指示當前係數級別的絕對值是否大於1和大於3。句法元素par_level_flag表示當前級別的絕對值的奇偶校驗位元(parity bit)。第一通道的變換係數級別的部分重建絕對值由下式給出： AbsLevelPass1 = sig_coeff_flag + par_level_flag + abs_level_gt1_flag + 2 * abs_level_gt3_flag. (1).

熵譯碼 sig_coeff_flag 的上下文選擇取決於當前係數的狀態。因此，par_level_flag 在第一譯碼通道中傳訊，用於導出下一個係數的狀態。句法元素 abs_remainder 和 coeff_sign_flag 在隨後的子塊譯碼通道中以旁路模式進一步譯碼，以分別指示剩餘的係數級別值和符號（sign）。變換係數級別的完全重建的絕對值由下式給出： AbsLevel = AbsLevelPass1 + 2 * abs_remainder. (2)

變換係數級別由下式給出： TransCoeffLevel = (2*AbsLevel − (QState ＞ 1 ? 1 : 0) ) * (1 − 2 * coeff_sign_flag), (3) 其中 QState 表示當前變換係數的狀態。

本發明旨在進一步提高在視訊譯碼系統中對殘差資料的變換係數符號譯碼的性能。

有鑒於此，本發明提供以下技術方案：

本發明提供一種視訊解碼方法，包括：接收對應於當前塊的殘差塊的編碼的變換係數；根據一個或多個語法元素確定變換係數區域或索引值範圍；將編碼的符號殘差解碼成解碼的符號殘差，其中選定的變換係數在變換係數區域內，或選定的變換係數的索引值在索引值範圍內；通過選擇一個假設來確定符號的聯合符號預測以實現最小成本，其中分別計算假設的當前塊的邊界像素和當前塊的對應的相鄰像素之間的成本，並且與每個假設相關聯的非當前塊的邊界像素是使用包括所述每個假設的資訊來重建的；以及基於解碼的符號殘差和聯合符號預測重建組符號。

本發明還提供一種視訊解碼裝置，包括一個或多個電子電路或處理器，用於：接收對應於當前塊的殘差塊的編碼的變換係數，其中編碼的變換係數包括編碼的符號殘差；根據一個或多個句法元素確定變換係數區域或索引值範圍；將編碼的符號殘差解碼成對應於一組選定的變換係數的一組符號的解碼的符號殘差，其中組選定的變換係數在變換係數區域內，或者組選定的變換係數的索引值在索引值範圍內；通過從組符號的一組假設中選擇一個假設來確定組符號的聯合符號預測以實現最小成本，其中分別計算組假設的當前塊的邊界像素和當前塊的對應的相鄰像素之間的成本，並且與每個假設相關聯的非當前塊的邊界像素是使用包括所述每個假設的資訊來重建的；以及基於解碼的符號殘差和聯合符號預測重建組符號。

本發明還提供一種視訊編碼方法，包括：接收當前塊的殘差塊對應的變換係數；根據與當前塊關聯的譯碼上下文確定變換係數區域或索引值範圍；確定與一組選定的變換係數相關聯的一組符號，其中組選定的變換係數在變換係數區域內或組選定變換係數的索引值在索引值範圍內；通過從組符號的一組假設中選擇一個假設來確定組符號的聯合符號預測以實現最小成本，其中分別計算組假設的當前塊的邊界像素和當前塊的對應的相鄰像素之間的成本；確定組符號與聯合符號預測之間的符號殘差；以及將上下文譯碼應用於符號殘差以生成編碼的符號殘差。

本發明還提供一種視訊編碼裝置，包括一個或多個電子電路或處理器，用於：接收當前塊的殘差塊對應的變換係數；根據與當前塊關聯的譯碼上下文確定變換係數區域或索引值範圍；確定與一組選定的變換係數相關聯的一組符號，其中組選定的變換係數在變換係數區域內或組選定變換係數的索引值在索引值範圍內；通過從組符號的一組假設中選擇一個假設來確定組符號的聯合符號預測以實現最小成本，其中分別計算組假設的當前塊的邊界像素和當前塊的對應的相鄰像素之間的成本；確定組符號與聯合符號預測之間的符號殘差；以及將上下文譯碼應用於符號殘差以生成編碼的符號殘差。

本發明的視訊編碼方法、裝置以及視訊解碼方法、裝置可以提高變換係數符號譯碼的性能。

將容易理解的是，如本文附圖中大體描述和示出的，本發明的部件可以佈置和設計成多種不同的配置。因此，如附圖中所表示的本發明的系統和方法的實施例的以下更詳細的描述並不旨在限制所要求保護的本發明的範圍，而僅代表本發明的選定實施例。在整個說明書中對“一個實施例”、“實施例”或類似語言的引用意味著結合該實施例描述的特定特徵、結構或特性可以包括在本發明的至少一個實施例中。因此，在整個說明書的各個地方出現的短語“在一個實施例中”或“在實施例中”不一定都指代相同的實施例。

此外，所描述的特徵、結構或特性可以在一個或多個實施例中以任何合適的方式組合。然而，相關領域的技術人員將認識到，本發明可以在沒有一個或多個具體細節的情況下，或使用其他方法、組件等來實踐。在其他情況下，未示出或未展示眾所周知的結構或操作。詳細描述以避免模糊本發明的方面。通過參考附圖將最好地理解本發明的所示實施例，其中相同的部件自始至終由相同的數字表示。以下描述僅作為示例，並且簡單地說明了與如本文所要求保護的本發明一致的設備和方法的某些選定實施例。

ITU-T SG16 WP3 和 ISO/IEC JTC1/SC29/WG11 的聯合視訊專家組 (JVET) 目前正在探索下一代視訊譯碼標準。增強的壓縮模型 2 (Enhanced Compression Model 2，簡寫為ECM 2) 採用了一些有前景的新譯碼工具（M. Coban 等人，“Algorithm description of Enhanced Compression Model 2 (ECM 2)”， ITU-T SG16 WP3 和 ISO/IEC JTC1/SC29/WG11 聯合視訊專家組，第 23 次會議，電話會議，2021 年 7 月 7 日至 16 日，文件 JVET-W2025）以進一步改進 VVC。採用的新工具已在參考軟體 ECM-2.0（ECM 參考軟體 ECM-2.0，可在 https://vcgit.hhi.fraunhofer.de/ecm/ECM [在線] 獲得）中實施。特別是，已經開發了一種用於聯合預測殘差變換塊中的變換係數級別符號集合的新方法（JVET-D0031，Felix Henry 等人，“Residual Coefficient Sign Prediction”， ITU-T SG16 WP3 和 ISO/IEC JTC1/SC29/WG11 聯合視訊專家組，第 4 次會議：中國成都，2016 年 10 月 15-21 日，文件 JVET-D0031）。在 ECM 2 中，為了導出殘差變換塊的最佳符號預測假設，成本函數被定義為跨過第5圖所示的塊邊界的不連續性度量，其中塊 510 對應於變換塊，圓圈 520 對應於相鄰樣本，並且圓圈530對應於與塊510的符號候選相關聯的重建樣本。成本函數被定義為上述行和左列的殘差域中的絕對二階導數（absolute second derivatives）之和，如下所示： (4)

在上述等式中，R是重建的相鄰塊（reconstructed neighbor），P是當前塊的預測，並且r是殘差假設。在序列參數集 (SPS) 中發訊變換塊中每個符號預測假設的允許的預測符號的最大數量N _sp，並且在 ECM-2.0 中其被限制為小於或等於 8。測量所有假設的成本函數，並選擇成本最小的一個作為係數符號的預測子。只有來自變換塊中左上角 4x4 變換子塊區域的係數（具有最低頻率的係數）符號被允許包含在假設中。根據左上角 4x4 子塊上的光柵掃描順序收集和譯碼前N _sp個非零係數（first N _spnon-zero coefficients）的符號（如果可用）。對於那些預測的係數，發訊符號預測位元子（sign prediction bin），符號預測位元子指示預測的符號是否等於所選假設，而不發訊係數符號。該符號預測位元子是上下文譯碼的，其中選定的上下文是根據係數是否為 DC 得出的。對於幀內塊和幀間塊，以及亮度和色度分量，上下文是分開的。對於其他沒有符號預測的係數，相應的符號由CABAC在旁路模式下譯碼。

在解碼器側，針對可能的假設評估相應的成本函數，如 JVET-D0031 中所公開的。解碼器將解析係數、符號和符號殘差作為其解析過程的一部分。符號和符號殘差在 TU 結束時被解析，此時解碼器知道所有係數的絕對值。因此，它可以確定預測了哪些符號，並且對於每個預測的符號，它可以根據去量化的係數值確定用於解析符號預測殘差的上下文。 “正確”或“不正確”預測的知識被簡單地存儲為正在解析的塊的 CU 資料的一部分。此時，係數的真實符號是未知的。在重建期間，解碼器執行類似於編碼器的操作以確定假設成本。實現最小成本的假設被確定為符號預測。

在 ECM-2.0 中，對當前變換塊應用符號預測時，根據前向光柵掃描順序在當前變換塊中的左上 4x4 子塊上收集和編碼前N _sp個非零係數的符號（當可用時）。受到不連續性測量的所有可能假設的數量等於 1 ＜＜ N _sp並且隨著預測的符號的數量而顯著增加，其中“＜＜”是按位左移運算符（bit-wise up-shift operator）。在一種提出的方法中，視訊譯碼器可以包括對適用於符號預測的變換係數級別的最小絕對值的約束，其中對於某些指定的變換係數，最小絕對值可以大於1。只有當當前變換係數級別的絕對值大於或等於指定的最小值時，才允許將約束下的當前係數的符號包含到符號預測的假設中。這樣，可以將幅度較小的係數排除在符號預測之外，從而減少變換塊中預測符號的數量。

在一些實施例中，僅當當前係數級別的絕對值大於指定閾值T _sp時，才允許將當前係數的符號包括到符號預測的假設中，其中對於來自 TB符號預測區域（ECM-2.0 中的左上角 4x4 子塊）的指定係數，T _sp大於0。在一個實施例中，僅當對於某些指定係數，當前係數級別的絕對值大於1時，才允許將當前係數的符號包括在用於符號預測的假設中。所提出的方法可以進一步包括自適應地確定T _sp的值。在一個示例中，可以根據當前變換塊的塊寬度、高度或大小自適應地導出T _sp。在另一示例中，可以根據為當前變換塊選擇的量化參數自適應地導出T _sp。又例如，可以根據當前塊中當前係數的位置或索引來自適應地導出T _sp。在一個示例性實施例中，可以如下推導T _sp： − 當前係數的索引小於C1時，T _sp等於0； − 否則，當當前係數的索引小於C2時，T _sp等於1； − 否則，T _sp等於 2，

其中 0 ≤ C1＜ C2≤ N _sp 。

在 ECM-2.0 中，當符號預測應用於當前變換塊時，根據光柵掃描順序在左上 4x4 子塊上收集和譯碼前N _sp個非零係數的符號（當可用時）。適用於符號預測的變換係數區域固定為每個變換塊的左上角 4x4 子塊。在所提出的方法中，視訊譯碼器還可包括根據與當前變換塊相關聯的譯碼上下文自適應地設置適用於當前變換塊中的符號預測的變換係數區域或索引範圍。視訊譯碼器可包括用於收集變換塊中的前N _sp個係數的符號的指定掃描順序。視訊譯碼器還可以包括根據指定的掃描順序確定當前變換塊中的符號預測適用的最大索引，其中索引大於根據當前變換塊中指定的掃描順序的最大索引的任何變換係數的符號不適用於符號預測。

備選地，視訊譯碼器可包括根據當前變換塊中變換係數或子塊的位置(x，y)和一個或多個具體的閾值，確定變換係數或子塊是否適用當前變換塊中的符號預測，其中當前變換塊的左上塊原點（top-left block origin）對應於位置(0, 0)。在一些實施例中，在某些變換塊中，僅當x小於第一閾值並且y小於第二閾值時，位置(x，y)處的變換係數或子塊才適用於符號預測。在一些其他實施例中，在某些變換塊中，僅當變換塊原點與當前係數或子塊的位置之間的距離（等於(x+y)）小於另一個指定閾值時，位置(x，y)處的變換係數或子塊時才適用於符號預測。

在一些實施例中，可適用於當前變換塊中的符號預測的變換係數區域或索引範圍可以根據塊維度（block dimension）、變換類型、顏色分量索引、最後有效係數(last significant coefficient)的位置或與當前變換塊相關的非零係數的數量來自適應地設置。在一些實施例中，當當前變換塊的寬度或高度小於一個指定閾值或當前變換塊的大小小於另一個指定的閾值時，視訊譯碼器可以減小當前變換塊中適用符號預測的變換係數區域或索引範圍。在一些示例性實施例中，對於塊寬度或高度小於一個閾值M _sp的變換塊或塊大小小於另一閾值MN _sp的變換塊，可將適用於符號預測的變換係數索引範圍設置為從0到R1 _sp，其中R1 _sp是按照指定掃描順序的最大索引。在一些實施例中，當 M _sp等於 4、8、16 或 32 時，或者當 MN _sp等於 16、64、256 或 1028 時，R1 _sp可以等於 2、3、5 或 7。上述的R1 _sp、M _sp和MN _sp的取值僅用於舉例說明，可以根據需要選擇或確定其他合適的取值。

在一些實施例中，當當前變換塊的寬度或高度大於一個指定閾值或當前變換塊的大小大於另一個指定的閾值時，視訊譯碼器可以增大當前變換塊中適用符號預測的變換係數區域或索引範圍。

在一些示例性實施例中，當當前變換塊的寬度或高度大於一個指定閾值或當前變換塊的大小為大於另一個指定的閾值時，視訊譯碼器可包括來自低頻變換塊區域的多於一個的子塊。在一些實施例中，視訊譯碼器可減少適用於一種或多種指定變換類型的符號預測的變換係數區域或索引範圍。在一些示例性實施例中，對於一種或多種指定變換類型，適用於符號預測的變換係數索引範圍被設置為從0到R2 _sp，其中R2 _sp是根據指定的掃描順序的最大索引。

在一些其他示例性實施例中，僅當變換塊原點與等於當前係數的位置之間的距離(x+y)小於另一個指定的閾值 D1 _sp時，位置(x，y)處的變換係數才適用於符號預測。在一些實施例中，一個或多個指定的變換類型包括某些低頻不可分離變換（LFNST）類型和/或與多重變換選擇（multiple transform selection，簡寫為MTS）相關聯的某些變換類型，R2 _sp可以等於2、3、5，並且D1 _sp可以等於1、2、3、4、5、6或7。在一些實施例中，對於某些MTS和/或LFNST類型，與DCT類型 II相比，適用於符號預測的變換係數區域或索引範圍減小了。在一些實施例中，視訊譯碼器可針對一種或多種指定的變換類型擴大適用於符號預測的變換係數區域或索引範圍。在一些示例性實施例中，當與當前殘差塊相關聯的變換類型屬於一種或多種指定變換類型時，視訊譯碼器可以包括來自低頻變換塊區域的多於一個子塊。在一些實施例中，一種或多種指定的變換類型包括DCT類型II。

所提出的方法可以進一步包括在位元流中發信關於適用於符號預測的變換係數區域或索引範圍的資訊。在一些實施例中，視訊譯碼器可發信一個或多個句法元素，用於在一個或多個高級參數集中（例如序列參數集（SPS）、圖片參數集（PPS）中、圖片頭 (PH) 和/或切片頭 (SH) ）導出適用於符號預測的變換係數區域或索引範圍。

在一些其他實施例中，視訊譯碼器可發信多於一個句法集以導出關於多於一個變換係數區域或索引範圍的資訊以用於一個或多個高級句法集中的符號預測，其中每一句法集對應於關於導出特定變換係數區域或索引範圍的資訊，該特定變換係數區域或索引範圍適用於某些指定的變換塊的符號預測，並且當前變換塊的特定變換係數區域或索引範圍的選擇取決於與該當前變換塊相關聯的原文上下文。例如，當前變換塊的特定變換係數區域或索引範圍的選擇可能取決於變換塊大小、變換類型、顏色分量索引、預測符號的數量、最後有效係數的位置或與當前變換塊相關的非零係數的數量。當前變換塊的特定變換係數區域或索引範圍的選擇還可以取決於當前CU的預測模式。

在 ECM-2.0 中，在序列參數集 (SPS) 中發訊變換塊中預測符號的最大數量N _sp，並且N _sp被限制為小於或等於 8。在所提出的方法中，視訊譯碼器可以根據與當前變換塊相關聯的譯碼原文上下文自適應地設置當前變換塊中預測符號的最大允許數量。在一些實施例中，視訊譯碼器可基於與當前變換塊相關聯的譯文上下文從一個或多個參考句法值自適應地導出當前變換塊中的預測符號的最大允許數量。在一些實施例中，當前變換塊中允許的預測符號的最大數量的推導取決於變換塊維度、變換類型、顏色分量索引、最後有效係數的位置或與當前變換塊相關聯的非零係數的數量。在一個示例中，當前變換塊中所允許的預測符號的最大數量被設置為等於參考句法值N _sp乘以縮放因子，其中縮放因子值的選擇取決於當前塊維度。

在一些其他實施例中，視訊譯碼器可以發信一個或多個高級參數集中的多於一種句法集，例如序列參數集（SPS)、圖片參數集（PPS)、圖片標頭（picture header，簡寫為PH)和/或切片標頭(slice header，簡寫為SH)，其中每個句法集對應於關於為某些指定變換塊導出變換塊中允許的預測符號最大數量的特定參數值的資訊。此外，對於當前變換塊中允許的預測符號最大數量的特定參數值的選擇取決於當前譯碼上下文。例如，對於當前變換塊中允許的預測符號最大數量的特定參數值的選擇可以取決於變換塊維度、變換類型、顏色分量索引、最後有效係數的位置或與當前變換塊相關的非零係數的數量。當前變換塊的特定參數值的選擇還可以取決於當前CU的預測模式。在所提出的方法中，視訊譯碼器還可以包括多於一個上限約束，每個約束限制對於某些指定變換塊的變換塊中所允許的預測符號最大數量的最大參數值。當前變換塊的上限約束的確定可以取決於變換塊維度、變換類型、顏色分量索引、最後有效係數的位置或與當前變換塊相關聯的非零係數的數量。

在 ECM-2.0 中，當當前變換塊的變換塊寬度或高度大於 128 或小於 4 時，針對當前變換塊禁用係數符號預測工具。根據本發明的一個方面，視訊譯碼器可以對塊維度採用不同的約束，以實現對不同變換類型的符號預測。在所提出的方法中，視訊譯碼器包括多於一組的維度約束，用於實現不同變換類型的符號預測。視訊譯碼器進一步包括根據當前變換類型確定用於在當前變換塊中啟用符號預測的維度約束的選定集合。在一些實施例中，對於屬於MTS和/或LFNST類型的一種或多種變換類型，視訊譯碼器可以選擇包括比DCT類型II更低的最大維度約束值的集合。

在ECM-2.0中，前N _sp個非零係數的符號被收集並根據在第一子塊上的前向光柵掃描順序進行譯碼以用於符號預測。根據本發明的另一方面，視訊譯碼器可以基於變換係數級別的預期分佈，根據係數幅度減小的順序來確定選擇的經受符號預測的前N _sp個係數。在一個實施例中，根據從DC係數開始的前向子塊方式對角線掃描順序收集前N _sp係數的符號，如第6圖所示。在另一個實施例中，根據到前向子塊對角線掃描順序收集前N _sp係數的符號並譯碼。在另一個實施例中，前N _sp係數的符號以前向子塊方式對角線掃描順序被收集並且以向後子塊方式對角線掃描順序被譯碼。

在ECM-2.0中，通過跨塊邊界的絕對差之和(SAD)來最小化對應於不連續性度量（discontinuity measure）的成本函數，來確定當前變換塊的最佳符號預測假設。在所提出的方法中，通過跨塊邊界的平方誤差之和來最小化與不連續性度量對應的成本函數，來確定當前變換塊的最佳符號預測假設，如下所示： . (5)

在 ECM-2.0 中，當為當前變換塊啟用符號預測時，左上 (最低頻率) 變換子塊適用符號預測，並且在用於熵譯碼當前變換塊的殘差譯碼過程期間，跳過左上變換子塊的符號熵譯碼。在熵譯碼所有變換塊（通過逐個變換塊殘差譯碼過程）和用於指示與當前CU相關聯的LFNST和MTS索引的句法元素之後，單獨的符號譯碼過程用於熵譯碼在當前 CU 中啟用符號預測的每個殘差塊的變換子塊上的符號資訊。這樣，當前CU中能夠進行符號預測的每個變換塊都需要在通過殘差解碼過程對每個變換塊進行熵解碼之後重新訪問以進行符號譯碼。

在所提出的方法中，視訊譯碼系統包括熵譯碼當前CU中的多個殘差塊，其中多個殘差塊中的每一個由殘差譯碼過程譯碼。當前變換塊中的符號預測位元子也在用於熵譯當前變換塊的殘差譯碼過程中被熵譯碼。當前係數的每個譯碼的符號預測位元子指示當前係數的預測符號是否正確。 ECM-2.0 中單獨的符號譯碼處理被刪除。在一些實施例中，每個殘差塊被劃分為一個或多個非重疊子塊，並且殘差譯碼過程包括根據指定子塊掃描順序熵譯碼當前變換塊中的各個子塊。殘差譯碼過程還可以包括一個或多個子塊譯碼通道，用於關於當前子塊中的變換係數級別的絕對值的熵譯碼資訊。殘差譯碼過程還可以包括根據指定規則確定當前變換塊中符號預測的係數集合。殘差譯碼過程還可以包括根據指定掃描順序熵譯碼當前變換塊中的符號預測位元子。

在一些實施例中，符號預測僅適用於來自每個變換塊中的左上變換子塊的變換係數。殘差解碼過程還可以包括一個或多個子塊譯碼通道之後的子塊符號譯碼通道。其中該一個或多個子塊譯碼通道用於熵譯碼左上子塊中的變換係數級別的絕對值，該子塊符號譯碼通道根據左上子塊中指定的掃描順序熵解碼係數符號資訊。在子塊符號譯碼通道中，可以針對左上子塊中的當前非零係數發信句法標誌。當當前非零係數經受符號預測時，句法標誌發信符號預測位元子的值以指示當前係數的符號預測是否正確。否則，句法標誌發信當前非零係數的符號。在一些實施例中，熵譯碼符號資訊的子塊符號譯碼通道遵循左上子塊中的反向對角線掃描順序。在一些其他實施例中，熵譯碼符號資訊的子塊符號譯碼通道遵循左上子塊中的前向對角線掃描順序。熵譯碼預測位元子的上下文建模可以進一步以譯碼的符號預測位元子為條件。

在 ECM-2.0 中，如第5圖所示，通過最小化對應於跨左塊邊界和上方塊邊界的不連續性度量的成本函數，在當前變換塊中確定最佳符號預測假設。根據本發明的另一個方面，視訊譯碼器可以僅使用塊邊界樣本的一側（左側或上方）來導出預測符號或考慮與當前變換塊相關聯的譯碼上下文來完全關閉符號預測。在所提出的方法中，視訊譯碼器包括一種符號預測模式，其對應於基於跨越上方塊邊界和左側塊邊界兩者的不連續性測量來推導變換塊中的預測符號。視訊譯碼器還包括兩個額外的符號預測模式，其中第一額外模式對應於僅基於跨左側塊邊界的不連續性度量來導出變換塊中的預測符號，而第二額外模式對應於僅基於跨越上方塊邊界的不連續度量導出變換塊中的預測符號。在一些實施例中，對應於第一附加模式和第二附加模式的成本函數分別由等式(6) 和 (7)如下給出： (6) (7)

視訊譯碼器進一步包括為當前變換塊確定所選擇的符號預測模式。視訊譯碼器可以僅針對CU中的所有變換塊基於亮度分量來確定選擇的符號預測模式。在一些實施例中，視訊譯碼器可以在考慮當前CU中的選定幀內預測方向的情況下導出當前變換塊中的選定符號預測模式。在一個示例中，視訊譯碼器可以在選擇的幀內預測方向接近水平預測方向時將選擇的符號預測模式設置為第一附加預測模式，並且在選擇的幀內預測方向接近垂直預測方向時將選擇的符號預測模式設置為第二附加預測模式。

在一些其他實施例中，視訊譯碼器可以在考慮與當前塊相關聯的塊邊界條件的情況下導出當前變換塊中的選定符號預測模式。例如，當一個特定當前塊邊界與圖塊或切片邊界重疊時，視訊譯碼器可確定不使用來自該特定邊界的重建樣本來導出預測符號。當重建的相鄰樣本在上方和左側塊邊界上均不可用時，視訊譯碼器可以禁用該塊的符號預測。對於另一示例，當從重建的邊界樣本確定圖像邊緣可能存在於一個特定的當前塊邊界上時，視訊譯碼器可以確定不使用來自該特定邊界的重建樣本來導出預測的符號。

在一些其他實施例中，當殘差信號存在於當前變換塊或譯碼單元中時，視訊譯碼器可發信一個或多個句法元素以用於推導當前變換塊或譯碼單元中所選擇的符號預測模式。在一些實施例中，僅當當前變換塊中的預測符號的數量大於閾值時，視訊譯碼器才可以發信一個或多個句法元素以導出當前變換塊中的所選符號預測模式。

在一些實施例中，視訊譯碼器可以以降低的計算複雜度在成本函數中垂直下採樣左側塊邊界和水平下採樣上方塊邊界以用於不連續性測量。在所提出的實施例中，當僅為當前變換塊選擇兩個附加預測模式中的一個時，所選塊邊界的下採樣率可以減少2倍。

在本發明中，在任何上述提出的方法中，熵譯碼當前係數的符號可以指熵譯碼的當前係數的符號預測位元子。當啟用相關標量量化時，上述任何建議方法中的變換係數級別都可以參考在Eqns. (2) 給出的級別映射之前或在 Eqns. (2) 給出的級別映射之後的變換係數級別。所提出的方面、方法和相關實施例可以在圖像和視訊譯碼系統中單獨地和聯合地實現。

任何前述提出的方法都可以在編碼器和/或解碼器中實現。例如，任何提出的方法都可以在編碼器的係數譯碼模塊和/或解碼器的係數譯碼模塊中實現。或者，所提出的任何方法都可以實現為集成到編碼器的係數譯碼模塊和/或解碼器的係數譯碼模塊的電路。

第7圖示出了根據本發明實施例的利用聯合符號預測的示例性視訊解碼系統的流程圖。流程圖中所示的步驟可以實現為在編碼器側的一個或多個處理器(例如，一個或多個CPU)上可執行的程式代碼。流程圖中所示的步驟也可以基於硬體來實現，例如一個或多個電子設備或處理器，這些電子設備或處理器被佈置為執行流程圖中的步驟。在步驟710，根據該方法的視訊解碼器將接收對應於當前塊的殘差塊的編碼的變換係數，其中編碼的變換係數包括編碼的符號殘差。在步驟720中根據一個或多個句法元素確定變換係數區域或索引值範圍。在步驟730中，編碼的符號殘差被解碼為對應於一組選定的變換係數的一組符號的解碼的符號殘差，其中所選變換係數的集合在變換係數區域內，或者所選變換係數的集合的索引值在索引值範圍內。在步驟740，通過從一組假設中選擇一個假設來確定一組符號的聯合符號預測（joint sign prediction）以實現最小成本，其中對該組假設中的每一個假設分別計算該假設的當前塊的邊界像素和當前塊的對應的相鄰像素之間的成本，並且與每個假設相關聯的當前塊的邊界像素是使用包括所述每個假設的資訊來重建的。在步驟750中，基於解碼的符號殘差和聯合符號預測來重建符號集。

第8圖示出了根據本發明實施例的利用聯合符號預測的示例性視訊編碼系統的流程圖。在步驟810，根據該方法的視訊編碼器將接收與當前塊的殘差塊相對應的變換係數。在步驟820，根據與當前塊相關聯的譯碼上下文確定變換係數區域或索引值範圍。在步驟830中，確定與一組選定的變換係數相關聯的一組符號，其中選定的變換係數組在該變換係數區域內或選定變換係數組的索引值在該索引值範圍內。在步驟840，通過從一組符號的一組假設中選擇一個假設來確定一組符號的聯合符號預測以實現最小成本，其中對該組假設中的每一個假設分別為該假設計算當前塊的邊界像素和當前塊的對應的相鄰像素之間的成本。在步驟850，確定該組符號和聯合符號預測之間的符號殘差。在步驟860，將上下文譯碼應用於符號殘差以生成編碼符號殘差。

呈現以上描述是為了使所屬領域具有通常知識者能夠實踐在特定應用及其要求的上下文中提供的本發明。對所描述的實施例的各種修改對於所屬領域具有通常知識者來說將是顯而易見的，並且本文定義的一般原理可以應用於其他實施例。因此，本發明不旨在限於所示和描述的特定實施例，而是要符合與本文公開的原理和新穎特徵相一致的最寬範圍。在以上詳細描述中，為了提供對本發明的透徹理解，說明了各種具體細節。然而，所屬領域具有通常知識者將理解，可以實踐本發明。

如上所述的本發明的實施例可以以各種硬體、軟體代碼或兩者的組合來實現。例如，本發明的一個實施例可以是集成到視訊壓縮晶片中的一個或多個電路電路或集成到視訊壓縮軟體中以執行本文描述的處理的程式代碼。本發明的實施例還可以是要在數字信號處理器(DSP)上執行以執行這裡描述的處理的程式代碼。本發明還可以涉及由計算機處理器、數字信號處理器、微處理器或現場可編程門陣列(FPGA)執行的許多功能。這些處理器可以被配置為通過執行定義本發明所體現的特定方法的機器可讀軟體代碼或韌體代碼來執行根據本發明的特定任務。軟體代碼或韌體代碼可以以不同的程式語言和不同的格式或樣式開發。軟體代碼也可以針對不同的目標平台進行編譯。然而，軟體代碼的不同代碼格式、風格和語言以及配置代碼以執行根據本發明的任務的其他方式將不脫離本發明的精神和範圍。

在不背離其精神或基本特徵的情況下，本發明可以以其他特定形式體現。所描述的示例在所有方面都僅被認為是說明性的而不是限制性的。因此，本發明的範圍由所附申請專利範圍而不是由前述描述指示。在申請專利範圍的等效含義和範圍內的所有變化都應包含在其範圍內。

110:幀內預測 112:幀間預測 114:開關 116:加法器 118:變換 120:量化 130:迴路濾波器 122:熵編碼器 124:逆量化 126:逆變換 128:重建 134:參考圖片緩衝器 136:預測資料 140:熵解碼器 150:幀內預測 152:MC 210:四叉樹分區 22:0垂直二叉樹分區 230:水平二叉樹分區 240:垂直中心側三叉樹分區 250:水平中心側三叉樹分區 410:二值化器 420:上下文建模器 430:常規譯碼引擎 440:旁路譯碼引擎 510:塊 520、530:樣本 710~760、810~860:步驟

結合在本說明書中並構成本說明書一部分的附圖示出了本發明的實施例，並且與說明書一起用於解釋本發明的原理：第1A圖示出了一個示例性的併入迴路處理（loop processing）的自適應幀間/幀內視訊解碼系統。第1B圖示出了另一示例的解碼系統。第2圖示出了五種拆分類型的示意圖。第3圖提供了由具有嵌套MTT的QT遞歸分區的CTU的示例。第4圖圖示了CABAC過程的示例性框圖。第5圖示出了根據增強壓縮模型2 (ECM 2)導出用於殘差變換塊的最佳符號預測假設的成本函數計算。第6圖圖示了根據本發明的一個實施例的以從DC係數開始的前向子塊方式對角線掃描順序收集前N _sp係數的符號的示例。第7圖示出了根據本發明實施例的利用聯合符號預測的示例性視訊解碼系統的流程圖。第8圖示出了根據本發明實施例的利用聯合符號預測的示例性視訊編碼系統的流程圖。

710~750:步驟

Claims

一種視訊解碼方法，該方法包括：接收對應於當前塊的殘差塊的編碼的變換係數，其中該編碼的變換係數包括編碼的符號殘差；根據一個或多個句法元素確定變換係數區域或索引值範圍；將該編碼的符號殘差解碼成對應於一組選定的變換係數的一組符號的解碼的符號殘差，其中該組選定的變換係數在該變換係數區域內，或者該組選定的變換係數的索引值在該索引值範圍內；通過從該組符號的一組假設中選擇一個假設來確定該組符號的聯合符號預測以實現最小成本，其中對該組假設中的每一個假設分別計算該假設的該當前塊的邊界像素和該當前塊的對應的相鄰像素之間的成本，並且與每個假設相關聯的該當前塊的該邊界像素是使用包括所述每個假設的資訊來重建的；以及基於該解碼的符號殘差和該聯合符號預測重建該組符號。
如請求項1所述之視訊解碼方法，其中，該一個或多個句法元素是從一個或多個高級參數集解析的。
如請求項2所述之視訊解碼方法，其中，該一個或多個高級參數集包括序列參數集、圖片參數集、圖片標頭、切片標頭或其組合。
如請求項1所述之視訊解碼方法，其中，該一個或多個句法元素是根據該當前塊的塊維度確定的。
如請求項1所述之視訊解碼方法，其中，該一個或多個句法元素是根據該當前塊的變換類型確定的。
如請求項1所述之視訊解碼方法，其中，該一個或多個句法元素是根據該當前塊的顏色分量確定的。
如請求項1所述之視訊解碼方法，其中，該一個或多個句法元素是根據與該當前塊相關聯的多個非零係數的數量來確定的。
一種視訊解碼裝置，包括一個或多個電子電路或處理器，用於：接收對應於當前塊的殘差塊的編碼的變換係數，其中該編碼的變換係數包括編碼的符號殘差；根據一個或多個句法元素確定變換係數區域或索引值範圍；將該編碼的符號殘差解碼成對應於一組選定的變換係數的一組符號的解碼的符號殘差，其中該組選定的變換係數在該變換係數區域內，或者該組選定的變換係數的索引值在該索引值範圍內；通過從該組符號的一組假設中選擇一個假設來確定該組符號的聯合符號預測以實現最小成本，其中對該組假設中的每一個假設分別計算該假設的該當前塊的邊界像素和該當前塊的對應的相鄰像素之間的成本，並且與每個假設相關聯的該當前塊的該邊界像素是使用包括所述每個假設的資訊來重建的；以及基於該解碼的符號殘差和該聯合符號預測重建該組符號。
一種視訊編碼方法，包括：接收當前塊的殘差塊對應的變換係數；根據與該當前塊關聯的譯碼上下文確定變換係數區域或索引值範圍；確定與一組選定的變換係數相關聯的一組符號，其中該組選定的變換係數在該變換係數區域內或該組選定變換係數的索引值在該索引值範圍內；通過從該組符號的一組假設中選擇一個假設來確定該組符號的聯合符號預測以實現最小成本，其中對該組假設中的每一個假設分別計算該假設的該當前塊的邊界像素和該當前塊的對應的相鄰像素之間的成本；確定該組符號與該聯合符號預測之間的符號殘差；以及將上下文譯碼應用於該符號殘差以生成編碼的符號殘差。
如請求項9所述之視訊編碼方法，其中，還包括發信一個或多個句法元素以用於在一個或多個高級參數集中導出該變換係數區域或該索引值範圍。
如請求項10所述之視訊編碼方法，其中，該一個或多個高級參數集包括序列參數集、圖片參數集、圖片標頭、切片標頭或其組合。
如請求項9所述之視訊編碼方法，其中，該譯碼上下文對應於該當前塊的塊維度。
如請求項9所述之視訊編碼方法，其中，該譯碼上下文對應於該當前塊的變換類型。
如請求項9所述之視訊編碼方法，其中，該譯碼上下文對應於該當前塊的顏色分量索引。
如請求項9所述之視訊編碼方法，其中，該譯碼上下文對應於與該當前塊相關聯的非零係數的數量。
一種視訊編碼裝置，包括一個或多個電子電路或處理器，用於：接收當前塊的殘差塊對應的變換係數；根據與該當前塊關聯的譯碼上下文確定變換係數區域或索引值範圍；確定與一組選定的變換係數相關聯的一組符號，其中該組選定的變換係數在該變換係數區域內或該組選定變換係數的索引值在該索引值範圍內；通過從該組符號的一組假設中選擇一個假設來確定該組符號的聯合符號預測以實現最小成本，其中對該組假設中的每一個假設分別計算該假設的該當前塊的邊界像素和該當前塊的對應的相鄰像素之間的成本；確定該組符號與該聯合符號預測之間的符號殘差；以及將上下文譯碼應用於該符號殘差以生成編碼的符號殘差。