TW202325020A - 視訊編碼方法、裝置以及視訊解碼方法、裝置 - Google Patents

視訊編碼方法、裝置以及視訊解碼方法、裝置 Download PDF

Info

Publication number
TW202325020A
TW202325020A TW111147136A TW111147136A TW202325020A TW 202325020 A TW202325020 A TW 202325020A TW 111147136 A TW111147136 A TW 111147136A TW 111147136 A TW111147136 A TW 111147136A TW 202325020 A TW202325020 A TW 202325020A
Authority
TW
Taiwan
Prior art keywords
current block
block
prediction
transform
sign
Prior art date
Application number
TW111147136A
Other languages
English (en)
Inventor
向時達
Original Assignee
聯發科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 聯發科技股份有限公司 filed Critical 聯發科技股份有限公司
Publication of TW202325020A publication Critical patent/TW202325020A/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/18Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a set of transform coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/11Selection of coding mode or of prediction mode among a plurality of spatial predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Abstract

本發明提供一種視訊編碼方法、裝置以及視訊解碼方法、裝置。視訊解碼方法包括:接收對應於當前塊的殘差塊的譯碼的變換係數,包括與一組聯合預測的係數符號相關聯的譯碼的符號殘差;確定允許的最大數量;將譯碼的符號殘差解碼為解碼的符號殘差,其中該組聯合預測的係數符號的總數等於或小於允許的最大數量;選擇一個假設來確定該組聯合預測的係數符號的聯合符號預測;以及基於解碼的符號殘差和聯合符號預測來重建組聯合預測的係數符號。本發明的視訊編碼方法、裝置以及視訊解碼方法、裝置可以提高變換係數符號譯碼的性能。

Description

視訊編碼方法、裝置以及視訊解碼方法、裝置
本發明涉及視訊譯碼(video coding)系統。 特別地,本發明涉及視訊譯碼系統中殘差塊的變換係數的符號譯碼(coding of signs)。
通用視訊譯碼 (VVC) 是由 ITU-T 視訊譯碼專家組 (VCEG)和 ISO/IEC 運動圖像專家組(MPEG)的聯合視訊專家組 (JVET)共同開發的最新國際視訊譯碼標準。 該標準已作為 ISO 標準發布:ISO/IEC 23090-3:2021,資訊技術 - 沉浸式媒體的譯碼表示 - 第 3 部分:通用視訊譯碼,2021 年 2 月發布。VVC 是基於其前身 HEVC( High Efficiency Video coding)開發的,通過添加更多譯碼工具提高譯碼效率並處理包括3維(3D)視訊信號在內的各種視訊源。
第1A圖說明了一個示例性的併入迴路處理(loop processing)的適應性幀間/幀內視訊解碼系統。對於幀內預測,預測資料是基於當前圖片中先前編碼的視訊資料得出的。對於幀間預測112,在編碼器側執行運動估計(Motion Estimation,簡寫為ME)並且基於ME的結果執行運動補償(Motion Compensation,簡寫為MC)以提供從其他圖片和運動資料導出的預測資料。開關114選擇幀內預測110或幀間預測112,並且選擇的預測資料被提供給加法器116以形成預測誤差,也稱為殘差。然後由變換(T) 118以及隨後的量化(Q)120處理預測誤差。然後由熵編碼器122對變換和量化的殘差進行編碼以將其包括在對應於壓縮視訊資料的視訊位元流中。然後,與變換係數相關聯的位元流與諸如與幀內預測和幀間預測相關聯的運動和譯碼模式等輔助資訊以及諸如與應用於底層圖像區域的迴路濾波器相關聯的參數等其他資訊打包。如第1A圖所示,與幀內預測110、幀間預測112和迴路濾波器130相關聯的輔助資訊(side information)被提供給熵編碼器122。當使用幀間預測模式時,參考圖片也必須在編碼器端重建。因此,變換和量化的殘差由逆量化(IQ)124和逆變換(IT)126處理以恢復殘差。然後在重建(REC)128將殘差加回到預測資料136以重建視訊資料。重建的視訊資料可以存儲在參考圖片緩衝器134中並且用於其他幀的預測。
如第1A圖所示,輸入的視訊資料在編碼系統中經歷一系列處理。由於一系列處理,來自 REC 128 的重建的視訊資料可能會受到各種損害。因此,在將重建的視訊資料存儲在參考圖片緩衝器134中之前,經常將迴路濾波器130應用於重建視訊資料,以提高視訊品質。例如,可以使用去塊濾波器(DF)、樣本適應性偏移(SAO)和適應性迴路濾波器(ALF)。可能需要將迴路濾波器資訊合併到位元流中,以便解碼器可以正確地恢復所需的資訊。因此,迴路濾波器資訊也被提供給熵編碼器122以結合到位元流中。在第1A圖中,在將重建樣本存儲在參考圖片緩衝器134中之前,將迴路濾波器130應用於重建的視訊。第1A圖中的系統旨在說明典型視訊編碼器的示例性結構。它可以對應於高效視訊解碼 (HEVC) 系統、VP8、VP9、H.264 或 VVC。
第1B圖示出了另一示例的解碼系統。如第1B圖所示,解碼器可以使用與編碼器相似或部分相同的功能塊,除了變換118和量化120之外,因為解碼器只需要逆量化124和逆變換126。取代熵編碼器122,解碼器使用熵解碼器140將視訊位元流解碼為量化的變換係數和所需的解碼資訊(例如,ILPF資訊、幀內預測資訊和幀間預測資訊)。解碼器側的幀內預測150不需要執行模式搜索。相反,解碼器只需要根據從熵解碼器140接收到的幀內預測資訊生成幀內預測。此外,對於幀間預測,解碼器只需要根據從熵解碼器140接收到的幀內預測資訊執行運動補償(MC 152)無需運動估計。
在VVC中,編碼的圖片被分割成由相關聯的譯碼樹單元(CTU)表示的非重疊的(non-overlapped)方形塊區域。編碼圖片可以由切片的集合表示,每個切片包括整數個 CTU。切片中的各個 CTU 按光柵掃描順序進行處理。可以使用具有至多兩個運動矢量和參考索引的幀內預測或幀間預測來解碼雙向預測(B)切片以預測每個塊的樣本值。使用具有至多一個運動向量和參考索引的幀內預測或幀間預測來解碼預測(P)切片以預測每個塊的樣本值。僅使用幀內預測對幀內 (I) 切片進行解碼。
可以使用具有嵌套(nested)多類型樹 (multi-type-tree,簡寫為MTT) 結構的四叉樹 (QT) 將 CTU 劃分為一個或多個非重疊的譯碼單元 (CU),以適應各種局部運動和紋理特徵。可以使用第2圖所示的五種拆分類型(四叉樹分區 (quad-tree partitionin g)210、垂直二叉樹分區(vertical binary tree partitioning) 220、水平二叉樹分區(horizontal binary tree partitioning) 230、垂直中心側三叉樹分區 (vertical center-side triple-tree partitioning)240、水平中心側三叉樹分區(horizontal center-side triple-tree partitioning)250)之一將 CU 進一步拆分為更小的 CU。第3圖提供了由具有嵌套MTT的QT遞歸分區的CTU的示例。每個 CU 包含一個或多個預測單元 (PU)。預測單元與相關聯的 CU 句法一起作為用於發送預測子資訊的基本單元。指定的預測過程用於預測 PU 內相關像素樣本的值。每個 CU 可以包含一個或多個變換單元 (TU),用於表示預測殘差塊。變換單元(TU)包括亮度樣本的變換塊(TB)和色度樣本的兩個對應變換塊,並且每個TB對應於來自一個顏色分量的一個殘差樣本塊。整數變換應用於變換塊。量化係數的電平值與其他輔助資訊一起在位元流中進行熵譯碼。術語譯碼樹塊 (CTB)、譯碼塊 (CB)、預測塊 (PB) 和變換塊 (TB) 被定義為分別指定與 CTU、CU、PU和 TU 相關聯的一種顏色分量的二維樣本數組。因此,一個 CTU 由一個亮度 CTB、兩個色度 CTB 和相關的句法元素組成。類似的關係適用於 CU、PU 和 TU。
為了實現高壓縮效率,採用基於上下文的適應性二進制算術譯碼(CABAC)模式,或稱為常規模式,對HEVC和VVC中的句法元素(syntax element)的值進行熵譯碼。第4圖圖示了CABAC過程的示例性框圖。由於 CABAC 引擎中的算術譯碼器只能對二進制符號值進行譯碼,因此 CABAC 過程需要使用二值化器(410)將句法元素的值轉換為二進製字符串。轉換過程通常稱為二值化。在譯碼過程中,概率模型是由不同上下文的譯碼的符號逐漸建立起來的。上下文建模器(420)用於建模目的。在基於正常上下文的譯碼過程中,使用對應於二進制算​​術譯碼器的常規譯碼引擎(430)。下一個二進制符號的建模上下文的選擇可以由譯碼的資訊確定。符號也可以在沒有上下文建模階段的情況下進行編碼,並假設一個相等的概率分佈,通常稱為旁路模式,以降低複雜性。對於被旁路的符號,可以使用旁路譯碼引擎(440)。如第4圖所示,開關(S1、S2 和 S3)用於引導常規 CABAC 模式和旁路模式之間的資料流。當選擇常規 CABAC 模式時,開關切換到上部觸點。當選擇旁路模式時,開關被翻轉到下部觸點,如第4圖所示。
在VVC中,可以使用相關標量量化(scalar quantization)來量化變換係數。兩個量化器之一的選擇由具有四個狀態的狀態機確定。當前變換係數的狀態由在掃描順序中的前一變換係數的絕對電平值狀態和奇偶性確定。變換塊被分割成不重疊的子塊。每個子塊中的變換係數級別(transform coefficient level)使用多個子塊譯碼通道進行熵編碼。句法元素 sig_coeff_flag、abs_level_gt1_flag、par_level_flag 和 abs_level_gt3_flag 在第一子塊譯碼通道中以常規模式譯碼。元素abs_level_gt1_flag和abs_level_gt3_flag分別指示當前係數級別的絕對值是否大於1和大於3。句法元素par_level_flag表示當前級別的絕對值的奇偶校驗位元(parity bit)。第一通道的變換係數級別的部分重建絕對值由下式給出: AbsLevelPass1 =  sig_coeff_flag + par_level_flag + abs_level_gt1_flag + 2 * abs_level_gt3_flag.                              (1)
熵譯碼 sig_coeff_flag 的上下文選擇取決於當前係數的狀態。因此,par_level_flag 在第一譯碼通道中傳訊,用於導出下一個係數的狀態。句法元素 abs_remainder 和 coeff_sign_flag 在隨後的子塊譯碼通道中以旁路模式進一步譯碼,以分別指示殘差的係數級別值和符號(sign)。變換係數級別的完全重建的絕對值由下式給出: AbsLevel  =  AbsLevelPass1 + 2 * abs_remainder.  (2)
變換係數級別由下式給出: TransCoeffLevel  =  (2*AbsLevel − (QState > 1 ? 1 : 0) ) * (1 − 2 * coeff_sign_flag),                                                                     (3) 其中 QState 表示當前變換係數的狀態。
本發明旨在進一步提高在視訊譯碼系統中對殘差資料的變換係數譯碼的性能。
有鑒於此,本發明提供以下技術方案:
本發明提供一種視訊解碼方法,包括:接收對應於當前塊的殘差塊的譯碼的變換係數,其中譯碼的變換係數包括與一組聯合預測的係數符號相關聯的譯碼的符號殘差;根據與當前塊關聯的譯碼上下文確定允許的最大數量;將譯碼的符號殘差解碼為解碼的符號殘差,其中組聯合預測的係數符號的總數等於或小於允許的最大數量;通過從該組聯合預測的係數符號的一組假設中選擇一個對應於實現最小成本的假設來確定組聯合預測的係數符號的聯合符號預測,其中對組假設中的每一個假設分別計算假設的當前塊的邊界像素和當前塊的對應的相鄰像素之間的成本,並且與每個假設相關聯的當前塊的邊界像素是使用包括所述每個假設的資訊來重建的;以及基於解碼的符號殘差和聯合符號預測來重建組聯合預測的係數符號。
本發明提供一種視訊解碼裝置,裝置包括一個或多個電子電路或處理器,用於:接收對應於當前塊的殘差塊的譯碼的變換係數,其中譯碼的變換係數包括與一組聯合預測的係數符號相關聯的譯碼的符號殘差;根據與當前塊關聯的譯碼上下文確定允許的最大數量;將譯碼的符號殘差解碼為解碼的符號殘差,其中組聯合預測的係數符號的總數等於或小於允許的最大數量;通過從該組聯合預測的係數符號的一組假設中選擇一個對應於實現最小成本的假設來確定組聯合預測的係數符號的聯合符號預測,其中對組假設中的每一個假設分別計算假設的當前塊的邊界像素和當前塊的對應的相鄰像素之間的成本,並且與每個假設相關聯的當前塊的邊界像素是使用包括所述每個假設的資訊來重建的;以及基於解碼的符號殘差和聯合符號預測來重建組聯合預測。
本發明提供一種視訊編碼方法,方法包括:接收當前塊的殘差塊對應的變換係數;根據與當前塊關聯的譯碼上下文確定允許的最大數量;確定與一組選定的變換係數相關聯的一組聯合預測的係數符號,其中該組聯合預測的係數符號的總數等於或小於允許的最大數量;通過從組聯合預測的係數符號的一組假設中選擇一個對應於實現最小成本的假設來確定組聯合預測的係數符號的聯合符號預測,其中對組假設中的每一個假設分別計算假設的當前塊的邊界像素和當前塊的對應的相鄰像素之間的成本,並且與每個假設相關聯的當前塊的邊界像素是使用包括所述每個假設的資訊來重建的;確定組聯合預測的係數符號與聯合符號預測之間的符號殘差;以及將上下文譯碼應用於符號殘差以生成譯碼的符號殘差。
本發明還提供一種視訊編碼裝置,裝置包括一個或多個電子電路或處理器,用於:接收當前塊的殘差塊對應的變換係數;根據與當前塊關聯的譯碼上下文確定允許的最大數量;確定與一組選定的變換係數相關聯的一組聯合預測的係數符號,其中組聯合預測的係數符號的總數等於或小於允許的最大數量;通過從該組聯合預測的係數符號的一組假設中選擇一個對應於實現最小成本的假設來確定組聯合預測的係數符號的聯合符號預測,其中對組假設中的每一個假設分別計算假設的當前塊的邊界像素和當前塊的對應的相鄰像素之間的成本,並且與每個假設相關聯的當前塊的邊界像素是使用包括所述每個假設的資訊來重建的;確定組聯合預測的係數符號與聯合符號預測之間的符號殘差;以及將上下文譯碼應用於符號殘差以生成譯碼的符號殘差。
本發明的視訊編碼方法、裝置以及視訊解碼方法、裝置可以提高變換係數符號譯碼的性能。
將容易理解的是,如本文附圖中大體描述和示出的,本發明的部件可以佈置和設計成多種不同的配置。因此,如附圖中所表示的本發明的系統和方法的實施例的以下更詳細的描述並不旨在限制所要求保護的本發明的範圍,而僅代表本發明的選定實施例。在整個說明書中對“一個實施例”、“實施例”或類似語言的引用意味著結合該實施例描述的特定特徵、結構或特性可以包括在本發明的至少一個實施例中。因此,在整個說明書的各個地方出現的短語“在一個實施例中”或“在實施例中”不一定都指代相同的實施例。
此外,所描述的特徵、結構或特性可以在一個或多個實施例中以任何合適的方式組合。然而,相關領域的技術人員將認識到,本發明可以在沒有一個或多個具體細節的情況下,或使用其他方法、組件等來實踐。在其他情況下,未示出或未展示眾所周知的結構或操作。詳細描述以避免模糊本發明的方面。通過參考附圖將最好地理解本發明的所示實施例,其中相同的部件自始至終由相同的數字表示。以下描述僅作為示例,並且簡單地說明了與如本文所要求保護的本發明一致的設備和方法的某些選定實施例。
ITU-T SG16 WP3 和 ISO/IEC JTC1/SC29/WG11 的聯合視訊專家組 (JVET) 目前正在探索下一代視訊譯碼標準。增強的壓縮模型 2 (Enhanced Compression Model 2,簡寫為ECM 2) 採用了一些有前景的新譯碼工具(M. Coban 等人,“Algorithm description of Enhanced Compression Model 2 (ECM 2)”, ITU-T SG16 WP3 和 ISO/IEC JTC1/SC29/WG11 聯合視訊專家組,第 23 次會議,電話會議,2021 年 7 月 7 日至 16 日,文件 JVET-W2025)以進一步改進 VVC。採用的新工具已在參考軟體 ECM-2.0(ECM 參考軟體 ECM-2.0,可在 https://vcgit.hhi.fraunhofer.de/ecm/ECM [在線] 獲得)中實施。特別是,已經開發了一種用於聯合預測殘差變換塊中的變換係數級別符號集合的新方法(JVET-D0031,Felix Henry 等人,“Residual Coefficient Sign Prediction”, ITU-T SG16 WP3 和 ISO/IEC JTC1/SC29/WG11 聯合視訊專家組,第 4 次會議:中國成都,2016 年 10 月 15-21 日,文件 JVET-D0031)。在 ECM 2 中,為了導出殘差變換塊的最佳符號預測假設,成本函數被定義為跨過第5圖所示的塊邊界的不連續性度量,其中塊 510 對應於變換塊,圓圈 520 對應於相鄰樣本(neighboring sample),並且圓圈530對應於與塊510的符號候選相關聯的重建樣本。成本函數被定義為上述行和左列的殘差域中的絕對二階導數(absolute second derivatives)之和,如下所示:
Figure 02_image001
(4)
在上述等式中,R是重建的相鄰塊(reconstructed neighbor),P是當前塊的預測,並且r是殘差假設。在序列參數集 (SPS) 中發訊變換塊中每個符號預測假設的允許的預測符號的最大數量N sp,並且在 ECM-2.0 中其被限制為小於或等於 8。測量所有假設的成本函數,並選擇成本最小的一個作為係數符號的預測子。只有來自變換塊中左上角 4x4 變換子塊區域的係數(具有最低頻率的係數)符號被允許包含在假設中。根據左上角 4x4 子塊上的光柵掃描順序收集和譯碼前N sp個非零係數(first N spnon-zero coefficients)的符號(如果可用)。對於那些預測的係數,發訊符號預測位元子(sign prediction bin),符號預測位元子指示預測的符號是否等於所選假設,而不發訊係數符號。該符號預測位元子是上下文譯碼的,其中選定的上下文是根據係數是否為 DC 得出的。對於幀內塊和幀間塊,以及亮度和色度分量,上下文是分開的。對於其他沒有符號預測的係數,相應的符號由CABAC在旁路模式下譯碼。
根據本發明的一個方面,用於對當前係數的符號預測位元子進行熵譯碼的上下文建模可以進一步以關於當前變換係數級別的絕對值的資訊為條件。這是因為具有較大絕對水平值(absolute level value)的係數對成本函數的輸出值的影響較大,因此往往具有較高的正確預測率。在所提出的方法中,視訊譯碼器的過程包括使用多個上下文變量來譯碼與符號預測相關的變換係數級別的符號相關的語法資訊,其中選擇上下文變量來譯碼當前係數級別的符號可以進一步取決於當前變換係數級別的絕對值。在一些實施例中,熵譯碼某些係數的符號預測位元子的上下文選擇進一步取決於當前變換係數級別的絕對值是大於還是小於一個或多個閾值。在一個示例中,用於某些係數的符號預測位元子的熵譯碼的上下文選擇進一步取決於當前變換係數級別的絕對值是否大於第一閾值T1。在一些優選實施例中,T1可以等於1、2、3或4。在另一個示例中,用於某些係數的符號預測位元子的熵譯碼的上下文選擇進一步取決於當前變換係數級別的絕對值是否大於第二閾值T2,其中T2大於T1。在一些優選實施例中,(T1,T2)可以等於(1,2)、(1,3)或(2,4)。
根據本發明的又一方面,用於視訊譯碼器的處理還可以包括考慮當前變換塊的編碼上下文適應性地設置所述一個或多個閾值的值。在一些實施例中,一個或多個閾值的導出可以進一步取決於與當前的變換塊相關聯的變換塊維度、變換類型、顏色分量索引、預測的符號的數量、非零係數的數量或最後一個有效係數的位置。一個或多個閾值的導出可以進一步取決於當前CU的預測模式。一個或多個閾值的導出可進一步取決於與變換塊中的當前係數相關聯的位置或索引。一個或多個閾值的導出還可以取決於當前變換塊中符號預測的係數的絕對值之和。
根據本發明的另一方面,用於當前係數的符號預測位元子的熵譯碼的上下文建模可以進一步以從當前變換塊中的當前係數級別和其他係數級別的絕對值導出的資訊為條件。在一些實施例中,當前變換塊中係數的符號的熵譯碼的上下文選擇可以進一步取決於當前變換塊中符號預測的係數的絕對值之和。在一些實施例中,用於對當前變換塊中的係數的符號進行熵譯碼的上下文選擇可以進一步取決於當前變換塊中的符號預測的下一個係數的絕對值或符號預測的剩餘係數的絕對值之和。
在一些提出的實施例中,依賴於絕對係數級別(absolute coefficient level)的上下文選擇可以僅由指定的多個變換係數採用。當當前係數不屬於指定的多個變換係數時,當前係數的上下文選擇與絕對係數級別無關。在一些實施例中,指定的多個變換係數對應於根據變換塊中的預定義掃描順序與符號預測相關聯的前N1個係數。當當前係數不屬於前N1個係數時,上下文選擇與絕對係數級別無關。在一些實施例中,預定義順序是符號預測位元子的熵譯碼順序。在一些實施例中,N1等於1、2、3或4。在一些實施例中,變換係數的指定組對應於來自變換係數區域或掃描索引範圍的係數。
在一些實施例中,指定的變換係數組對應於變換塊中的DC係數。當當前變換係數是DC係數時,符號譯碼的上下文選擇可以依賴於當前變換係數級別的絕對值。否則,符號譯碼的上下文選擇與當前變換係數級別的絕對值無關。在一些實施例中,指定的多個變換係數僅來自亮度塊。符號譯碼的上下文選擇可以依賴於亮度TB中的當前變換係數級別的絕對值並且獨立於色度TB中的當前變換係數級別的絕對值。在一些實施例中,指定的多個變換係數僅與一些特定的變換塊維度、變換類型或CU譯碼模式相關聯。
根據本發明的另一方面,用於當前係數的符號預測位元子的熵譯碼的上下文建模可以進一步以關於當前變換塊中的編碼的符號預測位元子的資訊為條件。在一些實施例中,用於對某些係數的符號預測位元子進行熵譯碼的上下文選擇可以進一步取決於當前變換塊中的第一譯碼的符號預測或DC符號預測是否正確。在一些實施例中,用於當前係數的符號的熵譯碼的上下文選擇可以進一步取決於對應於不正確符號預測的符號預測位元子的累加數量。在一些實施例中,用於某些係數的符號預測位元子的熵譯碼的上下文選擇取決於對應於不正確符號預測的符號預測位元子的累加數量是否大於一個或多個指定閾值。在一個實施例中,用於對某些係數的符號預測位元子進行熵譯碼的上下文選擇取決於與錯誤符號預測對應的符號預測位元子的累加數量是否大於T ic,其中T ic等於0、1、2或3。根據本發明的另一方面,當對應於錯誤符號預測的編碼符號預測位元子的累加數量大於指定閾值時,剩餘符號預測位元子的熵譯碼可以切換到旁路模式。
根據本發明的另一方面,用於當前係數的符號預測位元子的熵譯碼的上下文建模可以進一步以當前變換塊中的符號預測位元子的總數為條件。在一些實施例中,用於當前變換塊中某些係數的符號預測位元子的熵譯碼的上下文選擇可以進一步取決於當前變換塊中的符號預測位元子的總數是否大於一個或多個非零閾值。根據本發明的又一方面,用於視訊譯碼器的過程還可以包括考慮當前變換塊的編碼上下文適應性地設置所述一個或多個閾值的值。在一些實施例中,一個或多個閾值的導出可以進一步取決於與當前的變換塊相關聯的變換塊維度、變換類型、顏色分量索引、預測的符號的數量、非零係數的數量或最後一個有效係數的位置。一個或多個閾值的導出可以進一步取決於當前CU的預測模式。一個或多個閾值的導出可進一步取決於與變換塊中的當前係數相關聯的位置或索引。一個或多個閾值的導出還可以取決於當前變換塊中符號預測的係數的絕對值之和。
根據本發明的另一方面,用於當前係數的符號預測位元子的熵譯碼的上下文建模可以進一步以關於變換塊中當前變換係數的索引或位置的資訊為條件,其中當前變換係數的索引可以對應於譯碼預測的符號的掃描順序,也可以按照光柵掃描順序、對角線掃描順序(如第6圖所示)或與當前變換塊中的係數級別的絕對值相關的排序順序導出。在一些實施例中,用於某些係數的符號預測位元子的熵譯碼的上下文選擇取決於當前變換係數級別的索引是大於還是小於一個或多個非零閾值。
在一些其他實施例中,用於對某些係數的符號預測位元子進行熵譯碼的上下文選擇取決於位置(0, 0)的左上塊原點與當前係數位置(x, y)之間的距離是否大於或小於另一個或多個非零閾值,其中距離定義為 (x + y)。根據本發明的又一方面,用於視訊譯碼器的過程可以進一步包括考慮當前變換塊的編碼上下文適應性地設置所述一個或多個閾值或另一個或多個非零閾值的值。在一些實施例中,所述一個或多個閾值或另一或多個非零閾值的導出可以進一步取決於與當前變換塊相關聯的變換塊維度、變換類型、顏色分量索引、預測符號的數量、非零係數的數量,或最後一個有效係數的位置。所述一個或多個閾值或另一或多個非零閾值的導出還可以取決於當前CU的預測模式。一個或多個閾值的導出可以進一步取決於與當前係數相關聯的絕對水平(absolute level)或者進一步取決於在當前變換塊中符號預測的係數的絕對值的總和。
根據本發明的另一方面,用於對當前變換塊中的當前係數的符號預測位元子進行熵譯碼的上下文建模可以進一步以當前變換塊的寬度、高度或塊大小為條件。在一些實施例中,當前變換塊中某些係數的符號預測位元子的熵譯碼的上下文選擇取決於當前變換塊的寬度、高度或塊大小是否大於或小於一個或多個閾值。
根據本發明的另一方面,用於對當前變換塊中的當前係數的符號預測位元子進行熵譯碼的上下文建模可以進一步以與當前變換塊相關聯的變換類型為條件。在一些實施例中,用於對當前變換塊中的某些係數的符號預測位元子進行熵譯碼的上下文選擇可以進一步取決於與當前變換塊相關聯的變換類型。在一些示例性實施例中,當當前塊變換類型屬於低頻不可分離變換(low-frequency non-separable transform,簡寫為LFNST)或多重變換選擇 (multiple transform selection,簡寫為MTS)時,視訊譯碼器可以分配單獨的一組上下文用於當前變換塊中的某些變換係數的符號預測位元子的熵譯碼。
在解碼器側,針對可能的假設評估相應的成本函數,如 JVET-D0031 中所公開的。解碼器將解析係數、符號和符號殘差作為其解析過程的一部分。符號和符號殘差在 TU 結束時被解析,此時解碼器知道所有係數的絕對值。因此,它可以確定預測了哪些符號,並且對於每個預測的符號,它可以根據去量化的係數值確定用於解析符號預測殘差的上下文。 “正確”或“不正確”預測的知識被簡單地存儲為正在解析的塊的 CU 資料的一部分。此時,係數的真實符號是未知的。在重建期間,解碼器執行類似於編碼器的操作以確定假設成本。實現最小成本的假設被確定為符號預測。
在 ECM-2.0 中,對當前變換塊應用符號預測時,根據前向光柵掃描順序在當前變換塊中的左上 4x4 子塊上收集和編碼前N sp個非零係數的符號(當可用時)。受到不連續性測量的所有可能假設的數量等於 1 << N sp並且隨著預測的符號的數量而顯著增加,其中“<<”是按位左移運算符(bit-wise up-shift operator)。在一種提出的方法中,視訊譯碼器可以包括對適用於符號預測的變換係數級別的最小絕對值的約束,其中對於某些指定的變換係數,最小絕對值可以大於1。只有當當前變換係數級別的絕對值大於或等於指定的最小值時,才允許將約束下的當前係數的符號包含到符號預測的假設中。這樣,可以將幅度較小的係數排除在符號預測之外,從而減少變換塊中預測符號的數量。
在一些實施例中,僅當當前係數級別的絕對值大於指定閾值T sp時,才允許將當前係數的符號包括到符號預測的假設中,其中對於來自 TB符號預測區域(ECM-2.0 中的左上角 4x4 子塊)的指定係數,T sp大於0。在一個實施例中,僅當對於某些指定係數,當前係數級別的絕對值大於1時,才允許將當前係數的符號包括在用於符號預測的假設中。所提出的方法可以進一步包括適應性地確定T sp的值。在一個示例中,可以根據當前變換塊的塊寬度、高度或大小適應性地導出T sp。在另一示例中,可以根據為當前變換塊選擇的量化參數適應性地導出T sp。又例如,可以根據當前塊中當前係數的位置或索引來適應性地導出T sp。在一個示例性實施例中,可以如下推導T sp: ­當前係數的索引小於C1時,T sp等於0; ­否則,當當前係數的索引小於C2時,T sp等於1; ­否則,T sp等於 2, 其中 0 ≤ C1C2N sp
在 ECM-2.0 中,當符號預測應用於當前變換塊時,根據光柵掃描順序在左上 4x4 子塊上收集和譯碼前N sp個非零係數的符號(當可用時)。適用於符號預測的變換係數區域固定為每個變換塊的左上角 4x4 子塊。在所提出的方法中,視訊譯碼器的處理還可包括根據與當前變換塊相關聯的譯碼上下文適應性地設置適用於當前變換塊中的符號預測的變換係數區域或索引範圍。視訊譯碼器可包括用於收集變換塊中的前N sp個係數的符號的指定掃描順序。視訊譯碼器還可以包括根據指定的掃描順序確定當前變換塊中的符號預測適用的最大索引,其中索引大於根據當前變換塊中指定的掃描順序的最大索引的任何變換係數的符號不適用於符號預測。
備選地,視訊譯碼器可包括根據當前變換塊中變換係數或子塊的位置(x,y)和一個或多個具體的閾值,確定變換係數或子塊是否適用當前變換塊中的符號預測,其中當前變換塊的左上塊原點(top-left block origin)對應於位置(0, 0)。在一些實施例中,在某些變換塊中,僅當x小於第一閾值並且y小於第二閾值時,位置(x,y)處的變換係數或子塊才適用於符號預測。在一些其他實施例中,在某些變換塊中,僅當變換塊原點與當前係數或子塊的位置之間的距離(等於(x+y))小於另一個指定閾值時,位置(x,y)處的變換係數或子塊時才適用於符號預測。
在一些實施例中,可適用於當前變換塊中的符號預測的變換係數區域或索引範圍可以根據塊維度(block dimension)、變換類型、顏色分量索引、最後有效係數(last significant coefficient)的位置或與當前變換塊相關的非零係數的數量來適應性地設置。在一些實施例中,當當前變換塊的寬度或高度小於一個指定閾值或當前變換塊的大小小於另一個指定的閾值時,視訊譯碼器可以減小當前變換塊中適用符號預測的變換係數區域或索引範圍。在一些示例性實施例中,對於塊寬度或高度小於一個閾值M sp的變換塊或塊大小小於另一閾值MN sp的變換塊,可將適用於符號預測的變換係數索引範圍設置為從0到R1 sp,其中R1 sp是按照指定掃描順序的最大索引。在一些實施例中,當 M sp等於 4、8、16 或 32 時,或者當 MN sp等於 16、64、256 或 1028 時,R1 sp可以等於 2、3、5 或 7。上述的R1 sp、M sp和MN sp的取值僅用於舉例說明,可以根據需要選擇或確定其他合適的取值。
在一些實施例中,當當前變換塊的寬度或高度大於一個指定閾值或當前變換塊的大小大於另一個指定的閾值時,視訊譯碼器可以增大當前變換塊中適用符號預測的變換係數區域或索引範圍。
在一些示例性實施例中,當當前變換塊的寬度或高度大於一個指定閾值或當前變換塊的大小為大於另一個指定的閾值時,視訊譯碼器可包括來自低頻變換塊區域的多於一個的子塊。在一些實施例中,視訊譯碼器可減少適用於一種或多種指定變換類型的符號預測的變換係數區域或索引範圍。在一些示例性實施例中,對於一種或多種指定變換類型,適用於符號預測的變換係數索引範圍被設置為從0到R2 sp,其中R2 sp是根據指定的掃描順序的最大索引。
在一些其他示例性實施例中,僅當變換塊原點與等於當前係數的位置之間的距離(x+y)小於另一個指定的閾值 D1 sp時,位置(x,y)處的變換係數才適用於符號預測。在一些實施例中,一個或多個指定的變換類型包括某些低頻不可分離變換(LFNST)類型和/或與多重變換選擇(multiple transform selection,簡寫為MTS)相關聯的某些變換類型,R2 sp可以等於2、3、5,並且D1 sp可以等於1、2、3、4、5、6或7。在一些實施例中,對於某些MTS和/或LFNST類型,與DCT類型 II相比,適用於符號預測的變換係數區域或索引範圍減小了。在一些實施例中,視訊譯碼器可針對一種或多種指定的變換類型擴大適用於符號預測的變換係數區域或索引範圍。在一些示例性實施例中,當與當前殘差塊相關聯的變換類型屬於一種或多種指定變換類型時,視訊譯碼器可以包括來自低頻變換塊區域的多於一個子塊。在一些實施例中,一種或多種指定的變換類型包括DCT類型II。
所提出的方法可以進一步包括在位元流中發信關於適用於符號預測的變換係數區域或索引範圍的資訊。在一些實施例中,視訊譯碼器可發信一個或多個句法元素,用於在一個或多個高級參數集中(例如序列參數集(SPS)、圖片參數集(PPS)中、圖片頭 (PH) 和/或切片頭 (SH) )導出適用於符號預測的變換係數區域或索引範圍。
在一些其他實施例中,視訊譯碼器可發信多於一個句法集以導出關於多於一個變換係數區域或索引範圍的資訊以用於一個或多個高級句法集中的符號預測,其中每一句法集對應於關於導出特定變換係數區域或索引範圍的資訊,該特定變換係數區域或索引範圍適用於某些指定的變換塊的符號預測,並且當前變換塊的特定變換係數區域或索引範圍的選擇取決於與該當前變換塊相關聯的原文上下文。例如,當前變換塊的特定變換係數區域或索引範圍的選擇可能取決於變換塊大小、變換類型、顏色分量索引、預測符號的數量、最後有效係數的位置或與當前變換塊相關的非零係數的數量。當前變換塊的特定變換係數區域或索引範圍的選擇還可以取決於當前CU的預測模式。
在 ECM-2.0 中,在序列參數集 (SPS) 中發訊變換塊中預測符號的最大數量N sp,並且N sp被限制為小於或等於 8。在所提出的方法中,視訊譯碼器可以根據與當前變換塊相關聯的譯碼原文上下文適應性地設置當前變換塊中預測符號的最大允許數量。在一些實施例中,視訊譯碼器可基於與當前變換塊相關聯的譯文上下文從一個或多個參考句法值適應性地導出當前變換塊中的預測符號的最大允許數量。在一些實施例中,當前變換塊中允許的預測符號的最大數量的推導取決於變換塊維度、變換類型、顏色分量索引、最後有效係數的位置或與當前變換塊相關聯的非零係數的數量。例如,當在高階句法集中指定的參考句法值N sp被設置為大於4時,對於較小變換塊大小(如4*4),所允許的最大數量可被設置為4。在一個示例中,當前變換塊中所允許的預測符號的最大數量被設置為等於參考句法值N sp乘以縮放因子,其中縮放因子值的選擇取決於當前塊維度。
在一些其他實施例中,視訊譯碼器可以發信一個或多個高級參數集中的多於一種句法集,例如序列參數集(SPS)、圖片參數集(PPS)、圖片標頭(picture header,簡寫為PH)和/或切片標頭(slice header,簡寫為SH),其中每個句法集對應於關於為某些指定變換塊導出變換塊中允許的預測符號最大數量的特定參數值的資訊。此外,對於當前變換塊中允許的預測符號最大數量的特定參數值的選擇取決於當前譯碼上下文。例如,對於當前變換塊中允許的預測符號最大數量的特定參數值的選擇可以取決於變換塊維度、變換類型、顏色分量索引、最後有效係數的位置或與當前變換塊相關的非零係數的數量。在一個實施例中,可以通過將當前塊大小與一個或多個預定義閾值進行比較來確定當前變換塊中允許的最大數量的預測符號的特定參數值的選擇。 在另一個實施例中,特定參數值的選擇由是否將諸如LFNST的二次變換應用於當前變換塊來確定。當前變換塊的特定參數值的選擇還可以取決於當前CU的預測模式。在所提出的方法中,視訊譯碼器的處理還可以包括多於一個上限約束,每個約束限制對於某些指定變換塊的變換塊中所允許的預測符號最大數量的最大參數值。當前變換塊的上限約束的確定可以取決於變換塊維度、變換類型、顏色分量索引、最後有效係數的位置或與當前變換塊相關聯的非零係數的數量。在一個實施例中,對於塊大小小於或等於 16 的變換塊,上限約束被設置為等於 4。
在 ECM-2.0 中,當當前變換塊的變換塊寬度或高度大於 128 或小於 4 時,針對當前變換塊禁用係數符號預測工具。 根據本發明的一個方面,視訊譯碼器可以對塊維度採用不同的約束,以實現對不同變換類型的符號預測。在所提出的方法中,視訊譯碼器包括多於一組的維度約束,用於實現不同變換類型的符號預測。視訊譯碼器進一步包括根據當前變換類型確定用於在當前變換塊中啟用符號預測的維度約束的選定集合。在一些實施例中,對於屬於MTS和/或LFNST類型的一種或多種變換類型,視訊譯碼器可以選擇包括比DCT類型II更低的最大維度約束值的集合。
在ECM-2.0中,前N sp個非零係數的符號被收集並根據在第一子塊上的前向光柵掃描順序進行譯碼以用於符號預測。根據本發明的另一方面,視訊譯碼器可以基於變換係數級別的預期分佈,根據係數幅度減小的順序來確定選擇的經受符號預測的前N sp個係數。在一個實施例中,根據從DC係數開始的前向子塊方式對角線掃描順序收集前N sp個係數的符號,其中,每個子塊中的變換係數按對角線掃描順序訪問,如第6圖所示,每個變換塊中的子塊也按對角線掃描順序訪問。在另一個實施例中,根據到前向子塊對角線掃描順序收集前N sp個係數的符號並譯碼。在另一個實施例中,前N sp係數的符號以前向子塊方式對角線掃描順序被收集並且以向後子塊方式對角線掃描順序被譯碼。
在ECM-2.0中,通過跨塊邊界的絕對差之和(SAD)來最小化對應於不連續性度量(discontinuity measure)的成本函數,來確定當前變換塊的最佳符號預測假設。 在所提出的方法中,通過跨塊邊界的平方誤差之和來最小化與不連續性度量對應的成本函數,來確定當前變換塊的最佳符號預測假設,如下所示:
Figure 02_image003
. (5)
在 ECM-2.0 中,當為當前變換塊啟用符號預測時,左上 (最低頻率) 變換子塊適用符號預測,並且在用於熵譯碼當前變換塊的殘差譯碼過程期間,跳過左上變換子塊的符號熵譯碼。在熵譯碼所有變換塊(通過逐個變換塊殘差譯碼過程)和用於指示與當前CU相關聯的LFNST和MTS索引的句法元素之後,單獨的符號譯碼過程用於熵譯碼在當前 CU 中啟用符號預測的每個殘差塊的變換子塊上的符號資訊。這樣,當前CU中能夠進行符號預測的每個變換塊都需要在通過殘差解碼過程對每個變換塊進行熵解碼之後重新訪問以進行符號譯碼。
在所提出的方法中,視訊譯碼系統包括熵譯碼當前CU中的多個殘差塊,其中多個殘差塊中的每一個由殘差譯碼過程譯碼。當前變換塊中的符號預測位元子也在用於熵譯當前變換塊的殘差譯碼過程中被熵譯碼。當前係數的每個譯碼的符號預測位元子指示當前係數的預測符號是否正確。 ECM-2.0 中單獨的符號譯碼處理被刪除。在一些實施例中,每個殘差塊被劃分為一個或多個非重疊子塊,並且殘差譯碼過程包括根據指定子塊掃描順序熵譯碼當前變換塊中的各個子塊。殘差譯碼過程還可以包括一個或多個子塊譯碼通道,用於關於當前子塊中的變換係數級別的絕對值的熵譯碼資訊。殘差譯碼過程還可以包括根據指定規則確定當前變換塊中符號預測的係數集合。殘差譯碼過程還可以包括根據指定掃描順序熵譯碼當前變換塊中的符號預測位元子。
在一些實施例中,符號預測僅適用於來自每個變換塊中的左上變換子塊的變換係數。殘差解碼過程還可以包括一個或多個子塊譯碼通道之後的子塊符號譯碼通道。其中該一個或多個子塊譯碼通道用於熵譯碼左上子塊中的變換係數級別的絕對值,該子塊符號譯碼通道根據左上子塊中指定的掃描順序熵解碼係數符號資訊。在子塊符號譯碼通道中,可以針對左上子塊中的當前非零係數發信句法標誌。當當前非零係數經受符號預測時,句法標誌發信符號預測位元子的值以指示當前係數的符號預測是否正確。否則,句法標誌發信當前非零係數的符號。在一些實施例中,熵譯碼符號資訊的子塊符號譯碼通道遵循左上子塊中的反向對角線掃描順序。在一些其他實施例中,熵譯碼符號資訊的子塊符號譯碼通道遵循左上子塊中的前向對角線掃描順序。熵譯碼符號預測位元子的上下文建模可以進一步以譯碼的符號預測位元子為條件。在一些實施例中,符號預測適用於來自變換塊中左上變換塊區域的一個以上子塊的變換係數。 所提出的子塊符號譯碼通道可以類似地應用於來自左上變換塊區域的每個子塊進行符號預測。
在 ECM-2.0 中,如第5圖所示,通過最小化對應於跨左塊邊界和上方塊邊界的不連續性度量的成本函數,在當前變換塊中確定最佳符號預測假設。根據本發明的另一個方面,視訊譯碼器可以僅使用塊邊界樣本的一側(左側或上方)來導出預測符號或考慮與當前變換塊相關聯的譯碼上下文來完全關閉符號預測。在所提出的方法中,視訊譯碼器包括一種符號預測模式,其對應於基於跨越上方塊邊界和左側塊邊界兩者的不連續性測量來推導變換塊中的預測符號。視訊譯碼器還包括兩個額外的符號預測模式,其中第一額外模式對應於僅基於跨左側塊邊界的不連續性度量來導出變換塊中的預測符號,而第二額外模式對應於僅基於跨越上方塊邊界的不連續度量導出變換塊中的預測符號。在一些實施例中,對應於第一附加模式和第二附加模式的成本函數分別由等式(6) 和 (7)如下給出:
Figure 02_image005
(6)
Figure 02_image007
(7)
視訊譯碼器進一步包括為當前變換塊確定所選擇的符號預測模式。視訊譯碼器可以僅針對CU中的所有變換塊基於亮度分量來確定選擇的符號預測模式。在一些實施例中,視訊譯碼器可以在考慮當前CU中的選定幀內預測方向的情況下導出當前變換塊中的選定符號預測模式。在一個示例中,視訊譯碼器可以在選擇的幀內預測方向接近水平預測方向時將選擇的符號預測模式設置為第一附加預測模式,並且在選擇的幀內預測方向接近垂直預測方向時將選擇的符號預測模式設置為第二附加預測模式。
在一些其他實施例中,視訊譯碼器可以在考慮與當前塊相關聯的塊邊界條件的情況下導出當前變換塊中的選定符號預測模式。例如,當一個特定當前塊邊界與圖塊或切片邊界重疊時,視訊譯碼器可確定不使用來自該特定邊界的重建樣本來導出預測符號。當重建的相鄰樣本在上方和左側塊邊界上均不可用時,視訊譯碼器可以禁用該塊的符號預測。對於另一示例,當從重建的邊界樣本確定圖像邊緣可能存在於一個特定的當前塊邊界上時,視訊譯碼器可以確定不使用來自該特定邊界的重建樣本來導出預測的符號。
在一些其他實施例中,當殘差信號存在於當前變換塊或譯碼單元中時,視訊譯碼器可發信一個或多個句法元素以用於推導當前變換塊或譯碼單元中所選擇的符號預測模式。在一些實施例中,僅當當前變換塊中的預測符號的數量大於閾值時,視訊譯碼器才可以發信一個或多個句法元素以導出當前變換塊中的所選符號預測模式。
在一些實施例中,視訊譯碼器可以以降低的計算複雜度在成本函數中垂直下採樣左側塊邊界和水平下採樣上方塊邊界以用於不連續性測量。在所提出的實施例中,當僅為當前變換塊選擇兩個附加預測模式中的一個時,所選塊邊界的下採樣率可以減少2倍 。
在ECM-2.0中,當符號預測應用於當前變換塊時,通過最小化成本函數Eqn. (1)來聯合預測當前變換塊中最多N sp個係數的一組符號。需執行不連續性測量的所有可能假設的數量等於 1 << N sp並且隨要聯合預測的符號的數量而顯著增加。根據本發明的另一方面,可在子集中預測變換塊中經受符號預測的符號集,以降低經受不連續性測量的所有可能假設的數量。聯合進行符號預測的符號集稱為聯合預測的係數符號集(也稱為一組聯合預測的係數符號)。在所提出的方法中,變換塊中經受符號預測的符號集可以被劃分為一個或多個符號子集。對經受(subject to)符號預測的符號集進行預測和譯碼包括對符號的每個子集進行預測和譯碼,其中每個子集中的符號通過最小化諸如Eqn. (1)的成本函數來針對每個子集的所有可能假設聯合預測。從譯碼的子集導出的符號可用於重建當前變換塊中的邊界樣本,以預測當前子集的符號。通過將符號預測的符號集合劃分為子集,變換塊中允許的預測的符號的最大數可以進一步增加到8個。
在一些實施例中,視訊譯碼器可以採用相同的子集大小S sp,以將符號集合均勻地劃分為一個或多個子集,其中子集大小全部等於S sp,除了一個子集可以具有集合大小被 S sp劃分後的剩餘的大小。在一些實施例中,S sp的值可以等於1、2、3、4、5、6、7或8,或者在位元流中傳訊。在一些其他實施例中,視訊譯碼器可以適應性地設置子集大小S sp。例如,可以根據與當前變換塊相關聯的變換塊維度、變換類型、顏色分量索引、非零係數的數量或預測符號的數量來適應性地確定S sp。 S sp也可以根據當前 CU 的預測模式進行適應性調整。在一些實施例中,可以為子集跳過符號預測,並且子集中的所有符號都以旁路模式譯碼。例如,視訊譯碼器可以跳過當前變換塊中的子集的符號預測,其中該子集不是當前變換塊中的第一子集並且子集中的預測符號或非零係數的數量小於S sp或其他指定的閾值。
根據本發明的另一方面,視訊譯碼器可以將變換塊中經受符號預測的符號集合劃分為不同大小的子集。例如,S (i) sp可用於指示子集 i 的子集大小。在一個示例中,當在變換塊中多達8個符號經受符號預測時,對於i等於0、1和2,子集大小S (i) sp分別等於2、2和4。在另一個示例中,當在變換塊中多達16個符號經受符號預測時,當 i等於 0、1、2 和 3 時,子集大小 S (i) sp分別等於 2、2、4 和 8。在另一個示例中,當在變換塊中多達16個符號經受符號預測時,當i 分別等於 0、1、2、3 和 4時,子集大小S (i) sp分別等於 1、2、3、4 和 6。
在一些實施例中,視訊譯碼器可以根據當前變換係數在當前變換塊中的位置或掃描索引來確定用於當前變換係數的符號預測的關聯子集索引。例如,當當前係數的掃描索引大於指定閾值 T sub 時,設置關聯子集索引等於1;否則,關聯子集索引設置為等於0。在一些實施例中, T sub 等於0、1、2、3、4或5。
在一些實施例中,視訊譯碼器可以根據與當前變換塊相關聯的變換塊維度、變換類型、顏色分量索引、非零係數的數量或預測符號數將經受符號預測的符號集合適應性地劃分為子集。在一些其他實施例中,視訊譯碼器可根據當前CU的預測模式將經受符號預測的符號集合適應性地劃分為子集。在一些其他實施例中,視訊譯碼器可以適應性地考慮當前變換塊中的係數水平的絕對值來確定將經受符號預測的符號集合劃分為當前變換塊中的可變大小的子集。
在一些實施例中,關於將經受符號預測的符號集合劃分為子集的資訊可以在位元流中傳訊。在一些具體實施例中,關於將經受符號預測的符號集合劃分為子集的資訊可以在序列參數集(SPS)、圖片參數集(PPS)、圖片標頭(PH)和/或切片標頭(SH )中傳訊。在一些實施例中,用於對與符號預測相關聯的當前係數的符號進行熵譯碼的上下文建模可以進一步以從將經受符號預測的符號集劃分為子集而得到的資訊為條件。在一些實施例中,用於子集中當前變換係數的符號的熵譯碼的上下文選擇可以進一步取決於與該子集相關聯的子集索引。
在本發明中,當前係數的符號的熵譯碼可以是指在上述提出的任何一種方法中對當前係數的符號預測位元子的熵譯碼。
所提出的方面、方法和相關實施例可以在圖像和視訊譯碼系統中單獨地和聯合地實現。
任何前述提出的方法都可以在編碼器和/或解碼器中實現。例如,任何提出的方法都可以在編碼器(例如,第1A圖中的熵編碼器122)的係數譯碼模塊和/或解碼器(例如,第1B圖中的熵解碼器140)的係數譯碼模塊中實現。或者,所提出的任何方法都可以實現為集成到編碼器的係數譯碼模塊和/或解碼器的係數譯碼模塊的電路。
第7圖示出了根據本發明實施例的利用聯合符號預測的示例性視訊解碼系統的流程圖。流程圖中所示的步驟可以實現為在編碼器側的一個或多個處理器(例如,一個或多個CPU)上可執行的程式代碼。流程圖中所示的步驟也可以基於硬體來實現,例如一個或多個電子設備或處理器,這些電子設備或處理器被佈置為執行流程圖中的步驟。在步驟710,根據該方法的視訊解碼器將接收對應於當前塊的殘差塊的編碼的變換係數,其中編碼的變換係數包括編碼的符號殘差。在步驟720中,根據與當前塊相關的譯碼上下文確定允許的最大數量。在步驟730中,編碼的符號殘差被解碼為解碼的符號殘差,其中該組聯合預測的係數符號的總數量等於或小於該允許的數量。在步驟740,通過從該組聯合預測的係數符號的一組假設中選擇一個對應於實現最小成本的假設來確定該組聯合預測的係數符號組合的聯合符號預測(joint sign prediction),其中對該組假設中的每一個假設分別計算該假設的當前塊的邊界像素和當前塊的對應的相鄰像素之間的成本,並且與每個假設相關聯的當前塊的邊界像素是使用包括所述每個假設的資訊來重建的。在步驟750中,基於解碼的符號殘差和聯合符號預測來重建該組聯合預測的係數符號。
第8圖示出了根據本發明實施例的利用聯合符號預測的示例性視訊編碼系統的流程圖。在步驟810,根據該方法的視訊編碼器將接收與當前塊的殘差塊相對應的變換係數。在步驟820,根據與當前塊相關聯的譯碼上下文確定最大允許數量。在步驟830中,確定與一組選定的變換係數相關聯的一組聯合預測的係數符號,其中該組聯合預測的係數符號的總數量等於或小於該允許的最大數量。在步驟840,通過從該組聯合預測的係數符號的組合的一組假設中選擇一個對應於實現最小成本的假設來確定該組聯合預測的係數符號組合的聯合符號預測,其中對該組假設中的每一個假設分別為該假設計算當前塊的邊界像素和當前塊的對應的相鄰像素之間的成本,並且其中與每個假設相關聯的當前塊的邊界像素是使用包括所述每個假設的資訊來重建的。在步驟850,確定該組聯合預測的係數符號和聯合符號預測之間的符號殘差。在步驟860,將上下文譯碼應用於符號殘差以生成編碼符號殘差。
所示流程圖旨在說明根據本發明的視訊編碼的示例。 所屬領域具有通常知識者在不脫離本發明的精神的情況下,可以修改每個步驟、重新排列步驟、拆分步驟或組合步驟來實施本發明。 在本公開中,已經使用特定的句法和語義來說明示例以實現本發明的實施例。 所屬領域具有通常知識者可以通過用等效的句法和語義代替句法和語義來實踐本發明,而不背離本發明的精神。
呈現以上描述是為了使所屬領域具有通常知識者能夠實踐在特定應用及其要求的上下文中提供的本發明。對所描述的實施例的各種修改對於所屬領域具有通常知識者來說將是顯而易見的,並且本文定義的一般原理可以應用於其他實施例。因此,本發明不旨在限於所示和描述的特定實施例,而是要符合與本文公開的原理和新穎特徵相一致的最寬範圍。在以上詳細描述中,為了提供對本發明的透徹理解,說明了各種具體細節。然而,所屬領域具有通常知識者將理解,可以實踐本發明。
如上所述的本發明的實施例可以以各種硬體、軟體代碼或兩者的組合來實現。例如,本發明的一個實施例可以是集成到視訊壓縮晶片中的一個或多個電路電路或集成到視訊壓縮軟體中以執行本文描述的處理的程式代碼。本發明的實施例還可以是要在數字信號處理器(DSP)上執行以執行這裡描述的處理的程式代碼。本發明還可以涉及由計算機處理器、數字信號處理器、微處理器或現場可編程門陣列(FPGA)執行的許多功能。這些處理器可以被配置為通過執行定義本發明所體現的特定方法的機器可讀軟體代碼或韌體代碼來執行根據本發明的特定任務。軟體代碼或韌體代碼可以以不同的程式語言和不同的格式或樣式開發。軟體代碼也可以針對不同的目標平台進行編譯。然而,軟體代碼的不同代碼格式、風格和語言以及配置代碼以執行根據本發明的任務的其他方式將不脫離本發明的精神和範圍。
在不背離其精神或基本特徵的情況下,本發明可以以其他特定形式體現。所描述的示例在所有方面都僅被認為是說明性的而不是限制性的。因此,本發明的範圍由所附申請專利範圍而不是由前述描述指示。在申請專利範圍的等效含義和範圍內的所有變化都應包含在其範圍內。
110:幀內預測 112:幀間預測 114:開關 116:加法器 118:變換 120:量化 130:迴路濾波器 122:熵編碼器 124:逆量化 126:逆變換 128:重建 134:參考圖片緩衝器 136:預測資料 140:熵解碼器 150:幀內預測 152:MC 210:四叉樹分區 22:0垂直二叉樹分區 230:水平二叉樹分區 240:垂直中心側三叉樹分區 250:水平中心側三叉樹分區 410:二值化器 420:上下文建模器 430:常規譯碼引擎 440:旁路譯碼引擎 510:塊 520、530:樣本 710~750、810~860:步驟
結合在本說明書中並構成本說明書一部分的附圖示出了本發明的實施例,並且與說明書一起用於解釋本發明的原理: 第1A圖示出了一個示例性的併入迴路處理(loop processing)的適應性幀間/幀內視訊解碼系統。 第1B圖示出了另一示例的解碼系統。 第2圖示出了可以使用五種拆分類型之一拆成更小CU的CU的示意圖。 第3圖提供了由具有嵌套MTT的QT遞歸分區的CTU的示例。 第4圖圖示了CABAC過程的示例性框圖。 第5圖示出了根據增強壓縮模型2 (ECM 2)導出用於殘差變換塊的最佳符號預測假設的成本函數計算。 第6圖圖示了根據本發明的一個實施例的以從DC係數開始的前向子塊方式對角線掃描順序收集前Nsp係數的符號的示例。 第7圖示出了根據本發明實施例的利用聯合符號預測的示例性視訊解碼系統的流程圖。 第8圖示出了根據本發明實施例的利用聯合符號預測的示例性視訊編碼系統的流程圖。
710~750:步驟

Claims (22)

  1. 一種視訊解碼方法,該方法包括: 接收對應於當前塊的殘差塊的譯碼的變換係數,其中該譯碼的變換係數包括與一組聯合預測的係數符號相關聯的譯碼的符號殘差; 根據與該當前塊關聯的譯碼上下文確定允許的最大數量; 將該譯碼的符號殘差解碼為解碼的符號殘差,其中該組聯合預測的係數符號的總數等於或小於該允許的最大數量; 通過從該組聯合預測的係數符號的一組假設中選擇一個對應於實現最小成本的假設來確定該組聯合預測的係數符號的聯合符號預測,其中對該組假設中的每一個假設分別計算該假設的該當前塊的邊界像素和該當前塊的對應的相鄰像素之間的成本,並且與每個假設相關聯的該當前塊的該邊界像素是使用包括所述每個假設的資訊來重建的;以及 基於該解碼的符號殘差和該聯合符號預測來重建該組聯合預測的係數符號。
  2. 如請求項1所述之視訊解碼方法,其中,用於導出該允許的最大數量的一個或多個句法元素是從一個或多個高級參數集解析的。
  3. 如請求項2所述之視訊解碼方法,其中,其中,該一個或多個高級參數集包括序列參數集、圖片參數集、圖片標頭、切片標頭或其組合。
  4. 如請求項1所述之視訊解碼方法,其中,該允許的最大數量是根據該當前塊的塊大小來確定的。
  5. 如請求項4所述之視訊解碼方法,其中,當該塊大小等於4×4時,該允許的最大數量小於或等於4。
  6. 如請求項1所述之視訊解碼方法,其中,該允許的最大數量是根據該當前塊的變換類型來確定的。
  7. 如請求項1所述之視訊解碼方法,其中,與該組聯合預測的係數符號相關聯的該譯碼的符號殘差的位元子在用於該當前塊的熵譯碼的殘差譯碼過程中被熵譯碼。
  8. 如請求項7所述之視訊解碼方法,其中,該殘差譯碼過程還包括子塊符號譯碼通道,用於在熵譯碼所述一個或多個子塊的變換係數級別的絕對值的一個或多個子塊譯碼通道之後,對來自該當前塊的左上區域中的一個或多個子塊的該組聯合預測的係數符號進行熵譯碼。
  9. 如請求項1所述之視訊解碼方法,其中,該成本是在該當前塊的邊界像素與僅在該當前塊的頂部邊界上或僅在該當前塊的左邊界上的該當前塊的對應相鄰像素之間計算的。
  10. 如請求項9所述之視訊解碼方法,其中在該當前塊的該頂部邊界和該當前塊的該左邊界之間的選擇取決於該當前塊的所選幀內預測方向。
  11. 如請求項1所述之視訊解碼方法,其中,該組聯合預測的係數符號被劃分為多個子集,其中每個子集包括該組聯合預測的係數符號中的一個或多個。
  12. 一種視訊解碼裝置,該裝置包括一個或多個電子電路或處理器,用於: 接收對應於當前塊的殘差塊的譯碼的變換係數,其中該譯碼的變換係數包括與一組聯合預測的係數符號相關聯的譯碼的符號殘差; 根據與該當前塊關聯的譯碼上下文確定允許的最大數量; 將該譯碼的符號殘差解碼為解碼的符號殘差,其中該組聯合預測的係數符號的總數等於或小於該允許的最大數量; 通過從該組聯合預測的係數符號的一組假設中選擇一個對應於實現最小成本的假設來確定該組聯合預測的係數符號的聯合符號預測,其中對該組假設中的每一個假設分別計算該假設的該當前塊的邊界像素和該當前塊的對應的相鄰像素之間的成本,並且與每個假設相關聯的該當前塊的該邊界像素是使用包括所述每個假設的資訊來重建的;以及 基於該解碼的符號殘差和該聯合符號預測來重建該組聯合預測的係數符號。
  13. 一種視訊編碼方法,該方法包括: 接收當前塊的殘差塊對應的變換係數; 根據與該當前塊關聯的譯碼上下文確定允許的最大數量; 確定與一組選定的變換係數相關聯的一組聯合預測的係數符號,其中該組聯合預測的係數符號的總數等於或小於該允許的最大數量; 通過從該組聯合預測的係數符號的一組假設中選擇一個對應於實現最小成本的假設來確定該組聯合預測的係數符號的聯合符號預測,其中對該組假設中的每一個假設分別計算該假設的該當前塊的邊界像素和該當前塊的對應的相鄰像素之間的成本,並且與每個假設相關聯的該當前塊的該邊界像素是使用包括所述每個假設的資訊來重建的; 確定該組聯合預測的係數符號與該聯合符號預測之間的符號殘差;以及 將上下文譯碼應用於該符號殘差以生成譯碼的符號殘差。
  14. 如請求項13所述之視訊編碼方法,其進一步包括發訊一個或多個句法元素以用於導出該允許的最大數目。
  15. 如請求項14所述之視訊編碼方法,其中,該一個或多個句法元素是在序列參數集、圖片參數集、圖片標頭、切片標頭或其組合中發訊的。
  16. 如請求項13所述之視訊編碼方法,其中,該譯碼上下文對應於該當前塊的塊大小。
  17. 如請求項13所述之視訊編碼方法,其中,與該組聯合預測的係數符號相關聯的該譯碼的符號殘差的位元子在用於該當前塊的熵譯碼的殘差譯碼過程中被熵譯碼。
  18. 如請求項17所述之視訊編碼方法,其中,該殘差譯碼過程還包括子塊符號譯碼通道,用於在熵譯碼所述一個或多個子塊的變換係數級別的絕對值的一個或多個子塊譯碼通道之後,對來自該當前塊的左上區域中的一個或多個子塊的該組聯合預測的係數符號進行熵譯碼。
  19. 如請求項13所述之視訊編碼方法,其中,該成本是在該當前塊的邊界像素與僅在該當前塊的頂部邊界上或僅在該當前塊的左邊界上的該當前塊的對應相鄰像素之間計算的。
  20. 如請求項19所述之視訊編碼方法,其中在該當前塊的該頂部邊界和該當前塊的該左邊界之間的選擇取決於該當前塊的所選幀內預測方向。
  21. 如請求項13所述之視訊編碼方法,其中,該組聯合預測的係數符號被劃分為多個子集,其中每個子集包括該組聯合預測的係數符號中的一個或多個。
  22. 一種視訊編碼裝置,該裝置包括一個或多個電子電路或處理器,用於: 接收當前塊的殘差塊對應的變換係數; 根據與該當前塊關聯的譯碼上下文確定允許的最大數量; 確定與一組選定的變換係數相關聯的一組聯合預測的係數符號,其中該組聯合預測的係數符號的總數等於或小於該允許的最大數量; 通過從該組聯合預測的係數符號的一組假設中選擇一個對應於實現最小成本的假設來確定該組聯合預測的係數符號的聯合符號預測,其中對該組假設中的每一個假設分別計算該假設的該當前塊的邊界像素和該當前塊的對應的相鄰像素之間的成本,並且與每個假設相關聯的該當前塊的該邊界像素是使用包括所述每個假設的資訊來重建的; 確定該組聯合預測的係數符號與該聯合符號預測之間的符號殘差;以及 將上下文譯碼應用於該符號殘差以生成譯碼的符號殘差。
TW111147136A 2021-12-09 2022-12-08 視訊編碼方法、裝置以及視訊解碼方法、裝置 TW202325020A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202163287606P 2021-12-09 2021-12-09
US63/287,606 2021-12-09
US18/053,427 2022-11-08
US18/053,427 US20230188753A1 (en) 2021-12-09 2022-11-08 Method and Apparatus for Sign Coding of Transform Coefficients in Video Coding System

Publications (1)

Publication Number Publication Date
TW202325020A true TW202325020A (zh) 2023-06-16

Family

ID=86680007

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111147136A TW202325020A (zh) 2021-12-09 2022-12-08 視訊編碼方法、裝置以及視訊解碼方法、裝置

Country Status (3)

Country Link
US (1) US20230188753A1 (zh)
CN (1) CN116260972A (zh)
TW (1) TW202325020A (zh)

Also Published As

Publication number Publication date
US20230188753A1 (en) 2023-06-15
CN116260972A (zh) 2023-06-13

Similar Documents

Publication Publication Date Title
US11671112B2 (en) Methods and apparatus for unified significance map coding
TWI813126B (zh) 相依量化技術
US11350135B2 (en) Method and apparatus for sample adaptive offset without sign coding
US20230037689A1 (en) Methods and apparatuses for coding transform blocks
US10819981B2 (en) Method and apparatus for entropy coding of source samples with large alphabet
US9357235B2 (en) Sample adaptive offset merged with adaptive loop filter in video coding
CN108777792B (zh) 解码显著性图的装置
KR101538832B1 (ko) 다중-레벨 유효성 맵 스캐닝
EP3080988B1 (en) Parameter derivation for entropy coding of a syntax element
US20130083844A1 (en) Coefficient coding for sample adaptive offset and adaptive loop filter
WO2020151753A1 (en) Method and apparatus of transform coefficient coding with tb-level constraint
CN111819853A (zh) 变换域中预测的信令残差符号
KR20200020986A (ko) 인트라 예측 방법과 이를 이용한 부호화기 및 복호화기
JP7150861B2 (ja) ビデオコーディングのための空間変動変換
CN114793280A (zh) 用于跨分量预测的方法和装置
TWI830482B (zh) 視訊編碼方法、裝置以及視訊解碼方法、裝置
US20220353505A1 (en) Method for reconstructing residual blocks of chroma blocks, and video decoding apparatus
TW202325020A (zh) 視訊編碼方法、裝置以及視訊解碼方法、裝置
GB2580106A (en) Image data encoding and decoding
GB2577350A (en) Image data encoding and decoding
Karwowski Improved adaptive arithmetic coding for HEVC video compression technology
WO2024041369A1 (en) Method and apparatus of entropy coding for subpictures
KR20220062540A (ko) 영상 데이터 인코딩 및 디코딩
GB2580108A (en) Image data encoding and decoding