TWI847227B

TWI847227B - 視頻編解碼系統中低延遲模板匹配的方法和裝置

Info

Publication number: TWI847227B
Application number: TW111130915A
Authority: TW
Inventors: 歐萊娜邱巴赫; 陳俊嘉; 江嫚書; 莊子德; 陳慶曄; 徐志瑋; 黃毓文
Original assignee: 新加坡商聯發科技（新加坡）私人有限公司
Priority date: 2021-08-19
Filing date: 2022-08-17
Publication date: 2024-07-01
Also published as: WO2023020390A1; TW202329692A; WO2023020389A1; TW202316859A; TWI830334B; CN117941355A; CN118285103A

Abstract

公開了一種利用低延遲模板匹配運動矢量細化的視頻編解碼系統的方法和裝置。根據該方法，確定當前塊的當前模板，其中當前模板包括內部當前模板，該內部當前模板包括當前塊內部的內部預測樣本或內部部分重構樣本。內部部分重構樣本是通過將當前塊的 DC 值添加到內部預測樣本而得出的。在一組候選位置處確定與當前塊相關聯的對應候選參考模板。確定在當前模板和候選參考模板之間實現最佳匹配的候選參考模板中的目標參考模板的位置。然後根據目標參考模板的位置細化初始運動矢量 (MV)。

Description

視頻編解碼系統中低延遲模板匹配的方法和裝置

本發明涉及視頻編碼系統。特別地，本發明涉及減少視頻編碼系統中模板匹配編碼工具的等待時間。

多功能視頻編碼(VVC)是由ITU-T視頻編碼專家組(VCEG)和ISO/IEC運動圖片專家組(MPEG)的聯合視頻專家組(JVET)開發的最新國際視頻編碼標準。該標準已作為ISO標準發布：ISO/IEC 23090-3：2021，信息技術-沉浸式媒體的編碼表示-第3部分：多功能視頻編碼，2021年2月發布。VVC是基於其前身HEVC(High Efficiency Video Coding)通過添加更多的編碼工具來提高編碼效率並處理包括3維(3D)視頻信號在內的各種類型的視頻源。

第1A圖圖示了結合循環處理的示例性自適應幀間/幀內視頻編碼系統。對於幀內預測110，預測資料是基於當前圖片中先前編碼的視頻資料得出的。對於幀間預測112，在編碼器側執行運動估計(ME)並且基於ME的結果執行運動補償(MC)以提供從其他圖片和運動資料導出的預測資料。開關114選擇幀內預測110或幀間預測112，並且選擇的預測資料被提供給加法器116以形成預測誤差，也稱為殘差。然後由變換(T)118接著量化(Q)120處理預測誤差。然後由熵編碼器122對變換和量化的殘差進行編碼以包括在對應於壓縮視頻資料的視頻位元流中。然後，與變換係數相關聯的位元流與諸如與幀內預測和幀間預測相關聯的運動和編碼模式等輔助信息以及與應用於底層圖片區域的環路濾波器相關聯的參數等其他信息打包。如第1A圖所示，與幀內預測110、幀間預測112和環路濾波器130相關聯的邊信息被提供給熵編碼器122。當使用幀間預測模式時，參考圖片也必須在編碼器端重建。因此，變換和量化的殘差由反量化(IQ)124和反變換(IT)126處理以恢復殘差。然後在重建(REC)128將殘差加回到預測資料136以重建視頻資料。重構的視頻資料可以存儲在參考圖片緩衝器134中並且用於其他幀的預測。

如第1A圖所示，輸入視頻資料在編碼系統中經歷一系列處理。由於一系列處理，來自REC 128的重建視頻資料可能會受到各種損害。因此，在將重構視頻資料存儲在參考圖片緩衝器134中之前，經常將環路濾波器130應用於重構視頻資料，以提高視頻質量。例如，可以使用去塊濾波器(DF)、樣本自適應偏移(SAO)和自適應環路濾波器(ALF)。可能需要將環路濾波器信息合併到位元流中，以便解碼器可以正確地恢復所需的信息。因此，環路濾波器信息也被提供給熵編碼器122以結合到位元流中。在第1A圖中，在將重構樣本存儲在參考圖片緩衝器134中之前，將環路濾波器130應用於重構視頻。第1A圖中的系統旨在說明典型視頻編碼器的示例性結構。它可以對應於高效視頻編碼(HEVC)系統、VP8、VP9、H.264或VVC。

如第1B圖所示，解碼器可以使用與編碼器相似或部分相同的功能塊，除了變換118和量化120之外，因為解碼器只需要反量化124和反變換126。如圖所示，代替熵編碼器122，解碼器使用熵解碼器140將視頻位元流解碼為量化的變換係數和所需的編碼信息(例如，ILPF信息、幀內預測信息和幀間預測信息)。解碼器側的幀內預測150不需要執行模式搜索。相反，解碼器只需要根據從熵解碼器140接收到的幀內預測信息來生成幀內預測。此外，對於幀間預測，解碼器只需要根據從熵解碼器140接收到的幀間預測信息執行運動補償(MC 152)無需運動估計。輸出信號。

根據VVC，類似於HEVC，輸入圖片被劃分為稱為CTU(編碼樹單元)的非重疊方形塊區域。每個CTU可以劃分為一個或多個較小尺寸的視頻單元(CU)。生成的CU分區可以是正方形或矩形。此外，VVC將CTU劃分為預測單元(PU)作為一個單元來應用預測過程，例如幀間預測、幀內預測等。

VVC標準結合了各種新的編碼工具，以進一步提高HEVC標準的編碼效率。在各種新的編碼工具中，有些已經被標准採用，有些沒有。在新的編碼工具中，公開了一種名為模板匹配(Template Matching)的技術，用於導出當前塊的運動矢量(MV)。模板匹配簡要回顧如下。

模板匹配(TM)

在JVET-J0021(Yi-Wen Chen,et al.,“Description of SDR,HDR and 360° video coding technology proposal by Qualcomm and Technicolor-low and high complex versions”，ITU-T SG 16 WP 3和ISO/IEC JTC 1/SC 29/WG 11聯合視頻探索小組(JVET)，第10次會議：美國聖地亞哥，2018年4月10日至20日，文件：JVET-J0021)，模板匹配是一種解碼器端的MV推導方法，通過找到當前圖片中的模板(即當前CU的上方和/或左側相鄰塊)與如第2圖中所示的參考圖片。在第2圖中，當前圖片210中當前塊上方的行214的像素和當前塊212左側的列216的像素被選擇為模板。搜索從參考圖片中的初始位置(由初始MV 230標識) 開始。如第2圖所示，在參考圖片220中參考塊222上方的對應行的像素224和參考塊222左側的列226的像素被識別。在搜索期間，在不同位置的相同的“L”形參考像素(即224和226)與當前塊周圍模板中的相應像素進行比較。在搜索之後確定具有最小匹配失真(matching distortion)的位置。在該位置，選擇具有最佳「L」形像素作為其上方和左側鄰居(即最小失真)的塊作為當前塊的參考塊。

由於在編碼器側和解碼器側都執行基於模板匹配的細化過程，因此解碼器可以在不需要來自編碼器側的信號信息的情況下導出MV。在參考圖片局部搜索區域內的，搜索範圍為[-8,8]整數像素精度，模板匹配過程通過找到當前圖片中的當前模板(當前塊的上方和/或左側相鄰塊)與參考模板(與當前模板大小相同)之間的最佳匹配來導出當前塊的運動信息。

在AMVP(高級運動矢量預測)或合并(Merge)模式下應用TM時，根據初始模板匹配誤差確定MVP(運動矢量預測)候選者，以選取與當前塊模板和參考塊模板之間的差值達到最小的候選者。然後TM僅針對這個特定的MVP候選者進行MV細化(即，圍繞初始MVP候選者進行局部搜索)。自適應運動矢量分辨率(Adaptive Motion Vector Resolution，AMVR)模式使用不同的分辨率對MVD進行編碼以節省位元率。AMVR模式支持以四分之一樣本、半樣本、整數樣本和4樣本轉換的亮度MV分辨率。此外，AMVR模式支持1/4樣本、1/16樣本和整數樣本仿射的亮度MV分辨率。VVC中的AMVR應用於CU級別。解碼後的MVD基於AMVR信息以不同的分辨率進行解釋，並以1/16樣本精度存儲在內部緩衝區中。TM通過使用迭代菱形搜索，從[-8,+8]像素搜索範圍內的全像素運動矢量差異(Motion Vector Difference，MVD)精度(或4像素AMVR模式的4像素)開始細化這個MVP候選者。AMVP候選者可以通過使用具有全像素MVD精度(或4像素用於4像素AMVR模式)的交叉搜索來進一步細化，然後根據表1中指定的AMVR模式依次進行半像素和四分之一像素搜索。這個搜索過程保證了MVP候選在TM過程之後仍然保持與AMVR模式指示的相同的MV精度。

在合併模式中，相似的搜索方法被應用於由合併索引指示的合併候選。如表1所示，TM可以一直執行到1/8像素MVD精度或跳過超過半像素MVD精度的那些，這取決於是否根據合併運動信息(如AltIF所示)使用替代插值濾波器(當AMVR為半像素模式時使用)。此外，當啟用TM模式時，模板匹配可以作為一個獨立的過程，也可以作為基於塊和基於子塊的雙邊匹配(bilateral matching，BM)方法之間的一個額外的MV細化過程，這取決於是否可以基於條件檢查啟用BM。當解碼器端運動向量細化(Decoder-Side Motion Vector Refinement，DMVR)和TM都為CU啟用時，TM的搜索過程停止在半像素MVD精度，並且使用相同的基於模型的MVD推導方法進一步在DMVR中細化結果MV。

根據傳統的TM MV細化，如果當前塊使用來自相鄰塊的細化MV，這可能導致嚴重的延遲問題。因此，需要解決延遲問題和/或提高TM細化過程的性能。

公開了一種用於利用低延遲模板匹配運動矢量細化的視頻編解碼系統的方法和裝置。根據該方法，接收包括當前圖片中的視頻單元的當前塊的輸入資料。確定當前塊的當前模板，其中當前上模板和當前左模板中的至少一個被移除或者當前上模板和當前左模板中的所述至少一個遠離當前塊的相應的上邊緣或相應的左邊緣。確定在參考圖片中的一組候選位置處與當前塊相關聯的候選參考模板，其中每個候選參考模板對應於一個對應候選位置處的當前模板。確定目標參考模板在候選參考模板中的位置，其中目標參考模板與當前模板達到最佳匹配。根據目標參考模板的位置，通過細化初始MV來確定細化運動矢量(MV)。

在一個實施例中，當前塊包含在當前預定義區域內並且當前模板是使用來自當前預定義區域的一個或多個上方相鄰塊、一個或多個左相鄰塊、或兩者的相鄰樣本導出的當前的預定義區域。當前預定義區域可以對應一個VPDU(Virtual Pipeline Data Unit)，一個CTU(Coding Tree Unit)行，或者是對當前圖片進行分區得到的非重疊分區，或者當前圖片一個切片或者CTU(Coding Tree Unit))。

在一個實施例中，初始MV指向參考圖片中候選位置集合的初始候選位置。在一個示例中，每個候選參考模板相對於所述一個對應候選位置的定位方式與當前模板相對於當前塊的位置定位的方式相同。在另一示例中，每個候選參考模板位於所述一個對應候選位置的左上方位置。

在一個實施例中，當前模板對應於當前塊的上方位置和左側位置的偽L形模板，並且其中偽L形模板的上方偽模板是從一個偽L形模板的當前預定義區域的一個或多個上相鄰塊的上方相鄰樣本中導出的。，偽L形模板的左偽模板是從當前預定義區域的一個或多個左相鄰塊的相鄰樣本中導出的。

在一個實施例中，當前塊對應於來自父節點的分區並且當前模板是使用當前塊的父節點的一個或多個相鄰塊的相鄰樣本、當前塊的父節點的一個或多個左相鄰塊的相鄰樣本、或兩者導出的。在一個示例中，每個候選參考模板相對於所述一個對應候選位置的定位方式與當前模板相對於當前塊的位置定位的方式相同。在另一示例中，每個候選參考模板位於所述一個對應候選位置的左上方位置。

在一個實施例中，當前塊對應於來自父節點的分區並且當前模板是根據父節點的分區來選擇的。例如，父節點被劃分為多個編碼塊，包括一個或多個奇數編碼塊和一個或多個偶數編碼塊，所述一個或多個奇數編碼塊使用一種當前模板和所述一個或多個偶數編碼塊使用當前模板的另一種類型。在另一示例中，如果當前模板的一個或多個樣本來自編碼順序中的前N個編碼塊，則跳過所述一個或多個樣本，其中N為等於或大於1的整數。在上述示例中，與所述前N個編碼塊相關聯的一個或多個分區深度可以與當前塊深度相同或更高。在另一示例中，如果當前模板的一個或多個樣本具有與當前塊的當前級別或QT或MTT分區深度相同或更大的級別或QT(四叉樹)或MTT(多類型樹)分區深度，表示一個或多個樣本被跳過。在又一實施例中，如果來自按編碼順序的先前編碼塊的一個或多個樣本在按編碼順序的當前塊的指定閾值區域內，則針對當前模板區域跳過所述一個或多個樣本。

在一個實施例中，當前模板選擇性地對應於當前塊的僅上模板、僅左模板或兩者。在一個實施例中，僅上模板、僅左側模板或兩者的候選模板在編碼器端或解碼器端評估當前塊的僅上模板和僅左模板，並選擇達到最佳匹配的目標候選模板。此外，指示實現最佳匹配的目標候選模板的語法在視頻比特流中用信號通知給解碼器。在另一個實施例中，基於塊大小、塊形狀或周圍的信息，模式選擇性使用隱性地打開或關閉當前塊的僅上模板、僅左模板或僅上模板和僅左模板兩者的模式選擇性使用。

在一個實施例中，組合僅上模板、僅左模板以及僅上模板和僅左模板兩者的匹配結果以評估最佳匹配。此外，僅上模板、僅左模板以及僅上模板和僅左模板兩者的匹配結果可以使用預定義的權重進行組合或者可以使用過濾過程進行處理。

在一個實施例中，在僅上模板、僅左模板以及當前塊的僅上模板和僅左模板兩者中的選擇基於當前塊的當前MV之間的相似性以及一個或多個上方相鄰塊和一個或多個左相鄰塊的一個或多個相鄰MV。例如，如果當前塊的當前MV與所述一個或多個上述相鄰塊的所述一個或多個相鄰MV接近，則選擇僅上模板；如果當前塊的當前MV與所述一個或多個左相鄰塊的所述一個或多個相鄰MV接近，則選擇僅左模板。

在一個實施例中，基於相鄰塊上方和一個或多個左相鄰塊的一種或多種的幀內/幀間預測模式，在僅上模板、僅左模板以及當前塊的僅上模板和僅左模板兩者中的選擇。例如，如果所述一個或多個上相鄰塊主要是幀內預測模式，則當前塊的上相鄰樣本不用於當前模板；如果所述一個或多個左相鄰塊主要是幀內預測模式，則當前塊的左相鄰樣本不用於當前模板。

110:幀內預測

112:幀間預測

114:開關

116:加法器

118:變換(T)

120:量化(Q)

122:熵編碼器

130:環路濾波器

124:反量化(IQ)

126:反變換(IT)

128:重建(REC)

136:預測資料

134:參考圖片緩衝器

140:熵解碼器

150:幀內預測

(MC 152):運動補償

210:圖片

214、224:上方的行的像素

212:當前塊

216、226:左側的列的像素

220:參考圖片

222:參考塊

310、410、710:當前幀

312、412:預定義的區域

322、422、442、726:像素搜索範圍

320、420、720:參考幀

330、430、460:初始MV

314、414、454、716:當前CU

416:父節點

456:祖父節點

510、520、530、620:上方和左側模板

512、516、536、630:上方模板

514、522、532、534、610:左側模板

724、722、724:參考模板

714、712:當前模板

810-850:步驟

第1A圖圖示了結合循環處理的示例性自適應幀間/幀內視頻編碼系統。

第1B圖圖示了用於第1A圖中的編碼器的對應解碼器。

第2圖圖示了模板匹配的示例，其中選擇當前塊和參考塊上方的像素行以及當前塊和參考塊左側的像素列作為模板。

第3A-B圖示出了根據本發明實施例的來自預定義區域的L形模板的示例。

第4A-B圖示出了根據本發明實施例的來自當前塊的父節點的L形模板的示例。

第4C-D圖圖示了所提出方法的其他示例。

第5A-C圖示出了根據本發明實施例的自適應L形模板的示例。

第6圖示出了根據本發明實施例的多個模板的示例，其中使用了僅左模板、僅上模板和左上模板。

第7圖圖示了根據本發明的實施例的自適應地使用內部模板、外部模板或兩者的示例。

第8圖示出了根據本發明實施例的利用模板匹配的示例性視頻編碼系統的流程圖，以減少延遲。

很容易理解，本發明的組件，如本文附圖中一般描述和圖示的，可以以多種不同的配置佈置和設計。因此，如附圖中所表示的本發明的系統和方法的實施例的以下更詳細的描述並不旨在限制所要求保護的本發明的範圍，而僅代表本發明的選定實施例。在整個說明書中對「一個實施例」、「一實施例」或類似語言的引用意味著結合該實施例描述的特定特徵、結構或特性可以包括在本發明的至少一個實施例中。因此，在整個說明書的各個地方出現的短語「在一個實施例中」或「在一實施例中」不一定都指代相同的實施例。

此外，所描述的特徵、結構或特性可以在一個或多個實施例中以任何合適的方式組合。然而，相關領域的技術人員將認識到，本發明可以在沒有一個或多個具體細節的情況下，或使用其他方法、組件等來實踐。在其他情況下，未示出或未示出眾所周知的結構或操作。詳細描述以避免模糊本發明的方面。通過參考附圖將最好地理解本發明的所示實施例，其中相同的部件自始至終由相同的數字表示。以下描述僅作為示例，並且簡單地說明了與如本文所要求保護的本發明一致的設備和方法的某些選定實施例。

如前所述，TM細化過程需要訪問模板的參考資料。此外，根據傳統的TM MV細化，如果當前塊使用來自相鄰塊的樣本來獲得細化的MV，這可能會導致嚴重的延遲問題。因此，需要解決延遲問題和/或提高TM細化過程的性能。為了解決這個問題，以下公開了低延遲的TM搜索方法以及改進的TM搜索方法。

使用預定義區域的L形獲取模板

可以通過將一個圖片/切片/CTU劃分為多個非重疊區域來生成預定義區域。在一個實施例中，預定義區域與虛擬管道資料單元(Virtual Pipeline Data Unit，VPDU)一致，其中VPDU是圖片中的塊單元，需要將其保存在存儲器中以便在解碼時進行處理。在一個實施例中，預定義區域是包含一個或多個VPDU的矩形/正方形區域。在一個實施例中，預定義區域是包含一個或多個CU的矩形/正方形區域。在一個實施例中，預定義區域是CTU，在另一個實施例中，預定義區域是上CTU行邊界，這意味著L形模板(也稱為L形)僅使用上邊界相鄰像素CTU-行。

在本發明中，為了對當前CU的MV進行細化，不是使用當前CU的上方和/或左側相鄰塊的元素(CU _c)來生成模板，而是使用當前CU的預定義區域的上方和/或左側相鄰塊。第3A圖和第3B圖示出了所提出方法的示例，其中當前CU 314在當前幀310中，初始MV 330從當前幀中的點A指向參考幀320中的點B，預定義的區域312用虛線標記，上方和左側模板用粗線標記。將在[-N，+N]像素搜索範圍322內的當前CU的初始運動矢量所指向的位置(即，點B)周圍搜索更好的MV。在一個實施例中，參考幀中的上和左參考模板與當前幀中的上和左模板之間的距離相同；並且上左模板位於在參考幀中的距離初始搜索點(即B點)距離與CU _c距離左上點(即A點)的距離相同(見第3A圖)。在另一個實施例中，參考幀中的參考模板位於參考幀中初始MV所指向的位置(點B)的上方和左側(參見第3B圖)。

當前幀中的外L形不一定必須與相對於當前CU的位置的水平和/或垂直對應位置對齊，如第3A-B圖所示。它也可以在預定義的邊界盒子(boundingBox)中的其他位置，其中僅使用邊界盒子內的參考資料來生成L形模板。在一個實施例中，外盒L形可以位於VPDU的左上角。

在另一種方法中，建議使用來自外框(預定義區域)的相鄰像素的組合(例如線性組合或過濾(例如插值))，為當前CU生成「假」L形。例如，在第3A圖中，我們可以對上方模板和左側模板應用一些操作來為CU _c的上方/左側相鄰像素生成一個假L形。本公開中的術語假L形是指在L形位置處使用導出樣本而不是實際樣本的L形。在另一個例子中，我們可以使用預定義區域中的所有上方/左側相鄰像素來生成CU _c的假相鄰像素。例如，在第3A圖中，如果CU _c的大小等於8x16，則預定義區域為128x128。我們可以使用具有不同權重的128xM上方相鄰像素和Kx128左側像素和/或應用一些過濾來為CU _c生成16個左側假相鄰像素和8個上方「假」相鄰像素。這裡M和K可以是任何大於或等於1的非負整數。

使用父節點的L形獲取模板

在本實施例中，為了對當前CU的MV進行細化，不是使用當前CU的上方和/或左側相鄰塊(CU _c)的元素來生成模板，而是使用當前CU的直接父級的上方和/或左側相鄰塊的元素以進行元素匹配來生成模板。第4A圖和第4B圖示出了所提出方法的示例，其中當前CU414從當前幀410中的父節點416劃分，初始MV 430從當前幀中的點A指向參考幀420中的點B，VPDU 412用虛線標記，父節點的上方和左側模板用粗線標記。圍繞由當前CU的初始運動矢量指向的位置(即，點B)，在[-N，+N]像素搜索範圍422內搜索更好的MV。在一個實施例中，上方和左側參考模板在參考幀中的距離與當前幀中兩者的距離相同；並且在參考幀中兩者與初始搜索點B的距離與上方和左側模板與CU _c的左上點A的距離相同(見第4A圖)。在另一個實施例中，參考幀中的參考模板位於參考幀中初始MV所指向的位置的上方和左側(參見第4B圖)。

在另一個實施例中，它使用來自當前CU的祖父(或更高級別的父節點)的上方和/或左側相鄰塊的元素用於匹配元素。第4C圖和第4D圖示出了所提出方法的示例，其中當前CU 454從祖父節點456分區。將在當前CU的初始運動矢量460指向的位置周圍、在[-N，+N]像素搜索範圍442內搜索更好的MV 454。在一個實施例中，參考幀420中的上方參考模板和左側參考模板與當前幀410中的參考模板位於彼此之間的距離相同；並且參考幀420中的上方參考模板和左側參考模板與初始搜索點B之間的距離與當前幀中的多個參考模板與CU _c的左上點A的距離相同(見第4C圖)。在另一個實施例中，參考幀420中的參考模板位於參考幀中初始MV所指向的位置B的上方和左側(參見第4D圖)。

自適應L形

在原始TM設計中，為了獲得當前CU的模板，當前CU上方和左側的所有CU都必須完全重構。這會在啟用TM時產生一定的處理延遲。如下公開了一種減少這種等待時間的方法。根據本發明的實施例，代替使用上方和左側模板(當可用時)，它基於分區和/或處理順序在多個模板之間切換。在一個實施例中，它根據父節點的分區和/或處理順序自適應地使用僅左、僅上或原始上和左模板。

在另一個實施例中，我們仍然可以使用來自先前解碼的CU的預測像素(未完全重建)，而不是根據CU順序直接丟棄左側或上方相鄰像素。例如，在第5B圖中，CU1可以將CU0的預測結果520(不是完全重構的結果)用於TM。這允許減少延遲，同時仍然使用TM的上方和左側模板。

在一個實施例中，如果父節點用四叉樹或四叉樹(QT)劃分(參見第5A圖)，則上方和左側模板510用於子塊0，僅上方模板512用於子塊1，上方和左側模板514用於子塊2，僅上方模板516用於子塊3。

在一個實施例中，如果父節點用水平二叉樹(HBT)分區進行分區(參見第5B圖)，則上方和左側模板520用於子塊0，而僅左側模板522用於子塊1。這樣，在QT/BT的情況下，僅保留1個CU的處理延遲。所提出的方法可以以類似的方式擴展到三叉樹(TT)。

在本發明的一個實施例中，建議不僅考慮直接父節點的分區和/或處理順序，而且還考慮多個先前的後退步驟。在一個實施例中，節點用垂直二叉樹(VBT)分區來分區，隨後是左側子塊的水平二叉樹(HBT)分區和右側子塊的VBT分區(見第5C圖)。在這種情況下，延遲也是一個CU。因此，CU0正在使用傳統的TM(如果可用，則在上方和左側模板530中)；CU1僅使用左側模板532(由於目標是延遲一個CU，因此不使用來自CU0的樣本)；CU2使用來自左側模板534的上方和一半的樣本(同樣，為了保持一個CU的處理延遲，來自CU1的樣本不用於模板)；CU3僅使用上方模板536之樣本來保留一個CU延遲，來自CU2的樣本不用於CU3的左側模板。

在一個實施例中，如果(當前CU的)當前L形的相鄰像素僅位於前一個CU中(按解碼順序)，我們可以丟棄這些像素(即，不在L形)，或者使用預測樣本代替(即，不是完全重建的樣本)。

在本發明的一個實施例中，限制修改如下：不使用來自先前N個CU的樣本，其編碼順序在當前CU之前，其中N可以是從1到當前CU的任意數字深度。

在另一個實施例中，它跳過與當前CU具有相同(或>=)級別/深度的N個CU中的元素，其中N可以是大於零的任何數字。在一個實施例中，它不使用來自具有與當前CU的QT/MTT深度相同或更大的QT/MTT(多類型樹)深度的任何CU的元素。

在一個實施例中，該限制取決於一個或多個先前編碼的CU的面積。在一個實施例中，限制如下：不使用來自編碼順序在當前CU之前的CU的某個區域的元素；如果先前編碼的CU太小(例如，面積<=M)，則跳過一個或多個先前編碼的CU，直到閾值「延遲」達到M或高於M的值。在一個實施例中，閾值(M)等於1024個樣本，因此在1024個樣本之前編碼的CU中的任何元素都不允許在TM中使用。在另一個實施例中，對於TM，不考慮來自面積小於閾值的任何CU的樣本。

多個L形選項

在TM的原始設計中，如果可用，則始終使用上方和左側模板。但是，並不總是需要同時使用上方和左側模板，因為有時僅使用上方或僅左側模板可以提供比原始設計更好的TM結果。因此，可能不需要使用上方+左側模板，並且對於一些僅使用上方/左側的CU更好(見第6圖)。在第6圖中，模板610對應於僅左模板，模板620對應於左上模板，模板630對應於僅上模板。例如，如果兩個相鄰的CU來自場景中的不同對象並且具有不同的運動，則使用相鄰CU中的元素進行TM可能無法提供準確的結果。在這種情況下，僅使用其他模板(例如，高於CU)可能更可取。

在一個實施例中，在編碼器處檢查所有三個選項，並且將最佳選項用信號通知給解碼器。在另一個實施例中，編碼器和解碼器都將檢查所有三個選項，並且在這種情況下不需要額外的信令。

在一個實施例中，可以根據CU尺寸、CU形狀或周圍信息隱式地開啟/關閉L形上方/左側的選擇。

在一個實施例中，丟棄左側或上方相鄰像素的規則還可以取決於CU寬度和CU高度之間的縱橫比。例如，如果CU在水平方向上很寬，在垂直方向上很窄(即寬度遠大於高度)，那麼我們更喜歡使用更多僅上方的相鄰樣本。

在一個實施例中，將三個模板中的每一個的結果與內部重構區域組合，然後做出決定。

在另一個實施例中，進一步組合三個模板的精煉結果以形成最終結果。在一個實施例中，權重取決於在TM過程中計算的成本，或者權重是預定義的，或者使用一些預定義的過濾過程(例如雙邊過濾)。

在一個實施例中，我們可以直接平均(具有相等或不相等權重的結果)分別用三個不同模板(即，僅在上方、僅左側和L形)獲得的三個細化MV。在另一個實施例中，我們需要執行3次MC，然後平均(具有相等或不相等的權重)MC結果。

在另一個實施例中，根據當前MV與相鄰CU的MV之間的MV相似度自適應地選擇上、左或上+左模板。例如，如果當前CU的MV與上方CU的MV相似，但與左側CU的MV差異很大，則不包括左側CU的模板；只使用上方CU中的模板；如果所有MV都相似，則使用兩個模板。

在另一個實施例中，可以根據相鄰CU的編碼模式(例如幀內/幀間模式)來執行模板選擇。例如，如果上方相鄰CU主要是幀內模式，則上方相鄰像素將不包含在L形模板中。

在另一個實施例中，可以根據相鄰CU的分割來進行模板選擇。例如，如果上面的相鄰部分包含很多小的CU，那麼這個邊緣對於L型模板往往是不准確的；因此，最好將其丟棄。

在另一個實施例中，解碼器可以對上方和/或左側相鄰像素執行一些動態邊緣檢測，以幫助決定是否將左側和/或上方樣本用於L形模板。例如，如果左側相鄰樣本顯示出強邊緣，則左側相鄰像素對於L形模板很可能不准確，因此可以部分或全部丟棄L形模板的左側部分。

使用預測樣本作為TM的模板

在JVET-J0045(X.Xiu等人，「關於基於模板的幀間預測的延遲減少」，ITU-T SG的聯合視頻探索團隊(JVET)中公開了另一種減少TM延遲的方法16 WP 3和ISO/IEC JTC 1/SC 29/WG 11，第10次會議：美國聖地亞哥，2018年4月10日至20日，文件：JVET-J0045，特別是，它建議通過將當前CU的空間相鄰塊的預測信號(其精度低於原始TM設計中使用的完全重構信號)和當前CU的空間相鄰塊的重構DC分量相加來形成模板樣本。考量到DC的重建可以通過在最低頻率處對變換係數進行反量化來輕鬆完成，並且DC係數在解析後立即可用，而無需應用完整的逆量化和逆變換過程。因此，這種方法不會增加TM的解碼延遲。

在本發明中，通過組合用於TM的兩個模板公開了一種新型模板。

在一個實施例中，模板1(第7圖中的參考模板724和當前模板714)一通過將DC值添加到當前幀710的當前CU716的重構預測樣本(使用初始MV獲得)來構造。這樣，無需等待相鄰樣本的完全重建，可以減少延遲；但我們仍然需要等待DC值。在本公開中，模板1也稱為內部模板。在另一個實施例中，模板1(第7圖中的參考幀720中的參考模板724和當前模板714)通過將DC值添加到空間相鄰塊的重構預測樣本來構建。此外，模板1(即模板714和724) 的推導可以通過將DC值添加到預測樣本來完成。此外，不必對模板714和模板724都執行通過將DC值添加到預測樣本來導出模板1。例如，可以通過將DC值添加到預測樣本來導出模板714，而模板724是使用完全重建的樣本導出。因此，無需等待相鄰樣本的完全重建，可以減少延遲；但我們仍然需要等待DC值。

在一個實施例中，模板2(第7圖中的參考模板722和當前模板712)對應於來自當前CU716的上方和左側的附加重構預測樣本。由於不需要等待完全重建，因此在這一步也沒有引入延遲。在本公開中，模板2也稱為外部模板。參考幀720中包含[-N，+N]像素搜索範圍726。

通過組合兩個模板(即，從上方和左側的「預測」模板(也稱為外部模板)和從內部的「預測+DC」模板)，可以避免延遲。同時，由於用於TM的樣本較多，因此應提高TM的精度。

在一個實施例中，使用用於TM的「預測」和「DC+預測」樣本與當前TM設計相結合。在一個實施例中，建議為較早的CU(即，較早重建的那些)自適應地使用「正常/完全重建」模板，並為那些CU使用「預測」選項(模板1，用粗線標記)(有或沒有DC)稍後會出現。在一個實施例中，方法如下：如果相鄰塊是最後重建的CU，則使用「DC+預測」樣本進行TM；否則，使用TM的「正常/完全重建」模板。

在另一個實施例中，取決於某些條件(例如，取決於編碼/解碼順序)，模板1和模板2(或「正常/完全重構」模板而不是模板2)這兩個版本或者單獨或聯合使用。在另一個實施例中，對於某些塊可以跳過模板2(或「正常/完全重構」模板而不是模板2)，並且在這種情況下僅使用模板1(或模板2而不是模板1)。在又一個實施例中，通過針對上方和左側部分不同地組合模板1和模板2來導出模板。例如，我們可以將模板1+模板2用於上方，而僅將模板1(或模板2)用於左側。

在一個實施例中，它對模板1和模板2應用不同的加權係數。在一個實施例中，不同的權重用於「預測」和「DC+預測」，這可以基於預測模式(例如，幀間/幀內/IBC/仿射)、塊大小、分區等。

在一個實施例中，可以使用所有係數的平均值來代替DC係數。解析所有係數後即可得到(類似DC)。

在一個實施例中，當應用TM時，它丟棄用於幀間預測的CU的MTS(多重變換選擇)。換句話說，當應用TM時，MTS編碼工具對幀間預測的CU禁用。

在另一實施例中，當空間相鄰塊中的至少一個使用MTS時不使用模板1，其中空間相鄰塊用於形成模板。在這種情況下，模板2仍然可以使用。

在一個實施例中，建議使用填充來獲得模板2的缺失或不可用樣本，例如如果那些不可用的樣本來自以幀內模式編碼的CU。這樣，幀間和幀內編碼的CU可以並行編碼/解碼。

在一個實施例中，它將附加濾波器應用於參考樣本。例如，它對模板1、模板2或兩者的重建樣本應用低通濾波。

在一個實施例中，它存儲所有參考幀的重建+DC，並使用那些代替完全重建的樣本。進行這種更新的原因是，如果當前幀的模板中的所有高頻都被丟棄，那麼建議的修改允許將參考幀與當前幀對齊(如果在當前幀中使用模板1)。

用於TM細化的邊界+重建匹配

所提出的方法可以用於提煉TM結果，或者獨立地用於提煉當前圖片中的MVP。但是，它是在常規TM之後應用的。在本發明中，在獲得TM結果後，通過額外考慮編碼器發送的當前CU的解碼殘差，在解碼器側應用「邊界平滑」方法對其進行細化。

在傳統的TM中，我們在當前幀和參考幀中使用L形模板來執行匹配。在進一步提出的細化中，我們使用N MV細化候選(例如N=5或N=9)來執行邊界平滑匹配。對於這些MV候選中的每一個，首先生成MC結果。然後將這些MC結果中的每一個添加到殘差中，其中殘差在編碼器處使用最佳MV細化候選生成並發送到解碼器。然後，我們將此(MC+殘差)與邊界進行比較。提供「最平滑邊界條件」的MV候選者被認為是最佳候選者。

在一個實施例中，邊界平滑度條件計算如下：執行MV細化，提供來自塊的上方和左側的一條或多條像素線(line)與當前的上方和左側線中的一條或多條像素線之間的最小SAD的CU(MC+解碼殘差的結果)。

在編碼器側：在進行TM之後，使用N個細化候选和源得到滿足「邊界平滑條件」的「最佳」MV細化；使用MVP和最佳細化獲得內部PB(預測塊)併計算原始內部塊的殘差信號；並對殘差應用DCT/DST/量化並將其發送到解碼器。

在解碼器處：使用MV候選執行TM，然後對於N個細化位置中的每一個，使用重構的參考幀生成內部塊並添加解碼的殘差。選擇滿足「邊界平滑條件」的(MVP+細化+殘差)。

在本發明中，如果不期望邊界平滑匹配細化提供最佳結果，則編碼器可以向解碼器發送「重新排序的」索引。例如，在編碼器端，我們可以使用原始視頻資料找到最佳候選A。如果候選A實際上是最好的，但考慮到邊界平滑度，另一個候選(例如候選B)顯示更好的TM結果條件，那麼編碼器仍然需要基於候選A對殘差進行編碼。但是，編碼器可以根據邊界平滑匹配結果對候選索引集進行重新排序。然後，解碼器可以按照相同的方式，根據邊界匹配條件對候選進行重新排序；並考慮編碼器發送的重新排序的索引，使用與編碼器相同的候選者(即在編碼器端定義的真實最佳候選者)。在一個實施例中，在編碼器端，我們使用視頻源來獲得真正的最佳候選。在這種情況下，根據邊界平滑條件選擇的最佳候選應該與真實的最佳候選匹配，因此，該方法有望具有編碼增益。

在本發明的一個實施例中，內部塊匹配可以應用於其他模式，而不僅僅是TM(例如，AMVP、DMVR)。例如，當應用AMVP時，可以跳過MVP的符號信息。在解碼器處，可以使用上述基於TM的方法恢復符號信息，其中N等於4(即MVP的MVx和MVy分量的4種可能的符號組合)。

在另一個實施例中，該方法可以替代DMVR中的雙邊匹配。

在一個實施例中，該方法可用於對MV列表中的MV重新排序，因此提供最佳預測的MV被移動到列表的前面並因此用最小索引進行編碼。

在一個實施例中，如果允許MVP細化具有相同的相位(即，在MVP細化之間具有整數步長)，則可以避免N次MC。因此，對於較大的區域/框，只需生成一次MC結果，並且可以將運動補償的總數從N減少到僅一個MC，並使用該生成的結果來獲得所需的樣本。

在一個實施例中，可以根據MC結果+殘差的初始邊界平滑度值隱式打開/關閉TM細化之後的邊界匹配細化，其中MC結果是TM的第一個細化結果。在另一實施例中，向解碼器發送一個標誌，指示是否執行邊界匹配。

模板匹配可以用作幀間預測技術來導出初始MV。基於模板匹配的MV細化也可用於細化初始MV。因此，模板匹配MV細化過程被認為是幀間預測的一部分。因此，上述提出的與模板匹配相關的方法可以在編碼器和/或解碼器中實現。例如，所提出的方法可以在編碼器的幀間編碼模塊(例如，第1A圖中的幀間預測112)和/或解碼器的幀間編碼模塊(例如，第1B圖中的MC 152)中實現。

第8圖示出了根據本發明實施例的利用模板匹配來減少延遲時間的示例性視頻編碼系統的流程圖。流程圖中所示的步驟可以實現為可在編碼器側的一個或多個處理器(例如，一個或多個CPU)上執行的程序代碼。流程圖中所示的步驟也可以基於硬件來實現，諸如被佈置為執行流程圖中的步驟的一個或多個電子設備或處理器。根據該方法，在步驟810中接收包括當前圖片中的視頻單元的當前塊的輸入資料。在步驟820中確定當前塊的當前模板，其中當前上模板(或稱為頂模板、頂部模板)和當前左側模板(或稱為左模板)中的至少一個被移除或所述當前上模板和當前左模板中的至少一個遠離當前塊的相應上邊緣或相應左邊緣。在參考圖片中的一組候選位置處與當前塊相關聯的候選參考模板在步驟830中被確定，其中每個候選參考模板對應於一個對應候選位置處的當前模板。在步驟840中確定與當前模板最佳匹配的候選參考模板中的目標參考模板的位置。在步驟850，根據目標參考模板的位置確定的初始MV執行細化，獲得細化運動矢量(MV)。

所示流程圖旨在說明根據本發明的視頻編碼的示例。本領域技術人員在不脫離本發明的精神的情況下，可以修改每個步驟、重新排列步驟、拆分步驟或組合步驟來實施本發明。在本公開中，已經使用特定的句法和語義來說明示例以實現本發明的實施例。技術人員可以通過用等效的句法和語義代替句法和語義來實踐本發明，而不背離本發明的精神。

呈現以上描述是為了使本領域普通技術人員能夠實踐在特定應用及其要求的上下文中提供的本發明。對所描述的實施例的各種修改對於本領域技術人員來說將是顯而易見的，並且本文定義的一般原理可以應用於其他實施例。因此，本發明不旨在限於所示和描述的特定實施例，而是要符合與本文公開的原理和新穎特徵相一致的最寬範圍。在以上詳細描述中，為了提供對本發明的透徹理解，說明了各種具體細節。然而，本領域的技術人員將理解，可以實踐本發明。

如上所述的本發明的實施例可以以各種硬件、軟件代碼或兩者的組合來實現。例如，本發明的一個實施例可以是集成到視頻壓縮芯片中的一個或多個電路電路或集成到視頻壓縮軟件中以執行本文描述的處理的程序代碼。本發明的實施例還可以是要在數字信號處理器(DSP)上執行以執行這裡描述的處理的程序代碼。本發明還可以涉及由計算機處理器、數字信號處理器、微處理器或現場可編程門陣列(FPGA)執行的許多功能。這些處理器可以被配置為通過執行定義本發明所體現的特定方法的機器可讀軟件代碼或固件代碼來執行根據本發明的特定任務。軟件代碼或固件代碼可以以不同的編程語言和不同的格式或樣式開發。軟件代碼也可以針對不同的目標平台進行編譯。然而，軟件代碼的不同代碼格式、風格和語言以及配置代碼以執行根據本發明的任務的其他方式將不脫離本發明的精神和範圍。

本發明可以在不背離其精神或基本特徵的情況下以其他特定形式體現。所描述的示例在所有方面都僅被認為是說明性的而不是限制性的。因此，本發明的範圍由所附請求保護範圍而不是由前述描述指示。在請求保護範圍的等效含義和範圍內的所有變化都應包含在其範圍內。

810-850:步驟

Claims

一種視頻編解碼方法，該方法包括：接收包括當前圖片中視頻單元的當前塊的輸入資料；確定該當前塊的當前模板，其中，當前上模板與當前左側模板中的至少一個被移除、或與該當前塊的上邊界或左邊界不相鄰；在參考圖片中的一組候選位置處確定與當前塊相關聯的候選參考模板，其中每個候選參考模板對應於一個對應候選位置處的當前模板，其中基於一個或多個上相鄰塊和一個或多個左相鄰塊之幀內/幀間預測模式之一，在該當前塊的僅該上模板、僅該左模板以及僅該上模板和僅該左模板兩者中的選擇；確定目標參考模板在多個候選參考模板中的位置，以實現當前模板的最佳匹配；和根據目標參考模板的位置、藉由細化一初始運動矢量(MV)決定一細化運動矢量。
如請求項1所述的方法，其中，該當前塊包含在當前預定義區域內，並且該當前模板是使用來自該當前預定義區域的一個或多個以上的上方相鄰塊、一個或多個左側相鄰塊、或兩者的相鄰樣本導出的。
如請求項2所述的方法，其中，該當前預定義區域對應於VPDU(虛擬流水線資料單元)、CTU(編碼樹單元)行、或當前圖片分區得到的非重疊分區，或當前圖片的切片或CTU(編碼樹單元)。
如請求項1所述的方法，其中，該初始MV指向參考圖片中候選位置集合的初始候選位置。
如請求項4所述的方法，其中，每個候選參考模板相對於該一個對應的候選位置的定位方式與當前模板相對於當前塊的位置的定位方式相同。
如請求項4所述的方法，其中，每個候選參考模板位於該一個對應候選位置的左上方位置。
如請求項1所述的方法，其中，該當前模板對應於當前塊的上方位置和左側位置的偽L形模板，並且其中，該偽L形模板的上方偽模板是從該當前預定義區域的一個或多個相鄰的上方相鄰塊的相鄰樣本導出的，該偽L形模板的左偽模板由該當前預定義區域的一個或多個左相鄰塊的相鄰樣本導出。
如請求項1所述的方法，其中，該當前塊對應於來自父節點的分區，並且該當前模板是使用該當前塊的父節點的一個或多個相鄰塊的相鄰樣本、該當前塊的該父節點的一個或多個左相鄰塊的相鄰樣本、或兩者導出的。
如請求項8所述的方法，其中，每個候選參考模板相對於該一個對應的候選位置的定位方式與當前模板相對於當前塊的位置的定位方式相同。
如請求項8所述的方法，其中，每個候選參考模板位於該一個對應候選位置的左上方位置。
如請求項1所述的方法，其中，該當前塊對應於來自父節點的分區，並且根據該父節點的分區和/或處理順序來選擇當前模板。
如請求項11所述的方法，其中，該父節點被劃分為多個編碼塊，包括一個或多個奇數編碼塊和一個或多個偶數編碼塊，該一個或多個奇數編碼塊使用一種當前模板的類型和該一個或多個偶數編碼塊使用當前模板的另一種類型。
如請求項11所述的方法，其中，如果該當前模板的一個或多個樣本來自編碼順序中的前N個編碼塊，則跳過該一個或多個樣本，並且其中N是等於或大於1的整數。
如請求項13所述的方法，其中與該先前N個編碼塊相關聯的一個或多個分區深度與當前塊深度相同或更高。
如請求項11所述的方法，其中如果該當前模板的一個或多個樣本具有與當前級別、或QT、或MTT分區深度相同或更大的級別、或QT(四叉樹)、或MTT(多類型樹)分區深度，該當前塊的該一個或多個樣本被跳過。
如請求項11所述的方法，其中如果來自按該編碼順序的先前編碼塊的一個或多個樣本在按該編碼順序的當前塊的指定閾值區域內，則針對該當前模板區域跳過該一個或多個樣本。
如請求項1所述的方法，其中在編碼器側或解碼器端，並選擇達到最佳匹配的目標候選模板。
如請求項1所述的方法，其中，指示實現最佳匹配的目標候選模板的語法在視頻比特流中用信號通知給解碼器。
如請求項1所述的方法，其中基於塊大小、塊形狀或周圍信息，該當前塊的僅該上模板、僅該左模板或僅該上模板和僅該左模板兩者的模式選擇性使用被隱式地打開或關閉。
如請求項1所述的方法，其中，組合僅該上模板、僅該左模板以及僅該上模板和僅該左模板兩者的匹配結果以評估最佳匹配。
如請求項20所述的方法，其中使用預定義的權重或使用過濾處理來組合僅該上模板、僅該左模板以及僅該上模板和僅該左模板兩者的匹配結果。
如請求項1所述的方法，其中，在當前塊的僅該上模板、僅該左模板以及僅該上模板和僅該左模板兩者之間的選擇是基於該當前塊的該當前MV與一個或多個上相鄰塊和一個或多個左相鄰塊的一個或多個相鄰MV之間的相似性。
如請求項22所述的方法，其中，如果該當前塊的該當前MV接近於該一個或多個上相鄰塊的該一個或多個相鄰MV，則僅選擇該上模板；如果該當前塊的該當前MV與該一個或多個左相鄰塊的該一個或多個相鄰MV接近，則選擇僅左模板。
如請求項1所述的方法，其中，如果該一個或多個上相鄰塊主要是幀內預測模式，則該當前塊的上相鄰樣本不用於該當前模板；如果該一個或多個左相鄰塊主要是幀內預測模式，則該當前塊的左相鄰樣本不用於該當前模板。
一種視頻編解碼設備，該設備包括一個或多個電子電路或處理器，用於：接收包括當前圖片中視頻單元的當前塊的輸入資料；確定當前塊的當前模板，其中當前上模板和當前左模板中的至少一個被移除或者該當前上模板和該當前左模板中的該至少一個遠離該當前塊各自的上邊緣或各自的左邊緣，其中基於一個或多個上相鄰塊和一個或多個左相鄰塊之幀內/幀間預測模式之一，在該當前塊的僅該上模板、僅該左模板以及僅該上模板和僅該左模板兩者中的選擇；在參考圖片中的一組候選位置處確定與該當前塊相關聯的多個候選參考模板，其中每個候選參考模板對應於一個對應候選位置處的當前模板；確定與該當前模板最佳匹配的目標參考模板在該多個候選參考模板中的位置；和根據目標參考模板的位置，通過細化初始運動矢量(MV)來確定細化MV。