TW202402054A - 用於候選清單的相似性閾值 - Google Patents

用於候選清單的相似性閾值 Download PDF

Info

Publication number
TW202402054A
TW202402054A TW112117168A TW112117168A TW202402054A TW 202402054 A TW202402054 A TW 202402054A TW 112117168 A TW112117168 A TW 112117168A TW 112117168 A TW112117168 A TW 112117168A TW 202402054 A TW202402054 A TW 202402054A
Authority
TW
Taiwan
Prior art keywords
prediction
current block
optimization
block
list
Prior art date
Application number
TW112117168A
Other languages
English (en)
Inventor
蕭裕霖
徐志瑋
Original Assignee
聯發科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 聯發科技股份有限公司 filed Critical 聯發科技股份有限公司
Publication of TW202402054A publication Critical patent/TW202402054A/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding

Abstract

視訊編解碼器生成當前區塊的候選預測向量清單。視訊編解碼器透過從清單中移除位於第二預測向量的閾值內的第一預測向量,削減候選預測向量清單。優化被啟用時,閾值具有第一值,優化未被啟用時,閾值具有第二值。視訊編解碼器從已削減候選預測向量清單中選擇候選預測向量。當優化被啟用時,視訊編解碼器將優化已選擇預測向量,並透過使用已優化預測向量對當前區塊進行編碼或解碼,以重構當前區塊。當優化未被啟用,視訊編解碼器將透過使用已選擇預測向量對當前區塊進行編碼或解碼,以重構當前區塊。

Description

用於候選清單的相似性閾值
本發明通常涉及視訊編解碼。並且更具體地,涉及透過創建候選清單而對像素區塊進行編解碼的方法。
除非此處有額外說明,本節所描述的方法不屬於下列申請專利範圍的習知技術,也不因包括本節而被承認為習知技術。
高效視訊編解碼(High-Efficiency Video Coding,HEVC)是由視訊編解碼的聯合合作團隊(Joint Collaborative Team on Video Coding,JCT-VC)開發的國際視訊編解碼標準。HEVC基於基於混合區塊的運動補償DCT類變換編解碼架構。壓縮的基本單元稱為編解碼單元(coding unit,CU),是2N×2N的正方形像素區塊,每一CU可以遞迴地分成四個更小的CU,直到達到預設的最小大小。每一CU包含一個或複數個預測單元(prediction unit,PU)。
多功能視訊編解碼(Versatile video coding,VVC)是由ITU-T SG16 WP3和ISO/IEC JTC1/SC29/WG11聯合視訊專家組(Joint Video Expert Team,JVET)開發的最新國際視訊編解碼標準。輸入視訊訊號是從已重構(reconstructed)訊號中預測得到的,已重構訊號是從已編解碼的圖像區域中推導得到的。預測殘差訊號是由區塊變換進行處理的。變換係數(transform coefficient)與位元流中的其他邊資訊一起進行量化(quantized)和熵編解碼(entropy coded)。已重構訊號是在對已去量化(de-quantized)的變換係數進行逆變換(inverse transform)後,從預測訊號和已重構殘差訊號中生成的。已重構訊號還透過環路濾波(in-loop filtering)進行處理,用於移除編解碼偽影(artifacts)。已解碼圖像被存儲在暫存器中,用於預測輸入視訊訊號中的未來圖像。
在VVC中,已編解碼圖像被分割成由相關編解碼樹單元(coding tree unit,CTU)表示的不重疊的正方形區塊區域。編解碼樹的葉節點對應於編解碼單元(coding unit,CU)。已編解碼圖像可以由切片(slice)的集合表示,每一切片包括整數個CTU。切片中的各個CTU按光柵掃描(raster scan)順序進行處理。使用最多兩個運動向量(motion vector)和參考索引(reference index)的畫面內預測(intra prediction)或畫面間預測(inter prediction),雙向預測(bi-predictive)切片(B slice)可以被解碼,以預測每區塊的樣本值。使用最多一個運動向量和參考索引的畫面內預測或畫面間預測,預測(predictive)切片(P slice)被解碼,以預測每區塊的樣本值。僅使用畫面內預測,畫面內(intra)切片(Intra slice)被解碼。
使用具有巢狀(nested)的多類型樹(multi-type-tree,MTT)結構的四叉樹(quadtree,QT),可以將CTU分割為一個或複數個不重疊的編解碼單元(CU),以適應各種局部運動特徵和紋理特徵。使用五種劃分類型:四叉樹分割、垂直二叉樹分割、水準二叉樹分割、垂直中心側三叉樹分割、水準中心側三叉樹分割中的一種,將CU進一步劃分為更小的CU。
每一CU包含一個或複數個預測單元(prediction unit,PU)。預測單元與相關的CU語法一起作為基本單元,以用於標示(signaling)預測子(predictor)資訊。使用指定的預測過程來預測PU內相關像素樣本的值。每一CU可以包含一個或複數個表示預測殘差區塊的變換單元(transform unit,TU)。變換單元(TU)包括亮度樣本(luma sample)的一個變換區塊(transform block,TB)和色度樣本(chroma sample)的兩個相應的變換區塊,每一TB對應一個顏色分量的一個殘差區塊樣本。將整數變換應用於變換區塊。已量化係數的層值(level value)與其他邊資訊(side information)一起進行熵編解碼於位元流中。編解碼樹塊(coding tree block, CTB)、編解碼區塊(coding block, CB)、預測區塊(prediction block, PB)、變換區塊(transform block, TB)等用語被定義為分別指明與CTU、CU、PU、TU相關的一個顏色分量的2D樣本陣列(syntax element)。因此,一個CTU包括一個亮度CTB、兩個色度CTB和相關的語法元素。類似的關係也適用於CU、PU和TU。
對於每一已畫面間預測的CU,包括運動向量、參考圖像索引和參考圖像清單使用索引的運動參數以及附加資訊用於生成已畫面間預測樣本。運動參數可以以明示(explicit)或暗示(implicit)的方式被標示。當使用跳躍模式(skip mode)對CU進行編解碼時,CU與一個PU相關,並沒有有效的殘差係數,沒有編解碼的運動向量差值(delta)或參考圖像索引。合併模式(merge mode)被指定時,其當前CU的運動參數從包括空間候選和時間候選的相鄰CU獲得,以及VVC中引入的額外排程。合併模式可以應用於任何已畫面間預測CU。合併模式的替代方案是運動參數的明示傳輸,其中運動向量、每一參考圖像清單相應的參考圖像索引和參考圖像清單使用標誌(usage flag)以及其他所需的資訊是對每一CU而進行明示標示。
以下發明內容僅是說明性的,不打算以任何方式加以限制。也就是說,以下發明內容被提供以介紹此處所描述的新且非顯而易見的技術的概念、重點、好處和優勢。選擇而不是所有的實施方式在下面的詳細說明中進行進一步描述。因此,以下發明內容不用於確定所要求主題的本質特徵,也不用於確定所要求主題的範圍。
一些實施方式提供了一種方法,該方法在對已選擇候選執行優化(refine)之前,使用相似性閾值對預測候選清單進行削減(prune)。視訊編解碼器為當前區塊生成候選預測向量清單。視訊編解碼器生成當前區塊的候選預測向量清單。視訊編解碼器透過從清單中移除位於第二預測向量的閾值內的第一預測向量,削減候選預測向量清單。優化被啟用時,閾值具有第一值,優化未被啟用時,閾值具有第二值。視訊編解碼器從已削減候選預測向量清單中選擇候選預測向量。
當優化被啟用時,視訊編解碼器將優化已選擇預測向量,並透過使用已優化預測向量對當前區塊進行編碼或解碼,以重構當前區塊。當優化未被啟用,視訊編解碼器將透過使用已選擇預測向量對當前區塊進行編碼或解碼,以重構當前區塊。候選預測向量清單可以依據用於對當前區塊進行編解碼的預測模式生成。預測模式可以是合併模式、組合畫面內-畫面間預測模式(CIIP)、幾何預測模式(GPM)、畫面內區塊複製(IBC)或其他預測模式。已選擇預測向量可以是參考參考圖像中的樣本的運動向量,也可以是參考當前圖像中的樣本的塊向量。
在一些實施方式中,優化被啟用時的該閾值的第一值大於優化被禁用時該閾值的第二值。在一些實施方式中,該第一閾值是相同的,而不管用於編碼該當前區塊的該預測模式如何。在一些實施方式中,該第一閾值對於不同的預測模式具有不同的值。在一些實施方式中,視訊編解碼器透過範本匹配(template matching,TM)過程進行優化,即該已選擇預測向量被優化,以最小化與該當前區塊相鄰的範本像素和該已優化預測向量所參考的相應像素之間的成本。
在下面詳細的說明書中,為了透徹理解相關教示內容,通過舉例的方式進行說明大量具體的細節。基於本文所描述的教示內容的任何改變、推導和/或拓展均在本發明的保護範圍內。在一些例子中,為了避免不必要地混淆本發明的教示內容的方面,在相對較高的級別而無細節上描述已知的方法、程式、元件和/或關於此處所公開的一個或者複數個示例性實施方式的電路。 I. 基於範本匹配( Template Matching TM )的 MV 優化
範本匹配(TM)是解碼器端MV推導方法,以透過在當前圖像中當前CU的範本(例如當前CU的頂部相鄰區塊和/或左側相鄰區塊)與參考圖像中的像素集(即與範本大小相同)之間查找最接近的匹配,優化(refine)當前CU的運動資訊。
第1圖概念地示出了基於初始運動向量(MV)周圍的搜索區域執行範本匹配。如圖所示,對於當前圖像100中的當前CU 105,視訊編解碼器在初始MV 110周圍的[-8,+8]像素搜索範圍內搜索參考圖像或幀101,以為了更好或已優化的MV 111。搜索是基於最小化與當前CU 105相鄰的當前範本120和由已優化(refined)的MV 111標識的參考範本121之間的差(或成本(cost))。可以使用基於適應性運動向量分辨率模式(adaptive motion vector resolution mode,AMVR)確定的搜索步長大小(search step size),執行範本匹配。範本匹配過程可以與合併模式(merge mode)下的雙邊匹配過程(bilateral matching process)串聯(cascade)。
在進階運動向量預測(advanced motion vector prediction ,AMVP)模式中,基於範本匹配誤差確定候選MVP,以選擇當前區塊範本與參考區塊範本之間的差最小的一個,然後TM僅被執行於該特定的候選MVP,以進行MV優化(MV refinement)。透過使用迭代菱形搜索(iterative diamond search),從[-8,+8]像素搜索範圍內的全像素MVD精度(或4像素AMVR模式的4像素)開始,TM過程優化該MVP候選。透過使用全像素MVD精度(或4像素AMVR模式的4像素)的十字搜索(cross search),AMVP候選可以被進一步優化,然後依據AMVR模式搜索模型循序進行二分之一像素和四分之一像素的搜索,如下表1所示。
表1:AMVR的搜索模型和具有AMVR的合併模式
搜索 模型 AMVR 模式 合并模式
4 像素 全像素 二分之一像素   四分之一 像素 AltIF=0 AltIF=1
4像素菱形 v
4像素十字 v
全像素菱形 v v v v v
全像素十字 v v v v v
二分之一像素十字 v v v v
四分之一像素十字 v v
八分之一像素十字 v
這個搜索過程保證了MVP候選在TM過程後仍然保持與AMVR模式所指示的相同的MV精度。在搜索過程中,如果迭代中之前的最小成本與當前的最小成本之間的差小於閾值,其等於區塊面積,則搜索過程終止。
在一些實施方式中,當使用合併模式時,視訊編解碼器可以應用類似的TM搜索方法,以優化合並索引所指示的合併候選。如上面的表1所示,TM可以一直執行到1/8像素MVD精度或跳過超過二分之一像素的MVD精度,取決於依據已合併運動資訊是否使用替代插值濾波器(其是當AMVR處於二分之一像素模式時使用的)。此外,當TM模式被啟用時,範本匹配可以用作獨立的過程,或者用作基於區塊的雙邊匹配(bilateral matching,BM)方法和基於子區塊的雙邊匹配(BM)方法之間的額外的MV優化過程,取決於依據其啟用條件檢查BM是否可以被啟用。 II. 具有 TM 的多分割預測模式
A. 組合畫面間 - 畫面內預測( Combined inter and intra prediction CIIP
當CU以合併模式被編解碼時,如果該CU包含至少64個亮度樣本(即CU寬度乘以CU高度等於或大於64),並且如果CU寬度和CU高度都小於128個亮度樣本,則額外的標誌可以被標示,以指示是否將組合畫面內-畫面間預測(CIIP)模式應用於當前CU。CIIP預測組合畫面間預測訊號和幀畫面內預測訊號。在一些實施方式中,CIIP模式 P inter 中的畫面間預測訊號是使用與應用於常規合併模式相同的畫面間預測過程推導出的;幀畫面內預測訊號 P intra 是透過具有平面模式或從預設機制推導出的一種或多種畫面內預測模式的常規畫面內預測過程推導出的。使用加權平均方法將畫面內預測訊號和畫面間預測訊號組合,其中權重值是依據頂部相鄰區塊和左側相鄰區塊的編解碼模式計算的。CIIP預測 P CIIP 被形成為如下:( wt為權重值) P CIIP = ((4 – wt) * P inter + wt* P intra + 2) >> 2
在一些實施方式中,從候選清單I中選擇的運動候選用於生成 P inter ,並且從候選清單II中選擇的畫面內預測模式用於生成 P intra 。在一些實施方式中,候選清單I與當前區塊的合併候選清單相同。在一些實施方式中,候選清單I是合併候選清單的子集。
B. 基於範本的畫面內模式推導( Template-based Intra Mode Derivation TIMD
基於範本的畫面內模式推導(TIMD)是一種編解碼方法,其中透過在編碼器和解碼器側使用相鄰範本而暗示地推導出CU的畫面內預測模式,而不是由編碼器向解碼器發出準確的畫面內預測模式的訊號。
在一些實施方式中,對於MPM清單中的每一畫面內預測模式,計算範本的預測樣本與已重構樣本之間的SATD。選取SATD最小的前2個畫面內預測模式作為TIMD模式。應用PDPC過程後,用權重值將這兩種TIMD模式融合,這種已加權畫面內預測用於編解碼當前CU。位置相關的畫面內預測組合(PDPC)被包括在TIMD模式的推導中。
將兩種已選擇模式(模式1和模式2)的成本與閾值進行比較,在測試中,成本因子2被應用如下: costMode2 < 2*costMode1
如果此條件為真,則應用預測融合,否則僅使用模式1。模式的權重是從其SATD成本計算的,如下所示: weight1 = costMode2/(costMode1+ costMode2) weight2 = 1 - weight1
在一些實施方式中,對於CIIP模式,預測樣本是透過使用TM優化的CIIP合併候選所預測的畫面間預測訊號(P inter)和使用TIMD推導的畫面內預測模式所預測的畫面內預測訊號(P intra)的加權組合來生成的。在一些實施方式中,該方法僅適用於面積小於或等於1024的編解碼區塊。
C. 具有 TIMD TM 合併模式的 CIIP
在一些實施方式中,TIMD推導方法用於推導CIIP中的畫面內預測模式。具體而言,TIMD模式清單中SATD值最小的畫面內預測模式被選擇,並被映射到67個常規畫面內預測模式中的一個。在一些實施方式中,如果TIMD推導的畫面內預測模式是角模式,則修改兩個CIIP預測(P intra和P inter)的權重(wIntra、wInter)。在一些實施方式中,用於不同子區塊的權重(wIntra, wInter)被修改用於角度模式,如表2所示:
表2:
索引 wIntra, wInter
0 (6, 2)
1 (5, 3)
2 (3, 5)
3 (2, 6)
使用CIIP-TM,CIIP-TM合併候選清單被創建以用於CIIP-TM模式。CIIP-TM合併候選清單中的合併候選透過範本匹配進行優化。利用範本匹配方法,透過合併候選的適應性重新排序(ARMC),CIIP-TM合併候選也可以被重新排序,作為常規合併候選。(ARMC是一種方法,其中合併候選被劃分為若干子組,並依據基於範本匹配的成本值,子組中的合併候選被重新排序。)在一些實施方式中,CIIP-TM合併候選的最大數目為2。
D. 幾何預測模式( Geometric Prediction Mode GPM
在VVC中,幾何分割模式被支持用於畫面間預測。使用CU層標誌作為一種合併模式,與包括常規合併模式、MMVD模式、CIIP模式和子區塊合併模式的其他合併模式一起,幾何分割模式(GPM)被標示。幾何分割模式總共支持64種分割,以用於每種可能的CU大小 其中 ,不包括8x64 和64x8。
第2圖示出了透過幾何分割模式(GPM)對CU進行分割。每一GPM分割或GPM劃分都透過定義平分線的距離-角度配對進行特徵化。該圖示出了按相同角度分組的GPM劃分的示例。如圖所示,當使用GPM時,透過幾何位置的直線,CU被劃分成兩個部分。劃分線的位置是從特定分割的角度和偏移參數中數學推導出來的。
CU中幾何分割的每一部分都是使用自身的運動(向量)進行畫面間預測。每一分割只允許單預測,即每一部分有一個運動向量和一個參考索引。單預測運動約束被應用,以確保與傳統的雙預測類似,每一CU只執行兩個運動補償預測。
如果GPM用於當前CU,則指示幾何分割(角度和偏移)的分割模式的幾何分割索引和兩個合併索引(一個用於每一分割)還被標示。幾何分割的合併索引用於從單預測(uni-prediction)候選清單(也稱為GPM候選清單)中選擇候選。GPM候選清單中的最大候選數量在SPS中被明示標示,以指定GPM合併索引的語法二值化。在對幾何分割的每一部分進行預測後,使用具有適應性權重值的混合過程,對沿著幾何分割邊緣的樣本值進行調整。這是整個CU的預測訊號,與其他預測模式中一樣,變換和量化過程將被應用於整個CU。然後GPM所預測的CU的運動欄位被存儲。
GPM分割的單預測候選清單(GPM候選清單)可以直接從當前CU的合併候選清單中推導出來。第3圖示出了GPM分割的示例單預測候選清單300以及GPM的單預測MV的選擇。僅用L0 MV和L1 MV之間交替的單預測候選,GPM候選清單300以奇偶方式被構建。設n為GPM的單預測候選清單中的單預測運動的索引。第n個擴展合併候選的LX(即L0或L1)運動向量,其中X等於n的奇偶性,被用作GPM的第n個單預測運動向量。(這些運動向量在圖中用「x」標記。)如果不存在第n個擴展合併候選的相應LX運動向量,則使用同一候選的L(1-X)運動向量,作為GPM的單預測運動向量。
如前所述,使用具有適應性權重的混合過程,沿著幾何分割邊緣的樣本值被調整。具體來說,在藉由自身的運動來預測幾何分割的每一部分之後,混合被應用於兩個預測訊號,以推導出幾何分割邊緣周圍的樣本。CU的每一位置的混合權重是基於各自位置與分割邊緣之間的距離推導出的。第4圖示出了用於CU 400的示例GPM分割邊緣混合。在圖中,混合權重是基於初始混合權重w0生成的。
由GPM編解碼的區塊可以具有以畫面間模式編解碼的一個分割和以畫面內模式編碼的一個分割。這種GPM模式可以稱為具有畫面間和畫面內的GPM,或GPM-畫面內。在一些實施方式中,每一GPM分割在位元流中具有相應的標誌,以指示GPM分割是透過畫面內預測還是透過畫面間預測進行編解碼。對於畫面間預測編解碼的GPM分割,預測訊號是由來自CU的合併候選清單中MV生成的。對於畫面內預測編解碼的GPM分割,預測訊號是從由來自編碼器的索引指定的畫面內預測模式的相鄰像素生成的。可能的畫面內預測模式的變體可以由幾何形狀進行限制。如常規GPM模式中一樣,GPM編解碼的CU的最終預測是透過將畫面間預測分割的預測和畫面內預測分割的預測(即具有兩個畫面間預測的分割)進行組合(在分割邊緣進行混合)而產生的。
在一些實施方式中,透過重用合併候選清單,雙預測候選清單被允許到GPM候選清單中。在一些實施方式中,合併候選清單(其包括單預測候選和/或雙預測候選)用作GPM候選清單。在一些實施方式中,可以包括雙預測候選(例如,重用合併候選清單)的GPM候選清單僅被允許於較小CU(具有小於閾值的大小)和/或當GPM-畫面內(例如,組合畫面間和畫面內預測的GPM模式)被啟用時,以為了約束運動補償頻寬。否則(大於或等於閾值的CU),僅允許單預測,GPM候選清單將以奇偶方式被構建。
E. 具有 TM GPM
在一些實施方式中,範本匹配(TM)可以被應用於優化GPM分割的MV。當GPM模式被啟用用於CU時,CU層標誌被標示,以指示TM是否應用於兩種幾何分割。使用TM,每一幾何分割的運動資訊被優化。當選中TM時,依據分割角,使用左側相鄰樣本和上方相鄰樣本中至少一個,範本被構建。下面的表3顯示了第一個幾何分割和第二個幾何分割的範本,其中A表示使用上方樣本,L表示使用左側樣本,L+A表示使用左側樣本和上方樣本。
表3:
分割角 0 2 3 4 5 8 11 12 13 14
第1个分割 A A A A L+A L+A L+A L+A A A
第2个分割 L+A L+A L+A L L L L L+A L+A L+A
分割角 16 18 19 20 21 24 27 28 29 30
第1个分割 A A A A L+A L+A L+A L+A A A
第2个分割 L+A L+A L+A L L L L L+A L+A L+A
然後,透過使用相同的合併模式搜索模型而禁用二分之一像素插值濾波器來最小化當前範本與參考圖像中的範本之間的差,運動被優化。GPM候選清單被構建成如下:(1)視訊編解碼器直接從合併候選清單中推導出交錯的List-0 MV候選和List-1 MV候選,其中List-0 MV候選的優先權高於List-1 MV候選。基於當前CU大小的具有適應性閾值的削減方法被應用,以移除冗餘候選MV;(2)視訊編解碼器進一步直接從常規合併候選清單中推導出交錯的List-1 MV候選和List-0 MV候選,其中List-1 MV候選的優先權高於List-0 MV候選。具有適應性閾值的相同削減方法也被應用,以移除冗餘候選MV;(3)視訊編解碼器用零MV候選填充GPM候選清單,直到GPM候選清單完整。
在一些實施方式中,GPM-MMVD和GPM-TM僅被啟用給使用GPM的一個CU。在一些實施方式中,這是透過先標示GPM-MMVD語法來完成的。當兩個GPM-MMVD控制標誌均被設置為假(即GPM-MMVD被禁用用於兩個GPM分割),GPM-TM標誌被標示,以指示是否將範本匹配應用於兩個GPM分割。否則(至少一個GPM-MMVD標誌被設置為真),GPM-TM標誌的值被推斷為假。 III. 畫面內區塊複製( Intra Block Copy IBC )模式
畫面內區塊複製(IBC)也被稱為當前圖像參考(CPR)。IBC(或CPR)運動向量是指當前圖像中已重構參考樣本的一個。對於一些實施方式,IBC預測模式被視為除了用於編解碼CU的畫面間預測模式或畫面內預測模式之外的第三種預測模式。
由於IBC模式被實施為區塊層編解碼模式,因此區塊匹配(BM)在編碼器處執行,以找到每一CU的最佳區塊向量(或運動向量)。在這裡,區塊向量(block vector,BV)用於指示從當前區塊到參考區塊的位移,其在當前圖像中已經被重構。IBC編解碼的CU的亮度區塊向量是整數精度的。
色度區塊向量也舍入到整數精度。當與AMVR組合時,IBC模式可以在1像素運動向量精度和4像素運動向量精度之間切換。IBC模式可適用於寬度和高度均小於等於64個亮度樣本的CU。
在編碼器側,基於散列的運動估計被執行用於IBC。編碼器對寬度或高度不大於16個亮度樣本的區塊執行RD檢查。對於非合併模式,先使用基於散列的搜索,區塊向量搜索被執行。如果散列搜索沒有返回有效的候選,則將執行基於區塊匹配的本地搜索。在基於散列的搜索中,當前區塊與參考區塊之間的散列鍵(hash key)匹配(32位元的CRC)被擴展到所有允許的區塊大小。當前圖像中每一位置的散列鍵計算是基於4×4子區塊的。對於更大大小的當前區塊,當所有4×4子區塊的所有散列鍵與相應參考位置的散列鍵匹配時,散列鍵被確定與參考區塊的散列鍵匹配。如果複數個參考區塊的散列鍵被找到與當前區塊的散列鍵匹配,則算出每一匹配的參考區塊的區塊向量成本,並且選擇成本最小的匹配的參考區塊。
在區塊匹配搜索中,搜索範圍被設置為覆蓋之前CTU和當前CTU。在CU層,用標誌,其可以被標示為IBC AMVP模式或IBC跳過/合併模式,IBC模式被標示。 IV. 削減 TM 的候選清單
本發明的一些實施方式提供了一種透過TM提高預測向量優化的編解碼效率的方法。預測向量可以指的是參考參考圖像中的像素的運動向量(MV),或者參考當前圖像中的像素的區塊向量(BV)。具體來說,當TM被用於優化預測向量(例如,MV或BV)以生成預測(對於跳過,合併,直接(Direct),IBC,CIIP, GPM等)時,透過應用相似性檢查,已選擇預測向量所來自的候選清單被削減。相似性檢查從候選清單中移除與清單中至少一個其他候選過於相似的候選。在一些實施方式中,相似性檢查是基於相似性閾值,使得位於來自另一個預測向量的相似性閾值內的候選預測向量從候選清單中移除。在一些實施方式中,相似性閾值被設置,以防止候選清單具有由優化過程(例如,TM過程、邊界匹配過程或另一優化過程)優化為相同預測向量的兩個或以上候選。
在一些實施方式中,無論TM優化是否被啟用用於當前區塊,視訊編解碼器應用相似性閾值。該閾值可以是預設的或由位元流中的語法元素進行標示的。
第5A-C圖概念地示出了基於已選擇候選是否將被優化而使用相似性閾值削減候選清單,以用於後續優化。這些圖示出了當前圖像510中的當前區塊500。透過預測模式或編解碼工具,其透過使用預測向量獲取像素作為當前區塊的預測子或預測樣本,當前區塊500被編碼或解碼。這種編解碼工具或預測模式可以是合併模式、CIIP、GPM、IBC等任意一種。
選中以編碼或解碼當前區塊的編解碼工具使用候選清單520,其最初包括候選A到候選H。候選A到H包括預測子向量(MV和/或BV),其參考當前圖像510和參考圖像511與參考圖像512中的樣本。具體來說,候選A和B是參考參考圖像511中樣本的MV。候選C、D和E是參考參考圖像512中樣本的MV。候選F、G和H是參考當前圖像510中樣本的BV。
第5A圖示出了視訊編解碼器基於候選清單520執行預測而無優化。視訊編解碼器不對候選清單520執行削減(或以很小的閾值執行削減),候選D是從候選清單520中選擇的。候選D用於獲取預測樣本530而無優化。然後預測子530用於對當前區塊500進行編碼。
第5B圖示出了視訊編解碼器在優化被啟用時對候選清單520進行削減。由於優化被啟用,視訊編解碼器應用相似性閾值505來削減候選清單520。在一些實施方式中,閾值505被設置,以用於識別過於相似並且可以被優化為相同的預測向量。在該示例中,MV C和MV D之間的差小於閾值505,因此候選D從候選清單520中削減掉。BV F和BV G之間的差也小於閾值505,因此候選G也從候選清單520中削減掉。已削減候選清單521被創建,而沒有候選D和候選G。當前區塊500的預測將基於從已削減候選清單521中選擇的候選。
第5C圖示出了視訊編解碼器用啟用的優化,基於已削減候選清單521執行預測。在該示例中,從已削減候選清單521中選擇候選C。視訊編解碼器執行範本匹配(TM)過程,以基於與當前區塊500相鄰的上方像素和左邊像素的範本540,將MV C優化為MV C’。然後,優化的MV C’用於從參考圖像512中獲取預測樣本531,用於編解碼當前區塊500。
在一些實施方式中,當使用TM時,對於不同的預測模式,相似性閾值是相同的。例如,對於具有TM的常規合併模式(regular merge mode)、具有TM的CIIP模式、具有TM的GPM模式等,該閾值是相同的。
在一些實施方式中,具有啟用TM的編解碼/預測模式的候選的相似性閾值不同於沒有啟用TM的相似性閾值。例如,沒有啟用TM的常規合併模式(或CIIP模式或GPM模式)的閾值與啟用TM的常規合併模式(或CIIP模式或GPM模式)的閾值不同。或者沒有啟用TM的常規合併模式的閾值小於啟用TM的常規合併模式的閾值。或者沒有啟用TM的常規合併模式的閾值大於啟用TM的常規合併模式的閾值。在一些實施方式中,當不啟用TM時,將相似性閾值被設置為零或非常小的值,因此沒有候選被削減掉。
上述提出的方法可在編碼器和/或解碼器中實施。例如,所提出的方法可在編碼器的畫面內預測模組和/或畫面內區塊複製預測模組和/或解碼器的畫面內預測模組(和/或幀區塊複製預測模組)中實施。 V. 示例視訊編解碼器
第6圖示出了可以基於相似性閾值削減預測候選清單的示例性視訊編碼器600。如圖所示,視訊編碼器600從視訊源605接收輸入視訊訊號,並將訊號編碼成位元流695。視訊編碼器600具有幾個元件或者模組,以用於編碼來自視訊源605的訊號,至少包括從變換模組610、量化模組611、逆量化模組614、逆變換模組615、圖像畫面內估計模組620、畫面內預測模組625、運動補償模組630、運動估計模組635、環路濾波器645、已重構圖像暫存器650、運動向量(motion vector,MV)暫存器665和運動向量預測模組675,以及熵(entropy)編碼器690中選擇的一些元件。運動補償模組630和運動估計模組635是畫面間預測模組640的一部分。
在一些實施方式中,模組610-690是由計算設備或電子裝置的一個或者複數個處理單元(例如處理器)正在執行的軟體指令的模組。在一些實施方式中,模組610-690是由電子裝置的一個或者複數個積體電路(integrated circuit,IC)實作的硬體電路的模組。儘管模組610-690被示為單獨的模組,但是這些模組中的一些可以組合成一個獨立的模組。
視訊源605提供原始視訊訊號,其表示沒有壓縮的每個視訊資訊框的像素資料。減法器608計算視訊源605的原始視訊像素資料與來自運動補償模組630或畫面內圖像預測模組625的已預測像素資料613之間的差,作為預測殘差609。變換模組610將該差(或殘差像素資料或殘差訊號608)變換為變換係數(例如,透過執行離散餘弦變換(Discrete Cosine Transform)或DCT)。量化模組611將變換係數量化為已量化資料(或已量化係數)612,其由熵編碼器690編碼到位元流695中。
逆量化模組614去量化已量化資料(或已量化係數)612,以得到變換係數,逆變換模組615對變換係數進行逆變換,以產生已重構殘差619。將已重構殘差619與已預測像素資料613相加,以產生已重構像素資料617。在一些實施方式中,已重構像素資料617暫時存儲線暫存器(未示出)中,用於畫面內圖像預測和空間MV預測。已重構像素由環內濾波器645進行濾波,並被存儲於已重構圖像暫存器650中。在一些實施方式中,已重構圖像暫存器650是視訊編解碼器600外部的存儲。在一些實施方式中,已重構圖像暫存器650是視訊編碼器600內部的存儲。
圖像畫面內估計模組620基於已重構像素資料617執行畫面內預測,以產生畫面內預測資料。畫面內預測資料被提供給熵編碼器690,以將其編碼成位元流695。畫面內預測資料也由畫面內預測模組625使用,以產生預測像素資料613。
透過產生到存儲在已重構圖像暫存器650中的之前已解碼資訊框的參考像素資料的運動向量,運動估計模組635執行畫面間預測。這些運動向量被提供給運動補償模組630,以產生已預測像素資料。
不是對位元流中的完整實際MV進行編碼,視訊編解碼器600使用MV預測,生成已預測MV,用於運動補償的MV與已預測MV之間的差被編碼為殘差運動資料,並被存儲在位元流695中。
運動向量預測模組675基於被生成用於編碼之前視訊資訊框的參考運動向量,生成預測運動向量,即被用於執行運動補償的運動補償運動向量。運動向量預測模組675從運動向量暫存器665中檢索來自於之前視訊資訊框的參考運動向量。視訊編碼器600將被生成用於當前視訊資訊框的這些運動向量存儲到運動向量暫存器665中,以作為用於生成預測運動向量的參考運動向量。
運動向量預測模組675使用參考運動向量來創建已預測運動向量。已預測運動向量可以由空間運動向量預測或者時間運動向量預測來計算。已預測運動向量和當前資訊框的運動補償運動向量(motion compensation MV,MC MV)之間的差(殘差運動資料)被熵編碼器690編碼成位元流695。
透過使用熵編碼技術,例如上下文適應性二進位算術編碼(CABAC)或霍夫曼編碼,熵編碼器690將各種參數和資料編碼到位元流695中。熵編碼器690將各種標頭元素、標誌和已量化變換係數612以及殘差運動資料作為語法元素編碼到位元流695中。反過來,位元流695被存儲在存放設備中或透過諸如網路的通訊介質被傳輸到解碼器。
環路濾波器645對已重構像素資料617執行濾波或者平滑操作,以減少編解碼的偽影,特別是位於像素區塊的邊界的偽影。在一些實施方式中,環路濾波器645所執行的濾波操作或平滑操作包括去區塊濾波器(deblock filter,DBF)、樣本適應性偏移(sample adaptive offset,SAO)和/或適應性環路濾波器(adaptive loop filter,ALF)。
第7圖示出了實施候選清單削減和預測向量優化的視訊編碼器600的部分。具體而言,該圖示出視訊編碼器600的運動補償模組630的元件。
運動補償模組630從運動向量暫存器665中檢索(在「候選獲取」塊710處)已有的運動向量和/或區塊向量,以形成用於預測模式712的初始候選清單715。預測模式(如合併模式、CIIP、GPM、IBC等)由運動估計模組635指定,並由熵編碼器690標示於位元流695中。
運動補償模組630基於相似性閾值722對候選清單715進行削減(在「削減」塊720處),從而將候選清單中位於另一個預測向量的相似性閾值內的預測向量從候選清單中削減掉。削減操作的結果是已削減候選清單725。在一些實施方式中,相似性閾值722的值是基於優化是否將被執行於待選擇的候選預測向量而確定的。例如,當TM優化將被執行於已選擇候選時,閾值的值可以大於TM優化不被執行時的值。
運動補償模組630從已削減候選清單725中選擇(在「候選選擇」塊730處)候選預測向量735。候選選擇732可由運動估計模組635提供。運動補償模組630透過搜索已重構圖像暫存器650的內容742,將已選擇預測向量735優化(在「優化」塊740處)為已優化預測向量745。該優化可以是基於最小化與當前區塊相鄰的當前範本和由預測向量參考的參考圖像中的參考範本之間的差的TM優化。TM優化是透過參考上述第1圖進行描述的。
運動補償模組630使用已優化預測向量745,以從已重構圖像暫存器650中檢索(在「預測檢索」塊750處)預測樣本752。依據預測模式712(例如,透過生成CIIP模式的畫面間預測樣本和畫面內預測樣本的加權和),運動補償模組630基於已檢索預測樣本752生成已預測像素資料613。
第8圖概念地示出了在編碼像素區塊時基於相似性閾值削減候選預測向量清單的過程800。在一些實施方式中,實施編碼器600的計算設備的一個或複數個處理單元(例如處理器)透過執行存儲在電腦可讀介質中的指令來執行過程800。在一些實施方式中,實施編碼器600的電子裝置執行過程800。
編碼器接收(在塊810處)待編碼為視訊的當前圖像中的當前像素區塊的資料。編碼器生成(在塊820處)當前區塊的候選預測向量清單。候選預測向量清單可以是依據用於對當前區塊進行編解碼的預測模式生成的。預測模式可以是合併模式、組合畫面內-畫面間預測模式(CIIP)、幾何預測模式(GPM)、畫面內區塊複製(IBC)或其他預測模式。
透過從清單中移除位於第二預測向量的閾值內的第一預測向量,編碼器削減(在塊830處)候選預測向量清單。當優化被啟用時,閾值具有第一值,當優化未被啟用時,閾值具有第二值。在一些實施方式中,在優化被啟用時的閾值的第一值大於優化被禁用時的閾值的第二值。在一些實施方式中,該第一閾值是相同的,而不管用於編碼該當前區塊的該預測模式如何。在一些實施方式中,第一閾值對於不同的預測模式具有不同的值。(在一些實施方式中,被啟用的優化是TM優化過程。)
編碼器從已削減候選預測向量清單中選擇(在塊840處)候選預測向量。已選擇預測向量可以是參考參考圖像中的樣本的運動向量,或者是參考當前圖像中的樣本的區塊向量。
編碼器確定(在塊850處)優化是否被啟用以用於當前區塊。如果優化被啟用,則過程繼續到870。如果優化未被啟用,編碼器透過使用已選擇預測向量來編碼(在塊860處)當前區塊,以重構當前區塊。
在塊870處,編碼器優化已選擇預測向量。在一些實施方式中,編碼器透過TM過程執行優化,即已選擇預測向量被優化,以最小化與當前區塊相鄰的範本像素和由已優化預測向量所參考的相應像素之間的成本。然後,編碼器透過使用已優化預測向量,對當前區塊進行編碼(在塊880處),以重構當前區塊並產生預測殘差。已選擇預測向量可用於依據當前區塊的預測模式構建當前區塊的預測子。 VI. 示例視訊解碼器
在一些實施方式中,編碼器可以在位元流中標示(或生成)一個或複數個語法元素,使得解碼器可以從位元流解析一個或複數個語法元素。
第9圖示出了可以基於相似性閾值削減預測候選清單的示例視訊解碼器900。如圖所示,視訊解碼器900是圖像解碼或視訊解碼電路,其接收位元流995並將位元流的內容解碼為視訊資訊框的像素資料以供顯示。視訊解碼器900具有用於解碼位元流995的若干元件或模組,包括從逆量化模組911、逆變換模組910、畫面內預測模組925、運動補償模組930、環路濾波器945、已解碼圖像緩衝區950、運動向量暫存器965、運動向量預測模組975和解析器990中選擇的一些元件。運動補償模組930是畫面間預測模組940的一部分。
在一些實施方式中,模組910- 990是由計算設備的一個或複數個處理單元(例如處理器)執行的軟體指令的模組。在一些實施方式中,模組910-990是由電子裝置的一個或複數個IC實施的硬體電路模組。雖然模組910- 990被示意為獨立的模組,但這些模組中一些模組可以組合成一個單獨的模組。
解析器990(或熵解碼器)接收位元流995,並依據視訊編解碼或圖像編解碼標準定義的語法執行初始解析。已解析語法元素包括各種標頭元素、標誌以及已量化資料(或已量化係數)912。解析器990透過使用熵編解碼技術(如上下文適應性二進位算術編解碼(CABAC)或Huffman編解碼)解析出各種語法元素。
逆量化模組911對已量化資料(或已量化係數)912進行去量化,得到變換係數,逆變換模組910對變換係數916進行逆變換,產生已重構殘差919。已重構殘差919與來自畫面內預測模組925或運動補償模組930的已預測像素資料913相加,產生已解碼像素資料917。已解碼像素資料由環內濾波器945濾波並被存儲在已解碼圖像暫存器950中。在一些實施方式中,已解碼圖像暫存器950是視訊解碼器900外部的存儲。在一些實施方式中,已解碼圖像暫存器950是視訊解碼器900內部的存儲。
畫面內預測模組925接收來自位元流995的畫面內預測資料,並依據該資料,從存儲在已解碼圖像暫存器950中的已解碼像素資料917中產生已預測像素資料913。在一些實施方式中,已解碼像素資料917還存儲在線暫存器(未示出)中,用於圖像畫面內預測和空間MV預測。
在一些實施方式中,已解碼圖像暫存器950的內容用於顯示。顯示設備955檢索已解碼圖像暫存器950的內容以直接顯示,或者將已解碼圖像暫存器的內容檢索到顯示暫存器。在一些實施方式中,顯示設備透過像素傳輸接收來自已解碼圖像暫存器950的像素值。
依據運動補償MV (MC MV),運動補償模組930從存儲在已解碼圖像暫存器950中的已解碼像素資料917中產生已預測像素資料913。透過將從位元流995接收到的殘差運動資料與從運動向量預測模組975接收到的已預測MV相加,對這些運動補償MV進行解碼。
運動向量預測模組975基於被生成用於解碼之前視訊資訊框的參考MV,生成已預測MV,例如,用於執行運動補償的運動補償MV。運動向量預測模組975從運動向量暫存器965中檢索之前視訊資訊框的參考運動向量。視訊解碼器900也將被生成用於解碼當前視訊資訊框的運動補償運動向量存儲到運動向量暫存器965中,作為參考運動向量,以用於產生已預測運動向量。
環路濾波器945對已解碼像素資料執行濾波或者平滑操作,以減少編解碼的偽影,特別是位於像素區塊的邊界的偽影。在一些實施方式中,環路濾波器945所執行的濾波或者平滑操作包括去區塊濾波器(deblock filter,DBF)、樣本適應性偏移(sample adaptive offset,SAO)和/或適應性環路濾波器(adaptive loop filter,ALF)。
第10圖示出了實施候選清單削減和預測向量優化的視訊解碼器900的部分。具體而言,該圖示出了視訊解碼器900的運動補償模組930的元件。
運動補償模組930從運動向量暫存器965中檢索(在「候選獲取」塊1010處)已有的運動向量和/或區塊向量,以形成用於預測模式1012的初始候選清單1015。預測模式(如合併模式、CIIP、GPM、IBC等)由熵解碼器990依據位元流995中的語法元素指定。
運動補償模組930基於相似性閾值1022對候選清單1015進行削減(在「削減」塊1020處),從而將候選清單中位於另一個預測向量的相似性閾值內的預測向量從候選清單中削減掉。削減操作的結果是已削減候選清單1025。在一些實施方式中,相似性閾值1022的值是基於優化是否將被執行於待選擇的候選預測向量而確定的。例如,當TM優化將被執行於已選擇候選時,閾值的值可以大於TM優化不被執行時的值。
運動補償模組930從已削減候選清單1025中選擇(在「候選選擇」塊1030處)候選預測向量1035。候選選擇1032可由熵解碼器990提供。運動補償模組930透過搜索已重構圖像暫存器950的內容1042,將已選擇預測向量1035優化(在「優化」塊1040處)為已優化預測向量1045。該優化可以是基於最小化與當前區塊相鄰的當前範本和由預測向量參考的參考圖像中的參考範本之間的差的TM優化。TM優化是透過參考上述第1圖進行描述的。
運動補償模組930使用已優化預測向量1045,以從已解碼圖像暫存器950中檢索(在「預測檢索」塊1050處)預測樣本1052。依據預測模式1012(例如,透過生成CIIP模式的畫面間預測樣本和畫面內預測樣本的加權和),運動補償模組930基於已檢索預測樣本1052生成已預測像素資料913。
第11圖概念地示出了在編碼像素區塊時基於相似性閾值削減候選預測向量清單的過程1100。在一些實施方式中,實施解碼器900的計算設備的一個或複數個處理單元(例如處理器)透過執行存儲在電腦可讀介質中的指令來執行過程1100。在一些實施方式中,實施解碼器900的電子裝置執行過程1100。
解碼器接收(在塊1110處)待解碼為視訊的當前圖像中的當前像素區塊的資料。解碼器生成(在塊1120處)當前區塊的候選預測向量清單。候選預測向量清單可以在依據用於對當前區塊進行編解碼的預測模式生成的。預測模式可以是合併模式、組合畫面內-畫面間預測模式(CIIP)、幾何預測模式(GPM)、畫面內區塊複製模式(IBC)或其他預測模式。
透過從清單中移除位於第二預測向量的閾值內的第一預測向量,編碼器削減(在塊1130處)候選預測向量清單。當優化被啟用時,閾值具有第一值,當優化未被啟用時,閾值具有第二值。在一些實施方式中,在優化被啟用時的閾值的第一值大於優化被禁用時的閾值的第二值。在一些實施方式中,該第一閾值是相同的,而不管用於解碼該當前區塊的該預測模式如何。在一些實施方式中,第一閾值對於不同的預測模式具有不同的值。(在一些實施方式中,被啟用的優化是TM優化過程。)
解碼器從已削減候選預測向量清單中選擇(在塊1140處)候選預測向量。已選擇預測向量可以是參考參考圖像中的樣本的運動向量,或者是參考當前圖像中的樣本的區塊向量。
解碼器確定(在塊1150處)優化是否被啟用以用於當前區塊。如果優化被啟用,則過程繼續到1170。如果優化未被啟用,解碼器透過使用已選擇預測向量來編碼(在塊1160處)當前區塊,以重構當前區塊。
在塊1170處,解碼器優化已選擇預測向量。在一些實施方式中,解碼器透過TM過程執行優化,即已選擇預測向量被優化,以最小化與當前區塊相鄰的範本像素和由已優化預測向量所參考的相應像素之間的成本。然後,解碼器透過使用已優化預測向量,對當前區塊進行編碼(在塊1180處),以重構當前區塊並產生預測殘差。已選擇預測向量可用於依據當前區塊的預測模式構建當前區塊的預測子。然後,解碼器可以提供已重構當前區塊作為已重構當前圖像的一部分,以用於顯示。 VII. 示例電子系統
很多上述的特徵和應用可以被實作為軟體過程,其被指定為記錄在電腦可讀存儲介質(computer readable storage medium)(也被稱為電腦可讀介質)上的指令集。當這些指令由一個或者複數個計算單元或者處理單元(例如,一個或者複數個處理器、處理器核或者其他處理單元)來執行時,則這些指令使得處理單元執行這些指令所表示的動作。電腦可讀介質的示例包括但不限於CD-ROM、快閃記憶體驅動器(flash drive)、隨機存取記憶體(random access memory,RAM)晶片、硬碟、可讀寫可程式設計唯讀記憶體(erasable programmable read only memory,EPROM),電可擦除可程式設計唯讀記憶體(electrically erasable programmable read-only memory,EEPROM)等。電腦可讀介質不包括通過無線或有線連接的載波和電訊號。
在本說明書中,術語「軟體」意味著包括唯讀記憶體中的固件或者存儲在磁存放裝置中的應用程式,應用程式可以被讀入到記憶體中以用於處理器進行處理。同時,在一些實施例中,複數個軟體發明可以作為更大程式的子部分來實作,而保留不同的軟體發明。在一些實施例中,複數個軟體發明可以作為獨立的程式來實作。最後,一起實作此處所描述的軟體發明的獨立的程式的任何結合是在本發明的範圍內。在一些實施例中,當被安裝以在一個或者複數個電子系統上進行操作時,軟體程式定義了一個或者複數個特定的機器實作方式,機器實作方式執行和實施軟體程式的操作。
第12圖概念地示出了在本發明一些實施例中實作的電子系統1200。電子系統1200可以是電腦(例如,桌上型電腦、個人電腦、平板電腦等)、電話、PDA或者其他種類的電子設備。這個電子系統包括各種類型的電腦可讀媒質和用於各種其他類型的電腦可讀媒介的介面。電子系統1200包括匯流排1205、處理單元1210、影像處理單元(graphics-processing unit,GPU)1215、系統記憶體1220、網路1225、唯讀記憶體(read-only memory,ROM)1230、永久存儲設備1235、輸入設備1240和輸出設備1245。
匯流排1205共同地表示與電子系統1200的大量的內部設備通信連接的所有系統匯流排、外設匯流排和晶片組匯流排。例如,匯流排1205通過影像處理單元1215、唯讀記憶體1230、系統記憶體1220和永久存儲設備1235,與處理單元1210通信連接。
對於這些各種記憶體單元,處理單元1210檢索執行的指令和處理的資料,以為了執行本發明的過程。在不同實施方式中,處理單元可以是單個處理器或者多核心(multi-core)處理器。某些指令被傳輸影像處理單元1215和並被其執行。影像處理單元1215可以卸載各種計算或補充由處理單元1210提供的影像處理。
唯讀記憶體1230存儲處理單元1210或者電子系統的其他模組所需要的靜態資料和指令。另一方面,永久存儲設備1235是一種讀寫記憶體設備(read-and-write memory)。這個設備是一種非易失性(non-volatile)記憶體單元,其即使在電子系統1200關閉時也存儲指令和資料。本發明的一些實施方式使用大型存放區設備(例如磁片或光碟及其相應的磁碟機)作為永久存儲設備1235。
其他實施方式使用卸除式存放裝置設備(如軟碟、快閃記憶體設備等,以及其相應的磁碟機)作為永久存放裝置。與永久存放裝置1235一樣,系統記憶體1220是一種讀寫記憶體設備。但是,與存放裝置1235不一樣的是,系統記憶體1220是一種易失性(volatile)讀寫記憶體,例如隨機讀取記憶體。系統記憶體1220存儲一些處理器在運行時需要的指令和資料。在一些實施方式中,依據本發明的處理被存儲在系統記憶體1220、永久存放裝置1235和/或唯讀記憶體1230中。例如,各種記憶體單元包括用於依據一些實施方式的處理多媒體剪輯的指令。對於這些各種記憶體單元,處理單元1210檢索執行的指令和處理的資料,以為了執行某些實施方式的處理。
匯流排1205也連接到輸入設備1240和輸出設備1245。輸入設備1240使得使用者溝通資訊並選擇指令到電子系統上。輸入設備1240包括字母數位鍵盤和指點設備(也被稱為「游標控制設備」),攝像機(如網路攝像機(webcam)),用於接收語音命令的麥克風或類似的設備等。輸出設備1245顯示由電子系統生成的圖像或以其他方式輸出的資料。輸出設備1245包括印表機和顯示裝置,例如陰極射線管(cathode ray tube,CRT)或液晶顯示器(liquid crystal display,LCD),以及揚聲器或類似的音訊輸出設備。一些實施方式包括諸如同時用作輸入裝置和輸出設備的觸控式螢幕等設備。
最後,如第12圖所示,匯流排1205也通過網路介面卡(未示出)將電子系統1200耦接到網路1225。在這個方式中,電腦可以是電腦網路(例如,局域網(local area network,LAN)、廣域網路(wide area network,WAN)或者內聯網)或者網路的網路(例如互聯網)的一部分。電子系統1200的任一或者所有元件可以與本發明結合使用。
一些實施方式包括電子元件,例如,微處理器、存放裝置和記憶體,其將電腦程式指令存儲到機器可讀介質或者電腦可讀介質(可選地被稱為電腦可讀存儲介質、機器可讀介質或者機器可讀存儲介質)。電腦可讀介質的一些實例包括RAM、ROM、唯讀光碟(read-only compact disc,CD-ROM),可燒錄光碟(recordable compact disc,CD-R)、可讀寫光碟(rewritable compact disc,CD-RW)、唯讀數位通用光碟(read-only digital versatile disc)(例如,DVD-ROM,雙層DVD-ROM)、各種可記錄/可讀寫DVD(例如DVD RAM、DVD-RW、DVD+RW等)、快閃記憶體(如SD卡、迷你SD卡,微SD卡等)、磁性和/或固態硬碟、唯讀和可燒錄藍光®(Blu-Ray®)盤、超高密度光碟和其他任何光學介質或磁介質,以及軟碟。電腦可讀介質可以存儲由至少一個處理單元執行的電腦程式,並且包括用於執行各種操作的指令集。電腦程式或電腦代碼的示例包括機器代碼,例如編譯器產生的機器代碼,以及包含由電腦、電子元件或微處理器使用注釋器(interpreter)而執行的高級代碼的檔。
當以上討論主要是指執行軟體的微處理器或多核處理器時,很多上述的功能和應用程式由一個或複數個積體電路執行,如特定應用的積體電路(application specific integrated circuit,ASIC)或現場可程式設計閘陣列(field programmable gate array,FPGA)。在一些實施方式中,這種積體電路執行存儲在電路本身上的指令。此外,一些實施方式執行存儲在可程式設計邏輯器件(programmable logic device,PLD),ROM或RAM設備中的軟體。
如本發明的說明書和任一權利要求中所使用,術語「電腦」、「伺服器」、「處理器」和「記憶體」均指電子設備或其他技術設備。這些術語不包括人或群體。為了本說明書的目的,術語顯示或顯示裝置指在電子設備上進行顯示。如本發明的說明書和任一權利要求中所使用,術語「電腦可讀介質」、「電腦可讀媒質」和「機器可讀介質」完全局限於有形的、物理的物體,其以電腦可讀的形式存儲資訊。這些術語不包括任何無線訊號、有線下載訊號和其他任何短暫訊號。
在結合許多具體細節的情況下描述了本發明時,本領域通常知識者將認識到,本發明可以以其他具體形式而被實施,而不脫離本發明的精神。此外,大量的圖(包括第8圖和第11圖)概念性示出了過程。這些過程的具體操作可以不以所示以及所描述的確切順序來被執行。這些具體操作可用不在一個連續的操作系列中被執行,並且不同的具體操作可以在不同的實施方式中被執行。另外,過程通過使用幾個子過程而被實作,或者作為更大巨集過程的部分。因此,本領域的技術人員將能理解的是,本發明不受前述說明性細節的限制,而是由申請專利範圍加以界定。 額外說明
本文所描述的主題有時表示不同的元件,其包含在或者連接到其他不同的元件。可以理解的是,所描述的結構僅是示例,實際上可以由許多其他結構來實施,以實作相同的功能。從概念上講,任何實作相同功能的組件的排列實際上是「相關聯的」,以便實作所需的功能。因此,不論結構或中間部件,為實作特定的功能而組合的任何兩個元件被視為「相互關聯」,以實作所需的功能。同樣,任何兩個相關聯的元件被看作是相互「可操作連接」或「可操作耦接」,以實作特定功能。能相互關聯的任何兩個組件也被視為相互「可操作地耦合」以實作特定功能。可操作連接的具體例子包括但不限於物理可配對和/或物理上相互作用的元件,和/或無線可交互和/或無線上相互作用的元件,和/或邏輯上相互作用和/或邏輯上可交互的元件。
此外,關於基本上任何複數和/或單數術語的使用,本領域通常知識者可以依據上下文和/或應用從複數轉換為單數和/或從單數到複數。為清楚起見,本文明確規定了不同的單數/複數排列。
此外,本領域通常知識者可以理解,通常,本發明所使用的術語特別是請求項中的,如請求項的主題,通常用作「開放」術語,例如,「包括」應解釋為「包括但不限於,「有」應理解為「至少有」,「包括」應解釋為「包括但不限於」等。本領域通常知識者可以進一步理解,若計畫介紹特定數量的請求項的內容,將在請求項內明確表示,並且,在沒有這類內容時將不顯示。例如,為幫助理解,請求項可能包含短語「至少一個」和「一個或複數個」,以介紹請求項的內容。然而,這些短語的使用不應理解為暗示使用不定冠詞「a」或「an」介紹請求項的內容,而限制了任何特定的專利範圍。甚至當相同的請求項包括介紹性短語「一個或複數個」或「至少有一個」,不定冠詞,例如「a」或「an」,則應被解釋為表示至少一個或者更多,對於用於介紹權利要求的明確描述的使用而言,同樣成立。此外,即使明確引用特定數量的介紹性內容,本領域通常知識者可以認識到,這樣的內容應被解釋為表示所引用的數量,例如,沒有其他修改的「兩個引用」,意味著至少兩個引用,或兩個或兩個以上的引用。此外,在使用類似於「A、B和C中的至少一個」的表述的情況下,通常如此表述是為了本領域通常知識者可以理解表述,例如,「系統包括A、B和C中的至少一個」將包括但不限於單獨具有A的系統,單獨具有B的系統,單獨具有C的系統,具有A和B的系統,具有A和C的系統,具有B和C的系統,和/或具有A、B和C的系統,等。本領域通常知識者進一步可理解,無論在說明書中、請求項中或者圖式中,由兩個或兩個以上的替代術語所表現的任何分隔的單詞和/或短語應理解為,包括這些術語中的一個,其中一個,或者這兩個術語的可能性。例如,「A或B」應理解為,「A」,或者「B」,或者「A和B」的可能性。
從前述可知,為了說明目的,此處已描述了各種實施方案,並且在不偏離本發明的範圍和精神的情況下,可以進行各種變形。因此,此處所公開的各種實施方式不用於限制,權利要求表示真實的範圍和精神。
100:當前圖像 101:參考圖像 105:當前CU 110:初始MV 111:已優化的MV 120:當前範本 121:參考範本 300:GPM候選清單 400:CU 500:當前區塊 505:相似性閾值 510:當前圖像 511,512:參考圖像 520:候選清單 521:已削減候選清單 530,531:預測子 540:範本 600:視訊解碼器 605:視訊源 608:減法器 609:預測殘差 610:變換模組 611:量化模組 612:已量化係數 613:已預測像素資料 614:逆量化模組 615:逆變換模組 617:已重構像素資料 619:已重構殘差 620:圖像畫面內估計模組 625:畫面內預測模組 630:運動補償模組 635:運動估計模組 640:畫面間預測模組 645:環路濾波器 650:已重構圖像暫存器 665:運動向量暫存器 675:運動向量預測模組 690:熵編碼器 695:位元流 710:「候選獲取」塊 712:預測模式 715:初始候選清單 720:削減 722:相似性閾值 725:已削減候選清單 730:「候選選擇」塊 732:候選選擇 735:已選擇預測向量 740:「優化」塊 745:優化的預測向量 750:「預測檢索」塊 752:預測樣本 800:過程 810,820,830,840,850,860,870,880:塊 900:視訊解碼器 910:逆變換模組 911:逆量化模組 912:已量化係數 913:已預測像素資料 916:變換係數 917:已解碼像素資料 919:已重構殘差 925:畫面內預測模組 930:運動補償模組 940:畫面間預測模組 945:環路濾波器 950:已解碼圖像暫存器 955:顯示設備 965:運動向量暫存器 975:運動向量預測模組 990:熵解碼器 995:位元流 1010:「候選獲取」塊 1012:預測模式 1015:初始候選清單 1020:「削減」塊 1022:相似性閾值 1025:已削減候選清單 1030:「候選選擇」塊 1032:候選選擇 1035:已選擇預測向量 1040:「優化」塊 1042:內容 1045:已優化預測向量 1050:「預測檢索」塊 1052:預測樣本 1100:過程 1110,1120,1130,1140,1150,1160,1170,1180:塊 1200:電子系統 1205:匯流排 1210:處理單元 1215:GPU 1220:系統記憶體 1225:網路 1230:ROM 1235:永久存儲設備 1240:輸入設備 1245:輸出設備
圖式被包含,以為了提供對本發明的進一步理解,並被納入到本發明中並構成本發明的一部分。圖式說明了本發明的實施方式,並與說明書一起用於解釋本發明的原理。值得注意的是,圖式不一定是按比例繪製的,因為為了清楚地說明本發明的概念,一些元件可能會顯示出與實際實施方式中的尺寸不成比例。 第1圖概念地示出了基於初始運動向量(MV)周圍的搜索區域執行範本匹配。 第2圖示出了透過幾何分割模式(geometric partitioning mode,GPM)對CU進行分割。 第3圖示出了GPM分割的示例單預測(uni-prediction)候選清單以及GPM的單預測MV的選擇。 第4圖示出了用於CU的示例GPM分割邊緣混合。 第5A-C圖概念地示出了基於已選擇候選是否將被優化而使用相似性閾值削減候選清單,以用於後續優化。 第6圖示出了一個示例視訊編碼器,其可以基於相似性閾值削減預測候選清單。 第7圖示出了視訊編碼器的部分,其實施候選清單削減和預測向量優化。 第8圖概念地示出了在編碼像素區塊時基於相似性閾值削減候選預測向量清單的過程。 第9圖示出了一個示例視訊解碼器,其可以基於相似性閾值削減預測候選清單。 第10圖示出了視訊解碼器的部分,其實施候選清單削減和預測向量優化。 第11圖概念地示出了在編碼像素區塊時基於相似性閾值削減候選預測向量清單的過程。 第12圖概念地示出了用於實施本發明的一些實施方式的電子系統。
800:過程
810,820,830,840,850,860,870,880:塊

Claims (12)

  1. 一種視訊編解碼方法,包括: 接收用於待編碼或解碼為視訊的當前圖像的當前區塊的像素區塊的資料; 生成該當前區塊的候選預測向量清單; 透過從該清單中移除位於第二預測向量的閾值內的第一預測向量,削減該候選預測向量清單,其中,當優化被啟用時,該閾值具有第一值,當優化未被啟用時,該閾值具有第二值; 從該已削減的候選預測向量清單中選擇候選預測向量; 當優化被啟用時: 優化該已選擇預測向量; 透過使用該已優化預測向量,對該當前區塊進行編碼或解碼,以重構該當前區塊; 當優化未被啟用時: 透過使用該已選擇預測向量,對該當前區塊進行編碼或解碼,以重構該當前區塊。
  2. 如請求項1所述之方法,其中,該已選擇預測向量為參考參考圖像中參考樣本的運動向量。
  3. 如請求項1所述之方法,其中,該已選擇預測向量為參考該當前圖像中參考樣本的塊向量。
  4. 如請求項1所述之方法,其中,該已選擇預測向量被優化,以最小化與該當前區塊相鄰的範本像素和該已優化預測向量所參考的相應像素之間的成本。
  5. 如請求項1所述之方法,其中,該已選擇預測向量用於依據預測模式構建該當前區塊的預測子。
  6. 如請求項5所述之方法,其中,該預測模式為合併模式、組合畫面內-畫面間預測模式(CIIP)、幾何預測模式(GPM)和畫面內區塊複製(IBC)中的一種。
  7. 如請求項6所述之方法,其中,不論用於編解碼該當前區塊的該預測模式為何,該第一閾值是相同的。
  8. 如請求項6所述之方法,其中,該第一閾值對於不同的預測模式具有不同的值。
  9. 如請求項1所述之方法,其中,優化被啟用時的該閾值的該第一值大於優化被禁用時該閾值的該第二值。
  10. 一種電子裝置,包括: 一種視訊編解碼器電路,配置為執行複數個操作,包括: 接收用於待編碼或解碼為視訊的當前圖像的當前區塊的像素區塊的資料; 生成該當前區塊的候選預測向量清單; 透過從該清單中移除位於第二預測向量的閾值內的第一預測向量,削減該候選預測向量清單,其中,當優化被啟用時,該閾值具有第一值,當優化未被啟用時,該閾值具有第二值; 從該已削減候選預測向量清單中選擇候選預測向量; 當優化被啟用時: 優化該已選擇預測向量; 透過使用該已優化預測向量,對該當前區塊進行編碼或解碼,以重構該當前區塊; 當優化未被啟用時: 透過使用該已選擇預測向量,對該當前區塊進行編碼或解碼,以重構該當前區塊。
  11. 一種視訊解碼方法,包括: 接收用於待解碼為視訊的當前圖像的當前區塊的像素區塊的資料; 生成該當前區塊的候選預測向量清單; 透過從該清單中移除位於第二預測向量的閾值內的第一預測向量,削減該候選預測向量清單,其中,當優化被啟用時,該閾值具有第一值,當優化未被啟用時,該閾值具有第二值; 從該已削減候選預測向量清單中選擇候選預測向量; 當優化被啟用時: 優化該已選擇預測向量; 透過使用該已優化預測向量,對該當前區塊進行重構,以生成預測區塊; 當優化未被啟用時: 透過使用該已選擇預測向量,對該當前區塊進行重構,以生成預測區塊。
  12. 一種視訊編碼方法,包括: 接收用於待編碼為視訊的當前圖像的當前區塊的像素區塊的資料; 生成該當前區塊的候選預測向量清單; 透過從該清單中移除位於第二預測向量的閾值內的第一預測向量,削減該候選預測向量清單,其中,當優化被啟用時,該閾值具有第一值,當優化未被啟用時,該閾值具有第二值; 從該已削減候選預測向量清單中選擇候選預測向量; 當優化被啟用時: 優化已選擇預測向量; 透過使用已優化預測向量,對該當前區塊進行編碼,以生成預測區塊; 當優化未被啟用時: 透過使用該已選擇預測向量,對該當前區塊進行編碼,以生成預測區塊。
TW112117168A 2022-05-09 2023-05-09 用於候選清單的相似性閾值 TW202402054A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202263339534P 2022-05-09 2022-05-09
US63/339,534 2022-05-09
WOPCT/CN2023/092993 2023-05-09
PCT/CN2023/092993 WO2023217140A1 (en) 2022-05-09 2023-05-09 Threshold of similarity for candidate list

Publications (1)

Publication Number Publication Date
TW202402054A true TW202402054A (zh) 2024-01-01

Family

ID=88729691

Family Applications (1)

Application Number Title Priority Date Filing Date
TW112117168A TW202402054A (zh) 2022-05-09 2023-05-09 用於候選清單的相似性閾值

Country Status (2)

Country Link
TW (1) TW202402054A (zh)
WO (1) WO2023217140A1 (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110140355B (zh) * 2016-12-27 2022-03-08 联发科技股份有限公司 用于视频编解码的双向模板运动向量微调的方法及装置
US10863193B2 (en) * 2018-06-29 2020-12-08 Qualcomm Incorporated Buffer restriction during motion vector prediction for video coding
CN116033150A (zh) * 2018-09-08 2023-04-28 北京字节跳动网络技术有限公司 不同视频块尺寸的仿射模式计算
EP3861741A1 (en) * 2018-10-02 2021-08-11 InterDigital VC Holdings, Inc. Method and apparatus for video encoding and decoding using list of predictor candidates
US20200112715A1 (en) * 2018-10-05 2020-04-09 Qualcomm Incorporated History-based motion vector prediction for inter prediction coding

Also Published As

Publication number Publication date
WO2023217140A1 (en) 2023-11-16

Similar Documents

Publication Publication Date Title
US11115653B2 (en) Intra block copy merge list simplification
US11297348B2 (en) Implicit transform settings for coding a block of pixels
US11245922B2 (en) Shared candidate list
TW201946470A (zh) 用於照度補償的信令
US11240524B2 (en) Selective switch for parallel processing
CN113141783A (zh) 用于多重假设的帧内预测
US11936890B2 (en) Video coding using intra sub-partition coding mode
TW202402054A (zh) 用於候選清單的相似性閾值
WO2024017224A1 (en) Affine candidate refinement
WO2023198105A1 (en) Region-based implicit intra mode derivation and prediction
WO2024016955A1 (en) Out-of-boundary check in video coding
WO2023198187A1 (en) Template-based intra mode derivation and prediction
WO2024027700A1 (en) Joint indexing of geometric partitioning mode in video coding
WO2023217235A1 (en) Prediction refinement with convolution model
WO2023174426A1 (en) Geometric partitioning mode and merge candidate reordering
WO2023193769A1 (en) Implicit multi-pass decoder-side motion vector refinement
WO2023186040A1 (en) Bilateral template with multipass decoder side motion vector refinement
WO2023208063A1 (en) Linear model derivation for cross-component prediction by multiple reference lines
WO2023143173A1 (en) Multi-pass decoder-side motion vector refinement
WO2023241347A1 (en) Adaptive regions for decoder-side intra mode derivation and prediction
WO2023202569A1 (en) Extended template matching for video coding
WO2024037645A1 (en) Boundary sample derivation in video coding
WO2023197998A1 (en) Extended block partition types for video coding
TW202412526A (zh) 視訊編解碼中的出界檢查
TW202408232A (zh) 更新合併候選的運動屬性