TWI768475B

TWI768475B - 視訊資料預測方法和裝置

Info

Publication number: TWI768475B
Application number: TW109132698A
Authority: TW
Inventors: 莊子德; 陳慶曄; 林芷儀
Original assignee: 寰發股份有限公司
Priority date: 2019-09-22
Filing date: 2020-09-22
Publication date: 2022-06-21
Also published as: EP4029244A4; WO2021052510A1; TW202123702A; EP4029244A1; CN114503557A; US20220353508A1; US11973958B2

Abstract

使用基於子塊的仿射模式的視訊編解碼的方法和裝置被公開。根據該方法，對於塊，與仿射模式相關聯的控制點運動向量(motion vector，簡稱MV)被確定。該塊的目標子塊的子塊MV從該塊的控制點MV中被導出。根據具有光流的預測細化(Rrediction Refinement with Optical Flow，簡稱PROF)，使用包括相對於目標像素的子塊MV的像素MV偏移的資訊，目標子塊的目標像素的預測偏移被確定。目標子塊的目標像素使用修改的預測子來編碼或解碼。藉由將預測偏移裁剪到目標範圍並將裁剪後的預測偏移與原始預測子組合，修改後的預測子被生成。

Description

視訊資料預測方法和裝置

本發明涉及使用光流預測細化(Prediction Refinement with Optical Flow，簡稱PROF)的視訊編解碼。具體的是，本發明涉及用於使用PROF的視訊編解碼系統的資料裁剪，以避免由於PROF操作而需要擴展位元深度。

在過去的二十年中各種視訊編解碼標準已經被開發。在更新的編解碼標準中，更強大的編解碼工具被用來提高編解碼效率。高效視訊編解碼(High Efficiency Video Coding，簡稱HEVC)是近年來開發的新編解碼標準。在HEVC系統中，H.264/AVC的固定大小巨集塊被替換為被稱為編解碼單元(coding unit，簡稱CU)的靈活塊。CU中的位元共用相同的編解碼參數以提高編解碼效率。CU可以最大的CU(largest CU，簡稱LCU)開始，LCU在HEVC中也被稱為編解碼樹單元(coded tree unit，簡稱TU)。除了編解碼單元的概念外，預測單元(prediction unit，簡稱PU)的概念在HEVC中被引入。一旦CU分層樹的劃分完成，根據預測類型和PU劃分，每個葉CU進一步被劃分為一個或多個預測單元(prediction unit，簡稱PU)。

在大多數編解碼標準中，基於塊適應性幀間/幀內預測被使用。在幀間預測模式下，每個塊的一個或兩個運動向量被確定，以選擇一個參考塊(即，單向預測)或兩個參考塊(即，雙向預測)。每個單獨的塊的該一個或多個運動向量被確定或被編解碼。在HEVC中，幀間補償以兩種不同的方式被支援：顯式發送或隱式發送。在顯式發送中，塊(即，PU)的運動向量使用預測編解碼方法來發送。運動向量預測子對應於與當前塊的空間和時間相鄰塊相關聯的運動向量。在MV預測子被確定之後，運動向量差(motion vector difference，簡稱MVD)被編碼和發送。該模式也被稱為高級運動向量預測(advanced motion vector prediction，簡稱AMVP)模式。在隱式發送中，來自候選預測子集合的一個預測子被選擇作為當前塊(即，PU)的運動向量。由於編碼器和解碼器都將以相同的方式導出候選集合並選擇最終運動向量，因此無需在隱式模式下發送MV或MVD。此模式也被稱為合併模式。在合併模式下形成的預測子集合也被稱為合併候選列表構造。被稱為合併索引的索引被發送以指示被選擇為當前塊MV的預測子。

沿著時間軸在圖像上發生的運動可由許多不同的模型來描述。假設A(x，y)是所考慮位置(x，y)的原始像素，A'(x'，y')是當前像素A(x，y)的參考圖像中位置(x'，y')的相應像素，仿射運動模型可被描述如下。

仿射模型可描述二維塊旋轉以及二維變形以將正方形(或矩形)變換為平行四邊形。此模型可被描述如下：x’=a ₀+a ₁*x+a ₂*y，以及y’=b ₀+b ₁*x+b ₂*y。 (1)

ITU-T13-SG16-C1016提交給ITU-VCEG的文獻(Lin,et al.,“Affine transform prediction for next generation video coding”,ITU-U,Study Group 16,Question Q6/16,Contribution C1016,September 2015,Geneva,CH)公開了一種四-參數仿射預測，其中包括仿射合併模式。當仿射運動塊運動時，藉由兩個控制點運動向量或四個參數，該塊的運動向量場被描述，如下所示，其中(vx，vy)表示運動向量。

第1A圖中示出了四-參數仿射模型的示例，其中根據具有兩個控制點運動向量(即v0和v1)的仿射模型，當前塊110的對應參考塊120被確定。變換後的塊是矩形塊。此運動塊中每個點的運動向量場可用以下公式描述：

在以上公式中，(v0x，v0y)是該塊左上角的控制點運動向量(即v0)，(v1x，v1y)是在該塊的右上角的另一控制點運動向量(即v1)。當兩個控制點的MV被解碼時，根據上式該塊的每個4×4塊的MV被確定。換句話說，塊的仿射運動模型可由兩個控制點上的兩個運動向量來指定。此外，當塊的左上角和右上角被用作兩個控制點時，其他兩個控制點也可被使用。根據公式(3)，如第1B圖所示，基於兩個控制點的MV，當前塊的運動向量的示例可被確定用於每個4×4子塊。4x4子塊的中心樣本的MV(即(m+2，n+2)位置，其中(m，n)是4x4子塊的左上樣本位置)表示4x4子塊的MV。每個4x4子塊的MV精度為1/16亮度樣本。使用4×4塊作為一個子塊而不使用其他較小尺寸的原因是為了在運動補償的計算複雜度和編解碼效率之間取得良好的平衡。

六-參數仿射模型使用3個控制點(

,

以及

)，如第1A圖所示。六-參數仿射運動模型可將矩形轉換為平行四邊形。當三個控制點的MV(v ₀,v ₁以及v ₂)被解碼時，每個4x4塊的MV可以根據以下公式得出：

為了提高編解碼效率，幾種方法在JVET-N0236，JVET-N0261和JVET-N0262中被提出。在JVET-N0236(J.Luo,et al.,“CE2-related：Prediction refinement with optical flow for affine mode”,Joint Video Experts Team(JVET)of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11,14th Meeting：Geneva,CH,19-27 Mar.2019,Document：JVET-N0236)，此文獻提出了一種利用光流來改進基於子塊的仿射運動補償預測的方法，以實現細化的運動補償粒度。在基於子塊的仿射運動補償被執行之後，藉由添加由光流方程導出的差值，每個亮度預測樣本被細化。提出的PROF被描述為以下四個步驟。步驟1)：基於子塊的仿射運動補償被執行以生成子塊預測I(i，j)。步驟2)：子塊預測的空間梯度g_x(i，j)和g_y(i，j)在每個樣本位置使用3抽頭濾波器[-1，0，1]來計算。

g_x(i,j)=I(i+1,j)-I(i-1,j)g_y(i,j)=I(i,j+1)-I(i,j-1)， (5)為了進行梯度計算，子塊預測在每一側上被擴展一個像素。為了減少記憶體頻寬和複雜性，擴展的邊界上的像素從參考圖像中最近的整數像素位置複製。因此，填充區域的額外插值被避免。步驟3)：藉由光流公式，亮度預測精度被計算。

△I(i,j)=g_x(i,j)*△v_x(i,j)+g_y(i,j)*△v_y(i,j). (6)

其中△v(i，j)(在本公開中也被稱為像素運動向量偏移)是計算像素MV(用於樣本位置(i，j)且由v(i，j)表示)與子塊(像素(i，j)所屬的)的子塊MV之間的差值，如第2圖所示。在第2圖中，子塊222對應於運動向量v_SB(212)所指向的子塊220的參考子塊。參考子塊222表示由塊220的平移運動產生的參考子塊。參考子塊224對應於具有PROF的參考子塊。每個像素的運動向量藉由△v(i，j)進行細化。例如，基於由△v(i，j)216修改的子塊MV v_SB(212)，子塊220的左上像素的細化(refined)的運動向量v(i，j)214被導出。

由於仿射模型參數和相對於子塊中心的像素位置在子塊之間沒有變化，第一子塊的△v(i，j)可被計算，並被重新用於同一CU中的其他子塊。令x和y為從像素位置到子塊中心的水平和垂直偏移，△v(i，j)可藉由以下公式導出：

對於4參數仿射模型，

對於6參數仿射模型，

其中(v _0x,v _0y),(v _1x,v _1y),(v _2x,v _2y)是左上，右上和左下控制點運動向量(即第1A圖中的v ₂)，w和h是CU的寬度和高度。

步驟4)：最終，亮度預測細化被添加到子塊預測I(i，j)。最終預測I’由以下公式生成。

I'(i,j)=I(i,j)+△I(i,j) (10)

對於VTM-6.0中的PROF操作，梯度被限制為11位元，並且△MV(即△v)在-64至64的範圍內，即7位元。細化偏移量(即△I)為17位元。預測子I為16位元。因此，細化的預測子I'將為17位元，當這些細化的預測子藉由雙向預測平均值或加權平均值進行處理時，由於16位元單指令多資料(single instruction multiple data，簡稱SIMD)指令無法應用於17位元資料，因此細化的預測子I'為17位元對SIMD實現而言並不友好。對於17位元資料，32位元SIMD指令被應用，與16位元SIMD指令相比，該指令僅具有一半的處理輸送量。

由視訊編碼器或視訊解碼器執行的視訊編解碼的方法和裝置被公開，該視訊編碼器或視訊解碼器利用包括仿射模式的編解碼工具集合。根據該方法，在視訊編碼器側與當前塊有關的輸入資料被接收，或者在視訊解碼器側與包括當前塊的壓縮資料相對應的視訊位元流被接收，其中仿射模式被允許用於當前塊。與仿射模式相關聯的兩個或多個控制點運動向量被確定用於當前塊。從當前塊的所述兩個或多個控制點運動向量中，當前塊的目標子塊的子塊運動向量被導出。根據具有光流的預測細化(Prediction Refinement with Optial Flow，簡稱PROF)，目標子塊的目標像素的預測偏移使用第一資訊來確定，該第一資訊包括來自於目標像素的子塊運動向量的像素運動向量偏移。目標子塊的目標像素使用修改後的預測子進行編碼或解碼，其中藉由將預測偏移裁剪到第一目標範圍並將裁剪後的預測偏移與原始預測子組合，生成修改後的預測子，或者藉由將細化的預測子裁剪到第二目標範圍，生成修改後的預測子，並且其中細化的預測子是藉由組合原始預測子和預測偏移來導出的。

在一實施例中，預測偏移被裁剪為K位元，其中K為正整數。例如，第一目標範圍可能對應於[-2^(K-1)，2^(K-1)-1]。在一實施例中，K被設置為max(14，位元深度+2)，並且位元深度對應於當前塊的樣本位元深度。當當前塊的樣本位元深度等於10位元時，K被設置為14。當當前塊的樣本位元深度等於10位元時，第一目標範圍等於[-8192，8191]。在另一實施例中，第一目標範圍對應於[-dILimit，dILimit-1]，其中，dILimit被設置為1<<max(13，位元深度+1)，並且位元深度對應於當前塊的樣本位元深度。在另一示例中，第二個目標範圍對應於[-2^(K-1)，2^(K-1)-1]，並且K被設置為max(16，位元深度+4)，並且位元深度對應於當前塊的位元深度。

基於與距目標子塊的中心的像素位置偏移有關的第二資訊以及所述兩個或多個控制點運動向量，像素運動向量偏移可被導出。例如，基於x方向上的像素運動向量偏移和y方向上的像素運動向量偏移的線性組合，預測偏移可被導出。

110:當前塊

120:參考塊

210:當前塊

212:子塊MV v_SB

214:運動向量v(i，j)

216:△v(i，j)

220:子塊

222:參考子塊

224:參考子塊

310、320、330、340、350:步驟

第1A圖示出四-參數仿射模型的示例，其中變換後的塊仍然是矩形塊。

第1B圖示出基於兩個控制點的MV相對於每個4x4子塊確定的當前塊的運動向量示例。

第2圖示出基於子塊的仿射運動補償的示例，其中根據運動向量的細化，子塊的各個像素的運動向量被確定。

第3圖示出根據本發明實施例的利用包括仿射模式的編解碼工具集合的視訊編解碼系統的示例性流程圖，其中資料裁剪被用於具有PROF處理的預測細化中來避免擴展位元深度的需求。

以下描述是實施本發明的最佳構想模式。作出該描述是出於說明本發明的一般原理的目的，而不應被認為是限制性的。本發明的範圍最好藉由參考所附的申請專利範圍來確定。

為了達到單指令多資料(Single Instruction Multiple Data，簡稱SIMD)實現的友好設計，本發明提出在細化之後將預測偏移或預測子裁剪，或者甚至將插值結果裁剪到一定範圍內以防止細化的預測子的位元深度超過16位元。

在第一種提出的方法中，取決於輸入、輸出或目標位元深度，預測偏移(△I)被裁剪到特定預定義範圍或導出的範圍。例如，預測偏移被限制為14、15或16位元，其中範圍可以分別為[-8192，8191]，[-16384，16383]或[-32768，32767]，或者可以為[0，16383]或[0，32767]或[0，65535]。在另一示例中，預測偏移被限制在[-2^ (K-1)，2^ (K-1)-1]或[0，2^K-1]的範圍內，其中K(正整數)可以是max(14，位元深度+4)，(位元深度+6-max(2，14-位元深度))，min(16，位元深度+4)，min(15，位元深度+4)，(位元深度+4)，max(14，位元深度+5)，(位元深度+7-max(2，14-位元深度))，min(16，位-depth+5)，min(15，位元深度+5)，(位元深度+5)，(位元深度+max(2，14-位元深度)+1)，(位元深度+max(2，14-位元深度))，(位元深度+max(2，14-位元深度)-1)，(位元深度+max(2，14-位元深度)+2)，min(16，位元深度+max(2，14-位元深度))，min(15，位元深度+max(2，14-位元深度))，min(14，位元深度+max(2，14-位元深度))，max(16，位元深度+max(2，14-位元深度))，max(15，位元深度+max(2，14-位元深度))，max(14，位元深度+max(2，14-位元深度))，max(13，位元深度+2)，max(13，位元深度+1)，max(14，位元深度+3)，max(14，位元深度+2)，max(15，位元深度+1)，max(15，位元深度+2)，max(15，位元深度+3)，max(15，位元深度+4)，max(16，位元深度+4)，max(16，位元深度+5)，max(N，位元深度+M)，其中N是一個正整數，M是一個整數，(位元深度+max(O，P-位元深度)+Q)，其中O是一個正整數，P和Q是整數，(位元深度+max(R，S+位元深度)+T) 其中R是一個正整數，S和T是整數，max(16，樣本位元深度+max(2，14-樣本位元深度)+1)，max(16，樣本位元深度+max(2，14-樣本位元深度))，max(16，樣本位元深度+max(2，14-樣本位元深度)+2)，max(16，樣本位元深度+max(2，14-樣本位元深度)+3)，max(16，樣本位元深度+max(2，14-樣本位元深度)-1)或max(16，樣本位元深度+3)。2 ^ K的標記法表示2的K次冪，也可以表示為1<<K或2^K。

如上所述，根據本發明示出了裁剪預測偏移的各種示例。不同的語法可被用來表示所提到的變數。例如，在新興的通用視訊編解碼(Versatile Video Coding)標準JVET-O2001(B.Bross,et al.,“Versatile Video Coding(Draft 10)”,Joint Video Experts Team(JVET)of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11,15th Meeting：Gothenburg,SE,3-12 July 2019,Document：JVET-O2001)中，預測偏移(△I)可以表示為dI。在JVET-O2001中，dI的範圍從-dILimit到dILimit，在上述示例中，dIlimit等於2^ (K-1)的值。在此示例中，變數dI可推導如下：dI=Clip3(-dILimit,dILimit-1,gradientH[x][y] * diffMv[x][y][0]+gradientV[x][y] * diffMv[x][y][1])

或者dI=Clip3(-dILimit,dILimit-1,(gradientH[x][y] * diffMv[x][y][0]+gradientV[x][y] * diffMv[x][y][1]+1)>>1)

在以上公式中，Clip3(x，y，z)是用於將變數z裁剪到下邊界x和上邊界y之間的範圍的裁剪函數。如果z小於x，則Clip3(x，y，z)=x。如果z大於y，則Clip3(x，y，z)=y。否則，Clip3(x，y，z)=z。最終預測I'(即sbSamplesLX_L[x][y])是藉由將預測偏移(即dI)添加到原始預測子(即predSamplesLX_L[x+1] [y+1])中生成的，如下所示公式：sbSamplesLX_L[x][y]=predSamplesLX_L[x+1][y+1]+dI。

在另一示例中，根據本發明的如上所示的對預測偏移的裁剪可被轉換為以下形式：dI=gradientH[x][y] * diffMv[x][y][0]+gradientV[x][y] * diffMv[x][y][1]dILimit=(1<<max(13,BitDepth_Y+1))pbSamples[x][y]=predSamples[x+1][y+1]+Clip3(-dILimit,dILimit-1,(dI+1)>>1)

上面的公式對應於K等於max(14，位元深度+2)且範圍對應於[-2 ^ (K-1)，2 ^ (K-1)-1]的情況(請注意，2 ^ (K-1)與1<<(K-1)相同)。

在另一示例中，變數dI可推導如下：dI=gradientH[x][y] * diffMvLX[x][y][0]+gradientV[x][y] * diffMvLX[x][y][1]

子塊中位置(x，y)的預測樣本值導出如下：dILimit=(1<<max(13,BitDepth+1))sbSamplesLX_L[x][y]=predSamplesLX_L[x+1][y+1]+Clip3(-dILimit,dILimit-1,dI)

再次，在上述公式中，K等於max(14，位元深度+2)，範圍對應於[-2 ^ (K-1)，2 ^ (K-1)-1](請注意，2 ^ (K-1)與1<<(K-1))相同。

在另一示例中，新興VVC規範JVET-O2001中的dI可按如下修改，其中dIlimit為2 ^ K-1的值或建議的裁剪範圍。變數dI可推導如下：dI=Clip3(0,dILimit,gradientH[x][y] * diffMv[x][y][0]+gradientV[x][y] * diffMv[x][y][1])sbSamplesLXL[x][y]=predSamplesLXL[x+1][y+1]+dI.

在另一示例中，新興VVC規範JVET-O2001中的dI可按如下修改，其中dIlimit是2 ^ K-1的值或建議的裁剪範圍。變數dI可推導如下：dI=gradientH[x][y] * diffMv[x][y][0]+gradientV[x][y] * diffMv[x][y][1]pbSamples[x][y]=predSamples[x+1][y+1]+Clip3(0,dILimit,((dI+1)>>1))

或者pbSamples[x][y]=predSamples[x+1][y+1]+Clip3(0,dILimit,dI)

注意，本發明中的預測偏移可以是dI或((dI+1)>>1)。

在第二種提出的方法中，根據輸入、輸出或目標位元深度，細化的預測子(例如，添加預測偏移I'之後的預測子)被裁剪到特定預定範圍或導出範圍。例如，細化的預測子可被裁剪為14、15或16位元，其中範圍可以分別為[-8192，8191]，[-16384，16383]或[-32768，32767]，或者可以為[0，16383]，[0，32767]或[0，65535]。在另一示例中，細化的預測子裁剪為[-2 ^ (K-1)，2 ^ (K-1)-1]或[0，2 ^ K-1]，其中K(正整數)可以是max(15，位元深度+5)，(位元深度+5)，max(16，位元深度+6)，(位元深度+6)，(位元深度+8-max(2，14-位元深度))，max(16，位元深度+4)，max(16，位元深度+5)，(位元深度+max(2，14-位元深度)+1)，(位元深度+max(2，14-位元深度))，(位元深度+max(2，14-位元深度)+2)，min(16，位元深度+max(2，14-位元深度))，min(15，位元深度+max(2，14-位元深度))，min(14，位元深度+max(2，14-位元深度))，max(16，位元深度+max(2，14-位元深度))，max(15，位元深度+max(2，14-位元深度))，max(14，位元深度+max(2，14-位元深度))，max(13，位元深度+2)，max(13，位元深度+1)，max(14，位元深度+3)，max(14，位元深度+2)，max(15，位元深度+1)，max(15，位元深度+2)， max(15，位元深度+3)，max(15，位元深度+4)，max(16，位元深度+4)，max(16，位元深度+5)，max(N，位元深度+M)，其中N是正整數，M是整數(位元深度+max(O，P-位元深度)+Q)，其中O是正整數，P和Q是整數，(位元深度+max(R，S+位元深度)+T)，其中R是正整數，S和T是整數，max(16，樣本位元深度+max(2，14-樣本位元深度)+1)，max(16，樣本位元深度+max(2，14-樣本位元深度))，max(16，樣本位元深度+max(2，14-樣本位元深度)+2)，max(16，樣本位元深度+max(2，14-樣本位元深度)+3)，max(16，樣本位元深度+max(2，14-樣本位元深度)-1)或max(16，樣本位元深度+3)。

例如，新興的VVC規範JVET-O2001中的pbSamples可按如下修改，其中dSampleLimit是2 ^ (K-1)的值或建議的裁剪範圍。子塊中位置(x，y)的預測樣本值pbSamples[x][y]可推導如下：pbSamples[x][y]=Clip3(-dSampleLimit,dSampleLimit-1,predSamples[x+1][y+1]+(dI+1)>>1))

或者pbSamples[x][y]=Clip3(-dSampleLimit,dSampleLimit-1,predSamples[x+1][y+1]+dI)

或者pbSamples[x][y]=Clip3(-dSampleLimit,dSampleLimit-1,predSamples[x+1][y+1]+predictionOffset)

在另一示例中，新興的VVC規範JVET-O2001中的pbSamples可按如下修改，其中dSampleLimit是2 ^ K-1的值或建議的裁剪範圍。子塊中位置(x，y)的預測樣本值可推導如下： pbSamples[x][y]=Clip3(0,dSampleLimit,predSamples[x+1][y+1]+((dI+1)>>1))或者pbSamples[x][y]=Clip3(0,dSampleLimit,predSamples[x+1][y+1]+predictionOffset)

在第三種提出的方法中，根據輸入、輸出或目標位元深度，插值結果在被四捨五入到輸出位元深度(例如，預測子I)之前會被裁剪到特定預定範圍或導出範圍。例如，插值結果可被裁剪為14、15或16位元，其中範圍可以分別為[-8192，8191]，[-16384，16383]或[-32768，32767]，或者可以為[0，16383]，[0，32767]或[0，65535]。在另一示例中，插值結果被限制在[-2 ^ (K-1)，2 ^ (K-1)-1]或[0，2 ^ K-1]的範圍內，其中K(正整數)可以是max(15，位元深度+5)，(位元深度+5)或max(16，位元深度+6)或位元深度+6或位元深度+8-max(2，14-位元深度)或max(16，位元深度+4)，max(16，位元深度+5)，(位元深度+7-max(2，14-位元深度))，(位元深度+6-max(2，14-位元深度))，(位元深度+max(2，14-位元深度))，(位元深度+max(2，14-位元深度)+1)，(位元深度+max(2，14-位元深度)+2)，(位元深度+max(2，14-位元深度)-1)，min(16，位元深度+max(2，14-位元深度))，min(15，位元深度+max(2，14-位元深度))，min(14，位元深度+max(2，14-位元深度))，max(16，位元深度+max(2，14-位元深度))，max(15，位元深度+max(2，14-位元深度))，max(14，位元深度+max(2，14-位元深度))，max(13，位元深度+2)，max(13，位元深度+1)，max(14，位元深度+3)，max(14，位元深度+2)，max(15，位元深度+1)，max(15，位元深度+2)，max(15，位元深度+3)，max(15，位元深度+4)，max(16，位元深度+4)，max(16，位元深度+5)，max(N，位元深度+M)，其中N是一個正整數，M是一個整數，(位元深度+max(O，P-位元深度)+Q)，其中O是一個正整數，P 和Q是整數，(位元深度+max(R，S+位元深度)+T)，其中R為正整數，S和T為整數，max(16，樣本位元深度+max(2，14-樣本位元深度)+1)，max(16，樣本位元深度+max(2，14-樣本位元深度))，max(16，樣本位元深度+max(2，14-樣本位元深度)+2)，max(16，樣本位元深度+max(2，14-樣本位元深度)+3)，max(16，樣本位元深度+max(2，14-樣本位元深度)-1)或max(16，樣本位元深度+3)。在使用“位元深度+max(2，14-位元深度)+1”的示例中，“位元深度+max(2，14-位元深度)+1”的值為15。在添加細化偏移之後，插值結果被裁剪到15位以內。然後插值結果被存儲在16位元緩衝器中，該緩衝器適用於16位元SIMD指令。此外，對於這15位元結果，對於簡單的雙向預測平均值(例如，將偏移添加到列表0和列表1結果的總和，然後右移1位元或右移到目標樣本位元深度)，它也適用於SIMD指令。

例如，新興的VVC規範JVET-O2001中的predSampleLX_L可進行如下修改，其中predSampleLimit是2^K-1的值或建議的裁剪範圍。預測亮度樣本值predSampleLX_L可推導如下：

- 如果xFrac_L和yFrac_L都等于0，则predSampleLX_L的值可推導如下：predSampleLX_L=refPicLX_L[xInt₃][yInt₃]<<shift3

- 否則，如果xFrac_L不等於0並且yFracL等於0，則predSampleLX_L的值可推導如下：

- 否則，如果xFrac_L等於0並且yFrac_L不等於0，則predSampleLX_L的值可推導如下：

- 否則，如果xFrac_L不等於0並且yFrac_L不等於0，則predSampleLX_L的值可推導如下：

．其中n=0..7的樣本陣列temp[n]可推導如下：

．預測的亮度樣本值predSampleLX_L可推導如下：

．預測的亮度樣本值predSampleLX_L進一步可推導如下：predSampleLX_L=Clip3(0,predSampleLimit,predSampleLX_L)

在另一實施例中，根據本發明的實施例，當加權預測或具有編解碼單元(coding unit，簡稱CU)級別權重的雙向預測(bi-prediction with coding unit level weights，簡稱BCW)被啟用時，PROF細化被禁用。以此方式，加權預測和BCW之前的預測子被確保在16位元之內。

新興的VVC規範JVET-O2001可根據本發明的一實施例進行如下修改。

變數cbProfFlagLX可推導如下：

- 如果以下一個或多個條件為真，cbProfFlagLX被設置為FALSE：

．sps_affine_prof_enabled_flag等於0。

．fallbackModeTriggered等於1。

．numCpMv等於2，cpMvLX[1][0]等於cpMvLX[0][0]以及cpMvLX[1][1]等於cpMvLX[0][1]。

．numCpMv等於3，cpMvLX[1][0]等於cpMvLX[0][0]，cpMvLX[1][1]等於cpMvLX[0][1],cpMvLX[2][0]等於cpMvLX[0][0]以及cpMvLX[2][1]等於cpMvLX[0][1]。

．weightedPredFlag等於1(加權預測被啟用的一個示例由luma_weight_lX_flag[refIdxLX]不等於0來指示)

．bcwIdx不等於0(BCW被啟用的一個示例由BcwIdx[xCb][yCb]不等於0來指示)

- 否則，cbProfFlagLX被設置為TRUE。

任一前述提出的方法可在編碼器和/或解碼器中實現。例如，任一所提出的方法可在編碼器和/或解碼器的幀間預測模組中實現。可替代地，任一提出的方法可被實現為耦合到編碼器和/或解碼器的幀間預測模組的電路。

視訊編碼器必須遵循前述語法設計以便生成合法的位元流，並且只有在解析過程符合前述語法設計的情況下，視訊解碼器才能夠正確地解碼位元流。當在位元流中語法被跳過時，編碼器和解碼器應將語法值設置為推斷值，以確保編碼和解碼結果匹配。

第3圖示出根據本發明實施例的利用包括仿射模式和基於子塊的仿射模式的編解碼工具集合的視訊編解碼系統的示例性流程圖，其中數據裁剪被應用於PROF處理，以避免擴展位元深度的需求。流程圖中所示的步驟可被實現為在編碼器側的一個或多個處理器(例如，一個或多個CPU)上可執行的程式碼。流程圖中所示的步驟也可基於硬體來實現，例如被佈置為執行流程圖中的步驟的一個或多個電子設備或處理器。根據該方法，在步驟310中，在視訊編碼器側與當前塊有關的輸入資料被接收，或者在視訊解碼器側與包括當前塊的壓縮資料相對應的視訊位元流被接收，其中，仿射模式被允許用於當前塊。在步驟320中，與當前塊的仿射模式相關聯的兩個或多個控制點運動向量被確定。在步驟330中，從當前塊的兩個或多個控制點運動向量中當前塊的目標子塊的子塊運動向量被導出。在步驟340中，根據PROF，使用來自於目標像素的子塊運動向量的像素運動向量偏移的資訊，目標子塊的目標像素的預測偏移被確定。在步驟350中，使用修改後的預測子，目標子塊的目標像素被編碼或解碼，其中，藉由將預測偏移裁剪到第一目標範圍並將裁剪後的預測偏移與原始預測子進行組合，修改後的預測子被生成，或者藉由將細化預測子裁剪到第二目標範圍，修改後的預測子被生成，以及藉由將原始預測子和預測偏移進行組合，細化預測子被導出。

所示的流程圖旨在說明根據本發明的視訊編解碼的示例。本領域之通常技術者可修改每個步驟，重新佈置步驟，拆分步驟或組合步驟以實踐本發明，而不背離本發明的精神。在本公開中，特定的語法和語義已被用來說明用於實現本發明的實施例的示例。本領域之通常技術者可藉由用等同的語法和語義替換語法和語義來實踐本發明，而不脫離本發明的精神。

上述描述被給出以使本领域之通常技术者能夠實踐在特定應用及其要求的上下文中提供的本發明。對所描述的實施例的各種修改對於本领域之通常技术者將是顯而易見的，並且本文中定義的一般原理可以應用於其他實施例。因此，本發明不旨在限於所示出和描述的特定實施例，而是與符合本文公開的原理和新穎性特徵的最寬範圍相一致。在以上詳細描述中，示出了各種具體細節以便提供對本發明的透徹理解。然而，本领域之通常技术者將理解，本發明可被實施。

如上所述的本發明的實施例可以以各種硬體，軟體代碼或兩者的組合來實現。例如，本發明的實施例可以是集成到視訊壓縮晶片中的一個或多個電路或集成到視訊壓縮軟體中以執行本文描述的處理的程式碼。本發明的實施例還可以是在數位訊號處理器(Digital Signal Processor，DSP)上執行以執行本文描述的處理的程式碼。本發明還可涉及由電腦處理器，數位訊號處理器，微處理器或現場可程式設計閘陣列(field programmable gate arragy，簡稱FPGA)執行的許多功能。該些處理器可被配置為藉由執行定義本發明所體現的特定方法的機器可讀軟體代碼或韌體代碼來執行根據本發明的特定任務。軟體代碼或韌體代碼可以不同的程式設計語言和不同的格式或樣式來開發。軟體代碼也可被編譯用於不同的目標平臺。然而，不同的代碼格式，軟體代碼的樣式和語言以及配置代碼以執行根據本發明的任務的其他手段將不脫離本發明的精神和範圍。

在不脫離本發明的精神或基本特徵的情況下，本發明可以以其他特定形式實施。所描述的示例在所有方面僅應被認為是說明性的而非限制性的。因此，本發明的範圍由所附申請專利範圍而不是前述描述來指示。落在申請專利範圍的等同含義和範圍內的所有改變均應包含在其範圍之內。

310、320、330、340、350:步驟

Claims

一種視訊資料預測方法，由一視訊編碼器或一視訊解碼器利用包括一仿射模式的一編解碼工具集合執行，該方法包括：在一視訊編碼器側接收與一當前塊相關的輸入資料，或在一視訊解碼器側接收與包括該當前塊的壓縮資料相對應的一視訊位元流，其中該仿射模式被允許用於該當前塊；確定與當前塊的該仿射模式相關聯的兩個或多個控制-點運動向量；從該當前塊的該兩個或多個控制-點運動向量導出該當前塊的一目標子塊的一子塊運動向量；根據具有光流的預測細化，使用包括一像素運動向量偏移的第一資訊，從一目標像素的該子塊運動向量導出該目標子塊的該目標像素的一預測偏移；以及使用一修改後預測子對該目標子塊的該目標像素進行編碼或解碼，其中該修改後的預測子藉由將該預測偏移裁剪到一第一目標範圍並將裁剪後的該預測偏移與一原始預測子組合生成，或者該修改後的預測子藉由將一細化後的預測子裁剪到一第二目標範圍生成，其中該細化後的預測子藉由將該原始預測子和該預測偏移組合生成，其中該第一目標範圍對應於[-dILimit,dILimit-1]，其中dILimit被設置為1<<max(13，位元深度+1)，以及該位元深度對應於該當前塊的樣本位元深度。
如請求項1所述之視訊資料預測方法，其中，該預測偏移被裁剪到K個位元，其中K是正整數。
如請求項2所述之視訊資料預測方法，其中，該第一目標範圍對應於[-2^(K-1),2^(K-1)-1]。
如請求項2所述之視訊資料預測方法，其中，K被設置為max(14, bit-depth+2)以及該位元深度對應於該當前塊樣本位元深度。
如請求項4所述之視訊資料預測方法，其中，當該當前塊的該樣本位元深度等於10位元時，K被設置為14。
如請求項4所述之視訊資料預測方法，其中，當該當前塊的該樣本位元深度等於10位元時，該第一目標範圍等於[-8192,8191]。
如請求項1所述之視訊資料預測方法，其中，基於與距該目標子塊的一中心的像素位置偏移有關的第二資訊以及該兩個或更多個控制點運動向量，該像素運動向量偏移被導出。
如請求項7所述之視訊資料預測方法，其中，基於在x方向上的該像素運動向量偏移和在y方向上的該像素運動向量偏移的一線性組合，該預測偏移被導出。
如請求項1所述之視訊資料預測方法，其中，該第二目標範圍對應於[-2^(K-1),2^(K-1)-1]以及K被設置為max(16，位元深度+4)，以及該位元深度對應於該當前塊的樣本位元深度。
一種視訊資料預測裝置，由一視訊編碼器或一視訊解碼器利用包括一仿射模式的一編解碼工具集合執行該視訊資料預測，該裝置包括一個或多個電子電路或處理器被設置為：在一視訊編碼器側接收與一當前塊相關的輸入資料，或在一視訊解碼器側接收與包括該當前塊的壓縮資料相對應的一視訊位元流，其中該仿射模式被允許用於該當前塊；確定與當前塊的該仿射模式相關聯的兩個或多個控制-點運動向量；從該當前塊的該兩個或多個控制-點運動向量導出該當前塊的一目標子塊的一子塊運動向量；根據具有光流的預測細化，使用包括一像素運動向量偏移的第一資訊，從一目標像素的該子塊運動向量導出該目標子塊的該目標像素的一預測偏移；以及使用一修改後預測子對該目標子塊的該目標像素進行編碼或解碼，其中該修改後的預測子藉由將該預測偏移裁剪到一第一目標範圍並將裁剪後的該預測偏移與一原始預測子組合生成，或者該修改後的預測子藉由將一細化後的預測子裁剪到一第二目標範圍生成，其中該細化後的預測子藉由將該原始預測子和該預測偏移組合生成，其中該第一目標範圍對應於[-dILimit,dILimit-1]，其中dILimit被設置為1<<max(13，位元深度+1)，以及該位元深度對應於該當前塊的樣本位元深度。
如請求項10所述之視訊編解碼的幀間預測的裝置，其中，該預測偏移被裁剪到K個位元，其中K是正整數。
如請求項11所述之視訊編解碼的幀間預測的裝置，其中，該第一目標範圍對應於[-2^(K-1),2^(K-1)-1]。
如請求項11所述之視訊編解碼的幀間預測的裝置，其中，K被設置為max(14,bit-depth+2)以及該位元深度對應於該當前塊樣本位元深度。
如請求項13所述之視訊編解碼的幀間預測的裝置，其中，當該當前塊的該樣本位元深度等於10位元時，K被設置為14。
如請求項13所述之視訊編解碼的幀間預測的裝置，其中，當該當前塊的該樣本位元深度等於10位元時，該第一目標範圍等於[-8192,8191]。
如請求項10所述之視訊編解碼的幀間預測的裝置，其中，基於與距該目標子塊的一中心的像素位置偏移有關的第二資訊以及該兩個或更多個控制點運動向量，該像素運動向量偏移被導出。
如請求項16所述之視訊編解碼的幀間預測的裝置，其中，基於在x方向上的該像素運動向量偏移和在y方向上的該像素運動向量偏移的一線性組合，該預測偏移被導出。
如請求項10所述之視訊編解碼的幀間預測的裝置，其中，該第二目標範圍對應於[-2^(K-1),2^(K-1)-1]以及K被設置為max(16，位元深度+4)，以及該位元深度對應於該當前塊的樣本位元深度。