WO2017135661A1 - 그래프 기반 분리 가능한 변환 (graph-based separable transform)을 이용하여 비디오 신호를 인코딩 / 디코딩하는 방법 및 장치 - Google Patents

그래프 기반 분리 가능한 변환 (graph-based separable transform)을 이용하여 비디오 신호를 인코딩 / 디코딩하는 방법 및 장치 Download PDF

Info

Publication number
WO2017135661A1
WO2017135661A1 PCT/KR2017/001050 KR2017001050W WO2017135661A1 WO 2017135661 A1 WO2017135661 A1 WO 2017135661A1 KR 2017001050 W KR2017001050 W KR 2017001050W WO 2017135661 A1 WO2017135661 A1 WO 2017135661A1
Authority
WO
WIPO (PCT)
Prior art keywords
graph
rows
columns
matrix
gbst
Prior art date
Application number
PCT/KR2017/001050
Other languages
English (en)
French (fr)
Inventor
이. 에길메즈힐라미
챠오융-쉬안
오르테가안토니오
이범식
예세훈
Original Assignee
엘지전자 주식회사
유니버시티 오브 서던 캘리포니아
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사, 유니버시티 오브 서던 캘리포니아 filed Critical 엘지전자 주식회사
Priority to US16/074,372 priority Critical patent/US11503292B2/en
Publication of WO2017135661A1 publication Critical patent/WO2017135661A1/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock

Definitions

  • the present invention relates to a method and apparatus for encoding and decoding a video signal using a graph-based separable transform (hereinafter referred to as 'GBST'). Specifically, it relates to techniques for designing separable transforms based on line graphs with optimized weights.
  • High-resolution content high spatial resolution
  • high frame rate high frame rate
  • high-level screen high dimensionality of scene representation
  • a graph is a data representation form useful for describing relationship information between pixels, and a graph-based signal processing method of expressing and processing such relationship information between pixels as a graph is used.
  • This graph-based signal processing uses a graph where each signal sample represents a vertex and the relationships of the signals are represented by graph edges with positive weights.
  • the same concepts can be generalized. Thus, more efficient graph-based signal processing methods are required in many applications as well as video compression.
  • the present invention seeks to provide a method for designing robust transformations using graph-based representations.
  • the present invention seeks to provide a graph-based separable transform based on a line graph with an optimal weight.
  • the present invention intends to design a separable line graph based on row-wise and column-wise residual block statistics.
  • the present invention seeks to create an optimal separable transform for a model of residual signals for intra prediction or inter prediction.
  • the invention is also applicable to a range of statistical graph models We want to provide a way to create an optimized transformation.
  • the present invention provides a graph based separable transform based on a line graph with an optimal weight.
  • the present invention also provides a method of designing a separable line graph based on row-wise and column-wise residual block statistics 1.
  • the present invention also provides a method of calculating a graph laplacian matrix for rows and columns based on an incidence matrix and a sample covariance matrix for rows / columns.
  • the present invention also provides a method of using two different Gaussian Markov Random Fields (hereinafter referred to as 3 ⁇ 4 GMRF ') for modeling the residual signal to estimate the generalized Laplacian matrix.
  • the present invention also provides a method for generating an optimal graph based separable transform (GBST) for a model of residual signals for intra prediction or inter prediction.
  • GBST graph based separable transform
  • the present invention provides a method for designing robust transformations using graph-based representations, which allows better compression.
  • the present invention provides a two-dimensional graph-based separable transform (GBST) based on a line graph with an optimal weight, thereby providing a two-dimensional DCT and a separable 1 " Lunen-Loeve transform Performance Can surpass
  • GBST to which the present invention is applied can lead to a more robust transformation by requiring learning of fewer parameters from training data when compared to separable KLT.
  • GBST can provide a more robust and efficient generalized transform scheme for intra prediction and inter prediction coding, when compared to other transform schemes.
  • FIG. 1 is a schematic block diagram of an encoder in which encoding of a video signal is performed as an embodiment to which the present invention is applied.
  • FIG. 2 is a schematic block diagram of a decoder in which decoding of a video signal is performed as an embodiment to which the present invention is applied.
  • FIG. 3 is a diagram for describing a division structure of a coding unit according to an embodiment to which the present invention is applied.
  • FIG. 4 is a diagram for describing a process of obtaining a graph-based transformation matrix based on a one-dimensional graph and a two-dimensional graph as an embodiment to which the present invention is applied. '
  • FIG. 5 illustrates a schematic block diagram of an encoder for processing graph-based signals as an embodiment to which the present invention is applied.
  • FIG. 6 illustrates a schematic block diagram of a decoder for processing graph-based signals as an embodiment to which the present invention is applied.
  • FIG. 7 illustrates an internal block diagram of a graph-based transform unit for performing graph-based transformation as an embodiment to which the present invention is applied.
  • FIG. 8 illustrates one-dimensional GMRF models for a residual signal of intra prediction or inter prediction as an embodiment to which the present invention is applied.
  • FIG. 9 is a flowchart illustrating a process of generating a graph-based separable transform (GBST) based on a line graph having an optimal weight as an embodiment to which the present invention is applied.
  • GBST graph-based separable transform
  • FIG. 10 is a flowchart illustrating a process of performing decoding based on a graph-based separable transform (GBST) based on a line graph having an optimal weight as an embodiment to which the present invention is applied.
  • GBST graph-based separable transform
  • FIG. 11 illustrates graphs optimized for an intra prediction mode and an inter prediction mode according to an embodiment to which the present invention is applied. .
  • FIG. 12 illustrates coding performances of a separable Karhunen-Loeve transform and a graph-based separable transform (GBST) for residual signals of intra prediction and inter prediction as an embodiment to which the present invention is applied. This is a comparison table.
  • FIG. 13 is a graph based on a hybrid discrete cosine transform (DCT) / asymmetric discrete sine transform (hereinafter referred to as X ADST ') for a residual signal of intra prediction, as an embodiment to which the present invention is applied.
  • the present invention provides a method of encoding a video signal based on a graph-based separable transform (GBST), the method comprising: generating an incidence matrix representing a line graph; Training a sample covariance matrix for rows and columns from the rows and columns of the residual signal; Calculating a graph laplacian matrix for the rows and columns based on the proximity matrix and the sample covariance matrix for the rows and columns; And obtaining GBST by performing eigen decomposition on the graph Laplacian matrix for the rows and columns.
  • GBST graph-based separable transform
  • the graph Laplacian matrix for the rows and columns is defined by a link weighting parameter and a recursive loop parameter.
  • two Gaussian Markov Random Fields (GMRFs) different from each other may be used for modeling an inter residual signal and an intra residual signal.
  • one-dimensional GMRF is one of a distortion component of a reference sample, a Gaussian noise component of a current sample, or a spatial correlation coefficient. It is characterized in that the model containing at least one.
  • one-dimensional GMRF is a distortion component of a reference sample, a Gaussian noise component of a current sample, a temporal correlation coeff icient or a spatial correlation coef icient.
  • the present invention also provides a method of decoding a video signal based on a graph-based separable transform (GBST), comprising: extracting a residual signal from the video signal; Performing inverse transform on the residual signal based on the GBST; And generating a reconstruction signal by adding the inverse transformed residual signal to a prediction signal, wherein the GBST converts the transform generated based on line graphs obtained by GMRF modeling of the rows and columns of the residual signal. It provides a method characterized by showing. ⁇
  • the GBST includes the following steps: generating an incidence matrix representing a line graph; Training a sample covariance matrix for the rows and columns from the rows and columns of the residual signal; Calculating a graph laplacian matrix for rows and columns based on the proximity matrix and the sample covariance matrix for the rows and columns; And obtaining GBST by performing eigen decomposition on the graph Laplacian matrix for the rows and columns.
  • the present invention also provides an apparatus for encoding a video signal based on a graph-based separable transform (GBST), the apparatus comprising: a graph generator for generating an incidence matrix representing a line graph; Train a sample covariance matrix for rows and columns from the rows and columns of the residual signal, and graph laplacian for rows and columns based on the proximity matrix and the sample covariance matrix for the rows and columns. And a GBST unit for obtaining a GBST by calculating a matrix laplacian matrix and performing eigen decomposition on the graph Laplacian matrix for the rows and columns.
  • the present invention also provides an apparatus for decoding a video signal based on a graph-based separable transform (GBST), comprising: a wave unit for extracting a residual signal from the video signal; An inverse transform unit performing an inverse transform on the residual signal based on the GBST; And a reconstruction unit generating a reconstruction signal by adding the inverse transformed residual signal to a prediction signal, wherein the GBST is a transform generated based on line graphs obtained by GMRF modeling of rows and columns of the residual signal. It provides a device characterized in that. ⁇
  • FIG. 1 illustrates an embodiment to which the present invention is applied. As an example, a schematic block diagram of an encoder in which encoding of a video signal is performed is shown.
  • the encoder 100 may include an image splitter 110, a transformer 120, a quantizer 130, an inverse quantizer 140, an inverse transformer 150, a filter 160, and a decoder. It may include a decoded picture buffer (DPB) 170, an inter predictor 180, an intra predictor 185, and an entropy encoder 190.
  • the image divider 110 may divide an input image (or a picture or a frame) input to the encoder 100 into one or more processing units.
  • the processing unit encoding a tree unit may 3 ⁇ 4: (Transform Unit TU) ( CTU: Coding Tree Unit), coding units (CU:: Coding Unit), prediction unit (PU Prediction Unit) or a conversion unit.
  • the encoder 100 may generate a residual signal by subtracting a prediction signal output from the inter predictor 180 or the intra predictor 185 from the input image signal, and generate the residual signal. Is transmitted to the converter 120.
  • the transform unit 120 may generate a transform coefficient by applying a transform technique to the residual signal.
  • the conversion process may be applied to pixel blocks having the same size of the square, or to blocks of variable size that are not square.
  • the conversion unit 120 may use a graph-based signal processing method for representing and processing relationship information between pixels in a graph.
  • the converter 120 may include a graph, based conversion section (Graph-Based Transform Unit), the graph-based conversion section (GBT unit) is close-matrix representing a line graph (incidence matrix) the Generate, train a sample covariance matrix for the rows and columns from the rows and columns of the residual signal, and plot the graph Laplacian matrix for the rows and columns based on the proximity matrix and the sample covariance matrix for the rows and columns ( GBST can be obtained by calculating a graph laplacian matrix) and performing eigen decomposition f ⁇ on the graph Laplacian matrix for the rows and columns.
  • One embodiment of the present invention based on a line graph having an optimal weight Provides graph-based separable transformations.
  • An embodiment of the present invention provides a method of designing a separable line graph based on row-wise and column-wise residual block statistics 1.
  • One embodiment of the present invention provides a method for calculating a graph laplacian matrix for rows and columns based on an incidence matrix and a sample covariance matrix for rows / columns.
  • One embodiment of the invention a method of using, a la Foulard two different Gaussian Markov random for the modeling of the residual signal for estimating the cyan matrix field generalized (referred to as Gaussian Markov Random Field, hereinafter> GMRF ') to provide.
  • Gaussian Markov Random Field hereinafter> GMRF '
  • One embodiment of the present invention provides a method for generating an optimal graph based separable transform (GBST) for a model of residual signals for intra prediction or inter prediction.
  • GBST graph based separable transform
  • the transform unit 120 may include a graph-based transform unit, and the graph-based transform unit may include at least one data cluster for video data.
  • the graph-based converter to which the present invention is applied may exist as a separate functional unit. In this case, the graph-based converter may be located in front of the converter 120, but the present invention is not limited thereto.
  • the quantization unit 130 may quantize the transform coefficients and transmit the quantized coefficients to the entropy encoding unit 190, and the entropy encoding unit 190 may entropy code the quantized signal to output the bitstream.
  • the quantized signal output from the quantization unit 130 may be used to generate a prediction signal.
  • the quantized signal may recover the residual signal by applying inverse quantization and inverse transformation through inverse quantization unit 140 and inverse transformation unit 150 in a loop.
  • the reconstructed signal may be generated by adding the reconstructed residual signal to the prediction signal output from the inter predictor 180 or the intra prediction 185.
  • the filtering unit applies filtering to the reconstruction signal and outputs it to the reproduction apparatus or transmits the decoded picture buffer to the decoded picture buffer 170.
  • the filtered signal transmitted to the decoded picture buffer 170 may be used as the reference picture in the inter predictor 180. like this , By using the filtered picture as a reference picture in the inter prediction mode, not only image quality but also encoding efficiency may be improved.
  • the decoded picture buffer 170 may store the filtered picture for use as a reference picture in the inter prediction unit 180.
  • the inter prediction unit 180 performs temporal prediction and / or spatial prediction to remove temporal redundancy and / or spatial redundancy with reference to a reconstructed picture.
  • the reference picture used to perform the prediction is a transformed signal that has been quantized and dequantized in units of blocks at the time of encoding / decoding, a blocking artifact or a ringing artifact may exist. have.
  • the inter prediction unit 180 may interpolate the signals between pixels in sub-pixel units by applying a lowpass filter to solve performance degradation due to discontinuity or quantization of such signals.
  • the subpixel refers to a virtual pixel generated by applying an interpolation filter
  • the integer pixel refers to an actual pixel existing in the reconstructed picture.
  • the interpolation method linear interpolation, bi-linear ' interpolation, wiener filter, etc. may be applied.
  • the interpolation filter may be applied to a reconstructed picture to improve the precision of prediction.
  • the inter-prediction unit 180 is applied to an interpolation filter for integer-pixel to generate an interpolated pixel, and the interpolation blocks composed of the interpolation pixel stone (interpolated pixels) (interpolated block) ⁇ ⁇ : a prediction block (prediction block) with Can be used to make predictions.
  • the intra predictor 185 may predict the current block feature by referring to samples in the vicinity of the block to which the current encoding is to be performed.
  • the intra prediction unit 185 may perform the following process to perform intra prediction. First, reference samples necessary for generating a prediction signal may be prepared. The prediction signal may be generated using the prepared reference sample. Then, the prediction mode is encoded.
  • the reference sample may be prepared through reference sample padding and / or reference sample filtering. Since the reference sample has undergone prediction and reconstruction, quantization errors may exist. Accordingly, the reference sample filtering process may be performed for each prediction mode used for intra prediction to reduce such an error.
  • a prediction signal generated through the inter predictor 180 or the intra predictor 185 may be used to generate a reconstruction signal or to generate a residual signal.
  • 2 is a schematic block diagram of a decoder in which decoding of a video signal is performed as an embodiment to which the present invention is applied.
  • the decoder 200 includes a parser (not shown), an entropy decoder 210, an inverse quantizer 220, an inverse transformer 230, a filter 240, and a decoded picture buffer (DPB). It may include a decoded picture buffer unit (250), an inter preprocessor 260, an intra predictor 265, and a reconstruction unit (not shown).
  • the reconstructed video signal output through the decoder 200 may be reproduced through the reproducing apparatus.
  • the decoder 200 may receive a signal output from the encoder 100 of FIG. 1.
  • the received signal may be entropy decoded through the entropy decoding unit 210.
  • the decoder or the entropy decoding unit 210 may receive a mode index.
  • the mode index may correspond to an optimized transformation matrix based on multiple graph based models.
  • the mode index may indicate a DCT matrix or an EA-GBT matrix.
  • the mode index may be entropy decoded by the entropy decoding unit 210 and used to perform inverse transformation on the inverse transformer 230.
  • the present invention is not limited thereto.
  • the mode index may not be an essential element for decoding of the present invention.
  • the inverse quantization unit 220 obtains a transform coefficient from the entropy decoded signal using the quantization stem size information.
  • the obtained transform coefficients may be applied to various embodiments described in the transform unit 120 of FIG.
  • the inverse transform unit 230 inversely transforms the transform coefficient to obtain a residual signal.
  • GBST may be used in the inverse transform, and the GBST may be a transform generated based on line graphs obtained by Gaussian Markov random field (GMRF) modeling of rows and columns of the residual signal.
  • GMRF Gaussian Markov random field
  • the filtering unit 240 applies filtering to the reconstructed signal and outputs the filtering to the reproducing apparatus or transmits it to the decoded picture buffer unit 250.
  • the filtered signal transmitted to the decoded picture buffer unit 250 may be used as the reference picture in the inter predictor 260.
  • the embodiments described by the filtering unit 160, the inter prediction unit 180, and the intra prediction unit 185 of the encoder 100 are respectively the filtering unit 240, the inter prediction unit 260, and the decoder of the decoder 100.
  • the same may be applied to the intra prediction unit 265.
  • 3 is a diagram for describing a division structure of a coding unit according to an embodiment to which the present invention is applied.
  • the encoder may split one image (or picture) into units of a coding tree unit (CTU) having a rectangular shape. Then, one CTU is sequentially encoded according to a raster scan order. For example, the size of -CTU may be determined by any one of 64x64, 32x32, and 16x16, but the present invention is not limited thereto.
  • the encoder can select and use the size of the CTU according to the resolution of the input video or the characteristics of the input video.
  • the CTU may include a coding tree block (CTB) for a luma component and a coding tree block (C B) for two chroma components.
  • C B coding tree block
  • One CTU may be decomposed into a quadtree (QT) structure.
  • QT quadtree
  • one CTU has a square shape and the length of each side It can be divided into four units that are reduced by half.
  • the decomposition of this QT structure can be done recursively.
  • a root node of a QT may be associated with a CTU.
  • the QT may be split until it reaches a leaf node, where the leaf node may be referred to as a coding unit (CU).
  • CU coding unit
  • a CU may mean a basic unit of coding in which an input image is processed, for example, intra / inter prediction is performed.
  • the CU may include a coding block (CB) for a luma component and a CB for two chroma components.
  • the size of the CU may be determined by any one of 64 ⁇ 64, 32 ⁇ 32, 16 ⁇ 16, and 8 ⁇ 8.
  • the present invention is not limited thereto.
  • the size of the CU may be larger or more diverse.
  • a CTU corresponds to a root node and has a smallest depth (ie, level 0) value.
  • the CTU may not be divided according to the characteristics of the input image. In this case, the CTU corresponds to a CU.
  • the CTU may be decomposed in QT form, and as a result, lower nodes having a depth of level 1 may be generated. And, a node that is no longer partitioned (ie, a leaf node) in a lower node having a depth of level 1 corresponds to a CU.
  • CU a
  • CU a
  • CU b
  • CU j
  • FIG. 3 (b) CU (a), CU (b), and CU (j), which perform on nodes a, b, and j, are divided once in the CTU and have a depth of level 1.
  • At least one of the nodes having a depth of level 1 may be split into QT again.
  • a node that is no longer partitioned (ie, a leaf node) in a lower node having a depth of level 2 corresponds to a CU.
  • CTJ (c), CU (h), and CU (i) for nodes c, h and i are divided twice in CTU and have a depth of level 2.
  • a node that is no longer partitioned (ie, a leaf node) in a lower node having a depth of level 3 corresponds to a CU.
  • CU (d), CU (e), CU (f), and CU (g) corresponding to nodes d, e, f, and g are divided three times in the CTU, and level 3 Has a depth of
  • the maximum size or the minimum size of the CU may be determined according to characteristics (eg, resolution) of the video image or in consideration of encoding efficiency. Information about this or information capable of deriving the information may be included in the bitstream.
  • a CU having a maximum size may be referred to as a largest coding unit (LCU), and a CU having a minimum size may be referred to as a smallest coding unit (SCU).
  • LCU largest coding unit
  • SCU smallest coding unit
  • a CU having a tree structure may be partitioned into pieces with predetermined maximum depth information (or maximum level information).
  • Each partitioned CU may have depth information. Since the depth information indicates the number and / or degree of division of the CU, the depth information may include information about the size of the CU.
  • the size of the SCU can be obtained by using the size and maximum depth information of the LCU. Or conversely, using the size of the SCU and the maximum depth information of the tree, the size of L J can be obtained.
  • information indicating whether the corresponding CU is split may be delivered to the decoder.
  • the information may be defined as a split flag. It may be expressed as a syntax element "split_ CU ⁇ flag".
  • the division flag may be included in all CUs except the SCU. For example, if the split flag value is '1', the corresponding CU is divided into four CUs again. If the split flag value is '0', the CU is not divided any more and the coding process for the CU is not divided. Can be performed.
  • the division process of the CU has been described as an example, but the QT structure described above may also be applied to the division process of a transform unit (TU), which is a basic unit for performing transformation.
  • TU transform unit
  • the TU may be hierarchically divided into a QT structure from a CU to be coded.
  • J may correspond to the root node of the tree for the transform unit (TU).
  • the TU divided from the CU may be divided into smaller lower TUs.
  • the size of the TU may be determined by any one of 32x32, 16x16, 8x8, and 4x4.
  • the present invention is not limited thereto, and in the case of a high resolution image, the size of the TU may be larger or more diverse.
  • information indicating whether the corresponding TU is divided may be delivered to the decoder.
  • the information may be defined as a split transform flag and may be represented by a syntax element "split_transform_flag".
  • the division conversion flag may be included in all TUs except ⁇ of the minimum size. For example, if the value of the split transform poll is 1 ', the corresponding TU is divided into 4 ⁇ again. If the value of the split transform flag is 0', the corresponding TU is no longer divided.
  • a CU is a basic unit of coding in which intra prediction or inter prediction is performed. In order to code an input image more effectively, a CU may be divided into prediction units (PUs).
  • the PU is a basic unit for generating a prediction block, and may generate different prediction blocks in units of ⁇ within one CU.
  • the PU may be divided differently according to whether an intra prediction mode or an inter prediction mode is used as a coding mode of a CU to which the PU belongs.
  • 4 is a diagram for describing a process of obtaining a graph-based transformation matrix based on a 1D graph and a 2D graph as an embodiment to which the present invention is applied.
  • FIG. 4A illustrates a 1D graph corresponding to each line of the pixel block
  • FIG. 4B illustrates a 2D graph corresponding to the pixel block.
  • the graph vertex is associated with each pixel of the pixel block, and the value of the graph vertex may be expressed as a pixel value.
  • the graph edge may mean a line connecting graph vertices.
  • the graph edge is used to represent some form of statistical dependence in the signal, and a value representing the strength may be referred to as an edge weight.
  • a one-dimensional graph is shown, 0, 1, 2, and 3 represent positions of vertices, and ⁇ , ⁇ , ⁇ represents edge weights between the vertices.
  • Each vertex may be connected to all other vertices, and an edge weight of zero may be assigned to the edges connecting the unrelated or weakly associated vertices. However, for the sake of simplicity, the edge with an edge weight of zero can be completely removed.
  • GKT Graph Based Transformation
  • a transform obtained from a graph signal may be defined as a graph-based transform (hereinafter, referred to as 'GBT').
  • 'GBT' graph-based transform
  • GBT graph-based transform
  • relationship information between pixels can be expressed in various ways. For example, relationship information between pixels may be expressed based on similarities between pixel values, whether they belong to the same PU, whether they belong to the same object, or the like.
  • the pixel-to-pixel relationship information may be represented by edge presence and edge weight values between pixels when corresponding to the vertex of each pixel all graph.
  • the GBT may be obtained through the following process.
  • the encoder or decoder may obtain graph information from a target block of the video signal. Given a graph g (A, S) with an additive value, add the Laplacian matrix L from Equation 1 from the graph information. Can be obtained.
  • D represents a degree matrix
  • the degree matrix may mean a diagonal matrix including information about the order of each vertex.
  • A denotes an adj acency matrix that weights a connection relationship (eg, an edge) with an adjacent pixel.
  • V represents a diagonal matrix that represents a self-loop at the nodes of G.
  • the GBT kernel can be obtained by performing eigen decomposition on the Laplacian matrix L as shown in Equation 2 below.
  • Equation 2 L is a Laplacian matrix, ⁇ is an eigen matrix, ⁇ is a diagonal eigenvalue matrix, and! ⁇ is a transpose matrix of ⁇ . .
  • the eigen matrix U may provide a specialized graph-based Fourier transform for a signal that fits the graph model.
  • an eigen matrix U satisfying Equation 2 may mean a GBT kernel.
  • graph-based separable transform can be defined using two graph-based transforms (GBTS) derived from a generalized graph Laplacian matrix of weighted line graphs.
  • U row and U c are the (N ⁇ N) basis matrix of GBT, then U row and U c can be applied to each row and each column of (NXN) block X.
  • the GBST of the block X may be defined as in Equation 3 below.
  • Equation 3 Where X represents the GBST of block X, and U row and!; bands represent the base matrix of GBT for each row and each column of (NxN) block X, and 11 01 represents the transpose matrix of U c .
  • Indicates. 5 illustrates a schematic block diagram of an encoder for processing a graph-based signal as an embodiment to which the present invention is applied.
  • a fixed transform such as DCT may be used.
  • DCT has low complexity, there is a problem in that it uses a fixed block transform. This implicitly means that all residual It is performed under the assumption that the signals have the same isotropic statistical properties.
  • actual residual blocks have very different statistical features depending on the video content and prediction modes, there is a need to adaptively change the statistical features of the residual blocks.
  • the present invention proposes a new framework for designing graph-based separable transforms (GBST) based on optimal line graphs.
  • two separable line graphs may be generated based on the row-by-column and column-by-column statistical characteristic stones of the residual blocks observed in each prediction mode.
  • the GBST can then be generated using a 'Graph-Based Transform (GBT) ' which is performed on two separable line graphs, ie by applying the GBT to the rows and columns of the residual blocks.
  • GBT 'Graph-Based Transform
  • the encoder 500 to which the present invention is applied includes a graph-based transform unit 510, a quantizer 520, an inverse quantizer 530, an inverse transform unit 540, a buffer 550, and a predictor. 560 and an entropy encoding unit 570.
  • the encoder 500 receives the video signal and subtracts the predicted signal output from the predictor 560 from the video signal to generate a residual signal.
  • the generated residual signal is transmitted to the graph-based transform unit 510, and the additive graph-based transform unit 510 generates a transform coefficient by applying a transform scheme to the residual signal.
  • the graph-based converter 510 may generate two separable line graphs based on row-by-column and column-by-column statistical characteristics of the residual blocks. Then, using a graph-based transformation (GBT) corresponding to the two separable line graphs, i.e., applying GBT to the rows and columns of the residual blocks. By applying GBST can be created.
  • GBT graph-based transformation
  • the quantization unit 520 quantizes the generated GBST coefficients and transmits the quantized coefficients to the entropy encoding unit 570.
  • the entropy encoding unit 570 performs entropy coding on the quantized signal and outputs an entropy coded signal.
  • the quantized signal output by the quantizer 520 may be used to generate a prediction signal, for example, the inverse quantizer 530 and the inverse transformer 540 in a loop of the encoder 500. ) May perform inverse quantization and inverse transformation on the quantized signal so that the quantized signal is reconstructed into a residual signal, and the recovered signal is outputted by the predictor 560 to the restored residual signal. Can be generated by adding to the prediction signal.
  • the buffer 550 stores the reconstructed signal for future reference by the predictor 560.
  • the prediction unit 560 may generate a prediction signal by using a signal previously restored and stored in the buffer 550.
  • the present invention relates to the efficient prediction of the region in the target image using the region in the anchor image.
  • the anchor image may mean a reference image, a reference picture or a reference frame.
  • the efficiency may be determined by calculating a rate-distortion cost or an average squared error quantifying distortion in the residual signal.
  • 6 is an embodiment to which the present invention is applied and is used to process graph-based signals. Illustrates a schematic block diagram of a decoder.
  • the decoder 600 of FIG. 6 may receive a signal output by the encoder 500 of FIG. 5 and obtain a residual signal from the received signal.
  • the entropy decoding unit 610 performs entropy decoding on the residual signal.
  • the inverse quantization unit 620 obtains a transform coefficient from the entropy decoded signal based on quantization step size information.
  • the transform coefficient may mean a GBST coefficient.
  • the inverse transform unit 630 acquires a residual signal by performing inverse transform on a transform coefficient.
  • the inverse transform may mean an inverse transform for the GBST generated by the encoder 500.
  • the GBST may be based on line graphs obtained by GMRF modeling of rows and columns of the residual signal.
  • the inverse transform unit 630 may receive a mode index corresponding to DCT or GBST, and obtain a graph-based transform kernel corresponding to the mode index.
  • the transform unit may be restored using the obtained graph-based kernel.
  • the graph-based transform kernel may represent GBST based on a line graph having an optimal weight difference.
  • a reconstruction signal may be generated by adding the residual signal to the prediction signal output by the prediction unit 650.
  • the buffer 640 stores the reconstruction signal for future reference by the predictor 650.
  • the predictor 650 recovers a signal previously restored and stored in the buffer S40. Generate a prediction signal based on FIG. 7 illustrates an internal block diagram of a graph-based transform unit for performing graph-based transformation as an embodiment to which the present invention is applied
  • the graph-based transform unit may include a clustering unit (not shown), a graph modeling unit 710, a transform optimizer 720, and a transform performer 730.
  • the units are not necessarily included in the encoder, and may use information stored externally or information defined in the encoder.
  • the clustering unit may generate at least one data cluster by performing clustering on the input video data.
  • the clustering may be performed based on a prediction mode.
  • the prediction mode is an intra prediction mode
  • the at least one data cluster represents intra residual data for the intra prediction mode.
  • the prediction mode is the inter prediction mode
  • the at least one data cluster represents inter residual data for the inter prediction mode.
  • Graph modeling unit. 710 may generate multiple graph-based models corresponding to the data cluster stones, and generate a graph laplacian matrix corresponding to the multiple graph-based models.
  • each of the multiple graph-based models may be generated for the intra prediction mode or the inter prediction mode, for example, a one-dimensional GMRF model may be used as shown in FIG. 8.
  • the transform optimizer 720 may perform transform optimization based on the multiple graph-based models.
  • the conversion optimization is described in more detail below. Explain. Optimality of graph-based transformations
  • KLT7 is optimal for orthogonal transform coding of common Gaussian sources in terms of Mean Square Error (MSE) criteria under high rate assumption (3 ⁇ 4). It is true.
  • MSE Mean Square Error
  • the GBT derived based on the generalized graph Laplacian can have the same effect as the optimal KLT under certain conditions for the GMRF model. Random Vectors XG and y ⁇ ⁇ 1 ⁇ Attrative GMRF (attractive
  • the GBT derived from the generalized Laplacian is obtained for the orthogonal transform coding of the residual vector r at a high bitrate. It is optimal.
  • the attractive GMRF may refer to a result model when all off-diagonal elements of J x are not negative in Equation 6 in the present specification. .
  • the GBT derived based on the graph Laplacian is optimal.
  • the active GMRF is a valid model, since it is generally assumed that the garment samples are positively correlated in the image signals.
  • the prediction matrices mentioned in Equations 13 and 17 all have a graph laplacian form generalized in Equation 1.
  • Graph learning for optimal GBST construction the video signal can be modeled as in Equation 4 below.
  • Equation 5 (r / 2L -1/2 exp
  • Equation 5 Equation 5
  • S represents a sample covariance of the residual signal r
  • B represents an incidence matrix representing the structure of a graph (eg, a set of graph links).
  • Equation 5 an obj ective function is derived by taking a natural logarithm of likelihood term in Equation 4, where L is defined by the constraints w and It can be a generalized graph laplacian with link weights and self-loop weights respectively vectorized to V.
  • Equation 5 is a convex optimization problem, which can be solved using a convex optimization tool such as CVX.
  • a convex optimization tool such as CVX.
  • the present invention provides a fast block-coordinate descent algorithm to solve this problem optimally.
  • a block-coordinate descent algorithm can be used.
  • Equation 5 For GBST configuration, the optimization problem of Equation 5 can be solved by optimizing two separate line graphs that define the graph-based transforms (GBTS), U row and U c of Equation 3 above. Each line graph can be optimized independently because of the desire to design separate transformations. Thus, the present invention can find the optimal line graphs based on the sample covariance matrices S row and S c generated from the rows and columns of the residual blocks.
  • GGL (B, S) represent the case of the graph learning problem in Equation 5 having an incidence matrix (B) and a covariance matrix (S).
  • the GBST of the present invention may be constructed according to the following steps. However, the present invention is not limited thereto, and the present invention is not limited to square blocks but also non-square. Block).
  • the encoder can generate a proximity matrix 1 that represents a line graph. Then, two sample covariance matrices S row and 01 can be trained from N rows and N columns of residual blocks in the data set.
  • Equation 5 GGL (B line , S row ) and GGL (B line , S col ) may be solved.
  • the encoder may obtain GBTS, U row and GB which define GBST by performing inherent decomposition on L row and L c , as shown in Equation 3 above.
  • the transform execution unit 730 may perform a transform by using the optimized GBST matrix generated according to the result of the transform optimization.
  • FIG. 8 illustrates one-dimensional GMRF models for a residual signal of intra prediction or inter prediction as an embodiment to which the present invention is applied.
  • the present invention proposes a new framework for designing graph-based separable transforms (GBST) based on optimal line graphs.
  • two separable line graphs may be generated based on the row-by-column and column-by-column statistical characteristics of the residual blocks observed within each pre-shrink mode.
  • the GBST can then be generated using a graph-based transform (GBT) that is performed on two separable line graphs, ie, applying the GBT generation method to the rows and columns of the residual blocks.
  • GBT graph-based transform
  • the present invention provides a two-dimensional graph-based separable transform (GBST) based on a line graph with optimal weights, thereby providing two-dimensional DCT and separable Karhunen-Loeve transform (KLT). Performance).
  • GBST graph-based separable transform
  • KLT Karhunen-Loeve transform
  • GMRFs Gaussian Markov random fields to model residual signals
  • FIG. 8 two basic one-dimensional GMRF models for intra prediction residual signals and inter prediction residual signals are presented.
  • the main difference between the two models of FIGS. 8A and 8B is the number of reference samples used for prediction. That is, in the intra prediction of FIG. 8 (a), a single reference sample from a neighboring block is used to predict current samples, and in the case of inter prediction of FIG. 8 (b), each sample in the block is matched in the reference frame. It is predicted using the samples that are at the same location in the block. Modeling of Intra Prediction Residual Signal
  • Equation 7 a recursive formulation can be used to model residual signals as a one-dimensional GMRF.
  • Equation 12 Equation 12
  • Kr Q— [(G + d) (G + d) *] (Q- 1 )
  • Equation 14 can model a one-dimensional GMRF.
  • Equation 16 By inversely transforming the covariance matrix, the present invention can obtain the accuracy matrix Jf as in Equation 17 below.
  • the first diagonal entry at 17 is equivalent to the following approximation ( 18 ) for ( ⁇ ) 1 , 1 .
  • Equation 18 is a flowchart illustrating a process of generating a graph-based separable transform (GBST) based on a line graph having an optimal weight as an embodiment to which the present invention is applied.
  • GBST graph-based separable transform
  • the encoder to which the present invention is applied may generate an incidence matrix representing a line graph (S910).
  • the proximity matrix represents a line graph and may be represented by B line .
  • the encoder may train a sample covariance matrix for rows and columns from rows and columns of the residual signal (S920). For example, two sample covariance matrices S and S c can be trained from N rows and N columns of residual block features.
  • the encoder may calculate a graph laplacian matrix for rows and columns based on the proximity matrix and a sample covariance matrix for the rows and columns. (S930). For example, generalized graph Laplacian In order to determine the matrices L row and 01 , Equations 5, GGL (B line , S row ) and GGL (B line , S col ) can be solved.
  • the encoder can obtain GBST by performing eigen decomposition and eigen decomposition on the graph Laplacian matrix for the rows and columns (SS40). For example, as in Equation 3, it is possible to obtain GBTS, U row and GBTS defining GBST.
  • FIG. 10 is a flowchart illustrating a process of performing decoding based on a graph-based separable transform (GBST) based on a line graph having an optimal weight as an embodiment to which the present invention is applied.
  • GBST graph-based separable transform
  • the decoder to which the present invention is applied may extract the residual signal from the video signal (S1010).
  • the additive decoder may perform inverse transformation on the residual signal based on the GBST generated based on the line graphs (S1020).
  • the line graphs may be obtained by GMRF modeling of rows and columns of the residual signal.
  • the decoder may generate a reconstruction signal by adding the inverse transformed residual signal to a prediction signal (S1030).
  • 11 illustrates graphs optimized for an intra prediction mode and an inter prediction mode according to an embodiment to which the present invention is applied.
  • 11 (a) shows an optimized graph for intra horizontal mode (mode 10)
  • 11 (b) shows an optimized graph for intra diagonal mode (mode 18)
  • FIG. 11 (c) shows an optimized graph for inter prediction mode of an N ⁇ 2N size ⁇ partition.
  • FIGS. Ll (a)-(c) above show sample variance of pixel values for 8x8 blocks, where quality indicates greater variance.
  • Optimized graphs associated with the rows and columns of each block are shown in (i) and (ii), respectively. All the weights are normalized to the maximum link weight, and the link weights represent the larger weights with darker colors.
  • the bars attached to the nodal stones in Figures ll (a)-(c) show recursive-loops whose weights are proportional to the length of the bars.
  • KLT The GBT may be equivalent to the KLT if the conditions described in the optimization section of the GBT are met.
  • the GBT of the present invention provides a more robust conversion than the separable KLT. This is because KLT requires, whereas GBT only requires ( ⁇ ) to train the associated one-dimensional model.
  • the present invention provides a better generalization in learning signal models, which allows for robust transformation design.
  • One-dimensional DCT approximates KLT when the underlying signal model is one-dimensional GMRF. Accordingly, One-dimensional DCT can be obtained by eigen decomposition of the combined Laplacian of a uniformly weighted line graph.
  • GBT can be derived as a one-dimensional DCT
  • the optimal GBT can be close to the ADST or DCT.
  • multiple reference samples affect the recursive-loop additive value at each location.
  • the prediction quality is similar across the sample stones (ie, ⁇ ⁇ 3 ⁇ 4 ⁇ ⁇ ), and the optimal transform is generally closer to the DCT rather than the ADST.
  • a mode-dependent transform coding scheme provided using different transforms that match the class of residual blocks may be adopted.
  • residual block data from different video sequences using HEVC reference software can be obtained, and then two separate data set dolls can be generated for training and testing.
  • residual blocks were obtained from six different video sequences, with a 704x576 resolution.
  • the residual blocks were collected from two video sequences, with a 832x480 resolution.
  • residual blocks may be classified based on additional information provided by the encoder.
  • intra prediction blocks can be classified based on 35 intra prediction modes.
  • PU prediction unit
  • an optimal GBST can be built using the training data set.
  • Optimal transforms are applied in association with residual blocks in all data sets so that transform coefficients are quantized and then entropy coded using arithmetic coding.
  • FIG. 11 two intra prediction modes and one inter prediction.
  • An example of weighted line graphs optimized for a partition is shown. It can be seen that the weight of the recursive-loop in the pixels connected to the reference sample is larger.
  • the graph associated with the rows has a large recursive loop at the first pixel, while the other graph does not have a dominant recursive-loop weight.
  • the two graphs have a large recursive-loop weight at their first node.
  • FIG. 11 (c) the recursive-loop weight is generally large at each node due to inter prediction. Moreover, since the PU partition is vertical, the graph corresponding to the rows has a small link additive value in the interpolation portion.
  • 12 is a diagram illustrating the coding performance of a detachable Karhunen-Loeve transform and a graph-based separable transform (GBST) for a residual signal of intra prediction and inter prediction as an embodiment to which the present invention is applied. It is a vote.
  • GBST graph-based separable transform
  • FIG. 12 shows the coding performance of the KST and GBST of the present invention that are separable for intra and inter prediction residuals, and each performance is compared with the case of applying transform coding in HEVC.
  • 4x4 intra prediction blocks coded using two-dimensional ADST 2D DCT applies to all blocks except
  • the GBST of the present invention outperforms the separable KLT with respect to the test data set and shows similar performance for the training data set. This empirically shows that GBST provides a stronger and better generalization compared to separable KLT.
  • FIG. 13 illustrates a hybrid discrete cosine transform (DCT) / asymmetric discrete sine transform (hereinafter referred to as ⁇ ADST ') and graph-based separation for a residual signal of intra prediction. Table comparing the coding performance of the possible transforms (GBST).
  • DCT discrete cosine transform
  • ⁇ ADST ' asymmetric discrete sine transform
  • GBST and hybrid DCT / ADST are applied to 4 X 4 blocks predicted using only vertical, horizontal and DC modes.
  • the present invention has described graph-based separable transforms (GBSTS) and graph learning schemes for their optimal design.
  • GSTS graph-based separable transforms
  • Cases where GBSTs are simplified to well-known transformations such as DCT and ADST have also been described.
  • Experimental results to which the present invention is applied can confirm that GBST outperforms KLT and hybrid DCT / ADST in terms of compression performance.
  • the embodiments described herein are mainly described based on the encoder, but the present invention is not limited thereto.
  • Each functional unit of the transform unit or the graph-based transform unit may be performed by the decoder as well as the encoder. In this case, all the functional units of the transform unit or the graph-based transform unit described in the above embodiments are not necessarily included in the decoder. In addition, some information may be included, or information stored externally or defined in the encoder / decoder may be used.
  • the embodiments described herein may be implemented and performed on a processor, microprocessor, controller, or chip.
  • the functional units illustrated in FIGS. 1, 2, and 5 to 7 may be implemented and performed on a computer, a processor, a microprocessor, a controller, or a chip.
  • the decoder and encoder to which the present invention is applied include a multimedia broadcasting transmitting and receiving device, a mobile communication terminal, a home cinema video device, a digital cinema video device, a surveillance camera, a video chat device, a real time communication device such as video communication, a mobile streaming device, Storage media, camcorders, video on demand (VoD) service providing devices, internet streaming service providing devices, three-dimensional (3D) video devices, video telephony video devices, and medical video devices, and the like, for processing video signals and data signals Can be used for
  • the processing method to which the present invention is applied can be produced in the form of a program executed by a computer, and can be stored in a computer-readable recording medium.
  • Multimedia data having a data structure according to the present invention can also be stored in a computer-readable recording medium.
  • the computer readable recording medium includes all kinds of storage devices for storing computer readable data.
  • the computer-readable recording medium may include, for example, a Blu-ray disc (BD), a universal serial bus (USB), a ROM, a RAM, a CD-ROM, a magnetic tape, a floppy disk, and an optical data storage device.
  • the computer-readable specific media includes media embodied in the form of a carrier wave (for example, transmission over the Internet).
  • the bit stream generated by the encoding method may be stored in a computer-readable recording medium or transmitted through a wired or wireless communication network.

Abstract

본 발명은, 그래프 기반 분리가능 변환 (graph-based separable transform, GBST)에 기초하여 비디오 신호를 인코딩하는 방법에 있어서, 라인 그래프를 나타내는 근접 행렬 (incidence matrix)을 생성하는 단계; 레지듀얼 신호의 행과 열로부터 행 및 열에 대한 샘플 공분산 행렬 (sample covariance matrix)을 훈련하는 단계; 상기 근접 행렬 및 상기 행 및 열에 대한 샘플 공분산 행렬에 기초하여 행 및 열에 대한 그래프 라플라시안 행렬 (graph laplacian matrix)을 계산하는 단계; 및 상기 행 및 열에 대한 그래프 라플라시안 행렬에 고유 분해 (eigen decomposition)를 수행함으로써 GBST 를 획득하는 단계를 포함하는 것을 특징으로 하는 방법을 제공한다.

Description

【명세서】
【발명의 명칭】
그래프 기반 분리 가능한 변환 (GRAPH -BASED SEPARABLE TRANSFORM)을 이용하여 비디오 신호를 인코딩 / 디코딩하는 방법 및 장치 【기술분야】
본 발명은 그래프 기반 분리 가능한 변환 (graph-based separable transform, 이하 ' GBST '라 함)을 이용하여 비디오 신호를 인코딩 , 디코딩하는 방법 및 장치에 관한 것이다. 구체적으로, 최적화된 가중치를 갖는 라인 그래프에 기초하는 분리 가능한 변환을 디자인하는 기술에 관한 것이다. 【배경기슬】
차세대 비디오 '컨텐츠는 고해상도' (high spatial resolution) , 고프레임율 (high frame rate ) 및 영상 표현의 고차원화 (high dimensionality of scene representation)라는 특징을 갖게 될 것이다. 그러한 컨텐츠를 처리하기 위해서는 메모리 저장 (memory storage) , 메모리 액세스율 (memory access rate) 및 처리 전력 (processing power) 측면에서 엄청난 증가를 가져을 것이다. 따라서, 차세대 비디오 컨텐츠를 보다 효율적으로 처리하기 위한 코딩 틀을 디자인할 필요가 있다.
특히, 그래프는 픽셀 간 관계 정보를 기술하는데 유용한 데이터 표현 형태로써, 이러한 픽셀 간 관계 정보를 그래프로 표현하여 처리하는 그래프 기반 신호 처리 방식이 활용되고 있다. 이러한 그래프 기반 신호 처리는 각 신호 샘플이 꼭지점 (vertex)을 나타내며 신호의 관계들이 양의 가중치를 가지는 그래프 에지로 나타내어지는 그래프를 사용하여 샘플링, 필터링, 변환 등과 같은 개념들을 일반화할 수 있다. 따라서, 보다 효율적인 그래프 기반의 신호 처리 방법이 비디오 압축 분야뿐만 아니라 많은 응용 분야에서 요구된다.
또한, 많은 이미지 /비디오 압축 표준들은 이산 코사인 변환 (Discrete Cosine Transform, 이하 3CT'라 함)을 채택한다. 비록 DCT가 낮은 복잡도를 가짐에도 불구하고, 그러한 고정 블록 변환을 이용하는 주요 문제점은 모든 레지듀얼 블록들이 동일한 통계적 특징들을 공유하는 것을 가정한다는 점이다. 그러나, 실제 레지듀얼 블록들은 비디오 컨텐츠 및 예측 모드들에 의존하여 매우 상이한 통계적 특징들을 가진다. 따라서, 레지듀얼 블록들의 통계적 특징에 맞게 변환 ( transform)들을 변경할 수 있다면 보다 양호한 압축을 수행할 수 있다.
【발명의 상세한 설명】
【기술적 과제】
본 발명은, 그래프 기반 표현을 사용하는 강인한 변환을 설계하기 위한 방법을 제공하고자 한다. "
또한, 본 발명은, 최적의 가중치를 갖는 라인 그래프에 기반하는 그래프 기반 분리 가능한 변환을 제공하고자 한다.
또한, 본 발명은, 행별 및 열별 레지듀얼 신호의 통계 (row-wise and column -wise residual block statistics )에 기초하여 분리 가능한 라인 그래프를 디자인하고자 한다.
또한, 본 발명은, 인트라 예측 또는 인터 예측을 위한 레지듀얼 신호들의 모델에 대해 최적의 분리 가능한 변환을 생성하고자 한다.
또한, 본 발명은, 통계적인 그래프 모델들의 범위에 적용 가능한 최적화된 변환을 생성하는 방법을 제공하고자 한다 .
[기술적 해결방법]
본 발명은, 최적의 가중치를 갖는 라인 그래프에 기반하는 그래프 기반 분리 가능한 변환을 제공한다.
또한, 본 발명은, 행별 및 열별 레지듀얼 신호의 통계 (row— wise and column-wise residual block statistics )어 1 기초하여 분리 가능한 라인 그래프를 디자인하는 방법을 제공한다.
또한, 본 발명은, 근접 행렬 ( incidence matrix) 및 행 /열에 대한 샘플 공분산 행렬에 기초하여 행 및 열에 대한 그래프 라플라시안 행렬 (graph laplacian matrix)을 계산하는 방법을 제공한다.
또한, 본 발명은, 일반화된 라플라시안 행렬을 추정하기 위한, 레지듀얼 신호의 모델링을 위해 서로 다른 2개의 가우시안 마르코프 랜덤 필드 (Gaussian Markov Random Field, 이하 ¾ GMRF'라 함)를 이용하는 방법을 제공한다. 또한, 본 발명은, 인트라 예측 또는 인터 예측을 위한 레지듀얼 신호들의 모델에 대해 최적의 그래프 기반 분리 가능한 변환 (GBST)을 생성하는 방법을 제공한다.
【발명의 효과】
본 발명은 그래프 기반 표현을 사용하는 강인한 변환을 설계하기 위한 방법을 제공하며 , 이를 통해 보다 양호한 압축을 수행할 수 있다.
본 발명은, 최적의 가중치를 갖는 라인 그래프에 기반하는 2차원 그래프 기반 분리 가능한 변환 (GBST)을 제공함으로써 , 2차원 DCT 및 분리 가능한 1"루넨 -루베 변환 (Karhunen-Loeve transform, 이하 라 함)의 성능을 능가할 수 있다. 예를 들어, 본 발명이 적용되는 GBST는, 분리 가능한 KLT에 비교할 때, 훈련 데이터로부터 보다 적은 파라미터에 대한 학습을 요구함으로써 더욱 강인한 변환을 유도할 수 있다.
또한, GBST는, 인트라 예측 및 인터 예측 코딩에 대해, 다른 변환 방식들과 비교할 때, 보다 강인하고 효율적인 일반화된 변환 방식을 제공할 수 있다,
【도면의 간단한 설명】
도 1은 본 발명이 적용되는 실시예로서, 비디오 신호의 인코딩이 수행되는 인코더의 개략적인 블록도를 나타낸다.
도 2는 본 발명이 적용되는 실시예로서, 비디오 신호의 디코딩이 수행되는 디코더의 개략적인 블록도를 나타낸다.
도 3은 본 발명이 적용되는 실시예로서, 코딩 유닛의 분할 구조를 설명하기 위한 도면이다.
도 4는 본 발명이 적용되는 일실시예로서, 1차원 그래프와 2차원 그래프에 기초하여 그래프 기반 변환 행렬올 획득하는 과정을 설명하기 위한 도면이다. '
도 5는 본 발명이 적용되는 실시예로서 , 그래프 기반 신호를 처리하는 인코더의 개략적 블록도를 예시한다 .
도 6은 본 발명이 적용되는 실시예로서, 그래프 기반 신호를 처리하는 디코더의 개략작 블록도를 예시한다.
도 7은 본 발명아 적용되는 일실시예로서, 그래프 기반 변환을 수행하는 그래프 기반 변환부의 내부 블록도를 나타낸다. 도 8은 본 발명이 적용되는 일실시예로서, 인트라 예측 또는 인터 예측의 레지듀얼 신호에 대한 1차원 GMRF 모델들을 나타낸다.
도 9는 본 발명이 적용되는 일실시예로서, 최적의 가중치를 갖는 라인 그래프에 기반하는 그래프 기반 분리 가능한 변환 (GBST)을 생성하는 과정을 설명하기 위한 흐름도이다.
도 10은 본 발명이 적용되는 일실시예로서, 최적의 가중치를 갖는 라인 그래프에 기반하는 그래프 기반 분리 가능한 변환 (GBST)에 기초하여 디코딩을 수행하는 과정을 설명하기 위한 흐름도이다.
도 11은 본 발명이 적용되는 일실시예로서, 인트라 예측 모드 및 인터 예측 모드에 대해 최적화된 그래프들을 나타낸다 . .
도 12는 본 발명이 적용되는 일실시예로서, 인트라 예측 및 인터 예측의 레지듀얼 신호에 대한 분리 가능한 카루넨 -루베 변환 (Karhunen-Loeve transform)와 그래프 기반 분리 가능한 변환 (GBST)의 코딩 성능을 비교한 표이다.
도 13은 본 발명이 적용되는 일실시예로서, 인트라 예측의 레지듀얼 신호에 대한 하이브리드 이산 코사인 변환 (DCT) /비대칭 이산 사인 변환 (Asymmetric Discrete Sine Transform, 이하 X ADST'라 함 -)와 그래프 기반 분리 가능한 변환 (GBST)의 코딩 성능을 비교한 표이다.
【발명의 실시를 위한 최선의 형태】
본 발명은, 그래프 기반 분리가능 변환 (graph— based separable transform, GBST)에 기초하여 비디오 신호를 인코딩하는 방법에 있어서, 라인 그래프를 나타내는 근접 행렬 ( incidence matrix)올 생성하는 단계 ; 레지듀얼 신호의 행과 열로부터 행 및 열에 대한 샘플 공분산 행렬 ( sample covariance matrix)을 훈련하는 단계 ; 상기 근접 행렬 및 상기 행 및 열에 대한 샘플 공분산 행렬에 기초하여 행 및 열에 대한 그래프 라플라시안 행렬 (graph laplacian matrix)을 계산하는 단계 ; 및 상기 행 및 열에 대한 그래프 라플라시안 행렬에 고유 분해 ( eigen decomposition)를 수행함으로써 GBST 를 획득하는 단계를 포함하는 것을 특징으로 하는 방법을 제공한다.
또한, 본 발명에서, 상기 행 및 열에 대한 그래프 라플라시안 행렬은 링크 가중치 파라미터 ( link weighting parameter) 및 재귀 루프 파라미터 (recursive loop parameter)에 의해 정의되는 것을 특징으로 한다. 또한, 본 발명에서, 서로 다른 2개의 가우시안 마르코프 랜덤 필드 (Gaussian Markov Random Field, GMRF)는, 인터 레지듀얼 신호 및 인트라 레지듀얼 신호의 모델링을 위해 이용되는 것을 특징으로 한다.
또한, 본 발명에서, 상기 인트라 레지듀얼 신호의 경우, 1차원 GMRF 는 참조 샘플의 왜곡 성분 (distortion component ) , 현재 샘폴의 가우시안 노이즈 성분 (Gausian noise component ) 또는 공간 상관 계수 ( spatial correlation coef ficient ) 중 적어도 하나를 포함하는 모델인 것을 특징으로 한다.
또한, 본 발명에서, 상기 인터 레지듀얼 신호의 경우, 1차원 GMRF 는 참조 샘플의 왜곡 성분, 현재 샘플의 가우시안 노이즈 성분, 시간 상관 계수 (temporal correlation coeff icient ) 또는 공간 상관 계수 ( spatial correlation coef f icient) 증 적어도 하나를 포함하는 모델인 것을 특징으로 한다 . 또한, 본 발명은, 그래프 기반 분리가능 변환 (graph-based separable transform, GBST)에 기초하여 비디오 신호를 디코딩하는 법에 있어서, 상기 비디오 신호로부터 레지듀얼 신호를 추출하는 단계; 상기 GBST에 기초하여 상기 레지듀얼 신호에 대해 역변환을 수행하는 단계; 및 상기 역변환된 레지듀얼 신호를 예측 신호와 합함으로써 복원 신호를 생성하는 단계를 포함하되 상기 GBST는 상기 레지듀얼 신호의 행들 및 열들의 GMRF 모델링에 의해 획득된 라인 그래프들에 기초하여 생성된 변환을 나타내는 것을 특징으로 하는 방법을 제공한다. ᅳ
또한, 본 발명에서, 상기 GBST는 다음 단계들, 라인 그래프를 나타내는 근접 행렬 ( incidence matrix)을 생성하는 단계 ; 레지듀얼 신호의 행과 열로부터 행 및 열에 대한 샘플 공분산 행렬 ( sample covariance matrix)을 훈련하는 단계; 상기 근접 행렬 및 상기 행 및 열에 대한 상기 샘플 공분산 행렬에 기초하여 행 및 열에 대한 그래프 라플라시안 행렬 (graph laplacian matrix)을 계산하는 단계 ; 및 상기 행 및 열에 대한 그래프 라플라시안 행렬에 고유 분해 (eigen decomposition) 수행할으로써 GBST 를 획득하는 단계에 따라 생성된 것을 특징으로 한다.
또한, 본 발명은, 그래프 기반 분리가능 변환 ( graph-based separable transform, GBST)에 기초하여 비디오 신호를 인코당하는 장치에 있어서 , 라인 그래프를 나타내는 근접 행렬 ( incidence matrix)을 생성하는 그래프 생성부; 레지듀얼 신호의 행과 열로부터 행 및 열에 대한 샘플 공분산 행렬 ( sample covariance matrix)을 훈련하고, 상기 근접 행렬 및 상기 행 및 열에 대한 샘풀 공분산 행렬에 기초하여 행 및 열에 대한 그래프 라플라시안 행렬 (graph laplacian matrix)을 계산하고, 상기 행 및 열에 대한 그래프 라플라시안 행렬에 고유 분해 ( eigen decomposition)를 수행함으로써 GBST 를 획득하는 GBST부를 포함하는 것을 특징으로 하는 장치를 제공한다.
또한, 본 발명은, 그래프 기반 분리가능 변환 (graph-based separable transform, GBST)에 기초하여 비디오 신호를 디코딩하는 장치에 있어서, 상기 비디오 신호로부터 레지듀얼 신호를 추출하는 파성부; 상기 GBST에 기초하여 상기 레지듀얼 신호에 대해 역변환을 수행하는 역변환부; 및 상기 역변환된 레지듀얼 신호를 예측 신호와 합함으로써 복원 신호를 생성하는 복원부를 포함하되, 상기 GBST는 상기 레지듀얼 신호의 행들 및 열들의 GMRF 모델링에 의해 획득된 라인 그래프들에 기초하여 생성된 변환을 나타내는 것을 특징으로 하는 장치를 제공한다. ·
【발명의 실시를 위한 형태】
이하, 첨부된 도면을 참조하여 본 발명의 실시예의 구성과 그 작용을 설명하며 , 도면에 의해서 설명되는 본 발명의 구성과 작용은 하나의 실시예로서 설명되는 것이며 , 이것에 의해서 본 발명의 기술적 사상과 그 핵심 구성 및 작용이 제한되지는 않는다.
아울러, 본 발명에서 사용되는 용어는 가능한 한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 특정한 경우는 출원인이 임의로 선정한 용어를 사용하여 설명한다 . 그러한 경우에는 해당 부분의 상세 설명에서 그 의미를 명확히 기재하므로, 본 발명의 설명에서 사용된 용어의 명칭만으로 단순 해석되어서는 안 될 것이며 그 해당 용어의 의미까지 파악하여 해석되어야 함을 밝혀두고자 한다. 또한, 본 발명에서 사용되는 용어들은 발명을 설명하기 위해 선택된 일반적인 용어들이나, 유사한 의미를 갖는 다른 용어가 있는 경우 보다 적절한 해석을 위해 대체 가능할 것이다. 예를 들어, 신호, 데이터, 샘플, 픽쳐, 프레임, 블록 등의 경우 각 코딩 과정에서 적절하게 대체되어 해석될 수 있을 것이다. 또한, 파티셔닝 (partitioning) , 분해 (decomposition) , 스플리팅 (splitting) 및 분할 (division) 등의 경우에도 각 코딩 과정에서 적절하게 대체되어 해석될 수 있을 것이다ᅳ 도 1은 본 발명이 적용되는 실시예로서, 비디오 신호의 인코딩이 수행되는 인코더의 개략적인 블록도를 나타낸다.
도 1을 참조하면 , 인코더 (100)는 영상 분할부 (110) , 변환부 (120) , 양자화부 (130) , 역양자화부 (140) , 역변환부 (150) , 필터링부 (160) , 복호 픽쳐 버퍼 (DPB: Decoded Picture Buffer) (170) , 인터 예측부 (180) , 인트라 예측부 (185) 및 엔트로피 인코딩부 (190)를 포함하여 구성될 수 있다. 영상 분할부 (110)는 인코더 (100)에 입력된 입력 영상 (input image) (또는, 픽쳐 , 프레임)를 하나 이상의 처리 유닛으로 분할할 수 있다. 예를 들어 , 상기 처리 유닛은 코딩 트리 유닛 (CTU: Coding Tree Unit) , 코딩 유닛 (CU: Coding Unit) , 예측 유닛 (PU: Prediction Unit) 또는 변환 유닛 (TU: Transform Unit) ¾ 수 있다.
다만, 상기 용어들은 본 발명에 대한 설명의 편의를 위해 사용할 뿐이며, 본 발명은 해당 용어의 정의에 한정되지 않는다. 또한, 본 명세서에서는 설명의 편의를 위해, 비디오 신호를 인코딩 또는 디코딩하는 과정에서 이용되는 단위로써 코딩 유닛이라는 용어를 사용하지만, 본 발명은 그에 한정되지 않으며 발명 내용에 따라 적절하게 해석 가능할 것이다. 인코더 (100)는 입력 영상 신호에서 인터 예측부 (180) 또는 인트라 예측부 (185)로부터 출력된 예측 신호 (prediction signal)를 감산하여 잔여 신호 (residual signal)를 생성할 수 있고, 생성된 잔여 신호는 변환부 (120)로 전송된다.
변환부 (120)는 잔여 신호에 변환 기법을 적용하여 변환 계수 (transform coefficient)를 생성할 수 있다. 변환 과정은 정사각형의 동일한 크기를 갖는 픽셀 불록에 적용될 수도 있고, 정사각형이 아닌 가변 크기의 블록에도 적용될 수 있다.
상기 변환부 (120)는 픽샐 간 관계 정보를 그래프로 표현하여 처리하는 그래프 기반 신호 처리 방식을 이용할 수 있다. 예를 들어, 상기 변환부 (120)는 그래프' 기반 변환부 (Graph-Based Transform Unit)를 포함할 수 있고, 상기 그래프 기반 변환부 (GBT unit)는 라인 그래프를 나타내는 근접 행렬 (incidence matrix)을 생성하고, 레지듀얼 신호의 행과 열로부터 행 및 열에 대한 샘플 공분산 행렬 (sample covariance matrix)을 훈련하고, 상기 근접 행렬 및 상기 행 및 열에 대한 샘플 공분산 행렬에 기초하여 행 및 열에 대한 그래프 라플라시안 행렬 (graph laplacian matrix)을 계산하고, 상기 행 및 열에 대한 그래프 라플라시안 행렬에 고유 분해 (eigen decomposition) f- 수행함으로써 GBST 를 획득할 수 있다.
본 발명의 일실시예는, 최적의 가중치를 갖는 라인 그래프에 기반하는 그래프 기반 분리 가능한 변환을 제공한다.
본 발명의 일실시예는, 행별 및 열별 레지듀얼 신호의 통계 ( row-wise and column-wise residual block statistics)어 1 기초하여 분리 가능한 라인 그래프를 디자인하는 방법을 제공한다.
본 발명의 일실시예는, 근접 행렬 ( incidence matrix) 및 행 /열에 대한 샘플 공분산 행렬에 기초하여 행 및 열에 대한 그래프 라플라시안 행렬 (graph laplacian matrix)을 계산하는 방법을 제공한다.
본 발명의 일실시예는, 일반화된 라풀라시안 행렬을 추정하기 위한 레지듀얼 신호의 모델링을 위해 서로 다른 2개의 가우시안 마르코프 랜덤 필드 (Gaussian Markov Random Field, 이하 > GMRF '라 함)를 이용하는 방법을 제공한다.
본 발명의 일실시예는, 인트라 예측 또는 인터 예측을 위한 레지듀얼 신호들의 모델에 대해 최적의 그래프 기반 분리 가능한 변환 (GBST)을 생성하는 방법을 제공한다.
다른 예로, 상기 변환부 ( 120 )는 그래프 기반 변환부 (Graph-Based Transform Unit )를 포함할 수 있고, 상기 그래프 기반 변환부 (GBT unit)는 비디오 데이터에 대해 적어도 하나의 데이터 클러스터 (data cluster)를 생성하고, 그에 대응되는 적어도 하나의 그래프 라플라시안 행렬 ( graph laplacian matrix)을 생성하고, 이를 포함하는 다중 그래프 기반 모델들 (multiple graph based nrodels 기초하여 변환 최적화 ( transform optimization)를 수행함으로써 최적화된 변환 행렬을 생성할 수 있다. 본 발명이 적용되는 그래프 기반 변환부는 별개의 기능 유닛으로 존재할 수 있고, 이 경우 상기 그래프 기반 변환부는 상기 변환부 (120) 앞에 위치할 수 있으나, 본 발명은 이에 한정되지 않는다.
양자화부 (130)는 변환 계수를 양자화하여 엔트로피 인코딩부 (190)로 전송하고, 엔트로피 인코딩부 (190)는 양자화된 신호 (quantized signal)를 엔트로피 코딩하여 비트스트림으로 출력할 수 있다.
양자화부 (130)로부터 출력된 양자화된 신호 (quantized signal)는 예측 신호를 생성하기 위해 이용될 수 있다. 예를 들어, 양자화된 신호 (quantized signal)는 루프 내의 역양자화부 (140) 및 역변환부 (150)를 통해 역양자화 및 역변환을 적용함으로써 잔여 신호를 복원할 수 있다. 복원된 잔여 신호를 인터 예측부 (180) 또는 인트라 예측후 (185)로부터 출력된 예측 신호 (prediction signal)에 더함으로써 복원 신호 (reconstructed signal)가 생성될 수 있다.
한편, 위와 같은 압축 과정에서 인접한 블록들이 서로 다른 양자화 파라미터에 의해 양자화됨으로써 블록 경계가 보이는 열화가 발생될 수 있다. 이러한 현상을 블록킹 열화 (blocking artifacts)라고 하며, 이는 화질을 평가하는 중요한 요소 중의 하나이다. 이러한 열화를 줄이기 위해 필터링 과정을 수행할 수 있다. 이러한 필터링 과정을 통해 블록킹 열화를 제거함과 동시에 현재 픽쳐에 대한 오차를 줄임으로써 화질을 향상시킬 수 있게 된다.
필터링부 (ISO)는 복원 신호에 필터링을 적용하여 이를 재생 장치로 출력하거나 복호 픽쳐 버퍼 (170)에 전송한다. 복호 픽쳐 버퍼 (170)에 전송된 필터링된 신호는 인터 예측부 (180)에서 참조 픽쳐로 사용될 수 있다. 이처럼 , 필터링된 픽쳐를 화면간 예측 모드에서 참조 픽쳐로 이용함으로써 화질 뿐만 아니라 부호화 효율도 향상시킬 수 있다.
복호 픽쳐 버퍼 (170)는 필터링된 픽쳐를 인터 예측부 (180)에서의 참조 픽쳐로 사용하기 위해 저장할 수 있다.
인터 예측부 (180)는 복원 픽쳐 (reconstructed picture)를 참조하여 시간적 중복성 및 /또는 공간적 중복성을 제거하기 위해 시간적 예측 및 /또는 공간적 예측을 수행한다. 여기서, 예측을 수행하기 위해 이용되는 참조 픽쳐는 이전 시간에 부호화 /복호화 시 블록 단위로 양자화와 역양자화를 거친 변환된 신호이기 때문에 , 블로킹 아티팩트 (blocking artifact)나 링잉 아티팩트 (ringing artifact)가 존재할 수 있다.
따라서 , 인터 예측부 (180)는 이러한 신호의 불연속이나 양자화로 인한 성능 저하를 해결하기 위해, 로우패스 필터 (lowpass filter)를 적용함으로써 픽셀들 사이의 신호를 서브 픽셀 단위로 보간할 수 있다. 여기서, 서브 픽셀은 보간 필터를 적용하여 생성된 가상의 화소를 의미하고, 정수 픽셀은 복원된 픽쳐에 존재하는 실제 화소를 의미한다. 보간 방법으로는 선형 보간, 양선형 보간 (bi- linear ' interpolation) , 위너 필터 (wiener filter) 등이 적용될 수 있다.
보간 필터는 복원 픽쳐 (reconstructed picture)에 적용되어 예측의 정밀도를 향상시킬 수 있다. 예를 들어, 인터 예측부 (180)는 정수 픽셀에 보간 필터를 적용하여 보간 픽셀을 생성하고, 보간 픽셀돌 (interpolated pixels)로 구성된 보간 블록 (interpolated block)§: 예측 블록 (prediction block)으로사용하여 예측을 수행할 수 있다. 인트라 예측부 (185)는 현재 부호화를 진행하려고 하는 블록의 주변에 있는 샘플들올 참조하여 현재 블특을 예측할 수 있다. 상기 인트라 예측부 (185)는 인트라 예측을 수행하기 위해 다음과 같은 과정을 수행할 수 있다. 먼저, 예측 신호를 생성하기 위해 필요한 참조 샘플을 준비할 수 있다. 그리고, 준비된 참조 샘플을 이용하여 예측 신호를 생성할 수 있다. 이후, 예측 모드를 부호화하게 된다. 이때, 참조 샘플은 참조 샘플 패딩 및 /또는 참조 샘플 필터링을 통해 준비될 수 있다. 참조 샘플은 예측 및 복원 과정을 거쳤기 때문에 양자화 에러가 존재할 수 있다. 따라서, 이러한 에러를 줄이기 위해 인트라 예측에 이용되는 각 예측모드에 대해 참조 샘플 필터링 과정이 수행될 수 있다. 상기 인터 예측부 (180) 또는 상기 인트라 예측부 (185)를 통해 생성된 예측 신호 (prediction signal)는 복원 신호를 생성하기 위해 이용되거나 잔여 신호를 생성하기 위해 이용될 수 있다. 도 2는 본 발명이 적용되는 실시예로서, 비디오 신호의 디코딩이 수행되는 디코더의 개략적인 블록도를 나타낸다.
도 2를 참조하면, 디코더 (200)는 파싱부 (미도시) , 엔트로피 디코딩부 (210) , 역양자화부 (220) , 역변환부 (230) , 필터링부 (240) , 복호 픽쳐 버퍼 (DPB: Decoded Picture Buffer Unit) (250) , 인터 예축부 (260) , 인트라 예측부 (265) 및 복원부 (미도시 )를 포함하여 구성될 수 있다.
그리고, 디코더 (200)를 통해 출력된 복원 영상 신호 (reconstructed video signal)는 재생 장치를 통해 재생될 수 있다 .
디코더 (200)는 도 1의 인코더 (100)로부터 출력된 신호을 수신할 수 있고, 수신된 신호는 엔트로피 디코딩부 (210)를 통해 엔트로피 디코딩될 수 있다.
본 발명의 일실시예로, 상기 디코더 또는 상기 엔트로피 디코딩부 (210)는 모드 인텍스를 수신할 수 있다. 여기서 , 상기 모드 인텍스는 다증 그래프 기반 모델들에 기초하여 최적화된 변환 행렬에 대응될 수 있다 . 예를 들어, 상기 모드 인덱스는 DCT 행렬을 나타내거나, EA-GBT 행렬을 나타낼 수 있다.
상기 모드 인덱스는 상기 엔트로피 디코딩부 (210)를 통해 엔트로피 디코딩되고, 역변환부 (230)에서 역변환을 수행하기 위해 이용될 수 있다.
다만, 본 발명은 이에 한정되지 않으며 , 예를 들어 상기 모드 인덱스는 .. 본 발명의 디코딩을 위해 필수적인 요소가 아닐 수 있다.
역양자화부 (220)에서는 양자화 스템 사이즈 정보를 이용하여 엔트로피 디코딩된 신호로부터 변환 계수 (transform coefficient)를 획득한다. 여기서 , 획득된 변환 계수는 상기 도 1의 변환부 (120)에서 설명한 다양한 실시예들이 적용된 것일 수 있다. 역변환부 (230)에서는 변환 계수를 역변환하여 잔여 신호 (residual signal)를 획득하게 된다. 예를 들어 , 상기 역변환시 GBST가 이용될 수 있으며, 상기 GBST는 레지듀얼 신호의 행들 및 열들의 가우시안 마르코프 랜덤 필드 (GMRF) 모델링에 의해 획득된 라인 그래프들에 기초하여 생성된 변환일 수 있다.
획득된 잔여 신호를 인터 예측부 (260) 또는 인트라 예측부 (265)로부터 출력된 예측 신호 (prediction signal)에 더함으로써 복원 신호 (reconstructed signal)가 생성된다.
필터링부 (240)는 복원 신호 (reconstructed signal)에 필터링을 적용하여 이를 재생 장치로 출력하거나 복호 픽쳐 버퍼부 (250)에 전송한다. 복호 픽쳐 버퍼부 (250)에 전송된 필터링된 신호는 인터 예측부 (260)에서 참조 픽쳐로 사용될 수 있다.
본 명세서에서 , 인코더 (100)의 필터링부 (160) , 인터 예측부 (180) 및 인트라 예측부 (185)에서 설명된 실시예들은 각각 디코더의 필터링부 (240) , 인터 예측부 (260) 및 인트라 예측부 (265)에도 동일하게 적용될 수 있다. 도 3은 본 발명이 적용되는 실시예로서, 코딩 유닛의 분할 구조를 설명하기 위한 도면이다.
인코더는 하나의 영상 (또는 픽쳐)올 사각형 형태의 코딩 트리 유닛 (CTU: Coding Tree Unit) 단위로 분할할 수 있다. 그리고, 래스터 스캔 순서 (raster scan order)에 따라 하나의 CTU씩 순차적으로 인코딩한다. 예를 들어, -CTU의 크기는 64x64, 32x32, 16x16 증 어느 하나로 정해질 수 있으나, 본 발명은 이에 한정되지 않는다. 인코더는 입력된 영상의 해상도 또는 입력된 영상의 특성 둥에 따라 CTU의 크기를 선택하여 사용할 수 있다 . CTU은 휘도 (luma) 성분에 대한 코딩 트리 블록 (CTB: Coding Tree Block)과 이에 대웅하는 두 개의 색차 (chroma) 성분에 대한 코딩 트리 블톡 (C B: Coding Tree Block)을 포함할 수 있다.
하나의 CTU은 쿼드트리 (quadtree, 이하 'QT'라 함) 구조로 분해될 수 있다. 예를 들어, 하나의 CTU은 정사각형 형태를 가지면서 각 변의 길이가 절반씩 감소하는 4개의 유닛으로 분할될 수 있다. 이러한 QT 구조의 분해는 재귀적으로 수행될 수 있다.
도 3을 참조하면 , QT의 루트 노드 (root node)는 CTU와 관련될 수 있다. QT는 리프 노드 (leaf node)에 도달할 때까지 분할될 수 있고, 이때 상기 리프 노드는 코딩 유닛 (CU: Coding Unit)으로 지칭될 수 있다.
CU은 입력 영상의 처리 과정, 예컨대 인트라 (intra)/인터 (inter) 예측이 수행되는 코딩의 기본 단위를 의미할 수 있다. CU은 휘도 (luma) 성분에 대한 코딩 블록 (CB: Coding Block)과 이에 대웅하는 두 개의 색차 (chroma) 성분에 대한 CB를 포함할 수 있다. 예를 들어, CU의 크기는 64X64, 32x32, 16x16, 8x8 중 어느 하나로 정해질 수 있으나, 본 발명은 이에 한정되지 않으며, 고해상도 영상일 경우, CU의 크기는 더 커지거나 다양해질 수 있다. 도 3을 참조하면 , CTU는 루트 노드 (root node)에 해당되고, 가장 작은 깊이 (depth) (즉, 레벨 0) 값을 가진다. 입력 영상의 특성에 따라 CTU가 분할되지 않을 수도 있으며, 이 경우 CTU은 CU에 해당된다.
CTU은 QT 형태로 분해될 수 있으며, 그 결과 레벨 1의 깊이를 가지는 하위 노드들이 생성될 수 있다. 그리고, 레벨 1의 깊이를 가지는 하위 노드에서 더 이상 분할되지 않은 노드 (즉, 리프 노드)는 CU에 해당한다. 예를 들어 , 도 3 (b)에서 노드 a, b 및 j에 대웅하는 CU(a) , CU(b) , CU(j)는 CTU에서 한 번 분할되었으며, 레벨 1의 깊이를 가진다.
레벨 1의 깊이를 가지는 노드 중 적어도 어느 하나는 다시 QT 형태로 분할될 수 있다. 그리고, 레벨 2의 깊이를 가지는 하위 노드에서 더 이상 분할되지 않은 노드 (즉, 리프 노드)는 CU에 해당한다. 예를 들어 , 도 3 (b)에서 노드 c, h 및 i에 대웅하는 CTJ(c) , CU(h) , CU(i)는 CTU에서 두 번 분할되었으며 , 레벨 2의 깊이를 가진다.
또한, 레벨 2의 깊이를 가지는 노드 중 적어도.어느 하나는 다시 QT 형태로 분할될 수 있다. 그리고, 레벨 3의 깊이를 가지는 하위 노드에서 더 이상 분할되지 않은 노드 (즉, 리프 노드)는 CU에 해당한다. 예를 들어 , 도 3 (b)에서 노드 d, e, f, g에 대응하는 CU(d) , CU(e) , CU(f ) , CU(g)는 CTU에서 3번 분할되었으며, 레벨 3의 깊이를 가진다.
인코더에서는 비디오 영상의 특성 (예를 들어 , 해상도)에 따라서 혹은 부호화의 효율을 고려하여 CU의 최대 크기 또는 최소 크기를 결정할 수 있다. 그리고, 이에 대한 정보 또는 이를 유도할 수 있는 정보가 비트스트림에 포함될 수 있다. 최대 크기를 가지는 CU를 최대 코딩 유닛 (LCU: Largest Coding Unit)이라고 지칭하며 , 최소 크기를 가지는 CU를 최소 코딩 유닛 (SCU: Smallest Coding Unit)이라고 지칭할 수 있다.
또한, 트리 구조를 갖는 CU은 미리 정해진 최대 깊이 정보 (또는, 최대 레벨 정보)를 가지고 계충적으로 분할될 수 있다 . 그리고, 각각의 분할된 CU은 깊이 정보를 가질 수 있다. 깊이 정보는 CU의 분할된 횟수 및 /또는 정도를 나타내므로, CU의 크기에 관한 정보를 포함할 수도 있다.
LCU가 QT 형태로 분할되므로, LCU의 크기 및 최대 깊이 정보를 이용하면 SCU의 크기를 구할 수 있다. 또는 역으로, SCU의 크기 및 트리의 최대 깊이 정보를 이용하면, L J의 크기를 구할 수 있다.
하나의 CU에 대하여, 해당 CU이 분할 되는지 여부를 나타내는 정보가 디코더에 전달될 수 있다. 예를 들어, 상기 정보는 분할 플래그로 정의될 수 있으며, 신택스 엘리먼트 "split_CUᅳ flag"로 표현될 수 있다. 상기 분할 플래그는 SCU을 제외한 모든 CU에 포함될 수 있다. 예를 들어, 상기 분할 플래그의 값이 '1'이면 해당 CU은 다시 4개의 CU으로 나누어지고, 상기 분할 플래그의 값이 '0'이면 해당 CU은 더 이상 나누어지지 않고 해당 CU에 대한 코딩 과정이 수행될 수 있다.
앞서 도 3의 실시예에서는 CU의 분할 과정에 대해 예로 들어 설명하였으나, 변환을 수행하는 기본 단위인 변환 유닛 (TU: Transform Unit)의 분할 과정에 대해서도 상술한 QT 구조를 적용할 수 있다.
TU는 코딩하려는 CU로부터 QT 구조로 계층적으로 분할될 수 있다. 예를 들어 , J은 변환 유닛 (TU)에 대한 트리의 루트 노트 (root node)에 해당될 수 있다.
TU는 QT 구조로 분할되므로 CU로부터 분할된 TU는 다시 더 작은 하위 TU로 분할될 수 있다. 예를 들어, TU의 크기는 32x32, 16x16, 8x8, 4x4 중 어느 하나로 정해질 수 있으나, 본 발명은 이에 한정되지 않으며, 고해상도 영상일 경우, TU의 크기는 더 커지거나 다양해질 수 있다.
하나의 TU에 대하여, 해당 TU이 분할 되는지 여부를 나타내는 정보가 디코더에 전달될 수 있다. 예를 들어, 상기 정보는 분할 변환 플래그로 정의될 수 있으며, 신택스 엘리먼트 "split_transform_flag "로 표현될 수 있다. 상기 분할 변환 플래그는 최소 크기의 Τϋ을 제외한 모든 TU에 포함될 수 있다. 예를 들어 , 상기 분할 변환 폴래그의 값이 ,1'이면 해당 TU은 다시 4개의 Τϋ으로 나누어지고, 상기 분할 변환 플래그의 값이 ,0 '이면 해당 TU은 더 이상 나누어지지 않는다 . 상기에서 설명한 바와 같이, CU는 인트라 예측 또는 인터 예측이 수행되는 코딩의 기본 단위이다. 입력 영상을 보다 효과적으로 코딩하기 위하여 CU를 예측 유닛 (PU: Prediction Unit) 단위로 분할할 수 있다.
PU는 예측 블록을 생성하는 기본 단위로서, 하나의 CU 내에서도 Ρϋ 단위로 서로 다르게 예측 블록올 생성할 수 있다. PU는 PU가 속하는 CU의 코딩 모드로 인트라 예측 모드가 사용되는지 인터 예측 모드가 사용되는지에 따라 상이하게 분할될 수 있다. 도 4는 본 발명이 적용되는 일실시예로서, 1차원 그래프와 2차원 그래프에 기초하여 그래프 기반 변환 행렬을 획득하는 과정을 설명하기 위한 도면이다.
본 발명의 일실시예로, 이미지 내 픽셀 블록의 처리를 위해 사용될 수 있는 그래프 타입은 도 4를 통해 설명될 수 있다 . 예를 들어 , 도 4 (a)는 픽셀 블록의 각 라인에 대응되는 1차원 그래프를 나타내고, 도 4 (b)는 픽셀 블특에 대응되는 2차원 그래프를 나타낼 수 있다.
그래프 꼭지점 (vertex)은 픽셀 블록의 각 픽셀에 연관되며, 그래프 꼭지점의 값은 픽샐 값으로 표현될 수 있다. 그리고, 그래프 에지 (graph edge)는 그래프 꼭지점을 연결하는 선을 의미할 수 있다. 상기 그래프 에지는 신호 내의 어떠한 형태의 통계적 의존성을 나타내기 위해 사용되며, 그 강도를 나타내는 값을 에지 가중치 (edge weight)라 할 수 있다.
예를 들어 , 도 4 (a)를 살펴보면, 1차원 그래프를 나타내며 , 0,1, 2, 3은 각 꼭지점의 위치를 나타내고, ^,^,^는 각 꼭지점 간의 에지 가중치를 나타낸다. 도 4(b)를 ,살펴보면 , 2차원 그래프를 나타내며 , ay (i = 0,l,2,3, j=0;l, 2) , bkl (k=0, 1,2, 1 = 0, 1,2, 3)는 각 꼭지점 간의 에지 가중치를 나타낸다.
각 꼭지점은 모든 다른 꼭지점에 연결될 수 있으며 , 0의 에지 가중치는 서로 연관되지 않거나 약하게 연관된 꼭지점들을 연결하는 에지에 할당될 수 있다. 다만, 표현의 간단화를 위해, 0의 에지 가중치를 갖는 에지는 완전히 제거될 수 있다. 그래프 기반 변환 (GBT)의 정의
본 발명이 적용되는 일실시예로 , 그래프 신호로부터 획득되는 변환을 그래프 기반 변환 (Graph-Based Transform, 이하 'GBT'라 함)이라 정의할 수 있다. 예를 들어, TU를 구성하는 픽샐 간의 관계 정보를 그래프로 표현한다고 할 때, 이 그래프로부터 얻어진 변환을 GBT라고 할 수 있다.
픽셀 간의 관계 정보는 다양한 방법으로 표현될 수 있다. 예를 들어, 픽셀 값들 사이의 유사성, 동일한 PU에 속해 있는지 여부, 같은 오브젝트에 속해 있는지 여부 등에 기초하여 픽샐 간의 관계 정보를 표현할 수 있다. 상기 픽셀 간 관계 정보는 각 픽셀올 그래프의 꼭지점에 대응시켰을 때 픽샐들 간의 에지 유무 및 에지 가증치 ( dge weight) 값으로 표현될 수 있다.
이 경우, 상기 GBT는 다음과 같은 과정을 통해 획득될 수 있다. 예를 돌어, 인코더 또는 디코더는 비디오 신호의 타겟 블톡으로부터 그래프 정보를 획득할 수 있다. 가증치 적용된 그래프 g(A,S)가 주어졌을 때, 그래프 정보로부터 다음 수학식 1과 같이 라플라시안 행켤 (Laplacian matrix) L을 획득할 수 있다.
【수학식 1】
L = D - A + V
상기 수학식 1에서 , D는 차수 행렬 (Degree matrix)을 나타내고, 예를 들어 상기 차수 행렬은 각 꼭지점의 차수에 대한 정보를 포함하는 대각 행렬 (diagonal matrix)을 의미할 수 있다. A는 인접 픽셀과의 연결 관계 (예를 들어 , 에지 )를 가중치로 나타내는 인접 행렬 (adj acency matrix)을 나타낸다 . V는 G의 노드들에서의 자기 루프 ( self - loop)를 나타내는 대각 행렬 (diagonal matrix)을 나타낸다 .
그리고, 라플라시안 행렬 ( Laplacian matrix) L에 대해 아래 수학식 2와 같이 고유 분해 (eigen decomposition)를 수행함으로써 GBT 커널을 획득할 수 있다.
【수학식 2】
― L = UAUT
상기 수학식 2에서 , L은 라플라시안 행렬 (Laplacian matrix) , ϋ는 고유 행렬 ( eigen matrix) , Λ는 대각 고유값 행렬 (diagonal eigenvalue matrix) , !^는 ϋ의 전치 행렬 (transpose matrix)을 의미한다. 상기 수학식 2에서 , 상기 고유 행렬 ( eigen matrix) U는 해당 그래프 모델에 맞는 신호에 대해 특화된 그래프 기반 푸리에 (Fourier) 변환을 제공할 수 있다. 예를 들어, 상기 수학식 2를 만족하는 고유 행렬 ( eigen matrix) U는 GBT 커널을 의미할 수 있다.
여기서 , 고유 행렬 (eigen matrix) U의 열들 (columns )은 GBT의 기초 백터들 (basis vectors )을 의미할 수 있다. 그래프가 자기 루프 ( self - loop )가 없으면 , 라플라시안 행렬 ( Laplacian matrix)은 상기 수학식 1에서 V= 0 인 경우와 같다. 그래프 기반분리 가능한변환 (GBST)의 정의
본 발명에서 , 그래프 기반 분리 가능한 변환 (GBST)은 가중치 적용된 라인 그래프들의 일반화된 그래프 라플라시안 행렬로부터 유도되는 2개의 그래프 기반 변환들 ( GBTS )을 이용하여 정의될 수 있다.
Urow 및 Uc이가 GBT의 (NxN) 기저 행렬 (basis matrix)이라 하면 , 상기 Urow 및 Uc이는 (NXN) 블록 X의 각 행 및 각 열에 적용될 수 있다. 이때, 상기 블록 X의 GBST는 다음 수학식 3과 같이 정의될 수 있다.
【수학식 3】
Figure imgf000025_0001
여기서 , X는 블록 X의 GBST를 나타내고, Urow 및 !;띠는 (NxN) 블록 X의 각 행 및 각 열에 대한 GBT의 기저 행렬들을 나타내고 , 11 01는 Uc이의 전 71 행렬 ( transpose matrix)을 나타낸다. 도 5는 본 발명이 적용되는 실시예로서, 그래프 기반 신호를 처리하는 인코더의 개략적 블록도를 예시한다.
상기 도 1 및 도 2에서와 같은 비디오 코딩 구조에서는 DCT와 같은 고정된 변환이 이용될 수 있다. DCT는 낮은 복잡도를 가짐에도 불구하고, 고정 블록 변환을 이용한다는 점에서 문제가 있다. 이는 암묵적으로 모든 레지듀얼 신호가 동일한 등방성 통계 특성을 가지고 있다고 가정하에 수행되는 것이다. 그러나, 실제 레지듀얼 블록들은 비디오 컨텐츠 및 예측 모드들에 의존하여 매우 상이한 통계적 특징들을 갖기 때문에, 레지듀얼 블록들의 통계적 특징들을 적응적으로 변경할 필요가 있다.
본 발명은, 최적의 라인 그래프에 기반하는 그래프 기반 분리 가능한 변환 (GBST)을 설계하기 위한 새로운 프레임워크를 제안한다 . 먼저 , 각 예측 모드 내에서 관측되는 레지듀얼 블록들의 행-별 및 열-별 통계적 특성돌에 기반하여 2개의 분리 가능한 라인 그래프들을 생성할 수 있다. 이후,' 2개의 분리 가능한 라인 그래프들에 대웅되는 그래프 기반 변환 (GBT)을 이용하여 , 즉 레지듀얼 블록들의 행들 및 열들에 GBT를 적용함으로써 GBST를 생성할 수 있다. 상기 도 5를 살펴보면, 본 발명이 적용되는 인코더 (500)는 그래프 기반 변환부 (510) , 양자화부 (520) , 역양자화부 (530) , 역변환부 (540) , 버퍼 (550) , 예측부 (560) 및 엔트로피 인코딩부 (570)을 포함한다.
인코더 (500)는 비디오 신호를 수신하고 상기 비디오 신호로부터 상기 예측부 (560)에서 출력된 예측된 신호를 차감하여 레지듀얼 신호를 생성한다. 상기 생성된 레지듀얼 신호는 상기 그래프 기반 변환부 (510)으로 전송되고, 상가 그래프 기반 변환부 (510)은 변환 방식을 상기 레지듀얼 신호에 적용함으로써 변환 계수를 생성한다 .
예를 들어 , 상기 그래프 기반 변환부 (510)는 레지듀얼 블록들의 행-별 및 열-별 통계적 특성들에 기반하여 2개의 분리 가능한 라인 그래프들을 생성할 수 있다. 이후, 2개의 분리 가능한 라인 그래프들에 대응되는 그래프 기반 변환 (GBT)을 이용하여 , 즉 레지듀얼 블록들의 행들 및 열들에 GBT를 적용함으로써 GBST를 생성할 수 있다.
상기 양자화부 (520)은 상기 생성된 GBST 계수를 양자화하여 상기 양자화된 계수를 엔트로피 인코딩부 (570)으로 전송한다.
상기 엔트로피 인코딩부 (570)은 상기 양자화된 신호에 대한 엔트로피 코딩을 수행하고 엔트로피 코딩된 신호를 출력한다 .
상기 양자화부 (520〉에 의해 출력된 상기 양자화된 신호는 예측 신호를 생성하기 위해 사용될 수 있다. 예를 들어 , 상기 인코더 (500)의 루프 내의 상기 역양자화부 (530) 및 상기 역변환부 (540)은 상기 양자화된 신호가 레지듀얼 신호로 복원되도록 상기 양자화된 신호에 대한 역양자화 및 역변환을 수행할 수 있다. 복원된 신호는 상기 복원된 레지듀얼 신호를 상기 예측부 (560)에 의해 출력된 예측 신호에 더함으로써 생성될 수 있다.
상기 버퍼 (550)는 예측부 (560)의 향후 참조를 위해 복원된 신호를 저장한다.
상기 예측부 (560)은 이전에 복원되어 상기 버퍼 (550)에 저장된 신호를 사용하여 예측 신호를 생성할 수 있다. 이러한 경우, 본 발명은 앵커 (anchor) 이미지 내 영역을 사용하여 목표 이미지 내 영역을 효율적으로 예측하는 것에 관련된 것이다. 여기서, 상기 앵커 이미지는 참조 이미지, 참조 픽쳐 또는 참조 프레임을 의미할 수 있다ᅳ 효율은 율 -왜곡 (Rate-Distortion) 비용 또는 레지듀얼 신호 내 왜곡을 정량화하는 평균 제곱 에러를 산출함으로써 결정될 수 있다. 도 6은 본 발명이 적용되는 실시예로서, 그래프 기반 신호를 처리하는 디코더의 개략적 블록도를 예시한다 .
도 6의 디코더 (600)는 도 5의 인코더 (500)에 의해 출력된 신호를 수신하고 수신된 신호로부터 레지듀얼 신호를 획득할 수 있다.
상기 엔트로피 디코딩부 (610)은 상기 레지듀얼 신호에 대해 엔트로피 디코딩을 수행한다. 상기 역양자화부 (620)은 양자화 단계 크기 (quantization step size) 정보를 기초로 하여 상기 엔트로피 디코딩된 신호로부터 변환 계수를 획득한다. 여기서, 상기 변환 계수는 GBST 계수를 의미할 수 있다. 상기 역변환부 (630)은 변환 계수에 대한 역변환을 수행함으로써 레지듀얼 신호를 취득한다. 이때, 상기 역변환은 상기 인코더 (500)에서 생성된 GBST에 대한 역변환을 의미할 수 있다. 여기서, 상기 GBST는 상기 레지듀얼 신호의 행들 및 열들의 GMRF 모델링에 의해 획득된 라인 그래프들에 기초하는 것을 특징으로 한다.
본 발명의 다른 일실시예로, 상기 역변환부 (630)는 DCT 또는 GBST에 대응되는 모드 인텍스를 수신하고, 상기 모드 인텍스에 대응되는 그래프 기반 변환 커널을 획득할 수 있다. 상기 획득된 그래프 기반 커널을 이용하여 변환 유닛을 복원할 수 있다. 여기서, 상기 그래프 기반 변환 커널은 최적의 가중차를 갖는 라인 그래프에 기반하는 GBST를 나타낼 수 있다 .
상기 레지듀얼 신호를 상기 예측부 (650)에 의해 출력된 예측 신호에 더함으로써 복원 신호가 생성될 수 있다.
상기 버퍼 (640)는 상기 예측부 (650)의 향후 참조를 위해 상기 복원 신호를 저장한다.
상기 예측부 (650)은 이전에 복원되어 상기 버퍼 (S40)에 저장된 신호를 기반으로 예측 신호를 생성한다 . 도 7은 본 발명이 적용되는 일실시예로서, 그래프 기반 변환을 수행하는 그래프 기반 변환부의 내부 블록도를 나타낸다,
도 7을 참조하면, 그래프 기반 변환부는 클러스터링부 (미도시) , 그래프 모델링부 ( 710 ) , 변환 최적화부 ( 720 ) 및 변환 수행부 ( 730 )를 포함할 수 있다. 상기 유닛들은 인코더에 필수적으로 포함되어야 하는 것은 아니며, 외부에 저장된 정보를 이용하거나 인코더 내 기정의된 정보를 이용할 수 있다.
클러스터링부 (미도시)는 입력된 비디오 데이터에 대해 클러스터링을 수행하여 적어도 하나의 데이터 클러스터를 생성할 수 있다. 이때, 상기 클러스터링은 예측 모드에 기초하여 수행될 수 있다. 예를 들어, 상기 예측 모드가 인트라 예측 모드인 경우, 상기 적어도 하나의 데이터 클러스터는 상기 인트라 예측 모드에 대한 인트라 레지듀얼 데이터를 나타낸다. 또는, 상기 예측 모드가 인터 예측 모드인 경우, 상기 적어도 하나의 데이터 클러스터는 상기 인터 예측 모드에 대한 인터 레지듀얼 데이터를 나타낸다.
그래프 모델링부. ( 710 )는 데이터 클러스터돌에 대응되는 다중 그래프 기반 모델들을 생성할 수 있고, 상기 다중 그래프 기반 모델들에 대웅되는 그래프 라플라시안 행렬을 생성할 수 있다. 이때, 상기 다중 그래프 기반 모델들 각각은 상기 인트라 예측 모드 또는 상기 인터 예측 모드에 대해 생성될 수 있으며, 예를 들어 도 8에서와 같이 1차원 GMRF 모델이 이용될 수 있다. 변환 최적화부 ( 720 )는 상기 다중 그래프 기반 모델들에 기초하여 변환 최적화를 수행할 수 있다. 여기서 , 상기 변환 최적화는 아래에서 보다 상세히 설명하도록 한다. 그래프 기반 변환의 최적성 (optimality)
KLT7 높은 레이트 }¾ (high rate assumption) 하에서 평균 ^곱 오차 (Mean Square Error, MSE) 기준 측면에서 공통 가우시안 소스들 (jointly Gaussian sources)의 직교 변환 코딩 (orthogonal transform coding)에 대하여 최적임은 잘 알려진 사실이다. 일반화된 그래프 라플라시안에 기초하여 유도된 GBT는 GMRF 모델에 대한 특정 조건 하에서 최적의 KLT와 동일한 효과를 가질 수 있다. 랜덤 백터들 X G 및 y Ε Μ 1^ 어트랙티브 GMRF (attractive
GMRF)에 기반하여 결합 분포 (jointly distributed)되고 레지듀얼 샘플들이
Γ =Χ-Ε[χΜ인 경우 관측된 샘플들 (observed samples) y를 이용하여 x가 최적 예측되면, 일반화된 라플라시안으로부터 유도된 GBT는 높은 비트레이트에서 레지듀얼 백터 r의 직교 변환 코딩에 대하여 최적이다. 여기서, 어트랙티브 GMRF (attractive GMRF)라 함은, 본 명세서 내 수학식 6에서 , Jx 의 모든 비 -대각 성분들 (off -diagonal elements)이 음수가 아닌 경우의 결과 모델을 의미할 수 있다.
이하에서 설명될, 도 8(a) 및 8(b)에서와 같이 X의 샘플들 및 y의 관측된 샘플들이 어트랙티브 GMRF에 기반하여 결합되어 모델링될 수 있다. r의 레지듀얼 샘풀들이 y로부터 X의 최적 예측에 의해 획득된다고 하면, r의 공분산 행렬의 대각화, Kr = E[rr*j는, ΚΓ = U _1U*을 유도하고, 여기서 U의 열들 (columns)은 KLT 기저 백터들 (basis vectors)이다. 등가적으로, KLT는 정확도 행렬 (precision matrix) Jr = UAU* 을 대각화함으로써 획득될 수 있다. 다음 수학식 4에서 보여지는 바와 같이, Jr은 일반화된 그래프 라플라시안 형태 (L= D - A + V)로 기재될 수 있고
(A)i,j 이다. 따라서, 일반화된
Figure imgf000031_0001
그래프 라플라시안에 기반하여 유도된 GBT는 최적이다.
요약하면 , 1차원 GMRF가 어트랙티브한 (attractive) 경우, GBT는 예측 변환 코딩에 대하여 최적이다. 실제적으로, 이옷 샘플들이 이미지 신호들에서 양으로 상관된다는 것이 일반적으로 가정되기 때문에, 어트랙티브 GMRF는 유효한 모델이다. 이후에 논의될 인트라 및 인터 예측 신호 모델들에서, i= 0,1,...,N-1에 대하여 ≥ 0 및 i= 0,1,..., N 에 대하여 ≥ 0 을 선택하는 것은 어트랙티브 GMRF 모델들을 유도한다. 이러한 경우, 이후의 수_학식 13 및ᅵ 17에서 언급되는 예측 행렬들은 모두상가수학식 1에서 일반화된 그래프 라플라시안 형태를 갖는다. 최적 GBST 구축 (optimal GBST construction)을 위한 그래프 학습 ( graph learning) 먼저 , 비디오 신호 는 다음 수학식 4와 같이 모델링될 수 있다.
【수학식 4】
1
p(r|L)二
( r /2|L -1/2 exp 여기서, L은 상기 수학식 1에서와 같은 일반화된 그래프 라플라시안 형태를 갖는 정확도 행렬 (precision matrix)를 나타낸다 . 인트라 및 인터 예측 레지듀얼 모델들은 또한 상기 수학식 4에서의 분포를 따른다. 비디오 신호의 레지듀얼 데이터로부터 최적의 일반화된 그래프 라플라시안을 찾기 위하여, 다음 수학식 5와 같은 최적화 문제가 구성될 수 있다.
【수학식 5】
.maximize Iog|L|― Tr (LS)
W, V
* to
Figure imgf000032_0001
+ diagCv)
w o
여기서 , S는 레지듀얼 신호 r의 샘플 공분산 ( sample covariance)를 나타내고, B는 그래프 (예를 들어 , 그래프 링크들의 세트)의 구조를 나타내는 근접 행렬 ( incidence matrix)를 나타낸다.
상기 수학식 5에서 , 목표 함수 (obj ective function)는 상기 수학식 4에서의 우도 항목의 자연 로그 (natural logarithm of likelihood term)를 취함으로써 유도되고, L은 제한 사항들 ( constraints )에 의해 w 및 V로 각각 백터화된 링크 가중치들 ( link weights ) 및 재귀 -루프 가중치들 ( self - loop weights )을 갖는 일반화된 그래프 라플라시안이 될 수 있다.
상기 수학식 5에서 제안된 구성은 볼록 최적화 문제 (convex optimization problem)이고, 이는 CVX와 같은 볼록 최적화 도구 ( convex optimization tool )를 이용하여 해결될 수 있다. 예를 들어 , 본 발명은 이러한 문제를 최적으로 해결하기 위해 고속 블록 -좌표 하강 알고리즘 ( fast block- coordinate descent algorithm)을 사용할 수 있다 . 최적 GBST 구성
GBST 구성에 대하여, 상기 수학식 5의 최적화 문제는 상기 수학식 3의 그래프 기반 변환들 (GBTS) , Urow 및 Uc이올 정의하는 2개의 별개의 라인 그래프들을 최적화함으로써 해결될 수 있다. 별개의 변환올 설계하고자 하기 때문에 , 각 라인 그래프는 독립적으로 최적화될 수 있다. 따라서 , 본 발명은 레지듀얼 블록들의 행들 및 열들로부터 생성된 샘플 공분산 행렬들 Srow 및 Sc이에 기반하여 최적의 라인 그래프들을 찾을 수 있다.
GGL(B,S)는 근접 행렬 (incidence matrix) (B) 및 공분산 행렬 (S)을 갖는 상기 수학식 5에서의 그래프 학습 문제 (graph learning problem)의 경우를 표시한다고 하자. NxN 레지듀얼 블록들에 대하여, 본 발명의 GBST는 다음과 같은 단계에 따라 구성될 수 있다.다만, 본 발명은 이에 한정되지 않으며, 본 발명은 정방형 (square) 블록뿐만 아니라 비정방형 (non- square) 블록에도 적용가능할 것이다.
먼저, 인코더는 라인 그래프를 표현하는 근접 행렬 1 을 생성할 수 있다. 그리고, 데이터 세트 내의 레지듀얼 블록들의 N행들 및 N열들로부터 2개의 샘플 공분산 행렬들 Srow01를 훈련시킬 수 있다.
이후, 일반화된 그래프 라플라시안 행렬들 Lrow 및 Lcol을 결정하기 위해, 상기 수학식 5, GGL(Bline,Srow) 및 GGL(Bline,Scol)를 해결할 수 있다.
그리고, 상기 인코더는, Lrow 및 Lc이에 고유 분해를 수행함으로써, 상기 수학식 3에서와 같이, GBST를 정의하는 GBTS, Urow 및 이을 획득할 수 있다. 한편 , 변환 수행부 ( 730 )는 상기 변환 최적화를 수행한 결과에 따라 생성된 최적화된 GBST 행렬을 이용하여 변환을 수행할 수 있다 . 도 8은 본 발명이 적용되는 일실시예로서, 인트라 예측 또는 인터 예측의 레지듀얼 신호에 대한 1차원 GMRF 모델들을 나타낸다.
본 발명은, 최적의 라인 그래프에 기반하는 그래프 기반 분리 가능한 변환 (GBST)을 설계하기 위한 새로운 프레임워크를 제안한다. 먼저 , 각 예축 모드 내에서 관측되는 레지듀얼 블록들의 행-별 및 열-별 통계적 특성들에 기반하여 2개의 분리 가능한 라인 그래프들을 생성할 수 있다. 이후, 2개의 분리 가능한 라인 그래프들에 대웅되는 그래프 기반 변환 (GBT )을 이용하여 , 즉 레지듀얼 블록들의 행들 및 열들에 GBT 생성 방법을 적용함으로써 GBST를 생성할 수 있다.
본 발명은, 최적의 가중치를 갖는 라인 그래프에 기반하는 2차원 그래프 기반 분리 가능한 변환 ( GBST)을 제공함으로써 , 2차원 DCT 및 분리 가능한 카루넨 -루베 변환 ( Karhunen-Loeve transform , 이하 'KLT' 라 함)의 성능을 능가할 수 있다. 예를 들어, 본 발명이 적용되는 GBST는, 분리 가능한 KLT에 비교할 때, 훈련 데이터로부터 보다 적은 파라미터에 대한 학습을 요구함으로써 더욱 강인한 변환을 유도할 수 있다. 레지듀얼 신호들에 대한 모델들
레지듀얼 신호들을 모델링하기 위해, 가우시안 마르코프 랜덤 필드들 (GMRFs )을 이용하고, 이는 그래프 기반 프레임워크에 대한 확률론적 해석을 제공한다. 관심 있는 랜덤 백터 X e R 가 영 평균 < zero mean)을 가진다고 가정하면, X에 대한 GMRF 모델은 정확도 행렬 (precision matrix) Jx 에 기초하여 정의될 수 있고, X는 다음 수학식 6과 같은 분포를 가진다.
【수학식 6】
Figure imgf000035_0001
여기서, 는 행렬식 연산자를 표시한다 . Jx 의 모든 비 -대각 성분들 (of f -diagonal elements )이 음수가 아니면 , 결과 모델은 어트랙티브 (attractive ) GMRF 라고 부른다.
상기 도 8을 살펴보면, 인트라 예측 레지듀얼 신호 및 인터 예측 레지듀얼 신호들에 대한 2개의 기본적인 1차원 GMRF 모델들이 제시된다. 도 8 (a)와 도 8 (b)의 2개의 모델들 간에 주요 차이는 예측을 위하여 이용된 참조 샘플들의 개수이다. 즉, 상기 도 8 (a)의 인트라 예측에서는, 이웃 블록으로부터의 단일 참조 샘플이 현재 샘플들을 예측하는데 이용되고, 상기 도 8 (b)의 인터 예측의 경우, 블록 내의 각 샘플은 참조 프레임 내의 정합 블록에서 동일한 위치에 있는 대웅하는 샘플들을 이용하여 예측된다. 인트라 예측 레지듀얼 신호의 모델링
인트라 예측 레지듀얼 신호의 모델링의 경우, 참조 샘플 y는 N개의 샘플들 X = ^2 ' ' * XN†: 를 예측하기 위해 이용된다. 다음 수학식 7과 같이, 레지듀얼 신호들을 1차원 GMRF로 모델링하기 위해 재귀 구성 (recursive formulation )을 이용할 수 있다. 【수학식 7】
3^1 ― po(y + d) + i
X2 = Pixi
XN-l = PN-2XN-2 + N-
여기서 , ^~·Α^_(θ,σ ) 는 참조 샘플 y에서의 왜곡을 나타내고 , 는 고정 분산 ° 를 갖는 Xi (i = l,"',N)에서의 i.i.d. 가우시안 잡음 (Gaussian noise)이다. 랜덤 변수들 d 및 ei (i = l, ··· ,Ν)는 독립적이라고 가정한다. 샘플들 간에 공간 상관 계수들 (spatial correlation coefficients)은 Ρθ5 Pi,…, PVᅳ 1 에 의해 표시된다. 상기 수학식 7은 Qx = y + d + e 와 같이 압축적으로 기재할 수 있고, 여기서 y, d, e 및 Q는 다음 수학식 8 내지 11과 같다. 【수학식 8】 y = [(poy) o ' ' · o
【수학식 9】
【수학식 10] e = fei e2♦ « * ev] 【수학식 11]
Figure imgf000037_0001
여기서, x는 X = p + Q' + Q— ^로 작성될 수 있고, 여기서
P = Q Υ는 χ에 대한 최적 예측이다. 따라서 , 레지듀얼 백터 r = X ᅳ p 이고, 이의 공분산 행렬은 다음 수학식 12와 같다. 【수학식 12】
Kr = Q— [(G + d)(G + d)*] (Q-1) 공분산-행렬와 역변환은 수학식 13에서와 -같이 예측 행렬 Jr = Kr
2
을 제공하고, 여기서 사다
【수학식 13]
Figure imgf000037_0002
-pi 1+/I -P2 0 : 0 — i 1 + i -ps ' ' :
"·. *·. '*- 0
'· —pN-2 1 + P%-i —pN- 1
0 - ' · · · · 0 —pN-i 1 인터 예측 레지듀얼 신호의 모델링 이전 프레임의 N 개의 참조 샘플들, y^^yN은
X = [^l 2 '' ' 의 N 개의 샘플들을 예측하기 위해 이용될 수 있다. 다음 수학식 14의 재귀 구성 (recursive formulation)은 1차원 GMRF를 모델링할 수 있다.
【수학식 14]
XI = po(y + ^) + pi(yi + 1) + ei
Figure imgf000038_0001
XN-1― PN-2^N-2 + PN-liVN-l + <¾V— 1) + GjV-l av =; pN-iXN-i + PN(VN + dN ) +예 여기서, . 〜 (05 는 참조 샘플 yi의 왜곡을 나타내고,
€i 〜 (0,°* )는 Xi (i=i, ···,!!)에서의 i.i.d. 가우시안 잡음 (Gaussian noise)이다. 왜곡 ά ^ V(0, σ2)를 갖는, 이웃 블록의 샘플 y는 GMRF 모델의 일부이지만, 인터 예측 레지듀얼 신호들을 모델링하기 때문에 예측에서 이용되지 않는다. 더욱이, 랜덤 . 변수들 d, ei 및 (i=l, '",N)는 독립적이라고 가정된다. 공간 상관 계수들 (spatial correlation coefficients) ,
Ρο쎄 에 부가하여 , idPN 로 표시되는 시간 상관 계수들 (temporal correlation coefficients)이 이러한 모델에서 ^ᅵ용된다. 상기 수학식 14는 Qx = + 3와 같은 백터 -행렬 형태 (vector- matrix form)로 작성될 수 있다 . 여기서 , Q는 수학식 11에서 설명되었고, y ― {(poy + piyi ) P2V2 - · · ΡΝΙ/ΝΪ 및 ά = [(pod + βιάι) 2<h ' · - pNdn 를 나타낸다. 그리고, X는 X = Q + C na+e) 로 작성될 수 있으므로 χ에 대한 최적 예측을 나타낸다. 따라서, 레지듀얼 백터 다음 수학식 15와 같이 나타낼 수 있고, 그 공분산 행렬은 다음 수학식 16과 같이 나타낼 수 있다.
【수학식 15】
f = Q_1(d + e
【수학식 16]
Figure imgf000039_0001
공분산 행렬 '을 역변환함으로써, 본 발명은 다음 수학식 17에서와 같이 정확도 행렬 Jf 을 획득할 수 있다 .
【수학식 17 ]
여기
Figure imgf000039_0002
이다. y는 예측에 사용되지 않기 때문에, y에서 왜곡 d는 층분히 크다고 가정할 수 있다. 즉, :» σβ:라고 가정할 수 있다ᅳ 따라서, 상기 수학식
17에서 첫번째 대각 엔트리는 (^ )11 에 대한 다음 수학식 18과 같은 근사화와 같다.
【수학식 18】
Figure imgf000040_0001
도 9는 본 발명이 적용되는 일실시예로서, 최적의 가중치를 갖는 라인 그래프에 기반하는 그래프 기반 분리 가능한 변환 (GBST)을 생성하는 과정을 설명하기 위한 흐름도이다.
본 발명이 적용되는 인코더는, 라인 그래프를 나타내는 근접 행렬 (incidence matrix)을 생성할 수 있다 (S910) . 예를 들어 , 상기 근접 행렬은 라인 그래프를 나타내고, Bline으로 표현될 수 있다.
상기 인코더는, 레지듀얼 신호의 행과 열로부터 행 및 열에 대한 샘플 공분산 행렬 (sample covariance matrix)을 훈련入 j킬 수 있다 (S920) . 예를 돌어, 레지듀얼 블특들의 N개의 행돌 및 N개의 열들로부터 2개의 샘플 공분산 행렬들 S 및 Sc이를 훈련시킬 수 있다.
상기 인코더는, 상기 근접 행렬 (incidence matrix) 및 상기 행 (row) 및 열 (column)에 대한 샘플 공분산 행렬 (sample covariance matrix)에 기초하여 행 및 열에 대한 그래프 라플라시안 행렬 (graph laplacian matrix)을 계산할 수 있다 (S930) . 예를 들어 , 일반화된 그래프 라플라시안 행렬들 Lrow01을 결정하기 위해, 상기 수학식 5, GGL(Bline,Srow) 및 GGL(Bline,Scol)를 해결할 수 있다.
상기 인코더는, 상기 행 및 열에 대한 그래프 라플라시안 행렬에 고유 분해 (eigen decomposition) ·수행함으로써 GBST 를 획득할 수 있다 (SS40) . 예를 들어 , 상기 수학식 3에서와 같이 , GBST를 정의하는 GBTS, Urow 및 이을 획득할 수 있다. 도 10은 본 발명이 적용되는 일실시예로서, 최적의 가중치를 갖는 라인 그래프에 기반하는 그래프 기반 분리 가능한 변환 (GBST)에 기초하여 디코딩을 수행하는 과정을 설명하기 위한 흐름도이다.
본 발명이 적용되는 디코더는, 비디오 신호로부터 레지듀얼 신호를 추출할 수 있다 (S1010) .
상가 디코더는, 라인 그래프들에 기초하여 생성된 GBST에 기초하여 상기 레지듀얼 신호에 대해 역변환을 수행할 수 있다 (S1020) . 여기세, 상기 라인 그래프들은 상기 레지듀얼 신호의 행들 및 열들의 GMRF 모델링에 의해 획득된 것일 수 있다.
상기 디코더는, 상기 역변환된 레지듀얼 신호를 예측 신호와 합함으로써 복원 신호를 생성할 수 있다 (S1030) . 도 11은 본 발명이 적용되는 일실시예로서, 인트라 예측 모드 및 인터 예측 모드에 대해 최적화된 그래프들을 나타낸다.
도 11(a)는 인트라 수평 모드 (mode 10)에 대한 최적화된 그래프를 나타내고, 도 11(b)는 인트라 대각 모드 (mode 18)에 대한 최적화된 그래프를 나타내며 , 도 11(c)는 Nx2N 크기의 Ρϋ 파티션의 인터 예측 모드에 대한 최적화된 그래프를 나타낸다.
상기 도 ll(a)~(c)의 (B)는 8x8 블톡들에 대한 픽셀 값들의 샘플 분산을 나타내고, 여기서 질은 색들은 더 큰 분산을 나타낸다.
각 블록들의 행들 및 열들과 연관된 최적화된 그래프들은 각각 (i) 및 (ii)에서 도시된다. 모든 가중치들은 최대 링크 가중치로 정규화되고, 링크 가중치들은 더 짙은 색들이 더 큰 가중치들을 나타낸다. 상기 도 ll(a)~(c)에서 노드돌에 부착된 막대들은 그 가중치들이 바들의 길이에 비례하는 재귀 -루프들을 나타낸다 .
이하에서는, 본 발명 하에서 GBTS 및 KLT, DCT 및 ADST와 같은 변환들 간의 관계에 대해 설명하도록 한다 . 본 설명은, 1차원 변환 쌍을 이용하여 정의되는 GBST에 대하여 용이하게 (trivially) 확장하여 적용될 수 있다.
(1) KLT: 상기 GBT의 최적성 부분에서 설명한 조건이 만족된다면 GBT는 KLT와 등가일 수 있다. 그러나, 본 발명의 GBT는 분리 가능한 KLT보다 더욱 강인한 변환을 제공한다 . 이는 KLT가 을 요구하고, 반면에 GBT는 연관된 1차원 모델을 학습하기 위해 (ΛΓ)만을 요구하기 때문이다. 따라서 , 본 발명은 신호 모델을 학습하는데 더 양호한 일반화를 제공하고, 이는 강인한 변환 설계를 가능하게 한다.
(2) DCT 및 ADST: 기본 (underlying) 신호 모델이 1차원 GMRF인 경우 1차원 DCT가 KLT를 근사화하는 것은 잘 알려진 사실이다. 이에 따라, 1차원 DCT가 균일 가중치의 라인 그래프 (uniformly weighted line graph)의 결합 라플라시안 (combinational Laplacian)의 고유 분해 (eigen decomposition)에 의해 획득될 수 있다. 1차원 ADST는 그 링크 가증치들이 모두 wu 와 동일한 일반화된 그래프 라플라시안으로부터 유도되는 GBT이고, 첫번째 샘플에서 단일 재귀-루프를 갖고, 해당 가중치로 (V)l,l = W 갖는다. 이러한 결과들에 기반하여, i = 0,l N-1 에 대하여 찌 ᅳ 1을 가정하면 , GBT는 다음과 같이 유도될 수 있다 . 예를 들어, (i)상기 수학식 7의 인트라 예측 모델에 대하여 σ ~ 이면 , GBT는 1차원 DCT로 유도될 수 있고, (ii)상기 수학식 7의 인트라 예측 모델에 대하여 0" <§: 0^인 경우 는 1차원 ADST로 유도될 수 있으며, (iii) 상기 수학식 14의 인터 예측 모델에 대하여 71 = = 7¥이면 GBT는 丄차원 DCT로 유도될 수 있다.
또한, 상기 수학식 13 및 17을 살펴보면, 인트라 예측에 있어서, 더 나은 예측 (즉, 더 작은 σ)은 참조 샘플에 인접한 샘플에서 더 큰 재귀 -루프를 생성한다는 점을 확인할 수 있다 . 이는 잠재적으로 ADST에 근사한 GBT를 유도한다 . 반대로 , 나쁜 예측은 작은 재귀 -루프 가중치를 생성한다 .
따라서, 예측 품질에 의존하여 최적 GBT가 ADST 또는 DCT에 근접될 수 있다. 인터 예측에서, 다중 참조 샘플들은 각 위치에서 재귀—루프 가증치에 영향을 미친다. 실제적으로, 예측 품질은 샘플돌에 걸쳐서 유사하고 (즉, σ ί¾ ^ σΝ ) , 최적 변환은 ADST 보다 오히려 일반적으로 DCT에 근접한다. 분리 가능한 KLT 및 2차원 DCT에 대하여 본 발명의 GBST의 성능을 보여주기 위하여, 레지듀얼 블록들의 클래스와 정합되는 상이한 변환을 이용하여 제공되는 모드 -의존 변환 코딩 방식이 채택될 수 있다.
예를 들어 , HEVC 참조 소프트웨어 ( HM 버전 14 )를 사용하는 상이한 비디오 시퀀스로부터의 레지듀얼 블록 데이터를 획득하고, 이후 훈련 및 시험을 위한 2개의 별도의 데이터 세트돌을 생성할 수 있다. 예를 들어, 훈련 데이터 세트의 경우, 레지듀얼 블록들은 704x576 해상도를 갖는, 6개의 상이한 비디오 시원스들로부터 획득되었다. 그리고, 시험 데이터 세트의 경우, 레지듀얼 블록들은 832x480 해상도를 갖는, 2개의 비디오 시퀀스들로부터 수집되었다 . 모든 데이터 세트들에서, 레지듀얼 블록들은 인코더에 의해 제공되는 부가 정보에 기반하여 분류될 수 있다. 특히, 인트라 예측 블록들은 35개의 인트라 예측 모드들에 기반하여 분류될 수 있다 . 유사하게 , 인터 예측 블록들은 예측 유닛 ( PU) 파티션들을 이용하여 7개의 상이한 클래스들로 분류된다. 예를 들어, 2개의 정사각형 PU 파티션들이 하나의 클래스로 그룹화되고 나머지 6개의 PU 파티션들은 다른 클래스로 결정될 수 있다. 따라서, 총 35 + 7 = 42의 클래스들을 갖는다.
각 클래스 및 블록 크기에 대하여, 최적 GBST가 훈련 데이터 세트를 사용하여 구축될 수 있다. 최적 변환들이 모든 데이터 세트들에서 레지듀얼 블록들과 연관되어 적용되어, 변환 계수들이 양자화되고, 이후 산술 코딩을 사용하여 엔트로피 코딩된다.
상기 도 11을 살펴보면, 2개의 인트라 예측 모드들 및 1개의 인터 예측 파티션에 대하여 최적화된 가중화된 라인 그래프들의 예시를 도시한다 . 참조 샘플에 연결된 픽셀들에서 재귀-루프의 가중치는 더 큰 것을 확인할 수 있다. 상기 도 11 (a)의 경우, 행들과 연관된 그래프는 첫번째 픽셀에서 큰 재귀 루프를 가지는 반면에 , 다른 그래프는 우세한 (dominant) 재귀 -루프 가중치를 갖지 않는다.
상기 도 11 (b)의 경우, 2개의 그래프들은 그들의 첫번째 노드에서 큰 재귀-루프 가중치를 갖는다.
한편 , 도 11 ( c )에서 , 재귀 -루프 가중치는 인터 예측에 기인하여 각각의 노드에서 일반적으로 크다. 더욱이, PU 분할이 수직이기 때문에, 행들에 대응하는 그래프는 증간 부분에서 작은 링크 가증치를 갖는다. 도 12는 본 발명이 적용되는 일실시예로서, 인트라 예측 및 인터 예측의 레지듀얼 신호에 대한 분리 가능한 카루넨 루베 변환 (Karhunen-Loeve transform)와 그래프 기반 분리 가능한 변환 (GBST)의 코딩 성능을 비교한 표이다.
상기 도 12를 살펴보면 , BD—레이트 (Bj ntegaard delta rate) 및 BD- PSNR (Peak signal - to-noise ratio) 메 S릭 측면에서 압축 결과들을 나타낸다.
상기 도 12는 인트라 및 인터 예측 레지듀얼들에 대하여 분리 가능한 KLT 및 본 발명의 GBST의 코딩 성능을 보이고 있으며 , 각 성능은 HEVC에서의 변환 코딩 ( transform coding)을 적용했을 때와 비교한 결과이다 (HEVC에서는 2차원 ADST를 사용하여 코딩된 4x4 인트라 예측 블록들을 제외하고 모든 블록들에 2차원 DCT가 적용된다) .
인트라 및 인터 예측 코딩에 대하여, 본 발명의 GBST는 시험 데이터 세트에 관하여 분리 가능한 KLT을 능가하고, 훈련 데이터 세트에 대해서는 유사한 성능을 보여준다 . 이는 GBST가 분리 가능한 KLT와 비교하여 더 강인하고 더 양호한 일반화를 제공한다는 것을 실증적으로 보여준다. 도 13은 본 발명이 적용되는 일실시예로서 , 인트라 예측의 레지듀얼 신호에 대한 하이브리드 이산 코사인 변환 (DCT) /비대칭 이산 사인 변환 (Asymmetric Discrete Sine Transform , 이하 \ADST '라 함)와 그래프 기반 분리 가능한 변환 (GBST )의 코딩 성능을 비교한 표이다.
상기 도 13을 살펴보면, GBST 및 하이브리드 DCT/ADST 의 성능 비교 결과를 나타낸다. 이들은 수직, 수평 및 DC 모드들만을 사용하여 예측된 4 X 4 블록들에 적용된 것이다.
상기 도 13의 결과는 2차원 DCT에 관하여 BD 이득을 나타낸다. 본 발명의 GBST는 모든 데이터 세트들에 관하여 하이브리드 DCT/ADST 를 능가하는 것을 확인할 수 있다.
상기에서 살펴본 바와 같이 , 본 발명에서는 그래프 기반 분리 가능한 변환들 (GBSTS ) 및 이들의 최적 설계를 위한 그래프 학습 구성을 설명하였다. 인트라 및 인터 예측 '레지듀얼들에 대한 2개의 GMRF 모델들을 제시하고, 레지듀얼 신호들이 어트랙티브 GMRF 모델들을 따르는 경우 그래프 기반 변환들 (GBTs )이 최적임을 입증하였다. GBSTs가 DCT 및 ADST와 같이 잘 알려진 변환으로 단순화되는 경우들 또한 설명하였으며, 상기 도 12 내지 13에서와 같이 본 발명이 적용된 실험 결과들은 GBST가 압축 성능 관점에서 KLT 및 하이브리드 DCT/ADST을 능가하는 것을 확인할 수 있다. 본 명세서에서 설명하는 실시예들은 인코더를 기반으로 주로 설명하고 있으나, 본 발명은 이에 한정되지 않는다. 변환부 또는 그래부 기반 변환부의 각 기능 유닛들은 인코더뿐 아니라 디코더에서도 수행될 수 있으며, 이 경우 상기 실시예들에서 설명한 변환부 또는 그래프 기반 변환부의 모든 기능 유닛들은 디코더에 필수적으로 포함되어야 하는 것은 아니며, 일부가 포함될 수도 있으며 , 또는 외부에 저장된 정보를 이용하거나 인코더 /디코더 내 기정의된 정보를 이용할 수 있다.
상기 기술된 것과 같이 , 본 발명에서 설명한 실시예들은 프로세서, 마이크로 프로세서, 컨트롤러 또는 칩 상에서 구현되어 수행돨 수 있다. 예를 들어, 상기 도 1 , 도 2 및 도 5 내지 도 7에서 도시한 기능 유닛들은 컴퓨터, 프로세서, 마이크로 프로세서, 컨트롤러 또는 칩 상에서 구현되어 수행될 수 있다.
또한, 본 발명이 적용되는 디코더 및 인코더는 멀티미디어 방송 송수신 장치, 모바일 통신 단말, 홈 시네마 비디오 장치, 디지털 시네마 비디오 장치, 감시용 카메라, 비디오 대화 장치, 비디오 통신과 같은 실시간 통신 장치, 모바일 스트리밍 장치 , 저장 매체 , 캠코더 , 주문형 비디오 (VoD) 서비스 제공 장치, 인터넷 스트리밍 서비스 제공 장치, 3차원 ( 3D) 비디오 장치, 화상 전화 비디오 장치, 및 의료용 비디오 장치 등에 포함될 수 있으며, 비디오 신호 및 데이터 신호를 처리하기 위해 사용될 수 있다. 또한, 본 발명이 적용되는 처리 방법은 컴퓨터로 실행되는 프로그램의 형태로 생산될 수 있으며, 컴퓨터가 판독할 수 있는 기록 매체에 저장될 수 있다. 본 발명에 따른 데이터 구조를 가지는 멀티미디어 데이터도 또한 컴퓨터가 판독할 수 있는 기록 매체에 저장될 수 있다. 상기 컴퓨터가 판독할 수 있는 기록 매체는 컴퓨터로 읽을 수 있는 데이터가 저장되는 모든 종류의 저장 장치를 포함한다. 상기 컴퓨터가 판독할 수 있는 기록 매체는, 예를 들어, 블루레이 디스크 ( BD ) , 범용 직렬 버스 (USB ) , ROM , RAM , CD-ROM , 자기 테이프, 플로피 디스크 및 광학적 데이터 저장 장치를 포함할 수 있다. 또한, 상기 컴퓨터가 판독할 수 있는 기특 매체는 반송파 (예를 들어 , 인터넷을 통한 전송)의 형태로 구현된 미디어를 포함한다. 또한, 인코딩 방법으로 생성된 비트 스트림이 컴퓨터가 판독할 수 있는 기록 매체에 저장되거나 유무선 통신 네트워크를 통해 전송될 수 있다.
【산업상 이용가능성】
이상, 전술한 본 발명의 바람직한 실시예는, 예시의 목적을 위해 개시된 것으로, 당업자라면 이하 첨부된 특허청구범위에 개시된 본 발명의 기술적 사상과 그 기술적 범위 내에서 , 다양한 다른 실시예들을 개량, 변경 , 대체 또는 부가 등이 가능할 것이다.

Claims

【청구의 범위】
【청구항 1】
그래프 기반 분리가능 변환 (graph-based separable transform, GBST)에 기초하여 비디오 신호를 인코딩하는 방법에 있어서,
라인 그래프를 나타내는 근접 행렬 ( incidence matrix)을 생성하는 단계;
레지듀얼 신호의 행과 열로부터 행 및 열에 대한 샘플 공분산 행렬 ( sample covariance matrix)을 문련하는 단계 ;
상기 근접 행렬 및 상기 행 및 열에 대한 샘플 공분산 행렬에 기초하여 행 및 열에 대한 그래프 라플라시안 행렬 (graph laplacian matrix)을 계산하는 단계; 및
상기 행 및 열에 대한 그래프 라플라시안 행렬에 고유 분해 ( eigen decomposition) ¾ 수행함으로써 GBST 를 획득하는 단계
를 포함하는 것을 특징으로 하는 방법 .
【청구항 2】
제 1항에 있어서,
상기 행 및 열에 대한 그래프 라플라시안 행렬은 링크 가중치 파라미터 ( link weighting parameter) 및 재귀 루프 파라미터 ( recursive loop parameter)에 의해 정의되는 것을 특징으로 하는 방법 .
【청구항 3】 제 1항에 있어서,
서로 다른 2개의 가우시안 마르코프 랜덤 필드 (Gaussian Markov Random Field, GMRF)는, 인터 레지듀얼 신호 및 인트라 레지듀얼 신호의 모델링을 위해 이용되는 것을 특징으로 하는 방법 .
【청구항 4】
제 3항에 있어서,
상기 인트라 레지듀얼 신호의 경우, 1차원 GMRF 는 참조 샘플의 왜곡 성분 (distortion component) , 현재 샘플의 가우시안 노이즈 성분 (Gausian noise component ) 또는 공간 상관 계수 ( spatial correlation coef f icient ) 중 적어도 하나를 포함하는 모델인 것을 특징으로 하는 방법.
【청구항 5】
제 3항에 있어서,
상기 인터 레지듀얼 신호의 경우, 1차원 GMRF 는 참조 샘플의 왜곡 성분, 현재 샘플의 가우.시안 노이즈 성분, 시간 상관 계수 ( temporal correlation coef ficient) 5£^- 공간 상관 계수 ( spatial correlation coeff icient ) 중 적어도 하나를 포함하는 모델인 것을 특징으로 하는 방법 .
【청구항 6】
그래프 기반 분리가능 변환 (graph-based separable transform , GBST)에 기초하여 비디오 신호를 디코딩하는 방법에 있어서 , 상기 비디오 신호로부터 레지듀얼 신호를 추출하는 단계; 상기 GBST에 기초하여 상기 레지듀얼 신호에 대해 역변환을 수행하는 단계; 및
상기 역변환된 레지듀얼 신호를 예측 신호와 합함으로써 복원 신호를 생성하는 단계
를 포함하되 ,
상기 GBST는 상기 레지듀얼 신호의 행들 및 열들의 GMRF 모델링에 의해 획득된 라인 그래프들에 기초하여 생성된 변환을 나타내는 것을 특징으로 하는 방법.
【청구항 7】
제 6항에 있어서,
상기 GBST는 다음 단계들,
라인 그래프를 나타내는 근접 행렬 ( incidence matrix)을 생성하는 단계;
레지듀얼 신호의 행과 열로부터 행 및 열에 대한 샘플 공분산 행렬 (sample covariance matrix)을 푼련하는 단계 ;
상기 근접 행렬 및 상기 행 및 열에 대한 상기 샘플 공분산 행렬에 기초하여 행 및 열에 대한 그래프 라플라시안 행렬 (graph laplacian matrix)을 계산하는 단계 ; 및
상기 행 및 열에 대한 그래프 라플라시안 행렬에 고유 분해 ( eigen decomposition)를 수행함으로써 GBST 를 획득하는 단계 에 따라 생성된 것을 특징으로 하는 방법 .
【청구항 8】
그래프 기반 분리가능 변환 (graph-based separable transform, GBST)에 기초하여 비디오 신호를 인코딩하는 장치에 있어서 ,
라인 그래프를 나타내는 근접 행렬 ( incidence matrix)을 생성하는 그래프 생성부;
레지듀얼 신호의 행과 열로부터 행 및 열에 대한 샘플 공분산 행렬 ( sample covariance matrix)을 훈련하고, 상기 근접 행렬 및 상기 행 및 열에 대한 샘플 공분산 행렬에 기초하여 행 및 열에 대한 그래프 라플라시안 행렬 (graph laplacian matrix)올 계산하고, 상기 행 및 열에 대한 그래프 라플라시안 행렬에 고유 분해 ( eigen decomposition)를 수행함으로써 GBST 를 획득하는 GBST부
를 포함하는 것을 특징으로 하는 장치 .
【청구항 9】
제 8항에 있어서,
상기 행 및 열에 대한 그래프 라플라시안 행렬은 링크 가증치 파라미터 ( link weighting parameter) 및 재귀 루프 파라미터 ( recursive loop parameter)에 의해 정의되는 것을 특징으로 하는 장치 .
【청구항 10】 제 8항에 있어서,
서로 다른 2개의 가우시안 마르코프 랜덤 필드 ( Gaussian Markov Random Field, GMRF)는, 인터 레지듀얼 신호 및 인트라 레지듀얼 신호의 모델링올 위해 이용되는 적용되는 것을 특징으로 하는 장치 .
【청구항 11】
제 10항에 있어서,
상기 인트라 레지듀얼 신호의 경우, 1차원 GMRF 는 참조 샘플의 왜곡 성분, 현재 샘플의 가우시안 노이즈 성분 또는 공간 상관 계수 중 적어도 하나를 포함하는 모델인 것을 특징으로 하는 장치 .
【청구항 12】
제 10항에 있어서,
상기 인터 레지듀얼 신호의 경우, 1차원 GMRF 는 참조 샘플의 왜곡 성분, 현재 샘플의 가우시안 노이즈 성분, 시간 상관 계수 또는 공간 상관 계수 중 적어도 하나를 포함하는 모델인 것을 특징으로 하는 장치 .
【청구항 13】
그래프 기반 분리가능 ¾¾· ( graph-based separable transform , GBST)에 기초하여 비디오 신호를 디코딩하는 장치에 있어서 ,
상기 비디오 신호로부터 레지듀얼 신호를 추출하는 파싱부;
상기 GBST에 기초하여 상기 레지듀얼 신호에 대해 역변환을 수행하는 역변환부; 및
상기 역변환된 레지듀얼 신호를 예측 신호와 합함으로써 복원 신호를 생성하는 복원부
를 포함하되 ,
상기 GBST는 상기 레지듀얼 신호의 행들 및 열들의 GMRF 모델링에 의해 획득된 라인 그래프들에 기초하여 생성된 변환을 나타내는 것을 특징으로 하는 장치 .
【청구항 14】
제 13항에 있어서,
상기 GBST는 다음 단계들,
라인 그래프를 나타내는 근접 행렬 ( incidence matrix)을 생성하는 단계;
레지듀얼 신호의 행과 열로부터 행 및 열에 대한 샘플 공분산 행렬 ( sample covariance matrix)을 푼련하는 단계 ;
상기 근접 행렬 및 상기 행 및 열에 대한 상기 샘플 공분산 행렬에 기초하여 행 및 열에 대한 그래프 라폴라시안 행렬 (graph laplacian matrix)을 계산하는 단계 ; 및
상기 행 및 열에 대한 그래프 라플라시안 행렬에 고유 분해 (eigen decomposition)를 수행함으로써 GBST 를 획득하는 단계
에 따라 생성된 것을 특징으로 하는 장치 .
PCT/KR2017/001050 2016-02-01 2017-02-01 그래프 기반 분리 가능한 변환 (graph-based separable transform)을 이용하여 비디오 신호를 인코딩 / 디코딩하는 방법 및 장치 WO2017135661A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/074,372 US11503292B2 (en) 2016-02-01 2017-02-01 Method and apparatus for encoding/decoding video signal by using graph-based separable transform

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201662289911P 2016-02-01 2016-02-01
US62/289,911 2016-02-01

Publications (1)

Publication Number Publication Date
WO2017135661A1 true WO2017135661A1 (ko) 2017-08-10

Family

ID=59500004

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/001050 WO2017135661A1 (ko) 2016-02-01 2017-02-01 그래프 기반 분리 가능한 변환 (graph-based separable transform)을 이용하여 비디오 신호를 인코딩 / 디코딩하는 방법 및 장치

Country Status (2)

Country Link
US (1) US11503292B2 (ko)
WO (1) WO2017135661A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112075078A (zh) * 2018-02-28 2020-12-11 弗劳恩霍夫应用研究促进协会 合成式预测及限制性合并

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090115176A (ko) * 2007-04-16 2009-11-04 가부시끼가이샤 도시바 화상 부호화와 화상 복호화의 방법 및 장치
KR20110135787A (ko) * 2010-06-11 2011-12-19 삼성전자주식회사 엣지-적응 변환을 이용한 영상 부호화/복호화 시스템 및 방법
KR20140116194A (ko) * 2012-01-13 2014-10-01 퀄컴 인코포레이티드 비디오 코딩에서 변환 계수 데이터를 코딩하기 위한 콘텍스트들의 결정

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3211894B1 (en) * 2014-10-21 2020-03-04 LG Electronics Inc. Method and apparatus for performing graph-based prediction by using optimization function
US9565451B1 (en) * 2014-10-31 2017-02-07 Google Inc. Prediction dependent transform coding
ITUB20155295A1 (it) * 2015-10-16 2017-04-16 Torino Politecnico Apparatuses and methods for encoding and decoding images
US20170214943A1 (en) * 2016-01-22 2017-07-27 Mitsubishi Electric Research Laboratories, Inc. Point Cloud Compression using Prediction and Shape-Adaptive Transforms

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090115176A (ko) * 2007-04-16 2009-11-04 가부시끼가이샤 도시바 화상 부호화와 화상 복호화의 방법 및 장치
KR20110135787A (ko) * 2010-06-11 2011-12-19 삼성전자주식회사 엣지-적응 변환을 이용한 영상 부호화/복호화 시스템 및 방법
KR20140116194A (ko) * 2012-01-13 2014-10-01 퀄컴 인코포레이티드 비디오 코딩에서 변환 계수 데이터를 코딩하기 위한 콘텍스트들의 결정

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHA ZHANG: "Analyzing the Optimality of Predictive Transform Coding Using Graph-Based Models", IEEE SIGNAL PROCESS LETTERS, vol. 20, no. 1, 27 November 2012 (2012-11-27), pages 106 - 109, XP011476604, DOI: doi:10.1109/LSP.2012.2230165 *
HILMI E. EGILMEZ: "GRAPH-BASED TRANSFORMS FOR INTER PREDICTED VIDEO CODING", 2015 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP, vol. 30, 27 September 2015 (2015-09-27), pages 1 - 5 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112075078A (zh) * 2018-02-28 2020-12-11 弗劳恩霍夫应用研究促进协会 合成式预测及限制性合并
CN112075078B (zh) * 2018-02-28 2024-03-15 弗劳恩霍夫应用研究促进协会 合成式预测及限制性合并

Also Published As

Publication number Publication date
US11503292B2 (en) 2022-11-15
US20210243441A1 (en) 2021-08-05

Similar Documents

Publication Publication Date Title
US11190762B2 (en) Intra-prediction mode-based image processing method and apparatus therefor
KR101901355B1 (ko) 최적화 함수를 이용하여 그래프 기반 예측을 수행하는 방법 및 장치
KR20190090866A (ko) 이차 변환을 이용한 비디오 신호의 인코딩/디코딩 방법 및 장치
KR101912769B1 (ko) 그래프 템플릿으로부터 유도된 변환을 이용하여 비디오 신호를 디코딩/인코딩하는 방법 및 장치
KR20180028468A (ko) 싱글톤 계수 업데이트를 이용하여 변환을 수행하는 방법 및 장치
US10771815B2 (en) Method and apparatus for processing video signals using coefficient induced prediction
KR102059842B1 (ko) 일반화된 그래프 파라미터를 이용하여 그래프 기반 변환을 수행하는 방법 및 장치
KR102605285B1 (ko) 다중 그래프 기반 모델에 따라 최적화된 변환을 이용하여 비디오 신호를 인코딩/디코딩하는 방법 및 장치
US10382792B2 (en) Method and apparatus for encoding and decoding video signal by means of transform-domain prediction
KR20180089858A (ko) 레이어드 기븐스 변환을 이용하여 변환을 수행하는 방법 및 장치
US10785499B2 (en) Method and apparatus for processing video signal on basis of combination of pixel recursive coding and transform coding
WO2017135661A1 (ko) 그래프 기반 분리 가능한 변환 (graph-based separable transform)을 이용하여 비디오 신호를 인코딩 / 디코딩하는 방법 및 장치
KR101927970B1 (ko) 적응적인 루프 필터링을 이용한 비디오의 부호화 방법 및 장치, 비디오 복호화 방법 및 장치
WO2017057923A1 (ko) 단일 최적화된 그래프를 이용하여 비디오 신호를 인코딩, 디코딩하는 방법
WO2018143687A1 (ko) 행-열 변환을 이용하여 변환을 수행하는 방법 및 장치
KR101882950B1 (ko) 적응적인 루프 필터링을 이용한 비디오의 부호화 방법 및 장치, 비디오 복호화 방법 및 장치
KR101824058B1 (ko) 적응적인 루프 필터링을 이용한 비디오의 부호화 방법 및 장치, 비디오 복호화 방법 및 장치
KR101780026B1 (ko) 적응적인 루프 필터링을 이용한 비디오의 부호화 방법 및 장치, 비디오 복호화 방법 및 장치
KR101727065B1 (ko) 적응적인 루프 필터링을 이용한 비디오의 부호화 방법 및 장치, 비디오 복호화 방법 및 장치
US20200329232A1 (en) Method and device for encoding or decoding video signal by using correlation of respective frequency components in original block and prediction block
WO2017135662A1 (ko) 에지 적응적 그래프 기반 변환을 이용하여 비디오 신호를 인코딩/디코딩하는 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17747706

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17747706

Country of ref document: EP

Kind code of ref document: A1