WO2016068630A1 - 비디오 신호의 인코딩, 디코딩 방법 및 그 장치 - Google Patents

비디오 신호의 인코딩, 디코딩 방법 및 그 장치 Download PDF

Info

Publication number
WO2016068630A1
WO2016068630A1 PCT/KR2015/011518 KR2015011518W WO2016068630A1 WO 2016068630 A1 WO2016068630 A1 WO 2016068630A1 KR 2015011518 W KR2015011518 W KR 2015011518W WO 2016068630 A1 WO2016068630 A1 WO 2016068630A1
Authority
WO
WIPO (PCT)
Prior art keywords
transform
transform coefficient
coefficient
signal
prediction
Prior art date
Application number
PCT/KR2015/011518
Other languages
English (en)
French (fr)
Inventor
예세훈
Original Assignee
엘지전자(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자(주) filed Critical 엘지전자(주)
Priority to KR1020177012784A priority Critical patent/KR20170075754A/ko
Priority to US15/523,424 priority patent/US10051268B2/en
Publication of WO2016068630A1 publication Critical patent/WO2016068630A1/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/107Selection of coding mode or of prediction mode between spatial and temporal predictive coding, e.g. picture refresh
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/18Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a set of transform coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/19Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding using optimisation based on Lagrange multipliers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding

Definitions

  • the present invention relates to a method and apparatus for encoding and decoding a video signal, and more particularly, to a conditional non-linear transform of a spatiotemporal volume of a video signal (hereinafter referred to as 'CNT'). It's about technology.
  • Compression coding refers to a series of signal processing techniques for transmitting digitized information through a communication line or for storing in a form suitable for a storage medium.
  • Media such as video, image, and voice may be subjected to compression encoding.
  • a technique of performing compression encoding on an image is called video image compression.
  • hybrid coding hybrid coding
  • predictive coding In the case of predictive coding, no statistical dependence is available in obtaining prediction error samples. That is, predictive coding predicts signal components that use already coded portions of the same signal and codes the difference between the predicted and actual values. Based on that. This follows the information theory that more accurately predicted signals can be compressed more efficiently, and better compression effects can be obtained by increasing the consistency and accuracy of the prediction. Because predictive coding is based on causal stat ist ics relat ionships, it is advantageous to process smooth or irregular signals, while it is inefficient to process large signals. In addition, since the quantization is applied to the original video signal, there is a disadvantage in that the limitation of the human audiovisual system cannot be used.
  • Transform coding is a technique that decomposes a signal into a series of elements to identify the most critical data, and most of the transform coefficients are zero after quantization.
  • the compression efficiency may be improved by considering the inter-pixel correlation on the transform domain.
  • the present invention we propose a method of applying the CNT technique to the temporal volume of a video signal.
  • it is proposed to apply a CNT technique independently to each of the three-dimensional space of the video signal (spat io-temporal) volume.
  • the present invention provides a method of conditional nonlye transform ('CNT') that takes into account inter-pixel correlations on the transform domain.
  • the present invention proposes a method of applying the CNT technique to the space-time (spat io-temporal) volume of the video signal.
  • the present invention proposes a method of designing a CNT for inter-frame coding by performing prediction using transform coefficients.
  • the present invention can obtain an optimal transformed coefficient (opt imized transform coeff icient) by considering all signals that are already reconstructed when performing the prediction process.
  • the present invention may utilize all signals and context signals that have already been reconstructed to obtain an opt imized transform coeff icient, where the context signal is a previously reconstructed signal, At least one of a previously reconstructed intra-coded signal, a reconstructed portion of the current frame, or information that the encoder sends to the decoder in connection with the decoding of the signal to be reconstructed.
  • the present invention may find a candidate function that minimizes the sum of the distortion measure and the rate measure to obtain an optimal transform coefficient.
  • the present invention can improve the compression efficiency by using a conditional non-linear transform that takes into account the correlation between pixels on the transform domain.
  • the present invention can significantly reduce the complexity while maintaining the efficiency of the conditional nonlinear transformation by transforming the original optimization problem of the space-time volume of the pixels in the video signal into a one-dimensional temporal trajectory. .
  • the present invention fuses predictive coding and transform coding to take advantage of each coding scheme. All can be saved. That is, by using all of the signals that have already been reconstructed, more precise and improved prediction can be performed, and statistical dependence of prediction error samples can be used.
  • a high quality image including a non-smooth or non-stat iffy signal can be coded more efficiently.
  • signal adaptive decoding can be performed without the need for additional information, and when compared with a conventional hybrid coder, high quality prediction can be performed and prediction errors can be reduced.
  • the present invention provides an improved method of spatial spatial video compression, thereby enabling efficient coding even for an image having large motion dependence or spatial boundary characteristics.
  • 1 and 2 show schematic block diagrams of an encoder and a decoder in which media coding is performed, respectively.
  • FIG. 3 is an embodiment to which the present invention is applied and shows a schematic blot diagram of an encoder and a decoder to which an improved coding method is applied, respectively.
  • FIG. 5 is an embodiment to which the present invention is applied and provides an improved video coding method. A schematic flowchart for explanation is shown.
  • FIG. 6 is an embodiment to which the present invention is applied and is a flowchart for explaining an improved video coding method for generating an optimal prediction signal.
  • FIG. 7 is an embodiment to which the present invention is applied and is a flowchart illustrating a process of generating an optimal prediction signal.
  • FIG. 8 is a flowchart illustrating a method of obtaining an optimal transform coefficient according to an embodiment to which the present invention is applied.
  • 9 and 10 are embodiments to which the present invention is applied, and are conceptual views illustrating a method of applying a spatial iotemporal transform to a group of pictures (GOP).
  • GOP group of pictures
  • FIG. 11 is an embodiment to which the present invention is applied and shows blocks in a frame forming a temporal trajectory of the same object in an IPPP type temporal prediction structure.
  • FIG. 12 and 13 illustrate embodiments to which the present invention is applied.
  • FIG. 12 illustrates blocks in a frame for explaining prediction on a transform domain in a temporal prediction structure of an IPPP type
  • FIG. 13 illustrates temporal prediction of an IPPP type. Represents a corresponding set of transform coefficients for which prediction on the transform domain is performed in the structure.
  • FIGS. 14 and 15 illustrate block diagrams of encoders and decoders that perform IPPP type CNTs according to embodiments to which the present invention is applied.
  • FIG. 16 is an embodiment to which the present invention is applied and shows a corresponding set of transform coefficients for which prediction on a transform domain is performed in an IBBBP type temporal prediction structure.
  • 17 is an embodiment to which the present invention is applied and shows a flowchart of encoding a video signal based on inter-pixel correlation on a transform domain.
  • FIG. 18 illustrates an embodiment to which the present invention is applied and shows a flowchart of decoding a video signal based on a conditionally nonlinear transform considering inter-pixel correlation on a transform domain.
  • a method of encoding a video signal based on correlations between pixels on a transform domain comprising: obtaining a first transform coefficient by performing transform on a pixel value of a target block in a current frame ; Restoring a second transform coefficient for the corresponding block in the previous frame; And obtaining a predicted value of the first transform coefficient based on the reconstructed second transform coefficient and a correlation coefficient.
  • the second transform coefficient may be restored based on all the transform coefficients previously restored and the first transform coefficient.
  • the correlation coefficient is characterized in that it represents a correlation between the restored second transform coefficient and the first transform coefficient.
  • the correlation coefficient is characterized in that it changes based on the frequency index of the transform coefficients.
  • the present invention the optimal conversion by using the optimal funct ion And obtaining a coefficient, wherein the optimal function is based on the first transform coefficient and the second transform coefficient, wherein the optimal transform coefficient represents a minimum value of the product of the product.
  • the Daeung block in the previous frame is characterized in that the block to the target block in the current frame.
  • the present invention also provides a method of decoding a video signal, the method comprising: receiving a video signal including a first transform coefficient of a target block in a current frame; Acquiring a spatial transform coefficient by performing a temporal inverse transform on the first transform coefficient, wherein the temporal inverse transform represents an inverse transform of an applied transform based on a temporal traj ectory ; Restoring the spatial transform coefficients by using the second transform coefficients of the Daewoong bltok in the previous frame; And reconstructing the video signal by performing a spatial inverse transform on the spatial transform coefficients.
  • the first transform coefficient may represent a space-time transform coefficient obtained based on an optimal function.
  • the present invention provides a device for encoding a video signal based on the inter-pixel correlation on the transform domain, the first transform coefficient (f irst transform coef f icient) by performing a transform on the pixel value of the target block in the current frame A spatial transform unit for acquiring); And restoring a second transform coefficient for the corresponding block in the previous frame, and applying the restored second transform coefficient to the correlation coefficient (correlat ion coef fi cient).
  • An optimization unit for obtaining a predicted value of a first transform coefficient (fi rst transform coef icient) is provided.
  • the optimization unit by using an optimal function (opt imal funct ion) to obtain an optimal transform coefficient, the optimal function is based on the first transform coefficient and the second transform coefficient,
  • the optimal transform coefficient is characterized in that it represents the minimum value of the optimal function.
  • the present invention also provides an apparatus for decoding a video signal, comprising: an entropy decoding unit for receiving a video signal including a first transform coefficient of a target block in a current frame; And obtaining a spatial transform coefficient by performing a temporal inverse transform on the first transform coefficient, restoring the spatial transform coefficient by using a second transform coefficient of a corresponding block in a previous frame, and performing the spatial transform coefficient. And an inverse transform unit for restoring the video signal by performing a spatial inverse transform on the inverse transform, wherein the temporal inverse transform represents an inverse transform of a transform applied based on a temporal trajectory.
  • an apparatus for decoding a video signal, comprising: an entropy decoding unit for receiving a video signal including a first transform coefficient of a target block in a current frame; And obtaining a spatial transform coefficient by performing a temporal inverse transform on the first transform coefficient, restoring the spatial transform coefficient by using a second transform coefficient of a corresponding block in a previous frame, and performing the
  • . 1 and 2 show schematic block diagrams of an encoder and a decoder in which media coding is performed, respectively.
  • the encoder 100 of FIG. 1 includes a transform unit 110, a quantization unit 120, an inverse quantization unit 130, an inverse transform unit 140, a delay unit 150, a prediction unit 160, and an entropy encoding unit (
  • the decoder 200 of FIG. 2 includes an entropy decoding unit 210, an inverse quantization unit 220, an inverse transform unit 230, a delay unit 240, and a prediction unit 250.
  • the encoder 100 receives an original video signal (or iginal video signal), and outputs a predictive ion signal output from the predictor 160 in the original video signal. Subtract to produce prediction error.
  • the generated prediction error is transmitted to the transform unit 110, and the transform unit 110 generates a transform coefficient by applying a transform scheme to the prediction error.
  • the transformation techniques there may be a block-based transformation method and an image-based transformation method.
  • the block-based transform method include a discrete cosine transform, a karhuhen-loeve transform, and the like.
  • the discrete cosine transform (DCT) refers to decomposition (conversion) of a signal on a spatial domain into a two-dimensional frequency component.
  • DCT discrete cosine transform
  • a pattern having a lower frequency component toward the top left and a higher frequency component toward the bottom right forms a pattern.
  • only one in the upper left of the 64 two-dimensional frequency components is a component having a frequency of 0 as a direct current component (DC), and the other is a low component as an AC component (AC).
  • DC direct current component
  • AC AC component
  • DCT discrete cosine transform
  • the discrete cosine transform is simply a transform used to represent an original video signal component, and is completely restored from an original video signal from a frequency component during inverse transformation. That is, by changing only the expression method of the image, all information included in the original image is preserved including the duplicated information.
  • the discrete cosine transform (DCT) of the original video signal unlike the amplitude distribution of the original video signal, the discrete cosine transform (DCT) coefficient is present at a value near zero, so that a high compression effect is used. You can get it.
  • the quantization unit 120 quantizes a transform coefficient and transmits the transform coefficient to the entropy encoding unit 170.
  • the entropy encoding unit 170 entropy codes and outputs the quantized signal.
  • the quantized signal output from the quantization unit 120 may be used to generate a prediction signal.
  • the quantized signal may be restored to a prediction error by applying inverse quantization and inverse transformation through an inverse quantization unit 130 and an inverse transformation unit 140 in a loop.
  • a reconstructed signal may be generated by adding the reconstructed prediction error to a prediction signal output from the predictor 160.
  • the delay unit 150 stores the reconstruction signal for future reference by the prediction unit 160, and the prediction unit 160 stores a previously reconstructed signal stored in the delay unit 150.
  • the prediction signal is generated by using (previously reconstructed signal).
  • the decoder 200 of FIG. 2 receives a signal output from the encoder 100 of FIG. 1, and the received signal is entropy decoded through the entropy decoding unit 210.
  • the inverse quantization unit 220 obtains a transform coefficient from the entropy decoded signal using the quantization step size information, and the inverse transform unit 230 inverse transforms the transform coefficient to obtain a prediction error.
  • a reconstructed signal is generated by adding the obtained prediction error to a predict ion signal output from the predictor 250.
  • the delay unit 240 stores the reconstruction signal for future reference by the prediction unit 250, and the prediction unit 250 stores a previously restored signal stored in the delay unit 240.
  • the predicted signal is generated using the signal (previous ly reconstructed signal).
  • the encoder 100 of FIG. 1 and the decoder 200 of FIG. 2 may be subjected to predictive coding, transform coding, and hybrid coding. The combination of the advantages of predictive coding and transform coding is called hybrid coding.
  • Predictive coding can be applied to individual samples each time, and in fact the most powerful method for prediction is to have a cyclic structure. This circular structure is based on the fact that it can be best predicted when using the nearest value. That is, the best prediction can be performed if the prediction value is coded and then immediately used to predict another value.
  • prediction and transformation are separated in two orthogonal dimensions. For example, in video coding, prediction is applied in the time domain and transform is applied in the spatial domain.
  • prediction is performed only from data in blocks that are already coded. This can eliminate error propagation, but in the prediction process some data samples in the block and smaller There is a disadvantage in that performance is reduced by forcing the use of statistically correlated data.
  • the present invention seeks to solve this problem by removing the limitations on the data that can be used in the prediction process, and by enabling a new form of hybrid coding that incorporates the advantages of predictive coding and transform coding.
  • the present invention is to improve the compression efficiency by providing a conditional non-linear transformation method that considers the correlation between pixels on the transform domain.
  • 3 and 4 are embodiments to which the present invention is applied and show schematic blotting degrees of an encoder and a decoder to which an improved coding method is applied, respectively.
  • N residual data obtained after subtracting N prediction data from N original data (or iginal data) at once.
  • transform coding (1) for predictive error predict ion error.
  • the prediction process and the transformation process are performed sequentially.
  • the present invention proposes a method of obtaining a transform coefficient using a previously reconstructed signal and a context signal.
  • the encoder 300 of FIG. 3 includes an optimizer 310, a quantizer 320, and an entropy encoder 330.
  • the decoder 400 of FIG. 4 includes an entropy decoder 410 and an inverse quantizer. 420, an inverse transform unit 430, and a recovery unit 440.
  • the optimizer 310 obtains an optimized transform coefficient.
  • the optimizer 310 may apply the following embodiments to obtain an optimized transform coefficient.
  • a reconstruction function for reconstructing a signal may be defined as follows.
  • S represents a reconstruction signal
  • c represents a decoded transform coefficient
  • y represents a context signal
  • R (c, y) represents a nonlinear incon reconstruct ion funct ion that uses c and y to generate a reconstruction signal.
  • the prediction signal may be defined as a relationship between the values that are already reconstructed and the transform coefficients. That is, the encoder and the decoder to which the present invention is applied may generate an opt imized predict ion signal in consideration of all signals that have been reconstructed when performing the prediction process.
  • a non-linear prediction function non-l inear predict ion funct ion
  • Each decoded transform coefficient thus affects the overall reconstruction process and enables control of the prediction error contained in the prediction error vector.
  • the prediction error signal may be defined as follows.
  • e represents a prediction error signal
  • c represents a decoded transform coefficient
  • T represents a transform matrix
  • the recovery signal may be defined as follows.
  • n represents the nth reconstruction signal
  • e n represents the nth prediction error signal
  • y represents a context signal
  • R n represents a nonlinear reconstruction function using and y to generate a reconstruction signal.
  • the nonlinear recovery function R n may be defined as follows.
  • ⁇ ⁇ denotes a non-linear function yejeuk (norrlinear predict ion function) consisting of the parameters to generate a prediction signal.
  • the non-linear prediction function may be, for example, a median function or a combination of linear functions as well as a combination of a tank order filter or a nonlinear function.
  • the non-linear prediction function P n 0 may be different nonlinear functions.
  • the encoder 300 and the decoder 400 to which the present invention is applied may include a repository of candidate functions for selecting the non-linear prediction function.
  • the optimizer 310 may select an optimal nonlinear prediction function to generate an optimized transform coefficient.
  • the optimal nonlinear prediction function may be selected from candidate functions stored in the store. This will be described in more detail with reference to FIGS. 7 and 8. As described above, by selecting an optimal nonlinear prediction function, the optimizer 310 may generate an optimized transform coeff i cient.
  • the output transform coefficient is transmitted to the quantization unit 320, and the quantization unit 320 quantizes the transform coefficient and transmits the transform coefficient to the entropy encoding unit 330.
  • the entropy encoding unit 330 may entropy encode the quantized transform coefficients to output a compressed bitstream.
  • the decoder 400 of FIG. 4 may receive the bitstream output from the encoder of FIG. 3, perform entropy decoding through the entropy decoding unit 410, and perform inverse quantization through the inverse quantization unit 420. have. In this case, the signal output through the inverse quantization unit 420 may mean an optimized transform coefficient.
  • the inverse transform unit 430 receives the optimized transform coefficients to perform an inverse transform process, and generates a prediction error signal through the inverse transform process.
  • the reconstruction unit 440 generates a reconstruction signal by adding the prediction error signal and the prediction signal.
  • various embodiments described with reference to FIG. 3 may be applied.
  • Degree. 5 is an embodiment to which the present invention is applied and shows an improved video coding method. A schematic flowchart for explanation is shown.
  • the encoder may generate a reconstruction signal based on at least one of all previously reconstructed signals and context signals (S510).
  • the context signal may include at least one of a previously reconstructed signal, a previously reconstructed intra coded signal, an already reconstructed portion of the current frame, or other information related to decoding of a signal to be reconstructed.
  • the reconstruction signal may include a sum of a prediction signal and a prediction error signal, and each of the prediction signal and the prediction error signal may be generated based on at least one of a previously reconstructed signal and a context signal.
  • the encoder may obtain an optimal transform coefficient that minimizes the optimization function (S520).
  • the optimization function may include a distortion component, a rate component, and a Lagrange mult ipl ⁇ .
  • the distortion component may consist of the difference between the original video signal and the reconstruction signal, and the rate component may comprise a previously obtained transform coefficient.
  • represents a real number that balances the distortion component and the rate component.
  • the obtained transform coefficient is transmitted to the decoder through quantization and entropy encoding (S530).
  • the decoder receives the transmitted transform coefficients and obtains a prediction error vector through entropy decoding, inverse quantization, and inverse transform.
  • the prediction unit in the decoder generates a prediction signal using all available samples that have already been reconstructed, and can reconstruct the video signal based on the prediction signal and the reconstructed prediction error vector.
  • the embodiments described in the encoder may be applied to the process of generating the prediction signal.
  • FIG. 6 is a flowchart illustrating a video coding method using an already reconstructed signal and a context signal to generate an optimal transform coefficient according to an embodiment to which the present invention is applied.
  • the present invention using the already reconstructed signal (previously reconstructed signal) (, x 2, ⁇ , ⁇ ⁇ - ⁇ ) signal and context (context signal) may generate a prediction signal (S610).
  • the previously reconstructed signal may mean 3 ⁇ 4, 3 ⁇ 4 3 ⁇ 4- ⁇ as defined in Equation 3 above.
  • a nonlinear prediction function may be applied to generate the prediction signal, and different nonlinear prediction functions may be applied to each prediction signal.
  • the prediction signal is added to the received prediction error signal e (i) (S620) to generate a reconstruction signal (S630).
  • step S620 may be performed through an adder (not shown).
  • the generated recovery signal may be stored for future reference (S640). This stored signal can then be used to generate the next prediction signal.
  • step S610 is a flowchart illustrating a process of generating a prediction signal used to generate an optimal transform coefficient.
  • the present invention uses a predicted signal p (i by using a previously reconstructed signal (Xi, X2, ..., S n — ⁇ ) and a context signal. )) May be generated (S710).
  • a predicted signal p i by using a previously reconstructed signal (Xi, X2, ..., S n — ⁇ ) and a context signal. )
  • f (k) selection of an optimal prediction function f (k) may be necessary to generate the prediction signal.
  • the generated reconstruction signal S n may be generated using the generated prediction signal (S720), and the generated reconstruction signal S may be stored for future reference (S730).
  • all signals 5, X2,..., X n -i and context signals that have already been recovered may be used to select the optimal prediction function.
  • the present invention may select an optimal prediction function by finding a candidate function that minimizes the sum of the distortion measurement and the rate measurement (S740).
  • the distortion measurement indicates a value obtained by measuring a distortion between an original image signal and a reconstructed signal
  • the rate measurement value indicates a value measured by a rate required for transmitting or storing a transform coefficient
  • the present invention can obtain the optimal prediction function by selecting a candidate function to minimize the following equation (5).
  • C * denotes a value of c that minimizes Equation 5, i.e., the decoded transform coefficient Indicates.
  • D (x, x (c)) represents a distortion measurement value between the original video signal and its reconstruction signal
  • R (c) represents a rate measurement value necessary for transmitting or storing the conversion coefficient c.
  • R (c) is Huffman
  • An entropy coder such as a Huffman coder or an arithmetic coder may be used to represent the number of bits used to store the transform coefficient c.
  • R (c) is a Laplacian or Gaussian probability model
  • represents a Lagrange multiplier used in encoder optimization.
  • may represent a real number that balances the distortion measurement with the rate measurement.
  • 8 is a flowchart illustrating a method of obtaining an optimal transform coefficient according to an embodiment to which the present invention is applied.
  • the present invention can provide an improved coding method by obtaining an optimal transform coefficient that minimizes the sum of the distortion measure and the rate measure.
  • the encoder may obtain an optimal transform coefficient that minimizes the sum of the distortion measurement value and the rate measurement value (S810).
  • the equation of Equation 5 may be applied to the sum of the distortion measurement value and the rate measurement value.
  • the input signal the original image signal (X), the already reconstructed signal (5, previously obtained conversion coefficients and Lagranges)
  • At least one of a multiplier (Lagrange mul t ipl ier, ⁇ ) may be used.
  • the already reconstructed signal may be obtained based on a previously obtained transform coefficient.
  • the optimal transform coefficient (c) is inversely transformed through an inverse transform process (S820), and a prediction error signal is obtained (S830).
  • the encoder generates a reconstruction signal X using the obtained error signal (S840).
  • a context signal may be used to generate the reconstruction signal 50.
  • the generated reconstructed signal may in turn be used to obtain an optimal transform coefficient that minimizes the sum of the distortion measurement and the rate measurement.
  • the optimal transform coefficients are updated and can be used to obtain new optimized transform coefficients again through a reconstruction process.
  • This process may be performed by the optimizer 310 of the encoder 300.
  • the optimizer 310 outputs a newly obtained transform coefficient, and the output transform coefficient is compressed and transmitted through a quantization and entropy encoding process.
  • a prediction signal is used to obtain an optimal transform coefficient, and the prediction signal may be defined as a relationship between already reconstructed signals and transform coefficients.
  • the transform coefficients may be described by Equation 2, and as in Equation 2 and Equation 3, each transform coefficient may affect the entire reconstruction process, and a prediction error included in a prediction error vector. Can enable a wide range of control.
  • the restoring process may be limited to a linear one. In such a case, the restoring signal may be defined as in Equation 6 below.
  • X represents a reconstruction signal
  • c represents a decoded transform coefficient
  • y represents a context signal
  • F, ⁇ , and I / represent n x n matrices.
  • an n X n matrix S may be used to control the quantization error included in the transform coefficient.
  • the reconstruction signal may be defined as follows.
  • the matrix S for controlling the quantization error may be obtained by using the following minimization process of Equation 8.
  • T represents a training signal
  • the transform coefficient c is aligned with an n-dimensional vector.
  • the transform coefficient components satisfy e.
  • the conversion coefficient Each may have a different quantization step size.
  • the n X n matrix F, S, H of Equation 7 may be co-optimized for the training signal.
  • the joint optimization method may be performed by minimizing the following equation (9).
  • GOP group of pictures
  • the present invention can apply space-time transformation to a picture group G0P including V frames.
  • the prediction error signal and the reconstruction signal may be defined as follows.
  • T st represents a spatiotemporal transform matrix and c includes decoded transform coefficients for the entire picture group.
  • the error vector e may include all error values for the entire picture group G0P having the V frames.
  • FIG. 9 is a diagram for describing a transform method in a general spatial domain
  • FIG. 10 is a diagram for explaining a method of applying a space-time transform to a picture group.
  • transform codes in the spatial domain are generated independently of error values of I frames and P frames.
  • the present invention provides a new method for improving the efficiency of the compression algorithm using CNT techniques that consider inter-pixel correlation on the transform domain.
  • the CNT combines the transform and prediction steps together in an optimal way by taking into account the quantization effects of the samples.
  • the present invention can combine a completely arbitrary prediction method with any transform, taking into account the propagation effect of quantization error.
  • High compression efficiency can be obtained by applying different design parameter selections to different forms of traditional prediction-transformation scenarios such as intra and inter prediction.
  • the selection of other design parameters may include the geometry of the neighbor pixel set considered in each CNT operation.
  • the present invention describes a method of designing a CNT for inter frame coding of a video signal.
  • the present invention can convert the original optimization problem for a spat io-temporal volume of pixels in a video signal into a one-dimensional temporal trajectory. This can significantly reduce the complexity while maintaining the efficiency of the CNT technology.
  • the present invention provides a CNT technique for space-time volume of video.
  • CNTs can be applied independently to each of the three dimensions of the space-time video volume.
  • the present invention may first apply a spatial transform, such as DCT, to each coding unit (CU or PU) in a frame to obtain corresponding transform coefficients that are spatially uncorrelated.
  • the CNTs can be designed using transform coefficients along the one-dimensional temporal motion trajectory found by the inter-frame motion estimation.
  • the problem of designing CNTs for inter-frame coding that must process three-dimensional space-time pixel volumes can be reformulated as a one-dimensional CNT design problem.
  • the present invention proposes a method of designing a CNT for inter frame coding without incurring high computational complexity, so that long-term temporal correlation can be effectively considered within the CNT framework.
  • Another embodiment of the invention is directed to a method of generating a special form of CNT that is applied to a group of video frames (or G0P).
  • temporal matching blocks are located within a given group of picture (G0P) to form a temporal trajectory.
  • a spatial transform such as DCT (S-Transform) is applied to each CU in the frame, whereby the transform coefficients of the CU are de-correlated.
  • Matching of the first stage may be performed in the pixel domain as in a general codec, or may be performed on the transform coefficient domain obtained after spatial transform.
  • CNT parameters are designed for coding transform coefficients of the same frequency in a CU according to a temporal trajectory.
  • the parameters may refer to the F and H matrices of Equation 6.
  • Temporal prediction dependencies such as IPPP or IBBBP can be considered when deriving CNT parameters.
  • the correlation coefficients between the transform coefficient values between the blocks corresponding in time to can vary, based on the frequency or time index of the correlation coefficient.
  • the S-Transform represents a spatial transform for calculating a transform coefficient for each frame, as shown in Equation 15, and the Temporal Transform (T-transform) corresponds to a temporal trajectory. Represents the time conversion required for CNT operation.
  • FIG. 11 is an embodiment to which the present invention is applied and shows blocks in a frame forming a temporal trajectory of the same object in an IPPP type temporal prediction structure.
  • FIG. 11 shows a temporal prediction structure of a typical IPPP type.
  • Four frames from Frame (i-1) to Frame (i + 2) are illustrated, and the four frames may be I, P, P, and P frames, respectively.
  • the blots b (i — ⁇ ⁇ 1) ( ⁇ + 2) in the frame are connected by the motion vector to form a temporal trajectory in which temporal motion of the same object can be identified.
  • the inner frame beultok b (i - ⁇ ⁇ 1) ( ⁇ + 2) is assumed to be a 2x2 block, the present invention is not limited thereto.
  • the first-order Gauss Markov model predictor is expressed by the following equation (13).
  • Equation 13 Represents a pixel value of the n-th position in the block in the i-th frame, and the correlation coefficient is assumed to be 1.
  • Equation 14 Where ⁇ represents the pixel value of the spatially neighboring pixel, and ⁇ represents the correlation coefficient associated with.
  • Equation 13 or Equation 14 may be used based on complexity or modeling accuracy.
  • FIG. 12 and 13 illustrate embodiments to which the present invention is applied, FIG. 12 shows blocks in a frame for explaining prediction on a transform domain in a temporal prediction structure of type ⁇ , and FIG. 13 shows temporal prediction of ⁇ type. Represents a large set of transform coefficients in which a prediction on a transform domain is performed in a structure.
  • a block in a frame may be divided into four subblocks, and f represents a transform coefficient of each subblock.
  • the block bi in the frame i includes four subblocks, and represents a transform coefficient of each subblock f0, fl, f2, and f3.
  • the sub blocks b (i ⁇ ir b (i + 2) are assumed to be 2 ⁇ 2 blocks, but the present invention is not limited thereto.
  • Correlation between unspecific pixel values in a frame and transform coefficients may be represented by Equation 15 below, and the transform coefficients of each subblock may be defined as transform coefficient sets.
  • F ' represents a set of transform coefficients of a block in a frame
  • ' represents a set of pixel values of a block in a frame
  • T represents a transform matrix
  • F 'and X' can be represented by Equation 16 below.
  • n denotes an index for the transform coefficient
  • i denotes a frame number
  • i denotes a correlation coefficient between the (i-1) th frame and the nth transform coefficients of matching blocks in the i-th frame.
  • the transform domain The transform coefficient prediction may be performed on the image.
  • the transform coefficient / '' in the current i-th frame can be predicted from the transform coefficient / '' -1 of the previous frame.
  • One of the gist of the CNT algorithm to which the present invention is applied is that both prediction and transformation can be applied one-dimensionally for better decorrelat ion.
  • TDP temporal direct ion prediction
  • the present invention provides a method of performing CNTs on space-time pixel volumes without increasing computational complexity.
  • an IPPP type CNT using a primary Gauss-Markov model may be performed as follows.
  • the prediction dependence between the transform coefficients in the frame may be defined as in Equations 18 to 20.
  • Equation 21 an equation for predicting a specific transform coefficient in a frame may be calculated as in Equation 21 below.
  • Is a set of transform coefficient prediction values is a reconstructed sample set of transform coefficients, and is a transform coefficient of a previous frame. For example, it can be expressed as the following equations (22) to (24).
  • a recovery function such as 25 can be obtained.
  • Equation 24 has a form corresponding to H ⁇ (IF 0 ) 'l G.
  • conversion ⁇ ⁇ represents the transformation to be applied based on the temporal trajectory that may include a DCT, DST and the like.
  • Equation 26 the CNT optimization equation may be changed as in Equation 26 to find an optimal transform coefficient vector.
  • DO represents a distortion component
  • RO represents a rate component
  • A represents a Lagrange multiplier.
  • DO represents an inferable function such as / 2 norm
  • R () represents a bit measure needed to transmit related side information such as a quantization index corresponding to C *.
  • represents a real number that balances the distortion component and the rate component.
  • 14 and 15 illustrate block diagrams of an encoder and a decoder that performs ⁇ type CNTs according to embodiments to which the present invention is applied. A block diagram of an encoder and a decoder for performing an IPPP type CNT to which the present invention is applied is shown.
  • the encoder 1400 to which the present invention is applied includes a spatial transform unit 1410, an optimizer 1420, a quantization unit 1430, an entropy decoding unit 1440, an inverse transform unit 1450, and a DPB 1460. It may include.
  • the spatial transform unit 1410 may include a plurality of sub-space transform units applied to each frame.
  • the spatial transform unit 1410 includes (i + 2) th spatial transform unit 1411, (i + 1) th spatial transform unit 1412, (i) th spatial transform unit 1413, ( and a plurality of spatial transform units, such as the i-1) th spatial transform unit 1414.
  • the (i-1) th spatial transform unit 1414 may be separately performed as shown in FIG. 14. However, this is expressed for the sake of understanding and may be performed in one transform unit in the encoder.
  • the spatial transform unit 1410 may receive a pixel value or a pixel value set in the pixel domain for each frame, and output a transform coefficient or a transform coefficient set by applying a spatial transform matrix to the frame. For example, the spatial transform unit 1410 may acquire a first transform coefficient f irst transform coefficient by performing transform on the pixel value of the target block in the current frame.
  • the optimizer 1420 may calculate an optimal transform coefficient by using an optimization function.
  • the optimization function includes a distortion component, a rate component and a Lagrangian game, for example, Equation 26 may be used.
  • the optimal transform coefficients represent transform coefficients that minimize the optimization function.
  • the optimal transform coefficient may be obtained based on at least one of a transform coefficient prediction value, a reconstructed sample of the transform coefficient, and a correlation coefficient between the transform coefficients.
  • the optimizer 1420 restores a second transform coefficient for the Daewoong block in the previous frame, and restores the second transform coefficient and the correlation coefficient.
  • a prediction value of the first transform coefficient may be obtained.
  • the corresponding block in the previous frame refers to a block supported by the target block in the current frame.
  • the correlation coefficient represents a correlation between the restored second transform coefficient and the third transform coefficient.
  • the inverse transform unit 1450, the DPBC1460, and the (i_l) th spatial transform unit 1414 are shown as separate units, but are for convenience of description and are included in the optimizer 1420. May be
  • the optimal transform coefficients output from the optimizer 1420 are quantized through the quantization unit 1430, entropy encoded through the entropy encoding unit 1440, and transmitted to the decoder.
  • the decoder 1500 to which the present invention is applied includes an entropy decoding unit 1510, an inverse quantization unit 1520, a temporal inverse transform unit 1530, a spatial inverse transform unit (not shown), a DPB 1550, and a transform. It may include a portion 1560.
  • the spatial inverse transform unit (not shown) may include an (i + 2) th spatial inverse transform unit 1540, an (i + 1) th spatial inverse transform unit 1541, and an (i) th spatial transform unit 1542.
  • the time inverse transform unit 1530 and the space inverse transform unit are separately illustrated for convenience of description, they may be included in one inverse transform unit.
  • Entropy decoding unit 1510 is the optimal conversion transmitted from the encoder 1400 Receive coefficients and perform entropy decoding.
  • the inverse quantization unit 1520 dequantizes the entropy decoded transform coefficients, and the time inverse transform unit 1530 outputs a transform coefficient or a transform coefficient set for each frame. For example, a transform coefficient or a transform coefficient set in which a transform is performed on a pixel value of a target block may be output.
  • the transform coefficients output from the temporal inverse transform unit 1530 may be transmitted to a spatial inverse transform unit (not shown) together with the transform coefficients of the Daeung block in the previous frame.
  • a spatial inverse transform unit (not shown) together with the transform coefficients of the Daeung block in the previous frame.
  • the transform coefficient of the target blotk in the (i + 2) th frame may be transmitted to the (i + 2) th spatial inverse transform unit 1540 together with the transform coefficient of the Daeung block in the previous frame.
  • the spatial inverse transform unit may reconstruct the pixel value of the corresponding block by performing spatial inverse transform on the received transform coefficient.
  • the (i + 2) th spatial inverse transform unit 1540 may target the (i + 2) th frame based on the transform coefficients output from the temporal inverse transform unit 1530 and the transform coefficients of the corresponding block in the previous frame.
  • the pixel value X i + 2 of the block can be restored.
  • the pixel value of the target block in the (i) th frame reconstructed by the (0th spatial inverse transform unit 1542) may be stored in the DPB 1550 and then used to reconstruct the pixel value of the block in the frame.
  • 16 is a diagram illustrating a corresponding set of transform coefficients for which prediction on a transform domain is performed in a temporal prediction structure of an IBBBP type, according to an embodiment to which the present invention is applied.
  • the prediction dependency of the liver may be defined as in Equations 27 to 30. [Equation 27] [Equation 28]
  • Equation 31 an equation for predicting the transform coefficient of the in-frame bltok may be calculated as in Equation 31 below.
  • Equation 32 to 34 represents a transform coefficient predicted value set
  • X represents a reconstructed sample set of transform coefficients
  • Y represents a transform coefficient of a previous frame.
  • a reconstruction function such as 25 may be obtained, and F 0 and G in the IBBBP prediction structure may be newly defined by Equation 31.
  • the CNT optimization equation for finding the optimal transform coefficient vector o may be changed based on Equation 26.
  • FIG. 17 shows a flowchart of encoding a video signal based on inter-pixel correlation on a transform domain in an embodiment to which the present invention is applied.
  • the present invention provides a method of encoding a video signal based on inter-pixel correlation on a transform domain.
  • a first transform coefficient may be obtained (S1710).
  • a second transform coefficient of the Daeung block in the previous frame may be restored.
  • the Daeung block in the previous frame indicates a block corresponding to the target block in the current frame.
  • a predicted value of the first transform coefficient may be obtained based on the reconstructed second transform coefficient and the correlation coefficient (S1730).
  • the correlation coefficient represents a correlation between pixels between the restored second transform coefficient and the first transform coefficient.
  • the correlation coefficient may change based on a frequency index of transform coefficients.
  • the encoder may obtain an optimal transform coefficient by using an optimal function (S1740).
  • the optimal function is based on the first transform coefficient and the second transform coefficient, and the optimal transform coefficient indicates a transform coefficient that minimizes the optimal function.
  • Equation 26 may be used for the optimal function.
  • FIG. 18 is an embodiment to which the present invention is applied, and illustrates a conditionally nonlinear transform considering correlation between pixels on a transform domain. A flowchart for decoding a video signal based on this is shown.
  • the present invention provides a method for decoding a video signal based on a conditional ly nonl inear transform that takes into account inter-pixel correlations on the transform domain.
  • the decoder may receive a video signal including a first transform coefficient of a target block in the current frame (S1810).
  • the first transform coefficient indicates a space-time transform coefficient obtained based on an optimal function.
  • the decoder the first can, to obtain a space conversion coefficient by performing a time reverse (inverse temporal transform) to the transform coefficients (S1820).
  • the temporal inverse transform represents an inverse transform of the transform applied based on a temporal trajectory.
  • the spatial transform coefficient may mean a transform coefficient or a transform coefficient set in which a transform is performed on a pixel value of a target block.
  • the decoder may restore the spatial transform coefficients by using the second transform coefficients of the Daeung block in the previous frame (S1830).
  • the decoder may reconstruct the video signal by performing spatial inverse transform on the spatial transform coefficients (S1840). For example, the pixel value of the target block in the current frame may be restored based on the spatial transform coefficient and the transform coefficient of the Daeung block in the previous frame.
  • the pixel value of the reconstructed target block in the current frame may be stored in the DPB and then used to reconstruct the pixel value of the block in the frame.
  • the embodiments described herein may be implemented and performed on a processor, microprocessor, controller, or chip.
  • the functional units illustrated in FIGS. 1 to 4 and 14 to 15 may be implemented by a computer, a processor, a microprocessor, a controller, or a chip.
  • the decoder and encoder to which the present invention is applied include a multimedia broadcasting transmitting and receiving device, a mobile communication terminal, a home cinema video device, a digital cinema video device, a surveillance camera, a video chat device, a real time communication device such as video communication, a mobile streaming device, Storage media, camcorders, video on demand (VoD) service providing devices, internet streaming service providing devices, three-dimensional (3D) video devices, video telephony video devices, and medical video devices, and the like, for processing video signals and data signals Can be used for
  • the processing method to which the present invention is applied can be produced in the form of a program executed by a computer, and stored in a computer-readable recording medium.
  • Multimedia data having a data structure according to the present invention can also be stored in a computer-readable recording medium.
  • the computer readable recording medium includes all kinds of storage devices for storing computer readable data.
  • the computer-readable recording medium may include, for example, a Blu-ray Disc (BD), a Universal Serial Bus (USB), a ROM, a RAM, a CD-ROM, a magnetic tape, a floppy disk, and an optical data storage device. Can be.
  • the computer-readable recording medium may be in the form of a carrier wave (for example, transmission over the Internet). Contains the implemented media.
  • the bit stream generated by the encoding method may be stored in a computer-readable recording medium or transmitted through a wired or wireless communication network.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Discrete Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

본 발명은, 변환 도메인 상에서 픽셀 간 상관 관계에 기초하여 비디오 신호를 인코딩하는 방법에 있어서, 현재 프레임 내 타겟 블톡의 픽셀 값에 대해 변환을 수행함으로써 제 1 변환 계수 (first transform coefficient)를 획득하는 단계; 이전 프레임 내 대응 블록에 대한 제 2 변환 계수 (second transform coefficient)를 복원하는 단계; 및 상기 복원된 제 2 변환 계수 (second transform coefficient)와 상관 계수 (correlation coefficient)에 기초하여 상기 제 1 변환 계수 (first transform coefficient)의 예측값을 획득하는 단계를 포함하는 것을 특징으로 하는 방법을 제공한다.

Description

【명세서】
【발명의 명칭】
비디오 신호의 인코딩, 디코딩 방법 및 그 장치
【기술분야】
본 발명은 비디오 신호의 인코딩, 디코딩 방법 및 그 장치에 관한 것이며, 보다 상세하게는, 비디오 신호의 시공간 볼륨에 대한 조건부 비선형 변환 (Condi t ional ly Non-l inear Transform, 이하 'CNT' 라 함) 기술에 관한 것이다.
【배경기술】
압축 부호화란 디지털화한 정보를 통신 회선을 통해 전송하거나, 저장 매체에 적합한 형태로 저장하기 위한 일련의 신호 처리 기술을 의미한다. 영상, 이미지, 음성 등의 미디어가 압축 부호화의 대상이 될 수 있으며, 특히 영상을 대상으로 압축 부호화를 수행하는 기술을 비디오 영상 압축이라고 일컫는다.
많은 미디어 압축 기술은 예측 코딩과 변환 코딩이라는 2가지 접근 방법에 기초한다. 특히, 하이브리드 코딩 (hybrid coding) 기술은 비디오 코딩을 위해 양자의 장점을 결합한 방식을 채택하고 있지만, 각 코딩 기술은 다음과 같은 단점이 있다.
예측 코딩의 경우 예측 에러 샘플을 획득함에 있어서 어떠한 통계적인의존성을 이용할 수 없다. 즉, 예측 코딩은 동일 신호의 이미 코딩된 부분을 이용하는 신호 요소를 예측하고 예측된 값과 실제 값 사이의 차이값을 코딩하는 것을 기초로 한다. 이는 더 정확하게 예측된 신호가 더 효율적으로 압축될 수 있다는 정보이론을 따르며, 예측의 일관성과 정확성을 증가시킴으로써 더 좋은 압축 효과를 얻을 수 있다. 예측 코딩은 인과 통계적 관계 (causal stat ist ics relat ionships)에 기초하기 때문에 매끄럽지 않거나 불규칙적인 신호를 처리하는데 유리한 반면, 큰 규모의 신호를 처리하는데는 효율적이지 못하다는 단점이 있다. 또한, 원 영상 신호에 양자화를 적용하기 때문에 인간의 시청각 시스템의 한계를 이용할 수 없다는 단점이 있다.
한편, 변환 코딩의 경우, 일반적으로 이산 여현 변환 (Di screte Cosine Transform)이나 이산 웨이블릿 변환 (Discrete Wavelet Transform)과 같은 직교 변환이 이용될 수 있다. 변환 코딩은 가장 증요한 데이터를 식별하기 위해 신호를 일련의 요소들로 분해하는 기술이며, 양자화 이후 대부분의 변환 계수는 0이 된다.
그러나, 변환 코딩의 경우 샘플의 예측 값을 획득함에 있어서 단지 최초 이용가능한 데이터에만 의존해야 한다는 단점이 있다. 그러한 이유로 예측 신호가 높은 퀄러티를 갖기 어렵게 된다.
따라서, 본 발명에서는, 상기의 문제점들을 해결하기 위해 변환 도메인 상에서 픽셀 간 상관 관계를 고려함으로써 압축 효율의 향상시킬 수 있다.
【발명의 상세한 설명】
【기술적 과제】
본 발명에서는, 비디오 신호의 시공간 (spat i으 temporal ) 볼륨에 대한 CNT 기술을 적용하는 방법을 제안하고자한다. 본 발명에서는, 비디오 신호의 시공간 (spat io-temporal ) 볼륨의 3차원 각각에 대해 독립적으로 CNT 기술을 적용하는 방법을 제안하고자 한다.
본 발명에서는, 인터-프레임 코딩을 위해 CNT를 디자인하는 방법을 제안하고자 한다.
본 발명에서는, 새로운 예측 /변환 코딩의 융합에 기초하여 각 코딩 방식의 장점을 모두 적용할 수 있는 방법을 제안하고자 한다.
본 발명에서는, 변환 코딩과 결합되었던 선형 /비선형 예측 코딩을 통합된 비선형 변환 블록으로 대체하고자 한다.
본 발명에서는, 변환 코딩과 결합되었던 하이브리드 코딩을 통합된 비선형 변환 블록으로 대체하고자 한다.
본 발명에서는, 매끄럽지 않거나 (non-smooth) 비정지적인 (non-stat ionary) 신호를 포함하는 고화질 영상에 대해 보다 효율적으로 코딩할 수 있는 방법을 제안하고자 한다.
본 발명에서는, 단일 차원에 대해 예측과 변환을 동시에 적용하여 코딩할 수 있는 방법을 제안하고자 한다.
본 발명에서는, 비선형 변환과 백터 양자화를 이용하여 코딩할 수 있는 방법을 제안하고자 한다.
【기술적 해결방법】
본 발명은 변환 도메인 상에서 픽셀 간 상관 관계를 고려하는 조건부 비선형 변환 (condi t ional ly nonl inear transform, 'CNT' ) 방법을 제공한다. 또한, 본 발명은, 비디오 신호의 시공간 (spat io-temporal ) 볼륨에 대한 CNT 기술을 적용하는 방법을 제안한다. 또한, 본 발명은, 변환 계수를 이용하여 예측을 수행함으로써 인터-프레임 코딩을 위한 CNT를 디자인하는 방법을 제안한다.
또한, 본 발명은, 예측 과정을 수행할 때 이미 복원된 모든 신호를 고려함으로써 최적의 변환 계수 (opt imized transform coeff icient )를 획득할 수 있다.
또한, 본 발명은, 최적의 변환 계수 (opt imized transform coeff icient )를 획득하기 위해 이미 복원된 모든 신호들 및 컨텍스트 신호 (context signal )를 이용할 수 있으며, 여기서 상기 컨텍스트 신호는 이전에 복원된 신호, 이전에 복원된 인트라-코딩된 신호, 현재 프레임의 기복원된 부분 또는 복원될 신호의 디코딩과 관련하여 인코더가 디코더에 전송하는 정보 중 적어도 하나를 포함한다. 또한, 본 발명은, 최적의 변환 계수를 획득하기 위해 왜곡 측정값과 레이트 측정값의 합을 최소화하는 후보 함수를 찾을 수 있다.
【유리한 효과】
본 발명은 변환 도메인 상에서 픽샐 간 상관 관계를 고려하는 조건부 비선형 변환 (condit ional ly nonl inear transform)을 이용함으로써 압축 효율을 향상시킬 수 있다.
또한, 본 발명은 비디오 신호 내 픽셀들의 시공간 볼륨에 대한 오리지널 최적화 문제를 1차원 시간적 궤적으로 변환함으로써, 조건부 비선형 변환 (condi t ional ly nonl inear transform)의 효율을 유지하면서 복잡도를 현저히 감소시킬 수 있다.
본 발명은 예측 코딩과 변환 코딩을 융합함으로써 각 코딩 방식의 장점을 모두 살릴 수 있다. 즉, 이미 복원된 신호들을 모두 이용함으로써 보다 정교하고 향상된 예측을 수행할 수 있고, 예측 에러 샘플의 통계적 종속성을 이용할 수 있다.
그리고, 단일 차원에 대해 예측과 변환을 동시에 적용하여 코딩함으로써 매끄럽지 않거나 (non-smooth) 비정지적인 (non-stat ionary) 신호를 포함하는 고화질 영상에 대해 보다 효율적으로 코딩할 수 있다.
또한, 각각의 디코딩된 변환 계수들이 전체 복원 과정에 영향을 미침으로써, 예측 에러 백터에 포함되어 있는 예측.에러의 제어도 가능하게 된다. 즉, 양자화 에러가 고려되어 제어되기 때문에 양자화 에러 전파 문제가 해결된다.
본 발명은 부가 정보 필요없이 신호 적응적인 디코딩 수행이 가능하며, 기존의 하이브리드 코더와 비교할 때, 고화질 예측이 가능하고 예측 에러도 줄일 수 있다.
또한, 본 발명은 보다 향상된 시공간 (spat iotemporal ) 비디오 압축 방법을 제공함으로써 움직임 의존성이 크거나 공간 경계 특성이 두드러지는 영상에 대해서도 효율적인 코딩이 가능하다.
【도면의 간단한 설명】
도 1 및 도 2는 각각 미디어 코딩이 수행되는 인코더와 디코더의 개략적인 블록도를 나타낸다.
도 3 도 4는 본 발명이 적용되는 실시예들로써, 각각 향상된 코딩 방법이 적용되는 인코더와 디코더의 개략적인 블톡도를 나타낸다.
도 5는 본 발명이 적용되는 실시예로써, 향상된 비디오 코딩 방법올 설명하기 위한 개략적인 흐름도를 나타낸다.
도 6은 본 발명이 적용되는 실시예로써, 최적의 예측 신호를 생성하기 위한 향상된 비디오 코딩 방법을 설명하기 위한흐름도이다.
도 7은 본 발명이 적용되는 실시예로써, 최적의 예측 신호를 생성하는 과정을 설명하기 위한 흐름도이다.
도 8은 본 발명이 적용되는 실시예로써, 최적의 변환 계수를 획득하는 방법을 설명하기 위한 흐름도이다.
도 9 및 도 10은 본 발명이 적용되는 실시예들로, 픽쳐 그룹 (GOP, Group of Picture)에 대해 시공간 변환 (spat iotemporal transform)을 적용하는 방법을 설명하기 위한 개념도이다.
도 11은 본 발명이 적용되는 실시예로써, IPPP 타입의 시간적 예측 구조에서 동일한 객체의 시간적 궤도를 형성하는 프레임 내 블록들을 나타낸다.
도 12 및 도 13은 본 발명이 적용되는 실시예들로써, 도 12는 IPPP 타입의 시간적 예측 구조에서 변환 도메인 상의 예측이 적용되는 것을 설명하기 위한 프레임 내 블록들을 나타내고, 도 13은 IPPP 타입의 시간적 예측 구조에서 변환 도메인 상의 예측이 수행되는 변환 계수의 대응 셋을 나타낸다.
도 14 및 도 15는 본 발명이 적용되는 실시예들로써, IPPP 타입 CNT를 수행하는 인코더 및 디코더의 블록 다이어그램올 나타낸다.
도 16은 본 발명이 적용되는 실시예로써, IBBBP 타입의 시간적 예측 구조에서 변환 도메인 상의 예측이 수행되는 변환 계수의 대응 셋을 나타낸다. 도 17은 본 발명이 적용되는 실시예로써, 변환 도메인 상에서 픽셀 간 상관 관계에 기초하여 비디오 신호를 인코딩하는 흐름도를 나타낸다. 도 18은 본 발명이 적용되는 실시예로써, 변환 도메인 상에서 픽셀 간 상관 관계를 고려하는 조건부 비선형 변환 (conditionally nonlinear transform)에 기초하여 비디오 신호를 디코딩하는 흐름도를 나타낸다.
【발명의 실시를 위한 최선의 형태】
본 발명은, 변환 도메인 상에서 픽샐 간 상관 관계에 기초하여 비디오 신호를 인코딩하는 방법에 있어서, 현재 프레임 내 타겟 블록의 픽셀 값에 대해 변환을 수행함으로써 제 1 변환 계수 (first transform coefficient)를 획득하는 단계; 이전 프레임 내 대응 블록에 대한 제 2 변환 계수 (second transform coefficient)를 복원하는 단계; 및 상기 복원된 제 2 변환 계수 (second transform coefficient)와 상관 계수 (correlation coefficient)에 기초하여 상기 제 1 변환 계수 (first transform coefficient)의 예측값을 획득하는 단계를 포함하는 것을 특징으로 하는 방법을 제공한다.
또한, 본 발명에서, 상기 제 2 변환 계수 (second transform coefficient)는 이전에 복원된 모든 변환 계수와 상기 제 1 변환 계수에 기초하여 복원되는 것을 특징으로 한다.
또한, 본 발명에서, 상기 상관 계수 (correlation coefficient)는 상기 복원된 제 2 변환 계수와 상기 제 1 변환 계수 사이의 상관 관계를 나타내는 것을 특징으로 한다.
또한, 본 발명에서, 상기 상관 계수 (correlation coefficient)는 변환 계수들의 주파수 인덱스에 기초하여 변하는 것을 특징으로 한다.
또한ᅳ 본 발명은, 최적의 함수 (optimal funct ion)를 이용하여 최적의 변환 계수를 획득하는 단계를 더 포함하되, 상기 최적의 함수는 상기 제 1 변환 계수와 상기 제 2 변환 계수에 기초하고, 상기 최적의 변환 계수는 상기 촤적의 함수의 최소값을 나타내는 것을 특징으로 한다.
또한, 본 발명에서, 상기 이전 프레임 내 대웅 블록은 상기 현재 프레임 내 타겟 블록에 대웅되는 블록을 나타내는 것을 특징으로 한다.
또한, 본 발명은, 비디오 신호를 디코딩하는 방법에 있어서, 현재 프레임 내 타겟 블록의 제 1 변환 계수를 포함하는 비디오 신호를 수신하는 단계; 상기 제 1 변환 계수에 대해 시간 역변환 (temporal inverse transform)을 수행함으로써 공간 변환 계수를 획득하는 단계, 여기서 상기 시간 역변환은 시간 궤도 (temporal traj ectory)에 기초하여 적용된 변환의 역변환 ( inverse transform)을 나타냄; 이전 프레임 내 대웅 블톡의 제 2 변환 계수를 이용함으로써 상기 공간 변환 계수를 복원하는 단계; 및 상기 공간 변환 계수에 대한 공간 역변환 (spat i al inverse transform)을 수행함으로써 상기 비디오 신호를 복원하는 단계를 포함하는 것을 특징으로 하는 방법을 제공한다.
또한, 본 발명에서 상기 계 1 변환 계수는 최적의 함수에 기초하여 획득된 시공간 변환 계수를 나타내는 것을 특징으로 한다.
또한, 본 발명은, 변환 도메인 상에서 픽셀 간 상관 관계에 기초하여 비디오 신호를 인코딩하는 장치에 있어서, 현재 프레임 내 타겟 블록의 픽셀 값에 대해 변환을 수행함으로써 제 1 변환 계수 ( f irst transform coef f icient )를 획득하는 공간 변환부; 및 이전 프레임 내 대응 블록에 대한 제 2 변환 계수 (second transform coef f i cient )를 복원하고, 상기 복원된 제 2 변환 계수 (second transform coef f i ci ent )와 상관 계수 (correlat ion coef f i ci ent )에 기초하여 상기 제 1 변환 계수 ( f i rst transform coef f icient )의 예측값을 획득하는 최적화부를 포함하는 것을 특징으로 하는 장치를 제공한다.
또한, 본 발명에서, 상기 최적화부는, 최적의 함수 (opt imal funct ion)를 이용하여 최적의 변환 계수를 획득하고, 상기 최적의 함수는 상기 제 1 변환 계수와 상기 제 2 변환 계수에 기초하고, 상기 최적의 변환 계수는 상기 최적의 함수의 최소값을 나타내는 것을 특징으로 한다.
또한, 본 발명은, 비디오 신호를 디코딩하는 장치에 있어서, 현재 프레임 내 타겟 블록의 제 1 변환 계수를 포함하는 비디오 신호를 수신하는 엔트로피 디코딩부; 및 상기 제 1 변환 계수에 대해 시간 역변환 (temporal inverse transform)을 수행함으로써 공간 변환 계수를 획득하고, 이전 프레임 내 대응 블록의 제 2 변환 계수를 이용함으로써 상기 공간 변환 계수를 복원하고, 상기 공간 변환 계수에 대한 공간 역변환 (spat i al inverse transform)을 수행함으로써 상기 비디오 신호를 복원하는 역변환부를 포함하되, 상기 시간 역변환은 시간 궤도 (temporal trajectory)에 기초하여 적용된 변환의 역변환 ( inverse transform)을 나타내는 것을 특징으로 하는 장치를 제공한다.
【발명의 실시를 위한 형태】
이하, 첨부된 도면을 참조하여 본 발명의 실시예의 구성과 그 작용을 설명하며, 도면에 의해서 설명되는 본 발명의 구성과 작용은 하나의 실시예로서 설명되는 것이며, 이것에 의해서 본 발명의 기술적 사상과 그 핵심 구성 및 작용이 제한되지는 않는다.
아울러, 본 발명에서 사용되는 용어는 가능한 한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 특정한 경우는 출원인이 임의로 선정한 용어를 사용하여 설명한다. 그러한 경우에는 해당 부분의 상세 설명에서 그 의미를 명확히 기재하므로, 본 발명의 설명에서 사용된 용어의 명칭만으로 단순 해석되어서는 안 될 것이며 그 해당 용어의 의미까지 파악하여 해석되어야 함을 밝혀두고자 한다.
또한, 본 발명에서 사용되는 용어들은 발명을 설명하기 위해 선택된 일반적인 용어들이나, 유사한 의미를 갖는 다른 용어가 있는 경우 보다 적절한 해석을 위해 대체 가능할 것이다. 예를 들어, 신호, 데이터, 샘플, 픽쳐, 프레임 블록 등의 경우 각 코딩 과정에서 적절하게 대체되어 해석될 수 있을 것이다. 또한, 본 명세서에서 설명되는 실시예들의 개념과 방법들은, 다른 실시예들에도 적용가능하며, 본 명세서에서 모두 명시하여 기재하지 않더라도 본 발명의 기술적 사상 범위 내에서 각 실시예들의 조합도 적용가능할 것이다. 도 1 및 도 2는 각각 미디어 코딩이 수행되는 인코더와 디코더의 개략적인 블록도를 나타낸다.
상기 도 1의 인코더 ( 100)는 변환부 ( 110), 양자화부 ( 120), 역양자화부 ( 130), 역변환부 ( 140), 지연부 ( 150), 예측부 ( 160) 및 엔트로피 인코딩부 ( 170)를 포함하고, 상기 도 2의 디코더 (200)는 엔트로피 디코딩부 (210) , 역양자화부 (220) 역변환부 (230), 지연부 (240) 및 예측부 (250)를 포함한다. 상기 인코더 ( 100)는 원 영상 신호 (or iginal video signal )를 수신하고, 상기 원 영상 신호에서 예측부 (160)로부터 출력된 예측 신호 (predict ion signal )를 감산하여 예측 에러를 생성한다. 상기 생성된 예측 에러는 변환부 (110)로 전송되고, 상기 변환부 (110)는 상기 예측 에러에 변환 기법을 적용하여 변환 계수를 생성한다.
예를 들어, 상기 변환 기법 중에는 블록 기반 변환 방법과 이미지 기반 변환 방법이 있을 수 있다. 상기 블록 기반 변환 방법의 예로는 이산 여현 변환 (Discrete Cosine Transform) , 카루넨一루브 변환 (Karhuhen—Loeve Transform) 등을 들 수 있다. 여기서, 상기 이산 여현 변환 (DCT)이란 공간 도메인 (spat ial domain) 상의 신호를 2차원 주파수 성분으로 분해 (변환)하는 것을 나타낸다. 블록 내에서 좌측상단으로 갈수록 낮은 주파수 성분을 가지고, 우측하단으로 갈수록 높은 주파수 성분을 갖는 패턴을 이룬다. 예를 들어, 64개의 2차원의 주파수 성분 중 가장 좌측상단에 존재하는 1개만이 직류성분 (DC: Direct Current )으로 주파수가 0인 성분이며, 나머지는 교류성분 (AC: Al ternate Current )으로 낮은 주파수 성분부터 높은 주파수 성분까지 63개로 구성된다. ᅳ상기 이산 여현 변환 (DCT)을 수행한다는 것은 원 영상 신호의 블록에 포함된 기저성분 (64개의 기본 패턴 성분)들 각각의 크기를 구하는 것이며, 이 크기는 이산 여현 변환 계수이다.
또한, 상기 이산 여현 변환 (DCT)은 단순히 원 영상 신호 성분으로 표현하기 위하여 사용되는 변환으로, 역변환시 주파수 성분으로부터 원래의 영상 신호로 완전히 복원된다. 즉, 영상의 표현 방법만을 바꾸는 것으로, 중복된 정보를 포함해 원 영상에 포함된 모든 정보를 모두 보존한다. 원 영상 신호를 이산 여현 변환 (DCT)하는 경우, 원 영상 신호의 진폭 분포와 달리 이산 여현 변환 (DCT) 계수는 0 근처의 값에 몰려서 존재하게 되므로 이를 이용하여 높은 압축효과를 얻을 수 있게 된다.
양자화부 (120)는 변환 계수 (transform coefficient)를 양자화하여 엔트로피 인코딩부 (170)로 전송하고, 상기 엔트로피 인코딩부 (170)는 양자화된 신호 (quantized signal)를 엔트로피 코딩하여 출력한다.
한편, 상기 양자화부 (120)로부터 출력된 양자화된 신호 (quantized signal)는 예측 신호를 생성하기 위해 이용될 수 있다. 예를 들어, 상기 양자화된 신호 (quantized signal)는 루프 내의 역양자화부 (130) 및 역변환부 (140)를 통해 역양자화 및 역변환을 적용함으로써 예측 에러로 복원될 수 있다. 상기 복원된 예측 에러를 예측부 (160)로부터 출력된 예측 신호 (prediction signal)에 더함으로써 복원 신호 (reconstructed signal)가 생성될 수 있다.
지연부 (150)는 상기 예측부 (160)에 의한 향후의 참조 (future reference)를 위해 상기 복원 신호를 저장하고, 상기 예측부 (160)는 상기 지연부 (150)에 저장된 이전에 복원된 신호 (previously reconstructed signal)를 이용하여 예측 신호 (prediction signal)를 생성하게 된다. 도 2의 디코더 (200)는 상기 도 1의 인코더 (100)로부터 출력된 신호를 수신하고, 수신된 신호는 엔트로피 디코딩부 (210)를 통해 엔트로피 디코딩된다. 역양자화부 (220)에서는 양자화 스텝 사이즈 정보를 이용하여 엔트로피 디코딩된 신호로부터 변환 계수를 획득하고, 역변환부 (230)에서는 상기 변환 계수를 역변환하여 예측 에러를 획득하게 된다. 상기 획득된 예측 에러를 상기 예측부 (250)로부터 출력된 예측 신호 (predict ion signal)에 더함으로써 복원 신호 (reconstructed signal)가 생성된다. 상기 지연부 (240)는 상기 예측부 (250)에 의한 향후의 참조 ( future reference)를 위해 상기 복원 신호를 저장하고, 상기 예측부 (250)는 상기 지연부 (240)에 저장된 이전에 복원된 신호 (previous ly reconstructed signal )를 이용하여 예측 신호 (predict ion signal )를 생성하게 된다. 상기 도 1의 인코더 ( 100)와 상기 도 2의 디코더 (200)는 예측 코딩, 변환 코딩 및 하이브리드 코딩이 적용될 수 있다. 예측 코딩과 변환 코딩의 각각의 장점을 결합한 것을 하이브리드 코딩이라 한다.
예측 코딩은 매번 개별 샘플들에 적용될 수 있으며, 사실상 예측을 위한 가장 강력한 방법은 순환 구조를 갖는 것이다. 이러한 순환 구조는 가장 가까운 값올 이용할 때 가장 잘 예측될 수 있다는 사실에 기초한다. 즉, 예측값이 코딩된 이후, 다른 값을 예측하는데 바로 이용될 경우에 최선의 예측이 수행될 수 있다.
그런데, 하이브리드 코딩에서 이러한 접근 방법의 이용시 문제점은 변환이 적용되기 전에 예측 레지듀얼이 그룹핑되어야 한다는 점이다. 이러한 경우, 신호가 정확히 복원될 수 없기 때문에 순환 구조의 예측은 에러 축적의 증가를 불러올 수 있다.
기존 하이브리드 코딩에서는 두 직교 차원 (orthogonal dimension)에서 예측과 변환을 분리하였다. 예를 들어, 비디오 코딩의 경우, 시간 영역에서 예측을 적용하고, 공간 영역에서 변환을 적용하였다. 또한, 기존 하이브리드 코딩에서는 이미 코딩된 블록 내 데이터로부터만 예측을 수행하였다. 이는 에러 전파를 없앨 수는 있지만, 예측 과정에서 블록 내 몇몇 데이터 샘플들과 더 작은 통계적 상관관계를 갖는 데이터를 이용하도록 강요하게 되어 성능을 감소시키는 단점이 있다.
따라서, 본 발명에서는, 예측 과정에서 이용될 수 있는 데이터에 대한 제한 사항을 제거하고, 예측 코딩과 변환 코딩의 장점을 통합하는 새로운 하이브리드 코딩의 형태를 가능하게 함으로써 이러한 문제를 해결하고자 한다.
또한, 본 발명에서는 변환 도메인 상에서 픽셀 간 상관 관계를 고려하는 조건부 비선형 변환 (Condi t ional ly Nonl inear Transform) 방법을 제공함으로써 압축 효율을 향상시키고자 한다. 도 3 및 도 4는 본 발명이 적용되는 실시예들로써 , 각각 향상된 코딩 방법이 적용되는 인코더와 디코더의 개략적인 블톡도를 나타낸다.
기존 코텍에서 N개의 데이터에 대해 변환 계수 (transform coeff icient )들을 획득하고자 하는 경우, N개의 원본 데이터 (or iginal data)로부터 N개의 예측 데 이터를 한꺼번에 뺀 후 획득된 N개의 레지듀얼 데이터 (residual data) 또는 예측 에러 (predict ion error)에 대해 변환 코딩 (transform coding)을 적용하거 1 된다. 이러한 경.우, 예측 과정과 변환 과정이 순차적으로 이루어진다.
그러나, N개의 픽셀들로 이루어진 영상 데이터에 대해 픽셀 단위로 가장 최 근에 복원한 데이터를 가지고 예측을 수행하면 가장 정확한 예측 결과를 얻을 수 있올 것이다. 이러한 이유로, N개 픽셀 단위로 예측과 변환을 순차적으로 적용하 는 것은 최적의 코딩 방식이라고 할 수 없을 것이다.
한편, 픽셀 단위로 가장 최근에 복원한 데이터를 얻기 위해서는 이미 획득된 변환 계수 (transform coeff icient )들에 대해 역변환을 수행하여 레지듀얼 데이터 를 복원하고, 이후 예측 데이터와 더해야 한다. 하지만, 기존의 코딩 방식에서는
N개의 데이터에 대해 예측이 끝나야만 변환을 적용하여 변환 계수 (transform coef f i ci ent )들을 획득할 수 있으므로, 픽셀 단위로 데이터를 복원하는 것 자체 가 불가능하다.
따라서, 본 발명에서는 이전에 복원된 신호와 컨텍스트 신호를 이용하여 변 환 계수를 획득하는 방법을 제안한다.
상기 도 3의 인코더 (300)는 최적화부 (310), 양자화부 (320) 및 엔트로피 인코딩부 (330)를 포함하고, 상기 도 4의 디코더 (400)는 엔트로피 디코딩부 (410), 역양자화부 (420), 역변환부 (430) 및 복원부 (440)를 포함한다.
도 3의 인코더 (300)를 살펴보면, 최적화부 (310)에서는 최적화된 변환 계수를 획득한다. 상기 최적화부 (310)는 최적화된 변환 계수를 획득하기 위해 다음과 같은 실시예들을 적용할 수 있다.
먼저, 본 발명이 적용되는 실시예를 설명하기 위해, 신호를 복원하기 위한 복원 함수를 다음과 같이 정의할 수 있다.
[수학식 1]
= R (c, y)
여기서, S는 복원 신호를 나타내고, c는 디코딩된 변환 계수를 나타내며, y는 컨텍스트 신호를 나타낸다. R (c ,y)는 복원 신호를 생성하기 위해 c와 y를 이용하는 비선형 복원 함수 (nonl inear reconstruct ion funct ion)를 나타낸다.
본 발명이 적용되는 일실시예로써, 최적화된 변환 계수를 획득하기 위해 향상된 비선형 예측자 (advanced non-l inear predictor)를 생성하는 방법을 제안한다.
본 실시예에서, 예측 신호는 이미 복원된 값들과 변환 계수와의 관계로 정의될 수 있다. 즉, 본 발명이 적용되는 인코더 및 디코더는 예측 과정을 수행할 때 이미 복원된 모든 신호를 고려하여 최적의 예측 신호 (opt imized predict ion signal )를 생성할 수 있다. 또한, 상기 예측 신호를 생성하기 위한 예측 함수로써 비선형 예측 함수 (non-l inear predict ion funct ion)를 적용할 수 있다. 따라세 각각의 디코딩된 변환 계수들은 전체 복원 과정에 영향을 미치고, 예측 에러 백터에 포함되어 있는 예측 에러의 제어를 가능하게 한다.
예를 들어, 예측 에러 신호는 다음과 같이 정의될 수 있다.
[수학식 2]
e = Tc
여기서, e는 예측 에러 신호를 나타내고, c는 디코딩된 변환 계수를 나타내며, T는 변환 행렬을 나타낸다.
이때, 복원 신호는 다음과 같이 정의될 수 있다.
[수학식 3]
Figure imgf000018_0001
여기서, n 는 n번째 복원 신호를 나타내고, en 은 n번째 예측 에러 신호를 나타내며, y는 컨텍스트 신호 (context signal)를 나타낸다. Rn 은 복원 신호를 생성하기 위해 과 y를 이용하는 비선형 복원 함수를 나타낸다.
예를 들어, 상기 비선형 복원 함수 Rn 은 다음과 같이 정의될 수 있다.
[수학식 4]
Figure imgf000019_0001
여기서, Ρπ 은 예측 신호를 생성하기 위해 상기 변수들로 구성된 비선형 예즉 함수 (norrlinear predict ion function)를 나타낸다.
상기 비선형 예측 함수 (non-linear prediction function)로는, 예를 들어, 미디언 함수 (median function)이거나, 탱크 오더 필터 (rank order filter) 또는 비선형 함수의 결합뿐만 아니라 선형 함수들의 조합일 수 있다. 그리고, 상기 비선형 예측 함수 (non-linear prediction function) Pn 0은 각각 서로 다른 비선형 함수일 수 있다. 다른 일실시예로, 본 발명이 적용되는 인코더 (300) 및 디코더 (400)는 상기 비선형 예측 함수 (non-linear prediction function)를 선택하기 위한 후보 함수들의 저장소를 포함할 수 있다.
예를 들어, 상기 최적화부 (310)는 최적의 변환 계수 (optimized transform coefficient)를 생성하기 위해 최적의 비선형 예측 함수를 선택할 수 있다. 이때, 상기 최적의 비선형 예측 함수는 상기 저장소에 저장된 후보 함수들로부터 선택될 수 있다. 이에 대해서는 도 7 및 도 8에서 보다 상세히 설명하도록 한다. 상기와 같이, 최적의 비선형 예측 함수를 선택함으로써 상기 최적화부 (310)는 최적의 변환 계수 (opt imi zed transform coeff i cient )를 생성할 수 있다.
한편, 출력된 변환 계수는 양자화부 (320)로 전송되고 상기 양자화부 (320)는 상기 변환 계수를 양자화하여 엔트로피 인코딩부 (330)로 전송한다.
상기 엔트로피 인코딩부 (330)는 상기 양자화된 변환 계수를 엔트로피 인코딩하여 압축된 비트스트림을 출력할 수 있게 된다. 도 4의 디코더 (400)는 상기 도 3의 인코더로부터 출력된 비트스트림을 수신하여, 엔트로피 디코딩부 (410)를 통해 엔트로피 디코딩올 수행하고, 역양자화부 (420)를 통해 역양자화를 수행할 수 있다. 이때, 역양자화부 (420)를 통해 출력된 신호는 최적화된 변환 계수를 의미할 수 있다.
역변환부 (430)는 상기 최적화된 변환 계수를 수신하여 역변환 과정을 수행하며, 상기 역변환 과정을 통해 예측 에러 신호를 생성하게 된다.
복원부 (440)에서는 상기 예측 에러 신호와 예측 신호를 합하여 복원 신호를 생성하게 된다. 이때, 상기 예측 신호의 경우, 상기 도 3에서 설명한 다양한 실시예들이 적용될 수 있다. 도. 5는 본 발명이 적용되는 실시예로써, 향상된 비디오 코딩 방법을 설명하기 위한 개략적인 흐름도를 나타낸다.
인코더에서는 모든 이전에 복원된 신호와 컨텍스트 신호 중 적어도 하나에 기초하여 복원 신호를 생성할 수 있다 (S510) . 여기서, 상기 컨텍스트 신호는 이전에 복원된 신호, 이전에 복원된 인트라 코딩된 신호, 현재 프레임의 이미 복원된 부분 또는 복원될 신호의 디코딩과 관련된 다른 정보 중 적어도 하나를 포함할 수 있다. 상기 복원 신호는 예측 신호와 예측 에러 신호의 합으로 이루어질 수 있고, 상기 예측 신호와 상기 예측 에러 신호 각각은 이전에 복원된 신호와 컨텍스트 신호 중 적어도 하나에 기초하여 생성될 수 있다.
인코더는 최적화 함수를 최소화하는 최적의 변환 계수를 획득할 수 있다 (S520) . 여기서, 상기 최적화 함수는 왜곡 성분, 레이트 성분 및 라그랑즈 승수 (Lagrange mult ipl ier) λ를 포함할 수 있다. 상기 왜곡 성분은 원 비디오 신호와 복원 신호 간의 차이로 구성될 수 있고, 상기 레이트 성분은 이전에 획득된 변환 계수를 포함할 수 있다. λ는 왜곡 성분과 레이트 성분의 균형을 유지하는 실수를 나타낸다.
상기 획득된 변환 계수는 양자화 및 엔트로피 인코딩을 통해 디코더로 전송된다 (S530) .
한편, 디코더에서는 전송된 변환 계수를 수신하여, 엔트로피 디코딩, 역양자화 및 역변환 과정을 통해 예측 에러 백터를 획득하게 된다. 디코더 내의 예측부에서는 이미 복원된 이용가능한 모든 샘플을 이용하여 예측 신호를 생성하게 되며, 예측 신호와 복원된 예측 에러 백터에 기초하여 비디오 신호를 복원할 수 있다. 이때, 예측 신호를 생성하는 과정은 상기 인코더에서 설명한 실시예들이 적용될 수 있다. 도 6은 본 발명이 적용되는 실시예로써, 최적의 변환 계수를 생성하기 위해 이미 복원된 신호와 컨텍스트 신호를 이용하는 비디오 코딩 방법을 설명하기 위한 흐름도이다.
본 발명은 이미 복원된 신호 (previously reconstructed signal ) ( , x2, ··· , Χ π-ι)와 컨텍스트 신호 (context signal )를 이용하여 예측 신호를 생성할 수 있다 (S610) . 예를 들어, 상기 이미 복원된 신호 (previously reconstructed signal )는 상기 수학식 3에서 정의된 ¾, ¾ ¾-ι를 의미할 수 있다. 그리고, 상기 예측 신호를 생성하기 위해서는 비선형 예측 함수가 적용될 수 있으며, 각각의 예측 신호에는 서로 다른 비선형 예측 함수가 적웅적으로 적용될 수 있다. 상기 예측 신호는 수신된 예측 에러 신호 (e( i ) )에 합산되어 (S620) , 복원 신호를 생성하게 된다 (S630) . 이때, 상기 S620 단계는 가산기 (Adder) (미도시)를 통해 수행될 수 있다. 상기 생성된 복원 신호 는 향후의 참조 (future reference)를 위해 저장될 수 있다 (S640) . 이렇게 저장된 신호는 계속해서 다음 예측 신호를 생성하기 위해 이용될 수 있다.
이와 같이, 예측 신호를 생성하는 과정에서 이용가능한 데이터에 대한 제한 사항을 제거함으로써, 즉 이미 복원된 모든 신호를 이용하여 예측 신호를 생성함으로써 보다 향상된 압축 효율을 제공할 수 있게 된다.
이하에서는, 상기 S610 단계의 예측 신호를 생성하는 과정에 대해 ΰ다 상세히 살펴보도록 한다. 도 7은 본 발명이 적용되는 실시예로써, 최적의 변환 계수를 생성하기 위해 이용되는 예측 신호를 생성하는 과정을 설명하기 위한흐름도이다.
상기 도 6에서 설명한 바와 같이, 본 발명은 이미 복원된 신호 (previously reconstructed signal)(Xi, X2, ··· , Sn— ι)와 컨텍스트 신호 (context signal)를 이용하여 예측 신호 (p(i))를 생성할 수 있다 (S710). 이때, 상기 예측 신호를 생성하기 위해 최적의 예측 함수 (f(k))의 선택이 필요할 수 있다.
상기 생성된 예측 신호를 이용하여 복원 신호 (Sn)를 생성할 수 있고 (S720), 상기 생성된 복원 신호 (S 는 향후의 참조 (future reference)를 위해 저장될 수 있다 (S730).
따라서, 상기 최적의 예측 함수를 선택하기 위해 이미 복원된 모든 신호들 (5 , X2, ··· , xn-i) 및 컨텍스트 신호 (context signal)가 이용될 수 있다. 예를 들어, 본 발명은 왜곡 측정값과 레이트 측정값의 합을 최소화하는 후보 함수를 찾음으로써 최적의 예측 함수를 선택할 수 있다 (S740).
여기서, 왜곡 측정값은 원 영상 신호와 복원 신호 간의 왜곡을 측정한 값올 나타내고, 레이트 측정값은 변환 계수를 전송하거나 저장하기 위해 필요한 레이트를 측정한 값을 나타낸다.
보다 구체적으로, 본 발명은 아래의 수학식 5를 최소화하는 후보 함수를 선택함으로써 상기 최적의 예측 함수를 획득할 수 있다.
[수학식 5]
c* = argmin {D(x,x(c)) + A?(c)}
Ci^ilL—.C-nS i-n
여기서, c*는 상기 수학식 5를 최소화하는 c값, 즉 디코딩된 변환 계수를 나타낸다. 그리고, D(x,x(c))는 원 영상 신호와 그 복원 신호 간의 왜곡 측정값을 나타내고, R(c)는 변환 계수 c를 전송하거나 저장하기 위해 필요한 레이트 측정값을 나타낸다.
예를 들어, D(x,x(c)) = llx-x(c)llq (q=0, 0.1, 1, 1.2, 2, 2.74, 7 etc)일 수 있고, R(c)는 허프만 코더 (Huffman coder)나 산술 코더 (arithmet ic coder)와 같은 엔트로피 코더를 이용해서 변환 계수 c를 저장하기 위해 이용되는 비트수를 나타낼 수 있다. 또는, R(c)는 라풀라시안 (Laplacian)이나 가우시안 확를 모델 (Gaussian probability model), R(c) = 11 x - x(c)lh (τ= 0, 0.4, 1, 2, 2.2, etc)과 같은 분석 레이트 모델 (analytical rate model)에 의해 예측되는 비트수를 나타낼 수 있다.
한편, λ는 인코더 최적화에서 이용되는 라그랑즈 승수 (Lagrange multiplier)를 나타낸다. 예를 들어, λ는 왜곡 측정값과 레이트 측정값의 균형을 유지하는 실수를 나타낼 수 있다. 도 8은 본 발명이 적용되는 실시예로써, 최적의 변환 계수를 획득하는 방법을 설명하기 위한 흐름도이다.
본 발명은 왜곡 측정값과 레이트 측정값의 합을 최소화하는 최적의 변환 계수를 획득함으로써 보다 향상된 코딩 방법을 제공할 수 있다.
먼저, 인코더는 왜곡 측정값과 레이트 측정값의 합을 최소화하는 최적의 변환 계수를 획득할 수 있다 (S810). 예를 들어, 상기 왜곡 측정값과 상기 레이트 측정값의 합은 상기 수학식 5의 수식이 적용될 수 있다. 이때, 입력 신호로는 원 영상 신호 (X), 이미 복원된 신호 (5 , 이전에 획득된 변환 계수 및 라그랑즈 승수 (Lagrange mul t ipl ier , λ ) 중 적어도 하나가 이용될 수 있다. 여기서, 이미 복원된 신호는 이전에 획득된 변환 계수에 기초하여 획득된 것일 수 있다.
상기 최적의 변환 계수 (c)는 역변환 과정을 통해 역변환되고 (S820) , 예측 에러 신호를 획득하게 된다 (S830) .
상기 인코더는 상기 획득된 에러 신호를 이용하여 복원 신호 (X)를 생성하게 된다 (S840) . 이때, 상기 복원 신호 ( 50를 생성하기 위해 컨텍스트 신호 (context signal )가 이용될 수 있다.
상기 생성된 복원 신호는 다시 왜곡 측정값과 레이트 측정값의 합을 최소화하는 최적의 변환 계수를 획득하기 위해 이용될 수 있다.
이와 같이, 최적의 변환 계수는 업데이트되며, 복원 과정을 통해 다시 새로운 최적화된 변환 계수를 획득하기 위해 이용될 수 있다.
이러한 과정은 상기 인코더 (300)의 최적화부 (310)에서 수행될 수 있다. 상기 최적화부 (310)에서는 새롭게 획득된 변환 계수를 출력하고, 출력된 변환 계수는 양자화 및 엔트로피 인코딩 과정을 통해 압축되어 전송된다. 본 발명의 일실시예에서, 최적의 변환 계수를 획득하기 위해 예측 신호가 이용되며, 상기 예측 신호는 이미 복원된 신호들과 변환 계수의 관계로 정의될 수 있다. 여기서, 상기 변환 계수는 상기 수학식 2에 의해 설명될 수 있고, 상기 수학식 2 및 수학식 3에서처럼, 각각의 변환 계수는 전체 복원 과정에 영향을 미칠 수 있고, 예측 에러 백터 내에 포함된 예측 에러의 폭넓은 제어를 가능하게 할 수 있다. 본 발명의 일실시예로, 복원 과정은 선형적인 것으로 제한될 수 있다, 그러한 경우, 복원 신호는 다음 수학식 6과 같이 정의될 수 있다.
[수학식 6]
X = F T c + H y
여기서, X는 복원 신호를 나타내고, c는 디코딩된 변환 계수를 나타내며, y는 컨텍스트 신호를 나타낸다. 그리고, F, Τ, I /는 n X n 행렬을 나타낸다. 본 발명의 일실시예로, 변환 계수에 포함된 양자화 에러를 제어하기 위해 n X n 행렬 S를 이용할 수 있다. 이 경우, 복원 신호는 다음과 같이 정의될 수 있다.
[수학식 7]
x =F S T c + Hy
양자화 에러를 제어하기 위한 행렬 S는 다음의 수학식 8의 최소화 과정을 이용하여 획득할 수 있다.
[수학식 8]
minCiefil>...;Cnenn{D(x, (c)) + AR(c)}}
Figure imgf000026_0001
여기서, T는 훈련 신호 (training signal)를 나타내고, 변환 계수 c는 n차원 백터로 정렬된다. 변환 계수 성분들은 e 를 만족한다. 여기서, iii는 일련의 이산 값 (discrete value)을 나타내고, Ω; 는 일반적으로 정수값이 적용된 역양자화 과정을 통해 결정된다. 예를 들어, Ω ; = { -3ΔΪ, -2Δί, -ΙΔΐ, 0 Δΐ, 2Δϊ, 3Δί, ... }°i 수 있고, 여기서, ᅀ i는 일정한 양자화 스텝 사이즈 (uniform quantization step size)를 나타낸다. 그리고, 상기 변환 계수 각각은 다른 양자화 스텝 사이즈를 가질 수 있다.
본 발명의 일실시예로, 상기 수학식 7의 n X n 행렬 F, S, H는 훈련 신호에 대해 공동 최적화될 수 있다. 상기 공동 최적화 방법은 다음 수학식 9를 최소화함으로써 수행될 수 있다.
[수학식 9]
min ;//AeA{min{∑ 6T minCl ai .iCn€il {D(X,X(C)) + AR(c)}}}} 여기서, Λ = { , ^,·.·, ^}는 제한 승수 (constraint mult ipl iers)의 타겟 셋 (target set)을 나타내고, L은 정수 (integer)이다. 그리고, λ에서의 복원 함수는 다음 수학식과 같이 형성될 수 있다.
[수학식 10]
x = FSkTc + Hy. 도 9 및 도 10은 본 발명이 적용되는 실시예들로, 픽쳐 그룹 (GOP, Group of Picture)에 대해 시공간 변환 (spat iotemporal transform)을 적용하는 방법을 설명하기 위한 개념도이다.
본 발명은 V개의 프레임을 포함하는 픽쳐 그룹 (G0P)에 대해 시공간 변환을 적용할 수 있다. 이 경우, 예측 에러 신호와 복원 신호는 다음과 같이 정의될 수 있다.
[수학식 11]
e = Tstc
[수학식 12] ( 2,y, ) = P2(y>xi) + 2
여기서, Tst는 시공간 변환 (spatiotemporal transform) 행렬을 나타내고, c는 전체 픽쳐 그룹에 대한 디코딩된 변환 계수를 포함한다.
그리고, 는 프레임에 대응되는 에러 값들로 형성된 에러 백터를 나타낸다. 예를 들어, V개의 프레임을 갖는 픽쳐 그룹에 대한 에러의 경우, e :
Figure imgf000028_0001
정의될 수 있다. 여기서, 상기 에러 백터 e 는 상기 V개의 프레임을 갖는 픽쳐 그룹 (G0P) 전체에 대한 에러 값들을 모두 포함할 수 있다.
그리고, Sn 는 n번째 복원 신호를 나타내고, y는 컨텍스트 신호 (context signal)를 나타낸다. Rn 은 복원 신호를 생성하기 위해 en 과 y를 이용하는 비선형 복원 함수를 나타내고, Ρπ 은 예측 신호를 생성하기 위한 비선형 예측 함수 (non—l inear predict ion function)를 나타낸다. 상기 도 9는 일반적인 공간 도메인에서의 변환 방법을 설명하기 위한 도면이고, 상기 도 10은 픽쳐 그룹에 대해 시공간 변환을 적용하는 방법을 설명하기 위한 도면이다.
상기 도 9를 살펴보면, 기존 코딩 방식의 경우 I프레임 및 P프레임의 에러 값에 대해 각각 독립적으로 공간 도메인에서의 변환 코드를 생성하였음을 확인할 수 있다.
반면, 본 발명이 적용되는 도 10의 경우, I프레임 및 P프레임의 에러 값들에 대해 공동 시공간 변환 (joint spatiotemporal transform)을 함께 적용함으로써 보다 코딩 효율을 향상시킬 수 있다. 즉, 상기 수학식 12에서 확인할 수 있는 것처럼, 복원 신호를 생성할 때 공동 시공간 변환된 (joint spat iotemporal transformed) 에러 백터가 순환 구조로 이용됨으로써 매끄럽지 않거나 (non- smooth) 비정지적인 (non-stat ionary) 신호를 포함하는 고화질 영상에 대해 보다 효율적으로 코딩할 수 있다. 인터 프레임 코딩을 위한 조건부 비선형 변환 (CNT)의 시공간 확장
본 발명은 변환 도메인 상에서 픽셀 간 상관 관계를 고려하는 CNT 기술을 이용하여 압축 알고리즘의 효율을 향상시키는 새로운 방법을 제공한다. CNT는 샘¾들의 양자화 효과를 고려함으로써 최적의 방법으로 변환 및 예측 단계를 함께 결합한다. 본 발명은, 양자화 에러의 전파 효과를 고려하면서, 완전히 임의적인 예측 방법을 임의의 변환과 결합할 수 있다. 인트라 및 인터 예측과 같은 전통적인 예측 -변환 시나리오들의 다른 형태들에 다른 디자인 파라미터 선택을 적용하여 고압축 효율을 얻을 수 있다. 여기서, 다른 디자인 파라미터의 선택은 각 CNT 동작에서 고려되는 이웃 픽셀 셋의 기하학적 구조를 포함할 수 있다.
본 발명은 비디오 신호의 인터 프레임 코딩에 대해 CNT를 디자인하는 방법을 기술한다. 본 발명은 비디오 신호 내 픽셀들의 시공간 볼륨 (a spat io-temporal volume of pixels)에 대한 오리지널 최적화 문제를 1차원 시간적 궤적으로 변환할 수 있다. 그럼으로써, CNT 기술의 효율을 유지하면서 복잡도를 현저히 감소시킬 수 있다.
본 발명은, 비디오의 시공간 볼륨에 대한 CNT 기술을 제공한다. 예를 들어, 시공간 비디오 볼륨의 3차원 각각에 독립적으로 CNT를 적용할 수 있다.
본 발명은 먼저 공간적으로 상관없는 (de-correlated) 대응되는 변환 계수들을 획득하기 위해, 프레임 내 각 코딩 유닛 (CU 또는 PU)에 DCT와 같은 공간 변환을 적용할 수 있다. 프레임 간 움직임 추정에 의해 발견된 1차원 시간적 움직임 궤도를 따라 변환 계수들을 이용하여 CNT를 디자인할 수 있다. 그럼으로써, 3차원 시공간 픽샐 볼륨을 처리해야 하는 인터 프레임 코딩에 대한 CNT를 디자인하는 문제는 1차원 CNT 디자인 문제로 재형성될 수 있다. 따라서, 본 발명은 높은 계산 복잡도를 발생시키지 않고 인터 프레임 코딩을 위한 CNT를 디자인하는 방법을 제안하고, 그럼으로써 장기 ( long-term) 시간적 상관 관계가 CNT프레임워크 내에서 효과적으로 고려될 수 있다. 본 발명의 다른 실시예는, 비디오 프레임 그룹 (또는 G0P)에 적용되는 CNT의 특수한 형태를 생성하는 방법에 관한 것이다.
첫째, 시간적 매칭 블록들은 시간적 궤도 (temporal trajectory)를 형성하기 위해 주어진 G0P(Group Of Picture) 내에 위치한다.
둘째, DCT 같은 공간 변환 (Spat ial Transform, 'S-Transform' )이 프레임 내 CU 각각에 적용되고, 그럼으로써 상기 CU의 변환 계수들은 상관 없게 (de- correlated)된다. 첫번째 단계의 매칭은 일반적인 코덱에서처럼 픽셀 도메인에서 수행될 수 있고, 또는 공간 변환 후에 획득된 변환 계수 도메인 상에서 수행될 수도 있다.
셋째, CNT 파라미터들은 시간적 궤도 (temporal trajectory)에 따라 CU 내의 동일 주파수의 코딩 변환 계수들을 위해 디자인된다. 여기서, 상기 CNT 파라미터들은 상기 수학식 6의 F , H 행렬을 의미할 수 있다. IPPP 또는 IBBBP 와 같은 시간적 예측 의존성은 CNT 파라미터들을 유도할 때 고려될 수 있다.
위 단계에서, 1차원 예측자 (predictor)의 다양한 형태는 더 나은 성능을 위해 고안될 수 있다. 예를 들어, 시간적으로 대응되는 블록들 간의 변환 계수 값들 간의 상관 계수는 상관 계수들의 주파수 인덱스 또는 시간에 '기초하여 변할 수 있다.
본 명세서에서, 공간 변환 (S-Transform)은 하기 수학식 15와 같이 각 프레임에 대한 변환 계수를 산출하기 위한 공간 변환을 나타내고, 시간 변환 (Temporal Transform, 'T-transform' )은 시간적 궤도에 따른 CNT 동작을 위해 필요한 시간 변환을 나타낸다. 도 11은 본 발명이 적용되는 실시예로써, IPPP 타입의 시간적 예측 구조에서 동일한 객체의 시간적 궤도를 형성하는 프레임 내 블록들을 나타낸다.
도 11은 전형적인 IPPP 타입의 시간적 예측 구조를 나타낸다. Frame ( i-1) 부터 Frame ( i+2)까지 4개의 프레임을 도시하였고, 상기 4개의 프레임은 각각 I, P, P, P 프레임일 수 있다. 그리고, 프레임 내 블톡들 b( iυ~1)( ί+2)은 동일한 객체의 시간적 움직임이 확인될 수 있는 시간적 궤도를 형성하도록 움직임 백터에 의해 연결되었다. 예를 들어, 도 11에서는 프레임 내 블톡들 b( i- υ~1)( ί+2)은 2x2 블록이라고 가정하나, 본 발명은 이에 한정되지 않는다. 이때, 1차 Gauss Markov모델 예측자는 다음 수학식 13과 같다.
[수학식 13] 여기서, Χ 는 i번째 프레임 내 블록 내 n번째 위치의 픽셀 값을 나타내고, 상관 계수 는 1로 가정한다.
그러나, 이러한 모델은 종종 움직임 백터 부정확성과 같은 이유로 타당하지 않을 수 있기 때문에, 같은 프레임 내 공간 이웃들의 공간적 상관 관계에 대해 다음의 일반적인 모델로 가정하는 것이 더 바람직할 수 있다.
[수학식 14]
Figure imgf000032_0001
여기서, ^는 공간적으로 이웃하는 픽셀의 픽셀 값올 나타내고, σ는 와 관련된 상관 계수를 나타낸다.
본 발명에서는, 복잡도 또는 모델링 정확도에 기초하여 상기 수학식 13 또는 수학식 14를 이용할 수 있다.
도 12 및 도 13은 본 발명이 적용되는 실시예들로써, 도 12는 ΙΡΡΡ 타입의 시간적 예측 구조에서 변환 도메인 상의 예측이 적용되는 것을 설명하기 위한 프레임 내 블록들을 나타내고, 도 13은 ΙΡΡΡ 타입의 시간적 예측 구조에서 변환 도메인 상의 예측이 수행되는 변환 계수의 대웅 셋을 나타낸다.
도 12를 살펴보면, 프레임 내 블록는 4개의 서브 블록으로 분할될 수 있으며, f는 각 서브 블록의 변환 계수를 나타낸다. 예를 들어, 프레임 i 내의 블록 bi는 4개의 서브 블록을 포함하며, fO , fl , f2, f3 각 서브 블록의 변환 계수를 나타낸다. 예를 들어, 도 12 내지 도 13에서는 상기 서브 블록들 b(iirb( i+2)은 2x2 블록이라고 가정하나, 본 발명은 이에 한정되지 않는다. 프레임 내 블특의 픽샐 값과 변환 계수와의 상관 관계는 다음 수학식 15와 같이 나타낼 수 있고, 각 서브 블록의 변환 계수는 변환 계수 셋으로 정의될 수 있다.
[수학식 15]
' = TXi
여기서, F'는 프레임 내 불록의 변환 계수 셋을 나타내고, '는 프레임 내 블록의 픽셀 값 셋을 나타내며, T는 변환 행렬을 나타낸다.
이때, 상기 F' 와 X'는 다음 수학식 16과 같이 나타낼 수 있다.
[수학식 16]
F' = [fi // fi /3 , X' = [ o' X[
Figure imgf000033_0001
본 발명은 변환 도메인 상에서의 예측 방법을 제공함으로써, 픽셀 간 공간 상관 관계가 공간 변환 이후 더 크게 제거될 수 있다. 따라서, 다음 수학식 17과 같은 1차 Gauss-Markov 모델은 픽셀 도메인에서 정의된 상기 수학식 13보다 더 효과적으로 변환 계수를 시간적 움직임 궤도에 따르게 할 수 있다.
[수학식 17]
/"' = d 1 + Z„
여기서, n은 변환 계수에 대한 인덱스를 나타내고, i는 프레임 번호를 나타내며, 는 ( i-1)번째 프레임과 i번째 프레임 내 매칭 블록들의 n번째 변환 계수들 간의 상관 계수 (correlat ion coef f i cient )를 나타낸다.
도 13을 살펴보면, IPPP 타입의 시간적 예측 구조에서와 같이, 변환 도메인 상에서 변환 계수 예측을 수행할 수 있다. 예를 들어, 현재 i 번째 프레임 내 변환 계수 /„ '은 이전 프레임의 변환 계수 /„'— 1로부터 예측될 수 있다. . 본 발명이 적용되는 CNT 알고리즘의 요지 중 하나는 예측과 변환 둘다 더 나은 비상관성 (decorrelat ion)을 위해 1차원적으로 적용될 수 있다는 것이다. 시간 방향의 예측 (Temporal Direct ional Predict ion, TDP)이 적용된, 상기 수학식 14와 같은 3차원의 시공간 예측을 수학식 17과 같은 1차원의 시간적 예측으로 변경함으로써, 계산 복잡도를 현저히 감소시킬 수 있다. 본 발명은 계산 복잡도를 증가시키지 않고, 시공간 픽셀 볼륨에 대해 CNT를 수행하는 방법을 제공한다. 본 발명에서, 1차 Gauss-Markov 모델을 이용하는 IPPP 타입의 CNT는 다음과 같이 수행될 수 있다.
프레임 내 변환 계수들 간의 예측 의존성은 다음 수학식 18 내지 20과 같이 정의될 수 있다.
[수학식 18]
[수학식 19]
r:≡ /
[수학식 20]
+2≡ a +]f'+l 여기서, 는 i번째 프레임 내 블록의 n번째 변환 계수의 예측값을
〜 .
나타내고, 는 i번째 프레임 내 블록의 n번째 변환 계수의 복원된 샘플을 나타내다. 그리고, 는 i번째 프레임과 (i+1) 번째 프레임 간 블록의 n번째 변환 계수들 간의 상관 계수 (correlation coefficient)를 나타낸다.
상기 수학식 18 내지 20에 기초하여, 프레임 내 블특의 변환 계수를 예측하는 수학식을 다음 수학식 21과 같이 산출할 수 있다.
[수학식 21]
X = FnX + GY
Figure imgf000035_0001
여기서, Ζ는 변환 계수 예측값 셋을 나타내고, 는 변환 계수의 복원된 샘플 셋을 나타내며, γ는 이전 프레임의 변환 계수를 나타낸다. 예를 들어, 다음 수학식 22 내지 24와 같이 표현할 수 있다.
[수학식 22]
Figure imgf000035_0002
[수학식 23]
Figure imgf000035_0003
[수학식 24] 한편, 이고, 여기서 arTc 관계식을 이용하면, 다음 수학식
25와 같은 복원 함수를 획득할 수 있다.
[수학식 25]
x = (i-F0y1Trc+(i-F0ylGY 상기 수학식 24를 앞의 수학식 6과 비교하면,
Figure imgf000036_0001
이고, H≡(I-F0)'lG 에 대응되는 형태를 갖는다. 또한, 변환 Ττ 는 DCT, DST 등을 포함할 수 있는 시간적 궤도에 따라 적용되는 변환을 나타낸다.
따라서, 최적의 변환 계수 백터 Ο를 찾기 위해 CNT 최적화 수학식은 다음 수학식 26과 같이 변경될 수 있다.
[수학식 26]
C* = arg min {D(X - HY - FTTC) + R(C) }
c,en,,...,c„en„
여기서, DO는 왜곡 성분을 나타내고, RO은 레이트 성분을 나타내며, A 는 라그랑지 승수를 나타낸다. 예를 들어 , DO는 /2 norm과 같은 추론 가능한 함수를 나타내고, R()은 C*에 대응되는 양자화 인덱스와 같은 관련된 부가 정보를 전송하기 위해 필요한 비트 측정치를 나타낸다. λ는 왜곡 성분과 레이트 성분의 균형을 유지하는 실수를 나타낸다. 도 14 및 도 15는 본 발명이 적용되는 실시예들로써, ΙΡΡΡ 타입 CNT를 수행하는 인코더 및 디코더의 블록 다이어그램을 나타낸다. 본 발명이 적용되는 IPPP 타입 CNT를 수행하는 인코더 및 디코더의 블록 다이어그램을 나타낸다.
도 14를 살펴보면, 본 발명이 적용되는 인코더 (1400)는 공간 변환부 (1410), 최적화부 (1420), 양자화부 (1430), 엔트로피 디코딩부 ( 1440), 역변환부 ( 1450), DPB 1460)를 포함할 수 있다. 그리고, 상기 공간 변환부 (1410)는 각 프레임마다 적용되는 복수개의 서브 공간 변환부를 포함할 수 있다. 예를 들어, 상기 공간 변환부 (1410)는 ( i+2)번째 공간 변환부 (1411), ( i+1)번째 공간 변환부 (1412), ( i )번째 공간 변환부 (1413), ( i-1)번째 공간 변환부 (1414) 등 복수개의 공간 변환부를 포함할 수 있다. 또는, ( i-1)번째 공간 변환부 (1414)는 도 14에서와 같이 별개로 수행될 수도 있다. 다만, 이는 이해를 돕기 위해 표현한 것이며, 실제로는 인코더 내 하나의 변환부에서 모두 수행할 수도 있다.
상기 공간 변환부 (1410)는 각 프레임에 대해 픽셀 도메인 상의 픽셀 값 또는 픽셀 값 셋을 입력받고, 이에 대해 공간 변환 행렬을 적용함으로써 변환 계수 또는 변환 계수 셋을 출력할 수 있다. 예를 들어, 상기 공간 변환부 (1410)는 현재 프레임 내 타겟 블록의 픽셀 값에 대해 변환올 수행함으로써 제 1 변환 계수 (f irst transform coef f icient )를 획득할 수 있다.
최적화부 (1420)에서는 최적화 함수를 이용하여 최적의 변환 계수를 산출할 수 있다. 상기 최적화 함수는 왜곡 성분, 레이트 성분 및 라그랑지 승부를 포함하며, 예를 들어 상기 수학식 26이 이용될 수 있다. 상기 최적의 변환 계수는 상기 최적화 함수를 최소화하는 변환 계수를 나타낸다.
또한, 상기 최적의 변환 계수는 변환 계수 예측값, 변환 계수의 복원된 샘플 및 변환 계수들 간의 상관 계수 중 적어도 하나에 기초하여 획득될 수 있다. 예를 들어, 상기 최적화부 (1420)는 이전 프레임 내 대웅 블록에 대한 제 2 변환 계수 (second transform coefficient)를 복원하고, 상기 복원된 제 2 변환 계수 (second transform coefficient)와 상관 계수 (correlat ion coefficient)에 기초하여 상기 제 1 변환 계수 (first transform coefficient)의 예측값을 획득할 수 있다. 여기서, 상기 이전 프레임 내 대응 블록은 현재 프레임 내 타겟 블록에 대옹되는 블록을 의미한다. 그리고, 상기 상관 계수는 상기 복원된 제 2 변환 계수와 상기 쎄 1 변환 계수 사이의 상관관계를 나타낸다.
상기 도 14에서 역변환부 (1450), DPBC1460), (i_l)번째 공간 변환부 (1414)는 별개의 유닛으로 도시되어 있으나, 이는 설명의 편의를 위한 것이며, 상기 최적화부 (1420)에 포함되어 수행될 수도 있다.
한편, 상기 최적화부 (1420)로부터 출력된 최적의 변환 계수는 양자화부 (1430)를 통해 양자화되고, 엔트로피 인코딩부 (1440)를 통해 엔트로피 인코딩되어 디코더로 전송된다. ᅳ 도 15를 살펴보면, 본 발명이 적용되는 디코더 (1500)는 엔트로피 디코딩부 (1510), 역양자화부 (1520), 시간 역변환부 (1530), 공간 역변환부 (미도시), DPB 1550) 및 변환부 (1560)를 포함할 수 있다. 상기 공간 역변환부 (미도시)는 (i+2)번째 공간 역변환부 (1540), (i+1)번째 공간 역변환부 (1541), (i)번째 공간 변환부 (1542)를 포함할 수 있다. 또한, 상기 시간 역변환부 (1530)와 상기 공간 역변환부 (미도시)도 설명의 편의상 별개로 도시하였으나, 하나의 역변환부에 포함되어 수행될 수도 있다.
엔트로피 디코딩부 (1510)는 상기 인코더 (1400)로부터 전송된 최적의 변환 계수를 수신하여 엔트로피 디코딩을 수행한다.
역양자화부 (1520)는 엔트로피 디코딩된 변환 계수를 역양자화하고, 시간 역변환부 (1530)는 각 프레임 별로 변환 계수 또는 변환 계수 셋을 출력한다. 예를 들어, 타겟 블록의 픽셀 값에 대해 변환이 수행된 변환 계수 또는 변환 계수 셋을 출력할 수 있다.
상기 시간 역변환부 (1530)로부터 출력된 변환 계수는 이전 프레임 내 대웅 블록의 변환 계수와 함께 공간 역변환부 (미도시)로 전송될 수 있다. 예를 들어, ( i+2)번째 프레임 내 타겟 블톡의 변환 계수는 이전 프레임 내 대웅 블록의 변환 계수과 함께 ( i+2)번째 공간 역변환부 (1540)로 전송될 수 있다.
공간 역변환부 (미도시)는 수신된 변환 계수에 대해 공간 역변환을 수행하여 해당 블톡의 픽셀 값을 복원할 수 있다. 예를 들어, ( i+2)번째 공간 역변환부 (1540)는 상기 시간 역변환부 (1530)로부터 출력된 변환 계수와 이전 프레임 내 대응 블록의 변환 계수에 기초하여 ( i+2)번째 프레임 내 타겟 블록의 픽셀 값 Xi+2을 복원할 수 있다.
한편, ( 0번째 공간 역변환부 (1542)를 통해 복원된 ( i )번째 프레임 내 타겟 블록의 픽셀 값은 DPB(1550)에 저장되어 이후 프레임 내 블록의 픽셀 값을 복원하기 위해 이용될 수 있다. 도 16은 본 발명이 적용되는 실시예로써, IBBBP 타입의 시간적 예측 구조에서 변환 도메인 상의 예측이 수행되는 변환 계수의 대응 셋을 나타낸다. 앞서 설명한 수학식 18 내지 20과 유사하게, 프레임 내 변환 계수들 간의 예측 의존성은 다음 수학식 27 내지 30과 같이 정의될 수 있다. [수학식 27] [수학식 28]
[수학식 29]
/ +2 = d +i + « +3-':+27+3
[수학식 30]
— ',' +3/"'1 여기서, ?"' 는 i번째 프레임 내 블록의 n번째 변환 계수의 예측값을 나타내고, 는 i번째 프레임 내 블록의 n번째 변환 계수의 복원된 샘플을 나타내다. 그리고, α"'는 i번째 프레임과 ( i+1) 번째 프레임 간 블록의 n번째 변환 계수들 간의 상관 계수 (correlat ion coef f i cient )를 나타낸다.
상기 수학식 27 내지 30에 기초하여, 프레임 내 블톡의 변환 계수를 예측하는 수학식을 다음 수학식 31과 같이 산출할 수 있다.
[수학식 31]
X = FnX + GY
Figure imgf000040_0001
여기서, 는 변환 계수 예측값 셋을 나타내고, X는 변환 계수의 복원된 샘플 셋을 나타내며, Y는 이전 프레임의 변환 계수를 나타낸다. 예를 들어, 다음 수학식 32 내지 34와 같이 표현할 수 있다.
[수학 7 /식"" 32]
[수학식 33] x≡
[수학식 34]
한편, = + e 이고, 여기서 TTC 관계식을 이용하면, 상기 수학식
25와 같은 복원 함수를 획득할 수 있고, IBBBP 예측 구조에서 F0 및 G 는 상기 수학식 31에 의해 새롭게 정의될 수 있다. 또한, 최적의 변환 계수 백터 o를 찾기 위한 CNT 최적화 수학식은 상기 수학식 26에 기초하여 변경될 수 있다. 특정 시간적 예측 구조에서 설명된 본 발명의 요소들과 동작들은 단지 일실시예에 불과하며, 많은 다른 실시예가 본 발명의 기술적 사상 내에서 확장될 수 있다.
도 17은 본 발명이 적용되는 실시예로씨, 변환 도메인 상에서 픽셀 간 상관 관계에 기초하여 비디오 신호를 인코딩하는 흐름도를 나타낸다. 본 발명은, 변환 도메인 상에서 픽셀 간 상관 관계에 기초하여 비디오 신호를 인코딩하는 방법을 제공한다.
먼저, 현재 프레임 내 타겟 블록의 픽셀 값에 대해 변환을 수행함으로써 제
1 변환 계수 (first transform coefficient)를 획득할 수 있다 (S1710).
그리고, 이전 프레임 내 대웅 블록에 대한 제 2 변환 계수 (second transform coefficient)를 복원할 수 있다 (S1720). 여기서, 상기 이전 프레임 내 대웅 블록은 상기 현재 프레임 내 타겟 블록에 대응되는 블록을 나타낸다.
상기 복원된 제 2 변환 계수 (second transform coefficient)와 상관 계수 (correlation coefficient)에 기초하여 상기 제 1 변환 계수 (first transform coefficient)의 예측값을 획득할 수 있다 (S1730). 여기서, 상기 상관 계수 (correlation coefficient)는 상기 복원된 제 2 변환 계수와 상기 제 1 변환 계수 사이의 픽샐 간 상관 관계를 나타낸다. 그리고, 상기 상관 계수 (correlation coefficient)는 변환 계수들의 주파수 인덱스에 기초하여 변할 수 있다.
한편, 인코더는 최적의 함수 (optimal function)를 이용하여 최적의 변환 계수를 획득할 수 있다 (S1740). 여기서 상기 최적의 함수는 상기 제 1 변환 계수와 상기 제 2 변환 계수에 기초하고, 상기 최적의 변환 계수는 상기 최적의 함수를 최소로 하는 변환 계수를 나타낸다. 예를 들어, 상기 최적의 함수는 상기 수학식 26이 이용될 수 있다. 도 18은 본 발명이 적용되는 실시예로써, 변환 도메인 상에서 픽셀 간 상관 관계를 고려하는 조건부 비선형 변환 (conditionally nonlinear transform)에 기초하여 비디오 신호를 디코딩하는 흐름도를 나타낸다.
본 발명은, 변환 £메인 상에서 픽셀 간 상관 관계를 고려하는 조건부 비선형 변환 (condi t ional ly nonl inear transform)에 기초하여 비디오 신호를 디코딩하는 방법을 제공한다.
디코더는 현재 프레임 내 타겟 블톡의 제 1 변환 계수를 포함하는 비디오 신호를 수신할 수 있다 (S1810) . 여기서, 상기 제 1 변환 계수는 최적의 함수에 기초하여 획득된 시공간 변환 계수를 나타낸다.
상기 디코더는, 상기 제 1 변환 계수에 대해 시간 역변환 (temporal inverse transform)을 수행함으로써 공간 변환 계수를 획득할 '수 있다 (S1820) . 여기서, 상기 시간 역변환은 시간 궤도 (temporal trajectory)에 기초하여 적용된 변환의 역변환 ( inverse transform)을 나타낸다. 예를 들어, 상기 공간 변환 계수는 타겟 블록의 픽셀 값에 대해 변환이 수행된 변환 계수 또는 변환 계수 셋을 의미할 수 있다.
상기 디코더는, 이전 프레임 내 대웅 블록의 제 2 변환 계수를 이용함으로써 상기 공간 변환 계수를 복원할 수 있다 (S1830) .
상기 디코더는, 상기 공간 변환 계수에 대한 공간 역변환을 수행함으로써 상기 비디오 신호를 복원할 수 있다 (S1840) . 예를 들어, 상기 공간 변환 계수와 이전 프레임 내 대웅 블록의 변환 계수에 기초하여 현재 프레임 내 타겟 블록의 픽셀 값을 복원할 수 있다.
한편, 복원된 현재 프레임 내 타겟 블록의 픽셀 값은 DPB에 저장되어 이후 프레임 내 블록의 픽셀 값을 복원하기 위해 이용될 수 있다. 상기 기술된 것과 같이, 본 발명에서 설명한 실시예들은 프로세서, 마이크로 프로세서, 컨트롤러 또는 칩 상에서 구현되어 수행될 수 있다. 예를 들어, 상기 도 1 내지 4 및 도 14 내지 15에서 도시한 기능 유닛들은 컴퓨터, 프로세서, 마이크로 프로세서, 컨트를러 또는 칩 상에서 구현되어 수행될 수 있다. 또한, 본 발명이 적용되는 디코더 및 인코더는 멀티미디어 방송 송수신 장치, 모바일 통신 단말, 홈 시네마 비디오 장치, 디지털 시네마 비디오 장치, 감시용 카메라, 비디오 대화 장치, 비디오 통신과 같은 실시간 통신 장치, 모바일 스트리밍 장치, 저장 매체, 캠코더, 주문형 비디오 (VoD) 서비스 제공 장치, 인터넷 스트리밍 서비스 제공 장치, 3차원 (3D) 비디오 장치, 화상 전화 비디오 장치, 및 의료용 비디오 장치 등에 포함될 수 있으며, 비디오 신호 및 데이터 신호를 처리하기 위해 사용될 수 있다.
또한, 본 발명이 적용되는 처리 방법은 컴퓨터로 실행되는 프로그램의 형태로 생산될 수 있으며, 컴퓨터가 판독할 수 있는 기록 매체에 저장될 수 있다. 본 발명에 따른 데이터 구조를 가지는 멀티미디어 데이터도 또한 컴퓨터가 판독할 수 있는 기록 매체에 저장될 수 있다. 상기 컴퓨터가 판독할 수 있는 기록 매체는 컴퓨터로 읽을 수 있는 데이터가 저장되는 모든 종류의 저장 장치를 포함한다. 상기 컴퓨터가 판독할 수 있는 기록 매체는, 예를 들어, 블루레이 디스크 (BD) , 범용 직렬 버스 (USB) , ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크 및 광학적 데이터 저장 장치를 포함할 수 있다. 또한, 상기 컴퓨터가 판독할 수 있는 기록 매체는 반송파 (예를 들어, 인터넷을 통한 전송)의 형태로 구현된 미디어를 포함한다. 또한, 인코딩 방법으로 생성된 비트 스트림이 컴퓨터가 판독할 수 있는 기록 매체에 저장되거나 유무선 통신 네트워크를 통해 전송될 수 있다.
【산업상 이용가능성】
이상, 전술한 본 발명의 바람직한 실시예는, 예시의 목적을 위해 개시된 것으로, 당업자라면 이하 첨부된 특허청구범위에 개시된 본 발명의 기술적 사상과 그 기술적 범위 내에서 , 다양한 다른 실시예들을 개량, 변경, 대체 또는 부가 등이 가능할 것이다.

Claims

【청구의 범위】
【청구항 1】
변환 도메인 상에서 픽샐 간 상관 관계에 기초하여 비디오 신호를 인코딩하는 방법에 있어서,
현재 프레임 내 타겟 블록의 픽샐 값에 대해 변환을 수행함으로써 제 1 변환 계수 (first transform coefficient)를 획득하는 단계;
이전 프레임 내 대웅 블록에 대한 제 2 변환 계수 (second transform coefficient)를 복원하는 단계; 및
상기 복원된 제 2 변환 계수 (second transform coefficient)와 상관 계수 (correlation coefficient)에 기초하여 상기 제 1 변환 계수 (first transform coefficient)의 예측값을 획득하는 단계
를 포함하는 것을 특징으로 하는 방법.
【청구항 2】
제 1항에 있어서,
상기 제 2 변환 계수 (second transform coefficient)는 이전에 복원된 모든 변환 계수와 상기 제 1 변환 계수에 기초하여 복원되는 것을 특징으로 하는 방법.
【청구항 3】
제 1항에 있어서,
상기 상관 계수 (correlation coefficient)는 상기 복원된 제 2 변환 계수와 상기 제 1 변환 계수 사이의 상관 관계를 나타내는 것을 특징으로 하는 방법.
【청구항 4】
제 3항에 있어서,
상기 상관 계수 (correlation coefficient)는 변환 계수들와주파수 인덱스에 기초하여 변하는 것을 특징으로 하는 방법 .
【청구항 5】
제 1항에 있어서,
최적의 함수 (optimal function)를 이용하여 최적의 변환 계수를 획득하는 단계를 더 포함하되,
상기 최적의 함수는 상기 제 1 변환 계수와 상기 제 2 변환 계수에 기초하고, 상기 최적의 변환 계수는 상기 최적의 함수의 최소값을 나타내는 것을 특징으로 하는 방법 .
【청구항 6】
제 1항에 있어서,
상기 이전 프레임 내 대웅 블록은 상기 현재 프레임 내 타겟 블록에 대웅되는 블록을 나타내는 것을 특징으로 하는 방법.
【청구항 71
비디오 신호를 디코딩하는 방법에 있어서,
현재 프레임 내 타겟 블톡의 제 1 변환 계수를 포함하는 비디오 신호를 수신하는 단계 ;
상기 제 1 변환 계수에 대해 시간 역변환 (temporal inverse transform)을 수행함으로써 공간 변환 계수를 획득하는 단계, 여기서 상기 시간 역변환은 시간 궤도 (temporal trajectory)에 기초하여 적용된 변환의 역변환 (inverse transform)을 나타냄;
이전 프레임 내 대웅 블록의 제 2 변환 계수를 이용함으로써 상기 공간 변환 계수를 복원하는 단계; 및
상기 공간 변환 계수에 대한 공간 역변환 (spatial inverse transform)을 수행함으로써 상기 비디오 신호를 복원하는 단계
를 포함하는 것을 특징으로 하는 방법.
【청구항 8】
제 7항에 있어서,
상기 제 1 변환 계수는 최적의 함수에 기초하여 획득된 시공간 변환 계수를 나타내는 것을 특징으로 하는 방법.
【청구항 9]
변환 도메인 상에서 픽셀 간 상관 관계에 기초하여 비디오 신호를 인코딩하는 장치에 있어서,
현재 프레임 내 타겟 블록의 픽셀 값에 대해 변환을 수행함으로써 제 1 변환 계수 (first transform coefficient)를 획득하는 공간 변환부; 및
이전 프레임 내 대웅 블록에 대한 제 2 변환 계수 (second transform coefficient)를 복원하고, 상기 복원된 제 2 변환 계수 (second transform coefficient)와 상관 계수 (correlat ion coefficient)에 기초하여 상기 제 1 변환 계수 (first transform coefficient)의 예측값을 획득하는 최적화부
를 포함하는 것을 특징으로 하는 장치.
【청구항 10]
제 9항에 있어서,
상기 상관 계수 (correlation coefficient)는 상기 복원된 제 2 변환 계수와 상기 제 1 변환 계수 사이의 상관 관계를 나타내는 것을 특징으로 하는 장치.
【청구항 11]
제 10항에 있어서'
상기 상관 계수 (correlation coefficient)는 변환 계수들의 주파수 인덱스에 기초하여 변하는 것을 특징으로 하는 장치 .
【청구항 12】
제 9항에 있어서,
상기 최적화부는, 최적의 함수 (optimal function)를 이용하여 최적의 변환 계수를 획득하고
상기 최적의 함수는 상기 제 1 변환 계수와 상기 제 2 변환 계수에 기초하고, 상기 최적의 변환 계수는 상기 최적의 함수의 최소값을 나타내는 것을 특징으로 하는 장치 .
【청구항 13]
제 9항에 있어서,
상기 이전 프레임 내 대웅 블록은 상기 현재 프레임 내 타겟 블록에 대웅되는 블록을 나타내는 것을 특징으로 하는 장치 .
【청구항 14]
비디오 신호를 디코딩하는 장치에 있어서,
현재 프레임 내 타겟 블록의 제 1 변환 계수를 포함하는 비디오 신호를 수신하는 엔트로피 디코딩부; 및
상기 제 1 변환 계수에 대해 시간 역변환 ( temporal inverse transform)을 수행함으로써 공간 변환 계수를 획득하고, 이전 프레임 내 대웅 블록의 제 2 변환 계수를 이용함으로써 상기 공간 변환 계수를 복원하고, 상기 공간 변환 계수에 대한 공간 역변환 (spat i al inverse transform)을 수행함으로써 상기 비디오 신호를 복원하는 역변환부
를 포함하되,
상기 시간 역변환은 시간 궤도 (temporal trajectory)에 기초하여 적용된 변환의 역변환 ( inverse transform)을 나타내는 것을 특징으로 하는 장치.
【청구항 15】
제 14항에 있어서,
상기 제 1 변환 계수는 최적의 함수에 기초하여 획득된 시공간 변환 계수를 나타내는 것을 특징으로 하는 장치.
PCT/KR2015/011518 2014-10-29 2015-10-29 비디오 신호의 인코딩, 디코딩 방법 및 그 장치 WO2016068630A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020177012784A KR20170075754A (ko) 2014-10-29 2015-10-29 비디오 신호의 인코딩, 디코딩 방법 및 그 장치
US15/523,424 US10051268B2 (en) 2014-10-29 2015-10-29 Method for encoding, decoding video signal and device therefor

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201462072417P 2014-10-29 2014-10-29
US62/072,417 2014-10-29

Publications (1)

Publication Number Publication Date
WO2016068630A1 true WO2016068630A1 (ko) 2016-05-06

Family

ID=55857855

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2015/011518 WO2016068630A1 (ko) 2014-10-29 2015-10-29 비디오 신호의 인코딩, 디코딩 방법 및 그 장치

Country Status (3)

Country Link
US (1) US10051268B2 (ko)
KR (1) KR20170075754A (ko)
WO (1) WO2016068630A1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7680190B2 (en) * 2000-06-21 2010-03-16 Microsoft Corporation Video coding system and method using 3-D discrete wavelet transform and entropy coding with motion information
KR20100097286A (ko) * 2009-02-26 2010-09-03 에스케이 텔레콤주식회사 영상 부호화/복호화 장치 및 방법
US20140044166A1 (en) * 2012-08-10 2014-02-13 Google Inc. Transform-Domain Intra Prediction
WO2014109826A1 (en) * 2012-11-13 2014-07-17 Intel Corporation Video codec architecture for next generation video

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007116351A (ja) * 2005-10-19 2007-05-10 Ntt Docomo Inc 画像予測符号化装置、画像予測復号装置、画像予測符号化方法、画像予測復号方法、画像予測符号化プログラム、及び画像予測復号プログラム
WO2008120577A1 (ja) * 2007-03-29 2008-10-09 Kabushiki Kaisha Toshiba 画像符号化及び復号化の方法及び装置
US20090154567A1 (en) * 2007-12-13 2009-06-18 Shaw-Min Lei In-loop fidelity enhancement for video compression
KR101302660B1 (ko) * 2009-09-14 2013-09-03 에스케이텔레콤 주식회사 고해상도 동영상의 부호화/복호화 방법 및 장치
CN107071437B (zh) * 2010-07-02 2019-10-25 数码士有限公司 用于帧内预测的解码图像的方法
US9445093B2 (en) * 2011-06-29 2016-09-13 Qualcomm Incorporated Multiple zone scanning order for video coding
KR101943049B1 (ko) * 2011-06-30 2019-01-29 에스케이텔레콤 주식회사 영상 부호화/복호화 방법 및 장치
US9380298B1 (en) * 2012-08-10 2016-06-28 Google Inc. Object-based intra-prediction
CN104685884B (zh) * 2012-10-05 2017-10-24 华为技术有限公司 用于视频编码的方法及设备、用于视频解码的方法
US20140098880A1 (en) * 2012-10-05 2014-04-10 Qualcomm Incorporated Prediction mode information upsampling for scalable video coding

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7680190B2 (en) * 2000-06-21 2010-03-16 Microsoft Corporation Video coding system and method using 3-D discrete wavelet transform and entropy coding with motion information
KR20100097286A (ko) * 2009-02-26 2010-09-03 에스케이 텔레콤주식회사 영상 부호화/복호화 장치 및 방법
US20140044166A1 (en) * 2012-08-10 2014-02-13 Google Inc. Transform-Domain Intra Prediction
WO2014109826A1 (en) * 2012-11-13 2014-07-17 Intel Corporation Video codec architecture for next generation video

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ANDREW NAFTEL ET AL.: "Motion trajectory learning in the DFT-coefficient feature space.", IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION SYSTEMS (ICVS, 2006, pages 1 - 8 *

Also Published As

Publication number Publication date
US10051268B2 (en) 2018-08-14
US20170302921A1 (en) 2017-10-19
KR20170075754A (ko) 2017-07-03

Similar Documents

Publication Publication Date Title
US20210160508A1 (en) Method and apparatus for encoding and decoding video using skip mode
KR101974261B1 (ko) Cnn 기반 인루프 필터를 포함하는 부호화 방법과 장치 및 복호화 방법과 장치
WO2016167538A1 (ko) 비디오 신호의 인코딩, 디코딩 방법 및 그 장치
KR101901355B1 (ko) 최적화 함수를 이용하여 그래프 기반 예측을 수행하는 방법 및 장치
KR20210010633A (ko) 히스토리 기반 움직임 벡터에 기반한 인터 예측 방법 및 그 장치
CN105850124B (zh) 使用量化误差的额外的控制编码、解码视频信号的方法和装置
WO2016076659A1 (ko) 일반화된 그래프 파라미터를 이용하여 그래프 기반 변환을 수행하는 방법 및 장치
US20190268619A1 (en) Motion vector selection and prediction in video coding systems and methods
JP2016536859A (ja) メディア信号のエンコード及びデコード方法並びにそれを用いる装置
US10652569B2 (en) Motion vector selection and prediction in video coding systems and methods
WO2016068630A1 (ko) 비디오 신호의 인코딩, 디코딩 방법 및 그 장치
KR100978465B1 (ko) 양-예측 부호화 방법 및 장치, 양-예측 복호화 방법 및 장치 및 기록매체
KR20230067492A (ko) Ai를 이용하는 영상 부호화 장치 및 영상 복호화 장치, 및 이들에 의한 영상의 부호화 및 복호화 방법
JP2024510433A (ja) ビデオ圧縮のための時間的構造ベースの条件付き畳み込みニューラルネットワーク

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15854245

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 15523424

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 20177012784

Country of ref document: KR

Kind code of ref document: A

122 Ep: pct application non-entry in european phase

Ref document number: 15854245

Country of ref document: EP

Kind code of ref document: A1