WO2016017338A1 - 動画像符号化装置及び動画像復号装置並びに動画像符号化・復号方法及びプログラム - Google Patents

動画像符号化装置及び動画像復号装置並びに動画像符号化・復号方法及びプログラム Download PDF

Info

Publication number
WO2016017338A1
WO2016017338A1 PCT/JP2015/068505 JP2015068505W WO2016017338A1 WO 2016017338 A1 WO2016017338 A1 WO 2016017338A1 JP 2015068505 W JP2015068505 W JP 2015068505W WO 2016017338 A1 WO2016017338 A1 WO 2016017338A1
Authority
WO
WIPO (PCT)
Prior art keywords
prediction
unit
encoding
block
decoding
Prior art date
Application number
PCT/JP2015/068505
Other languages
English (en)
French (fr)
Inventor
翠 王
知伸 吉野
Original Assignee
Kddi株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kddi株式会社 filed Critical Kddi株式会社
Publication of WO2016017338A1 publication Critical patent/WO2016017338A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding

Definitions

  • the present invention relates to a moving image encoding device, a moving image decoding device, a moving image encoding / decoding method, and a program, and in particular, a moving image encoding device and a moving image decoding that allow intra prediction for an inter prediction residual signal.
  • the present invention relates to an apparatus, a moving image encoding / decoding method, and a program.
  • Non-Patent Document 1 discloses a video compression coding standard.
  • inter prediction when performing inter-frame prediction (hereinafter referred to as inter prediction), orthogonal transform and encoding are performed on a motion compensation residual signal.
  • Non-Patent Document 2 discloses a method of performing intra-frame prediction (hereinafter referred to as intra prediction) on a motion compensation residual signal for the purpose of improving coding performance by improving prediction performance. Since this method performs double prediction by further applying intra prediction to inter prediction, in the same document, this prediction is called secondary prediction (Second order prediction).
  • Non-Patent Document 1 that discloses a standard, temporal correlation in a video can be reduced. However, since prediction in the spatial direction is not performed, redundancy of pixel values remains in the spatial direction. ing.
  • the inter prediction residual signal remains redundant in the spatial direction, the correlation between pixel values between adjacent pixels is lower than that of a general video signal.
  • the correlation between pixel values between adjacent pixels is ⁇ ( ⁇ is 1 or less)
  • the correlation between pixels separated by N pixels is proportional to ⁇ to the Nth power. Therefore, in the method of Non-Patent Document 2 in which the reference pixel value as in Non-Patent Document 1 is applied to the inter prediction residual signal as a predicted value along the prediction direction, the prediction is performed as the distance from the reference pixel increases. Since the decrease in performance becomes significant, the effect of improving the encoding performance by applying intra prediction is limited.
  • Non-Patent Document 2 is a secondary prediction framework in which intra prediction is further applied to inter prediction. Although the encoding efficiency is improved as compared with the framework of Non-Patent Document 1 or the like, there is room for further improvement. Remaining.
  • an intra prediction method (method of Non-Patent Document 1) in which a reference pixel value is set as a predicted value along the prediction direction without considering the characteristics of the inter prediction residual signal. The point used is mentioned.
  • Non-Patent Document 1 corresponds to a causal prediction framework in that a pixel to be encoded (future pixel) is predicted from an encoded pixel (past pixel).
  • Non-Patent Document 3 there is a non-causal prediction framework disclosed in Non-Patent Document 3 for causal prediction.
  • FIG. 3 is a diagram conceptually showing causal prediction and non-causal prediction.
  • the pixel x i, j at the position (i, j) to be predicted is, for example, the pixel x i ⁇ 1, j ⁇ 1 , x i, j ⁇ 1 , x i-1, j etc.
  • the prediction direction is limited, as the pixel positions are separated from each other as described above, the correlation is lowered, thereby reducing the encoding efficiency.
  • the prediction direction is not limited, and in general, the pixel x i, j at the position (i, j) to be predicted is all the surrounding pixels, for example, the pixel x It is predicted from i, j-1 , x i-1, j , x i + 1, j , x i, j + 1 and the like.
  • non-causal prediction has more pixels to be referenced for prediction and can use adjacent pixels in all directions. It is expected that the impact will be reduced and an excellent prediction can be made.
  • Non-Patent Document 3 is originally assumed to be used in a quadratic prediction framework that applies intra prediction to an inter prediction residual signal as in Non-Patent Document 2. Absent.
  • the pixel is not an inter prediction residual signal, and it is necessary to process the entire image at once in order to improve the coding efficiency, which causes a problem that a large calculation cost is required. Specifically, it is as follows.
  • the processing target signal is a pixel value in Non-Patent Document 3, the rightward and downward pixels are unknown in the decoding device.
  • the power of the prediction error signal of the non-causal method is small, the prediction function used at the time of decoding is non-orthogonal, so that the error may increase. Therefore, it is known that the calculation load becomes heavier than a decoding device based on causal prediction in order to suppress the error expansion.
  • an iterative processing algorithm or recursive algorithm must be used to maintain coding efficiency.
  • Non-Patent Document 3 a method called recursive framework is used.
  • the encoding device and the decoding device each perform a recursive operation to realize high-efficiency encoding. Specifically, the following steps 1 to 4 are performed on the encoding side.
  • Step 1 The following four types of parameters are obtained for the entire image as a processing target, and an optimal parameter set is repeatedly searched for each row of the image.
  • [Step 2] Generate a recursive matrix using the parameter set obtained in Step 1.
  • [Step 3] A prediction error image is generated from the last row using a recursive matrix, and the prediction error image is quantized. Thus, what is sent to the decoding device is a value after entropy coding of the quantized prediction error image and a parameter of non-causal prediction (obtained in step 1).
  • the decoding apparatus performs the following steps 1 to 3 in accordance with the above processing of the encoding apparatus.
  • Step 1 The obtained signal is entropy decoded and dequantized to generate an error image.
  • Step 2 Based on the obtained parameter information, the same recursive matrix as the output of step 2 on the encoding side is calculated.
  • Step 3 A reconstruction matrix is generated by a recursive matrix, and one row is reconstructed at a time from the last row of the image.
  • the non-causal model in-screen prediction in Non-Patent Document 3 uses recursive processing for the entire screen in order to maintain encoding efficiency (to optimize parameters for the entire screen). Since the processing must be performed collectively, the computational complexity becomes very high at the time of implementation. In particular, real-time processing is considered impossible for ultra-high resolution images.
  • an object of the present invention is to provide a moving picture coding apparatus that can achieve high coding efficiency and allows intra prediction for an inter prediction residual signal. .
  • Another object of the present invention is to provide a video decoding device corresponding to the video encoding device.
  • an object of the present invention is to provide a moving image encoding / decoding method and program that allow intra prediction on an inter prediction residual signal that can achieve high encoding efficiency.
  • the present invention is a video encoding apparatus that allows intra prediction for an inter prediction residual signal, and for each block in a predetermined prediction direction with respect to the inter prediction residual signal.
  • a secondary intra-prediction unit that performs prediction
  • a secondary non-causal prediction unit that predicts each signal belonging to each block based on surrounding signals, with respect to the inter prediction residual signal
  • a selection unit that determines whether to perform prediction by the secondary intra prediction unit or the secondary non-causal prediction unit for each block.
  • the present invention is also a moving picture decoding apparatus that allows intra prediction on an inter prediction residual signal, and that performs prediction in a predetermined prediction direction for each block on the inter prediction residual signal.
  • the present invention is a moving picture encoding / decoding method that allows intra prediction for an inter prediction residual signal, and has a predetermined prediction direction for each block with respect to an inter prediction residual signal to be encoded.
  • the encoding-side secondary intra prediction stage that performs prediction at the encoding side, and the encoding-side secondary prediction that predicts each signal belonging to each block based on the surrounding signals with respect to the inter prediction residual signal to be encoded
  • the decoding-side secondary non-causal prediction stage that predicts based on the surrounding signals, and for each block to be decoded, either the decoding target secondary intra prediction unit stage or the decoding target secondary non-causal prediction stage And a decoding side selection step of selecting whether to perform prediction.
  • the present invention is a program for causing a computer to execute the moving image encoding / decoding method.
  • a secondary intra prediction unit or a secondary non-causal prediction unit when applying intra prediction to an inter prediction residual signal, either a secondary intra prediction unit or a secondary non-causal prediction unit can be selected.
  • the prediction means high encoding efficiency can be achieved.
  • FIG. 1 is a functional block diagram of a video encoding apparatus according to an embodiment.
  • the moving image coding apparatus 100 includes an intra prediction unit 101, an inter prediction unit 102, a motion compensation unit 103, a secondary intra prediction unit 104 (hereinafter referred to as an SOP unit 104 [Second Order Prediction]), a secondary non-causal prediction.
  • Unit 105 hereinafter referred to as NCSOP unit 105 [Non Causal Second Order Prediction]
  • selection unit 106 selection unit 106, transform / quantization unit 107, inverse quantization / inverse transform unit 108, switch 109, adder 110, filter unit 111, A first memory 112, an encoding unit 113, a differentiator 120, and a differentiator 130 are provided.
  • the video encoding apparatus 100 includes the configuration, reads the video to be encoded for each frame, divides the frame into blocks, and applies various predictions to the configured pixels for each block. Then, the residual is transformed and quantized and encoded to form a bit stream.
  • FIG. 2 is a functional block diagram of a video decoding device 200 according to an embodiment that decodes the bitstream encoded by the video encoding device 100 of FIG.
  • the moving picture decoding apparatus 200 includes an intra prediction unit 201, a motion compensation unit 203, a secondary intra prediction unit 204 (hereinafter referred to as SOP unit 204 [Second Order Prediction]), a secondary non-causal prediction unit 205 (hereinafter referred to as NCSOP).
  • Unit 205 [Non Causal Second Order Prediction]
  • selection unit 206 selection unit 206, inverse quantization / inverse transform unit 208, switch 219, adder 210, filter unit 211, first memory 212, decoding unit 213, and second memory 214 And a switch 229.
  • the processing contents are the same.
  • the characteristic configuration of the moving picture coding apparatus 100 is an SOP unit 104, an NCSOP unit 105, and a selection unit 106 (and a differentiator 130) shown as a functional block group B100. If all of these characteristic configurations are omitted, the moving image encoding apparatus 100 has the same configuration as that of the standard disclosed in Non-Patent Document 1. Also, if only the NCSOP unit 105 is omitted among these characteristic configurations, the moving picture coding apparatus 100 has the same configuration as that disclosed in Non-Patent Document 2.
  • the video encoding apparatus 100 performs intra-screen prediction based on non-causal interpolation prediction proposed in Non-Patent Document 3 as secondary prediction for the inter prediction residual signal.
  • the intra coding method used for secondary prediction is adaptively selected according to the characteristics of the inter prediction residual signal.
  • further improvement of the prediction performance of the secondary prediction method (method of Non-Patent Document 2) that enables reduction of redundancy in the spatial direction in the inter prediction residual is achieved.
  • Non-Patent Document 2 since only the SOP unit 104 is used, the encoding efficiency may be insufficient depending on the characteristics of the inter prediction residual signal.
  • the encoding efficiency is improved by selectively using the NCSOP unit 105 suitable for the signal characteristics.
  • the characteristic configuration of the moving picture decoding apparatus 200 is an SOP unit 204, an NCSOP unit 205, and a selection unit 206 shown as a functional block group B200. If all of these characteristic configurations are omitted, the moving picture decoding apparatus 200 has the same configuration as the standard disclosed in Non-Patent Document 1. Further, if only the NCSOP unit 205 is omitted among these characteristic configurations, the moving picture decoding apparatus 200 has the same configuration as that disclosed in Non-Patent Document 2.
  • the moving picture decoding apparatus 200 achieves further improvement in prediction performance of the secondary prediction method (method of Non-Patent Document 2) that enables reduction of redundancy in the spatial direction in the inter prediction residual. Decoding processing corresponding to the image encoding device 100 is possible.
  • FIG. 1 and FIG. 2 details of each part of FIG. 1 and FIG. 2 will be described.
  • the functional unit having the common processing content will be described in parallel by the moving image encoding device 100 and the moving image decoding device 200, and different data flows will be described separately.
  • the moving image encoding device 100 is abbreviated as an encoder
  • the moving image decoding device 200 is abbreviated as a decoder.
  • the intra prediction units 101 and 201 perform intra-frame prediction processing in Non-Patent Document 1.
  • intra prediction encoding also referred to as intra prediction encoding
  • it is performed in units of square blocks.
  • N ⁇ N block the right end N pixels in the left block, the lower end N pixels in the upper block, the lower end 4 pixels in the upper right block, and several pixels in the lower right one pixel in the upper left block are included in the block.
  • N ⁇ N pixel values are predicted and encoded.
  • a prediction value based on a prediction direction in which the highest coding performance is expected is output.
  • the intra prediction units 101 and 201 refer to the first memories 112 and 212 that hold the encoded pixels (decoded pixels) of the prediction reference, and output predicted values.
  • the predicted value is output to the difference unit 120, and in the decoder, the predicted value is output to the adder 210 via the switches 219 and 229.
  • the encoder further outputs a prediction mode (intra prediction information) to the encoding unit 113.
  • the inter prediction unit 102 determines a motion vector used for inter-frame prediction.
  • the same unit evaluates a block suitable for prediction in the reference frame with respect to the processing block, expresses a position optimal for prediction and a spatial displacement of the processing block as a vector, and uses it as a motion vector.
  • the first memory 112 holds the reference frame.
  • a motion vector is output and passed to the motion compensation unit 103 and the encoding unit 113.
  • the motion compensation units 103 and 203 generate predicted values from the corresponding portions of the reference frames held in the first memories 112 and 212 using the motion vectors estimated as described above.
  • the generated prediction value is output as the output of the same part, and is output to the differencer 120 in the encoder and to the adder 210 via the switches 219 and 229 in the decoder.
  • the switch 219 sends the prediction signal to the switch 229.
  • the switch 229 sends the prediction signal to the adder 210.
  • SOP section 104 performs secondary prediction (application of intra prediction to inter prediction residual) proposed in Non-Patent Document 2. That is, intra-frame prediction is performed on the inter prediction residual (residual signal by motion compensation). Specifically, with respect to the residual signal for motion compensation, the difference between the decoded pixel values at the upper, left, upper left, and upper right of the processing block and the decoded pixel values at the upper, left, upper left, and upper right of the motion compensation reference block is calculated. Intraframe prediction is performed using the predicted value.
  • the inter prediction residual signal to be predicted is the inter prediction signal obtained by reading the encoding target block and processing it by the inter prediction unit 102 and the motion compensation unit 103, the signal of the encoding target block itself, Are generated by the differentiator 120.
  • the inter prediction residual signal to be referred to is also output to the transform / quantization unit 107 in parallel with the output of the differencer 120 to the SOP unit 104, and the transform / quantization unit 107 Then, after passing through the inverse quantization / inverse transform unit 108, the flow is switched toward the line L100 by the switch 109, so that the first memory 112 holds it.
  • This makes it possible to provide a reference inter prediction residual signal when the frame of the current block to be encoded becomes an inter prediction reference frame at a later time.
  • the difference unit 130 obtains the difference between the prediction value and the signal to be encoded.
  • the prediction value obtained by motion compensation may be obtained by receiving the result obtained by the motion compensation unit 103 before inputting the current encoding target block to the differencer 120 described above. (The flow of data exchange at the time of receipt is not shown in FIG. 1)
  • the corresponding SOP unit 204 on the decoder side generates a prediction value on the decoding side based on the SOP shown in Non-Patent Document 2.
  • the difference between the decoded pixels on the upper, left, upper left, and upper right of the processing block and the upper, left, upper left, and upper right decoded pixels indicated by the motion vector is used as a reference pixel for intra prediction.
  • the prediction value is generated according to the intra prediction direction of the control information.
  • a value obtained by adding the above-described predicted value and the predicted value by motion compensation is set as a predicted value of SOP.
  • the predicted value of SOP is output and passed to the adder 210 via the switch 229.
  • an inter prediction residual signal as a reference pixel is required, and this is stored in the first memory 212 by the motion compensation unit 203 by the same process as the encoder side. Keep it. For this reason, on the decoder side, the motion compensation unit 203 obtains a prediction signal and refers to the first memory 212 to obtain an inter prediction residual signal as a difference between the obtained prediction signal and the reference signal, which is shown as a line L200. As described above, it is assumed that the data is stored in the first memory 212 again.
  • the difference value obtained by the differentiator 130 from the prediction value obtained by the SOP 104 on the encoder side is encoded by the transform / quantization unit 107 and the encoding unit 113, and is then transmitted to the decoder side to be decoded by the decoding unit 213 and the inverse quantum.
  • the conversion unit 208 returns to the difference value, and the adder 210 adds the prediction value obtained by the decoder-side SOP unit 204 to obtain a decoded pixel value.
  • the transform / quantization unit 107 receives the prediction error signal and performs orthogonal transform and quantization on the signal. As an output of the same unit, a quantized transform coefficient is output and passed to the inverse quantization / inverse transform unit 108 and the encoding unit 113.
  • the prediction that can be applied to the input prediction error signal is performed by any of the intra prediction unit 101, the motion compensation unit 103, the SOP unit 104, or the NCSOP unit 105.
  • the quantized transform coefficients are input.
  • inverse quantization and inverse transformation are performed on the input signal to the same part to obtain a residual signal.
  • the obtained residual signal is output as an output of the same part, and is passed to the switch 109 on the encoder side and to the adder 210 on the decoder side. 2
  • the residual signal is passed to the NCSOP unit 205 via the selection unit 206 only in the case of a residual to which the NCSOP unit 205 is applied, as indicated by a one-dot chain line L250 in FIG.
  • the switch 109 passes an inter prediction residual signal to be used as a prediction reference in the SOP unit 104 to the first memory 112 as indicated by a line L100, and other types of remaining signals. For the difference signal, a switching process of passing to the adder 110 is performed.
  • the adders 110 and 210 add the residual sent from the switch 109 or the inverse quantization / inverse transform unit 208 and the prediction signal sent from each prediction unit to obtain a reconstructed pixel signal (decoded image signal). To the filter units 111 and 211.
  • the filter units 111 and 211 are filters for reducing block distortion that occurs when an image is encoded prior to storing the decoded image in the first memories 112 and 212.
  • the decoded image after the filter processing is output as the output of the same unit.
  • the encoding unit 113 performs entropy encoding on the quantized coefficient, encoding mode, motion vector information, and the like. An encoded bit stream is output as the output of the same unit.
  • the decoding unit 213 performs entropy decoding on the bit stream obtained by the encoding unit 113, and acquires control information such as an encoding mode and a residual signal. As the output of the same unit, the acquired control information and residual signal are output.
  • the residual signal is passed to the inverse quantization / inverse transform unit 208, and the control information is passed to the second memory 214.
  • the first memories 112 and 212 are memories for storing decoded images, and supply decoded pixel values to the intra prediction units 101 and 201, motion compensation units 103 and 203, and SOP units 104 and 204 as necessary.
  • the second memory 214 is a memory for accumulating control information (prediction mode information, etc.), and is necessary when various predictions are performed by the intra prediction unit 201, the motion compensation unit 203, the SOP unit 204, and the like. In response, control information is supplied.
  • NCSOP units 105 and 205 which are characteristic configurations in the present invention and are selectively applied by the selection units 106 and 206 will be described.
  • the selection unit 106 performs intra prediction encoding on the motion compensation residual signal, and enables selection of an appropriate prediction method from a plurality of candidates for the intra prediction method. In particular, it is determined whether the SOP unit 104 or the NCSOP unit 105 should be adopted in the encoding processing unit.
  • the determined information is sent to the encoding unit 113 as control information (although the flow is not shown in FIG. 1), is encoded, and is added to the bitstream.
  • the information is decoded and received by the selection unit 206 on the decoder side, so that the decoder side similarly determines which of the SOP unit 204 and the NCSOP unit 205 is adopted.
  • identification information is given to the slice header, and only one prediction indicated in the identification information is used in the slice. Further, as a result of this evaluation, it can be shown by identification information that neither is used in the slice. Furthermore, it is also possible to identify using either one or neither using an encoding syntax higher than the slice header.
  • identification information indicating which prediction is used is given to each block in a block that performs intra prediction on a residual signal of motion compensation.
  • a method for deciding either one in units of slices a method using a variance value of pixel values in a slice is possible.
  • a method of deciding either one in units of blocks it is possible to perform the encoding performance based on the prediction value of the variance value of the pixel value of the processing block, the variance value of the motion compensation residual signal and the inter-pixel correlation.
  • the variance value of the pixel value of the processing block, the variance value of the motion compensation residual signal and the inter-pixel correlation, and the encoding performance based on the respective prediction based on the encoding error and the generated code amount
  • Various encoding performance evaluation indexes such as encoding performance evaluated by the user can be used.
  • the magnitude of the variance value or the correlation between pixels may be determined based on, for example, a threshold value.
  • the encoding performance may be determined based on the actual evaluation and the higher performance.
  • the NCSOP unit 105 is suitable in a region where the variance value is high or a region where the correlation between pixels is low.
  • the NCSOP unit 105 generates a prediction value by using the non-causal interpolation prediction proposed in Non-Patent Document 3 as intra-screen prediction for the residual signal of motion compensation by a method specialized in the present invention. . Details of the predicted value generation method in the same part will be described later.
  • non-causal interpolation prediction in the NCSOP unit 105 matrix calculation is performed on the inter-frame prediction residual signal to be predicted using an interpolation prediction function.
  • An encoding procedure will be described by taking an image configured as an N pixel ⁇ M line matrix in FIG. 4 as an example.
  • FIG. 4 shows an example of non-causal interpolation prediction processing in an N pixel ⁇ M line coding block.
  • using the prediction error signal values x 2 , x N + 1 , x N + 3 , x 2N + 2 at pixel coordinates 2, N + 1, N + 3, 2N + 2, pixel coordinates N + 2 An example of calculating the encoding target value y N + 2 in is shown.
  • the pixels at the four gray corners are pixels for which the prediction process is not performed.
  • the residual signal of the motion compensation prediction (which is the primary prediction) is entropy encoded.
  • White pixels are pixels for which prediction processing is performed.
  • the residual signal value X ⁇ x n
  • the encoding target value Y ⁇ y n
  • n 1, 2,..., NM ⁇ is calculated, and entropy encoding is performed on Y.
  • ⁇ v , ⁇ h , ⁇ ld and ⁇ rd are prediction coefficients for vertical, horizontal, left diagonal and right diagonal, respectively, and the value ranges within [0, 1] (0 to 1) Each predetermined value is used.
  • y ij is a prediction error. Note that the notation of the coordinate position in Equation 4 is as shown in FIG. 5 (unlike FIG. 4).
  • the non-causal prediction can be defined in advance as a predetermined linear sum using all or part of the eight pixels around the target pixel. Furthermore, a non-causal prediction may be similarly defined using a predetermined range wider than that shown in FIG.
  • the encoding process and the decoding process for the above prediction process are shown in Expression 5 and Expression 6. That is, the NCSOP unit 106 on the encoder side performs the process of Equation 5, and the NCSOP unit 206 on the decoder side performs the process of Equation 6.
  • Equation 5 shows predictive coding for a coding block represented by an N ⁇ M matrix L. That is, Equation 5 shows the processing of each pixel described in the above (1) to (3) and (4) as the calculation of the entire block.
  • C is an NM ⁇ NM encoding matrix
  • vec (X) is a vector of all pixels in the NM dimension
  • vec (E) is a vector after encoding in the NM dimension.
  • Equation 6 represents the decoding process.
  • C ⁇ 1 represents the inverse matrix of C described above.
  • the present invention proposes a non-causal interpolation intra prediction method for a plurality of block sizes in the SOP for removing the spatial correlation for the interframe residual signal.
  • non-causal prediction is known to be able to perform superior prediction because there are more pixels to be referred to for prediction and adjacent pixels in all directions are used.
  • the non-causal interpolation intra prediction method of the present invention differs from that of Non-Patent Document 3 in that only information on the matrix C and its inverse matrix is used on the encoder side and the decoder side as information fixed in advance.
  • it is only necessary to perform the operation in units of blocks to be encoded / decoded. Therefore, iterative calculation or the like is unnecessary, and encoding and decoding can be performed with a low calculation load.
  • the decoder can operate as follows.
  • the selection unit 206 enables intra prediction for the inter prediction residual signal, and selects one prediction method from a plurality of intra prediction methods according to the prediction information described in the bitstream. That is, use of either the SOP unit 104 or the NCSOP unit 105 is selected.
  • the NCSOP unit 205 performs prediction value generation based on a non-causal interpolation intra prediction method unique to the present invention. That is, in the same section, with respect to the residual signal output from the decoding section 213 and obtained by being processed by the inverse quantization / inverse transform section 208 (in FIG. 2, the flow is indicated by a one-dot chain line). Then, the decoding process of non-causal interpolation prediction is performed by multiplying the inverse matrix of the encoding matrix C of Equation 6. By adding a motion compensation prediction value to the addition unit 210 in the result, a decoded value of the processing block can be obtained.
  • the present invention can also be provided as a program that causes a computer to function as the moving picture encoding apparatus 100 or the moving picture decoding apparatus 200.
  • the computer can employ a known hardware configuration such as a CPU (Central Processing Unit), memory, and various I / Fs, and the CPU executes instructions corresponding to the functions of the respective units shown in FIG. 1 or FIG. Will be.
  • CPU Central Processing Unit
  • the present invention can also be provided as a moving image encoding / decoding system including the moving image encoding device 100 and the moving image decoding device 200.
  • the bit stream encoded by the encoding unit 113 by the moving image encoding device 100 is received by the decoding unit 213 of the moving image decoding device 200 and decoded.
  • the operations of the video encoding device 100 and the video decoding device 200 in the system are the same as described above.
  • the present invention can also be provided as an operation method (moving image encoding / decoding method) of a moving image encoding / decoding system including the moving image encoding device 100 and the moving image decoding device 200 described above.
  • the moving image encoding / decoding method can be provided as a program for causing a computer to execute the method.
  • the hardware configuration of the computer is the same as that described in (Supplementary Item 1).
  • DESCRIPTION OF SYMBOLS 100 Video encoding apparatus, 200 ... Video decoding apparatus, 101, 201 ... Intra prediction part, 102, 202 ... Inter prediction part, 103, 203 ... Motion compensation part, 104, 204 ... Secondary intra prediction part, 105, 205 ... Secondary non-causal prediction part , 106,206 ... selection unit, 107 ... transformation / quantization unit, 108,208 ... inverse quantization / inverse transformation unit, 110,210 ... adder, 111,211 ... filter unit, 112,212 ... first memory, 214 ... second memory, 113 ... encoding 213 ... decoding unit 120,130 ... differentiator 109,219,229 ... switch

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Discrete Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

 高い符号化効率を達成することが可能な、インター予測残差信号に対してイントラ予測を許容する動画像符号化装置を提供する。 二次イントラ予測部104は、インター予測残差信号に対して、ブロックごとに所定の予測方向で予測を行う。二次非因果的予測部105は、インター予測残差信号に対して、ブロックごとに属している各信号をその周囲の信号に基づいて予測する。選択部106は、ブロックごとに、二次イントラ予測部104又は二次非因果的予測部105のいずれによって予測を行うかを決定する

Description

動画像符号化装置及び動画像復号装置並びに動画像符号化・復号方法及びプログラム
 本発明は、動画像符号化装置及び動画像復号装置並びに動画像符号化・復号方法及びプログラムに関し、特に、インター予測残差信号に対してイントラ予測を許容する動画像符号化装置及び動画像復号装置並びに動画像符号化・復号方法及びプログラムに関する。
 非特許文献1には、映像圧縮符号化の標準規格が開示されている。同規格では、フレーム間予測(以下、インター予測)を行う際に、動き補償残差信号に対して直交変換および符号化を行う。
 これに対して、非特許文献2では、予測性能の向上による符号化性能改善を目的として、動き補償残差信号に対してフレーム内予測(以下、イントラ予測)を行う方式が開示されている。当該方式は、インター予測にさらにイントラ予測を適用することで二重に予測を行っていることから、同文献では当該予測を二次予測(Second order prediction)と呼んでいる。
"Draft ITU-T recommendation and final draft international standard of joint video specification (ITU-T Rec. H.264/ISO/IEC 14 496-10 AVC),"in Joint Video Team (JVT) of ISO/IEC MPEG and ITU-T VCEG, JVTG050, 2003. S. Li, S. Chen, J. Wang, and L. Yu, "Second order prediction on H.264/AVC," in PCS: 2009 Picture Coding Symposium, 2009, pp. 85-88, Picture Coding Symposium 2009, Chicago, IL, May 06-08, 2009. A. Asif and J. M. F. Moura, "Image Codec with Non-causal Prediction, Residual Mean Removal, and Cascaded VQ," IEEE Trans. on Video Tech., vol. 6, no. 1, Feb. 1996.
 しかしながら、以上のような従来技術は、符号化効率をさらに向上させる余地が残っているという点で課題があった。
 標準規格を開示している非特許文献1に示されているインター予測では、映像における時間相関性を低減できるものの、空間方向の予測は行われないために空間方向で画素値の冗長性が残っている。
 非特許文献2の方式では、インター予測残差信号に対して空間予測を行うため、空間方向の冗長性を低減することができる。しかしながら、同方式では、非特許文献1などに採用されている標準規格のイントラ予測を行うため、イントラ予測の参照画素をインター予測ブロックの外側に生成する必要がある。
 また、インター予測残差信号は、空間方向の冗長性が残るものの、一般的な映像信号よりは隣接画素間の画素値の相関性が低い。一般に、隣接画素間の画素値の相関性をρ(ρは1以下)とすると、N画素離れた画素間の相関性はρのN乗に比例する。したがって、インター予測残差信号に対して、非特許文献1のような参照画素値を予測方向に沿って予測値として適用する予測を行うという非特許文献2の方式では、参照画素から離れるほど予測性能の低下が顕著になるため、イントラ予測を適用することによる符号化性能向上への効果は限定的である。
 すなわち、非特許文献2では、インター予測にさらにイントラ予測を適用するという二次予測の枠組みで、非特許文献1等の枠組みよりも符号化効率の向上を図っているものの、さらなる向上の余地が残っている。特に、非特許文献2の大きな課題として、インター予測残差信号の特徴を考慮せずに、参照画素値を予測方向に沿って予測値として設定するイントラ予測方式(非特許文献1の方式)を用いている点が挙げられる。
 ここで、非特許文献1のイントラ予測は、符号化済みの画素(過去の画素)から符号化対象の画素(未来の画素)を予測するという点で、因果的予測という枠組みに該当する。一方、因果的予測に対して、非特許文献3に開示されているような非因果的予測という枠組みが存在する。
 図3は、因果的予測と非因果的予測とをそれぞれ概念的に示す図である。[1]に示す因果的予測においては、一般に予測対象の位置(i, j)の画素xi,jは、例えばその左あるいは上の画素xi-1,j-1, xi,j-1, xi-1,j等から予測されることとなる。このように予測方向が制限されているため、前述のように画素位置が互いに離れるほど相関が低くなることにより、符号化効率を低下させてしまう。一方、[2]に示す非因果的予測においては、予測方向は制限されておらず、一般に予測対象の位置(i, j)の画素xi,jはその周囲の全ての画素、例えば画素xi,j-1, xi-1,j, xi+1,j, xi,j+1等から予測されることとなる。このように、因果的予測と比べ、非因果的予測の方が予測のために参照する画素が多い且つ全方向の隣接画素を使うことが可能なため、画素位置が離れた際の相関低下の影響が少なくなり、優れた予測ができることが期待できる。
 しかしながら、非特許文献3に開示の非因果的予測は、非特許文献2におけるような、インター予測残差信号に対してイントラ予測を適用する二次予測の枠組みにおいて使うことが、そもそも想定されていない。特に、インター予測残差信号ではなく画素を対象としており、符号化効率の向上のために画像全体を一括処理する必要があり、多大な計算コストを要するという課題があった。具体的には以下の通りである。
 すなわち、非特許文献3において処理対象信号は画素値であるため、復号装置では右方向及び下方向の画素は未知である。また、非因果的方式の予測誤差信号の電力は小さいものの、復号時に用いられる予測関数が非直交のため、誤差が拡大する可能性がある。したがって、当該誤差拡大を抑制するために、因果的予測に基づく復号装置より計算負荷が重くなることが知られている。実際に復号を行う時には、符号化効率を保つために反復処理アルゴリズム(iterative processing algorithm)または再帰的アルゴリズム(recursive algorithm)を利用しなければならない。
 非特許文献3では、再帰的フレームワークという方式を利用している。符号化装置と復号装置はそれぞれ再帰的な操作を行い、高効率符号化が実現する。具体的には、符号化側で、以下のステップ1~4を行う。
 [ステップ1] 画像全体を処理対象として以下の四種類のパラメータを求め、画像の各行に対して最適なパラメータセットを反復で探す。
 (1)全画面の平均値、(2)ゼロ平均画像(zero mean image)、(3)画像全体の電力(sample power)、(4)画像の相関係数(sample correlations)。
 [ステップ2] ステップ1で得られたパラメータセットを使い、再帰的な行列を生成する。
 [ステップ3] 最後の行から再帰的な行列を使い予測誤差画像を生成し、予測誤差画像を量子化する。こうして、復号装置へ送られるものは、量子化された予測誤差画像のエントロピー符号化した後の値と、非因果的予測のパラメータ(ステップ1で求めたもの)となる。
 以上の符号化装置の処理に応じて復号装置は、以下のステップ1~3を行う。
 [ステップ1] 得られた信号をエントロピー復号し、逆量子化して誤差画像を生成する。
 [ステップ2] 得られたパラメータの情報によって符号化側のステップ2の出力と同じ再帰的な行列を計算する。
 [ステップ3] 再帰的な行列によって再構成行列を生成し、画像の最後行から一回で一行を再構成する。
 以上のように、非特許文献3における非因果的モデルの画面内予測は、符号化効率を保つために(パラメータを全画面に対して最適化するために)全画面を再帰的な処理のもとで一括処理しなければならないので、実装の時に、計算の複雑度が非常に高くなる。特に、超高解像度画像に対しては、リアルタイム処理の実現は不可能と考えられる。
 上記従来技術の課題に鑑み、本発明は、高い符号化効率を達成することが可能な、インター予測残差信号に対してイントラ予測を許容する動画像符号化装置を提供することを目的とする。
 また、本発明は、前記動画像符号化装置に対応する動画像復号装置を提供することを目的とする。
 さらに、本発明は、高い符号化効率を達成することが可能な、インター予測残差信号に対してイントラ予測を許容する動画像符号化・復号方法及びプログラムを提供することを目的とする。
 上記目的を達成するため、本発明は、インター予測残差信号に対してイントラ予測を許容する動画像符号化装置であって、インター予測残差信号に対して、ブロックごとに所定の予測方向で予測を行う二次イントラ予測部と、インター予測残差信号に対して、ブロックごとに属している各信号をその周囲の信号に基づいて予測する二次非因果的予測部と、
 ブロックごとに、前記二次イントラ予測部又は前記二次非因果的予測部のいずれによって予測を行うかを決定する選択部と、を備えることを特徴とする。
 また、本発明は、インター予測残差信号に対してイントラ予測を許容する動画像復号装置であって、インター予測残差信号に対して、ブロックごとに所定の予測方向で予測を行う二次イントラ予測部と、インター予測残差信号に対して、ブロックごとに属している各信号をその周囲の信号に基づいて予測する二次非因果的予測部と、ブロックごとに、前記二次イントラ予測部又は前記二次非因果的予測部のいずれによって予測を行うかを決定する選択部と、を備えることを特徴とする。
 また、本発明は、インター予測残差信号に対してイントラ予測を許容する動画像符号化・復号方法であって、符号化対象のインター予測残差信号に対して、ブロックごとに所定の予測方向で予測を行う符号化側二次イントラ予測段階と、符号化対象のインター予測残差信号に対して、ブロックごとに属している各信号をその周囲の信号に基づいて予測する符号化側二次非因果的予測段階と、符号化対象のブロックごとに、前記符号化側二次イントラ予測段階又は前記符号化側二次非因果的予測段階のいずれによって予測を行うかを選択する符号化側選択段階と、前記選択された予測を適用して符号化対象のブロックごとに符号化を行ってビットストリームとする符号化段階と、前記ビットストリームを復号する復号段階と、復号対象のインター予測残差信号に対して、ブロックごとに所定の予測方向で予測を行う復号側二次イントラ予測段階と、復号対象のインター予測残差信号に対して、ブロックごとに属している各信号をその周囲の信号に基づいて予測する復号側二次非因果的予測段階と、復号対象のブロックごとに、前記復号対象二次イントラ予測部段階又は前記復号対象二次非因果的予測段階のいずれによって予測を行うかを選択する復号側選択段階と、を備えることを特徴とする。
 また、本発明は、コンピュータに前記動画像符号化・復号方法を実行させるプログラムであることを特徴とする。
 本発明によれば、インター予測残差信号に対してイントラ予測を適用するに際して、二次イントラ予測部又は二次非因果的予測部のいずれかを選択することができるので、信号特性に応じた予測手段を適用することで、高い符号化効率を達成することができる。
一実施形態に係る動画像符号化装置の機能ブロック図である。 一実施形態に係る動画像復号装置の機能ブロック図である。 因果的予測と非因果的予測とをそれぞれ概念的に示す図である。 非因果的内挿予測の計算を説明するための図である。 一般的な非因果的予測の式を説明するための図である。
 図1は、一実施形態に係る動画像符号化装置の機能ブロック図である。動画像符号化装置100は、イントラ予測部101、インター予測部102、動き補償部103、二次イントラ予測部104(以下、SOP部104[Second Order Prediction]とする)、二次非因果的予測部105(以下、NCSOP部105[Non Causal Second Order Prediction]とする)、選択部106、変換・量子化部107、逆量子化・逆変換部108、スイッチ109、加算器110、フィルタ部111、第一メモリ112、符号化部113及び差分器120及び差分器130を備える。
 動画像符号化装置100は、当該構成を備えることにより、符号化対象の動画像をフレームごとに読み込み、当該フレームをブロックに分割してブロックごとに、構成されている画素に種々の予測を適用し、その残差を変換・量子化して符号化し、ビットストリームとする。
 図2は、図1の動画像符号化装置100により符号化されたビットストリームを復号する、一実施形態に係る動画像復号装置200の機能ブロック図である。動画像復号装置200は、イントラ予測部201、動き補償部203、二次イントラ予測部204(以下、SOP部204[Second Order Prediction]とする)、二次非因果的予測部205(以下、NCSOP部205[Non Causal Second Order Prediction]とする)、選択部206、逆量子化・逆変換部208、スイッチ219、加算器210、フィルタ部211、第一メモリ212、復号部213、第二メモリ214及びスイッチ229を備える。
 ここで、動画像符号化装置100及び動画像復号装置200の各部の詳細を説明するに先立ってまず、その全体的な特徴を説明する。
 動画像符号化装置100及び動画像復号装置200の各部で、互いに共通の機能部名称を付し、下2桁の参照番号が共通する機能部同士、例えば、イントラ予測部101及びイントラ予測部201は、その処理内容は共通である。
 動画像符号化装置100の特徴的構成は、機能ブロック群B100として示すSOP部104、NCSOP部105及び選択部106(及び差分器130)である。これらの特徴的構成を仮に全て省略したとすると、動画像符号化装置100は、非特許文献1に開示されている標準規格と同様の構成となる。また、これらの特徴的構成のうち、NCSOP部105のみを仮に省略したとすると、動画像符号化装置100は、非特許文献2に開示されているのと同様の構成となる。
 当該特徴的構成により、動画像符号化装置100は、インター予測残差信号に対する二次予測として、非特許文献3に提案されている非因果的内挿予測に基づく画面内予測を本願発明特有の手法によって用いることを許容し、インター予測残差信号の特徴に応じて、二次予測に用いるイントラ符号化方式を適応的に選択する。こうして、インター予測残差における空間方向の冗長性の低減を可能とする二次予測方式(非特許文献2の方式)のさらなる予測性能向上を達成する。
 すなわち、非特許文献2の方式では、SOP部104のみしか利用しないために、インター予測残差信号の特性によっては符号化効率が不十分となる場合があったのに対して、本願発明においては、当該信号特性に適したNCSOP部105を選択的に利用することにより、符号化効率を向上させる。
 同様に、動画像復号装置200の特徴的構成は、機能ブロック群B200として示すSOP部204、NCSOP部205及び選択部206である。これらの特徴的構成を仮に全て省略したとすると、動画像復号装置200は、非特許文献1に開示されている標準規格と同様の構成となる。また、これらの特徴的構成のうち、NCSOP部205のみを仮に省略したとすると、動画像復号装置200は、非特許文献2に開示されているのと同様の構成となる。
 当該特徴的構成により、動画像復号装置200は、インター予測残差における空間方向の冗長性の低減を可能とする二次予測方式(非特許文献2の方式)のさらなる予測性能向上を達成する動画像符号化装置100に対応した復号処理が可能となる。
 以下、図1及び図2の各部の詳細を説明する。なお、前述のように、動画像符号化装置100及び動画像復号装置200の各部の多くは、処理内容自体は共通であり、データの流れが異なっている。従って、共通処理内容の機能部については、動画像符号化装置100及び動画像復号装置200で並行して説明を行い、異なるデータの流れについては別途に説明することとする。また、当該並行して説明を行う便宜上、動画像符号化装置100をエンコーダ、動画像復号装置200をデコーダと略称する。
 イントラ予測部101,201では、非特許文献1におけるフレーム内予測処理を行う。イントラ予測符号化(画面内予測符号化とも言う)の場合、正方形のブロック単位で行う。N×Nブロックの場合、左ブロックの中の右端N画素、上ブロック中の下端N画素、右上ブロック中の下端4画素と左上ブロック中の右下1画素の中のいくつか画素からブロック内のN×N画素の値を予測し符号化する。用いる近傍の符号化済み画素の位置と使い方によっていくつかの予測モードがある。最も高い符号化性能が期待される予測方向による予測値が出力される。
 エンコーダ、デコーダ共通の流れとして、イントラ予測部101,201は、予測基準の符号化済み画素(復号済み画素)を保持している第一メモリ112,212を参照して、予測値を出力する。エンコーダでは予測値は差分器120に、デコーダでは予測値はスイッチ219,229を経て加算器210に出力される。エンコーダではさらに、予測モード(イントラ予測情報)が符号化部113に出力される。
 インター予測部102では、フレーム間予測に用いる動きベクトルを決定する。同部では、処理ブロックに関して参照フレームにおいて予測に適したブロックを評価し、予測に最適な位置と処理ブロックの空間的な変位をベクトルで表現し、動きベクトルとする。ここで、参照フレームは、第一メモリ112が保持している。同部の出力として、動きベクトルを出力して、動き補償部103及び符号化部113に渡す。
 動き補償103,203部では、上記のように推定された動きベクトルを用いて、第一メモリ112,212が保持している参照フレームの該当箇所より予測値を生成する。同部の出力として、生成された予測値を出力し、エンコーダでは差分器120に、デコーダではスイッチ219,229を経て加算器210へと出力する。
 デコーダ側にて、スイッチ219は、イントラ予測部201あるいは動き補償部203のいずれかより予測信号が送られると、当該予測信号をスイッチ229に送る。スイッチ229は、スイッチ219あるいは機能ブロック群B200のいずれかより予測信号が送られると、当該予測信号を加算器210に送る。
 SOP部104は、非特許文献2で提案されている二次予測(インター予測残差へのイントラ予測の適用)を行う。すなわち、インター予測残差(動き補償による残差信号)に対して、フレーム内予測を行う。具体的には、動き補償の残差信号に関して、処理ブロックの上、左、左上、右上の復号画素値と、動き補償の参照先ブロックの上、左、左上、右上の復号画素値の差分を予測値とし、フレーム内予測を行う。
 ここで、予測対象のインター予測残差信号は、符号化対象ブロックを読み込んでインター予測部102及び動き補償部103で処理して得られるインター予測信号と、当該符号化対象ブロック自身の信号と、の差分を差分器120において生成することにより、得られる。
 また、参照するインター予測残差信号は、上記の差分器120の出力をSOP部104に出力するのと並行して、変換・量子化部107にも出力しておき、変換・量子化部107及び逆量子化・逆変換部108を経た後、スイッチ109によって線L100の方に流れが切り替えられることで第一メモリ112に保持させておく。これにより、当該時点における符号化対象ブロックのフレームが以降の時点でインター予測の基準フレームとなった際に、参照用のインター予測残差信号を提供することが可能となる。
 SOP部104の出力として、動き補償による予測値とフレーム内予測値を加算した値を予測値として出力し、差分器130において当該予測値と、符号化対象との信号の差分を求めたうえで、変換・量子化部107に渡す。なお、動き補償による予測値は、当該符号化対象ブロックについて上記の差分器120へ入力する前に動き補償部103部で得ている結果を受け取ればよい。(当該受け取る際のデータ授受の流れは図1では不図示である。)
 一方、対応するデコーダ側のSOP部204は、非特許文献2で示されているSOPに基づく復号側での予測値生成を行う。同部では、処理ブロックの上、左、左上、右上の復号済み画素と、動きベクトルによって指し示される参照先の上、左、左上、右上の復号済み画素の差分を、イントラ予測の参照画素として、制御情報のイントラ予測方向に従って予測値を生成する。次に、前述の予測値と、動き補償による予測値を加算した値を、SOPの予測値とする。同部の出力として、SOPの予測値を出力し、スイッチ229を経て加算器210に渡す。
 デコーダ側のSOP部204が当該処理を行うには、参照画素としてのインター予測残差信号が必要となるが、これはエンコーダ側と同様の処理によって、動き補償部203が第一メモリ212に保存しておく。このため、デコーダ側では動き補償部203が予測信号を求めると共に、第一メモリ212を参照して、当該求めた予測信号と参照信号との差分としてインター予測残差信号を求め、線L200として示すように再度、第一メモリ212に保存しておくものとする。
 エンコーダ側のSOP104で得られた予測値から差分器130によって求まった差分値は、変換・量子化部107及び符号化部113によって符号化された後、デコーダ側に渡り、復号部213及び逆量子化部208で差分値に戻り、加算器210にて上記のデコーダ側のSOP部204が求めた予測値と加算されることで、復号画素値となる。
 変換・量子化部107では、予測誤差信号を入力とし、同信号に対して直交変換と量子化を行う。同部の出力として、量子化された変換係数を出力し、逆量子化・逆変換部108及び符号化部113に渡す。当該入力される予測誤差信号に適用されうる予測は、イントラ予測部101、動き補償部103、SOP部104又はNCSOP部105のいずれかによるものとなる。
 逆量子化・逆変換部108,208では、量子化された変換係数を入力とする。同部では、同部への入力信号に対して逆量子化および逆変換を行い、残差信号を得る。同部の出力として、得られた残差信号を出力し、エンコーダ側ではスイッチ109に、デコーダ側では加算器210に渡す。なお、図2に一点鎖線L250で示すようにデコーダ側では、NCSOP部205を適用する残差の場合のみ、残差信号は選択部206を経てNCSOP部205に渡される。
 スイッチ109は、SOP部104で説明したように、SOP部104で予測の基準として用いるためのインター予測残差信号を線L100で示すように第一メモリ112へと渡し、これ以外の種類の残差信号については、加算器110に渡すというスイッチング処理を行う。
 加算器110,210は、スイッチ109あるいは逆量子化・逆変換部208から送られる残差と、各予測部から送られる予測信号とを加算して再構成された画素信号(復号画像の信号)を得て、フィルタ部111,211に渡す。
 フィルタ部111,211は、第一メモリ112,212に復号画像を格納するに先立ち、画像の符号化時に生じるブロック歪を減少させるためのフィルタである。同部の出力として、フィルタ処理後の復号画像を出力する。
 符号化部113は、量子化された係数、符号化モード、動きベクトルの情報などに対してエントロピー符号化を行う。同部の出力として、符号化されたビットストリームを出力する。
 復号部213は、上記の符号化部113により得られたビットストリームに対してエントロピーデコードし、符号化モードなどの制御情報と残差信号を取得する。同部の出力として、取得した制御情報と残差信号を出力する。残差信号は逆量子化・逆変換部208に渡し、制御情報は第二メモリ214に渡す。
 第一メモリ112, 212は、復号画像を蓄積するためのメモリであり、イントラ予測部101,201、動き補償部103,203、SOP部104,204に対して必要に応じて復号画素値を供給する。
 第二メモリ214は、制御情報(予測モードの情報等)を蓄積するためのメモリであり、各種の予測等をイントラ予測部201、動き補償部203及びSOP部204等で実施するに際して、必要に応じて制御情報を供給する。
 以下、本発明における特徴的構成であり、選択部106,206により選択的に適用される、NCSOP部105,205について説明する。
 まず、選択部106では、動き補償残差信号に対して画面内予測符号化を行い、画面内予測方法に関して複数の候補から適切な予測方法の選択を可能とする。特に、符号化処理単位において、SOP部104もしくはNCSOP部105のどちらを採用すべきであるかを決定する。
 当該決定した情報は、(図1にその流れは不図示であるが)制御情報として符号化部113に送られて符号化されビットストリームに付与される。当該情報は復号され、デコーダ側の選択部206が受信することで、SOP部204あるいはNCSOP部205のいずれを採用するかをデコーダ側においても同様に決定する。
 スライス全体で、どちらか一方の予測が効果的と見込まれる場合は、スライスヘッダに識別情報を付与して、スライス内は識別情報に示される一方の予測のみを使うこととする。また、この評価の結果、当該スライス内ではどちらも用いないことを識別情報で示すことができることとする。更に、どちらか一方を用いる、もしくはどちらも用いないことの識別は、スライスヘッダよりも上位の符号化シンタックスで識別することも可能である。
 スライス全体でどちらか一方を決めない場合は、動き補償の残差信号に対して画面内予測を行うブロックにおいて、どちらの予測を用いるかを示す識別情報をブロック毎に付与する。
 スライス単位でどちらか一方を決める方法として、スライス内の画素値の分散値を用いる方法が可能である。ブロック単位でどちらか一方を決める方法として、処理ブロックの画素値の分散値、動き補償残差信号の分散値および画素間相関、それぞれの予測に基づく符号化性能が可能である。
 当該各単位において決定する基準として、処理ブロックの画素値の分散値、動き補償残差信号の分散値および画素間相関、それぞれの予測に基づく符号化性能(符号化誤差と発生符号量とに基づいて評価する符号化性能)などといったような、種々の符号化性能見込みの評価指標を利用することができる。分散値や画素間相関の大小は、例えば閾値に基づいて判定すればよい。符号化性能については、実際に評価したうえで、高い性能の方に決定すればよい。
 なお、SOP部104で用いられる予測方向に基づくイントラ予測の性質を考慮すると、複雑なテクスチャでは著しい予測性能の低下が懸念される。したがって、分散値が高い領域や、画素間相関が低い領域では、NCSOP部105が適している。
 NCSOP部105では、動き補償の残差信号に対して、画面内予測として非特許文献3に提案された非因果的内挿予測を、本願発明に特化した手法で用いて予測値を生成する。同部での予測値生成方法の詳細は後述する。
 NCSOP部105における非因果的内挿予測では、同予測対象のフレーム間予測残差信号に対して、内挿予測関数による行列演算を行う。符号化の手順を図4のN画素×Mライン行列として構成された画像を例に説明する。
 図4にN画素×Mラインの符号化ブロックにおける非因果的内挿予測の処理の例を示す。同図では、画素座標2, N+1, N+3, 2N+2における予測誤差信号値x2, xN+1, xN+3, x2N+2を用いて、画素座標N+2における符号化対象値yN+2を算出する例が示されている。
 また、図4では、灰色の四隅の画素は予測処理を行わない画素である。当該画素では、(第1次予測である)動き補償予測の残差信号を、エントロピー符号化する。白の画素は予測処理を行う画素である。第2次予測の非因果的内挿予測では、ブロック内の各画素における動き補償予測の残差信号値X={xn | n=1,2,…NM}を用いて、残差信号に対する符号化対象値Y={yn | n=1,2,…,NM}を算出し、Yに対してエントロピー符号化を行う。
 例えば、画素N+2, 2N, (M-1)(N+3)について、残差信号値xN+2, x2N, x(M-1)N+3を用いて、符号化対象値yN+2, y2N, y(M-1)N+3を算出する処理は、
Figure JPOXMLDOC01-appb-M000001
となる。このように全ての画素を予測すると、一般的な非因果的予測は式4で表すことができる。
Figure JPOXMLDOC01-appb-M000002
 ただし、βv, βh, βldとβrdがそれぞれ垂直、水平、左対角と右対角の予測係数で、値はその値の範囲が[0,1]内(0以上1以下)となるような所定値をそれぞれ用いる。またyijが予測誤差となる。なお、式4の座標位置の表記は、(図4とは異なり、)図5に示す通りである。
 このように、対象画素の周囲8画素の全部又は一部を用いた所定の線形和として、非因果的予測を予め定義しておくことができる。さらに、図5に示すよりも広い所定の範囲を用いて、同様に非因果的予測を定義してもよい。
 非因果的内挿予測に関して、上記の予測処理に対する符号化処理および復号処理を式5および式6に示す。すなわち、エンコーダ側のNCSOP部106は当該式5の処理を行い、デコーダ側のNCSOP部206は当該式6の処理を行うこととなる。
 式5は、N×Mの行列Lで表される符号化ブロックに対する予測符号化を示している。すなわち、以上の(1)~(3)や(4)で説明した各画素の処理を、ブロック全体の演算として示したものが式5である。
Figure JPOXMLDOC01-appb-M000003
 ただし、CがNM×NMの符号化行列で、vec(X)はNM次元でのすべての画素のベクトルで、vec(E)はNM次元での符号化後のベクトルである。
 また、式6は復号処理を表している。C-1は、前述のCの逆行列を示している。
Figure JPOXMLDOC01-appb-M000004
 以上の説明から明らかなように、本発明では、フレーム間残差信号に対して空間相関性を除去するためのSOPにおいて複数のブロックサイズに対する非因果的内挿イントラ予測方式を提案する。因果的予測と比べ、非因果的予測のほうが予測のために参照する画素が多い且つ全方向の隣接画素を使うため、優れた予測ができることが知られている。
 特に、本発明の非因果的内挿イントラ予測方式は、非特許文献3のものとは異なり、予め固定された情報として、行列C及びその逆行列の情報のみを、エンコーダ側及びデコーダ側で利用して、符号化対象・復号対象のブロック単位で演算を行うだけでよい。従って、反復計算等は不要であり、低い計算負荷で符号化及び復号が可能である。
 以上に基づき、デコーダ側では以下のように動作することが可能となる。
 選択部206では、インター予測残差信号に対して画面内予測を可能とし、ビットストリームに記載の予測情報に従って、複数存在する画面内予測方法から1つの予測方法を選択する。すなわち、SOP部104又はNCSOP部105のいずれかの利用を選択する。
 NCSOP部205では、以上説明したように本発明に特有の非因果的内挿イントラ予測方式に基づく予測値生成を行う。すなわち、同部では、復号部213から出力され、逆量子化・逆変換部208で処理されて得られる残差信号(図2中、1点鎖線でその流れを表記してある)に対して、式6の符号化行列Cの逆行列をかけることで非因果的内挿予測の復号処理を行う。同結果に対して、加算部210において動き補償の予測値を加えることで、処理ブロックの復号値を得ることができる。
 (補足事項1)本発明は、コンピュータを動画像符号化装置100又は動画像復号装置200として機能させるプログラムとしても提供可能である。当該コンピュータには、CPU(中央演算装置)、メモリ及び各種I/Fといった周知のハードウェア構成のものを採用することができ、CPUが図1又は図2の各部の機能に対応する命令を実行することとなる。
 (補足事項2)本発明は、動画像符号化装置100及び動画像復号装置200を備える動画像符号化・復号システムとしても提供可能である。この場合、当該システムにおいては、動画像符号化装置100が符号化部113において符号化したビットストリームを、動画像復号装置200の復号部213で受信して復号化することとなる。当該システム内における動画像符号化装置100及び動画像復号装置200のそれぞれの動作は、以上説明したのと同様である。
 (補足事項3)本発明は、上記の動画像符号化装置100及び動画像復号装置200を備える動画像符号化・復号システムの動作方法(動画像符号化・復号方法)としても提供可能であり、当該動画像符号化・復号方法をコンピュータに実行させるプログラムとしても提供可能である。当該コンピュータのハードウェア構成等については(補足事項1)で説明したのと同様である。
 100…動画像符号化装置、200…動画像復号装置、101,201…イントラ予測部、102,202…インター予測部、103,203…動き補償部、104,204…二次イントラ予測部、105,205…二次非因果的予測部、106,206…選択部、107…変換・量子化部、108,208…逆量子化・逆変換部、110,210…加算器、111,211…フィルタ部、112,212…第一メモリ、214…第二メモリ、113…符号化部、213…復号部、120,130…差分器、109,219,229…スイッチ

Claims (12)

  1.  インター予測残差信号に対してイントラ予測を許容する動画像符号化装置であって、
     インター予測残差信号に対して、ブロックごとに所定の予測方向で予測を行う二次イントラ予測部と、
     インター予測残差信号に対して、ブロックごとに属している各信号をその周囲の信号に基づいて予測する二次非因果的予測部と、
     ブロックごとに、前記二次イントラ予測部又は前記二次非因果的予測部のいずれによって予測を行うかを選択する選択部と、を備えることを特徴とする動画像符号化装置。
  2.  前記二次非因果的予測部は、ブロックごとに属している各信号をその周囲の信号の線形和に基づいて予測することを特徴とする請求項1に記載の動画像符号化装置。
  3.  前記選択部は、前記二次イントラ予測部又は前記二次非因果的予測部のそれぞれの符号化性能見込みを評価し、当該評価結果に基づいて前記選択することを特徴とする請求項1または2に記載の動画像符号化装置。
  4.  前記選択部は、前記符号化性能見込みを評価するに際して、符号化誤差と発生符号量に基づく符号化性能評価、処理単位における画素値の分散値、又は、処理単位における画素間相関を用いることを特徴とする請求項3に記載の動画像符号化装置。
  5.  前記二次イントラ予測部又は前記二次非因果的予測部のいずれが前記選択部により選択されたかを、処理単位ごとに識別情報として符号化することを特徴とすることを特徴とする請求項1ないし4のいずれかに記載の動画像符号化装置。
  6.  前記処理単位が、ブロック、スライス又は上位の符号化制御シンタックスの何れか1つ以上の組み合わせで与えられることを特徴とする請求項5に記載の動画像符号化装置。
  7.  インター予測残差信号に対してイントラ予測を許容する動画像復号装置であって、
     インター予測残差信号に対して、ブロックごとに所定の予測方向で予測を行う二次イントラ予測部と、
     インター予測残差信号に対して、ブロックごとに属している各信号をその周囲の信号に基づいて予測する二次非因果的予測部と、
     ブロックごとに、前記二次イントラ予測部又は前記二次非因果的予測部のいずれによって予測を行うかを選択する選択部と、を備えることを特徴とする動画像復号装置。
  8.  前記二次非因果的予測部は、ブロックごとに属している各信号をその周囲の信号の線形和に基づいて予測することを特徴とする請求項7に記載の動画像復号装置。
  9.  前記二次イントラ予測部又は前記二次非因果的予測部のいずれを前記選択部により選択すべきかが、処理単位ごとに識別情報として符号化されており、
     当該識別情報に従って、前記選択部は前記二次イントラ予測部又は前記二次非因果的予測部のいずれかを選択することを特徴とする請求項7または8に記載の動画像復号装置。
  10.  前記処理単位が、ブロック、スライス又は上位の符号化制御シンタックスの何れか1つ以上の組み合わせで与えられることを特徴とする請求項9に記載の動画像復号装置。
  11.  インター予測残差信号に対してイントラ予測を許容する動画像符号化・復号方法であって、
     符号化対象のインター予測残差信号に対して、ブロックごとに所定の予測方向で予測を行う符号化側二次イントラ予測段階と、
     符号化対象のインター予測残差信号に対して、ブロックごとに属している各信号をその周囲の信号に基づいて予測する符号化側二次非因果的予測段階と、
     符号化対象のブロックごとに、前記符号化側二次イントラ予測段階又は前記符号化側二次非因果的予測段階のいずれによって予測を行うかを選択する符号化側選択段階と、
     前記選択された予測を適用して符号化対象のブロックごとに符号化を行ってビットストリームとする符号化段階と、
     前記ビットストリームを復号する復号段階と、
     復号対象のインター予測残差信号に対して、ブロックごとに所定の予測方向で予測を行う復号側二次イントラ予測段階と、
     復号対象のインター予測残差信号に対して、ブロックごとに属している各信号をその周囲の信号に基づいて予測する復号側二次非因果的予測段階と、
     復号対象のブロックごとに、前記復号対象二次イントラ予測部段階又は前記復号対象二次非因果的予測段階のいずれによって予測を行うかを選択する復号側選択段階と、を備えることを特徴とする動画像符号化・復号方法。
  12.  コンピュータに請求項11に記載の動画像符号化・復号方法を実行させることを特徴とするプログラム。
PCT/JP2015/068505 2014-07-28 2015-06-26 動画像符号化装置及び動画像復号装置並びに動画像符号化・復号方法及びプログラム WO2016017338A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014-153302 2014-07-28
JP2014153302A JP2016032182A (ja) 2014-07-28 2014-07-28 動画像符号化装置及び動画像復号装置並びに動画像符号化・復号方法及びプログラム

Publications (1)

Publication Number Publication Date
WO2016017338A1 true WO2016017338A1 (ja) 2016-02-04

Family

ID=55217243

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/068505 WO2016017338A1 (ja) 2014-07-28 2015-06-26 動画像符号化装置及び動画像復号装置並びに動画像符号化・復号方法及びプログラム

Country Status (2)

Country Link
JP (1) JP2016032182A (ja)
WO (1) WO2016017338A1 (ja)

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CUI WANG ET AL.: "The Research of MC ·Non- Orthogonal Transformation Hybrid Coding Method in Inter-Frame", IEICE TECHNICAL REPORT, vol. 112, no. 20, 20 April 2012 (2012-04-20), pages 35 - 40 *
SHANGWEN LI ET AL.: "Second Order Prediction on H.264/AVC", PICTURE CODING SYMPOSIUM, 6 May 2009 (2009-05-06), pages 1 - 4 *

Also Published As

Publication number Publication date
JP2016032182A (ja) 2016-03-07

Similar Documents

Publication Publication Date Title
US9053544B2 (en) Methods and apparatuses for encoding/decoding high resolution images
JP4898467B2 (ja) 可変ブロックサイズ動き予測のための符号化モードの決定方法及び装置
KR101684038B1 (ko) 동화상 복호 장치, 동화상 부호화 장치, 동화상 복호 방법, 및 동화상 부호화 방법
DK3282705T3 (en) PROCEDURE FOR DECODING AND APPARATUS FOR ENCODING A PICTURE THROUGH INTRAPHIC PREDICTION.
JP4908180B2 (ja) 動画像符号化装置
JP2017201793A (ja) ビデオ符号化での分割ブロック符号化方法、ビデオ復号化での分割ブロック復号化方法及びこれを実現する記録媒体
JP4317814B2 (ja) 動画像情報の符号化装置及び符号化方法
US9332275B2 (en) Methods, apparatuses, and programs for encoding and decoding picture
GB2501836A (en) Generating a set of motion vector predictors including one temporal motion vector predictor
JP2010135864A (ja) 画像符号化方法及び装置並びに画像復号化方法及び装置
JP5649523B2 (ja) 映像符号化方法,装置,映像復号方法,装置およびそれらのプログラム
JP5004180B2 (ja) 動画像符号化装置および復号装置
JP2007013298A (ja) 画像符号化装置
JP6528635B2 (ja) 動画像符号化装置、動画像符号化方法及び動画像符号化用コンピュータプログラム
WO2016017338A1 (ja) 動画像符号化装置及び動画像復号装置並びに動画像符号化・復号方法及びプログラム
JP2009027762A (ja) 動き補償画像符号化装置及び符号化方法
KR101841352B1 (ko) 참조 프레임 선택 방법 및 그 장치
KR20110067648A (ko) 영상 부호화/복호화 방법 및 이를 수행하는 장치
JP2006191287A (ja) 画像符号化装置、画像符号化方法および画像符号化プログラム
KR101802304B1 (ko) 하다마드 변환을 이용한 부호화 방법 및 이러한 방법을 사용하는 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15827100

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15827100

Country of ref document: EP

Kind code of ref document: A1