WO2023058254A1 - 映像符号化装置、方法およびプログラム - Google Patents

映像符号化装置、方法およびプログラム Download PDF

Info

Publication number
WO2023058254A1
WO2023058254A1 PCT/JP2021/045641 JP2021045641W WO2023058254A1 WO 2023058254 A1 WO2023058254 A1 WO 2023058254A1 JP 2021045641 W JP2021045641 W JP 2021045641W WO 2023058254 A1 WO2023058254 A1 WO 2023058254A1
Authority
WO
WIPO (PCT)
Prior art keywords
block
signal
candidates
transform
statistic
Prior art date
Application number
PCT/JP2021/045641
Other languages
English (en)
French (fr)
Inventor
健太 飯田
慶一 蝶野
健太 徳満
達治 森吉
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2023552683A priority Critical patent/JPWO2023058254A1/ja
Publication of WO2023058254A1 publication Critical patent/WO2023058254A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • H04N19/122Selection of transform size, e.g. 8x8 or 2x4x8 DCT; Selection of sub-band transforms of varying structure or type
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock

Definitions

  • the present invention relates to a video encoding device and a video encoding method for encoding moving images.
  • Non-Patent Document 1 discloses a video coding method called VVC (Versatile Video Coding).
  • each frame of video is divided into blocks called Coding Tree Units (CTUs), and each CTU is encoded in raster scan order.
  • CTUs Coding Tree Units
  • Each CTU is composed of a set of coding units (CU: Coding Unit). Encoding processing is performed for each CU.
  • a CU corresponds to a block obtained by dividing a CTU using a Quad-Tree (QT) structure or a Multi-Type Tree (MMT) structure, or the CTU itself.
  • QT Quad-Tree
  • MMT Multi-Type Tree
  • blocks are equally divided horizontally and vertically.
  • the short sides of the divided blocks are divided into two in the horizontal or vertical direction so that the ratio is 1:1.
  • the short sides of the divided blocks are divided into three in the horizontal direction or the vertical direction so that the ratio is 1:2:1.
  • a prediction image is generated for each prediction unit (PU: Prediction Unit) obtained by dividing the CU.
  • the size of a PU is usually the same as the size of a CU.
  • a prediction method there are intra prediction and inter prediction accompanied by a motion compensation method (hereinafter simply referred to as inter prediction).
  • a difference is calculated between the pre- and post-prediction images of each PU, and a prediction error image of each PU is generated. From each PU's prediction error image, a corresponding CU's prediction error image is defined.
  • Transform coefficients are obtained by applying transform processing to the prediction error image of each CU in units of transform units (TU: Transform Unit) obtained by dividing the CU.
  • TU Transform Unit
  • a transform method a frequency transform method based on discrete cosine transform (DCT) is mainly used. If both the width and height of the TU are 32 or less, it is also possible to use a frequency transform method selected from multiple frequency transform methods such as the Discrete Sine Transform (DCT). Also, in the conversion process, it is possible to select and use a conversion method other than the frequency conversion method called conversion skip.
  • DCT discrete cosine transform
  • the acquired transform coefficients are quantized using a value determined by a quantization parameter (QP) to generate quantized coefficients.
  • QP quantization parameter
  • the integerized quantized coefficients are arithmetically coded.
  • the energy of transform coefficients generated by frequency transform concentrates in the low frequency region. Therefore, the value of the transform coefficient in the low frequency region becomes large, and the value of the transform coefficient in the high frequency region becomes small.
  • the portion exceeding 32 that is, the transform coefficients of the high-frequency components are excluded regardless of the magnitude of the value. be. Therefore, the number of transform coefficients to be quantized and arithmetically coded is 32 ⁇ 32 or less.
  • the video encoding device selects the optimum combination from among a large number of combinations of the method of dividing the CTU to be encoded into CUs, the prediction method of each CU generated by the division, and the transform method.
  • the video encoding device performs predictive encoding using the selected combination. For example, when selecting the optimum combination, the video encoding device performs predictive encoding on a prediction error image generated based on a prediction method corresponding to a candidate for a predictive encoding method that can be used. Transform processing, quantization processing, inverse quantization processing, inverse frequency transform processing and arithmetic coding processing corresponding to the transform processing, etc. are executed by the transform method corresponding to the method.
  • the predictive coding method includes at least a prediction method and a transform method.
  • the transform method used in the video encoding device includes a method of excluding the coefficient from the encoding target regardless of the value of the transform coefficient. For example, as described above, when the frequency transform method is selected as the transform method and either the width or the height of the TU is greater than 32, the transform coefficient is 32 ⁇ 32 when the frequency transform method is used. The process of excluding transform coefficients such that the values of the transform coefficients are applied.
  • the excluded transform coefficients are the transform coefficients in the high frequency region as described above, and the values of the transform coefficients in the high frequency region are generally small. Therefore, even if the transform coefficients in the high-frequency region are excluded, the quality of the image decoded by the video decoding device is not significantly affected (degraded) in many cases.
  • a TU that satisfies the above conditions it is possible to reduce the amount of code generated when the region corresponding to the TU is encoded, compared to the case of encoding by dividing into a plurality of TUs. It is possible.
  • the present invention provides a video encoding apparatus and video encoding method that can improve subjective image quality while suppressing a large increase in the amount of code generated when selecting an optimum predictive encoding method. With the goal.
  • a video encoding apparatus includes a predictive encoding method selection unit that selects a predictive encoding method to be applied to a block to be processed from a plurality of predictive encoding method candidates. , a transform method for excluding a predetermined transform coefficient from processing targets in the transform of the prediction error signal, and excluding means for excluding the transform method from targets for selection from predictive coding method candidates.
  • a predictive encoding method to be applied to a block to be processed is selected from a plurality of predictive encoding method candidates. are excluded from processing targets, and when a predictive coding method is selected, the transform method is excluded from targets for selection from predictive coding method candidates.
  • a video encoding program causes a computer to select a predictive encoding method to be applied to a block to be processed from a plurality of predictive encoding method candidates. It includes a transform method for excluding predetermined transform coefficients from processing targets in the transform, and causes the computer to exclude the transform method from targets for selection from predictive coding method candidates when selecting a predictive coding method.
  • the subjective image quality of video frames decoded from the bitstream is improved while suppressing a large increase in the amount of data in the bitstream output from the video encoding device.
  • FIG. 1 is a block diagram showing an example of a computer having a CPU
  • FIG. 1 is a block diagram showing the main parts of a video encoding device
  • FIG. 11 is a block diagram showing the main part of another aspect of the video encoding device
  • FIG. 11 is a block diagram showing the main part of another video encoding device
  • FIG. 1 is a block diagram showing a configuration example of a video encoding device.
  • the video encoding device shown in FIG. an arithmetic encoder 113 , an encoding method determination unit 114 , and a code string generation unit 115 .
  • the prediction unit 110 includes an intra predictor 111 and an inter predictor 112 .
  • the video encoding device further includes a control unit 120 including a block analysis unit 121 and an encoding method control unit 122.
  • the block dividing unit 101 divides an input video frame into a plurality of CTUs. Further, block division section 101 defines a set of CUs for each CTU. A set of CUs is obtained by defining CTUs as CUs without dividing them. Alternatively, a set of CUs is obtained by defining as CUs individual blocks obtained by dividing a CTU using a quadtree structure or a multitype tree structure. Further, the block division unit 101 defines a CU as a PU as it is without dividing the CU, or defines a block obtained by dividing the CU as a PU. Similarly, block division section 101 defines a CU without dividing it as a TU, or defines a block into which a CU is divided as a TU.
  • the subtractor 102 subtracts the prediction signal from the input signal (input pixel value) for each block selected by the block division unit 101 to generate a prediction error signal.
  • the prediction error signal is also called prediction residual or prediction residual signal.
  • the transformation unit 103 frequency-transforms the prediction error signal of the block to be processed to obtain transformation coefficients.
  • Transform section 103 has multiple types of frequency transform functions including type II DCT (DCT-II), and a transform skip function that does not apply frequency transform to the prediction error signal.
  • the conversion unit 103 uses the conversion method selected by the encoding method control unit 122 to perform any of the above conversions.
  • the quantization unit 104 quantizes the transform coefficients into quantized coefficients (transformed quantized values).
  • the transform quantized values are used in arithmetic encoder 113 and inverse quantizer 105 .
  • the inverse quantization unit 105 restores the transform coefficients by inversely quantizing the transform quantized values.
  • the inverse transform unit 106 restores the prediction error signal by inverse frequency transforming the transform coefficients based on the transform method executed by the transform unit 103 .
  • the adder 107 adds the restored prediction error signal and the prediction signal to generate a reconstructed signal (reconstructed image).
  • the intra predictor 111, the loop filter 108, and the encoding method determination unit 114 receive the reconstructed signal as input.
  • a block memory for storing reference blocks in the current picture to be encoded is generally provided in the preceding stage of the prediction unit 110 or in the intra predictor 111, but is omitted in FIG.
  • the intra predictor 111 refers to the reference block, performs intra prediction on the encoding target block, and generates a prediction signal (in this case, an intra prediction signal).
  • a loop filter 108 includes, for example, a deblocking filter, a sample adaptive offset filter and an adaptive loop filter, and performs appropriate filtering.
  • the reconstructed signal filtered by loop filter 108 is input to inter predictor 112 .
  • a frame memory for storing reference pictures is generally provided in the preceding stage of the prediction unit 110 or in the inter predictor 112, but is omitted in FIG.
  • the inter predictor 112 refers to a reference picture different from the picture to be coded, performs inter prediction on the block to be coded, and generates a prediction signal (in this case, an inter prediction signal).
  • the arithmetic encoder 113 generates an encoded signal (code string: bitstream) by arithmetically encoding the transformed quantized values. Arithmetic encoder 113 binarizes the transformed quantized value and arithmetically encodes the binary signal to generate a binary arithmetic code.
  • the encoding method determination unit 114 calculates a cost when performing predictive encoding using each of a plurality of prediction methods and transform methods.
  • the encoding method determination unit 114 selects the optimum predictive encoding method for the block to be processed.
  • a rate-distortion cost (RD cost) J is calculated from the estimated bitstream length R and the distortion D between the original signal and the reconstructed signal by the following equation (1).
  • the code string generation unit 115 selects the binary arithmetic code with the optimum predictive coding method and outputs it as a bitstream.
  • the bitstream is transmitted to an image decoding device.
  • the bitstream may be output to and stored on a storage medium (not shown).
  • the block analysis unit 121 in the control unit 120 calculates a statistic representing the degree to which the processing target block has a predetermined characteristic from the input signal of the processing target block.
  • the predetermined feature may be the value of a pixel representing a specific color included in the block to be processed.
  • the block analysis unit 121 calculates statistics from such features, for example, it detects pixels expressing a specific color. Then, the block analysis unit 121 uses the ratio of the number of pixels representing a specific color to the number of pixels included in the block to be processed as a statistic. Note that there may be a plurality of features to be detected. Also, the block analysis unit 121 may calculate a statistic for each feature of interest. The block analysis unit 121 may calculate statistics of pixels corresponding to at least one feature.
  • the block analysis unit 121 calculates a plurality of statistics from the block to be processed, and selects one statistic from the plurality of statistics in order to calculate the statistics of the block to be processed to be transmitted to the encoding method control unit 122. may be calculated. Note that the method of calculating one statistic from a plurality of statistics can also be applied to a method of calculating a statistic for each sub-block, which will be described later.
  • the encoding method control unit 122 determines whether or not the condition given as a target to be constrained in advance is satisfied based on the statistics calculated by the block analysis unit 121, the size of the block to be processed, the prediction method, and the conversion method. If the conditions are not satisfied, the encoding method control unit 122 sets the transform method and the prediction method to be executed by the transform unit 103 and the prediction unit 110, respectively. If the condition is satisfied, the encoding method control unit 122 controls so that the conversion unit 103 and the prediction unit 110 do not perform processing, and sets the cost calculated by the encoding method determination unit 114 to the maximum value. do.
  • the inverse quantization unit 105 the inverse transform unit 106, and the adder 107 may be referred to as a local decoding unit.
  • the image quality after decoding deteriorates when the transform coefficients in the high-frequency region are excluded.
  • the amount of information contained in the original image is reduced by removing the transform coefficients in the high-frequency region during frequency transform. That is, information is lost.
  • the image quality after decoding deteriorates.
  • the TU includes two or more pattern areas with different characteristics and is an area with features that are likely to attract attention, significant deterioration occurs.
  • significant degradation occurs when those regions include regions with features that attract human attention.
  • the predictive coding method that satisfies the above conditions (the above conditions regarding the width and height of the TU) will be selected as the optimum predictive coding method.
  • the use of large-sized TUs can reduce the amount of code generated. Therefore, when a selection method that determines a predictive coding method based only on the code amount, that is, a selection method that emphasizes the code amount is used, the predictive coding method that satisfies the above conditions is the optimum prediction. It may be determined to be an encoding method.
  • a predictive coding method that satisfies the above conditions contributes to a reduction in the amount of generated code, so restricting the use of all areas within an image may increase the amount of generated code.
  • the constraints of the predictive coding method described above may cause degradation of image quality when the generated code amount is controlled to a predetermined value. For example, processing such as quantization using a larger value of QP is performed in order to suppress the code amount to the same degree as when there is no above constraint. Loss of information due to such processing can cause image quality degradation.
  • the block analysis unit 121 calculates the ratio of the number of pixels having a predetermined characteristic to the number of pixels included in the block to be processed, or the number of pixels included in the pixel block, that is, the area-of-interest occupation rate. , is calculated as a statistic. If the region-of-interest occupancy rate is within a predetermined value range and at least one of the width and height of the TU exceeds 32, the encoding method control unit 122 performs predictive encoding using such a TU. Avoid choosing a method. As a result, it is possible to suppress the degree of deterioration in areas where subjective image quality deterioration is conspicuous while suppressing the generated code amount.
  • the block analysis unit 121 calculates a region-of-interest occupation ratio A of an input signal I having P pixels as a statistic from each pixel Ip of the input signal. For example, the block analysis unit 121 calculates a statistic using the following equation (2) when a specific pixel value C is used as a predetermined feature of interest.
  • the attention area occupancy may be calculated using another formula.
  • the pixel values may be weighted according to the pixel position within the block to be processed.
  • the encoding method control unit 122 sets the region-of-interest occupancy A to a predetermined upper limit threshold (hereinafter referred to as th min ) and a lower limit threshold (hereinafter referred to as th max ). If the value is within the range, the predictive coding method for that TU is not selected. For example, if more emphasis is placed on subjective image quality, thmin is set to a smaller value and thmax is set to a larger value.
  • th min a predetermined upper limit threshold
  • th max lower limit threshold
  • the target area occupancy which is the ratio of the number of pixels having a specific pixel value to the number of pixels in the block to be processed, is used as the statistic. Not limited to statistics.
  • the block analysis unit 121 can use the pixel correlation between the block to be processed and the block in the same video frame as a statistic. Also, the block analysis unit 121 can use the sum of absolute differences of pixels at the same position as pixels in adjacent blocks in the video frame as a statistic. In other words, the block analysis unit 121 analyzes the calculation target signal of the processing target block (original signal or prediction signal of the processing target block, or a signal generated using the original signal or prediction signal) and the A statistic may be calculated using the signals to be calculated for blocks in blocks or other video frames (eg, adjacent video frames).
  • a statistic is calculated for each sub-block, and a value selected from the statistic of each sub-block or a value calculated from the statistic of each sub-block A value can also be used as a statistic.
  • the block analysis unit 121 determines whether each sub-block has a predetermined characteristic from the calculation target signal of each sub-block, and determines whether the sub-block determined to have the predetermined characteristic may be calculated as a statistic.
  • the block analysis unit 121 calculates a statistic from the original signal input to the video encoding device. However, the block analysis unit 121 may calculate statistics from prediction signals and prediction error signals. The block analysis unit 121 may calculate a statistic from a signal obtained by gamma-converting the original signal.
  • the video encoding device includes a storage unit (not shown) that stores a candidate table in which data capable of specifying each of multiple types of predictive encoding method candidates is set.
  • the control unit 120 sets the conversion method to be evaluated to the conversion unit 103 and sets the prediction method to the prediction unit 110 .
  • Non-Patent Document 1 the following prediction method (see Non-Patent Document 1) may be added as a prediction method candidate.
  • IBC Intra Block Copy
  • MIP Microx-based Intra Prediction
  • Non-Patent Document 1 the following prediction method (see Non-Patent Document 1) may be added as a prediction method candidate.
  • ⁇ Affine prediction ⁇ GPM (Geometric Partitioning Mode)
  • CIIP Combined inter merge/intra prediction
  • SBT Sub-block transform
  • Non-Patent Document 1 As a conversion method candidate, the following conversion method (see Non-Patent Document 1) may be added.
  • a candidate table in which data capable of specifying each prediction mode candidate is set in the video encoding device is an example.
  • data that can specify each of the prediction mode candidates may be written in a program.
  • the block division unit 101 selects one division pattern from divisible patterns of the CTU to be evaluated, and generates a set of CUs (step S100). Furthermore, the block dividing unit 101 selects one CU from the set of CUs (step S101). In addition, the encoding method control unit 122 selects the prediction method and the conversion method from the candidate table in which the prediction method and the conversion method (specifically, data capable of specifying the prediction method and data capable of specifying the conversion method) are set. One conversion method is selected (step S102).
  • the encoding method control unit 122 targets a block input from the block division unit 101 (a block to be processed which is an evaluation target of a candidate for a predictive encoding method), and determines whether at least one of the width and the height of the TU is It is determined whether or not it exceeds 32 (step S103). If it is determined that both the width and height of the TU do not exceed 32, the process proceeds to step S106. If at least one of the width and height of the TU exceeds 32, the process proceeds to step S104.
  • step S104 the block analysis unit 121 calculates the attention area occupation ratio A of the block to be processed.
  • the block analysis unit 121 notifies the region-of-interest occupation ratio A to the encoding method control unit 122 .
  • the encoding method control unit 122 compares the notified area-of-interest occupation ratio A with preset threshold values th min and th max . That is, the encoding method control unit 122 determines whether the relationship th min ⁇ A ⁇ th max is satisfied. When the encoding method control unit 122 determines that the relationship is not satisfied, the process proceeds to step S106. When the encoding method control unit 122 determines that the relationship is satisfied, the process proceeds to step S110. In this case, in step S110, the encoding method determination unit 114 sets the RD cost to the maximum value. Note that the maximum value is a value that is larger than the value assumed as the RD cost corresponding to other predictive encoding methods.
  • step S106 in the prediction unit 110, the intra predictor 111 or the inter predictor 112 generates a prediction signal for the block input from the block division unit 101.
  • Subtractor 102 also generates a prediction error signal.
  • the conversion unit 103 frequency-converts the prediction error signal to generate a conversion coefficient (step S107). Note that when at least one of the width and height of the TU exceeds 32, the transform unit 103 excludes the transform coefficients in the portion exceeding 32 (that is, the high frequency region). That is, assuming a two-dimensional matrix whose elements are transform coefficients, the transform result of the transform unit has 32 or less rows and columns.
  • the transform unit 103 may exclude transform coefficients in the high-frequency region from the transform result.
  • the transform unit 103 may use the transform coefficients of the entire area as the transform result, and the quantization unit 104 may quantize the transform coefficients of the areas of 32 or less rows and columns, and discard the other transform coefficients.
  • step S107 the quantization unit 104 quantizes the transform coefficients from the transform unit 103 to generate transform quantized values.
  • Inverse quantization section 105 and arithmetic encoder 113 receive transform quantized values.
  • the inverse quantization unit 105 inversely quantizes the transformed quantized values (step S108). Further, the inverse transform unit 106 restores transform coefficients by inverse frequency transforming the inversely quantized transform quantized values.
  • the arithmetic encoder 113 arithmetically encodes the transformed quantized values to generate an encoded signal (step S109).
  • the encoding method determination unit 114 calculates the RD cost J described above.
  • An index other than formula (1) may be used.
  • the encoding method determination unit 114 may use only one of R and D. If only R is used, the arithmetic coding process (process of step S109) is unnecessary. Further, for example, the encoding method determination unit 114 uses the cumulative sum (sum) of prediction error signals instead of the sum of squares of the differences between the original image (input signal) and the reconstructed image (reconstructed signal). good too.
  • the encoding method determination unit 114 may use the code amount input to the arithmetic encoder or the code amount estimated by some method.
  • step S101 If evaluation of all CUs in the set of CUs has not been completed, return to step S101. After completing the evaluation of all CUs, the encoding method determination unit 114 calculates the cost of the CTU in the split pattern currently being evaluated.
  • step S100 If the evaluation of all division patterns of the CTU to be evaluated has been completed, the process ends. If there is a split pattern that has not yet been evaluated, the process returns to step S100.
  • the encoding method determination unit 114 temporarily stores the encoding efficiency (RD cost in this example) of each predictive encoding method candidate.
  • the encoding method determination unit 114 assigns the predictive encoding method that exhibits the lowest encoding efficiency among the stored encoding efficiencies to the predictive encoding method used in the actual encoding process, that is, the block to be processed. It is determined as the predictive coding method to be applied.
  • the encoding method determination unit 114 may store the minimum encoding efficiency and the predictive encoding method that exhibits it instead of storing the encoding efficiencies of all predictive encoding method candidates. . In that case, in the process of step S110, if the encoding efficiency calculated at that time is smaller than the stored encoding efficiency, the encoding method determination unit 114 Update the stored coding efficiency and predictive coding method with the proposed prediction mode.
  • SBT Sub-block Transform
  • VVC Video Coding Codon Codon Codon
  • SBT is a method of dividing a block into two sub-blocks in the horizontal or vertical direction and performing frequency conversion on only one of the sub-blocks. All prediction error signals in the other sub-block are replaced with zeros. Since information loss also occurs in SBT, it is conceivable to apply each of the above embodiments.
  • LFNST Low-Frequency Non-Separable Transform
  • LFNST is a method of re-transforming transform coefficients using an orthogonal transform matrix defined for LFNST when encoding by intra prediction. Up to 48 coefficients are subject to retransformation. All the coefficients (976 coefficients in the case of 32 ⁇ 32) other than those to be retransformed are set to 0. Therefore, since the coefficients of the high-frequency components are excluded, information loss occurs even in the LFNST, and it is conceivable to apply each of the above-described embodiments.
  • the video encoding device of each of the above embodiments can be configured by individual hardware circuits or integrated circuits, but it can also be realized by a computer having a processor such as a CPU (Central Processing Unit) and memory. It is possible.
  • each function may be realized by storing a program for implementing the method (processing) in the above embodiments in a storage device (storage medium) and executing the program by a CPU.
  • FIG. 3 is a block diagram showing an example of a computer having a CPU.
  • the computer is implemented in the video encoding device.
  • the CPU 1000 implements each function in the above embodiment by executing processing according to the video encoding program stored in the storage device 1001 . That is, the CPU 1000 includes the block division unit 101, the subtractor 102, the transform unit 103, the quantization unit 104, the inverse quantization unit 105, the inverse transform unit 106, the adder 107, Loop filter 108, prediction unit 110 (intra predictor 111 and inter predictor 112), arithmetic encoder 113, coding method determination unit 114, code string generation unit 115, block analysis unit 121 and coding method control unit 122 It implements the functions of the control unit 120 including
  • the storage device 1001 is, for example, a non-transitory computer readable medium.
  • Non-transitory computer readable media include various types of tangible storage media. Specific examples of non-transitory computer-readable media include magnetic recording media (e.g., hard disks), CD-ROMs (Compact Disc-Read Only Memory), CD-Rs (Compact Disc-Recordable), CD-R/Ws (Compact Disc-ReWritable), semiconductor memory (eg mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM).
  • magnetic recording media e.g., hard disks
  • CD-ROMs Compact Disc-Read Only Memory
  • CD-Rs Compact Disc-Recordable
  • CD-R/Ws Compact Disc-ReWritable
  • semiconductor memory eg mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM.
  • the program may also be stored on various types of transitory computer readable medium.
  • a transitory computer-readable medium is provided with a program, for example, via a wired or wireless communication path, ie, via an electrical, optical or electromagnetic wave.
  • the memory 1002 is, for example, RAM (Random Access Memory), and is storage means for temporarily storing data when the CPU 1000 executes processing.
  • RAM Random Access Memory
  • a mode in which a program held by the storage device 1001 or a temporary computer-readable medium is transferred to the memory 1002 and the CPU 1000 executes processing based on the program in the memory 1002 is also conceivable.
  • FIG. 4 is a block diagram showing the main parts of the video encoding device.
  • the video encoding apparatus 10 shown in FIG. 4 includes a predictive encoding method selection unit (predictive encoding method selection unit) 15 that selects a predictive encoding method to be applied to a block to be processed from a plurality of predictive encoding method candidates. (In the embodiment, it is implemented by the encoding method determination unit 114.).
  • Candidates for predictive encoding methods include transform methods that exclude predetermined transform coefficients from processing targets in the transform of the prediction error signal (e.g., applied when at least one of the width and height of the TU exceeds 32). conversion method).
  • the video encoding apparatus 10 further includes an exclusion unit (exclusion means) 16 (implemented by the encoding method control unit 122 in the embodiment) that excludes the transform method from the candidates for the predictive encoding method. Prepare.
  • FIG. 5 is a block diagram showing the main part of another aspect of the video encoding device.
  • the video encoding apparatus 10 shown in FIG. 5 uses an original signal or a predicted signal of a block to be processed, or a signal generated using the original signal or the predicted signal as a calculation target signal, and uses a predetermined calculation target signal based on the calculation target signal.
  • a block analysis unit (block analysis means) 17 (implemented by the block analysis unit 121 in the embodiment) that calculates statistics is further provided.
  • the excluding unit 16 excludes the conversion method from selection targets from among predictive coding method candidates when the statistic is within a predetermined range.
  • FIG. 6 is a block diagram showing the main parts of yet another video encoding device.
  • the video encoding device 10 includes a dividing unit (dividing means) 18 (implemented by a block dividing unit 101 in the embodiment) that divides a block to be processed into sub-blocks of a predetermined size. Prepare more.
  • the block analysis unit 17 includes means for calculating the statistic for each sub-block from the calculation target signal of each sub-block, and calculates the statistic of the processing target block from the statistic of each sub-block. Further, the block analysis unit 17 includes means for determining whether or not each sub-block has a predetermined characteristic from the calculation target signal of each sub-block. A ratio of the number of sub-blocks obtained may be calculated as a statistic.
  • Video Encoding Apparatus 15 Predictive Encoding Method Selection Unit (Predictive Encoding Method Selecting Means) 16 EXCLUSION DIVISION (EXCLUSION MEANS) 17 block analysis unit (block analysis means) 18 dividing unit (dividing means) 101 block division unit 102 subtractor 103 transform unit 104 quantization unit 105 inverse quantization unit 106 inverse transform unit 107 adder 108 loop filter 110 prediction unit 111 intra predictor 112 inter predictor 113 arithmetic encoder 114 coding method determination Unit 115 Code string generation unit 120 Control unit 121 Block analysis unit 122 Encoding method control unit 1000 CPU 1001 storage device 1002 memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Discrete Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

映像符号化装置10は、処理対象ブロックに適用される予測符号化方法を、複数の予測符号化方法の候補から選択する予測符号化方法選択部15を含み、予測符号化方法の候補には、予測誤差信号の変換において所定の変換係数を処理対象から除外する変換方法が含まれ、映像符号化装置10は、予測符号化方法の候補からの選択の対象から変換方法を除外する除外手段16を含む。

Description

映像符号化装置、方法およびプログラム
 本発明は、動画像の符号化を行う映像符号化装置および映像符号化方法に関する。
 非特許文献1は、VVC(Versatile Video Coding)と呼ばれる映像符号化方式を開示する。
 VVCでは、映像の各フレームは符号化ツリーユニット(CTU:Coding Tree Unit)と呼ばれるブロックに分割され、ラスタスキャン順に各CTUの符号化処理が実施される。
 各CTUは、符号化ユニット(CU:Coding Unit )の集合で構成されている。符号化処理は、CU毎に実行される。CUは、四分木(QT:Quad-Tree )構造またはマルチタイプ木(MMT:Multi-Type Tree )構造を用いてCTUを分割したブロック、またはCTU自身に相当する。四分木構造では、ブロックが、水平方向および垂直方向に等分割される。マルチタイプ木構造では、水平方向または垂直方向で、分割されたブロックの短辺が、1:1になるように2分割される。または、水平方向または垂直方向で、分割されたブロックの短辺が、1:2:1になるように3分割される。
 各CUでは、CUが分割されて得られる予測ユニット(PU:Prediction Unit )単位で、予測画像が生成される。通常、PUのサイズは、CUのサイズと同じである。予測画像の生成方法(以下、単に予測方法という。)として、イントラ予測と動き補償方式を伴うインター予測(以下、単にインター予測という。)とがある。
 各PUの予測前後の画像間で差分が計算され、各PUの予測誤差画像が生成される。各PUの予測誤差画像から、対応するCUの予測誤差画像が定義される。
 各CUの予測誤差画像には、CUが分割されて得られる変換ユニット(TU:Transform Unit)単位で変換処理が適用されることによって、変換係数が取得される。変換方法として、主として離散コサイン変換(DCT:Discrete Cosine Transform )による周波数変換方法が使用される。TUの幅と高さの両方が32以下である場合には、離散サイン変換(DCT:Discrete Sine Transform )などの複数の周波数変換方法から選択された周波数変換方法を使用することも可能である。また、変換処理において、変換スキップと呼ばれる周波数変換方法でない変換方法を選択して使用することが可能である。
 取得された変換係数は、量子化パラメータ(QP:Quantization parameter)などで決定される値を用いて量子化され、量子化係数が生成される。一般に、QPの値が大きいほど、情報の損失量が大きくなる。量子化係数が整数化された後、整数化された量子化係数が算術符号化される。
 一般に、周波数変換によって生成される変換係数のエネルギーは低周波領域に集中する。したがって、低周波領域の変換係数の値は大きくなり、高周波領域の変換係数の値は小さくなる。
 周波数変換方法が選択されているとき、TUの幅と高さとのうちの少なくとも一方が32を超える場合に、32を超えた部分すなわち高周波成分の変換係数は、値の大きさに関わらず除外される。したがって、量子化および算術符号化される変換係数の個数は32×32以下になる。
"Versatile video coding", Recommendation ITU-T H.266 (08/2020)
 映像符号化装置は、符号化対象となるCTUからCUへの分割方法と、分割によって生成される各CUの予測方法と、変換方法との多数の組み合わせの中から、最適な組み合わせを選択する。映像符号化装置は、選択した組合せを用いて予測符号化を行う。例えば、映像符号化装置は、最適な組み合わせを選択するときに、使用されうる予測符号化方法の候補に対応する予測方法に基づいて生成された予測誤差画像を対象として、使用されうる予測符号化方法に対応する変換方法による変換処理、量子化処理、逆量子化処理、変換処理に対応する逆周波数変換処理および算術符号化処理等を実行する。なお、予測符号化方法は、少なくとも予測方法と変換方法とを含む。
 映像符号化装置において使用される変換方法には、変換係数の値に関わらず係数を符号化の対象から除外する方法も含まれる。例えば、前述したように、変換方法として周波数変換方法が選択されており、TUの幅または高さのいずれかが32より大きい場合に、周波数変換方法を用いたとき、変換係数が32×32となるように変換係数を除外する処理が、変換係数の値に関わらず適用される。
 除外される変換係数は、上記のように高周波領域における変換係数であり、高周波領域における変換係数の値は一般に小さい。よって、高周波領域における変換係数を除外しても、映像復号装置において復号される画像の品質は、多くの場合でさほどの影響(劣化)を受けない。また、上記の条件に該当するTUの使用により、そのTUに対応する領域を符号化した際に発生する符号量を、複数のTUに分割して符号化した場合と比べて、削減することが可能である。
 しかし、上記のTUの幅と高さについての条件が満たされる場合に、高周波領域における変換係数の値が比較的大きいとき、係数の除外による情報の損失量が多くなる。その結果、映像復号装置において復号される画像の品質が劣化する。
 そこで、本発明は、最適な予測符号化方法を選択するときに、発生する符号量を大きく増加させないよう抑制しつつ、主観画質を改善可能な映像符号化装置および映像符号化方法を提供することを目的とする。
 本発明による映像符号化装置は、処理対象ブロックに適用される予測符号化方法を、複数の予測符号化方法の候補から選択する予測符号化方法選択部を含み、予測符号化方法の候補には、予測誤差信号の変換において所定の変換係数を処理対象から除外する変換方法が含まれ、予測符号化方法の候補からの選択の対象から変換方法を除外する除外手段を含む。
 本発明による映像符号化方法は、処理対象ブロックに適用される予測符号化方法を、複数の予測符号化方法の候補から選択し、予測符号化方法の候補には、予測誤差信号の変換において所定の変換係数を処理対象から除外する変換方法が含まれ、予測符号化方法を選択するときに、予測符号化方法の候補からの選択の対象から変換方法を除外する。
 本発明による映像符号化プログラムは、コンピュータに、処理対象ブロックに適用される予測符号化方法を、複数の予測符号化方法の候補から選択させ、予測符号化方法の候補には、予測誤差信号の変換において所定の変換係数を処理対象から除外する変換方法が含まれ、コンピュータに、予測符号化方法を選択するときに、予測符号化方法の候補からの選択の対象から変換方法を除外させる。
 本発明によれば、映像符号化装置から出力されるビットストリームのデータ量を大きく増加しないように抑制しつつ、そのビットストリームから復号される映像フレームの主観的な画質が改善される。
映像符号化装置の構成例を示すブロック図である。 映像符号化装置の第1の実施形態の予測符号化方法の候補の評価に関する動作を示すフローチャートである。 CPUを有するコンピュータの一例を示すブロック図である。 映像符号化装置の主要部を示すブロック図である。 他の態様の映像符号化装置の主要部を示すブロック図である。 別の映像符号化装置の主要部を示すブロック図である。
 以下、本発明の実施形態を図面を参照して説明する。
実施形態1
(構成の説明)
 図1は、映像符号化装置の構成例を示すブロック図である。図1に示す映像符号化装置は、ブロック分割部101、減算器102、変換部103、量子化部104、逆量子化部105、逆変換部106、加算器107、ループフィルタ108、予測部110、算術符号化器113、符号化方法決定部114、および符号列生成部115を備える。予測部110は、イントラ予測器111とインター予測器112とを含む。
 映像符号化装置は、さらに、ブロック解析部121と符号化方法制御部122とを含む制御部120を含む。
 ブロック分割部101は、入力映像フレームを複数のCTUに分割する。さらに、ブロック分割部101は、各CTUに対して、CUの集合を定義する。CUの集合は、CTUを分割せずにそのままCUとして定義することによって得られる。または、CUの集合は、四分木構造もしくはマルチタイプ木構造を用いてCTUが分割されて得られる個々のブロックをCUとして定義することによって得られる。また、ブロック分割部101は、CUを分割せずにそのままPUとして定義するか、または、CUを分割したブロックをPUとして定義する。同様に、ブロック分割部101は、CUを分割せずにそのままTUとして定義するか、または、CUを分割したブロックをTUとして定義する。
 減算器102は、ブロック分割部101が選択したブロックごとに、入力信号(入力画素値)から予測信号を減算して予測誤差信号を生成する。予測誤差信号は、予測残差または予測残差信号とも呼ばれる。
 変換部103は、処理対象ブロックの予測誤差信号を周波数変換して変換係数を得る。変換部103は、タイプII DCT (DCT-II)を含む複数種類の周波数変換機能と、予測誤差信号に対して周波数変換を施さない変換スキップ機能とを備える。変換部103は、符号化方法制御部122で選択される変換方法を使用して、上記いずれかの変換を実行する。
 量子化部104は、変換係数を量子化して量子化係数(変換量子化値)とする。変換量子化値は、算術符号化器113および逆量子化部105で使用される。
 逆量子化部105は、変換量子化値を逆量子化して変換係数を復元する。逆変換部106は、変換部103で実行された変換方法に基づいて、変換係数を逆周波数変換して予測誤差信号を復元する。
 加算器107は、復元された予測誤差信号と予測信号とを加算して再構築信号(再構築画像)を生成する。
 イントラ予測器111、ループフィルタ108、符号化方法決定部114は再構築信号を入力とする。
 なお、一般に、予測部110の前段またはイントラ予測器111に、符号化対象ピクチャ内の参照ブロックを格納するためのブロックメモリが設けられるが、図1では記載省略されている。
 イントラ予測器111は、参照ブロックを参照して、符号化対象ブロックについてイントラ予測を行い、予測信号(この場合には、イントラ予測信号)を生成する。
 ループフィルタ108は、例えば、デブロッキングフィルタ、サンプル適応オフセットフィルタおよび適応ループフィルタを含み、適切なフィルタリングを行う。ループフィルタ108でフィルタリングされた再構築信号は、インター予測器112に入力される。なお、一般に、予測部110の前段またはインター予測器112に、参照ピクチャを格納するためのフレームメモリが設けられるが、図1では記載省略されている。
 インター予測器112は、符号化対象ピクチャとは異なる参照ピクチャを参照して、符号化対象ブロックについてインター予測を行い、予測信号(この場合には、インター予測信号)を生成する。
 算術符号化器113は、変換量子化値を算術符号化することによって符号化信号(符号列:ビットストリーム)を生成する。算術符号化器113は、変換量子化値を2値化し、2値信号を算術符号化して2値算術符号を生成する。
 符号化方法決定部114は、複数の予測方法および変換方法のそれぞれを用いて予測符号化した場合のコストを計算する。符号化方法決定部114は、処理対象ブロックに最適な予測符号化方法を選択する。一般に、推定されるビットストリーム長Rと、原信号と再構築信号との歪みDからRate-distortion cost(RDコスト)Jが以下の(1)式で計算される。なお、符号化方法決定部114は、RDコスト以外によって、コストを計算してもよい。
 J=D+λR      (1)
 符号列生成部115は、最適な予測符号化方法での2値算術符号を選択して、ビットストリームとして出力する。例えば、ビットストリームは、画像復号装置に伝送される。ビットストリームは、記憶媒体(図示せず)に対して出力され、記憶媒体において記憶されるようにしてもよい。
 制御部120におけるブロック解析部121は、入力される処理対象ブロックの信号から、処理対象ブロックが所定の特徴を持つ度合いを表す統計量を算出する。所定の特徴として、処理対象ブロックに含まれる、特定の色を表す画素の値などが挙げられる。ブロック解析部121は、そのような特徴から統計量を算出するとき、例えば、特定の色を表現する画素を検出する。そして、ブロック解析部121は、処理対象ブロックに含まれる画素の数に対する、特定の色を表現する画素の数の割合を統計量とする。なお、検出する特徴は複数あってもよい。また、ブロック解析部121は、注目する特徴毎に統計量を算出してもよい。ブロック解析部121は、少なくとも1つの特徴に該当する画素の統計量を算出してもよい。
 すなわち、ブロック解析部121は、処理対象ブロックから複数の統計量を算出し、符号化方法制御部122へ送信する処理対象ブロックの統計量の算出のために、複数の統計量から1つの統計量を算出してもよい。なお、複数の統計量から1つの統計量を算出する手法は、後述するサブブロック毎に統計量を算出する方法にも適用可能である。
 符号化方法制御部122は、ブロック解析部121で算出された統計量と、処理対象ブロックのサイズ、予測方法、変換方法から、事前に制約する対象として与えられた条件を満たすかを判定する。条件を満たさない場合、符号化方法制御部122は、変換部103と予測部110で実行される変換方法および予測方法それぞれに設定する。条件を満たす場合、符号化方法制御部122は、変換部103と予測部110での処理を行わないように制御し、符号化方法決定部114で計算されるコストが最大値となるように設定する。
 以下、逆量子化部105、逆変換部106、および加算器107を局所復号部ということがある。
(統計量の説明)
 上述したように、VVCでは、変換方法として周波数変換方法が選択されて、かつ、TUの幅と高さとのうちの少なくとも一方が32を超える場合には、32を超えた部分(すなわち、高周波領域)の変換係数は除外される。32を超えた部分は、高周波領域に対応する。周波数変換後、低周波成分へのエネルギーの集中の度合が大きい場合には、高周波領域の変換係数が除外されても、映像復号装置において復号される画像の品質(復号後の画質)は、さほど劣化しない。
 しかし、低周波成分へのエネルギーの集中の度合がさほど大きくない場合には、高周波領域の変換係数が除外されると、復号後の画質は劣化する。換言すれば、周波数変換時に高周波領域の変換係数が除外されることによって、原画像が有する情報量が低減する。すなわち、情報が損失する。その結果、復号後の画質が劣化する。特に、そのTUが、性質の異なる絵柄の領域を2つ以上含み、かつ、注目されやすい特徴を持つ領域である場合、顕著な劣化が生じる。さらに、それらの領域に人間が注目するような特徴を持つ領域が含まれている場合、顕著な劣化が生じる。
 このような画質劣化が生じる場合においても、上記の条件(上記のTUの幅と高さについての条件)を満たす予測符号化方法が、最適な予測符号化方法として選択される可能性がある。例えば、上述したように、大きいサイズのTUが使用されると、発生する符号量の削減が可能になる。そのため、符号量のみに基づいて予測符号化方法を決定するような選択方法、すなわち、符号量を重視した選択方法が使用されるときに、上記の条件を満たす予測符号化方法が、最適な予測符号化方法であると判断される可能性がある。
 主観画質の観点から、幅と高さとのうちの少なくとも一方が32を超えるTUを使用して予測符号化することは望ましくない。しかし、上記の条件(幅と高さとのうちの少なくとも一方が32を超えるという条件)を満たす比較的大きなTUを使用することによって、発生する符号量を削減することが可能である。そのため、上記条件による予測符号化方法を制約した場合、発生する符号量が所定の値となるように制御されているとき、制約しない場合と同等程度の符号量に抑制するための処理が、情報の損失を引き起こす可能性がある。すなわち、画質を劣化させる可能性がある。
 換言すれば、復号される画質の劣化を抑制するために、上記の条件を満たす予測符号化方法は制約されることが望ましい。しかし、上述したように、上記の条件を満たす予測符号化方法は発生する符号量の削減に寄与するため、画像内の全ての領域で使用を制限すると、発生する符号量が増加する可能性がある。特に、上記の予測符号化方法の制約は、発生する符号量が所定の値となるように制御されているとき、画質の劣化を引き起こす可能性がある。例えば、上記の制約がない場合と同等程度の符号量に抑制するために、より大きな値のQPを用いて量子化するなどの処理が行われる。そのような処理による情報の損失が画質の劣化を引き起こす可能性がある。
 本実施形態では、ブロック解析部121が、処理対象ブロックに含まれる画素の数に対する、所定の特徴を持つ画素の数、または、画素ブロックに含まれる画素の数が占める割合すなわち注目領域占有率を、統計量として算出する。符号化方法制御部122は、注目領域占有率が所定の値の範囲であり、TUの幅と高さとのうちの少なくとも一方が32を超える場合には、そのようなTUを用いた予測符号化方法を選択しないようにする。その結果、発生する符号量を抑制しつつ、主観画質の劣化が目立ちやすい領域で劣化の度合いを抑えることが可能になる。
 具体的には、ブロック解析部121は、P個の画素を持つ入力信号Iの注目領域占有率Aを、入力信号の各画素Iから統計量として計算する。例えば、ブロック解析部121は、注目する所定の特徴を特定の画素値Cとしたとき、以下の(2)式で統計量を算出する。
Figure JPOXMLDOC01-appb-M000001
 なお、注目領域占有率は他の計算式を用いて計算されてもよい。また、例えば、画素値が、処理対象ブロック内の画素位置に応じて重みづけされてもよい。
 符号化方法制御部122は、例えば、注目領域占有率Aが所定の上限に関するしきい値(以下、thminとする。)と下限に関するしきい値(以下、thmaxとする。)で設定される範囲内の値である場合、そのTUによる予測符号化方法を選択しないようにする。例えば、より主観画質を重視したい場合には、thminがより小さな値に、thmaxがより大きな値に設定される。
 なお、統計量として、処理対象ブロックの画素の数に対する特定の画素値を持つ画素の数の割合である注目領域占有率を用いる例を説明したが、本発明において、統計量は、そのような統計量に限定されない。
 例えば、ブロック解析部121は、処理対象ブロックと同一映像フレーム内のブロックとの画素の相関を統計量として用いることができる。また、ブロック解析部121は、近接する映像フレーム内のブロックにおける画素と同じ位置にある画素の絶対値差分和を統計量として用いることができる。換言すれば、ブロック解析部121は、処理対象ブロックの算出対象信号(処理対象ブロックの原信号もしくは予測信号、または、原信号もしくは予測信号を用いて生成される信号)と、同一映像フレーム内のブロックまたは他の映像フレーム(一例として、近接する映像フレーム)内のブロックの算出対象信号とを使用して、統計量を算出してもよい。
 さらに、ブロック分割部101が処理対象ブロックをサブブロックに分割した後に、サブブロック毎に統計量を算出し、各サブブロックの統計量から選択された値または各サブブロックの統計量から計算された値を統計量として用いることもできる。また、ブロック解析部121は、各サブブロックの算出対象信号から、各サブブロックが所定の特徴を持つか否かを判定し、サブブロックの総数に対する、所定の特徴を持つと判定されたサブブロックの数の割合を統計量として算出してもよい。
 また、ブロック解析部121は、映像符号化装置に入力される原信号から統計量を算出する。しかし、ブロック解析部121は、予測信号や予測誤差信号から統計量を算出してもよい。ブロック解析部121は、原信号にガンマ変換などを施して得られる信号などから統計量を算出してもよい。
(動作の説明)
 一例として、映像符号化装置は、複数種類の予測符号化方法の候補のそれぞれを特定可能なデータが設定された候補テーブルを記憶する記憶部(図示せず)を含む。制御部120は、予測符号化方法の候補を評価するときに、評価対象の変換方法を変換部103に設定し、予測方法を予測部110に設定する。
 候補テーブルに設定される予測方法として、イントラ予測に関して、以下の予測方法が考えられる。
・DC予測
・Planar予測
・角度予測(Angular予測)の各々
 イントラ予測に関して、予測方法の候補として、以下の予測方法(非特許文献1参照)が追加されてもよい。
・IBC(Intra Block Copy)
・MIP(Matrix-based Intra Prediction)
 インター予測に関して、以下の予測方法が考えられる。
・適応動きベクトル符号化
・マージ符号化
 インター予測に関して、予測方法の候補として、以下の予測方法(非特許文献1参照)が追加されてもよい。
・アフィン予測
・GPM(Geometric Partitioning Mode)
・CIIP(Combined inter merge / intra prediction)
・SBT(Sub-block transform)
 候補テーブルに設定される変換方法として、以下の変換方法が考えられる。
・DCT-II
・変換スキップ
 変換方法の候補として、以下の変換方法(非特許文献1参照)が追加されてもよい。
・DCT―VIII
・DST―VII
・DCT-II、DCT―VIII、DST―VIIのうち、いずれか2つの組み合わせ
・上記変換方法とLFNST(Low frequency non-separatable transform )との組み合わせ
 なお、映像符号化装置において、予測モードの候補のそれぞれを特定可能なデータが設定された候補テーブルが使用されることは一例である。例えば、映像符号化装置がプロセッサで実現される場合に、予測モードの候補のそれぞれを特定可能なデータがプログラムで記述されていてもよい。
 映像符号化装置のCTU毎に実施される最適な予測符号化方法の候補の評価に関する動作を、図2のフローチャートを参照して説明する。
 ブロック分割部101は、評価対象のCTUの分割可能なパターンから1つの分割パターンを選択し、CUの集合を生成する(ステップS100)。さらに、ブロック分割部101は、CUの集合から1つのCUを選択する(ステップS101)。また、符号化方法制御部122は、予測方法と変換方法と(具体的には、予測方法を特定可能なデータおよび変換方法を特定可能なデータ)が設定されている候補テーブルから、予測方法および変換方法を1つ選択する(ステップS102)。
 符号化方法制御部122は、ブロック分割部101から入力されるブロック(予測符号化方法の候補の評価の対象である処理対象ブロック)を対象として、TUの幅と高さとのうちの少なくとも一方が32を超えるか否かを判定する(ステップS103)。TUの幅と高さ共に32を超えないと判定された場合には、ステップS106に移行する。TUの幅と高さとのうちの少なくとも一方が32を超える場合には、ステップS104に移行する。
 ステップS104で、ブロック解析部121は、処理対象ブロックの注目領域占有率Aを計算する。ブロック解析部121は、注目領域占有率Aを符号化方法制御部122に通知する。
 符号化方法制御部122は、通知された注目領域占有率Aと、事前に設定されたしきい値thmin, thmaxとを比較する。すなわち、符号化方法制御部122は、thmin≦A≦thmaxの関係を満たすかを判定する。符号化方法制御部122が、関係を満たさないと判定した場合には、処理は、ステップS106に移行する。符号化方法制御部122が、関係を満たすと判定した場合には、処理は、ステップS110に移行する。この場合には、ステップS110において、符号化方法決定部114は、RDコストを最大値に設定する。なお、最大値は、他の予測符号化方法に対応するRDコストとして想定される値よりも大きい値である。
 ステップS106で、予測部110において、イントラ予測器111またはインター予測器112は、ブロック分割部101から入力されるブロックを対象として予測信号を生成する。また、減算器102は、予測誤差信号を生成する。
 変換部103は、予測誤差信号を周波数変換して変換係数を生成する(ステップS107)。なお、変換部103は、TUの幅と高さとのうちの少なくとも一方が32を超える場合には、32を超えた部分(すなわち、高周波領域)の変換係数を除外する。すなわち、変換係数を要素とする2次元行列を想定すると、変換部の変換結果において、行および列がともに32以下になっている。
 なお、TUの水平方向のサイズと垂直方向のサイズの少なくとも一方が32を超える場合に、変換部103が、高周波領域の変換係数を除外して変換結果としてもよい。また、変換部103は、全領域の変換係数を変換結果とし、量子化部104が、行および列ともに32以下の領域の変換係数を量子化し、その他の変換係数を破棄してもよい。
 ステップS107で、量子化部104は、変換部103からの変換係数を量子化して変換量子化値を生成する。逆量子化部105と算術符号化器113とは、変換量子化値を入力する。
 逆量子化部105は、変換量子化値を逆量子化する(ステップS108)。さらに、逆変換部106は、逆量子化された変換量子化値を逆周波数変換して変換係数を復元する。算術符号化器113は、変換量子化値を算術符号化して符号化信号を生成する(ステップS109)。
 符号化方法決定部114は、上述したRDコストJを計算する。なお、式(1)以外の指標を用いてもよい。一例として、符号化方法決定部114は、RとDとのうちの一方のみを使用してもよい。Rのみが使用される場合には、算術符号化処理(ステップS109の処理)は不要である。また、例えば、符号化方法決定部114は、原画像(入力信号)と再構築画像(再構築信号)との差の二乗和に代えて、予測誤差信号の累積和(総和)を使用してもよい。さらに、符号化方法決定部114は、算術符号化器の発生符号量に代えて、算術符号化器への入力符号量や、何らかの手法で推定される符号量を使用してもよい。
 候補テーブルに設定されている全ての予測方法と変換方法の候補について評価が完了していれば、ステップS112に移行する。未評価の候補があれば、ステップS102に戻る。
 CUの集合における全てのCUの評価が完了していなければ、ステップS101に戻る。全てのCUの評価が完了したら、符号化方法決定部114は、現在評価対象になっている分割パターンでのCTUのコストを計算する。
 評価対象のCTUの全ての分割パターンの評価が完了していれば、処理を終了する。未評価の分割パターンがあれば、ステップS100に戻る。
 例えば、符号化方法決定部114は、ステップS110の処理で、各々の予測符号化方法の候補の符号化効率(この例では、RDコスト)を一時記憶する。符号化方法決定部114は、記憶されている符号化効率のうちの最小の符号化効率を呈した予測符号化方法を、実際の符号化処理で使用される予測符号化方法すなわち処理対象ブロックに適用される予測符号化方法として決定する。
 なお、符号化方法決定部114は、全ての予測符号化方法の候補の符号化効率を記憶するのではなく、最小の符号化効率とそれを呈した予測符号化方法とを保存してもよい。その場合には、符号化方法決定部114は、ステップS110の処理で、そのときに算出した符号化効率が、保存されている符号化効率よりも小さいときに、算出した符号化効率とそれを呈した予測モードとで、保存されている符号化効率と予測符号化方法とを更新する。
他の実施形態1.
 VVCにおいて、SBT(Sub-block Transform )を使用可能である。SBTは、水平方向または垂直方向にブロックを2つのサブブロックに分割し、いずれか一方のサブブロックのみに関して周波数変換を行う方式である。他方のサブブロックにおける全ての予測誤差信号は0に置き換えられる。SBTでも情報損失が発生するので、上記の各実施形態を応用することが考えられる。
他の実施形態2.
 VVCにおいて、LFNST(Low-Frequency Non-Separable Transform )を使用可能である。LFNSTは、イントラ予測で符号化する場合、変換係数をLFNSTのために定義された直交変換行列を用いて再変換する方式である。最大で48係数までが再変換の対象になる。再変換の対象以外の係数(32×32の場合、976係数)を全て0にする。したがって、高周波成分の係数に対して係数の除外が実行されることになるので、LFNSTでも情報損失が発生することになり、上記の各実施形態を応用することが考えられる。
 上記の各実施形態の映像符号化装置を、個別のハードウェア回路や集積回路で構成することも可能であるが、CPU(Central Processing Unit )等のプロセッサやメモリ等を有するコンピュータにより実現することも可能である。例えば、記憶装置(記憶媒体)に上記の実施形態における方法(処理)を実施するためのプログラムを格納し、当該プログラムをCPUで実行することによって、各機能を実現してもよい。
 図3は、CPUを有するコンピュータの一例を示すブロック図である。コンピュータは、映像符号化装置に実装される。CPU1000は、記憶装置1001に格納された映像符号化プログラムに従って処理を実行することによって、上記の実施形態における各機能を実現する。すなわち、CPU1000は、図1に示された映像符号化装置における、ブロック分割部101、減算器102、変換部103、量子化部104、逆量子化部105、逆変換部106、加算器107、ループフィルタ108、予測部110(イントラ予測器111およびインター予測器112)、算術符号化器113、符号化方法決定部114、符号列生成部115、およびブロック解析部121と符号化方法制御部122とを含む制御部120の機能を実現する。
 記憶装置1001は、例えば、非一時的なコンピュータ可読媒体(non-transitory computer readable medium )である。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium )を含む。非一時的なコンピュータ可読媒体の具体例として、磁気記録媒体(例えば、ハードディスク)、CD-ROM(Compact Disc-Read Only Memory )、CD-R(Compact Disc-Recordable )、CD-R/W(Compact Disc-ReWritable )、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM )、フラッシュROM)がある。
 また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium )に格納されてもよい。一時的なコンピュータ可読媒体には、例えば、有線通信路または無線通信路を介して、すなわち、電気信号、光信号または電磁波を介して、プログラムが供給される。
 メモリ1002は、例えばRAM(Random Access Memory)で実現され、CPU1000が処理を実行するときに一時的にデータを格納する記憶手段である。メモリ1002に、記憶装置1001または一時的なコンピュータ可読媒体が保持するプログラムが転送され、CPU1000がメモリ1002内のプログラムに基づいて処理を実行するような形態も想定しうる。
 図4は、映像符号化装置の主要部を示すブロック図である。図4に示す映像符号化装置10は、処理対象ブロックに適用される予測符号化方法を、複数の予測符号化方法の候補から選択する予測符号化方法選択部(予測符号化方法選択手段)15(実施形態では、符号化方法決定部114で実現される。)を備える。予測符号化方法の候補には、予測誤差信号の変換において所定の変換係数を処理対象から除外する変換方法(例えば、TUの幅と高さとのうちの少なくとも一方が32を超える場合に適用される変換方法)が含まれる。映像符号化装置10は、予測符号化方法の候補からの選択の対象から変換方法を除外する除外部(除外手段)16(実施形態では、符号化方法制御部122で実現される。)をさらに備える。
 図5は、他の態様の映像符号化装置の主要部を示すブロック図である。図5に示す映像符号化装置10は、処理対象ブロックの原信号もしくは予測信号、または、原信号もしくは予測信号を用いて生成される信号を算出対象信号とし、該算出対象信号に基づいて所定の統計量を算出するブロック解析部(ブロック解析手段)17(実施形態では、ブロック解析部121で実現される。)をさらに備える。除外部16は、統計量が所定の範囲の値であるときに、予測符号化方法の候補からの選択の対象から変換方法を除外する。
 図6は、さらに他の映像符号化装置の主要部を示すブロック図である。図6に示すように、映像符号化装置10は、処理対象ブロックを所定のサイズのサブブロックに分割する分割部(分割手段)18(実施形態では、ブロック分割部101で実現される。)をさらに備える。ブロック解析部17は、各サブブロックの算出対象信号から、サブブロック毎に統計量を算出する手段を含み、処理対象ブロックの統計量を各サブブロックの統計量の値から算出する。また、ブロック解析部17は、各サブブロックの算出対象信号から、各サブブロックが所定の特徴を持つか否かを判定する手段を含み、サブブロックの総数に対する、所定の特徴を持つと判定されたサブブロックの数の割合を統計量として算出してもよい。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2021年10月6日に出願された日本特許出願2021-164585を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 10   映像符号化装置
 15   予測符号化方法選択部(予測符号化方法選択手段)
 16   除外部(除外手段)
 17   ブロック解析部(ブロック解析手段)
 18   分割部(分割手段)
 101  ブロック分割部
 102  減算器
 103  変換部
 104  量子化部
 105  逆量子化部
 106  逆変換部
 107  加算器
 108  ループフィルタ
 110  予測部
 111  イントラ予測器
 112  インター予測器
 113  算術符号化器
 114  符号化方法決定部
 115  符号列生成部
 120  制御部
 121  ブロック解析部
 122  符号化方法制御部
 1000 CPU
 1001 記憶装置
 1002 メモリ

Claims (10)

  1.  処理対象ブロックに適用される予測符号化方法を、複数の予測符号化方法の候補から選択する予測符号化方法選択部を備え、
     前記予測符号化方法の候補には、予測誤差信号の変換において所定の変換係数を処理対象から除外する変換方法が含まれ、
     前記予測符号化方法の候補からの選択の対象から前記変換方法を除外する除外手段を備えた
     映像符号化装置。
  2.  前記処理対象ブロックの原信号もしくは予測信号、または、前記原信号もしくは前記予測信号を用いて生成される信号を算出対象信号とし、該算出対象信号に基づいて所定の統計量を算出するブロック解析手段を備え、
     前記除外手段は、前記統計量が所定の範囲の値であるときに、前記予測符号化方法の候補からの選択の対象から前記変換方法を除外する
     請求項1記載の映像符号化装置。
  3.  前記ブロック解析手段は、
     前記処理対象ブロックの前記算出対象信号と、同一映像フレーム内のブロックまたは他の映像フレーム内のブロックの前記算出対象信号とを使用して、前記統計量を算出する
     請求項2記載の映像符号化装置。
  4.  前記ブロック解析手段は、
     前記処理対象ブロックの前記算出対象信号から、所定の特徴を持つ画素を検出する手段を含み、
     前記処理対象ブロックに含まれる画素の数に対する、検出された前記画素の数の割合を統計量として算出する
     請求項2または請求項3記載の映像符号化装置。
  5.  前記処理対象ブロックを所定のサイズのサブブロックに分割する分割手段を備え、
     前記ブロック解析手段は、
     各サブブロックの前記算出対象信号から、サブブロック毎に統計量を算出する手段を含み、
     前記処理対象ブロックの統計量を各サブブロックの統計量の値から算出する
     請求項2または請求項3記載の映像符号化装置。
  6.  前記処理対象ブロックを所定のサイズのサブブロックに分割する分割手段を備え、
     前記ブロック解析手段は、
     各サブブロックの前記算出対象信号から、各サブブロックが所定の特徴を持つか否かを判定する手段を含み、
     サブブロックの総数に対する、前記所定の特徴を持つと判定されたサブブロックの数の割合を統計量として算出する
     請求項2または請求項3記載の映像符号化装置。
  7.  前記ブロック解析手段は、前記処理対象ブロックから複数の前記統計量を算出し、複数の統計量から1つの前記処理対象ブロックの統計量を算出する
     請求項2から請求項6のうちのいずれか1項に記載の映像符号化装置。
  8.  処理対象ブロックに適用される予測符号化方法を、複数の予測符号化方法の候補から選択し、
     前記予測符号化方法の候補には、予測誤差信号の変換において所定の変換係数を処理対象から除外する変換方法が含まれ、
     予測符号化方法を選択するときに、前記予測符号化方法の候補からの選択の対象から前記変換方法を除外する
     映像符号化装置。
  9.  前記処理対象ブロックの原信号もしくは予測信号、または、前記原信号もしくは前記予測信号を用いて生成される信号を算出対象信号とし、該算出対象信号に基づいて所定の統計量を算出し、
     予測符号化方法を選択するときに、前記統計量が所定の範囲の値であるときに、前記予測符号化方法の候補からの選択の対象から前記変換方法を除外する
     請求項8記載の映像符号化方法。
  10.  コンピュータに、処理対象ブロックに適用される予測符号化方法を、複数の予測符号化方法の候補から選択させ、
     前記予測符号化方法の候補には、予測誤差信号の変換において所定の変換係数を処理対象から除外する変換方法が含まれ、
     前記コンピュータに、予測符号化方法を選択するときに、前記予測符号化方法の候補からの選択の対象から前記変換方法を除外させる
     ための映像符号化プログラム。
PCT/JP2021/045641 2021-10-06 2021-12-10 映像符号化装置、方法およびプログラム WO2023058254A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023552683A JPWO2023058254A1 (ja) 2021-10-06 2021-12-10

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021164585 2021-10-06
JP2021-164585 2021-10-06

Publications (1)

Publication Number Publication Date
WO2023058254A1 true WO2023058254A1 (ja) 2023-04-13

Family

ID=85804095

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/045641 WO2023058254A1 (ja) 2021-10-06 2021-12-10 映像符号化装置、方法およびプログラム

Country Status (2)

Country Link
JP (1) JPWO2023058254A1 (ja)
WO (1) WO2023058254A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008507161A (ja) * 2004-05-07 2008-03-06 ウィス・テクノロジーズ・インコーポレーテッド ビデオ処理用雑音フィルタ
JP2017513342A (ja) * 2014-03-17 2017-05-25 クゥアルコム・インコーポレイテッドQualcomm Incorporated ゼロアウトされた係数を使用した低複雑な順変換のためのシステムおよび方法
JP2019110530A (ja) * 2017-12-18 2019-07-04 キヤノン株式会社 ビデオデータを符号化するための方法及び装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008507161A (ja) * 2004-05-07 2008-03-06 ウィス・テクノロジーズ・インコーポレーテッド ビデオ処理用雑音フィルタ
JP2017513342A (ja) * 2014-03-17 2017-05-25 クゥアルコム・インコーポレイテッドQualcomm Incorporated ゼロアウトされた係数を使用した低複雑な順変換のためのシステムおよび方法
JP2019110530A (ja) * 2017-12-18 2019-07-04 キヤノン株式会社 ビデオデータを符号化するための方法及び装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
M.-S. CHIANG, C.-W. HSU, T.-D. CHUANG, C.-Y. CHEN, Y.-W. HUANG, S.-M. LEI (MEDIATEK): "CE6-related: Constraint and simplification for LFNST signalling", 15. JVET MEETING; 20190703 - 20190712; GOTHENBURG; (THE JOINT VIDEO EXPLORATION TEAM OF ISO/IEC JTC1/SC29/WG11 AND ITU-T SG.16 ), 3 July 2019 (2019-07-03), XP030219125 *

Also Published As

Publication number Publication date
JPWO2023058254A1 (ja) 2023-04-13

Similar Documents

Publication Publication Date Title
KR102412271B1 (ko) 인루프 필터링을 적용한 예측 방법을 이용한 영상 부호화/복호화 방법 및 장치
RU2658178C1 (ru) Устройство декодирования изображений, устройство кодирования изображений, способ декодирования изображений и способ кодирования изображений
JP4747975B2 (ja) 画像処理装置および方法、プログラム、並びに、記録媒体
KR101242013B1 (ko) 인트라 예측 부호화 제어 방법 및 장치, 그 프로그램 및 프로그램을 기록한 기억 매체
KR100785589B1 (ko) 화상 부호화 장치 및 화상 복호 장치
KR102062568B1 (ko) 평면 표현을 이용한 향상된 인트라-예측 부호화
KR101232420B1 (ko) 컨텍스트-적응형 가변 길이 코딩 (cavlc) 을 위한 레이트-왜곡 양자화
KR100739714B1 (ko) 인트라 예측 모드 결정 방법 및 장치
CN107347157B (zh) 视频解码装置
WO2013003726A1 (en) Block based adaptive loop filter
JP2023123811A (ja) 画像復号装置及び画像復号方法
WO2023058254A1 (ja) 映像符号化装置、方法およびプログラム
KR101345294B1 (ko) 영상의 양자화 장치 및 방법
US20230269399A1 (en) Video encoding and decoding using deep learning based in-loop filter
JP7080424B2 (ja) デブロッキングフィルタ制御装置及びプログラム
WO2022158147A1 (ja) 映像符号化装置および映像符号化方法
US9438907B2 (en) Motion picture encoding apparatus
JP2020005228A (ja) ループフィルタ制御装置、画像符号化装置、画像復号装置、及びプログラム
JP7392764B2 (ja) 映像符号化装置、映像符号化方法および映像システム
KR101544379B1 (ko) 고해상도 동영상의 부호화/복호화 방법 및 장치
KR101575634B1 (ko) 고해상도 동영상의 부호화/복호화 방법 및 장치
JP7130890B2 (ja) 符号化装置、復号装置、及びプログラム
KR20110126567A (ko) 비디오 부호화에서의 분할 블록 부호화 방법, 비디오 복호화에서의 분할 블록 복호화 방법 및 이를 구현하는 기록매체
US20230199196A1 (en) Methods and Apparatuses of Frequency Domain Mode Decision in Video Encoding Systems
KR101575638B1 (ko) 고해상도 동영상의 부호화/복호화 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21959993

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023552683

Country of ref document: JP