WO2010137323A1 - 映像符号化装置、映像復号装置、映像符号化方法、および映像復号方法 - Google Patents

映像符号化装置、映像復号装置、映像符号化方法、および映像復号方法 Download PDF

Info

Publication number
WO2010137323A1
WO2010137323A1 PCT/JP2010/003552 JP2010003552W WO2010137323A1 WO 2010137323 A1 WO2010137323 A1 WO 2010137323A1 JP 2010003552 W JP2010003552 W JP 2010003552W WO 2010137323 A1 WO2010137323 A1 WO 2010137323A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
prediction
error signal
prediction error
decoded
Prior art date
Application number
PCT/JP2010/003552
Other languages
English (en)
French (fr)
Inventor
杉本和夫
関口俊一
伊谷裕介
峯澤彰
山岸秀一
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to EP10780283A priority Critical patent/EP2437499A4/en
Priority to JP2011515898A priority patent/JPWO2010137323A1/ja
Priority to BRPI1011333A priority patent/BRPI1011333A2/pt
Priority to CN2010800238927A priority patent/CN102450018A/zh
Priority to US13/322,860 priority patent/US20120076203A1/en
Publication of WO2010137323A1 publication Critical patent/WO2010137323A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/127Prioritisation of hardware or computational resources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/537Motion estimation other than block-based
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/537Motion estimation other than block-based
    • H04N19/543Motion estimation other than block-based using regions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/567Motion estimation based on rate distortion criteria

Definitions

  • the present invention relates to a video encoding device, a video decoding device, a video encoding method, and a video decoding method used for video compression encoding technology, compressed video data transmission technology, and the like.
  • MPEG and ITU-T H.264 In an international standard video encoding scheme such as 26x, compression processing is performed by dividing an input video frame into units of macroblocks composed of 16 ⁇ 16 pixel blocks.
  • the size of a conventional 16 ⁇ 16 pixel macroblock is expanded to a 32 ⁇ 32 pixel block as in Non-Patent Document 1, and the motion vector allocation unit is increased.
  • Techniques have been proposed in which the code amount of parameters necessary for prediction is reduced, or the block size for transform coding of a prediction error signal is increased to effectively remove the inter-pixel correlation of the signal.
  • FIG. 12 is a block diagram showing a configuration of an encoding apparatus according to Non-Patent Document 1.
  • an input video signal 1001 to be encoded is divided into units of macroblocks (rectangular blocks of 32 pixels ⁇ 32 lines corresponding to luminance signals) in a block dividing unit 1002 and encoded.
  • the converted video signal 1003 is input to the prediction unit 1004.
  • the prediction unit 1004 predicts the image signal of each color component in the macroblock between frames and between frames to obtain a prediction error signal 1005.
  • a prediction error signal 1005 is obtained by taking the difference from the normalized video signal 1003.
  • Non-Patent Document 3 proposes a method for diversifying the division shape of the motion prediction area while maintaining the size of the macroblock at 16 ⁇ 16 pixels with respect to the conventional macroblock.
  • the compression unit 1006 performs DCT (Discrete Cosine Transform) processing on the prediction error signal 1005 while changing the block size in accordance with the size of the motion vector allocation unit region, removes the signal correlation, and then quantizes the prediction error signal 1005. Thus, compressed data 1007 is obtained.
  • the compressed data 1007 is entropy-encoded by the variable-length encoding unit 1008 and output as a bit stream 1009 and sent to the local decoding unit 1010 to obtain a decoded prediction error signal 1011.
  • DCT Discrete Cosine Transform
  • the decoded prediction error signal 1011 is added to the prediction signal 1012 used to generate the prediction error signal 1005 to obtain a decoded signal 1013, which is input to the loop filter 1014.
  • the decoded signal 1013 is stored in the memory 1016 as a reference image signal 1015 for generating a subsequent prediction signal 1012 after the processing for removing block distortion is performed by the loop filter 1014.
  • the prediction signal generation parameter 1017 determined by the prediction unit 1004 in order to obtain the prediction signal 1012 is sent to the variable length coding unit 1008, multiplexed with the bit stream 1009, and output.
  • the prediction signal generation parameter 1017 includes, for example, information such as an intra prediction mode indicating how to perform spatial prediction within a frame and a motion vector indicating a motion amount between frames.
  • Non-Patent Document 1 discloses a macroblock size of 32 ⁇ 32 pixel blocks (super macroblock: SMB). ) Is used.
  • FIG. 13 shows how the motion vector allocation region is divided when performing motion compensation prediction for each M ⁇ M pixel macroblock.
  • FIG. 13A shows SMB of Non-Patent Document 1
  • FIG. Conventional MPEG-4 AVC / H. H.264 see Non-Patent Document 2.
  • Non-Patent Document 1 when the size of the divided shape is larger than (M / 2) ⁇ (M / 2), the DCT block size is set to 16 ⁇ 16 pixels, and correlation between images in a wide area is collectively performed. It is configured to be removed. This increases the compression efficiency of the prediction error signal.
  • the macroblock size is expanded to increase the motion vector allocation unit to reduce the amount of parameter code required for prediction, or between signal pixels.
  • the correlation has been removed to increase the compression efficiency of the prediction error signal.
  • applying a large DCT block size entails an increase in the number of effective bits required for expressing transform coefficients, leading to an increase in the number of coefficient expression bits.
  • the present invention has been made to solve the above-described problems, has a good mounting load balance, and better removes signal correlation according to the statistical and local properties of the video signal to be encoded.
  • a video encoding apparatus and method thereof and a video decoding apparatus and method thereof, which realizes a video encoding method that performs efficient information compression and enhances the optimality for encoding an ultra-high definition video signal. For the purpose.
  • a video encoding device includes: a block dividing unit that divides each frame of an input moving image signal into macroblocks of a predetermined size and outputs the macroblock images; a frame memory that stores reference images; An inter-frame prediction unit that performs inter-frame prediction based on a memory reference image and a macro-block image to generate a prediction image, and outputs information specifying the inter-frame prediction method as inter-frame prediction information; and a macro A prediction unit that subtracts a prediction image from a block image and generates a prediction error signal; a downsampling processing unit that downsamples the prediction error signal and generates a reduced prediction error signal; and converts and quantizes the reduced prediction error signal to quantize A first quantizing transform unit that generates quantized transform coefficients, and inverse quantization / inverse transform of the quantized transform coefficients, and decoding reduction A first inverse quantization conversion unit that generates a measurement error signal, an upsampling processing unit that upsamples the decoded reduced prediction
  • the video decoding apparatus includes an entropy decoding unit that entropy-decodes input encoded data and outputs interframe prediction information and quantized transform coefficients included in the encoded data, and a frame that stores a reference image A memory, a first inverse quantization conversion unit that generates a decoded reduced prediction error signal by performing inverse quantization / inverse conversion on the quantized transform coefficient, and upsamples the decoded reduced prediction error signal to generate a decoded prediction error signal.
  • An upsampling processing unit a prediction unit that generates a prediction image from a reference image in a frame memory according to inter-frame prediction information, a decoded prediction error signal and a prediction image are added to generate a decoded image, and the decoded image is referred
  • an adder that outputs the image to the frame memory.
  • the video encoding method includes a block division step for dividing each frame of an input moving image signal into macroblocks of a predetermined size and outputting the macroblock images, and reference images and macros stored in a frame memory.
  • An inter-frame prediction is performed based on the block image to generate a prediction image, and an inter-frame prediction step for outputting information specifying the inter-frame prediction method as inter-frame prediction information, and a prediction image from the macro block image
  • First quantization transform step and inverse quantization / inverse transform of quantized transform coefficient for decoding A first inverse quantization transform step for generating a small prediction error signal, an upsampling processing step for upsampling the decoded reduced prediction error signal to generate a decoded prediction error signal, and adding the decoded
  • the video decoding method includes: an entropy decoding step for entropy decoding input encoded data and outputting inter-frame prediction information and quantized transform coefficients included in the encoded data; and inverse quantization transform coefficients A first inverse quantization conversion step that performs quantization / inverse conversion and generates a decoded reduced prediction error signal; an upsampling processing step that upsamples the decoded reduced prediction error signal and generates a decoded prediction error signal; According to the prediction information, a prediction step for generating a prediction image from the reference image stored in the frame memory, a decoded prediction error signal and the prediction image are added to generate a decoded image, and the decoded image is output to the frame memory as a reference image And an adding step.
  • the prediction error signal is down-sampled, transformed and quantized to generate a quantized transform coefficient
  • the quantized transform coefficient is up-sampled and inverse quantized / inverted to generate a decoded prediction error signal.
  • FIG. 4 shows a 4: 4: 4 format to be processed by the video encoding device and the video decoding device according to Embodiment 1 of the present invention.
  • 1 is a block diagram showing a configuration of a video encoding device according to Embodiment 1.
  • FIG. 1 is a block diagram illustrating a configuration of a video decoding device according to Embodiment 1.
  • FIG. It is a block diagram which shows the structure of the encoding apparatus by a nonpatent literature 1.
  • a state of a divided shape of a motion vector allocation region when motion compensation prediction is performed for each macroblock is shown.
  • Embodiment 1 FIG.
  • motion compensation prediction processing is performed in accordance with the state of each color component signal for a video encoding device and video decoding device that compress and expand a digital video signal input in 4: 4: 4 format.
  • a video encoding device and a video decoding device will be described.
  • FIG. 1 shows a 4: 4: 4 format used as an input by the video encoding device and the video decoding device according to Embodiment 1.
  • the 4: 4: 4 format refers to a format in which the number of pixels of the three signal components C0, C1, and C2 constituting the color moving image are all the same, as shown in FIG.
  • the color space of the three signal components may be RGB or XYZ, or may be luminance / color difference (YUV, YCbCr, or YPbPr).
  • 1B has a color space of YUV, YCbCr, or YPbPr, and a color difference signal component with respect to the number of pixels of luminance Y.
  • the video encoding device and the video decoding device described below are systems in which the 4: 4: 4 format color space is YUV, YCbCr, or YPbPr, and each color component is regarded as corresponding to a luminance component.
  • the description will be limited to. However, it is needless to say that the operation described below can be directly applied to the luminance signal in a video encoding device and a video decoding device targeted for video signals in 4: 2: 0 format.
  • the present invention can also be applied to color difference signals in 4: 2: 0 format by halving each size.
  • FIG. 2 is a block diagram showing the configuration of the video encoding device according to the first embodiment.
  • the video encoding apparatus shown in FIG. 2 divides a 4: 4: 4 format input video frame into M max ⁇ M max pixel blocks (hereinafter referred to as “reference blocks”), and performs motion prediction in units of the same reference blocks. And the prediction error signal is compressed and encoded.
  • reference blocks M max ⁇ M max pixel blocks
  • an input video signal (moving image signal) 1 to be encoded is divided into units of a reference block (M pixel ⁇ M line rectangular block) by a block dividing unit 2 to generate an encoded signal (macroblock image) 3.
  • FIG. 3 shows a reference block generated by the block dividing unit 2.
  • the reference block is configured as reference block data of a unit in which rectangular blocks each having M max ⁇ M max pixels are collected.
  • the reference block size M max is determined and encoded at a frame or sequence, or an upper layer data level such as GOP (Group Of Pictures). Note that the reference block size Mmax may be changed within the frame, but in this case, the reference block size Mmax is designated in units of a plurality of macroblocks such as slices.
  • the reference block data is further divided into “motion prediction unit blocks” of L i ⁇ M i pixel blocks (i: color component identifiers), and motion prediction and encoding are performed based on the motion prediction unit blocks.
  • the reference block of each color component in the 4: 4: 4 format is the same for the three color components C0, C1, and C2, and the three color components are used when the size of the reference block is changed. All are changed to the same reference block size.
  • Each of the motion prediction unit block sizes L i and M i can be selected for each of the color components C0, C1, and C2, and can be changed in units of sequence, GOP, frame, reference block, and the like. Also good. By adopting such a configuration, it is possible to flexibly determine the motion prediction unit block size according to the difference in the signal properties for each color component without changing the reference block size. In addition, since the size of the reference block is not dynamically changed, it is possible to efficiently implement the coding / decoding process in parallel and pipelined in units of the reference block.
  • the prediction unit (inter-frame prediction unit) 4 performs motion compensation prediction on the image signal of each color component in the reference block to generate a prediction signal (prediction image) 12 and a reference image held in the memory (frame memory) 16.
  • the prediction error signal 5 is obtained by subtracting the signal from the encoded signal 3.
  • the compression unit 6 performs conversion processing such as DCT processing on the prediction error signal 5 to remove the signal correlation, and then quantizes to obtain prediction error compressed data 7.
  • the compression unit 6 has a plurality of conversion processing modes that can be applied to the prediction error signal 5, and an optimum mode is selected from these to perform the encoding processing, and the selected mode is the conversion processing mode.
  • the information 32 is output to the variable length encoding unit 8.
  • the operation of the compression unit 6 is a feature of the video encoding apparatus according to the first embodiment, and will be described in detail later.
  • a variable length coding unit (entropy coding unit) 8 entropy codes the prediction error compressed data 7 and outputs it as a bit stream 9.
  • the local decoding unit 10 obtains a decoded prediction error signal 11 from the prediction error compressed data 7.
  • This decoded prediction error signal 11 is added to the prediction signal 12 used to generate the prediction error signal 5 by the adding unit to become a decoded signal (local decoded image) 13, which is input to the loop filter 14.
  • a prediction signal generation parameter (interframe prediction information) 17 determined by the prediction unit 4 to obtain the prediction signal 12 is sent to the variable length coding unit 8 and output as a bit stream 9.
  • the prediction signal generation parameter 17 is sent to the variable length coding unit 8 and output as the bit stream 9.
  • the contents of the prediction signal generation parameter 17 will be described in detail later together with the description of the prediction unit 4.
  • the loop filter 14 performs block distortion correction using the prediction signal generation parameter 17 and the quantization parameter 19 on the decoded signal 13 on which block distortion generated along with transform coefficient quantization in the compression unit 6 is superimposed.
  • a reference block is a macroblock
  • a method of encoding while selecting intraframe encoding or interframe predictive encoding in units of macroblocks is generally used. is there. This is because when the motion prediction between frames is not sufficient, the use of the correlation within the frame may make the encoding more efficient.
  • the description of the intraframe encoding and the selective use thereof will not be specified in the text when explaining the points of the invention, but unless otherwise specified, the reference block The configuration is such that selective use of intra-frame coding in units of.
  • the reference block may be defined as a macroblock, but the term “reference block” will be used hereinafter for the description of motion prediction.
  • the detailed operation of the prediction unit 4 that is one of the features of the first embodiment will be described below.
  • the features of the prediction unit 4 of the first embodiment are the following two points. (1) Linked adaptation of the size of the reference block / motion prediction unit block and the division shape used for motion prediction. (2) Determination of motion prediction mode and motion vector according to the properties of each color component.
  • the prediction unit 4 first divides the reference block into motion prediction unit blocks of L i ⁇ M i pixels in accordance with the characteristics of the signals of the respective color components, and further divides the motion prediction unit block into l i ⁇ . Divide into a plurality of shapes consisting of combinations of mi pixels. Then, the prediction unit 4 performs prediction by assigning a unique motion vector to each divided region, selects a shape having the highest prediction efficiency as a motion prediction mode, and uses each resultant divided motion vector as a motion vector. A prediction error signal 5 is obtained by performing a motion prediction on.
  • the divided shape in the motion prediction unit block is assumed to be a shape constituted by a combination of “basic blocks” composed of l ⁇ m pixels.
  • FIG. 4 shows the basic block division shape determined by these conditions.
  • FIG. 4 is an explanatory diagram showing a shape example obtained by dividing the motion prediction unit block by the basic block unit by the prediction unit 4.
  • the divided pattern (divided pattern) shown in FIG. 4 may be common to the three color components, or may be configured to be determined independently. Also good.
  • the divided patterns mc_mode 0 to 7 are hereinafter referred to as “motion prediction mode”.
  • Non-Patent Document 3 discloses a method for diversifying the division shape of a motion prediction application region with respect to a conventional macroblock.
  • the division shape is expressed by the intersection position between a line segment for performing macroblock division and its block boundary.
  • this method is a method of increasing the division pattern in the reference block while the number of pixels M is fixed, and has the following problems.
  • the approach of FIG. 4 in the video encoding apparatus is as follows: 1) The value of M max is set to a higher level such as a frame based on the encoding conditions and the resolution and properties of the video signal. in that a changeable, 2) M max ⁇ be dividable pixel blocks of M max to the basic block L i ⁇ M i pixels according to the characteristics of each color component C i, 3) division condition of basic blocks.
  • M max be dividable pixel blocks of M max to the basic block L i ⁇ M i pixels according to the characteristics of each color component C i
  • the value of the size M max of the basic block is not changed locally within the frame or slice, but can be changed only at a higher data structure level such as a frame level or a frame sequence (sequence, GOP).
  • This mechanism makes it possible to adapt to differences in the meaning of the image signal patterns included in the reference block. For example, the meaning of the signal pattern in the same M max ⁇ M max pixel block is different between a video with a small resolution (Video Graphics Array, VGA, etc.) and a video with a large resolution (HDTV, etc.).
  • the processing unit for motion prediction can be optimized according to the signal characteristics of each color component. Furthermore, by providing a limited degree of freedom of the division pattern in the motion prediction unit block as shown in FIG.
  • the overall efficiency of motion prediction is suppressed while suppressing the amount of code required for the division pattern representation in the motion prediction unit block. Can be improved. Further, if the process of determining the value of the reference block size Mmax at the frame level is performed efficiently, then the variation of the division pattern to be inspected in the reference block can be reduced as compared with the prior art. The load can be reduced.
  • Examples of a method for determining the value of the reference block size M max include the following methods. (1) Determine based on the resolution of the video to be encoded. In the case of the same M max value, when the resolution is high, the image signal pattern in the reference block has a more noise component meaning, and the motion vector becomes difficult to capture the image signal pattern. In such a case, the M max value is increased so that the image signal pattern can be captured. (2) with a small M max value if activity is greater the magnitude of the difference value is regarded as the activity between frames, it is smaller performs motion prediction with a large M max value. In addition, the size control at this time is determined based on the frame rate of the video to be encoded.
  • the motion prediction unit block sizes L i and M i are determined for each color component.
  • the input video signal 1 is a signal defined in a color space of YUV (or YCbCr or the like)
  • the U / V component that is a color signal has a narrower signal band than the luminance signal Y component. Therefore, the intra-block variance is smaller than the luminance.
  • an example of a judgment criterion such that the U / V component sizes L i and M i are configured to take values larger than the luminance signal Y component sizes L i and M i can be considered (FIG. 3). reference).
  • the video encoding apparatus includes a reference block size determination unit for determining values of M max , L i , and M i and notifying each unit, and a reference block size The structure which determines the information 18 may be sufficient.
  • the prediction unit 4 executes a motion detection process using the division patterns of FIGS. 3 and 4 based on the motion prediction unit block sizes L i and M i derived from the reference block size information 18.
  • FIG. 5 is a flowchart showing the operation of the prediction unit 4.
  • the prediction unit 4 performs motion prediction on the C i component of the frame in units of motion prediction unit blocks of L i ⁇ M i pixels. Basically, in this process, the optimum motion vector for each divided region is detected in the designated motion search range for each of the divided patterns from mc_mode 0 to 7 in FIG. 4, and finally mc_mode 0 for the motion prediction unit block is detected. It is determined which of the motion prediction modes (1) to (7) is the best in prediction efficiency.
  • the prediction efficiency is calculated between the total code amount R of the motion vectors in the motion prediction unit block, the prediction signal 12 generated from the reference image stored in the memory 16 by applying the motion vector, and the input video signal 1. It is defined by the following cost J derived from the prediction error amount D.
  • FIG. 6 illustrates a method for calculating the cost J by taking the case of mc_mode5 as an example.
  • the motion prediction unit block to be predicted in the frame F (t) is composed of two divided regions B 0 and B 1 .
  • the memory 16 stores two encoded / locally decoded reference images F ′ (t ⁇ 1) and F ′ (t ⁇ 2), and the divided areas B 0 and B 1 are stored in 2 Assume that motion prediction can be performed using the reference images F ′ (t ⁇ 1) and F ′ (t ⁇ 2).
  • FIG. 6 illustrates a method for calculating the cost J by taking the case of mc_mode5 as an example.
  • the motion prediction unit block to be predicted in the frame F (t) is composed of two divided regions B 0 and B 1 .
  • the memory 16 stores two encoded / locally decoded reference images F ′ (t ⁇ 1) and F ′ (t ⁇ 2), and the divided areas B 0 and B 1 are stored in 2 Assume that motion prediction can be performed using
  • the divided area B 0 uses the reference image F ′ (t ⁇ 2) to detect a motion vector MV t ⁇ 2 (B 0 ), and the divided area B 1 uses the reference image F ′ (t ⁇ 1).
  • the motion vector MV t-1 (B 1 ) is detected.
  • v is a motion vector
  • the prediction error amount D of the divided area B is the sum of absolute differences (Sum of Absolute Difference, SAD) can be used to calculate the following equation (2).
  • MVD (B 0 ) MV t ⁇ 2 (B 0 ) ⁇ PMV (B 0 ) (3)
  • MVD (B 1 ) MV t ⁇ 1 (B 1 ) ⁇ PMV (B 1 )
  • the prediction unit 4 calculates the cost J for all motion vectors to be inspected within the search range, and obtains a solution having the smallest cost J as the division pattern of mc_mode5.
  • Mc_mode7 for further l i ⁇ m i pixel block configured to select a mode of mc_mode0 ⁇ 7.
  • the name of the mode at this time is sub_mc_mode 0 to 7 for convenience.
  • the processing for determining sub_mc_mode for l i ⁇ m i pixel blocks is based on the processing flow of FIG. 5, and the cost J 7 of mc_mode 7 corresponding to the L i ⁇ M i pixel block unit is l i ⁇ m i pixels.
  • the total cost obtained using sub_mc_mode determined in block units.
  • step ST2 “Yes” the prediction unit 4 outputs the motion prediction mode, the motion vector, and the prediction error signal 5 that have been held so far as a final solution (step ST5). ). Otherwise (step ST2 “No” or step ST4 “No”), the variable k is incremented in step ST6, and the process returns to step ST1 to verify the next motion prediction mode.
  • the prediction error signal 5 and the prediction signal generation parameter 17 are output, and these are entropy encoded by the variable length encoding unit 8.
  • the features of the compression unit 6 and the local decoding unit 10 according to the first embodiment are as follows. (1) Switching between transformation / inverse transformation processing according to the shape of the motion vector allocation area. (2) Application of variable resolution conversion / inverse conversion processing.
  • FIG. 8 is a block diagram showing an internal configuration of the compression unit 6 according to the first embodiment.
  • the compression unit 6 receives the prediction error signal 5, performs a conversion process to remove the correlation between the pixels, performs quantization, and quantizes coefficient data 7 a and 7 b (prediction error compression data) multiplexed in the bit stream 9. 7). Since the above features (1) and (2) are provided, the conversion processing determination unit 31 first selects a conversion processing method. This process is performed with reference to the motion prediction mode included in the prediction signal generation parameter 17.
  • the conversion process determining unit 31 sets the unit for performing the conversion process to (m / 2) ⁇ (l / 2) pixel blocks, and for each motion vector allocation region
  • a means having a high coding efficiency (the coding distortion is small if the code amount is the same, and the code quantity is small if the coding code is the same) is selected from the following two options (a) and (b). This can be achieved, for example, by evaluating the results of actually trying two options.
  • A The motion vector allocation area is equally divided into (m / 2) ⁇ (l / 2) pixel blocks, and transformation and quantization are performed respectively.
  • the motion vector allocation region is equally divided into m ⁇ l pixel blocks, and each is horizontally down-sampled to generate (m / 2) ⁇ (l / 2) pixel blocks. Conversion and quantization.
  • the conversion process determining unit 31 outputs the selection result to the switch (conversion selection switch, SW) 33 as conversion process mode information 32.
  • the switch 33 switches the conversion processing method for each motion vector allocation area according to the conversion processing mode information 32.
  • the conversion processing mode information 32 is the content for selecting the option (a)
  • the prediction error signal 5 of each motion vector assignment region is directly input to the conversion unit 34, and (m / 2) ⁇ (l / 2) pixel block.
  • the result is quantized by the quantizing unit 35 and output as quantized coefficient data 7a. Note that the conversion unit 34 and the quantization unit 35 shown in the upper part of FIG. 8 are combined to form a second quantization conversion unit.
  • the prediction error signal 5 of each motion vector allocation region is first input to the downsampling processing unit 36 for each m ⁇ l block. Reduction conversion is performed to (m / 2) ⁇ (l / 2) pixel blocks. Next, the same conversion unit 34 and quantization unit 35 as those used in option (a) are transformed and quantized and output as quantized coefficient data 7b. In addition, the conversion unit 34 and the quantization unit 35 shown in the lower part of FIG. 8 are combined to form a first quantization conversion unit.
  • the downsampling processing unit 36 performs pixel thinning by applying a downsampling filter that is designed in accordance with the nature of the prediction error signal 5.
  • the downsampling filter may be arbitrarily selected by applying a linear low-pass filter such as the following equation (4) in the horizontal and vertical directions, or by extracting only the low-frequency component by applying wavelet transform. .
  • a method for transmitting to the video decoding device which one of the quantized coefficient data 7a and 7b is to be selected as the quantized coefficient data of the prediction error compressed data 7 is that the conversion processing mode information 32 is transmitted to the variable length encoding unit 8. This is realized by outputting and multiplexing the information into the bit stream 9.
  • the conversion process determination unit 31 selects the above options (a) and (b) only for a larger area where the motion vector allocation area is not an m ⁇ 1 pixel block.
  • the option (a) is always selected.
  • the option (a) is effective when the motion prediction is lost and the prediction error signal distribution in the motion vector allocation region is not uniform (large variance)
  • the option (b) is effective for motion prediction and the motion vector. This is effective when the prediction error signal distribution in the allocation region is uniform (small variance).
  • Non-Patent Document 1 in order to improve the coding efficiency for the case of option (b), direct DCT for a 16 ⁇ 16 pixel block, that is, the DCT processing target block itself is used for a motion prediction block larger than 16 ⁇ 16 pixels. Suggests size expansion. However, DCT with a large block size has a problem that the number of bits required for coefficient expression increases and affects the hardware cost of the conversion process itself.
  • the (m / 2) ⁇ (l / 2) pixel block corresponds to the minimum motion vector allocation region size in the case of sub_mc_mode7.
  • the transform / quantization process can always be limited to only a process targeting (m / 2) ⁇ (l / 2) pixels, and the number of coefficients to be encoded However, it is possible to perform encoding while suppressing the number of bits necessary for coefficient expression.
  • FIG. 9 shows the internal configuration of local decoding section 10 in the first embodiment.
  • the local decoding unit 10 receives the quantized coefficient data 7 and the conversion processing mode information 32 as input, and a switch (conversion selection switch, SW) 37 follows the instructions of the conversion processing mode information 32 to quantize the prediction coefficient compressed data 7. Determining which of the above options (a) and (b) the data was encoded by the compression unit 6 and switching the process, decoding by performing inverse quantization and inverse transform in a method suitable for each process The prediction error signals 11a and 11b are restored.
  • a switch conversion selection switch
  • the conversion processing mode information 32 indicates the option (a)
  • the quantized coefficient data of the prediction error compressed data 7 is the quantized coefficient data 7a shown in FIG. 8 (m / 2)
  • Each of the ⁇ (l / 2) pixel blocks is inversely quantized and inversely transformed by the inverse quantization unit 38 and the inverse transformation unit 39 to obtain a decoded prediction error signal 11a.
  • the inverse quantization unit 38 and the inverse transform unit 39 shown in the upper part of FIG. 9 are combined to form a second inverse quantization transform unit.
  • the conversion processing mode information 32 indicates that the option (b) is selected, it is determined that the quantized coefficient data of the prediction error compressed data 7 is the quantized coefficient data 7b shown in FIG.
  • the same inverse quantization unit 38 and inverse transform unit 39 as those used in (a) are subjected to inverse quantization and inverse transform, respectively, and the decoded prediction pixel value 40 in units of (m / 2) ⁇ (l / 2) pixel blocks is obtained. obtain. Then, the upsampling processing unit 41 applies a linear interpolation filter to the decoded prediction pixel value 40 of the (m / 2) ⁇ (l / 2) pixel block to generate a decoded prediction error signal 11b including the m ⁇ l pixel block. Generate. Note that the inverse quantization unit 38 and the inverse transform unit 39 shown in the lower part of FIG. 9 are combined to form a first inverse quantization transform unit.
  • the input video signal 1 is encoded by the video encoding device of FIG. 2 based on the above processing, and is video as a bitstream 9 in a unit (hereinafter referred to as a slice) in which a plurality of reference blocks are bundled.
  • FIG. 10 shows a data array of the bit stream 9.
  • the bit stream 9 is configured as a collection of encoded data for the number of reference blocks included in a frame, and the reference blocks are unitized in units of slices.
  • a picture level header to which reference blocks belonging to the same frame refer as a common parameter is prepared, and reference block size information 18 is stored in the picture level header. If the reference block size M max is fixed in sequence units higher than the picture level, the reference block size information 18 may be multiplexed in the sequence level header.
  • the reference block data includes a reference block header and prediction error compression data.
  • the reference block header includes a motion prediction mode mc_mode and a motion vector (corresponding to the prediction signal generation parameter 17) corresponding to the motion prediction unit block in the reference block.
  • the quantization parameter 19 used for generating the prediction error compression data 7 is arranged.
  • the type of mc_mode 0 to 7 is encoded. If the type is mc_mode 0 to 6, the motion vector information corresponding to the motion vector allocation region specified in the motion prediction mode is encoded. If the type is mc_mode7, sub_mc_mode is encoded for each basic block.
  • the quantization parameter 19 for each reference block is multiplexed, and the prediction error compressed data 7 (corresponding to the quantized coefficient data 7a and 7b) output from the compression unit 6 is multiplexed.
  • the prediction error compression data 7 (quantized coefficient data 7a, 7b) is encoded before the prediction error compression data by the compression unit 6 and the local decoding.
  • the conversion processing mode information 32 is multiplexed as information indicating whether processing has been performed with any of the options (a) and (b) in the unit 10.
  • the reference block size determining unit is configured so that the size L i and M i of the motion prediction unit block used in each reference block can be selected for each reference block.
  • the size may be multiplexed in each reference block header.
  • the size of the motion prediction unit block can be changed according to the nature of the local image signal, It becomes possible to perform motion prediction with higher adaptability.
  • Information indicating whether to be multiplexed on each reference block header or fixedly multiplexed on a higher level header such as a sequence, GOP, picture, slice, etc.
  • identification information in an upper level header such as a sequence, GOP, picture, slice, etc. As long as it is multiplexed. As a result, if there is little influence on the motion prediction performance even if it is fixed at a higher level, the overhead for encoding the sizes L i and M i of the motion prediction unit block is reduced for each reference block, and efficient coding is performed. Is possible.
  • FIG. 11 is a block diagram showing the configuration of the video decoding device according to the first embodiment.
  • the variable length decoding unit (entropy decoding unit) 100 receives the bitstream 9 shown in FIG. 10, decodes the sequence level header, and then decodes the picture level header to decode the reference block size information.
  • the reference block size M max and the motion prediction unit block sizes L i and M i used in the picture are recognized, and the reference block size information 18 is notified to the prediction error decoding unit 101 and the prediction unit 102.
  • variable-length decoding unit 100 uses the motion prediction unit block sizes L i and M i. Is decoded in each reference block header, and the sizes L i and M i of the motion prediction unit blocks are recognized by decoding each reference block header based on the identification information. To be configured.
  • the reference block data is first decoded from the reference block header. Subsequently, the motion prediction mode to be applied per motion prediction unit block is decoded.
  • the motion prediction mode first, mc_mode is decoded in units of motion prediction unit blocks. In the case of mc_mode7, sub_mc_mode is decoded for each basic block, and in other cases, motion vectors are decoded by the number of motion vector allocation regions, and further, quantization parameter 19 and conversion processing mode information 32 for each reference block. The information such as the prediction error compressed data 7 is sequentially decoded.
  • the prediction error compression data 7, the quantization parameter 19, and the transformation processing mode information 32 are input to the prediction error decoding unit 101 and restored to the decoded prediction error signal 11.
  • the prediction error decoding unit 101 performs processing equivalent to the local decoding unit 10 in the video encoding device in FIG. 2 based on the decoded conversion processing mode information 32. That is, the prediction error decoding unit 101 includes a switch 37, an inverse quantization unit 38, an inverse conversion unit 39, and an upsampling processing unit 41 illustrated in FIG. 9, and the switch 37 sets the upsampling processing unit 41 according to the conversion processing mode information 32. Select whether or not to go through, and perform inverse quantization and inverse transform.
  • the prediction unit 102 generates the prediction signal 12 from the prediction signal generation parameter 17 decoded by the variable length decoding unit 100 and the reference image signal 15 in the memory 103.
  • the prediction unit 102 performs processing equivalent to the prediction unit 4 in the video encoding device, but does not include a motion vector detection operation.
  • the motion prediction mode is one of mc_modes 0 to 7 shown in FIG. 4, and the prediction unit 102 generates a decoded signal (decoded image) 13 using a motion vector assigned to each basic block based on the divided shape.
  • the decoded prediction error signal 11 and the prediction signal 12 are added by the adder and input to the loop filter 104 as the decoded signal 13.
  • the decoded signal 13 is subjected to processing for removing coding noise by the loop filter 104 and then stored in the memory 103 as a reference image signal 15 for generating the subsequent prediction signal 12.
  • the video encoding device divides each frame of the input video signal 1 that is input into macroblocks of a predetermined size and outputs the result as the encoded signal 3, Based on the memory 16 that stores the reference image signal 15, the reference image signal 15 in the memory 16, and the encoded signal 3, the inter-frame prediction is performed to generate the prediction signal 12, and the inter-frame prediction method is specified.
  • the information is output as the prediction signal generation parameter 17 and the prediction signal 12 is subtracted from the encoded signal 3 to generate the prediction error signal 5.
  • the prediction error signal 5 is downsampled and the reduced prediction error signal is generated.
  • a down-sampling processing unit 36 that generates a conversion prediction signal, a conversion unit 34 that converts the reduced prediction error signal, a quantization unit 35 that quantizes, and a quantization coefficient data output from the quantization unit 35
  • Up-sampling processing for generating a decoded prediction error signal 11b by up-sampling the decoded prediction pixel value 40 output from the inverse transformation unit 39, the inverse transformation unit 39 for inverse transformation, and the inverse transformation unit 39.
  • Unit 41 an addition unit that adds decoded prediction error signal 11b and prediction signal 12 to generate decoded signal 13, and outputs this decoded signal 13 to memory 16 as a reference image, quantized coefficient data 7b, and prediction signal
  • the generation parameter 17 is entropy-encoded, and the variable-length encoding unit 8 that outputs the bit stream 9 is provided.
  • the downsampling processing unit 36, the conversion unit 34, the quantization unit 35, the inverse quantization unit 38, the inverse transformation unit 39, and the upsampling processing unit 41 are used, or the conversion unit 34, the quantization unit 35, and the inverse quantization unit.
  • the prediction error signal is reduced in resolution by converting the resolution in units of blocks, and then encoded by performing conversion, quantization, inverse quantization, and inverse conversion to perform resolution conversion and enlargement. Efficiency can be increased and the circuit scale can be reduced. Therefore, in order to efficiently encode the 4: 4: 4 format color video signal, the encoding of the prediction error signal 5 generated as a result of the motion prediction is performed even when the motion vector allocation area of the motion compensation prediction is large. Can be implemented efficiently in accordance with the signal distribution state, while suppressing the mounting load, and a video encoding apparatus that can maintain encoding quality even at a high compression rate can be provided at low cost.
  • the video decoding apparatus performs entropy decoding on the input bit stream 9 and outputs the prediction signal generation parameter 17 and the quantized coefficient data included in the bit stream 9.
  • Unit 100 memory 103 that stores reference image signal 15, inverse quantization unit 38 that inversely quantizes quantized coefficient data, inverse transform unit 39 that performs inverse transform, and decoded prediction pixel value output by inverse transform unit 39 40, up-sampling processing unit 41 for generating decoded prediction error signal 11b, prediction unit 102 for generating prediction signal 12 from reference image signal 15 in memory 103 according to prediction signal generation parameter 17, and decoded prediction
  • the error signal 11b and the prediction signal 12 are added to generate a decoded signal 13, and this decoded signal 13 is referred to as a reference image signal 15 and Configured as an adding section for outputting to the memory 103 Te.
  • a switch 37 for selecting whether to use the inverse quantization unit 38, the inverse transformation unit 39, and the upsampling processing unit 41 or to use the inverse quantization unit 38 and the inverse transformation unit 39 according to the decoded transformation processing mode information 32 is provided. It was configured to provide. Therefore, it is possible to provide a video decoding device corresponding to the video encoding device.
  • the encoding / decoding process according to the present invention uses the conventional luminance / chrominance component format.
  • video coding for 4: 2: 0 or 4: 2: 2 format that has been subjected to color thinning in the above
  • the present invention can also be applied to the case of encoding / decoding in units of reference blocks such as macroblocks. Needless to say.
  • the video encoding device, video decoding device, video encoding method, and video decoding method have a good implementation load balance and better remove signal correlation according to the statistical and local characteristics of the video signal to be encoded. Therefore, the present invention is suitable for use in encoding a 4: 4: 4 format ultra-high definition video signal.

Abstract

 映像符号化装置の圧縮部6において、変換処理決定部31は、予測誤差信号5をダウンサンプリング処理部36で縮小変換してから変換・量子化するか否かを選択して、量子化係数データ7a,7bいずれかを生成する。量子化係数データ7b生成の場合、続く局所復号部で、量子化係数データ7bを逆量子化・逆変換した後、アップサンプリング処理部で拡大変換して、復号予測誤差信号を生成する。

Description

映像符号化装置、映像復号装置、映像符号化方法、および映像復号方法
 この発明は、映像圧縮符号化技術や圧縮映像データ伝送技術等に用いられる映像符号化装置、映像復号装置、映像符号化方法、および映像復号方法に関する。
 従来、MPEGやITU-T H.26x等の国際標準映像符号化方式では、入力映像フレームを、16×16画素ブロックからなるマクロブロックの単位に分割して圧縮処理を行う。
 一方、近年、HDTV(High Definition TeleVision,1920×1080画素)の4倍相当の空間解像度を有する4K×2K画素の映像フォーマット、さらにその4倍に相当する8K×4K画素の映像フォーマット、あるいは色信号のサンプル数を増やして色再現性を高める4:4:4映像信号フォーマット等の高精細・高品質映像を圧縮符号化する技術が望まれている。このような高精細・高品質映像を圧縮符号化する場合は、16×16画素のマクロブロックでは画像信号相関を十分に利用した符号化が行えなくなり、高い圧縮率を実現することが難しくなってくる。このような課題に対応するため、例えば、従来の16×16画素マクロブロックの大きさを、非特許文献1のように32×32画素ブロックへ拡張して、動きベクトルの割り当て単位を大きくして予測に必要なパラメータの符号量を削減したり、予測誤差信号の変換符号化のブロックサイズを大きくして、信号の画素間相関を効果的に除去したりする技術が提案されている。
 図12は、非特許文献1による符号化装置の構成を示すブロック図である。非特許文献1による符号化では、まず、符号化対象となる入力映像信号1001を、ブロック分割部1002においてマクロブロック(輝度信号相当で32画素×32ラインの矩形ブロック)の単位に分割し、符号化映像信号1003として予測部1004へ入力する。
 予測部1004では、マクロブロック内の各色成分の画像信号をフレーム内・フレーム間で予測して、予測誤差信号1005を得る。特に、フレーム間で動き補償予測を行う場合、マクロブロック自体、またはマクロブロックをさらに細かく分割したサブブロックの単位で動きベクトルを探索し、動きベクトルに基づいて動き補償予測画像を生成して、符号化映像信号1003との差分を取ることによって予測誤差信号1005を得る。なお、非特許文献3では、従来のマクロブロックに対して、マクロブロックの大きさを16×16画素固定のまま、動き予測領域の分割形状を多様化する手法が提案されている。
 圧縮部1006は、予測誤差信号1005に対して、動きベクトルの割り当て単位領域の大きさに応じてブロックサイズを変更しながらDCT(離散コサイン変換)処理を施して信号相関を除去した後、量子化して圧縮データ1007を得る。圧縮データ1007は可変長符号化部1008でエントロピー符号化されてビットストリーム1009として出力されるとともに、局所復号部1010に送られ、復号予測誤差信号1011を得る。
 この復号予測誤差信号1011を、予測誤差信号1005の生成に用いた予測信号1012と加算して復号信号1013にして、ループフィルタ1014に入力する。復号信号1013は、ループフィルタ1014でブロックひずみを除去する処理が施された後、以降の予測信号1012を生成するための参照画像信号1015としてメモリ1016に格納される。なお、予測信号1012を得るために予測部1004において決定された予測信号生成用パラメータ1017は可変長符号化部1008へ送られ、ビットストリーム1009に多重されて出力される。ここで、予測信号生成用パラメータ1017には、例えば、フレーム内での空間予測をどのように行うかを示すイントラ予測モードや、フレーム間の動き量を示す動きベクトル等の情報が含まれる。
 従来のMPEGやITU-T H.26x等の国際標準映像符号化方式がマクロブロックサイズとして16×16画素ブロックを採用していたのに対して、非特許文献1では、32×32画素ブロックのマクロブロックサイズ(スーパーマクロブロック:SMB)を用いる。図13は、M×M画素マクロブロックごとに動き補償予測を行う際の動きベクトル割り当て領域の分割形状の様子を示し、図13(a)は非特許文献1のSMB、図13(b)は従来のMPEG-4 AVC/H.264(非特許文献2参照)のマクロブロックである。SMBが画素数M=32として動きベクトル1本あたりがカバーする動き予測領域の面積を大きく取るのに対して、従来のマクロブロックは画素数M/2=16を用いている。これにより、SMBでは画面全体として必要になる動きベクトルの情報量が画素数M/2=16に比べて少なくなるため、ビットストリームとして伝送すべき動きベクトル符号量を抑制することが可能である。
 また、非特許文献1では、分割形状のサイズが(M/2)×(M/2)よりも大きい場合、DCTブロックサイズを16×16画素に設定し、広範な領域の画像間相関を一括除去するように構成している。これによって、予測誤差信号の圧縮効率を高めている。
Siwei Ma and C.-C. Jay Kuo, "High-definition Video Coding with Super-macroblocks", Proc. SPIE, Vol. 6508, 650816 (2007) MPEG-4 AVC(ISO/IEC 14496-10)/ITU-T H.264規格 S.Kondo and H.Sasai, "A Motion Compensation Technique using Sliced Blocks and its Application to Hybrid Video Coding", VCIP 2005, July 2005
 上述のように、非特許文献1の従来方式では、マクロブロックの大きさを拡張して、動きベクトルの割り当て単位を大きくして予測に必要なパラメータの符号量を削減したり、信号の画素間相関を除去して、予測誤差信号の圧縮効率を高めたりしていた。その一方で、大きなDCTブロックサイズを適用することは、変換係数を表現する際に必要となる有効桁数の増加を伴うため、係数表現ビット数の増加につながるという課題がある。
 この発明は、上記のような課題を解決するためになされたもので、実装負荷バランスがよく、符号化対象となる映像信号の統計的・局所的性質に応じて信号相関をよりよく除去して効率的な情報圧縮を行う映像符号化方法を実現して、超高精細映像信号の符号化のために最適性を高めた映像符号化装置およびその方法、並びに映像復号装置およびその方法を提供することを目的とする。
 この発明に係る映像符号化装置は、入力される動画像信号の各フレームを所定サイズのマクロブロックに分割してマクロブロック画像として出力するブロック分割部と、参照画像を蓄積するフレームメモリと、フレームメモリの参照画像とマクロブロック画像とを元にフレーム間予測を行って予測画像を生成すると共に、当該フレーム間予測の方法を特定する情報をフレーム間予測情報として出力するフレーム間予測部と、マクロブロック画像から予測画像を減じ、予測誤差信号を生成する予測部と、予測誤差信号をダウンサンプリングし、縮小予測誤差信号を生成するダウンサンプリング処理部と、縮小予測誤差信号を変換・量子化し、量子化変換係数を生成する第一の量子化変換部と、量子化変換係数を逆量子化・逆変換し、復号縮小予測誤差信号を生成する第一の逆量子化変換部と、復号縮小予測誤差信号をアップサンプリングし、復号予測誤差信号を生成するアップサンプリング処理部と、復号予測誤差信号と予測画像とを加算して局所復号画像を生成し、当該局所復号画像を参照画像としてフレームメモリに出力する加算部と、量子化変換係数とフレーム間予測情報をエントロピー符号化し、符号化データを出力するエントロピー符号化部とを備えるようにしたものである。
 この発明に係る映像復号装置は、入力される符号化データをエントロピー復号し、当該符号化データに含まれるフレーム間予測情報および量子化変換係数を出力するエントロピー復号部と、参照画像を蓄積するフレームメモリと、量子化変換係数を逆量子化・逆変換し、復号縮小予測誤差信号を生成する第一の逆量子化変換部と、復号縮小予測誤差信号をアップサンプリングし、復号予測誤差信号を生成するアップサンプリング処理部と、フレーム間予測情報に従って、フレームメモリの参照画像から予測画像を生成する予測部と、復号予測誤差信号と予測画像を加算して復号画像を生成し、当該復号画像を参照画像としてフレームメモリに出力する加算部とを備えるようにしたものである。
 この発明に係る映像符号化方法は、入力される動画像信号の各フレームを所定サイズのマクロブロックに分割してマクロブロック画像として出力するブロック分割ステップと、フレームメモリに蓄積された参照画像とマクロブロック画像とを元にフレーム間予測を行って予測画像を生成すると共に、当該フレーム間予測の方法を特定する情報をフレーム間予測情報として出力するフレーム間予測ステップと、マクロブロック画像から予測画像を減じ、予測誤差信号を生成する予測ステップと、予測誤差信号をダウンサンプリングし、縮小予測誤差信号を生成するダウンサンプリング処理ステップと、縮小予測誤差信号を変換・量子化し、量子化変換係数を生成する第一の量子化変換ステップと、量子化変換係数を逆量子化・逆変換し、復号縮小予測誤差信号を生成する第一の逆量子化変換ステップと、復号縮小予測誤差信号をアップサンプリングし、復号予測誤差信号を生成するアップサンプリング処理ステップと、復号予測誤差信号と予測画像とを加算して局所復号画像を生成し、当該局所復号画像を参照画像としてフレームメモリに出力する加算ステップと、量子化変換係数とフレーム間予測情報をエントロピー符号化し、符号化データを出力するエントロピー符号化ステップとを備えるようにしたものである。
 この発明に係る映像復号方法は、入力される符号化データをエントロピー復号し、当該符号化データに含まれるフレーム間予測情報および量子化変換係数を出力するエントロピー復号ステップと、量子化変換係数を逆量子化・逆変換し、復号縮小予測誤差信号を生成する第一の逆量子化変換ステップと、復号縮小予測誤差信号をアップサンプリングし、復号予測誤差信号を生成するアップサンプリング処理ステップと、フレーム間予測情報に従って、フレームメモリに蓄積された参照画像から予測画像を生成する予測ステップと、復号予測誤差信号と予測画像を加算して復号画像を生成し、当該復号画像を参照画像としてフレームメモリに出力する加算ステップとを備えるようにしたものである。
 この発明によれば、予測誤差信号をダウンサンプリングおよび変換・量子化して量子化変換係数を生成するとともに、量子化変換係数をアップサンプリングおよび逆量子化・逆変換して復号予測誤差信号を生成するようにしたので、実装負荷バランスがよく、符号化対象となる映像信号の統計的・局所的性質に応じて信号相関をよりよく除去して効率的な情報圧縮を行う映像符号化方法を実現して、4:4:4フォーマットの超高精細映像信号の符号化のために最適性を高めた映像符号化装置およびその方法、並びに映像復号装置およびその方法をローコストで提供することができる。
この発明の実施の形態1に係る映像符号化装置および映像復号装置が処理対象とする4:4:4フォーマットを示す。 実施の形態1に係る映像符号化装置の構成を示すブロック図である。 図2に示すブロック分割部が生成する基準ブロックを示す説明図である。 図2に示す予測部による、動き予測単位ブロックを基本ブロック単位で分割した形状例を示す説明図である。 図2に示す予測部の動作を示すフローチャートである。 予測部によるコストJの計算方法を説明するための図である。 予測部による動き予測モードmc_mode1~4の予測ベクトルPMVの算出例を示す図である。 図2に示す圧縮部の内部構成を示すブロック図である。 図2に示す局所復号部の内部構成を示すブロック図である。 ビットストリームのデータ配列を示す説明図である。 実施の形態1に係る映像復号装置の構成を示すブロック図である。 非特許文献1による符号化装置の構成を示すブロック図である。 非特許文献1による符号化装置において、マクロブロックごとに動き補償予測を行う際の動きベクトル割り当て領域の分割形状の様子を示す。
 以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面にしたがって説明する。
実施の形態1.
 本実施の形態では、4:4:4フォーマットで入力されるデジタル映像信号の圧縮伸張を行う映像符号化装置および映像復号装置につき、各色成分の信号の状態に適応して動き補償予測処理を行う映像符号化装置および映像復号装置について述べる。
 ここで、図1に、実施の形態1に係る映像符号化装置および映像復号装置が入力として用いる4:4:4フォーマットを示す。4:4:4フォーマットとは、図1(a)に示すように、カラー動画像を構成する3つの信号成分C0,C1,C2の画素数がすべて同じであるフォーマットのことを指す。3つの信号成分の色空間は、RGBまたはXYZであってもよいし、輝度・色差(YUV、YCbCr、またはYPbPr)であってもよい。4:4:4フォーマットに対して、図1(b)に示す4:2:0フォーマットは、色空間がYUV、YCbCr、またはYPbPrであり、かつ、輝度Yの画素数に対して色差信号成分(例えばYCbCrならCb,Cr)のそれが水平W・垂直Hそれぞれ2分の1となるフォーマットのことを呼ぶ。
 以下に説明する映像符号化装置および映像復号装置は、特に、4:4:4フォーマットの色空間がYUV、YCbCr、またはYPbPrであり、かつ、各色成分を輝度成分相当とみなして処理を行う方式に限定して説明する。ただし、以下に説明する動作は、4:2:0フォーマットの映像信号を対象とする映像符号化装置および映像復号装置においても、その輝度信号に対して直接適用できることは言うまでもない。また、4:2:0フォーマットの色差信号に対してもそれぞれのサイズを半分にすることによって適用できる。
1.映像符号化装置
 図2は、実施の形態1に係る映像符号化装置の構成を示すブロック図である。図2に示す映像符号化装置は、4:4:4フォーマットの入力映像フレームをMmax×Mmax画素ブロック(以下、「基準ブロック」と呼ぶ)に分割し、同基準ブロックの単位で動き予測を行い、予測誤差信号を圧縮符号化するように構成する。
 まず、符号化対象となる入力映像信号(動画像信号)1は、ブロック分割部2において基準ブロック(M画素×Mラインの矩形ブロック)の単位に分割されて符号化信号(マクロブロック画像)3として予測部4へ入力される。図3に、ブロック分割部2が生成する基準ブロックを示す。図3に示すように、基準ブロックは、Mmax×Mmax画素からなる矩形のブロックをまとめた単位の基準ブロックデータとして構成する。詳細は後述するが、基準ブロックサイズMmaxはフレーム若しくはシーケンス、またはGOP(Group Of Pictures)等の上位レイヤデータレベルで決定・符号化する。なお、フレーム内で基準ブロックサイズMmaxを変更するように構成してもよいが、その場合は、スライス等の複数マクロブロックをまとめた単位で基準ブロックサイズMmaxを指定するようにする。
 基準ブロックデータは、さらにL×M画素ブロック(i:色成分識別子)の「動き予測単位ブロック」に分割され、動き予測単位ブロックをベースとして動き予測、符号化が行われる。図3(a)における動き予測単位ブロックのパターンはL=Mmax/2、M=Mmax/2、図3(b)における動き予測単位ブロックのパターンはL=Mmax/2、M=Mmaxであり、図3(a),(b)ともにL=M=L=M=Mmaxである。なお、以下の説明においては、4:4:4フォーマットの各色成分の基準ブロックについては、3つの色成分C0,C1,C2で同一とし、基準ブロックのサイズを変更する場合は、3つの色成分全てについて、同一の基準ブロックのサイズに変更するものとする。また、動き予測単位ブロックのサイズL,Mそれぞれについては、色成分C0,C1,C2ごとに選択可能として、シーケンス、GOP、フレーム、基準ブロック等の単位で変更可能となるよう構成してもよい。このような構成をとることにより、基準ブロックサイズは変更することなく、色成分ごとの信号の性質の違いに応じて、動き予測単位ブロックサイズを柔軟に決定することができる。また、基準ブロックのサイズは動的に変更しないので、基準ブロックを単位とする符号化・復号処理の並列化・パイプライン化を考慮した効率的な実装が可能である。
 予測部(フレーム間予測部)4では、基準ブロック内の各色成分の画像信号を動き補償予測して、予測信号(予測画像)12を生成するとともに、メモリ(フレームメモリ)16が保持する参照画像信号を符号化信号3から減じて予測誤差信号5を得る。この予測部4のより詳細な動作は後述する。圧縮部6は、予測誤差信号5に対してDCT処理などの変換処理を施して信号相関を除去した後、量子化して予測誤差圧縮データ7を得る。このとき、圧縮部6では予測誤差信号5に対して適応可能な変換処理のモードを複数有し、これらのうちから最適なモードを選択して符号化処理を行い、選択したモードは変換処理モード情報32として、可変長符号化部8へ出力する。なお、圧縮部6の動作については、本実施の形態1の映像符号化装置の特徴であるため、後で詳しく述べる。
 可変長符号化部(エントロピー符号化部)8は、予測誤差圧縮データ7をエントロピー符号化してビットストリーム9として出力する。
 局所復号部10は、予測誤差圧縮データ7から復号予測誤差信号11を得る。この復号予測誤差信号11が、予測誤差信号5の生成に用いた予測信号12と加算部で加算されて復号信号(局所復号画像)13となり、ループフィルタ14へ入力される。なお、予測信号12を得るために予測部4において決定された予測信号生成用パラメータ(フレーム間予測情報)17は可変長符号化部8へ送られ、ビットストリーム9として出力される。予測信号生成用パラメータ17は可変長符号化部8へ送られ、ビットストリーム9として出力される。予測信号生成用パラメータ17の内容については、予測部4の説明とともに以降で詳述する。
 ループフィルタ14は、圧縮部6における変換係数量子化に伴って発生するブロックひずみが重畳された復号信号13に対し、予測信号生成用パラメータ17および量子化パラメータ19を用いてブロックひずみ補正を行う。
 非特許文献1~3等の映像符号化方式では、基準ブロックをマクロブロックとした場合、マクロブロックの単位でフレーム内符号化、フレーム間予測符号化を選択しながら符号化する方法が一般的である。これはフレーム間の動き予測が十分でない場合に、フレーム内の相関を利用する方が、符号化が効率化される場合があることに起因している。以降、本実施の形態1の映像符号化装置では、発明のポイントを説明するに際してフレーム内符号化についての記述やその選択的使用について文中での明記は行わないが、特に断らない限り、基準ブロックを単位とするフレーム内符号化の選択的使用が可能な構成とする。本実施の形態1の映像符号化装置において、基準ブロックをマクロブロックと定義してもよいが、動き予測の説明のために以降も基準ブロックという用語を用いる。
 以下、本実施の形態1の特徴のひとつである予測部4の詳細な動作について説明する。本実施の形態1の予測部4の特徴は以下の2点である。
 (1)基準ブロック・動き予測単位ブロックのサイズと動き予測に用いる分割形状の連動適応化。
 (2)各色成分の性質に応じた動き予測モード、動きベクトルの決定。
 上記(1)については、予測部4が、まず基準ブロックを、各色成分の信号の性質に合わせてL×M画素の動き予測単位ブロックへ分割し、さらに動き予測単位ブロックをl×m画素の組み合わせからなる複数の形状に分割する。そして、予測部4は、各分割領域にそれぞれ固有の動きベクトルを割り当てて予測を行い、最も予測効率に優れる形状を動き予測モードとして選択し、その結果として得られる動きベクトルを用いて各分割領域に対する動き予測を行って、予測誤差信号5を得る。
 動き予測単位ブロック内の分割形状は、l×m画素からなる「基本ブロック」の組み合わせによって構成される形状をとるものとする。本実施の形態1の映像符号化装置においては、Mとm、Lとlの間に「m=M/2」、「l=L/2」なる制約を設ける。この条件によって定まる基本ブロックの分割形状を図4に示す。図4は、予測部4による、動き予測単位ブロックを基本ブロック単位で分割した形状例を示す説明図である。以下、本実施の形態1の映像符号化装置では、図4に示す分割形状のパターン(分割パターン)は3つの色成分に対して共通であってもよいし、独立に定めるように構成してもよい。なお、この分割パターンmc_mode0~7のことを以下では「動き予測モード」と呼ぶこととする。
 非特許文献1,2の映像符号化方式では、動き予測適用領域の形状は矩形に限定されており、図4のような矩形以外の対角分割を用いることができない。これに対して本実施の形態1では図4のような動き予測を適用する領域の形状を多様化させることにより、動物体の輪郭部分など、基準ブロック内に複雑な動きを含む場合に、矩形分割よりも少ない動きベクトル本数で動き予測可能となる。非特許文献3は、従来のマクロブロックに対して動き予測適用領域の分割形状の多様化手法を開示している。この非特許文献3では、分割形状を、マクロブロック分割を行う線分とそのブロック境界との交点位置によって表現する。しかしながら、この方法は画素数Mを固定したままで基準ブロック内の分割パターンを増加させる方法であり、以下の問題がある。
問題1:
 基準ブロックの分割パターンを記述するための符号量が増加する。Mmax mod m=0なる任意のmを許容することによって、基準ブロック内の分割パターンが増加し、そのパターンを指定するための情報をオーバヘッド情報として符号化する必要が生じる。分割パターンが増加するほど、ある特定の分割パターンの発生する確率が分散するため、分割パターンのエントロピー符号化が非効率となり、符号量としてのオーバヘッドとなって符号化トータルとしての性能に限界が生じる。
問題2:
 分割パターンが増加することによって、符号化時に最適な分割を選択するために必要な演算量が増大する。動き予測は符号化処理負荷の大半を占める高負荷処理であり、やみくもに分割パターンが増加するアルゴリズムでは、映像符号化装置はその中から特定の分割パターンのみを検証・利用するように設計せざるを得ない。したがって映像符号化装置は、アルゴリズムがもつ本来の性能を最大限活かしきることができない場合がある。
 これに対して、本実施の形態1の映像符号化装置における図4のアプローチは、まず、1)Mmaxの値を符号化の条件や映像信号の解像度や性質に基づいてフレーム等の上位レベルで変更可能とすること、2)Mmax×Mmaxの画素ブロックを色成分Cごとの特性に合わせて基本ブロックL×M画素へ分割可能とすること、3)基本ブロックの分割条件を「m=M/2」、「l=L/2」なる制約を満たす分割形状に限定した上で分割のバリエーションを確保すること、の3つの工夫により、上記問題を解決する。基本ブロックのサイズMmaxの値はフレームやスライス内で局所的に変更せず、フレームレベルまたはフレーム列(シーケンス、GOP)等の上位データ構造レベルでのみ変更可能とする。この仕組みは、基準ブロック内に含まれる画像信号パターンの意味の違いに対する適応化を可能とする。例えば、小さい解像度(Video Graphics Array,VGA等)の映像と大きな解像度(HDTV等)の映像では、同じMmax×Mmax画素ブロック内の信号パターンが表現する意味が異なる。同一の被写体を予測する場合、小さい解像度の映像では被写体の構造に近い信号パターンが捕捉されるが、大きな解像度の映像では、小さい解像度のときと同じブロックサイズを用いても被写体のより局所的な部位の信号パターンを捉えられるにすぎない。したがって、基準ブロックのサイズが解像度に拠らず同一の場合、解像度が高くなるにつれ、基準ブロック内の信号パターンはノイズ成分の要素が大きくなり、パターンマッチング技術としての動き予測の性能を向上させることができなくなる。
 そこで、基準ブロックサイズMmaxの値を上位データ構造レベルでのみ変更可能とすることで、基準ブロックサイズMmaxの値のシグナリングに要する符号量を抑制しつつ、映像の解像度やシーンチェンジ、画面全体のアクティビティ変化などの状況に応じて、基準ブロックに含まれる信号パターンを動き予測の意味において最適化することができる。この仕組みに加え、図3のように色成分ごとに動き予測単位ブロック内の分割パターンを変更可能とすることによって、各色成分の信号特性に応じて動き予測の処理単位を最適化可能とする。さらに、動き予測単位ブロック内に図4のように分割パターンの限定的自由度を与えることにより、動き予測単位ブロック内の分割パターン表現に要する符号量を抑制しながら、動き予測の全体的な効率を改善することができる。また、基準ブロックサイズMmaxの値をフレームレベルで決定する処理を効率よく行えば、以降、基準ブロック内で検査すべき分割パターンのバリエーションは従来技術に比べ少なく抑えることができ、符号化処理の負荷を小さくすることができる。
 基準ブロックサイズMmaxの値を決定する方法には、例えば以下のような方法がある。
 (1) 符号化対象映像の解像度に基づいて決定する。同一Mmax値の場合、解像度が大きい場合は基準ブロック内の画像信号パターンがよりノイズ成分的な意味合いを持ち、動きベクトルが画像信号パターンを捉えにくくなる。そのような場合にMmax値を大きくして画像信号パターンを捕捉できるようにする。
 (2) フレーム間の差分値の大小をアクティビティとみなしてアクティビティが大きい場合は小さいMmax値で、小さい場合は大きなMmax値で動き予測を行う。また、この際の大きさ制御を、符号化対象映像のフレームレートに基づいて決定する。フレームレートが高いほどフレーム間相関が大きく動きベクトル自体のダイナミックレンジが小さくなりその符号量が小さくなるので、多少アクティビティが小さくてもMmax値を大きすぎないように設定して細かい動きまで予測できるようにする、などの方法が考えられる。
 (3) (1)と(2)の方法を重み付けで組み合わせて判断する。
 基準ブロックサイズMmaxの値が決まった後、色成分ごとに動き予測単位ブロックのサイズL,Mの決定を行う。例えば入力映像信号1がYUV(またはYCbCr等)の色空間で定義された信号の場合、色信号であるU/V成分は輝度信号Y成分に比べて信号帯域が狭い。したがって、ブロック内分散は輝度に比べて小さくなる。これを根拠としてU/V成分のサイズL,Mについては輝度信号Y成分のサイズL,Mよりも大きな値をとるように構成する、といった判断基準の例が考えられる(図3参照)。
 これら判断を行った結果として得られる各ブロックサイズMmax,L,Mの値は、基準ブロックサイズ情報18としてブロック分割部2、予測部4、可変長符号化部8へ通知される。なお、図3のように、Mmaxに対してL,Mを簡易な演算で導出可能な値に設定しておけば、L,Mを独立な値として符号化するのでなく、算出式の識別子を符号化すればよいため、基準ブロックサイズ情報18に要する符号量を抑制できる。
 なお、図2では特に図示していないが、映像符号化装置は、Mmax,L,Mの値を決定して各部へ通知するための基準ブロックサイズ決定部を備えて、基準ブロックサイズ情報18を決定する構成であってもよい。
 予測部4は、基準ブロックサイズ情報18から導出される動き予測単位ブロックサイズLi,に基づいて、図3、図4の分割パターンを用いる動き検出処理を実行する。図5は、予測部4の動作を示すフローチャートである。予測部4は、当該フレームのC成分をL×M画素の動き予測単位ブロックの単位で動き予測していく。基本的には、このプロセスでは図4のmc_mode0~7までの分割パターンのそれぞれについて、指定された動き探索範囲で分割領域ごとの最適動きベクトルを検出し、最終的に当該動き予測単位ブロックについてmc_mode0~7のいずれの動き予測モードを用いるのが最も予測効率がよいかを決定する。
 予測効率は、動き予測単位ブロック内の動きベクトルの総符号量Rと、該動きベクトルを適用してメモリ16内に格納される参照画像から生成した予測信号12と入力映像信号1との間の予測誤差量Dとから導出する下記コストJで定義される。予測部4は、このコストJが最小となる動き予測モードと動きベクトルとを出力するように構成する。
  J=D+λR (λ:定数)    (1)
 そこで、予測部4はまず、各動き予測モードに対して、コストJの計算を行う(ステップST1)。図6に、mc_mode5のケースを例にとってコストJの計算方法を説明する。このとき、フレームF(t)内の被予測対象の動き予測単位ブロックは、2つの分割領域B,Bからなる。また、メモリ16内には2枚の符号化・局所復号済みの参照画像F’(t-1),F’(t-2)が格納されていて、分割領域B,Bはこれら2枚の参照画像F’(t-1),F’(t-2)を使って動き予測できるものとする。図6では分割領域Bは参照画像F’(t-2)を用いて動きベクトルMVt-2(B)を検出し、分割領域Bは参照画像F’(t-1)を用いて動きベクトルMVt-1(B)を検出している。Bを分割領域、S(x)を第nフレームの画面内位置x=(i,j)における画素値、vを動きベクトルとすると、分割領域Bの予測誤差量Dは、差分絶対値和(Sum of Absolute Difference,SAD)を用いて、下式(2)として計算できる。

Figure JPOXMLDOC01-appb-I000001
 予測誤差量Dは、上式(2)計算の結果、得られる分割領域B,Bに対応する予測誤差量D,DからD=D+Dとして求める。
 一方、総符号量Rは、予測ベクトルPMV(B),PMV(B)を用いて、下式(3)から動きベクトル予測差分値MVD(B),MVD(B)を得て、これらの値を符号量換算して符号量R,Rを得て、総符号量R=R+Rとして求める。

MVD(B)=MVt-2(B)-PMV(B
                            (3)
MVD(B)=MVt-1(B)-PMV(B
 以上により、コストJが求まる。予測部4は、探索範囲内の検査対象となるすべての動きベクトルについてコストJの計算を行い、mc_mode5の分割パターンとして最もコストJが小さい解を求める。なお、mc_mode1~4の予測ベクトルPMVの算出例を図7に示す。図7において、矢印は予測ベクトル導出に利用する周辺の動きベクトルMVを意味し、○で囲まれた3本の動きベクトルMVのメディアン(中央値)が、それが指し示す分割領域の予測ベクトルPMVとなる。
 なお、L×M画素ブロックに対して、k=7即ちmc_mode7を選択した場合、さらにl×m画素ブロックに対して、mc_mode0~7のモードを選択するように構成する。このときのモードの名称は便宜上、sub_mc_mode0~7とする。l×m画素ブロックに対してsub_mc_modeを決定する処理は図5の処理フローに準ずるものとし、L×M画素ブロック単位に対応するmc_mode7のコストJは、l×m画素ブロックの単位で定まるsub_mc_modeを用いて得られる総コストとする。
 続いて、予測部4は、このようにして求まるmc_modeでのコストJが、それまでに検証したmc_modeでのコストよりも小さいかどうかを検証し(ステップST2)、小さい場合は(ステップST2“Yes”)、mc_modeをその時点までの最適な動き予測モードとして保持するとともに、その際の動きベクトルおよび予測誤差信号を保持しておく(ステップST3)。予測部4は、すべての動き予測モードを検証し終えると(ステップST4“Yes”)、それまでに保持されていた動き予測モード、動きベクトル、予測誤差信号5を最終解として出力する(ステップST5)。さもなければ(ステップST2“No”またはステップST4“No”)、ステップST6で変数kをインクリメントして、ステップST1に戻って次の動き予測モードを検証する。
 以上述べた予測部4における処理によって、予測誤差信号5と、予測信号生成用パラメータ17(動き予測モードおよび動きベクトル)が出力され、これらは可変長符号化部8にてエントロピー符号化される。
 以下、本実施の形態1の特徴のひとつである圧縮部6および関連する局所復号部10の詳細な動作について説明する。本実施の形態1に係る圧縮部6および局所復号部10の特徴は以下のとおりである。
 (1)動きベクトル割り当て領域の形状に応じた変換・逆変換処理の切り替え。
 (2)解像度可変変換・逆変換処理の適用。
 図8は、本実施の形態1に係る圧縮部6の内部構成を示すブロック図である。圧縮部6は、予測誤差信号5を入力とし、その画素間相関を取り除く変換処理を施した後、量子化を行い、ビットストリーム9に多重される量子化係数データ7a,7b(予測誤差圧縮データ7に相当する)を出力する。
 上記(1),(2)の特徴を具備するため、まず変換処理決定部31において、変換処理方法の選択を行う。この処理は、予測信号生成用パラメータ17に含まれる動き予測モードを参照して行う。
 具体的には、変換処理決定部31は、動き予測モードがmc_mode0,5,6の場合、変換処理を行う単位を(m/2)×(l/2)画素ブロックとし、動きベクトル割り当て領域ごとに、以下の2つの選択肢(a),(b)のうち符号化効率が高い(同等符号量なら符号化ひずみが小さい、同等の符号化ひずみなら符号量が少ない)手段を選択する。これは例えば実際に2つの選択肢を試行した結果を評価することにより実現可能である。
 (a) 動きベクトル割り当て領域を(m/2)×(l/2)画素ブロックに均等分割して、それぞれ変換・量子化を行う。
 (b) 動きベクトル割り当て領域をm×l画素ブロックに均等分割して、それぞれを水平・垂直にダウンサンプリングして(m/2)×(l/2)画素ブロックを生成し、同ブロックに対して変換・量子化を行う。
 変換処理決定部31は、選択結果を、変換処理モード情報32としてスイッチ(変換選択用スイッチ、SW)33へ出力する。スイッチ33は、変換処理モード情報32に応じて、動きベクトル割り当て領域ごとに変換処理方法を切り替える。変換処理モード情報32が上記選択肢(a)を選択する内容の場合、各動きベクトル割り当て領域の予測誤差信号5は直接変換部34に入力され、(m/2)×(l/2)画素ブロックごとに変換され、その結果が量子化部35で量子化され、量子化係数データ7aとして出力される。なお、図8の上段に示す変換部34と量子化部35とをあわせて第二の量子化変換部とする。
 一方、変換処理モード情報32が上記選択肢(b)を選択する内容の場合は、各動きベクトル割り当て領域の予測誤差信号5は、m×lブロックごとに、まずダウンサンプリング処理部36に入力され、(m/2)×(l/2)画素ブロックに縮小変換される。次いで、選択肢(a)で使用するものと同じ変換部34、量子化部35で変換・量子化され、量子化係数データ7bとして出力される。なお、図8の下段に示す変換部34と量子化部35とをあわせて第一の量子化変換部とする。
 ダウンサンプリング処理部36は、予測誤差信号5の性質に適応して設計されるダウンサンプルフィルタを適用して画素間引きを行う。ダウンサンプルフィルタは下式(4)のような線形低域通過フィルタを水平・垂直方向にそれぞれ適用する方法や、ウェーブレット変換を適用しその低域成分のみを抽出するなど、任意に選択してよい。

Figure JPOXMLDOC01-appb-I000002
 なお、予測誤差圧縮データ7の量子化係数データとして量子化係数データ7a,7bのいずれを選択するかについて、映像復号装置へ伝達する方法は、変換処理モード情報32を可変長符号化部8に出力して同情報をビットストリーム9に多重化することで実現する。
 変換処理決定部31は、mc_mode1~4の場合には、動きベクトル割り当て領域がm×l画素ブロックでないほうの大きな領域についてのみ、上記選択肢(a),(b)の選択を行う。また、mc_mode7の場合には、常に選択肢(a)を選択する。選択肢(a)は、動き予測がはずれ、動きベクトル割り当て領域内の予測誤差信号分布が一様でない(分散大)場合に有効であり、選択肢(b)は動き予測が有効に機能し、動きベクトル割り当て領域内の予測誤差信号分布が一様である(分散小)場合に有効である。
 非特許文献1では、選択肢(b)のケースに対する符号化効率を高めるため、16×16画素よりも大きい動き予測ブロックに対して、16×16画素ブロックに対する直接DCT、即ちDCT処理対象ブロックそのもののサイズ拡張を提案している。しかしながら、大きなブロックサイズでのDCTは、係数表現に必要なビット数が増加し、変換処理自体のハードウエアコストに影響するという問題がある。
 sub_mc_modeを使うように構成する場合、(m/2)×(l/2)画素ブロックは、sub_mc_mode7の場合の最小の動きベクトル割り当て領域サイズに該当するので、上記のように構成することにより、大きなブロックサイズでのDCTの効果を維持しつつ、変換・量子化処理は常に(m/2)×(l/2)画素を対象とする処理のみに限定することができ、符号化すべき係数の数も、係数表現に必要なビット数も抑えた符号化を行うことができる。
 図9に、本実施の形態1における局所復号部10の内部構成を示す。局所復号部10は、量子化係数データ7および変換処理モード情報32を入力とし、スイッチ(変換選択用スイッチ、SW)37が変換処理モード情報32の指示に従って、予測誤差圧縮データ7の量子化係数データが圧縮部6で上記選択肢(a),(b)のいずれの処理で符号化されたかを判定して処理を切り替え、それぞれの処理に適した方法で逆量子化、逆変換を行って復号予測誤差信号11a,11bに復元する。
 変換処理モード情報32が選択肢(a)であることを示す場合は、予測誤差圧縮データ7の量子化係数データは、図8に示す量子化係数データ7aであると判断され、(m/2)×(l/2)画素ブロックごとに逆量子化部38、逆変換部39でそれぞれ逆量子化、逆変換されて復号予測誤差信号11aを得る。なお、図9の上段に示す逆量子化部38と逆変換部39とをあわせて第二の逆量子化変換部とする。
 一方、変換処理モード情報32が選択肢(b)であることを示す場合は、予測誤差圧縮データ7の量子化係数データは、図8に示す量子化係数データ7bであると判断され、まず、選択肢(a)で使用するものと同じ逆量子化部38、逆変換部39でそれぞれ逆量子化、逆変換され、(m/2)×(l/2)画素ブロック単位の復号予測画素値40を得る。そして、アップサンプリング処理部41が、(m/2)×(l/2)画素ブロックの復号予測画素値40に対して線形補間フィルタを施してm×l画素ブロックからなる復号予測誤差信号11bを生成する。なお、図9の下段に示す逆量子化部38と逆変換部39とをあわせて第一の逆量子化変換部とする。
2.符号化ビットストリームの構成
 入力映像信号1は、上記処理に基づいて図2の映像符号化装置で符号化され、複数の基準ブロックを束ねた単位(以下、スライスと呼ぶ)でビットストリーム9として映像符号化装置から出力される。
 図10に、ビットストリーム9のデータ配列を示す。ビットストリーム9は、フレーム中に含まれる基準ブロック数分の符号化データが集められたものとして構成され、基準ブロックはスライス単位にユニット化される。同一フレームに属する基準ブロックが共通パラメータとして参照するピクチャレベルヘッダが用意され、このピクチャレベルヘッダには、基準ブロックサイズ情報18が格納される。基準ブロックサイズMmaxが、ピクチャレベルより上位のシーケンス単位で固定化されるのであれば、基準ブロックサイズ情報18をシーケンスレベルヘッダに多重するように構成してもよい。
 各スライスはそれぞれスライスヘッダから始まり、続いてスライス内の各基準ブロックの符号化データが配列される。図10の例では、第2スライスにK個の基準ブロックが含まれることを示す。基準ブロックデータは、基準ブロックヘッダと予測誤差圧縮データとから構成され、基準ブロックヘッダには基準ブロック内の動き予測単位ブロックの分の動き予測モードmc_modeと動きベクトル(予測信号生成用パラメータ17に相当する)、予測誤差圧縮データ7の生成に用いた量子化パラメータ19などが配列される。動き予測モードは、mc_mode0~7の種別が符号化され、種別がmc_mode0~6であれば、動き予測モードで指定される動きベクトル割り当て領域の分の動きベクトル情報が符号化される。種別がmc_mode7であれば、各基本ブロックごとにsub_mc_modeが符号化される。
 続いて、基準ブロックごとの量子化パラメータ19が多重化され、圧縮部6から出力される予測誤差圧縮データ7(量子化係数データ7a,7bに相当する)が多重化される。この際、動き予測モードがmc_mode0,5,6の場合には、予測誤差圧縮データの前に、予測誤差圧縮データ7(量子化係数データ7a,7b)の符号化が上記圧縮部6および局所復号部10における選択肢(a),(b)のいずれかで処理されたかを示す情報として変換処理モード情報32が多重される。
 なお、図示していないが、各基準ブロック内で用いる動き予測単位ブロックのサイズL,Mを各基準ブロックごとに選択できるように基準ブロックサイズ決定部を構成しておき、基準ブロック内で用いる動き予測単位ブロックのサイズL,Mをシーケンス、またはピクチャレベルヘッダに多重する代わりに、各基準ブロックヘッダに多重するように構成してもよい。これにより、基準ブロックごとに動き予測単位ブロックのサイズL,Mを符号化する必要があるが、局所的な画像信号の性質に応じて動き予測単位ブロックのサイズを変化させることができ、より適応性の高い動き予測を行うことが可能となる。各基準ブロックヘッダに多重するか、シーケンス、GOP、ピクチャ、スライス等の上位レベルのヘッダに固定的に多重するかを示す情報は、シーケンス、GOP、ピクチャ、スライス等の上位レベルヘッダ中に識別情報として多重するように構成しておけばよい。これにより、上位レベルで固定化しても動き予測性能に影響が少ない場合は、基準ブロックごとに動き予測単位ブロックのサイズL,Mを符号化するオーバヘッドを削減して効率的な符号化を行うことが可能である。
3.映像復号装置
 図11は、本実施の形態1における映像復号装置の構成を示すブロック図である。可変長復号部(エントロピー復号部)100は、図10に示すビットストリーム9を入力し、シーケンスレベルヘッダを復号した後、ピクチャレベルヘッダを復号して基準ブロックサイズの情報を復号する。これにより当該ピクチャで用いる基準ブロックのサイズMmaxと動き予測単位ブロックのサイズL,Mを認識し、この基準ブロックサイズ情報18を予測誤差復号部101および予測部102へ通知する。なお、動き予測単位ブロックのサイズL,Mを各基準ブロックヘッダ中に多重可能とするビットストリーム構成の場合には、可変長復号部100は、動き予測単位ブロックのサイズL,Mが各基準ブロックヘッダ中に多重されているか否かを示す識別情報を復号し、同識別情報に基づいて、各基準ブロックヘッダを復号することによって動き予測単位ブロックのサイズL,Mを認識するように構成する。
 可変長復号部100において、基準ブロックデータの復号はまず、基準ブロックヘッダの復号から行う。続いて、動き予測単位ブロックあたりに適用する動き予測モードの復号を行う。動き予測モードは、まず動き予測単位ブロックの単位でmc_modeの復号を行う。mc_mode7である場合は、基本ブロックごとにsub_mc_modeの復号を行い、その他の場合は動きベクトル割り当て領域の数分だけ動きベクトルの復号を行い、さらに基準ブロックごとに量子化パラメータ19、変換処理モード情報32、予測誤差圧縮データ7などの情報を順次復号する。
 予測誤差圧縮データ7、量子化パラメータ19および変換処理モード情報32は予測誤差復号部101に入力され、復号予測誤差信号11に復元される。この予測誤差復号部101は、復号された変換処理モード情報32に基づいて、図2の映像符号化装置における局所復号部10と等価な処理を行う。即ち、予測誤差復号部101は、図9に示すスイッチ37、逆量子化部38、逆変換部39およびアップサンプリング処理部41を備え、スイッチ37が変換処理モード情報32に従ってアップサンプリング処理部41を経由するか否かを選択して、逆量子化・逆変換を行う。
 予測部102は、可変長復号部100によって復号される予測信号生成用パラメータ17とメモリ103内の参照画像信号15とから予測信号12を生成する。なお、予測部102は映像符号化装置における予測部4と等価な処理を行うが、動きベクトル検出動作は含まない。動き予測モードは図4に示すmc_mode0~7のいずれかであり、予測部102はその分割形状に基づいて各基本ブロックに割り当てられる動きベクトルを用いて復号信号(復号画像)13を生成する。
 復号予測誤差信号11と予測信号12は加算部により加算され、復号信号13としてループフィルタ104へ入力される。この復号信号13は、ループフィルタ104で符号化雑音を除去する処理が施された後、以降の予測信号12を生成するための参照画像信号15としてメモリ103に格納される。
 以上より、実施の形態1によれば、映像符号化装置を、入力される入力映像信号1の各フレームを所定サイズのマクロブロックに分割して符号化信号3として出力するブロック分割部2と、参照画像信号15を蓄積するメモリ16と、メモリ16の参照画像信号15と符号化信号3とを元にフレーム間予測を行って予測信号12を生成すると共に、当該フレーム間予測の方法を特定する情報を予測信号生成用パラメータ17として出力し、かつ、符号化信号3から予測信号12を減じ、予測誤差信号5を生成する予測部4と、予測誤差信号5をダウンサンプリングし、縮小予測誤差信号を生成するダウンサンプリング処理部36と、縮小予測誤差信号を変換する変換部34と量子化する量子化部35と、量子化部35が出力した量子化係数データ7bを逆量子化する逆量子化部38と逆変換する逆変換部39と、逆変換部39が出力した復号予測画素値40をアップサンプリングし、復号予測誤差信号11bを生成するアップサンプリング処理部41と、復号予測誤差信号11bと予測信号12とを加算して復号信号13を生成し、この復号信号13を参照画像としてメモリ16に出力する加算部と、量子化係数データ7bと予測信号生成用パラメータ17をエントロピー符号化し、ビットストリーム9を出力する可変長符号化部8とを備えるように構成した。さらに、ダウンサンプリング処理部36、変換部34、量子化部35、逆量子化部38、逆変換部39およびアップサンプリング処理部41を用いるか、変換部34、量子化部35、逆量子化部38および逆変換部39を用いるかを選択するための変換処理決定部31とスイッチ33,37を備えるように構成した。
 このため、映像圧縮を行う際に、ブロック単位に予測誤差信号を解像度変換して縮小した後に、変換・量子化・逆量子化・逆変換を行って解像度変換して拡大することにより、符号化効率を高めることができ、回路規模を小さくすることができる。したがって、4:4:4フォーマットのカラー映像信号を効率よく符号化するために、動き補償予測の動きベクトル割り当て領域の大きさが大きい場合にも、動き予測の結果生じる予測誤差信号5の符号化を、その信号分布状態に応じて効率よく、かつ、実装負荷を抑制して実施することができ、高い圧縮率でも符号化品質を維持できる映像符号化装置をローコストで提供することができる。
 また、実施の形態1によれば、映像復号装置を、入力されるビットストリーム9をエントロピー復号し、当該ビットストリーム9に含まれる予測信号生成用パラメータ17および量子化係数データを出力する可変長復号部100と、参照画像信号15を蓄積するメモリ103と、量子化係数データを逆量子化する逆量子化部38と逆変換する逆変換部39と、逆変換部39が出力した復号予測画素値40をアップサンプリングし、復号予測誤差信号11bを生成するアップサンプリング処理部41と、予測信号生成用パラメータ17に従って、メモリ103の参照画像信号15から予測信号12を生成する予測部102と、復号予測誤差信号11bと予測信号12を加算して復号信号13を生成し、この復号信号13を参照画像信号15としてメモリ103に出力する加算部とを備えるように構成した。さらに、復号した変換処理モード情報32に従って、逆量子化部38、逆変換部39およびアップサンプリング処理部41を用いるか、逆量子化部38および逆変換部39を用いるかを選択するスイッチ37を備えるように構成した。このため、上記映像符号化装置に対応した映像復号装置を提供することができる。
 なお、本実施の形態1では、4:4:4映像信号に対する符号化・復号の実施例を説明したが、前述のとおり、本発明における符号化・復号処理は、従来の輝度・色差成分フォーマットで色間引きを行った4:2:0または4:2:2フォーマットを対象とする映像符号化において、マクロブロックなどの基準ブロックの単位で符号化・復号を行う場合にも適用可能であることは言うまでもない。
 映像符号化装置、映像復号装置、映像符号化方法、および映像復号方法は、実装負荷バランスがよく、符号化対象となる映像信号の統計的・局所的性質に応じて信号相関をよりよく除去して効率的な情報圧縮を行う映像符号化方法を実現できることから、4:4:4フォーマットの超高精細映像信号の符号化等に用いるのに適している。

Claims (10)

  1.  入力される動画像信号の各フレームを所定サイズのマクロブロックに分割してマクロブロック画像として出力するブロック分割部と、
     参照画像を蓄積するフレームメモリと、
     前記フレームメモリの参照画像と前記マクロブロック画像とを元にフレーム間予測を行って予測画像を生成すると共に、当該フレーム間予測の方法を特定する情報をフレーム間予測情報として出力するフレーム間予測部と、
     前記マクロブロック画像から前記予測画像を減じ、予測誤差信号を生成する予測部と、
     前記予測誤差信号をダウンサンプリングし、縮小予測誤差信号を生成するダウンサンプリング処理部と、
     前記縮小予測誤差信号を変換・量子化し、量子化変換係数を生成する第一の量子化変換部と、
     前記量子化変換係数を逆量子化・逆変換し、復号縮小予測誤差信号を生成する第一の逆量子化変換部と、
     前記復号縮小予測誤差信号をアップサンプリングし、復号予測誤差信号を生成するアップサンプリング処理部と、
     前記復号予測誤差信号と前記予測画像とを加算して局所復号画像を生成し、当該局所復号画像を参照画像として前記フレームメモリに出力する加算部と、
     前記量子化変換係数と前記フレーム間予測情報をエントロピー符号化し、符号化データを出力するエントロピー符号化部とを備える映像符号化装置。
  2.  ダウンサンプリング処理部を経由せずに、予測誤差信号を直接変換・量子化し、量子化変換係数を生成する第二の量子化変換部と、
     アップサンプリング処理部を経由せずに、前記量子化変換係数を逆量子化・逆変換し、復号予測誤差信号を生成する第二の逆量子化変換部と、
     前記ダウンサンプリング処理部、第一の量子化変換部、第一の逆量子化変換部および前記アップサンプリング処理部を用いるか、前記第二の量子化変換部および前記第二の逆量子化変換部を用いるかを選択するための変換選択用スイッチとを備え、
     エントロピー符号化部は、前記変換選択用スイッチの選択結果を示す変換処理モード情報をあわせてエントロピー符号化することを特徴とする請求項1記載の映像符号化装置。
  3.  入力される符号化データをエントロピー復号し、当該符号化データに含まれるフレーム間予測情報および量子化変換係数を出力するエントロピー復号部と、
     参照画像を蓄積するフレームメモリと、
     前記量子化変換係数を逆量子化・逆変換し、復号縮小予測誤差信号を生成する第一の逆量子化変換部と、
     前記復号縮小予測誤差信号をアップサンプリングし、復号予測誤差信号を生成するアップサンプリング処理部と、
     前記フレーム間予測情報に従って、前記フレームメモリの参照画像から予測画像を生成する予測部と、
     前記復号予測誤差信号と前記予測画像を加算して復号画像を生成し、当該復号画像を参照画像として前記フレームメモリに出力する加算部とを備える映像復号装置。
  4.  アップサンプリング処理部を経由せずに、量子化変換係数を逆量子化・逆変換し、復号予測誤差信号を生成する第二の逆量子化変換部と、
     第一の逆量子化変換部および前記アップサンプリング処理部を用いるか、前記第二の逆量子化変換部を用いるかを選択するための変換選択用スイッチとを備え、
     エントロピー復号部は、符号化データに含まれる、前記変換選択用スイッチの選択を示す変換処理モード情報をあわせてエントロピー復号し、
     前記変換選択用スイッチは、前記変換処理モード情報に基づいて切り替えられることを特徴とする請求項3記載の映像復号装置。
  5.  入力される動画像信号の各フレームを所定サイズのマクロブロックに分割してマクロブロック画像として出力するブロック分割ステップと、
     フレームメモリに蓄積された参照画像と前記マクロブロック画像とを元にフレーム間予測を行って予測画像を生成すると共に、当該フレーム間予測の方法を特定する情報をフレーム間予測情報として出力するフレーム間予測ステップと、
     前記マクロブロック画像から前記予測画像を減じ、予測誤差信号を生成する予測ステップと、
     前記予測誤差信号をダウンサンプリングし、縮小予測誤差信号を生成するダウンサンプリング処理ステップと、
     前記縮小予測誤差信号を変換・量子化し、量子化変換係数を生成する第一の量子化変換ステップと、
     前記量子化変換係数を逆量子化・逆変換し、復号縮小予測誤差信号を生成する第一の逆量子化変換ステップと、
     前記復号縮小予測誤差信号をアップサンプリングし、復号予測誤差信号を生成するアップサンプリング処理ステップと、
     前記復号予測誤差信号と前記予測画像とを加算して局所復号画像を生成し、当該局所復号画像を参照画像として前記フレームメモリに出力する加算ステップと、
     前記量子化変換係数と前記フレーム間予測情報をエントロピー符号化し、符号化データを出力するエントロピー符号化ステップとを備える映像符号化方法。
  6.  ダウンサンプリング処理ステップおよびアップサンプリング処理ステップを経由するか否かを選択する変換選択ステップと、
     前記変換選択ステップで前記ダウンサンプリング処理ステップを経由しないことが選択された場合に、予測誤差信号を直接変換・量子化し、量子化変換係数を生成する第二の量子化変換ステップと、
     前記変換選択ステップで前記アップサンプリング処理ステップを経由しないことが選択された場合に、前記量子化変換係数を逆量子化・逆変換し、復号予測誤差信号を生成する第二の逆量子化変換ステップとを備え、
     前記変換選択ステップで前記ダウンサンプリング処理ステップおよび前記アップサンプリング処理ステップを経由することが選択された場合は、前記ダウンサンプリング処理ステップ、第一の量子化変換ステップ、第一の逆量子化変換ステップおよび前記アップサンプリング処理ステップを行い、
     前記変換選択ステップで前記ダウンサンプリング処理ステップおよび前記アップサンプリング処理ステップを経由しないことが選択された場合は、前記第二の量子化変換ステップおよび前記第二の逆量子化変換ステップを行い、
     エントロピー符号化ステップでは、前記変換選択用ステップの選択結果を示す変換処理モード情報をあわせてエントロピー符号化することを特徴とする請求項5記載の映像符号化方法。
  7.  入力される符号化データをエントロピー復号し、当該符号化データに含まれるフレーム間予測情報および量子化変換係数を出力するエントロピー復号ステップと、
     前記量子化変換係数を逆量子化・逆変換し、復号縮小予測誤差信号を生成する第一の逆量子化変換ステップと、
     前記復号縮小予測誤差信号をアップサンプリングし、復号予測誤差信号を生成するアップサンプリング処理ステップと、
     前記フレーム間予測情報に従って、フレームメモリに蓄積された参照画像から予測画像を生成する予測ステップと、
     前記復号予測誤差信号と前記予測画像を加算して復号画像を生成し、当該復号画像を参照画像として前記フレームメモリに出力する加算ステップとを備える映像復号方法。
  8.  アップサンプリング処理ステップを経由するか否かを選択する変換選択ステップと、
     前記変換選択ステップで前記アップサンプリング処理ステップを経由しないことが選択された場合に、量子化変換係数を逆量子化・逆変換し、復号予測誤差信号を生成する第二の逆量子化変換ステップとを備え
     エントロピー復号ステップでは、符号化データに含まれる、前記変換選択用ステップの選択を示す変換処理モード情報をあわせてエントロピー復号し、
     前記変換選択ステップで、前記変換処理モード情報に基づいて前記アップサンプリング処理ステップを経由することが選択された場合は、第一の逆量子化変換ステップおよび前記アップサンプリング処理ステップを行い、
     前記変換選択ステップで、前記変換処理モード情報に基づいて前記アップサンプリング処理ステップを経由しないことが選択された場合は、前記第二の逆量子化変換ステップを行うことを特徴とする請求項7記載の映像復号方法。
  9.  変換選択用スイッチは、第一の量子化変換部を経由する符号化手段と、第二の量子化変換部を経由する符号化手段とを試行した結果を比較することにより、符号化効率の高い符号化手段を選択することを特徴とする請求項2記載の映像符号化装置。
  10.  変換選択ステップでは、第一の量子化変換ステップを経由する符号化方法と、第二の量子化変換ステップを経由する符号化方法とを試行した結果を比較することにより、符号化効率の高い符号化方法を選択することを特徴とする請求項6記載の映像符号化方法。
PCT/JP2010/003552 2009-05-29 2010-05-27 映像符号化装置、映像復号装置、映像符号化方法、および映像復号方法 WO2010137323A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
EP10780283A EP2437499A4 (en) 2009-05-29 2010-05-27 ENCODER AND VIDEO DECODER, VIDEO ENCODING AND DECODING METHOD
JP2011515898A JPWO2010137323A1 (ja) 2009-05-29 2010-05-27 映像符号化装置、映像復号装置、映像符号化方法、および映像復号方法
BRPI1011333A BRPI1011333A2 (pt) 2009-05-29 2010-05-27 dispositivo de codificação e de decodificação de vídeo, e, métodos de codificação e de decodificação de vídeo
CN2010800238927A CN102450018A (zh) 2009-05-29 2010-05-27 影像编码装置、影像解码装置、影像编码方法及影像解码方法
US13/322,860 US20120076203A1 (en) 2009-05-29 2010-05-27 Video encoding device, video decoding device, video encoding method, and video decoding method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009-130459 2009-05-29
JP2009130459 2009-05-29

Publications (1)

Publication Number Publication Date
WO2010137323A1 true WO2010137323A1 (ja) 2010-12-02

Family

ID=43222449

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/003552 WO2010137323A1 (ja) 2009-05-29 2010-05-27 映像符号化装置、映像復号装置、映像符号化方法、および映像復号方法

Country Status (6)

Country Link
US (1) US20120076203A1 (ja)
EP (1) EP2437499A4 (ja)
JP (1) JPWO2010137323A1 (ja)
CN (1) CN102450018A (ja)
BR (1) BRPI1011333A2 (ja)
WO (1) WO2010137323A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015508250A (ja) * 2012-01-19 2015-03-16 マグナム セミコンダクター, インコーポレイテッド 適応低解像度アップデートモードを提供するための方法および機器
JP5902814B2 (ja) * 2012-07-09 2016-04-13 日本電信電話株式会社 映像符号化方法および装置、映像復号方法および装置、及びそれらのプログラム
US10531094B2 (en) 2014-01-09 2020-01-07 Hitachi Kokusai Electric Inc. Image processing device and moving image transmission method

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120320966A1 (en) * 2010-03-09 2012-12-20 Telegent Systems Inc. c/o M & C Corporate Services Limited Adaptive video decoding circuitry and techniques
US8946046B1 (en) 2012-05-02 2015-02-03 Crossbar, Inc. Guided path for forming a conductive filament in RRAM
US9012307B2 (en) 2010-07-13 2015-04-21 Crossbar, Inc. Two terminal resistive switching device structure and method of fabricating
US9601692B1 (en) 2010-07-13 2017-03-21 Crossbar, Inc. Hetero-switching layer in a RRAM device and method
US9570678B1 (en) 2010-06-08 2017-02-14 Crossbar, Inc. Resistive RAM with preferental filament formation region and methods
US8198144B2 (en) 2010-06-11 2012-06-12 Crossbar, Inc. Pillar structure for memory device and method
US8374018B2 (en) 2010-07-09 2013-02-12 Crossbar, Inc. Resistive memory using SiGe material
US8884261B2 (en) 2010-08-23 2014-11-11 Crossbar, Inc. Device switching using layered device structure
US8569172B1 (en) 2012-08-14 2013-10-29 Crossbar, Inc. Noble metal/non-noble metal electrode for RRAM applications
US8947908B2 (en) 2010-11-04 2015-02-03 Crossbar, Inc. Hetero-switching layer in a RRAM device and method
US8168506B2 (en) 2010-07-13 2012-05-01 Crossbar, Inc. On/off ratio for non-volatile memory device and method
US8492195B2 (en) 2010-08-23 2013-07-23 Crossbar, Inc. Method for forming stackable non-volatile resistive switching memory devices
US8889521B1 (en) 2012-09-14 2014-11-18 Crossbar, Inc. Method for silver deposition for a non-volatile memory device
US9401475B1 (en) 2010-08-23 2016-07-26 Crossbar, Inc. Method for silver deposition for a non-volatile memory device
US8558212B2 (en) 2010-09-29 2013-10-15 Crossbar, Inc. Conductive path in switching material in a resistive random access memory device and control
USRE46335E1 (en) 2010-11-04 2017-03-07 Crossbar, Inc. Switching device having a non-linear element
US8502185B2 (en) 2011-05-31 2013-08-06 Crossbar, Inc. Switching device having a non-linear element
US8930174B2 (en) 2010-12-28 2015-01-06 Crossbar, Inc. Modeling technique for resistive random access memory (RRAM) cells
US8815696B1 (en) 2010-12-31 2014-08-26 Crossbar, Inc. Disturb-resistant non-volatile memory device using via-fill and etchback technique
US9153623B1 (en) 2010-12-31 2015-10-06 Crossbar, Inc. Thin film transistor steering element for a non-volatile memory device
US9620206B2 (en) 2011-05-31 2017-04-11 Crossbar, Inc. Memory array architecture with two-terminal memory cells
US8619459B1 (en) 2011-06-23 2013-12-31 Crossbar, Inc. High operating speed resistive random access memory
US8946669B1 (en) 2012-04-05 2015-02-03 Crossbar, Inc. Resistive memory device and fabrication methods
US9166163B2 (en) 2011-06-30 2015-10-20 Crossbar, Inc. Sub-oxide interface layer for two-terminal memory
US9564587B1 (en) 2011-06-30 2017-02-07 Crossbar, Inc. Three-dimensional two-terminal memory with enhanced electric field and segmented interconnects
US9627443B2 (en) 2011-06-30 2017-04-18 Crossbar, Inc. Three-dimensional oblique two-terminal memory with enhanced electric field
CN103828047A (zh) 2011-07-22 2014-05-28 科洛斯巴股份有限公司 用于非易失性存储器装置的p+硅锗材料的种子层及方法
US8674724B2 (en) 2011-07-29 2014-03-18 Crossbar, Inc. Field programmable gate array utilizing two-terminal non-volatile memory
US10056907B1 (en) 2011-07-29 2018-08-21 Crossbar, Inc. Field programmable gate array utilizing two-terminal non-volatile memory
US9729155B2 (en) 2011-07-29 2017-08-08 Crossbar, Inc. Field programmable gate array utilizing two-terminal non-volatile memory
US20130117418A1 (en) * 2011-11-06 2013-05-09 Akamai Technologies Inc. Hybrid platform for content delivery and transcoding
US9087576B1 (en) 2012-03-29 2015-07-21 Crossbar, Inc. Low temperature fabrication method for a three-dimensional memory device and structure
US9491475B2 (en) 2012-03-29 2016-11-08 Magnum Semiconductor, Inc. Apparatuses and methods for providing quantized coefficients for video encoding
US9685608B2 (en) 2012-04-13 2017-06-20 Crossbar, Inc. Reduced diffusion in metal electrode for two-terminal memory
US8658476B1 (en) 2012-04-20 2014-02-25 Crossbar, Inc. Low temperature P+ polycrystalline silicon material for non-volatile memory device
US8796658B1 (en) 2012-05-07 2014-08-05 Crossbar, Inc. Filamentary based non-volatile resistive memory device and method
KR101347062B1 (ko) * 2012-06-27 2014-01-10 숭실대학교산학협력단 움직임 벡터의 예측을 위한 탐색영역 설정 장치 및 방법
US9741765B1 (en) 2012-08-14 2017-08-22 Crossbar, Inc. Monolithically integrated resistive memory using integrated-circuit foundry compatible processes
US9583701B1 (en) 2012-08-14 2017-02-28 Crossbar, Inc. Methods for fabricating resistive memory device switching material using ion implantation
US8946673B1 (en) 2012-08-24 2015-02-03 Crossbar, Inc. Resistive switching device structure with improved data retention for non-volatile memory device and method
US9312483B2 (en) 2012-09-24 2016-04-12 Crossbar, Inc. Electrode structure for a non-volatile memory device and method
US9576616B2 (en) 2012-10-10 2017-02-21 Crossbar, Inc. Non-volatile memory with overwrite capability and low write amplification
US8982647B2 (en) 2012-11-14 2015-03-17 Crossbar, Inc. Resistive random access memory equalization and sensing
US9412790B1 (en) 2012-12-04 2016-08-09 Crossbar, Inc. Scalable RRAM device architecture for a non-volatile memory device and method
JP6151909B2 (ja) 2012-12-12 2017-06-21 キヤノン株式会社 動画像符号化装置、方法およびプログラム
US9406379B2 (en) 2013-01-03 2016-08-02 Crossbar, Inc. Resistive random access memory with non-linear current-voltage relationship
US9112145B1 (en) 2013-01-31 2015-08-18 Crossbar, Inc. Rectified switching of two-terminal memory via real time filament formation
US9324942B1 (en) 2013-01-31 2016-04-26 Crossbar, Inc. Resistive memory cell with solid state diode
US9392286B2 (en) 2013-03-15 2016-07-12 Magnum Semiconductor, Inc. Apparatuses and methods for providing quantized coefficients for video encoding
US9794575B2 (en) 2013-12-18 2017-10-17 Magnum Semiconductor, Inc. Apparatuses and methods for optimizing rate-distortion costs in video encoding
US9485456B2 (en) 2013-12-30 2016-11-01 Akamai Technologies, Inc. Frame-rate conversion in a distributed computing system
US10290801B2 (en) 2014-02-07 2019-05-14 Crossbar, Inc. Scalable silicon based resistive memory device
FR3033114A1 (fr) * 2015-02-19 2016-08-26 Orange Procede de codage et decodage d'images, dispositif de codage et decodage et programmes d'ordinateur correspondants
US10542277B2 (en) * 2017-10-24 2020-01-21 Arm Limited Video encoding
US11070837B2 (en) 2018-04-02 2021-07-20 Panasonic Intellectual Property Corporation Of America Encoding method, decoding method, encoder, and decoder
CN108848381B (zh) * 2018-06-20 2021-09-24 腾讯科技(深圳)有限公司 视频编码方法、解码方法、装置、计算机设备及存储介质
CN117834871A (zh) * 2019-04-16 2024-04-05 松下电器(美国)知识产权公司 编码装置、解码装置、编码方法、解码方法和记录介质
CN116506628B (zh) * 2023-06-27 2023-10-24 苇创微电子(上海)有限公司 一种基于像素块的编码预测器方法、编码系统及编码装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10191351A (ja) * 1996-10-24 1998-07-21 Fujitsu Ltd 動画像符号化装置および復号化装置
WO1999022525A1 (en) * 1997-10-23 1999-05-06 Mitsubishi Denki Kabushiki Kaisha Image encoding method, image encoder, image decoding method, and image decoder
JP2002118849A (ja) * 2000-10-06 2002-04-19 Nec Corp 動画像符号化方法、動画像符号化装置、動画像復号化装置及びそれらを備えた動画像通信システム
JP2007528675A (ja) * 2004-03-09 2007-10-11 トムソン リサーチ ファンディング コーポレイション Avc用解像度低下更新モード

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3844844B2 (ja) * 1997-06-06 2006-11-15 富士通株式会社 動画像符号化装置及び動画像符号化方法
WO2006110890A2 (en) * 2005-04-08 2006-10-19 Sarnoff Corporation Macro-block based mixed resolution video compression system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10191351A (ja) * 1996-10-24 1998-07-21 Fujitsu Ltd 動画像符号化装置および復号化装置
WO1999022525A1 (en) * 1997-10-23 1999-05-06 Mitsubishi Denki Kabushiki Kaisha Image encoding method, image encoder, image decoding method, and image decoder
JP2002118849A (ja) * 2000-10-06 2002-04-19 Nec Corp 動画像符号化方法、動画像符号化装置、動画像復号化装置及びそれらを備えた動画像通信システム
JP2007528675A (ja) * 2004-03-09 2007-10-11 トムソン リサーチ ファンディング コーポレイション Avc用解像度低下更新モード

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
S.KONDO; H.SASAI: "A Motion Compensation Technique using Sliced Blocks and its Application to Hybrid Video Coding", VCIP 2005, July 2005 (2005-07-01)
See also references of EP2437499A4 *
SIWEI MA; C.-C. JAY KUO: "High-definition Video Coding with Super-macroblocks", PROC. SPIE, vol. 6508, 2007, pages 650816

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015508250A (ja) * 2012-01-19 2015-03-16 マグナム セミコンダクター, インコーポレイテッド 適応低解像度アップデートモードを提供するための方法および機器
JP5902814B2 (ja) * 2012-07-09 2016-04-13 日本電信電話株式会社 映像符号化方法および装置、映像復号方法および装置、及びそれらのプログラム
US10531094B2 (en) 2014-01-09 2020-01-07 Hitachi Kokusai Electric Inc. Image processing device and moving image transmission method

Also Published As

Publication number Publication date
US20120076203A1 (en) 2012-03-29
EP2437499A1 (en) 2012-04-04
BRPI1011333A2 (pt) 2016-03-08
CN102450018A (zh) 2012-05-09
EP2437499A4 (en) 2013-01-23
JPWO2010137323A1 (ja) 2012-11-12

Similar Documents

Publication Publication Date Title
WO2010137323A1 (ja) 映像符号化装置、映像復号装置、映像符号化方法、および映像復号方法
JP6667609B2 (ja) 画像符号化装置、画像符号化方法、画像復号装置および画像復号方法
JP6347860B2 (ja) 画像復号装置、画像復号方法、画像符号化装置および画像符号化方法
JP5289440B2 (ja) 画像符号化装置、画像復号装置、画像符号化方法及び画像復号方法
JP5551837B2 (ja) 画像復号装置、画像符号化装置、画像復号方法及び画像符号化方法
WO2012081162A1 (ja) 動画像符号化装置、動画像復号装置、動画像符号化方法及び動画像復号方法
JP5361998B2 (ja) 画像符号化装置、画像復号装置、画像符号化方法、および画像復号方法

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201080023892.7

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10780283

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2011515898

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 13322860

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2010780283

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 9802/CHENP/2011

Country of ref document: IN

WWE Wipo information: entry into national phase

Ref document number: 1020117031312

Country of ref document: KR

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: PI1011333

Country of ref document: BR

ENP Entry into the national phase

Ref document number: PI1011333

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20111129