WO2017213033A1 - 映像符号化装置、映像符号化方法および記録媒体 - Google Patents

映像符号化装置、映像符号化方法および記録媒体 Download PDF

Info

Publication number
WO2017213033A1
WO2017213033A1 PCT/JP2017/020547 JP2017020547W WO2017213033A1 WO 2017213033 A1 WO2017213033 A1 WO 2017213033A1 JP 2017020547 W JP2017020547 W JP 2017020547W WO 2017213033 A1 WO2017213033 A1 WO 2017213033A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
encoder
input image
processing
reconstructed
Prior art date
Application number
PCT/JP2017/020547
Other languages
English (en)
French (fr)
Inventor
健太 徳満
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2018522449A priority Critical patent/JP6635197B2/ja
Publication of WO2017213033A1 publication Critical patent/WO2017213033A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/31Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution

Definitions

  • the present disclosure relates to a video encoding device, a video encoding method, and a recording medium.
  • Patent Document 1 discloses a technique related to a display device that receives and displays a video signal of ultra-high definition television broadcasting (Super Hi-Vision).
  • Patent Document 2 discloses a method of performing interlayer motion prediction during encoding or decoding of a video signal.
  • a coding technique of a scalable coding system for example, a technique related to a video coding system using Scalable High-efficiency Video Coding (SHVC) in High efficiency video coding (HEVC) is described in Patent Document 3.
  • SHVC Scalable High-efficiency Video Coding
  • HEVC High efficiency video coding
  • Each frame of an image having a resolution corresponding to BL and each frame of an image having a resolution corresponding to EL are divided into coding tree units (CTU: Coding Tree Unit) and encoded.
  • the CTU is divided into coding units (CU: Coding Unit) in a quad tree structure and is coded.
  • Each CU is divided into prediction units (PU: Prediction Unit) and predicted.
  • the prediction error of each CU is divided into transform units (TU: Transform Unit) in a quadtree structure, and is subjected to frequency conversion.
  • the maximum size CU and the minimum size CU are referred to as an LCU (Large Coding Unit) and an SCU (Smallest Coding Unit).
  • CU is a coding unit of intra prediction / interframe prediction / interlayer prediction.
  • intra prediction, interframe prediction, and interlayer prediction will be described.
  • Intra prediction is prediction in which a prediction image is generated from a reconstructed image of an encoding target frame.
  • Inter-frame prediction is prediction based on an image of a reconstructed frame (reference picture) having a display time different from that of the encoding target frame.
  • inter-frame prediction is also referred to as inter prediction.
  • an inter prediction signal is generated based on a reconstructed image block of a reference picture (using pixel interpolation if necessary).
  • AMVP Advanced Motion Vector Prediction
  • merge mode is a technique for predicting a motion vector using a motion vector of a reference picture so that a difference between motion vectors is minimized.
  • AMVP a set of a reference picture index, an AMVP index associated with an AMVP motion vector predictor, and an AMVP motion vector predictor is transmitted.
  • the merge mode is a technique that uses the motion vector of the reference picture as it is. In the merge mode, a set of a merge flag indicating that merge prediction is valid and a merge candidate index associated with a diverted motion vector is transmitted.
  • Inter-layer prediction is inter prediction using an upsampled image of a reconstructed frame of a coded BL.
  • an inter-layer prediction signal is generated by inter-frame prediction of an up-sampled image obtained by up-sampling an encoded BL reconstructed frame to the same resolution as an EL frame.
  • a CU using intra prediction is called an intra CU
  • a CU using inter prediction is called an inter CU
  • a CU using inter layer prediction is called an inter layer CU.
  • I frame A frame that includes not only an intra CU but also an inter CU and an inter-layer CU is called a P frame (or P picture).
  • P frame A frame encoded by including not only one reference picture for inter prediction of a block but also an inter CU using two reference pictures at the same time is called a B frame (or B picture).
  • BL encoder low-resolution layer HEVC encoder
  • EL encoder high-resolution layer HEVC encoder
  • BL image low resolution image
  • the BL encoder 100A includes an estimator 101A, a predictor 102A, a frequency converter 103A, a quantizer 104A, an inverse quantization / inverse frequency converter 105A, a buffer 106A, and an entropy encoder 107A.
  • Each CTU of a BL image frame is divided into variable-size CUs based on a quadtree structure. Similar to the CTU, the prediction error of each CU of the BL image is divided into variable-size TUs based on the quadtree structure.
  • the estimator 101A determines, for example, a CU partition shape that minimizes the coding cost, that is, a CU quadtree structure. Further, the estimator 101A determines a PU block prediction parameter (hereinafter referred to as a PU block prediction parameter) and a TU quadtree structure for each CTU of the BL image.
  • a PU block prediction parameter hereinafter referred to as a PU block prediction parameter
  • the predictor 102A generates a prediction signal for the CU of the BL image based on the CU quadtree structure and the PU block prediction parameter determined by the estimator 101A.
  • the prediction signal is generated based on the above-described intra prediction or inter prediction.
  • the frequency converter 103A performs frequency conversion on a prediction error signal (hereinafter also referred to as a prediction error image) obtained by subtracting the prediction signal from the image signal of the BL image, based on the TU quadtree structure determined by the estimator 101A.
  • a prediction error image obtained by subtracting the prediction signal from the image signal of the BL image, based on the TU quadtree structure determined by the estimator 101A.
  • the quantizer 104A quantizes the frequency-transformed prediction error image (orthogonal transform coefficient).
  • the quantized orthogonal transform coefficient is referred to as a coefficient level.
  • a coefficient level having a value other than 0 is called a significant coefficient level.
  • the entropy encoder 107A entropy-encodes a split_cu_flag indicating a CU quadtree structure in units of CTUs, a PU block prediction parameter, a split_transform_flag indicating a TU quadtree structure, and a coefficient level, and a bit stream (low resolution layer (BL)) of a BL image Bitstream).
  • a group of parameters for entropy encoding is referred to as an encoding parameter.
  • the inverse quantization / inverse frequency converter 105A inversely quantizes the coefficient level. Further, the inverse quantization / inverse frequency converter 105A performs inverse frequency transform on the inversely quantized orthogonal transform coefficient.
  • the reconstructed prediction error image of the BL image subjected to inverse frequency conversion is supplied with a prediction signal and supplied to the buffer 106A as a reconstructed image of the BL image.
  • Buffer 106A stores the reconstructed image of the BL image for subsequent encoding processing.
  • the reconstructed image stored in the buffer 106A is acquired by the estimator 101A and the predictor 102A, and is used to determine the CU quadtree structure, the PU block prediction parameters, and the TU quadtree structure, and to generate a prediction signal.
  • the EL encoder 100B includes an estimator 101B, a predictor 102B, a frequency converter 103B, a quantizer 104B, an inverse quantization / inverse frequency converter 105B, a buffer 106B, an entropy encoder 107B, and an upsampler 108. .
  • Each CTU of the frame of the input image (EL image) input to the EL encoder 100B is divided into variable-size CUs based on the quadtree structure.
  • the prediction error of each CU of the EL image is divided into variable-size TUs based on the quadtree structure, similar to the CTU.
  • the estimator 101B determines a CU quadtree structure, a PU block prediction parameter, and a TU quadtree structure for each CTU of an EL image.
  • the predictor 102B generates a prediction signal for the image signal of the CU of the EL image based on the CU quadtree structure and the PU block prediction parameter determined by the estimator 101B.
  • the prediction signal is generated based on the above-described intra prediction, inter prediction, or inter-layer prediction.
  • the frequency converter 103B performs frequency conversion on the prediction error image obtained by subtracting the prediction signal from the image signal of the EL image based on the TU quadtree structure determined by the estimator 101B.
  • the quantizer 104B quantizes the frequency-transformed prediction error image (orthogonal transform coefficient).
  • the entropy encoder 107B entropy-encodes the split_cu_flag indicating the quad tree structure of the CU of the EL image, the block prediction parameter of the PU, the split_transform_flag indicating the quad tree structure of the TU, and the coefficient level, and generates an EL image bit stream (EL bit stream). ) Is output.
  • the inverse quantization / inverse frequency converter 105B performs inverse quantization on the coefficient level. Further, the inverse quantization / inverse frequency converter 105B performs inverse frequency conversion on the inversely quantized orthogonal transform coefficient.
  • the reconstructed prediction error image subjected to the inverse frequency transform is supplied with a prediction signal and supplied to the buffer 106B as a reconstructed image.
  • the upsampler 108 upsamples the reconstructed image of the BL image.
  • the buffer 106B stores the reconstructed image of the EL image and the reconstructed image of the BL image upsampled by the upsampler 108 for subsequent encoding processing.
  • Data stored in the buffer 106B is acquired from the estimator 101B and the predictor 102B, and is used to determine a CU quadtree structure, PU block prediction parameters, and TU quadtree structure, and to generate a prediction signal.
  • the multiplexer 110 multiplexes the BL bit stream and the EL bit stream to generate a scalable bit stream. Based on the above-described operation, the video encoding device 10 generates a scalable bit stream from the input image.
  • the structure of an input image (EL image) and a low resolution image (BL image) obtained by down-sampling the input image may be different.
  • the EL image is a progressive image (hereinafter referred to as a progressive image)
  • the BL image is an interlaced image (hereinafter referred to as an interlaced image).
  • the information in the time direction is half that of the EL image.
  • the present disclosure has been made in view of the above problems, and the purpose of the present disclosure is to provide a high-quality scalable bit even when the image input to the upper layer and the image input to the lowest layer are different.
  • An object of the present invention is to provide a technique capable of outputting a stream.
  • a video encoding device includes an enhancement layer encoder that encodes an input image as an enhancement layer and outputs an enhancement layer bitstream, and a low-resolution image in which the input image is downsampled.
  • a base layer encoder that encodes a low-resolution image having a structure different from that of the input image as a base layer and outputs a base layer bit stream, and multiplexes the base layer bit stream and the enhancement layer bit stream
  • a video encoding method includes an enhancement layer encoder that encodes an input image as an enhancement layer and outputs an enhancement layer bitstream, and a low-resolution image obtained by down-sampling the input image. And a base layer encoder that encodes as a base layer and outputs a base layer bit stream, and a video encoding that includes a multiplexer that generates a scalable bit stream obtained by multiplexing the base layer bit stream and the enhancement layer bit stream
  • the low resolution image has a structure different from that of the input image
  • the enhancement layer encoder is an image corresponding to the input image in a time direction.
  • the reconstructed image of the low-resolution image is processed, the up-sampling process is performed on the image corresponding to the input image in the time direction, and the encoding process is performed using the image that has been subjected to the up-sampling process .
  • FIG. 1 is a block diagram showing an example of a video encoding device 20 according to the present embodiment.
  • the video encoding apparatus 20 according to the present embodiment includes a BL encoder 100A, an EL encoder 200B, a downsampler 109, and a multiplexer 110.
  • the configuration and operation of the BL encoder 100A of the video encoding device 20 are the same as the configuration and operation of the BL encoder 100A in the video encoding device 10 shown in FIG.
  • the operations of the downsampler 109 and the multiplexer 110 of the video encoding device 20 are the same as the operations of the downsampler 109 and the multiplexer 110 in the video encoding device 10 shown in FIG.
  • the input image is, for example, a progressive image (for example, 4K60p).
  • the BL image obtained by down-sampling the input image is an interlaced image. That is, the down-sampler 109 performs progressive interlace conversion on the input image, thereby converting a frame composed of a top field of a frame of the input image and a bottom field of the next frame of the input image into a BL image. Output as.
  • This BL image is input to the BL encoder 100A.
  • the video encoding device 20 is described as a configuration including the downsampler 109, but the video encoding device 20 may not include the downsampler 109.
  • the video encoding device 20 uses the low resolution image as an input of the BL encoder 100A, and inputs The image may be input to the EL encoder 200B. That is, the downsampler 109 may be realized by a device different from the video encoding device 20.
  • the input image and the BL image obtained by down-sampling the input image may be input to the video encoding device 20.
  • the EL encoder 200B includes an estimator 101B, a predictor 102B, a frequency converter 103B, a quantizer 104B, an inverse quantization / inverse frequency converter 105B, a buffer 106B, an entropy encoder 107B, and An adaptive upsampling unit 208 is provided.
  • the EL encoder 200B is configured to include an adaptive upsampler 208 instead of the upsampler 108 of the EL encoder 100B shown in FIG.
  • the operations of the estimator 101B, the predictor 102B, the frequency converter 103B, the quantizer 104B, the inverse quantization / inverse frequency converter 105B, the buffer 106B, and the entropy encoder 107B are the operations described with reference to FIG. Since this is the same, the description thereof is omitted.
  • the adaptive upsampling unit 208 receives the reconstructed image of the BL image stored in the buffer 106A of the BL encoder 100A as an input.
  • the configuration and operation of the adaptive upsampling unit 208 will be described.
  • FIG. 2 is a block diagram showing an example of the configuration of the adaptive upsampling unit 208 in the EL encoder 200B of the video encoding device 20 according to the present embodiment.
  • the adaptive upsampling unit 208 includes a deinterlacing unit 2081 and an upsampler 2082.
  • the deinterlacing unit 2081 processes the reconstructed image of the BL image so as to become an image corresponding to the input image in the time direction. Specifically, the deinterlacing unit 2081 deinterlaces the reconstructed image of the BL image, and sets the deinterlaced image as an image corresponding to the input image in the time direction. Then, the deinterlacing unit 2081 supplies the deinterlaced image to the upsampler 2082.
  • the upsampler 2082 receives the deinterlaced image from the deinterlace unit 2081.
  • the upsampler 2082 upsamples the deinterlaced image.
  • the operation of the upsampler 2082 is the same as that of the upsampler 108 described above.
  • the image up-sampled by the up-sampler 2082 (referred to as an up-sampled image) is stored in the buffer 106B as in the EL encoder 100B. Thereby, the upsampled image can be used for the subsequent encoding process.
  • a reconstructed image (frame) of the BL image is generated from a top field generated from a frame of a certain input image and a frame subsequent to the above frame. It consists of a generated bottom field. That is, the number of frames in the time direction of the reconstructed image of the BL image is half that of the original input image. Therefore, when the EL encoder 100B encodes the EL image, as shown in FIG. 14, the frame generated using (referring to) the upsampled image of the reconstructed image of the BL image, and without reference The generated frame (shaded frame in FIG. 14) is generated. Therefore, when a scalable bit stream including an EL bit stream generated using such a reconstructed image is decoded by a display device or the like, there is a portion where information in the time direction is lost. May appear unnatural.
  • the encoding process in the EL encoder 200B of the video encoding device 20 according to the present embodiment will be described with reference to FIG. Since the reconstructed image of the BL image is an interlaced image as described above, it becomes a frame composed of a top field and a bottom field. In FIG. 3, the bottom field portion is shaded.
  • the deinterlacing unit 2081 divides the reconstructed image into a top field and a bottom field by deinterlacing the reconstructed image of such a BL image.
  • the top field is generated when the downsampler 109 performs a downsampling process on a certain frame (referred to as a first frame) of the input image.
  • the bottom field is generated when the downsampling unit 109 performs a downsampling process on the next frame (referred to as a second frame) after the first frame. Therefore, the top field is an image corresponding to the first frame in the time direction, and the bottom field is an image corresponding to the second frame in the time direction.
  • the EL encoder 200B encodes the first frame using the upsampled top field as a reference image. Similarly, the EL encoder 200B encodes the second frame using the bottom field upsampled by the upsampler 2082 as a reference image.
  • the EL encoder 200B performs an encoding process using an image having information corresponding to the input image in the time direction as a reference image, and generates an encoded frame. be able to.
  • FIG. 4 is a flowchart showing an example of the operation flow of the adaptive upsampling unit 208 in the video encoding device 20 according to the present embodiment.
  • the deinterlacing unit 2081 of the adaptive upsampling unit 208 deinterlaces the reconstructed image of the BL image (step S41). Then, the upsampler 2082 of the adaptive upsampling unit 208 performs upsampling processing on the image deinterlaced by the deinterlacing unit 2081 (step S42).
  • the upsampled image (upsampled image) is stored in the buffer 106B and used for the subsequent encoding process.
  • the EL encoder 200B performs an encoding process using an image having information corresponding to an input image in the time direction as a reference image, and generates an encoded frame. can do. Therefore, video coding apparatus 20 according to the present embodiment can output a scalable bitstream having time-direction information. Since such a scalable bit stream has information in the time direction as compared with the case of FIG. 14, it is possible to prevent deterioration in image quality such as clogging. Therefore, the video encoding device 20 can output a high-quality scalable bitstream even when the EL image and the BL image have different structures.
  • the video encoding apparatus 30 includes a BL encoder 100A, an EL encoder 300B, a downsampler 109, and a multiplexer 110 as described in FIG.
  • the EL encoder 300B includes an adaptive upsampling unit 308 instead of the adaptive upsampling unit 208 of the EL encoder 200B.
  • FIG. 5 is a block diagram showing an example of the configuration of the adaptive upsampling unit 308 in the EL encoder 300B of the video encoding device 30 according to the present embodiment.
  • the adaptive upsampling unit 308 includes a duplicating unit 3081 and an upsampler 3082.
  • the duplicating unit 3081 processes the reconstructed image of the BL image so as to become an image corresponding to the input image in the time direction. Specifically, the duplication unit 3081 duplicates the reconstructed image of the BL image, and the reconstructed image and the duplicated reconstructed image (duplicated image) are images corresponding to the input image in the time direction. To do. Then, the duplicating unit 3081 supplies the reconstructed image and the duplicated image to the upsampler 3082.
  • the upsampler 3082 receives the reconstructed image and the duplicate image from the duplication unit 3081. Then, the upsampler 3082 upsamples the reconstructed image and the duplicate image. The operation of the upsampler 3082 is the same as that of the upsampler 108 described above.
  • the upsampled image upsampled by the upsampler 3082 is stored in the buffer 106B as in the EL encoder 100B. Thereby, the upsampled image can be used for the subsequent encoding process.
  • the encoding process in the EL encoder 300B of the video encoding device 30 according to the present embodiment will be further described with reference to FIG. Since the reconstructed image of the BL image is an interlaced image as described above, it becomes a frame composed of a top field and a bottom field. In FIG. 6, the bottom field portion is shaded.
  • the duplicating unit 3081 duplicates such a reconstructed image of the BL image.
  • the top field is generated when the downsampler 109 performs the downsampling process on the first frame of the input image.
  • the bottom field is generated when the downsampler 109 performs a downsampling process on the second frame that is the next frame after the first frame. Therefore, the top field of the reconstructed image to be duplicated corresponds to the first frame in the time direction, and the bottom field of the duplicated reconstructed image corresponds to the second frame in the time direction. Therefore, the reconstructed image and the duplicate image obtained by duplicating the reconstructed image are images corresponding to the input image in the time direction.
  • the EL encoder 300B encodes the first frame using the upsampled reconstructed image as a reference image. Similarly, the EL encoder 300B encodes the second frame using the duplicate image upsampled by the upsampler 3082 as a reference image.
  • the EL encoder 300B performs an encoding process using an image having information corresponding to the input image in the time direction as a reference image, and generates an encoded frame. be able to.
  • FIG. 7 is a flowchart showing an example of the operation flow of the adaptive upsampling unit 308 in the video encoding device 30 according to the present embodiment.
  • the duplicating unit 3081 of the adaptive upsampling unit 308 duplicates the reconstructed image of the BL image (step S71). Then, the upsampler 3082 of the adaptive upsampling unit 208 performs upsampling processing on the reconstructed image and the reconstructed image (duplicated image) duplicated by the duplicating unit 3081 (step S72).
  • the upsampled image (upsampled image) is stored in the buffer 106B and used for the subsequent encoding process.
  • the EL encoder 300B performs an encoding process using an image having information corresponding to an input image in the time direction as a reference image, and generates an encoded frame. can do. Therefore, the video encoding device 30 according to the present embodiment can output a scalable bitstream having information in the time direction. Since such a scalable bit stream has information in the time direction as compared with the case of FIG. 14, it is possible to prevent deterioration in image quality such as clogging.
  • the image that the upsampling unit 3082 of the EL encoder 300B performs the upsampling process is a frame including both the top field and the bottom field. Therefore, the image referred to when the EL encoder 300B of the video encoding device 30 according to the present embodiment performs the encoding process has more spatial direction information than the image referred to by the EL encoder 200B. Including. Therefore, the video encoding device 30 according to the present embodiment can generate a scalable bitstream that includes more information in the spatial direction than the video encoding device 20.
  • the video encoding device 30 can alleviate the deterioration of the image quality in the spatial direction, so that even if the structure of the EL image and the BL image is different, a higher-quality scalable bitstream is output. Can do.
  • FIG. 8 is a block diagram showing an example of the video encoding device 40 according to the present embodiment.
  • the video encoding device 40 according to the present embodiment includes a BL encoder 100A, an EL encoder 400B, a downsampler 109, and a multiplexer 110.
  • the EL encoder 400B includes an adaptive upsampling unit 408 instead of the adaptive upsampling unit 208 of the EL encoder 200B or the adaptive upsampling unit 308 of the EL encoder 300B.
  • the estimator 101B of the EL encoder 400B is configured to supply the determined PU block prediction parameter to the adaptive upsampling unit 408. This difference information will be described later.
  • FIG. 9 is a block diagram showing an example of the configuration of the adaptive upsampling unit 408 in the EL encoder 400B of the video encoding device 40 according to the present embodiment.
  • the adaptive upsampling unit 408 includes a processing selection unit 4081, an upsampler 4082, and a processing unit 4083.
  • the processing unit 4083 includes a deinterlacing unit 2081 and a duplicating unit 3081.
  • the operations of the deinterlacing unit 2081 and the duplicating unit 3081 included in the processing unit 4083 are the same as those of the deinterlacing unit 2081 and the duplicating unit 3081 described above, respectively.
  • the upsampler 4082 performs an upsampling process on the image output from the deinterlacing unit 2081 and / or the duplicating unit 3081, similarly to the upsampler 2082 and the upsampler 3082.
  • the upsampled image output from the upsampler 4082 is stored in the buffer 106B.
  • the process selection unit 4081 selects which process of deinterlacing by the deinterlacing unit 2081 and replication by the duplicating unit 3081 is performed based on the output of the estimator 101B.
  • FIG. 10 is a flowchart illustrating an example of the flow of operations of the adaptive upsampling unit 408 and the estimator 101B in the video encoding device 40 according to the present embodiment.
  • the process selection unit 4081 confirms whether or not the determination result is received from the estimator 101B (step S101). If the determination result has not been received (NO in step S101), since the estimator 101B has not performed processing using the reconstructed image of the BL image input to the processing selection unit 4081, the process proceeds to step S102. If the determination result has been received (YES in step S101), the process proceeds to step S104.
  • the process selection unit 4081 supplies the input reconstructed image of the BL image to the deinterlace unit 2081 and the duplication unit 3081.
  • the deinterlacing unit 2081 executes Step S41 shown in FIG. That is, the deinterlacing unit 2081 deinterlaces the reconstructed image of the BL image.
  • the upsampler 4082 executes Step S42. That is, the upsampler 4082 performs upsampling processing on the deinterlaced image (step S102).
  • the duplication unit 3081 executes Step S71 illustrated in FIG. That is, the duplication unit 3081 duplicates the reconstructed image of the BL image.
  • the upsampler 4082 executes Step S72. That is, the upsampler 4082 performs upsampling processing on the reconstructed image and the duplicate image (step S103). Note that step S102 and step S103 may be performed simultaneously or in reverse order.
  • the upsampler 4082 stores the image upsampled in step S102 and the image upsampled in step S103 in the buffer 106B.
  • the estimator 101B can acquire difference information using the upsampled image. That is, the estimator 101B represents (1) first difference information representing a difference between an upsampled image after deinterlacing and an input image, and (2) a difference between the upsampled image after duplication processing and the input image. Of the second difference information, the smaller difference information size is determined to be an upsampled image with a low coding cost. Then, the estimator 101B supplies the determination result to the process selection unit 4081.
  • the process selection unit 4081 uses the determination result to select which process of deinterlacing by the deinterlacing unit 2081 and replication by the duplicating unit 3081 is to be performed. That is, the process selection unit 4081 selects a process with a smaller difference information size (step S104).
  • the processing unit 4083 executes the selected process based on the selection result. That is, either the deinterlacing process shown in step S41 or the duplication process shown in step S71 is executed (step S105).
  • step S106 the upsampler 4082 performs upsampling processing based on the output of step S105. That is, step S42 or step S72 is executed (step S106).
  • the estimator 101B uses the upsampled image stored in the buffer 106B to perform a full search for the CU quadtree structure, the PU block prediction parameter, and the TU quadtree structure for each CTU. The smallest combination (the best coding efficiency) is determined. At this time, the estimator 101B determines a PU block prediction parameter that minimizes the coding cost, for example, by the following method.
  • the amount of information generated by selecting a certain prediction is PredInfo_x (x is intra prediction (hereinafter referred to as intra), inter prediction (hereinafter referred to as inter), or Inter-layer prediction (hereinafter referred to as inter-layer prediction)).
  • x is intra prediction (hereinafter referred to as intra), inter prediction (hereinafter referred to as inter), or Inter-layer prediction (hereinafter referred to as inter-layer prediction)).
  • the difference between the input image and the predicted image is Diff_x.
  • the estimator 101B compares the following (a) to (c) and selects the prediction method that minimizes the estimation method.
  • the estimator 101B can determine the PU block prediction parameter. Subsequent processing is the same as the processing described with reference to FIG.
  • video encoding apparatus 40 performs deinterlacing processing or duplication processing based on the selection result by processing selection section 4081, and upsamples the processed image. Thereby, the video encoding device 40 can suppress the encoding cost in addition to the effects of the video encoding device 20 and the video encoding device 30 according to the first and second embodiments described above.
  • the processing unit 4083 performs both the deinterlacing processing and the duplication processing before selection, and the processing with the lower coding cost is selected.
  • the operation of the processing selection unit 4081 of the video encoding device 40 according to the embodiment is not limited to this.
  • the process selection unit 4081 may select whether to perform a deinterlacing process or a duplication process based on a selection result for a predetermined number of frames in the past.
  • the process selection unit 4081 may store which process has been selected in the past in a storage unit or the like (not shown). Thereby, since the EL encoder 400B does not need to perform the deinterlacing process and the duplication process once, the processing amount in the EL encoder 400B can be reduced.
  • the encoding method of the EL encoder (200B, 300B, 400B) and the encoding method of the BL encoder 100A may be the same or different. May be used.
  • the encoding method of the EL encoder (200B, 300B, 400B) is HEVC
  • the encoding method of the BL encoder 100A is HEVC, H.264, or the like.
  • H.264 MPEG4-AVC (Moving Picture Experts Group phase 4-Advanced Video Coding)
  • MPEG-2 MPEG-2.
  • each of the above embodiments can be configured by a hardware circuit, it can also be realized by a computer program.
  • the information processing system illustrated in FIG. 11 includes a processor 1001, a program memory 1002, a storage medium 1003 for storing video data, and a storage medium 1004 for storing a bitstream.
  • the storage medium 1003 and the storage medium 1004 may be separate storage media, or may be storage areas composed of the same storage medium.
  • a magnetic storage medium such as a hard disk can be used as the storage medium.
  • the program memory 1002 stores a program for realizing the function of each block shown in FIG. 1, FIG. 2, FIG. 5, FIG. Then, the processor 1001 implements the function of the video encoding device shown in FIG. 1 or FIG. 8 by executing processing according to the program stored in the program memory 1002.
  • FIG. 12 is a block diagram illustrating a main part of a video encoding device according to the present disclosure.
  • the video encoding apparatus includes an enhancement layer encoder 500, a base layer encoder 510, and a multiplexer 520.
  • the enhancement layer encoder 500 encodes the input image as an enhancement layer, and outputs an enhancement layer bitstream.
  • the enhancement layer encoder 500 is realized by, for example, the EL encoder 200B, the EL encoder 300B, or the EL encoder 400B shown in FIG.
  • the base layer encoder 510 encodes, as a base layer, a low resolution image having a structure different from the input image, which is a low resolution image obtained by down-sampling the input image, and outputs a base layer bit stream.
  • the input image has a progressive structure
  • the low-resolution image has an interlace structure.
  • the base layer encoder 510 is realized by, for example, the BL encoder 100A illustrated in FIG. 1 or FIG.
  • the multiplexer 520 generates a scalable bit stream obtained by multiplexing the base layer bit stream and the enhancement layer bit stream.
  • the multiplexer 520 is realized by, for example, the multiplexer 110 illustrated in FIG. 1 or FIG.
  • the enhancement layer encoder 500 includes a processing unit 501 and an upsampling unit 502.
  • the processing unit 501 processes the reconstructed image of the low resolution image so as to become an image corresponding to the input image in the time direction.
  • the processing unit 501 is realized by, for example, the deinterlacing unit 2081 illustrated in FIG. 2 or FIG. 9 or the duplicating unit 3081 illustrated in FIG. 5 or FIG.
  • the processing unit 501 supplies the processed image (image corresponding to the input image in the time direction) to the upsample unit 502.
  • the upsampling unit 502 receives the processed image from the processing unit 501.
  • the upsampling unit 502 performs upsampling processing on the received image.
  • the upsampler 502 is realized by, for example, the upsampler 2082 shown in FIG. 2, the upsampler 3082 shown in FIG. 5, or the upsampler 4082 shown in FIG.
  • the enhancement layer encoder 500 performs an encoding process using the image upsampled as described above.
  • An enhancement layer encoder that encodes an input image as an enhancement layer and outputs an enhancement layer bitstream
  • a base layer encoder that encodes, as a base layer, a low resolution image having a structure different from that of the input image, wherein the input image is a down-sampled low-resolution image, and outputs a base layer bitstream
  • a multiplexer that generates a scalable bitstream obtained by multiplexing the base layer bitstream and the enhancement layer bitstream
  • the enhancement layer encoder is a processing means for processing the reconstructed image of the low-resolution image so as to be an image corresponding to the input image in the time direction; Up-sampling means for performing up-sampling processing on the image corresponding to the input image in the time direction,
  • the video enhancement apparatus wherein the enhancement layer encoder performs an encoding process using an image on which the upsampling process has been performed.
  • the processing means deinterlaces the reconstructed image of the low resolution image, and the deinterlaced image is an image corresponding to the input image in the time direction,
  • the video encoding apparatus according to appendix 2, wherein the upsampling means performs upsampling processing on a deinterlaced image.
  • the processing means duplicates the reconstructed image of the low-resolution image, and sets the reconstructed image and the duplicated image of the reconstructed image as images corresponding to the input image in the time direction,
  • the video encoding apparatus according to appendix 2, wherein the up-sampling means performs up-sampling processing on the reconstructed image or a duplicate image of the reconstructed image.
  • the processing means includes Deinterlacing means for deinterlacing the reconstructed image of the low resolution image, and deinterlacing the image corresponding to the input image in the time direction; A duplicating unit that duplicates the reconstructed image of the low-resolution image, and makes the reconstructed image and the duplicated image of the reconstructed image an image corresponding to the input image in the time direction,
  • the enhancement layer encoder further includes processing selection means for selecting which of deinterlacing by the deinterlacing means and duplication by the duplicating means is performed.
  • the video encoding apparatus according to appendix 2, wherein the processing means performs the deinterlacing or the duplication processing based on a selection result by the processing selection means.
  • the processing selection unit is configured to output first difference information that is a difference between an image obtained by performing upsampling processing on the deinterlaced image and the input image, and the reconstructed image or a duplicate image of the reconstructed image. 6.
  • the processing selecting unit selects whether to perform deinterlacing by the deinterlacing unit or duplication by the duplicating unit based on a selection result for a predetermined number of frames in the past.
  • An enhancement layer encoder that encodes an input image as an enhancement layer and outputs an enhancement layer bitstream, and a base that encodes a low-resolution image obtained by downsampling the input image as a base layer and outputs a base layer bitstream
  • a video encoding method in a video encoding device comprising: a layer encoder; and a multiplexer that generates a scalable bitstream obtained by multiplexing the base layer bitstream and the enhancement layer bitstream,
  • the low resolution image has a different structure from the input image;
  • the enhancement layer encoder processes the reconstructed image of the low resolution image so as to be a corresponding image to the input image in the time direction; Performing an upsampling process on the image corresponding to the input image in the time direction;
  • a video encoding method wherein an encoding process is performed using an image that has been subjected to the upsampling process.
  • the input image is a progressive image
  • the low resolution image is an interlaced image.
  • An enhancement layer encoder that encodes an input image as an enhancement layer and outputs an enhancement layer bitstream, and a base that encodes a low-resolution image obtained by downsampling the input image as a base layer and outputs a base layer bitstream
  • a computer including a video encoder including: a layer encoder; and a multiplexer that generates a scalable bitstream in which the base layer bitstream and the enhancement layer bitstream are multiplexed.
  • a computer-readable non-transitory recording medium for recording a program characterized in that the processing for encoding using the upsampled image is executed.
  • the input image is a progressive image
  • the low resolution image is an interlaced image.
  • Item 11 The recording medium according to appendix 10, wherein

Abstract

上位レイヤと最下位レイヤとの夫々に入力される画像の構造が異なる場合であっても高画質なスケーラブルビットストリームを出力することが可能な技術を提供する。映像符号化装置は、入力画像をエンハンスメントレイヤ(EL)として符号化し、ELビットストリームを出力するEL符号化器と、入力画像がダウンサンプルされた、入力画像とは異なる構造を有する低解像度画像を、ベースレイヤ(BL)として符号化し、BLビットストリームを出力するBL符号化器と、スケーラブルビットストリームを生成するマルチプレクサとを備え、EL符号化器は、時間方向において入力画像に対して対応する画像となるように、低解像度画像の再構築画像を処理する処理部と、時間方向において入力画像に対応する画像に対し、アップサンプル処理を行うアップサンプル部とを備え、EL符号化器は、アップサンプル処理が行われた画像を用いて符号化処理を行う。

Description

映像符号化装置、映像符号化方法および記録媒体
 本開示は、映像符号化装置、映像符号化方法および記録媒体に関する。
 超高精細度テレビジョン放送(スーパーハイビジョン)の映像信号を受け付けて表示する表示装置に関する技術が特許文献1に記載されている。
 また、映像信号のエンコーディングまたはデコーディング時に層間動き予測を行う方法が、例えば、特許文献2に記載されている。
特開2014-236241号公報 特表2009-522982号公報 国際公開第2015/190078号
 ところで、スケーラブル符号化方式の符号化技術であって、例えば、High efficiency video coding(HEVC)におけるScalable High-efficiency Video Coding(SHVC)を用いた映像符号化方式に関連する技術が特許文献3に記載されている。この映像符号化方式では、入力画像をダウンサンプリングして得られた低解像度画像が低解像度層(最下位レイヤまたはBL:Base Layer)として符号化され、入力画像が高解像度層(上位レイヤまたはEL:Enhancement Layer)として符号化される。
 BLに対応する解像度の画像の各フレームおよびELに対応する解像度の画像の各フレームは、符号化ツリーユニット(CTU:Coding Tree Unit)に分割されて符号化される。CTUは、クアッドツリー構造で符号化ユニット(CU:Coding Unit)に分割されて符号化される。各CUは、予測ユニット(PU:Prediction Unit)に分割されて予測される。また、各CUの予測誤差は、クアッドツリー構造で、変換ユニット(TU:Transform Unit)に分割されて周波数変換される。なお、最大サイズのCUおよび最小サイズのCUを、LCU(Largest Coding Unit :最大符号化ユニット)およびとSCU(Smallest Coding Unit:最小符号化ユニット)と呼ぶ。
 CUは、イントラ予測/フレーム間予測/レイヤ間予測の符号化単位である。以下、イントラ予測、フレーム間予測およびレイヤ間予測を説明する。
 イントラ予測は、符号化対象フレームの再構築画像から予測画像を生成する予測である。
 フレーム間予測は、符号化対象フレームと表示時刻が異なる再構築フレーム(参照ピクチャ)の画像に基づく予測である。以下、フレーム間予測をインター予測とも呼ぶ。インター予測では、参照ピクチャの再構築画像ブロックに基づいて(必要であれば画素補間を用いて)、インター予測信号が生成される。
 動きベクトルの予測として、AMVP(Advanced Motion Vector Prediction )とマージモードとの2種類がある。AMVPは、参照ピクチャの動きベクトルを用いて、動きベクトルの差分が最小となるように動きベクトルを予測する技術である。AMVPでは、参照ピクチャインデックス、AMVP予測動きベクトルに関連づけられたAMVPインデックス、および、AMVP予測動きベクトルの組が伝送される。マージモードは、参照ピクチャの動きベクトルをそのまま流用する技術である。マージモードでは、マージ予測が有効であることを示すマージフラグと、流用する動きベクトルと関連づけられたマージ候補インデックスとの組が伝送される。
 レイヤ間予測は、符号化済みのBLの再構築フレームのアップサンプル画像を用いるインター予測である。レイヤ間予測では、符号化済みBLの再構築フレームを、ELのフレームと同じ解像度にアップサンプルしたアップサンプル画像をフレーム間予測することによって、レイヤ間予測信号が生成される。
 以下、イントラ予測を用いるCUをイントラCU、インター予測を用いるCUをインターCU、レイヤ間予測を用いるCUをレイヤ間CUと呼ぶ。
 なお、イントラCUのみで符号化されたフレームはIフレーム(またはIピクチャ)と呼ばれる。イントラCUだけでなく、インターCUやレイヤ間CUも含めて符号化されたフレームはPフレーム(またはPピクチャ)と呼ばれる。ブロックのインター予測に1枚の参照ピクチャだけでなく、さらに同時に2枚の参照ピクチャを用いるインターCUを含めて符号化されたフレームはBフレーム(またはBピクチャ)と呼ばれる。
 次に、図13を参照して、特許文献3に関連する技術として、各解像度画像の各フレームの各CTUを入力画像としてビットストリームを出力する映像符号化装置であってスケーラブル符号化方式を用いる映像符号化装置の構成と動作を説明する。
 図13に示す映像符号化装置10は、BLを符号化する低解像度層HEVCエンコーダ(BL符号化器)100A、ELを符号化する高解像度層HEVCエンコーダ(EL符号化器)100B、ダウンサンプル器109、およびマルチプレクサ110を備える。ダウンサンプル器109は、入力画像をダウンサンプルして得られた低解像度画像(BL画像)をBL符号化器100Aに供給する。
 BL符号化器100Aは、推定器101A、予測器102A、周波数変換器103A、量子化器104A、逆量子化/逆周波数変換器105A、バッファ106A、およびエントロピー符号化器107Aを備える。
 BL画像のフレームの各CTUは、クアッドツリー構造に基づいて、可変サイズのCUに分割される。BL画像の各CUの予測誤差は、CTUと同様に、クアッドツリー構造に基づいて、可変サイズのTUに分割される。
 具体的には、推定器101Aは、例えば符号化コストを最小にするCU分割形状すなわちCUクアッドツリー構造を決定する。また、推定器101Aは、BL画像のCTU毎に、PUのブロック予測パラメータ(以下、PUブロック予測パラメータと呼ぶ)およびTUクアッドツリー構造を決定する。
 予測器102Aは、推定器101Aが決定したCUクアッドツリー構造およびPUブロック予測パラメータに基づいて、BL画像のCUに対する予測信号を生成する。予測信号は、上述したイントラ予測またはインター予測に基づいて生成される。
 周波数変換器103Aは、推定器101Aが決定したTUクアッドツリー構造に基づいて、BL画像の画像信号から予測信号を減じた予測誤差信号(以下、予測誤差画像とも呼ぶ)を周波数変換する。
 量子化器104Aは、周波数変換された予測誤差画像(直交変換係数)を量子化する。以下、量子化された直交変換係数を係数レベルと呼ぶ。また、0以外の値を持つ係数レベルを有意係数レベルと呼ぶ。
 エントロピー符号化器107Aは、CTU単位のCUクアッドツリー構造を示すsplit_cu_flag、PUブロック予測パラメータ、TUクアッドツリー構造を示すsplit_transform_flagおよび係数レベルをエントロピー符号化し、BL画像のビットストリーム(低解像度層(BL)ビットストリーム)を出力する。以後、エンロトピー符号化するパラメータ群を符号化パラメータと呼ぶ。
 逆量子化/逆周波数変換器105Aは、係数レベルを逆量子化する。さらに、逆量子化/逆周波数変換器105Aは、逆量子化した直交変換係数を逆周波数変換する。逆周波数変換されたBL画像の再構築予測誤差画像は、予測信号が加えられて、BL画像の再構築画像としてバッファ106Aに供給される。
 バッファ106Aは、BL画像の再構築画像を以後の符号化処理のために格納する。バッファ106Aに格納された再構築画像は、推定器101Aおよび予測器102Aによって取得され、CUクアッドツリー構造、PUブロック予測パラメータ、およびTUクアッドツリー構造の決定、予測信号の生成に用いられる。
 EL符号化器100Bは、推定器101B、予測器102B、周波数変換器103B、量子化器104B、逆量子化/逆周波数変換器105B、バッファ106B、エントロピー符号化器107Bおよびアップサンプル器108を備える。
 EL符号化器100Bに入力される入力画像(EL画像)のフレームの各CTUは、クアッドツリー構造に基づいて、可変サイズのCUに分割される。EL画像の各CUの予測誤差は、CTUと同様に、クアッドツリー構造に基づいて、可変サイズのTUに分割される。
 推定器101Bは、EL画像のCTU毎に、CUクアッドツリー構造、PUブロック予測パラメータおよびTUクアッドツリー構造を決定する。
 予測器102Bは、推定器101Bが決定したCUクアッドツリー構造およびPUブロック予測パラメータに基づいて、EL画像のCUの画像信号に対する予測信号を生成する。予測信号は、上述したイントラ予測、インター予測またはレイヤ間予測に基づいて生成される。
 周波数変換器103Bは、推定器101Bが決定したTUクアッドツリー構造に基づいて、EL画像の画像信号から予測信号を減じた予測誤差画像を周波数変換する。
 量子化器104Bは、周波数変換された予測誤差画像(直交変換係数)を量子化する。
 エントロピー符号化器107Bは、EL画像のCUのクアッドツリー構造を示すsplit_cu_flag、PUのブロック予測パラメータ、TUのクアッドツリー構造を示すsplit_transform_flagおよび係数レベルをエントロピー符号化し、EL画像のビットストリーム(ELビットストリーム)を出力する。
 逆量子化/逆周波数変換器105Bは、係数レベルを逆量子化する。さらに、逆量子化/逆周波数変換器105Bは、逆量子化した直交変換係数を逆周波数変換する。逆周波数変換された再構築予測誤差画像は、予測信号が加えられて、再構築画像としてバッファ106Bに供給される。
 アップサンプル器108は、BL画像の再構築画像をアップサンプルする。
 バッファ106Bは、EL画像の再構築画像と、アップサンプル器108によってアップサンプルされたBL画像の再構築画像を以後の符号化処理のために格納する。バッファ106Bに格納されたデータは、推定器101Bおよび予測器102Bから取得され、CUクアッドツリー構造、PUブロック予測パラメータ、およびTUクアッドツリー構造の決定、予測信号の生成に用いられる。
 マルチプレクサ110は、BLビットストリームとELビットストリームとを多重化してスケーラブルビットストリームを生成する。上述した動作に基づいて、映像符号化装置10は、入力画像からスケーラブルビットストリームを生成する。
 このような映像符号化装置10において、入力画像(EL画像)と、該入力画像をダウンサンプルして得られた低解像度画像(BL画像)との構造が異なる場合がある。例えば、EL画像がプログレッシブ方式の画像(以下、プログレッシブ画像と呼ぶ)であり、BL画像がインターレース方式の画像(以下、インターレース画像と呼ぶ)である場合がある。このような場合、アップサンプル器108がバッファ106Aから取得するBL画像の再構築画像は、インターレース方式の画像であるため、時間方向の情報がEL画像の半分になる。したがって、このような再構築画像を用いて生成したELビットストリームを含むスケーラブルビットストリームを、例えば、特許文献1に記載の表示装置等で復号した場合、時間方向の情報が失われている箇所があるため、復号した映像がカクつき、不自然に見えてしまう場合がある。つまり、上記場合では、復号した映像の画質が劣化してしまう可能性がある。
 本開示は、上記課題に鑑みてなされたものであり、その目的は、上位レイヤに入力される画像と最下位レイヤに入力される画像との構造が異なる場合であっても高画質なスケーラブルビットストリームを出力することが可能な技術を提供することにある。
 本開示の一態様に係る映像符号化装置は、入力画像をエンハンスメントレイヤとして符号化し、エンハンスメントレイヤビットストリームを出力するエンハンスメントレイヤ符号化器と、前記入力画像がダウンサンプルされた低解像度画像であって、前記入力画像とは異なる構造を有する低解像度画像を、ベースレイヤとして符号化し、ベースレイヤビットストリームを出力するベースレイヤ符号化器と、前記ベースレイヤビットストリームと前記エンハンスメントレイヤビットストリームとを多重化したスケーラブルビットストリームを生成するマルチプレクサとを備え、前記エンハンスメントレイヤ符号化器は、時間方向において前記入力画像に対して対応する画像となるように、前記低解像度画像の再構築画像を処理する処理手段と、前記時間方向において、前記入力画像に対応する画像に対し、アップサンプル処理を行うアップサンプル手段と、を備え、前記エンハンスメントレイヤ符号化器は、前記アップサンプル処理が行われた画像を用いて符号化処理を行う。
 また、本開示の一態様に係る映像符号化方法は、入力画像をエンハンスメントレイヤとして符号化し、エンハンスメントレイヤビットストリームを出力するエンハンスメントレイヤ符号化器と、前記入力画像がダウンサンプルされた低解像度画像を、ベースレイヤとして符号化し、ベースレイヤビットストリームを出力するベースレイヤ符号化器と、前記ベースレイヤビットストリームと前記エンハンスメントレイヤビットストリームとを多重化したスケーラブルビットストリームを生成するマルチプレクサとを含む映像符号化装置における映像符号化方法であって、前記低解像度画像は、前記入力画像とは異なる構造を有し、前記エンハンスメントレイヤ符号化器が、時間方向において前記入力画像に対して対応する画像となるように、前記低解像度画像の再構築画像を処理し、前記時間方向において、前記入力画像に対応する画像に対し、アップサンプル処理を行い、前記アップサンプル処理が行われた画像を用いて符号化処理を行う。
 なお、上記各装置または方法を、コンピュータによって実現するコンピュータプログラム、およびそのコンピュータプログラムが格納されている、コンピュータ読み取り可能な非一時的記録媒体も、本発明の範疇に含まれる。
 上位レイヤに入力される画像と最下位レイヤに入力される画像との構造が異なる場合であっても高画質なスケーラブルビットストリームを出力することができる。
第1の実施の形態に係る映像符号化装置の一例を示すブロック図である。 第1の実施の形態に係る映像符号化装置における適応アップサンプル部の一例を示すブロック図である。 第1の実施の形態に係る映像符号化装置のEL符号化器における符号化処理を説明するための図である。 第1の実施の形態における映像符号化装置における適応アップサンプル部の動作の一例を示すフローチャートである。 第2の実施の形態に係る映像符号化装置における適応アップサンプル部の一例を示すブロック図である。 第2の実施の形態に係る映像符号化装置のEL符号化器における符号化処理を説明するための図である。 第2の実施の形態における映像符号化装置における適応アップサンプル部の動作の一例を示すフローチャートである。 第3の実施の形態に係る映像符号化装置の一例を示すブロック図である。 第3の実施の形態に係る映像符号化装置における適応アップサンプル部の一例を示すブロック図である。 第3の実施の形態における映像符号化装置における適応アップサンプル部および推定器の動作の一例を示すフローチャートである。 本開示による映像符号化装置の機能を実現可能な情報処理システムの構成例を示すブロック図である。 本開示による映像符号化装置の主要部を示すブロック図である。 スケーラブル符号化方式を用いる映像符号化装置の一例を示すブロック図である。 図13の映像符号化装置のEL符号化器における符号化処理を説明するための図である。
 <第1の実施の形態>
 第1の実施の形態に係る映像符号化装置について、図面を参照して説明する。図1は、本実施の形態に係る映像符号化装置20の一例を示すブロック図である。本実施の形態に係る映像符号化装置20は、BL符号化器100A、EL符号化器200B、ダウンサンプル器109およびマルチプレクサ110を備える。映像符号化装置20のBL符号化器100Aの構成および動作は、図13に示した映像符号化装置10におけるBL符号化器100Aの構成および動作と同じである。また、映像符号化装置20のダウンサンプル器109およびマルチプレクサ110の動作も、図13に示した映像符号化装置10におけるダウンサンプル器109およびマルチプレクサ110の動作と同様である。
 本実施の形態において、入力画像は、例えばプログレッシブ方式の画像(例えば、4K60p)であるとする。また、入力画像をダウンサンプルしたBL画像は、インターレース方式の画像である。つまり、ダウンサンプル器109は、入力画像に対し、プログレッシブ・インターレース変換を行うことにより、入力画像のあるフレームのトップフィールドと、該入力画像の次のフレームのボトムフィールドとからなるフレームを、BL画像として出力する。このBL画像は、BL符号化器100Aに入力される。
 なお、本実施の形態において、映像符号化装置20は、ダウンサンプル器109を含む構成として説明を行うが、映像符号化装置20は、ダウンサンプル器109を含まなくてもよい。例えば、入力画像と対応し、該入力画像よりも低解像度の画像が他の装置等から取得可能な場合、映像符号化装置20は、該低解像度画像をBL符号化器100Aの入力とし、入力画像をEL符号化器200Bの入力としてもよい。つまり、ダウンサンプル器109は、映像符号化装置20とは異なる装置で実現されてもよい。そして、入力画像と、該入力画像をダウンサンプルしたBL画像とを、映像符号化装置20に入力する構成であってもよい。
 EL符号化器200Bは、図1に示す通り、推定器101B、予測器102B、周波数変換器103B、量子化器104B、逆量子化/逆周波数変換器105B、バッファ106B、エントロピー符号化器107Bおよび適応アップサンプル部208を備える。EL符号化器200Bは、図13に示すEL符号化器100Bのアップサンプル器108に代えて適応アップサンプル部208を備える構成である。なお、推定器101B、予測器102B、周波数変換器103B、量子化器104B、逆量子化/逆周波数変換器105B、バッファ106Bおよびエントロピー符号化器107Bの動作は、図13を用いて説明した動作と同様であるため、その説明を省略する。
 適応アップサンプル部208は、BL符号化器100Aのバッファ106Aに格納された、BL画像の再構築画像を入力とする。以下では、適応アップサンプル部208の構成および動作について説明する。
 図2は、本実施の形態に係る映像符号化装置20のEL符号化器200Bにおける適応アップサンプル部208の構成の一例を示すブロック図である。図2に示す通り、適応アップサンプル部208は、デインターレース部2081と、アップサンプル器2082とを備える。
 デインターレース部2081は、時間方向において入力画像に対して対応する画像となるように、BL画像の再構築画像を処理する。具体的には、デインターレース部2081は、BL画像の再構築画像をデインターレースし、デインターレースした画像を、時間方向において入力画像に対して対応する画像とする。そして、デインターレース部2081は、デインターレースした画像をアップサンプル器2082に供給する。
 アップサンプル器2082は、デインターレース部2081からデインターレースした画像を受け取る。そして、アップサンプル器2082は、デインターレースした画像をアップサンプルする。アップサンプル器2082の動作は、上述したアップサンプル器108と同様である。
 アップサンプル器2082によってアップサンプルされた画像(アップサンプル画像と呼ぶ)は、EL符号化器100Bと同様に、バッファ106Bに格納される。これにより、アップサンプル画像は、以後の符号化処理に用いられることができる。
 図3および図14を用いて、EL符号化器200Bの動作についてさらに説明する。まず、図14を用いて、上述した映像符号化装置10のEL符号化器100Bにおける符号化処理を説明する。
 上述した通り、EL画像がプログレッシブ画像であり、BL画像がインターレース画像の場合、BL画像の再構築画像(フレーム)は、ある入力画像のフレームから生成されたトップフィールドと上記フレームの次のフレームから生成されたボトムフィールドとからなる。つまり、BL画像の再構築画像の時間方向におけるフレーム数は、元の入力画像に比べ、半分になる。よって、EL符号化器100BがEL画像の符号化を行う場合、図14に示す通り、BL画像の再構築画像のアップサンプル画像を用いて(参照して)生成したフレームと、参照せずに生成したフレーム(図14における網掛けのフレーム)とが生成されることになる。したがって、このような再構築画像を用いて生成したELビットストリームを含むスケーラブルビットストリームを、表示装置等で復号した場合、時間方向の情報が失われている箇所があるため、復号した映像がカクつき、不自然に見えてしまう場合がある。
 次に、本実施の形態に係る映像符号化装置20のEL符号化器200Bにおける符号化処理を、図3を用いて説明する。BL画像の再構築画像は、上述したとおり、インターレース画像であるため、トップフィールドとボトムフィールドとからなるフレームとなる。図3では、ボトムフィールドの部分を網掛けで示している。
 デインターレース部2081は、このようなBL画像の再構築画像をデインターレースすることにより、再構築画像をトップフィールドとボトムフィールドとに分ける。トップフィールドは、入力画像のあるフレーム(第1フレームと呼ぶ)に対して、ダウンサンプル器109がダウンサンプル処理を行うことにより生成されたものである。そして、ボトムフィールドは、上記第1フレームの次のフレーム(第2フレームと呼ぶ)に対して、ダウンサンプル器109がダウンサンプル処理を行うことにより生成されたものである。したがって、トップフィールドは、第1フレームに対して時間方向において対応する画像であり、ボトムフィールドは、第2フレームに対して時間方向において対応する画像となる。
 そして、アップサンプル器2082がトップフィールドをアップサンプルすることにより、EL符号化器200Bは、該アップサンプルされたトップフィールドを参照画像として用いて、第1フレームを符号化する。同様に、EL符号化器200Bは、アップサンプル器2082がアップサンプルしたボトムフィールドを参照画像として用いて、第2フレームを符号化する。
 これにより、図3に示す通り、EL符号化器200Bは、時間方向に対する、入力画像に対応する情報を有する画像を参照画像として用いて、符号化処理を行い、符号化されたフレームを生成することができる。
 次に、図4を用いて、本実施の形態における映像符号化装置20における適応アップサンプル部208の動作の流れについて説明する。図4は、本実施の形態における映像符号化装置20における適応アップサンプル部208の動作の流れの一例を示すフローチャートである。
 図4に示す通り、適応アップサンプル部208のデインターレース部2081は、BL画像の再構築画像をデインターレースする(ステップS41)。そして、適応アップサンプル部208のアップサンプル器2082は、デインターレース部2081がデインターレースした画像に対し、アップサンプル処理を行う(ステップS42)。
 アップサンプル処理された画像(アップサンプル画像)は、バッファ106Bに格納され、後の符号化処理に用いられることになる。
 以上のように、本実施の形態のEL符号化器200Bは、時間方向に対する、入力画像に対応する情報を有する画像を参照画像として用いて、符号化処理を行い、符号化されたフレームを生成することができる。したがって、本実施の形態に係る映像符号化装置20は、時間方向の情報を有したスケーラブルビットストリームを出力することができる。このようなスケーラブルビットストリームは、図14の場合に比べ、時間方向の情報を有した状態であるため、カクつき等の画質の劣化を防ぐことができる。よって、映像符号化装置20は、EL画像とBL画像との構造が異なる場合であっても高画質なスケーラブルビットストリームを出力することができる。
 <第2の実施の形態>
 第2の実施の形態に係る映像符号化装置について、図面を参照して説明する。本実施の形態に係る映像符号化装置30は、上述した図1に記載の通り、BL符号化器100A、EL符号化器300B、ダウンサンプル器109およびマルチプレクサ110を備える。EL符号化器300Bは、EL符号化器200Bの適応アップサンプル部208に代えて、適応アップサンプル部308を備える構成である。
 図5は、本実施の形態に係る映像符号化装置30のEL符号化器300Bにおける適応アップサンプル部308の構成の一例を示すブロック図である。図5に示す通り、適応アップサンプル部308は、複製部3081と、アップサンプル器3082とを備える。
 複製部3081は、時間方向において入力画像に対して対応する画像となるように、BL画像の再構築画像を処理する。具体的には、複製部3081は、BL画像の再構築画像を複製し、該再構築画像と、複製した再構築画像(複製画像)とを、時間方向において入力画像に対して対応する画像とする。そして、複製部3081は、再構築画像と、複製画像とを、アップサンプル器3082に供給する。
 アップサンプル器3082は、複製部3081から再構築画像と、複製画像とを受け取る。そして、アップサンプル器3082は、再構築画像と、複製画像とをアップサンプルする。アップサンプル器3082の動作は、上述したアップサンプル器108と同様である。
 アップサンプル器3082によってアップサンプルされたアップサンプル画像は、EL符号化器100Bと同様に、バッファ106Bに格納される。これにより、アップサンプル画像は、以後の符号化処理に用いられることができる。
 本実施の形態に係る映像符号化装置30のEL符号化器300Bにおける符号化処理を、図6を用いて更に説明する。BL画像の再構築画像は、上述したとおり、インターレース画像であるため、トップフィールドとボトムフィールドとからなるフレームとなる。図6では、ボトムフィールドの部分を網掛けで示している。
 複製部3081は、このようなBL画像の再構築画像を複製する。トップフィールドは、入力画像の第1フレームに対して、ダウンサンプル器109がダウンサンプル処理を行うことにより生成されたものである。そして、ボトムフィールドは、上記第1フレームの次のフレームである第2フレームに対して、ダウンサンプル器109がダウンサンプル処理を行うことにより生成されたものである。したがって、複製される再構築画像のトップフィールドは、第1フレームに対して時間方向において対応しており、複製された再構築画像のボトムフィールドは、第2フレームに対して時間方向において対応する。したがって、再構築画像と、この再構築画像を複製した複製画像とは、夫々、入力画像に対して時間方向において対応する画像となる。
 そして、アップサンプル器3082が再構築画像をアップサンプルすることにより、EL符号化器300Bは、該アップサンプルされた再構築画像を参照画像として用いて、第1フレームを符号化する。同様に、EL符号化器300Bは、アップサンプル器3082がアップサンプルした複製画像を参照画像として用いて、第2フレームを符号化する。
 これにより、図6に示す通り、EL符号化器300Bは、時間方向に対する、入力画像に対応する情報を有する画像を参照画像として用いて、符号化処理を行い、符号化されたフレームを生成することができる。
 次に、図7を用いて、本実施の形態における映像符号化装置30における適応アップサンプル部308の動作の流れについて説明する。図7は、本実施の形態における映像符号化装置30における適応アップサンプル部308の動作の流れの一例を示すフローチャートである。
 図7に示す通り、適応アップサンプル部308の複製部3081は、BL画像の再構築画像を複製する(ステップS71)。そして、適応アップサンプル部208のアップサンプル器3082は、再構築画像および複製部3081が複製した再構築画像(複製画像)に対し、アップサンプル処理を行う(ステップS72)。
 アップサンプル処理された画像(アップサンプル画像)は、バッファ106Bに格納され、後の符号化処理に用いられることになる。
 以上のように、本実施の形態のEL符号化器300Bは、時間方向に対する、入力画像に対応する情報を有する画像を参照画像として用いて、符号化処理を行い、符号化されたフレームを生成することができる。したがって、本実施の形態に係る映像符号化装置30は、時間方向の情報を有したスケーラブルビットストリームを出力することができる。このようなスケーラブルビットストリームは、図14の場合に比べ、時間方向の情報を有した状態であるため、カクつき等の画質の劣化を防ぐことができる。
 また、EL符号化器300Bのアップサンプル器3082がアップサンプル処理を行う画像は、トップフィールドもボトムフィールドも含むフレームである。したがって、本実施の形態に係る映像符号化装置30のEL符号化器300Bが符号化処理を行う際に参照する画像は、EL符号化器200Bが参照する画像に比べ、空間方向の情報を多く含む。したがって、本実施の形態に係る映像符号化装置30は、映像符号化装置20よりも空間方向の情報をより多く含んだスケーラブルビットストリームを生成することができる。
 これにより、映像符号化装置30は、空間方向の画質の劣化を緩和することができるため、EL画像とBL画像との構造が異なる場合であっても更に高画質なスケーラブルビットストリームを出力することができる。
 <第3の実施の形態>
 第3の実施の形態に係る映像符号化装置について、図面を参照して説明する。図8は、本実施の形態に係る映像符号化装置40の一例を示すブロック図である。本実施の形態に係る映像符号化装置40は、BL符号化器100A、EL符号化器400B、ダウンサンプル器109およびマルチプレクサ110を備える。EL符号化器400Bは、EL符号化器200Bの適応アップサンプル部208またはEL符号化器300Bの適応アップサンプル部308に代えて、適応アップサンプル部408を備える構成である。また、EL符号化器400Bの推定器101Bは、決定したPUブロック予測パラメータを適応アップサンプル部408に供給する構成である。この差分情報については後述する。
 図9は、本実施の形態に係る映像符号化装置40のEL符号化器400Bにおける適応アップサンプル部408の構成の一例を示すブロック図である。図9に示す通り、適応アップサンプル部408は、処理選択部4081、アップサンプル器4082および処理部4083を備える。処理部4083は、デインターレース部2081および複製部3081を含む。
 処理部4083に含まれるデインターレース部2081および複製部3081の動作は、夫々、上述したデインターレース部2081および複製部3081と同様である。
 アップサンプル器4082は、アップサンプル器2082およびアップサンプル器3082と同様に、デインターレース部2081および/または複製部3081から出力された画像に対してアップサンプル処理を施す。アップサンプル器4082から出力されたアップサンプル画像は、バッファ106Bに格納される。
 処理選択部4081は、推定器101Bの出力に基づいて、デインターレース部2081によるデインターレースおよび複製部3081による複製の何れの処理を行うかを選択する。
 次に、図10を用いて、本実施の形態における映像符号化装置40における適応アップサンプル部408および推定器101Bの動作の流れについて説明する。図10は、本実施の形態における映像符号化装置40における適応アップサンプル部408および推定器101Bの動作の流れの一例を示すフローチャートである。
 まず、処理選択部4081が、推定器101Bから判定結果を受け取っているか否かを確認する(ステップS101)。判定結果を受け取っていない場合(ステップS101にてNO)、推定器101Bが処理選択部4081に入力されるBL画像の再構築画像を用いた処理を行っていないため、処理をステップS102に進める。判定結果を受け取っている場合(ステップS101にてYES)、処理はステップS104に進む。
 判定結果を受け取っていない場合、処理選択部4081は、入力されたBL画像の再構築画像をデインターレース部2081および複製部3081に供給する。これにより、デインターレース部2081は、図4に示すステップS41を実行する。即ち、デインターレース部2081は、BL画像の再構築画像をデインターレースする。そして、アップサンプル器4082は、ステップS42を実行する。即ち、アップサンプル器4082は、デインターレースした画像に対し、アップサンプル処理を行う(ステップS102)。また、複製部3081は、図7に示すステップS71を実行する。即ち、複製部3081は、BL画像の再構築画像を複製する。そして、アップサンプル器4082は、ステップS72を実行する。即ち、アップサンプル器4082は、再構築画像および複製画像に対し、アップサンプル処理を行う(ステップS103)。なお、ステップS102およびステップS103は同時に行われてもよいし、逆順で行われてもよい。
 そして、アップサンプル器4082は、ステップS102でアップサンプルされた画像およびステップS103でアップサンプルされた画像をバッファ106Bに格納する。これにより、推定器101Bは、アップサンプルされた画像を用いて、差分情報を取得することができる。即ち、推定器101Bは、(1)デインターレース後のアップサンプル画像と入力画像との差分を表す第1差分情報と、(2)複製処理後のアップサンプル画像と、入力画像との差分を表す第2差分情報と、のうち、差分情報のサイズが小さい方を、符号化コストが小さいアップサンプル画像であると判定する。そして、推定器101Bは、判定結果を、処理選択部4081に供給する。処理選択部4081は、判定結果を用いて、デインターレース部2081によるデインターレースおよび複製部3081による複製の何れの処理を行うかを選択する。つまり、処理選択部4081は、差分情報のサイズが小さくなる方の処理を選択する(ステップS104)。
 そして、処理部4083は、選択結果に基づいて、選択された方の処理を実行する。即ち、ステップS41に示したデインターレース処理またはステップS71に示した複製処理の何れかが実行される(ステップS105)。
 その後、アップサンプル器4082は、ステップS105の出力に基づいて、アップサンプル処理を行う。つまり、ステップS42またはステップS72が実行される(ステップS106)。
 これにより、推定器101Bは、バッファ106Bに格納されたアップサンプル処理画像を用いて、CTU毎に、CUクアッドツリー構造、PUブロック予測パラメータおよびTUクアッドツリー構造を全探索して、符号化コストが最小となる(最も符号化効率のよい)組み合わせを決定する。このとき、推定器101Bは、例えば、以下に示す方法で、符号化コストが最小となるPUブロック予測パラメータを決定する。
 例えば、ある予測(イントラ予測、インター予測、レイヤ間予測)を選択することにより発生する情報量をPredInfo_x(xは、イントラ予測(以下、イントラと呼ぶ)、インター予測(以下、インターと呼ぶ)またはレイヤ間予測(以下、レイヤ間と呼ぶ))とする。入力画像と、予測画像との差分をDiff_xとする。そして、推定器101Bは、以下の(a)~(c)を比較し、最小となる予測方法を選択する。
(a)PredInfo_イントラ+Diff_イントラ
(b)PredInfo_インター+Diff_インター
(c)PredInfo_レイヤ間+Diff_レイヤ間
 なお、レイヤ間予測の場合、上述したステップS106によってアップサンプルされたアップサンプル画像を用いる。つまり、レイヤ間予測の場合、デインターレース処理後のアップサンプル画像または複製処理後のアップサンプル画像の何れかを用いる。
 これにより、推定器101Bは、PUブロック予測パラメータを決定することができる。その後の処理は、図13を用いて説明した処理と同様である。
 以上のように、本実施の形態に係る映像符号化装置40は、処理選択部4081による選択結果に基づいて、デインターレース処理または複製処理を行い、処理後の画像をアップサンプルする。これにより、映像符号化装置40は、上述した第1および第2の実施の形態に係る映像符号化装置20および映像符号化装置30の効果に加え、符号化コストを抑えることができる。
 なお、図10に示す処理では、選択の前に、処理部4083においてデインターレース処理と複製処理との両方の処理を行ったうえで、符号化コストが小さくなる方の処理を選択したが、本実施の形態に係る映像符号化装置40の処理選択部4081の動作はこれに限定されるものではない。処理選択部4081は、例えば、過去の所定分のフレームに対する選択結果に基づいて、デインターレース処理または複製処理の何れの処理を行うかを選択してもよい。このとき、過去にどちらの処理を選択したのかを処理選択部4081は自身の図示しない記憶部等に記憶しておけばよい。これにより、EL符号化器400Bは、一度、デインターレース処理および複製処理を行わなくてもよいため、EL符号化器400Bにおける処理量を削減することができる。
 なお、上記の各実施の形態において、EL符号化器(200B、300B、400B)の符号化方法と、BL符号化器100Aとの符号化方法とは、同じであってもよいし、異なる方法を用いてもよい。例えば、EL符号化器(200B、300B、400B)の符号化方法がHEVCである場合、BL符号化器100Aの符号化方法は、HEVC、H.264(MPEG4-AVC(Moving Picture Experts Group phase 4-Advanced Video Coding))またはMPEG-2であってもよい。
 また、上記の各実施の形態を、ハードウェア回路で構成することも可能であるが、コンピュータプログラムにより実現することも可能である。
 図11に示す情報処理システムは、プロセッサ1001、プログラムメモリ1002、映像データを格納するための記憶媒体1003およびビットストリームを格納するための記憶媒体1004を備える。記憶媒体1003と記憶媒体1004とは、別個の記憶媒体であってもよいし、同一の記憶媒体からなる記憶領域であってもよい。記憶媒体として、ハードディスク等の磁気記憶媒体を用いることができる。
 図11に示された情報処理システムにおいて、プログラムメモリ1002には、図1、図2、図5、図8または図9に示された各ブロックの機能を実現するためのプログラムが格納される。そして、プロセッサ1001は、プログラムメモリ1002に格納されているプログラムに従って処理を実行することによって、図1または図8に示された映像符号化装置の機能を実現する。
 図12は、本開示による映像符号化装置の主要部を示すブロック図である。図12に示すように、映像符号化装置は、エンハンスメントレイヤ符号化器500と、ベースレイヤ符号化器510と、マルチプレクサ520と、を備える。
 エンハンスメントレイヤ符号化器500は、入力画像をエンハンスメントレイヤとして符号化し、エンハンスメントレイヤビットストリームを出力する。エンハンスメントレイヤ符号化器500は、例えば、図1に示すEL符号化器200B、EL符号化器300Bまたは図8に示すEL符号化器400Bで実現される。
 ベースレイヤ符号化器510は、入力画像がダウンサンプルされた低解像度画像であって、入力画像とは異なる構造を有する低解像度画像を、ベースレイヤとして符号化し、ベースレイヤビットストリームを出力する。例えば、入力画像がプログレッシブ方式の構造を有し、低解像度画像がインターレース方式の構造を有する。ベースレイヤ符号化器510は、例えば、図1または図8に示すBL符号化器100Aで実現される。
 マルチプレクサ520は、ベースレイヤビットストリームとエンハンスメントレイヤビットストリームとを多重化したスケーラブルビットストリームを生成する。マルチプレクサ520は、例えば、図1または図8に示すマルチプレクサ110で実現される。
 エンハンスメントレイヤ符号化器500は、処理部501と、アップサンプル部502とを備える。処理部501は、低解像度画像の再構築画像を、時間方向において入力画像に対して対応する画像となるように処理する。処理部501は、例えば、図2または図9に示すデインターレース部2081または図5または図9に示す複製部3081によって実現される。処理部501は、処理を行った画像(時間方向において、入力画像に対応する画像)をアップサンプル部502に供給する。
 アップサンプル部502は、処理部501から処理が行われた画像を受け取る。アップサンプル部502は受け取った画像に対し、アップサンプル処理を行う。アップサンプル部502は、例えば、図2に示すアップサンプル器2082、図5に示すアップサンプル器3082または図9に示すアップサンプル器4082によって実現される。
 以上のようにしてアップサンプルされた画像を用いて、エンハンスメントレイヤ符号化器500は、符号化処理を行う。
 なお、上述した各実施の形態は、本発明の好適な実施の形態であり、上記各実施の形態にのみ本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において当業者が上記各実施の形態の修正や代用を行い、種々の変更を施した形態を構築することが可能である。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 入力画像をエンハンスメントレイヤとして符号化し、エンハンスメントレイヤビットストリームを出力するエンハンスメントレイヤ符号化器と、
 前記入力画像がダウンサンプルされた低解像度画像であって、前記入力画像とは異なる構造を有する低解像度画像を、ベースレイヤとして符号化し、ベースレイヤビットストリームを出力するベースレイヤ符号化器と、
 前記ベースレイヤビットストリームと前記エンハンスメントレイヤビットストリームとを多重化したスケーラブルビットストリームを生成するマルチプレクサとを備え、
 前記エンハンスメントレイヤ符号化器は、時間方向において前記入力画像に対して対応する画像となるように、前記低解像度画像の再構築画像を処理する処理手段と、
 前記時間方向において、前記入力画像に対応する画像に対し、アップサンプル処理を行うアップサンプル手段と、を備え、
 前記エンハンスメントレイヤ符号化器は、前記アップサンプル処理が行われた画像を用いて符号化処理を行う、ことを特徴とする映像符号化装置。
 (付記2)
 前記入力画像は、プログレッシブ方式の画像であり、
 前記低解像度画像は、インターレース方式の画像である、
 ことを特徴とする付記1に記載の映像符号化装置。
 (付記3)
 前記処理手段は、前記低解像度画像の再構築画像をデインターレースし、デインターレースした画像を、前記時間方向において前記入力画像に対して対応する画像とし、
 前記アップサンプル手段は、デインターレースした画像に対し、アップサンプル処理を行う、ことを特徴とする付記2に記載の映像符号化装置。
 (付記4)
 前記処理手段は、前記低解像度画像の再構築画像を複製し、該再構築画像と、該再構築画像の複製画像とを、前記時間方向において前記入力画像に対して対応する画像とし、
 前記アップサンプル手段は、前記再構築画像または前記再構築画像の複製画像に対し、アップサンプル処理を行う、ことを特徴とする付記2に記載の映像符号化装置。
 (付記5)
 前記処理手段は、
  前記低解像度画像の再構築画像をデインターレースし、デインターレースした画像を、前記時間方向において前記入力画像に対して対応する画像とするデインターレース手段と、
  前記低解像度画像の再構築画像を複製し、該再構築画像と、該再構築画像の複製画像とを、前記時間方向において前記入力画像に対して対応する画像とする複製手段と、を含み、
 前記エンハンスメントレイヤ符号化器は、前記デインターレース手段によるデインターレースおよび前記複製手段による複製の何れの処理を行うかを選択する処理選択手段を更に備え、
 前記処理手段は、前記処理選択手段による選択結果に基づいて、前記デインターレースまたは前記複製の処理を行う、ことを特徴とする付記2に記載の映像符号化装置。
 (付記6)
 前記処理選択手段は、前記デインターレースした画像に対してアップサンプル処理を行った画像と前記入力画像との差分である第1差分情報と、前記再構築画像または前記再構築画像の複製画像に対してアップサンプル処理を行った画像と前記入力画像との差分である第2差分情報とのうち、差分が小さい方の処理を選択する、ことを特徴とする付記5に記載の映像符号化装置。
 (付記7)
 前記処理選択手段は、過去の所定分のフレームに対する選択結果に基づいて、前記デインターレース手段によるデインターレースおよび前記複製手段による複製の何れの処理を行うかを選択する、ことを特徴とする付記5に記載の映像符号化装置。
 (付記8)
 入力画像をエンハンスメントレイヤとして符号化し、エンハンスメントレイヤビットストリームを出力するエンハンスメントレイヤ符号化器と、前記入力画像がダウンサンプルされた低解像度画像を、ベースレイヤとして符号化し、ベースレイヤビットストリームを出力するベースレイヤ符号化器と、前記ベースレイヤビットストリームと前記エンハンスメントレイヤビットストリームとを多重化したスケーラブルビットストリームを生成するマルチプレクサとを含む映像符号化装置における映像符号化方法であって、
 前記低解像度画像は、前記入力画像とは異なる構造を有し、
 前記エンハンスメントレイヤ符号化器が、時間方向において前記入力画像に対して対応する画像となるように、前記低解像度画像の再構築画像を処理し、
 前記時間方向において、前記入力画像に対応する画像に対し、アップサンプル処理を行い、
 前記アップサンプル処理が行われた画像を用いて符号化処理を行う、ことを特徴とする映像符号化方法。
 (付記9)
 前記入力画像は、プログレッシブ方式の画像であり、
 前記低解像度画像は、インターレース方式の画像である、
 ことを特徴とする付記8に記載の映像符号化方法。
 (付記10)
 入力画像をエンハンスメントレイヤとして符号化し、エンハンスメントレイヤビットストリームを出力するエンハンスメントレイヤ符号化器と、前記入力画像がダウンサンプルされた低解像度画像を、ベースレイヤとして符号化し、ベースレイヤビットストリームを出力するベースレイヤ符号化器と、前記ベースレイヤビットストリームと前記エンハンスメントレイヤビットストリームとを多重化したスケーラブルビットストリームを生成するマルチプレクサとを含む映像符号化装置を含むコンピュータに、
 前記入力画像とは異なる構造を有する前記低解像度画像の再構築画像を、時間方向において前記入力画像に対して対応する画像となるように処理する処理と、
 前記時間方向において、前記入力画像に対応する画像に対してアップサンプルする処理と、
 前記アップサンプルされた画像を用いて符号化する処理と、を実行させることを特徴とするプログラムを記録する、コンピュータ読み取り可能な非一時的な記録媒体。
 (付記11)
 前記入力画像は、プログレッシブ方式の画像であり、
 前記低解像度画像は、インターレース方式の画像である、
 ことを特徴とする付記10に記載の記録媒体。
 この出願は、2016年6月6日に出願された日本出願特願2016-112481を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 10、20、30、40  映像符号化装置
 100A  BL符号化器
 100B  EL符号化器
 101A、101B  推定器
 102A、102B  予測器
 103A、103B  周波数変換器
 104A、104B  量子化器
 105A、105B  逆量子化/逆周波数変換器
 106A、106B  バッファ
 107A、107B  エントロピー符号化器
 108  アップサンプル器
 109  ダウンサンプル器
 110  マルチプレクサ
 208、308、408  適応アップサンプル部
 200B、300B、400B  EL符号化器
 2081  デインターレース部
 3081  複製部
 4081  処理選択部
 2082、3082、4082  アップサンプル器
 4083  処理部
 500  エンハンスメントレイヤ符号化器
 501  処理部
 502  アップサンプル部
 510  ベースレイヤ符号化器
 520  マルチプレクサ
 1001  プロセッサ
 1002  プログラムメモリ
 1003、1004  記憶媒体

Claims (11)

  1.  入力画像をエンハンスメントレイヤとして符号化し、エンハンスメントレイヤビットストリームを出力するエンハンスメントレイヤ符号化器と、
     前記入力画像がダウンサンプルされた低解像度画像であって、前記入力画像とは異なる構造を有する低解像度画像を、ベースレイヤとして符号化し、ベースレイヤビットストリームを出力するベースレイヤ符号化器と、
     前記ベースレイヤビットストリームと前記エンハンスメントレイヤビットストリームとを多重化したスケーラブルビットストリームを生成するマルチプレクサとを備え、
     前記エンハンスメントレイヤ符号化器は、時間方向において前記入力画像に対して対応する画像となるように、前記低解像度画像の再構築画像を処理する処理手段と、
     前記時間方向において、前記入力画像に対応する画像に対し、アップサンプル処理を行うアップサンプル手段と、を備え、
     前記エンハンスメントレイヤ符号化器は、前記アップサンプル処理が行われた画像を用いて符号化処理を行う、ことを特徴とする映像符号化装置。
  2.  前記入力画像は、プログレッシブ方式の画像であり、
     前記低解像度画像は、インターレース方式の画像である、
     ことを特徴とする請求項1に記載の映像符号化装置。
  3.  前記処理手段は、前記低解像度画像の再構築画像をデインターレースし、デインターレースした画像を、前記時間方向において前記入力画像に対して対応する画像とし、
     前記アップサンプル手段は、デインターレースした画像に対し、アップサンプル処理を行う、ことを特徴とする請求項2に記載の映像符号化装置。
  4.  前記処理手段は、前記低解像度画像の再構築画像を複製し、該再構築画像と、該再構築画像の複製画像とを、前記時間方向において前記入力画像に対して対応する画像とし、
     前記アップサンプル手段は、前記再構築画像または前記再構築画像の複製画像に対し、アップサンプル処理を行う、ことを特徴とする請求項2に記載の映像符号化装置。
  5.  前記処理手段は、
      前記低解像度画像の再構築画像をデインターレースし、デインターレースした画像を、前記時間方向において前記入力画像に対して対応する画像とするデインターレース手段と、
      前記低解像度画像の再構築画像を複製し、該再構築画像と、該再構築画像の複製画像とを、前記時間方向において前記入力画像に対して対応する画像とする複製手段と、を含み、
     前記エンハンスメントレイヤ符号化器は、前記デインターレース手段によるデインターレースおよび前記複製手段による複製の何れの処理を行うかを選択する処理選択手段を更に備え、
     前記処理手段は、前記処理選択手段による選択結果に基づいて、前記デインターレースまたは前記複製の処理を行う、ことを特徴とする請求項2に記載の映像符号化装置。
  6.  前記処理選択手段は、前記デインターレースした画像に対してアップサンプル処理を行った画像と前記入力画像との差分である第1差分情報と、前記再構築画像または前記再構築画像の複製画像に対してアップサンプル処理を行った画像と前記入力画像との差分である第2差分情報とのうち、差分が小さい方の処理を選択する、ことを特徴とする請求項5に記載の映像符号化装置。
  7.  前記処理選択手段は、過去の所定分のフレームに対する選択結果に基づいて、前記デインターレース手段によるデインターレースおよび前記複製手段による複製の何れの処理を行うかを選択する、ことを特徴とする請求項5に記載の映像符号化装置。
  8.  入力画像をエンハンスメントレイヤとして符号化し、エンハンスメントレイヤビットストリームを出力するエンハンスメントレイヤ符号化器と、前記入力画像がダウンサンプルされた低解像度画像を、ベースレイヤとして符号化し、ベースレイヤビットストリームを出力するベースレイヤ符号化器と、前記ベースレイヤビットストリームと前記エンハンスメントレイヤビットストリームとを多重化したスケーラブルビットストリームを生成するマルチプレクサとを含む映像符号化装置における映像符号化方法であって、
     前記低解像度画像は、前記入力画像とは異なる構造を有し、
     前記エンハンスメントレイヤ符号化器が、時間方向において前記入力画像に対して対応する画像となるように、前記低解像度画像の再構築画像を処理し、
     前記時間方向において、前記入力画像に対応する画像に対し、アップサンプル処理を行い、
     前記アップサンプル処理が行われた画像を用いて符号化処理を行う、ことを特徴とする映像符号化方法。
  9.  前記入力画像は、プログレッシブ方式の画像であり、
     前記低解像度画像は、インターレース方式の画像である、
     ことを特徴とする請求項8に記載の映像符号化方法。
  10.  入力画像をエンハンスメントレイヤとして符号化し、エンハンスメントレイヤビットストリームを出力するエンハンスメントレイヤ符号化器と、前記入力画像がダウンサンプルされた低解像度画像を、ベースレイヤとして符号化し、ベースレイヤビットストリームを出力するベースレイヤ符号化器と、前記ベースレイヤビットストリームと前記エンハンスメントレイヤビットストリームとを多重化したスケーラブルビットストリームを生成するマルチプレクサとを含む映像符号化装置を含むコンピュータに、
     前記入力画像とは異なる構造を有する前記低解像度画像の再構築画像を、時間方向において前記入力画像に対して対応する画像となるように処理する処理と、
     前記時間方向において、前記入力画像に対応する画像に対してアップサンプルする処理と、
     前記アップサンプルされた画像を用いて符号化する処理と、を実行させることを特徴とするプログラムを記録する、コンピュータ読み取り可能な非一時的な記録媒体。
  11.  前記入力画像は、プログレッシブ方式の画像であり、
     前記低解像度画像は、インターレース方式の画像である、
     ことを特徴とする請求項10に記載の記録媒体。
PCT/JP2017/020547 2016-06-06 2017-06-02 映像符号化装置、映像符号化方法および記録媒体 WO2017213033A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018522449A JP6635197B2 (ja) 2016-06-06 2017-06-02 映像符号化装置、映像符号化方法およびプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016-112481 2016-06-06
JP2016112481 2016-06-06

Publications (1)

Publication Number Publication Date
WO2017213033A1 true WO2017213033A1 (ja) 2017-12-14

Family

ID=60578700

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/020547 WO2017213033A1 (ja) 2016-06-06 2017-06-02 映像符号化装置、映像符号化方法および記録媒体

Country Status (2)

Country Link
JP (1) JP6635197B2 (ja)
WO (1) WO2017213033A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006521727A (ja) * 2003-03-03 2006-09-21 トムソン ライセンシング インタレースデジタルビデオデータのスケーラブル符号化および復号化
JP2007053554A (ja) * 2005-08-17 2007-03-01 Sony Corp 符号化装置、符号化方法、復号装置、復号方法およびプログラム
JP2007081983A (ja) * 2005-09-15 2007-03-29 Sony Corp 符号化装置、符号化方法、復号装置、復号方法およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006521727A (ja) * 2003-03-03 2006-09-21 トムソン ライセンシング インタレースデジタルビデオデータのスケーラブル符号化および復号化
JP2007053554A (ja) * 2005-08-17 2007-03-01 Sony Corp 符号化装置、符号化方法、復号装置、復号方法およびプログラム
JP2007081983A (ja) * 2005-09-15 2007-03-29 Sony Corp 符号化装置、符号化方法、復号装置、復号方法およびプログラム

Also Published As

Publication number Publication date
JPWO2017213033A1 (ja) 2019-03-22
JP6635197B2 (ja) 2020-01-22

Similar Documents

Publication Publication Date Title
US7787540B2 (en) Method for scalably encoding and decoding video signal
JP4991761B2 (ja) 映像信号のエンコーディング/デコーディング方法
RU2479939C2 (ru) Способ кодирования и декодирования видеосигнала с использованием взвешенного предсказания и устройство для его осуществления
CN108111846B (zh) 用于可伸缩视频编码的帧间层预测方法及装置
EP2524505B1 (en) Edge enhancement for temporal scaling with metadata
JP2007189698A (ja) スムージング予測を利用した多階層基盤のビデオエンコーディング方法、デコーディング方法、ビデオエンコーダおよびビデオデコーダ
JP2018533286A (ja) 画像の符号化/復号化方法及びこれのために装置
KR20140138538A (ko) 복수의 레이어를 지원하는 비디오 코딩 방법 및 장치
US20140192884A1 (en) Method and device for processing prediction information for encoding or decoding at least part of an image
US10484687B2 (en) Method and apparatus for image encoding and decoding
JP6055098B2 (ja) 映像復号方法及びそれを利用する装置
US10187641B2 (en) Method and apparatus for encoding/decoding multilayer video signal
JP2022526726A (ja) 符号化ビデオストリームにおける適応パラメータセット参照および制約のための方法
KR100880640B1 (ko) 스케일러블 비디오 신호 인코딩 및 디코딩 방법
US20140064364A1 (en) Methods and devices for inter-layer prediction in scalable video compression
KR100883604B1 (ko) 스케일러블 비디오 신호 인코딩 및 디코딩 방법
JP5137119B2 (ja) ビデオ画像の階層符号化法
KR20140138544A (ko) 멀티 레이어 구조에 있어서 움직임 정보의 유도 방법 및 이를 이용하는 장치
JP6484097B2 (ja) 映像符号化装置、映像復号装置、映像符号化方法、映像復号方法、映像符号化プログラム及び映像復号プログラム
US10708606B2 (en) Multilayer video signal encoding/decoding method and device
KR101652072B1 (ko) 멀티 레이어 비디오의 움직임 정보 탐색 방법 및 장치
WO2015190078A1 (ja) 映像符号化装置、映像符号化方法および記録媒体
KR100878825B1 (ko) 스케일러블 비디오 신호 인코딩 및 디코딩 방법
JP6635197B2 (ja) 映像符号化装置、映像符号化方法およびプログラム
RU2384970C1 (ru) Способ межслойного предсказания для видеосигнала

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2018522449

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17810211

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17810211

Country of ref document: EP

Kind code of ref document: A1