WO2013191193A1 - 映像圧縮伝送システム - Google Patents

映像圧縮伝送システム Download PDF

Info

Publication number
WO2013191193A1
WO2013191193A1 PCT/JP2013/066784 JP2013066784W WO2013191193A1 WO 2013191193 A1 WO2013191193 A1 WO 2013191193A1 JP 2013066784 W JP2013066784 W JP 2013066784W WO 2013191193 A1 WO2013191193 A1 WO 2013191193A1
Authority
WO
WIPO (PCT)
Prior art keywords
region
information
video data
background
unit
Prior art date
Application number
PCT/JP2013/066784
Other languages
English (en)
French (fr)
Inventor
佑一郎 小宮
雅俊 近藤
山口 宗明
Original Assignee
株式会社日立国際電気
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立国際電気 filed Critical 株式会社日立国際電気
Priority to JP2014521485A priority Critical patent/JPWO2013191193A1/ja
Publication of WO2013191193A1 publication Critical patent/WO2013191193A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • H04N19/23Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding with coding of regions that are present throughout a whole video segment, e.g. sprites, background or mosaic

Definitions

  • the present invention relates to a video compression transmission system that compresses, transmits, and decodes captured video, and in particular, reduces the amount of transmission information and reduces the cost of super-resolution processing and obtains high-definition decoded video.
  • the present invention relates to a video compression transmission system that can perform video recording.
  • a super-resolution technique for increasing the resolution of the transmitted video may be used before displaying the video.
  • the super-resolution technique improves the resolution by obtaining pixel values of one frame with reference to information of a plurality of frames.
  • FIG. 6 is a configuration block diagram of a conventional video compression transmission system using a super-resolution technique.
  • the conventional video transmission system includes an encoder 7 as a transmission side device and a decoder 8 as a reception side device.
  • the encoder 7 includes a subsampling unit 71 and an encoding unit 72.
  • the sub-sampling unit 71 sub-samples the input video data (that is, thins out pixels) and outputs it.
  • the encoding unit 72 compresses and encodes the video data with MPEG-2 or the like, and outputs the encoded data to the transmission path as an encoded stream.
  • the decoder 8 includes a decoding unit 81 and a super resolution unit 82.
  • the decoding unit 81 decodes the input encoded stream and outputs video data.
  • the super-resolution unit 82 performs super-resolution processing on the input video data and outputs high-resolution video data.
  • super-resolution processing operates outside codec decoding. There, the amount of information is reduced by sampling the video on the encoder 7 side, and super-resolution processing is performed on a small amount of information on the decoder 8 side, while maintaining a resolution close to high definition before being input to the encoder 7.
  • the video data compression rate can be increased.
  • the rate of the encoded stream of the encoding unit 72 is usually a predetermined upper limit and lower limit. It is variable between.
  • the data amount of the encoded stream is I frame (other frames).
  • a frame based on a frame in which encoding is completed only by that frame without reference is dominant, and becomes remarkable when a moving object that can be monitored is not reflected.
  • Super-resolution processing includes single-frame super-resolution that can be implemented by simple processing using only one frame, and multi-frame super-resolution that uses a plurality of frames and is complicated in processing. In order to obtain a high super-resolution effect, it is common to use multi-frame super-resolution.
  • Multi-frame super-resolution is a technique for estimating a high-resolution frame from a plurality of low-resolution frames.
  • the key to multi-frame super-resolution is to accurately estimate the local motion model in the screen.
  • For estimation of motion models there are methods using optical flow such as lucas-kanade, and methods using block matching (including those performed in frequency space, such as phase-only correlation), both of which are accurate estimation results A huge amount of calculation is required to obtain
  • the motion region is divided into a super resolvable region, a singular region, and a flat / still region by an encoding device, and the result of the division is sent again to the decoding device as information and is set as an encoding target.
  • Perform compression coding of the image, and in the decoding device classify into motion area, texture, flat area for each block based on side information, perform super-resolution restoration for the motion area, and for other areas It is described that interpolation is performed.
  • Patent Document 2 discloses that an input image sequence is obtained by enlarging an image by performing super-resolution reconstruction processing using a plurality of thinned images based on compensated motion vectors in an image enlargement apparatus. It describes that a low-resolution image is enlarged to a high image quality even when it is stationary.
  • Patent Document 3 a motion vector is detected for each block, and a convergence operation is performed using an expanded affine transformation in which at least one affine parameter is a function of a variable about the displacement axis of an image from a plurality of motion vectors. It describes that the global motion representing the deformation applied to the entire image is accurately calculated.
  • Non-Patent Document 1 describes that video data and auxiliary data are associated with each other by including a PTS (Presentation Time Stamp) that defines a display time in a PES (Packetized Elementary Stream).
  • PTS Presentation Time Stamp
  • PES Packetized Elementary Stream
  • Patent Documents 1 and 2 an input image is separated into a background region and a moving object region by an encoder, and only the background region is subjected to sub-sampling processing and encoded, and the moving object region is encoded as it is. Thus, it is not described that the high resolution processing is performed only on the background region.
  • the present invention has been made in view of the above circumstances, and can compress high-definition video by super-resolution restoration while compressing the amount of information by sub-sampling, and further reduce the calculation cost in super-resolution processing.
  • An object of the present invention is to provide a video compression transmission system capable of performing the above.
  • the present invention for solving the problems of the conventional example described above is a video compression transmission system comprising an encoder that encodes and outputs input video data, and a decoder that decodes the encoded data and outputs a restored image.
  • the encoder obtains a motion model of the input video data, determines whether the video data is a background region or a moving body region, and outputs region information on the encoder side indicating which region is the region.
  • the first background separation unit that outputs the information of the motion model and the information of the motion model are input
  • the input video is based on the information of the motion model
  • the image processing unit that performs image processing on the background area of the data and outputs it
  • the input area information on the encoder side is information indicating the background area
  • select the output of the image processing unit If the area information on the encoder side is information indicating a moving body area, the first selector that selects and outputs the input video data and the video data output from the first selector are encoded.
  • a decoder that outputs an encoded stream, and a decoder that decodes the input encoded stream and outputs decoded video data; and determines whether the decoded video data is a background area or a mobile area
  • a second background separation unit that outputs decoder-side region information indicating which region is present, and super-resolution processing is performed only on the background region of the decoded video data based on the region information on the decoder side.
  • the output of the super-resolution part is selected and output as the output video, and the area information on the decoder side Moved If information indicating the region is characterized by comprising a second selector for selectively outputting the output of the decoder as an output image.
  • the super-resolution unit estimates the motion model of the background area by comparing the background area of the input decoded video data with the stored past video data.
  • the image restoration unit that restores the background region with high definition and outputs the restored image It is characterized by having.
  • the super-resolution unit estimates and outputs a motion model of the background region by comparing the background region of the input decoded video data with the stored past video data, and a motion Based on the model and auxiliary data indicating the content of the image processing performed on the background area, the video compression transmission system includes the image restoration unit that restores the background area with high definition and outputs the restored image. Therefore, it is possible to reduce the calculation cost by performing super-resolution processing only on the background area with a small calculation amount.
  • FIG. 1 is a configuration block diagram of a video compression transmission system according to a first embodiment of the present invention.
  • FIG. 3 is a processing block diagram illustrating an example of a background separation unit 11 of the encoder 1.
  • FIG. 3 is a schematic explanatory diagram illustrating a processing example of an image processing unit 12.
  • FIG. The flowchart figure which shows the process in the control part of the radio
  • the encoder separates input video data into a background area having a single motion model and a moving body area having a local motion model.
  • the amount of information is reduced by performing sub-sampling only for encoding, and the input video data is encoded as it is for the mobile region, the decoder decodes the encoded data, and the decoded data is converted into the background region.
  • the mobile object region the super-resolution process is performed only on the background region and output, and the decoded video data is output as it is for the mobile region, which is highly effective in super-resolution and requires a large amount of computation.
  • the inventors have realized the usefulness of reducing the amount of I-frame data that does not show moving objects due to the drawbacks of the conventional video compression transmission system. Its usefulness can also be obtained by highly compressing the background region within the I frame with or without moving objects. Therefore, the video compression transmission system of the second embodiment performs image processing only on the background region of the I frame in which the entire frame is encoded by intra prediction, and performs super-resolution only on the background region of the I frame. Processed to restore the image. Thereby, the calculation cost of super-resolution processing can be further reduced, and high-definition video output can be obtained.
  • FIG. 1 is a block diagram showing the configuration of a video compression transmission system according to the first embodiment of the present invention.
  • the video compression transmission system (first system) according to the first embodiment of the present invention includes an encoder 1 as a transmission side device and a decoder 2 as a reception side device. Yes.
  • the encoder 1 includes a background separation unit 11, an image processing unit 12, a selector 13 (first selector), an encoding unit 14, and a stream multiplexing unit 15 (first background separation unit).
  • the decoder 2 includes a stream multiplexing unit 21, a decoding unit 22, a background separation unit 23 (second background separation unit), a super-resolution unit 24, and a selector 25 (second selector).
  • the background separation unit 11 obtains a motion model for the input video data, classifies the motion model as either a background region or a moving body region, and region information (region information on the encoder side) indicating which region, Output the model.
  • the background region has a single motion model in the frame and the calculation cost of super-resolution processing is low, and the mobile region has a local motion model in the frame and has a high calculation cost (super This is an area where it is difficult to obtain a resolution effect.
  • the background area and the moving object area are separated from each other, and the background area on the encoder 1 side is subjected to the super-resolution processing only in the background area having a low calculation cost. Only a moving object region having high calculation cost is not subjected to super-resolution processing.
  • FIG. 2 is a processing block diagram illustrating an example of the background separation unit 11 of the encoder 1.
  • the background separation unit 11 of the encoder 1 includes a motion compensation unit 111, a residual image creation unit 112, and a determination processing unit 113 as processing blocks.
  • the background separation unit 11 processes the video data in units of frames.
  • the motion compensation unit 111 estimates a motion model of input data. Therefore, the motion compensation unit 111 holds video data of past frames. As the past frame, only the immediately preceding frame in the reproduction order may be retained as the original number of pixels, or two or more past frames may be subsampled and the number of pixels may be reduced and retained.
  • the motion compensation unit 111 compares the input frame with the past frame, performs alignment by translation, and obtains the motion vector of the entire frame.
  • the motion vector of the entire frame may be obtained by averaging the motion vectors for each block. Then, the motion compensation unit 111 outputs the obtained motion vector to the image processing unit 12 as a motion model of the background region.
  • the information of the motion model is, for example, information indicating how the previous image from the present is deformed and overlaps the current image, and is always the previous image based on the current image. It is defined as expressing the relationship with. Note that this deformation (motion model) can be expressed only by a motion vector in pixel units, and can be sufficiently approximated by affine transformation in pixel block units.
  • the motion compensation unit 111 performs motion compensation on the stored past frame with the motion vector of the entire frame, and the video data of the past frame subjected to motion compensation is sent to the residual image creation unit 112. Output.
  • the purpose of this motion compensation is to estimate the accuracy of motion estimation on the decoder 2 side, in other words, to determine the calculation cost of super-resolution processing, and the higher the accuracy, the better.
  • the residual image creation unit 112 obtains a difference between the motion-compensated past frame and the input frame, and creates a residual image. Thereby, the residual of the background area
  • the determination processing unit 113 determines whether it is a background area or a moving body area based on the size of the residual. That is, for each block of the residual image output from the residual image creating unit 112, the determination processing unit 113 compares the absolute value sum of pixel values (hereinafter referred to as a block residual) with a threshold value, If the residual is less than or equal to the threshold, the block is incorporated into the background region. If the residual exceeds the threshold, the block is determined as a moving body region, and region information indicating which region is included is output. In this way, the processing of the background separation unit 111 is performed.
  • a block residual the absolute value sum of pixel values
  • the image processing unit 12 performs image processing on the input video data classified into the background area. With respect to the moving object area, image processing is not performed, and the input video data is output as it is. Further, the image processing unit 12 outputs auxiliary data including sample position information indicating a subsampled position and a motion model.
  • FIG. 3 is a schematic explanatory diagram illustrating a processing example of the image processing unit 12.
  • the image processing unit 12 performs sub-sampling processing on the background area of the input video to reduce the information amount of the video data.
  • the information amount reduction by sub-sampling leads to an improvement in compression rate in the encoding unit 14 described later.
  • the image processing unit 12 determines a pixel to be subsampled based on the motion model information from the background separation unit 11, performs image processing, and outputs the image-processed data.
  • the image processing unit 12 also outputs auxiliary data including sample position information indicating how the video data is subsampled and motion model information.
  • the image processing unit 12 determines pixels to be subsampled based on the motion model, and subsamples the input video data to reduce the resolution.
  • the entire image is subdivided into 4 ⁇ 4 pixel blocks starting from the upper left, and the pixel block subjected to image processing is represented by one pixel.
  • the input image is sub-sampled to 1/16 on a pixel (pixel) basis and is reduced by being represented by the upper left pixel (pixel “1”). Then, after returning to the number of pixels before sub-sampling (pixel density) by enlargement (expansion) processing, the data is output.
  • the output data can be handled as video data with the same resolution as before input.
  • the encoding unit 14 to be described later can handle data that has been subjected to image processing and data that has not been processed as a single video stream without distinction.
  • This combination of sub-sampling and enlargement can be said to be direct current that represents all pixel values in the pixel block with a certain representative pixel.
  • the sub-sampling position When there is a motion in the background, the pixel information changes with the motion without changing the sub-sampled pixel location, so the sampling location may be fixed. However, when the background is completely stopped, the pixel information cannot be interpolated and the super-resolution effect cannot be obtained if the sampling position is fixed.
  • the image processing unit 12 changes the position of the pixel to be subsampled for each frame. That is, the image processing unit 12 recognizes the background motion based on the input motion model information, and changes the position of the pixel to be subsampled for each frame when the background is stationary. Thereby, even when the background is completely stationary, different pixel information can be obtained for each frame, and a super-resolution effect can be obtained.
  • the subsampled pixel position is output as sample position information. If the sub-sampling pixel is changed only to a 4 ⁇ 4 pixel block whose background is stationary, the sub-sampling position is determined by a fixed 16-cycle pattern. The sampling positions of these blocks can be specified in the order of (scan).
  • the decoder 2 can know the positions of the subsampled pixels from the sample position information multiplexed in the transmission stream.
  • the selector 13 Based on the region information from the background separation unit 11, the selector 13 outputs either subsampled data or image data that has been input as image processing. Specifically, the selector 13 outputs data output from the image processing unit 12 if the region information is information indicating a background region, and is not subsampled if the region information is information indicating a moving body region. Video data is output as it is.
  • the encoding unit 14 encodes image processed data or data that is not subjected to image processing, and outputs an encoded stream. Specifically, the encoding unit 14 performs a motion search and an optimal prediction mode determination process on the background region subjected to the image processing based on the auxiliary data so that the code amount is reduced, and performs encoding using an optimal method. Do.
  • region information may be given to the encoding unit 14, and in this case, the encoding unit 14 uses the fact that the background region is a single motion within the frame, and uses the background region subjected to image processing. It is possible to select an appropriate prediction mode by omitting the motion search and the optimum prediction mode determination process.
  • H.264 is assumed as an encoding technique used in the encoding unit 14, but the present invention is not limited to this, and any codec that can encode video data input to the encoder 1 may be used.
  • the variable rate control is performed in such a manner that the encoding rate is kept between the lower limit and the upper limit, the present invention is not limited to this.
  • the stream multiplexing unit 15 multiplexes the encoded stream and the auxiliary data and outputs the multiplexed stream to the transmission path.
  • the transmission stream must include additional information so that the decoder 2 side can synchronize the frames of the auxiliary data and the video data.
  • auxiliary data is converted to PES, and the encoded stream and TS (Transport Stream) are multiplexed and transmitted.
  • TS Transport Stream
  • auxiliary data and video data are associated with each other by PTS (a numerical value that defines the display time for synchronous reproduction) included in the PES header.
  • Auxiliary data can be multiplexed up to once per frame, instead of being multiplexed for every 4 ⁇ 4 pixel block, and the amount of data can be compressed using Huffman coding or the like. .
  • the sample position information is sufficient only for the first block of one frame.
  • the stream separation unit 21 of the decoder 2 separates the auxiliary data and the encoded stream.
  • the auxiliary data is output to the super-resolution unit 24, and the encoded stream is output to the decoding unit 22.
  • the decoding unit 22 decodes the input encoded stream by a method corresponding to the encoding in the encoding unit 14 of the encoder 1 and outputs decoded video data.
  • the background separation unit 23 separates the video data into either the background region or the mobile region, and outputs region information (region information on the decoder side) indicating which is included.
  • the background separation unit 23 of the decoder 2 has the same configuration as that of the background separation unit 11 of the encoder 1 shown in FIG. 3, and identifies an area that has been subjected to image processing on the decoded video data.
  • the background separation unit 23 By providing the background separation unit 23 on the decoder 2 side, the background area and the moving object area can be separated on the decoder 2 side without the encoder 1 sending the area information.
  • the background separation method the same method as the background separation processing on the encoder 1 side can be used.
  • the background separation unit 23 compares the input video data with the stored past frame to obtain a motion model of the entire frame, and performs a motion compensation on the past frame to obtain a difference from the input video data. Then, a residual image is created and compared with a threshold value for each region to determine whether the region is a background region or a mobile region, and region information is output. In this case, the background separation unit 23 on the decoder 2 side does not output the motion model information.
  • the region information may be reproduced by acquiring all the positions of 4 ⁇ 4 blocks in which only the DC component is encoded, that is, the background region blocks, from the decoding unit 22 for each frame. At that time, the block may be limited to a block having a motion vector of 0 in the preceding and succeeding frames.
  • the super-resolution unit 24 performs super-resolution processing on the background region that has been subjected to image processing by the encoder 1 and restores a high-definition image before image processing. Super-resolution processing is not performed on the video data in the moving object area.
  • the configuration of the super-resolution unit 24 will be specifically described with reference to FIG.
  • FIG. 4 is a processing block diagram of the super-resolution unit 24. As illustrated in FIG. 4, the super-resolution unit 24 includes a motion model estimation unit 241 and an image restoration unit 242.
  • the super resolving unit 24 inputs region information and auxiliary data in addition to video data, and performs super resolving processing.
  • the area information is used to determine whether the video data is a background area or a moving body area.
  • the auxiliary data includes sample position information and motion model information. The sample position information is used to specify from which position in the pixel block the subsampled background region pixels are sampled.
  • the motion model estimation unit 241 holds video data and sample position information of past frames and performs motion model estimation processing.
  • the motion model estimation unit 241 receives video data, region information, and auxiliary data, recognizes a background region based on the region information, and estimates information on the motion model of the background region using a method similar to the conventional method. Output. When there is no motion in the background, a model without motion is output.
  • the motion model estimation can be performed using the motion model estimated on the encoder 2 side included in the auxiliary data as an initial value, or the motion model of the auxiliary data can be used as the estimation result of the motion model 241 as it is. Good.
  • the motion model estimation unit 241 does not perform motion model estimation processing for a region determined to be a moving body region from the region information.
  • the image restoration unit 242 retains video data of past frames, region information, and motion model information, and performs super-resolution restoration of the background region. Based on the video data of the input frame, the sample position information, the motion model information, and the information of the past frame described above, the image restoration unit 242 increases the resolution of the input frame by the same method as before and outputs it.
  • each image in the frame is subjected to affine transformation obtained by synthesizing affine transformation for each pixel block based on the motion model indicated by the auxiliary data associated with Vn and the sub-sample position (shift of sample position) indicated by the sample position information.
  • An operator of processing applied to the block is An [•].
  • the restored image of the frame corresponding to Vn is An [An-1 [An-2 [Vn-3]]] + An [An-1 [Vn-2]] + An [Vn-1] + Vn
  • the restored image of the pixel block of interest in the arbitrary frame Vn is It can be approximated as AnAn-1 An-2 [Vn-3] + AnAn-1 [Vn-2] + An [Vn-1] + Vn.
  • AnAn-1 is an affine transformation obtained by combining An and An-1.
  • the image restoration unit itself does not need to have storage means. In this way, the video data of the background region that has been super-resolution restored is output to the selector 25, and a high-definition background image is output.
  • the selector 25 outputs either the data subjected to the super-resolution processing or the decoded data based on the area information. That is, if the area information indicates the background area, the selector 25 outputs the data subjected to the super-resolution processing as video data, and if the area information indicates the moving body area, the selector 25 outputs the data.
  • the decoded video data (decoded data) is output as video data as it is.
  • the encoder 1 performs the information amount reduction processing by image processing (subsampling) only on the background region having a single motion model, and the decoder 2 performs the background region in the received video data. Is output after performing the super-resolution processing, and the mobile region is output without performing the super-resolution processing after decoding.
  • the load of super-resolution processing can be reduced and the calculation cost can be reduced.
  • the video data output from the decoder 2 is restored with high resolution by the super-resolution effect in the background area, and the moving body area is not sub-sampled. It can output high-definition video.
  • super-resolution processing on the decoder 2 side fails, super-resolution processing is not performed on the mobile object region, so that the mobile object region can output video with high definition. It is. This is a particularly useful feature in a system that requires certainty, such as a monitoring system, and is a great advantage in a system that has important information only in the mobile region.
  • the image processing unit 12 performs a thinning process.
  • image processing information information that can specify the mode of image processing.
  • An example of image processing by the image processing unit 12 is a combination of irregular thinning (extracting one or more representative pixels from one block) known by compressed sensing and tile-shaped filling in the block by these representative pixels. And so on.
  • the super-resolution unit 24 performs super-resolution processing based on compressed sensing, and specifies the component of the observation result vector with reference to the image processing information.
  • Video data input to the encoder 1 is classified into either a background area or a moving body area in the background separation unit 11.
  • the background separation unit 11 outputs region information indicating whether the input video data is included in the background region or the moving body region, and information on the motion model of the background region. If the input video data is a moving body region, the background separation unit 11 does not output motion model information.
  • the video data input to the image processing unit 12 is subjected to sub-sampling image processing and output when a motion model is input from the background separation unit 11. That is, the background area of the input video data is output after being subjected to image processing, and the input image is output as it is in the moving body area to which no motion model is input.
  • the image processing unit 12 outputs auxiliary data together with video data. As described above, the auxiliary data has sample position information indicating the contents of image processing and motion model information.
  • input video data (input data to the encoder 1) and data on which only the background area is subjected to image processing from the image processing unit 12 are input to the selector 13, and either one is selected by the selector 13.
  • the selector 13 outputs the subsampled data output from the image processing unit 12 if the region information is information indicating a background region, and the subsampled video if the region information is information indicating a moving body region. Output data as is.
  • the subsampled data or original video data input to the encoding unit 14 is encoded and output as an encoded stream. Then, the encoded stream from the encoding unit 14 and the auxiliary data from the image processing unit 12 are input to the stream multiplexing unit 15 and multiplexed, and output as a transmission stream to the transmission path. In this way, processing in the encoder 1 is performed.
  • a transmission stream from the transmission path is input to the stream separation unit 21 of the decoder 2 and separated into auxiliary data and an encoded stream.
  • the encoded stream input to the decoding unit 22 is decoded and output as video data.
  • the video data input to the background separation unit 23 is separated into either a background region or a moving body region based on the motion model, similarly to the background separation unit 11 of the encoder 1. From the background separation unit 23, region information indicating which video data is included is output.
  • the video data input to the super-resolution unit 24 is subjected to super-resolution processing only on the background area based on the area information in the super-resolution unit 24.
  • the super-resolution processing is not performed on the video data of the moving object region.
  • the video data subjected to the super-resolution processing from the super-resolution unit 24 and the decoded video data from the decoding unit 22 are input to the selector 25, and one is selected based on the region information by the selector 25. Is output. If the region information indicates the background region, the selector 25 outputs the data subjected to the super-resolution processing from the super-resolution unit 24 as video data, and the region information indicates the mobile region. For example, the video data decoded by the decoding unit 21 is directly output as video data. In this way, processing in the decoder 2 is performed.
  • the encoder 1 separates the input video data into a background region having a single motion model and a moving body region having a local motion model.
  • the amount of information is reduced by performing image processing only on the region and encoding, the input video data is encoded as it is for the mobile region, the decoder 2 decodes the encoded data, and the decoded data Since the background area and the mobile area are separated, the super-resolution processing is performed only on the background area and output, and the decoded video data is output as it is for the mobile area.
  • the super-resolution unit 24 of the decoder 2 performs motion model estimation of the decoded video data using the past video data and auxiliary data for the background area of the decoded video data.
  • a motion model estimation unit 241 that outputs a model
  • an image restoration unit 242 that performs super-resolution processing of decoded video data based on the estimated motion model, past data, and auxiliary data, and outputs a high-definition image
  • the super-resolution processing is performed only on the background region on which the image processing has been performed, and not on the moving body region, so that a high-definition restored image can be output with a small amount of computation.
  • the video compression transmission system (second system) according to the second embodiment of the present invention has the same configuration as that of the first system. However, in the second system, for example, codes such as I frames and IDR frames are used. Only when the encoding unit encodes the entire frame by intra prediction, image processing is performed on the encoder side and super-resolution processing is performed on the decoder side, and image processing and super-resolution processing are not performed on other frames. .
  • FIG. 5 is a configuration block diagram of a video compression transmission system according to the second embodiment of the present invention.
  • the second system includes an encoder 3 and a decoder 4.
  • the encoder 3 includes a background separation unit 31 (third background separation unit), an image processing unit 32, a selector 33 (third selector), an encoding unit 34, and a stream multiplexing unit 35.
  • the decoder 4 includes a stream separation unit 41, a decoding unit 42, a background separation unit 43 (fourth background separation unit), a super-resolution unit 44, and a selector 45 (fourth selector).
  • the encoding unit 34 outputs information indicating that the entire frame is a frame to be encoded by intra prediction to the background separation unit 31.
  • a frame (intra-encoded frame) predicted only by intra prediction is referred to herein as an I frame.
  • the background separation unit 31 Similar to the background separation unit 11 of the first system shown in FIG. 3, the background separation unit 31 basically performs estimation of a motion model at all times, and region information indicating a background region or a moving body region However, even if the region is determined to be the background region, if the information (I frame instruction) indicating the I frame from the encoding unit 34 is not input, the motion model is not output.
  • the background separation unit 31 assumes that the background can be expressed by one motion model within one frame (slice), and the motion is affine transformation (parallel movement, magnification) like the global motion described in Patent Document 3. , Rotation center and rotation angle), horizontal trapezoidal distortion, vertical trapezoidal distortion. Note that the lateral trapezoidal distortion indicates the degree to which the originally rectangular frame is deformed into a trapezoid whose upper side is shorter (longer) than the variable, and the same applies to the vertical trapezoidal distortion. These parameters can be substituted by four two-dimensional vectors corresponding to the motion vectors at the four corners of the frame.
  • the motion model estimation of the background separation unit 31 is performed for each pixel block over the entire frame (or the region determined as the background region in the previous frame and the vicinity of its edge) by a known high-speed algorithm such as hierarchical motion search.
  • a vector is obtained, blocks having motion vectors similar to the surrounding blocks are grouped, and the block of pixel blocks that is maximized is determined as the background area.
  • the background separation unit 31 estimates the motion search parameters by the least square method (Gauss-Newton method or the like), and then sets 3 to 4 regions larger than the pixel block in the background region.
  • the operation of calculating the phase only correlation between the original image and the estimated image and correcting the estimated parameter is repeated a plurality of times while increasing the accuracy (number of subsamples).
  • the image processing unit 32 performs sub-sampling image processing on the input video data based on the motion model from the background separation unit 31.
  • the image processing unit 32 performs image processing only on the background region of the I frame to which the motion model is input, does not perform image processing on the background region of the frame other than the I frame, and inputs the input video. Output data as is.
  • the image processing unit 32 of the second system performs image processing at a fixed sub-sampling position (for example, the pixel at the upper left corner). And even if it is a frame which does not perform image processing, the image processing part 32 will output auxiliary data if it is a background area
  • the selector 33 selects and outputs either output data of the image processing unit 32 or input video data to the encoder 3 based on the region information.
  • the selector 33 selects the output of the image processing unit 32, but the output of the image processing unit 32 is subsampled only in the case of I frame. In the case of other frames, it is the input video data.
  • the encoding unit 34 encodes the input data.
  • the video data of the background region subsampled by the image processing unit 32 is encoded only when the entire frame (slice) such as an IDR slice is predicted by intra prediction, and the other frames are encoded.
  • Input video data to the encoder 1 is encoded as it is.
  • the encoding unit 34 of the second system outputs an I frame instruction to the background separation unit 31 at a specific timing as an I frame.
  • the background separation unit 31 outputs a motion model only for the background region of the I frame.
  • Decoder 4 FIG. 5
  • the decoding unit 42 of the decoder 4 decodes the encoded stream by a decoding method corresponding to the encoding by the encoding unit 34, and the video data is decoded by the background separation unit 43 and the super-resolution unit 44. Output to.
  • the decoding unit 42 of the second system outputs an I frame instruction to the super resolving unit 34.
  • the background separation unit 43 (fourth background separation unit) separates the decoded video data into the background region and the moving body region as in the first system, and outputs region information (region information on the decoder side). .
  • the super-resolution unit 44 has the same configuration as that of the super-resolution unit 24 of the first system, and performs super-resolution processing on the video data of the background area. Super-resolution processing is performed only on the background area. That is, the super resolving unit 44 performs the super resolving process when the area information is the background area and the I frame instruction is input from the decoding unit 42, and does not perform the super resolving process in other cases. .
  • the motion model estimation unit of the super-resolution unit 44 of the second system estimates the motion model of the background region of the I frame.
  • the image restoration unit of the super-resolution unit 44 includes a frame memory for one frame for past frame video data. Then, when a new image is obtained from the decoding unit 42, the image restoration unit registers (in pixel blocks (16 ⁇ 16 or less)) the past image based on the motion model information included in the auxiliary data (16 ⁇ 16 or less). Affine transformation and interpolation processing) are performed, and a new image is weighted and synthesized within the background area of the I frame, and an image that is outside the background area of the I frame and other frames remains as a new image. And write back to the frame memory. In the interpolation process, bilinear interpolation using four pixels close to the target pixel is performed with an accuracy finer than 1/2 pixel.
  • code amount reduction by sub-sampling can be applied to intra-predicted frames with a large code generation amount per frame, leveling traffic during transmission, reducing delay fluctuations, and reducing the amount of transmission and reception buffers can do.
  • sub-sampling is not performed except for the I frame, but since the encoded image can have gradation for each pixel, the code amount reduction effect is maintained by the skip macroblock in the direct mode. Can be expected.
  • the large spatial quantization noise accompanying the subsample is reduced by a moving average between a plurality of frames by the image restoration unit. Since this is a moving average using all the pixels, there is no artifact caused by a luminance change.
  • the sub-sampling target is not limited to the I frame, and the sub-sampling is performed at any time (other than the I frame) when the transmission buffer occupation amount (delay) of the stream multiplexing unit exceeds the threshold. You may make it perform.
  • the encoder 3 uses only the frame (referred to as I frame) for which the encoding unit 34 predicts the entire frame (slice) by intra prediction.
  • the image is processed and encoded, the moving area of the other frame and the I frame are encoded as they are, and the decoder 4 performs a super-resolution process on only the background area of the I frame and outputs a high-definition image. Therefore, it is possible to maintain high-definition video output and to further reduce the calculation cost of super-resolution processing.
  • the present invention is particularly suitable for a CCTV system or the like that encodes video captured by a fixed camera, which can be expected to include a lot of stationary background areas, but is not limited to a home TV, video camera, video recorder, It can be widely used in apparatuses and methods for compressing and transmitting and recording moving images such as moving image editing software.

Abstract

 超解像処理における演算コストを低減した映像圧縮伝送システムが提供される。エンコーダ(1)が、入力された映像データを単一の動きモデルを持つ背景領域と局所的な動きモデルを持つ移動体領域とに分離し、演算量が少なく超解像処理の効果の高い背景領域にのみ画像処理を施して符号化し、移動体領域については入力された映像データをそのまま符号化し、デコーダ(2)が、符号化データを復号し、復号されたデータを背景領域と移動体領域とに分離し、背景領域にのみ超解像処理を施して出力し、移動体領域については復号された映像データをそのまま出力する映像圧縮伝送システムとしている。

Description

映像圧縮伝送システム
 本発明は、撮影された映像を圧縮して伝送し復号する映像圧縮伝送システムに係り、特に伝送情報量を削減すると共に、超解像処理のコストを低減し、高精細な復号映像を得ることができる映像圧縮伝送システムに関する。
[先行技術の説明]
 セキュリティや医療の分野において、映像伝送システムでの映像の高画質化が求められている。
 また、一般的に、映像システムでは伝送コスト削減のために、撮影された映像情報を圧縮して伝送する。映像の圧縮としては、MPEG-2やH.264など規格で定められた圧縮技術が普及している。
 映像圧縮伝送システムでは、映像を表示する前に、伝送された映像の解像度を増やす超解像技術が用いられることがある。超解像技術は、一枚のフレームの画素値を、複数のフレームの情報を参照して求めることにより解像度を向上させるものである。
[超解像技術を用いた映像伝送システム:図6]
 超解像技術を利用することにより、解像度を劣化させずに符号化前の画像処理によって映像圧縮効果を高める方法がある。
 図6は、超解像技術を用いた従来の映像圧縮伝送システムの構成ブロック図である。従来の映像伝送システムは、送信側装置としてのエンコーダ7と、受信側装置としてのデコーダ8とを備えている。
 エンコーダ7は、サブサンプリング部71と、符号化部72とを備えている。
 サブサンプリング部71は、入力された映像データをサブサンプリングして(つまり画素を間引いて)出力する。
 符号化部72は、映像データをMPEG-2等で圧縮符号化し、符号化ストリームとして伝送路に出力する。
 デコーダ8は、復号部81と、超解像部82とを備えている。
 復号部81は、入力された符号化ストリームを復号し、映像データを出力する。
 超解像部82は、入力した映像データに超解像処理を施して、高解像度化された映像データを出力する。
 図6の映像圧縮伝送システムでは、符復号化の外側で超解像処理が動作する。そこでは、エンコーダ7側で映像をサンプリングして情報量を削減し、デコーダ8側で少ない情報を超解像造処理することにより、エンコーダ7に入力される前の高精細に近い解像度を保ちながら、映像データの圧縮率を高めることができるものである。
 ところで、図6の映像圧縮伝送システムが、IPネットワークで構成されるCCTV(Closed-Circuit TeleVision)システムであるとすると、符号化部72の符号化ストリームのレートは通常、所定の上限と下限との間で可変である。なぜならば、レートを一定にすると、不審な動く物体が映っていないときの映像が高画質となる一方で、肝心の不審者が映った映像の画質が荒くなり、セキュリティ監視という目的に反するからである。そのような状況では、システムのリソースの多くが、有用でない平穏時の映像の伝送等に費やされていることになる。
 また、図6の映像圧縮伝送システムが、MPEG-4やH.264/AVC等の映像符号化方式を用いたものであるとすると、符号化ストリームのデータ量は、Iフレーム(他のフレームを参照せずそのフレームだけで符号化が完結するフレーム)によるものが支配的であり、監視の対象となりうる動く物体が映っていないときに顕著となる。
[超解像処理]
 超解像処理には、1つのフレームのみを用い、単純な処理でも実装できるシングルフレーム超解像と、複数のフレームを用い、処理が複雑なマルチフレーム超解像とがある。
 高い超解像効果を得るためには、マルチフレーム超解像を用いるのが一般的である。
 マルチフレーム超解像は、複数の低解像度フレームから、高解像度のフレームを推定する技術である。
 マルチフレーム超解像の鍵となるのは、画面内の局所的な動きモデルを正確に推定することにある。
 動きモデルの推定には、lucas-kanade等のオプティカルフローを用いた手法、ブロックマッチングを用いた手法(位相限定相関法等、周波数空間で行うものも含む)があるが、どちらも正確な推定結果を得るには膨大な演算量が必要となる。
[関連技術]
 尚、映像伝送システムに関する技術としては、特開2012-049747号公報「映像符号化システム及び映像符号化装置及び映像復号装置及び映像符号化プログラム及び映像復号プログラム」(日本電信電話株式会社、特許文献1)、特開2008-033914号公報「画像読み出し方法及び画像拡大方法」(松下電器産業株式会社、特許文献2)、特開2009-258868号公報「画像処理装置及び画像処理方法」(ソニー株式会社、特許文献3)、ARIB STD-B40「補助データのPES伝送方式」(社団法人電波産業界、非特許文献1)がある。
 特許文献1には、符号化装置で、動き領域を、超解像可能領域、特異領域、平坦・静止領域に分割し、分割した結果を再度情報として復号装置に送出し、符号化対象とする画像の圧縮符号化を行い、復号装置で、サイド情報に基づいて、ブロック毎に動き領域、テクスチャ、平坦領域に分類し、動き領域に対しては超解像復元を行い、他の領域については補間を行うことが記載されている。
 特許文献2には、画像拡大装置において、補償された動きベクトルに基づいて、複数の間引き画像を利用して、超解像の再構成処理を行って画像を拡大することで、入力画像列が静止している場合でも低解像度の画像を高画質に拡大することが記載されている。
 特許文献3には、ブロック毎に動きベクトルを検出し、複数個の動きベクトルからアフィンパラメータの少なくとも1つを画像の変位軸についての変数の関数とした拡張したアフィン変換を用いて収束演算し、画像全体に加わっている変形を表すグローバルモーションを精度良く算出することが記載されている。
 また、非特許文献1には、PES(Packetized Elementary Stream)中に表示時刻を規定するPTS(Presentation Time Stamp)を含むことによって、映像データと補助データとを対応付けることが記載されている。
特開2012-049747号公報 特開2008-033914号公報 特開2009-258868号公報 国際公開第07/142109号パンフレット
ARIB STD-B40「補助データのPES伝送方式」社団法人電波産業会
 しかしながら、従来の映像圧縮伝送システムでは、マルチフレーム超解像において、局所的な動きモデルを正確に推定するには膨大な演算が必要であり、リアルタイムでこれを行おうとすると装置のコストが増大するという問題点があった。
 尚、特許文献1,2には、エンコーダで、入力された画像を背景領域と移動体領域に分離し、背景領域のみにサブサンプリング処理を施して符号化し、移動体領域はそのまま符号化し、デコーダで、背景領域のみに高解像処理を行うことは記載されていない。
 本発明は、上記実状に鑑みて為されたもので、サブサンプリングによって情報量を圧縮しつつ、超解像復元による高精細な映像を得ることができ、更に超解像処理における演算コストを低減することができる映像圧縮伝送システムを提供することを目的とする。
 上記従来例の問題点を解決するための本発明は、入力された映像データを符号化して出力するエンコーダと、符号化データを復号して復元画像を出力するデコーダとを備えた映像圧縮伝送システムであって、エンコーダが、入力された映像データの動きモデルを求め、映像データについて、背景領域か移動体領域かを判断して、いずれの領域であるかを示すエンコーダ側の領域情報を出力すると共に、エンコーダ側の領域情報が背景領域であれば動きモデルの情報を出力する第1の背景分離部と、動きモデルの情報が入力されると、動きモデルの情報に基づいて、入力された映像データの背景領域に画像処理を施して出力する画像処理部と、入力されたエンコーダ側の領域情報が背景領域を示す情報であれば、画像処理部の出力を選択して出力し、エンコーダ側の領域情報が移動体領域を示す情報であれば、入力された映像データを選択して出力する第1のセレクタと、第1のセレクタから出力された映像データを符号化して符号化ストリームを出力する符号化部とを備え、デコーダが、入力された符号化ストリームを復号して復号映像データを出力する復号部と、復号映像データについて背景領域か移動体領域かを判断して、いずれの領域であるかを示すデコーダ側の領域情報を出力する第2の背景分離部と、デコーダ側の領域情報に基づいて、復号映像データの背景領域にのみ超解像処理を施して高精細な復元画像を出力する超解像部と、デコーダ側の領域情報が背景領域を示す情報であれば、超解像部の出力を出力映像として選択して出力し、デコーダ側の領域情報が移動体領域を示す情報であれば、復号部の出力を出力映像として選択して出力する第2のセレクタとを備えたことを特徴としている。
 また、本発明は、上記映像圧縮伝送システムにおいて、超解像部が、入力された復号映像データの背景領域について、記憶されている過去の映像データと比較して、背景領域の動きモデルを推定して出力する動きモデル推定部と、動きモデルと、背景領域に施された画像処理の内容を示す補助データとに基づいて、背景領域を高精細に復元し、復元画像を出力する画像復元部とを備えたことを特徴としている。
 本発明によれば、情報量の圧縮及び高精細な映像出力を図ると共に、超解像処理に伴う演算コストを低減することができる効果がある。
 また、超解像部が、入力された復号映像データの背景領域について、記憶されている過去の映像データと比較して、背景領域の動きモデルを推定して出力する動きモデル推定部と、動きモデルと、背景領域に施された画像処理の内容を示す補助データとに基づいて、背景領域を高精細に復元し、復元画像を出力する画像復元部とを備えた上記映像圧縮伝送システムとしているので、少ない演算量で背景領域のみを超解像処理して演算コストを低減することができる。
本発明の第1の実施の形態に係る映像圧縮伝送システムの構成ブロック図。 エンコーダ1の背景分離部11の一例を示す処理ブロック図。 画像処理部12の処理例を示す模式説明図。 超解像部24の処理ブロック図。 第1のシステムにおいて、経路の中間に配置された無線機の制御部における処理を示すフローチャート図。 超解像技術を用いた従来の映像圧縮伝送システムの構成ブロック図。
 本発明の実施の形態について図面を参照しながら説明する。
[実施の形態の概要]
 本発明の実施の形態に係る映像圧縮伝送システムは、エンコーダが、入力された映像データを単一の動きモデルを持つ背景領域と局所的な動きモデルを持つ移動体領域とに分離し、背景領域にのみサブサンプリングを施して符号化することで情報量を削減し、移動体領域については入力された映像データをそのまま符号化し、デコーダが、符号化データを復号し、復号されたデータを背景領域と移動体領域とに分離し、背景領域にのみ超解像処理を施して出力し、移動体領域については復号された映像データをそのまま出力するシステムとしており、超解像の効果が高く演算量の少ない背景領域のみを画像処理することによって、情報量の圧縮と高精細な映像出力を図ると共に、超解像処理に伴う演算コストを低減することができるものである。
 発明者らは、従来の映像圧縮伝送システムの欠点から、動く物体の映っていないIフレームのデータ量を削減することの有用性に気付いた。その有用性は、動く物体の有無に関わらずIフレーム内で背景領域を高圧縮することによっても得られる。そこで、第2の実施形態の映像圧縮伝送システムは、フレーム全体がイントラ予測で符号化されるIフレームの背景領域にのみに画像処理を施して符号化し、Iフレームの背景領域のみを超解像処理して画像を復元するようにした。これにより、超解像処理の演算コストを一層低減でき、高精細な映像出力を得ることができるものである。
[第1の実施の形態に係る映像圧縮伝送システムの構成:図1]
 図1は、本発明の第1の実施の形態に係る映像圧縮伝送システムの構成ブロック図である。
 図1に示すように、本発明の第1の実施の形態に係る映像圧縮伝送システム(第1のシステム)は、送信側装置としてのエンコーダ1と、受信側装置としてのデコーダ2とを備えている。
 エンコーダ1は、背景分離部11と、画像処理部12と、セレクタ13(第1のセレクタ)と、符号化部14とストリーム多重部15とを備え(第1の背景分離部)ている。
 デコーダ2は、ストリーム多重部21と、復号部22と、背景分離部23(第2の背景分離部)と、超解像部24と、セレクタ25(第2のセレクタ)とを備えている。
 第1のシステムにおける各部について説明する。
[エンコーダ1]
 まず、第1のシステムのエンコーダ1について説明する。
 [背景分離部11:図1,図2]
 背景分離部11は、入力された映像データについて動きモデルを求め、背景領域又は移動体領域のいずれかに分類し、どちらの領域であるかを示す領域情報(エンコーダ側の領域情報)と、動きモデルを出力する。
 背景領域は、フレーム内での動きモデルが単一で、超解像処理の計算コストが低い領域であり、移動体領域は、フレーム内で局所的な動きモデルを持ち、計算コストが高い(超解像の効果が得にくい)領域である。
 本発明に係る映像圧縮伝送システムでは、このことを利用して、背景領域と移動体領域とを分離して、計算コストが低い背景領域のみ超解像処理を行うよう、エンコーダ1側で背景領域のみ画像処理を施して送信し、計算コストが高い移動体領域については超解像処理を行わないものである。
 背景分離部11について図2を用いて更に具体的に説明する。図2は、エンコーダ1の背景分離部11の一例を示す処理ブロック図である。
 図2に示すように、エンコーダ1の背景分離部11は、処理ブロックとして、動き補償部111と、残差画像作成部112と、判定処理部113とを備えている。
 背景分離部11では、映像データをフレーム単位で処理する。
  [動き補償部111]
 動き補償部111は、入力データの動きモデルを推定する。
 そのため、動き補償部111は、過去のフレームの映像データを保持している。過去フレームとしては、再生順序で直前の1フレームのみを元の画素数のまま保持してもよいし、2つ以上過去のフレームをサブサンプルして画素数を減らして保持してもよい。
 動き補償部111は、入力されたフレームと過去のフレームとを比較して、平行移動による位置合わせを行い、フレーム全体の動きベクトルを求める。フレーム全体の動きベクトルは、ブロック毎の動きベクトルの平均により得ても良い。
 そして、動き補償部111は、求めた動きベクトルを背景領域の動きモデルとして画像処理部12に出力する。
 動きモデルの情報は、例えば、現在から1つ前の画像をどのように変形させれば現在の画像に重なるかを表す情報であり、常に現在の画像を基準に、現在から1つ前の画像との関係を表現するものとして定義する。尚、この変形(動きモデル)は、画素単位で見れば動きベクトルのみで表現でき、画素ブロック単位ではアフィン変換で十分近似できるものである。
 次に、動き補償部111は、記憶している過去のフレームについて、フレーム全体の動きベクトルでの動き補償を行い、動き補償が施された過去のフレームの映像データを残差画像作成部112に出力する。この動き補償は、デコーダ2側での動き推定の精度を見積もること、言い換えれば超解像処理の計算コストを判断することを目的としており、精度が高いほど良いというものではない。
  [残差画像作成部112]
 残差画像作成部112は、動き補償された過去のフレームと、入力フレームとの差分を求め、残差画像を作成する。
 これにより、フレーム全体で単一の動きベクトルを持つ背景領域の残差は抑制され、移動体領域の残差が強調される。
  [判定処理部113]
 判定処理部113は、残差の大きさに基づいて、背景領域であるか移動体領域であるかを判断する。つまり、判定処理部113は、残差画像作成部112から出力された残差画像のブロック毎に、画素値の絶対値和(以後、ブロックの残差と呼ぶ)を閾値と比較して、この残差が閾値以下であればそのブロックを背景領域に組み入れ、残差が閾値を超えていれば移動体領域と判定し、いずれの領域に含まれるかを示す領域情報を出力する。
 このようにして背景分離部111の処理が行われる。
 [画像処理部12:図1,図3]
 画像処理部12は、背景領域に分類された入力映像データについて画像処理を施す。移動体領域については画像処理を行わず、入力された映像データをそのまま出力する。
 また、画像処理部12は、サブサンプリングされた位置を示す標本位置情報と動きモデルとを含む補助データを出力する。
 ここで、画像処理部12の処理について図3を用いて説明する。図3は、画像処理部12の処理例を示す模式説明図である。
 画像処理部12は、入力映像の背景領域にサブサンプリング処理を施して、映像データの情報量を削減するものである。サブサンプリングによる情報量削減は、後に記述する符号化部14での圧縮率向上につながる。
 画像処理部12は、背景分離部11からの動きモデルの情報に基づいて、サブサンプリングする画素を決定し、画像処理を行い、画像処理が施されたデータを出力する。
 また、画像処理部12は、映像データをどのようにサブサンプリングしたかを示す標本位置情報と動きモデルの情報とを含んだ補助データを出力する。
 画像処理部12の動作について図3を用いて具体的に説明する。
 図3に示すように、画像処理部12は、動きモデルが入力されると、それに基づいてサブサンプリングする画素を決定し、入力された映像データをサブサンプリングして解像度を減らす。
 図3の例では、画像全体を左上を始点に4×4画素ブロックに細分し、画像処理の対象となった画素ブロックを1つの画素で代表させる。ここでは、左上の画素(「1」の画素)で代表させて、入力画像をピクセル(画素)ベースで1/16にサブサンプリングして縮小している。そして、その後、拡大(伸張)処理によりサブサンプリング前の画素数(画素密度)に戻してから出力する。
 拡大することにより、出力データは入力前と同じ解像度の映像データとして扱うことができる。これにより、後述する符号化部14では、画像処理されたデータとされないデータとを区別することなく、一つの映像ストリームとして扱うことができるものである。このサブサンプリングと拡大の組合せは、ある代表画素で画素ブロック内の全画素値を代表させる直流化であるとも言える。
 ここで、サブサンプリングの位置について説明する。
 背景に動きがある場合、サブサンプリングする画素位置を変えなくても、動きに伴って画素情報が変わるため、サンプリング位置を固定としてよい。但し、背景が完全に停止している場合は、サンプリング位置が固定であると画素情報を補間できず、超解像の効果が得られない。
 その場合、画像処理部12は、サブサンプリングする画素の位置をフレーム毎に変更する。
 つまり、画像処理部12は、入力された動きモデルの情報に基づいて、背景の動きを認識し、背景が静止している場合にはサブサンプリングする画素の位置をフレーム毎に変更する。これにより、背景が完全に静止している場合でもフレーム毎に異なる画素情報を得ることができ、超解像の効果を得ることができるものである。サブサンプリングした画素の位置は標本位置情報として出力する。もし、背景が静止している4×4画素ブロックにのみサブサンプリング画素を変更するものであれば、サブサンプリング位置は固定の16回周期のパターンで定めるようにすれば、所定の規則(例えばラスタースキャン)の順で、それらブロックのサンプリング位置を特定できる。
 そして、デコーダ2では、伝送ストリームに多重される標本位置情報により、サブサンプリングされた画素の位置を知ることができるものである。
 [セレクタ13:図1]
 セレクタ13は、背景分離部11からの領域情報に基づいて、画像処理としてサブサンプリングがなされたデータと、入力された映像データのいずれかを出力する。
 具体的には、セレクタ13は、領域情報が背景領域を示す情報であれば、画像処理部12から出力されるデータを出力し、領域情報が移動体領域を示す情報であれば、サブサンプリングされない映像データをそのまま出力する。
 [符号化部14:図1]
 符号化部14は、画像処理データ又は画像処理されないデータを符号化し、符号化ストリームを出力する。
 具体的には、符号化部14は、画像処理が施された背景領域について、補助データに基づいて、符号量がより少なくなるよう動き探索や最適予測モード決定処理を行い、最適な方法で符号化を行う。
 また、符号化部14に領域情報を与えてもよく、この場合、符号化部14は、背景領域ではフレーム内で単一の動きであることを利用して、画像処理が施された背景領域について動き探索や最適予測モード決定処理を省略して、適切な予測モードを選択できるものである。尚、本例では、符号化部14で用いる符号化技術としてH.264を想定しているが、これに限定されず、エンコーダ1に入力した映像データが符号化できるコーデックであればよい。また、符号化レートが下限と上限の間を保つ様態で可変レート制御されることとを想定しているが、それに限らない。
 [ストリーム多重部15:図1]
 ストリーム多重部15は、符号化ストリームと補助データとを多重して伝送ストリームとして伝送路に出力する。
 このとき、伝送ストリームには、デコーダ2側で補助データと映像データのフレームの同期がとれるよう、付加情報を含まなければならない。例えば、非特許文献1で示されるように、補助データをPES化し、符号化ストリームとTS(Transport Stream)多重して伝送する。デコーダ2ではPESヘッダに含まれるPTS(同期再生のため表示時刻を規定する数値)により補助データと映像データを関連付ける。
 補助データは、4×4画素ブロック毎に多重化する代わりに、最高で1フレーム当り1回にまでまとめて多重化でき、まとめる際はハフマン符号化等を用いてデータ量を圧縮することができる。また静止ブロックに対してサンプリング位置を固定パターンで得ている場合は、標本位置情報は1フレームの最初のブロックに対してのみで足りる。
[デコーダ2]
 次に、第1のシステムのデコーダ2について説明する。
 [ストリーム分離部21:図1]
 デコーダ2のストリーム分離部21は、補助データと符号化ストリームとを分離する。補助データは超解像部24に出力され、符号化ストリームは復号部22に出力される。
 [復号部22:図1]
 復号部22は、入力された符号化ストリームをエンコーダ1の符号化部14における符号化に対応した方法で復号して、復号映像データを出力する。
 [背景分離部23:図1]
 背景分離部23は、映像データを背景領域又は移動体領域のいずれかに分離して、どちらに含まれるかを示す領域情報(デコーダ側の領域情報)を出力する。
 デコーダ2の背景分離部23は、図3に示したエンコーダ1の背景分離部11と同じ構成であり、復号された映像データについて、エンコーダ1側で画像処理された領域を特定する。
 デコーダ2側に背景分離部23を設けることにより、エンコーダ1が領域情報を送らなくても、デコーダ2側で背景領域と移動体領域を分離できるものである。背景分離の方法はエンコーダ1側の背景分離処理と同様の手法を用いることができる。
 つまり、背景分離部23は、入力された映像データと記憶している過去フレームとを比較してフレーム全体の動きモデルを求め、過去フレームに動き補償を施して入力された映像データとの差分を求めて残差画像を作成し、領域毎に閾値と比較して背景領域か移動体領域かを判断し、領域情報を出力する。尚、ここでは、デコーダ2側の背景分離部23は、動きモデルの情報は出力しない。
 尚、デコーダ2の背景分離部23で用いられる過去フレームとしては、後述する超解像部24内の画像復元部242が保持しているフレームを利用できる。
 但し、エンコーダ1側における背景分離と同じ結果を期待するのであれば、セレクタ25から出力される超解像処理後の映像データを過去フレームとして用いたほうが良い場合がある。
 あるいは、復号部22から、フレーム毎に、DC成分のみが符号化された4×4ブロック、つまり背景領域のブロックの位置を全て取得して、領域情報を再現してもよい。その際ブロックを、その前後のフレームでの動きベクトルが0であるブロックに限定しても良い。
 [超解像部24:図1,図4]
 超解像部24は、エンコーダ1で画像処理された背景領域に超解像処理を施し、画像処理前の高精細な画像に復元するものである。移動体領域の映像データには超解像処理は行わない。
 超解像部24の構成について図4を用いて具体的に説明する。図4は、超解像部24の処理ブロック図である。
 図4に示すように、超解像部24は、動きモデル推定部241と、画像復元部242とを備えている。
 超解像部24は、映像データの他に、領域情報と補助データを入力して、超解像処理を行う。
 領域情報は、映像データが背景領域か移動体領域かを判断するために用いられる。補助データは、上述したように、標本位置情報と動きモデルの情報とを含んでいる。標本位置情報は、サブサンプリングされた背景領域の画素が、画素ブロックのどの位置からサンプリングされたものかを特定するために用いられる。
 動きモデル推定部241は、過去のフレームの映像データと標本位置情報とを保持して、動きモデル推定の処理を行う。
 動きモデル推定部241は、映像データと、領域情報と、補助データとを入力し、領域情報に基づいて背景領域を認識し、従来と同様の手法で背景領域の動きモデルの情報を推定して出力する。背景に動きがない場合には、動きなしのモデルを出力する。動きモデル推定は、補助データに含まれるエンコーダ2側で推定した動きモデルを初期値に利用して、行うことができ、或いは、補助データの動きモデルをそのまま動きモデル241の推定結果として用いてもよい。
 また、領域情報から移動体領域と判断された領域については、動きモデル推定部241は動きモデル推定の処理を行わない。
 画像復元部242は、過去のフレームの映像データと、領域情報と、動きモデルの情報を保持し、背景領域の超解像復元を行う。
 画像復元部242は、入力フレームの映像データ、標本位置情報、動きモデル情報と、上述した過去のフレームの情報に基づいて、従来と同様の方法で入力フレームを高解像度化して出力する。
 超解像復元について説明する。
 Nフレーム目の復号画像をVn とする。また、Vn に対応付けられた補助データが示す動きモデルに基づく画素ブロック毎のアフィン変換と、標本位置情報が示すサブサンプル位置(サンプル位置のずらし)とを合成したアフィン変換をフレーム内の各画像ブロックに施す処理の演算子をAn[・]とする。
 ここで、保持されている3フレームの過去画像と入力フレームの画像に基づいて超復元を行う場合、Vn に対応するフレームの復元画像は、
 An[An-1[An-2[Vn-3]]] + An[An-1[Vn-2]] + An[Vn-1] + Vn で表現できる。
 更に、任意フレームVnにおいて注目する画素ブロックの復元画像は、
 AnAn-1An-2[Vn-3] + AnAn-1[Vn-2] + An[Vn-1]+ Vn と近似できる。尚、AnAn-1は、AnとAn-1を合成したアフィン変換である。
 過去フレームの映像データは、復号部22が再構成画像として保持しているものを利用できれば、画像復元部自身で記憶手段を持つ必要は無い。
 このようにして、超解像復元された背景領域の映像データは、セレクタ25に出力され、高精細な背景画像が出力されるものである。
 [セレクタ25:図1]
 セレクタ25は、領域情報に基づいて、超解像処理が施されたデータ又は復号データのいずれかを出力する。つまり、セレクタ25は、領域情報が背景領域を示すものであれば、超解像処理が施されたデータを映像データとして出力し、領域情報が移動体領域を示すものであれば復号部21で復号された映像データ(復号データ)をそのまま映像データとして出力する。
 すなわち、本映像圧縮伝送システムは、エンコーダ1が、動きモデルが単一である背景領域のみに画像処理(サブサンプリング)による情報量削減処理を施すと共に、デコーダ2が、受信した映像データにおける背景領域は超解像処理を行って出力し、移動体領域は復号後に超解像処理を加えずに出力するものである。
 これにより、従来のシステムに比べて、超解像処理の負荷を軽減でき、計算コストを低減できるものである。
 また、デコーダ2から出力される映像データは、背景領域は超解像効果によって高精細に復元され、移動体領域はサブサンプリングしないため十分な情報量を備えていることによって元画像を精度良く復元でき、高精彩な映像を出力できるものである。
 更に、本システムの特徴として、デコーダ2側での超解像処理が失敗したとしても、移動体領域については超解像処理を行わないので、移動体領域は高精細なまま映像を出力できるものである。これは、監視システムなど、確実性が求められるシステムにおいて特に有用な特徴であり、移動体領域にこそ重要な情報があるシステムでの大きな利点となる。
 なお、本システムでは、画像処理部12は間引き処理を行うものであったが、符号量を減らすことができかつ超解像による復元が可能であれば、如何なる画像処理でもよく、その場合、標本位置情報は画像処理の様態を特定できる情報(画像処理情報と呼ぶ)に一般化される。画像処理部12による画像処理の一例としては、圧縮センシングで知られる不規則な間引き(1ブロックから1或いは複数の代表画素を抽出する)と、それら代表画素によるブロック内のタイル状の塗りつぶしの組合せなどが考えられる。その場合、超解像部24では圧縮センシングに基づく超解像処理を行い、画像処理情報を参照して観測結果ベクトルの成分を特定する。
[第1のシステムの動作:図1]
 次に、第1のシステムにおける動作について図1を用いて説明する。[エンコーダ1の処理の流れ:図1]  エンコーダ1に入力された映像データは、背景分離部11において背景領域又は移動体領域のいずれかに分類される。背景分離部11からは、入力された映像データが背景領域又は移動体領域のどちらに含まれるかを示す領域情報と、背景領域の動きモデルの情報を出力される。入力された映像データが移動体領域であった場合には、背景分離部11は、動きモデルの情報を出力しない。
 また、画像処理部12に入力された映像データは、背景分離部11から動きモデルが入力されるとサブサンプリングの画像処理が施されて出力される。つまり、入力された映像データの背景領域は、画像処理が施されて出力され、動きモデルが入力されない移動体領域は入力画像がそのまま出力される。
 画像処理部12からは、映像データと共に補助データが出力される。上述したように、補助データは、画像処理の内容を示す標本位置情報と動きモデルの情報を持つ。
 そして、入力映像データ(エンコーダ1への入力データ)と、画像処理部12からの背景領域のみ画像処理が施されたデータとがセレクタ13に入力され、セレクタ13によって、いずれか一方が選択されて、符号化部14に出力される。
 セレクタ13では、領域情報が背景領域を示す情報であれば、画像処理部12から出力されるサブサンプリングされたデータを出力し、領域情報が移動体領域を示す情報であれば、サブサンプリングされない映像データをそのまま出力する。
 符号化部14に入力されたサブサンプリングされたデータ又は元の映像データは、符号化されて符号化ストリームとして出力される。そして、符号化部14からの符号化ストリームと、画像処理部12からの補助データとがストリーム多重部15に入力されて多重され、伝送ストリームとして伝送路に出力される。
 このようにしてエンコーダ1における処理が行われる。
 次に、デコーダ2の処理の流れについて図1を用いて説明する。
 伝送路からの伝送ストリームは、デコーダ2のストリーム分離部21に入力され、補助データと符号化ストリームとに分離される。
 復号部22に入力された符号化ストリームは、復号され、映像データとして出力される。
 背景分離部23に入力された映像データは、エンコーダ1の背景分離部11と同様に動きモデルに基づいて背景領域又は移動体領域のいずれかに分離される。
 背景分離部23からは、映像データがどちらに含まれるかを示す領域情報が出力される。
 超解像部24に入力された映像データは、超解像部24で領域情報に基づいて背景領域のみに超解像処理が行われる。超解像部24では、移動体領域の映像データには超解像処理は施されない。
 そして、超解像部24からの超解像処理が施された映像データと、復号部22からの復号された映像データとがセレクタ25に入力され、セレクタ25において領域情報に基づいて一方が選択されて出力される。
 セレクタ25は、領域情報が背景領域を示すものであれば、超解像部24からの超解像処理が施されたデータを映像データとして出力し、領域情報が移動体領域を示すものであれば復号部21で復号された映像データをそのまま映像データとして出力する。
 このようにして、デコーダ2における処理が行われる。
[第1の実施の形態の効果]
 本発明の第1の映像圧縮伝送システムによれば、エンコーダ1が、入力された映像データを単一の動きモデルを持つ背景領域と局所的な動きモデルを持つ移動体領域とに分離し、背景領域にのみ画像処理を施して符号化することで情報量を削減し、移動体領域については入力された映像データをそのまま符号化し、デコーダ2が、符号化データを復号し、復号されたデータを背景領域と移動体領域とに分離し、背景領域にのみ超解像処理を施して出力し、移動体領域については復号された映像データをそのまま出力するシステムとしているので、超解像の効果が高く演算量の少ない背景領域のみに超解像処理を行うことによって、情報量の圧縮と高精細な映像出力を図ると共に、超解像処理に伴う演算コストを低減することができる効果がある。
 また、第1のシステムによれば、デコーダ2の超解像部24が、復号映像データの背景領域について、過去の映像データと補助データを用いて、復号映像データの動きモデル推定を行って動きモデルを出力する動きモデル推定部241と、推定された動きモデルと、過去のデータと、補助データに基づいて、復号映像データの超解像処理を行って高精細画像を出力する画像復元部242とを備えており、画像処理が施された背景領域にのみ超解像処理を行い、移動体領域には行わないようにして、少ない演算量で高精細な復元画像を出力できる効果がある。
[本発明の第2の実施の形態]
 次に、本発明の第2の実施の形態に係る映像圧縮伝送システムについて説明する。
 本発明の第2の実施の形態に係る映像圧縮伝送システム(第2のシステム)は、第1のシステムと同様の構成であるが、第2のシステムでは、例えばIフレームやIDRフレーム等、符号化部がフレーム全体をイントラ予測で符号化する場合のみ、エンコーダ側で画像処理を行ってデコーダ側で超解像処理を行い、他のフレームでは画像処理及び超解像処理を行わないものである。
[第2のシステムの構成:図5]
 第2のシステムの構成について図5を用いて説明する。図5は、本発明の第2の実施の形態に係る映像圧縮伝送システムの構成ブロック図である。
 図5に示すように、第2のシステムは、エンコーダ3とデコーダ4とから成る。
 エンコーダ3は、背景分離部31(第3の背景分離部)と、画像処理部32と、セレクタ33(第3のセレクタ)と、符号化部34と、ストリーム多重部35とを備えている。
 デコーダ4は、ストリーム分離部41と、復号部42と、背景分離部43(第4の背景分離部)と、超解像部44と、セレクタ45(第4のセレクタ)とを備えている。
 第2のシステムの特徴部分について説明する。
 第2のシステムの特徴として、符号化部34が、フレーム全体をイントラ予測で符号化するフレームであることを示す情報を背景分離部31に出力する。尚、イントラ予測のみで予測するフレーム(イントラ符号化フレーム)を、ここでは、Iフレームと称する。
[エンコーダ3:図5]
 背景分離部31は、図3に示した第1のシステムの背景分離部11と同様に、基本的には常時動きモデルの推定を行うと共に、背景領域又は移動体領域であることを示す領域情報を出力するが、背景領域と判断される領域であっても、符号化部34からのIフレームとすることを示す情報(Iフレーム指示)が入力されない場合には、動きモデルを出力しない。
 背景分離部31は、背景が1フレーム(スライス)内で1つの動きモデルで表現できることを仮定しており、動きは特許文献3に記載されたグローバルモーションのように、アフィン変換(平行移動、倍率、回転中心及び回転角)、横方向台形歪、縦方向台形歪により表現されるものとする。
 尚、横方向台形歪とは、元来長方形のフレームを、フレーム上辺が可変より短い(長い)台形に変形させる度合い(あおり)を示し、縦方向台形歪も同様である。これらのパラメータは、フレームの4隅における動きベクトルに対応する4つの2次元ベクトルでも代用できる。
 背景分離部31の動きモデル推定は、公知の階層化動き探索等の高速アルゴリズムで、フレーム全体(或いは前フレームで背景領域と判断された領域及びその辺縁付近)に亘って画素ブロック毎に動きベクトルを求め、周辺のブロックと似た動きベクトルを有するブロック同士をグループ化していき、最大となった画素ブロックの塊を背景領域と判断する。
 それと共に、背景分離部31は、動き探索のパラメータを最小自乗法(ガウス―ニュートン法等)で推定し、その後、画素ブロックより大型化した領域を3~4個背景領域内に設定しその領域内で元画像と推定画像との位相限定相関を計算し、推定したパラメータを修正するという操作を、精度(サブサンプル数)を上げながら複数回繰り返して行う。
 画像処理部32は、第1のシステムと同様に、背景分離部31からの動きモデルに基づいて、入力された映像データにサブサンプリングの画像処理を行う。
 第2のシステムでは、画像処理部32は、動きモデルが入力されるIフレームの背景領域についてのみ画像処理を行い、Iフレーム以外のフレームの背景領域には画像処理を行わず、入力された映像データをそのまま出力する。
 第2のシステムの画像処理部32は、固定のサブサンプリング位置(例えば左上隅の画素)で画像処理を行う。そして、画像処理部32は、画像処理を行わないフレームであっても、領域情報に基づいて、背景領域であれば補助データを出力する。ただし、第2のシステムでは、サンプリング位置が固定であるため、標本位置情報は不要であり、動きモデルの情報のみを補助データとして出力する。
 セレクタ33は、第1のシステムと同様に、領域情報に基づいて画像処理部32の出力データ又はエンコーダ3への入力映像データのいずれかを選択して出力する。第2のシステムでは、セレクタ33は、背景領域を示す領域情報が入力されると、画像処理部32の出力を選択するが、画像処理部32の出力は、Iフレームの場合のみがサブサンプリングされたデータであり、他のフレームの場合には、入力された映像データとなる。
 符号化部34は、入力されたデータを符号化する。第2のシステムでは、IDRスライス等、フレーム(スライス)の全体をイントラ予測で予測する場合にのみ、画像処理部32でサブサンプルされた背景領域の映像データが符号化され、他のフレームについてはエンコーダ1への入力映像データがそのまま符号化される。
 それと共に、第2のシステムの符号化部34は、Iフレームとする特定のタイミングで、Iフレーム指示を背景分離部31に出力する。これにより、背景分離部31では、Iフレームの背景領域についてのみ、動きモデルを出力する。
[デコーダ4:図5]
 デコーダ4の復号部42は、第1のシステムと同様に、符号化ストリームを符号化部34での符号化に対応した復号方法で復号し、映像データを背景分離部43と超解像部44に出力する。
 また、それと共に、第2のシステムの復号部42は、復号されたフレームがIフレームであれば、Iフレーム指示を超解像部34に出力する。
 背景分離部43(第4の背景分離部)は、第1のシステムと同様に復号された映像データを背景領域と移動体領域とに分離し、領域情報(デコーダ側の領域情報)を出力する。
 超解像部44は、第1のシステムの超解像部24と同様の構成であり、背景領域の映像データについて超解像処理を行うものであるが、第2のシステムでは、Iフレームの背景領域のみに超解像処理を施す。つまり、超解像部44は、領域情報が背景領域であり、且つ復号部42からIフレーム指示が入力された場合に超解像処理を行い、その他の場合には超解像処理を行わない。
 第2のシステムの超解像部44の動きモデル推定部は、Iフレームの背景領域の動きモデルを推定する。
 超解像部44の画像復元部は、過去のフレームの映像データ用に1フレーム分のフレームメモリを備えている。
 そして、画像復元部は、復号部42から新たな画像が得られると、補助データに含まれる動きモデル情報に基づき、過去画像に対して画素ブロック(16×16かそれ以下)単位でレジストレーション(アフィン変換と補間処理)を施し、Iフレームの背景領域内では新たな画像と重み付き合成し、Iフレームの背景領域外及び他のフレームは新たな画像のままとする画像を得て、出力画像とすると共にフレームメモリに書き戻す。
 補間処理は、対象画素に近接する4画素を用いるバイリニア補間を、1/2画素より細かい精度で行う。
 第2のシステムでは、フレーム当りの符号発生量が大きいイントラ予測フレームに対し、サブサンプルによる符号量削減を適用でき、伝送時のトラフィックを平準化し、遅延変動を軽減して、送受バッファ量を削減することができる。
 また、第2のシステムでは、Iフレーム以外ではサブサンプリングを行わないが、符号化画像が画素毎に階調を有しうるので、ダイレクトモードのスキップマクロブロック等により、符号量削減効果が維持されることが期待できる。
 また、サブサンプルに伴う大きな空間量子化雑音は、画像復元部による複数フレーム間の移動平均で軽減される。これは、全画素を用いた移動平均なので、輝度変化によりアーティファクトが生じることも無い。
 また、第2のシステムにおいて、サブサンプリグを行う対象をIフレームに限定せず、ストリーム多重部の送信バッファの占有量(遅延)が閾値を超えたときに、随時(Iフレーム以外でも)サブサンプリングを行うようにしてもよい。
[第2の実施の形態の効果]
 本発明の第2の実施の形態に係る映像圧縮伝送システムによれば、エンコーダ3が、符号化部34でフレーム(スライス)の全体をイントラ予測で予測するフレーム(Iフレームとする)のみに、画像処理を行って符号化し、他のフレーム及びIフレームの移動体領域はそのまま符号化し、デコーダ4が、Iフレームの背景領域のみについて超解像処理を行って高精細画像を出力するシステムとしているので、高精細な映像出力を維持すると共に、超解像処理の演算コストを一層低減することができる効果がある。
 本発明は、静止した背景領域が多く含まれることが期待できる、固定カメラで撮影された映像を符号化するCCTVシステム等に特に好適であるが、家庭用のテレビ、ビデオカメラ、ビデオ録画機、動画編集ソフトウェア等、動画像を圧縮して伝送したり記録したりする装置、方法に広く利用できる。
 1,3,7...エンコーダ、 2,4,8...デコーダ、 11,31...背景分離部、
 12,32...画像処理部、 13,33...セレクタ、 14,34...符号化部、 15,35...ストリーム多重部、 21,41...ストリーム分離部、 22,42...復号部、 23,43...背景分離部、 24,44...超解像部、 25,45...セレクタ、 111...動き補償部、 112...残差画像作成部、 113...判定処理部、
 241...動きモデル推定部、 242...画像復元部、 71...サブサンプリング部、 72...符号化部、 81...復号部、 82...超解像部。

Claims (3)

  1.  入力された映像データを符号化して出力するエンコーダと、符号化データを復号して復元画像を出力するデコーダとを備えた映像圧縮伝送システムであって、
     前記エンコーダが、入力された映像データの動きモデルを求め、前記映像データについて、背景領域か移動体領域かを判断して、前記いずれの領域であるかを示すエンコーダ側の領域情報を出力すると共に、前記エンコーダ側の領域情報が前記背景領域であれば前記動きモデルの情報を出力する第1の背景分離部と、
     前記動きモデルの情報が入力されると、前記動きモデルの情報に基づいて、入力された映像データの背景領域に画像処理を施して出力する画像処理部と、
     入力された前記エンコーダ側の領域情報が背景領域を示す情報であれば、前記画像処理部の出力を選択して出力し、前記エンコーダ側の領域情報が移動体領域を示す情報であれば、前記入力された映像データを選択して出力する第1のセレクタと、
     前記第1のセレクタから出力された映像データを符号化して符号化ストリームを出力する符号化部とを備え、
     前記デコーダが、入力された符号化ストリームを復号して復号映像データを出力する復号部と、
     前記復号映像データについて背景領域か移動体領域かを判断して、前記いずれの領域であるかを示すデコーダ側の領域情報を出力する第2の背景分離部と、
     前記デコーダ側の領域情報に基づいて、前記復号映像データの背景領域にのみ超解像処理を施して高精細な復元画像を出力する超解像部と、
     前記デコーダ側の領域情報が背景領域を示す情報であれば、前記超解像部の出力を出力映像として選択して出力し、前記デコーダ側の領域情報が移動体領域を示す情報であれば、前記復号部の出力を前記出力映像として選択して出力する第2のセレクタとを備えたことを特徴とする映像圧縮伝送システム。
  2.  超解像部が、入力された復号映像データの背景領域について、記憶されている過去の映像データと比較して、前記背景領域の動きモデルを推定して出力する動きモデル推定部と、
     前記動きモデルと、前記背景領域に施された画像処理の内容を示す補助データとに基づいて、前記背景領域を高精細に復元し、復元画像を出力する画像復元部とを備えたことを特徴とする請求項1記載の映像圧縮伝送システム。
  3.  入力された映像データを符号化して出力するエンコーダと、符号化データを復号して復元画像を出力するデコーダとを備えた映像圧縮伝送システムであって、
     前記エンコーダが、入力された映像データの動きモデルを求め、前記映像データについて、背景領域か移動体領域かを判断して、前記いずれの領域であるかを示すエンコーダ側の領域情報を出力すると共に、前記エンコーダ側の領域情報が前記背景領域であれば、外部から入力される指示に基づいて、前記映像データがイントラ予測符号化で符号化される特定フレームである場合に前記動きモデルの情報を出力する第3の背景分離部と、
     前記動きモデルの情報が入力されると、前記動きモデルの情報に基づいて、入力された前記特定フレームの映像データの背景領域に画像処理を施して出力する画像処理部と、
     入力された前記エンコーダ側の領域情報が背景領域を示す情報であれば、前記画像処理部の出力を選択して出力し、前記エンコーダ側の領域情報が移動体領域を示す情報であれば、前記入力された映像データを選択して出力する第3のセレクタと、
     前記第3のセレクタから出力された映像データを符号化して符号化ストリームを出力すると共に、イントラ予測符号化を行う特定フレームの場合のみ前記動きモデルの情報を出力させる指示を前記第3の背景分離部に出力する符号化部とを備え、
     前記デコーダが、入力された符号化ストリームを復号して復号映像データを出力すると共に、前記特定フレームであることを示す情報を出力する復号部と、
     前記復号映像データについて背景領域か移動体領域かを判断して、前記いずれの領域であるかを示すデコーダ側の領域情報を出力する第2の背景分離部と、
     前記デコーダ側の領域情報と前記特定フレームであることを示す情報に基づいて、前記特定フレームの前記復号映像データの背景領域にのみ超解像処理を施して高精細な復元画像を出力する超解像部と、
     前記デコーダ側の領域情報が背景領域を示す情報であれば、前記超解像部の出力を出力映像として選択して出力し、前記デコーダ側の領域情報が移動体領域を示す情報であれば、前記復号部の出力を前記出力映像として選択して出力する第4のセレクタとを備えたことを特徴とする映像圧縮伝送システム。
PCT/JP2013/066784 2012-06-20 2013-06-19 映像圧縮伝送システム WO2013191193A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014521485A JPWO2013191193A1 (ja) 2012-06-20 2013-06-19 映像圧縮伝送システム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012139135 2012-06-20
JP2012-139135 2012-06-20

Publications (1)

Publication Number Publication Date
WO2013191193A1 true WO2013191193A1 (ja) 2013-12-27

Family

ID=49768787

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/066784 WO2013191193A1 (ja) 2012-06-20 2013-06-19 映像圧縮伝送システム

Country Status (2)

Country Link
JP (1) JPWO2013191193A1 (ja)
WO (1) WO2013191193A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015104963A1 (ja) * 2014-01-09 2015-07-16 株式会社日立国際電気 画像処理装置及び動画像伝送方法
JP2017073668A (ja) * 2015-10-07 2017-04-13 日本放送協会 映像符号化装置、映像復号装置及びプログラム
WO2017145752A1 (ja) * 2016-02-24 2017-08-31 株式会社日立産業制御ソリューションズ 画像処理システムおよび画像処理装置
CN110062232A (zh) * 2019-04-01 2019-07-26 杭州电子科技大学 一种基于超分辨率的视频压缩方法及系统
WO2021200330A1 (ja) * 2020-03-31 2021-10-07 ソニーグループ株式会社 情報処理装置、情報処理方法および情報処理プログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08336134A (ja) * 1995-04-06 1996-12-17 Sanyo Electric Co Ltd 動画像圧縮符号化方法、動画像圧縮符号化装置、動画像復号方法、動画像復号装置、及び、記録媒体
JP2004222218A (ja) * 2003-01-15 2004-08-05 Toa Corp 画像圧縮方法及び伸張方法
JP2005269620A (ja) * 2004-02-17 2005-09-29 Toa Corp 画像圧縮伸張法、画像圧縮装置及び画像伸張装置
JP2005295215A (ja) * 2004-03-31 2005-10-20 Victor Co Of Japan Ltd 動画像符号化装置
JP2005348320A (ja) * 2004-06-07 2005-12-15 Sony Corp 動画像変換装置、および動画像変換方法、並びにコンピュータ・プログラム
JP2006262390A (ja) * 2005-03-18 2006-09-28 Toa Corp 画像圧縮伸張法、画像圧縮装置及び画像伸張装置
JP2009188792A (ja) * 2008-02-07 2009-08-20 Sony Corp 画像送信装置、画像受信装置、画像送受信システム、画像送信プログラムおよび画像受信プログラム
JP2012049747A (ja) * 2010-08-25 2012-03-08 Nippon Telegr & Teleph Corp <Ntt> 映像符号化システム及び映像符号化装置及び映像復号装置及び映像符号化方法及び映像符号化プログラム及び映像復号プログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08336134A (ja) * 1995-04-06 1996-12-17 Sanyo Electric Co Ltd 動画像圧縮符号化方法、動画像圧縮符号化装置、動画像復号方法、動画像復号装置、及び、記録媒体
JP2004222218A (ja) * 2003-01-15 2004-08-05 Toa Corp 画像圧縮方法及び伸張方法
JP2005269620A (ja) * 2004-02-17 2005-09-29 Toa Corp 画像圧縮伸張法、画像圧縮装置及び画像伸張装置
JP2005295215A (ja) * 2004-03-31 2005-10-20 Victor Co Of Japan Ltd 動画像符号化装置
JP2005348320A (ja) * 2004-06-07 2005-12-15 Sony Corp 動画像変換装置、および動画像変換方法、並びにコンピュータ・プログラム
JP2006262390A (ja) * 2005-03-18 2006-09-28 Toa Corp 画像圧縮伸張法、画像圧縮装置及び画像伸張装置
JP2009188792A (ja) * 2008-02-07 2009-08-20 Sony Corp 画像送信装置、画像受信装置、画像送受信システム、画像送信プログラムおよび画像受信プログラム
JP2012049747A (ja) * 2010-08-25 2012-03-08 Nippon Telegr & Teleph Corp <Ntt> 映像符号化システム及び映像符号化装置及び映像復号装置及び映像符号化方法及び映像符号化プログラム及び映像復号プログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015104963A1 (ja) * 2014-01-09 2015-07-16 株式会社日立国際電気 画像処理装置及び動画像伝送方法
US20160323583A1 (en) * 2014-01-09 2016-11-03 Hitachi Kokusai Electric Inc. Image processing device and moving image transmission method
JPWO2015104963A1 (ja) * 2014-01-09 2017-03-23 株式会社日立国際電気 画像処理装置及び動画像伝送方法
US10531094B2 (en) 2014-01-09 2020-01-07 Hitachi Kokusai Electric Inc. Image processing device and moving image transmission method
JP2017073668A (ja) * 2015-10-07 2017-04-13 日本放送協会 映像符号化装置、映像復号装置及びプログラム
WO2017145752A1 (ja) * 2016-02-24 2017-08-31 株式会社日立産業制御ソリューションズ 画像処理システムおよび画像処理装置
JP2017152902A (ja) * 2016-02-24 2017-08-31 株式会社 日立産業制御ソリューションズ 画像処理システムおよび画像処理装置
CN110062232A (zh) * 2019-04-01 2019-07-26 杭州电子科技大学 一种基于超分辨率的视频压缩方法及系统
WO2021200330A1 (ja) * 2020-03-31 2021-10-07 ソニーグループ株式会社 情報処理装置、情報処理方法および情報処理プログラム

Also Published As

Publication number Publication date
JPWO2013191193A1 (ja) 2016-05-26

Similar Documents

Publication Publication Date Title
US9247250B2 (en) Method and system for motion compensated picture rate up-conversion of digital video using picture boundary processing
JP4542447B2 (ja) 画像の符号化/復号化装置、符号化/復号化プログラム及び符号化/復号化方法
TWI405469B (zh) Image processing apparatus and method
US20020150159A1 (en) Decoding system and method for proper interpolation for motion compensation
CN106341622B (zh) 一种多路视频流的编码方法及装置
JPWO2010035734A1 (ja) 画像処理装置および方法
WO2013191193A1 (ja) 映像圧縮伝送システム
JPWO2005107267A1 (ja) 画像の符号化/復号化装置、符号化/復号化プログラム及び符号化/復号化方法
JP2006279917A (ja) 動画像符号化装置、動画像復号装置及び動画像伝送システム
JPH07212761A (ja) 階層符号化装置及び階層復号化装置
JPWO2010035735A1 (ja) 画像処理装置および方法
WO2012056924A1 (ja) 画像処理装置と画像処理方法
US8848793B2 (en) Method and system for video compression with integrated picture rate up-conversion
JP6311085B1 (ja) 画像の復号化装置および画像の復号化方法
JP3115866B2 (ja) 画像符号化装置及び画像復号装置
JP2002010267A (ja) 動きベクトル変換装置及び方法
JP2002044669A (ja) 画像情報変換装置及び方法
JP6647432B2 (ja) 復号化方法
JP6735370B2 (ja) 復号化方法
JP6523495B2 (ja) 復号化方法
JP6311086B1 (ja) 画像の復号化装置および画像の復号化方法
WO2012077533A1 (ja) 画像復号化装置と動きベクトル復号化方法、画像符号化装置と動きベクトル符号化方法
JP6348562B2 (ja) 復号化装置および復号化方法
JP3500112B2 (ja) 画像符号化装置及び画像復号装置
JP5868909B2 (ja) 復号化方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13807358

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2014521485

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13807358

Country of ref document: EP

Kind code of ref document: A1